CN115804099A

CN115804099A - 场景描述的再现控制

Info

Publication number: CN115804099A
Application number: CN202280005383.4A
Authority: CN
Inventors: B·坎德洛尔; M·M·内贾特; P·辛塔尼; R·布兰查德
Original assignee: Sony Group Corp
Current assignee: Sony Group Corp
Priority date: 2021-02-08
Filing date: 2022-02-08
Publication date: 2023-03-14
Also published as: WO2022170368A1; US20220256156A1; KR20230087577A; JP2024505988A; US11729476B2; EP4268472A1

Abstract

提供一种用于场景描述的再现控制的媒体呈现设备和方法。所述媒体呈现设备检索包括一组拍摄场景和文本信息的媒体内容。所述文本信息包括视频描述信息和定时信息。所述视频描述信息描述所述一组拍摄场景中的拍摄场景。所述媒体呈现设备还从所述拍摄场景的文本信息中提取定时信息，以再现所述视频描述信息。所述媒体呈现设备还控制在由所述提取的拍摄场景的定时信息指示的第一时间间隔以文本表示形式或以文本和音频表示形式再现所述视频描述信息。

Description

场景描述的再现控制

相关申请的交叉引用/引用包含

本申请要求2021年2月8日向美国专利和商标局提交的美国专利申请No.17/170,695的优先权。上面引用的每项申请均通过引用整体并入本文中。

技术领域

本公开的各个实施例涉及媒体再现控制。更具体地，本公开的各个实施例涉及用于场景描述的再现控制的媒体呈现设备和方法。

背景技术

媒体内容再现领域的最新进展导致了控制媒体内容的各个部分的各种技术的发展。通常，媒体内容(例如电影)可以包括可以在媒体呈现设备上同时呈现给一个或多个观众的不同部分，比如视频轨道和对应的音频轨道。在某些情况下，诸如视觉障碍或认知障碍者之类的观众在理解电影时可能会遇到问题，因为他们无法将媒体内容的场景中的元素、上下文、情节或情感可视化。连同视频轨道和音频轨道一起，某些媒体内容可以包括带有视频描述的音频作为媒体内容中的备选音频轨道，以进一步增强视觉障碍或认知障碍观众对媒体内容的体验。在某些场景中，视频描述是基于音频的，用于描述视频，因此得名“视频描述”。然而，应注意的是，在美国，联邦通信委员会(FCC)于2020年11月30日发布了2010年的21世纪通信和视频无障碍法案(FCC 20-155(2020))将该术语变更为“音频描述”。在本文档中，我们继续使用旧术语“视频描述”。叙述的描述增强了诸如视觉障碍或认知障碍者之类的观众对媒体内容的可访问性。这些视频描述被插入到预先录制的媒体内容中音频轨道(例如对话)之间的自然停顿中。在关于将视频描述包括在自然停顿中的某些场景中，或者编辑对应的视频描述以移除视频描述的一个或多个相关部分，或者增加自然停顿的持续时间，使得视频描述可以容纳在自然停顿的对应持续时间内。在这种场景下，移除视频描述中的相关部分或增加媒体内容的音频轨道的持续时间可能是不可取的，并且可能导致观众的不愉快和低质量的内容体验。此外，由于视频描述被插入到媒体内容对话的自然停顿中，认知障碍者通常不能很好地理解，作为自然衰老过程的一部分，并且可能无法理解视频描述。因此，需要一种可以有效地控制视频描述，以向观众(例如视觉障碍或认知障碍者)提供媒体内容的改进体验的增强设备。

如在本申请的其余部分中并参考附图所述，通过将所描述的系统与本公开的一些方面进行比较，常规的传统方法的更多限制和缺点对本领域的技术人员来说将变得显而易见。

发明内容

如在权利要求书中更完整地所述，提供一种基本上如在附图至少之一中所示和/或结合附图至少之一所述的用于场景描述的再现控制的媒体呈现设备和方法。

通过仔细研究本公开的以下详细说明以及附图，可以理解本公开的这些及其他特征和优点，附图中，相同的附图标记始终表示相同的部分。

附图说明

图1是图解说明按照本公开的实施例，用于场景描述的再现控制的示例性网络环境的框图。

图2是图解说明按照本公开的实施例，用于场景描述的再现控制的示例性媒体呈现设备的框图。

图3A-图3B是共同图解说明根据本公开的实施例，用于场景描述的再现控制的示例性场景的示图。

图4是图解说明按照本公开的实施例，用于场景描述的再现控制的另一个示例性场景的示图。

图5是图解说明按照本公开的实施例，用于场景描述的再现控制的示例性操作的第一流程图。

图6是图解说明按照本公开的实施例，用于场景描述的再现控制的示例性操作的第二流程图。

具体实施方式

以下说明的实现可以在所公开的用于场景描述的动态再现控制，以增强观众(比如视觉障碍或认知障碍用户)的媒体内容体验的媒体呈现设备和方法中找到。本公开的示例性方面提供一种可被配置为检索可以包括一组拍摄场景的媒体内容(例如电影)的媒体呈现设备(例如电视机)。媒体内容还可以包括文本信息，所述文本信息还可以包括视频描述信息(例如，可以描述所述一组拍摄场景中的拍摄场景的视频、情节或场景描述)，以及再现所述视频描述信息的定时信息。所述定时信息可以包括关于间隙或停顿(即，媒体内容的音频部分中的间隙)的信息，所述间隙或停顿可以容纳文本表示或音频表示，或视频描述信息的组合。媒体呈现设备可以从拍摄场景的文本信息中提取定时信息以再现视频描述信息。媒体呈现设备可被配置为控制在第一时间间隔(即，由所提取的拍摄场景的定时信息指示)，以音频表示形式，以文本表示形式，或者以文本表示和音频表示形式再现视频描述信息。

在另一个实施例中，文本信息还可以包括再现视频描述信息的速度信息。速度信息可以包括关于用于重放与定时信息对应的视频描述信息的音频表示的重放速度的信息。媒体呈现设备可以从拍摄场景的文本信息中提取速度信息，以再现视频描述信息的音频表示。媒体呈现设备可被配置为基于所提取的速度信息，控制在第一时间间隔(即，由所提取的拍摄场景的定时信息指示)再现视频描述信息的音频表示。

在另一个实施例中，媒体呈现设备可被配置为检索媒体内容，所述媒体内容可以只包括一组拍摄场景和视频描述信息，所述视频描述信息可以描述所述一组拍摄场景中的拍摄场景，但是可以不包括定时信息和速度信息。媒体呈现设备可被配置为确定拍摄场景的一组第二时间间隔，其中所述一组第二时间间隔中的每一个可以指示用于拍摄场景中的音频部分(例如对话)的再现的时间间隔。媒体呈现设备还可被配置为确定第三时间间隔，第三时间间隔可以对应于呈现拍摄场景的视频描述信息(即，场景描述)的音频表示的持续时间。媒体呈现设备还可被配置为确定一组第二时间间隔之间的第一时间间隔(即，间隙或停顿)以包括视频描述信息的音频表示，并且还基于所确定的一组第二时间间隔和所确定的第三时间间隔，控制所包括的视频描述信息的音频表示的再现速度。

在另一个实施例中，媒体呈现设备可以直接在与媒体呈现设备102关联的显示设备上呈现视频描述信息(例如以文本格式或文本表示的形式)。视频描述信息的文本可以覆盖在检索到的媒体内容上，或者覆盖在可以在显示设备上呈现的检索到的内容之外。在另一个实施例中，视频描述信息的文本可以可选地与隐藏字幕信息(即，与媒体内容的音频部分或对话相关的隐藏字幕)一起显示。这可能是有利的，因为如果视频描述信息较长且用户可能需要更多时间来读取呈现在显示设备上的视频描述信息，则媒体内容可以由媒体呈现设备的用户手动控制(暂停和播放)。

与其中可以移除视频/场景描述的相关部分或者可以增加停顿/间隙的长度的持续时间，以将场景描述包括在媒体内容的停顿/间隙中的常规解决方案相比，所公开的媒体呈现设备可以能够基于可以与媒体内容一起检索的速度，或者可以基于检测到的拍摄场景的对话之间的间隙/停顿的持续时间动态确定的速度，再现视频描述信息(即，场景或视频描述)的音频表示。媒体呈现设备可以基于在拍摄场景中识别的自然停顿或间隙的持续时间以及所定义的与媒体呈现设备关联的速度设定来增加/降低视频描述信息的音频表示的重放速度。因此，场景/视频描述的总体再现质量不会受到损害，这可以进一步实时地增强观众(即，视觉障碍或认知障碍观众)的内容体验。

此外，与可以以音频形式接收视频或场景描述的常规解决方案相比，所公开的媒体呈现设备可被配置为接收媒体内容中的文本格式的场景描述或者将文本格式的场景描述包括在媒体内容中，并且进一步将场景描述的文本信息转换成音频表示。应注意的是，可选地，视频描述信息可以被保持为直接在显示设备上呈现的文本(即，如果媒体内容被抽取，则覆盖在媒体内容上或在媒体内容之外)。于是，文本格式的场景描述的包含或传送可以节省在两个设备之间以音频形式传输视频描述所需的适当带宽。因此，与基本上复制音频轨道-一个音频轨道具有视频描述信息，而另一个音频轨道没有视频描述信息的常规解决方案相比，所公开的媒体呈现设备可以提供带宽的有效利用。另外，视频描述的文本版本可以允许进行单词搜索，以便定位电影或电视节目中的特定场景。

图1是图解说明按照本公开的实施例，用于场景描述的再现控制的示例性网络环境的框图。参考图1，图中示出了网络环境100。网络环境100可以包括媒体呈现设备102、显示设备104、音频呈现设备106、服务器108和通信网络110。媒体呈现设备102可以经由通信网络110通信耦接到显示设备104、音频呈现设备106、服务器108。媒体呈现设备102可以配置有空中地面调谐器(未示出)，使得当连接到天线时，可以接收媒体内容112。在图1中，媒体呈现设备102和显示设备104被表示为两个单独的设备；然而，在一些实施例中，显示设备104的整个功能可以包括在媒体呈现设备102中，而不偏离本公开的范围。

此外在图1中，尽管音频呈现设备106被示出为与媒体呈现设备102和/或显示设备104分离，但是本公开不限于此。在一些实施例中，音频呈现设备106可以集成在媒体呈现设备102和/或显示设备104中，而不偏离本公开的范围。参考图1，图中还示出了可以包括一组拍摄场景114、音频部分116和文本信息118的媒体内容112。如图1中所示，所述一组拍摄场景114可以包括第一拍摄场景114A、第二拍摄场景114B以及第N拍摄场景114N。所述一组拍摄场景114中的每一个可以包括多个镜头，所述多个镜头可以组合起来以构成对应的拍摄场景。文本信息118还可以包括视频描述信息118A和定时信息118B。在一些实施例中，文本信息还可以包括速度信息118C。视频描述信息118A可以包括关于一组拍摄场景114中的至少一个拍摄场景(例如第一拍摄场景114A)的描述。在一些实施例中，包括多个镜头的一组拍摄场景114中的每一个还可以包括与音频部分116关联的一个或多个图像帧或部分。图中还示出了可以与媒体呈现设备102关联的用户120。例如，用户120可以是媒体内容112的观众，并且可以是视觉障碍或认知障碍观众。

媒体呈现设备102可以包括可被配置为从远程源(比如服务器108)或从媒体呈现设备104的存储器(即，图2中的存储器204)检索媒体内容112的适当逻辑、电路、接口和或代码。在一些实施例中，可以在地面调谐器的帮助下通过空中检索媒体内容112。在某些场景下，可使用先进电视制式委员会(ATSC)或ATSC 3.0标准来数字地接收媒体内容112。

媒体内容112可以包括文本信息118，文本信息118还可以包括视频描述信息118A、定时信息118B和速度信息118C。视频描述信息118A可以描述一组拍摄场景114中的拍摄场景(比如第一拍摄场景114A)。媒体呈现设备102可被配置为从第一拍摄场景114A的文本信息118中提取定时信息118B。定时信息118B可以被媒体呈现设备102用于再现视频描述信息。在一些实施例中，媒体呈现设备还可以使用速度信息118C和定时信息118B来再现视频描述信息。媒体呈现设备102还可被配置为控制在由所提取的拍摄场景的定时信息指示的第一时间间隔，以文本表示形式，以音频表示形式，或者以文本表示和音频表示形式再现视频描述信息。在一些其他实施例中，媒体呈现设备102还可被配置为基于所提取的速度信息118C，控制在由所提取的拍摄场景的定时信息指示的第一时间间隔再现视频描述信息的音频表示。

在另一个实施例中，媒体呈现设备102可以从远程源(比如服务器108)或从媒体呈现设备104的存储器(即，图2中的存储器204)检索媒体内容112。媒体内容可以包括视频描述信息118A，视频描述信息118A可以描述一组拍摄场景114中的拍摄场景(比如第一拍摄场景114A)。媒体呈现设备102可被配置为确定用于第一拍摄场景114A的音频部分116的再现的一组第二时间间隔，并且确定再现视频描述信息118A的音频表示的第三时间间隔。媒体呈现设备102还可被配置为基于所确定的一组第二时间间隔和第三时间间隔来确定再现视频描述信息118A的音频表示的速度。媒体呈现设备102的例子可以包括但不限于数字媒体播放器(DMP)、智能电视媒体播放器、过顶(OTT)播放器、数字媒体流媒体服务器、媒体扩展器/调节器、数字媒体中心、媒体内容控制器、电视机、计算机工作站、大型计算机、手持计算机、移动电话机、智能电话机、蜂窝电话机、智能家电、个人数字助理(PDA)、智能扬声器、智能眼镜、音响系统、头戴式设备(HMD)、耳麦、智能头戴式耳机和/或具有音频-视频呈现能力的其他计算设备。

显示设备104可以包括可被配置为显示存在于所检索的媒体内容112中的一组拍摄场景114的适当逻辑、电路和接口。显示设备104还可被配置为以文本格式显示视频描述信息118A。显示设备104可以是触摸屏，触摸屏使用户能够经由显示设备104提供用户输入。触摸屏可以是电阻式触摸屏、电容式触摸屏或热触摸屏中的至少一个。显示设备104可以通过若干已知技术来实现，比如但不限于液晶显示器(LCD)显示器、发光二极管(LED)显示器、等离子体显示器或有机LED(OLED)显示技术中的至少一种，或者其他显示设备。按照实施例，显示设备104可以指的是头戴式设备(HMD)、智能眼镜设备、透视显示器、基于投影的显示器、电致变色显示器或透明显示器的显示屏。

音频呈现设备106可以包括可被配置为再现或重放视频描述信息118A(即，场景或视频描述)的音频表示的适当逻辑、电路和接口。音频呈现设备106还可被配置为再现第一拍摄场景114A或一组拍摄场景114的音频部分116(例如对话)。音频呈现设备106的例子可以包括但不限于扬声器、壁式/天花板式扬声器、音箱、低音扬声器或超低音扬声器、声卡、头戴式耳机、耳麦、无线扬声器和/或具有音频再现能力的其他计算设备。

服务器108可以包括可被配置为存储媒体内容112的适当逻辑、电路、接口和代码。服务器108可以从媒体呈现设备102接收检索存储在服务器108中的媒体内容112的请求。在一些实施例中，服务器108可被配置为存储定义的速度设定，所述速度设定可以指示再现视频描述信息118A(即，场景描述)的音频表示的最大速度。服务器108可以被实现为可以通过web应用、云应用、HTTP请求、存储库操作、文件传送等来执行操作的云服务器。服务器108的其他例子可以包括但不限于数据库服务器、文件服务器、web服务器、媒体服务器、应用服务器、大型机服务器、云服务器或其他类型的服务器。在一个或多个实施例中，服务器108可以通过使用本领域技术人员公知的若干技术实现为多个分布式基于云的资源。本领域普通技术人员会理解的是，本公开的范围可以不限于将服务器108和媒体呈现设备102实现为单独的实体。在某些实施例中，服务器108的功能可以全部或至少部分地并入媒体呈现设备102中，而不脱离本公开的范围。

通信网络110可以包括通信介质，媒体呈现设备102、显示设备104、音频呈现设备106和服务器108可以通过该通信介质相互通信。通信网络110可以是有线或无线通信网络。通信网络110的例子可以包括但不限于因特网、云网络、无线保真(Wi-Fi)网络、个人区域网络(PAN)、局域网(LAN)或城域网(MAN)。网络环境100中的各种设备可被配置为按照各种有线和无线通信协议连接到通信网络110。这种有线和无线通信协议的例子可以包括但不限于传输控制协议和网际协议(TCP/IP)、用户数据报协议(UDP)、超文本传输协议(HTTP)、文件传输协议(FTP)、Zig Bee、EDGE、IEEE 802.11、光保真(Li-Fi)、802.16、IEEE 802.11s、IEEE 802.11g、多跳通信、无线接入点(AP)、设备对设备通信、蜂窝通信协议和蓝牙(BT)通信协议中的至少一个。

操作中，所公开的媒体呈现设备102可以接收来自用户120的再现媒体内容112的请求。媒体内容112的例子可以包括但不限于视频剪辑、电影、广告、音频-视频内容、游戏内容或幻灯片剪辑。基于该请求，媒体呈现设备102可以从远程源(比如服务器108)或从媒体呈现设备102的存储器(比如图2的存储器204)检索媒体内容112。媒体内容112可以包括一组拍摄场景114、音频部分116和文本信息118。文本信息118可以包括视频描述信息118A，视频描述信息118A可以描述一组拍摄场景114中的拍摄场景(例如第一拍摄场景114A)，并且可以是文本格式的。在一些实施例中，视频描述信息118A可以描述存在于媒体内容112中的一组拍摄场景114中的每一个。在实施例中，媒体呈现设备102还可被配置为将第一拍摄场景114A的视频描述信息118A(例如，为文本形式)转换为视频描述信息118A的音频表示。文本信息118还可以包括定时信息118B。定时信息118B可以指示其中可以容纳和再现视频描述信息118A的音频表示的第一时间间隔。在另一个实施例中，文本信息118还可以包括速度信息118C。速度信息118C可以指示用于在由定时信息118B指示的特定时间间隔(比如第一时间间隔)期间，再现视频描述信息118A的音频表示的重放速度。媒体呈现设备102还可被配置为从第一拍摄场景114A的文本信息118中提取定时信息118B。媒体呈现设备102还可被配置为控制在由所提取的一组拍摄场景114中的第一拍摄场景114A的定时信息118B指示的第一时间间隔，以文本表示形式，以音频表示形式，或者以文本表示和音频表示形式再现视频描述信息118A。在一些其他实施例中，媒体呈现设备102还可被配置为提取速度信息118C。在这种情况下，媒体呈现设备102还可被配置为基于提取的速度信息118C，控制在由所提取的一组拍摄场景114中的第一拍摄场景114A的定时信息118B指示的第一时间间隔再现视频描述信息118A的音频表示。

在另一个实施例中，媒体呈现设备102可以确定第一拍摄场景114A的一组第二时间间隔，其中所述一组第二时间间隔中的每一个可以指示用于一组拍摄场景114中的第一拍摄场景114的音频部分116(即，对话)的再现的时间间隔。媒体呈现设备102还可被配置为确定再现第一拍摄场景114A的视频描述信息118A的音频表示所需的第三时间间隔。第三时间间隔可以对应于再现第一拍摄场景114A的视频描述信息118A的音频表示所用的时间或所需的持续时间。所述一组第二时间间隔和第三时间间隔的细节例如在图4中说明。

媒体呈现设备102还可被配置为确定再现视频描述信息118A的音频表示的速度。所确定的速度例如可以是在第一拍摄场景114A的重放期间，可以为用户120再现视频描述信息118A的音频表示的速率。再现视频描述信息118A的音频表示的速度可以基于所确定的一组第二时间间隔和所确定的第三时间间隔来确定。在一些实施例中，所确定的速度可以低于视频描述信息118A的音频表示的实际重放速度。在一些其他实施例中，所确定的速度可以高于视频描述信息118A的音频表示的实际重放速度。基于所确定的一组第二时间间隔和所确定的第三时间间隔来确定再现视频描述信息118A的音频表示的速度的细节例如在图4中说明。

媒体呈现设备102还可被配置为基于所确定的速度来控制视频描述信息118A的音频表示的再现。可以在第一时间间隔(例如第一拍摄场景114A的对话之间的间隙)再现视频描述信息118A的音频表示。第一时间间隔可以不同于所述一组第二时间间隔。在一些实施例中，第一时间间隔可以是第一拍摄场景114A的第一对话词语和第二对话词语之间的间隔(即，间隙)。第一对话词语可以对应于第一拍摄场景114A的镜头(例如第一镜头)的最后一个词语，而第二对话词语可以对应于第一拍摄场景114A的下一个镜头(例如第二镜头)的第一个词语。第一镜头和第二镜头可以是第一拍摄场景114A的连续镜头。在另一个实施例中，第一时间间隔可以是第一拍摄场景114A的开始和第一拍摄场景114的第一对话词语之间的间隔(即，间隙)。在实施例中，在第一时间间隔(即，间隙)可能小于第三时间间隔的情况下，媒体呈现设备102可以将再现视频描述信息118A的音频表示的速度确定为高于视频描述信息118A的音频表达的实际重放速度。在另一个实施例中，在第一时间间隔(即，间隙)可能高于第三时间间隔的情况下，媒体呈现设备102可以将再现视频描述信息118A的音频表示的速度确定为低于音频表示的实际重放速度。视频描述信息118A(即，第一拍摄场景114A的描述)的音频表示的再现速度的增加或降低可以在没有任何重大修改(像描述的内容的减少)的情况下再现场景描述，并且还可以为诸如视觉障碍或认知障碍观众之类的用户120维持场景/视频描述的质量。

在不脱离本公开的范围的情况下，可以对图1进行修改、添加或省略。例如，网络环境100可以包括比本公开中例示和说明的元件更多或更少的元件。例如，在一些实施例中，网络环境100可以包括媒体呈现设备102，但不包括显示设备104。另外，在一些实施例中，在不偏离本公开的范围的情况下，音频呈现设备106中的每一个的功能可以并入显示设备104中。

图2是图解说明按照本公开的实施例，用于场景描述的再现控制的示例性媒体呈现设备的框图。结合图1的要素来说明图2。参考图2，图中示出了媒体呈现设备102的框图200。媒体呈现设备102可以包括电路202，电路202可以进行控制场景或视频描述的再现的操作。媒体呈现设备102还可以包括存储器204、输入/输出(I/O)设备206、文本-语音转换器208、网络接口210、显示设备104和音频呈现设备106。存储器204可以包括机器学习(ML)模型212。电路202可以通信耦接到存储器204、I/O设备206、文本-语音转换器208、网络接口210、显示设备104和音频呈现设备106。

电路202可以包括可被配置为执行与要由媒体呈现设备102执行的不同操作关联的程序指令的适当逻辑、电路和接口。例如，一些操作可以包括媒体内容112的检索，定时信息118B和/或速度信息118C的提取，以及基于提取的定时信息118B和速度信息118C，在第一时间间隔的视频描述信息118A的文本表示或音频表示或文本表示和音频表示的再现。电路202可以包括一个或多个专用处理单元，所述一个或多个专用处理单元可以被实现为单独的处理器。在一个实施例中，所述一个或多个专用处理单元可以被实现为集成处理器或共同进行所述一个或多个专用处理单元的功能的处理器集群。电路202可以基于本领域已知的许多处理器技术来实现。电路202的实现的例子可以是基于x86的处理器、图形处理单元(GPU)、精简指令集计算(RISC)处理器、专用集成电路(ASIC)处理器、复杂指令集计算(CISC)处理器、微控制器、中央处理单元(CPU)和/或其他控制电路。

存储器204可以包括可被配置为存储要由电路202执行的指令的适当逻辑、电路、接口和/或代码。存储器204可被配置为存储媒体内容112、文本信息118和定义的速度设定，所述速度设定可以指示再现视频描述信息118A的音频表示的最大速度。存储器204还可被配置为存储经过训练的机器学习(ML)模型212，机器学习(ML)模型212可被配置为基于拍摄场景(比如第一拍摄场景114A)的上下文信息来确定音频特性。ML模型212的详细功能例如在图4中说明。存储器204还可被配置为存储用户的简档信息。存储器204的实现的例子可以包括但不限于随机存取存储器(RAM)、只读存储器(ROM)、电可擦可编程只读存储器(EEPROM)、硬盘驱动器(HDD)、固态驱动器(SSD)、CPU高速缓冲存储器和/或安全数字(SD)卡。

I/O设备206可以包括可被配置为接收输入并基于所接收的输入提供输出的适当逻辑、电路和接口。I/O设备206可被配置为接收与拍摄场景的描述相对应的第一用户输入。I/O设备还可被配置为经由显示设备104和音频呈现设备106控制媒体内容112的重放。可以包括各种输入和输出设备的I/O设备206可被配置为与电路202通信。I/O设备206的例子可以包括但不限于显示设备104、音频呈现设备106、触摸屏、键盘、鼠标、操纵杆和麦克风。

文本-语音转换器208可以包括可被配置为将至少描述一组拍摄场景114中的第一拍摄场景114A的视频描述信息118A转换为可以兼容以由音频呈现设备106再现的音频格式的适当逻辑、电路、接口和/或代码。转换后的音频在本文中可被称为视频描述信息118A的音频表示，并且可以在音频呈现设备106上呈现。文本-语音转换器208可以基于本领域已知的许多处理器技术来实现。处理器技术的例子可以包括但不限于中央处理单元(CPU)、基于x86的处理器、精简指令集计算(RISC)处理器、专用集成电路(ASIC)处理器、复杂指令集计算(CISC)处理器和其他处理器。

网络接口210可以包括可被配置为经由通信网络110便利电路202和服务器108之间的通信的适当逻辑、电路和接口。网络接口210可以通过使用各种已知技术来实现，以支持媒体呈现设备102与通信网络110的有线或无线通信。网络接口210可以包括但不限于天线、射频(RF)收发器、一个或多个放大器、调谐器、一个或者多个振荡器、数字信号处理器、编解码器(CODEC)芯片集、用户识别模块(SIM)卡或本地缓冲电路。网络接口210可被配置为经由无线通信与网络，比如因特网、内联网或诸如蜂窝电话网络、无线局域网(LAN)和城域网MAN之类的无线网络进行通信。无线通信可被配置为使用多种通信标准、协议和技术中的一种或多种，比如全球移动通信系统(GSM)、增强数据GSM环境(EDGE)、宽带码分多址接入(W-CDMA)、长期演进(LTE)、码分多址接入(CDMA)、时分多址接入(TDMA)、蓝牙、无线保真(Wi-Fi)(比如IEEE 802.11a、IEEE802.11b、IEEE 802.11g或IEEE 802.11n)、语音传输协议(VoIP)、光保真(Li-Fi)、微波接入全球互操作性(Wi-MAX)、电子邮件协议、即时消息接发以及短消息服务(SMS)。

图3A是图解说明按照本公开的实施例，用于场景描述的再现控制的示例性场景的示图。结合图1和图2的要素来说明图3A。参考图3A，图中示出了示例性场景300。在示例性场景300中，示出了媒体呈现设备302(即，类似于媒体呈现设备102)。参考图3A，图中还示出了与媒体呈现设备302关联的显示设备104和音频呈现设备106。媒体呈现设备302可以控制显示设备104和音频呈现设备106呈现媒体内容。媒体内容的例子可以包括但不限于视频剪辑、电影、音频-视频内容、游戏内容、广告或幻灯片剪辑。媒体内容可以包括一组拍摄场景(比如图1中的一组拍摄场景114)，所述一组拍摄场景可以包括显示在显示设备104上的拍摄场景304(如图3A中所示)。

可以注意到的是，图3A中所示的拍摄场景304只是作为汽车场景的例子给出的。本公开还可以适用于其他类型的拍摄场景(比如但不限于动作场景、戏剧场景、浪漫场景、情感场景、舞蹈场景、音乐场景、恐怖场景或爱情场景)。为了简洁起见，本公开中省略了对其他类型的拍摄场景的说明。可以进一步注意到的是，图3A中所示的显示设备104只是作为电视机的例子给出的。本公开也可以适用于例如如图1中所述的其他类型的显示设备。为了简洁起见，本公开中省略了对其他类型的此类显示设备的说明。可以进一步注意到的是，图3A中所示的音频呈现设备106只是作为扬声器的例子给出的。本公开还可以适用于例如如图1中所述的其他类型的音频呈现设备。为了简洁起见，本公开中省略了对其他类型的此类音频呈现设备的说明。

在实施例中，媒体内容的一组拍摄场景中的每一个可以包括音频部分、图像部分和文本信息306。音频部分可以包括可以经由音频呈现设备106呈现的音频格式的媒体内容的一组拍摄场景中的每一个的一个或多个对话。每个场景中的图像部分可以包括可以在显示设备104上呈现的一个或多个图像帧。

文本信息306还可以包括视频描述信息306A、定时信息和/或速度信息。视频描述信息306A可以描述一组拍摄场景中的拍摄场景(比如拍摄场景304或第一拍摄场景114A)，其中拍摄场景304可以显示在显示设备104上。在一些实施例中，视频描述信息306A可以描述一组拍摄场景中的每个拍摄场景。视频描述信息306A或拍摄场景的描述的例子可以包括但不限于对拍摄场景中的一个或多个装饰的描述、对场景中的照明条件的描述、对拍摄场景的位置的描述、对拍摄场景内的摄像机运动的描述、对拍摄场景的背景信息的描述、对拍摄场景的环境条件的描述、对拍摄场景内的镜头之间的转换的描述、对包括在拍摄场景中的文本的描述、对拍摄场景中描绘的人物的描述、对拍摄场景中描绘的人物的心态/情感的描述、对拍摄场景中描绘的人物之间的空间关系的描述、对拍摄场景中描绘的人物的物理属性的描述、对拍摄场景中描绘的人物的身体表情的描述、对拍摄场景中描绘的人物的面部表情的描述、对拍摄场景中描绘的人物的移动的描述，对拍摄场景中描绘的人物的职业或角色的描述，以及对拍摄场景中描绘的人物的服装的描述。

按照实施例，电路202可被配置为从媒体呈现设备302的存储器204检索包括一组拍摄场景和文本信息306的媒体内容。在一些实施例中，电路202可被配置为向服务器108发送对媒体内容的请求。基于发送的请求，可以从服务器108接收媒体内容(所述媒体内容可以包含一组拍摄场景和文本信息306)。存在于文本信息306中的视频描述信息306A可以以文本格式(而不是以音频格式)接收，这可以在服务器108和媒体呈现设备302之间的文本信息306的通信期间进一步节省带宽。文本格式的文本信息306可以进一步节省存储器204或服务器108中的存储空间。在实施例中，可以在媒体内容的重放之前，从媒体内容中检索一组拍摄场景中的每一个和文本信息306。在一些其他实施例中，在重放特定拍摄场景(例如当前拍摄场景)时，电路202可以检索下一个拍摄场景的文本信息306以进行进一步处理(例如，提取定时信息和速度信息，或计算再现下一个拍摄场景的视频描述信息306A的音频再现的速度)。

在实施例中，拍摄场景304可以包括多个镜头，比如第一镜头和第二镜头。拍摄场景304可以包含多个有生命对象和无生命对象。例如，在图3A中，有生命对象可以包括但不限于第一人308(例如，名字为“乔治”)和第二人310(例如，名字为“杰克”)。图3A中所示的无生命对象可以包括但不限于汽车312。在图3A中，还示出了时间轴314。时间轴314可指示可以再现拍摄场景304的时间间隔(例如，以秒、分钟或小时为单位)。在时间轴314中指示的总时间可以是呈现与拍摄场景304关联的所有图像帧和/或音频帧的再现时间。

如图3A中所示，拍摄场景304可以包括第一音频部分316A和第二音频部分316B，作为拍摄场景304的音频部分316。第一音频部分316A和第二音频部分316B中的每一个可以包括与在拍摄场景304中捕获的第一人308和/或第二人310对应的对话词语(比如，图3A中所示的“乔治：嘿，杰克！你要去哪里”和“杰克：我要去工作”)。作为例子，如图3A中所示，在与拍摄场景304关联的时间轴314中，从时间t₀到t₁，可以存在可对应于第一停顿318A的自然停顿。在时间t₁到t₂之间，第一个人308可能会说“嘿，杰克！你要去哪里？”，作为对话或第一音频部分316A。此外，从时间t₂到t₃，可以存在可对应于第二停顿318B的另一个自然停顿。在时间t₃到t₄，第二人310可以用对话，例如“我要去工作”来响应第一人308，作为对话或第二音频部分316B。从时间t₄到t₅，可以存在可对应于第三停顿318C的另一个自然停顿。

作为例子，所检索的可以包括视频描述信息306A和定时信息的文本信息306如下在表1中所示：

S,No	视频描述	时间间隔
			1.	杰克正在开车时，乔治看着杰克	t<sub>2</sub>到t<sub>3</sub>
2.	视频描述1	t<sub>A</sub>到t<sub>B</sub>
			3.	视频描述2	t<sub>C</sub>到t<sub>D</sub>

表1：文本信息

可以注意到的是，文本信息306中的行数只是作为例子给出的。基于包括在拍摄场景304中的视频描述的数量，文本信息306可以包括更多或更少的行数。

电路202还可被配置为从拍摄场景304的文本信息306中提取定时信息。可以提取定时信息以再现文本信息306的视频描述信息306A。定时信息可以指示时间轴314中的第一时间间隔(例如，作为第二停顿318B的时间间隔t₂到t₃)，其中可以容纳视频描述信息306A的文本表示或音频表示或文本表示和音频表示两者以进行再现。

在另一个实施例中，电路202还可被配置为从拍摄场景304的文本信息306中提取速度信息。类似于定时信息，可以提取速度信息以再现文本信息306的视频描述信息306A。速度信息可以指示在由定时信息118B指示的第一时间间隔(即，第二停顿318B)期间，再现视频描述信息306A的音频表示的重放速度。作为例子，所检索的可以包括视频描述信息306A、定时信息和速度信息的文本信息306如下在表2中所示：

S.NO	视频描述	时间间隔	再现速度
				1.	杰克正在开车时，乔治看着杰克	t<sub>2</sub>到t<sub>3</sub>	1.6X
2.	视频描述1	t<sub>A</sub>到t<sub>B</sub>	0.5X
				3.	视频描述2	t<sub>C</sub>到t<sub>D</sub>	2.0X

表2：文本信息

在文本表示的情况下，电路202可被配置为在由所提取的拍摄场景304的定时信息指示的第一时间间隔(即，第二停顿318B)，在显示设备104上呈现(存在于文本信息306中的)视频描述信息306A。关于视频描述信息306A的文本再现的细节例如在图3B中提供。

在音频表示的情况下，电路202还可被配置为控制文本-语音转换器208将检索到的存在于拍摄场景304的文本信息306中的视频描述信息306A转换为视频描述信息306A的音频表示。电路202可以控制在由所提取的拍摄场景304的定时信息指示的第一时间间隔(即，第二停顿318B)再现视频描述信息306A的音频表示。视频描述信息306A的音频表示的再现可以基于所提取的速度信息。

在文本表示和音频表示两者的情况下，当视频描述信息306A的音频表示可以经由音频呈现设备106呈现时，还可以在第一时间间隔(即，t₂到t₃)期间在显示设备104上呈现(例如以文本形式)视频描述信息306A。按照表2，电路202可以控制以拍摄场景304的视频描述信息306A的音频表示的实际重放速度的1.6X的速度，在第一时间间隔(即，t₂到t₃)期间再现视频描述信息306A(例如“杰克正在开车时，乔治看着杰克”)的音频表示。实际重放速度可以对应于可以呈现媒体内容的音频的速率或速度(即，1X速度)。实际重放速度可以是在捕获拍摄场景404时记录音频部分116的速率或速度。再现视频描述信息306A的音频表示的第一时间间隔(即，图3A中所示的t₂到t₃)可以由包括在文本信息306中的定时信息来指示，并且可以按其再现视频描述信息306A的音频表示的速度(即，1.6X)可以由包括在文本信息306中的速度信息来指示。

作为例子而非限制，按照表1，电路202可以控制在时间间隔t_A到t_B期间，再现视频描述信息306A(“视频描述1”)的文本表示或者文本表示和音频表示两者。作为另一个例子而非限制，按照表1，电路202可以控制以拍摄场景304的视频描述信息306A的音频表示的实际重放速度的0.5X的速度，在时间间隔t_A到t_B期间再现视频描述信息306A(“视频描述1”)的音频表示。于是，所公开的媒体呈现设备302可以允许基于(比方说以文本形式)包含在可以经由显示设备104和音频呈现设备106再现的媒体内容的文本信息306中的定时信息和速度信息，控制(以文本表示形式，以音频表示形式，或者以文本表示和音频表示两者的形式)再现视频描述信息306A的定时和/或速度。

在实施例中，电路202可被配置为在呈现媒体内容之前或期间，在显示设备104上向用户112显示一组选项。该组选项中的第一选项可以对应于视频描述信息的音频表示的选择(即，视频描述信息将以音频格式呈现)。该组选项的第二选项可以对应于视频描述信息的文本表示的选择(即，视频描述信息将以文本格式呈现)。类似地，该组选项中的第三选项可以对应于视频描述信息的音频表示以及文本表示的选择(即，视频描述信息将以音频表示和文本表示两者的形式同时呈现)。在一些实施例中，电路202可以从用户120的用户简档确定用户对视频描述信息的再现的偏好。电路202还可以基于用户偏好控制视频描述信息的再现(以文本格式、音频格式或这两种格式)。

参考图3B，图中示出了还可以包括显示设备104和音频呈现设备106的媒体呈现设备302。媒体呈现设备302可以控制显示设备104和音频呈现设备106呈现媒体内容。媒体内容可以包括一组拍摄场景(比如图1中的一组拍摄场景114)，所述一组拍摄场景可以包括显示在显示设备104上的拍摄场景304(如图3A中所示)。

在实施例中，媒体内容的一组拍摄场景中的每一个可以包括音频部分、图像部分、文本信息306和隐藏字幕信息320。音频部分可以包括可以经由音频呈现设备106呈现的音频格式的媒体内容的一组拍摄场景中的每一个的一个或多个对话。每个场景中的图像部分可以包括可以在显示设备104上呈现的一个或多个图像帧。隐藏字幕信息320可以以在拍摄场景304的重放期间，可以呈现在显示设备104上的文本格式(如图3B中所示)表示拍摄场景304的音频部分116。隐藏字幕信息320可被视为拍摄场景304的音频部分的转录。在一些实施例中，视频描述信息306A(即，场景描述)可以与媒体内容中的隐藏字幕信息320一起编码。

在实施例中，拍摄场景304可以包括多个镜头，比如第一镜头和第二镜头。拍摄场景304可以包含多个有生命对象和无生命对象。例如，在图3B中，有生命对象可以包括但不限于第一人308(例如，名字为“乔治”)和第二人310(例如，名字为“杰克”)。图3B中所示的无生命对象可以包括但不限于汽车312。

在实施例中，如图3B中所示，第一时间间隔(“t₂到t₃”)期间的视频描述信息306A“杰克正在开车时，乔治看着杰克”可以在第一时间间隔(即，图3A中所示的t₂到t₃)期间以文本格式呈现在显示设备104上。在另一个实施例中并且按照表2，电路202可以控制以拍摄场景304的视频描述信息306A的音频表示的实际重放速度(即，1.0X速度)的1.6X的速度，在第一时间间隔(“t₂到t₃”)期间再现视频描述信息306A“杰克正在开车时，乔治看着杰克”的音频表示。在实施例中，如图3B中所示，视频描述信息306A也可以连同隐藏字幕信息320的显示一起，在第一时间间隔(即，图3A中所示的t₂到t₃)期间以文本格式呈现在显示设备104上，而视频描述信息306的音频表示可以经由音频呈现设备106呈现。视频描述信息306A和隐藏字幕信息320可以以在显示拍摄场景304时可以覆盖在图像部分(比如图像帧)上的文本格式呈现在显示设备104上，如图3B中所示。在一些实施例中，代替视频描述信息306A的音频表示的再现，可以在第一时间间隔(t₂至t₃)期间在显示设备104上同时呈现视频描述信息306和隐藏字幕信息320。

图4是图解说明按照本公开的实施例，用于场景描述的再现控制的另一个示例性场景的示图。结合图1、图2、图3A和图3B的要素来说明图4。参考图4，图中示出了示例性场景400。在示例性场景400中，示出了媒体呈现设备402(即，类似于媒体呈现设备102)。参考图4，图中还示出了与媒体呈现设备402关联的显示设备104和音频呈现设备106。媒体呈现设备402可以控制显示设备104和音频呈现设备106呈现媒体内容。媒体内容可以包括一组拍摄场景(比如图1中的一组拍摄场景114)，所述一组拍摄场景可以包括显示在显示设备104上的拍摄场景404。

在实施例中，媒体内容的一组拍摄场景中的每一个可以包括音频部分、图像部分和视频描述信息406。在一些实施例中，一组拍摄场景中的每一个可以包括文本信息(比如文本信息306，文本信息306还可以包括视频描述信息406，例如，如图3A中所述)。音频部分可以包括可以经由音频呈现设备106呈现的音频格式的媒体内容的一组拍摄场景中的每一个的一个或多个对话。每个场景中的图像部分可以包括可以在显示设备104上呈现的一个或多个图像帧。视频描述信息406可以描述一组拍摄场景中的拍摄场景(比如拍摄场景404或第一拍摄场景114A)，其中拍摄场景404可以显示在显示设备104上。在一些实施例中，视频描述信息406可以描述所述一组拍摄场景中的每个拍摄场景。

按照实施例，电路202可被配置为从媒体呈现设备402的存储器204检索媒体内容(该媒体内容可以包括一组拍摄场景和视频描述信息406)。在一些实施例中，电路202可被配置为向服务器108发送对媒体内容的请求。基于发送的请求，可以从服务器108接收媒体内容(该媒体内容可以包含一组拍摄场景和视频描述信息406)。视频描述信息406可以以文本格式(而不是以音频格式)接收，这可以在服务器108和媒体呈现设备402之间的视频描述信息406的通信期间进一步节省带宽。文本格式的视频描述信息406可以进一步节省存储器204或服务器108中的存储空间。在实施例中，可以在媒体内容的重放之前，从媒体内容中检索一组拍摄场景中的每一个和视频描述信息406。在一些其他实施例中，在重放特定拍摄场景(例如当前拍摄场景)时，电路202可以检索下一个拍摄场景的视频描述信息406以进行进一步处理(例如，计算再现下一个拍摄场景的视频描述信息406的音频再现的速度)。

电路202还可被配置为控制文本-语音转换器208将检索到的拍摄场景404的视频描述信息406转换为视频描述信息406的音频表示。在一些实施例中，关于拍摄场景404的信息还包括隐藏字幕信息。隐藏字幕信息可以以在显示拍摄场景404时可以覆盖在图像部分(比如图像帧)上的文本格式表示拍摄场景404的音频部分116，例如，如图3B中所示。在一些实施例中，视频描述信息406(即，场景描述)可以与媒体内容中的隐藏字幕信息一起编码。

在实施例中，拍摄场景404可以包括多个镜头，比如第一镜头和第二镜头。拍摄场景404可以包含多个有生命对象和无生命对象。例如，在图4中，有生命对象可以包括但不限于第一人408(例如，名字为“乔治”)和第二人410(例如，名字为“杰克”)。图4中所示的无生命对象可以包括但不限于汽车412。在图4中，还示出了时间轴414。时间轴414可指示可以再现拍摄场景404的时间间隔(例如，以秒、分钟或小时为单位)。在时间轴414中指示的总时间可以是呈现与拍摄场景404关联的所有图像帧和/或音频帧的再现时间。时间轴414可以包括一组第二时间间隔416，该组第二时间间隔416可以对应于拍摄场景404中在第一人408和第二人410之间的会话期间所说的对话词语。

对于图4，可以假设媒体内容或文本信息(比如图1中所示的文本信息118)可以不包括定时信息和速度信息(即，例如图3A中所述的)。因此，所公开的媒体呈现设备102可以确定用于视频描述信息406的音频表示的再现的速度和第一时间间隔。按照实施例，电路202还可被配置为确定拍摄场景404的一组第二时间间隔416，拍摄场景404可以包括音频部分116(比如第一音频部分416A和第二音频部分416B)。该组第二时间间隔416中的每一个可以指示用于该组拍摄场景中的拍摄场景404的音频部分116的再现的时间间隔。例如，如图4中所示，拍摄场景404可以包括第一音频部分416A和第二音频部分416B，作为拍摄场景404的音频部分116。第一音频部分416A和第二音频部分416B中的每一个可以包括与在拍摄场景404中捕获的第一人408和/或第二人410对应的对话词语(比如，图4中所示的“乔治：嘿，杰克！你要去哪里”和“杰克：我要去工作”)。电路202可被配置为基于包括在拍摄场景404中的每个音频帧的音频分析来确定拍摄场景404的一组第二时间间隔416。在音频分析中，电路202可以将每个音频帧中的音频音量或音高与音频阈值(以dB为单位)进行比较，以确定可以包括与拍摄场景404关联的对话词语或音乐的一组第二时间间隔416。

在实施例中，电路202还可被配置为确定拍摄场景404的视频描述信息406的音频表示的第三时间间隔418(即，如图4中所示的从“t₀₀”到“t₀₁”的时间间隔)。第三时间间隔418可以对应于以视频描述信息406的音频表示的实际重放速度重放或再现视频描述信息406的音频表示所需的持续时间(例如，以某些秒为单位)。如果用户120选择显示视频描述信息406的选项，则该时间间隔也可以是视频描述信息406的文本形式可以显示在显示设备104上的持续时间(如图3B中所示)。实际重放速度可以对应于可以呈现媒体内容的音频的速率或速度(即，1X速度)。实际重放速度可以是在捕获拍摄场景404时记录音频部分116的速率或速度。在实施例中，第三时间间隔418可以基于视频描述信息406的大小。例如，在视频描述信息406中包含更多的词语来描述拍摄场景404的情况下，以实际重放速度再现视频描述信息406的音频表示的第三时间间隔418的持续时间可能更长。

按照实施例，电路202还可被配置为确定拍摄场景404的一组第四时间间隔420A-420C。该组第四时间间隔420A-420C中的每一个可以不同于一组第二时间间隔416，并且可以包括可以对应于拍摄场景404的时间轴414中的自然停顿(或间隙)的所有间隔。如图4中所示，该组第四时间间隔420A-420C可以包括第一停顿420A、第二停顿420B和第三停顿420C。电路202可被配置为基于包含在拍摄场景404中的每个音频帧的音频分析来确定拍摄场景404中的自然停顿或间隙(即，对应于该组第四时间间隔420A-420C)。在音频分析中，电路202可以将每个音频帧中的音频音量或音高与音频阈值(以dB为单位)进行比较。如果音频帧中的音频音量或音高小于音频阈值(比如说以dB为单位)，则可以将对应的音频帧确定为拍摄场景404中的自然停顿或间隙。电路202还可被配置为确定该组第四时间间隔420A-420C或持续时间，以再现所确定的停顿或间隙，比如包括在拍摄场景404中的第一停顿420A、第二停顿420B或第三停顿420C。

作为例子，如图4中所示，在与拍摄场景404关联的时间轴414中，从时间t₀到t₁，可以存在可对应于第一停顿420A的自然停顿。在时间t₁到t₂之间，第一个人408可能会说“嘿，杰克！你要去哪里？”，作为对话或音频部分116。此外，从时间t₂到t₃，可以存在可对应于第二停顿420B的另一个自然停顿。在时间t₃到t₄，第二人410可以用对话，例如“我要去工作”来响应第一人408。从时间t₄到t₅，可以存在可对应于第三停顿420C的另一个自然停顿。于是，如图4中所示，一组第二时间间隔416可以包括可以从时间t₁延伸到t₂的第一音频部分416A和可以从时间t₃延伸到t₄的第二音频部分416B。一组第四时间间隔420A-420C可以包括可以从时间t₀延伸到t₁的第一停顿420A，可以从时间t₂延伸到t₃的第二停顿420B，以及可以从时间t₄延伸到t₅的第三停顿420C。

电路202还可被配置为从拍摄场景404的一组第四时间间隔420A-420C中选择第一时间间隔422。第一时间间隔422可以是持续时间高于时间间隔阈值的持续时间的时间间隔，并且可以进一步被视为用于视频描述信息406(即，场景描述)的音频再现的潜在间隙。时间间隔阈值可以是预先定义的时间值(比如说以毫秒或几秒为单位)，该时间值用于过滤在第一人408或第二人410说出特定对话时其间可能出现的微小停顿或间隙。例如，时间间隔阈值可以指的是第一人408或第二人410在对话的多个词语之间吸气/呼气所用的时间。

在实施例中，电路202可以基于一组第四时间间隔420A-420C中的每一个与时间间隔阈值的比较来选择第一时间间隔422。时间间隔阈值可以对应于其中不可能进行视频描述信息406的音频再现的间隔的值。换句话说，时间间隔阈值可以对应于定时值，低于该定时值，视频描述信息406的音频再现可能无法向正在向其呈现媒体内容的用户120提供场景描述的足够细节。

例如，如果第一停顿420A的持续时间为0.75秒，第二停顿420B的持续时间为1秒，第三停顿420C的持续时间则为0.5秒，并且时间间隔阈值为1秒，则电路202可以将一组第四时间间隔420A-420C中的每个停顿的持续时间与时间间隔阈值进行比较，并且可以选择第一时间间隔422作为其持续时间大于或等于时间间隔阈值的第二停顿420B。在一些实施例中，电路202可以选择(第一停顿420A、第二停顿420B或第三停顿420C中的)持续时间最长的停顿，作为第一时间间隔422，因为由于较长的持续时间，视频描述信息406(即，场景描述)的再现速度可以与实际重放速度相同，因此可以维持视频描述信息406的音频再现的质量。

按照实施例，电路202还可被配置为确定再现速度以再现视频描述信息406的音频表示。再现速度可以对应于视频描述信息406的音频表示的重放速度。在一些实施例中，电路202可以计算乘法因子，并基于所计算的乘法因子和视频描述信息406的音频表示的实际重放速度来确定再现速度。可以基于所确定的第三时间间隔418和所选择的第一时间间隔422来计算乘法因子。

在例子中，在拍摄场景404中，第一停顿420A(从时间t₀到t₁)的持续时间为2秒，第二停顿420B(从时间t₂到t₃)的持续时间为3秒，第三停顿420C(从时间t₄到t₅)的持续时间为2秒。在第三时间间隔418的持续时间为5秒的情况下，这样的持续时间可能不足以在与一组第四时间间隔420A-420C(即，第一停顿420A、第二停顿420B和第三停顿420C)中的每一个对应的时间间隔或所选择的第一时间间隔422期间，以实际重放速度可听地再现视频描述信息406。电路202可被配置为通过使用下面的式(1)来确定乘法因子：

电路202还可被配置为通过使用下面的式(2)，基于计算的乘法因子和实际重放速度来确定再现速度，以再现视频描述信息406的音频表示：

再现速度＝乘法因子*实际重放速度(2)

参考上述例子，通过使用式(1)，电路202可被配置为将乘法因子确定为1.66(即，5秒的第三时间间隔418与3秒的选择的作为第二停顿420B的第一时间间隔422的比率)。在乘法因子大于1.0(即，第三时间间隔418大于第一时间间隔422)的情况下，电路202可被配置为按乘法因子增大视频描述信息406的音频表示的实际重放速度。例如，对于1.66的乘法因子，电路202可以将再现速度确定为拍摄场景404的视频描述信息406的音频表示的实际重放速度的1.66X。在其他情况下，当乘法因子小于1.0(即，第三时间间隔418小于第一时间间隔422)时，电路202可被配置为按乘法因子减小视频描述信息406的音频表示的实际重放速度。例如，对于0.8的乘法因子，电路202可以将再现速度确定为拍摄场景404的视频描述信息406的音频表示的实际重放速度的0.8X。在一些实施例中，在乘法因子小于1.0的情况下，电路202可以不改变实际重放速度，从而视频描述信息406的音频表示的再现速度可以保持与实际重放速度相同(例如，乘法因子为0.95，可能基本上接近1.0)。在一些其他实施例中，在乘法因子等于1.0(即，第三时间间隔418等于第一时间间隔422)的情况下，则电路202可被配置为将再现速度确定为视频描述信息406的音频表示的实际重放速度。

电路202还可被配置为基于所确定的再现速度来控制在第一时间间隔422再现视频描述信息406的音频表示。第一时间间隔422(即，停顿之一)可以不同于一组第二时间间隔416(即，包括拍摄场景404的音频部分)。在一些实施例中，第一时间间隔422可以在拍摄场景404的第一对话词语(例如，第一音频部分416A)和第二对话词语(例如，第二音频部分416B)之间。例如，如图4中所示，可以以所确定的再现速度(例如，在第三时间间隔418为5秒，并且第一时间间隔422为3秒的情况下1.66X)，在第一时间间隔422再现视频描述信息406(即，作为场景描述的“杰克正在开车时，乔治看着杰克”)的音频表示。因此，电路202可以在音频对话间隙(即，第一时间间隔422)之间增大视频描述信息406(即，场景描述)的音频再现速度，而不减少或删除视频描述信息的任何部分(例如某些字符、文本或词语)。速度的增加可以有效地将视频描述信息406的音频表示并入或放入其持续时间可以小于视频描述信息406的第三时间间隔418的第一时间间隔422内。于是，即使所确定的间隙(即，拍摄场景404中的特定间隙的第一时间间隔422)可能短于第三时间间隔418(即，可听地再现场景/视频描述所需的时间)，视频描述信息406的再现质量也得以维持。

在某些实施例中，第一对话词语可以是拍摄场景404的第一镜头的最后一个词语，而第二对话词语可以是拍摄场景404第二镜头的第一个词语。第一镜头和第二镜头可以是拍摄场景404的连续镜头。在一些其他实施例中，第一时间间隔422可以在拍摄场景404的开始和拍摄场景404的第一对话词语(比如第一音频部分416A)之间。在这种情况下，第一时间间隔422可以对应于如图4中所示的第一停顿420A。

可以注意到的是，图4中所示的拍摄场景404和多个有生命或无生命对象只是作为例子给出的。本公开还可以适用于其他类型的拍摄场景(例如但不限于，动作场景、浪漫场景、戏剧场景、舞蹈场景或音乐场景)和多个有生命或无生命对象。为了简洁起见，本公开中省略了对拍摄场景404和多个有生命或无生命对象的其他类型或例子的说明。

在实施例中，电路202可被配置为对于一组拍摄场景114中的每一个确定一组第二时间间隔，其中该组第二时间间隔中的每一个可以指示用于对应拍摄场景的音频部分的再现的时间间隔。电路202还可被配置为确定一组拍摄场景114中的对应拍摄场景的视频描述信息的音频表示的第三时间间隔。电路202还可被配置为基于对于如上关于拍摄场景404所述的每个场景所确定的一组第二时间间隔和所确定的第三时间间隔，确定再现视频描述信息406的音频表示的速度。电路202还可被配置为对于一组拍摄场景114中的每个拍摄场景，基于所确定的速度，控制在第一时间间隔(即，不同于一组第二时间间隔)再现视频描述信息的音频表示。因此，所公开的媒体呈现设备402可以在对应拍摄场景或先前拍摄场景(即，恰好在对应拍摄场景之前的场景)的重放期间，处理媒体内容中的每个拍摄场景，选择对应拍摄场景中的第一时间间隔422，并确定与拍摄场景关联的视频描述信息406的再现速度。媒体呈现设备402还能够对于一组拍摄场景114中的每个拍摄场景，基于所确定的再现速度动态地控制对应视频描述信息(即，场景描述)的音频表示的再现。于是，所公开的媒体呈现设备402可以增强用户120，例如视觉障碍或认知障碍用户的内容体验。

在实施例中，电路202还可被配置为经由I/O设备206从用户120接收第一用户输入。第一用户输入可以是文本格式，并且可以对应于一组拍摄场景114之一的视频描述信息406或场景描述。电路202可以在媒体内容的重放期间或者在开始媒体内容的重放之前接收第一用户输入。第一用户输入可以是可包括在一组拍摄场景114之一的视频描述信息406中的文本词语或短语。例如，图4中所示的视频描述信息406可以是“杰克正在开车时，乔治看着杰克”。所接收的第一用户输入可包括可以是视频描述信息406的一部分的词语或短语(例如“乔治看着杰克”)。

电路202还可被配置为在存储的与一组拍摄场景114中的每一个关联的视频描述信息406中搜索所接收的第一用户输入。在一些实施例中，在第一用户输入中接收的文本描述可以和一组拍摄场景114之一的视频描述信息406完全相同。在其他实施例中，第一用户输入可以是视频描述信息406的一部分。电路202还可被配置为基于搜索来确定重放媒体内容的重放定时信息。为了基于搜索来确定重放定时信息，电路202可以确定拍摄场景(例如拍摄场景404)和包括第一用户输入的对应视频描述信息406。在这种情况下，重放定时信息可以是所确定的拍摄场景的重放定时。在一些其他实施例中，在第一用户输入中接收的文本描述可以不完全和与一组拍摄场景114中的每一个关联的视频描述信息406相同。在这种场景下，电路202可被配置为确定在第一用户输入中接收的文本描述和与一组拍摄场景114中的每一个关联的视频描述信息406之间的相似性得分。相似性得分可以基于文本描述与对应拍摄场景的视频描述信息406的部分的匹配来确定。在一些实施例中，相似性得分可以基于与媒体内容的一组拍摄场景114中的每一个关联的流行性得分来计算。电路202可以从服务器108检索每个拍摄场景的流行性得分。在实施例中，每个拍摄场景的流行性得分可以包括在从服务器108或存储器204检索的媒体内容中。例如，第一用户输入(即，描述)是词语“乔治看着杰克”，该词语可以在与包括拍摄场景404的多个拍摄场景关联的视频描述信息406中。在这种情况下，电路202可以提取多个拍摄场景中的每个拍摄场景的流行性得分，以识别哪个场景在人们中更流行，并且可能具有用户120想要搜索更流行的拍摄场景的视频描述信息406中的描述的更高概率(比如说拍摄场景404)。电路202还可被配置为确定所接收的描述(或第一用户输入)与之的相似性得分可能较高的所识别的拍摄场景(例如拍摄场景404)的重放定时信息。电路202还可被配置为基于所确定的重放定时信息(t₀)来控制来自所识别的拍摄场景的媒体内容的重放。因此，所公开的媒体呈现设备402可以允许用户120在媒体内容的一组拍摄场景114中的每一个的存储的视频描述信息406(即，场景描述)中搜索词语或文本，并且可以相应地控制(即，快进或倒回)可以基于搜索来识别的所识别拍摄场景的重放定时。于是，媒体呈现设备402可以提供搜索引擎的功能，其中用户120可以搜索与媒体内容中的一个或多个场景对应的描述。

在实施例中，媒体呈现设备402还可被配置为基于在特定持续时间内(例如在最近一天或一周内)，在第一用户输入中接收的先前搜索描述来提供新媒体内容的个性化推荐。作为例子，如果用户120在特定持续时间内频繁搜索“动作”词语，则电路202可以提供与“动作”类型相关的其他或新媒体内容的推荐。于是，所公开的媒体呈现设备402可以推荐与用户120可能频繁搜索的场景或视频描述相关的媒体内容。

在实施例中，媒体呈现设备402可被配置为将与媒体呈现设备402关联的第一定义的速度设定存储在存储器204中。第一定义的速度设定可以指示再现视频描述信406(即，场景描述)的音频表示的最大速度。由第一定义的速度设定指示的最大速度可以是正在向其呈现媒体内容的用户120可以正确地理解视频描述信息406的音频表示的速度。例如，最大速度可以是实际重放速度的2X。在一些实施例中，第一定义的速度设定可以指示可基于其确定再现速度的乘法因子的最大值(例如2.0)。

在另一个实施例中，媒体呈现设备402可被配置为将与媒体呈现设备202关联的第二定义的速度设定存储在存储器204中。第二定义的速度设定可以指示再现视频描述信息406(即，场景描述)的音频表示的最小速度。由第二定义的速度设定指示的最小速度可以是正在向其呈现媒体内容的用户120可以正确地理解视频描述信息406的音频表示的速度。例如，最小速度可以是实际重放速度的0.5X。在一些实施例中，第二定义的速度设定可以指示可基于其确定再现速度的乘法因子的最小值(例如0.5)。

按照实施例，电路202还可被配置为基于所确定的视频描述信息406的音频表示的再现速度，以及第一/第二定义的速度设定来控制拍摄场景404的图像部分或音频部分之一的重放。在基于所确定的再现速度和第一或第二定义的速度设定自然停顿(即，第一时间间隔422)可能长到足以容纳视频描述信息406的音频表示的情况下，拍摄场景404的图像部分或音频部分(即，对话)之一的重放控制可以对应于用于拍摄场景的图像部分和/或音频部分的呈现的时间延迟或停顿。

作为例子，如果第一定义的速度设定(即，最大速度)是视频描述信息406的音频表示的实际重放速度的2X，第三时间间隔418为7秒，并且第一时间间隔422的持续时间为3秒，则按照式(1)确定的再现速度为2.33X。由于所确定的再现速度高于最大速度(即，2X)，因此电路202可以丢弃从一组第四时间间隔420A-420C中选择的第一时间间隔422。在这种情况下，电路202可以暂停拍摄场景404的图像部分或音频部分(即，诸如图4中的第二音频部分416B之类的对话)，以呈现视频描述信息406的音频表示。在另一种情况下，电路202可以以最大速度(比如2X)可听地呈现视频描述信息406，并将拍摄场景的图像部分或音频部分暂停剩余时间(比如在第三时间间隔418为7秒，并且第一时间间隔422的持续时间为3秒的情况下剩余1秒)，以维持正在呈现的媒体内容的质量。

在实施例中，电路202还可被配置为经由I/O设备206从用户120接收第二用户输入。第二用户输入可以指示可以向其呈现媒体内容的用户120的简档信息。简档信息可以包括用户120过去的可听地呈现视频描述信息406的速度偏好。在一些实施例中，简档信息可以指示与用户120关联的唯一标识号(例如但不限于，社会安全号码(SSN)、电话号码或保险单号码)。电路202还可被配置为基于接收到的唯一标识号从服务器108或存储器204检索用户120的年龄。在一些实施例中，电路202还可被配置为基于与用户120关联的唯一标识号来确定用户120的健康状态。健康状态可以指示用户120无法理解特定再现速度下的拍摄场景的视频描述信息406的音频表示或音频部分(即，对话)的听力无能力。电路202还可被配置为基于接收到的第二用户输入来确定再现速度，以再现视频描述信息406的音频表示。

作为例子，如果用户120的年龄被确定为65岁(即，老年)，则电路202可以将再现速度确定为视频描述信息406的音频表示的实际再现速度的1.5X。在一些实施例中，电路202可以基于所确定的年龄来定义第一速度设定(例如，作为最大速度的1.5X)。作为另一个例子，如果用户120的健康状态指示用户120在最近的预先定义的持续时间(比如说在最近六个月)内进行过耳朵手术，则电路202可以定义第一速度设定或将再现速度确定为视频描述信息406的音频表示的实际重放速度的1.2X。于是，所公开的媒体呈现设备402可以基于用户120的简档信息(比如年龄或健康状况)来控制用于再现场景/视频描述的再现速度或速度设定(例如最大或最小)，从而为可能具有视觉障碍和/或听觉障碍问题的不同用户维持音频场景描述的再现质量。

在实施例中，经过训练的机器学习(ML)模型212(图2中所示)可以存储在媒体呈现设备402的存储器204中。经过训练的ML模型212可以基于拍摄场景404的上下文信息(即，指示上下文)来确定或输出音频特性以再现视频描述信息406的音频表示。上下文信息可以是经过训练的机器学习(ML)模型212的输入。机器学习(ML)模型212可以被训练以识别输入(即，上下文信息)和输出(即，音频特性)之间的关系。ML模型212可以由其超参数，例如，权重的数量、成本函数、输入大小、层数等来定义。可以调整ML模型212的超参数，并且可以更新权重，以便向ML模型212的成本函数的全局最小值移动。在针对ML模型212的训练数据集中的特征进行几个阶段的训练之后，ML模型212可以被训练为对于一组输入(即，上下文信息)输出预测结果(例如音频特征)。

ML模型212可以包括电子数据，比如用于由诸如电路202之类的处理设备执行的软件程序、软件程序的代码、库、应用、脚本或其他逻辑或指令。ML模型212可以包括代码和例程，这些代码和例程被配置为使得诸如媒体呈现设备402之类的计算设备能够进行用于基于上下文信息确定音频特性的一个或多个操作。另外或可替选地，ML模型212可以使用包括处理器、微处理器(例如，进行一个或多个操作或控制一个或多个操作的进行)、现场可编程门阵列(FPGA)或专用集成电路(ASIC)的硬件来实现。或者地，在一些实施例中，ML模型212可以使用硬件和软件的组合来实现。

按照实施例，电路202可被配置为确定拍摄场景404的上下文信息。上下文信息的示例可以包括但不限于动作、打斗、冒险、动画、喜剧、舞蹈、音乐、犯罪、史诗、情色、幻想、恐怖、神秘、哲学、政治、宗教、浪漫、科幻、惊悚、都市、战争、传记或悲剧。可以基于对拍摄场景404的至少一个视觉特性的分析来确定上下文信息。拍摄场景404的视觉特性可以包括但不限于在至少一帧中识别的对象(比如图4中的汽车412)，在至少一帧中识别的人(比如图4中的第一人408或第二人410)，至少一帧中的至少一个对象的情绪状态(比如快乐状态、悲伤状态、愤怒状态、困惑状态、紧张状态或兴奋状态)、至少一帧的背景信息、至少一帧中的环境照明条件、至少一帧中的至少一个对象的运动信息(即，静止或运动)，与至少一帧中的至少一个对象关联的姿势(比如舞蹈姿势或动作姿势)，或者与至少一帧关联的类型信息。在一些实施例中，电路202可被配置为实现本领域已知的各种图像处理、场景挖掘或场景理解方法，以确定拍摄场景(比如拍摄场景404)的视觉特性和上下文信息。

电路202还可被配置为基于对所确定的拍摄场景404的上下文应用经过训练的ML模型212，确定音频特性以再现视频描述信息406的音频表示。音频特性可以包括但不限于响度参数、音高参数、音调参数、语速参数、话音质量参数、语音参数、语调参数、泛音强度、话音调制参数、发音参数、韵律参数、音色参数或一个或多个心理声学参数。可以基于对所确定的拍摄场景404的上下文信息应用经过训练的ML模型212来确定音频特性。

电路202还可被配置为基于所确定的速度和所确定的音频特性来控制在第一时间间隔422再现视频描述信息406的音频表示。作为例子，如果拍摄场景404的上下文信息被确定为打斗场景，则电路202可被配置为增大视频描述信息406的响度参数(比如音量)和泛音强度参数(即，音频特性)，以向可能正在向其呈现媒体内容和视频描述信息406(即，场景描述)的用户120提供逼真的用户体验。在这种情况下，基于将上下文信息确定为战斗场景，电路202可以基于对所确定的上下文信息应用经过训练的ML模型212，确定响度参数(比如音量)作为音频特性。

在另一个实施例中，电路202还可被配置为控制音频呈现设备106可听地再现视频描述信息406的音频表示，以及拍摄场景404或一组拍摄场景中的每个拍摄场景的音频部分(比如第一音频部分416A和第二音频部分416B)。音频呈现设备106可以与媒体呈现设备402关联或集成在媒体呈现设备402内部(如图2中所示)。

在实施例中，拍摄场景404的视频描述信息406可以包括关于存在于拍摄场景404中的有生命和/或无生命对象的认知信息。有生命对象可以包括生物对象(比如人、动物或鸟类)。无生命对象可以包括非生物对象。关于对象(有生命或无生命)的认知信息可以提供可能与拍摄场景404的上下文相关或不相关的对象的深入细节。认知信息可以向用户120提供关于存在于拍摄场景404中的对象的一般知识或信息。在一些实施例中，认知信息可以对应于与对象关联的图像或图标，或者可以对应于与存在于拍摄场景中的对象关联的音频音调。在实施例中，电路202还可被配置为控制显示设备104或音频呈现设备106对认知信息的重放。

图5是图解说明按照本公开的实施例，用于场景描述的再现控制的示例性操作的第一流程图。结合图1、图2、图3A、图3B和图4的要素来说明图5。参考图5，图中示出了流程图500。从502到508的操作可以在任何计算设备，例如，媒体呈现设备102或电路202上实现。操作可以始于502然后前进到504。

在504，可以检索媒体内容。媒体内容可以包括一组拍摄场景114和文本信息118。文本信息118可以包括视频描述信息118A和定时信息118B。视频描述信息118A可以描述一组拍摄场景114中的拍摄场景。在一个或多个实施例中，电路202可被配置为检索媒体内容112，媒体内容112可以包括一组拍摄场景114和文本信息118。文本信息118还可以包括视频描述信息118A和定时信息118B。视频描述信息118A可以描述一组拍摄场景114中的拍摄场景。

在506，可以从拍摄场景的文本信息118中提取定时信息118B，以再现视频描述信息118A。在一个或多个实施例中，电路202可被配置为从拍摄场景的文本信息118中提取定时信息118B(即，再现视频描述信息118A)。

在508，可以控制视频描述信息118A的再现(以文本表示形式、以音频表示形式或以文本表示和音频表示两者的形式)。可以在由所提取的拍摄场景的定时信息118B指示的第一时间间隔再现视频描述信息118A。在一个或多个实施例中，电路202可被配置为控制在由所提取的拍摄场景的定时信息指示的第一时间间隔再现视频描述信息118A(以文本表示的形式、以音频表示的形式或以文本表示和音频表示两者的形式)。控制然后可以转到结束。

图6是图解说明按照本公开的实施例，用于场景描述的再现控制的示例性操作的第二流程图。结合图1、图2、图3A、图3B、图4和图5的要素来说明图6。参考图6，图中示出了流程图600。从602到610的操作可以在任何计算设备，例如，媒体呈现设备102或电路202上实现。操作可以始于602，然后前进到604。

在604，可以确定第一拍摄场景114A的一组第二时间间隔。该组第二时间间隔中的每一个可以指示用于一组拍摄场景114中的拍摄场景的音频部分116的再现的时间间隔。在一个或多个实施例中，电路202可被配置为确定拍摄场景的一组第二时间间隔，其中该组第二时间间隔中的每一个可以指示用于一组拍摄场景114中的拍摄场景的音频部分116的再现的时间间隔。该组第二时间间隔的确定的细节例如在图4中说明。

在606，可以确定拍摄场景的视频描述信息118A的音频表示的第三时间间隔。在一个或多个实施例中，电路202可被配置为确定拍摄场景的视频描述信息118A的音频表示的第三时间间隔。第三时间间隔的确定的细节例如在图4中说明。

在608，可以基于所确定的一组第二时间间隔和所确定的第三时间间隔来确定再现视频描述信息118A的音频表示的速度。在一个或多个实施例中，电路202可被配置为基于所确定的一组第二时间间隔和所确定的第三时间间隔来确定再现视频描述信息118A(即，场景描述)的音频表示的速度。视频描述信息的再现速度的确定的细节例如在图4中说明。

在610，可以基于所确定的速度来控制视频描述信息118A的音频表示的再现。视频描述信息118A的音频表示可以在可不同于一组第二时间间隔的第一时间间隔再现。在一个或多个实施例中，电路202可被配置为基于所确定的速度，控制在第一时间间隔再现视频描述信息118A的音频表示。控制视频描述信息118A的音频表示的再现的细节例如在图4中说明。控制然后可以转到结束。

本公开的各个实施例可以提供上面存储可由机器和/或计算机(比如媒体呈现设备402)执行的指令的非临时性计算机可读介质和/或存储介质。所述指令可以使机器和/或计算机进行操作，所述操作可以包括检索可包括一组拍摄场景的媒体内容。媒体内容还可以包括文本信息，所述文本信息还可以包括视频描述信息和定时信息。视频描述信息可以描述一组拍摄场景中的拍摄场景。所述操作还可以包括从拍摄场景的文本信息中提取定时信息以再现视频描述信息。所述操作还可以包括控制在由所提取的拍摄场景的定时信息指示的第一时间间隔以文本表示形式或者以文本表示和音频表示形式再现视频描述信息。

在一些其他实施例中，所述操作可以包括确定拍摄场景的一组第二时间间隔。该组第二时间间隔中的每一个可以指示用于一组拍摄场景中的拍摄场景的音频部分的再现的时间间隔。所述操作还可以包括确定拍摄场景的视频描述信息的音频表示的第三时间间隔。所述操作还可以包括基于所确定的一组第二时间间隔和所确定的第三时间间隔来确定再现视频描述信息的音频表示的速度。所述操作还可以包括基于所确定的速度控制在第一时间间隔再现视频描述信息的音频表示。第一时间间隔可以不同于所述一组第二时间间隔。

本公开的示例性方面可以包括一种媒体呈现设备(比如图1的媒体呈现设备102)，所述媒体呈现设备可以包括电路(比如电路202)。该电路可被配置为检索媒体内容，所述媒体内容可以包括一组拍摄场景(比如一组拍摄场景114)、音频部分(比如音频部分116)和文本信息(比如文本信息118)。文本信息可以包括基于文本的视频描述信息(比如视频描述信息118A)和定时信息(比如定时信息118B)。视频描述信息118A可以描述一组拍摄场景中的拍摄场景(比如拍摄场景304)。媒体内容还可以包括隐藏字幕信息，所述隐藏字幕信息可以表示一组拍摄场景中的每一个的音频部分。描述一组拍摄场景中的每一个的视频描述信息可以与媒体内容中的隐藏字幕信息一起编码。在实施例中，该电路还可被配置为将拍摄场景的文本信息转换为视频描述信息的音频表示。

在实施例中，该电路还可被配置为从拍摄场景的文本信息中提取定时信息以再现视频描述信息。该电路还可被配置为控制在由所提取的拍摄场景的定时信息指示的第一时间间隔以文本表示形式或以文本和音频表示形式再现视频描述信息。

在另一个实施例中，该电路还可被配置为从拍摄场景的文本信息中提取速度信息以再现视频描述信息。文本信息还可以包括速度信息。该电路还可被配置为基于所提取的速度信息，控制在由所提取的拍摄场景的定时信息指示的第一时间间隔再现视频描述信息的音频表示。

在一些实施例中，该电路可被配置为确定拍摄场景的一组第二时间间隔(比如一组第二时间间隔416)。该组第二时间间隔中的每一个可以指示用于一组拍摄场景中的拍摄场景的音频部分的再现的时间间隔。该电路还可被配置为确定拍摄场景的视频描述信息的音频表示的第三时间间隔(比如第三时间间隔418)。该电路还可被配置为确定再现视频描述信息的音频表示的速度。再现视频描述信息的音频表示的速度可以基于所确定的一组第二时间间隔和所确定的第三时间间隔来确定。在实施例中，所确定的速度可以低于所转换的音频表示的实际重放速度。在另一个实施例中，所确定的速度可以高于所转换的音频表示的实际重放速度。

在一些实施例中，该电路可被配置为控制在第一时间间隔(比如第一时间间隔422)再现视频描述信息的音频表示。视频描述信息的音频表示的再现可以基于所确定的速度来控制。在实施例中，该电路可被配置为确定拍摄场景的一组第四时间间隔(比如一组第四时间间隔420A-420C)。该组第四时间间隔中的每一个可以不同于一组第二时间间隔。该电路可被配置为从该组第四时间间隔中选择第一时间间隔，其中第一时间间隔可以高于时间间隔阈值。第一时间间隔可以不同于一组第二时间间隔。在实施例中，第一时间间隔可以在拍摄场景的第一对话词语和第二对话词语之间。第一对话词语可以是拍摄场景的第一镜头的最后一个词语，而第二对话词语可以是拍摄场景的第二镜头的第一个词语。第一镜头和第二镜头可以是拍摄场景的连续镜头。在另一个实施例中，第一时间间隔可以在拍摄场景的开始和拍摄场景的第一对话词语之间。

在一些实施例中，该电路可被配置为基于所定义的与媒体呈现设备关联的速度设定来确定再现视频描述信息的音频表示的速度。所定义的速度设定可以指示再现视频描述信息的音频表示的最大速度。该电路还可被配置为接收带有文本信息的速度信息，并基于所确定的速度和所定义的速度设定来控制拍摄场景的图像部分或音频部分之一的重放。在一些实施例中，描述拍摄场景的视频描述信息可以包括关于存在于拍摄场景中的有生命或无生命对象的认知信息。该电路可被配置为控制包括在拍摄场景的视频描述信息中的认知信息的重放。

在实施例中，该电路可被配置为接收第一用户输入，第一用户输入可以对应于一组拍摄场景之一的描述。该电路还可被配置为在与该组拍摄场景中的每一个关联的视频描述信息中搜索所接收的第一用户输入。该电路还可被配置为基于该搜索来确定重放媒体内容的重放定时信息。该电路还可被配置为基于所确定的重放定时信息来控制媒体内容的重放。

在另一个实施例中，所述电路可被配置为接收第二用户输入，第二用户输出可以指示可以向其呈现媒体内容的用户的简档信息。该电路可被配置为基于所接收的第二用户输入来确定速度设定，以再现视频描述信息的音频表示。

在一些实施例中，与媒体呈现设备关联的存储器(比如存储器204)可被配置为存储经过训练的机器学习(ML)模型(比如经过训练的ML模型212)。该电路可被配置为基于拍摄场景的至少一个特性的分析来确定拍摄场景的上下文信息。该电路还可被配置为基于对所确定的拍摄场景的上下文信息应用经过训练的ML模型，确定音频特性以再现视频描述信息的音频表示。所述电路还可被配置为基于所确定的速度和所确定的音频特性来控制在第一时间间隔再现视频描述信息的音频表示。

在实施例中，媒体呈现设备可以包括被配置为再现(或显示)视频描述信息的文本表示的显示设备。在另一个实施例中，除了再现视频描述信息的音频表示之外，还可以显示文本表示。

在另一个实施例中，电路可被进一步配置为控制音频呈现设备。音频呈现设备可以与媒体呈现设备关联。可以控制音频呈现设备再现视频描述信息的音频表示和拍摄场景的音频部分。

本公开可以用硬件或者硬件和软件的组合来实现。本公开可以以集中式方式在至少一个计算机系统中，或者以其中不同的元件可分布在若干互连的计算机系统上的分布式方式实现。适合于执行本文所述方法的计算机系统或其他装置可能是合适的。硬件和软件的组合可以是具有计算机程序的通用计算机系统，所述计算机程序在被加载和执行时，可以控制所述计算机系统，使得所述计算机系统执行本文中所述的方法。本公开可以用包括还进行其他功能的集成电路的一部分的硬件来实现。

本公开还可以嵌入到计算机程序产品中，所述计算机程序产品包括使得能够实现本文中所述的方法的所有特征，并且当被载入计算机系统中时能够执行这些方法。在本上下文中，计算机程序意味着一组指令的采用任何语言、代码或符号的任意表达，所述一组指令旨在使具有信息处理能力的系统直接地或者在以下任一或两者之后进行特定功能：a)转换为其他语言、代码和符号；b)以不同的材料形式进行再现。

虽然参考某些实施例说明了本公开，但是本领域技术人员会理解的是，在不脱离本公开的范围的情况下可以进行各种更改，并且可以替换等同物。另外，可以进行许多修改以使特定情况或材料适应本公开的教导而不脱离其范围。于是，本公开并不限于所公开的特定实施例，相反本公开将包括落入所附权利要求的范围内的所有实施例。

Claims

1.一种媒体呈现设备，包括：

电路，所述电路被配置为：

检索媒体内容，所述媒体内容包括一组拍摄场景和文本信息，所述文本信息包括基于文本的视频描述信息和定时信息，其中所述视频描述信息描述所述一组拍摄场景中的拍摄场景；

从所述拍摄场景的文本信息中提取定时信息，以再现所述视频描述信息；以及

控制在由所提取的拍摄场景的定时信息指示的第一时间间隔，以文本表示形式或以文本和音频表示形式再现所述视频描述信息。

2.按照权利要求1所述的媒体呈现设备，其中所述文本信息还包括速度信息，并且其中所述电路还被配置为：

从所述拍摄场景的文本信息中提取所述速度信息，以再现所述视频描述信息；以及

基于所提取的速度信息，控制在由所提取的拍摄场景的定时信息指示的第一时间间隔再现所述视频描述信息的音频表示。

3.按照权利要求1所述的媒体呈现设备，其中所述电路还被配置为：

确定所述拍摄场景的一组第二时间间隔，其中所述一组第二时间间隔中的每一个指示用于所述一组拍摄场景中的所述拍摄场景的音频部分的再现的时间间隔；

确定所述拍摄场景的所述视频描述信息的音频表示的第三时间间隔；

基于所确定的一组第二时间间隔和所确定的第三时间间隔，确定再现所述视频描述信息的音频表示的速度；以及

基于所确定的速度，控制在与所述一组第二时间间隔不同的第一时间间隔，再现所述视频描述信息的音频表示。

4.按照权利要求3所述的媒体呈现设备，其中所述电路还被配置为：

确定所述拍摄场景的一组第四时间间隔，其中所述一组第四时间间隔中的每一个不同于所述一组第二时间间隔；以及

从所述一组第四时间间隔中选择所述第一时间间隔，其中所述第一时间间隔高于时间间隔阈值。

5.按照权利要求3所述的媒体呈现设备，其中所确定的速度低于所述音频表示的实际重放速度。

6.按照权利要求3所述的媒体呈现设备，其中所确定的速度高于所述音频表示的实际重放速度。

7.按照权利要求3所述的媒体呈现设备，其中所述电路还被配置为基于与所述媒体呈现设备关联的定义的速度设定，确定再现所述视频描述信息的音频表示的速度，以及

其中所述定义的速度设定指示再现所述视频描述信息的音频表示的最大速度。

8.按照权利要求7所述的媒体呈现设备，其中所述电路还被配置为接收带有所述文本信息的速度信息，并基于所确定的速度和所述定义的速度设定来控制所述拍摄场景的图像部分或音频部分之一的重放。

9.按照权利要求7所述的媒体呈现设备，其中所述电路还被配置为：

接收指示向其呈现所述媒体内容的用户的简档信息的第二用户输入；以及

基于所接收的第二用户输入来确定所述速度设定，以再现所述视频描述信息的音频表示。

10.按照权利要求1所述的媒体呈现设备，其中所述电路还被配置为：

接收与所述一组拍摄场景之一的描述对应的第一用户输入；

在与所述一组拍摄场景中的每一个关联的视频描述信息中搜索接收的第一用户输入；

基于所述搜索确定重放所述媒体内容的重放定时信息；以及

基于所确定的重放定时信息来控制所述媒体内容的重放。

11.按照权利要求1所述的媒体呈现设备，其中所述第一时间间隔在所述拍摄场景的第一对话词语和第二对话词语之间。

12.按照权利要求11所述的媒体呈现设备，其中所述第一对话词语是所述拍摄场景的第一镜头的最后一个词语，并且所述第二对话词语是所述拍摄场景的第二镜头的第一个词语，并且

其中所述第一镜头和第二镜头是所述拍摄场景的连续镜头。

13.按照权利要求1所述的媒体呈现设备，还包括配置为存储经过训练的机器学习(ML)模型的存储器，其中所述文本信息还包括速度信息，并且其中所述电路还被配置为：

基于所述拍摄场景的至少一个特性的分析来确定所述拍摄场景的上下文信息；

基于对所确定的拍摄场景的上下文信息应用所述经过训练的ML模型，确定音频特性以再现所述视频描述信息的音频表示；以及

基于所述速度信息和所确定的音频特性，控制在由所提取的拍摄场景的定时信息指示的第一时间间隔再现所述视频描述信息的音频表示。

14.按照权利要求1所述的媒体呈现设备，其中描述所述拍摄场景的所述视频描述信息包括关于存在于所述拍摄场景中的有生命或无生命对象的认知信息，并且

其中所述电路还被配置为控制被包含在所述拍摄场景的所述视频描述信息中的所述认知信息的重放。

15.按照权利要求1所述的媒体呈现设备，其中所述媒体呈现设备还包括配置为再现所述视频描述信息的文本表示的显示设备。

16.按照权利要求1所述的媒体呈现设备，其中所述媒体内容还包括隐藏字幕信息以表示所述一组拍摄场景中的每一个的音频部分，并且

其中描述所述一组拍摄镜头中的每一个的视频描述信息与所述媒体内容中的所述隐藏字幕信息一起编码。

17.按照权利要求1所述的媒体呈现设备，其中所述电路还被配置为控制与所述媒体呈现设备关联的音频呈现设备，以再现所述视频描述信息的音频表示和所述拍摄场景的音频部分。

18.一种方法，包括：

在媒体呈现设备中：

19.按照权利要求18所述的方法，其中所述文本信息还包括速度信息，并且还包括：

从所述拍摄场景的文本信息中提取速度信息，以再现所述视频描述信息；以及

20.一种存储有计算机可执行指令的非临时性计算机可读介质，所述计算机可执行指令当由媒体呈现设备执行时，使所述媒体呈现设备执行操作，所述操作包括：