CN113424554A

CN113424554A - 声音效果的文本注释

Info

Publication number: CN113424554A
Application number: CN201980077574.XA
Authority: CN
Inventors: N.库马尔; J.亚当斯; A.贾蒂; M.奥莫特
Original assignee: Sony Interactive Entertainment Inc
Current assignee: Sony Interactive Entertainment Inc
Priority date: 2018-10-31
Filing date: 2019-09-30
Publication date: 2021-09-21
Also published as: WO2020091930A1; JP2022506501A; EP3874764A4; EP3874764A1; US20200137463A1; US11375293B2

Abstract

可以通过选择性颜色替换来实现对颜色或视觉障碍的调节。颜色调节模块从主机系统接收图像帧并生成所述图像帧的颜色适配版本。颜色调节模块可以包括基于规则的过滤器，所述过滤器将图像帧内的一种或多种颜色替换为一种或多种对应的替代颜色。

Description

声音效果的文本注释

技术领域

本公开涉及视听媒体增强领域，特别是向现有视听媒体添加内容以改善残障人士的易访问性。

背景技术

并非所有视听媒体(例如视频游戏)对于残障人士都是易访问的。尽管具有对听障人士起作用的带字幕的声音的视频游戏越来越普遍，但对具有诸如视力障碍的其他障碍人士却未得到任何调节。另外，较早的电影和游戏不包括字幕。

视频游戏的结合的交互式视听特性意味着简单地浏览场景并对其进行描述是不可能的。如今，许多视频游戏都包括开放世界部件，用户在其中具有多种选择，这意味着游戏中没有两个动作序列是相同的。另外，由于场景的庞大数量和每个场景内的颜色，对于许多视频游戏和电影来说，无法为色盲人士自定义调色板。最终，一直存在许多没有为残障人士提供调节方案的视频游戏和电影，增加此类调节方案既耗时又费力。

正是在这种背景下产生了本发明的实施方案。

附图说明

通过考虑下列具体实现方式连同附图，本发明的教示能够容易地理解，在附图中：

图1是根据本公开的方面的按需易访问性系统的示意图。

图2A是根据本公开的方面的在按需易访问性系统中使用的递归神经网络的简化节点图。

图2B是根据本公开的方面的在按需易访问性系统中使用的展开递归神经网络的简化节点图。

图2C是根据本公开的方面的在按需易访问性系统中使用的卷积神经网络的简化图。

图2D是根据本公开的方面的用于在按需易访问性系统中训练神经网络的方法的框图。

图3是根据本公开的方面的示出动作描述部件系统的操作过程的框图。

图4是根据本公开的方面的描绘具有带标签的场景元素的图像帧的图。

图5是根据本公开的方面的用于场景注释部件系统编码器-解码器的训练方法的框图。

图6是根据本公开的方面的示出用于颜色调节部件系统的操作过程的框图。

图7是根据本公开的方面的描绘图形风格修改部件系统的训练的框图。

图8是根据本公开的方面的示出声音效果注释部件系统的操作过程的框图。

具体实现方式

尽管下面的具体实现方式包含用于说明目的的许多具体细节，但本领域的任何普通技术人员应了解，对以下细节的许多变化和更改处于本发明的范围内。因此，下面描述的本发明的实施方案的示例在对要求保护的本发明不失任何一般性并且不对其施以限制的情况下进行阐述。

尽管阐述了许多具体细节以便提供对本发明的实施方案的透彻理解，但是本领域技术人员将理解，可以在没有这些具体细节的情况下实践其他实施方案。在其他实例中，未对公知的方法、过程、部件和电路进行详细描述以免不必要地混淆本公开的方面。本文描述的一些部分以计算机存储器内的数据位或二进制数字信号的运算的算法和符号表示来呈现。这些算法描述和表示可以是数据处理领域技术人员用来将其工作的实质传达给本领域其他技术人员的技术。

如本文所使用的算法是导致期望结果的动作或操作的自洽序列。这些动作或操作包括对物理量的物理操纵。通常，尽管非必需，但这些量采取能够被存储、传送、组合、比较以及以其他方式操纵的电信号或磁信号的形式。已经证实，主要出于普遍使用原因，有时可以适宜地将这些信号称为位、值、元素、符号、字符、项、数字等。

除非明确说明或从以下讨论中显而易见，否则应理解，在整个说明书中，使用诸如“处理”、“计算”、“转换”、“协调”、“确定”或“识别”的术语的讨论是指计算机平台的动作和过程，该计算机平台是一种电子计算装置，其包括处理器，该处理器将处理器寄存器以及可访问平台存储器内表示为物理(例如，电子)量的数据操纵和转换为类似地表示为计算机平台存储器、处理器寄存器或显示屏内的物理量的其他数据。

计算机程序可以存储在计算机可读存储介质中，诸如但不限于任何类型的磁盘，包括软盘、光盘(例如，光盘只读存储器(CD-ROM)、数字视频光盘(DVD)、Blu-Ray Discs^TM等)，以及磁光盘、只读存储器(ROM)、随机存取存储器(RAM)、EPROM、EEPROM、磁卡或光卡、闪存存储器或适于存储电子指令的任何其他类型的非暂时性介质。

术语“联接的”和“连接的”以及它们的派生词在本文中可以用于描述用于执行本文中的操作的设备的部件之间的结构关系。应当理解，这些术语并不旨在彼此之间是同义词。而是，在一些特定实例中，“连接的”可以指示两个或更多个元件彼此直接物理接触或电接触。在一些其他实例中，“连接的”、“连接”及其派生词用于指示例如在神经网络中的节点层之间的逻辑关系。可以使用“联接的”来指示两个或更多个元件彼此直接或间接(通过在它们之间的其他居间元件)物理接触或电接触，和/或两个或更多个元件彼此协作或通信(例如，在因果关系中)。

按需易访问性系统

根据本公开的方面，按需易访问性系统提供了对现有媒体的增强，以改善对于残障用户的易访问性。另外，按需易访问性系统可以为非残障用户提供美学益处和改善的体验。此外，按需易访问性系统改善了媒体系统的功能，因为其为残障人士创建了易访问性内容，而无需更改现有媒体。在这种情况下，媒体可以是视频游戏、电影、电视或音乐。按需易访问性系统将小标题、文本应用于语音描述、颜色变化和风格变化，以有助于那些残障人士对视频游戏和其他媒体的易访问性。

在图1中示意性示出的一种可能的实现方式中，按需易访问性系统100包括不同的部件模块。这些模块可以包括动作描述模块110、场景注释模块120、颜色调节模块130、图形风格修改模块140和声音效果注释模块150。这些部件模块中的每一者都提供单独的功能，以增强媒体内容对用户的易访问性。这些模块可以用硬件、软件或者硬件和软件的组合来实现。本公开的方面包括其中按需易访问性系统仅结合上述部件模块中的一个的实现方式。本公开的方面还包括其中按需易访问性系统结合两个或更多个但少于上述五个部件模块中的全部五个的组合的实现方式。

易访问性系统100可以接收由主机系统102实现的来自实时游戏的音频和视频作为输入。输入的音频和视频可以例如经由Twitch被流传输到互联网实时流，输入的音频和视频在互联网实时流中被在线处理。易访问性系统100的按需架构给予玩家以控制，使得通过简单的命令(例如，按下按钮)，玩家便能够选择性地激活一个或多个不同的部件模块110、120、130、140和150。

如图1所示，实现五个部件模块的某些元件由控制模块101链接。控制模块101从主机系统102接收输入的图像帧数据和音频数据。控制模块101将适当的数据从主机系统引导到每个模块，使得该模块能够执行其特定过程。控制模块101因此充当部件模块110、120、130、140的“管理者”，向这些模块中的每一者提供合适的输入数据并指示模块对数据进行工作。控制模块101可以从部件模块接收输出数据，并使用该数据来生成对应的图像或音频数据，输出装置可以使用这些图像或音频数据来产生对应的经修改的图像和音频信号，这些经修改的图像和音频信号通过视频输出装置104和音频输出装置106呈现给用户。作为示例而非限制，控制模块101可以使用输出数据来生成包含隐藏字幕和风格/颜色变换的输出图像帧数据或者包括对应图像的文本到语音(TTS)描述的音频数据。控制器101还可以例如使用由部件模块生成的时间戳，将由部件模块生成的音频和/或视频与由主机系统102提供的音频和/或视频同步。例如，控制器101可以使用与由动作描述模块120或场景注释模块130生成的TTS数据相关联的时间戳来在对应的视频帧上同步TTS音频的播放。此外，控制器101可以使用与由声音效果注释模块150生成的字幕数据相关联的时间戳来在与对应的音频相关联的视频帧上同步文本字幕的显示。

控制器101、主机系统102和部件模块110、120、130、140、150之间音频和视频数据的通信可以是显著挑战。例如，视频和音频数据可以在其被发送到控制器101之前彼此分离。控制器101可以针对控制器和部件模块中的缓冲器将音频和视频数据流划分成合适大小的单元，然后将这些数据单元发送到适当的部件模块。控制器101然后可以等待部件模块以适当修改的数据响应，然后可以将数据直接发送到主机系统102或在将其发送到主机系统之前进一步处理。

为了促进控制器101与部件模块110、120、130、140和150之间的通信，系统100可被配置为使得其仅在需要时使用数据并使得部件模块中的预测神经网络不以连续基础进行预测。为此，控制器101以及部件模块110、120、130、140和150可以利用包含与部件模块所需要的数据相比没有更多数据的相对小的缓冲器进行预测。例如，如果部件模块中最慢的神经网络能够每秒进行一次预测，则仅需要1秒的缓冲器。控制模块101包含关于缓冲器应该有多长时间的信息，并使用这些缓冲器来存储信息以将数据发送到部件模块。在一些实现方式中，一个或多个部件模块可以具有嵌入到其中的缓冲器。作为示例而非限制，动作描述模块110可以具有嵌入其中的用于视频的缓冲器。在更可取的实现方式中，所有连续的存储器管理/缓冲器都驻留在控制器模块101中。系统100可被配置为使得来自主机系统102的音频和/或视频数据仅在需要时才被消耗，否则被丢弃。这避免了一直存在的与预测神经网络相关联的问题，诸如计算变得过于复杂、主机系统102过载以及由于音频和视频的处理时间不同而导致的同步问题。

作为示例而非限制，为了确保音频和视频部件正确同步，控制模块可以在来自主机系统102的音频或视频数据的相对较短窗口上操作，例如约1秒或更短的间隔。在一些实现方式中，控制模块可具有足够的缓冲器或存储器以包含来自主机系统以及每个部件模块的1秒的音频和视频。控制模块还可以包括文本到语音模块和/或隐藏字幕模块，以将文本或语音添加到输入。

控制模块101负责以内聚的方式将单独的神经网络模型合并在一起，从而确保用户的流畅体验。控制模块101设置音频和视频流，将它们划分到上述缓冲器，并监听用户输入(例如，来自游戏输入装置108)。一旦接收到输入，控制模块101便会通过将数据发送到对应的部件模块(取决于接收到的用户输入的性质)来相应地作出反应。然后，控制模块从对应的部件模块接收返回的结果，并相应地更改游戏的视觉效果/音频。

作为示例而非限制，控制器101可以实现多线程处理，该多线程处理使用诸如Streamlink的流服务以及诸如FFMPEG的流媒体软件套件来分离音频流和视频流。对结果信息进行切分并将其发送到深度学习系统，诸如用于实现动作描述模块110、场景注释模块120、图形风格修改模块140和声音效果注释模块150的那些系统。可以用面向对象的高级编程语言来对控制器101进行编程，以实现一种过程，该过程访问来自主机系统102的视频实时流，并及时获取返回结果以流畅地运行而不会破坏由主机系统处理的操作，诸如游戏可玩性。在一些实现方式中，音频和视频数据可以经由适当的接口(诸如高清晰度多媒体接口(HDMI))以非压缩形式在主机系统102与控制器101和/或模块110、120、130、140、150之间传送，这些独立的部件在接口中彼此之间是局部的。音频和视频数据可以通过网络(诸如互联网)以压缩形式在主机系统102与控制器101和/或模块110、120、130、140、150之间传送。在此类实现方式中，这些部件可以包括公知的硬件和/或软件编解码器，以处理音频和视频数据的编码和解码。在其他实现方式中，控制器101和/或模块110、120、130、140、150的功能都可以在集成到主机系统102的硬件和/或软件中实现。

为了选择性地激活期望的按需易访问性模块，控制模块101可以从例如诸如双重冲击控制器的输入装置108接收激活输入。作为示例而非限制，激活输入可以是在控制器处转换的来自用户的简单按钮按压、闩锁按钮、触摸激活、语音命令、运动命令或手势命令的结果。因此，输入装置108可以是适于输入类型的任何装置。例如，对于按钮按压或闩锁按钮，输入装置可以是游戏控制器上的适当配置的按钮，该按钮通过适当的硬件和/或软件接口联接到控制器101。在触摸屏激活的情况下，输入装置可以是联接到控制器的触摸屏或触摸板。对于语音命令，输入装置108可以是联接到控制器的传声器。在此类实现方式中，控制器101可以包括硬件和/或软件，该硬件和/或软件例如通过音频频谱分析、嗓音识别或语音识别或者其两者或更多者的某种组合将传声器信号转换为对应的数字信号并解释所得的数字信号。对于手势命令或运动命令命令，输入装置108可以是联接到控制器的图像捕获单元(例如，数字摄像机)。在此类实现方式中，控制器101或主机系统102可以包括解释来自图像捕获单元的图像的硬件和/或软件。

在一些实现方式中，控制器101可以包括视频标记模块107，该视频标记模块将由动作描述模块110和/或场景注释模块120生成的输出数据与由主机系统102产生的音频数据进行组合。尽管动作描述模块和场景注释模块两者都可以使用视频标记，但是它们的输入存在重要差异。动作描述需要多个顺序的视频帧作为输入，以便确定帧之间的时间关系以确定动作分类。相比之下，场景注释更关注图像的相对静态元素，并且能够使用单个屏幕截图作为输入。

在一些实现方式中，控制器101可以在将视频数据发送到动作描述模块110和/或场景注释模块120之前提供分析并过滤视频数据，以适合各个模块的功能。例如但无限制，控制器101可以分析图像帧数据以检测场景变化以确定何时将图像提供给场景注释模块120。另外，控制器可以分析图像帧数据以将给定持续时间的帧序列识别为包含运动或不包含运动，并且选择性地仅将包含足够运动的帧序列发送给动作描述模块110。运动可以通过已知的方式(例如编码器运动检测)来识别。

动作描述模块110和场景注释部件模块120两者都可以生成文本信息形式的信息。生成此类文本信息的一种方式是使用游戏设置。例如，可以对游戏设置进行编程以列出发现的对象。对于列表中的每个对象，用户可以设置对其进行控制的用户界面键或按钮。一旦生成，该文本信息就可以由视频标记模块107转换为语音音频。替代地，该信息可用于以游戏者更易访问的方式重新映射控制键。控制器101可以将语音音频与由主机系统102生成的其他音频输出同步。在其他实现方式中，动作描述模块110和场景注释模块120可以各自生成能够与来自主机系统102的音频数据直接组合的语音信息。视频标记模块107可以将语音输出或音频与由主机系统102生成的其他音频输出进行组合以呈现给用户。替代地，视频标记模块可以简单地将语音输出转发到控制模块，以用于随后与来自主机系统102的其他音频输出组合。

声音效果注释模块150从控制模块101接收音频信息并生成对应的文本信息。声音效果注释模块150、控制器101或主机系统102可以包括音频标记模块109，该音频标记模块将文本信息(例如，作为小标题或字幕)与视频帧信息进行组合，使得文本信息出现在由视频输出装置104呈现的对应视频图像上。

图形风格修改模块140从控制模块101接收图像帧数据，并且将风格适配的图像帧信息输出到控制模块。图形风格修改模块140可以使用机器学习来将与一个内容源相关联的风格(例如，调色板、纹理、背景等)应用于来自另一内容源的一个或多个输入图像帧以产生经修改的输出帧数据以供视频输出装置104呈现。另外，图形风格修改模块140可以包括或实现颜色调节部件模块130的元件。颜色调节系统可以将基于规则的算法应用于输入视频帧数据，以产生适应于某些用户视觉障碍(诸如色盲)的颜色适配的输出视频帧。基于规则的算法可以用用户可以看到或区分的其他值替换与用户不能很好地看到或区分的颜色相对应的某些输入帧像素色度值。

按需易访问性系统可以是独立装置，可以作为主机系统的附加装置集成，或者可以由主机系统在软件中进行仿真。作为独立装置或附加装置，按需易访问性系统可以包括专用电路，该专用电路被配置为实现每个模块的所需过程。替代地，按需易访问性系统可以包括处理器和具有嵌入在非暂时性计算机可读介质中的专用软件的存储器，所述专用软件在被执行时使处理器计算机执行每个模块的所需过程。在其他替代实现方式中，按需易访问性系统包括具有专用非暂时性计算机可读指令的通用计算机和专用电路两者的混合体。每个模块可以是分开的和独立的，或者每个模块可以简单地是由单个通用计算机执行的过程。替代地，可能有混合独立的模块和共享的通用计算机。主机系统可以通过连接器(诸如高清晰度多媒体接口(HDMI)电缆、通用串行总线(USB)、视频图形阵列(VGA)电缆或D-超小型(D-Sub)电缆)直接联接到控制模块101。在一些实现方式中，主机系统通过网络与按需易访问性系统连接。

声音效果注释模块、动作描述模块、场景注释模块和图形风格修改模块均利用神经网络生成其各自的输出数据。神经网络通常共享许多相同的训练技术，如将在以下讨论的。

神经网络训练

通常，在按需易访问性系统的部件系统中使用的神经网络可以包括若干不同类型的神经网络中的一种或多种，并且可以具有许多不同的层。作为示例而非限制，分类神经网络可以由一个或多个卷积神经网络(CNN)、递归神经网络(RNN)和/或动态神经网络(DNN)组成。

图2A描绘了具有节点220的层的RNN的基本形式，每个节点的特征在于激活函数S、一个输入权重U、递归隐藏节点转移权重W和输出转移权重V。激活函数S可以是本领域中已知的任何非线性函数，并且不限于(双曲正切(tanh)函数。例如，激活函数S可以是Sigmoid函数或ReLu函数。与其他类型的神经网络不同，RNN在整个层具有一组激活函数和权重。如图2B所示，RNN可以被认为是在时间T和T+1间移动的具有相同激活函数的一系列节点220。因此，RNN通过将结果从先前时间T馈送到当前时间T+1来维持历史信息。

在一些实施方案中，可以使用卷积RNN。可以使用的另一种类型的RNN是长短期记忆(LSTM)神经网络，它在RNN节点中增加具有输入门激活函数、输出门激活函数和遗忘门激活函数的存储块，从而形成允许网络在更长的时间段保留一些信息的门控存储器，如由Hochreiter与Schmidhuber的“长短期记忆”(神经计算9(8):1735-1780(1997))所述，其通过引用并入本文。

图2C描绘了根据本公开的方面的卷积神经网络(诸如CRNN)的示例布局。在该描述中，针对图像232生成卷积神经网络，该图像的高度为4个单位，宽度为4个单位，总面积为16个单位。所描绘的卷积神经网络具有高度为2个单位、宽度为2个单位、跳跃值为1的过滤器233和尺寸为9的通道236。为清楚起见，在图2C中仅描绘了第一列通道与其过滤器窗口之间的连接234。然而，本公开的方面不限于此类实现方式。根据本公开的方面，实现分类229的卷积神经网络可以具有任意数量的附加神经网络节点层231，并且可以包括任何尺寸的诸如附加卷积层、完全连接层、池化层、最大池化层、局部对比度归一化层等的层类型。

如图2D可见，训练神经网络(NN)始于NN的权重的初始化241。通常，初始权重应随机分配。例如，具有tanh激活函数的NN应该具有在

和

之间分布的随机值，其中n是至节点的输入的数量。

初始化之后，将定义激活函数和优化程序。然后向NN提供特征向量或输入数据集242。NN可以根据具有已知标签的输入生成每个不同的特征向量。类似地，可以向NN提供与具有已知标记或分类的输入相对应的特征向量。NN然后预测特征或输入的标签或分类243。将预测的标签或类别与已知的标签或类别(也称为地面实况)进行比较，并且损失函数测量所有训练样本的预测结果和地面实况之间的总误差244。作为示例而非限制，损失函数可以是交叉熵损失函数、二次成本、三元组对比函数、指数成本等。可以根据目的使用多个不同的损失函数。通过示例而非限制，对于训练分类器，可以使用交叉熵损失函数，而对于学习预训练的嵌入，可以采用三元组对比函数。然后，使用损失函数的结果并使用用于神经网络的已知训练方法(诸如具有适应性梯度下降的反向传播等)对NN进行优化和训练245。在每个训练时期，优化器都尝试选择使训练损失函数(即总误差)最小化的模型参数(即权重)。数据被划分为训练样本、验证样本和测试样本。

在训练期间，优化器使训练样本的损失函数最小化。在每个训练时期之后，通过计算验证损失和准确性来针对验证样本对模式进行评估。如果没有重大变化，则可以停止训练，并且可以使用所得的训练模型来预测测试数据的标签。

因此，可以根据具有已知标签或分类的输入训练神经网络，以对那些输入进行识别和分类。类似地，可以使用所描述的方法来训练NN以根据具有已知标签或分类的输入生成特征向量。

自动编码器培训

自动编码器是使用称为无监督学习的方法训练的神经网络。在无监督学习中，编码器NN具有解码器NN对应项，并且编码器和解码器作为单个单元一起训练。自动编码器的基本功能是获取作为R^d的元素的输入x并将其映射到作为R^d’的元素的表示h。该映射的表示也可以称为特征向量。使用类型h＝f_θ＝σ(W_χ+b)的确定性函数来创建特征向量，其中参数θ＝{W，b}。然后采用解码器NN通过f的反函数y＝f_θ’(h)＝σ(W’h+b’)根据表征特征向量来重建输入，其中θ'＝{W'，b'}。可以使用相同的权重将两个参数集约束为W'＝W^T的形式，以对输入进行编码和对表示进行解码。每个训练输入χ_i被映射到其特征向量h_i和其重建y_i。通过最小化诸如交叉熵成本函数的训练集上的适当成本函数来训练这些参数。卷积自动编码器的工作类似于基本自动编码器，不同之处在于权重在输入的所有位置之间共享。因此，对于单通道输入(诸如黑白图像)x，第k个特征映射的表示由h^k＝σ(x*W^k+b^k)给出，其中偏差被传播到整个映射。变量σ表示激活函数，b表示每个潜映射使用的单个偏差，W表示整个映射共享的权重，并且*是2D卷积运算符。重建输入的公式由下式给出：

在上面的公式中，每个输入通道有一个偏差C，H标识特征映射组，并且

标识在维度和权重两者上的翻转操作。关于卷积自动编码器的训练和加权的更多信息可以在Masci等人的“用于分层特征提取的堆叠卷积自动编码器”，IICANN，第52-59页，2011中找到。

动作描述

动作描述模块110从视频流中获取短序列的图像帧作为输入，并生成在视频流内发生的活动的文本描述。为了实现这一点，使用了三个卷积神经网络。第一动作描述NN 301采用短序列的视频帧，在本文中称为窗口，并生成片段级或视频级特征向量，例如，对于窗口中每个视频帧为一个特征向量。

作为示例而非限制，窗口可以持续约1秒或约18帧和每秒18帧(fps)。第二动作描述NN 302获取帧级特征向量并生成视频片段窗口级特征数据。可以使用监督学习来训练第二动作描述NN 302。在替代实现方式中，在可以产生足够准确性的情况下，可以使用半监督或无监督训练方法。

第三动作描述NN 303接收视频流窗口级特征向量作为输入，并根据场景中发生的动作对它们进行分类。对于带标签的视频流窗口级特征数据，标签被屏蔽，并且第三动作描述NN预测标签。根据由系统接收到的视频的帧速率从视频序列中提取帧。因此，取决于由主机系统发送的帧速率，窗口级特征数据的范围可为从1个特征到60个或120个或更多个特征。由第三动作描述NN 303生成的动作的分类可以例如以描述在窗口中发生的动作的文本的形式被提供给控制模块101。替代地，可以将分类数据提供给文本至语音合成模块304，以产生可以与在窗口期间或此后不久出现的其他音频组合的语音数据。

动作描述模块可以通过如上所讨论的已知方法来训练。在训练期间，没有帧级视频标签，因此，如果每个帧都引用相同的动作，则视频级标签将被视为帧级标签。这些标记的帧可以用作第二个NN的帧级训练输入，或者可以训练CNN以使用视频级标签生成帧级嵌入。在一些实现方式中，第一NN可使用无监督方法来产生帧嵌入，参见上文关于自动编码器训练的部分。帧级嵌入的顺序以及视频级标签用于训练第二NN。第二NN可以是被配置为将帧级嵌入组合为视频级嵌入的CNN。然后，将视频级嵌入和动作标签用于训练第三NN。第三NN可以是根据视频级嵌入预测动作类别的RNN。

动作描述模块110可以包括或利用足够尺寸的缓冲器，以保持与小于或等于神经网络301、302、303对窗口内发生的动作进行分类的时间的窗口持续时间相对应的视频数据。

动作描述模块可以通过多种不同的方式来增强用户体验。例如，在电子体育(e-Sports)中，动作描述模块110可以生成关于来自主机系统101的视频流中所示的模拟体育赛事中的动作的实时评论。

场景注释

场景注释部件模块120使用来自呈现给用户的视频流的图像帧来生成图像帧内的场景元素的文本描述。场景注释模块120的输出可以是场景的自然语言描述，例如以文本的形式，然后可以由文本到语音模块将其转换为语音，其可以例如由视频标记模块107来实现。与动作描述模块相比，场景注释部件系统仅需要单个图像帧即可确定场景元素。在此，场景元素是指图像的各个组成部分，这些组成部分提供与图像中发生的动作独立的上下文信息。通过示例而非限制，场景元素可以为如图4所示的动作提供背景，该动作是跑步者401越过终点线402。然后，所示的场景元素将是道路403、海404、海堤405、帆船406和当日时间407。场景注释模块120可以生成描述这些场景元素的文本，并将该文本与图像数据组合以形成该场景的字幕。例如但不限于图4中所示的场景，场景注释模块120可以产生像“海边晴日，帆船浮于远处。道路位于堤前。”的标题。可以使用若干神经网络来生成文本。

神经网络可以被布置为如图5所示的编码器对。第一NN(在本文中称为编码器501)是深度卷积网络(CNN)类型，其输出例如但不限于残差(resnet)型NN的特征向量502。第一NN被配置为输出表示图像帧的类别的特征向量。第二NN(在本文中称为解码器503)是深度网络，例如RNN或LSTM，其逐词地输出表示场景元素的字幕。对编码器的输入是图像帧504。编码器501为图像帧生成特征向量502，并且解码器采用那些特征向量502并预测图像的字幕507。

在训练期间，可以分别训练编码器和解码器。在替代实现方式中，编码器和解码器可以被联合训练。训练编码器501以对图像帧内的对象进行分类。训练期间对编码器的输入被标记图像帧。标签从编码器隐藏，并在训练期间与编码器输出一起被检查。解码器503获取特征向量并输出图像帧的字幕。对解码器的输入是图像特征向量，该图像特征向量具有从解码器隐藏并在训练期间被检查的字幕。在替代实现方式中，可以联合训练编码器-解码器架构以将图像转换为文本。作为示例而非限制，编码器(例如深度CNN)可以根据图像生成图像嵌入。解码器(例如RNN变体)然后可以进行此图像嵌入并生成对应的文本。上面讨论的NN算法用于权重的调整和优化。

尽管场景注释模块120仅需要单个图像帧作为输入，但是场景注释模块可以包括或利用足够尺寸的缓冲器来保持与小于或等于神经网络501、502用于生成预测的字幕507的时间的窗口持续时间相对应的视频数据。作为按需易访问性系统的一部分，场景注释模块可以为窗口内的每个帧生成字幕。在一些实现方式中，场景注释模块可以检测场景变化，例如但不限于在生成新字幕之前场景复杂度变化或场景复杂度超过阈值。

颜色调节

颜色调节模块130如在601所示接收视频帧数据作为输入，并如在602所示将过滤器应用于视频帧。过滤器更改视频帧中某些颜色的值。选择过滤器以增强视频帧中颜色之间的差异，并且过滤器可被配置为对具有色觉障碍的用户增强视频帧内对象的可见性。过滤器的应用可以基于规则。具体地，可以选择过滤器以对于区分某些颜色有问题的人们改善视频帧中的颜色区分。此外，过滤器还可以为具有更一般视觉障碍的用户增强视频。例如，黑暗的视频可以变亮。

过滤器以1秒的间隔实时应用于视频流中的每个视频帧。用户可以基于偏好来选择过滤器，或者基于已知的视觉困难来预设过滤器。过滤器将变换应用于视频的不同色调，并且可以对流中的每个视频帧应用实时伽马校正。然后，如在604所示，可以将针对帧的颜色适配的视频数据603提供给控制模块101。然后，控制模块可以将适配的视频帧数据603发送到主机系统102，以在视频输出装置104上进行渲染和显示。

图形风格修改

图形风格修改模块140从一组图像帧中获取风格并将该风格应用于第二组图像帧。风格适配可能会影响调色板、纹理和背景。在一些实现方式中，可以训练NN(例如，GAN)以将动漫风格的视频游戏(例如，堡垒之夜)的外观转换为逼真风格(例如，侠盗猎车手(Grand Theft Auto))。例如，像堡垒之夜的视频游戏对环境和角色具有鲜明的绿色和红色，而像血缘诅咒(Bloodborne)的游戏则对环境和角色具有淡白色和深棕色。图形风格修改部件可以采用鲜明的绿色和红色风格托盘，并将其应用于血源诅咒。因此，原始血源诅咒的单调棕色环境被鲜绿色和红色所代替，而实际的环境几何形状保持恒定。

图形风格修改部件可以使用生成式对抗神经网络布局来实现。生成式对抗NN(GAN)布局获取输入图像z的数据，并对它们应用映射函数G(z，θ_g)，以近似要应用于输入图像的风格的源图像集(x)特征，其中θ_g是NN参数。GAN的输出是风格适配的输入图像数据，其颜色映射到源图像集风格。

生成式对抗NN训练

训练生成式对抗NN(GAN)布局需要两个NN。彼此相对设置两个NN，其中第一NN 702根据源图像帧701和目标图像帧705生成合成源图像帧705，并且第二NN将图像706分类为目标图像帧704或不对其分类。基于由第二NN 706做出的分类来训练708第一NN702。基于分类是否正确识别目标图像帧704来训练709第二NN706。在下文中称为生成式NN或G_NN的第一NN702获取输入图像(z)并将其映射到表示G(z；θ_g)。

下文将第二NN 706称为判别NN或D_NN。D_NN获取未标记的映射合成源图像帧706和未标记的目标图像(x)集704，并尝试将这些图像分类为属于目标图像集。D_NN的输出是单个标量，表示图像来自目标图像集704的概率。D_NN具有数据空间D(x；θ_d)，其中θ_d表示NN参数。

在生成式对抗NN的训练期间使用的一对NN可以是多层感知器，其类似于上述的卷积网络，但每一层都是完全连接的。生成式对抗NN不限于多层感知器，并且可以组织为CNN、RNN或DNN。另外，生成式对抗NN可以具有任意数量的池化层或softmax层。

在训练期间，G_NN702的目标是最小化D_NN的逆结果。换句话说，训练G_NN以使log(1-D(G(z))最小化。在训练初期，在D_NN因为映射的输入图像与目标图像集有很大不同而以高置信度拒绝映射的输入图像的情况下，可能会出现问题。结果，方程log(1-D(G(z))迅速饱和，并且学习变慢。为了克服这个问题，初始时可以通过最大化log D(G(z))来训练G，其在学习的早期就提供了更强的梯度，并且具有相同的动态固定点。另外，可以将GAN修改为包括循环一致性损失函数，以进一步改善映射结果，如Zhu等人的“使用周期一致对抗网络的不成对图像到图像转变”，ArXiv，ArXiv：1703.10593v5[cs.CV]中所讨论的，其获取地址为：https://arxiv.org/pdf/1703.10593.pdf(2018年8月30日)，在此通过引用并入本文。

训练D_NN706的目的是使为训练数据集分配正确标签的概率最大化。训练数据集包括映射的源图像和目标图像两者。D_NN提供标量值，表示训练数据集中的每个图像属于目标图像集的概率。因此，在训练期间，目标是使log G(x)最大化。

第一NN和第二NN一起形成两玩家极小化极大游戏，其中第一NN 702试图生成图像以欺骗第二NN 706。该游戏的方程是：min_G max_D V(D,G)＝E_x～_pdata(x)[log D(x)]+E_z～_pz(z)[log 1-log D(G(z))。

对G_NN和D_NN以逐步形式进行训练，先优化D_NN，然后优化G_NN。重复此过程很多次，直到在判别器中看不到进一步的改善为止。当训练图像是映射的输入图像p_z的概率等于训练图像是源图像p_数据的概率时，会发生这种情况。换句话说，当p_z＝p_数据时，替代地D(x)＝1/2。总体上类似于上文针对神经网络所讨论的内容，可以使用小批量随机梯度下降法或用于训练兼容性神经网络的任何其他已知方法来训练G_NN和D_NN。有关生成式对抗神经网络的训练和组织的更多信息，请参见Goodfellow等人的“生成式对抗网”，arXiv:1406.2661，其获取网址为：https://arxiv.org/abs/1406.2661。

风格修改模块140使用经训练的G_NN706来将目标图像704的颜色风格应用于源图像。所得到的风格适配的源图像被提供给控制器模块101。与该系统中的其他部件一样，图形风格修改部件系统可以对视频流进行操作，其间隔小于或等于其神经网络的时间。作为示例而非限制，如果风格调节模块的神经网络可以在一秒内生成预测，则图形风格修改模块140可以具有足以在视频流中保留值1秒的图像帧的缓冲器。1秒窗口内的每个帧都可以应用以目标风格。

声音效果的文本注释

在包括视频游戏的许多类型的视听媒体中，场景内经常会同时出现多种声音。这些多种声音包括一些比其他声音更重要的声音。例如，场景可以包括诸如风声和交通声的背景噪声以及诸如枪声、轮胎尖锐声和脚声的前景噪声。背景声音和前景声音中的每一者可能处于不同的声音水平。当前，大多数视听内容不包含与这些声音的重要性有关的任何信息，且仅标记最响亮的声音将无法捕获实际的重要性。例如，在视频游戏中，像风和雨的环境声音可能会以较高水平播放，而脚步声可能会以较低水平播放，但是对于用户来说，脚步声代表了更重要和突出的声音，因为它可能表明敌人正在靠近。

声音效果注释部件模块150获取输入音频801，并对输入音频内发生的最重要的一种声音效果或多种效果声音效果进行分类。通过示例而非限制，声音效果注释部件模块150可以对输入音频内发生的前三个最重要的声音效果进行分类。声音效果注释模块150可以使用两个单独的经训练的NN。如在802处所指示的，第一NN预测在音频中出现的声音中的哪一个是最最重要的。为了预测最重要的声音，使用无监督传递学习来训练第二NN然后将3种选定的声音提供给第二NN。第二NN是被训练以对最重要的声音或在音频内出现的声音进行分类的卷积NN，如在803处所指示。然后可以将三个最重要的音频事件的所得分类数据804提供给控制模块101。替代地，分类数据804可被应用于对应的图像帧，例如小标题或字幕，并且那些修改的图像帧可以被提供给控制器模块101。声音效果注释模块150可以包括缓冲器，该缓冲器的尺寸足以保持小于或等于第一神经网络和第二神经网络对音频片段内发生的主要声音效果进行分类的时间的持续时间的音频片段的音频数据。

虽然以上为本发明的优选实施方案的完整描述，但是使用各种替代、修改和等效物是可能的。应理解以上描述旨在为说明性的且非限制性的。例如，尽管附图中的流程图示出了由本发明的某些实施方案执行的操作的特定顺序，但是应当理解，此类顺序不是必需的(例如，替代实施方案可以以不同的顺序执行操作、组合某些操作、重叠某些操作等)。此外，在阅读和理解以上描述之后，许多其他实施方案对于本领域技术人员将是显而易见的。尽管已经参考特定的示例性实施方案描述了本发明，但是将认识到，本发明不限于所描述的实施方案，而是可以在所附权利要求的精神和范围内进行修改和变型来实践。因此，本发明的范围应参考所附权利要求以及这些权利要求被授权的等效物的全部范围来确定。本文所述的任何特征(不论是否优选)可与本文所述的任何其他特征(不论是否优选)组合。在随附权利要求书中，不定冠词“一个”或“一种”是指冠词后的一个或多个项的量，除非其中另外明确说明。随附权利要求不应被理解为包括装置加功能限制，除非这种限制在给定权利要求中使用短语“用于……的装置”来明确陈述。

Claims

1.一种用于增强视听内容的易访问性的系统，所述系统包括：声音效果注释模块，其被配置为对在音频片段内发生的主要音频事件进行分类，以生成描述在所述音频片段内发生的所述主要音频事件的一个或多个标签。

2.根据权利要求1所述的系统，其中所述一个或多个主要音频事件包括所述音频片段内的前三个最重要的声音。

3.根据权利要求1所述的系统，其中所述音频片段是视频游戏音频的剪辑，所述视频游戏音频的剪辑具有与多个源相关联的多个声音。

4.根据权利要求1所述的系统，其中所述声音效果注释模块包括神经网络，所述神经网络被配置为对在所述音频片段内发生的主要声音效果进行分类，并且其中所述神经网络利用监督学习技术和非监督学习技术两者进行训练。

5.根据权利要求1所述的系统，其中所述音频片段的持续时间小于或等于所述神经网络对在所述音频片段内发生的所述主要声音效果进行分类的时间。

6.根据权利要求1所述的系统，其还包括耦合到所述声音效果注释模块的控制器，其中所述控制器被配置为将所述一个或多个标签提供给主机系统以在显示屏上显示并且使所述声音效果注释模块的输出与一个或多个其他神经网络模块同步。

7.根据权利要求6所述的系统，其中所述一个或多个其他神经网络模块包括图形风格修改模块，所述图形风格修改模块被配置为将根据参考图像帧适配的风格应用于源图像帧，其中所述源图像帧被同步以在所述音频片段期间出现。

8.根据权利要求1所述的系统，其还包括耦合到所述主机系统和所述动作描述模块的控制器，其中所述控制器被配置为将对应于所述一个或多个标签的文本的呈现与和所述音频片段相关联的一序列图像帧的显示同步。

9.一种用于增强视听内容的易访问性的方法，其包括：

用声音效果注释模块对音频片段内发生的主要声音效果进行分类，以生成描述在所述音频片段内发生的所述主要声音效果的一个或多个标签。

10.根据权利要求9所述的方法，其中所述一个或多个主要音频事件包括所述音频片段内的前三个最重要的声音。

11.根据权利要求9所述的方法，其中所述音频片段是视频游戏音频的剪辑，所述视频游戏音频的剪辑具有与多个源相关联的多个声音。

12.根据权利要求9所述的方法，其中使用所述音频描述模块对在所述音频片段内发生的主要音频事件进行分类包括：使用神经网络对在所述音频片段内发生的所述主要音频事件进行分类，并且其中所述神经网络利用监督学习技术和非监督学习技术两者进行训练。

13.根据权利要求9所述的方法，其中所述音频片段的持续时间小于或等于所述神经网络对在所述音频片段内发生的所述主要音频事件进行分类的时间。

14.根据权利要求9所述的方法，其还包括将所述一个或多个标签提供给主机系统以在显示屏上显示并且利用耦合到所述音频描述模块的控制器将所述音频描述模块的输出与一个或多个其他神经网络模块同步。

15.根据权利要求14所述的方法，其中所述一个或多个其他神经网络模块包括图形风格修改模块，所述图形风格修改模块被配置为将根据参考图像帧适配的风格应用于源图像帧，其中所述源图像帧被同步以在所述音频片段期间出现。

16.根据权利要求9所述的方法，其还包括耦合到所述主机系统和所述动作描述模块的控制器，其中所述控制器被配置为将对应于所述一个或多个标签的文本的呈现与和所述音频片段相关联的一序列图像帧的显示同步。

17.一种在其中体现有计算机可读指令的非暂时性计算机可读介质，所述指令被配置为在执行时实现用于增强视听内容的易访问性的方法，所述方法包括用音频描述模块对在音频片段内发生的主要音频事件进行分类，以生成描述所述音频片段内发生的所述主要音频事件的一个或多个标签。