CN113767434A

CN113767434A - 通过将视觉特征与声音标记相关来给视频加标记

Info

Publication number: CN113767434A
Application number: CN202080032449.XA
Authority: CN
Inventors: S.克里什纳默蒂; X.刘
Original assignee: Sony Interactive Entertainment Inc
Current assignee: Sony Interactive Entertainment Inc
Priority date: 2019-04-30
Filing date: 2020-04-14
Publication date: 2021-12-07
Anticipated expiration: 2040-04-14
Also published as: US20210035610A1; CN113767434B; EP3963582A4; US11450353B2; WO2020223007A1; US20200349975A1; JP7470137B2; US10847186B1; EP3963582A1; JP2022531220A

Abstract

基于视觉场景自动地推荐音效使得录音师能够在计算机模拟诸如电影和视频游戏的视频制作期间。该推荐引擎可通过以下操作来完成：对SFX进行分类(200)；以及使用机器学习引擎基于第一计算机模拟(204)的视频属性与分类的SFX之间的学习到的相关性来为所述第一计算机模拟输出(202)所述分类的SFX中的第一分类的SFX。

Description

通过将视觉特征与声音标记相关来给视频加标记

技术领域

本申请总体上涉及技术上创新的非常规解决方案，这些解决方案必须源于计算机技术并产生具体的技术改进。

背景技术

机器学习(有时也称为深度学习)可用于与数据理解、检测和/或分类有关的多种有用应用。在计算机模拟行业(诸如游戏行业)中，视频和音频是两个独立的过程。首先，设计和制作没有音频的模拟，然后，音频组研究模拟视频并插入来自音效(SFX)数据库的对应SFX，这很耗时。

发明内容

如本文所理解，机器学习可用于通过提供与计算机模拟场景相关的SFX推荐来解决以上指出的技术问题。

因此，一种设备包括：至少一个处理器；以及至少一个计算机存储设备，所述至少一个计算机存储设备不是瞬时信号并且包括指令，所述指令能够由所述处理器执行以对音效(SFX)进行分类以城下分类的SFX。所述指令能够执行以使用至少一个机器学习引擎至少部分地基于第一计算机模拟的视频属性与所述分类的SFX之间的学习到的相关性来为至少所述第一计算机模拟输出所述分类的SFX中的至少第一分类的SFX。

在示例实施方案中，所述指令可能够执行以使用所述第一计算机模拟中的元素到所述分类的SFX中的所述第一分类的SFX的分类的直接映射来为所述第一计算机模拟推荐所述分类的SFX中的所述第一分类的SFX。在此类实施方案中，所述指令可能够执行以将没有声音的所述第一计算机模拟输入到至少第一神经网络(NN)，所述第一NN被训练来学习视频中的视觉特征与SFX标记之间的相关性；以及将来自包括噪声SFX的地面实况分类的至少第一噪声SFX模型的信息输入到所述第一NN。所述指令还可能够执行以将训练数据输入到所述第一噪声SFX模型以训练所述第一噪声SFX模型，其中所述训练数据包括来自一个或多个计算机模拟的音频剪辑和合成的音频剪辑。所述指令还可能够执行以：将所述训练数据输入到所述第一噪声SFX模型的多个卷积NN(CNN)以呈现第一输出；以及然后将所述第一输出输入到分类映射器，所述分类映射器呈现包括对所述第一计算机模拟的SFX预测的第二输出。

在一些实现方式中，所述第一噪声SFX模型包括多个门控卷积神经网络(CNN)。至少一个双向循环神经网络(RNN)可被配置为接收所述多个门控CNN的输出。而且，多个基于注意力的前馈神经网络(FNN)可被配置为接收所述RNN的输出。

在一些示例中，所述第一噪声SFX模型可包括多个门控卷积神经网络(CNN)，所述多个门控CNN中的至少一者被配置为接收所述训练数据。至少第一分类器(CLF)网络可被配置为接收所述多个门控CNN的输出，并且至少第二CLF网络可被配置为接收所述多个门控CNN的输出。在此类实施方案中，所述第一CLF网络可以是被配置为接收来自所述多个门控CNN的输出的监督式32类网络，所述输出包括来自一个或多个计算机模拟的所述音频剪辑和所述合成的音频剪辑两者的数据。所述第二CLF网络可以是被配置为接收来自所述多个门控CNN的输出的监督式182类网络，所述输出包括来自所述合成的音频剪辑而不是来自一个或多个计算机模拟的所述音频剪辑的数据。

在另一方面，一种设备包括：至少一个处理器；以及至少一个计算机存储设备，所述至少一个计算机存储设备不是瞬时信号并且包括指令，所述指令能够由所述处理器执行以至少部分地通过将无声视频帧和噪声SFX标签输入到多个残差神经网络(Resnet)来训练至少第一音效(SFX)推荐引擎。所述指令能够执行以：将所述Resnet的输出输入到至少一个双向门控循环单元以呈现向量；以及至少部分地通过将所述Resnet的输出输入到至少一个经训练模型来为没有声音的至少第一视频推荐至少一个SFX，所述至少一个经训练模型还被配置为接收没有声音的至少第二视频作为输入以输出表示用于所述第二视频的推荐的SFX的至少一个SFX标记。

在另一方面，一种方法包括：对第一视频或第一计算机模拟中的第一音效和第二音效进行分类；以及至少部分地基于所述分类，提供对第二视频或第二计算机模拟的音效预测。

参考附图可最好地理解本申请的关于其结构和操作两者的细节，在附图中，相同的附图标记指代相同的部分，并且在附图中：

附图说明

图1是符合本发明原理的示例系统的框图；

图2是符合本发明原理的用于为视频或计算机模拟推荐音效(SFX)的示例总体逻辑的流程图；

图3是示出图2的逻辑的框图；

图4是涉及从视频到SFX标记的直接映射的用于SFX加标记的第一方法的框图；

图5是符合图4中的第一方法的附加特征的框图；

图6和图7是符合图4中的第一方法的与“噪声”粗粒度(在所示的示例中是32类)SFX分类有关的机器学习架构的框图；

图8是符合图4中的第一方法的与“噪声”细粒度SFX分类有关的半监督式机器学习架构的框图；

图9是符合图4中的第一方法的与训练和测试阶段有关的机器学习架构的框图；

图10是涉及通过视觉理解进行间接加标记的用于视频加标记的第二方法的特征的框图；并且

图11和图12是示出将视觉标记与匹配的SFX音频标记相关的屏幕截图和有关的表。

具体实施方式

根据本发明原理，可使用基于深度学习的域自适应方法来为视频和计算机模拟(诸如视频游戏)推荐SFX。

本文描述的方法可涉及多个对象以及与该多个对象相关联的多个动作。例如，许多文本的图像文本块可以是“对象”，并且图像块的类型可以是“动作”。

本公开还总体上涉及计算机生态系统，该计算机生态系统包括消费性电子(CE)装置网络的各方面，诸如但不限于分布式计算机游戏网络、增强现实(AR)网络、虚拟现实(VR)网络、视频广播、内容递送网络、虚拟机以及人工神经网络和机器学习应用。

本文的系统可包括服务器和客户端部件，所述服务器和客户端部件通过网络连接使得可在客户端和服务器部件之间交换数据。客户端部件可包括一个或多个计算装置，所述一个或多个计算装置包括AR耳机、VR耳机、游戏控制台(诸如Sony

)和相关母板、游戏控制器、便携式电视(例如智能TV、支持互联网的TV)、便携式计算机(诸如膝上型计算机和平板计算机)以及其他移动装置(包括智能电话和下文所论述的额外示例)。这些客户端装置可在多种操作环境下操作。例如，客户端计算机中的一些可采用例如Orbis或Linux操作系统、来自Microsoft的操作系统、或Unix操作系统，或者由Apple公司或Google生产的操作系统。这些操作环境可用于执行一个或多个程序/应用程序，诸如由Microsoft或Google或Mozilla制作的浏览器，或可访问由下文所论述的互联网服务器托管的网站的其他浏览器程序。此外，根据本发明原理的操作环境可用于执行一个或多个计算机游戏程序/应用程序和实施本发明原理的其他程序/应用程序。

服务器和/或网关可包括执行指令的一个或多个处理器，所述指令将服务器配置为通过诸如互联网的网络来接收和传输数据。另外地或替代地，客户端和服务器可通过本地内联网或虚拟专用网络进行连接。服务器或控制器可由游戏控制台和/或其一个或多个母板(诸如Sony

)、个人计算机等实例化。

可经由网络在客户端与服务器之间交换信息。为此并且为了安全起见，服务器和/或客户端可包括防火墙、负载平衡器、临时存储设备和代理，以及用于可靠性和安全性的其他网络基础设施。一个或多个服务器可形成实现根据本发明原理的向网络用户提供诸如在线社交网站或视频游戏网站的安全社区以众包地通信的方法的设备。

如本文所使用，指令是指用于在系统中处理信息的计算机实现的步骤。指令可在软件、固件或硬件中实现，并且包括由系统的部件承担的任何类型的经编程步骤。

处理器可以是可通过各种线(诸如地址线、数据线和控制线)以及寄存器和移位寄存器来执行逻辑的任何常规的通用单芯片或多芯片处理器。

通过本文的流程图和用户界面描述的软件模块可包括各种子例程、程序等。在不限制本公开的情况下，被陈述为由特定模块执行的逻辑可被再分配到其他软件模块和/或一起组合在单个模块中和/或使得在可共享库中可用。

如上文所指示，本文所述的本发明原理可实现为硬件、软件、固件或它们的组合；因此，依据说明性部件、框、模块、电路和步骤的功能性对它们进行阐述。

除上文已经提到的内容之外，下文所述的逻辑块、模块和电路可用通用处理器、数字信号处理器(DSP)、现场可编程门阵列(FPGA)或被设计来执行本文所述功能的其他可编程逻辑装置(诸如专用集成电路(ASIC)、离散门或晶体管逻辑、离散硬件部件或它们的任何组合)来实现或执行。处理器可由控制器或状态机或计算装置的组合来实现。

下文描述的功能和方法可以硬件电路或软件电路来实现。当以软件实现时，功能和方法可用诸如但不限于Java、C#或C++的适当语言编写，并且可存储在计算机可读存储介质上或通过计算机可读存储介质进行传输，所述计算机可读存储介质诸如随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、光盘只读存储器(CD-ROM)或其他光盘存储设备(诸如数字通用光盘(DVD))、磁盘存储设备或包括可移除拇指驱动器的其他磁存储装置等。连接可建立计算机可读介质。此类连接可包括例如硬连线电缆，包括光纤和同轴线以及数字用户线(DSL)和双绞线。此类连接可包括无线通信连接，包括红外线和无线电。

在一个实施方案中所包括的部件可按照任何适当的组合用于其他实施方案中。例如，本文描述且/或在图中描绘的各种部件中的任一者可进行组合、互换或从其他实施方案排除。

“具有A、B和C中的至少一者的系统”(同样地，“具有A、B或C中的至少一者的系统”和“具有A、B、C中的至少一者的系统”)包括以下系统：仅具有A；仅具有B；仅具有C；同时具有A和B；同时具有A和C；同时具有B和C；和/或同时具有A、B和C等。

现在具体地参考图1，示出了示例系统10，该系统可包括根据本发明原理的上文所提及且下文进一步描述的示例装置中的一者或多者。系统10中包括的示例装置中的第一者是诸如音频视频装置(AVD)12的消费性电子(CE)装置，诸如但不限于带有TV调谐器(等效地，控制TV的机顶盒)的支持互联网的TV。然而，替代地，AVD 12可以是家电或家居用品，例如，计算机化的支持互联网的冰箱、洗涤器或干燥器。替代地，AVD 12还可以是计算机化的支持互联网(“智能”)的电话、平板计算机、笔记本计算机、增强现实(AR)耳机、虚拟现实(VR)耳机、支持互联网的或“智能”眼镜、另一种类型的可佩戴的计算机化装置，诸如计算机化的支持互联网的手表、计算机化的支持互联网的手镯、计算机化的支持互联网的音乐播放器、计算机化的支持互联网的头戴式耳机、计算机化的支持互联网的可植入装置(诸如可植入皮肤装置)、其他计算机化的支持互联网的装置等。无论如何，应理解，AVD 12被配置为实施本发明原理(例如，与其他消费性电子(CE)装置通信以实施本发明原理、执行本文描述的逻辑以及执行本文描述的任何其他功能和/或操作)。

因此，为了实施此类原理，AVD 12可由图1所示的部件中的一些或全部建立。例如，AVD 12可包括一个或多个显示器14，该一个或多个显示器可由高清晰度或超高清晰度“4K”或更高的平面屏幕实现，并且可支持触摸以用于经由显示器上的触摸来接收用户输入信号。AVD 12可包括一个或多个扬声器16以用于根据本发明原理输出音频，以及至少一个附加的输入装置18(诸如音频接收器/麦克风)以用于向AVD 12输入可听命令来控制AVD 12。示例AVD 12还可包括一个或多个网络接口20，以用于在一个或多个处理器的控制下通过至少一个网络22(诸如互联网、WAN、LAN等)进行通信。因此，接口20可以是但不限于Wi-Fi收发器，所述Wi-Fi收发器是无线计算机网络接口的示例，诸如但不限于网状网络收发器。此外，应注意，网络接口20可以是例如有线或无线调制解调器或路由器，或者其他适当的接口，诸如例如无线电话收发器或如上所提及的Wi-Fi收发器等。

应理解，一个或多个处理器控制AVD 12来实施本发明原理，包括本文所述的AVD12的其他元件，诸如控制显示器14来在显示器上呈现图像和从显示器接收输入。一个或多个处理器可包括中央处理单元(CPU)24以及图形卡25A上的图形处理单元(GPU)25。

除前述内容之外，AVD 12还可包括一个或多个输入端口26，诸如例如用于物理地连接(例如，使用有线连接)到另一个消费性电子(CE)装置的高清晰度多媒体接口(HDMI)端口或USB端口和/或用于将耳机连接到AVD 12以通过头戴式耳机将来自AVD 12的音频呈现给用户的头戴式耳机端口。例如，输入端口26可经由有线或无线地连接到音频视频内容的有线或卫星源26a。因此，源26a可以是例如单独的或集成的机顶盒或卫星接收器。或者，源26a可以是包含内容的游戏控制台或磁盘播放器，所述内容可被用户视为用于信道分配目的的最爱。当被实现为游戏控制台时，源26a可包括下面关于CE装置44描述的部件中的一些或全部，并且可实现本文所描述的逻辑中的一些或全部。

AVD 12还可包括不是瞬时信号的一个或多个计算机存储器28，诸如基于磁盘的存储设备或固态存储设备，在一些情况下，所述一个或多个计算机存储器在AVD的机壳中体现为独立装置，或者体现为在AVD的机壳内部或外部的用于回放AV节目的个人视频记录装置(PVR)或视频磁盘播放器，或者体现为可移除存储器介质。此外，在一些实施方案中，AVD 12可包括位置或地点接收器(诸如但不限于手机接收器、GPS接收器和/或高度计30)，所述位置或地点接收器被配置为例如从至少一个卫星或手机塔接收地理位置信息并且向处理器24提供该信息和/或结合处理器24来确定AVD 12被设置在的高度。然而，应理解，根据本发明原理，可使用除手机接收器、GPS接收器和/或高度计之外的另一个合适的位置接收器，以例如在所有的三个维度上确定AVD 12的地点。

继续对AVD 12的描述，在一些实施方案中，根据本发明原理，AVD 12可包括一个或多个相机32，所述一个或多个相机可以是例如热成像相机、诸如网络摄像机的数码相机、红外(IR)相机和/或集成到AVD 12中并且可由处理器24控制以生成图片/图像和/或视频的相机。在AVD 12上还可包括蓝牙收发器34和其他近场通信(NFC)元件36，以用于分别使用蓝牙和/或NFC技术与其他装置进行通信。示例NFC元件可以是射频识别(RFID)元件。

此外，AVD 12可包括向处理器24提供输入的一个或多个辅助传感器37(例如，运动传感器，诸如加速计、陀螺仪、回转计或磁传感器、红外(IR)传感器、光学传感器、速度和/或节奏传感器、手势传感器(例如，用于感测手势命令)等)。AVD 12可包括无线TV广播端口38，以用于接收向处理器24提供输入的OTATV广播。除前述内容之外，应注意，AVD 12还可包括红外(IR)发射器和/或IR接收器和/或IR收发器42，诸如IR数据关联(IRDA)装置。可提供电池(未示出)以用于为AVD 12供电。

仍参考图1，除AVD 12之外，系统10还可包括一个或多个其他消费性电子(CE)装置类型。在一个示例中，第一CE装置44可用于经由直接发送到AVD 12的命令和/或通过下面描述的服务器向AVD 12发送计算机游戏音频和视频，而第二CE装置46可包括与第一CE装置44相似的部件。在所示的示例中，第二CE装置46可被配置为用户47所佩戴的AR或VR耳机，如图所示。在所示的示例中，仅示出两个CE装置44、46，应理解，根据本发明原理，也可使用更少或更多的装置。

在所示的示例中，假定所有的三个装置12、44、46都是例如在家庭中的网络(诸如安全或加密网络、娱乐网络或Wi-Fi)的构件，或者至少在特定地点彼此接近出现并且能够彼此通信并与本文所述的服务器通信。然而，除非另有明确要求，否则本发明原理不限于特定地点或网络。

示例非限制性第一CE装置44可由上述装置(例如，智能电话、数字助理、便携式无线膝上型计算机或笔记本计算机或游戏控制器(也称为“控制台”))中的任一者建立，并且因此可具有下文描述的部件中的一个或多个。第二CE装置46可由但不限于AR耳机、VR耳机、“智能”的支持互联网的眼镜、或者甚至视盘播放器(诸如蓝光播放器)、游戏控制台等来建立。此外，在一些实施方案中，第一CE装置44可以是用于例如将AV播放和暂停命令发布到AVD 12的遥控装置(RC)，或者它可以是更复杂的装置，诸如平板计算机、经由有线或无线链路与由图1所示的装置中的另一个实现的游戏控制台通信并且控制AVD 12上的视频游戏呈现的游戏控制器、个人计算机、无线电话等。

因此，第一CE装置44可包括一个或多个显示器50，所述一个或多个显示器可支持触摸以用于经由显示器50上的触摸来接收用户输入信号。另外地或替代地，显示器50可以是至少部分透明的显示器，诸如AR耳机显示器或“智能”眼镜显示器或“抬头”显示器，以及VR耳机显示器或者被配置用于呈现AR和/或VR图像的其他显示器。

第一CE装置44还可包括一个或多个扬声器52以用于根据本发明原理输出音频，以及至少一个附加的输入装置54(诸如例如音频接收器/麦克风)以用于向第一CE装置44输入可听命令来控制装置44。示例第一CE装置44还可包括一个或多个网络接口56，以用于在一个或多个CE装置处理器58的控制下通过网络22进行通信。因此，接口56可以是但不限于Wi-Fi收发器，所述Wi-Fi收发器是无线计算机网络接口的示例，包括网状网络接口。应理解，处理器58控制第一CE装置44来实施本发明原理，包括本文所述的第一CE装置44的其他元件，诸如例如控制显示器50来在显示器上呈现图像和从显示器接收输入。此外，应注意，网络接口56可以是例如有线或无线调制解调器或路由器，或者其他适当的接口，诸如无线电话收发器或如上所提及的Wi-Fi收发器等。

此外，应注意，除处理器58之外，第一CE装置44还可包括在图形卡55A上的图形处理单元(GPU)55。图形处理单元55可被配置为尤其用于在显示器50上呈现AR和/或VR图像。

除前述内容之外，第一CE装置44还可包括用于物理地连接(例如，使用有线连接)到另一个CE装置的一个或多个输入端口60(诸如例如HDMI端口或USB端口)和/或用于将头戴式耳机连接到第一CE装置44以用于通过头戴式耳机将来自第一CE装置44的音频呈现给用户的头戴式耳机端口。第一CE装置44还可包括一个或多个有形计算机可读存储介质62，诸如基于磁盘的存储设备或固态存储设备。此外，在一些实施方案中，第一CE装置44可包括位置或地点接收器(诸如但不限于手机和/或GPS接收器和/或高度计64)，所述位置或地点接收器被配置为例如使用三角测量从至少一个卫星和/或手机塔接收地理位置信息并且向CE装置处理器58提供该信息和/或结合CE装置处理器58来确定第一CE装置44被设置在的高度。然而，应理解，根据本发明原理，可使用除手机和/或GPS接收器和/或高度计之外的另一个合适的位置接收器，以例如在所有的三个维度上确定第一CE装置44的地点。

继续对第一CE装置44的描述，在一些实施方案中，根据本发明原理，第一CE装置44可包括一个或多个相机66，所述一个或多个相机可以是例如热成像相机、IR相机、诸如网络摄像机的数码相机和/或集成到第一CE装置44中并且可由CE装置处理器58控制以生成图片/图像和/或视频的另一种类型的相机。在第一CE装置44上还可包括蓝牙收发器68和其他近场通信(NFC)元件70，以用于分别使用蓝牙和/或NFC技术与其他装置进行通信。示例NFC元件可以是射频识别(RFID)元件。

此外，第一CE装置44可包括向CE装置处理器58提供输入的一个或多个辅助传感器72(例如，运动传感器，诸如加速计、陀螺仪、回转计或磁传感器、红外(IR)传感器、光学传感器、速度和/或节奏传感器、手势传感器(例如，用于感测手势命令)等)。第一CE装置44可包括向CE装置处理器58提供输入的另外的其他传感器，诸如例如一个或多个气候传感器74(例如，气压计、湿度传感器、风传感器、光传感器、温度传感器等)和/或一个或多个生物识别传感器76。除前述内容之外，应注意，在一些实施方案中，第一CE装置44还可包括红外(IR)发射器和/或IR接收器和/或IR收发器78，诸如IR数据关联(IRDA)装置。可提供电池(未示出)以用于为第一CE装置44供电。CE装置44可通过上述通信模式和相关部件中的任一者与AVD 12进行通信。

第二CE装置46可包括针对CE装置44示出的部件中的一些或全部。任一个或两个CE装置可由一个或多个电池供电。

现在参考前述至少一个服务器80，它包括至少一个服务器处理器82、至少一个有形计算机可读存储介质84(诸如基于磁盘的存储设备或固态存储设备)。在实现方式中，介质84包括一个或多个固态存储驱动器(SSD)。根据本发明原理，服务器还包括至少一个网络接口86，所述至少一个网络接口允许通过网络22与图1的其他装置进行通信，并且实际上可促进服务器与客户端装置之间的通信。应注意，网络接口86可以是例如有线或无线调制解调器或路由器、Wi-Fi收发器或其他适当的接口，诸如无线电话收发器。网络接口86可以是远程直接存储器访问(RDMA)接口，其将介质84直接连接到诸如所谓的“结构”的网络而无需通过服务器处理器82。所述网络可包括以太网和/或光纤信道网络和/或无限带宽网络。通常，服务器80包括多个计算机中的被称为“刀片”的多个处理器，其可布置在物理服务器“堆栈”中。

因此，在一些实施方案中，服务器80可以是互联网服务器或整个“服务器场”，并且可包括并执行“云”功能，使得在例如如本文所公开的域自适应的示例实施方案中，系统10的装置可经由服务器80来访问“云”环境。另外地或替代地，服务器80可由与图1示出的其他装置在同一房间中或在附近的一个或多个游戏控制台或其他计算机实现。

图2和图3示出了总体原理。从图2中的框200处开始，对音效(SFX)进行分类。在一个示例中，可对传入的数字化音效信号300执行该分类以呈现标记302(在图3中以图形方式示出)，所述标记用文字描述被分类的音效，如本文其他地方所阐述。

移动到图2中的框202并且仍然交叉参考图3，将标记302寄存在数据库304中。然后，进行到图2中的框204，可将寄存的标记与没有声音的视频306进行组合，以呈现具有音效声音的视频308。应注意，“音效”是指作为计算机模拟(诸如计算机游戏)的一部分的非语言音频，以模仿炮火、燃烧、人奔跑、人喊叫感叹、水等的声音。如下文进一步所阐述，本文提供了深度学习/AI技术以帮助用于计算机模拟(诸如视频游戏)的声音内容创建。

如本文所使用，“干净SFX加标记”是基于由游戏音效师使用的干净音频样本(具有单一声源的音效)的类别和子类别对这些干净音频样本进行分类或加标记，使得所述干净音频样本可自动地寄存在数据库中。这通过使得在混音期间更高效地进行搜索和检索来帮助游戏设计者。“视频加标记”是指自动地推荐与游戏场景相关的音效。这样做是为了通过使声音设计过程更高效来帮助游戏设计者。本发明原理集中于实现视频加标记的技术。

本公开揭露了两种用于视频加标记的技术。图4至图9描述了直接映射方法，其中训练深度学习引擎以学习游戏视频的视觉特征与对应的SFX(音频)标记302之间的相关性。图10至图12以两个步骤描述了视觉理解方法，所述两个步骤即提供神经网络(NN)来理解游戏场景的视觉内容并生成视觉标记，所述视觉标记包括对象标记、动作标记和字幕，接着使用语义文本相似性将视觉标记映射到音频标记。也可基于其他知识库来使用基于辞典的映射。

因此，并且现在参考图4，在训练阶段400中，使用视频(诸如具有SFX声音402的计算机模拟)来训练NN系统，以便为不同的SFX源生成标记404来呈现SFX标记406。一旦NN系统经训练，就可在测试阶段408中使用该NN系统来接收视频410(诸如没有SFX声音的计算机模拟)，以作为对下文进一步描述的经训练模型412的输入来输出SFX标记414，所述SFX标记与视频410进行组合以呈现其中结合有SFX声音的视频416。

现在参考图5，可看到对图4的训练阶段的更详细说明。将无声视频(诸如计算机游戏视频500)输入到经训练的NN 502。NN 502使用监督式学习方法来学习视频的视觉特征与对应的音效之间的直接映射。为了训练这个监督式模型，需要针对游戏音频的声音注释。如本文所理解，该过程因游戏音频典型地包含混音(也称为噪声SFX)而使得尤其是在声音类别的数量很大的情况下难以获得人工注释504的事实变得复杂。因此，训练深度学习模型506以对混音(噪声SFX模型)自动地加标记来识别组成声音的类别。

现在参考图6和图7，在初始实施方案中，训练噪声SFX模型以使用人工注释对较少数量的类别(32类)加标记。将由频谱图600表示的音频剪辑输入到包括一系列卷积NN(CNN)604的分割映射模块602。由映射模块602输出分割掩码606并将其用于分类映射608，该分类映射以对应的概率产生对标记的预测610。图7相关地示出了门控卷积循环NN(CRNN)700，其接收SFX剪辑702作为输入并在每个时间步长上提取频谱图，从而将输出提供给双向RNN704，诸如双向长短期存储器(LSTM)。图7指示了网络700中使用的CNN类型。Bi-RNN 704耦合到基于注意力的本地化模块706，该基于注意力的本地化模块包括如图所示作为sigmoid和softmax FNN操作的多个前馈NN(FNN)，以产生预测标记708作为加权平均值。

对本发明原理很重要的是图8，该图示出了用于噪声SFX加标记的高级技术。为了生成更细粒度SFX标记(例如，182类或5000类标签或更详细的标签)以更好地区分噪声样本中的不同音效，使用来自计算机模拟的实际SFX数据800以及与任何模拟分开地生成的合成噪声SFX数据802来训练监督式模型，以仅用于训练门控CNN模块804的目的。换句话说，如在图8中反映的本发明原理认识到，为了训练监督式模型，需要具有更细粒度(例如，182类或5000类)地面实况标记的训练数据，而当前仅可获得用于游戏音频的较粗粒度(32类)带人工注释的SFX标签。因此，图8和之后的图示出了半监督式方法，该半监督式方法从粗粒度音频标记生成细粒度音频标记，而无需附加的人工注释。应注意，32类和182类用作粗粒度和细粒度标记的示例。

创建在802处表示的声音样本的合成混合物并且在混合期间记录所述声音样本的类别。在该合成混合物中，建立细粒度SFX标签(在本文其他地方称为数据集1)。另一方面，框800表示具有被称为数据集2的粗粒度标签(由人类生成)的可用真实游戏音频。如图8所示，将实际模拟或游戏数据的数据集1和不是来自模拟或游戏而是出于补充游戏数据的目的而创建的合成数据的数据集2进行组合，以训练端到端半监督式模型804，该端到端半监督式模型包括粗分类器806和细粒度分类器808以生成标识噪声游戏音频的组分的细粒度标记810。该模型是半监督式的，因为没有将真正的细粒度游戏音频标签用于训练，如前所述。该模型是多任务模型，因为它能够生成粗粒度音频标记812和细粒度音频标记810两者。换句话说，细粒度分析使用比粗粒度分析更多的类别。

该模型的训练损失函数是细粒度加标记和粗粒度加标记的损失的和。训练的目标是最小化训练损失。当模型收敛时，训练停止。此时，获得可将噪声混音分解为其组成标记的模型。

因此，以上描述揭露了一种识别游戏音频的组成音效类别的技术，而图9描绘了如何使用这些标记(由人类或图8中的模型生成)来训练监督式视频加标记模型。如图所示，在训练期间，将具有提取的声音的视频900连同如上所述那样生成和/或人工注释的噪声SFX标记902一起输入到训练阶段模块904。更具体地，使从视频提取的对应音频通过以上在图8中说明的噪声SFX模型以生成SFX标记或标签902，所述SFX标记或标签与对应的视频片段900一起输入到监督式训练阶段模型904。以这种方式，在训练之前将视频与音频标记同步。在示例非限制性实现方式中，所使用的帧速率可以是每秒三十帧(30fps)，并且视频持续时间可以是一秒。

训练阶段模块904通过使无声视频帧通过深度CNN 906(例如，Resnet或相似的网络)来生成视频嵌入(数值向量)。对于每一帧，生成一个嵌入(向量)，其用作视频帧的视觉特征。也可使用其他视觉特征。由于视频是帧的序列，因此产生了视频嵌入的序列，所述视频嵌入然后输入到循环神经网络908(在所示的示例中是双向门控循环单元(GRU)或门控循环网络)，该循环神经网络产生标记预测910。

训练的输出是神经模型912，该神经模型可在测试阶段中接收没有声音的新模拟视频914并且生成对应于无声视频914的声音标记916。这些标记可用于检索对应的音效918以与视频进行组合，如在920处所示。

图10至图12示出了以上提到的视觉理解方法。在第一步骤中，使用视频1000(诸如没有声音(音频)的计算机模拟)以基于对例如视频中识别出的对象1004、视频中的识别出的动作1006和视频中的识别出的场景描述1008的视觉理解来生成视觉标记1002。然后，语义文本相似性模块1010从上述数据库接收视觉标记1002以及SFX标记1012，以将视觉标记自动地映射到声音数据库中的特定音频类别以生成具有声音的视频1014。

图11进一步进行例示。显示器1100被示出为呈现具有使用图像辨识技术辨识的对象1102的视频以生成对应的视觉标记1104。可使用字词嵌入或语句嵌入来嵌入视觉标记1104，这产生数值向量。视频标记1104与对应的音频标记1106相匹配。使用字词嵌入或语句嵌入来嵌入标识音频样本的每个音频类别或音频文件名，这同样产生数值向量。图12相似地示出了在显示器1200上的具有字幕1202的视频，所述字幕可使用无监督式语义文本相似性模型1203与音频标记1204进行匹配。

在任何情况下，无论是将音频标记与对象标记、字幕标记还是动作标记相匹配，都会产生两个数值向量，一个用于音频标记并且一个用于从视频得到的标记。通过计算两个向量之间的距离来确定标记的相似性。可使用任何距离度量，诸如余弦相似性或欧几里得距离。距离越小，标记越相似。使用这种方法，将每个视觉标记映射到前k个最相似的音频标记。

使用这种文本相似性方法，可将每个视觉标记映射到不同粒度的音频标记，所述音频标记在从标识一组音频样本的粗粒度(例如，32类)标记到标识单个声音样本的极细粒度标记的范围内。

从对游戏场景的视觉理解自动地生成的音频标记可用于两个目的。首先，音频标记可用于向游戏设计者推荐游戏场景的音效。其次，作为从音频得到的噪声SFX标签的替代，音频标记还可用作SFX标签以用于训练图4至图16中揭露的直接映射视频加标记模型。

虽然图4至图9中的直接映射可提供比图10至图12所示的视觉理解技术更高的加标记准确度，但是视觉理解使用无监督式文本相似性呈现更细粒度的加标记并使得相对容易给对象和字幕注释。当准确的地面实况SFX标记可用于加标记或声源分离可行时，直接映射特别地有利。当获得细粒度SFX注释原本很困难时，视觉理解特别地有利，并且它模仿录音师的工作流程。

本发明原理可用于基于深度学习的方法以进行图像、视频和音频数据处理等等。如从前述详细描述中可了解，本发明原理因此通过本文描述的技术解决方案来改进神经网络的自适应和训练。

将了解，虽然已经参考一些示例实施方案描述了本发明原理，但是这些实施方案并不意图是限制性的，并且可使用各种替代布置来实现本文所要求保护的主题。

Claims

1.一种设备，所述设备包括：

至少一个处理器；以及

至少一个计算机存储设备，所述至少一个计算机存储设备不是瞬时信号并且包括指令，所述指令能够由所述至少一个处理器执行以：

对音效(SFX)进行分类以呈现分类的SFX；以及

使用至少一个机器学习引擎至少部分地基于第一计算机模拟的视频属性与所述分类的SFX之间的学习到的相关性来为至少所述第一计算机模拟输出所述分类的SFX中的至少第一分类的SFX。

2.如权利要求1所述的设备，其中所述指令能够执行以：

使用所述第一计算机模拟中的元素到所述分类的SFX中的所述第一分类的SFX的分类的直接映射来为所述第一计算机模拟推荐所述分类的SFX中的所述第一分类的SFX。

3.如权利要求2所述的设备，其中所述指令能够执行以：

将没有声音的所述第一计算机模拟输入到至少第一神经网络(NN)，所述第一NN被训练来学习视频中的视觉特征与SFX标记之间的相关性；

将来自包括噪声SFX的地面实况分类的至少第一噪声SFX模型的信息输入到所述第一NN。

4.如权利要求3所述的设备，其中所述指令能够执行以：

将训练数据输入到所述第一噪声SFX模型以训练所述第一噪声SFX模型，所述训练数据包括来自一个或多个计算机模拟的音频剪辑和合成的音频剪辑。

5.如权利要求4所述的设备，其中所述指令能够执行以：

将所述训练数据输入到所述第一噪声SFX模型的多个卷积NN(CNN)以呈现第一输出；

将所述第一输出输入到分类映射器，所述分类映射器呈现包括对所述第一计算机模拟的SFX预测的第二输出。

6.如权利要求3所述的设备，其中所述第一噪声SFX模型包括：

多个门控卷积神经网络(CNN)；

至少一个双向循环神经网络(RNN)，所述至少一个双向RNN被配置为接收所述多个门控CNN的输出；

多个基于注意力的前馈神经网络(FNN)，所述多个基于注意力的FNN被配置为接收所述RNN的输出。

7.如权利要求4所述的设备，其中所述第一噪声SFX模型包括：

多个门控卷积神经网络(CNN)，所述多个门控CNN中的至少一者被配置为接收所述训练数据；

至少第一分类器(CLF)网络，所述第一CLF网络被配置为接收所述多个门控CNN的输出；以及

至少第二CLF网络，所述第二CLF网络被配置为接收所述多个门控CNN的输出。

8.如权利要求7所述的设备，其中所述第一CLF网络是被配置为接收来自所述多个门控CNN的输出的监督式32类网络，所述输出包括来自一个或多个计算机模拟的所述音频剪辑和所述合成的音频剪辑两者的数据。

9.如权利要求8所述的设备，其中所述第二CLF网络是被配置为接收来自所述多个门控CNN的输出的监督式182类网络，所述输出包括来自所述合成的音频剪辑而不是来自一个或多个计算机模拟的所述音频剪辑的数据。

10.一种设备，所述设备包括：

至少一个处理器；以及

至少部分地通过以下操作来训练至少第一音效(SFX)推荐引擎：

将无声视频帧和噪声SFX标签输入到多个残差神经网络(Resnet)；

将所述Resnet的输出输入到至少一个双向门控循环单元以呈现向量；

至少部分地通过以下操作来为没有声音的至少第一视频推荐至少一个SFX：

将所述Resnet的输出输入到至少一个经训练模型，所述至少一个经训练模型还被配置为接收没有声音的至少第二视频作为输入以输出表示用于所述第二视频的推荐的SFX的至少一个SFX标记。

11.如权利要求10所述的设备，其中所述指令能够执行以将所述推荐的SFX与所述第二视频进行组合。

12.如权利要求10所述的设备，其中所述指令能够执行以：

将训练数据输入到第一噪声SFX模型以训练所述第一噪声SFX模型，所述训练数据包括来自一个或多个计算机模拟的音频剪辑和合成的音频剪辑。

13.如权利要求12所述的设备，其中所述指令能够执行以：

14.如权利要求13所述的设备，其中所述第一噪声SFX模型包括：

15.如权利要求14所述的设备，其中所述第一CLF网络是被配置为接收来自所述多个门控CNN的输出的监督式32类网络，所述输出包括来自一个或多个计算机模拟的所述音频剪辑和所述合成的音频剪辑两者的数据。

16.如权利要求15所述的设备，其中所述第二CLF网络是被配置为接收来自所述多个门控CNN的输出的半监督式细粒度网络，所述输出包括来自所述合成的音频剪辑而不是来自一个或多个计算机模拟的所述音频剪辑的数据。

17.一种方法，所述方法包括：

对第一视频或第一计算机模拟中的第一音效和第二音效进行分类；以及

至少部分地基于所述分类，提供对第二视频或第二计算机模拟的音效预测。

18.如权利要求17所述的方法，其中至少部分地通过将音效直接地映射到音效标记来执行所述提供。

19.如权利要求17所述的方法，其中至少部分地通过对所述第一视频或所述第一计算机模拟中的对象、动作和字幕的图像辨识来执行所述提供。

20.如权利要求17所述的方法，其中所述分类还包括：

将没有声音的所述第一计算机模拟输入到至少第一神经网络(NN)，所述第一NN被训练来学习视频中的视觉特征与音效(SFX)标记之间的相关性；

将来自包括噪声SFX和/或预测的SFX标记的地面实况分类的至少第一噪声SFX模型的信息输入到所述第一NN。