CN113767647A

CN113767647A - 使用文本相似性将视觉标记映射到声音标记

Info

Publication number: CN113767647A
Application number: CN202080032378.3A
Authority: CN
Inventors: S.克里什纳默蒂
Original assignee: Sony Interactive Entertainment Inc
Current assignee: Sony Interactive Entertainment Inc
Priority date: 2019-04-30
Filing date: 2020-04-14
Publication date: 2021-12-07
Also published as: EP3963905A1; EP3963905A4; WO2020223009A1; JP2022531221A; US20200349387A1; US11030479B2; JP7277611B2

Abstract

将音效(SFX)记录在数据库中(202)以进行有效的搜索和检索。这可以通过对SFX进行分类(200)并使用机器学习引擎基于第一计算机模拟的视频属性与所述第一计算机模拟的经分类的SFX之间的习得的相关性来输出所述经分类的SFX中的第一个来实现。随后，可针对对象、动作和字幕识别处理没有声音的视频(306)以生成与SFX标记(1012)在语义上匹配(1010)的视频标记以使SFX与所述视频相关联(1014)。

Description

使用文本相似性将视觉标记映射到声音标记

技术领域

本申请总体上涉及技术上有创造性的非常规解决方案，这些解决方案必须植根于计算机技术并产生具体的技术改进。

背景技术

机器学习(有时也称为深度学习)可用于与数据理解、检测和/或分类相关的多种有用应用。在计算机模拟行业(诸如游戏行业)中，视频和音频是两个独立的过程。首先设计和制作没有音频的模拟，然后音频小组调查整个模拟视频，并从音效(SFX)数据库中插入对应SFX，这非常耗时。

发明内容

如本文所理解的，机器学习可用于通过提供与计算机模拟场景相关的SFX推荐来解决上面提到的技术问题。

因此，在一个方面，一种设备包括至少一个处理器和至少一个计算机存储装置，所述计算机存储装置不是瞬时信号并且包括指令，所述指令可由所述处理器执行以对音效(SFX)进行分类以呈现经分类的SFX。所述指令还可执行以：在语义上将所述经分类的SFX的SFX标签与从对至少第一视频中的属性的视频识别导出的视觉标签进行匹配，以将与所述SFX标签相关联的经分类的SFX合并到所述第一视频中。

在一些实施方案中，所述指令可执行以：基于对所述第一视频中的至少一个对象的识别和/或基于对所述第一视频中的至少一个动作的识别和/或基于对所述第一视频中的至少一个字幕的识别生成所述视觉标签。

在示例性实现方式中，所述指令可执行以：使用SFX标签与视觉标签之间的文本相似性在语义上将所述SFX标签与所述视觉标签进行匹配。

在一些实施方案中，所述指令可执行以：导出对应于所述视觉标签的第一数值向量；导出对应于所述SFX标签的第二数值向量；以及至少部分地通过计算所述第一向量与所述第二向量之间的距离来确定所述SFX标签与所述视觉标签的相似性。在此类实施方案中，所述指令可执行以：响应于确定所述第一向量与和第一SFX标签相关联的第二向量之间的距离小于所述第一向量与和第二SFX标签相关联的第二向量之间的距离，确定所述第一SFX标签比所述第二SFX标签更类似于视觉标签。

如果需要，所述指令可执行以将单个视觉标签映射到多个SFX标签。

在另一方面，一种方法包括：生成描述至少第一视频的至少一个属性的至少一个视觉标记；以及至少部分地基于所述视觉标记与至少一个SFX标记之间的语义相似性，将与所述SFX标记相关联的至少一个音效(SFX)与所述第一视频相关联。

在另一个方面，一种组件包括：至少一个计算机存储装置，所述至少一个计算机存储装置不是瞬时信号并且反而包括指令，所述指令可由至少一个处理器执行以用于识别描述至少第一视频的至少一个视觉标记。所述指令还可执行以用于至少部分地基于所述视觉标记与至少一个SFX标记之间的相似性，将与所述SFX标记相关联的至少一个音效(SFX)与所述第一视频相关联。

本申请的关于其结构和操作两者的细节可参考附图得到最好的理解，在附图中相同的附图标号指代相同的部分，并且在附图中：

附图说明

图1是符合本发明原理的示例性系统的框图；

图2是符合本发明原理的用于为视频或计算机模拟推荐音效(SFX)的示例性整体逻辑的流程图；

图3是说明图2的逻辑的框图；

图4是涉及从视频到SFX标记的直接映射的SFX标记的第一种方法的框图；

图5是符合图4中的第一种方法的附加特征的框图；

图6和图7是符合图4中的第一种方法的与“有噪声的”粗粒度(在所示示例中，32类)SFX分类相关的机器学习架构的框图；

图8是符合图4中的第一种方法的与“有噪声的”细粒度SFX分类相关的半监督机器学习架构的框图；

图9是符合图4中的第一种方法的与训练和测试阶段相关的机器学习架构的框图；

图10是涉及通过视觉理解进行间接标记的视频标记的第二种方法的特征的框图；以及

图11和图12是说明使视觉标记与匹配的SFX音频标记相关的屏幕截图和相关的表格。

具体实施方式

根据本发明原理，可以使用基于深度学习的域适配方法来为视频和计算机模拟(诸如视频游戏)推荐SFX。

本文描述的方法可涉及多个对象以及与多个对象相关联的多个动作。例如，许多文本的图像文本块可以是“对象”，并且图像块的类型可以是“动作”。

本公开还总体上涉及计算机生态系统，所述计算机生态系统包括消费性电子(CE)装置网络的各方面，诸如但不限于分布式计算机游戏网络、增强现实(AR)网络、虚拟现实(VR)网络、视频广播、内容递送网络、虚拟机以及人工神经网络和机器学习应用。

本文的系统可包括服务器和客户端部件，所述服务器和客户端部件通过网络连接使得可在客户端和服务器部件之间交换数据。客户端部件可包括一个或多个计算装置，所述一个或多个计算装置包括AR耳机、VR耳机、游戏控制台(诸如Sony

)和相关母板、游戏控制器、便携式电视(例如智能TV、支持互联网的TV)、便携式计算机(诸如膝上型计算机和平板计算机)以及其他移动装置(包括智能电话和下文所论述的额外示例)。这些客户端装置可以多种操作环境操作。例如，客户端计算机中的一些可采用例如Orbis或Linux操作系统、来自Microsoft的操作系统，或Unix操作系统，或由Apple公司或Google生产的操作系统。这些操作环境可用于执行一个或多个程序/应用程序，诸如由Microsoft或Google或Mozilla制作的浏览器，或可访问由下文所论述的互联网服务器托管的网站的其他浏览器程序。此外，根据本发明原理的操作环境可用于执行一个或多个计算机游戏程序/应用程序和实施本发明原理的其他程序/应用程序。

服务器和/或网关可包括执行指令的一个或多个处理器，所述指令将服务器配置为通过诸如互联网的网络接收和传输数据。另外地或替代地，客户端和服务器可通过本地内联网或虚拟专用网络连接。服务器或控制器可由游戏控制台和/或其一个或多个母板(诸如Sony

)、个人计算机等实例化。

可通过网络在客户端与服务器之间交换信息。为此并且为了安全起见，服务器和/或客户端可包括防火墙、负载平衡器、临时存储装置和代理，以及用于可靠性和安全性的其他网络基础设施。一个或多个服务器可形成实现根据本发明原理向网络用户提供诸如在线社交网站或视频游戏网站的安全社区以众包地通信的方法的设备。

如本文所使用，指令是指用于在系统中处理信息的计算机实现的步骤。指令可在软件、固件或硬件中实现，并且包括由系统的部件承担的任何类型的经编程步骤。

处理器可以是可通过各种线(诸如地址线、数据线和控制线)以及寄存器和移位寄存器来执行逻辑的任何常规的通用单芯片或多芯片处理器。

通过本文的流程图和用户界面描述的软件模块可包括各种子例程、程序等。在不限制本公开的情况下，被陈述为由特定模块执行的逻辑可被再分配到其他软件模块和/或一起组合在单个模块中和/或使得在可共享库中可用。

如上文所指示，本文所述的本发明原理可实现为硬件、软件、固件或它们的组合；因此，依据说明性部件、框、模块、电路和步骤的功能性对它们进行阐述。

除上文已经提到的内容之外，下文所述的逻辑块、模块和电路可用通用处理器、数字信号处理器(DSP)、现场可编程门阵列(FPGA)或被设计来执行本文所述功能的其他可编程逻辑装置(诸如专用集成电路(ASIC)、离散门或晶体管逻辑、离散硬件部件或它们的任何组合)来实现或执行。处理器可由控制器或状态机或计算装置的组合实现。

下文描述的功能和方法可以以硬件电路或软件电路实现。当以软件实现时，功能和方法可以用诸如但不限于Java、C#或C++的适当语言编写，并且可以存储在计算机可读存储介质上或通过计算机可读存储介质传输，所述计算机可读存储介质诸如随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、光盘只读存储器(CD-ROM)或其他光盘存储装置(诸如数字通用光盘(DVD))、磁盘存储装置或包括可移除拇指驱动器的其他磁存储装置等。连接可以建立计算机可读介质。此类连接可以包括例如硬连线电缆，包括光纤和同轴线以及数字用户线(DSL)和双绞线。此类连接可包括无线通信连接，包括红外线和无线电。

在一个实施方案中所包括的部件可按照任何适当的组合用于其他实施方案中。举例来说，本文中所描述且/或在图中所描绘的各种部件中的任一者可经组合、互换或排除出其他实施方案。

“具有A、B和C中的至少一者的系统”(同样地，“具有A、B或C中的至少一者的系统”和“具有A、B、C中的至少一者的系统”)包括以下系统：仅具有A；仅具有B；仅具有C；同时具有A和B；同时具有A和C；同时具有B和C；和/或同时具有A、B和C等。

现在具体地参考图1，示出了示例性系统10，其可包括上文所提及和下文根据本发明原理进一步描述的示例性装置中的一者或多者。在系统10中包括的示例性装置中的第一者是诸如音频视频装置(AVD)12的消费者电子(CE)装置，诸如但不限于带有TV调谐器(等效地，控制TV的机顶盒)的具有互联网功能的TV。然而，AVD 12替代地可以是家电或家居用品，例如，计算机化的支持互联网的冰箱、洗涤器或干燥器。替代地，AVD 12还可以是计算机化的支持互联网(“智能”)的电话、平板计算机、笔记本计算机、增强现实(AR)耳机、虚拟现实(VR)耳机、支持互联网的或“智能”眼镜、另一种类型的可佩戴的计算机化装置，诸如计算机化的支持互联网的手表、计算机化的支持互联网的手镯、计算机化的支持互联网的音乐播放器、计算机化的支持互联网的头戴式电话、计算机化的支持互联网的可植入装置(诸如可植入皮肤装置)、其他计算机化的支持互联网的装置等。无论如何，应理解，AVD 12被配置为实施本发明原理(例如，与其他消费性电子(CE)装置通信以实施本发明原理，执行本文描述的逻辑，以及执行本文描述的任何其他功能和/或操作)。

因此，为了实施此类原理，AVD 12可由图1所示的部件中的一些或全部建立。例如，AVD 12可包括一个或多个显示器14，所述一个或多个显示器可由高清晰度或超高清晰度(“4K”)或更高的平面屏幕实现，并且可以是支持触摸的，以用于经由显示器上的触摸来接收用户输入信号。AVD 12可包括：一个或多个扬声器16，其用于根据本发明原理输出音频；以及至少一个附加输入装置18(诸如音频接收器/传声器)，其用于向AVD 12输入可听命令以控制AVD 12。示例性AVD 12还可以包括一个或多个网络接口20，以用于在一个或多个处理器的控制下通过至少一个网络22(诸如互联网、WAN、LAN等)进行通信。因此，接口20可以是但不限于Wi-Fi收发器，所述Wi-Fi收发器是无线计算机网络接口的示例，诸如但不限于网状网络收发器。此外，应注意，网络接口20可以是例如有线或无线调制解调器或路由器或其他适当接口(诸如例如无线电话收发器或如上所提及的Wi-Fi收发器等)。

应理解，一个或多个处理器控制AVD 12来实施本发明原理，包括本文所述的AVD12的其他元件，诸如控制显示器14来在显示器上呈现图像和从显示器接收输入。一个或多个处理器可以包括中央处理单元(CPU)24以及图形卡25A上的图形处理单元(GPU)25。

除前述内容之外，AVD 12还可以包括一个或多个输入端口26，诸如例如用于物理地连接(例如，使用有线连接)到另一个消费性电子(CE)装置的高清晰度多媒体接口(HDMI)端口或USB端口和/或用于将耳机连接到AVD 12以用于通过耳机将来自AVD 12的音频呈现给用户的耳机端口。例如，输入端口26可以经由有线或无线地连接到音频视频内容的有线或卫星源26a。因此，源26a可以是例如单独的或集成的机顶盒或卫星接收器。或者，源26a可以是包含内容的游戏控制台或磁盘播放器，所述内容可以被用户视为用于信道分配目的的最喜爱之物。当被实现为游戏控制台时，源26a可以包括下面关于CE装置44描述的部件中的一些或全部，并且可以实现本文所描述的逻辑中的一些或全部。

AVD 12还可包括不是瞬时信号的一个或多个计算机存储器28，诸如基于磁盘的存储装置或固态存储装置，所述一个或多个计算机存储器在一些情况下在AVD的机壳中体现为独立装置，或者体现为AVD的机壳内部或外部的用于回放AV节目的个人视频记录装置(PVR)或视频磁盘播放器，或者体现为可移除存储器介质。此外在一些实施方案中，AVD 12可包括位置或地点接收器(诸如但不限于手机接收器、GPS接收器和/或高度计30)，所述位置或地点接收器被配置为例如从至少一个卫星或手机塔接收地理位置信息并且向处理器24提供所述信息和/或结合处理器24确定AVD 12被设置处于的高度。然而，应理解，根据本发明原理，可以使用除手机接收器、GPS接收器和/或高度计之外的另一个合适的位置接收器，例如，以在所有的三个维度内确定AVD 12的地点。

继续对AVD 12的描述，在一些实施方案中，根据本发明原理，AVD 12可以包括一个或多个相机32，所述一个或多个相机可以是例如热成像相机、诸如网络摄像机的数码相机、红外线(IR)相机和/或集成到AVD 12中并且可由处理器24控制以生成图片/图像和/或视频的相机。AVD 12上还可包括蓝牙收发器34和其他近场通信(NFC)元件36，以用于分别使用蓝牙和/或NFC技术与其他装置进行通信。示例性NFC元件可以是射频识别(RFID)元件。

更进一步地，AVD 12可包括向处理器24提供输入的一个或多个辅助传感器37(例如，运动传感器，诸如加速计、陀螺仪、回转计或磁传感器、红外线(IR)传感器、光学传感器、速度和/或节奏传感器、手势传感器(例如，用于感测手势命令)等)。AVD 12可包括无线TV广播端口38，以用于接收向处理器24提供输入的OTA TV广播。除前述内容之外，应注意，AVD12还可包括红外线(IR)发射器和/或IR接收器和/或IR收发器42，诸如IR数据关联(IRDA)装置。可以提供电池(未示出)以用于为AVD 12供电。

仍参考图1，除AVD 12之外，系统10还可包括一个或多个其他消费性电子(CE)装置类型。在一个示例中，第一CE装置44可以用于经由直接发送到AVD 12的命令和/或通过下面描述的服务器向AVD 12发送计算机游戏音频和视频，而第二CE装置46可以包括与第一CE装置44类似的部件。在所示的示例中，第二CE装置46可以被配置为用户47所佩戴的AR或VR耳机，如图所示。在所示的示例中，仅示出两个CE装置44、46，应理解，根据本发明原理还可以使用更少或更大的装置。

在所示的示例中，假定所有三个装置12、44、46都是例如在家庭中的网络(诸如安全或加密网络、娱乐网络或Wi-Fi)的构件，或者至少在特定地点彼此接近出现并且能够彼此通信并与本文所述的服务器通信。然而，除非另有明确要求，否则本发明原理不限于特定地点或网络。

示例性的非限制性第一CE装置44可以由上述装置(例如，智能电话、数字助理、便携式无线膝上型计算机或笔记本计算机或游戏控制器(也称为“控制台”))中的任一者来建立，并且因此可以具有下文描述的部件中的一个或多个。第二CE装置46可以但不限于由AR耳机、VR耳机、“智能”的支持互联网的眼镜、或者甚至视盘播放器(诸如蓝光播放器)、游戏控制台等来建立。更进一步地，在一些实施方案中，第一CE装置44可以是用于例如将AV播放和暂停命令发布到AVD12的遥控装置(RC)，或者它可以是更复杂的装置，诸如平板计算机、经由有线或无线链路与由图1所示的装置中的另一个实现的游戏控制台通信并且控制AVD12上的视频游戏呈现的游戏控制器、个人计算机、无线电话等。

因此，第一CE装置44可以包括一个或多个显示器50，所述一个或多个显示器可以是支持触摸的，以用于经由显示器50上的触摸来接收用户输入信号。另外地或替代地，一个或多个显示器50可以是被配置用于呈现AR和/或VR图像的至少部分透明的显示器，诸如AR耳机显示器或“智能”眼镜显示器或“抬头”显示器、以及VR耳机显示器或者其他显示器。

第一CE装置44还可以包括用于根据本发明原理输出音频的一个或多个扬声器52，以及用于向第一CE装置44输入可听命令以控制装置44的至少一个附加输入装置54，诸如例如音频接收器/传声器。示例性第一CE装置44还可包括一个或多个网络接口56，以用于在一个或多个CE装置处理器58的控制下通过网络22进行通信。因此，接口56可以是但不限于Wi-Fi收发器，所述Wi-Fi收发器是无线计算机网络接口的示例，包括网状网络接口。应理解，处理器58控制第一CE装置44来实施本发明原理，包括本文所述的第一CE装置44的其他元件，诸如例如控制显示器50来在显示器上呈现图像和从显示器接收输入。此外，应注意，网络接口56可以是例如有线或无线调制解调器或路由器或其他适当接口(诸如无线电话收发器或者如上所提及的Wi-Fi收发器等)。

更进一步地，应注意，除一个或多个处理器58之外，第一CE装置44还可在图形卡55A上包括图形处理单元(GPU)55。图形处理单元55可以被配置为，除其他之外，用于在显示器50上呈现AR和/或VR图像。

除前述内容之外，第一CE装置44还可包括用于物理地连接(例如，使用有线连接)到另一个CE装置的一个或多个输入端口60(诸如例如HDMI端口或USB端口)和/或用于将耳机连接到第一CE装置44以用于通过耳机将来自第一CE装置44的音频呈现给用户的耳机端口。第一CE装置44还可包括一个或多个有形计算机可读存储介质62，诸如基于磁盘的存储装置或固态存储装置。此外在一些实施方案中，第一CE装置44可以包括位置或地点接收器(诸如但不限于手机和/或GPS接收器和/或高度计64)，所述位置或地点接收器被配置为例如使用三角测量从至少一个卫星和/或手机塔接收地理位置信息并且向CE装置处理器58提供所述信息和/或结合CE装置处理器58确定第一CE装置44被设置处于的高度。然而，应理解，根据本发明原理，可以使用除手机和/或GPS接收器和/或高度计之外的另一个合适的位置接收器来例如确定第一CE装置44在所有三个维度中的地点。

继续第一CE装置44的描述，在一些实施方案中，根据本发明原理，第一CE装置44可以包括一个或多个相机66，所述一个或多个相机可以是例如热成像相机、IR相机、诸如网络摄像机的数码相机和/或集成到第一CE装置44中并且可由CE装置处理器58控制以生成图片/图像和/或视频的另一种类型相机。第一CE装置44上还可以包括蓝牙收发器68和其他近场通信(NFC)元件70，以用于分别使用蓝牙和/或NFC技术与其他装置进行通信。示例性NFC元件可以是射频识别(RFID)元件。

更进一步地，第一CE装置44可包括向CE装置处理器58提供输入的一个或多个辅助传感器72(例如，运动传感器，诸如加速计、陀螺仪、回转计或磁传感器、红外线(IR)传感器、光学传感器、速度和/或节奏传感器、手势传感器(例如，用于感测手势命令)等)。第一CE装置44可以包括向CE装置处理器58提供输入的其他传感器，诸如例如一个或多个气候传感器74(例如，气压计、湿度传感器、风传感器、光传感器、温度传感器等)和/或一个或多个生物特征传感器76。除前述内容之外，应注意，在一些实施方案中，第一CE装置44还可包括红外线(IR)发射器和/或IR接收器和/或IR收发器78，诸如IR数据关联(IRDA)装置。可提供电池(未示出)以用于为第一CE装置44供电。CE装置44可通过上述通信模式和相关部件中的任一者与AVD 12进行通信。

第二CE装置46可包括针对CE装置44示出的部件中的一些或全部。任一个或两个CE装置可由一个或多个电池供电。

现在参考前述至少一个服务器80，它包括至少一个服务器处理器82、至少一个有形计算机可读存储介质84(诸如基于磁盘的存储装置或固态存储装置)。在实现方式中，介质84包括一个或多个固态存储驱动器(SSD)。根据本发明原理，服务器还包括至少一个网络接口86，所述至少一个网络接口允许通过网络22与图1的其他装置进行通信，并且实际上可以促进服务器与客户端装置之间的通信。应注意，网络接口86可以是例如有线或无线调制解调器或路由器、Wi-Fi收发器或其他适当接口(诸如无线电话收发器)。网络接口86可以是远程直接存储器访问(RDMA)接口，其将介质84直接连接到诸如所谓的“结构”的网络而无需通过服务器处理器82。所述网络可以包括以太网网络和/或光纤信道网络和/或无限带宽网络。通常，服务器80包括多个计算机中的多个处理器，其称为可布置在物理服务器“堆栈”中的“刀片”。

因此，在一些实施方案中，服务器80可以是互联网服务器或整个“服务器场”，并且可以包括并且执行“云”功能，使得系统10的装置可在例如如本文所公开的域适配的示例性实施方案中经由服务器80访问“云”环境。另外地或替代地，服务器80可由与图1中示出的其他装置在同一房间或附近的一个或多个游戏控制台或其他计算机来实现。

图2和图3示出整体原理。从图2中的块200开始，对音效(SFX)进行分类。在一个示例中，可以对传入的数字化音效信号300执行此分类以呈现用文字描述如本文别处阐述的被分类的音效的标记302(在图3中以图形方式示出)。

移动到图2中的块202并且仍然交叉参考图3，标记302被记录在数据库304中。然后，进行到图2中的块204，可以将记录的标记与没有声音的视频306组合以呈现具有音效声音的视频308。应注意，“音效”是指作为计算机模拟(诸如计算机游戏)的一部分的非语言音频，以模仿枪声、火燃烧的声音、人们奔跑的声音、人们大喊大叫的声音、水声等。如下文进一步阐述，本文提供了深度学习/AI技术以帮助创建用于计算机模拟(诸如视频游戏)的声音内容。

如本文所用，“干净的SFX标记”是指基于由游戏声音设计者使用的干净的音频样本(具有单一声源的音效)的类别和子类别，对所述干净的音频样本进行分类或标记，使得可将它们自动记录到数据库中。这有助于游戏设计师在混音期间更高效地进行搜索和检索。“视频标记”是指自动推荐与游戏场景有关的音效。这样做是为了通过使声音设计过程更高效来帮助游戏设计师。本发明原理集中于实现视频标记的技术。

本公开透露了用于视频标记的两种技术。图4至图9描述了一种直接映射方法，其中训练深度学习引擎以学习游戏视频的视觉特征与对应的SFX(音频)标记302之间的相关性。图10至图12分两个步骤描述了一种视觉理解方法，即提供神经网络(NN)来理解游戏场景的视觉内容并生成视觉标记，包括对象标记、动作标记和字幕，然后使用语义文本相似性将视觉标记映射到音频标记。也可以基于其他知识库使用基于字典的映射。

因此，并且现在参考图4，在训练阶段400中，视频(诸如使用SFX声音402的计算机模拟)用于训练NN系统以为不同的SFX源生成标记404，从而呈现SFX标记406。一旦训练NN系统，它就可以在测试阶段408中用于接收视频410(诸如没有SFX声音的计算机模拟)作为到下面进一步描述的训练模型412的输入，以输出与视频410组合的SFX标记414从而呈现其中合并SFX声音的视频416。

现在参考图5，可以看到图4中训练阶段的更详细的解释。无声视频(诸如计算机游戏视频500)被输入到经训练的NN 502。NN 502使用监督学习方法来学习视频的视觉特征与对应的音效之间的直接映射。为了训练此监督模型，需要游戏音频的声音注释。如本文所理解的，由于游戏音频通常包含声音的混合(也称为有噪声的SFX)，使得难以获得人类注释504，特别是在声音类别的数量很大的情况下，因此该过程变得复杂。因此，深度学习模型506被训练以自动标记声音的混合(有噪声的SFX模型)以识别组成声音的类别。

现在参考图6和图7，在初始实施方案中，训练有噪声的SFX模型以使用人类注释标记少量类别(32类)。由谱图600表示的音频剪辑输入到包括一系列卷积NN(CNN)604的分割映射模块602。分割掩码606由映射模块602输出并用于分类映射608，分类映射608为具有对应概率的标记产生预测610。图7相关地示出门控卷积递归NN(CRNN)700，其接收SFX剪辑702作为输入并在每个时间步提取频谱模式，将输出提供给双向RNN 704，诸如双向长短期记忆(LSTM)。图7指示网络700中使用的CNN的类型。Bi-RNN 704耦合到基于注意力的定位模块706，其包括作为sigmoid和SoftMax FNN操作的多个前馈NN(FNN)，如图所示以产生作为加权平均值的预测标记708。

对本发明原理很重要的是图8，示出一种用于有噪声的SFX标记的先进技术。为了生成较细粒度的SFX标记(例如，182类或5000类标签或甚至更详细的)以更好地区分有噪声的样本中的不同音效，使用来自计算机模拟的实际SFX数据800和从任何模拟单独生成的合成的有噪声的SFX数据802训练监督模型，仅用于训练门控CNN模块804的目的。换句话说，如图8中反映的本发明原理认识到，要训练监督模型，需要具有更细粒度的(例如，182类或5000类)基础真值标记的训练数据，而对于当前可用的游戏视频，只有较粗粒度(32类)的人类注释的SFX标签。因此，图8和下图示出一种半监督方法，所述方法从粗粒度音频标记生成细粒度音频标记，而无需额外的人类注释。应注意，32类和182类用作粗粒度和较细粒度标记的示例。

创建802处表示的声音样本的合成混合物并在混合期间记录它们的类别。在此合成混合物中，建立了细粒度的SFX标签(在本文其他地方称为数据集1)。另一方面，块800表示具有粗粒度标签(由人类生成)(称为数据集2)的可用真实游戏音频。如图8所示，将实际模拟或游戏数据的数据集1和不是来自模拟或游戏而是出于补充游戏数据的目的而创建的合成数据的数据集2结合起来，以训练端到端的半监督模型804，其包括粗分类器806和细粒度分类器808以生成细粒度标记810，所述细粒度标记810识别有噪声的游戏音频的成分。它是半监督的，因为没有真正的细粒度游戏音频标签用于训练，如早前所解释。它是多任务模型，因为它能够生成粗粒度音频标记812和细粒度音频标记810。换句话说，细粒度分析比粗粒度分析使用更多的类别。

此模型的训练损失函数是细粒度标记和粗粒度标记的损失之和。训练的目标是使训练损失最小化。当模型收敛时训练停止。在这一点上，获得了一个模型，所述模型可以将有噪声的音频混合分解为其组成标记。

因此，上面的描述透露了一种识别游戏音频的组成音效类别的技术，而图9描绘了如何使用这些标记(由人类或图8中的模型生成)来训练受监督的视频标记模型。如图所示，在训练期间，提取了声音的视频900连同如上文描述生成的和/或人类注释的有噪声的SFX标记902输入到训练阶段模块904。更具体地，从视频中提取的对应音频通过上面在图8中解释的有噪声的SFX模型以生成SFX标记或标签902，其与对应的视频分割900一起输入到监督训练阶段模型904。通过这种方式，使视频在训练之前与音频标记同步。在示例性非限制性实现方式中，所使用的帧速率可以是每秒三十帧(30fps)并且视频持续时间可以是一秒。

训练阶段模块904通过使无声视频帧通过深度CNN 906(例如，Resnet或类似网络)来生成视频嵌入(数值向量)。对于每一帧，生成一个嵌入(向量)，其作为视频帧的视觉特征。也可以使用其他视觉特征。因为视频是帧序列，所以产生了视频嵌入序列，然后将其输入到递归神经网络908，在所示示例中，是产生标记预测910的双向门控递归单元(GRU)或门控递归网络。

训练的输出是神经模型912，其可以在测试阶段接收新的没有声音的模拟视频914并生成对应于无声视频914的声音标记916。这些标记可用于检索对应的音效918以与视频组合，如920处所示。

图10至图12示出上面提到的视觉理解方法。在第一步骤中，将视频1000(诸如没有声音(音频)的计算机模拟)用于基于对例如视频中识别的对象1004、视频中识别的动作1006和视频中识别的场景描述1008的视觉理解来生成视觉标记1002。然后，语义文本相似性模块1010从上文描述的数据库接收视觉标记1002以及SFX标记1012以自动将视觉标记映射到声音数据库中的特定音频类别以生成带有声音的视频1014。

图11进一步进行说明。显示器1100被示为呈现具有使用图像识别技术识别的对象1102的视频以生成对应的视觉标记1104。可以使用词嵌入或句子嵌入来嵌入视觉标记1104，这产生一个数值向量。视频标记1104与对应的音频标记1106进行匹配。识别音频样本的每个音频类别或音频文件名称都使用词嵌入或句子嵌入进行嵌入，这又产生一个数值向量。图12类似地示出显示器1200上具有字幕1202的视频，字幕1202可以使用无监督语义文本相似性模型1203与音频标记1204进行匹配。

在任何情况下，无论是将音频标记与对象标记、字幕标记还是动作标记进行匹配，都会产生两个数值向量，一个用于音频标记并且另一个用于从视频导出的标记。标记的相似性是通过计算两个向量之间的距离来确定的。可以使用任何距离度量，诸如余弦相似性或欧几里得距离。距离越小，标记越相似。使用此方法，每个视觉标记被映射到前k个最相似的音频标记。

使用此文本相似性方法，每个视觉标记可以映射到不同粒度的音频标记，范围是从识别一组音频样本的粗粒度(例如，32类)标记到识别单个声音样本的非常细粒度的标记。

从游戏场景的视觉理解中自动生成的音频标记可用于两个目的。首先，音频标记可用于向游戏设计师推荐游戏场景的音效。其次，音频标记还可用作SFX标签，以用于训练图4至图16中透露的直接映射视频标记模型，作为从音频导出的有噪声的SFX标签的替代方案。

虽然图4至图9中的直接映射可以提供比图10至图12中所示的视觉理解技术更高的标记准确度，但视觉理解使用无监督文本相似性呈现更细粒度的标记，并使注释对象和字幕相对容易。当准确的基础真值SFX标记可用于标记或者声源分离可行时，直接映射特别有利。当获得细粒度的SFX注释原本很困难时，视觉理解特别有利，并且它模仿了声音工程师的工作流程。

可以在基于深度学习的方法中使用本发明原理来进行图像、视频和音频数据处理等等。如可从前面的详细描述中了解，本发明原理因此通过本文描述的技术解决方案改进了神经网络的适配和训练。

将了解，虽然已经参考一些示例性实施方案描述了本发明原理，但这些实施方案并不意图为限制性的，并且可使用各种替代布置来实现本文所要求保护的主题。

Claims

1.一种设备，其包括：

至少一个处理器；以及

至少一个计算机存储装置，所述至少一个计算机存储装置不是瞬时信号并且包括指令，所述指令能够由所述至少一个处理器执行以：

对音效(SFX)进行分类以呈现经分类的SFX；以及

在语义上将所述经分类的SFX的SFX标签与从对至少第一视频中的属性的视频识别导出的视觉标签进行匹配，以将与所述SFX标签相关联的经分类的SFX合并到所述第一视频中。

2.如权利要求1所述的设备，其中所述指令可执行以：

基于对所述第一视频中的至少一个对象的识别生成所述视觉标签。

3.如权利要求1所述的设备，其中所述指令可执行以：

基于对所述第一视频中的至少一个动作的识别生成所述视觉标签。

4.如权利要求1所述的设备，其中所述指令可执行以：

基于对所述第一视频中的至少一个字幕的识别生成所述视觉标签。

5.如权利要求1所述的设备，其中所述指令可执行以使用SFX标签与视觉标签之间的文本相似性在语义上将所述SFX标签与所述视觉标签进行匹配。

6.如权利要求1所述的设备，其中所述指令可执行以：

导出对应于所述视觉标签的第一数值向量；

导出对应于所述SFX标签的第二数值向量；以及

至少部分地通过计算所述第一向量与所述第二向量之间的距离来确定所述SFX标签与所述视觉标签的相似性。

7.如权利要求6所述的设备，其中所述指令可执行以：

响应于确定所述第一向量与和第一SFX标签相关联的第二向量之间的距离小于所述第一向量与和第二SFX标签相关联的第二向量之间的距离，确定所述第一SFX标签比所述第二SFX标签更类似于视觉标签。

8.如权利要求6所述的设备，其中所述指令可执行以：

将单个视觉标签映射到多个SFX标签。

9.一种方法，其包括：

生成描述至少第一视频的至少一个属性的至少一个视觉标记；以及

至少部分地基于所述视觉标记与至少一个SFX标记之间的语义相似性，将与所述SFX标记相关联的至少一个音效(SFX)与所述第一视频相关联。

10.如权利要求9所述的方法，其中所述属性包括对象。

11.如权利要求9所述的方法，其中所述属性包括动作。

12.如权利要求9所述的方法，其中所述属性包括字幕。

13.如权利要求9所述的方法，其包括使用SFX标记与视觉标记之间的文本相似性在语义上将所述SFX标记与所述视觉标记进行匹配。

14.如权利要求9所述的方法，其包括：

导出对应于所述视觉标记的第一数值向量；

导出对应于所述SFX标记的第二数值向量；以及

至少部分地通过计算所述第一向量与所述第二向量之间的距离来确定所述SFX标记与所述视觉标记的相似性。

15.如权利要求14所述的方法，其包括：

响应于确定所述第一向量与和第一SFX标记相关联的第二向量之间的距离小于所述第一向量与和第二SFX标记相关联的第二向量之间的距离，确定所述第一SFX标记比所述第二SFX标记更类似于视觉标记。

16.如权利要求9所述的方法，其包括：

将单个视觉标记映射到多个SFX标记。

17.一种组件，其包括：

至少一个计算机存储装置，所述至少一个计算机存储装置不是瞬时信号并且包括指令，所述指令能够由至少一个处理器执行以用于：

识别描述至少第一视频的至少一个视觉标记；以及

至少部分地基于所述视觉标记与至少一个SFX标记之间的相似性，将与所述SFX标记相关联的至少一个音效(SFX)与所述第一视频相关联。

18.如权利要求17所述的组件，其包括所述处理器。

19.如权利要求17所述的组件，其中所述指令可执行以用于：

导出对应于所述视觉标记的第一数值向量；

导出对应于所述SFX标记的第二数值向量；以及

20.如权利要求19所述的组件，其中所述指令可执行以用于：