CN117642820A

CN117642820A - 基于视频分析选择补充音频片段

Info

Publication number: CN117642820A
Application number: CN202280038042.7A
Authority: CN
Inventors: 琳达·贝纳蒂; 阿拉·贝纳蒂
Original assignee: Xdmind Co
Current assignee: Xdmind Co
Priority date: 2021-05-27
Filing date: 2022-05-26
Publication date: 2024-03-01

Abstract

本申请的各方面与基于与要再现的内容相关联的处理信息来生成补充内容对应。更具体地，本申请的各方面与在视频内容的呈现期间为回放而创建的音频轨道信息(例如音乐轨道)的生成对应。示例性地，视频内容的一个或多个帧由(多个)机器学习算法处理，以生成表示表征视频内容的各个帧的一个或多个属性的处理结果。然后，选择系统可以根据处理结果识别潜在的音乐轨道或其他音频数据。

Description

基于视频分析选择补充音频片段

相关申请的交叉引用

本申请要求于2021年5月27日提交的题为“DYNAMIC MODIFICATION OF CONTENT(动态修改内容)”的第63/202,102号美国临时申请、于2021年5月27日提交的题为“ENGAGEMENT PLATFORM(参与平台)”的第63/202,100号美国临时申请、以及于2022年1月6日提交的题为“DYNAMIC MODIFICAITON OF CONTENT(动态修改内容)”的第63/266,498号美国临时申请的权益。美国临时申请号63/202,102、63/202,100和63/266,498通过引入并入本文中。

背景技术

一般而言，可以利用计算装置和通信网络来交换数据或信息。在公共应用中，计算装置可以经由通信网络向另一个计算装置请求内容。例如，能够访问计算装置的客户端可以利用软件应用经由网络(例如，因特网)从服务器计算装置请求内容。在这样的实施方式中，客户端的计算装置可以被称为客户端计算装置，并且服务器计算装置可以被称为原始内容提供商。

附图说明

在所有附图中，附图标记可以被重新用于指示所参考的元件之间的对应关系。提供附图以说明本文描述的示例性实施方式，而不旨在限制本公开内容的范围。

图1是包括一个或多个客户端计算装置、内容提供商和网络服务的内容传递环境的框图；

图2是配置有在解联接(decoupled)实施方式中配置的内容生成应用和补充内容生成应用的客户端计算的说明性组件的框图；

图3是图1的系统的框图，示出了向客户端计算装置提供指令以及客户端计算装置对指令的处理的各种指令；以及

图4是说明用于选择补充音频数据的例程的流程图；以及

图5是用于生成适配的音频轨道信息的例程的流程图。

具体实施方式

一般而言，本申请的各方面对应于基于与要呈现的内容相关联的处理信息来生成补充内容。更具体地，本申请的各方面对应于在视频内容的呈现期间为回放而创建的音频轨道信息(例如音乐轨道)的生成。示例性地，视频内容的一个或多个帧由(多个)机器学习算法处理，以生成表示表征视频内容的各个帧的一个或多个属性的处理结果。然后，选择系统可以根据处理结果识别潜在的音乐轨道或其他音频数据。

示例性地，本申请的各方面可以被实现用于处理在计算装置上生成的视频游戏内容。本申请的各方面还可以被实现用于处理由移动应用(例如，社交媒体应用)生成的视频内容。更进一步，本申请的各方面可以被实现用于处理由其它多媒体或回放应用(例如在个人计算装置、移动装置等中)生成的视频内容。因此，对视频内容的引用通常不应被解释为限于任何特定类型的视频内容或视频内容生成应用。

一般地说，传统的视频处理方法依赖于由视频游戏开发者提供的各个对象检测或仪表化属性。例如，内容系统能够处理视频内容以识别要呈现的各个对象并选择补充内容，例如广告内容。在另一个示例中，游戏开发者可以提供伴随显示内容并且可以被处理的元数据或其他描述性数据。在这样的应用中，游戏开发者可以明确地识别各种属性，例如情绪、感觉、活动等。然而，这种描述仅在意图由游戏开发者预先考虑时是可操作的，并且代理将这些属性暴露给可基于这些属性采取适当动作的客户端。

基于上述实现，用于补充内容准备的传统方法通常需要内容生成器(例如，游戏开发者或移动应用开发者)之间的显式协作以促进功能性。例如，内容提供商可以允许修改可执行代码，例如通过结合定制模块或插件。这种修改允许应用通过API或各种查询来传播属性。

这种方法通常可被称为补充内容生成应用与底层视频内容生成应用(例如，游戏应用)之间的联接方法。例如，可以从视频游戏接收元数据的模块可能需要修改视频游戏(例如，内容生成应用)，以便获得对必要元数据的访问。类似地，利用基于API的通信来处理仪表化数据的模块将需要为每个单独的视频游戏应用进行配置。这种方法对于可配置为可应用于多种游戏应用的应用来说可能变得低效。类似地，如果诸如游戏应用或社交媒体应用的应用在不同的操作环境中执行时可能具有不同的功能，则联接方法还可能是低效的。

本申请的一个或多个方面对应于解联接方法，其中补充内容应用可以并行地并且独立于所识别的内容生成应用或内容生成应用集合来执行。补充内容应用示例性地配置有一个或多个机器学习算法，该机器学习算法对应于视频数据(例如是社会媒体应用、移动装置游戏等的视频帧)的深度离线分析。更具体地，在与视频游戏内容相关的一个实施方式中，深度离线分析可以对应于已经被训练来处理由视频游戏生成的各个帧的机器学习算法。处理结果与表征视频游戏内容(或其它视频内容)的当前状态的属性集合的识别对应。这样的属性可以包括情绪、主题、播放中的角色、参考对象、节奏、频率测量、播放速率、播放技能等。示例性地，视频分析应用可以配置用于多个视频游戏内容，例如配置用于每个单独的视频游戏应用的机器学习算法。这种机器学习算法可以一般地适用于一组个体。在其它实施方式中，机器学习的算法可以为单个用户或用户子集定制。

在涉及非视频游戏内容的另一个实施方式中，深度离线分析可以与已经被训练来处理由内容生成应用生成的各个帧的机器学习算法对应。作为非限制性示例，机器学习算法可以结合不同的学习模型，包括但不限于有监督学习模型、无监督学习模型、强化学习模型或特征学习模型。根据机器学习算法所采用的学习模型的类型，用于处理视频或音频数据的配置可以变化(例如，使用用于监督或半监督学习模型的训练集)。在其它实施方式中，机器学习算法可以实现基于强化的学习模型，该强化的学习模型实现由网络服务(例如，离线处理)确定的惩罚/奖励模型。

处理结果与表征视频帧(或其它视频内容)的当前状态的属性集合的识别对应。这样的属性可以包括情绪、主题、参考对象、节奏、频率测量等。示例性地，可以为多个视频生成应用内容配置视频分析应用，例如为每个单独的视频游戏应用配置的机器学习算法。这种机器学习算法可以一般地适用于一组个体。在其它实施方式中，机器学习的算法可以为单个用户或用户子集定制。

然后，可以利用单独的视频帧来执行机器学习算法，以从机器学习算法生成处理结果。然后，处理结果可以被处理以做出智能决定来影响补充内容(例如，歌曲选择)以及歌曲对视频内容的当前处理结果的适应。这种适配可以包括在歌曲的变化之中的选择、回放速度的选择、歌曲的组合的配置、识别淡入或淡出速率等。在一些实施方式中，补充内容的选择可以由单独的应用提供。该单独的应用可以利用另外的机器学习算法，该另外的机器学习算法利用来自分析所捕获的视频数据的特性的处理结果。可以利用用户简档信息来配置这种单独的应用，或者以其他方式根据个人偏好来定制这种单独的应用。

在说明性实施方式中，视频分析应用的方面可进一步包括使用机器学习算法来分析视频内容的帧，以发现级别(类似于章节)并以可操作的细节级别来概括视频内容。在一个示例中，可操作的细节级别可以包括视频游戏内容的播放级别。在另一个示例中，细节的动作级别可以包括在视频内容中描述的定义的里程碑或成就。分析将包括游戏视像(图形)和游戏音频。分析的结果将是几十(或多或少)个场景概要，每个场景概要具有唯一的属性集合。正如下面将要描述的，视频帧数据的处理可以包括将任何捕获的帧从视频分析系统映射到这些概要场景之一。在某种意义上，在适用的情况下，在一些实施方式中，所得到的模板/映射将等效于描述游戏故事和高级游戏的素描本。

视频分析应用可以利用各种视频捕获技术来每秒捕获视频的几个帧，(任选地使用CNN)提取每个帧组中的特征集合，并最终在所有帧组中构建分层相似性聚类(exHDBSCAN)。结合视频捕获，音频分析将基于如何使用原始音乐来表达心情等来提供附加的正交特征集合。为了补救音频-FX与背景音乐混合的问题，音频-FX将通过游戏中设置，或者通过使用适当的信号处理技术将音乐与音频-FX分离而被静音，其中通常音乐以长的内部周期重复，而音频-FXS是突然的，在频域中具有类似脉冲的特性。

在一些实施方式中，除了动作的表征之外，视频分析应用还可以表征角色的健康、游戏的节奏、游戏的风格(例如，进取性、保守性等)、以及游戏的意图(例如，高得分、游戏级别、一般游戏等)。在这一点上，机器学习算法可以以允许处理数据的各个帧以生成结果表征的方式来训练。因此，每个单独的游戏可以基于由每个游戏生成的视觉输出具有不同的配置(例如，机器学习算法)。示例性地，处理结果可以包括这些属性，以便在补充内容的选择中使用。

在其它实施方式中，视频游戏内容可以不必包括角色游戏。如上所述，视频分析应用可以提供识别情绪或主题的处理结果。此外，视频分析应用还可以识别视频游戏内容中的可以提供参考点的对象。例如，单词游戏应用可以具有作为显示对象的拼图板，该拼图板可以被处理用于表征单词游戏应用的播放。在另一个示例中，绘图应用可以包括绘图工具或“画布”作为显示对象。如上所述，在一些应用中，处理结果可以基于显示属性(例如，颜色、外观变化、字体、地点等)，该显示属性与用于补充内容选择的输入(例如，频率、适配属性、节奏等)对应。

此外，在一些实施方式中，还可以训练视频分析应用以过滤或忽略视频馈送的各方面。例如，游戏应用可以具有与背景图像或显示对象组合的用于玩游戏的显示对象的核心集。背景图像或显示对象可以动态地改变，例如根据游戏的级别或与游戏的周期性更新(例如，假日版本)对应。机器学习的算法可以被示例性地训练，使得在处理结果的生成中动态显示对象的影响被忽略或减少。

然后，在实况玩游戏期间，视频分析应用将抓取或捕获视频内容的各个帧。接收到的视频内容的频率可以基于间隔(诸如每秒一次)而变化。被捕获和被选择用于进一步分析的每个单独的帧可以被映射。如上所述，映射可以与来自机器学习算法的处理结果对应。

示例性地，应用的训练和配置的至少一部分可以在远程数据中心中离线进行，或者在我们的开发中心中离线进行，在该开发中心中，我们将向在计算装置上运行的某些组件或者在游戏玩家的安卓(android)装置上运行的类似但有限的集合提供API，目的是在一方面限制本地所需的处理量和最小化任何延迟或滞后之间取得正确的平衡。

尽管将针对说明性网络组件、交互和例程来描述本公开内容的方面，但相关领域的技术人员将了解，可根据各种环境、系统架构、外部计算装置架构等来实施本公开内容的一个或多个方面。类似地，对特定装置(例如客户端计算装置)的引用可以被认为是一般引用，并且不旨在为单独的外部计算装置提供附加的含义或配置。另外，这些实施方式在本质上是说明性的，并且不应被解释为限制性的。

图1是根据一个或多个实施方式的网络环境100的框图，该网络环境100包括与可消费视频内容的客户/客户端相关联的一个或多个装置、与内容提供商相关联的一个或多个装置、以及用于处理或配置用于处理视频内容的机器学习算法的服务提供商。环境100包括由客户端或客户(通常称为客户端装置102)用来访问(多个)视频内容应用的多个装置102。客户端装置102可以包括能够经由直接连接或经由中介与网络106通信的任何数目的不同计算装置。例如，个人访问计算装置可以与膝上型或平板计算机、个人计算机、可佩戴计算机、服务器、个人数字助理(PDA)、混合PDA/移动电话、移动电话、电子书阅读器、机顶盒、相机、电器(例如，恒温器或冰箱)、控制器、数字媒体播放器、手表、眼镜、家庭或汽车装置、物联网(“IoT”)装置、虚拟现实或增强现实装置等对应。

每个计算机装置102可以可选地包括一个或多个数据存储(图1中未示出)，该数据存储包括各种应用或计算机可执行指令，例如web浏览器或媒体播放器软件应用，用于实现本文中公开的实施方式，即作为(多个)视频内容生成应用。如将在下面更详细地解释的，客户端计算装置102将进一步包括解联接的补充内容生成应用，其将允许基于处理由内容生成应用生成的视频帧来选择和生成音频片段。将参考图2描述客户端装置102的说明性组件。

环境100包括由各个内容提供商(通常称为内容提供商应用104)使用的多个装置104或装置网络，以提交如本文所使用的第三方视频或音频内容。内容提供商应用104可包括能够经由直接连接或经由中介与网络106通信的任何数目的不同计算装置。例如，个人访问计算装置可对应于膝上型或平板计算机、个人计算机、可佩戴计算机、服务器、个人数字助理(PDA)、混合PDA/移动电话、移动电话、物联网(“IoT”)装置、虚拟现实或增强现实装置等。每个内容提供商应用104可以可选地包括一个或多个数据存储(图1中未示出)，该数据存储包括用于实现本文中所公开的实施方式的各种应用或计算机可执行指令，诸如web浏览器或媒体播放器软件应用。如将在下面更详细地解释的，可以将应用配置为处理根据分块和组块的编码内容片段。

网络106可以是任何有线网络、无线网络或其组合。此外，网络106可以是个域网、局域网、广域网、电缆网络、光纤网络、卫星网络、蜂窝电话网络、数据网络或其组合。在图1的示例环境中，网络106是全球区域网络(GAN)，例如因特网。用于经由其它上述类型的通信网络进行通信的协议和组件对于计算机通信领域的技术人员来说是公知的，因此，在此不需要更详细地描述。尽管客户端装置102、内容提供商应用104和网络服务110中的每个被描述为具有到网络106的单个连接，但是客户端装置102、内容提供商应用104和网络服务110的各个组件可以在不同的点连接到网络106。因此，通信时间和能力可以在图1的组件之间变化。同样，尽管图1被示为具有单个网络106，但是相关领域的技术人员将理解，环境100可以利用任何数量的网络或网络的组合。

根据实施方式，网络服务110包括一个或多个服务器，用于接收来自客户端装置102的内容并用于将该内容处理为如本文所述的一个或多个音频片段推荐。如下面进一步详细描述的，网络服务110包括视频处理服务112、音频处理服务114和参与服务116。视频处理服务112包括用于配置一个或多个机器学习模型以分析视频内容并生成在捕获视频帧数据中描绘的表征信息的向量的属性的说明性组件。音频处理服务114包括用于配置一个或多个机器学习模型以分析音频内容并生成表征音频数据的向量的属性作为处理结果的说明性组件，或者用于如本文所述的进一步处理的说明性组件。参与服务116可以与用于为根据本文的不同实施方式使用的视频或音频数据提供调和(reconciliation)或归因(attribution)的算法对应。尽管与网络服务110相关联的各种服务112-116被示为单个组件，但是每个单独的服务112-116可以在包括虚拟化资源的多个不同的示例化组件中实现。例如，推荐服务116可以与配置为实现不同类型的推荐的多个装置或虚拟机示例对应。

网络服务110还可以包括用于维护不同信息的多个数据存储。数据存储包括用于维护配置信息、机器学习模型、训练数据等的视频处理信息数据存储118。数据存储还包括用于维护配置信息、机器学习模型、训练数据等的音频处理信息数据存储120。尽管被示为单独的数据存储，但是数据存储116、118和120可以与多个数据存储、分布式数据存储或其变型对应。

所属领域的技术人员将了解，环境100可具有比图1中所说明的更少或更多的组件。因此，图1中的环境100的描述应当被视为说明性的。例如，在一些实施方式中，网络服务110的组件可以由在托管的(hosted)计算环境中实现的一个或多个虚拟机来执行。托管的计算环境可以包括一个或多个快速供应和释放的计算资源，该计算资源可以包括计算、联网或存储装置。另外，尽管在图1中将这些组件示出为逻辑上分组，但相关领域的技术人员将了解，本申请的一个或多个方面可包括在多个地理区域中实现的网络服务110。另外，不是所有的托管网络服务110的部分的地理区域都必须具有所有相同的组件或组件的组合。

图2描绘了根据本申请的说明性客户端计算装置102(诸如个人计算机、平板计算机、智能电话或其它装置)的体系结构的一个实施方式，该客户端计算装置102可以生成内容请求并处理内容请求。图2中所描绘的客户端装置102的一般架构包括可用于实施本发明的方面的计算机硬件和软件组件的布置。如图所示，客户端装置102包括处理单元204、网络接口206、计算机可读介质驱动器208、输入/输出装置接口209、可选显示器202和输入装置224，它们都可以通过通信总线彼此通信。在各种实施方式中，诸如显示器202和/或输入装置224的组件可以被集成到客户端装置102中，或者它们可以是联接到装置102的外部组件。

网络接口206可以提供到一个或多个网络或计算系统(例如图1的网络106)的连接。因此，处理单元204可以经由网络从其他计算系统或服务接收信息和指令。处理单元204还可以与存储器210通信和从存储器210通信，并且还通过输入/输出装置接口220为可选显示器202提供输出信息。输入/输出装置接口209还可以接受来自可选输入装置224(例如键盘、鼠标、数字笔等)的输入。在一些实施方式中，客户端装置102可以包括比图2所示的组件更多(或更少)的组件。

存储器210可以包括处理单元204执行的计算机程序指令，以便实现一个或多个实施方式。存储器210通常包括RAM、ROM或其它永久或非暂时性存储器。存储器210可以存储操作系统214，该操作系统214提供由处理单元204在客户端装置102的一般管理和操作中使用的计算机程序指令。存储器210还可以包括用于实现本公开内容的方面的计算机程序指令和其它信息。例如，在一个实施方式中，存储器210包括用于访问和生成视频内容的一个或多个内容生成应用216，例如浏览器应用、移动应用、视频游戏应用等。另外，存储器210包括至少一个补充内容应用218，其用于捕获视频帧数据、处理视频帧数据(或使视频帧数据被处理)、以及选择补充音频数据(或使补充音频数据被选择)。

现在转到图3，将描述系统100的组件的说明性交互。如前所述，图3中描绘的动作基于访问客户端计算装置102(例如访问视频游戏应用、社交媒体应用等)以生成视频帧数据的客户端。另外，为了本申请的目的，假设补充内容应用(例如，音频补充内容应用)已经配置有如本文中所讨论的用于处理视频内容和选择音频内容的一个或多个机器学习算法。

在(1)处，补充内容应用捕获由一个或多个内容生成应用生成的视频数据的一个或多个帧。如前所述，补充内容应用可以利用各种视频捕获技术来捕获视频的几个帧。视频帧数据的捕获可以根据某种捕获频率来配置，该捕获频率在本质上可以是动态的。例如，捕获频率可以基于历史信息，诸如场景或视频内容的长度的典型变化。在其它实施方式中，动态频率可以基于视频内容数据中描绘的对象的节奏或确定的动态。

在(2)处，补充内容应用处理所捕获的视频帧数据以生成属性向量。示例性地，补充音频内容生成应用从视频场景中估计音乐主题，并将所捕获的帧拟合到离线级别映射。例如，补充内容应用可以提取每个帧组中的特征集合(可选地使用卷积神经网络)，并且最终在先前处理的视频文件上建立分层相似度群集(ex HDBSCAN)。如前所述，在一些实施方式中，除了动作的表征之外，视频分析应用还可以表征角色的健康、游戏的节奏、游戏的风格(例如，侵略性、保守性等)、以及游戏的意图(例如，高得分、游戏级别、一般游戏等)。在这一点上，机器学习算法可以以允许处理数据的各个帧以生成结果表征的方式来训练。因此，每个单独的游戏可以基于由每个游戏生成的视觉输出具有不同的配置(例如，机器学习算法)。示例性地，处理结果可以包括这些属性，以便在补充内容的选择中使用。

在(3)处，补充音频内容生成应用基于机器学习算法来处理所生成的属性向量以识别至少一个音频片段。示例性地，补充音频内容生成应用使用来自视频场景的音乐主题并且将所捕获的帧拟合到离线级别映射。补充音频内容生成应用可以处理到本地补充内容生成服务的属性并识别目标音频片段。在一些实施方式中，本地补充内容生成服务将采取附加步骤以将音频-FX与音乐分开，创建两个音频流，并且可选地重构音频-FX流以去除由于将单个流分成两个流而引起的可听伪像。这种技术甚至对于静音音频-FX与游戏中音乐的更常见的独立控制情况也可能具有附加的价值，其中原始游戏中音乐可以被用于查明对游戏中当前行为的更深刻的了解。在一些实施方式中，网络服务110还可以提供一些匹配信息。

在一些实施方式中，补充音频生成应用可以基于所生成的属性向量作为输入来适配音频片段信息。示例性地，如前所述，处理结果然后可以被处理以做出智能决定来影响补充内容(例如，歌曲选择)和歌曲对当前游戏场景的适配。这种适配可以包括在歌曲的变化中的选择、回放速度的选择、歌曲的组合的配置、识别淡入或淡出速率等。在一些实施方式中，补充内容的选择可以由单独的应用提供。该单独的应用可以利用另外的机器学习算法，该另外的机器学习算法利用来自视频游戏馈送的分析的处理结果作为输入。可以利用用户简档信息来配置这种单独的应用，或者以其他方式根据个人偏好来定制这种单独的应用。

为了实现适配，可以在机器学习算法中实现用于适配音频轨道的离线处理。离线处理结合了来自现有乐器和/或声音(歌唱声音、歌词)的抽象模型，目的是生成忠实于原始声音的新“音乐”内容。使用从乐谱、音频(如在歌曲的音频中)和适当的流派中建立的抽象模型，目的是在艺术家的风格和流派的边界内使用抽象来增加、修改和扩展原始艺术家的创造力。另外，所建立的模型基于艺术家的创作和表现风格，其目的是在创作忠实于原始艺术家的风格的新内容时模仿风格。在某种意义上，系统将捕获创意风格，使得它成为以相同风格创建更多内容的引擎。

在(4)处，补充内容应用发送或混合补充内容生成音频装置用于混合。

现在转到图4，将描述用于选择音频内容的例程。如前所述，例程400中描述的动作基于访问客户端计算装置102以生成视频帧数据的客户端，例如访问视频游戏应用、社交媒体应用等。另外，为了本申请的目的，假设补充内容应用(例如，音频补充内容应用)已经配置有如本文中所讨论的用于处理视频内容和选择音频内容的一个或多个机器学习算法。

在框402处，补充内容应用捕获由一个或多个内容生成应用生成的视频数据的一个或多个帧。如前所述，补充内容应用可以利用各种视频捕获技术来捕获视频的几个帧。视频帧数据的捕获可以根据某种捕获频率来配置，该捕获频率在本质上可以是动态的。例如，捕获频率可以基于历史信息，诸如场景或视频内容的长度的典型变化。在其它实施方式中，动态频率可以基于视频内容数据中描绘的对象的节奏或确定的动态。

在404处，补充内容应用处理所捕获的视频帧数据以生成属性向量。示例性地，补充音频内容生成应用从视频场景中估计音乐主题，并将所捕获的帧拟合到离线级别映射。例如，补充内容应用可以提取每个帧组中的特征集合(可选地使用卷积神经网络)，并且最终在先前处理的视频文件上建立分层相似度群集(ex HDBSCAN)。如前所述，在一些实施方式中，除了动作的表征之外，视频分析应用还可以表征角色的健康、游戏的节奏、游戏的风格(例如，侵略性、保守性等)、以及游戏的意图(例如，高得分、游戏级别、一般游戏等)。在这一点上，机器学习算法可以以允许处理数据的各个帧以生成结果表征的方式来训练。因此，每个单独的游戏可以基于由每个游戏生成的视觉输出具有不同的配置(例如，机器学习算法)。示例性地，处理结果可以包括这些属性，以便在补充内容的选择中使用。

在框406处，补充音频内容生成应用基于机器学习算法来处理所生成的属性向量以识别至少一个音频片段。示例性地，补充音频内容生成应用使用来自视频场景的音乐主题并且将所捕获的帧拟合到离线级别映射。补充音频内容生成应用可以处理到本地补充内容生成服务的属性并识别目标音频片段。在一些实施方式中，本地补充内容生成服务将采取附加步骤以将音频-FX与音乐分开，创建两个音频流，并且可选地重构音频-FX流以去除由于将单个流分成两个流而引起的可听伪像。示例性地，补充内容生成应用可以使用自然语言处理(NLP)来将抽象的非音乐单词与所生成的属性向量相匹配。在其它实施方式中，补充内容生成应用还可以制作在所捕获的视频帧数据中描绘的各个对象。另外，音频片段的选择可以与音频轨道信息的不同部分对应，例如可以与所生成的属性向量紧密匹配的合唱、即兴段、副歌等。

在框408处，补充内容应用发送或混合补充内容生成音频装置用于混合。例程400在框410处终止。

图5示出了描述由实现离线处理的一个或多个机器学习算法实现的音频适配例程的例程500。在框502，离线处理结合了来自现有乐器和/或声音(歌唱声音、歌词)的抽象模型。示例性地，抽象模型配置为生成忠实于原始声音的新的“音乐”内容。

在框504处，使用从乐谱、音频(如在歌曲的音频中)和适当的流派中建立的抽象模型，目的是在艺术家的风格和流派的边界内使用抽象来增加、修改和扩展原始艺术家的创造力。另外，所建立的模型基于艺术家的创作和表现风格，其目的是在创作忠实于原始艺术家的风格的新内容时模仿风格。在某种意义上，系统将捕获创意风格，使得它成为以相同风格创建更多内容的引擎。所得到的表征可以被生成作为处理结果，以便表征音频信息。例如，特征可以包括流派、子流派、情绪和角色。另外，音频片段的属性可以包括拍子、键、模式、弦、旋律。

在框506处，内容生成应用获得用于适配的输入，例如偏好信息、生成的属性向量等，其用作抽象模型的输入。在框508处，内容生成应用使用机器学习模型生成改编。另外，参与平台可以进一步处理用于调和或归因的片段的部分。

在框510处，例程510终止。

应当理解，根据本文所述的任何特定实施方式，不一定可以实现所有的目的或优点。因此，例如，本领域技术人员将认识到，某些实施方式可以配置为以实现或优化如本文所教导的一个优点或一组优点的方式操作，而不必实现如本文所教导或建议的其它目的或优点。

本文所描述的所有处理可经由软件代码模块而完全自动化，所述软件代码模块包括由计算系统执行的一个或多个特定计算机可执行指令。计算系统可以包括一个或多个计算机或处理器。代码模块可以存储在任何类型的非暂时性计算机可读介质或其它计算机存储装置中。一些或所有的方法可以体现在专用计算机硬件中。

根据本公开，除了本文所述的那些之外的许多其它变型将是显而易见的。例如，根据实施方式，可以以不同的顺序执行本文描述的任何算法的某些动作、事件或功能，可以添加、合并或完全省去(例如，不是所有描述的动作或事件对于算法的实践都是必需的)。此外，在某些实施方式中，动作或事件可以同时执行，例如通过多线程处理、中断处理、或多处理器或处理器核，或在其它并行体系结构上，而不是顺序地执行。此外，不同的任务或处理可以由能够一起工作的不同的机器和/或计算系统来执行。

结合本文所公开的实施方式而描述的各种说明性逻辑块和模块可由机器(诸如，处理单元或处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑装置、离散门或晶体管逻辑、离散硬件组件或其经设计以执行本文所述功能的任何组合)来实施或执行。处理器可以是微处理器，但在替代方案中，处理器可以是控制器、微控制器或状态机、其组合等。处理器可包括经配置以处理计算机可执行指令的电路。在另一实施方式中，处理器包括FPGA或其它可编程装置，其执行逻辑操作而不处理计算机可执行指令。处理器还可以被实现为外部计算装置的组合，例如DSP和微处理器的组合、多个微处理器、结合DSP核的一个或多个微处理器、或任何其他这样的配置。尽管本文中主要针对数字技术进行了描述，但是处理器也可以主要包括模拟组件。计算环境可以包括任何类型的计算机系统，包括但不限于基于微处理器的计算机系统、主机计算机、数字信号处理器、便携式外部计算装置、装置控制器或装置内的计算引擎等。

除非另外特别说明，否则条件语言(例如“可能(can)”，“可能(could)”，“可以(might)”或“可以(may)”)在上下文中被理解为通常用于传达某些实施方式包括某些特征、元件和/或步骤，但其他实施方式不包括某些特征、元件和/或步骤。因此，这种条件语言通常不打算暗示特征、元件和/或步骤以任何方式对于一个或多个实施方式是必需的，或者一个或多个实施方式必然包括用于在有或没有用户输入或提示的情况下决定这些特征、元件和/或步骤是否在任何特定实施方式中被包括或要被执行的逻辑。

除非另有具体说明，否则析取(disjunctive)语言(诸如短语“X、Y或Z中的至少一个”)以通常用于呈现项目、术语等可以是X、Y或Z或其任何组合(例如，X、Y和/或Z)的上下文来另外理解。因此，这种析取语言一般不打算、也不应该暗示某些实施方式需要X中的至少一个、Y中的至少一个、或Z中的至少一个各自存在。

在本文中描述的和/或在附图中描绘的流程图中的任何处理描述、元件或块应当被理解为潜在地表示包括用于实现处理中的特定逻辑功能或元件的一个或多个可执行指令的代码的模块、片段或部分。取决于本领域技术人员将理解的所涉及的功能，替换的实现被包括在本文中描述的实施方式的范围内，其中元件或功能可以被删除、与所示的顺序不一致地执行或讨论，包括基本上同时或以相反的顺序。

除非另有明确说明，否则诸如“一(a)”或“一(an)”的冠词通常应被解释为包括一个或多个所描述的项目。因此，诸如“装置，配置为”的短语旨在包括一个或多个所述的装置。这样的一个或多个所述的装置也可以被共同配置为执行陈述的叙述。例如，“处理器，配置为执行叙述A、B和C”可以包括配置为执行叙述A的第一处理器，其与配置为执行叙述B和C的第二处理器协同工作。

Claims

1.一种用于利用从一个或多个内容生成应用解联接的补充音频内容生成应用生成补充内容的方法，所述方法包括：

通过所述补充音频内容生成应用，获得由所述一个或多个内容生成应用生成的一个或多个视频帧，其中，所述补充音频内容生成应用和所述一个或多个内容生成应用在客户端装置上执行，并且其中，所述补充音频内容生成应用和所述一个或多个内容生成应用是能够独立执行的；

通过所述补充音频内容生成应用，处理所获得的一个或多个视频帧，以生成表征所述一个或多个视频帧中描绘的内容的属性向量；

通过所述补充音频内容生成应用，基于机器学习算法处理所生成的属性向量，以识别至少一个音频片段；以及

通过所述补充音频内容生成应用，使得回放所识别的与所述一个或多个内容生成应用相关的至少一个音频片段。

2.根据权利要求1所述的方法，其中，所述一个或多个内容生成应用包括生成视频帧数据的至少一个社交媒体应用。

3.根据权利要求1所述的方法，其中，所述一个或多个内容生成应用包括生成视频帧数据的至少一个视频游戏应用。

4.根据权利要求1所述的方法，其中，通过所述补充音频内容生成应用，获得由所述一个或多个内容生成应用生成的一个或多个视频帧包括：基于捕获频率获得视频数据的各个帧。

5.根据权利要求4所述的方法，其中，基于所述视频帧数据的属性，动态地修改所述捕获频率。

6.根据权利要求1所述的方法，其中，表征所述一个或多个视频帧中描绘的内容的所述属性向量包括：与所述视频帧数据中描绘的对象的主题的表征对应的一个或多个属性。

7.根据权利要求1所述的方法，其中，表征所述一个或多个视频帧中描绘的内容的所述属性向量包括：与所述视频帧数据中描绘的对象的测量进度的表征对应的一个或多个属性。

8.根据权利要求1所述的方法，其中，表征所述一个或多个视频帧中描绘的内容的所述属性向量包括：与所述视频帧数据中描绘的对象的情绪的表征对应的一个或多个属性。

9.根据权利要求1所述的方法，其中，表征所述一个或多个视频帧中描绘的内容的所述属性向量包括：与所述视频帧数据中描绘的对象的节奏的表征对应的一个或多个属性。

10.根据权利要求1所述的方法，其中，表征所述一个或多个视频帧中描绘的内容的所述属性向量包括：与视频游戏中的游戏风格或游戏意图中的至少一个的表征对应的一个或多个属性。

11.根据权利要求1所述的方法，其中，通过所述补充音频内容生成应用，基于机器学习算法处理所生成的属性向量以识别至少一个音频片段包括：识别与所生成的属性向量相关的音频轨道的片段。

12.根据权利要求1所述的方法，其中，通过所述补充音频内容生成应用，基于机器学习算法处理所生成的属性向量以识别至少一个音频片段包括：基于所生成的属性向量来适配至少一个目标片段。

13.根据权利要求1所述的方法，其中，基于所生成的属性向量来适配至少一个目标片段包括：适配播放速度。

14.根据权利要求1所述的方法，其中，基于所生成的属性向量来适配至少一个目标片段包括：适配渐淡信息。

15.根据权利要求1所述的方法，其中，基于所生成的属性向量来适配至少一个目标片段包括：组合两个或更多个音频片段。

16.根据权利要求1所述的方法，其中，基于所生成的属性向量来适配至少一个目标片段包括：基于所生成的属性向量和偏好信息来生成新的音频轨道。

17.一种补充音频内容的系统，包括：

一个或多个计算处理器和存储器，与补充音频内容应用相关联，其中，所述补充音频内容生成应用在客户端装置上执行，并且其中，所述补充音频内容生成应用和一个或多个内容生成应用是能够独立执行的，其中，所述补充音频内容生成应用配置为：

获得由所述一个或多个内容生成应用生成的一个或多个视频帧，其中，所述补充音频内容生成应用和所述一个或多个内容生成应用在客户端装置上执行，并且其中，所述补充音频内容生成应用和所述一个或多个内容生成应用是能够独立执行的；

处理所获得的一个或多个视频帧，以生成表征所述一个或多个视频帧中描绘的内容的属性向量；

基于机器学习算法处理所生成的属性向量以识别至少一个音频片段，其中，至少部分地基于所生成的属性向量来适配所识别的至少一个音频片段；以及

使得回放所识别的与所述一个或多个内容生成应用相关的至少一个音频片段。

18.根据权利要求17所述的系统，其中，所述补充音频内容生成应用基于捕获频率获得视频数据的各个帧。

19.根据权利要求17所述的系统，其中，表征所述一个或多个视频帧中描绘的内容的所述属性向量包括：与所述视频帧数据中描绘的对象的主题、所述视频帧数据中描绘的对象的测量进度、所述视频帧数据中描绘的对象的情绪、所述视频帧数据中描绘的对象的节奏、视频游戏中的游戏风格或游戏意图中的至少一个的表征对应的一个或多个属性。

20.根据权利要求17所述的系统，其中，所述补充内容应用基于所生成的属性向量来适配至少一个目标片段包括：适配播放速度、适配渐淡信息、组合两个或更多个音频片段、或基于所生成的属性向量和偏好信息来生成新的音频轨道中的至少一个。

21.一种用于利用从一个或多个内容生成应用解联接的补充音频内容生成应用生成补充内容的方法，所述方法包括：

通过所述补充音频内容生成应用，基于机器学习算法处理所生成的属性向量以识别至少一个音频片段，其中，至少部分地基于所生成的属性向量来适配所识别的至少一个音频片段；以及

通过所述补充音频内容生成应用，使得回放所识别的至少一个音频。

22.根据权利要求21所述的方法，其中，通过所述补充音频内容生成应用，获得由所述一个或多个内容生成应用生成的一个或多个视频帧包括：基于捕获频率获得视频数据的各个帧。

23.根据权利要求21所述的方法，其中，表征所述一个或多个视频帧中描绘的内容的所述属性向量包括与所述视频帧数据中描绘的对象的主题、所述视频帧数据中描绘的对象的测量进度、所述视频帧数据中描绘的对象的情绪、所述视频帧数据中描绘的对象的节奏、视频游戏中的游戏风格或游戏意图中的至少一个的表征对应的一个或多个属性。

24.根据权利要求21所述的方法，其中，所述补充内容应用基于所生成的属性向量来适配至少一个目标片段包括：适配播放速度、适配渐淡信息、组合两个或更多个音频片段、或基于所生成的属性向量和偏好信息来生成新的音频轨道中的至少一个。