CN112333623A

CN112333623A - 使用图像信息的基于空间的音频对象生成

Info

Publication number: CN112333623A
Application number: CN202010690663.6A
Authority: CN
Inventors: S.斯里达兰; I.M.瑟法蒂
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2019-07-18
Filing date: 2020-07-17
Publication date: 2021-02-05
Anticipated expiration: 2040-07-17
Also published as: CN112333623B; US11026037B2; US20210021949A1

Abstract

用于生成多通道音频对象的方法、系统和计算机程序产品。使用一个或多个图像分析神经网络识别给定视频帧中的一个或多个特征。使用音频神经网络，基于一个或多个识别的特征和一个或多个基线音频轨道生成多通道音频对象。

Description

使用图像信息的基于空间的音频对象生成

技术领域

本发明涉及电气、电子和计算机领域，并且更具体地，涉及生成基于空间的音频对象。

背景技术

直到最近，数字格式的电影通常包括具有不同数量的音频通道(音频轨道)的视频。早期音频轨道中的一些包括单声道音频(一个通道)和后来的立体声音频(两个通道：左通道和右通道)。近年来，音频系统已开始使用具有如杜比全景声(Dolby Atmos)(美国加利福尼亚州三藩市杜比实验室的产品)和

的声音传递格式的多通道音频输出(诸如5.1、7.1和9.1格式等)，以用于更沉浸式的体验。随着这种沉浸式声音系统的出现，人们开发了将传统通道音频虚拟地上混音(up-mix)到更多通道的方法(诸如，从立体声音频上混音到5.1格式)。然而，这些方法直接对音频信号执行信号处理技术并且计算通道间相干性，以获得音频的虚拟空间坐标。常规方法采用信号处理技术，如音频轨道上音频的相移、时间延迟或混响，来计算通道间相干性，以用于获得音频源的虚拟空间坐标。这进一步用于隔离通道之间的音频。

发明内容

本发明的原理提供了用于使用图像信息生成基于空间的音频对象的技术。在一个方面中，一种示例性方法包括：使用一个或多个图像分析神经网络识别给定视频帧中的一个或多个特征的操作；以及使用音频神经网络，基于一个或多个识别的特征和一个或多个基线音频轨道(baseline audio track)生成多通道音频对象。

在一个方面中，一种装置包括：存储器；以及耦合到该存储器的至少一个处理器，并且该处理器可操作来执行包括以下各项的操作：使用一个或多个图像分析神经网络识别给定视频帧中的一个或多个特征；以及使用音频神经网络，基于一个或多个识别的特征和一个或多个基线音频轨道生成多通道音频对象。

在一个方面中，一种计算机程序产品具有可由一个或多个计算机处理器执行的计算机可读程序代码，以执行包括以下各项的操作：使用一个或多个图像分析神经网络识别给定视频帧中的一个或多个特征；以及使用音频神经网络，基于一个或多个识别的特征和一个或多个基线音频轨道生成多通道音频对象。

如本文所使用的，“促进”动作包括执行该动作、使该动作更容易、帮助执行该动作或者促使该动作被执行。因此，作为示例而非限制，在一个处理器上执行的指令可以通过发送适当的数据或命令来促使或帮助执行动作，从而促进由在远程处理器上执行的指令执行的动作。为避免疑问，在参与者通过除执行动作以外的方式来促进动作的情况下，该动作仍然是由一些实体或实体组合执行的。

本发明的一个或多个实施例或其元件可以以计算机程序产品的形式实现，该计算机程序产品包括计算机可读存储介质，该计算机可读存储介质具有用于执行所指示的方法步骤的计算机可用程序代码。此外，本发明的一个或多个实施例或其元件可以以系统(或装置)的形式实现，该系统(或装置)包括存储器和至少一个处理器，该处理器耦合到存储器并且可操作为执行示例性方法步骤。此外，在另一方面中，本发明的一个或多个实施例或其元件可以以用于执行本文描述的一个或多个方法步骤的装置的形式来实现；该装置可以包括(i)(多个)硬件模块，(ii)存储在计算机可读存储介质(或多个这样的介质)中并且在硬件处理器上实现的(多个)软件模块，或者(iii)——(i)和(ii)的组合；(i)至(iii)中的任何一项实施本文阐述的特定技术。

本发明的技术可以提供实质性的有益技术效果。例如，一个或多个实施例提供以下一项或多项：

基于图像和视频信息的音频对象生成；

基于模型的上混音过程，其考虑来自图像的空间特征、来自图像的动态特征或这两者，以生成多通道音频；

学习用于生成多通道音频的最佳算法的神经网络；和

可扩展到任意数量的音频通道。

本发明的这些和其他特征和优点将从以下结合附图来阅读的本发明的说明性实施例的详细描述中变得显而易见。

附图说明

图1描绘了根据本发明实施例的云计算环境；

图2描绘了根据本发明实施例的抽象模型层；

图3是根据示例实施例的示例基于空间的音频对象生成系统(spatial-basedaudio object generation system，SAOGS)的框图；

图4A是根据示例实施例的用于训练音频神经网络的示例工作流程；

图4B是根据示例实施例的用于训练音频神经网络的示例方法的流程图；

图5A是根据示例实施例的使用SAOGS生成多通道音频的示例工作流程；

图5B是根据示例实施例的使用SAOGS生成多通道音频的示例方法的流程图；以及

图6描绘了可用于实现本发明的一个或多个方面和/或元件的计算机系统，其也代表了根据本发明实施例的云计算节点。

具体实施方式

首先应当理解，尽管本公开包括关于云计算的详细描述，但其中记载的技术方案的实现却不限于云计算环境，而是能够结合现在已知或以后开发的任何其它类型的计算环境而实现。

云计算是一种服务交付模式，用于对共享的可配置计算资源池进行方便、按需的网络访问。可配置计算资源是能够以最小的管理成本或与服务提供者进行最少的交互就能快速部署和释放的资源，例如可以是网络、网络带宽、服务器、处理、内存、存储、应用、虚拟机和服务。这种云模式可以包括至少五个特征、至少三个服务模型和至少四个部署模型。

特征包括：

按需自助式服务：云的消费者在无需与服务提供者进行人为交互的情况下能够单方面自动地按需部署诸如服务器时间和网络存储等的计算能力。

广泛的网络接入：计算能力可以通过标准机制在网络上获取，这种标准机制促进了通过不同种类的瘦客户机平台或厚客户机平台(例如移动电话、膝上型电脑、个人数字助理PDA)对云的使用。

资源池：提供者的计算资源被归入资源池并通过多租户(multi-tenant)模式服务于多重消费者，其中按需将不同的实体资源和虚拟资源动态地分配和再分配。一般情况下，消费者不能控制或甚至并不知晓所提供的资源的确切位置，但可以在较高抽象程度上指定位置(例如国家、州或数据中心)，因此具有位置无关性。

迅速弹性：能够迅速、有弹性地(有时是自动地)部署计算能力，以实现快速扩展，并且能迅速释放来快速缩小。在消费者看来，用于部署的可用计算能力往往显得是无限的，并能在任意时候都能获取任意数量的计算能力。

可测量的服务：云系统通过利用适于服务类型(例如存储、处理、带宽和活跃用户帐号)的某种抽象程度的计量能力，自动地控制和优化资源效用。可以监测、控制和报告资源使用情况，为服务提供者和消费者双方提供透明度。

服务模型如下：

软件即服务(SaaS)：向消费者提供的能力是使用提供者在云基础架构上运行的应用。可以通过诸如网络浏览器的瘦客户机接口(例如基于网络的电子邮件)从各种客户机设备访问应用。除了有限的特定于用户的应用配置设置外，消费者既不管理也不控制包括网络、服务器、操作系统、存储、乃至单个应用能力等的底层云基础架构。

平台即服务(PaaS)：向消费者提供的能力是在云基础架构上部署消费者创建或获得的应用，这些应用利用提供者支持的程序设计语言和工具创建。消费者既不管理也不控制包括网络、服务器、操作系统或存储的底层云基础架构，但对其部署的应用具有控制权，对应用托管环境配置可能也具有控制权。

基础架构即服务(IaaS)：向消费者提供的能力是消费者能够在其中部署并运行包括操作系统和应用的任意软件的处理、存储、网络和其他基础计算资源。消费者既不管理也不控制底层的云基础架构，但是对操作系统、存储和其部署的应用具有控制权，对选择的网络组件(例如主机防火墙)可能具有有限的控制权。

部署模型如下：

私有云：云基础架构单独为某个组织运行。云基础架构可以由该组织或第三方管理并且可以存在于该组织内部或外部。

共同体云：云基础架构被若干组织共享并支持有共同利害关系(例如任务使命、安全要求、政策和合规考虑)的特定共同体。共同体云可以由共同体内的多个组织或第三方管理并且可以存在于该共同体内部或外部。

公共云：云基础架构向公众或大型产业群提供并由出售云服务的组织拥有。

混合云：云基础架构由两个或更多部署模型的云(私有云、共同体云或公共云)组成，这些云依然是独特的实体，但是通过使数据和应用能够移植的标准化技术或私有技术(例如用于云之间的负载平衡的云突发流量分担技术)绑定在一起。

云计算环境是面向服务的，特点集中在无状态性、低耦合性、模块性和语意的互操作性。云计算的核心是包含互连节点网络的基础架构。

现在参考图1，示出了云计算节点的示例的示意图。现在参考图1，描绘了说明性的云计算环境50。如图所示，云计算环境50包括一个或多个云计算节点10，由云消费者使用的诸如例如个人数字助理(personal digital assistant，PDA)或蜂窝电话54A、台式计算机54B、膝上型计算机54C和/或汽车计算机系统54N的本地计算设备可以与云计算节点10通信。节点10可以彼此通信。在诸如上文所述的私有、社区、公共或混合云或其组合的一个或多个网络中，它们可以被物理地或虚拟地分组(未示出)。这允许云计算环境50提供基础设施、平台和/或软件即服务，云消费者不需要为其维护本地计算设备上的资源。应当理解，图1中所示的计算设备54A-N的类型仅仅是说明性的，并且计算节点10和云计算环境50可以通过任何类型的网络和/或网络可寻址连接(例如，使用网络浏览器)与任何类型的计算机化设备通信。

现在参考图2，示出了由云计算环境50(图1)提供的一组功能抽象层。应该预先理解，图2中所示的组件、层和功能仅是说明性的，并且本发明的实施例不限于此。如图所示，提供了以下层和相应的功能。

硬件和软件层60包括硬件和软件组件。硬件组件的示例包括：大型机61；基于RISC(Reduced Instruction Set Computer，精简指令集计算机)架构的服务器62；服务器63；刀片服务器64；存储设备65；以及网络和联网组件66。在一些实施例中，软件组件包括网络应用服务器软件67和数据库软件68。

虚拟化层70提供抽象层，从该抽象层可以提供虚拟实体的以下示例：虚拟服务器71；虚拟存储装置72；虚拟网络73，包括虚拟专用网络；虚拟应用和操作系统74；以及虚拟客户端75。

在一个示例中，管理层80可以提供下面描述的功能。资源供应81提供计算资源和用于在云计算环境中执行任务的其他资源的动态采购。计量和定价82提供当资源在云计算环境中被利用时的成本跟踪，并对这些资源的消耗进行计费或开发票。在一个示例中，这些资源可以包括应用软件许可证。安全性为云消费者和任务提供身份验证以及对数据和其他资源的保护。用户门户83为消费者和系统管理员提供对云计算环境的访问。服务级别管理84提供云计算资源分配和管理，从而满足所需的服务级别。服务水平协议(Service LevelAgreement，SLA)计划和实现85为根据SLA预期未来需求的云计算资源提供预先安排和采购。

工作负载层90提供了可以利用云计算环境的功能的示例。可以从该层提供的工作负载和功能的示例包括：映射和导航91；软件开发和生命周期管理92；虚拟教室教育交付93；数据分析处理94；交易处理95；和音频对象生成器96。

通常，公开了用于使用图像和视频信息生成音频对象的方法和系统。音频对象可以是音频通道或轨道(通道和轨道在本文可互换使用)，或者多个音频通道或轨道。在一个示例实施例中，视频的对象信息和空间信息，诸如对象的深度信息，被用于识别音频信号的(多个)源的(多个)空间位置，并且生成基于对象的多通道音频。生成的音频通道可以用于为视频提供例如氛围声音。该过程可以看作是使用单个端到端(end-to-end)神经网络的基于模型的音频上混音。

在一个示例实施例中，视频轨道(图像序列)和一个或多个对应的音频轨道被提供作为单个端到端神经网络的输入。音频轨道包括例如一个或两个通道，如单声道或立体声音频的情况，在此称为基线音频轨道。(也设想大于两个通道的基线音频轨道)。输出是多维数组，其中维数是音频系统中输出通道的数量(可以根据需要选择)。例如，杜比全景声系统可以同时利用128个音频对象。

在端到端模型中，神经网络的第一阶段对视频输入进行操作，以估计和提取例如图像特征，诸如识别视频帧中的对象、对象的深度信息等。提取的图像特征作为神经网络的第二阶段的输入。在第二阶段中，本质上，作为音频源的对象的特征被用来确定声音将从哪个音频通道以及由此从哪个扬声器发出。神经网络的第二阶段使用提取的视频特征对输入音频信号进行操作，以生成音频对象。整个神经网络的输出是多通道音频，其格式诸如“环绕声(ambiophonic)”音频、5.1音频等。

通常，来自视频的诸如深度和其他空间信息的图像信息被用来学习/隔离音频信号源的空间位置。频率、振幅和时间窗口随着对象(在视频帧内)的位置而变化。例如，跨视频帧而移动的汽车会表现出多普勒效应(从高到低到高的频率)。图像前景中爆炸的炸弹比其他声源具有更大的频谱和更高的振幅。

生成多通道音频的常规方法包括自适应平移方法(adaptive panning method)、低/高通滤波器、和基于主成分分析(principal component analysis，PCA)的上混音，该上混音将原始立体声通道分解成相关和不相关的部分。具有更少通道的音频信号可以被感知为具有更少(缺失)维度的数据。诸如对音频信号进行的矩阵分解的技术可以用于隔离通道频率。在一个示例实施例中，通过使用具有基线音频轨道(诸如5.1音频格式下混音(down-mix)到立体声)的多个视频实例作为输入以及视频的原始多通道轨迹音频作为预期输出来训练(多个)神经网络的(多个)模型。在一个示例实施例中，神经网络的第一阶段被训练以确定与下混音音频和原始多通道音频之间的关系相关的视频特征。

在一个示例实施例中，使用一个或多个预先训练的神经网络来实现系统的第一阶段，其中每个神经网络从图像和/或视频中提取一种或多种类型的特征。例如，第一预先训练的神经网络可以识别视频帧中对象的类型，第二预先训练的神经网络可以识别视频帧中对象的坐标，以及第三预先训练的神经网络可以识别视频帧中对象的深度。在一个示例实施例中，预先训练的神经网络联合处理信息以导出各种特征和识别。此外，除了神经网络之外，以向量形式提供图像特征的“空间表示”的任何其他模型可以用来，例如，识别视频帧中的对象的类型，识别视频帧中的对象的坐标，以及识别视频帧中的对象的深度。

所确定的特征(连同基线音频和视频的原始多通道轨道音频)然后被用于训练神经网络的第二阶段以生成多通道音频输出。一旦经过训练，给定视频的多通道音频输出就基于给定视频的视频帧和给定视频的相对少量的音频通道(诸如基线音频轨道)来生成。

所公开的流水线类似于被称为视觉问答(visual question answering，VQA)的普通深度学习问题。在单个端到端模型中隔离不同模态的数据集之间的上下文相关性也是可行的。在VQA中，注意力机制(attention mechanism)被用来隔离图像中的元素，以在文本数据中进行推理。类似的注意力机制被使用，其中数据集包括图像和音频信号，如在电影场景的情况下。注意力被用来隔离与图像的空间分量相关的频率和时间窗口。

在训练期间，输入数据集包括原始多通道音频、基线音频轨道(其中原始多通道音频已经被下采样到例如立体声或单声道，或者其中音频的原始版本在例如立体声或单声道中可用)，以及来自训练视频库的一系列视频帧。这可以包括多个短的视频片段或完整的电影。神经网络的第一阶段被预先训练以从视频帧中提取特征，诸如对象的识别、对象的位置和/或深度等。神经网络的第二阶段被训练以利用从视频帧和基线音频轨道中提取的特征来生成原始多通道音频。一旦经过训练，SAOGS将基于给定视频的视频帧和相对较少数量的音频轨道(诸如基线音频轨道)生成多通道音频。网络的输出也可以是以诸如“环绕声”音频的格式的形式。这种格式包括四个分量，即W：声压，X：前后声压，Y：左右声压，Z：上下声压。可以进一步对这些输出进行操作，以生成每通道信息。如上所述，立体声或单声道的使用是非限制性示例。该系统可以用多于两个音频通道来训练，并且该系统可以为具有多于两个原始音频通道的给定视频生成多通道音频。

图3是根据示例实施例的示例基于空间的音频对象生成系统300的框图。包含视频帧序列和一个或多个音频轨道的视频304被提交给SAOGS 300。视频帧序列或视频帧序列的采样被提交给一个或多个图像分析神经网络308-1，…308-N(本文统称为图像分析神经网络308)。

通常，神经网络包括多个计算机处理器，其被配置为一起工作以实现一个或多个机器学习算法。该实现可以是同步或异步的。在神经网络中，处理器模拟成千上万个神经元，这些神经元通过轴突和突触连接在一起。每个连接对相连的神经单元的激活状态的影响是强制性的、抑制性的或中性的。每个单独的神经单元都有求和功能，该功能将所有其输入的值组合在一起。在一些实施方式中，在至少一些连接和/或至少一些神经单元上存在阈值函数或限制函数，使得信号在传播到其他神经元之前必须超过限制。神经网络可以实现有监督、无监督或半监督的机器学习。

在一个示例实施例中，从给定视频的每一秒提取一个视频帧，并将其提交给图像分析神经网络308中的每一个。在一个示例实施例中，表现出与先前图像有实质性改变的第一视频帧(例如，如直方图所示)可以作为下一帧被提交给图像分析神经网络308中的每一个。示例图像分析神经网络308包括但不限于用于对象检测的图像分析神经网络308-1、用于空间特征提取(诸如深度特征)的图像分析神经网络308-N等。在一个示例实施例中，图像分析神经网络308被预先训练以识别每个视频帧中的对应视频特征。

在一个示例实施例中，用于对象检测的图像分析神经网络308-1生成向量，该向量包含视频帧中对象的识别以及对应的边界框坐标。在一个示例实施例中，用于空间特征提取的图像分析神经网络308-N生成具有深度估计的视频帧的替代表示。例如，可以为图像中的每个像素、图像中的每个对象等确定深度信息。

在一个示例实施例中，(多个)图像分析神经网络308的(多个)输出被输入到音频神经网络312。在训练阶段期间，音频神经网络312处理包含多通道音频的视频，诸如5.1通道格式的音频，并且学习图像特征和每个音频通道之间的关系。在训练之后，基于所学习的关系，音频神经网络312使用视频的原始基线音频轨道和视频的帧为给定视频生成多通道音频输出316的各个音频通道。

图4A是根据示例实施例的用于训练音频神经网络312的示例工作流程400。在一个示例实施例中，从视频库404获得视频304。每个视频304包括两个或多个图像帧408和一个或多个音频轨道412。图像帧408由预先训练的图像分析神经网络的集合308处理，其提取视频特征以供音频神经网络312处理。如果视频304仅包含多通道音频轨道(即，不是基线音频轨道)，则下采样音频处理器416生成基线音频轨道，并且将它们提供给音频神经网络312。如果视频304包含基线音频轨道，则基线音频轨道被直接提供给音频神经网络312。音频神经网络312然后生成多通道音频输出(用为多通道音频输出提供的目标标签来命名)，并且确定音频神经网络312是否需要进一步训练(再训练)(操作420)。如果需要进一步训练(操作420的“是”分支)，则从视频库404获得另一视频304并进行处理；否则(操作420的“否”分支)，音频神经网络312的模型由模型保存器424存储。在一个示例实施例中，通过将由音频神经网络312生成的多通道音频输出与训练视频304的多通道音频进行比较来确定是否需要进一步训练。如果两个多通道音频足够相似，则无需进一步训练。在一个示例实施例中，诸如交叉熵损失、均方误差损失(预测和目标的平方差)等的损失函数被用于确定多通道音频是否足够相似。在一个示例实施例中，通过比较多个视频304的原始和生成的多通道音频轨道来确定累积相似性分数。在一个示例实施例中，如上所述，使用附加视频304周期性地重新训练音频神经网络312。

图4B是根据示例实施例的用于训练音频神经网络312的示例方法450的流程图。在一个示例实施例中，从视频库404获得视频304(操作454)。图像帧408由预先训练的图像分析神经网络的集合308处理，其提取视频特征以供音频神经网络312处理(操作458)。执行检查以确定视频304是否包含基线音频轨道(判定框462)。如果视频304不包含基线音频轨道(判定框462的“否”分支)，则从多通道音频轨道生成基线音频轨道(操作466)并将其提供来训练音频神经网络312；否则(操作462的“是”分支)，从视频库404获得基线音频轨道并将其提供来训练音频神经网络312。然后，使用提取的特征、基线音频轨道和多通道音频轨道来训练音频神经网络312(操作470)。

在一个示例实施例中，执行检查以确定是否需要再训练(判定框474)。如果需要进一步的训练(操作474的“是”分支)，则方法450继续操作454，并且从视频库404获得另一视频并进行处理；否则(操作474的“否”分支)，音频神经网络312的模型由模型保存器424存储(操作478)。

图5A是根据示例实施例的使用SAOGS 300生成多通道音频的示例工作流程500。在一个示例实施例中，预先训练的图像分析神经网络的集合308用它们对应的模型被加载和自举(bootstrap)，并且音频神经网络312的训练模型由模型加载和自举模块504来加载和自举。视频304也从视频库404获得。视频304由SAOGS 300的图像分析神经网络的预先训练的集合308和音频神经网络312来处理。在一个示例实施例中，执行检查512以确定多通道音频是正被在线使用还是被存储以供离线使用。如果多通道音频正被在线使用(判定框512的“否”分支)，则输出多通道音频；否则(判定框512的“是”分支)，存储多通道音频。

图5B是根据示例实施例的使用SAOGS 300生成多通道音频的示例方法550的流程图。在一个示例实施例中，预先训练的图像分析神经网络的集合308用它们对应的模型来自举和加载，并且音频神经网络312的训练模型被自举并加载(操作554)。从视频库404获得视频304(操作558)，并且由SAOGS 300的图像分析神经网络的预先训练的集合308和音频神经网络312进行处理(操作562)。在一个示例实施例中，执行检查以确定多通道音频是正被在线使用还是被存储以供离线使用(判定框566)。如果多通道音频正被在线使用(判定框566的“在线”分支)，则输出多通道音频(操作574)；否则(判定框566的“离线”分支)，由模型保存器424存储音频神经网络312的模型(操作570)。

给定至此的讨论，将理解，一般而言，根据本发明的一个方面，示例性方法包括以下操作：使用一个或多个图像分析神经网络308识别给定视频帧中的一个或多个特征(操作562)；以及使用音频神经网络312基于一个或多个识别的特征和一个或多个基线音频轨道412生成多通道音频对象(操作562)。

在一个示例实施例中，使用生成模型在从第一通道到第二通道的过渡期间生成合成音频对象(操作562)。在一个示例实施例中，生成模型是生成对抗网络和可变自动编码器之一。在一个示例实施例中，基于一个或多个训练视频帧和一个或多个对应的训练特征来训练每个图像分析神经网络308。在一个示例实施例中，基于从一个或多个训练视频帧、一个或多个对应的多通道音频轨道412和一个或多个基线音频轨道412提取的一个或多个训练特征来训练音频神经网络312(操作470)。在一个示例实施例中，多通道音频轨道412被下采样以生成基线音频轨道412。在一个示例实施例中，给定视频帧中的一个或多个对象被识别，该一个或多个识别被提供作为音频神经网络312的输入(操作562)。

在一个方面中，一种装置包括存储器；以及耦合到该存储器的至少一个处理器，并且该处理器可操作来执行包括以下各项的操作：使用一个或多个图像分析神经网络308识别给定视频帧中的一个或多个特征(操作562)；以及使用音频神经网络312基于一个或多个识别的特征和一个或多个基线音频轨道412生成多通道音频对象(操作562)。

在一个方面中，一种非暂时性计算机可读介质包括计算机可执行指令，当由计算机执行时，该指令使得计算机执行包括以下各项的操作：使用一个或多个图像分析神经网络308识别给定视频帧中的一个或多个特征(操作562)；以及使用音频神经网络312基于一个或多个识别的特征和一个或多个基线音频轨道412生成多通道音频对象(操作562)。

本发明的一个或多个实施例或其元件可以以装置的形式实现，该装置包括存储器和至少一个处理器，该处理器耦合到该存储器并且可操作来执行示例性方法步骤。图6描绘了可用于实现本发明的一个或多个方面和/或元素的计算机系统，其也代表了根据本发明实施例的云计算节点。现在参考图6，云计算节点10仅仅是合适的云计算节点的一个示例，并且不旨在对本文描述的本发明的实施例的使用范围或功能提出任何限制。无论如何，云计算节点10能够被实现和/或执行上文阐述的任何功能。

云计算节点10具有计算机系统/服务器12，其可与众多其它通用或专用计算系统环境或配置一起操作。众所周知，适于与计算机系统/服务器12一起操作的计算系统、环境和/或配置的例子包括但不限于：个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统﹑大型计算机系统和包括上述任意系统的分布式云计算技术环境，等等。

计算机系统/服务器12可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常，程序模块可以包括执行特定的任务或者实现特定的抽象数据类型的例程、程序、目标程序、组件、逻辑、数据结构等。计算机系统/服务器12可以在通过通信网络链接的远程处理设备执行任务的分布式云计算环境中实施。在分布式云计算环境中，程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。

如图6所示，云计算节点10中的计算机系统/服务器12以通用计算设备的形式表现。计算机系统/服务器12的组件可以包括但不限于：一个或者多个处理器或者处理单元16，系统存储器28，连接不同系统组件(包括系统存储器28和处理单元16)的总线18。

总线18表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线，微通道体系结构(MAC)总线，增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。

计算机系统/服务器12典型地包括多种计算机系统可读介质。这些介质可以是能够被计算机系统-/服务器12访问的任意可获得的介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

系统存储器28可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(RAM)30和/或高速缓存存储器32。计算机系统/服务器12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统34可以用于读写不可移动的、非易失性磁介质(图1未显示，通常称为“硬盘驱动器”)。尽管图中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM，DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块42的程序/实用工具40，可以存储在存储器28中，这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。

计算机系统/服务器12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信，还可与一个或者多个使得用户能与该计算机系统/服务器12交互的设备通信，和/或与使得该计算机系统/服务器12能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且，计算机系统/服务器12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器20通过总线18与计算机系统/服务器12的其它模块通信。应当明白，尽管图中未示出，其它硬件和/或软件模块可以与计算机系统/服务器12一起操作，包括但不限于：微代码、设备驱动器、冗余处理单元、以及外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

因此，一个或多个实施例可以利用运行在通用计算机或工作站上的软件。参考图6，这种实现可以采用例如处理器16、存储器28和到显示器24和(多个)外部设备14(诸如键盘、定点设备等)的输入/输出接口22。如本文中所使用的，术语“处理器”旨在包括任何处理设备，诸如例如包括CPU(中央处理单元)和/或其他形式的处理电路的设备。此外，术语“处理器”可以指不止一个单独的处理器。术语“存储器”旨在包括与处理器或CPU相关联的存储器，诸如例如RAM(随机存取存储器)30、ROM(只读存储器)、固定存储器设备(例如硬盘驱动器34)、可移动存储设备(例如软盘)、闪存等。此外，本文使用的短语“输入/输出接口”旨在设想到例如用于向处理单元(例如，鼠标)输入数据的一个或多个机制，以及用于提供与处理单元(例如，打印机)相关联的结果的一个或多个机制的接口。处理器16、存储器28和输入/输出接口22可以例如经由作为数据处理单元12的一部分的总线18互连。合适的互连，例如经由总线18，也可以提供给网络接口20，诸如可以提供与计算机网络的接口的网卡，以及提供给介质接口，诸如可以提供与合适的介质的接口的磁盘或光盘驱动器。

因此，如本文所述，包括用于执行本发明方法的指令或代码的计算机软件可以存储在相关联的存储器设备(例如，ROM、固定或可移动存储器)的一个或多个中，并且当准备使用时，被部分或全部加载(例如，加载到RAM中)并由CPU来实现。这种软件可以包括但不限于固件、常驻软件、微代码等。

适于存储和/或执行程序代码的数据处理系统将包括通过系统总线18直接或间接耦合到存储元件28的至少一个处理器16。存储器元件可以包括在程序代码的实际实现期间使用的本地存储器、大容量存储装置和高速缓存存储器32，高速缓存存储器32提供至少一些程序代码的临时存储，以便减少在实现期间必须从大容量存储器检索代码的次数。

输入/输出或I/O设备(包括但不限于键盘、显示器、定点设备等)可以直接或通过中间的I/O控制器耦合到系统。

网络适配器20也可以耦合到系统，以使数据处理系统能够通过中间的私有或公共网络耦合到其他数据处理系统或远程打印机或存储设备。调制解调器、电缆调制解调器和以太网卡只是几种目前可用的网络适配器。

如本文使用的，包括权利要求，“服务器”包括运行服务器程序的物理数据处理系统(例如，如图6所示的系统12)。应当理解，这种物理服务器可以包括也可以不包括显示器和键盘。

一个或多个实施例可以至少部分地在云或虚拟机环境的上下文中实现，尽管这是示例性的而非限制性的。返回参考图1-2和所附文本。

应该注意的是，本文描述的任何方法可以包括提供一种系统的附加步骤，该系统包括包含在计算机可读存储介质上的不同软件模块；模块可以包括例如框图中描述的和/或本文描述的任何或所有适当的元件；作为示例而非限制，所描述的任何一个、一些或所有模块/块和/或子模块/子块。然后可以使用如上所述的系统的不同软件模块和/或子模块在一个或多个硬件处理器(诸如16)上执行来执行方法步骤。此外，计算机程序产品可以包括具有代码的计算机可读存储介质，该代码被适配为被实现来执行本文描述的一个或多个方法步骤，包括为系统提供不同的软件模块。

在一些情况下可以使用的用户界面的一个示例是由服务器等提供给用户的计算设备的浏览器的超文本标记语言(HTML)代码。用户计算设备上的浏览器解析该HTML以创建图形用户界面(GUI)。

示例性系统和制品细节

在任何可能的技术细节结合层面，本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、集成电路配置数据或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本发明的各个方面。

这里参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种方法，包括：

使用一个或多个图像分析神经网络识别给定视频帧中的一个或多个特征；和

使用音频神经网络，基于一个或多个识别的特征和一个或多个基线音频轨道生成多通道音频对象。

2.根据权利要求1所述的方法，还包括使用生成模型在从第一通道到第二通道的过渡期间生成合成音频对象。

3.根据权利要求2所述的方法，其中所述生成模型是生成对抗网络和可变自动编码器之一。

4.根据权利要求1所述的方法，还包括基于一个或多个训练视频帧和一个或多个对应的训练特征来训练每个图像分析神经网络。

5.根据权利要求1所述的方法，还包括基于从一个或多个训练视频帧、一个或多个对应的多通道音频轨道以及一个或多个基线音频轨道中提取的一个或多个训练特征来训练所述音频神经网络。

6.根据权利要求5所述的方法，还包括对所述多通道音频轨道进行下采样，以生成所述基线音频轨道。

7.根据权利要求1所述的方法，还包括识别所述给定视频帧中的一个或多个对象，一个或多个识别被提供作为所述音频神经网络的输入。

8.一种装置，包括：

存储器；和

至少一个处理器，其耦合到所述存储器，并且可操作来执行根据权利要求1至7中任一项所述的操作。

9.一种计算机系统，包括用于执行根据权利要求1至7中任一项所述的方法的步骤的模型。

10.一种计算机程序产品，具有计算机可读程序代码，所述计算机可读程序代码可由一个或多个计算机处理器执行，以执行根据权利要求1至7中任一项所述的操作。