CN105989845B

CN105989845B - 视频内容协助的音频对象提取

Info

Publication number: CN105989845B
Application number: CN201510087313.XA
Authority: CN
Inventors: 陈连武; 孙学京; 芦烈
Original assignee: Dolby Laboratories Licensing Corp
Current assignee: Dolby Laboratories Licensing Corp
Priority date: 2015-02-25
Filing date: 2015-02-25
Publication date: 2020-12-08
Anticipated expiration: 2035-02-25
Also published as: US10200804B2; EP3262640A1; US20180054689A1; JP6518334B2; EP3262640B1; CN105989845A; WO2016138168A1; JP2018511974A

Abstract

本发明的实施例涉及视频内容协助的音频对象提取。公开了一种从基于声道的音频内容中提取音频对象的方法。该方法包括从与基于声道的音频内容相关联的视频内容中提取至少一个视频对象，并且确定与至少一个视频对象有关的信息。该方法进一步包括基于所确定的信息，从基于声道的音频内容中提取音频对象，该音频对象要被呈现为上混音音频信号。还公开了相应的系统和计算机程序产品。

Description

视频内容协助的音频对象提取

技术领域

本发明的实施例总体上涉及音频内容处理，并且更具体地，涉及视频内容协助的音频对象提取的方法和系统。

背景技术

传统上，音频内容以基于声道(channel based)的格式被创建和存储。在此使用的术语“音频声道”或“声道”是指通常具有预定义物理位置的音频内容。例如，立体声、环绕5.1、环绕7.1等都是用于音频内容的基于声道的格式。近来，随着多媒体工业的发展，三维(3D)音频内容在影院和家庭中都变得越来越流行。为了创建更具沉浸感的声场以及准确地控制离散的音频元素而无需受制于特定的回放扬声器配置，很多传统的播放系统需要被扩展为支持一种新型音频格式，这种格式包括音频声道和音频对象(audio object)二者。

在此使用的术语“音频对象”是指在声场中存在特定持续时间的个体音频元素。一个音频对象可以是动态的也可以是静态的。例如，音频对象可以是在声场中充当声源的人、动物或者任何其他物体。可选地，音频对象还可以具有关联的元数据，诸如用于描述对象的位置、速度、大小等方面的信息。音频对象的使用使得音频内容具有很高的沉浸感的听觉体验，并且允许混音师等操作者方便地控制和调整音频对象。在传输期间，音频对象和声道可以被分开发送，继而由重现系统动态使用，以基于回放扬声器的配置来自适应地重建创作意图(artistic intention)。作为示例，在被称为“自适应音频内容”(adaptive audiocontent)或者“上混音音频信号”(upmixed audio signal)的格式中，可以存在一个或多个音频对象以及一个或多个“静态环境声”(audio bed)。在此使用的术语“静态环境声”或简称“环境声”是指将在预定义的固定位置被回放的声音的音频声道。

一般而言，基于对象的音频内容以明显不同于基于声道的传统音频内容的方式被生成。尽管基于对象的新型格式允许在音频对象的辅助下创建更具沉浸感的听觉体验，但是在影音产业中(例如在声音的创建、分发和使用的产业链中)占据主导地位的仍然是基于声道的音频格式，特别是最后混音的音频格式。因此，对于传统基于声道的音频内容，为了能够为终端用户提供音频对象所提供的类似沉浸体验，需要从传统的基于声道的内容中提取音频对象。

发明内容

为了解决上述问题和其他潜在的问题，本发明提出一种从基于声道的音频内容中提取音频对象的方法和系统。

在一个方面，本发明的实施例提供一种从基于声道的音频内容中提取音频对象的方法。该方法包括从与基于声道的音频内容相关联的视频内容中提取至少一个视频对象，并且确定与至少一个视频对象有关的信息。该方法进一步包括基于所确定的信息，从基于声道的音频内容中提取音频对象，该音频对象要被呈现为上混音音频信号。这方面的实施例还包括相应的计算机程序产品。

在另一方面，本发明的实施例提供一种从基于声道的音频内容中提取音频对象的系统。该系统包括视频对象提取单元，被配置为从与基于声道的音频内容相关联的视频内容中提取至少一个视频对象，以及信息确定单元，被配置为确定与至少一个视频对象有关的信息。该系统进一步包括音频对象提取单元，被配置为基于所确定的信息，从基于声道的音频内容中提取音频对象，该音频对象要被呈现为上混音音频信号。

通过下文描述将会理解，根据本发明的实施例，首先从与基于声道的音频内容相对准的视频内容中提取视频对象，并且然后与视频对象有关的信息被用于从基于声道的音频内容中提取音频对象。所提取的音频对象能够被用于呈现为上混音音频信号。利用补充的基于视频对象的信息的协助，音频对象提取的性能能够得到提升。本发明的实施例所带来的其他益处将通过下文描述而清楚。

附图说明

通过参考附图阅读下文的详细描述，本发明实施例的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例而非限制性的方式示出了本发明的若干实施例，其中：

图1示出了根据本发明的一个示例实施例的视频内容协助地从音频内容中提取音频对象的框架的框图；

图2示出了根据本发明的一个示例实施例的视频内容协助地从音频内容中提取音频对象的方法的流程图；

图3示出了根据本发明的一个示例实施例的图1的框架中的基于视频对象的信息提取器的框图；

图4示出了根据本发明的一个示例实施例的一般性的空间视听环境的示意图；

图5示意性示出了根据本发明的一个示例实施例的图3的基于视频对象的信息提取器中的音频模板生成器的框图；

图6示出了根据本发明的另一个示例实施例的视频内容协助地从音频内容中提取音频对象的框架的框图；

图7示出了根据本发明的一个示例实施例的视频内容协助地从音频内容中提取音频对象的系统的框图；以及

图8示出了适于实现本发明的示例实施例的示例计算机系统的框图。

在各个附图中，相同或对应的标号表示相同或对应的部分。

具体实施方式

下面将参考附图中示出的若干示例实施例来描述本发明的原理。应当理解，描述这些实施例仅仅是为了使本领域技术人员能够更好地理解进而实现本发明，而并非以任何方式限制本发明的范围。

如以上所提及的，期望从传统的基于声道格式的音频内容中提取音频对象。由于在音频混音的过程中，音频混音师常常将不同的声音源混合到与视频内容对准的基于声道的音频内容中，视频内容可以用于协助音频对象提取，例如通过视频内容中的补充的对象信息。另一方面，尽管各种音频对象一起被混合在一个维度的音频内容信号中，对应的可视对象(视频对象)在二维的视频内容信号中可能是分离的。因此，分离的视频对象的信息可以被用于提高在音频对象提取系统中的经过混音的音频对象的提取。此外，通过基于视频对象的信息来提取音频对象可以进一步提高听觉体验，因为已经证明了音频和视频内容的紧密对准可以创建更具沉浸感的听觉体验，而音频和视频内容之间的不对准可能导致听众的某种混淆。

有鉴于此，本发明的实施例提出了用于视频内容协助地从音频内容中提取音频对象的技术方案。图1中示出了根据本发明的一个示例实施例的视频内容协助地从音频内容中提取音频对象的框架100。与基于声道的音频内容对准的视频内容在基于视频对象的信息提取器101中被处理以获得基于视频对象的信息。该信息可以被用作音频对象提取的协助信息并且然后被提供至音频对象提取器102。音频对象提取器102根据基于视频对象的信息来对输入的音频内容应用音频对象提取。在音频对象提取的过程中，可以从音频内容中提取一个或多个音频对象，并且音频内容中除了音频对象信号之外的其余音频可以被视作残留信号。而且，还可以由音频对象提取器102根据基于视频对象的信息来估计与所提取的音频对象相关联的元数据。通过使用音频对象元数据，所提取的音频对象然后与残留信号一起可以被用于呈现为上混音音频信号。在呈现时，残留信号可以被呈现为静态环境声。在所提出的解决方案中，基于视频对象的信息可用于提高音频对象提取的性能。

现在参照图2，其示出了根据本发明的一个示例实施例的视频内容协助地从音频内容中提取音频对象的方法200的流程图。输入的音频内容可以具有基于多个声道或单个声道的格式。例如，输入的音频内容可以符合单声道、立体声、环绕5.1、环绕7.1等。输入的音频内容还可以与对应的视频内容相关联。也就是说，音频内容与视频内容相对准。例如，音频内容和视频内容可以被包括在多媒体内容中。通过分离该多媒体内容，可以获得音频内容以及对应的视频内容。

在S201，从与基于声道的音频内容相关联的视频内容中提取至少一个视频对象。

由于视频内容与基于声道的音频内容相对准，包含在视频内容中的视频对象也可以与音频内容中的音频对象相对准。视频对象可以是在视频帧中存在特定持续时间的对象。例如，在视频帧中存在的直升机可以是视频对象。与从视频内容中提取的视频对象有关的信息可以用于协助针对每一帧或者针对每个时间戳的音频对象提取。

为了确定基于视频对象的信息，可以首先处理视频内容以提取视频对象。视频内容可以以视频帧为单位。在一个实施例中，可以从视频内容的视频帧中提取视频对象。注意到，可以从视频帧中提取多于一个的视频对象，并且要被处理的视频帧的数量可以是一个或多个。本发明的范围在此方面不受限制。

期望仅提取发出声音的视频对象，这可能导致处理的复杂度。此外，从视频内容中提取具有精确边界的所有视频对象可能也是具有挑战性的。在本发明的实施例中，为了协助音频对象提取而不明显增加处理的复杂度的目的，视频对象提取可以是较不精确的。也就是说，对于视频对象提取的精度没有严格的要求。例如，在视频帧的图像中具有类似颜色或纹理的区域可以被粗略地认为是视频对象。已经存在用于视频对象划分/追踪目的的各种技术和算法。在一个示例中，视频对象提取可以主要基于对象的空间一致性。基于空间一致性的视频对象提取的示例过程可以具有以下步骤：

●使用形态滤波器来简单化视频帧的图像，以便减少后续处理的噪声分布；

●对图像应用分水岭算法以便决定区域边界，并且将一个或多个区域合并在一起以避免可能的过度分割；

●通过某个运动估计方法、诸如最陡下降或分层块匹配的方法，计算每个区域的运动矢量；以及

●将具有相似运动的区域合并在一起，以形成视频对象区域，并且估计每个视频对象的运动矢量。

注意到，存在许多其他视频对象提取的方法，并且本发明的范围在此方面不受限制。

在S202，确定与至少一个视频对象有关的信息。

该信息(也被称为基于视频对象的信息)可以指示与所提取的视频对象有关的信息。基于视频对象的信息可以通过分析所提取的视频对象来确定，并且可以包括以下各项中的一项或多项：视频对象的位置、音频模板、尺寸以及数量。位置信息可以指示所提取的视频对象在听觉环境中的位置，在该听觉环境中，与该视频对象相对应的音频对象可以被呈现。音频模板可以指示基于所提取的视频对象的类型而从音频模板数据库中选择的预定义的音频。所提取的视频对象的数量也可以用于音频对象提取。基于视频对象的信息可以包括与视频对象有关的其他信息，诸如视频对象的类型、视频对象在时间上的运动等，并且本发明的范围在此方面不受限制。基于视频对象的信息的确定将在以下详细描述。

参照图3，示出了根据本发明的一个实施例的基于视频对象的信息提取器101的框图。通过处理输入的视频内容，基于视频对象的信息提取器101可以输出基于视频对象的信息。具体地，被包括在基于视频对象的信息提取器101中的视频对象提取器301可以对输入的视频内容执行视频对象提取，以获得一个或多个视频对象。所提取的视频对象然后可以被提供至对应的基于视频对象的信息处理单元。如图3所示出的，被包括在基于视频对象的信息提取器101中的位置信息估计器302可以用于估计视频对象的位置信息。音频模板生成器303可以用于生成视频对象的音频模板。尺寸信息估计器304可以估计视频对象的尺寸信息，并且视频对象数量估计器305可以用于确定所提取的(多个)视频对象的数量。注意到，基于视频对象的信息处理单元302-305仅被示出为示例。基于视频对象的信息提取器101可以包括比这些处理单元302-305更多或更少的处理单元。

一些其他示例实施例中，基于视频对象的信息可以通过许多其它的方式来确定，例如通过用户输入。在一些示例中，在具有或不具有视频对象提取的情况下，可以由用户配置被包含在视频内容中的视频对象的数量、每个视频对象的类型、尺寸或者甚至每个视频对象的音频模板。

方法200行进至S203，其中基于所确定的信息，从基于声道的音频内容中提取要被呈现为上混音音频信号的音频对象。

在音频对象提取时，可以从音频内容中提取一个或多个音频对象。音频内容中除了音频对象信号之外的其余音频可以被认为是残留信号。所提取的音频对象可以用于在后续处理中与残留信号一起被呈现为上混音音频信号。

根据本发明的实施例，为了提高音频对象提取的性能，例如，为了增加所提取的音频对象信号的精确度，可以利用基于视频对象的信息来协助音频对象提取。可以以多种方式来根据基于视频对象的信息提高音频对象提取。例如，取决于视频对象提取的精确水平以及所提取的视频对象与音频对象的对准置信度，该信息可以是特定于对象的，或者可以不是特定于对象的。如果该信息不是特定于对象的(诸如，视频对象的数量)，可以应用一些一般性的方法，诸如调谐音频对象提取的积极度(aggressiveness)，以改进音频对象提取。在一些其他情况下，如果可获得特定于对象的信息(诸如，被认为对应于一个音频对象的特定视频对象的位置)，可以应用更加具体的方法，例如通过将该视频对象的位置用作在音频对象提取中该音频对象的参考位置。

以下将更详细描述具有基于视频对象的信息协助的音频对象提取。

在下文中，将描述一些类型的基于视频对象的信息的确定。

位置信息估计

可以在图3中示出的位置信息估计器302中执行位置信息估计。

在估计视频对象在视频帧中的位置时，可以确定视频对象在视频帧的图像中的二维(2D)位置和深度。基于所提取的视频对象在视频帧的图像中的区域，可以在视频场景中估计二维位置和深度(X_v，Z_v，D_v)的信息。在此，(X_v，Z_v)表示视频对象在图像中的2D位置，并且D_v表示视频对象的深度。

在一个示例中，视频帧的图像的左下角的位置可以被定义为(X_v＝0，Z_v＝0)，并且图像的右上角的位置可以被定义为(X_v＝1，Z_v＝1)。视频对象的2D位置(X_v，Z_v)然后可以被确定为视频对象区域在视频帧的图像中的质心位置。

可以使用若干深度估计算法来获得视频对象深度。对于2D视频内容，可以基于例如纹理梯度、视频的图像结构等来估计对象深度信息。对于三维(3D)视频内容，在利用了深度映射的某些格式中已经可获得视频对象深度。对于不具有深度信息的3D视频格式，与用于2D视频内容的深度估计类似的方法可以用于重构3D视频内容的深度。

为了利用视频对象位置来协助后续的音频对象提取，2D位置和深度(X_v，Z_v，D_v)的信息可以被映射到听觉环境的3D空间中，以获得视频对象的3D位置信息(x_v，y_v，z_v)。3D空间可以是音频场景，诸如所提取的音频对象要在其中被呈现的3D空间听觉环境。位置信息(x_v，y_v)可以指示视频对象在视频内容将被显示的屏幕平面中的位置。典型的示例是在前方墙壁上具有屏幕的电影室或剧院，其中视频对象可以被显示在2D屏幕上，并且听觉环境是具有环绕扬声器的3D房间。3D空间听觉环境可以被简单化为具有边长等于1的正方形房间，并且屏幕在y＝0的前方墙壁上，该正方形房间如图4所示。在一个实施例中，2D位置和深度(X_v，Z_v，D_v)可以通过映射函数f_V→A()而被映射到3D空间中的位置，这被表示为如下：

(x_v，y_v，z_v)＝f_V→A(X_v，Z_v，D_v) (1)

其中映射函数可以基于各种使用情况而被定义，例如基于听者在正方形房间中的物理位置。在一些实施例中，针对相应的坐标轴的映射函数还可以是不同的。

在一个示例中，假设听者坐在房间的中间，位置是(x，y，z)＝(0.5，0.5，0)，可以利用以下映射函数将视频对象映射到房间的前半部分(x_v∈[0，1]，y_v∈[0，0.5]，z_v∈[0，1])：

x_v＝f_x(X_v，Z_v，D_v)＝X_v

y_v＝f_y(X_v，Z_v，D_v)＝f_D→y(D_v) (2)

z_v＝f_z(X_v，Z_v，D_v)＝Z_v

其中视频对象在视频场景中的X坐标和Y坐标等于在音频场景中的x坐标和z坐标，并且视频对象的深度通过映射函数f_D→y()被映射到音频场景中的y坐标。在一些情况下，随着深度D_v的增加，听者与视频对象之间的距离也增加，并且视频对象在3D听觉环境中的y_v数值更小。例如，如果视频对象的深度是零，y_v可以是0.5。从听者在房间中的位置来看，视频对象是接近的。随着深度的数值增加，y_v可以减少到零。视频对象远离听者。因此，可以使用随着深度的增加而单调地减小并且将深度映射到y_v∈[0，0.5]的任何函数。f_D→y()的一个简单示例在以下被给出：

其中f_D→y()是具有参数a_D和b_D的S函数(sigmoid function)。典型地，参数a_D可以是正的，因此y_v随着深度的增加而单调地减小。

在以上描述中，描述了将视频对象在视频场景中的位置映射到音频场景的一个示例。注意到，可以使用许多其他的映射函数，只要在3D空间中的位置取决于X_v、Z_v、D_v中的一个或多个的数值。对于每个提取的视频对象，可以据此估计各自的位置信息。

音频模板生成

可以在图3中示出的音频模板生成器303中执行音频模板生成。

在多媒体内容创建阶段，具体地在电影工厂中，许多音频源可能来自音频对象模板数据库。例如，当音频混音师想要将直升机的声音添加到针对视频场景中的直升机的多声道音频中时，可以从音频对象模板数据库中选择直升机音频对象之一，并且然后将其混音到多声道内容中。因此，视频对象的预定义的音频模板可以被用作音频对象提取期间的参考信号，从而提高音频对象提取的性能。

通常来说，音频混音师可以基于视频对象的类型来选择视频对象的音频模板。例如，对于直升机，对应的直升机声音可能被混音，并且对于机动车辆，对应的轰鸣声可能被混音。因此，为了标识视频对象的音频模板，在一些实施例中，所提取的视频对象可以与预定义的视频模板相比较，以标识视频对象的类型(诸如直升机、鸟、狗、汽车等)。预定义的视频模板可以来自视频对象模板数据库。可以应用视频对象识别技术来标识视频对象的类型。然后，基于视频对象的类型，可以从预定义的音频模板中确定视频对象的音频模板。具体地，可以通过从音频对象模板数据库中搜索具有特定类型的音频对象，来获得音频模板。注意到，对于每个提取的视频对象，可以据此确定各自的音频模板。在一些情况下，所提取的音频对象中的一些音频对象可能不对应于任何音频模板。

图5中示出了根据本发明的一个实施例的音频模板生成器303的框图。被包括在音频模板生成器303中的视频对象识别器501可以通过使用视频对象识别技术，将输入的视频对象与视频对象模板数据库502中的视频对象模板进行比较，从而标识输入的视频对象的类型。视频对象识别器501然后可以将所标识的对象类型提供至音频模板选择器503。基于对象类型，音频模板选择器503可以针对输入的视频对象对应的音频模板而搜索音频对象模板数据库504。

尺寸信息估计

可以在图3中示出的尺寸信息估计器304中执行尺寸信息估计。

可以通过视频对象区域在视频帧的图像中的尺寸来估计视频对象的尺寸。在一些实施例中，可以首先确定视频对象在视频帧的图像中的面积，并且然后基于视频对象的面积来确定视频对象的尺寸信息。注意到，对于每个提取的视频对象，可以据此确定各自的尺寸信息。例如，可以使用映射函数来将视频对象在图像中的面积映射到视频对象的尺寸。视频对象的尺寸可以与对象面积的尺寸正相关，其可以被表示为如下：

其中

表示视频对象区域在图像中的尺寸，size_v表示视频对象的尺寸，并且f_sizeV()表示单调增加函数。

视频对象数量估计

可以在图3中示出的视频对象数量估计器305中执行视频对象数量估计。

基于视频对象提取的结果，可以据此获得所提取的视频对象的数量(也被称为视频对象数量)N_v。在一个实施例中，视频对象数量可以等于视频对象区域的数量。在一些其他实施例中，表示沉默对象的对象区域可以不被计数为视频对象，诸如建筑物、桌子、书本等等。

在下文中，将描述具有基于视频对象的信息协助的音频对象提取。如以上所提及的，基于(多个)视频对象的信息、诸如视频对象的位置信息、尺寸信息、音频模板或(多个)视频对象的数量，可以被用作音频对象提取中的补充信息。

在一些实施例中，可以在音频对象提取中利用(多个)视频对象的位置。

在多声道音频内容创建阶段，内容创建者(音频混音师)可以基于音频对象的位置/方向而将音频对象平移(pan)至多个声道。在多数多声道音频对象提取方法中，音频对象的平移位置/方向是正确提取音频对象的关键。因此，根据视频内容估计的位置信息可以被用作音频对象提取期间的参考音频对象位置。当获得多个视频对象的位置时，所获得的位置中的一些或所有可以被用在音频对象提取中。

例如，在音频对象提取中使用的典型模型可以被表示为：

X＝AS+b (5)

其中X表示音频内容信号(所观察到的混音信号)，S表示要被提取的音频对象信号，A表示混音矩阵(平移矩阵)，该混音矩阵包含用于将音频对象平移到音频内容信号的平移增益，并且b表示包含环境音和残留噪声的残留信号。

在盲音频对象提取方法、诸如独立成分分析(independent component analysis，ICA)或非负矩阵分解(non-negative matrix factorization，NMF)中，给定所观察到的混音信号，可以通过最小化成本函数来联合地估计音频对象信号以及混音矩阵。在许多情况下，混音矩阵的适当初始化是避免结果落入局部最优而不是全局最优的关键。

因此，如果位置信息被用作音频对象提取中的参考音频对象位置，在一个实施例中，可以基于所提取的(多个)视频对象的位置信息来确定音频对象提取的混音矩阵。然后可以基于混音矩阵来从音频内容中提取音频对象。在一个示例中，位置信息可以被用来初始化混音矩阵。在另一个示例中，可以基于位置信息来确定混音矩阵的一部分或全部。

由于视频对象的位置信息表示相对准的音频对象在其中要被呈现的3D听觉环境中的位置，而混音矩阵表示音频对象到多个声道的平移增益，因此位置信息可以被映射到混音矩阵中的平移增益。

具有视频对象的位置信息的协助，盲音频对象提取可以变成半监督的音频对象提取，并且因为混音矩阵被视频对象位置更好地初始化，所以可以获得更好的提取结果。

在一些实施例中，可以在音频对象提取中利用(多个)视频对象的音频模板。

如以上所讨论的，音频混音师可以针对所提取的视频对象的类型，从音频对象模板数据库中选择音频模板。因此，在一个实施例中，视频对象的音频模板可以被用来确定用于音频对象提取的公式(5)中示出的模型中的音频对象信号。视频对象的音频模板可以被确定为音频对象参考信号。然后，可以基于音频对象参考信号来从音频内容中提取音频对象。当获得多个视频对象的音频模板时，这些音频模板中的一个或全部音频模板可以在音频对象提取中被使用。

在典型的相关度分析的实施例中，基于由视频对象的音频模板所表示的音频对象参考信号，可以从音频内容中提取与该参考信号高度相关的音频信号。所提取的音频信号可以被视作与视频对象相对应的音频对象。

如以上所描述的，在盲音频对象提取中，应当联合地估计音频对象信号S和混音矩阵A。在半监督的音频对象提取的另一个实施例中，由视频对象的音频模板表示的音频对象参考信号可以被用作音频对象信号S的一部分或者全部，或者被用来初始化音频对象信号S。因此，由于通过音频模板来更好地初始化或确定音频对象信号，可以获得更好的提取结果。

当利用视频对象的音频模板时，由于在视频对象的音频模板与音频内容中的音频对象之间可能存在一些时间尺度的差异，可以使用一些动态的对准方法、诸如动态时间规整(Dynamic Time Warping)来将音频模板与混音的多声道音频内容相对准。

在一些其他实施例中，可以在音频对象提取中利用所提取的视频对象的数量。

在音频内容中，音频对象的数量可能随着时间变化，这意味着在一些情况下可能存在许多音频对象，而在一些情况下可能不存在音频对象或者仅存在若干音频对象。因此，为了更好地从音频内容中提取音频对象，可能需要与视频对象的数量有关的信息来改变音频对象提取的积极度或者要被提取的音频对象的数量。尽管存在仅基于音频内容来自动地估计音频对象数量的一些算法，但是基于视频内容来估计音频对象数量可能对于改善音频对象提取而言更有价值，特别是对于被混音在音频内容中的音频对象在视频内容中完全分离的情况而言。

在一个实施例中，要被提取的音频对象的数量是音频对象提取的输入参数。该数量可以基于所提取的视频对象的数量来确定。例如，要被提取的音频对象的数量可以与所提取的视频对象的数量正相关。在其中视频对象与音频对象相对准是高度置信的一些实施例中，视频对象的数量可以被直接地用作要被提取的音频对象的数量。

在一些实施例中，视频对象数量可以用来修改音频对象提取的积极度。也就是说，如果存在较少的视频对象，音频对象提取可以是更保守的，并且如果存在许多视频对象，那么音频对象提取将是更积极的。如以上所讨论的，在音频对象提取中，可以提取音频对象以及残留信号。在这些实施例中，视频对象的数量可以被用来修改所提取的音频对象的部分和残留信号的部分。首先可以基于视频对象的数量来确定用于音频对象提取的增益，并且然后可以在音频对象提取之后使用该增益来修改所提取的音频对象信号。

该增益可以被应用于所提取的音频对象，以修改音频对象信号的部分，并且该增益可以基于视频对象数量来确定，其可以被表示为：

g＝f_g(N_v) (6)

其中N_v表示视频对象数量，f_g()表示将视频对象数量映射到增益g的单调增加函数。该增益可以在0到1的范围中。因此，如果存在许多视频对象，音频对象提取可以较有积极性，增益接近于1。如果存在较少的视频对象，音频对象提取可以是保守的，增益接近于0。

注意到，也可以备选地基于视频对象数量来确定被应用于残留信号的增益。在这种情况下，增益可以随着视频对象数量的增加而单调地减小。

图6示出了根据本发明的一个示例实施例的用于视频内容协助地从音频内容中提取音频对象的扩展框架200的框图。框架200可以基于图1中示出的框架100。基于视频对象的信息提取器101可以从视频内容中提取视频对象数量，以协助音频对象提取。增益计算器103通过映射函数来基于视频对象数量计算用于音频对象提取的增益g。音频对象提取器102可以处理输入的音频内容并且从音频内容中分离音频对象和残留部分。所确定的增益g可以在音频对象修改器104中被应用到音频对象信号。基于增益g，由音频对象修改器104输出的所提取的音频对象的一部分可以被认为是相应的音频对象。剩余部分可以被增加到来自音频对象提取器102的残留部分中，以被认为是残留信号。

在一些其他实施例中，在音频对象提取期间，还可以从音频内容中确定所提取的音频对象的元数据。元数据可以包括与所提取的音频对象有关的信息，诸如描述音频对象的位置、速度和尺寸的信息。

由于音频混音师可能总是基于视频内容而将多个音频对象混音在一起，视频对象的信息与音频对象的实际混音元数据之间存在相关性。因此，在一些其他实施例中，基于视频对象的信息、诸如视频对象的位置信息、尺寸信息、视频对象数量、音频模板、类型等可以协助音频对象提取期间的元数据估计。基于视频对象的信息可以用于修改在音频对象提取时获得的元数据，以便提高所提取的元数据的准确度。

由于元数据与相应的所提取的音频对象相关联，并且协助的信息(基于视频对象的信息)是从相应的视频对象获得的，为了在元数据估计时更好地利用基于视频对象的信息，可以首先创建音频对象与视频对象之间的对准。为了避免使用不对准的视频对象的信息，可以从所提取的视频对象和音频对象中确定具有高的对准置信度的视频和音频对象的配对。假设存在N个提取的视频对象和M个提取的音频对象，可以获得具有高的对准置信度的视频和音频对象的K(K≤N并且K≤M)个配对。可以通过视频对象与音频对象之间的相关度/相干度来衡量对准置信度。在一个实施例中，可以计算音频对象与相应的视频对象之间的相关度。可以基于所计算的相关度来确定与音频对象相对准的视频对象。例如，可以在所有提取的视频对象中确定与一个音频对象具有最高的相关度的视频对象。可以基于所对准的视频对象的信息，诸如位置信息、尺寸信息和音频模板，来修改该音频对象的元数据。

在一些实施例中，视频对象与音频对象之间的相关度可以基于视频对象的位置信息与音频对象的元数据中的位置信息之间的距离。音频对象的元数据中的位置信息可以仅根据音频内容来估计。如果视频对象的位置的改变与音频对象的元数据中的位置信息的改变一致，那么该视频对象与该音频对象具有高的相关度。在一个示例中，相关度与视频对象与音频对象之间的距离负相关，这可以被表示为：

C_av＝f_dist→cor(dist(p_a，p_v)) (7)

其中C_av表示视频对象与音频对象之间的相关度，dist(p_a，p_v)表示视频对象的位置与仅根据音频内容而估计的音频对象的位置之间的距离，并且f_dist→cor()表示单调减小函数。

备选地或附加地，视频对象与音频对象之间的相关度可以基于视频对象的音频模板与音频对象之间的相似度。在一个示例中，相关度和视频对象的音频模板与音频对象之间的相似度是正相关的，其可以被表示为：

C_av＝f_sim→cor(sim(s_a，s_v)) (8)

其中C_av表示视频对象与音频对象之间的相关度，sim(s_a，s_v)表示视频对象的音频模板与音频对象之间的相似度，并且f_sim→cor()表示单调增加函数。

在一些实施例中，可以基于所对准的视频对象的位置来修改所提取的音频对象的位置。

元数据中的音频对象的位置可以用于音频对象的后续呈现。在一些实施例中，音频对象的位置可以包括音频内容的2D扬声器布局平面、诸如地平面中的2D位置(x_a，y_a)。音频对象的位置还可以包括高度信息(z_a)。该位置然后可以被表示在音频对象被呈现的3D空间中。

音频对象的2D位置(x_a，y_a)可以基于视频对象的2D位置(x_v，y_v)来修改。在一个示例中，音频对象位置和视频对象位置可以被如下地线性组合：

x_a′＝ax_a+(1-α)x_v

y_a′＝ay_a+(1-α)y_v (9)

其中x_a和y_a表示仅根据音频内容确定的音频对象的x坐标和y坐标位置，x_v和y_v表示视频对象的x坐标和y坐标位置，x_a′和y_a′表示音频对象的经过修改的x坐标和y坐标位置，并且α表示线性组合的参数，其可以在0到1的范围中。

为了后续创建3D音频对象，通常需要音频对象的高度z_a。然而，对于常规的多声道音频对象内容(环绕5.1、环绕7.1等)，所有的声道处于同一平面并且不具有高度信息。在这种情况下，应当通过其他信息来估计高度信息，诸如通过音频对象的2D位置、音频对象的类型等。基于音频对象的2D位置来估计高度的一个典型示例如以下所示：

z_a＝f_autoZ(x_a，y_a) (10)

其中音频对象的高度信息z_a基于音频对象的2D位置(x_a，y_a)来计算，并且f_autoZ()表示将2D位置自动地映射到高度位置的映射函数，诸如半球(hemisphere)函数。然而，由于在所提取的音频对象中不存在高度信息，所计算的高度估计可能是粗略的。

为了改善高度估计，可以利用基于视频对象的信息，因为视频对象的高度更加直观。在一个实施例中，可以基于仅根据音频内容估计的音频对象的2D位置和视频对象的3D位置来确定音频对象高度的具有视频对象协助的估计，其可以被表示为：

z_a′＝f′_autoZ(x_a，y_a，x_v，y_v，z_v) (11)

其中f′_autoZ()表示基于音频对象的2D音频对象位置(x_a，y_a)和3D视频对象位置(x_v，y_v，z_v)来计算音频对象的高度信息z_a′的映射函数。

在一些示例中，音频对象的高度可以与视频对象的高度成正相关，其可以被表示为：

z_a′＝f″_autoZ(z_v) (12)

其中f″_autoZ()表示将视频对象的高度z_v映射到音频对象的高度z_a′的映射函数。在一个简单的示例中，音频对象的高度z_a′可以等于z_v。

备选地或附加地，还可以利用视频对象类型来估计音频对象高度。例如，如果所对准的视频对象是直升机，音频对象的高度可以被设置为预定义的数值。

在一些实施例中，由于所提取的音频对象可以被上混音到各种播放系统，诸如扬声器和耳机，在元数据估计时估计音频对象的尺寸有利于提高听觉体验。例如，如果音频对象不是点源，那么可以确定该音频对象的尺寸。在后续的呈现时，可以基于尺寸信息来呈现音频对象。因此，在一个实施例中，可以基于对准的视频对象的尺寸信息来修改所提取的音频对象的尺寸。

由于视频对象的尺寸信息可以基于视频对象的区域而轻松地估计，并且视频对象尺寸与音频对象尺寸之间可能存在相关性，可以通过利用视频对象尺寸来确定音频对象尺寸。在一个实施例中，音频对象尺寸可以与视频对象尺寸成正相关，其可以被表示为：

size_a＝f_sizeA(size_v) (13)

其中size_a表示音频对象的尺寸，size_v表示与音频对象对准的视频对象的尺寸，并且f_sizeA()表示单调增加函数。

在以上描述中，描述了不同类型的基于视频对象的信息的确定和利用的实施例。应当注意到，在协助音频对象提取时，这些实施例可以被单独地采用或者被组合在一起。还应当知道，仅描述了基于视频对象的信息的一些示例以及它们的应用，并且还可以获得许多其他类型的基于视频对象的信息以及其他的应用方法。

图7示出了根据本发明的一个示例实施例的视频内容协助地从音频内容中提取音频对象的系统700的框图。如所示出的，系统700包括视频对象提取单元701，被配置为从与基于声道的音频内容相关联的视频内容中提取至少一个视频对象。系统700还包括信息确定单元702，被配置为确定与至少一个视频对象有关的信息。系统700进一步包括音频对象提取单元703，被配置为基于所确定的信息，从基于声道的音频内容中提取音频对象，该音频对象要被呈现为上混音音频信号。。

在一些实施例中，信息确定单元702可以包括以下各项中的至少一项：位置确定单元，被配置为确定至少一个视频对象的位置，音频模板确定单元，被配置为确定至少一个视频对象的音频模板，尺寸确定单元，被配置为确定至少一个视频对象的尺寸，以及视频对象数量确定单元，被配置为确定至少一个视频对象的数量。

在一些实施例中，位置确定单元可以进一步被配置为确定至少一个视频对象在视频内容的视频帧中的二维位置和深度；以及将二维位置和深度映射至听觉环境的三维空间中，以获得至少一个视频对象的位置。

在一些实施例中，音频对象提取单元703可以进一步被配置为基于至少一个视频对象的位置，确定用于音频对象提取的混音矩阵，以及基于混音矩阵，从基于声道的音频内容中提取音频对象。

在一些实施例中，音频模板确定单元可以进一步被配置为标识至少一个视频对象的类型，以及基于至少一个视频对象的类型，从预定义的音频模板中确定至少一个视频对象的音频模板。

在一些实施例中，音频对象提取单元703可以进一步被配置为基于至少一个视频对象的音频模板，确定音频对象参考信号，以及基于音频对象参考信号，从基于声道的音频内容中提取音频对象。

在一些实施例中，该信息可以包括至少一个视频对象的数量，并且音频对象提取单元703可以进一步被配置为基于至少一个视频对象的数量，确定要被提取的音频对象的数量，以及基于要被提取的音频对象的数量，从基于声道的音频内容中提取音频对象。

在一些实施例中，该信息可以包括至少一个视频对象的数量，并且音频对象提取单元703可以进一步被配置为基于至少一个视频对象的数量，确定用于音频对象提取的增益，以及基于增益修改所提取的音频对象。

在一些实施例中，系统700可以进一步包括元数据确定单元，被配置为从基于声道的音频内容中确定音频对象的元数据，以及元数据修改单元，被配置为基于所确定的信息修改音频对象的元数据。

在一些实施例中，该元数据可以包括音频对象的位置。在这些实施例中，元数据修改单元可以进一步被配置为基于视频对象与音频对象之间的相关度，确定与音频对象对准的视频对象，以及基于所对准的视频对象的位置，修改音频对象的位置。

在一些实施例中，该元数据可以包括音频对象的尺寸。在这些实施例中，元数据修改单元可以进一步被配置为基于视频对象与音频对象之间的相关度，确定与音频对象对准的视频对象；以及基于所对准的视频对象的尺寸，修改音频对象的尺寸。

在这些实施例中，视频对象与音频对象之间的相关度基于以下各项中的至少一项：视频对象的位置与在音频对象的元数据中的音频对象的位置之间的距离，以及视频对象的音频模板与音频对象之间的相似度。

为清晰起见，在图7中没有示出系统700的某些可选部件。然而，应当理解，上文参考图1-图6所描述的各个特征同样适用于系统700。而且，系统700中的各部件可以是硬件模块，也可以是软件单元模块。例如，在某些实施例中，系统700可以部分或者全部利用软件和/或固件来实现，例如被实现为包含在计算机可读介质上的计算机程序产品。备选地或附加地，系统700可以部分或者全部基于硬件来实现，例如被实现为集成电路(IC)、专用集成电路(ASIC)、片上系统(SOC)、现场可编程门阵列(FPGA)等。本发明的范围在此方面不受限制。

下面参考图8，其示出了适于用来实现本发明实施例的计算机系统800的示意性框图。如图8所示，计算机系统800包括中央处理单元(CPU)801，其可以根据存储在只读存储器(ROM)802中的程序或者从存储部分808加载到随机访问存储器(RAM)803中的程序而执行各种适当的动作和处理。如所需要的，在RAM 803中，还存储有CPU 801执行各种过程等的数据。CPU 801、ROM 802以及RAM803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。

以下部件连接至I/O接口805：包括键盘、鼠标等的输入部分806；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分807；包括硬盘等的存储部分808；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分809。通信部分809经由诸如因特网的网络执行通信处理。驱动器810也根据需要连接至I/O接口805。可拆卸介质811，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器810上，以便于从其上读出的计算机程序根据需要被安装入存储部分808。

特别地，根据本发明的实施例，上文参考图1-图7描述的过程可以被实现为计算机软件程序。例如，本发明的实施例包括一种计算机程序产品，其包括有形地包含在机器可读介质上的计算机程序，该计算机程序产品被有形地存储在非瞬态计算机可读介质上并且包括机器可执行指令，该机器可执行指令在被执行时使得该机器执行方法200的步骤。在这样的实施例中，该计算机程序可以通过通信部分809从网络上被下载和安装，和/或从可拆卸介质811被安装。

一般而言，本发明的各种示例实施例可以在硬件或专用电路、软件、逻辑，或其任何组合中实施。某些方面可以在硬件中实施，而其他方面可以在可以由控制器、微处理器或其他计算设备执行的固件或软件中实施。当本发明的实施例的各方面被图示或描述为框图、流程图或使用某些其他图形表示时，将理解此处描述的方框、装置、系统、技术或方法可以作为非限制性的示例在硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其他计算设备，或其某些组合中实施。

而且，流程图中的各框可以被看作是方法步骤，和/或计算机程序代码的操作生成的操作，和/或理解为执行相关功能的多个耦合的逻辑电路元件。例如，本发明的实施例包括计算机程序产品，该计算机程序产品包括有形地实现在机器可读介质上的计算机程序，该计算机程序包含被配置为实现上文描述方法的程序代码。

在公开的上下文内，机器可读介质可以是包含或存储用于或有关于指令执行系统、装置或设备的程序的任何有形介质。机器可读介质可以是机器可读信号介质或机器可读存储介质。机器可读介质可以包括但不限于电子的、磁的、光学的、电磁的、红外的或半导体系统、装置或设备，或其任意合适的组合。机器可读存储介质的更详细示例包括带有一根或多根导线的电气连接、便携式计算机磁盘、硬盘、随机存储存取器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪存)、光存储设备、磁存储设备，或其任意合适的组合。

用于实现本发明的方法的计算机程序代码可以用一种或多种编程语言编写。这些计算机程序代码可以提供给通用计算机、专用计算机或其他可编程的数据处理装置的处理器，使得程序代码在被计算机或其他可编程的数据处理装置执行的时候，引起在流程图和/或框图中规定的功能/操作被实施。程序代码可以完全在计算机上、部分在计算机上、作为独立的软件包、部分在计算机上且部分在远程计算机上或完全在远程计算机或服务器上执行。

另外，尽管操作以特定顺序被描绘，但这并不应该理解为要求此类操作以示出的特定顺序或以相继顺序完成，或者执行所有图示的操作以获取期望结果。在某些情况下，多任务或并行处理会是有益的。同样地，尽管上述讨论包含了某些特定的实施细节，但这并不应解释为限制任何发明或权利要求的范围，而应解释为对可以针对特定发明的特定实施例的描述。本说明书中在分开的实施例的上下文中描述的某些特征也可以整合实施在单个实施例中。相反地，在单个实施例的上下文中描述的各种特征也可以分离地在多个实施例或在任意合适的子组合中实施。

针对前述本发明的示例实施例的各种修改、改变将在连同附图查看前述描述时对相关技术领域的技术人员变得明显。任何及所有修改将仍落入非限制的和本发明的示例实施例范围。此外，前述说明书和附图存在启发的益处，涉及本发明的这些实施例的技术领域的技术人员将会想到此处阐明的本发明的其他实施例。

由此，本发明可以通过在此描述的任何形式来实现。例如，以下的枚举示例实施例(EEE)描述了本发明的某些方面的某些结构、特征和功能。

EEE 1.一种视频内容协助的音频对象提取的方法，包括：从视频内容中提取基于视频对象的信息，视频对象协助地从音频内容中提取音频对象，并且视频对象协助地估计音频对象元数据。

EEE 2.根据EEE 1所述的方法，提取基于视频对象的信息包括：提取视频对象，估计视频对象位置，生成音频模板，估计视频对象尺寸，以及估计视频对象数量。

EEE 3.根据EEE 2所述的方法，估计视频对象位置包括：估计在视频场景中的视频对象位置，以及将视频对象位置映射到3D空间。

EEE 4.根据EEE 3所述的方法，视频对象的深度和3D空间中听众与视频对象之间的距离成正相关。

EEE 5.根据EEE 2所述的方法，生成音频模板包括：基于视频对象识别技术来估计视频对象的类型，以及通过使用所估计的视频对象类型来从音频对象模板数据库中搜索音频模板。

EEE 6.根据EEE 1所述的方法，视频对象协助地提取音频对象包括：利用视频对象数量，利用视频对象的位置，和/或利用视频对象的音频模板。

EEE 7.根据EEE 6所述的方法，利用视频对象数量来调谐音频对象提取的积极度，并且视频对象越多，音频对象提取的积极度越大。

EEE 8.根据EEE 7所述的方法，视频对象数量与所提取的音频对象的要被传送通过的部分成正相关。

EEE 9.根据EEE 7所述的方法，视频对象数量与要被提取的音频对象的数量成正相关。

EEE 10.根据EEE 6所述的方法，利用视频对象位置来初始化音频对象提取算法的混音矩阵。

EEE 11.根据EEE 6所述的方法，将视频对象的音频模板初始化为参考信号，以提取与该参考信号高度相关的音频对象信号。

EEE 12.根据EEE 6所述的方法，利用视频对象的音频模板来初始化音频对象提取算法的音频对象信号。

EEE 13.根据EEE 1所述的方法，视频对象协助地估计音频对象元数据包括：对准视频对象与音频对象，并且基于对准的视频对象的信息来提高音频对象元数据估计。

EEE 14.根据EEE 13所述的方法，视频对象与音频对象的对准基于视频对象与音频对象之间的相关度/相干度。

EEE 15.根据EEE 14所述的方法，视频对象与音频对象之间的相关度/相干度通过以下来衡量：随着时间的视频对象位置与音频对象位置之间的相关度/相干度，和/或音频对象与视频对象的音频模板之间的相关度/相干度。

EEE 16.根据EEE 13所述的方法，提高音频对象元数据估计包括：估计元数据中的音频对象的2D位置，估计元数据中的音频对象的高度，以及估计元数据中的音频对象的尺寸。

EEE 17.根据EEE 16所述的方法，基于2D视频对象位置来修改音频对象的2D位置。也就是说，所估计的音频对象的2D位置朝向2D视频对象位置而偏移。

EEE 18.根据EEE 16所述的方法，基于3D视频对象位置和2D音频对象位置来联合地估计音频对象的高度。视频对象越高，音频对象也越高。

EEE 19.根据EEE 16所述的方法，基于视频对象类型来估计音频对象的高度。对于可能具有对应的高度信息的视频对象类型，相关的音频对象可以具有预定义的高度数值。

EEE 20.根据EEE 16所述的方法，音频对象的尺寸与视频对象的尺寸成正相关。

将会理解，本法明的实施例不限于公开的特定实施例，并且修改和其他实施例都应包含于所附的权利要求范围内。尽管此处使用了特定的术语，但是它们仅在通用和描述的意义上使用，而并不用于限制目的。

Claims

1.一种从基于声道的音频内容中提取音频对象的方法，包括：

从与所述基于声道的音频内容相关联的视频内容中提取至少一个视频对象；

确定与所述至少一个视频对象有关的信息，所述信息至少包括所述至少一个视频对象的位置；以及

基于所确定的信息，从所述基于声道的音频内容中提取音频对象，所述音频对象要被呈现为上混音音频信号，所述提取至少包括基于所述至少一个视频对象的所述位置来确定用于音频对象提取的混音矩阵，并且基于所述混音矩阵，从所述基于声道的音频内容中提取所述音频对象。

2.根据权利要求1所述的方法，其中所述确定与所述至少一个视频对象有关的信息还包括以下各项中的至少一项：

确定所述至少一个视频对象的音频模板；

确定所述至少一个视频对象的尺寸；以及

确定所述至少一个视频对象的数量。

3.根据权利要求1所述的方法，其中确定所述至少一个视频对象的位置包括：

确定所述至少一个视频对象在所述视频内容的视频帧中的二维位置和深度；以及

将所述二维位置和所述深度映射至听觉环境的三维空间中，以获得所述至少一个视频对象的所述位置。

4.根据权利要求2所述的方法，其中所述确定所述至少一个视频对象的音频模板包括：

标识所述至少一个视频对象的类型；以及

基于所述至少一个视频对象的所述类型，从预定义的音频模板中确定所述至少一个视频对象的所述音频模板。

5.根据权利要求2或4所述的方法，其中所述基于所确定的信息从所述基于声道的音频内容中提取音频对象还包括：

基于所述至少一个视频对象的所述音频模板，确定音频对象参考信号；以及

基于所述音频对象参考信号，从所述基于声道的音频内容中提取所述音频对象。

6.根据权利要求2所述的方法，其中所述信息包括所述至少一个视频对象的所述数量，并且其中所述基于所确定的信息从所述基于声道的音频内容中提取音频对象还包括：

基于所述至少一个视频对象的所述数量，确定要被提取的音频对象的数量；以及

基于要被提取的音频对象的所述数量，从所述基于声道的音频内容中提取所述音频对象。

7.根据权利要求2所述的方法，其中所述信息包括所述至少一个视频对象的所述数量，并且其中所述基于所确定的信息从所述基于声道的音频内容中提取音频对象进一步包括：

基于所述至少一个视频对象的所述数量，确定用于音频对象提取的增益；以及

基于所述增益修改所提取的音频对象。

8.根据权利要求2所述的方法，进一步包括：

从所述基于声道的音频内容中确定所述音频对象的元数据；以及

基于所确定的信息修改所述音频对象的所述元数据。

9.根据权利要求8所述的方法，其中所述元数据包括所述音频对象的位置，并且其中所述基于所确定的信息修改所述音频对象的所述元数据包括：

基于视频对象与音频对象之间的相关度，确定与所述音频对象对准的视频对象；以及

基于所对准的视频对象的所述位置，修改所述音频对象的所述位置。

10.根据权利要求8所述的方法，其中所述元数据包括所述音频对象的尺寸，并且其中所述基于所确定的信息修改所述音频对象的所述元数据包括：

基于所对准的视频对象的所述尺寸，修改所述音频对象的所述尺寸。

11.根据权利要求9或10所述的方法，其中视频对象与音频对象之间的所述相关度基于以下各项中的至少一项：

所述视频对象的所述位置与在所述音频对象的所述元数据中的所述音频对象的位置之间的距离，以及

所述视频对象的所述音频模板与所述音频对象之间的相似度。

12.一种从基于声道的音频内容中提取音频对象的系统，包括：

视频对象提取单元，被配置为从与所述基于声道的音频内容相关联的视频内容中提取至少一个视频对象；

信息确定单元，被配置为确定与所述至少一个视频对象有关的信息，所述信息确定单元至少包括位置确定单元，所述位置确定单元被配置为确定所述至少一个视频对象的位置；以及

音频对象提取单元，被配置为基于所确定的信息，从所述基于声道的音频内容中提取音频对象，所述音频对象要被呈现为上混音音频信号，所述提取至少包括基于所述至少一个视频对象的所述位置来确定用于音频对象提取的混音矩阵，并且基于所述混音矩阵，从所述基于声道的音频内容中提取所述音频对象。

13.根据权利要求12所述的系统，其中所述信息确定单元还包括以下各项中的至少一项：

音频模板确定单元，被配置为确定所述至少一个视频对象的音频模板；

尺寸确定单元，被配置为确定所述至少一个视频对象的尺寸；以及

视频对象数量确定单元，被配置为确定所述至少一个视频对象的数量。

14.根据权利要求12所述的系统，其中所述位置确定单元进一步被配置为：

15.根据权利要求13所述的系统，其中所述音频模板确定单元进一步被配置为：

标识所述至少一个视频对象的类型；以及

16.根据权利要求13或15所述的系统，其中所述音频对象提取单元进一步被配置为：

17.根据权利要求13所述的系统，其中所述信息包括所述至少一个视频对象的所述数量，并且其中所述音频对象提取单元进一步被配置为：

18.根据权利要求13所述的系统，其中所述信息包括所述至少一个视频对象的所述数量，并且其中音频对象提取单元进一步被配置为：

基于所述增益修改所提取的音频对象。

19.根据权利要求13所述的系统，进一步包括：

元数据确定单元，被配置为从所述基于声道的音频内容中确定所述音频对象的元数据；以及

元数据修改单元，被配置为基于所确定的信息修改所述音频对象的所述元数据。

20.根据权利要求19所述的系统，其中所述元数据包括所述音频对象的位置，并且其中所述元数据修改单元进一步被配置为：

21.根据权利要求19所述的系统，其中所述元数据包括所述音频对象的尺寸，并且其中所述元数据修改单元进一步被配置为：

22.根据权利要求20或21所述的系统，其中视频对象与音频对象之间的所述相关度基于以下各项中的至少一项：

23.一种从基于声道的音频内容中提取音频对象的计算机程序产品，所述计算机程序产品被有形地存储在非瞬态计算机可读介质上并且包括机器可执行指令，所述机器可执行指令在被执行时使得所述机器执行根据权利要求1至11中任一项所述的方法的步骤。