CN107113526A

CN107113526A - 从音频内容基于投影提取音频对象

Info

Publication number: CN107113526A
Application number: CN201580070126.9A
Authority: CN
Inventors: 胡明清; 芦烈; 陈联武
Original assignee: Dolby Laboratories Licensing Corp
Current assignee: Dolby Laboratories Licensing Corp
Priority date: 2014-12-22
Filing date: 2015-12-18
Publication date: 2017-08-29
Anticipated expiration: 2035-12-18
Also published as: CN107113526B; US20170344852A1; EP3238465A1; JP2018503864A; JP6654195B2; EP3238465B1; WO2016106145A1; CN105898667A; HK1246551A1; US10275685B2

Abstract

公开了一种用于从音频内容中提取音频对象的方法。该方法包括标识第一投影空间集合，所述第一投影空间集合包括用于所述多个声道中的第一声道的第一子集和用于所述多个声道中的第二声道的第二子集。该方法可以进一步包括确定所述第一声道和所述第二声道之间的第一相关性集合，所述第一相关性集合中的每个相关性对应于所述第一投影空间子集中的一个投影空间和所述第二投影空间子集中的一个投影空间。另外，该方法可以包括至少部分地基于所述第一相关性集合中的第一相关性和来自所述第一子集的对应于所述第一相关性的投影空间来从所述第一声道的音频信号中提取音频对象，所述第一相关性大于第一预定义阈值。也公开了对应的系统和计算机程序产品。

Description

从音频内容基于投影提取音频对象

相关申请的交叉引用

本申请要求于2014年12月22日提交的中国优先权申请No.201410814937.9和于2015年1月27日提交的美国临时专利申请No.62/108,254的优先权，这两个申请通过引用被整体结合于此。

技术领域

本文公开的示例实施例总体涉及一种音频内容处理，并且更具体地，涉及一种用于从音频内容中提取音频对象的方法和系统。

背景技术

传统上，音频内容以基于声道的格式来创建和存储。在基于声道的格式中，音频内容一般由声道为媒介而被表示、存储、传递并且分布。如这里所用，术语“音频声道”或者“声道”指一般具有预定义物理位置的音频内容。例如，立体声、环绕5.1、环绕7.1等都是用于该音频内容的基于声道的格式。每个声道对应于固定位置的物理扬声器。当多声道内容被回放时，多个扬声器创建围绕听众的实时和沉浸式声场。近来，若干传统的多声道系统已经被扩展为支持新格式，该新格式包括声道和音频对象二者。如这里所用，术语“音频对象”或“对象”指在声场中存在定义的持续时间的个体音频元素。例如，音频对象可以表示对话、枪声、雷声等。这些对象一般由混音器用来创建它们所期望的音效。每个对象在声场中有其位置。例如，对话通常位于前方中央，而雷声一般从头顶发出。人们对对象的位置的感知是播放同一对象的音频信号的多个扬声器的对决(firing)结果。例如，当对象由左前方的扬声器和右前方的扬声器以相似能量级播放时，人们将感知到来自前方中央的幻象(phantom)。

如上所述，当以基于声道的格式创建内容时，通常意味着感知体验由混音器针对特定的回放设置来优化。然而，当由不同的回放设置播放时，其收听体验可能由于回放设置之间的失配而劣化。劣化的示例是对象的位置可能被改变。因而，基于声道的格式不足以适配各种扬声器回放配置。低效率的另一方面存在于双声道渲染中，其中基于声道的格式仅能够使用有限数目的特定于扬声器位置的头部关联传递函数(HRTF)；而对于其他位置，使用HRTF的插值，这劣化了双声道收听体验。

解决这一问题的潜在方法是从基于声道的表示中恢复原始的源(或者对象)，包括它们的位置和单声道干净的波形，并继而使用位置作为元数据来引导扬声器回放设备的平移(panning)算法，以实时重新渲染该对象并且创建与原始声音图像类似的声音图像。对于双声道渲染设置(代替使用有限数目的HRTF的是)，位置可以被用来选择最为合适的HRTF以进一步增强收听体验。

然而，处于基于声道的表示中的对象——该对象将用元数据来渲染——并不总是干净的。其可能同时混合有一些声道内的其他对象。例如，为了实现艺术家意图，混音器可能将两个对象同时放在收听者前方，一个对象表现为在中央和左前方之间，而另一个对象在中央和右前方之间的某一位置。这能使得中央前方声道包含两个对象。如果不使用源分离技术，则这两个对象将被视为一个对象，这将使得它们的位置估计不正确。

因此，为了得到干净的对象并且估计它的位置，需要源分离技术来将对象从其多声道混合中分离以产生干净的多声道或单声道表示。在上述示例中，例如期望单个多声道输入被源分离部件分割成两个多声道或单声道输出，每个仅包含一个干净的对象。

发明内容

为了解决前述和其他潜在问题，本文公开的示例实施例提出用于从音频内容提取音频对象的方法和系统。

在一个方面中，示例实施例提供一种用于从音频内容中提取音频对象的方法，所述音频内容由多个声道的音频信号表示。该方法包括标识第一投影空间集合，所述第一投影空间集合包括用于所述多个声道中的第一声道的第一子集和用于所述多个声道中的第二声道的第二子集。该方法进一步包括确定所述第一声道和所述第二道之间的第一相关性集合，所述第一相关性集合中的每个相关性对应于所述第一投影空间子集中的一个投影空间和所述第二投影空间子集中的一个投影空间。该方法还包括至少部分地基于所述第一相关性集合中的第一相关性和来自所述第一子集的对应于所述第一相关性的投影空间来从所述第一声道的音频信号中提取音频对象，所述第一相关性大于第一预定义阈值。实施例就此而言进一步包括对应的计算机程序产品。

在另一方面，示例实施例提供用于从音频内容中提取音频对象的系统，所述音频内容由多个声道的音频信号表示，所述系统包括：标识单元，被配置为标识第一投影空间集合，所述第一投影空间集合包括用于所述多个声道中的第一声道的第一子集和用于所述多个声道中的第二声道的第二子集。该系统进一步包括确定单元，被配置为确定所述第一声道和所述第二声道之间的第一相关性集合，所述第一相关性集合中的每个相关性对应于所述第一投影空间子集中的一个投影空间和所述第二投影空间子集中的一个投影空间。该系统还包括提取单元，被配置为至少部分地基于所述第一相关性集合中的第一相关性和来自所述第一子集的对应于所述第一相关性的投影空间来从所述第一声道的音频信号中提取音频对象，所述第一相关性大于第一预定义阈值。

通过下文描述，将理解根据本文公开的示例实施例，音频对象能够从基于多声道的音频内容的音频信号中的每个音频信号中被分离。以此方式，音频内容输入有可能适配于各种回放配置而不劣化收听体验。由示例实施例获得的其他优点将通过以下描述而变得清楚。

附图说明

通过参考附图的以下详细描述，示例实施例的上述和其他目标、特点和优点将变得更可理解。在附图中，若干示例实施例将以示例和非限制性的方式来阐述，其中：

图1图示了基于多个声道的格式的音频信号片段的示例；

图2图示了根据示例实施例的从音频内容提取音频对象的方法的流程图；

图3图示了根据示例实施例的从音频内容提取音频对象的系统300的框图；并且

图4图示了适合用于实现示例实施例的示例计算机系统的框图。

贯穿附图，相同或对应的附图标记指代相同或对应的部分。

具体实施方式

现在将参考附图中所图示的各种示例实施例来描述示例实施例的原理。应当理解，对这些实施例的描述仅用于使得本领域技术人员更好地理解并进一步实现示例实施例，而不是旨在以任何方式限制本文公开的示例实施例的范围。还应当理解术语“第一”、“第二”等被用于指示不同的对象，而不是表明针对该对象的顺序的任何限制。

如上所述，传统的基于声道的音频内容不足以适配各种回放设置。具体而言，当回放设置与混音器的配置失配时，由回放设置所表示的收听体验将被劣化。此外，用回放设置来表示该音频内容同时保留艺术家意图也对对象分离技术带来挑战。

因此，期待从基于声道的音频内容尽可能干净地提取音频对象。图1图示了基于多个声道的格式的音频信号的片段的示例。如图1所示，音频信号100的片段在时域和频域中表示。在由水平轴表示的时域中，音频信号100的片段可以包含沿时间轴T的若干帧。

一帧例如可以是从tl到t2的时间长度。为了便于后续在对象提取中的计算和处理，一帧音频信号可以沿时间轴被进一步划分成(在图1中由虚线示出)多个部分。另一方面，在由垂直轴表示的频域中，音频信号100的片段表示全频带信号，为了便于后续在对象提取中的计算和处理，该全频带信号也同样能够沿着频域被划分成多个子带。许多可用的频谱转换技术可以被应用于子带划分中，诸如快速傅里叶变换(FFT)或复杂正交镜像滤波器(CQMF)。考虑到人类听觉系统的特点，在频域中的划分可能不是均匀的，而是在低频部分更为精细，而在高频部分更为粗略。如图1所示，音频信号100与多个声道——例如，声道C1至C5——相关。换而言之，输入音频信号100包括多个音频信号成分，该多个音频信号成分中的每个音频信号成分对应于声道C1至C5之一。因此，本文中的音频内容可以是基于多个声道的全频带音频信号片段或子带音频信号片段。片段可以是但不限于一帧、一帧的一部分、两帧或更多。在一些示例实施例中，音频内容可以包括通过在频域和时域中的至少一个中划分全频带音频信号帧而获得的一个或多个音频块。根据示例实施例，如果期望对一个音频块(例如，块B1)执行对象提取，则其上方的相邻m个块和下方的相邻m个块也通常纳入考虑。在一些示例实施例中，m可以被设置为1。在这点上，块B0至B2被一起纳入考虑并且它们的整体构成将要处理的音频内容，该块B0至B2中的每一个基于声道C1至C5。

图2图示根据示例实施例的用于从音频内容中提取音频对象的方法200的流程图。如上所示，音频内容由多个声道的音频信号所表示。

如所示出的，在步骤S201标识出第一投影空间集合，该第一投影空间集合包括用于该多个声道中的第一声道的第一子集和用于该多个声道中的第二声道的第二子集。在一些示例实施例中，第一声道和第二声道可以是该多个声道中的任意声道；而在其他示例实施例中，它们可以基于一些标准进行选择，这将在后文中示出。

目前所知，声道的音频信号可以被投影到多个空间来获得相应分量。为了便于说明并且并非出于限制，假定针对音频内容的第一声道和第二声道的音频信号表示分别生成矩阵X∈R^d×n和Y∈R^k×n，其中d和k表示包含在各音频信号中的沿频率轴的子带划分的数目(通常d＝K)，并且n表示在音频信号中沿时间轴划分的部分的数目。也就是说，X和Y表示分别来自第一声道和第二声道的音频内容的音频信号。则投影向量ω_x和ω_y可以用来将X和Y投影到各投影空间，其中ω_x∈R^d且ω_y∈R^k。换而言之，和可以表示针对X和Y投影在各投影空间中的分量，其中和分别是ω_x和ω_y的转置。此外，对于多个ω_x，存在使用每个ω_x来投影X所获得的对应多个空间。为了容易区分并且并不作为限制，这些多个空间的集合被称为步骤S201中的用于第一声道的第一子集。类似地，对于多个ω_y，存在使用每个ω_y来投影Y所获得的对应多个空间。为了容易区分并且并不作为限制，这些多个空间的集合被称为步骤S201中的用于第二声道的第二子集。在一些示例中，第一子集和第二子集的合集构成了第一投影空间集合。

应当注意到的是，尽管第一投影空间集合一般包括用于第一声道和第二声道的多个投影空间，其也可以仅包括一个空间。在这种情况下，用于X的投影空间和用于Y的投影空间是同一投影空间。示例实施例的范围在这点上不受限制。

方法继而前进到步骤S202,其中确定该第一声道和该第二声道之间的第一相关性集合，并且该第一相关性集合中的每个相关性对应于所述第一投影空间子集中的一个投影空间和所述第二投影空间子集中的一个投影空间。

在包括第一投影空间子集和第二投影空间子集的第一投影空间集合被标识出之后，可以基于一些标准而分别从第一投影空间子集和第二投影空间子集中选择一对投影空间，以有助于对象提取。根据示例实施例，具体而言，假定X和Y二者中存在共同的对象、但被其他源或噪声所污染，期望找到用于X和Y的相应投影空间，其中更易于从X或Y中分离出共同的对象。

根据示例实施例，针对每对投影空间来计算相关性，由此形成了相关性集合(即，步骤S202的第一相关性集合)，其中该对投影空间中的一个投影空间选自第一子集，而该对投影空间中的另一投影空间选自第二子集。例如，X和Y之间关于ω_x和ω_y的相关性ρ可以如下计算：

其中，ω_x和ω_y的含义与前文所述保持相同，ω_x∈R^d且ω_y∈R^k。

继续参考图2,在步骤S203,至少部分地基于该第一相关性集合中的第一相关性和来自所述第一子集的对应于该第一相关性的投影空间来从该第一声道的音频信号中提取音频对象，其中该第一相关性大于第一预定义阈值。

根据示例实施例，第一预定义阈值可以根据需要在任何时间被设置和调整。在示例实施例中，第一预定义阈值可以被设置为仅小于第一相关性集合中的最大相关性而大于其他相关性。在这一情况下，步骤S203的目标是找出最大的ρ，从而进一步标识出ω_x和ω_y以用于对象提取。因此，在步骤S203中旨在：

使得

其中，X^T、Y^T、分别是X、Y、ω_x、ω_y的转置。

如果YY^T非奇异，则可以示出ω_x可以通过求解以下优化问题来获得：

使得

换而言之，上述公式尝试找到对应于以下广义的特征值问题的顶部特征值的特征向量：

XY^T(YY^T)^-1YX^Tω_x＝ηXX^Tω_x (4)

其中，η表示对应于特征向量ω_x的特征值。

如上所述，根据一些示例实施例，可能存在多个通常处于正交约束下的投影向量ω_x和ω_y，则这些多个投影向量可以通过求解以下优化问题来同时被计算：

使得

其中W_x∈R^d×l表示投影矩阵，l表示投影向量的数目，并且I表示单位矩阵。

总而言之，对于第一声道和第二声道的音频输入，确定W_x、W_y和它们之间对应的相关性R以便为对象提取作准备，其中并且或表示列向量，其可以被用作投影空间的基。R表示仅在其对角线具有非零元素(即，ρ)的相关性方阵。对于R中的第i个非零对角线元素ρ_i，其度量和之间的相似度得分。应当注意到，或表示n维向量，其中n是音频信号的片段内的部分的数目。因此，这一度量反映了基于音频块的音频内容的相似度。如上所述，通过将X和Y投影到它们各自的投影空间(在该空间中X和Y的分量示出其之间的高相关性)，可以观察到X和Y之间的较高相似度，并且因此可以提取X和Y之间的共同对象。

例如，对于第i个投影空间，可以经由以下公式从X恢复对象

继而，针对包含l个投影向量(对应于来自第一子集的l个投影空间)的W_x，可以按照如下备选公式来计算X^*:

X^*＝FX (8)

其中引入H来表示在其对角线具有非零元素、而其对角线之外的所有元素均为零的对角线加权矩阵。H的引入有利于区分投影向量对于恢复X^*的贡献。具体而言，对于特定的一对投影空间，X和Y越相似，H将越高。因此，可以从该特定的一对投影空间中分别提取更多的X和Y。

根据本文公开的示例实施例，一种用于确定H的对角线值的潜在的方法是根据相关性矩阵R来设置它们。如上所述，R的对角线元素反映被映射到由W(例如，Wx或Wy)的列向量构建的投影空间的一对声道之间的相似度。因此，更高的相似度得分指示相同的对象存在、并且能够从这些空间被恢复的更高可能性。因此，从具有高相似度得分的那些空间中提取“更多”对象是合理的，也就是说，H可以通过R的适当函数来表现，即：

H＝f(R) (9)

其中，函数f可以是任何其值不随输入值的增加而减少的函数。例如，H可以是归一化的R，其中对角线元素的总和等于1。

如上所述，第一声道和第二声道可以是该多个声道中的任意声道。也就是说，尽管在步骤S203中从第一声道的音频信号提取对象被示出为关于第二声道来执行，但其实质上可以相对于来自该多个声道的任何声道来执行。此外，尽管在步骤S203中描述为针对第一声道的音频信号提取音频对象，但类似的操作也可以应用于第二声道以便也针对第二声道的音频信号执行对象提取。也就是说，针对第二声道的音频信号的对象提取可以关于第一声道来执行，或者关于来自该多个声道的任何其他声道来执行，出于简要的目的不在此详述。示例实施例的范围在这点上不受限制。

备选地，在一些示例实施例中，第一声道和第二声道可以基于一些标准来选择。例如，这两个声道可以从一个声道群组中选择，该声道群组通过基于多个声道之间的相关性将该多个声道聚类而获得。在一些示例实施例中，本文中的该多个声道中的一对声道之间的相关性指该对声道之间的总体相关性。例如，该多个声道中的该对声道之间的这一相关性可以通过如下步骤来获得：

首先，标识出用于该对声道的第二投影空间集合，该第二投影空间集合包括用于该对声道中的一个声道的第三子集和用于该对声道中的另一声道的第四子集。作为示例，这一步骤可以以类似于步骤S201的方式来实现并且在此不再详述。应当注意，第二投影空间集合可以不同于第一投影空间集合，但在某些情况下它们也可以相同。

然后，确定该对声道之间的第二相关性集合，其中该第二相关性集合中的每个相关性对应于该第三投影空间子集中的一个投影空间和该第四投影空间子集中的一个投影空间。同样，这一步骤可以以类似于步骤S202的方式来实现。例如，对于分别从该对声道中的每一个声道的音频信号生成的矩阵X和Y，公式(1)被用于计算第二相关性集合中的每个相关性。此外，第一相关性集合和第二相关性集合对于不同对声道而言一般不同。

接下来，选择该第二相关性集合中的一个相关性作为该对声道之间的所述相关性，其中所选择的相关性大于第二预定义阈值。这一选择步骤可以以类似于步骤S203中对第一相关性的选择的方式来实现并且不在此详述。例如，其可以经由公式(2)-(5)来实现。第二预定义阈值也可以根据需要在任何时间被设置和调整。在示例实施例中，第二预定义阈值可以被设置为仅小于第二相关性集合中的最大相关性而大于其他相关性。在这一情况下，这一步骤将第二相关性集合中的最大相关性选择作为该对声道之间的相关性。

在计算该多个声道的相关性之后，根据一些示例实施例，相互之间具有大于预定义阈值的相关性的声道能够被聚类成一个群组。该预定义阈值可以被解读为各聚类之间所允许的最小相对相似度得分，并且可以在一段时间内被设置为一个恒定值。因而，被聚类到一个群组的声道示出高的组内相似度；而被聚类成不同群组的声道示出低组间相似度。因此，来自一个群组的声道的音频信号通常具有共同的对象，并且该共同对象的相关分量(即，步骤S203中的音频对象)可以经由步骤S201-S203针对每个声道而被提取，从而生成多声道对象，这将在后文详细阐述。在一些示例实施例中，声道群组的数目在聚类过程结束时自动地确定。应当注意，如果该多个声道中的各声道彼此相似，或者该多个声道中的每对声道之间的相关性均大于预定义阈值，则可以将该多个声道视为单个群组。

根据一些示例实现，基于该多个声道的相关性来聚类该多个声道可以通过以下步骤来实现：

·初始化(Initialization)：设置预定义阈值，计算按对相似度矩阵S，其中条目s_ij代表第i个声道和第j个声道之间的相似度，并且将每个声道初始化为一个聚类，即C₁,...,C_T，其中，T表示声道的数目。

·循环(Loop)：

о通过将每个聚类内的声道的按对相似度得分求平均来针对每个聚类计算聚类内相似度得分，也就是说，其中N_m表示第m个聚类的配对的数目。

о通过将分别存在于它们各自的聚类中的声道的按对相似度得分求平均来针对每对聚类计算绝对聚类间相似度得分，即其中N_mn表示第m个和第n个聚类之间配对的数目。

о通过将该绝对聚类间得分除以两个聚类内相似度得分的均值来针对每对聚类计算相对聚类间相似度得分，即，

о找出具有最大相对聚类间相似度得分的一对聚类。如果该最大得分小于预定义阈值，则结束该循环；否则，将这两个聚类合并成一个聚类。

·结束(End)

根据一些示例实施例，在第一声道属于包括三个或更多声道的群组的情况下，存在多个用于第二声道的候选。假设标识出包括q个声道[I₁,...,I_i-1,I_i,I_i+1,...,I_q]的声道群组。对于第I_i个声道，存在用于第I_i个声道的音频对象提取的q-1个候选W，也就是说，因此，需要用于从这些候选中选择W的标准。

如上所述，在一些示例实施例中，第二声道可以是其中的任意声道或随机声道。或者，在一些其他示例实施例中，从声道群组中选择第二声道可以被执行以使得第二声道的音频信号具有声道群组中的最大能量。换而言之，可以将最具支配性的声道选择作为第二声道。因此，对于第一声道的对象提取，以及对于该群组内的其他声道的对象提取都可以关于第二声道(即，最具支配性的声道)来执行。

如上所述，针对第二声道的音频信号的对象提取可以关于第一声道，或者关于来自该多个声道的任何其他声道来执行。作为备选，根据一些示例实施例并且不作为限制，在第二声道具有声道群组中的最大能量的情况下，有可能选择一个参考声道，而不是简单地选择第一声道来用于第二声道的音频信号的对象提取。例如，与第二声道的相关性大于第三预定义阈值的声道可以被选择作为参考声道。第三预定义阈值可以根据需要在任何时间被设置和调整。在示例实施例中，第三预定义阈值可以被设置为仅小于声道群组中的最大相关性而大于其他相关性。在这一情况下，与第二声道最为相关的声道被选择作为参考声道。并且方法200的步骤S201至S203可以被应用于第二声道和参考声道以用于第二声道的音频信号的音频对象提取。

在一些示例实施例中，如果选择第一声道以使得第一声道和第二声道之间的相关性大于第三预定义阈值，则在这一情况下第一声道就是参考声道。因此，可以至少部分地基于在方法200的步骤S203中获得的第一相关性和该第二子集中对应于该第一相关性的投影空间来从第二声道的音频信号中提取音频对象。

如上关于图2所图示的，可以在各种投影空间中针对每个声道提取音频对象。因此，在一些示例中，可以基于从来自一个声道群组的声道的音频信号中提取的音频对象来生成多声道对象。根据一些另外的实施方式，引入“软选通(soft-gating)”过程来验证和调整对象提取是有益的。

具体而言，引入“软选通”过程来减少在一些情况下对一类对象的回放偏离了对原始表示的忠实性的风险。为了进行“软选通”过程，例如可以如下确定增益向量g_b:

首先，至少部分地基于从第一声道和第二声道的音频信号中提取的音频对象来生成多声道对象。根据示例实施例，一般地，多声道对象可以基于从来自一个声道群组的声道的音频信号提取的音频对象来生成。

第二，所生成的多声道对象可以使用本领域任何已知的方法来被混缩(down-mix)成单声道表示(mono-representation)。接下来确定提取的对象的原始多声道表示和该单声道表示之间的混缩相似度。例如，混缩相似度可以如下计算：

其中，X_i(b,t)是第i个声道的表示，M_i(b,t)是混缩单声道表示，X_i(b,t)^*是X_i(b,t)的共轭，是复数的绝对值，并且Re()运算意味着实部。b和t分别代表子带索引和时间部分索引，即，频域和时域中的相应索引。单声道表示和原始声道表示之间的总体混缩相似度得分可以经由如下计算：

或者备选地经由如下来计算：

由混缩相似度s_b控制的增益值g_b，即可以如下表示：

应当理解，函数f(x)是x的单调增函数。f的定义的一个示例可以写成如下公式：

通过将a的值设置为负，f(x)变为x的单调增函数。

根据一些示例实施例，所计算的增益值可以被应用到公式(6)或(7)作为影响对X的对象提取的权重。也就是说，在步骤S203中从第一声道的音频信号中提取音频对象的过程中，以及从第一声道所属的声道群组中的任何其他声道的音频提取音频对象的过程中，经由公式(10)-(12)计算的混缩相似度也是除第一相关性或对应的投影空间之外还要被考虑的因子。换而言之，在步骤S203从第一声道的音频信号中提取音频对象还包括基于混缩相似度来提取该音频对象。因此，公式(6)可以变形为：

公式(7)可以变形为：

并且公式(8)可以变形为：

X^*＝F'X (17)

根据示例实施例，除由混缩相似度s_b控制的增益值之外或取而代之，增益向量g_b还可以由以下步骤确定：在至少部分地基于从第一声道的音频信号和第二声道的音频信号中提取的音频对象生成多声道对象之后，所生成的多声道对象被混缩成单声道表示。继而，该单声道表示可以至少部分地基于相关的元数据(诸如估计的位置)来预渲染以生成“新的”(即，不同于原始多声道对象的)多声道音频信号表示。随后，确定所提取的对象的原始多声道表示和预渲染的单声道表示(即，新的多声道音频信号表示)之间在能量分布方面的预渲染相似度。

在一些示例实现中，这一预渲染相似度有可能由原始多声道对象的能量分布和从该单声道对象的预渲染所得到的能量分布之间的失配来反映。也就是说，失配越大，预渲染相似度越小。因此，可以将测量该失配的适当度量设计如下：

或者备选地设计为：

其中和分别代表传统内容的归一化能量分布以及通过使用渲染器而从单声道对象连同所估计的元数据预渲染所得到的能量分布，并且b和i分别代表子带索引和声道索引，即，在频域和声道域内的相应索引。应当注意，用渲染器预渲染的声道配置与传统内容的声道配置相同。例如，对于环绕5.1传统内容，预渲染的声道配置也应当是环绕5.1。归一化能量分布可以经由以下公式来计算。

其中，代表用于第i个声道的第b个子带能量。

因此，由d_b控制的增益值g_b(即，)能够表示为：

其中，f(d_b)是d_b的单调减函数。

在一些示例实施例中，这一增益值也可以被应用于公式(6)或(7)作为影响对X的对象提取的权重。也就是说，在步骤S203从第一声道的音频信号提取音频对象的过程中(以及从第一声道所属的声道群组的任何其他声道的音频中提取音频对象的过程中)，反映预渲染相似度且经由公式(18)-(19)计算的该失配也是除第一相关性或对应的投影空间之外还需要考虑的因子；或者除第一相关性、对应的投影空间和混缩相似度之外还需要考虑的因子。也就是说，在步骤S203从第一声道的音频信号提取音频对象还包括基于预渲染相似度来提取音频对象。则公式(6)可以变形为：

或

公式(7)变形为：

或

并且公式(8)变形为

X^*＝F”X (26)

分别与混缩相似度和预渲染相似度相关联的增益向量和中至少一个的引入可以验证所提取的对象的回放是否偏离对原始表示的忠实性，以及所提取对象的回放是否保留了艺术家意图。该偏离(如果有的话)至少可以指示例如在单声道表示和原始多声道表示之间存在音色失配。因此，所变形的公式(15)、(17)、(22)、(23)和(26)可以通过引入因子或来减少偏离。

图3示出了根据一个示例实施例的从音频内容提取音频对象的系统300的框图。本文中音频内容由多个声道的音频信号表示。如上所述，系统300包括标识单元301，被配置为标识第一投影空间集合，所述第一投影空间集合包括用于所述多个声道中的第一声道的第一子集和用于所述多个声道中的第二声道的第二子集。系统300还包括确定单元302,被配置为确定所述第一声道和所述第二声道之间的第一相关性集合，所述第一相关性集合中的每个相关性对应于所述第一投影空间子集中的一个投影空间和所述第二投影空间子集中的一个投影空间。系统300也包括提取单元303,被配置为至少部分地基于所述第一相关性集合中的第一相关性和来自所述第一子集的对应于所述第一相关性的投影空间来从所述第一声道的音频信号中提取音频对象，所述第一相关性大于第一预定义阈值。

在一些实施例中，系统300可以进一步包括：选择单元，被配置为从一个声道群组中选择所述第一声道和所述第二声道，所述声道群组通过基于所述多个声道的相关性来对所述多个声道进行聚类而获得。

在一些实施例中，所述多个声道中的一对声道之间的相关性通过如下来获得：标识第二投影空间集合，所述第二投影空间集合包括用于所述一对声道中的一个声道的第三子集和用于所述一对声道中的另一声道的第四子集；确定所述一对声道之间的第二相关性集合，所述第二相关性集合中的每个相关性对应于所述第三投影空间子集中的一个投影空间和所述第三投影空间子集中的一个投影空间；以及选择所述第二相关性集合中的一个相关性作为所述一对声道之间的所述相关性，选择的所述相关性大于第二预定义阈值。

在一些实施例中，从所述声道群组中选择所述第一声道和所述第二声道包括：从所述声道群组中选择所述第二声道，使得所述第二声道的所述音频信号具有在所述声道群组中的最大能量。

在一些实施例中，从所述声道群组中选择所述第一声道和所述第二声道进一步包括：从所述声道群组中选择所述第一声道，使得所述第一声道和所述第二声道之间的所述相关性大于第三预定义阈值；以及至少部分地基于所述第一相关性和来自所述第二子集的对应于所述第一相关性的所述投影空间而从所述第二声道的音频信号中提取音频对象。

在一些实施例中，系统300进一步包括：生成单元，被配置为至少部分地基于从所述第一声道的音频信号和所述第二声道的音频信号中提取的所述音频对象来生成多声道对象；混缩单元，被配置为将生成的所述多声道对象混缩成单声道表示；以及相似度确定单元，被配置为确定提取的所述对象的原始多声道表示和所述单声道表示之间的混缩相似度，其中，从所述第一声道的所述音频信号中提取所述音频对象包括进一步基于所述混缩相似度来提取所述音频对象。

在一些备选实施例中，系统300可以进一步包括：生成单元，被配置为至少部分地基于从所述第一声道的音频信号和所述第二声道的音频信号中提取的所述音频对象来生成多声道对象；混缩单元，被配置为将生成的所述多声道对象混缩成单声道表示；预渲染单元，被配置为至少部分地基于估计的位置来预渲染所述单声道表示；以及相似度确定单元，被配置为确定提取的所述对象的原始多声道表示和预渲染的所述单声道表示之间在能量分布方面的预渲染相似度，其中，从所述第一声道的所述音频信号中提取所述音频对象包括进一步基于所述预渲染相似度来提取所述音频对象。

在一些实施例中，所述音频内容可以包括通过在频域和时域中的至少一个中划分全频带音频信号帧来获得的一个或多个音频块。

为了清楚的目的，系统300的一些可选部件并未在图3中示出。然而，应当理解参照图1-2所描述的特点都适用于系统300。此外，系统300的部件可以是硬件模块或软件单元模块。例如，在某些实施例中，系统300可以部分或者全部地作为软件和/或固件来实现，例如被实现为包含在计算机可读介质上的计算机程序产品。备选地或附加地，系统300可以部分或者全部地基于硬件来实现，例如被实现为集成电路(IC)、专用集成电路(ASIC)、片上系统(SOC)、现场可编程门阵列(FPGA)等。示例实施例的范围在此方面不受限制。

图4示出了适于用来实现示例实施例的示例计算机系统400的框图。如图4所示，计算机系统400包括中央处理单元(CPU)401，其可以根据存储在只读存储器(ROM)402中的程序或者从存储单元408加载到随机访问存储器(RAM)403中的程序而执行各种处理。在RAM403中，还根据需要存储有CPU 401执行各种处理等时所需的数据。CPU 401、ROM 402以及RAM 403通过总线404彼此相连。输入/输出(I/O)接口405也连接至总线404。

以下部件连接至I/O接口405：包括键盘、鼠标等的输入单元406；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出单元407；包括硬盘等的存储单元408；以及包括诸如LAN卡的网络接口卡、调制解调器等的通信单元409。通信单元409经由诸如因特网的网络执行通信处理。驱动器410也根据需要连接至I/O接口405。可拆卸介质411，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器410上，以便于从其上读出的计算机程序根据需要被安装入存储单元408。

特别地，根据示例实施例，上文参考图2描述的过程可以被实现为计算机软件程序。例如，示例实施例的实施例包括一种计算机程序产品，其包括有形地包含在机器可读介质上的计算机程序，所述计算机程序包含用于执行方法200的程序代码。在这样的实施例中，该计算机程序可以通过通信单元409从网络上被下载和安装，和/或从可拆卸介质411被安装。

一般而言，各种示例实施例可以在硬件或专用电路、软件、逻辑，或其任何组合中实施。某些方面可以在硬件中实施，而其他方面可以在可以由控制器、微处理器或其他计算设备执行的软件或固件中实施。当示例实施例的各方面被图示或描述为框图、流程图或使用某些其他图形表示时，将理解此处描述的方框、装置、系统、技术或方法可以作为非限制性的示例在硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其他计算设备，或其某些组合中实施。

而且，流程图中所示的各种框可以被看作是方法步骤，和/或计算机程序代码的操作生成的操作，和/或被构造为执行相关功能的多个耦合的逻辑电路元件。例如，实施例包括计算机程序产品，该计算机程序产品包括有形地实现在机器可读介质上的计算机程序，该计算机程序包含被配置为实现上文描述方法的程序代码。

在公开的上下文内，机器可读介质可以是包含或存储用于或有关于指令执行系统、装置或设备的程序的任何有形介质。机器可读介质可以是机器可读信号介质或机器可读存储介质。机器可读介质可以包括但不限于电子的、磁的、光学的、电磁的、红外的或半导体系统、装置或设备，或其任意合适的组合。机器可读存储介质的更详细示例包括带有一根或多根线的电连接、便携式计算机磁盘、硬盘、随机存储存取器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪存)、光纤、便携式光盘只读存储器(CD-ROM)、光存储设备、磁存储设备，或其任意合适的组合。

用于实现本文公开的示例实施例的方法的计算机程序代码可以用一种或多种编程语言的任何组合编写。这些计算机程序代码可以提供给通用计算机、专用计算机或其他可编程的数据处理装置的处理器，使得程序代码在被计算机或其他可编程的数据处理装置的处理器执行的时候，引起在流程图和/或框图中规定的功能/操作被实施。程序代码可以完全在计算机上、部分在计算机上、作为独立的软件包、部分在计算机上且部分在远程计算机上或完全在远程计算机或服务器上执行。

另外，尽管操作以特定顺序被描绘，但这并不应该理解为要求此类操作以示出的特定顺序或以相继顺序完成，或者执行所有图示的操作以获取期望结果。在某些情况下，多任务和并行处理会是有益的。同样地，尽管上述讨论包含了某些特定的实施细节，但这并不应解释为限制任何实施例或权利要求的范围，而应解释为对可以针对特定实施例的特征的描述。本说明书中在分开的实施例的上下文中描述的某些特征也可以整合实施在单个实施例中。相反地，在单个实施例的上下文中描述的各种特征也可以分离地在多个实施例或在任意合适的子组合中实施。

针对前述本文公开的示例实施例的各种修改、改变将在连同附图查看前述描述时对相关技术领域的技术人员变得清楚。任何及所有修改将仍落入非限制的和本文公开的示例实施例的范围。此外，前述说明书和附图存在启发的益处，涉及这些实施例的技术领域的技术人员将会想到此处阐明的其他实施例。

示例实施例可以通过在此描述的任何形式来实现。例如，以下的枚举示例实施例(EEE)描述了示例实施例的某些方面的某些结构、特征和功能。

EEE 1.一种用于从音频内容提取音频对象的方法，该音频内容为基于多个声道的格式，该方法包括：

通过从投影空间中导出的滤波器矩阵来提取对象；以及

可选地软选通以将附加的增益应用到所提取的对象或滤波器矩阵以保留艺术家意图。

EEE 2.根据EEE 1的方法，其中对于要执行对象提取的每个音频块，

针对每个声道输入生成投影向量，并且每对声道之间的最大相关性(相似度得分)通过将它们投影到投影空间来计算；

基于对应的相关性(相似度得分)来对声道分组；

对于群组内的每个声道，针对每个音频块导出滤波器矩阵；及

通过将每个声道的输入音频信号乘以其自身的滤波器矩阵来恢复对象；

其中该音频块通过在频域和时域中的至少一个中划分全频带音频信号帧而获得。

EEE 3.根据EEE 2的方法，其中该投影向量集合通过使用当前音频块和相邻音频块，基于块来形成。

EEE 4.根据EEE 3的方法，其中生成滤波器矩阵F包括选择W和H，其中对H的选择可以经由公式(9)来进行；并且

对W的选择包括标识出群组内的第二声道。

EEE 5.根据EEE 4的方法，其中对第二声道的标识基于声道能量，例如，选择群组中具有最大能量的声道。

EEE 6.根据EEE 4的方法，其中针对第一声道对W的选择是关于第二声道来选择投影向量集合。

EEE 7.根据EEE 4的方法，其中针对第二声道对W的选择是关于在该群组中示出与该第二声道具有最大相似度的声道来选择投影向量集合。

EEE 8.根据EEE 1的方法，其中该软选通步骤包括针对每个音频块生成增益向量；并且该增益向量以按块方式乘以音频信号输入来产生输出。

EEE 9.根据EEE 8的方法，其中该增益向量被计算为分别生成自预混缩操作和预渲染操作的两个子增益向量的乘积，即公式(22)。

EEE 10.根据EEE 9的方法，其中来自预混缩操作的该子增益向量可以通过公式(10)～(13)来计算。

EEE 11.根据EEE 9的方法，其中来自预渲染操作的该子增益向量可以通过公式(17)～(20)来计算。

EEE 12.一种用于从音频内容提取音频对象的系统，该音频内容为基于多个声道的格式，该系统包括被配置为执行EEE 1至11中任意方法的单元。

EEE 13.一种用于从音频内容提取音频对象的计算机程序产品，计算机程序产品有形地存储在非瞬态计算机可读介质上并且包括机器可执行指令，该机器可执行指令在执行时使得该机器执行EEE 1至11中任意方法的步骤。

将会理解，本文公开的示例实施例不限于公开的特定实施例，并且修改和其他实施例都应包含于所附的权利要求范围内。尽管此处使用了特定的术语，但是它们仅在通用和描述的意义上使用，而并不用于限制目的。

Claims

1.一种用于从音频内容中提取音频对象的方法，所述音频内容由多个声道的音频信号表示，所述方法包括：

标识第一投影空间集合，所述第一投影空间集合包括用于所述多个声道中的第一声道的第一子集和用于所述多个声道中的第二声道的第二子集；

确定所述第一声道和所述第二声道之间的第一相关性集合，所述第一相关性集合中的每个相关性对应于第一投影空间子集中的一个投影空间和第二投影空间子集中的一个投影空间；以及

至少部分地基于所述第一相关性集合中的第一相关性和来自所述第一子集的对应于所述第一相关性的投影空间来从所述第一声道的音频信号中提取音频对象，所述第一相关性大于第一预定义阈值。

2.根据权利要求1所述的方法，进一步包括：

从声道群组中选择所述第一声道和所述第二声道，所述声道群组通过基于所述多个声道的相关性来对所述多个声道进行聚类而获得。

3.根据权利要求2所述的方法，其中所述多个声道中的一对声道之间的相关性通过如下来获得：

标识第二投影空间集合，所述第二投影空间集合包括用于所述一对声道中的一个声道的第三子集和用于所述一对声道中的另一声道的第四子集；

确定所述一对声道之间的第二相关性集合，所述第二相关性集合中的每个相关性对应于第三投影空间子集中的一个投影空间和第四投影空间子集中的一个投影空间；

以及

选择所述第二相关性集合中的一个相关性作为所述一对声道之间的所述相关性，选择的所述相关性大于第二预定义阈值。

4.根据权利要求2所述的方法，其中从所述声道群组中选择所述第一声道和所述第二声道包括：

从所述声道群组中选择所述第二声道，使得所述第二声道的音频信号具有在所述声道群组中的最大能量。

5.根据权利要求4所述的方法，其中从所述声道群组中选择所述第一声道和所述第二声道进一步包括：

从所述声道群组中选择所述第一声道，使得所述第一声道和所述第二声道之间的相关性大于第三预定义阈值；以及

至少部分地基于所述第一相关性和来自所述第二子集的对应于所述第一相关性的所述投影空间而从所述第二声道的音频信号中提取音频对象。

6.根据权利要求2所述的方法，进一步包括：

至少部分地基于从所述第一声道的音频信号和所述第二声道的音频信号中提取的所述音频对象来生成多声道对象；

将生成的所述多声道对象混缩成单声道表示；以及

确定提取的所述对象的原始多声道表示和所述单声道表示之间的混缩相似度，

其中从所述第一声道的所述音频信号中提取所述音频对象包括进一步基于所述混缩相似度来提取所述音频对象。

7.根据权利要求2所述的方法，进一步包括：

将生成的所述多声道对象混缩成单声道表示；

至少部分地基于估计的位置来预渲染所述单声道表示；以及

确定提取的所述对象的原始多声道表示和预渲染的所述单声道表示之间在能量分布方面的预渲染相似度，

其中，从所述第一声道的所述音频信号中提取所述音频对象包括进一步基于所述预渲染相似度来提取所述音频对象。

8.根据权利要求1至7中任一项所述的方法，其中所述音频内容包括通过在频域和时域中的至少一个中划分全频带音频信号帧来获得的一个或多个音频块。

9.一种用于从音频内容中提取音频对象的系统，所述音频内容由多个声道的音频信号表示，所述系统包括：

标识单元，被配置为标识第一投影空间集合，所述第一投影空间集合包括用于所述多个声道中的第一声道的第一子集和用于所述多个声道中的第二声道的第二子集；

确定单元，被配置为确定所述第一声道和所述第二声道之间的第一相关性集合，所述第一相关性集合中的每个相关性对应于第一投影空间子集中的一个投影空间和第二投影空间子集中的一个投影空间；以及

提取单元，被配置为至少部分地基于所述第一相关性集合中的第一相关性和来自所述第一子集的对应于所述第一相关性的所述投影空间来从所述第一声道的音频信号中提取音频对象，所述第一相关性大于第一预定义阈值。

10.根据权利要求9所述的系统，进一步包括：

选择单元，被配置为从声道群组中选择所述第一声道和所述第二声道，所述声道群组通过基于所述多个声道的相关性来对所述多个声道进行聚类而获得。

11.根据权利要求10所述的系统，其中所述多个声道中的一对声道之间的相关性通过如下来获得：

确定所述一对声道之间的第二相关性集合，所述第二相关性集合中的每个相关性对应于第三投影空间子集中的一个投影空间和第四投影空间子集中的一个投影空间；以及

12.根据权利要求10所述的系统，其中从所述声道群组中选择所述第一声道和所述第二声道包括：

13.根据权利要求12所述的系统，其中从所述声道群组中选择所述第一声道和所述第二声道进一步包括：

14.根据权利要求10所述的系统，进一步包括：

生成单元，被配置为至少部分地基于从所述第一声道的音频信号和所述第二声道的音频信号中提取的所述音频对象来生成多声道对象；

混缩单元，被配置为将生成的所述多声道对象混缩成单声道表示；以及

相似度确定单元，被配置为确定提取的所述对象的原始多声道表示和所述单声道表示之间的混缩相似度，

其中，从所述第一声道的所述音频信号中提取所述音频对象包括进一步基于所述混缩相似度来提取所述音频对象。

15.根据权利要求10所述的系统，进一步包括：

混缩单元，被配置为将生成的所述多声道对象混缩成单声道表示；

预渲染单元，被配置为至少部分地基于估计的位置来预渲染所述单声道表示；以及

相似度确定单元，被配置为确定提取的所述对象的原始多声道表示和预渲染的所述单声道表示之间在能量分布方面的预渲染相似度，

16.根据权利要求9至15中任一项所述的系统，其中所述音频内容包括通过在频域和时域中的至少一个中划分全频带音频信号帧来获得的一个或多个音频块。

17.一种计算机程序产品，包括被有形具体化在机器可读介质上的计算机程序，所述计算机程序包含用于执行根据权利要求1至8中任一项所述的方法的程序代码。