CN101405717B

CN101405717B - 使用频道间振幅谱的音频频道提取的方法和设备

Info

Publication number: CN101405717B
Application number: CN2006800459938A
Authority: CN
Inventors: P·丘巴列夫
Original assignee: DTS BVI Ltd
Current assignee: DTS Inc; DTS BVI Ltd
Priority date: 2005-12-06
Filing date: 2006-12-01
Publication date: 2010-12-15
Anticipated expiration: 2026-12-01
Also published as: TW200739366A; HK1128786A1; NZ568402A; BRPI0619468A2; EP1958086A4; KR20080091099A; RU2008127329A; CA2632496A1; JP2009518684A; RU2432607C2; MX2008007226A; US20070135952A1; WO2007067429A3; EP1958086A2; IL191701A0; AU2006322079A1; WO2007067429A2; WO2007067429B1; CN101405717A

Abstract

频道间振幅谱被使用来从包括音频源的混合的、两个或多个音频输入频道中提取多个音频频道。这个方法产生不仅仅是输入频道的线性组合的多个音频频道，因此，例如，可以与盲源分离(BSS)算法相组合地使用。

Description

使用频道间振幅谱的音频频道提取的方法和设备

技术领域

本发明涉及从包括音频源的混合的、两个或多个音频输入频道中提取多个音频频道，更具体地，涉及使用频道间振幅谱来执行提取。

背景技术

盲源分离(Blind Source Separation，BSS)是这样一类方法，其被广泛使用于需要从传送各个源的线性混合的立体声频道中估计各个原先的音频源的领域。从各个原先的源的线性混合中分离出各个原先的源的困难在于，在许多实际的应用中，对于原先的信号或混合它们的方式知道得很少。为了实现盲去混合，通常作出关于信号的统计特性的某些假设。

独立分量分析(ICA)是一种方法，或许是最广泛地用于执行盲源分离的方法。ICA假设，音频源是统计独立的，并具有非高斯分布。另外，音频输入频道的数目至少必须和要被分离的音频源的数目一样大。而且，输入频道必须是线性独立的；不是它们自身的线性组合。换句话说，如果目标是要例如，从立体声混合中提取，诸如话音、弦乐声、打击乐声等那样的三个或许四个音频源，则形成第三或第四频道作为左和右频道的线性组合还不够。ICA算法在技术上是公知的，如AapoHyvarinen和Erkki Oja在“Independent Component Analysis：Algorithms and Applications”，Neural Networks，April 1999中描述的，该论文在此引用以供参考。

不幸的是，在许多现实世界情形下，仅仅立体声混合是可得到的。这将基于ICA的BSS算法严格限制于至多分离来自混合的两个音频源。在许多应用中，音频混合和重放远离传统的立体声而进步到具有5.1、6.1的多频道音频或甚至更高的频道配置。强烈需要能够重新混合多频道音频的立体声音乐的大量目录(catalog)。为了有效地做到这一点，如果不是必需的话，常常非常希望从立体声混合中分离三个或多个源。当前的ICA技术不能支持这一点。

发明内容

以下是本发明的概要，以便提供对本发明的某些方面的基本了解。本概要不打算识别本发明的重要或关键的单元或限制本发明的范围。它的唯一目的是以简化的形式给出本发明的某些概念，作为在后面给出的更详细的说明和定义权利要求的前序。

本发明提供一种用于从两个或多个音频输入频道中提取不仅仅是那些输入频道的线性组合的多个音频输出频道的方法。然后，这样的输出频道例如可以与盲源分离(BSS)算法相组合地使用，其中所述盲源分离(BSS)算法需要至少与要被分离的或直接用于重新混合应用，例如2.0到5.1，的源一样多的线性独立输入频道。

这是通过为传送音频源的混合的各对M帧(framed)的音频输入频道创建至少一个频道间振幅谱而实现的。这些振幅谱例如可以代表各对输入谱的线性、对数、或范数差值(norm difference)或和值。然后，在M-1维频道提取空间中适当地将频道间振幅谱的每个谱线映射成N个定义的输出中的一个输出。来自M个输入频道的数据按照谱映射被组合，以形成N个音频输出频道。在一个实施例中，输入谱按照映射被组合，以及组合后的谱被逆变换，并且帧被重新组合以形成N个音频输出频道。在另一个实施例中，通过使用相应的谱映射图(spectralmap)，构建用于N个输出中的每个输出的卷积滤波器。输入频道通过N个滤波器，并被重新组合，以形成N个音频输出频道。

通过结合附图作出的优选实施例的以下详细说明，本领域技术人员将明白本发明的这些和其它特征和优点。

附图说明

图1是包括用于从音频混合中分离多个音频源的频道提取器和源分离器的框图；

图2是按照本发明的、用于通过使用频道间振幅谱来提取附加的音频频道的框图；

图3a到3c是描绘从频道间振幅谱到频道提取空间的各种映射的图；

图4是用于通过按照谱映射使用输入频道的谱合成来从立体声混合中提取三个输出频道的示例性实施例的框图；

图5a到5c是显示出给音频频道加窗口以形成输入音频帧序列的图；

图6是立体声音频信号的频谱的图；

图7是不同谱的图；

图8是显示出组合输入谱的两个不同方法的表；

图9a到9c是三个输出音频频道的组合谱的图；和

图10是使用卷积滤波器来按照谱映射执行输入频道的时域合成的替换实施例的框图。

具体实施方式

本发明提供用于从包括音频源的混合的、两个或多个音频输入频道中提取多个音频频道的方法，更具体地，涉及使用频道间振幅谱来执行提取。这个方法产生不仅仅是输入频道的线性组合的多个音频频道，因此例如可以与盲源分离(BSS)算法相组合地使用或用来提供直接用于各种重新混合应用的附加频道。

仅仅作为示例性实施例，在它使用BSS算法的情况下描述提取技术。如上所述，对于用来从这些源的混合中提取Q个原先的音频源的BSS算法，它必须接收传送该混合的至少Q个线性独立的音频频道作为输入。如图1所示，M个音频输入频道10被输入到频道提取器12，频道提取器12按照本发明使用输入频道的频道间振幅谱来生成N＞M个音频输出频道14。源分离器16实施基于ICA的BSS算法，来把Q个原先的音频源18与N个音频输出频道分离开，其中Q≤N。例如，当一起被使用时，频道提取器和源分离器可以从传统的立体声混合中提取三个、四个、或多个音频源。这将在把现在仅仅存在于立体声中的音乐目录重新混合成多频道配置方面找到很大的应用。

如图2所示，频道提取器实施使用频道间振幅谱的算法。频道提取器把M个音频输入频道10中的每个音频输入频道变换成各个输入谱(步骤20)，其中M至少为2。快速傅立叶变换(FFT)或DCT，MDCT或小波变换，例如可被使用来生成频谱。然后，频道提取器根据至少一对输入频道的输入谱来创建至少一个频道间振幅谱(步骤22)。这些频道间振幅谱例如可以代表各对输入谱的谱线的线性、对数、或范数差值或和值。更具体地，如果‘A’和‘B’是第一和第二频道的谱线的振幅，则A-B是线性差值，Log(A)-Log(B)是对数差值，(A²-B²)是L2范数差值，以及A+B是和值。本领域技术人员将会看到，可以使用A和B的许多其它函数f(A，B)来比较两个频道的频道间振幅关系。

频道提取器在M-1维频道提取空间中把频道间振幅谱的每个谱线适当地映射成N个定义的输出中的一个输出(步骤24)。如图3a所示，输入频道对(L/R)的对数差值的阈值被设定为-3dB和+3dB，以定义在一维空间26中的输出S₁(-∞，-3dB)，S₂(-3dB，+3dB)，和S₃(+3dB，∞)。如果特定谱线的振幅比如说是0dB，则它被映射到输出S₂等等。该映射可以通过定义附加的阈值而被容易地扩展到N＞3。如图3b所示，三个输入频道L，R和C被映射成在二维频道提取空间28中的13个输出频道S₁，S₂，…S₁₃。L/C的对数差值对照R/C的对数差值被画出，并且阈值被设定，以定义16个单元。在这个具体的例子中，尽头的拐角单元都被映射成同一个输出S1。单元的其它组合也是可能的，这例如取决于想要的输出数目或对于输入频道的声场关系的先验知识。对于每个谱线，R/C和L/C的对数差值的振幅被映射到空间，以及被分配以适当的输出。这样，每个谱线仅仅被映射成单个输出。替换地，R/C和L/C频道间振幅谱在一维空间中可以分开设定阈值，如图3a所示。在图3c上画出三个输入频道L，R和C到在另一个二维频道提取空间30中的9个输出的替换映射。这3个例子只打算显示，频道间振幅谱可以以许多不同的方式被映射到N个输出，而且，还打算显示，该原理扩展到任何数目的输入和输出频道。每个谱线可被映射到M-1维提取空间中的唯一输出。

一旦每条谱线被映射到N个输出中的一个输出，频道提取器就按照映射组合M个输入频道的数据用于N个输出中的每个输出(步骤32)。例如，假设图3a所示的情形：立体声频道L和R被映射到输出S1，S2和S3，以及还假设输入谱具有8条谱线。如果根据频道间振幅谱，线1-3被映射到S1，4-6映射到S2，和7-8映射到S2，则频道提取器组合线1，2和3中的每条线的输入数据，以及把该组合后的数据引导到音频输出频道1等等。通常，这个输入数据被组合为加权平均值。权重可以是相等的或改变的。例如，如果知道关于输入频道，例如L，R，和C，的声场关系的特定信息，则它可以实施权重的选择。例如，如果L＞＞R，则可以在组合中选择L频道被更多地加权的权重。而且，处于相同或其它的原因，权重对于所有的输出可以是相同的，或可以是改变的。

输入数据可以通过使用频域或时域合成而被组合。如图4-9所示，输入谱按照映射被组合，以及组合后的谱被逆变换，并且帧被重新组合，以形成N个音频输出频道。如图10所示，通过使用相应的谱映射图，构建用于N个输出中的每个输出的卷积滤波器。输入频道经过N个滤波器，并被重新组合，以形成N个音频输出频道。

图4到10更详细地显示了在从输入频道的立体声(M＝2)对中提取N＝3输出频道的情形下频道提取算法的示例性实施例。频道提取器把窗口38，例如，升余弦、Hamming或Hanning窗，应用(步骤40，42)到左和右音频输入信号44，46上，以创建各个适当重叠帧序列48(左帧)。每帧通过使用FFT被频率变换(步骤50，52)，以生成左输入谱54和右输入谱56。在本实施例中，计算输入谱54，56的每条谱线的对数差值，以创建频道间振幅谱58(步骤60)。1-D频道提取空间62，例如限制输出S1，S2和S3的-3dB和+3dB阈值，被定义(步骤64)，并且在频道间振幅谱58中的每条谱线被映射成适当的输出(步骤66)。

一旦映射被完成，频道提取器就按照该映射组合输入谱54和56，例如谱线的振幅系数，用于三个输出中的每个输出(步骤67)。如图8和9a-9c所示，在情形1，频道被相等地加权，权重是相同的，以生成每个音频输出频道谱68，70和72。如图所示，对于给定的谱线，仅仅组合输入谱用于一个输出。在情形2，或许具有L/R声场的先验知识，如果谱线被映射到输出1(L＞＞R)，则仅仅L输入频道可通过。如果L和R是近似相等的，则它们被相同地加权，以及如果R＞＞L，则仅仅R输入频道可通过。每个输出谱的接连的帧被逆变换(步骤74，76，78)，并且通过使用标准重叠-相加重建而重新组合帧(步骤80，82，84)，以生成三个音频输出频道86，88和90。

图10显示使用时域合成来从立体声对提取三个音频输出频道的替换实施例，其中使用诸如Hanning窗的窗把左和右输入频道再划分成帧(步骤100)，通过使用FFT进行变换以形成输入谱(步骤102)，和通过形成差值谱和把每个谱线与阈值(-3dB和+3dB)相比较以构建三个‘映射图’106a，106b和106c，将其分离成谱线(步骤104)，其中每个输出频道一个映射图。如果谱线差值属于相应的分类，映射图的单元被设置为1，否则为0。这些步骤等价于图4所示的步骤40-66。

输入频道经过使用相应的谱映射图构建的用于N个输出中的每个输出的卷积滤波器，以及M×N个局部结果被相加在一起，帧被重新组合，以形成N个音频输出频道(步骤108)。为了减小伪像，可以在相乘之前对映射图应用平滑。平滑可以通过以下公式完成：

A_i’＝(A_i-1+2A_i+A_i+1)/4

其它平滑方法也是可能的。正如在图上显示的，输入频道的和值(步骤110)可以在滤波前完成，如果不需要加权的话。

虽然显示和描述本发明的几个说明性实施例，但对于本领域技术人员将出现许多变例和替换实施例。可以预期和作出这样的变例和替换实施例，而不背离如在从属权利要求中规定的本发明的精神和范围。

Claims

1.一种从M个音频输入频道中提取N个音频输出频道的方法，其中M≤N，包括：

把M个音频输入频道中的每个音频输入频道变换成各个输入谱；

根据M个音频输入频道中的至少一对音频输入频道的输入谱，创建至少一个频道间振幅谱；

把频道间振幅谱的每条谱线非线性映射到N个输出中的单独一个输出；以及

按照谱映射来组合来自M个音频输入频道的数据以形成N个音频输出频道，所述N个音频输出频道是所述M个音频输入频道的非线性组合。

2.权利要求1的方法，其中将重叠帧应用于音频输入频道的预变换以形成帧序列，并且将重叠逆帧应用于帧的后逆变换以把帧重新组合成N个音频输出频道。

3.权利要求1的方法，其中频道间振幅谱被创建为输入谱的线性、对数或范数差值或和值。

4.权利要求1的方法，其中每个谱线被映射到M-1维空间中的N个输出中的单独一个输出，其中轴相应于各个频道间振幅谱。

5.权利要求4的方法，其中分别沿着M-1个轴给每条谱线的频道间振幅谱设定阈值以把该谱线映射到N个输出中的单独一个输出。

6.权利要求1的方法，其中来自输入频道的数据被组合为加权平均值。

7.权利要求6的方法，其中权重至少部分地由音频输入频道的声场关系来确定。

8.权利要求1的方法，其中来自输入频道的数据通过以下步骤被组合：

对于被映射到N个输出中的每个输出的每条谱线，组合M个输入频道的输入谱；以及

逆变换每个组合后的谱以形成N个音频输出频道。

9.权利要求1的方法，其中来自输入频道的数据通过以下步骤被组合：

使用相应的映射图，构建用于N个输出中的每个输出的滤波器；

使M个输入频道中的每个输入频道经过N个滤波器；以及

组合滤波器输出，以形成N个输出频道帧。

10.权利要求1的方法，其中N个音频输出频道是线性独立的。

11.权利要求1的方法，其中音频输入频道包括音频源的混合，还包括使用统计源分离算法把N个音频输出频道分离成相等的或较少的多个所述音频源。

12.一种从包括音频源的混合的M个音频输入频道中分离出Q个音频源的方法，包括：

根据M个音频输入频道的各对音频输入频道的输入谱创建至少一个频道间振幅谱；

把频道间振幅谱的每条谱线非线性映射到N个输出中的单独一个输出，以创建每个输出的映射图，其中N≥Q；

按照映射图组合来自M个音频输入频道的数据，以形成N个音频输出频道，所述N个音频输出频道是所述M个音频输入频道的非线性组合；以及

使用统计源分离算法把N个音频输出频道分离成Q个音频源。

13.权利要求12的方法，其中N个音频输出频道是线性独立的。

14.一种从两个音频输入频道中提取N个音频输出频道的方法，包括：

把每个音频输入频道变换成各个输入谱；

根据输入谱创建频道间振幅谱；

把频道间振幅谱的每条谱线的阈值设定成N个输出中的单独一个输出；以及

按照谱映射来组合来自2个音频输入频道的数据，以形成N个音频输出频道，所述N个音频输出频道是所述2个音频输入频道的非线性组合。

15.权利要求14的方法，其中频道间振幅谱被创建为输入谱的线性、对数或范数差值或和值。

16.权利要求14的方法，其中音频输出频道的数目N是3。

17.权利要求14的方法，其中音频输入频道通过使用快速傅立叶变换被变换。

18.一种用于从M个音频输入频道中提取N个音频输出频道的频道提取器，其中M≤N，包括：

用于把M个音频输入频道中的每个输入频道变换成各个输入谱的装置；

用于根据M个音频输入频道中的至少一对音频输入频道的输入谱来创建至少一个频道间振幅谱的装置；

用于把频道间振幅谱的每条谱线非线性映射到M-1维空间中的N个输出中的单独一个输出的装置，其中轴相应于各个频道间振幅谱；以及

用于按照谱映射来组合来自M个音频输入频道的数据以形成N个音频输出频道的装置，所述N个音频输出频道是所述M个音频输入频道的非线性组合。

19.权利要求18的频道提取器，其中用于组合数据的装置包括：

用于对于被映射到N个输出中的每个输出的每条谱线，组合M个输入频道的输入谱的装置；以及

用于逆变换每个组合后的谱以形成N个音频输出频道的装置。

20.权利要求18的频道提取器，其中用于组合数据的装置包括：

用于使用相应的映射图来构建用于N个输出中的每个输出的滤波器的装置；

用于使M个输入频道中的每个输入频道经过N个滤波器的装置；以及

用于组合滤波器输出以形成N个输出频道帧的装置。