CN101366078A

CN101366078A - 从单音音频信号分离音频信源的神经网络分类器

Info

Publication number: CN101366078A
Application number: CNA2006800414053A
Authority: CN
Inventors: D·V·施穆克
Original assignee: DTS Licensing Ltd
Current assignee: DTS Inc
Priority date: 2005-10-06
Filing date: 2006-10-03
Publication date: 2009-02-11
Also published as: JP2009511954A; WO2007044377B1; RU2418321C2; KR20080059246A; KR101269296B1; EP1941494A2; TWI317932B; WO2007044377A3; EP1941494A4; TW200739517A; IL190445A0; RU2008118004A; US20070083365A1; WO2007044377A2; BRPI0616903A2; CA2625378A1; AU2006302549A1; NZ566782A

Abstract

本发明提供了一种神经网络分类器，其可以对下混合到单一单音音频信号的多个任意且预先未知的音频信源进行分离和分类。这是通过将该单音音频信号分离成多个基线帧(可能交叠)，对这些帧加窗，提取每帧内的多个描述性特征，以及采用预训练的非线性神经网络作为分类器来实现的。每个神经网络输出表明单音音频信号的每个基线帧内的预定类型的音频信源的存在。神经网络分类器非常适于广泛变化的信号和信源参数、信源的时域和频域交叠以及实际生活信号中的回响和遮挡。分类器输出能够用作前端以形成多个音频信道用于源分离算法(例如，ICA)或用作后处理算法的参数(例如，对音乐进行分类，跟踪信源，为导航目的产生音频索引，以及重新混合安全性和监控、电话和无线通信以及电视会议)。

Description

从单音音频信号分离音频信源的神经网络分类器

技术领域

本发明涉及下混合到单一单音音频信号的多个未知音频信源的分离。

背景技术

存在多种用于从立体或多信道音频信号提取信源的技术。独立分量分析(ICA)是最广泛应用和研究的方法。然而，ICA仅能够提取等于或小于输入信号中的信道数目的多个信源。因此，它不能够用于单音信号分量。

从单音信号提取音频信源可以用于提取语音信号特征，合成多信道信号表示，对音乐进行分类，跟踪信源，对ICA产生附加信道，为导航目的(浏览)产生音频索引，以及重新混合(consumer &pro)安全性和监控、电话和无线通信以及电视会议。已经很好地研究了语音信号特征(诸如自动化语言检测、自动语音识别、语音/音乐检测器)的提取。由于包括广泛变化的信号和信源参数、信源的时域和频域交叠以及实际生活信号中的混响问题所导致的困难，所以对于从单音信号提取任意乐器信号很少进行研究。已知技术包括均衡和直接参数提取。

均衡器可以应用到信号以提取占据已知频率范围的信源。例如，语音信号的大多数能量存在于200Hz-4kHz范围内。低音电吉他声音通常限于低于1kHz的频率。通过对所有带外信号进行滤波，或者可以提取出选择的信源，或者它的能量能够相对于其它信源被放大。然而，对于提取交叠的信源，均衡并不有效。

在Tong Zhag和Jay Kuo所著的“Audio Content Analysis forOnline Audiovisual Data Segmentation and Classification”(IEEETransactions on speech and audio processing，vol.9 No.4，2001年5月)中公开了一种直接参数提取的方法。提取出了诸如能量函数、平均过零率、基频以及谱峰轨迹的简单音频特征。该信号然后被划分类别(寂静、带有音乐成分、不带有音乐成分)和子类别。基于特征与一组界限的直接比较，将片段包括到某类别中。需要所述信源的先验知识。

在George Tzanetakis和Perry Cook所著的Musical GenreClassification of Audio Signals”(IEEE Transactions on speech andaudio processing，vol.10 No.5，2002年7月)中公开了一种音乐题材分类的方法。从信号中提取出诸如乐器、韵律结构以及谐波分量的特征，并且将这些特征输入到预训练统计模式识别分类器中。DonKimbler and Lynn Wilcox所著的“Acoustic Segmentation for AudioBrowsers”采用隐马尔可夫模型用于音频分段和分类。

发明内容

本发明能够对下混合到单一单音音频信号的任意多个且预先未知的音频信源进行分离和分类。

这是通过将该单音音频信号分离成多个基线帧(可能交叠)，对这些帧加窗，提取每帧内的多个描述性特征，以及采用预训练的非线性神经网络作为分类器来实现的。每个神经网络输出表明该单音音频信号的每个基线帧内的预定类型的音频信源的存在。通常，神经网络所具有的输出数目等于该系统进行训练以区分的音频信源的类型数目。该神经网络分类器非常适于解决广泛变化的信号和信源参数、信源的时域和频域交叠以及实际生活信号中的回响和遮挡。该分类器输出能够用作前端以形成多个音频信道用于源分离算法(例如，ICA)，或用作后处理算法(例如对音乐分类，跟踪信源，为导航目的产生音频索引，以及重新混合安全性和监控、电话和无线通信以及电视会议)的参数。

在第一实施例中，对该单音音频信号进行子带滤波。子带数目以及子带的变化或均匀性取决于应用。然后，对每个子带成帧并且提取特征。可以从不同子带提取出相同或不同的特征组合。一些子带可以没有特征被提取。每个子带特征可以形成对该分类器的独立输入，或者相似特征可以在这些子带上进行“融合”。分类器对于每个预定音频信源可以包括单个输出节点，从而提高对每个特定音频信源进行分类的健壮性。或者，分类器对于每个预定音频信源的每个子带可以包括输出节点，从而改进多个频率交叠信源的分离。

在第二实施例中，以多个时间-频率分辨率提取一个或更多这些特征，例如音色分量或TNR，然后将这些特征缩放成基线帧尺寸。尽管这是优选地并行完成，但是也可以顺序地完成。每个分辨率下的特征能够输入到分类器，或者能够将它们进行融合以形成单一输入。这种多分辨率方案解决了自然信号的非平稳性。短时间间隔内，大多数信号仅仅可以认为是准平稳的。一些信号快速改变，一些信号慢速改变，例如，对于具有快速变化的信号参数的语音来讲，较短时间帧将导致信号能量的更好分离。对于比较平稳的弦乐器来讲，较长帧可以提供较高频率分辨率而不会降低信号能量分离。

在第三实施例中，对单音音频信号进行子带滤波，并且以多个时间-频率分辨率提取一个或更多子带中的一个或更多特征，然后将这些特征缩放成基线帧尺寸。子带滤波器和多分辨率的组合还可以增强分类器的性能。

在第四实施例中，对神经网络输出节点的值进行低通滤波以减小噪声，从而减小该分类的帧到帧变化。不进行低通滤波，系统对短信号段(基线帧)进行操作而不知道过去或未来输入。假定信号通常持续超过一个基线帧，低通滤波减小了错误结果的数目。

下面通过结合附图对本发明的优选实施例进行详细描述，本领域技术人员能够明白本发明的这些和其它特征和优点。

附图说明

图1是框图，示出了利用根据本发明的神经网络分类器对下混合到单一单音音频信号的多个未知音频信源进行分离；

图2示出了输入信号的子带滤波；

图3示出了输入信号的成帧和加窗；

图4是流程图，用于提取多分辨率音色分量和TNR特征；

图5是流程图，用于估计噪声基底；

图6是流程图，用于提取倒谱峰特征；

图7是典型神经网络分类器的框图；

图8a-8c示出了组成单音信号的音频信源以及由神经网络分类器输出的度量；

图9是利用输出度量将单音信号重新混合到多个音频信道的系统的框图；以及

图10是利用输出度量增加对单音信号执行的标准后处理任务的系统的框图。

具体实施方式

本发明能够对下混合到单一单音音频信号的多个任意且预先未知的音频信源进行分量和分类。

如图1所示，诸如语音、弦乐器以及打击乐器的多个音频信源10被下混合(步骤12)到单个单音音频信道14。单音信号可以是传统的单混合，或者可以是立体或多信道信号中的一个信道。大多数情况下，没有关于特定混合中音频信源的特定类型、信号自身、包括多少不同信号、或者混合系数的先验信息。可以包括在特定混合中的音频信道的类型是已知的。例如，应用可以是用于对音乐混合中的信源或主要信源进行分类。分类器将会知道：可能的信源包括男生、女生、弦乐器以及打击乐器等。分类器将不会知道：这些信源中的哪些或者多少个被包括在特定混合中，以及关于特定信源或这些信源是如何混合的任何信息。

通过将单音音频信号形成为一系列基线帧(可能交叠)(步骤16)，对这些帧加窗(步骤18)，提取每帧中的多个描述性特征(步骤20)，以及采用预训练非线性神经网络作为分类器(步骤22)来开始对多个任意且预先未知的音频信源进行分量和分类的过程。每个神经网络输出表明单音音频信号的每个基线帧中的预定类型的音频信源的存在。通常，神经网络的输出数目等于对系统进行训练进行区分的音频信源类型的数目。

能够以多种方法增强神经网络分类器的性，能尤其是对“交叠信源”进行分离和分类的性能，这些方法包括：对单音信号进行子带滤波；提取多分辨率特征；以及对分类值进行低通滤波。

在第一增强实施例中，能够对单音音频信号进行子带滤波(步骤24)。这通常但并非必需在成帧之前进行执行。子带数目以及子带的变化或均匀性取决于应用。然后，形成每个子带并且提取出特征。可以从不同子带提取出相同或不同的特征组合。每个子带特征可以形成对分类器的独立输入，或者相似特征可以在这些子带上进行“融合”(步骤26)。分类器可以包括用于每个预定音频信源的单一输出节点，这种情况下，从多个子带提取特征提高了对每个特定音频信源进行分类的健壮性。或者，分类器可以包括用于每个预定音频信源的每个子带的输出节点，这种情况下，从多个子带提取特征改进了多个频率交叠信源的分离。

在第二增强实施例中，以多个时间-频率分辨率提取一个或更多这些特征，并且然后将一个或更多这些特征缩放成基线帧尺寸。如所示，初始地对单音信号分段成多个基线帧，加窗并且提取特征。如果以多个分辨率提取一个或更多这些特征(步骤28)，则帧尺寸减小(增大)(步骤30)，然后重复该过程。对该帧尺寸进行合适减小(增大)，按照为交叠及加窗而调整的基线帧尺寸的倍数。结果，将在基线帧的等价物上出现每个特征的多个实例。这些帧然后必须被独立地或者一起地缩放成基线帧尺寸(步骤32)。对以较小帧尺寸提取出的特征求平均，以及以较大帧尺寸提取出的特征被内插为基线帧尺寸。一些情况下，该算法可以通过同时从基线帧减小和增大来提取多分辨率特征。另外，可以期望对在每个分辨率下提取的特征进行合并以形成对分类器的一个输入(步骤26)。如果这些多分辨率特征没有进行合并，则可以在环内执行基线缩放(步骤32)，并且在每个通路将这些特征输入到分类器。更优选的是，多分辨率提取是并行执行。

在第三实施例中，使用例如移动平均低通滤波器(步骤34)对神经网络的输出节点的值进行后处理以减小噪声，从而减小分类的帧到帧变化。

子带滤波

如图2所示，子带滤波器40将单音音频信号的谱划分成N个均匀或变化宽度的子带42。为了例示的目的，示出语音44、弦乐46以及打击乐48的可能频谱H(f)。通过提取信源交叠低的子带的特征，分类器可以进行更好地工作以分类出帧中的主要信源。另外，通过提取不同子带中的特征，分类器可以分类出这些子带的每个子带的主要资源。在信号分离良好的那些子带中，分类的置信度可以是十分强大的，例如接近1。然而，在信号交叠的那些子带中，分类器的置信度较小，一个信源占主导，例如两个或更多信源具有相似的输出值。

还可以使用频率变换而非子带滤波器来提供等效功能。

成帧&加窗

如图3a-3c所示，单音信号50(或者该信号的每个子带)被划分成一系列基线帧52。该信号被合适地分成多个交叠帧，并且优选的是交叠比例可以是50％或更大。对每帧加窗以减小帧边界处的非连续的效应并且改进频率分离。已知的分析窗口54包括升余弦、汉明(Hamming)、汉宁(Hanning)以及切比雪夫等等。然后，每个基线帧的窗口信号56被传递以用于特征提取。

特征提取

特征提取是计算能够用于特征化音频的基线帧的压缩数值表示的过程。该思想在于识别多个特征，其单独或与其它特征进行组合地、以单一或多个分辨率、且在单一或多个谱带内，在不同音频信源之间进行有效区分。用于从单音音频信号分离信源的特征的例子包括：帧内的音色分量的总数目、声调/噪声比(TNR)以及倒谱峰幅值(Cepstrum amplitude)。除了这些特征以外，MPEG-7规范中描述的音频的17个低水平描述符中的任何一个或组合可以是不同应用中的合适特征。

我们现在将详细描述音色分量、TNR和倒谱峰特征。另外，以多个时间-频率分辨率提取该音色分量和TNR并且缩放成基线帧。可以在MPEG-7音频的支持文档中获得计算“低水平描述符”的步骤。(见例如国际标准ISO/IEC 15938“Multimedia ContentDescription Interface”或者http://www.chiariglione.org/mpeg/standards/mpeg-7/mpeg-7.htm)

音色分量

实质上，音色分量是与平均信号相比较相对较强的声调。提取的特征是给定时间-频率分辨率下的音色分量的数目。图4示出了对每帧内单一时间-频率分辨率水平的音色分量的数目进行估计的过程，该过程包括如下步骤：

1.对单音输入信号进行成帧(步骤16)。

2.对落入帧内的数据进行加窗(步骤18)。

3.对加窗信号进行频率变换(步骤60)，诸如FFT、MDCT等。变换的长度应该等于帧内的音频取样的数目，即帧尺寸。扩大变换长度将会减小时间分辨率，同时不会增加频率分辨率。如果具有较小变换长度，则帧长度将会减小频率分辨率。

4.计算谱线的幅值(步骤62)。对于FFT，幅值A＝Sqrt(Re＊Re+Im＊Im)，其中，Re和Im是由该变换产生的谱线的实部分量和虚部分量。

5.估计所有频率的噪声基底水平(步骤64)。(见图5)

6.对远在该噪声基底之上(例如大于该噪声基底之上的预定的固定阈值)的分量数目进行计数(步骤66)。这些分量被认为“音色分量”，并且该计数被输出到NN分类器(步骤68)。

真实生活的音频信号可以既包含固定片段又包含非固定片段，其中固定片段包含音色分量(诸如弦乐)，非固定片段也可以包含音色分量(诸如发出的语音片段)。为了在所有情形下都能够有效地获取音色分量，不得不以多种时间-频率分辨率水平对信号进行分析。可以在大约5毫秒到200毫秒范围内的帧内提取出实际有用的结果。注意：优选的这些帧进行交织，并且许多给定长度的帧可以落在单一基线帧之下。

为了以多个时间-频率分辨率对音色分量数目进行估计，以上过程修改如下：

1.减小帧尺寸，例如减小二分之一(忽视交叠)(步骤70)。

2.对于新的帧尺寸，重复步骤16、18、60、62、64和66。应该执行长度等于帧长度的频率变换以获得最佳时间-频率权衡。

3.将音色分量的计数缩放为基线帧尺寸，并且输出到NN分类器(步骤72)。如所示，每个时间-频率分辨率的音色分量的累积数目被分别传送到分类器。在简单实施方式中，所有分辨率下的音色分量的数目将被提取出并且合在一起以形成单一值。

4.重复直到最小的期望帧尺寸已经被分析(步骤74)。

为了示出多分辨率的音色分量提取，考虑下面例子。基线帧尺寸是4096个取样。该音色分量以1024、2048以及4096变换长度进行提取(为简化，非交叠)。典型结果可以是：

以4096点变换：5个分量；

以2048点变换(一个基线帧内总共2次变换)：15个分量，7个分量；

以1024点变换(一个基线帧内总共进行4次变换)：3个，10个，17个，4个。

每次传送将传送到NN输入的数字将是5、22(＝15+7)、34(＝3+10+17+4)。或者，能够将这些值求和61＝5+22+34，并且输入作为单一值。

通过递增计算多个时间-频率分辨率的算法是模拟的。

声调/噪声比(TNR)

声调/噪声比是音色分量中的全部能量与噪声基底的比率的度量，还可以是用于区分各种类型的信源的非常有关特征。例如，不同种类的弦乐器具有不同的TNR水平。声调/噪声比的过程与上述的音色分量数目估计相似。不对音色分量数目进行计算(步骤66)，该过程计算音色分量中的累积能量与噪声基底的比率(步骤76)，并且将该比率输出到NN分类器(步骤78)。

测量多种时间-频率分辨率的TNR的优点还在于：对真实生活的信号提供更加健壮的性能。帧尺寸被减小(步骤70)，并且对于多个小帧尺寸重复该过程。通过在等于基线帧的时间段上对这些较小帧的结果求平均来对它们进行缩放(步骤78)。关于音色分量，在每次传送所述平均比率能够被输出到分类器，或者能够将它们求和成单一值。另外，适当地并行计算音色分量和TNR的不同分辨率。

为了示出多分辨率TNR的提取，考虑下面的例子。基线帧尺寸是4096个取样。以1024、2048以及4096变换长度提取TNR(为简化，没有交叠)。典型结果可以是：

以4096点变换：40db的比率；

以2048点变换(在一个基线帧内总共有2次变换)：28db、20db的比率；

以1024点变换(在一个基线帧内总共有4次变换)：20db、20db、16db以及12db的比率；

在每次传送将传送到NN输入的比率将是40db、24db和17db。或者，可以对这些值进行求和(平均值＝27db)并且输入作为单一值。

通过递增计算多个时间-频率分辨率的算法是模拟的。

噪声基底估计

用于估计音色分量和TNR的噪声基底是环境或信号的非期望部分的度量。例如，如果我们试图根据实况声乐特性对乐器进行分类或分离，噪声基底表示当演奏员没有进行演奏时的房间的平均声音水平。

多个算法可以用于估计帧内的噪声基底。在一个实施方式中，可以对谱线的幅值应用低通FIR滤波器。这种滤波的结果会稍稍高于实际的噪声水平，这是因为它既包括噪声能量又包括音色分量能量。尽管如此，但是可以通过降低阈值进行补偿。如图5所示，更加精确的算法对简单的FIR滤波器方案进行改进以更加接近实际的噪声基底。

通过应用FIR滤波器对噪声基底进行简单估计。

N_{i} = Σ_{k = - \frac{L}{2}}^{\frac{L}{2}} A_{i + k} \cdot C_{k}

其中，N_i-估计出的第i个谱线的噪声基底；

A_i-频率变换之后的谱线的幅值；

C_k-FIR滤波器系数；以及

L-滤波器的长度。

如图5所示，更加精确估计通过对远在噪声基底之上(例如每个频率的FIR输出之上3db)的分量进行标记来提高上面给出的初始低通FIR估计(步骤80)(步骤82)。一旦标记以后，对计数器进行设置，例如J＝0(步骤84)，然后标记的分量(幅值86)由最后FIR结果进行替换(步骤88)。这个步骤有效地从噪声基底的计算去除了音色分量能量。再次应用低通FIR(步骤90)，对远在噪声基底之上的分量进行标记(步骤92)，增大计数器(步骤94)，然后再次由最后FIR结果替换标记的分量(步骤88)。对这个过程重复期望的迭代次数，例如3次(步骤96)。较高次数的迭代将会产生较好精确度。

值得注意，噪声基底估计自身可以用作特征以描述及分离音频信源。

倒谱峰(Cepstrum)

倒谱分析通常使用在语音处理相关应用中。倒谱的各种特征可以用作处理的参数。倒谱还描述了其它类型的高谐波信号。倒谱是对分贝谱(就好像它是信号)进行逆傅立叶变换的结果。提取倒谱峰的过程如下：

1.将音频信号分离成一系列帧(步骤16)。

2.对每帧中的信号加窗(步骤18)。

4.计算倒谱：

a.计算加窗信号的频率变换，例如FFT(步骤100)；

b.计算谱线幅值的对数幅值(步骤102)；以及

c.计算对数幅值上的逆变换(步骤104)。

5.倒谱峰是倒谱中的最大值的数值和位置(步骤106)。

神经网络分类器

许多已知类型的神经网络适于操作作为分类器。神经网络架构和训练算法技术的当前状态使得前馈网络(分层网络，其中每层仅从前层接收输入)成为非常好的候选。现有的训练算法提供了稳定结果和良好推广。

如图7所示，前馈网络110包括输入层112、一个或更多隐藏层114以及输出层116。输入层中的神经元接收全集的提取特征118和各个权重。离线监控训练算法对这些特征按照其传送到每个神经元的权重进行调谐。隐藏层包括具有非线性激活功能的神经元。具有非线性传递功能的神经元的多个层允许网络学习输入和输出信号之间的非线性和线性关系。输出层中神经元的数目等于分类器可以识别的信源类型的数目。网络的每个输出通知一定类型的信源120的存在，并且值[0，1]表示输入信号包括给定音频信号的置信度。如果采用子带滤波，则输出神经元的数目可以等于信源数目与子带数目的乘积。这种情况下，神经元的输出表示在特定子带中存在特定信源。输出神经元能够“按照原状”被传送，施加阈值从而仅保留一定水平之上的神经元值，或者施加阈值从而仅保留一个最主要的信源。

应该用具有充足代表性的信号集合对该网络进行预训练。例如，对于能够识别包括男声、女声、打击乐器和弦乐器的四种不同唱片的系统，所有类型的信源应该有充分类型存在于训练集合中。由于神经网络的归纳能力，没有必要全部地呈现所有可能类型的信源。每个唱片应该通过算法的特征提取部分。然后，提取的特征被任意混合到两个数据集合，这两个数据集合是训练和验证。然后，已知监控训练算法之一用于训练该网络(例如，诸如Levenberg-Marquardt算法)。

分类器的健壮性十分依赖提取特征的集合。如果这些特征一起区分不同的信源，则分类器将会良好执行。用于增加标准音频特征的多分辨率和子带滤波的实施方式呈现了更加丰富的特征集合，从而对单音信号中的音频信源进行区分和正确分类。

在示例性实施例中，对于5-3-3前馈网络架构(输入层上5个神经元、隐藏层中3个神经元以及输出层上3个神经元)，在所有层上具有tansig(双曲正切)激励器函数，从而5-3-3前馈网络架构能够良好地执行三种类型的信源即语音、打击乐和管弦乐的分类。在所使用的前馈架构中，给定层的每个神经元连接到前层(除了输入层)的每个神经元。输入层中的每个神经元接收提取特征的完全集合。呈现到该网络的特征包括多分辨率音色分量、多分辨率TNR以及倒谱峰，对这些特征进行预先归一化以进入[-1:1]范围内。网络的第一输出通知信号中存在语音信源。第二输出通知存在弦乐器。最后，第三输出被训练为通知存在打击乐器。

在每层，使用“tansig”激励器函数。用于计算第j层中的第k神经元的输出的有效计算公式给出如下：

A_{j, k} = \frac{2}{1 + \exp (- 2 \cdot \underset{i}{Σ} W_{j, k}^{i} \cdot A_{j - 1, i})} - 1

其中，A_j，k-第j层中第k神经元的输出；

-那个神经元的第i个权重(训练期间设置)。

对于输入层，该公式如下：

A_{j, k} = \frac{2}{1 + \exp (- 2 \cdot \underset{i}{Σ} W_{j, k}^{i} \cdot F_{j})} \overset{5}{-} 1

其中，F_i-第i特征；

-那个神经元的第i个权重(训练期间设置)。

为了测试简单的分类器，由三个不同种类的音频信号串接成长的音频文件。蓝线表示实际存在语音(德语语音)130、打击乐器(hi-hats)132以及弦乐器(声学吉他)134。文件的长度大约是800帧，其中起先的370个帧是语音，接下来的100个帧是打击乐，最后的350个帧是管弦乐。这些蓝线中的突然消失对应于输入信号中的寂静时间段。绿线表示由分类器给出的语音140、打击乐142和144的预测。对该输出值进行滤波以减小噪声。网络输出与0或1的距离是分类器确定输入信号包括那个特定音频信源的置信度度量。

尽管该音频文件表示其中实际上没有任何音频信源同时存在的单音信号，但是它足以且较简单地示出分类器的性能。如图8c所示，分类器可以高置信度无错误地识别弦乐器。如图8a和8b所示，尽管存在一些交叠，但是关于语音和打击信号的性能是令人满意的。使用多分辨率音色分量能够更加有效地在打击乐器与语音片段(实际上，未出声的语音片段)之间进行区分。

分类器输出可以用作前端以为源分离算法(例如，ICA)形成多个音频信道或用作后处理算法的参数(例如，对音乐进行分类，跟踪信源，为导航目的产生音频索引，以及重新混合、安全性和监控、电话和无线通信以及电视会议)。

如图9所示，分类器用作诸如ICA的盲源分离(BSS)算法150的前端，其需要尽量分离如信源一样多的输入信道。假定BSS算法希望从单音信号分离语音信源、打击乐信源以及管弦乐信源，这是它不能够完成的。对于语音、打击乐以及管弦乐，可以对NN分类器设置输出神经元152。神经元值用作权重，从而将音频信道156中的单音音频信号的每帧混合到三个分离的音频信道，其中一个音频信道用于语音158，一个用于打击乐160，一个用于管弦乐162。这些权重可以是神经元的实际值或施加阈值的值，用于识别每帧的一个主要信号。还可以使用子带滤波改进这个过程，并且由此为BSS产生更多的输入信道。BSS使用强大的算法以进一步细化NN分类器提供的初始源分离。

如图10所示，NN输出层神经元170能够用于后处理器172中，其中后处理器172对音频信道174中的单音音频信号进行操作。

跟踪-算法能够施加到采用逐帧工作的其它算法(例如，BSS)而获得的各个信道。通过该算法的输出的帮助，相邻帧的链接可以变得可行或者更稳定或简单。

音频识别和音频检索引擎—提取的信号类型模式以及可能的它们持续时间能够用作数据库中的索引(或者用作哈希表的关键字)。

编解码器—关于信号类型的信息允许编解码器对生理声学模型、比特分配或其它编码参数进行精细调谐。

信源分离的前端—诸如ICA的算法需要的输入信道数目至少是信源数目。我们的算法可以用于从单一信道形成多个音频信道，或者增加可用的独立输入信道的数目。

重新混合—通过中间的后处理算法(诸如均衡器)，独立分离的信道可以被重新混合为单音表示(或者具有减少信道数目的表示)。

安全性和监控—算法输出可以用作后处理算法中的参数，从而增强记录音频的可理解度。

电话和无线通信以及电视会议—算法能够用于分离各个扬声器/信源，并且后处理算法能够分配立体声或多信道环境中的各个虚拟位置。减小数目的信道(或者可能仅是单一信道)将必须被发送。

尽管已经示出和描述了本发明的几个示例性实施例，但是本领域技术人员可以想到多种变型和替换实施例。探讨这些变型和替换实施例，并且可以在不脱离权利要求定义的本发明的精神和范围的情况下，做出这些变型和替换实施例。

Claims

1.一种从单音音频信号分离音频信源的方法，包括：

(a)提供包括多个未知音频信源的下混合的单音音频信号；

(b)将所述音频信号分离成一系列基线帧；

(c)对每帧加窗；

(d)从每个基线帧提取多个音频特征，其用于区分所述音频信源；以及

(e)将所述音频特征施加到神经(NN)网络分类器，其中所述神经(NN)网络分类器使用具有所述音频特征的音频信源的代表性集合被训练，所述神经网络分类器输出被包括在所述单音音频信号的每个所述基线帧内的音频信源的至少一个度量。

2.权利要求1所述的方法，其中从包括至少语音、管弦乐以及打击乐的音乐信源集合中选择所述多个未知的音频信源。

3.权利要求1所述的方法，还包括：

对不同的帧尺寸重复步骤(b)到步骤(d)以在多个分辨率下提取特征；以及

将不同分辨率下提取的音频特征缩放为所述基线帧。

4.权利要求3所述的方法，还包括：将每种分辨率下的所述缩放特征施加到所述NN分类器。

5.权利要求3所述的方法，还包括：将每种分辨率下的所述缩放特征融合为施加到所述NN分类器的单个特征。

6.权利要求1所述的方法，还包括：将所述帧滤波成多个频率子带并且从所述子带提取所述音频特征。

7.权利要求1所述的方法，还包括：对所述分类器输出进行低通滤波。

8.权利要求1所述的方法，其中从包括音色分量、声调/噪声比(TNR)和倒谱峰的集合中选择一个或更多音频特征。

9.权利要求8所述的方法，其中通过如下步骤提取所述音色分量：

(f)将频率变换施加到每帧的加窗信号；

(g)计算频率变换中的谱线的幅值；

(h)估计噪声基底；

(i)将超过所述噪声基底一定阈值量的谱分量识别为音色分量；

(j)将所述音色分量的数目输出作为所述音色分量特征。

10.权利要求9所述的方法，其中所述频率变换的长度等于一定时间-频率分辨率下的所述帧内的音频取样数目。

11.权利要求10所述的方法，还包括：

对于不同的帧和变换长度重复步骤(f)到步骤(i)；以及

输出每个时间-频率分辨率下的音色分量的累积数目。

12.权利要求8所述的方法，其中通过如下步骤提取所述TNR：

(k)将频率变换施加到每帧的加窗信号；

(l)计算频率变换中的谱线的幅值；

(m)估计噪声基底；

(n)确定识别出的音色分量的能量与所述噪声基底的比率；以及

(o)输出所述比率作为所述TNR特征。

13.权利要求12所述的方法，其中所述频率变换的长度等于一定时间-频率分辨率下的所述帧内的音频取样数目。

14.权利要求13所述的方法，还包括：

对于不同的帧和变换长度重复步骤(k)到步骤(n)；以及

在等于所述基线帧的时间段上对来自不同分辨率的所述比率求平均。

15.权利要求12所述的方法，其中通过如下步骤估计所述噪声基底：

(p)对谱线的幅值施加低通滤波器；

(q)对远在所述滤波器输出之上的分量进行标记；

(r)用所述低通滤波器输出替代所述标记分量；

(s)将步骤(a)到步骤(c)重复多次；以及

(t)输出所得到的分量作为所述噪声基底估计。

16.权利要求1所述的方法，其中所述神经网络分类器包括多个输出神经元，所述多个输出神经元中的每一个指示所述单音音频信号中的某音频信源的存在。

17.权利要求16所述的方法，其中所述每个输出神经元的值指示所述基线帧包括所述某音频信源的置信度。

18.权利要求1所述的方法，还包括：使用所述度量将所述单音音频信号重新混合到多个音频信道，用于所述代表性集合中的各个音频信源。

19.权利要求18所述的方法，其中通过将所述单音音频信号切换到被识别为最主要的音频信道来将其重新混合。

20.权利要求18所述的方法，其中所述神经网络分类器输出所述代表性集合中的每一个音频信源的度量，其中所述度量指示所述帧包括对应的音频信源的置信度，所述单音音频信号被所述每个度量衰减并且被发送到所述各个音频信源。

21.权利要求18所述的方法，还包括：使用源分离算法对所述多个音频信道进行处理，所述源分离算法需要至少等于音频信源数目的输入音频信道，以将所述多个音频信道分离为等于或小于多个所述音频信源。

22.权利要求21所述的方法，其中所述源分离算法基于盲源分离(BSS)。

23.权利要求1所述的方法，还包括：将所述单音音频信号和所述度量序列传递到后处理器，所述后处理器使用所述度量增强所述单音音频信号的后处理。

24.一种从单音音频信号分离音频信源的方法，包括：

(a)提供包括多个未知音频信源的下混合的单音音频信号；

(b)将所述音频信号分离成一系列基线帧；

(c)对每帧进行加窗；

(e)对不同的帧尺寸重复步骤(b)到步骤(d)，以在多个分辨率下提取特征；

(f)将不同分辨率下所提取的音频特征缩放为所述基线帧；以及

(g)将所述音频特征施加到神经(NN)网络分类器，神经(NN)网络分类器在具有所述音频特征的音频信源的代表性集合上被训练，所述神经网络分类器具有多个输出神经元，每一个输出神经元通知每个基线帧的单音音频信号中的某音频信源的存在。

25.一种音频信源分类器，包括：

成帧器，用于将包括多个未知音频信源的下混合的单音音频信号分离成一系列加窗的基线帧；

特征提取器，用于从每个基线帧提取多个音频特征，其用于区分所述音频信源；以及

神经网络(NN)分类器，在具有所述音频特征的音频信源的代表性集合上被训练，所述神经网络分类器接收所提取的音频特征并且输出被包括在所述单音音频信号的每个所述基线帧内的音频信源的至少一个度量。

26.权利要求25所述的音频信源分类器，其中所述特征提取器在多个时间-频率分辨率下提取一个或更多所述音频特征。

27.权利要求25所述的音频信源分类器，其中所述NN分类器具有多个输出神经元，每个输出神经元通知每个基线帧的单音音频信号中的某音频信源的存在。