CN1679083A

CN1679083A - 不利环境中的多信道语音检测

Info

Publication number: CN1679083A
Application number: CNA038201585A
Authority: CN
Inventors: R·V·巴兰; J·罗斯卡; C·博格安特
Original assignee: Siemens Corporate Research Inc
Current assignee: Siemens AG
Priority date: 2002-08-30
Filing date: 2003-07-21
Publication date: 2005-10-05
Anticipated expiration: 2023-07-21
Also published as: DE60316704T2; DE60316704D1; US20040042626A1; EP1547061B1; EP1547061A1; WO2004021333A1; CN100476949C; US7146315B2

Abstract

本发明提供了多信道源活动检测系统(例如，语音活动检测(VAD)系统)和采用目标音频源的空间定位的方法。所述方法包括步骤：通过至少两个麦克风(102、104)接收混音信号；通过快速傅立叶变换将接收混音信号变换到频域(110)；将变换信号滤波以输出与源的空间特征对应的信号(120)；对预定频率范围上的滤波信号绝对值平方求和(122)；以及将总和与阈值比较以确定是否存在语音(124)。此外，滤波步骤包括用噪声频谱功率矩阵的逆(132)、信道传递函数比向量(130)和源信号频谱功率(128)乘以变换信号。

Description

不利环境中的多信道语音检测

技术领域

本发明一般涉及数字信号处理系统，更具体地，本发明涉及不利环境(例如噪声环境)中的语音活动检测系统和方法。

背景技术

在数字处理的实践中，语音(更一般的是声源)活动检测(VAD)是基础问题，并且VAD对系统总体性能的影响经常比其它任何部件都大。噪声条件下的语音编码、多媒体通信(语音和数据)、语音增强以及语音识别是非常重要的应用，其中良好的VAD方法或系统能够充分增强各自系统的性能。VAD方法的任务主要是提取声信号的特征，该特征突出话音和噪声的差别并将它们分类以作出最终的VAD决定。话音和背景噪声的多样性和变化特性使VAD问题变得复杂。

传统地，VAD方法基于长期噪声估计(诸如K.Srinivasan和A.Gersho在1993年10月的《IEEE Speech Coding Workshop》中85-86页的“蜂窝网络的语音活动检测”一文中所公开的)使用能量准则(诸如SNR(信号-噪声比)估计)。建议的改进使用音频信号的统计模型并导出似然比(如Y.D.Cho、K.Al-Naimi和A.Kondoz在IEEE出版社所出版的《Proceedings ICASSP 2001》的“基于平滑统计似然比的改进语音活动检测”一文中所公开的)或者计算峰态(如R.Goubran、E.Nemer和S.Mahmoud1999年7月的《IEEE SignalProcessing Letters》的第六卷第七本的第171-174页的“使用子频带和四次统计的话音信号的SNR估计”一文中所公开的)。或者，其它的VAD方法尝试提取健壮特征(例如音调的存在、共振峰形或倒谱)。最近，已经研究了多信道(例如多麦克风或多传感器)VAD算法以利用附加传感器所提供的额外信息。

发明内容

对于话音传输、增强和识别而言，检测何时存在/不存在语音是突出的问题。这里提供一种新的采用目标音频源的空间定位的多信道源活动检测系统(诸如语音活动检测(VAD)系统)。VAD系统使用阵列信号处理技术以使目标源的信号-干扰比最大化，从而降低活动检测差错率。所述系统使用置于噪声环境(诸如汽车)中的至少两个麦克风的输出并输出二进制信号(0/1)，该二进制信号与不存在(0)或存在(1)司机和/或乘客的语音信号相对应。例如，可由其它的数字处理部件使用VAD输出，以增强语音信号。

根据本发明的一个方面，提供了用于确定混音信号中是否存在语音的方法。所述方法包括以下步骤：由至少两个麦克风接收混音信号，将每个接收混音信号快速傅立叶变换到频域；将变换信号滤波以输出与每个变换信号的空间特征相对应的信号；对预定频率范围上的滤波信号绝对值平方求和；以及将总和与阈值比较以确定是否存在语音，其中如果总和大于或等于阈值，则存在语音，如果总和小于阈值，则不存在语音。此外，滤波步骤包括用噪声频谱功率矩阵的逆矩阵、信道传递函数比向量和源信号频谱功率乘以变换信号。

根据本发明的另一方面，用于确定混音信号中是否存在语音的方法包括以下步骤：由至少两个麦克风接收混音信号；将每个接收混音信号快速傅立叶变换到频域；将变换信号滤波以输出与预定数量用户中的每一个的空间特征对应的信号；对每个用户单独对预定频率范围上的滤波信号绝对值平方求和；确定总和中的最大者；以及将最大总和与阈值比较以确定是否存在语音，其中如果总和大于或等于阈值，则存在语音，如果总和小于阈值，则不存在语音，其中如果存在语音，将与最大总和相关联的特定用户确定为活动说话者。用接收混音信号修改阈值。

根据本发明的另一方面，提供了用于确定混音信号中是否存在语音的语音活动检测器。语音活动检测器包括：至少两个麦克风，用于接收混音信号；快速傅立叶变换器，用于将每个接收混音信号变换到频域；滤波器，用于将变换信号滤波以输出与说话者的估计空间特征对应的信号；第一加法器，用于对预定频率范围上的滤波信号绝对值平方求和；以及比较器，用于将总和与阈值比较以确定是否存在语音，其中如果总和大于或等于阈值，则存在语音，如果总和小于阈值，则不存在语音。

根据本发明的另一方面，用于确定混音信号中是否存在语音的语音活动检测器包括：至少两个麦克风，用于接收混音信号；快速傅立叶变换器，用于将每个接收混音信号变换到频域；至少一个滤波器，用于将变换信号滤波以输出与预定数量用户中的每一个的说话者的空间特征对应的信号；至少一个第一加法器，用于对每个用户单独对预定频率范围上的滤波信号绝对值平方求和；处理器，用于确定总和中的最大者；比较器，用于将最大总和与阈值比较以确定是否存在语音，其中如果总和大于或等于阈值，则存在语音，如果总和小于阈值，则不存在语音，其中如果存在语音，将与最大总和相关联的特定用户确定为活动说话者。

附图说明

根据以下结合附图的详细描述，本发明的上述和其他的目的、特征和优点将变得更加清楚，附图中：

图1A和图1B是示意图，示出用于实现本发明系统和方法的两种情况，其中图1A示出使用两个固定车内麦克风的情况，图1B示出使用一个固定麦克风和包含在移动电话中的第二麦克风的情况；

图2是框图，示出根据本发明的第一实施例的语音活动检测(VAD)系统和方法；

图3是流程图，示出考虑的用于评价VAD方法的差错类型；

图4是图表，示出在中级噪声、远程麦克风的情况下帧差错率对差错类型和全部差错；

图5是图表，示出在高噪声、远程麦克风的情况下帧差错率对差错类型和全部差错；

图6是框图，示出根据本发明的第二实施例的语音活动检测(VAD)系统和方法。

具体实施方式

将在下文中参考附图描述本发明的优选实施例。为了避免因不必要的细节而使本发明不明显，在以下描述中，没有详细描述已知的功能或结构。

提供一种多信道VAD(语音活动检测)系统和方法，用于确定信号中是否存在话音。空间定位是支持本发明的关键，其可等同地用于感兴趣的语音和非语音信号。为了阐述本发明，假设以下情况：目标源(诸如说话的人)位于噪声环境中，两个或多个麦克风记录音频混合。例如，如图1A和图1B所示，在汽车内通过两个麦克风(其中一个麦克风102固定在车内，第二麦克风104可固定在车内或位于移动电话106中)测量两个信号。在车内只有一个说话者，或者如果存在更多的人，则在某个时刻仅有一个说话者。假设d是用户的数量。假设噪声是扩散的，但不一定是均匀的(即在空间上并没有很好地将噪声源定位，并且频谱相干矩阵可能是时变地)。在这种情况下，本发明的系统和方法盲目地识别混合模型并且输出与空间特性对应的信号，该信号具有可通过线性滤波获得的最大信号-干扰比(SIR)。虽然输出信号包含大量的人工产物信号并且并不适合信号估计，但该输出信号对于信号活动检测而言仍是理想的。

为了理解本发明的不同特征和优点，下文将提供示例性实现方式的详细描述。在第一部分中提供混合模型和主统计假设。第二部分示出滤波器推导并提出总体VAD结构。第三部分强调了盲目的模型识别问题。第四部分讨论了使用的评价标准，第五部分讨论了关于真实数据的实现问题和实验结果。

1. 混合模型和统计假设

时域混合模型假设D个麦克风信号x₁(t)、…、x_D(t)，这些麦克风信号记录源信号s(t)和噪声信号n₁(t)、…、n_D(t)：

x_{i} (t) = Σ_{k = 0}^{L_{i}} a_{k}^{i} s (t - τ_{k}^{i}) + n_{i} (t), i = 1, . . . D - - - (1)

其中(α_k ⁱ，τ_k ⁱ)是到麦克风i的第k条通路上的衰减和延迟，L_i是到麦克风i的全部通路数量。

在频域中，卷积变为乘法。因此，将源被重新定义以使第一信道传递函数K变为单位元素：

X₁(k，w)＝S(k，w)+N₁(k，w)

X₂(k，w)＝K₂(w)S(k，w)+N₂(k，w)

.... (2)

X_D(k，w)＝K_D(w)S(k，w)+N_D(k，w)

其中k是帧索引，w是频率索引。

可将该模型更简化地改写为

X＝KS+N (3)

其中X、K、N是复向量。向量K代表源s的空间特性。

作出以下假设：(1)对于所有的i而言，源信号s(t)在统计上独立于噪声信号n_i(t)；(2)混合参数K(w)是时不变变或者慢时变的；(3)S(w)是具有频谱功率的零平均值随机过程。

和(4)(N₁，N₂，…N_D)是具有噪声频谱功率矩阵R_n(w)的零均值随机信号。

2. 滤波器推导和VAD结构

在本部分中，在VAD系统的总体系统结构中推导并实现了最佳增益滤波器。

加在X上的线性滤波器A产生：

Z＝AX＝AKS+AN

需要使SNR(SIR)最大化的线性滤波器。通过A得到的输出SNR(oSNR)是：

使A上的oSNR最大化导致广义本征值问题：AR_n＝λAKK^*，其最大化可基于在先技术中已知的瑞利商原理得到：

A = μ K^{*} R_{n}^{- 1}

其中③是任意非零标量。上述表达式暗示通过具有输入相关阈值的能量检测器运行输出Z以判定当前数据帧中是否存在源信号。语音活动检测(VAD)判定变为：

其中阈值τ是B|X|²，并且B＞0是恒定提高因子。由于一方面将A确定为乘法常量，另一方面，当存在信号时，需要最大输出能量，可以确定③＝估计的信号频谱功率R_s。滤波器变为：

A = R_{s} K^{*} R_{n}^{- 1} - - - (6)

基于上述描述，图2中提出了本发明VAD的总体结构。VAD判定是基于等式5和6。如下文所述，从数据估计K、R_s和R_n。

参考图2，分别在信道106和信道108上从麦克风102和麦克风104输入信号x₁和x_D。信号x₁和x_D是时域信号。通过快速傅立叶变换器110将信号x₁和x_D分别变换为频域信号X₁和X_D，并在信道112和114上将频域信号X₁和X_D输出到滤波器A 120。滤波器120基于上述的等式(6)处理信号X₁和X_D以产生与每个变换信号的空间特性对应的输出Z。将在下文中详细描述应用在滤波器120的变量R_s、R_n和K。在加法器122中处理输出Z并在某个频率范围上累加Z以产生总和|Z|²(即滤波信号绝对值平方)。然后在比较器124中将总和|Z|²与阈值τ比较以确定是否存在语音。如果总和大于或等于阈值τ，则确定为存在语音，并且比较器124输出为1的VAD信号。如果总和小于阈值τ，则确定为不存在语音，并且比较器输出为0的VAD信号。

为了确定阈值，将频域信号X₁、…、X_D输入第二加法器116，在第二加法器116上对信号X₁、X_D(D是麦克风的数量)的信号绝对值平方求和，并且对某个频率范围上的上述总和求和以得到总和|X|²。然后通过乘法器118将提高因子B乘以总和|X|²以确定阈值τ。

3. 混合模型识别

已经提出了传递函数比K和频谱功率密度R_s及R_n的估计器。同样在更新K、R_s和R_n的过程中采用了最近的有效VAD信号。

3.1 K基于适应模型的估计器

继续参考图2，适应估计器130估计K(用户空间特性)的值，它使用直接混合模型以降低参数的数量：

K_{1} (w) = a_{l} e^{iw δ_{l}}, l &GreaterEqual; 2, K_{1} (w) = 1 - - - (7)

如在先技术中已知的，使用弗罗贝尼乌斯范数(Frobenius norm)选择最适合

R_x(k，w)＝R_s(k，w)KK^*+R_n(k，w) (8)的参数(a₁，

)，其中R_x是测量信号频谱协方差矩阵。因此，应该使下列等式最小化：

I (a_{2}, . . . a_{D}, δ_{2}, . . . δ_{D}) = \underset{w}{Σ} trace {{(R_{x} - R_{n} - R_{s} K K^{*})}^{2}} - - - (9)

由于相同的参数(a₁，

)2[I[D应该解释所有的频率，故以上的总和为交叉频率。当前估计(a₁，

)2[I[D上评价的1的梯度是：

\frac{&PartialD; I}{&PartialD; a_{1}} = - 4 \underset{w}{Σ} R_{s} \cdot real (K^{*} E v_{l}) - - - (10)

\frac{&PartialD; I}{&PartialD; δ_{1}} = - 2 a_{1} \underset{w}{Σ} w R_{s} \cdot imag (K^{*} E v_{l}) - - - (11)

其中E＝R_x-R_n-R_sKK^*并且v₁是D向量(除了在第1元为

外，

其它位置都为零)，

那么，更新规则可代表为：

a_{l}^{1} = a_{l} - &Proportional; \frac{&PartialD; I}{&PartialD; a_{l}} - - - (12)

δ_{l}^{1} = δ_{l} - &Proportional; \frac{&PartialD; I}{&PartialD; δ_{l}} - - - (13)

其中

是学习率。

3.2频谱功率密度的估计

开始通过第一学习模块132测量噪声频谱功率矩阵R_n。随后，R_n的估计是基于最近的由比较器124产生的可用VAD信号，简单地通过下式代表：

其中β是最低限度相关常数(floor-dependent constant)。在由等式(14)确定了R_n后，将结果发送到更新滤波器120。

通过频谱减法估计信号频谱功率R_B。由基于频域输入信号X₁、X_D的第二学习模块126确定测量信号频谱协方差矩阵R_x，将R_x和从第一学习模块132产生的R_n一道输入频谱减法器128。然后通过：

确定R_s，其中是最低限度相关常数。在由等式(15)确定了R_s之后，将结果发送到更新滤波器120。

4. VAD性能标准

为了评价本发明VAD系统的性能，必须定义当将VAD信号与真源存在信号(true source presence signal)比较时所能得到的可能差错。差错考虑了VAD预测的背景(即，在以下的(见图3)当前数据帧的状态之前和之后的真VAD状态(存在或不存在所需信号))：(1)检测为有用信号(例如，话音)的噪声；(2)在实际启动真信号之前检测为信号的噪声；(3)在真噪声背景中检测为噪声的信号；(4)在信号的开始所延迟的信号检测；(5)在真信号退去之后检测为信号的噪声；(6)在具有信号存在的帧之间的检测为信号的噪声；(7)在活动信号部分的末尾检测为噪声的信号；以及(8)在信号活动期间检测为噪声的信号。

在先技术文献主要涉及四种差错类型，其示出话音被错误地分类为噪声(如上述地类型3、4、7、8)。一些仅仅考虑了差错1、4、5、8：这些差错称为“检测为话音的噪声”(1)、“前端限幅”(2)、“在从话音变为噪声的过程中解译为话音的噪声”(5)以及“中话音(midspeech)限幅”(8)(如F.Beritelli、S.Casale和G.Ruggeri在2001年IEEE出版社的《Proceedings ICASSP》中的“itu-t/etsi语音活动检测器的性能评价和比较”一文中所描述的)。

评价本发明的目的在于在三个问题方面评估VAD系统和方法：(1)话音传输/编码，其中差错类型3、4、7、8应该尽可能少以便极少将话音限幅并且传输所有感兴趣的数据(除了噪声之外的语音)；(2)话音增强，其中差错类型3、4、7、8应该尽可能少，不过在决定感兴趣的公共环境中有多嘈杂以及非平稳噪声(non-stationary noise)是怎样的时候可将差错1、2、5、6加权；以及(3)话音识别(SR)，其中考虑了所有的差错。特别地，差错类型1、2、5、6对于非限制SR而言是重要的。将背景噪声正确地分类为非话音使SR可以有效地在感兴趣的帧上工作。

5. 实验结果

比较三个VAD算法：(1-2)两种常规适应多速率(AMR)算法(AMR1和AMR2)的实现，目的在于不连续传输语音；以及(3)遵循本发明方法、使用D＝2个麦克风的双信道(TwoCh)VAD系统。对以两个装置在汽车环境中记录的真实数据来评价所述算法。其中两个传感器(即麦克风)互相靠近或者远离。对于每种情况而言，从静止状态开始，分开记录驾驶时的汽车噪声并将该噪声添加在汽车噪声记录上。对于传感器靠近和远离的情况而言，“中等噪声”测试组(test suite)的平均输入SNR分别是0dB和-3dB。在两种情况下，也考虑了第二测试组“高噪声”，其中考虑输入SNR又降低了3dB。

5.1 算法实现

AMR1和AMR2算法的实现是基于常规GSM AMR话音编码器版本7.3.0。VAD算法使用编码器所计算的结果，该结果可取决于编码器输入模式，因此在这里使用MRDTX的固定模式。所述算法指示每个20ms帧(在8KHz的采样率上160个采样帧长度)是否包含应该传输的信号(即话音、音乐或通知音)。VAD算法的输出是布尔标志(Boolean flag)，其指示这样的信号的存在。

对于基于MaxSNR滤波器、在上文中提出的基于适应模型的K估计器和频谱功率密度估计器的Twoch VAD而言，使用以下参数：提高因子B＝100，学习率 (在K估计中)， (对于R_n而言)，并且 (在频谱减法中)。按组执行处理，其中帧大小是256个采样，时间步长为160个采样。

5.2结果

得到仅具有简单功率电平语音检测器的、在汽车上标记语音数据的理想VAD。然后，得到在研究中具有三种算法的总体VAD差错。差错代表具有不同于理想VAD的判定的帧相对于处理的帧的总数的平均百分比。

图4和图5显示出通过中等和高噪声情况中的三种算法所得到的单独差错和总体差错。表1汇总了当将TwoCh VAD与AMR2相比较时所得到的平均结果。需要注意的是，在所述的测试中，单AMR算法利用两个信道中最好(最高SNR)的一个信道(手动挑选该信道)。

数据	中等噪声	高噪声
数据	中等噪声	高噪声	最佳麦克风(靠近)	54.5	25
最差麦克风(靠近)	56.5	29	最佳麦克风(靠近)	54.5	25
最差麦克风(靠近)	56.5	29	最佳麦克风(远离)	65.5	50
最差麦克风(远离)	68.7	54	最佳麦克风(远离)	65.5	50

表1：对通过两个数据和麦克风配置的两信道VAD而言，关于AMR2总体差错率的百分比改进

当比较差错类型1、4、5、8时，TwoCh VAD优于其它方法。就类型3、4、7、8的差错而言，关于TwoCh VAD解决方案，AMR2具有微小的边缘，TwoCh VAD解决方案确实没有使用特殊的逻辑或释放延迟(hangover)方案来提高结果。然而，使用不同的参数设置(特别是提高因子)，TwoCh VAD与AMR2在这个差错子集上不相上下。尽管如此，就总体差错率而言，TwoCh VAD明显优于其它方法。

图6提供了框图，该框图示出根据本发明第二实施例的语音活动检测(VAD)系统和方法。在第二实施例中，除了确定是否存在语音之外，当VAD判定是肯定时，所述系统和方法确定哪一个说话者在发声。

可以理解图6的若干元件和图2中所描述的元件具有相同的结构和功能，因此，使用相同的标号表示图6的这些元件，并且不会关于图6再详细描述这些元件。此外，本实施例描述了两个麦克风的系统，对于本领域的技术人员而言，显而易见的是可将该系统扩展到多于两个麦克风。

在本实施例中，不是估计比率信道传递函数K，而是在初始校准阶段，通过校准器650针对全部d个说话者中的每一个来进行确定。只要在说话者和麦克风之间存在足够的空间差异(例如在车中当说话者不是相对麦克风对称坐着时)，则每个说话者具有不同的K。

在校准阶段，在不存在噪声(或低电平噪声)时，d个用户的每一个分别说话。基于麦克风602和604所接收的两个原始记录x₁(t)、x₂(t)，通过

K (ω) = \frac{Σ_{l = 1}^{F} X_{2}^{c} (l, ω) \overset{&OverBar;}{X_{1}^{c} (l, ω)}}{Σ_{l = 1}^{F} {| X_{1}^{c} (l, ω) |}^{2}} - - - (16)

估计比率信道传递函数K(ω)，其中X₁ ^c(l，ω)、X₂ ^c(l，ω)代表频率ω上的离散有窗傅立叶变换以及原始信号x₁、x₂的时间帧索引1。由此得到了信道传递函数比的集合K₁(ω)，1≤l≤d，每个说话者有一个。尽管比率信道传递函数(诸如

K (ω) = \frac{X_{2}^{0} (ω)}{X_{1}^{0} (ω)}

)的形式明显更为简单，直接基于该更为简单形式的校准器650不会是健壮的。因此基于等式(16)的校准器650使最小平方问题最小化，从而该校准器对非线性和噪声更加健壮。

一旦确定了每个说话者的K，以与上述图2类似的方式实现VAD判定。然而，本发明的第二实施例检测是否存在d个说话者中任意一个的语音，如果存在，估计哪一个正在发声并且更新噪声频谱功率矩阵R_n和阈值τ。虽然图6的实施例示出了涉及两个说话者的方法和系统，可以理解本发明并不局限于两个说话者并且能够包含具有多个说话者的环境。

在初始的校准阶段之后，分别在信道606和608上从麦克风602和604输入信号x₁和x₂。信号x₁和x₂是时域信号。由快速傅立叶变换器610将信号x₁和x₂分别变换为频域信号X₁和X₂并在信道612和614上将X₁和X₂输出到多个滤波器620-1和620-2。在本实施例中，与系统交互的每个说话者都有一个滤波器。因此，对于d个说话者中的每一个而言，1≤l≤d，滤波器的计算变为

并且从每个滤波器620-1、620-2输出下式：

S_l＝A_lX₁+B_lX₂

(18)

根据上述第一实施例，通过第一学习模块626、第二学习模块632和频谱减法器628来计算提供给滤波器的频谱功率密度R_s和R_n。在校准阶段确定的每个说话者的K将从校准单元650输入到滤波器。

在加法器622-1和622-2中在某个频率范围对来自每个滤波器的输出S_l的求和以产生总和E_l，即滤波信号绝对值的平方，由下式确定：

E_{l} = \underset{ω}{Σ} {| S_{l} (ω) |}^{2} - - - (19)

从图6可以看出，每个滤波器都有加法器，并且可以理解系统600的每个说话者都有滤波器/加法器结合。

然后将总和发送到处理器623以确定所有输入总和(E₁、…E_d)的最大值(例如E_s，1≤s≤d)。然后在比较器624中将最大总和E_s与阈值τ比较以确定是否存在语音。如果总和大于或等于阈值τ，则确定存在语音，比较器624输出为1的VAD信号并且确定用户s是活动的。如果总和小于阈值τ，则确定不存在语音并且比较器输出为0的VAD信号。以与第一实施例相同的方式通过加法器616和乘法器618确定阈值τ。

应该理解可用不同形式的硬件、软件、固件、专用处理器或者上述的结合实现本发明。在一个实施例中，可将本发明作为可触地体现在程序存储设备上的应用程序来用软件实现。可通过包括任何合适结构的机器加载和执行所述应用程序。最好在具有硬件(诸如一个或多个中央处理器(CPU)、随机存取存储器(RAM)和输入/输出(I/O)接口)的计算机平台上实现所述机器。计算机平台也包括操作系统和微指令代码。这里所描述的不同过程和功能可以是微指令代码的一部分或者是经由操作系统执行的应用程序(或者是微指令代码和应用程序的结合)的一部分。此外，不同的其它外围设备(诸如附加的数据存储设备和打印设备)可连接到计算机平台。

还应该理解，由于可以用软件实现附图中所描述的一些组成系统部件和方法步骤，系统部件(或者过程步骤)之间的实际连接可能不同，这取决于将本发明编程的方式。有了本文所提供的本发明的教导，本领域的一般技术人员能够考虑本发明这些和类似的实现或配置。

本发明提出了新的多信道源活动检测器，其采用目标音频源的空间定位。所实现的检测器使目标源的信号-干扰比最大化并且使用双信道输入数据。两信道VAD与对有噪声的车环境中记录的实数据的AMR VAD算法进行比较。两信道算法显示了与当前语音传输技术中使用的现有技术的适应多率算法AMR2相比在差错率方面改进55-70％。

虽然已经结合某些优选实施例示出并描述了本发明，本领域的技术人员会了解，不脱离所附权利要求书中定义的本发明精神和保护范围，可以对本发明作出形式和细节上的不同改动。

Claims

1.一种用于确定混音信号中是否存在语音的方法，所述方法包括以下步骤：

通过至少两个麦克风接收所述混音信号；

将每个接收混音信号快速傅立叶变换到频域；

将变换信号滤波以输出与源的空间特征对应的信号；

对预定频率范围上的滤波信号绝对值平方求和；

将总和与阈值比较以确定是否存在语音，其中如果所述总和大于或等于所述阈值，则存在语音，如果所述总和小于所述阈值，则不存在语音。

2.如权利要求1所述的方法，还包括确定所述阈值的步骤，其中：所述确定所述阈值的步骤包括：

对所述至少两个麦克风上的变换信号绝对值平方求和；

对预定频率范围上的求和变换信号求和以产生第二总和；以及

用提高因子乘以所述第二总和。

3.如权利要求1所述的方法，其特征在于：所述滤波步骤包括用噪声频谱功率矩阵的逆、信道传递函数比向量和源信号频谱功率乘以所述变换信号。

4.如权利要求3所述的方法，其特征在于：由直接路径混合模型确定所述信道传递函数比。

5.如权利要求3所述的方法，其特征在于：通过从测量的信号频谱协方差矩阵中频谱减去所述噪声频谱功率矩阵来确定所述源信号频谱功率。

6.一种用于确定混音信号中是否存在语音的方法，所述方法包括以下步骤：

由至少两个麦克风接收所述混音信号；

将每个接收混音信号快速傅立叶变换到频域；

将变换信号滤波以输出与预定数量用户中的每一个的空间特征对应的信号；

对于每个所述用户单独对预定频率范围上的滤波信号绝对值的平方求和；

确定总和中的最大者；以及

将最大总和与阈值比较以确定是否存在语音，其中如果所述总和大于或等于所述阈值，则存在语音，如果所述总和小于所述阈值，则不存在语音。

7.如权利要求6所述的方法，其特征在于：如果存在语音，则将与所述最大总和相关联的特定用户确定为活动说话者。

8.如权利要求6所述的方法，还包括确定所述阈值的步骤，其中：所述确定所述阈值的步骤包括：

对所述至少两个麦克风上的变换信号绝对值的平方求和；

对预定频率范围上的求和变换信号求和以产生第二总和；以及用提高因子乘以所述第二总和。

9.如权利要求6所述的方法，其特征在于：所述滤波步骤包括用噪声频谱功率矩阵的逆、信道传递函数比向量和源信号频谱功率乘以所述变换信号。

10.如权利要求9所述的方法，其特征在于：对所述预定数量用户的每一个执行所述滤波步骤，并在校准期间对每个用户测量所述信道传递函数比。

11.如权利要求9所述的方法，其特征在于：通过从测量的信号频谱协方差矩阵中频谱减去所述噪声频谱功率矩阵来确定所述源信号频谱功率。

12.一种用于确定混音信号中是否存在语音的语音活动检测器，其包括：

至少两个麦克风，用于接收所述混音信号；

快速傅立叶变换器，用于将每个接收混音信号变换到频域；

滤波器，用于将变换信号滤波以输出与每个变换信号的空间特征对应的信号；

第一加法器，用于对预定频率范围上的滤波信号绝对值平方求和；

比较器，用于将所述总和与阈值比较以确定是否存在语音，其中如果所述总和大于或等于所述阈值，则存在语音，如果所述总和小于所述阈值，则不存在语音。

13.如权利要求12所述的语音活动检测器，还包括：

第二加法器，用于对所述至少两个麦克风上的变换信号绝对值平方求和，并且用于对预定频率范围上的求和变换信号求和以产生第二总和；以及

乘法器，用于将提高因子乘以所述第二总和以确定所述阈值。

14.如权利要求12所述的语音活动检测器，其特征在于：所述滤波器包括乘法器，用于将噪声频谱功率矩阵的逆、信道传递函数比向量和源信号频谱功率乘以所述变换信号以确定与空间特性对应的信号。

15.如权利要求14所述的语音活动检测器，还包括频谱减法器，用于从测量的信号频谱协方差矩阵中频谱减去所述噪声频谱功率矩阵来确定所述信号频谱功率。

16.一种用于确定混音信号中是否存在语音的语音活动检测器，其包括：

至少两个麦克风，用于接收所述混音信号；

快速傅立叶变换器，用于将每个接收混音信号变换到频域；

至少一个滤波器，用于将所述变换信号滤波以输出与预定数量用户中的每一个的空间特征对应的信号；

至少一个第一加法器，用于对每个用户单独对预定频率范围上的滤波信号绝对值平方求和；

处理器，用于确定总和中的最大者；以及

比较器，用于将最大总和与阈值比较以确定是否存在语音，其中如果所述总和大于或等于所述阈值，则存在语音，如果所述总和小于所述阈值，则不存在语音。

17.如权利要求16所述的语音活动检测器，其特征在于：如果存在语音，将与所述最大总和相关联的特定用户确定为活动说话者。

18.如权利要求16所述的语音活动检测器，还包括：

19.如权利要求16所述的语音活动检测器，其特征在于：所述至少一个滤波器包括乘法器，用于将噪声频谱功率矩阵的逆、信道传递函数比向量和源信号频谱功率乘以所述变换信号以确定与空间特性对应的信号。

20.如权利要求19所述的语音活动检测器，还包括校准单元，用于在校准期间确定每个用户的信道传递函数比。

21.如权利要求19所述的语音活动检测器，还包括频谱减法器，用于从测量的信号频谱协方差矩阵中频谱减去所述噪声频谱功率矩阵来确定所述信号频谱功率。

22.一种可由机器读取的程序存储设备，所述程序存储设备可触地体现可由所述机器执行的指令程序以执行用于确定混音信号中是否存在语音的方法步骤，所述方法步骤包括：

由至少两个麦克风接收所述混音信号；

将每个接收混音信号快速傅立叶变换到频域；

将变换信号滤波以输出与源的空间特征对应的信号；

对预定频率范围上的滤波信号绝对值平方求和；