CN1679083A - 不利环境中的多信道语音检测 - Google Patents

不利环境中的多信道语音检测 Download PDF

Info

Publication number
CN1679083A
CN1679083A CNA038201585A CN03820158A CN1679083A CN 1679083 A CN1679083 A CN 1679083A CN A038201585 A CNA038201585 A CN A038201585A CN 03820158 A CN03820158 A CN 03820158A CN 1679083 A CN1679083 A CN 1679083A
Authority
CN
China
Prior art keywords
signal
summation
voice
threshold value
audio signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA038201585A
Other languages
English (en)
Other versions
CN100476949C (zh
Inventor
R·V·巴兰
J·罗斯卡
C·博格安特
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Siemens AG
Original Assignee
Siemens Corporate Research Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens Corporate Research Inc filed Critical Siemens Corporate Research Inc
Publication of CN1679083A publication Critical patent/CN1679083A/zh
Application granted granted Critical
Publication of CN100476949C publication Critical patent/CN100476949C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02165Two microphones, one receiving mainly the noise signal and the other one mainly the speech signal

Abstract

本发明提供了多信道源活动检测系统(例如,语音活动检测(VAD)系统)和采用目标音频源的空间定位的方法。所述方法包括步骤:通过至少两个麦克风(102、104)接收混音信号;通过快速傅立叶变换将接收混音信号变换到频域(110);将变换信号滤波以输出与源的空间特征对应的信号(120);对预定频率范围上的滤波信号绝对值平方求和(122);以及将总和与阈值比较以确定是否存在语音(124)。此外,滤波步骤包括用噪声频谱功率矩阵的逆(132)、信道传递函数比向量(130)和源信号频谱功率(128)乘以变换信号。

Description

不利环境中的多信道语音检测
技术领域
本发明一般涉及数字信号处理系统,更具体地,本发明涉及不利环境(例如噪声环境)中的语音活动检测系统和方法。
背景技术
在数字处理的实践中,语音(更一般的是声源)活动检测(VAD)是基础问题,并且VAD对系统总体性能的影响经常比其它任何部件都大。噪声条件下的语音编码、多媒体通信(语音和数据)、语音增强以及语音识别是非常重要的应用,其中良好的VAD方法或系统能够充分增强各自系统的性能。VAD方法的任务主要是提取声信号的特征,该特征突出话音和噪声的差别并将它们分类以作出最终的VAD决定。话音和背景噪声的多样性和变化特性使VAD问题变得复杂。
传统地,VAD方法基于长期噪声估计(诸如K.Srinivasan和A.Gersho在1993年10月的《IEEE Speech Coding Workshop》中85-86页的“蜂窝网络的语音活动检测”一文中所公开的)使用能量准则(诸如SNR(信号-噪声比)估计)。建议的改进使用音频信号的统计模型并导出似然比(如Y.D.Cho、K.Al-Naimi和A.Kondoz在IEEE出版社所出版的《Proceedings ICASSP 2001》的“基于平滑统计似然比的改进语音活动检测”一文中所公开的)或者计算峰态(如R.Goubran、E.Nemer和S.Mahmoud1999年7月的《IEEE SignalProcessing Letters》的第六卷第七本的第171-174页的“使用子频带和四次统计的话音信号的SNR估计”一文中所公开的)。或者,其它的VAD方法尝试提取健壮特征(例如音调的存在、共振峰形或倒谱)。最近,已经研究了多信道(例如多麦克风或多传感器)VAD算法以利用附加传感器所提供的额外信息。
发明内容
对于话音传输、增强和识别而言,检测何时存在/不存在语音是突出的问题。这里提供一种新的采用目标音频源的空间定位的多信道源活动检测系统(诸如语音活动检测(VAD)系统)。VAD系统使用阵列信号处理技术以使目标源的信号-干扰比最大化,从而降低活动检测差错率。所述系统使用置于噪声环境(诸如汽车)中的至少两个麦克风的输出并输出二进制信号(0/1),该二进制信号与不存在(0)或存在(1)司机和/或乘客的语音信号相对应。例如,可由其它的数字处理部件使用VAD输出,以增强语音信号。
根据本发明的一个方面,提供了用于确定混音信号中是否存在语音的方法。所述方法包括以下步骤:由至少两个麦克风接收混音信号,将每个接收混音信号快速傅立叶变换到频域;将变换信号滤波以输出与每个变换信号的空间特征相对应的信号;对预定频率范围上的滤波信号绝对值平方求和;以及将总和与阈值比较以确定是否存在语音,其中如果总和大于或等于阈值,则存在语音,如果总和小于阈值,则不存在语音。此外,滤波步骤包括用噪声频谱功率矩阵的逆矩阵、信道传递函数比向量和源信号频谱功率乘以变换信号。
根据本发明的另一方面,用于确定混音信号中是否存在语音的方法包括以下步骤:由至少两个麦克风接收混音信号;将每个接收混音信号快速傅立叶变换到频域;将变换信号滤波以输出与预定数量用户中的每一个的空间特征对应的信号;对每个用户单独对预定频率范围上的滤波信号绝对值平方求和;确定总和中的最大者;以及将最大总和与阈值比较以确定是否存在语音,其中如果总和大于或等于阈值,则存在语音,如果总和小于阈值,则不存在语音,其中如果存在语音,将与最大总和相关联的特定用户确定为活动说话者。用接收混音信号修改阈值。
根据本发明的另一方面,提供了用于确定混音信号中是否存在语音的语音活动检测器。语音活动检测器包括:至少两个麦克风,用于接收混音信号;快速傅立叶变换器,用于将每个接收混音信号变换到频域;滤波器,用于将变换信号滤波以输出与说话者的估计空间特征对应的信号;第一加法器,用于对预定频率范围上的滤波信号绝对值平方求和;以及比较器,用于将总和与阈值比较以确定是否存在语音,其中如果总和大于或等于阈值,则存在语音,如果总和小于阈值,则不存在语音。
根据本发明的另一方面,用于确定混音信号中是否存在语音的语音活动检测器包括:至少两个麦克风,用于接收混音信号;快速傅立叶变换器,用于将每个接收混音信号变换到频域;至少一个滤波器,用于将变换信号滤波以输出与预定数量用户中的每一个的说话者的空间特征对应的信号;至少一个第一加法器,用于对每个用户单独对预定频率范围上的滤波信号绝对值平方求和;处理器,用于确定总和中的最大者;比较器,用于将最大总和与阈值比较以确定是否存在语音,其中如果总和大于或等于阈值,则存在语音,如果总和小于阈值,则不存在语音,其中如果存在语音,将与最大总和相关联的特定用户确定为活动说话者。
附图说明
根据以下结合附图的详细描述,本发明的上述和其他的目的、特征和优点将变得更加清楚,附图中:
图1A和图1B是示意图,示出用于实现本发明系统和方法的两种情况,其中图1A示出使用两个固定车内麦克风的情况,图1B示出使用一个固定麦克风和包含在移动电话中的第二麦克风的情况;
图2是框图,示出根据本发明的第一实施例的语音活动检测(VAD)系统和方法;
图3是流程图,示出考虑的用于评价VAD方法的差错类型;
图4是图表,示出在中级噪声、远程麦克风的情况下帧差错率对差错类型和全部差错;
图5是图表,示出在高噪声、远程麦克风的情况下帧差错率对差错类型和全部差错;
图6是框图,示出根据本发明的第二实施例的语音活动检测(VAD)系统和方法。
具体实施方式
将在下文中参考附图描述本发明的优选实施例。为了避免因不必要的细节而使本发明不明显,在以下描述中,没有详细描述已知的功能或结构。
提供一种多信道VAD(语音活动检测)系统和方法,用于确定信号中是否存在话音。空间定位是支持本发明的关键,其可等同地用于感兴趣的语音和非语音信号。为了阐述本发明,假设以下情况:目标源(诸如说话的人)位于噪声环境中,两个或多个麦克风记录音频混合。例如,如图1A和图1B所示,在汽车内通过两个麦克风(其中一个麦克风102固定在车内,第二麦克风104可固定在车内或位于移动电话106中)测量两个信号。在车内只有一个说话者,或者如果存在更多的人,则在某个时刻仅有一个说话者。假设d是用户的数量。假设噪声是扩散的,但不一定是均匀的(即在空间上并没有很好地将噪声源定位,并且频谱相干矩阵可能是时变地)。在这种情况下,本发明的系统和方法盲目地识别混合模型并且输出与空间特性对应的信号,该信号具有可通过线性滤波获得的最大信号-干扰比(SIR)。虽然输出信号包含大量的人工产物信号并且并不适合信号估计,但该输出信号对于信号活动检测而言仍是理想的。
为了理解本发明的不同特征和优点,下文将提供示例性实现方式的详细描述。在第一部分中提供混合模型和主统计假设。第二部分示出滤波器推导并提出总体VAD结构。第三部分强调了盲目的模型识别问题。第四部分讨论了使用的评价标准,第五部分讨论了关于真实数据的实现问题和实验结果。
1. 混合模型和统计假设
时域混合模型假设D个麦克风信号x1(t)、…、xD(t),这些麦克风信号记录源信号s(t)和噪声信号n1(t)、…、nD(t):
x i ( t ) = Σ k = 0 L i a k i s ( t - τ k i ) + n i ( t ) , i = 1 , . . . D - - - ( 1 )
其中(αk i,τk i)是到麦克风i的第k条通路上的衰减和延迟,Li是到麦克风i的全部通路数量。
在频域中,卷积变为乘法。因此,将源被重新定义以使第一信道传递函数K变为单位元素:
X1(k,w)=S(k,w)+N1(k,w)
X2(k,w)=K2(w)S(k,w)+N2(k,w)
        ....                                 (2)
XD(k,w)=KD(w)S(k,w)+ND(k,w)
其中k是帧索引,w是频率索引。
可将该模型更简化地改写为
          X=KS+N                            (3)
其中X、K、N是复向量。向量K代表源s的空间特性。
作出以下假设:(1)对于所有的i而言,源信号s(t)在统计上独立于噪声信号ni(t);(2)混合参数K(w)是时不变变或者慢时变的;(3)S(w)是具有频谱功率的零平均值随机过程。
和(4)(N1,N2,…ND)是具有噪声频谱功率矩阵Rn(w)的零均值随机信号。
2. 滤波器推导和VAD结构
在本部分中,在VAD系统的总体系统结构中推导并实现了最佳增益滤波器。
加在X上的线性滤波器A产生:
Z=AX=AKS+AN
需要使SNR(SIR)最大化的线性滤波器。通过A得到的输出SNR(oSNR)是:
Figure A0382015800121
使A上的oSNR最大化导致广义本征值问题:ARn=λAKK*,其最大化可基于在先技术中已知的瑞利商原理得到:
A = μ K * R n - 1
其中③是任意非零标量。上述表达式暗示通过具有输入相关阈值的能量检测器运行输出Z以判定当前数据帧中是否存在源信号。语音活动检测(VAD)判定变为:
其中阈值τ是B|X|2,并且B>0是恒定提高因子。由于一方面将A确定为乘法常量,另一方面,当存在信号时,需要最大输出能量,可以确定③=估计的信号频谱功率Rs。滤波器变为:
A = R s K * R n - 1 - - - ( 6 )
基于上述描述,图2中提出了本发明VAD的总体结构。VAD判定是基于等式5和6。如下文所述,从数据估计K、Rs和Rn
参考图2,分别在信道106和信道108上从麦克风102和麦克风104输入信号x1和xD。信号x1和xD是时域信号。通过快速傅立叶变换器110将信号x1和xD分别变换为频域信号X1和XD,并在信道112和114上将频域信号X1和XD输出到滤波器A 120。滤波器120基于上述的等式(6)处理信号X1和XD以产生与每个变换信号的空间特性对应的输出Z。将在下文中详细描述应用在滤波器120的变量Rs、Rn和K。在加法器122中处理输出Z并在某个频率范围上累加Z以产生总和|Z|2(即滤波信号绝对值平方)。然后在比较器124中将总和|Z|2与阈值τ比较以确定是否存在语音。如果总和大于或等于阈值τ,则确定为存在语音,并且比较器124输出为1的VAD信号。如果总和小于阈值τ,则确定为不存在语音,并且比较器输出为0的VAD信号。
为了确定阈值,将频域信号X1、…、XD输入第二加法器116,在第二加法器116上对信号X1、XD(D是麦克风的数量)的信号绝对值平方求和,并且对某个频率范围上的上述总和求和以得到总和|X|2。然后通过乘法器118将提高因子B乘以总和|X|2以确定阈值τ。
3. 混合模型识别
已经提出了传递函数比K和频谱功率密度Rs及Rn的估计器。同样在更新K、Rs和Rn的过程中采用了最近的有效VAD信号。
3.1 K基于适应模型的估计器
继续参考图2,适应估计器130估计K(用户空间特性)的值,它使用直接混合模型以降低参数的数量:
K 1 ( w ) = a l e iw δ l , l ≥ 2 , K 1 ( w ) = 1 - - - ( 7 )
如在先技术中已知的,使用弗罗贝尼乌斯范数(Frobenius norm)选择最适合
          Rx(k,w)=Rs(k,w)KK*+Rn(k,w)           (8)的参数(a1
Figure A0382015800132
),其中Rx是测量信号频谱协方差矩阵。因此,应该使下列等式最小化:
I ( a 2 , . . . a D , δ 2 , . . . δ D ) = Σ w trace { ( R x - R n - R s K K * ) 2 } - - - ( 9 )
由于相同的参数(a1
Figure A0382015800134
)2[I[D应该解释所有的频率,故以上的总和为交叉频率。当前估计(a1
Figure A0382015800135
)2[I[D上评价的1的梯度是:
∂ I ∂ a 1 = - 4 Σ w R s · real ( K * E v l ) - - - ( 10 )
∂ I ∂ δ 1 = - 2 a 1 Σ w w R s · imag ( K * E v l ) - - - ( 11 )
其中E=Rx-Rn-RsKK*并且v1是D向量(除了在第1元为
Figure A0382015800142
外,
其它位置都为零),
Figure A0382015800143
那么,更新规则可代表为:
a l 1 = a l - ∝ ∂ I ∂ a l - - - ( 12 )
δ l 1 = δ l - ∝ ∂ I ∂ δ l - - - ( 13 )
其中
Figure A0382015800146
是学习率。
3.2频谱功率密度的估计
开始通过第一学习模块132测量噪声频谱功率矩阵Rn。随后,Rn的估计是基于最近的由比较器124产生的可用VAD信号,简单地通过下式代表:
其中β是最低限度相关常数(floor-dependent constant)。在由等式(14)确定了Rn后,将结果发送到更新滤波器120。
通过频谱减法估计信号频谱功率RB。由基于频域输入信号X1、XD的第二学习模块126确定测量信号频谱协方差矩阵Rx,将Rx和从第一学习模块132产生的Rn一道输入频谱减法器128。然后通过:
Figure A0382015800148
确定Rs,其中 是最低限度相关常数。在由等式(15)确定了Rs之后,将结果发送到更新滤波器120。
4. VAD性能标准
为了评价本发明VAD系统的性能,必须定义当将VAD信号与真源存在信号(true source presence signal)比较时所能得到的可能差错。差错考虑了VAD预测的背景(即,在以下的(见图3)当前数据帧的状态之前和之后的真VAD状态(存在或不存在所需信号)):(1)检测为有用信号(例如,话音)的噪声;(2)在实际启动真信号之前检测为信号的噪声;(3)在真噪声背景中检测为噪声的信号;(4)在信号的开始所延迟的信号检测;(5)在真信号退去之后检测为信号的噪声;(6)在具有信号存在的帧之间的检测为信号的噪声;(7)在活动信号部分的末尾检测为噪声的信号;以及(8)在信号活动期间检测为噪声的信号。
在先技术文献主要涉及四种差错类型,其示出话音被错误地分类为噪声(如上述地类型3、4、7、8)。一些仅仅考虑了差错1、4、5、8:这些差错称为“检测为话音的噪声”(1)、“前端限幅”(2)、“在从话音变为噪声的过程中解译为话音的噪声”(5)以及“中话音(midspeech)限幅”(8)(如F.Beritelli、S.Casale和G.Ruggeri在2001年IEEE出版社的《Proceedings ICASSP》中的“itu-t/etsi语音活动检测器的性能评价和比较”一文中所描述的)。
评价本发明的目的在于在三个问题方面评估VAD系统和方法:(1)话音传输/编码,其中差错类型3、4、7、8应该尽可能少以便极少将话音限幅并且传输所有感兴趣的数据(除了噪声之外的语音);(2)话音增强,其中差错类型3、4、7、8应该尽可能少,不过在决定感兴趣的公共环境中有多嘈杂以及非平稳噪声(non-stationary noise)是怎样的时候可将差错1、2、5、6加权;以及(3)话音识别(SR),其中考虑了所有的差错。特别地,差错类型1、2、5、6对于非限制SR而言是重要的。将背景噪声正确地分类为非话音使SR可以有效地在感兴趣的帧上工作。
5. 实验结果
比较三个VAD算法:(1-2)两种常规适应多速率(AMR)算法(AMR1和AMR2)的实现,目的在于不连续传输语音;以及(3)遵循本发明方法、使用D=2个麦克风的双信道(TwoCh)VAD系统。对以两个装置在汽车环境中记录的真实数据来评价所述算法。其中两个传感器(即麦克风)互相靠近或者远离。对于每种情况而言,从静止状态开始,分开记录驾驶时的汽车噪声并将该噪声添加在汽车噪声记录上。对于传感器靠近和远离的情况而言,“中等噪声”测试组(test suite)的平均输入SNR分别是0dB和-3dB。在两种情况下,也考虑了第二测试组“高噪声”,其中考虑输入SNR又降低了3dB。
5.1   算法实现
AMR1和AMR2算法的实现是基于常规GSM AMR话音编码器版本7.3.0。VAD算法使用编码器所计算的结果,该结果可取决于编码器输入模式,因此在这里使用MRDTX的固定模式。所述算法指示每个20ms帧(在8KHz的采样率上160个采样帧长度)是否包含应该传输的信号(即话音、音乐或通知音)。VAD算法的输出是布尔标志(Boolean flag),其指示这样的信号的存在。
对于基于MaxSNR滤波器、在上文中提出的基于适应模型的K估计器和频谱功率密度估计器的Twoch VAD而言,使用以下参数:提高因子B=100,学习率 (在K估计中), (对于Rn而言),并且 (在频谱减法中)。按组执行处理,其中帧大小是256个采样,时间步长为160个采样。
5.2结果
得到仅具有简单功率电平语音检测器的、在汽车上标记语音数据的理想VAD。然后,得到在研究中具有三种算法的总体VAD差错。差错代表具有不同于理想VAD的判定的帧相对于处理的帧的总数的平均百分比。
图4和图5显示出通过中等和高噪声情况中的三种算法所得到的单独差错和总体差错。表1汇总了当将TwoCh VAD与AMR2相比较时所得到的平均结果。需要注意的是,在所述的测试中,单AMR算法利用两个信道中最好(最高SNR)的一个信道(手动挑选该信道)。
    数据     中等噪声     高噪声
最佳麦克风(靠近)     54.5     25
最差麦克风(靠近)     56.5     29
最佳麦克风(远离)     65.5     50
最差麦克风(远离)     68.7     54
表1:对通过两个数据和麦克风配置的两信道VAD而言,关于AMR2总体差错率的百分比改进
当比较差错类型1、4、5、8时,TwoCh VAD优于其它方法。就类型3、4、7、8的差错而言,关于TwoCh VAD解决方案,AMR2具有微小的边缘,TwoCh VAD解决方案确实没有使用特殊的逻辑或释放延迟(hangover)方案来提高结果。然而,使用不同的参数设置(特别是提高因子),TwoCh VAD与AMR2在这个差错子集上不相上下。尽管如此,就总体差错率而言,TwoCh VAD明显优于其它方法。
图6提供了框图,该框图示出根据本发明第二实施例的语音活动检测(VAD)系统和方法。在第二实施例中,除了确定是否存在语音之外,当VAD判定是肯定时,所述系统和方法确定哪一个说话者在发声。
可以理解图6的若干元件和图2中所描述的元件具有相同的结构和功能,因此,使用相同的标号表示图6的这些元件,并且不会关于图6再详细描述这些元件。此外,本实施例描述了两个麦克风的系统,对于本领域的技术人员而言,显而易见的是可将该系统扩展到多于两个麦克风。
在本实施例中,不是估计比率信道传递函数K,而是在初始校准阶段,通过校准器650针对全部d个说话者中的每一个来进行确定。只要在说话者和麦克风之间存在足够的空间差异(例如在车中当说话者不是相对麦克风对称坐着时),则每个说话者具有不同的K。
在校准阶段,在不存在噪声(或低电平噪声)时,d个用户的每一个分别说话。基于麦克风602和604所接收的两个原始记录x1(t)、x2(t),通过
K ( ω ) = Σ l = 1 F X 2 c ( l , ω ) X 1 c ( l , ω ) ‾ Σ l = 1 F | X 1 c ( l , ω ) | 2 - - - ( 16 )
估计比率信道传递函数K(ω),其中X1 c(l,ω)、X2 c(l,ω)代表频率ω上的离散有窗傅立叶变换以及原始信号x1、x2的时间帧索引1。由此得到了信道传递函数比的集合K1(ω),1≤l≤d,每个说话者有一个。尽管比率信道传递函数(诸如 K ( ω ) = X 2 0 ( ω ) X 1 0 ( ω ) )的形式明显更为简单,直接基于该更为简单形式的校准器650不会是健壮的。因此基于等式(16)的校准器650使最小平方问题最小化,从而该校准器对非线性和噪声更加健壮。
一旦确定了每个说话者的K,以与上述图2类似的方式实现VAD判定。然而,本发明的第二实施例检测是否存在d个说话者中任意一个的语音,如果存在,估计哪一个正在发声并且更新噪声频谱功率矩阵Rn和阈值τ。虽然图6的实施例示出了涉及两个说话者的方法和系统,可以理解本发明并不局限于两个说话者并且能够包含具有多个说话者的环境。
在初始的校准阶段之后,分别在信道606和608上从麦克风602和604输入信号x1和x2。信号x1和x2是时域信号。由快速傅立叶变换器610将信号x1和x2分别变换为频域信号X1和X2并在信道612和614上将X1和X2输出到多个滤波器620-1和620-2。在本实施例中,与系统交互的每个说话者都有一个滤波器。因此,对于d个说话者中的每一个而言,1≤l≤d,滤波器的计算变为
并且从每个滤波器620-1、620-2输出下式:
              Sl=AlX1+BlX2
              (18)
根据上述第一实施例,通过第一学习模块626、第二学习模块632和频谱减法器628来计算提供给滤波器的频谱功率密度Rs和Rn。在校准阶段确定的每个说话者的K将从校准单元650输入到滤波器。
在加法器622-1和622-2中在某个频率范围对来自每个滤波器的输出Sl的求和以产生总和El,即滤波信号绝对值的平方,由下式确定:
E l = Σ ω | S l ( ω ) | 2 - - - ( 19 )
从图6可以看出,每个滤波器都有加法器,并且可以理解系统600的每个说话者都有滤波器/加法器结合。
然后将总和发送到处理器623以确定所有输入总和(E1、…Ed)的最大值(例如Es,1≤s≤d)。然后在比较器624中将最大总和Es与阈值τ比较以确定是否存在语音。如果总和大于或等于阈值τ,则确定存在语音,比较器624输出为1的VAD信号并且确定用户s是活动的。如果总和小于阈值τ,则确定不存在语音并且比较器输出为0的VAD信号。以与第一实施例相同的方式通过加法器616和乘法器618确定阈值τ。
应该理解可用不同形式的硬件、软件、固件、专用处理器或者上述的结合实现本发明。在一个实施例中,可将本发明作为可触地体现在程序存储设备上的应用程序来用软件实现。可通过包括任何合适结构的机器加载和执行所述应用程序。最好在具有硬件(诸如一个或多个中央处理器(CPU)、随机存取存储器(RAM)和输入/输出(I/O)接口)的计算机平台上实现所述机器。计算机平台也包括操作系统和微指令代码。这里所描述的不同过程和功能可以是微指令代码的一部分或者是经由操作系统执行的应用程序(或者是微指令代码和应用程序的结合)的一部分。此外,不同的其它外围设备(诸如附加的数据存储设备和打印设备)可连接到计算机平台。
还应该理解,由于可以用软件实现附图中所描述的一些组成系统部件和方法步骤,系统部件(或者过程步骤)之间的实际连接可能不同,这取决于将本发明编程的方式。有了本文所提供的本发明的教导,本领域的一般技术人员能够考虑本发明这些和类似的实现或配置。
本发明提出了新的多信道源活动检测器,其采用目标音频源的空间定位。所实现的检测器使目标源的信号-干扰比最大化并且使用双信道输入数据。两信道VAD与对有噪声的车环境中记录的实数据的AMR VAD算法进行比较。两信道算法显示了与当前语音传输技术中使用的现有技术的适应多率算法AMR2相比在差错率方面改进55-70%。
虽然已经结合某些优选实施例示出并描述了本发明,本领域的技术人员会了解,不脱离所附权利要求书中定义的本发明精神和保护范围,可以对本发明作出形式和细节上的不同改动。

Claims (22)

1.一种用于确定混音信号中是否存在语音的方法,所述方法包括以下步骤:
通过至少两个麦克风接收所述混音信号;
将每个接收混音信号快速傅立叶变换到频域;
将变换信号滤波以输出与源的空间特征对应的信号;
对预定频率范围上的滤波信号绝对值平方求和;
将总和与阈值比较以确定是否存在语音,其中如果所述总和大于或等于所述阈值,则存在语音,如果所述总和小于所述阈值,则不存在语音。
2.如权利要求1所述的方法,还包括确定所述阈值的步骤,其中:所述确定所述阈值的步骤包括:
对所述至少两个麦克风上的变换信号绝对值平方求和;
对预定频率范围上的求和变换信号求和以产生第二总和;以及
用提高因子乘以所述第二总和。
3.如权利要求1所述的方法,其特征在于:所述滤波步骤包括用噪声频谱功率矩阵的逆、信道传递函数比向量和源信号频谱功率乘以所述变换信号。
4.如权利要求3所述的方法,其特征在于:由直接路径混合模型确定所述信道传递函数比。
5.如权利要求3所述的方法,其特征在于:通过从测量的信号频谱协方差矩阵中频谱减去所述噪声频谱功率矩阵来确定所述源信号频谱功率。
6.一种用于确定混音信号中是否存在语音的方法,所述方法包括以下步骤:
由至少两个麦克风接收所述混音信号;
将每个接收混音信号快速傅立叶变换到频域;
将变换信号滤波以输出与预定数量用户中的每一个的空间特征对应的信号;
对于每个所述用户单独对预定频率范围上的滤波信号绝对值的平方求和;
确定总和中的最大者;以及
将最大总和与阈值比较以确定是否存在语音,其中如果所述总和大于或等于所述阈值,则存在语音,如果所述总和小于所述阈值,则不存在语音。
7.如权利要求6所述的方法,其特征在于:如果存在语音,则将与所述最大总和相关联的特定用户确定为活动说话者。
8.如权利要求6所述的方法,还包括确定所述阈值的步骤,其中:所述确定所述阈值的步骤包括:
对所述至少两个麦克风上的变换信号绝对值的平方求和;
对预定频率范围上的求和变换信号求和以产生第二总和;以及用提高因子乘以所述第二总和。
9.如权利要求6所述的方法,其特征在于:所述滤波步骤包括用噪声频谱功率矩阵的逆、信道传递函数比向量和源信号频谱功率乘以所述变换信号。
10.如权利要求9所述的方法,其特征在于:对所述预定数量用户的每一个执行所述滤波步骤,并在校准期间对每个用户测量所述信道传递函数比。
11.如权利要求9所述的方法,其特征在于:通过从测量的信号频谱协方差矩阵中频谱减去所述噪声频谱功率矩阵来确定所述源信号频谱功率。
12.一种用于确定混音信号中是否存在语音的语音活动检测器,其包括:
至少两个麦克风,用于接收所述混音信号;
快速傅立叶变换器,用于将每个接收混音信号变换到频域;
滤波器,用于将变换信号滤波以输出与每个变换信号的空间特征对应的信号;
第一加法器,用于对预定频率范围上的滤波信号绝对值平方求和;
比较器,用于将所述总和与阈值比较以确定是否存在语音,其中如果所述总和大于或等于所述阈值,则存在语音,如果所述总和小于所述阈值,则不存在语音。
13.如权利要求12所述的语音活动检测器,还包括:
第二加法器,用于对所述至少两个麦克风上的变换信号绝对值平方求和,并且用于对预定频率范围上的求和变换信号求和以产生第二总和;以及
乘法器,用于将提高因子乘以所述第二总和以确定所述阈值。
14.如权利要求12所述的语音活动检测器,其特征在于:所述滤波器包括乘法器,用于将噪声频谱功率矩阵的逆、信道传递函数比向量和源信号频谱功率乘以所述变换信号以确定与空间特性对应的信号。
15.如权利要求14所述的语音活动检测器,还包括频谱减法器,用于从测量的信号频谱协方差矩阵中频谱减去所述噪声频谱功率矩阵来确定所述信号频谱功率。
16.一种用于确定混音信号中是否存在语音的语音活动检测器,其包括:
至少两个麦克风,用于接收所述混音信号;
快速傅立叶变换器,用于将每个接收混音信号变换到频域;
至少一个滤波器,用于将所述变换信号滤波以输出与预定数量用户中的每一个的空间特征对应的信号;
至少一个第一加法器,用于对每个用户单独对预定频率范围上的滤波信号绝对值平方求和;
处理器,用于确定总和中的最大者;以及
比较器,用于将最大总和与阈值比较以确定是否存在语音,其中如果所述总和大于或等于所述阈值,则存在语音,如果所述总和小于所述阈值,则不存在语音。
17.如权利要求16所述的语音活动检测器,其特征在于:如果存在语音,将与所述最大总和相关联的特定用户确定为活动说话者。
18.如权利要求16所述的语音活动检测器,还包括:
第二加法器,用于对所述至少两个麦克风上的变换信号绝对值平方求和,并且用于对预定频率范围上的求和变换信号求和以产生第二总和;以及
乘法器,用于将提高因子乘以所述第二总和以确定所述阈值。
19.如权利要求16所述的语音活动检测器,其特征在于:所述至少一个滤波器包括乘法器,用于将噪声频谱功率矩阵的逆、信道传递函数比向量和源信号频谱功率乘以所述变换信号以确定与空间特性对应的信号。
20.如权利要求19所述的语音活动检测器,还包括校准单元,用于在校准期间确定每个用户的信道传递函数比。
21.如权利要求19所述的语音活动检测器,还包括频谱减法器,用于从测量的信号频谱协方差矩阵中频谱减去所述噪声频谱功率矩阵来确定所述信号频谱功率。
22.一种可由机器读取的程序存储设备,所述程序存储设备可触地体现可由所述机器执行的指令程序以执行用于确定混音信号中是否存在语音的方法步骤,所述方法步骤包括:
由至少两个麦克风接收所述混音信号;
将每个接收混音信号快速傅立叶变换到频域;
将变换信号滤波以输出与源的空间特征对应的信号;
对预定频率范围上的滤波信号绝对值平方求和;
将总和与阈值比较以确定是否存在语音,其中如果所述总和大于或等于所述阈值,则存在语音,如果所述总和小于所述阈值,则不存在语音。
CNB038201585A 2002-08-30 2003-07-21 不利环境中的多信道语音检测 Expired - Fee Related CN100476949C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/231,613 US7146315B2 (en) 2002-08-30 2002-08-30 Multichannel voice detection in adverse environments
US10/231,613 2002-08-30

Publications (2)

Publication Number Publication Date
CN1679083A true CN1679083A (zh) 2005-10-05
CN100476949C CN100476949C (zh) 2009-04-08

Family

ID=31976753

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB038201585A Expired - Fee Related CN100476949C (zh) 2002-08-30 2003-07-21 不利环境中的多信道语音检测

Country Status (5)

Country Link
US (1) US7146315B2 (zh)
EP (1) EP1547061B1 (zh)
CN (1) CN100476949C (zh)
DE (1) DE60316704T2 (zh)
WO (1) WO2004021333A1 (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100462878C (zh) * 2007-08-29 2009-02-18 南京工业大学 智能机器人识别舞蹈音乐节奏的方法
CN102081925A (zh) * 2009-11-20 2011-06-01 Nxp股份有限公司 语音检测器
CN101471970B (zh) * 2007-12-27 2012-05-23 深圳富泰宏精密工业有限公司 便携式电子装置
CN102819009A (zh) * 2012-08-10 2012-12-12 汽车零部件研究及发展中心有限公司 用于汽车的驾驶者声源定位系统及方法
CN101533642B (zh) * 2009-02-25 2013-02-13 北京中星微电子有限公司 一种语音信号处理方法及装置
CN101064975B (zh) * 2006-04-25 2013-03-27 哈曼贝克自动系统股份有限公司 车辆通信系统
CN104094613A (zh) * 2011-12-02 2014-10-08 弗劳恩霍弗促进应用研究注册公司 用于依据空间功率密度定位麦克风的装置和方法
CN104781880A (zh) * 2012-09-03 2015-07-15 弗兰霍菲尔运输应用研究公司 用于提供通知的多信道语音存在概率估计的装置和方法
CN105185383A (zh) * 2014-06-09 2015-12-23 哈曼国际工业有限公司 用于存在可理解语音时部分保留音乐的方法
CN106935247A (zh) * 2017-03-08 2017-07-07 珠海中安科技有限公司 一种用于正压式空气呼吸器和狭小密闭空间的语音识别控制装置及方法
CN107086043A (zh) * 2014-03-12 2017-08-22 华为技术有限公司 检测音频信号的方法和装置
CN110178178A (zh) * 2016-09-14 2019-08-27 纽昂斯通讯有限公司 具有环境自动语音识别(asr)的麦克风选择和多个讲话者分割
CN111465981A (zh) * 2017-12-21 2020-07-28 辛纳普蒂克斯公司 模拟语音活动检测器系统和方法
CN112424863A (zh) * 2017-12-07 2021-02-26 Hed科技有限责任公司 语音感知音频系统及方法

Families Citing this family (50)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7240001B2 (en) 2001-12-14 2007-07-03 Microsoft Corporation Quality improvement techniques in an audio encoder
EP1473964A3 (en) * 2003-05-02 2006-08-09 Samsung Electronics Co., Ltd. Microphone array, method to process signals from this microphone array and speech recognition method and system using the same
JP4000095B2 (ja) * 2003-07-30 2007-10-31 株式会社東芝 音声認識方法、装置及びプログラム
US7460990B2 (en) 2004-01-23 2008-12-02 Microsoft Corporation Efficient coding of digital media spectral data using wide-sense perceptual similarity
JP4235128B2 (ja) * 2004-03-08 2009-03-11 アルパイン株式会社 入力音処理装置
KR101244232B1 (ko) 2005-05-27 2013-03-18 오디언스 인코포레이티드 오디오 신호 분석 및 변경을 위한 시스템 및 방법
US7680656B2 (en) * 2005-06-28 2010-03-16 Microsoft Corporation Multi-sensory speech enhancement using a speech-state model
DE102005039621A1 (de) * 2005-08-19 2007-03-01 Micronas Gmbh Verfahren und Vorrichtung zur adaptiven Reduktion von Rausch- und Hintergrundsignalen in einem sprachverarbeitenden System
GB2430129B (en) * 2005-09-08 2007-10-31 Motorola Inc Voice activity detector and method of operation therein
US20070133819A1 (en) * 2005-12-12 2007-06-14 Laurent Benaroya Method for establishing the separation signals relating to sources based on a signal from the mix of those signals
US8073681B2 (en) 2006-10-16 2011-12-06 Voicebox Technologies, Inc. System and method for a cooperative conversational voice user interface
KR20080036897A (ko) * 2006-10-24 2008-04-29 삼성전자주식회사 음성 끝점을 검출하기 위한 장치 및 방법
US7818176B2 (en) 2007-02-06 2010-10-19 Voicebox Technologies, Inc. System and method for selecting and presenting advertisements based on natural language processing of voice-based input
US8046214B2 (en) 2007-06-22 2011-10-25 Microsoft Corporation Low complexity decoder for complex transform coding of multi-channel sound
US7885819B2 (en) 2007-06-29 2011-02-08 Microsoft Corporation Bitstream syntax for multi-process audio decoding
US8249883B2 (en) * 2007-10-26 2012-08-21 Microsoft Corporation Channel extension coding for multi-channel source
US8411880B2 (en) * 2008-01-29 2013-04-02 Qualcomm Incorporated Sound quality by intelligently selecting between signals from a plurality of microphones
CN102137326B (zh) * 2008-04-18 2014-03-26 杜比实验室特许公司 用于保持多通道音频中的语音可听度的方法和设备
US8275136B2 (en) * 2008-04-25 2012-09-25 Nokia Corporation Electronic device speech enhancement
US8611556B2 (en) * 2008-04-25 2013-12-17 Nokia Corporation Calibrating multiple microphones
US8244528B2 (en) 2008-04-25 2012-08-14 Nokia Corporation Method and apparatus for voice activity determination
US9305548B2 (en) 2008-05-27 2016-04-05 Voicebox Technologies Corporation System and method for an integrated, multi-modal, multi-device natural language voice services environment
WO2009145192A1 (ja) * 2008-05-28 2009-12-03 日本電気株式会社 音声検出装置、音声検出方法、音声検出プログラム及び記録媒体
US8554556B2 (en) * 2008-06-30 2013-10-08 Dolby Laboratories Corporation Multi-microphone voice activity detector
EP2196988B1 (en) 2008-12-12 2012-09-05 Nuance Communications, Inc. Determination of the coherence of audio signals
US8326637B2 (en) 2009-02-20 2012-12-04 Voicebox Technologies, Inc. System and method for processing multi-modal device interactions in a natural language voice services environment
DE102009029367B4 (de) * 2009-09-11 2012-01-12 Dietmar Ruwisch Verfahren und Vorrichtung zur Analyse und Abstimmung akustischer Eigenschaften einer Kfz-Freisprecheinrichtung
KR101601197B1 (ko) * 2009-09-28 2016-03-09 삼성전자주식회사 마이크로폰 어레이의 이득 조정 장치 및 방법
US8626498B2 (en) * 2010-02-24 2014-01-07 Qualcomm Incorporated Voice activity detection based on plural voice activity detectors
US9165567B2 (en) * 2010-04-22 2015-10-20 Qualcomm Incorporated Systems, methods, and apparatus for speech feature detection
US8898058B2 (en) 2010-10-25 2014-11-25 Qualcomm Incorporated Systems, methods, and apparatus for voice activity detection
JP5557704B2 (ja) * 2010-11-09 2014-07-23 シャープ株式会社 無線送信装置、無線受信装置、無線通信システムおよび集積回路
JP5732976B2 (ja) * 2011-03-31 2015-06-10 沖電気工業株式会社 音声区間判定装置、音声区間判定方法、及びプログラム
CN102393986B (zh) * 2011-08-11 2013-05-08 重庆市科学技术研究院 基于音频判别的盗伐检测方法、装置及系统
US20130282372A1 (en) * 2012-04-23 2013-10-24 Qualcomm Incorporated Systems and methods for audio signal processing
US8676579B2 (en) * 2012-04-30 2014-03-18 Blackberry Limited Dual microphone voice authentication for mobile device
US9002030B2 (en) 2012-05-01 2015-04-07 Audyssey Laboratories, Inc. System and method for performing voice activity detection
US9076450B1 (en) * 2012-09-21 2015-07-07 Amazon Technologies, Inc. Directed audio for speech recognition
US9076459B2 (en) 2013-03-12 2015-07-07 Intermec Ip, Corp. Apparatus and method to classify sound to detect speech
US9767826B2 (en) * 2013-09-27 2017-09-19 Nuance Communications, Inc. Methods and apparatus for robust speaker activity detection
US9530433B2 (en) * 2014-03-17 2016-12-27 Sharp Laboratories Of America, Inc. Voice activity detection for noise-canceling bioacoustic sensor
WO2016044290A1 (en) 2014-09-16 2016-03-24 Kennewick Michael R Voice commerce
JP6501259B2 (ja) * 2015-08-04 2019-04-17 本田技研工業株式会社 音声処理装置及び音声処理方法
EP3465681A1 (en) * 2016-05-26 2019-04-10 Telefonaktiebolaget LM Ericsson (PUBL) Method and apparatus for voice or sound activity detection for spatial audio
GB2563857A (en) * 2017-06-27 2019-01-02 Nokia Technologies Oy Recording and rendering sound spaces
RU2756385C1 (ru) 2018-03-29 2021-09-29 3М Инновейтив Пропертиз Компани Активируемое голосом преобразование звука для головных гарнитур с использованием представления сигналов микрофона в частотной области
US11064294B1 (en) 2020-01-10 2021-07-13 Synaptics Incorporated Multiple-source tracking and voice activity detections for planar microphone arrays
CN111739554A (zh) * 2020-06-19 2020-10-02 浙江讯飞智能科技有限公司 声学成像频率确定方法、装置、设备及存储介质
US11483647B2 (en) * 2020-09-17 2022-10-25 Bose Corporation Systems and methods for adaptive beamforming
CN113270108B (zh) * 2021-04-27 2024-04-02 维沃移动通信有限公司 语音活动检测方法、装置、电子设备及介质

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
IL84948A0 (en) * 1987-12-25 1988-06-30 D S P Group Israel Ltd Noise reduction system
US5276765A (en) * 1988-03-11 1994-01-04 British Telecommunications Public Limited Company Voice activity detection
JP2626437B2 (ja) * 1992-12-28 1997-07-02 日本電気株式会社 残留エコー制御装置
JP3626492B2 (ja) * 1993-07-07 2005-03-09 ポリコム・インコーポレイテッド 会話の品質向上のための背景雑音の低減
US6070140A (en) * 1995-06-05 2000-05-30 Tran; Bao Q. Speech recognizer
FI99062C (fi) * 1995-10-05 1997-09-25 Nokia Mobile Phones Ltd Puhesignaalin taajuuskorjaus matkapuhelimessa
FI100840B (fi) * 1995-12-12 1998-02-27 Nokia Mobile Phones Ltd Kohinanvaimennin ja menetelmä taustakohinan vaimentamiseksi kohinaises ta puheesta sekä matkaviestin
US6097820A (en) * 1996-12-23 2000-08-01 Lucent Technologies Inc. System and method for suppressing noise in digitally represented voice signals
US6141426A (en) * 1998-05-15 2000-10-31 Northrop Grumman Corporation Voice operated switch for use in high noise environments
US6088668A (en) * 1998-06-22 2000-07-11 D.S.P.C. Technologies Ltd. Noise suppressor having weighted gain smoothing
US6363345B1 (en) * 1999-02-18 2002-03-26 Andrea Electronics Corporation System, method and apparatus for cancelling noise
EP1081985A3 (en) 1999-09-01 2006-03-22 Northrop Grumman Corporation Microphone array processing system for noisy multipath environments
US6377637B1 (en) * 2000-07-12 2002-04-23 Andrea Electronics Corporation Sub-band exponential smoothing noise canceling system
US20030004720A1 (en) * 2001-01-30 2003-01-02 Harinath Garudadri System and method for computing and transmitting parameters in a distributed voice recognition system

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101064975B (zh) * 2006-04-25 2013-03-27 哈曼贝克自动系统股份有限公司 车辆通信系统
CN100462878C (zh) * 2007-08-29 2009-02-18 南京工业大学 智能机器人识别舞蹈音乐节奏的方法
CN101471970B (zh) * 2007-12-27 2012-05-23 深圳富泰宏精密工业有限公司 便携式电子装置
CN101533642B (zh) * 2009-02-25 2013-02-13 北京中星微电子有限公司 一种语音信号处理方法及装置
CN102081925A (zh) * 2009-11-20 2011-06-01 Nxp股份有限公司 语音检测器
CN104094613B (zh) * 2011-12-02 2017-06-09 弗劳恩霍弗促进应用研究注册公司 用于依据空间功率密度定位麦克风的装置和方法
CN104094613A (zh) * 2011-12-02 2014-10-08 弗劳恩霍弗促进应用研究注册公司 用于依据空间功率密度定位麦克风的装置和方法
CN102819009A (zh) * 2012-08-10 2012-12-12 汽车零部件研究及发展中心有限公司 用于汽车的驾驶者声源定位系统及方法
CN104781880A (zh) * 2012-09-03 2015-07-15 弗兰霍菲尔运输应用研究公司 用于提供通知的多信道语音存在概率估计的装置和方法
CN104781880B (zh) * 2012-09-03 2017-11-28 弗劳恩霍夫应用研究促进协会 用于提供通知的多信道语音存在概率估计的装置和方法
US9633651B2 (en) 2012-09-03 2017-04-25 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for providing an informed multichannel speech presence probability estimation
CN107086043A (zh) * 2014-03-12 2017-08-22 华为技术有限公司 检测音频信号的方法和装置
US10818313B2 (en) 2014-03-12 2020-10-27 Huawei Technologies Co., Ltd. Method for detecting audio signal and apparatus
US11417353B2 (en) 2014-03-12 2022-08-16 Huawei Technologies Co., Ltd. Method for detecting audio signal and apparatus
CN105185383A (zh) * 2014-06-09 2015-12-23 哈曼国际工业有限公司 用于存在可理解语音时部分保留音乐的方法
CN110178178A (zh) * 2016-09-14 2019-08-27 纽昂斯通讯有限公司 具有环境自动语音识别(asr)的麦克风选择和多个讲话者分割
CN110178178B (zh) * 2016-09-14 2023-10-10 纽昂斯通讯有限公司 具有环境自动语音识别(asr)的麦克风选择和多个讲话者分割
CN106935247A (zh) * 2017-03-08 2017-07-07 珠海中安科技有限公司 一种用于正压式空气呼吸器和狭小密闭空间的语音识别控制装置及方法
CN112424863A (zh) * 2017-12-07 2021-02-26 Hed科技有限责任公司 语音感知音频系统及方法
CN112424863B (zh) * 2017-12-07 2024-04-09 Hed科技有限责任公司 语音感知音频系统及方法
CN111465981A (zh) * 2017-12-21 2020-07-28 辛纳普蒂克斯公司 模拟语音活动检测器系统和方法

Also Published As

Publication number Publication date
DE60316704T2 (de) 2008-07-17
DE60316704D1 (de) 2007-11-15
US20040042626A1 (en) 2004-03-04
EP1547061B1 (en) 2007-10-03
EP1547061A1 (en) 2005-06-29
WO2004021333A1 (en) 2004-03-11
CN100476949C (zh) 2009-04-08
US7146315B2 (en) 2006-12-05

Similar Documents

Publication Publication Date Title
CN1679083A (zh) 不利环境中的多信道语音检测
US9666183B2 (en) Deep neural net based filter prediction for audio event classification and extraction
EP1536414B1 (en) Method and apparatus for multi-sensory speech enhancement
US10504539B2 (en) Voice activity detection systems and methods
US7499686B2 (en) Method and apparatus for multi-sensory speech enhancement on a mobile device
US20120029923A1 (en) Systems, methods, apparatus, and computer-readable media for coding of harmonic signals
US20050143988A1 (en) Noise reduction apparatus and noise reducing method
US20070027681A1 (en) Method and apparatus for extracting voiced/unvoiced classification information using harmonic component of voice signal
US7346504B2 (en) Multi-sensory speech enhancement using a clean speech prior
WO2021114733A1 (zh) 一种分频段进行处理的噪声抑制方法及其系统
CN1335980A (zh) 借助于映射矩阵的宽频带语音合成
WO2012158156A1 (en) Noise supression method and apparatus using multiple feature modeling for speech/noise likelihood
CN110265065B (zh) 一种构建语音端点检测模型的方法及语音端点检测系统
CN1240051C (zh) 语音增强设备
CN102144258A (zh) 促进确定信号边界频率的方法和装置
Couvreur et al. Automatic noise recognition in urban environments based on artificial neural networks and hidden markov models
CN106920543B (zh) 语音识别方法及装置
CN106716528A (zh) 用于对音频信号中的噪声进行估计的方法、噪声估计器、音频编码器、音频解码器、以及用于传输音频信号的系统
Górriz et al. An effective cluster-based model for robust speech detection and speech recognition in noisy environments
CN1864202A (zh) 语音识别系统的环境失配的自适应
CN107665711A (zh) 语音活动侦测方法及装置
JP5134477B2 (ja) 目的信号区間推定装置、目的信号区間推定方法、目的信号区間推定プログラム及び記録媒体
HUE035162T2 (en) Systems, procedures, equipment and computer-readable media for decoding harmonic signals

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: SIEMENS AKTIENGESELLSCHAFT

Free format text: FORMER OWNER: SIEMENS CORPORATE RESEARCH, INC.

Effective date: 20100727

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20100727

Address after: new jersey

Patentee after: Siemens AG

Address before: new jersey

Patentee before: Siemens Corporate Research, Inc.

CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20090408

Termination date: 20140721

EXPY Termination of patent right or utility model