CN106997768B - 一种语音出现概率的计算方法、装置及电子设备 - Google Patents

一种语音出现概率的计算方法、装置及电子设备 Download PDF

Info

Publication number
CN106997768B
CN106997768B CN201610049402.XA CN201610049402A CN106997768B CN 106997768 B CN106997768 B CN 106997768B CN 201610049402 A CN201610049402 A CN 201610049402A CN 106997768 B CN106997768 B CN 106997768B
Authority
CN
China
Prior art keywords
parameter
signal
channel
measurement parameter
snr
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610049402.XA
Other languages
English (en)
Other versions
CN106997768A (zh
Inventor
汪法兵
梁民
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Academy of Telecommunications Technology CATT
Original Assignee
China Academy of Telecommunications Technology CATT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Academy of Telecommunications Technology CATT filed Critical China Academy of Telecommunications Technology CATT
Priority to CN201610049402.XA priority Critical patent/CN106997768B/zh
Priority to PCT/CN2016/112323 priority patent/WO2017128910A1/zh
Priority to US16/070,584 priority patent/US11610601B2/en
Publication of CN106997768A publication Critical patent/CN106997768A/zh
Application granted granted Critical
Publication of CN106997768B publication Critical patent/CN106997768B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0224Processing in the time domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise

Abstract

本发明提供了一种语音出现概率的计算方法、装置及电子设备。本发明在语音出现概率计算中引入第一通道信号信噪比的度量参数和第一、第二通道之间信号功率电平差的度量参数,对上述度量参数进行归一化和非线性变换处理,并利用上述参数幂级数的一次项和乘积项拟合语音出现概率,从而可以减少了语音出现概率计算的运算量,使得计算结果对参数波动具有较好的健壮性,并能够广泛适用于各种双麦克风语音增强系统的应用场景。

Description

一种语音出现概率的计算方法、装置及电子设备
技术领域
本发明涉及语音信号处理技术领域,具体涉及一种语音出现概率的计算方法、装置及电子设备。
背景技术
在正常的语音通话中,用户大约有50%的时间段是处于停顿/倾听等非发话状态。现行的语音增强系统则通过语音激活检测(Voice Activity Detection,VAD)算法来鉴别出语音非激活段,并在该段进行环境噪声统计特性的估计与更新。目前的VAD技术大都通过计算语音信号时域波形的过零率或短时能量等参数、并将其与预定的阈值作相比,来做出语音激活与否的二元判决。但这种简单的二元判定方法时常发生误判(即把语音段判定为非语音段或者把非语音段判定为语音段),由此影响环境噪声统计参数估计的准确性,从而降低语音增强系统的质量。
为克服VAD的这种局限性,人们提出了VAD的软判决技术。VAD软判决技术则首先计算语音出现概率(Speech Presence Probability,SPP)或者语音缺席概率(SpeechAbsence Probability,SAP),然后再利用SPP或SAP来估计噪声的统计信息。然而,对于双麦克风语音增强系统,现有的计算语音出现概率的方法,大多存在计算量大,对参数波动敏感,以及在语音非激活段不趋近于零的缺点。
发明内容
本发明实施例要解决的技术问题是提供一种语音出现概率的计算方法、装置及电子设备,其计算复杂度较低,且对参数波动具有较好的健壮性,满足语音非激活段语音出现概率趋近于零的约束条件,能够广泛应用于各种双麦克风语音增强系统。
为解决上述技术问题,本发明实施例提供的语音出现概率的计算方法,应用于采用端射End-fire结构设置的第一麦克风和第二麦克风,包括:
根据第一麦克风拾取的第一通道的信号和第二麦克风拾取的第二通道的信号,计算第一度量参数和第二度量参数,所述第一度量参数为第一通道的信号信噪比,第二度量参数为第一通道与第二通道的信号功率电平差;
对第一度量参数和第二度量参数,分别进行归一化和非线性变换处理,得到第三度量参数和第四度量参数;
根据第三度量参数、第四度量参数以及预先确定的语音出现概率的计算公式,计算得到语音出现概率,其中,所述计算公式是通过对第三度量参数和第四度量参数的二元幂级数的一次项和乘积项进行拟合,并对拟合系数施加归一化约束后得到的。
优选的,上述方案中,
所述第一度量参数的计算包括:
利用以下公式,计算第一度量参数:
其中,MSNR(n,k)表示第一度量参数,ξ1(n,k)表示第一通道的第n帧信号第k个频率分量上的先验信噪比,ξ0(k)表示预先设定的第k个频率分量上的信噪比参考值。
优选的,上述方案中,
所述第二度量参数的计算包括:
利用以下公式,计算第二度量参数:
其中,MPLD(n,k)表示第二度量参数,表示第一通道的第n帧信号第k个频率分量上的信号功率谱密度,表示第二通道的第n帧信号第k个频率分量上的信号功率谱密度。
优选的,上述方案中,
所述归一化和非线性变换处理包括:
对待处理参数进行数值更新,得到中间参数,其中,在数值超出区间[0,1]时,将数值更新为1,否则保持数值不变,所述待处理参数为第一度量参数或第二度量参数;
对中间参数进行分段线性变换,得到最终参数,所述最终参数是所述中间参数的分段线性函数,且接近于所述中间参数取值范围中心的区段的斜率,大于远离所述中间参数取值范围中心的区段的斜率,所述最终参数为第三度量参数或第四度量参数。
优选的,上述方案中,
所述语音出现概率的计算公式为:
P1=c(aM′SNR+(1-a)M′PLD)+(1-c)M′SNRM′PLD
其中,P1表示第n帧信号第k个频率分量上的语音出现概率,M′SNR表示第三度量参数,M′PLD表示第四度量参数,a、c均为取值范围在[0,1]之内的拟合系数。
优选的,上述方案中,所述拟合系数a、c的取值是预先设定的固定值。
优选的,上述方案中,所述拟合系数a的取值是根据环境噪声的类型而预先设确定的;
所述拟合系数c的取值,随着M′SNR与M′PLD的差值的减小而增大。
其中,上述方案中,
拟合系数c的取值,按照以下任一公式计算得到:
c=1-|M′PLD-M′SNR|
本发明实施例还提供了一种语音出现概率的计算装置,应用于采用端射End-fire结构设置的第一麦克风和第二麦克风,包括:
采集单元,用于根据第一麦克风拾取的第一通道的信号和第二麦克风拾取的第二通道的信号,计算第一度量参数和第二度量参数,所述第一度量参数为第一通道的信号信噪比,第二度量参数为第一通道与第二通道的信号功率电平差;
转换单元,用于对第一度量参数和第二度量参数,分别进行归一化和非线性变换处理,得到第三度量参数和第四度量参数;
计算单元,用于根据第三度量参数、第四度量参数以及预先确定的语音出现概率的计算公式,计算得到语音出现概率,其中,所述计算公式是通过对第三度量参数和第四度量参数的二元幂级数的一次项和乘积项进行拟合,并对拟合系数施加归一化约束后得到的。
优选的,上述方案中,
所述采集单元,具体用于:
利用以下公式,计算第一度量参数:
其中,MSNR(n,k)表示第一度量参数,ξ1(n,k)表示第一通道的第n帧信号第k个频率分量上的先验信噪比,ξ0(k)表示预先设定的第k个频率分量上的信噪比参考值。
优选的,上述方案中,
所述采集单元,具体用于:
利用以下公式,计算第二度量参数:
其中,MPLD(n,k)表示第二度量参数,表示第一通道的第n帧信号第k个频率分量上的信号功率谱密度,表示第二通道的第n帧信号第k个频率分量上的信号功率谱密度。
优选的,上述方案中,
所述转换单元,具体用于:对待处理参数进行数值更新,得到中间参数,其中,在数值超出区间[0,1]时,将数值更新为1,否则保持数值不变,所述待处理参数为第一度量参数或第二度量参数;对中间参数进行分段线性变换,得到最终参数,所述最终参数是所述中间参数的分段线性函数,且接近于所述中间参数取值范围中心的区段的斜率,大于远离所述中间参数取值范围中心的区段的斜率,所述最终参数为第三度量参数或第四度量参数。
优选的,上述方案中,
所述语音出现概率的计算公式为:
P1=c(aM′SNR+(1-a)M′PLD)+(1-c)M′SNRM′PLD
其中,P1表示第n帧信号第k个频率分量上的语音出现概率,M′SNR表示第三度量参数,M′PLD表示第四度量参数,a、c均为取值范围在[0,1]之内的拟合系数。
优选的,上述方案中,所述拟合系数a、c的取值是预先设定的固定值。
优选的,上述方案中,
所述拟合系数a的取值是根据环境噪声的类型而与确预先设定的;
所述拟合系数c的取值,随着M′SNR与M′PLD的差值的减小而增大。
其中,上述方案中,
拟合系数c的取值,按照以下任一公式计算得到:
c=1-|M′PLD-M′SNR|
本发明实施例还提供了一种电子设备,包括:
处理器;以及,通过总线接口与所述处理器相连接的存储器、第一麦克风和第二麦克风,所述第一麦克风和第二麦克风采用端射End-fire结构配置;所述存储器用于存储所述处理器在执行操作时所使用的程序和数据,当处理器调用并执行所述存储器中所存储的程序和数据时,实现如下的功能模块:
采集单元,用于分别采集第一麦克风对应的第一通道和第一麦克风对应的第二通道的声音信号,计算第一度量参数和第二度量参数,其中,所述第一度量参数为第一通道的信号信噪比,第二度量参数为第一通道与第二通道的信号功率电平差;
转换单元,用于对第一度量参数和第二度量参数,分别进行归一化和非线性变换处理,得到第三度量参数和第四度量参数;
计算单元,用于根据第三度量参数、第四度量参数以及预先确定的语音出现概率的计算公式,计算得到语音出现概率,其中,所述计算公式是通过对第三度量参数和第四度量参数的二元幂级数的一次项和乘积项进行拟合,并对拟合系数施加归一化约束后得到的。
与现有技术相比,本发明实施例提供的语音出现概率的计算方法、装置及电子设备,大大减少了语音出现概率计算的运算量,满足语音非激活段语音出现概率趋近于零的约束,且使得计算结果对参数波动具有较好的健壮性。另外,本发明实施例既能应用于稳态/准稳态噪声场中的情形,又能应用于瞬态噪声和第三方语音干扰的情形,能够广泛适用于各种双麦克风语音增强系统的应用场景。
附图说明
图1为本发明实施例提供的语音出现概率的计算方法的流程示意图;
图2为本发明实施例提供的语音出现概率的计算方法的又一流程示意图;
图3为本发明实施例中对第一度量参数进行分段线性变换的示意图;
图4为本发明实施例中对第二度量参数进行分段线性变换的示意图;
图5为本发明实施例中拟合系数的确定方式的举例示意图;
图6为本发明实施例提供的语音出现概率的计算装置的结构示意图;
图7为本发明实施例提供的电子设备的结构示意图。
具体实施方式
为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。
现有双麦克风语音增强系统的语音出现概率的计算方法,由于运算量非常大,且计算结果对参数波动敏感等缺点,以及语音非激活段不趋近于零,不能很好的适用于实际设备中。本发明实施例通过引入两种度量参数,并提出一种新的语音出现概率的计算模型,可以降低计算量,并使计算结果对参数波动具有更好的健壮性,并满足语音非激活段趋近于零的约束。
在介绍本发明实施例之前,为帮助更好的理解本发明,首先介绍一下现有技术的语音出现概率的计算原理。
假设麦克风拾取的信号为:
y(n)=x(n)+d(n) (1)
这里,x(n)是用户的语音信号,d(n)是噪声信号(包括环境噪声和其它声源干扰总和),y(n)为麦克风拾取的信号。
对上述公式(1)做短时傅里叶变换可以得到:
Y(n,k)=X(n,k)+D(n,k) (2)
假设麦克风拾取信号存在如下表述的两种状态假设检验:
H0(即无语音信号):Y(n,k)=D(n,k)
H1(即有语音信号):Y(n,k)=X(n,k)+D(n,k) (3)
利用软判决方法,计算噪声功率谱:
E[|D|2|Y]=E[|D|2|Y,H0]p(H0|Y)+E[|D|2|Y,H1]p(H1|Y) (4)
上述公式(4)中,p(H1|Y)是当前的时频单元的语音出现概率,p(H0|Y)是当前的时频单元的语音缺席概率。
利用贝叶斯公式可以得到:
其中,是语音缺席与语音出现的先验概率之比, 是麦克风拾取信号的第n帧信号第k个频点的条件概率之比,假设各频点振幅幅度是高斯分布,利用MMSE-STSA方法计算,则可以得到:
上述公式(6)中,ξ(n,k),γ(n,k)分别是麦克风拾取信号第n帧信号第k个频点的先验信噪比和后验信噪比。
上述公式(5)是现有技术中应用较广的单通道SPP计算方法。
近年来,双麦克风阵列已广泛地应用于移动终端提升语音增强的功能。双麦克风阵列通常包括采用端射End-fire结构设置的第一麦克风和第二麦克风,其中一个麦克风的部署位置通常更接近于用户嘴部。考虑到上述语音出现概率的计算方法则是基于单麦克风情况下推导的,它并不能完全适用于多麦克风系统。为此,现有技术已经将上述方法拓展到多麦克风语音出现概率的计算上,通过基于高斯模型的语音出现概率之假设,推导出同公式(5)和(6)类似的理论公式:
上述公式(7)的参数ξ(n,k),β(n,k)替换成如下多通道的计算公式:
其中,
y(n,k)=[yl(n,k)y2(n,k)...yN(n,k)]T
X(n,k)=[x1(n,k)x2(n,k)...xN(n,k)]T
d(n,k)=[d1(n,k)d2(n,k)...dN(n,k)]T
下标N为多麦克风阵列(如双麦克风阵列)的通道数,当用于双麦克风情形时,取N =2;Φxx,Φdd分别是多通道语音信号和背景噪声的功率谱密度矩阵; 期望值可通过递归计算逼近:
Φyy(n,k)=(1-αyyy(n-1,k)+αyy(n,k)yH(n,k) (10)
Φdd(n,k)=(1-αddd(n-1,k)+αdd(n,k)dH(n,k) (11)
其中,0≤αy≤1,0≤αd≤1。
将上述公式(7)应用到双麦克风系统,便可得到双通道语音出现概率的计算公式。
然而,将上述的理论公式应用到移动终端时,存在计算量大,对参数敏感等问题。对于双麦克风语音增强系统,利用(7)式至(9)式计算SPP,涉及大量的矩阵乘积与矩阵求逆运算,在实时处理的语音增强系统中,因为占用过多的计算资源而实用性低。其次,在现实应用环境中,语音和噪声信号大多是非稳态信号,经常性出现的第三方干扰源往往是瞬态信号,这时,参数ξ(n,k),β(n,k)估计值与真实值存在较大误差,而由(7)式可知,SPP对参数ξ(n,k),β(n,k)的依赖关系是指数函数型的,对参数的变化非常敏感,ξ(n,k),β(n,k)的微小计算误差,会导致SPP计算值的剧烈波动,进而影响语音增强系统的整体性能。
此外,单麦克风和多麦克风阵列的语音出现概率的理论公式(5)(6)(7)都是基于高斯统计模型推导得到的,它们存在一个缺陷,即当某个时频单元的先验信噪比ξ(n,k)→0时,这与经验是相抵触的,当信噪比趋近于零时,语音是不存在的,即语音出现概率应当趋近于零。
另一方面,移动终端通话过程中经常遇到的瞬态噪声、第三方语音干扰等情况,这种噪声源和干扰源具有和语音相似或相同的时变特性,利用上述公式(7)计算语音出现概率,会将这种类型的噪声和干扰判定为语音,导致SPP的计算失效。
针对以上SPP估计方法的缺点,本发明实施例提出了一种计算复杂度小,对参数波动不敏感的SPP估计方法,使之满足如下条件:当ξ(n,k)→0时,P(H1|Y)→0,应用于双麦克风阵列的语音出现概率计算,其中,双麦克风阵列包括采用端射(End-fire)结构设置的第一麦克风和第二麦克风,这里,假设第一麦克风与用户嘴部的距离小于第二麦克风与用户嘴部的距离,即第一麦克风相比于第二麦克风,更接近于用户嘴部。
本发明实施例定义两个参数(后文中也称为第一度量参数和第二度量参数):MSNR(n,k)、MPLD(n,k)(为简便起见,下文中也分别记为MSNR和MPLD)。MSNR作为第一通道信号信噪比(SNR,Signal Noise Ratio)的度量参数,MPLD作为第一、第二通道之间信号功率电平差(PLD,Power Level Difference)的度量参数,并用这两个参数计算SPP。
具体的,请参照图1所示,本发明实施例提供的语音出现概率的计算方法,应用于采用End-fire结构设置的第一麦克风和第二麦克风,包括以下步骤:
步骤11,根据第一麦克风拾取的第一通道的信号和第二麦克风拾取的第二通道的信号,计算第一度量参数和第二度量参数,所述第一度量参数为第一通道的信号信噪比,第二度量参数为第一通道与第二通道的信号功率电平差。
这里,将双通道信号间的功率电平差(第二度量参数)作为噪声干扰和目标语音之间的一个区分依据,结合信噪比度量参数(第一度量参数),计算双麦克风系统的语音出现概率,例如,在步骤11中提取跟SNR、PLD相关的两个参数MSNR和MPLD,用于后续SPP的计算。其中,MSNR是利用信号的信噪比特征作为检测语音的判据,MPLD是利用近场目标语音与远场噪声干扰的近远场特征不同,作为检测近场语音的判据。
步骤12,对第一度量参数和第二度量参数,分别进行归一化和非线性变换处理,得到第三度量参数和第四度量参数。
这里,在步骤12中,可以通过分段线性变换,对MSNR和MPLD进行归一化和非线性变换处理,得到第三度量参数(可以记为M′SNR)和第四度量参数(可以记为M′PLD)。所述归一化和非线性变换处理具体包括:
对待处理参数进行数值更新,得到中间参数,其中,在数值超出区间[0,1]时,将数值更新为1,否则保持数值不变,所述待处理参数为第一度量参数或第二度量参数;
对中间参数进行分段线性变换,得到最终参数,所述最终参数是所述中间参数的分段线性函数,且接近于所述中间参数取值范围中心的区段的斜率,大于远离所述中间参数取值范围中心的区段的斜率,所述最终参数为第三度量参数或第四度量参数。
步骤13,根据第三度量参数、第四度量参数以及预先确定的语音出现概率的计算公式,计算得到语音出现概率,其中,所述计算公式是利用第三度量参数和第四度量参数幂级数的一次项和乘积项得到拟合公式,并对拟合系数施加归一化约束后得到的。
这里,所述语音出现概率的计算公式是利用归一化处理后的功率电平差度量参数(第四度量参数)和信噪比度量参数(第三度量参数)的二次函数,拟合出的语音出现概率。例如,可以利用M′SNR、M′PLD的一次项和乘积项拟合SPP的计算公式。然后,在具体计算过程中,还可以利用功率电平差度量参数和信噪比度量参数的相关性强弱,自适应调整二次函数的各项的权重,即调整SPP计算公式的拟合系数,使计算结果更为准确。当然,所述拟合系数a、c的取值也可以是预先设定的固定值,例如根据当前应用场景中经常出现的噪声类型,预先设置好拟合参数的数值。
可以看出,本发明实施例提供的上述计算方法,具有较低的计算复杂度,并且对参数的波动具有更好的健壮性。另外,传统的SPP计算方法大多是针对稳态和准稳态噪声,当受到瞬态噪声和第三方语音干扰时,其计算方法容易失效。本发明实施例提出的SPP计算方法,既能应用于稳态/准稳态噪声场中的情形,又能应用于瞬态噪声和第三方语音干扰的情形,能够广泛适用于各种双麦克风语音增强系统的应用场景。
为了更好的理解上述步骤,下面将进一步通过具体公式以及详细文字描述的方式,对本发明实施例作进一步的说明。
本发明实施例中,第一度量参数用于反映第一通道的信号信噪比,具体可以多种形式,里可以直接采用第一通道的信号先验信噪比ξ1(n,k)来表征,也可以采用第一通道的信号先验信噪比ξ1(n,k)与一参考值的比值(如下述公式(12))来表征。第二度量参数用于反映两个通道之间的信号功率电平差,具体可以采用两个通道的信号功率电平的比值(如下述公式(13))来表征,也可以两个通道的功率谱密度矩阵的比值(如)来表征,还可以采用两个通道的功率谱密度的差值与和值的比值来表征。
对双麦克风系统而言,目标语音表现为近场信号,环境噪声,第三方干扰等表现为远场信号。双麦克风系统第一通道和第二通道的信号功率电平差可以作为区分近场信号和远场信号的一个重要判据,将近场目标语音检测出来。
不同于现有技术多通道SPP估计方法,本发明实施例将双通道信号间的功率电平差作为噪声干扰和目标语音之间的一个区分依据,结合信噪比度量参数,计算双麦克风系统的SPP。
在忽略两个麦克风信号间相位信息时,SPP与变量MSNR和MPLD存在复杂的函数关系,可以用这两个变量的幂级数拟合。为了降低算法复杂度,本发明实施例首先对MSNR和MPLD做分段线性变换,再做幂级数展开,并取前几项,根据经验拟合其系数。可参考图2所示,首先提取MSNR和MPLD(步骤21、23),然后对MSNR和MPLD归一化和分段线性变换处理得到M′SNR、M′PLD(步骤22、24),然后,在利用计算公式加权计算SPP之前还可以自适应调整拟合系数(步骤25),最后,利用M′SNR、M′PLD的一次项及乘积项加权计算SPP(步骤26),得到SPP的计算结果(记为p1)。
下面介绍本发明实施例提取信噪比度量参数MSNR和功率电平差度量参数MPLD的一种实现方式。这里以下面公式(12)(13)作为第一、第二度量参数的表征方式来进行说明,其他表征方式的原理类似,为节约篇幅,不再一一赘述。
上述公式中,MSNR(n,k)表示第一度量参数,ξ1(n,k)表示第一通道的第n帧信号第k个频率分量上的先验信噪比,ξ0(k)表示预先设定的第k个频率分量上的信噪比参考值。中,MPLD(n,k)表示第二度量参数,表示第一通道的第n帧信号第k个频率分量上的信号功率谱密度,表示第二通道的第n帧信号第k个频率分量上的信号功率谱密度。
利用上述公式(12),提取第一度量参数,即信噪比参数MSNR。其中,ξ0(k)可以根据频点分段预先设定。比如,本发明实施例将语音频率分为低频、中频、高频三个频带,每个频带预设一个信噪比参考值:
其中,kL是低频带和中频带的分界频点,kH是中频带与高频带的分界频点,kFS是频带上界对应的频点。ξL,ξM,ξH是这三个频带内参数值,可以根据经验确定,以下举例进行说明。
实例1:本发明实施例在应用于窄带语音信号时,kL∈[800,2000]Hz,kH∈[1500,3000]Hz,对应的ξL,ξM,ξH取值范围为(1,20)。
实例2:本发明实施例应用于宽带语音信号,kL∈[800,3000]Hz,kH∈[2500,6000]Hz。对应的ξL,ξM,ξH取值范围为(1,20)。
然后,利用公式(14)计算各个频点的MSNR(n,k)。
利用公式(13)即可以提取功率电平差度量参数MPLD
在提取得到对MSNR和MPLD后,可通过非线性变换处理得到M′SNR、M′PLD。下面将介绍本发明实施例非线性变换的一种处理方式,即归一化和分段线性变换。分段线性变换是指把非线性特性曲线分成若干个区段,在每个区段中用直线段近似地代替特性曲线,这种处理方式也称为分段线性化,可以减小后续的计算复杂度。
由上述公式(7)可知,当MSNR→-0,p1→0;当MSNR→+∞,p1→1。本发明实施例利用归一化和分段线性函数处理MSNR得到M′SNR,以拟合SPP对参数MSNR依赖的函数特征。如图3所示,M′SNR的取值范围为[0,1]。
具体的,先将MSNR的取值范围公式MSNR=min(MSNR,1)归一化到[0,1]区间,然后对MSNR做分段线性变换,下面公式(15)以划分为3个区段为例进行说明,当然本发明实施例可以划分成更多或更少的区段:
可以看出,上述对第一度量参数MSNR进行归一化和非线性变换处理,得到第三度量参数M′SNR的步骤具体包括:根据第一度量参数的数值,对第一度量参数进行更新,其中在第一度量参数超出区间[0,1]时,将第一度量参数更新为1,否则保持第一度量参数不变;然后,对更新后的第一度量参数,进行分段线性变换,转换为第三度量参数,所述第三度量参数是第一度量参数的分段线性函数。考虑到SPP对参数MSNR依赖的函数特征,该分段线性函数的多个区段中,接近于第一度量参数取值范围中心的区段的斜率,大于远离第一度量参数取值范围中心的区段的斜率。例如,对于公式(15),k2大于1,而k1、k3均小于1。而s1、s2、s3的取值,则可以根据经验值设置。
对远场噪声与干扰,MPLD→0,p1→0;对于近场语音,MPLD→1,p1→1。本发明实施例利用图4所示分段线性函数归一化MPLD,首先根据经验数据确定一个接近于1的参数xmax,用公式MPLD=min(MPLD,xmax)将MPLD的取值映射到区间[0,xmax],然后利用公式(16)进行分段线性化,得到的M′PLD的取值范围为[0,1]。下面公式(16)以划分为3个区段为例进行说明,当然本发明实施例可以划分成更多或更少的区段。
可以看出,上述对第二度量参数MPLD进行归一化和非线性变换处理,得到第四度量参数M′PLD的步骤包括:根据第二度量参数的数值,对第二度量参数进行更新,其中在第二度量参数超出区间[0,1]时,将第二度量参数更新为1,否则保持第二度量参数不变;对更新后的第二度量参数,进行分段线性变换,转换为第四度量参数,所述第四度量参数是第二度量参数的分段线性函数。考虑到SPP对参数MPLD依赖的函数特征,接近于第二度量参数取值范围中心的区段的斜率,大于远离第二度量参数取值范围中心的区段的斜率。例如,对于公式(16),t2大于1,而t1、t3均小于1。而x1、x2、x3的取值,则可以根据经验值设置。
如前所述,用M′SNR、M′PLD的一次项及乘积项拟合得到SPP,并对拟合系数施加归一化约束,可以得到如下所述的SPP的计算公式:
P1=c(aM′SNR+(1-a)M′PLD)+(1-c)M′SNRM′PLD (17)
公式(17)中,存在a,c两个参数,a,c的取值范围都为[0,1]。本发明实施例根据MSNRMPLD的相关性,自适应调整c的大小,以及,根据麦克风的一致性特征,自适应调整a的大小。
理论上,M′SNR、M′PLD都可以独立作为VAD的判据或独立来计算SPP。受各种因素影响,计算值与理论值有一定的偏离。特别的是,M′SNR对平稳噪声,扩散场噪声有更好的适应性;MPLD对远场的非平稳噪声,瞬态噪声及第三方讲话者的干扰语音有更好的适应性。
如图5所示,图5示出的是参数M′SNR与M′PLD的取值空间,M′SNR、M′PLD的取值空间可以分为示意性的四个区域,其中,图5中的A1区域,M′PLD接近于0,M′SNR接近于0;A2区域M′PLD接近于1,且M′SNR接近于1;B1区域,M′PLD接近于0,且M′SNR接近于1;B2区域,M′PLD接近于1,且M′SNR接近于0。
在A1,A2区域,这两个参数具有较强的相关性,c取值较大,强调公式(17)的线性部分;在B1,B2区域,这两个参数相关性较弱,c取值较小,突出公式(17)的乘积项M′SNRM′PLD。本发明实施例可以根据MSNRMPLD分布的区域,自适应调整公式(17)中的参数c。具体的,拟合系数c的取值,随着M′SNR与M′RLD的差值的减小而增大。
下面利用两个例子来说明参数c的取值策略,需要指出的是,本发明实施例并不局限于这两种举例的实现方式。
实例1:假设当前的参数M′SNR与M′PLD对应于图5中的参考点R,即参考点R的坐标为(M′PLD,M′SNR)。假设第一线段与第二射线的夹角θ,可以用cos2(θ)作为参数c的取值,如下述公式(18)所示,这里,第一线段以点(0.5,0.5)作为起点,R为终点;第二射线以点(0.5,0.5)作为起点,且与M′PLD轴呈45度夹角:
实例2:可以根据下述公式(19)确定c的取值:
c=1-|M′PLD-M SNR| (19)
本发明实施例中,参数a可以根据经验在0≤a≤1范围内取值,也可以根据噪声类型的预判而预先调整a的大小。例如,当预判噪声为稳态准稳态时,加大M SNR的权重,加大a的取值,当噪声为瞬态噪声或第三方语音干扰时,增加M PLD的权重,减小a的取值。例如,用户基于当前所处环境确定当前环境中可能的噪声类型,本发明实施例根据上述噪声类型来设置a的取值。
在确定了拟合系数a,c的取值之后,本发明实施例即可利用公式(17)计算语音出现概率。上述公式(17)大大减少了SPP计算的运算量,且语音出现概率不再是参数ξ(n,k),β(n,k)的指数函数,使得计算结果对参数波动具有较好的健壮性。另外,传统的SPP计算方法大多是针对稳态和准稳态噪声,当受到瞬态噪声和第三方语音干扰时,其计算方法容易失效。而本发明实施例提出的SPP计算方法,既能应用于稳态/准稳态噪声场中的情形,又能应用于瞬态噪声和第三方语音干扰的情形,能够广泛适用于各种双麦克风语音增强系统的应用场景。
基于以上所述的语音出现概率的计算方法,本发明实施例还提供了一种实现上述方法的计算装置和电子设备。请参照图6所示,本发明实施例提供的计算装置,应用于采用端射(End-fire)结构设置的第一麦克风和第二麦克风,该装置包括:
采集单元61,用于分别采集第一麦克风对应的第一通道和第一麦克风对应的第二通道的声音信号,计算第一度量参数和第二度量参数,其中,所述第一度量参数为第一通道的信号信噪比,第二度量参数为第一通道与第二通道的信号功率电平差;
转换单元62,用于对第一度量参数和第二度量参数,分别进行归一化和非线性变换处理,得到第三度量参数和第四度量参数;
计算单元63,用于根据第三度量参数、第四度量参数以及预先确定的语音出现概率的计算公式,计算得到语音出现概率,其中,所述计算公式是通过对第三度量参数和第四度量参数的幂级数的一次项和乘积项进行拟合,并对拟合系数施加归一化约束后得到的。
本发明实施例中所述采集单元61,具体用于:
利用以下公式,计算第一度量参数:
其中,MSNR(n,k)表示第一度量参数,ξ1(n,k)表示第一通道的第n帧信号第k个频率分量上的先验信噪比,ξ0(k)表示预先设定的第k个频率分量上的信噪比参考值。
所述采集单元61,还可以用于:
利用以下公式,计算第二度量参数:
其中,MPLD(n,k)表示第二度量参数,表示第一通道的第n帧信号第k个频率分量上的信号功率谱密度,表示第二通道的第n帧信号第k个频率分量上的信号功率谱密度。
本发明实施例中,所述转换单元62,具体用于:对待处理参数进行数值更新,得到中间参数,其中,在数值超出区间[0,1]时,将数值更新为1,否则保持数值不变,所述待处理参数为第一度量参数或第二度量参数;对中间参数进行分段线性变换,得到最终参数,所述最终参数是所述中间参数的分段线性函数,且接近于所述中间参数取值范围中心的区段的斜率,大于远离所述中间参数取值范围中心的区段的斜率,所述最终参数为第三度量参数或第四度量参数。
作为一种优选方式,本发明实施例中,所述语音出现概率的计算公式为:
P1=c(aM′SNR+(1-a)M′PLD)+(1-c)M′SNRM′PLD
其中,P1表示第n帧信号第k个频率分量上的语音出现概率,M′SNR表示第三度量参数,M′PLD表示第四度量参数,a、c均为取值范围在[0,1]之内的拟合系数。
作为一种优选方式,所述拟合系数a、c的取值是预先设定的固定值。
作为另一种优选方式,所述拟合系数a、c的取值是根据M′SNR与M′PLD确定的,其中,拟合系数a的取值是根据(M′PLD,M′SNR)所在区域确定的,不同区域对应于不同的值。
拟合系数c的取值,随着M′SNR与M′PLD的差值的减小而增大。
优选的,所述拟合系数c的取值,可以按照以下任一公式计算得到:
c=1-|M′PLD-M′SNR|
请参照图7,本发明实施例提供的电子设备,包括:
处理器71;以及,通过总线接口72与所述处理器相连接的存储器73、第一麦克风74和第二麦克风75,所述第一麦克风74和第二麦克风75采用端射End-fire结构配置,第一麦克风74通常与用户嘴部的距离小于第二麦克风75与用户嘴部的距离;所述存储器73用于存储所述处理器71在执行操作时所使用的程序和数据,当处理器71调用并执行所述存储器73中所存储的程序和数据时,实现如下的功能模块:
采集单元,用于分别采集第一麦克风对应的第一通道和第一麦克风对应的第二通道的声音信号,计算第一度量参数和第二度量参数,其中,所述第一度量参数为第一通道的信号信噪比,第二度量参数为第一通道与第二通道的信号功率电平差;
转换单元,用于对第一度量参数和第二度量参数,分别进行归一化和非线性变换处理,得到第三度量参数和第四度量参数;
计算单元,用于根据第三度量参数、第四度量参数以及预先确定的语音出现概率的计算公式,计算得到语音出现概率,其中,所述计算公式是通过对第三度量参数和第四度量参数的幂级数的一次项和乘积项进行拟合,并对拟合系数施加归一化约束后得到的。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (15)

1.一种语音出现概率的计算方法,应用于采用端射End-fire结构设置的第一麦克风和第二麦克风,其特征在于,包括:
根据第一麦克风拾取的第一通道的信号和第二麦克风拾取的第二通道的信号,计算第一度量参数和第二度量参数,所述第一度量参数为第一通道的信号信噪比,第二度量参数为第一通道与第二通道的信号功率电平差;
对第一度量参数和第二度量参数,分别进行归一化和非线性变换处理,得到第三度量参数和第四度量参数;
根据第三度量参数、第四度量参数以及预先确定的语音出现概率的计算公式,计算得到语音出现概率,其中,所述计算公式是通过对第三度量参数和第四度量参数的二元幂级数的一次项和乘积项进行拟合,并对拟合系数施加归一化约束后得到的;
其中,所述语音出现概率的计算公式为:
P1=c(aM′SNR+(1-a)M′PLD)+(1-c)M′SNRM′PLD
其中,P1表示第n帧信号第k个频率分量上的语音出现概率,M′SNR表示第三度量参数,M′PLD表示第四度量参数,a、c均为取值范围在[0,1]之内的拟合系数。
2.如权利要求1所述的计算方法,其特征在于,
所述第一度量参数的计算包括:
利用以下公式,计算第一度量参数:
其中,MSNR(n,k)表示第一度量参数,ξ1(n,k)表示第一通道的第n帧信号第k个频率分量上的先验信噪比,ξ0(k)表示预先设定的第k个频率分量上的信噪比参考值。
3.如权利要求2所述的计算方法,其特征在于,
所述第二度量参数的计算包括:
利用以下公式,计算第二度量参数:
其中,MPLD(n,k)表示第二度量参数,表示第一通道的第n帧信号第k个频率分量上的信号功率谱密度,表示第二通道的第n帧信号第k个频率分量上的信号功率谱密度。
4.如权利要求3所述的计算方法,其特征在于,
所述归一化和非线性变换处理包括:
对待处理参数进行数值更新,得到中间参数,其中,在数值超出区间[0,1]时,将数值更新为1,否则保持数值不变,所述待处理参数为第一度量参数或第二度量参数;
对中间参数进行分段线性变换,得到最终参数,所述最终参数是所述中间参数的分段线性函数,且接近于所述中间参数取值范围中心的区段的斜率,大于远离所述中间参数取值范围中心的区段的斜率,所述最终参数为第三度量参数或第四度量参数。
5.如权利要求4所述的计算方法,其特征在于,所述拟合系数a、c的取值是预先设定的固定值。
6.如权利要求4所述的计算方法,其特征在于,
所述拟合系数a的取值是根据环境噪声的类型而预先设确定的;
所述拟合系数c的取值,随着M′SNR与M′PLD的差值的减小而增大。
7.如权利要求6所述的计算方法,其特征在于,
拟合系数c的取值,按照以下任一公式计算得到:
c=1-|M′PLD-M′SNR| 。
8.一种语音出现概率的计算装置,应用于采用端射End-fire结构设置的第一麦克风和第二麦克风,其特征在于,包括:
采集单元,用于根据第一麦克风拾取的第一通道的信号和第二麦克风拾取的第二通道的信号,计算第一度量参数和第二度量参数,所述第一度量参数为第一通道的信号信噪比,第二度量参数为第一通道与第二通道的信号功率电平差;
转换单元,用于对第一度量参数和第二度量参数,分别进行归一化和非线性变换处理,得到第三度量参数和第四度量参数;
计算单元,用于根据第三度量参数、第四度量参数以及预先确定的语音出现概率的计算公式,计算得到语音出现概率,其中,所述计算公式是通过对第三度量参数和第四度量参数的二元幂级数的一次项和乘积项进行拟合,并对拟合系数施加归一化约束后得到的;
其中,所述语音出现概率的计算公式为:
P1=c(aM′SNR+(1-a)M′PLD)+(1-c)M′SNRM′PLD
其中,P1表示第n帧信号第k个频率分量上的语音出现概率,M′SNR表示第三度量参数,M′PLD表示第四度量参数,a、c均为取值范围在[0,1]之内的拟合系数。
9.如权利要求8所述的计算装置,其特征在于,
所述采集单元,具体用于:
利用以下公式,计算第一度量参数:
其中,MSNR(n,k)表示第一度量参数,ξ1(n,k)表示第一通道的第n帧信号第k个频率分量上的先验信噪比,ξ0(k)表示预先设定的第k个频率分量上的信噪比参考值。
10.如权利要求9所述的计算装置,其特征在于,
所述采集单元,具体用于:
利用以下公式,计算第二度量参数:
其中,MPLD(n,k)表示第二度量参数,表示第一通道的第n帧信号第k个频率分量上的信号功率谱密度,表示第二通道的第n帧信号第k个频率分量上的信号功率谱密度。
11.如权利要求10所述的计算装置,其特征在于,
所述转换单元,具体用于:对待处理参数进行数值更新,得到中间参数,其中,在数值超出区间[0,1]时,将数值更新为1,否则保持数值不变,所述待处理参数为第一度量参数或第二度量参数;对中间参数进行分段线性变换,得到最终参数,所述最终参数是所述中间参数的分段线性函数,且接近于所述中间参数取值范围中心的区段的斜率,大于远离所述中间参数取值范围中心的区段的斜率,所述最终参数为第三度量参数或第四度量参数。
12.如权利要求11所述的计算装置,其特征在于,所述拟合系数a、c的取值是预先设定的固定值。
13.如权利要求11所述的计算装置,其特征在于,
所述拟合系数a的取值是根据环境噪声的类型而与确预先设定的;
所述拟合系数c的取值,随着M′SNR与M′PLD的差值的减小而增大。
14.如权利要求13所述的计算装置,其特征在于,
拟合系数c的取值,按照以下任一公式计算得到:
c=1-|M′PLD-M′SNR| 。
15.一种电子设备,其特征在于,包括:
处理器;以及,通过总线接口与所述处理器相连接的存储器、第一麦克风和第二麦克风,所述第一麦克风和第二麦克风采用端射End-fire结构配置;所述存储器用于存储所述处理器在执行操作时所使用的程序和数据,当处理器调用并执行所述存储器中所存储的程序和数据时,实现如下的功能模块:
采集单元,用于分别采集第一麦克风对应的第一通道和第一麦克风对应的第二通道的声音信号,计算第一度量参数和第二度量参数,其中,所述第一度量参数为第一通道的信号信噪比,第二度量参数为第一通道与第二通道的信号功率电平差;
转换单元,用于对第一度量参数和第二度量参数,分别进行归一化和非线性变换处理,得到第三度量参数和第四度量参数;
计算单元,用于根据第三度量参数、第四度量参数以及预先确定的语音出现概率的计算公式,计算得到语音出现概率,其中,所述计算公式是通过对第三度量参数和第四度量参数的二元幂级数的一次项和乘积项进行拟合,并对拟合系数施加归一化约束后得到的;
其中,所述语音出现概率的计算公式为:
P1=c(αM′SNR+(1-a)M′PLD)+(1-c)M′SNRM′PLD
其中,P1表示第n帧信号第k个频率分量上的语音出现概率,M′SNR表示第三度量参数,M′PLD表示第四度量参数,a、c均为取值范围在[0,1]之内的拟合系数。
CN201610049402.XA 2016-01-25 2016-01-25 一种语音出现概率的计算方法、装置及电子设备 Active CN106997768B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201610049402.XA CN106997768B (zh) 2016-01-25 2016-01-25 一种语音出现概率的计算方法、装置及电子设备
PCT/CN2016/112323 WO2017128910A1 (zh) 2016-01-25 2016-12-27 一种语音出现概率的确定方法、装置及电子设备
US16/070,584 US11610601B2 (en) 2016-01-25 2016-12-27 Method and apparatus for determining speech presence probability and electronic device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610049402.XA CN106997768B (zh) 2016-01-25 2016-01-25 一种语音出现概率的计算方法、装置及电子设备

Publications (2)

Publication Number Publication Date
CN106997768A CN106997768A (zh) 2017-08-01
CN106997768B true CN106997768B (zh) 2019-12-10

Family

ID=59397417

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610049402.XA Active CN106997768B (zh) 2016-01-25 2016-01-25 一种语音出现概率的计算方法、装置及电子设备

Country Status (3)

Country Link
US (1) US11610601B2 (zh)
CN (1) CN106997768B (zh)
WO (1) WO2017128910A1 (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110838306B (zh) * 2019-11-12 2022-05-13 广州视源电子科技股份有限公司 语音信号检测方法、计算机存储介质及相关设备
CN115954012B (zh) * 2023-03-03 2023-05-09 成都启英泰伦科技有限公司 一种周期性瞬态干扰事件检测方法
CN117275528B (zh) * 2023-11-17 2024-03-01 浙江华创视讯科技有限公司 语音存在概率的估计方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1624767A (zh) * 2003-12-03 2005-06-08 富士通株式会社 降噪装置和降噪方法
CN103646648A (zh) * 2013-11-19 2014-03-19 清华大学 一种噪声功率估计方法
US8818002B2 (en) * 2007-03-22 2014-08-26 Microsoft Corp. Robust adaptive beamforming with enhanced noise suppression

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100400226B1 (ko) * 2001-10-15 2003-10-01 삼성전자주식회사 음성 부재 확률 계산 장치 및 방법과 이 장치 및 방법을이용한 잡음 제거 장치 및 방법
US7391870B2 (en) * 2004-07-09 2008-06-24 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E V Apparatus and method for generating a multi-channel output signal
EP1856948B1 (en) * 2005-03-09 2011-10-05 MH Acoustics, LLC Position-independent microphone system
US7464029B2 (en) * 2005-07-22 2008-12-09 Qualcomm Incorporated Robust separation of speech signals in a noisy environment
US8954324B2 (en) 2007-09-28 2015-02-10 Qualcomm Incorporated Multiple microphone voice activity detector
CN101510426B (zh) 2009-03-23 2013-03-27 北京中星微电子有限公司 一种噪声消除方法及系统
US8924204B2 (en) * 2010-11-12 2014-12-30 Broadcom Corporation Method and apparatus for wind noise detection and suppression using multiple microphones
US20120263317A1 (en) * 2011-04-13 2012-10-18 Qualcomm Incorporated Systems, methods, apparatus, and computer readable media for equalization
US9524735B2 (en) 2014-01-31 2016-12-20 Apple Inc. Threshold adaptation in two-channel noise estimation and voice activity detection
EP3120355B1 (en) * 2014-03-17 2018-08-29 Koninklijke Philips N.V. Noise suppression

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1624767A (zh) * 2003-12-03 2005-06-08 富士通株式会社 降噪装置和降噪方法
US8818002B2 (en) * 2007-03-22 2014-08-26 Microsoft Corp. Robust adaptive beamforming with enhanced noise suppression
CN103646648A (zh) * 2013-11-19 2014-03-19 清华大学 一种噪声功率估计方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
结合人耳听觉感知的两级语音增强算法;张勇等;《信号处理》;20140430;第30卷(第4期);第363-373页 *

Also Published As

Publication number Publication date
WO2017128910A1 (zh) 2017-08-03
CN106997768A (zh) 2017-08-01
US20220301582A1 (en) 2022-09-22
US11610601B2 (en) 2023-03-21

Similar Documents

Publication Publication Date Title
EP3703052B1 (en) Echo cancellation method and apparatus based on time delay estimation
CN109767783B (zh) 语音增强方法、装置、设备及存储介质
US10504539B2 (en) Voice activity detection systems and methods
CN109215677B (zh) 一种适用于语音和音频的风噪检测和抑制方法和装置
CN110634497B (zh) 降噪方法、装置、终端设备及存储介质
CN111899752B (zh) 快速计算语音存在概率的噪声抑制方法及装置、存储介质、终端
TWI398855B (zh) 多重麥克風聲音活動偵測器
US10848887B2 (en) Blocked microphone detection
US10614788B2 (en) Two channel headset-based own voice enhancement
CN109410977B (zh) 一种基于EMD-Wavelet的MFCC相似度的语音段检测方法
CN111418010A (zh) 一种多麦克风降噪方法、装置及终端设备
US20120123772A1 (en) System and Method for Multi-Channel Noise Suppression Based on Closed-Form Solutions and Estimation of Time-Varying Complex Statistics
WO2012158156A1 (en) Noise supression method and apparatus using multiple feature modeling for speech/noise likelihood
CN110853664B (zh) 评估语音增强算法性能的方法及装置、电子设备
GB2554955A (en) Detection of acoustic impulse events in voice applications
US20140321655A1 (en) Sensitivity Calibration Method and Audio Device
CN106997768B (zh) 一种语音出现概率的计算方法、装置及电子设备
US20240046947A1 (en) Speech signal enhancement method and apparatus, and electronic device
CN112309417A (zh) 风噪抑制的音频信号处理方法、装置、系统和可读介质
Rodemann et al. Real-time sound localization with a binaural head-system using a biologically-inspired cue-triple mapping
US20140249809A1 (en) Audio signal noise attenuation
EP3428918B1 (en) Pop noise control
KR101993003B1 (ko) 잡음 제거 장치 및 방법
CN116504264B (zh) 音频处理方法、装置、设备及存储介质
CN115346545B (zh) 一种基于测量域噪声相减的压缩感知语音增强方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant