CN106997768B

CN106997768B - 一种语音出现概率的计算方法、装置及电子设备

Info

Publication number: CN106997768B
Application number: CN201610049402.XA
Authority: CN
Inventors: 汪法兵; 梁民
Original assignee: China Academy of Telecommunications Technology CATT
Current assignee: China Academy of Telecommunications Technology CATT
Priority date: 2016-01-25
Filing date: 2016-01-25
Publication date: 2019-12-10
Anticipated expiration: 2036-01-25
Also published as: WO2017128910A1; CN106997768A; US20220301582A1; US11610601B2

Abstract

本发明提供了一种语音出现概率的计算方法、装置及电子设备。本发明在语音出现概率计算中引入第一通道信号信噪比的度量参数和第一、第二通道之间信号功率电平差的度量参数，对上述度量参数进行归一化和非线性变换处理，并利用上述参数幂级数的一次项和乘积项拟合语音出现概率，从而可以减少了语音出现概率计算的运算量，使得计算结果对参数波动具有较好的健壮性，并能够广泛适用于各种双麦克风语音增强系统的应用场景。

Description

一种语音出现概率的计算方法、装置及电子设备

技术领域

本发明涉及语音信号处理技术领域，具体涉及一种语音出现概率的计算方法、装置及电子设备。

背景技术

在正常的语音通话中，用户大约有50％的时间段是处于停顿/倾听等非发话状态。现行的语音增强系统则通过语音激活检测(Voice Activity Detection，VAD)算法来鉴别出语音非激活段，并在该段进行环境噪声统计特性的估计与更新。目前的VAD技术大都通过计算语音信号时域波形的过零率或短时能量等参数、并将其与预定的阈值作相比，来做出语音激活与否的二元判决。但这种简单的二元判定方法时常发生误判(即把语音段判定为非语音段或者把非语音段判定为语音段)，由此影响环境噪声统计参数估计的准确性，从而降低语音增强系统的质量。

为克服VAD的这种局限性，人们提出了VAD的软判决技术。VAD软判决技术则首先计算语音出现概率(Speech Presence Probability，SPP)或者语音缺席概率(SpeechAbsence Probability，SAP)，然后再利用SPP或SAP来估计噪声的统计信息。然而，对于双麦克风语音增强系统，现有的计算语音出现概率的方法，大多存在计算量大，对参数波动敏感，以及在语音非激活段不趋近于零的缺点。

发明内容

本发明实施例要解决的技术问题是提供一种语音出现概率的计算方法、装置及电子设备，其计算复杂度较低，且对参数波动具有较好的健壮性，满足语音非激活段语音出现概率趋近于零的约束条件，能够广泛应用于各种双麦克风语音增强系统。

为解决上述技术问题，本发明实施例提供的语音出现概率的计算方法，应用于采用端射End-fire结构设置的第一麦克风和第二麦克风，包括：

根据第一麦克风拾取的第一通道的信号和第二麦克风拾取的第二通道的信号，计算第一度量参数和第二度量参数，所述第一度量参数为第一通道的信号信噪比，第二度量参数为第一通道与第二通道的信号功率电平差；

对第一度量参数和第二度量参数，分别进行归一化和非线性变换处理，得到第三度量参数和第四度量参数；

根据第三度量参数、第四度量参数以及预先确定的语音出现概率的计算公式，计算得到语音出现概率，其中，所述计算公式是通过对第三度量参数和第四度量参数的二元幂级数的一次项和乘积项进行拟合，并对拟合系数施加归一化约束后得到的。

优选的，上述方案中，

所述第一度量参数的计算包括：

利用以下公式，计算第一度量参数：

其中，M_SNR(n，k)表示第一度量参数，ξ₁(n，k)表示第一通道的第n帧信号第k个频率分量上的先验信噪比，ξ₀(k)表示预先设定的第k个频率分量上的信噪比参考值。

优选的，上述方案中，

所述第二度量参数的计算包括：

利用以下公式，计算第二度量参数：

其中，M_PLD(n，k)表示第二度量参数，表示第一通道的第n帧信号第k个频率分量上的信号功率谱密度，表示第二通道的第n帧信号第k个频率分量上的信号功率谱密度。

优选的，上述方案中，

所述归一化和非线性变换处理包括：

对待处理参数进行数值更新，得到中间参数，其中，在数值超出区间[0，1]时，将数值更新为1，否则保持数值不变，所述待处理参数为第一度量参数或第二度量参数；

对中间参数进行分段线性变换，得到最终参数，所述最终参数是所述中间参数的分段线性函数，且接近于所述中间参数取值范围中心的区段的斜率，大于远离所述中间参数取值范围中心的区段的斜率，所述最终参数为第三度量参数或第四度量参数。

优选的，上述方案中，

所述语音出现概率的计算公式为：

P₁＝c(aM′_SNR+(1-a)M′_PLD)+(1-c)M′_SNRM′_PLD

其中，P₁表示第n帧信号第k个频率分量上的语音出现概率，M′_SNR表示第三度量参数，M′_PLD表示第四度量参数，a、c均为取值范围在[0，1]之内的拟合系数。

优选的，上述方案中，所述拟合系数a、c的取值是预先设定的固定值。

优选的，上述方案中，所述拟合系数a的取值是根据环境噪声的类型而预先设确定的；

所述拟合系数c的取值，随着M′_SNR与M′_PLD的差值的减小而增大。

其中，上述方案中，

拟合系数c的取值，按照以下任一公式计算得到：

c＝1-|M′_PLD-M′_SNR|

本发明实施例还提供了一种语音出现概率的计算装置，应用于采用端射End-fire结构设置的第一麦克风和第二麦克风，包括：

采集单元，用于根据第一麦克风拾取的第一通道的信号和第二麦克风拾取的第二通道的信号，计算第一度量参数和第二度量参数，所述第一度量参数为第一通道的信号信噪比，第二度量参数为第一通道与第二通道的信号功率电平差；

转换单元，用于对第一度量参数和第二度量参数，分别进行归一化和非线性变换处理，得到第三度量参数和第四度量参数；

计算单元，用于根据第三度量参数、第四度量参数以及预先确定的语音出现概率的计算公式，计算得到语音出现概率，其中，所述计算公式是通过对第三度量参数和第四度量参数的二元幂级数的一次项和乘积项进行拟合，并对拟合系数施加归一化约束后得到的。

优选的，上述方案中，

所述采集单元，具体用于：

利用以下公式，计算第一度量参数：

优选的，上述方案中，

所述采集单元，具体用于：

利用以下公式，计算第二度量参数：

优选的，上述方案中，

所述转换单元，具体用于：对待处理参数进行数值更新，得到中间参数，其中，在数值超出区间[0，1]时，将数值更新为1，否则保持数值不变，所述待处理参数为第一度量参数或第二度量参数；对中间参数进行分段线性变换，得到最终参数，所述最终参数是所述中间参数的分段线性函数，且接近于所述中间参数取值范围中心的区段的斜率，大于远离所述中间参数取值范围中心的区段的斜率，所述最终参数为第三度量参数或第四度量参数。

优选的，上述方案中，

所述语音出现概率的计算公式为：

P₁＝c(aM′_SNR+(1-a)M′_PLD)+(1-c)M′_SNRM′_PLD

优选的，上述方案中，

所述拟合系数a的取值是根据环境噪声的类型而与确预先设定的；

其中，上述方案中，

拟合系数c的取值，按照以下任一公式计算得到：

c＝1-|M′_PLD-M′_SNR|

本发明实施例还提供了一种电子设备，包括:

处理器；以及，通过总线接口与所述处理器相连接的存储器、第一麦克风和第二麦克风，所述第一麦克风和第二麦克风采用端射End-fire结构配置；所述存储器用于存储所述处理器在执行操作时所使用的程序和数据，当处理器调用并执行所述存储器中所存储的程序和数据时，实现如下的功能模块：

采集单元，用于分别采集第一麦克风对应的第一通道和第一麦克风对应的第二通道的声音信号，计算第一度量参数和第二度量参数，其中，所述第一度量参数为第一通道的信号信噪比，第二度量参数为第一通道与第二通道的信号功率电平差；

与现有技术相比，本发明实施例提供的语音出现概率的计算方法、装置及电子设备，大大减少了语音出现概率计算的运算量，满足语音非激活段语音出现概率趋近于零的约束，且使得计算结果对参数波动具有较好的健壮性。另外，本发明实施例既能应用于稳态/准稳态噪声场中的情形，又能应用于瞬态噪声和第三方语音干扰的情形，能够广泛适用于各种双麦克风语音增强系统的应用场景。

附图说明

图1为本发明实施例提供的语音出现概率的计算方法的流程示意图；

图2为本发明实施例提供的语音出现概率的计算方法的又一流程示意图；

图3为本发明实施例中对第一度量参数进行分段线性变换的示意图；

图4为本发明实施例中对第二度量参数进行分段线性变换的示意图；

图5为本发明实施例中拟合系数的确定方式的举例示意图；

图6为本发明实施例提供的语音出现概率的计算装置的结构示意图；

图7为本发明实施例提供的电子设备的结构示意图。

具体实施方式

为使本发明要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。

现有双麦克风语音增强系统的语音出现概率的计算方法，由于运算量非常大，且计算结果对参数波动敏感等缺点，以及语音非激活段不趋近于零，不能很好的适用于实际设备中。本发明实施例通过引入两种度量参数，并提出一种新的语音出现概率的计算模型，可以降低计算量，并使计算结果对参数波动具有更好的健壮性，并满足语音非激活段趋近于零的约束。

在介绍本发明实施例之前，为帮助更好的理解本发明，首先介绍一下现有技术的语音出现概率的计算原理。

假设麦克风拾取的信号为：

y(n)＝x(n)+d(n) (1)

这里，x(n)是用户的语音信号，d(n)是噪声信号(包括环境噪声和其它声源干扰总和)，y(n)为麦克风拾取的信号。

对上述公式(1)做短时傅里叶变换可以得到：

Y(n,k)＝X(n,k)+D(n,k) (2)

假设麦克风拾取信号存在如下表述的两种状态假设检验：

H₀(即无语音信号)：Y(n,k)＝D(n,k)

H₁(即有语音信号)：Y(n,k)＝X(n,k)+D(n,k) (3)

利用软判决方法,计算噪声功率谱：

E[|D|²|Y]＝E[|D|²|Y,H₀]p(H₀|Y)+E[|D|²|Y,H₁]p(H₁|Y) (4)

上述公式(4)中，p(H₁|Y)是当前的时频单元的语音出现概率，p(H₀|Y)是当前的时频单元的语音缺席概率。

利用贝叶斯公式可以得到：

其中，是语音缺席与语音出现的先验概率之比，是麦克风拾取信号的第n帧信号第k个频点的条件概率之比，假设各频点振幅幅度是高斯分布，利用MMSE-STSA方法计算，则可以得到：

上述公式(6)中，ξ(n，k)，γ(n，k)分别是麦克风拾取信号第n帧信号第k个频点的先验信噪比和后验信噪比。

上述公式(5)是现有技术中应用较广的单通道SPP计算方法。

近年来，双麦克风阵列已广泛地应用于移动终端提升语音增强的功能。双麦克风阵列通常包括采用端射End-fire结构设置的第一麦克风和第二麦克风，其中一个麦克风的部署位置通常更接近于用户嘴部。考虑到上述语音出现概率的计算方法则是基于单麦克风情况下推导的，它并不能完全适用于多麦克风系统。为此，现有技术已经将上述方法拓展到多麦克风语音出现概率的计算上，通过基于高斯模型的语音出现概率之假设，推导出同公式(5)和(6)类似的理论公式：

上述公式(7)的参数ξ(n，k)，β(n，k)替换成如下多通道的计算公式：

其中，

y(n，k)＝[y_l(n，k)y₂(n，k)...y_N(n，k)]^T，

X(n，k)＝[x₁(n，k)x₂(n，k)...x_N(n，k)]^T，

d(n，k)＝[d₁(n，k)d₂(n，k)...d_N(n，k)]^T；

下标N为多麦克风阵列(如双麦克风阵列)的通道数，当用于双麦克风情形时，取N ＝2；Φ_xx，Φ_dd分别是多通道语音信号和背景噪声的功率谱密度矩阵；期望值可通过递归计算逼近：

Φ_yy(n，k)＝(1-α_y)Φ_yy(n-1，k)+α_yy(n，k)y^H(n，k) (10)

Φ_dd(n，k)＝(1-α_d)Φ_dd(n-1，k)+α_dd(n，k)d^H(n，k) (11)

其中，0≤α_y≤1，0≤α_d≤1。

将上述公式(7)应用到双麦克风系统，便可得到双通道语音出现概率的计算公式。

然而，将上述的理论公式应用到移动终端时，存在计算量大，对参数敏感等问题。对于双麦克风语音增强系统，利用(7)式至(9)式计算SPP，涉及大量的矩阵乘积与矩阵求逆运算，在实时处理的语音增强系统中，因为占用过多的计算资源而实用性低。其次，在现实应用环境中，语音和噪声信号大多是非稳态信号，经常性出现的第三方干扰源往往是瞬态信号，这时，参数ξ(n，k)，β(n，k)估计值与真实值存在较大误差，而由(7)式可知，SPP对参数ξ(n，k)，β(n，k)的依赖关系是指数函数型的，对参数的变化非常敏感，ξ(n，k)，β(n，k)的微小计算误差，会导致SPP计算值的剧烈波动，进而影响语音增强系统的整体性能。

此外，单麦克风和多麦克风阵列的语音出现概率的理论公式(5)(6)(7)都是基于高斯统计模型推导得到的，它们存在一个缺陷，即当某个时频单元的先验信噪比ξ(n，k)→0时，这与经验是相抵触的，当信噪比趋近于零时，语音是不存在的，即语音出现概率应当趋近于零。

另一方面，移动终端通话过程中经常遇到的瞬态噪声、第三方语音干扰等情况，这种噪声源和干扰源具有和语音相似或相同的时变特性，利用上述公式(7)计算语音出现概率，会将这种类型的噪声和干扰判定为语音，导致SPP的计算失效。

针对以上SPP估计方法的缺点，本发明实施例提出了一种计算复杂度小，对参数波动不敏感的SPP估计方法，使之满足如下条件：当ξ(n，k)→0时，P(H₁|Y)→0，应用于双麦克风阵列的语音出现概率计算，其中，双麦克风阵列包括采用端射(End-fire)结构设置的第一麦克风和第二麦克风，这里，假设第一麦克风与用户嘴部的距离小于第二麦克风与用户嘴部的距离，即第一麦克风相比于第二麦克风，更接近于用户嘴部。

本发明实施例定义两个参数(后文中也称为第一度量参数和第二度量参数)：M_SNR(n，k)、M_PLD(n，k)(为简便起见，下文中也分别记为M_SNR和M_PLD)。M_SNR作为第一通道信号信噪比(SNR，Signal Noise Ratio)的度量参数，M_PLD作为第一、第二通道之间信号功率电平差(PLD，Power Level Difference)的度量参数，并用这两个参数计算SPP。

具体的，请参照图1所示，本发明实施例提供的语音出现概率的计算方法，应用于采用End-fire结构设置的第一麦克风和第二麦克风，包括以下步骤：

步骤11，根据第一麦克风拾取的第一通道的信号和第二麦克风拾取的第二通道的信号，计算第一度量参数和第二度量参数，所述第一度量参数为第一通道的信号信噪比，第二度量参数为第一通道与第二通道的信号功率电平差。

这里，将双通道信号间的功率电平差(第二度量参数)作为噪声干扰和目标语音之间的一个区分依据，结合信噪比度量参数(第一度量参数)，计算双麦克风系统的语音出现概率，例如，在步骤11中提取跟SNR、PLD相关的两个参数M_SNR和M_PLD，用于后续SPP的计算。其中，M_SNR是利用信号的信噪比特征作为检测语音的判据，M_PLD是利用近场目标语音与远场噪声干扰的近远场特征不同，作为检测近场语音的判据。

步骤12，对第一度量参数和第二度量参数，分别进行归一化和非线性变换处理，得到第三度量参数和第四度量参数。

这里，在步骤12中，可以通过分段线性变换，对M_SNR和M_PLD进行归一化和非线性变换处理，得到第三度量参数(可以记为M′_SNR)和第四度量参数(可以记为M′_PLD)。所述归一化和非线性变换处理具体包括：

步骤13，根据第三度量参数、第四度量参数以及预先确定的语音出现概率的计算公式，计算得到语音出现概率，其中，所述计算公式是利用第三度量参数和第四度量参数幂级数的一次项和乘积项得到拟合公式，并对拟合系数施加归一化约束后得到的。

这里，所述语音出现概率的计算公式是利用归一化处理后的功率电平差度量参数(第四度量参数)和信噪比度量参数(第三度量参数)的二次函数，拟合出的语音出现概率。例如，可以利用M′_SNR、M′_PLD的一次项和乘积项拟合SPP的计算公式。然后，在具体计算过程中，还可以利用功率电平差度量参数和信噪比度量参数的相关性强弱，自适应调整二次函数的各项的权重，即调整SPP计算公式的拟合系数，使计算结果更为准确。当然，所述拟合系数a、c的取值也可以是预先设定的固定值，例如根据当前应用场景中经常出现的噪声类型，预先设置好拟合参数的数值。

可以看出，本发明实施例提供的上述计算方法，具有较低的计算复杂度，并且对参数的波动具有更好的健壮性。另外，传统的SPP计算方法大多是针对稳态和准稳态噪声，当受到瞬态噪声和第三方语音干扰时，其计算方法容易失效。本发明实施例提出的SPP计算方法，既能应用于稳态/准稳态噪声场中的情形，又能应用于瞬态噪声和第三方语音干扰的情形，能够广泛适用于各种双麦克风语音增强系统的应用场景。

为了更好的理解上述步骤，下面将进一步通过具体公式以及详细文字描述的方式，对本发明实施例作进一步的说明。

本发明实施例中，第一度量参数用于反映第一通道的信号信噪比，具体可以多种形式，里可以直接采用第一通道的信号先验信噪比ξ₁(n，k)来表征，也可以采用第一通道的信号先验信噪比ξ₁(n，k)与一参考值的比值(如下述公式(12))来表征。第二度量参数用于反映两个通道之间的信号功率电平差，具体可以采用两个通道的信号功率电平的比值(如下述公式(13))来表征，也可以两个通道的功率谱密度矩阵的比值(如)来表征，还可以采用两个通道的功率谱密度的差值与和值的比值来表征。

对双麦克风系统而言，目标语音表现为近场信号，环境噪声，第三方干扰等表现为远场信号。双麦克风系统第一通道和第二通道的信号功率电平差可以作为区分近场信号和远场信号的一个重要判据，将近场目标语音检测出来。

不同于现有技术多通道SPP估计方法，本发明实施例将双通道信号间的功率电平差作为噪声干扰和目标语音之间的一个区分依据，结合信噪比度量参数，计算双麦克风系统的SPP。

在忽略两个麦克风信号间相位信息时，SPP与变量M_SNR和M_PLD存在复杂的函数关系，可以用这两个变量的幂级数拟合。为了降低算法复杂度，本发明实施例首先对M_SNR和M_PLD做分段线性变换，再做幂级数展开，并取前几项，根据经验拟合其系数。可参考图2所示，首先提取M_SNR和M_PLD(步骤21、23)，然后对M_SNR和M_PLD归一化和分段线性变换处理得到M′_SNR、M′_PLD(步骤22、24)，然后，在利用计算公式加权计算SPP之前还可以自适应调整拟合系数(步骤25)，最后，利用M′_SNR、M′_PLD的一次项及乘积项加权计算SPP(步骤26)，得到SPP的计算结果(记为p₁)。

下面介绍本发明实施例提取信噪比度量参数M_SNR和功率电平差度量参数M_PLD的一种实现方式。这里以下面公式(12)(13)作为第一、第二度量参数的表征方式来进行说明，其他表征方式的原理类似，为节约篇幅，不再一一赘述。

上述公式中，M_SNR(n，k)表示第一度量参数，ξ₁(n，k)表示第一通道的第n帧信号第k个频率分量上的先验信噪比，ξ₀(k)表示预先设定的第k个频率分量上的信噪比参考值。中，M_PLD(n，k)表示第二度量参数，表示第一通道的第n帧信号第k个频率分量上的信号功率谱密度，表示第二通道的第n帧信号第k个频率分量上的信号功率谱密度。

利用上述公式(12)，提取第一度量参数，即信噪比参数M_SNR。其中，ξ₀(k)可以根据频点分段预先设定。比如，本发明实施例将语音频率分为低频、中频、高频三个频带，每个频带预设一个信噪比参考值：

其中，k_L是低频带和中频带的分界频点，k_H是中频带与高频带的分界频点，k_FS是频带上界对应的频点。ξ_L，ξ_M，ξ_H是这三个频带内参数值，可以根据经验确定，以下举例进行说明。

实例1：本发明实施例在应用于窄带语音信号时，k_L∈[800，2000]Hz，k_H∈[1500，3000]Hz，对应的ξ_L，ξ_M，ξ_H取值范围为(1,20)。

实例2：本发明实施例应用于宽带语音信号，k_L∈[800，3000]Hz，k_H∈[2500，6000]Hz。对应的ξ_L，ξ_M，ξ_H取值范围为(1,20)。

然后，利用公式(14)计算各个频点的M_SNR(n，k)。

利用公式(13)即可以提取功率电平差度量参数M_PLD。

在提取得到对M_SNR和M_PLD后，可通过非线性变换处理得到M′_SNR、M′_PLD。下面将介绍本发明实施例非线性变换的一种处理方式，即归一化和分段线性变换。分段线性变换是指把非线性特性曲线分成若干个区段，在每个区段中用直线段近似地代替特性曲线，这种处理方式也称为分段线性化，可以减小后续的计算复杂度。

由上述公式(7)可知，当M_SNR→-0，p₁→0；当M_SNR→+∞，p₁→1。本发明实施例利用归一化和分段线性函数处理M_SNR得到M′_SNR，以拟合SPP对参数M_SNR依赖的函数特征。如图3所示，M′_SNR的取值范围为[0,1]。

具体的，先将M_SNR的取值范围公式M_SNR＝min(M_SNR，1)归一化到[0,1]区间，然后对M_SNR做分段线性变换，下面公式(15)以划分为3个区段为例进行说明，当然本发明实施例可以划分成更多或更少的区段：

可以看出，上述对第一度量参数M_SNR进行归一化和非线性变换处理，得到第三度量参数M′_SNR的步骤具体包括：根据第一度量参数的数值，对第一度量参数进行更新，其中在第一度量参数超出区间[0，1]时，将第一度量参数更新为1，否则保持第一度量参数不变；然后，对更新后的第一度量参数，进行分段线性变换，转换为第三度量参数，所述第三度量参数是第一度量参数的分段线性函数。考虑到SPP对参数M_SNR依赖的函数特征，该分段线性函数的多个区段中，接近于第一度量参数取值范围中心的区段的斜率，大于远离第一度量参数取值范围中心的区段的斜率。例如，对于公式(15)，k₂大于1，而k₁、k₃均小于1。而s₁、s₂、s₃的取值，则可以根据经验值设置。

对远场噪声与干扰，M_PLD→0，p₁→0；对于近场语音，M_PLD→1，p₁→1。本发明实施例利用图4所示分段线性函数归一化M_PLD，首先根据经验数据确定一个接近于1的参数x_max，用公式M_PLD＝min(M_PLD，x_max)将M_PLD的取值映射到区间[0,x_max]，然后利用公式(16)进行分段线性化，得到的M′_PLD的取值范围为[0,1]。下面公式(16)以划分为3个区段为例进行说明，当然本发明实施例可以划分成更多或更少的区段。

可以看出，上述对第二度量参数M_PLD进行归一化和非线性变换处理，得到第四度量参数M′_PLD的步骤包括：根据第二度量参数的数值，对第二度量参数进行更新，其中在第二度量参数超出区间[0，1]时，将第二度量参数更新为1，否则保持第二度量参数不变；对更新后的第二度量参数，进行分段线性变换，转换为第四度量参数，所述第四度量参数是第二度量参数的分段线性函数。考虑到SPP对参数M_PLD依赖的函数特征，接近于第二度量参数取值范围中心的区段的斜率，大于远离第二度量参数取值范围中心的区段的斜率。例如，对于公式(16)，t₂大于1，而t₁、t₃均小于1。而x₁、x₂、x₃的取值，则可以根据经验值设置。

如前所述，用M′_SNR、M′_PLD的一次项及乘积项拟合得到SPP，并对拟合系数施加归一化约束，可以得到如下所述的SPP的计算公式：

P₁＝c(aM′_SNR+(1-a)M′_PLD)+(1-c)M′_SNRM′_PLD (17)

公式(17)中，存在a,c两个参数，a,c的取值范围都为[0,1]。本发明实施例根据M_SNRM_PLD的相关性，自适应调整c的大小，以及，根据麦克风的一致性特征，自适应调整a的大小。

理论上，M′_SNR、M′_PLD都可以独立作为VAD的判据或独立来计算SPP。受各种因素影响，计算值与理论值有一定的偏离。特别的是，M′_SNR对平稳噪声，扩散场噪声有更好的适应性；M_PLD对远场的非平稳噪声，瞬态噪声及第三方讲话者的干扰语音有更好的适应性。

如图5所示，图5示出的是参数M′_SNR与M′_PLD的取值空间，M′_SNR、M′_PLD的取值空间可以分为示意性的四个区域，其中，图5中的A1区域，M′_PLD接近于0，M′_SNR接近于0；A2区域M′_PLD接近于1，且M′_SNR接近于1；B1区域，M′_PLD接近于0，且M′_SNR接近于1；B2区域，M′_PLD接近于1，且M′_SNR接近于0。

在A₁，A₂区域，这两个参数具有较强的相关性，c取值较大，强调公式(17)的线性部分；在B₁，B₂区域，这两个参数相关性较弱，c取值较小，突出公式(17)的乘积项M′_SNRM′_PLD。本发明实施例可以根据M_SNRM_PLD分布的区域，自适应调整公式(17)中的参数c。具体的，拟合系数c的取值，随着M′_SNR与M′_RLD的差值的减小而增大。

下面利用两个例子来说明参数c的取值策略，需要指出的是，本发明实施例并不局限于这两种举例的实现方式。

实例1：假设当前的参数M′_SNR与M′_PLD对应于图5中的参考点R，即参考点R的坐标为(M′_PLD，M′_SNR)。假设第一线段与第二射线的夹角θ，可以用cos²(θ)作为参数c的取值，如下述公式(18)所示，这里，第一线段以点(0.5,0.5)作为起点，R为终点；第二射线以点(0.5,0.5)作为起点，且与M′_PLD轴呈45度夹角：

实例2：可以根据下述公式(19)确定c的取值：

c＝1-|M′_PLD-M^′ _SNR| (19)

本发明实施例中，参数a可以根据经验在0≤a≤1范围内取值，也可以根据噪声类型的预判而预先调整a的大小。例如，当预判噪声为稳态准稳态时，加大M^′ _SNR的权重，加大a的取值，当噪声为瞬态噪声或第三方语音干扰时，增加M^′ _PLD的权重，减小a的取值。例如，用户基于当前所处环境确定当前环境中可能的噪声类型，本发明实施例根据上述噪声类型来设置a的取值。

在确定了拟合系数a,c的取值之后，本发明实施例即可利用公式(17)计算语音出现概率。上述公式(17)大大减少了SPP计算的运算量，且语音出现概率不再是参数ξ(n，k)，β(n，k)的指数函数，使得计算结果对参数波动具有较好的健壮性。另外，传统的SPP计算方法大多是针对稳态和准稳态噪声，当受到瞬态噪声和第三方语音干扰时，其计算方法容易失效。而本发明实施例提出的SPP计算方法，既能应用于稳态/准稳态噪声场中的情形，又能应用于瞬态噪声和第三方语音干扰的情形，能够广泛适用于各种双麦克风语音增强系统的应用场景。

基于以上所述的语音出现概率的计算方法，本发明实施例还提供了一种实现上述方法的计算装置和电子设备。请参照图6所示，本发明实施例提供的计算装置，应用于采用端射(End-fire)结构设置的第一麦克风和第二麦克风，该装置包括：

采集单元61，用于分别采集第一麦克风对应的第一通道和第一麦克风对应的第二通道的声音信号，计算第一度量参数和第二度量参数，其中，所述第一度量参数为第一通道的信号信噪比，第二度量参数为第一通道与第二通道的信号功率电平差；

转换单元62，用于对第一度量参数和第二度量参数，分别进行归一化和非线性变换处理，得到第三度量参数和第四度量参数；

计算单元63，用于根据第三度量参数、第四度量参数以及预先确定的语音出现概率的计算公式，计算得到语音出现概率，其中，所述计算公式是通过对第三度量参数和第四度量参数的幂级数的一次项和乘积项进行拟合，并对拟合系数施加归一化约束后得到的。

本发明实施例中所述采集单元61，具体用于：

利用以下公式，计算第一度量参数：

所述采集单元61，还可以用于：

利用以下公式，计算第二度量参数：

本发明实施例中，所述转换单元62，具体用于：对待处理参数进行数值更新，得到中间参数，其中，在数值超出区间[0，1]时，将数值更新为1，否则保持数值不变，所述待处理参数为第一度量参数或第二度量参数；对中间参数进行分段线性变换，得到最终参数，所述最终参数是所述中间参数的分段线性函数，且接近于所述中间参数取值范围中心的区段的斜率，大于远离所述中间参数取值范围中心的区段的斜率，所述最终参数为第三度量参数或第四度量参数。

作为一种优选方式，本发明实施例中，所述语音出现概率的计算公式为：

P₁＝c(aM′_SNR+(1-a)M′_PLD)+(1-c)M′_SNRM′_PLD

作为一种优选方式，所述拟合系数a、c的取值是预先设定的固定值。

作为另一种优选方式，所述拟合系数a、c的取值是根据M′_SNR与M′_PLD确定的，其中，拟合系数a的取值是根据(M′_PLD，M′_SNR)所在区域确定的，不同区域对应于不同的值。

拟合系数c的取值，随着M′_SNR与M′_PLD的差值的减小而增大。

优选的，所述拟合系数c的取值，可以按照以下任一公式计算得到：

c＝1-|M′_PLD-M′_SNR|

请参照图7，本发明实施例提供的电子设备，包括:

处理器71；以及，通过总线接口72与所述处理器相连接的存储器73、第一麦克风74和第二麦克风75，所述第一麦克风74和第二麦克风75采用端射End-fire结构配置，第一麦克风74通常与用户嘴部的距离小于第二麦克风75与用户嘴部的距离；所述存储器73用于存储所述处理器71在执行操作时所使用的程序和数据，当处理器71调用并执行所述存储器73中所存储的程序和数据时，实现如下的功能模块：

计算单元，用于根据第三度量参数、第四度量参数以及预先确定的语音出现概率的计算公式，计算得到语音出现概率，其中，所述计算公式是通过对第三度量参数和第四度量参数的幂级数的一次项和乘积项进行拟合，并对拟合系数施加归一化约束后得到的。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明所述原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种语音出现概率的计算方法，应用于采用端射End-fire结构设置的第一麦克风和第二麦克风，其特征在于，包括：

根据第三度量参数、第四度量参数以及预先确定的语音出现概率的计算公式，计算得到语音出现概率，其中，所述计算公式是通过对第三度量参数和第四度量参数的二元幂级数的一次项和乘积项进行拟合，并对拟合系数施加归一化约束后得到的；

其中，所述语音出现概率的计算公式为：

P₁＝c(aM′_SNR+(1-a)M′_PLD)+(1-c)M′_SNRM′_PLD

2.如权利要求1所述的计算方法，其特征在于，

所述第一度量参数的计算包括：

利用以下公式，计算第一度量参数：

其中，M_SNR(n,k)表示第一度量参数，ξ₁(n,k)表示第一通道的第n帧信号第k个频率分量上的先验信噪比，ξ₀(k)表示预先设定的第k个频率分量上的信噪比参考值。

3.如权利要求2所述的计算方法，其特征在于，

所述第二度量参数的计算包括：

利用以下公式，计算第二度量参数：

其中，M_PLD(n,k)表示第二度量参数，表示第一通道的第n帧信号第k个频率分量上的信号功率谱密度，表示第二通道的第n帧信号第k个频率分量上的信号功率谱密度。

4.如权利要求3所述的计算方法，其特征在于，

所述归一化和非线性变换处理包括：

5.如权利要求4所述的计算方法，其特征在于，所述拟合系数a、c的取值是预先设定的固定值。

6.如权利要求4所述的计算方法，其特征在于，

所述拟合系数a的取值是根据环境噪声的类型而预先设确定的；

7.如权利要求6所述的计算方法，其特征在于，

拟合系数c的取值，按照以下任一公式计算得到：

c＝1-|M′_PLD-M′_SNR| 。

8.一种语音出现概率的计算装置，应用于采用端射End-fire结构设置的第一麦克风和第二麦克风，其特征在于，包括：

计算单元，用于根据第三度量参数、第四度量参数以及预先确定的语音出现概率的计算公式，计算得到语音出现概率，其中，所述计算公式是通过对第三度量参数和第四度量参数的二元幂级数的一次项和乘积项进行拟合，并对拟合系数施加归一化约束后得到的；

其中，所述语音出现概率的计算公式为：

P₁＝c(aM′_SNR+(1-a)M′_PLD)+(1-c)M′_SNRM′_PLD

9.如权利要求8所述的计算装置，其特征在于，

所述采集单元，具体用于：

利用以下公式，计算第一度量参数：

其中，M_SNR(n,k)表示第一度量参数，ξ₁(n，k)表示第一通道的第n帧信号第k个频率分量上的先验信噪比，ξ₀(k)表示预先设定的第k个频率分量上的信噪比参考值。

10.如权利要求9所述的计算装置，其特征在于，

所述采集单元，具体用于：

利用以下公式，计算第二度量参数：

11.如权利要求10所述的计算装置，其特征在于，

12.如权利要求11所述的计算装置，其特征在于，所述拟合系数a、c的取值是预先设定的固定值。

13.如权利要求11所述的计算装置，其特征在于，

14.如权利要求13所述的计算装置，其特征在于，

拟合系数c的取值，按照以下任一公式计算得到：

c＝1-|M′_PLD-M′_SNR| 。

15.一种电子设备，其特征在于，包括:

其中，所述语音出现概率的计算公式为：

P₁＝c(αM′_SNR+(1-a)M′_PLD)+(1-c)M′_SNRM′_PLD