CN106161751A

CN106161751A - 一种噪声抑制方法及装置

Info

Publication number: CN106161751A
Application number: CN201510176912.9A
Authority: CN
Inventors: 汪法兵; 梁民; 韩波
Original assignee: China Academy of Telecommunications Technology CATT
Current assignee: China Academy of Telecommunications Technology CATT
Priority date: 2015-04-14
Filing date: 2015-04-14
Publication date: 2016-11-23
Anticipated expiration: 2035-04-14
Also published as: CN106161751B

Abstract

本发明公开了一种噪声抑制方法及装置，主要包括：获取第一音频信号和第二音频信号，确定所述第一音频信号与所述第二音频信号的功率电平差、相干性度量值以及相位差；根据所述第一音频信号与所述第二音频信号的功率电平差、相干性度量值以及相位差，更新语音出现概率；根据所述第一音频信号和/或所述第二音频信号的PSD，以及更新后的语音出现概率，确定噪声的PSD；根据所述噪声的PSD，以及所述第一音频信号和/或所述第二音频信号，确定噪声频谱增益；根据所述噪声频谱增益，对所述第一音频信号和所述第二音频信号中的一路音频信号进行噪声抑制。采用上述方法，可以提高噪声干扰抑制性能。

Description

一种噪声抑制方法及装置

技术领域

本发明涉及通信领域，尤其涉及一种噪声抑制方法及装置。

背景技术

移动终端的工作环境异常复杂，语音通话经常受到各种背景噪声和其它干扰声源的影响。

为改善与提高语音通话质量，目前，大多数移动终端都采用一个或两个麦克风，对麦克风信号进行噪声抑制。传统单麦克风噪声抑制通常利用语音激活检测(英文为voice activity detection，简称VAD)，对麦克风采集的信号进行噪声估计，应用谱减法抑制噪声。采用两个麦克风捕获的两路信号进行噪声抑制，能提高VAD的准确率，进而提高背景噪声谱估计的精确性。

然而，由于噪声或干扰存在时变特性，所以利用含噪信号做VAD判决及噪声功率谱估计，存在估计精度较差的问题，以致恶化降噪系统的性能。另一方面，两颗麦克风往往存在器件性能上的差异，上述采用两颗麦克风的噪声抑制方法对麦克风一致性有很高的要求，这在实际应用中往往难以满足。

发明内容

本发明实施例提供一种噪声拟制方法及装置，以提高噪声干扰抑制性能。

本发明实施例提供的噪声抑制方法，包括：

获取第一音频信号和第二音频信号，所述第一音频信号和所述第二音频信号为设置于移动终端上的不同位置的两个音频接收装置接收到的两路音频信号；

确定所述第一音频信号与所述第二音频信号的功率电平差、相干性度量值以及相位差；

根据所述第一音频信号与所述第二音频信号的功率电平差、相干性度量值以及相位差，更新语音出现概率；

根据所述第一音频信号和/或所述第二音频信号的PSD，以及更新后的语音出现概率，确定噪声的PSD；

根据所述噪声的PSD，以及所述第一音频信号和/或所述第二音频信号，确定噪声频谱增益；

根据所述噪声频谱增益，对所述第一音频信号和所述第二音频信号中的一路音频信号进行噪声抑制。

本发明实施例提供的噪声抑制装置，包括：

获取单元，用于获取第一音频信号和第二音频信号，所述第一音频信号和所述第二音频信号为设置于移动终端上的不同位置的两个音频接收装置接收到的两路音频信号；

第一确定单元，用于确定所述第一音频信号与所述第二音频信号的功率电平差、相干性度量值以及相位差；

第二确定单元，用于根据所述第一音频信号与所述第二音频信号的功率电平差、相干性度量值以及相位差，更新语音出现概率；

第三确定单元，用于根据所述第一音频信号和/或所述第二音频信号的PSD，以及更新后的语音出现概率，确定噪声的PSD；

第四确定单元，用于根据所述噪声的PSD，以及所述第一音频信号和/或所述第二音频信号，确定噪声频谱增益；

噪声抑制单元，用于根据所述噪声频谱增益，对所述第一音频信号和所述第二音频信号中的一路音频信号进行噪声抑制。

本发明上述实施例中，通过设置于移动终端不同位置的两个音频接收装置获取第一音频信号和第二音频信号，因此第一音频信号和第二音频信号之间会存在一定功率电平差、相位差以及相干性差异，利用这些差异确定两路音频信号中语音出现的概率，利用语音出现概率更新噪声的PSD，根据噪声的PSD确定噪声频谱增益，最后利用该噪声频谱增益进行噪声抑制。一方面，由于上述方案中，根据语音出现概率及时对噪声的PSD进行更新，因此基于噪声的PSD计算得到的噪声频谱增益也相应得到及时更新；另一方面，利用两路音频信号的功率电平差，可以区分近场目标语音和远场噪音与干扰，利用两路音频信号的相干性差异，可以区分相干语音和-非相干噪声，因此基于两路信号的上述差异计算语音出现概率，并基于此来更新噪声的PSD，可以提高对噪声的PSD的估计精度。通过上述两个方面，本发明实施例可以提高噪声抑制性能。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为现有技术中设置有两个全向麦克风的移动终端的示意图；

图2为本发明实施例提供的噪声抑制流程示意图；

图3为本发明实施例提供的噪声抑制装置的结构示意图；

图4为本发明实施例提供的终端的结构示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明一部份实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

下面以图1所示的移动终端为例进行描述。

图1所示的移动终端上设置有两个全向麦克风，两个全向麦克风按图1所示的方式排布在移动终端上，其中，第一麦克风(图中示为Mic1)和第二麦克风(图中示为Mic2)分别位于移动终端下方和上方，第一麦克风所在的位置更接近于常规使用情况下用户嘴部的位置。

为描述方便，下面将第一麦克风获取到的音频信号称为第一音频信号，将第二麦克风获取到的音频信号称为第二音频信号。

在常规使用情况下，第一麦克风和第二麦克风获取的音频信号为时域信号，分别表示为：

\{\begin{matrix} y_{1} = x_{1} + n_{1} \\ y_{2} = x_{2} + n_{2} \end{matrix} . . . (1)

其中，y_i表示第i音频信号，x_i表示第i音频信号中的语音信号，n_i表示第i音频信号中的环境噪声和其它干扰信号的总和，i＝1,2。

x₁与x₂可以通过传递函数h₁₂而关联，其中关联方程如公式(2)所示：

x₂＝h₁₂×x₁………………………………(2)

进一步地，对公式(1)进行STFT(Short-time Fourier Transform，短时傅里叶变化)处理，可以获得第一音频信号和第二音频信号的频域表达式，具体如公式(3)所示：

\{\begin{matrix} Y_{1} (n, k) = X_{1} (n, k) + N_{1} (n, k) \\ Y_{2} (n, k) = H_{12} (n, k) \times X_{1} (n, k) + N_{2} (n, k) \end{matrix} . . . (3)

其中，n为时域帧下标，k为频域傅里叶变化下标。Y_i表示第i音频信号的频域信号，X_i表示第i音频信号的频域信号中的语音信号，N_i表示第i音频信号的频域信号中的环境噪声和其它干扰信号的总和，H₁₂表示传递函数，i＝1,2。

第一音频信号和第二音频信号的自功率谱密度(auto-PSD，其中，PSD为Power spectral density的英文缩写，表示功率谱密度)和互功率谱密度(cross-PSD)，可表示为如下公式(4)所示：

\{\begin{matrix} Φ_{y 1 y 1} (n, k) = Φ_{x 1 x 1} (n, k) + Φ_{n 1 n 1} (n, k) \\ Φ_{y 2 y 2} (n, k) = Φ_{x 2 x 2} (n, k) + Φ_{n 2 n 2} (n, k) \\ Φ_{y 1 y 2} (n, k) = Φ_{x 1 x 2} (n, k) + Φ_{n 1 n 2} (n, k) \end{matrix} . . . (4)

其中，Φ_PiPj(n,k)为变量P_i与变量P_j间的cross-PSD，当j＝i时，则为变量P_i的auto-PSD。其中，j＝1,2；i＝1,2；P＝y,x,n。

具体地，第一音频信号和第二音频信号的auto-PSD与cross-PSD可以通过下述的单极点递归平滑函数确定：

Φ_{y_{i} y_{j}} (n, k) = λ \times Φ_{y_{i} y_{j}} (n - 1, k) + (1 - λ) \times Y_{i} (n, k) \times Y_{j}^{*} (n, k) . . . (5)

其中，n为时域帧下标，k为频域傅里叶变化下标，Y_i表示第i音频信号，i＝1，2，Y_j表示第j音频信号，j＝1，2，表示Y_j的复共轭。λ可称为递归函数系数，可以是预设值。

双麦克风在获取两路的音频信号时，由于两路音频信号间存在一定差异，因此现有技术中提出一种利用双麦克风幅值差进行语音增强的方法，可以改善噪声功率谱密度估计，提高VAD的准确率。该技术的原理是：计算两个麦克风获取到的两路音频信号的功率电平差(Power Level Difference，PLD)，具体如公式(6)所示：

ΔΦ＝Φ_y1y1-Φ_y2y2＝Φ_x1x1(1-|H₁₂|²)+ΔΦ_n1n2………(6)

其中，ΔΦ为两路音频信号的功率电平差，H₁₂为传递函数。

由于考虑到扩散场噪声在两路通道中的功率谱密度在各个频点近似相等，故公式(6)中的ΔΦ_n1n2可以忽略，从而获得音频信号的PSD的估计值，具体如公式(7)所示：

ΔΦ＝Φ_x1x1(1-|H₁₂|²)…………………(7)

在非语音段，通过单极点递归方程更新噪声信号的PSD估计值：

Φ_nn(n,k)＝λ_n×Φ_nn(n-1,k)+(1-λ_n)|Y(n,k)|²……………(8)

其中，n为时域帧下标，k为频域傅里叶变化下标，λ_n为噪声功率谱密度的平滑参数，0<λ_n<1。

最后，利用weiner滤波方法得到增益函数，对语音进行增强。增益函数可表示为：

G_PLD＝ΔΦ/[ΔΦ+(1-|H₁₂|²)Φ_nn]……………(9)

其中，传递函数H₁₂通过cross-PSD计算如下：

H_{12} = \frac{Φ_{y 1 y 2} - Φ_{n 1 n 2}}{Φ_{y 1 y 1} - Φ_{nn}} . . . (10)

其中，Φ_n1n2是背景噪声的cross-PSD。在麦克风开始获取音频信号的短时间段内，默认信号不含语音，利用这段信号计算Φ_n1n2，之后不再更新。

显然，上述方法缺陷是：噪声的估计更新不及时，传递函数H₁₂一经计算即不再更新，也无法应对移动终端位置的变动。

针对这些问题，现有技术对上述方法中的噪声估计进行如下的改进：

利用PLD做VAD依据，可以按照公式(11)计算判定参数：

Δ Φ_{PLDNE} = \frac{Φ_{y 1 y 1} - Φ_{y 2 y 2}}{Φ_{y 1 y 1} + Φ_{y 2 y 2}} . . . (11)

针对公式(11)，可以预先设定两个阈值，φ_max和φ_min，在ΔΦ_PLDNE<φ_min时，认为没有语音，将Y₁代入公式(8)更新噪声PSD估计值；当ΔΦ_PLDNE>φ_max时，认为当前帧语音出现，停止噪声PSD的更新；当φ_min<ΔΦ_PLDNE<φ_max时，将Y₂代入公式(8)更新噪声PSD估计值。

假设背景噪声声场是扩散场，利用扩散场的相干函数计算公式(9)中Φ_n1n2：

\begin{matrix} Φ_{n 1 n 2} = Γ_{n 1 n 2} Φ_{nn} \\ Γ_{n 1 n 2} (f) = \sin c (2 π {fd}_{mic} / c) \end{matrix} . . . (12)

其中，f是频率，c是声速，d_mic是两个麦克风之间的距离。

利用公式(12)中Φ_nn实时更新公式(10)中的Φ_nn，这样公式(10)就可以不断的更新，从而可以应变移动终端位置的变动。

在移动终端的实际应用中，，两颗麦克风的一致性不能得到保证，采用公式(11)定义的参数ΔΦ_PLDNE做VAD判定时会有较多的误判，而且，背景噪声并非是严格的扩散场，以致上述改进方法中的噪声自功率谱密度Φ_nn和由公式(12)计算互功率谱密度Φ_n1n2的估计存在较大误差，并由此影响到公式(9)定义的增益函数G_PLD求解的有效性，因而应用上述技术进行含噪语音增强处理时，其处理结果中有较多残留噪声。

另一方面，实际应用中的环境噪声大多是非稳态和暂态的，前述基于PLD技术的方法均不能及时地更新噪声PSD的估计值，以致时常产生噪声欠估计或过估计现象。对噪声的欠估计将导致较多的残留音乐噪声，影响听感；对噪声过估计，则抑制了语音而致失真，降低了语音可懂度。

本发明实施例提出了一种用于移动终端的多麦克风阵列的噪声抑制方法。该方法采用至少两个音频接收装置来获取工作环境中的音频信号，利用不同路音频信号间的幅值差和相位差及相干特性，来计算语音出现概率，应用语音出现概率来自适应调整噪声功率谱密度的估计值，由此提高噪声功率谱密度估计的可靠性，进而提高噪声频谱增益函数G_PLD求解的有效性。

为了清楚起见，下面仍以图1所示的移动终端为例，描述本发明实施例的具体实现过程。其中，将第一麦克风获取到的音频信号称为第一音频信号，将第二麦克风获取到的音频信号称为第二音频信号，相关信号和参数的表示方法如前所述。两个麦克风的间距越大，所获得到的两路信号的差异越大，噪声抑制效果越好。比如，图1中，两个麦克风之间的间距为13cm，两个麦克风的采样频率为16000Hz。需要说明的是，两个麦克风之间的间距和采样频率的范围并不限于上述例子，实际应用中，麦克风的距离可以是大于8cm的任意值，采样频率支持窄带，宽带，及超宽带语音信号。

当然，图1仅示例性示出了麦克风的位置，本发明实施例对麦克风的位置不做限制。另外，麦克风仅为音频接收装置中的一种，本发明实施例对语音接收装置的种类不作限制。

参加图2，为本发明实施例提供的一种噪声拟制方法流程示意图。该流程在移动终端实现。主要包括以下步骤：

步骤101，获取第一音频信号和第二音频信号，所述第一音频信号和所述第二音频信号为设置于移动终端上的不同位置的两个音频接收装置接收到的两路音频信号；

步骤102，确定所述第一音频信号与所述第二音频信号的功率电平差、相干性度量值以及相位差；

步骤103，根据所述第一音频信号与所述第二音频信号的功率电平差、相干性度量值以及相位差，更新语音出现概率；

步骤104，根据所述第一音频信号和/或所述第二音频信号PSD，以及更新后的语音出现概率，确定噪声的PSD；

步骤105，根据所述噪声的PSD，以及所述第一音频信号和/或所述第二音频信号，确定噪声频谱增益；

步骤106，根据所述噪声频谱增益，对所述第一音频信号和第二音频信号中的一路音频信号进行噪声抑制。

本发明实施例中，可针对第一音频信号和第二音频信号中的每一帧音频信号，按照上述图2所示的流程进行噪声抑制处理。

下面详细描述图2所示流程中每个步骤的具体实现方式。

在步骤101中，两个音频接收装置接收到音频信号，这两路音频信号可表示为公式(1)，这两路音频信号被处理为时域信号，处理过程可如前所述。比如，将两个音频接收装置接收到的两路信号分别进行分帧处理，对分帧后的信号分别进行加窗处理，将加窗处理的后的信号进行FFT变换，得到两路频域信号：第一音频信号和第二音频信号。第一音频信号和第二音频信号可表示为公式(3)。

在步骤102中，首先分别对所述第一音频信号和所述第二音频信号进行PSD估计，然后，根据第一音频信号和第二音频信号的PSD估计值确定第一音频信号与第二音频信号的功率电平差以及相干性度量值。

其中，第一音频信号和所述第二音频信号的PSD可以包括第一音频信号的auto-PSD、第二音频信号的auto-PSD、第一音频信号和第二音频信号的cross-PSD，具体可如公式(4)所示。公式(4)中，Φ_y1y1为第一音频信号的auto-PSD，Φ_y2y2为第二音频信号的auto-PSD，Φ_y1y2为第一音频信号和第二音频信号的cross-PSD。

第一音频信号和第二音频信号的auto-PSD和cross-PSD可通过公式(5)所示的单极点递归平滑函数来确定。

作为一个实施例，公式(5)中的递归函数系数λ也可以根据前一帧音频信号中的语音出现概率动态计算得到，以提高噪声抑制效果。比如，λ＝0.6+0.3*(1-p(H₁|Y))，其中，p(H₁|Y)是第一音频信号和第二音频信号的前一帧中语音出现的概率，该公式仅示出了一种λ算法的实例，公式中的系数0.6和0.3也仅为一种示例，本发明实施例并不限于采用此公式计算λ，即，根据第n-1帧音频信号中语音出现的概率来计算第n帧音频信号的PSD的方法均包含在本发明的保护范围内，其中，第n-1帧是第n帧的前一帧，n为大于1的整数。实际应用中，若计算第一帧音频信号的PSD，则根据初始设置的音频信号中的语音出现概率来计算第一帧音频信号的PSD。

根据第一音频信号和第二音频信号的PSD估计值确定第一音频信号与第二音频信号的功率电平差时，可根据公式(13)：

D_{PLD} = \frac{Φ_{y 1 y 1} - Φ_{y 1 y 2}}{Φ_{y 1 y 1} + Φ_{y 2 y 2}} . . . (13)

其中，D_PLD为第一音频信号和第二音频信号的功率电平差，Φ_y1y1为第一音频信号的auto-PSD，Φ_y2y2为第二音频信号的auto-PSD。

根据第一音频信号和第二音频信号的PSD估计值确定第一音频信号与第二音频信号的功率电平差时，还可以根据公式(14)：

D_PLD＝Φ_y1y1-Φ_y2y2……………………(14)

根据第一音频信号和第二音频信号的PSD估计值，确定第一音频信号和第二音频信号的相干性度量值时，可根据公式(15)：

D_{Coh} = \frac{| Φ_{y 1 y 2} |}{\sqrt{Φ_{y 1 y 1} Φ_{y 2 y 2}}} . . . (15)

其中，D_Coh为第一音频信号和第二音频信号的相干性度量值，|·|为取绝对值符号，Φ_y1y2为所述第一音频信号与所述第二音频的cross-PSD估计值，Φ_y1y1为第一音频信号的auto-PSD估计值，Φ_y2y2为第二音频信号的auto-PSD估计值。

进一步地，步骤102中，还可根据第一音频信号和第二音频信号的PSD估计值，确定第一音频信号和第二音频信号的相位差。具体可通过公式(16)实现：

其中，D_PD为第一音频信号和第二音频信号的相位差，Φ_y1y2为所述第一音频信号与所述第二音频的cross-PSD估计值。

在步骤103中，可根据步骤102计算得到的第一音频信号和第二音频信号的功率电平差、相干性度量值以及相位差，分别确定所述功率电平差条件下第一音频信号和第二音频信号中语音出现的概率p(H₁|D_PLD)、所述相干性度量值条件下第一音频信号和第二音频信号中语音出现的概率p(H₁|D_Coh)、所述相位差条件下第一音频信号和第二音频信号中语音出现的概率p(H₁|D_PD)，根据上述概率确定第一联合概率p(H₁|D_PLD,D_PD,D_Coh)，根据第一联合概率p(H₁|D_PLD,D_PD,D_Coh)以及无语音信号条件下和有语音条件下所述第一音频信号出现的概率，确定第一音频信号和第二音频信号中语音出现的概率p(H₁|Y)。

其中，p(H₁|D_PLD)表示功率电平差等于D_PLD条件下第一音频信号和第二音频信号中语音出现的概率，可根据以下公式(17)计算得到：

p (H_{1} | D_{PLD}) = \{\begin{matrix} ϵ_{PLD}, & D_{PLD} \leq {th}_{PLD} \\ 1 - ϵ_{PLD}, & D_{PLD} > {th}_{PLD} \end{matrix} . . . (17)

其中，th_PLD为第一音频信号和第二音频信号的功率电平差阈值，0<th_PLD<1；D_PLD为第一音频信号和第二音频信号的功率电平差，可在步骤102中计算得到；ε_PLD为预设值，0<ε_PLD<1。

p(H₁|D_PLD)也可根据以下公式(18)计算得到：

p (H_{1} | D_{PLD}) = \frac{Φ_{y 1 y 1} - Φ_{y 1 y 2}}{Φ_{y 1 y 1} - Φ_{y 2 y 2}} . . . (18)

其中，D_PLD为所述第一音频信号和所述第二音频信号的功率电平差，可在步骤102中计算得到；Φ_y1y1为所述第一音频信号的auto-PSD估计值，Φ_y2y2为第二音频信号的auto-PSD估计值。

p(H₁|D_PD)表示相位差等于D_PD条件下第一音频信号和第二音频信号中语音出现的概率，可根据以下公式(19)计算得到：

其中，th_PD为第一音频信号和第二音频信号的相位差阈值，0<th_PD<1；为第一音频信号和第二音频信号的相位差，可在步骤102中计算得到；ε_PD为预设值，0<ε_PD<1。作为一个实例，其中d是两个麦克风的间距，比如d＝13cm，c是常温时的声速，c＝340m/s，θ₀是欲保护的目标语音的波束宽度，θ₀＝π/3。

p(H₁|D_Coh)表示相干性度量值等于D_Coh条件下第一音频信号和第二音频信号中语音出现的概率，可根据以下公式(20)计算得到：

p (H_{1} | D_{Coh}) = \{\begin{matrix} ϵ_{Coh}, & D_{Coh} \leq {th}_{Coh} \\ 1 - ϵ_{Coh}, & D_{Coh} > {th}_{Coh} \end{matrix} . . . (20)

其中，th_Coh为第一音频信号和第二音频信号的相干性度量值阈值，0<th_Coh<1；D_Coh为第一音频信号和第二音频信号的相干性度量值，可在步骤102中计算得到；ε_Coh为预设值，0<ε_Coh<1，th_Coh根据经验调整取值，例如取值0.5。

需要说明的是，上述给出p(H₁|D_PLD)、p(H₁|D_PD)和p(H₁|D_Coh)的计算方法仅本发明实施例所提供的一种简化的计算方法示例，这些概率值的计算方法并不限于此，还可使用其他的概率分布函数来计算，在此不再一一列举。

在对时域的第一音频信号和第二音频信号进行频域转换之前，分别进行了分帧处理，因此语音信号出现概率在相邻帧之间具有强相关性，因此，可在计算出p(H₁|D_PLD)、p(H₁|D_PD)和p(H₁|D_Coh)后，对其中之一或任意组合进行平滑处理。

具体地，可根据以下公式(21)对p(H₁|D_PLD)进行平滑处理：

p_n(H₁|D_PLD)＝λ_PLD×p_n-1(H₁|D_PLD)+(1-λ_PLD)×p(H₁|D_PLD)……(21)

其中，p_n(H₁|D_PLD)为第一音频信号和第二音频信号的第n帧的功率电平差等于D_PLD条件下语音出现的概率，p_n-1(H₁|D_PLD)为第一音频信号和第二音频信号的第n-1帧的功率电平差等于D_PLD条件下语音出现的概率；λ_PLD为预设值，典型的取值范围为：0<λ_PLD<1。

可根据以下公式(22)对p(H₁|D_PD)进行平滑处理：

p_n(H₁|D_PD)＝λ_PD×p_n-1(H₁|D_PD)+(1-λ_PD)×p(H₁|D_PD)……(22)

其中，p_n(H₁|D_PD)为第一音频信号和第二音频信号的第n帧的相位差等于D_PD条件下语音出现的概率，p_n-1(H₁|D_PD)为第一音频信号和第二音频信号的第n-1帧的相位差等于D_PD条件下语音出现的概率；λ_PD为预设值，典型的取值范围为：0<λ_PD<1。

可根据以下公式(23)对p(H₁|D_Coh)进行平滑处理：

p_n(H₁|D_Coh)＝λ_Coh×p_n-1(H₁|D_Coh)+(1-λ_Coh)×p(H₁|D_Coh)……(23)

其中，p_n(H₁|D_Coh)为第一音频信号和第二音频信号的第n-1帧的相干性度量值等于D_Coh条件下语音出现的概率，p_n-1(H₁|D_Coh)为第一音频信号和第二音频信号的第n-1帧的相干性度量值等于D_Coh条件下语音出现的概率；λ_Coh为预设值，典型的取值范围为：0<λ_PD<1。

考虑到幅度差(功率电平差可反映幅度差的大小)对应的是信号的远场特征或者近场特征，相位差对应的是信号的方位特征，相关性信息对应的是信号的相关性特征，因此，这三组信号的特征是不相关的，因此可以假设第一音频信号和第二音频信号的功率电平差、相位差和相关性度量值与统计无关，进而可以根据这三个参数计算第一联合概率p(H₁|D_PLD,D_PD,D_Coh)。

一种计算p(H₁|D_PLD,D_PD,D_Coh)的方法为：根据公式(24)计算得到：

p(H₁|D_PLD,D_PD,D_Coh)＝p(H₁|D_PLD)×p(H₁|D_PD)×p(H₁|D_Coh)…………(24)

另一种计算p(H₁|D_PLD,D_PD,D_Coh)的方法为：根据公式(25)计算得到：

p(H₁|D_PLD,D_PD,D_Coh)＝(p(H₁|D_PLD)+p(H₁|D_PD)+p(H₁|D_Coh))/3………(25)

当然，公式(25)中，各项参数相加时可使用相同的加权系数进行求和运算。

以上p(H₁|D_PLD,D_PD,D_Coh)的计算仅为一种示例，本发明对p(H₁|D_PLD,D_PD,D_Coh)的算法不做限制。

计算出p(H₁|D_PLD,D_PD,D_Coh)之后，根据p(H₁|D_PLD,D_PD,D_Coh)以及无语音信号条件下和有语音条件下所述第一音频信号出现的概率，即可以计算第一音频信号和第二音频信号中语音出现的概率p(H₁|Y)。

具体地，可根据以下公式(26)计算语音出现概率p(H₁|Y)：

\begin{matrix} p (H_{1} | Y) = p (H_{1} | Y_{1}, D_{PLD}, D_{PD}, D_{Coh}) \\ = {[1 + \frac{p (Y_{1} | H_{0})}{p (Y_{1} | H_{1})} \times \frac{p (H_{0} | D_{PLD}, D_{PD}, D_{Coh})}{p (H_{1} | D_{PLD}, D_{PD}, D_{Coh})}]}^{- 1} \end{matrix} . . . (26)

其中，p(H₁|Y)表示第一音频信号和第二音频信号中的语音出现概率；Y₁表示第一音频信号；p(Y₁|H₀)表示在无语音信号条件下所述Y₁出现的概率，p(Y₁|H₁)为在有语音信号条件下所述Y₁出现的概率；p(H₁|D_PLD,D_PD,D_Coh)为所述第一联合概率。

公式(26)中，p(H₀|D_PLD,D_PD,D_Coh)可以按照公式(27)确定：

p(H₀|D_PLD,D_PD,D_Coh)＝1-p(H₁|D_PLD,D_PD,D_Coh)…………(27)

公式(26)中，可用基于高斯统计的MMSE-STSA方法计算得到：

\frac{p (Y_{i} | H_{0})}{p (Y_{i} | H_{1})} = \frac{1}{1 + ξ} \exp [\frac{γξ}{1 + ξ}] . . . (28)

其中，ξ，γ分别是先验信噪比与后验信噪比的估计值。

需要说明得的是，由于本发明实施例中，第一语音信号Y₁是第一麦克风Mic1获取到的，而第一麦克风Mic1距离嘴部的位置较近，因此公式(26)中，优选地，用Y₁替换Y_i，可以获得较为准确的概率值。

根据上述步骤103的描述可以看出，由于第一音频信号和第二音频信号的功率电平差对于远场语音取值比较小，而对于近场语音则取值较大，因此根据p(H₁|D_PLD)可以有效区分近场语音与远场噪声。根据目标语音方位角可以得到较大的相位差，而其它方位角的干扰声源较小，因此根据p(H₁|D_PD)可有效区分目标方位的语音与其它方位的干扰。一般情况，背景噪声频谱是连续谱，所以背景噪声频谱的相干性弱，而目标语音频谱具有准谐波结构，所以目标语音的相干性强，因此p(H₁|D_Coh)可有效区分非相干噪声和目标语音。

另外，利用语音出现概率在相邻帧之间的强相关性，本发明实施例中采用单极点递归方程对p(H₁|D_PLD)、p(H₁|D_PD)和p_n(H₁|D_Coh)进行了平滑处理，能够有效抑制由噪声涨落和计算误差导致的随机起伏，因而基于p(H₁|D_PLD,D_PD,D_Coh)能够有效的拟制噪声。

在步骤104中，可首先更新用于噪声估计的递归系数，根据更新后的用于噪声估计的递归系数计算噪声的PSD估计值。

其中，用于噪声估计的递归系数可以根据语音出现概率自适应调整。由于用于噪声估计的递归系数可根据语音出现概率进行更新，因此噪声的PSD估计值也会根据每帧的语音出现概率进行更新，从而克服了现有技术中噪声的PSD估计值更新不及时的问题。

具体地，可根据以下公式(29)确定用于噪声估计的递归系数：

α＝λ_n+(1-λ_n)×p(H₁|Y)………………………(29)

其中，α为用于噪声估计的递归系数，0<α<1，λ_n为噪声功率谱密度的平滑参数，0<λ_n<1，p(H₁|Y)表示第一音频信号和第二音频信号中的语音出现概率。

然后，可根据以下公式(30)得到第一语音信号和第二语音信号的噪声的PSD估计值：

Φ_nn(n,k)＝α×Φ_nn(n-1,k)+(1-α)×|Y_i|²………(30)

其中，Φ_nn为噪声的PSD估计值，n为时域帧下标，k为频域傅里叶变化下标；Y_i表示第i音频信号，i等于1或2，i＝1时Y₁表示第一音频信号，i＝2时，Y₂表示第二音频信号；|·|为取绝对值符号，α为用于噪声估计的递归系数，0<α<1。

公式(30)的表达式是根据基于语音出现概率的噪声的PSD的期望值表达式得到的，该期望值的表达式如以下公式(31)所示：

E[|N|²|Y]＝E[|N|²|Y,H₀]×p(H₀|Y)+E[|N|²|Y,H₁]×p(H₁|Y)………(31)

其中，E[|N|²|Y,H₀]表示无语音时噪声功率谱的条件期望值，E[|N|²|Y,H₁]表示语音出现时噪声功率谱的条件期望值。p(H₁|Y)为语音出现概率，p(H₀|Y)为无语音出现概率。

根据公式(30)可以看出，公式中涉及第一语音信号或者第二语音信号中的某一路语音信号，因此采用公式(30)计算噪声功率谱的估计值，可以选用任一一路语音信号，若能确认移动终端上任一一路语音接收装置接收到的语音信号，则可以根据公式(30)确定噪声PSD的估计值。

噪声的PSD估计值也可以根据以下公式(32)计算得到：

Φ_nn(n,k)＝α×Φ_nn(n-1,k)+(1-α)×(w1×|Y₁|²+w2×|Y₂|²)………(32)

其中，Φ_nn为噪声PSD估计值，n为时域帧下标，k为频域傅里叶变化下标，w1与w2为权重值，0<w1<1，0<w2<1；α为用于噪声估计的递归系数，0<α<1；|·|为取绝对值符号。

根据公式(32)可以看出，公式中涉及第一语音信号和第二语音信号。采用公式(32)确定的噪声的PSD估计值，需要确认移动终端上所有的语音接收装置均获取到音频信号。

在步骤105中，可首先根据步骤104得到的噪声的PSD更新第一音频信号和第二音频信号的传递函数值，然后根据更新后的传递函数值以及第一音频信号和/或所述第二音频信号，确定噪声频谱增益。

具体地，作为一种实施例，可根据前述公式(10)并结合公式(12)更新第一音频信号和第二音频信号的传递函数值。

作为一种实施例，可根据前述公式(9)确定噪声频谱增益G_PLD。

通过步骤105的描述可以看出，由于噪声的PSD估计值会根据每帧的语音出现概率进行更新，而且利用扩散场的相干函数可以更新传递函数H₁₂，因此与现有技术相比，本发明实施例中的噪声频谱增益G_PLD会根据移动终端位置的变化以及每帧的语音出现概率来进行更新。利用不断更新的噪声频谱增益G_PLD对含噪语音进行增强处理时，能够得到比较好的音频信息。

在步骤106中，在根据噪声频谱增益对第一音频信号和第二音频信号中的一路音频信号进行噪声抑制时，还可进一步依据第一音频信号和第二音频信号中语音出现的概率。

具体地，可根据公式(33)进行噪声抑制：

其中，为抑制噪声后的音频信号，G_PLD为噪声频谱增益，p(H₁|Y)表示第一音频信号和第二音频信号中语音出现的概率；Y₁表示第一音频信号。

需要说明得的是，由于本发明实施例中，第一语音信号Y₁是第一麦克风Mic1获取到的，而第一麦克风Mic1距离嘴部的位置较近，因此公式(33)中，优选地，采用第一音频信号对第一音频信号和第二音频信号中的一个音频信号进行噪声抑制，从而通过公式(33)可以获得较好的噪声抑制效果。在实施中，若第二麦克风Mic2距离嘴部的位置较近，也可以采用第二音频信号对第一音频信号和第二音频信号中的一个音频信号进行噪声抑制，本发明实施例对选取噪声抑制的第一音频信号和第二音频信号不做具体限定。

公式(33)的表达式是根据纯净语音的数学模型期望函数得到的，该期望函数的表达式如以下公式(34)所示：

E[|X||Y]＝E[|X||Y,H₁]p(H₁|Y)………(34)

其中，p(H₁|Y)表示第一音频信号和第二音频信号中的语音出现概率；E[|X||Y,H₁]是利用基于PLD的wiener滤波方法确定的，具体如公式(35)所示：

E[|X||Y,H₁]＝G_PLD|Y₁|……………(35)

其中，G_PLD为第一音频信号与第二音频信号的噪声频谱增益，Y₁表示第一音频信号。当然，公式(35)中也可用Y₂替换Y₁，Y₂表示第二音频信号。

通过步骤106，可联合语音出现概率，得到纯净语音的估计。最后，通过反傅里叶变换转将转换为时域信号，并对帧间信号进行加窗、重叠相加等处理，得到输出的语音信号。

本发明上述实施例中，通过设置于移动终端不同位置的两个音频接收装置获取第一音频信号和第二音频信号，因此第一音频信号和第二音频信号之间会存在一定功率电平差、相位差以及相干性差异，利用这些差异确定两路音频信号中语音出现的概率，利用语音出现概率更新噪声的PSD，根据噪声的PSD确定噪声频谱增益，最后利用该噪声频谱增益进行噪声抑制。一方面，由于上述方案中，根据语音出现概率及时对噪声的PSD进行更新，因此基于噪声的PSD计算得到的噪声频谱增益也相应得到及时更新；另一方面，利用两路音频信号的功率电平差，可以区分近场语音和远场噪音，利用两路音频信号的相干性差异，可以区分相干语音和非相干噪声，因此基于两路信号的上述差异计算语音出现概率，并基于此来更新噪声的PSD，可以提高对噪声的PSD的估计精度。通过上述两个方面，本发明实施例可以提高噪声抑制性能。

基于相同的技术构思，本发明实施例还提供了一种噪声抑制装置。

参见图3，为本发明实施例提供的噪声抑制装置的结构示意图。该噪声抑制装置可包括：获取单元301、第一确定单元302、第二确定单元303、第三确定单元304、第四确定单元305和噪声抑制单元306。

获取单元301，用于获取第一音频信号和第二音频信号，所述第一音频信号和所述第二音频信号为设置于移动终端上的不同位置的两个音频接收装置接收到的两路音频信号；

第一确定单元302，用于确定所述第一音频信号与所述第二音频信号的功率电平差、相干性度量值以及相位差；

第二确定单元303，用于根据所述第一音频信号与所述第二音频信号的功率电平差、相干性度量值以及相位差，更新语音出现概率；

第三确定单元304，用于根据所述第一音频信号和/或所述第二音频信号的PSD，以及更新后的语音出现概率，确定噪声的PSD；

第四确定单元305，用于根据所述噪声的PSD，以及所述第一音频信号和/或所述第二音频信号，确定噪声频谱增益；

噪声抑制单元306，用于根据所述噪声频谱增益，对所述第一音频信号和所述第二音频信号中的一路音频信号进行噪声抑制。

优选地，所述第一确定单元302具体用于：根据所述第一音频信号和所述第二音频信号的第n-1帧中语音出现的概率，确定递归函数系数，n为大于1的整数；根据所述递归函数系数，采用递归方式对所述第一音频信号和所述第二音频信号的第n帧信号进行PSD估计；根据所述第一音频信号和所述第二音频信号的第n帧信号的PSD估计值，确定所述第一音频信号与所述第二音频信号的第n帧信号的功率电平差以及相干性度量值。

优选地，所述第一确定单元302具体用于：根据公式(13)确定所述第一音频信号与所述第二音频信号的功率电平差的度量值。

优选地，所述第一确定单元302具体用于：根据公式(15)确定所述第一音频信号与所述第二音频信号的相干性度量值。

优选地，所述第二确定单元303具体用于：

根据所述第一音频信号和第二音频信号的功率电平差、相干性度量值以及相位差，分别确定所述功率电平差条件下第一音频信号和第二音频信号中语音出现的概率、所述相干性度量值条件下第一音频信号和第二音频信号中语音出现的概率、所述相位差条件下第一音频信号和第二音频信号中语音出现的概率；

根据所述功率电平差条件下第一音频信号和第二音频信号中语音出现的概率、所述相干性度量值条件下第一音频信号和第二音频信号中语音出现的概率、所述相位差条件下第一音频信号和第二音频信号中语音出现的概率，确定第一联合概率；

根据所述第一联合概率，确定所述第一音频信号和所述第二音频信号中语音出现的概率。

其中，所述功率电平差条件下第一音频信号和第二音频信号中语音出现的概率可根据公式(17)或公式(18)确定。或者，所述相位差条件下第一音频信号和第二音频信号中语音出现的概率可根据公式(19)确定。或者，所述相干性度量值条件下第一音频信号和第二音频信号中语音出现的概率可根据公式(20)确定。

优选地，第二确定单元303确定出所述p(H₁|D_PLD)之后，还可根据公式(21)或公式(22)进行平滑处理。或者，第二确定单元303确定出所述p(H₁|D_Coh)之后，可根据公式(23)进行平滑处理。

优选地，所述第一联合概率为：所述功率电平差条件下第一音频信号和第二音频信号中语音出现的概率、所述相干性度量值条件下第一音频信号和第二音频信号中语音出现的概率、所述相位差条件下第一音频信号和第二音频信号中语音出现的概率，三者相乘的结果，或者三者加权相加求平均值的结果。

优选地，所述第二确定单元303具体用于：可根据公式(26)确定所述语音出现概率。

优选地，所述第三确定单元304具有用于：根据公式(29)确定用于噪声估计的递归系数，根据公式(30)或公式(31)确定噪声的PSD估计值。

优选地，所述噪声抑制单元306可根据公式(33)对所述第一音频信号进行噪声抑制。

基于相同的技术构思，本发明实施例还提供了一种终端。

参见图4，为本发明实施例提供的终端的结构示意图。该终端可以是移动终端，或者具有通话功能的其他终端。该终端主要包括：处理器401，存储器402，收发信机403、总线接口404，其中处理器401、存储器402与收发信机403之间通过总线接口404连接。

其中，总线架构可以包括任意数量的互联的总线和桥，具体由处理器401代表的一个或多个处理器401和存储器402代表的存储器402的各种电路链接在一起。总线架构还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口404提供接口。收发信机403可以是多个元件，即包括发送机和接收机，提供用于在传输介质上与各种其他装置通信的单元。针对不同的用户设备，总线接口404还可以是能够外接内接需要设备的接口，连接的设备包括但不限于小键盘、显示器、扬声器、麦克风、操纵杆等。

处理器401负责管理总线架构和通常的处理，存储器402可以存储处理器401在执行操作时所使用的数据。

处理器401，用于获取第一音频信号和第二音频信号，所述第一音频信号和所述第二音频信号为设置于移动终端上的不同位置的两个音频接收装置接收到的两路音频信号；用于确定所述第一音频信号与所述第二音频信号的功率电平差、相干性度量值以及相位差；用于根据所述第一音频信号与所述第二音频信号的功率电平差、相干性度量值以及相位差，更新语音出现概率；用于根据所述第一音频信号和/或所述第二音频信号的PSD，以及更新后的语音出现概率，确定噪声的PSD；用于根据所述噪声的PSD，以及所述第一音频信号和/或所述第二音频信号，确定噪声频谱增益；用于根据所述噪声频谱增益，对所述第一音频信号和所述第二音频信号中的一路音频信号进行噪声抑制。

优选地，所述处理器401可具体用于：根据所述第一音频信号和所述第二音频信号的第n-1帧中语音出现的概率，确定递归函数系数，n为大于1的整数；根据所述递归函数系数，采用递归方式对所述第一音频信号和所述第二音频信号的第n帧信号进行PSD估计；根据所述第一音频信号和所述第二音频信号的第n帧信号的PSD估计值，确定所述第一音频信号与所述第二音频信号的第n帧信号的功率电平差以及相干性度量值。

优选地，所述处理器401可具体用于：根据公式(13)确定所述第一音频信号与所述第二音频信号的功率电平差的度量值。

优选地，所述处理器401可具体用于：根据公式(15)确定所述第一音频信号与所述第二音频信号的相干性度量值。

优选地，所述处理器401可具体用于：根据所述第一音频信号和第二音频信号的功率电平差、相干性度量值以及相位差，分别确定所述功率电平差条件下第一音频信号和第二音频信号中语音出现的概率、所述相干性度量值条件下第一音频信号和第二音频信号中语音出现的概率、所述相位差条件下第一音频信号和第二音频信号中语音出现的概率；

优选地，所述功率电平差条件下第一音频信号和第二音频信号中语音出现的概率可根据公式(17)或公式(18)确定。或者，所述相位差条件下第一音频信号和第二音频信号中语音出现的概率可根据公式(19)确定。或者，所述相干性度量值条件下第一音频信号和第二音频信号中语音出现的概率可根据公式(20)确定。

优选地，处理器401确定出所述p(H₁|D_PLD)之后，还可根据公式(21)或公式(22)进行平滑处理。或者，处理器401确定出所述p(H₁|D_Coh)之后，还可根据公式(23)进行平滑处理。

优选地，所述处理器401可具体用于：可根据公式(26)确定所述语音出现概率。

优选地，所述处理器401可具体用于：根据公式(29)确定用于噪声估计的递归系数。

根据第一公式(30)或第二公式(31)确定噪声的PSD估计值。

优选地，所述处理器401可具体用于：可根据公式(33)对所述第一音频信号进行噪声抑制。

综上所述，本发明实施例利用两个麦克风信号通道间信息计算语音出现概率，适应不同环境，及时的跟踪噪声变化，同时利用相位信息，做空域滤波，有效抑制非目标角度内的声源干扰，对噪声抑制具有更好的鲁棒性。

发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种噪声抑制方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，确定所述第一音频信号与所述第二音频信号的功率电平差以及相干性度量值，包括：

根据所述第一音频信号和所述第二音频信号的第n-1帧中语音出现的概率，确定递归函数系数，n为大于1的整数；

根据所述递归函数系数，采用递归方式对所述第一音频信号和所述第二音频信号的第n帧信号进行PSD估计；

根据所述第一音频信号和所述第二音频信号的第n帧信号的PSD估计值，确定所述第一音频信号与所述第二音频信号的第n帧信号的功率电平差以及相干性度量值。

3.如权利要求2所述的方法，其特征在于，根据所述第一音频信号和所述第二音频信号的PSD估计值，确定所述第一音频信号与所述第二音频信号的功率电平差，包括：

根据以下公式确定所述第一音频信号与所述第二音频信号的功率电平差的度量值：

D_{PLD} = \frac{Φ_{y 1 y 1} - Φ_{y 2 y 2}}{Φ_{y 1 y 1} + Φ_{y 2 y 2}}

其中，D_PLD为所述第一音频信号与所述第二音频信号的功率电平差，Φ_y1y1为所述第一音频信号的自功率谱密度估计值，Φ_y2y2为所述第二音频信号的自功率谱密度估计值。

4.如权利要求2所述的方法，其特征在于，根据所述第一音频信号和所述第二音频信号的PSD估计值，确定所述第一音频信号与所述第二音频信号的相干性度量值，包括：

根据以下公式确定所述第一音频信号与所述第二音频信号的相干性度量值：

D_{Coh} = \frac{| Φ_{y 1 y 2} |}{\sqrt{Φ_{y 1 y 1} Φ_{y 2 y 2}}}

其中，D_Coh为所述第一音频信号与所述第二音频信号的相干性度量值，|·|为取绝对值符号，Φ_y1y2为所述第一音频信号与所述第二音频的互功率谱密度估计值，Φ_y1y1为所述第一音频信号的自功率谱密度估计值，Φ_y2y2为所述第二音频信号的自功率谱密度估计值。

5.如权利要求1至4中任一项所述的方法，其特征在于，根据所述第一音频信号与所述第二音频信号的功率电平差、相干性度量值以及相位差，确定语音出现概率，包括：

6.如权利要求5所述的方法，其特征在于，所述功率电平差条件下第一音频信号和第二音频信号中语音出现的概率根据以下公式确定：

p (H_{1} | D_{PLD}) = \{\begin{matrix} ϵ_{PLD}, & D_{PLD} \leq {th}_{PLD} \\ 1 - ϵ_{PLD}, & D_{PLD} > {th}_{PLD} \end{matrix}

其中，D_PLD为所述第一音频信号和所述第二音频信号的功率电平差；p(H₁|D_PLD)表示功率电平差等于D_PLD条件下所述第一音频信号和所述第二音频信号中语音出现的概率；th_PLD为所述第一音频信号和所述第二音频信号的功率电平差阈值，0<th_PLD<1；ε_PLD为预设值，0<ε_PLD<1；

或者，所述功率电平差条件下第一音频信号和第二音频信号中语音出现的概率根据以下公式确定：

p (H_{1} | P_{PLD}) = \frac{Φ_{y 1 y 1} - Φ_{y 1 y 2}}{Φ_{y 1 y 1} Φ_{y 2 y 2}}

其中，D_PLD为所述第一音频信号和所述第二音频信号的功率电平差；p(H₁|D_PLD)表示功率电平差等于D_PLD条件下所述第一音频信号和所述第二音频信号中语音出现的概率；Φ_y1y1为所述第一音频信号的自功率谱密度估计值，Φ_y2y2为所述第二音频信号的自功率谱密度估计值；

或者，所述相位差条件下第一音频信号和第二音频信号中语音出现的概率根据以下公式确定：

其中，为所述第一音频信号和所述第二音频信号的相位差；p(H₁|D_PD)表示相位差等于D_PD条件下所述第一音频信号和所述第二音频信号中语音出现的概率；th_PD为所述第一音频信号和所述第二音频信号的相位差阈值，0<th_PD<1；ε_PD为预设值，0<ε_PD<1；

或者，所述相干性度量值条件下第一音频信号和第二音频信号中语音出现的概率根据以下公式确定：

p (H_{1} | D_{Coh}) = \{\begin{matrix} ϵ_{Coh}, & D_{Coh} \leq {th}_{Coh} \\ 1 - ϵ_{Coh}, & D_{Coh} > {th}_{Coh} \end{matrix}

其中，D_Coh为所述第一音频信号和所述第二音频信号的相干性度量值；p(H₁|D_Coh)表示相干性度量值等于D_Coh条件下所述第一音频信号和所述第二音频信号中语音出现的概率；th_Coh为所述第一音频信号和所述第二音频信号的相干性度量值阈值，0<th_Coh<1；ε_Coh为预设值，0<ε_Coh<1。

7.如权利要求6所述的方法，其特征在于，确定出所述p(H₁|D_PLD)之后，还包括：根据以下公式进行平滑处理：

p_n(H₁|D_PLD)＝λ_PLD×p_n-1(H₁|D_PLD)+(1-λ_PLD)×p(H₁|D_PLD)

其中，p_n(H₁|D_PLD)为所述第一音频信号和所述第二音频信号的第n帧的功率电平差等于D_PLD条件下语音出现的概率，p_n-1(H₁|D_PLD)为所述第一音频信号和所述第二音频信号的第n-1帧的功率电平差等于D_PLD条件下语音出现的概率；λ_PLD为预设值，0<λ_PLD<1；

或者，确定出所述p(H₁|D_PD)之后，还包括：根据以下公式进行平滑处理：

p_n(H₁|D_PD)＝λ_PD×p_n-1(H₁|D_PD)+(1-λ_PD)×p(H₁|D_PD)

其中，p_n(H₁|D_PD)为所述第一音频信号和所述第二音频信号的第n帧的相位差等于D_PD条件下语音出现的概率，p_n-1(H₁|D_PD)为所述第一音频信号和所述第二音频信号的第n-1帧的相位差等于D_PD条件下语音出现的概率；λ_PD为预设值，0<λ_PD<1；

或者，确定出所述p(H₁|D_Coh)之后，还包括：根据以下公式进行平滑处理：

p_n(H₁|D_Coh)＝λ_Coh×p_n-1(H₁|D_Coh)+(1-λ_Coh)×p(H₁|D_Coh)

其中，p_n(H₁|D_Coh)为所述第一音频信号和所述第二音频信号的第n-1帧的相干性度量值等于D_Coh条件下语音出现的概率，p_n-1(H₁|D_Coh)为所述第一音频信号和所述第二音频信号的第n-1帧的相干性度量值等于D_Coh条件下语音出现的概率；λ_Coh为预设值，0<λ_PD<1。

8.如权利要求5所述的方法，其特征在于，所述第一联合概率为：所述功率电平差条件下第一音频信号和第二音频信号中语音出现的概率、所述相干性度量值条件下第一音频信号和第二音频信号中语音出现的概率、所述相位差条件下第一音频信号和第二音频信号中语音出现的概率，三者相乘的结果，或者三者加权相加求平均值的结果。

9.如权利要求5所述的方法，其特征在于，根据所述第一联合概率，确定所述第一音频信号和所述第二音频信号中语音出现的概率，包括：

根据以下公式确定所述语音出现概率：

\begin{matrix} p (H_{1} | Y) = p (H_{1} | Y_{1}, D_{PLD}, D_{PD}, D_{Coh}) \\ = {[1 + \frac{p (Y_{1} | H_{0})}{p (Y_{1} | H_{1})} \times \frac{p (H_{0} | D_{PLD}, D_{PD}, D_{Coh})}{p (H_{1} | D_{PLD}, D_{PD}, D_{Coh})}]}^{- 1} \end{matrix}

10.如权利要求1所述的方法，其特征在于，根据所述语音出现概率确定噪声PSD估计值，包括：

根据以下公式确定用于噪声估计的递归系数：

α＝λ_n+(1-λ_n)×p(H₁|Y)

其中，α为用于噪声估计的递归系数，0<α<1，λ_n为噪声功率谱密度的平滑参数，0<λ_n<1，p(H₁|Y)表示第一音频信号和第二音频信号中的语音出现概率；

根据以下第一公式或第二公式确定噪声的PSD估计值：

所述第一公式为：Φ_nn(n,k)＝α×Φ_nn(n-1,k)+(1-α)×|Y_i|²

其中，Φ_nn为噪声的PSD估计值，n为时域帧下标，k为频域傅里叶变化下标；Y_i表示第i音频信号，i等于1或2，i＝1时Y₁表示第一音频信号，i＝2时，Y₂表示第二音频信号；|·|为取绝对值符号；α为用于噪声估计的递归系数；

所述第二公式为：Φ_nn(n,k)＝α×Φ_nn(n-1,k)+(1-α)×(w1×|Y₁|²+w2×|Y₂|²)

其中，Φ_nn为噪声的PSD估计值，n为时域帧下标，k为频域傅里叶变化下标，w1与w2为权重值，Y₁表示第一音频信号，Y₂表示第二音频信号，|·|为取绝对值符号，α为用于噪声估计的递归系数。

11.如权利要求1所述的方法，其特征在于，根据所述噪声频谱增益，对所述第一音频信号和所述第二音频信号中的一路音频信号进行噪声抑制，包括：

根据以下公式对所述第一音频信号进行噪声抑制：

其中，为抑制噪声后的音频信号；G_PLD为噪声频谱增益；p(H₁|Y)表示第一音频信号和第二音频信号中的语音出现概率；Y₁表示第一音频信号。

12.一种噪声抑制装置，其特征在于，包括：

13.如权利要求12所述的装置，其特征在于，所述第一确定单元具体用于：

14.如权利要求13所述的装置，其特征在于，所述第一确定单元具体用于：

D_{PLD} = \frac{Φ_{y 1 y 1} - Φ_{y 2 y 2}}{Φ_{y 1 y 1} + Φ_{y 2 y 2}}

15.如权利要求13所述的装置，其特征在于，所述第一确定单元具体用于：

D_{Coh} = \frac{| Φ_{y 1 y 2} |}{\sqrt{Φ_{y 1 y 1} Φ_{y 2 y 2}}}

16.如权利要求12至15中任一项所述的装置，其特征在于，所述第二确定单元具体用于：

17.如权利要求16所述的装置，其特征在于，所述功率电平差条件下第一音频信号和第二音频信号中语音出现的概率根据以下公式确定：

p (H_{1} | D_{PLD}) = \{\begin{matrix} ϵ_{PLD}, & D_{PLD} \leq {th}_{PLD} \\ 1 - ϵ_{PLD}, & D_{PLD} > {th}_{PLD} \end{matrix}

p (H_{1} | D_{PLD}) = \frac{Φ_{y 1 y 1} - Φ_{y 2 y 2}}{Φ_{y 1 y 1} + Φ_{y 2 y 2}}

p (H_{1} | D_{Coh}) = \{\begin{matrix} ϵ_{Coh}, & D_{Coh} \leq {th}_{Coh} \\ 1 - ϵ_{Coh}, & D_{Coh} > {th}_{Coh} \end{matrix}

18.如权利要求17所述的装置，其特征在于，所述第二确定单元还用于：

确定出所述p(H₁|D_PLD)之后，根据以下公式进行平滑处理：

p_n(H₁|D_PLD)＝λ_PLD×p_n-1(H₁|D_PLD)+(1-λ_PLD)×p(H₁|D_PLD)

p_n(H₁|D_PD)＝λ_PD×p_n-1(H₁|D_PD)+(1-λ_PD)×p(H₁|D_PD)

p_n(H₁|D_Coh)＝λ_Coh×p_n-1(H₁|D_Coh)+(1-λ_Coh)×p(H₁|D_Coh)

19.如权利要求16所述的装置，其特征在于，所述第一联合概率为：所述功率电平差条件下第一音频信号和第二音频信号中语音出现的概率、所述相干性度量值条件下第一音频信号和第二音频信号中语音出现的概率、所述相位差条件下第一音频信号和第二音频信号中语音出现的概率，三者相乘的结果，或者三者加权相加求平均值的结果。

20.如权利要求16所述的装置，其特征在于，所述第二确定单元具体用于：