CN107680609A

CN107680609A - 一种基于噪声功率谱密度的双通道语音增强方法

Info

Publication number: CN107680609A
Application number: CN201710818095.1A
Authority: CN
Inventors: 曾庆宁; 毛维
Original assignee: Guilin University of Electronic Technology
Current assignee: Guilin University of Electronic Technology
Priority date: 2017-09-12
Filing date: 2017-09-12
Publication date: 2018-02-09

Abstract

本发明公开了一种基于噪声功率谱密度的双通道语音增强方法，其特征是，包括如下步骤：1）对两个通道接收到的语音信号进行短时傅里叶变换；2）构建一个互功率谱减滤波器；3）构建一个谱修正滤波器并对噪声信号的功率谱密度进行初步的估计；4）对仍有噪声残留的含噪语音信号进行噪声的准确估计。这种方法可以减少相干性噪声残留，同时能提升对非相干性噪声的抑制，这种方法的可移植性强，对于小型智能移动设备而言有着好的应用前景。

Description

一种基于噪声功率谱密度的双通道语音增强方法

技术领域

本发明涉及语音增强技术领域，尤其涉及一种基于噪声功率谱密度的双通道语音增强方法。

背景技术

在现有的小型移动设备中，常采用单个麦克风或双麦克风阵列的方法处理周围环境中的相干以及非相干噪声，而传统方法包括谱减，维纳滤波以及基于统计模型的方法并不能取得很好的效果。经典的基于频域相干函数的双麦克风阵列去噪技术通过计算信号的互功率谱密度，自功率谱密度构造一个相干滤波器进行滤波，但是这种方法局限在于要求两个麦克风之间的噪声信号是不相干的。

发明内容

本发明的目的是针对现有技术的不足，而提供一种基于噪声功率谱密度的双通道语音增强方法。这种方法可以减少相干性噪声残留，同时能提升对非相干性噪声的抑制，这种方法的可移植性强，对于小型智能移动设备而言有着好的应用前景。

实现本发明目的的技术方案是：

一种基于噪声功率谱密度的双通道语音增强方法，包括如下步骤：

1)对两个通道接收到的语音信号进行短时傅里叶变换：假设主麦克风和次麦克风接收到的语音信号如下：

x₁(t)＝h₁s₁(t)+n₁(t)

x₂(t)＝h₂s₂(t-τ)+n₂(t)

其中，x₁(t)和x₂(t)为t时刻主麦克风和次麦克风接收到的带噪语音信号，s₁(t)和s₂(t)为t时刻的源信号，h₁和h₂分别为主麦克风和次麦克风的传输衰减，n₁(t)和n₂(t)为t时刻主麦克风和次麦克风接收到的噪声信号，τ表示源信号到达两个麦克风的时间差，主麦克风和次麦克风接收到的语音信号在短时傅里叶变换域可表示为：

X₁(f，n)＝h₁(f)S₁(f，n)+N₁(f，n)

X₂(f，n)＝h₂(f)S₂(f，n)×e^jθ+N₂(f，n)

其中，f和n分别表示频率点和帧索引的位置；

2)构建一个互功率谱减滤波器：

其中，P_X1X1(f，n)，P_X2X2(f，n)，P_X1X2(f，n)分别代表X₁(f，n)的自功率谱密度，X₂(f，n)的自功率谱密度，X₁(f，n)和X₂(f，n)的互功率谱密度；

3)构建一个谱修正滤波器并对噪声信号的功率谱密度进行初步的估计：为了减少谱减过程中所引入的音乐噪声和高的语音失真度，采用先验信噪比(SNR)和后验信噪比以及直接判决相结合的方法对噪声信号的功率谱密度进行初步的估计：

其中，SNR_CS(f，n)代表着纯净语音的互功率谱密度与噪声信号的比值；

接着引入谱修正滤波器，在两个麦克风之间通过前一帧的数据来采用迭代噪声功率谱密度的方法对噪声进行估计：

根据该滤波器对原始带噪信号进行滤波得到重建之后的信号为：

然后对上述得到的信号进行逆短时傅里叶变换及叠接相加，从而恢复出期望的干净信号；

4)对仍有噪声残留的含噪语音信号进行噪声的准确估计：利用最小控制递归平均算法对仍有噪声残留的含噪语音信号进行噪声的准确估计，由于步骤3)得到的噪声估计不准确，会产生音乐噪声或影响增强效果，因此在后端添加一个最小控制递归平均算法对步骤3)得到的噪声估计进行噪声的准确估计，最小控制递归平均(ICRMA)算法通过引入条件概率p(k，l)来对噪声进行估计，可通过以下得到：

其中，表示第k个频带的第l点的噪声功率谱密度估计，α_d(0＜α_d＜1)是一个平滑参数，Y(k，l)定义为第k个频带的第l点的信号幅度，条件概率p(k，l)通过两次平滑和最小值搜索计算得到，过程如下：

其中：m为连续帧个数，b(i)为加权因子；

第二次平滑如下：

S(k，l)＝α_sS(k-1，l)+(1+α_s)S_f(k，l)

其中，α_s为平滑因子，再经过最小值搜索得到：

S_min(k，l)＝min{S(k，l)|k-m+1＜＜k＜＜k}

最后得到条件概率估计值

其中γ(k，l)为先验信噪比，q(k，l)为先验语音不存在概率。

这种方法利用双麦克风通道间语音信号的互功率谱密度，自功率谱密度来构造一个谱修正滤波器来对含噪语音信号进行滤波，从而恢复出期望的干净的纯净语音信号，实现语音信号的增强。

相比于传统的单通道语音增强算法，这种方法利用两个通道间语音信号的强相关性和噪声信号的弱相关性来进行修复，同时结合最小控制递归平均算法，可以有效的避免信号的失真；另一方面，这种方法的可移植性强，对于小型智能移动设备而言有着好的应用前景。

附图说明

图1为实施例中主麦克风的纯净语音信号示意图；

图2为实施例中次麦克风的纯净语音信号示意图；

图3为实施例中主麦克风的-5dB的babble噪声情况下的含噪语音信号的示意图；

图4为实施例中次麦克风的-5dB的babble噪声情况下的含噪语音信号的示意图；

图5为实施例中双通道去噪后的信号时域波形图；

图6为实施例中双通道去噪后的信号时域波形图；

图7为实施例方法流程示意图。

具体实施方式

下面结合附图和实施例对本发明内容作进一步阐述，但不是对本发明的限定。

实施例：

参照图7，一种基于噪声功率谱密度的双通道语音增强方法，包括如下步骤：

x₁(t)＝h₁s₁(t)+n₁(t)

x₂(t)＝h₂s₂(t-τ)+n₂(t)

其中，x₁(t)和x₂(t)为t时刻主麦克风和次麦克风接收到的带噪语音信号，图3和图4分别为主麦克风和次麦克风的带噪语音信号时域波形图；s₁(t)和s₂(t)为t时刻的源信号，图1和图2分别为主麦克风和次麦克风的纯净语音信号时域波形图；h₁和h₂分别为主麦克风和次麦克风的传输衰减，n₁(t)和n₂(t)为t时刻主麦克风和次麦克风接收到的噪声信号，τ表示源信号到达两个麦克风的时间差，主麦克风和次麦克风接收到的语音信号在短时傅里叶变换域可表示为：

X₁(f，n)＝h₁(f)S₁(f，n)+N₁(f，n)

X₂(f，n)＝h₂(f)S₂(f，n)×e^jθ+N₂(f，n)

其中，f和n分别表示频率点和帧索引的位置；

2)构建一个互功率谱减滤波器：

然后对上述得到的信号进行逆短时傅里叶变换及叠接相加，从而恢复出期望的干净信号，即对噪声信号的功率谱密度进行初步的估计后的输出信号波形图如图5所示；

其中，表示第k个频带的第l点的噪声功率谱密度估计，α_d(0＜α_d＜1)是一个平滑参数，Y(k，l)定义为第k个频带的第I点的信号幅度，条件概率p(k，l)通过两次平滑和最小值搜索计算得到，过程如下：

其中：m为连续帧个数，b(i)为加权因子；

第二次平滑如下：

S(k，l)＝α_sS(k-1，l)+(1+α_s)S_f(k，l)

其中，α_s为平滑因子，再经过最小值搜索得到：

S_min(k，l)＝min{S(k，l)|k-m+1＜＜k＜＜k}

最后得到条件概率估计值

其中γ(k，l)为先验信噪比，q(k，l)为先验语音不存在概率。

对仍有噪声残留的含噪语音信号进行噪声的准确估计后的输出信号波形图如图6所示。

Claims

1.一种基于噪声功率谱密度的双通道语音增强方法，其特征是，包括如下步骤：

x₁(t)＝h₁s₁(t)+n₁(t)

x₂(t)＝h₂s₂(t-τ)+n₂(t)

X₁(f，n)＝h₁(f)S₁(f，n)+N₁(f，n)

X₂(f，n)＝h₂(f)S₂(f，n)×e^jθ+N₂(f，n)

其中，f和n分别表示频率点和帧索引的位置；

2)构建一个互功率谱减滤波器：

3)构建一个谱修正滤波器并对噪声信号的功率谱密度进行初步的估计：采用先验信噪比(SNR)和后验信噪比以及直接判决相结合的方法对噪声信号的功率谱密度进行初步的估计：

<mrow> <msub> <mi>R</mi> <mrow> <mi>P</mi> <mi>R</mi> <mi>I</mi> <mi>O</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>f</mi> <mo>,</mo> <mi>n</mi> <mo>)</mo> </mrow> <mo>=</mo> <msub> <mi>&alpha;</mi> <mrow> <mi>D</mi> <mi>D</mi> </mrow> </msub> <mi>H</mi> <msup> <mrow> <mo>(</mo> <mi>f</mi> <mo>,</mo> <mi>n</mi> <mo>-</mo> <mn>1</mn> <mo>)</mo> </mrow> <mn>2</mn> </msup> <mfrac> <mrow> <mo>|</mo> <msub> <mi>X</mi> <mn>1</mn> </msub> <mrow> <mo>(</mo> <mi>f</mi> <mo>,</mo> <mi>n</mi> <mo>)</mo> </mrow> <msubsup> <mi>X</mi> <mn>2</mn> <mo>*</mo> </msubsup> <mrow> <mo>(</mo> <mi>f</mi> <mo>,</mo> <mi>n</mi> <mo>-</mo> <mn>1</mn> <mo>)</mo> </mrow> <mo>|</mo> </mrow> <mrow> <mo>|</mo> <msub> <mi>P</mi> <mrow> <msub> <mi>N</mi> <mn>1</mn> </msub> <msub> <mi>N</mi> <mn>2</mn> </msub> </mrow> </msub> <mrow> <mo>(</mo> <mi>f</mi> <mo>,</mo> <mi>n</mi> <mo>-</mo> <mn>1</mn> <mo>)</mo> </mrow> <mo>|</mo> </mrow> </mfrac> <mo>+</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <msub> <mi>&alpha;</mi> <mrow> <mi>D</mi> <mi>D</mi> </mrow> </msub> <mo>)</mo> </mrow> <msub> <mi>R</mi> <mrow> <mi>P</mi> <mi>O</mi> <mi>S</mi> <mi>T</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>f</mi> <mo>,</mo> <mi>n</mi> <mo>)</mo> </mrow> <mo>,</mo> </mrow>

<mrow> <mover> <msub> <mi>S</mi> <mn>1</mn> </msub> <mo>^</mo> </mover> <mrow> <mo>(</mo> <mi>f</mi> <mo>,</mo> <mi>n</mi> <mo>)</mo> </mrow> <mo>=</mo> <msub> <mi>H</mi> <mrow> <mi>C</mi> <mi>P</mi> <mi>S</mi> <mi>S</mi> <mo>,</mo> <msub> <mi>R</mi> <mrow> <mi>P</mi> <mi>R</mi> <mi>I</mi> <mi>O</mi> </mrow> </msub> </mrow> </msub> <mrow> <mo>(</mo> <mi>f</mi> <mo>,</mo> <mi>n</mi> <mo>)</mo> </mrow> <mo>&times;</mo> <msub> <mi>X</mi> <mn>1</mn> </msub> <mrow> <mo>(</mo> <mi>f</mi> <mo>,</mo> <mi>n</mi> <mo>)</mo> </mrow> </mrow>

4)对仍有噪声残留的含噪语音信号进行噪声的准确估计：利用最小控制递归平均算法对仍有噪声残留的含噪语音信号进行噪声的准确估计，在后端添加一个最小控制递归平均算法对步骤3)得到的噪声估计进行噪声的准确估计，最小控制递归平均(ICRMA)算法通过引入条件概率p(k，l)来对噪声进行估计，可通过以下得到：

<mrow> <mover> <msub> <mi>&beta;</mi> <mi>d</mi> </msub> <mo>&OverBar;</mo> </mover> <mrow> <mo>(</mo> <mi>k</mi> <mo>,</mo> <mi>l</mi> <mo>+</mo> <mn>1</mn> <mo>)</mo> </mrow> <mo>=</mo> <mover> <msub> <mi>&beta;</mi> <mi>d</mi> </msub> <mo>&OverBar;</mo> </mover> <mrow> <mo>(</mo> <mi>k</mi> <mo>,</mo> <mi>l</mi> <mo>)</mo> </mrow> <mi>p</mi> <mrow> <mo>(</mo> <mi>k</mi> <mo>,</mo> <mi>l</mi> <mo>)</mo> </mrow> <mo>+</mo> <mo>&lsqb;</mo> <msub> <mi>&alpha;</mi> <mi>d</mi> </msub> <mover> <msub> <mi>&beta;</mi> <mi>d</mi> </msub> <mo>&OverBar;</mo> </mover> <mrow> <mo>(</mo> <mi>k</mi> <mo>,</mo> <mi>l</mi> <mo>)</mo> </mrow> <mo>+</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <msub> <mi>&alpha;</mi> <mi>d</mi> </msub> <mo>)</mo> </mrow> <mo>|</mo> <mi>Y</mi> <mrow> <mo>(</mo> <mi>k</mi> <mo>,</mo> <mi>l</mi> <mo>)</mo> </mrow> <msup> <mo>|</mo> <mn>2</mn> </msup> <mo>&rsqb;</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <mi>p</mi> <mo>(</mo> <mrow> <mi>k</mi> <mo>,</mo> <mi>l</mi> </mrow> <mo>)</mo> <mo>)</mo> </mrow> </mrow>

<mrow> <msub> <mi>S</mi> <mi>f</mi> </msub> <mrow> <mo>(</mo> <mi>k</mi> <mo>,</mo> <mi>l</mi> <mo>)</mo> </mrow> <mo>=</mo> <munderover> <mi>&Sigma;</mi> <mrow> <mi>k</mi> <mo>=</mo> <mo>-</mo> <mi>m</mi> </mrow> <mi>m</mi> </munderover> <mi>b</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> <mo>|</mo> <mi>Y</mi> <mrow> <mo>(</mo> <mi>k</mi> <mo>,</mo> <mi>l</mi> <mo>)</mo> </mrow> <msup> <mo>|</mo> <mn>2</mn> </msup> </mrow>

其中：m为连续帧个数，b(i)为加权因子；

第二次平滑如下：

S(k，l)＝α_sS(k-1，l)+(1+α_s)S_f(k，l)

其中，α_s为平滑因子，再经过最小值搜索得到：

S_min(k，l)＝min{S(k，l)|k-m+1＜＜k＜＜k}

最后得到条件概率估计值

<mrow> <mi>p</mi> <mrow> <mo>(</mo> <mi>k</mi> <mo>,</mo> <mi>l</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mn>1</mn> <mrow> <mn>1</mn> <mo>+</mo> <mfrac> <mrow> <mi>q</mi> <mrow> <mo>(</mo> <mi>k</mi> <mo>,</mo> <mi>l</mi> <mo>)</mo> </mrow> <mo>|</mo> </mrow> <mrow> <mn>1</mn> <mo>-</mo> <mi>q</mi> <mrow> <mo>(</mo> <mi>k</mi> <mo>,</mo> <mi>l</mi> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>(</mo> <mn>1</mn> <mo>+</mo> <mi>&delta;</mi> <mrow> <mo>(</mo> <mi>k</mi> <mo>,</mo> <mi>l</mi> <mo>)</mo> </mrow> <mo>)</mo> <mi>exp</mi> <mo>(</mo> <mo>-</mo> <mi>v</mi> <mrow> <mo>(</mo> <mi>k</mi> <mo>,</mo> <mi>l</mi> <mo>)</mo> </mrow> <mo>)</mo> </mrow> </mfrac> </mrow>

其中γ(k，l)为先验信噪比，q(k，l)为先验语音不存在概率。