CN105788607A

CN105788607A - 应用于双麦克风阵列的语音增强方法

Info

Publication number: CN105788607A
Application number: CN201610356558.2A
Authority: CN
Inventors: 叶中付; 徐杨飞; 罗友
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2016-05-20
Filing date: 2016-05-20
Publication date: 2016-07-20
Anticipated expiration: 2036-05-20
Also published as: CN105788607B

Abstract

本发明公开了一种应用于双麦克风阵列的语音增强方法，包括：利用双麦克风通道语音信号的相位差构建时频掩码滤波器滤除非平稳方向性噪声；采用谐波重建算法对时频掩码滤波之后的语音信号进行重建，获得相应的滤波器，并基于该滤波器对原始带噪信号进行滤波，从而恢复出期望的干净语音信号，实现语音信号的增强。

Description

应用于双麦克风阵列的语音增强方法

技术领域

本发明涉及语音降噪技术领域，尤其涉及一种应用于双麦克风阵列的语音增强方法。

背景技术

在现有的小型手持设备中，常采用双麦克风以及三麦克风，对于特定方向的非平稳噪声，传统方法包括维纳滤波、谱减法以及基于统计模型的方法并不能取得很好的效果。

经典的基于相位的双通道滤波技术通过设置延时阈值进行滤波，使得在期望方向范围内的信号得到保留，而范围外的信号受到抑制，但是，这种方法依然会残留音乐噪声。

发明内容

本发明的目的是提供一种应用于双麦克风阵列的语音增强方法，可以尽可能的无失真恢复出期望的干净语音。

本发明的目的是通过以下技术方案实现的：

一种应用于双麦克风阵列的语音增强方法，包括：

利用双麦克风通道语音信号的相位差构建时频掩码滤波器滤除非平稳方向性噪声；

采用谐波重建算法对时频掩码滤波之后的语音信号进行重建，获得相应的滤波器，并基于该滤波器对原始带噪信号进行滤波，从而恢复出期望的干净语音信号，实现语音信号的增强。

所述利用双麦克风通道语音信号的相位差构建时频掩码滤波器滤除非平稳方向性噪声包括：

主麦克风与次麦克风接收到的语音信号如下：

\begin{matrix} x_{1} (t) = h_{1} s (t) + n_{1} (t) \\ x_{2} (t) = h_{2} s (t - τ) + n_{2} (t) \end{matrix};

其中，x_i(t)为t时刻第i个麦克风接收到的带噪语音信号，s(t)为t时刻的源信号，h_i为源信号在第i个麦克风里的传输衰减，n_i(t)为t时刻第i个麦克风接收到的噪声信号，τ表示源信号到达两个麦克风的时间差；

对x_i(t)做短时傅里叶变换，得到：

\begin{matrix} X_{1} (t, f) = h_{1} (f) S (t, f) + N_{1} (t, f) \\ X_{2} (t, f) = h_{2} (f) S (t, f) \times e^{j θ} + N_{2} (t, f) \end{matrix};

其中，t和f分别表示时间点和频率点；e^jθ表示时域上的时间差τ经过短时傅里叶变换变换后在短时频域上相对应的相位差；

利用语音传播参数估计的思想，输入一个角度，并期望增强该角度附近的语音信号；此方法基于两个假设：任何一个时频点，只有一个信号起主要作用；声音的传播模型为h_i(f)≈λ_i·exp(-j2πfτ_i)；其中，λ_i是源信号到第i个麦克风的衰减，τ_i是相应的延时，j表示虚数；

首先对X₂的每一帧做幅度和相位以及频率归一化：

其中，X₂(t,:)为次麦克风每个时间点t对应的一帧信号，频率点f为一帧信号中的一个变量；abs()表示取该帧信号每个元素的绝对值，||||表示取范数操作，⊙为点乘操作，angle()表示取信号的相位角操作；

经过上述操作后，每个时频点处两麦克风间到达时间差TDOA为：其中，L为分析窗的窗长，Fs为采样频率，而期望增强的角度对应的TDOA为τ_exp＝-d/v×cos(φ*π/180)；其中，d为两个麦克分的间距，φ为波达方向角度；

对于每个时频点(t,f)如果|τ(t,f)-τ_exp|之差大于等于阈值ε，则认为该时频点的来波方向不是来自于输入的角度附近，即在该时频点不是期望的信号占主导作用，掩码为0；反之，则认为该时频点是期望的信号占主导作用，掩码为1，则根据每个时频点的TDOA构建时频掩码滤波器c，并对带噪语音进行X₁或者X₂滤波，表示为：

c (t, f) = \{\begin{matrix} 0 & \begin{matrix} i f & | τ (t, f) - τ_{\exp} | &GreaterEqual; ϵ \end{matrix} \\ 1 & e l s e \end{matrix}

{\hat{S}}_{1} (t, f) = c (t, f) \times X_{1} (t, f)

或者，

其中，为对主麦克风接收信号进行滤波后的时频域信号，为对次麦克风接收信号进行滤波后的时频域信号。；

所述采用谐波重建算法对时频掩码滤波之后的语音信号进行重建，获得相应的滤波器，并基于该滤波器对原始带噪信号进行滤波，从而恢复出期望的干净语音信号，包括：

利用非线性函数对滤波后的语音信号进行谐波重建，若针对滤波后的主麦克风信号，则先对其进行逆短时傅里叶变换及叠接相加得到相对应的时域信号再利用下式进行谐波重建：

s_{h a r m o} (t) = N L ({\hat{s}}_{1} (t));

其中，NL表示非线性函数，s_harmo(t)为谐波重建之后的时域语音信号；

若采用的非线性函数为过零比较函数Max，则有：

s_{h a r m o} (t) = N L ({\hat{s}}_{1} (t)) = M a x ({\hat{s}}_{1} (t), 0) = {\hat{s}}_{1} (t) p ({\hat{s}}_{1} (t));

其中，

假设当前帧的语音信号为浊音，且为周期为T的准周期信号，则非线性函数p(·)在当前帧为周期为T的矩形窗函数，其傅里叶变换为：

F T (p ({\hat{s}}_{1} (t))) = \frac{1}{T} Σ_{m = - \infty}^{+ \infty} R (\frac{m}{T}) δ (f - \frac{m}{T});

其中，为Sinc函数在离散频率处的值，δ(·)为单位冲击函数，即有：

上述傅立叶变换的表达式为一个内插函数，且插值的间隔为T；即在当前时间帧内第k个谐波成分丢失，则其能通过其他的谐波成分来对该频点处的值进行恢复：

F T (s_{h a r m o} (t)) = F T ({\hat{s}}_{1} (t)) &CircleTimes; \frac{e^{- {jθ}_{0}}}{T} Σ_{m = - \infty}^{+ \infty} R (\frac{m}{T}) δ (f - \frac{m}{T});

上式中，θ₀为原始信号的初始相位角，为卷积操作符。

对谐波重建之后的时域语音信号s_harmo(t)与重建之前的时域信号分别进行短时傅里叶变换，得到对应的时频域信号S_harmo(t,f)和从而估计掩码器c在码值为0点处的信噪比：

S \hat{N} R_{p r i o}^{H R N R} (t, f) = \frac{ρ (t, f) | {\hat{S}}_{1} (t, f) |^{2} + (1 - ρ (t, f)) | S_{h a r m o} (t, f) |^{2}}{{\hat{γ}}_{n} (t, f)};

上式中，ρ(t,f)为掩码器输出信号与重建信号的比重因子，且0≤ρ(t,f)≤1，为估计的噪声功率；估计方法为：

{\hat{γ}}_{n} (t, f) = | X_{1} (t, f) |^{2} - | {\hat{S}}_{1} (t, f) |^{2}

则根据估计的先验信噪比构建新的滤波器，滤波器函数为：

G_{H R N R} (t, f) = \frac{S \hat{N} R_{p r i o}^{H R N R} (t, f)}{1 + S \hat{N} R_{p r i o}^{H R N R} (t, f)};

根据该滤波器对原始带噪信号进行滤波得到谐波重建之后的信号为

{\tilde{S}}_{1} (t, f) = G_{H R N R} (t, f) \times X_{1} (t, f);

然后对上述得到的信号进行逆短时傅立叶变换及叠接相加，从而恢复出期望的干净语音信号。

由上述本发明提供的技术方案可以看出，一方面，相比于传统的多通道语音增强算法，本发明利用语音信号的谐波特性进行修复，可以有效的避免信号的失真；另一方面，相比于传统的波束形成技术，本发明方案的运算量小，只需确定麦克风拓扑结构即可实现语音信号的增强。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为本发明实施例提供的一种应用于双麦克风阵列的语音增强方法的流程图；

图2为本发明实施例提供的语音信号混合模型示意图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

图1为本发明实施例提供的一种应用于双麦克风阵列的语音增强方法的流程图。如图1所示，其主要包括如下步骤：

步骤11、利用双麦克风通道语音信号的相位差构建时频掩码滤波器滤除非平稳方向性噪声。

步骤12、采用谐波重建算法对时频掩码滤波之后的语音信号进行重建，获得相应的滤波器，并基于该滤波器对原始带噪信号进行滤波，从而恢复出期望的干净语音信号，实现语音信号的增强。

本发明上述方案，相比于传统的多通道语音增强算法，通过利用语音信号的谐波特性进行修复，可以有效的避免信号的失真；此外，相比于传统的波束形成技术，本发明方案的运算量小，只需确定麦克风拓扑结构即可实现语音信号的增强。

为了便于理解，下面针对上述两个步骤做详细的说明。

1、基于时频掩码的双通道语音增强算法。

本发明实施例中，基于时频掩码(Time-FrequencyMasking)算法应用了源信号满足WDO假设的特性(即在每一个时频点，带噪信号只有一个信号是占主导作用的)。信号混合基本模型如下：

\begin{matrix} x_{1} (t) = h_{1} s (t) + n_{1} (t) \\ x_{2} (t) = h_{2} s (t - τ) + n_{2} (t) \end{matrix};

为了应用语音信号的短时频域的稀疏性，先对x_i(t)做短时傅里叶变换，得到：

\begin{matrix} X_{1} (t, f) = h_{1} (f) S (t, f) + N_{1} (t, f) \\ X_{2} (t, f) = h_{2} (f) S (t, f) \times e^{j θ} + N_{2} (t, f) \end{matrix};

其中，t和f分别表示时间点和频率点，每个时间点t对应着一帧信号X₁(t,:)或X₂(t,:)。此处的f表示一个数值变量，一帧信号中包含有多个频率点数值，用符号：来表示变量f取遍这一帧中的每一个频率点数值。e^jθ表示时域上的时间差τ经过短时傅里叶变换变换后在短时频域上相对应的相位差。

如果语音信号混合时满足WDO假设，即在每一个时频点，带噪信号只有一个信号是占主导作用的。

图2给出了两个麦克风的情况，其中d是两个麦克分间距，波达方向角度(DOA)是φ，源信号到达两个麦克风的时间差记为τ，假设声速为v.，在远场环境(即信源到麦克风的距离远远大于麦克风之间的间距)下，可以近似有：

s i n φ = \frac{v τ}{d};

在傅里叶变换下，信号的延时信息体现在频域信号的相位信息中。如果录音环境是理想的消声环境或者低混响环境，频率响应h_i(f)可以被近似为以下模型：

h_i(f)≈λ_i·exp(-j2πfτ_i)

其中，λ_i是声源到第i个麦克风的衰减，τ_i是相应的延时。

假设麦克风的最大间距没有超过语音信号的半波长，否则会产生“空间假频”的现象。因为复数的幅角是个多值函数，一般取其主值，即[-π,π]，

-π＜2πfτ_i＜π

由图2可知：

max|τ_i|≤d_max/v

其中，v是声速，结合上述两式，我们发现不发生空间假频的前提是：

d_{m a x} < \frac{v}{2 f};

如果发生空间假频，则分离的性能会大幅降低。例如若采用麦克风间距为5cm，则语音信号的频率降采样到6800Hz。

利用语音传播参数估计的思想，输入一个角度，并期望增强该角度附近的语音信号；此方法基于两个假设：任何一个时频点，只有一个信号起主要作用；声音的传播模型为h_i(f)≈λ_i·exp(-j2πfτ_i)；其中，λ_i是源信号到第i个麦克风的衰减，τ_i是相应的延时；

为了消除源信号幅值和频率的影响，首先对X₂的每一帧做幅度和相位以及频率归一化：

其中，abs()表示取该帧信号每个元素的绝对值，||||表示取范数操作，⊙为点乘操作，angle()表示取信号的相位角操作。经过上述操作后，每个时频点处两麦克风间阵到达时间差TDOA为：其中，L为分析窗的窗长，Fs为采样频率，而期望增强的角度对应的TDOA为τ_exp＝-d/v×cos(φ*π/180)。

当然，也可以采用其他的归一化方式处理X₁，获得以用来计算TDOA。

对于每个时频点(t,f)如果|τ(t,f)-τ_exp|之差大于等于阈值ε，则认为该时频点的来波方向不是来自于输入的角度附近，即在该时频点不是期望的信号占主导作用，掩码为0；反之，则认为该时频点是期望的信号占主导作用，掩码为1，则根据每个时频点的TDOA构建时频掩码滤波器c，并对带噪语音X₁或者X₂进行滤波，表示为：

c (t, f) = \{\begin{matrix} 0 & \begin{matrix} i f & | τ (t, f) - τ_{\exp} | &GreaterEqual; ϵ \end{matrix} \\ 1 & e l s e \end{matrix}

{\hat{S}}_{1} (t, f) = c (t, f) \times X_{1} (t, f)

或者，

其中，为对主麦克风接收信号进行滤波后的时频域信号，对其进行逆短时傅里叶变换及叠接相加可得到相对应的时域信号为对次麦克风接收信号进行滤波后的时频域信号，对其进行逆短时傅里叶变换及叠接相加可得到相对应的时域信号

2、基于谐波重建的后处理方法

前文中利用时频掩码滤波器增强之后的语音对非平稳点噪声源具有很好的抑制效果，但是在掩码器权值为1的时频点处的噪声并不会被抑制，而且二值掩码滤波会带来一定程度的失真。本领域技术人员可以理解，由于人发声段中约80％为浊音段，而浊音主要包含谐波成分，故语音失真主要体现为谐波成分丢失。因此，本发明实施例中，引入谐波重建算法对时频掩码输出之后的信号进行重建，从而降低信号的失真，增强期望的语音信号。

利用非线性函数对滤波后的语音信号进行谐波重建，若针对滤波后的主麦克风信号，则：

s_{h a r m o} (t) = N L ({\hat{s}}_{1} (t));

其中，NL表示非线性函数，表示时频掩码滤波之后的时域语音信号，s_harmo(t)为谐波重建之后的时域语音信号；

非线性函数包括：绝对值、过零比较等；若采用的非线性函数为过零比较函数Max，则有：

s_{h a r m o} (t) = N L ({\hat{s}}_{1} (t)) = M a x ({\hat{s}}_{1} (t), 0) = {\hat{s}}_{1} (t) p ({\hat{s}}_{1} (t));

其中，

F T (p ({\hat{s}}_{1} (t))) = \frac{1}{T} Σ_{m = - \infty}^{+ \infty} R (\frac{m}{T}) δ (f - \frac{m}{T});

上述傅立叶变换的表达式为一个内插函数，且插值的间隔为T；即在当前时间帧内第k个谐波成分丢失，则其能通过其他的谐波成分来对该频点处的值进行恢复，从而实现谐波成分的修复，进而降低语音的失真：

F T (s_{h a r m o} (t)) = F T ({\hat{s}}_{1} (t)) &CircleTimes; \frac{e^{- {jθ}_{0}}}{T} Σ_{m = - \infty}^{+ \infty} R (\frac{m}{T}) δ (f - \frac{m}{T});

上式中，θ₀为原始信号的初始相位角，为卷积操作符。

对重建之后的时域信号s_harmo(t)与重建之前的时域信号分别进行短时傅里叶变换，得到对应的时频域信号S_harmo(t,f)和从而估计掩码器c在码值为0点处的信噪比：

S \hat{N} R_{p r i o}^{H R N R} (t, f) = \frac{ρ (t, f) | {\hat{S}}_{1} (t, f) |^{2} + (1 - ρ (t, f)) | S_{h a r m o} (t, f) |^{2}}{{\hat{γ}}_{n} (t, f)};

{\hat{γ}}_{n} (t, f) = | X_{1} (t, f) |^{2} - | {\hat{S}}_{1} (t, f) |^{2}

则根据估计的先验信噪比构建新的滤波器，滤波器函数为：

G_{H R N R} (t, f) = \frac{S \hat{N} R_{p r i o}^{H R N R} (t, f)}{1 + S \hat{N} R_{p r i o}^{H R N R} (t, f)};

{\tilde{S}}_{1} (t, f) = G_{H R N R} (t, f) \times X_{1} (t, f);

然后对上述得到的信号进行逆短时傅立叶变换及叠接相加，从而恢复出期望的干净语音信号，实现语音信号的增强。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现，也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解，上述实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种应用于双麦克风阵列的语音增强方法，其特征在于，包括：

2.根据权利要求1所述的一种应用于双麦克风阵列的语音增强方法，其特征在于，所述利用双麦克风通道语音信号的相位差构建时频掩码滤波器滤除非平稳方向性噪声包括：

主麦克风与次麦克风接收到的语音信号如下：

\begin{matrix} x_{1} (t) = h_{1} s (t) + n_{1} (t) \\ x_{2} (t) = h_{2} s (t - τ) + n_{2} (t) \end{matrix};

对x_i(t)做短时傅里叶变换，得到：

\begin{matrix} X_{1} (t, f) = h_{1} (f) S (t, f) + N_{1} (t, f) \\ X_{2} (t, f) = h_{2} (f) S (t, f) \times e^{j θ} + N_{2} (t, f) \end{matrix};

首先对X₂的每一帧做幅度和相位以及频率归一化：

c (t, f) = \{\begin{matrix} 0 & i f | τ (t, f) - τ_{\exp} | &GreaterEqual; ϵ \\ 1 & e l s e \end{matrix}

{\hat{S}}_{1} (t, f) = c (t, f) \times X_{1} (t, f)

或者，

其中，为对主麦克风接收信号进行滤波后的时频域信号，为对次麦克风接收信号进行滤波后的时频域信号。

3.根据权利要求2所述的一种应用于双麦克风阵列的语音增强方法，其特征在于，所述采用谐波重建算法对时频掩码滤波之后的语音信号进行重建，获得相应的滤波器，并基于该滤波器对原始带噪信号进行滤波，从而恢复出期望的干净语音信号，包括：

s_{h a r m o} (t) = N L ({\hat{s}}_{1} (t));

若采用的非线性函数为过零比较函数Max，则有：

s_{h a r m o} (t) = N L ({\hat{s}}_{1} (t)) = M a x ({\hat{s}}_{1} (t), 0) = {\hat{s}}_{1} (t) p ({\hat{s}}_{1} (t));

其中，

F T (p ({\hat{s}}_{1} (t))) = \frac{1}{T} Σ_{m = - \infty}^{+ \infty} R (\frac{m}{T}) δ (f - \frac{m}{T});

F T (s_{h a r m o} (t)) = F T ({\hat{s}}_{1} (t)) &CircleTimes; \frac{e^{- {jθ}_{0}}}{T} Σ_{m = - \infty}^{+ \infty} R (\frac{m}{T}) δ (f - \frac{m}{T});

上式中，θ₀为原始信号的初始相位角，为卷积操作符。

S \hat{N} R_{p r i o}^{H R N R} (t, f) = \frac{ρ (t, f) | {\hat{S}}_{1} (t, f) |^{2} + (1 - ρ (t, f)) | S_{h a r m o} (t, f) |^{2}}{{\hat{γ}}_{n} (t, f)};

{\hat{γ}}_{n} (t, f) = | X_{1} (t, f) |^{2} - | {\hat{S}}_{1} (t, f) |^{2}

则根据估计的先验信噪比构建新的滤波器，滤波器函数为：

G_{H R N R} (t, f) = \frac{S \hat{N} R_{p r i o}^{H R N R} (t, f)}{1 + S \hat{N} R_{p r i o}^{H R N R} (t, f)};

{\tilde{S}}_{1} (t, f) = G_{H R N R} (t, f) \times X_{1} (t, f);