CN109087664B

CN109087664B - 语音增强方法

Info

Publication number: CN109087664B
Application number: CN201810960226.4A
Authority: CN
Inventors: 叶中付; 朱媛媛
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2018-08-22
Filing date: 2018-08-22
Publication date: 2022-09-02
Anticipated expiration: 2038-08-22
Also published as: CN109087664A

Abstract

本发明公开了一种语音增强方法，包括：采用联合字典学习方法的训练方法，针对干净的语音信号、干扰和噪声，学习获得联合字典；通过多重信号分类算法测得期望语音信号的入射方向，并采用MVDR波束形成器来处理阵列接收到的信号，在抑制非期望语音方向上的干扰和噪声的同时增强期望语音方向的语音信号；利用学习获得的联合字典，对MVDR波束形成器的输出信号进行一级联合稀疏表示，并根据稀疏表示的残留成分设计权重系数，从而获得最终估计的语音信号、干扰和噪声，再结合维纳滤波器的形式得到对语音信号的基于均方意义的最优估计，最终恢复出期望的语音信号，实现语音增强。该方法能够在方向性的非平稳干扰和无方向性的环境噪声同时存在的情况下仍然保持良好的语音增强的性能。

Description

语音增强方法

技术领域

本发明涉及多通道语音降噪技术领域，尤其涉及一种语音增强方法。

背景技术

语音是人类最便捷和自然的交流工具之一，一方面它消除了人与人之间交流的距离隔阂，另一方面它也提高了人与机器之间交互的效率。然而，现实环境中无处不在的噪声也不同程度地影响着语音交流的质量，研究有效的语音增强技术就显得尤为重要，是近几十年来学者们研究的热点。

在现有的语音增强算法中，可以根据麦克风的数量将其分为两大类，即多通道语音增强算法和单通道语音增强算法。其中在多通道算法中，波束形成方法最为常见。然而波束形成算法往往对抑制方向性干扰和噪声的能力较好，对于无方向性的环境噪声，波束形成的性能就会降低。因此，近年来波束形成与后置滤波结合的方法成为了研究热点。但是，目前提出的后置滤波的方法大多假设环境噪声为高斯白噪声或者是散弹噪声，并且没有考虑干扰的情况，因此当方向性的非平稳干扰和环境噪声同时存在时，这些后置滤波方法对语音信号的增强效果并不是很好。

发明内容

本发明的目的是针对麦克风阵列接收的多通道语音信号提供一种语音增强方法，能够在方向性的非平稳干扰和无方向性的环境噪声同时存在的情况下仍然保持良好的语音增强的性能。

本发明的目的是通过以下技术方案实现的：

一种语音增强方法，包括：

采用联合字典学习方法的训练方法，针对干净的语音信号、干扰和噪声，学习获得联合字典；

通过多重信号分类算法测得期望语音信号的入射方向，并采用MVDR波束形成器来处理阵列接收信号，在抑制非期望语音方向上的干扰和噪声的同时增强期望方向的语音信号；

利用学习获得的联合字典，对MVDR波束形成器的输出信号进行一级联合稀疏表示，并根据稀疏表示的残留成分设计权重系数，从而获得最终估计的语音信号、干扰和噪声，再结合维纳滤波器的形式得到对语音信号的基于均方意义的最优估计，最终恢复出期望的语音信号，实现语音增强。

由上述本发明提供的技术方案可以看出，充分利用了多通道信号的空域信息、时域信息和频域信息，利用联合字典学习的方法进一步估计出了波束形成的输出信号中的残留干扰和残留噪声，从而能够保持较好的语音增强的能力。此外，由于本方法并不依赖于对噪声场的假设，因此具有较强的适应性。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为本发明实施例提供的一种语音增强方法的流程图；

图2为本发明实施例提供的一种语音增强方法的框图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

本发明实施例提供一种语音增强方法对于方向性的非平稳干扰和无方向性的环境噪声，此方法均有很好的语音增强性能。本发明实例适用于多干扰和噪声共存的情况下，以单干扰和单噪声为例进行介绍。如图1所示，该方法主要包括如下步骤：

步骤1、采用联合字典学习方法的训练方法，针对干净的语音信号、干扰和噪声，学习获得联合字典。

步骤2、通过多重信号分类算法测得期望语音信号的入射方向，并采用最小方差无畸变响应(Minimum Variance Distortionless Response,MVDR)波束形成器来处理阵列接收信号，在抑制非期望语音方向上的干扰和噪声的同时增强期望方向的语音信号。

步骤3、利用学习获得的联合字典，对MVDR波束形成器的输出信号进行一级联合稀疏表示，并根据稀疏表示的残留成分设计权重系数，从而获得最终估计的语音信号、干扰和噪声，再结合维纳滤波器的形式得到对语音信号的基于均方意义的最优估计，最终恢复出期望的语音信号，实现语音增强。

本发明上述方案，相比较于已有的波束形成与后置滤波结合的语音增强算法，通过利用多通道信号的空域信息达到抑制干扰和噪声的目的，然后通过联合稀疏表示分别估计出波束形成输出信号的语音信号、残留的干扰和噪声，最后通过设计权重系数充分利用各个稀疏表示的互补优势，更加准确地估计出了期望语音信号，达到了语音增强的目的。该方法有较好的适用性。

为了便于理解，下面针对上述方法的三个步骤做详细的说明。

1、采用单通道联合字典学习方法进行联合字典的训练。

本发明实施例中，同时考虑了干扰和噪声对语音信号的影响，在训练阶段，将干净语音信号s^tr(t)、干净干扰i^tr(t)、干净噪声n^tr(t)分别通过短时傅里叶变换得到时频域上的干净语音信号S^tr、干净干扰I^tr和干净噪声N^tr，将这些时频域上的信号线性相加得到混合信号Y^tr；

采用联合字典学习的方法来获得联合字典，其包括：具有映射关系的混合信号字典D_y1和语音字典D_s，记为

混合信号字典D_y2和干扰字典D_i，记为

以及混合信号字典D_y3和噪声字典D_n，记为

其中，虽然三个混合信号字典D_y1、D_y2和D_y3都是由混合信号Y^tr生成的字典，但是由于与它们联合的字典是不同的(D_y1联合D_s，D_y2联合D_i，D_y3联合D_n)，其中的映射关系也不相同，因此这三个混合信号字典是不相同的。式中，C₁是对于混合信号和干净语音信号的相同稀疏表示系数，C₂是对于混合信号和干净干扰的相同稀疏表示系数，C₃是对于混合信号和干净噪声的相同稀疏表示系数，q为稀疏约束；c_1,g、c_2,g和c_3,g对应地表示稀疏系数矩阵C₁、C₂和C₃的第g列；

表示弗罗贝尼乌斯范数，||·||₁表示1-范数。

2、采用MVDR波束形成器来处理阵列接收信号。

本发明实施例中，利用MVDR波束形成处理阵列接收信号，通过抑制来自非目标方向上的信号来实现抑制干扰和噪声的目的。本发明实例适用于任意类型的阵列流行，包括线阵列、圆阵列或者面阵列等等。下面以线阵列为例进行介绍：

假设一个由M个全向性阵元排列成均匀线阵列，来自空间中的远场信号入射到该阵列，则在观测时刻t第m个阵元接收到的信号x_m(t)为：

x_m(t)＝s[t-τ_m(θ_s)]+i[t-τ_m(θ_i)]+n_m(t)

式中，s[t-τ_m(θ_s)](m＝1,2,…,M)表示接收信号中的期望语音信号，i[t-τ_m(θ_i)]表示干扰(主要由点噪声源产生)，n_m(t)表示环境噪声(散弹噪声，即无方向噪声)；τ_m(θ_s)为第m个阵元与参考点接收到的期望语音信号之间的时间差，τ_m(θ_i)为第m个阵元与参考点接收到的干扰之间的时间差，θ_s和θ_i分别表示期望语音信号和干扰的入射方向。那么阵列接收信号可以表示为：

x(t)＝[x₁(t)x₂(t)…x_M(t)]^T

阵列接收信号x(t)经过短时傅里叶变换后为x(k,ω)：

x(k,ω)＝g_s(ω)S(k,ω)+g_i(ω)I(k,ω)+n(k,ω)；

其中：

式中，X_m(k,ω)，S(k,ω)，I(k,ω)和N_m(k,ω)分别为x_m(t)，s(t)，i(t)和n_m(t)的短时傅里叶变换，s(t)、i(t)分别为观测时刻t阵列接收信号中的期望语音信号、干扰；g_s(ω)为对应期望语音信号S(k,ω)的方向角度的导向矢量，其中的元素对应于各个阵元；g_i(ω)为对应干扰i(t)的方向角度的导向矢量，其中的元素对应于各个阵元；n(k,ω)为观测时刻t阵列接收信号中环境噪声n(t)的短时傅里叶变换结果；k和ω分别为帧索引和频率点索引；

在远场假设条件下：

式中，f_ω表示在频率点ω处的频率。

波束形成本质上是一种空域滤波，为了对达到增强期望语音信号、抑制干扰与噪声的目的，需要对各阵元的接收信号进行线性加权。虽然阵列是全向的，但阵列的输出经过加权求和后，可以使增益聚集在一个方向上形成了一个“波束”，对不同的权矢量会形成不同方向的空间波束。

对每帧中每个频点的各阵元的接收信号进行加权求和后，输出表示为：

其中，w(ω)＝[w₁(ω),w₂(ω),…,w_M(ω)]^T表示MVDR波束形成器的权矢量；

为了最大化输出信噪比，在保证期望方向上的信号增益不变的同时，使噪声和来自其他方向的干扰贡献的功率最小，求解如下优化问题：

得到MVDR波束形成器的权矢量w(ω)为：

式中，R_v(ω)为干扰加噪声协方差矩阵；R_v(ω)＝E{v(k,ω)v^H(k,ω)}，v(k,ω)＝g_i(ω)I(k,ω)+n(k,ω)；

在实际情况下，理想的信号统计信息难以获取，通常利用样本矩阵求逆的算法来实现，主要思路就是用样本协方差矩阵

来代替理想的协方差矩阵R_v(ω)来求解权值矢量。

本发明实施例中，由语音活动检测技术检测出的无期望语音信号段估算得到估计结果

式中，

表示仅有干扰和噪声的帧的集合，L_v是集合中帧的数目。

3、采用单通道联合字典学习方法进行语音增强。

尽管MVDR波束形成器能够在一定程度上抑制干扰和噪声，但是在干扰为非平稳，环境噪声为无方向性的散弹噪声情况下，波束形成器的性能并不是很好，因此需要采用一定的后滤波技术进一步提高语音增强的效果。

已有的单通道联合字典学习方法大多只考虑了噪声对干净语音信号的污染，忽略了干扰的影响，而且采用基尼系数作为权重系数来联合不同的稀疏表示，其性能的好坏依赖于噪声的结构性，且不适用于干扰和噪声并存的情况。

在字典学习的增强阶段，利用一级联合稀疏表示分别获得初步估计的语音信号、干扰和噪声，根据稀疏表示的残留成分设计权重系数以充分利用其互补属性，最终恢复出期望的语音信号，实现语音增强；主要过程如下：

计算MVDR波束形成器的输出信号的时频域上的幅度

在各个联合字典上的稀疏表示系数：

式中，e_1,g、e_2,g和e_3,g对应的表示矩阵E₁、E₂和E₃的第g列，而E₁、E₂和E₃分别为

在混合信号字典D_y1、D_y2和D_y3上相应的稀疏表示系数。

利用联合稀疏表示初步估计语音信号

干扰

和噪声

MVDR波束形成器的输出信号的时频域上的幅度

是语音信号、残留干扰和噪声的线性相加之和，则得到优化后的语音信号

干扰

和噪声

需要注意的是，

和

的估计精度是不同的，前者的估计精度依赖于在混合信号字典和语音字典

上的稀疏表示，而后者的估计精度依赖于在

和

上的稀疏表示。

为了充分利用这些不同的稀疏表示的估计精度，根据稀疏表示的残留成分设计分别对应于语音信号、干扰和噪声的权重系数α₁、α₂和α₃：

其中：

式中，

和

分别代表估计的语音信号、干扰和噪声中归一化的残留的其他成分。

最终估计的语音信号

干扰

和噪声

表示为：

不难看出，当

中含有较多的残留干扰和残留噪声成分时，即

的估计精度低于

就会随之相对增大，

在

中所占的权重(1-α₁)就会相对减小，

的权重α₁就会相对增大，从而使得语音信号的估计值

更为准确，充分利用了不同稀疏表示的精度；对于

和

和

的分析类似。

最后，结合维纳滤波器的形式得到对语音信号的基于均方意义的最优估计，表示为：

式中，(·)²表示取矩阵中各元素的平方和，

表示点乘运算；

然后，利用MVDR波束形成器输出信号Y_MV(k,ω)构成的矩阵Y_MV的相位，恢复出带有相位的语音信号

最后，对

做STFT的逆变换，重建出期望的语音信号

本发明实施例提供的上述语音增强方法，通过结合MVDR波束形成方法和单通道联合字典学习方法，充分利用了多通道语音信号的空域、时域和频域的信息，从而更准确地估计出期望的语音信号，提升语音增强的性能。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现，也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解，上述实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种语音增强方法，其特征在于，包括：

2.根据权利要求1所述的一种语音增强方法，其特征在于，所述采用联合字典学习方法的训练方法，针对干净的语音信号、干扰和噪声，学习获得联合字典包括：

在训练阶段，将干净语音信号s^tr(t)、干净干扰i^tr(t)、干净噪声n^tr(t)分别通过短时傅里叶变换得到时频域上的干净语音信号S^tr、干净干扰I^tr和干净噪声N^tr，将这些时频域上的信号线性相加得到混合信号Y^tr；

混合信号字典D_y2和干扰字典D_i，记为

以及混合信号字典D_y3和噪声字典D_n，记为

其中，三个混合信号字典D_y1、D_y2与D_y3是由混合信号Y^tr生成的互不相同的字典，C₁是对于混合信号和干净语音信号的相同稀疏表示系数，C₂是对于混合信号和干净干扰的相同稀疏表示系数，C₃是对于混合信号和干净噪声的相同稀疏表示系数，q为稀疏约束；c_1,g、c_2,g和c_3,g对应的表示稀疏系数矩阵C₁、C₂和C₃的第g列；

表示弗罗贝尼乌斯范数，||·||₁表示1-范数。

3.根据权利要求1所述的一种语音增强方法，其特征在于，阵列接收到的信号采用下述方式来表示：

阵列为任意类型的阵列，包括：线阵列、圆阵列或者面阵列；

假设一个由M个全向性的阵元排列成均匀线阵列，来自空间中的远场信号入射到该阵列，则在观测时刻t第m个阵元接收到的信号x_m(t)为：

x_m(t)＝s[t-τ_m(θ_s)]+i[t-τ_m(θ_i)]+n_m(t)

式中，s[t-τ_m(θ_s)](m＝1,2,…,M)表示接收信号中的期望语音信号，i[t-τ_m(θ_i)]表示干扰，n_m(t)表示环境噪声；τ_m(θ_s)为第m个阵元与参考点接收到的期望语音信号之间的时间差，τ_m(θ_i)为第m个阵元与参考点接收到的干扰之间的时间差，θ_s和θ_i分别表示期望语音信号和干扰的入射方向；

阵列接收信号表示为：

x(t)＝[x₁(t) x₂(t)…x_M(t)]^T；

阵列接收信号x(t)经过短时傅里叶变换后为x(k,ω)：

x(k,ω)＝g_s(ω)S(k,ω)+g_i(ω)I(k,ω)+n(k,ω)；

其中：

式中，X_m(k,ω)，S(k,ω)，I(k,ω)和N_m(k,ω)分别为x_m(t)，s(t)，i(t)和n_m(t)的短时傅里叶变换，s(t)、i(t)分别为观测时刻t阵列接收信号中的期望语音信号、干扰；g_s(ω)为对应期望语音信号S(k,ω)的方向角度的导向矢量，其中的元素对应于各个阵元；g_i(ω)为对应干扰i(t)的方向角度的导向矢量，其中的元素对应于各个阵元；n(k,ω)为观测时刻t阵列接收信号中环境噪声n(t)的短时傅里叶变换；k和ω分别为帧索引和频率点索引；

在远场假设条件下：