CN109830245B

CN109830245B - 一种基于波束成形的多说话者语音分离方法及系统

Info

Publication number: CN109830245B
Application number: CN201910001150.7A
Authority: CN
Inventors: 曲天书; 吴玺宏; 彭超
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2019-01-02
Filing date: 2019-01-02
Publication date: 2021-03-12
Anticipated expiration: 2039-01-02
Also published as: CN109830245A

Abstract

本发明公开了一种基于波束成形的多说话者语音分离方法及系统。本方法为：采集混合语音信号，得到多通道的多说话者混合语音信号并对其进行扫描，得到MUSIC能量谱；从该MUSIC能量谱中获得S个峰值，其中每一峰值对应一波束方向；对S个波束分别进行增强，得到S个方向上的混合语音；对每一方向对应的混合语音进行短时傅里叶变换，获得S个目标说话者语音的短时傅里叶幅度谱并将其分别输入深度神经网络，估计每一目标说话者对应的相位感知掩模；将每一目标说话者的相位感知掩模与对应混合语音的幅度谱进行逐元素相乘，获得该目标说话者的幅度谱，并利用对应混合语音的相位谱通过逆短时傅立叶变换恢复出该目标说话者的时域信号。

Description

一种基于波束成形的多说话者语音分离方法及系统

技术领域

本发明属于语音分离技术领域，涉及波束成形和深度神经网络模型，具体涉及一种基于波束成形的语音分离方法及系统。

背景技术

在一个具有噪声或者多说话人等干扰的复杂声学场景中，拾取出目标说话人的语音一直是语音领域的难题，这个问题被称作“鸡尾酒会问题”。正常人得益于自身听觉上的注意机制，将注意力聚焦在混合声音中的目标声音，从而能在这种复杂环境下进行对话交流。然而对于机器来说，“鸡尾酒会问题”却是一个困难的任务。尽管现在自动语音识别的识别率在干净语音下能够做到接近甚至超过常人，但是在含有多个说话人的语音识别中，自动语音识别的识别率会大幅度的下降。而这首先要解决的一个问题就是多说话人语音的分离。

传统的方法比如隐马尔科夫模型(HMM)、非负矩阵分解(NMF)、独立成分分析(ICA)等等方法已经很早被提出来解决多说话人语音分离的问题，但是效果并不是那么理想。最近几年，一种叫做听觉计算场景分析的方法(CASA,Computational Auditory SceneAnalysis)被提出来，在语音分离方便取得了不错的效果。CASA模仿人类的听觉感知机理，增强目标声音而抑制其余干扰。与此同时，随着深度学习技术的发展，它已经成功应用到很多领域，尤其是语音领域，比如语音识别、去混响和增强。

基于深度学习的有监督的多说话人语音分离的思路主要有两类。

一类是深度聚类(Deep Clustering)和深度吸引子网络(Deep AttractorNetwork)，其主要思想是对混合语音幅度谱图的时频单元进行嵌入(Embedding)训练，将每一个时频单元映射到一个高维向量，然后对这些时频向量的高维表示进行聚类，各聚类中心代表着分离语音的某个独立成分，接着生成时频掩模，得出分离语音的谱估计，最后使用混合语音的相位谱恢复语音的时序信号。该策略假设每个时频点只有一个源占主导地位，并且属于同一源的时频点在嵌入空间中彼此靠近。因此，通过使用聚类算法，可以分离多个讲话者的语音。但是，每个时频点可以同时属于不同的目标。同时，两者还需要额外的聚类算法来处理，相对较复杂。

另外一种思路是置换不变训练方法(PIT,Permutation Invariant Training)。其基本思路就是首先通过短时傅里叶变换将时序信号转换为一个具有上下文信息的多帧幅度谱，通过DNN、CNN或者LSTM的深度模型，得到多个说话人语音的时频掩模(Mask)的估计，掩模分别乘上原混合信号的谱图就得到对应说话人幅度谱的估计，其分别与真实说话人的幅度谱做均方误差，然后加权求和得到总的均方误差。而在进行预测时，输入混合语音的幅度谱得到分离语音幅度谱的估计后，使用混合语音的相位谱一起恢复分离语音的时域表示。但这里边就存在一个被称作“标签置换”的问题。举例来说，对于给定两个说话人幅度谱的标签[s1,s2]，而网络输出的幅度谱估计为[a1,a2]，在网络计算损失值的时候，可以用[s1,s2]去对应[a1,a2]，也可以用[s2,s1]去对应[a1,a2]，这就存在一个标签以何种排列去对应模型输出的问题。而PIT训练方法则每次在输出的幅度谱估计和给定的标签幅度谱信息之间两两计算一个均方误差，最终模型只按照最小均方误差的那一个排列方式去进行优化训练。但是从理论上来说，匹配计算的时间复杂度是阶乘级的。

然而，两种思路及其以之为基础的多通道分离方法都存在两个问题，一是说话人越多，分离越难，分离后的语音的可懂度也越差；而且它们都必须提前人为设置说话人数目或者说话人数目的最大值，即使后来有改进的方法，在未知说话人的分离上也表现得较差。

发明内容

针对现有技术存在的技术问题，本发明提出了一种基于波束成形和深度神经网络的多说话者语音分离方法及系统，本发明首先通过声源定位算法估计说话者的数量，然后在空域中利用波束形成来增强目标语音。在时频域上提取完目标说话者的短时傅里叶特征后，使用监督的深度模型恢复出目标说话者的语音，从而完成多个说话者的语音分离。

本发明的重要创新之处在于它将空间信息引入到分离方法中，将稀疏假设从时频域扩展到空时频域；同时此系统没有必要事先知道说话人的数量，而是通过多重信号分类(MUSIC,Multiple Signal Classification)算法的能谱中的峰值数来获知。

本发明的技术方案为：

一种基于波束成形的多说话者语音分离方法，其步骤包括：

1)首先，利用麦克风阵列采集混合语音信号，得到多通道的多说话者混合语音信号；

2)在得到多通道数据后，使用MUSIC算法的空间谱函数在所有的方向上进行扫描，得到MUSIC能量谱；

3)利用步骤二得到的MUSIC能量谱可获得多个峰值，假设为S，可以判断混合音频是S个说话者语音的混合，也就是该多通道音频数据是S个说话者同时说话采集得到的；

4)根据步骤三得到的S个方向，使用最小方差无失真响应(MVDR,MinimumVariance Distortionless Response)波束形成器在S个波束上进行增强，得到S个方向上的混合语音，对于每一个混合语音，存在一个能量最大的目标说话人，其余是能量较低的其他说话人；

5)对得到的S个方向上的混合语音分别进行短时傅里叶变换(STFT,Short TimeFourier Transform)，获得S个目标说话者方向混合语音的短时傅里叶幅度谱；

6)基于短时傅里叶幅度谱利用深度神经网络强大的非线性建模能力估计波束增强语音的相位感知掩模(PSM,Phase Sensitive Mask)；

7)最后，通过估计的掩模与混合语音的幅度谱的逐元素相乘来获得S个目标说话者的幅度谱，并利用步骤3)得到的S个方向上混合语音的相位谱通过逆短时傅立叶变换恢复目标说话者的时域信号。

本发明提出的基于波束成形的多说话者语音分离技术的基本框架如图1所示，该方法是一种多通道方法，其中主要包括以下几个部分：

多通道数据获取单元，用于采集混合语音信号，得到多通道的多说话者混合语音信号；

说话者数目获知单元，用于使用MUSIC算法的空间谱函数在所有的方向上对该多说话人混合语音信号进行扫描，得到MUSIC能量谱；并从该MUSIC能量谱中获得S个峰值，即S个目标说话者；其中每一峰值对应一波束方向；

波束增强单元，用于对确定的S个波束分别进行增强，得到S个方向上的混合语音，并计算其短时傅里叶幅度谱；

PSM掩模估计单元，用于利用深度神经网络对各短时傅里叶幅度谱分别进行估计，得到每一目标说话者对应的相位感知掩模；

目标说话人语音恢复单元，用于将每一目标说话者的相位感知掩模与对应混合语音的幅度谱进行逐元素相乘，获得该目标说话者的幅度谱，并利用对应混合语音的相位谱通过逆短时傅立叶变换恢复出该目标说话者的时域信号。

与现有技术相比，本发明的积极效果为：

本发明充分利用了时间、频率和空间域的信息，同时不需要提前人为设定说话人数目或者最大值，克服了现有分离方法依赖说话人数量这一先验知识的不足，理论上来说能够较好的分离任意多个混合说话人语音。

附图说明

图1为本发明提出的提出的多说话人语音分离框架；

图2为本发明所用的深度神经网络结构；

图3为本发明中多通道数据采集所用的麦克风阵列。

具体实施方式

下面参照本发明的附图，更详细地描述本发明的最佳实施例。图1所示为本发明提出的基于波束成形的多说话人语音分离框图，本发明方法的具体实现步骤包括多通道数据获取、说话人数目获知、波束增强、PSM掩模估计和目标说话人语音恢复。各步骤的具体实现过程如下：

1.多通道数据获取

设计麦克风阵列，可以是线阵等一维麦克风阵列，可以是等边三角形阵、T型阵、均匀圆阵、均匀方阵、同轴圆阵、圆形/矩形面阵等二维麦克风阵列，也可以是四面体阵、正方体阵、长方体阵、球型阵等三维麦克风阵列。利用这些麦克风阵列采集多说话人的混合语音数据。

2.说话人数目获知

在获得多通道混合语音数据后，通过MUSIC谱搜索峰值个数，具体算法实现如下：

假设第M个阵元的输出信号为：

其中，D为声源数量，a_M(θ_k)是第m个麦克风对第k个信号源的响应函数，S_k(t)是第k个信号源在麦克风阵列上产生的信号，n_M(t)为噪声响应。矩阵形式表达为：

X＝AS+N

对阵列输出作相关处理，得到其协方差矩阵：

R_x＝E[XX^H]

假设信号与噪声互不相关、且噪声为零均值白噪声，可以得到：

R_x＝E[(AS+N)(AS+N)^H]

＝AE[SS^H]A^H+E[NN^H]

＝AR_sA^H+R_N

其中R_s＝E[SS^H]称为信号的相关矩阵，R_N＝σ²I是噪声的相关矩阵，σ²是噪声功率，I是M*M阶的单位矩阵。

将矩阵R_x的特征值进行从小到大排列，其中D个较大的特征值对应于信号，M-D个较小的特征值对应于噪声。矩阵R_x的属于这些特征值的特征向量也分别对应于信号与噪声，因此，可以把R_x的特征值(特征向量)划分为信号特征值(特征向量)与噪声特征值(特征向量)。

设λ_i是矩阵R_x的第i个特征向量，v_i是与λ_i对应的特征向量，则有：

R_xv_i＝λ_iv_i

再设λ_i＝σ²是R_x的最小特征值，则：

R_xv_i＝σ²v_i，i＝D+1，D+2，...，M

将R_x＝AR_sA^H+σ²I带入上式可得：

σ²v_i＝(AR_sA^H+σ²I)v_i

将上式右边展开与左边比较可得：

AR_sA^Hv_i＝0

因为A^HA是D*D维的满秩矩阵，(A^HA)^-1存在；而R_s ^-1同样存在，则上式两边分别乘以R_s ^-1(A^HA)^-1A^H后变成：

于是有：

A^Hv_i＝0，i＝D+1，D+2，...，M

上式表明噪声特征值所对应的特征向量v_i与矩阵A的列向量正交。用各噪声特征向量为列，构造一个噪声矩阵E_n：

E_n＝[v_D+1，v_D+2，...，v_M]

定义MUSIC空间谱P_music(θ)：

该式中分母是噪声向量和噪声矩阵的内积，当α(θ)和E_n的各列正交时，该分母为0，但由于噪声的存在它实际上为一个最小值，因此P_music(θ)有一个尖峰。由该式，使θ变化，通过寻找峰值来得到波达方向的估计值。最后有多少个峰值就有多少个说话人所在的方向。

3.波束增强

在获得说话人数目及其所在的方向后，使用MVDR波束成形来增强相应方向上的目标说话人语音，在每个波束上得到一个混合说话人语音，其中存在一个能量最大的目标说话人。MVDR波束形成算法计算如下：

MVDR波束形成器的目标是在不使目标信号失真的情况下最小化噪声能量：

其中W是阵列的权重向量，R_ni是噪声和干扰的方差矩阵，则最佳权重向量是：

最后，目标说话人s的增强信号是：

其中|X_s(t,f)|,|Y(t,f)|分别表示单通道目标说话人增强后的和原多通道混合语音的短时傅里叶幅度谱。

4.PSM掩模估计

在得到目标说话人的短时傅里叶幅度谱|X_s(t,f)|后，将其馈送至深度神经网络中，其中深度神经网络本发明使用三层BLSTM和一层全连接层，如图2所示。最后深度神经网络估计出目标说话人语音的PSM掩模。PSM是一种考虑了源信号和混合信号之间相位差的掩模，其定义为：

其中θ_y和θ_s分别表示混合信号和源信号的相位信息，|X_s|，|Y|分别表示目标说话人和混合语音的幅度谱。这里要说明的是，虽然PSM考虑了相位信息，但是并不是说模型能够估计出源信号的相位，而是在幅度谱上模型估计的是源信号幅度在混合信号方向上的投影，最后预测时仍然使用的是混合信号的相位信息。

由于深度神经网络的估计是直接对掩膜进行估计，因而模型训练的目标是使估计掩膜与目标掩膜之间尽可能的接近，故在使用PSM时，神经网络训练时的损失函数被修改定义为：:

其中B是时频单元的个数，而对于某些静音片段X_s(t,f)＝0，Y(t,f)＝0的情况，M_s(t,f)没有定义，因此常常将损失函数修正为:

而在使用PSM时，损失函数被定义为:

式中，

表示估计的掩模，

表示点乘运算，|X_s|，|Y|分别表示目标说话人和混合语音的幅度谱。

5.目标说话人语音恢复

最后，通过估计的掩模与混合语音的幅度谱的相乘来获得目标说话者的幅度谱，并利用混合语音的相位谱通过逆短时傅立叶变换恢复目标说话人的时域信号。

其中φ是混合语音的相位谱。

仿真数据与结果

实验仿真数据使用的是华尔街日报(WSJ0)语料库。我们创建了2个、3个和4个说话人的单通道混合语音数据集，每个说话人的数据集又被分成了训练集(20000条，约30小时)、验证集(5000条，约10小时)和测试集(3000条，约5小时)。训练集(tr)和验证集(cv)都是从si_tr_s文件夹中音频文件随机混合产生，测试集(tt)则是从剩下两个文件夹中的音频文件随机混合产生。所有音频数据都被下采样到8kHz，以降低计算和内存成本，且0dB随机混合。

1.深度神经网络结构

本实验是双向长短期记忆网络(BLSTM)，BLSTM一共三层，每层分别有496个前向和后向节点。同时使用Adam学习算法，初始学习率为0.0005，dropout比率为0.8。网络训练时输入特征是语音混合的幅度谱，短时傅里叶(STFT)窗口长度为32ms，窗移为16ms。在比较所有分离方法的分离性能时，所有参数均设置一致。

2.麦克风阵列及说话人候选位置

本实验直接利用采样点延迟的方式生成多通道仿真数据，具体参数如图3所示。麦克风阵列式一个带有6个传感器的环形均匀阵列，阵列半径是0.1m，一共有8个候选位置，从-180度到180度，相邻位置之间的角度是45度，且位于距离麦克风阵列中心2m的圆弧上。麦克风阵列中心和说话人位于同一高度。

3.评估准则

实验结果评估利用的是信号失真比(SDR,Source to Distortion Ratio)，短时目标可懂度(STOI,Short Time Objective Intelligibility)和语音质量感知评估(PESQ,Perceptual Evaluation of Speech Quality)，SDR越高表示分离效果越好，后两个是语音可懂度的指标，越高表示分离后的语音可懂度越高。

4.对比方法

本实验的基线方法是单通道PIT和多通道PIT。单通道和本实验方法输入给深度神经网络的都是目标说话人语音的幅度谱。对于多通道PIT而言，输入特征除了幅度谱信息外，还加入了空间特征信息，这里使用的是麦克风间相位差信息(IPD)。使用第一个麦克风作为参考，以下IPD作为模型训练的空间特征：

cosIPD(t，f，p，q)＝cos(∠x_t，f，p-∠x_t，f，q)

5.实验结果

在两个说话人的数据集上，我们探究了不同性别组合对于分离效果的影响，同时还比较了另外两种分离方法，分别是单通道和多通道的置换不变训练方法，如表1所示。两说话人混合的单通道和多通道数据原来的SDR是0.1481dB。从表1中可以看到，由于男生和女生声音特质的不同，异性说话人混合音频的分离效果比同性说话人混合音频的分离效果好。同时，可以看到，本发明提出的语音分离系统除了在异性混合时的SDR提升(SDR Imp.)比单通道PIT低以外，其分离的效果(SDR Imp.)和语音可懂度(STOI和PESQ)均比单通道和多通道PIT方法要好。

表1本发明所提出的方法与另外两种分离方法在两个说话人数据集上分离表现

为了进一步验证本发明提出的多说话人语音分离系统的优越性，我们又在三个和四个说话人上做了同样的实验，如表2所示。三个和四个说话人数据集的原始SDR(SDROri.)分别是-2.8122dB和-4.5772dB。可以看到，随着说话人数目的增加，单通道和多通道的PIT方法分离越困难，分离的效果越差，而本发明的SDR Imp.却能一直保持在10dB左右。对比单通道和多通道的PIT方法，单通道PIT在3个和4个说话人上的SDR Imp.为6.45dB和5.20dB，而多通道PIT可以达到7.70dB和6.03dB，可以看出空间特征有助于语音分离。与此同时，本发明提出的多说话人语音分离系统的STOI和PESQ两个语音可懂度指标也均比PIT要好，这再一次证明了本文提出的语音分离系统的优越性。

表2本发明所提出的方法与另外两种分离方法在3/4个说话人数据集上分离表现

尽管为说明目的公开了本发明的具体实施例和附图，其目的在于帮助理解本发明的内容并据以实施，但是本领域的技术人员可以理解：在不脱离本发明及所附的权利要求的精神和范围内，各种替换、变化和修改都是可能的。因此，本发明不应局限于最佳实施例和附图所公开的内容。