CN112951264B

CN112951264B - 一种基于混合式概率模型的多通道声源分离方法

Info

Publication number: CN112951264B
Application number: CN201911257725.8A
Authority: CN
Inventors: 张鹏远; 陈航艇; 颜永红
Original assignee: Institute of Acoustics CAS; Beijing Kexin Technology Co Ltd
Current assignee: Institute of Acoustics CAS; Beijing Kexin Technology Co Ltd
Priority date: 2019-12-10
Filing date: 2019-12-10
Publication date: 2022-05-17
Anticipated expiration: 2039-12-10
Also published as: CN112951264A

Abstract

本发明公开了一种基于混合式概率模型的多通道声源分离方法，所述方法包括：计算待分离的多声源信号的短时傅里叶频谱，基于预先建立的深度聚类网络提取每个时频点的声源嵌入向量；将声源嵌入向量输入混合式概率模型，利用期望最大化算法迭代混合式概率模型，模型收敛后输出每个时频点的各声源出现概率；利用各声源出现概率计算噪声能量密度矩阵和目标声源导向矢量；计算波束形成系数；利用短时傅里叶频谱、各声源出现概率和波束形成系数，还原各声源对应的增强后信号的频谱。

Description

一种基于混合式概率模型的多通道声源分离方法

技术领域

本发明涉及语音分离领域，特别涉及一种基于混合式概率模型的多通道声源分离方法。

背景技术

多通道语音分离是从输入的包含有多个说话人的多通道音频中分离出不同的说话人，能够直接地提升语音的可懂度，有利于包括语音识别在内的后端处理。

传统的多通道语音分离方法一般是基于空间信息，当说话人稀疏地分布在空间中的不同位置，可以有效地分离不同方向的声源，但是无法分离聚集在一起的说话人。

发明内容

本发明的目的在于克服传统多通道声源分离中过度依赖于空间信息，无法分离分布于同一位置说话人的问题，通过引入混合式概率模型，同时建模说话人频谱信息和空间信息，提出了一种基于混合式概率模型的多通道声源分离方法，在遇到未出现过的说话人时也能起到分离的效果。

为了实现上述目的，本发明提供了一种基于混合式概率模型的多通道声源分离方法，所述方法包括：

计算待分离的多声源信号的短时傅里叶频谱，基于预先建立的深度聚类网络提取每个时频点的声源嵌入向量；

将声源嵌入向量输入混合式概率模型，利用期望最大化算法迭代混合式概率模型，模型收敛后输出每个时频点的各声源出现概率；

利用各声源出现概率计算噪声能量密度矩阵和目标声源导向矢量；

计算波束形成系数；

利用短时傅里叶频谱、各声源出现概率和波束形成系数，还原各声源对应的增强后信号的频谱。

作为上述方法的一种改进，所述深度聚类网络包括2层双向长短时记忆网络，1层随机失活，1层线性层和1层非线性层；该网络的输入为音频信号的对数能量谱声学特征,所述双向长短时记忆网络每个方向包括600个神经元，随机失活的系数为0.5，线性层输入为1200维，输出为20维，最后一层的非线性层输出嵌入向量，使用双曲正切函数，其表达式为：

其中，x是非线性层的输入；

将嵌入向量归一化为单位向量，其表达式为：

其中，

为归一化前的向量，

为计算

的2范数，

为输出的归一化后的嵌入向量。

作为上述方法的一种改进，所述方法还包括对深度聚类网络进行训练的步骤，具体包括

构建训练深度聚类网络的训练样本集；

提取训练样本集的音频信号的对数能量谱声学特征，并计算均值方差系数，对其做归一化：

对每个通道的语音分别分帧加窗、对每一帧计算傅里叶变换得到频谱、计算频谱的对数能量、将各个通道的特征堆叠；此特征的维度为T×M×F，其中M为通道数，T为帧数，由窗长和窗移决定，F为频点数，等于傅里叶变换长度的一半加1；

深度聚类网络的学习目标为关联矩阵U＝(u_ij)_{1≥i＜TF,1≤j＜TF}，其每个元素u_ij代表第i个和第j个时频点是否属于同一个声源，如果属于同一个声源则等于1，否则为0；深度聚类网络的输出为V＝(v_ij)_{1≤i＜TF,1≤j＜TF}，其中

和

分别为第i个和第j个时频点对应的嵌入向量，(·)^T为矩阵转置；

深度聚类网络的损失函数为：

根据上述损失函数更新深度聚类网络的参数；不断迭代直至深度聚类网络收敛；得到训练好的深度聚类网络。

作为上述方法的一种改进，所述计算待分离的多声源信号的短时傅里叶频谱，基于预先建立的深度聚类网络提取每个时频点的声源嵌入向量；

利用已经训练好的深度聚类网络，提取每一个时频点f,t对应的声源嵌入向量

和相应的短时傅里叶频谱

1≤t<T,1≤f<F；其中声源嵌入向量

是大小为20维的实数向量，短时傅里叶频谱

是大小的M维的复数向量。

5、根据权利要求4所述的基于混合式概率模型的多通道声源分离方法，其特征在于，所述混合概率模型包括冯米塞斯费舍尔混合模型和复数高斯混合模型，其中冯米塞斯费舍尔混合模型的表达式为：

为米塞斯费舍尔混合模型的输出值，

为修改后的贝塞尔函数，d为向量维度：d＝20；

代表聚合度，

代表聚类中心，C是混合模型的聚类数量，为声源的个数，f代表频率；

所述复数高斯混合模型的表达式为：

其中，

为复数高斯混合模型的输出值，

为音频信号的强度，

为空间关联矩阵，

为复数高斯分布；

则混合式概率模型的表达式为：

其中，

为混合式概率模型的输出值，

是先验系数，v是插值系数，取值为0.2。

作为上述方法的一种改进，所述将声源嵌入向量输入混合式概率模型，利用期望最大化算法迭代混合式概率模型，模型收敛后输出每个时频点的各声源出现概率；具体包括：

每一次迭代包括期望和最大化两个步骤，其中期望步骤的表达式为：

其中，

为估计的声源在时频点上的概率；

最大化步骤的表达式为：

其中，

为归一化前的聚类中心，

为归一化后的聚类中心，

代表聚合度，

为语音的方差，

为空间关联矩阵，tr(·)为求矩阵的迹，(·)^H为厄密转置；

迭代完成后，输出的每个时频点的声源出现概率为

作为上述方法的一种改进，所述利用各声源出现概率计算噪声能量密度矩阵和目标声源导向矢量，具体包括：

利用各声源出现概率

计算噪声能量密度矩阵

c＝噪声

目标声源导向矢量r_f为

的对应于特征值分解最大的特征向量，其中c＝目标声源。

作为上述方法的一种改进，所述计算波束形成系数，具体为：

利用以下公式计算最小方差无失真滤波器的系数，作为波束形成系数ω_f：

作为上述方法的一种改进，利用短时傅里叶频谱、各声源出现概率和波束形成系数还原增强后信号的频谱，具体包括：

计算目标指向的信号y_ft：

将各声源出现概率作为后滤波的滤波器，得到增强后的频谱：

c＝目标声源

然后通过逆傅里叶变换和重叠相加法恢复语音信号，此语音信号即为还原的目标声源信号。

本发明还提出了一种基于混合式概率模型的多通道声源分离系统，所述系统包括：深度聚类网络、混合式概率模型、声源嵌入向量提取模块、各声源出现概率计算模块和声源分离模块；

所述声源嵌入向量提取模块，用于计算待分离的多声源信号的短时傅里叶频谱，基于所述深度聚类网络提取每个时频点的声源嵌入向量；

所述各声源出现概率计算模块，用于将声源嵌入向量输入所述混合式概率模型，利用期望最大化算法迭代混合式概率模型，模型收敛后输出每个时频点的各声源出现概率；

所述声源分离模块，用于利用各声源出现概率计算噪声能量密度矩阵和目标声源导向矢量，计算波束形成系数；利用短时傅里叶频谱、各声源出现概率和波束形成系数，还原各声源对应的增强后信号的频谱。

本发明的优点在于：

1、本发明的方法通过混合式概率模型同时建模空间信息和说话人的频谱强度信息，通过期望最大化算法完成聚类，然后利用波束形成和后滤波实现不同说话人的分离；

2、在本发明的方法中，不仅空间信息被建模，也建模了说话人的频谱强度信息，同时引入了多通道的空间信息和多说话人的频谱信息，组成了一种冗余的表示，使用混合式概率模型，能够较好地预测不同说话人的语音出现概率。结合波束形成和后滤波，能够得到较为干净的分离后的说话人语音。

附图说明

图1是本发明的基于混合式概率模型的多通道声源分离方法的流程图。

具体实施方式

下面结合附图对本发明的技术方案作进一步的描述。

本发明提出一种基于混合式概率模型的多通道声源分离方法，包括：提取对数能量谱特征，并对其做归一化；训练深度聚类网络；计算短时傅里叶频谱和利用深度聚类网络提取声源嵌入向量；搭建混合式概率模型；利用期望最大化算法更新混合式概率模型的参数，输出每一个频点的声源出现概率；计算能量密度矩阵和目标声源导向矢量；计算波束形成系数；最后利用波束形成系数和声源出现概率还原增强后的频谱。

如图1所示，一种基于混合式概率模型的多通道声源分离方法，包括以下步骤：

步骤101)、对用来训练深度聚类的音频提取对数能量谱声学特征，并计算均值方差系数，对其做归一化；

提取对数能量谱声学特征的步骤为：对每个通道的语音分别分帧加窗、对每一帧计算傅里叶变换得到频谱、计算频谱的对数能量、将各个通道的特征堆叠。此特征的维度为T×M×F，其中M为通道数，T为帧数，由窗长和窗移决定，F为频点数，一般为傅里叶变换长度的一半加1。

步骤102)、构建深度聚类网络，以归一化的声学特征作为输入，以频点间的关联矩阵作为训练目标，训练神经网络。

深度聚类网络包括2层双向长短时记忆网络(BLSTM)，1层随机失活(dropout)，1层线性层和1层非线性层。其中网络输入为T×M×F,双向长短时记忆网络每个方向包括600个神经元，随机失活的系数为0.5，线性层输入为1200维，输出为20维，最后一层的非线性函数输出嵌入向量，使用双曲正切函数，其表达式为

最后网络将嵌入向量归一化为单位向量，其表达式为

其中||·||为计算2范数，

最后输出的归一化的嵌入向量。

深度聚类网络的学习目标为关联矩阵U＝(u_ij)_{1≤i＜TF,1≤j＜TF}，其每个元素u_ij代表第i个和第j个时频点是否属于同一个声源，如果属于同一个声源则等于1，否则为0。深度聚类网络的输出为V＝(v_ij)_{1≤i＜TF,0≤j＜TF}，其中

(·)^T为矩阵转置。网络的损失函数为

和

神经网络根据此损失函数更新参数。

步骤103)、计算短时傅里叶频谱，并且基于步骤102)的深度聚类网络提取每个时频点的声源嵌入向量；

利用已经训练好的深度聚类提取每一个时频点对应的声源嵌入向量

和相应的短时傅里叶频谱

其中前者是大小为20维的实数向量，后者是大小的M维的复数向量，M为通道数。

步骤104)、构建混合式概率模型，以步骤103)中获得的向量作为混合冯米塞斯费舍尔模型和复数混合高斯模型的输入；

其中冯米塞斯费舍尔混合模型的表达式为

为米塞斯费舍尔混合模型的输出值，

为修改后的贝塞尔函数，d为向量维度：d＝20；

代表聚合度，

所述复数高斯混合模型的表达式为：

其中，

为复数高斯混合模型的输出值，

为音频信号的强度，

为空间关联矩阵，

为复数高斯分布；

那么混合式概率模型的表达式为

其中，

为混合式概率模型的输出值，

是先验系数，一般可以设置为1或者预先由神经网络生成，v是插值系数，取值为0.2。

步骤105)、利用期望最大化算法迭代混合式概率模型，模型收敛后输出每个时频点的声源(说话人)出现概率。

每一个迭代包括期望和最大化两个步骤，其中期望步骤的表达式

其中，

为估计的声源在时频点上的概率；

其中最大化步骤的表达式为

其中，

为归一化前的聚类中心，

为归一化后的聚类中心，

代表聚合度，

为语音的方差，

为空间关联矩阵，tr(·)为求矩阵的迹，(·)^H为厄密转置；

最后输出的每个时频点的声源出现概率为期望步骤的输出

步骤106)、利用步骤105)的概率计算噪声能量密度矩阵和目标声源导向矢量。

利用步骤105)的声源出现概率计算能量密度矩阵

c＝噪声

导向矢量r_f为

的对应于特征值分解最大的特征向量,c＝目标声源。

步骤107)、计算波束形成系数。

利用以下公式计算最小方差无失真滤波器(MVDR)的系数，作为波束形成系数ω_f：

步骤108)、利用步骤107)的波束形成系数、步骤105)的声源出现概率和步骤103)的短时傅里叶频谱还原增强后的频谱；

计算目标指向的信号y_ft：

c＝目标声源

最后所应说明的是，以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，对本发明的技术方案进行修改或者等同替换，都不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于混合式概率模型的多通道声源分离方法，所述方法包括：

计算波束形成系数；

2.根据权利要求1所述的基于混合式概率模型的多通道声源分离方法，其特征在于，所述深度聚类网络包括2层双向长短时记忆网络，1层随机失活，1层线性层和1层非线性层；该网络的输入为音频信号的对数能量谱声学特征，所述双向长短时记忆网络每个方向包括600个神经元，随机失活的系数为0.5，线性层输入为1200维，输出为20维，最后一层的非线性层输出嵌入向量，使用双曲正切函数，其表达式为：