CN112017686A

CN112017686A - 基于门控递归融合深度嵌入式特征的多通道语音分离系统

Info

Publication number: CN112017686A
Application number: CN202010985342.9A
Authority: CN
Inventors: 范存航; 温正棋
Original assignee: Zhongke Extreme Element Hangzhou Intelligent Technology Co Ltd
Current assignee: Zhongke Extreme Element Hangzhou Intelligent Technology Co Ltd
Priority date: 2020-09-18
Filing date: 2020-09-18
Publication date: 2020-12-01
Anticipated expiration: 2040-09-18
Also published as: CN112017686B

Abstract

本发明公开了基于门控递归融合深度嵌入式特征的多通道语音分离系统，包括门控递归融合模块、深度嵌入式特征提取模块、语音分离模块、区分性训练模块和联合训练模块，门控递归融合模块，将空间信息和幅值谱信息进行深度融合，输出门控递归融合特征；深度嵌入式特征提取模块，通过深度嵌入式特征损失目标函数，从门控递归融合特征中提取更具有区分性的深度嵌入式特征；语音分离模块，将深度嵌入式特征分离，得到每个源目标语音信号；区分性训练模块，通过区分后的源目标语音信号得到区分性损失目标函数；联合训练模块，通过对区分性损失目标函数和深度嵌入式特征损失目标函数的联合训练。

Description

基于门控递归融合深度嵌入式特征的多通道语音分离系统

技术领域

本发明涉及信号处理技术领域，尤其是涉及了基于门控递归融合深度嵌入式特征的多通道语音分离系统。

背景技术

语音作为人类交流信息的主要手段之一，语音分离一直在语音信号处理中占据着重要的地位。语音分离又被称为鸡尾酒会议问题其目标是从含有多个混合说话人的语音信号中将每个目标源语音信号分离出来。当一段语音中同时含有多个说话人时，会严重影响语音识别、说话人识别和助听器等系统的性能，因此语音分离技术就显得尤其重要。在语音分离技术的发展过程中，目前很多基于深度学习的语音分离方法取得了很好的效果，比如深度聚类算法、排列不变性训练准则和Conv-TasNet等。但是这些都是单通道的语音分离方法，他们没有办法利用语音的空间信息。对于麦克风阵列，他们包含了每个源信号的方向信息。所以，对于多通道语音分离来说，可以利用麦克风阵列提供的空间信息来进一步提升语音分离的性能。

为了利用空间信息，也有很多工作去处理解决多通道语音分离问题，比如多通道深度聚类算法(MDC)。MDC是将单通道的深度聚类算法(DC)给扩展到多通道领域。MDC首先利用通道间的相位差(IPDs)作为附属空间信息，然后将其与幅值谱特征拼接到一起作为多通道语音分离的输入特征。然后，通过深度神经网络将输入特征映射到一个高维的深度嵌入式空间中。此时，深度神经网络相当于一个映射函数，对于任意输入的混合语音信号都可以通过该映射函数来输出高维的深度嵌入式向量。最后，利用K-均值(K-means)聚类算法对该深度嵌入式向量进行聚类，以此来估计出目标语音信号的二值掩蔽值(IBM)。尽管MDC可以很好的将混合语音分离出来，但是它还是会存在两个主要的缺点。第一，MDC仅将空间信息作为一个附属特征拼接到幅值谱特征上，这样做很难学习到空间和幅值谱之间的互信息，并且IPDs和幅值谱特征的分布不同，这样做也不利于网络的学习和优化。第二，MDC的训练目标函数是定义在深度嵌入式向量上，而不是在真正的分离目标上，这些深度嵌入式向量并不能很完美的表示目标语音，因此会损害语音分离的性能。

发明内容

为解决现有技术的不足，实现多人和多通道下高质量语音分离的目的，本发明采用如下的技术方案：

基于门控递归融合深度嵌入式特征的多通道语音分离系统，包括：门控递归融合模块、深度嵌入式特征提取模块、语音分离模块、区分性训练模块和联合训练模块，门控递归融合模块，将空间信息和幅值谱信息进行深度融合，输出门控递归融合特征；深度嵌入式特征提取模块，通过深度嵌入式特征损失目标函数，从门控递归融合特征中提取更具有区分性的深度嵌入式特征；语音分离模块，基于句子级别的排列不变性训练准则进行语音分离，将深度嵌入式特征分离，得到每个源目标语音信号；区分性训练模块，通过区分后的源目标语音信号得到区分性损失目标函数，从而达到区分训练和提升语音分离性能的目的；联合训练模块，通过对区分性损失目标函数和深度嵌入式特征损失目标函数的联合训练，优化门控递归融合模块、深度嵌入式特征提取模块和语音分离模块，进一步提高语音分离的音质和可懂度。

所述门控递归融合模块，使用通道间的相位差的正弦和余弦值作为空间信息特征，具体流程为：

h′_p＝r⊙h_p

r是重置门，z是更新门，σ表示sigmoid函数，W_r和W_z是重置门和更新门的权重，h_p是隐状态，

是空间信息特征，⊙表示元素间的乘积，

是记忆细胞，W_h是权重，h_q即f^GRF表示门控递归融合特征：

f^GRF＝GRF(r_θ，r_y)

混合语音的幅值谱经深度神经网络提取得到幅值谱特征r_y，空间信息特征

和幅值谱特征r_y交替利用门控递归融合模块完成深度的结合。

所述深度嵌入式特征提取模块，对输入的混合语音信号进行短时傅里叶变换，将时域信号变换到频域信号，然后对其进行建模，获得更具有区分性的深度嵌入式特征，深度嵌入式特征采用深度神经网络训练得到：

N_m表示麦克风阵列的通道数，训练损失目标函数为：

J_DC表示深度嵌入式特征的损失目标函数，V是深度嵌入式特征，

表示实数，B表示每一个时频块的源对应关系，TF指经过傅里叶变换后的时频块，C是混合说话人的个数，

表示平方Frobenius范数。

所述语音分离模块，利用深度嵌入式特征V进行语音分离，分离的输出为估计的理想相位敏感掩蔽值

f_γ(*)表示基于深度神经网络的非线性映射函数，对于语音分离模块的训练方向为：

J_φ(s)表示对应排列组合的损失函数，|Y|表示混合语音的幅值谱，|X_s|表示目标源s的幅值谱，θ_y和θ_s分别表示混合语音和目标源s的相位，利用混合的幅值谱|Y|与相位敏感掩蔽值

相乘得到估计的目标语音的幅值谱，在估计的幅值谱和真实的幅值谱之间计算均方误差；

所述句子级别的排列不变性训练准则是指对神经网络输出的各个目标语音信号X_s进行排列组合，分别计算对应的均方误差，选择最小的作为训练的目标函数，优化整个网络，训练目标函数为：

P表示所有可能的排列组合，φ^*表示最优的排列组合。

所述区分性训练模块，其损失目标函数为：

α≥0表示区分性学习的正则化参数。

所述联合训练模块，总的训练目标函数为：

J＝λJ_DC+(1-λ)J_DL

λ表示深度嵌入式特征提取模块和语音分离模块的权重，最终通过联合训练的方式优化整个语音分离系统。

训练完成后，将麦克风阵列提供的空间信息和幅值谱信息作为输入，依次通过门控递归融合模块和深度嵌入式特征提取模块，由语音分离模块输出分离后的语音。

本发明的优势和有益效果在于：

本发明中利用门控递归融合算法去深度的融合空间信息和幅值谱信息，将二者看成两个模态，从而更好的学习二者之间的互信息，充分利用麦克风提供的空间信息进行语音分离；利用深度聚类算法训练一个深度嵌入式特征提取器，获得一个具有区分性的深度特征，从而提升语音分离系统对每个说话人的区分性；在区分性训练模块，利用区分性学习，增大不同说话人之间的距离，同时减小相同说话人之间的距离，从而降低了分离后的语音再次混合的目的，提高了语音分离系统的性能；在联合训练模块，采用联合优化深度嵌入式特征提取模块与基于句子级别的排列不变性训练准则的语音分离模块，在获得具有区分性的深度嵌入式特征的同时也保证了语音分离的性能，使分离后的语音比单独基于深度聚类和排列不变性训练准则的方法更加清晰、易懂，音质更好。

附图说明

图1是本发明的系统流程图。

图2是本发明中门控递归融合模块的输入输出流程图。

图3是本发明中深度嵌入式特征提取模块的输入输出流程图。

图4是本发明中语音分离模块的输入输出流程图。

图5是本发明中区分性训练模块的输入输出流程图。

图6是本发明中联合训练模块的输入输出流程图。

具体实施方式

以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本发明，并不用于限制本发明。

如图1所示，基于门控递归融合深度嵌入式特征的多通道语音分离系统，包括门控递归融合模块、深度嵌入式特征提取模块、语音分离模块、区分性训练模块和联合训练模块，门控递归融合(GRF，Gated recurrent fusion)模块，将麦克风阵列提供的空间信息和幅值谱信息作为两个模态，用于深度融合空间信息和幅值谱特征，输出门控递归融合特征；深度嵌入式特征提取模块，与门控递归融合模块通信连接，作为深度嵌入式特征的提取器，从深度融合后的特征中获得更具有区分性的深度特征表示；语音分离模块，与深度嵌入式特征提取模块通信连接，基于句子级别的排列不变性训练准则(uPIT)进行语音分离，将深度嵌入式特征分离得到每个源目标语音信号；区分性训练模块，与语音分离模块通信连接，用于区分训练不同的说话人，即减小相同说话人之间的距离，增大不同说话人之间的距离，从而达到区分训练和提升语音分离性能的目的；联合训练模块，通过对区分性损失目标函数和深度嵌入式特征损失目标函数的联合训练，优化门控递归融合模块、深度嵌入式特征提取模块和语音分离模块，进一步提高语音分离的音质和可懂度。训练完成后，将麦克风阵列提供的信息作为输入，依次通过门控递归融合模块和深度嵌入式特征提取模块，由语音分离模块输出分离后的语音。

如图2所示，门控递归融合模块，使用通道间的相位差(IPDs)的正弦和余弦值作为空间信息，具体流程为：

h′_p＝r⊙h_p

其中，r为重置门，z为更新门，σ代表sigmoid函数，W_r和W_z是重置门和更新门的权重，h_p是隐状态，

是空间信息特征(即IPDs的正弦和余弦值)，⊙表示元素间的乘积，

是记忆细胞，W_h代表相应的权重，门控递归融合特征f^GRF表示如下：

h_q＝f^GRF，混合语音的幅值谱|Y|经深度神经网络提取得到幅值谱特征r_y，空间信息特征

和幅值谱特征r_y交替利用门控递归融合模块来完成深度的结合。

如图3所示，深度嵌入式特征提取模块，对输入的混合语音信号进行短时傅里叶变换，将时域信号变换到频域信号，然后对其进行建模，获得更具有区分性的深度嵌入式特征，深度嵌入式特征采用深度神经网络训练得到：

Nm表示麦克风阵列的通道数，训练损失目标函数为：

其中，J_DC表示深度嵌入式特征的损失目标函数，V是深度嵌入式特征，

表示实数，B表示每一个时频块的源对应关系，TF指经过傅里叶变换后的时频块，C是混合说话人的个数，例如：如果源c在时频块tf比其他源的能量都大，那么B_tf，c＝1，否则B_tf，c＝0，

表示平方Frobenius范数。

如图4所示，语音分离模块，利用深度嵌入式特征V进行语音分离，分离的输出为估计的理想相位敏感掩蔽值(IPSM)

其中，f_γ(*)表示基于深度神经网络的非线性映射函数，对于语音分离模块的训练方向为：

其中，J_φ(s)表示对应排列组合的损失函数，

是

的简写，|Y|表示混合语音的幅值谱，|X_s|表示目标源s的幅值谱，θ_y和θ_s分别表示混合语音和目标源s的相位，利用混合的幅值谱|Y|与相位敏感掩蔽值

句子级别的排列不变性训练准则是指对神经网络BLSTM输出的各个源信号，即目标语音信号X_s进行排列组合，分别计算对应的均方误差，选择最小的作为训练的目标函数，优化整个网络，训练目标函数为：

其中，P表示所有可能的排列组合，φ^*表示最优的排列组合。

如图5所示，区分性训练模块，在损失目标函数层面，减小相同说话人之间的均方误差，增大不同说话人之间的均方误差，其损失目标函数为：

其中，α≥0表示区分性学习的正则化参数。

如图6所示，联合训练模块，总的训练目标函数为：

J＝λJ_DC+(1-λ)J_DL

其中，λ表示深度嵌入式特征提取模块和语音分离模块的权重，最终通过联合训练的方式优化整个语音分离系统。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的范围。

Claims

1.基于门控递归融合深度嵌入式特征的多通道语音分离系统，其特征在于包括：门控递归融合模块、深度嵌入式特征提取模块、语音分离模块、区分性训练模块和联合训练模块，门控递归融合模块，将空间信息和幅值谱信息进行深度融合，输出门控递归融合特征；深度嵌入式特征提取模块，通过深度嵌入式特征损失目标函数，从门控递归融合特征中提取更具有区分性的深度嵌入式特征；语音分离模块，基于句子级别的排列不变性训练准则进行语音分离，将深度嵌入式特征分离，得到每个源目标语音信号；区分性训练模块，通过区分后的源目标语音信号得到区分性损失目标函数；联合训练模块，通过对区分性损失目标函数和深度嵌入式特征损失目标函数的联合训练，优化门控递归融合模块、深度嵌入式特征提取模块和语音分离模块。

2.如权利要求1所述的基于门控递归融合深度嵌入式特征的多通道语音分离系统，其特征在于所述门控递归融合模块，使用通道间的相位差的正弦和余弦值作为空间信息特征，具体流程为：