CN110544482B

CN110544482B - 一种单通道语音分离系统

Info

Publication number: CN110544482B
Application number: CN201910865008.7A
Authority: CN
Inventors: 温正棋; 范存航
Original assignee: Beijing Zhongke Zhiji Technology Co ltd
Current assignee: Beijing Zhongke Zhiji Technology Co ltd
Priority date: 2019-09-09
Filing date: 2019-09-09
Publication date: 2021-11-12
Anticipated expiration: 2039-09-09
Also published as: CN110544482A

Abstract

本发明公开了一种单通道语音分离系统，该系统深度嵌入式特征提取模块、语音分离模块、区分性训练模块和联合训练模块，其中，深度嵌入式特征提取模块，用于作为深度嵌入式特征的提取器；语音分离模块，与深度嵌入式特征提取模块相连，是基于句子级别的排列不变性训练准则进行语音分离，训练从深度嵌入式特征到各个目标语音信号的映射模型；区分性训练模块，与语音分离模块相连，用于增大不同说话人之间的距离，同时减小相同说话人之间的距离，提高语音分离的性能；联合训练模块，用于联合训练和优化深度嵌入式特征提取模块与语音分离模块；使用该系统可以提高语音分离的性能，使分离后的语音更加清晰、可懂且音质更好。

Description

一种单通道语音分离系统

【技术领域】

本发明涉及电子行业信号处理技术领域，特别涉及一种单通道语音分离系统。

【背景技术】

语音作为人类交流信息的主要手段之一，语音分离一直在语音信号处理中占据着重要的地位。语音分离技术目标是从同时含有多个说话人的混合语音信号中将各个目标源信号分离出来。当一段语音中同时含有多个说话人时，会严重影响语音识别、说话人识别和助听器等系统的性能，因此语音分离技术就显得尤其重要。在语音分离技术的发展过程中，早期的研究主要是采用基于计算场景分析技术、非负矩阵分解和最小均方误差等语音分离方法。但是，这些方法对于说话人独立的语音分离来说，效果十分有限，因此也制约着这些方法的应用。近年来，随着计算机技术的发展，基于深度学习的语音分离方法得到了很大的发展，受到了越来越多人的关注。

基于深度学习的语音分离方法通过训练分离模型，建立混合语音特征参数与各个源目标语音信号的特征参数之间的映射关系，这样对于任意输入的混合语音信号都可以通过建立的分离模型来输出各个源目标语音信号，从而达到语音分离的目的。采用基于深度学习建模的语音分离方法与传统的方法具有很多优点，比如利用深度学习的学习能力，可以很好的学习到混合语音和目标语音信号之间的映射关系。但是，对于说话人独立的语音分离来说，其最大的难点在于解决排列组合问题，即神经网络的输出排列问题。为了解决这一问题，比较有效的办法是利用排列不变性训练准则或者深度聚类算法。但是采用这些方法仅仅使用幅值谱作为特征，不具有区分性，限制着语音分离的性能。

【发明内容】

本发明的目的在于克服上述现有技术的不足，采用如下技术方案：

一种单通道语音分离系统，包括深度嵌入式特征提取模块、语音分离模块、区分性训练模块和联合训练模块，其中，深度嵌入式特征提取模块，用于作为深度嵌入式特征的提取器；语音分离模块，与深度嵌入式特征提取模块通信连接，是基于句子级别的排列不变性训练准则进行语音分离，训练从深度嵌入式特征到各个目标语音信号的映射模型；区分性训练模块，与语音分离模块通信连接，用于增大不同说话人之间的距离，同时减小相同说话人之间的距离，提高语音分离的性能；联合训练模块，用于联合训练和优化深度嵌入式特征提取模块与区分性训练模块。

进一步地，深度嵌入式特征提取模块用于提取深度嵌入式特征，利用深度神经网络训练得到，其训练目标函数为：

其中，V表示深度嵌入式特征，

TF表示经过傅里叶变换后的时频块，C表示混合说话人的个数，B表示每一个时频块的源对应关系。

进一步地，语音分离模块与深度嵌入式特征提取模块连接，利用深度嵌入式特征将语音进行分离，分离的输出为理想相位敏感掩蔽值(IPSM)

其中，f_γ(*)表示基于深度神经网络的非线性映射函数；

对于语音分离模块的训练方向为：

其中，|Y|表示混合语音的幅值谱，|X_s|表示目标源s的幅值谱，θ_y和θ_s分别表示混合语音和目标源s的相位；

语音分离模块的训练目标函数为：

其中，P表示所有可能的排列组合。

进一步地，区分性训练模块与语音分离模块相连接，用于增大不同说话人之间的距离，同时减小相同说话人之间的距离，其损失函数为：

其中，α≥0表示区分性学习的正则化参数，P表示所有可能的排列组合，φ^*表示语音分离模块的训练目标函数。

进一步地，联合训练模块用于联合训练和优化深度嵌入式特征提取模块与区分性训练模块，其训练目标函数为：

J＝λJ_DC+(1-λ)J_DL

其中，λ表示深度嵌入式特征提取模块和区分性训练模块的权重。

本发明的有益效果：

1、本发明中，利用深度聚类算法训练一个深度嵌入式特征提取器，获得一个具有区分性的深度特征，从而提升了语音分离系统对每个说话人的区分性；

2、本发明中，在区分性训练模块，利用区分性学习即增大不同说话人之间的距离，同时减小相同说话人之间的距离，从而降低了分离后的语音再次混合的目的，因此提高了语音分离系统的性能；

3、本发明中，在联合训练模块，采用联合优化深度嵌入式特征提取模块与区分性训练模块，可以在获得具有区分性的深度嵌入式特征的同时也保证了语音分离的性能。因此，分离后的语音比单独基于深度聚类和排列不变性训练准则的方法更加清晰、可懂，音质更好。

本发明的特征及优点将通过实施例结合附图进行详细说明。

【附图说明】

图1是一种单通道语音分离系统的结构示意图；

图2是一种单通道语音分离系统中深度嵌入式特征提取模块的结构示意图；

图3是一种单通道语音分离系统中语音分离模块的结构示意图；

图4是一种单通道语音分离系统中区分性训练模块的结构示意图；

图5是一种单通道语音分离系统中联合训练模块的结构示意图。

【具体实施方式】

为使本发明的目的、技术方案和优点更加清楚明了，下面通过附图及实施例，对本发明进行进一步详细说明。但是应该理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限制本发明的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本发明的概念。

本发明一种单通道语音分离系统中，构建输入混合语音信号的深度嵌入式特征，利用该特征通过训练基于句子级别的排列不变性训练准则的语音分离模型，从而将混合语音信号分离出来，最后利用区分性训练和联合优化方法进一步提升语音分离的模型性能。

参阅图1，本实施例包括深度嵌入式特征提取模块、语音分离模块、区分性训练模块和联合训练模块，其中，深度嵌入式特征提取模块，用于作为深度嵌入式特征的提取器；语音分离模块，与深度嵌入式特征提取模块通信连接，是基于句子级别的排列不变性训练准则进行语音分离，训练从深度嵌入式特征到各个目标语音信号的映射模型；区分性训练模块，与语音分离模块通信连接，用于增大不同说话人之间的距离，同时减小相同说话人之间的距离，提高语音分离的性能；联合训练模块，用于联合训练和优化深度嵌入式特征提取模块与区分性训练模块。

参阅图2，深度嵌入式特征提取模块对输入的混合语音信号进行短时傅里叶变换，将时域信号变换到频域信号，然后对其进行建模，获得更具有区分性的深度嵌入式特征；深度嵌入式特征提取模块利用深度神经网络训练得到，其训练目标函数为：

其中，V表示深度嵌入式特征，

参阅图3，语音分离模块与深度嵌入式特征提取模块通信连接，用于训练语音分离模型，利用深度嵌入式特征进行语音分离，分离的输出为估计的理想相位敏感掩蔽值(IPSM)

其中，f_γ(*)表示基于深度神经网络的非线性映射函数。

对于语音分离模块的训练方向为：

其中，|Y|表示混合语音的幅值谱，|X_s|表示目标源s的幅值谱，θ_y和θ_s分别表示混合语音和目标源s的相位。

训练目标函数为：

其中，P表示所有可能的排列组合。

参阅图4，区分性训练模块与语音分离模块通信连接，用于增大不同说话人之间的距离，同时减小相同说话人之间的距离，提高语音分离的性能，其损失函数为：

参阅图5，联合训练模块与区分性训练模块通信连接，用于联合优化各个模块，总的训练目标函数为：

J＝λJ_DC+(1-λ)J_DL

其中，λ表示深度嵌入式特征提取模块和区分性训练模块的权重，最终，通过联合训练的方式优化整个语音分离系统。

以上对发明的具体实施方式进行了详细说明，但其只作为范例，本发明并不限制与以上描述的具体实施方式。对于本领域的技术人员而言，任何对该发明进行的等同修改或替代也都在本发明的范畴之中，因此，在不脱离本发明的精神和原则范围下所作的均等变换和修改、改进等，都应涵盖在本发明的范围内。