CN110619887A

CN110619887A - 一种基于卷积神经网络的多说话人语音分离方法

Info

Publication number: CN110619887A
Application number: CN201910914177.5A
Authority: CN
Inventors: 蓝天; 钱宇欣; 李萌; 刘峤; 彭川; 吕忆蓝; 李森; 惠国强; 叶文政
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2019-09-25
Filing date: 2019-09-25
Publication date: 2019-12-27
Anticipated expiration: 2039-09-25
Also published as: CN110619887B

Abstract

本发明公开一种基于卷积神经网络的多说话人语音分离方法，包括以下步骤：S1：构建基于卷积神经网络的语音分离模型，所述模型包括嵌入生成网络和吸引子估计网络；所述嵌入生成网络用于将时频点从频谱图映射到嵌入空间，所述吸引子网络用于在高维嵌入空间中直接估计每个源的吸引子；S2：使用基于可分离门控卷积神经网络的嵌入生成网络将语谱图中的时频点映射到高维嵌入空间；S3：使用基于门控一维卷积的吸引子估计网络估计每个声源的吸引子。该网络在嵌入维度中完成卷积操作，将时间及频率维度作为通道维度。最后通过在高维空间计算每个吸引子与各个时频点的相似度，得到每个源的时频掩膜。

Description

一种基于卷积神经网络的多说话人语音分离方法

技术领域

本发明属于语音分离技术领域，尤其涉及一种基于卷积神经网络的多说话人语音分离方法。

背景技术

在深度吸引子网络(Deep Attractor Network，DANet)中，在训练阶段，DANet通过双向长短时记忆网络将语谱图中的时频单元映射到高维空间中，通过每个时频单元的真实划分计算出每个源的吸引子并通过计算每个吸引子与各个时频单元的距离得到每个源的时频掩膜。在测试阶段，吸引子由K-means算法得到。由于在测试阶段吸引子的计算方式不同，因此产生了中心不匹配问题(Center mismatch problem)。

发明内容

本发明提供一种基于卷积神经网络的多说话人语音分离方法，旨在解决上述存在的问题。

本发明是这样实现的，一种基于卷积神经网络的多说话人语音分离方法，包括以下步骤：

S1：构建基于可分离门控卷积神经网络，所述神经网络包括嵌入生成网络和吸引子估计网络；所述嵌入生成网络用于将时频点从频谱图映射到嵌入空间，所述吸引子网络用于在高维嵌入空间中直接估计每个源的吸引子；

S2：使用基于可分离门控卷积神经网络的嵌入生成网络将语谱图中的时频点映射到高维嵌入空间；

S3：使用吸引子估计网络估计每个声源的吸引子，通过在高维空间计算每个吸引子与各个时频点的相似度，计算得到每个源的时频掩膜。

进一步的，所述语音分离方法使用多个可分离一维卷积块将语谱图的时频单元映射到一个高维空间。

进一步的，所述语音分离方法使用一维门控卷积构成的吸引子估计网络在高维嵌入空间直接估计吸引子。

进一步的，所述吸引子估计神经网络通过将时间以及频率维度作为卷积操作中的通道维度，在嵌入维度上实现卷积操作，来估计吸引子。

与现有技术相比，本发明的有益效果是：解决了中心不匹配问题，相较于原方法计算速度更快，分离效果更好。

附图说明

图1为本发明网络架构示意图；

图2为本发明中基于EGN的设计卷积块结构图；

图3为本发明结构示意图；

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

实施例

请参阅图1-3，本发明提供一种技术方案：一种基于卷积神经网络的多说话人分离方法，包括以下步骤：

本实施方式中，本发明使用的神经网络整体结构如图1所示，其中，EGN网络由多个如图2所示的可分离门控卷积块堆叠组成；AEN网络由3层门控一维卷积组成。网络详细参数如表1所示：

表1神经网络参数表.k卷积核大小.s步长.d扩张率

经神经网络得到吸引子后，由式

m_i＝Softmax(a_iV)，i＝1，2，...，C

计算得到每个源的时频掩膜。其中a_i是由神经网络得到的多个吸引子中的一个；V为由EGN网络映射得到的嵌入矩阵；C为声源总数。最终将掩膜与语谱图相乘得到分离的语谱图。

试验例

实验分别使用TIMIT train数据集以及LibriSpeech train-clean-100数据集构建了两个混合两人说话的训练数据集，分别使用TIMIT test数据集以及LibriSpeechtest-clean数据集生成测试数据集。混合信噪比介于0-10dB之间，所有音频数据降采样为8kHz。使用包含256个采样点的hamming窗以及64的帧移的STFT来计算语谱图。本发明所公布的网络中的EGN层数根据数据集大小设置为10或20，其余参数设置如表1所示。

实验数据如下：

本发明解决了空间不匹配以及中心不匹配问题，相较于原方法计算速度更快，分离效果更好。

以上仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于卷积神经网络的多说话人语音分离方法，其特征在于，包括以下步骤：

S1：构建基于可分离门控卷积神经网络的语音分离模型，所述模型包括嵌入生成网络和吸引子估计网络；所述嵌入生成网络用于将时频点从频谱图映射到嵌入空间，所述吸引子网络用于在高维嵌入空间中直接估计每个源的吸引子；

2.根据权利要求1所述的多说话人语音分离方法，其特征在于：所述语音分离方法使用多个可分离一维卷积块将语谱图的时频单元映射到一个高维空间。

3.根据权利要求2所述的多说话人语音分离方法，其特征在于：所述语音分离方法使用一维门控卷积构成的吸引子估计网络在高维嵌入空间直接估计吸引子。

4.根据权利要求3所述的多说话人语音分离方法，其特征在于：所述吸引子估计神经网络通过将时间以及频率维度作为卷积操作中的通道维度，在嵌入维度上实现卷积操作，来估计吸引子。