CN111091847A

CN111091847A - 基于并改进的深度聚类语音分离方法

Info

Publication number: CN111091847A
Application number: CN201911252525.3A
Authority: CN
Inventors: 王昕�; 蒋志翔; 张杨; 寇金桥; 常新旭; 徐冬冬; 闫帅; 赵晓燕
Original assignee: Beijing Institute of Computer Technology and Applications
Current assignee: Beijing Institute of Computer Technology and Applications
Priority date: 2019-12-09
Filing date: 2019-12-09
Publication date: 2020-05-01

Abstract

本发明涉及一种基于并改进的深度聚类语音分离方法，其中，包括：步骤一：混合实验数据，提取对数功率谱特征；步骤二：搭建改进的深度聚类语音分离模型，并用训练集进行模型训练；步骤三：将测试集混合语音通过步骤二训练好的深度聚类语音分离模型得出嵌入空间向量v_i，对其在嵌入子空间上通过meanshift聚类方法聚类，将得到的结果作为训练目标理想二值掩蔽值，利用理想二值掩蔽值与输入语音信号特征计算得出分离出的两个语音信号的特征估计；步骤四：波形重构，恢复语音信号。本发明改进当前基于深度聚类的语音分离方法，使其在低信噪比混合语音输入的情况下效果得到提升。

Description

基于并改进的深度聚类语音分离方法

技术领域

本发明涉及语音分离技术领域，特别涉及一种基于并改进的深度聚类语音分离方法。

背景技术

“鸡尾酒会问题”在语音分离任务上一直是一个难题，主要因为这个问题属于一个说话人无关的语音分离问题，对于说话人事先不知道其先验信息。通过参考Jonathan等人提出的基于理想二值掩蔽的深度聚类方法(deep-clustering)，本发明在其基础上将聚类方法进行了改进，使用双向长短时记忆网络模型和均值漂移聚类，并在TIMIT语音数据集下进行了实验。最终分离效果显示，在低输入信噪比情况下，分离效果较之前模型有提高。

语音分离一词最初源于“鸡尾酒会问题”，是指从混合的说话人声音中得到想要的目标说话人(一人或多人)的语音信号。在复杂的声音环境下，除了目标说话人的声音以外，通常还伴有其他人的说话声音，干扰人的语音信号会严重影响目标说话人的语音识别性能，这时候便需要语音分离技术来跟踪目标语音并且抑制干扰，从而进一步通过一系列的方法得到想要的语音信息。

目前随着深度学习领域的迅速发展，以深度神经网络(DNN)为代表的深度模型也逐渐被用来解决语音分离问题。将IBM作为分离目标的深度模型是将混合语音信号进行大量训练得出混合信号到时频掩蔽值的一个映射，从而进一步从混合信号中分离出我们想要的目标信号。这类方法在已知说话人先验信息的情况下，通过已知语音训练得出的结果会有较高的准确率，但是在未知说话人先验信息即说话人无关情况下的语音分离问题上效果并不理想。

Jonathan Le Roux等人提出了一种以IBM作为分离目标通过深度聚类的方法来解决说话人无关语音分离问题，这种方法可以将语音特征映射到一个新的嵌入子空间中，然后通过聚类算法得出时频掩蔽目标，最终通过计算得出目标语音信息，从而也实现了端到端的深度网络训练模型与无监督的聚类模型相结合。但是这种方法在低信噪比情况下分离效果并不算理想，因此提高深度聚类方法在低输入信躁比情况下的语音分离效果非常有必要。

发明内容

本发明的目的在于提供一种基于并改进的深度聚类语音分离方法，用于解决上述现有技术的问题。

本发明一种基于并改进的深度聚类语音分离方法，其中，包括：步骤一：混合实验数据，提取对数功率谱特征；步骤二：搭建改进的深度聚类语音分离模型，并用训练集进行模型训练；步骤三：将测试集混合语音通过步骤二训练好的深度聚类语音分离模型得出嵌入空间向量v_i，对其在嵌入子空间上通过meanshift聚类方法聚类，将得到的结果作为训练目标理想二值掩蔽值，利用理想二值掩蔽值与输入语音信号特征计算得出分离出的两个语音信号的特征估计；步骤四：波形重构，恢复语音信号。

根据本发明的基于并改进的深度聚类语音分离方法的一实施例，其中，步骤一包括：将原始的说话人语音数据按采样频率SR＝8000Hz采样；按照不同的输入信噪比，随机两两混合说话人语音，构成混合说话人语音训练集、验证集和测试集；提取混合语音对数功率谱特征。

根据本发明的基于并改进的深度聚类语音分离方法的一实施例，其中，计算对数功率谱时的帧长为256个点，帧移为64个点，所计算出的特征维度为129。

根据本发明的基于并改进的深度聚类语音分离方法的一实施例，其中，步骤二具体包括：采用BLSTM网络来训练混合说话人语音信息，在BLSTM网络中，前向和后向LSTM网络分别包含300个神经元，整个网络由两个双向长短时记忆网络和两个前馈层组成，最终通过simoid函数连接到输出层；

首先将输入信号的复数频率谱的特征向量定义为：

X_i＝X_t，f，i∈{1，...，N}；

其中，t和f分别表示信号的帧和频率的索引值，为了估计时频谱上的分割结果，选取一种使得嵌入后的结果在新的空间上和目标最接近的方式；

通过BLSTM网络训练得出：

V＝f_θ(X)

其中V表示嵌入空间向量。

根据本发明的基于并改进的深度聚类语音分离方法的一实施例，其中，将步骤三所得到的分离后的语音的特征估计，通过傅里叶逆变换重构时域波形信号，最终得到分离后的语音信号。

本发明改进当前基于深度聚类的语音分离方法，使其在低信噪比混合语音输入的情况下效果得到提升。

附图说明

图1为深度聚类模型示意图；

图2为BLSTM网络模型示意图。

具体实施方式

为使本发明的目的、内容、和优点更加清楚，下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。

图1为深度聚类模型示意图；图2为BLSTM网络模型示意图，如图1以及图2所示，本发明提出了一种改进的深度聚类语音分离方法。由于人类在听觉感知的过程中存在掩蔽效应，能量较弱的信号会被能量较高的信号所掩蔽。根据这一效应，我们可以把理想二值掩蔽作为一个估计目标，在低输入信躁比的情况下，使大量混合说话人语音通过双向长短时记忆网络模型训练后再进行均值漂移聚类得出这个目标并且把它作为参数与混合语音通过计算得出分离后的语音即我们想要的语音。具体流程如下：

步骤一：混合实验数据，提取对数功率谱特征

将原始的说话人语音数据按采样频率SR＝8000Hz采样

按照不同的输入信噪比，随机两两混合说话人语音，构成混合说话人语音训练集、验证集和测试集。

提取混合语音对数功率谱特征，计算对数功率谱时的帧长为256个点，帧移为64个点，所计算出的特征维度为129。

步骤二：搭建改进的深度聚类语音分离模型并用训练集进行模型训练

在本发明中，采用BLSTM网络来训练混合说话人语音信息，网络模型如图2所示，在该BLSTM网络中，前向和后向LSTM网络分别包含300个神经元，整个网络由两个双向长短时记忆网络和两个前馈层组成，最终通过simoid函数连接到输出层。由于输入的WAV文件通过一系列变换取对数，得到音频的对数功率谱，它是一个关于音频的时频信息特征，将这一特征通过训练网络可以将每个时频特征的时频单元(TF-bin)结合它的前后相关信息映射到一个新的特征子空间上，生成频谱嵌入向量(Spectrogram Embeddings)，通过网络可以使模型学习输入特征映射到到嵌入向量的过程，在这个新的子空间中属于同一说话人的时频单元距离更小，这样这些嵌入向量便可以更好地聚类到一起，为下一步的聚类过程提供便利性。

首先将输入信号的复数频率谱的特征向量定义为：

X_i＝X_t，f，i∈{1，...，N}

其中，t和f分别表示信号的帧和频率的索引值，为了估计时频谱上的分割结果，选取一种使得嵌入后的结果在新的空间上和目标最接近的方式

通过BLSTM网络训练得出：

V＝f_θ(X)

其中V表示嵌入空间向量

步骤三：将嵌入空间向量通过meanshift聚类得出掩蔽值并计算出分离信号

将测试集混合语音通过步骤二训练好的模型得出嵌入空间向量v_i，对其在嵌入子空间上通过meanshift聚类方法将其聚类，将得到的结果作为训练目标理想二值掩蔽值。利用理想二值掩蔽值与输入语音信号特征计算得出分离出的两个语音信号的特征估计。

步骤四：波形重构，恢复语音信号

将步骤三所得到的分离后的语音的特征估计，通过傅里叶逆变换(ISTFT)重构时域波形信号，最终得到分离后的语音信号。

实施例一

实施例一所使用的语音实验数据来自TIMIT语料库，TIMIT是1993年由MIT创立的、适用于语音识别、说话人分类等的经典语料库，其数据集的语音采样频率为8kHz，一共包含6300个句子，由来自美国八个主要方言地区的630个人每人说出给定的10个句子，所有的句子都在音素级别(phone level)上进行了手动分割和标记，70％的说话人是男性，大多数说话者是成年白人。为了试验在干扰不同情况下的语音分离任务，随机将不同说话人的两条语音分别以信噪比SNR＝-10dB、-5dB、0dB、5dB混合来形成训练集、验证集以及测试集，这样可以模拟干扰强和弱的不同环境下的实验条件，每个数据集使用的混合数据不同于其他数据集，这样便形成说话人无关环境。将两个不同说话人的语音混合后的音频信号当作混合音频，以采样频率为8000Hz对混合音频采样，每隔256个采样点分为一帧，帧移为128个采样点，通过汉宁窗，最后通过STFT得到对数功率谱特征。

训练时的参数选择为训练次数epoch＝100，学习率＝0.001，每训练10次通过验证集进行验证。

为了验证本发明的性能，本发明通过与原深度聚类方法进行对比，原方法为BLSTM网络训练，再通过K-means方法聚类。

本发明的评价标准采用局部信噪比(scale-invariant SNR)的提升量来衡量，由分离后的目标语音信噪比与初始混合语音信噪比两项计算得出。信噪比提升量越大，说明分离的目标说话人信号相对与另一说话人信号的占比越高，相对分离效果也越好。

由表一可以看出，在四组不同输入混合语音信噪比的情况下在低信噪比时，本发明提出的改进深度聚类的说话人语音分离方法较原有模型在局部信噪比的提升量有明显的提升，可以证明本发明实现了在低输入信噪比的情况下，深度聚类的语音分离效果得到了明显提升。

表1

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种基于并改进的深度聚类语音分离方法，其特征在于，包括：

步骤一：混合实验数据，提取对数功率谱特征；

步骤二：搭建改进的深度聚类语音分离模型，并用训练集进行模型训练；

步骤三：将测试集混合语音通过步骤二训练好的深度聚类语音分离模型得出嵌入空间向量v_i，对其在嵌入子空间上通过meanshift聚类方法聚类，将得到的结果作为训练目标理想二值掩蔽值，利用理想二值掩蔽值与输入语音信号特征计算得出分离出的两个语音信号的特征估计；

步骤四：波形重构，恢复语音信号。

2.如权利要求1所述的基于并改进的深度聚类语音分离方法，其特征在于，步骤一包括：

将原始的说话人语音数据按采样频率SR＝8000Hz采样；

按照不同的输入信噪比，随机两两混合说话人语音，构成混合说话人语音训练集、验证集和测试集；

提取混合语音对数功率谱特征。

3.如权利要求2所述的基于并改进的深度聚类语音分离方法，其特征在于，计算对数功率谱时的帧长为256个点，帧移为64个点，所计算出的特征维度为129。

4.如权利要求1所述的基于并改进的深度聚类语音分离方法，其特征在于，步骤二具体包括：采用BLSTM网络来训练混合说话人语音信息，在BLSTM网络中，前向和后向LSTM网络分别包含300个神经元，整个网络由两个双向长短时记忆网络和两个前馈层组成，最终通过simoid函数连接到输出层；

首先将输入信号的复数频率谱的特征向量定义为：

X_i＝X_t，f，i∈{1，...，N}；

通过BLSTM网络训练得出：

V＝f_θ(X)

其中V表示嵌入空间向量。

5.如权利要求1所述的基于并改进的深度聚类语音分离方法，其特征在于，将步骤三所得到的分离后的语音的特征估计，通过傅里叶逆变换重构时域波形信号，最终得到分离后的语音信号。