CN110459240B

CN110459240B - 基于卷积神经网络和深度聚类的多说话人语音分离方法

Info

Publication number: CN110459240B
Application number: CN201910741435.4A
Authority: CN
Inventors: 董兴磊; 胡英; 黄浩
Original assignee: Xinjiang University
Current assignee: Xinjiang University
Priority date: 2019-08-12
Filing date: 2019-08-12
Publication date: 2021-01-12
Anticipated expiration: 2039-08-12
Also published as: CN110459240A

Abstract

本发明公开了一种基于卷积神经网络和深度聚类的多说话人语音分离方法，包括：一、训练阶段：将单通道多说话人混合语音和对应的单说话人语音分别进行分帧、加窗、短时傅里叶变换；将混合语音幅度频谱和单说话人语音幅度频谱作为神经网络模型的输入进行训练；二、测试阶段：将混合语音幅度频谱作为门限扩张卷积深度聚类模型的输入，得到混合频谱中每一个时频单元的高维嵌入向量；用K‑means聚类算法，将向量根据设定的说话人数量分类，再由每个向量对应的时频单元得到每个声源的时频掩蔽矩阵将矩阵分别与混合语音幅度频谱相乘，得到说话人频谱；根据说话人频谱，结合混合语音相位频谱，采用短时傅里叶反变换得到多个分离的语音时域波形信号。

Description

基于卷积神经网络和深度聚类的多说话人语音分离方法

技术领域

本发明涉及单声道语音分离领域，尤其涉及一种基于扩张卷积的卷积神经网络和深度聚类的多说话人语音分离方法，可以实现从单声道多说话人混合语音中分离出两个或三个单一说话人语音时域波形。

背景技术

随着人工智能战略重要性的日益增加，语音作为人机对话的桥梁，强大的语音处理技术必不可少。尽管自动语音识别系统的精度已经超过了许多实际应用的门槛，但要使语音识别系统更加具有鲁棒性以及拥有更广应用范围，有些困难仍有待解决。如鸡尾酒会的问题，即对于多个说话人同时说话或者伴有其他人声的背景噪声，跟踪和识别某指定说话人的语音。尽管人类可以轻易感知声学混合物中的单独源及对应源的声音，但对于计算机来说却是很困难的，特别是当系统只有单通道混合语音信号时。

混合信号是复杂听觉场景中所有声音的总和，在鸡尾酒会环境中，混合信号包含了多个说话人的语音和背景噪声。对于“鸡尾酒会”问题，首要挑战是如何将目标源(这里通常指某指定说话人)声音从混合信号中分离出来。人类通常感兴趣并且能够同时集中于一个或两个声源，因此只需要将这些目标声音从混合声源中分离出来。

当前的解决方案存在以下问题，首先，语音分离模型依赖于说话人，即已经训练的分离模型不能用于新增说话人的语音分离，即仅用于闭集说话人，不能随着增加的说话人或词汇量而扩展；其次，只能分离信号源是不同类型的混合信号(例如，将噪声与说话人分开)，对于信号源是同类型信号的混合信号(诸如多个说话人)则分离效果欠佳；最后，已有源分离模型不能扩展到任意数量的说话人的声音分离，如果用于训练分离模型的样本是两个说话人的混合信号，则该系统模型不能用于三个说话人混合信号的语音分离。

发明内容

本发明提供了一种基于卷积神经网络和深度聚类的多说话人语音分离方法，本发明实现了说话人(声源)无关的语音分离，即使分离的目标说话人语音未经过模型的训练也可以达到较好的语音分离效果，同时，训练后的语音分离模型可以实现两个说话人(声源)的语音分离也可以实现三个说话人(声源)的语音分离。本发明提供的技术可用于自动会议和讲座中目标说话人说话识别、自动转录，也可用于人声嘈杂环境下的目标说话人语音识别或语音增强，详见下文描述：

一种基于卷积神经网络和深度聚类的多说话人语音分离方法，所述方法包括：

一、训练分离网络模型

将单通道多说话人混合语音和对应的单说话人语音分别进行分帧、加窗、短时傅里叶变换，获取成对的混合语音频谱和单说话人语音频谱，仅保留其中的语音幅度频谱；

将混合语音幅度频谱和单说话人语音幅度频谱作为神经网络模型的输入进行训练；

二、运用语音分离网络实现单个说话人语音分离

将单通道多说话人混合语音信号进行分帧、加窗、短时傅里叶变换，得到混合语音信号的频谱，保留其中的混合语音相位频谱；

将混合语音幅度频谱作为门限扩张卷积深度聚类模型的输入，得到混合频谱中每一个时频单元的高维嵌入向量；

用K-means聚类算法，将高维嵌入向量根据设定的说话人数量分成两到三类，再由每一个高维嵌入向量对应的时频单元分别得到每个声源的时频掩蔽矩阵；

将时频掩蔽矩阵分别与混合语音幅度频谱相乘，得到每个说话人频谱；

根据每个说话人频谱，结合混合语音相位频谱，采用短时傅里叶反变换分别得到多个分离的语音时域波形信号。

进一步地，所述门限扩张卷积深度聚类模型包括三个模块，即基于频域扩张卷积的卷积神经网络模块、基于时域扩张卷积的卷积神经网络模块、以及基于门限线性单元的卷积神经网络模块。

进一步地，所述基于频域扩张卷积的卷积神经网络模块可同时捕捉时域和频率方向的上下文关系。

其中，

所述基于时域扩张卷积的卷积神经网络模块采用扩张因子呈指数级递增的一维扩张卷积，仅在时域方向上进行扩张卷积。

进一步地，所述方法还包括：

通过跳跃连接建立深度残差学习框架，缓解消失梯度问题；

将时域扩张卷积和门限线性单元结合到残差块中，通过增加残差块中的中间卷积层的内核大小扩展时域方向上的接收域；

用指数线性单元激活函数代替矩形线性单元，以加速收敛和提高泛化性能。

在实例应用前，首先，需要根据描述的系统原理搭建神经网络系统；其次，给该系统输入一定数量的输入数据(训练样本)用以训练该语音分离神经网络模型；最后，保存训练好的语音分离神经网络模型(即神经网络参数)。

实例应用时，首先，对搭建好的神经网络系统，导入保存的训练好的语音分离神经网络模型；其次，将待分离的混合语音做短时傅里叶变换，得到混合语音幅度频谱和相位频谱；最后，将混合语音幅度频谱送入神经网络，得到神经网络的输出(单个说话人语音幅度频谱的掩蔽矩阵)，进一步的单个说话人语音幅度频谱，再结合混合语音相位频谱得到分离出的单个(目标)说话人语音时域波形。

多说话人语音分离系统原理：

本发明采用的语音分离神经网络系统基于卷积神经网络和深度聚类，具体来说，深度聚类方法^[1]将混合语音的幅度频谱中每个时频单元映射到高维可分离空间(高维嵌入特征向量空间)，使以同一声源的时频单元的嵌入特征向量相互接近，不同声源所对应的时频单元的嵌入特征向量相距较远。对于测试的混合信号，其频谱时频单元先经过训练好的深度神经网络得到高维嵌入向量输出，再利用标准的聚类算法对高维嵌入向量进行聚类，从而得到每个声源对应时频单元的掩蔽，进一步得到每个声源的幅度频谱，最后通过短时傅里叶反变换得到每个声源的时域波形，基于深度聚类的语音分离系统流程图如图1所示。

如上述分离系统流程所述，本发明讨论的技术克服了先前标签模糊或标签置换问题的缺陷和局限性。例如，在多语音分离监督性问题的回归框架中，假设混合语音中有两位说话人，需要为相应的输出端提供正确的参考(或目标)值X1和X2作为标签，以便在训练过程中进行有监督地分离训练。有监督地语音分离系统在固定分配标签顺序的条件下，对语音和非语音(如噪声)的分离效果较好，但在鸡尾酒会环境中(多个说话人同时说话)由于说话人标签排列问题，混合语音的分离效果不佳。同时，由于混合语音中存在的多个说话人的语音具有相同的频率分布特性，因此，很难保证系统某通道输出的分离语音与前一时刻该通道的输出是同一个说话人语音。当混合语音中说话人的数量增加时，这个问题就变得更加严重，说话人标签序列问题阻碍了有监督语音分离系统模型用于解决说鸡尾酒会的说话人语音分离问题。

同时，本发明采用深度聚类方法，这与以前将语音分离视为回归问题的先前解决方案不同，它将语音分离问题转化为分割问题，忽略源的顺序。具体来说，首先假设混合语音幅度频谱中的每一个时频单元只属于一个说话人，在多个说话人语音生成混合信号时，通过判断同一时频单元中多个说话人的能量，则混合语音幅度频谱的对应时频单元就分配给能量最高的说话人。按照说话人来分配混合语音幅度频谱的时频单元，混合语音的频谱图将会分割成簇，每个说话人分为一簇。该框架结构的关键是，在训练过程中，只需知道哪些时频单元属于同一个说话人(或簇)，由此避免了标签排列问题。因为聚类是根据时频单元之间的距离来定义的，系统可以从训练数据中学习到每个时频单元转换到高维可分离空间的映射关系。通过约束条件，使得同属于一个说话人的时频单元在高维嵌入空间中相距很近，使得属于不同说话人的时频单元在高维嵌入空间中相距很远。这些技术可以在神经网络本身结构内实现，解决了标签置换问题。

其次，本发明实施例进一步优化了基于深度聚类的深度学习模型，深度学习模型采用基于门限扩张卷积的卷积神经网络，如图1语音分离系统中门限扩张卷积深度聚类模型模块。本发明利用基于门限扩张卷积的卷积神经网络的聚类模型代替文献[1]中的基于双向长短时记忆网络的聚类模型，这不仅大大减少了网络模型的参数、提高了系统的运行速度，还扩大了卷积神经网络的感受野，使得神经网络可以捕捉到语音信号更长时间范围内的上下文关系，进一步提高了语音分离的性能。

与现有语音分离方案相比，本发明的优越性在于：

1、本发明结合扩张卷积、门限机制和残差学习的优势，采用一种新型基于扩张卷积的卷积神经网络和深度聚类网络结构，该网络结构能够符合语音上下文关系建立长期依赖的关系模型，按照频域和时域方向汇总上下文信息，这使得语音分离模型有较强的分离能力，即使待分离的混合语音中存在未知说话人；

2、通过实验结果表明，本发明采用的深度学习模型可以很好地推广到未经训练的说话人和更多说话人中，更具伸缩性；

3、本发明的参数少、运算效率高，这是由于相较于同样可以捕捉上下文信息的长短时记忆神经网络，卷积神经网络模型参数具有轻量级特性；本发明采用的深度学习模型的可训练参数比现有语音分离方案低一个数量级，这揭示了本模型在实际语音分离应用中的潜力，在这些应用中，计算效率是必不可少的；该些架构具有低延迟性，以满足实时语音分离的需要。

附图说明

图1为一种基于卷积神经网络和深度聚类的多说话人语音分离方法的流程图；

图2为残差块流程图；

图3为基于扩张卷积的卷积神经网络模型。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面对本发明实施方式作进一步地详细描述。

语音分离的作用是将干净语音从被干扰的混合语音里分离出来。语音分离涉及广泛的场景范围，其中包含听觉辅助、移动通信、鲁棒的语音和说话人自动识别等。鸡尾酒会问题，即当多个说话人同时说话和涉及其他背景噪声时，跟踪和识别指定说话人的讲话。本发明描述的技术使得自动语音识别能够应用于多个说话人(或多个声源)，并且即使在语音重叠时，甚至当说话人从信号中消失或者先前未遇到的说话人出现时也是如此。鸡尾酒会的问题已经被广泛地研究，解决鸡尾酒会问题可以实现许多场景和应用，例如会议转录、多方人机交互和听力障碍助理等，在这些实际应用情况下，语音分离不容忽视。

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。所描述的实施例是本发明一部分，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

本发明实施例提供了一种基于卷积神经网络和深度聚类的多说话人语音分离方法，在实施时包括两个步骤：训练分离网络模型和运用分离网络实现单说话人语音分离。图1是基于卷积神经网络和深度聚类的多说话人语音分离方法的流程图，训练分离网络模型和运用分离网络实现单说话人语音分离时均按照此流程，只是在训练网络模型时需要根据计算模型不断地更新网络参数，而在运行语音分离系统对混合语音实现单说话人语音分离时，网络参数保持不变；另外，训练网络时执行图1中混合语音特征--门限扩张卷积网络模型 --高维嵌入向量模块，而在运行语音分离系统时，则需要执行如图1所示的完整的流程。

第一步：训练分离网络模型

训练该基于扩张卷积神经网络和深度聚类的多说话人分离语音系统模型(系统模型即神经网络参数)时，具体按照以下步骤实施：

步骤train1：获得一定数量的单通道多说话人混合语音及其对应的单个说话人语音(也称为样本)；

具体为，对于说话人1(简称为S1)和说话人2(简称为S2)的混合语音(简称为M)，一定要有干净的单个说话人S1和S2的语音成对地样本匹配。

步骤train2：将混合语音和对应的单说话人语音分别进行分帧、加窗、短时傅里叶变换，得到成对的混合语音频谱和单说话人语音频谱(也称为语音特征)；

具体为，对混合语音和对应的单说话人语音分别取32ms采样点为一帧信号，若采样率为8kHz时则一帧为256个采样点，若采样频率为16kHz时，则一帧为512个采样点，若长度不足32ms则先将采样点补零到256或512个；然后对每一帧信号进行加窗，窗函数采用汉明窗或汉宁窗。最后，对每一帧加窗后信号进行傅里叶变换，分别得到混合语音和对应的单说话人干净语音的幅度频谱和相位频谱。这里(训练过程)只保留混合语音的幅度频谱。

步骤train3：将混合语音幅度频谱和单说话人语音幅度频谱作为系统的输入，进而进行神经网络模型训练，训练的速度取决于机器的配置和样本的规模；

具体为，按照图3基于扩张卷积的卷积神经网络模型搭建神经网络(搭建网络的详细过程请参考说明书中语音分离问题的具体描述)，将网络设置为可训练状态(即网络参数会随着迭代次数不断的更新)。混合语音幅度频谱作为神经网络的输入数据，单说话人语音幅度频谱用于计算神经网络的损失函数。对于训练神经网络模型而言，用于训练的样本要尽可能多，这样才能保证网络有较好的泛化性能。

步骤train4：保存训练好的网络模型参数。

第二步：运用语音分离网络实现单个说话人语音分离

使用已经训练好的分离系统进行语音分离时，具体按照以下步骤实施：

步骤test1：获得单通道多说话人混合语音；

步骤test2：将单通道多说话人混合语音信号进行分帧、加窗、短时傅里叶变换，得到混合语音信号的频谱(也称为混合语音特征)；

具体为，取32ms采样点为一帧信号，若采样率为8kHz时则一帧为256个采样点，若采样频率为16kHz时，则一帧为512个采样点，若长度不足32ms则先将采样点补零到256 或512个；然后对每一帧信号进行加窗，所述加窗函数采用汉明窗或汉宁窗。最后，对每一帧加窗后信号进行傅里叶变换得到混合语音的幅度频谱和相位频谱。这里需要保留混合语音的幅度频谱和相位频谱以用于步骤test6。

步骤test3：根据用户需求设定系统输出的说话人的数量(2个或3个)；

步骤test4：导入已经布置好的神经网络和步骤train4保存的网络模型参数(即神经网络参数)，将混合语音信号频谱作为输入送入神经网络(即门限扩张卷积深度聚类模型)，得到混合频谱中每一个时频单元的高维嵌入向量；

步骤test5：如图1所示，经过步骤test4得到高维嵌入向量后，用K-means聚类算法，将高维嵌入向量根据设定的说话人数量分成两到三类，再由每一个高维嵌入向量对应的时频单元分别得到每个声源的时频掩蔽矩阵^[1]；

步骤test6：用步骤test5得到的每个说话人的时频掩蔽矩阵分别与步骤test2保留的混合语音频谱相乘，得到每个说话人频谱；

步骤test7：根据步骤test6得到的每个说话人频谱，结合步骤test2保留的混合语音的相位，采用短时傅里叶反变换分别得到多个分离的语音时域波形信号(wav文件)；

步骤test8：用可以打开wav文件的语音播放器分别来播放系统分离出的单个说话人语音。

综上所述，本发明实施例提高了从混合信号(多个说话人的语音信号)中分离单一声源信号的能力，改善了用于分离多说话人语音的深度学习模型的性能，包括提高独立说话人和多说话人场景的深度学习模型的准确性，优化网络模型，通过并行运算减少计算时间，并且为包括两个或更多信号源的场景提供可扩展性(同样的模型可以扩展到更多说话人混合语音的语音分离)。

实施例2

语音分离问题的具体描述

单声道语音分离的目标是估计混合在一起并在单声道信号中重叠的各个源信号。S个源信号序列在时域中表示为x_s(t)，s＝1，…，S，并将混合信号序列在时域中表示为：

将语音信号进行分帧、加窗、短时傅里叶变换，得到语音信号的频谱。具体为，取32ms 采样点为一帧信号，若采样率为8kHz时则一帧为256个采样点，若采样频率为16kHz时，则一帧为512个采样点，若长度不足32ms则先将采样点补零到256或512个；然后对每一帧信号进行加窗，所述加窗函数采用汉明窗或汉宁窗。相应的短时傅里叶变换(STFT)分别是X_s(t,f)和Y(t,f)。

给定Y(t,f)，单声道语音分离的目标是恢复每个源X_s(t,f)(在本发明中等效地称为源信号)。在实际应用场景中，在一些示例中，恢复两个或三个源信号是足够的，因为剩余的源可归因于噪声。在许多情况下，噪声是低能量的，因此，在某些情况下，可以使用能量或功率阈值来确定要恢复的信号量和数量。

本发明实施例采用的基于深度聚类和扩张卷积神经网络的方法，通过输入混合信号幅度谱|Y(t,f)|和每个声源幅度谱|X_s(t,f)|的集合来训练深度学习模型，通过深度学习模型寻找和学习规律性(例如，声学线索)。具体来说，输入的混合语音信号幅度频谱通过深度聚类模型得到每个时频单元的高维嵌入向量，再经过K-means聚类算法得到每个说话人语音频谱的时域掩蔽，进而得到各说话人的语音幅度频谱，最后利用混合语音的相位，通过短时傅里叶反变换得到分离的语音时域波形，本算法的流程图如图1所示，本发明实施例采用基于扩张卷积的卷积神经网络来实现深度聚类模型，基于扩张卷积的卷积神经网络模型如图3所示。

下面分别重点描述本发明实施例中所涉及模型中的两个关键技术模型：深度聚类和基于门限扩张卷积的卷积神经网络

一、深度聚类

训练深度学习模型g(·)，使得g(f(|Y|)；θ)转化为高维嵌入空间，其中θ是模型参数，并且f(|Y|)是|Y|的特征表示。准确地说，给定原始输入混合信号y，其特征向量定义为Y_i＝g_i(y)(i∈{1,2,...,N})，其中i是音频信号的时频索引(t,f)。利用深度神经网络将输入信号y转化为D维嵌入空间表示：V＝f_θ(Y)∈R^N·D，其中每一个行向量v_i均作单位范数操作，使得：

这里考虑用维度为N×N估计的仿射矩阵VV^T来参与构造目标函数，用一个标签矩阵E 来表示每个时频单元的类别，矩阵E中的列是正交的，诸如：

所以，EE^T被认为是一个与序列顺序无关的、表示源信号分配的二进制仿射矩阵，如果元素i和j指示属于同一声源信号的频谱成分，则(EE^T)_i,j＝1，否则(EE^T)_i,j＝0。

仿射矩阵VV^T是输入Y的函数，V＝f_θ(Y)∈R^N·D，为了使仿射矩阵VV^T去匹配目标仿射矩阵EE^T，以达到优化模型参数θ的目的，设定目标函数如下：

其中，

表示平方Frobenius范数。

令A＝EE^T，A为理想的仿射矩阵，表示两个时频单元是否属于相同源信号：

本发明实施例直接使用深层网络来估计仿射矩阵

根据下式最小化目标函数：

系统运动过程中，首先将输入信号y的特征表示送入基于扩张卷积的卷积神经网络得到高维嵌入向量矩阵V，然后使用K-means对高维嵌入向量v_i实现聚类，由聚类的结果得到每个声源的时频掩蔽，进而计算出每个声源的幅度频谱，最后，通过短时傅里叶反变换得到每个声源的时域波形。

这里，设置-40dB为静音段阈值，即小于-40dB的帧视为静音不参与语音分离过程。

二、基于门限扩张卷积的卷积神经网络

上述深度聚类模型中的深度学习模型采用基于门限扩张卷积的卷积神经网络，下面通过以下几个部分对此卷积神经网络进行描述：

1、门限卷积

假设H_l-1表示神经网络第(l-1)层的输出，门限卷积神经网络(以下简称门限CNN)第l层的输出H_l可以由输出门

调制的线性投影

表示：

其中，

和

代表第l层的权重和偏置，

为按元素相乘，σ为sigmoid函数(本领域技术人员所公知)，门限CNN采用门限线性单元作为激活函数，也就是上式中的第二项，而不是tanh函数和ReLUs函数，门限线性单元同样是受数据驱使的门，它的作用是控制在层结构里传递的信息。这种特殊的机制允许通过加深层次结构来有效地捕获长时域上下文依赖关系，而不受梯度消失问题的影响。

2、扩张卷积

卷积网络中上下文信息通常是通过扩展接收域来获取的。一种方法是增加网络深度，但这会降低计算效率，并通常导致梯度消失。另一种方法是增加卷积核大小，这同样增加了计算负荷和训练时间。

为了有效地解决这一问题，本发明实施例采用基于扩张卷积的卷积神经网络，可以实现指数地扩展接收域。传统卷积中的接收域的比例随着网络深度增加而线性增加，而如果卷积核的扩张因子以指数倍增加，则扩张卷积的接收域会随着网络深度的增加呈指数级增加。本发明实施例中所述扩张卷积分为两种：时域扩张卷积和频域扩张卷积，具体为：

频域扩张卷积：为了利用相邻频谱之间的信息，本发明实施例采用卷积核为5×5的扩张卷积。仅针对频率方向进行扩张，时域方向不扩张，称之为频域扩张卷积。值得注意的是，与通常的频域扩张卷积不同，本发明实施例中用到的频域扩张卷积可同时捕捉时域和频率方向的上下文，但是会不断增加频率方向的接收域。

时域扩张卷积：为了利用时域上下文信息，本发明实施例采用不对称的一维扩张卷积，仅在时域方向上进行扩张卷积。

3、残差学习

此外，本发明实施例通过引入跳跃连接(Skip Connection)建立深度残差学习框架(残差块示意图如图2所示)，通过跳跃连接极大地缓解了消失梯度问题。通过将时域扩张卷积和门限线性单元结合到常见的残差块中，引入了一种新的残差块。残差块中的中间卷积层的内核大小增加为7，以进一步扩展时域方向上的接收域。此外，用指数线性单元(Exponential Linear Units,ELUs)激活函数代替矩形线性单元(Rectified LinearUnits, ReLUs)，以加速收敛和提高泛化性能。

4、基于扩张卷积的卷积神经网络结构

本发明实施例采用基于门限扩张卷积的卷积神经网络实现深度聚类，具体网络结构如图3所示。分别在时域方向和频率方向上应用扩张卷积有两方面考虑，首先，频域扩展模块提取局部特征，时域扩展模块用来建模时域依赖关系。其中纵向(频域)卷积层捕获音色信息，而横向(时域)卷积层用来建模时域演变。第二，时域维度和频率维度不一致。为了充分利用时域和频域两个方向的上下文，最好是在频率方向和时域方向分别扩展上下文，最后由预测模块估计高维嵌入向量。本发明实施例采用的基于门限扩张卷积的卷积神经网络包括三个模块，即频域扩张模块、时域扩张模块和预测模块。

频域扩张模块：以混合语音STFT幅度谱作为输入，包含四个叠加的二维卷积层，用于捕捉幅度谱中的局部空间模式。即图3上部的四层卷积层，每层卷积核的大小为5×5，每层卷积神经网络的输出通道分别为：16，16，32，32，每层卷积神经网络均采用指数线性单元(Exponential Linear Units,ELU)作为激活函数。在频率方向对各层分别以1、1、2 和4的扩张因子进行卷积。然后将频率扩张卷积学习到的特征重组为适当的维数，以适应下一个模块中的一维卷积。

时域扩张模块：频率扩张模块的输出作为时域扩张模块的输入，为了对时间依赖性进行建模，时域扩张模块采用多个残差块堆叠以实现时域扩张卷积。

本发明实施例采用3组残差块堆叠，每组残差块堆叠包含6个残差块。以锯齿波的方式分配扩张速率：一组残差块堆叠具有指数增加的扩张因子，并且后续两组重复相同的模式，则3组残差块堆叠共18层残差块，其扩张因子为{1、2、4、8、16、32；1、2、4、8、 16、32；1、2、4、8、16、32}。这样残差块堆叠能够在保持输入分辨率的同时保证接收域的指数扩展，这允许长期上下文的聚集。本方法使用了一种跳跃连接，这样的跳跃连接使得下一个模块能够访问时域扩张模块中的所有残差块的输出。跳跃连接的优点在于，这种跳跃连接通过改进整个网络中的信息和梯度的流动来促进训练。

预测模块：在频率扩张模块和时域扩张模块系统地聚集输入特征表示中的上下文信息之后，采用预测模块来生成高维嵌入向量。其中，预测模块包括2个卷积核为1的卷积层。具有ELU和线性激活的卷积层作用是交叉信道汇集和降维，然后输出嵌入向量。

综上所述，本发明实施例的优点在于：提高了从混合信号(例如，来自多个说话人的语音信号)中分离单一源信号的能力，改善了用于分离多说话人语音的深度学习模型的性能，包括提高独立说话人和多说话人场景的深度学习模型的准确性，优化网络模型，并行运算减少计算时间，以及为包括两个或更多信号源的场景提供可扩展性(同样的模型可以扩展到更多说话人)。

实施例3

实验结果表明，本发明采用基于卷积神经网络和深度聚类的分离网络模型，即使对于混合语音中说话人语音具有相同的能量的情况(如WSJ0语料库)，以及对于待分离语音中存在未参与模型训练说话人的情况(即模型是“说话人无关的”)也表现得很好。实验结果表明，训练的网络模型可以有效地分离单个说话人语音。深度学习模型学习了声学线索以用于源分离且考虑幅度谱图区域相关性的特性，声学线索既与说话人无关也与语言无关。

本发明实施例对各器件的型号除做特殊说明的以外，其他器件的型号不做限制，只要能完成上述功能的器件均可。

本领域技术人员可以理解附图只是一个优选实施例的示意图，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

[1]Hershey J R,Chen Z,Le Roux J,et al.Deep clustering:Discriminativeembeddings for segmentation and separation[C]//2016IEEE InternationalConference on Acoustics,Speech and Signal Processing(ICASSP).IEEE,2016:31-35。

Claims

1.一种基于卷积神经网络和深度聚类的多说话人语音分离方法，其特征在于，所述方法包括：

一、训练分离网络模型

二、运用语音分离网络实现单个说话人语音分离

根据每个说话人频谱，结合混合语音相位频谱，采用短时傅里叶反变换分别得到多个分离的语音时域波形信号；

其中，

所述门限扩张卷积深度聚类模型包括三个模块，即基于频域扩张卷积的卷积神经网络模块、基于时域扩张卷积的卷积神经网络模块、以及基于门限线性单元的卷积神经网络模块；

所述基于频域扩张卷积的卷积神经网络模块可同时捕捉时域和频率方向的上下文关系。

2.根据权利要求1所述的一种基于卷积神经网络和深度聚类的多说话人语音分离方法，其特征在于，

3.根据权利要求1或2所述的一种基于卷积神经网络和深度聚类的多说话人语音分离方法，其特征在于，所述方法还包括：

通过跳跃连接建立深度残差学习框架，缓解消失梯度问题；