CN111326168A

CN111326168A - 语音分离方法、装置、电子设备和存储介质

Info

Publication number: CN111326168A
Application number: CN202010220472.3A
Authority: CN
Inventors: 杨帆; 方磊; 方四安
Original assignee: Hefei Ustc Iflytek Co ltd
Current assignee: Hefei Ustc Iflytek Co ltd
Priority date: 2020-03-25
Filing date: 2020-03-25
Publication date: 2020-06-23
Anticipated expiration: 2040-03-25
Also published as: CN111326168B

Abstract

本发明实施例提供一种语音分离方法、装置、电子设备和存储介质，其中方法包括：确定待分离的语音信号；将语音信号输入语音分离模型，得到语音分离模型输出的语音分离结果；语音分离模型是基于样本语音信号及其对应的样本语音分离结果训练得到的；其中，语音分离模型用于对语音信号的时域语音特征进行多级膨胀卷积，得到对应于不同发音源的掩码矩阵，并基于时域语音特征和掩码矩阵实现语音分离。本发明实施例提供的方法、装置、电子设备和存储介质，时域上进行语音分离，避免了多发音源重叠的频域信号相互抵消导致语音分离结果欠佳的问题；此外，多级膨胀卷积能够实现感受野的扩展，解决梯度消失或梯度爆炸的问题，提升语音分离的准确性。

Description

语音分离方法、装置、电子设备和存储介质

技术领域

本发明涉及语音信号处理技术领域，尤其涉及一种语音分离方法、装置、电子设备和存储介质。

背景技术

随着深度学习研究的推进和计算机性能的突破，智能语音处理技术得到突飞猛进的发展。语音分离是智能语音处理的重要前置步骤，用于从语音信号中分离来自不同发音源的声音信号，从而解决噪声环境或者多个发音源的环境下语音信号复杂导致语音处理困难的问题。

目前的语音分离方法主要是将时域的语音信号在频域上进行拆分，然而在复杂环境条件下，上述方法在执行过程中无法避免频域信号间的相互抵消问题，其分离效果远无法达到实用标准。

发明内容

本发明实施例提供一种语音分离方法、装置、电子设备和存储介质，用以解决现有的语音分离效果不理想的问题。

第一方面，本发明实施例提供一种语音分离方法，包括：

确定待分离的语音信号；

将所述语音信号输入语音分离模型，得到所述语音分离模型输出的语音分离结果；所述语音分离模型是基于样本语音信号及其对应的样本语音分离结果训练得到的；

其中，所述语音分离模型用于对所述语音信号的时域语音特征进行多级膨胀卷积，得到对应于不同发音源的掩码矩阵，并基于所述时域语音特征和所述掩码矩阵实现语音分离。

优选地，所述将所述语音信号输入语音分离模型，得到所述语音分离模型输出的语音分离结果，具体包括：

将所述语音信号输入至所述语音分离模型的编码层，得到所述编码层输出的所述时域语音特征；

将所述时域语音特征输入至所述语音分离模型的多级膨胀卷积层，得到所述多级膨胀卷积层输出的多级膨胀卷积结果；

将所述多级膨胀卷积结果输入至所述语音分离模型的掩码输出层，得到所述掩码输出层输出的所述掩码矩阵；

将所述时域语音特征和所述掩码矩阵输入至所述语音分离模型的解码分离层，得到所述解码分离层输出的语音分离结果。

优选地，所述将所述时域语音特征输入至所述语音分离模型的多级膨胀卷积层，得到所述多级膨胀卷积层输出的多级膨胀卷积结果，具体包括：

将当前输入特征输入至所述多级膨胀卷积层的当前卷积层中，得到所述当前卷积层输出的当前语音卷积特征；

其中，所述多级膨胀卷积层包括多个卷积层，所述当前输入特征是基于所述当前卷积层的上一卷积层输出的语音卷积特征确定的，首个卷积层的输入特征为所述时域语音特征。

优选地，所述当前输入特征包括上一卷积层的输入特征和上一卷积层输出的语音卷积特征。

优选地，所述多级膨胀卷积结果包括所述多级膨胀卷积层的每一卷积层输出的语音卷积特征。

优选地，所述将当前输入特征输入至所述多级膨胀卷积层的当前卷积层中，得到所述当前卷积层输出的当前语音卷积特征，具体包括：

将所述当前输入特征中对应于时间维度的特征输入至所述当前卷积层中，得到所述当前卷积层输出的当前时间维度卷积特征；

将所述当前输入特征中对应于空间维度的特征输入至所述当前卷积层中，得到所述当前卷积层输出的当前空间维度卷积特征。

优选地，所述将当前输入特征输入至所述多级膨胀卷积层的当前卷积层中，得到所述当前卷积层输出的当前语音卷积特征，之前还包括：

基于所述当前输入特征中任一帧及其之前每一帧分别对应的帧特征，对所述任一帧对应的帧特征进行归一化。

第二方面，本发明实施例提供一种语音分离装置，包括：

语音确定单元，用于确定待分离的语音信号；

语音分离单元，用于将所述语音信号输入语音分离模型，得到所述语音分离模型输出的语音分离结果；所述语音分离模型是基于样本语音信号及其对应的样本语音分离结果训练得到的；

第三方面，本发明实施例提供一种电子设备，包括处理器、通信接口、存储器和总线，其中，处理器，通信接口，存储器通过总线完成相互间的通信，处理器可以调用存储器中的逻辑命令，以执行如第一方面所提供的方法的步骤。

第四方面，本发明实施例提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如第一方面所提供的方法的步骤。

本发明实施例提供的一种语音分离方法、装置、电子设备和存储介质，语音分离模型从时域上进行语音分离，相较于传统的从频域上进行语音分离的方法，避免了多发音源重叠的频域信号相互抵消导致语音分离结果欠佳的问题；此外，语音分离模型通过多级膨胀卷积获取掩码矩阵进而实现语音分离，相较于传统的固定卷积核的卷积方法，多级膨胀卷积能够实现感受野的扩展，解决梯度消失或梯度爆炸的问题，提升语音分离的准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的语音分离方法的流程示意图；

图2为本发明实施例提供的语音分离模型的运行流程示意图；

图3为本发明实施例提供的多级膨胀卷积原理示意图；

图4为本发明实施例提供的卷积层的残差连接示意图；

图5为本发明实施例提供的卷积层的跳连接示意图；

图6为本发明实施例提供的语音分离模型的结构示意图；

图7为本发明实施例提供的语音分离装置的结构示意图；

图8为本发明实施例提供的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

随着深度学习研究的推进和计算机性能的突破，智能语音处理技术得到突飞猛进的发展。基于智能语音处理技术衍生出的对话机器人、语音助手、声控设备等，在日常生活和办公场景中已经随处可见。但是在现实环境下的语音往往是非纯净且复杂的，机器难以利用单一功能的引擎直接处理复杂语音信号。语音分离作为智能语音处理的重要前置步骤，用于从语音信号中分离来自不同发音源的声音信号，语音分离的准确度直接关系到智能语音处理技术的效果，也直接关系到智能语音处理技术能否实现实际应用。

图1为本发明实施例提供的语音分离方法的流程示意图，如图1所示，该方法包括：

步骤110，确定待分离的语音信号。

具体地，待分离的语音信号即需要进行语音分离的语音信号，待分离的语音信号可以包含若干个发音源的声音信号，此处的若干个发音源可以包含不同的说话人，还可以包括语音信号采集场景中的非说话人发音源，例如产生背景音乐的音响、产生噪声的来往车辆等。

针对于语音信号的语音分离，可以用于实现说话人和非说话人发音源分别对应的声音信号的分离，也可以用于实现不同说话人分别对应的语音信号的分离，本发明实施例对此不作具体限定。

步骤120，将语音信号输入语音分离模型，得到语音分离模型输出的语音分离结果；语音分离模型是基于样本语音信号及其对应的样本语音分离结果训练得到的；其中，语音分离模型用于对语音信号的时域语音特征进行多级膨胀卷积，得到对应于不同发音源的掩码矩阵，并基于时域语音特征和掩码矩阵实现语音分离。

具体地，传统的语音分离方法在频域上进行语音分离，然而在频域上，多发音源重叠的频域语音信号会相互抵消，导致语音分离效果不理想。为了避免这一问题，本发明实施例从时域上进行语音分离，语音信号的时域语音特征即语音信号在时域上所体现语音特征。

多级膨胀卷积是指通过多个膨胀卷积核逐层进行特征提取，此处的膨胀卷积核随着卷积层数的加深，卷积核的大小也随之增大。相较于传统的卷积方法，多级膨胀卷积能够实现感受野的扩展，从而达到记忆时域语音特征中的更多历史信息的目的，解决应用传统的固定卷积核进行卷积存在的梯度消失或梯度爆炸的问题，以提升语音分离的准确性。

对应于不同发音源的掩码矩阵即对时域语音特征进行多级膨胀卷积得到的，多级膨胀卷积充分挖掘了时域语音特征中的语音信息，基于语音信息来区分不同发音源的声音特征，进而构建对应于不同发音源的掩码矩阵，掩码矩阵中包含有每一发音源分别对应的掩码向量，基于任一发音源对应的掩码向量对时域语音特征进行转换，即可得到该发音源对应的时域语音特征，进而得到该发音源对应的声音信号。

语音分离模型用于确定输入的语音信号的时域语音特征，并通过对时域语音特征进行多级膨胀卷积，充分挖掘时域语音特征中的语音信息，进而构建对应于不同发音源的掩码矩阵，并基于掩码矩阵对时域语音特征进行转换，从而将语音信号中对应于不同发音源的声音信号分离开来，得到不同发音源的声音信号作为语音分离结果并输出。

在执行步骤120之前，还可以预先训练得到语音分离模型，具体可以通过如下方式训练得到语音分离模型：首先，收集大量样本语音信号，以及样本语音信号对应的样本语音分离结果。其中，样本语音分离结果可以是对样本语音信号进行语音分离得到的，或者也可以将不同发音源的声音信号作为一组样本语音分离结果，并将不同发音源的声音信号混合得到样本语音信号，本发明实施例对此不作具体限定。随即，基于样本语音信号及其对应的样本语音分离结果训练初始模型，从而得到语音分离模型。

本发明实施例提供的方法，语音分离模型从时域上进行语音分离，相较于传统的从频域上进行语音分离的方法，避免了多发音源重叠的频域信号相互抵消导致语音分离结果欠佳的问题；此外，语音分离模型通过多级膨胀卷积获取掩码矩阵进而实现语音分离，相较于传统的固定卷积核的卷积方法，多级膨胀卷积能够实现感受野的扩展，解决梯度消失或梯度爆炸的问题，提升语音分离的准确性。

基于上述实施例，语音分离模型包括编码层、多级膨胀卷积层、掩码输出层和解码分离层。图2为本发明实施例提供的语音分离模型的运行流程示意图，如图2所示，步骤120具体包括：

步骤121，将语音信号输入至语音分离模型的编码层，得到编码层输出的时域语音特征。

具体地，编码层用于在时域上对语音信号进行编码，并输出编码后的时域语音特征。进一步地，在对语音信号进行编码之前，可以将语音信号拆分为若干个语音片段，编码层分别对每一语音片段进行编码，并将编码后的每一语音片段的特征整合为时域语音特征。

例如，每一语音片段的长度可以预先设定为L帧，L为正整数。第k个语音片段的向量表示为x_k，x_k为长度为L的向量，k＝1，2，…，T，T为语音片段总数。经过编码层编码后，得到x_k编码后的特征表示为w_k＝H(x_kU)，其中U为L×N大小的参数矩阵，U中包含L条长度为N的向量，H(·)为非线性变换函数，进一步地，为了保证w_k中的每个数值均大于等于零，H(·)可以是ReLU函数。基于每个语音片段的w_k，即可得到时域语音特征w＝∑_Tw_k。

步骤122，将时域语音特征输入至语音分离模型的多级膨胀卷积层，得到多级膨胀卷积层输出的多级膨胀卷积结果。

具体地，多级膨胀卷积层包含有多个膨胀卷积核，其中任一膨胀卷积核的大小大于前一膨胀卷积核的大小。多级膨胀卷积层充分挖掘了时域语音特征中的语音信息，并将经过多个膨胀卷积核提取得到的语音特征作为多级膨胀卷积结果输出。

例如，图3为本发明实施例提供的多级膨胀卷积原理示意图，如图3所示，多级膨胀卷积层的卷积层数为3，原始卷积核的大小为3*3，第一个膨胀率d＝2，则第二个膨胀卷积核的大小为5*5，第二个膨胀率d＝1，则第三个膨胀卷积核的大小为7*7。相较于图3中左侧的传统卷积操作，膨胀卷积操作在第三层单个特征的感受范围从5*5扩大到了7*7，且中间并未遗漏任何原始特征，达到了扩展感受野的目的。

步骤123，将多级膨胀卷积结果输入至语音分离模型的掩码输出层，得到掩码输出层输出的掩码矩阵。

具体地，掩码输出层基于多级膨胀卷积结果来区分不同发音源的声音特征，进而构建对应于不同发音源的掩码矩阵并输出。由此得到的掩码矩阵可以表示为m，掩码矩阵中对应于第i个发音源的掩码向量可以表示为m_i，i＝1，2，…，c，c为发音源总数。

步骤124，将时域语音特征和掩码矩阵输入至语音分离模型的解码分离层，得到解码分离层输出的语音分离结果。

具体地，解码分离层基于掩码矩阵对时域语音特征进行转换，从而得到对应于不同发音源的时域语音特征，并将对应于不同发音源的时域语音特征进行解码还原，从而将语音信号中对应于不同发音源的声音信号分离开来，得到不同发音源的声音信号作为语音分离结果并输出。

例如，针对于第i个发音源的时域语音特征可以表示为d_i＝w⊙m_i，d_i为长度为N的向量。随即基于d_i还原得到第i个发音源的声音信号，可以表示为s′_i＝d_iV，其中V用于实现声音信号的重构，对应于语音分离模型的编码层，矩阵V需要确保能够将经过编码层生成的每个语音片段的w_k尽量还原为最终输入模型的语音信号，即：

x′_k＝w_kV

x′＝∑_Tw_kV

其中，x′和x′_k分别表示重构后的语音信号整体的向量表示，以及第个k语音片段的向量表示。

基于上述任一实施例，步骤122具体包括：将当前输入特征输入至多级膨胀卷积层的当前卷积层中，得到当前卷积层输出的当前语音卷积特征；其中，多级膨胀卷积层包括多个卷积层，当前输入特征是基于当前卷积层的上一卷积层输出的语音卷积特征确定的，首个卷积层的输入特征为时域语音特征。

具体地，多级膨胀卷积层中包含有多个卷积层，针对其中任一卷积层，基于该卷积层的上一卷积层的输出即可确定该卷积层的输入，基于该卷积层的输出即可确定该卷积层的下一卷积层的输入。本发明实施例中，将任一卷积层记为当前卷积层，从而说明每一卷积层的运行流程。

将当前卷积层的上一卷积层输出的语音卷积特征记为上一语音卷积特征，基于上一语音卷积特征确定当前卷积层的输入，即当前输入特征，此处当前输入特征可以是上一语音卷积特征本身，也可以对上一语音卷积特征进行归一化等操作后得到的特征，本发明实施例对此不作具体限定。

将当前输入特征输入到当前卷积层中，由当前卷积层对于当前输入特征进行特征提取，并基于特征提取的结果生成当前卷积层的输出，即当前语音卷积特征。

需要说明的是，多级膨胀卷积层中，首个卷积层不存在对应的上一卷积层，首个卷积层的输入特征即为编码层输出的时域语音特征，首个卷积层对时域语音特征进行特征提取，并输出首个语音卷积特征。

基于上述任一实施例，图4为本发明实施例提供的卷积层的残差连接示意图，如图4所示，当前输入特征包括上一卷积层的输入特征和上一卷积层输出的语音卷积特征。其中，上一卷积层的输入特征对应于图4中的上一输入特征，上一卷积层输出的语音卷积特征对应于图4中的上一语音卷积特征。

具体地，针对于当前卷积层，当前输入特征不仅包含有上一卷积层输出的语音卷积特征，还包含有上一卷积层的输入特征。多级膨胀卷积层中，首个卷积层的输入特征即时域语音特征，由此类推第二个卷积层的输入特征包含时域语音特征以及首个卷积层输出的首个语音卷积特征，第三个卷积层的输入特征包含时域语音特征以及前两个卷积层分别输出的语音卷积特征，第n个卷积层的输入特征包含时域语音特征以及前n-1个卷积层分别输出的语音卷积特征。

由此可以确定，多级膨胀卷积层中，每一卷积层的输入特征中均包含有时域语音特征，从而有效避免了由于卷积层数的增加导致语音信息被稀释的问题，解决了梯度消失或者爆炸的问题，保障了语音分离的准确性。

基于上述任一实施例，图5为本发明实施例提供的卷积层的跳连接示意图，如图5所示，多级膨胀卷积结果包括多级膨胀卷积层的每一卷积层输出的语音卷积特征。

具体地，不同于常规的多层卷积仅将最后一层卷积得到的特征应用于后续特征分析，本发明实施例中将包含有多级膨胀卷积层中每一卷积层输出的语音卷积特征的多级膨胀卷积结果输入到掩码输出层中用于掩码矩阵的构建，如此一来可以避免多层卷积操作导致语音特征丢失的问题，从而保障语音分离的准确性。

对应地，掩码输出层中，可以将多级膨胀卷积结果中每一卷积层输出的语音卷积特征根据预先设定的权重进行加权累加，并在此基础上构建掩码矩阵，在保证语音特征完整性的同时，通过区分不同卷积层输出的重要程度，使得由此得到的加权累积结果能更好地反映语音信号中各个发音源之间的区分性，从而解决梯度消失或者爆炸的问题。

本发明实施例提供的方法，将包含每一卷积层输出的语音卷积特征的多级膨胀卷积结果应用于掩码矩阵的确定，避免多层卷积操作导致语音特征丢失的问题，从而保障语音分离的准确性。

基于上述任一实施例，步骤122具体包括：将当前输入特征中对应于时间维度的特征输入至当前卷积层中，得到当前卷积层输出的当前时间维度卷积特征；将当前输入特征中对应于空间维度的特征输入至所述当前卷积层中，得到当前卷积层输出的当前空间维度卷积特征。

具体地，针对于多级膨胀卷积层中的任一卷积层，无论是该卷积层对应的输入特征还是该卷积层输出的语音卷积特征，均可以拆分为对应于时间维度的特征和对应于空间维度的特征，且对应于时间维度的特征和对应于空间维度的特征是相互独立的。

如果直接将时域语音特征应用于多级膨胀卷积，会导致多级膨胀卷积层中每个卷积层都需要完成大量的计算，导致语音分离模型迭代需要花费大量的时间，且语音分离模型对于硬件计算能力的要求也会导致硬件成本的居高不下。考虑到语音信号在时间维度和空间维度的特征相互独立的特性，本发明实施例中在进行多级膨胀卷积时，对于当前输入特征中对应于时间维度的特征和对应于空间维度的特征分别进行卷积，分别得到当前时间维度卷积特征和当前空间维度卷积特征，其中当前时间维度卷积特征即当前语音卷积特征中对应于时间维度的特征，当前空间维度卷积特征即当前语音卷积特征中对应于空间维度的特征，当前时间维度卷积特征和当前空间维度卷积特征构成当前语音卷积特征。

本发明实施例提供的方法，从时间维度和空间维度分别进行卷积计算，在保证特征提取效果的同时，极大程度上降低了卷积层的计算量，从而实现了语音分离模型训练和应用速度的大幅提升，为多级膨胀卷积层数的加深提供了可能，有助于进一步提高语音分离模型的准确性和可靠性。

基于上述任一实施例，针对于当前输入特征，其中对应于时间维度的特征是一维向量，对应于空间维度的特征是二维矩阵，分别针对对应于时间维度的特征和对应于空间维度的特征进行卷积，由此得到单一卷积层的计算量为H×N×N×B+H×N×N×P，其中H×N×N×B为对应于空间维度的特征的卷积计算量，H×N×N×P为对应于时间维度的特征的卷积计算量，其中B为卷积通道数，P为卷积核大小。

如果不从时间和空间维度对当前输入特征进行划分，则单一卷积层的计算量为H×N×N×B×P。一般地，卷积通道数远大于卷积核大小，即B＞＞P，应用下式对维度划分前和维度划分后的卷积计算量进行比较：

由此可知，维度划分后的卷积计算量仅相当于维度划分前卷积计算量的1/P。

基于上述任一实施例，步骤122之前还包括：基于当前输入特征中任一帧及其之前每一帧分别对应的帧特征，对该帧对应的帧特征进行归一化。

具体地，针对于当前卷积层，在将当前输入特征输入至当前卷积层中进行特征提取之前，需要对当前输入特征进行归一化，从而学习不同时间、不同特性下语音信号之间的共性，以便于更好地区分不同发音源的声音信号。

通常针对于语音信号的特征进行归一化时，并不考虑特征的时序信息。而语音本身具有因果关联性，任一时刻的信息仅会受到该时刻之前信息的影响，并不受该时刻之后信息的影响。不考虑特征的时序信息直接进行归一化，会导致任一时刻之后的信息泄露进入该时刻之前的信息，导致针对于该时刻的判断受到负面影响。

考虑到语音本身的因果关联性，在对当前输入特征中任一帧对应的帧特征进行归一化时，仅参考该帧的对应的帧特征，以及该帧之前每一帧分别对应的帧特征，不考虑该帧之后的每一帧分别对应的帧特征。换言之，对当前输入特征中任一帧对应的帧特征进行归一化的操作，仅参考当前信息和过去的历史信息，不考虑未来的信息，从而确保了语音本身的因果关联性。

假设当前输入特征F中的第k帧的帧特征为f_k，f_k为长度为N的向量。当前输入特征中第k帧及其之前每一帧对应的帧特征的集合可以表示为f_t≤k，f_t≤k＝[f₁，f₂，…，f_k]。针对于f_k进行归一化可以表示为如下公式：

其中，cLN(f_k)即对f_k进行归一化后的结果，E[f_t≤k]和Var[f_t≤k]分别为f_t≤k的均值和方差，γ和β均为1×N的训练参数，ε是用于实现数值稳定性的常数，且ε数值较小。

E[f_t≤k]可以通过如下公式计算得到：

Var[f_t≤k]可以通过如下公式计算得到：

本发明实施例提供的方法，通过基于任一帧及其之前每一帧分别对应的帧特征，对该帧对应的帧特征进行归一化，避免了传统的卷积时序无关特性导致的未来信息泄露问题。同时在卷积层间进行归一化操作，利用历史信息对当前信息进行规整，能够加快语音分离模型的训练和收敛速度，从而更加准确地获取发音源的共性特征。

基于上述任一实施例，图6为本发明实施例提供的语音分离模型的结构示意图，如图6所示，语音分离模型包括编码层、多级膨胀卷积层、掩码输出层和解码分离层，且在编码层和多级膨胀卷积层之间还可以加设瓶颈层。

其中，编码层用于在时域上对输入的对语音信号进行编码，并输出编码后的时域语音特征。

瓶颈层用于对时域语音特征进行层归一化操作和点积卷积操作。其中，层归一化操作的目的在于排除语音信号本身大小对于掩码矩阵训练的影响。点积卷积操作的作用在于减小输入的时域语音特征的通道数量，从而加快后续的卷积速度。此处，语音信号拆分得到的语音片段的数量等价于时域语音特征的通道数量。

多级膨胀卷积层中包含有多个膨胀卷积核，每一膨胀卷积核对应于一个卷积层，针对于其中任一卷积层，该卷积层的输入包含有上一卷积层的输入与输出，以避免由于层数增加导致语音信息稀释的问题。且该卷积层将输入划分为时间维度和空间维度分别进行卷积，以减小卷积计算量。此外，卷积层之间的归一化操作考虑语音的因果关联性，针对于任一帧所对应特征的归一化，仅考虑该帧及其之间的各帧所对应的特征，从而避免未来信息的泄露问题。最终，将每一卷积层的输出作为多级膨胀卷积结果输出，从而避免由于卷积操作导致语义信息丢失的问题。

此外，图6中卷积层之间连接的虚线箭头，表示最尾一个卷积层的输出可以作为首个卷积层的输入，从而实现循环卷积，在增加卷积深度的同时有效缩小了模型规模。图6中的重复R次为预先设定的循环卷积次数。

掩码输出层基于多级膨胀卷积结果来区分不同发音源的声音特征，进而构建对应于不同发音源的掩码矩阵并输出。

解码分离层基于掩码矩阵对时域语音特征进行转换，从而得到对应于不同发音源的时域语音特征，并将对应于不同发音源的时域语音特征进行解码还原，从而将语音信号中对应于不同发音源的声音信号分离开来，得到不同发音源的声音信号作为语音分离结果并输出。

基于上述任一实施例，掩码输出层可以对多级膨胀卷积结果中不同卷积层输出的语音卷积特征进行加权求和，从而得到大小为S_c×N的发音特征矩阵，其中S_c为语音卷积特征的通道数量。将发音特征矩阵通过PReLU激活函数，再通过c个1x1conv卷积，得到c个N维向量，最终经过sigmoid激活函数，得到大小为c×N的掩码矩阵m。

基于上述任一实施例，图7为本发明实施例提供的语音分离装置的结构示意图，如图7所示，语音分离装置包括语音确定单元710和语音分离单元720；

其中，语音确定单元710用于确定待分离的语音信号；

语音分离单元720用于将所述语音信号输入语音分离模型，得到所述语音分离模型输出的语音分离结果；所述语音分离模型是基于样本语音信号及其对应的样本语音分离结果训练得到的；

本发明实施例提供的装置，语音分离模型从时域上进行语音分离，相较于传统的从频域上进行语音分离的方法，避免了多发音源重叠的频域信号相互抵消导致语音分离结果欠佳的问题；此外，语音分离模型通过多级膨胀卷积获取掩码矩阵进而实现语音分离，相较于传统的固定卷积核的卷积方法，多级膨胀卷积能够实现感受野的扩展，解决梯度消失或梯度爆炸的问题，提升语音分离的准确性。

基于上述任一实施例，语音分离单元720包括：

编码子单元，用于将所述语音信号输入至所述语音分离模型的编码层，得到所述编码层输出的所述时域语音特征；

多级膨胀卷积子单元，用于将所述时域语音特征输入至所述语音分离模型的多级膨胀卷积层，得到所述多级膨胀卷积层输出的多级膨胀卷积结果；

掩码输出子单元，用于将所述多级膨胀卷积结果输入至所述语音分离模型的掩码输出层，得到所述掩码输出层输出的所述掩码矩阵；

解码分离子单元，用于将所述时域语音特征和所述掩码矩阵输入至所述语音分离模型的解码分离层，得到所述解码分离层输出的语音分离结果。

基于上述任一实施例，多级膨胀卷积子单元包括多个卷积模块，其中任一卷积模块用于：

基于上述任一实施例，所述当前输入特征包括上一卷积层的输入特征和上一卷积层输出的语音卷积特征。

基于上述任一实施例，所述多级膨胀卷积结果包括所述多级膨胀卷积层的每一卷积层输出的语音卷积特征。

基于上述任一实施例，多级膨胀卷积子单元具体用于：

基于上述任一实施例，多级膨胀卷积子单元还包括层间归一化模块，层间归一化模块用于：

图8为本发明实施例提供的电子设备的结构示意图，如图8所示，该电子设备可以包括：处理器(processor)810、通信接口(Communications Interface)820、存储器(memory)830和通信总线840，其中，处理器810，通信接口820，存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的逻辑命令，以执行如下方法：确定待分离的语音信号；将所述语音信号输入语音分离模型，得到所述语音分离模型输出的语音分离结果；所述语音分离模型是基于样本语音信号及其对应的样本语音分离结果训练得到的；其中，所述语音分离模型用于对所述语音信号的时域语音特征进行多级膨胀卷积，得到对应于不同发音源的掩码矩阵，并基于所述时域语音特征和所述掩码矩阵实现语音分离。

此外，上述的存储器830中的逻辑命令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干命令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的方法，例如包括：确定待分离的语音信号；将所述语音信号输入语音分离模型，得到所述语音分离模型输出的语音分离结果；所述语音分离模型是基于样本语音信号及其对应的样本语音分离结果训练得到的；其中，所述语音分离模型用于对所述语音信号的时域语音特征进行多级膨胀卷积，得到对应于不同发音源的掩码矩阵，并基于所述时域语音特征和所述掩码矩阵实现语音分离。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干命令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种语音分离方法，其特征在于，包括：

确定待分离的语音信号；

2.根据权利要求1所述的语音分离方法，其特征在于，所述将所述语音信号输入语音分离模型，得到所述语音分离模型输出的语音分离结果，具体包括：

3.根据权利要求2所述的语音分离方法，其特征在于，所述将所述时域语音特征输入至所述语音分离模型的多级膨胀卷积层，得到所述多级膨胀卷积层输出的多级膨胀卷积结果，具体包括：

4.根据权利要求3所述的语音分离方法，其特征在于，所述当前输入特征包括上一卷积层的输入特征和上一卷积层输出的语音卷积特征。

5.根据权利要求3所述的语音分离方法，其特征在于，所述多级膨胀卷积结果包括所述多级膨胀卷积层的每一卷积层输出的语音卷积特征。

6.根据权利要求3所述的语音分离方法，其特征在于，所述将当前输入特征输入至所述多级膨胀卷积层的当前卷积层中，得到所述当前卷积层输出的当前语音卷积特征，具体包括：

7.根据权利要求3所述的语音分离方法，其特征在于，所述将当前输入特征输入至所述多级膨胀卷积层的当前卷积层中，得到所述当前卷积层输出的当前语音卷积特征，之前还包括：

8.一种语音分离装置，其特征在于，包括：

语音确定单元，用于确定待分离的语音信号；

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7中任一项所述的语音分离方法的步骤。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至7中任一项所述的语音分离方法的步骤。