CN111627458A

CN111627458A - 一种声源分离方法及设备

Info

Publication number: CN111627458A
Application number: CN202010459956.3A
Authority: CN
Inventors: 王超; 冯大航; 陈孝良
Original assignee: Beijing SoundAI Technology Co Ltd
Current assignee: Beijing SoundAI Technology Co Ltd
Priority date: 2020-05-27
Filing date: 2020-05-27
Publication date: 2020-09-04
Anticipated expiration: 2040-05-27
Also published as: CN111627458B

Abstract

本发明提供一种声源分离方法及设备，该方法包括：对待分离的混合语音数据进行时频变换，确定对应的混合语音频谱数据，所述混合语音数据包括目标语音数据与非目标语音数据；将所述混合语音频谱数据输入到采用密集卷积网络的声源分离模型，根据输出结果确定所述混合语音数据中的目标语音数据，其中，所述声源分离模型通过以混合语音样本的频谱数据为输入，以输出理想比率掩模IRM为目标进行模型训练得到。本发明提供的声源分离方法及设备，解决了现有的声源分离方法存在的计算复杂、分离质量较低的问题。

Description

一种声源分离方法及设备

技术领域

本发明涉及声源分离技术领域，特别涉及一种声源分离方法及设备。

背景技术

声源分离是指从混合在一起的多个声源发出的语音信号中，分离出每个声源对应的独立语音信号的过程。声源分离可应用于回声消除、应答词消除、目标识别、语音识别等听觉场景分析中。该问题的研究对提高目标检测与识别类系统的抗噪声性能有十分重要的意义。目前针对该问题的解决方法大致可以分为两类:盲分离方法和基于模型的分离方法。

盲源分离就是在对声源信息未知的情况下，通过统计的方法把不同声源里面的统计特性提取出来，从混合信号中实现对声源信号的分离；基于模型的分离方法，目前很多采用深度学习的方式进行声源分离，具体先将需要分离的声源信号从时域转到频域，然后用神经网络训练得到的频域信号中各个频率点属于目标语音的概率，将频域信号再乘上该概率，反变换到时域，进而得到目标语音信号。

目前利用神经网络进行模型训练，解决声源分离问题时，神经网络中数据层结构较为复杂，控制参数相对较多，造成较大的计算量。且随着网络层数的加深，神经网络在训练过程中的前传信号和梯度信号在经过很多层之后会出现衰减，造成梯度消失和数据特征传播减弱等问题，因而导致训练得到的模型进行声源分离时质量的下降。因此，目前进行声源分离的方法存在计算复杂、分离质量较低的问题。

发明内容

本发明提供了一种声源分离方法及设备，用以解决现有的声源分离方法存在的计算复杂、分离质量较低的问题。

根据本发明实施例的第一方面，提供一种声源分离方法，该方法包括：

对待分离的混合语音数据进行时频变换，确定对应的混合语音频谱数据，所述混合语音数据包括目标语音数据与非目标语音数据；

将所述混合语音频谱数据输入到采用密集卷积网络的声源分离模型，根据输出结果确定所述混合语音数据中的目标语音数据，其中，所述声源分离模型通过以混合语音样本的频谱数据为输入，以输出理想比率掩模IRM为目标进行模型训练得到。

可选地，所述对待分离的混合语音数据进行时频变换，确定对应的混合语音频谱数据，包括：

利用设定的帧长和帧移对待分离的混合语音数据进行分帧，并对得到的各帧语音数据加窗后进行短时傅里叶变换，确定对应的混合语音频谱数据。

可选地，所述帧长和帧移根据待分离的混合语音数据的短时平稳特征确定，所述加窗对应的窗口长度等于所述帧长。

可选地，所述密集卷积网络包括两个连接的密集连接模块，各密集连接模块包括采用卷积运算的三个瓶颈层，各密集连接模块的最后一个瓶颈层之后连接一个过渡层，所述过渡层用于对输入的特征图进行调整，使输出的特征图与输入所述密集卷积网络的数据对应的特征图大小相同。

可选地，各瓶颈层采用的卷积运算为1×1卷积与3×3卷积级联得到的卷积运算，所述过渡层采用的卷积运算为1×1卷积与3×3卷积级联得到的卷积运算。

可选地，所述以混合语音样本的频谱数据为输入，以输出理想比率掩模IRM为目标进行模型训练，包括：

分别获取相同时长的目标语音样本和非目标语音样本，并将所述目标语音样本和非目标语音样本叠加后得到混合语音样本；

对所述混合语音样本进行分帧、加窗及短时傅里叶变换，得到混合语音样本的频谱数据，并根据IRM算法确定对应的IRM；

以不同混合语音样本的频谱数据及对应的IRM作为训练样本，将混合语音样本的频谱数据，输入到采用密集卷积网络的网络模型，以输出IRM为目标，调整所述网络模型的模型参数，得到所述声源分离模型。

可选地，所述以输出IRM为目标，调整所述网络模型的模型参数，包括：

将所述网络模型输出的IRM与训练样本中的IRM进行对比，利用预设的损失函数进行回归训练，调整所述网络模型的模型参数。

可选地，所述预设的损失函数为如下加权的欧几里得损失函数：

其中，N为所述网络模型一次批处理中样本的个数，Xⁱ为输入所述网络模型的频谱数据，W为所述网络模型的加权控制参数，θ为所述网络模型的偏置控制参数，f(Xⁱ,W,θ)为所述网络模型预测的IRM，Yⁱ为所述Xⁱ在混合语音样本中对应的IRM，Y_w为根据所述Yⁱ计算的梯度权重。

可选地，还包括：

若输入所述网络模型的频谱数据在混合语音样本中对应的IRM大于预设阈值，确定所述频谱数据对应的权重为所述对应的IRM的倒数，否则，确定所述权重为所述预设阈值的倒数。

可选地，所述根据输出结果确定所述混合语音数据中的目标语音数据，包括：

将所述混合语音频谱数据与所述声源分离模型输出的IRM相乘后进行短时傅里叶反变换，得到所述混合语音数据中的目标语音数据。

根据本发明实施例的第二方面，提供一种声源分离设备，包括：

预处理模块，用于对待分离的混合语音数据进行时频变换，确定对应的混合语音频谱数据，所述混合语音数据包括目标语音数据与非目标语音数据；

声源分离模块，用于将所述混合语音频谱数据输入到采用密集卷积网络的声源分离模型，根据输出结果确定所述混合语音数据中的目标语音数据，其中，所述声源分离模型通过以混合语音样本的频谱数据为输入，以输出理想比率掩模IRM为目标进行模型训练得到。

可选地，所述预处理模块对待分离的混合语音数据进行时频变换，确定对应的混合语音频谱数据，包括：

可选地，所述声源分离模块以混合语音样本的频谱数据为输入，以输出理想比率掩模IRM为目标进行模型训练，包括：

可选地，所述声源分离模块以输出IRM为目标，调整所述网络模型的模型参数，包括：

可选地，所述声源分离模块还用于：

可选地，所述声源分离模块根据输出结果确定所述混合语音数据中的目标语音数据，包括：

根据本发明实施例的第三方面，提供一种声源分离设备，包括：存储器和处理器；其中：

所述存储器用于存储程序；

所述处理器用于执行所述存储器中的程序，包括如下步骤：

可选地，所述处理器对待分离的混合语音数据进行时频变换，确定对应的混合语音频谱数据，包括：

可选地，所述处理器以混合语音样本的频谱数据为输入，以输出理想比率掩模IRM为目标进行模型训练，包括：

可选地，所述处理器以输出IRM为目标，调整所述网络模型的模型参数，包括：

可选地，所述处理器还用于：

可选地，所述处理器根据输出结果确定所述混合语音数据中的目标语音数据，包括：

根据本发明实施例的第四方面，提供一种芯片，所述芯片与设备中的存储器耦合，使得所述芯片在运行时调用所述存储器中存储的程序指令，实现本申请实施例上述各个方面以及各个方面涉及的任一可能设计的方法。

根据本发明实施例的第五方面，提供一种计算机可读存储介质，该计算机存储介质存储有程序指令，当其在计算机上运行时，使得计算机执行本发明实施例上述各个方面以及各个方面涉及的任一可能设计的方法。

根据本发明实施例的第六方面，提供一种计算机程序产品，当所述计算机程序产品在电子设备上运行时，使得所述电子设备执行实现本申请实施例上述各个方面以及各个方面涉及的任一可能设计的方法。

利用本发明提供的声源分离方法及设备，具有以下有益效果：

本发明提供的声源分离方法及设备，采用密集卷积网络进行声源分离模型的训练，利用训练得到的模型进行声源分离，解决了现有的声源分离方法存在的计算复杂、分离质量较低的问题。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中提供的一种声源分离方法示意图；

图2为本发明实施例中提供的一种密集卷积神经网络的结构示意图；

图3为本发明实施例中提供的一种声源分离设备的示意图；

图4为本发明实施例中提供的一种声源分离设备的结构示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。本发明实施例提供播放语音消息的方法应用了人工智能技术，为了方便理解，下面对本发明实施例中涉及的名词进行解释：

1)深度学习：是机器学习领域中一个新的研究方向，指学习样本数据的内在规律和表示层次，通过设计建立适量的神经元计算节点和多层运算层次结构，通过网络的学习和调优，建立起从输入到输出的函数关系，从而尽可能的逼近现实的关联关系；

2)卷积神经网络(Convolutional Neural Networks，CNN)：是一类包含卷积计算且具有深度结构的前馈神经网络，是深度学习的代表算法之一；卷积神经网络具有表征学习能力，可以进行监督学习和非监督学习，具有隐含层内卷积核参数共享和层间连接稀疏的特点，因此能够以较小的计算量对格点化特征例如像素和音频等进行学习，具有稳定的学习效果。

目前利用神经网络进行模型训练，解决声源分离问题时，神经网络中数据层结构较为复杂，控制参数相对较多，造成较大的计算量，且存在梯度消失和数据特征传播减弱等问题，导致训练得到的模型进行声源分离时质量的下降。

此外，目前神经网络把训练目标当成分类问题，通常使用理想比率掩模(IdeaRatio Mask，IRM)或理想二值掩模(Idea Binary Mask，IBM)作为目标函数进行训练，即训练得到各个点属于目标语音的概率。

其中，理想二值掩模是通过比较语音和非目标能量构建的，而理想比率掩模被定义为目标语音能量除以目标语音和非目标语音能量之和，相比理想二值掩模精确度更高。因此，采用理想二值掩模作为目标函数训练的模型对语音的分离较为粗糙，分离质量相对较差，以理想比率掩模作为目标函数训练的模型对语音的分离质量更好。

但是目前采用理想比率掩模作为目标函数训练模型时，所用的神经网络模型都是包含全连接层的，只能处理定长的输入数据。因此，目前进行声源分离的方法还存在无法处理不定长语音数据的问题。

鉴于此，本发明实施例提供一种声源分离方法，建立采用密集卷积网络的声源分离模型，利用训练的模型进行声源分离，解决了现有的声源分离方法存在的计算复杂、分离质量较低的问题，同时，该模型不限制输入语音的长度，能够用于可变时长的输入语音，因此，还能解决现有声源分离方法存在的无法处理不定长语音数据的问题。

实施例1

本发明实施例提供一种声源分离方法，如图1所示，该方法包括：

步骤S101，对待分离的混合语音数据进行时频变换，确定对应的混合语音频谱数据，所述混合语音数据包括目标语音数据与非目标语音数据；

本发明实施例提供的声源分离方法应用于语音分离、语音识别、目标识别等需要进行语音监测及识别的场景中，例如声学回声消除、应答词消除、同时发声目标的分离与跟踪等。

获取到待分离的混合语音数据后，利用设定的帧长和帧移对待分离的混合语音数据进行分帧，并对得到的各帧语音数据加窗后进行短时傅里叶变换，确定对应的混合语音频谱数据。其中，设定的帧长和帧移根据待分离的混合语音数据的短时平稳特征确定，加窗对应的窗口长度等于所述帧长。

具体的，对混合语音数据进行分帧时，采用交叠分段的方法，使帧与帧之间平滑过渡，保持其连续性。目前在语音处理中，通常语音帧的大小在20ms至40ms之间，前一帧与后一帧的交叠部分即帧移通常在10ms至20ms之间。本申请实施例中可对分离混合语音的短时平稳特性进行分析，根据分析得到的混合语音数据的短时平稳特征选择合适的帧长和帧移，进行分帧操作。一般认为输入信号是10-30ms内的短时平稳信号，因此本实施例中可设置帧长为25ms及帧移为10ms进行分帧操作。

分帧之后对各帧混合语音数据加窗后进行短时傅里叶变换，或者，不加窗直接对各帧混合语音数据进行短时傅里叶变换，从而得到对应的频谱数据。加窗能够让一帧语音信号的幅度在两端渐变到零，可以提高傅里叶变换结果(即频谱)的分辨率，因此，可以通过试验对加窗及不加窗处理的傅里叶变换效果进行对比，选择处理效果更好的方法。对分帧后的语音数据加窗时，根据处理需求选择合适的窗函数，或者对不同窗函数进行试验后，选择傅里叶变换效果相对较好的窗函数。进行短时傅里叶变换时，采用512点的短时傅里叶变换，变换后得到257个频率特征点，对应得到一帧混合语音数据的频谱数据。

对混合语音数据进行上述分帧、加窗、短时傅里叶变换等处理时，具体可采用现有技术实现，这里不再详述。

上述通过短时傅里叶变换得到的混合语音数据对应的所有频率特征点作为混合语音频谱数据，进行下一步处理。该频谱数据为语谱图(语音频谱图)形式。

本申请实施例中通过短时傅里叶变换确定混合语音数据的频谱数据即频谱图时，优选采用对数频谱图，能够使频谱图中振幅较低的成分相对高振幅成分得以拉高，以便观察掩盖在低幅噪声中的周期信号。

步骤S102，将所述混合语音频谱数据输入到采用密集卷积网络的声源分离模型，根据输出结果确定所述混合语音数据中的目标语音数据，其中，所述声源分离模型通过以混合语音样本的频谱数据为输入，以输出理想比率掩模IRM为目标进行模型训练得到。

通过上述步骤确定待分离的混合语音数据对应的混合语音频谱数据后，将该频谱数据输入到采用密集卷积网络的声源分离模型，根据该声源分离模型输出的结果确定混合语音数据中的目标语音数据。

参照图2，为本发明实施例提供的一种密集卷积神经网络结构示意图。如图所示，上述声源分离模型中采用的密集卷积网络包括两个连接的密集卷积模块，每个密集卷积模块包括采用卷积运算的三个瓶颈层，各密集连接模块的最后一个瓶颈层之后连接一个过渡层，所述过渡层用于对输入的特征图进行调整，使输出的特征图与输入所述密集卷积网络的数据对应的特征图大小相同。

上述各瓶颈层采用的卷积运算为1×1卷积与3×3卷积级联得到的卷积运算，其中，1×1卷积包括256个卷积核，3×3卷积包括64个卷积核，通道增长率为64。上述过渡层采用的卷积运算为1×1卷积与3×3卷积级联得到的卷积运算，用于改变输入的特征图的大小，以便于过渡到下一密集连接模块或下一层。图2中Conv_256表示采用256个卷积核进行的卷积运算，Conv_64表示采用64个卷积核进行的卷积运算，Conv_1表示采用1个卷积核进行的卷积运算。本发明实施例中过渡层不包括池化、步长为2的卷积以及其它降采样层，因此网络中每个密集连接模块输出的特征图大小都和原始输入频谱数据的特征图大小相同。

上述密集卷积网络中各层进行卷积操作时，卷积核依次与输入数据中不同位置的数据块做卷积，通过多个卷积核来学习出输入数据的不同特征，对应得到多个特征图，作为下一层级的输入。密集卷积网络中每一层的输入来自之前所有层的输出，具体通过拼接操作对之前所有层输出的特征图进行拼接后，再输入至下一层。

本发明实施例中密集卷积网络中还包括修正线性单元(Rectified linear unit，ReLU)作为神经元的激活函数，ReLU单元能够使一部分神经元的输出为0，保证了网络的稀疏性，并且减少了网络中各控制参数的相互依存关系，能够缓解过拟合问题的发生。

上述密集卷积网络中，最后一个密集连接模块之后连接的过渡层输出的数据，经包括1个卷积核的卷积操作后，得到密集卷积网络最终的输出数据。

本实施例中采用的声源分离模型通过以混合语音样本的频谱数据为输入，以输出理想比率掩模IRM为目标进行模型训练得到。

具体的，分别获取相同时长的目标语音样本和非目标语音样本，并将所述目标语音样本和非目标语音样本叠加后得到混合语音样本。得到混合语音样本后，对该混合语音样本进行分帧、加窗及短时傅里叶变换，得到混合语音样本的频谱数据，并根据IRM算法确定对应的IRM。通过获取多组混合语音样本，以不同混合语音样本的频谱数据及对应的IRM作为训练样本，将混合语音样本的频谱数据，输入到采用密集卷积网络的网络模型，以输出IRM为目标，调整所述网络模型的模型参数，得到所述声源分离模型。

IRM反映混合语音的频谱数据中各个频率点属于目标语音的概率，计算公式如下：

其中，m表示第m帧语音数据，c表示语音数据的频谱数据中第c个频率点，S²表示目标语音频域的能量，D²表示非目标语音频域的能量。

通过对上述目标语音样本和非目标语音样本分别进行分帧、加窗、短时傅里叶变换等操作得到对应的频谱数据，根据频谱数据确定目标语音及非目标语音的频域的能量，进而计算目标语音对应的IRM。

上述获取训练样本时，可以以混合语音样本的频谱数据及对应的IRM组成训练对，利用不同时长或不同类型的混合语音数据对应的训练对构成数据集，来作为训练样本集，利用该训练样本集进行模型训练。

上述对该混合语音样本进行分帧、加窗及短时傅里叶变换，得到混合语音样本的频谱数据，采用与上述步骤S101中相同的方法，此处不再重述。

本实施例中进行模型训练时，以输出IRM为目标，调整所述网络模型的模型参数。具体实施为，将所述网络模型输出的IRM与训练样本中的IRM进行对比，利用预设的损失函数进行回归训练，调整所述网络模型的模型参数。

上述预设的损失函数为加权的欧几里得损失函数，计算公式如下：

其中，N为所述网络模型一次批处理中样本的个数，Xⁱ为输入所述网络模型的频谱数据，W为所述网络模型的加权控制参数，θ为所述网络模型的偏置控制参数，f(Xⁱ,W,θ)为所述网络模型预测的IRM，Yⁱ为所述Xⁱ在混合语音样本中对应的IRM，即真实IRM，Y_w为根据所述Yⁱ计算的梯度权重，若真实IRM较小，则Y_w较大，若真实IRM较大，则Y_w较小。

本实施例中，若输入所述网络模型的频谱数据在混合语音样本中对应的IRM大于预设阈值，确定所述频谱数据对应的权重为所述对应的IRM的倒数，否则，确定所述权重为所述预设阈值的倒数。即，Y_w根据如下公式确定：

其中，a为上述的预设阈值。本实施例中a为常数值0.05。

上述采用加权的损失函数能够解决网络模型的预测值和目标值相差较小时损失函数精度不够的问题。因为如果损失函数不加权，当模型的预测值和目标值相差较大时，根据损失函数进行回归训练时就会特别关注相差较大的情况，而导致相差值较小的情况可能被忽略，对损失函数的精度影响较大。

通过上述训练过程就得到本发明实施例采用的声源分离模型。将上述步骤中待分离的混合语音数据对应的混合语音频谱数据输入该声源分离模型，得到该模型输出的IRM，然后将混合语音频谱数据与该声源分离模型输出的IRM相乘后进行短时傅里叶反变换，得到所述混合语音数据中的目标语音数据。

本实施例中混合语音数据中还可以包括多个目标语音，进行训练时将包括不同目标语音及非目标语音的混合语音数据及各目标语音对应的IRM作为训练样本，以不同目标语音对应的IRM为目标进行训练即可，具体训练过程与上述训练过程相同。进行声源分离时，将包括不同目标语音的混合语音数据输入到训练得到的模型中，得到模型输出的各目标语音对应的IRM，然后将混合语音的频谱数据与模型输出的IRM相乘后进行短时傅里叶反变换，就能得到混合语音数据中各目标语音数据。

本发明实施例提供的上述声源分离方法，采用密集卷积网络进行声源分离模型的训练，并利用欧几里得损失函数进行回归训练，利用训练得到的模型进行声源分离，解决了现有的声源分离方法存在的计算复杂、分离质量较低的问题。此外，由于密集卷积网络中不包含全连接层，因此，声源分离模型能够用于可变时长的输入语音，解决了现有声源分离方法存在的无法处理不定长语音数据的问题。

实施例2

以上对本发明中一种声源分离方法进行说明，以下对执行上述操作方法的声源分离设备进行说明。

请参阅图3，本发明实施例提供一种声源分离设备，包括：

预处理模块301，用于对待分离的混合语音数据进行时频变换，确定对应的混合语音频谱数据，所述混合语音数据包括目标语音数据与非目标语音数据；

声源分离模块302，用于将所述混合语音频谱数据输入到采用密集卷积网络的声源分离模型，根据输出结果确定所述混合语音数据中的目标语音数据，其中，所述声源分离模型通过以混合语音样本的频谱数据为输入，以输出理想比率掩模IRM为目标进行模型训练得到。

可选地，所述声源分离模块还用于：

上面从模块化功能实体的角度对本申请实施例中的声源分离设备进行了描述，下面从硬件处理的角度对本申请实施例中的声源分离设备进行描述。

实施例3

请参阅图4，本申请实施例中声源分离设备的另一个实施例包括：

处理器401、存储器402、收发器409以及总线系统411；

所述存储器用于存储程序；

所述处理器用于执行所述存储器中的程序，包括如下步骤：

图4是本发明实施例提供的一种声源分离设备结构示意图，该设备400可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(英文全称：centralprocessing units，英文简称：CPU)401(例如，一个或一个以上处理器)和存储器402，一个或一个以上存储应用程序404或数据406的存储介质403(例如一个或一个以上海量存储设备)。其中，存储器402和存储介质403可以是短暂存储或持久存储。存储在存储介质403的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对信息处理装置中的一系列指令操作。更进一步地，处理器401可以设置为与存储介质403通信，在设备400上执行存储介质403中的一系列指令操作。

设备400还可以包括一个或一个以上电源410，一个或一个以上有线或无线网络接口407，一个或一个以上输入输出接口408，和/或，一个或一个以上操作系统405，例如Windows Server，Mac OS X，Unix，Linux，FreeBSD等。

可选地，所述处理器还用于：

本发明实施例还提供一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行上述实施例提供的声源分离方法。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置和模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。

所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘(solidstate disk，SSD))等。

以上对本申请所提供的技术方案进行了详细介绍，本申请中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种声源分离方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述对待分离的混合语音数据进行时频变换，确定对应的混合语音频谱数据，包括：

3.根据权利要求2所述的方法，其特征在于，所述帧长和帧移根据待分离的混合语音数据的短时平稳特征确定，所述加窗对应的窗口长度等于所述帧长。

4.根据权利要求1所述的方法，其特征在于，所述密集卷积网络包括两个连接的密集连接模块，各密集连接模块包括采用卷积运算的三个瓶颈层，各密集连接模块的最后一个瓶颈层之后连接一个过渡层，所述过渡层用于对输入的特征图进行调整，使输出的特征图与输入所述密集卷积网络的数据对应的特征图大小相同。

5.根据权利要求4所述的方法，其特征在于，各瓶颈层采用的卷积运算为1×1卷积与3×3卷积级联得到的卷积运算，所述过渡层采用的卷积运算为1×1卷积与3×3卷积级联得到的卷积运算。

6.根据权利要求1所述的方法，其特征在于，所述以混合语音样本的频谱数据为输入，以输出理想比率掩模IRM为目标进行模型训练，包括：

7.根据权利要求6所述的方法，其特征在于，所述以输出IRM为目标，调整所述网络模型的模型参数，包括：

8.根据权利要求7所述的方法，其特征在于，所述预设的损失函数为如下加权的欧几里得损失函数：

9.根据权利要求8所述的方法，其特征在于，还包括：

10.根据权利要求1所述的方法，其特征在于，所述根据输出结果确定所述混合语音数据中的目标语音数据，包括：

11.一种声源分离设备，其特征在于，包括：

12.一种声源分离设备，其特征在于，包括：存储器和处理器；

其中，所述存储器用于存储程序；

所述处理器用于执行所述存储器中的程序，实现如权利要求1～10任一所述方法的步骤。

13.一种计算机程序介质，其特征在于，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1～10任一所述方法的步骤。