CN111429937B

CN111429937B - 语音分离方法、模型训练方法及电子设备

Info

Publication number: CN111429937B
Application number: CN202010387355.6A
Authority: CN
Inventors: 艾文; 冯大航; 陈孝良
Original assignee: Beijing SoundAI Technology Co Ltd
Current assignee: Beijing SoundAI Technology Co Ltd
Priority date: 2020-05-09
Filing date: 2020-05-09
Publication date: 2023-09-15
Anticipated expiration: 2040-05-09
Also published as: CN111429937A

Abstract

本发明提供一种语音分离方法、模型训练方法及电子设备，所述语音分离方法包括：获取待处理语音的语音特征，所述待处理语音中包括至少两个声源的语音信号，所述语音特征至少包括相位特征；将所述待处理语音的语音特征输入预先训练的语音分离网络模型，以对所述待处理语音进行语音分离，得到语音分离结果。本发明实施例能够提高语音分离的效果。

Description

语音分离方法、模型训练方法及电子设备

技术领域

本发明涉及语音信号处理技术领域，尤其涉及一种语音分离方法、模型训练方法及电子设备。

背景技术

在嘈杂的声学环境中，比如在鸡尾酒会中，通常同时存在多个不同的声源，例如，多个人说话的声音，餐具的碰撞声以及音乐声等。语音分离可以将目标语音从背景干扰中分离出来。语音分离属于基本的任务类型，应用范围较为广泛，包括听力假体、移动通信、鲁棒的自动语音以及说话人识别等各种应用领域。

然而，目前在训练语音分离网络模型的过程中，无法将分离出的语音与实际声源进行对应，从而训练的语音分离网络模型准确性较低，导致语音分离的效果较差。

发明内容

本发明实施例提供一种语音分离方法、模型训练方法及电子设备，以解决现有技术中在训练语音分离网络模型的过程中，无法将分离出的语音与实际声源进行对应，从而训练的语音分离网络模型准确性较低，导致语音分离的效果较差的问题。

为了解决上述技术问题，本发明是这样实现的：

第一方面，本发明实施例提供了一种语音分离方法，所述方法包括：

获取待处理语音的语音特征，所述待处理语音中包括至少两个声源的语音信号，所述语音特征至少包括相位特征；

将所述待处理语音的语音特征输入预先训练的语音分离网络模型，以对所述待处理语音进行语音分离，得到语音分离结果。

第二方面，本发明实施例提供了一种模型训练方法，所述方法包括：

获取训练样本的语音特征，所述语音特征至少包括相位特征；

基于所述训练样本的语音特征训练语音分离网络模型。

第三方面，本发明实施例提供了一种电子设备，所述电子设备包括：

获取模块，用于获取待处理语音的语音特征，所述待处理语音中包括至少两个声源的语音信号，所述语音特征至少包括相位特征；

输入模块，用于将所述待处理语音的语音特征输入预先训练的语音分离网络模型，以对所述待处理语音进行语音分离，得到语音分离结果。

第四方面，本发明实施例提供了一种电子设备，所述电子设备包括：

获取模块，用于获取训练样本的语音特征，所述语音特征至少包括相位特征；

训练模块，用于基于所述训练样本的语音特征训练语音分离网络模型。

第五方面，本发明实施例提供了一种电子设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序，所述程序被所述处理器执行时实现如第一方面所述的语音分离方法中的步骤，或者，所述程序被所述处理器执行时实现如第二方面所述的模型训练方法中的步骤。

第六方面，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面所述的语音分离方法中的步骤，或者，所述计算机程序被处理器执行时实现如第二方面所述的模型训练方法中的步骤。

本发明实施例中，在模型训练的过程中，获取训练样本的语音特征，所述语音特征至少包括相位特征；基于所述训练样本的语音特征训练语音分离网络模型，这样，能够基于相位特征将分离的语音与实际声源进行对应，从而可以提高训练的语音分离网络模型的准确性。在语音分离的过程中，获取待处理语音的语音特征，所述待处理语音中包括至少两个声源的语音信号，所述语音特征至少包括相位特征；将所述待处理语音的语音特征输入预先训练的语音分离网络模型，以对所述待处理语音进行语音分离，得到语音分离结果，这样，能够基于相位特征将分离的语音与实际声源进行对应，从而提高语音分离的效果。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种语音分离方法的流程图；

图2是本发明实施例提供的一种语音分离网络模型的结构示意图；

图3是本发明实施例提供的一种模型训练方法的流程图；

图4是本发明实施例提供的一种电子设备的结构示意图之一；

图5是本发明实施例提供的一种电子设备的结构示意图之二；

图6是本发明实施例提供的一种电子设备的结构示意图之三；

图7是本发明实施例提供的一种电子设备的结构示意图之四；

图8是本发明实施例提供的一种电子设备的结构示意图之五。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明实施例中，电子设备包括但不限于手机、平板电脑、笔记本电脑、掌上电脑、车载移动终端、可穿戴设备、以及计步器等。

参见图1，图1是本发明实施例提供的一种语音分离方法的流程图，如图1所示，包括以下步骤：

步骤101、获取待处理语音的语音特征，所述待处理语音中包括至少两个声源的语音信号，所述语音特征至少包括相位特征。

其中，可以对待处理语音进行特征提取，得到待处理语音的语音特征。所述相位特征，可以是基于多个语音通道获取的相位特征，例如，每个麦克风均可以为一条语音通道，可以通过多个麦克风获取待处理语音，所述相位特征可以为多个麦克风获取的待处理语音的相位特征。所述语音特征还可以包括谱特征，所述谱特征可以是基于多个语音通道获取的谱特征。所述相位特征可以包括IPD(插入相位延迟)参数，或者，还可以包括其他相位相关的特征参数。

步骤102、将所述待处理语音的语音特征输入预先训练的语音分离网络模型，以对所述待处理语音进行语音分离，得到语音分离结果。

其中，所述将所述待处理语音的语音特征输入预先训练的语音分离网络模型，以对所述待处理语音进行语音分离，得到语音分离结果，可以包括：将所述待处理语音的谱特征和相位特征输入预先训练的语音分离网络模型，以对所述待处理语音进行语音分离，得到语音分离结果。所述将所述待处理语音的谱特征和相位特征输入预先训练的语音分离网络模型，可以是，将所述待处理语音的谱特征和相位特征进行拼接后输入预先训练的语音分离网络模型。

或者，所述语音分离网络模型还可以包括第一神经网络模型和第二神经网络模型，所述将所述待处理语音的语音特征输入预先训练的语音分离网络模型，以对所述待处理语音进行语音分离，得到语音分离结果，可以包括：将所述待处理语音的谱特征输入所述第一神经网络模型，以对所述待处理语音进行语音分离，得到第三分离结果；将所述第三分离结果与所述相位特征输入所述第二神经网络模型，以对所述第三分离结果进行语音分离，得到语音分离结果。

或者，所述将所述待处理语音的语音特征输入预先训练的语音分离网络模型，以对所述待处理语音进行语音分离，得到语音分离结果，可以包括：将所述待处理语音的语音特征以及固定波束方向语音的语音特征输入预先训练的语音分离网络模型，以对所述待处理语音进行语音分离，得到语音分离结果。

另外，所述语音分离网络模型可以包括BLSTM(双向长短期记忆网络)模型，或者，可以包括LSTM(长短期记忆网络)模型，或者可以包括RNN(循环神经网络)模型等等，可以用于语音分离的网络模型均可以作为语音分离网络模型，本发明实施例对此不进行限定。语音分离网络模型还可以包括线性(linear)函数以及sigmoid函数，在实际应用中，如图2所示，以语音分离网络模型用于分离两个声源的语音信号为例，语音分离网络模型可以包括BLSTM模型，BLSTM模型输出两路分离的语音信号的语音特征，线性(linear)函数及sigmoid函数用于对分离的语音信号的语音特征进行降维处理，以减少语音特征的特征信息，第一路输出和第二路输出用于输出分离的语音信号。

本发明实施例中，获取待处理语音的语音特征，所述待处理语音中包括至少两个声源的语音信号，所述语音特征至少包括相位特征，将所述待处理语音的语音特征输入预先训练的语音分离网络模型，以对所述待处理语音进行语音分离，得到语音分离结果，能够基于相位特征将分离的语音与实际声源进行对应，从而提高语音分离的效果。

可选的，所述将所述待处理语音的语音特征输入预先训练的语音分离网络模型之前，所述方法还包括：

将所述待处理语音分为第一语音段和第二语音段，所述第一语音段和所述第二语音段均包括N帧连续的语音信号，所述第一语音段与所述第二语音段均至少包括第i帧语音信号，所述第i帧语音信号为所述待处理语音中的任意一帧语音信号，N大于0，i大于0；

所述将所述待处理语音的语音特征输入预先训练的语音分离网络模型，以对所述待处理语音进行语音分离，得到语音分离结果，包括：

将所述第一语音段的语音特征输入预先训练的语音分离网络模型，得到所述第一语音段的第一分离结果；

将所述第二语音段的语音特征输入所述语音分离网络模型，得到所述第二语音段的第二分离结果；

基于所述第一分离结果和所述第二分离结果获取所述第i帧语音信号的语音分离结果。

其中，所述第一语音段的最后一帧语音信号可以与所述第二语音段的第一帧语音信号相同，均为第i帧语音信号。以N为3，i为3为例，第一语音段可以包括待处理语音的第1帧至第3帧语音信号，第二语音段可以包括待处理语音的第3帧至第5帧语音信号。可以将待处理语音重叠分段，将待处理语音划分为多个两两之间具有相同帧的语音段，并将划分的语音段的语音特征输入语音分离网络模型，进行语音分离。

另外，所述基于所述第一分离结果和所述第二分离结果获取所述第i帧语音信号的语音分离结果，可以是，从所述第一分离结果和所述第二分离结果中确定与所述待处理语音的乘积较大的一项对应的分离结果；基于所述与所述待处理语音的乘积较大的一项对应的分离结果获取所述第i帧语音信号的语音分离结果；或者，还可以是，将第一分离结果与第二分离结果的均值作为所述第i帧语音信号的语音分离结果，等等。

该实施方式中，所述第一语音段与所述第二语音段均至少包括第i帧语音信号，通过将待处理语音进行重叠分段处理，使得每一帧语音信号在语音分离的过程中，可以参考相邻帧的信息，并且能够进行两次语音分离，从而能够提高语音分离的效果。

可选的，所述基于所述第一分离结果和所述第二分离结果获取所述第i帧语音信号的语音分离结果，包括：

基于所述第一分离结果和所述第二分离结果中与所述待处理语音的乘积较大的一项获取所述第i帧语音信号的语音分离结果。

其中，可以基于所述第一分离结果和所述第二分离结果中与所述待处理语音的乘积的绝对值较大的一项获取所述第i帧语音信号的语音分离结果。可以确定所述第一分离结果和所述第二分离结果中与所述待处理语音的乘积的绝对值较大的一项，从与所述待处理语音的乘积的绝对值较大的一项分离结果中提取所述第i帧语音信号的语音分离结果。以第一语音段k1，第二语音段k2为例，可以计算：max(abs(Out_k1(f,t)*X(f,t),Out_k2(f,t)*X(f,t)))，得到与所述待处理语音的乘积的绝对值较大的一项分离结果，Out_k1(f,t)为所述第一分离结果，Out_k2(f,t)为所述第二分离结果，X(f,t)为待处理语音的语音特征。

该实施方式中，从所述第一分离结果和所述第二分离结果中确定与所述待处理语音的乘积较大的一项对应的分离结果；基于所述与所述待处理语音的乘积较大的一项对应的分离结果获取所述第i帧语音信号的语音分离结果，能够依据声源的空间谱的集中程度，将集中程度较高的作为语音分离结果，能够进一步提高语音分离的效果。

可选的，所述语音特征还包括谱特征，所述语音分离网络模型包括第一神经网络模型和第二神经网络模型，所述将所述待处理语音的语音特征输入预先训练的语音分离网络模型，以对所述待处理语音进行语音分离，得到语音分离结果，包括：

将所述待处理语音的谱特征输入所述第一神经网络模型，以对所述待处理语音进行语音分离，得到第三分离结果；

将所述第三分离结果与所述相位特征输入所述第二神经网络模型，以对所述第三分离结果进行语音分离，得到语音分离结果。

其中，所述第一神经网络模型可以为用于语音分离的BLSTM模型，或者，LSTM模型，或者RNN模型等等。所述第二神经网络模型可以为用于语音分离的BLSTM模型，或者，LSTM模型，或者RNN模型等等。所述谱特征可以包括幅度谱特征，或者对数谱特征，等等。

该实施方式中，采用谱特征基于第一神经网络模型进行第一次语音分离，采用相位特征基于第二神经网络模型进行第二次语音分离，通过两次语音分离能够进一步提高语音分离的效果。

可选的，所述将所述待处理语音的语音特征输入预先训练的语音分离网络模型，以对所述待处理语音进行语音分离，得到语音分离结果，包括：

将所述待处理语音的语音特征以及固定波束方向语音的语音特征输入预先训练的语音分离网络模型，以对所述待处理语音进行语音分离，得到语音分离结果。

其中，所述固定波束方向语音可以为预设语音。例如，可以在相对于麦克风的预设位置播放语音，通过麦克风采集该播放的语音，将采集到的语音作为固定波束方向语音。所述固定波束方向语音的语音特征可以包括谱特征，或者可以包括谱特征和相位特征，等等。所述将所述待处理语音的语音特征以及固定波束方向语音的语音特征输入预先训练的语音分离网络模型，可以是，将所述待处理语音的语音特征及固定波束方向语音的语音特征进行拼接后输入预先训练的语音分离网络模型。

该实施方式中，将所述待处理语音的语音特征以及固定波束方向语音的语音特征输入预先训练的语音分离网络模型，以对所述待处理语音进行语音分离，得到语音分离结果，这样，通过增加固定波束方向语音的语音特征，可以增加声源的确认性，从而能够提高语音分离的效果。

参见图3，图3是本发明实施例提供的一种模型训练方法的流程图，如图3所示，包括以下步骤：

步骤201、获取训练样本的语音特征，所述语音特征至少包括相位特征。

其中，可以对训练样本进行特征提取，得到训练样本的语音特征。所述相位特征，可以是基于多个语音通道获取的相位特征，例如，每个麦克风均可以为一条语音通道，可以通过多个麦克风获取训练样本，所述相位特征可以为多个麦克风获取的训练样本的相位特征。所述语音特征还可以包括谱特征，所述谱特征可以是基于多个语音通道获取的谱特征。

步骤202、基于所述训练样本的语音特征训练语音分离网络模型。

其中，所述基于所述训练样本的语音特征训练语音分离网络模型，可以包括：基于所述训练样本的谱特征和相位特征训练语音分离网络模型。所述语音分离网络模型可以包括第一神经网络模型和第二神经网络模型，所述基于所述训练样本的语音特征对用于语音分离的语音分离网络模型进行训练，可以包括：基于所述训练样本的谱特征和相位特征对所述第一神经网络模型和所述第二神经网络模型进行训练。

另外，所述语音分离网络模型还可以包括第一神经网络模型和第二神经网络模型，所述将所述待处理语音的语音特征输入预先训练的语音分离网络模型，以对所述待处理语音进行语音分离，得到语音分离结果，可以包括：将所述待处理语音的谱特征输入所述第一神经网络模型，以对所述待处理语音进行语音分离，得到第三分离结果；将所述第三分离结果与所述相位特征输入所述第二神经网络模型，以对所述第三分离结果进行语音分离，得到语音分离结果。

需要说明的是，在实际应用中，若共有N个声源，进行语音分离的过程为，输入-输出*N，在计算损失函数loss时，label和需要一一对应，对应过程中因为排序问题会出现置换问题，例如，分离两条语音时，A，B分别表示两个模型输出的/>C，D分别表示标签labels，会出现无法确定A对应D，B对应C，还是A对应C，B对应D，从而会使得训练的语音分离网络模型不准确，本发明实施例可以通过相位特征将同一方向的声源的语音信号通过同一路输出，从而不会出现置换问题，可以提高训练的语音分离网络模型的准确性。

进一步的，可以采用本发明实施例中的模型训练方法对语音分离网络模型进行训练，并将训练得到的语音分离网络模型作为上述实施例中的语音分离方法中的预先训练的语音分离网络模型。

本发明实施例中，在模型训练的过程中，获取训练样本的语音特征，所述语音特征至少包括相位特征；基于所述训练样本的语音特征训练语音分离网络模型，这样，能够基于相位特征将分离的语音与实际声源进行对应，从而可以提高训练的语音分离网络模型的准确性，进而采用训练的语音分离网络模型进行语音分离，能够提高语音分离的效果。

可选的，所述基于所述训练样本的语音特征训练语音分离网络模型之前，所述方法还包括：

将所述训练样本分为第三语音段和第四语音段，所述第三语音段和所述第四语音段包括M帧连续的语音信号，所述第三语音段与所述第四语音段均至少包括第j帧语音信号，所述第j帧语音信号为所述训练样本中的任意一帧语音信号，M大于0，j大于0；

所述基于所述训练样本的语音特征对用于语音分离的语音分离网络模型进行训练，包括：

将所述第三语音段的语音特征输入用于语音分离的语音分离网络模型，得到所述第三语音段的第三分离结果；

将所述第四语音段的语音特征输入所述语音分离网络模型，得到所述第四语音段的第四分离结果；

基于所述第j帧语音信号的语音分离结果与目标输出更新所述语音分离网络模型的参数；

其中，所述第j帧语音信号的语音分离结果基于所述第三分离结果和所述第四分离结果两者中置信度评分较高的一项获得。

其中，所述第三语音段的最后一帧语音信号可以与所述第四语音段的第一帧语音信号相同，均为第j帧语音信号。以M为4，j为4为例，第三语音段可以包括训练样本的第1帧至第4帧语音信号，第四语音段可以包括训练样本的第4帧至第7帧语音信号。可以将训练样本重叠分段，将训练样本划分为多个两两之间具有相同帧的语音段，并将划分的语音段的语音特征输入语音分离网络模型，进行模型训练。M的值可以与N的值相同，也可以与N的值不同。

另外，可以基于所述第三分离结果和所述第四分离结果中置信度评分较高的一项获取所述第j帧语音信号的语音分离结果。可以确定所述第三分离结果和所述第四分离结果中置信度评分较高的一项，从置信度评分较高的一项分离结果中提取所述第j帧语音信号的语音分离结果。

进一步的，以所述语音分离网络模型的输出为两个声源的语音信号为例，分为声源A和声源B，声源的方向分别为θ_A和θ_B，对于训练样本的每个语音段，存在以下几种情况：两个声源的语音都占有足够的时长，可以认为该语音段为确认的双声源段，语音分离网络模型的输出顺序可以由θ_A和θ_B确定，假设θ_A＜θ_B，则在训练的过程中可以认为语音分离网络模型的输出结果中声源A的语音信号为第一路输出，声源B的语音信号为第二路输出；若只有一个声源的语音，且时长超过一定门限，则可以认为该段为确认的单声源段，语音分离网络模型的两路输出中，第一路输出为分离的语音，第二路输出为0；若没有声源的语音，则语音分离网络模型的输出全为0。另外，为避免语音分离所需的信息不够，语音分离网络模型的输出可能会不可控的情况，可以将语音段中有1个或者2个声源的语音，其中至少有1个声源的语音的时长较小的语音段不参与语音分离网络模型的训练。

该实施方式中，所述第三语音段与所述第四语音段均至少包括第j帧语音信号，通过将训练样本进行重叠分段处理，使得每一帧语音信号在语音分离的过程中，可以参考相邻帧的信息，并且能够进行两次语音分离，能够提高语音分离网络模型的准确性，进而能够提高语音分离的效果。

可选的，所述置信度评分基于所述目标输出与所述语音分离网络模型的输出确定；或者

所述置信度评分基于语音增强值与实际语音值确定，所述语音增强值为所述语音分离网络模型的输入与声源的波束系数的乘积，所述实际语音值为所述语音分离网络模型的输出与输入的乘积。

其中，所述置信度评分基于所述目标输出与所述语音分离网络模型的输出确定，可以是，计算所述语音分离网络模型对语音段中每帧语音信号进行语音分离的输出与目标输出的差值的平方，将该差值的平方值乘以每帧语音信号频点的权重，得到第一乘积，对语音段中多帧语音信号对应的第一乘积求和得到该语音段的置信度评分。在实际应用中，以k语音段为例，k语音段中包括声源A和声源B的语音信号，例如，k语音段中分离出的声源A的语音信号的置信度评分可以为：cos t_k＝∑_f,tWeight(f,t)*[Mask(f,t)-Out_k(f,t)]²，Weight(f,t)为每帧语音信号频点的权重，Mask(f,t)为声源A的语音信号的目标输出，Out_k(f,t)为语音分离网络模型从k语音段中分离出的声源A的语音信号，f为频率，t为时间。

另外，所述置信度评分基于语音增强值与实际语音值确定，可以是，计算所述语音增强值与实际语音值的差值的平方，将该差值的平方值乘以每帧语音信号频点的权重，得到第二乘积，对语音段中多帧语音信号对应的第一乘积求和得到该语音段的置信度评分。在实际应用中，以k语音段为例，k语音段中包括声源A和声源B的语音信号，例如，k语音段中分离出的声源A的语音信号的置信度评分可以为：

其中，Weight(f,t)为每帧语音信号频点的权重，beam(f,t)为声源A所在方向波束的波束系数，X(f,t)为所述语音分离网络模型输入的语音信号的语音特征，Out_k(f,t)为语音分离网络模型从k语音段中分离出的声源A的语音信号，f为频率，t为时间。

该实施方式中，所述置信度评分基于所述目标输出与所述语音分离网络模型的输出确定，能够将靠近目标输出的作为语音分离结果，能够提高语音分离网络模型的准确性，从而提高语音分离的效果；或者，所述置信度评分基于语音增强值与实际语音值确定，能够依据声源的空间谱的集中程度，将集中程度较高的作为语音分离结果，能够提高语音分离网络模型的准确性，从而提高语音分离的效果。

可选的，所述语音特征还包括谱特征，所述语音分离网络模型包括第一神经网络模型和第二神经网络模型，所述基于所述训练样本的语音特征对用于语音分离的语音分离网络模型进行训练，包括：

基于所述训练样本的谱特征和相位特征对所述第一神经网络模型和所述第二神经网络模型进行训练。

其中，所述第一神经网络模型可以为用于语音分离的BLSTM模型，或者，LSTM模型，或者RNN模型等等。所述第二神经网络模型可以为用于语音分离的BLSTM模型，或者，LSTM模型，或者RNN模型等等。

该实施方式中，基于所述训练样本的谱特征和相位特征对所述第一神经网络模型和所述第二神经网络模型进行训练，能够提高语音分离网络模型的准确性，从而提高语音分离的效果。

可选的，所述语音分离网络模型的输出包括至少两个声源的语音信号，所述语音分离网络模型输出的至少两个声源的语音信号与目标输出的对应关系基于声源定位确定。

其中，在训练所述语音分离网络模型的过程中，由于训练样本包括多个语音段，语音分离网络模型对每个语音段单独进行语音分离，可能会出现声源的语音信号与目标输出不对应的情况。例如，相邻的两个语音段中前一语音段只有一个声源的语音信号，例如声源B，语音分离网络模型在第一路输出中输出声源B的语音信号，若后一语音段中有两个声源的语音信号，例如声源A和声源B，此时，语音分离网络模型在第二路输出中输出声源B的语音信号，会使得声源的语音信号与目标输出的对应关系错误，可以将声源B的语音信号调整到第一路输出。可以通过声源定位的方式来确定输出顺序，通过声源定位将位于同一方向的声源的语音信号通过语音分离网络模型的同一路输出，从而可以确定所述语音分离网络模型的输出与目标输出的对应关系。

该实施方式中，所述语音分离网络模型的输出包括至少两个声源的语音信号，所述语音分离网络模型输出的至少两个声源的语音信号与目标输出的对应关系基于声源定位确定，能够进一步避免语音分离网络模型的实际输出与目标输出不对应，从而提高语音分离网络模型的准确性，进而提高语音分离的效果。

参见图4，图4是本发明实施例提供的一种电子设备的结构示意图之一，如图4所示，电子设备300包括：

获取模块301，用于获取待处理语音的语音特征，所述待处理语音中包括至少两个声源的语音信号，所述语音特征至少包括相位特征；

输入模块302，用于将所述待处理语音的语音特征输入预先训练的语音分离网络模型，以对所述待处理语音进行语音分离，得到语音分离结果。

可选的，如图5所示，电子设备300还包括：

分段模块303，用于将所述待处理语音分为第一语音段和第二语音段，所述第一语音段和所述第二语音段均包括N帧连续的语音信号，所述第一语音段与所述第二语音段均至少包括第i帧语音信号，所述第i帧语音信号为所述待处理语音中的任意一帧语音信号，N大于0，i大于0；

所述输入模块302包括：

第一输入单元3021，用于将所述第一语音段的语音特征输入预先训练的语音分离网络模型，得到所述第一语音段的第一分离结果；

第二输入单元3022，将所述第二语音段的语音特征输入所述语音分离网络模型，得到所述第二语音段的第二分离结果；

获取单元3023，用于基于所述第一分离结果和所述第二分离结果获取所述第i帧语音信号的语音分离结果。

可选的，所述获取单元3023具体用于：

可选的，所述语音特征还包括谱特征，所述语音分离网络模型包括第一神经网络模型和第二神经网络模型，所述输入模块302具体用于：

可选的，所述输入模块302具体用于：

电子设备能够实现图1的方法实施例中实现的各个过程，为避免重复，这里不再赘述。

参见图6，图6是本发明实施例提供的一种电子设备的结构示意图之三，如图6所示，电子设备400包括：

获取模块401，用于获取训练样本的语音特征，所述语音特征至少包括相位特征；

训练模块402，用于基于所述训练样本的语音特征训练语音分离网络模型。

可选的，如图7所示，所述电子设备400还包括：

分段模块403，用于将所述训练样本分为第三语音段和第四语音段，所述第三语音段和所述第四语音段包括M帧连续的语音信号，所述第三语音段与所述第四语音段均至少包括第j帧语音信号，所述第j帧语音信号为所述训练样本中的任意一帧语音信号，M大于0，j大于0；

所述训练模块402具体用于：

可选的，所述语音特征还包括谱特征，所述语音分离网络模型包括第一神经网络模型和第二神经网络模型，所述训练模块402具体用于：

电子设备能够实现图3的方法实施例中实现的各个过程，为避免重复，这里不再赘述。

请参见图8，图8是本发明实施例提供的一种电子设备的结构示意图之五，如图8所示，电子设备500包括：存储器502、处理器501及存储在所述存储器502上并可在所述处理器501上运行的程序，其中：

在一种实施方式中，所述处理器501读取存储器502中的程序，用于执行：

可选的，所述处理器501还用于执行：

所述处理器501用于执行的所述将所述待处理语音的语音特征输入预先训练的语音分离网络模型，以对所述待处理语音进行语音分离，得到语音分离结果，包括：

可选的，所述处理器501用于执行的所述基于所述第一分离结果和所述第二分离结果获取所述第i帧语音信号的语音分离结果，包括：

可选的，所述语音特征还包括谱特征，所述语音分离网络模型包括第一神经网络模型和第二神经网络模型，所述处理器501用于执行的所述将所述待处理语音的语音特征输入预先训练的语音分离网络模型，以对所述待处理语音进行语音分离，得到语音分离结果，包括：

可选的，所述处理器501用于执行的所述将所述待处理语音的语音特征输入预先训练的语音分离网络模型，以对所述待处理语音进行语音分离，得到语音分离结果，包括：

在另一种实施方式中，所述处理器501读取存储器502中的程序，用于执行：

基于所述训练样本的语音特征训练语音分离网络模型。

可选的，所述处理器501还用于执行：

所述处理器501用于执行的所述基于所述训练样本的语音特征对用于语音分离的语音分离网络模型进行训练，包括：

可选的，所述语音特征还包括谱特征，所述语音分离网络模型包括第一神经网络模型和第二神经网络模型，所述处理器501用于执行的所述基于所述训练样本的语音特征对用于语音分离的语音分离网络模型进行训练，包括：

在图8中，总线架构可以包括任意数量的互联的总线和桥，具体由处理器501代表的一个或多个处理器和存储器502代表的存储器的各种电路链接在一起。总线架构还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口提供接口。

处理器501负责管理总线架构和通常的处理，存储器502可以存储处理器501在执行操作时所使用的数据。

需要说明的是，本发明实施例方法实施例中的任意实施方式都可以被本实施例中的上述电子设备所实现，以及达到相同的有益效果，此处不再赘述。

本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述语音分离方法实施例的各个过程，或者，该计算机程序被处理器执行时实现上述模型训练方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，所述的计算机可读存储介质，如只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本发明的保护之内。

Claims

1.一种语音分离方法，其特征在于，所述方法包括：

将所述待处理语音的语音特征输入预先训练的语音分离网络模型，以对所述待处理语音进行语音分离，得到语音分离结果；

所述将所述待处理语音的语音特征输入预先训练的语音分离网络模型之前，所述方法还包括：

基于所述第一分离结果和所述第二分离结果获取所述第i帧语音信号的语音分离结果；

所述基于所述第一分离结果和所述第二分离结果获取所述第i帧语音信号的语音分离结果，包括：

2.根据权利要求1所述的方法，其特征在于，所述语音特征还包括谱特征，所述语音分离网络模型包括第一神经网络模型和第二神经网络模型，所述将所述待处理语音的语音特征输入预先训练的语音分离网络模型，以对所述待处理语音进行语音分离，得到语音分离结果，包括：

3.根据权利要求1所述的方法，其特征在于，所述将所述待处理语音的语音特征输入预先训练的语音分离网络模型，以对所述待处理语音进行语音分离，得到语音分离结果，包括：

4.一种模型训练方法，其特征在于，所述方法包括：

基于所述训练样本的语音特征训练语音分离网络模型；

所述基于所述训练样本的语音特征训练语音分离网络模型之前，所述方法还包括：

5.根据权利要求4所述的方法，其特征在于，所述置信度评分基于所述目标输出与所述语音分离网络模型的输出确定；或者

6.根据权利要求4所述的方法，其特征在于，所述语音特征还包括谱特征，所述语音分离网络模型包括第一神经网络模型和第二神经网络模型，所述基于所述训练样本的语音特征对用于语音分离的语音分离网络模型进行训练，包括：

7.根据权利要求4所述的方法，其特征在于，所述语音分离网络模型的输出包括至少两个声源的语音信号，所述语音分离网络模型输出的至少两个声源的语音信号与目标输出的对应关系基于声源定位确定。

8.一种电子设备，其特征在于，所述电子设备包括：

输入模块，用于将所述待处理语音的语音特征输入预先训练的语音分离网络模型，以对所述待处理语音进行语音分离，得到语音分离结果；

其中，所述电子设备还包括：

分段模块，用于将所述待处理语音分为第一语音段和第二语音段，所述第一语音段和所述第二语音段均包括N帧连续的语音信号，所述第一语音段与所述第二语音段均至少包括第i帧语音信号，所述第i帧语音信号为所述待处理语音中的任意一帧语音信号，N大于0，i大于0；

所述输入模块包括：

第一输入单元，用于将所述第一语音段的语音特征输入预先训练的语音分离网络模型，得到所述第一语音段的第一分离结果；

第二输入单元，将所述第二语音段的语音特征输入所述语音分离网络模型，得到所述第二语音段的第二分离结果；

获取单元，用于基于所述第一分离结果和所述第二分离结果获取所述第i帧语音信号的语音分离结果；

所述获取单元具体用于：

9.一种电子设备，其特征在于，所述电子设备包括：

训练模块，用于基于所述训练样本的语音特征训练语音分离网络模型；

其中，所述电子设备还包括：

分段模块，用于将所述训练样本分为第三语音段和第四语音段，所述第三语音段和所述第四语音段包括M帧连续的语音信号，所述第三语音段与所述第四语音段均至少包括第j帧语音信号，所述第j帧语音信号为所述训练样本中的任意一帧语音信号，M大于0，j大于0；

所述训练模块具体用于：

10.一种电子设备，其特征在于，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序，所述程序被所述处理器执行时实现如权利要求1至3中任一项所述的语音分离方法中的步骤，或者，所述程序被所述处理器执行时实现如权利要求4至7中任一项所述的模型训练方法中的步骤。