CN112820313B

CN112820313B - 模型训练方法、语音分离方法、装置及电子设备

Info

Publication number: CN112820313B
Application number: CN202011618335.1A
Authority: CN
Inventors: 陈孝良; 冯大航; 赵力; 常乐
Original assignee: Beijing SoundAI Technology Co Ltd
Current assignee: Beijing SoundAI Technology Co Ltd
Priority date: 2020-12-31
Filing date: 2020-12-31
Publication date: 2022-11-01
Anticipated expiration: 2040-12-31
Also published as: CN112820313A

Abstract

本公开提供一种模型训练方法、语音分离方法、装置及电子设备，所述方法包括：将声音信号的语音特征分别输入预先训练的N个第一神经网络模型，得到N个输出结果，所述N个输出结果为从所述声音信号中分离出的N个拾音区域对应的说话人语音的语音特征，N为大于1的整数；将所述声音信号的语音特征输入第二神经网络模型，对所述第二神经网络模型进行训练，其中，用于训练所述第二神经网络模型的损失函数基于所述N个输出结果确定。本公开实施例中，采用训练完成的第二神经网络模型进行语音分离，能够提高语音分离的准确性。

Description

模型训练方法、语音分离方法、装置及电子设备

技术领域

本发明涉及语音处理技术领域，尤其涉及一种模型训练方法、语音分离方法、装置及电子设备。

背景技术

语音是人与人之间进行交流的最自然、最方便及最有效的方式。可以通过语音分离从海量的语音中获取感兴趣的语音。在对语音进行说话人分离的过程中，需要将语音进行切分，再对切分的语音片段标注说话人信息。

目前，根据经验对语音进行切分，切分的语音片段很有可能会包含两个或多个说话人的语音，从而导致进行语音分离的准确率较低。

发明内容

本公开实施例提供一种模型训练方法、语音分离方法、装置及电子设备，以解决现有技术中根据经验对语音进行切分，切分的语音片段很有可能会包含两个或多个说话人的语音，从而导致进行语音分离的准确率较低的问题。

为了解决上述技术问题，本发明是这样实现的：

第一方面，本公开实施例提供了一种模型训练方法，所述方法包括：

将声音信号的语音特征分别输入预先训练的N个第一神经网络模型，得到N个输出结果，所述N个输出结果为从所述声音信号中分离出的N个拾音区域对应的说话人语音的语音特征，N为大于1的整数；

将所述声音信号的语音特征输入第二神经网络模型，对所述第二神经网络模型进行训练，其中，用于训练所述第二神经网络模型的损失函数基于所述N个输出结果确定。

第二方面，本公开实施例提供了一种语音分离方法，所述方法包括：

采用第一方面所述的模型训练方法对所述第二神经网络模型进行训练；

将待分离语音输入训练完成的所述第二神经网络模型，得到语音分离结果。

第三方面，本公开实施例提供了一种模型训练装置，所述模型训练装置包括：

第一输入模块，用于将声音信号的语音特征分别输入预先训练的N个第一神经网络模型，得到N个输出结果，所述N个输出结果为从所述声音信号中分离出的N个拾音区域对应的说话人语音的语音特征，N为大于1的整数；

第二输入模块，用于将所述声音信号的语音特征输入第二神经网络模型，对所述第二神经网络模型进行训练，其中，用于训练所述第二神经网络模型的损失函数基于所述N个输出结果确定。

第四方面，本公开实施例提供了一种语音分离装置，所述语音分离装置包括：

训练模块，用于采用第一方面所述的模型训练方法对所述第二神经网络模型进行训练；

输入模块，用于将待分离语音输入训练完成的所述第二神经网络模型，得到语音分离结果。

第五方面，本公开实施例提供了一种电子设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序，所述程序被所述处理器执行时实现如第一方面所述的模型训练方法中的步骤，或者，所述程序被所述处理器执行时实现如第二方面所述的语音分离方法中的步骤。

第六方面，本公开实施例提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面所述的模型训练方法中的步骤，或者，所述计算机程序被处理器执行时实现如第二方面所述的语音分离方法中的步骤。

本实施例中，通过知识蒸馏的方式指导第二神经网络模型进行训练，可以提高第二神经网络模型的性能；且用于指导第二神经网络模型进行训练的多个第一神经网络模型可以用于分离N个拾音区域对应的说话人语音，从而N个输出结果中携带有各个拾音区域对应的语音特征，而多个目标说话人所处的位置不同，会使得各个拾音区域采集的语音特征存在区别，从而通过第一神经网络模型的指导训练，第二神经网络模型能够学习到处于不同位置的说话人的语音特征，能够提高第二神经网络模型分离多个目标说话人的语音的效果。

附图说明

为了更清楚地说明本公开实施例的技术方案，下面将对本公开实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本公开实施例提供的一种模型训练方法的流程示意图；

图2是本公开实施例提供的另一种模型训练方法的流程示意图；

图3是本发明实施例提供的一种模型训练装置的结构示意图；

图4是本发明实施例提供的一种语音分离装置的结构示意图；

图5是本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本公开实施例中，电子设备包括但不限于手机、平板电脑、笔记本电脑、掌上电脑、车载移动终端、可穿戴设备、以及计步器等。

参见图1，图1是本公开实施例提供的一种模型训练方法的流程示意图，如图1所示，包括以下步骤：

步骤101、将声音信号的语音特征分别输入预先训练的N个第一神经网络模型，得到N个输出结果，所述N个输出结果为从所述声音信号中分离出的N个拾音区域对应的说话人语音的语音特征，N为大于1的整数。

其中，所述声音信号可以为真实的说话人语音与噪音、混响或者其他声音混合而成的信号。可以对所述声音信号进行特征提取，得到所述声音信号的语音特征。声音信号的语音特征可以用于表征声音信号的数据特征，可以对声音信号采用短时傅里叶变换提取语音特征，也可以对声音信号采用小波变换提取语音特征，还可以采用其他形式从声音信号中提取语音特征。N的值可以为3，或者可以为5，或者可以10，本实施例对此不进行限定。在进行拾音区域的划分时，可以以0-180°的拾音范围进行划分，或者可以以0-360°的拾音范围进行划分，可以依据进行语音分离的电子设备通常的拾音范围而定。示例地，电子设备通常安装在墙上，则电子设备的拾音范围可以为0-180°。

以0-180°的拾音范围进行划分为例，N的值可以为3，可以划分为三个拾音区域，第一拾音区域为[0，60°]所在的区域，第二拾音区域为(60°，120°]所在的区域，第三拾音区域为(120°，180°]所在的区域。对于这三个拾音区域，可以分别训练每个拾音区域对应的第一神经网络模型，每个拾音区域对应的第一神经网络模型训练的目标就是分离出其对应区域内的说话人的语音。例如，第一拾音区域对应的第一神经网络模型的输出为第一拾音区域内的说话人的语音。

需要说明的是，第一神经网络模型的输出结果可以表现为掩模(Mask)的形式，将Mask与声音信号的语音特征相乘，可以得到分离的说话人语音的语音特征；或者，输出结果还可以直接为分离的说话人语音的语音特征，本实施例对此不进行限定。

另外，在训练第一神经网络模型时，训练样本可以为说话人语音与噪音、混响或者其他声音混合而成的信号。可以仅播放说话人语音，采集各个拾音区域对应的说话人语音作为训练第一神经网络模型的目标输出。以N为3为例，可以采集第一拾音区域对应的语音A1、采集第二拾音区域对应的语音A2及采集第三拾音区域对应的语音A3。以训练样本作为输入，在训练第一拾音区域对应的第一神经网络模型时，目标输出为A1；在训练第二拾音区域对应的第一神经网络模型时，目标输出为A2；在训练第三拾音区域对应的第一神经网络模型时，目标输出为A3。

步骤102、将所述声音信号的语音特征输入第二神经网络模型，对所述第二神经网络模型进行训练，其中，用于训练所述第二神经网络模型的损失函数基于所述N个输出结果确定。

需要说明的是，第一神经网络模型可以为具有较为复杂网络结构的神经网络模型，作为Teacher(老师)模型。第二神经网络模型可以为具有较为简单网络结构的神经网络模型，作为Student(学生)模型。Teacher模型可以用于指导Student模型进行训练。

如图2所示，以N为3为例，对所述声音信号进行特征提取，将提取到的语音特征分别输入第一拾音区域对应的第一神经网络模型1、第二拾音区域对应的第一神经网络模型2以及第三拾音区域对应的第一神经网络模型3，得到三个输出结果，分别为第一神经网络模型1的输出label1，第二神经网络模型2的输出label2以及第一神经网络模型3的输出label3。可以将label1、label2以及label3拼接，并将拼接得到的label4作为训练第二神经网络模型时需要学习的目标。在训练第二神经网络模型时，将提取到的所述声音信号的语音特征输入第二神经网络模型，以拼接得到的label4作为需要学习的目标计算第二神经网络模型的损失函数Loss，对第二神经网络模型进行训练。

需要说明的是，在芯片或者开发板上运行神经网络模型时，在保证神经网络模型的性能较好的同时，神经网络模型的尺寸需要设计得较小。在语音分离时，存在语音分离的说话人并不唯一的情况，需要分离多个说话人的语音，对于尺寸较小的模型，较难实现分离多个说话人的语音。

本实施例中，通过知识蒸馏的方式指导第二神经网络模型进行训练，可以提高第二神经网络模型的性能；且用于指导第二神经网络模型进行训练的多个第一神经网络模型可以用于分离N个拾音区域对应的说话人语音，从而N个输出结果中携带有各个拾音区域对应的语音特征，而多个说话人所处的位置不同，会使得各个拾音区域采集的语音特征存在区别，从而通过第一神经网络模型的指导训练，第二神经网络模型能够学习到处于不同位置的说话人的语音特征，能够提高第二神经网络模型分离多个说话人语音的效果。

本公开实施例中，以第一神经网络模型的输出指导第二神经网络模型的训练，利用知识蒸馏进行模型训练，能够提高训练得到的第二神经网络模型的准确性；且通过用于分离N个拾音区域对应的说话人语音的N个第一神经网络模型，能够进一步提高训练得到的第二神经网络模型的准确性。这样，采用训练完成的第二神经网络模型进行语音分离，能够提高语音分离的准确性。

可选的，所述损失函数基于所述N个输出结果和所述声音信号中真实的说话人语音确定。

其中，所述损失函数与第一损失值成正相关，并且，所述损失函数可以与第二损失值成正相关，所述第一损失值为：a*(T1-T2)²，a为训练系数，T1基于所述N个输出结果拼接获得，T2为所述第二神经网络模型的输出值，所述第二损失值为：(1-a)*(T3-T2)²，T3为所述声音信号中真实的说话人语音的语音特征。

作为一种具体的实施方式，所述损失函数Loss可以为：

a*(T1-T2)²+(1-a)*(T3-T2)²

需要说明的是，在训练第二神经网络模型的过程中，可以动态调整训练系数a，例如，可以调整训练系数a，使得训练系数a跟随训练轮数的增加逐渐减小；或者，可以在多轮训练的过程中若均满足T1-T2的绝对值小于预设值，则减小训练系数a。

该实施方式中，所述损失函数基于所述N个输出结果和所述声音信号中真实的说话人语音确定，通过结合第一神经网络模型的输出以及真实的说话人语音共同对第二神经网络模型进行训练，在进一步提高训练得到的第二神经网络模型的准确性的同时，能够加快第二神经网络模型在训练时的收敛速度。

可选的，所述损失函数与第一损失值成正相关，所述第一损失值为：a*(T1-T2)²，其中，a为训练系数，T1基于所述N个输出结果拼接获得，T2为所述第二神经网络模型的输出值。

其中，所述损失函数可以与第一损失值成正比。以N为3为例，N个输出结果可以分别为label1、label2及label3，T1可以为label1、label2及label3拼接的矩阵。例如，label1、label2及label3可以均为128维的向量，则T1可以为经label1、label2及label3拼接得到的label4，为3*128维的矩阵。为提高训练效果，训练系数a可以为大于或等于0且小于或等于1的值。T2为所述第二神经网络模型的输出值，包括全部拾音区域对应的语音特征，可以设置为3*128维的矩阵。

该实施方式中，所述损失函数与第一损失值成正相关，从而能够将第一神经网络模型学到的知识蒸馏出来，传递给第二神经网络模型，有利于训练初期第二神经网络模型的快速收敛。

可选的，所述损失函数与第二损失值成正相关，所述第二损失值为：(1-a)*(T3-T2)²，其中，T3为所述声音信号中真实的说话人语音的语音特征。

其中，所述损失函数可以与第二损失值成正比。所述声音信号可以为真实的说话人语音与噪音、混响或者其他声音混合而成的信号。T2为所述第二神经网络模型的输出值，也就是第二神经网络模型对所述声音信号预测得到的说话人语音的语音特征。

该实施方式中，所述损失函数与第二损失值成正相关，从而能够结合真实的说话人语音共同对第二神经网络模型进行训练，有利于训练后期第二神经网络模型的快速收敛，且能够提高训练得到的第二神经网络模型的准确性。

可选的，所述对所述第二神经网络模型进行训练，包括：

在第一轮训练过程中，将损失函数中的训练系数设置为预设值，基于设置后的训练系数对所述第二神经网络模型进行训练；

在第M轮训练过程中，将所述损失函数中的训练系数按照预设规则调整为目标值，基于调整后的训练系数对所述第二神经网络模型进行训练，所述目标值小于所述预设值，M为大于1的整数。

其中，所述预设值可以0.8，或者可以为0.9，或者可以为1，本实施例对此不进行限定。所述预设规则可以是每经过一轮训练训练系数减少预设调整值；或者可以是每经过三轮训练训练系数减少预设调整值；或者可以是每经过五轮训练训练系数减少预设调整值等等。预设调整值可以为0.01，或者可以为0.05，或者可以为0.1，等等，本实施例对此不进行限定。以所述预设规则为每经过一轮训练训练系数减少0.01为例，若M为11，预设值为0.9，则目标值为0.8。

该实施方式中，在训练第二神经网络模型的过程中，动态调整训练系数，使得训练系数随着训练轮数的增加逐渐减小，从而随着训练轮数的增加，损失函数中真实的说话人语音对第二神经网络模型训练的影响所占的比重越大，进一步有利于训练后期第二神经网络模型的快速收敛，且能够进一步提高训练得到的第二神经网络模型的准确性。

本公开实施例还提供一种模型训练方法，包括以下步骤：

采用本公开实施例提供的模型训练方法对所述第二神经网络模型进行训练；

在实际使用中，作为一种使用场景，由于麦克风采集到的声音信号可能包含目标说话人的语音，其他说话人的语音，以及噪声和混响等干扰，若不进行语音分离，会影响利用麦克风采集到的声音信号进行语音识别或者语音唤醒的准确率离。采用本发明实施例提供的模型训练方法对所述第二神经网络模型进行训练，将待分离语音输入训练完成的所述第二神经网络模型，得到语音分离结果。将目标说话人的语音从麦克风采集到的声音信号中分离出来，可以提升语音识别或语音唤醒的鲁棒性。

参见图3，图3是本发明实施例提供的一种模型训练装置的结构示意图，如图3所示，模型训练装置200包括：

第一输入模块201，用于将声音信号的语音特征分别输入预先训练的N个第一神经网络模型，得到N个输出结果，所述N个输出结果为从所述声音信号中分离出的N个拾音区域对应的说话人语音的语音特征，N为大于1的整数；

第二输入模块202，用于将所述声音信号的语音特征输入第二神经网络模型，对所述第二神经网络模型进行训练，其中，用于训练所述第二神经网络模型的损失函数基于所述N个输出结果确定。

可选的，所述第二输入模块202具体用于：

将所述声音信号的语音特征输入第二神经网络模型；

参见图4，图4是本发明实施例提供的一种语音分离装置的结构示意图，如图4所示，语音分离装置300包括：

训练模块301，用于采用本公开实施例所述的模型训练方法对所述第二神经网络模型进行训练；

输入模块302，用于将待分离语音输入训练完成的所述第二神经网络模型，得到语音分离结果。

请参见图5，图5是本发明实施例提供的一种电子设备的结构示意图，如图5所示，电子设备400包括：存储器402、处理器401及存储在所述存储器402上并可在所述处理器401上运行的程序，其中：

在进行模型训练时，所述处理器401读取存储器402中的程序，用于执行：

可选的，所述处理器401还用于执行：

在进行语音分离时，所述处理器401读取存储器402中的程序，用于执行：

采用本公开实施例所述的模型训练方法对所述第二神经网络模型进行训练；

在图5中，总线架构可以包括任意数量的互联的总线和桥，具体由处理器401代表的一个或多个处理器和存储器402代表的存储器的各种电路链接在一起。总线架构还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口提供接口。

处理器401负责管理总线架构和通常的处理，存储器402可以存储处理器401在执行操作时所使用的数据。

需要说明的是，本发明实施例方法实施例中的任意实施方式都可以被本实施例中的上述电子设备所实现，以及达到相同的有益效果，此处不再赘述。

本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述模型训练方法实施例的各个过程，或者，该计算机程序被处理器执行时实现上述语音分离方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，所述的计算机可读存储介质，如只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本发明的保护之内。

Claims

1.一种模型训练方法，其特征在于，所述方法包括：

将所述声音信号的语音特征输入第二神经网络模型，对所述第二神经网络模型进行训练，其中，用于训练所述第二神经网络模型的损失函数基于所述N个输出结果确定；

所述损失函数基于所述N个输出结果和所述声音信号中真实的说话人语音确定；

所述损失函数与第一损失值成正相关，所述第一损失值为：a*(T1-T2)²，其中，a为训练系数，T1基于所述N个输出结果拼接获得，T2为所述第二神经网络模型的输出值。

2.根据权利要求1所述的方法，其特征在于，所述损失函数与第二损失值成正相关，所述第二损失值为：(1-a)*(T3-T2)²，其中，T3为所述声音信号中真实的说话人语音的语音特征。

3.根据权利要求1或2所述的方法，其特征在于，所述对所述第二神经网络模型进行训练，包括：

4.一种语音分离方法，其特征在于，所述方法包括：

采用权利要求1至3中任一项所述的模型训练方法对所述第二神经网络模型进行训练；

5.一种模型训练装置，其特征在于，所述模型训练装置包括：

第二输入模块，用于将所述声音信号的语音特征输入第二神经网络模型，对所述第二神经网络模型进行训练，其中，用于训练所述第二神经网络模型的损失函数基于所述N个输出结果确定；

6.一种语音分离装置，其特征在于，所述语音分离装置包括：

训练模块，用于采用权利要求1至3中任一项所述的模型训练方法对所述第二神经网络模型进行训练；

7.一种电子设备，其特征在于，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序，所述程序被所述处理器执行时实现如权利要求1至3中任一项所述的模型训练方法中的步骤，或者，所述程序被所述处理器执行时实现如权利要求4所述的语音分离方法中的步骤。