CN111354374A

CN111354374A - 语音处理方法、模型训练方法及电子设备

Info

Publication number: CN111354374A
Application number: CN202010174740.2A
Authority: CN
Inventors: 朱城锐; 冯大航; 陈孝良; 常乐
Original assignee: Beijing SoundAI Technology Co Ltd
Current assignee: Beijing SoundAI Technology Co Ltd
Priority date: 2020-03-13
Filing date: 2020-03-13
Publication date: 2020-06-30

Abstract

本发明提供一种语音处理方法、模型训练方法及电子设备，所述语音处理方法包括：获取预先训练的生成对抗网络模型，所述生成对抗网络模型基于采集的包含噪声信号的语音训练得到；将待处理语音输入所述生成对抗网络模型中的生成器，以对所述待处理语音添加噪声信号，得到目标语音。本发明实施例能够提高采用语音样本进行模型训练后模型参数的准确性。

Description

语音处理方法、模型训练方法及电子设备

技术领域

本发明涉及语音处理技术领域，尤其涉及一种语音处理方法、模型训练方法及电子设备。

背景技术

在语音处理过程中，需要使用大量的语音样本对模型的参数进行训练，语音样本可以从历史记录的语音数据中获得，或者，还可以有针对性地录制语音数据作为语音样本。例如，在语音唤醒的应用场景中，需要使用唤醒词的语音样本对唤醒模型的参数进行训练。为提高模型的参数的准确性，通常对语音样本添加背景噪声，以模拟真实语音效果。

目前，通常将噪声信号直接叠加到语音样本中。然而，直接叠加噪声信号模拟真实语音的效果较差，导致采用叠加噪声信号的语音样本进行模型训练后，模型的参数的准确性较低。

发明内容

本发明实施例提供一种语音处理方法、模型训练方法及电子设备，以解决现有技术中采用叠加噪声信号的语音样本进行模型训练后，模型的参数的准确性较低的问题。

为了解决上述技术问题，本发明是这样实现的：

第一方面，本发明实施例提供了一种语音处理方法，所述方法包括：

获取预先训练的生成对抗网络模型，所述生成对抗网络模型基于采集的包含噪声信号的语音训练得到；

将待处理语音输入所述生成对抗网络模型中的生成器，以对所述待处理语音添加噪声信号，得到目标语音。

第二方面，本发明实施例提供了一种模型训练方法，所述方法包括：

采用第一方面所述的语音处理方法对语音样本进行处理；

基于处理后的语音样本进行模型训练。

第三方面，本发明实施例提供了一种电子设备，所述电子设备包括：

获取模块，用于获取预先训练的生成对抗网络模型，所述生成对抗网络模型基于采集的包含噪声信号的语音训练得到；

输入模块，用于将待处理语音输入所述生成对抗网络模型中的生成器，以对所述待处理语音添加噪声信号，得到目标语音。

第四方面，本发明实施例提供了一种电子设备，所述电子设备包括：

处理模块，用于采用第一方面所述的语音处理方法对语音样本进行处理；

训练模块，用于基于处理后的语音样本进行模型训练。

第五方面，本发明实施例提供了一种电子设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序，所述程序被所述处理器执行时实现如第一方面所述的语音处理方法中的步骤，或者，所述程序被所述处理器执行时实现如第二方面所述的模型训练方法中的步骤。

第六方面，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面所述的语音处理方法中的步骤，或者，所述计算机程序被处理器执行时实现如第二方面所述的模型训练方法中的步骤。

本发明实施例中，获取预先训练的生成对抗网络模型，所述生成对抗网络模型基于采集的包含噪声信号的语音训练得到；将待处理语音输入所述生成对抗网络模型中的生成器，以对所述待处理语音添加噪声信号，得到目标语音。这样，通过生成对抗网络模型对所述待处理语音添加噪声信号，添加噪声信号后的语音模拟真实语音的效果较好，从而采用添加噪声信号后的语音进行模型训练，能够提高模型的参数的准确性。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种语音处理方法的流程图；

图2是本发明实施例提供的一种生成对抗网络模型的结构示意图之一；

图3是本发明实施例提供的一种生成对抗网络模型的结构示意图之二；

图4是本发明实施例提供的一种电子设备的结构示意图之一；

图5是本发明实施例提供的一种电子设备的结构示意图之二；

图6是本发明实施例提供的一种电子设备的结构示意图之三。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明实施例中，电子设备包括但不限于手机、平板电脑、笔记本电脑、掌上电脑、车载移动终端、可穿戴设备、以及计步器等。

参见图1，图1是本发明实施例提供的一种语音处理方法的流程图，如图1所示，包括以下步骤：

步骤101、获取预先训练的生成对抗网络模型，所述生成对抗网络模型基于采集的包含噪声信号的语音训练得到。

其中，如图2所示，生成对抗网络模型(GAN，Generative Adversarial Networks)的结构可以包括一个生成器G(Generator)和一个判别器D(Discriminator)。生成器和判别器可以由包含卷积和/或全连接层的多层网络构成。生成器尽可能生成逼真样本，判别器尽可能去判别输入的样本是真实样本，还是生成器生成的逼真样本。在训练所述生成对抗网络模型的过程中，所述生成对抗网络模型中的判别器的第一输入为所述采集的包含噪声信号的语音，所述判别器的第二输入为所述生成器的输出。

另外，所述采集的包含噪声信号的语音可以是采集的真实环境下的语音，例如，可以是在公交车环境下采集的语音，或者，可以是在马路环境下采集的语音，或者，还可以是在会议室环境下采集的语音等等。本发明实施例对此不进行限定。

在实际应用中，如图3所示，生成器可以采用Bi-LSTM模型，生成器的输入x_n输入生成器的Bi-LSTM模型后，可以得到生成器的输出y_fake。判别器可以采用Bi-LSTM模型，可以将生成器的输出y_fake与真实样本y_real分别输入判别器的Bi-LSTM模型，对判别器进行训练。判别器的输出可以为0或1，1可以表示为真实样本，0可以表示为生成器生成的逼真样本，采用Bi-LSTM模型能缓解梯度消失问题。生成器的输入可以为时间上的序列，在生成器的输入序列中，每个元素可以代表每一帧语音。在输入序列中代表每帧语音的元素可以由当前时刻唤醒词对应的语音的频域特征以及噪声的频域特征级联构成。生成器的输出可以依然是时间上的序列，在生成器的输出序列中，代表每帧语音的元素可以为对所述唤醒词对应的语音添加噪声信号后的语音的频域特征。判别器可以用于对输入的连续帧语音的频域特征进行分类，辨别输入的频域特征是生成器生成的y_fake的频域特征还是真实样本通过傅里叶变换转换而来的频域特征。

进一步的，在训练所述生成对抗网络模型的过程中，可以交替地训练生成器和判别器，实现生成对抗网络模型中生成器和判别器之间的对抗。例如，可以将生成器生成的语音标记为0，作为生成器生成的逼真样本，将采集的包含噪声信号的语音标记为1，作为真实样本，逼真样本和真实样本的数据比例可以为1:1。可以采用逼真样本和真实样本对判别器进行训练，得到更准确的判别器。训练判别器后，可以采用判别器辨别的结果反向训练生成器。可以将生成器生成的语音标记为1，将判别器辨别的结果与标记值之间的差值作为新的目标函数，反向传播给生成器以训练生成器的参数。训练过程中，当判别器的辨别结果的变化值较小时，可以认为达到生成对抗的平衡，此时，生成器生成的逼真样本较为接近真实样本。

步骤102、将待处理语音输入所述生成对抗网络模型中的生成器，以对所述待处理语音添加噪声信号，得到目标语音。

其中，将待处理语音输入所述生成对抗网络模型中的生成器，生成的目标语音接近所述采集的包含噪声信号的语音，可以对所述待处理语音添加噪声信号。所述待处理语音可以为预设文本对应的语音，所述目标语音可以为对所述预设文本对应的语音添加噪声信号后的语音。例如，所述待处理语音可以为唤醒词对应的语音，所述目标语音可以为对所述唤醒词对应的语音添加噪声信号后的语音；或者，所述待处理语音可以为控制指令对应的语音，所述目标语音可以为对所述控制指令对应的语音添加噪声信号后的语音，等等。

另外，可以将待处理语音的声学特征输入所述生成对抗网络模型中的生成器，以对所述待处理语音添加噪声信号，得到目标语音的声学特征；或者，可以将所述待处理语音的频域特征信息输入所述生成对抗网络模型中的生成器，以对所述待处理语音添加噪声信号，得到目标语音的频域特征信息；或者，可以获取语音特征信息，所述语音特征信息包括所述待处理语音的第i帧信号的频域特征信息及噪声信号的第j帧信号的频域特征信息，i大于0，j大于0，可以将所述语音特征信息输入所述生成对抗网络模型中的生成器，以对所述待处理语音添加噪声信号，得到目标语音的第i帧信号的频域特征信息。本发明实施例对此不进行限定。

进一步的，所述生成对抗网络模型中的生成器可以为神经网络模型，所述生成对抗网络模型中的判别器可以为神经网络模型。为更好地处理序列化数据，所述生成对抗网络模型中的生成器可以为RNN(Recurrent Neural Network，循环神经网络)模型，所述生成对抗网络模型中的判别器可以为RNN模型。

可选的，所述待处理语音为唤醒词对应的语音，所述目标语音为对所述唤醒词对应的语音添加噪声信号后的语音。

其中，唤醒词对应的语音通常背景较为纯净，包含的噪声信号较小或者不包含噪声信号。唤醒词对应的语音可以是在较为安静的环境下录制的语音。采用唤醒词对应的语音对唤醒模型进行训练，训练得到的唤醒模型的唤醒效果较差。如果将白噪声或其他背景噪声直接叠加到唤醒词对应的语音，是在唤醒词对应的语音上线性地叠加噪声信号，模拟真实语音的效果较差，训练得到的唤醒模型的唤醒效果较差。

该实施方式中，所述待处理语音为唤醒词对应的语音，所述目标语音为对所述唤醒词对应的语音添加噪声信号后的语音，这样，通过生成对抗网络模型对所述待处理语音添加噪声信号，添加噪声信号后的语音模拟真实语音的效果较好，从而采用添加噪声信号后的语音对唤醒模型进行模型训练，能够提高唤醒模型的参数的准确性。

可选的，所述将待处理语音输入所述生成对抗网络模型中的生成器，以对所述待处理语音添加噪声信号，得到目标语音，包括：

获取语音特征信息，所述语音特征信息包括所述待处理语音的第i帧信号的频域特征信息及噪声信号的第j帧信号的频域特征信息，i大于0，j大于0；

将所述语音特征信息输入所述生成对抗网络模型中的生成器，以对所述待处理语音添加噪声信号，得到目标语音的第i帧信号的频域特征信息。

其中，所述语音特征信息可以为语音信号在时间上的序列。所述待处理语音的第i帧信号的频域特征信息可以为所述待处理语音的第i帧信号经过傅里叶变换后得到的第一特征向量，所述噪声信号的第j帧信号的频域特征信息可以为所述噪声信号的第j帧信号经过傅里叶变换后得到的第二特征向量。所述语音特征信息可以包括所述第一特征向量和所述第二特征向量，例如，所述第一特征向量可以为a1，所述第二特征向量可以为a2，所述语音特征信息可以为(a1，a2)。对所述目标语音的第i帧信号的频域特征信息进行反向傅里叶变换后可以得到目标语音的第i帧信号。

该实施方式中，获取语音特征信息，所述语音特征信息包括所述待处理语音的第i帧信号的频域特征信息及噪声信号的第j帧信号的频域特征信息，i大于0，j大于0；将所述语音特征信息输入所述生成对抗网络模型中的生成器，以对所述待处理语音添加噪声信号，得到目标语音的第i帧信号的频域特征信息。这样，可以将噪声信号以非线性的方式添加到待处理语音中，模拟真实语音的效果较好，从而采用添加噪声信号后的语音进行模型训练，能够提高模型的参数的准确性。

可选的，所述生成对抗网络模型中的生成器为双向长短期记忆Bi-LSTM模型，和/或，所述生成对抗网络模型中的判别器为Bi-LSTM模型。

其中，所述生成对抗网络模型中的生成器可以为Bi-LSTM(Bi-Long Short-TermMemory，双向长短期记忆)模型，所述生成对抗网络模型中的判别器可以为Bi-LSTM模型或者RNN模型，或者其他神经网络模型；或者，所述生成对抗网络模型中的判别器可以为Bi-LSTM模型，所述生成对抗网络模型中的生成器可以为Bi-LSTM模型或者RNN模型，或者其他神经网络模型；或者，所述生成对抗网络模型中的生成器为Bi-LSTM模型，所述生成对抗网络模型中的判别器为Bi-LSTM模型。

该实施方式中，所述生成对抗网络模型中的生成器为双向长短期记忆Bi-LSTM模型，和/或，所述生成对抗网络模型中的判别器为Bi-LSTM模型。这样，采用Bi-LSTM模型能够缓解神经网络中梯度消失的问题，提高生成对抗网络模型的准确性。

本发明实施例还提供一种语音处理方法，所述方法包括：

采用本发明实施例提供的语音处理方法对语音样本进行处理；

基于处理后的语音样本进行模型训练。

其中，可以获取预先训练的生成对抗网络模型，所述生成对抗网络模型基于采集的包含噪声信号的语音训练得到；可以将语音样本输入所述生成对抗网络模型中的生成器，以对所述语音样本添加噪声信号，得到处理后的语音样本；可以基于处理后的语音样本进行模型训练。所述语音样本可以包括录制的语音，或者，可以包括从各种语音库中搜集的语音等等。可以对唤醒模型进行模型训练，或者可以对任意其他模型进行模型训练，本发明实施例对此不进行限定。

本发明实施例中，采用图1中提供的语音处理方法对语音样本进行处理；基于处理后的语音样本进行模型训练。这样，添加噪声信号后的语音模拟真实语音的效果较好，从而采用添加噪声信号后的语音进行模型训练，能够提高模型的参数的准确性。

参见图4，图4是本发明实施例提供的一种电子设备的结构示意图之一，如图4所示，电子设备200包括：

获取模块201，用于获取预先训练的生成对抗网络模型，所述生成对抗网络模型基于采集的包含噪声信号的语音训练得到；

输入模块202，用于将待处理语音输入所述生成对抗网络模型中的生成器，以对所述待处理语音添加噪声信号，得到目标语音。

可选的，所述输入模块202具体用于：

电子设备能够实现图1的方法实施例中实现的各个过程，为避免重复，这里不再赘述。

参见图5，图5是本发明实施例提供的一种电子设备的结构示意图之二，如图5所示，电子设备300包括：

处理模块301，用于采用本发明实施例提供的语音处理方法对语音样本进行处理；

训练模块302，用于基于处理后的语音样本进行模型训练。

请参见图6，图6是本发明实施例提供的一种电子设备的结构示意图之三，如图6所示，电子设备400包括：存储器402、处理器401及存储在所述存储器402上并可在所述处理器401上运行的程序，其中：

所述处理器401读取存储器402中的程序，用于执行：

可选的，所述处理器401执行的所述将待处理语音输入所述生成对抗网络模型中的生成器，以对所述待处理语音添加噪声信号，得到目标语音，包括：

或者，所述处理器401读取存储器402中的程序，用于执行：

基于处理后的语音样本进行模型训练。

在图6中，总线架构可以包括任意数量的互联的总线和桥，具体由处理器401代表的一个或多个处理器和存储器402代表的存储器的各种电路链接在一起。总线架构还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口提供接口。

处理器401负责管理总线架构和通常的处理，存储器402可以存储处理器401在执行操作时所使用的数据。

需要说明的是，本发明实施例方法实施例中的任意实施方式都可以被本实施例中的上述电子设备所实现，以及达到相同的有益效果，此处不再赘述。

本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述语音处理方法实施例的各个过程，或者，该计算机程序被处理器执行时实现上述模型训练方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，所述的计算机可读存储介质，如只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本发明的保护之内。

Claims

1.一种语音处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述待处理语音为唤醒词对应的语音，所述目标语音为对所述唤醒词对应的语音添加噪声信号后的语音。

3.根据权利要求1所述的方法，其特征在于，所述将待处理语音输入所述生成对抗网络模型中的生成器，以对所述待处理语音添加噪声信号，得到目标语音，包括：

4.根据权利要求1所述的方法，其特征在于，所述生成对抗网络模型中的生成器为双向长短期记忆Bi-LSTM模型，和/或，所述生成对抗网络模型中的判别器为Bi-LSTM模型。

5.一种模型训练方法，其特征在于，所述方法包括：

采用权利要求1-4中任一项所述的语音处理方法对语音样本进行处理；

基于处理后的语音样本进行模型训练。

6.一种电子设备，其特征在于，所述电子设备包括：

7.根据权利要求6所述的电子设备，其特征在于，所述待处理语音为唤醒词对应的语音，所述目标语音为对所述唤醒词对应的语音添加噪声信号后的语音。

8.根据权利要求6所述的电子设备，其特征在于，所述输入模块具体用于：

9.根据权利要求6所述的电子设备，其特征在于，所述生成对抗网络模型中的生成器为双向长短期记忆Bi-LSTM模型，和/或，所述生成对抗网络模型中的判别器为Bi-LSTM模型。

10.一种电子设备，其特征在于，所述电子设备包括：

处理模块，用于采用权利要求1-4中任一项所述的语音处理方法对语音样本进行处理；

训练模块，用于基于处理后的语音样本进行模型训练。

11.一种电子设备，其特征在于，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序，所述程序被所述处理器执行时实现如权利要求1至4中任一项所述的语音处理方法中的步骤，或者，所述程序被所述处理器执行时实现如权利要求5所述的模型训练方法中的步骤。