CN114566175A

CN114566175A - 一种语音增强及模型训练方法、装置和电子设备

Info

Publication number: CN114566175A
Application number: CN202011365155.7A
Authority: CN
Inventors: 文仕学; 郝翔
Original assignee: Beijing Sogou Technology Development Co Ltd
Current assignee: Beijing Sogou Technology Development Co Ltd
Priority date: 2020-11-27
Filing date: 2020-11-27
Publication date: 2022-05-31

Abstract

本发明实施例提供了一种模型训练及语音增强方法、装置和电子设备，其中，所述语音增强方法包括：获取语音数据；依据预设的语音增强模型对所述语音数据进行语音增强，所述预设的语音增强模型是由教师模型指导训练的学生模型，所述教师模型包括基于语音频谱的不同子频带训练的多个模型，进而使得该学生模型能够学习到各不同子频带上的特征；从而能够达到较好的语音增强效果，实现在不增加语音增强模型的参数量和计算代价的前提下，提升模型的语音增强效果。

Description

一种语音增强及模型训练方法、装置和电子设备

技术领域

本发明涉及数据处理技术领域，特别是涉及一种语音增强及模型训练方法、装置和电子设备。

背景技术

随着通信技术的快速发展，诸如手机、平板电脑等终端越来越普及，给人们的生活、学习、工作带来了极大的便利。用户通常会使用终端录入语音指令进行语音拍照、语音搜索等等；也会使用终端进行语音数据(如音乐、视频、录音)的播放。其中，为了使得终端能够更好的执行用户的语音指令，以及播放质量更高的语音数据，终端可以在收集语音指令之后或者播放语音数据之前，使用语音增强技术抑制、降低语音数据中噪声干扰，从噪声背景中提取有用的语音数据。

目前采用模型进行语音增强的方式使用较为广泛。其中，采用模型进行语音增强的过程中，可以将语音数据变换到频域，然后通过语音数据的频域特征输入至模型中，由模型从中提取有用的语音数据。

语音在不同的子频带分布不同，若想要提高语音增强的效果，则需要训练模型学习各子频带上的特征。然而，通过训练一个模型学习各子频带上的特征这无疑是具有挑战性的；而训练多个模型训练分别学习各子频带上的特征，再将这多个模型集成使用，这不失为一个有效的办法；但是在硬件平台上部署这多个集成的模型无疑是麻烦的。

发明内容

本发明实施例提供一种语音增强及模型训练方法，以在不增加语音增强模型的参数量和计算代价的前提下，提升模型的语音增强效果。

相应的，本发明实施例还提供了一种语音增强及模型训练装置和一种电子设备，用以保证上述方法的实现及应用。

为了解决上述问题，本发明实施例公开了一种语音增强方法，具体包括：获取语音数据；依据预设的语音增强模型对所述语音数据进行语音增强，所述预设的语音增强模型是由教师模型指导训练的学生模型，所述教师模型包括基于语音频谱的不同子频带训练的多个模型。

本发明实施例还公开了一种语音增强装置，具体包括：第一数据获取模块，用于获取语音数据；语音增强模块，用于依据预设的语音增强模型对所述语音数据进行语音增强，所述预设的语音增强模型是由教师模型指导训练的学生模型，所述教师模型包括基于语音频谱的不同子频带训练的多个模型。

本发明实施例还公开了一种模型训练方法，具体包括：获取多条语音数据；分别将所述多条语音数据对应的频域数据划分为多个子频带，并采用起止频率相同的子频带生成一组训练数据，基于生成的每一组训练数据，得到多组训练数据；分别采用各组训练数据训练各教师模型，并采用所述各教师模型基于所述各组训练数据指导训练学生模型。

可选地，所述训练数据包括：样本数据和标签数据；所述分别采用各组训练数据训练各教师模型，包括：针对一个教师模型，将一组训练数据输入至所述教师模型中，由所述教师模型基于所述一组训练数据中的样本数据进行前向计算，得到第一输出数据；基于所述第一输出数据和所述一组训练数据中的标签数据，对所述教师模型进行反向传播。

可选地，所述采用所述各教师模型基于所述各组训练数据指导训练学生模型，包括：针对一个教师模型，将用于训练所述教师模型的一组训练数据输入至所述教师模型中进行前向计算，得到第二输出数据；以及将用于训练所述教师模型的一组训练数据输入至所述学生模型中进行前向计算，得到第三输出数据；基于所述第二输出数据和第三输出数据，对所述学生模型进行反向传播。

可选地，所述训练数据包括：标签数据；所述基于所述第二输出数据和第三输出数据，对所述学生模型进行反向传播，包括：基于所述第二输出数据和第三输出数据，确定第一损失函数结果；基于所述第三输出数据和用于训练所述教师模型的一组训练数据中的所述标签数据，确定第二损失函数结果；依据所述第一损失函数结果和第二损失函数结果进行加权计算，依据加权计算结果对所述学生模型进行反向传播。

本发明实施例还公开了一种模型训练装置，具体包括：第二数据获取模块，用于获取多条语音数据；训练数据生成模块，用于分别将所述多条语音数据对应的频域数据划分为多个子频带，并采用起止频率相同的子频带生成一组训练数据，基于生成的每一组训练数据，得到多组训练数据；训练模块，用于分别采用各组训练数据训练各教师模型，并采用所述各教师模型基于所述各组训练数据指导训练学生模型。

可选地，所述训练数据包括：样本数据和标签数据；所述训练模块，包括：教师模型训练子模块，用于针对一个教师模型，将一组训练数据输入至所述教师模型中，由所述教师模型基于所述一组训练数据中的样本数据进行前向计算，得到第一输出数据；基于所述第一输出数据和所述一组训练数据中的标签数据，对所述教师模型进行反向传播。

可选地，所述训练模块，包括：学生模型训练子模块，用于针对一个教师模型，将用于训练所述教师模型的一组训练数据输入至所述教师模型中进行前向计算，得到第二输出数据；以及将用于训练所述教师模型的一组训练数据输入至所述学生模型中进行前向计算，得到第三输出数据；基于所述第二输出数据和第三输出数据，对所述学生模型进行反向传播。

可选地，所述训练数据包括：标签数据；所述学生模型训练子模块，用于基于所述第二输出数据和第三输出数据，确定第一损失函数结果；基于所述第三输出数据和用于训练所述教师模型的一组训练数据中的所述标签数据，确定第二损失函数结果；依据所述第一损失函数结果和第二损失函数结果进行加权计算，依据加权计算结果对所述学生模型进行反向传播。

本发明实施例还公开了一种可读存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如本发明实施例任一所述的语音增强方法。

本发明实施例还公开了一种可读存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如本发明实施例任一所述的模型训练方法。

本发明实施例还公开了一种电子设备，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：获取语音数据；依据预设的语音增强模型对所述语音数据进行语音增强，所述预设的语音增强模型是由教师模型指导训练的学生模型，所述教师模型包括基于语音频谱的不同子频带训练的多个模型。

本发明实施例还公开了一种电子设备，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：获取多条语音数据；分别将所述多条语音数据对应的频域数据划分为多个子频带，并采用起止频率相同的子频带生成一组训练数据，基于生成的每一组训练数据，得到多组训练数据；分别采用各组训练数据训练各教师模型，并采用所述各教师模型基于所述各组训练数据指导训练学生模型。

本发明实施例包括以下优点：

本发明实施例中，预先采用语音频谱的不同子频带训练多个教师模型，并采用多个教师模型指导训练一个学生模型，使得该学生模型能够学习到各不同子频带上的特征；进而后续采用该学生模型进行语音增强，能够达到较好的语音增强效果；从而实现在不增加语音增强模型的参数量和计算代价的前提下，提升模型的语音增强效果。

附图说明

图1是本发明的一种模型训练方法实施例的步骤流程图；

图2是本发明的一种模型训练方法可选实施例的步骤流程图；

图3是本发明的一种语音增强方法实施例的步骤流程图；

图4是本发明的一种语音增强装置实施例的结构框图；

图5是本发明的一种模型训练装置实施例的结构框图；

图6是本发明的一种模型训练装置可选实施例的结构框图；

图7根据一示例性实施例示出的一种用于模型训练和/或语音增强的电子设备的结构框图；

图8是本发明根据另一示例性实施例示出的一种用于模型训练和/或语音增强的电子设备的结构示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

本发明实施例的核心构思之一是，预先采用语音频谱的不同子频带训练多个教师模型，并采用多个教师模型指导训练一个学生模型，使得该学生模型能够学习到各不同子频带上的特征；进而后续采用该学生模型进行语音增强，能够达到较好的语音增强效果；从而实现在不增加语音增强模型的参数量和计算代价的前提下，提升模型的语音增强效果。

以下先对如何训练学生模型进行说明。

参照图1，示出了本发明的一种模型训练方法实施例的步骤流程图，具体可以包括如下步骤：

步骤102、获取多条语音数据。

本发明实施例中，可以获取用于训练学生模型的多条语音数据，所述多条语音数据可以包括多条带噪声的语音数据和各带噪声的语音数据所对应的干净的语音数据。其中，所述干净的语音数据可以是指目标用户的且不带噪声的语音数据，可以作为训练过程中的标签。

步骤104、分别将所述多条语音数据对应的频域数据划分为多个子频带，并采用起止频率相同的子频带生成一组训练数据，基于生成的每一组训练数据，得到多组训练数据。

其中，针对一条语音数据，可以对该语音数据进行频域变换，得到该条语音数据对应的频域数据。然后可以根据该语音数据对应频域数据的带宽和目标子频带长度，将该条语音数据对应的频域数据划分为多个子频带。其中，所述目标子频带长度可以根据采用不同子频带长度的数据所训练的模型的语音增强效果来确定，在后续实施例在对此进行说明。

例如，一条语音数据的频域数据的带宽为8000Hz，对应的起止频率为0Hz～8000Hz。若目标子频带长度为2000Hz，则可以将该条语音数据的频域数据划分为4个子频带，这4个子频带对应的起止频率分别为：0～2000Hz、2000～4000Hz、4000～6000Hz、6000～8000Hz。

进而，按照上述方式，可以将每条语音数据的频域数据，划分为多个子频带。

然后可以采用起止频率相同的子频带生成一组训练数据。例如，采用每条语音数据的频域数据对应的起止频率为0Hz～2000Hz的子频带，生成一组训练数据；采用每条语音数据的频域数据对应的起止频率为2000Hz～4000Hz的子频带，生成一组训练数据；采用每条语音数据的频域数据对应的起止频率为4000Hz～6000Hz的子频带，生成一组训练数据；采用每条语音数据的频域数据对应的起止频率为6000Hz～8000Hz的子频带，生成一组训练数据；可以得到4组训练数据。

步骤106、分别采用各组训练数据训练各教师模型，并采用所述各教师模型基于所述各组训练数据指导训练学生模型。

然后可以分别采用一组训练数据，训练一个教师模型；并在训练完教师模型后，可以采用这多个教师模型基于各组训练数据，指导训练学生模型；使得学生模型可以学习到不同的各子频带的特征。

综上，本发明实施例中，可以获取多条语音数据，并分别将所述多条语音数据对应的频域数据划分为多个子频带，以及采用起止频率相同的子频带生成一组训练数据，基于生成的每一组训练数据，得到多组训练数据；然后先分别采用各组训练数据训练各教师模型，再采用所述各教师模型基于所述各组训练数据指导训练学生模型，使得学生模型可以学习到子频带的特征；进而后续采用该学生模型进行语音增强，能够达到较好的语音增强效果；从而实现在不增加语音增强模型的参数量和计算代价的前提下，提升模型的语音增强效果。

以下对如何训练教师模型，以及如何采用教师模型指导训练学生模型进行说明。

参照图2，示出了本发明的一种模型训练方法可选实施例的步骤流程图，具体可以包括如下步骤：

步骤202、获取多条语音数据。

本发明的一个示例中，可以先获取干净的语音数据，然后再通过在干净的语音数据上添加噪声，生成带噪声的语音数据。其中，在干净的语音数据上添加的噪声可以包括多种，如白噪声等，本发明实施例对此不作限制。

步骤204、分别将所述多条语音数据对应的频域数据划分为多个子频带，并采用起止频率相同的子频带生成一组训练数据，基于生成的每一组训练数据，得到多组训练数据。

以下以语音数据的采样率为16000Hz，对语音数据进行320点的快速傅里叶变换(即频域变换)为例，对如何设置目标子频带长度进行说明。

其中，语音数据的频域数据的带宽为8000Hz，包含161个频点(0～160)，两个频点之间的频率差为50Hz。

在设置目标子频带长度过程中，可以先设置多种不同的子频带长度；然后从多种不同的子频带长度中选取出一子频带长度，作为目标子频带长度。

若设置4种子频带长度，分别为：50Hz、1000Hz、2000Hz和4000Hz；将语音数据的频域数据按照这4种子频带长度划分后，可以分别得到：160个子频带、8个子频带、4个子频带和2个子频带。

针对子频带长度为50Hz，可以采用各条语音数据对应的160个子频带，训练模型1(其中，可以分别训练隐单元层数不同的多个模型1)；

针对子频带长度为1000Hz，可以采用各条语音数据对应的8个子频带，训练模型2(其中，可以分别训练隐单元层数不同的多个模型2)；

针对子频带长度为2000Hz，可以采用各条语音数据对应的4个子频带，训练模型3(其中，可以分别训练隐单元层数不同的多个模型3)；

针对子频带长度为4000Hz，可以采用各条语音数据对应的2个子频带，训练模型4(其中，可以分别训练隐单元层数不同的多个模型4)。

然后可以获取测试语音数据，采用测试语音数据对上述模型1、模型2、模型3和模型4进行测试，测试这4个模型的语音增强效果。一个示例中，可以测试这4个模型的语音质量和语音可懂度；可以如表1所示：

表1

其中，表1中第3行第2列表示：带噪声的语音数据的语音质量；第3行第2列表示：带噪声的语音数据的语音可懂度。表1中的第4行第2列表示：隐单元数为256层的模型1的语音质量为“2.151”。表1中的第4行第3列表示：隐单元数为512层的模型1的语音质量为“2.224”。表1中的第4行第4列表示：隐单元数为1024层的模型1的语音质量为“2.277”。表1中的第4行第5列表示：隐单元数为256层的模型1的语音可懂度为“92.415”。表1中的第4行第6列表示：隐单元数为512层的模型1的语音可懂度为“92.174”。表1中的第4行第7列表示：隐单元数为1024层的模型1的语音可懂度为“93.476”。表1中第5、6和7行各列的含义依次类推；在此不再赘述。

根据表1可知，无论模型的规模和子频带长度的取值如何，语音增强后的语音对应的语音质量与可懂度相比原始的带噪语音都有了明显的提升。

此外，根据表1还可知随着子频带长度的增加，语音增强后的语音对应的语音质量和可懂度整体上是在增加的；这表明长度大的子频带更有利于模型探索跨频带的局部特征。我们也注意到当子频带的长度等于2000Hz时，无论增强语音的质量还是可懂度都微弱的好于子带长度为4000Hz时；因此，可以确定长度为为2000Hz的子频带已经足以囊括局部特征。因此可以将2000Hz，设置为目标子频带长度。

当然，还可以设置更多种的子频带长度，并测试采用不同种子频带长度的数据所训练的模型的语音增强效果，来从中选取最合适的目标子频带长度。进而能够合理的划分子频带，更好的为学生模型引入先验知识，使学生模型专注于学习各个子带上更为稳定的特征，增加最终训练得到的学生模型的语音增强质量。

在得到训练数据后，可以分别采用各组训练数据训练各教师模型，以下以采用一组训练数据，训练一个教师模型为例进行说明，可以包括如下步骤206～步骤208：

步骤206、针对一个教师模型，将一组训练数据输入至所述教师模型中，由所述教师模型基于所述一组训练数据中的样本数据进行前向计算，得到第一输出数据。

步骤208、基于所述第一输出数据和所述一组训练数据中的标签数据，对所述教师模型进行反向传播。

本发明实施例中，获取的用于训练模型的语音数据包括带噪声的语音数据和干净语音数据，可以将带噪声的语音数据的频域数据划分的子频带，将称为样本数据；以及可以将干净的语音数据的频域数据划分的子频带，称为标签数据；也就是说，训练数据中可以包括：样本数据和标签数据。

其中，一组训练数据中可以包含多个子频带，也就是多个样本数据和各样本数据对应的标签数据，一个样本数据和该样本数据对应的标签数据可以称为一对训练数据，一组训练数据中训练数据的对数，与获取的带噪声的语音数据的条数/干净的语音数据的条数相同。

以下以采用一组训练数据中的一对训练数据训练教师模型为例进行说明。

可以将这一对训练数据均输入至教师模型中，然后由教师模型对这对训练数据中的样本数据进行前向计算，输出第一输出数据。然后将该第一输出数据与该对训练数据中的标签数据进行比对，对教师模型进行反向传播，调整教师模型的权重参数。其中，可以基于该第一输出数据与该对训练数据中的标签数据，确定损失函数结果；然后基于该损失函数结果对教师模型进行反向传播。然后可以按照上述方式，采用这一组训练数据对教师模型进行训练，直到满足结束条件为止。进而分别采用各组训练数据训练各教师模型，可以得到多个教师模型，教师模型的数量与训练数据的组数相同；也就是说，存在多少组训练数据，可以训练多少个教师模型。例如，采用起止频率为0Hz～2000Hz对应的这组训练数据对教师模型进行训练，可以得到0Hz～2000Hz对应的教师模型A；采用起止频率为2000Hz～4000Hz对应的这组训练数据对教师模型进行训练，可以得到2000Hz～4000Hz对应的教师模型B；采用起止频率为4000Hz～6000Hz对应的这组训练数据对教师模型进行训练，可以得到4000Hz～6000Hz对应的教师模型C；采用起止频率为6000Hz～8000Hz对应的这组训练数据对教师模型进行训练，可以得到6000Hz～8000Hz对应的教师模型D。

然后采用所述各教师模型基于所述各组训练数据指导训练学生模型，以下以采用一个教师模型指导学生模型进行训练为例进行说明；如步骤210～步骤214：

步骤210、针对一个教师模型，将用于训练所述教师模型的一组训练数据输入至所述教师模型中进行前向计算，得到第二输出数据。

步骤212、以及将用于训练所述教师模型的一组训练数据输入至所述学生模型中进行前向计算，得到第三输出数据。

步骤214、基于所述第二输出数据和第三输出数据，对所述学生模型进行反向传播。

本发明实施例中，在每采用一个教师模型指导学生模型训练的过程中，可以将用于训练该教师模型的一组训练数据输入至该教师模型中进行前向计算；其中，该教师模型可以采用该组训练数据中的样本数据进行前向计算，得到该教师模型输出的第二输出数据。以及可以将用于训练该教师模型的一组训练数据输入至学生模型中进行前向计算；其中，将学生模型可以采用该组训练数据中的样本数据进行前向计算，得到学生模型输出的第三输出数据。

然后可以依据该教师模型输出的第二输出数据和学生模型输出的第三输出数据，对学生模型进行反向传播。一个示例中，可以依据该教师模型输出的第二输出数据和学生模型输出的第三输出数据，以及该组训练数据中的标签数据，对学生模型进行反向传播；可以包括如下子步骤S22～S26：

子步骤S22、基于所述第二输出数据和第三输出数据，确定第一损失函数结果。

子步骤S24、基于所述第三输出数据和用于训练所述教师模型的一组训练数据中的所述标签数据，确定第二损失函数结果。

子步骤S26、依据所述第一损失函数结果和第二损失函数结果进行加权计算，依据加权计算结果对所述学生模型进行反向传播。

本发明实施例中，可以依据第二输出数据和第三输出数据，计算一组损失函数结果。其中，一组损失函数结果可以包括多个损失函数结果，每个损失函数结果，与用于训练该教师模型的一组训练数据中的一对训练数据对应；也就是说，一组损失函数结果中包含的损失函数结果的数量，与用于训练该教师模型的一组训练数据中包含的训练数据的对数相同。为了便于后续说明，可以将依据第二输出数据和第三输出数据，计算的一组损失函数结果，称为第一损失函数结果。

以及可以依据第三输出数据和用于训练所述教师模型的一组训练数据中的所述标签数据，计算一组损失函数结果。其中，一组损失函数结果可以包括多个损失函数结果，每个损失函数结果，与用于训练该教师模型的一组训练数据中的一对训练数据对应；也就是说，一组损失函数结果中包含的损失函数结果的数量，与用于训练该教师模型的一组训练数据中包含的训练数据的对数相同。为了便于后续说明，可以将依据第三输出数据和用于训练所述教师模型的一组训练数据中的所述标签数据，计算的一组损失函数结果，称为第二损失函数结果。

本发明的一个示例中，所述学生模型的损失函数可以采用如下表达式表示：

L＝(G_s(|X_i|)-|S_i|)²+α(G_s(|X_i|)-G_i(|X_i|))²

其中，L是损失函数。G_s(|X_i|)是用于训练第i个教师模型的训练数据输入至学生模型后，学生模型输出的第三输出数据。S_i是用于训练第i个教师模型的训练数据中的标签数据。G_i(|X_i|)是用于训练第i个教师模型的训练数据输入至该教师模型后，教师模型输出的第二输出数据。α是超参数，可以按照需求设置，如0.1等，本发明实施例对此不作限制。

本发明的一个示例中，基于所述第二输出数据和第三输出数据，确定第一损失函数结果的一种方式可以是，计算所述第二输出数据与第三输出数据的第一差值信息；然后计算第一差值信息的平方，得到第一损失函数结果。

本发明的一个示例中，基于所述第三输出数据和用于训练所述教师模型的一组训练数据中的所述标签数据，确定第二损失函数结果的一种方式可以是，计算第三输出数据与用于训练所述教师模型的一组训练数据中所述标签数据的第二差值信息。然后计算第二差值信息的平方，得到第二损失函数结果。

本发明的一个示例中，一种依据所述第一损失函数结果和第二损失函数结果进行加权计算的方式可以是，通过将第二损失函数结果与超参数α相乘后，再与第一损失结果相加，来对所述第一损失函数结果和第二损失函数结果进行加权计算，得到对应的加权计算结果。然后依据加权计算结果对所述学生模型进行反向传播。

综上，由于子频带特征具有比全频带特征更小的维度，因此学生模型的参数量与训练的时间均会变小。并且，该方法通过单个网络来学习全部的子频带，这样可以鼓励学生模型学习不同频率带上的共性，减轻了学生模型的学习压力。

本发明的一个示例中，对比了具有不同层数的隐单元(256、512和1024)的教师模型(包括多个采用不同子频带的训练数据训练的教师模型)与未经老师模型指导训练的学生模型(即采用所有子频带的训练数据训练的学生模型)，在各个子频带上的输出与目标之间的均方误差；如表2所示：

表2

其中，表2中第3行第2列表示：将0～2000Hz这个子频带输入至隐单元层数为256的学生模型中，学生模型输出与目标之间的均方误差。表2中第3行第3列表示：将2000～4000Hz这个子频带输入至隐单元层数为256的学生模型中，学生模型输出与目标之间的均方误差。表2中第3行第4列表示：将4000～6000Hz这个子频带输入至隐单元层数为256的学生模型中，学生模型输出与目标之间的均方误差。表2中第3行第5列表示：将6000～8000Hz这个子频带输入至隐单元层数为256的学生模型中，学生模型输出与目标之间的均方误差。表2中第4行第2列表示：将0～2000Hz这个子频带输入至隐单元层数为512的学生模型中，学生模型输出与目标之间的均方误差；表2中第4行其他列，以及第5行各列表达的含义，以此类推，在此不再赘述。表2中第9行第2列表示：将0～2000Hz这个子频带输入至隐单元层数为256的教师模型A中，教师模型A输出与目标之间的均方误差。表2中第9行第3列表示：将2000～4000Hz这个子频带输入至隐单元层数为256的教师模型B中，教师模型B输出与目标之间的均方误差。表2中第9行第4列表示：将4000～6000Hz这个子频带输入至隐单元层数为256的教师模型C中，教师模型C输出与目标之间的均方误差。表2中第9行第2列表示：将6000～8000Hz这个子频带输入至隐单元层数为256的教师模型D中，教师模型D输出与目标之间的均方误差。表2中第10行第2列表示：将0～2000Hz这个子频带输入至隐单元层数为512的教师模型A中，教师模型A输出与目标之间的均方误差；表2中第10行其他列，以及第11行各列表达的含义，以此类推，在此不再赘述。

根据表2可知，在0～2000Hz这个子频带上，无论教师模型还是学生模型，它们的输出与目标之间的均方误差都远高于6000～8000Hz上的。这主要是因为在人的语音能量主要集中在语谱图的低频部分，导致低频部分时频点的数据分布复杂。这也说明了语音中不同子频带对整体语音的质量与可懂度是贡献是不同的；因此让学生模型来学习各不同子频带上的特征是能够增加语音增强效果的。此外，针对采用不同子频带的训练数据训练的教师模型的性能，好于采用所有子频带的训练数据训练的学生模型。这表明虽然学生模型可以通过捕获各个子频带的共性来减轻学习的压力，但是这种共性带来的益处不如多个专用模型的集成。因此本发明实施例采用通过不同子频带训练教师模型，来指导学生模型的训练，能够提高学生模型的语音增强效果。

在上述实施例的基础上，可以采用上述训练后的学生模型进行语音增强；可以如下：

参照图3，示出了本发明的一种语音增强方法实施例的步骤流程图。

步骤302、获取语音数据。

步骤304、依据预设的语音增强模型对所述语音数据进行语音增强，所述预设的语音增强模型是由教师模型指导训练的学生模型，所述教师模型包括基于语音频谱的不同子频带训练的多个模型。

本发明实施例中，可以获取待进行语音增强的语音数据；然后可以采用上述训练的学生模型(即预设的语音增强模型)对所述语音数据进行语音增强，然后可以基于语音增强结果进行输入如语音识别，输出语音识别结果，又如翻译，输出翻译结果等等。进而本发明实施例能够在不增加语音增强模型的参数量和计算代价的前提下，提升语音增模型的性能。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

参照图4，示出了本发明的一种语音增强装置实施例的结构框图，具体可以包括如下模块：

第一数据获取模块402，用于获取语音数据；

语音增强模块404，用于依据预设的语音增强模型对所述语音数据进行语音增强，所述预设的语音增强模型是由教师模型指导训练的学生模型，所述教师模型包括基于语音频谱的不同子频带训练的多个模型。

参照图5，示出了本发明的一种模型训练装置实施例的结构框图。

第二数据获取模块502，用于获取多条语音数据；

训练数据生成模块504，用于分别将所述多条语音数据对应的频域数据划分为多个子频带，并采用起止频率相同的子频带生成一组训练数据，基于生成的每一组训练数据，得到多组训练数据；

训练模块506，用于分别采用各组训练数据训练各教师模型，并采用所述各教师模型基于所述各组训练数据指导训练学生模型。

参照图6，示出了本发明的一种模型训练装置可选实施例的结构框图。

本发明一个可选的实施例中，所述训练数据包括：样本数据和标签数据；所述训练模块506，包括：

教师模型训练子模块5062，用于针对一个教师模型，将一组训练数据输入至所述教师模型中，由所述教师模型基于所述一组训练数据中的样本数据进行前向计算，得到第一输出数据；基于所述第一输出数据和所述一组训练数据中的标签数据，对所述教师模型进行反向传播。

本发明一个可选的实施例中，所述训练模块506，包括：

学生模型训练子模块5064，用于针对一个教师模型，将用于训练所述教师模型的一组训练数据输入至所述教师模型中进行前向计算，得到第二输出数据；以及将用于训练所述教师模型的一组训练数据输入至所述学生模型中进行前向计算，得到第三输出数据；基于所述第二输出数据和第三输出数据，对所述学生模型进行反向传播。

本发明一个可选的实施例中，所述训练数据包括：标签数据；

所述学生模型训练子模块5064，用于基于所述第二输出数据和第三输出数据，确定第一损失函数结果；基于所述第三输出数据和用于训练所述教师模型的一组训练数据中的所述标签数据，确定第二损失函数结果；依据所述第一损失函数结果和第二损失函数结果进行加权计算，依据加权计算结果对所述学生模型进行反向传播。

综上，本发明实施例中，预先采用语音频谱的不同子频带训练多个教师模型，并采用多个教师模型指导训练一个学生模型，使得该学生模型能够学习到各不同子频带上的特征；进而后续采用该学生模型进行语音增强，能够达到较好的语音增强效果；从而实现在不增加语音增强模型的参数量和计算代价的前提下，提升模型的语音增强效果。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

图7是根据一示例性实施例示出的一种用于模型训练和/或语音增强的电子设备700的结构框图。例如，电子设备700可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图7，电子设备700可以包括以下一个或多个组件：处理组件702，存储器704，电力组件706，多媒体组件708，音频组件710，输入/输出(I/O)的接口712，传感器组件714，以及通信组件716。

处理组件702通常控制电子设备700的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理元件702可以包括一个或多个处理器720来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件702可以包括一个或多个模块，便于处理组件702和其他组件之间的交互。例如，处理部件702可以包括多媒体模块，以方便多媒体组件708和处理组件702之间的交互。

存储器704被配置为存储各种类型的数据以支持在电子设备700的操作。这些数据的示例包括用于在电子设备700上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器704可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电力组件706为电子设备700的各种组件提供电力。电力组件706可以包括电源管理系统，一个或多个电源，及其他与为电子设备700生成、管理和分配电力相关联的组件。

多媒体组件708包括在所述电子设备700和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件708包括一个前置摄像头和/或后置摄像头。当电子设备700处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件710被配置为输出和/或输入音频信号。例如，音频组件710包括一个麦克风(MIC)，当电子设备700处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器704或经由通信组件716发送。在一些实施例中，音频组件710还包括一个扬声器，用于输出音频信号。

I/O接口712为处理组件702和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件714包括一个或多个传感器，用于为电子设备700提供各个方面的状态评估。例如，传感器组件714可以检测到电子设备700的打开/关闭状态，组件的相对定位，例如所述组件为电子设备700的显示器和小键盘，传感器组件714还可以检测电子设备700或电子设备700一个组件的位置改变，用户与电子设备700接触的存在或不存在，电子设备700方位或加速/减速和电子设备700的温度变化。传感器组件714可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件714还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件714还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件716被配置为便于电子设备700和其他设备之间有线或无线方式的通信。电子设备700可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信部件714经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信部件714还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，电子设备700可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器704，上述指令可由电子设备700的处理器720执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行一种语音增强方法，所述方法包括：获取语音数据；依据预设的语音增强模型对所述语音数据进行语音增强，所述预设的语音增强模型是由教师模型指导训练的学生模型，所述教师模型包括基于语音频谱的不同子频带训练的多个模型。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行一种模型训练方法，所述方法包括：获取多条语音数据；分别将所述多条语音数据对应的频域数据划分为多个子频带，并采用起止频率相同的子频带生成一组训练数据，基于生成的每一组训练数据，得到多组训练数据；分别采用各组训练数据训练各教师模型，并采用所述各教师模型基于所述各组训练数据指导训练学生模型。

图8是本发明根据另一示例性实施例示出的一种用于模型训练和/或语音增强的电子设备800的结构示意图。该电子设备800可以是服务器，该服务器可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processing units，CPU)822(例如，一个或一个以上处理器)和存储器832，一个或一个以上存储应用程序842或数据844的存储介质830(例如一个或一个以上海量存储设备)。其中，存储器832和存储介质830可以是短暂存储或持久存储。存储在存储介质830的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器822可以设置为与存储介质830通信，在服务器上执行存储介质830中的一系列指令操作。

服务器还可以包括一个或一个以上电源826，一个或一个以上有线或无线网络接口850，一个或一个以上输入输出接口858，一个或一个以上键盘856，和/或，一个或一个以上操作系统841，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

在示例性实施例中，服务器经配置以由一个或者一个以上中央处理器822执行一个或者一个以上程序包含用于进行以下操作的指令：获取语音数据；依据预设的语音增强模型对所述语音数据进行语音增强，所述预设的语音增强模型是由教师模型指导训练的学生模型，所述教师模型包括基于语音频谱的不同子频带训练的多个模型。

在示例性实施例中，服务器经配置以由一个或者一个以上中央处理器822执行一个或者一个以上程序包含用于进行以下操作的指令：获取多条语音数据；分别将所述多条语音数据对应的频域数据划分为多个子频带，并采用起止频率相同的子频带生成一组训练数据，基于生成的每一组训练数据，得到多组训练数据；分别采用各组训练数据训练各教师模型，并采用所述各教师模型基于所述各组训练数据指导训练学生模型。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本发明所提供的一种语音增强及模型训练方法、一种语音增强及模型训练装置和一种电子设备，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种语音增强方法，其特征在于，所述的方法包括：

获取语音数据；

依据预设的语音增强模型对所述语音数据进行语音增强，所述预设的语音增强模型是由教师模型指导训练的学生模型，所述教师模型包括基于语音频谱的不同子频带训练的多个模型。

2.一种模型训练方法，其特征在于，包括：

获取多条语音数据；

分别将所述多条语音数据对应的频域数据划分为多个子频带，并采用起止频率相同的子频带生成一组训练数据，基于生成的每一组训练数据，得到多组训练数据；

分别采用各组训练数据训练各教师模型，并采用所述各教师模型基于所述各组训练数据指导训练学生模型。

3.根据权利要求2所述的方法，其特征在于，所述训练数据包括：样本数据和标签数据；

所述分别采用各组训练数据训练各教师模型，包括：

针对一个教师模型，将一组训练数据输入至所述教师模型中，由所述教师模型基于所述一组训练数据中的样本数据进行前向计算，得到第一输出数据；

基于所述第一输出数据和所述一组训练数据中的标签数据，对所述教师模型进行反向传播。

4.根据权利要求2所述的方法，其特征在于，所述采用所述各教师模型基于所述各组训练数据指导训练学生模型，包括：

针对一个教师模型，将用于训练所述教师模型的一组训练数据输入至所述教师模型中进行前向计算，得到第二输出数据；

以及将用于训练所述教师模型的一组训练数据输入至所述学生模型中进行前向计算，得到第三输出数据；

基于所述第二输出数据和第三输出数据，对所述学生模型进行反向传播。

5.一种语音增强装置，其特征在于，包括：

第一数据获取模块，用于获取语音数据；

语音增强模块，用于依据预设的语音增强模型对所述语音数据进行语音增强，所述预设的语音增强模型是由教师模型指导训练的学生模型，所述教师模型包括基于语音频谱的不同子频带训练的多个模型。

6.一种模型训练装置，其特征在于，包括：

第二数据获取模块，用于获取多条语音数据；

训练数据生成模块，用于分别将所述多条语音数据对应的频域数据划分为多个子频带，并采用起止频率相同的子频带生成一组训练数据，基于生成的每一组训练数据，得到多组训练数据；

训练模块，用于分别采用各组训练数据训练各教师模型，并采用所述各教师模型基于所述各组训练数据指导训练学生模型。

7.一种电子设备，其特征在于，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

获取语音数据；

8.一种电子设备，其特征在于，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

获取多条语音数据；

9.一种可读存储介质，其特征在于，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如方法权利要求1所述的语音增强方法。

10.一种可读存储介质，其特征在于，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如方法权利要求2-4任一所述的模型训练方法。