CN110970015A

CN110970015A - 一种语音处理方法、装置和电子设备

Info

Publication number: CN110970015A
Application number: CN201811161308.9A
Authority: CN
Inventors: 文仕学
Original assignee: Beijing Sogou Technology Development Co Ltd; Sogou Hangzhou Intelligent Technology Co Ltd
Current assignee: Beijing Sogou Technology Development Co Ltd
Priority date: 2018-09-30
Filing date: 2018-09-30
Publication date: 2020-04-07
Anticipated expiration: 2038-09-30
Also published as: CN110970015B

Abstract

本发明实施例提供了一种语音处理方法、装置和电子设备，其中，所述方法包括：获取至少一组语音训练数据，所述语音训练数据包括：带噪声的样本语音数据和带噪声的参考语音数据；依据所述带噪声的样本语音数据对语音增强模型进行前向训练，得到所述语音增强模型输出的预测语音数据；依据所述带噪声的参考语音数据和预测语音数据，对所述语音增强模型进行后向训练；相对于现有技术采用干净的语音数据对语音增强模型进行后向训练而言，本发明实施例无需获取干净的语音数据，降低了获取语音训练数据的成本、复杂度和时长，能够提高模型训练的效率。

Description

一种语音处理方法、装置和电子设备

技术领域

本发明涉及数据处理技术领域，特别是涉及一种语音处理方法、装置和电子设备。

背景技术

随着通信技术的快速发展，诸如手机、平板电脑等终端越来越普及，给人们的生活、学习、工作带来了极大的便利。这些终端可以通过麦克风收集语音信号，使用语音增强技术对收集到的语音信号进行处理，以降低噪声干扰的影响。其中，语音增强是指当语音信号被各种各样的噪声干扰、甚至淹没后，从噪声背景中提取有用的语音信号，抑制、降低噪声干扰的技术。

目前，终端通常是使用语音增强模型来去除噪声，实现语音增强；其中，需要预先收集训练数据(包括干净语音信号和带噪语音信号)，然后采用训练数据对语音增强模型进行训练，使得语音增强模型能够实现语音增强。其中，干净的语音信号需要在没有噪声的环境中得到(如在录音房录制得到)，而带噪语音信号则需要基于干净的语音信号加噪得到；可见，训练数据生成方法复杂、耗费时间长，使得模型训练效率低。

发明内容

本发明实施例提供一种语音处理方法，以提高模型训练效率。

相应的，本发明实施例还提供了一种语音处理装置和一种电子设备，用以保证上述方法的实现及应用。

为了解决上述问题，本发明实施例公开了一种语音处理方法，具体包括：获取至少一组语音训练数据，所述语音训练数据包括：带噪声的样本语音数据和带噪声的参考语音数据；依据所述带噪声的样本语音数据对语音增强模型进行前向训练，得到所述语音增强模型输出的预测语音数据；依据所述带噪声的参考语音数据和预测语音数据，对所述语音增强模型进行后向训练。

可选地，所述依据所述带噪声的样本语音数据对语音增强模型进行前向训练，得到所述语音增强模型输出的预测语音数据，包括：将所述带噪声的样本语音数据输入至语音增强模型中，得到所述语音增强模型输出的预测语音数据；所述依据所述带噪声的参考语音数据和预测语音数据，对所述语音增强模型进行后向训练，包括：确定所述带噪声的参考语音数据和预测语音数据之间的误差信息，依据所述误差信息对所述语音增强模型的参数进行调整。

可选地，所述预测语音数据包括频域预测特征信息，所述依据所述带噪声的样本语音数据对语音增强模型进行前向训练，得到所述语音增强模型输出的预测语音数据，包括：对所述样本语音数据进行频域变换得到频域样本语音数据，从所述频域样本语音数据中提取特征得到频域样本特征信息；将所述频域样本特征信息输入至语音增强模型中，得到所述语音增强模型输出的频域预测特征信息；所述依据所述带噪声的参考语音数据和预测语音数据，对所述语音增强模型进行后向训练，包括：对所述参考语音数据进行频域变换得到所述频域参考语音数据，从所述频域参考语音数据中提取特征得到频域参考特征信息；确定所述频域参考特征信息和频域预测特征信息之间的误差信息，依据所述误差信息对所述语音增强模型的参数进行调整。

可选地，所述方法还包括：获取待识别语音数据；依据训练后的语音增强模型对所述待识别语音数据进行语音增强，得到目标语音数据；依据所述目标语音数据进行输出。

可选地，一组语音训练数据中带噪声的参考语音数据包括多个，每个带噪声的参考语音数据中噪声部分的全部或部分不同。

可选地，每个带噪声的参考语音数据所包含的噪声部分能量与语音部分能量的比值小于或等于设定能量阈值。

可选地，一组语音训练数据中所包含的带噪声的参考语音数据的期望，与带噪声的参考语音数据中语音部分的期望匹配。

可选地，一组语音训练数据中所包含的带噪声的样本语音数据和对应的带噪声的参考语音数据，其语音部分相同，且逐帧对齐。

本发明实施例还公开了一种语音处理装置，具体包括：数据获取模块，用于获取至少一组语音训练数据，所述语音训练数据包括：带噪声的样本语音数据和带噪声的参考语音数据；前向训练模块，用于依据所述带噪声的样本语音数据对语音增强模型进行前向训练，得到所述语音增强模型输出的预测语音数据；后向训练模块，用于依据所述带噪声的参考语音数据和预测语音数据，对所述语音增强模型进行后向训练。

可选地，所述前向训练模块包括：第一训练子模块，用于将所述带噪声的样本语音数据输入至语音增强模型中，得到所述语音增强模型输出的预测语音数据；所述后向训练模块，包括：第一调整子模块，用于确定所述带噪声的参考语音数据和预测语音数据之间的误差信息，依据所述误差信息对所述语音增强模型的参数进行调整。

可选地，所述前向训练模块包括：第二训练子模块，用于对所述样本语音数据进行频域变换得到频域样本语音数据，从所述频域样本语音数据中提取特征得到频域样本特征信息；将所述频域样本特征信息输入至语音增强模型中，得到所述语音增强模型输出的预测语音数据；所述后向训练模块，包括：第二调整子模块，用于对所述参考语音数据进行频域变换得到述频域参考语音数据，从所述频域参考语音数据中提取特征得到频域参考特征信息；确定所述频域参考特征信息和预测语音数据之间的误差信息，依据所述误差信息对所述语音增强模型的参数进行调整。

可选地，所述装置还包括：语音增强模块，用于获取待识别语音数据；依据训练后的语音增强模型对所述待识别语音数据进行语音增强，得到目标语音数据；依据所述目标语音数据进行输出。

可选地，每个带噪声的参考语音数据所包含噪声部分能量与语音部分能量的比值小于或等于设定能量阈值。

本发明实施例还公开了一种可读存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如本发明实施例任一所述的语音处理方法。

本发明实施例还公开了一种电子设备，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：获取至少一组语音训练数据，所述语音训练数据包括：带噪声的样本语音数据和带噪声的参考语音数据；依据所述带噪声的样本语音数据对语音增强模型进行前向训练，得到所述语音增强模型输出的预测语音数据；依据所述带噪声的参考语音数据和预测语音数据，对所述语音增强模型进行后向训练。

可选地，所述预测语音数据包括频域预测特征信息，所述依据所述带噪声的样本语音数据对语音增强模型进行前向训练，得到所述语音增强模型输出的预测语音数据，包括：对所述样本语音数据进行频域变换得到频域样本语音数据，从所述频域样本语音数据中提取特征得到频域样本特征信息；将所述频域样本特征信息输入至语音增强模型中，得到所述语音增强模型输出的频域预测特征信息；所述依据所述带噪声的参考语音数据和预测语音数据，对所述语音增强模型进行后向训练，包括：对所述参考语音数据进行频域变换得到述频域参考语音数据，从所述频域参考语音数据中提取特征得到频域参考特征信息；确定所述频域参考特征信息和频域预测特征信息之间的误差信息，依据所述误差信息对所述语音增强模型的参数进行调整。

可选地，还包含用于进行以下操作的指令：获取待识别语音数据；依据训练后的语音增强模型对所述待识别语音数据进行语音增强，得到目标语音数据；依据所述目标语音数据进行输出。

本发明实施例包括以下优点：

本发明实施例中，可以获取至少一组语音训练数据，然后采用语音训练数据对语音增强模型进行训练，其中，一组语音训练数据中包括带噪声的样本语音数据和带噪声的参考语音数据，对语音增强模型的训练可以包括：依据所述带噪声的样本语音数据对语音增强模型进行前向训练，得到所述语音增强模型输出的预测语音数据；以及依据所述带噪声的参考语音数据和预测语音数据，对所述语音增强模型进行后向训练；相对于现有技术采用干净的语音数据对语音增强模型进行后向训练而言，本发明实施例无需获取干净的语音数据，降低了获取语音训练数据的成本、复杂度和时长，能够提高模型训练的效率。

附图说明

图1是本发明的一种语音处理方法实施例的步骤流程图；

图2是本发明实施例的一种带噪声的参考语音数据的示意图；

图3是本发明的一种语音处理方法可选实施例的步骤流程图；

图4是本发明的实施例的一种模型训练过程的示意图；

图5是本发明的一种语音处理方法可选实施例的步骤流程图；

图6是本发明实施例的另一种模型训练过程的示意图；

图7是本发明的一种语音增强方法可选实施例的步骤流程图；

图8是本发明实施例的一种待识别语音数据的示意图；

图9是本发明的一种语音处理装置实施例的结构框图；

图10是本发明的一种语音处理装置可选实施例的结构框图；

图11根据一示例性实施例示出的一种用于语音处理的电子设备的结构框图；

图12是本发明根据另一示例性实施例示出的一种用于语音处理的电子设备的结构示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

本发明实施例的核心构思之一是，依据带噪声的语音数据与语音增强模型前向训练输出的语音数据，对语音增强模型进行后向训练，来调整所述语音增强模型；而无需采用干净的语音数据对语音增强模型进行后向训练，进而降低了获取训练数据的成本、复杂度和时长，提高了模型训练的效率。

参照图1，示出了本发明的一种语音处理方法实施例的步骤流程图，具体可以包括如下步骤：

步骤102、获取至少一组语音训练数据，所述语音训练数据包括：带噪声的样本语音数据和带噪声的参考语音数据。

本发明实施例中，可以获取至少一组语音训练数据，然后采用获取的语音训练数据对语音增强模型进行训练，其中，所述语音增强模型在训练之前，其参数可以是默认值；所述语音增强模型可以包括多种，如可以是神经网络例如深度神经网络、卷积神经网络等，也可以是其他机器学习模型如高斯混合模型等，本发明实施例对此不作限制。其中，一组语音训练数据可以包括带噪声的样本语音数据和带噪声的参考语音数据，所述带噪声的样本语音数据用于对所述语音增强模型进行前向训练，所述带噪声的参考语音数据用于对语音增强模型进行后向训练；所述带噪声的样本语音数据可以包括干净的语音信号(也可称为语音部分)和噪声信号(也可称为噪声部分)，所述带噪声的参考语音数据也可以包括语音部分和噪声部分；一组语音训练数据中带噪声的样本语音数据和对应的带噪声的参考语音数据中语音部分是相同的，且逐帧对齐。本发明对噪声部分对应的类型不做限制，可以是鸟叫声、工厂机器轰鸣声、人群嘈杂声、汽车喇叭声等等。

步骤104、依据所述带噪声的样本语音数据对语音增强模型进行前向训练，得到所述语音增强模型输出的预测语音数据。

步骤106、依据所述带噪声的参考语音数据和预测语音数据，对所述语音增强模型进行后向训练。

本发明实施例中，可以每次采用一组语音训练数据对语音增强模型进行训练，其中，对语音增强模型的训练可以包括前向训练和后向训练；其中，可以依据所述带噪声的样本语音数据对语音增强模型进行前向训练，例如将所述带噪声的样本语音数据直接输入至所述语音增强模型进行前向训练，又例如可以将所述带噪声的样本语音数据对应的频域上的特征信息，输入至所述语音增强模型进行前向训练；进而可以得到所述语音增强模型输出的预测语音数据。然后可以采用所述带噪声的参考语音数据和预测语音数据对语音增强模型进行后向训练，其中，可以将所述带噪声的参考语音数据和预测语音数据进行比对，依据两者的比对结果来调整语音增强模型的参数。进而在采用语音训练数据对语音增强模型完成训练后，可以采用训练后的语音增强模型进行语音增强，从带噪声的语音数据中提取出干净的语音信号。

作为本发明的一个示例，一种对语音增强模型进行后向训练的方式，可以是采用均方误差(Mean-Square Error，MSE)调整语音增强模型的参数；即计算语音增强模型输出的预测语音数据和带噪声的参考语音数据的MSE，再依据MSE不断调整语音增强模型的参数。其中，MSE的公式可以如下：

MSE＝(A-B)²

其中，A是语音增强模型输出的预测语音数据，B是带噪声的参考语音数据，可以包括多个。其中，为使得训练后的语音增强模型能够输出干净的语音信号，可以限制B对应的多个带噪声的参考语音数据的期望，与这多个带噪声的参考语音数据中语音部分的期望匹配，如期望相同；进而本发明实施例中，一组语音训练数据中带噪声的参考语音数据可以包括多个，一组语音训练数据中所包含的带噪声的参考语音数据的期望，与带噪声的参考语音数据中语音部分的期望匹配。可选的，一组语音训练数据的各带噪声的参考语音数据中噪声部分的全部或部分不同。

本发明一个可选实施例中，对各组语音训练数据中各带噪声的参考语音数据中噪声部分的均值不作限制。

其中，一组语音训练数据所包含的带噪声的参考语音数据的期望，与带噪声的参考语音数据中语音部分的期望相同，可以是指所有带噪声的参考语音数据中语音部分与噪声部分未重合的部分，能够组成完整的语音部分；其中，本发明可以通过一个示例进行直观说明，可参考图2。图2中包括3个带噪声的参考语音数据：带噪声的参考语音数据1、带噪声的参考语音数据2和带噪声的参考语音数据3；其中带噪声的参考语音数据1包括语音部分222和噪声部分224，带噪声的参考语音数据2包括语音部分242和噪声部分244，带噪声的参考语音数据3包括语音部分262和噪声部分264。其中，222、242和262是相同的，均是“大家好，我叫李XX，很高兴认识大家”对应的语音。224、244和2642是不同的噪声。这三个带噪声的参考语音数据中语音部分与噪声部分重合的位置不同，如带噪声的参考语音数据1：“……叫李XX，很高兴认识大家”对应的语音；带噪声的参考语音数据2：“大家……兴认识大家”对应的语音；以及带噪声的参考语音数据3：“大家好，我叫李……”对应的语音；其中，省略号表示带噪声的参考语音数据中语音部分与噪声部分重合的部分；根据这三个带噪声的参考语音数据中语音部分与噪声部分未重合的部分，可以组成完整的语音部分：“大家好，我叫李XX，很高兴认识大家”对应的语音；此时可以认为这三个带噪声的参考语音数据的期望，与这三个带噪声的参考语音数据中语音部分的期望相同。

然后采用这组语音训练数据中所有带噪声的参考语音数据，对语音增强模型进行后向训练，能够使得语音增强模型可以输出这组语音训练数据的带噪声的参考语音数据中语音部分；其原理如下：

基于上述示例，在本发明的另一个示例，可以依次采用带噪声的参考语音数据1、2和3，分别对语音增强模型进行后向训练，其中，采用带噪声的参考语音数据1对语音增强模型进行后向训练后，语音增强模型至少可以识别出：“……叫李XX，很高兴认识大家”对应的语音；其中，省略号是指未识别出的部分。在上一次的基础上，采用带噪声的参考语音数据2对语音增强模型进行后向训练后，语音增强模型至少可以识别出：“大家……叫李XX，很高兴认识大家”对应的语音。在上一次的基础上，采用带噪声的参考语音数据3对语音增强模型进行后向训练后，语音增强模型即可识别出：“大家好，我叫李XX，很高兴认识大家”对应的语音，即带噪声的参考语音数据中的语音部分。

其中，在采用一组语音训练数据训练语音增强模型的过程中，可以依据带噪声的样本语音数据对语音增强模型进行前向训练，得到预测语音数据，然后依据其中一个带噪声的参考语音数据和预测语音数据对语音增强模型进行后向训练，来调整语音增强模型；再依据该带噪声的样本语音数据对调整后的语音增强模型进行前向训练，可以得到预测语音数据，再依据下一个带噪声的参考语音数据和预测语音数据对语音增强模型进行后向训练，来调整语音增强模型；依次类推，直到采用这组语音训练数据中所有带噪声的参考语音数据对语音增强模型后向训练完成为止。

参照图3，示出了本发明的一种语音处理方法可选实施例的步骤流程图，具体可以包括如下步骤：

步骤302、获取至少一组语音训练数据，所述语音训练数据包括：带噪声的样本语音数据和带噪声的参考语音数据。

本发明实施例中，可以在不同环境下获取同一个语音的带噪声的语音数据，进而可以得到该语音对应的多个带噪声的语音数据；然后将该语音对应的多个带噪声的语音数据作为一组语音训练数据，并从这些带噪声的语音数据中选取一个语音数据作为样本语音数据，其他的语音数据作为参考语音数据。例如可以分别在教室、操场、宿舍和食堂录制语音“今天天气真好啊”对应带噪声的语音数据，对应得到带噪声的语音数据A、B、C和D；然后可以将这录制4个带噪声的语音数据作为一组语音训练数据，其中，可以将带噪声的语音数据A作为样本语音数据，将带噪声的语音数据B、C和D作为参考语音数据。

可选地，本发明实施例为保证语音增强模型可以收敛，可以对带噪声的参考语音数据能量进行限制，进而依据限制条件，对一组语音训练数据中带噪声的参考语音数据进行筛选。其中，所述限制条件可以是，一组语音训练数据中每个带噪声的参考语音数据所包含噪声部分能量与语音部分能量的比值小于或等于设定能量阈值；所述设定能量阈值可以按照需求设置如1/3等。因此本发明实施例可以计算带噪声的参考语音数据中噪声部分能量与语音部分能量的比值，然后将所述比值与设定能量阈值进行比对，若所述比值大于设定能量阈值，可以将该带噪声的参考语音数据从该组语音训练数据中筛除；若所述比值小于或等于设定能量阈值，可以保留将该组语音训练数据中的该带噪声的参考语音数据。

步骤304、将所述带噪声的样本语音数据输入至语音增强模型中，得到所述语音增强模型输出的预测语音数据。

步骤306、确定所述带噪声的参考语音数据和预测语音数据之间的误差信息，依据所述误差信息对所述语音增强模型的参数进行调整。

在获取到语音训练数据后，可以依据所述带噪声的样本语音数据对语音增强模型进行前向训练；其中，一种对语音增强模型进行前向训练的方式可以是，将带噪声的样本语音数据作为语音增强模型的输入，直接输入至语音增强模型；进而可以得到语音增强模型输出的预测语音数据，此时所述预测语音数据是时域上的数据。然后可以直接采用带噪声的参考语音数据和预测语音数据进行比对，对语音增强模型进行后向训练；其中，可以确定带噪声的参考语音数据和预测语音数据之间的误差信息，例如计算带噪声的参考语音数据和预测语音数据之间均方误差，将所述均方误差作为误差信息，又例如计算带噪声的参考语音数据和预测语音数据之间的KLD(Kullback-Leibler Divergence，K-L散度)距离，将KLD距离作为误差信息，等等。然后依据所述误差信息不断的对所述语音增强模型的参数进行调整，如采用后向传播算法、梯度下降算法等调整语音增强模型的参数。其中，可以在对语音增强模型训练预设次数后，停止对语音增强模型进行训练，所述预设次数可以按照需求设置；当然也可以将验证语音数据分别输入至相邻两次训练得到的两个语音增强模型，确定这两个语音增强模型输出的数据与验证语音数据中语音部分的误差，若得到的两个误差之间的差值小于预设下限值，则可以停止对语音增强模型进行训练。其中，所述预设下限值可以按照需求设置如0.1；所述验证语音数据是用于验证采用语音训练数据训练后语音增强模型的性能的，其包含的语音部分与带噪声的样本语音数据的语音部分不同。作为本发明的一个示例，可参照图4，示出了本发明实施例的一种模型训练过程的示意图。

本发明实施例中，可以采用带噪声的语音数据对语音增强模型进行训练，其中，可以采用带噪声的样本语音数据对语音增强模型进行前向训练，得到所述语音增强模型输出的预测语音数据；以及依据所述带噪声的参考语音数据和预测语音数据，对所述语音增强模型进行后向训练；相对于现有技术采用干净的语音数据对语音增强模型进行后向训练而言，本发明实施例无需获取干净的语音数据，降低了获取语音训练数据的成本、复杂度和时长，能够提高模型训练的效率。

进一步，本发明实施例在依据所述带噪声的样本语音数据对语音增强模型进行前向训练过程中，可以将带噪声的样本语音数据输入至语音增强模型中进行前向训练；对应的，在对语音增强模型进行后向训练过程中，可以直接将所述带噪声的参考语音数据和预测语音数据进行比对，确定误差信息；进而能够简化语音增强模型训练的过程，进一步提高模型训练的效率。

参照图5，示出了本发明的一种语音处理方法可选实施例的步骤流程图，具体可以包括如下步骤：

步骤502、获取至少一组语音训练数据，所述语音训练数据包括：带噪声的样本语音数据和带噪声的参考语音数据。

该步骤与上述步骤302类似，在此不再赘述。

步骤504、对所述样本语音数据进行频域变换得到频域样本语音数据，从所述频域样本语音数据中提取特征得到频域样本特征信息。

步骤506、将所述频域样本特征信息输入至语音增强模型中，得到所述语音增强模型输出的频域预测特征信息。

本发明实施例中，在获取到语音训练数据后，可以依据所述带噪声的样本语音数据对语音增强模型进行前向训练；其中，另一种对语音增强模型进行前向训练的方式可以是，提取所述带噪声的样本语音数据的频域特征，将该频域特征作为语音增强模型的输入，对语音增强模型进行前向训练。其中，可以对样本语音数据进行频域变换，可以得到频域上的数据即频域样本语音数据；然后可以对该频域样本语音数据进行特征提取，可以得到样本语音数据的频域特征，可以称为频域样本特征信息。进而可以将所述频域样本特征信息输入至语音增强模型中，得到语音增强模型输出的预测语音数据，此时所述预测语音数据是频域上的数据，可称为频域预测特征信息。

步骤508、对所述参考语音数据进行频域变换得到频域参考语音数据，从所述频域参考语音数据中提取特征得到频域参考特征信息。

步骤510、确定所述频域参考特征信息和频域预测特征信息之间的误差信息，依据所述误差信息对所述语音增强模型的参数进行调整。

因此在依据所述带噪声的参考语音数据和预测语音数据调整所述语音增强模型过程中，也可以对参考语音数据进行频域变换得到频域参考语音数据，然后从频域参考语音数据中提取特征得到频域参考特征信息；进而可以将频域参考特征信息与频域预测特征信息进行比对，调整语音增强模型。此处语音增强模型中参数的调整方法，与上述实施例类似，在此不再赘述。作为本发明的一个示例，可参照图6，示出了本发明实施例的另一种模型训练过程的示意图。

进一步，本发明实施例在依据所述带噪声的样本语音数据对语音增强模型进行前向训练过程中，可以对所述样本语音数据进行频域变换得到频域样本语音数据，从所述频域样本语音数据中提取特征得到频域样本特征信息，然后将所述频域样本特征信息输入至语音增强模型中进行前向训练；能够更精确的区分出噪声部分和语音部分。对应的，在对语音增强模型进行后向训练过程中，也需要对所述参考语音数据进行频域变换得到述频域参考语音数据，从所述频域参考语音数据中提取特征得到频域参考特征信息，然后通过比对频域参考特征信息和预测语音数据，确定误差信息，能够提高误差信息的准确性；从而能够提高语音增强模型的语音增强效果。

本发明的另一个实施例中，在完成训练语音增强模型后，可以采用训练后的语音增强模型进行语音增强。

参照图7，示出了本发明的一种语音增强方法可选实施例的步骤流程图，具体可以包括如下步骤：

步骤702、获取待识别语音数据。

本发明实施例中，可以获取待识别语音数据，所述待识别语音数据可以是带噪声的语音数据，可以包括语音部分和噪声部分；然后可以采用训练后的语音增强模型对待识别语音数据进行语音增强。

步骤704、依据训练后的语音增强模型对所述待识别语音数据进行语音增强，得到目标语音数据。

本发明实施例中，可以直接将所述待识别语音数据输入至训练后的语音增强模型中，语音增强模型对待识别语音数据进行处理后，可以输出目标语音数据，该目标语音数据是时域上的数据。当然，也可以将所述待识别语音数据进行频域变换，得到频域待识别语音数据，然后从频域待识别语音数据中提取特征，得到频域待识别特征信息，再将所述频域待识别特征信息输入至训练后的语音增强模型中；语音增强模型对频域待识别特征信息进行处理后，可以输出目标语音数据，该目标语音数据是频域上的数据。

步骤706、依据所述目标语音数据进行输出。

在一种可选实施方式中，依据目标语音数据进行输出，可以包括：依据目标语音数据进行语音输出，其中，若目标语音数据是时域上的数据，可以直接输出目标语音数据；若目标语音数据是频域数据，可以将目标语音数据进行时域变换，转换成时域上的数据再输出。在另一种可选实施方式中，依据所述目标语音数据进行输出，可以包括：对所述目标语音数据进行语音识别，生成识别结果；输出所述识别结果。对应的，若目标语音数据是时域上的数据，可以直接对目标语音数据进行语音识别；若目标语音数据是频域上的数据，可以将目标语音数据进行时域变换，转换成时域上的数据再进行语音识别。

作为本发明的一个示例，待识别语音数据可参照图8，其中包括语音部分如82所示，即“这家餐厅的菜真的太好吃了”对应的语音；噪声部分可以是餐厅内其他的声音如84，如“滋啦滋啦滋啦滋啦”对应的语音。可将待识别语音数据输入至语音增强模型中，语音增强模型对该待识别语音数据进行语音增强后，可以得到目标语音数据，即“这家餐厅的菜真的太好吃了”对应的语音，然后输出。当然也可以对目标语音数据进行语音识别，得到文本“这家餐厅的菜真的太好吃了”再输出。

本发明实施例中，可以获取待识别语音数据，依据训练后的语音增强模型对所述待识别语音数据进行语音增强，得到目标语音数据，然后依据目标语音数据进行输出，进而实现了采用依据待噪声的语音数据进行后向训练的语音增强模型进行语音增强。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

参照图9，示出了本发明的一种语音处理装置实施例的结构框图，具体可以包括如下模块：数据获取模块902、前向训练模块904和后向训练模块906，其中，

数据获取模块902，用于获取至少一组语音训练数据，所述语音训练数据包括：带噪声的样本语音数据和带噪声的参考语音数据；

前向训练模块904，用于依据所述带噪声的样本语音数据对语音增强模型进行前向训练，得到所述语音增强模型输出的预测语音数据；

后向训练模块906，用于依据所述带噪声的参考语音数据和预测语音数据，对所述语音增强模型进行后向训练。

参照图10，示出了本发明的一种语音处理装置可选实施例的结构框图。

本发明一个可选的实施例中，所述装置还包括：

语音增强模块908，用于获取待识别语音数据；依据训练后的语音增强模型对所述待识别语音数据进行语音增强，得到目标语音数据；依据所述目标语音数据进行输出。

本发明一个可选的实施例中，所述前向训练模块904包括：

第一训练子模块9042，用于将所述带噪声的样本语音数据输入至语音增强模型中，得到所述语音增强模型输出的预测语音数据；

所述后向训练模块906，包括：

第一调整子模块9062，用于确定所述带噪声的参考语音数据和预测语音数据之间的误差信息，依据所述误差信息对所述语音增强模型的参数进行调整。

本发明一个可选的实施例中，所述前向训练模块904包括：

第二训练子模块9044，用于对所述样本语音数据进行频域变换得到频域样本语音数据，从所述频域样本语音数据中提取特征得到频域样本特征信息；将所述频域样本特征信息输入至语音增强模型中，得到所述语音增强模型输出的预测语音数据；

所述后向训练模块906，包括：

第二调整子模块9064，用于对所述参考语音数据进行频域变换得到述频域参考语音数据，从所述频域参考语音数据中提取特征得到频域参考特征信息；确定所述频域参考特征信息和预测语音数据之间的误差信息，依据所述误差信息对所述语音增强模型的参数进行调整。

本发明一个可选的实施例中，一组语音训练数据中带噪声的参考语音数据包括多个，每个带噪声的参考语音数据中噪声部分的全部或部分不同。

本发明一个可选的实施例中，每个带噪声的参考语音数据所包含噪声部分能量与语音部分能量的比值小于或等于设定能量阈值。

本发明一个可选的实施例中，一组语音训练数据中所包含的带噪声的参考语音数据的期望，与带噪声的参考语音数据中语音部分的期望匹配。

本发明一个可选的实施例中，一组语音训练数据中所包含的带噪声的样本语音数据和对应的带噪声的参考语音数据，其语音部分相同，且逐帧对齐。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

图11是根据一示例性实施例示出的一种用于语音处理的电子设备1100的结构框图。例如，电子设备1100可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图11，电子设备1100可以包括以下一个或多个组件：处理组件1102，存储器1104，电力组件1106，多媒体组件1108，音频组件1110，输入/输出(I/O)的接口1112，传感器组件1114，以及通信组件1116。

处理组件1102通常控制电子设备1100的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理元件1102可以包括一个或多个处理器1120来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件1102可以包括一个或多个模块，便于处理组件1102和其他组件之间的交互。例如，处理部件1102可以包括多媒体模块，以方便多媒体组件1108和处理组件1102之间的交互。

存储器1104被配置为存储各种类型的数据以支持在设备1100的操作。这些数据的示例包括用于在电子设备1100上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器1104可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电力组件1106为电子设备1100的各种组件提供电力。电力组件1106可以包括电源管理系统，一个或多个电源，及其他与为电子设备1100生成、管理和分配电力相关联的组件。

多媒体组件1108包括在所述电子设备1100和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件1108包括一个前置摄像头和/或后置摄像头。当电子设备1100处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件1110被配置为输出和/或输入音频信号。例如，音频组件1110包括一个麦克风(MIC)，当电子设备1100处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器1104或经由通信组件1116发送。在一些实施例中，音频组件1110还包括一个扬声器，用于输出音频信号。

I/O接口1112为处理组件1102和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件1114包括一个或多个传感器，用于为电子设备1100提供各个方面的状态评估。例如，传感器组件1114可以检测到设备1100的打开/关闭状态，组件的相对定位，例如所述组件为电子设备1100的显示器和小键盘，传感器组件1114还可以检测电子设备1100或电子设备1100一个组件的位置改变，用户与电子设备1100接触的存在或不存在，电子设备1100方位或加速/减速和电子设备1100的温度变化。传感器组件1114可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件1114还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件1114还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件1116被配置为便于电子设备1100和其他设备之间有线或无线方式的通信。电子设备1100可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信部件1114经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信部件1114还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，电子设备1100可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器1104，上述指令可由电子设备1100的处理器1120执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行一种语音处理方法，所述方法包括：获取至少一组语音训练数据，所述语音训练数据包括：带噪声的样本语音数据和带噪声的参考语音数据；依据所述带噪声的样本语音数据对语音增强模型进行前向训练，得到所述语音增强模型输出的预测语音数据；依据所述带噪声的参考语音数据和预测语音数据，对所述语音增强模型进行后向训练。

图12是本发明根据另一示例性实施例示出的一种用于语音处理的电子设备1200的结构示意图。该电子设备1200可以是服务器，该服务器可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processing units，CPU)1222(例如，一个或一个以上处理器)和存储器1232，一个或一个以上存储应用程序1242或数据1244的存储介质1230(例如一个或一个以上海量存储设备)。其中，存储器1232和存储介质1230可以是短暂存储或持久存储。存储在存储介质1230的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1222可以设置为与存储介质1230通信，在服务器上执行存储介质1230中的一系列指令操作。

服务器还可以包括一个或一个以上电源1226，一个或一个以上有线或无线网络接口1250，一个或一个以上输入输出接口1258，一个或一个以上键盘1256，和/或，一个或一个以上操作系统1241，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

一种电子设备，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：获取至少一组语音训练数据，所述语音训练数据包括：带噪声的样本语音数据和带噪声的参考语音数据；依据所述带噪声的样本语音数据对语音增强模型进行前向训练，得到所述语音增强模型输出的预测语音数据；依据所述带噪声的参考语音数据和预测语音数据，对所述语音增强模型进行后向训练。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本发明所提供的一种语音处理方法、一种语音处理装置和一种电子设备，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种语音处理方法，其特征在于，包括：

获取至少一组语音训练数据，所述语音训练数据包括：带噪声的样本语音数据和带噪声的参考语音数据；

依据所述带噪声的样本语音数据对语音增强模型进行前向训练，得到所述语音增强模型输出的预测语音数据；

依据所述带噪声的参考语音数据和预测语音数据，对所述语音增强模型进行后向训练。

2.根据权利要求1所述的方法，其特征在于，所述依据所述带噪声的样本语音数据对语音增强模型进行前向训练，得到所述语音增强模型输出的预测语音数据，包括：

将所述带噪声的样本语音数据输入至语音增强模型中，得到所述语音增强模型输出的预测语音数据；

所述依据所述带噪声的参考语音数据和预测语音数据，对所述语音增强模型进行后向训练，包括：

确定所述带噪声的参考语音数据和预测语音数据之间的误差信息，依据所述误差信息对所述语音增强模型的参数进行调整。

3.根据权利要求1所述的方法，其特征在于，所述预测语音数据包括频域预测特征信息，

所述依据所述带噪声的样本语音数据对语音增强模型进行前向训练，得到所述语音增强模型输出的预测语音数据，包括：

对所述样本语音数据进行频域变换得到频域样本语音数据，从所述频域样本语音数据中提取特征得到频域样本特征信息；

将所述频域样本特征信息输入至语音增强模型中，得到所述语音增强模型输出的频域预测特征信息；

对所述参考语音数据进行频域变换得到所述频域参考语音数据，从所述频域参考语音数据中提取特征得到频域参考特征信息；

确定所述频域参考特征信息和频域预测特征信息之间的误差信息，依据所述误差信息对所述语音增强模型的参数进行调整。

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取待识别语音数据；

依据训练后的语音增强模型对所述待识别语音数据进行语音增强，得到目标语音数据；

依据所述目标语音数据进行输出。

5.根据权利要求1-4任一所述的方法，其特征在于，一组语音训练数据中带噪声的参考语音数据包括多个，每个带噪声的参考语音数据中噪声部分的全部或部分不同。

6.根据权利要求5所述的方法，其特征在于，每个带噪声的参考语音数据所包含的噪声部分能量与语音部分能量的比值小于或等于设定能量阈值。

7.根据权利要求5所述的方法，其特征在于，一组语音训练数据中所包含的带噪声的参考语音数据的期望，与带噪声的参考语音数据中语音部分的期望匹配。

8.一种语音处理装置，其特征在于，包括：

数据获取模块，用于获取至少一组语音训练数据，所述语音训练数据包括：带噪声的样本语音数据和带噪声的参考语音数据；

前向训练模块，用于依据所述带噪声的样本语音数据对语音增强模型进行前向训练，得到所述语音增强模型输出的预测语音数据；

后向训练模块，用于依据所述带噪声的参考语音数据和预测语音数据，对所述语音增强模型进行后向训练。

9.一种可读存储介质，其特征在于，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如方法权利要求1-7任一所述的语音处理方法。

10.一种电子设备，其特征在于，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：