CN111063365B

CN111063365B - 一种语音处理方法、装置和电子设备

Info

Publication number: CN111063365B
Application number: CN201911286333.4A
Authority: CN
Inventors: 文仕学; 郝翔; 潘逸倩
Original assignee: Beijing Sogou Technology Development Co Ltd
Current assignee: Beijing Sogou Technology Development Co Ltd
Priority date: 2019-12-13
Filing date: 2019-12-13
Publication date: 2022-06-07
Anticipated expiration: 2039-12-13
Also published as: CN111063365A

Abstract

本发明实施例提供了一种语音处理方法、装置和电子设备，其中，所述方法包括：获取待处理语音数据；采用目标语音增强模型对所述待处理语音数据进行语音增强，所述目标语音增强模型由初始语音增强模型和自注意力机制整合而成；由于基于自注意力机制能够考虑全局任意位置的信息，并将注意力集中在更为重要的内容上，进而无需增加初始语音增强模型的卷积层和增大卷积核，即可实现较好的语音增强效果，且保证了语音增强的效率。

Description

一种语音处理方法、装置和电子设备

技术领域

本发明涉及数据处理技术领域，特别是涉及一种语音处理方法、装置和电子设备。

背景技术

随着通信技术的快速发展，诸如手机、平板电脑等终端越来越普及，给人们的生活、学习、工作带来了极大的便利。用户通常会使用终端录入语音指令进行语音拍照、语音搜索等等；也会使用终端进行语音数据(如音乐、视频、录音)的播放。其中，为了使得终端能够更好的执行用户的语音指令，以及播放质量更高的语音数据，终端可以在收集语音指令之后或者播放语音数据之前，使用语音增强技术抑制、降低语音数据中噪声干扰，从噪声背景中提取有用的语音数据。

目前，通常采用神经网络来实现语音增强。但是语音数据的特征矩阵中长距离特征(时域上两个距离较大的特征)之间的依赖关系，往往需要在神经网络的后续的多个卷积层才能显现出来。因此若神经网络的卷积核不够大，卷积层数不够多，则语音增强效果较差；但是若为了提高语音增强效果，增大神经网络中卷积核以及增加卷积层数，则会降低语音增强的效率。

发明内容

本发明实施例提供一种语音处理方法，以在提高语音增强效果的同时保证语音增强的效率。

相应的，本发明实施例还提供了一种语音处理装置和一种电子设备，用以保证上述方法的实现及应用。

为了解决上述问题，本发明实施例公开了一种语音处理方法，具体包括：获取待处理语音数据；采用目标语音增强模型对所述待处理语音数据进行语音增强，所述目标语音增强模型由初始语音增强模型和自注意力机制整合而成。

可选地，通过以下方式整合所述初始语音增强模型和自注意力机制：将所述自注意力机制整合至所述初始语音增强模型的输入层。

可选地，所述采用目标语音增强模型对所述待处理语音数据进行语音增强，包括：采用所述自注意力机制计算所述待处理语音数据对应语谱矩阵中各位置的特征点与其他位置特征点之间的依赖信息，得到权重矩阵；将所述权重矩阵和语谱矩阵输入至所述初始语音增强模型，输出目标语音数据的语谱矩阵。

可选地，通过以下方式整合所述初始语音增强模型和自注意力机制：将所述自注意力机制整合至所述初始语音增强模型的输出层。

可选地，所述采用目标语音增强模型对所述待处理语音数据进行语音增强，包括：将所述待处理语音数据对应的语谱矩阵输入至所述初始语音增强模型，输出特征矩阵；采用所述自注意力机制计算所述特征矩阵中各位置的特征点与其他位置特征点之间的依赖信息，得到权重矩阵；依据所述权重矩阵和特征矩阵进行计算，得到目标语音数据的语谱矩阵。

可选地，通过以下方式整合所述初始语音增强模型和自注意力机制整合：将所述自注意力机制整合至所述初始语音增强模型的隐层。

可选地，所述采用目标语音增强模型对所述待处理语音数据进行语音增强，包括：将所述待处理语音数据对应的语谱矩阵输入至所述初始语音增强模型，得到所述初始语音增强模型第N层输出的特征矩阵；采用所述自注意力机制计算所述特征矩阵中各位置的特征点与其他位置特征点之间的依赖信息，得到权重矩阵；将所述特征矩阵和所述权重矩阵输入至所述初始语音增强模型的第N+1层，输出目标语音数据的语谱矩阵；其中，所述N为正整数。

可选地，所述的方法还包括：对所述权重矩阵进行归一化处理。

本发明实施例还公开了一种语音处理装置，具体包括：获取模块，用于获取待处理语音数据；语音处理模块，用于采用目标语音增强模型对所述待处理语音数据进行语音增强，所述目标语音增强模型由初始语音增强模型和自注意力机制整合而成。

可选地，所述装置还包括：第一整合模块，用于将所述自注意力机制整合至所述初始语音增强模型的输入层。

可选地，所述语音处理模块，包括：第一语音增强子模块，用于采用所述自注意力机制计算所述待处理语音数据对应语谱矩阵中各位置的特征点与其他位置特征点之间的依赖信息，得到权重矩阵；将所述权重矩阵和语谱矩阵输入至所述初始语音增强模型，输出目标语音数据的语谱矩阵。

可选地，所述装置还包括：第二整合模块，用于将所述自注意力机制整合至所述初始语音增强模型的输出层。

可选地，所述语音处理模块，包括：第二语音增强子模块，用于将所述待处理语音数据对应的语谱矩阵输入至所述初始语音增强模型，输出特征矩阵；采用所述自注意力机制计算所述特征矩阵中各位置的特征点与其他位置特征点之间的依赖信息，得到权重矩阵；依据所述权重矩阵和特征矩阵进行计算，得到目标语音数据的语谱矩阵。

可选地，所述装置还包括：第三整合模块，用于将所述自注意力机制整合至所述初始语音增强模型的隐层。

可选地，所述语音处理模块，包括：第三语音增强子模块，用于将所述待处理语音数据对应的语谱矩阵输入至所述初始语音增强模型，得到所述初始语音增强模型第N层输出的特征矩阵；采用所述自注意力机制计算所述特征矩阵中各位置的特征点与其他位置特征点之间的依赖信息，得到权重矩阵；将所述特征矩阵和所述权重矩阵输入至所述初始语音增强模型的第N+1层，输出目标语音数据的语谱矩阵；其中，所述N为正整数。

可选地，所述的装置还包括：归一化模块，用于对所述权重矩阵进行归一化处理。

本发明实施例还公开了一种可读存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如本发明实施例任一所述的语音处理方法。

本发明实施例还公开了一种电子设备，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：获取待处理语音数据；采用目标语音增强模型对所述待处理语音数据进行语音增强，所述目标语音增强模型由初始语音增强模型和自注意力机制整合而成。

可选地，还包含用于进行以下操作的指令：对所述权重矩阵进行归一化处理。

本发明实施例包括以下优点：

本发明实施例中，可以获取待处理语音数据，然后采用由初始语音增强模型和自注意力机制整合而成的目标语音增强模型，对所述待处理语音数据进行语音增强；由于基于自注意力机制能够考虑全局任意位置的信息，并将注意力集中在更为重要的内容上，进而无需增加初始语音增强模型的卷积层和增大卷积核，即可实现较好的语音增强效果，且保证了语音增强的效率。

附图说明

图1是本发明的一种语音处理方法实施例的步骤流程图；

图2a是本发明实施例的一种目标语音增强模型的结构示意图；

图2b是本发明的一种语音处理方法可选实施例的步骤流程图；

图2c是本发明实施例的一种自注意力机制处理过程的示意图；

图3a是本发明实施例又一种目标语音增强模型的结构示意图；

图3b是本发明的又一种语音处理方法可选实施例的步骤流程图；

图4a是本发明实施例又一种目标语音增强模型的结构示意图；

图4b是本发明的又一种语音处理方法可选实施例的步骤流程图；

图5是本发明的一种语音处理装置实施例的结构框图；

图6是本发明的一种语音处理装置可选实施例的结构框图；

图7根据一示例性实施例示出的一种用于语音处理的电子设备的结构框图；

图8是本发明根据另一示例性实施例示出的一种用于语音处理的电子设备的结构示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

本发明实施例的核心构思之一是，在语音增强过程中引入自注意力机制，进而能够考虑全局任意位置的信息，并将注意力集中在更为重要的内容上；从而在提高语音增强效效果的同时保证语音增强的效率。

参照图1，示出了本发明的一种语音处理方法实施例的步骤流程图，具体可以包括如下步骤：

步骤102、获取待处理语音数据。

本发明实施例中，当需要对某一段语音数据进行播放，或者对某一段语音数据进行识别，或者对某一段语音数据进行翻译时，可以获取该段语音数据，然后可以对该段语音数据进行语音增强。其中，可以将该段待进行语音增强的语音数据称为待处理语音数据；然后可以执行步骤104，对所述待处理语音数据进行语音增强。

步骤104、采用目标语音增强模型对所述待处理语音数据进行语音增强，所述目标语音增强模型由初始语音增强模型和自注意力机制整合而成。

本发明实施例中，可以获取预先已训练的初始语音增强模型；将初始语音增强模型与自注意力机制进行整合，得到目标语音增强模型并对所述目标语音增强模型进行训练。然后在获取待处理语音数据后，可以采用训练后的目标语音增强模型对所述待处理语音数据进行语音增强。而后再对语音增强后的语音数据进行播放、识别和翻译等处理操作，本发明实施例对此不作限制。

综上，本发明实施例中，可以获取待处理语音数据，然后采用由初始语音增强模型和自注意力机制整合而成的目标语音增强模型，对所述待处理语音数据进行语音增强；进而基于自注意力机制能够考虑全局任意位置的信息，并将注意力集中在更为重要的内容上，无需增加初始语音增强模型的卷积层和增大卷积核，即可实现较好的语音增强效果，且保证了语音增强的效率。

本发明的一个示例中，所述初始语音增强模型可以采用神经网络实现，所述神经网络可以包括以CNN(ConvolutionalNeural Networks，卷积神经网络)为核心的所有神经网络，如CNN、DNN(Deep NeuralNetworks，深度神经网络)、LSTM(Long Short-Term Memory，长短期记忆网络)等等，本发明实施例对此不作限制。

以下所述的目标语音增强模型均为训练后的目标语音增强模型。

本发明的实施例中，所述初始语音增强模型可以包括输入层-隐层-输出层，总层数为M，M为正整数；可以将所述自注意力机制整合至所述初始语音增强的模型的各层。进而整合初始语音增强模型与自注意力机制的方式可以包括多种：其中一种整合初始语音增强模型与自注意力机制的方式可以是，将所述自注意力机制整合至所述初始语音增强模型的输入层，即将所述自注意力机制的输出，作为与所述初始语音增强模型的输入层的输入，可参照图2a。

现以将所述自注意力机制整合至初始语音增强模型的输入层为例，说明如何采用目标语音增强模型对所述待处理语音数据进行语音增强。

参照图2b，示出了本发明的一种语音处理方法可选实施例的步骤流程图，具体可以包括如下步骤：

步骤202、获取待处理语音数据。

本发明实施例中，可以获取待处理语音数据，然后将所述待处理语音数据转换为对应的语谱矩阵；再将所述语谱矩阵输入至所述目标语音增强模型中，由目标语音增强模型对所述待处理语音数据进行增强。其中，所述语谱矩阵可以是指语音数据对应的时频谱矩阵。

步骤204、采用所述自注意力机制计算所述待处理语音数据对应语谱矩阵中各位置的特征点与其他位置特征点之间的依赖信息，得到权重矩阵。

步骤206、将所述权重矩阵和语谱矩阵输入至所述初始语音增强模型，输出目标语音数据的语谱矩阵。

本发明实施例中，一方面，可以将所述待处理语音数据对应的语谱矩阵输入至所述自注意力机制，由所述自注意力机制对所述待处理语音数据对应的语谱矩阵进行权重计算，得到权重矩阵并输出至所述初始语音增强模型。另一方面，还可以将所述待处理语音数据对应语谱矩阵输入至初始语音增强模型中，由初始语音增强模型依据所述权重矩阵，提取所述待处理语音数据对应语谱矩阵的特征，输出目标语音数据的语谱矩阵。其中，所述目标语音数据可以是指对待处理语音数据进行语音增强后得到的语音数据。

本发明的一个可选实施例中，所述自注意力机制可以针对所述待处理语音数据对应语谱矩阵中每个位置的特征点，计算该位置的特征点与其他位置特征点之间的依赖信息；然后采用所述依赖信息生成权重矩阵。其中，计算每个位置的特征点与其他位置特征点之间的依赖信息的方式可以包括多种；例如采用嵌入式高斯函数计算，又例如采用点乘相似度函数计算，还例如采用拼接相似度函数计算等等，本发明实施例对此不作限制。

本发明的一个示例中，所述初始语音增强模型的处理过程可以如下：初始语音增强模型的输入层可以将所述语谱矩阵点乘权重矩阵，并将点乘权重矩阵后的语谱矩阵输入至初始语音增强模型的隐层。初始语音增强模型的隐层和初始语音增强模型的输出层，依次对所述点乘权重矩阵后的语谱矩阵进行处理后，输出目标语音数据的语谱矩阵。

可选地，在得到权重矩阵后，所述自注意力机制还可以对所述权重矩阵进行归一化处理，使得权重矩阵中每一行的总和为1。然后可以将归一化后的所述权重矩阵和语谱矩阵输入至所述初始语音增强模型，输出目标语音数据的语谱矩阵。

作为本发明的一个示例，采用嵌入式高斯函数计算依赖信息，得到权重矩阵如下：

θ(x)＝W_θx

φ(x)＝W_φx

其中，ATM(AttentionMap，自注意力矩阵)为权重矩阵，x为语谱矩阵，所述语谱矩阵可以是h*w的矩阵(h和w为正整数)。W_θ与W_φ，都是可以被学习权重的矩阵。其中，对于语谱矩阵x中的某个元素x_i，它对全局所有位置的影响存储在了第i行。

然后对所述ATM进行归一化处理，可以参照如下公式:

y＝softmax(ATM)g(x)

g(x)＝W_gx

其中，y为归一化后的权重矩阵，y中每一行的总和为1；W_g为可以被学习到权重的矩阵。

本发明的一个示例中，W_θ、W_φ和W_g可以采用1*1的卷积层实现，然后使用残差将g(x)连接到softmax之后的结果，与softmax之后的结果进行拼接，得到归一化后的权重矩阵。进而可以采用GPU(Graphics ProcessingUnit，图形处理器)完成自注意力机制的计算，提高计算效率。可选地，W_θ和W_φ与输入数据卷积的卷积核为输入通道数的1/8，进而在不影响性能的情况下，减少计算开销，从而进一步提高自注意力机制的计算效率。

可参照图2c，示出了本发明实施例的一种自注意力机制处理过程示意图。其中，x作为输入，其对应的通道数为C，每个通道为h*w的矩阵。分别经过三个1*1的卷积层(分别对应W_θ、W_φ和W_g)后，得到θ(x)、φ(x)和g(x)；其中，θ(x)对应的通道数为C/8，每个通道为h*w的矩阵；φ(x)对应的通道数为C/8，每个通道为h*w的矩阵；g(x)对应的通道数为C，每个通道为h*w的矩阵。然后将θ(x)转置，并将

和φ(x)进行点乘，得到ATM。然后对ATM进行softmax，以及使用残差将g(x)连接到softmax之后的结果，将g(x)与softmax之后的结果进行点乘，得到归一化后的权重矩阵y。

综上，本发明实施例中，可以将所述自注意力机制整合至所述初始语音增强模型的输入层，进而获取待处理语音数据后，可以采用所述自注意力机制计算所述待处理语音数据对应语谱矩阵中各位置的特征点与其他位置特征点之间的依赖信息，得到权重矩阵；将所述权重矩阵和语谱矩阵输入至所述初始语音增强模型，输出目标语音数据的语谱矩阵；进而由自注意力机制预先将注意力集中在语谱矩阵中重要的特征点上，使得初始语音增强模型能够更好的对语谱矩阵中重要的特征点进行特征的提取；进一步提高了语音增强效果。

本发明的一个可选实施例中，又一种将初始语音增强模型与自注意力机制进行整合的方式可以是，将所述自注意力机制整合至所述初始语音增强模型的输出层，即将所述初始语音增强模型输出层的输出，作为所述自注意力机制的输入；可参照图3a。

现以将所述自注意力机制整合至初始语音增强模型的输出层为例，说明如何采用目标语音增强模型对所述待处理语音数据进行语音增强。

参照图3b，示出了本发明的又一种语音处理方法可选实施例的步骤流程图，具体可以包括如下步骤：

步骤302、获取待处理语音数据。

步骤304、将所述待处理语音数据对应的语谱矩阵输入至所述初始语音增强模型，输出特征矩阵。

步骤306、采用所述自注意力机制计算所述特征矩阵中各位置的特征点与其他位置特征点之间的依赖信息，得到权重矩阵。

步骤308、依据所述权重矩阵和特征矩阵进行计算，得到目标语音数据的语谱矩阵。

本发明实施例中，可以将所述待处理语音数据对应语谱矩阵输入至所述初始语音增强模型，由所述初始语音增强模型的各层依次对所述待处理语音数据对应语谱矩阵进行处理，输出特征矩阵。然后将所述特征矩阵作为所述自注意力机制的输入，由所述自注意力机制计算该特征矩阵中各位置的特征点与其他位置特征点之间的依赖信息，得到权重矩阵。其中，所述采用所述自注意力机制计算所述特征矩阵中各位置的特征点与其他位置特征点之间的依赖信息，得到权重矩阵；与上述步骤204中，采用所述自注意力机制计算所述待处理语音数据对应语谱矩阵中各位置的特征点与其他位置特征点之间的依赖信息，得到权重矩阵类似，在此不再赘述。再依据所述权重矩阵和特征矩阵进行计算，得到目标语音数据的语谱矩阵；其中，可以将所述权重矩阵与所述特征矩阵进行点乘，得到目标语音数据的语谱矩阵。当然，在得到权重矩阵后，所述自注意力机制也可以对所述权重进行归一化，这与上述归一化类似，在此不再赘述。

综上，本发明实施例中，可以将所述自注意力机制整合至所述初始语音增强模型的输出层，进而获取待处理语音数据后，可以将所述待处理语音数据对应的语谱矩阵输入至所述初始语音增强模型，输出特征矩阵；然后采用所述自注意力机制计算所述特征矩阵中各位置的特征点与其他位置特征点之间的依赖信息，得到权重矩阵；再依据所述权重矩阵和特征矩阵进行计算，得到目标语音数据的语谱矩阵；进而在初始语音增强模型输出特征矩阵之后，由自注意力机制将注意力集中在特征矩阵中重要的特征点上，能够提高确定目标语音数据对应语谱矩阵的准确性；进一步提高了语音增强效果。

本发明的一个可选实施例中，又一种将初始语音增强模型与自注意力机制进行整合的方式可以是，将所述自注意力机制整合至所述初始语音增强模型的隐层，即所述初始语音增强模型第N层的输出作为所述自注意力机制的输入，且将所述自注意力机制的输出作为与所述初始语音增强模型的第N+1层的输入，可参照图4a。其中，所述N为小于M的正整数，进而所述自注意力机制可以整合至任意两层隐层之间，也可以整合至输入层与第一层隐层之间，还可以整合至最后一层隐层与输出层之间，本发明实施例对此不作限制。

现以将所述自注意力机制整合至所述初始语音增强模型的隐层为例，说明如何采用目标语音增强模型对所述待处理语音数据进行语音增强。

参照图4b，示出了本发明的又一种语音处理方法可选实施例的步骤流程图，具体可以包括如下步骤：

步骤402、获取待处理语音数据。

步骤404、将所述待处理语音数据对应的语谱矩阵输入至所述初始语音增强模型，得到所述初始语音增强模型第N层输出的特征矩阵。

步骤406、采用所述自注意力机制计算所述特征矩阵中各位置的特征点与其他位置特征点之间的依赖信息，输出权重矩阵。

步骤408、将所述特征矩阵和所述权重矩阵输入至所述初始语音增强模型的第N+1层，输出目标语音数据的语谱矩阵。

本发明实施例中，可以将所述待处理语音数据对应语谱矩阵输入至所述初始语音增强模型的输入层，由所述初始语音增强模型的输入层和前N-1层隐层依次对所述待处理语音数据对应语谱矩阵进行特征提取，得到所述初始语音增强模型的第N层输出特征矩阵。然后将初始语音增强模型的第N层输出的特征矩阵作为自注意力机制的输入，由所述自注意力机制计算该特征矩阵中各位置的特征点与其他位置特征点之间的依赖信息，得到权重矩阵。其中，所述采用所述自注意力机制计算所述特征矩阵中各位置的特征点与其他位置特征点之间的依赖信息，输出权重矩阵，与上述步骤204中，采用所述自注意力机制计算所述待处理语音数据对应语谱矩阵中各位置的特征点与其他位置特征点之间的依赖信息，得到权重矩阵类似，在此不再赘述。然后将所述权重矩阵输入至所述初始语音增强模型的第N+1层。所述初始语音增强模型的第N+1层可以将所述语谱矩阵点乘权重矩阵，然后再基于点乘权重矩阵后的语谱矩阵进行特征提取，得到特征矩阵并输入至下一层。初始语音增强模型后续的隐层和输出层对该特征矩阵进行处理后，输出目标语音数据的语谱矩阵。当然，在得到权重矩阵后，所述自注意力机制也可以对所述权重进行归一化，这与上述归一化类似，在此不再赘述。

本发明的一个可选实施例中，可以同时在所述初始语音增强模型中多个相邻的两层之间，整合所述自注意力机制，具体可以按照需求设置，本发明实施例对此不作限制。

综上，本发明实施例中，可以将所述自注意力机制整合至所述初始语音增强模型的隐层，进而获取待处理语音数据后，可以将所述待处理语音数据对应的语谱矩阵输入至所述初始语音增强模型，得到所述初始语音增强模型第N层输出的特征矩阵；然后采用所述自注意力机制计算所述特征矩阵中各位置的特征点与其他位置特征点之间的依赖信息，输出权重矩阵，再将所述特征矩阵和所述权重矩阵输入至所述初始语音增强模型的第N+1层，输出目标语音数据的语谱矩阵；进而在初始语音增强模型对语谱矩阵进行一定层数特征提取，显示出语谱矩阵中各位置特征点与部分其他位置特征点的依赖关系后，再采用自注意力机制计算特征矩阵的权重，以及再次基于特征矩阵和对应的权重进行特征的提取；相对于所述将所述自注意力机制整合至所述初始语音增强模型的输入层得到的目标语音增强模型，或者将所述自注意力机制整合至所述初始语音增强模型的输出层得到的目标语音增强模型而言，将所述自注意力机制整合至所述初始语音增强模型的隐层得到的目标语音增强模型，语音增强效果更好。

本发明的一个可选实施例中，可以采用上述任意两种或三种方式，将所述自注意力机制与初始语音模型进行整合，具体可以按照需求设置，本发明实施例对此不作限制。例如，将所述自注意力机制整合至所述初始语音增强模型的输入层，以及将所述自注意力机制整合至所述初始语音增强模型的输出层。又例如，将所述自注意力机制整合至所述初始语音增强模型的输入层，以及将所述自注意力机制整合至所述初始语音增强模型的隐层。又例如，将所述自注意力机制整合至所述初始语音增强模型的隐层，以及将所述自注意力机制整合至所述初始语音增强模型的输出层。又例如，将所述自注意力机制整合至所述初始语音增强模型的输入层，将所述自注意力机制整合至所述初始语音增强模型的输出层，以及将所述自注意力机制整合至所述初始语音增强模型的隐层。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

参照图5，示出了本发明的一种语音处理装置实施例的结构框图，具体可以包括如下模块：

获取模块502，用于获取待处理语音数据；

语音处理模块504，用于采用目标语音增强模型对所述待处理语音数据进行语音增强，所述目标语音增强模型由初始语音增强模型和自注意力机制整合而成。

参照图6，示出了本发明的一种语音处理装置可选实施例的结构框图。

本发明一个可选的实施例中，所述装置还包括：

第一整合模块506，用于将所述自注意力机制整合至所述初始语音增强模型的输入层。

本发明一个可选的实施例中，所述语音处理模块504，包括：

第一语音增强子模块5042，用于采用所述自注意力机制计算所述待处理语音数据对应语谱矩阵中各位置的特征点与其他位置特征点之间的依赖信息，得到权重矩阵；将所述权重矩阵和语谱矩阵输入至所述初始语音增强模型，输出目标语音数据的语谱矩阵。

本发明一个可选的实施例中，所述装置还包括：

第二整合模块508，用于将所述自注意力机制整合至所述初始语音增强模型的输出层。

本发明一个可选的实施例中，所述语音处理模块504，包括：

第二语音增强子模块5044，用于将所述待处理语音数据对应的语谱矩阵输入至所述初始语音增强模型，输出特征矩阵；采用所述自注意力机制计算所述特征矩阵中各位置的特征点与其他位置特征点之间的依赖信息，得到权重矩阵；依据所述权重矩阵和特征矩阵进行计算，得到目标语音数据的语谱矩阵。

本发明一个可选的实施例中，所述装置还包括：

第三整合模块510，用于将所述自注意力机制整合至所述初始语音增强模型的隐层。

本发明一个可选的实施例中，所述语音处理模块504，包括：

第三语音增强子模块5046，用于将所述待处理语音数据对应的语谱矩阵输入至所述初始语音增强模型，得到所述初始语音增强模型第N层输出的特征矩阵；采用所述自注意力机制计算所述特征矩阵中各位置的特征点与其他位置特征点之间的依赖信息，得到权重矩阵；将所述特征矩阵和所述权重矩阵输入至所述初始语音增强模型的第N+1层，输出目标语音数据的语谱矩阵；其中，所述N为正整数。

本发明一个可选的实施例中，所述的装置还包括：

归一化模块512，用于对所述权重矩阵进行归一化处理。

综上，本发明实施例中，可以获取待处理语音数据，然后采用由初始语音增强模型和自注意力机制整合而成的目标语音增强模型，对所述待处理语音数据进行语音增强；由于基于自注意力机制能够考虑全局任意位置的信息，并将注意力集中在更为重要的内容上，进而无需增加初始语音增强模型的卷积层和增大卷积核，即可实现较好的语音增强效果，且保证了语音增强的效率。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

图7是根据一示例性实施例示出的一种用于语音处理的电子设备700的结构框图。例如，电子设备700可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图7，电子设备700可以包括以下一个或多个组件：处理组件702，存储器704，电力组件706，多媒体组件708，音频组件710，输入/输出(I/O)的接口712，传感器组件714，以及通信组件716。

处理组件702通常控制电子设备700的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理元件702可以包括一个或多个处理器720来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件702可以包括一个或多个模块，便于处理组件702和其他组件之间的交互。例如，处理部件702可以包括多媒体模块，以方便多媒体组件708和处理组件702之间的交互。

存储器704被配置为存储各种类型的数据以支持在设备700的操作。这些数据的示例包括用于在电子设备700上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器704可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电力组件706为电子设备700的各种组件提供电力。电力组件706可以包括电源管理系统，一个或多个电源，及其他与为电子设备700生成、管理和分配电力相关联的组件。

多媒体组件708包括在所述电子设备700和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件708包括一个前置摄像头和/或后置摄像头。当电子设备700处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件710被配置为输出和/或输入音频信号。例如，音频组件710包括一个麦克风(MIC)，当电子设备700处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器704或经由通信组件716发送。在一些实施例中，音频组件710还包括一个扬声器，用于输出音频信号。

I/O接口712为处理组件702和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件714包括一个或多个传感器，用于为电子设备700提供各个方面的状态评估。例如，传感器组件714可以检测到设备700的打开/关闭状态，组件的相对定位，例如所述组件为电子设备700的显示器和小键盘，传感器组件714还可以检测电子设备700或电子设备700一个组件的位置改变，用户与电子设备700接触的存在或不存在，电子设备700方位或加速/减速和电子设备700的温度变化。传感器组件714可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件714还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件714还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件716被配置为便于电子设备700和其他设备之间有线或无线方式的通信。电子设备700可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信部件714经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信部件714还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，电子设备700可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器704，上述指令可由电子设备700的处理器720执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行一种语音处理方法，所述方法包括：获取待处理语音数据；采用目标语音增强模型对所述待处理语音数据进行语音增强，所述目标语音增强模型由初始语音增强模型和自注意力机制整合而成。

图8是本发明根据另一示例性实施例示出的一种用于语音处理的电子设备800的结构示意图。该电子设备800可以是服务器，该服务器可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processing units，CPU)822(例如，一个或一个以上处理器)和存储器832，一个或一个以上存储应用程序842或数据844的存储介质830(例如一个或一个以上海量存储设备)。其中，存储器832和存储介质830可以是短暂存储或持久存储。存储在存储介质830的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器822可以设置为与存储介质830通信，在服务器上执行存储介质830中的一系列指令操作。

服务器还可以包括一个或一个以上电源826，一个或一个以上有线或无线网络接口850，一个或一个以上输入输出接口858，一个或一个以上键盘856，和/或，一个或一个以上操作系统841，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

一种电子设备，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：获取待处理语音数据；采用目标语音增强模型对所述待处理语音数据进行语音增强，所述目标语音增强模型由初始语音增强模型和自注意力机制整合而成。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本发明所提供的一种语音处理方法、一种语音处理装置和一种电子设备，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种语音处理方法，其特征在于，包括：

获取待处理语音数据；

采用目标语音增强模型对所述待处理语音数据进行语音增强，所述目标语音增强模型由初始语音增强模型和自注意力机制整合而成；

其中，通过以下方式整合所述初始语音增强模型和自注意力机制：

将所述自注意力机制整合至所述初始语音增强模型的输出层。

2.根据权利要求1所述的方法，其特征在于，还通过以下方式整合所述初始语音增强模型和自注意力机制：

将所述自注意力机制整合至所述初始语音增强模型的输入层。

3.根据权利要求2所述的方法，其特征在于，所述采用目标语音增强模型对所述待处理语音数据进行语音增强，包括：

采用所述自注意力机制计算所述待处理语音数据对应语谱矩阵中各位置的特征点与其他位置特征点之间的依赖信息，得到权重矩阵；

将所述权重矩阵和语谱矩阵输入至所述初始语音增强模型，输出目标语音数据的语谱矩阵。

4.根据权利要求1所述的方法，其特征在于，所述采用目标语音增强模型对所述待处理语音数据进行语音增强，包括：

将所述待处理语音数据对应的语谱矩阵输入至所述初始语音增强模型，输出特征矩阵；

采用所述自注意力机制计算所述特征矩阵中各位置的特征点与其他位置特征点之间的依赖信息，得到权重矩阵；

依据所述权重矩阵和特征矩阵进行计算，得到目标语音数据的语谱矩阵。

5.根据权利要求1所述的方法，其特征在于，还通过以下方式整合所述初始语音增强模型和自注意力机制整合：

将所述自注意力机制整合至所述初始语音增强模型的隐层。

6.根据权利要求5所述的方法，其特征在于，所述采用目标语音增强模型对所述待处理语音数据进行语音增强，包括：

将所述待处理语音数据对应的语谱矩阵输入至所述初始语音增强模型，得到所述初始语音增强模型第N层输出的特征矩阵；

将所述特征矩阵和所述权重矩阵输入至所述初始语音增强模型的第N+1层，输出目标语音数据的语谱矩阵；

其中，所述N为正整数。

7.根据权利要求3或4或6所述的方法，其特征在于，所述的方法还包括：

对所述权重矩阵进行归一化处理。

8.一种语音处理装置，其特征在于，包括：

获取模块，用于获取待处理语音数据；

语音处理模块，用于采用目标语音增强模型对所述待处理语音数据进行语音增强，所述目标语音增强模型由初始语音增强模型和自注意力机制整合而成；

其中，所述装置还包括：

第二整合模块，用于将所述自注意力机制整合至所述初始语音增强模型的输出层。

9.根据权利要求8所述的装置，其特征在于，所述装置还包括：

第一整合模块，用于将所述自注意力机制整合至所述初始语音增强模型的输入层。

10.根据权利要求9所述的装置，其特征在于，所述语音处理模块，包括：

第一语音增强子模块，用于采用所述自注意力机制计算所述待处理语音数据对应语谱矩阵中各位置的特征点与其他位置特征点之间的依赖信息，得到权重矩阵；将所述权重矩阵和语谱矩阵输入至所述初始语音增强模型，输出目标语音数据的语谱矩阵。

11.根据权利要求8所述的装置，其特征在于，所述语音处理模块，包括：

第二语音增强子模块，用于将所述待处理语音数据对应的语谱矩阵输入至所述初始语音增强模型，输出特征矩阵；采用所述自注意力机制计算所述特征矩阵中各位置的特征点与其他位置特征点之间的依赖信息，得到权重矩阵；依据所述权重矩阵和特征矩阵进行计算，得到目标语音数据的语谱矩阵。

12.根据权利要求8所述的装置，其特征在于，所述装置还包括：

第三整合模块，用于将所述自注意力机制整合至所述初始语音增强模型的隐层。

13.根据权利要求12所述的装置，其特征在于，所述语音处理模块，包括：

第三语音增强子模块，用于将所述待处理语音数据对应的语谱矩阵输入至所述初始语音增强模型，得到所述初始语音增强模型第N层输出的特征矩阵；采用所述自注意力机制计算所述特征矩阵中各位置的特征点与其他位置特征点之间的依赖信息，得到权重矩阵；将所述特征矩阵和所述权重矩阵输入至所述初始语音增强模型的第N+1层，输出目标语音数据的语谱矩阵；其中，所述N为正整数。

14.根据权利要求10或11或13所述的装置，其特征在于，所述的装置还包括：

归一化模块，用于对所述权重矩阵进行归一化处理。

15.一种可读存储介质，其特征在于，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如方法权利要求1-7任一所述的语音处理方法。

16.一种电子设备，其特征在于，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行如方法权利要求1-7任一所述的语音处理方法的指令。