CN115588437A

CN115588437A - 语音增强方法、装置、设备和存储介质

Info

Publication number: CN115588437A
Application number: CN202211592701.XA
Authority: CN
Inventors: 黄文琦; 林全郴; 梁凌宇; 戴珍; 白昱阳; 赵翔宇; 郭尧
Original assignee: Southern Power Grid Digital Grid Research Institute Co Ltd
Current assignee: Southern Power Grid Digital Grid Research Institute Co Ltd
Priority date: 2022-12-13
Filing date: 2022-12-13
Publication date: 2023-01-10
Anticipated expiration: 2042-12-13
Also published as: CN115588437B

Abstract

本申请涉及一种语音增强方法、装置、设备、存储介质和计算机程序产品。所述方法包括：首先，获取待处理的第一语音，第一语音含有噪声，接着，将第一语音输入至预先得到的语音增强网络中，其中，语音增强网络包括级联的分析滤波器、混合神经网络以及合成滤波器，其次，通过分析滤波器对第一语音进行短时傅里叶变换处理，得到原始傅里叶频谱，进而，通过混合神经网络对原始傅里叶频谱进行特征提取处理，得到特征数据，特征数据包括增强的傅里叶频谱或者复数掩蔽，最后，通过合成滤波器对特征数据进行短时逆傅里叶变换处理，得到去噪后的第二语音，通过本方法，可以得到去噪增强后的语音，提高语音识别能力。

Description

语音增强方法、装置、设备和存储介质

技术领域

本申请涉及语音增强技术领域，特别是涉及一种语音增强方法、装置、设备和存储介质。

背景技术

在人们的日常生活中，存在着许多的噪声，例如汽车鸣笛声、狗叫声、装修声等等，而当我们需要对重要语音进行识别的时候，这些噪声干扰可能会严重影响到语音识别的能力，使得我们无法识别出想要得到的语音信息。

因此，在噪声环境下语音识别能力差的问题亟需解决。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高语音识别能力的语音增强方法、装置、设备和存储介质。

第一方面，本申请提供了一种语音方法。该方法包括：

获取待处理的第一语音，第一语音含有噪声；将第一语音输入至预先得到的语音增强网络中，其中，语音增强网络包括级联的分析滤波器、混合神经网络以及合成滤波器；通过分析滤波器对第一语音进行短时傅里叶变换处理，得到原始傅里叶频谱；通过混合神经网络对原始傅里叶频谱进行特征提取处理，得到特征数据，特征数据包括增强的傅里叶频谱或者复数掩蔽；通过合成滤波器对特征数据进行短时逆傅里叶变换处理，得到去噪后的第二语音。

在其中一个实施例中，该混合神经网络包括级联的卷积网络编码器、对偶循环神经网络、对偶注意力机制网络以及卷积网络解码器，通过混合神经网络对原始傅里叶频谱进行特征提取处理，得到特征数据，包括：通过卷积网络编码器对原始傅里叶频谱进行编码处理，得到第一特征序列；通过对偶循环神经网络对第一特征序列进行特征提取处理，得到第二特征序列；通过对偶注意力机制网络对第二特征序列进行特征提取处理，得到第三特征序列；通过卷积网络解码器对第三特征序列进行解码处理，得到特征数据。

在其中一个实施例中，该卷积网络编码器包括级联的多个卷积层，通过卷积网络编码器对原始傅里叶频谱进行编码处理，得到第一特征序列，包括：对于各卷积层，根据原始傅里叶频谱确定卷积层的输入，并对输入进行卷积处理，得到卷积层的输出；将多个卷积层中最后一个卷积层的输出作为第一特征序列。

在其中一个实施例中，根据原始傅里叶频谱确定卷积层的输入，包括：若卷积层为多个卷积层中的第1个卷积层，则将原始傅里叶频谱作为卷积层的输入；若卷积层不为多个卷积层中的第1个卷积层，则将原始傅里叶频谱和上一卷积层的输出进行拼接处理，并将拼接处理得到的序列作为卷积层的输入。

在其中一个实施例中，该对偶循环神经网络包括时域循环神经网络和频域循环神经网络，通过对偶循环神经网络对第一特征序列进行特征提取处理，得到第二特征序列，包括：将第一特征序列中各个子带对应的特征信息输入至时域循环神经网络中，并将第一特征序列中各个时间点对应的特征信息输入至频域循环神经网络，以基于时域循环神经网络和频域循环神经网络的输出得到第二特征序列。

在其中一个实施例中，该对偶注意力机制网络包括时域注意力神经网络和频域注意力神经网络，通过对偶注意力机制网络对第二特征序列进行特征提取处理，得到第三特征序列，包括：将第二特征序列中各个子带对应的特征信息输入至时域注意力神经网络中，并将第二特征序列中各个时间点对应的特征信息输入至频域注意力神经网络，以基于时域注意力神经网络和频域注意力神经网络的输出得到第三特征序列。

在其中一个实施例中，该卷积网络解码器包括级联的多个逆卷积层，通过卷积网络解码器对第三特征序列进行解码处理，得到特征数据，包括：将第三特征序列输入至多个逆卷积层，以通过多个逆卷积层对第三特征序列进行逆卷积处理，得到特征数据。

在其中一个实施例中，该方法还包括：获取训练集，训练集包括多个训练样本，各训练样本包括含噪声的训练语音和不含噪声的训练语音；利用训练集对初始语音增强网络进行训练，得到语音增强网络。

第二方面，本申请还提供了一种语音装置。该装置包括：

获取模块，用于获取待处理的第一语音，第一语音含有噪声；

输入模块，用于将第一语音输入至预先得到的语音增强网络中，其中，语音增强网络包括级联的分析滤波器、混合神经网络以及合成滤波器；

变换模块，用于通过分析滤波器对第一语音进行短时傅里叶变换处理，得到原始傅里叶频谱；

提取模块，用于通过混合神经网络对原始傅里叶频谱进行特征提取处理，得到特征数据，特征数据包括增强的傅里叶频谱或者复数掩蔽；

逆变换模块，用于通过合成滤波器对特征数据进行短时逆傅里叶变换处理，得到去噪后的第二语音。

在其中一个实施例中，该混合神经网络包括级联的卷积网络编码器、对偶循环神经网络、对偶注意力机制网络以及卷积网络解码器，该提取模块包括：

编码单元，用于通过卷积网络编码器对原始傅里叶频谱进行编码处理，得到第一特征序列；

第一提取单元，用于通过对偶循环神经网络对第一特征序列进行特征提取处理，得到第二特征序列；

第二提取单元，用于通过对偶注意力机制网络对第二特征序列进行特征提取处理，得到第三特征序列；

解码单元，用于通过卷积网络解码器对第三特征序列进行解码处理，得到特征数据。

在其中一个实施例中，该卷积网络编码器包括级联的多个卷积层，该编码单元包括：

第一编码子单元，用于对于各卷积层，根据原始傅里叶频谱确定卷积层的输入，并对输入进行卷积处理，得到卷积层的输出；

第二编码子单元，用于将多个卷积层中最后一个卷积层的输出作为第一特征序列。

在其中一个实施例中，该第一编码子单元，具体用于：若卷积层为多个卷积层中的第1个卷积层，则将原始傅里叶频谱作为卷积层的输入；若卷积层不为多个卷积层中的第1个卷积层，则将原始傅里叶频谱和上一卷积层的输出进行拼接处理，并将拼接处理得到的序列作为卷积层的输入。

在其中一个实施例中，该对偶循环神经网络包括时域循环神经网络和频域循环神经网络，该第一提取单元，具体用于：将第一特征序列中各个子带对应的特征信息输入至时域循环神经网络中，并将第一特征序列中各个时间点对应的特征信息输入至频域循环神经网络，以基于时域循环神经网络和频域循环神经网络的输出得到第二特征序列。

在其中一个实施例中，该对偶注意力机制网络包括时域注意力神经网络和频域注意力神经网络，该第二提取单元，具体用于：将第二特征序列中各个子带对应的特征信息输入至时域注意力神经网络中，并将第二特征序列中各个时间点对应的特征信息输入至频域注意力神经网络，以基于时域注意力神经网络和频域注意力神经网络的输出得到第三特征序列。

在其中一个实施例中，该解码单元，具体用于：将第三特征序列输入至多个逆卷积层，以通过多个逆卷积层对第三特征序列进行逆卷积处理，得到特征数据

在其中一个实施例中，该装置还包括训练模块，该训练模块，用于获取训练集，训练集包括多个训练样本，各训练样本包括含噪声的训练语音和不含噪声的训练语音；利用训练集对初始语音增强网络进行训练，得到语音增强网络。

第三方面，本申请实施例提供一种设备，其上存储有计算机程序，计算机程序被处理器执行时实现上述第一方面中任一所述的步骤。

第四方面，本申请实施例提供一种存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述第一方面中任一所述的步骤。

上述语音增强方法、装置、设备、存储介质和计算机程序产品，首先，获取待处理的第一语音，第一语音含有噪声，接着，将第一语音输入至预先得到的语音增强网络中，其中，语音增强网络包括级联的分析滤波器、混合神经网络以及合成滤波器，其次，通过分析滤波器对第一语音进行短时傅里叶变换处理，得到原始傅里叶频谱，进而，通过混合神经网络对原始傅里叶频谱进行特征提取处理，得到特征数据，特征数据包括增强的傅里叶频谱或者复数掩蔽，最后，通过合成滤波器对特征数据进行短时逆傅里叶变换处理，得到去噪后的第二语音，通过本方法，可以得到去噪增强后的语音，提高语音识别能力。

附图说明

图1为一个实施例中语音增强方法的流程示意图；

图2为一个实施例中语音增强网络的结构框图；

图3为一个实施例中特征提取方法的流程示意图；

图4为一个实施例中得到第一特征序列方法的流程示意图；

图5为一个实施例中训练语音增强网络方法的流程示意图；

图6为另一个实施例中语音增强方法的流程示意图；

图7为一个实施例中语音增强装置的结构框图；

图8为另一个实施例中语音增强装置的结构框图；

图9为一个实施例中计算机设备为服务器的内部结构图；

图10为一个实施例中计算机设备为终端的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在人们的日常生活中，存在着许多的噪声，例如汽车鸣笛声、狗叫声、装修声等等，这些噪声或多或少都会影响到我们的生活，比如当我们打电话时，噪音使得听筒传出来的声音不够清晰；当学生参加听力考试时，噪音使得广播的声音不够清晰等等，尤其当我们需要对重要语音进行识别的时候，这些噪声干扰可能会严重影响到语音识别的能力，使得我们无法识别出想要得到的语音信息。虽然现在存在大量的听力助理设备，但这些设备复杂繁重，并不能从根源上解决噪音的干扰，并且去噪效果差异大，因此，在噪声环境下语音识别能力差的问题亟需解决。

本申请实施例提供的语音增强方法，其执行主体可以是一种计算机设备，该计算机设备可以是服务器，也可以是终端，在该计算机设备为服务器的情况下，本申请实施例提供的语音增强方法可以基于服务器与终端间的交互实现。

在一个实施例中，如图1所示，提供了一种语音增强方法，包括以下步骤：

步骤101、获取待处理的第一语音。

其中，第一语音含有噪声。第一语音指的是噪声与干净语音的混合语音，该噪声包括：交通噪声、工业噪声、建筑施工噪声、生活噪声等等，在此不做限制。

获取待处理的第一语音，指的是获取在实际应用场景中所采集到的语音，例如采集学校教室里教学场景下的语音、采集办公场景里开会会议中的语音、采集路边路人交谈时的语音等，这些语音由于环境的复杂，其中都含有噪声。

在一种可能实现的方式中，获取第一语音的设备包括录音机、手机、摄像机或者专业的音频采集器等等。

步骤102、将第一语音输入至预先得到的语音增强网络中。

其中，预先得到的语音增强网络指的是经过训练的语音增强网络，该语音增强网络包括级联的分析滤波器、混合神经网络以及合成滤波器。

步骤103、通过分析滤波器对第一语音进行短时傅里叶变换处理，得到原始傅里叶频谱。

其中，分析滤波器采用短时傅里叶变换，通过该分析滤波器可以对特定频率进行有效滤除，得到得到原始傅里叶频谱。

在一种可能实现的方式中，该短时傅里叶变换中帧长为256，帧移为64，FFT大小也是256，相当于帧长。输入为带噪语音

，输出为原始傅里叶频谱

，其中，R为实数值集合，L为语音采样点数，F为傅里叶频点数目256，T为帧数。

步骤104、通过混合神经网络对原始傅里叶频谱进行特征提取处理，得到特征数据。

其中，混合神经网络包括卷积网络编码器、对偶循环神经网络、对偶注意力机制网络以及卷积网络解码器，特征数据包括增强的傅里叶频谱或者复数掩蔽。

在一种可能实现的方式中，原始傅里叶频谱

通过卷积网络编码器、对偶循环神经网络、对偶注意力机制网络以及卷积网络解码器，进行语音增强的处理，得到特征数据，特征数据包括增强的傅里叶频谱

或者复数掩蔽

，其中，F为傅里叶频点数目256，T为帧数。

步骤105、通过合成滤波器对特征数据进行短时逆傅里叶变换处理，得到去噪后的第二语音。

其中，合成滤波器采用短时逆傅里叶变换，通过该合成滤波器可以对特定频率进行有效滤除，得到去噪后的第二语音。

在一种可能实现的方式中，该短时逆傅里叶变换中帧长为256，帧移为64，FFT大小也是256，相当于帧长。输入为特征数据，即增强后的傅里叶频谱

或者复数掩蔽

，输出为增强后的语音

上述语音增强方法，首先，获取待处理的第一语音，第一语音含有噪声，接着，将第一语音输入至预先得到的语音增强网络中，其中，语音增强网络包括级联的分析滤波器、混合神经网络以及合成滤波器，其次，通过分析滤波器对第一语音进行短时傅里叶变换处理，得到原始傅里叶频谱，进而，通过混合神经网络对原始傅里叶频谱进行特征提取处理，得到特征数据，特征数据包括增强的傅里叶频谱或者复数掩蔽，最后，通过合成滤波器对特征数据进行短时逆傅里叶变换处理，得到去噪后的第二语音，通过本方法，可以得到去噪增强后的语音，提高语音识别能力。

请参考图2，在一个实施例中针对本申请的语音增强网络，展现了一个示例性的结构框图，其中包括级联的分析滤波器、卷积网络编码器、对偶循环神经网络、对偶注意力机制网络、卷积网络解码器以及合成滤波器，其中，分析滤波器将处理后的语音信息发送至卷积网络编码，并继续由对偶循环神经网络、对偶注意力机制网络以及卷积网络解码器，对该信息进行下一步处理，最终输出至合成滤波器中。

如前文所述，在得到原始傅里叶频谱后，需要通过混合神经网络，包括卷积网络编码器、对偶循环神经网络、对偶注意力机制网络以及卷积网络解码器，对原始傅里叶频谱进行特征提取处理，得到特征数据，如图3所示，本申请实施例提供了一种特征提取的方法，包括以下步骤：

步骤301、通过卷积网络编码器对原始傅里叶频谱进行编码处理，得到第一特征序列。

其中，该卷积网络编码器包括级联的多个卷积层，该多个卷积层可以进行迭代卷积操作。

在一种可能实现的方式中，卷积层的通道数均为64，卷积核大小均为（3，2），步长为（2，1），（2，1），（1，1）。第i个卷积网络编码器的输入为原始傅里叶频谱

和之前所有卷积网络编码器迭代卷积拼接得到的特征向量

，其中i=1，2，3...，F为傅里叶频点数目129，T为帧数，输出为C=64维的第一特征序列

，其中C=64，F`=256/4=64，T为帧数。

步骤302、通过对偶循环神经网络对第一特征序列进行特征提取处理，得到第二特征序列。

其中，该对偶循环神经网络包括时域循环神经网络和频域循环神经网络，基于该时域循环神经网络和频域循环神经网络，对第一特征序列进行特征提取处理，得到第二特征序列。

具体的，得到第二特征序列的方法，包括：将第一特征序列中各个子带对应的特征信息输入至时域循环神经网络中，并将第一特征序列中各个时间点对应的特征信息输入至频域循环神经网络，以基于时域循环神经网络和频域循环神经网络的输出得到第二特征序列。

在一种可能实现的方式中，时域循环神经网络和频域循环神经网络分别沿时间轴和频率轴建模，时域循环神经网络的输入为第一特征序列

中每个子带的信息：

，其中f为中间变量，R为实数值集合，C为64，T为帧数，F`为64；频域循环神经网络的输入为第一特征序列

中每个时间点的信息：

，其中t为另一个中间变量，R为实数值集合，C为64，F`为64，T为帧数，基于时域循环神经网络和频域循环神经网络的输出，得到第二特征序列为

，其中，R为实数值集合，C为64，F`为64，T为帧数。

步骤303、通过对偶注意力机制网络对第二特征序列进行特征提取处理，得到第三特征序列。

其中，该对偶注意力机制网络包括时域注意力神经网络和频域注意力神经网络，基于该时域注意力神经网络和频域注意力神经网络，对第二特征序列进行特征提取处理，得到第三特征序列。

具体的，得到第三特征序列的方法，包括：将第二特征序列中各个子带对应的特征信息输入至时域注意力神经网络中，并将第二特征序列中各个时间点对应的特征信息输入至频域注意力神经网络，以基于时域注意力神经网络和频域注意力神经网络的输出得到第三特征序列。

在一种可能实现的方式中，时域注意力神经网络和频域注意力神经网络分别沿时间轴和频率轴建模，时域注意力神经网络的输入为第二特征序列

中每个子带的信息：

，其中f为中间变量，R为实数值集合，C为64，T为帧数，F`为64；频域注意力神经网络的输入为第二特征序列

中每个时间点的信息：

，其中t为另一个中间变量，R为实数值集合，C为64，F`为64，T为帧数，基于时域注意力神经网络和频域注意力神经网络的输出，得到第三特征序列为

，R为实数值集合，C为64，F`为64，T为帧数。

步骤304、通过卷积网络解码器对第三特征序列进行解码处理，得到特征数据。

其中，该卷积网络解码器包括级联的多个逆卷积层，该多个逆卷积层可以进行迭代逆卷积操作。

具体的，得到特征数据的方法，包括：将第三特征序列输入至多个逆卷积层，以通过多个逆卷积层对第三特征序列进行逆卷积处理，得到特征数据。

在一种可能实现的方式中，该卷积网络解码器由三层逆卷积层组成，是卷积网络编码器的逆操作。卷积网络解码器的输入为第三特征序列

，输出为特征数据，该特征数据包括增强的傅里叶频谱

或预测的复数掩蔽

。

如前文所述，在特征提取时，首先是通过卷积网络编码器对原始傅里叶频谱进行编码处理，得到第一特征序列，如图4所示，本申请实施例提供了一种得到第一特征序列的方法，包括以下步骤：

步骤401、对于各卷积层，根据原始傅里叶频谱确定卷积层的输入，并对输入进行卷积处理，得到卷积层的输出。

其中，根据原始傅里叶频谱确定卷积层的输入包括两种情况，包括：该卷积层为第1个卷积层，以及该卷积层不为第1个卷积层，以下针对这两种情况分别进行说明。

若卷积层为多个卷积层中的第1个卷积层，则将原始傅里叶频谱作为卷积层的输入。

可以理解的是，第1个卷积层指的是最上层第1个输入原始傅里叶频谱的卷积层，该卷积层对原始傅里叶频谱做第1次卷积处理。

在一种可能实现的方式中，第1个卷积层的输入为原始傅里叶频谱

，其中，L为语音采样点数，F为傅里叶频点数目129，T为帧数。

若卷积层不为多个卷积层中的第1个卷积层，则将原始傅里叶频谱和上一卷积层的输出进行拼接处理，并将拼接处理得到的序列作为卷积层的输入。

示例性的，卷积层为第2个卷积层，该第2个卷积层的输入为原始傅里叶频谱和第1个卷积层的输出拼接得到的序列，经过卷积得到第2个卷积层的输出；卷积层为第3个卷积层，该第3个卷积层的输入为原始傅里叶频谱和第2个卷积层的输出拼接得到的序列，经过卷积得到第3个卷积层的输出，以此迭代。

在一种可能实现的方式中，第i个卷积网络编码器的输入为原始傅里叶频谱

和之前所有卷积网络编码器迭代卷积得到的特征向量

拼接得到的序列，其中i=1，2，3...，F为傅里叶频点数目129，T为帧数。

步骤402、将多个卷积层中最后一个卷积层的输出作为第一特征序列。

可以理解的是，其中最后一个卷积层指的是最下层的卷积层，该卷积层的输出无法再输入至下一个卷积层，则将该卷积层的输出作为第一特征序列。

除此之外，请参考图5，为了获得预先得到的语音增强网络，本申请实施例中还提供了一种训练语音增强网络的方法，包括以下步骤：

步骤501、获取训练集，训练集包括多个训练样本，各训练样本包括含噪声的训练语音和不含噪声的训练语音。

其中，该训练语音可选的，可以自行采集语音样本，也可以从现有语音集中收集语音样本，例如从TIMIT训练集中收集含噪声语音样本和不含噪声语音样本。

除此之外，该含噪声的训练语音也可以通过语音混合的方式获得，例如将纯净语音样本与噪声语音样本混合，可选的，混合语音的方式，可以通过软件进行混合，例如使用GoldWave、Adobe Audition、Cool Edit Pro等音频处理软件。

步骤502、利用训练集对初始语音增强网络进行训练，得到语音增强网络。

在一种可能实现的方式中，使用时域损失和频域损失作为目标函数，基于反向传播的方法训练设计语音增强网络，目标函数如下：

，

其中，时域损失为

，频域损失为

，

为估计语音，y为参考干净语音。

为估计语音的复数谱的实部，

为估计语音的复数谱的虚部，

为干净语音的复数谱的实部，

为干净语音的复数谱的虚部。

在一个实施例中，如图6所示，提供了一种语音增强方法，包括以下步骤：

步骤601、获取训练集，训练集包括多个训练样本，各训练样本包括含噪声的训练语音和不含噪声的训练语音。

步骤602、利用训练集对初始语音增强网络进行训练，得到语音增强网络。

步骤603、获取待处理的第一语音，第一语音含有噪声。

步骤604、将第一语音输入至预先得到的语音增强网络中，其中，语音增强网络包括级联的分析滤波器、混合神经网络以及合成滤波器。

步骤605、通过分析滤波器对第一语音进行短时傅里叶变换处理，得到原始傅里叶频谱。

步骤606、对于各卷积层，若卷积层为多个卷积层中的第1个卷积层，则将原始傅里叶频谱作为卷积层的输入。

步骤607、若卷积层不为多个卷积层中的第1个卷积层，则将原始傅里叶频谱和上一卷积层的输出进行拼接处理，并将拼接处理得到的序列作为卷积层的输入。

步骤608、对输入进行卷积处理，得到卷积层的输出。

步骤609、将多个卷积层中最后一个卷积层的输出作为第一特征序列。

步骤610、将第一特征序列中各个子带对应的特征信息输入至时域循环神经网络中，并将第一特征序列中各个时间点对应的特征信息输入至频域循环神经网络，以基于时域循环神经网络和频域循环神经网络的输出得到第二特征序列。

步骤611、将第二特征序列中各个子带对应的特征信息输入至时域注意力神经网络中，并将第二特征序列中各个时间点对应的特征信息输入至频域注意力神经网络，以基于时域注意力神经网络和频域注意力神经网络的输出得到第三特征序列。

步骤612、将第三特征序列输入至多个逆卷积层，以通过多个逆卷积层对第三特征序列进行逆卷积处理，得到特征数据。

其中，特征数据包括增强的傅里叶频谱或者复数掩蔽。

步骤613、通过合成滤波器对特征数据进行短时逆傅里叶变换处理，得到去噪后的第二语音。

应该理解的是，虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的语音增强方法的语音增强装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个语音增强装置实施例中的具体限定可以参见上文中对于语音增强方法的限定，在此不再赘述。

在一个实施例中，如图7所示，提供了一种语音增强装置700，包括：获取模块701、输入模块702、变换模块703、提取模块704以及逆变换模块705，其中：

获取模块701，用于获取待处理的第一语音，第一语音含有噪声。

输入模块702，用于将第一语音输入至预先得到的语音增强网络中，其中，语音增强网络包括级联的分析滤波器、混合神经网络以及合成滤波器。

变换模块703，用于通过分析滤波器对第一语音进行短时傅里叶变换处理，得到原始傅里叶频谱。

提取模块704，用于通过混合神经网络对原始傅里叶频谱进行特征提取处理，得到特征数据，特征数据包括增强的傅里叶频谱或者复数掩蔽。

逆变换模块705，用于通过合成滤波器对特征数据进行短时逆傅里叶变换处理，得到去噪后的第二语音。

在其中一个实施例中，该混合神经网络包括级联的卷积网络编码器、对偶循环神经网络、对偶注意力机制网络以及卷积网络解码器，该提取模块704包括：编码单元、第一提取单元、第二提取单元以及解码单元，其中：

编码单元，用于通过卷积网络编码器对原始傅里叶频谱进行编码处理，得到第一特征序列。

第一提取单元，用于通过对偶循环神经网络对第一特征序列进行特征提取处理，得到第二特征序列。

第二提取单元，用于通过对偶注意力机制网络对第二特征序列进行特征提取处理，得到第三特征序列。

在其中一个实施例中，该卷积网络编码器包括级联的多个卷积层，该编码单元包括：第一编码子单元以及第二编码子单元，其中：

第一编码子单元，用于对于各卷积层，根据原始傅里叶频谱确定卷积层的输入，并对输入进行卷积处理，得到卷积层的输出。

在其中一个实施例中，该解码单元，具体用于：将第三特征序列输入至多个逆卷积层，以通过多个逆卷积层对第三特征序列进行逆卷积处理，得到特征数据。

在其中一个实施例中，如图8所示，其示出了本申请实施例提供的另一种语音增强装置800，语音增强装置800除了包含语音增强装置700包括的各个模块外，还包括训练模块706，该训练模块706，用于：获取训练集，训练集包括多个训练样本，各训练样本包括含噪声的训练语音和不含噪声的训练语音；利用训练集对初始语音增强网络进行训练，得到语音增强网络。

上述语音增强装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图9所示。该计算机设备包括处理器、存储器、输入/输出接口(Input/Output，简称I/O）和通信接口。其中，处理器、存储器和输入/输出接口通过系统总线连接，通信接口通过输入/输出接口连接到系统总线。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储数据。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种语音增强方法。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图10所示。该计算机设备包括处理器、存储器、输入/输出接口、通信接口、显示单元和输入装置。其中，处理器、存储器和输入/输出接口通过系统总线连接，通信接口、显示单元和输入装置通过输入/输出接口连接到系统总线。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、移动蜂窝网络、NFC（近场通信）或其他技术实现。该计算机程序被处理器执行时以实现一种语音增强方法。该计算机设备的显示单元用于形成视觉可见的画面，可以是显示屏、投影装置或虚拟现实成像装置。显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图9或图10中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

在其中一个实施例中，该混合神经网络包括级联的卷积网络编码器、对偶循环神经网络、对偶注意力机制网络以及卷积网络解码器，该处理器执行计算机程序时实现以下步骤：通过卷积网络编码器对原始傅里叶频谱进行编码处理，得到第一特征序列；通过对偶循环神经网络对第一特征序列进行特征提取处理，得到第二特征序列；通过对偶注意力机制网络对第二特征序列进行特征提取处理，得到第三特征序列；通过卷积网络解码器对第三特征序列进行解码处理，得到特征数据。

在其中一个实施例中，该卷积网络编码器包括级联的多个卷积层，该处理器执行计算机程序时实现以下步骤：对于各卷积层，根据原始傅里叶频谱确定卷积层的输入，并对输入进行卷积处理，得到卷积层的输出；将多个卷积层中最后一个卷积层的输出作为第一特征序列。

在其中一个实施例中，该处理器执行计算机程序时实现以下步骤：若卷积层为多个卷积层中的第1个卷积层，则将原始傅里叶频谱作为卷积层的输入；若卷积层不为多个卷积层中的第1个卷积层，则将原始傅里叶频谱和上一卷积层的输出进行拼接处理，并将拼接处理得到的序列作为卷积层的输入。

在其中一个实施例中，该对偶循环神经网络包括时域循环神经网络和频域循环神经网络，该处理器执行计算机程序时实现以下步骤：将第一特征序列中各个子带对应的特征信息输入至时域循环神经网络中，并将第一特征序列中各个时间点对应的特征信息输入至频域循环神经网络，以基于时域循环神经网络和频域循环神经网络的输出得到第二特征序列。

在其中一个实施例中，该对偶注意力机制网络包括时域注意力神经网络和频域注意力神经网络，该处理器执行计算机程序时实现以下步骤：将第二特征序列中各个子带对应的特征信息输入至时域注意力神经网络中，并将第二特征序列中各个时间点对应的特征信息输入至频域注意力神经网络，以基于时域注意力神经网络和频域注意力神经网络的输出得到第三特征序列。

在其中一个实施例中，该卷积网络解码器包括级联的多个逆卷积层，该处理器执行计算机程序时实现以下步骤：将第三特征序列输入至多个逆卷积层，以通过多个逆卷积层对第三特征序列进行逆卷积处理，得到特征数据。

在其中一个实施例中，该处理器执行计算机程序时实现以下步骤：获取训练集，训练集包括多个训练样本，各训练样本包括含噪声的训练语音和不含噪声的训练语音；利用训练集对初始语音增强网络进行训练，得到语音增强网络。

在一个实施例中，提供了一种存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

在其中一个实施例中，该混合神经网络包括级联的卷积网络编码器、对偶循环神经网络、对偶注意力机制网络以及卷积网络解码器，计算机程序被处理器执行时实现以下步骤：通过卷积网络编码器对原始傅里叶频谱进行编码处理，得到第一特征序列；通过对偶循环神经网络对第一特征序列进行特征提取处理，得到第二特征序列；通过对偶注意力机制网络对第二特征序列进行特征提取处理，得到第三特征序列；通过卷积网络解码器对第三特征序列进行解码处理，得到特征数据。

在其中一个实施例中，该卷积网络编码器包括级联的多个卷积层，计算机程序被处理器执行时实现以下步骤：对于各卷积层，根据原始傅里叶频谱确定卷积层的输入，并对输入进行卷积处理，得到卷积层的输出；将多个卷积层中最后一个卷积层的输出作为第一特征序列。

在其中一个实施例中，计算机程序被处理器执行时实现以下步骤：若卷积层为多个卷积层中的第1个卷积层，则将原始傅里叶频谱作为卷积层的输入；若卷积层不为多个卷积层中的第1个卷积层，则将原始傅里叶频谱和上一卷积层的输出进行拼接处理，并将拼接处理得到的序列作为卷积层的输入。

在其中一个实施例中，该对偶循环神经网络包括时域循环神经网络和频域循环神经网络，计算机程序被处理器执行时实现以下步骤：将第一特征序列中各个子带对应的特征信息输入至时域循环神经网络中，并将第一特征序列中各个时间点对应的特征信息输入至频域循环神经网络，以基于时域循环神经网络和频域循环神经网络的输出得到第二特征序列。

在其中一个实施例中，该对偶注意力机制网络包括时域注意力神经网络和频域注意力神经网络，计算机程序被处理器执行时实现以下步骤：将第二特征序列中各个子带对应的特征信息输入至时域注意力神经网络中，并将第二特征序列中各个时间点对应的特征信息输入至频域注意力神经网络，以基于时域注意力神经网络和频域注意力神经网络的输出得到第三特征序列。

在其中一个实施例中，该卷积网络解码器包括级联的多个逆卷积层，计算机程序被处理器执行时实现以下步骤：将第三特征序列输入至多个逆卷积层，以通过多个逆卷积层对第三特征序列进行逆卷积处理，得到特征数据。

在其中一个实施例中，计算机程序被处理器执行时实现以下步骤：获取训练集，训练集包括多个训练样本，各训练样本包括含噪声的训练语音和不含噪声的训练语音；利用训练集对初始语音增强网络进行训练，得到语音增强网络。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器（Read-OnlyMemory，ROM）、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器（ReRAM）、磁变存储器（Magnetoresistive Random Access Memory，MRAM）、铁电存储器（Ferroelectric Random Access Memory，FRAM）、相变存储器（Phase Change Memory，PCM）、石墨烯存储器等。易失性存储器可包括随机存取存储器（Random Access Memory，RAM）或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器（Static Random Access Memory，SRAM）或动态随机存取存储器（Dynamic RandomAccess Memory，DRAM）等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种语音增强方法，其特征在于，所述方法包括：

获取待处理的第一语音，所述第一语音含有噪声；

将所述第一语音输入至预先得到的语音增强网络中，其中，所述语音增强网络包括级联的分析滤波器、混合神经网络以及合成滤波器；

通过所述分析滤波器对所述第一语音进行短时傅里叶变换处理，得到原始傅里叶频谱；

通过所述混合神经网络对所述原始傅里叶频谱进行特征提取处理，得到特征数据，所述特征数据包括增强的傅里叶频谱或者复数掩蔽；

通过所述合成滤波器对所述特征数据进行短时逆傅里叶变换处理，得到去噪后的第二语音。

2.根据权利要求1所述的方法，其特征在于，所述混合神经网络包括级联的卷积网络编码器、对偶循环神经网络、对偶注意力机制网络以及卷积网络解码器，所述通过所述混合神经网络对所述原始傅里叶频谱进行特征提取处理，得到特征数据，包括：

通过所述卷积网络编码器对所述原始傅里叶频谱进行编码处理，得到第一特征序列；

通过所述对偶循环神经网络对所述第一特征序列进行特征提取处理，得到第二特征序列；

通过所述对偶注意力机制网络对所述第二特征序列进行特征提取处理，得到第三特征序列；

通过所述卷积网络解码器对所述第三特征序列进行解码处理，得到所述特征数据。

3.根据权利要求2所述的方法，其特征在于，所述卷积网络编码器包括级联的多个卷积层，所述通过所述卷积网络编码器对所述原始傅里叶频谱进行编码处理，得到第一特征序列，包括：

对于各所述卷积层，根据所述原始傅里叶频谱确定所述卷积层的输入，并对所述输入进行卷积处理，得到所述卷积层的输出；

将所述多个卷积层中最后一个卷积层的输出作为所述第一特征序列。

4.根据权利要求3所述的方法，其特征在于，所述根据所述原始傅里叶频谱确定所述卷积层的输入，包括：

若所述卷积层为所述多个卷积层中的第1个卷积层，则将所述原始傅里叶频谱作为所述卷积层的输入；

若所述卷积层不为所述多个卷积层中的第1个卷积层，则将所述原始傅里叶频谱和上一卷积层的输出进行拼接处理，并将拼接处理得到的序列作为所述卷积层的输入。

5.根据权利要求2所述的方法，其特征在于，所述对偶循环神经网络包括时域循环神经网络和频域循环神经网络，所述通过所述对偶循环神经网络对所述第一特征序列进行特征提取处理，得到第二特征序列，包括：

将所述第一特征序列中各个子带对应的特征信息输入至所述时域循环神经网络中，并将所述第一特征序列中各个时间点对应的特征信息输入至所述频域循环神经网络，以基于所述时域循环神经网络和所述频域循环神经网络的输出得到所述第二特征序列。

6.根据权利要求2所述的方法，其特征在于，所述对偶注意力机制网络包括时域注意力神经网络和频域注意力神经网络，所述通过所述对偶注意力机制网络对所述第二特征序列进行特征提取处理，得到第三特征序列，包括：

将所述第二特征序列中各个子带对应的特征信息输入至所述时域注意力神经网络中，并将所述第二特征序列中各个时间点对应的特征信息输入至所述频域注意力神经网络，以基于所述时域注意力神经网络和所述频域注意力神经网络的输出得到所述第三特征序列。

7.根据权利要求2所述的方法，其特征在于，所述卷积网络解码器包括级联的多个逆卷积层，所述通过所述卷积网络解码器对所述第三特征序列进行解码处理，得到所述特征数据，包括：

将所述第三特征序列输入至所述多个逆卷积层，以通过所述多个逆卷积层对所述第三特征序列进行逆卷积处理，得到所述特征数据。

8.根据权利要求1至7任一所述的方法，其特征在于，所述方法还包括：

获取训练集，所述训练集包括多个训练样本，各所述训练样本包括含噪声的训练语音和不含噪声的训练语音；

利用所述训练集对初始语音增强网络进行训练，得到所述语音增强网络。

9.一种语音增强装置，其特征在于，所述装置包括：

获取模块，用于获取待处理的第一语音，所述第一语音含有噪声；

输入模块，用于将所述第一语音输入至预先得到的语音增强网络中，其中，所述语音增强网络包括级联的分析滤波器、混合神经网络以及合成滤波器；

变换模块，用于通过所述分析滤波器对所述第一语音进行短时傅里叶变换处理，得到原始傅里叶频谱；

提取模块，用于通过所述混合神经网络对所述原始傅里叶频谱进行特征提取处理，得到特征数据，所述特征数据包括增强的傅里叶频谱或者复数掩蔽；

逆变换模块，用于通过所述合成滤波器对所述特征数据进行短时逆傅里叶变换处理，得到去噪后的第二语音。

10.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述的方法的步骤。

11.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的方法的步骤。