CN113506581B

CN113506581B - 一种语音增强方法和装置

Info

Publication number: CN113506581B
Application number: CN202110773231.6A
Authority: CN
Inventors: 陈泽华; 吴俊仪; 蔡玉玉; 雪巍; 丁国宏
Original assignee: Jingdong Technology Holding Co Ltd
Current assignee: Jingdong Technology Holding Co Ltd
Priority date: 2021-07-08
Filing date: 2021-07-08
Publication date: 2024-04-05
Anticipated expiration: 2041-07-08
Also published as: CN113506581A

Abstract

本发明提供一种语音增强方法和装置，其中所述方法包括：接收输入的带噪语音信号；将所述带噪语音信号输入至语音增强模型中，依次进行卷积处理、反卷积处理以及融合处理生成纯净语音信号；其中，所述语音增强模型包括编码器和解码器，通过编码器的多个卷积层的不同尺寸的卷积核进行所述卷积处理，通过解码器的多个反卷积层的多个不同尺寸的反卷积核进行所述反卷积处理。由于每个卷积层中有多个不同尺寸的卷积核、每个反卷积层中有多个不同尺寸的反卷积核，不同尺寸的卷积核能捕捉不同尺度的特征，最终的语音增强效果也会有所提升，从而可以将不同尺寸的卷积核的卷积结果进行融合，以显著提高最终的语音增强效果，且表现稳定。

Description

一种语音增强方法和装置

技术领域

本发明涉及语音处理技术领域，尤其涉及一种语音增强方法和装置、电子设备和存储介质。

背景技术

随着科技的迅速崛起和互联网的广泛普及，人工智能已经渐渐成为了许多重复性高、模式固定的工作的替代方案。其中，智能语音识别能力更是被应用于多个场景，例如使用语音代替打字输入方式、智能语音交互硬件、电话智能客服等等。在语音信号纯净的情况下，识别为文字的准确率完全可达到实用标注，然而当输入的语音信号由于背景环境等因素下音频质量遭到影响时，识别准确率将会被严重影响，因此如何还原纯净语音已成为目前语音识别技术最需攻克的难点之一。

现有技术中，语音增强任务主要通过深度神经网络(Deep Neural Network,DNN)实现。大部分语音增强的研究集中在DNN的宏观架构、损失函数和预测目标上。改变DNN的宏观架构和损失函数旨在使DNN的学习过程更高效、最终语音增强的测评效果更好。

在语音增强研究领域，除了对DNN的宏观架构、损失函数和预测目标的研究，对DNN中使用的卷积核(Kernel)的大小的研究一直很少。大部分研究使用的卷积核为3*3或者5*5，但是单一尺寸卷积核的效果有局限性，对带噪语音的增强效果并不稳定。

发明内容

本发明提供一种语音增强方法和装置、电子设备和存储介质，用以解决现有技术中存在的技术缺陷。

本发明提供一种语音增强方法，包括：

接收输入的带噪语音信号；

将所述带噪语音信号输入至语音增强模型中，依次进行卷积处理、反卷积处理以及融合处理生成纯净语音信号；

其中，所述语音增强模型包括编码器和解码器，通过编码器的多个卷积层的不同尺寸的卷积核进行所述卷积处理，通过解码器的多个反卷积层的多个不同尺寸的反卷积核进行所述反卷积处理。

根据本发明提供的一种语音增强方法，将所述带噪语音信号输入至语音增强模型中，依次进行卷积处理、反卷积处理以及融合处理生成纯净语音信号，包括：

将所述带噪语音信号输入至所述编码器进行卷积处理生成语音卷积向量；

将所述语音卷积向量输入至所述解码器进行反卷积处理生成语音反卷积向量；

将所述语音反卷积向量输入至所述语音增强模型的融合层进行融合处理生成纯净语音信号。

根据本发明提供的一种语音增强方法，将所述带噪语音信号输入至所述编码器进行卷积处理生成语音卷积向量，包括：

将所述带噪语音信号依次经由编码器的每个卷积层的多个不同尺寸的卷积核进行卷积处理，得到每个卷积层输出的语音卷积向量，并将每个卷积层输出的语音卷积向量输入至下一个卷积层；

其中，所述每个卷积层输出的语音卷积向量为将多个不同尺寸的卷积核的处理结果沿通道层进行拼接生成，且输出的所述语音卷积向量的通道数与多个不同尺寸的所述卷积核的通道数相同。

根据本发明提供的一种语音增强方法，将所述语音卷积向量输入至所述解码器进行反卷积处理生成语音反卷积向量，包括：

对于第一个反卷积层：

将编码器的最后一个卷积层输出的语音卷积向量输入至解码器的第一个反卷积层中，通过第一个反卷积层的多个不同尺寸的反卷积核进行反卷积处理，得到第一个反卷积层输出的语音反卷积向量，其中，所述第一个反卷积层输出的语音反卷积向量为将多个不同尺寸的反卷积核的处理结果沿通道层进行拼接生成；

对于其他反卷积层：

将上一个反卷积层输出的语音反卷积向量和该反卷积层对应的卷积层输出的语音卷积向量进行拼接，生成输入该反卷积层的语音向量；其中，所述反卷积层与所述卷积层一一对应；

将生成的语音向量输入至该反卷积层中，通过该反卷积层的多个不同尺寸的反卷积核进行反卷积处理，得到该反卷积层输出的语音反卷积向量，其中，该反卷积层输出的语音反卷积向量为将多个不同尺寸的反卷积核的处理结果沿通道层进行拼接生成，且输出的所述语音反卷积向量的通道数与多个不同尺寸的所述反卷积核的通道数相同。

根据本发明提供的一种语音增强方法，将语音反卷积向量输入至融合层进行融合处理生成纯净语音信号，包括：

将最后一个反卷积层输出的语音反卷积向量输入至融合层进行融合处理，得到所述纯净语音信号；其中，所述融合层包括一个1*1卷积核。

根据本发明提供的一种语音增强方法，在输入的带噪语音信号为时域观测到的带噪语音信号的情况下，所述卷积核为一维卷积核，所述反卷积核为一维反卷积核，且所述卷积核和所述反卷积核具有规格一致的多个不同尺寸；

在输入的带噪语音信号为时频域观测到的带噪语音信号的情况下，所述卷积核为二维卷积核，所述反卷积核为二维反卷积核，且所述卷积核和所述反卷积核具有规格一致的多个不同尺寸。

本发明还提供一种语音增强装置，包括：

接收模块，用于接收输入的带噪语音信号；

处理模块，用于将所述带噪语音信号输入至语音增强模型中，依次进行卷积处理、反卷积处理以及融合处理生成纯净语音信号；

根据本发明提供的一种语音增强装置，所述处理模块包括：

卷积处理单元，用于将所述带噪语音信号输入至所述编码器进行卷积处理生成语音卷积向量；

反卷积处理单元，用于将所述语音卷积向量输入至所述解码器进行反卷积处理生成语音反卷积向量；

融合处理单元，用于将所述语音反卷积向量输入至所述语音增强模型的融合层进行融合处理生成纯净语音信号。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述语音增强方法的步骤。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述语音增强方法的步骤。

本发明提供的语音增强方法和装置、电子设备和存储介质，通过将带噪语音信号输入至语音增强模型中，依次进行卷积处理、反卷积处理以及融合处理生成纯净语音信号，由于每个卷积层中有多个不同尺寸的卷积核、每个反卷积层中有多个不同尺寸的反卷积核，不同尺寸的卷积核能捕捉不同尺度的特征，最终的语音增强效果也会有所提升，从而可以将不同尺寸的卷积核的卷积结果进行融合，以显著提高最终的语音增强效果，且表现稳定。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的语音增强方法的流程示意图之一；

图2是本发明提供的语音增强模型的结构示意图；

图3是本发明提供的通过3个二维卷积核进行卷积处理的示意图；

图4是本发明提供的通过3个一维卷积核进行卷积处理的示意图；

图5是本发明提供的语音增强方法的流程示意图之二；

图6是本发明提供的语音增强装置的结构示意图；

图7是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

首先，对本发明实施例中涉及的名词术语进行示意性的解释。

Unet模型：Nnet模型由卷积编码器(Convolutional Encoder)和卷积解码器(Convolutional Decoder)组成。每个编码器由卷积层、规范化层和激活函数组成。卷积解码器由反卷积层、规范化层和激活函数组成。其中卷积层和反卷积层都使用卷积核进行卷积操作。

卷积核：卷积核就是利用卷积网络在进行对象处理时，给定输入对象，输入对象中一个小区域中的元素加权平均后成为输出对象中的每个对应元素，其中权值由一个函数定义，这个函数称为卷积核。其中，对象可以为文字、图像、语音信号等。

卷积：又称下采样卷积，缩小分辨率的卷积。例如对于一幅图像I尺寸为MN，对其进行s倍下采样，即得到(M/s)(N/s)尺寸的得分辨率图像。如果考虑的是矩阵形式的图像，就是把原始图像s*s窗口内的图像变成一个像素，这个像素点的值就是窗口内所有像素的均值。

反卷积：又称上采样卷积、转置卷积。以图像为例，对输入图像进行上采样，将低分辨率输入图像转化为高分辨率图像。

模型参数量：深度神经网络中进行参数自学习的参数总量，卷积层包含权重参数和偏置参数。模型参数量对应算法的空间复杂度，在硬件层次上对应计算机内存资源的消耗。

本发明公开了一种语音增强方法，如图1所示，包括：

101、接收输入的带噪语音信号。

102、将所述带噪语音信号输入至语音增强模型中，依次进行卷积处理、反卷积处理以及融合处理生成纯净语音信号。

具体地，步骤102包括：

步骤121、将所述带噪语音信号输入至所述编码器进行卷积处理生成语音卷积向量。

步骤122、将所述语音卷积向量输入至所述解码器进行反卷积处理生成语音反卷积向量。

步骤123、将所述语音反卷积向量输入至所述语音增强模型的融合层进行融合处理生成纯净语音信号。

语音增强是指对在日常生活中观测到的带噪语音信号y(n)进行降噪，从带噪语音信号y(n)中得出所预测的纯净语音信号与真实的纯净语音信号x(n)之间的差异越小，语音增强的效果被认为越好。

其中，编码器包括多个卷积层，所述卷积处理为通过每个卷积层的多个不同尺寸的卷积核对输入的语音向量进行卷积处理；解码器包括多个反卷积层，所述反卷积处理为通过每个反卷积层的多个不同尺寸的反卷积核对输入的语音向量进行反卷积处理。

本实施例以语音增强模型是U-Net模型为例，来实现对带噪语音信号的卷积处理。

具体地，参见图2，语音增强模型包括编码器、解码器以及融合层。编码器包括多个依次连接的卷积层，解码器包括多个依次连接的反卷积层，融合层包括1*1的卷积核。

卷积层和反卷积层的个数相同，且卷积层和反卷积层对应设置。以Unet模型为例，卷积层和反卷积层呈对称设置。例如第一个卷积层和最后一个反卷积层对应，第一个卷积层输出的语音向量会输入至最后一个反卷积层进行处理；最后一个卷积层和第一个反卷积层对应，最后一个卷积层输出的语音向量会输入至第一个反卷积层进行处理。

在输入的带噪语音信号为时域观测到的带噪语音信号的情况下，所述卷积核为一维卷积核，所述反卷积核为一维反卷积核，且卷积核和反卷积核具有规格一致的多个不同尺寸。即，卷积核为(1,7)(1,5)的话，那么反卷积核也为(1,7)(1,5)。

在输入的带噪语音信号为时频域观测到的带噪语音信号的情况下，所述卷积核为二维卷积核，所述反卷积核为二维反卷积核，且所述卷积核和所述反卷积核具有规格一致的多个不同尺寸。即，卷积核为(7,7)(5,5)的话，那么反卷积核也为(7,7)(5,5)。

图3中示出了通过3个二维卷积核进行卷积处理的示意图。其中，3个二维卷积核的大小为k×k，本实施例中分别为7*7、5*5和3*3。

与通过单个二维卷积核进行卷积处理相比，通过多个二维卷积核进行卷积处理，由于不同大小的卷积核能捕捉不同尺度的特征，可以显著提高最终的语音增强效果。

图4示出了通过3个一维卷积核进行卷积处理的示意图。其中，3个二维卷积核的大小为1×k，本实施例中分别为1*7、1*5和1*3。

与通过单个一维卷积核进行卷积处理相比，通过多个一维卷积核进行卷积处理，由于不同大小的卷积核能捕捉不同尺度的特征，可以显著提高最终的语音增强效果。

其中，卷积核大小决定了卷积层和反卷积层在进行特征提取时感受野的大小。大的卷积核可以提取出分辨率更高的特征，小的卷积核可以提取出分辨率较低的特征。当卷积核的尺寸增大时，卷积层和反卷积层拥有更大的感受野，U-Net网络模型也会拥有更大的模型参数量。

在使用一维卷积核时(1D Convolutional Kernel)，可以对时域观测到的带噪语音信号y(n)进行增强，最终可以得到预测的纯净语音信号在使用二维卷积核(2DConvolutional Kernel)时，可以对进行短时傅里叶变换(STFT)后的带噪语音信号Y(k,l)进行增强，得到预测的纯净语音信号/>对时域和时频域的语音增强都可以应用。

具体地，步骤121中将所述带噪语音信号输入至所述编码器进行卷积处理生成语音卷积向量，包括：

其中，所述每个卷积层输出的语音卷积向量为将多个不同尺寸的卷积核的处理结果沿通道层进行拼接生成，且输出的语音卷积向量的通道数与多个不同尺寸的卷积核的通道数相同。

具体地，卷积处理的过程包括：

将带噪语音信号输入至第一个卷积层，通过第一个卷积层的多个不同尺寸的卷积核进行卷积处理，得到每个卷积层输出的语音卷积向量。以第一个卷积层的卷积核为两个不同尺寸的卷积核(1*1)(3*3)为例，两个卷积核的通道数均为64。输入的带噪语音信号通道数为1。通过每个卷积核对输入的带噪语音信号进行卷积处理，分别生成通道数为64的语音卷积向量。然后将两个卷积核生成的语音卷积向量沿通道层进行拼接，得到拼接后的通道数为64的两层语音卷积向量。

然后，将第一个卷积层的语音卷积向量输入至第二个卷积层，通过第二个卷积层的多个不同尺寸的卷积核进行卷积处理，得到每个卷积层输出的语音卷积向量。第二个卷积层的卷积核仍为两个不同尺寸的卷积核(1*1)(3*3)，两个卷积核的通道数均为128。输入的带噪语音向量的通道数为64。通过每个卷积核对输入的带噪语音向量进行卷积处理，分别生成通道数为128的语音卷积向量。然后将两个卷积核生成的语音卷积向量沿通道层进行拼接，得到拼接后的通道数为128的两层语音卷积向量。

依次类推，直至得到最后一个卷积层输出的语音卷积向量。

本实施例中，通过多个卷积核的处理，与现有技术中通过单个卷积核进行卷积处理相比，模型的参数总量减小。

以单个卷积核为(3,3)为例，如果输入为64通道的语音向量，输出为128通道的语音向量，则模型参数为64*3*3*128＝73728，

如果改为两个卷积核(1,1)(3,3)，如果输入为64通道的语音向量，输出为128通道的语音向量，则模型参数为64*3*3*64+64*1*1*64＝40960。

上述过程为卷积处理过程的示意性说明，下面对本实施例的反卷积处理过程进行示意性的说明。

具体地，步骤122中将所述语音卷积向量输入至所述解码器进行反卷积处理生成语音反卷积向量，包括：

对于第一个反卷积层：

将编码器的最后一个卷积层输出的语音卷积向量输入至解码器的第一个反卷积层中，通过第一个反卷积层的多个不同尺寸的反卷积核进行反卷积处理，得到第一个反卷积层输出的语音反卷积向量，其中，所述第一个反卷积层输出的语音反卷积向量为将多个不同尺寸的反卷积核的处理结果沿通道层进行拼接生成。

对于其他反卷积层：

将生成的语音向量输入至该反卷积层中，通过该反卷积层的多个不同尺寸的反卷积核进行反卷积处理，得到该反卷积层输出的语音反卷积向量。

其中，该反卷积层输出的语音反卷积向量为将多个不同尺寸的反卷积核的处理结果沿通道层进行拼接生成，且输出的所述语音反卷积向量的通道数与多个不同尺寸的所述反卷积核的通道数相同。

具体地，以反卷积层包括(1*1)(3*3)两个反卷积核为例，反卷积处理的过程包括：

将最后一个卷积层输出的语音卷积向量输入至第一个反卷积层，通过第一个反卷积层的多个不同尺寸的反卷积核进行反卷积处理，得到每个反卷积层输出的语音卷积向量。第一个反卷积层的反卷积核为两个不同尺寸的反卷积核(1*1)(3*3)，两个卷积核的通道数均为256。输入的语音卷积向量通道数为256。通过每个卷积核对输入的语音卷积向量进行反卷积处理，分别生成通道数为256的语音反卷积向量。然后将两个反卷积核生成的语音反卷积向量沿通道层进行拼接，得到拼接后的通道数为256的两层语音反卷积向量。

将第一个反卷积层输出的通道数为256的语音反卷积向量和倒数第二个卷积层输出的通道数为256语音卷积向量进行拼接，生成通道数为512的语音向量，将该通道数为512的语音向量输入至第二个反卷积层，通过第二个反卷积层的两个不同尺寸的反卷积核(1*1)(3*3)进行反卷积处理。若第二个反卷积层的反卷积核的通道数为128，则通过每个卷积核对输入的语音卷积向量进行反卷积处理，分别生成通道数为128的语音反卷积向量。然后将两个反卷积核生成的语音反卷积向量沿通道层进行拼接，得到拼接后的通道数为128的两层语音反卷积向量。

将第二个反卷积层输出的通道数为128的两层语音反卷积向量，与倒数第三个卷积层输出的通道数为128的两层语音卷积向量进行拼接，得到通道数为256的语音向量，将该语音向量输入至第三个反卷积层进行反卷积处理。

具体的反卷积过程参见上述详细描述，在此便不再赘述。

依次类推，得到最后一个反卷积层输出的语音反卷积向量。

需要说明的是，最后一个反卷积层输出的语音反卷积向量的通道数与不同尺寸反卷积核的个数有关系，因为不同尺寸的反卷积核会分别生成不同层的语音反卷积向量。例如反卷积核为两个，则最后一个反卷积层输出的语音反卷积向量的通道数为2。

通过解码的过程，可以得到将输入的低分辨率信号转化为高分辨率信号，并且每一层的反卷积过程均融入了卷积语音向量和反卷积语音向量，以保证最终的语音增强效果。

如果要得到最终的纯净语音信号，还需要通过一个通道数为1的(1,1)卷积核对不同层的语音反卷积向量进行融合。

具体地，步骤123中将所述语音反卷积向量输入至所述语音增强模型的融合层进行融合处理生成纯净语音信号，包括：

将最后一个反卷积层输出的语音反卷积向量输入至融合层进行融合处理，得到所述纯净语音信号。

其中，所述融合层包括一个1*1且通道数为1的卷积核，生成的纯净语音信号的通道数为1，与输入的带噪语音信号的通道数一致。

本发明提供的语音增强方法，通过将带噪语音信号输入至语音增强模型中，依次进行卷积处理、反卷积处理以及融合处理生成纯净语音信号，由于每个卷积层中有多个不同尺寸的卷积核、每个反卷积层中有多个不同尺寸的反卷积核，不同尺寸的卷积核能捕捉不同尺度的特征，最终的语音增强效果也会有所提升，从而可以将不同尺寸的卷积核的卷积结果进行融合，以显著提高最终的语音增强效果，且表现稳定。

为了便于理解本技术方案，本发明实施例还提供了一种语音增强方法，以4层语音增强模型，即语音增强模型包括4个卷积层和4个反卷积层为例进行说明。其中，卷积核和反卷积核均包括5*5、3*3两个二维卷积核。

本实施例中以语音增强模型为U-Net模型为例，U-Net模型由编码器(Convolutional Encoder)和解码器(Convolutional Decoder)组成。以一个4层U-Net模型为例，则包括4个编码器和4个解码器。每个编码器由卷积层、规范化层和激活函数组成。卷积解码器由反卷积层、规范化层和激活函数组成。其中卷积层和反卷积层既可以使用一维卷积核，也可以使用二维卷积核。二维卷积核的大小为k×k，一维卷积核大小为1×k。卷积核大小决定了卷积层和反卷积层在进行特征提取时感受野的大小。大的卷积核可以提取出分辨率更高的特征，小的卷积核可以提取出分辨率较低的特征。当卷积核的尺寸增大时，卷积层和反卷积层拥有更大的感受野，U-Net网络模型也会拥有更大的模型参数量。

为加快学习效率，抑制过拟合，同时降低神经网络对权重初始值的敏感度，本发明在卷积层以及反卷积层之后中间加入规范化层，以实现在卷积操作后对数据进行标准化，然后用激活函数激活，增加非线性表达，可以使运算速度快、抗噪声干扰性能高。

参见图2和图5，本发明实施例的语音增强方法包括：

501、接收输入的带噪语音信号。

502、将带噪语音信号输入至第一个卷积层，通过第一个卷积层的两个不同尺寸的卷积核(5*5)(3*3)对输入的带噪语音信号进行卷积处理，分别生成通道数为64的语音卷积向量，然后将两个卷积核生成的语音卷积向量沿通道层进行拼接，得到拼接后的通道数为64的两层语音卷积向量。

其中，第一个卷积层的两个卷积核的通道数均为64。输入的带噪语音信号通道数为1。

503、将通道数为64的两层语音卷积向量输入至第二个卷积层，通过第二个卷积层的两个不同尺寸的卷积核(5*5)(3*3)对输入的带噪语音向量进行卷积处理，分别生成通道数为128的语音卷积向量。然后将两个卷积核生成的语音卷积向量沿通道层进行拼接，得到拼接后的通道数为128的两层语音卷积向量。

其中，第二个卷积层的两个卷积核的通道数均为128，输入的语音卷积向量的通道数为64。

504、将通道数为128的两层语音卷积向量输入至第三个卷积层，通过第三个卷积层的两个不同尺寸的卷积核(5*5)(3*3)对输入的带噪语音向量进行卷积处理，分别生成通道数为256的语音卷积向量。然后将两个卷积核生成的语音卷积向量沿通道层进行拼接，得到拼接后的通道数为256的两层语音卷积向量。

其中，第三个卷积层的两个卷积核的通道数均为256，输入的语音卷积向量的通道数为128。

505、将通道数为256的两层语音卷积向量输入至第四个卷积层，通过第四个卷积层的两个不同尺寸的卷积核(5*5)(3*3)对输入的带噪语音向量进行卷积处理，分别生成通道数为256的语音卷积向量。然后将两个卷积核生成的语音卷积向量沿通道层进行拼接，得到拼接后的通道数为256的两层语音卷积向量。

其中，第四个卷积层的两个卷积核的通道数均为256，输入的语音卷积向量的通道数为256。

506、将最后一个卷积层输出的语音卷积向量输入至第一个反卷积层，通过第一个反卷积层的两个不同尺寸的反卷积核(5*5)(3*3)对输入的语音卷积向量进行反卷积处理，分别生成通道数为256的语音反卷积向量。然后将两个反卷积核生成的语音反卷积向量沿通道层进行拼接，得到拼接后的通道数为256的两层语音反卷积向量。

其中，第一个反卷积层的两个卷积核的通道数均为256，输入的语音卷积向量的通道数为256。

507、将第一个反卷积层输出的通道数为256的语音反卷积向量和第三个卷积层输出的通道数为256语音卷积向量进行拼接，生成通道数为512的语音向量，并将该语音向量输入至第二个反卷积层，通过第二个反卷积层的两个不同尺寸的反卷积核(5*5)(3*3)进行反卷积处理，分别生成通道数为128的语音反卷积向量。然后将两个反卷积核生成的语音反卷积向量沿通道层进行拼接，得到拼接后的通道数为128的两层语音反卷积向量。

508、将第二个反卷积层输出的通道数为128的语音反卷积向量和第二个卷积层输出的通道数为128的语音卷积向量进行拼接，生成通道数为256的语音向量，将该通道数为256的语音向量输入至第三个反卷积层，通过第三个反卷积层的两个不同尺寸的反卷积核(5*5)(3*3)进行反卷积处理，分别生成通道数为64的语音反卷积向量。然后将两个反卷积核生成的语音反卷积向量沿通道层进行拼接，得到拼接后的通道数为64的两层语音反卷积向量。

509、将第三个反卷积层输出的通道数为64的语音反卷积向量和第二个卷积层输出的通道数为64的语音卷积向量进行拼接，生成通道数为128的语音向量，将该通道数为128的语音向量输入至第四个反卷积层，通过第四个反卷积层的两个不同尺寸的反卷积核(5*5)(3*3)进行反卷积处理，分别生成通道数为2的语音反卷积向量。然后将两个反卷积核生成的语音反卷积向量沿通道层进行拼接，得到拼接后的通道数为2的两层语音反卷积向量。

510、将第四个反卷积层输出的通道数为2的语音反卷积向量输入至融合层，通过融合层的通道数为1的(1,1)卷积核进行融合处理，得到所述纯净语音信号。

本实施例的方法，通过使用多个不同尺寸的卷积核来替代单一尺寸的卷积核，有利于降低模型参数。

如果使用单一尺寸的卷积核，U-Net网络的总参数量的计算公式为下式(1)：

其中b＝1，α＝1，β＝1。l表示U-Net的第l层，N表示U-Net的总层数，K_h和K_w是所使用卷积核的高和宽，I_l和O_l是U-Net网络中第l层的输入通道数和输出通道数，b是偏置，α和β是Batch Norm层的参数。可以看出，当卷积核大小由1，3，5，7，9，11逐渐增大时，U-Net的参数总量会以二次幂增大。对于一个4层U-Net网络为例，使用5*5卷积核时参数总量为6357059个，使用15*15卷积核时参数总量高达57185859个，参数总量增大了9倍。参数量大通常能增加DNN的模型建模能力，但模型训练速度也会变慢。

研究标明，调整卷积核的尺寸大小对最终语音增强效果的影响，如果使用单一尺寸卷积核，语音增强效果并不会随着卷积核尺寸增加而单调增加，会先有提高，接下来会趋于平稳，甚至逐渐下降。

为了证实本发明的效果，本实施例首先做了逐渐增大卷积核尺寸的实验，其次提出了用大小卷积核结合的方式代替大卷积核的基于多尺度卷积核的时频域语音增强方法。本实施例针对4层的U-Net模型，依次使用尺寸大小为5、7、9、11、13、15的单一卷积核，与混合卷积核做对比，混合方式如图5所示。混合卷积核包含当前卷积核大小和由5起始的各个卷积核大小。比如，用5*5和7*7混合的卷积核代替单一使用7*7大小的卷积核，用5*5、7*7、9*9的卷积核代替单一使用9*9大小的卷积核，此时模型总量会减小，由于不同大小的卷积核能捕捉不同尺度的特征，最终的语音增强效果也会有所提升。

使用混合卷积核时的模型参数总量计算公式为下式(2)：

其中，K_ih和K_iw是第i个卷积核的高和宽尺寸，M是卷积核的总个数，l是U-Net模型的第l层。

其中，使用混合卷积层的总层数比单一尺寸卷积核的层数会多一层，因为混合卷积核的U-Net模型最终会输出和卷积核的个数等同的多个上采样语音向量将这些上采样语音向量/>用卷积核为1*1的卷积层卷积，可以得到最终纯净语音向量/>

通过参数计算公式和语音增强实验，使用混合尺寸的卷积核的U-Net网络参数量要比使用单一尺寸卷积核的U-Net模型显著减小，用5*5，7*7和5*5，9*9、7*7和5*5，11*11、9*9、7*7和5*5，13*13、11*11、9*9、7*7和5*5，15*15、13*13、11*11、9*9、7*7和5*5的混合卷积核相比只用15*15的卷积核的U-Net模型的总参数量减少了49.84％，且最终语音增强的效果在PESQ、SNR、STOI和CD上均有显著增强。

综上所述，用混合尺寸的卷积核代替大卷积核，最终的语音增强效果可以在各向指标上均得到提升，尤其当单一尺寸的卷积核逐渐增大时，语音增强效果在初期是逐渐提高，但后期趋于平稳。而使用混合卷积核的U-Net模型，效果稳定提升，且参数量相比于单一卷积核减少的比例越来越大。

表现稳定、参数量小、效果更好，是使用混合尺寸卷积核相比单一尺寸卷积核的三项优势。

下面对本发明提供的语音增强装置进行描述，下文描述的语音增强装置与上文描述的语音增强方法可相互对应参照。

本发明提供了一种语音增强装置，参见图6，包括：

接收模块601，用于接收输入的带噪语音信号；

处理模块602，用于将所述带噪语音信号输入至语音增强模型中，依次进行卷积处理、反卷积处理以及融合处理生成纯净语音信号；

可选地，所述处理模块602包括：

可选地，所述卷积处理单元，具体用于：

可选地，所述反卷积处理单元，具体用于：

对于第一个反卷积层，将编码器的最后一个卷积层输出的语音卷积向量输入至解码器的第一个反卷积层中，通过第一个反卷积层的多个不同尺寸的反卷积核进行反卷积处理，得到第一个反卷积层输出的语音反卷积向量，其中，所述第一个反卷积层输出的语音反卷积向量为将多个不同尺寸的反卷积核的处理结果沿通道层进行拼接生成；

对于其他反卷积层，所述反卷积处理单元，用于将上一个反卷积层输出的语音反卷积向量和该反卷积层对应的卷积层输出的语音卷积向量进行拼接，生成输入该反卷积层的语音向量；其中，所述反卷积层与所述卷积层一一对应；

可选地，所述融合单元，具体用于将最后一个反卷积层输出的语音反卷积向量输入至融合层进行融合处理，得到所述纯净语音信号；其中，所述融合层包括一个1*1卷积核。

可选地，在输入的带噪语音信号为时域观测到的带噪语音信号的情况下，所述卷积核为一维卷积核，所述反卷积核为一维反卷积核，且所述卷积核和所述反卷积核具有规格一致的多个不同尺寸；

本实施例提供的语音增强装置，通过将带噪语音信号输入至语音增强模型中，依次进行卷积处理、反卷积处理以及融合处理生成纯净语音信号，由于每个卷积层中有多个不同尺寸的卷积核、每个反卷积层中有多个不同尺寸的反卷积核，不同尺寸的卷积核能捕捉不同尺度的特征，最终的语音增强效果也会有所提升，从而可以将不同尺寸的卷积核的卷积结果进行融合，以显著提高最终的语音增强效果，且表现稳定。

图7示例了一种电子设备的实体结构示意图，如图7所示，该电子设备可以包括：处理器(processor)710、通信接口(Communications Interface)720、存储器(memory)730和通信总线740，其中，处理器710，通信接口720，存储器730通过通信总线740完成相互间的通信。处理器710可以调用存储器730中的逻辑指令，以执行语音增强方法，包括：

接收输入的带噪语音信号；

此外，上述的存储器730中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法所提供的语音增强方法，包括：

接收输入的带噪语音信号；

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各提供的语音增强方法，包括：

接收输入的带噪语音信号；

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种语音增强方法，其特征在于，包括：

接收输入的带噪语音信号；

其中，所述语音增强模型包括编码器和解码器，通过编码器的多个卷积层的不同尺寸的卷积核进行所述卷积处理，通过解码器的多个反卷积层的多个不同尺寸的反卷积核进行所述反卷积处理；

其中，将所述带噪语音信号输入至语音增强模型中，依次进行卷积处理、反卷积处理以及融合处理生成纯净语音信号，包括：将所述带噪语音信号输入至所述编码器进行卷积处理生成语音卷积向量；

将所述带噪语音信号输入至所述编码器进行卷积处理生成语音卷积向量，包括：

2.根据权利要求1所述的语音增强方法，其特征在于，将所述带噪语音信号输入至语音增强模型中，依次进行卷积处理、反卷积处理以及融合处理生成纯净语音信号，还包括：

3.根据权利要求2所述的语音增强方法，其特征在于，将所述语音卷积向量输入至所述解码器进行反卷积处理生成语音反卷积向量，包括：

对于第一个反卷积层：

对于其他反卷积层：

4.根据权利要求2所述的语音增强方法，其特征在于，将语音反卷积向量输入至融合层进行融合处理生成纯净语音信号，包括：

5.根据权利要求1所述的语音增强方法，其特征在于，

在输入的带噪语音信号为时域观测到的带噪语音信号的情况下，所述卷积核为一维卷积核，所述反卷积核为一维反卷积核，且所述卷积核和所述反卷积核具有规格一致的多个不同尺寸；

6.一种语音增强装置，其特征在于，包括：

接收模块，用于接收输入的带噪语音信号；

其中，所述处理模块包括：卷积处理单元，用于将所述带噪语音信号输入至所述编码器进行卷积处理生成语音卷积向量；

所述卷积处理单元，具体用于：

7.根据权利要求6所述的语音增强装置，其特征在于，所述处理模块还包括：

8.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至5任一项所述语音增强方法的步骤。

9.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至5任一项所述语音增强方法的步骤。