CN114783454B

CN114783454B - 一种模型训练、音频降噪方法、装置、设备及存储介质

Info

Publication number: CN114783454B
Application number: CN202210453491.XA
Authority: CN
Inventors: 赵情恩
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2022-04-27
Filing date: 2022-04-27
Publication date: 2024-06-04
Anticipated expiration: 2042-04-27
Also published as: CN114783454A

Abstract

本公开提供了一种模型训练、音频降噪方法、装置、设备及存储介质，涉及数据处理技术领域，尤其涉及人工智能技术领域。具体实现方案为：获得第一样本音频特征、第二样本音频特征和样本图像；将第二样本音频特征输入音频降噪模型中的音频特征提取子网络，得到深层音频特征，将样本图像输入音频降噪模型中的图像特征提取子网络，得到样本图像特征；将深层音频特征和样本图像特征输入音频降噪模型中的联合子网络重建音频特征和图像；基于重建的音频特征与第一样本音频特征间的差异、及重建的图像与样本图像间的差异，获得训练损失；基于训练损失，对音频降噪模型进行训练。应用本公开实施例提供的方案，能够训练得到对音频进行降噪处理的模型。

Description

一种模型训练、音频降噪方法、装置、设备及存储介质

技术领域

本公开涉及数据处理技术领域，尤其涉及人工智能技术领域。

背景技术

在音视频实时通信时，难免会遇到各种用户不希望出现的噪声，例如吵闹声、键盘敲击声、物体嘈杂声等，因此，需要对音频进行降噪处理。

发明内容

本公开提供了一种模型训练、音频降噪方法、装置、设备以及存储介质。

根据本公开的一方面，提供了一种模型训练方法，包括：

获得干净样本音频帧的第一样本音频特征、带噪样本音频帧的第二样本音频特征和样本图像，其中，所述带噪样本音频帧通过在所述干净样本音频帧中添加噪声得到，所述样本图像根据与所述干净样本音频帧同步采集的包含发音对象唇部区域的图像得到；

将所述第二样本音频特征输入待训练的音频降噪模型中的音频特征提取子网络，得到所述带噪样本音频帧的深层音频特征，并将所述样本图像输入所述音频降噪模型中的图像特征提取子网络，得到样本图像特征；

将所述深层音频特征和样本图像特征输入所述音频降噪模型中的联合子网络，以使得所述联合子网络联合所述深层音频特征和样本图像特征重建音频特征和图像；

基于重建的音频特征与所述第一样本音频特征间的差异、以及重建的图像与所述样本图像间的差异，获得所述音频降噪模型的训练损失；

基于所述训练损失，对所述音频降噪模型进行训练。

根据本公开的另一方面，提供了一种音频降噪方法，包括：

获得待处理音频帧的音频特征，并获得与所述待处理音频帧同步采集的包含发音对象唇部区域的目标图像；

对所述音频特征进行特征提取，得到深层音频特征，并提取所述目标图像的图像特征；

根据所述深层音频特征以及所述图像特征反映的所述发音对象发出的音频，对所述待处理音频帧进行降噪处理。

根据本公开的另一方面，提供了一种模型训练装置，包括：

信息获得模块，用于获得干净样本音频帧的第一样本音频特征、带噪样本音频帧的第二样本音频特征和样本图像，其中，所述带噪样本音频帧通过在所述干净样本音频帧中添加噪声得到，所述样本图像根据与所述干净样本音频帧同步采集的包含发音对象唇部区域的图像得到；

特征获得模块，用于将所述第二样本音频特征输入待训练的音频降噪模型中的音频特征提取子网络，得到所述带噪样本音频帧的深层音频特征，并将所述样本图像输入所述音频降噪模型中的图像特征提取子网络，得到样本图像特征；

信息重建模块，用于将所述深层音频特征和样本图像特征输入所述音频降噪模型中的联合子网络，以使得所述联合子网络联合所述深层音频特征和样本图像特征重建音频特征和图像；

损失获得模块，用于基于重建的音频特征与所述第一样本音频特征间的差异、以及重建的图像与所述样本图像间的差异，获得所述音频降噪模型的训练损失；

模型训练模块，用于基于所述训练损失，对所述音频降噪模型进行训练。

根据本公开的另一方面，提供了一种音频降噪装置，包括：

音频特征获得模块，用于获得待处理音频帧的音频特征；

目标图像获得模块，用于获得与所述待处理音频帧同步采集的包含发音对象唇部区域的目标图像；

特征提取模块，用于对所述音频特征进行特征提取，得到深层音频特征，并提取所述目标图像的图像特征；

音频降噪模块，用于根据所述深层音频特征以及所述图像特征反映的所述发音对象发出的音频，对所述待处理音频帧进行降噪处理。

根据本公开的另一方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述模型训练方法或音频降噪方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行上述模型训练方法或音频降噪方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现上述模型训练方法或音频降噪方法。

由以上可见，应用本公开实施例提供的方案对音频降噪模型进行训练过程中，重建音频特征和图像时，联合了带噪样本音频帧的深层特征以及样本图像的特征，这样重建出来的音频特征会受样本图像特征的影响而被改变。由于样本图像是与干净样本音频帧同步采集，带噪样本音频帧是通过在干净样本音频帧中添加噪声得到的，所以，样本图像中发音对象唇部区域能够反映发音对象发出干净样本音频帧中语音的特征，也即能够反映带噪音频帧中非噪声语音的特征，而图像的特征不会受噪声语音的影响，所以，在重建音频特征时考虑样本图像的特征，能够使得带噪样本音频帧的音频特征中与噪音相关的特征被修复。综合上述情况，应用本公开实施例提供的方案训练得到的音频降噪模型能够对音频特征进行降噪，从而也就实现了音频降噪。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是本公开实施例提供的一种模型训练方法的流程示意图；

图2是本公开实施例提供的一种模型的结构示意图；

图3是本公开实施例提供的一种样本图像获得方法的流程示意图；

图4是本公开实施例提供的一种样本音频特征获得方法的流程示意图；

图5是本公开实施例提供的第一种音频降噪方法的流程示意图；

图6是本公开实施例提供的第二种音频降噪方法的流程示意图；

图7是本公开实施例提供的第三种音频降噪方法的流程示意图；

图8是本公开实施例提供的一种模型训练装置的结构示意图；

图9是本公开实施例提供的一种音频降噪装置的结构示意图；

图10是用来实现本公开实施例的模型训练方法或音频降噪方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

音频中出现噪声时，会对用户的听觉感受带来较大影响，因此。需要对音频进行降噪处理。另外，随着人工智能技术的发展，基于神经网络模型对音频进行降噪受到了越来越多的关注。在基于神经网络模型对音频进行降噪之前，首先需要对神经网络模型进行训练，得到用于对音频进行降噪的音频降噪模型。基于此，本公开实施例提供了一种模型训练方法。

本领域技术人员能够理解的是，在对神经网络模型进行训练时，需要大量的样本数据，因此，下面先对训练音频降噪模型时使用的样本数据进行介绍。

本公开的一个实施例中，获得样本数据的过程可以包括以下第一步至第五步五个步骤。

第一步，收集发音对象在安静环境下录制的录像，该录像中存在音频和视频，这样能够有效保证音频帧和视频帧也就是图像被同步采集。例如，收集至少500个发音对象在安静环境下录制的录像，每个录像的时长为5秒左右，每个发音对象在录像中发出过共计至少200句语音，图像的分辨率为1920x1080等。

第二步，从各个录像中分离出音频，称为干净样本音频。在干净样本音频中添加一种或者多种噪声语音，得到带有噪声的样本音频，称为带噪样本音频。例如，上述噪声语音可以是来自机场、饭店、街道、车站、车内、展台、房间等场景的语音，上述噪声语音还可以是不同信噪比的语音。一种实现方式中，上述噪声语音可以从已有的Aurora2、HuCorpus等音频数据集得到。

一种实现方式中，由于双声道音频中，两个声道的音频具有相似性，所以，上述干净样本音频可以为双声道音频中一个声道的音频，也就是单声道音频。在此基础上，带噪样本音频也为单声道音频。

第三步，对带噪样本音频进行分帧处理，得到带噪样本音频帧。

例如，以窗长32毫秒，步长20毫秒，从带噪样本音频的起始位置开始进行分帧，得到多个带噪样本音频帧。如，第一个带噪样本音频帧为带噪样本音频中第0毫秒至第31毫秒，第二个带噪样本音频帧为带噪样本音频中第20毫秒至51毫秒。

另外，在对带噪样本音频帧进行分帧处理之前，还可以先对带噪样本音频进行重采样，例如，将带噪样本音频重采样至16kHz。

第四步，对干净样本音频进行分帧处理，得到干净样本音频帧。

获得干净样本音频帧的过程与获得带噪样本音频帧的过程类似，这里不再赘述。

第五步，从录像中分离出视频，并将视频转换为图像序列。使用物体检测算法检测图像序列中各图像内的嘴唇区域，得到包含嘴唇区域的样本图像。

上述物体检测算法可以是基于YOLO、SSD、RCNN等框架实现的目标检测算法。

一种实现方式中，在检测到嘴唇区域后，可以将嘴唇区域调整至预设尺寸，例如，调整至16x24，然后将调整尺寸后的嘴唇区域作为样本图像，这样得到的样本图像尺寸一致。

上述样本图像可以是RGB格式的图像，当然也可以是YUV格式的图像，本公开实施例并不对样本图像的格式进行限定。

至此得到了干净样本音频帧、带噪样本音频帧以及样本图像，由于音频中的音频帧和视频中的图像均对应有采集时间，因此，可以根据采集时间得到包含干净样本音频帧、带噪样本音频帧以及样本图像的样本数据对。后续可以基于各个样本数据对进行模型训练。

下面对本公开实施例中提及的音频降噪模型进行说明。

该音频降噪模型包括音频特征提取子网络、图像特征提取子网络和联合子网络等多个子网络，这些子网络相互配合实现音频降噪。

其中，音频特征提取子网络，用于接收音频的音频特征，对音频特征进行进一步的特征提取，得到音频的深层音频特征。

图像特征提取子网络，用于接收图像，对图像进行特征提取，得到图像的特征。

联合子网络，用于联合深层音频特征和图像的特征，重构音频特征以及图像。

下面通过具体实施例对本公开实施例提供的模型训练方法进行详细介绍。

本公开的一个实施例中，参见图1，提供了一种模型训练方法的流程示意图，参见图2，提供了一种模型的结构示意图，下面结合图1和图2对上述模型训练方法进行说明。

具体的，上述模型训练方法包括以下步骤S101-S106。

步骤S101：获得干净样本音频帧的第一样本音频特征、带噪样本音频帧的第二样本音频特征和样本图像。

其中，带噪样本音频帧通过在干净样本音频帧中添加噪声得到。具体的，可以通过不同的方式得到带噪样本音频帧，一种情况下，可以如前在干净样本音频中添加噪声得到带噪样本音频，然后对带噪样本音频进行分帧得到带噪样本音频帧。另一种情况下，可以直接对干净样本音频进行分帧得到音频帧，然后在所得音频帧中添加噪声，得到带噪样本音频帧。

从上面描述可以看出，不管采用哪种方式得到带噪样本音频帧，带噪样本音频帧和干净样本音频针对应的采集时间均是相同的。

一种实现方式中，可以采用音频特征提取算法对干净样本音频帧以及带噪样本音频帧进行特征提取，得到第一样本音频特征和第二样本音频特征。

例如，上述音频特征提取算法可以是MFCC(Mel-Frequency CepstralCoefficients，梅尔频率倒谱系数)特征提取算法、PLP(Perceptual Linear Predictive，感知线性预测)、基于Fbank(FilterBank，滤波器组)的特征提取算法等，相应的，第一样本音频特征和第二样本音频特征可以是MFCC特征、PLP特征、Fbank特征等。

获得第一样本音频特征和第二样本音频特征的其他方式，可以参见后续实施例中的描述，这里暂不详述。

样本图像根据与干净样本音频帧同步采集的包含发音对象唇部区域的图像得到。具体的，可以根据干净样本音频帧的采集时间确定用于生成样本图像的图像，然后对所确定的图像进行嘴唇区域检测等操作，从而得到样本图像，具体过程可以参见前述获得样本数据部分的描述，这里不再赘述。

另外，获得样本图像的其他方式，可以参见后续图3所示实施例，这里暂不详述。

步骤S102：将第二样本音频特征输入待训练的音频降噪模型中的音频特征提取子网络，得到带噪样本音频帧的深层音频特征。

也就是说，音频特征提取子网络的输入为第二样本音频特征，输出为深层音频特征。

本领域技术人员能够理解的是，对于一种数据而言，可以具有多种特征，一些特征可能是较为表层的，易得到的，且能够直接得到，这类特征可以称为浅层特征，而一些特征可能是较为深层的，不易得到的，一般不能直接得到，这些特征可以称为深层特征。音频帧作为众多数据中的一种数据，其特征也具有上述特点，因此，可以将带噪音频帧的特征分为浅层音频特征和深层音频特征。

鉴于上述情况，音频特征提取子网络获得第二样本音频特征后，进一步对第二样本音频特征进行特征提取，挖掘出第二样本音频特征中隐藏的特征，也就是带噪样本音频的深层音频特征。

一种实现方式中，如图2所示，音频特征提取子网络中可以依次包括第一卷积层、池化层和第二卷积层。这样将第二样本音频特征输入音频特征提取子网络后，先由第一卷积层对第二样本音频特征进行卷积变换，得到第一卷积结果，然后将第一卷积结果输入池化层，由池化层对第一卷积结果进行池化处理，得到池化结果，再将池化结果输入第二卷积层，由第二卷积层对池化结果进行卷积变换，得到第二卷积结果，将第二卷积结果作为带噪样本音频帧的深层音频特征。

步骤S103：将样本图像输入音频降噪模型中的图像特征提取子网络，得到样本图像特征。

也就是说，图像特征提取子网络的输入为样本图像，输出为样本图像特征。

一种实现方式中，如图2所示，图像特征提取子网络中可以依次包括第三卷积层、第四卷积层和第五卷积层。这样将样本图像输入图像特征提取子网络后，先由第三卷积层对样本图像进行卷积变换，得到第三卷积结果，然后将第三卷积结果输入第四卷积层，由第四卷积层对第三卷积结果进行卷积变换，得到第四卷积结果，再将第四卷积结果输入第五卷积层，由第五卷积层对第四卷积结果进行卷积变换，得到第五卷积结果，将第五卷积结果作为样本图像特征。

由于卷积变换对图像中目标在一定程度上的位移、尺度缩放和旋转等不敏感，因此，基于卷积层构造图像特征提取子网络后，即便样本图像中发音对象的唇部区域存在位移、尺度缩放、旋转等情况，也依然能够准确的提取样本图像的特征。

步骤S104：将深层音频特征和样本图像特征输入音频降噪模型中的联合子网络，以使得联合子网络联合深层音频特征和样本图像特征重建音频特征和图像。

也就是说，联合子网络的输入为深层音频特征和样本图像特征，输出为重建的音频特征和图像，且联合子网络在重建音频特征和图像时并不是单纯考虑了深层音频特征和样本图像特征中的一个，而是将联合深层音频特征和样本图像特征，也就是考虑这两种特征。

具体的，联合子网络重建音频特征和图像时，可以对深层音频特征和样本图像特征进行特征拼接，得到拼接特征，然后基于拼接特征重建音频特征和图像。这样能够有效保证用于进行构建音频特征和图像的特征中既包含深层音频特征，又包含样本图像特征。

一种实现方式中，如图2所示，联合子网络中可以依次包括：特征融合层、第一全连接层、第二全连接层、音频特征重建层和图像重建层。这样将深层音频特征和样本图像特征输入联合子网络后，先由特征融合层对深层音频特征和样本图像特征进行特征融合，例如，将深层音频特征和样本图像特征拼接在一起，得到融合特征，然后将融合特征输入第一全连接层，由第一全连接层对融合特征进行非线性变换，得到第一变换结果，再将第一变换结果输入第二全连接层，由第二全连接层对第一变换结果进行非线性变换，得到第二变换结果，接下来将第二变换结果分别输入音频特征重建层和图像重建层，音频特征重建层基于第二变换结果重建音频特征，图像重建层基于第二变换特征重建图像。这样联合子网络中可以通过音频特征重建层和图像重建层两个支路进行多模态学习，从而重建出音频特征和图像。

具体的，上述音频特征重建层和图像重建层可以基于全连接变换实现。

由于样本图像中存在发音对象唇部区域，而发音对象唇部区域的特征又能够反映发音对象所发出的语音的特征，在样本图像与干净音频帧的采集时间具有同步关系的情况下，也就是，样本图像与带噪音频帧的采集时间具有同步关系的情况下，可以认为样本图像能够反映带噪音频帧中未受语音噪声污染情况下语音的特征。另外，又考虑到图像不会受噪声语音的影响，所以，可以基于样本图像所反映的发音对象发出的语音的特征修复带噪音频帧中的噪音。在此基础上，由于联合子网络在重建音频特征时考虑了深层音频特征以及样本图像特征，所以，重建出来的音频特征为基于样本图像的特征进行去噪后的音频特征。

另外，由于音频帧与音频特征存在时频域转换关系，所以，在重建出降噪后的音频特征后，进行从频域到时域的变换即可得到降噪后的音频帧，也就是对带噪音频帧进行降噪处理后的音频帧。

步骤S105：基于重建的音频特征与第一样本音频特征间的差异、以及重建的图像与样本图像间的差异，获得音频降噪模型的训练损失。

由于第一样本音频特征是干净样本音频帧的特征，带噪样本音频帧又是基于干净样本音频帧得到的，所以，在对音频帧进行降噪处理时，重建出来的音频特征与干净音频帧的特征越接近说明降噪处理的效果越好，也就是，期望重建的音频特征与第一样本音频特征越接近越好。与此类似，期望重建出来的图像与样本图像越接近说明针对图像的重建效果也就越好。在此基础上，本公开实施例中基于重建的音频特征与第一样本音频特征间的差异、以及重建的图像与样本图像间的差异，进行训练损失计算，从而为模型训练过程中参数调整提供依据。

一种实现方式中，可以通过以下公式获得音频降噪模型的训练损失：

其中，θ为音频降噪模型的模型参数，K为样本数据对的数量，当然也认为是样本图像的数量，Y_i为重建的音频特征，为第一样本音频特征，μ为加权系数，其取值一般小于1，例如，可以为0.3，Z_i为重建的图像，/>为样本图像。

步骤S106：基于训练损失，对音频降噪模型进行训练。

一种实现方式中，可以基于训练损失，根据梯度下降法，调整音频降噪模型的模型参数。另外，在模型训练过程中，可以基于上述各个步骤反复迭代，对音频降噪模型进行训练，直至音频建造模型满足预设的收敛条件，或者达到预设的训练次数等。

具体的，上述梯度下降法可以是批次梯度下降法、随机梯度下降法和迷你批次梯度下降法等。

由以上可见，应用本公开实施例提供的方案对音频降噪模型进行训练过程中，重建音频特征和图像时，联合了带噪样本音频帧的深层特征以及样本图像的特征，这样重建出来的音频特征会受样本图像特征的影响而被改变。由于样本图像是与干净样本音频帧同步采集，带噪样本音频帧是通过在干净样本音频帧中添加噪声得到的，所以，样本图像中发音对象唇部区域能够反映发音对象发出干净样本音频帧中语音的特征，也即能够反映带噪音频帧中非噪声语音的特征，而图像的特征不会受噪声语音的影响，所以，在重建音频特征时考虑样本图像的特征，能够使得带噪样本音频帧的音频特征中与噪音相关的特征被修复。综合上述情况，应用本公开实施例提供的方案训练得到的音频降噪模型不仅能够对音频特征进行降噪，实现音频降噪，还能够有效降低音频中的噪声，提高所得音频的质量。

需要说明的是，本公开实施例仅仅以图2为例对音频降噪模型的结构进行说明，并不对音频降噪模型的具体结构进行限定。。

另外，应用本公开实施例提供的方案训练得到的音频降噪模型是用于对音频进行降噪处理的，所以，在完成模型训练后，应用训练后的音频降噪模型进行模型推理实现音频降噪时，输出重建的音频特征即可，而不需要重建的图像，所以，与重建图像相关的步骤仅仅在模型训练过程中有存在的意义，而在模型推理过程中，可以取消这些步骤，进而节省计算量。

下面通过不同的实施例对前述步骤S101中提及的样本图像以及第二样本音频特征的获得方式分别进行说明。

本公开的一个实施例中，参见图3，提供了一种样本图像获得方法的流程示意图，该方法包括以下步骤S301-S304。

步骤S301：获得干净样本音频帧的第一采集时刻。

一种实现方式中，音频中包含时间戳信息，因此，可以基于干净样本音频中包含的时间戳信息以及干净样本音频帧在干净样本音频中的位置，确定干净样本音频帧的第一采集时刻。

另一种实现方式中，因为从干净样本音频中切分出干净样本音频帧时，可以基于音频帧长度以及偏移量切分音频帧，所以，在切分过程中，可以记录切分出的各个干净样本音频帧在干净样本音频中的起始时刻，作为第一采集时刻。

步骤S302：确定在第一采集时刻采集的包含发音对象唇部区域的第一图像。

本领域技术人员能够理解的是，为了保证音视频播放的时候同步，不仅音频中包含时间戳信息，视频中也包含时间戳信息。在此基础上，获得上述第一采集时刻后，一种实现方式中，可以基于第一采集时刻和视频中包含的时间戳信息，确定在第一采集时刻采集的、且包含发音对象唇部区域的第一图像。

具体的，由于采集一张图像需要一定的时间，所以，在第一采集时刻采集的第一图像，可以是起始采集时刻为第一采集时刻的图像，可以是终止采集时刻包括第一采集时刻的图像，还可以是采集时间段中包括第一采集时刻的图像等。

另一种实现方式中，可以先获得视频中在第一采集时刻采集的图像，然后对所获得的图像进行唇部区域识别，将识别到的区域作为第一图像。当然，在识别到唇部区域后，还可以对识别到的唇部区域进行区域大小调整，将调整大小后的区域作为第一图像。

步骤S303：确定在第一图像之前和/或之后相邻采集的预设数量张第二图像。

由于一张图像只能记录发音对象唇部区域在某一时刻的动作，而发音对象在发出一些语音时，可能需要唇部连续的不同动作才能完成，基于此，本实施例中，在获得样本图像时，不仅考虑了第一采样时刻采集的第一图像，还考虑了在第一图像之前相邻采集的图像，和/或，在第一图像之后相邻采集的图像，这样可以通过相邻采集的不同图像得到发音对象的唇部在短时间内的动作。

具体的，第二图像中可以仅包含在第一图像之前相邻采集的图像，还可以仅包含在第一图像之后相邻采集的图像，当然，也可以既包含在第一图像之前相邻采集的图像，又包含在第一图像之后相邻采集的图像。

另外，第二图像中包含的在第一图像之前相邻采集的图像的数量，与在第一图像之后相邻采集的图像的数量可以相等，也可以不相等。

例如，上述预设数量可以是4，这种情况下，第二图像中可以包括2张在第一图像之前相邻采集的图像，包括2张在第一图像之后相邻采集的图像。

由于视频中相邻视频帧之间具有空间相关性，又由于第一图像中包括发音对象的唇部区域，从空间相关性的角度出发，在第一图像之前相邻采集的第二图像，以及在第一图像之后相邻采集的第二图像中也可能会包含发音对象的唇部区域。

一种实现方式中，可以先获得视频中在第一图像对应的视频帧之前和/或之后采集的预设数量个视频帧，然后对所获得的视频帧进行唇部区域识别，将识别到的区域作为第二图像。当然，在识别到唇部区域后，还可以对识别到的唇部区域进行区域大小调整，将调整大小后的区域作为第二图像。

步骤S304：依据第一图像和各第二图像，获得样本图像。

具体的，可以通过不同的方式获得样本图像，下面分别进行介绍。

一种实现方式中，可以直接将第一图像和第二图像作为样本图像。样本图像中的这些图像可以按照采集时刻排列，以有序的图像序列呈现。

另一种实现方式中，可以识别第一图像和第二图像中发音对象的唇部区域，然后将识别到区域作为样本图像。除此之外，在识别到唇部区域之后，还可以对识别到的区域进行大小调整，将识别到的区域调整至预设大小，然后将调整大小后的区域作为样本图像。

再一种实现方式中，可以计算第一图像和各第二图像中各像素点像素值的第一平均值及第一方差，然后依据第一平均值和第一方差，对第一图像进行规整处理，得到第一图像对应的规整图像，并获得各第二图像对应的规整图像，得到包含第一图像对应的规整图像以及各第二图像对应的规整图像的样本图像。

受图像采集设备的硬件性能、环境因素等影响，图像中可能会存在像素值过高或者过低的奇异值，为使得样本图像中的数据更加规整，提高后续特征提取过程的准确度，本实现方式中，对图像进行规整处理，使得图像中各像素点的像素值被规整到一定的范围内。

具体的，依据第一平均值和第一方差对第一图像进行规整处理时，可以将第一图像中每一像素点的像素值减掉第一平均值，得到差值，然后再计算上述差值与第一方差之间的比值，作为规整处理的结果。

一些情况下，可以将对图像进行规整处理理解为对图像中像素点的像素值进行归一化处理。

另外，对第二图像进行规整处理的方式与对第一图像进行规整处理的方式相同，区别仅在于所使用的图像为在第二图像之前和/或之后相邻采集的图像，而不是在第一图像之前和/或之后相邻采集的图像。

鉴于上述情况，该实现方式提供的方案中，样本图像依然包含多张图像，但是各个图像不再是第一图像和第二图像原本的图像，而是对第一图像和第二图像进行规整正处理后的图像。当然这些图像也可以按照所对应的采集时刻排列形成图像序列呈现。

由于本实现方式提供的方案中，基于上述第一平均值以及第一方差对第一图像进行规整处理，因此，能够有效结合自身图像以及相邻图像的特点去掉第一图像中的奇异值，使得参与模型训练的样本图像更加规整，有利于提高模型训练的效果。

综合以上，本实施例提供的方案中在获得样本图像时，不仅基于第一采集时刻对应的第一图像获得样本图像，还基于第一图像之前或者之后的第二图像获得样本图像，这样使得样本图像中发音对象的唇部区域的信息更加丰富，这些信息对于表征发音对象发出语音时做出动作的表征性更加准确，从而使得模型在训练过程中能够更加准确的依据样本图像的特征获知发音对象所发出的语音，从而能够提高音频降噪模型对音频进行降噪处理的准确性。

本公开的一个实施例中，参见图4，提供了一种获得样本音频特征的方法的流程示意图，该方法包括以下步骤S401-S404。

步骤S401：提取带噪样本音频帧的音频特征，作为第一初始特征。

步骤S402：获得带噪样本音频帧的相邻音频帧的音频特征，作为第一辅助特征。

上述第一初始特征和第一辅助特征的获得方式可以参见前述步骤S101处的相关描述，这里不再赘述。

上述相邻音频帧可以理解为：带噪样本音频中在带噪样本音频帧之前和/或之后相邻采集的音频帧。相邻音频帧的数量可以由开发人员根据实际需求设定。例如，相邻音频帧包括带噪样本音频帧之前的2个音频帧，和带噪样本音频帧之后的2个音频帧等。

步骤S403：计算第一初始特征和第一辅助特征的第二平均值和第二方差。

步骤S404：依据第二平均值和第二方差，对第一初始特征进行规整处理，得到第二样本音频特征。

一种实现方式中，依据第二平均值和第二方差对第一初始特征进行规整处理时，可以将第一初始特征中每一特征值减掉第二平均值，得到差值，然后再计算上述差值与第二方差之间的比值，作为第二样本音频特征。

综合以上，本实施例提供的方案中在获得第二样本音频特征时，不是直接获得带噪样本音频帧的特征后，即作为第二样本音频特征，而是考虑了带噪样本音频帧之前或者之后的相邻音频帧，并基于这些相邻音频帧的特征对带噪样本音频帧的特征进行规整处理，使得带噪样本音频帧的特征中的奇异值得以弱化，参与模型训练的特征更加规整。另外，由于相邻音频帧之间存在时间相关性，所以，在对特征中的奇异值进行弱化时，并不是毫无顾忌的强制弱化，而是基于时间相关性进行关联弱化。这样综合来看基于规整处理后得到的特征作为第二样本音频特征，并参与模型训练，能够提高训练所得模型的准确性。

与上述模型训练方法基于相同的发明构思，本公开实施例还提供了一种音频降噪方法。

本公开的一个实施例中，参见图5，提供了第一种音频降噪方法的流程示意图，该方法包括以下步骤S501-S505。

步骤S501：获得待处理音频帧的音频特征。

在确定待处理音频帧后，可以基于前述步骤S101处提及的针对音频帧的特征提取方式获得待处理音频帧的音频特征，这里不再详述。

步骤S502：获得与待处理音频帧同步采集的包含发音对象唇部区域的目标图像。

获得目标图像的方式类似于前述实施例中提及的获得样本图像的方式，区别仅在于目标图像与待处理音频帧相对应，而样本图像与带噪样本音频帧相对应，因此，这里不再详述。

步骤S503：对音频特征进行特征提取，得到深层音频特征。

步骤S504：提取目标图像的图像特征。

具体的，提取目标图像的图像特征时，可以通过前述音频降噪模型中的图像特征提取子网络实现，当然，也可以基于现有技术中的边缘提取算子等实现，本公开实施例并不对此进行限定。

步骤S505：根据深层音频特征以及图像特征反映的发音对象发出的音频，对待处理音频帧进行降噪处理。

可以通过不同的方式对待处理音频帧进行降噪处理，下面分别介绍。

一种实现方式中，可以根据图像特征，预测发音对象发出的音频；根据深层音频特征，确定待处理音频帧中的噪声位置；基于预测到的音频和噪声位置，对待处理音频帧进行降噪处理。

具体的，可以预先训练音频预测模型，这样在得到上述图像特征后，将图像特征输入音频预测模型，得到音频预测模型输出的音频。

在根据深层音频特征确定待处理音频帧中的噪声位置时，可以将深层音频特征与预先获得的噪声特征进行匹配。然后根据匹配结果，确定待处理音频帧中的噪声位置。具体的，可以采用滑动窗的方式，对深层音频特征与噪声特征进行匹配，例如，从深层音频特征的起始位置开始，将滑动窗内的特征与噪声特征进行匹配，然后，移动滑动窗，再次将滑动窗内的特征与噪声特征匹配，如此循环，直至滑动窗滑动至深层音频特征的结束位置，从而确定出待处理音频帧中的所有噪声位置。

基于预测到的音频和噪声位置对待处理音频帧进行降噪处理时，一种情况下，可以将预测到的音频直接替换待处理音频帧中噪声位置处的音频段；另一种情况下，可以将预测到的音频与待处理音频帧中噪声位置处的音频段进行融合，从而得到降噪后的音频帧。

鉴于上述情况，应用本实现方式提供的方案，能够进一步提高对音频进行降噪处理的准确度。

另一种实现方式中，可以对深层音频特征和样本图像特征进行特征拼接，得到拼接特征；基于拼接特征重建音频特征；获得重建音频特征对应的音频帧，作为对待处理音频帧进行降噪处理的结果。这样能够有效保证用于进行构建音频特征和图像的特征中既包含深层音频特征，又包含样本图像特征。

具体的，基于拼接特征重建音频特征时，可以基于前述实施例中音频降噪模型中的联合子网络实现。

另外，在获得重建音频特征后，可以对重建所得的音频特征进行频域到时域的变换，并将变换结果作为音频帧，也就是对待处理音频帧进行降噪处理得到的降噪后音频帧。

由以上可见，应用本公开实施例提供的方案对音频进行降噪处理时，不仅考虑了待处理音频帧的深层特征，还考虑了与待处理音频帧同步采集、且包含发音对象唇部区域的目标图像的特征，由于目标图像中发音对象唇部区域能够反映发音对象所发出语音的特征，也即能够反映待处理频帧中非噪声语音的特征，而图像的特征不会受噪声语音的影响，所以，在进行音频降噪时考虑目标图像的特征，能够使得待处理音频帧中与噪音相关的特征被修复。综合上述情况，应用本公开实施例提供的方案不仅能够实现音频降噪，还能够提高音频降噪的效果。

本公开的一个实施例，上述音频降噪方法可以基于前述实施例中训练得到的音频降噪模型实现，下面结合图2进行详细描述。

首先，基于前述步骤S501和S502获得待处理音频帧的音频特征和目标图像。

然后，将上述音频特征输入音频降噪模型中音频特征提取子网络，得到音频特征提取子网络输出的深层音频特征，此处对应于前述步骤S503；

并将上述目标图像输入音频降噪模型图像特征提取子网络，得到图像特征提取子网络输出的图像特征，此处对应于前述步骤S504。

接下来，由联合子网络对深层音频特征和图像特征进行联合，重建音频特征，然后对重建所得音频特征进行频域到时域的变换，得到降噪后的待处理音频特征，此处对应于前述不收S505。

由于目标图像和音频特征存在多种不同的实现方式，下面基于不同的目标图像获得方式以及音频特征获得方式，对音频降噪方法进行详细说明。

本公开的一个实施例中，参见图6，提供了第二种音频降噪方法的流程示意图，该方法包括以下步骤S601-S608。

步骤S601：获得待处理音频帧的音频特征。

该步骤与上述步骤S501相同，这里不再详述。

步骤S602：获得待处理音频帧的第二采集时刻。

步骤S603：确定在第二采集时刻采集的包含发音对象唇部区域的第三图像。

步骤S604：确定在第三图像之前和/或之后相邻采集的预设数量张第四图像。

步骤S605：依据第三图像和各第四图像，获得目标图像。

上述步骤S602-S605分别与前述步骤S301-S304相类似，区别仅在于音频帧、图像以及采集时刻的名称不同，因此，这里不再详述。

步骤S606：对音频特征进行特征提取，得到深层音频特征。

步骤S607：提取目标图像的图像特征。

步骤S608：根据深层音频特征以及图像特征反映的发音对象发出的音频，对待处理音频帧进行降噪处理。

上述步骤S606-S608分别与前述步骤S503-S505相同，这里不再赘述。

由以上可见，本实施例提供的方案中在获得目标图像时，不仅基于第二采集时刻对应的第三图像获得目标图像，还基于第三图像之前或者之后的第四图像获得目标图像，这样使得目标图像中发音对象的唇部区域的信息更加丰富，这些信息对于表征发音对象发出语音时做出动作的表征性更加准确，从而使得音频降噪过程中能够更加准确的依据目标图像的特征获知发音对象所发出的语音，从而能够提高对音频进行降噪处理的准确性。

本公开的一个实施例中，上述步骤S605中依据第三图像和各第四图像，获得目标图像时，可以计算第三图像和各第四图像中各像素点像素值的第三平均值及第三方差，然后依据第三平均值和第三方差，对第三图像进行规整处理，得到第三图像对应的规整图像，并获得各第四图像对应的规整图像，得到包含第三图像对应的规整图像以及各第四图像对应的规整图像的目标图像。

由于本实施例提供的方案中，基于上述第三平均值以及第三方差对第三图像进行规整处理，因此，能够有效结合自身图像以及相邻图像的特点去掉第三图像中的奇异值，使得参与音频降噪的目标图像更加规整，有利于音频降噪的效果。

本公开的一个实施例中，参见图7，提供了第三种音频降噪方法的流程示意图，该方法包括以下步骤S701-S708。

步骤S701：提取待处理音频帧的音频特征，作为第二初始特征。

步骤S702：获得待处理音频帧的相邻音频帧的音频特征，作为第二辅助特征。

步骤S703：计算第二初始特征和第二辅助特征的第四平均值和第四方差。

步骤S704：依据第四平均值和第四方差，对第二初始特征进行规整处理，得到待处理音频帧的音频特征。

上述步骤S701-S704分别与前述步骤S401-S404相类似，区别仅在于音频帧、特征、均值以及方差的名称不同，因此，这里不再详述。

步骤S705：获得与待处理音频帧同步采集的包含发音对象唇部区域的目标图像。

步骤S706：对音频特征进行特征提取，得到深层音频特征。

步骤S707：提取目标图像的图像特征。

步骤S708：根据深层音频特征以及图像特征反映的发音对象发出的音频，对待处理音频帧进行降噪处理。

上述步骤S705-S708分别与前述步骤S502-S505相同，这里不再赘述。

由以上可见，本实施例提供的方案中在获得待处理音频帧的音频特征时，不是直接获得待处理音频帧的特征后即可，而是考虑了待处理音频帧之前或者之后的相邻音频帧，并基于这些相邻音频帧的特征对待处理音频帧的特征进行规整处理，使得待处理音频帧的特征中的奇异值得以弱化，参与音频降噪的特征更加规整。另外，由于相邻音频帧之间存在时间相关性，所以，在对特征中的奇异值进行弱化时，并不是毫无顾忌的强制弱化，而是基于时间相关性进行关联弱化。这样综合来看基于规整处理后得到的特征作为待处理音频帧的音频特征，并参与音频降噪，能够提高音频降噪的准确性。

与上述模型训练方法相对应，本公开实施例还提供了一种模型训练装置。

本公开的一个实施例中，参见图8，提供了一种模型训练装置的结构示意图，该装置包括：

信息获得模块801，用于获得干净样本音频帧的第一样本音频特征、带噪样本音频帧的第二样本音频特征和样本图像，其中，带噪样本音频帧通过在干净样本音频帧中添加噪声得到，样本图像根据与干净样本音频帧同步采集的包含发音对象唇部区域的图像得到；

特征获得模块802，用于将第二样本音频特征输入待训练的音频降噪模型中的音频特征提取子网络，得到带噪样本音频帧深层音频特征，并将样本图像输入音频降噪模型中的图像特征提取子网络，得到样本图像特征；

信息重建模块803，用于将深层音频特征和样本图像特征输入音频降噪模型中的联合子网络，以使得联合子网络联合深层音频特征和样本图像特征重建音频特征和图像；

损失获得模块804，用于基于重建的音频特征与第一样本音频特征间的差异、以及重建的图像与样本图像间的差异，获得音频降噪模型的训练损失；

模型训练模块805，用于基于训练损失，对音频降噪模型进行训练。

本公开的一个实施例中，信息重建模块803具体用于：

对深层音频特征和样本图像特征进行特征拼接，得到拼接特征；基于拼接特征重建音频特征和图像。这样能够有效保证用于进行构建音频特征和图像的特征中既包含深层音频特征，又包含样本图像特征。

本公开的一个实施例中，所述信息获得模块801包括图像获得子模块；

图像获得子模块，用于获得样本图像，包括：

第一时刻获得单元，用于获得干净样本音频帧的第一采集时刻；

第一图像确定单元，用于确定在第一采集时刻采集的包含发音对象唇部区域的第一图像；

第二图像确定单元，用于确定在第一图像之前和/或之后相邻采集的预设数量张第二图像；

样本图像获得单元，用于依据第一图像和各第二图像，获得样本图像。

由以上可见，本实施例提供的方案中在获得样本图像时，不仅基于第一采集时刻对应的第一图像获得样本图像，还基于第一图像之前或者之后的第二图像获得样本图像，这样使得样本图像中发音对象的唇部区域的信息更加丰富，这些信息对于表征发音对象发出语音时做出动作的表征性更加准确，从而使得模型在训练过程中能够更加准确的依据样本图像的特征获知发音对象所发出的语音，从而能够提高音频降噪模型对音频进行降噪处理的准确性。

本公开的一个实施例中，所述样本图像获得单元，具体用于计算第一图像和各第二图像中各像素点像素值的第一平均值及第一方差；依据第一平均值和第一方差，对第一图像进行规整处理，得到第一图像对应的规整图像；获得各第二图像对应的规整图像，得到包含第一图像对应的规整图像以及各第二图像对应的规整图像的样本图像。

由于本实施例提供的方案中，基于上述第一平均值以及第一方差对第一图像进行规整处理，因此，能够有效结合自身图像以及相邻图像的特点去掉第一图像中的奇异值，使得参与模型训练的样本图像更加规整，有利于提高模型训练的效果。

本公开的一个实施例中，按照以下方式获得第二样本音频特征：

提取带噪样本音频帧的音频特征，作为第一初始特征；

获得带噪样本音频帧的相邻音频帧的音频特征，作为第一辅助特征；

计算第一初始特征和第一辅助特征的第二平均值和第二方差；

依据第二平均值和第二方差，对第一初始特征进行规整处理，得到第二样本音频特征。

由以上可见，本实施例提供的方案中在获得第二样本音频特征时，不是直接获得带噪样本音频帧的特征后，即作为第二样本音频特征，而是考虑了带噪样本音频帧之前或者之后的相邻音频帧，并基于这些相邻音频帧的特征对带噪样本音频帧的特征进行规整处理，使得带噪样本音频帧的特征中的奇异值得以弱化，参与模型训练的特征更加规整。另外，由于相邻音频帧之间存在时间相关性，所以，在对特征中的奇异值进行弱化时，并不是毫无顾忌的强制弱化，而是基于时间相关性进行关联弱化。这样综合来看基于规整处理后得到的特征作为第二样本音频特征，并参与模型训练，能够提高训练所得模型的准确性。

与上述音频降噪方法相对应，本公开实施例还提供了一种音频降噪装置。

本公开的一个实施例中，参见图9，提供了一种音频降噪装置的结构示意图，该装置包括：

音频特征获得模块901，用于获得待处理音频帧的音频特征；

目标图像获得模块902，用于获得与待处理音频帧同步采集的包含发音对象唇部区域的目标图像；

特征提取模块903，用于对音频特征进行特征提取，得到深层音频特征，并提取目标图像的图像特征；

音频降噪模块904，用于根据深层音频特征以及图像特征反映的发音对象发出的音频，对待处理音频帧进行降噪处理。

本公开的一个实施例中，音频降噪模块904，具体用于根据图像特征，预测发音对象发出的音频；根据深层音频特征，确定待处理音频帧中的噪声位置；基于预测到的音频和噪声位置，对待处理音频帧进行降噪处理。应用本实施例提供的方案，能够进一步提高对音频进行降噪处理的准确度。

本公开的一个实施例中，音频降噪模块904，具体用于对深层音频特征和图像特征进行特征拼接，得到拼接特征；基于拼接特征重建音频特征；获得重建音频特征对应的音频帧，作为对待处理音频帧进行降噪处理的结果。这样能够有效保证用于进行构建音频特征和图像的特征中既包含深层音频特征，又包含样本图像特征。

本公开的一个实施例中，目标图像获得模块902，包括：

第二时刻获得单元，用于获得所述待处理音频帧的第二采集时刻；

第三图像确定单元，用于确定在第二采集时刻采集的包含发音对象唇部区域的第三图像；

第四图像确定单元，用于确定在第三图像之前和/或之后相邻采集的预设数量张第四图像；

目标图像获得单元，用于依据第三图像和各第四图像，获得目标图像。

本公开的一个实施例中，目标图像获得单元，具体用于计算第三图像和各第四图像中各像素点像素值的第三平均值及第三方差；依据第三平均值和第三方差，对第三图像进行规整处理，得到第三图像对应的规整图像；获得各第四图像对应的规整图像，得到包含第三图像对应的规整图像以及各第四图像对应的规整图像的目标图像。

本公开的一个实施例中，音频特征获得模块901，具体用于：

提取待处理音频帧的音频特征，作为第二初始特征；获得待处理音频帧的相邻音频帧的音频特征，作为第二辅助特征；计算第二初始特征和第二辅助特征的第四平均值和第四方差；依据第四平均值和第四方差，对第二初始特征进行规整处理，得到待处理音频帧的音频特征。

由以上可见，本实施例提供的方案中在获得待处理音频帧的音频特征时，不是直接获得待处理音频帧的特征后即可，而是考虑了待处理音频帧之前或者之后的相邻音频帧，并基于这些相邻音频帧的特征对待处理音频帧的特征进行规整处理，使得待处理音频帧的特征中的奇异值得以弱化，参与音频降噪的特征更加规整。另外，由于相邻音频帧之间存在时间相关性，所以，在对特征中的奇异值进行弱化时，并不是毫无顾忌的强制弱化，而是基于时间相关性进行关联弱化。这样综合来看基于规整处理后得到的特征作为待处理音频帧的音频特征，并参与音频降噪，能够提高音频降噪的准确性。。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

本公开的一个实施例中，提供了一种电子设备，包括：

至少一个处理器；以及

与至少一个处理器通信连接的存储器；其中，

存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行上述方法实施例中的模型训练方法或者音频降噪方法。

本公开的一个实施例中，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，计算机指令用于使计算机执行上述方法实施例中的模型训练方法或者音频降噪方法。

本公开的一个实施例中，提供了一种计算机程序产品，包括计算机程序，计算机程序在被处理器执行时实现上述方法实施例中的模型训练方法或者音频降噪方法。

图10示出了可以用来实施本公开的实施例的示例电子设备1000的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图10所示，设备1000包括计算单元1001，其可以根据存储在只读存储器(ROM)1002中的计算机程序或者从存储单元1008加载到随机访问存储器(RAM)1003中的计算机程序，来执行各种适当的动作和处理。在RAM 1003中，还可存储设备1000操作所需的各种程序和数据。计算单元1001、ROM 1002以及RAM 1003通过总线1004彼此相连。输入/输出(I/O)接口1005也连接至总线1004。

设备1000中的多个部件连接至I/O接口1005，包括：输入单元1006，例如键盘、鼠标等；输出单元1007，例如各种类型的显示器、扬声器等；存储单元1008，例如磁盘、光盘等；以及通信单元1009，例如网卡、调制解调器、无线通信收发机等。通信单元1009允许设备1000通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元1001可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1001的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1001执行上文所描述的各个方法和处理，例如一种模型训练或者音频降噪方法。例如，在一些实施例中，一种模型训练或者音频降噪方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1008。在一些实施例中，计算机程序的部分或者全部可以经由ROM 1002和/或通信单元1009而被载入和/或安装到设备1000上。当计算机程序加载到RAM 1003并由计算单元1001执行时，可以执行上文描述的一种模型训练或者音频降噪方法的一个或多个步骤。备选地，在其他实施例中，计算单元1001可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行一种模型训练或者音频降噪方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种模型训练方法，包括：

基于所述训练损失，对所述音频降噪模型进行训练；

按照以下方式获得所述第二样本音频特征：

提取带噪样本音频帧的音频特征，作为第一初始特征；

获得所述带噪样本音频帧的相邻音频帧的音频特征，作为第一辅助特征；

计算所述第一初始特征和所述第一辅助特征的第二平均值和第二方差；

依据所述第二平均值和第二方差，对所述第一初始特征进行规整处理，得到第二样本音频特征。

2.根据权利要求1所述的方法，其中，所述联合子网络按照以下方式重建音频特征和图像：

对所述深层音频特征和所述样本图像特征进行特征拼接，得到拼接特征；

基于所述拼接特征重建音频特征和图像。

3.根据权利要求1或2所述的方法，其中，通过以下方式获得所述样本图像：

获得所述干净样本音频帧的第一采集时刻；

确定在所述第一采集时刻采集的包含发音对象唇部区域的第一图像；

确定在所述第一图像之前和/或之后相邻采集的预设数量张第二图像；

依据所述第一图像和各第二图像，获得所述样本图像。

4.根据权利要求3所述的方法，其中，所述依据所述第一图像和各第二图像，获得所述样本图像，包括：

计算所述第一图像和各第二图像中各像素点像素值的第一平均值及第一方差；

依据所述第一平均值和第一方差，对所述第一图像进行规整处理，得到所述第一图像对应的规整图像；

获得各第二图像对应的规整图像，得到包含所述第一图像对应的规整图像以及各第二图像对应的规整图像的所述样本图像。

5.一种音频降噪方法，包括：

根据所述深层音频特征以及所述图像特征反映的所述发音对象发出的音频，对所述待处理音频帧进行降噪处理；

所述获得待处理音频帧的音频特征，包括：

提取待处理音频帧的音频特征，作为第二初始特征；

获得所述待处理音频帧的相邻音频帧的音频特征，作为第二辅助特征；

计算所述第二初始特征和所述第二辅助特征的第四平均值和第四方差；

依据所述第四平均值和第四方差，对所述第二初始特征进行规整处理，得到所述待处理音频帧的音频特征。

6.根据权利要求5所述的方法，其中，所述根据所述深层音频特征以及所述图像特征反映的所述发音对象发出的音频，对所述待处理音频帧进行降噪处理，包括：

根据所述图像特征，预测所述发音对象发出的音频；

根据所述深层音频特征，确定所述待处理音频帧中的噪声位置；

基于预测到的音频和所述噪声位置，对所述待处理音频帧进行降噪处理。

7.根据权利要求5所述的方法，其中，所述根据所述深层音频特征以及所述图像特征反映的所述发音对象发出的音频，对所述待处理音频帧进行降噪处理，包括：

对所述深层音频特征和所述图像特征进行特征拼接，得到拼接特征；

基于所述拼接特征重建音频特征；

获得所述重建音频特征对应的音频帧，作为对所述待处理音频帧进行降噪处理的结果。

8.根据权利要求5-7中任一项所述的方法，其中，所述获得与所述待处理音频帧同步采集的包含发音对象唇部区域的目标图像，包括：

获得所述待处理音频帧的第二采集时刻；

确定在所述第二采集时刻采集的包含发音对象唇部区域的第三图像；

确定在所述第三图像之前和/或之后相邻采集的预设数量张第四图像；

依据所述第三图像和各第四图像，获得目标图像。

9.根据权利要求8所述的方法，其中，所述依据所述第三图像和各第四图像，获得目标图像，包括：

计算所述第三图像和各第四图像中各像素点像素值的第三平均值及第三方差；

依据所述第三平均值和第三方差，对所述第三图像进行规整处理，得到所述第三图像对应的规整图像；

获得各第四图像对应的规整图像，得到包含所述第三图像对应的规整图像以及各第四图像对应的规整图像的目标图像。

10.一种模型训练装置，包括：

模型训练模块，用于基于所述训练损失，对所述音频降噪模型进行训练；

按照以下方式获得所述第二样本音频特征：

提取带噪样本音频帧的音频特征，作为第一初始特征；

11.根据权利要求10所述的装置，其中，所述联合子网络按照以下方式重建音频特征和图像：

基于所述拼接特征重建音频特征和图像。

12.根据权利要求10或11所述的装置，其中，所述信息获得模块包括图像获得子模块；

所述图像获得子模块，用于获得所述样本图像，包括：

第一时刻获得单元，用于获得所述干净样本音频帧的第一采集时刻；

第一图像确定单元，用于确定在所述第一采集时刻采集的包含发音对象唇部区域的第一图像；

第二图像确定单元，用于确定在所述第一图像之前和/或之后相邻采集的预设数量张第二图像；

样本图像获得单元，用于依据所述第一图像和各第二图像，获得所述样本图像。

13.根据权利要求12所述的装置，其中，

所述样本图像获得单元，具体用于计算所述第一图像和各第二图像中各像素点像素值的第一平均值及第一方差；依据所述第一平均值和第一方差，对所述第一图像进行规整处理，得到所述第一图像对应的规整图像；获得各第二图像对应的规整图像，得到包含所述第一图像对应的规整图像以及各第二图像对应的规整图像的所述样本图像。

14.一种音频降噪装置，包括：

音频特征获得模块，用于获得待处理音频帧的音频特征；

音频降噪模块，用于根据所述深层音频特征以及所述图像特征反映的所述发音对象发出的音频，对所述待处理音频帧进行降噪处理；

所述音频特征获得模块，具体用于：提取待处理音频帧的音频特征，作为第二初始特征；获得所述待处理音频帧的相邻音频帧的音频特征，作为第二辅助特征；计算所述第二初始特征和所述第二辅助特征的第四平均值和第四方差；依据第四平均值和第四方差，对所述第二初始特征进行规整处理，得到所述待处理音频帧的音频特征。

15. 一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-4或5-9中任一项所述的方法。

16.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-4或5-9中任一项所述的方法。

17.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-4或5-9中任一项所述的方法。