CN112951258B

CN112951258B - 一种音视频语音增强处理方法及装置

Info

Publication number: CN112951258B
Application number: CN202110441281.4A
Authority: CN
Inventors: 陈航; 杜俊; 戴礼荣
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2021-04-23
Filing date: 2021-04-23
Publication date: 2024-05-17
Anticipated expiration: 2041-04-23
Also published as: CN112951258A

Abstract

本申请公开了一种音视频语音增强处理方法及模型，方法包括：从带噪语音中提取出帧级别的音频嵌入数据；从唇部区域的灰度图像序列中提取出帧级别的视频嵌入数据；将音频嵌入数据和视频嵌入数据融合处理为多模态嵌入数据；基于多模态嵌入数据和带噪语音的声学特征处理得到带噪语音的预测掩膜；基于预测掩膜和带噪语音得到增强语音。上述实现方案中，合利用音频模态和视频模态分别在低噪声和高噪声场景下的优势辅助作用，针对基于视觉语音识别的唇部嵌入在低噪声场景下鲁棒性不足的问题，使用包括音频模态和视频模态的多模态嵌入作为音视频语音增强的辅助输入，在高噪声和低噪声的环境下都提升了增强后语音的质量和可懂度。

Description

一种音视频语音增强处理方法及装置

技术领域

本发明涉及信号处理技术领域，更具体的说，是涉及一种音视频语音增强处理方法及模型。

背景技术

语音增强旨在通过抑制带噪语音中的背景噪声成分来生成具有更好语音质量和清晰度的增强语音，它常被作为各种语音输入设备的前端。音视频语音增强旨在利用与语音同步的视频信号作为辅助输入，进一步提升增强语音的语音质量和可懂度。当前，基于深度神经网络的音视频语音增强是一种主流方法。

对于基于深度神经网络的音视频语音增强模型来说，作为辅助的视频信号是以视频嵌入的形式被输入模型的。如何从原始的视频信号中提取出有用的视频嵌入，是目前音视频语音增强社区的一个研究热点，国内外有很多研究者提出了很有效的视频嵌入，例如基于视觉孤立词识别的唇部嵌入和基于视觉音素识别的唇部嵌入；上述基于视觉语音识别的唇部嵌入在高噪声环境下，确实都给语音增强模型带来了明显的性能提升，但是，在低噪声环境下，两种唇部嵌入不仅不能带来明显的性能提升，甚至还会造成性能的损失。这是由于视觉语音识别天然的不确定性造成的，即不是所有的单词/音素在视觉上都是可区分的，由此也造成视觉语音识别在低噪声场景下的鲁棒性很差。

发明内容

有鉴于此，本发明提供如下技术方案：

一种音视频语音增强处理方法，包括：

从带噪语音中提取出帧级别的音频嵌入数据；

从唇部区域的灰度图像序列中提取出帧级别的视频嵌入数据；

将所述音频嵌入数据和所述视频嵌入数据融合处理为多模态嵌入数据；

基于所述多模态嵌入数据和所述带噪语音的声学特征处理得到所述带噪语音的预测掩膜；

基于所述预测掩膜和所述带噪语音得到增强语音。

可选的，所述从带噪语音中提取出帧级别的音频嵌入数据，包括：

采用全卷积神经网络从带噪语音的音频特征中提取出帧级别的音频嵌入数据。

可选的，所述从唇部区域的灰度图像序列中提取出帧级别的视频嵌入数据，包括：

采用一层三维卷积和一个多层的残差网络从唇部区域的灰度图像序列中提取出帧级别的视频嵌入数据。

可选的，所述将所述音频嵌入数据和所述视频嵌入数据融合处理为多模态嵌入数据，包括：

将所述音频嵌入数据和所述视频嵌入数据在通道维度上进行拼接，得到嵌入拼接数据；

采用2层的双向门控循环单元融合包含音频模态和视频模态的所述嵌入拼接数据，得到多模态嵌入数据。

可选的，所述基于所述多模态嵌入数据和所述带噪语音的声学特征处理得到所述带噪语音的预测掩膜，包括：

将分别经过一维卷积残差块处理的所述多模态嵌入数据和所述带噪语音的对数功率谱特征基于通道维度进行拼接处理，得到特征拼接数据；

依次采用一维卷积残差快和激活函数层对所述特征拼接数据进行处理，得到所述带噪语音的预测掩膜。

可选的，所述基于所述预测掩膜和所述带噪语音得到增强语音，包括：

将所述预测掩膜和所述与所述带噪语音的幅度谱相乘，得到相乘结果；

基于所述相乘结果和所述带噪语音的相位重建出增强语音。

可选的，还包括：

对所述音视频语音增强处理方法进行优化。

可选的，所述对所述音视频语音增强处理方法进行优化，包括：

采用随机梯度算法或随机梯度算法的改进算法，最小化神经网络模型在训练集的损失函数来进行神经网络参数的训练，所述神经网络模型为所述音视频语音增强处理方法对应的神经网络模型。

一种音视频语音增强处理模型，包括：

音频嵌入提取模块，用于从带噪语音中提取出帧级别的音频嵌入数据；

视频嵌入提取模块，用于并从唇部区域的灰度图像序列中提取出帧级别的视频嵌入数据；

嵌入融合模块，用于将所述音频嵌入数据和所述视频嵌入数据融合处理为多模态嵌入数据；

增强处理模块，用于基于所述多模态嵌入数据和所述带噪语音的声学特征处理得到所述带噪语音的预测掩膜；

增强确定模块，用于基于所述预测掩膜和所述带噪语音得到增强语音。

可选的，所述音频嵌入提取模块、视频嵌入提取模块和所述嵌入融合模块属于嵌入提取模块，所述嵌入提取模块和所述增强处理模块使用相同的数据和不同的标签分开训练。

经由上述的技术方案可知，与现有技术相比，本发明实施例公开了一种音视频语音增强处理方法及模型，方法包括：从带噪语音中提取出帧级别的音频嵌入数据；从唇部区域的灰度图像序列中提取出帧级别的视频嵌入数据；将所述音频嵌入数据和所述视频嵌入数据融合处理为多模态嵌入数据；基于所述多模态嵌入数据和所述带噪语音的声学特征处理得到所述带噪语音的预测掩膜；基于所述预测掩膜和所述带噪语音得到增强语音。上述实现方案中，合利用音频模态和视频模态分别在低噪声和高噪声场景下的优势辅助作用，针对基于视觉语音识别的唇部嵌入在低噪声场景下鲁棒性不足的问题，使用包括音频模态和视频模态的多模态嵌入作为音视频语音增强的辅助输入，在高噪声和低噪声的环境下都提升了增强后语音的质量和可懂度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例公开的一种音视频语音增强处理方法的流程图；

图2为本申请实施例公开的嵌入融和处理的流程图；

图3为本申请实施例公开的得到预测掩膜的流程图；

图4为本申请实施例公开的一种音视频语音增强处理模型的结构示意图；

图5为本申请实施例公开的音视频语音增强模型的原理架构实现示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本申请实施例公开的一种音视频语音增强处理方法的流程图，参见图1所示，音视频语音增强处理方法可以包括：

步骤101：从带噪语音中提取出帧级别的音频嵌入数据。

其中的带噪语音，具体可以是带噪语音的帧级别的声学特征，如Fbank特征。步骤101具体可以包括：采用全卷积神经网络(convolutional neural network,CNNs)从带噪语音的音频特征中提取出帧级别的音频嵌入数据。例如，一个实现中，可以使用一个全卷积神经网络来从带噪语音中提取帧一级包含高级的语义表示的音频嵌入。在本申请中，认为高级别的语义对于噪声具有很强的鲁棒性，其中的高级的语义表示，指的是包含语义信息的抽象程度较高(高级)的表示，在每个离散时间上的数学形式是一个向量。

步骤102：从唇部区域的灰度图像序列中提取出帧级别的视频嵌入数据。

一个实现中，步骤102可以包括：采用一层三维卷积和一个多层的残差网络从唇部区域的灰度图像序列中提取出帧级别的视频嵌入数据。具体的，可以使唇部区域的灰度图像序列依次通过一层三维卷积和一个18层的残差网络(18-layer Residual Network,ResNet18)以获得帧一级的包含空间上下文信息的视频嵌入。

步骤103：将所述音频嵌入数据和所述视频嵌入数据融合处理为多模态嵌入数据。

本步骤的一个处理实现可参见图2，图2为本申请实施例公开的嵌入融和处理的流程图，如图2所示，步骤103可以包括：

步骤201：将所述音频嵌入数据和所述视频嵌入数据在通道维度上进行拼接，得到嵌入拼接数据。

步骤202：采用2层的双向门控循环单元(Bidirectional Gate Recurrent Unit,BGRU)融合包含音频模态和视频模态的所述嵌入拼接数据，得到多模态嵌入数据。

具体的，步骤103的实现有两个数据输入，即帧级别的音频嵌入数据和帧级别的视频嵌入数据，将这两个输入数据在通道维度上拼接，然后通过2层的双向门控循环单元来融合两种模态的嵌入以获得多模态嵌入。其中，音频和视频之间的帧率不匹配问题通过重复视频帧来匹配音频帧。例如，视频的帧率是25，即一秒有25帧图像；音频处理中，帧移为10ms，即1秒有100个音频帧，这样就存在音视频的帧率不匹配问题；解决方法可以是1帧视频重复4次，1秒生成100帧视频去匹配音频。

步骤103后，进入步骤104。

步骤104：基于所述多模态嵌入数据和所述带噪语音的声学特征处理得到所述带噪语音的预测掩膜。

图3为本申请实施例公开的得到预测掩膜的流程图，参见图3所示，步骤104的具体实现可以包括：

步骤301：将分别经过一维卷积残差块处理的所述多模态嵌入数据和所述带噪语音的对数功率谱特征基于通道维度进行拼接处理，得到特征拼接数据。

步骤302：依次采用一维卷积残差快和激活函数层对所述特征拼接数据进行处理，得到所述带噪语音的预测掩膜。

具体的，步骤104中，输入数据包括多模态嵌入数据和带噪语音的对数功率谱特征，两者分别经过堆叠的10个残差块和5个残差块后，在通道维度上被拼接到一起，然后再经过堆叠的15个残差块，以获得预测的干净语音的预测掩膜。

其中，两个输入数据经过的残差快的数量不同，是因为不同的特征，需要经过不同程度的处理；一般情况下，残差块越多，处理流程就越复杂。其中各部分残差块的数量可根据实际实验情况确定出最合理的数量。

步骤104后，进入步骤105。

步骤105：基于所述预测掩膜和所述带噪语音得到增强语音。

具体的，基于所述预测掩膜和所述带噪语音得到增强语音，可以包括：将所述预测掩膜和所述与所述带噪语音的幅度谱相乘，得到相乘结果；基于所述相乘结果和所述带噪语音的相位重建出增强语音。

本实施例所述音视频语音增强处理方法，其辅助嵌入的提取，同时使用唇部视频和带噪声的语音，这种多模态音视频嵌入综合了音频和视频模态分别在低噪声和高噪声环境中的辅助优势有助于提升音视频语音增强系统的性能。因此增强后的语音上保持着很高的语音质量和可懂度，同时在噪声类型和说话人未知的场景下比一般的视频单模态嵌入辅助的音视频语音增强系统更加鲁棒。

传统的使用视频单模态嵌入辅助的音视频语音增强网络缺乏鲁棒性，在低噪声环境下甚至还会起到反作用，另外它们都使用额外的数据来训练嵌入提取器，这一方面增加了数据收集的成本，一方面造成了嵌入提取器和增强网络之间的训练数据不匹配。本申请提出的基于多模态音视频嵌入辅助的音视频语音增强方法，同时利用带噪语音和视频提取多模态嵌入来辅助语音增强，由于音频和视频在低噪声和高噪声的场景下分别可以起到优良的辅助效果，所以融合两者可以提高对噪声环境的鲁棒性。为了验证本申请所提出方法的有效性，设计了如下实验。

(1)实验设置

本次实验中，使用TCD-TIMIT音视频语料库仿真了一个带噪声语料库，该语料库包含31615个样本，总时长约45小时。这31615个样本被分成了训练、验证和测试三个数据集。每个数据集分别含有28000、645和2970个样本。训练集用于训练提出的模型，验证集用于调整超参数，测试集用于测试该模型增强后语音的语音质量和可懂度。客观语音质量评估(Perceptual Evaluation of Speech Quality,PESQ)和短时客观可懂度(ShortTimeObjective Intelligibility,STOI)作为最终的评价指标。训练嵌入提取器时40维的Fbank特征被用作声学特征，帧长为25ms，帧移为10ms，视频特征则使用尺寸为96像素x96像素的唇部区域的灰度图像序列。嵌入提取器模型使用PyTorch实现，Adam参数优化器优化，在数据集上进行100轮训练，训练一次的批处理大小为64。初始学习率为0.0003，然后学习速率指数在30轮后以对数值衰减。对视频特征使用随机裁剪和水平翻转两种数据增广策略。在训练语音增强模型时，使用400维的对数功率谱作为声学特征，帧长为25ms，帧移为10ms；同时也将嵌入提取器输出的多模态嵌入作为辅助输入送入增强网络。模型使用PyTorch实现，Adam参数优化器优化，在数据集上进行100轮训练，训练一次的批处理大小为96。初始学习率为0.0001，如果验证集上的损失函数值3轮没有提升，学习率就减半。

(2)实验结果

关于不同模型的实验结果如表1所示。基准模型是传统的使用单模态的视频嵌入辅助的语音增强(Visual Embedding Aware Speech Enhancement,VEASE)模型，除了本申请提出的多模态的音视频嵌入辅助的语音增强(Audio-Visual Embedding Aware SpeechEnhancement,AVEASE)模型，还列出了不使用任何嵌入辅助的语音增强(No EmbeddingAware Speech Enhancement,NoEASE)模型和使用音频嵌入辅助的语音增强(AudioEmbedding Aware Speech Enhancement,AEASE)模型作为消融实验以更好的理解本申请的优势。测试集中说话人与噪声类型在训练集与验证集中都未曾见过，所以属于较为困难的集外测试，重点考察在不同信噪比(Signal-to-Noise Ratio,SNR)下增强后语音相对于带噪声语音的语音质量提升和可懂度提升。

表1:不同模型在不同噪声级下对于集外测试句的PESQ和STOI值

首先，对比AVEASE和VEASE，可以得出结论：本申请提出的基于音视频多模态嵌入辅助的语音增强方法在所有的噪声级(SNR＝-5,0,5,10,15dB)下，在PESQ和STOI两个方面都全面优于传统的视频单模态嵌入辅助的语音增强系统。通过VEASE和AEASE的对比，可以证明，本申请利用了音频嵌入和视频嵌入分别在高噪声级(SNR＝5,10,15)和低噪声级(SNR＝-5,0)时具有的优势辅助作用，融合后的多模态音视频嵌入在所有的噪声级表现出非常鲁棒的辅助作用。

在其他的实施例中，音视频语音增强处理方法还可以包括：对所述音视频语音增强处理方法进行优化的步骤。具体的，优化内容可以包括：采用随机梯度算法或随机梯度算法的改进算法，比如SGD，Adam，AdaDelta等，最小化神经网络模型在训练集的损失函数来进行神经网络参数的训练，所述神经网络模型为所述音视频语音增强处理方法对应的神经网络模型。

对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

图4为本申请实施例公开的一种音视频语音增强处理模型的结构示意图，参见图4所示，音视频语音增强处理模型40可以包括：

音频嵌入提取模块401，用于从带噪语音中提取出帧级别的音频嵌入数据。

视频嵌入提取模块402，用于并从唇部区域的灰度图像序列中提取出帧级别的视频嵌入数据。

嵌入融合模块403，用于将所述音频嵌入数据和所述视频嵌入数据融合处理为多模态嵌入数据。

增强处理模块404，用于基于所述多模态嵌入数据和所述带噪语音的声学特征处理得到所述带噪语音的预测掩膜。

增强确定模块405，用于基于所述预测掩膜和所述带噪语音得到增强语音。

本实施例所述音视频语音增强处理模型，其辅助嵌入的提取，同时使用唇部视频和带噪声的语音，这种多模态音视频嵌入综合了音频和视频模态分别在低噪声和高噪声环境中的辅助优势有助于提升音视频语音增强系统的性能。因此增强后的语音上保持着很高的语音质量和可懂度，同时在噪声类型和说话人未知的场景下比一般的视频单模态嵌入辅助的音视频语音增强系统更加鲁棒。

上述实施例中，所述音频嵌入提取模块、视频嵌入提取模块和所述嵌入融合模块属于嵌入提取模块，所述嵌入提取模块和所述增强处理模块使用相同的数据和不同的标签分开训练。

一个具体实现中，音视频语音增强模型可以由嵌入提取器和增强网络构成，嵌入提取器又由音频嵌入提取模块、视频嵌入提取模块和嵌入融合模块组成，增强网络由增强处理模块和增强确定模块组成。另外，使用相同的数据和不同的标签来训练嵌入提取器和增强网络，在训练嵌入提取器时还需要识别后端模块。

输入数据都是带噪语音和切割好的唇部视频，但是训练嵌入提取器时使用帧级别的音素标签，即这一帧视频/音频属于哪个音素；训练增强网络是使用理想的比率掩膜作为标签，理想的比率掩膜的定义为干净语音的功率谱/(干净语音的功率谱+噪声的功率谱)。

本申请实施例中，使用相同的数据和不同的标签来分别训练嵌入提取器和增强网络。首先，在嵌入提取器后面接上一个由2层的BGRU组成的识别后端，使用帧级别的音素标签来训练嵌入提取器。然后固定嵌入提取的参数不变，使用相同的数据和理想的比率掩膜标签来训练增强网络。

最后，在推理阶段，将带噪语音的对数功率谱特征和对应的多模态音视频嵌入输入训练好的神经网络，输出为一个掩膜，再将掩膜与带噪语音的幅度谱相乘，乘的结果和带噪的相位一起重建出增强的语音波形。

图5为本申请实施例公开的音视频语音增强模型的原理架构实现示意图，结合图5所示，嵌入提取器的输入是包含唇部区域的灰度图像序列和对应音频的带噪的Fbank特征，输出是帧级别的音视频嵌入。增强网络的输入分为两个部分，一部分是带噪音频的对数功率谱特征，另一部分是嵌入提取器输出的音视频嵌入。增强网络和嵌入提取器使用相同的数据和不同的标签分开训练。

嵌入提取器用于从视频和音频中提取辅助增强网络的帧级音视频嵌入。从结构上可以被分成3个部分，视频嵌入提取模块、音频嵌入提取模块和嵌入融合模块。它预先在帧级音素分类任务上被训练。下面详细介绍每个模块和训练流程。

对于音频嵌入提取模块，音频嵌入提取模块的输入是带噪语音的Fbank特征，依次经过一维卷积层、批归一化层、ReLU激活层和一个使用一维卷积的ResNet-18网络，输出帧级别的音频嵌入。

对于视频嵌入提取模块，视频嵌入提取模块的输入是包含唇部区域的灰度图像序列，依次经过三维卷积层、批归一化层(Batch Normalization，BN)、ReLU激活层和一个标准的ResNet-18网络，输出帧级别的视频嵌入。

对于嵌入融合模块，嵌入融合模块的输入是视频嵌入和音频嵌入，分别由视频嵌入提取模块和音频嵌入提取模块输出。它们被沿着通道维度拼接，然后送入一个2层的BGRU网络中，最后输出融合后的音视频嵌入。视频嵌入和音频嵌入之间的帧率不匹配问题通过将一帧视频嵌入重复多次去匹配音频嵌入来解决。

对于嵌入提取模块的训练，嵌入提取器预先在帧级音素分类任务上被训练。所以在训练时，会给引入一个由2层BGRU和一个SoftMax激活层组成的识别后端，嵌入融合模块输出的音视频嵌入经过识别后端，得到预测的帧级的音素后验概率；最小化真实的和预测的帧级的音素后验概率之间的交叉熵损失函数来优化模型。

对于增强网络，增强网络的输入分为两个部分，一是带噪语音的对数功率谱，二是嵌入提取器输出的音视频嵌入，它们分别经过5个堆叠的一维卷积残差块和10个堆叠的一维卷积残差块后，被沿着通道维度拼接到一起。拼接后的特征经过15个堆叠的一维卷积残差块和一个Sigmoid激活函数层，得到预测的掩膜，最小化预测的掩膜和理想的比率掩膜之间的均方误差损失函数来优化模型。

前述一维卷积残差块由ReLU激活层、批归一化层、一维卷积层和残差连接组成，如图5的右下角所示。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种音视频语音增强处理方法，其特征在于，包括：

从带噪语音中提取出帧级别的音频嵌入数据；

基于所述多模态嵌入数据和所述带噪语音的声学特征处理得到所述带噪语音的预测掩膜，包括：将分别经过一维卷积残差块处理的所述多模态嵌入数据和所述带噪语音的对数功率谱特征基于通道维度进行拼接处理，得到特征拼接数据；依次采用一维卷积残差快和激活函数层对所述特征拼接数据进行处理，得到所述带噪语音的预测掩膜；

基于所述预测掩膜和所述带噪语音得到增强语音。

2.根据权利要求1所述的音视频语音增强处理方法，其特征在于，所述从带噪语音中提取出帧级别的音频嵌入数据，包括：

3.根据权利要求1所述的音视频语音增强处理方法，其特征在于，所述从唇部区域的灰度图像序列中提取出帧级别的视频嵌入数据，包括：

4.根据权利要求1所述的音视频语音增强处理方法，其特征在于，所述将所述音频嵌入数据和所述视频嵌入数据融合处理为多模态嵌入数据，包括：

5.根据权利要求1所述的音视频语音增强处理方法，其特征在于，所述基于所述预测掩膜和所述带噪语音得到增强语音，包括：

将所述预测掩膜和所述带噪语音的幅度谱相乘，得到相乘结果；

基于所述相乘结果和所述带噪语音的相位重建出增强语音。

6.根据权利要求1-5任一项所述的音视频语音增强处理方法，其特征在与，还包括：

对所述音视频语音增强处理方法进行优化。

7.根据权利要求6所述的音视频语音增强处理方法，其特征在于，所述对所述音视频语音增强处理方法进行优化，包括：

8.一种音视频语音增强处理装置，其特征在于，包括：

增强处理模块，用于基于所述多模态嵌入数据和所述带噪语音的声学特征处理得到所述带噪语音的预测掩膜，所述增强处理模块包括：拼接处理模块，用于将分别经过一维卷积残差块处理的所述多模态嵌入数据和所述带噪语音的对数功率谱特征基于通道维度进行拼接处理，得到特征拼接数据；掩膜获得模块，用于依次采用一维卷积残差快和激活函数层对所述特征拼接数据进行处理，得到所述带噪语音的预测掩膜；

9.根据权利要求8所述的音视频语音增强处理装置，其特征在于，所述音频嵌入提取模块、视频嵌入提取模块和所述嵌入融合模块属于嵌入提取模块，所述嵌入提取模块和所述增强处理模块使用相同的数据和不同的标签分开训练。