CN116013297A

CN116013297A - 一种基于多模态门控提升模型的视听语音降噪方法

Info

Publication number: CN116013297A
Application number: CN202211628536.9A
Authority: CN
Inventors: 张新曼; 李扬科; 王静静; 李桂成; 黄永文; 王歆叶
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2022-12-17
Filing date: 2022-12-17
Publication date: 2023-04-25

Abstract

本发明公开了一种基于多模态门控提升模型的视听语音降噪方法，包括以下步骤：图像与音频的分离存储；音频与图像的预处理；借助唇部定位算法与短时傅里叶变换分别完成唇部图像的裁剪与语音频谱图的生成；使用层次化注意力模块与双路频谱增强模块分别实现视觉特征与音频特征的捕获与增强；利用门控编码器逐步融合视觉特征与音频特征；采用时频提升模块强化关键的视音特征；借助门控解码器估计纯净语音频谱图；借助短时傅里叶逆变换获取语音信号；完成网络模型的训练或测试。本发明鲁棒性强，适用范围广，可以实现复杂噪声环境下的语音降噪。与部分主流降噪模型相比，本发明在SI‑SDR和PESQ评价指标上分别提升了约15％和19％。

Description

一种基于多模态门控提升模型的视听语音降噪方法

技术领域

本发明属于语音降噪技术领域，特别涉及一种基于多模态门控提升模型的视听语音降噪方法。

背景技术

语音噪声问题是在线视频会议所面临的主要问题之一。在实际生活中，说话人往往处于复杂多变的环境中，因而获取的语音信号中会经常混有周围环境噪声，例如：鸣笛声、喧哗声、海浪声、机器运作声等。这不仅会在很大程度上降低线上参会人员的体验，还严重扰乱了网络会议的正常进行。此外，随着语音技术的快速发展，语音交互逐渐走进人们的日常生活中。以搭载智能语音系统的辅助驾驶为例，其实现了驾驶过程中语音发送指令、语音导航等功能，从而给用户带来了极好的体验。但是，当使用环境存在复杂噪声时将会极大地降低语音交互的性能，这也是语音交互行业的主要痛点。因此，语音降噪技术不仅具有深远的研究意义，还具有实际的应用价值。

语音降噪的目的是将纯净的语音从背景干扰噪声中分离出来，从而提高语音的可懂性与感知质量。目前，语音降噪技术可以分为基于数字信号处理的方法和基于机器学习的方法。其中，常见的基于数字信号处理的语音降噪方法包括：维纳滤波法、谱减法、自适应滤波法、基于小波分析的方法、基于子空间的方法等。这类方法虽然实现简单，运算速度快，但是适用范围不够广泛，去噪效果一般。常见的基于机器学习的语音降噪方法包括：基于隐马尔可夫模型的方法、基于非负矩阵分解的方法、基于深度学习的方法。其中，基于深度学习的语音降噪方法具有拟合能力强、鲁棒性强等特点，能够较好地适用于复杂噪声环境。此外，借助视觉信息辅助提升语音降噪的效果正成为主流研究方向。

虽然相关研究人员已经进行了大量的研究工作，但是现有的方法依然面临如下问题：1)用于语音降噪的输入源较为单一，对额外的辅助信息不够重视；2)对视觉特征的挖掘不够充分，无法为主干网络提供多尺度的关键视觉特征；

3)无法有针对性地提取语音频谱图的深层次实部特征与虚部特征，4)无法有效地强化融合后的关键视觉特征与音频特征；5)对于特征的提取与重构，无法有选择性地增强更具代表性的特征。

发明内容

为了克服上述现有技术的缺点，本发明的目的在于提供一种基于多模态门控提升模型的视听语音降噪方法，借助深度学习技术以及唇部图像，从而能够有效地改善语音降噪的效果，具备较强的鲁棒性，可以适用于复杂的噪声环境中。

为了实现上述目的，本发明采用的技术方案是：

一种基于多模态门控提升模型的视听语音降噪方法，包括以下步骤：

步骤1：获取含有音频以及人脸图像的视频数据，分别设置固定的视频采样率和音频采样率，进行音频数据与图像数据的分离存储操作；

步骤2：对所述图像数据与音频数据分别进行预处理操作；

步骤3：使用唇部定位算法裁剪讲话者的唇部图像，使用短时傅里叶变换生成语音频谱图，将所述唇部图像与所述语音频谱图输入基于深度学习的多模态门控提升模型(MGB-Net)中；所述多模态门控提升模型包括层次化注意力模块、双路频谱增强模块、门控编码器、时频提升模块和门控解码器；

步骤4：利用预训练的深度学习模型ResNet18对所述唇部图像压缩编码，并利用所述层次化注意力模块提取其多尺度的关键视觉特征；使用所述双路频谱增强模块实现所述语音频谱图实部与虚部的相互指导与特征挖掘；

步骤5：利用所述门控编码器逐步融合多尺度的关键视觉特征与音频特征；

步骤6：利用所述时频提升模块，在时域维度与频域维度上实现针对关键视觉特征与音频特征的强化与长短期特征的捕获；

步骤7：利用所述门控解码器估计纯净语音频谱图；

步骤8：利用短时傅里叶逆变换获得估计的纯净语音信号。

步骤9：利用损失函数与评价指标完成所述多模态门控提升模型的训练和测试。

在一个实施例中，所述步骤1，将视频采样率调整为25fps/s，存储为MP4格式；将音频采样率调整为16KHz，存储为WAV格式。

在一个实施例中，所述步骤2，对图像数据的预处理操作包括：

利用双线性插值的方式调整图像尺寸，并根据裁剪算法分割视频，对于帧数低于阈值的直接舍弃，否则采用补帧法进行处理；

对音频数据的预处理操作包括：

裁剪得到固定长度音频数据，并按照设置的信噪比将噪声与纯净语音进行混合，从而模拟复杂环境下的含噪语音。

在一个实施例中，所述步骤3，唇部定位算法利用Dlib库获取68个人脸关键点坐标，进而根据下述公式获得唇部区域的坐标：

式中，M_x和M_y分别为唇部的中心点X轴坐标与Y轴坐标，

和

分别为第63个人脸关键点的X轴坐标与Y轴坐标，

和

分别为第67个人脸关键点的X轴坐标与Y轴坐标，

和

分别为第4个人脸关键点的X轴坐标与Y轴坐标，

和

分别为第14个人脸关键点的X轴坐标与Y轴坐标，

为第7个人脸关键点的Y轴坐标，

为第11个人脸关键点的Y轴坐标；w_lip和h_lip分别为唇部区域的半宽与半高，L_lip为唇部区域的四个顶点坐标；

将得到的唇部图像利用线性插值的方式进行及尺度归一化操作。

在一个实施例中，所述步骤4，对每一帧唇部图像压缩编码，从而将原始输入尺寸由[75,224,224,3]转为[75,256]；

所述层次化注意力模块采用金字塔结构，包括视觉编码单元、全局注意模块和最大池化层；所述视觉编码单元通过一维卷积操作实现特征提取，通过批归一化操作实现特征归一化，通过PReLU函数增强模型的非线性表达能力；所述全局注意模块包括：上采样操作、一维卷积、批归一化、Sigmoid函数以及矩阵按位乘积操作；通过所述最大池化层，实现低层特征向高层特征的转化；通过所述全局注意模块对所述高层特征进行高层语义特征的上采样，并通过注意力机制实现高层特征指导低层特征关注关键的视觉特征；

所述层次化注意力模块的输入为一个特征，输出为三个不同尺度的特征。

在一个实施例中，所述步骤4，双路频谱增强模块采用双分支的结构分别提取语音频谱图的实部特征与虚部特征，并通过共享二维卷积操作减少参数量，同时通过注意力机制实现关键特征的增强，双路频谱增强模块的计算公式如下：

式中，C(·)、B(·)和R(·)分别表示卷积、批归一化以及调整通道操作，⊙和

分别表示矩阵对应元素相乘与相加，σ表示激活函数PReLU，X_re和X_im分别为输入实部特征和输入虚部特征，

和

分别为双路频谱增强模块强化后的实部特征与虚部特征。

在一个实施例中，所述步骤5，门控编码器包含多个门控编码单元，所述门控编码单元用于实现特征提取，并通过池化操作实现特征下采样，之后拼接操作实现视音特征的融合；其中，所述门控编码单元通过二维卷积、通道分离操作以及Sigmoid函数实现门控机制，从而捕获关键的视觉特征和音频特征。

在一个实施例中，所述步骤6，利用时频提升模块改善多头注意力机制模块，并借助自注意力机制分别实现时域维度和频域维度上关键特征的增强；所述时频提升模块通过二维卷积操作提取高层语义特征

和

并通过通道分离操作分别获得(Q_t,K_t,V_t)以及(Q_f,K_f,V_f)，进而使用注意力机制获得加权后的特征

和

最终通过拼接操作融合两个分支增强后的特征。

在一个实施例中，所述步骤7和步骤8，通过门控解码器估计纯净语音频域图的掩码，并将其与原始频谱图相乘从而获得纯净语音的频谱图；所述门控解码器包含多个门控解码单元，其中最后一层门控解码单元通过一维卷积操作与全连接层调整频谱图的尺度大小，并利用矩阵按位相乘获取纯净语音的频谱图，最终通过短时傅里叶逆变换重建估计的纯净语音信号。

在一个实施例中，所述步骤9，采用SI-SDR函数作为损失项，利用随机梯度下降算法减少模型估计的语音与真实的语音信号之间的误差，从而完成模型的训练。

与现有技术相比，本发明的有益效果是：

(1)本发明设计了一种多模态门控提升模型，其借助唇部定位算法裁剪唇部图像作为辅助视觉信息，并利用短时傅里叶变换生成的频谱图作为输入的音频信息，同时采用门控编码器与门控解码器实现特征的提取，有效地解决了视听语音降噪问题。

(2)本发明提出了一种层次化注意力模块，其采用类似金字塔的架构并结合注意力机制实现多尺度关键视觉特征的捕获，为语音降噪提供了丰富的辅助视觉特征。

(3)本发明设计了一种双路频谱增强模块，其采用双路架构并结合互提升的思想实现频谱图的实部与虚部中关键特征的挖掘与增强，为语音降噪提供了关键的频谱特征。

(4)本发明构建了一种时频提升模块，其借助自注意力机制分别实现时间维度与频域维度上关键视音特征的强化，从而为纯净语音频谱图的估计提供了丰富的信息。

(5)本发明能够有效地解决复杂噪声环境下的语音降噪问题，其鲁棒性较强，适用范围较广，为语音智能识别、语音情感分析等任务提供了技术支撑。

附图说明

图1为本发明融合视觉信息的语音降噪流程图。

图2为本发明多模态门控提升模型框架图。

图3为本发明基于人脸关键点的唇部定位算法示意图。

图4为本发明层次化注意力模块示意图。

图5为本发明双路频谱增强模块示意图。

图6为本发明门控编码器示意图。

图7为本发明时频提升模块示意图。

图8为本发明语音降噪效果图。

具体实施方式

下面结合附图和实施例详细说明本发明的实施方式。

应该指出，以下详细说明都是示例性的，旨在对本申请提供进一步的说明。除非另有指明，本发明使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实例来详细说明本发明申请。需要明确的是，此处所描述的具体实施例与展示的附图仅仅用于解释相关发明，而非对该发明的限定。

本发明公开了一种基于多模态门控提升模型的视听语音降噪方法，如图1所示，包含以下步骤：

步骤1：获取原始的视频数据并完成音频与图像的分离。

本发明的原始视频数据是指含有音频以及人脸图像的视频数据，由此可提取得到图像数据与音频数据。考虑到不同的视频所具有的帧率以及音频的采样率均不相同，因此，需要对视频与音频进行重采样。在本实施例中，利用视频编辑库Moviepy将视频的帧率调整为25fps/s，并借助音频处理库torchaudio将音频的采样率调整为16KHz。同时，将图像数据与音频数据分别存储，具体地，以MP4格式存储图像，以WAV格式存储音频。

步骤2：完成图像数据与音频数据的预处理操作。

步骤2.1：完成视频片段的裁剪与尺寸归一化。

原始图像数据的尺度并不一致，为了便于后续人脸关键点的定位以及唇部图像的裁剪，本实施例采用双线性插值的方式将图像归一化为统一的尺寸，示例地，本实施例是将图像大小调整为720×720。网络模型的输入大小是固定，但是考虑到不同视频所持续的时长有所不同，因此需要对视频进行分割裁剪。假定模型输入的视频时长为3秒，根据视频的帧率为25fps/s这一前提，那么每次应该输入75帧图像至模型中。本实施例借助视频裁剪算法将原始视频裁剪为多个小片段，其中每个视频片段仅包含75帧。假设视频的总帧数为T_v，那么视频裁剪的具体计算公式如下：

式中，k为正整数，V_start和V_end分别为起始帧的ID与结束帧的ID。当截取的视频帧数不满足75帧但总数大于60帧时，可以采用补帧法即插值的方式补齐至75帧。当截取的视频帧数不满足75帧且总数小于60帧时，可以直接舍弃该视频片段。

步骤2.2：完成固定长度音频数据的裁剪。

不同音频的持续时长也不同，为了使其符合网络模型的输入要求，可以采用与视频相似的裁剪策略，利用音频裁剪算法将其分割为固定长度的3s片段。由于音频的采样率为16KHz，因此每个音频片段所包含的采样点为48000。假设音频的总采样点数为T_a，具体的音频裁剪公式如下：

式中，k为正整数，A_start和A_end分别为起始采样点的ID与结束采样点的ID。当截取的采样点数不满足48000但总数大于38400时，可以采用线性插值的方式补齐至48000个采样点。当截取的采样点数不满足48000且总数小于38400时，可以直接舍弃该音频片段。

步骤2.3：实现复杂环境下含噪音频的合成。

为了能够完成模型的训练，需要为网络模型提供含噪声的音频以及纯净的语音。在此，可以将收集的大量噪声音频按照一定的随机信噪比与纯净语音进行混合，从而模拟复杂环境下的含噪音频。根据信噪比的计算原理，可以得到混合音频的计算公式如下：

S_mix＝α·S_singal+S_noise

式中，A_noise和A_singal分别为噪声幅值与语音幅值，P_noise和P_singal分别为噪声功率与语音功率，snr为设置的信噪比，S_singal、S_noise和S_mix分别为纯净语音、噪声音频以及混合音频。这里所混合的噪声种类主要包括：人类的喧嚣声、动物的叫声、机器工作的声音等。

步骤3：实现唇部图像的裁剪与音频频谱图的生成。

步骤3.1：借助唇部定位算法自动裁剪唇部图像作为辅助视觉信息。

原始的图像不仅包含了人脸信息还包含了复杂的背景信息，这会给语音降噪带来极大的干扰。图2展示了本发明设计的用于视听语音降噪的多模态门控提升模型框架，其需要从原始的图像中裁剪出唇部图像作为辅助视觉信息。为了能够准确地裁剪出唇部区域，裁剪得到讲话者唇部图像，从而减少图像所包含的冗余信息或干扰因素，本实施例设计了一种唇部定位算法，如图3所示。该方法首先利用2D人脸关键点检测算法Dlib库获取68个关键点坐标，进而可以根据下述公式获得唇部区域的顶点坐标：

式中，L_x和L_y分别为X轴坐标与Y轴坐标，上标表示相应的关键点，M_x和M_y分别为唇部的中心点坐标，w_lip和h_lip分别为唇部区域的半宽与半高，L_lip为唇部区域在原始图像上的坐标点(左上角，左下角，右上角，右下角)。最终根据唇部关键点所处的位置实现了唇部图像的裁剪。由于模型的输入图像尺度需要保证一致，因而需要采用线性插值的方式进行尺度归一化操作，将获取的唇部图像尺寸统一调整为224×224。

步骤3.2：利用短时傅里叶变换生成音频的频谱图。

原始的音频信号为时域数据，而网络模型则采用频域数据作为输入。如图2所示，可以借助短时傅里叶变换根据原始语音的波形图生成输入音频的语音频谱图，并将其作为音频表征输入至模型中。短时傅里叶变换(STFT)的核心思想为：把整个时域过程分解成无数个等长的小过程，每一个小过程近似平稳，再对每一个小过程进行傅里叶变换(FFT)。借助此技术可以获得一个双通道的三维数组，其第一个通道为实部数据，第二个通道为虚部数据。

将获得的唇部图像与频谱图输入至基于深度学习的多模态门控提升模型(MGB-Net)中，从而实现复杂噪声环境下的语音降噪。

步骤4：完成唇部图像与频谱图的特征提取。

步骤4.1：借助预训练的ResNet18模型实现唇部图像的压缩编码。

原始输入至网络模型的唇部图像包含75帧，每帧图像的大小为224×224，且包含R、G、B三个通道。因此，原始视觉表征所具有的尺寸大小为[75,224,224,3]。为了实现特征的压缩编码，可以借助预训练好的ResNet18网络模型。具体而言，该模型首先使用7×7×64的卷积操作将图像大小缩小一半，然后借助最大池化操作对图像进一步缩小，其次借助8个残差块和下采样操作对图像完成深层次特征提取，最后借助自适应平均池化操作以及全连接层完成唇部视觉特征的编码。通过对每一帧图像进行压缩编码，可以将原始视觉表征转为深层次视觉特征X_v，此时视觉特征的尺度大小为[75,256]。需要注意的是，这里移除了ResNet18网络模型自带的最后一层激活函数，因而编码后的视觉特征为全连接层的输出。

在本实施例中，借助预训练的深度学习模型ResNet18对每一帧唇部图像进行压缩编码，其中使用ResNet18模型中的最后一个全连接层输出的特征作为输入图像的压缩特征，从而可以将原始的输入尺寸由[75,224,224,3]转为[75,256]。

步骤4.2：借助层次化注意力模块实现多尺度关键视觉特征的提取。

传统的方式所提取的视觉特征较为单一且无法有效地关注关键的特征。为此，可以利用层次化注意力模块实现多尺度关键视觉特征的提取。如图4所示，此模块采用了一种类似金字塔的架构提取多尺度的关键视觉特征，其可以同时有效地提取低层细节特征与高层语义特征。该模块可以分为三层，最左面一层包含五个基本单元为第一层，最右面一层包含两个基本单元为第三层，层数越高对应的特征尺寸就越小。此模块主要由视觉编码单元、全局注意模块和最大池化层构成，能够有效地提取低层细节特征与高层语义特征。对于视觉编码单元，其主要借助一维卷积实现特征提取，批归一化操作实现数据归一化，并引入激活函数PReLU增强模型的非线性表达能力。需要指明的是，为了捕获不同尺度的特征，不同层的一维卷积操作的膨胀率不同，从左至右逐渐变大。对于全局注意模块而言，其主要包括：上采样操作、一维卷积、批归一化、Sigmoid函数以及矩阵按位乘积操作。低层特征主要借助池化操作实现向高层特征的转化，而高层特征主要借助全局注意模块实现向低层特征的转化。

假定层次化注意力模块的输入特征为视觉编码特征X_v，那么对于这三层而言，其第一个视觉编码单元各自输出特征的计算公式如下：

式中，C(·)、B(·)和P(·)分别表示一维卷积操作、批归一化操作和池化操作。此外，

和

分别表示层次化注意力模块的三层中第一个视觉编码单元的输出特征。σ表示激活函数PReLU，其具体公式如下，其中α为可学习的参数。

对于第一层与第二层的第二个视觉编码单元的输出，其首先需要借助全局注意模块实现高层语义特征的上采样，并借助注意力机制实现高层特征指导低层特征关注关键的视觉特征；其次借助具有不同膨胀率的一维卷积操作实现多尺度特征的捕获；最后通过激活函数增强其非线性表达能力，其具体的计算公式如下：

式中，

和

分别表示此模块的前两层中第二个视觉编码单元的输出特征，U(·)表示上采样操作，⊙表示矩阵的对应元素相乘。θ表示激活函数Sigmoid，其计算公式如下：

对于第一层第三个视觉编码单元的输出特征，其计算方式与上述类似，具体公式如下：

该层次化注意力模块的输入仅有一个特征，但是输出却有三个不同尺度的特征。因此，该层次化注意力模块不仅可以输出不同尺度的视觉特征，还可以借助注意力机制实现高层语义特征对低层细节特征的指导，从而使其更加关注那些关键的唇部特征。

步骤4.3：借助双路频谱增强模块实现频谱图的关键特征捕获。

对于输入的频谱特征，传统的方式是直接采用一个二维卷积操作同时处理实部特征与虚部特征，这种方式将会在一定程度上导致信息的丢失。为此，引入了一种双路频谱增强模块分别实现频谱图的关键实部特征与虚部特征的捕获。如图5所示，此模块采用双分支的结构，将输入的频谱特征按照通道维度分为实部特征X_re和虚部特征X_im，进而借助两个卷积操作分别实现实部特征与虚部特征的互补增强，同时借助注意力机制实现关键特征的增强，并借助共享二维卷积操作以减少参数量。这里需要指明的是图中具有相同外边框的卷积操作共享权重。具体而言，该模块的计算公式如下：

式中，C(·)、B(·)和R(·)分别表示卷积、批归一化以及调整通道操作，F(·)表示拼接操作，⊙和

分别表示矩阵对应元素相乘与相加，σ表示激活函数PReLU，X_re、X_im、

和

分别为输入实部特征、输入虚部特征以及双路频谱增强模块强化后的实部特征与虚部特征。最终，通过按位相加的方式获取融合后的特征。

以实部特征增强为例，其首先是借助卷积核大小为1的2D卷积操作实现虚部全局特征的提取，并利用激活函数Sigmoid获取注意力权重，进而将其与原始提取的虚部特征相乘获得加权后的虚部特征。与此同时，借助共享权重的二维卷积操作实现实部特征的捕获，并通过按位相加的方式获取融合后的实部特征。虚部特征增强的流程与之类似，这里就不再进行赘述。

步骤5：借助门控编码器逐步融合多尺度视觉特征与音频特征。

对于提取的视觉特征，由于传统的方式仅提供了单一尺度的特征，直接沿着通道维度将视觉特征与音频特征进行拼接即可。但是，这种方式会造成低层细节特征的损失，因而此框架引入了门控编码器逐步地融合低层细节特征与高层语义特征。如图6所示，此门控编码器包含多个基本的门控编码单元，本实施例中为5个。其主要借助门控编码单元的卷积操作实现特征提取，池化操作实现特征下采样，拼接操作实现视音特征的融合。具体而言，其计算公式如下：

式中，S(·)表示通道分离操作，

和

分别为此模块输入的音频特征、视觉特征、融合后输出的视音特征以及中间过程的加权特征。对于门控机制而言，此模块首先利用二维卷积实现特征通道的调整，然后将其沿着通道维度分为两部分，其中一部分借助Sigmoid激活函数求取门控掩码，另一部分则与门控掩码相乘获得深层特征。最后，通过将两者按位相乘获得增强后的特征，并将其与视觉特征相拼接捕获融合后的视音特征，从而有效地避免低层次细节特征与高层次语义特征的丢失。

步骤6：借助时频提升模块强化视音特征中的关键信息。

为了进一步挖掘深层视音特征，此模型设计了一个高效的特征编码模块。其使用时频提升模块改善多头注意力机制模块，并使用卷积核大小为1的二维卷积操作实现特征通道的压缩与深层次特征的提取。为了便于后续处理，此模块的输入特征尺寸与输出特征尺寸完全一致。该模块的具体计算公式如下：

式中，L(·)表示层归一化操作，δ表示激活函数GELU，TF(·)为时频提升模块操作。另外，

以及

分别为此模块的输入特征、中间特征以及输出特征。此模块引入了残差连接保留原始特性，同时借助层归一化提高训练的效率。为了能够尽可能减少参数，这里借助两个二维卷积实现了全连接层的效果。

对于时频提升模块而言，其主要借助自注意力机制分别实现时域维度和频域维度上关键特征的增强。如图7所示，其包含时域强化分支和频域强化分支。具体而言，其首先借助二维卷积操作提取高层语义特征

和

并借助通道分离以及相关操作分别获得(Q_t,K_t,V_t)以及(Q_f,K_f,V_f)，进而使用注意力机制获得加权后的特征

和

即借助下列公式获得加权后的特征

和

式中，k为缩放因子，后续借助拼接操作融合两个分支增强后的特征，并利用二维卷积操作实现深层特征的提取。最终，在时域维度与频域维度上实现针对关键视音特征的强化与长短期特征的捕获。

步骤7：利用门控解码器获取纯净音频的频谱图。

本发明引入了一种门控解码器重构纯净语音的频谱图，该门控解码器包含多个基本的门控解码单元，本实施例中为5个。每个解码单元输出的特征尺度依次变大直至与原始输入的频谱图相同。此时，该解码器的输出为纯净语音的频谱图掩码，因而还需要与原始频谱图相乘，从而获得估计的纯净语音频谱图。其最后一层门控解码单元还需借助一维卷积操作与全连接层调整频谱图的尺度大小，并利用矩阵按位相乘获取纯净语音的频谱图。对于门控解码单元，其具体的计算公式如下：

式中，

分别为输入视音特征、输出视音特征，而TC_2D(·)为二维反卷积操作。对于其余符号的解释，在上文均有阐述这里就不再赘述。此模块将融合后的视音特征作为输入，并借助二维反卷积操作在提取深层特征的同时完成上采样操作。其次将提取后的特征沿着通道维度分为两部分，其中一部分利用Sigmoid激活函数获取门控掩码，进而与另一部分原始特征相乘实现门控机制。最后，利用矩阵按位相乘操作获取纯净语音的频谱图。

步骤8：借助短时傅里叶逆变换重建纯净语音信号。

频谱图作为一种很好的音频表征方式，但是却无法直接供人耳接收。因此，需要借助短时傅里叶逆变换处理频谱图，从而重建出纯净的语音信号。其首先需要对处理完的每帧频域信号做傅里叶逆变换，而后对逆变换后的结果加窗，最后对加窗后的每帧信号重叠相加再除以每帧窗函数的平方重叠相加的结果，即可获得重建后的纯净原始信号。

步骤9：完成模型的训练与测试。

本发明借助深度学习技术设计了一个多模态门控提升模型，其通过结合唇部信息辅助实现音频降噪。在网络模型的训练阶段，需要借助SI-SDR损失函数和随机梯度下降算法减少模型估计的语音与真实的语音信号之间的误差，从而优化整个网络模型的权重，完成模型的训练。为了能够说明本发明所提方法的有效性，在TMSV纯净语音数据集以及UrbanSound噪声数据集上进行了验证。其中，此噪声数据集共包含10种不同的噪声类别：空调工作声、汽车喇叭声、儿童玩耍声、狗吠声、钻井声、发动机转动声、枪声、风钻声、警笛声和街头音乐。复杂多变的噪声种类可以有效地验证模型的鲁棒性。正如表一所示，这里借助了四个常用的语音降噪评价指标实现客观的效果比较，其分别为：尺度不变源失真比(SI-SDR)、源伪影比(SAR)、短时语音可懂度(STOI)、感知语音质量评估(PESQ)。其中，SI-SDR用于测试语音降噪任务中语音失真的程度，其主要是计算短期(通常15～20ms)SDR的平均值。此外，当语音的能量分布不均匀时，SI-SDR依然能够反映信号局部的失真水平，同时与另一个语音评价指标---平均意见得分的相关程度较高。此评价指标的具体计算公式如下：

式中，

和s分别为模型估计的纯净音频与真实的纯净音频，||s||²＝<s,s>表示信号的能量。作为信号级别的评价指标，SAR与SI-SDR类似，这里就不再赘述。此外，感知语音质量评估PESQ主要用于评估语音质量并侧重于评估语音的清晰度。目前，其是感知分析测量系统和感知语音质量增强版PSQM99集成的结果，典型的应用场景是网络电话。该指标的取值范围在-0.5至4.5之间，其应用范围广泛，包括：模拟连接、报文丢失、可变延迟。作为感知级别的评价指标，STOI与PSEQ类似，这里便不再进行赘述。对于上述四个评价指标而言，其数值越高，表示模型的降噪效果越好。

表一：本发明的多模态门控提升模型与主流语音降噪模型的效果对比

	SI-SDR	SAR	STOI	PESQ
					Demucs	11.84	12.36	0.87	1.74
DTLNet	12.23	12.82	0.88	1.80
					ConvTasNet	12.42	13.46	0.89	2.06
多模态门控提升模型	13.64	14.35	0.90	2.07

不难发现，此模型相比于现有的方法有了显著的提升。对于评价指标SI-SDR而言，多模态门控提升模型可以达到13.64，其与Demucs模型相比提升了大约15％。对于评价指标PESQ而言，多模态门控提升模型与Demucs模型相比提升了大约19％。此外，在评价指标SAR和STOI上，多模态门控提升模型可以分别达到14.35和0.9。上述实验结果有效地说明了本发明的有效性与鲁棒性。此外，图8展示了利用此模型进行音频降噪的效果图，其中奇数行为音频图，偶数行为频谱图，第一列为真实纯净语音，第二列为模拟混合语音，第三列为本发明提出的多模态门控提升模型估计的纯净语音。通过图8可以看出其可以在语音音量极小的情况下，能够有效地滤除外部噪声。同时，对于能量变换较大的噪声，其依然可以做到自适应地滤除。综上，此网络模型可以获得令人满意的降噪效果。

虽然上述结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种基于多模态门控提升模型的视听语音降噪方法，其特征在于，包括以下步骤：

步骤2：对所述图像数据与音频数据分别进行预处理操作；

步骤7：利用所述门控解码器估计纯净语音频谱图；

步骤8：利用短时傅里叶逆变换获得估计的纯净语音信号。

2.根据权利要求1所述一种基于多模态门控提升模型的视听语音降噪方法，其特征在于，所述步骤1，将视频采样率调整为25fps/s，存储为MP4格式；将音频采样率调整为16KHz，存储为WAV格式。

3.根据权利要求1所述一种基于多模态门控提升模型的视听语音降噪方法，其特征在于，所述步骤2，对图像数据的预处理操作包括：

对音频数据的预处理操作包括：

4.根据权利要求1所述一种基于多模态门控提升模型的视听语音降噪方法，其特征在于，所述步骤3，唇部定位算法利用Dlib库获取68个人脸关键点坐标，进而根据下述公式获得唇部区域的坐标：

L_lip＝[(M_x-w_lip,M_y-h_lip),(M_x-w_lip,M_y+h_lip),(M_x+w_lip,M_y-h_lip),(M_x+w_lip,M_y+h_lip)]

式中，M_x和M_y分别为唇部的中心点X轴坐标与Y轴坐标，

和

分别为第63个人脸关键点的X轴坐标与Y轴坐标，

和

分别为第67个人脸关键点的X轴坐标与Y轴坐标，

和

分别为第4个人脸关键点的X轴坐标与Y轴坐标，

和

分别为第14个人脸关键点的X轴坐标与Y轴坐标，

为第7个人脸关键点的Y轴坐标，

5.根据权利要求1所述一种基于多模态门控提升模型的视听语音降噪方法，其特征在于，所述步骤4，对每一帧唇部图像压缩编码，从而将原始输入尺寸由[75,224,224,3]转为[75,256]；

6.根据权利要求1所述一种基于多模态门控提升模型的视听语音降噪方法，其特征在于，所述步骤4，双路频谱增强模块采用双分支的结构分别提取语音频谱图的实部特征与虚部特征，并通过共享二维卷积操作减少参数量，同时通过注意力机制实现关键特征的增强，双路频谱增强模块的计算公式如下：

和

分别为双路频谱增强模块强化后的实部特征与虚部特征。

7.根据权利要求1所述一种基于多模态门控提升模型的视听语音降噪方法，其特征在于，所述步骤5，门控编码器包含多个门控编码单元，所述门控编码单元用于实现特征提取，并通过池化操作实现特征下采样，之后拼接操作实现视音特征的融合；其中，所述门控编码单元通过二维卷积、通道分离操作以及Sigmoid函数实现门控机制，从而捕获关键的视觉特征和音频特征。

8.根据权利要求1所述一种基于多模态门控提升模型的视听语音降噪方法，其特征在于，所述步骤6，利用时频提升模块改善多头注意力机制模块，并借助自注意力机制分别实现时域维度和频域维度上关键特征的增强；所述时频提升模块通过二维卷积操作提取高层语义特征

和

和

最终通过拼接操作融合两个分支增强后的特征。

9.根据权利要求1所述一种基于多模态门控提升模型的视听语音降噪方法，其特征在于，所述步骤7和步骤8，通过门控解码器估计纯净语音频域图的掩码，并将其与原始频谱图相乘从而获得纯净语音的频谱图；所述门控解码器包含多个门控解码单元，其中最后一层门控解码单元通过一维卷积操作与全连接层调整频谱图的尺度大小，并利用矩阵按位相乘获取纯净语音的频谱图，最终通过短时傅里叶逆变换重建估计的纯净语音信号。

10.根据权利要求1所述一种基于多模态门控提升模型的视听语音降噪方法，其特征在于，所述步骤9，采用SI-SDR函数作为损失项，利用随机梯度下降算法减少模型估计的语音与真实的语音信号之间的误差，从而完成模型的训练。