CN117877504A

CN117877504A - 一种联合语音增强方法及其模型搭建方法

Info

Publication number: CN117877504A
Application number: CN202410268765.7A
Authority: CN
Inventors: 付民; 肖涵予; 于靖雯; 夏多舜; 孙梦楠; 郑冰
Original assignee: Ocean University of China
Current assignee: Ocean University of China
Priority date: 2024-03-11
Filing date: 2024-03-11
Publication date: 2024-04-12
Anticipated expiration: 2044-03-11

Abstract

本发明提供了一种联合语音增强方法及其模型搭建方法，属于语音识别模型技术领域。首先，获取若干说话人的视频和相应音频的原始数据，对获取的数据集进行预处理，获取语音的语谱图、面部帧构建数据集；联合语音增强模型结构包括音频特征处理模块、视觉特征处理模块、双路SE视听特征融合模块和网络输出模块，搭建一个新的视听语音增强模型，并对模型进行训练选取最终模型；模型搭建完成后用于混合音频增强。本发明提出的基于挤压激励融合视听特征的语音增强模型，与使用单一音频流的方法或是其他融合视听特征融合方法相比，取得了明显性能提升。在公开数据集上进行对比实验，验证了该方法的有效性。

Description

一种联合语音增强方法及其模型搭建方法

技术领域

本发明属于语音识别模型技术领域，尤其涉及一种联合语音增强方法及其模型搭建方法。

背景技术

通常，正常听力的听众能够专注于特定的声学刺激，针对目标语音或感兴趣的语音，同时过滤掉其他声音，这种众所周知的现象被称为鸡尾酒会效应，因为它类似于鸡尾酒会上发生的情况，由此引发了人们对语音增强这一问题的关注。语音增强的目的是消除信号中的噪声成分同时保留干净的语音信号，提高语音质量和可懂度。随着数字信号处理技术的发展，语音增强技术也得到了很大的发展和改进。通过数字技术对语音信号进行滤波、增强、去混响等处理，语音信号的质量和清晰度得以进一步提高。基于数字信号处理技术的语音增强，可以分为传统的数字语音增强方法和基于神经网络的语音增强方法两大类。

传统的数字语音增强方法通常是基于时域或频域进行信号处理的，常见的方法包括谱减法、维纳滤波法、子空间法等。其只适用于简单噪声场景，但现实中的噪声场景通常比较复杂。近年来，由于具有良好的泛化性能，可以从大量的数据中自动学习特征，应对不同的语音增强场景和任务，深度学习在语音增强领域的应用逐渐增多。众多表现良好的语音增强的模型被提出。

然而，语音感知本质上是多模态的，特别是视听，因为除了到达听众耳朵的声学语音信号之外，一些有助于语音产生的发音器官（例如舌头、牙齿、嘴唇、下巴和面部表情）的位置和运动也可能对接收者可见。神经科学和言语感知的研究表明，言语的视觉方面对人类将听觉注意力集中在特定刺激上的能力有潜在的强烈影响。2018年谷歌提出了一个基于深度学习联合视听语音分离/增强模型，相比纯音频方法显著提高了其增强性能。但上述方法对视听信息融合方面做的不够充分，如何有效地结合音视频特征，使其提高语音增强效果仍然值得探讨。

发明内容

针对上述问题，本发明第一方面提供了一种联合语音增强模型的搭建方法，包括以下过程：

步骤1，获取若干说话人的视频和相应音频的原始数据；

步骤2，对步骤1中获取的原始数据进行预处理；将视频分别处理为一帧一帧的图像，同时从原始数据中随机选取一个说话人的数据和一个噪声数据，将其中的音频混合按一定比例混合后对混合语音做短时傅里叶变换得到语音的语谱图，结合说话人数据对应的面部帧构建数据集，并划分为训练集、验证集和测试集；

步骤3，基于Resnet18网络结构和CBAM注意力机制，构建视觉特征处理模块；基于3个CNN卷积块的组合，构建音频特征处理模块；基于SE模块结构，在传统的SE模块基础上增加了视频流输入，对视听特征分别进行压缩，然后合并压缩特征，最后由输入音频特征进行激励，构建为一个双路SE视听特征融合模块；基于双向LSTM网络结构和全连接层，构建为网络输出模块；将上述四个网络模块结合，构建为基于挤压激励融合视听特征的联合语音增强模型；

其中，模型将混合语音的语谱图和视频面部帧作为输入，模型输出为预测音频语谱图，最终将预测语谱图进行逆短时傅里叶变换得到最终预测音频；

步骤4，使用预处理后的数据集对构建的联合语音增强模型进行训练与测试评估，获取最终联合语音增强模型。

优选的，所述步骤2中预处理的具体过程为：

首先将每一个视频以每秒25帧进行裁剪，得到按照时间维度排列的图像，对于每一张图像使用现有的基于OpenCV库的MTCNN人脸检测器提取每张图片中的目标说话人的人脸缩略图，使用Facenet预训练模型来提取每个人脸缩略图的人脸特征，Facenet预训练模型经过训练大量人脸图片得到；然后从原始数据中随机选取一个说话人的数据和一个噪声数据，将其中的音频混合后对混合语音做短时傅里叶变换得到语音的语谱图，结合说话人数据对应的面部特征构建数据集。

优选的，所述视觉特征处理模块由修改后的Resnet18残差网络和卷积块注意力模块CBAM组成；

所述修改后的Resnet18残差网络，包括1个conv5卷积层，4个conv_res层；其中conv5层由大小为5×5步长为1的卷积核、批归一化BN层以及ReLU激活函数组成，每个conv_res层由两个相同的卷积块组成，每个卷积块包含一个大小为1×7步长为1的卷积核、BN层以及ReLU激活函数；卷积块的输入输出公式可由下式表示：

y = ReLU(x + BN(conv_res (ReLU(BN(conv_res (x))))))

其中，x代表卷积块的输入，y代表卷积块的输出；所述conv_res是1×7卷积运算；修改后的Resnet18残差网络的输出作为CBAM模块的输入；

所述CBAM模块由通道注意力模块和空间注意力模块组成，所述CBAM模块位于修改后的Resnet18残差网络之后，用于高效的提取和音频相关性较大的人脸关键区域，忽略人脸之外的次要区域；

所述CBAM模块的输出作为网络提取的初步视觉特征，其用作双路SE视听特征融合模块的一部分输入。

优选的，所述音频特征处理模块由3个CNN卷积块组成；每个卷积块包括2D卷积层、批量归一化BN和Relu激活函数；所述2D卷积层卷积核大小为55，步长为1；所述CNN卷积块的输出作为网络提取的初步音频特征，其用作双路SE视听特征融合模块的另一部分输入。

优选的，所述双路SE视听特征融合模块，基于挤压激励模块改进，包括一个2D卷积层、双路SE视听特征融合结构、批量归一化BN和Relu激活函数；

所述2D卷积层为处理音频特征处理模块的输出，其由一个大小为5×5步长为1的卷积核、一个BN层以及一个ReLU激活函数组成；

所述双路SE视听特征融合结构输入为处理视觉特征处理模块的输出和2D卷积层处理后的音频特征，其结构由对视频输入特征进行压缩操作，对音频输入特征进行压缩操作、1D卷积层调整通道维度操作、延展成1维向量的操作，对压缩后的音视频特征进行拼接操作，对拼接后的音视频特征利用全连接层重塑维度操作，将输入音频特征与重塑后的音视频融合特征进行哈达玛乘积操作；

视频输入特征压缩操作为，对输入视频特征进行全局平均池化，即空间注意力机制操作；压缩的视频特征为一个一维向量；

音频输入特征压缩操作为，对输入音频特征进行计算通道维度的平均值，即空间注意力机制操作；

所述1D卷积层调整通道维度操作，是将压缩后的音频输入特征进行1D卷积，调整维度；

所述延展成1维向量的操作，是将调整维度后的音频特征重塑为一个一维向量；

所述压缩后的音视频特征进行拼接操作，是将上述得到的两个音视频一维特征拼接成一个新的音视频融合一维特征向量；

所述拼接后的音视频特征利用全连接层重塑维度操作，是利用两个全连接层将音视频融合一维特征向量先利用第一个全连接层压缩，其中压缩因子r=16，之后利用第二个全连接层将其还原为输入音频特征时间维度和频率维度相乘的大小；

所述输入音频特征与重塑后的音视频融合特征进行哈达玛乘积操作公式如下：

其中为双路SE视听特征融合结构输出，/>为经过2D卷积层的音频特征，/>为重塑后的音视频融合特征；

所述批量归一化BN和Relu激活函数用于处理双路SE视听特征融合结构输出。

优选的，所述双路SE视听特征融合模块在联合语音增强模型结构中将重复多次，并且模块与模块之间将使用残差思想连接，公式如下：

其中为第/>个融合模块的输出，/>为第/>个融合模块输出，/>为第/>个融合模块的最终输出。

优选的，所述网络输出模块由双向LSTM网络结构和三个全连接层构成；

所述双向LSTM网络用于更好地捕捉双向的语义依赖，所述三个全连接层，其中最后一个全连接层的维度等于模型输入音频特征。

优选的，所述步骤4中对构建的联合语音增强模型进行训练与测试评估，在训练过程中使用复数域理想比值掩码CRM作为音频的训练目标，使用均方误差MSE损失计算真实音频掩码和预测音频掩码的差异，CRM的计算公式如下所示：

其中，其中，和/>代表混合语音信号的实部和虚部，/>和/>代表干净语音的实部和虚部。

优选的，所述步骤2中，对混合语音做短时傅里叶变换得到语音的语谱图，音频采样率为16kHz，音频片段长度为3s，STFT帧长为512个采样点，帧移为160个采样点，采用汉宁窗。

本发明第二方面还提供了一种联合语音增强方法，包括以下过程：

获取包含有说话人的视频和相应音频；

将获取的视频和相应音频进行处理，分别提取混合语音的语谱图和视频面部帧；

将语谱图和视频面部帧输入到如第一方面所述的搭建方法所搭建的最终联合语音增强模型中；

输出最终预测音频。

本发明第三方面还提供了一种联合语音增强设备，所述设备包括至少一个处理器和至少一个存储器，所述处理器和存储器相耦合；所述存储器中存储有如第一方面所述的搭建方法所搭建的最终联合语音增强模型的计算机执行程序；所述处理器执行存储器中存储的计算机执行程序时，可以使处理器执行一种联合语音增强方法。

本发明第四方面还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有如第一方面所述的搭建方法所搭建的最终联合语音增强模型的计算机执行程序，所述计算机执行程序被处理器执行时，可以使处理器执行一种联合语音增强方法。

与现有技术相比，本发明具有如下有益效果：

本发明提出了一种基于挤压激励融合视听特征的模块构建的视听语音增强模型，轻量化了音频模态和视频模态的处理部分，并把重点放在了双路SE视听特征融合模块上，SE模块算法能让网络更好地利用视觉信息和音频信息之间的内在联系，可以实现更好的语音增强性能；针对于传统的级联融合或是加法融合模式，这两种融合方法简单直接且不需要计算，但是在模型中这种简单的融合会损失很多有用的信息，从而导致分离的音频的效果不够准确，本发明提出的融合方法在效果上明显占优；相比于单纯使用音频信号的频域特征，本发明对混合语音信号做STFT变换，充分的利用语音信号的幅度信息和相位信息。

附图说明

图1为本发明提出的联合语音增强模型的框架图。

图2为本发明中双路SE视听特征融合模块结构图。

图3为本发明中音频特征处理模块中卷积层结构图。

图4为本发明中视觉特征处理模块结构图。

图5为本发明中CBAM注意力机制示意图。

图6为本发明实施例1中真值频谱图。

图7为本发明实施例1中混合音频频谱图。

图8为本发明实施例1中预测音频频谱图。

图9为本发明实施例2中联合语音增强设备结构简图。

具体实施方式

实施例1：

本实施例通过具体实验场景，对本发明展开进一步说明。

本实施例选取AVspeech和Voxceleb2数据集，AVspeech数据集是一个公开的大规模视听数据集，包括没有干扰背景信号的语音片段。这些片段的长度各不相同，在3到10秒之间，在每个片段中，视频中唯一可见的面孔和唯一可听到的声音属于一个说话的人。总的来说，该数据集包含大约4700个小时的视频片段，大约有150000个不同的演讲者，涵盖了各种各样的人、语言和面部姿势。Voxceleb2数据集包含来自YouTube的名人声音。该数据集包含5994名说话者，训练集中共有1092009个片段，测试集中有118名说话者，36237个片段。本实施例训练用的每段视频为3s。

选取噪声的数据集包括ESC50、MS-SNSD和VOICe，它们涵盖了不同的噪声类别，如自然声音、人类非语音声音、城市噪声和家庭声音。从中选取500条噪音，与2000条语音片段进行随机融合成200000条混合语音，同样将其以8.5:1:0.5 的比例划分成训练集、测试集和验证集。控制信噪比的公式如下：

(1)

其中为纯净语音，/>为噪声，/>为加噪语音，/>为控制信噪比系数取值范围为/>，/>越大信噪比越低。

1.视频特征输入预处理：将每一个视频以每秒25帧进行裁剪，得到3*25=75张按照时间维度排列的图像。对于每一张图像使用现有的基于OpenCV库的MTCNN人脸检测器或离线人脸检测器（例如Google Cloud Vision API）提取每张图片中的目标说话人的人脸缩略图。使用Facenet预训练模型来提取每个人脸缩略图的人脸特征，Facenet是通过深度可分离卷积将人脸映射到欧式空间的特征向量上，通过判断不同图片人脸特征的距离来进行人脸识别。Facenet预训练模型经过训练数百万张人脸图片得到。使用Facenet网络中空间不变的最低层，为每个侦测到的人脸缩略图提取出一个人脸嵌入向量，本实施例将每个人脸嵌入向量设置为1792维。使用预训练模型提取人脸特征的原理是，每个人脸的嵌入向量保存了识别数百万张人脸图片所必要的信息，同时丢弃了图像之间不相关的变化，例如照明信息，背景信息等。有相关工作表明，从这些人脸嵌入向量恢复面部表情是可行的。也有相关工作用实验验证了，用原始图像输入和人脸嵌入向量输入没有提高语音增强模型性能。处理后的每个说话人的人脸特征维度为(75,1,1792,n)，n为说话人个数。该特征将作为模型视频流部分的输入。

2.音频特征输入预处理：由于人耳可以分辨的语音频率范围是0~8000Hz，根据采样定理，选取训练语音的采样率为16kHz。所以每一段初始的音频为一段一维的时间序列，其维度为(48000,)。随后计算了这3秒音频的短时傅里叶变换STFT。计算得到语音的时频域为一个复数域，公式(2)为复数域的表达式:

(2)

将复数域的实部和虚部/>分别提取出来，实部/>代表音频的幅值特征，虚部/>代表音频的相位特征，将二者在新的维度上堆叠，这样会把3秒音频由一段时间序列的一维数据，处理为一个三维数据同时不损失其信息，其维度为/>。其中/>分别为时间维度和频率维度。同时还使用幂律压缩来抑制可能出现的啸叫对模型带来的影响，幂律压缩系数/>。对于具体参数，在实验中所用到的帧长为512个采样点，帧移为160个采样点，采用汉宁窗。这样通过STFT计算得到的音频特征维度为(298,257,2)。其中298为时间维度大小，257为频率维度大小，2为提取出视频域实部和虚部堆叠后的通道维度。处理后的音频特征将作为模型音频流部分的输入。其原始真值频谱图如图6所示，预处理后的混合音频频谱图如图7所示。

3.模型结构：模型结构分为四个部分，包括音频特征处理模块、视觉特征处理模块、双路SE视听特征融合模块、网络输出模块。模型总体结构如图1所示。

对于音频流特征，在经过短时傅里叶变换之后，输入音频流被用作CNN卷积块的输入。每个卷积块包括2D卷积层（卷积核大小为55，步长为1）、批量归一化(BN)和Relu激活函数。在经过/>个卷积块操作之后，音频流输入被输出为音频流特征，以用于视听特征融合模块，每个音频特征的维度为(298,257,/>)，其中/>是经过/>个卷积块处理后音频特征的通道维度，处理后的音频特征记为/>。音频特征处理模块中卷积层结构如图3所示。

对于视觉流特征，将其送入网络中的视频特征处理模块，结构如图4所示，该模块由Resnet18残差模块和卷积块注意力模块(CBAM)组成，CBAM注意力机制如图5所示，这个两个模块在图像处理、识别领域中均有很好的面部特征提取能力，其详细原理不再赘述。经过视觉特征处理模块的处理后，视频特征维度变为(75,1,)，经过上采样与音频特征在时间维度上对齐得到视频特征维度为(298,1,/>)。由相关工作可以看出，口腔区域在语音分离或增强的视频特征中起着最重要的作用。然而，眼睛和脸颊等其他区域也有助于这一过程。因此，输入的视频特征经过网络模块后，网络模块可以检测到大部分嘴唇特征和其他区域的一些特征。处理后的视频特征称为/>。

视听特征融合模块：将处理过的视频特征和音频特征/>一起送入视听特征融合模块中，其结构如图2所示，音频特征先经过一层2D卷积层后和视频特征一起送入挤压激励融合模块中。视频输入特征/>进行全局平均池化，也就是进行通道注意力机制，这样获得了视频特征的一维向量/>其维度为(1,1,/>)，该一维特征向量代表着视觉信息在不同通道上的重要程度。音频输入特征/>在通道维度上进行压缩操作，计算通道维度的平均值，该空间注意力机制的操作意为注意到音频特征中重要音频信息的位置，得到/>其维度为/>，随后对其1D卷积压缩频率维度得到/>其维度为/>，再对/>进行延展操作得到/>其维度为/>。经过对视频特征和音频特征的压缩可以得到两个一维向量/>和/>将二者进行拼接得到了初步融合特征/>其维度为/>，之后利用全连接层先将/>压缩为/>，其中/>。再将压缩后的/>进行延长至与/>相同的维度得到/>，随后重塑/>的维度为/>，其为/>。利用哈达玛乘积，将输入音频特征/>与/>相乘得到了与输入音频特征维度相同的视听融合特征/>，公式如下:

(3)

对进行批量归一化BN和Relu激活函数得到视听特征融合模块的输出/>。为了充分融合视频特征和音频特征，该视听融合模块总共循环/>次，之后也会对/>的大小进行实验，每个模块之间利用残差结构的思想，在第/>个融合模块的输出/>与第/>个融合模块输出/>进行相加，得到第/>个融合模块的最终输出：

(4)

网络输出模块：将完成次视听融合模块操作的视听特征和视频特征进行拼接，随后将其馈送到Bi-LSTM中，然后馈送至三个全连接层，同样最后一个全连接层的维度等于输入音频的频率维度乘初始通道数2再乘要分离说话人人数n，即(298,257*2*n)(由于是语音增强模型，n取1)，来还原与输入音频复数域相同的维度。最终输出为混合音频输入频谱和CRM掩码相乘得到相应的预测频谱。使用逆短时傅里叶变换(ISTFT)获得最终输出去噪语音。干净语音与带噪语音计算得到的CRM掩码和预测CRM掩码之间的均方误差(MSE)被用作网络训练的损失函数。预测音频频谱图如图8所示。

4.模型训练

训练目标：复数理想比率掩码(CRM)

CRM是在复数域的理想比值掩膜，同时增强幅度谱和相位谱，基本表达式如下：

(5)

其中和/>分别纯净语音和带噪语音经过STFT的复数谱，/>是CRM，∗是复数乘法，其中

解方程得：

(6)

最终：

(7)

由于复数掩码可能具有较大的实部分量和虚部分量，其值在的范围内。这不利于使用神经网络进行监督学习。较大的取值范围可能使CRM估计复杂化。因此，用下面的双曲正切压缩CRM：

(8)

这种压缩产生使掩码值控制在以内，/>控制其陡度。对/>和/>的值进行了评估，实验表明/>和/>在结果上表现最好，并用于训练。在模型验证期间，模型输出/>使用以下逆函数恢复未压缩掩码：

(9)

损失函数:实验采用均方误差(Mean Squared Error，MSE)为损失函数来进行模型的训练。其具体的定义如下：

(10)

和语音分离实验不同的是，语音增强只需要考虑一个人的语音，所以其损失函数不存在不同说话人之间的干扰，只需考虑预测掩码和真值掩码之间的差异。

5.实验结果及评估

消融实验：表1给出了最终联合语音增强模型在不同模型配置下的评估结果。具体来说，通过调整其中提到的个音频预处理模块和/>个视听融合模块的数量来测试对应语音增强的性能。首先，对比/>的个数对整体性能的影响，取/>的默认值为3。/>先取0，用简单的级联操作来融合视听特征并将其实验结果作为基准，随后将/>的值从3逐步递增至9。本实验还对比了添加视频特征处理模块、添加音频特征处理模块、视听特征融合模块中视听特征的激励方式和双向LSTM对网络性能的影响。

表1所示的结果中V1-V8的实验表明，在音频特征经过预处理模块之后，经过7次视听融合模块也就是=7时，网络的性能达到最优。当/><7时，网络的深度在一定范围内性能大体呈上升趋势，而当/>>7时，网络深度的进一步加深反而会因为网络复杂度的提升而导致训练困难。在/>，也就是视听特征进行级联操作时，网络的性能明显低于任何一个有视听融合模块的网络。所以视听融合模块是必要的。V9-V12是对网络进行的消融实验，结果表明无论是对视听特征的激励方式做出改变还是减少视频特征、音频预处理模块、Bi-LSTM等，都或多或少的降低了网络对语音的增强效果。在计算复杂度上，由于视听融合模块中的全连接层存在，整体网络的训练参数较其他提出的深度神经网络来说要多一些。就训练时间来说，V6的每一个epoch的训练时间大约是V3的二倍，所以就轻量化来说，我们认为V3的网络结构也是一个不错的选择。

表1 消融实验

与其他相关语音增强模型对比实验：本发明提出的模型与几种视听语音增强模型或纯音频模型进行了比较，包括：Audio-only CRN，一种基于CRN的纯音频语音增强模型；L2L一种基于视听神经网络的单通道、与说话者无关的语音增强/分离模型；VSE，一种用于视觉语音增强的视听神经网络；AV-(SE)²一种具有多个跨模态融合块的视听语音增强模型；MHCA-AVCRN一种利用多头注意力学习视听亲和力的改进视听语音增强模型；实验的具体对比结果如表2所示。

表2 对比实验

表2中的数据表明，通过与以上几种最近提出的利用深度神经网络的视听语音增强方法比较，本发明提出的模型在各项性能上有着最优秀的结果。

实施例2：

如图9所示，本发明同时提供了一种联合语音增强设备，设备包括至少一个处理器和至少一个存储器，同时还包括通信接口和内部总线；存储器中存储有计算机执行程序；存储器中存储有如实施例1所述的搭建方法所搭建的最终联合语音增强模型的计算机执行程序；所述处理器执行存储器中存储的计算机执行程序时，可以使处理器执行一种联合语音增强方法。其中内部总线可以是工业标准体系结构(Industry Standard Architecture，ISA)总线、外部设备互连(Peripheral Component，PCI)总线或扩展工业标准体系结构(.XtendedIndustry Standard Architecture，EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，本申请附图中的总线并不限定仅有一根总线或一种类型的总线。其中存储器可能包含高速RAM存储器，也可能还包括非易失性存储NVM，例如至少一个磁盘存储器，还可以为U盘、移动硬盘、只读存储器、磁盘或光盘等。

设备可以被提供为终端、服务器或其它形态的设备。

图9是为示例性示出的一种设备的框图。设备可以包括以下一个或多个组件：处理组件，存储器，电源组件，多媒体组件，音频组件，输入/输出(I/O)的接口，传感器组件，以及通信组件。处理组件通常控制电子设备的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件可以包括一个或多个处理器来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件可以包括一个或多个模块，便于处理组件和其他组件之间的交互。例如，处理组件可以包括多媒体模块，以方便多媒体组件和处理组件之间的交互。

存储器被配置为存储各种类型的数据以支持在电子设备的操作。这些数据的示例包括用于在电子设备上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

通信组件被配置为便于电子设备和其他设备之间有线或无线方式的通信。电子设备可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，电子设备可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

实施例3：

本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有如实施例1所述搭建方法所搭建的联合语音增强模型的计算机执行程序，所述计算机执行程序被处理器执行时，可以使处理器执行一种联合语音增强方法。

具体地，可以提供配有可读存储介质的系统、装置或设备，在该可读存储介质上存储着实现上述实施例中任一实施例的功能的软件程序代码，且使该系统、装置或设备的计算机或处理器读出并执行存储在该可读存储介质中的指令。在这种情况下，从可读介质读取的程序代码本身可实现上述实施例中任何一项实施例的功能，因此机器可读代码和存储机器可读代码的可读存储介质构成了本发明的一部分。

上述存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘（如 CD-ROM、CD-R、CD-RW、DVD- 20 ROM、DVD-RAM、DVD-RW、DVD-RW）、磁带等。存储介质可以是通用或专用计算机能够存取的任何可用介质。

应理解存储介质耦合至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息。当然，存储介质也可以是处理器的组成部分。处理器和存储介质可以位于专用集成电路(Application Specific Integrated Circuits，简称：ASIC)中。当然，处理器和存储介质也可以作为分立组件存在于终端或服务器中。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本公开的各个方面。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

上述虽然对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种联合语音增强模型的搭建方法，其特征在于，包括以下过程：

步骤1，获取若干说话人的视频和相应音频的原始数据；

2.如权利要求1所述的一种联合语音增强模型的搭建方法，其特征在于，所述步骤2中预处理的具体过程为：

3.如权利要求1所述的一种联合语音增强模型的搭建方法，其特征在于：所述视觉特征处理模块由修改后的Resnet18残差网络和卷积块注意力模块CBAM组成；

y = ReLU(x + BN(conv_res (ReLU(BN(conv_res (x))))))

4.如权利要求3所述的一种联合语音增强模型的搭建方法，其特征在于：所述音频特征处理模块由3个CNN卷积块组成；每个卷积块包括2D卷积层、批量归一化BN和Relu激活函数；所述2D卷积层卷积核大小为55，步长为1；所述CNN卷积块的输出作为网络提取的初步音频特征，其用作双路SE视听特征融合模块的另一部分输入。

5.如权利要求1所述的一种联合语音增强模型的搭建方法，其特征在于：所述双路SE视听特征融合模块，基于挤压激励模块改进，包括一个2D卷积层、双路SE视听特征融合结构、批量归一化BN和Relu激活函数；

6.如权利要求5所述的一种联合语音增强模型的搭建方法，其特征在于：所述双路SE视听特征融合模块在联合语音增强模型结构中将重复多次，并且模块与模块之间将使用残差思想连接，公式如下：

其中为第/>个融合模块的输出，/>为第/>个融合模块输出，/>为第个融合模块的最终输出。

7.如权利要求1所述的一种联合语音增强模型的搭建方法，其特征在于：所述网络输出模块由双向LSTM网络结构和三个全连接层构成；

8.如权利要求1所述的一种联合语音增强模型的搭建方法，其特征在于：所述步骤4中对构建的联合语音增强模型进行训练与测试评估，在训练过程中使用复数域理想比值掩码CRM作为音频的训练目标，使用均方误差MSE损失计算真实音频掩码和预测音频掩码的差异，CRM的计算公式如下所示：

9.如权利要求1所述的一种联合语音增强模型的搭建方法，其特征在于：所述步骤2中，对混合语音做短时傅里叶变换得到语音的语谱图，音频采样率为16kHz，音频片段长度为3s，STFT帧长为512个采样点，帧移为160个采样点，采用汉宁窗。

10.一种联合语音增强方法，其特征在于，包括以下过程：

获取包含有说话人的视频和相应音频；

将语谱图和视频面部帧输入到如权利要求1至9任意一项所述的搭建方法所搭建的最终联合语音增强模型中；

输出最终预测音频。