CN112216271B

CN112216271B - 一种基于卷积块注意机制的视听双模态语音识别方法

Info

Publication number: CN112216271B
Application number: CN202011080817.6A
Authority: CN
Inventors: 王兴梅; 赵一旭; 孙卫琦
Original assignee: Harbin Engineering University
Current assignee: Harbin Engineering University
Priority date: 2020-10-11
Filing date: 2020-10-11
Publication date: 2022-10-14
Anticipated expiration: 2040-10-11
Also published as: CN112216271A

Abstract

本发明提供一种基于卷积块注意机制的视听双模态语音识别方法，包括如下步骤：(1)对视听双模态信息数据集进行预处理；(2)提出构建CBAM‑AV‑LipNet模型；(3)完成基于卷积块注意机制的视听双模态语音识别任务，实现视听双模态语音识别任务。本发明利用提出构建的CBAM‑AV‑LipNet模型对测试集进行特征提取得到深层融合特征向量，对其进行CTC贪婪搜索解码，获得识别文本信息，完成视听双模态语音识别任务。本发明提出的基于卷积块注意机制的视听双模态语音识别方法较传统的语音识别方法和视觉语音识别模型LipNet具有良好的识别性能和收敛速度，同时具有一定的抗噪能力和有效性。

Description

一种基于卷积块注意机制的视听双模态语音识别方法

技术领域

本发明涉及一种视听双模态语音识别方法，尤其涉及一种基于卷积块注意机制的视听双模态语音识别方法，属于深度学习语音识别技术领域。

背景技术

随着信息技术的飞速发展，人机交互技术作为智能化生活的核心技术，吸引越来越多的研究学者投入到相关的研究工作中。其中，语音识别技术的出现使得计算机可以“听懂”人类的语音，真正意义上实现了人机交互。传统的语音识别技术是以听觉信息为研究对象，但由于在现实的音频环境中，存在大量噪声或存在多说话者的情况，传统的语音识别技术往往不能高效地识别音频信息内容。近年来，视觉信息作为传统语音识别方法的补充信息，被引入到语音识别技术中，它可以很好地提升高强度噪声或嘈杂环境中语音信息的识别率，产生的模型更具鲁棒性。因此，基于视觉的语音识别技术，以及听觉和视觉相结合的视听双模态语音识别方法得以快速发展。在已有的文献中最著名和效果最好的方法主要包括：1.基于视觉语音识别方法的端到端唇读网络：2016年Assael Y M,Shillingford B,Whiteson S,et al.Lipnet:End-to-end sentence-level lipreading.https://arxiv.org/abs/1611.01599.这篇论文是牛津大学、Google DeepMind和加拿大高等研究院(CIFAR)联合首次发布的第一个在唇读领域将深度学习应用于端到端学习的网络模型，具有重要价值的学术论文。提出利用深度学习实现语句层面的自动唇读技术LipNet模型，采用一种能够将可变长度的视频序列映射为文本的模型，完全是以端到端的方式训练，模型实现了93.4％的准确度，超过经验丰富的人类唇读者。2.基于CNN的单词级别视听双模态模型方法：2016年Chung J S,Zisserman A.Lip reading in the wild.Asian Conferenceon Computer Vision.Springer,Cham,2016:87-103.提出一种基于CNN的单词级别识别模型，该模型以VGG-M为基础，构建多路特征提取框架，最终获得良好的识别效果。3.基于深度循环神经网络的单词级别视听双模态语音识别模型：2018年Petridis S,Stafylakis T,MaP,et al.End-to-end audiovisual speech recognition.IEEE InternationalConference on Acoustics,Speech and Signal Processing(ICASSP).Calgary Canada:IEEE Computer Society,2018:6548-6552.提出利用ResNet结构对视觉、听觉双模态信息进行特征提取并得到特征向量，将特征向量分为正向、反向两个流，均经过LSTM提取时序特征得到新的特征向量，将上述两个特征向量融合完成最终的识别。4.基于SDBN和BLSTM注意力融合的端到端视听双模态语音识别模型：2019年王一鸣，陈恳，萨阿卜杜萨拉木·艾海提拉木.基于SDBN和BLSTM注意力融合的端到端视听双模态语音识别.电信科学，2019，35(12)：79-89.提出使用SDBN提取稀疏特征，BLSTM提取时序特征，通过注意力机制将视觉信息数据和听觉信息数据对齐，该模型具有一定的有效性和鲁棒性。5.基于DenseNet和resBi-LSTM的汉语唇读语音识别方法：2020年Xuejuan Chen,Jixiang Du,HongboZhang.Lipreading with DenseNet and resBi-LSTM.Signal,Image and VideoProcessing,2020:1-9.提出一种由三维卷积层、DenseNet和剩余双向长短期记忆神经网络组成的模型，采用多重注意力叠加模型将汉语拼音转换为汉字，最终获得汉字结果，其能有效地提高语音识别效果。

发明内容

本发明的目的是提供一种具有良好的识别性能和收敛速度，同时具有一定抗噪能力的基于卷积块注意机制的视听双模态语音识别方法。

本发明的目的是这样实现的：

(1)对视听双模态信息数据集进行预处理：①对视听双模态信息数据集中的原始图像序列提取嘴部ROI图像序列，进行图像增强；②对视听双模态信息数据集中的原始音频数据进行STFT算法处理及最大最小归一化处理；

(2)提出构建CBAM-AV-LipNet模型：①以3层CBAM-STCNN Module，1层Bi-GRU堆叠构成视觉流，提取视觉深层特征；②以3层CBAM-CNN Module，1层Bi-GRU堆叠构成听觉流，提取听觉深层特征；③将视觉深层特征和听觉深层特征在时间维度上连接，通过2层Bi-GRU、1层FC和softmax层提取深层融合特征；④以CTC损失函数计算损失值，反向传播更新模型参数，得到训练收敛的CBAM-AV-LipNet模型；

(3)完成基于卷积块注意机制的视听双模态语音识别任务：①利用CBAM-AV-LipNet模型对测试集进行特征提取得到深层融合特征向量；②对深层融合特征向量进行CTC贪婪搜索解码，获得识别文本信息，实现视听双模态语音识别任务。

本发明还包括这样一些特征：

1、在步骤(1)中对视听双模态信息数据集中的原始图像序列，使用Dlib脸部检测器提取嘴部ROI图像序列，进行颜色规范化并以概率p水平翻转完成图像增强处理，得到预处理视觉信息数据。

2、所述步骤(1)中对视听双模态信息数据集中的原始音频数据，使用滑窗大小为40ms，滑窗滑动步长为10ms，采样率为16kHz的STFT算法，得到321维的频谱矩阵，并对频谱矩阵使用最大最小归一化处理，得到预处理听觉信息数据。

3、在步骤(2)中CBAM-STCNN Module由时空卷积层、通道注意力模块以及空间注意力模块构成。其中，时空卷积层提取特征的卷积操作为：

表示第l层的输出，

表示第l-1层的输出，

为第l层的学习权重参数，

表示第l层的偏置，

表示激活函数，C表示通道数，T表示时间步长，W表示特征映射

的宽，H表示特征映射

的高。令

通道注意力模块提取通道特征的过程为：

F′_v表示视觉通道深层特征矩阵，F_v表示视觉时空深层特征，

表示外积操作，M_c(·)表示通道注意力矩阵，f₁(·)和f₂(·)表示卷积操作，AvgPool(·)为平均池化操作，MaxPool(·)为最大池化操作，sigm(·)为sigmoid激活函数。空间注意力模块提取空间特征的过程为：

F″_v表示视觉空间深层特征矩阵，

表示连接操作，M_s(·)表示空间注意力矩阵，f^7×7×7表示7×7×7的卷积层。

4、所述步骤(2)中使用Bi-GRU对视觉空间深层特征F″_v进一步提取视觉时序特征，得到视觉深层特征矩阵F_v-final。

5、所述步骤(2)中CBAM-CNN Module由卷积神经网络层、通道注意力模块以及空间注意力模块构成。卷积神经网络层提取特征的卷积操作为：

表示第l-1层的输出，

表示第l层的输出。

为第l层的学习权重参数，

表示第l层的偏置，

表示激活函数，C为通道数，T为时间步长，F表示特征映射

的尺寸大小。令

通道注意力模块提取通道特征的过程为：

F′_a为听觉通道深层特征矩阵，F_a为听觉卷积深层特征。空间注意力模块提取空间特征过程为：

F″_a表示听觉空间深层特征矩阵，f^7×7表示7×7的卷积层。

6、所述步骤(2)中使用Bi-GRU对听觉空间深层特征F″_a进一步提取听觉深层时序特征，得到听觉深层特征矩阵F_a-final。

7、所述步骤(2)中将视觉深层特征矩阵F_v-final和听觉深层特征矩阵F_a-final，在时间维度上进行连接，即

以2层Bi-GRU、1层FC和softmax层进行特征融合，提取视听双模态信息数据的深层融合特征。

8、所述步骤(2)中以softmax层的输出作为CBAM-AV-LipNet模型的输出，使用CTC损失函数计算其与真实标签的损失值，依此进行反向传播，利用链式法则找出最小损失梯度，并根据学习率更新网络参数，得到训练收敛的CBAM-AV-LipNet模型。具体学习过程为：

θ_CBAM-AV-lipnet为CBAM-AV-LipNet模型的网络参数，D为训练集，x表示样本信息输入，l表示标签序列，x_v为视觉信息数据，x_a为听觉信息数据，B为CTC预测变换，π表示CBAM-AV-LipNet模型输出的识别文本信息序列，p(l|x_v,x_a)表示给定输入x_a、x_v的情况下，CBAM-AV-LipNet模型的输出与真实标签l序列一致的概率。

9、在步骤(3)中对视听双模态信息数据测试集输入至CBAM-AV-LipNet模型中，利用视觉流提取视觉深层特征，听觉流提取听觉深层特征，将提取的特征融合，进一步提取深层融合特征，得到深层融合特征向量。

10、所述步骤(3)中对深层融合特征向量采用CTC贪婪搜索解码算法进行解码，得到视听双模态信息数据的识别文本信息，最终完成视听双模态语音识别任务。

与现有技术相比，本发明的有益效果是：

a.由于原始视听双模态数据集GRID中存在冗余，并且数据中无用特征过多等问题，本发明提出对原始数据集分别进行预处理，得到图像增强的ROI图像序列和短时傅里叶变换的归一化音频数据；b.本发明在2016年牛津大学、Google DeepMind和CIFAR联合首次发布的第一个唇读领域视觉语音识别模型LipNet的基础上，为了提升模型的收敛速度和识别精度，对视觉信息和听觉信息的特征进行融合建立视听唇读网络模型AV-LipNet，并引入基于卷积块注意机制提出构建CBAM-AV-LipNet模型；c.在本发明提出构建的CBAM-AV-LipNet模型中，是以CBAM-STCNN Module和Bi-GRU构成视觉流提取视觉深层特征，以CBAM-CNN Module和Bi-GRU构成听觉流提取听觉深层特征。将视觉深层特征和听觉深层特征在时间维度上连接，通过Bi-GRU、FC和softmax层提取深层融合特征。以CTC损失函数计算损失值，并反向传播更新参数，得到训练收敛的CBAM-AV-LipNet模型；d.本发明利用提出构建的CBAM-AV-LipNet模型对测试集进行特征提取得到深层融合特征向量，对其进行CTC贪婪搜索解码，获得识别文本信息，完成视听双模态语音识别任务。本发明提出的基于卷积块注意机制的视听双模态语音识别方法较传统的语音识别方法和视觉语音识别模型LipNet具有良好的识别性能和收敛速度，同时具有一定的抗噪能力和有效性。

附图说明

图1是本发明方法的流程图；

图2是ROI图像示例图；

图3是本发明提出CBAM-AV-LipNet模型的结构图；

图4是各语音识别模型的识别结果图，图4(a)是LipNet处理的视觉信息数据及识别文本结果，图4(b)是A-LipNet处理的听觉信息数据及识别文本结果，图4(c)是AV-LipNet处理的视听双模态信息数据及识别文本结果，图4(d)是CBAM-AV-LipNet处理的视听双模态信息数据及识别文本结果；

图5是前100轮各语音识别模型训练损失曲线图；

图6是前100轮各语音识别模型训练单词错误率曲线图

图7是各强度噪声下的部分听觉信息数据波形图示例，图7(a)是纯净听觉信息数据波形图，图7(b)是低噪(20dB)听觉信息数据波形图，图7(c)是中噪(10dB)听觉信息数据波形图，图7(d)是高噪(-5dB)听觉信息数据波形图；

图8是低噪(20dB)强度下各语音识别模型的识别结果图，图8(a)是低噪强度下LipNet处理的视觉信息数据及识别文本结果，图8(b)是低噪强度下A-LipNet处理的听觉信息数据及识别文本结果，图8(c)是低噪强度下AV-LipNet处理的视听双模态信息数据及识别文本结果，图8(d)是低噪强度下CBAM-AV-LipNet处理的视听双模态信息数据及识别文本结果；

图9给出中噪(10dB)强度下各语音识别模型的识别结果图，图9(a)是中噪强度下LipNet处理的视觉信息数据及识别文本结果，图9(b)是中噪强度下A-LipNet处理的听觉信息数据及识别文本结果，图9(c)是中噪强度下AV-LipNet处理的视听双模态信息数据及识别文本结果，图9(d)是中噪强度下CBAM-AV-LipNet处理的视听双模态信息数据及识别文本结果；

图10给出高噪(-5dB)强度下各语音识别模型的识别结果图，图10(a)是高噪强度下LipNet处理的视觉信息数据及识别文本结果，图10(b)是高噪强度下A-LipNet处理的听觉信息数据及识别文本结果，图10(c)是高噪强度下AV-LipNet处理的视听双模态信息数据及识别文本结果，图10(d)是高噪强度下CBAM-AV-LipNet处理的视听双模态信息数据及识别文本结果。

具体实施方式

下面结合附图与具体实施方式对本发明作进一步详细描述。

结合图1，本发明的具体步骤如下：

(1)视听双模态信息数据集预处理

为适应视听双模态语音识别模型，首先需将视频信息中的原始图像序列和音频数据进行分离，分别进行预处理。针对原始视听双模态数据集中存在冗余，且数据中无用特征过多等问题，本发明分别对原始图像序列和音频数据进行预处理。

①原始图像序列预处理

原始的图像序列实际上存在大量的冗余信息。为了取得更好的处理效果，对原始图像序列进行嘴部ROI提取。本发明使用DLib脸部探测器对原始图像序列的脸部区域进行68点定位，从而裁剪出以嘴部为中心的ROI图像序列，尺寸为H_v×W_v。ROI图像示例如图2所示。

对ROI图像序列进行颜色规范化处理，即：

X_v＝X_v/255.0

式中，X_v表示ROI图像序列。

在ROI图像序列中，以概率p进行水平翻转完成图像增强，即：

得到预处理视觉信息数据。

②原始音频数据预处理

在听觉流的处理过程中，若直接以原始音频数据作为输入进行特征提取等操作，会存在无用特征过多的问题，本发明使用滑窗大小为40ms，滑窗滑动步长为10ms，采样率为16kHz的STFT算法，得到321维的频谱矩阵。使得听觉、视觉信息数据一一对应。对频谱矩阵使用最大最小归一化处理，有：

其中，X_a表示音频频谱矩阵信息数据，X_{a_min}表示音频频谱矩阵信息数据中的最小值，X_{a_max}表示音频频谱矩阵信息数据中的最大值，X′_a表示音频频谱矩阵信息数据的最大最小归一化处理结果，即预处理后的听觉信息数据。

(2)提出构建CBAM-AV-LipNet模型

在唇读领域，为了提升视觉语音识别模型LipNet的收敛速度和识别精度，本发明对视觉信息和听觉信息的特征进行融合建立视听唇读网络模型AV-LipNet，并引入基于卷积块注意机制提出构建CBAM-AV-LipNet模型。本发明提出构建的CBAM-AV-LipNet模型分为特征提取、特征融合和训练收敛的CBAM-AV-LipNet模型三部分。其中，特征提取部分，以预处理视觉信息数据为输入，经过3层CBAM-STCNN Module，1层Bi-GRU堆叠构成的视觉流，提取视觉深层特征。以预处理听觉信息数据为输入，经过3层CBAM-CNN Module，1层Bi-GRU堆叠构成的听觉流，提取听觉深层特征。特征融合部分是将视觉深层特征和听觉深层特征在时间维度上连接，通过2层Bi-GRU、1层FC和softmax层提取深层融合特征。最后以CTC损失函数计算损失值，并反向传播更新参数，得到训练收敛的CBAM-AV-LipNet模型。图3是提出CBAM-AV-LipNet模型的结构图。

①提取视觉和听觉深层特征

视觉流中的CBAM-STCNN Module是由时空卷积层、通道注意力模块以及空间注意力模块构成。

时空卷积层提取特征的卷积操作为：

式中：

表示第l层的输出，

表示第l-1层的输出，

为第l层的学习权重参数，

表示第l层的偏置，

的宽，H表示特征映射

的高。

将每一层卷积操作的输出结果输入到空间池化层中。空间池化操作对经过卷积处理得到的视觉时空特征进行降维，进一步提取视觉信息数据的深层特征，可以达到减少网络参数，优化模型结构，加快运行速度，缓解大量参数训练导致的过拟合现象，提升模型鲁棒性的效果。

选取最大池化操作作为空间池化操作的操作方式，其过程为：

由于CBAM可使模型特异性地学习视觉信息数据特征，加快模型的训练速度，提升模型识别效果，本发明在每一层时空卷积层后连接一层CBAM。其中CBAM分为通道注意力模块和空间注意力模块。

通道注意力模块以时空卷积层的输出

即

为输入，在空间维度上对

进行最大池化操作和平均池化操作，分别得到通道池化向量

和

随后使用卷积共享网络对

和

进行处理得到新的通道池化向量

和

将二者相加并使用sigmoid激活函数使其值域映射至(0,1)，最终得到通道注意力矩阵M_c。将通道注意力矩阵M_c与时空卷积层的输出特征F_v相乘得到视觉通道深层特征矩阵F′_v。具体如下：

式中：F′_v表示视觉通道深层特征矩阵，F_v表示视觉时空深层特征，

表示外积操作，M_c(·)表示通道注意力矩阵，f₁(·)和f₂(·)表示卷积操作，AvgPool(·)为平均池化操作，MaxPool(·)为最大池化操作，sigm(·)为sigmoid激活函数。

空间注意力模块以视觉通道深层特征矩阵F′_v为输入，在通道维度上对F′_v进行最大池化和平均池化操作，分别得到空间池化向量

和

将空间池化向量

和

使用连接的方式进行合并，并利用卷积操作完成融合。使用sigmoid激活函数将其值域映射至(0,1)，最终得到空间注意力矩阵M_s。将空间注意力矩阵M_s与视觉通道深层特征矩阵F′_v相乘得到视觉空间深层特征矩阵F″_v。具体如下：

式中：F″_v表示视觉空间深层特征矩阵，

本发明利用Bi-GRU在时间维度上对视觉空间深层特征矩阵F″_v进行深层整合，进一步提取时序特征，即视觉深层特征矩阵F_v-final。具体提取特征的过程可描述为：

式中：

分别表示第1、2层Bi-GRU的更新门，r_t ⁽¹⁾∈[0,1]、r_t ⁽²⁾∈[0,1]分别表示第1、2层Bi-GRU的重置门，

分别表示第1、2层Bi-GRU的候选更新状态，

分别表示第1、2层Bi-GRU的隐状态，W^(·)，U^(·)，b^(·)为对应的学习参数，sigm(·)表示Logistic激活函数，tanh(·)表示tanh激活函数，h_t表示Bi-GRU的输出，即为视觉深层特征矩阵F_v-final。

听觉流中的CBAM-CNN Module是由卷积网络层、通道注意力机制模块以及空间注意力模块构成。

卷积网络层中提取特征的卷积操作为：

式中：

表示第l-1层的输出，

表示第l层的输出。

为第l层的学习权重参数，

表示第l层的偏置，

表示激活函数，C为通道数，T为时间步长，F表示特征映射

的尺寸大小。

同理，为了进一步提取听觉信息数据的深层特征且达到减少网络参数，优化模型结构的目的，在每一层卷积操作后连接一层池化层，池化操作的过程为：

F_a″＝MaxPool(F_a″)＝max(F_a″)

随后在每一层卷积网络层后连接一层CBAM，使得模型更有针对性地学习听觉信息数据特征。CBAM同样分为通道注意力模块和空间注意力模块，令

具体计算如下：

式中：F_a为听觉卷积深层特征，F_a′表示听觉通道深层特征矩阵，F_a″表示听觉空间深层特征矩阵，f^7×7表示7×7的卷积层。

最后，使用1层Bi-GRU对3层CBAM-CNN Module提取的听觉空间深层特征F_a″进一步提取听觉深层时序特征，得到听觉深层特征矩阵F_a-final。并与视觉流的视觉深层特征矩阵F_v-final结构完成统一。

②特征融合

将视觉深层特征矩阵F_v-final和听觉深层特征矩阵F_a-final，在时间维度上进行连接，连接过程为：

③训练收敛的CBAM-AV-LipNet模型

以softmax层的输出作为CBAM-AV-LipNet模型的输出，使用CTC损失函数计算其与真实标签的损失值，依此进行反向传播，利用链式法则找出最小损失梯度，并根据学习率更新网络参数，得到训练收敛的CBAM-AV-LipNet模型。具体学习过程为：

式中：θ_CBAM-AV-lipnet为CBAM-AV-LipNet模型的网络参数，D为训练集，x表示样本信息输入，l表示标签序列，x_v为视觉信息数据，x_a为听觉信息数据，B为CTC预测变换，π表示CBAM-AV-LipNet模型输出的识别文本信息序列，p(l|x_v,x_a)表示给定输入x_a、x_v的情况下，CBAM-AV-LipNet模型的输出与真实标签l序列一致的概率。

(3)完成基于卷积块注意机制的视听双模态语音识别任务

对视听双模态信息数据测试集输入至CBAM-AV-LipNet模型中，利用视觉流提取视觉深层特征，听觉流提取听觉深层特征，将提取的特征融合，进一步提取深层融合特征，得到深层融合特征向量。对深层融合特征向量采用CTC贪婪搜索解码算法进行解码，得到视听双模态信息数据的识别文本信息，最终完成视听双模态语音识别任务。

为验证本发明提出的一种基于卷积块注意机制的视听双模态语音识别方法的有效性，分别给出视觉语音识别模型LipNet、传统语音识别模型A-LipNet、视听唇读网络模型AV-LipNet和本发明提出的CBAM-AV-LipNet模型的结果比较，验证本发明对于唇读语音识别具有更好的效果。实验选取GRID数据集中S1/priv7a、S2/lrblzs、S3/lbwe5a、S8/bbae5n样本信息数据集展示部分实验结果。样本的标签文本分别为：PLACE RED IN V SEVENAGAIN、LAY RED BY L ZERO SOON、LAY BLUE WITH E FIVE AGAIN和BIN BLUE AT E FIVENOW。

图4给出了各语音识别模型的识别结果图。图4(a)是LipNet处理的视觉信息数据及识别文本结果，图4(b)是A-LipNet处理的听觉信息数据及识别文本结果，图4(c)是AV-LipNet处理的视听双模态信息数据及识别文本结果，图4(d)是CBAM-AV-LipNet处理的视听双模态信息数据及识别文本结果。

为定量分析各模型的识别性能，表1给出了各语音识别模型的测试识别单词错误率(WER)和测试识别字符错误率(CER)。

WER的计算公式为：

式中：WS、WD和WI分别为模型产生的单词序列向标签单词序列转换需要进行替换、删除、插入的单词数目。WN为标签单词序列的单词数目。

CER的计算公式为：

式中：CS、CD和CI分别为模型产生的字符序列向标签字符序列转换需要进行替换、删除、插入的字符数目。CN为标签字符序列的字符数目。

表1各语音识别模型测试识别单词错误率和字符错误率

模型	测试识别单词错误率	测试识别字符错误率
			LipNet	16.82％	6.56％
A-LipNet	2.14％	1.13％
			AV-LipNet	1.04％	0.42％
CBAM-AV-LipNet	1.02％	0.38％

从图4和表1可以看出，以视觉信息数据为输入的视觉语音识别模型LipNet的语音识别效果较差，以听觉信息数据为输入的传统语音识别模型A-LipNet的语音识别效果相对有提高。而以视听双模态信息数据为输入，对视觉信息和听觉信息的特征进行融合完成识别的视听唇读网络模型AV-LipNet和引入基于卷积块注意机制提出构建CBAM-AV-LipNet模型，可将识别错误率进一步降低。也再次验证本发明提出的CBAM-AV-LipNet模型具有更好的识别性能。

对LipNet、A-LipNet、AV-LipNet和本发明提出的CBAM-AV-LipNet模型进行收敛速度测试。图5给出前100轮各语音识别模型训练损失曲线图。图6给出前100轮各语音识别模型训练单词错误率曲线图。由图5可以看出，本发明提出的CBAM-AV-LipNet模型训练损失值下降很快，具有更快的收敛速度。另外在图6中，相同训练单词错误率的情况下，本发明提出的CBAM-AV-LipNet模型，所需要的训练轮数最少，再次证明该模型具有良好的收敛性能，也进一步说明CBAM-AV-LipNet引入卷积块注意力机制后可更好地分配隐层权重，加速模型收敛。

由于在真实复杂环境中，存在大量的噪声，而语音识别中的视觉信息数据不受听觉信息数据中噪声的影响，为测试各模型对含噪听觉信息数据的抗噪能力，本发明使用信噪比为20dB、10dB、-5dB三种高斯白噪声对视听双模态信息数据中的听觉信息数据进行加噪处理，分别得到噪声强度低、中、高三个含噪视听双模态信息数据集。图7是各强度噪声下的部分听觉信息数据波形图示例。图7(a)是纯净听觉信息数据波形图，图7(b)是低噪(20dB)听觉信息数据波形图，图7(c)是中噪(10dB)听觉信息数据波形图，图7(d)是高噪(-5dB)听觉信息数据波形图。

图8给出低噪(20dB)强度下各语音识别模型的识别结果图。图8(a)是低噪强度下LipNet处理的视觉信息数据及识别文本结果，图8(b)是低噪强度下A-LipNet处理的听觉信息数据及识别文本结果，图8(c)是低噪强度下AV-LipNet处理的视听双模态信息数据及识别文本结果，图8(d)是低噪强度下CBAM-AV-LipNet处理的视听双模态信息数据及识别文本结果。

图9给出中噪(10dB)强度下各语音识别模型的识别结果图。图9(a)是中噪强度下LipNet处理的视觉信息数据及识别文本结果，图9(b)是中噪强度下A-LipNet处理的听觉信息数据及识别文本结果，图9(c)是中噪强度下AV-LipNet处理的视听双模态信息数据及识别文本结果，图9(d)是中噪强度下CBAM-AV-LipNet处理的视听双模态信息数据及识别文本结果。

图10给出高噪(-5dB)强度下各语音识别模型的识别结果图。图10(a)是高噪强度下LipNet处理的视觉信息数据及识别文本结果，图10(b)是高噪强度下A-LipNet处理的听觉信息数据及识别文本结果，图10(c)是高噪强度下AV-LipNet处理的视听双模态信息数据及识别文本结果，图10(d)是高噪强度下CBAM-AV-LipNet处理的视听双模态信息数据及识别文本结果。

为定量分析各语音识别模型的抗噪性能，表2给出各语音识别模型在不同噪声强度下识别单词错误率。表3给出各语音识别模型在不同噪声强度下识别字符错误率。

表2各语音识别模型在不同噪声强度下识别单词错误率

表3各语音识别模型在不同噪声强度下识别字符错误率

从表2和表3可以看出，视觉语音识别模型LipNet在各种噪声下的识别率均不变，不受含噪听觉信息数据的影响。传统语音识别模型A-LipNet在低强度噪声的影响下，识别性能有提升，但在中强度和高强度噪声的影响下，其识别性能大幅下降，说明A-LipNet模型的抗噪性能相对较弱。视听唇读网络模型AV-LipNet在低强度和中强度噪声的影响下，仍能保持良好的识别性能，在高强度噪声的影响下，较A-LipNet模型在识别性能有一定程度的提高。本发明提出的CBAM-AV-LipNet模型在低强度噪声的影响下，能保持相对最好的识别性能，在中强度噪声的影响下，也能保持一定的识别性能，在高强度噪声的影响下，较A-LipNet、AV-LipNet在识别性能有较大的提高，说明CBAM-AV-LipNet具有良好的抗噪能力。

通过分别对LipNet、A-LipNet、AV-LipNet和本发明提出的CBAM-AV-LipNet模型进行识别性能测试、收敛速度测试及抗噪能力测试可以得出，本发明提出的CBAM-AV-LipNet模型具有更好的识别效果。同时由于本发明提出的CBAM-AV-LipNet模型是在AV-LipNet模型的基础上引入卷积块注意力机制，所以CBAM-AV-LipNet可以更合理的分配隐层参数权重，更快地学习视听双模态信息数据特征，具有更快的收敛速度。并且通过抗噪性能对比实验，验证了本发明提出的CBAM-AV-LipNet具有一定的抗噪能力和有效性。

本发明提供的是一种基于卷积块注意机制的视听双模态语音识别方法。包括如下步骤：(1)对视听双模态信息数据集进行预处理；(2)提出构建基于卷积块注意机制的视听唇读网络(Convolutional Block Attention Module Audio-Visual LipNet，CBAM-AV-LipNet)模型；(3)完成基于卷积块注意机制的视听双模态语音识别任务。本发明为了取得良好的视听双模态语音识别效果，提出一种基于卷积块注意机制的视听双模态语音识别方法。即针对原始视听双模态数据集中存在冗余，且数据中无用特征过多等问题，对原始数据集分别进行预处理，得到图像增强的嘴部兴趣区域(Region of Interest,ROI)图像序列和短时傅里叶变换(Short-Time Fourier Transform,STFT)的归一化音频数据；在此基础上，为了提升视觉语音识别模型LipNet的收敛速度和识别精度，对视觉信息和听觉信息的特征进行融合建立视听唇读网络模型(Audio-Visual LipNet，AV-LipNet)，并引入基于卷积块注意机制提出构建CBAM-AV-LipNet模型。以CBAM-时空卷积神经网络模块(CBAM-Spatiotemporal Convolutional Neural Networks Module,CBAM-STCNN Module)和双向门控循环单元网络(Bidirectional Gated Recurrent Unit，Bi-GRU)构成视觉流提取视觉深层特征，以CBAM卷积神经网络模块(CBAM-Convolutional Neural Networks Module,CBAM-CNN Module)和Bi-GRU构成听觉流提取听觉深层特征。进一步将视觉深层特征和听觉深层特征在时间维度上连接，通过Bi-GRU、全连接层(Fully Connected Layers，FC)和softmax层提取深层融合特征。最后以连接时序分类(Connectionist TemporalClassification,CTC)损失函数计算损失值，并反向传播更新参数，得到训练收敛的CBAM-AV-LipNet模型；利用提出构建的CBAM-AV-LipNet模型对测试集进行特征提取得到深层融合特征向量，对其进行CTC贪婪搜索解码，获得识别文本信息，完成视听双模态语音识别任务。本发明提出的基于卷积块注意机制的视听双模态语音识别方法具有良好的识别性能和收敛速度，同时具有一定的抗噪能力和有效性。

Claims

1.一种基于卷积块注意机制的视听双模态语音识别方法，其特征是，包括如下步骤：

(1)对视听双模态信息数据集进行预处理：①对视听双模态信息数据集中的原始图像序列提取嘴部ROI图像序列，进行图像增强，得到预处理视觉信息数据；②对视听双模态信息数据集中的原始音频数据进行STFT算法处理及最大最小归一化处理，得到预处理听觉信息数据；

(2)提出构建CBAM-AV-LipNet模型：①以3层CBAM-STCNN Module，1层Bi-GRU堆叠构成视觉特征提取网络，CBAM-STCNN Module由时空卷积层、通道注意力模块以及空间注意力模块构成；首先以预处理视觉信息数据为输入，通过CBAM-STCNN Module提取预处理视觉信息数据的视觉空间深层特征，随后利用Bi-GRU对视觉空间深层特征进一步提取视觉深层时序特征，得到视觉深层特征矩阵；②以3层CBAM-CNN Module，1层Bi-GRU堆叠构成听觉特征提取网络，CBAM-CNN Module由卷积神经网络层、通道注意力模块以及空间注意力模块构成；首先以预处理听觉信息数据为输入，通过CBAM-CNN Module提取预处理听觉信息数据的听觉空间深层特征，随后利用Bi-GRU对听觉空间深层特征进一步提取听觉深层时序特征，得到听觉深层特征矩阵；③将视觉特征提取网络提取到的视觉深层特征矩阵和听觉特征提取网络提取到的听觉深层特征矩阵在时间维度上连接，通过2层Bi-GRU、1层FC和softmax层提取深层融合特征；④以CTC损失函数计算损失值，反向传播更新模型参数，得到训练收敛的CBAM-AV-LipNet模型；

(3)将训练好的CBAM-AV-LipNet模型对测试数据进行识别以完成基于卷积块注意机制的视听双模态语音识别任务：①利用CBAM-AV-LipNet模型对测试集进行特征提取得到深层融合特征向量；②对深层融合特征向量进行CTC贪婪搜索解码，获得识别文本信息，实现视听双模态语音识别任务。

2.根据权利要求1所述的基于卷积块注意机制的视听双模态语音识别方法，其特征是：在步骤(1)中对视听双模态信息数据集中的原始图像序列，使用Dlib脸部检测器提取嘴部ROI图像序列，进行颜色规范化并以概率p水平翻转完成图像增强处理，得到预处理视觉信息数据。

3.根据权利要求1或2所述的基于卷积块注意机制的视听双模态语音识别方法，其特征是：所述步骤(1)中对视听双模态信息数据集中的原始音频数据，使用滑窗大小为40ms，滑窗滑动步长为10ms，采样率为16kHz的STFT算法，得到321维的频谱矩阵，并对频谱矩阵使用最大最小归一化处理，得到预处理听觉信息数据。

4.根据权利要求1所述的基于卷积块注意机制的视听双模态语音识别方法，其特征是：在步骤(2)中CBAM-STCNN Module由时空卷积层、通道注意力模块以及空间注意力模块构成；其中，时空卷积层提取特征的卷积操作为：

表示第l层的输出，

表示第l-1层的输出，

为第l层的学习权重参数，

表示第l层的偏置，

的宽，H表示特征映射

的高；令

通道注意力模块提取通道特征的过程为：

F_v′表示视觉通道深层特征矩阵，F_v表示视觉时空深层特征，

表示外积操作，M_c(·)表示通道注意力矩阵，f₁(·)和f₂(·)表示卷积操作，AvgPool(·)为平均池化操作，MaxPool(·)为最大池化操作，sigm(·)为sigmoid激活函数；空间注意力模块提取空间特征的过程为：

F_v″表示视觉空间深层特征矩阵，

5.根据权利要求1或4所述的基于卷积块注意机制的视听双模态语音识别方法，其特征是：所述步骤(2)中使用Bi-GRU对CBAM-STCNN Module提取到的视觉空间深层特征F_v″进一步提取视觉深层时序特征，得到视觉深层特征矩阵F_v-final。

6.根据权利要求1所述的基于卷积块注意机制的视听双模态语音识别方法，其特征是：所述步骤(2)中CBAM-CNN Module由卷积神经网络层、通道注意力模块以及空间注意力模块构成；卷积神经网络层提取特征的卷积操作为：

表示第l-1层的输出，

表示第l层的输出；

为第l层的学习权重参数，

表示第l层的偏置，

表示激活函数，C为通道数，T为时间步长，F表示特征映射

的尺寸大小；令

通道注意力模块提取通道特征的过程为：

F_a′为听觉通道深层特征矩阵，F_a为听觉卷积深层特征，

表示外积操作，M_c(·)表示通道注意力矩阵，f₁(·)和f₂(·)表示卷积操作，AvgPool(·)为平均池化操作，MaxPool(·)为最大池化操作，sigm(·)为sigmoid激活函数；空间注意力模块提取空间特征过程为：

F_a″表示听觉空间深层特征矩阵，

表示连接操作，M_s(·)表示空间注意力矩阵，f^7×7表示7×7的卷积层。

7.根据权利要求1所述的基于卷积块注意机制的视听双模态语音识别方法，其特征是：所述步骤(2)中使用Bi-GRU对CBAM-CNN Module提取到的听觉空间深层特征F_a″进一步提取听觉深层时序特征，得到听觉深层特征矩阵F_a-final。

8.根据权利要求1所述的基于卷积块注意机制的视听双模态语音识别方法，其特征是：所述步骤(2)中将视觉深层特征矩阵F_v-final和听觉深层特征矩阵F_a-final，在时间维度上进行连接，即

9.根据权利要求1所述的基于卷积块注意机制的视听双模态语音识别方法，其特征是：所述步骤(2)中以softmax层的输出作为CBAM-AV-LipNet模型的输出，使用CTC损失函数计算其与真实标签的损失值，依此进行反向传播，利用链式法则找出最小损失梯度，并根据学习率更新网络参数，得到训练收敛的CBAM-AV-LipNet模型；具体学习过程为：

10.根据权利要求1所述的基于卷积块注意机制的视听双模态语音识别方法，其特征是：在步骤(3)中对视听双模态信息数据测试集输入至训练收敛的CBAM-AV-LipNet模型中，利用视觉特征提取网络提取视觉深层特征，听觉特征提取网络提取听觉深层特征，将提取的特征融合，进一步提取深层融合特征，得到深层融合特征向量；所述步骤(3)中对深层融合特征向量采用CTC贪婪搜索解码算法进行解码，得到视听双模态信息数据的识别文本信息，最终完成视听双模态语音识别任务。