CN112216271B - 一种基于卷积块注意机制的视听双模态语音识别方法 - Google Patents

一种基于卷积块注意机制的视听双模态语音识别方法 Download PDF

Info

Publication number
CN112216271B
CN112216271B CN202011080817.6A CN202011080817A CN112216271B CN 112216271 B CN112216271 B CN 112216271B CN 202011080817 A CN202011080817 A CN 202011080817A CN 112216271 B CN112216271 B CN 112216271B
Authority
CN
China
Prior art keywords
visual
deep
cbam
lipnet
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011080817.6A
Other languages
English (en)
Other versions
CN112216271A (zh
Inventor
王兴梅
赵一旭
孙卫琦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Engineering University
Original Assignee
Harbin Engineering University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Engineering University filed Critical Harbin Engineering University
Priority to CN202011080817.6A priority Critical patent/CN112216271B/zh
Publication of CN112216271A publication Critical patent/CN112216271A/zh
Application granted granted Critical
Publication of CN112216271B publication Critical patent/CN112216271B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Signal Processing (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种基于卷积块注意机制的视听双模态语音识别方法,包括如下步骤:(1)对视听双模态信息数据集进行预处理;(2)提出构建CBAM‑AV‑LipNet模型;(3)完成基于卷积块注意机制的视听双模态语音识别任务,实现视听双模态语音识别任务。本发明利用提出构建的CBAM‑AV‑LipNet模型对测试集进行特征提取得到深层融合特征向量,对其进行CTC贪婪搜索解码,获得识别文本信息,完成视听双模态语音识别任务。本发明提出的基于卷积块注意机制的视听双模态语音识别方法较传统的语音识别方法和视觉语音识别模型LipNet具有良好的识别性能和收敛速度,同时具有一定的抗噪能力和有效性。

Description

一种基于卷积块注意机制的视听双模态语音识别方法
技术领域
本发明涉及一种视听双模态语音识别方法,尤其涉及一种基于卷积块注意机制的视听双模态语音识别方法,属于深度学习语音识别技术领域。
背景技术
随着信息技术的飞速发展,人机交互技术作为智能化生活的核心技术,吸引越来越多的研究学者投入到相关的研究工作中。其中,语音识别技术的出现使得计算机可以“听懂”人类的语音,真正意义上实现了人机交互。传统的语音识别技术是以听觉信息为研究对象,但由于在现实的音频环境中,存在大量噪声或存在多说话者的情况,传统的语音识别技术往往不能高效地识别音频信息内容。近年来,视觉信息作为传统语音识别方法的补充信息,被引入到语音识别技术中,它可以很好地提升高强度噪声或嘈杂环境中语音信息的识别率,产生的模型更具鲁棒性。因此,基于视觉的语音识别技术,以及听觉和视觉相结合的视听双模态语音识别方法得以快速发展。在已有的文献中最著名和效果最好的方法主要包括:1.基于视觉语音识别方法的端到端唇读网络:2016年Assael Y M,Shillingford B,Whiteson S,et al.Lipnet:End-to-end sentence-level lipreading.https://arxiv.org/abs/1611.01599.这篇论文是牛津大学、Google DeepMind和加拿大高等研究院(CIFAR)联合首次发布的第一个在唇读领域将深度学习应用于端到端学习的网络模型,具有重要价值的学术论文。提出利用深度学习实现语句层面的自动唇读技术LipNet模型,采用一种能够将可变长度的视频序列映射为文本的模型,完全是以端到端的方式训练,模型实现了93.4%的准确度,超过经验丰富的人类唇读者。2.基于CNN的单词级别视听双模态模型方法:2016年Chung J S,Zisserman A.Lip reading in the wild.Asian Conferenceon Computer Vision.Springer,Cham,2016:87-103.提出一种基于CNN的单词级别识别模型,该模型以VGG-M为基础,构建多路特征提取框架,最终获得良好的识别效果。3.基于深度循环神经网络的单词级别视听双模态语音识别模型:2018年Petridis S,Stafylakis T,MaP,et al.End-to-end audiovisual speech recognition.IEEE InternationalConference on Acoustics,Speech and Signal Processing(ICASSP).Calgary Canada:IEEE Computer Society,2018:6548-6552.提出利用ResNet结构对视觉、听觉双模态信息进行特征提取并得到特征向量,将特征向量分为正向、反向两个流,均经过LSTM提取时序特征得到新的特征向量,将上述两个特征向量融合完成最终的识别。4.基于SDBN和BLSTM注意力融合的端到端视听双模态语音识别模型:2019年王一鸣,陈恳,萨阿卜杜萨拉木·艾海提拉木.基于SDBN和BLSTM注意力融合的端到端视听双模态语音识别.电信科学,2019,35(12):79-89.提出使用SDBN提取稀疏特征,BLSTM提取时序特征,通过注意力机制将视觉信息数据和听觉信息数据对齐,该模型具有一定的有效性和鲁棒性。5.基于DenseNet和resBi-LSTM的汉语唇读语音识别方法:2020年Xuejuan Chen,Jixiang Du,HongboZhang.Lipreading with DenseNet and resBi-LSTM.Signal,Image and VideoProcessing,2020:1-9.提出一种由三维卷积层、DenseNet和剩余双向长短期记忆神经网络组成的模型,采用多重注意力叠加模型将汉语拼音转换为汉字,最终获得汉字结果,其能有效地提高语音识别效果。
发明内容
本发明的目的是提供一种具有良好的识别性能和收敛速度,同时具有一定抗噪能力的基于卷积块注意机制的视听双模态语音识别方法。
本发明的目的是这样实现的:
(1)对视听双模态信息数据集进行预处理:①对视听双模态信息数据集中的原始图像序列提取嘴部ROI图像序列,进行图像增强;②对视听双模态信息数据集中的原始音频数据进行STFT算法处理及最大最小归一化处理;
(2)提出构建CBAM-AV-LipNet模型:①以3层CBAM-STCNN Module,1层Bi-GRU堆叠构成视觉流,提取视觉深层特征;②以3层CBAM-CNN Module,1层Bi-GRU堆叠构成听觉流,提取听觉深层特征;③将视觉深层特征和听觉深层特征在时间维度上连接,通过2层Bi-GRU、1层FC和softmax层提取深层融合特征;④以CTC损失函数计算损失值,反向传播更新模型参数,得到训练收敛的CBAM-AV-LipNet模型;
(3)完成基于卷积块注意机制的视听双模态语音识别任务:①利用CBAM-AV-LipNet模型对测试集进行特征提取得到深层融合特征向量;②对深层融合特征向量进行CTC贪婪搜索解码,获得识别文本信息,实现视听双模态语音识别任务。
本发明还包括这样一些特征:
1、在步骤(1)中对视听双模态信息数据集中的原始图像序列,使用Dlib脸部检测器提取嘴部ROI图像序列,进行颜色规范化并以概率p水平翻转完成图像增强处理,得到预处理视觉信息数据。
2、所述步骤(1)中对视听双模态信息数据集中的原始音频数据,使用滑窗大小为40ms,滑窗滑动步长为10ms,采样率为16kHz的STFT算法,得到321维的频谱矩阵,并对频谱矩阵使用最大最小归一化处理,得到预处理听觉信息数据。
3、在步骤(2)中CBAM-STCNN Module由时空卷积层、通道注意力模块以及空间注意力模块构成。其中,时空卷积层提取特征的卷积操作为:
Figure BDA0002718672090000031
Figure BDA0002718672090000032
表示第l层的输出,
Figure BDA0002718672090000033
表示第l-1层的输出,
Figure BDA0002718672090000034
为第l层的学习权重参数,
Figure BDA0002718672090000035
表示第l层的偏置,
Figure BDA0002718672090000036
表示激活函数,C表示通道数,T表示时间步长,W表示特征映射
Figure BDA0002718672090000037
的宽,H表示特征映射
Figure BDA0002718672090000038
的高。令
Figure BDA0002718672090000039
通道注意力模块提取通道特征的过程为:
Figure BDA00027186720900000310
F′v表示视觉通道深层特征矩阵,Fv表示视觉时空深层特征,
Figure BDA00027186720900000311
表示外积操作,Mc(·)表示通道注意力矩阵,f1(·)和f2(·)表示卷积操作,AvgPool(·)为平均池化操作,MaxPool(·)为最大池化操作,sigm(·)为sigmoid激活函数。空间注意力模块提取空间特征的过程为:
Figure BDA00027186720900000312
F″v表示视觉空间深层特征矩阵,
Figure BDA00027186720900000313
表示连接操作,Ms(·)表示空间注意力矩阵,f7×7×7表示7×7×7的卷积层。
4、所述步骤(2)中使用Bi-GRU对视觉空间深层特征F″v进一步提取视觉时序特征,得到视觉深层特征矩阵Fv-final
5、所述步骤(2)中CBAM-CNN Module由卷积神经网络层、通道注意力模块以及空间注意力模块构成。卷积神经网络层提取特征的卷积操作为:
Figure BDA00027186720900000314
Figure BDA00027186720900000315
表示第l-1层的输出,
Figure BDA00027186720900000316
表示第l层的输出。
Figure BDA00027186720900000317
为第l层的学习权重参数,
Figure BDA00027186720900000318
表示第l层的偏置,
Figure BDA00027186720900000319
表示激活函数,C为通道数,T为时间步长,F表示特征映射
Figure BDA00027186720900000320
的尺寸大小。令
Figure BDA00027186720900000321
通道注意力模块提取通道特征的过程为:
Figure BDA00027186720900000322
F′a为听觉通道深层特征矩阵,Fa为听觉卷积深层特征。空间注意力模块提取空间特征过程为:
Figure BDA00027186720900000323
F″a表示听觉空间深层特征矩阵,f7×7表示7×7的卷积层。
6、所述步骤(2)中使用Bi-GRU对听觉空间深层特征F″a进一步提取听觉深层时序特征,得到听觉深层特征矩阵Fa-final
7、所述步骤(2)中将视觉深层特征矩阵Fv-final和听觉深层特征矩阵Fa-final,在时间维度上进行连接,即
Figure BDA0002718672090000041
以2层Bi-GRU、1层FC和softmax层进行特征融合,提取视听双模态信息数据的深层融合特征。
8、所述步骤(2)中以softmax层的输出作为CBAM-AV-LipNet模型的输出,使用CTC损失函数计算其与真实标签的损失值,依此进行反向传播,利用链式法则找出最小损失梯度,并根据学习率更新网络参数,得到训练收敛的CBAM-AV-LipNet模型。具体学习过程为:
Figure BDA0002718672090000042
θ_CBAM-AV-lipnet为CBAM-AV-LipNet模型的网络参数,D为训练集,x表示样本信息输入,l表示标签序列,xv为视觉信息数据,xa为听觉信息数据,B为CTC预测变换,π表示CBAM-AV-LipNet模型输出的识别文本信息序列,p(l|xv,xa)表示给定输入xa、xv的情况下,CBAM-AV-LipNet模型的输出与真实标签l序列一致的概率。
9、在步骤(3)中对视听双模态信息数据测试集输入至CBAM-AV-LipNet模型中,利用视觉流提取视觉深层特征,听觉流提取听觉深层特征,将提取的特征融合,进一步提取深层融合特征,得到深层融合特征向量。
10、所述步骤(3)中对深层融合特征向量采用CTC贪婪搜索解码算法进行解码,得到视听双模态信息数据的识别文本信息,最终完成视听双模态语音识别任务。
与现有技术相比,本发明的有益效果是:
a.由于原始视听双模态数据集GRID中存在冗余,并且数据中无用特征过多等问题,本发明提出对原始数据集分别进行预处理,得到图像增强的ROI图像序列和短时傅里叶变换的归一化音频数据;b.本发明在2016年牛津大学、Google DeepMind和CIFAR联合首次发布的第一个唇读领域视觉语音识别模型LipNet的基础上,为了提升模型的收敛速度和识别精度,对视觉信息和听觉信息的特征进行融合建立视听唇读网络模型AV-LipNet,并引入基于卷积块注意机制提出构建CBAM-AV-LipNet模型;c.在本发明提出构建的CBAM-AV-LipNet模型中,是以CBAM-STCNN Module和Bi-GRU构成视觉流提取视觉深层特征,以CBAM-CNN Module和Bi-GRU构成听觉流提取听觉深层特征。将视觉深层特征和听觉深层特征在时间维度上连接,通过Bi-GRU、FC和softmax层提取深层融合特征。以CTC损失函数计算损失值,并反向传播更新参数,得到训练收敛的CBAM-AV-LipNet模型;d.本发明利用提出构建的CBAM-AV-LipNet模型对测试集进行特征提取得到深层融合特征向量,对其进行CTC贪婪搜索解码,获得识别文本信息,完成视听双模态语音识别任务。本发明提出的基于卷积块注意机制的视听双模态语音识别方法较传统的语音识别方法和视觉语音识别模型LipNet具有良好的识别性能和收敛速度,同时具有一定的抗噪能力和有效性。
附图说明
图1是本发明方法的流程图;
图2是ROI图像示例图;
图3是本发明提出CBAM-AV-LipNet模型的结构图;
图4是各语音识别模型的识别结果图,图4(a)是LipNet处理的视觉信息数据及识别文本结果,图4(b)是A-LipNet处理的听觉信息数据及识别文本结果,图4(c)是AV-LipNet处理的视听双模态信息数据及识别文本结果,图4(d)是CBAM-AV-LipNet处理的视听双模态信息数据及识别文本结果;
图5是前100轮各语音识别模型训练损失曲线图;
图6是前100轮各语音识别模型训练单词错误率曲线图
图7是各强度噪声下的部分听觉信息数据波形图示例,图7(a)是纯净听觉信息数据波形图,图7(b)是低噪(20dB)听觉信息数据波形图,图7(c)是中噪(10dB)听觉信息数据波形图,图7(d)是高噪(-5dB)听觉信息数据波形图;
图8是低噪(20dB)强度下各语音识别模型的识别结果图,图8(a)是低噪强度下LipNet处理的视觉信息数据及识别文本结果,图8(b)是低噪强度下A-LipNet处理的听觉信息数据及识别文本结果,图8(c)是低噪强度下AV-LipNet处理的视听双模态信息数据及识别文本结果,图8(d)是低噪强度下CBAM-AV-LipNet处理的视听双模态信息数据及识别文本结果;
图9给出中噪(10dB)强度下各语音识别模型的识别结果图,图9(a)是中噪强度下LipNet处理的视觉信息数据及识别文本结果,图9(b)是中噪强度下A-LipNet处理的听觉信息数据及识别文本结果,图9(c)是中噪强度下AV-LipNet处理的视听双模态信息数据及识别文本结果,图9(d)是中噪强度下CBAM-AV-LipNet处理的视听双模态信息数据及识别文本结果;
图10给出高噪(-5dB)强度下各语音识别模型的识别结果图,图10(a)是高噪强度下LipNet处理的视觉信息数据及识别文本结果,图10(b)是高噪强度下A-LipNet处理的听觉信息数据及识别文本结果,图10(c)是高噪强度下AV-LipNet处理的视听双模态信息数据及识别文本结果,图10(d)是高噪强度下CBAM-AV-LipNet处理的视听双模态信息数据及识别文本结果。
具体实施方式
下面结合附图与具体实施方式对本发明作进一步详细描述。
结合图1,本发明的具体步骤如下:
(1)视听双模态信息数据集预处理
为适应视听双模态语音识别模型,首先需将视频信息中的原始图像序列和音频数据进行分离,分别进行预处理。针对原始视听双模态数据集中存在冗余,且数据中无用特征过多等问题,本发明分别对原始图像序列和音频数据进行预处理。
①原始图像序列预处理
原始的图像序列实际上存在大量的冗余信息。为了取得更好的处理效果,对原始图像序列进行嘴部ROI提取。本发明使用DLib脸部探测器对原始图像序列的脸部区域进行68点定位,从而裁剪出以嘴部为中心的ROI图像序列,尺寸为Hv×Wv。ROI图像示例如图2所示。
对ROI图像序列进行颜色规范化处理,即:
Xv=Xv/255.0
式中,Xv表示ROI图像序列。
在ROI图像序列中,以概率p进行水平翻转完成图像增强,即:
Figure BDA0002718672090000061
得到预处理视觉信息数据。
②原始音频数据预处理
在听觉流的处理过程中,若直接以原始音频数据作为输入进行特征提取等操作,会存在无用特征过多的问题,本发明使用滑窗大小为40ms,滑窗滑动步长为10ms,采样率为16kHz的STFT算法,得到321维的频谱矩阵。使得听觉、视觉信息数据一一对应。对频谱矩阵使用最大最小归一化处理,有:
Figure BDA0002718672090000062
其中,Xa表示音频频谱矩阵信息数据,Xa_min表示音频频谱矩阵信息数据中的最小值,Xa_max表示音频频谱矩阵信息数据中的最大值,X′a表示音频频谱矩阵信息数据的最大最小归一化处理结果,即预处理后的听觉信息数据。
(2)提出构建CBAM-AV-LipNet模型
在唇读领域,为了提升视觉语音识别模型LipNet的收敛速度和识别精度,本发明对视觉信息和听觉信息的特征进行融合建立视听唇读网络模型AV-LipNet,并引入基于卷积块注意机制提出构建CBAM-AV-LipNet模型。本发明提出构建的CBAM-AV-LipNet模型分为特征提取、特征融合和训练收敛的CBAM-AV-LipNet模型三部分。其中,特征提取部分,以预处理视觉信息数据为输入,经过3层CBAM-STCNN Module,1层Bi-GRU堆叠构成的视觉流,提取视觉深层特征。以预处理听觉信息数据为输入,经过3层CBAM-CNN Module,1层Bi-GRU堆叠构成的听觉流,提取听觉深层特征。特征融合部分是将视觉深层特征和听觉深层特征在时间维度上连接,通过2层Bi-GRU、1层FC和softmax层提取深层融合特征。最后以CTC损失函数计算损失值,并反向传播更新参数,得到训练收敛的CBAM-AV-LipNet模型。图3是提出CBAM-AV-LipNet模型的结构图。
①提取视觉和听觉深层特征
视觉流中的CBAM-STCNN Module是由时空卷积层、通道注意力模块以及空间注意力模块构成。
时空卷积层提取特征的卷积操作为:
Figure BDA0002718672090000071
式中:
Figure BDA0002718672090000072
表示第l层的输出,
Figure BDA0002718672090000073
表示第l-1层的输出,
Figure BDA0002718672090000074
为第l层的学习权重参数,
Figure BDA0002718672090000075
表示第l层的偏置,
Figure BDA0002718672090000076
表示激活函数,C表示通道数,T表示时间步长,W表示特征映射
Figure BDA0002718672090000077
的宽,H表示特征映射
Figure BDA0002718672090000078
的高。
将每一层卷积操作的输出结果输入到空间池化层中。空间池化操作对经过卷积处理得到的视觉时空特征进行降维,进一步提取视觉信息数据的深层特征,可以达到减少网络参数,优化模型结构,加快运行速度,缓解大量参数训练导致的过拟合现象,提升模型鲁棒性的效果。
选取最大池化操作作为空间池化操作的操作方式,其过程为:
Figure BDA0002718672090000079
由于CBAM可使模型特异性地学习视觉信息数据特征,加快模型的训练速度,提升模型识别效果,本发明在每一层时空卷积层后连接一层CBAM。其中CBAM分为通道注意力模块和空间注意力模块。
通道注意力模块以时空卷积层的输出
Figure BDA00027186720900000710
Figure BDA00027186720900000711
为输入,在空间维度上对
Figure BDA00027186720900000712
进行最大池化操作和平均池化操作,分别得到通道池化向量
Figure BDA0002718672090000081
Figure BDA0002718672090000082
随后使用卷积共享网络对
Figure BDA0002718672090000083
Figure BDA0002718672090000084
进行处理得到新的通道池化向量
Figure BDA0002718672090000085
Figure BDA0002718672090000086
将二者相加并使用sigmoid激活函数使其值域映射至(0,1),最终得到通道注意力矩阵Mc。将通道注意力矩阵Mc与时空卷积层的输出特征Fv相乘得到视觉通道深层特征矩阵F′v。具体如下:
Figure BDA0002718672090000087
式中:F′v表示视觉通道深层特征矩阵,Fv表示视觉时空深层特征,
Figure BDA0002718672090000088
表示外积操作,Mc(·)表示通道注意力矩阵,f1(·)和f2(·)表示卷积操作,AvgPool(·)为平均池化操作,MaxPool(·)为最大池化操作,sigm(·)为sigmoid激活函数。
空间注意力模块以视觉通道深层特征矩阵F′v为输入,在通道维度上对F′v进行最大池化和平均池化操作,分别得到空间池化向量
Figure BDA0002718672090000089
Figure BDA00027186720900000810
将空间池化向量
Figure BDA00027186720900000811
Figure BDA00027186720900000812
使用连接的方式进行合并,并利用卷积操作完成融合。使用sigmoid激活函数将其值域映射至(0,1),最终得到空间注意力矩阵Ms。将空间注意力矩阵Ms与视觉通道深层特征矩阵F′v相乘得到视觉空间深层特征矩阵F″v。具体如下:
Figure BDA00027186720900000813
式中:F″v表示视觉空间深层特征矩阵,
Figure BDA00027186720900000814
表示连接操作,Ms(·)表示空间注意力矩阵,f7×7×7表示7×7×7的卷积层。
本发明利用Bi-GRU在时间维度上对视觉空间深层特征矩阵F″v进行深层整合,进一步提取时序特征,即视觉深层特征矩阵Fv-final。具体提取特征的过程可描述为:
Figure BDA00027186720900000815
Figure BDA00027186720900000816
Figure BDA00027186720900000817
Figure BDA00027186720900000818
Figure BDA00027186720900000819
Figure BDA0002718672090000091
Figure BDA0002718672090000092
式中:
Figure BDA0002718672090000093
分别表示第1、2层Bi-GRU的更新门,rt (1)∈[0,1]、rt (2)∈[0,1]分别表示第1、2层Bi-GRU的重置门,
Figure BDA0002718672090000094
分别表示第1、2层Bi-GRU的候选更新状态,
Figure BDA0002718672090000095
分别表示第1、2层Bi-GRU的隐状态,W(·),U(·),b(·)为对应的学习参数,sigm(·)表示Logistic激活函数,tanh(·)表示tanh激活函数,ht表示Bi-GRU的输出,即为视觉深层特征矩阵Fv-final
听觉流中的CBAM-CNN Module是由卷积网络层、通道注意力机制模块以及空间注意力模块构成。
卷积网络层中提取特征的卷积操作为:
Figure BDA0002718672090000096
式中:
Figure BDA0002718672090000097
表示第l-1层的输出,
Figure BDA0002718672090000098
表示第l层的输出。
Figure BDA0002718672090000099
为第l层的学习权重参数,
Figure BDA00027186720900000910
表示第l层的偏置,
Figure BDA00027186720900000911
表示激活函数,C为通道数,T为时间步长,F表示特征映射
Figure BDA00027186720900000912
的尺寸大小。
同理,为了进一步提取听觉信息数据的深层特征且达到减少网络参数,优化模型结构的目的,在每一层卷积操作后连接一层池化层,池化操作的过程为:
Fa″=MaxPool(Fa″)=max(Fa″)
随后在每一层卷积网络层后连接一层CBAM,使得模型更有针对性地学习听觉信息数据特征。CBAM同样分为通道注意力模块和空间注意力模块,令
Figure BDA00027186720900000913
具体计算如下:
Figure BDA00027186720900000914
Figure BDA00027186720900000915
式中:Fa为听觉卷积深层特征,Fa′表示听觉通道深层特征矩阵,Fa″表示听觉空间深层特征矩阵,f7×7表示7×7的卷积层。
最后,使用1层Bi-GRU对3层CBAM-CNN Module提取的听觉空间深层特征Fa″进一步提取听觉深层时序特征,得到听觉深层特征矩阵Fa-final。并与视觉流的视觉深层特征矩阵Fv-final结构完成统一。
②特征融合
将视觉深层特征矩阵Fv-final和听觉深层特征矩阵Fa-final,在时间维度上进行连接,连接过程为:
Figure BDA0002718672090000101
以2层Bi-GRU、1层FC和softmax层进行特征融合,提取视听双模态信息数据的深层融合特征。
③训练收敛的CBAM-AV-LipNet模型
以softmax层的输出作为CBAM-AV-LipNet模型的输出,使用CTC损失函数计算其与真实标签的损失值,依此进行反向传播,利用链式法则找出最小损失梯度,并根据学习率更新网络参数,得到训练收敛的CBAM-AV-LipNet模型。具体学习过程为:
Figure BDA0002718672090000102
式中:θ_CBAM-AV-lipnet为CBAM-AV-LipNet模型的网络参数,D为训练集,x表示样本信息输入,l表示标签序列,xv为视觉信息数据,xa为听觉信息数据,B为CTC预测变换,π表示CBAM-AV-LipNet模型输出的识别文本信息序列,p(l|xv,xa)表示给定输入xa、xv的情况下,CBAM-AV-LipNet模型的输出与真实标签l序列一致的概率。
(3)完成基于卷积块注意机制的视听双模态语音识别任务
对视听双模态信息数据测试集输入至CBAM-AV-LipNet模型中,利用视觉流提取视觉深层特征,听觉流提取听觉深层特征,将提取的特征融合,进一步提取深层融合特征,得到深层融合特征向量。对深层融合特征向量采用CTC贪婪搜索解码算法进行解码,得到视听双模态信息数据的识别文本信息,最终完成视听双模态语音识别任务。
为验证本发明提出的一种基于卷积块注意机制的视听双模态语音识别方法的有效性,分别给出视觉语音识别模型LipNet、传统语音识别模型A-LipNet、视听唇读网络模型AV-LipNet和本发明提出的CBAM-AV-LipNet模型的结果比较,验证本发明对于唇读语音识别具有更好的效果。实验选取GRID数据集中S1/priv7a、S2/lrblzs、S3/lbwe5a、S8/bbae5n样本信息数据集展示部分实验结果。样本的标签文本分别为:PLACE RED IN V SEVENAGAIN、LAY RED BY L ZERO SOON、LAY BLUE WITH E FIVE AGAIN和BIN BLUE AT E FIVENOW。
图4给出了各语音识别模型的识别结果图。图4(a)是LipNet处理的视觉信息数据及识别文本结果,图4(b)是A-LipNet处理的听觉信息数据及识别文本结果,图4(c)是AV-LipNet处理的视听双模态信息数据及识别文本结果,图4(d)是CBAM-AV-LipNet处理的视听双模态信息数据及识别文本结果。
为定量分析各模型的识别性能,表1给出了各语音识别模型的测试识别单词错误率(WER)和测试识别字符错误率(CER)。
WER的计算公式为:
Figure BDA0002718672090000111
式中:WS、WD和WI分别为模型产生的单词序列向标签单词序列转换需要进行替换、删除、插入的单词数目。WN为标签单词序列的单词数目。
CER的计算公式为:
Figure BDA0002718672090000112
式中:CS、CD和CI分别为模型产生的字符序列向标签字符序列转换需要进行替换、删除、插入的字符数目。CN为标签字符序列的字符数目。
表1各语音识别模型测试识别单词错误率和字符错误率
模型 测试识别单词错误率 测试识别字符错误率
LipNet 16.82% 6.56%
A-LipNet 2.14% 1.13%
AV-LipNet 1.04% 0.42%
CBAM-AV-LipNet 1.02% 0.38%
从图4和表1可以看出,以视觉信息数据为输入的视觉语音识别模型LipNet的语音识别效果较差,以听觉信息数据为输入的传统语音识别模型A-LipNet的语音识别效果相对有提高。而以视听双模态信息数据为输入,对视觉信息和听觉信息的特征进行融合完成识别的视听唇读网络模型AV-LipNet和引入基于卷积块注意机制提出构建CBAM-AV-LipNet模型,可将识别错误率进一步降低。也再次验证本发明提出的CBAM-AV-LipNet模型具有更好的识别性能。
对LipNet、A-LipNet、AV-LipNet和本发明提出的CBAM-AV-LipNet模型进行收敛速度测试。图5给出前100轮各语音识别模型训练损失曲线图。图6给出前100轮各语音识别模型训练单词错误率曲线图。由图5可以看出,本发明提出的CBAM-AV-LipNet模型训练损失值下降很快,具有更快的收敛速度。另外在图6中,相同训练单词错误率的情况下,本发明提出的CBAM-AV-LipNet模型,所需要的训练轮数最少,再次证明该模型具有良好的收敛性能,也进一步说明CBAM-AV-LipNet引入卷积块注意力机制后可更好地分配隐层权重,加速模型收敛。
由于在真实复杂环境中,存在大量的噪声,而语音识别中的视觉信息数据不受听觉信息数据中噪声的影响,为测试各模型对含噪听觉信息数据的抗噪能力,本发明使用信噪比为20dB、10dB、-5dB三种高斯白噪声对视听双模态信息数据中的听觉信息数据进行加噪处理,分别得到噪声强度低、中、高三个含噪视听双模态信息数据集。图7是各强度噪声下的部分听觉信息数据波形图示例。图7(a)是纯净听觉信息数据波形图,图7(b)是低噪(20dB)听觉信息数据波形图,图7(c)是中噪(10dB)听觉信息数据波形图,图7(d)是高噪(-5dB)听觉信息数据波形图。
图8给出低噪(20dB)强度下各语音识别模型的识别结果图。图8(a)是低噪强度下LipNet处理的视觉信息数据及识别文本结果,图8(b)是低噪强度下A-LipNet处理的听觉信息数据及识别文本结果,图8(c)是低噪强度下AV-LipNet处理的视听双模态信息数据及识别文本结果,图8(d)是低噪强度下CBAM-AV-LipNet处理的视听双模态信息数据及识别文本结果。
图9给出中噪(10dB)强度下各语音识别模型的识别结果图。图9(a)是中噪强度下LipNet处理的视觉信息数据及识别文本结果,图9(b)是中噪强度下A-LipNet处理的听觉信息数据及识别文本结果,图9(c)是中噪强度下AV-LipNet处理的视听双模态信息数据及识别文本结果,图9(d)是中噪强度下CBAM-AV-LipNet处理的视听双模态信息数据及识别文本结果。
图10给出高噪(-5dB)强度下各语音识别模型的识别结果图。图10(a)是高噪强度下LipNet处理的视觉信息数据及识别文本结果,图10(b)是高噪强度下A-LipNet处理的听觉信息数据及识别文本结果,图10(c)是高噪强度下AV-LipNet处理的视听双模态信息数据及识别文本结果,图10(d)是高噪强度下CBAM-AV-LipNet处理的视听双模态信息数据及识别文本结果。
为定量分析各语音识别模型的抗噪性能,表2给出各语音识别模型在不同噪声强度下识别单词错误率。表3给出各语音识别模型在不同噪声强度下识别字符错误率。
表2各语音识别模型在不同噪声强度下识别单词错误率
Figure BDA0002718672090000121
表3各语音识别模型在不同噪声强度下识别字符错误率
Figure BDA0002718672090000122
Figure BDA0002718672090000131
从表2和表3可以看出,视觉语音识别模型LipNet在各种噪声下的识别率均不变,不受含噪听觉信息数据的影响。传统语音识别模型A-LipNet在低强度噪声的影响下,识别性能有提升,但在中强度和高强度噪声的影响下,其识别性能大幅下降,说明A-LipNet模型的抗噪性能相对较弱。视听唇读网络模型AV-LipNet在低强度和中强度噪声的影响下,仍能保持良好的识别性能,在高强度噪声的影响下,较A-LipNet模型在识别性能有一定程度的提高。本发明提出的CBAM-AV-LipNet模型在低强度噪声的影响下,能保持相对最好的识别性能,在中强度噪声的影响下,也能保持一定的识别性能,在高强度噪声的影响下,较A-LipNet、AV-LipNet在识别性能有较大的提高,说明CBAM-AV-LipNet具有良好的抗噪能力。
通过分别对LipNet、A-LipNet、AV-LipNet和本发明提出的CBAM-AV-LipNet模型进行识别性能测试、收敛速度测试及抗噪能力测试可以得出,本发明提出的CBAM-AV-LipNet模型具有更好的识别效果。同时由于本发明提出的CBAM-AV-LipNet模型是在AV-LipNet模型的基础上引入卷积块注意力机制,所以CBAM-AV-LipNet可以更合理的分配隐层参数权重,更快地学习视听双模态信息数据特征,具有更快的收敛速度。并且通过抗噪性能对比实验,验证了本发明提出的CBAM-AV-LipNet具有一定的抗噪能力和有效性。
本发明提供的是一种基于卷积块注意机制的视听双模态语音识别方法。包括如下步骤:(1)对视听双模态信息数据集进行预处理;(2)提出构建基于卷积块注意机制的视听唇读网络(Convolutional Block Attention Module Audio-Visual LipNet,CBAM-AV-LipNet)模型;(3)完成基于卷积块注意机制的视听双模态语音识别任务。本发明为了取得良好的视听双模态语音识别效果,提出一种基于卷积块注意机制的视听双模态语音识别方法。即针对原始视听双模态数据集中存在冗余,且数据中无用特征过多等问题,对原始数据集分别进行预处理,得到图像增强的嘴部兴趣区域(Region of Interest,ROI)图像序列和短时傅里叶变换(Short-Time Fourier Transform,STFT)的归一化音频数据;在此基础上,为了提升视觉语音识别模型LipNet的收敛速度和识别精度,对视觉信息和听觉信息的特征进行融合建立视听唇读网络模型(Audio-Visual LipNet,AV-LipNet),并引入基于卷积块注意机制提出构建CBAM-AV-LipNet模型。以CBAM-时空卷积神经网络模块(CBAM-Spatiotemporal Convolutional Neural Networks Module,CBAM-STCNN Module)和双向门控循环单元网络(Bidirectional Gated Recurrent Unit,Bi-GRU)构成视觉流提取视觉深层特征,以CBAM卷积神经网络模块(CBAM-Convolutional Neural Networks Module,CBAM-CNN Module)和Bi-GRU构成听觉流提取听觉深层特征。进一步将视觉深层特征和听觉深层特征在时间维度上连接,通过Bi-GRU、全连接层(Fully Connected Layers,FC)和softmax层提取深层融合特征。最后以连接时序分类(Connectionist TemporalClassification,CTC)损失函数计算损失值,并反向传播更新参数,得到训练收敛的CBAM-AV-LipNet模型;利用提出构建的CBAM-AV-LipNet模型对测试集进行特征提取得到深层融合特征向量,对其进行CTC贪婪搜索解码,获得识别文本信息,完成视听双模态语音识别任务。本发明提出的基于卷积块注意机制的视听双模态语音识别方法具有良好的识别性能和收敛速度,同时具有一定的抗噪能力和有效性。

Claims (10)

1.一种基于卷积块注意机制的视听双模态语音识别方法,其特征是,包括如下步骤:
(1)对视听双模态信息数据集进行预处理:①对视听双模态信息数据集中的原始图像序列提取嘴部ROI图像序列,进行图像增强,得到预处理视觉信息数据;②对视听双模态信息数据集中的原始音频数据进行STFT算法处理及最大最小归一化处理,得到预处理听觉信息数据;
(2)提出构建CBAM-AV-LipNet模型:①以3层CBAM-STCNN Module,1层Bi-GRU堆叠构成视觉特征提取网络,CBAM-STCNN Module由时空卷积层、通道注意力模块以及空间注意力模块构成;首先以预处理视觉信息数据为输入,通过CBAM-STCNN Module提取预处理视觉信息数据的视觉空间深层特征,随后利用Bi-GRU对视觉空间深层特征进一步提取视觉深层时序特征,得到视觉深层特征矩阵;②以3层CBAM-CNN Module,1层Bi-GRU堆叠构成听觉特征提取网络,CBAM-CNN Module由卷积神经网络层、通道注意力模块以及空间注意力模块构成;首先以预处理听觉信息数据为输入,通过CBAM-CNN Module提取预处理听觉信息数据的听觉空间深层特征,随后利用Bi-GRU对听觉空间深层特征进一步提取听觉深层时序特征,得到听觉深层特征矩阵;③将视觉特征提取网络提取到的视觉深层特征矩阵和听觉特征提取网络提取到的听觉深层特征矩阵在时间维度上连接,通过2层Bi-GRU、1层FC和softmax层提取深层融合特征;④以CTC损失函数计算损失值,反向传播更新模型参数,得到训练收敛的CBAM-AV-LipNet模型;
(3)将训练好的CBAM-AV-LipNet模型对测试数据进行识别以完成基于卷积块注意机制的视听双模态语音识别任务:①利用CBAM-AV-LipNet模型对测试集进行特征提取得到深层融合特征向量;②对深层融合特征向量进行CTC贪婪搜索解码,获得识别文本信息,实现视听双模态语音识别任务。
2.根据权利要求1所述的基于卷积块注意机制的视听双模态语音识别方法,其特征是:在步骤(1)中对视听双模态信息数据集中的原始图像序列,使用Dlib脸部检测器提取嘴部ROI图像序列,进行颜色规范化并以概率p水平翻转完成图像增强处理,得到预处理视觉信息数据。
3.根据权利要求1或2所述的基于卷积块注意机制的视听双模态语音识别方法,其特征是:所述步骤(1)中对视听双模态信息数据集中的原始音频数据,使用滑窗大小为40ms,滑窗滑动步长为10ms,采样率为16kHz的STFT算法,得到321维的频谱矩阵,并对频谱矩阵使用最大最小归一化处理,得到预处理听觉信息数据。
4.根据权利要求1所述的基于卷积块注意机制的视听双模态语音识别方法,其特征是:在步骤(2)中CBAM-STCNN Module由时空卷积层、通道注意力模块以及空间注意力模块构成;其中,时空卷积层提取特征的卷积操作为:
Figure FDA0003692045730000021
Figure FDA0003692045730000022
表示第l层的输出,
Figure FDA0003692045730000023
表示第l-1层的输出,
Figure FDA0003692045730000024
为第l层的学习权重参数,
Figure FDA0003692045730000025
表示第l层的偏置,
Figure FDA0003692045730000026
表示激活函数,C表示通道数,T表示时间步长,W表示特征映射
Figure FDA0003692045730000027
的宽,H表示特征映射
Figure FDA0003692045730000028
的高;令
Figure FDA0003692045730000029
通道注意力模块提取通道特征的过程为:
Figure FDA00036920457300000210
Fv′表示视觉通道深层特征矩阵,Fv表示视觉时空深层特征,
Figure FDA00036920457300000211
表示外积操作,Mc(·)表示通道注意力矩阵,f1(·)和f2(·)表示卷积操作,AvgPool(·)为平均池化操作,MaxPool(·)为最大池化操作,sigm(·)为sigmoid激活函数;空间注意力模块提取空间特征的过程为:
Figure FDA00036920457300000212
Fv″表示视觉空间深层特征矩阵,
Figure FDA00036920457300000213
表示连接操作,Ms(·)表示空间注意力矩阵,f7×7×7表示7×7×7的卷积层。
5.根据权利要求1或4所述的基于卷积块注意机制的视听双模态语音识别方法,其特征是:所述步骤(2)中使用Bi-GRU对CBAM-STCNN Module提取到的视觉空间深层特征Fv″进一步提取视觉深层时序特征,得到视觉深层特征矩阵Fv-final
6.根据权利要求1所述的基于卷积块注意机制的视听双模态语音识别方法,其特征是:所述步骤(2)中CBAM-CNN Module由卷积神经网络层、通道注意力模块以及空间注意力模块构成;卷积神经网络层提取特征的卷积操作为:
Figure FDA00036920457300000214
Figure FDA00036920457300000215
表示第l-1层的输出,
Figure FDA00036920457300000216
表示第l层的输出;
Figure FDA00036920457300000217
为第l层的学习权重参数,
Figure FDA00036920457300000218
表示第l层的偏置,
Figure FDA00036920457300000219
表示激活函数,C为通道数,T为时间步长,F表示特征映射
Figure FDA00036920457300000220
的尺寸大小;令
Figure FDA00036920457300000221
通道注意力模块提取通道特征的过程为:
Figure FDA00036920457300000222
Fa′为听觉通道深层特征矩阵,Fa为听觉卷积深层特征,
Figure FDA00036920457300000223
表示外积操作,Mc(·)表示通道注意力矩阵,f1(·)和f2(·)表示卷积操作,AvgPool(·)为平均池化操作,MaxPool(·)为最大池化操作,sigm(·)为sigmoid激活函数;空间注意力模块提取空间特征过程为:
Figure FDA0003692045730000031
Fa″表示听觉空间深层特征矩阵,
Figure FDA0003692045730000032
表示连接操作,Ms(·)表示空间注意力矩阵,f7×7表示7×7的卷积层。
7.根据权利要求1所述的基于卷积块注意机制的视听双模态语音识别方法,其特征是:所述步骤(2)中使用Bi-GRU对CBAM-CNN Module提取到的听觉空间深层特征Fa″进一步提取听觉深层时序特征,得到听觉深层特征矩阵Fa-final
8.根据权利要求1所述的基于卷积块注意机制的视听双模态语音识别方法,其特征是:所述步骤(2)中将视觉深层特征矩阵Fv-final和听觉深层特征矩阵Fa-final,在时间维度上进行连接,即
Figure FDA0003692045730000033
以2层Bi-GRU、1层FC和softmax层进行特征融合,提取视听双模态信息数据的深层融合特征。
9.根据权利要求1所述的基于卷积块注意机制的视听双模态语音识别方法,其特征是:所述步骤(2)中以softmax层的输出作为CBAM-AV-LipNet模型的输出,使用CTC损失函数计算其与真实标签的损失值,依此进行反向传播,利用链式法则找出最小损失梯度,并根据学习率更新网络参数,得到训练收敛的CBAM-AV-LipNet模型;具体学习过程为:
Figure FDA0003692045730000034
θ_CBAM-AV-lipnet为CBAM-AV-LipNet模型的网络参数,D为训练集,x表示样本信息输入,l表示标签序列,xv为视觉信息数据,xa为听觉信息数据,B为CTC预测变换,π表示CBAM-AV-LipNet模型输出的识别文本信息序列,p(l|xv,xa)表示给定输入xa、xv的情况下,CBAM-AV-LipNet模型的输出与真实标签l序列一致的概率。
10.根据权利要求1所述的基于卷积块注意机制的视听双模态语音识别方法,其特征是:在步骤(3)中对视听双模态信息数据测试集输入至训练收敛的CBAM-AV-LipNet模型中,利用视觉特征提取网络提取视觉深层特征,听觉特征提取网络提取听觉深层特征,将提取的特征融合,进一步提取深层融合特征,得到深层融合特征向量;所述步骤(3)中对深层融合特征向量采用CTC贪婪搜索解码算法进行解码,得到视听双模态信息数据的识别文本信息,最终完成视听双模态语音识别任务。
CN202011080817.6A 2020-10-11 2020-10-11 一种基于卷积块注意机制的视听双模态语音识别方法 Active CN112216271B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011080817.6A CN112216271B (zh) 2020-10-11 2020-10-11 一种基于卷积块注意机制的视听双模态语音识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011080817.6A CN112216271B (zh) 2020-10-11 2020-10-11 一种基于卷积块注意机制的视听双模态语音识别方法

Publications (2)

Publication Number Publication Date
CN112216271A CN112216271A (zh) 2021-01-12
CN112216271B true CN112216271B (zh) 2022-10-14

Family

ID=74054360

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011080817.6A Active CN112216271B (zh) 2020-10-11 2020-10-11 一种基于卷积块注意机制的视听双模态语音识别方法

Country Status (1)

Country Link
CN (1) CN112216271B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112863538B (zh) * 2021-02-24 2022-06-14 复旦大学 一种基于视听网络的多模态语音分离方法及装置
CN113053361B (zh) * 2021-03-18 2023-07-04 北京金山云网络技术有限公司 语音识别方法、模型训练方法、装置、设备及介质
CN113057633B (zh) * 2021-03-26 2022-11-01 华南理工大学 多模态情绪压力识别方法、装置、计算机设备及存储介质
CN113159217B (zh) * 2021-05-12 2023-08-01 深圳龙岗智能视听研究院 一种基于事件相机的注意力机制目标检测的方法
CN113362540A (zh) * 2021-06-11 2021-09-07 江苏苏云信息科技有限公司 基于多模交互的交通票务处理装置、系统及方法
CN113239903B (zh) * 2021-07-08 2021-10-01 中国人民解放军国防科技大学 一种跨模态唇读的对抗性双重对比自监督学习方法
CN113808573B (zh) * 2021-08-06 2023-11-07 华南理工大学 基于混合域注意力与时序自注意力的方言分类方法及系统
CN113435421B (zh) * 2021-08-26 2021-11-05 湖南大学 一种基于跨模态注意力增强的唇语识别方法及系统
CN116310975A (zh) * 2023-03-14 2023-06-23 北京邮电大学 一种基于一致片段选择的视听事件定位方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111048082A (zh) * 2019-12-12 2020-04-21 中国电子科技集团公司第二十八研究所 一种改进的端到端语音识别方法
CN111160488A (zh) * 2020-01-02 2020-05-15 中国民航大学 融合注意力选择机制的CondenseNet算法
CN111223483A (zh) * 2019-12-10 2020-06-02 浙江大学 一种基于多粒度知识蒸馏的唇语识别方法
CN111401250A (zh) * 2020-03-17 2020-07-10 东北大学 一种基于混合卷积神经网络的中文唇语识别方法及装置
CN111477221A (zh) * 2020-05-28 2020-07-31 中国科学技术大学 采用双向时序卷积与自注意力机制网络的语音识别系统
CN111754992A (zh) * 2020-06-30 2020-10-09 山东大学 一种噪声鲁棒的音视频双模态语音识别方法及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111223483A (zh) * 2019-12-10 2020-06-02 浙江大学 一种基于多粒度知识蒸馏的唇语识别方法
CN111048082A (zh) * 2019-12-12 2020-04-21 中国电子科技集团公司第二十八研究所 一种改进的端到端语音识别方法
CN111160488A (zh) * 2020-01-02 2020-05-15 中国民航大学 融合注意力选择机制的CondenseNet算法
CN111401250A (zh) * 2020-03-17 2020-07-10 东北大学 一种基于混合卷积神经网络的中文唇语识别方法及装置
CN111477221A (zh) * 2020-05-28 2020-07-31 中国科学技术大学 采用双向时序卷积与自注意力机制网络的语音识别系统
CN111754992A (zh) * 2020-06-30 2020-10-09 山东大学 一种噪声鲁棒的音视频双模态语音识别方法及系统

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
"基于深度学习的唇语识别方法研究";闫捷;《中国优秀硕士学位论文全文数据库信息科技辑》;20190715 *
" End-to-end Audiovisual Speech Recognition";Petridis S;《IEEE》;20181231 *
"CBAM: Convolutional Block Attention Module";Sanghyun Woo;《Computer Vision and Pattern Recognition》;20181231 *
"Deep Multimodal Learning for Audio-Visual Speech Recognition";Mroueh Y;《ICASSP》;20151231 *
"Facial Expression Recognition via a CBAM Embedded Network";Cao W;《 Procedia Computer Science》;20200727 *
"基于深度学习的唇读识别研究";吴大江;《中国优秀硕士学位论文全文数据库信息科技辑》;20200615 *

Also Published As

Publication number Publication date
CN112216271A (zh) 2021-01-12

Similar Documents

Publication Publication Date Title
CN112216271B (zh) 一种基于卷积块注意机制的视听双模态语音识别方法
Harwath et al. Jointly discovering visual objects and spoken words from raw sensory input
CN110491416B (zh) 一种基于lstm和sae的电话语音情感分析与识别方法
CN110600017B (zh) 语音处理模型的训练方法、语音识别方法、系统及装置
CN111061843B (zh) 一种知识图谱引导的假新闻检测方法
CN109559736B (zh) 一种基于对抗网络的电影演员自动配音方法
CN109637522B (zh) 一种基于语谱图提取深度空间注意特征的语音情感识别方法
CN110853680B (zh) 一种具有多输入多融合策略的双BiLSTM的语音情感识别方法
CN112101241A (zh) 一种基于深度学习的轻量级表情识别方法
CN112581979B (zh) 一种基于语谱图的语音情绪识别方法
CN110459225B (zh) 一种基于cnn融合特征的说话人辨认系统
CN112329438B (zh) 基于域对抗训练的自动谎言检测方法及系统
CN111653275A (zh) 基于lstm-ctc尾部卷积的语音识别模型的构建方法及装置、语音识别方法
CN112562725A (zh) 基于语谱图和胶囊网络的混合语音情感分类方法
CN115083394A (zh) 一种融合时空属性的实时环境噪声识别方法、系统及设备
CN115393933A (zh) 一种基于帧注意力机制的视频人脸情绪识别方法
CN116230019A (zh) 一种基于半监督语音情感识别框架的深度情感聚类方法
Han et al. Self-supervised learning with cluster-aware-dino for high-performance robust speaker verification
Zheng et al. MSRANet: Learning discriminative embeddings for speaker verification via channel and spatial attention mechanism in alterable scenarios
CN114694255A (zh) 基于通道注意力与时间卷积网络的句子级唇语识别方法
Liu et al. Birdsong classification based on multi feature channel fusion
CN112466284B (zh) 一种口罩语音鉴别方法
CN116758451A (zh) 基于多尺度和全局交叉注意力的视听情感识别方法及系统
CN116434786A (zh) 融合文本语义辅助的教师语音情感识别方法
CN116432664A (zh) 一种高质量数据扩增的对话意图分类方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant