CN112216271B - 一种基于卷积块注意机制的视听双模态语音识别方法 - Google Patents
一种基于卷积块注意机制的视听双模态语音识别方法 Download PDFInfo
- Publication number
- CN112216271B CN112216271B CN202011080817.6A CN202011080817A CN112216271B CN 112216271 B CN112216271 B CN 112216271B CN 202011080817 A CN202011080817 A CN 202011080817A CN 112216271 B CN112216271 B CN 112216271B
- Authority
- CN
- China
- Prior art keywords
- visual
- deep
- cbam
- lipnet
- layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 69
- 230000007246 mechanism Effects 0.000 title claims abstract description 35
- 230000000007 visual effect Effects 0.000 claims abstract description 88
- 230000002902 bimodal effect Effects 0.000 claims abstract description 67
- 230000004927 fusion Effects 0.000 claims abstract description 36
- 239000013598 vector Substances 0.000 claims abstract description 24
- 238000000605 extraction Methods 0.000 claims abstract description 21
- 238000012360 testing method Methods 0.000 claims abstract description 16
- 238000007781 pre-processing Methods 0.000 claims abstract description 9
- 239000011159 matrix material Substances 0.000 claims description 57
- 238000012545 processing Methods 0.000 claims description 39
- 230000008569 process Effects 0.000 claims description 24
- 238000012549 training Methods 0.000 claims description 23
- 238000013527 convolutional neural network Methods 0.000 claims description 22
- 230000006870 function Effects 0.000 claims description 22
- 238000011176 pooling Methods 0.000 claims description 22
- 230000004913 activation Effects 0.000 claims description 14
- 238000010606 normalization Methods 0.000 claims description 9
- 238000001228 spectrum Methods 0.000 claims description 7
- 238000013507 mapping Methods 0.000 claims description 4
- 238000005070 sampling Methods 0.000 claims description 3
- 210000000239 visual pathway Anatomy 0.000 claims description 3
- 230000004400 visual pathway Effects 0.000 claims description 3
- 210000003984 auditory pathway Anatomy 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 18
- 230000000694 effects Effects 0.000 description 9
- 239000000284 extract Substances 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 235000017274 Diospyros sandwicensis Nutrition 0.000 description 1
- 241000282838 Lama Species 0.000 description 1
- 241000631463 Saara Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/84—Detection of presence or absence of voice signals for discriminating voice from noise
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Signal Processing (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种基于卷积块注意机制的视听双模态语音识别方法,包括如下步骤:(1)对视听双模态信息数据集进行预处理;(2)提出构建CBAM‑AV‑LipNet模型;(3)完成基于卷积块注意机制的视听双模态语音识别任务,实现视听双模态语音识别任务。本发明利用提出构建的CBAM‑AV‑LipNet模型对测试集进行特征提取得到深层融合特征向量,对其进行CTC贪婪搜索解码,获得识别文本信息,完成视听双模态语音识别任务。本发明提出的基于卷积块注意机制的视听双模态语音识别方法较传统的语音识别方法和视觉语音识别模型LipNet具有良好的识别性能和收敛速度,同时具有一定的抗噪能力和有效性。
Description
技术领域
本发明涉及一种视听双模态语音识别方法,尤其涉及一种基于卷积块注意机制的视听双模态语音识别方法,属于深度学习语音识别技术领域。
背景技术
随着信息技术的飞速发展,人机交互技术作为智能化生活的核心技术,吸引越来越多的研究学者投入到相关的研究工作中。其中,语音识别技术的出现使得计算机可以“听懂”人类的语音,真正意义上实现了人机交互。传统的语音识别技术是以听觉信息为研究对象,但由于在现实的音频环境中,存在大量噪声或存在多说话者的情况,传统的语音识别技术往往不能高效地识别音频信息内容。近年来,视觉信息作为传统语音识别方法的补充信息,被引入到语音识别技术中,它可以很好地提升高强度噪声或嘈杂环境中语音信息的识别率,产生的模型更具鲁棒性。因此,基于视觉的语音识别技术,以及听觉和视觉相结合的视听双模态语音识别方法得以快速发展。在已有的文献中最著名和效果最好的方法主要包括:1.基于视觉语音识别方法的端到端唇读网络:2016年Assael Y M,Shillingford B,Whiteson S,et al.Lipnet:End-to-end sentence-level lipreading.https://arxiv.org/abs/1611.01599.这篇论文是牛津大学、Google DeepMind和加拿大高等研究院(CIFAR)联合首次发布的第一个在唇读领域将深度学习应用于端到端学习的网络模型,具有重要价值的学术论文。提出利用深度学习实现语句层面的自动唇读技术LipNet模型,采用一种能够将可变长度的视频序列映射为文本的模型,完全是以端到端的方式训练,模型实现了93.4%的准确度,超过经验丰富的人类唇读者。2.基于CNN的单词级别视听双模态模型方法:2016年Chung J S,Zisserman A.Lip reading in the wild.Asian Conferenceon Computer Vision.Springer,Cham,2016:87-103.提出一种基于CNN的单词级别识别模型,该模型以VGG-M为基础,构建多路特征提取框架,最终获得良好的识别效果。3.基于深度循环神经网络的单词级别视听双模态语音识别模型:2018年Petridis S,Stafylakis T,MaP,et al.End-to-end audiovisual speech recognition.IEEE InternationalConference on Acoustics,Speech and Signal Processing(ICASSP).Calgary Canada:IEEE Computer Society,2018:6548-6552.提出利用ResNet结构对视觉、听觉双模态信息进行特征提取并得到特征向量,将特征向量分为正向、反向两个流,均经过LSTM提取时序特征得到新的特征向量,将上述两个特征向量融合完成最终的识别。4.基于SDBN和BLSTM注意力融合的端到端视听双模态语音识别模型:2019年王一鸣,陈恳,萨阿卜杜萨拉木·艾海提拉木.基于SDBN和BLSTM注意力融合的端到端视听双模态语音识别.电信科学,2019,35(12):79-89.提出使用SDBN提取稀疏特征,BLSTM提取时序特征,通过注意力机制将视觉信息数据和听觉信息数据对齐,该模型具有一定的有效性和鲁棒性。5.基于DenseNet和resBi-LSTM的汉语唇读语音识别方法:2020年Xuejuan Chen,Jixiang Du,HongboZhang.Lipreading with DenseNet and resBi-LSTM.Signal,Image and VideoProcessing,2020:1-9.提出一种由三维卷积层、DenseNet和剩余双向长短期记忆神经网络组成的模型,采用多重注意力叠加模型将汉语拼音转换为汉字,最终获得汉字结果,其能有效地提高语音识别效果。
发明内容
本发明的目的是提供一种具有良好的识别性能和收敛速度,同时具有一定抗噪能力的基于卷积块注意机制的视听双模态语音识别方法。
本发明的目的是这样实现的:
(1)对视听双模态信息数据集进行预处理:①对视听双模态信息数据集中的原始图像序列提取嘴部ROI图像序列,进行图像增强;②对视听双模态信息数据集中的原始音频数据进行STFT算法处理及最大最小归一化处理;
(2)提出构建CBAM-AV-LipNet模型:①以3层CBAM-STCNN Module,1层Bi-GRU堆叠构成视觉流,提取视觉深层特征;②以3层CBAM-CNN Module,1层Bi-GRU堆叠构成听觉流,提取听觉深层特征;③将视觉深层特征和听觉深层特征在时间维度上连接,通过2层Bi-GRU、1层FC和softmax层提取深层融合特征;④以CTC损失函数计算损失值,反向传播更新模型参数,得到训练收敛的CBAM-AV-LipNet模型;
(3)完成基于卷积块注意机制的视听双模态语音识别任务:①利用CBAM-AV-LipNet模型对测试集进行特征提取得到深层融合特征向量;②对深层融合特征向量进行CTC贪婪搜索解码,获得识别文本信息,实现视听双模态语音识别任务。
本发明还包括这样一些特征:
1、在步骤(1)中对视听双模态信息数据集中的原始图像序列,使用Dlib脸部检测器提取嘴部ROI图像序列,进行颜色规范化并以概率p水平翻转完成图像增强处理,得到预处理视觉信息数据。
2、所述步骤(1)中对视听双模态信息数据集中的原始音频数据,使用滑窗大小为40ms,滑窗滑动步长为10ms,采样率为16kHz的STFT算法,得到321维的频谱矩阵,并对频谱矩阵使用最大最小归一化处理,得到预处理听觉信息数据。
3、在步骤(2)中CBAM-STCNN Module由时空卷积层、通道注意力模块以及空间注意力模块构成。其中,时空卷积层提取特征的卷积操作为: 表示第l层的输出,表示第l-1层的输出,为第l层的学习权重参数,表示第l层的偏置,表示激活函数,C表示通道数,T表示时间步长,W表示特征映射的宽,H表示特征映射的高。令通道注意力模块提取通道特征的过程为:F′v表示视觉通道深层特征矩阵,Fv表示视觉时空深层特征,表示外积操作,Mc(·)表示通道注意力矩阵,f1(·)和f2(·)表示卷积操作,AvgPool(·)为平均池化操作,MaxPool(·)为最大池化操作,sigm(·)为sigmoid激活函数。空间注意力模块提取空间特征的过程为:F″v表示视觉空间深层特征矩阵,表示连接操作,Ms(·)表示空间注意力矩阵,f7×7×7表示7×7×7的卷积层。
4、所述步骤(2)中使用Bi-GRU对视觉空间深层特征F″v进一步提取视觉时序特征,得到视觉深层特征矩阵Fv-final。
5、所述步骤(2)中CBAM-CNN Module由卷积神经网络层、通道注意力模块以及空间注意力模块构成。卷积神经网络层提取特征的卷积操作为: 表示第l-1层的输出,表示第l层的输出。为第l层的学习权重参数,表示第l层的偏置,表示激活函数,C为通道数,T为时间步长,F表示特征映射的尺寸大小。令通道注意力模块提取通道特征的过程为:F′a为听觉通道深层特征矩阵,Fa为听觉卷积深层特征。空间注意力模块提取空间特征过程为:F″a表示听觉空间深层特征矩阵,f7×7表示7×7的卷积层。
6、所述步骤(2)中使用Bi-GRU对听觉空间深层特征F″a进一步提取听觉深层时序特征,得到听觉深层特征矩阵Fa-final。
7、所述步骤(2)中将视觉深层特征矩阵Fv-final和听觉深层特征矩阵Fa-final,在时间维度上进行连接,即以2层Bi-GRU、1层FC和softmax层进行特征融合,提取视听双模态信息数据的深层融合特征。
8、所述步骤(2)中以softmax层的输出作为CBAM-AV-LipNet模型的输出,使用CTC损失函数计算其与真实标签的损失值,依此进行反向传播,利用链式法则找出最小损失梯度,并根据学习率更新网络参数,得到训练收敛的CBAM-AV-LipNet模型。具体学习过程为:θ_CBAM-AV-lipnet为CBAM-AV-LipNet模型的网络参数,D为训练集,x表示样本信息输入,l表示标签序列,xv为视觉信息数据,xa为听觉信息数据,B为CTC预测变换,π表示CBAM-AV-LipNet模型输出的识别文本信息序列,p(l|xv,xa)表示给定输入xa、xv的情况下,CBAM-AV-LipNet模型的输出与真实标签l序列一致的概率。
9、在步骤(3)中对视听双模态信息数据测试集输入至CBAM-AV-LipNet模型中,利用视觉流提取视觉深层特征,听觉流提取听觉深层特征,将提取的特征融合,进一步提取深层融合特征,得到深层融合特征向量。
10、所述步骤(3)中对深层融合特征向量采用CTC贪婪搜索解码算法进行解码,得到视听双模态信息数据的识别文本信息,最终完成视听双模态语音识别任务。
与现有技术相比,本发明的有益效果是:
a.由于原始视听双模态数据集GRID中存在冗余,并且数据中无用特征过多等问题,本发明提出对原始数据集分别进行预处理,得到图像增强的ROI图像序列和短时傅里叶变换的归一化音频数据;b.本发明在2016年牛津大学、Google DeepMind和CIFAR联合首次发布的第一个唇读领域视觉语音识别模型LipNet的基础上,为了提升模型的收敛速度和识别精度,对视觉信息和听觉信息的特征进行融合建立视听唇读网络模型AV-LipNet,并引入基于卷积块注意机制提出构建CBAM-AV-LipNet模型;c.在本发明提出构建的CBAM-AV-LipNet模型中,是以CBAM-STCNN Module和Bi-GRU构成视觉流提取视觉深层特征,以CBAM-CNN Module和Bi-GRU构成听觉流提取听觉深层特征。将视觉深层特征和听觉深层特征在时间维度上连接,通过Bi-GRU、FC和softmax层提取深层融合特征。以CTC损失函数计算损失值,并反向传播更新参数,得到训练收敛的CBAM-AV-LipNet模型;d.本发明利用提出构建的CBAM-AV-LipNet模型对测试集进行特征提取得到深层融合特征向量,对其进行CTC贪婪搜索解码,获得识别文本信息,完成视听双模态语音识别任务。本发明提出的基于卷积块注意机制的视听双模态语音识别方法较传统的语音识别方法和视觉语音识别模型LipNet具有良好的识别性能和收敛速度,同时具有一定的抗噪能力和有效性。
附图说明
图1是本发明方法的流程图;
图2是ROI图像示例图;
图3是本发明提出CBAM-AV-LipNet模型的结构图;
图4是各语音识别模型的识别结果图,图4(a)是LipNet处理的视觉信息数据及识别文本结果,图4(b)是A-LipNet处理的听觉信息数据及识别文本结果,图4(c)是AV-LipNet处理的视听双模态信息数据及识别文本结果,图4(d)是CBAM-AV-LipNet处理的视听双模态信息数据及识别文本结果;
图5是前100轮各语音识别模型训练损失曲线图;
图6是前100轮各语音识别模型训练单词错误率曲线图
图7是各强度噪声下的部分听觉信息数据波形图示例,图7(a)是纯净听觉信息数据波形图,图7(b)是低噪(20dB)听觉信息数据波形图,图7(c)是中噪(10dB)听觉信息数据波形图,图7(d)是高噪(-5dB)听觉信息数据波形图;
图8是低噪(20dB)强度下各语音识别模型的识别结果图,图8(a)是低噪强度下LipNet处理的视觉信息数据及识别文本结果,图8(b)是低噪强度下A-LipNet处理的听觉信息数据及识别文本结果,图8(c)是低噪强度下AV-LipNet处理的视听双模态信息数据及识别文本结果,图8(d)是低噪强度下CBAM-AV-LipNet处理的视听双模态信息数据及识别文本结果;
图9给出中噪(10dB)强度下各语音识别模型的识别结果图,图9(a)是中噪强度下LipNet处理的视觉信息数据及识别文本结果,图9(b)是中噪强度下A-LipNet处理的听觉信息数据及识别文本结果,图9(c)是中噪强度下AV-LipNet处理的视听双模态信息数据及识别文本结果,图9(d)是中噪强度下CBAM-AV-LipNet处理的视听双模态信息数据及识别文本结果;
图10给出高噪(-5dB)强度下各语音识别模型的识别结果图,图10(a)是高噪强度下LipNet处理的视觉信息数据及识别文本结果,图10(b)是高噪强度下A-LipNet处理的听觉信息数据及识别文本结果,图10(c)是高噪强度下AV-LipNet处理的视听双模态信息数据及识别文本结果,图10(d)是高噪强度下CBAM-AV-LipNet处理的视听双模态信息数据及识别文本结果。
具体实施方式
下面结合附图与具体实施方式对本发明作进一步详细描述。
结合图1,本发明的具体步骤如下:
(1)视听双模态信息数据集预处理
为适应视听双模态语音识别模型,首先需将视频信息中的原始图像序列和音频数据进行分离,分别进行预处理。针对原始视听双模态数据集中存在冗余,且数据中无用特征过多等问题,本发明分别对原始图像序列和音频数据进行预处理。
①原始图像序列预处理
原始的图像序列实际上存在大量的冗余信息。为了取得更好的处理效果,对原始图像序列进行嘴部ROI提取。本发明使用DLib脸部探测器对原始图像序列的脸部区域进行68点定位,从而裁剪出以嘴部为中心的ROI图像序列,尺寸为Hv×Wv。ROI图像示例如图2所示。
对ROI图像序列进行颜色规范化处理,即:
Xv=Xv/255.0
式中,Xv表示ROI图像序列。
在ROI图像序列中,以概率p进行水平翻转完成图像增强,即:
得到预处理视觉信息数据。
②原始音频数据预处理
在听觉流的处理过程中,若直接以原始音频数据作为输入进行特征提取等操作,会存在无用特征过多的问题,本发明使用滑窗大小为40ms,滑窗滑动步长为10ms,采样率为16kHz的STFT算法,得到321维的频谱矩阵。使得听觉、视觉信息数据一一对应。对频谱矩阵使用最大最小归一化处理,有:
其中,Xa表示音频频谱矩阵信息数据,Xa_min表示音频频谱矩阵信息数据中的最小值,Xa_max表示音频频谱矩阵信息数据中的最大值,X′a表示音频频谱矩阵信息数据的最大最小归一化处理结果,即预处理后的听觉信息数据。
(2)提出构建CBAM-AV-LipNet模型
在唇读领域,为了提升视觉语音识别模型LipNet的收敛速度和识别精度,本发明对视觉信息和听觉信息的特征进行融合建立视听唇读网络模型AV-LipNet,并引入基于卷积块注意机制提出构建CBAM-AV-LipNet模型。本发明提出构建的CBAM-AV-LipNet模型分为特征提取、特征融合和训练收敛的CBAM-AV-LipNet模型三部分。其中,特征提取部分,以预处理视觉信息数据为输入,经过3层CBAM-STCNN Module,1层Bi-GRU堆叠构成的视觉流,提取视觉深层特征。以预处理听觉信息数据为输入,经过3层CBAM-CNN Module,1层Bi-GRU堆叠构成的听觉流,提取听觉深层特征。特征融合部分是将视觉深层特征和听觉深层特征在时间维度上连接,通过2层Bi-GRU、1层FC和softmax层提取深层融合特征。最后以CTC损失函数计算损失值,并反向传播更新参数,得到训练收敛的CBAM-AV-LipNet模型。图3是提出CBAM-AV-LipNet模型的结构图。
①提取视觉和听觉深层特征
视觉流中的CBAM-STCNN Module是由时空卷积层、通道注意力模块以及空间注意力模块构成。
时空卷积层提取特征的卷积操作为:
将每一层卷积操作的输出结果输入到空间池化层中。空间池化操作对经过卷积处理得到的视觉时空特征进行降维,进一步提取视觉信息数据的深层特征,可以达到减少网络参数,优化模型结构,加快运行速度,缓解大量参数训练导致的过拟合现象,提升模型鲁棒性的效果。
选取最大池化操作作为空间池化操作的操作方式,其过程为:
由于CBAM可使模型特异性地学习视觉信息数据特征,加快模型的训练速度,提升模型识别效果,本发明在每一层时空卷积层后连接一层CBAM。其中CBAM分为通道注意力模块和空间注意力模块。
通道注意力模块以时空卷积层的输出即为输入,在空间维度上对进行最大池化操作和平均池化操作,分别得到通道池化向量和随后使用卷积共享网络对和进行处理得到新的通道池化向量和将二者相加并使用sigmoid激活函数使其值域映射至(0,1),最终得到通道注意力矩阵Mc。将通道注意力矩阵Mc与时空卷积层的输出特征Fv相乘得到视觉通道深层特征矩阵F′v。具体如下:
式中:F′v表示视觉通道深层特征矩阵,Fv表示视觉时空深层特征,表示外积操作,Mc(·)表示通道注意力矩阵,f1(·)和f2(·)表示卷积操作,AvgPool(·)为平均池化操作,MaxPool(·)为最大池化操作,sigm(·)为sigmoid激活函数。
空间注意力模块以视觉通道深层特征矩阵F′v为输入,在通道维度上对F′v进行最大池化和平均池化操作,分别得到空间池化向量和将空间池化向量和使用连接的方式进行合并,并利用卷积操作完成融合。使用sigmoid激活函数将其值域映射至(0,1),最终得到空间注意力矩阵Ms。将空间注意力矩阵Ms与视觉通道深层特征矩阵F′v相乘得到视觉空间深层特征矩阵F″v。具体如下:
本发明利用Bi-GRU在时间维度上对视觉空间深层特征矩阵F″v进行深层整合,进一步提取时序特征,即视觉深层特征矩阵Fv-final。具体提取特征的过程可描述为:
式中:分别表示第1、2层Bi-GRU的更新门,rt (1)∈[0,1]、rt (2)∈[0,1]分别表示第1、2层Bi-GRU的重置门,分别表示第1、2层Bi-GRU的候选更新状态,分别表示第1、2层Bi-GRU的隐状态,W(·),U(·),b(·)为对应的学习参数,sigm(·)表示Logistic激活函数,tanh(·)表示tanh激活函数,ht表示Bi-GRU的输出,即为视觉深层特征矩阵Fv-final。
听觉流中的CBAM-CNN Module是由卷积网络层、通道注意力机制模块以及空间注意力模块构成。
卷积网络层中提取特征的卷积操作为:
同理,为了进一步提取听觉信息数据的深层特征且达到减少网络参数,优化模型结构的目的,在每一层卷积操作后连接一层池化层,池化操作的过程为:
Fa″=MaxPool(Fa″)=max(Fa″)
式中:Fa为听觉卷积深层特征,Fa′表示听觉通道深层特征矩阵,Fa″表示听觉空间深层特征矩阵,f7×7表示7×7的卷积层。
最后,使用1层Bi-GRU对3层CBAM-CNN Module提取的听觉空间深层特征Fa″进一步提取听觉深层时序特征,得到听觉深层特征矩阵Fa-final。并与视觉流的视觉深层特征矩阵Fv-final结构完成统一。
②特征融合
将视觉深层特征矩阵Fv-final和听觉深层特征矩阵Fa-final,在时间维度上进行连接,连接过程为:
以2层Bi-GRU、1层FC和softmax层进行特征融合,提取视听双模态信息数据的深层融合特征。
③训练收敛的CBAM-AV-LipNet模型
以softmax层的输出作为CBAM-AV-LipNet模型的输出,使用CTC损失函数计算其与真实标签的损失值,依此进行反向传播,利用链式法则找出最小损失梯度,并根据学习率更新网络参数,得到训练收敛的CBAM-AV-LipNet模型。具体学习过程为:
式中:θ_CBAM-AV-lipnet为CBAM-AV-LipNet模型的网络参数,D为训练集,x表示样本信息输入,l表示标签序列,xv为视觉信息数据,xa为听觉信息数据,B为CTC预测变换,π表示CBAM-AV-LipNet模型输出的识别文本信息序列,p(l|xv,xa)表示给定输入xa、xv的情况下,CBAM-AV-LipNet模型的输出与真实标签l序列一致的概率。
(3)完成基于卷积块注意机制的视听双模态语音识别任务
对视听双模态信息数据测试集输入至CBAM-AV-LipNet模型中,利用视觉流提取视觉深层特征,听觉流提取听觉深层特征,将提取的特征融合,进一步提取深层融合特征,得到深层融合特征向量。对深层融合特征向量采用CTC贪婪搜索解码算法进行解码,得到视听双模态信息数据的识别文本信息,最终完成视听双模态语音识别任务。
为验证本发明提出的一种基于卷积块注意机制的视听双模态语音识别方法的有效性,分别给出视觉语音识别模型LipNet、传统语音识别模型A-LipNet、视听唇读网络模型AV-LipNet和本发明提出的CBAM-AV-LipNet模型的结果比较,验证本发明对于唇读语音识别具有更好的效果。实验选取GRID数据集中S1/priv7a、S2/lrblzs、S3/lbwe5a、S8/bbae5n样本信息数据集展示部分实验结果。样本的标签文本分别为:PLACE RED IN V SEVENAGAIN、LAY RED BY L ZERO SOON、LAY BLUE WITH E FIVE AGAIN和BIN BLUE AT E FIVENOW。
图4给出了各语音识别模型的识别结果图。图4(a)是LipNet处理的视觉信息数据及识别文本结果,图4(b)是A-LipNet处理的听觉信息数据及识别文本结果,图4(c)是AV-LipNet处理的视听双模态信息数据及识别文本结果,图4(d)是CBAM-AV-LipNet处理的视听双模态信息数据及识别文本结果。
为定量分析各模型的识别性能,表1给出了各语音识别模型的测试识别单词错误率(WER)和测试识别字符错误率(CER)。
WER的计算公式为:
式中:WS、WD和WI分别为模型产生的单词序列向标签单词序列转换需要进行替换、删除、插入的单词数目。WN为标签单词序列的单词数目。
CER的计算公式为:
式中:CS、CD和CI分别为模型产生的字符序列向标签字符序列转换需要进行替换、删除、插入的字符数目。CN为标签字符序列的字符数目。
表1各语音识别模型测试识别单词错误率和字符错误率
模型 | 测试识别单词错误率 | 测试识别字符错误率 |
LipNet | 16.82% | 6.56% |
A-LipNet | 2.14% | 1.13% |
AV-LipNet | 1.04% | 0.42% |
CBAM-AV-LipNet | 1.02% | 0.38% |
从图4和表1可以看出,以视觉信息数据为输入的视觉语音识别模型LipNet的语音识别效果较差,以听觉信息数据为输入的传统语音识别模型A-LipNet的语音识别效果相对有提高。而以视听双模态信息数据为输入,对视觉信息和听觉信息的特征进行融合完成识别的视听唇读网络模型AV-LipNet和引入基于卷积块注意机制提出构建CBAM-AV-LipNet模型,可将识别错误率进一步降低。也再次验证本发明提出的CBAM-AV-LipNet模型具有更好的识别性能。
对LipNet、A-LipNet、AV-LipNet和本发明提出的CBAM-AV-LipNet模型进行收敛速度测试。图5给出前100轮各语音识别模型训练损失曲线图。图6给出前100轮各语音识别模型训练单词错误率曲线图。由图5可以看出,本发明提出的CBAM-AV-LipNet模型训练损失值下降很快,具有更快的收敛速度。另外在图6中,相同训练单词错误率的情况下,本发明提出的CBAM-AV-LipNet模型,所需要的训练轮数最少,再次证明该模型具有良好的收敛性能,也进一步说明CBAM-AV-LipNet引入卷积块注意力机制后可更好地分配隐层权重,加速模型收敛。
由于在真实复杂环境中,存在大量的噪声,而语音识别中的视觉信息数据不受听觉信息数据中噪声的影响,为测试各模型对含噪听觉信息数据的抗噪能力,本发明使用信噪比为20dB、10dB、-5dB三种高斯白噪声对视听双模态信息数据中的听觉信息数据进行加噪处理,分别得到噪声强度低、中、高三个含噪视听双模态信息数据集。图7是各强度噪声下的部分听觉信息数据波形图示例。图7(a)是纯净听觉信息数据波形图,图7(b)是低噪(20dB)听觉信息数据波形图,图7(c)是中噪(10dB)听觉信息数据波形图,图7(d)是高噪(-5dB)听觉信息数据波形图。
图8给出低噪(20dB)强度下各语音识别模型的识别结果图。图8(a)是低噪强度下LipNet处理的视觉信息数据及识别文本结果,图8(b)是低噪强度下A-LipNet处理的听觉信息数据及识别文本结果,图8(c)是低噪强度下AV-LipNet处理的视听双模态信息数据及识别文本结果,图8(d)是低噪强度下CBAM-AV-LipNet处理的视听双模态信息数据及识别文本结果。
图9给出中噪(10dB)强度下各语音识别模型的识别结果图。图9(a)是中噪强度下LipNet处理的视觉信息数据及识别文本结果,图9(b)是中噪强度下A-LipNet处理的听觉信息数据及识别文本结果,图9(c)是中噪强度下AV-LipNet处理的视听双模态信息数据及识别文本结果,图9(d)是中噪强度下CBAM-AV-LipNet处理的视听双模态信息数据及识别文本结果。
图10给出高噪(-5dB)强度下各语音识别模型的识别结果图。图10(a)是高噪强度下LipNet处理的视觉信息数据及识别文本结果,图10(b)是高噪强度下A-LipNet处理的听觉信息数据及识别文本结果,图10(c)是高噪强度下AV-LipNet处理的视听双模态信息数据及识别文本结果,图10(d)是高噪强度下CBAM-AV-LipNet处理的视听双模态信息数据及识别文本结果。
为定量分析各语音识别模型的抗噪性能,表2给出各语音识别模型在不同噪声强度下识别单词错误率。表3给出各语音识别模型在不同噪声强度下识别字符错误率。
表2各语音识别模型在不同噪声强度下识别单词错误率
表3各语音识别模型在不同噪声强度下识别字符错误率
从表2和表3可以看出,视觉语音识别模型LipNet在各种噪声下的识别率均不变,不受含噪听觉信息数据的影响。传统语音识别模型A-LipNet在低强度噪声的影响下,识别性能有提升,但在中强度和高强度噪声的影响下,其识别性能大幅下降,说明A-LipNet模型的抗噪性能相对较弱。视听唇读网络模型AV-LipNet在低强度和中强度噪声的影响下,仍能保持良好的识别性能,在高强度噪声的影响下,较A-LipNet模型在识别性能有一定程度的提高。本发明提出的CBAM-AV-LipNet模型在低强度噪声的影响下,能保持相对最好的识别性能,在中强度噪声的影响下,也能保持一定的识别性能,在高强度噪声的影响下,较A-LipNet、AV-LipNet在识别性能有较大的提高,说明CBAM-AV-LipNet具有良好的抗噪能力。
通过分别对LipNet、A-LipNet、AV-LipNet和本发明提出的CBAM-AV-LipNet模型进行识别性能测试、收敛速度测试及抗噪能力测试可以得出,本发明提出的CBAM-AV-LipNet模型具有更好的识别效果。同时由于本发明提出的CBAM-AV-LipNet模型是在AV-LipNet模型的基础上引入卷积块注意力机制,所以CBAM-AV-LipNet可以更合理的分配隐层参数权重,更快地学习视听双模态信息数据特征,具有更快的收敛速度。并且通过抗噪性能对比实验,验证了本发明提出的CBAM-AV-LipNet具有一定的抗噪能力和有效性。
本发明提供的是一种基于卷积块注意机制的视听双模态语音识别方法。包括如下步骤:(1)对视听双模态信息数据集进行预处理;(2)提出构建基于卷积块注意机制的视听唇读网络(Convolutional Block Attention Module Audio-Visual LipNet,CBAM-AV-LipNet)模型;(3)完成基于卷积块注意机制的视听双模态语音识别任务。本发明为了取得良好的视听双模态语音识别效果,提出一种基于卷积块注意机制的视听双模态语音识别方法。即针对原始视听双模态数据集中存在冗余,且数据中无用特征过多等问题,对原始数据集分别进行预处理,得到图像增强的嘴部兴趣区域(Region of Interest,ROI)图像序列和短时傅里叶变换(Short-Time Fourier Transform,STFT)的归一化音频数据;在此基础上,为了提升视觉语音识别模型LipNet的收敛速度和识别精度,对视觉信息和听觉信息的特征进行融合建立视听唇读网络模型(Audio-Visual LipNet,AV-LipNet),并引入基于卷积块注意机制提出构建CBAM-AV-LipNet模型。以CBAM-时空卷积神经网络模块(CBAM-Spatiotemporal Convolutional Neural Networks Module,CBAM-STCNN Module)和双向门控循环单元网络(Bidirectional Gated Recurrent Unit,Bi-GRU)构成视觉流提取视觉深层特征,以CBAM卷积神经网络模块(CBAM-Convolutional Neural Networks Module,CBAM-CNN Module)和Bi-GRU构成听觉流提取听觉深层特征。进一步将视觉深层特征和听觉深层特征在时间维度上连接,通过Bi-GRU、全连接层(Fully Connected Layers,FC)和softmax层提取深层融合特征。最后以连接时序分类(Connectionist TemporalClassification,CTC)损失函数计算损失值,并反向传播更新参数,得到训练收敛的CBAM-AV-LipNet模型;利用提出构建的CBAM-AV-LipNet模型对测试集进行特征提取得到深层融合特征向量,对其进行CTC贪婪搜索解码,获得识别文本信息,完成视听双模态语音识别任务。本发明提出的基于卷积块注意机制的视听双模态语音识别方法具有良好的识别性能和收敛速度,同时具有一定的抗噪能力和有效性。
Claims (10)
1.一种基于卷积块注意机制的视听双模态语音识别方法,其特征是,包括如下步骤:
(1)对视听双模态信息数据集进行预处理:①对视听双模态信息数据集中的原始图像序列提取嘴部ROI图像序列,进行图像增强,得到预处理视觉信息数据;②对视听双模态信息数据集中的原始音频数据进行STFT算法处理及最大最小归一化处理,得到预处理听觉信息数据;
(2)提出构建CBAM-AV-LipNet模型:①以3层CBAM-STCNN Module,1层Bi-GRU堆叠构成视觉特征提取网络,CBAM-STCNN Module由时空卷积层、通道注意力模块以及空间注意力模块构成;首先以预处理视觉信息数据为输入,通过CBAM-STCNN Module提取预处理视觉信息数据的视觉空间深层特征,随后利用Bi-GRU对视觉空间深层特征进一步提取视觉深层时序特征,得到视觉深层特征矩阵;②以3层CBAM-CNN Module,1层Bi-GRU堆叠构成听觉特征提取网络,CBAM-CNN Module由卷积神经网络层、通道注意力模块以及空间注意力模块构成;首先以预处理听觉信息数据为输入,通过CBAM-CNN Module提取预处理听觉信息数据的听觉空间深层特征,随后利用Bi-GRU对听觉空间深层特征进一步提取听觉深层时序特征,得到听觉深层特征矩阵;③将视觉特征提取网络提取到的视觉深层特征矩阵和听觉特征提取网络提取到的听觉深层特征矩阵在时间维度上连接,通过2层Bi-GRU、1层FC和softmax层提取深层融合特征;④以CTC损失函数计算损失值,反向传播更新模型参数,得到训练收敛的CBAM-AV-LipNet模型;
(3)将训练好的CBAM-AV-LipNet模型对测试数据进行识别以完成基于卷积块注意机制的视听双模态语音识别任务:①利用CBAM-AV-LipNet模型对测试集进行特征提取得到深层融合特征向量;②对深层融合特征向量进行CTC贪婪搜索解码,获得识别文本信息,实现视听双模态语音识别任务。
2.根据权利要求1所述的基于卷积块注意机制的视听双模态语音识别方法,其特征是:在步骤(1)中对视听双模态信息数据集中的原始图像序列,使用Dlib脸部检测器提取嘴部ROI图像序列,进行颜色规范化并以概率p水平翻转完成图像增强处理,得到预处理视觉信息数据。
3.根据权利要求1或2所述的基于卷积块注意机制的视听双模态语音识别方法,其特征是:所述步骤(1)中对视听双模态信息数据集中的原始音频数据,使用滑窗大小为40ms,滑窗滑动步长为10ms,采样率为16kHz的STFT算法,得到321维的频谱矩阵,并对频谱矩阵使用最大最小归一化处理,得到预处理听觉信息数据。
4.根据权利要求1所述的基于卷积块注意机制的视听双模态语音识别方法,其特征是:在步骤(2)中CBAM-STCNN Module由时空卷积层、通道注意力模块以及空间注意力模块构成;其中,时空卷积层提取特征的卷积操作为: 表示第l层的输出,表示第l-1层的输出,为第l层的学习权重参数,表示第l层的偏置,表示激活函数,C表示通道数,T表示时间步长,W表示特征映射的宽,H表示特征映射的高;令通道注意力模块提取通道特征的过程为:Fv′表示视觉通道深层特征矩阵,Fv表示视觉时空深层特征,表示外积操作,Mc(·)表示通道注意力矩阵,f1(·)和f2(·)表示卷积操作,AvgPool(·)为平均池化操作,MaxPool(·)为最大池化操作,sigm(·)为sigmoid激活函数;空间注意力模块提取空间特征的过程为:Fv″表示视觉空间深层特征矩阵,表示连接操作,Ms(·)表示空间注意力矩阵,f7×7×7表示7×7×7的卷积层。
5.根据权利要求1或4所述的基于卷积块注意机制的视听双模态语音识别方法,其特征是:所述步骤(2)中使用Bi-GRU对CBAM-STCNN Module提取到的视觉空间深层特征Fv″进一步提取视觉深层时序特征,得到视觉深层特征矩阵Fv-final。
6.根据权利要求1所述的基于卷积块注意机制的视听双模态语音识别方法,其特征是:所述步骤(2)中CBAM-CNN Module由卷积神经网络层、通道注意力模块以及空间注意力模块构成;卷积神经网络层提取特征的卷积操作为: 表示第l-1层的输出,表示第l层的输出;为第l层的学习权重参数,表示第l层的偏置,表示激活函数,C为通道数,T为时间步长,F表示特征映射的尺寸大小;令通道注意力模块提取通道特征的过程为:Fa′为听觉通道深层特征矩阵,Fa为听觉卷积深层特征,表示外积操作,Mc(·)表示通道注意力矩阵,f1(·)和f2(·)表示卷积操作,AvgPool(·)为平均池化操作,MaxPool(·)为最大池化操作,sigm(·)为sigmoid激活函数;空间注意力模块提取空间特征过程为:Fa″表示听觉空间深层特征矩阵,表示连接操作,Ms(·)表示空间注意力矩阵,f7×7表示7×7的卷积层。
7.根据权利要求1所述的基于卷积块注意机制的视听双模态语音识别方法,其特征是:所述步骤(2)中使用Bi-GRU对CBAM-CNN Module提取到的听觉空间深层特征Fa″进一步提取听觉深层时序特征,得到听觉深层特征矩阵Fa-final。
9.根据权利要求1所述的基于卷积块注意机制的视听双模态语音识别方法,其特征是:所述步骤(2)中以softmax层的输出作为CBAM-AV-LipNet模型的输出,使用CTC损失函数计算其与真实标签的损失值,依此进行反向传播,利用链式法则找出最小损失梯度,并根据学习率更新网络参数,得到训练收敛的CBAM-AV-LipNet模型;具体学习过程为:θ_CBAM-AV-lipnet为CBAM-AV-LipNet模型的网络参数,D为训练集,x表示样本信息输入,l表示标签序列,xv为视觉信息数据,xa为听觉信息数据,B为CTC预测变换,π表示CBAM-AV-LipNet模型输出的识别文本信息序列,p(l|xv,xa)表示给定输入xa、xv的情况下,CBAM-AV-LipNet模型的输出与真实标签l序列一致的概率。
10.根据权利要求1所述的基于卷积块注意机制的视听双模态语音识别方法,其特征是:在步骤(3)中对视听双模态信息数据测试集输入至训练收敛的CBAM-AV-LipNet模型中,利用视觉特征提取网络提取视觉深层特征,听觉特征提取网络提取听觉深层特征,将提取的特征融合,进一步提取深层融合特征,得到深层融合特征向量;所述步骤(3)中对深层融合特征向量采用CTC贪婪搜索解码算法进行解码,得到视听双模态信息数据的识别文本信息,最终完成视听双模态语音识别任务。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011080817.6A CN112216271B (zh) | 2020-10-11 | 2020-10-11 | 一种基于卷积块注意机制的视听双模态语音识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011080817.6A CN112216271B (zh) | 2020-10-11 | 2020-10-11 | 一种基于卷积块注意机制的视听双模态语音识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112216271A CN112216271A (zh) | 2021-01-12 |
CN112216271B true CN112216271B (zh) | 2022-10-14 |
Family
ID=74054360
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011080817.6A Active CN112216271B (zh) | 2020-10-11 | 2020-10-11 | 一种基于卷积块注意机制的视听双模态语音识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112216271B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112863538B (zh) * | 2021-02-24 | 2022-06-14 | 复旦大学 | 一种基于视听网络的多模态语音分离方法及装置 |
CN113053361B (zh) * | 2021-03-18 | 2023-07-04 | 北京金山云网络技术有限公司 | 语音识别方法、模型训练方法、装置、设备及介质 |
CN113057633B (zh) * | 2021-03-26 | 2022-11-01 | 华南理工大学 | 多模态情绪压力识别方法、装置、计算机设备及存储介质 |
CN113159217B (zh) * | 2021-05-12 | 2023-08-01 | 深圳龙岗智能视听研究院 | 一种基于事件相机的注意力机制目标检测的方法 |
CN113362540A (zh) * | 2021-06-11 | 2021-09-07 | 江苏苏云信息科技有限公司 | 基于多模交互的交通票务处理装置、系统及方法 |
CN113239903B (zh) * | 2021-07-08 | 2021-10-01 | 中国人民解放军国防科技大学 | 一种跨模态唇读的对抗性双重对比自监督学习方法 |
CN113808573B (zh) * | 2021-08-06 | 2023-11-07 | 华南理工大学 | 基于混合域注意力与时序自注意力的方言分类方法及系统 |
CN113435421B (zh) * | 2021-08-26 | 2021-11-05 | 湖南大学 | 一种基于跨模态注意力增强的唇语识别方法及系统 |
CN116310975A (zh) * | 2023-03-14 | 2023-06-23 | 北京邮电大学 | 一种基于一致片段选择的视听事件定位方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111048082A (zh) * | 2019-12-12 | 2020-04-21 | 中国电子科技集团公司第二十八研究所 | 一种改进的端到端语音识别方法 |
CN111160488A (zh) * | 2020-01-02 | 2020-05-15 | 中国民航大学 | 融合注意力选择机制的CondenseNet算法 |
CN111223483A (zh) * | 2019-12-10 | 2020-06-02 | 浙江大学 | 一种基于多粒度知识蒸馏的唇语识别方法 |
CN111401250A (zh) * | 2020-03-17 | 2020-07-10 | 东北大学 | 一种基于混合卷积神经网络的中文唇语识别方法及装置 |
CN111477221A (zh) * | 2020-05-28 | 2020-07-31 | 中国科学技术大学 | 采用双向时序卷积与自注意力机制网络的语音识别系统 |
CN111754992A (zh) * | 2020-06-30 | 2020-10-09 | 山东大学 | 一种噪声鲁棒的音视频双模态语音识别方法及系统 |
-
2020
- 2020-10-11 CN CN202011080817.6A patent/CN112216271B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111223483A (zh) * | 2019-12-10 | 2020-06-02 | 浙江大学 | 一种基于多粒度知识蒸馏的唇语识别方法 |
CN111048082A (zh) * | 2019-12-12 | 2020-04-21 | 中国电子科技集团公司第二十八研究所 | 一种改进的端到端语音识别方法 |
CN111160488A (zh) * | 2020-01-02 | 2020-05-15 | 中国民航大学 | 融合注意力选择机制的CondenseNet算法 |
CN111401250A (zh) * | 2020-03-17 | 2020-07-10 | 东北大学 | 一种基于混合卷积神经网络的中文唇语识别方法及装置 |
CN111477221A (zh) * | 2020-05-28 | 2020-07-31 | 中国科学技术大学 | 采用双向时序卷积与自注意力机制网络的语音识别系统 |
CN111754992A (zh) * | 2020-06-30 | 2020-10-09 | 山东大学 | 一种噪声鲁棒的音视频双模态语音识别方法及系统 |
Non-Patent Citations (6)
Title |
---|
"基于深度学习的唇语识别方法研究";闫捷;《中国优秀硕士学位论文全文数据库信息科技辑》;20190715 * |
" End-to-end Audiovisual Speech Recognition";Petridis S;《IEEE》;20181231 * |
"CBAM: Convolutional Block Attention Module";Sanghyun Woo;《Computer Vision and Pattern Recognition》;20181231 * |
"Deep Multimodal Learning for Audio-Visual Speech Recognition";Mroueh Y;《ICASSP》;20151231 * |
"Facial Expression Recognition via a CBAM Embedded Network";Cao W;《 Procedia Computer Science》;20200727 * |
"基于深度学习的唇读识别研究";吴大江;《中国优秀硕士学位论文全文数据库信息科技辑》;20200615 * |
Also Published As
Publication number | Publication date |
---|---|
CN112216271A (zh) | 2021-01-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112216271B (zh) | 一种基于卷积块注意机制的视听双模态语音识别方法 | |
Harwath et al. | Jointly discovering visual objects and spoken words from raw sensory input | |
CN110491416B (zh) | 一种基于lstm和sae的电话语音情感分析与识别方法 | |
CN110600017B (zh) | 语音处理模型的训练方法、语音识别方法、系统及装置 | |
CN111061843B (zh) | 一种知识图谱引导的假新闻检测方法 | |
CN109559736B (zh) | 一种基于对抗网络的电影演员自动配音方法 | |
CN109637522B (zh) | 一种基于语谱图提取深度空间注意特征的语音情感识别方法 | |
CN110853680B (zh) | 一种具有多输入多融合策略的双BiLSTM的语音情感识别方法 | |
CN112101241A (zh) | 一种基于深度学习的轻量级表情识别方法 | |
CN112581979B (zh) | 一种基于语谱图的语音情绪识别方法 | |
CN110459225B (zh) | 一种基于cnn融合特征的说话人辨认系统 | |
CN112329438B (zh) | 基于域对抗训练的自动谎言检测方法及系统 | |
CN111653275A (zh) | 基于lstm-ctc尾部卷积的语音识别模型的构建方法及装置、语音识别方法 | |
CN112562725A (zh) | 基于语谱图和胶囊网络的混合语音情感分类方法 | |
CN115083394A (zh) | 一种融合时空属性的实时环境噪声识别方法、系统及设备 | |
CN115393933A (zh) | 一种基于帧注意力机制的视频人脸情绪识别方法 | |
CN116230019A (zh) | 一种基于半监督语音情感识别框架的深度情感聚类方法 | |
Han et al. | Self-supervised learning with cluster-aware-dino for high-performance robust speaker verification | |
Zheng et al. | MSRANet: Learning discriminative embeddings for speaker verification via channel and spatial attention mechanism in alterable scenarios | |
CN114694255A (zh) | 基于通道注意力与时间卷积网络的句子级唇语识别方法 | |
Liu et al. | Birdsong classification based on multi feature channel fusion | |
CN112466284B (zh) | 一种口罩语音鉴别方法 | |
CN116758451A (zh) | 基于多尺度和全局交叉注意力的视听情感识别方法及系统 | |
CN116434786A (zh) | 融合文本语义辅助的教师语音情感识别方法 | |
CN116432664A (zh) | 一种高质量数据扩增的对话意图分类方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |