CN114694255A - 基于通道注意力与时间卷积网络的句子级唇语识别方法 - Google Patents
基于通道注意力与时间卷积网络的句子级唇语识别方法 Download PDFInfo
- Publication number
- CN114694255A CN114694255A CN202210348821.9A CN202210348821A CN114694255A CN 114694255 A CN114694255 A CN 114694255A CN 202210348821 A CN202210348821 A CN 202210348821A CN 114694255 A CN114694255 A CN 114694255A
- Authority
- CN
- China
- Prior art keywords
- neural network
- feature
- channel
- attention
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于通道注意力与时间卷积网络的句子级唇语识别方法,包括:1、下载用于训练模型的数据集GRID和更具挑战性的CMLR,并对数据集进行预处理;2、搭建本发明公开的唇语识别网络,将经预处理的数据集送入到网络中进行训练,调整网络参数,得到最优的唇语识别网络模型;4、用训练好的模型对视频进行唇语识别。本发明通过对唇语视频在时域、空域的多尺度特征提取,结合注意力机制获得了高质量的唇语识别特征图,从而能提高唇语识别精准度,且其在更具挑战性的CMLR数据集上的对应评价指标优异。
Description
技术领域
本发明属于计算机机器学习与人工智能技术领域,主要涉及一种深度神经网络的唇语识别方法。
背景技术
唇语在人类交流和言语理解中起着至关重要的作用,据研究表明,人类的唇读能力很差,而听力受损的人只能得到低于30%的准确率。因此,良好的唇语识别技术可用于改进助听器,改善无声、安全、嘈杂环境中的语言信息的获取等,具有巨大的实用性,因此成为日益受到关注的领域。深度学习出现之前,唇读的大部分工作都是基于手工设计的特征学习的,这类方法计算量大且准确度较低。近年来随着深度学习的进步发展,基于深度学习的唇语识别方法受到广泛的关注,利用深度神经网络可以在一个端到端的模型中完成视觉特征和上下文信息的提取以及特征到发音的映射。其中,3D卷积神经网络能够提取出视频片段中嘴唇区域的短期变化特征;时间卷积网络能够高效地通过提取特征序列的上下文信息进而推断出发音;结合注意力机制的序列到序列模型(Sequence to Sequence withAttention)能够更好地进行语义的编码与解码。在这些深度学习方法基础上,唇语识别技术取得了很大的进展。
根据建模任务是对单词或音素分类还是预测完整的句子序列,唇语识别可分为单词级别和句子级别两类。单词级别的唇语识别方法只对单个孤立的单词进行预测,预测对象通常为0.5s左右的短视频,忽略了上下文对单词预测提供的信息,而句子级别的唇语识别方法预测对象可以是几秒甚至更长视频片段,并且能够充分利用上下文信息帮助预测单词,后者表现出更大的实际意义。近年来,单词级别的唇语识别方法发展迅速,对于单个单词分类的准确率可以达到86%以上(在LRW数据集上)。而对于完整句子序列预测的句子级别唇语识别方法的研究相对较少,且现有的模型对嘴唇区域部分特征提取不够充分,唇语识别的准确率仍然较低,存在可以改进的地方。
同时,对于目前存在的唇语识别数据集。GRID是英文句子级唇语识别数据集,由众多视频片段组成,每个视频片段由一位说话人在受控实验环境下说出一句话录制而成,每个句子由动词+介词+字母+数字+副词序列组成,例如“bin green at c one now”。CMLR数据集是目前最大的中文普通话唇语识别数据集,CMLR由2009年6月至2018年6月的新闻联播视频组成。很显然,GRID由于英语语法,其句式结构固定,难度较CMLR低。而对于CMLR,由于中文语法结构的多样性,其句式结构不固定,句子长短不一,各个汉字出现的频率也不一样,故CMLR数据集更具有挑战性。
发明内容
针对上述现有的针对句子级的唇语识别中存在的相关问题,本发明提出一种基于通道注意力与时间卷积网络的唇语识别方法,以期能更好地学习说话者嘴唇区域特征,从而实现更准确的唇读,达到更好的唇语识别效果。
本发明为解决技术问题采用如下技术方案:
本发明一种基于通道注意力与时间卷积网络的句子级唇语识别方法的特点在于,是按如下步骤进行:
步骤1、获取句子级别的唇语识别视频数据集及其对应的真实文本词向量集合G,使用人脸检测器对唇语识别视频数据集中每个视频的每一帧图像进行人脸特征检测,提取出嘴唇区域图像,从而得到每个视频的嘴唇区域图像集合,并构成嘴唇区域图像数据集L;
步骤2、将所述嘴唇区域图像数据集L划分为多个批次{l1,l2,...,ln,...,lN},ln表示第n个批次;第n个批次ln包含B个视频对应的嘴唇区域图像集合并作为B个训练样本{b1n,b2n,...,br,n,...,bB,n},其对应的真实文本向量集合为{g1,n,g2,n,...,gr,n,...,gB,n};其中,br,n表示第n个批次ln的第r个视频的嘴唇区域图像集合,gr,n表示第n个批次ln的第r个视频中的真实文本向量集合;其中,r=1,2,…,B;n=1,2,…,N;
步骤3、构建基于通道注意力与时间卷积网络的句子级唇语识别模型,包括:融合通道注意力网络的卷积前端神经网络3CCAN、时间卷积神经网络TCN、结合注意力机制的序列到序列模型SAM;并将所述第n个批次ln训练样本输入到识别模型中;
步骤3.1、构建融合通道注意力网络的卷积前端神经网络3CCAN;
所述卷积前端神经网络3CCAN由J个3D卷积神经网络模块和K个二维残差神经网络模块构成;
其中,任意第j个3D卷积神经网络模块依次包括:e个3D卷积层、f个3D批标准化层、u个参数化整流线性单元、v个3D最大池化层;其中,j=1,2,…,J;
任意第k个二维残差神经网络模块依次由X个残差通道注意力子模块构成,任意第x个残差通道注意力子模块依次由y个残差神经网络和z个通道注意力网络构成;其中,k=1,2,…,K;x=1,2,…,X;
当j=1时,第n个批次ln的第r个视频的嘴唇区域图像集合br,n输入到第j个3D卷积神经网络模块中,依次经过e个3D卷积层的处理后,由第e个3D卷积层输出捕捉到的视频中嘴唇区域的图像特征3DResultr,n,j,e;
所述嘴唇区域的图像特征3DResultr,n,j,e依次经过f个3D批标准化层的标准化处理后,由第f个3D批标准化层输出标准化后的图像特征3DResultNorr,n,j,f;
所述标准化后的特征3DResultNorr,n,j,f依次经过u个参数化整流线性单元的特征映射处理后,由第u个参数化整流线性单元输出防止梯度爆炸的线性映射特征图PResultr,n,j,u;
所述线性映射特征图PResultr,n,j,u依次经过v个3D最大池化层的特征降维处理后,由第v个3D最大池化层输出降维后的特征图3DMPoolr.n,j,v;
当j=2,3,…,J时,第j-1个3D卷积神经网络模块输出的降维后的特征图3DMPoolr.n,j-1,v送入到第j个3D卷积神经网络模块中,并相应输出降维后的特征图3DMPoolr.n,j,v;从而由第J个3D卷积神经网络模块输出降维后的特征图3DMPoolr.n,J,v;
当k=1,x=1时,所述降维后的特征图3DMPoolr,n,J,v输入到第k个二维残差神经网络模块中第x个残差通道注意力子模块中;依次经过y个残差神经网络的处理,由第y个残差神经网络输出缓解网络退化的残差图像特征2DResResultr,n,k,x,y;
所述残差图像特征2DResResultr,n,k,x,y依次经过z个通道注意力机制网络处理后,由第z个通道注意力网络输出通道特征加强的特征向量CAttnr,n,k,x,y,z;
当x=2,3,…,X时,第x-1个残差通道注意力子模块输出的通道特征加强的特征向量CAttnr,n,k,x-1,y,z送入到第x个残差通道注意力子模块中,并相应输出通道特征加强的特征向量CAttnr,n,k,x,y,z;从而由第X个残差通道注意力子模块输出通道特征加强的特征向量CAttnr,n,k,X,y,z;
当k=2,3,…,K时,第k-1个二维残差神经网络模块输出的通道特征加强的特征向量CAttnr,n,k-1,X,y,z送入到第k个二维残差神经网络模块中,并相应输出通道特征加强的特征向量CAttnr,n,k,X,y,z;从而由第K个二维残差神经网络模块输出通道特征加强的特征向量CAttnr,n,K,X,y,z并作为卷积前端神经网络3CCAN输出的特征图,记为3CCANResultr,n;
步骤3.2、构建时间卷积神经网络TCN;
所述时间卷积神经网络TCN由W组时间卷积层并联构成,每组时间卷积层由H个时间卷积层串行连接构成,其中,W×H个时间卷积层中任意第w组时间卷积层中第h个时间卷积层的卷积核大小为Cw,h;w=1,2,…,W;h=1,2,…,H;
所述特征图3CCANResultr,n作为输入分别送到W组时间卷积层中,并依次经过每组的H个时间卷积层的处理后,输出W个不同的时域特征加强后的特征图,其中第w组时间卷积层输出的时域特征加强后的特征图记为TCNResultr,n,w,w=1,2,...,W;再将W个特征图进行特征向量拼接操作,得到来自不同时域特征加强下的多时域尺寸特征TCNResultr,n,并作为时间卷积神经网络TCN的输出;
步骤3.3、构建结合注意力机制的序列到序列模型SAM;
所述结合注意力机制的序列到序列模型SAM依次由编码模块和注意力机制模块以及解码模块组成;其中,编码模块和解码模块分别由P个和Q个门控循环单元构成;所述注意力机制模块由I个注意力机制层组成;
所述多时域尺寸特征TCNResultr,n作为输入送到编码模块中,并依次经过P个门控循环单元进行语义特征提取与编码处理后,输出携带上下文信息的向量Contextr,n;
所述携带上下文信息的向量Contextr,n作为输入送到注意力机制模块中,并依次经过I个注意力机制层的语义信息选择处理,得到具有重要语义信息特征的注意力上下文向量Attnr,n;
步骤3.4、利用式(1)建立交叉熵损失函数Lcross:
步骤3.5、以所述嘴唇区域图像数据集L作为句子级唇语识别网络的输入,并以所述真实文本集合G作为标签,利用反向传播算法对所述句子级唇语识别模型进行训练,并计算交叉熵损失函数Lcross,同时使用Adam优化算法对模型中的参数进行优化,当训练次数达到所设定的次数时,得到训练好的句子级唇语识别模型,用于实现对视频中说话人嘴唇的运动进行识别,即实现机器唇读。
与现有的唇语识别技术相比,本发明有如下的优势:
1.本发明将通道注意力机制融入唇语识别模型中,对在3D卷积神经网络后的二维残差网络嵌入通道注意力机制,加入通道注意力机制的二维残差网络能够捕捉嘴唇区域更细粒度特征,且能够将经过3D卷积神经网络提取到的时空特征进行筛选,去除其中与唇语识别无关的特征。如此,使得唇语识别网络能够更加精准地捕捉到与唇读语义相关的图像特征;
2.本发明将经过改进的时间卷积神经网络TCN融入到唇语识别网络中,该神经网络不仅具有处理时间序列的特性,且其性能经过实践验证优于长短时记忆网络和基于门控循环单元的网络,同时,经过改进的TCN拥有了多个分支,能够提取混合短期和长期信息的语义特征,从而提高了语义信息的丰富度,提高唇读效果;
3.本发明将结合注意力机制的序列到序列模型融入到唇语识别网络中,让其完成对语义特征的编码和解码工作。由于该模型的引入,唇语识别网络能够更加精准地找到对发音相关的序列与序列的关系,从而提高了唇语识别网络的预测精准度;
4.本发明所提出的基于通道注意力与时间卷积神经网络的句子级唇语识别模型很好地完成了更加具有挑战性的数据集——最大的中文普通话唇语识别数据集CMLR的唇语识别任务,且其对应的评价指标优异;如此,本发明能够适应更加复杂的语音识别任务。
综上所述,本发明利用三维卷积神经网络提取视频片段中嘴唇区域的短期变化特征,接着利用ResNet逐帧提取更细粒度的视觉特征,并且在ResNet中嵌入通道注意力机制来抑制与唇语识别任务无关的视觉特征。随后再利用改进的TCN提取嘴唇特征序列的上下文语义,最后通过结合注意力机制的序列到序列模型来解码提取的特征,输出预测的句子,如此得到的结果可以更好地学习说话者嘴唇区域特征,实现了更准确的唇读,达到了更好的唇语识别效果
附图说明
图1为本发明所述网络的模型结构图;
图2为本发明所提出的嵌入唇语识别模型的通道注意力机制网络图;
图3为本发明的实施流程图;
图4为本发明提出的嵌入唇语识别模型的改进时间卷积神经网络结构图;
图5为本发明提出的嵌入唇语识别模型的结合注意力机制的序列到序列模型结构示意图。
具体实施方式
在本实例中,一种基于通道注意力与时间卷积神经网络的句子级唇语识别方法,是根据视频中说话人嘴唇区域的运动,对说话人表达的内容进行识别,映射成文本语言,从而实现基于深度学习的唇读。首先,下载句子级别唇语识别数据集GRID和CMLR,并经过人脸特征检测处理后得到说话人嘴唇区域的图像,搭建完整的唇语识别模型,通过批量标准化、优化算法等方法加快模型训练速度;融合通道注意力机制提高模型的效果;采用Adam优化算法更新优化模型参数;将用于预测的数据集送入到最终训练好的模型,模型根据视频中说话人嘴唇的运动提取出特征,接着通过编码器和解码器将特征以文本语言的形式输出,最终完成唇语识别功能。如图3所示,具体按照以下步骤进行:
步骤1、获取句子级别的唇语识别视频数据集CMLR及其对应的真实文本词向量集合G,使用人脸检测器对唇语识别视频数据集中每个视频的每一帧图像进行人脸特征检测,提取出嘴唇区域图像,从而得到每个视频的嘴唇区域图像集合,并构成嘴唇区域图像数据集L;
步骤2、将嘴唇区域图像数据集L划分为多个批次{l1,l2,...,ln,...,lN},ln表示第n个批次;第n个批次ln包含B个视频对应的嘴唇区域图像集合并作为B个训练样本{b1n,b2n,...,br,n,...,bB,n},其对应的真实文本向量集合为{g1,n,g2,n,...,gr,n,...,gB,n};其中,br,n表示第n个批次ln的第r个视频的嘴唇区域图像集合,gr,n表示第n个批次ln的第r个视频中的真实文本向量集合;其中,r=1,2,…,B;n=1,2,…,N;由于CMLR唇语识别任务更具挑战性。故在本实施例中,对于CMLR数据集中的每个中文样本实例,提取200帧嘴唇区域图像。两种情况下对应的每帧嘴唇区域图像通道数为3,对应宽为128,高为64。
步骤3、构建基于通道注意力与时间卷积网络的句子级唇语识别模型,包括:融合通道注意力网络的卷积前端神经网络3CCAN、时间卷积神经网络TCN、结合注意力机制的序列到序列模型SAM;并将第n个批次ln的训练样本输入到识别模型中;
步骤3.1、构建融合通道注意力网络的卷积前端神经网络3CCAN;
卷积前端神经网络3CCAN由J个3D卷积神经网络模块和K个二维残差神经网络模块构成;
其中,任意第j个3D卷积神经网络模块依次包括:e个3D卷积层、f个3D批标准化层、u个参数化整流线性单元、v个3D最大池化层;其中,j=1,2,…,J;
任意第k个二维残差神经网络模块依次由X个残差通道注意力子模块构成,任意第x个残差通道注意力子模块依次由y个残差神经网络和z个通道注意力网络构成;其中,k=1,2,…,K;x=1,2,…,X;
如图1所示,本实施例中,J=1,K=1,即本实施例中卷积前端神经网络3CCAN由1个3D卷积神经网络模块和1个二维残差神经网络模块构成;
本实施例中,e=f=u=v=1,即本实施例中,3D卷积神经网络模块依次由1个3D卷积层、1个3D批标准化层、1个参数整流线性单元、1个3D最大池化层构成;
本实施例中,X=4,y=z=1,即在本实施例中,二维残差神经网络模块依次由4个残差通道注意力子模块构成,每个残差通道注意力子模块依次由1个残差神经网络和1个通道注意力网络构成;
当j=1时,第n个批次ln的第r个视频的嘴唇区域图像集合br,n输入到第j个3D卷积神经网络模块中,依次经过e个3D卷积层的处理后,由第e个3D卷积层输出捕捉到嘴唇区域的连续帧时空变化特征3DResultr,n,j,e;本实施例中,3D卷积层的卷积核取5×7×7,步长取1×2×2;
嘴唇区域的图像特征3DResultr,n,j,e依次经过f个3D批标准化层的标准化处理后,可以加快模型收敛速度,有助于提升模型精度;由第f个3D批标准化层输出标准化后的图像特征3DResultNorr,n,j,f;
令标准化后的特征3DResultNorr,n,j,f依次经过u个参数化整流线性单元的特征映射处理后,由第u个参数化整流线性单元输出防止梯度爆炸的线性映射特征图PResultr,n,j,u;
令线性映射特征图PResultr,n,j,u依次经过v个3D最大池化层的特征降维处理后,特征图的宽和高均缩小了,降低了模型的计算复杂度;由第v个3D最大池化层输出降维后的特征图3DMPoolr.n,j,v;本实施例中,3D最大池化层的池化核取1×3×3,步长取1×2×2;
当j=2,3,…,J时,第j-1个3D卷积神经网络模块输出的降维后的特征图3DMPoolr.n,j-1,v送入到第j个3D卷积神经网络模块中,并相应输出降维后的特征图3DMPoolr.n,j,v;从而由第J个3D卷积神经网络模块输出降维后的特征图3DMPoolr.n,J,v;
当k=1,x=1时,降维后的特征图3DMPoolr,n,J,v输入到第k个二维残差神经网络模块中第x个残差通道注意力子模块中;依次经过y个残差神经网络的处理,对图像特征进行更细粒度的提取;由第y个残差神经网络输出缓解网络退化的残差图像特征2DResResultr,n,k,x,y;
将残差图像特征2DResResultr,n,k,x,y依次经过z个通道注意力机制网络处理;通过对各通道的依赖性进行建模提高网络的表示能力,并且对特征进行逐通道调整,如此,模型便能够有选择性地加强对包含有用信息的特征的学习并抑制无用特征。由第z个通道注意力网络输出通道特征加强的特征向量CAttnr,n,k,x,y,z;
当x=2,3,…,X时,第x-1个残差通道注意力子模块输出的通道特征加强的特征向量CAttnr,n,k,x-1,y,z送入到第x个残差通道注意力子模块中,并相应输出通道特征加强的特征向量CAttnr,n,k,x,y,z;从而由第X个残差通道注意力子模块输出通道特征加强的特征向量CAttnr,n,k,X,y,z;
本实施例中,当x=1时,第x个残差通道注意力子模块中的残差神经网络部分由3个二维残差卷积神经网络构成,每个二维残差卷积神经网络依次由两个通道数为64、卷积核为3×3、步长为1的二维残差卷积层组成;
当x=2时,第x个残差通道注意力子模块中的残差神经网络部分由4个二维残差卷积神经网络构成,每个二维残差卷积神经网络依次由两个通道数为128、卷积核为3×3、步长为2的二维残差卷积层组成;
当x=3时,第x个残差通道注意力子模块中的残差神经网络部分由6个二维残差卷积神经网络构成,每个二维残差卷积神经网络依次由两个通道数为256、卷积核为3×3、步长为2的二维残差卷积层组成;
当x=4时,第x个残差通道注意力子模块中的残差神经网络部分由3个二维残差卷积神经网络构成,每个二维残差卷积神经网络依次由两个通道数为512、卷积核为3×3、步长为2的二维残差卷积层组成;
同时,本实施例中对于每个残差通道注意力子模块中的通道注意力网络部分,其结构如图2所示,对应的注意力图MA计算方式如下所示:
MA(F)=σ(MLP(AvgPool(F))+MLP(MaxPool(F)))
其中F表示输入到通道注意力网络的特征图,σ表示Sigmoid激活函数。首先使用平均池化和最大池化操作聚合输入特征图的空间信息,得到两个不同的空间上下文描述符。再将这两个描述符送入一个多层感知器(MLP)。MLP包含两个全连接层,第一层的神经元个数为C/rate(C是输入特征图的通道数,rate为减少率),第二层的神经元个数等于通道数C。最后将MLP输出的特征向量进行逐元素相加并使用sigmoid函数激活,得到最终的通道注意力图。将注意力图与输入特征进行相乘就可以实现对噪声特征的抑制。如此,得到了经过通道注意力机制处理过的特征图输出,并作为3CCAN的特征图输出CAttnr,n,k,x,y,z;
当k=2,3,…,K时,第k-1个二维残差神经网络模块输出的通道特征加强的特征向量CAttnr,n,k-1,X,y,z送入到第k个二维残差神经网络模块中,并相应输出通道特征加强的特征向量CAttnr,n,k,X,y,z;从而由第K个二维残差神经网络模块输出通道特征加强的特征向量CAttnr,n,K,X,y,z并作为卷积前端神经网络3CCAN输出的特征图,记为3CCANResultr,n;
步骤3.2、构建时间卷积神经网络TCN;
时间卷积神经网络TCN由W组时间卷积层并联构成,每组时间卷积层由H个时间卷积层串行连接构成,其中,W×H个时间卷积层中任意第w组时间卷积层中第h个时间卷积层的卷积核大小为Cw,h;w=1,2,…,W;h=1,2,…,H;TCN高效率处理时序的优势能够对3CCAN的输出特征图进行进一步地基于时序上的特征提取,使得模型精度进一步提高。
在本实施例中,时间卷积神经网络TCN的结构如图4所示,它由三个卷积核尺寸分别为3、5、7的时间卷积层并联构成。TCN的本质是对一维卷积进行变形,对于一个标准的TCN,其每层所使用的卷积核尺寸相同。而为了提取混合短期和长期信息的语义特征,本实例使用的改进的TCN建立3个TCN分支,每个分支使用不同尺寸的卷积核,每个分支具有1个卷积核(C为输入特征通道数)。3个分支的输出进行拼接后所组成的特征维度与输入特征维度相同,且包含了不同尺度的语义信息。特征图3CCANResult作为输入送到TCN后,经过TCN的多尺度时序特征提取,使用特征向量拼接,得到TCN输出TCNResult。
特征图3CCANResultr,n作为输入分别送到W组时间卷积层中,并依次经过每组的H个时间卷积层的处理后,输出W个不同的时域特征加强后的特征图,其中第w组时间卷积层输出的时域特征加强后的特征图记为TCNResultr,n,w,w=1,2,...,W;再将W个特征图进行特征向量拼接操作,得到来自不同时域特征加强下的多时域尺寸特征TCNResultr,n,并作为时间卷积神经网络TCN的输出;
步骤3.3、构建结合注意力机制的序列到序列模型SAM;
结合注意力机制的序列到序列模型SAM依次由编码模块和注意力机制模块以及解码模块组成;其中,编码模块和解码模块分别由P个和Q个门控循环单元构成;注意力机制模块由I个注意力机制层组成;如图5所示为结合注意力机制的序列到序列模型SAM的结构图;
令多时域尺寸特征TCNResultr,n作为输入送到编码模块中,并依次经过P个门控循环单元进行语义特征提取与编码处理后,输出携带上下文信息的向量Contextr,n;在本实施例中,P=1,门控循环单元将整个序列的信息汇总成一个上下文向量Contextr,n(上下文向量通常为编码器最后一个时间步的隐藏状态hT);
令携带上下文信息的向量Contextr,n作为输入送到注意力机制模块中,并依次经过I个注意力机制层的语义信息选择处理,得到具有重要语义信息的注意力上下文向量Attnr,n;本实施例中,I=1,注意力机制层对上下文向量Contextr,n完成语义信息选择后,学习输入与输出的对应关系,进而得到具有重要语义信息特征的注意力上下文向量Attnr,n;
令注意力上下文向量Attnr,n作为输入送到解码模块中,并依次经过Q个门控循环单元的解码处理;本实施例中,Q=1,解码器对上下文向量Attnr,n进行解码操作,利用前一时刻的输出,生成不定长度的标签序列,最终得到所预测的句子向量
步骤3.4、利用式(1)建立交叉熵损失函数Lcross:
步骤3.5、以嘴唇区域图像数据集L作为句子级唇语识别网络的输入,并以真实文本集合G作为标签,利用反向传播算法对句子级唇语识别模型进行训练,并计算交叉熵损失函数Lcross,同时使用Adam优化算法对模型中的参数进行优化,当训练次数达到所设定的次数时,得到训练好的句子级唇语识别模型,用于实现对视频中说话人嘴唇的运动进行识别,即实现机器唇读。
Claims (1)
1.一种基于通道注意力与时间卷积网络的句子级唇语识别方法,其特征在于,是按如下步骤进行:
步骤1、获取句子级别的唇语识别视频数据集及其对应的真实文本词向量集合G,使用人脸检测器对唇语识别视频数据集中每个视频的每一帧图像进行人脸特征检测,提取出嘴唇区域图像,从而得到每个视频的嘴唇区域图像集合,并构成嘴唇区域图像数据集L;
步骤2、将所述嘴唇区域图像数据集L划分为多个批次{l1,l2,...,ln,...,lN},ln表示第n个批次;第n个批次ln包含B个视频对应的嘴唇区域图像集合并作为B个训练样本{b1n,b2n,...,br,n,...,bB,n},其对应的真实文本向量集合为{g1,n,g2,n,...,gr,n,...,gB,n};其中,br,n表示第n个批次ln的第r个视频的嘴唇区域图像集合,gr,n表示第n个批次ln的第r个视频中的真实文本向量集合;其中,r=1,2,…,B;n=1,2,…,N;
步骤3、构建基于通道注意力与时间卷积网络的句子级唇语识别模型,包括:融合通道注意力网络的卷积前端神经网络3CCAN、时间卷积神经网络TCN、结合注意力机制的序列到序列模型SAM;并将所述第n个批次ln训练样本输入到识别模型中;
步骤3.1、构建融合通道注意力网络的卷积前端神经网络3CCAN;
所述卷积前端神经网络3CCAN由J个3D卷积神经网络模块和K个二维残差神经网络模块构成;
其中,任意第j个3D卷积神经网络模块依次包括:e个3D卷积层、f个3D批标准化层、u个参数化整流线性单元、v个3D最大池化层;其中,j=1,2,…,J;
任意第k个二维残差神经网络模块依次由X个残差通道注意力子模块构成,任意第x个残差通道注意力子模块依次由y个残差神经网络和z个通道注意力网络构成;其中,k=1,2,…,K;x=1,2,…,X;
当j=1时,第n个批次ln的第r个视频的嘴唇区域图像集合br,n输入到第j个3D卷积神经网络模块中,依次经过e个3D卷积层的处理后,由第e个3D卷积层输出捕捉到的视频中嘴唇区域的图像特征3DResultr,n,j,e;
所述嘴唇区域的图像特征3DResultr,n,j,e依次经过f个3D批标准化层的标准化处理后,由第f个3D批标准化层输出标准化后的图像特征3DResultNorr,n,j,f;
所述标准化后的特征3DResultNorr,n,j,f依次经过u个参数化整流线性单元的特征映射处理后,由第u个参数化整流线性单元输出防止梯度爆炸的线性映射特征图PResultr,n,j,u;
所述线性映射特征图PResultr,n,j,u依次经过v个3D最大池化层的特征降维处理后,由第v个3D最大池化层输出降维后的特征图3DMPoolr.n,j,v;
当j=2,3,…,J时,第j-1个3D卷积神经网络模块输出的降维后的特征图3DMPoolr.n,j-1,v送入到第j个3D卷积神经网络模块中,并相应输出降维后的特征图3DMPoolr.n,j,v;从而由第J个3D卷积神经网络模块输出降维后的特征图3DMPoolr.n,J,v;
当k=1,x=1时,所述降维后的特征图3DMPoolr,n,J,v输入到第k个二维残差神经网络模块中第x个残差通道注意力子模块中;依次经过y个残差神经网络的处理,由第y个残差神经网络输出缓解网络退化的残差图像特征2DResResultr,n,k,x,y;
所述残差图像特征2DResResultr,n,k,x,y依次经过z个通道注意力机制网络处理后,由第z个通道注意力网络输出通道特征加强的特征向量CAttnr,n,k,x,y,z;
当x=2,3,…,X时,第x-1个残差通道注意力子模块输出的通道特征加强的特征向量CAttnr,n,k,x-1,y,z送入到第x个残差通道注意力子模块中,并相应输出通道特征加强的特征向量CAttnr,n,k,x,y,z;从而由第X个残差通道注意力子模块输出通道特征加强的特征向量CAttnr,n,k,X,y,z;
当k=2,3,…,K时,第k-1个二维残差神经网络模块输出的通道特征加强的特征向量CAttnr,n,k-1,X,y,z送入到第k个二维残差神经网络模块中,并相应输出通道特征加强的特征向量CAttnr,n,k,X,y,z;从而由第K个二维残差神经网络模块输出通道特征加强的特征向量CAttnr,n,K,X,y,z并作为卷积前端神经网络3CCAN输出的特征图,记为3CCANResultr,n;
步骤3.2、构建时间卷积神经网络TCN;
所述时间卷积神经网络TCN由W组时间卷积层并联构成,每组时间卷积层由H个时间卷积层串行连接构成,其中,W×H个时间卷积层中任意第w组时间卷积层中第h个时间卷积层的卷积核大小为Cw,h;w=1,2,…,W;h=1,2,…,H;
所述特征图3CCANResultr,n作为输入分别送到W组时间卷积层中,并依次经过每组的H个时间卷积层的处理后,输出W个不同的时域特征加强后的特征图,其中第w组时间卷积层输出的时域特征加强后的特征图记为TCNResultr,n,w,w=1,2,...,W;再将W个特征图进行特征向量拼接操作,得到来自不同时域特征加强下的多时域尺寸特征TCNResultr,n,并作为时间卷积神经网络TCN的输出;
步骤3.3、构建结合注意力机制的序列到序列模型SAM;
所述结合注意力机制的序列到序列模型SAM依次由编码模块和注意力机制模块以及解码模块组成;其中,编码模块和解码模块分别由P个和Q个门控循环单元构成;所述注意力机制模块由I个注意力机制层组成;
所述多时域尺寸特征TCNResultr,n作为输入送到编码模块中,并依次经过P个门控循环单元进行语义特征提取与编码处理后,输出携带上下文信息的向量Contextr,n;
所述携带上下文信息的向量Contextr,n作为输入送到注意力机制模块中,并依次经过I个注意力机制层的语义信息选择处理,得到具有重要语义信息特征的注意力上下文向量Attnr,n;
步骤3.4、利用式(1)建立交叉熵损失函数Lcross:
步骤3.5、以所述嘴唇区域图像数据集L作为句子级唇语识别网络的输入,并以所述真实文本集合G作为标签,利用反向传播算法对所述句子级唇语识别模型进行训练,并计算交叉熵损失函数Lcross,同时使用Adam优化算法对模型中的参数进行优化,当训练次数达到所设定的次数时,得到训练好的句子级唇语识别模型,用于实现对视频中说话人嘴唇的运动进行识别,即实现机器唇读。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210348821.9A CN114694255B (zh) | 2022-04-01 | 2022-04-01 | 基于通道注意力与时间卷积网络的句子级唇语识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210348821.9A CN114694255B (zh) | 2022-04-01 | 2022-04-01 | 基于通道注意力与时间卷积网络的句子级唇语识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114694255A true CN114694255A (zh) | 2022-07-01 |
CN114694255B CN114694255B (zh) | 2023-04-07 |
Family
ID=82141009
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210348821.9A Active CN114694255B (zh) | 2022-04-01 | 2022-04-01 | 基于通道注意力与时间卷积网络的句子级唇语识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114694255B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116959060A (zh) * | 2023-04-20 | 2023-10-27 | 湘潭大学 | 一种面向医院环境下语言障碍患者的唇语识别方法 |
CN117152317A (zh) * | 2023-11-01 | 2023-12-01 | 之江实验室科技控股有限公司 | 数字人界面控制的优化方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111753704A (zh) * | 2020-06-19 | 2020-10-09 | 南京邮电大学 | 一种基于视频人物唇读识别的时序集中预测方法 |
US20210052218A1 (en) * | 2019-08-20 | 2021-02-25 | Patchd, Inc. | Systems and methods for sepsis detection and monitoring |
CN113033452A (zh) * | 2021-04-06 | 2021-06-25 | 合肥工业大学 | 融合通道注意力和选择性特征融合机制的唇语识别方法 |
CN113496217A (zh) * | 2021-07-08 | 2021-10-12 | 河北工业大学 | 视频图像序列中人脸微表情识别方法 |
-
2022
- 2022-04-01 CN CN202210348821.9A patent/CN114694255B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210052218A1 (en) * | 2019-08-20 | 2021-02-25 | Patchd, Inc. | Systems and methods for sepsis detection and monitoring |
CN111753704A (zh) * | 2020-06-19 | 2020-10-09 | 南京邮电大学 | 一种基于视频人物唇读识别的时序集中预测方法 |
CN113033452A (zh) * | 2021-04-06 | 2021-06-25 | 合肥工业大学 | 融合通道注意力和选择性特征融合机制的唇语识别方法 |
CN113496217A (zh) * | 2021-07-08 | 2021-10-12 | 河北工业大学 | 视频图像序列中人脸微表情识别方法 |
Non-Patent Citations (2)
Title |
---|
JEON SH ET AL: "《Lipreading Architecture Based on Multiple Convolutional Neutral Networks for Sentence-Level Visual Speech Recognition》" * |
冯省城: "《基于深度学习的唇语识别算法研究》" * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116959060A (zh) * | 2023-04-20 | 2023-10-27 | 湘潭大学 | 一种面向医院环境下语言障碍患者的唇语识别方法 |
CN117152317A (zh) * | 2023-11-01 | 2023-12-01 | 之江实验室科技控股有限公司 | 数字人界面控制的优化方法 |
CN117152317B (zh) * | 2023-11-01 | 2024-02-13 | 之江实验室科技控股有限公司 | 数字人界面控制的优化方法 |
Also Published As
Publication number | Publication date |
---|---|
CN114694255B (zh) | 2023-04-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112348075B (zh) | 一种基于情景注意力神经网络的多模态情感识别方法 | |
CN110188343B (zh) | 基于融合注意力网络的多模态情感识别方法 | |
CN111897908B (zh) | 融合依存信息和预训练语言模型的事件抽取方法及系统 | |
CN110399850B (zh) | 一种基于深度神经网络的连续手语识别方法 | |
CN109524006B (zh) | 一种基于深度学习的汉语普通话唇语识别方法 | |
CN112818861B (zh) | 一种基于多模态上下文语义特征的情感分类方法及系统 | |
CN114694076A (zh) | 基于多任务学习与层叠跨模态融合的多模态情感分析方法 | |
CN110570845B (zh) | 一种基于域不变特征的语音识别方法 | |
CN114694255B (zh) | 基于通道注意力与时间卷积网络的句子级唇语识别方法 | |
CN112257449B (zh) | 命名实体识别方法、装置、计算机设备和存储介质 | |
CN111259940A (zh) | 一种基于空间注意力地图的目标检测方法 | |
CN112329760A (zh) | 基于空间变换网络端到端印刷体蒙古文识别翻译的方法 | |
CN113033452B (zh) | 融合通道注意力和选择性特征融合机制的唇语识别方法 | |
CN113822125B (zh) | 唇语识别模型的处理方法、装置、计算机设备和存储介质 | |
CN111627419A (zh) | 一种基于水下目标及环境信息特征的声音生成方法 | |
CN111461173A (zh) | 一种基于注意力机制的多说话人聚类系统及方法 | |
CN112861524A (zh) | 一种基于深度学习的多层次中文细粒度情感分析方法 | |
CN111653270B (zh) | 语音处理方法、装置、计算机可读存储介质及电子设备 | |
CN116610778A (zh) | 基于跨模态全局与局部注意力机制的双向图文匹配方法 | |
CN115312033A (zh) | 基于人工智能的语音情感识别方法、装置、设备及介质 | |
Wang et al. | Wavenet with cross-attention for audiovisual speech recognition | |
CN112560440A (zh) | 一种基于深度学习的面向方面级情感分析的句法依赖方法 | |
CN115240713A (zh) | 基于多模态特征和对比学习的语音情感识别方法及装置 | |
CN114357166A (zh) | 一种基于深度学习的文本分类方法 | |
CN114722798A (zh) | 一种基于卷积神经网络和注意力机制的反讽识别模型 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |