CN113435421B - 一种基于跨模态注意力增强的唇语识别方法及系统 - Google Patents
一种基于跨模态注意力增强的唇语识别方法及系统 Download PDFInfo
- Publication number
- CN113435421B CN113435421B CN202110986219.3A CN202110986219A CN113435421B CN 113435421 B CN113435421 B CN 113435421B CN 202110986219 A CN202110986219 A CN 202110986219A CN 113435421 B CN113435421 B CN 113435421B
- Authority
- CN
- China
- Prior art keywords
- lip
- feature
- sequence
- features
- representation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于跨模态注意力增强的唇语识别方法及系统,本发明包括提取唇部图像序列和唇部运动信息,通过预训练特征提取器获取对应的唇部特征序列和唇部运动序列,将得到的特征序列输入跨模态注意力网络,得到唇部增强特征序列;通过多分支注意力机制建立模态内特征序列的时序关联性,并在输出端特定的选择输入中相关的信息。本发明通过考虑时序信息之间的关联性,将相邻帧之间进行光流计算得到视觉特征之间的运动信息,利用运动信息对唇部视觉特征进行表示并进行融合增强,充分利用了模态内的上下文信息,最后通过多分支注意力机制进行模态内特征的关联表示和选择,提升了唇读识别的准确率。
Description
技术领域
本发明涉及计算机视觉和模式识别技术,具体涉及一种基于跨模态注意力增强的唇语识别方法及系统。
背景技术
唇语识别是指通过捕捉说话人唇部的运动信息来理解说话人所说内容,具有大量有用的语音信息。在实际人机自然交互应用环境中,面部运动信息通过视频获取,不受复杂环境噪声影响,因此唇语识别可作为在没有任何音频输入和高噪声环境下说话者内容识别的有效解决方案之一。唇读系统具有多种有价值的应用,该系统的实现可以辅助语音识别和解决多说话者同时说话,实现更加智能、鲁棒的人机交互;也可用于军事公安、生物特征识别、安全验证等领域。因此,唇语识别的研究吸引越来越多研究者的注意。
但是,唇语识别存在许多亟待解决和突破的难题,主要包括:第一,同形异音的造成的视觉歧义。不同发音具有相似甚至相同的视觉特性,例如P、B、M具有相同的视觉信息,但发音形同。第二,讲话者依赖。说话人的性别、不同发音习惯和不同的文化都会造成唇部区域图像特征差异。第三,复杂的成像条件和讲话者的姿态变化会导致图像上唇部区域的明显变化,会对视觉特征提取产生影响。
发明内容
本发明要解决的技术问题:针对现有技术的上述问题,提供一种基于跨模态注意力增强的唇语识别方法及系统,本发明通过考虑时序信息之间的关联性,通过将相邻帧之间进行光流计算得到视觉特征之间的运动信息,然后利用运动信息对唇部视觉特征进行表示并进行融合增强,充分利用了模态内的上下文信息,最后通过多分支注意力机制进行模态内特征的关联表示和选择,提升了唇读识别的准确率。
为了解决上述技术问题,本发明采用的技术方案为:
一种基于跨模态注意力增强的唇语识别方法,包括:
1)根据包含说话者人脸关键点的输入图像提取唇部区域图像序列Va,并根据唇部区域图像序列Va提取光流图序列Vo;将唇部区域图像序列Va、光流图序列Vo分别输入预先训练好特征提取器,得到唇部特征序列Hv、唇部间运动特征序列Ho;将唇部特征序列Hv、唇部间运动特征序列Ho分别进行位置编码,得到引入位置信息的唇部特征序列Hvp和唇部间运动特征序列Hop两者构成的引入位置信息的特征序列X∈{Hvp,Hop};
2)将得到的引入位置信息的特征序列X∈{Hvp,Hop}输入跨模态注意力模块得到具有上下文信息的唇部特征Hup,并融合唇部特征序列Hv得到增强的唇部特征序列Henh;
3)基于多分支注意力机制对增强的唇部特征序列Henh进行模态内的关联表示,得到增强的唇部特征序列Henh的关联表示Henc;
4)将增强的唇部特征序列Henh的关联表示Henc作为输入特征,通过注意力层计算输出特征和输入特征之间的相似性,得到输出特征的表示向量Hdec;
5)通过多层感知机对输出特征的表示向量Hdec进行概率表示,并基于概率表示结果获取得到最优的识别结果。
可选地,步骤1)中将唇部特征序列Hv、唇部间运动特征序列Ho分别进行位置编码的函数表达式为:
上式中,PE (pos,i) 表示位置pos特征的维度i在位置编码函数PE中位置编码,pos每个输入特征在唇部特征序列Hv、唇部间运动特征序列Ho两者构成的序列X 0∈{Hv,Ho}中的位置,i表示特征向量所在的维度,PE表示位置编码函数,d代表特征向量具有的维度,X为引入位置信息的特征序列。
可选地,步骤2)中跨模态注意力模块对引入位置信息的特征序列X∈{Hvp,Hop}的处理包括:
将引入位置信息的特征序列X∈{Hvp,Hop}进行线性变换,使引入位置信息的唇部特征序列Hvp和唇部间运动特征序列Hop两者具有相同的特征表示维度;
针对线性变换后得到的特征进行降维处理,利用唇部间运动特征序列Hop对每个唇部的特征进行表示得到具有上下文信息的唇部特征Hup。
可选地,所述针对线性变换后得到的特征进行降维处理,利用唇部间运动特征序列Hop对每个唇部的特征进行表示得到具有上下文信息的唇部特征Hup包括:
首先,根据下式进行分别计算查询特征Q α 、键特征K β 、值特征V β ;
Q α =H vp W Qα,K β =H op W Kβ ,V β =H op W Vβ ,
上式中,W Qα为引入位置信息的唇部特征序列Hvp的查询线性映射矩阵,W Kβ 和W Vβ 分别为引入位置信息的唇部间运动特征序列Hop的键权重矩阵和值权重矩阵,H vp 表示引入位置信息的唇部特征序列,H op 表示引入位置信息的唇部间运动特征序列;
然后,根据查询特征Q α 、键特征K β 基于下式计算唇部特征与唇部之间动态特征之间的相似值CMA Hop→Hvp ;
上式中,softmax表示归一化指数函数,d k 为查询特征Q α 与键特征K β 的偏置相乘得到的矩阵Q α K β T 的维度;
最终,根据唇部特征与唇部之间动态特征之间的相似值CMA Hop→Hvp 、值特征V β 基于下式计算得到具有上下文信息的唇部特征Hup:
上式中,H op 表示引入位置信息的唇部间运动特征序列,W Vβ 为引入位置信息的唇部间运动特征序列Hop的值权重矩阵。
可选地,步骤2)中融合唇部特征序列H v 得到增强的唇部特征序列Henh函数表达式如下式所示:
Henh=Linear([Hv,Hup] )
上式中,Linear表示线性变换函数,[Hv,Hup]表示唇部特征序列H v 和具有上下文信息的唇部特征Hup的级联。
可选地,步骤3)包括:
3.1)利用线性映射矩阵,对增强的唇部特征序列Henh在n个特征空间内进行子空间表示,得到多个特征空间对应维度的特征表示序列;
3.2)基于n个特征空间内各特征之间的相似性,得到每个特征空间的特征关联表示;
3.3)将各个特征空间的特征关联表示进行级联,得到增强的唇部特征序列Henh的关联表示Henc。
可选地,步骤3.1)中得到任意第i个特征空间对应维度的特征表示序列的函数表达式为:
Q i q =Henh*W i q ,K i k =Henh*W i k ,V i v =Henh*W i v ,
上式中,W i q ,W i k ,W i v 分别为查询值矩阵、键值矩阵、值权重矩阵,i表示特征空间的第i个头,i=1,2,…,n,n为特征空间数量;
步骤3.2)中得到每个特征空间的特征关联表示的函数表达式为:
上式中,head i 表示第i个特征空间对应维度的特征表示,Attention表示注意力机制,Q i q ,K i k ,V i v 分别表示第i个特征空间查询特征、键特征和值特征,softmax表示归一化指数函数,d k 为查询特征Q i q 与键特征K i k 的偏置相乘得到的矩阵的维度;
步骤3.3)中将各个特征空间的特征关联表示进行级联,得到增强的唇部特征序列Henh的关联表示Henc的函数表达式为:
上式中,MultiHead表示多头注意力函数,Q i q ,K i k ,V i v 分别表示第i个特征空间查询特征、键特征和值特征,concat为级联函数,head 1 ~head n 分别为第1~n个特征空间的特征关联表示,W O 为输出权重矩阵。
可选地,步骤5)中通过多层感知机对输出特征的表示向量Hdec进行概率表示的函数表达式为:
P(Y|Hcy) =softmax(MLP(Hdec))
上式中,MLP为多层感知机将输出特征的表示向量Hdec映射到对应的标签类别范围中,softmax为归一化指数函数,P(Y|Hcy)为对应输出类别的概率。
此外,本发明还提供一种基于跨模态注意力增强的唇语识别系统,包括相互连接的微处理器和存储器,该微处理器被编程或配置以执行所述基于跨模态注意力增强的唇语识别方法的步骤。
此外,本发明还提供一种计算机可读存储介质,该计算机可读存储介质中存储有被编程或配置以执行所述基于跨模态注意力增强的唇语识别方法的计算机程序。
和现有技术相比,本发明具有下述优点:考虑到在实际人机自然交互应用环境中,面部运动信息通过视频获取,不受复杂环境噪声影响,唇语识别可作为人机交互的有效通道之一。本发明包括提取唇部特征序列、唇部间运动特征序列并引入位置信息,通过跨模态注意力模块进行模态融合,基于多分支注意力机制进行模态内的关联表示,通过注意力层计算输出特征和输入特征之间的相似性得到输出特征的表示向量,最终通过多层感知机对输出特征的表示向量进行概率表示并获取最优识别结果。考虑到在实际人机自然交互应用环境中,面部运动信息通过视频获取,不受复杂环境噪声影响,唇语识别可作为人机交互的有效通道之一,本发明通过考虑时序信息之间的关联性,通过将相邻帧之间进行光流计算得到视觉特征之间的运动信息,然后利用运动信息对唇部视觉特征进行表示并进行融合增强,充分利用了模态内的上下文信息,最后通过多分支注意力机制进行模态内特征的关联表示和选择,提升了唇读识别的准确率。
附图说明
图1为本实施例方法的基本原理图。
图2为实施例中视觉信息预处理的原理图。
图3为实施例中得到的光流图序列示例。
图4为实施例中跨模态注意力模块的实现原理示意图。
具体实施方式
如图1所示,本实施例基于跨模态注意力增强的唇语识别方法包括:
1)根据包含说话者人脸关键点的输入图像提取唇部区域图像序列Va,并根据唇部区域图像序列Va提取光流图序列Vo;将唇部区域图像序列Va、光流图序列Vo分别输入预先训练好特征提取器,得到唇部特征序列Hv、唇部间运动特征序列Ho;将唇部特征序列Hv、唇部间运动特征序列Ho分别进行位置编码,得到引入位置信息的唇部特征序列Hvp和唇部间运动特征序列Hop两者构成的引入位置信息的特征序列X∈{Hvp,Hop};
2)将得到的引入位置信息的特征序列X∈{Hvp,Hop}输入跨模态注意力模块得到具有上下文信息的唇部特征Hup,并融合唇部特征序列Hv得到增强的唇部特征序列Henh;
3)基于多分支注意力机制对增强的唇部特征序列Henh进行模态内的关联表示,得到增强的唇部特征序列Henh的关联表示Henc;
4)将增强的唇部特征序列Henh的关联表示Henc作为输入特征,通过注意力层计算输出特征和输入特征之间的相似性,得到输出特征的表示向量Hdec;
5)通过多层感知机对输出特征的表示向量Hdec进行概率表示,并基于概率表示结果获取得到最优的识别结果。
本实施例基于跨模态注意力增强的唇语识别方法首先提取唇部图像序列和唇部运动信息(光流信息),并进行归一化、降维处理和位置编码,然后将通过预训练特征提取器获取对应的唇部特征序列和唇部运动序列,并将得到的特征序列输入跨模态注意力网络,得到唇部增强特征序列;最后通过多分支注意力机制建立模态内特征序列的时序关联性,并在输出端特定的选择输入中相关的信息,提高唇语识别的准确率。
参见图2,步骤1)中根据包含说话者人脸关键点的输入图像提取唇部区域图像序列Va时,针对每一幅包含说话者人脸关键点的输入图像,首先进行视觉信息预处理(采用预先的面部检测模型),提取其中的人脸区域图像R f 。然后针对得到的人脸区域R f 使用人脸关键点检测模型得到进行人脸关键点检测,得到人脸关键点的像素坐标X b ,例如用人脸关键点检测模型使用开源人脸库Dlib的人脸关键点检测模型,可得到68个人脸关键点像素坐标X b ;针对得到的人脸关键坐标X b ,得到唇部中心位置X c ;然后利用唇部中心位置进行唇部区域的裁剪,得到唇部区域图像。从而有所有的唇部区域图像即可构成唇部区域图像序列Va={v a i |i=,1,2,3,...,k},其为k唇部区域图像数量。
参见图1,本实施例步骤1)中根据唇部区域图像序列Va提取光流图序列Vo是指将唇部区域图像序列Va通过PWC-Net网络提取光流图序列Vo,其形式为:Vo={v o i |i=,1,2,3,...,m},其中m为唇部区域光流图的数量,图3所示为光流图序列Vo的一个具体图像实例。PWC-Net网络是一种现有的光流估计CNN模型,包括了金字塔,扭曲,代价体积三个部分,此外也可以根据需要采用其他光流估计模型。
参见图1,本实施例步骤1)中采用C3D-P3D网络作为特征提取器,将唇部区域图像序列Va、光流图序列Vo分别输入预先训练好特征提取器C3D-P3D。将得到的唇部区域图像序列Va中每帧图像进行通道降维处理得到对应的灰度图,并进行归一化处理到[0,1]范围内;然后通过预先训练的特征提取器C3D-P3D作为视觉前端对唇部图像序列Va进行特征提取,得到唇部区域的特征表示Hv;将得到的光流图序列Vo进行通道降维处理得到对应的灰度图,并进行归一化处理到[0,1]范围内;然后通过预先训练的特征提取器C3D-P3D作为视觉前端对光流图序列Vo进行特征提取,得到唇部间的动态表示特征Ho。C3D-P3D网络为现有特征提取网络,P3D的三个版本分别是P3D-A、P3D-B和P3D-C,P3D-ResNet是通过三个版本依次交错生成,而C3D-P3D为3D卷积神经网络和三个版本的P3D混合构成的50层P3D-ResNet组合而成。
本实施例中,步骤1)中将唇部特征序列Hv、唇部间运动特征序列Ho分别进行位置编码的函数表达式为:
上式中,PE (pos,i) 表示位置pos特征的维度i在位置编码函数PE中位置编码,pos每个输入特征在唇部特征序列Hv、唇部间运动特征序列Ho两者构成的序列X 0∈{Hv,Ho}中的位置,i表示特征向量所在的维度,PE表示位置编码函数,d代表特征向量具有的维度,X为引入位置信息的特征序列。
本实施例中,步骤2)中跨模态注意力模块对引入位置信息的特征序列X∈{Hvp,Hop}的处理包括:
将引入位置信息的特征序列X∈{Hvp,Hop}进行线性变换,使引入位置信息的唇部特征序列Hvp和唇部间运动特征序列Hop两者具有相同的特征表示维度;
针对线性变换后得到的特征进行降维处理,利用唇部间运动特征序列Hop对每个唇部的特征进行表示得到具有上下文信息的唇部特征Hup。
如图4所示,本实施例中针对线性变换后得到的特征进行降维处理,利用唇部间运动特征序列Hop对每个唇部的特征进行表示得到具有上下文信息的唇部特征Hup包括:
首先,根据下式进行分别计算查询特征Q α 、键特征K β 、值特征V β ;
Q α =H vp W Qα,K β =H op W Kβ ,V β =H op W Vβ ,
上式中,W Qα为引入位置信息的唇部特征序列Hvp的查询线性映射矩阵,W Kβ 和W Vβ 分别为引入位置信息的唇部间运动特征序列Hop的键权重矩阵和值权重矩阵,H vp 表示引入位置信息的唇部特征序列,H op 表示引入位置信息的唇部间运动特征序列;图4中,l α ,d α 分别表示引入位置信息的唇部特征H vp 对应的序列长度和维度大小;l β ,d β 分别表示引入位置信息的唇部间运动特征H op 对应的序列长度和维度;l α ,d k 分别表示查询特征Q α 的对应的序列长度和维度;l β ,d k 分别表示键特征K β 的对应的序列长度和维度;l β ,d v 分别表示值特征V β 的对应的序列长度和维度。
然后,根据查询特征Q α 、键特征K β 基于下式计算唇部特征与唇部之间动态特征之间的相似值CMA Hop→Hvp ;
上式中,softmax表示归一化指数函数,d k 为查询特征Q α 与键特征K β 的偏置相乘得到的矩阵Q α K β T 的维度;
最终,根据唇部特征与唇部之间动态特征之间的相似值CMA Hop→Hvp 、值特征V β 基于下式计算得到具有上下文信息的唇部特征Hup:
上式中,H op 表示引入位置信息的唇部间运动特征序列,W Vβ 为引入位置信息的唇部间运动特征序列Hop的值权重矩阵。
本实施例中,步骤2)中融合唇部特征序列H v 得到增强的唇部特征序列Henh函数表达式如下式所示:
Henh=Linear([Hv,Hup] )
上式中,Linear表示线性变换函数,[Hv,Hup]表示唇部特征序列H v 和具有上下文信息的唇部特征Hup的级联。
本实施例步骤3)通过自注意力模块对得到唇部增强特征序列Henh进行模态内的关联表示,首先利用线性映射矩阵对增强后的特征序列进行子空间表示,关注不同位置的信息,得到多个维度的特征表示;然后通过计算特征序列中的某一特征与其它特征间的相似性,为每个特征赋予相应的权重,然后基于权重融合得到每个子空间的特征关联表示;最后每个子空间得到的特征表示向量进行级联,得到级联后的特征向量,即增强的唇部特征序列Henh的关联表示Henc。本实施例中,步骤3)包括:
3.1)利用线性映射矩阵,对增强的唇部特征序列Henh在n个特征空间内进行子空间表示,得到多个特征空间对应维度的特征表示序列;
3.2)基于n个特征空间内各特征之间的相似性,得到每个特征空间的特征关联表示;
3.3)将各个特征空间的特征关联表示进行级联,得到增强的唇部特征序列Henh的关联表示Henc。
本实施例中,步骤3.1)中得到任意第i个特征空间对应维度的特征表示序列的函数表达式为:
Q i q =Henh*W i q ,K i k =Henh*W i k ,V i v =Henh*W i v ,
上式中,W i q ,W i k ,W i v 分别为查询值矩阵、键值矩阵、值权重矩阵,i表示特征空间的第i个头,i=1,2,…,n,n为特征空间数量;
本实施例中,步骤3.2)中得到每个特征空间的特征关联表示的函数表达式为:
上式中,head i 表示第i个特征空间对应维度的特征表示,Attention表示注意力机制,Q i q ,K i k ,V i v 分别表示第i个特征空间查询特征、键特征和值特征,softmax表示归一化指数函数,d k 为查询特征Q i q 与键特征K i k 的偏置相乘得到的矩阵的维度;需要说明的是,注意力机制为现有神经网络结构,本实施例中仅涉及注意力机制的应用,不涉及对注意力机制的改进,故其实现细节在此不再展开说明。
本实施例中,步骤3.3)中将各个特征空间的特征关联表示进行级联,得到增强的唇部特征序列Henh的关联表示Henc的函数表达式为:
上式中,MultiHead表示多头注意力函数,Q i q ,K i k ,V i v 分别表示第i个特征空间查询特征、键特征和值特征,concat为级联函数,head 1 ~head n 分别为第1~n个特征空间的特征关联表示,W O 为输出权重矩阵。
本实施例中,步骤4)中将增强的唇部特征序列Henh的关联表示Henc作为输入特征,通过注意力层计算输出特征和输入特征之间的相似性(注意力权值的大小),得到输出特征的表示向量Hdec;相似性越大对应的注意力值越大。
本实施例中,步骤5)中通过多层感知机对输出特征的表示向量Hdec进行概率表示的函数表达式为:
P(Y|Hcy) =softmax(MLP(Hdec))
上式中,MLP为多层感知机将输出特征的表示向量Hdec映射到对应的标签类别范围中,softmax为归一化指数函数,P(Y|Hcy)为对应输出类别的概率。
本实施例中,通过在公众可获得的大规模字级别的LRW数据集上进行模型的调试和验证,对本实施例基于跨模态注意力增强的唇语识别方法进行实验验证,且同时作为本实施例方法的对比的现有已知方法(对比方法)包括:
WAS方法,详见J. S. Chung, A. Senior, O. Vinyals, and A. Zisserman,“Lipreading sentences in the wild,” in IEEE Conferenceon Computer Vision andPattern Recognition (CVPR).IEEE, 2017, pp. 3444–3453.
Res+LSTM方法,详见 T. Stafylakis and G. Tzimiropoulos, imiropoungresidual networks with lstms for lipreading,iparXiv preprint arXiv:1703.04105, 2017.
Multi Graned方法,详见 C. Wang, ed 2017.03.0410spatio-temporalmodeling for lip-reading,adarXiv preprint arXiv:1908.11618, 2019.
表1:本实施例方法(Ours)与对比方法在LRW数据集下的识别结果。
表1为本实施例方法(Ours)与对比方法在LRW数据集下的识别结果。参见表1可知,本实施例基于跨模态注意力增强的唇语识别方法在LRW数据集上能够实现最佳的唇语识别的分类结果。由此可见,本实施例基于跨模态注意力增强的唇语识别方法首先提取唇部图像序列和唇部运动信息(光流信息),并进行归一化、降维处理和位置编码,然后将通过预训练特征提取器获取对应的唇部特征序列和唇部运动序列,并将得到的特征序列输入跨模态注意力网络,得到唇部增强特征序列;最后通过多分支注意力机制建立模态内特征序列的时序关联性,并在输出端特定的选择输入中相关的信息,提高唇语识别的准确率。
此外,本实施例还提供一种基于跨模态注意力增强的唇语识别系统,包括相互连接的微处理器和存储器,该微处理器被编程或配置以执行前述基于跨模态注意力增强的唇语识别方法的步骤。
此外,本实施例还提供一种计算机可读存储介质,该计算机可读存储介质中存储有被编程或配置以执行前述基于跨模态注意力增强的唇语识别方法的计算机程序。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可读存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (9)
1.一种基于跨模态注意力增强的唇语识别方法,其特征在于,包括:
1)根据包含说话者人脸关键点的输入图像提取唇部区域图像序列Va,并根据唇部区域图像序列Va提取光流图序列Vo;将唇部区域图像序列Va、光流图序列Vo分别输入预先训练好特征提取器,得到唇部特征序列Hv、唇部间运动特征序列Ho;将唇部特征序列Hv、唇部间运动特征序列Ho分别进行位置编码,得到引入位置信息的唇部特征序列Hvp和唇部间运动特征序列Hop两者构成的引入位置信息的特征序列X∈{Hvp,Hop};
2)将得到的引入位置信息的特征序列X∈{Hvp,Hop}输入跨模态注意力模块得到具有上下文信息的唇部特征Hup,并融合唇部特征序列Hv得到增强的唇部特征序列Henh;
3)基于多分支注意力机制对增强的唇部特征序列Henh进行模态内的关联表示,得到增强的唇部特征序列Henh的关联表示Henc;
4)将增强的唇部特征序列Henh的关联表示Henc作为输入特征,通过注意力层计算输出特征和输入特征之间的相似性,得到输出特征的表示向量Hdec;
5)通过多层感知机对输出特征的表示向量Hdec进行概率表示,并基于概率表示结果获取得到最优的识别结果;
步骤3)包括:
3.1)利用线性映射矩阵,对增强的唇部特征序列Henh在n个特征空间内进行子空间表示,得到多个特征空间对应维度的特征表示序列;
3.2)基于n个特征空间内各特征之间的相似性,得到每个特征空间的特征关联表示;
3.3)将各个特征空间的特征关联表示进行级联,得到增强的唇部特征序列Henh的关联表示Henc。
3.根据权利要求1所述的基于跨模态注意力增强的唇语识别方法,其特征在于,步骤2)中跨模态注意力模块对引入位置信息的特征序列X∈{Hvp,Hop}的处理包括:
将引入位置信息的特征序列X∈{Hvp,Hop}进行线性变换,使引入位置信息的唇部特征序列Hvp和唇部间运动特征序列Hop两者具有相同的特征表示维度;
针对线性变换后得到的特征进行降维处理,利用唇部间运动特征序列Hop对每个唇部的特征进行表示得到具有上下文信息的唇部特征Hup。
4.根据权利要求3所述的基于跨模态注意力增强的唇语识别方法,其特征在于,所述针对线性变换后得到的特征进行降维处理,利用唇部间运动特征序列Hop对每个唇部的特征进行表示得到具有上下文信息的唇部特征Hup包括:
首先,根据下式进行分别计算查询特征Q α 、键特征K β 、值特征V β ;
Q α =H vp W Qα,K β =H op W Kβ ,V β =H op W Vβ ,
上式中,W Qα为引入位置信息的唇部特征序列Hvp的查询线性映射矩阵,W Kβ 和W Vβ 分别为引入位置信息的唇部间运动特征序列Hop的键权重矩阵和值权重矩阵,H vp 表示引入位置信息的唇部特征序列,H op 表示引入位置信息的唇部间运动特征序列;
然后,根据查询特征Q α 、键特征K β 基于下式计算唇部特征与唇部之间动态特征之间的相似值CMA Hop→Hvp ;
上式中,softmax表示归一化指数函数,d k 为查询特征Q α 与键特征K β 的偏置相乘得到的矩阵Q α K β T 的维度;
最终,根据唇部特征与唇部之间动态特征之间的相似值CMA Hop→Hvp 、值特征V β 基于下式计算得到具有上下文信息的唇部特征Hup:
上式中,H op 表示引入位置信息的唇部间运动特征序列,W Vβ 为引入位置信息的唇部间运动特征序列Hop的值权重矩阵。
5.根据权利要求4所述的基于跨模态注意力增强的唇语识别方法,其特征在于,步骤2)中融合唇部特征序列H v 得到增强的唇部特征序列Henh函数表达式如下式所示:
Henh=Linear([Hv,Hup] )
上式中,Linear表示线性变换函数,[Hv,Hup]表示唇部特征序列H v 和具有上下文信息的唇部特征Hup的级联。
6.根据权利要求1所述的基于跨模态注意力增强的唇语识别方法,其特征在于,步骤3.1)中得到任意第i个特征空间对应维度的特征表示序列的函数表达式为:
Q i q =Henh*W i q ,K i k =Henh*W i k ,V i v =Henh*W i v ,
上式中,W i q ,W i k ,W i v 分别为查询值矩阵、键值矩阵、值权重矩阵,i表示特征空间的第i个头,i=1,2,…,n,n为特征空间数量;
步骤3.2)中得到每个特征空间的特征关联表示的函数表达式为:
上式中,head i 表示第i个特征空间对应维度的特征表示,Attention表示注意力机制,Q i q ,K i k ,V i v 分别表示第i个特征空间查询特征、键特征和值特征,softmax表示归一化指数函数,d k 为查询特征Q i q 与键特征K i k 的偏置相乘得到的矩阵的维度;
步骤3.3)中将各个特征空间的特征关联表示进行级联,得到增强的唇部特征序列Henh的关联表示Henc的函数表达式为:
上式中,MultiHead表示多头注意力函数,Q i q ,K i k ,V i v 分别表示第i个特征空间查询特征、键特征和值特征,concat为级联函数,head 1 ~head n 分别为第1~n个特征空间的特征关联表示,W O 为输出权重矩阵。
7.根据权利要求1所述的基于跨模态注意力增强的唇语识别方法,其特征在于,步骤5)中通过多层感知机对输出特征的表示向量Hdec进行概率表示的函数表达式为:
P(Y|Hcy) =softmax(MLP(Hdec))
上式中,MLP为多层感知机将输出特征的表示向量Hdec映射到对应的标签类别范围中,softmax为归一化指数函数,P(Y|Hcy)为对应输出类别的概率。
8.一种基于跨模态注意力增强的唇语识别系统,包括相互连接的微处理器和存储器,其特征在于,该微处理器被编程或配置以执行权利要求1~7中任意一项所述基于跨模态注意力增强的唇语识别方法的步骤。
9.一种计算机可读存储介质,其特征在于,该计算机可读存储介质中存储有被编程或配置以执行权利要求1~7中任意一项所述基于跨模态注意力增强的唇语识别方法的计算机程序。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110986219.3A CN113435421B (zh) | 2021-08-26 | 2021-08-26 | 一种基于跨模态注意力增强的唇语识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110986219.3A CN113435421B (zh) | 2021-08-26 | 2021-08-26 | 一种基于跨模态注意力增强的唇语识别方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113435421A CN113435421A (zh) | 2021-09-24 |
CN113435421B true CN113435421B (zh) | 2021-11-05 |
Family
ID=77798025
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110986219.3A Active CN113435421B (zh) | 2021-08-26 | 2021-08-26 | 一种基于跨模态注意力增强的唇语识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113435421B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114596517A (zh) * | 2022-01-12 | 2022-06-07 | 北京云辰信通科技有限公司 | 视觉语言识别方法以及相关设备 |
CN114581811B (zh) * | 2022-01-12 | 2023-04-18 | 北京云辰信通科技有限公司 | 基于时空注意力机制的视觉语言识别方法和相关设备 |
CN116309698B (zh) * | 2023-01-11 | 2024-06-11 | 中国科学院上海微系统与信息技术研究所 | 一种基于运动特征弥补引导的多帧光流估计方法 |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100332229A1 (en) * | 2009-06-30 | 2010-12-30 | Sony Corporation | Apparatus control based on visual lip share recognition |
KR101092820B1 (ko) * | 2009-09-22 | 2011-12-12 | 현대자동차주식회사 | 립리딩과 음성 인식 통합 멀티모달 인터페이스 시스템 |
CN109409195A (zh) * | 2018-08-30 | 2019-03-01 | 华侨大学 | 一种基于神经网络的唇语识别方法及系统 |
CN110443129A (zh) * | 2019-06-30 | 2019-11-12 | 厦门知晓物联技术服务有限公司 | 基于深度学习的中文唇语识别方法 |
CN110633683B (zh) * | 2019-09-19 | 2022-03-25 | 华侨大学 | 结合DenseNet和resBi-LSTM的中文句子级唇语识别方法 |
CN111753704B (zh) * | 2020-06-19 | 2022-08-26 | 南京邮电大学 | 一种基于视频人物唇读识别的时序集中预测方法 |
CN112053690B (zh) * | 2020-09-22 | 2023-12-29 | 湖南大学 | 一种跨模态多特征融合的音视频语音识别方法及系统 |
CN111931736B (zh) * | 2020-09-27 | 2021-01-19 | 浙江大学 | 利用非自回归模型与整合放电技术的唇语识别方法、系统 |
CN112216271B (zh) * | 2020-10-11 | 2022-10-14 | 哈尔滨工程大学 | 一种基于卷积块注意机制的视听双模态语音识别方法 |
CN112329581B (zh) * | 2020-10-29 | 2024-04-02 | 南京航空航天大学 | 基于中文发音视觉特点的唇语识别方法 |
CN112330713B (zh) * | 2020-11-26 | 2023-12-19 | 南京工程学院 | 基于唇语识别的重度听障患者言语理解度的改进方法 |
CN112784696B (zh) * | 2020-12-31 | 2024-05-10 | 平安科技(深圳)有限公司 | 基于图像识别的唇语识别方法、装置、设备及存储介质 |
-
2021
- 2021-08-26 CN CN202110986219.3A patent/CN113435421B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN113435421A (zh) | 2021-09-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113435421B (zh) | 一种基于跨模态注意力增强的唇语识别方法及系统 | |
Zhang et al. | Learning affective features with a hybrid deep model for audio–visual emotion recognition | |
Papastratis et al. | Continuous sign language recognition through cross-modal alignment of video and text embeddings in a joint-latent space | |
Zhang et al. | Multimodal learning for facial expression recognition | |
CN111931795B (zh) | 基于子空间稀疏特征融合的多模态情感识别方法及系统 | |
Theodorakis et al. | Dynamic–static unsupervised sequentiality, statistical subunits and lexicon for sign language recognition | |
Mocanu et al. | Multimodal emotion recognition using cross modal audio-video fusion with attention and deep metric learning | |
Praveen et al. | Audio–visual fusion for emotion recognition in the valence–arousal space using joint cross-attention | |
Naz et al. | Signgraph: An efficient and accurate pose-based graph convolution approach toward sign language recognition | |
CN113822125B (zh) | 唇语识别模型的处理方法、装置、计算机设备和存储介质 | |
Tur et al. | Evaluation of hidden markov models using deep cnn features in isolated sign recognition | |
Das et al. | Deep-temporal lstm for daily living action recognition | |
Sarhan et al. | HLR-net: a hybrid lip-reading model based on deep convolutional neural networks | |
CN114764869A (zh) | 利用每个对象的单个检测的多对象检测 | |
CN116701996A (zh) | 基于多元损失函数的多模态情感分析方法、系统、设备及介质 | |
Debnath et al. | Attention-driven body pose encoding for human activity recognition | |
Boukdir et al. | Character-level Arabic text generation from sign language video using encoder–decoder model | |
Yin et al. | Spatial temporal enhanced network for continuous sign language recognition | |
Koch et al. | One-shot lip-based biometric authentication: Extending behavioral features with authentication phrase information | |
Pannattee et al. | American Sign language fingerspelling recognition in the wild with spatio temporal feature extraction and multi-task learning | |
Bacharidis et al. | Improving deep learning approaches for human activity recognition based on natural language processing of action labels | |
CN114944002B (zh) | 文本描述辅助的姿势感知的人脸表情识别方法 | |
Tao et al. | Sign Language Recognition: A Comprehensive Review of Traditional and Deep Learning Approaches, Datasets, and Challenges | |
Sheng et al. | Data augmentation by separating identity and emotion representations for emotional gait recognition | |
Praneel et al. | Malayalam Sign Language Character Recognition System |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |