CN113435421B

CN113435421B - 一种基于跨模态注意力增强的唇语识别方法及系统

Info

Publication number: CN113435421B
Application number: CN202110986219.3A
Authority: CN
Inventors: 李树涛; 宋启亚; 孙斌
Original assignee: Hunan University
Current assignee: Hunan University
Priority date: 2021-08-26
Filing date: 2021-08-26
Publication date: 2021-11-05
Anticipated expiration: 2041-08-26
Also published as: CN113435421A

Abstract

本发明公开了一种基于跨模态注意力增强的唇语识别方法及系统，本发明包括提取唇部图像序列和唇部运动信息，通过预训练特征提取器获取对应的唇部特征序列和唇部运动序列，将得到的特征序列输入跨模态注意力网络，得到唇部增强特征序列；通过多分支注意力机制建立模态内特征序列的时序关联性，并在输出端特定的选择输入中相关的信息。本发明通过考虑时序信息之间的关联性，将相邻帧之间进行光流计算得到视觉特征之间的运动信息，利用运动信息对唇部视觉特征进行表示并进行融合增强，充分利用了模态内的上下文信息，最后通过多分支注意力机制进行模态内特征的关联表示和选择，提升了唇读识别的准确率。

Description

一种基于跨模态注意力增强的唇语识别方法及系统

技术领域

本发明涉及计算机视觉和模式识别技术，具体涉及一种基于跨模态注意力增强的唇语识别方法及系统。

背景技术

唇语识别是指通过捕捉说话人唇部的运动信息来理解说话人所说内容，具有大量有用的语音信息。在实际人机自然交互应用环境中，面部运动信息通过视频获取，不受复杂环境噪声影响，因此唇语识别可作为在没有任何音频输入和高噪声环境下说话者内容识别的有效解决方案之一。唇读系统具有多种有价值的应用，该系统的实现可以辅助语音识别和解决多说话者同时说话，实现更加智能、鲁棒的人机交互；也可用于军事公安、生物特征识别、安全验证等领域。因此，唇语识别的研究吸引越来越多研究者的注意。

但是，唇语识别存在许多亟待解决和突破的难题，主要包括：第一，同形异音的造成的视觉歧义。不同发音具有相似甚至相同的视觉特性，例如P、B、M具有相同的视觉信息，但发音形同。第二，讲话者依赖。说话人的性别、不同发音习惯和不同的文化都会造成唇部区域图像特征差异。第三，复杂的成像条件和讲话者的姿态变化会导致图像上唇部区域的明显变化，会对视觉特征提取产生影响。

发明内容

本发明要解决的技术问题：针对现有技术的上述问题，提供一种基于跨模态注意力增强的唇语识别方法及系统，本发明通过考虑时序信息之间的关联性，通过将相邻帧之间进行光流计算得到视觉特征之间的运动信息，然后利用运动信息对唇部视觉特征进行表示并进行融合增强，充分利用了模态内的上下文信息，最后通过多分支注意力机制进行模态内特征的关联表示和选择，提升了唇读识别的准确率。

为了解决上述技术问题，本发明采用的技术方案为：

一种基于跨模态注意力增强的唇语识别方法，包括：

1）根据包含说话者人脸关键点的输入图像提取唇部区域图像序列Va，并根据唇部区域图像序列Va提取光流图序列Vo；将唇部区域图像序列Va、光流图序列Vo分别输入预先训练好特征提取器，得到唇部特征序列Hv、唇部间运动特征序列Ho；将唇部特征序列Hv、唇部间运动特征序列Ho分别进行位置编码，得到引入位置信息的唇部特征序列Hvp和唇部间运动特征序列Hop两者构成的引入位置信息的特征序列X∈{Hvp,Hop}；

2）将得到的引入位置信息的特征序列X∈{Hvp,Hop}输入跨模态注意力模块得到具有上下文信息的唇部特征Hup，并融合唇部特征序列Hv得到增强的唇部特征序列Henh；

3）基于多分支注意力机制对增强的唇部特征序列Henh进行模态内的关联表示，得到增强的唇部特征序列Henh的关联表示Henc；

4）将增强的唇部特征序列Henh的关联表示Henc作为输入特征，通过注意力层计算输出特征和输入特征之间的相似性，得到输出特征的表示向量Hdec；

5）通过多层感知机对输出特征的表示向量Hdec进行概率表示，并基于概率表示结果获取得到最优的识别结果。

可选地，步骤1）中将唇部特征序列Hv、唇部间运动特征序列Ho分别进行位置编码的函数表达式为：

，

，

上式中，PE_(pos,i)表示位置pos特征的维度i在位置编码函数PE中位置编码，pos每个输入特征在唇部特征序列Hv、唇部间运动特征序列Ho两者构成的序列X ₀∈{Hv,Ho}中的位置，i表示特征向量所在的维度，PE表示位置编码函数，d代表特征向量具有的维度，X为引入位置信息的特征序列。

可选地，步骤2）中跨模态注意力模块对引入位置信息的特征序列X∈{Hvp,Hop}的处理包括：

将引入位置信息的特征序列X∈{Hvp,Hop}进行线性变换，使引入位置信息的唇部特征序列Hvp和唇部间运动特征序列Hop两者具有相同的特征表示维度；

针对线性变换后得到的特征进行降维处理，利用唇部间运动特征序列Hop对每个唇部的特征进行表示得到具有上下文信息的唇部特征Hup。

可选地，所述针对线性变换后得到的特征进行降维处理，利用唇部间运动特征序列Hop对每个唇部的特征进行表示得到具有上下文信息的唇部特征Hup包括：

首先，根据下式进行分别计算查询特征Q _α、键特征K _β、值特征V _β；

Q _α=H _vp W _Qα，K _β=H _op W _Kβ，V _β=H _op W _Vβ，

上式中，W _Qα为引入位置信息的唇部特征序列Hvp的查询线性映射矩阵，W _Kβ和W _Vβ分别为引入位置信息的唇部间运动特征序列Hop的键权重矩阵和值权重矩阵，H _vp表示引入位置信息的唇部特征序列，H _op表示引入位置信息的唇部间运动特征序列；

然后，根据查询特征Q _α、键特征K _β基于下式计算唇部特征与唇部之间动态特征之间的相似值CMA _Hop→Hvp；

，

上式中，softmax表示归一化指数函数，d _k为查询特征Q _α与键特征K _β的偏置相乘得到的矩阵Q _α K _β ^T的维度；

最终，根据唇部特征与唇部之间动态特征之间的相似值CMA _Hop→Hvp、值特征V _β基于下式计算得到具有上下文信息的唇部特征Hup：

，

上式中，H _op表示引入位置信息的唇部间运动特征序列，W _Vβ为引入位置信息的唇部间运动特征序列Hop的值权重矩阵。

可选地，步骤2）中融合唇部特征序列H _v得到增强的唇部特征序列Henh函数表达式如下式所示：

Henh=Linear([Hv,Hup] )

上式中，Linear表示线性变换函数，[Hv,Hup]表示唇部特征序列H _v和具有上下文信息的唇部特征Hup的级联。

可选地，步骤3）包括：

3.1）利用线性映射矩阵，对增强的唇部特征序列Henh在n个特征空间内进行子空间表示，得到多个特征空间对应维度的特征表示序列；

3.2）基于n个特征空间内各特征之间的相似性，得到每个特征空间的特征关联表示；

3.3）将各个特征空间的特征关联表示进行级联，得到增强的唇部特征序列Henh的关联表示Henc。

可选地，步骤3.1）中得到任意第i个特征空间对应维度的特征表示序列的函数表达式为：

Q _i ^q=Henh*W _i ^q，K _i ^k=Henh*W _i ^k，V _i ^v=Henh*W _i ^v，

上式中，W _i ^q,W _i ^k,W _i ^v分别为查询值矩阵、键值矩阵、值权重矩阵，i表示特征空间的第i个头，i=1,2,…,n，n为特征空间数量；

步骤3.2）中得到每个特征空间的特征关联表示的函数表达式为：

，

上式中，head _i表示第i个特征空间对应维度的特征表示，Attention表示注意力机制，Q _i ^q,K _i ^k,V _i ^v分别表示第i个特征空间查询特征、键特征和值特征，softmax表示归一化指数函数，d _k为查询特征Q _i ^q与键特征K _i ^k的偏置相乘得到的矩阵

的维度；

步骤3.3）中将各个特征空间的特征关联表示进行级联，得到增强的唇部特征序列Henh的关联表示Henc的函数表达式为：

，

上式中，MultiHead表示多头注意力函数，Q _i ^q,K _i ^k,V _i ^v分别表示第i个特征空间查询特征、键特征和值特征，concat为级联函数，head ₁ ～head _n分别为第1～n个特征空间的特征关联表示，W ^O为输出权重矩阵。

可选地，步骤5）中通过多层感知机对输出特征的表示向量Hdec进行概率表示的函数表达式为：

P(Y|Hcy) =softmax(MLP(Hdec))

上式中，MLP为多层感知机将输出特征的表示向量Hdec映射到对应的标签类别范围中，softmax为归一化指数函数，P(Y|Hcy)为对应输出类别的概率。

此外，本发明还提供一种基于跨模态注意力增强的唇语识别系统，包括相互连接的微处理器和存储器，该微处理器被编程或配置以执行所述基于跨模态注意力增强的唇语识别方法的步骤。

此外，本发明还提供一种计算机可读存储介质，该计算机可读存储介质中存储有被编程或配置以执行所述基于跨模态注意力增强的唇语识别方法的计算机程序。

和现有技术相比，本发明具有下述优点：考虑到在实际人机自然交互应用环境中，面部运动信息通过视频获取，不受复杂环境噪声影响，唇语识别可作为人机交互的有效通道之一。本发明包括提取唇部特征序列、唇部间运动特征序列并引入位置信息，通过跨模态注意力模块进行模态融合，基于多分支注意力机制进行模态内的关联表示，通过注意力层计算输出特征和输入特征之间的相似性得到输出特征的表示向量，最终通过多层感知机对输出特征的表示向量进行概率表示并获取最优识别结果。考虑到在实际人机自然交互应用环境中，面部运动信息通过视频获取，不受复杂环境噪声影响，唇语识别可作为人机交互的有效通道之一，本发明通过考虑时序信息之间的关联性，通过将相邻帧之间进行光流计算得到视觉特征之间的运动信息，然后利用运动信息对唇部视觉特征进行表示并进行融合增强，充分利用了模态内的上下文信息，最后通过多分支注意力机制进行模态内特征的关联表示和选择，提升了唇读识别的准确率。

附图说明

图1为本实施例方法的基本原理图。

图2为实施例中视觉信息预处理的原理图。

图3为实施例中得到的光流图序列示例。

图4为实施例中跨模态注意力模块的实现原理示意图。

具体实施方式

如图1所示，本实施例基于跨模态注意力增强的唇语识别方法包括：

本实施例基于跨模态注意力增强的唇语识别方法首先提取唇部图像序列和唇部运动信息（光流信息），并进行归一化、降维处理和位置编码，然后将通过预训练特征提取器获取对应的唇部特征序列和唇部运动序列，并将得到的特征序列输入跨模态注意力网络，得到唇部增强特征序列；最后通过多分支注意力机制建立模态内特征序列的时序关联性，并在输出端特定的选择输入中相关的信息，提高唇语识别的准确率。

参见图2，步骤1）中根据包含说话者人脸关键点的输入图像提取唇部区域图像序列Va时，针对每一幅包含说话者人脸关键点的输入图像，首先进行视觉信息预处理（采用预先的面部检测模型），提取其中的人脸区域图像R_f。然后针对得到的人脸区域R_f使用人脸关键点检测模型得到进行人脸关键点检测，得到人脸关键点的像素坐标X_b，例如用人脸关键点检测模型使用开源人脸库Dlib的人脸关键点检测模型，可得到68个人脸关键点像素坐标X_b；针对得到的人脸关键坐标X_b，得到唇部中心位置X_c；然后利用唇部中心位置进行唇部区域的裁剪，得到唇部区域图像。从而有所有的唇部区域图像即可构成唇部区域图像序列Va={v _a ⁱ|i=,1,2,3,...,k}，其为k唇部区域图像数量。

参见图1，本实施例步骤1）中根据唇部区域图像序列Va提取光流图序列Vo是指将唇部区域图像序列Va通过PWC-Net网络提取光流图序列Vo，其形式为：Vo={v _o ⁱ|i=,1,2,3,...,m}，其中m为唇部区域光流图的数量，图3所示为光流图序列Vo的一个具体图像实例。PWC-Net网络是一种现有的光流估计CNN模型，包括了金字塔，扭曲，代价体积三个部分，此外也可以根据需要采用其他光流估计模型。

参见图1，本实施例步骤1）中采用C3D-P3D网络作为特征提取器，将唇部区域图像序列Va、光流图序列Vo分别输入预先训练好特征提取器C3D-P3D。将得到的唇部区域图像序列Va中每帧图像进行通道降维处理得到对应的灰度图，并进行归一化处理到[0,1]范围内；然后通过预先训练的特征提取器C3D-P3D作为视觉前端对唇部图像序列Va进行特征提取，得到唇部区域的特征表示Hv；将得到的光流图序列Vo进行通道降维处理得到对应的灰度图，并进行归一化处理到[0,1]范围内；然后通过预先训练的特征提取器C3D-P3D作为视觉前端对光流图序列Vo进行特征提取，得到唇部间的动态表示特征Ho。C3D-P3D网络为现有特征提取网络，P3D的三个版本分别是P3D-A、P3D-B和P3D-C，P3D-ResNet是通过三个版本依次交错生成，而C3D-P3D为3D卷积神经网络和三个版本的P3D混合构成的50层P3D-ResNet组合而成。

本实施例中，步骤1）中将唇部特征序列Hv、唇部间运动特征序列Ho分别进行位置编码的函数表达式为：

，

，

本实施例中，步骤2）中跨模态注意力模块对引入位置信息的特征序列X∈{Hvp,Hop}的处理包括：

如图4所示，本实施例中针对线性变换后得到的特征进行降维处理，利用唇部间运动特征序列Hop对每个唇部的特征进行表示得到具有上下文信息的唇部特征Hup包括：

Q _α=H _vp W _Qα，K _β=H _op W _Kβ，V _β=H _op W _Vβ，

上式中，W _Qα为引入位置信息的唇部特征序列Hvp的查询线性映射矩阵，W _Kβ和W _Vβ分别为引入位置信息的唇部间运动特征序列Hop的键权重矩阵和值权重矩阵，H _vp表示引入位置信息的唇部特征序列，H _op表示引入位置信息的唇部间运动特征序列；图4中，l _α,d _α分别表示引入位置信息的唇部特征H _vp对应的序列长度和维度大小；l _β,d _β分别表示引入位置信息的唇部间运动特征H _op对应的序列长度和维度；l _α,d _k分别表示查询特征Q _α的对应的序列长度和维度；l _β,d _k分别表示键特征K _β的对应的序列长度和维度；l _β,d _v分别表示值特征V _β的对应的序列长度和维度。

，

，

本实施例中，步骤2）中融合唇部特征序列H _v得到增强的唇部特征序列Henh函数表达式如下式所示：

Henh=Linear([Hv,Hup] )

本实施例步骤3）通过自注意力模块对得到唇部增强特征序列Henh进行模态内的关联表示，首先利用线性映射矩阵对增强后的特征序列进行子空间表示，关注不同位置的信息，得到多个维度的特征表示；然后通过计算特征序列中的某一特征与其它特征间的相似性，为每个特征赋予相应的权重，然后基于权重融合得到每个子空间的特征关联表示；最后每个子空间得到的特征表示向量进行级联，得到级联后的特征向量，即增强的唇部特征序列Henh的关联表示Henc。本实施例中，步骤3）包括：

本实施例中，步骤3.1）中得到任意第i个特征空间对应维度的特征表示序列的函数表达式为：

Q _i ^q=Henh*W _i ^q，K _i ^k=Henh*W _i ^k，V _i ^v=Henh*W _i ^v，

本实施例中，步骤3.2）中得到每个特征空间的特征关联表示的函数表达式为：

，

的维度；需要说明的是，注意力机制为现有神经网络结构，本实施例中仅涉及注意力机制的应用，不涉及对注意力机制的改进，故其实现细节在此不再展开说明。

本实施例中，步骤3.3）中将各个特征空间的特征关联表示进行级联，得到增强的唇部特征序列Henh的关联表示Henc的函数表达式为：

，

本实施例中，步骤4）中将增强的唇部特征序列Henh的关联表示Henc作为输入特征，通过注意力层计算输出特征和输入特征之间的相似性（注意力权值的大小），得到输出特征的表示向量Hdec；相似性越大对应的注意力值越大。

本实施例中，步骤5）中通过多层感知机对输出特征的表示向量Hdec进行概率表示的函数表达式为：

P(Y|Hcy) =softmax(MLP(Hdec))

本实施例中，通过在公众可获得的大规模字级别的LRW数据集上进行模型的调试和验证，对本实施例基于跨模态注意力增强的唇语识别方法进行实验验证，且同时作为本实施例方法的对比的现有已知方法（对比方法）包括：

WAS方法，详见J. S. Chung, A. Senior, O. Vinyals, and A. Zisserman,“Lipreading sentences in the wild,” in IEEE Conferenceon Computer Vision andPattern Recognition (CVPR).IEEE, 2017, pp. 3444–3453.

Res+LSTM方法，详见 T. Stafylakis and G. Tzimiropoulos, imiropoungresidual networks with lstms for lipreading,iparXiv preprint arXiv:1703.04105, 2017.

Multi Graned方法，详见 C. Wang, ed 2017.03.0410spatio-temporalmodeling for lip-reading,adarXiv preprint arXiv:1908.11618, 2019.

表1：本实施例方法（Ours）与对比方法在LRW数据集下的识别结果。

表1为本实施例方法（Ours）与对比方法在LRW数据集下的识别结果。参见表1可知，本实施例基于跨模态注意力增强的唇语识别方法在LRW数据集上能够实现最佳的唇语识别的分类结果。由此可见，本实施例基于跨模态注意力增强的唇语识别方法首先提取唇部图像序列和唇部运动信息（光流信息），并进行归一化、降维处理和位置编码，然后将通过预训练特征提取器获取对应的唇部特征序列和唇部运动序列，并将得到的特征序列输入跨模态注意力网络，得到唇部增强特征序列；最后通过多分支注意力机制建立模态内特征序列的时序关联性，并在输出端特定的选择输入中相关的信息，提高唇语识别的准确率。

此外，本实施例还提供一种基于跨模态注意力增强的唇语识别系统，包括相互连接的微处理器和存储器，该微处理器被编程或配置以执行前述基于跨模态注意力增强的唇语识别方法的步骤。

此外，本实施例还提供一种计算机可读存储介质，该计算机可读存储介质中存储有被编程或配置以执行前述基于跨模态注意力增强的唇语识别方法的计算机程序。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可读存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。本申请是参照根据本申请实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅是本发明的优选实施方式，本发明的保护范围并不仅局限于上述实施例，凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理前提下的若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于跨模态注意力增强的唇语识别方法，其特征在于，包括：

5）通过多层感知机对输出特征的表示向量Hdec进行概率表示，并基于概率表示结果获取得到最优的识别结果；

步骤3）包括：

2.根据权利要求1所述的基于跨模态注意力增强的唇语识别方法，其特征在于，步骤1）中将唇部特征序列Hv、唇部间运动特征序列Ho分别进行位置编码的函数表达式为：

，

，

上式中，PE_(pos,i)表示位置pos特征的维度i在位置编码函数PE中位置编码，pos表示每个输入特征在唇部特征序列Hv、唇部间运动特征序列Ho两者构成的序列X ₀∈{Hv,Ho}中的位置，i表示特征向量所在的维度，PE表示位置编码函数，d代表特征向量具有的维度，X为引入位置信息的特征序列。

3.根据权利要求1所述的基于跨模态注意力增强的唇语识别方法，其特征在于，步骤2）中跨模态注意力模块对引入位置信息的特征序列X∈{Hvp,Hop}的处理包括：

4.根据权利要求3所述的基于跨模态注意力增强的唇语识别方法，其特征在于，所述针对线性变换后得到的特征进行降维处理，利用唇部间运动特征序列Hop对每个唇部的特征进行表示得到具有上下文信息的唇部特征Hup包括：

Q _α=H _vp W _Qα，K _β=H _op W _Kβ，V _β=H _op W _Vβ，

，

，

5.根据权利要求4所述的基于跨模态注意力增强的唇语识别方法，其特征在于，步骤2）中融合唇部特征序列H _v得到增强的唇部特征序列Henh函数表达式如下式所示：

Henh=Linear([Hv,Hup] )

6.根据权利要求1所述的基于跨模态注意力增强的唇语识别方法，其特征在于，步骤3.1）中得到任意第i个特征空间对应维度的特征表示序列的函数表达式为：

Q _i ^q=Henh*W _i ^q，K _i ^k=Henh*W _i ^k，V _i ^v=Henh*W _i ^v，

，

的维度；

，

7.根据权利要求1所述的基于跨模态注意力增强的唇语识别方法，其特征在于，步骤5）中通过多层感知机对输出特征的表示向量Hdec进行概率表示的函数表达式为：

P(Y|Hcy) =softmax(MLP(Hdec))

8.一种基于跨模态注意力增强的唇语识别系统，包括相互连接的微处理器和存储器，其特征在于，该微处理器被编程或配置以执行权利要求1～7中任意一项所述基于跨模态注意力增强的唇语识别方法的步骤。

9.一种计算机可读存储介质，其特征在于，该计算机可读存储介质中存储有被编程或配置以执行权利要求1～7中任意一项所述基于跨模态注意力增强的唇语识别方法的计算机程序。