CN114359785A

CN114359785A - 基于自适应矩阵特征融合网络的唇语识别方法、装置及电子设备

Info

Publication number: CN114359785A
Application number: CN202111479930.6A
Authority: CN
Inventors: 丰江帆; 龙仁华; 易成杰; 刘睿国
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2021-12-06
Filing date: 2021-12-06
Publication date: 2022-04-15

Abstract

本发明属于视觉语音识别技术领域，涉及一种基于自适应矩阵特征融合网络的唇语识别方法、装置及电子设备；所述方法包括将视频按时间先后顺序转换为唇语图像序列并预处理；采用三维卷积神经网络提取出图像序列的时空特征信息；采用深度残差网络提取出唇语图像五个层次的空间特征信息；对五层空间特征信息采用基于图模型的自适应矩阵的特征融合结构进行处理，得到特征融合后的五层唇语特征信息；使用自注意力机制对五层唇语特征信息的权重进行学习，利用学习到的权重将五层唇语特征加权输入到时间卷积神经网络，输出唇语识别结果；本发明解决了数据尺度不一的问题，能有效防止因输入尺度不一问题所导致的特征信息丢失以提升唇语识别效果。

Description

基于自适应矩阵特征融合网络的唇语识别方法、装置及电子设备

技术领域

本发明属于视觉语音识别技术领域，涉及一种基于自适应矩阵特征融合网络的唇语识别方法、装置及电子设备。

背景技术

传统的语音增强任务都是直接使用信号处理和机器学习技术单独对语音进行处理，而随着计算机技术的发展，只考虑声学环境来帮助完成语音相关任务已经无法满足实际需求。因此通过提取视觉特征进行语音识别的任务已经引起了越来越多的研究人员的兴趣，而深度学习的发展使得解决视觉语音识别任务特别是解决唇语识别任务越来越可行。

唇语识别的过程一般包括两个步骤：首先是分析视频图像序列中的运动信息，对其特征进行提取处理，然后将这些序列特征进行序列建模从而获得图像信息中所想表达的单词或者句子。这个过程将唇读与两个密切相关的领域联系起来：基于音频的语音识别和基于视频的动作识别。因为卷积神经网络(CNN)具有强大的图像特征提取能力以及循环神经网络(RNN)在时间序列建模方面表现十分优异，而这两个方法分别匹配了唇语识别的两个步骤，因从将这两种方法进行融合得到了一个应用于唇语识别的端到端的深度学习技术框架被越来越多人所使用。首先是Themos等人利用残差卷积神经网络(ResNet)作为视频图像特征的提取工具，然后利用长短时记忆神经网络(LSTM)对图像特征的序列信息进行建模最后输出我们需要的单词，除此之外，他们还将ResNet第一层用时空卷积神经网络进行了替换，以获取包含时空信息的图像特征。随后，Themos等人进一步提出将LSTM替换成GRU(门控循环单元)，并利用音频信息来辅助完成唇语识别任务，提高其准确率。而Xinshuo Weng等人进一步提出将三维卷积神经网络加二维卷积神经网络作为前端图像特征提取方案，以及利用双向长短时记忆神经网络(Bi LSTM)作为后端序列建模分类方案，除此之外，提出利用光流加灰度视频双通道作为输入的双流网络。Wang等人将ResNet和DensNet(密集残差卷积神经网络)融合组成一个多粒度图像特征提取模块来提取不同粒度的视频。到最近，Brais等人从时间序列建模模块入手，将卷积神经网络引入时间序列建模模块，提出了时间卷积神经网络(TCN)，放弃了循环神经网络的使用，这也表现出了更优异的性能。

上述所描述的技术方案都是利用现如今使用最广泛的深度学习模型来完成唇语识别的任务，但是当下存在的技术方案对于时间和空间特征信息的利用依然还有着很大的提升空间。除此之外，视觉信息因为摄像设备距离和角度的影响，不同的摄像设备所拍摄出的视频存在着人脸尺度不一的问题。因此，在唇语识别的任务上还需要对特征信息的进行更进一步的处理，以更有效的利用特征信息。

发明内容

基于现有技术存在的问题，本发明提出了一种基于自适应矩阵特征融合网络的唇语识别方法、装置及电子设备，在提取特征上做出进一步的改进，针对输入视频所存在的尺度不一的问题作出改进，提出一个更优异的网络，能够更好的解决唇语识别的任务，极大的提升了唇语识别效果。

在本发明的第一方面，本发明提供了一种基于自适应矩阵特征融合的唇语识别方法，所述方法包括：

输入唇语视频，并将所述唇语视频按照时间先后顺序转换为一系列的唇语图像序列，并分别对每一帧唇语图像进行预处理；

采用三维卷积神经网络对唇语图像序列进行处理，提取出唇语图像序列的时空特征信息，捕捉在不同时刻的局部唇部特征和全局面部特征；

采用深度残差网络对每一帧唇语图像的空间特征信息进行处理，提取出每一帧唇语图像在五个层次上的不同尺度的空间特征信息，获得了在不同尺度下的局部唇部特征和全局面部特征；

对每一帧唇语图像的五层空间特征信息采用基于图模型的自适应矩阵的特征融合结构进行处理，将不同尺度的空间特征信息进行融合，融合了低层的全局面部特征和高层的局部唇部特征，从而得到五层唇语特征信息；

使用自注意力机制对五层唇语特征信息的权重进行学习，利用学习到的权重将每一帧唇语图像的五层唇语特征信息加权，并结合唇语图像序列的时间特征信息输入到时间卷积神经网络，输出唇语识别结果。

在本发明的第二方面，本发明还提供了一种基于自适应矩阵特征融合网络的唇语识别装置，所述装置包括：

唇语视频输入模块，用于获取并输入唇语视频；

图像预处理模块，用于将所述唇语视频按照时间先后顺序转换为一系列的唇语图像序列，并分别对每一帧唇语图像进行预处理；

时空特征提取模块，采用三维卷积神经网络对唇语图像序列进行处理，提取出唇语图像序列的时空特征信息，捕捉在不同时刻的局部唇部特征和全局面部特征；

空间特征提取模块，用于采用深度残差网络对每一帧唇语图像的空间特征信息进行处理，提取出每一帧唇语图像在五个层次上的不同尺度的空间特征信息，获得了在不同尺度下的局部唇部特征和全局面部特征；

特征自适应融合模块，用于对每一帧唇语图像的五层空间特征信息采用基于图模型的自适应矩阵的特征融合结构进行处理，将不同尺度的空间特征信息进行融合，融合了低层的全局面部特征和高层的局部唇部特征，从而得到五层唇语特征信息；

唇语图像识别模块，用于使用自注意力机制对五层唇语特征信息的权重进行学习，利用学习到的权重将每一帧唇语图像的五层唇语特征信息加权，并结合唇语图像序列的时间特征信息输入到时间卷积神经网络，输出唇语识别结果。

在本发明的第三方面，本发明还提供了一种电子设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现如本发明第一方面所述方法的步骤。

本发明的有益效果：

本发明与目前所存在的唇语识别技术相比，更注重去解决输入数据所存在的尺度不一的问题，设计了一种基于自适应矩阵特征融合网络的方法、装置及电子设备让模型自动寻找最合理的特征融合结构，这能有效防止因输入尺度不一问题所导致的特征信息丢失问题。然后利用自注意力模块学习不同层次特征信息对网络的贡献度，利用这些学习到的贡献度进行加权融合，这样使得本发明的网络能够更加有效利用所有特征信息。

附图说明

图1是本发明实施例中唇语识别过程的所构建的深度学习模型的总体结构图；

图2是本发明实施例中一种基于自适应矩阵特征融合网络的唇语识别方法流程图；

图3是本发明实施例中基于图模型的自适应矩阵的特征融合结构图；

图4是本发明实施例中初始特征融合结构和邻接矩阵A_k的对应关系图；

图5是本发明实施例中图卷积结构图；

图6是本发明实施例中一种基于自适应矩阵特征融合的唇语识别装置结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了解决输入视频所存在的尺度不一的问题，本发明对传统的特征提取卷积神经网络做出进一步改进，将特征融合模块引入其中，通过特征融合模块把深度残差网络中不同层次的视觉特征进行融合；并且本发明还对该特征融合结构做出进一步的改进，首先将特征融合结构中每一个特征层用图模型表示，每个特征层即为图的结点，将该结构初始化为双向金字塔特征融合结构，然后构建自适应矩阵去表示特征融合结构的图模型并且包含多种特征处理操作，然后利用图卷积神经网络自动学习最合理的特征融合方式。同时因为不同层次的特征对于网络整体的贡献程度是不一样的，本发明还对特征融合后的每一层次的添加了自注意力模块，去学习不同层次特征信息所占的权重，并将其加权输入时间卷积神经网络的。以提高唇语识别任务的准确率。

图1是本发明实施例中唇语识别过程的所构建的深度学习模型的总体结构图，如图1所示，在本发明实施例中，将唇语图像帧输入到三维卷积神经网络和深度残差网络构成的联合网络中进行时空特征信息的提取；然后基于图模型的自适应矩阵的特征融合结构进行处理，再对特征融合后结果采用自注意力机制对五层唇语特征信息的权重进行学习，并利用学习到的权重将五层唇语特征信息加权输入到时间卷积神经网络，输出唇语识别结果，完成对唇语的识别过程。

图2为本发明实施例中一种基于自适应矩阵特征融合网络的唇语识别方法流程图；如图2所示，所述方法包括：

101、输入唇语视频，并将所述唇语视频按照时间先后顺序转换为一系列的唇语图像序列，并分别对每一帧唇语图像进行预处理；

在本发明实施例中，所述唇语视频指的是带有人脸图像尤其是带有唇部图像的视频数据，这些视频可以是常规的监控视频数据，也可以是拍摄的VLOG视频数据，还可以是各类数据集上的视频数据等等；举个例子，在实际应用时，可以将待读取的信息显示到人机交互界面上，用户读取所述待读取的信息时通过摄像机或摄像头采集用户读取所述信息时的视频段。其中待读取的信息可以显示在电子设备的显示屏幕上，其中电子设备可以为需要进行用户认证的电子设备，例如银行的取款机、门禁设备、具有刷脸支付功能的电子设备等。

在本发明实施例中，需要对输入的唇语视频进行预处理，可以将该唇语视频按时间顺序转换为图像序列，将每张图像从可以边缘进行补零操作填充至原本图像尺寸上512的大小，然后将图像以中心为基准点裁剪成大小为512*512的图像，并以0.5的概率对这些图像进行随机水平翻转操作，防止在后续过程中神经网络过拟合的现象出现。紧接着，本发明还对这些图像进行归一化处理。最终得到了用来训练的深度学习模型并可识别出唇语分类结果的图像数据。

102、采用三维卷积神经网络对唇语图像序列进行处理，提取出唇语图像序列的时空特征信息，捕捉在不同时刻的局部唇部特征和全局面部特征；

在本发明实施例中，将预处理完的唇语图像数据输入三维卷积神经网络(3DConvolutional Neural Networks,3DCNN)中进行特征提取，捕捉不同时刻局部唇部特征和全局面部特征的时空相关性、差异性以及整体一致性；输入数据的形状为(B，C，T，H，W)的五维张量，每个层次分别代表：B是batchsize(每一迭代输入数据的数目，输入两个视频，那么B＝2)，C是通道数，T是每个视频所包含的帧的数目，H和W分别是输入图像的长和高，输出唇语图像序列的时空特征信息，这里的唇语图像序列包括多帧唇语图像，这些唇语图像具有时间特征信息和空间特征信息，本发明将在后续的过程中对其中的空间特征信息进行融合处理和自注意学习，再将处理后的空间特征信息与时间特征信息结合，最终识别出唇语结果。

103、采用深度残差网络对每一帧唇语图像的空间特征信息进行处理，提取出每一帧唇语图像在五个层次上的不同尺度的空间特征信息，获得不同尺度的局部唇部特征和全局面部特征；

其中，这里是对每一帧唇语图像的空间特征信息进行处理，所以这里的局部唇部特征和全局面部特征都是静态的，即为静态局部唇部特征和静态全局面部特征。

在本发明实施例中，采用深度残差网络对这些时间特征信息进行残差处理，得到每个残差块输出的五个层次的空间特征信息，假设每个残差块的输入输出分别表示为x_l和x_l+1，因此残差块的处理过程可以表示为：

y_l＝h(x_l)+F(x_l) (1)

x_l+1＝f(y_l) (2)

其中，x_l表示第l个残差块的输入，x_l+1表示第l个残差块的输出，也即第l+1个残差块的输入，F为残差函数，h为恒等映射函数，y表示残差块的功能函数即F和h两个函数的集合，f为激活函数。

每个残差块输出一个层次的空间特征信息，因此不同层次的空间特征信息可以用一个列表

来表示，可以表示为

C_i代表第i个残差块所输出的空间特征信息，C₃至C₇即为输入到特征融合结构的不同层次的空间特征。

104、对每一帧唇语图像的五层空间特征信息采用基于图模型的自适应矩阵的特征融合结构进行处理，将不同尺度的空间特征信息进行融合，融合了低层的全局面部特征和高层的局部唇部特征，从而得到特征融合后的拥有不同尺度的五层唇语特征信息；

在本发明实施例中，融合了低层次语义信息较强但空间信息较弱的唇语特征和高层次语义信息较弱但空间信息丰富的唇语特征，得到特征融合后的五层层次的唇语特征信息，特征融合后的唇语特征同时拥有丰富的全局空间信息和语义信息。

在本发明实施例中，需要对深度残差网络所输出的五层空间特征信息采用特征融合结构进行处理，得到融合后的唇语特征信息。在本发明中，需要利用基于图模型的自适应矩阵选择出不同的特征处理操作，按照对应的特征处理操作计算出每一层的唇语特征信息；因此构建出如下的特征融合结构，该特征融合结构Fuse可以表示为：

Fuse＝GCN(A)*((Conv+Maxpool)+Resize+BLI) (3)

其中，Fuse表示基于图模型的自适应矩阵的静态局部唇部特征和静态全局面部特征的特征融合结构，A为基于图模型的自适应矩阵(包含三个通道，分别为邻接矩阵通道、自学习权重矩阵通道和丢弃矩阵通道)，GCN(A)表示对矩阵A进行图卷积操作，*表示为矩阵乘法操作，+表示通道连接操作，Conv表示卷积核提取特征，Maxpool表示最大池化函数，Resize表示上采样或下采样，BLI表示双线性插值法。因此，通过该特征融合结构可以输出每一层的唇语特征信息P_i，表示为：P_i＝Fuse(C_i)，而特征融合结构中的中间层表示为M_i。

在本发明实施例中，将特征融合结构初始化为双向金字塔结构，将这些特征信息输入双向金字塔特征融合结构，输出得到每一层的唇语特征信息P_i：

P₇＝Conv(C₇) (4)

P₆＝Conv(C₆+Resize(C₇)+Maxpool(P₅)) (5)

P₅＝Conv(C₅+Resize(C₆)+Maxpool(P₄)) (6)

P₄＝Conv(C₄+Resize(C₅)+Maxpool(P₃)) (7)

P₃＝Conv(C₃+Resize(C₄)) (8)

其中，P_i表示双向金字塔特征融合结构输出的第i层唇语特征信息；Resize表示上采样和下采样，Maxpool表示最大池化函数，Conv表示卷积核提取特征。

在本发明实施例中，考虑到特征融合实际上是将五个层次的特征信息以不同的特征操作进行融合处理，因此本发明根据图模型划分出三个图矩阵通道和十五个图特征结点；将融合处理过程看成一个图，将每个特征层当做一个图结点，其中特征层包含静态局部唇部特征和静态全局面部特征，特征层之间所采用的特征操作即为图结点之间的边，基于此，将每个图矩阵通道划分为邻接矩阵(A_k)通道、自学习权重矩阵(B_k)通道和丢弃矩阵(D_k)通道，将每个图特征结点所对应的特征层按照每个矩阵通道所表示的连接方式进行连接；并采用双向金字塔结构初始化所述基于图模型的自适应矩阵，其中，邻接矩阵表示每个特征层之间的边连接，自学习权重矩阵表示为每个特征层之间的边连接赋予权重，可以捕捉不同特征层之间的相关性，即让作用较大的连接方式获得一个较大的权重，让作用较小的连接方式获得一个较小的权重；丢弃矩阵表示丢弃低于预设阈值的边连接权重，也即是自学习权重矩阵中所有低于预设阈值的连接方式都丢弃掉，可以发现，邻接矩阵通道、自学习权重矩阵通道和丢弃矩阵通道之间是相互影响的，不同的矩阵通道之间可以基于其他通道在前一迭代过程或者当前迭代过程的所学习到的融合信息，得到当前矩阵通道的融合信息，因此，各个矩阵通道可以表为如下：

A_k+1＝F(matmul(A_k,B_k)⊙D_k) (9)

B_k+1＝B_k⊙D_k (11)

其中，A_k+1表示第k+1次迭代的邻接矩阵，A_k表示第k次迭代的邻接矩阵，B_k+1表示第k+1次迭代的自学习权重矩阵，B_k表示第k次迭代的自学习权重矩阵，D_k表示第k次迭代的丢弃矩阵，B_k[i][j]表示B_k第i行第j列的元素，matmul()表示矩阵乘法，⊙表示哈达玛积，m表示预设阈值。

在本发明实施例中，利用基于图模型的自适应矩阵选择出不同的特征处理操作从而自动调整特征融合结构，以学习到最合理的静态局部唇部特征和静态全局面部特征融合结构，按照对应的特征处理操作进行特征融合，并计算出每一层的唇语特征信息，直至在唇语识别过程中所有网络模型训练完成后，固定该特征融合结构，这里的唇语识别过程中所有网络模型即指的是基于自适应矩阵特征融合网络的唇语识别模型，该模型中既包括提取出唇语图像序列的时空特征信息的三维卷积神经网络，也包括提取每一帧唇语图像在五个层次上的不同尺度的空间特征信息的深度残差网络，更包括将不同尺度的空间特征信息进行融合的特征融合网络，同时还可包括输出唇语识别结果的时间卷积神经网络，这些网络模型在训练过程中会对特征融合结构做出自动调整，当训练完成时，此时所对应的特征融合结构较为稳定，可以直接用于后续的唇语识别测试过程。

请参阅图3、图4，图3给出了本发明实施例中基于图模型的自适应矩阵的特征融合结构图，图4给出了我们初始特征融合结构双向金字塔结构和邻接矩阵A_k的对应关系，权重矩阵B_k的初始化是将A_k中所有为零值的部分用阈值m代替，D_k的初始化是将全为1的矩阵减去一个初始化矩阵(该初始化矩阵表示：特征融合结构中不可能存在连接关系的边为1，可能存在关系的为0)，然后再按照上述(9)(10)(11)(12)式计算出我们第一次迭代所需要的三个矩阵。我们新学习到的特征融合结构将根据A_k自动生成一个新的特征融合结构，根据不同的边对应不同的特征处理操作，例如C7和P7之间的边对应的是3*3卷积操作、P6和P7之间对应的是最大池化的操作，并且根据B_k对每条边赋予不同的权重，最后根据D_k用类似于dropout的方法丢弃掉一些边即连接关系，最终得到我们的特征融合结构，为了避免频繁对于连接关系的更改，我们将预设的阈值m设为一个较大的值。

在本发明实施例中，在构建完成自适应矩阵后，本发明通过图卷积神经网络去学习他们之间的连接关系，即是对本发明所构建好的自适应矩阵进行图卷积操作，如图5所示，得到一个新的自适应矩阵，然后去更改特征融合结构，图卷积可表示为：

其中，K表示三个通道数，A表示三个矩阵通道，W_k表示1*1卷积的权重向量，维度为C_out×C_in×1×1；f_in表示为图卷积模型的一系列操作。

105、使用自注意力机制对五层唇语特征信息的权重进行学习，并利用学习到的权重将每一帧唇语图像的五层唇语特征信息加权，并结合唇语图像序列的时间特征信息输入到时间卷积神经网络，输出唇语识别结果。

在本发明实施例中，首先将这五层唇语特征信息用一个自注意力模块去学习每一层特征信息对于时间卷积神经网络的贡献度即五层特征信息的权重，然后利用学习到的权重将五层唇语特征信息加权输入到下一个时间序列建模模块中。自注意力模块可以表示为：

S_i＝L(P_i) (14)

其中，S_i表示第i层的输出，L为一个自注意力学习函数，用以学习每层的贡献度，并输出加权融合之后的唇语特征信息。

将自注意力学习后的五层唇语特征信息输入分别多阶段时间卷积神经网络(MS-TCN)当中，对其进行时间特征进行建模，紧接着用全连接层加Softmax函数对其进行分类，再将分类结果取均值，得到本发明想要识别出的唇语单词结果Result。

其中，FC表示为全连接层。

图6是本发明实施例中一种基于自适应矩阵特征融合网络的唇语识别装置结构图，如图6所示，所述唇语识别装置200包括：

唇语视频输入模块201，用于获取并输入唇语视频；

图像预处理模块202，用于将所述唇语视频按照时间先后顺序转换为一系列的唇语图像序列，并分别对每一帧唇语图像进行预处理；

时空特征提取模块203，用于采用三维卷积神经网络对唇语图像序列进行处理，提取出唇语图像序列的时空特征信息，捕捉在不同时刻的局部唇部特征和全局面部特征；

在本发明实施例中，时空特征提取模块203提取出唇语图像序列的时空特征信息实际上包含时间特征信息和空间特征信息，本发明将空间特征提取模块204对空间特征信息单独进行处理，再将处理后的空间特征信息与时间特征信息结合，最终识别出唇语结果。

空间特征提取模块204，用于采用深度残差网络对每一帧唇语图像的空间特征信息进行处理，提取出每一帧唇语图像在五个层次上的不同尺度的空间特征信息，获得了在不同尺度下的局部唇部特征和全局面部特征；

特征自适应融合模块205，用于对每一帧唇语图像的五层空间特征信息采用基于图模型的自适应矩阵的特征融合结构进行处理，将不同尺度的空间特征信息进行融合，融合了低层的全局面部特征和高层的局部唇部特征，从而得到特征融合后的拥有不同尺度的五层唇语特征信息；

唇语图像识别模块206，用于使用自注意力机制对五层唇语特征信息的权重进行学习，利用学习到的权重将每一帧唇语图像的五层唇语特征信息加权，并结合唇语图像序列的时间特征信息输入到时间卷积神经网络，输出唇语识别结果。

与上述提供的一种基于自适应矩阵特征融合的唇语识别方法相对应的，本申请还提供了一种电子设备。所述电子设备包括存储器和处理器，所述存储器存储有计算机程序；所述处理器执行所述计算机程序时实现如下步骤：

在本发明的描述中，需要理解的是，术语“同轴”、“底部”、“一端”、“顶部”、“中部”、“另一端”、“上”、“一侧”、“顶部”、“内”、“外”、“前部”、“中央”、“两端”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

在本发明中，除非另有明确的规定和限定，术语“安装”、“设置”、“连接”、“固定”、“旋转”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系，除非另有明确的限定，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于自适应矩阵特征融合网络的唇语识别方法，其特征在于，所述方法包括：

2.根据权利要求1所述的一种基于自适应矩阵特征融合网络的唇语识别方法，其特征在于，采用基于图模型的自适应矩阵，构建多尺度特征融合网络，分别在所述五个层次上进行多尺度特征融合；包括利用基于图模型的自适应矩阵，选择出不同的特征处理操作从而自动调整特征融合结构，以得到最合理的局部唇部特征和全局面部特征的融合结构；按照对应的特征处理操作进行特征融合，并计算出每一层的唇语特征信息，直至在唇语识别过程中所有网络模型训练完成后，确定该特征融合结构。

3.根据权利要求1或2所述的一种基于自适应矩阵特征融合网络的唇语识别方法，其特征在于，所述基于图模型的自适应矩阵的特征融合结构表示为：

Fuse＝GCN(A)*((Conv+Maxpool)+Resize+BLI)

其中，Fuse表示基于图模型的自适应矩阵的局部唇部特征和全局面部特征融合结构，A为基于图模型的唇语识别特征融合结构自适应矩阵，其包含三个通道，分别为邻接矩阵通道、自学习权重矩阵通道和丢弃矩阵通道，GCN(A)表示对矩阵A进行图卷积操作，*表示为矩阵乘法操作，+表示通道连接操作，Conv表示卷积核提取特征，Maxpool表示最大池化函数，Resize表示上采样或下采样，BLI表示双线性插值法。

4.根据权利要求3所述的一种基于自适应矩阵特征融合网络的唇语识别方法，其特征在于，所述基于图模型的自适应矩阵包括根据特征融合结构的图模型划分出十五个图特征结点和三个图矩阵通道；将三个图矩阵通道划分为邻接矩阵通道、自学习权重矩阵通道和丢弃矩阵通道，将每个图特征结点所对应的特征层按照每个通道的矩阵所表示的连接方式进行连接，其中特征层包含局部唇部特征和全局面部特征；并采用双向金字塔结构初始化所述基于图模型的自适应矩阵，其中，邻接矩阵通道表示每个特征层之间的边连接，自学习权重矩阵通道表示为每个特征层之间的边连接赋予权重，丢弃矩阵通道表示丢弃低于预设阈值的边。

5.根据权利要求4所述的一种基于自适应矩阵特征融合网络的唇语识别方法，其特征在于，邻接矩阵(A_k)通道、自学习权重矩阵(B_k)通道和丢弃矩阵(D_k)通道依次表示为：

A_k+1＝F(matmul(A_k,B_k)⊙D_k)

B_k+1＝B_k⊙D_k

6.根据权利要求5所述的一种基于自适应矩阵特征融合网络的唇语识别方法，其特征在于，对邻接矩阵通道、自学习权重矩阵通道和丢弃矩阵通道采用图卷积神经网络学习各个矩阵通道的连接关系，表示为：

其中，a表示第a个通道数，a＝1,2,3，分别代表邻接矩阵通道、自学习权重矩阵通道和丢弃矩阵通道，A^a表示自适应矩阵A的第a个通道，W_a表示第a个通道所对应的1*1卷积的权重向量，维度为C_out×C_in×1×1，C_out表示输出通道的维度，C_in表示输入通道的维度；f_in表示为图卷积模型的一系列操作。

7.一种基于自适应矩阵特征融合网络的唇语识别装置，其特征在于，所述装置包括：

唇语视频输入模块，用于获取并输入唇语视频；

8.一种电子设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1～6任一所述方法的步骤。