CN111259875B

CN111259875B - 一种基于自适应语义时空图卷积网络的唇读方法

Info

Publication number: CN111259875B
Application number: CN202010369797.8A
Authority: CN
Inventors: 刘丽; 陈小鼎; 盛常冲; 龙云利
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2020-05-06
Filing date: 2020-05-06
Publication date: 2020-07-31
Anticipated expiration: 2040-05-06
Also published as: CN111259875A

Abstract

本发明提供了一种基于自适应语义时空图卷积网络的唇读方法，所述方法包括提取包含唇部轮廓、局部微小运动和语义信息的局部语义视觉特征和提取包含唇部全局运动信息的全局视觉特征，并将所述局部语义视觉特征和全局视觉特征相融合后的融合视觉特征用于唇读识别，由于融合视觉特征中不仅包含了唇部的全局运动信息还包含了唇部局部运动和细微运动信息以及语义信息，使得依据本发明提供的唇读方法具有更高的准确度。

Description

一种基于自适应语义时空图卷积网络的唇读方法

技术领域

本发明属于计算机视觉与模式识别技术领域，尤其涉及一种基于自适应语义时空图卷积网络的唇读方法。

背景技术

自动唇读（Automatic Lip Reading，ALR），即视觉语音识别（Visual SpeechRecognition，VSR），旨在从包含说话人唇部运动的视频中解码说话的内容。由于其潜在的应用价值，近些年已得到越来越多的关注。具有唇读功能的机器可以开发很多新应用，例如在嘈杂的环境中使智能手机接收信息更准确，协助听力障碍人士以及给无声电影配字幕等应用。

基于深度学习的唇读识别方法是目前而言获得效果相对较佳的识别方式，当前基于深度学习的唇读识别方法中，多采用卷积神经网络CNN模型从在唇部序列图像提取唇部视觉特征，而为了减小特征图的大小以增加感受野，所述CNN模型中多通常会采用全局池化层来获得低维度的特征向量来作为全部视觉特征。

现有的这种唇读识别方法中，在获取唇部视觉特征的过程中，由于使用了全局池化层，所提取的唇部视觉特征更多的包含的仅是唇部的全局运动信息（唇部的表观视觉特征），而损失了唇部局部微小运动和唇部轮廓语义信息。然而，这些损失的信息实际上对唇读识别非常重要，因为在唇语动作发生的过程中，某些情况下唇部可能只会发生一些细微的局部运动。此外，唇部区域的不同部分如嘴角、牙齿或下巴等这些局部区域也会包含丰富的语义信息，这些语义信息对唇读识别的精准度有较大的影响。显然，现有的采用CNN模型提取视觉特征的唇读识别方法由于不能提取这些丰富的语义信息且损失了唇部局部运动的细微特征，而使得的唇读识别的精准度离满足实际应用需求还有一段距离，需要进一步提高唇读识别的精准度。

发明内容

有鉴于此，本发明提供了一种基于自适应语义时空图卷积网络的唇读方法，以解决现有的唇读识别方法存在识别精准度不高的问题。

一种基于自适应语义时空图卷积网络的唇读方法，其特征在于，包括：

从待识别视频中获取唇部序列图像，并从所述唇部序列图像中提取包含唇部全局运动信息的全局视觉特征，

从所述待识别视频中确定与唇读相关的多个唇读相关特征点，并根据所述唇读相关特征点，提取包含唇部局部运动信息和语义信息的局部语义视觉特征，

将所述全局视觉特征和所述局部语义视觉特征进行融合，以获得融合视觉特征，

根据所述融合视觉特征获得所述唇读识别的内容。

优选地，从所述待识别视频中确定与唇读相关的多个唇读相关特征点包括：

在所述待识别视频中定位人脸，以获得人脸序列图像，

对所述人脸序列图像进行脸部关键点检测，以检测出所述人脸的各个脸部关键点，

选择位于所述人脸下半部分的多个所述脸部关键点作为所述唇读相关特征点。

优选地，从待识别视频中获取唇部序列图像包括：通过所述人脸关键点对唇部区域进行定位，以从所述人脸序列图像中裁剪出所述唇部序列图像。

优选地，根据所述唇读相关特征点，提取所述局部语义视觉特征包括：

从所述待识别视频中裁剪出以所述唇读相关特征点为中心的块视频，以提取出唇读相关特征点块序列，

从所述唇读相关特征点块序列中提取出唇部的局部运动特征，

将所述局部运动特征和所述唇读相关特征点的坐标特征相融合获得的融合局部语义特征，并输入至局部语义视觉特征提取模型，以提取包含所述局部语义视觉特征。

优选地，所述局部语义视觉特征提取模型为自适应语义时空图卷积网络模型，

所述自适应语义时空图卷积网络模型包括多层自适应语义时空图卷积网络块，

每一所述自适应语义时空图卷积网络块中包含多个自适应语义时空图卷积网络单元，每一所述自适应语义时空图卷积网络单元的输出通道相同，

每一个所述自适应语义时空图卷积网络单元包括语义图卷积模块、时空图卷积模块和时序卷积模块，

将所述语义图卷积模块的输出和所述时空卷积模块的输出相串联后输入至所述时序卷积模块，所述时序卷积模块的输出特征与所述局部语义融合特征叠加后获得所述局部语义视觉特征，

其中，将所述语义图卷积模块中的归一化邻接矩阵定义为与样本无关的归一化语义邻接矩阵，

将所述时空图卷积模块中的邻接矩阵定义为与所述样本有关的归一化时空邻接矩阵。

优选地，所述归一化时空邻接矩阵的步骤包括：

根据所述局部语义融合特征和第一嵌入空间的嵌入参数，计算出所述局部语义融合特征在所述第一嵌入空间的第一嵌入特征，

根据所述局部语义融合特征和第二嵌入空间的嵌入参数，计算出所述局部语义融合特征在所述第二嵌入空间的第二嵌入特征，

将所述第一嵌入特征和第二嵌入特征相乘之后再归一化后的矩阵作为所述归一化时空邻接矩阵。

优选地，根据所述局部视觉特征和所述全局视觉特征相融合后输出的融合视觉特征进行所述唇读识别的步骤包括：

将所述融合视觉特征输入到双向长短时记忆网络进行时空特征序列学习，以获得所述唇部的时空特征，

将所述时空特征输入至连接时序分类器进行训练并获得识别概率结果，对所述识别概率进行解码处理，以获得所述唇读识别结果。

优选地，采用多层3D卷积神经网络模型将所述唇读相关特征点块序列转换成特征向量来表征所述局部运动特征，

其中，所述多层3D卷积神经网络模型中不包括全局池化层。

优选地，所述的唇读识别方法还包括在所述自适应语义时空图卷积网络模型中加入残差连接，以使得所述自适应语义时空图卷积网络模型更容收敛，

所述自适应语义时空图卷积网络模型中的所有权重参数都能进行学习。

使所述归一化语义邻接矩阵和所述归一化时空邻接矩阵的权重参数都以端到端的方式进行自适应的学习。

在依据本发明提供的唇读识别方法中，引入图卷积来提取表征唇部轮廓、局部微小运动和语义信息的局部语义视觉特征，并将所述局部语义视觉特征和根据唇部序列图像获得的全局视觉特征相融合后的融合视觉特征用于唇读识别，由于融合视觉特征中不仅包含了唇部的全局运动信息还包含了唇部局部运动和细微运动信息以及语义信息，使得依据本发明提供的唇读识别方法具有更高的准确度。

附图说明

图1为依据本发明实施例的唇读方法的流程图；

图2为依据本发明实施例的自适应语义时空图卷积网络模型的结构图；

图3为依据本发明实施例的自适应语义时空图卷积网络块的结构图；

图4为依据本发明实施例的自适应语义时空图卷积网络单元的结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所产生的所有其他实施例，都属于本发明保护的范围。此外需要说明的是，在具体实施方式这一项内容中“所述…”是仅指本发明的中的技术属于或特征。

为了能在现有技术的基础上进一步提高唇读识别的精准度，我们在现有技术的基础上增加了能够表征唇部局部细微运动信息以及唇部轮廓语义信息的局部视觉特征的提取。参考图1所示，其为依据本发明实施例的一种基于自适应语义时空图卷积网络的唇读方法的流程图，所述唇读识别方法主要包括步骤S01至步骤S04，需要申明的是本发明对以下各个步骤的先后顺序并不做特别限定，例如步骤S01和步骤S02可以并行执行。

步骤S01：从所述待识别视频中获取唇部序列图像，并从所述唇部序列图像中提取表征唇部全局运动信息的全局视觉特征。

如图1所示，步骤01在依据本实施例中可进一步包括：

步骤S011：获取待识别视频。

步骤S012: 在所述待识别视频定位人脸，以获得人脸序列图像

步骤S013: 对所述人脸序列图像进行检测，以检测出所述人脸的各个脸部关键点。

采用脸部关键点算法得到人脸序列图像中的每一幅人脸图像的68个脸部关键点，并自动得到图像中脸部关键点的位置。这些脸部关键点既是描述脸部组成部分（如眼角，嘴角等）位置的特征点，也是将这些特征点围绕脸部组成部分和面部轮廓连接起来的内插点。

步骤S014：根据检测到的所述脸部关键点对人脸中的唇部区域进行定位，并对所述人脸序列图像进行对齐和裁剪动作，以获取唇部序列图像。

步骤S014的目的就是从每一幅人脸图像中剪切出包括唇部区域的图像，这些图像构成了唇部序列图像，以便后续提取唇部视觉特征。

步骤S015：采用全局视觉特征提取模型从所述唇部序列图像中提取表征唇部全局运动信息的全局视觉特征。

所述全局视觉特征提取模型可以为卷积神经网络CNN模型，具体的，用于提取所述全局视觉特征的CNN模型主要由多层CNN构成，例如由一层3D CNN和多层2D CNN构成，且在CNN模型中用全局池化层来减小特征图的大小以增加感受野，并输出低维度的视觉特征。由于全局池化层的使用，损失了唇部一些局部微小运动的信息，因此步骤S015中提取的视觉特征为从包含了全部唇部区域的唇部序列图像中提取的表征唇部运动全局信息的全局视觉特征。

步骤S02：从待识别视频中确定与唇读相关的多个唇读相关特征点，并根据所述唇读相关特征点，提取表征唇部局运动信息和唇部轮廓语义信息的局部视觉特征。

为了使得最终提取的视觉特征能根据全面化，在本步骤中，在唇语发生时，还对一些在步骤1中由于使用全局池化层而损失掉的信息如唇部局部运动信息以及步骤S01中无法提取的信息如唇部轮廓语义信息进行提取，以获得局部视觉特征。在本发明实施例中，步骤S02的具体实现方式可以与步骤S01共用步骤S01中的步骤S011至步骤S013，即所述步骤S02包括所述步骤S011、步骤S012和步骤S013，且在步骤S013之后，还进一步包括：

步骤S024: 选择位于脸部下半部分的多个所述脸部关键点作为所述唇读相关特征点（LRLPs），以确定各个与唇读相关的特征点。

在68个脸部关键点选择K个脸部关键点作为唇读相关特征点，这K个脸部关键点均位于包含唇部区域的脸部下半部分。由于68个脸部关键点中，有20个脸部关键点位于唇部区域，则选择的K个脸部关键点最好大于20个，且最好将位于唇部区域的20个脸部关键点全部包含进来。在本实施例中，我们选择 K=38，这是因为当人在说话时，脸部的下半部分也会跟随着在运动，因此在脸部下半部分选择38个脸部关键点作为唇读相关特征点。被选择的这些脸部关键点由于位于唇部区域或位于与所述唇部区域的附近区域如嘴角，牙齿或下巴等区域，不仅包含着丰富的语义信息还能体现唇语发生时唇部局部的一些细微动态变化。

步骤S025:从所述待识别视频中裁剪出以所述唇读相关特征点中心的块视频，以提取出唇读相关特征点块序列(LRLPs块序列)。

所述块视频可以为16*16像素的块，所述块视频可以描述唇读相关特征点。对于每一个输入的待识别视频，我们均提取K个LRLPs块序列做预处理。

步骤S026:从所述唇读相关特征点块序列中提取出唇部的局部运动特征。

步骤S025中的每一个块就类似与步骤S015中的一个唇部区域图像。因此我们从所述LRLPs块序列提取的特征则为表征唇语时唇部局部运动信息的局部运动特征。在步骤S015中是针对整体的唇部提取全局特征，而在步骤S025中是对唇部区域的各个局部区域（每一个唇读相关特征点确定一个所述局部区域）进行特征提取，因此所提取的特征更能体现出唇部在唇语发生时的一些细微变化信息。

具体的，可以使用多层3D CNN从LRPLs块序列中提取时空特征向量来作为所述局部运动特征。例如，可以通过轻量级的3D CNN对LRPLs块序列进行处理，通过这种方式，所述待识别视频中的每一个T帧（灰度图像）的LRLPs块序列（大小为T×16×16），被转换成D×T（如D=64）维的特征向量。因此,，K个LRPLs块序列经过多层3D CNN的处理，会得到K个D维的特征向量作为所述局部运动特征，其最终表示为K×D×T的特征向量，这个特征向量表征所述局部特征。为了最大限度的保留唇部的局部运动相关信息，在提取所述局部运动特征的过程中均未使用全局池化层，即用于提取所述局部运动特征的模型中不包括全局池化层。

步骤S027:提取唇读相关特征点的坐标特征。

除了步骤S015中所涉及的全局信息以及步骤S025中所涉及的局部运动信息与唇读密切相关外，唇部轮廓所包含的语义信息也对唇读是否重要。而在LRLPs中个点之间存在着某些特定的关系（固定关系）如唇部轮廓点的对称关系等，这些关系在人类中普遍存在，且这些特定关系不会随着唇语的不同而发生变化，这些特定关系与语义信息相关，此外，LRLPs中的个点之间的关系还存在随唇语的不同而发生变化的关系。因此，LRLPs的坐标本身也可以作为唇读识别的一个特征。

步骤S028: 将所述局部运动特征和所述唇读相关特征点的坐标特征相融合，以获得局部语义融合特征。

步骤S025中提取的局部特征体现了唇部的局部运动信息，而步骤S027提取的坐标特征体现了唇部轮廓的语义信息，因此，在步骤S028中，我们将所述局部特征和所述坐标特征进行融合，以获得局部语义融合特征。具体的，可以采用串联的方式融合所述局部特征和所述坐标特征。

步骤S029: 采用局部语义视觉特征提取模型将所述局部语义融合特征转换成所述局部语义视觉特征。

所述局部语义视觉特征提取模型用于将所述局部特征和坐标特征提取成视觉特征。具体的，本实施例中，所述局部视觉特征提取模型为自适应语义时空图卷积网络(ASST-GCN,Semantic-Spatial-Temporal Graph Convolution Network)模型。所述

图2为依据本发明实施例的一种ASST-GCN模型的结构图，ASST-GCN模型由多层自适应语义时空图卷积网络块（ASST-GCN block）构成，如ASST-GCN block1、ASST-GCNblock2、ASST-GCN block3和ASST-GCN block4，第一层ASST-GCN block的输入为步骤S028中获得的局部语义融合特征，输出作为下一层ASST-GCN block的输入，中间层的每一层ASST-GCN block的输入均为上一层ASST-GCN block的输出，输出作为下一层ASST-GCNblock的输入，最后一层ASST-GCN block输出所述局部语义视觉特征。多层ASST-GCN block一层层从局部语义融合特征图（即局部语义融合特征的表现形式）中进一步提取局部语义视觉特征。

进一步的，如图3所示，其为图2中的ASST-GCN block的结构图。每一个ASST-GCNblock可包含多个相互串联的自适应语义时空图卷积网络单元ASST-GCN unit，如ASST-GCNunit1、ASST-GCN unit2和ASST-GCN unit3，前一个ASST-GCN unit的输出作为后一个ASST-GCN unit的输入。

进一步的，每一个ASST-GCN unit包括语义图卷积模块、时空图卷积模块和时序卷积模块。参考图4所示，其为所述自适应语义时空图卷积网络单元的一种具体结构图。在所述ASST-GCN unit中，所述语义图卷积主模块主要用于提取表征唇部轮廓语义信息的语义特征，而所述时空图卷积网络主要用于提取表征唇部局部运动的局部特征，语义图卷积模块的输出和所述时空卷积模块的输出相串联后输入至所述时序卷积模块，所述时序卷积模块的输出特征与所述局部语义融合特征f_in叠加后获得所述局部视觉特征f_out。

根据步骤S027中的具体描述，我们可以知道而在LRLPs中个点之间存在着某些特定的关系（固定关系）如唇部轮廓点的对称关系等，这些关系在人类中普遍存在，且这些特定关系不会随着唇语的不同而发生变化，这些特定关系与语义信息相关，此外，LRLPs中的个点之间的关系还存在随唇语的不同而发生变化的关系。因此，LRLPs中既包括与样本（唇读内容）无关的语义信息也包含着与样本相关的时空信息，我们需要对离散的LRLPs进行建模，以从中提取出相关的视觉特征。而传统的CNN模型只能应用于图像类似规则的网格数据，而图神经网络可以选择性聚合图节点信息。因此，依据本发明实施例采用自适应语义时空图卷积网络模型来对LRLPs建模，以从中提取相应的视觉特征。本发明中，所述的样本是指单个的训练视频，即本发明所述的待识别视频。不同的输入待视频中的语义信息是共享的，而不同的输入待识别视频中的时空信息是不同的，则所述时空信息与所述待识别视频相关。因此，我们通过定义与样本无关的语义图和与样本有关的时空图来构建自适应语义时空图卷积网络模型，以通过该模型来获得所述待识别视频的局部语义视觉特征。

具体的，自适应语义时空图卷积网络模型的构建过程中，我们需要定义好各个图卷积模块中的归一化邻接矩阵。例如，我们将所述语义图卷积模块中的归一化邻接矩阵定义为与输入至所述语义图卷积模块中的所述局部语义融合特征f_in（f_in为特征图的表现形式，具体可以用特征向量表示）无关的语义邻接矩阵A_q ^se（可以表示为语义图）即归一化语义邻接矩阵A_q ^se与样本无关，将所述时空图卷积模块中的归一化邻接矩阵定义为与输入至所述语义图卷积模块中的所述局部语义融合特征f_in有关的归一化时空邻接矩阵A_q ^st（可以表示为时空图），即时空邻接矩阵A_q ^st与样本有关。即语义图卷积模块将局部语义融合特征图和所述语义图进行图卷积操作，以提取语义特征，而时空图卷积模块将局部语义融合特征图和所述时空图进行图卷积操作，以提取局部运动特征。

图卷积为基于图节点空间连接关系而构建的图上。接下来我们将通过公式计算进一步定义图卷积网络GCN。我们假设：𝐺=(𝑉,𝐸)代表图，𝑉是图节点的集合， 𝐸是图节点之间的边。图卷积的输入端的输入特征图（即图4中的局部语义融合特征f_in）𝑓_𝑖𝑛∈𝑅^{𝐷𝑖𝑛×𝐾}（𝐷𝑖𝑛为每个图节点的输入特征维度，𝐾是图节点的个数，也即本发明实施例中唇读相关特征点LRLPs的个数，如𝐾=38），则经过一次图卷积操作后，图卷积模块的输出可以被表示为：

𝑓_𝑜=Λ^-1/2(𝐴+𝐼)Λ^-1/2𝑓_𝑖𝑛𝑊 (1)

𝑓_𝑜∈𝑅^{𝐷𝑜𝑢𝑡×𝐾}为输出特征图，𝐴∈𝑅^𝐾×𝐾是邻接矩阵，𝐼表示单位矩阵，𝑊∈𝑅^{𝐷𝑖𝑛×𝐷𝑜𝑢𝑡}为特征转换矩阵。Λ_𝑖𝑖=∑𝑗(𝐴_𝑖𝑗+𝐼_𝑖𝑗)。设归一化邻接矩阵𝐴̅=Λ^-1/2(𝐴+𝐼)Λ^-1/2，则公式（1）可以被重写为：

𝑓_𝑜=𝐴̅𝑓_𝑖𝑛𝑊 (2)

Dout为输出特征图的维度，从公式（2）中可以看出，图卷积的计算可以分为两步：通过权重矩阵𝑊转换节点特征，通过归一化邻接矩阵𝐴̅对节点特征进行聚合。

由上可见，对于本发明实施例而言，在语义卷积模块中，通过权重矩阵W_q ^se转换局部语义融合特征f_in，并通过归一化语义邻接矩阵A_q ^se，对局部语义融合特征f_in进行聚合。而在时空卷积模块中，通过权重矩阵W_q ^st转换局部语义融合特征f_in，并通过归一化时空邻接矩阵A_q ^st，对局部语义融合特征f_in进行聚合。通过语义卷积模块输出的特征图f_𝑜1可以表示为公式（3）

f_𝑜1=A_q ^sef_𝑖𝑛W_q ^se （3）

通过语义卷积模块输出的特征图f_𝑜2可以表示为公式（4）

f_𝑜2=A_q ^stf_𝑖𝑛W_q ^st （4）

此外，为了进一步加强自适应语义时空图卷积网络的特征表示能力，将每一单元中的语义卷积模块和时空卷积模块分别分为多个组，例如图2中的组1、组2和组3，每一个组的构成均包括语义图卷积模块、时空图卷积模块和时序卷积模块，每组使用不同权重的图卷积网络，最后将每组的结果相加以获得语义图卷积模块和时空图卷积模块的输出特征f_o。

我们可以通过公式推导具体来了解该分组部分的内容，我们将每一单元中的语义卷积模块和时空卷积模块分别分为Q个组，并根据每组定义的邻居节点创建Q个子归一化邻接矩阵A𝑞。同时，在每个组里使用不同权重的GCN，最后将每个组的结果相加：

𝑓𝑜=∑^𝑄 _𝑞=1A_q𝑓_𝑖𝑛w_𝑞 (5)

此外，本发明相对于现有技的图卷积模型而言，我们在模型中使用语义图卷积模块和时空图卷积模块这两个平行的GCN单元模块分别处语义信息的提取和时空信息的提取，因此，结合公式（3），依据本发明实施例中，经过GCN后的输出可以被写成：

𝑓_𝑜=𝑐𝑎𝑡(∑^Q𝑞=1𝐴_q ^se𝑓_𝑖𝑛W_q ^se, ∑^Q𝑞=1𝐴_q ^st𝑓_𝑖𝑛W_q ^st) (6)

所定义的语义邻接矩阵A_q ^st与局部语义融合特征f_in无关，即与样本(单个所述待识别视频)无关，且在模型中没有对其参数进行任何限制，这意味着语义邻接矩阵A_q ^st完全是从模型的训练数据中自适应学习得到的，因此依据本发明实施例的语义时空图卷积模型具有自适应性，为自适应语义时空图卷积模型。为了使得语义邻接矩阵A_q ^st更加灵活，表示力更强，我们可以在不同层的自适应语义时空图卷积网络块中构造不同的语义邻接矩阵。此外，使所述语义图和时空图中的权重参数都以端到端的方式进行自适应的学习。

如图4所示，获得归一化时空邻接矩阵A_q ^st的步骤包括：

步骤a: 根据所述局部语义融合特征f_in和第一嵌入空间Φ空间的嵌入参数W_Φ，计算出所述局部语义融合特征f_in在所述第一嵌入空间的第一嵌入特征，

步骤b:根据获取所述局部语义融合特征和第二嵌入空间θ空间的嵌入参数W_θ，计算出所述局部语义融合特征f_in在所述第二嵌入空间的第二嵌入特征，

步骤c:将所述第一嵌入特征和第二嵌入特征相乘之后再归一化后的矩阵作为所述时归一化空邻接矩阵A_q ^st。

进一步的，所定义归一化空邻接矩阵A_q ^st的计算公式如下：

A _q ^st=𝑠𝑜𝑓𝑡𝑚𝑎𝑥((𝑊𝜃𝑓𝑖𝑛)𝑇(𝑊_Φ𝑓𝑖𝑛)) (7)

给定输入特征图𝑓_𝑖𝑛∈𝑅^{𝐷𝑖𝑛×𝑇×𝐾}，首先计算嵌入特征图𝑓𝜃,𝑓𝜙∈𝑅^{𝐷𝑒×𝑇×𝐾}。这两个嵌入特征图被重塑成两个𝐷𝑒×𝑇×𝐾的矩阵并相乘，并经过softmax归一化之后得到归一化邻接性矩阵A _q ^st。

所述时序卷积可以提取所述串联特征的时序信息。此外，我们还在所述自适应语义时空图卷积网络模型中加入残差连接，以使得所述自适应语义时空图卷积网络模型更容收敛。进一步的，还可以使所述自适应语义时空图卷积网络模型中的所有权重参数都能进行学习。

步骤S03：将所述全局视觉特征和所述局部语义视觉特征进行融合，以获得融合视觉特征，例如采用串联的方式将二者进行融合。

步骤S04：根据所述融合视觉特征获得所述唇读识别的内容。

在本实施例中，步骤S04可以进一步包括：

步骤S041：将所述融合视觉特征输入到双向长短时记忆网络BiLSTM进行时空特征序列学习，以获得所述唇部的时空特征。

步骤S042：将所述时空特征输入至训练识别输出模型，以训练步骤S041中学习的特征，并将所述训练后的特征进行识别输出。具体的学习好的时空特征可以被连接时序分类器进行训练并获得识别概率结果，对所述识别概率进行解码处理，以获得所述唇读识别结果。

在单词级唇读识别任务中，获取所述时空特征的模型包括两层BiLSTM、一层全连接层FC和一层归一化层Softmax组成，整个模型可以以端到端的方式用交叉熵损失进行训练。而对于句子级的唇读任务，选择有5层BiLSTM和一层全连接层构成的模型来学习获得所述时空特征，并且采用CTC损失对模型进行训练。

依据本发明提供的ASST-GCN模型，我们在公开的数据集LRW、LRS3数据集进行了预训练，对所有数据集，我们使用dlib检测子得到待识别视频每一帧的 68 个脸部关键点。步骤S01中，我们先对每帧输入图像基于眼睛中间的关键点做仿射变换以进行脸部对齐，然后裁剪以唇部为中心的 88*88像素大小的区域。在步骤S02，我们选择位于脸部下半部分K=38个LRLPs关键点。每个关键点（即LRLP）周围的16*16 像素大小的块被提取出来代表该关键点。除此之外，我们选择鼻尖（68个关键点中的一个）作为将LRLPs对齐的基准点。所有视频都被处理为灰度视频，并使用所有视频的整体均值和方差对所有帧进行标准化。

对于单词级唇读任务，我们使用分类准确性作为评估准则。在句子级唇读任务中，模型输出是每个字符的概率，故选择字符错误率（Character Error Rate，CER）作为评价指标，它衡量了正确标注和网络输出字符串的编辑距离。CER可以由公式𝐶𝐸𝑅=(𝑆+𝐷+𝐼)/𝑁进行计算，𝑆，𝐷和𝐼分别代表了输出字符串与正确标注比较，替代、删除和插入字符的数量，𝑁是正确标注的字符数量。

对于句子级唇读任务，网络输出39个字符概率，即26个字母，10个数字，标点符号“’”，空格和CTC空格标志。

在本发明中，我们将用于提取视觉特征的模型，称之为前端网络模型，而用于根据视觉特征识别唇读内容的称之为后端网络模型，后端网络模型主要用于执行所述步骤S04，以将提取的视觉特征融合为自然语言。在所述前端网络模型中，我们将用于提取所述全局视觉特征的称之为全局流网络模型，而用于提取局部语义视觉特征的，我们称之为局部流网络模型。我们对ASST-GCN在数据集上进行了训练，具体的训练分三阶段进行：首先，用于全局流网络模型和局部流网络模型分别在LRW 数据集上进行训练；然后固定预训练的前端网络模型的参数不变，在LRS3的pretrain 数据上训练后端网络模型（如包括BiLSTM和CTC）；最后，整个网络在LRS3的trainval数据集上进行微调。训练全局流网络时，可以采用如水平翻转，随机删帧和随机偏移来获得数据增强。在训练阶段，使用默认参数的Adam作为优化器。在LRW上训练时，初始学习率为0.001。在LRS3的pretrain上训练时，初始学习率为0.0005。最终训练结束时的学习率为0.00001，以对数形式衰减。当在 LRS3 的 pretrain部分上训练时，我们从连续的2个单词开始训练，然后随着训练的进行逐渐增加单词数量。因为每个单词的起止时间都有标注，我们可以很轻松地选出任意数量的连续单词，并得到对应的视频帧。

为了证明本发明采用全局流网络和局部流网络相融合来获得视觉效果提取的有效性，我们在 LRW和LRS3数据集上进行消融实验。我们将全局流网络视为基准，并评估单独只采用全局流网络模型唇读识别方法单独只采用局部流网络的唇读识别方法分别在LRW和LRS3数据集上的性能，评估结果为：采用单独的全局流网络模型的唇读识别准确率为83%，而采用单独的局部流网络模型的唇读识别准确率为80.81%，而依据本发明方法中这种采用全局流网络模型和局部流网络模型结合获取视觉特征的唇读识别方法中，其准确率达84.51%。由此可见，依据本发明所提供的唇读识别方法具有较高的精准度。

由上可见，在依据本发明提供的唇读识别方法中，引入图卷积来提取表征唇部轮廓、局部微小运动和语义信息的局部语义视觉特征，并将所述局部语义视觉特征和根据唇部序列图像获得的全局视觉特征相融合后的融合视觉特征用于唇读识别，由于融合视觉特征中不仅包含了唇部的全局运动信息还包含了唇部局部运动和细微运动信息以及语义信息，使得依据本发明提供的唇读识别方法具有更高的准确度。

依照本发明的实施例如上文所述，这些实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施例。根据以上描述，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本发明的原理和实际应用，从而使所属技术领域技术人员能很好地利用本发明以及在本发明基础上的修改使用。本发明仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种基于自适应语义时空图卷积网络的唇读方法，其特征在于，包括：

在所述待识别视频中定位人脸，以获得人脸序列图像，

选择位于所述人脸下半部分的多个所述脸部关键点作为所述唇读相关特征点，

将所述局部运动特征和所述唇读相关特征点的坐标特征相融合获得的融合局部语义特征，并输入至局部语义视觉特征提取模型，以提取包含所述局部语义视觉特征，

根据所述融合视觉特征获得所述唇读识别的内容。

2.根据权利要求1所述的唇读方法，其特征在于，从待识别视频中获取唇部序列图像包括：通过所述人脸关键点对唇部区域进行定位，以从所述人脸序列图像中裁剪出所述唇部序列图像。

3.根据权利要求1所述的唇读方法，其特征在于，所述局部语义视觉特征提取模型为自适应语义时空图卷积网络模型，

4.根据权利要求3所述的唇读方法，其特征在于，所述归一化时空邻接矩阵的步骤包括：

5.根据权利要求1所述的唇读方法，其特征在于，根据所述局部视觉特征和所述全局视觉特征相融合后输出的融合视觉特征进行所述唇读识别的步骤包括：

6.根据权利要求1所述的唇读方法，其特征在于，采用多层3D卷积神经网络模型将所述唇读相关特征点块序列转换成特征向量来表征所述局部运动特征，

其中，所述多层3D卷积神经网络模型中不包括全局池化层。

7.根据权利要求1所述的唇读方法，其特征在于，还包括在所述自适应语义时空图卷积网络模型中加入残差连接，以使得所述自适应语义时空图卷积网络模型更容收敛，

8.根据权利要求3所述的唇读方法，其特征在于，使所述归一化语义邻接矩阵和所述归一化时空邻接矩阵的权重参数都以端到端的方式进行自适应的学习。