CN115272660A

CN115272660A - 一种基于双流神经网络的唇语识别方法及系统

Info

Publication number: CN115272660A
Application number: CN202210910061.6A
Authority: CN
Inventors: 张雪毅; 张成伟; 隋金坪; 盛常冲; 邓婉霞; 刘丽
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2022-07-29
Filing date: 2022-07-29
Publication date: 2022-11-01

Abstract

本发明提供一种基于双流神经网络的唇语识别方法及系统，方法包括：获取唇部运动的视频片段，并基于所述视频片段提取局部帧序列和特征点热力图；应用基于3D卷积‑残差网络的时空视角前端网络对所述局部帧序列进行处理并获取时空特征；应用基于2D卷积‑残差网络的空间视角前端网络结合适应性空间语义处理模型对所述局部帧序列和所述特征点热力图进行处理，获取空间特征；应用多尺度时间卷积网络分别对所述时空特征和所述空间特征进行处理，分别获取时空分支预测结果和空间分支预测结果；对所述时空分支预测结果和所述空间分支预测结果进行融合得到最终预测结果。本发明能够更全面且细致的捕获嘴唇的运动，提高唇语识别的精度。

Description

一种基于双流神经网络的唇语识别方法及系统

技术领域

本发明属于机器视觉技术领域，具体涉及到一种基于双流神经网络的唇语识别方法及系统。

背景技术

唇语识别也叫视觉语言识别，指的是编码讲话时嘴唇的运动并解码出其代表的语义信息，而不依赖于任何音频。这项工作有着十分广泛的应用场景，比如嘈杂环境下的视觉监听，辅助语言功能障碍人士重新讲话。它还能提升语音识别性能，已经有实验证实了嘴唇运动视频与语音双模态融合会得到比任何一个单模态更高的识别准确率。唇语识别模型能够通过学习自然场景下的唇语运动表征，进而识别生成式嘴唇动作的高阶语义不规范，在说话人脸伪造检测方面取得最先进的性能。

唇语识别已经有二十多年的研究历史，该任务包含两个主要的环节，分别关注于空域和时域的特征表示。早期学者主要通过改进局部二值模式算法(LBP)或者离散余弦变换从唇部感兴趣区域(region of interest，ROI)提取紧致空域特征。再通过隐马尔科夫模型对特征进行时序建模。近年来深度学习很大程度推动了唇语识别领域的发展，但绝大部分都是采用前端浅层3D卷积+深层2D卷积的组合。因为这种组合方式已经在视频时空域的信息获取方面表现出较高的性能，所以研究成果主要集中在后端时间序列网络的探索与改良。

现有的方法存在两个较为关键的问题：其一，前端网络对唇动视频进行特征建模，对整个模型的影响是直接并且显著的，应该被给予更多的关注。唇读模型中3D+2D卷积的组合方式可以高效的提取时空域的特征表示，并且序列后端在时域的特征表达方面进行了加强，但整个架构中对空域的特征提取是存在缺陷的，没有让其得到最好的表达。其二，唇语识别的关键是深度神经网络对嘴唇动力学的学习，而嘴唇拓扑结构关系是嘴唇动力学的显性表达。很少的研究学者关注这一部分，现有的方法中都不能显性并且高效的提取嘴唇的拓扑结构关系。因此需要提取一种新的解决方案，在增强空域特征的同时高效的充分融合嘴唇动力学表征，来获得更全面的特征表示。

发明内容

本发明提供一种基于双流神经网络的唇语识别方法及系统，以解决现有的特征表示不全的问题。

基于上述目的，本发明实施例提供了一种基于双流神经网络的唇语识别方法，包括：获取唇部运动的视频片段，并基于所述视频片段提取局部帧序列和特征点热力图；应用基于3D卷积-残差网络的时空视角前端网络对所述局部帧序列进行处理并获取时空特征；应用基于2D卷积-残差网络的空间视角前端网络结合适应性空间语义处理模型对所述局部帧序列和所述特征点热力图进行处理，获取空间特征；应用多尺度时间卷积网络分别对所述时空特征和所述空间特征进行处理，分别获取时空分支预测结果和空间分支预测结果；对所述时空分支预测结果和所述空间分支预测结果进行融合得到最终预测结果。

可选的，所述应用基于2D卷积-残差网络的空间视角前端网络结合适应性空间语义处理模型对所述局部帧序列和所述特征点热力图进行处理，获取空间特征，包括：应用基于2D卷积-残差网络的所述空间视角前端网络对所述局部帧序列进行处理获取空间特征图；应用所述适应性空间语义处理模型对所述空间特征图和所述特征点热力图进行拼接处理，得到第一空间结点特征；分别对第一空间结点特征和所述空间特征图进行全局池化后进行连接，得到所述空间特征。

可选的，所述应用所述适应性空间语义处理模型对所述空间特征图和所述特征点热力图进行拼接处理，得到第一空间结点特征，包括：根据所述空间特征图和所述特征点热力图获取结点特征，将所述结点特征与所述特征点热力图的转秩进行拼接，得到结点图；将所述结点图输入所述适应性空间语义处理模型进行处理，得到所述第一空间结点特征。

可选的，所述将所述结点图输入所述适应性空间语义处理模型进行处理，得到所述第一空间结点特征，包括：根据所述结节图中结点之间的关系更新所述结点图中边的权重，并结合当前邻接矩阵形成新的邻接矩阵；将所述新的邻接矩阵与所述结点图中结点特征相乘，并与所述结点图进行卷积计算得到所述第一空间结点特征。

可选的，所述根据所述空间特征图和所述特征点热力图获取结点特征，包括：计算所述空间特征图与所述特征点热力图进行矩阵相乘；对所述空间特征图与所述特征点热力图的矩阵相乘结果进行全局平均池化，得到结点特征。

可选的，所述时空分支预测结果和所述空间分支预测结果表示预测的所述视频片段所属各唇语分类的概率，所述对所述时空分支预测结果和所述空间分支预测结果进行融合得到最终预测结果，包括：将所述时空分支预测结果和所述空间分支预测结果中，属于同一唇语分类的概率相加，得到所述唇语分类的最终概率；将得到的各唇语分类的最终概率组成最终预测结果。

可选的，所述基于所述视频片段提取局部帧序列和特征点热力图，包括：基于所述视频片段应用预训练的热力图提取器提取局部热力图，将所述局部热力图与全局热力图拼接得到所述特征点热力图，所述全局热力图为尺寸与所述局部热力图相同，且数值全为1的二维矩阵；应用图裁切方式对所述视频片段中各帧进行裁切，获取各帧的唇部感兴趣区域，组成局部帧序列。

基于同一发明构思，本发明实施例还提出了一种基于双流神经网络的唇语识别系统，包括：信息获取模块，用于获取唇部运动的视频片段，并基于所述视频片段提取局部帧序列和特征点热力图；时空特征获取模块，用于应用基于3D卷积-残差网络的时空视角前端网络对所述局部帧序列进行处理并获取时空特征；空间特征获取模块，用于应用基于2D卷积-残差网络的空间视角前端网络结合适应性空间语义处理模型对所述局部帧序列和所述特征点热力图进行处理，获取空间特征；分支预测模块，用于应用多尺度时间卷积网络分别对所述时空特征和所述空间特征进行处理，分别获取时空分支预测结果和空间分支预测结果；融合预测模块，用于对所述时空分支预测结果和所述空间分支预测结果进行融合得到最终预测结果。

基于同一发明构思，本发明实施例还提出了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现前述的方法。

基于同一发明构思，本发明实施例还提出了一种计算机存储介质，存储介质中存储有至少一可执行指令，所述可执行指令使处理器执行前述的方法。

本发明的有益效果是：从上面所述可以看出，本发明实施例提供的一种基于双流神经网络的唇语识别方法及系统，方法包括：获取唇部运动的视频片段，并基于所述视频片段提取局部帧序列和特征点热力图；应用基于3D卷积-残差网络的时空视角前端网络对所述局部帧序列进行处理并获取时空特征；应用基于2D卷积-残差网络的空间视角前端网络结合适应性空间语义处理模型对所述局部帧序列和所述特征点热力图进行处理，获取空间特征；应用多尺度时间卷积网络分别对所述时空特征和所述空间特征进行处理，分别获取时空分支预测结果和空间分支预测结果；对所述时空分支预测结果和所述空间分支预测结果进行融合得到最终预测结果，能够更全面且细致的捕获嘴唇的运动，提高唇语识别的精度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中的基于双流神经网络的唇语识别方法的流程示意图；

图2为本发明实施例中的基于双流神经网络的唇语识别方法的示意图；

图3为本发明实施例中的适应性空间语义处理模型的示意图；

图4为为本发明实施例中的基于双流神经网络的唇语识别系统的结构示意图；

图5为本发明实施例中电子设备示意图。

具体实施方式

为使本公开的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本公开进一步详细说明。

需要说明的是，除非另外定义，本发明实施例使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本发明实施例中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同，而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电性的连接，不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系，当被描述对象的绝对位置改变后，则该相对位置关系也可能相应地改变。

本发明实施例提供了一种基于双流神经网络的唇语识别方法。本发明实施例的基于双流神经网络的唇语识别方法应用于服务器。如附图1所示，基于双流神经网络的唇语识别方法包括：

步骤S11：获取唇部运动的视频片段，并基于所述视频片段提取局部帧序列和特征点热力图。

在本发明实施例中，获取需要进行唇语识别的唇部运动的视频片段。该视频片段可以应用视频采集设备采集获取，也可以应用其他方法获取，在此并不作限制。图2为本发明实施例基于双流神经网络的唇语识别方法的示意图。结合图2，在步骤S11中，基于所述视频片段应用预训练的热力图提取器提取局部热力图，将所述局部热力图与全局热力图拼接得到所述特征点热力图，所述全局热力图为尺寸与所述局部热力图相同，且数值全为1的二维矩阵；应用图裁切方式对所述视频片段中各帧进行裁切，获取各帧的唇部感兴趣区域，组成局部帧序列。其中，局部热力图中所有数值之和为1。唇部感兴趣区域的大小可以根据需要进行设置，如96x96大小等。特征点热力图中优选地包括20个特征点。在步骤S11之前，都需要对热力图提取器以及图裁切方式对应的图裁切模型分别进行训练，得到训练后的对应的模型。

步骤S12：应用基于3D卷积-残差网络的时空视角前端网络对所述局部帧序列进行处理并获取时空特征。

时空视角前端网络的输入为对视频片段进行唇部感兴趣区域(ROI)裁切后的局部帧序列，x∈R^T×1×W×H，其中，T表示输入序列的长度，W和H分别表示序列的宽和高，序列的每一帧都是灰度图，因此通道维度为1。结合图2，应用包括3D卷积-残差网络的时空视角前端网络对局部帧序列进行处理得到时空特征图，进一步对时空特征图进行全局池化，得到时空特征。即对于时序分支，每一时刻输入为相邻的5帧图像。所以时刻i的输入是

经过一层卷积核大小为5x7x7的3D卷积和残差网络(ResNet18)对时刻i的特征图进行进一步特征编码，得到时空特征f_i ^t∈R⁵¹²。其中，残差网络优选为ResNet18。

步骤S13：应用基于2D卷积-残差网络的空间视角前端网络结合适应性空间语义处理模型对所述局部帧序列和所述特征点热力图进行处理，获取空间特征。

在本发明实施例中，结合图2，首先应用基于2D卷积-残差网络的所述空间视角前端网络对所述局部帧序列进行处理获取空间特征图。此处的残差网络也优选为ResNet18。然后应用所述适应性空间语义处理模型(ASSM)对所述空间特征图和所述特征点热力图进行拼接处理，得到第一空间结点特征。适应性空间语义处理模型的输入为特征点热力图和空间视角前端网络输出的空间特征图，具体根据所述空间特征图和所述特征点热力图获取结点特征，将所述结点特征与所述特征点热力图的转秩进行拼接，得到结点图；将所述结点图输入所述适应性空间语义处理模型进行处理，得到所述第一空间结点特征。其中，根据所述空间特征图和所述特征点热力图获取结点特征时，具体计算所述空间特征图m^s与所述特征点热力图

进行矩阵相乘；对所述空间特征图与所述特征点热力图的矩阵相乘结果进行全局平均池化，得到结点特征

在本发明实施例中，适应性空间语义处理模型(ASSM)的目的是唇部特征点间具有很强的拓扑和位置关系，而传统卷积神经网络很难对提取有效的拓扑关系。在适应性空间语义处理模型(ASSM)中，局部特征和全局特征都会进行相互的特征学习，都将作为结点进行图卷积。考虑到基于热力图的特征点表示比基于坐标的特征点表示包含更多信息，具有更高的准确度和鲁棒性，将使用热力图从特征图来选取结点特征。

本发明实施例首先移除空间流ResNet18编码器最后的全局平均池化(GAP)层来得到单帧的空间特征图m^s∈R^{512×W/8×H/8}，并从视频片段预处理得到的特征点热力图中根据输入随机裁切位置选取与m^s大小相同的子集，其中m^h∈R^K×W/8×H/8，K为特征点数量，本发明实施例中只使用唇部特征点，优选为20。全局结点的热力图的值全为1，因为特征选取范围为全局。适应性空间语义处理模型(ASSM)的输入的结点图中的结点Node满足以下关系式：

其中，GAP表示全局平均池化，T表示转秩，即二维向量转一维向量，

表示位乘，Cat表示拼接，K＝N+1，共有20个局部热力图和一个全局热力图，N＝20。

应用适应性空间语义处理模型(ASSM)对输入的结点图进行处理时，参见图3，其中，

为结点图中根据相邻结点的差值得到的权重形成的权重矩阵，A₀为当前邻接矩阵，A_i为新的邻接矩阵。根据所述结节图中结点之间的关系更新所述结点图中边的权重，并结合当前邻接矩阵A₀形成新的邻接矩阵A_i；将所述新的邻接矩阵A_i与所述结点图中结点特征相乘，并与所述结点图进行卷积计算得到所述第一空间结点特征。即先通过全局结点和局部结点之间的关系更新图的边的权重，从而适应性的去除图中的噪声。之后将新的邻接矩阵A_i和结点特征Node相乘来进行一个简单的图卷积。

最后分别对第一空间结点特征和所述空间特征图进行全局池化后进行连接，得到所述空间特征。

本发明实施例在图卷积内部和外部添加了残差连接来稳定梯度传播。内部和外部的残差连接分别满足以下关系式：

f^s＝GAP(Node_R)+GAP(m^s)

其中，Node_i表示第i层的适应性空间语义处理模型(ASSM)的输出或第i+1层的输入，R表示ASSM堆叠层数，优选为2。线性层和线性层表示确定图卷积的卷积核大小，本发明实施例可以根据需要进行设置。

如此在本发明实施例中，对于空间分支，每一时刻的输入为单帧图像，

经过一层卷积核大小为7x7的2D卷积和ResNet18对特征图进行进一步编码。同时，将该时刻的预处理好的特征点热力图和空间特征图输入ASSM中得到时刻i的融入空间拓扑结构的空间特征f_i ^s∈R⁵¹²。

至此，经过前端时空和空间分离特征提取模型得到空间特征{f_i ^t}和时间特征{f_i ^s}，其中i在序列长度范围内。2D卷积-残差网络的时空视角前端网络和2D卷积-残差网络的空间视角前端网络+适应性空间语义处理模型ASSM构成双流神经网络，用于提取得到空间特征{f_i ^t}和时间特征{f_i ^s}。

步骤S14：应用多尺度时间卷积网络分别对所述时空特征和所述空间特征进行处理，分别获取时空分支预测结果和空间分支预测结果。

在本发明实施例中，将前端得到的时空特征和空间特征将分别输入给包含两个多尺度时间卷积网络(Multi-Scale Temporal Convolutional Network，MS-TCN)的后端模型分别进行全局特征建模，分别得到两个多尺度时间卷积网络模型参数。在步骤S14中，将时空特征输入多尺度时间卷积网络进行处理，得到与时空特征对应的时空分支预测结果，同时将空间特征输入另一个多尺度时间卷积网络进行处理，得到与空间特征对应的空间分支预测结果。时空分支预测结果和空间分支预测结果表示预测的所述视频片段所属各唇语分类的概率。

在本发明实施例中，可以基于得到的时空分支预测结果和空间分支预测结果分别计算损失，进而根据得到的损失分别对两个多尺度时间卷积网络进行模型参数更新，以提高两个多尺度时间卷积网络的预测精度。

步骤S15：对所述时空分支预测结果和所述空间分支预测结果进行融合得到最终预测结果。

在本发明实施例中，将步骤S14输出的时空分支预测结果和空间分支预测结果通过决策级融合得到最终预测概率。可选的，将所述时空分支预测结果和所述空间分支预测结果中，属于同一唇语分类的概率相加，得到所述唇语分类的最终概率；将得到的各唇语分类的最终概率组成最终预测结果。

在本发明实施例中，热力图提取器和图裁切方式对应的图裁切模型构成双流前端特征提取器，将原始视频片段分别转换为时空域和空域。本发明实施例应用适应性空间语义处理模型通过学习空域分支的前端局部特征的邻接关系引入嘴唇空间拓扑。为了验证了本发明实施例的基于双流神经网络的唇语识别方法的泛化性能，在两个不同类型的lipreading数据集LRW和OuluVS2上进行了实验，能够验证本发明实施例的基于双流神经网络的唇语识别方法获得了最先进的性能。

LRW数据集是最大的英文词级数据集，共包含500个由上千个说话者常用的单词，每个单词大约1000个样本。其中的单词有很多相近的类别，这对网络提取细节特征的能力提出了较高的要求。LRW数据集提供了处理好的词居中的长度为29帧的原始视频，持续时间为1.16秒，包含大量真实环境存在的变化，例如说话者姿态，光照条件变化等。OuluVS2数据集是一个常用的小型短语级数据集，包括10个生活中常见的短语和10个随机数字序列。包含52个说话者的多角度图像包括0°，30°，45°，60°，90°。本发明实施例使用了其中的短语部分并进行了正脸的说话者独立唇语识别。因为样本有限，所以非常考验网络的泛化能力。

本发明实施例的热力图提取器优选为通过现有的通过热图回归实现鲁棒人脸对齐的自适应机翼损失(Adaptive Wing Loss)方法实现，从原始视频片段中预测特征点热力图，并根据图裁切方式所示进行裁切。对于LRW数据集和OuluVS2数据集的所有样本，都裁切出96x96大小的唇部ROI，在训练的过程中随机裁切出88x88的子集，并使用概率为0.5的水平翻转作为数据增强。因为OuluVS2数据集的样本长度不固定，本发明实施例交替重复样本的头尾帧直到样本长度达到40帧。

本发明实施例中的模型使用Pytorch深度学习框架来实现。并使用单张显存(如NVIDIA RTX3090 GPU 24G)进行网络训练。LRW数据集的时间流使用85.3％的预训练模型，时间流训练方法的批量大小(batch size)设置为32，训练次数(epoch)设置为80。OuluVS2数据集的时序流和空间流在训练的批量大小(batch size)设置为8，训练次数(epoch)设置为400，学习率设置为1e-4。使用余弦学习率调整器进行学习率更新。学习率动态调整的方法如下：

其中，lre用表示第e个轮次的学习率，lr表示初始学习率，E表示总轮次，m表示最小学习率。还使用Adam优化器带有1e-4的权重衰减。模型的参数采用正态分布0，1进行随机初始化。损失函数采用了标准的CE Loss。

空域的分支流主要包含两部分:2D+ResNet18采集负责空域特征。本发明实施例将这两部分特征进行了加权，再与时空域的分支融合得到一个很好的结果。ASSM将局部特征作为自适应空间图卷积的结点来显性的提取空间拓扑结构，得到更有效的空间特征表示。本发明实施例在LRW数据集上通过删除某些模块来测试基于ASSM的空间流的准确率来说明这些模块的作用。如表1所示，ASSM为本发明实施例所采用的如图2所示的架构，ASSM_w表示在本发明实施例所采用的架构的基础上去掉ASSM，使用全局平均池化(GAP)直接对空域分支中前端输出的特征图采样。结果表明ASSM的引入可以让视频获得更丰富的特征表示。

表1 ASSM增强的空间特征

空间流	预测精度
		ASSM	81.4％
ASSM<sub>w</sub>	81.1％

进一步在LRW和OuluVS2数据集上证明本发明实施例的基于双流神经网络的唇语识别方法的有效性。表2表示在LRW数据集上将本发明实施例基于双流神经网络的唇语识别方法与现有技术中的其他方法的对比表，其中，BiLSTM由前向的长短期记忆网络(LongShort-Term Memory，LSTM)与后向的LSTM结合而成，BiGRU为双向门限循环单元网络(Bi-directional GatedRecurrent Unit Network，BiGRU)，3D Conv表示三维卷积，TSM为时移模块(Temporal Shift Module，TSM)。可以看出，应用本发明实施例的基于双流神经网络的唇语识别方法得到的预测精度最高，达到87.4％。

表2在LRW数据集上各唇语识别方法预测结果对比表

表3表示在OuluVS2数据集上将本发明实施例基于双流神经网络的唇语识别方法与现有技术中的其他方法的对比表，其中，TDNN为时延神经网络(Time delay neuralnetwork，TDNN)，2D CNN为2维卷积神经网络，RBM为受限玻尔兹曼机模型，Spatial-GCN为基于空间的图卷积网络，进行10次重复试验最最大值。可以看出，应用本发明实施例的基于双流神经网络的唇语识别方法得到的预测精度最高，最高达到96.1％。其中时空分支预测的最大预测精度为95.3％。在加入了空间信息后，获得了0.8％的精度提升，达到96.1％。说明本发明实施例的基于双流神经网络的唇语识别方法在数据不足的情况下同样可以取得较好精度。

表3在OuluVS2数据集上各唇语识别方法预测结果对比表

综上所述，本发明实施例的基于双流神经网络的唇语识别方法通过获取唇部运动的视频片段，并基于所述视频片段提取局部帧序列和特征点热力图；应用基于3D卷积-残差网络的时空视角前端网络对所述局部帧序列进行处理并获取时空特征；应用基于2D卷积-残差网络的空间视角前端网络结合适应性空间语义处理模型对所述局部帧序列和所述特征点热力图进行处理，获取空间特征；应用多尺度时间卷积网络分别对所述时空特征和所述空间特征进行处理，分别获取时空分支预测结果和空间分支预测结果；对所述时空分支预测结果和所述空间分支预测结果进行融合得到最终预测结果，能够更全面且细致的捕获嘴唇的运动，提高唇语识别的精度。

上述对本发明特定实施例进行了描述。在一些情况下，在本发明实施例中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

基于同一个构思，本发明实施例还提供了一种基于双流神经网络的唇语识别系统。应用于服务器。附图4所示，基于双流神经网络的唇语识别系统包括：信息获取模块、时空特征获取模块、空间特征获取模块、分支预测模块以及融合预测模块。其中，

信息获取模块，用于获取唇部运动的视频片段，并基于所述视频片段提取局部帧序列和特征点热力图；

时空特征获取模块，用于应用基于3D卷积-残差网络的时空视角前端网络对所述局部帧序列进行处理并获取时空特征；

空间特征获取模块，用于应用基于2D卷积-残差网络的空间视角前端网络结合适应性空间语义处理模型对所述局部帧序列和所述特征点热力图进行处理，获取空间特征；

分支预测模块，用于应用多尺度时间卷积网络分别对所述时空特征和所述空间特征进行处理，分别获取时空分支预测结果和空间分支预测结果；

融合预测模块，用于对所述时空分支预测结果和所述空间分支预测结果进行融合得到最终预测结果。

为了描述的方便，描述以上系统时以功能分为各种模块分别描述。当然，在实施本发明实施例时可以把各模块的功能在同一个或多个软件和/或硬件中实现。

上述实施例的系统应用于前述实施例中相应的方法，并且具有相应的方法实施例的有益效果，在此不再赘述。

基于同一发明构思，本发明实施例还提供了一种电子设备，该电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上任意一实施例所述的方法。

本发明实施例提供了一种非易失性计算机存储介质，所述计算机存储介质存储有至少一可执行指令，该计算机可执行指令可执行如上任意一实施例中所述的方法。

图5示出了本实施例所提供的一种更为具体的电子设备硬件结构示意图，该设备可以包括：处理器501、存储器502、输入/输出接口503、通信接口504和总线505。其中处理器501、存储器502、输入/输出接口503和通信接口504通过总线505实现彼此之间在设备内部的通信连接。

处理器501可以采用通用的CPU(Central Processing Unit，中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本发明方法实施例所提供的技术方案。

存储器502可以采用ROM(Read Only Memory，只读存储器)、RAM(RandomAccessMemory，随机存取存储器)、静态存储设备，动态存储设备等形式实现。存储器502可以存储操作系统和其他应用程序，在通过软件或者固件来实现本发明方法实施例所提供的技术方案时，相关的程序代码保存在存储器502中，并由处理器501来调用执行。

输入/输出接口503用于连接输入/输出模块，以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出)，也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等，输出设备可以包括显示器、扬声器、振动器、指示灯等。

通信接口504用于连接通信模块(图中未示出)，以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。

总线505包括一通路，在设备的各个组件(例如处理器501、存储器502、输入/输出接口503和通信接口504)之间传输信息。

需要说明的是，尽管上述设备仅示出了处理器501、存储器502、输入/输出接口503、通信接口504以及总线505，但是在具体实施过程中，该设备还可以包括实现正常运行所必需的其他组件。此外，本领域的技术人员可以理解的是，上述设备中也可以仅包含实现本发明实施例方案所必需的组件，而不必包含图中所示的全部组件。

所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本申请的范围被限于这些例子；在本申请的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，步骤可以以任意顺序实现，并存在如上所述的本申请的不同方面的许多其它变化，为了简明它们没有在细节中提供。

本申请旨在涵盖落入本发明实施例的宽泛范围之内的所有这样的替换、修改和变型。因此，凡在本发明实施例的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种基于双流神经网络的唇语识别方法，其特征是，所述方法包括：

获取唇部运动的视频片段，并基于所述视频片段提取局部帧序列和特征点热力图；

应用基于3D卷积-残差网络的时空视角前端网络对所述局部帧序列进行处理并获取时空特征；

应用基于2D卷积-残差网络的空间视角前端网络结合适应性空间语义处理模型对所述局部帧序列和所述特征点热力图进行处理，获取空间特征；

应用多尺度时间卷积网络分别对所述时空特征和所述空间特征进行处理，分别获取时空分支预测结果和空间分支预测结果；

对所述时空分支预测结果和所述空间分支预测结果进行融合得到最终预测结果。

2.如权利要求1所述的方法，其特征是，所述应用基于2D卷积-残差网络的空间视角前端网络结合适应性空间语义处理模型对所述局部帧序列和所述特征点热力图进行处理，获取空间特征，包括：

应用基于2D卷积-残差网络的所述空间视角前端网络对所述局部帧序列进行处理获取空间特征图；

应用所述适应性空间语义处理模型对所述空间特征图和所述特征点热力图进行拼接处理，得到第一空间结点特征；

分别对第一空间结点特征和所述空间特征图进行全局池化后进行连接，得到所述空间特征。

3.如权利要求2所述的方法，其特征是，所述应用所述适应性空间语义处理模型对所述空间特征图和所述特征点热力图进行拼接处理，得到第一空间结点特征，包括：

根据所述空间特征图和所述特征点热力图获取结点特征，将所述结点特征与所述特征点热力图的转秩进行拼接，得到结点图；

将所述结点图输入所述适应性空间语义处理模型进行处理，得到所述第一空间结点特征。

4.如权利要求3所述的方法，其特征是，所述将所述结点图输入所述适应性空间语义处理模型进行处理，得到所述第一空间结点特征，包括：

根据所述结节图中结点之间的关系更新所述结点图中边的权重，并结合当前邻接矩阵形成新的邻接矩阵；

将所述新的邻接矩阵与所述结点图中结点特征相乘，并与所述结点图进行卷积计算得到所述第一空间结点特征。

5.如权利要求3所述的方法，其特征是，所述根据所述空间特征图和所述特征点热力图获取结点特征，包括：

计算所述空间特征图与所述特征点热力图进行矩阵相乘；

对所述空间特征图与所述特征点热力图的矩阵相乘结果进行全局平均池化，得到所述结点特征。

6.如权利要求1所述的方法，其特征是，所述时空分支预测结果和所述空间分支预测结果表示预测的所述视频片段所属各唇语分类的概率，所述对所述时空分支预测结果和所述空间分支预测结果进行融合得到最终预测结果，包括：

将所述时空分支预测结果和所述空间分支预测结果中，属于同一唇语分类的概率相加，得到所述唇语分类的最终概率；

将得到的各唇语分类的最终概率组成最终预测结果。

7.如权利要求1所述的方法，其特征是，所述基于所述视频片段提取局部帧序列和特征点热力图，包括：

基于所述视频片段应用预训练的热力图提取器提取局部热力图，将所述局部热力图与全局热力图拼接得到所述特征点热力图，所述全局热力图为尺寸与所述局部热力图相同，且数值全为1的二维矩阵；

应用图裁切方式对所述视频片段中各帧进行裁切，获取各帧的唇部感兴趣区域，组成局部帧序列。

8.一种基于双流神经网络的唇语识别系统，其特征是，所述系统包括：

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征是，所述处理器执行所述程序时实现如权利要求1-7中任意一项所述的方法。

10.一种计算机存储介质，其特征是，所述存储介质中存储有至少一可执行指令，所述可执行指令使处理器执行如权利要求1-7中任一项所述的方法。