CN113851131A

CN113851131A - 一种跨模态唇语识别方法

Info

Publication number: CN113851131A
Application number: CN202110941080.0A
Authority: CN
Inventors: 梁雪峰; 黄奕洋
Original assignee: Guangzhou Institute of Technology of Xidian University
Current assignee: Guangzhou Institute of Technology of Xidian University
Priority date: 2021-08-17
Filing date: 2021-08-17
Publication date: 2021-12-28

Abstract

本发明提供了一种跨模态唇语识别方法，包括S1，数据预处理：获取视频数据的嘴唇区域和音频数据的特征矩阵；S2，模型训练：依次进行说话人识别任务的训练、跨模态对比学习、模型参数、标准化唇语特征等步骤直到模型收敛；S3，模型部署：仅输入待识别的非训练数据视频序列，使用视觉识别分支获取说话人唇形特点，并对唇语特征进行标准化，最后进行唇语特征到文字的映射。本方法在无需额外人为标注数据的前提下，能够提取到具有更好可区分性的视觉特征，特征提取的泛化性和鲁棒性更好，能够跨说话人使用，也无需为每个类别样本单独训练一组模型参数。

Description

一种跨模态唇语识别方法

技术领域

本发明涉及识别领域，尤其涉及一种跨模态唇语识别方法。

背景技术

唇语识别是一种视觉语言识别技术，其主要利用视频中的唇部运动信息，结合语言先验知识和上下文信息的语言识别技术来实现。唇语识别在语言理解和交流中都起到重要作用，常在无法获得有效音频信息的情况下使用。它也具有极高的应用价值，可以被应用于言语障碍患者的治疗、安防领域、军用设备和人机交互当中。

传统的唇语识别方法的局限在于只关注视频输入信息，在没有额外经验知识引导的情况下无法学习到较好的视觉可分特征。因此，这些方法通常依赖大量有准确标签的数据，然而在现实生活中获取有标签数据的成本异常高昂。

发明内容

鉴于上述问题，本发明的目的在于提供一种跨模态唇语识别方法，包括

S1，数据预处理：

对于视频数据，首先识别脸部的68个关键点，并通过仿射变换将每张脸部图像标准化为正面视图，最后裁剪出嘴唇区域；

对于音频数据，首先将其下采样为16kHz，并转换为梅尔倒谱系数特征，然后将所有时刻的梅尔倒谱系数向量进行归一化并按照时间顺序组成特征矩阵；

S2，模型训练：

S21，将成对的视频数据和音频数据分别输入到视觉识别分支和语音识别分支中，在每个分支的属性学习模块中进行说话人识别任务的训练；

S22，将成对的视频数据和音频数据分别输入到视觉识别分支和语音识别分支中，在两个分支共用的对比学习模块中，利用说话人识别任务获取的表征，标准化语义特征，然后进行音视频跨模态对比学习；

S23，仅输入音频序列，去除说话人音色特点，准化语音特征，利用反向传播算法对语音识别分支的模型参数进行更新，以确保参与对比学习的中间音频特征S正确；

S24，仅输入视频序列，去除说话人唇形特点，标准化唇语特征，利用反向传播算法对唇语识别分支的模型参数进行更新；

重复以上S21-S24直到学习率衰减后连续多轮训练内损失函数值不再降低，即模型收敛；S3，模型部署：

仅输入待识别的非训练数据视频序列，使用视觉识别分支，去除说话人唇形特点，并对唇语特征进行标准化，最后进行唇语特征到文字的映射。

作为优选，所述视觉识别分支包括3D卷积模块、第一递归神经网络模块、第一说话人特征提取模块、第一属性学习模块、对比学习模块、第二递归神经网络模块、第一注意力模块和第一映射模块；

所述3D卷积模块用于获取唇部动作的短时特征；

所述第一递归神经网络模块用于建立唇部动作的长时依赖关系；

所述第一说话人特征提取模块用于提取不同说话人的唇形特征；

所述第一属性学习模块用于利用已获得的说话人唇形特征消除不同说话人的唇形差异；

所述对比学习模块用于使用跨音视频数据的自监督对比学习方法，使模型从视频数据自身的另一表现形式音频中获得先验知识，并引导视觉识别分支学习唇形特征；

所述第二递归神经网络模块用于强化经过对比学习层的视频中间特征S序列的上下文关系；

所述第一注意力模块用于在时域中通过对第二递归神经网络模块输出的不同时间点特征分配不同的权重来帮助模型忽略无关的视频帧；

所述第一映射层用于将第一注意力模块输出的最终唇部运动特征映射到文本域中。

作为优选，所述语音识别分支包括：

2D卷积模块、第三递归神经网络模块、第二说话人特征提取模块、第二属性学习模块、对比学习模块、第四递归神经网络模块、第二注意力模块和第二映射模块；

所述2D卷积模块用于对梅尔倒谱特征进行短时语音特征提取；

所述第三递归神经网络模块用于建立语音特征的长时依赖关系；

所述第二说话人特征提取模块用于提取不同说话人的音色特征；

所述第二属性学习模块用于利用已获得的说话人音色特征消除不同说话人的音色差异；

所述第四递归神经网络模块用于强化经过对比学习模块的音频中间特征S序列的上下文关系；

所述第二注意力模块用于在时域中通过对第四递归神经网络模块输出的不同时间点特征分配不同的权重来帮助模型忽略无关的音频片段；

所述第二映射模块用于将第二注意力模块输出的最终音频特征映射到文本域中。

作为优选，所述第一映射层包括基于带ReLU激活函数的多层感知机的非线性映射的分类器。

作为优选，使用联结主义时间分类损失函数分别对视觉识别分支和语音识别分支进行约束。

本方法通过使用自监督的跨模态对比学习方法，在无需额外人为标注数据的前提下，通过音频信息帮助唇语识别分支从输入的视频序列中提取到具有更好可区分性的视觉特征，并以此为基础区分发音不同但口型相似的唇语视频序列。

相比于两阶段的传统唇语识别方法，本方法基于深度学习构建端到端唇语识别系统，特征提取的泛化性和鲁棒性更好，能够跨说话人使用，也无需为每个类别样本单独训练一组模型参数。

传统方法对不同说话人数据的泛化能力较差，而本方法应用属性学习对来自不同说话人的唇语特征进行标准化，极大地提升了算法应对不同说话人唇形的鲁棒性。

本方法基本不需要人工打标签，而是利用音频模态信息作为引导，通过端到端的跨音视频数据自监督学习方法，在音频信息的指导下帮助唇语模型获取更好的视觉特征，提升算法在唇语识别问题上的性能表现。

附图说明

利用附图对本发明作进一步说明，但附图中的实施例不构成对本发明的任何限制，对于本领域的普通技术人员，在不付出创造性劳动的前提下，还可以根据以下附图获得其它的附图。

图1，为本发明一种跨模态唇语识别方法的模型一种示例性实施例图。

图2，为本发明的模型训练步骤的流程示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

本发明提供了一种跨模态唇语识别方法，包括

S1，数据预处理：

S2，模型训练：

S22，将成对的视频数据和音频数据分别输入到视觉识别分支和语音识别分支中，在两个分支共用的对比学习模块中，利用说话人识别任务获取的表征，标准化语义特征。然后进行音视频跨模态对比学习；

S23，仅输入音频序列，去除说话人音色特点，标准化语音特征，利用反向传播算法对语音识别分支的模型参数进行更新，以确保参与对比学习的中间音频特征S正确；

所述3D卷积模块用于获取唇部动作的短时特征；

具体的，各个模块之间的数据输入输出关系如下：

待识别视频序列->3D卷积模块->唇部动作短时特征；

唇部动作短时特征->第一递归神经网络模块->唇部动作长时依赖关系、唇部序列总体特征；

唇部序列总体特征->第一说话人特征提取模块->不同说话人的唇形特征；

不同说话人的唇形特征、唇部动作长时依赖关系->第一属性学习模块->消除个人差异的唇部动作长时依赖关系；

消除个人差异的唇部动作长时依赖关系、消除个人差异的音频长时依赖关系->对比学习模块->区分度更高的唇部动作特征、音频中间特征；

区分度更高的唇部动作特征->第二递归神经网络模块->上下文联系更紧密的高区分度唇部动作特征；

上下文联系更紧密的高区分度唇部动作特征->第一注意力模块->忽略不发音的唇部动作特征；

忽略不发音的唇部动作特征->第一映射模块->文本。

作为优选，所述语音识别分支包括：

具体的，各个模块之间的数据输入输出关系如下：

待识别音频梅尔倒谱系数特征序列->2D卷积模块->音频短时特征；

音频短时特征->第三递归神经网络模块->音频长时依赖关系、音频序列总体特征；

音频序列总体特征->第二说话人特征提取模块->不同说话人的音色特征；

不同说话人的音色特征、音频长时依赖关系->第二属性学习模块->消除个人差异的音频长时依赖关系；

音频中间特征->第四递归神经网络模块->上下文联系更紧密的音频中间特征；

上下文联系更紧密的音频中间特征->第二注意力模块->忽略不发音的音频中间特征忽略不发音的音频中间特征->第二映射模块->文本。

本方法使用端到端训练的神经网络实现唇语识别功能，如图1所示，模型总体由两个独立分支组成，右侧分支负责唇语识别，左侧分支负责语音识别，算法的核心思想是：基于自监督的对比学习方法，利用具有更好区分度的音频信息来提高模型对视觉输入信号，即唇部运动或唇形特征的辨别能力。图2，为本发明的模型训练步骤。

在右侧的视觉识别分支中，

我们首先应用3D卷积模块从视频序列中提取嘴唇运动的短期依赖特征，并在卷积层后应用ReLU激活函数和最大池化层。

由于3D卷积模块含有较多的参数，极易在小规模数据集上产生过拟合现象，因此我们还应用dropout层来缓解过拟合问题。

如总体结构图右侧唇语识别分支所示，在使用3D卷积模块获取唇部动作的短时特征后，我们使用一层双向GRU，即第一递归神经网络模块以建立唇部动作的长时依赖关系。

相比于单向递归网络，双向递归网络能够对序列的正反顺序进行建模，以从序列中获取更丰富的语义信息。而相较于LSTM，使用GRU在一定程度上减少了参数量，进一步缓解了过拟合问题。

在总体结构图左侧的语音识别分支中，

音频信号被转化为梅尔倒谱系数输入分支中。由于转化后的梅尔倒谱特征是二维矩阵形式，因此我们将视觉识别分支中用于提取短时时间特征的3D卷积部分简化为2D卷积并应用到语音识别分支中，并保持该分支的其余部分与视觉识别分支一致。

在对视频和音频进行长时间关系建模后，如总体结构图的中部所示(上下两个GRU层之间，应用对比学习模块CL和属性学习模块AL的位置)，

对获得的中间特征S运用属性学习归一化不同说话人的唇形差异使模型获取跨说话人的鲁棒特征，

再使用跨音视频数据的自监督对比学习方法，使模型从视频数据自身的另一表现形式(音频)中获得一定程度的先验知识，并引导视觉识别分支学习到具有更好可区分度的唇形特征。

然后，如结构图下部所示，我们再次采用一层双向GRU强化序列的上下文关系，并在时域中使用注意力模块，通过对不同时间点的特征分配不同的权重来帮助模型忽略无关的视频帧。

最后，我们将模型学习到的唇部运动特征映射到文本域中。因为唇形到文字的映射不满足单射且满射的关系，因此我们使用带ReLU激活函数的多层感知机(MLP)设计了一个非线性映射的分类器，如图中最下方矩形所示。

介于唇语和语音识别的输入与输出文本长度不同，存在对齐的问题，因此我们使用联结主义时间分类损失(Connectionist Temporal Classification loss)函数分别对两个网络分支进行约束。

为取得更鲁棒的跨说话人唇语特征，我们在算法中设计了属性学习模块(总体结构中的AL)，用于标准化来自不同说话人的唇部特征。该属性学习模块被同时应用于视频和语音识别分支，一般而言，GRU的最终隐藏层特征包含了说话人的属性信息、情绪信息等。如图所示，我们将GRU的最后输出特征输入属性学习模块中，并在说话人标签的监督下学习如何通过序列总体特征对说话人进行分类，即图中展示的AL模块下方输出说话人分类结果。在该分支训练征程的情况下，AL模块的中间特征作为说话人信息的表征，并将其变换用于标准化GRU每个时刻输出的唇语特征，如图箭头所示。

唇语识别问题如此困难的原因是可明显区分的唇形较少，唇形只能用14个视素进行表示，而音频信号有42个音素对语音进行表示。因此，相比于唇语特征，语音特征天然地具有更好的可区分度，尤其是当说话人说出口型接近但发音不同的词时。因此使用音频指导视频学习是一个有效且可行的方案。为取得区分度更高的唇部特征，我们引入音频特征以提升视频模型分支对于相似唇形的辨识能力。利用自监督的跨音-视频模态对比学习方法，在时间维度上约束来自同一样本、同一时刻的音频和视频特征对尽可能相似，并使此时的视频特征与其他样本的同一时刻音频或视频特征尽可能不同。考虑到同一时刻不同语句间有较大可能存在相同的语义，因此一种可选的方式是对特征序列进行时间维度上的打乱后再进行对比学习约束。

本发明具有以下优点：

尽管已经示出和描述了本发明的实施例，本领域技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变形，本发明的范围由权利要求及其等同物限定。

Claims

1.一种跨模态唇语识别方法，其特征在于，包括：

S1，数据预处理：

S2，模型训练：

重复以上S21-S24直到学习率衰减后连续多轮训练内损失函数值不再降低，即模型收敛；

S3，模型部署：

2.根据权利要求1所述的一种跨模态唇语识别方法，其特征在于，所述视觉识别分支包括3D卷积模块、第一递归神经网络模块、第一说话人特征提取模块、第一属性学习模块、对比学习模块、第二递归神经网络模块、第一注意力模块和第一映射模块；

所述3D卷积模块用于获取唇部动作的短时特征；

3.根据权利要求2所述的一种跨模态唇语识别方法，其特征在于，所述语音识别分支包括：

4.根据权利要求2所述的一种跨模态唇语识别方法，其特征在于，所述第一映射层包括基于带ReLU激活函数的多层感知机的非线性映射的分类器。

5.根据权利要求3所述的一种跨模态唇语识别方法，其特征在于，使用联结主义时间分类损失函数分别对视觉识别分支和语音识别分支进行约束。