CN116469153A

CN116469153A - 一种基于深度学习的特定目标唇语识别方法

Info

Publication number: CN116469153A
Application number: CN202310611630.1A
Authority: CN
Inventors: 柴松; 田涛领; 公岷; 靳婷; 汪立伟
Original assignee: Southwest Minzu University
Current assignee: Southwest Minzu University
Priority date: 2023-05-26
Filing date: 2023-05-26
Publication date: 2023-07-21

Abstract

本发明公开了一种基于深度学习的特定目标唇语识别方法，包括以下步骤：制定唇语识别数据集，包括大型通用数据集和小样本特定目标数据集；采用Swin‑transformer网络和transformer网络构建唇语识别基础模型；利用大型通用数据集对唇语识别基础模型进行训练，输出第一大概率标签序列；采用对抗域适应的方法，构建特定目标唇语识别模型；利用小样本特定目标数据集和部分大型通用数据集对特定目标唇语识别模型进行训练，输出第二大概率标签序列；对特定目标唇语识别模型进行测试。本发明解决了目前唇语识别方法使用的模型规模较大、训练代价较大、识别准确率易受模型规模影响以及目前缺少特定目标的唇语识别方法的问题。

Description

一种基于深度学习的特定目标唇语识别方法

技术领域

本发明涉及计算机视觉和深度学习领域，特别是涉及一种基于深度学习的特定目标唇语识别方法。

背景技术

唇语识别是一项集计算机视觉与自然语言处理于一体的复合型技术，系统使用计算机视觉技术从连续的图像中识别出人脸信息，从而提取对应口型变化的连续特征，随即将连续变化的特征送入唇语识别模型中，最后模型预测出讲话人变化的口型可能对应的发音，根据预测出的发音，计算出可能性最大的自然语言语句。唇语识别是计算机视觉和人机交互领域重要的研究课题，借助唇部特征的辨识，可将其应用在后天聋哑人士的语言功能恢复、刑事侦查、身份认证等领域。目前大量的安防监控摄像头只有视频而没有音频信息，采用唇语辅助技术可以获得许多单纯依靠视频无法得到的信息。另外，唇语识别技术也可以解决嘈杂环境下音频识别准确度不高的问题。所以唇语识别技术在安防、工业、民用领域都有重要的实践意义。

目前的唇语识别技术主要包括基于注意力机制的唇语识别、基于3D卷积的唇语识别、基于隐马尔可夫模型的唇语识别等，这些唇语识别技术的局限性在于：为了实现较高的识别准确率，使用的模型规模通常都比较大，因此训练代价也随之增加；如果为了减少成本而降低模型规模，又会损失很多的识别准确率；当前缺少针对特定目标的唇语识别技术。

发明内容

针对现有技术中的上述不足，本发明提供的一种基于深度学习的特定目标唇语识别方法解决了目前唇语识别方法使用的模型规模较大、训练代价较大、识别准确率易受模型规模影响以及目前缺少特定目标的唇语识别方法的问题。

为了达到上述发明目的，本发明采用的技术方案为：一种基于深度学习的特定目标唇语识别方法，包括以下步骤：

S1：制定唇语识别数据集，包括大型通用数据集和小样本特定目标数据集；

S2：采用Swin-transformer网络和transformer网络构建唇语识别基础模型；

S3：利用大型通用数据集对唇语识别基础模型进行训练，输出第一大概率标签序列；

S4：基于第一大概率标签序列，采用对抗域适应的方法，构建特定目标唇语识别模型；

S5：利用小样本特定目标数据集和部分大型通用数据集对特定目标唇语识别模型进行训练，输出第二大概率标签序列，保证特定目标唇语识别模型对特定目标唇语识别的准确率；

S6：对特定目标唇语识别模型进行测试，获得针对特定目标的唇语识别结果。

上述方案的有益效果是：本发明以Swin-transformer网络和transformer网络为主框架构建唇语识别基础模型，在唇语识别基础模型的基础上，采用对抗域适应的方法构建特定目标唇语识别模型，有效提高模型对特定目标的唇语识别准确率，解决了目前唇语识别方法使用的模型规模较大、训练代价较大、识别准确率易受模型规模影响以及目前缺少特定目标的唇语识别方法的问题。

进一步地，S1中制定唇语识别数据集包括以下分步骤：

S1-1：采用原始数据集随机选取不同的视频样本进行组合拼接，生成2-6秒的长句视频样本，同时拼接对应的真实标签，形成大型通用数据集；

S1-2：为模拟真实环境，在室内自然光条件下采集小样本特定视频，要求人脸区域占相机画面的75％，采集的视频内容为原始数据集中短语组合形成的语句标签，同时采集部分样本时进行角度偏移；

S1-3：利用SeetaFace人脸检测算法对采集的视频内容进行视频处理，包括裁剪出人脸有效视频段、定位唇部区域、进行视频拆帧、截取每帧图像中的唇部部分以及保存所有唇部图像形成小样本特定目标数据集。

上述进一步方案的有益效果是：通过上述技术方案，获得模型所需的唇语识别数据集，包括大型通用数据集和小样本特定目标数据集。

进一步地，S2中唇语识别基础模型的前端部分采用Swin-transformer网络提取唇部图像特征，所述唇语识别基础模型的后端部分采用transformer网络进行编码操作和解码操作，将唇部序列图像翻译成对应的标签信息。

上述进一步方案的有益效果是：通过上述技术方案，构建唇语识别基础模型，其中，利用Swin-transformer网络提取特征值，利用transformer网络对特征值进行编码和解码，获得对应的标签信息。

进一步地，S2中Swin-transformer网络包括以下分步骤：

S2-1：通过Patch拆分模块将尺寸为H×W×3的RGB图像拆分为N个非重叠等尺寸的Patch块，每个Patch块作为一个token；

S2-2：利用线性嵌入层将N个Patch块映射到任意维度C，得到每个Patch块对应的特征向量；

S2-3：将特征向量依次送入多个Swin-Transformer Block，得到最终输出结果。

上述进一步方案的有益效果是：通过上述技术方案，构成Swin-transformer网络的内部结构，用于提取唇部特征图像。

进一步地，S2中transformer网络的编码器部分由N个编码器层堆叠形成，transformer网络的解码器部分由N个解码器层堆叠形成，每个编码器层由两个子层连接形成，第一个子层包括多头注意力模块、残差连接模块和层归一化模块，第二个子层包括点式前馈网络模块、残差连接模块和层归一化模块。

上述进一步方案的有益效果是：通过上述技术方案，构成transformer网络的结构，主要包括编码器部分和解码器部分，分别利用该部分进行编码操作和解码操作。

进一步地，S4中采用对抗域适应的方法，构建特定目标唇语识别模型，包括以下分步骤：

S4-1：将特定目标唇语识别模型的前端部分的Swin-transformer网络作为特征提取器，把源域样本和目标域样本成对送入特征提取器中提取唇部特征信息；

S4-2：将提取到的唇部特征信息同时传输至特定目标唇语识别模型的后端部分的transformer网络和领域判别器；

S4-3：利用领域判别器判断接收到的唇部特征信息来自源域或目标域，并计算相应的损失，利用transformer网络进行编码操作和解码操作，并计算相应的损失，完成特定目标唇语识别模型的构建。

上述进一步方案的有益效果是：通过上述技术方案，构建特定目标唇语识别模型，利用特征提取器提取唇部特征信息，利用领域判别器判断唇部特征信息的来源，利用transformer网络进行编码和解码，并计算相应的损失。

进一步地，S4-3中损失采用交叉熵损失函数Loss计算，公式为

其中，y为样本的标签，为样本预测为正类的概率。

上述进一步方案的有益效果是：根据上述公式，利用交叉熵损失函数计算本方案构建特定目标唇语识别模型中的损失。

附图说明

图1为一种基于深度学习的特定目标唇语识别方法流程图。

图2为一种基于深度学习的特定目标唇语识别方法示意图。

图3为Swin-Transformer网络结构图。

图4为transformer网络结构图。

具体实施方式

下面结合附图和具体实施例对本发明做进一步说明。

如图1所示，一种基于深度学习的特定目标唇语识别方法，包括以下步骤：

S1中制定唇语识别数据集包括以下分步骤：

如图2所示，S2中唇语识别基础模型的前端部分采用Swin-transformer网络提取唇部图像特征，所述唇语识别基础模型的后端部分采用transformer网络进行编码操作和解码操作，将唇部序列图像翻译成对应的标签信息。

如图3所示，S2中Swin-transformer网络包括以下分步骤：

在每个Block之间，为了产生一个层次化表示，随着网络的加深，使用Patch合并模块逐渐减少token的数量。

如图4所示，S2中transformer网络的编码器部分由N个编码器层堆叠形成，transformer网络的解码器部分由N个解码器层堆叠形成，每个编码器层由两个子层连接形成，第一个子层包括多头注意力模块、残差连接模块和层归一化模块，第二个子层包括点式前馈网络模块、残差连接模块和层归一化模块。最终将编码器部分的输出送入解码器部分中进行计算。

S4中采用对抗域适应的方法，构建特定目标唇语识别模型，包括以下分步骤：

在本发明的一个实施例中，如图2所示，训练领域判别器的目的是尽可能地将输入的唇部特征信息分类到正确的领域类别中(源域标签为1，目标域标签为0)，而训练特征提取器的目的却恰恰相反，是为了让特征提取器提取到的唇部特征信息无法被领域判别器正确地判断出来自于哪个领域类别，从而形成一种特征提取器与领域判别器的对抗关系。

与此同时，特征提取器提取到的唇部特征信息也会被送入Transformer进行编码解码，因为源域样本是有真实标签的，因此在提取唇部特征信息时不仅要考虑到领域判别器的情况，而且还要利用好源域样本的真实标签进行有监督学习，从而更好地兼顾样本预测的准确性。在模型进行反向传播更新权重参数的过程中，原始梯度下降的目的是为了最小化损失函数，而特征提取器的训练则是要兼顾最大化样本预测准确率和最小化领域判别准确率，因此要最大化领域判别器的损失函数。

S4-3中损失采用交叉熵损失函数Loss计算，公式为

其中，y为样本的标签，为样本预测为正类的概率。

在本发明的一个实施例中，考虑到中文语言结构的特点，采用了编码器-解码器的算法架构，为了具有通用性和扩展性，使用Swin-Transformer提取样本特征，解码器部分采用transformer，标签采用字编码方式，使用基于对抗域适应的端到端的算法模型。汉字不同于英文等字母型语言有很多不同，英语等字母型语言由基本的少数字母拼写而成，对于编码而言由于其基本编码单元少(如英文由26个字母组成)，使用简单的One-hot编码即可得到较好的结果，而汉字其由大量的基本汉字组成(据统计，常用基本汉字有4000个左右)，直接使用One-hot编码训练出可用的语言模型需要巨大的语料库，同时由于One-hot编码向量的稀疏性和正交性不利于深度神经网络的训练，因此本发明的标签使用按字进行编码的方式。

系统使用自制的大型通用数据集和小样本特定目标数据集来训练模型，使用Swin-Transformer提取样本中的唇部区域特征。Transformer用于将唇部视觉特征信息进行编码并在模型推断时，将其解码成为相关的文本信息。并且在模型中加入领域判别器进行训练，领域判别器用来判断Swin-Transformer提取的特征是来自于预训练数据集还是特定目标数据集。

本发明提出针对特定目标的唇语识别方法，以Swin-Transformer和Transformer为主框架，采用对抗域适应的方法来提高模型对特定目标的唇语识别准确率，本唇语识别方法的提出，有利于为唇语识别领域采用深度学习技术提供实验验证，有利于理论的发展与完善，可以为实际场景中应用唇语识别技术提供了可能，为进一步发展更加准确和更具鲁棒性的唇语识别方案提供了理论储备和方案储备。

本领域的普通技术人员将会意识到，这里所述的实施例是为了帮助读者理解本发明的原理，应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合，这些变形和组合仍然在发明的保护范围内。

Claims

1.一种基于深度学习的特定目标唇语识别方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于深度学习的特定目标唇语识别方法，其特征在于，所述S1中制定唇语识别数据集包括以下分步骤：

3.根据权利要求1所述的基于深度学习的特定目标唇语识别方法，其特征在于，所述S2中唇语识别基础模型的前端部分采用Swin-transformer网络提取唇部图像特征，所述唇语识别基础模型的后端部分采用transformer网络进行编码操作和解码操作，将唇部序列图像翻译成对应的标签信息。

4.根据权利要求1所述的基于深度学习的特定目标唇语识别方法，其特征在于，所述S2中Swin-transformer网络包括以下分步骤：

5.根据权利要求1所述的基于深度学习的特定目标唇语识别方法，其特征在于，所述S2中transformer网络的编码器部分由N个编码器层堆叠形成，transformer网络的解码器部分由N个解码器层堆叠形成，每个编码器层由两个子层连接形成，第一个子层包括多头注意力模块、残差连接模块和层归一化模块，第二个子层包括点式前馈网络模块、残差连接模块和层归一化模块。

6.根据权利要求1所述的基于深度学习的特定目标唇语识别方法，其特征在于，所述S4中采用对抗域适应的方法，构建特定目标唇语识别模型，包括以下分步骤：

7.根据权利要求6所述的基于深度学习的特定目标唇语识别方法，其特征在于，所述S4-3中损失采用交叉熵损失函数Loss计算，公式为

其中，y为样本的标签，为样本预测为正类的概率。