CN113343937B

CN113343937B - 一种基于深度卷积和注意力机制的唇语识别方法

Info

Publication number: CN113343937B
Application number: CN202110801803.7A
Authority: CN
Inventors: 袁全波; 王慧娟; 蒲刚强
Original assignee: North China Institute of Aerospace Engineering
Current assignee: Zhengji Taichuan Technology Langfang Co ltd
Priority date: 2021-07-15
Filing date: 2021-07-15
Publication date: 2022-09-02
Anticipated expiration: 2041-07-15
Also published as: CN113343937A

Abstract

本发明公开了一种基于深度卷积和注意力机制的唇语识别方法，包括步骤：S1)对大型唇读数据集进行预处理，获取唇部识别图像；S2)将唇部识别图像批量输入到3D卷积网络模型，进行时空特征提取；S3)将唇部识别图像提取的时空特征输入卷积和注意力机制的混合网络模型，进行局部和全局的空间特征提取；S4)将提取的空间特征输入到双向门控循环单元，进行长短期特征序列提取；S5)将提取的长短期特征序列输入到多层感知机，获取各个类别的置信度分数；S6)基于各个类别的置信度分数，经过带有标签平滑机制的交叉熵损失函数输出识别概率值。本发明在卷积网络的基础上加入注意力机制模型，并改善其结构，提高了唇语识别率并减小了计算开支。

Description

一种基于深度卷积和注意力机制的唇语识别方法

技术领域

本发明涉及计算机视觉与自然语言处理技术领域，特别是涉及一种基于深度卷积和注意力机制的唇语识别方法。

背景技术

唇语识别也称为视觉语音识别，是指通过说话人的嘴唇运动变化来判断说话内容，其研究过程涉及到了计算机视觉、自然语言处理等技术。唇语识别在身份认证、语音识别、说话人脸合成、改善聋哑人交流以及公共安全等方面有着广泛的应用。

目前，随着深度学习的快速发展，唇语识别也取得了一定的成果，但是由于说话人的主观因素以及所处背景环境的复杂性，唇语识别还存在着巨大的挑战，如不同字词间发音的相识性，同一字词在不同人的发音里嘴唇运动变化也有所不同，在现有公开的大型唇语数据集中的识别率都不是很高。近两年针对唇读的新方法也在不断的被提出，但大多数方法提取到的唇动特征都没有很好的考虑到图片相邻帧之间的相关性、局部和全局的特征空间信息、嘴唇及其周围的细微变化以及因分辨率降低而导致的信息损失。

发明内容

本发明的目的是提供一种基于深度卷积和注意力机制的唇语识别方法，在卷积网络的基础上加入注意力机制模型，并改善其结构，提高了唇语识别率并减小了计算开支。

为实现上述目的，本发明提供了如下方案：

一种基于深度卷积和注意力机制的唇语识别方法，包括步骤：

S1)对大型唇读数据集进行预处理，获取唇部识别图像；所述大型唇读数据集中含有多个唇读视频；

S2)将唇部识别图像批量输入到3D卷积网络模型，进行时空特征提取；

S3)将唇部识别图像提取的时空特征输入卷积和注意力机制的混合网络模型，进行局部和全局的空间特征提取；

S4)将提取的空间特征输入到双向门控循环单元，进行长短期特征序列提取；

S5)将提取的长短期特征序列输入到多层感知机，获取各个类别的置信度分数；

S6)基于各个类别的置信度分数，经过带有标签平滑机制的交叉熵损失函数输出识别概率值。

可选的，所述步骤S1中，对大型唇读数据集进行预处理，获取唇部识别图像，具体包括：

在每一轮上对输入唇读视频帧的顺序进行打乱，将其大小调整为96×96，并随机裁剪为88×88，作为3D卷积模型的输入；

在3D卷积模型每次训练迭代中选择部分视频帧，对每个视频帧以0.5的概率水平翻转转换成灰度图；

对灰度图进行归一化处理，获取唇部识别图像。

可选的，所述步骤S2中，3D卷积网络模型的构建，具体包括：

设定一层3D卷积，卷积核大小为(5，7，7)，步幅为(1，2，2)，填充为(2，3，3)，然后进入批归一化处理，再经过一层激活函数，最后送入最大池化层处理，该池化层的内核大小为(1，3，3)，步幅为(1，2，2)，3D卷积计算公式如下：

其中：

为第i层中位置(x,y,z)处第j个feature map中的值，relu为激活函数，b为偏置，m为i-1层feature map连接到当前层feature map的索引，

中Pi、Qi、Ri分别为卷积核的宽度、高度和时间维度。

可选的，所述步骤S3中，卷积和注意力机制的混合网络模型的构建，具体包括：

经过卷积标记嵌入层处理，该层嵌入核大小为(7，7)，步幅为(2，2)，个数为128；

进入卷积transformer模块，该模块由卷积投影层、多头注意力层、全连接层组成，一共经过三步堆叠；其中：第一步卷积投影层核大小为(3，3)，个数为128，注意力为1头，深度为1；第二步卷积投影层核大小为(3，3)，个数为256，注意力为3头，深度为4；第三步卷积投影层核大小为(3，3)，个数为512，注意力为6头，深度为16。

可选的，所述步骤S4中，双向门控循环单元的设定，具体包括：

设定输入维度为512，隐层维度为1024，共有3层，输出维度为2048，门控循环单元计算公式如下：

其中：

z为更新门，r为复位门，

为单元值，h为隐藏值，W和U分别为输入和隐藏的权重矩阵。

可选的，所述步骤S5中，将提取的长短期特征序列输入到多层感知机，获取各个类别的置信度分数，具体包括：

将提取的长短期特征序列输入到多层感知机中，其结构为输入维度2048，输出维度1000，以一个展平成一维张量的形式接收，然后乘以权重矩阵，权重矩阵乘法产生输出特征，得到各个类别的置信度分数。

可选的，所述步骤S6中，基于各个类别的置信度分数，经过带有标签平滑机制的交叉熵损失函数输出识别概率值，具体包括：

基于各个类别的置信度分数，将获取的输出特征与真实标签送入带有标签平滑机制的交叉熵损失函数中输出识别概率值，传统的交叉熵损失函数计算公式如下：

其中：p为预测概率值，q为1-p，y为真实标签值；

在带有标签平滑机制的交叉熵损失函数中把q值改为：

其中：ε为一个小常数取为0.1，N为类别数。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明基于深度卷积和注意力机制对唇部变化进行学习，并通过双向门控循环系统对特征提取，利用多层感知机获取各个类别的置信度分数，大大提高了唇读的效率和准确率；在卷积网络的基础上加入transformer模型，并改善其结构，解决了传统方法中对特征空间信息提取不足的问题，弥补了因分辨率降低而导致的信息损失，使之更有效的应用在唇语识别中，该方法提高了唇语识别率并减小了计算开支。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例基于深度卷积和注意力机制的唇语识别方法的流程图；

图2为本发明实施例基于深度卷积和注意力机制的唇语识别方法的总体构架图；

图3为本发明实施例Convolutional vision Transformer结构图；

图4为本发明实施例Convolutional Transformer模块图；

图5为本发明实施例GRU结构体图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

如图1所示，本发明实施例提供的基于深度卷积和注意力机制的唇语识别方法，包括步骤：

S3)将唇部识别图像提取的时空特征输入卷积和注意力机制(transformer)的混合网络模型，进行局部和全局的空间特征提取；

S4)将提取的空间特征输入到双向门控循环单元(BiGRU)，进行长短期特征序列提取；

其中，所述步骤S1中，对大型唇读数据集进行预处理，获取唇部识别图像，具体包括：

对灰度图进行归一化处理，获取唇部识别图像。

本发明实施例以公共数据集LRW和LRW-1000为研究对象，对视频帧进行预处理。

所述步骤S2中，3D卷积网络模型的构建，具体包括：

其中：

中Pi、Qi、Ri分别为卷积核的宽度、高度和时间维度。

所述步骤S3中，卷积和注意力机制的混合网络模型的构建，具体包括：

进入卷积transformer模块，该模块由卷积投影层、多头注意力层、全连接层组成，一共经过三步堆叠；其中：第一步卷积投影层核大小为(3，3)，个数为128，注意力为1头，深度为1；第二步卷积投影层核大小为(3，3)，个数为256，注意力为3头，深度为4；第三步卷积投影层核大小为(3，3)，个数为512，注意力为6头，深度为16。如图2至图4所示，将3D卷积初步处理的特征信息送入卷积transformer结构中并进行空间信息的进一步提取。

所述步骤S4中，双向门控循环单元(BiGRU)的设定，具体包括：

设定输入维度为512，隐层维度为1024，共有3层，输出维度为2048，门控循环单元GRU计算公式如下：

其中：

z为更新门，r为复位门，

为单元值，h为隐藏值，W和U分别为输入和隐藏的权重矩阵。如图5所示，特征信息输入为x。

所述步骤S5中，将提取的长短期特征序列输入到多层感知机，获取各个类别的置信度分数，具体包括：

将提取的长短期特征序列输入到多层感知机中，其结构为输入维度2048，输出维度1000，即分类数1000，以一个展平成一维张量的形式接收，然后乘以权重矩阵，权重矩阵乘法产生输出特征，得到各个类别的置信度分数，这个矩阵乘法产生输出特征，即各个类别的置信度分数。

所述步骤S6中，基于各个类别的置信度分数，经过带有标签平滑机制的交叉熵损失函数输出识别概率值，具体包括：

其中：p为预测概率值，q为1-p，y为真实标签值；

在带有标签平滑机制的交叉熵损失函数中把q值改为：

其中：ε为一个小常数取为0.1，N为类别数。

使用标签平滑训练可以产生更好的校准网络，从而更好地去泛化网络，最终对不可见的输出数据产生更准确的预测。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于深度卷积和注意力机制的唇语识别方法，其特征在于，包括步骤：

所述S2中，3D卷积网络模型的构建，具体包括：

其中：

为第i层中位置(x,y,z)处第j个featuremap中的值，relu为激活函数，b为偏置，m为i-1层featuremap连接到当前层featuremap的索引，

中P_i、Q_i、R_i分别为卷积核的宽度、高度和时间维度；

所述S3中，卷积和注意力机制的混合网络模型的构建，具体包括：

经过卷积标记嵌入层处理，嵌入核大小为(7，7)，步幅为(2，2)，个数为128；

进入卷积transformer模块，该模块由卷积投影层、多头注意力层、全连接层组成，一共经过三步堆叠；其中：第一步卷积投影层核大小为(3，3)，个数为128，注意力为1头，深度为1；第二步卷积投影层核大小为(3，3)，个数为256，注意力为3头，深度为4；第三步卷积投影层核大小为(3，3)，个数为512，注意力为6头，深度为16；

所述S5中，将提取的长短期特征序列输入到多层感知机，获取各个类别的置信度分数，具体包括：

将提取的长短期特征序列输入到多层感知机中，其结构为输入维度2048，输出维度1000，以一个展平成一维张量的形式接收，然后乘以权重矩阵，权重矩阵乘法产生输出特征，得到各个类别的置信度分数；

S6)基于各个类别的置信度分数，经过带有标签平滑机制的交叉熵损失函数输出识别概率值；

所述S6中，基于各个类别的置信度分数，经过带有标签平滑机制的交叉熵损失函数输出识别概率值，具体包括：

其中：p为预测概率值，q为1-p，y为真实标签值；在带有标签平滑机制的交叉熵损失函数中把q值改为：

其中：ε为一个小常数取为0.1，N为类别数。

2.根据权利要求1所述的基于深度卷积和注意力机制的唇语识别方法，其特征在于，所述S1中，对大型唇读数据集进行预处理，获取唇部识别图像，具体包括：

对灰度图进行归一化处理，获取唇部识别图像。

3.根据权利要求1所述的基于深度卷积和注意力机制的唇语识别方法，其特征在于，所述S4中，双向门控循环单元的设定，具体包括：

其中：z_t＝σ(W^zx_t+U^zh_t-1)，r_t＝σ(W^rx_t+U^rh_t-1)

z为更新门，r为复位门，

为单元值，h为隐藏值，W和U分别为输入和隐藏的权重矩阵。