CN114359786A

CN114359786A - 一种基于改进时空卷积网络的唇语识别方法

Info

Publication number: CN114359786A
Application number: CN202111483875.8A
Authority: CN
Inventors: 丰江帆; 周甜; 李俊材; 何中鱼
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2021-12-07
Filing date: 2021-12-07
Publication date: 2022-04-15

Abstract

本发明属于图像与视频处理技术领域，具体涉及一种基于改进时空卷积网络的唇语识别方法；该方法包括：实时获取视频数据，视频数据输入到训练好的基于改进时空卷积网络的唇语识别模型中，输出唇语识别结果；本发明在特征提取阶段综合利用视频流数据中局部静态空间特征和时序特征，提取出更有效的特征向量，尽可能的减少语言内容在视觉表征上的歧义性。本发明为唇语的识别提供更可靠、更有力的信息，提升了对于视觉歧义的鲁棒性，同时，通过将时序特征提取网络中的多个不同尺度的卷积操作前加入了一个维度控制层，减少特征图的大小，解决了网络的深度和宽度的问题，更适用于视频流数据的特征提取，具有良好的经济效益。

Description

一种基于改进时空卷积网络的唇语识别方法

技术领域

本发明属于图像与视频处理技术领域，具体涉及一种基于改进时空卷积网络的唇语识别方法。

背景技术

唇语识别一般包含两个特征提取阶段，CNN(卷积神经网络)在图像特征提取的领域表现优异，RNN(循环神经网络)则能更好地处理序列信息。根据CNN和RNN的特点，现有技术通常将CNN与RNN相结合，通过Resnet(残差网络)作为视觉提取前端，更好的提取唇部特征，通过LSTM(长短时记忆网络)作为序列处理后端，对特征序列进行处理，提取上下文信息。同时，还将时空卷积网络作为CNN网络的第一层，以便提取到粗略的时空信息。另外，对于上述方法出现了有诸多改进方法，比如将LSTM可替换成效果相同，但参数更少、收敛更快的GRU(门控循环单元网络)，并采用音频作为辅助特征来提高唇语识别的准确率。为实现更高的识别率，现有技术通常利用Resnet和Densenet(密集残差网络)组成的多粒度网络来提取不同粒度的视频帧特征，同时引入了ConvLstm网络替换GRU网络。由于提取特征信息是非常重要的一步，可对特征提取模块进行了改进，将整个Resnet网络替换为了22层三维卷积网络，同时增加光流作为输入，来提取到较多的时间特征。也可从序列建模模块入手，放弃了RNN及其变体，采用在处理序列问题上表现更好的TCN(时间卷积网络)并展示出了最先进的性能。

上述方法都采用了深度学习的方法进行唇语识别，所用到的技术虽然已经在提取特征上作出了非常多的改进，但是它们在提取特征时很容易忽略掉时间信息。如果要进行的唇语识别数据是除了大量的空间信息外，还包含了十分重要的时间信息的视频数据，现有技术没有充分利用到时间信息和空间信息而导致准确率不太高。因此，如何对网络作出一些改进，使其提取局部动态空间特征的基础上获取更多时序信息，为唇语的识别提供更可靠、更有力的全局动态空间信息，从而提高识别的准确率，是一个急需解决的问题。

发明内容

有鉴于此，本发明提出了一种基于改进时空卷积网络的唇语识别方法，该方法包括：实时获取视频数据，视频数据输入到训练好的基于改进时空卷积网络的唇语识别模型中，输出唇语识别结果；

对基于改进时空卷积网络的唇语识别模型进行训练的过程包括：

S1：获取视频数据，从视频数据中截取包含面部的区域，得到面部区域视频数据，对面部区域视频数据进行预处理，将预处理后的数据进行划分，得到训练集和测试集；

S2：采用SST-ResNet网络对训练集中的数据依次进行局部静态空间特征提取和时序特征提取，得到局部静态空间特征和时序特征；根据局部静态空间特征和时序特征得到全局动态空间特征；

S3：采用IN-TCN模块对全局动态空间特征进行处理，得到用于结果分类的序列；

S4：将用于结果分类的序列输入到全连接层进行分类，获得唇语识别结果；

S5：根据唇语识别结果计算模型的损失函数，将测试集中的数据输入到模型中，不断调整模型的参数，当损失函数值最小时完成模型的训练。

优选的，对面部区域视频数据进行预处理的过程包括：重新设置每一帧视频数据的尺寸大小并对每一帧视频数据进行翻转和归一化处理，得到预处理后的视频数据。

优选的，采用SST-ResNet网络对训练集中的数据进行局部静态空间特征提取包括：采用SST-ResNet网络中卷积核1*7*7的空间滤波器来提取数据的空间分量，得到训练集中唇部区域的局部静态空间特征。

优选的，采用SST-ResNet网络对训练集中的数据进行时序特征提取包括：采用SST-ResNet网络中卷积核为5*1*1的时间滤波器来提取数据的时间分量，得到训练集中视频帧的时序特征。

优选的，根据局部静态空间特征和时序特征得到全局动态空间特征包括：采用SST-ResNet网络中的SST_ResNet_block分析局部静态空间特征和时序特征的时空相关性，得到训练集中唇部区域的全局动态空间特征。

优选的，采用IN-TCN模块对全局动态空间特征进行处理包括：采用IN-TCN网络中的维度控制层对提取到的全局动态空间特征进行聚合与降维操作，得到降维后的时序特征；采用不同尺度的卷积层对将维后的特征进行时序特征提取，得到不同尺度的时序特征；对不同尺度的时序特征进行信息融合，得到用于结果分类的序列。

优选的，唇语识别结果表示为：

R＝softmax(fc(Z(x)))

其中，R表示最终分类结果，Z(x)表示经过IN-TCN网络特征提取后的序列，fc(Z(x))表示全连接层。

优选的，模型的损失函数公式为：

其中，N表示样本数，L_i表示第i个样本的loss，M表示类别数，i表示第i个样本，y_ic表示样本i是否属于类别c，p_iC表示样本i属于类别c的预测概率。

本发明的有益效果为：与现有技术相比，本发明在特征提取阶段更注重视频流数据中局部静态空间特征和时序特征，充分利用了时间信息和空间信息的相关性，尽可能的减少语言内容再视觉表征上的歧义性，本发明为唇语的识别提供更可靠、更有力的信息，提高了对视觉歧义的鲁棒性，同时，通过将时序特征提取网络中的多个不同尺度的卷积操作前加入了一个维度控制层，减少特征图的大小，解决了网络的深度和宽度的问题，更适用于视频流数据的特征提取，具有良好的经济效益。

附图说明

图1为本发明中唇语识别的流程图；

图2为本发明中技术方法网络架构图；

图3为本发明中SST-ResNet网络的架构图；

图4为本发明中IN-TCN网络的架构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提出了一种基于改进时空卷积网络的唇语识别方法，如图1、图2所示，该方法包括：实时获取视频数据，视频数据输入到训练好的基于改进时空卷积网络的唇语识别模型中，输出唇语识别结果；

S2：采用SST-ResNet网络对训练集中的数据依次进行局部静态空间特征提取和时序特征提取，得到局部静态空间特征和时序特征；根据局部静态空间特征和时序特征得到全局动态空间特征。

对面部区域视频数据进行预处理的过程包括：重新设置每一帧视频数据的尺寸大小并对每一帧视频数据进行翻转和归一化处理，得到预处理后的视频数据；具体过程为：重新设置视频流数据每一帧的尺寸大小，优选的，设置为112*112；将设置好的每帧视频数据以0.5的概率进行翻转处理，得到翻转处理后的视频数据；将翻转处理后的视频数据进行归一化处理，使得视频数据在(-1,1)的区间，得到预处理好的视频数据。

三维卷积可以比二维卷积提取更多的特征信息，并在图像识别很多领域得到了广泛的应用。如果将三维卷积分解为一个二维的空间卷积和一个一维的时间卷积，能更有效地得到视频中帧与帧之间的时间信息。这种分离的时空卷积与三维卷积相比，不仅增加一倍的非线性数量，从而表示更加复杂的函数，还可以优化训练中的损失函数。

如图3所示，采用SST-ResNet网络对训练集中的数据进行特征提取包括：训练集中的数据可表示为序列(B,C,T,H,W)，采用SST-ResNet网络中卷积核1*7*7的空间滤波器来提取序列(B,C,T,H,W)提取空间分量，得到视频数据中唇部区域的局部静态空间特征；采用SST-ResNet网络中卷积核为5*1*1的时间滤波器对序列(B,C,T,H,W)提取时间分量，得到视频流的时序特征；采用SST-ResNet网络中剩余的SST_ResNet_block分析上述提取得到的局部静态空间特征和时序特征的时空相关性，得到全局动态空间特征信息；其中，B表示一次训练选取的样本数，C表示视觉通道数，T表示帧数，H表示高度，W表示宽度；SST_ResNet_block为SST-ResNet网络的一个模块。

TCN(时间卷积网络)近年来在序列模型上呈现出了较好的表现，其因果卷积和空洞卷积可以很好地处理带有历史记忆的序列模型。因为TCN想提取更多的特征，就必须进行更深层次网络的卷积，会造成参数变多、网络变大的问题。为了解决网络的深度和宽度的问题，本发明引入了Inception的思想，在每一个卷积层之前加入一个维度控制层。这不仅能减少特征图的维度，还能增加网络的深度的宽度。

一个tcn_block的网络结构如图4所示，IN-TCN网络包含多个tcn_block，采用IN-TCN模块对全局动态空间特征进行处理包括：采用IN-TCN网络中的维度控制层对提取到的全局动态空间特征进行聚合与降维操作，得到降维后的特征；其中，tcn_block表示一个IN-TCN网络模块。

采用tcn_block中三个不同尺度的卷积层对序列进行时序特征提取，得到不同尺度的时序信息；利用不同尺度时序信息的关联性，将多个尺度特征信息进行融合，得到用于结果分类的序列。其中，tcn_block中的空洞卷积在序列上可表示为：

其中，K表示卷积核的大小，f_k表示第k个卷积核，d表示膨胀因子，x_t-(K-k)d表示上一层的输出。

将通过IN-TCN生成的序列输入到全连接层，利用softmax函数获得唇语识别结果表示为：

R＝softmax(fc(Z(x)))

其中，R表示最终分类结果，Z(x)表示经过IN-TCN特征提取的序列，fc(Z(x))表示全连接层。

使用交叉熵函数作为模型的损失函数，计算模型的损失函数的公式为：

本发明首先使用SST-ResNet网络，获取视频数据中含有全局动态空间特征信息。随后，将得到的特征序列作为IN-TCN网络的输入来将进行时序特征的提取，最后经过全连接层识别唇语。与现有技术相比，本发明在特征提取阶段更注重视频流数据中局部静态空间特征和时序特征，尽量地减少语言内容再视觉表征上的歧义性，本发明为唇语的识别提供更可靠、更有力的信息，提高了识别的准确率，同时，通过将时序特征提取网络中的多个不同尺度的卷积操作前加入了一个维度控制层，减少特征图的大小，解决了网络的深度和宽度的问题，更适用于视频流数据的特征提取，具有良好的经济效益。

以上所举实施例，对本发明的目的、技术方案和优点进行了进一步的详细说明，所应理解的是，以上所举实施例仅为本发明的优选实施方式而已，并不用以限制本发明，凡在本发明的精神和原则之内对本发明所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于改进时空卷积网络的唇语识别方法，其特征在于，包括：实时获取视频数据，视频数据输入到训练好的基于改进时空卷积网络的唇语识别模型中，输出唇语识别结果；

S4：将用于结果分类的序列输入到全连接层进行分类，得到唇语识别结果；

2.根据权利要求1所述的一种基于改进时空卷积网络的唇语识别方法，其特征在于，对面部区域视频数据进行预处理的过程包括：重新设置每一帧视频数据的尺寸大小，并对每一帧视频数据进行翻转和归一化处理，得到预处理后的视频数据。

3.根据权利要求1所述的一种基于改进时空卷积网络的唇语识别方法，其特征在于，采用SST-ResNet网络对训练集中的数据进行局部静态空间特征提取包括：采用SST-ResNet网络中卷积核1*7*7的空间滤波器来提取数据的空间分量，得到训练集中唇部区域的局部静态空间特征。

4.根据权利要求1所述的一种基于改进时空卷积网络的唇语识别方法，其特征在于，采用SST-ResNet网络对训练集中的数据进行时序特征提取包括：采用SST-ResNet网络中卷积核为5*1*1的时间滤波器来提取数据的时间分量，得到训练集中视频帧的时序特征。

5.根据权利要求1所述的一种基于改进时空卷积网络的唇语识别方法，其特征在于，根据局部静态空间特征和时序特征得到全局动态空间特征包括：采用SST-ResNet网络中的SST_ResNet_block分析局部静态空间特征和时序特征的时空相关性，得到训练集中唇部区域的全局动态空间特征。

6.根据权利要求1所述的一种基于改进时空卷积网络的唇语识别方法，其特征在于，采用IN-TCN模块对全局动态空间特征进行处理包括：采用IN-TCN网络中的维度控制层对提取到的全局动态空间特征进行聚合与降维操作，得到降维后的时序特征；采用不同尺度的卷积层对将维后的特征进行时序特征提取，得到不同尺度的时序特征；对不同尺度的时序特征进行信息融合，得到用于结果分类的序列。

7.根据权利要求1所述的一种基于改进时空卷积网络的唇语识别方法，其特征在于，唇语识别结果表示为：

R＝softmax(fc(Z(x)))

8.根据权利要求1所述的一种基于改进时空卷积网络的唇语识别方法，其特征在于，模型的损失函数公式为：