CN114359786A - 一种基于改进时空卷积网络的唇语识别方法 - Google Patents

一种基于改进时空卷积网络的唇语识别方法 Download PDF

Info

Publication number
CN114359786A
CN114359786A CN202111483875.8A CN202111483875A CN114359786A CN 114359786 A CN114359786 A CN 114359786A CN 202111483875 A CN202111483875 A CN 202111483875A CN 114359786 A CN114359786 A CN 114359786A
Authority
CN
China
Prior art keywords
network
time
lip language
video data
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111483875.8A
Other languages
English (en)
Inventor
丰江帆
周甜
李俊材
何中鱼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN202111483875.8A priority Critical patent/CN114359786A/zh
Publication of CN114359786A publication Critical patent/CN114359786A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

本发明属于图像与视频处理技术领域,具体涉及一种基于改进时空卷积网络的唇语识别方法;该方法包括:实时获取视频数据,视频数据输入到训练好的基于改进时空卷积网络的唇语识别模型中,输出唇语识别结果;本发明在特征提取阶段综合利用视频流数据中局部静态空间特征和时序特征,提取出更有效的特征向量,尽可能的减少语言内容在视觉表征上的歧义性。本发明为唇语的识别提供更可靠、更有力的信息,提升了对于视觉歧义的鲁棒性,同时,通过将时序特征提取网络中的多个不同尺度的卷积操作前加入了一个维度控制层,减少特征图的大小,解决了网络的深度和宽度的问题,更适用于视频流数据的特征提取,具有良好的经济效益。

Description

一种基于改进时空卷积网络的唇语识别方法
技术领域
本发明属于图像与视频处理技术领域,具体涉及一种基于改进时空卷积网络的唇语识别方法。
背景技术
唇语识别一般包含两个特征提取阶段,CNN(卷积神经网络)在图像特征提取的领域表现优异,RNN(循环神经网络)则能更好地处理序列信息。根据CNN和RNN的特点,现有技术通常将CNN与RNN相结合,通过Resnet(残差网络)作为视觉提取前端,更好的提取唇部特征,通过LSTM(长短时记忆网络)作为序列处理后端,对特征序列进行处理,提取上下文信息。同时,还将时空卷积网络作为CNN网络的第一层,以便提取到粗略的时空信息。另外,对于上述方法出现了有诸多改进方法,比如将LSTM可替换成效果相同,但参数更少、收敛更快的GRU(门控循环单元网络),并采用音频作为辅助特征来提高唇语识别的准确率。为实现更高的识别率,现有技术通常利用Resnet和Densenet(密集残差网络)组成的多粒度网络来提取不同粒度的视频帧特征,同时引入了ConvLstm网络替换GRU网络。由于提取特征信息是非常重要的一步,可对特征提取模块进行了改进,将整个Resnet网络替换为了22层三维卷积网络,同时增加光流作为输入,来提取到较多的时间特征。也可从序列建模模块入手,放弃了RNN及其变体,采用在处理序列问题上表现更好的TCN(时间卷积网络)并展示出了最先进的性能。
上述方法都采用了深度学习的方法进行唇语识别,所用到的技术虽然已经在提取特征上作出了非常多的改进,但是它们在提取特征时很容易忽略掉时间信息。如果要进行的唇语识别数据是除了大量的空间信息外,还包含了十分重要的时间信息的视频数据,现有技术没有充分利用到时间信息和空间信息而导致准确率不太高。因此,如何对网络作出一些改进,使其提取局部动态空间特征的基础上获取更多时序信息,为唇语的识别提供更可靠、更有力的全局动态空间信息,从而提高识别的准确率,是一个急需解决的问题。
发明内容
有鉴于此,本发明提出了一种基于改进时空卷积网络的唇语识别方法,该方法包括:实时获取视频数据,视频数据输入到训练好的基于改进时空卷积网络的唇语识别模型中,输出唇语识别结果;
对基于改进时空卷积网络的唇语识别模型进行训练的过程包括:
S1:获取视频数据,从视频数据中截取包含面部的区域,得到面部区域视频数据,对面部区域视频数据进行预处理,将预处理后的数据进行划分,得到训练集和测试集;
S2:采用SST-ResNet网络对训练集中的数据依次进行局部静态空间特征提取和时序特征提取,得到局部静态空间特征和时序特征;根据局部静态空间特征和时序特征得到全局动态空间特征;
S3:采用IN-TCN模块对全局动态空间特征进行处理,得到用于结果分类的序列;
S4:将用于结果分类的序列输入到全连接层进行分类,获得唇语识别结果;
S5:根据唇语识别结果计算模型的损失函数,将测试集中的数据输入到模型中,不断调整模型的参数,当损失函数值最小时完成模型的训练。
优选的,对面部区域视频数据进行预处理的过程包括:重新设置每一帧视频数据的尺寸大小并对每一帧视频数据进行翻转和归一化处理,得到预处理后的视频数据。
优选的,采用SST-ResNet网络对训练集中的数据进行局部静态空间特征提取包括:采用SST-ResNet网络中卷积核1*7*7的空间滤波器来提取数据的空间分量,得到训练集中唇部区域的局部静态空间特征。
优选的,采用SST-ResNet网络对训练集中的数据进行时序特征提取包括:采用SST-ResNet网络中卷积核为5*1*1的时间滤波器来提取数据的时间分量,得到训练集中视频帧的时序特征。
优选的,根据局部静态空间特征和时序特征得到全局动态空间特征包括:采用SST-ResNet网络中的SST_ResNet_block分析局部静态空间特征和时序特征的时空相关性,得到训练集中唇部区域的全局动态空间特征。
优选的,采用IN-TCN模块对全局动态空间特征进行处理包括:采用IN-TCN网络中的维度控制层对提取到的全局动态空间特征进行聚合与降维操作,得到降维后的时序特征;采用不同尺度的卷积层对将维后的特征进行时序特征提取,得到不同尺度的时序特征;对不同尺度的时序特征进行信息融合,得到用于结果分类的序列。
优选的,唇语识别结果表示为:
R=softmax(fc(Z(x)))
其中,R表示最终分类结果,Z(x)表示经过IN-TCN网络特征提取后的序列,fc(Z(x))表示全连接层。
优选的,模型的损失函数公式为:
Figure BDA0003395849890000031
其中,N表示样本数,Li表示第i个样本的loss,M表示类别数,i表示第i个样本,yic表示样本i是否属于类别c,piC表示样本i属于类别c的预测概率。
本发明的有益效果为:与现有技术相比,本发明在特征提取阶段更注重视频流数据中局部静态空间特征和时序特征,充分利用了时间信息和空间信息的相关性,尽可能的减少语言内容再视觉表征上的歧义性,本发明为唇语的识别提供更可靠、更有力的信息,提高了对视觉歧义的鲁棒性,同时,通过将时序特征提取网络中的多个不同尺度的卷积操作前加入了一个维度控制层,减少特征图的大小,解决了网络的深度和宽度的问题,更适用于视频流数据的特征提取,具有良好的经济效益。
附图说明
图1为本发明中唇语识别的流程图;
图2为本发明中技术方法网络架构图;
图3为本发明中SST-ResNet网络的架构图;
图4为本发明中IN-TCN网络的架构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提出了一种基于改进时空卷积网络的唇语识别方法,如图1、图2所示,该方法包括:实时获取视频数据,视频数据输入到训练好的基于改进时空卷积网络的唇语识别模型中,输出唇语识别结果;
对基于改进时空卷积网络的唇语识别模型进行训练的过程包括:
S1:获取视频数据,从视频数据中截取包含面部的区域,得到面部区域视频数据,对面部区域视频数据进行预处理,将预处理后的数据进行划分,得到训练集和测试集;
S2:采用SST-ResNet网络对训练集中的数据依次进行局部静态空间特征提取和时序特征提取,得到局部静态空间特征和时序特征;根据局部静态空间特征和时序特征得到全局动态空间特征。
S3:采用IN-TCN模块对全局动态空间特征进行处理,得到用于结果分类的序列;
S4:将用于结果分类的序列输入到全连接层进行分类,获得唇语识别结果;
S5:根据唇语识别结果计算模型的损失函数,将测试集中的数据输入到模型中,不断调整模型的参数,当损失函数值最小时完成模型的训练。
对面部区域视频数据进行预处理的过程包括:重新设置每一帧视频数据的尺寸大小并对每一帧视频数据进行翻转和归一化处理,得到预处理后的视频数据;具体过程为:重新设置视频流数据每一帧的尺寸大小,优选的,设置为112*112;将设置好的每帧视频数据以0.5的概率进行翻转处理,得到翻转处理后的视频数据;将翻转处理后的视频数据进行归一化处理,使得视频数据在(-1,1)的区间,得到预处理好的视频数据。
三维卷积可以比二维卷积提取更多的特征信息,并在图像识别很多领域得到了广泛的应用。如果将三维卷积分解为一个二维的空间卷积和一个一维的时间卷积,能更有效地得到视频中帧与帧之间的时间信息。这种分离的时空卷积与三维卷积相比,不仅增加一倍的非线性数量,从而表示更加复杂的函数,还可以优化训练中的损失函数。
如图3所示,采用SST-ResNet网络对训练集中的数据进行特征提取包括:训练集中的数据可表示为序列(B,C,T,H,W),采用SST-ResNet网络中卷积核1*7*7的空间滤波器来提取序列(B,C,T,H,W)提取空间分量,得到视频数据中唇部区域的局部静态空间特征;采用SST-ResNet网络中卷积核为5*1*1的时间滤波器对序列(B,C,T,H,W)提取时间分量,得到视频流的时序特征;采用SST-ResNet网络中剩余的SST_ResNet_block分析上述提取得到的局部静态空间特征和时序特征的时空相关性,得到全局动态空间特征信息;其中,B表示一次训练选取的样本数,C表示视觉通道数,T表示帧数,H表示高度,W表示宽度;SST_ResNet_block为SST-ResNet网络的一个模块。
TCN(时间卷积网络)近年来在序列模型上呈现出了较好的表现,其因果卷积和空洞卷积可以很好地处理带有历史记忆的序列模型。因为TCN想提取更多的特征,就必须进行更深层次网络的卷积,会造成参数变多、网络变大的问题。为了解决网络的深度和宽度的问题,本发明引入了Inception的思想,在每一个卷积层之前加入一个维度控制层。这不仅能减少特征图的维度,还能增加网络的深度的宽度。
一个tcn_block的网络结构如图4所示,IN-TCN网络包含多个tcn_block,采用IN-TCN模块对全局动态空间特征进行处理包括:采用IN-TCN网络中的维度控制层对提取到的全局动态空间特征进行聚合与降维操作,得到降维后的特征;其中,tcn_block表示一个IN-TCN网络模块。
采用tcn_block中三个不同尺度的卷积层对序列进行时序特征提取,得到不同尺度的时序信息;利用不同尺度时序信息的关联性,将多个尺度特征信息进行融合,得到用于结果分类的序列。其中,tcn_block中的空洞卷积在序列上可表示为:
Figure BDA0003395849890000061
其中,K表示卷积核的大小,fk表示第k个卷积核,d表示膨胀因子,xt-(K-k)d表示上一层的输出。
将通过IN-TCN生成的序列输入到全连接层,利用softmax函数获得唇语识别结果表示为:
R=softmax(fc(Z(x)))
其中,R表示最终分类结果,Z(x)表示经过IN-TCN特征提取的序列,fc(Z(x))表示全连接层。
使用交叉熵函数作为模型的损失函数,计算模型的损失函数的公式为:
Figure BDA0003395849890000062
其中,N表示样本数,Li表示第i个样本的loss,M表示类别数,i表示第i个样本,yic表示样本i是否属于类别c,piC表示样本i属于类别c的预测概率。
本发明首先使用SST-ResNet网络,获取视频数据中含有全局动态空间特征信息。随后,将得到的特征序列作为IN-TCN网络的输入来将进行时序特征的提取,最后经过全连接层识别唇语。与现有技术相比,本发明在特征提取阶段更注重视频流数据中局部静态空间特征和时序特征,尽量地减少语言内容再视觉表征上的歧义性,本发明为唇语的识别提供更可靠、更有力的信息,提高了识别的准确率,同时,通过将时序特征提取网络中的多个不同尺度的卷积操作前加入了一个维度控制层,减少特征图的大小,解决了网络的深度和宽度的问题,更适用于视频流数据的特征提取,具有良好的经济效益。
以上所举实施例,对本发明的目的、技术方案和优点进行了进一步的详细说明,所应理解的是,以上所举实施例仅为本发明的优选实施方式而已,并不用以限制本发明,凡在本发明的精神和原则之内对本发明所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种基于改进时空卷积网络的唇语识别方法,其特征在于,包括:实时获取视频数据,视频数据输入到训练好的基于改进时空卷积网络的唇语识别模型中,输出唇语识别结果;
对基于改进时空卷积网络的唇语识别模型进行训练的过程包括:
S1:获取视频数据,从视频数据中截取包含面部的区域,得到面部区域视频数据,对面部区域视频数据进行预处理,将预处理后的数据进行划分,得到训练集和测试集;
S2:采用SST-ResNet网络对训练集中的数据依次进行局部静态空间特征提取和时序特征提取,得到局部静态空间特征和时序特征;根据局部静态空间特征和时序特征得到全局动态空间特征;
S3:采用IN-TCN模块对全局动态空间特征进行处理,得到用于结果分类的序列;
S4:将用于结果分类的序列输入到全连接层进行分类,得到唇语识别结果;
S5:根据唇语识别结果计算模型的损失函数,将测试集中的数据输入到模型中,不断调整模型的参数,当损失函数值最小时完成模型的训练。
2.根据权利要求1所述的一种基于改进时空卷积网络的唇语识别方法,其特征在于,对面部区域视频数据进行预处理的过程包括:重新设置每一帧视频数据的尺寸大小,并对每一帧视频数据进行翻转和归一化处理,得到预处理后的视频数据。
3.根据权利要求1所述的一种基于改进时空卷积网络的唇语识别方法,其特征在于,采用SST-ResNet网络对训练集中的数据进行局部静态空间特征提取包括:采用SST-ResNet网络中卷积核1*7*7的空间滤波器来提取数据的空间分量,得到训练集中唇部区域的局部静态空间特征。
4.根据权利要求1所述的一种基于改进时空卷积网络的唇语识别方法,其特征在于,采用SST-ResNet网络对训练集中的数据进行时序特征提取包括:采用SST-ResNet网络中卷积核为5*1*1的时间滤波器来提取数据的时间分量,得到训练集中视频帧的时序特征。
5.根据权利要求1所述的一种基于改进时空卷积网络的唇语识别方法,其特征在于,根据局部静态空间特征和时序特征得到全局动态空间特征包括:采用SST-ResNet网络中的SST_ResNet_block分析局部静态空间特征和时序特征的时空相关性,得到训练集中唇部区域的全局动态空间特征。
6.根据权利要求1所述的一种基于改进时空卷积网络的唇语识别方法,其特征在于,采用IN-TCN模块对全局动态空间特征进行处理包括:采用IN-TCN网络中的维度控制层对提取到的全局动态空间特征进行聚合与降维操作,得到降维后的时序特征;采用不同尺度的卷积层对将维后的特征进行时序特征提取,得到不同尺度的时序特征;对不同尺度的时序特征进行信息融合,得到用于结果分类的序列。
7.根据权利要求1所述的一种基于改进时空卷积网络的唇语识别方法,其特征在于,唇语识别结果表示为:
R=softmax(fc(Z(x)))
其中,R表示最终分类结果,Z(x)表示经过IN-TCN网络特征提取后的序列,fc(Z(x))表示全连接层。
8.根据权利要求1所述的一种基于改进时空卷积网络的唇语识别方法,其特征在于,模型的损失函数公式为:
Figure FDA0003395849880000021
其中,N表示样本数,Li表示第i个样本的loss,M表示类别数,i表示第i个样本,yic表示样本i是否属于类别c,piC表示样本i属于类别c的预测概率。
CN202111483875.8A 2021-12-07 2021-12-07 一种基于改进时空卷积网络的唇语识别方法 Pending CN114359786A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111483875.8A CN114359786A (zh) 2021-12-07 2021-12-07 一种基于改进时空卷积网络的唇语识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111483875.8A CN114359786A (zh) 2021-12-07 2021-12-07 一种基于改进时空卷积网络的唇语识别方法

Publications (1)

Publication Number Publication Date
CN114359786A true CN114359786A (zh) 2022-04-15

Family

ID=81096732

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111483875.8A Pending CN114359786A (zh) 2021-12-07 2021-12-07 一种基于改进时空卷积网络的唇语识别方法

Country Status (1)

Country Link
CN (1) CN114359786A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116580440A (zh) * 2023-05-24 2023-08-11 北华航天工业学院 基于视觉transformer的轻量级唇语识别方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116580440A (zh) * 2023-05-24 2023-08-11 北华航天工业学院 基于视觉transformer的轻量级唇语识别方法
CN116580440B (zh) * 2023-05-24 2024-01-26 北华航天工业学院 基于视觉transformer的轻量级唇语识别方法

Similar Documents

Publication Publication Date Title
CN113936339B (zh) 基于双通道交叉注意力机制的打架识别方法和装置
CN110110624B (zh) 一种基于DenseNet网络与帧差法特征输入的人体行为识别方法
CN111639692A (zh) 一种基于注意力机制的阴影检测方法
CN110853074B (zh) 一种利用光流增强目标的视频目标检测网络系统
CN110827265B (zh) 基于深度学习的图片异常检测方法
CN109871749B (zh) 一种基于深度哈希的行人重识别方法和装置、计算机系统
Wang et al. Multiscale deep alternative neural network for large-scale video classification
CN113159023A (zh) 基于显式监督注意力机制的场景文本识别方法
CN113762138A (zh) 伪造人脸图片的识别方法、装置、计算机设备及存储介质
CN108710836B (zh) 一种基于级联特征提取的唇部检测及读取方法
CN110852295A (zh) 一种基于多任务监督学习的视频行为识别方法
CN114694255B (zh) 基于通道注意力与时间卷积网络的句子级唇语识别方法
CN114973222A (zh) 基于显式监督注意力机制的场景文本识别方法
CN112949481A (zh) 一种用于说话人无关的唇语识别方法及系统
CN113963333B (zh) 一种基于改进yolof模型的交通标志牌检测方法
CN111898614B (zh) 神经网络系统以及图像信号、数据处理的方法
Zhou et al. Msflow: Multiscale flow-based framework for unsupervised anomaly detection
CN113139618B (zh) 一种基于集成防御的鲁棒性增强的分类方法及装置
CN114359786A (zh) 一种基于改进时空卷积网络的唇语识别方法
CN111242114B (zh) 文字识别方法及装置
CN112016434A (zh) 一种基于注意力机制3d残差网络的镜头运动识别方法
CN116128998A (zh) 一种多路并行的文本到图像生成方法和系统
CN116912920B (zh) 表情识别方法及装置
CN116701695B (zh) 一种级联角点特征与孪生网络的图像检索方法及系统
CN118038451B (zh) 开放世界果实检测模型构建方法、检测方法及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination