CN111259785A - 基于时间偏移残差网络的唇语识别方法 - Google Patents

基于时间偏移残差网络的唇语识别方法 Download PDF

Info

Publication number
CN111259785A
CN111259785A CN202010038845.5A CN202010038845A CN111259785A CN 111259785 A CN111259785 A CN 111259785A CN 202010038845 A CN202010038845 A CN 202010038845A CN 111259785 A CN111259785 A CN 111259785A
Authority
CN
China
Prior art keywords
neural network
network model
sequence
lip
feature vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010038845.5A
Other languages
English (en)
Other versions
CN111259785B (zh
Inventor
吴晓华
樊友平
庞红
令狐阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202010038845.5A priority Critical patent/CN111259785B/zh
Publication of CN111259785A publication Critical patent/CN111259785A/zh
Application granted granted Critical
Publication of CN111259785B publication Critical patent/CN111259785B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/171Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于时间偏移残差网络的唇语识别方法,首先提取图片序列中人物嘴唇区域,构建一个基于时间偏移模块的深度残差网络模型,自动地提取每个图片帧中嘴唇形状特征;然后使用LSTM将时间偏移模块的序列特征转化为一个时间序列上的特征向量;最后将特征向量输入至一个含有注意力机制的语言序列生成模型,产生唇语识别结果。本发明将视频图片中的唇动序列转化为语言序列,采用了特殊的残差网络模块,解决了唇语识别中计算复杂的问题,具有准确度高和运行效率高的特点。

Description

基于时间偏移残差网络的唇语识别方法
技术领域
本发明属于人工智能和深度学习技术领域,具体涉及一种基于时间偏移残差网络的唇语识别方法的设计。
背景技术
随着深度学习和人工智能技术的发展,以及高清视频监控的大规模应用,在机器视觉领域内出现了唇语识别技术。唇语识别技术可应用于生物活体认证、噪声环境下的语音识别辅助以及安防领域的监控等场景中,具有重要的社会现实意义与价值。
因为嘴唇运动带来的信息也是说话内容一种重要表现形式,所以观察人们说话时嘴唇运动变化可以识别说话内容。通过深度学习方法构建神经网络模型让机器学会阅读唇语是一种新的技术。目前使用的神经网络模型具有计算量复杂、识别计算量大等问题。而且唇语识别技术需要大量的唇语视频数据,但是目前标准的唇语数据一般取自于电视新闻节目中的视频素材,而且受嘴形、唇色以及人们发音等影响,即使人们说出相同的内容,每个人的唇动信息都不相同,这导致了目前唇语识别在应用时出现了准确率不高的问题。
发明内容
本发明的目的是为了解决现有的唇语识别技术的计算量大且准确率不高的问题,提出了一种基于时间偏移残差网络的唇语识别方法,能够高效而又准确地识别唇语。
本发明的技术方案为:基于时间偏移残差网络的唇语识别方法,包括训练数据预处理阶段、神经网络模型训练阶段和预测识别阶段。
训练数据预处理阶段包括以下步骤S1~S3:
S1、选取包含嘴唇的原始图片并对其进行检测与裁剪,得到嘴唇区域图片序列。
S2、对嘴唇区域图片序列进行数据增强。
S3、对数据增强后的图片序列进行归一化,得到预处理后的训练数据。
神经网络模型训练阶段包括以下步骤S4~S6:
S4、将预处理后的训练数据作为神经网络模型编码器的输入,输出得到编码过后的特征向量序列和编码器状态向量。
S5、将编码过后的特征向量序列和编码器状态向量作为神经网络模型解码器的输入,当解码出结尾标志符时,结束解码过程。
S6、基于反向传播算法,采用导师驱动的方式最小化交叉熵损失训练整个神经网络模型,得到训练完成的神经网络模型。
预测识别阶段包括以下步骤S7~S9:
S7、对待识别图片进行预处理,并将预处理后的待识别图片序列作为训练完成的神经网络模型编码器的输入,输出编码过后的特征向量序列和编码器状态向量。
S8、将编码过后的特征向量序列和编码器状态向量作为训练完成的神经网络模型解码器的输入,当解码出结尾标志符时,结束解码过程。
S9、拼接训练完成的神经网络模型解码器的所有输出,得到唇语识别结果。
进一步地,步骤S1包括以下分步骤:
S11、从训练数据集中选取部分包含嘴唇的原始图片,标记嘴唇区域矩形框作为嘴唇检测训练标签。
S12、基于HOG特征与SVM算法模型进行嘴唇区域检测模型训练。
S13、使用训练完成的模型检测训练数据集中所有原始图片的嘴唇区域,得到嘴唇区域图片序列。
进一步地,步骤S2具体为:对嘴唇区域图片序列进行随机平移、旋转、缩放、水平翻转和随机改变明暗度,得到数据增强后的图片序列。
进一步地,步骤S3具体为:对数据增强后的图片序列三个通道的像素值进行归一化,将每一个像素值除以255,映射到0到1的数值范围,得到预处理后的训练数据。
进一步地,步骤S4中的神经网络模型编码器包括基于TSM的2DResnet和BiLSTM。
步骤S4包括以下分步骤:
S41、在2DResnet的残差连接块中添加时间偏移模块TSM。
S42、通过基于TSM的2DResnet同时提取输入图片的空间特征和短期图片的序列特征,输出特征向量序列。
S43、将2DResnet输出的特征向量序列输入到BiLSTM中提取长期图片的序列特征,输出得到编码过后的特征向量序列和编码器状态向量。
进一步地,步骤S5中的神经网络模型解码器采用基于注意力的长短时记忆网络结构LSTM。
步骤S5包括以下分步骤:
S51、将编码器状态向量s作为神经网络模型解码器的初始输入状态s0,并基于注意力计算公式计算当前输入状态与编码过后的特征向量的相关度,计算公式为:
Figure BDA0002367011160000021
其中aij表示第i个输入状态si与第j个编码过后的特征向量hj的相关度,eij表示未归一化的第i个输入状态si与第j个编码过后的特征向量hj的相关度,eik表示未归一化的第i个输入状态si与第k个编码过后的特征向量hk的相关度,T表示编码过后的特征向量序列长度,且有:
eij=f(si-1,hj)
其中f(·)表示单层的全连接神经网络函数,si-1表示第i-1个输入状态,hj表示第j个编码过后的特征向量。
S52、对所有编码过后的特征向量根据相关度进行加权平均,得到加权平均特征向量,计算公式为:
Figure BDA0002367011160000031
其中ci表示第i个加权平均特征向量。
S53、将加权平均特征向量ci与正确标签词的词向量拼接后得到第i个神经网络模型解码器的输入xi,并将其输入至神经网络模型解码器,输出得到第i个词的预测类别yi和当前第i个输入状态si
S54、令计数值i加1,重复步骤S53,直到神经网络模型解码器输出标签类别为结尾标志符时,结束解码过程。
进一步地,步骤S6包括以下分步骤:
S61、计算神经网络模型解码器所有位置交叉熵损失的平均值,计算公式为:
Figure BDA0002367011160000032
其中loss表示神经网络模型解码器所有位置交叉熵损失的平均值,T0表示包含结尾标记词的输出语句长度,yl表示第l个正确类别的one-hot向量,
Figure BDA0002367011160000033
表示所有类别的预测概率。
S62、基于反向传播算法,计算神经网络模型所有参数的梯度。
S63、使用基于动量的随机梯度下降优化算法迭代更新神经网络模型的参数值来最小化平均交叉熵损失,直到算法收敛,得到训练完成的神经网络模型。
进一步地,步骤S7包括以下分步骤:
S71、选取部分待识别图片,标记嘴唇区域矩形框作为嘴唇检测训练标签。
S72、基于HOG特征与SVM算法模型进行嘴唇区域检测模型训练。
S73、使用训练完成的模型检测所有待识别图片的嘴唇区域,得到嘴唇区域图片序列。
S74、对嘴唇区域图片序列三个通道的像素值进行归一化,将每一个像素值除以255,映射到0到1的数值范围,得到预处理后的待识别图片序列。
S75、将预处理后的待识别图片序列作为训练完成的神经网络模型编码器的输入,输出编码过后的特征向量序列和编码器状态向量。
进一步地,步骤S8包括以下分步骤:
S81、将编码器状态向量s作为神经网络模型解码器的初始输入状态s0,并基于注意力计算公式计算当前输入状态与编码过后的特征向量的相关度,计算公式为:
Figure BDA0002367011160000041
其中aij表示第i个输入状态si与第j个编码过后的特征向量hj的相关度,eij表示未归一化的第i个输入状态si与第j个编码过后的特征向量hj的相关度,eik表示未归一化的第i个输入状态si与第k个编码过后的特征向量hk的相关度,T表示编码过后的特征向量序列长度,且有:
eij=f(si-1,hj)
其中f(·)表示单层的全连接神经网络函数,si-1表示第i-1个输入状态,hj表示第j个编码过后的特征向量。
S82、对所有编码过后的特征向量根据相关度进行加权平均,得到加权平均特征向量,计算公式为:
Figure BDA0002367011160000042
其中ci表示第i个加权平均特征向量。
S83、将加权平均特征向量ci与第i-1个词的预测类别yi-1拼接后得到第i个神经网络模型解码器的输入xi,并将其输入至神经网络模型解码器,输出得到第i个词的预测类别yi和当前第i个输入状态si
S84、令计数值i加1,重复步骤S83,直到神经网络模型解码器输出标签类别为结尾标志符时,结束解码过程。
进一步地,步骤S9包括以下分步骤:
S91、拼接训练完成的神经网络模型解码器的所有输出类别,并去掉结尾标志符。
S92、将所有输出类别转化为对应的词或字,得到唇语识别结果。
本发明的有益效果是:本发明提供了一种基于时间偏移残差网络的唇语识别方法,基于2D残差网络,可以准确提取序列图片的空间特征,时间偏移模块TSM通过交换相邻帧的部分通道特征图达到3D卷积提取短期图片的序列特征的能力,既能保证2D残差网络的高效性,又能达到3D残差网络的准确性;加上BiLSTM的结构能有效捕捉长期图片序列特征,最终实现高效并且准确的唇语序列特征提取;此外,本发明通过基于注意力的LSTM解码器,能够有效且准确地解码出唇语序列图片中的文字信息。
附图说明
图1所示为本发明实施例提供的基于时间偏移残差网络的唇语识别方法流程图。
图2所示为本发明实施例提供的整体的方案示意图。
图3所示为本发明实施例提供的基于TSM的残差单元结构图。
图4所示为本发明实施例提供的基于TSM的18层的残差网络结构图。
图5所示为本发明实施例提供的基于注意力的LSTM解码器解码过程示意图。
具体实施方式
现在将参考附图来详细描述本发明的示例性实施方式。应当理解,附图中示出和描述的实施方式仅仅是示例性的,意在阐释本发明的原理和精神,而并非限制本发明的范围。
本发明实施例提供了一种基于时间偏移残差网络的唇语识别方法,如图1所示,包括训练数据预处理阶段、神经网络模型训练阶段和预测识别阶段。本发明实施例中,仿真实验使用的唇语图片序列共9994个样本,其中前8994条为训练样本,后1000条为测试样本。唇语图片序列最长为24帧,平均长度7至8帧,每张为半脸包含嘴唇的图片。输出唇语文字字典大小431,输出文字长度最长为4,平均长度3至4,本发明实施例的整体方案如图2所示。
其中,训练数据预处理阶段包括以下步骤S1~S3:
S1、选取包含嘴唇的73567张原始图片并对其进行检测与裁剪,得到嘴唇区域图片序列。
S2、对嘴唇区域图片序列进行数据增强。
S3、对数据增强后的图片序列进行归一化,得到预处理后的训练数据。
步骤S1包括以下分步骤S11~S13:
S11、从9994条训练数据集中随机选取1000条图片样本序列,再从每一条图片样本序列中随机采样一张包含嘴唇的原始图片,使用Dlib库中的Imglab对这1000张图片标记嘴唇区域矩形框,并作为嘴唇检测训练标签。
S12、基于HOG特征与SVM算法模型进行嘴唇区域检测模型训练。
本发明实施例中,将700张图片作为嘴唇区域检测模型的训练集,剩下300张作为嘴唇区域检测模型的测试集,训练准确率0.99,召回率0.96,测试准确率0.98,召回率0.97。
S13、使用训练完成的模型检测训练数据集中73567张原始图片的嘴唇区域,得到嘴唇区域图片序列,单进程执行耗时35分钟。
步骤S2具体为:使用神经网络框架keras的图像预处理类ImageDataGenerator对嘴唇区域图片序列进行实时增强,对嘴唇区域图片序列进行随机平移0至15%、旋转0至20度、缩放0至0.2、50%概率水平翻转和随机改变明暗度0.2至1.0。
步骤S3具体为:对数据增强后的图片序列三个通道的像素值进行归一化,将每一个像素值除以255,映射到0到1的数值范围,得到预处理后的训练数据。
神经网络模型训练阶段包括以下步骤S4~S6:
S4、将预处理后的训练数据作为神经网络模型编码器的输入,输出得到编码过后的特征向量序列和编码器状态向量。
S5、将编码过后的特征向量序列和编码器状态向量作为神经网络模型解码器的输入,当解码出结尾标志符时,结束解码过程。
S6、基于反向传播算法,采用导师驱动的方式最小化交叉熵损失训练整个神经网络模型,得到训练完成的神经网络模型。
本发明实施例中,神经网络模型编码器包括基于时间偏移模块TSM(temporal-shift-module)的2DResnet和BiLSTM,神经网络模型解码器采用基于注意力的长短时记忆网络结构LSTM。
步骤S4包括以下分步骤S41~S43:
S41、在2DResnet的残差连接块中添加时间偏移模块TSM。本发明实施例中,TSM通过交换相邻帧的部分通道特征图达到3D卷积提取短期图片的序列特征的功能,既能保证编码器具有2D卷积神经网络的高效性,又能达到3D卷积神经网络的准确度。
S42、通过基于TSM的2DResnet同时提取输入图片的空间特征和短期图片的序列特征,输出特征向量序列。
S43、将2DResnet输出的特征向量序列输入到BiLSTM中提取长期图片的序列特征,输出得到编码过后的特征向量序列和编码器状态向量。
本发明实施例中,为了加快神经网络模型的训练时间,将预处理后的图片序列统一为64×64大小的3通道彩色图片,并将所有图片序列补0至24帧固定长度作为神经网络模型编码器的输入。如图3所示,本发明实施例首先在残差单元中添加TSM来改进2D残差网络单元结构,其中TSM将特征图中1/4的通道与前后帧特征图的通道交换。如图4所示,神经网络模型编码器中卷积部分采用基于TSM的18层2DResnet,输出的特征向量维度为24×512;循环部分采用隐藏层单元个数为256、层数为2的双向LSTM。神经网络模型编码器最终输出特征向量序列维度为24×256,状态s维度为2×256。
如图5所示,步骤S5包括以下分步骤S51~S54:
S51、将编码器状态向量s作为神经网络模型解码器的初始输入状态s0,并基于注意力计算公式计算当前输入状态与编码过后的特征向量的相关度,计算公式为:
Figure BDA0002367011160000071
其中aij表示第i个输入状态si与第j个编码过后的特征向量hj的相关度,eij表示未归一化的第i个输入状态si与第j个编码过后的特征向量hj的相关度,eik表示未归一化的第i个输入状态si与第k个编码过后的特征向量hk的相关度,T表示编码过后的特征向量序列长度,且有:
eij=f(si-1,hj)
其中f(·)表示单层的全连接神经网络函数,si-1表示第i-1个输入状态,hj表示第j个编码过后的特征向量。
本发明实施例中,编码器状态向量s的维度为2×256,相关度aij的维度为1×T,T=24,编码过后的特征向量hj的维度为1×256。
S52、对所有编码过后的特征向量根据相关度进行加权平均,得到加权平均特征向量,计算公式为:
Figure BDA0002367011160000072
其中ci表示第i个加权平均特征向量。本发明实施例中,加权平均特征向量ci的维度为1×256。
S53、将加权平均特征向量ci与正确标签词的词向量拼接后得到第i个神经网络模型解码器的输入xi,并将其输入至神经网络模型解码器,输出得到第i个词的预测类别yi和当前第i个输入状态si
S54、令计数值i加1,重复步骤S53,直到神经网络模型解码器输出标签类别为结尾标志符时,结束解码过程。
进一步地,步骤S6包括以下分步骤S61~S63:
S61、计算神经网络模型解码器所有位置交叉熵损失的平均值,计算公式为:
Figure BDA0002367011160000081
其中loss表示神经网络模型解码器所有位置交叉熵损失的平均值,T0表示包含结尾标记词的输出语句长度,yl表示第l个正确类别的one-hot向量,维度为1×431,
Figure BDA0002367011160000082
表示所有类别的预测概率,维度为1×431。
S62、基于反向传播算法,计算神经网络模型所有参数的梯度。
S63、使用动量为0.9、学习率为0.01的随机梯度下降优化算法迭代更新神经网络模型的参数值来最小化平均交叉熵损失,当验证损失不下降的时候,学习率减小10倍。本发明实施例中,batch_size=32的情况下,在150轮收敛,训练精度0.99,测试精度0.74。
预测识别阶段包括以下步骤S7~S9:
S7、对待识别图片进行预处理,并将预处理后的待识别图片序列作为训练完成的神经网络模型编码器的输入,输出编码过后的特征向量序列和编码器状态向量。
S8、将编码过后的特征向量序列和编码器状态向量作为训练完成的神经网络模型解码器的输入,当解码出结尾标志符时,结束解码过程。
S9、拼接训练完成的神经网络模型解码器的所有输出,得到唇语识别结果。
步骤S7包括以下分步骤S71~S75:
S71、选取部分待识别图片,标记嘴唇区域矩形框作为嘴唇检测训练标签。
S72、基于HOG特征与SVM算法模型进行嘴唇区域检测模型训练。
S73、使用训练完成的模型检测所有待识别图片的嘴唇区域,得到嘴唇区域图片序列。
S74、对嘴唇区域图片序列三个通道的像素值进行归一化,将每一个像素值除以255,映射到0到1的数值范围,得到预处理后的待识别图片序列。
S75、将预处理后的待识别图片序列作为训练完成的神经网络模型编码器的输入,输出编码过后的特征向量序列(维度为1×256)和编码器状态向量(维度为2×256)。
本发明实施例中,对待识别图片进行预处理时只需要对其进行裁剪与归一化处理,不需要对其进行数据增强。
步骤S8包括以下分步骤S81~S84:
S81、将编码器状态向量s作为神经网络模型解码器的初始输入状态s0,并基于注意力计算公式计算当前输入状态与编码过后的特征向量的相关度,计算公式为:
Figure BDA0002367011160000091
其中aij表示第i个输入状态si与第j个编码过后的特征向量hj的相关度,eij表示未归一化的第i个输入状态si与第j个编码过后的特征向量hj的相关度,eik表示未归一化的第i个输入状态si与第k个编码过后的特征向量hk的相关度,T表示编码过后的特征向量序列长度,且有:
eij=f(si-1,hj)
其中f(·)表示单层的全连接神经网络函数,si-1表示第i-1个输入状态,hj表示第j个编码过后的特征向量。
S82、对所有编码过后的特征向量根据相关度进行加权平均,得到加权平均特征向量,计算公式为:
Figure BDA0002367011160000092
其中ci表示第i个加权平均特征向量。
S83、将加权平均特征向量ci与第i-1个词的预测类别yi-1拼接后得到第i个神经网络模型解码器的输入xi,并将其输入至神经网络模型解码器,输出得到第i个词的预测类别yi和当前第i个输入状态si
S84、令计数值i加1,重复步骤S83,直到神经网络模型解码器输出标签类别为结尾标志符时,结束解码过程。
本发明实施例中,步骤S8与步骤S5的具体步骤基本相同,唯一区别是步骤S5中LSTM解码器的输入词是正确的标签词,而步骤S8中是上一个LSTM解码器的预测结果词。
步骤S9包括以下分步骤S91~S92:
S91、拼接训练完成的神经网络模型解码器的所有输出类别,并去掉结尾标志符。
S92、将所有输出类别转化为对应的词或字,得到唇语识别结果。
下面以两个具体实验例对本发明提供的基于时间偏移残差网络的唇语识别方法的估计正确率和运行速度做进一步描述。
(1)估计正确率。
本具体实验例中,当预测的所有字正确的时候预测结果才算正确,数据集的语句在封闭集合中,一共有313个语句类别。编码器采用18层3DResnet和BiLSTM的时候训练150轮收敛,测试准确率0.73。18层基于TSM的2DResnet和BiLSTM的时候训练150轮收敛,测试准确率0.74。可见本发明在2DResnet情况下能达到和3DResnet一样的性能,对比结果如表1所示:
表1测试结果表
编码器网络结构 训练轮数 测试精度
TSM+2DResnet+BiLSTM 150 0.74
3DResnet+BiLSTM 150 0.73
(2)运行速度。
将本发明方法与基于3DResnet+BiLSTM为编码器的方法的运行速度的进行比较。本发明方法的程序均是由Python框架keras编写,测试机器为Intel(R)i7处理器,主频为2.4GHz,内存为32GB,GPU为GTX1080ti,显存12G,对比结果如表2所示:
表2训练和预测时间(单位:秒)
方法 平均训练时间/轮 平均预测时间/轮
TSM+2DResnet+BiLSTM 43 4
3DResnet+BiLSTM 62 7
可以看到,相比于3DResnet+BiLSTM,本发明方法训练时间较明显缩短,且预测时间也有明显优势,平均每个样本预测时间为0.004秒,满足实时性的要求。
本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合,这些变形和组合仍然在本发明的保护范围内。

Claims (10)

1.基于时间偏移残差网络的唇语识别方法,其特征在于,包括训练数据预处理阶段、神经网络模型训练阶段和预测识别阶段;
所述训练数据预处理阶段包括以下步骤S1~S3:
S1、选取包含嘴唇的原始图片并对其进行检测与裁剪,得到嘴唇区域图片序列;
S2、对嘴唇区域图片序列进行数据增强;
S3、对数据增强后的图片序列进行归一化,得到预处理后的训练数据;
所述神经网络模型训练阶段包括以下步骤S4~S6:
S4、将预处理后的训练数据作为神经网络模型编码器的输入,输出得到编码过后的特征向量序列和编码器状态向量;
S5、将编码过后的特征向量序列和编码器状态向量作为神经网络模型解码器的输入,当解码出结尾标志符时,结束解码过程;
S6、基于反向传播算法,采用导师驱动的方式最小化交叉熵损失训练整个神经网络模型,得到训练完成的神经网络模型;
所述预测识别阶段包括以下步骤S7~S9:
S7、对待识别图片进行预处理,并将预处理后的待识别图片序列作为训练完成的神经网络模型编码器的输入,输出编码过后的特征向量序列和编码器状态向量;
S8、将编码过后的特征向量序列和编码器状态向量作为训练完成的神经网络模型解码器的输入,当解码出结尾标志符时,结束解码过程;
S9、拼接训练完成的神经网络模型解码器的所有输出,得到唇语识别结果。
2.根据权利要求1所述的唇语识别方法,其特征在于,所述步骤S1包括以下分步骤:
S11、从训练数据集中选取部分包含嘴唇的原始图片,标记嘴唇区域矩形框作为嘴唇检测训练标签;
S12、基于HOG特征与SVM算法模型进行嘴唇区域检测模型训练;
S13、使用训练完成的模型检测训练数据集中所有原始图片的嘴唇区域,得到嘴唇区域图片序列。
3.根据权利要求1所述的唇语识别方法,其特征在于,所述步骤S2具体为:对嘴唇区域图片序列进行随机平移、旋转、缩放、水平翻转和随机改变明暗度,得到数据增强后的图片序列。
4.根据权利要求1所述的唇语识别方法,其特征在于,所述步骤S3具体为:对数据增强后的图片序列三个通道的像素值进行归一化,将每一个像素值除以255,映射到0到1的数值范围,得到预处理后的训练数据。
5.根据权利要求1所述的唇语识别方法,其特征在于,所述步骤S4中的神经网络模型编码器包括基于TSM的2DResnet和BiLSTM;
所述步骤S4包括以下分步骤:
S41、在2DResnet的残差连接块中添加时间偏移模块TSM;
S42、通过基于TSM的2DResnet同时提取输入图片的空间特征和短期图片的序列特征,输出特征向量序列;
S43、将2DResnet输出的特征向量序列输入到BiLSTM中提取长期图片的序列特征,输出得到编码过后的特征向量序列和编码器状态向量。
6.根据权利要求1所述的唇语识别方法,其特征在于,所述步骤S5中的神经网络模型解码器采用基于注意力的长短时记忆网络结构LSTM;
所述步骤S5包括以下分步骤:
S51、将编码器状态向量s作为神经网络模型解码器的初始输入状态s0,并基于注意力计算公式计算当前输入状态与编码过后的特征向量的相关度,计算公式为:
Figure FDA0002367011150000021
其中aij表示第i个输入状态si与第j个编码过后的特征向量hj的相关度,eij表示未归一化的第i个输入状态si与第j个编码过后的特征向量hj的相关度,eik表示未归一化的第i个输入状态si与第k个编码过后的特征向量hk的相关度,T表示编码过后的特征向量序列长度,且有:
eij=f(si-1,hj)
其中f(·)表示单层的全连接神经网络函数,si-1表示第i-1个输入状态,hj表示第j个编码过后的特征向量;
S52、对所有编码过后的特征向量根据相关度进行加权平均,得到加权平均特征向量,计算公式为:
Figure FDA0002367011150000022
其中ci表示第i个加权平均特征向量;
S53、将加权平均特征向量ci与正确标签词的词向量拼接后得到第i个神经网络模型解码器的输入xi,并将其输入至神经网络模型解码器,输出得到第i个词的预测类别yi和当前第i个输入状态si
S54、令计数值i加1,重复步骤S53,直到神经网络模型解码器输出标签类别为结尾标志符时,结束解码过程。
7.根据权利要求1所述的唇语识别方法,其特征在于,所述步骤S6包括以下分步骤:
S61、计算神经网络模型解码器所有位置交叉熵损失的平均值,计算公式为:
Figure FDA0002367011150000031
其中loss表示神经网络模型解码器所有位置交叉熵损失的平均值,T0表示包含结尾标记词的输出语句长度,yl表示第l个正确类别的one-hot向量,
Figure FDA0002367011150000032
表示所有类别的预测概率;
S62、基于反向传播算法,计算神经网络模型所有参数的梯度;
S63、使用基于动量的随机梯度下降优化算法迭代更新神经网络模型的参数值来最小化平均交叉熵损失,直到算法收敛,得到训练完成的神经网络模型。
8.根据权利要求1所述的唇语识别方法,其特征在于,所述步骤S7包括以下分步骤:
S71、选取部分待识别图片,标记嘴唇区域矩形框作为嘴唇检测训练标签;
S72、基于HOG特征与SVM算法模型进行嘴唇区域检测模型训练;
S73、使用训练完成的模型检测所有待识别图片的嘴唇区域,得到嘴唇区域图片序列;
S74、对嘴唇区域图片序列三个通道的像素值进行归一化,将每一个像素值除以255,映射到0到1的数值范围,得到预处理后的待识别图片序列;
S75、将预处理后的待识别图片序列作为训练完成的神经网络模型编码器的输入,输出编码过后的特征向量序列和编码器状态向量。
9.根据权利要求1所述的唇语识别方法,其特征在于,所述步骤S8包括以下分步骤:
S81、将编码器状态向量s作为神经网络模型解码器的初始输入状态s0,并基于注意力计算公式计算当前输入状态与编码过后的特征向量的相关度,计算公式为:
Figure FDA0002367011150000033
其中aij表示第i个输入状态si与第j个编码过后的特征向量hj的相关度,eij表示未归一化的第i个输入状态si与第j个编码过后的特征向量hj的相关度,eik表示未归一化的第i个输入状态si与第k个编码过后的特征向量hk的相关度,T表示编码过后的特征向量序列长度,且有:
eij=f(si-1,hj)
其中f(·)表示单层的全连接神经网络函数,si-1表示第i-1个输入状态,hj表示第j个编码过后的特征向量;
S82、对所有编码过后的特征向量根据相关度进行加权平均,得到加权平均特征向量,计算公式为:
Figure FDA0002367011150000041
其中ci表示第i个加权平均特征向量;
S83、将加权平均特征向量ci与第i-1个词的预测类别yi-1拼接后得到第i个神经网络模型解码器的输入xi,并将其输入至神经网络模型解码器,输出得到第i个词的预测类别yi和当前第i个输入状态si
S84、令计数值i加1,重复步骤S83,直到神经网络模型解码器输出标签类别为结尾标志符时,结束解码过程。
10.根据权利要求1所述的唇语识别方法,其特征在于,所述步骤S9包括以下分步骤:
S91、拼接训练完成的神经网络模型解码器的所有输出类别,并去掉结尾标志符;
S92、将所有输出类别转化为对应的词或字,得到唇语识别结果。
CN202010038845.5A 2020-01-14 2020-01-14 基于时间偏移残差网络的唇语识别方法 Active CN111259785B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010038845.5A CN111259785B (zh) 2020-01-14 2020-01-14 基于时间偏移残差网络的唇语识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010038845.5A CN111259785B (zh) 2020-01-14 2020-01-14 基于时间偏移残差网络的唇语识别方法

Publications (2)

Publication Number Publication Date
CN111259785A true CN111259785A (zh) 2020-06-09
CN111259785B CN111259785B (zh) 2022-09-20

Family

ID=70946912

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010038845.5A Active CN111259785B (zh) 2020-01-14 2020-01-14 基于时间偏移残差网络的唇语识别方法

Country Status (1)

Country Link
CN (1) CN111259785B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112001300A (zh) * 2020-08-21 2020-11-27 杭州追猎科技有限公司 基于按位置交叉熵的楼宇监控方法、装置和电子设备
CN112257545A (zh) * 2020-10-19 2021-01-22 安徽领云物联科技有限公司 一种违规行为实时监控分析方法、装置及存储介质
CN112330713A (zh) * 2020-11-26 2021-02-05 南京工程学院 基于唇语识别的重度听障患者言语理解度的改进方法
CN112507920A (zh) * 2020-12-16 2021-03-16 重庆交通大学 一种基于时间位移和注意力机制的考试异常行为识别方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102934131A (zh) * 2010-04-14 2013-02-13 西门子公司 用于计算机辅助地学习递归神经网络以对动态系统建模的方法
CN107527059A (zh) * 2017-08-07 2017-12-29 北京小米移动软件有限公司 文字识别方法、装置及终端
US20180189215A1 (en) * 2017-01-04 2018-07-05 Stmicroelectronics S.R.L. Reconfigurable interconnect
CN109524006A (zh) * 2018-10-17 2019-03-26 天津大学 一种基于深度学习的汉语普通话唇语识别方法
CN109862391A (zh) * 2019-03-18 2019-06-07 网易(杭州)网络有限公司 视频分类方法、介质、装置和计算设备
EP3522079A1 (en) * 2018-02-01 2019-08-07 Siemens Healthcare Limited Data encoding and classification
CN110490254A (zh) * 2019-08-20 2019-11-22 山西潞安环保能源开发股份有限公司五阳煤矿 一种基于双重注意力机制层次网络的图像语义生成方法
CN110610534A (zh) * 2019-09-19 2019-12-24 电子科技大学 基于Actor-Critic算法的口型动画自动生成方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102934131A (zh) * 2010-04-14 2013-02-13 西门子公司 用于计算机辅助地学习递归神经网络以对动态系统建模的方法
US20180189215A1 (en) * 2017-01-04 2018-07-05 Stmicroelectronics S.R.L. Reconfigurable interconnect
CN107527059A (zh) * 2017-08-07 2017-12-29 北京小米移动软件有限公司 文字识别方法、装置及终端
EP3522079A1 (en) * 2018-02-01 2019-08-07 Siemens Healthcare Limited Data encoding and classification
CN109524006A (zh) * 2018-10-17 2019-03-26 天津大学 一种基于深度学习的汉语普通话唇语识别方法
CN109862391A (zh) * 2019-03-18 2019-06-07 网易(杭州)网络有限公司 视频分类方法、介质、装置和计算设备
CN110490254A (zh) * 2019-08-20 2019-11-22 山西潞安环保能源开发股份有限公司五阳煤矿 一种基于双重注意力机制层次网络的图像语义生成方法
CN110610534A (zh) * 2019-09-19 2019-12-24 电子科技大学 基于Actor-Critic算法的口型动画自动生成方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
杨龙生 等: "《用于可靠身份认证的唇语识别》", 《电视技术》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112001300A (zh) * 2020-08-21 2020-11-27 杭州追猎科技有限公司 基于按位置交叉熵的楼宇监控方法、装置和电子设备
CN112257545A (zh) * 2020-10-19 2021-01-22 安徽领云物联科技有限公司 一种违规行为实时监控分析方法、装置及存储介质
CN112330713A (zh) * 2020-11-26 2021-02-05 南京工程学院 基于唇语识别的重度听障患者言语理解度的改进方法
CN112330713B (zh) * 2020-11-26 2023-12-19 南京工程学院 基于唇语识别的重度听障患者言语理解度的改进方法
CN112507920A (zh) * 2020-12-16 2021-03-16 重庆交通大学 一种基于时间位移和注意力机制的考试异常行为识别方法

Also Published As

Publication number Publication date
CN111259785B (zh) 2022-09-20

Similar Documents

Publication Publication Date Title
CN111259785B (zh) 基于时间偏移残差网络的唇语识别方法
CN109524006B (zh) 一种基于深度学习的汉语普通话唇语识别方法
CN111325817B (zh) 一种虚拟人物场景视频的生成方法、终端设备及介质
CN110633683B (zh) 结合DenseNet和resBi-LSTM的中文句子级唇语识别方法
CN111104884B (zh) 一种基于两阶段神经网络模型的汉语唇语识别方法
CN112802448A (zh) 一种新音色生成的语音合成方法和系统
CN113343937B (zh) 一种基于深度卷积和注意力机制的唇语识别方法
CN113205817A (zh) 语音语义识别方法、系统、设备及介质
CN111653270B (zh) 语音处理方法、装置、计算机可读存储介质及电子设备
CN114694255B (zh) 基于通道注意力与时间卷积网络的句子级唇语识别方法
CN115393933A (zh) 一种基于帧注意力机制的视频人脸情绪识别方法
CN114708474A (zh) 一种融合局部和全局特征的图像语义理解算法
CN115394287A (zh) 混合语种语音识别方法、装置、系统及存储介质
CN116129013A (zh) 一种生成虚拟人动画视频的方法、装置及存储介质
CN116564338A (zh) 语音动画生成方法、装置、电子设备和介质
CN116166827A (zh) 语义标签抽取模型的训练和语义标签的抽取方法及其装置
CN111046966B (zh) 基于度量注意力机制的图像字幕生成方法
CN116109978A (zh) 基于自约束动态文本特征的无监督视频描述方法
CN112135200B (zh) 一种针对压缩视频的视频描述生成方法
CN115169363A (zh) 一种融合知识的增量编码的对话情感识别方法
He et al. An optimal 3D convolutional neural network based lipreading method
CN117150320B (zh) 对话数字人情感风格相似度评价方法及系统
CN116310984B (zh) 基于Token采样的多模态视频字幕生成方法
CN116151226B (zh) 一种基于机器学习的聋哑人手语纠错方法、设备和介质
CN114492421B (zh) 一种情绪识别方法、存储介质、装置及终端设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant