CN111178157A - 一种基于音调的级联序列到序列模型的中文唇语识别方法 - Google Patents

一种基于音调的级联序列到序列模型的中文唇语识别方法 Download PDF

Info

Publication number
CN111178157A
CN111178157A CN201911259483.6A CN201911259483A CN111178157A CN 111178157 A CN111178157 A CN 111178157A CN 201911259483 A CN201911259483 A CN 201911259483A CN 111178157 A CN111178157 A CN 111178157A
Authority
CN
China
Prior art keywords
sequence
pinyin
tone
module
chinese character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201911259483.6A
Other languages
English (en)
Inventor
宋明黎
赵雅
许睿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201911259483.6A priority Critical patent/CN111178157A/zh
Publication of CN111178157A publication Critical patent/CN111178157A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/165Detection; Localisation; Normalisation using facial parts and geometric relationships

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • Geometry (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

一种基于音调的级联序列到序列模型的中文唇语识别方法,包含如下步骤:1)准备实验数据;2)建立拼音序列预测子模型;3)训练拼音序列预测子模型;4)建立音调序列预测子模型;5)训练音调序列预测子模型;6)建立汉字序列预测子模型;7)训练汉字序列预测子模型;8)建立唇语识别模型;9)训练唇语识别模型;10)获得中文唇语识别结果。本发明针对中文语言特点,将音调信息引入到中文唇语识别问题中,提出了一种基于音调的级联序列到序列模型的中文唇语识别方法。通过依次预测拼音序列、音调序列和汉字序列挖掘汉字语言特征,并将多个阶段的预测结果融合起来共同预测汉字序列,从而提高唇语识别准确率。

Description

一种基于音调的级联序列到序列模型的中文唇语识别方法
技术领域
本发明属于唇语识别技术领域,针对中文语言特点,提出了一种基于音调的级联序列到序列模型的中文唇语识别方法。
背景技术
唇语识别旨在从视频中观察人嘴唇运动,从而识别出对应的文本内容。唇语识别技术在辅助语音识别、公共安全分析、动画口型合成以及身份认证等领域均有广阔的应用前景。唇语识别在计算机视觉研究中具有很大的挑战性,因为大多数的嘴唇运动是无法直接观察到的,比如舌头的运动,这导致看似相同的嘴唇运动却可以产生不同的内容。
随着深度学习的发展,针对英语的唇语识别方法取得了很大的进步。但是,作为使用者最多的语言,很少有针对中文的唇语识别工作。LipCH-Net是第一篇句子级别的中文普通话唇语识别论文。LipCH-Net使用两个深度神经网络模型来执行“视频到拼音”的识别以及“拼音到汉字”的识别,然后执行联合优化以提高整体性能。
中文和英文属于两个不同的语言体系,他们之间存在着很多差异。其中最显著的一点是:中文是声调语言,而英语不是。声调的使用加大了中文唇语识别的难度,即使两个词语在发音时从表情上看起来是相同,它们也可能具有不同的音调,因此具有不同的含义。因此,声调是提高中文普通话唇语识别准确率的一个重要因素。
发明内容
本发明要克服现有唇语识别技术没有充分考虑中文语言特征的缺点,提出一种基于音调的级联序列到序列模型的中文唇语识别方法。
一种基于音调的级联序列到序列模型的中文唇语识别方法,包括如下步骤:
1)实验数据准备;
使用中文唇语识别数据集的视频部分,利用现有人脸检测和人脸关键点检测方法,从视频图像序列中定位人脸,并检测人脸关键点。利用仿射变换,将每一帧人脸图像的鼻子和眼睛部分的关键点与标准人脸模板的鼻子和眼睛部分关键点进行对齐。截取对齐后的人脸图像的下半部分,并将彩色图转化为灰度图。以滑动窗口的方式制作唇部图像序列,窗口大小为5帧为1组,步长为2帧。用x=[x1,x2,…,xI]表示唇部图像序列,I为序列长度。利用汉字转拼音工具,获取中文唇语识别数据集中的目标汉字序列y=[y1,y2,…yJ]对应的拼音序列p=[p1,p2,…pJ]和音调序列t=[t1,t2,…tJ]。
2)拼音序列预测子模型的建立;
用唇部图像序列x=[x1,x2,…,xI]及其对应拼音序列p=[p1,p2,…pJ],构建基于注意力机制的序列到序列模型。应用于拼音序列的基于注意力机制的序列到序列模型包含如下3个模块:图像特征提取模块、视频编码模块、拼音解码模块。
图像特征提取模块:采用卷积神经网络(CNN)对每一步输入视频图像进行图像特征提取
fi=CNN(xi) (1)
视频编码模块:采用循环神经网络(RNN)对每一步输入图像特征进行时序特征的提取:
Figure BDA0002311217880000021
其中
Figure BDA0002311217880000022
为第i时刻视频编码模块的隐藏层特征。
拼音解码模块:采用循环神经网络(RNN),基于视频编码模块的隐藏层特征和已解码生成的拼音序列,预测当前时间步的拼音:
Figure BDA0002311217880000023
Figure BDA0002311217880000024
Figure BDA0002311217880000025
其中
Figure BDA0002311217880000026
为第i时刻音频解码模块的隐藏层特征,MLP为多层感知机,Attention(·,·)为上下文注意力权重计算函数,具体表示如下:
Figure BDA0002311217880000027
3)拼音序列预测子模型的训练;
用唇部图像序列x=[x1,x2,…,xI]及其对应拼音序列p=[p1,p2,…pJ],构建拼音序列预测子模型的误差损失函数,利用神经网络反向传导优化算法,通过不断的输入、输出、误差计算、反向传导误差的网络优化过程,对拼音序列预测子模型进行训练。误差损失函数如下所示:
Lp=-∑ilogP(pi|p<i,x) (7)
4)音调序列预测子模型的建立;
用唇部图像序列x=[x1,x2,…,xI]及其对应拼音序列p=[p1,p2,…pJ]、和音调序列t=[t1,t2,…tJ],构建基于注意力机制的序列到序列模型。应用于音调序列的基于注意力机制的序列到序列模型包含如下4个模块:图像特征提取模块、视频编码模块、拼音编码模块和音调解码模块。
图像特征提取模块:与拼音序列预测子模型中的图像特征提取模块相同。
视频编码模块:与拼音序列预测子模型中的视频编码模块相同。
拼音编码模块:采用循环神经网络(RNN)对每一步输入音频进行时序特征的提取:
Figure BDA0002311217880000031
其中
Figure BDA0002311217880000032
为第i时刻拼音编码模块的隐藏层特征。
音调解码模块:采用循环神经网络(RNN),基于视频编码模块的隐藏层特征、拼音编码模块的隐藏层特征和已解码生成的音调序列,预测当前时间步的音调:
Figure BDA0002311217880000033
Figure BDA0002311217880000034
Figure BDA0002311217880000035
Figure BDA0002311217880000036
其中
Figure BDA0002311217880000037
为第i时刻音调解码模块的隐藏层特征,MLP为多层感知机,Attention(·,·)为上下文注意力权重计算函数。
5)音调序列预测子模型的训练;
用唇部图像序列x=[x1,x2,…,xI]及其对应拼音序列p=[p1,p2,…pJ]、和音调序列t=[t1,t2,…tJ],构建音调序列预测子模型的误差损失函数,利用神经网络反向传导优化算法,通过不断的输入、输出、误差计算、反向传导误差的网络优化过程,对音调序列预测子模型进行训练。误差损失函数如下所示:
Lt=-∑ilogP(ti|t<i,x,p) (13)
6)汉字序列预测子模型的建立;
用唇部图像序列x=[x1,x2,…,xI]及其对应拼音序列p=[p1,p2,…pJ]、音调序列t=[t1,t2,…tJ]和目标汉字序列y=[y1,y2,…yJ],构建基于注意力机制的序列到序列模型。应用于汉字序列预测的基于注意力机制的序列到序列模型包含如下5个模块:图像特征提取模块、视频编码模块、拼音编码模块、音调编码模块和汉字解码模块。
图像特征提取模块:与拼音序列预测子模型中的图像特征提取模块相同。
视频编码模块:与拼音序列预测子模型中的视频编码模块相同。
拼音编码模块:与音调序列预测子模型中的拼音编码模块相同。
音调编码模块:采用循环神经网络(RNN)对每一步输入音调进行时序特征的提取:
Figure BDA0002311217880000041
其中
Figure BDA0002311217880000042
为第i时刻音调编码模块的隐藏层特征。
汉字解码模块:采用循环神经网络(RNN),基于视频编码模块的隐藏层特征、拼音编码模块的隐藏层特征、音调编码模块的隐藏层特征和已解码生成的汉字序列,预测当前时间步的汉字:
Figure BDA0002311217880000043
Figure BDA0002311217880000044
Figure BDA0002311217880000045
Figure BDA0002311217880000046
Figure BDA0002311217880000047
其中
Figure BDA0002311217880000048
为第i时刻汉字解码模块的隐藏层特征,MLP为多层感知机,Attention(·,·)为上下文注意力权重计算函数。
7)汉字序列预测子模型的训练;
用唇部图像序列x=[x1,x2,…,xI]及其对应拼音序列p=[p1,p2,…pJ]、音调序列t=[t1,t2,…tJ]和目标汉字序列y=[y1,y2,…yJ],构建汉字序列预测子模型的误差损失函数,利用神经网络反向传导优化算法,通过不断的输入、输出、误差计算、反向传导误差的网络优化过程,对汉字序列预测子模型进行训练。误差损失函数如下所示:
Lc=-∑ilogP(ci|c<i,x,p,t) (20)
8)唇语识别模型的建立;
将上述拼音序列预测子模型的拼音解码模块输出作为汉字序列预测子模型拼音编码模块的输入,即:
Figure BDA0002311217880000051
将上述音调序列预测子模型的音调解码模块输出作为汉字序列预测子模型音调编码模块的输入,即:
Figure BDA0002311217880000052
其中MLP为多层感知机。
9)唇语识别模型的训练;
用唇部图像序列x=[x1,x2,…,xI]及其对应拼音序列p=[p1,p2,…pJ]、音调序列t=[t1,t2,…tJ]和目标汉字序列y=[y1,y2,…yJ],构建汉字序列预测子模型的误差损失函数,利用神经网络反向传导优化算法,通过不断的输入、输出、误差计算、反向传导误差的网络优化过程,对汉字序列预测子模型进行训练。误差损失函数如下所示:
L=Lp+Lt+Lc (23)
10)获得中文唇语识别结果;
根据所述训练所述学习后的唇语识别模型,使用集束搜索对语音识别模型每一时间步的预测概率进行解码,解码识别出至少4种唇语结果,按得分顺序对所述至少4种唇语结果进行得分排序,选择得分最高的唇语结果做为解码识别结果,识别出唇语结果。
本方法首先利用汉字转拼音工具,生成汉字序列对应的拼音序列和音调序列;其次,利用视频序列和拼音序列,训练拼音预测子网络;然后,利用视频序列、拼音序列和音调序列,训练音调预测子网络;然后,利用视频序列、拼音序列、音调序列和汉字序列,训练汉字预测子网络;最后,将拼音预测子网络预测的拼音和音调预测子网络预测的音调,送入汉字预测子网络中,构成唇语识别总网络,进行端到端的训练。通过以上五个主要步骤,本发明充分考虑到汉字语言特征,极大的提升了中文唇语识别的准确率。
本发明具有的有益的效果是:本发明针对中文语言特点,将音调信息引入到中文唇语识别问题中,提出了一种基于音调的级联序列到序列模型的中文唇语识别方法。通过依次预测拼音序列、音调序列和汉字序列挖掘汉字语言特征,并将多个阶段的预测结果融合起来共同预测汉字序列,从而提高唇语识别准确率。
附图说明
图1是本发明的拼音序列预测子模型。
图2是本发明的音调序列预测子模型。
图3是本发明的汉字序列预测子模型。
图4是本发明的唇语识别总模型。
图5是本发明方法的流程图。
具体实施方式
下面结合附图进一步说明本发明的技术方案。
本发明的一种基于音调的级联序列到序列模型的中文唇语识别方法,包含以下步骤:
1)实验数据准备;
使用中文唇语识别数据集的视频部分,利用现有人脸检测和人脸关键点检测方法,从视频图像序列中定位人脸,并检测人脸关键点。利用仿射变换,将每一帧人脸图像的鼻子和眼睛部分的关键点与标准人脸模板的鼻子和眼睛部分关键点进行对齐。截取对齐后的人脸图像的下半部分,缩放至64*128,并将彩色图转化为灰度图。以滑动窗口的方式制作唇部图像序列,窗口大小为5帧为1组,步长为2帧。用x=[x1,x2,…,xI]表示唇部图像序列,I为序列长度。利用汉字转拼音工具,获取中文唇语识别数据集中的目标汉字序列y=[y1,y2,…yJ]对应的拼音序列p=[p1,p2,…pJ]和音调序列t=[t1,t2,…tJ]。
2)拼音序列预测子模型的建立;
用唇部图像序列x=[x1,x2,…,xI]及其对应拼音序列p=[p1,p2,…pJ],构建基于注意力机制的序列到序列模型。应用于拼音序列的基于注意力机制的序列到序列模型包含如下3个模块:图像特征提取模块、视频编码模块、拼音解码模块。
图像特征提取模块:采用VGG-M卷积神经网络(CNN)对每一步输入视频图像进行图像特征提取
fi=CNN(xi) (1)
VGG-M卷积神经网络参数如下:
名称 滤波器大小 步长
2维卷机层 [3×3,96] [1,1]
2维池化层 [3×3] [2,2]
2维卷积层 [3×3,256] [1,1]
2维池化层 [3×3] [2,2]
2维卷积层 [3×3,512] [1,1]
2维卷积层 [3×3,512] [1,1]
2维卷积层 [3×3,512] [1,1]
2维池化层 [3×3] [2,2]
视频编码模块:采用循环神经网络(RNN)对每一步输入图像特征进行时序特征的提取:
Figure BDA0002311217880000071
其中
Figure BDA0002311217880000072
为第i时刻视频编码模块的隐藏层特征。循环神经网络采用两层双向的门控循环单元(GRU),其隐藏层维度为256。
拼音解码模块:采用循环神经网络(RNN),基于视频编码模块的隐藏层特征和已解码生成的拼音序列,预测当前时间步的拼音:
Figure BDA0002311217880000073
Figure BDA0002311217880000074
Figure BDA0002311217880000075
其中拼音解码模块的循环神经网络采用两层单向的门控循环单元(GRU),隐藏层维度为512。MLP为两层的多层感知机,第一层维度为1024,第二层维度为512。
Figure BDA0002311217880000076
为第i时刻音频解码模块的隐藏层特征,Attention(·,·)为上下文注意力权重计算函数,具体表示如下:
Figure BDA0002311217880000081
3)拼音序列预测子模型的训练;
用唇部图像序列x=[x1,x2,…,xI]及其对应拼音序列p=[p1,p2,…pJ],构建拼音序列预测子模型的误差损失函数,利用神经网络反向传导优化算法,通过不断的输入、输出、误差计算、反向传导误差的网络优化过程,对拼音序列预测子模型进行训练。误差损失函数如下所示:
Lp=-∑ilogP(pi|p<i,x) (7)
4)音调序列预测子模型的建立;
用唇部图像序列x=[x1,x2,…,xI]及其对应拼音序列p=[p1,p2,…pJ]、和音调序列t=[t1,t2,…tJ],构建基于注意力机制的序列到序列模型。应用于音调序列的基于注意力机制的序列到序列模型包含如下4个模块:图像特征提取模块、视频编码模块、拼音编码模块和音调解码模块。
图像特征提取模块:与拼音序列预测子模型中的图像特征提取模块相同。
视频编码模块:与拼音序列预测子模型中的视频编码模块相同。
拼音编码模块:采用循环神经网络(RNN)对每一步输入音频进行时序特征的提取:
Figure BDA0002311217880000082
其中
Figure BDA0002311217880000083
为第i时刻拼音编码模块的隐藏层特征。循环神经网络采用两层双向的门控循环单元(GRU),其隐藏层维度为256。
音调解码模块:采用循环神经网络(RNN),基于视频编码模块的隐藏层特征、拼音编码模块的隐藏层特征和已解码生成的音调序列,预测当前时间步的音调:
Figure BDA0002311217880000084
Figure BDA0002311217880000085
Figure BDA0002311217880000086
Figure BDA0002311217880000087
其中音调解码模块的循环神经网络采用两层单向的门控循环单元(GRU),隐藏层维度为512。MLP为两层的多层感知机,第一层维度为1536,第二层维度为512。
Figure BDA0002311217880000091
为第i时刻音调解码模块的隐藏层特征,Attention(·,·)为上下文注意力权重计算函数。
5)音调序列预测子模型的训练;
用唇部图像序列x=[x1,x2,…,xI]及其对应拼音序列p=[p1,p2,…pJ]、和音调序列t=[t1,t2,…tJ],构建音调序列预测子模型的误差损失函数,利用神经网络反向传导优化算法,通过不断的输入、输出、误差计算、反向传导误差的网络优化过程,对音调序列预测子模型进行训练。误差损失函数如下所示:
Lt=-∑ilogP(ti|t<i,x,p) (13)
6)汉字序列预测子模型的建立;
用唇部图像序列x=[x1,x2,…,xI]及其对应拼音序列p=[p1,p2,…pJ]、音调序列t=[t1,t2,…tJ]和目标汉字序列y=[y1,y2,…yJ],构建基于注意力机制的序列到序列模型。应用于汉字序列预测的基于注意力机制的序列到序列模型包含如下5个模块:图像特征提取模块、视频编码模块、拼音编码模块、音调编码模块和汉字解码模块。
图像特征提取模块:与拼音序列预测子模型中的图像特征提取模块相同。
视频编码模块:与拼音序列预测子模型中的视频编码模块相同。
拼音编码模块:与音调序列预测子模型中的拼音编码模块相同。
音调编码模块:采用循环神经网络(RNN)对每一步输入音调进行时序特征的提取:
Figure BDA0002311217880000092
其中
Figure BDA0002311217880000093
为第i时刻音调编码模块的隐藏层特征。循环神经网络采用两层双向的门控循环单元(GRU),其隐藏层维度为256。
汉字解码模块:采用循环神经网络(RNN),基于视频编码模块的隐藏层特征、拼音编码模块的隐藏层特征、音调编码模块的隐藏层特征和已解码生成的汉字序列,预测当前时间步的汉字:
Figure BDA0002311217880000094
Figure BDA0002311217880000101
Figure BDA0002311217880000102
Figure BDA0002311217880000103
Figure BDA0002311217880000104
其中音调解码模块的循环神经网络采用两层单向的门控循环单元(GRU),隐藏层维度为512。MLP为两层的多层感知机,第一层维度为2048,第二层维度为512。
Figure BDA0002311217880000105
为第i时刻汉字解码模块的隐藏层特征,Attention(·,·)为上下文注意力权重计算函数。
7)汉字序列预测子模型的训练;
用唇部图像序列x=[x1,x2,…,xI]及其对应拼音序列p=[p1,p2,…pJ]、音调序列t=[t1,t2,…tJ]和目标汉字序列y=[y1,y2,…yJ],构建汉字序列预测子模型的误差损失函数,利用神经网络反向传导优化算法,通过不断的输入、输出、误差计算、反向传导误差的网络优化过程,对汉字序列预测子模型进行训练。误差损失函数如下所示:
Lc=-∑ilogP(ci|c<i,x,p,t) (20)
8)唇语识别模型的建立;
将上述拼音序列预测子模型的拼音解码模块输出作为汉字序列预测子模型拼音编码模块的输入,即:
Figure BDA0002311217880000106
其中MLP为层数为2的多层感知机,第一层维度为1536,第二层维度为512。
将上述音调序列预测子模型的音调解码模块输出作为汉字序列预测子模型音调编码模块的输入,即:
Figure BDA0002311217880000107
其中MLP为层数为2的多层感知机,第一层维度为2048,第二层维度为512。
9)唇语识别模型的训练;
用唇部图像序列x=[x1,x2,…,xI]及其对应拼音序列p=[p1,p2,…pJ]、音调序列t=[t1,t2,…tJ]和目标汉字序列y=[y1,y2,…yJ],构建汉字序列预测子模型的误差损失函数,利用神经网络反向传导优化算法,通过不断的输入、输出、误差计算、反向传导误差的网络优化过程,对汉字序列预测子模型进行训练。误差损失函数如下所示:
L=Lp+Lt+Lc (23)
10)获得中文唇语识别结果;
根据所述训练所述学习后的唇语识别模型,使用集束搜索对语音识别模型每一时间步的预测概率进行解码,解码识别出至少4种唇语结果,按得分顺序对所述至少4种唇语结果进行得分排序,选择得分最高的唇语结果做为解码识别结果,识别出唇语结果。
本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举,本发明的保护范围的不应当被视为仅限于实施例所陈述的具体形式,本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。

Claims (1)

1.基于音调的级联序列到序列模型的中文唇语识别方法,包含以下步骤:
1)准备实验数据;
使用中文唇语识别数据集的视频部分,利用现有人脸检测和人脸关键点检测方法,从视频图像序列中定位人脸,并检测人脸关键点;利用仿射变换,将每一帧人脸图像的鼻子和眼睛部分的关键点与标准人脸模板的鼻子和眼睛部分关键点进行对齐;截取对齐后的人脸图像的下半部分,并将彩色图转化为灰度图;以滑动窗口的方式制作唇部图像序列,窗口大小为5帧为1组,步长为2帧;用x=[x1,x2,…,xI]表示唇部图像序列,I为序列长度;利用汉字转拼音工具,获取中文唇语识别数据集中的目标汉字序列y=[y1,y2,…yJ]对应的拼音序列p=[p1,p2,…pJ]和音调序列t=[t1,t2,…tJ];
2)建立拼音序列预测子模型;
用唇部图像序列x=[x1,x2,…,xI]及其对应拼音序列p=[p1,p2,…pJ],构建基于注意力机制的序列到序列模型;应用于拼音序列的基于注意力机制的序列到序列模型包含如下3个模块:图像特征提取模块、视频编码模块、拼音解码模块;
图像特征提取模块:采用卷积神经网络(CNN)对每一步输入视频图像进行图像特征提取
fi=CNN(xi) (1)
视频编码模块:采用循环神经网络(RNN)对每一步输入图像特征进行时序特征的提取:
Figure FDA0002311217870000011
其中
Figure FDA0002311217870000012
为第i时刻视频编码模块的隐藏层特征;
拼音解码模块:采用循环神经网络(RNN),基于视频编码模块的隐藏层特征和已解码生成的拼音序列,预测当前时间步的拼音:
Figure FDA0002311217870000013
Figure FDA0002311217870000014
Figure FDA0002311217870000015
其中
Figure FDA0002311217870000016
为第i时刻音频解码模块的隐藏层特征,MLP为多层感知机,Attention(·,·)为上下文注意力权重计算函数,具体表示如下:
Figure FDA0002311217870000021
3)训练拼音序列预测子模型;
用唇部图像序列x=[x1,x2,…,xI]及其对应拼音序列p=[p1,p2,…pJ],构建拼音序列预测子模型的误差损失函数,利用神经网络反向传导优化算法,通过不断的输入、输出、误差计算、反向传导误差的网络优化过程,对拼音序列预测子模型进行训练;误差损失函数如下所示:
Lp=-∑ilog P(pi|p<i,x) (7)
4)建立音调序列预测子模型;
用唇部图像序列x=[x1,x2,…,xI]及其对应拼音序列p=[p1,p2,…pJ]、和音调序列t=[t1,t2,…tJ],构建基于注意力机制的序列到序列模型;应用于音调序列的基于注意力机制的序列到序列模型包含如下4个模块:图像特征提取模块、视频编码模块、拼音编码模块和音调解码模块;
图像特征提取模块:与拼音序列预测子模型中的图像特征提取模块相同;
视频编码模块:与拼音序列预测子模型中的视频编码模块相同;
拼音编码模块:采用循环神经网络(RNN)对每一步输入音频进行时序特征的提取:
Figure FDA0002311217870000022
其中
Figure FDA0002311217870000023
为第i时刻拼音编码模块的隐藏层特征;
音调解码模块:采用循环神经网络(RNN),基于视频编码模块的隐藏层特征、拼音编码模块的隐藏层特征和已解码生成的音调序列,预测当前时间步的音调:
Figure FDA0002311217870000024
Figure FDA0002311217870000025
Figure FDA0002311217870000026
Figure FDA0002311217870000027
其中
Figure FDA0002311217870000031
为第i时刻音调解码模块的隐藏层特征,MLP为多层感知机,Attention(·,·)为上下文注意力权重计算函数;
5)训练音调序列预测子模型;
用唇部图像序列x=[x1,x2,…,xI]及其对应拼音序列p=[p1,p2,…pJ]、和音调序列t=[t1,t2,…tJ],构建音调序列预测子模型的误差损失函数,利用神经网络反向传导优化算法,通过不断的输入、输出、误差计算、反向传导误差的网络优化过程,对音调序列预测子模型进行训练;误差损失函数如下所示:
Lt=-∑ilog P(ti|t<i,x,p) (13)
6)建立汉字序列预测子模型;
用唇部图像序列x=[x1,x2,…,xI]及其对应拼音序列p=[p1,p2,…pJ]、音调序列t=[t1,t2,…tJ]和目标汉字序列y=[y1,y2,…yJ],构建基于注意力机制的序列到序列模型;应用于汉字序列预测的基于注意力机制的序列到序列模型包含如下5个模块:图像特征提取模块、视频编码模块、拼音编码模块、音调编码模块和汉字解码模块;
图像特征提取模块:与拼音序列预测子模型中的图像特征提取模块相同;
视频编码模块:与拼音序列预测子模型中的视频编码模块相同;
拼音编码模块:与音调序列预测子模型中的拼音编码模块相同;
音调编码模块:采用循环神经网络(RNN)对每一步输入音调进行时序特征的提取:
Figure FDA0002311217870000032
其中
Figure FDA0002311217870000033
为第i时刻音调编码模块的隐藏层特征;
汉字解码模块:采用循环神经网络(RNN),基于视频编码模块的隐藏层特征、拼音编码模块的隐藏层特征、音调编码模块的隐藏层特征和已解码生成的汉字序列,预测当前时间步的汉字:
Figure FDA0002311217870000034
Figure FDA0002311217870000035
Figure FDA0002311217870000036
Figure FDA0002311217870000037
Figure FDA0002311217870000041
其中
Figure FDA0002311217870000042
为第i时刻汉字解码模块的隐藏层特征,MLP为多层感知机,Attention(·,·)为上下文注意力权重计算函数;
7)训练汉字序列预测子模型;
用唇部图像序列x=[x1,x2,…,xI]及其对应拼音序列p=[p1,p2,…pJ]、音调序列t=[t1,t2,…tJ]和目标汉字序列y=[y1,y2,…yJ],构建汉字序列预测子模型的误差损失函数,利用神经网络反向传导优化算法,通过不断的输入、输出、误差计算、反向传导误差的网络优化过程,对汉字序列预测子模型进行训练;误差损失函数如下所示:
Lc=-∑ilog P(ci|c<i,x,p,t) (20)
8)建立唇语识别模型;
将上述拼音序列预测子模型的拼音解码模块输出作为汉字序列预测子模型拼音编码模块的输入,即:
Figure FDA0002311217870000043
将上述音调序列预测子模型的音调解码模块输出作为汉字序列预测子模型音调编码模块的输入,即:
Figure FDA0002311217870000044
其中MLP为多层感知机;
9)训练唇语识别模型;
用唇部图像序列x=[x1,x2,…,xI]及其对应拼音序列p=[p1,p2,…pJ]、音调序列t=[t1,t2,…tJ]和目标汉字序列y=[y1,y2,…yJ],构建汉字序列预测子模型的误差损失函数,利用神经网络反向传导优化算法,通过不断的输入、输出、误差计算、反向传导误差的网络优化过程,对汉字序列预测子模型进行训练;误差损失函数如下所示:
L=Lp+Lt+Lc (23)
10)获得中文唇语识别结果;
根据所述训练所述学习后的唇语识别模型,使用集束搜索对语音识别模型每一时间步的预测概率进行解码,解码识别出至少4种唇语结果,按得分顺序对所述至少4种唇语结果进行得分排序,选择得分最高的唇语结果做为解码识别结果,识别出唇语结果。
CN201911259483.6A 2019-12-10 2019-12-10 一种基于音调的级联序列到序列模型的中文唇语识别方法 Withdrawn CN111178157A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911259483.6A CN111178157A (zh) 2019-12-10 2019-12-10 一种基于音调的级联序列到序列模型的中文唇语识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911259483.6A CN111178157A (zh) 2019-12-10 2019-12-10 一种基于音调的级联序列到序列模型的中文唇语识别方法

Publications (1)

Publication Number Publication Date
CN111178157A true CN111178157A (zh) 2020-05-19

Family

ID=70655444

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911259483.6A Withdrawn CN111178157A (zh) 2019-12-10 2019-12-10 一种基于音调的级联序列到序列模型的中文唇语识别方法

Country Status (1)

Country Link
CN (1) CN111178157A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111931736A (zh) * 2020-09-27 2020-11-13 浙江大学 利用非自回归模型与整合放电技术的唇语识别方法、系统
CN112329581A (zh) * 2020-10-29 2021-02-05 南京航空航天大学 基于中文发音视觉特点的唇语识别方法
CN112633211A (zh) * 2020-12-30 2021-04-09 海信视像科技股份有限公司 一种服务设备及人机交互方法
CN112617755A (zh) * 2020-12-28 2021-04-09 深圳市艾利特医疗科技有限公司 言语功能障碍检测方法、装置、设备、存储介质及系统
CN112766101A (zh) * 2021-01-07 2021-05-07 南京航空航天大学 一种中文唇语识别建模单元集的构建方法
CN113343937A (zh) * 2021-07-15 2021-09-03 北华航天工业学院 一种基于深度卷积和注意力机制的唇语识别方法
CN113642420A (zh) * 2021-07-26 2021-11-12 华侨大学 一种唇语的识别方法、装置及设备
CN115187997A (zh) * 2022-07-13 2022-10-14 厦门理工学院 一种基于关键偏旁部首分析的零样本汉字识别方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20150059460A (ko) * 2013-11-22 2015-06-01 홍충식 스마트 폰에서 구화술을 구현하는 방법
CN107133608A (zh) * 2017-05-31 2017-09-05 天津中科智能识别产业技术研究院有限公司 基于活体检测和人脸验证的身份认证系统
US20180336458A1 (en) * 2017-05-18 2018-11-22 Microsoft Technology Licensing, Llc Asynchronous neural network training
CN109409195A (zh) * 2018-08-30 2019-03-01 华侨大学 一种基于神经网络的唇语识别方法及系统
CN110415701A (zh) * 2019-06-18 2019-11-05 平安科技(深圳)有限公司 唇语的识别方法及其装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20150059460A (ko) * 2013-11-22 2015-06-01 홍충식 스마트 폰에서 구화술을 구현하는 방법
US20180336458A1 (en) * 2017-05-18 2018-11-22 Microsoft Technology Licensing, Llc Asynchronous neural network training
CN107133608A (zh) * 2017-05-31 2017-09-05 天津中科智能识别产业技术研究院有限公司 基于活体检测和人脸验证的身份认证系统
CN109409195A (zh) * 2018-08-30 2019-03-01 华侨大学 一种基于神经网络的唇语识别方法及系统
CN110415701A (zh) * 2019-06-18 2019-11-05 平安科技(深圳)有限公司 唇语的识别方法及其装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
YA ZHAO ET AL.: "A Cascade Sequence-to-Sequence Model for Chinese Mandarin Lip Reading", 《ARXIV:1908.04917V2 [CS.CV]》 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111931736A (zh) * 2020-09-27 2020-11-13 浙江大学 利用非自回归模型与整合放电技术的唇语识别方法、系统
CN112329581A (zh) * 2020-10-29 2021-02-05 南京航空航天大学 基于中文发音视觉特点的唇语识别方法
CN112329581B (zh) * 2020-10-29 2024-04-02 南京航空航天大学 基于中文发音视觉特点的唇语识别方法
CN112617755A (zh) * 2020-12-28 2021-04-09 深圳市艾利特医疗科技有限公司 言语功能障碍检测方法、装置、设备、存储介质及系统
CN112633211A (zh) * 2020-12-30 2021-04-09 海信视像科技股份有限公司 一种服务设备及人机交互方法
CN112766101A (zh) * 2021-01-07 2021-05-07 南京航空航天大学 一种中文唇语识别建模单元集的构建方法
CN112766101B (zh) * 2021-01-07 2024-05-28 南京航空航天大学 一种中文唇语识别建模单元集的构建方法
CN113343937A (zh) * 2021-07-15 2021-09-03 北华航天工业学院 一种基于深度卷积和注意力机制的唇语识别方法
CN113642420A (zh) * 2021-07-26 2021-11-12 华侨大学 一种唇语的识别方法、装置及设备
CN113642420B (zh) * 2021-07-26 2024-04-16 华侨大学 一种唇语的识别方法、装置及设备
CN115187997A (zh) * 2022-07-13 2022-10-14 厦门理工学院 一种基于关键偏旁部首分析的零样本汉字识别方法
CN115187997B (zh) * 2022-07-13 2023-07-28 厦门理工学院 一种基于关键偏旁部首分析的零样本汉字识别方法

Similar Documents

Publication Publication Date Title
CN111178157A (zh) 一种基于音调的级联序列到序列模型的中文唇语识别方法
CN109543667B (zh) 一种基于注意力机制的文本识别方法
CN110188343B (zh) 基于融合注意力网络的多模态情感识别方法
CN111223483A (zh) 一种基于多粒度知识蒸馏的唇语识别方法
CN113158875B (zh) 基于多模态交互融合网络的图文情感分析方法及系统
Gao et al. Sign language recognition based on HMM/ANN/DP
CN111753704B (zh) 一种基于视频人物唇读识别的时序集中预测方法
CN113223509B (zh) 一种应用于多人混杂场景下的模糊语句识别方法及系统
CN111339837A (zh) 一种连续手语识别方法
CN110443129A (zh) 基于深度学习的中文唇语识别方法
CN110211594A (zh) 一种基于孪生网络模型和knn算法的说话人识别方法
CN110991290A (zh) 基于语义指导与记忆机制的视频描述方法
CN111046751B (zh) 公式识别方法和装置
Zhang et al. Image captioning via semantic element embedding
CN115617955B (zh) 分级预测模型训练方法、标点符号恢复方法及装置
CN114239574A (zh) 一种基于实体和关系联合学习的矿工违规行为知识抽取方法
CN110569823A (zh) 一种基于rnn的手语识别与骨架生成方法
CN114153971A (zh) 一种含错中文文本纠错识别分类设备
Wang et al. Cross-modal knowledge distillation method for automatic cued speech recognition
CN114694255B (zh) 基于通道注意力与时间卷积网络的句子级唇语识别方法
Ahammad et al. Recognizing Bengali sign language gestures for digits in real time using convolutional neural network
CN114360584A (zh) 一种基于音素级的语音情感分层式识别方法及系统
CN113780350B (zh) 一种基于ViLBERT和BiLSTM的图像描述方法
CN115910046A (zh) 语音识别方法、装置、电子设备及存储介质
CN115359323A (zh) 图像的文本信息生成方法和深度学习模型的训练方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20200519

WW01 Invention patent application withdrawn after publication