CN111104884A - 一种基于两阶段神经网络模型的汉语唇语识别方法 - Google Patents

一种基于两阶段神经网络模型的汉语唇语识别方法 Download PDF

Info

Publication number
CN111104884A
CN111104884A CN201911256574.4A CN201911256574A CN111104884A CN 111104884 A CN111104884 A CN 111104884A CN 201911256574 A CN201911256574 A CN 201911256574A CN 111104884 A CN111104884 A CN 111104884A
Authority
CN
China
Prior art keywords
pinyin
network
layer
chinese
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911256574.4A
Other languages
English (en)
Other versions
CN111104884B (zh
Inventor
刘明
曹若琪
龚海刚
王晓敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN201911256574.4A priority Critical patent/CN111104884B/zh
Publication of CN111104884A publication Critical patent/CN111104884A/zh
Application granted granted Critical
Publication of CN111104884B publication Critical patent/CN111104884B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/171Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Human Computer Interaction (AREA)
  • Biomedical Technology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明提供了一种基于两阶段神经网络模型的汉语唇语识别方法,该方法包括:对输入视频逐帧提取唇部区域图像;对提取的唇部区域图像进行标准化处理;利用卷积神经网络对标准化处理后的唇部区域图像进行特征提取,得到唇部特征向量;利用双层双向LSTM网络对唇部特征向量进行处理,得到发音序列;利用拼音‑汉字编码‑解码网络对发音序列进行处理,得到对应的文字信息。本发明可以更好的获取唇部区域的视觉特征,从而更准确的压缩图像,提升唇语识别的准确率和识别速度;同时极大缩小了目标范围,降低了对LSTM层提取能力的要求,降低了识别难度;同时提高了拼音‑文字网络层的准确率。

Description

一种基于两阶段神经网络模型的汉语唇语识别方法
技术领域
本发明涉及计算机视觉领域,尤其涉及一种基于两阶段神经网络模型的汉语唇语识别方法。
背景技术
随着人工智能的发展,人机交互技术越来越多,唇语识别将计算机视觉和自然语言处理相结合,仅通过视频中说话人的面部特征便可解读发言内容。唇语识别在智慧城市,人机交互,辅助语音识别等诸多领域都有着广泛的应用,对于噪声环境和残障人士有更重要的意义。
计算机唇语识别技术是一种通过分析说话者的唇部视觉信息,包括对嘴唇和牙齿的运动特征来理解语音的技术。在嘈杂环境中,只利用语音识别午饭完成对特定说话人的捕捉和识别,因此通过视觉信息辅助语音识别提供了一种行之有效的语音读取方式。由于每个人不同的面部特征,说话速度以及口音等原因,唇语识别成为了一个极具挑战性的问题。近年来,纯度已经被运用到了许多应用当中。纯度的应用不仅对听障人士非常有帮助,也有助于在嘈杂环境下完成目标语音的捕捉和识别,这些任务使得唇语识别这一问题具有重要的现实意义。
目前,唇语识别任务主要有两个部分结合完成。首先,图像处理模块从输入的视频中提取相应的图像特征,完成对唇部运动特征的压缩和编码。接着,自然语言处理模块对获取的特征信息进行分析和处理,有效识别语义信息,完成对唇语的识别。
发明内容
本发明要解决的是对唇部特征提取后的处理与分析,有助于更好的从唇部特征中提取语义信息,从而得到更合理的内容输出,有效提高唇语识别的准确性和可靠性。为实现上述目的,本发明提出了一种基于两阶段神经网络模型的汉语唇语识别方法。该方法首先对单个用户输入视频逐帧提取唇部区域图像;然后对提取的唇部区域图像进行标准化处理;之后利用卷积神经网络对标准化处理后的唇部区域图像进行特征提取,得到唇部特征向量;随后利用双层双向长短期记忆网络(Long Short-Term Memory,LSTM)对唇部特征向量进行处理,得到发音序列;最后拼音-汉字编码-解码网络对发音序列进行处理,得到对应的文字信息。
其中,所述两阶段神经网络模型包括图片-拼音LSTM网络层和拼音-汉字编码-解码网络层,通过这两个网络层逐阶段识别汉语唇语。
本发明首先对用户输入的视频按帧提取唇部区域,再通过卷积神经网络对唇部区域提取特征图。将特征图输入LSTM得到每帧的发音分布概率,最后将发音改了分布输入到拼音-文字LSTM层中,利用预训练得到更为准确的文字信息,完成对唇语的识别。通过对唇部图形的特征提取,有助于更准确地获得唇部的发音信息,利用注意力机制的LSTM处理,得到更准确的文字序列,有效提升唇语识别的准确性。具体来说,
(1)本发明通过卷积神经网络的唇部特征提取方法,可以更好的获取唇部区域的视觉特征,从而更准确的压缩图像,提升唇语识别的准确率和识别速度。
(2)本发明使用LSTM层完成图像特征与语音特征的对应,极大的缩小了目标范围,大大降低了对LSTM层提取能力的要求,降低了识别难度。
(3)本发明利用丰富的拼音-汉字语料库,可以极大的提高拼音-文字LSTM层的准确率。
附图说明
图1为本发明汉语唇语识别方法的流程图
图2为本发明的卷积神经网络特征提取器示意图
图3为本发明的双层双向LSTM网络结构示意图
图4为本发明的拼音-汉字编码-解码网络结构示意图
图5为本发明提取唇部区域图像的部分代码示意图
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
本发明提出了一种基于两阶段神经网络模型的汉语唇语识别方法,该方法包括如下步骤:
步骤1)输入原始视频,该原始视频包含带有完整面部的单人说话的说话视频,然后逐帧对所述原始视频逐帧提取唇部区域图像,得到包含唇部区域图像的视频长度个视频帧。
步骤2)将提取到的唇部区域图像缩放到指定大小,进行灰度化处理,将得到的视频帧补齐至指定长度,不足的补全零帧,得到定长的图像序列作为下一步输入。
步骤3)通过3D-2D卷积神经网络,对得到的定长的图像序列进行特征提取,得到唇部特征向量,该3D-2D卷积神经网络包含一层3D卷积层和多层连续的2D卷积层,并且该3D-2D卷积神经网络采用流式传播,即下一层网络使用上一层网络的输出作为输入,并通过卷积核实现输入图像序列样本的重编码。步骤3)具体包括:
步骤31)给定一个输入的图像序列x={x1,x2,...,xm},其中,x为步骤2)所得的图像序列,x1,x2,…,xm为经过步骤1)特征提取后的单通道视频帧,m为补齐后的视频长度。
步骤32)初始化3D-2D卷积神经网络每层的n个卷积核,遍历每个视频帧xj,其中j=1,2,...,m,
Figure BDA0002310436030000031
为第i个卷积核的参数,对每个卷积核,有
Figure BDA0002310436030000032
其中,xj表示输入的视频帧,
Figure BDA0002310436030000033
表示第i个卷积核的偏置,yi表示第i个卷积核运算之后的输出,
Figure BDA0002310436030000034
表示第i个卷积核对视频帧的卷积操作,其中,i=1,2,...,n;
步骤33)对于每个yi进行池化操作,进一步缩小唇部特征大小。
步骤34)重复步骤33)和步骤34)直到唇部特征被充分压缩。
步骤35)对于每个视频帧xj,得到Yj={y1,y2,…,yn}作为视频帧xj的唇部特征向量输出,对于整个视频,得到了Y={Y1,Y2,...,Ym}。
步骤4)如图3所示,将输入的原始视频提取为特征向量Y后,将Y输入双层双向LSTM网络(即图片-拼音LSTM网络层或特征-拼音LSTM网络层)中进行训练。
步骤41)对于每个输入Yj,有输出fj=σ(Af×[Sj-1,hj-1,Yj]+bf),j=1,2,...,m。Sj-1代表双层双向LSTM网络维护的记忆层参数,hj-1=Yj*fj-1代表视频帧xj-1对应的时序位置双层双向LSTM网络的隐藏层状态,用来表示已输入的语义信息在当前时序位置的期望,fj表示输入Yj后得到的输出,是一个长度为现有所有拼音类别数Z的向量,即
Figure BDA0002310436030000035
σ表示双层双向LSTM网络进行每一步计算的操作,Af表示双层双向LSTM网络单元的参数矩阵,bf表示双层双向LSTM网络的偏置。
步骤42)利用CTC(Connectionist Temporal Classification)算法计算双层双向LSTM网络输出的概率分布F={f1,f2,…,fm}与输入的原始视频对应的拼音的标签向量P={p1,p2,...,pk}间的距离D作为损失函数,其中,k表示输入的原始视频对应的拼音序列的长度。所述损失函数loss1=-lnП(F,P)δ(fj|pi),fj∈F,pi∈P,其中F表示双层双向LSTM网络输出的概率分布F={f1,f2,...,fm},P表示输入的原始视频对应的句子经过one-hot处理后得到的拼音的标签向量P={p1,p2,…,pk},fj表示每个视频帧xj对应的在拼音上的概率分布,pi表示视频帧xj对应的时序位置可能出现的真实拼音的标签,δ表示当前时序位置出现的真实拼音为pj的情况下,双层双向LSTM网络计算得到fj的概率,然后通过极大似然分别得到每个视频帧xj对应概率最大的拼音标签,并计算当前的概率分布F={f1,f2,...,fm}与该拼音的标签向量P={p1,p2,...,pk}的距离。利用上述损失函数loss1对双层双向LSTM网络进行反向传播,使距离达到最小进行训练。
步骤5)如图4所示,将双层双向LSTM网络的输出F={f1,f2,...,fm}输入到下一层拼音-汉字编码-解码网络中,得到输入的原始视频对应的汉字。具体包括:
步骤51)对单个输出fj,j=1,2,...,m取对数之后进行softmax操作,将拼音概率分布映射到0-1区间内,并且所有项概率之和为1。对于fj中的第i项得到
Figure BDA0002310436030000041
其中,Z表示现有所有拼音类别数,fj表示F={f1,f2,…,fm}在第j项的值,
Figure BDA0002310436030000042
表示
Figure BDA0002310436030000043
在第j项的值,wi表示当前输入是拼音类别为i的拼音的概率。由此,得到当前视频帧xj在拼音级别上的概率分布W={w1,w2,…,wZ}。
步骤52)将W={w1,w2,…,wZ}输入到拼音-汉字编码-解码网络中,利用其编码-解码器结构对拼音级别上的概率分布W={w1,w2,…,wZ}再编码,编码器和解码器由门控循环单元(GR U)组成。首先将W输入到编码器中,有
Figure BDA0002310436030000044
j=1,2,...,m,其中
Figure BDA0002310436030000045
rgate表示所述编码器GRU单元中视频帧xj对应的时序位置的门参数,其中,
Figure BDA0002310436030000046
代表视频帧xj-1对应的时序位置处拼音-汉字编码-解码网络的状态与当前输入W进行运算后得到的注意力向量,用来表示已输入的语义信息在当前位置的期望,
Figure BDA0002310436030000047
表示输入W后得到的输出,σencode表示所述编码器进行每一步计算的操作,
Figure BDA0002310436030000048
表示所述编码器的参数矩阵,
Figure BDA0002310436030000049
表示所述编码器的偏置。得到所有视频帧的输出
Figure BDA00023104360300000410
以及最后的句子编码
Figure BDA00023104360300000411
其中j为视频长度,j=1,2,...,m。
步骤53)将句子编码H用注意力机制与输出OUT进行运算,得到
Figure BDA0002310436030000051
其中u0为解码器的隐藏层参数。利用预设的起始句柄ystart初始化所述解码器,有
Figure BDA0002310436030000052
其中f1′为hdecode通过全连接网络转换维度至汉字类别数得到的向量中第一个位置上的汉字概率分布,hdecode为所述解码器隐藏层参数;wdecode为所述解码器GRU单元的参数,
Figure BDA0002310436030000053
为所述解码器GRU单元的偏置σdecode代表所述解码器GRU单元执行每一步运算时进行的操作。用softmax归一化f1′后取概率最大的标签,对应的文字就是第一个位置上解读出的汉字。
步骤54)对第一个位置之后的汉字的解码采取两种输入方式:
a)采用输入的原始视频对应句子中对应位置上真实的汉字作为下一步输入,这种方式只在训练拼音-汉字编码-解码网络的过程中使用。
b)采用当前的输出对应的汉字作为下一步输入,这种方式在训练拼音-汉字编码-解码网络的过程和预测汉字的过程中均可使用。
上述两种方式在训练过程中通过取0-1间随机数的方式决定使用哪一种,当随机数大于0.5时使用第一种,否则使用第二种。
预测第一个位置之后的汉字过程如下:令输入为yin,之前解码器的隐藏层参数为
Figure BDA0002310436030000054
Figure BDA0002310436030000055
解码得到
Figure BDA0002310436030000056
其中的参数定义与步骤53)中的参数定义一致,对fn′进行如上处理得到下一个位置上的汉字,当输出为预设终止句柄yend时,终止解码。
步骤55)使用外源语料(即不来自于原始视频的一串有语义的汉字序列)对拼音-汉字编码-解码网络进行预训练时,使用词向量模型将汉字的onehot编码转化至与图片-拼音LSTM网络输出相同的维度,其他步骤一致。
步骤6)计算每个位置上输出的汉字概率分布f′与真实汉字间的标签的交叉熵作为损失函数,即
Figure BDA0002310436030000057
其中p′代表当前位置的汉字真实分布用one-hot向量表示,
Figure BDA0002310436030000058
代表所述解码器预期的当前位置j上汉字概率分布在第i类汉字的概率,N表示汉字的类别数。loss2表示了解码器输入与真实值的距离,通过最小化loss2使拼音-汉字编码-解码网络的输出接近真实值,来对拼音-汉字编码-解码网络进行训练,然后对整个两阶段神经网络模型通过反向传播进行联合训练。
步骤7)当训练完成后,对整个两阶段神经网络模型输出进行softmax处理后概率最大的汉字组成的字符串即为汉语唇语识别结果。
进一步地,所述步骤1)中提取唇部区域图像采用了faster-rcnn网络检测唇部区域。
进一步地,步骤2)中的灰度化处理指对唇部区域图像的全部通道对应位置取平均,并缩放到0-1范围内以代替彩色图像。
进一步地,步骤5)使用的拼音-汉字编码-解码网络使用了外源拼音-汉字语料库进行了预训练。
如图1,2所示,在本发明的实施例中,所述步骤1)中首先输入一个包含唇部的单人说话视频,通过faster-rcnn逐帧提取唇部区域,所述区域的提取是指利用预训练过的faster-rcnn网络完成选取的识别和提取,部分代码如图5所示。
所述步骤2)中对截取出的图像进行标准化处理使得图像大小一致,之后再进行灰度化处理,在所有通道上取平均得到灰度图像。最后对于长度不足的视频提取序列,在最后补全0帧(即黑帧),使得所有样本长度一致。
所述步骤3)中通过卷积神经网络处理提取得到的图片序列,将图片映射为固定大小的特征向量。所述的卷积神经网络包括利用卷积核和激活函数之间的计算传递实现对图片的特征提取。
以上所述仅是本发明的优选实施方式,应当指出,本发明亦可将卷积神经网络和长短期记忆神经网络改为其他编码形式,这些改进也应是为本发明保护范围。
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围。凡采用等同替换或等效替换,这些变化是显而易见,一切利用本发明构思的发明创造均在保护之列。

Claims (4)

1.一种基于两阶段神经网络模型的汉语唇语识别方法,其特征在于,所述汉语唇语识别方法采用的两阶段神经网络模型包括双层双向LSTM网络,即图片-拼音LSTM网络层和拼音-汉字编码-解码网络层,通过这两个网络层逐阶段识别汉语唇语;并且所述汉语唇语识别方法具体包括如下步骤:
步骤1)输入原始视频,该原始视频包含带有完整面部的单人说话的说话视频,然后逐帧对所述原始视频逐帧提取唇部区域图像,得到包含唇部区域图像的视频长度个视频帧;
步骤2)将提取到的唇部区域图像缩放到指定大小,进行灰度化处理,将得到的视频帧补齐至指定长度,不足的补全零帧,即黑帧,得到定长的图像序列作为下一步输入;
步骤3)通过3D-2D卷积神经网络,对得到的定长的图像序列进行特征提取,得到唇部特征向量,该3D-2D卷积神经网络包含一层3D卷积层和多层连续的2D卷积层,并且该3D-2D卷积神经网络采用流式传播,即下一层网络使用上一层网络的输出作为输入,并通过卷积核实现输入图像序列的重编码;步骤3)具体包括:
步骤31)给定一个输入的图像序列x={x1,x2,...,xm},其中,x为步骤2)所得的定长的图像序列,x1,x2,...,xm为经过步骤1)特征提取后的单通道视频帧,m为补齐后的视频长度;
步骤32)初始化3D-2D卷积神经网络每层的n个卷积核,遍历每个视频帧xj,其中j=1,2,...,m,
Figure FDA0002310436020000011
为第i个卷积核的参数,对每个卷积核,有
Figure FDA0002310436020000012
其中,xj表示输入的视频帧,
Figure FDA0002310436020000013
表示第i个卷积核的偏置,yi表示第i个卷积核运算之后的输出,
Figure FDA0002310436020000014
表示第i个卷积核对视频帧的卷积操作,其中,i=1,2,...,n;
步骤33)对于每个yi进行池化操作,进一步缩小唇部特征大小;
步骤34)重复步骤33)和步骤34)直到唇部特征被充分压缩;
步骤35)对于每个视频帧xj,得到Yj={y1,y2,...,yn}作为视频帧xj的唇部特征向量输出,对于整个视频,得到了Y={Y1,Y2,...,Ym};
步骤4)将输入的原始视频提取为特征向量Y后,将Y输入双层双向LSTM网络中进行训练;
步骤41)对于每个输入Yj,有输出fj=σ(Af×[Sj-1,hj-1,Yj]+bf),j=1,2,...,m,Sj-1代表双层双向LSTM网络维护的记忆层参数,hj-1=Yj*fj-1代表视频帧xj-1对应的时序位置双层双向LSTM网络的隐藏层状态,用来表示已输入的语义信息在当前时序位置的期望,fj表示输入Yj后得到的输出,是一个长度为现有所有拼音类别数Z的向量,即
Figure FDA0002310436020000021
σ表示双层双向LSTM网络进行每一步计算的操作,Af表示双层双向LSTM网络单元的参数矩阵,bf表示双层双向LSTM网络的偏置;
步骤42)利用CTC(Connectionist Temporal Classification)算法计算双层双向LSTM网络输出的概率分布F={f1,f2,...,fm}与输入的原始视频对应的拼音的标签向量P={p1,p2,…,pk}间的距离D作为损失函数,其中,k表示输入的原始视频对应的拼音序列的长度;所述损失函数loss1=-lnΠ(F,P)δ(fj|pi),fj∈F,pi∈P,其中F表示双层双向LSTM网络输出的概率分布F={f1,f2,…,fm},P表示输入的原始视频对应的句子经过one-hot处理后得到的拼音的标签向量P={p1,p2,...,pk},fj表示每个视频帧xj对应的在拼音上的概率分布,pi表示视频帧xj对应的时序位置可能出现的真实拼音的标签,δ表示当前时序位置出现的真实拼音为pj的情况下,双层双向LSTM网络计算得到fj的概率,然后通过极大似然分别得到每个视频帧xj对应概率最大的拼音标签,并计算当前的概率分布F={f1,f2,…,fm}与该拼音的标签向量P={p1,p2,…,pk}的距离;利用上述损失函数loss1对双层双向LSTM网络进行反向传播,使距离达到最小进行训练;
步骤5)将双层双向LSTM网络的输出F={f1,f2,…,fm}输入到下一层拼音-汉字编码-解码网络中,得到输入的原始视频对应的汉字;具体包括:
步骤51)对单个输出fj,j=1,2,...,m取对数之后进行softmax操作,将拼音概率分布映射到0-1区间内,并且所有项概率之和为1;对于fj中的第i项得到
Figure FDA0002310436020000022
其中,Z表示现有所有拼音类别数,fj表示F={f1,f2,...,fm}在第j项的值,
Figure FDA0002310436020000023
表示
Figure FDA0002310436020000024
在第i项的值,wi表示当前输入是拼音类别为i的拼音的概率;由此,得到当前视频帧xj在拼音级别上的概率分布W={w1,w2,...,wZ};
步骤52)将W={w1,w2,...,wZ}输入到拼音-汉字编码-解码网络中,利用其编码-解码器结构对拼音级别上的概率分布W={w1,w2,...,wZ}再编码,编码器和解码器由门控循环单元(GRU)组成;首先将W输入到编码器中,有
Figure FDA0002310436020000031
Figure FDA0002310436020000032
其中
Figure FDA0002310436020000033
rgate表示所述编码器GRU单元中视频帧xj对应的时序位置的门参数,其中,
Figure FDA0002310436020000034
代表视频帧xj-1对应的时序位置处拼音-汉字编码-解码网络的状态与当前输入W进行运算后得到的注意力向量,用来表示已输入的语义信息在当前位置的期望,
Figure FDA0002310436020000035
表示输入W后得到的输出,σencode表示所述编码器进行每一步计算的操作,
Figure FDA0002310436020000036
表示所述编码器的参数矩阵,
Figure FDA0002310436020000037
表示所述编码器的偏置;最后得到所有视频帧的输出
Figure FDA0002310436020000038
以及最后的句子编码
Figure FDA0002310436020000039
其中j为视频长度,j=1,2,...,m;
步骤53)将句子编码H用注意力机制与输出OUT进行运算,得到
Figure FDA00023104360200000310
其中u0为解码器的隐藏层参数;利用预设的起始句柄ystart初始化所述解码器,有
Figure FDA00023104360200000311
其中f1′为hdecode通过全连接网络转换维度至汉字类别数得到的向量中第一个位置上的汉字概率分布,hdecode为所述解码器隐藏层参数;wdecode为所述解码器GRU单元的参数,
Figure FDA00023104360200000312
为所述解码器GRU单元的偏置,σdecode代表所述解码器GRU单元执行每一步运算时进行的操作;用softmax归一化f1′后取概率最大的标签,对应的文字就是第一个位置上解读出的汉字;
步骤54)对第一个位置之后的汉字的解码采取两种输入方式:
a)采用输入的原始视频对应句子中对应位置上真实的汉字作为下一步输入,这种方式只在训练拼音-汉字编码-解码网络的过程中使用;
b)采用当前的输出对应的汉字作为下一步输入,这种方式在训练拼音-汉字编码-解码网络的过程和预测汉字的过程中均可使用;
上述两种方式a)和b)在训练过程中通过取0-1间随机数的方式决定使用哪一种,当随机数大于0.5时使用a),否则使用b);
预测第一个位置之后的汉字过程如下:令输入为yin,上一个位置n-1上的解码器的隐藏层参数为
Figure FDA0002310436020000041
Figure FDA0002310436020000042
解码得到fn′,
Figure FDA0002310436020000043
其中的参数定义与步骤53)中的参数定义一致,对fn′进行如上处理得到当前位置n上的汉字,当输出为预设终止句柄yend时,终止解码;
步骤55)使用外源语料,即不来自于原始视频的一串有语义的汉字序列对拼音-汉字编码-解码网络进行预训练时,使用词向量模型将汉字的onehot编码转化至与双层双向LSTM网络输出相同的维度,其他步骤与上述一致;
步骤6)计算每个位置上输出的汉字概率分布f′与真实汉字间的标签的交叉熵作为损失函数,即
Figure FDA0002310436020000044
其中p′代表当前位置的汉字真实分布用one-hot向量表示,
Figure FDA0002310436020000045
代表所述解码器预期的当前位置j上汉字概率分布在第i类汉字上的概率,N表示汉字的类别数;loss2表示了解码器输入与真实值的距离,通过最小化loss2使拼音-汉字编码-解码网络的输出接近真实值,对拼音-汉字编码-解码网络进行训练,然后对整个两阶段神经网络模型通过反向传播进行联合训练;
步骤7)当所述联合训练完成后,对整个两阶段神经网络模型输出进行softmax处理后概率最大的汉字组成的字符串即为汉语唇语识别结果。
2.根据权利要求1所述的基于两阶段神经网络模型的汉语唇语识别方法,其特征在于,所述步骤1)中提取唇部区域图像采用了faster-rcnn网络检测唇部区域。
3.根据权利要求2所述的基于两阶段神经网络模型的汉语唇语识别方法,其特征在于,所述步骤2)中进行灰度化处理指对唇部区域图像的全部通道对应位置取平均,并缩放到0-1范围内以代替彩色图像。
4.根据权利要求3所述的基于两阶段神经网络模型的汉语唇语识别方法,其特征在于,所述步骤55)中使用的外源语料为外源拼音-汉字语料库。
CN201911256574.4A 2019-12-10 2019-12-10 一种基于两阶段神经网络模型的汉语唇语识别方法 Active CN111104884B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911256574.4A CN111104884B (zh) 2019-12-10 2019-12-10 一种基于两阶段神经网络模型的汉语唇语识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911256574.4A CN111104884B (zh) 2019-12-10 2019-12-10 一种基于两阶段神经网络模型的汉语唇语识别方法

Publications (2)

Publication Number Publication Date
CN111104884A true CN111104884A (zh) 2020-05-05
CN111104884B CN111104884B (zh) 2022-06-03

Family

ID=70423054

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911256574.4A Active CN111104884B (zh) 2019-12-10 2019-12-10 一种基于两阶段神经网络模型的汉语唇语识别方法

Country Status (1)

Country Link
CN (1) CN111104884B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111582195A (zh) * 2020-05-12 2020-08-25 中国矿业大学(北京) 一种汉语唇语单音节识别分类器构建方法
CN111737957A (zh) * 2020-08-25 2020-10-02 北京世纪好未来教育科技有限公司 汉字拼音转换方法、装置、电子设备及存储介质
CN111753704A (zh) * 2020-06-19 2020-10-09 南京邮电大学 一种基于视频人物唇读识别的时序集中预测方法
CN112232195A (zh) * 2020-10-15 2021-01-15 北京临近空间飞行器系统工程研究所 一种手写汉字识别方法、装置及存储介质
CN112329581A (zh) * 2020-10-29 2021-02-05 南京航空航天大学 基于中文发音视觉特点的唇语识别方法
CN113033452A (zh) * 2021-04-06 2021-06-25 合肥工业大学 融合通道注意力和选择性特征融合机制的唇语识别方法
CN113065432A (zh) * 2021-03-23 2021-07-02 内蒙古工业大学 一种基于数据增强和ECA-Net的手写体蒙古文识别方法
CN114093380A (zh) * 2022-01-24 2022-02-25 荣耀终端有限公司 一种语音增强方法、电子设备、芯片系统及可读存储介质
CN114581811A (zh) * 2022-01-12 2022-06-03 北京云辰信通科技有限公司 基于时空注意力机制的视觉语言识别方法和相关设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109215662A (zh) * 2018-09-18 2019-01-15 平安科技(深圳)有限公司 端对端语音识别方法、电子装置及计算机可读存储介质
CN109906460A (zh) * 2016-11-04 2019-06-18 易享信息技术有限公司 用于问答的动态协同注意力网络
CN110210310A (zh) * 2019-04-30 2019-09-06 北京搜狗科技发展有限公司 一种视频处理方法、装置和用于视频处理的装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109906460A (zh) * 2016-11-04 2019-06-18 易享信息技术有限公司 用于问答的动态协同注意力网络
CN109215662A (zh) * 2018-09-18 2019-01-15 平安科技(深圳)有限公司 端对端语音识别方法、电子装置及计算机可读存储介质
CN110210310A (zh) * 2019-04-30 2019-09-06 北京搜狗科技发展有限公司 一种视频处理方法、装置和用于视频处理的装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
MARGAM DK ET AL: "《LipReading with 3D-2D-CNN BLSTM-HMM and Word-CTC Models》", 《ARXIV.ORG》 *
李云伟: "《基于深度学习的手语识别关键技术研究》", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111582195B (zh) * 2020-05-12 2024-01-26 中国矿业大学(北京) 一种汉语唇语单音节识别分类器构建方法
CN111582195A (zh) * 2020-05-12 2020-08-25 中国矿业大学(北京) 一种汉语唇语单音节识别分类器构建方法
CN111753704A (zh) * 2020-06-19 2020-10-09 南京邮电大学 一种基于视频人物唇读识别的时序集中预测方法
CN111737957A (zh) * 2020-08-25 2020-10-02 北京世纪好未来教育科技有限公司 汉字拼音转换方法、装置、电子设备及存储介质
CN111737957B (zh) * 2020-08-25 2021-06-01 北京世纪好未来教育科技有限公司 汉字拼音转换方法、装置、电子设备及存储介质
CN112232195A (zh) * 2020-10-15 2021-01-15 北京临近空间飞行器系统工程研究所 一种手写汉字识别方法、装置及存储介质
CN112232195B (zh) * 2020-10-15 2024-02-20 北京临近空间飞行器系统工程研究所 一种手写汉字识别方法、装置及存储介质
CN112329581A (zh) * 2020-10-29 2021-02-05 南京航空航天大学 基于中文发音视觉特点的唇语识别方法
CN112329581B (zh) * 2020-10-29 2024-04-02 南京航空航天大学 基于中文发音视觉特点的唇语识别方法
CN113065432A (zh) * 2021-03-23 2021-07-02 内蒙古工业大学 一种基于数据增强和ECA-Net的手写体蒙古文识别方法
CN113033452A (zh) * 2021-04-06 2021-06-25 合肥工业大学 融合通道注意力和选择性特征融合机制的唇语识别方法
CN113033452B (zh) * 2021-04-06 2022-09-16 合肥工业大学 融合通道注意力和选择性特征融合机制的唇语识别方法
CN114581811A (zh) * 2022-01-12 2022-06-03 北京云辰信通科技有限公司 基于时空注意力机制的视觉语言识别方法和相关设备
CN114093380A (zh) * 2022-01-24 2022-02-25 荣耀终端有限公司 一种语音增强方法、电子设备、芯片系统及可读存储介质

Also Published As

Publication number Publication date
CN111104884B (zh) 2022-06-03

Similar Documents

Publication Publication Date Title
CN111104884B (zh) 一种基于两阶段神经网络模型的汉语唇语识别方法
CN109524006B (zh) 一种基于深度学习的汉语普通话唇语识别方法
CN110751208B (zh) 一种基于自权重差分编码器进行多模态特征融合的服刑人员情感识别方法
CN109472031B (zh) 一种基于双记忆注意力的方面级别情感分类模型及方法
CN110188343B (zh) 基于融合注意力网络的多模态情感识别方法
CN112860888B (zh) 一种基于注意力机制的双模态情感分析方法
CN111339837B (zh) 一种连续手语识别方法
Fenghour et al. Lip reading sentences using deep learning with only visual cues
Fenghour et al. Deep learning-based automated lip-reading: A survey
CN111428718A (zh) 一种基于图像增强的自然场景文本识别方法
CN111898670B (zh) 多模态情感识别方法、装置、设备及存储介质
Hao et al. A survey of research on lipreading technology
CN113822192A (zh) 一种基于Transformer的多模态特征融合的在押人员情感识别方法、设备及介质
CN111259785B (zh) 基于时间偏移残差网络的唇语识别方法
CN112597841B (zh) 一种基于门机制多模态融合的情感分析方法
CN114694255B (zh) 基于通道注意力与时间卷积网络的句子级唇语识别方法
CN114581812B (zh) 视觉语言识别方法、装置、电子设备及存储介质
CN116129013A (zh) 一种生成虚拟人动画视频的方法、装置及存储介质
Wang et al. Wavenet with cross-attention for audiovisual speech recognition
Pu et al. Review on research progress of machine lip reading
CN116564338B (zh) 语音动画生成方法、装置、电子设备和介质
CN114040126A (zh) 一种文字驱动的人物播报视频生成方法及装置
He et al. An optimal 3D convolutional neural network based lipreading method
Shirakata et al. Lip reading using facial expression features
CN112135200B (zh) 一种针对压缩视频的视频描述生成方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant