CN110633683B - 结合DenseNet和resBi-LSTM的中文句子级唇语识别方法 - Google Patents
结合DenseNet和resBi-LSTM的中文句子级唇语识别方法 Download PDFInfo
- Publication number
- CN110633683B CN110633683B CN201910888992.9A CN201910888992A CN110633683B CN 110633683 B CN110633683 B CN 110633683B CN 201910888992 A CN201910888992 A CN 201910888992A CN 110633683 B CN110633683 B CN 110633683B
- Authority
- CN
- China
- Prior art keywords
- sequence
- layer
- lstm
- pinyin
- lip
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 23
- 230000000007 visual effect Effects 0.000 claims abstract description 25
- 238000013519 translation Methods 0.000 claims abstract description 18
- 238000012545 processing Methods 0.000 claims abstract description 13
- 230000006870 function Effects 0.000 claims abstract description 8
- 230000009467 reduction Effects 0.000 claims abstract description 4
- 239000013598 vector Substances 0.000 claims description 18
- 230000002457 bidirectional effect Effects 0.000 claims description 15
- 238000000605 extraction Methods 0.000 claims description 10
- 238000012549 training Methods 0.000 claims description 9
- 230000007704 transition Effects 0.000 claims description 8
- 238000011176 pooling Methods 0.000 claims description 7
- 238000012360 testing method Methods 0.000 claims description 6
- 230000033001 locomotion Effects 0.000 claims description 4
- 238000013507 mapping Methods 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 3
- 230000000644 propagated effect Effects 0.000 claims 1
- 238000005516 engineering process Methods 0.000 abstract description 8
- 238000011160 research Methods 0.000 abstract description 4
- 230000008034 disappearance Effects 0.000 abstract description 3
- 238000013473 artificial intelligence Methods 0.000 description 6
- 230000003044 adaptive effect Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000012544 monitoring process Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 241000282414 Homo sapiens Species 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000004064 recycling Methods 0.000 description 1
- XWGJFPHUCFXLBL-UHFFFAOYSA-M rongalite Chemical compound [Na+].OCS([O-])=O XWGJFPHUCFXLBL-UHFFFAOYSA-M 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
- G06V40/171—Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/24—Speech recognition using non-acoustical features
- G10L15/25—Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Theoretical Computer Science (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Document Processing Apparatus (AREA)
Abstract
本发明公开了一种结合DenseNet和resBi‑LSTM的中文句子级唇语识别方法,本发明将唇语识别拆分为拼音预测与语言翻译两个部分,降低了唇语识别的难度。使用DenseNet提取视觉特征,充分利用浅层特征,有效缓解了梯度消失的问题,并且减少了网络的参数。使用1×1卷积代替全连接实现特征降维的功能,保留了特征中的空间信息,在唇语识别技术研究中,空间信息起着重要作用。使用resBi‑LSTM进行视觉特征的处理,最后得到结合了视觉特征和语义特征的复杂特征,减少了有效信息的损失,提高了唇语识别的准确率。
Description
技术领域
本发明涉及人工智能领域,尤其涉及一种结合DenseNet和resBi-LSTM的中文句子级唇语识别方法。
背景技术
随着大数据、云计算、互联网、物联网等信息技术的发展,泛在感知数据和图形处理器等计算平台的推动,以深度神经网络为代表的人工智能技术飞速发展,人工智能正成为推动人类进入智能时代的决定性力量。人工智能的普及对社会的。影响日益凸显,在图像分类、语音识别、知识问答、人机对弈、无人驾驶等领域产生了积极的影响,使之迎来爆发式增长的新高潮。人工智能作为新一轮科技革命的核心力量,推动着国家的进步。唇语识别作为人工智能领域的一个分支,同样起着重要的作用。
唇语识别技术在很多领域可以发挥重大作用。例如,据调查,现如今公共场所的监控设备,受限于成本和技术,大多都只有单一的摄像头,并没有麦克风,仅仅能做到基本的用户人脸图像采集,而无法获取用户讲话内容,不利于公共安全的警戒与保护工作。而唇语识别技术可以解决这一问题,更有效地利用监控视频,为公共安全的建设提供有效支持,最大程度上保障民众的利益不受侵犯。唇语识别的关键技术在于如何提取说话人连续的口型变化特征,如何根据连续变化的口型特征识别出对应的发音,以及计算出可能性最大的自然语言语句。目前已经提出了许多方法,这些方法根据数据集的分类,可以分为词级和句子级唇语识别方法。前者每次只能识别单个词汇,后者识别整个语句。
句子级唇语识别端到端方法基本上基于两个框架,一个是序列到序列(seq2seq)框架,一个是连接时序分类(CTC)框架。seq2seq模型利用全局context信息把一个域的序列转化为另一个域的序列,由encoder(编码器)和decoder(解码器)两部分组成。基于RNN的seq2seq模型的表现会随着句子长度快速下降,并且不能区别对待重要性不同的单词。从而有了改进的基于注意力机制的seq2seq模型,在机器翻译、语音识别、唇语识别等领域取得了较好的成果。CTC算法,一般需要与RNN或DNN结合使用,无需事先标注好训练数据中输入序列和输出序列的映射关系。CTC适用于存在一一对应关系、主要利用局部context信息的问题,例如语音识别、OCR、唇语识别等。以上两种框架均属于对特征序列的处理,在提取口型变化特征阶段,两种框架采用的模型可以通用。一般使用卷积神经网络(CNN)进行特征的提取,例如VGG、ResNet等等。
据我们所知,现如今,唇语识别公开的句子级数据集只有英文的,例如LRS、LRS3等,暂时没有大型句子级中文唇语识别公开数据集。本发明在自己制作的小型数据集上进行研究。由于汉字标签的数量较多,现有数据集的大小无法直接训练得到一个识别为汉字的唇语识别模型,故将其拆分为两部分,一个是预测拼音序列的拼音预测模型,一个是将拼音转化为汉字的语言翻译模型。本发明的关键部分在拼音预测模型,并使用CTC框架对该模型进行训练。
目前,Combining residual networks with LSTMs for lipreading(下面简述Combining.)方法与本发明的拼音预测模型较为相似。该模型是个词级的唇语识别分类模型,首先使用一层时空卷积提取唇部区域的短期动态特征,紧接着三维最大池化层被用来降低三维特征图的空间大小。随后三维特征图在每个时间步上经过一个二维的残差网络(ResNet),提取唇部序列中的空间特征。最后,先使用一层全连接层降低维度,然后使用两层双向LSTM对特征序列进行处理,最后使用全连接层将其分成500类,得到最终的单词分类结果。
发明内容
本发明的目的就在于为了解决上述问题而提供一种结合DenseNet和resBi-LSTM的中文句子级唇语识别方法,解决以下问题:
第一,由于汉语的数量比较大,在唇语识别过程中,如果直接要求得到最终的汉语结果是很困难的。很多汉字具有相同的读音,例如“播”、“玻”和“波”都读“bo”,拼音替换汉字作为标签可以大大降低唇语识别的难度,所以将唇语识别模型拆分为拼音序列预测模型和语言翻译(拼音到汉字)模型。这样中文唇语识别的主要难点就是提高拼音预测模型的准确率。
第二,在拼音预测模型中,最重要的一点就是视觉特征的提取,提取得到的特征更能体现唇部运动特征,那么最后的拼音预测结果也能更好。本发明提出了结合时空卷积和二维DenseNet对唇部图片序列进行特征的提取。其中DenseNet相比于ResNet,通过密集连接的方式缓解梯度消失问题,加强特征传播,鼓励特征复用,极大的减少了参数量。而DenseNet中不同层次学习的串联的特征图增加了后续层输入的变化并提高了效率。
第三,特征序列处理模块是拼音预测模型中另一个重要的模块。该模块一般使用双向LSTM对视觉特征进行分析其中的语义信息,得到最终的结果。但在这个过程中,随着双向LSTM层的加深,特征信息会有一部分的损耗。在本发明中,加入ResNet中的shortcutconnection方法,让视觉特征可以传播到更深的特征序列处理网络中,得到更为全面的语义信息。此网络称之为残差双向LSTM(resBi-LSTM)。
第四,在得到拼音预测序列后,需要将其转化为汉字。在这一阶段,有些类似于机器翻译,不同之处在于拼音序列和汉字序列的前后语序以及字数长度是一致的,而机器翻译的语序和长度并不相同。因此,并不需要机器翻译模型中的Dncoder部分对整个输入序列进行与ground truth的映射。本发明使用堆叠的multi-head attention来完成这个语言翻译模型。
本发明通过以下技术方案来实现上述目的:
本发明包括以下步骤:
步骤一,视觉特征提取:
拼音预测模型的输入是唇部图片序列,假设该输入序列为T×H×W(时间/高度/宽度),先使用时空卷积提取时空特征,捕获唇部区域短时的运动特征,该部分的使用64个5×7×7(时间/高度/宽度)大小的三维卷积核,卷积层后紧跟着Batch Normalization(BN)和Rectified Linear Units(ReLU),得到的三维特征图经过三维最大池化层减小其空间大小;经过这部分网络,得到
随后是二维的DenseNet进一步提取序列的唇部区域特征;这里采用的DenseNet是121-layer的版本;并且只使用其中的稠密块(Dense blocks)和过渡层(Transitionlayer);稠密块网络中的每一层都直接与其前面层相连,实现特征的重复利用;且在稠密块中的Bottleneck层,在3x3的卷积之前加入1x1的卷积,这减小了网络的参数量;过渡层在每两个稠密块之间,为了进一步减少特征图的数量,提升模型的紧凑程度;经过DenseNet网络,tensor的大小为
步骤二,特征序列处理:
对于特征序列的处理,是为了得到其中的语义信息;在这一步使用双向LSTM;在双向LSTM之上加入了shortcut connection,命名为残差双向LSTM(resBi-LSTM);在此使用加法操作,将视觉信息在每一层地双向LSTM中传播,所以此网络可以通过视觉信息与语义信息学习到更为复杂地特征,有助于后续拼音序列地预测;在此网络中,双向LSTM的隐藏层节点数(hidden size)设置为256,由于是双向的,所以输出向量的维度应为512维;加法操作要求相加的两个向量维度一致,因此,在resBi-LSTM层前,需要将特征的维度降到需要的512维;使用1×1卷积进行降维操作,相比于Combining.方法中的全连接层,1×1卷积可以保留特征中的空间信息;这部分空间信息在resBi-LSTM层中也有着重要的作用;通过这部分网络,最终每一个唇部图片帧得到512维的向量;
步骤三,时序数据分类:
在得到512维的特征向量后,需要对每一帧的结果进行分类;使用全连接和SoftMax进行分类;在训练阶段,使用CTC损失进行训练,CTC损失函数的计算公式如下:
Lctc=-ln(pctc(y|x))#(2)
其中,T是输入序列的长度,表示输出标签wt的SoftMax概率,且在时间t,wt∈{a,ai,an,ao,…,zun,zuo,blank};w=(w1,w2,…,wT)是一条序列的CTC路径,y是真实值(即标签),表示可以映射到标签y的所有CTC路径集合;
在测试阶段,使用CTC的prefix beam decode进行序列的解码,得到拼音预测序列;
步骤四,语言翻译模型:
在这一步,需要将上述步骤得到的拼音序列翻译为最终需要的汉字序列;首先使用词嵌入(word embedding)将拼音映射为512维的词向量,拼音的位置信息以正弦函数的形式在固定位置嵌入,以此作为网络的输入,并且该输入同时作为网络的query,key和value;本发明使用6层堆叠的multi-head attention和feed forward,紧跟着一层全连接层,并使用交叉熵损失训练从拼音到汉字的语言翻译模型;在测试的时候,直接选取全连接层输出值最大的作为最终结果。
本发明的有益效果在于:
本发明是一种结合DenseNet和resBi-LSTM的中文句子级唇语识别方法,与现有技术相比,本发明具有如下优点:
1.本发明将唇语识别拆分为拼音预测与语言翻译两个部分,降低了唇语识别的难度。
2.本发明使用DenseNet提取视觉特征,充分利用浅层特征,有效缓解了梯度消失的问题,并且减少了网络的参数。
3.本发明使用1×1卷积代替全连接实现特征降维的功能,保留了特征中的空间信息,在唇语识别技术研究中,空间信息起着重要作用。
4.本发明使用resBi-LSTM进行视觉特征的处理,最后得到结合了视觉特征和语义特征的复杂特征,减少了有效信息的损失,提高了唇语识别的准确率。
附图说明
图1是本发明的唇语识别模型流程图;
图2是本发明的拼音预测模型流程图;
图3是本发明的语言翻译模型流程图。
具体实施方式
下面结合附图对本发明作进一步说明:
本发明使用自制的中文句子级唇语识别数据集(来自于新闻联播与罗辑思维节目)进行唇语识别研究。本发明提出的方法流程图可见图1,分为两个模型,分别是拼音预测模型(图2)和语言翻译模型(图3)。其中在拼音翻译模型分为三个步骤:视觉特征提取、特征序列处理、时序数据分类。
步骤1,视觉特征提取:
拼音预测模型的输入是唇部图片序列,假设该输入序列为T×H×W(时间×高度×宽度),先使用时空卷积提取时空特征,捕获唇部区域短时的运动特征,该部分的使用64个5×7×7(时间/高度/宽度)大小的三维卷积核,卷积层后紧跟着Batch Normalization(BN)和Rectified Linear Units(ReLU),得到的三维特征图经过三维最大池化层减小其空间大小。经过这部分网络,得到大小的tensor。
随后是二维的DenseNet进一步提取序列的唇部区域特征。这里采用的DenseNet是121-layer的版本。并且只使用其中的稠密块(Dense blocks)和过渡层(Transitionlayer)。稠密块网络中的每一层都直接与其前面层相连,实现特征的重复利用。且在稠密块中的Bottleneck层,在3x3的卷积之前加入1x1的卷积,这减小了网络的参数量。过渡层在每两个稠密块之间,为了进一步减少特征图的数量,提升模型的紧凑程度。经过DenseNet网络,tensor的大小为随后,在空间维度上使用自适应平均池化(adaptiveaverage pool),对每一个唇部输入图片得到一个1024维的向量。这就是提取得到的视觉特征。
步骤2,特征序列处理:
对于特征序列的处理,其实就是为了得到其中的语义信息。在这一步通常使用双向LSTM。本发明中,为了更好地传播利用视觉特征,在双向LSTM之上加入了shortcutconnection,命名为残差双向LSTM(resBi-LSTM)。在此使用加法操作,将视觉信息在每一层地双向LSTM中传播,所以此网络可以通过视觉信息与语义信息学习到更为复杂地特征,有助于后续拼音序列地预测。在此网络中,双向LSTM的隐藏层节点数(hidden size)设置为256,由于是双向的,所以输出向量的维度应为512维。加法操作要求相加的两个向量维度一致,因此,在resBi-LSTM层前,需要将特征的维度降到需要的512维。本发明中使用1×1卷积进行降维操作,相比于Combining.方法中的全连接层,1×1卷积可以保留特征中的空间信息。这部分空间信息在resBi-LSTM层中也有着重要的作用。通过这部分网络,最终每一个唇部图片帧得到512维的向量。
步骤3,时序数据分类:
在得到512维的特征向量后,需要对每一帧的结果进行分类。本发明中使用全连接和SoftMax进行分类。在训练阶段,使用CTC损失进行训练,CTC损失函数的计算公式如下:
Lctc=-ln(pctc(y|x))#(2)
其中,T是输入序列的长度,表示输出标签wt的SoftMax概率,且在时间t,wt∈{a,ai,an,ao,…,zun,zuo,zuo,blank};w=(w1,w2,…,wT)是一条序列的CTC路径,y是真实值(即标签),表示可以映射到标签y的所有CTC路径集合。
在测试阶段,使用CTC的prefix beam decode进行序列的解码,得到拼音预测序列。
步骤4,语言翻译模型
在这一步,需要将上述步骤得到的拼音序列翻译为最终需要的汉字序列。首先使用词嵌入(word embedding)将拼音映射为512维的词向量,拼音的位置信息以正弦函数的形式在固定位置嵌入,以此作为网络的输入,并且该输入同时作为网络的query,key和value。本发明使用6层堆叠的multi-head attention和feed forward,紧跟着一层全连接层,并使用交叉熵损失训练从拼音到汉字的语言翻译模型。
在测试的时候,直接选取全连接层输出值最大的作为最终结果。
本发明的实验结果如下:
本发明在Combining.方法的基础上,这里将其更改了训练机制,在自制数据集上进行了改进创新,结果如表1所示。首先改进特征提取的方法,DenseNet可以提取到比ResNet更为有效的空间特征;其次是改进视觉特征处理模块,结合了视觉特征与语义特征可以获得更复杂的特征,有助于最终的分类结果;随后采用1×1卷积替换全连接层,保留视觉特征中的空间特征,结果表明,这是有效的。其中由于拼音预测中的错误,导致在拼音转汉字的过程中损失8%左右的准确率。
表1各方法拼音错误率和汉字错误率结果图
以上显示和描述了本发明的基本原理和主要特征及本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。
Claims (1)
1.一种结合DenseNet和resBi-LSTM的中文句子级唇语识别方法,其特征在于,包括以下步骤:
步骤一,视觉特征提取:
拼音预测模型的输入是唇部图片序列,假设该输入序列为:时间T×高度H×宽度W,先使用时空卷积提取时空特征,捕获唇部区域短时的运动特征,该部分的使用64个5T×7H×7W大小的三维卷积核,卷积层后紧跟着Batch Normalization和Rectified Linear Units,得到的三维特征图经过三维最大池化层减小其空间大小;经过这部分网络,得到大小的tensor;
随后是二维的DenseNet进一步提取序列的唇部区域特征;这里采用的DenseNet是121-layer的版本;并且只使用其中的稠密块和过渡层;稠密块网络中的每一层都直接与其前面层相连,且在稠密块中的Bottleneck层,在3x3的卷积之前加入1x1的卷积,过渡层在每两个稠密块之间,为了进一步减少特征图的数量,提升模型的紧凑程度;经过DenseNet网络,tensor的大小为
步骤二,特征序列处理:
对于特征序列的处理,是为了得到其中的语义信息;在这一步使用双向LSTM;在双向LSTM之上加入了shortcut connection,命名为残差双向LSTM;在此使用加法操作,将视觉信息在每一层地双向LSTM中传播,在此网络中,双向LSTM的隐藏层节点数设置为256,由于是双向的,所以输出向量的维度应为512维;加法操作要求相加的两个向量维度一致,因此,在resBi-LSTM层前,需要将特征的维度降到需要的512维;使用1×1卷积进行降维操作,1×1卷积可以保留特征中的空间信息;通过这部分网络,最终每一个唇部图片帧得到512维的向量;
步骤三,时序数据分类:
在得到512维的特征向量后,需要对每一帧的结果进行分类;使用全连接和SoftMax进行分类;在训练阶段,使用CTC损失进行训练,CTC损失函数的计算公式如下:
Lctc=-ln(pctc(y|x))#(2)
在测试阶段,使用CTC的prefix beam decode进行序列的解码,得到拼音预测序列;
步骤四,语言翻译模型:
在这一步,需要将上述步骤得到的拼音序列翻译为最终需要的汉字序列;首先使用词嵌入将拼音映射为512维的词向量,拼音的位置信息以正弦函数的形式在固定位置嵌入,以此作为网络的输入,并且该输入同时作为网络的query,key和value;本发明使用6层堆叠的multi-head attention和feed forward,紧跟着一层全连接层,并使用交叉熵损失训练从拼音到汉字的语言翻译模型;在测试的时候,直接选取全连接层输出值最大的作为最终结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910888992.9A CN110633683B (zh) | 2019-09-19 | 2019-09-19 | 结合DenseNet和resBi-LSTM的中文句子级唇语识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910888992.9A CN110633683B (zh) | 2019-09-19 | 2019-09-19 | 结合DenseNet和resBi-LSTM的中文句子级唇语识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110633683A CN110633683A (zh) | 2019-12-31 |
CN110633683B true CN110633683B (zh) | 2022-03-25 |
Family
ID=68971764
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910888992.9A Active CN110633683B (zh) | 2019-09-19 | 2019-09-19 | 结合DenseNet和resBi-LSTM的中文句子级唇语识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110633683B (zh) |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111341306B (zh) * | 2020-02-14 | 2022-06-17 | 东南大学 | 基于语音特征复用的关键词唤醒cnn的存储和计算压缩方法 |
CN111325155B (zh) * | 2020-02-21 | 2022-09-23 | 重庆邮电大学 | 基于残差式3d cnn和多模态特征融合策略的视频动作识别方法 |
CN111554279A (zh) * | 2020-04-27 | 2020-08-18 | 天津大学 | 一种基于Kinect的多模态人机交互系统 |
CN111611926A (zh) * | 2020-05-21 | 2020-09-01 | 重庆现代建筑产业发展研究院 | 一种地标建筑物检测与识别方法及装置 |
CN111914803B (zh) * | 2020-08-17 | 2023-06-13 | 华侨大学 | 一种唇语关键词检测方法、装置、设备及存储介质 |
CN112330713B (zh) * | 2020-11-26 | 2023-12-19 | 南京工程学院 | 基于唇语识别的重度听障患者言语理解度的改进方法 |
CN113033452B (zh) * | 2021-04-06 | 2022-09-16 | 合肥工业大学 | 融合通道注意力和选择性特征融合机制的唇语识别方法 |
CN113642420B (zh) * | 2021-07-26 | 2024-04-16 | 华侨大学 | 一种唇语的识别方法、装置及设备 |
CN113657253B (zh) * | 2021-08-16 | 2023-12-05 | 浙江大学 | 使用注意力引导自适应记忆的实时唇语识别方法和系统 |
CN113435421B (zh) * | 2021-08-26 | 2021-11-05 | 湖南大学 | 一种基于跨模态注意力增强的唇语识别方法及系统 |
CN116386142A (zh) * | 2023-04-03 | 2023-07-04 | 湘潭大学 | 一种基于Convformer的粤语句子级唇语识别方法 |
CN117598711B (zh) * | 2024-01-24 | 2024-04-26 | 中南大学 | 一种心电信号的qrs波群检测方法、装置、设备及介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107992812A (zh) * | 2017-11-27 | 2018-05-04 | 北京搜狗科技发展有限公司 | 一种唇语识别方法及装置 |
CN108509903A (zh) * | 2018-03-30 | 2018-09-07 | 盎锐(上海)信息科技有限公司 | 基于3d成像技术的唇语翻译装置及唇语翻译方法 |
CN109524006A (zh) * | 2018-10-17 | 2019-03-26 | 天津大学 | 一种基于深度学习的汉语普通话唇语识别方法 |
CN109858412A (zh) * | 2019-01-18 | 2019-06-07 | 东北大学 | 一种基于混合卷积神经网络的唇语识别方法 |
-
2019
- 2019-09-19 CN CN201910888992.9A patent/CN110633683B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107992812A (zh) * | 2017-11-27 | 2018-05-04 | 北京搜狗科技发展有限公司 | 一种唇语识别方法及装置 |
CN108509903A (zh) * | 2018-03-30 | 2018-09-07 | 盎锐(上海)信息科技有限公司 | 基于3d成像技术的唇语翻译装置及唇语翻译方法 |
CN109524006A (zh) * | 2018-10-17 | 2019-03-26 | 天津大学 | 一种基于深度学习的汉语普通话唇语识别方法 |
CN109858412A (zh) * | 2019-01-18 | 2019-06-07 | 东北大学 | 一种基于混合卷积神经网络的唇语识别方法 |
Non-Patent Citations (2)
Title |
---|
Combining Residual Networks with LSTMs for Lipreading;Themos Stafylakis et.al;《arXiv》;20170908;全文 * |
基于深度学习的唇语识别应用的研究与实现;杨帆;《中国优秀硕士学位论文全文数据库 信息科技辑》;20180915(第09期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN110633683A (zh) | 2019-12-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110633683B (zh) | 结合DenseNet和resBi-LSTM的中文句子级唇语识别方法 | |
CN110598221B (zh) | 利用生成对抗网络构造蒙汉平行语料提高蒙汉翻译质量的方法 | |
CN110263912B (zh) | 一种基于多目标关联深度推理的图像问答方法 | |
CN112560503A (zh) | 融合深度特征和时序模型的语义情感分析方法 | |
CN111783462A (zh) | 基于双神经网络融合的中文命名实体识别模型及方法 | |
CN109359297B (zh) | 一种关系抽取方法及系统 | |
CN111916067A (zh) | 语音识别模型的训练方法、装置、电子设备及存储介质 | |
WO2023160472A1 (zh) | 一种模型训练方法及相关设备 | |
Zhang et al. | Understanding pictograph with facial features: end-to-end sentence-level lip reading of Chinese | |
CN112733866A (zh) | 一种提高可控图像文本描述正确性的网络构建方法 | |
CN111259785B (zh) | 基于时间偏移残差网络的唇语识别方法 | |
CN113705315B (zh) | 视频处理方法、装置、设备及存储介质 | |
CN111738169A (zh) | 一种基于端对端网络模型的手写公式识别方法 | |
CN113159023A (zh) | 基于显式监督注意力机制的场景文本识别方法 | |
CN111653270B (zh) | 语音处理方法、装置、计算机可读存储介质及电子设备 | |
CN113392265A (zh) | 多媒体处理方法、装置及设备 | |
CN115563327A (zh) | 基于Transformer网络选择性蒸馏的零样本跨模态检索方法 | |
CN116306652A (zh) | 一种基于注意力机制和BiLSTM的中文命名实体识别模型 | |
CN111858984A (zh) | 一种基于注意力机制哈希检索的图像匹配方法 | |
CN110298046B (zh) | 一种翻译模型训练方法、文本翻译方法及相关装置 | |
CN114973222A (zh) | 基于显式监督注意力机制的场景文本识别方法 | |
Cosovic et al. | Classification methods in cultural heritage | |
CN112349294A (zh) | 语音处理方法及装置、计算机可读介质、电子设备 | |
CN116580278A (zh) | 一种基于多注意力机制的唇语识别方法、设备及存储介质 | |
CN114694255A (zh) | 基于通道注意力与时间卷积网络的句子级唇语识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |