CN110633683B - 结合DenseNet和resBi-LSTM的中文句子级唇语识别方法 - Google Patents

结合DenseNet和resBi-LSTM的中文句子级唇语识别方法 Download PDF

Info

Publication number
CN110633683B
CN110633683B CN201910888992.9A CN201910888992A CN110633683B CN 110633683 B CN110633683 B CN 110633683B CN 201910888992 A CN201910888992 A CN 201910888992A CN 110633683 B CN110633683 B CN 110633683B
Authority
CN
China
Prior art keywords
sequence
layer
lstm
pinyin
lip
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910888992.9A
Other languages
English (en)
Other versions
CN110633683A (zh
Inventor
杜吉祥
陈雪娟
张洪博
雷庆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huaqiao University
Original Assignee
Huaqiao University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huaqiao University filed Critical Huaqiao University
Priority to CN201910888992.9A priority Critical patent/CN110633683B/zh
Publication of CN110633683A publication Critical patent/CN110633683A/zh
Application granted granted Critical
Publication of CN110633683B publication Critical patent/CN110633683B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/171Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • G10L15/25Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明公开了一种结合DenseNet和resBi‑LSTM的中文句子级唇语识别方法,本发明将唇语识别拆分为拼音预测与语言翻译两个部分,降低了唇语识别的难度。使用DenseNet提取视觉特征,充分利用浅层特征,有效缓解了梯度消失的问题,并且减少了网络的参数。使用1×1卷积代替全连接实现特征降维的功能,保留了特征中的空间信息,在唇语识别技术研究中,空间信息起着重要作用。使用resBi‑LSTM进行视觉特征的处理,最后得到结合了视觉特征和语义特征的复杂特征,减少了有效信息的损失,提高了唇语识别的准确率。

Description

结合DenseNet和resBi-LSTM的中文句子级唇语识别方法
技术领域
本发明涉及人工智能领域,尤其涉及一种结合DenseNet和resBi-LSTM的中文句子级唇语识别方法。
背景技术
随着大数据、云计算、互联网、物联网等信息技术的发展,泛在感知数据和图形处理器等计算平台的推动,以深度神经网络为代表的人工智能技术飞速发展,人工智能正成为推动人类进入智能时代的决定性力量。人工智能的普及对社会的。影响日益凸显,在图像分类、语音识别、知识问答、人机对弈、无人驾驶等领域产生了积极的影响,使之迎来爆发式增长的新高潮。人工智能作为新一轮科技革命的核心力量,推动着国家的进步。唇语识别作为人工智能领域的一个分支,同样起着重要的作用。
唇语识别技术在很多领域可以发挥重大作用。例如,据调查,现如今公共场所的监控设备,受限于成本和技术,大多都只有单一的摄像头,并没有麦克风,仅仅能做到基本的用户人脸图像采集,而无法获取用户讲话内容,不利于公共安全的警戒与保护工作。而唇语识别技术可以解决这一问题,更有效地利用监控视频,为公共安全的建设提供有效支持,最大程度上保障民众的利益不受侵犯。唇语识别的关键技术在于如何提取说话人连续的口型变化特征,如何根据连续变化的口型特征识别出对应的发音,以及计算出可能性最大的自然语言语句。目前已经提出了许多方法,这些方法根据数据集的分类,可以分为词级和句子级唇语识别方法。前者每次只能识别单个词汇,后者识别整个语句。
句子级唇语识别端到端方法基本上基于两个框架,一个是序列到序列(seq2seq)框架,一个是连接时序分类(CTC)框架。seq2seq模型利用全局context信息把一个域的序列转化为另一个域的序列,由encoder(编码器)和decoder(解码器)两部分组成。基于RNN的seq2seq模型的表现会随着句子长度快速下降,并且不能区别对待重要性不同的单词。从而有了改进的基于注意力机制的seq2seq模型,在机器翻译、语音识别、唇语识别等领域取得了较好的成果。CTC算法,一般需要与RNN或DNN结合使用,无需事先标注好训练数据中输入序列和输出序列的映射关系。CTC适用于存在一一对应关系、主要利用局部context信息的问题,例如语音识别、OCR、唇语识别等。以上两种框架均属于对特征序列的处理,在提取口型变化特征阶段,两种框架采用的模型可以通用。一般使用卷积神经网络(CNN)进行特征的提取,例如VGG、ResNet等等。
据我们所知,现如今,唇语识别公开的句子级数据集只有英文的,例如LRS、LRS3等,暂时没有大型句子级中文唇语识别公开数据集。本发明在自己制作的小型数据集上进行研究。由于汉字标签的数量较多,现有数据集的大小无法直接训练得到一个识别为汉字的唇语识别模型,故将其拆分为两部分,一个是预测拼音序列的拼音预测模型,一个是将拼音转化为汉字的语言翻译模型。本发明的关键部分在拼音预测模型,并使用CTC框架对该模型进行训练。
目前,Combining residual networks with LSTMs for lipreading(下面简述Combining.)方法与本发明的拼音预测模型较为相似。该模型是个词级的唇语识别分类模型,首先使用一层时空卷积提取唇部区域的短期动态特征,紧接着三维最大池化层被用来降低三维特征图的空间大小。随后三维特征图在每个时间步上经过一个二维的残差网络(ResNet),提取唇部序列中的空间特征。最后,先使用一层全连接层降低维度,然后使用两层双向LSTM对特征序列进行处理,最后使用全连接层将其分成500类,得到最终的单词分类结果。
发明内容
本发明的目的就在于为了解决上述问题而提供一种结合DenseNet和resBi-LSTM的中文句子级唇语识别方法,解决以下问题:
第一,由于汉语的数量比较大,在唇语识别过程中,如果直接要求得到最终的汉语结果是很困难的。很多汉字具有相同的读音,例如“播”、“玻”和“波”都读“bo”,拼音替换汉字作为标签可以大大降低唇语识别的难度,所以将唇语识别模型拆分为拼音序列预测模型和语言翻译(拼音到汉字)模型。这样中文唇语识别的主要难点就是提高拼音预测模型的准确率。
第二,在拼音预测模型中,最重要的一点就是视觉特征的提取,提取得到的特征更能体现唇部运动特征,那么最后的拼音预测结果也能更好。本发明提出了结合时空卷积和二维DenseNet对唇部图片序列进行特征的提取。其中DenseNet相比于ResNet,通过密集连接的方式缓解梯度消失问题,加强特征传播,鼓励特征复用,极大的减少了参数量。而DenseNet中不同层次学习的串联的特征图增加了后续层输入的变化并提高了效率。
第三,特征序列处理模块是拼音预测模型中另一个重要的模块。该模块一般使用双向LSTM对视觉特征进行分析其中的语义信息,得到最终的结果。但在这个过程中,随着双向LSTM层的加深,特征信息会有一部分的损耗。在本发明中,加入ResNet中的shortcutconnection方法,让视觉特征可以传播到更深的特征序列处理网络中,得到更为全面的语义信息。此网络称之为残差双向LSTM(resBi-LSTM)。
第四,在得到拼音预测序列后,需要将其转化为汉字。在这一阶段,有些类似于机器翻译,不同之处在于拼音序列和汉字序列的前后语序以及字数长度是一致的,而机器翻译的语序和长度并不相同。因此,并不需要机器翻译模型中的Dncoder部分对整个输入序列进行与ground truth的映射。本发明使用堆叠的multi-head attention来完成这个语言翻译模型。
本发明通过以下技术方案来实现上述目的:
本发明包括以下步骤:
步骤一,视觉特征提取:
拼音预测模型的输入是唇部图片序列,假设该输入序列为T×H×W(时间/高度/宽度),先使用时空卷积提取时空特征,捕获唇部区域短时的运动特征,该部分的使用64个5×7×7(时间/高度/宽度)大小的三维卷积核,卷积层后紧跟着Batch Normalization(BN)和Rectified Linear Units(ReLU),得到的三维特征图经过三维最大池化层减小其空间大小;经过这部分网络,得到
Figure BDA0002208150340000041
大小的tensor;
随后是二维的DenseNet进一步提取序列的唇部区域特征;这里采用的DenseNet是121-layer的版本;并且只使用其中的稠密块(Dense blocks)和过渡层(Transitionlayer);稠密块网络中的每一层都直接与其前面层相连,实现特征的重复利用;且在稠密块中的Bottleneck层,在3x3的卷积之前加入1x1的卷积,这减小了网络的参数量;过渡层在每两个稠密块之间,为了进一步减少特征图的数量,提升模型的紧凑程度;经过DenseNet网络,tensor的大小为
Figure BDA0002208150340000042
随后,在空间维度上使用自适应平均池化(adaptive averagepool),对每一个唇部输入图片得到一个1024维的向量;这就是提取得到的视觉特征;
步骤二,特征序列处理:
对于特征序列的处理,是为了得到其中的语义信息;在这一步使用双向LSTM;在双向LSTM之上加入了shortcut connection,命名为残差双向LSTM(resBi-LSTM);在此使用加法操作,将视觉信息在每一层地双向LSTM中传播,所以此网络可以通过视觉信息与语义信息学习到更为复杂地特征,有助于后续拼音序列地预测;在此网络中,双向LSTM的隐藏层节点数(hidden size)设置为256,由于是双向的,所以输出向量的维度应为512维;加法操作要求相加的两个向量维度一致,因此,在resBi-LSTM层前,需要将特征的维度降到需要的512维;使用1×1卷积进行降维操作,相比于Combining.方法中的全连接层,1×1卷积可以保留特征中的空间信息;这部分空间信息在resBi-LSTM层中也有着重要的作用;通过这部分网络,最终每一个唇部图片帧得到512维的向量;
步骤三,时序数据分类:
在得到512维的特征向量后,需要对每一帧的结果进行分类;使用全连接和SoftMax进行分类;在训练阶段,使用CTC损失进行训练,CTC损失函数的计算公式如下:
Figure BDA0002208150340000051
Lctc=-ln(pctc(y|x))#(2)
其中,T是输入序列的长度,
Figure BDA0002208150340000052
表示输出标签wt的SoftMax概率,且在时间t,wt∈{a,ai,an,ao,…,zun,zuo,blank};w=(w1,w2,…,wT)是一条序列的CTC路径,y是真实值(即标签),
Figure BDA0002208150340000053
表示可以映射到标签y的所有CTC路径集合;
在测试阶段,使用CTC的prefix beam decode进行序列的解码,得到拼音预测序列;
步骤四,语言翻译模型:
在这一步,需要将上述步骤得到的拼音序列翻译为最终需要的汉字序列;首先使用词嵌入(word embedding)将拼音映射为512维的词向量,拼音的位置信息以正弦函数的形式在固定位置嵌入,以此作为网络的输入,并且该输入同时作为网络的query,key和value;本发明使用6层堆叠的multi-head attention和feed forward,紧跟着一层全连接层,并使用交叉熵损失训练从拼音到汉字的语言翻译模型;在测试的时候,直接选取全连接层输出值最大的作为最终结果。
本发明的有益效果在于:
本发明是一种结合DenseNet和resBi-LSTM的中文句子级唇语识别方法,与现有技术相比,本发明具有如下优点:
1.本发明将唇语识别拆分为拼音预测与语言翻译两个部分,降低了唇语识别的难度。
2.本发明使用DenseNet提取视觉特征,充分利用浅层特征,有效缓解了梯度消失的问题,并且减少了网络的参数。
3.本发明使用1×1卷积代替全连接实现特征降维的功能,保留了特征中的空间信息,在唇语识别技术研究中,空间信息起着重要作用。
4.本发明使用resBi-LSTM进行视觉特征的处理,最后得到结合了视觉特征和语义特征的复杂特征,减少了有效信息的损失,提高了唇语识别的准确率。
附图说明
图1是本发明的唇语识别模型流程图;
图2是本发明的拼音预测模型流程图;
图3是本发明的语言翻译模型流程图。
具体实施方式
下面结合附图对本发明作进一步说明:
本发明使用自制的中文句子级唇语识别数据集(来自于新闻联播与罗辑思维节目)进行唇语识别研究。本发明提出的方法流程图可见图1,分为两个模型,分别是拼音预测模型(图2)和语言翻译模型(图3)。其中在拼音翻译模型分为三个步骤:视觉特征提取、特征序列处理、时序数据分类。
步骤1,视觉特征提取:
拼音预测模型的输入是唇部图片序列,假设该输入序列为T×H×W(时间×高度×宽度),先使用时空卷积提取时空特征,捕获唇部区域短时的运动特征,该部分的使用64个5×7×7(时间/高度/宽度)大小的三维卷积核,卷积层后紧跟着Batch Normalization(BN)和Rectified Linear Units(ReLU),得到的三维特征图经过三维最大池化层减小其空间大小。经过这部分网络,得到
Figure BDA0002208150340000071
大小的tensor。
随后是二维的DenseNet进一步提取序列的唇部区域特征。这里采用的DenseNet是121-layer的版本。并且只使用其中的稠密块(Dense blocks)和过渡层(Transitionlayer)。稠密块网络中的每一层都直接与其前面层相连,实现特征的重复利用。且在稠密块中的Bottleneck层,在3x3的卷积之前加入1x1的卷积,这减小了网络的参数量。过渡层在每两个稠密块之间,为了进一步减少特征图的数量,提升模型的紧凑程度。经过DenseNet网络,tensor的大小为
Figure BDA0002208150340000072
随后,在空间维度上使用自适应平均池化(adaptiveaverage pool),对每一个唇部输入图片得到一个1024维的向量。这就是提取得到的视觉特征。
步骤2,特征序列处理:
对于特征序列的处理,其实就是为了得到其中的语义信息。在这一步通常使用双向LSTM。本发明中,为了更好地传播利用视觉特征,在双向LSTM之上加入了shortcutconnection,命名为残差双向LSTM(resBi-LSTM)。在此使用加法操作,将视觉信息在每一层地双向LSTM中传播,所以此网络可以通过视觉信息与语义信息学习到更为复杂地特征,有助于后续拼音序列地预测。在此网络中,双向LSTM的隐藏层节点数(hidden size)设置为256,由于是双向的,所以输出向量的维度应为512维。加法操作要求相加的两个向量维度一致,因此,在resBi-LSTM层前,需要将特征的维度降到需要的512维。本发明中使用1×1卷积进行降维操作,相比于Combining.方法中的全连接层,1×1卷积可以保留特征中的空间信息。这部分空间信息在resBi-LSTM层中也有着重要的作用。通过这部分网络,最终每一个唇部图片帧得到512维的向量。
步骤3,时序数据分类:
在得到512维的特征向量后,需要对每一帧的结果进行分类。本发明中使用全连接和SoftMax进行分类。在训练阶段,使用CTC损失进行训练,CTC损失函数的计算公式如下:
Figure BDA0002208150340000081
Lctc=-ln(pctc(y|x))#(2)
其中,T是输入序列的长度,
Figure BDA0002208150340000082
表示输出标签wt的SoftMax概率,且在时间t,wt∈{a,ai,an,ao,…,zun,zuo,zuo,blank};w=(w1,w2,…,wT)是一条序列的CTC路径,y是真实值(即标签),
Figure BDA0002208150340000083
表示可以映射到标签y的所有CTC路径集合。
在测试阶段,使用CTC的prefix beam decode进行序列的解码,得到拼音预测序列。
步骤4,语言翻译模型
在这一步,需要将上述步骤得到的拼音序列翻译为最终需要的汉字序列。首先使用词嵌入(word embedding)将拼音映射为512维的词向量,拼音的位置信息以正弦函数的形式在固定位置嵌入,以此作为网络的输入,并且该输入同时作为网络的query,key和value。本发明使用6层堆叠的multi-head attention和feed forward,紧跟着一层全连接层,并使用交叉熵损失训练从拼音到汉字的语言翻译模型。
在测试的时候,直接选取全连接层输出值最大的作为最终结果。
本发明的实验结果如下:
本发明在Combining.方法的基础上,这里将其更改了训练机制,在自制数据集上进行了改进创新,结果如表1所示。首先改进特征提取的方法,DenseNet可以提取到比ResNet更为有效的空间特征;其次是改进视觉特征处理模块,结合了视觉特征与语义特征可以获得更复杂的特征,有助于最终的分类结果;随后采用1×1卷积替换全连接层,保留视觉特征中的空间特征,结果表明,这是有效的。其中
Figure BDA0002208150340000091
由于拼音预测中的错误,导致在拼音转汉字的过程中损失8%左右的准确率。
Figure BDA0002208150340000092
表1各方法拼音错误率和汉字错误率结果图
以上显示和描述了本发明的基本原理和主要特征及本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims (1)

1.一种结合DenseNet和resBi-LSTM的中文句子级唇语识别方法,其特征在于,包括以下步骤:
步骤一,视觉特征提取:
拼音预测模型的输入是唇部图片序列,假设该输入序列为:时间T×高度H×宽度W,先使用时空卷积提取时空特征,捕获唇部区域短时的运动特征,该部分的使用64个5T×7H×7W大小的三维卷积核,卷积层后紧跟着Batch Normalization和Rectified Linear Units,得到的三维特征图经过三维最大池化层减小其空间大小;经过这部分网络,得到
Figure FDA0003436080060000011
大小的tensor;
随后是二维的DenseNet进一步提取序列的唇部区域特征;这里采用的DenseNet是121-layer的版本;并且只使用其中的稠密块和过渡层;稠密块网络中的每一层都直接与其前面层相连,且在稠密块中的Bottleneck层,在3x3的卷积之前加入1x1的卷积,过渡层在每两个稠密块之间,为了进一步减少特征图的数量,提升模型的紧凑程度;经过DenseNet网络,tensor的大小为
Figure FDA0003436080060000012
随后,在空间维度上使用自适应平均池化,对每一个唇部输入图片得到一个1024维的向量;这就是提取得到的视觉特征;
步骤二,特征序列处理:
对于特征序列的处理,是为了得到其中的语义信息;在这一步使用双向LSTM;在双向LSTM之上加入了shortcut connection,命名为残差双向LSTM;在此使用加法操作,将视觉信息在每一层地双向LSTM中传播,在此网络中,双向LSTM的隐藏层节点数设置为256,由于是双向的,所以输出向量的维度应为512维;加法操作要求相加的两个向量维度一致,因此,在resBi-LSTM层前,需要将特征的维度降到需要的512维;使用1×1卷积进行降维操作,1×1卷积可以保留特征中的空间信息;通过这部分网络,最终每一个唇部图片帧得到512维的向量;
步骤三,时序数据分类:
在得到512维的特征向量后,需要对每一帧的结果进行分类;使用全连接和SoftMax进行分类;在训练阶段,使用CTC损失进行训练,CTC损失函数的计算公式如下:
Figure FDA0003436080060000021
Lctc=-ln(pctc(y|x))#(2)
其中,T是输入序列的长度,
Figure FDA0003436080060000022
表示输出标签wt的SoftMax概率,且在时间t,
Figure FDA0003436080060000024
w=(w1,w2,…,wT)是一条序列的CTC路径,y是真实值,
Figure FDA0003436080060000023
表示可以映射到标签y的所有CTC路径集合;
在测试阶段,使用CTC的prefix beam decode进行序列的解码,得到拼音预测序列;
步骤四,语言翻译模型:
在这一步,需要将上述步骤得到的拼音序列翻译为最终需要的汉字序列;首先使用词嵌入将拼音映射为512维的词向量,拼音的位置信息以正弦函数的形式在固定位置嵌入,以此作为网络的输入,并且该输入同时作为网络的query,key和value;本发明使用6层堆叠的multi-head attention和feed forward,紧跟着一层全连接层,并使用交叉熵损失训练从拼音到汉字的语言翻译模型;在测试的时候,直接选取全连接层输出值最大的作为最终结果。
CN201910888992.9A 2019-09-19 2019-09-19 结合DenseNet和resBi-LSTM的中文句子级唇语识别方法 Active CN110633683B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910888992.9A CN110633683B (zh) 2019-09-19 2019-09-19 结合DenseNet和resBi-LSTM的中文句子级唇语识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910888992.9A CN110633683B (zh) 2019-09-19 2019-09-19 结合DenseNet和resBi-LSTM的中文句子级唇语识别方法

Publications (2)

Publication Number Publication Date
CN110633683A CN110633683A (zh) 2019-12-31
CN110633683B true CN110633683B (zh) 2022-03-25

Family

ID=68971764

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910888992.9A Active CN110633683B (zh) 2019-09-19 2019-09-19 结合DenseNet和resBi-LSTM的中文句子级唇语识别方法

Country Status (1)

Country Link
CN (1) CN110633683B (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111341306B (zh) * 2020-02-14 2022-06-17 东南大学 基于语音特征复用的关键词唤醒cnn的存储和计算压缩方法
CN111325155B (zh) * 2020-02-21 2022-09-23 重庆邮电大学 基于残差式3d cnn和多模态特征融合策略的视频动作识别方法
CN111554279A (zh) * 2020-04-27 2020-08-18 天津大学 一种基于Kinect的多模态人机交互系统
CN111611926A (zh) * 2020-05-21 2020-09-01 重庆现代建筑产业发展研究院 一种地标建筑物检测与识别方法及装置
CN111914803B (zh) * 2020-08-17 2023-06-13 华侨大学 一种唇语关键词检测方法、装置、设备及存储介质
CN112330713B (zh) * 2020-11-26 2023-12-19 南京工程学院 基于唇语识别的重度听障患者言语理解度的改进方法
CN113033452B (zh) * 2021-04-06 2022-09-16 合肥工业大学 融合通道注意力和选择性特征融合机制的唇语识别方法
CN113642420B (zh) * 2021-07-26 2024-04-16 华侨大学 一种唇语的识别方法、装置及设备
CN113657253B (zh) * 2021-08-16 2023-12-05 浙江大学 使用注意力引导自适应记忆的实时唇语识别方法和系统
CN113435421B (zh) * 2021-08-26 2021-11-05 湖南大学 一种基于跨模态注意力增强的唇语识别方法及系统
CN116386142A (zh) * 2023-04-03 2023-07-04 湘潭大学 一种基于Convformer的粤语句子级唇语识别方法
CN117598711B (zh) * 2024-01-24 2024-04-26 中南大学 一种心电信号的qrs波群检测方法、装置、设备及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107992812A (zh) * 2017-11-27 2018-05-04 北京搜狗科技发展有限公司 一种唇语识别方法及装置
CN108509903A (zh) * 2018-03-30 2018-09-07 盎锐(上海)信息科技有限公司 基于3d成像技术的唇语翻译装置及唇语翻译方法
CN109524006A (zh) * 2018-10-17 2019-03-26 天津大学 一种基于深度学习的汉语普通话唇语识别方法
CN109858412A (zh) * 2019-01-18 2019-06-07 东北大学 一种基于混合卷积神经网络的唇语识别方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107992812A (zh) * 2017-11-27 2018-05-04 北京搜狗科技发展有限公司 一种唇语识别方法及装置
CN108509903A (zh) * 2018-03-30 2018-09-07 盎锐(上海)信息科技有限公司 基于3d成像技术的唇语翻译装置及唇语翻译方法
CN109524006A (zh) * 2018-10-17 2019-03-26 天津大学 一种基于深度学习的汉语普通话唇语识别方法
CN109858412A (zh) * 2019-01-18 2019-06-07 东北大学 一种基于混合卷积神经网络的唇语识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Combining Residual Networks with LSTMs for Lipreading;Themos Stafylakis et.al;《arXiv》;20170908;全文 *
基于深度学习的唇语识别应用的研究与实现;杨帆;《中国优秀硕士学位论文全文数据库 信息科技辑》;20180915(第09期);全文 *

Also Published As

Publication number Publication date
CN110633683A (zh) 2019-12-31

Similar Documents

Publication Publication Date Title
CN110633683B (zh) 结合DenseNet和resBi-LSTM的中文句子级唇语识别方法
CN110598221B (zh) 利用生成对抗网络构造蒙汉平行语料提高蒙汉翻译质量的方法
CN110263912B (zh) 一种基于多目标关联深度推理的图像问答方法
CN112560503A (zh) 融合深度特征和时序模型的语义情感分析方法
CN111783462A (zh) 基于双神经网络融合的中文命名实体识别模型及方法
CN109359297B (zh) 一种关系抽取方法及系统
CN111916067A (zh) 语音识别模型的训练方法、装置、电子设备及存储介质
WO2023160472A1 (zh) 一种模型训练方法及相关设备
Zhang et al. Understanding pictograph with facial features: end-to-end sentence-level lip reading of Chinese
CN112733866A (zh) 一种提高可控图像文本描述正确性的网络构建方法
CN111259785B (zh) 基于时间偏移残差网络的唇语识别方法
CN113705315B (zh) 视频处理方法、装置、设备及存储介质
CN111738169A (zh) 一种基于端对端网络模型的手写公式识别方法
CN113159023A (zh) 基于显式监督注意力机制的场景文本识别方法
CN111653270B (zh) 语音处理方法、装置、计算机可读存储介质及电子设备
CN113392265A (zh) 多媒体处理方法、装置及设备
CN115563327A (zh) 基于Transformer网络选择性蒸馏的零样本跨模态检索方法
CN116306652A (zh) 一种基于注意力机制和BiLSTM的中文命名实体识别模型
CN111858984A (zh) 一种基于注意力机制哈希检索的图像匹配方法
CN110298046B (zh) 一种翻译模型训练方法、文本翻译方法及相关装置
CN114973222A (zh) 基于显式监督注意力机制的场景文本识别方法
Cosovic et al. Classification methods in cultural heritage
CN112349294A (zh) 语音处理方法及装置、计算机可读介质、电子设备
CN116580278A (zh) 一种基于多注意力机制的唇语识别方法、设备及存储介质
CN114694255A (zh) 基于通道注意力与时间卷积网络的句子级唇语识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant