CN109524006B - 一种基于深度学习的汉语普通话唇语识别方法 - Google Patents

一种基于深度学习的汉语普通话唇语识别方法 Download PDF

Info

Publication number
CN109524006B
CN109524006B CN201811210728.1A CN201811210728A CN109524006B CN 109524006 B CN109524006 B CN 109524006B CN 201811210728 A CN201811210728 A CN 201811210728A CN 109524006 B CN109524006 B CN 109524006B
Authority
CN
China
Prior art keywords
lip
lip language
sequence
video
decoder
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811210728.1A
Other languages
English (en)
Other versions
CN109524006A (zh
Inventor
赵美蓉
吴大江
邢广鑫
郑叶龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN201811210728.1A priority Critical patent/CN109524006B/zh
Publication of CN109524006A publication Critical patent/CN109524006A/zh
Application granted granted Critical
Publication of CN109524006B publication Critical patent/CN109524006B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • G10L15/25Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于深度学习的汉语普通话唇语识别方法,考虑到汉语语言结构的特点,采用了编码器‑解码器的算法架构,为了具有通用性和扩展性,使用卷积神经网络提取视频特征,编码器与解码器的子单元采用循环卷神经网络,汉语普通话标签采用词嵌入的编码方式,为了唇语算法识别的准确性,在编码器‑解码器输出部分添加注意力机制。本发明以汉语普通话句子级唇语识别为研究对象,通过分析影响唇语识别的制约因素,在建立的唇语识别模型中针对性的添加解决方法,获得了可以实际应用的唇语识别技术,为更高准确度和更具扩展性的唇语解决方案提供理论和技术基础。

Description

一种基于深度学习的汉语普通话唇语识别方法
技术领域
本发明涉及计算机视觉和深度学习领域,特别涉及一种基于深度学习的汉语普通话唇语识别方法。
背景技术
唇语识别是一种在不借助语音信息帮助的前提下,通过唇部、脸部和舌部运动的视觉特征翻译理解说话人信息的技术,其还也依赖于语境提供的信息,语言知识。唇语也被称为视觉语言,也即基于说话时唇部运动的模式识别。
传统的唇语识别方法大多采用人工提取唇部的低级或高级特征,之后将得到的特征送到特征分类器,如SVM,Adaboost等,进行词语级别的分类。这样的方法尽管计算量小,但是受制于人工提取特征这一非常具有技巧性的过程,实际表现中容易受到光照,投射变换等的影响。另外,进行简单词分类的唇语识别,在实际应用场景中局限性较多,不能满足真实场景中多变的语言环境。
唇语识别是计算机视觉和人机交互领域重要的研究课题,借助唇部特征的辨识,可将其应用在后天聋哑人士的语言功能恢复、刑事侦查、身份认证等领域。目前大量的安防监控摄像头只有视频而没有音频信息,采用唇语辅助技术可以获得许多单纯依靠视频无法得到的信息。另外,唇语识别技术也可以解决嘈杂环境下音频识别准确度不高的问题。所以唇语识别技术在军事、工业、民用领域都有重要的实践意义。
发明内容
本发明的目的是克服现有技术中的不足,提供一种基于深度学习的汉语普通话唇语识别方法,本发明以汉语普通话句子级唇语识别为研究对象,通过分析影响唇语识别的制约因素,比如:光照,边缘效应等,在建立的唇语识别模型中针对性的添加解决方法,获得了可以实际应用的唇语识别技术,为更高准确度和更具扩展性的唇语解决方案提供理论和技术基础。
本发明所采用的技术方案是:一种基于深度学习的汉语普通话唇语识别方法,包括以下步骤:
步骤1,基于原始数据建立唇读数据集;
步骤2,采用多阶段卷积神经网络提取唇读数据集中静默视频中说话人唇部区域,并采用时空卷积神经网络处理唇部区域得到静默视频序列的口型动作特征;同时,对唇读数据集中的细标签序列进行词嵌入处理得到向量形式的细标签序列;
步骤3,将静默视频序列口型动作特征和向量形式的细标签序列送入编码器-解码器,在编码器-解码器中,采用注意力机制使得解码器中的向量形式的细标签与编码器中的口型动作特征相对应,得到向量形式的细标签序列和静默视频序列口型动作特征对齐后的向量表示;
步骤4,采用多层感知器将步骤3得到的对齐后的向量表示转变成概率分布形式的结果,完成唇语识别网络的搭建;
步骤5,采用唇读数据集中的数据对唇语识别网络进行训练,得到唇语识别模型,唇语识别模型的输出为概率最大的细标签序列;
步骤6,对唇语识别模型进行测试,采用定向搜索技术改善步骤5得到的细标签序列,得到最佳的唇语识别结果。
进一步的,步骤1中,所述的唇读数据集建立方法为:
步骤1-1,使用基于梯度直方图的人脸检测算法处理原始视频的每一帧;相同的说话者使用KLT追踪器组织在一起;使用回归树集合从稀疏像素强度的子集中提取面部地标点,得到目标人说话视频片段;
步骤1-2,把步骤1-1得到的目标人说话视频片段平均分割成2秒一段的视频子序列,每段分割后的视频子序列均包含音频;
步骤1-3,将步骤1-2分割后的视频子序列进行音频视频分离,得到音频序列和静默视频序列;使用语音转写服务将音频序列内容转写为对应的文字作为粗标签序列,将静默视频序列与粗标签序列进行对齐;
步骤1-4,将步骤1-3中语音转写后的粗标签序列进行分词,按词性得到含有空格的文本作为细标签序列;
步骤1-5,将步骤1-3得到的静默视频序列与步骤1-4得到的细标签序列对齐,并进行人工校验,得到唇读数据集。
进一步的,步骤2中,所述的词嵌入编码方式采用的是Word2vec,所述Word2vec采用Skip-Gram网络。
进一步的,步骤3中,所述的编码器-解码器采用基于长短时记忆网络的编码器-解码器。
本发明的有益效果是:
本发明提出针对汉语普通话的句子级唇语识别方法,即建立以卷积神经网络为特征提取器,以编码器-解码器架构为主框架,采用词嵌入的方式编码汉语句子中的词语,结合注意力机制与多层感知器来提高系统鲁棒性。
本唇语识别方法的提出,有利于为唇语识别领域采用深度学习技术提供实验验证,有利于理论的发展与完善。同时根据验证结果,可以为实际场景中应用唇语识别技术提供了可能,为进一步发展更加准确和更具鲁棒性的唇语识别方案提供了理论储备和方案储备。
附图说明
图1是本发明基于深度学习的汉语普通话唇语识别方法流程图;
图2是时空卷积神经网络各层输出示意图;
图3是长短时记忆网络结构图;
图4是Skip-Gram示意图;
图5是注意力机制示意图。
具体实施方式
为能进一步了解本发明的发明内容、特点及功效,兹例举以下实施例,并配合附图详细说明如下:
如附图1所示,一种基于深度学习的汉语普通话唇语识别方法,考虑到汉语语言结构的特点,采用了编码器-解码器的算法架构,为了具有通用性和扩展性,使用卷积神经网络提取视频特征,编码器与解码器的子单元采用循环卷神经网络,汉语普通话标签采用词嵌入的编码方式,为了唇语算法识别的准确性,在编码器-解码器输出部分添加注意力机制。包括以下步骤:
步骤1,基于原始数据建立唇读数据集:
步骤1-1,使用基于梯度直方图的人脸检测算法处理原始视频的每一帧;相同的说话者使用KLT追踪器组织在一起;使用回归树集合从稀疏像素强度的子集中提取面部地标点,得到目标人说话视频片段;其中,所述原始视频可以使用网络爬虫从互联网上抓取。
步骤1-2,考虑到计算机GPU的限制,以及网络架构约束的情况,把步骤1-1得到的目标人说话视频片段平均分割成2秒一段的视频子序列,每段分割后的视频子序列均包含音频。
步骤1-3,将步骤1-2分割后的视频子序列进行音频视频分离,分别得到音频序列和静默视频序列;使用科大讯飞的商用语音转写服务将音频序列内容转写为对应文字作为粗标签序列,将静默视频序列与粗标签序列进行对齐。
步骤1-4,不同于英文或其他使用基本字母拼写的语言,它们自然的带有空格而不需要分词,汉语由于其自身的结构原因需要分词处理。为提高汉语唇语识别的准确率,将步骤1-3中将语音转写后的粗标签序列采用使用分词工具进行分词,按词性得到含有空格的文本作为细标签序列,其中,所述分词工具可采用优化后的Thulac或Jieba。
步骤1-5,将步骤1-3得到的静默视频序列与步骤1-4得到的细标签序列对齐,并进行人工校验,得到唇读数据集。
步骤2,采用多阶段卷积神经网络(MTCNN)提取唇读数据集中静默视频中的说话人唇部区域,并采用时空卷积神经网络(STCNN)提取唇部区域的静默视频序列口型动作特征;同时,采用Word2vec网络对唇读数据集中的细标签序列进行词嵌入编码处理得到向量形式的细标签序列。
其中,时空卷积神经网络(STCNN)提取特征如下所示:
不同于传统的特征工程需要手工选取特征的不便及选取的特征易受光照、图像形变等的影响。使用STCNN可以有效的从数据集中学习出不同自然状态下的特征信息,相较于特征工程方法,具有非常好的泛化性和可扩展性。
在卷积神经网络中,STCNN卷积操作可以同时计算空间和时间飞度特征。通过将STCNN卷积核应用到多个连续帧,之后堆叠成的立方体张量结构来实现STCNN卷积操作。通过这种构造,卷积层中的特征图谱连接到前一层中的多个连续帧,从而可以捕获运动信息。
形式上,在第i层的第j个特征图谱中,指定位置(x,y,z)处的数值为
Figure BDA0001832379060000053
由下式计算得到:
Figure BDA0001832379060000051
其中,bij为偏置项,Ri是3D卷积核沿着时间维度的尺寸,
Figure BDA0001832379060000052
为连接到前一层的第m个特征图谱的卷积核的位置(p,q,r)处的值。Pi和Qi分别为卷积核的高度和宽度。在下采样层,特征图谱的分辨率通过在前一层特征图谱的局部邻域中进行池化操作来降低,从而可以增强对输入失真的不变性。
实验结果在唇读数据集上完成训练和测试,所述唇读数据集为帧数53,大小196x196的3通道彩色半身说话人视频片段。STCNN的输入为使用MTCNN提取的大小为60x60的唇部外接矩形区域视频序列。本实施例中,时空卷积神经网络的超参数为使用3个卷积层,3个池化层,每层都使用BatchNormalizaion和Dropout进行正则化处理,防止过拟合,时空卷积核设置为5x5x5,步长设置为1x1x1,池化层使用MaxPooling,核尺寸为1x2x2。在时间轴上不进行下采样,以保证可以获取充分多的时间序列特征信息。时空卷积神经网络(STCNN)各层输出如图2所示。
其中,Word2vec进行词嵌入处理如下所示:
将分词处理后的结果送入词嵌入网络,采用的词嵌入模型是Word2vec,Word2vec运算量小,编码结果准确性高。词嵌入是一种可学习的单词表示形式,允许具有相似含义的单词具有类似的表示形式。该方法的关键在于为每个单词使用稠密的分布式表示。每个单词由一个实值向量表示,通常表示为数十或数百维。使用稠密和低维向量的好处主要是大多数神经网络工具不能很好地处理非常高维的稀疏向量。而Word2vec是一种有效的从大量非结构化文本数据中学习高质量矢量表示的方法。与常用的One-Hot不同的是,使用Word2vec编码的字符信息可以进行距离比较,具有相似语义内容的信息在词嵌入空间中距离较近,反之亦然。这样使用Word2vec进行字符编码后,在模型推断解码过程中可以使得推断的效果更加自然,也即接近真实的上下文环境。Word2vec由两种相反的网络组成:Skip-Gram和CBOW,CBOW使用较小的数据集,而Skip-Gram将每个上下文对象作为一个新的观察对象,在较大的数据集上表现更好。本发明中涉及的唇读数据集规模较大所以采用的是Skip-Gram网络,Skip-Gram网络结构如图4所示,图4中,
Figure BDA0001832379060000061
表示隐藏层单元,
Figure BDA0001832379060000062
表示对应于训练集中输入单词的独热编码表示向量,
Figure BDA0001832379060000063
是对应于训练集中输出单词的独热编码表示向量。V×N维矩阵W是输入层和隐藏层之间的权重矩阵,它的第m行表示对应于词汇表中第m个单词的权重。每个输出单词向量与N×V输出矩阵W'有关。
步骤3,将静默视频序列口型动作特征和向量形式的细标签序列送入基于长短时记忆网络(LSTM)的编码器-解码器,静默视频序列口型动作特征送入编码器,向量形式的细标签序列送入解码器。在编码器-解码器中,采用注意力机制使得解码器中的向量形式的细标签与编码器中的口型特征相对应,得到向量形式的细标签序列和静默视频序列口型动作特征对齐后的向量表示。
其中,基于长短时记忆网络(LSTM)的编码器-解码器的组成如下:
在编码器-解码器框架中,编码器将输入语句(向量
Figure BDA0001832379060000064
)的序列)读入向量cED中。最常用的方法是使用循环神经网络:
Figure BDA0001832379060000065
Figure BDA0001832379060000066
其中,
Figure BDA0001832379060000067
是时刻t的隐藏状态,cED是隐藏状态序列产生的向量。fED和qED是非线性函数。本发明中,fED使用的是LSTM,
Figure BDA0001832379060000068
长短时记忆网络(LSTM)结构图如图3所示。图3中,fLSTM表示遗忘门输出,iLSTM表示输入门输出,zLSTM表示输入经过输入激活函数处理后的输出,oLSTM表示输出门输出,
Figure BDA0001832379060000069
表示未加权连接,
Figure BDA00018323790600000610
表示加权连接,
Figure BDA00018323790600000611
表示时间滞后连接,“●”表示分支点,“⊙”表示乘法,
Figure BDA00018323790600000612
表示求和,
Figure BDA00018323790600000613
表示门激活函数(sigmoid),
Figure BDA00018323790600000614
输入激活函数(tanh),
Figure BDA00018323790600000615
表示输出激活函数(tanh)。
LSTM在循环隐藏层中拥有被称为记忆块的特殊单元。记忆块具有自连接的记忆单元,除了存储称为门的特殊乘法单元外,还存储网络的时间状态,以便可以控制信息流。基本的LSTM记忆单元包括三个重要的门和一个记忆体状态。输入门控制输入流向记忆单元,输出门控制记忆单元激活到网络其余部分的输出流。遗忘门通过记忆单元的自连接将单元的内部状态作为输入添加到记忆单元中。从而自适应的忘记或重置记忆单元的记忆。使用LSTM可以有效解决传统的循环卷积神经网络梯度消失问题。
编码器和解码器分别都级联了3层LSTM,每层隐藏单元个数为256,每层LSTM之间使用残差连接,同时使用Dropout进行正则化处理,减少模型过拟合风险,增强模型的表达能力。
其中,注意力机制的作用如下所示:
实际场景中可能会有长度较长汉语语句,本发明为了进一步增加唇语识别的精度,系统架构中还添加了注意力机制,其可以使得模型解码器关注特定位置的编码内容,而不用将整个编码内容都作为解码的依据,进而提高模型解码效果。在注意力模型中,条件概率定义为
p(yi|y1,…,yi-1,x)=g(yi-1,si,ci) (4)
如图5,其中si是循环神经网络中时刻i的隐藏状态。si的计算公式为
si=f(si-1,yi-1,ci) (5)
其中,编码器将输入语句映射到标签序列(h1,…,hTx),该标签序列与上下文向量ci有关。上下文向量ci使用其对应的标签hi的加权和来计算,即
Figure BDA0001832379060000071
每个标签hj的权重αij的计算公式为
Figure BDA0001832379060000072
其中
eij=a(si-1,hj) (8)
这是一个对齐模型,它对位置j周围的输入和位置i处的输出的匹配程度进行评分。得分与循环神经网络的隐藏状态si-1和输入句子的第j个标签hj有关。
步骤4,采用多层感知器(MLP)将步骤3得到的对齐后的向量表示转变成概率分布形式的结果,至此,完成了唇语识别网络的搭建。
步骤5,采用唇读数据集中的数据对唇语识别网络进行训练,得到唇语识别模型,唇语识别模型的输出为概率最大的细标签序列。
步骤6,对唇语识别模型进行测试,采用定向搜索技术(Beam search)改善步骤5得到的细标签序列,得到最佳的唇语识别结果。
本发明为针对汉语语言结构特点,提出了基于编码器-解码器架构融合时空卷积神经网络的特征提取器和词嵌入网络,并使用注意力机制的端到端的算法模型。其中特征提取器使用的是时空卷积神经网络(STCNN),编码器-解码器子单元采用的是长短时记忆网络(LSTM),词嵌入(Eembedding)编码方式采用的是Word2vec。汉字不同于英文等字母型语言有很多不同,英语等字母型语言由基本的少数字母拼写而成,对于编码而言由于其基本编码单元少(如英文由26个字母组成),使用简单的One-hot编码即可得到较好的结果,而汉字其由大量的基本汉字组成(据统计,常用基本汉字有4000个左右),直接使用One-hot编码训练出可用的语言模型需要巨大的语料库,同时由于One-hot编码向量的稀疏性和正交性不利于深度神经网络的训练,针对于此本发明提出了汉字标签送入网络前进行分词处理的解决方法,该方法可以有效解决语料库不是非常巨大时汉语唇语识别结果的准确性过低的问题。
系统使用唇读数据集汉语普通话唇语识别数据集来训练模型,使用改进的多阶段卷积神经网络(MTCNN)提取静默视频中唇部区域,而后将提取的唇部区域送入时空卷积网络STCNN中,用于提取唇部动作的视觉特征信息。基于LSTM的编码器-解码器用于将唇部视觉特征信息进行编码并在模型推断时,将其解码成为相关的文本信息。注意力机制可以使得模型解码器关注特定位置的编码器编码内容,而不用将整个编码内容都作为解码的依据,进而提高模型解码效果。使用优化后的Thulac来对汉字语句进行分词,分词后的结果送入Word2vec,该部分在网络中的作用本质上来说是充当字符编码的作用。编码器-解码器架构将可变长度序列编码为固定长度表示,并将给定的固定长度向量表示为可变长序列。从概率角度看,该模型是在一个可变长度序列的条件下,使用通用的方法来学习另一个可变长序列的条件概率分布。
尽管上面结合附图对本发明的优选实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,并不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可以做出很多形式,这些均属于本发明的保护范围之内。

Claims (3)

1.一种基于深度学习的汉语普通话唇语识别方法,其特征在于,包括以下步骤:
步骤1,基于原始数据建立唇读数据集:包括:
步骤1-1,使用基于梯度直方图的人脸检测算法处理原始视频的每一帧;相同的说话者使用KLT追踪器组织在一起;使用回归树集合从稀疏像素强度的子集中提取面部地标点,得到目标人说话视频片段;
步骤1-2,把步骤1-1得到的目标人说话视频片段平均分割成2秒一段的视频子序列,每段分割后的视频子序列均包含音频;
步骤1-3,将步骤1-2分割后的视频子序列进行音频视频分离,得到音频序列和静默视频序列;使用语音转写服务将音频序列内容转写为对应的文字作为粗标签序列,将静默视频序列与粗标签序列进行对齐;
步骤1-4,将步骤1-3中语音转写后的粗标签序列进行分词,按词性得到含有空格的文本作为细标签序列;
步骤1-5,将步骤1-3得到的静默视频序列与步骤1-4得到的细标签序列对齐,并进行人工校验,得到唇读数据集;
步骤2,采用多阶段卷积神经网络提取唇读数据集中静默视频中说话人唇部区域,并采用时空卷积神经网络处理唇部区域得到静默视频序列的口型动作特征;同时,对唇读数据集中的细标签序列进行词嵌入处理得到向量形式的细标签序列;
步骤3,将静默视频序列口型动作特征和向量形式的细标签序列送入编码器-解码器,在编码器-解码器中,采用注意力机制使得解码器中的向量形式的细标签与编码器中的口型动作特征相对应,得到向量形式的细标签序列和静默视频序列口型动作特征对齐后的向量表示;
步骤4,采用多层感知器将步骤3得到的对齐后的向量表示转变成概率分布形式的结果,完成唇语识别网络的搭建;
步骤5,采用唇读数据集中的数据对唇语识别网络进行训练,得到唇语识别模型,唇语识别模型的输出为概率最大的细标签序列;
步骤6,对唇语识别模型进行测试,采用定向搜索技术改善步骤5得到的细标签序列,得到最佳的唇语识别结果。
2.根据权利要求1所述的一种基于深度学习的汉语普通话唇语识别方法,其特征在于,步骤2中,所述的词嵌入编码方式采用的是Word2vec,所述Word2vec采用Skip-Gram网络。
3.根据权利要求1所述的一种基于深度学习的汉语普通话唇语识别方法,其特征在于,步骤3中,所述的编码器-解码器采用基于长短时记忆网络的编码器-解码器。
CN201811210728.1A 2018-10-17 2018-10-17 一种基于深度学习的汉语普通话唇语识别方法 Active CN109524006B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811210728.1A CN109524006B (zh) 2018-10-17 2018-10-17 一种基于深度学习的汉语普通话唇语识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811210728.1A CN109524006B (zh) 2018-10-17 2018-10-17 一种基于深度学习的汉语普通话唇语识别方法

Publications (2)

Publication Number Publication Date
CN109524006A CN109524006A (zh) 2019-03-26
CN109524006B true CN109524006B (zh) 2023-01-24

Family

ID=65770241

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811210728.1A Active CN109524006B (zh) 2018-10-17 2018-10-17 一种基于深度学习的汉语普通话唇语识别方法

Country Status (1)

Country Link
CN (1) CN109524006B (zh)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110189394B (zh) * 2019-05-14 2020-12-29 北京字节跳动网络技术有限公司 口型生成方法、装置及电子设备
CN110276259B (zh) * 2019-05-21 2024-04-02 平安科技(深圳)有限公司 唇语识别方法、装置、计算机设备及存储介质
CN110443129A (zh) * 2019-06-30 2019-11-12 厦门知晓物联技术服务有限公司 基于深度学习的中文唇语识别方法
CN110473534A (zh) * 2019-07-12 2019-11-19 南京邮电大学 一种基于深度神经网络的老年人看护对话系统
CN110633683B (zh) * 2019-09-19 2022-03-25 华侨大学 结合DenseNet和resBi-LSTM的中文句子级唇语识别方法
CN110992958B (zh) * 2019-11-19 2021-06-22 深圳追一科技有限公司 内容记录方法、装置、电子设备及存储介质
CN111259785B (zh) * 2020-01-14 2022-09-20 电子科技大学 基于时间偏移残差网络的唇语识别方法
CN111259188B (zh) * 2020-01-19 2023-07-25 成都潜在人工智能科技有限公司 一种基于seq2seq网络的歌词对齐方法及系统
CN111401250A (zh) * 2020-03-17 2020-07-10 东北大学 一种基于混合卷积神经网络的中文唇语识别方法及装置
CN111554279A (zh) * 2020-04-27 2020-08-18 天津大学 一种基于Kinect的多模态人机交互系统
CN112053690B (zh) * 2020-09-22 2023-12-29 湖南大学 一种跨模态多特征融合的音视频语音识别方法及系统
CN112861791B (zh) * 2021-03-11 2022-08-23 河北工业大学 一种结合图神经网络和多特征融合的唇语识别方法
CN113707172B (zh) * 2021-06-02 2024-02-09 西安电子科技大学 稀疏正交网络的单通道语音分离方法、系统、计算机设备
CN113450824B (zh) * 2021-06-28 2022-08-16 武汉理工大学 一种基于多尺度视频特征融合的语音唇读方法及系统
CN113657253B (zh) * 2021-08-16 2023-12-05 浙江大学 使用注意力引导自适应记忆的实时唇语识别方法和系统
CN113691857A (zh) * 2021-08-27 2021-11-23 贵州东冠科技有限公司 基于增强现实的唇语屏蔽系统及方法
CN114469661B (zh) * 2022-02-24 2023-10-03 沈阳理工大学 一种基于编码解码技术的视觉内容导盲辅助系统及方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5586215A (en) * 1992-05-26 1996-12-17 Ricoh Corporation Neural network acoustic and visual speech recognition system
CN101101752A (zh) * 2007-07-19 2008-01-09 华中科技大学 基于视觉特征的单音节语言唇读识别系统
CN108171148A (zh) * 2017-12-26 2018-06-15 上海斐讯数据通信技术有限公司 一种唇语学习云平台建立的方法和系统
CN108197572A (zh) * 2018-01-02 2018-06-22 京东方科技集团股份有限公司 一种唇语识别方法和移动终端
CN108389573A (zh) * 2018-02-09 2018-08-10 北京易真学思教育科技有限公司 语种识别方法及装置、训练方法及装置、介质、终端

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100332229A1 (en) * 2009-06-30 2010-12-30 Sony Corporation Apparatus control based on visual lip share recognition

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5586215A (en) * 1992-05-26 1996-12-17 Ricoh Corporation Neural network acoustic and visual speech recognition system
CN101101752A (zh) * 2007-07-19 2008-01-09 华中科技大学 基于视觉特征的单音节语言唇读识别系统
CN108171148A (zh) * 2017-12-26 2018-06-15 上海斐讯数据通信技术有限公司 一种唇语学习云平台建立的方法和系统
CN108197572A (zh) * 2018-01-02 2018-06-22 京东方科技集团股份有限公司 一种唇语识别方法和移动终端
CN108389573A (zh) * 2018-02-09 2018-08-10 北京易真学思教育科技有限公司 语种识别方法及装置、训练方法及装置、介质、终端

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
《LCANet: End-to-End Lipreading with Cascaded Attention-CTC》;Kai Xu et al.;《2018 13th IEEE International Conference on Automatic Face & Gesture Recognition (FG 2018)》;20180607;全文 *
《Sentence-level Indonesian lip reading with spatiotemporal CNN and gated RNN》;Muhammad Rizki Aulia Rahman Maulana et al.;《2017 International Conference on Advanced Computer Science and Information Systems (ICACSIS)》;20180507;全文 *
《基于深度学习的唇语识别应用的研究与实现》;杨帆;《中国优秀硕士学位论文全文数据库 信息科技辑》;20180915;全文 *

Also Published As

Publication number Publication date
CN109524006A (zh) 2019-03-26

Similar Documents

Publication Publication Date Title
CN109524006B (zh) 一种基于深度学习的汉语普通话唇语识别方法
Pu et al. Iterative alignment network for continuous sign language recognition
Cho et al. Describing multimedia content using attention-based encoder-decoder networks
JP6351689B2 (ja) 視覚質問応答用の注目に基づく設定可能な畳み込みニューラルネットワーク(abc−cnn)のシステム及び方法
US20230154188A1 (en) Systems and methods for video and language pre-training
CN112860888B (zh) 一种基于注意力机制的双模态情感分析方法
Fenghour et al. Lip reading sentences using deep learning with only visual cues
CN111104884B (zh) 一种基于两阶段神经网络模型的汉语唇语识别方法
Chandio et al. Cursive text recognition in natural scene images using deep convolutional recurrent neural network
Wazalwar et al. Interpretation of sign language into English using NLP techniques
Zhang et al. Understanding pictograph with facial features: end-to-end sentence-level lip reading of Chinese
Wei et al. Deep grammatical multi-classifier for continuous sign language recognition
Gajurel et al. A fine-grained visual attention approach for fingerspelling recognition in the wild
Burton et al. The speaker-independent lipreading play-off; a survey of lipreading machines
Sarhan et al. HLR-net: a hybrid lip-reading model based on deep convolutional neural networks
Selvam et al. A transformer-based framework for scene text recognition
CN114694255A (zh) 基于通道注意力与时间卷积网络的句子级唇语识别方法
Pu et al. Review on research progress of machine lip reading
CN111046966B (zh) 基于度量注意力机制的图像字幕生成方法
Sheng et al. Importance-aware information bottleneck learning paradigm for lip reading
Thangthai Computer lipreading via hybrid deep neural network hidden Markov models
CN113488196B (zh) 一种药品说明书文本命名实体识别建模方法
He et al. An optimal 3D convolutional neural network based lipreading method
Mars et al. Combination of DE-GAN with CNN-LSTM for Arabic OCR on Images with Colorful Backgrounds
Deshmukh et al. Vision based Lip Reading System using Deep Learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant