CN111401250A - 一种基于混合卷积神经网络的中文唇语识别方法及装置 - Google Patents

一种基于混合卷积神经网络的中文唇语识别方法及装置 Download PDF

Info

Publication number
CN111401250A
CN111401250A CN202010186924.0A CN202010186924A CN111401250A CN 111401250 A CN111401250 A CN 111401250A CN 202010186924 A CN202010186924 A CN 202010186924A CN 111401250 A CN111401250 A CN 111401250A
Authority
CN
China
Prior art keywords
lip
neural network
convolutional neural
unit
phoneme
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010186924.0A
Other languages
English (en)
Inventor
李晶皎
聂雅昆
闫爱云
王爱侠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northeastern University China
Original Assignee
Northeastern University China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northeastern University China filed Critical Northeastern University China
Priority to CN202010186924.0A priority Critical patent/CN111401250A/zh
Publication of CN111401250A publication Critical patent/CN111401250A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/166Detection; Localisation; Normalisation using acquisition arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • G06V10/464Salient features, e.g. scale invariant feature transforms [SIFT] using a plurality of salient features, e.g. bag-of-words [BoW] representations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/171Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于混合卷积神经网络的中文唇语识别方法及装置,属于机器视觉与深度学习领域,方法包括以下步骤:通过摄像机获取说话人的面部图像信息,利用人脸检测器从面部图像信息中检测切割出唇部图像序列,利用混合卷积神经网络对唇部图像序列进行唇部特征提取,将所述唇部特征输入Bi‑GRU模型,获得音素单元的识别概率结果,将所述音素单元的识别概率结果输入连接时序分类器CTC,获得音素单元分类结果,对所述音素单元的分类结果采用引入注意力机制的解码方法进行处理,获得唇语识别结果,该方法解决了现有网络框架不能对中文这类图形语言文字进行识别的问题,为实际场景中应用唇语识别技术提供了可能,可在计算机视觉领域广泛推广。

Description

一种基于混合卷积神经网络的中文唇语识别方法及装置
技术领域
本发明涉及机器视觉与深度学习领域尤其涉及一种基于混合卷积神经网络的中文唇语识别方法及装置。
背景技术
随着人工智能技术的发展以及安全防范意识的提升,语音交互、身份识别成为一种应用广泛的技术。但这些技术仍然存在一些弊端,例如语音交互易受环境影响,容易出现噪声干扰,导致语音识别不准确。静态身份识别技术容易被复制模仿,导致个人信息泄露以及身份认证信息被窃取。为了改善语音识别不准确,增强动态身份认证技术,出现了唇语识别技术。
唇语识别是指在没有语音信息的情况下,通过观察说话人的脸部、唇部和舌部的一系列运动变化,得到说话人的讲话内容。唇语识别算法可以分为传统的唇语识别算法和基于深度学习的唇语识别算法。传统的唇语识别技术主要采用人工提取说话人的唇部特征,将提取到的动态特征送入特征分类器,如SVM,Adaboost,HMM等,完成词级的唇语识别。传统的识别方法虽然计算量小,但是人工提取特征却非常费时,并且实际操作过程中受限于光照、投影变换等因素,不能满足真实场景中的实际语言环境。
基于深度学习的唇语识别算法优点在于可以通过训练网络直接提取唇部的运动特征,并且操作过程不受环境的影响,算法准确性和稳定性高。现有技术中,存在一些优秀的英文唇语识别网络模型,比如牛津大学等人工智能实验室联合提出了一种Lipnet架构,该架构可以完成句子级的英文唇语识别,并且准确率高达93.4%。但这些成熟优秀的网络架构只能对英文唇语进行识别,由于中文这样的图形语言文字与英文等字母系语言文字的差异,上述网络架构无法应用到中文唇语识别上。
发明内容
根据现有技术存在的问题,本发明公开了一种基于混合卷积神经网络的中文唇语识别方法,包括以下步骤:
S1:通过摄像机获取说话人的面部图像信息;
S2:利用人脸检测器从面部图像信息中检测切割出唇部图像序列;
S3:利用混合卷积神经网络对唇部图像序列进行唇部特征提取;
S4:将所述唇部特征输入Bi-GRU模型,获得音素单元的识别概率结果;
S5:将所述音素单元的识别概率结果输入连接时序分类器CTC,获得音素单元分类结果;
S6:对所述音素单元的分类结果采用引入注意力机制的解码方法进行处理,获得唇语识别结果。
进一步地,所述混合卷积神经网络由改进的3D卷积神经网络和MST(多时空信息融合)残差网络组成;
所述改进的3D卷积神经网络是将3D卷积操作分解为两个接连进行的子卷积块,分别是2D卷积神经网络和1D卷积神经网络。
所述2D卷积神经网络对唇部图像序列进行唇部运动的空间特征提取,得到唇部的空间特征信息;
所述1D卷积神经网络对唇部图像序列进行唇部运动的时间维度特征提取,得到唇部运动的时域特征信息;
所述MST(多时空信息融合)残差网络对所述唇部的空间特征和时间特征进行多尺度的信息融合。
进一步地:所述引入注意力机制的解码方法处理过程为:
通过注意力得到音素单元每个时刻的隐藏状态,通过为每个隐藏状态打分,获取注意力的得分状态,通过使用音素单元的隐藏状态和注意力得分的加权和,来聚合音素单元的隐藏状态,获得语境向量,将语境向量输入到解码器中进行联合训练,得到唇语识别结果。
一种基于混合卷积神经网络的中文唇语识别装置,包括图像获取单元、唇部检测单元、唇部特征提取单元和唇语识别单元;
所述图像获取单元用于获取说话人的面部图像信息;
所述唇部检测单元根据所述图像获取单元输入的面部图像信息中检测切割出唇部图像序列;
所述唇部特征提取单元根据所述唇部检测单元输入的唇部图像序列利用混合卷积神经网络完成唇部特征提取;
所述唇语识别单元根据所述唇部特征提取单元提取的唇部特征输入Bi-GRU模型,获得音素单元的识别概率结果,再连接时序分类器CTC,获得音素单元分类结果,之后通过引入注意力机制的解码方法处理所述音素单元的分类结果,获得唇语识别结果。
由于采用了上述技术方案,本发明提供的一种基于混合卷积神经网络的中文唇语识别方法,具有以下优点:
(1)相比于人工标注唇部区域,手动提取唇部运动特征的唇语识别方法及装置,节省了大量的人力、物力资源,使唇语识别过程更加快捷,提高了整个识别过程的效率,相比于基于卷积神经网络的唇语识别方法,本发明可以提取到唇部运动的长期时空特征,在识别过程中减少特征丢失,提高了唇语识别的速度以及准确率;
(2)通过采用编码器-解码器算法框架,解决了现有唇语识别架构不能对图形类语言文字进行识别的问题,通过获取音素序列与目标文字的对应关系,完成中文的唇语识别。引入该算法框架使系统具有通用性和可扩展性,同时在编码器-解码器算法框架中引入注意力机制,提高了唇语识别系统的鲁棒性;
(3)通用性强,在智能电视、平板电脑或PC(Personal Computer,个人计算机)等具有显示屏与摄像头的终端设备上,都能适用;
综上,应用本发明的技术方案,解决了现有网络框架不能对中文这类图形语言文字进行识别的问题,为实际场景中应用唇语识别技术提供了可能,本发明可在计算机视觉领域广泛推广。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一种基于混合卷积神经网络的中文唇语识别方法流程示意图;
图2是改进MST(多时空信息融合)单元示意图;
图3是唇部时空特征提取网络的结构示意图;
图4是门递归单元GRU的结构示意图;
图5是注意力机制示意图。
具体实施方式
为了使本领域的技术人员更好的理解本发明方案,下面将结合本发明实施中的附图,对本发明进行清晰、完整的描述。
图1是本发明一种基于混合卷积神经网络的中文唇语识别方法流程示意图;一种基于混合卷积神经网络的中文唇语识别方法,包括以下步骤:
S1:通过摄像机获取说话人的面部图像信息;
使用USB摄像头固定在说话者面前,距离说话者45cm,从接收到语音信号开始,获取摄像头采集的实时视频中的每一帧图像;
S2:利用人脸检测模型器获得面部区域,提取人脸检测模型唇部固定点的位置进而得到唇部图像序列;
本发明采用dlib库人脸68特征点提取器提取唇读数据集中说话人唇部区域,利用dlib库人脸检测模型可以快速捕捉人脸的大幅度晃动,灵敏度高;将步骤S1采集到的图像输入网络,最终输出包围人脸68个关键点的图像,通过提取46~68唇部关键点的坐标,得到唇部矩形区域的中心点坐标(xi,yi),以及矩形宽度wi,矩形高度hi;
S3:利用混合卷积神经网络对唇部图像序列进行特征提取;
采用混合卷积神经网络((2+1)D+MST)进行唇部序列不同空间幅度和不同时间周期的特征提取;
所述(2+1)D卷积块是将3D卷积操作分解为两个接连进行的子卷积块,分别是2D卷积神经网络和1D卷积神经网络。
所述2D卷积神经网络对唇部图像序列进行唇部运动的空间特征提取,得到唇部的空间特征信息;
所述1D卷积神经网络对唇部图像序列进行唇部运动的时间维度特征提取,得到唇部运动的时域特征信息;
所述MST(多时空信息融合)残差网络对所述唇部的空间特征和时间特征进行多尺度的信息融合。
本实施例中,针对(2+1)D卷积神经网络的每层具有单一大小的空间尺度和时间深度,特征图中的每一元素对应单一特征信息,导致模型泛化能力差的不足,将分别在空间和时间上使用不同尺度的2D卷积核和1D卷积核,可以更好的处理单一时空未能捕获的重要时空信息。如图2所示,是2D卷积核1D卷积融合后的改进MST(多时空信息融合)单元示意图。所述改进的MST单元包括n个2D卷积核,m个1D卷积核,2个BN层和2个非线性层。在特征提取的过程中,首先经过不同尺度的2D卷积核,在单帧图片上同时提取多尺度的空间特征信息,然后将它们按视频时间序列组合成为短视频,再将短视频输入至多尺度1D卷积层,同时提取长、中、短三种时间周期的时域特征信息,最后经过融合层构成新的特征图。
如图3所示,是唇部时空特征提取网络的结构示意图。混合卷积神经网络具体包括1个输入层、6个改进MST残差单元、一个全局池化层、1个全连接层、1个softmax分类层、3个时域下采样层和4个空间下采样层。3个时域下采样层分别设置在第4、5、6个MST残差单元,4个空间下采样层分别设置在第1、4、5、6个MST残差单元。
S4:将所述唇部特征输入双向门控循环单元Bi-GRU模型,获得音素单元的识别概率结果。所述的Bi-GRU网络具体为正向GRU和反向GRU,如图4是门递归单元GRU的结构示意图,每层GRU网络各有256个滤波器,GRU每个时间步的输出通过全连接层、Softmax处理,得到音素单元的识别概率结果;
S5:将所述音素单元的识别概率结果输入连接时序分类器CTC,获得音素单元分类结果;
S6:对所述音素单元的分类结果采用引入注意力机制的解码方法进行处理,获得唇语识别结果。
本发明为了进一步增加长句子中文唇语识别的精度,在所述算法架构的输出端引入了注意力机制,即引入注意力机制的解码方法;如图4为注意力机制示意图,其可以使得模型解码器关注特定位置的编码内容,而不用将整个编码内容都作为解码的依据,提高模型解码效果,增加系统的鲁棒性。
解码器是一个级联了3层的门控循环单元(GRU),常规的解码处理是将音素单元分类结果直接输入解码器进行训练得到唇语识别结果,引入注意力机制的解码处理是通过注意力得到音素单元每个时刻的隐藏状态,使用additive函数为每个隐藏状态打分,通过softmax层获取注意力的得分状态。通过使用音素单元的隐藏状态和注意力得分的加权和,来聚合音素单元的隐藏状态,从而获得语境向量,将语境向量输入到解码器中进行联合训练,得到唇语识别结果。通过在解码的过程中应用注意力机制可以在解码器的每个时刻使用不同的音素单元识别结果,这样解码过程就能够有选择的关注音素识别结果中有用的部分,提高解码效果,对于长句子的识别效果更好。若是不引入注意力机制,所述音素单元识别结果进行普通的解码处理将会按照其顺序逐字转化成相对应的汉字,但若句子很长的话,在转化过程中,可能已经忘记之前的转化结果,导致语义出错以及识别准确率的下降。图5是注意力机制示意图。
一种基于混合卷积神经网络的中文唇语识别装置,其特征在于,包括图像获取单元、唇部检测单元、唇部特征提取单元和唇语识别单元;
所述图像获取单元用于获取说话人的面部图像信息;
所述唇部检测单元根据所述图像获取单元输入的面部图像信息中检测切割出唇部图像序列;
所述唇部特征提取单元根据所述唇部检测单元输入的唇部图像序列利用混合卷积神经网络完成唇部特征提取;
所述唇语识别单元根据所述唇部特征提取单元提取的唇部特征输入Bi-GRU模型,获得音素单元的识别概率结果,再连接时序分类器CTC,获得音素单元分类结果,之后通过引入注意力机制的解码方法处理所述音素单元的分类结果,获得唇语识别结果。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

Claims (4)

1.一种基于混合卷积神经网络的中文唇语识别方法,其特征在于:包括以下步骤:
S1:通过摄像机获取说话人的面部图像信息;
S2:利用人脸检测器从面部图像信息中检测切割出唇部图像序列;
S3:利用混合卷积神经网络对唇部图像序列进行唇部特征提取;
S4:将所述唇部特征输入Bi-GRU模型,获得音素单元的识别概率结果;
S5:将所述音素单元的识别概率结果输入连接时序分类器CTC,获得音素单元分类结果;
S6:对所述音素单元的分类结果采用引入注意力机制的解码方法进行处理,获得唇语识别结果。
2.根据权利要求1所述的一种基于混合卷积神经网络的中文唇语识别方法,其特征在于:所述混合卷积神经网络由改进的3D卷积神经网络和多时空信息融合残差网络组成;
所述改进的3D卷积神经网络是将3D卷积操作分解为两个接连进行的子卷积块,分别是2D卷积神经网络和1D卷积神经网络。
所述2D卷积神经网络对唇部图像序列进行唇部运动的空间特征提取,得到唇部的空间特征信息;
所述1D卷积神经网络对唇部图像序列进行唇部运动的时间维度特征提取,得到唇部运动的时域特征信息;
所述多时空信息融合残差网络对所述唇部的空间特征和时间特征进行多尺度的信息融合。
3.根据权利要求1所述的一种基于混合卷积神经网络的中文唇语识别方法,其特征在于:所述引入注意力机制的解码方法处理过程为:
通过注意力得到音素单元每个时刻的隐藏状态,通过为每个隐藏状态打分,获取注意力的得分状态,通过使用音素单元的隐藏状态和注意力得分的加权和,来聚合音素单元的隐藏状态,获得语境向量,将语境向量输入到解码器中进行联合训练,得到唇语识别结果。
4.一种基于混合卷积神经网络的中文唇语识别装置,其特征在于:包括图像获取单元、唇部检测单元、唇部特征提取单元和唇语识别单元;
所述图像获取单元用于获取说话人的面部图像信息;
所述唇部检测单元根据所述图像获取单元输入的面部图像信息中检测切割出唇部图像序列;
所述唇部特征提取单元根据所述唇部检测单元输入的唇部图像序列利用混合卷积神经网络完成唇部特征提取;
所述唇语识别单元根据所述唇部特征提取单元提取的唇部特征输入Bi-GRU模型,获得音素单元的识别概率结果,再连接时序分类器CTC,获得音素单元分类结果,之后通过引入注意力机制的解码方法处理所述音素单元的分类结果,获得唇语识别结果。
CN202010186924.0A 2020-03-17 2020-03-17 一种基于混合卷积神经网络的中文唇语识别方法及装置 Pending CN111401250A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010186924.0A CN111401250A (zh) 2020-03-17 2020-03-17 一种基于混合卷积神经网络的中文唇语识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010186924.0A CN111401250A (zh) 2020-03-17 2020-03-17 一种基于混合卷积神经网络的中文唇语识别方法及装置

Publications (1)

Publication Number Publication Date
CN111401250A true CN111401250A (zh) 2020-07-10

Family

ID=71432571

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010186924.0A Pending CN111401250A (zh) 2020-03-17 2020-03-17 一种基于混合卷积神经网络的中文唇语识别方法及装置

Country Status (1)

Country Link
CN (1) CN111401250A (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112216271A (zh) * 2020-10-11 2021-01-12 哈尔滨工程大学 一种基于卷积块注意机制的视听双模态语音识别方法
CN112330713A (zh) * 2020-11-26 2021-02-05 南京工程学院 基于唇语识别的重度听障患者言语理解度的改进方法
CN112381069A (zh) * 2021-01-07 2021-02-19 博智安全科技股份有限公司 免语音唤醒方法、智能设备和计算机可读存储介质
CN112382277A (zh) * 2021-01-07 2021-02-19 博智安全科技股份有限公司 智能设备唤醒方法、智能设备和计算机可读存储介质
CN112784696A (zh) * 2020-12-31 2021-05-11 平安科技(深圳)有限公司 基于图像识别的唇语识别方法、装置、设备及存储介质
CN113033452A (zh) * 2021-04-06 2021-06-25 合肥工业大学 融合通道注意力和选择性特征融合机制的唇语识别方法
CN113095598A (zh) * 2021-05-07 2021-07-09 国网山东省电力公司经济技术研究院 一种多能负荷预测方法、系统、设备和介质
CN113313056A (zh) * 2021-06-16 2021-08-27 中国科学技术大学 基于紧致3d卷积的唇语识别方法、系统、设备及存储介质
CN113343937A (zh) * 2021-07-15 2021-09-03 北华航天工业学院 一种基于深度卷积和注意力机制的唇语识别方法
CN113887339A (zh) * 2021-09-15 2022-01-04 天津大学 融合表面肌电信号与唇部图像的无声语音识别系统及方法
CN114581811A (zh) * 2022-01-12 2022-06-03 北京云辰信通科技有限公司 基于时空注意力机制的视觉语言识别方法和相关设备
CN115294641A (zh) * 2021-05-02 2022-11-04 南通智行未来车联网创新中心有限公司 一种基于时间卷积网络的端到端唇读视频识别方法
CN116580440A (zh) * 2023-05-24 2023-08-11 北华航天工业学院 基于视觉transformer的轻量级唇语识别方法
CN117152317B (zh) * 2023-11-01 2024-02-13 之江实验室科技控股有限公司 数字人界面控制的优化方法
CN112784696B (zh) * 2020-12-31 2024-05-10 平安科技(深圳)有限公司 基于图像识别的唇语识别方法、装置、设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100332229A1 (en) * 2009-06-30 2010-12-30 Sony Corporation Apparatus control based on visual lip share recognition
CN109524006A (zh) * 2018-10-17 2019-03-26 天津大学 一种基于深度学习的汉语普通话唇语识别方法
CN109858412A (zh) * 2019-01-18 2019-06-07 东北大学 一种基于混合卷积神经网络的唇语识别方法
CN110443129A (zh) * 2019-06-30 2019-11-12 厦门知晓物联技术服务有限公司 基于深度学习的中文唇语识别方法
CN110767228A (zh) * 2018-07-25 2020-02-07 杭州海康威视数字技术股份有限公司 一种声音获取方法、装置、设备及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100332229A1 (en) * 2009-06-30 2010-12-30 Sony Corporation Apparatus control based on visual lip share recognition
CN110767228A (zh) * 2018-07-25 2020-02-07 杭州海康威视数字技术股份有限公司 一种声音获取方法、装置、设备及系统
CN109524006A (zh) * 2018-10-17 2019-03-26 天津大学 一种基于深度学习的汉语普通话唇语识别方法
CN109858412A (zh) * 2019-01-18 2019-06-07 东北大学 一种基于混合卷积神经网络的唇语识别方法
CN110443129A (zh) * 2019-06-30 2019-11-12 厦门知晓物联技术服务有限公司 基于深度学习的中文唇语识别方法

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112216271A (zh) * 2020-10-11 2021-01-12 哈尔滨工程大学 一种基于卷积块注意机制的视听双模态语音识别方法
CN112216271B (zh) * 2020-10-11 2022-10-14 哈尔滨工程大学 一种基于卷积块注意机制的视听双模态语音识别方法
CN112330713A (zh) * 2020-11-26 2021-02-05 南京工程学院 基于唇语识别的重度听障患者言语理解度的改进方法
CN112330713B (zh) * 2020-11-26 2023-12-19 南京工程学院 基于唇语识别的重度听障患者言语理解度的改进方法
CN112784696A (zh) * 2020-12-31 2021-05-11 平安科技(深圳)有限公司 基于图像识别的唇语识别方法、装置、设备及存储介质
CN112784696B (zh) * 2020-12-31 2024-05-10 平安科技(深圳)有限公司 基于图像识别的唇语识别方法、装置、设备及存储介质
CN112381069A (zh) * 2021-01-07 2021-02-19 博智安全科技股份有限公司 免语音唤醒方法、智能设备和计算机可读存储介质
CN112382277A (zh) * 2021-01-07 2021-02-19 博智安全科技股份有限公司 智能设备唤醒方法、智能设备和计算机可读存储介质
CN113033452A (zh) * 2021-04-06 2021-06-25 合肥工业大学 融合通道注意力和选择性特征融合机制的唇语识别方法
CN113033452B (zh) * 2021-04-06 2022-09-16 合肥工业大学 融合通道注意力和选择性特征融合机制的唇语识别方法
CN115294641A (zh) * 2021-05-02 2022-11-04 南通智行未来车联网创新中心有限公司 一种基于时间卷积网络的端到端唇读视频识别方法
CN113095598A (zh) * 2021-05-07 2021-07-09 国网山东省电力公司经济技术研究院 一种多能负荷预测方法、系统、设备和介质
CN113313056A (zh) * 2021-06-16 2021-08-27 中国科学技术大学 基于紧致3d卷积的唇语识别方法、系统、设备及存储介质
CN113343937A (zh) * 2021-07-15 2021-09-03 北华航天工业学院 一种基于深度卷积和注意力机制的唇语识别方法
CN113887339A (zh) * 2021-09-15 2022-01-04 天津大学 融合表面肌电信号与唇部图像的无声语音识别系统及方法
CN114581811A (zh) * 2022-01-12 2022-06-03 北京云辰信通科技有限公司 基于时空注意力机制的视觉语言识别方法和相关设备
CN116580440A (zh) * 2023-05-24 2023-08-11 北华航天工业学院 基于视觉transformer的轻量级唇语识别方法
CN116580440B (zh) * 2023-05-24 2024-01-26 北华航天工业学院 基于视觉transformer的轻量级唇语识别方法
CN117152317B (zh) * 2023-11-01 2024-02-13 之江实验室科技控股有限公司 数字人界面控制的优化方法

Similar Documents

Publication Publication Date Title
CN111401250A (zh) 一种基于混合卷积神经网络的中文唇语识别方法及装置
CN109919031B (zh) 一种基于深度神经网络的人体行为识别方法
US20210326597A1 (en) Video processing method and apparatus, and electronic device and storage medium
Wang et al. Hierarchical attention network for action recognition in videos
CN109524006B (zh) 一种基于深度学习的汉语普通话唇语识别方法
Yuan et al. A gated recurrent network with dual classification assistance for smoke semantic segmentation
Ren et al. Overview of object detection algorithms using convolutional neural networks
CN111209897B (zh) 视频处理的方法、装置和存储介质
Li et al. Deep matting for cloud detection in remote sensing images
Baig et al. Text writing in the air
CN112861575A (zh) 一种行人结构化方法、装置、设备和存储介质
CN110232564A (zh) 一种基于多模态数据的交通事故法律自动决策方法
CN116129129B (zh) 一种人物交互检测模型及检测方法
CN113743389B (zh) 一种面部表情识别的方法、装置和电子设备
Alsulami et al. Deep learning-based approach for arabic visual speech recognition
Pu et al. Review on research progress of machine lip reading
CN113298018A (zh) 基于光流场和脸部肌肉运动的假脸视频检测方法及装置
CN110633666A (zh) 一种基于手指颜色贴片的手势轨迹识别方法
CN115512191A (zh) 一种联合问答的图像自然语言描述方法
Lai et al. Research on head-up and down behavior computer detection by deep learning and artificial intelligence
Gan et al. Construction of word level tibetan lip reading dataset
CN112381069A (zh) 免语音唤醒方法、智能设备和计算机可读存储介质
Mestri et al. Analysis of feature extraction and classification models for lip-reading
He et al. An optimal 3D convolutional neural network based lipreading method
Chen et al. Scene text recognition based on deep learning: a brief survey

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
AD01 Patent right deemed abandoned

Effective date of abandoning: 20240507