CN110443129A - 基于深度学习的中文唇语识别方法 - Google Patents

基于深度学习的中文唇语识别方法 Download PDF

Info

Publication number
CN110443129A
CN110443129A CN201910582188.8A CN201910582188A CN110443129A CN 110443129 A CN110443129 A CN 110443129A CN 201910582188 A CN201910582188 A CN 201910582188A CN 110443129 A CN110443129 A CN 110443129A
Authority
CN
China
Prior art keywords
lip
feature
sequence image
learning
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910582188.8A
Other languages
English (en)
Inventor
林旭东
徐俊华
王威
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen Awareness Materials Technology Services Co Ltd
Original Assignee
Xiamen Awareness Materials Technology Services Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen Awareness Materials Technology Services Co Ltd filed Critical Xiamen Awareness Materials Technology Services Co Ltd
Priority to CN201910582188.8A priority Critical patent/CN110443129A/zh
Publication of CN110443129A publication Critical patent/CN110443129A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/171Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • G10L15/25Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于深度学习的中文唇语识别方法,所述方法包括如下步骤:S1、获取到唇部序列图像;S2、从获取到的唇部序列图像,提取出唇部序列图像的特征;S3、将该提取出的唇部序列图像的特征输入到双向长短时记忆网络进行时间空间特征序列学习,并将该经学习后的唇部序列图像的特征进行训练,训练该经学习后的唇部序列图像的特征到唇语的识别模型;S4、根据该训练该经学习后的唇部序列图像的特征到唇语的识别模型,对该提取出的唇部序列图像的特征进行解码识别,识别出唇语结果。本发明对嘴部的定位准确性高,计算方法得到简化,采用双向LSTM网络更好解决信息衰退。

Description

基于深度学习的中文唇语识别方法
技术领域
本发明属于唇语识别领域,具体涉及一种基于深度学习的中文唇语识别方法。
背景技术
随着人工智能技术的发展,复杂场景下音视觉混合的输入,单纯拼写的文字输入已是一种过去式,语音识别的比重逐渐提高,正在成为当下主流的自然交互方式。但是,单纯的语音交互易受环境影响,容易出现噪声干扰,比如说充满噪音的户外马路、在会议室里有他人说话的人声争执、车载场景下的发动机或空调噪声等等,都会大大减少语音识别的准确率,用户体验出现鲜明落差。为了改善语音识别不准确的问题,出现了唇语识别技术。唇语识别技术是指通过对获取到的说话人的唇部动作等信息进行分析,识别出说话人所表达内容的方案。传统的唇语识别方案大多都包含嘴部检测、嘴部分割、嘴部归一化、特征提取和唇语分类器的构建,但是,传统的唇语识别方案的表现差强人意,唇语解读的准确率也就只有20%-60%,唇语识别结果的准确率低,提升难度大。
发明内容
基于上述的需求,本发明为了解决上述问题,提供了一种基于深度学习的中文唇语识别方法。
本发明具体采用以下技术方案实现,
一种基于深度学习的中文唇语识别方法,所述方法包括如下步骤:
S1、获取到唇部序列图像;
S2、从获取到的唇部序列图像,提取出唇部序列图像的特征;
S3、将该提取出的唇部序列图像的特征输入到双向长短时记忆网络进行时间空间特征序列学习,并将该经学习后的唇部序列图像的特征进行训练,训练该经学习后的唇部序列图像的特征到唇语的识别模型;
S4、根据该训练该经学习后的唇部序列图像的特征到唇语的识别模型,对该提取出的唇部序列图像的特征进行解码识别,识别出唇语结果;
S5、以文本形式输出识别出的唇语结果。
进一步地,所述步骤S1具体如下:对初始的视频,利用专业Dlib人脸检测和关键点检测算法实现从所述视频的图像序列中定位人脸,并检测人脸68个关键点,通过人脸关键点中的两嘴角关键点对唇部区域进行定位,并根据所述对唇部区域进行的定位和所述人脸关键点中的两嘴角关键点,计算出相对于标准嘴的平移和旋转因子,以及根据所述计算出的相对于标准嘴的平移和旋转因子,以两嘴角关键点的均值中心为图像中心分割得到所述唇部序列图像,获取到所述唇部序列图像。
进一步地,所述步骤S2具体如下:构建了深度卷积网络(VGG-16)提取图像特征,特征输入三个隐藏层,第一二层隐藏层设置节点个数是512,第三层隐藏层的节点个数是2*512,网结构如图2所示。提取特征网络模型的训练是使用连接时序分类器CTC(Connectionist Temporal Classification),可以理解为神经网络的时序类分类,语音识别的声学模型训练属于监督学习,需要知道每10一帧对应的标号(Label)才能训练,CTC的引入可以放宽这种一一对应的限制要求,只需要一个输入序列和一个输出序列就可以训练,CTC直接输出预测的概率,不需要外部的后处理。训练流程和传统的神经网络类似,构建loss function(损失函数),然后根据BP(Error Back Propagation,误差反向传播算法)算法通过不断的输入、输出、误差、反向传导误差的网络优化过程对该深度神经网络进行训练。对特征按照时间时序进行拼接,即提取一个图像的特征,也提取这张图片前几张图片和后几张图片的特征,并做特征拼接。
进一步地,所述步骤S3具体如下:将该提取出的唇部序列图像的特征输入到双向LSTM(Long Short-Term Memory,长短时记忆网络);使用LSTM把固定维度唇部特征矢量编码成特征序列,利用LSTM网络进行时间空间特征序列学习,并将该经学习后的唇部序列图像的特征进行训练,训练该经学习后的唇部序列图像的特征到唇语的识别模型。
进一步地,所述步骤S4具体如下:根据唇部序列图像的特征输入到唇语的识别模型,使用beam search(集束搜索)CTC对构建的深度神经网络输出的预测概率正确预测出序列的标签;对于一个问题,模型最后的输出应该有好几种回答;回答按得分排序,最后选择得分最高的句子作为最终输出。
进一步地,所述关键点为角点。
进一步地,所述LSTM使用双向LSTM网络,双向LSTM前面有三个隐藏层,用于特征输入。
进一步地,可以寻找上一时刻产生的优选的8个高得分的答案作为本时刻的候选答案,然后排序本时刻的候选答案集,选择得分最高的作为本时刻的最终答案,识别出唇语结果。
本发明具有下列有益效果:1、相对其他的人脸关键点定位方式,使用68个关键点的人脸检测,能够很好的实现对人脸嘴唇的定位,嘴部的关键点属于角点,相对于其他关键点来说更易于检测,其定位的准确性更高;2、不同于传统的神经网络的训练准则是针对每帧数据,即每帧数据的训练误差最小,而CTC的训练准则是基于序列比如语音识别的一整句话,序列化的概率求解比较复杂,因为一个输出序列可以对应很多的路径,所有引入前后向算法来简化计算;3、采用双向长短期记忆LSTM网络网络,是因为唇语不仅和之前的状态有关系,也和后面的状态相关。LSTM的遗忘门偏置初始化为1.0,意味着在训练的时候记得更多前面的信息。循环神经网络(RNN)在工作时一个重要的优点在于,其能够在输入和输出序列之间的映射过程中利用上下文相关信息。然而不幸的是,标准的循环神经网络RNN能够存取的上下文信息范围很有限。这个问题就使得隐含层的输入对于网络输出的影响随着网络环路的不断递归而衰退。因此,为了解决这个问题,使用双向LSTM网络,双向LSTM前面有三个隐藏层,用于特征输入。
附图说明
图1本发明识别方法流程图;
图2提取唇部特征的卷积神经网络图;
图3 LSTM对唇部特征编码流程图;
图4长短时记忆网络图;
图5解码网络结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1-5所示,一种基于深度学习的中文唇语识别方法,所述方法包括如下步骤:
S1、获取到唇部序列图像;
S2、从获取到的唇部序列图像,提取出唇部序列图像的特征;
S3、将该提取出的唇部序列图像的特征输入到双向长短时记忆网络进行时间空间特征序列学习,并将该经学习后的唇部序列图像的特征进行训练,训练该经学习后的唇部序列图像的特征到唇语的识别模型;
S4、根据该训练该经学习后的唇部序列图像的特征到唇语的识别模型,对该提取出的唇部序列图像的特征进行解码识别,识别出唇语结果;
S5、以文本形式输出识别出的唇语结果。
所述步骤S1具体如下:对初始的视频,利用专业Dlib人脸检测和关键点检测算法实现从所述视频的图像序列中定位人脸,并检测人脸68个关键点,通过人脸关键点中的两嘴角关键点对唇部区域进行定位,并根据所述对唇部区域进行的定位和所述人脸关键点中的两嘴角关键点,计算出相对于标准嘴的平移和旋转因子,以及根据所述计算出的相对于标准嘴的平移和旋转因子,以两嘴角关键点的均值中心为图像中心分割得到所述唇部序列图像,获取到所述唇部序列图像。
所述步骤S2具体如下:构建了深度卷积网络(VGG-16)提取图像特征,特征输入三个隐藏层,第一二层隐藏层设置节点个数是512,第三层隐藏层的节点个数是2*512,网结构如图2所示。提取特征网络模型的训练是使用连接时序分类器CTC(ConnectionistTemporal Classification),可以理解为神经网络的时序类分类,语音识别的声学模型训练属于监督学习,需要知道每10一帧对应的标号(Label)才能训练,CTC的引入可以放宽这种一一对应的限制要求,只需要一个输入序列和一个输出序列就可以训练,CTC直接输出预测的概率,不需要外部的后处理。训练流程和传统的神经网络类似,构建loss function(损失函数),然后根据BP(Error Back Propagation,误差反向传播算法)算法通过不断的输入、输出、误差、反向传导误差的网络优化过程对该深度神经网络进行训练。对特征按照时间时序进行拼接,即提取一个图像的特征,也提取这张图片前几张图片和后几张图片的特征,并做特征拼接。
所述步骤S3具体如下:将该提取出的唇部序列图像的特征输入到双向LSTM(LongShort-Term Memory,长短时记忆网络);使用LSTM把固定维度唇部特征矢量编码成特征序列,利用LSTM网络进行时间空间特征序列学习,并将该经学习后的唇部序列图像的特征进行训练,训练该经学习后的唇部序列图像的特征到唇语的识别模型。
所述步骤S4具体如下:根据唇部序列图像的特征输入到唇语的识别模型,使用beam search(集束搜索)CTC对构建的深度神经网络输出的预测概率正确预测出序列的标签;对于一个问题,模型最后的输出应该有好几种回答;回答按得分排序,最后选择得分最高的句子作为最终输出。
所述关键点为角点。
所述LSTM使用双向LSTM网络,双向LSTM前面有三个隐藏层,用于特征输入。
可以寻找上一时刻产生的优选的8个高得分的答案作为本时刻的候选答案,然后排序本时刻的候选答案集,选择得分最高的作为本时刻的最终答案,识别出唇语结果。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (8)

1.一种基于深度学习的中文唇语识别方法,其特征在于:所述方法包括如下步骤:
S1、获取到唇部序列图像;
S2、从获取到的唇部序列图像,提取出唇部序列图像的特征;
S3、将该提取出的唇部序列图像的特征输入到双向长短时记忆网络进行时间空间特征序列学习,并将该经学习后的唇部序列图像的特征进行训练,训练该经学习后的唇部序列图像的特征到唇语的识别模型;
S4、根据该训练该经学习后的唇部序列图像的特征到唇语的识别模型,对该提取出的唇部序列图像的特征进行解码识别,识别出唇语结果;
S5、以文本形式输出识别出的唇语结果。
2.如权利要求1所述的一种基于深度学习的中文唇语识别方法,其特征在于:所述步骤S1具体如下:对初始的视频,利用Dlib人脸检测和关键点检测算法实现从视频的图像序列中定位人脸,并检测人脸68个关键点,通过人脸关键点中的两嘴角关键点对唇部区域进行定位,并根据所述对唇部区域进行的定位和所述人脸关键点中的两嘴角关键点,计算出相对于标准嘴的平移和旋转因子,以及根据所述计算出的相对于标准嘴的平移和旋转因子,以两嘴角关键点的均值中心为图像中心分割得到所述唇部序列图像,获取到所述唇部序列图像。
3.如权利要求1所述的一种基于深度学习的中文唇语识别方法,其特征在于:所述步骤S2具体如下:构建了深度卷积网络VGG-16提取图像特征,特征输入三个隐藏层,第一、二层隐藏层设置节点个数是512,第三层隐藏层的节点个数是2*512;提取特征网络模型的训练是使用连接时序分类器CTC,构建损失函数,然后根据BP算法通过不断的输入、输出、误差、反向传导误差的网络优化过程对该深度神经网络进行训练;对特征按照时间时序进行拼接,即提取一个图像的特征,也提取这张图片前几张图片和后几张图片的特征,并做特征拼接。
4.如权利要求1所述的一种基于深度学习的中文唇语识别方法,其特征在于:所述步骤S3具体如下:将该提取出的唇部序列图像的特征输入到双向LSTM;使用LSTM把固定维度唇部特征矢量编码成特征序列,利用LSTM网络进行时间空间特征序列学习,并将该经学习后的唇部序列图像的特征进行训练,训练该经学习后的唇部序列图像的特征到唇语的识别模型。
5.如权利要求1所述的一种基于深度学习的中文唇语识别方法,其特征在于:所述步骤S4具体如下:根据唇部序列图像的特征输入到唇语的识别模型,使用集束搜索CTC对构建的深度神经网络输出的预测概率正确预测出序列的标签;对于一个问题,模型最后的输出应该有好几种回答;回答按得分排序,最后选择得分最高的句子作为最终输出。
6.如权利要求2所述的一种基于深度学习的中文唇语识别方法,其特征在于:所述关键点为角点。
7.如权利要求3所述的一种基于深度学习的中文唇语识别方法,其特征在于:所述LSTM使用双向LSTM网络,双向LSTM前面有三个隐藏层,用于特征输入。
8.如权利要求4所述的一种基于深度学习的中文唇语识别方法,其特征在于:可以寻找上一时刻产生的优选的8个高得分的答案作为本时刻的候选答案,然后排序本时刻的候选答案集,选择得分最高的作为本时刻的最终答案,识别出唇语结果。
CN201910582188.8A 2019-06-30 2019-06-30 基于深度学习的中文唇语识别方法 Pending CN110443129A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910582188.8A CN110443129A (zh) 2019-06-30 2019-06-30 基于深度学习的中文唇语识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910582188.8A CN110443129A (zh) 2019-06-30 2019-06-30 基于深度学习的中文唇语识别方法

Publications (1)

Publication Number Publication Date
CN110443129A true CN110443129A (zh) 2019-11-12

Family

ID=68428702

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910582188.8A Pending CN110443129A (zh) 2019-06-30 2019-06-30 基于深度学习的中文唇语识别方法

Country Status (1)

Country Link
CN (1) CN110443129A (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111259875A (zh) * 2020-05-06 2020-06-09 中国人民解放军国防科技大学 一种基于自适应语义时空图卷积网络的唇读方法
CN111401250A (zh) * 2020-03-17 2020-07-10 东北大学 一种基于混合卷积神经网络的中文唇语识别方法及装置
CN111898420A (zh) * 2020-06-17 2020-11-06 北方工业大学 一种唇语识别系统
CN112330713A (zh) * 2020-11-26 2021-02-05 南京工程学院 基于唇语识别的重度听障患者言语理解度的改进方法
CN112784696A (zh) * 2020-12-31 2021-05-11 平安科技(深圳)有限公司 基于图像识别的唇语识别方法、装置、设备及存储介质
CN112818950A (zh) * 2021-03-11 2021-05-18 河北工业大学 一种基于生成对抗网络和时间卷积网络的唇语识别方法
CN112861791A (zh) * 2021-03-11 2021-05-28 河北工业大学 一种结合图神经网络和多特征融合的唇语识别方法
CN113435421A (zh) * 2021-08-26 2021-09-24 湖南大学 一种基于跨模态注意力增强的唇语识别方法及系统
CN113642420A (zh) * 2021-07-26 2021-11-12 华侨大学 一种唇语的识别方法、装置及设备
CN114821781A (zh) * 2022-04-25 2022-07-29 中国人民解放军军事科学院国防科技创新研究院 一种基于红外微光望远镜的多源融合唇语识别方法和系统
CN114913511A (zh) * 2022-06-10 2022-08-16 南通大学 一种基于多模态短时特征的唇部状态识别方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109409195A (zh) * 2018-08-30 2019-03-01 华侨大学 一种基于神经网络的唇语识别方法及系统
CN109524006A (zh) * 2018-10-17 2019-03-26 天津大学 一种基于深度学习的汉语普通话唇语识别方法
CN109858412A (zh) * 2019-01-18 2019-06-07 东北大学 一种基于混合卷积神经网络的唇语识别方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109409195A (zh) * 2018-08-30 2019-03-01 华侨大学 一种基于神经网络的唇语识别方法及系统
CN109524006A (zh) * 2018-10-17 2019-03-26 天津大学 一种基于深度学习的汉语普通话唇语识别方法
CN109858412A (zh) * 2019-01-18 2019-06-07 东北大学 一种基于混合卷积神经网络的唇语识别方法

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111401250A (zh) * 2020-03-17 2020-07-10 东北大学 一种基于混合卷积神经网络的中文唇语识别方法及装置
CN111259875A (zh) * 2020-05-06 2020-06-09 中国人民解放军国防科技大学 一种基于自适应语义时空图卷积网络的唇读方法
CN111259875B (zh) * 2020-05-06 2020-07-31 中国人民解放军国防科技大学 一种基于自适应语义时空图卷积网络的唇读方法
CN111898420A (zh) * 2020-06-17 2020-11-06 北方工业大学 一种唇语识别系统
CN112330713B (zh) * 2020-11-26 2023-12-19 南京工程学院 基于唇语识别的重度听障患者言语理解度的改进方法
CN112330713A (zh) * 2020-11-26 2021-02-05 南京工程学院 基于唇语识别的重度听障患者言语理解度的改进方法
CN112784696A (zh) * 2020-12-31 2021-05-11 平安科技(深圳)有限公司 基于图像识别的唇语识别方法、装置、设备及存储介质
CN112784696B (zh) * 2020-12-31 2024-05-10 平安科技(深圳)有限公司 基于图像识别的唇语识别方法、装置、设备及存储介质
CN112818950A (zh) * 2021-03-11 2021-05-18 河北工业大学 一种基于生成对抗网络和时间卷积网络的唇语识别方法
CN112861791A (zh) * 2021-03-11 2021-05-28 河北工业大学 一种结合图神经网络和多特征融合的唇语识别方法
CN113642420A (zh) * 2021-07-26 2021-11-12 华侨大学 一种唇语的识别方法、装置及设备
CN113642420B (zh) * 2021-07-26 2024-04-16 华侨大学 一种唇语的识别方法、装置及设备
CN113435421A (zh) * 2021-08-26 2021-09-24 湖南大学 一种基于跨模态注意力增强的唇语识别方法及系统
CN114821781A (zh) * 2022-04-25 2022-07-29 中国人民解放军军事科学院国防科技创新研究院 一种基于红外微光望远镜的多源融合唇语识别方法和系统
CN114821781B (zh) * 2022-04-25 2024-06-07 中国人民解放军军事科学院国防科技创新研究院 一种基于红外微光望远镜的多源融合唇语识别方法和系统
CN114913511A (zh) * 2022-06-10 2022-08-16 南通大学 一种基于多模态短时特征的唇部状态识别方法
CN114913511B (zh) * 2022-06-10 2024-10-15 南通大学 一种基于多模态短时特征的唇部状态识别方法

Similar Documents

Publication Publication Date Title
CN110443129A (zh) 基于深度学习的中文唇语识别方法
CN109409195A (zh) 一种基于神经网络的唇语识别方法及系统
He Research of a sign language translation system based on deep learning
Zhang et al. Spontaneous speech emotion recognition using multiscale deep convolutional LSTM
CN103943107B (zh) 一种基于决策层融合的音视频关键词识别方法
CN111259804B (zh) 一种基于图卷积的多模态融合手语识别系统及方法
CN111754992B (zh) 一种噪声鲁棒的音视频双模态语音识别方法及系统
CN109036391A (zh) 语音识别方法、装置及系统
Chen et al. Efficient spatial temporal convolutional features for audiovisual continuous affect recognition
Zhang et al. Image captioning via semantic element embedding
CN111178157A (zh) 一种基于音调的级联序列到序列模型的中文唇语识别方法
CN110298395A (zh) 一种基于三模态对抗网络的图文匹配方法
CN113392265A (zh) 多媒体处理方法、装置及设备
CN114662497A (zh) 一种基于协同神经网络的虚假新闻检测方法
CN117149944B (zh) 一种基于宽时间范畴的多模态情境情感识别方法及系统
CN109684928A (zh) 基于互联网检索的中文文档识别方法
Gajurel et al. A fine-grained visual attention approach for fingerspelling recognition in the wild
CN116312512A (zh) 面向多人场景的视听融合唤醒词识别方法及装置
CN113239903B (zh) 一种跨模态唇读的对抗性双重对比自监督学习方法
Zhang et al. Speaker-independent lipreading by disentangled representation learning
Huang et al. CALLip: Lipreading using contrastive and attribute learning
CN112084788B (zh) 一种影像字幕隐式情感倾向自动标注方法及系统
CN110807370B (zh) 一种基于多模态的会议发言人身份无感确认方法
Xu et al. Isolated Word Sign Language Recognition Based on Improved SKResNet‐TCN Network
Liu et al. End-to-End Chinese Lip-Reading Recognition Based on Multi-modal Fusion

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20191112

RJ01 Rejection of invention patent application after publication