CN116469153A - 一种基于深度学习的特定目标唇语识别方法 - Google Patents

一种基于深度学习的特定目标唇语识别方法 Download PDF

Info

Publication number
CN116469153A
CN116469153A CN202310611630.1A CN202310611630A CN116469153A CN 116469153 A CN116469153 A CN 116469153A CN 202310611630 A CN202310611630 A CN 202310611630A CN 116469153 A CN116469153 A CN 116469153A
Authority
CN
China
Prior art keywords
lip
specific target
data set
model
language identification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310611630.1A
Other languages
English (en)
Inventor
柴松
田涛领
公岷
靳婷
汪立伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southwest Minzu University
Original Assignee
Southwest Minzu University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southwest Minzu University filed Critical Southwest Minzu University
Priority to CN202310611630.1A priority Critical patent/CN116469153A/zh
Publication of CN116469153A publication Critical patent/CN116469153A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/171Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • G10L15/25Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Medical Informatics (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于深度学习的特定目标唇语识别方法,包括以下步骤:制定唇语识别数据集,包括大型通用数据集和小样本特定目标数据集;采用Swin‑transformer网络和transformer网络构建唇语识别基础模型;利用大型通用数据集对唇语识别基础模型进行训练,输出第一大概率标签序列;采用对抗域适应的方法,构建特定目标唇语识别模型;利用小样本特定目标数据集和部分大型通用数据集对特定目标唇语识别模型进行训练,输出第二大概率标签序列;对特定目标唇语识别模型进行测试。本发明解决了目前唇语识别方法使用的模型规模较大、训练代价较大、识别准确率易受模型规模影响以及目前缺少特定目标的唇语识别方法的问题。

Description

一种基于深度学习的特定目标唇语识别方法
技术领域
本发明涉及计算机视觉和深度学习领域,特别是涉及一种基于深度学习的特定目标唇语识别方法。
背景技术
唇语识别是一项集计算机视觉与自然语言处理于一体的复合型技术,系统使用计算机视觉技术从连续的图像中识别出人脸信息,从而提取对应口型变化的连续特征,随即将连续变化的特征送入唇语识别模型中,最后模型预测出讲话人变化的口型可能对应的发音,根据预测出的发音,计算出可能性最大的自然语言语句。唇语识别是计算机视觉和人机交互领域重要的研究课题,借助唇部特征的辨识,可将其应用在后天聋哑人士的语言功能恢复、刑事侦查、身份认证等领域。目前大量的安防监控摄像头只有视频而没有音频信息,采用唇语辅助技术可以获得许多单纯依靠视频无法得到的信息。另外,唇语识别技术也可以解决嘈杂环境下音频识别准确度不高的问题。所以唇语识别技术在安防、工业、民用领域都有重要的实践意义。
目前的唇语识别技术主要包括基于注意力机制的唇语识别、基于3D卷积的唇语识别、基于隐马尔可夫模型的唇语识别等,这些唇语识别技术的局限性在于:为了实现较高的识别准确率,使用的模型规模通常都比较大,因此训练代价也随之增加;如果为了减少成本而降低模型规模,又会损失很多的识别准确率;当前缺少针对特定目标的唇语识别技术。
发明内容
针对现有技术中的上述不足,本发明提供的一种基于深度学习的特定目标唇语识别方法解决了目前唇语识别方法使用的模型规模较大、训练代价较大、识别准确率易受模型规模影响以及目前缺少特定目标的唇语识别方法的问题。
为了达到上述发明目的,本发明采用的技术方案为:一种基于深度学习的特定目标唇语识别方法,包括以下步骤:
S1:制定唇语识别数据集,包括大型通用数据集和小样本特定目标数据集;
S2:采用Swin-transformer网络和transformer网络构建唇语识别基础模型;
S3:利用大型通用数据集对唇语识别基础模型进行训练,输出第一大概率标签序列;
S4:基于第一大概率标签序列,采用对抗域适应的方法,构建特定目标唇语识别模型;
S5:利用小样本特定目标数据集和部分大型通用数据集对特定目标唇语识别模型进行训练,输出第二大概率标签序列,保证特定目标唇语识别模型对特定目标唇语识别的准确率;
S6:对特定目标唇语识别模型进行测试,获得针对特定目标的唇语识别结果。
上述方案的有益效果是:本发明以Swin-transformer网络和transformer网络为主框架构建唇语识别基础模型,在唇语识别基础模型的基础上,采用对抗域适应的方法构建特定目标唇语识别模型,有效提高模型对特定目标的唇语识别准确率,解决了目前唇语识别方法使用的模型规模较大、训练代价较大、识别准确率易受模型规模影响以及目前缺少特定目标的唇语识别方法的问题。
进一步地,S1中制定唇语识别数据集包括以下分步骤:
S1-1:采用原始数据集随机选取不同的视频样本进行组合拼接,生成2-6秒的长句视频样本,同时拼接对应的真实标签,形成大型通用数据集;
S1-2:为模拟真实环境,在室内自然光条件下采集小样本特定视频,要求人脸区域占相机画面的75%,采集的视频内容为原始数据集中短语组合形成的语句标签,同时采集部分样本时进行角度偏移;
S1-3:利用SeetaFace人脸检测算法对采集的视频内容进行视频处理,包括裁剪出人脸有效视频段、定位唇部区域、进行视频拆帧、截取每帧图像中的唇部部分以及保存所有唇部图像形成小样本特定目标数据集。
上述进一步方案的有益效果是:通过上述技术方案,获得模型所需的唇语识别数据集,包括大型通用数据集和小样本特定目标数据集。
进一步地,S2中唇语识别基础模型的前端部分采用Swin-transformer网络提取唇部图像特征,所述唇语识别基础模型的后端部分采用transformer网络进行编码操作和解码操作,将唇部序列图像翻译成对应的标签信息。
上述进一步方案的有益效果是:通过上述技术方案,构建唇语识别基础模型,其中,利用Swin-transformer网络提取特征值,利用transformer网络对特征值进行编码和解码,获得对应的标签信息。
进一步地,S2中Swin-transformer网络包括以下分步骤:
S2-1:通过Patch拆分模块将尺寸为H×W×3的RGB图像拆分为N个非重叠等尺寸的Patch块,每个Patch块作为一个token;
S2-2:利用线性嵌入层将N个Patch块映射到任意维度C,得到每个Patch块对应的特征向量;
S2-3:将特征向量依次送入多个Swin-Transformer Block,得到最终输出结果。
上述进一步方案的有益效果是:通过上述技术方案,构成Swin-transformer网络的内部结构,用于提取唇部特征图像。
进一步地,S2中transformer网络的编码器部分由N个编码器层堆叠形成,transformer网络的解码器部分由N个解码器层堆叠形成,每个编码器层由两个子层连接形成,第一个子层包括多头注意力模块、残差连接模块和层归一化模块,第二个子层包括点式前馈网络模块、残差连接模块和层归一化模块。
上述进一步方案的有益效果是:通过上述技术方案,构成transformer网络的结构,主要包括编码器部分和解码器部分,分别利用该部分进行编码操作和解码操作。
进一步地,S4中采用对抗域适应的方法,构建特定目标唇语识别模型,包括以下分步骤:
S4-1:将特定目标唇语识别模型的前端部分的Swin-transformer网络作为特征提取器,把源域样本和目标域样本成对送入特征提取器中提取唇部特征信息;
S4-2:将提取到的唇部特征信息同时传输至特定目标唇语识别模型的后端部分的transformer网络和领域判别器;
S4-3:利用领域判别器判断接收到的唇部特征信息来自源域或目标域,并计算相应的损失,利用transformer网络进行编码操作和解码操作,并计算相应的损失,完成特定目标唇语识别模型的构建。
上述进一步方案的有益效果是:通过上述技术方案,构建特定目标唇语识别模型,利用特征提取器提取唇部特征信息,利用领域判别器判断唇部特征信息的来源,利用transformer网络进行编码和解码,并计算相应的损失。
进一步地,S4-3中损失采用交叉熵损失函数Loss计算,公式为
其中,y为样本的标签,为样本预测为正类的概率。
上述进一步方案的有益效果是:根据上述公式,利用交叉熵损失函数计算本方案构建特定目标唇语识别模型中的损失。
附图说明
图1为一种基于深度学习的特定目标唇语识别方法流程图。
图2为一种基于深度学习的特定目标唇语识别方法示意图。
图3为Swin-Transformer网络结构图。
图4为transformer网络结构图。
具体实施方式
下面结合附图和具体实施例对本发明做进一步说明。
如图1所示,一种基于深度学习的特定目标唇语识别方法,包括以下步骤:
S1:制定唇语识别数据集,包括大型通用数据集和小样本特定目标数据集;
S2:采用Swin-transformer网络和transformer网络构建唇语识别基础模型;
S3:利用大型通用数据集对唇语识别基础模型进行训练,输出第一大概率标签序列;
S4:基于第一大概率标签序列,采用对抗域适应的方法,构建特定目标唇语识别模型;
S5:利用小样本特定目标数据集和部分大型通用数据集对特定目标唇语识别模型进行训练,输出第二大概率标签序列,保证特定目标唇语识别模型对特定目标唇语识别的准确率;
S6:对特定目标唇语识别模型进行测试,获得针对特定目标的唇语识别结果。
S1中制定唇语识别数据集包括以下分步骤:
S1-1:采用原始数据集随机选取不同的视频样本进行组合拼接,生成2-6秒的长句视频样本,同时拼接对应的真实标签,形成大型通用数据集;
S1-2:为模拟真实环境,在室内自然光条件下采集小样本特定视频,要求人脸区域占相机画面的75%,采集的视频内容为原始数据集中短语组合形成的语句标签,同时采集部分样本时进行角度偏移;
S1-3:利用SeetaFace人脸检测算法对采集的视频内容进行视频处理,包括裁剪出人脸有效视频段、定位唇部区域、进行视频拆帧、截取每帧图像中的唇部部分以及保存所有唇部图像形成小样本特定目标数据集。
如图2所示,S2中唇语识别基础模型的前端部分采用Swin-transformer网络提取唇部图像特征,所述唇语识别基础模型的后端部分采用transformer网络进行编码操作和解码操作,将唇部序列图像翻译成对应的标签信息。
如图3所示,S2中Swin-transformer网络包括以下分步骤:
S2-1:通过Patch拆分模块将尺寸为H×W×3的RGB图像拆分为N个非重叠等尺寸的Patch块,每个Patch块作为一个token;
S2-2:利用线性嵌入层将N个Patch块映射到任意维度C,得到每个Patch块对应的特征向量;
S2-3:将特征向量依次送入多个Swin-Transformer Block,得到最终输出结果。
在每个Block之间,为了产生一个层次化表示,随着网络的加深,使用Patch合并模块逐渐减少token的数量。
如图4所示,S2中transformer网络的编码器部分由N个编码器层堆叠形成,transformer网络的解码器部分由N个解码器层堆叠形成,每个编码器层由两个子层连接形成,第一个子层包括多头注意力模块、残差连接模块和层归一化模块,第二个子层包括点式前馈网络模块、残差连接模块和层归一化模块。最终将编码器部分的输出送入解码器部分中进行计算。
S4中采用对抗域适应的方法,构建特定目标唇语识别模型,包括以下分步骤:
S4-1:将特定目标唇语识别模型的前端部分的Swin-transformer网络作为特征提取器,把源域样本和目标域样本成对送入特征提取器中提取唇部特征信息;
S4-2:将提取到的唇部特征信息同时传输至特定目标唇语识别模型的后端部分的transformer网络和领域判别器;
S4-3:利用领域判别器判断接收到的唇部特征信息来自源域或目标域,并计算相应的损失,利用transformer网络进行编码操作和解码操作,并计算相应的损失,完成特定目标唇语识别模型的构建。
在本发明的一个实施例中,如图2所示,训练领域判别器的目的是尽可能地将输入的唇部特征信息分类到正确的领域类别中(源域标签为1,目标域标签为0),而训练特征提取器的目的却恰恰相反,是为了让特征提取器提取到的唇部特征信息无法被领域判别器正确地判断出来自于哪个领域类别,从而形成一种特征提取器与领域判别器的对抗关系。
与此同时,特征提取器提取到的唇部特征信息也会被送入Transformer进行编码解码,因为源域样本是有真实标签的,因此在提取唇部特征信息时不仅要考虑到领域判别器的情况,而且还要利用好源域样本的真实标签进行有监督学习,从而更好地兼顾样本预测的准确性。在模型进行反向传播更新权重参数的过程中,原始梯度下降的目的是为了最小化损失函数,而特征提取器的训练则是要兼顾最大化样本预测准确率和最小化领域判别准确率,因此要最大化领域判别器的损失函数。
S4-3中损失采用交叉熵损失函数Loss计算,公式为
其中,y为样本的标签,为样本预测为正类的概率。
在本发明的一个实施例中,考虑到中文语言结构的特点,采用了编码器-解码器的算法架构,为了具有通用性和扩展性,使用Swin-Transformer提取样本特征,解码器部分采用transformer,标签采用字编码方式,使用基于对抗域适应的端到端的算法模型。汉字不同于英文等字母型语言有很多不同,英语等字母型语言由基本的少数字母拼写而成,对于编码而言由于其基本编码单元少(如英文由26个字母组成),使用简单的One-hot编码即可得到较好的结果,而汉字其由大量的基本汉字组成(据统计,常用基本汉字有4000个左右),直接使用One-hot编码训练出可用的语言模型需要巨大的语料库,同时由于One-hot编码向量的稀疏性和正交性不利于深度神经网络的训练,因此本发明的标签使用按字进行编码的方式。
系统使用自制的大型通用数据集和小样本特定目标数据集来训练模型,使用Swin-Transformer提取样本中的唇部区域特征。Transformer用于将唇部视觉特征信息进行编码并在模型推断时,将其解码成为相关的文本信息。并且在模型中加入领域判别器进行训练,领域判别器用来判断Swin-Transformer提取的特征是来自于预训练数据集还是特定目标数据集。
本发明提出针对特定目标的唇语识别方法,以Swin-Transformer和Transformer为主框架,采用对抗域适应的方法来提高模型对特定目标的唇语识别准确率,本唇语识别方法的提出,有利于为唇语识别领域采用深度学习技术提供实验验证,有利于理论的发展与完善,可以为实际场景中应用唇语识别技术提供了可能,为进一步发展更加准确和更具鲁棒性的唇语识别方案提供了理论储备和方案储备。
本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合,这些变形和组合仍然在发明的保护范围内。

Claims (7)

1.一种基于深度学习的特定目标唇语识别方法,其特征在于,包括以下步骤:
S1:制定唇语识别数据集,包括大型通用数据集和小样本特定目标数据集;
S2:采用Swin-transformer网络和transformer网络构建唇语识别基础模型;
S3:利用大型通用数据集对唇语识别基础模型进行训练,输出第一大概率标签序列;
S4:基于第一大概率标签序列,采用对抗域适应的方法,构建特定目标唇语识别模型;
S5:利用小样本特定目标数据集和部分大型通用数据集对特定目标唇语识别模型进行训练,输出第二大概率标签序列,保证特定目标唇语识别模型对特定目标唇语识别的准确率;
S6:对特定目标唇语识别模型进行测试,获得针对特定目标的唇语识别结果。
2.根据权利要求1所述的基于深度学习的特定目标唇语识别方法,其特征在于,所述S1中制定唇语识别数据集包括以下分步骤:
S1-1:采用原始数据集随机选取不同的视频样本进行组合拼接,生成2-6秒的长句视频样本,同时拼接对应的真实标签,形成大型通用数据集;
S1-2:为模拟真实环境,在室内自然光条件下采集小样本特定视频,要求人脸区域占相机画面的75%,采集的视频内容为原始数据集中短语组合形成的语句标签,同时采集部分样本时进行角度偏移;
S1-3:利用SeetaFace人脸检测算法对采集的视频内容进行视频处理,包括裁剪出人脸有效视频段、定位唇部区域、进行视频拆帧、截取每帧图像中的唇部部分以及保存所有唇部图像形成小样本特定目标数据集。
3.根据权利要求1所述的基于深度学习的特定目标唇语识别方法,其特征在于,所述S2中唇语识别基础模型的前端部分采用Swin-transformer网络提取唇部图像特征,所述唇语识别基础模型的后端部分采用transformer网络进行编码操作和解码操作,将唇部序列图像翻译成对应的标签信息。
4.根据权利要求1所述的基于深度学习的特定目标唇语识别方法,其特征在于,所述S2中Swin-transformer网络包括以下分步骤:
S2-1:通过Patch拆分模块将尺寸为H×W×3的RGB图像拆分为N个非重叠等尺寸的Patch块,每个Patch块作为一个token;
S2-2:利用线性嵌入层将N个Patch块映射到任意维度C,得到每个Patch块对应的特征向量;
S2-3:将特征向量依次送入多个Swin-Transformer Block,得到最终输出结果。
5.根据权利要求1所述的基于深度学习的特定目标唇语识别方法,其特征在于,所述S2中transformer网络的编码器部分由N个编码器层堆叠形成,transformer网络的解码器部分由N个解码器层堆叠形成,每个编码器层由两个子层连接形成,第一个子层包括多头注意力模块、残差连接模块和层归一化模块,第二个子层包括点式前馈网络模块、残差连接模块和层归一化模块。
6.根据权利要求1所述的基于深度学习的特定目标唇语识别方法,其特征在于,所述S4中采用对抗域适应的方法,构建特定目标唇语识别模型,包括以下分步骤:
S4-1:将特定目标唇语识别模型的前端部分的Swin-transformer网络作为特征提取器,把源域样本和目标域样本成对送入特征提取器中提取唇部特征信息;
S4-2:将提取到的唇部特征信息同时传输至特定目标唇语识别模型的后端部分的transformer网络和领域判别器;
S4-3:利用领域判别器判断接收到的唇部特征信息来自源域或目标域,并计算相应的损失,利用transformer网络进行编码操作和解码操作,并计算相应的损失,完成特定目标唇语识别模型的构建。
7.根据权利要求6所述的基于深度学习的特定目标唇语识别方法,其特征在于,所述S4-3中损失采用交叉熵损失函数Loss计算,公式为
其中,y为样本的标签,为样本预测为正类的概率。
CN202310611630.1A 2023-05-26 2023-05-26 一种基于深度学习的特定目标唇语识别方法 Pending CN116469153A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310611630.1A CN116469153A (zh) 2023-05-26 2023-05-26 一种基于深度学习的特定目标唇语识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310611630.1A CN116469153A (zh) 2023-05-26 2023-05-26 一种基于深度学习的特定目标唇语识别方法

Publications (1)

Publication Number Publication Date
CN116469153A true CN116469153A (zh) 2023-07-21

Family

ID=87177294

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310611630.1A Pending CN116469153A (zh) 2023-05-26 2023-05-26 一种基于深度学习的特定目标唇语识别方法

Country Status (1)

Country Link
CN (1) CN116469153A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117037847A (zh) * 2023-07-31 2023-11-10 深圳市万物云科技有限公司 一种端到端社区噪音监测方法、装置及相关组件

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117037847A (zh) * 2023-07-31 2023-11-10 深圳市万物云科技有限公司 一种端到端社区噪音监测方法、装置及相关组件
CN117037847B (zh) * 2023-07-31 2024-05-03 深圳市万物云科技有限公司 一种端到端社区噪音监测方法、装置及相关组件

Similar Documents

Publication Publication Date Title
CN109524006B (zh) 一种基于深度学习的汉语普通话唇语识别方法
CN110751208B (zh) 一种基于自权重差分编码器进行多模态特征融合的服刑人员情感识别方法
CN110633683B (zh) 结合DenseNet和resBi-LSTM的中文句子级唇语识别方法
CN113591546A (zh) 语义增强型场景文本识别方法及装置
CN114998670B (zh) 多模态信息预训练方法及系统
CN111259785B (zh) 基于时间偏移残差网络的唇语识别方法
CN111104884A (zh) 一种基于两阶段神经网络模型的汉语唇语识别方法
CN110472548B (zh) 一种基于语法分类器的视频连续手语识别方法及系统
CN112668559A (zh) 一种多模态信息融合的短视频情感判定装置及方法
CN114973222B (zh) 基于显式监督注意力机制的场景文本识别方法
CN116127953B (zh) 一种基于对比学习的中文拼写纠错方法、装置和介质
CN115116066A (zh) 一种基于字符距离感知的场景文本识别方法
CN116469153A (zh) 一种基于深度学习的特定目标唇语识别方法
Cong et al. A comparative study of attention-based encoder-decoder approaches to natural scene text recognition
CN116682144B (zh) 一种基于多层次跨模态差异调和的多模态行人重识别方法
CN113392265A (zh) 多媒体处理方法、装置及设备
Chen et al. Cross-lingual text image recognition via multi-task sequence to sequence learning
CN115393949A (zh) 一种连续手语识别方法及装置
CN115761764A (zh) 一种基于视觉语言联合推理的中文手写文本行识别方法
CN117151223B (zh) 一种基于可学习提示的多模态实体识别和关系抽取方法
CN112949284B (zh) 一种基于Transformer模型的文本语义相似度预测方法
CN117216709A (zh) 基于clip引导的多尺度多模态虚假信息检测方法、装置、电子设备及存储介质
CN113887504B (zh) 强泛化性的遥感图像目标识别方法
CN115937862A (zh) 一种端到端的集装箱号码识别方法及系统
CN113159071B (zh) 一种跨模态图像-文本关联异常检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination