CN115661594B - 一种基于对齐和融合的图文多模态特征表示方法和系统 - Google Patents

一种基于对齐和融合的图文多模态特征表示方法和系统 Download PDF

Info

Publication number
CN115661594B
CN115661594B CN202211280895.XA CN202211280895A CN115661594B CN 115661594 B CN115661594 B CN 115661594B CN 202211280895 A CN202211280895 A CN 202211280895A CN 115661594 B CN115661594 B CN 115661594B
Authority
CN
China
Prior art keywords
image
text
data
features
mode
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211280895.XA
Other languages
English (en)
Other versions
CN115661594A (zh
Inventor
黄思
刘如梦
张恺玉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hainan Port And Shipping Holding Co ltd
Original Assignee
Hainan Port And Shipping Holding Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hainan Port And Shipping Holding Co ltd filed Critical Hainan Port And Shipping Holding Co ltd
Priority to CN202211280895.XA priority Critical patent/CN115661594B/zh
Publication of CN115661594A publication Critical patent/CN115661594A/zh
Application granted granted Critical
Publication of CN115661594B publication Critical patent/CN115661594B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Image Processing (AREA)

Abstract

本发明公开了一种基于对齐和融合的图文多模态特征表示方法和系统,属于多模态学习领域。包括:对获取到的图像文本数据进行预处理;将预处理后图像数据、文本数据输入至不同的模型,抽取出不同模态特征;通过线性映射将不同模态的特征数据对齐到相同的语义空间中;将对齐后的图像文本特征输入至深层联合自编码模型,得到图文多模态特征,深层联合自编码模型的每一层进行交叉注意力。本发明先通过线性映射层将图片特征向量和文本特征向量都映射到相同的嵌入特征维度,能够快速找到不同模态实体与实体之间的关联关系;再进行跨模态交互,获得了更细粒度的语义区分能力,二者相辅相成,有效地利用多模态数据,从而使得预测结果精度更高。

Description

一种基于对齐和融合的图文多模态特征表示方法和系统
技术领域
本发明属于多模态学习领域,更具体地,涉及一种基于对齐和融合的图文多模态特征表示方法和系统。
背景技术
2021年,OpenAI提出的CLIP模型,不同模态有各自的编码器,文本数据经过文本Embedding层后被输入到Transformer编码器中提取特征信息,图片数据则使用VisionTransformer作为图片编码其提取特征,然后将文本和图像特征表示直接经过线性投影到统一的多模态编码空间中,计算模态间相似度完成图文匹配任务,CLIP模型最出彩的地方是通过海量数据,不断挖掘预训练模型的潜力,使其具备很强的zero-shot的能力。
然而,它们虽然在对比学习任务上表现优异,但图像文本之间缺乏交互,因此不能满足一些细粒度的图文匹配需求,物体、物体属性、物体之间的关系这些细粒度的语义对于精准理解一些真实视觉场景是至关重要的。比如输入一张帆船的图片作为图像数据,输入文本的为“车、船、火车、飞机”进行测试时,模型可以准确识别出照片对应的文本标签为船而且准确率一般都会很高,大概有95%的精度。但是如果换成细粒度任务,比如再对船只类型进行细分的识别任务,一般的模型测试的效果就明显变差了。如输入一张游艇的图片作为图像数据,输入文本的为“客船、货船、帆船、游艇”进行测试时,模型对看到“船”的字眼的标签给了比较高的匹配概率,导致识别的结果出现了错误。再比如在一个港口船舶图片中去找“白色帆船”和“黑色游艇”,双塔模型并不能理解“白色帆船”、“黑色游艇”这两个概念,而是单独对“白色”“黑色”和“帆船”“游艇”这两个属性进行了组合,导致其可能会返回“白色游艇”这样的错误结果。
发明内容
针对现有技术的缺陷,本发明的目的在于提供一种基于对齐和融合的图文多模态特征表示方法和系统,旨在解决现有多模态特征表示方法中图像文本之间缺乏交互,无法满足细粒度图文匹配需求的问题。
为实现上述目的,第一方面,本发明提供了一种基于对齐和融合的图文多模态特征表示方法,该方法包括:
S1.对获取到的图像文本数据进行预处理;
S2.将预处理后图像数据、文本数据输入至不同的模型,抽取出不同模态特征;
S3.通过线性映射将不同模态的特征数据对齐到相同的语义空间中;
S4.将对齐后的图像文本特征输入至深层联合自编码模型,得到图文多模态特征,所述深层联合自编码模型的每一层进行交叉注意力。
优选地,步骤S1中,图像数据的预处理包括:
(1)对输入的图像进行缩放和中心裁剪,使得图像尺寸统一;
(2)采用加入高斯噪声、修改亮度、对比度、饱和度或者色调中的至少一种方法,对图像进行增强;
(3)将图像从0到255的值映射到0到1的范围内,转化成张量格式;
(4)用均值和标准差归一化张量图像。
优选地,步骤S1中,文本数据的预处理包括:
1)利用Ftfy.fix_text整理乱码数据;
2)对每个句子进行分词,将一个句子划分成若干个词,转换为一个词的序列;
3)查找字典以将字符串转换为数字,所述字典中每个词映射到一个唯一的索引编号。
优选地,步骤S2中,图像这一模态使用改进后的ResNet50提取特征;所述改进后的ResNet50用一个QKV注意力池化层来代替最后的平均池化层,所述QKV注意力池化层由一层Transformer形式的多头QKV注意力构成。
优选地,步骤S2中,文本这一模态,对预处理后的文本,用one-hot编码进行词向量编码,基于位置向量嵌入方法生成位置编码,将词向量和位置编码直接相加,输入至基于注意力机制的Transformer编码器中,以提取特征。
优选地,步骤S3中,对得到的图像文本特征向量进行标准化,以将数据按照比例缩放使之放到一个特定的区间中。
优选地,该方法应用于船舶类型识别,所述图像数据包括客船、拖船、油船、帆船、游艇、货船不同类型的船舶图像,所述文本数据包括船舶名称、类型、IMO编号、航行轨迹。
优选地,训练阶段,将所有对齐融合后的文本和图像特征分别计算内积,得到一个矩阵;计算图像文本匹配的概率,通过Softmax进行归一化操作,得到所有标签概率的和为1。
优选地,模态间的余弦相似度计算公式如下:
其中,I表示图像,T表示文本数据,fI表示图像特征,fT表示文本特征,SI,T表示模态间的余弦相似度。
为实现上述目的,第二方面,本发明提供了一种基于对齐和融合的图文多模态特征表示系统,包括处理器和存储器;所述存储器,用于存储计算机执行指令;所述处理器,用于执行所述计算机执行指令,使得第一方面所述的方法被执行。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,具有以下有益效果:
本发明提出了一种基于对齐和融合的图文多模态特征表示方法和系统,先通过线性映射层将图片特征向量和文本特征向量都映射到相同的嵌入特征维度,即对齐到相同的语义空间中,能够快速找到不同模态实体与实体之间的关联关系;再进行跨模态交互,获得了更细粒度的语义区分能力,二者相辅相成,有效地利用多模态数据,从而使得预测结果精度更高。
附图说明
图1为本发明提供的一种基于对齐和融合的图文多模态特征表示方法流程图。
图2为本发明提供的改进后的ResNet50总体结构示意图。
图3为本发明提供的深层联合自编码模型示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
图1为本发明提供的一种基于对齐和融合的图文多模态特征表示方法流程图。如图1所示,该方法包括:。
步骤S1.对获取到的图像文本数据进行预处理。
优选地,步骤S1中,图像数据的预处理包括:
(1)对输入的图像进行缩放和中心裁剪,使得图像尺寸统一;
(2)采用加入高斯噪声、修改亮度、对比度、饱和度或者色调中的至少一种方法,对图像进行增强;
(3)将图像从0到255的值映射到0到1的范围内,转化成张量格式;
(4)用均值和标准差归一化张量图像。
优选地,步骤S1中,文本数据的预处理包括:
1)利用Ftfy.fix_text整理乱码数据;
2)对每个句子进行分词,将一个句子划分成若干个词,转换为一个词的序列;
3)查找字典以将字符串转换为数字,所述字典中每个词映射到一个唯一的索引编号。
步骤S2.将预处理后图像数据、文本数据输入至不同的模型,抽取出不同模态特征。
优选地,步骤S2中,图像这一模态使用改进后的ResNet50提取特征;图2为本发明提供的改进后的ResNet50总体结构示意图。如图2所示,所述改进后的ResNet50用一个QKV注意力池化层来代替最后的平均池化层,所述QKV注意力池化层由一层Transformer形式的多头QKV注意力构成。
优选地,步骤S2中,文本这一模态,对预处理后的文本,用one-hot编码进行词向量编码,基于位置向量嵌入方法生成位置编码,将词向量和位置编码直接相加,输入至基于注意力机制的Transformer编码器中,以提取特征。
所述基于位置向量嵌入方法生成位置编码,公式如下:
其中,PE为二维矩阵,大小跟输入Embedding的维度一样;pos是单词在句子中的位置,取值为0到最大序列长度-1之间的整数,比如“[cls]我喜欢看书[sep]”是7个token组成的序列,“书”的pos值为5;i为词向量的位置;dmodel为词向量的维度。上述公式分别表示在每个词语的词向量的偶数位置2i使用正弦函数编码,奇数位置2i+1使用余弦函数编码。将位置编码信息加到词向量编码中去,这样位置编码的引入就完成了。
步骤S3.通过线性映射将不同模态的特征数据对齐到相同的语义空间中。
优选地,步骤S3中,对得到的图像文本特征向量进行标准化,以将数据按照比例缩放使之放到一个特定的区间中。
步骤S4.将对齐后的图像文本特征输入至深层联合自编码模型,得到图文多模态特征,所述深层联合自编码模型的每一层进行交叉注意力。
图3为本发明提供的深层联合自编码模型示意图。本发明中多模态编码器使用基于Bert的框架,在编码器的每一层进行交叉注意力从而实现跨模态交互。此处特征融合使用如图3所示的深层联合自编码模型,将两个模态的特征用两个线性层将特征转化为相同的维度,然后相加,最后再将二者还原回去。
优选地,该方法应用于船舶类型识别,所述图像数据包括客船、拖船、油船、帆船、游艇、货船不同类型的船舶图像,所述文本数据包括船舶名称、类型、IMO编号、航行轨迹。
本发明从图像和文字的图文多模态表征学习入手,用多模态预训练模型对船舶的图片文本数据进行语义特征提取、对齐、中间融合,计算模态间的相似度得到准确的分类结果从而实现对船舶类型的准确识别。
优选地,训练阶段,将所有对齐融合后的文本和图像特征分别计算内积,得到一个矩阵;计算图像文本匹配的概率,通过Softmax进行归一化操作,得到所有标签概率的和为1。
优选地,模态间的余弦相似度计算公式如下:
其中,I表示图像,T表示文本数据,fI表示图像特征,fT表示文本特征,SI,T表示模态间的余弦相似度。
图片和文本匹配的概率为:
其中,τ是可学习的温度参数它可以调整数值范围,在计算概率时使用温度参数会有利于模型的收敛。
用yi和yt表示真实的标签,用交叉熵损失计算图文匹配损失函数如下:
本发明还提供了一种基于对齐和融合的图文多模态特征表示系统,包括处理器和存储器;所述存储器,用于存储计算机执行指令;所述处理器,用于执行所述计算机执行指令,使得上述方法被执行。
相较于未进行对齐、融合的模型的预测结果,本方法有效地利用多模态数据从而使得预测结果精度更高,对不同类型的船舶平均识别精确度提升到90%以上,而且经过模态的交互,细粒度的图文匹配也能取得比较好的结果。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种基于对齐和融合的图文多模态特征表示方法,其特征在于,该方法包括:
S1.对获取到的图像文本数据进行预处理;
S2.将预处理后图像数据、文本数据输入至不同的模型,抽取出不同模态特征;
图像这一模态使用改进后的ResNet50提取特征;所述改进后的ResNet50用一个QKV注意力池化层来代替最后的平均池化层,所述QKV注意力池化层由一层Transformer形式的多头QKV注意力构成;
文本这一模态,对预处理后的文本,用one-hot编码进行词向量编码,基于位置向量嵌入方法生成位置编码,将词向量和位置编码直接相加,输入至基于注意力机制的Transformer编码器中,以提取特征;
S3.通过线性映射将不同模态的特征数据对齐到相同的语义空间中;
S4.将对齐后的图像文本特征输入至深层联合自编码模型,得到图文多模态特征,所述深层联合自编码模型的每一层进行交叉注意力。
2.如权利要求1所述的方法,其特征在于,步骤S1中,图像数据的预处理包括:
(1)对输入的图像进行缩放和中心裁剪,使得图像尺寸统一;
(2)采用加入高斯噪声、修改亮度、对比度、饱和度或者色调中的至少一种方法,对图像进行增强;
(3)将图像从0到255的值映射到0到1的范围内,转化成张量格式;
(4)用均值和标准差归一化张量图像。
3.如权利要求1所述的方法,其特征在于,步骤S1中,文本数据的预处理包括:
1)利用Ftfy.fix_text整理乱码数据;
2)对每个句子进行分词,将一个句子划分成若干个词,转换为一个词的序列;
3)查找字典以将字符串转换为数字,所述字典中每个词映射到一个唯一的索引编号。
4.如权利要求1所述的方法,其特征在于,步骤S3中,对得到的图像文本特征向量进行标准化,以将数据按照比例缩放使之放到一个特定的区间中。
5.如权利要求1至4任一项所述的方法,其特征在于,该方法应用于船舶类型识别,所述图像数据包括客船、拖船、油船、帆船、游艇、货船不同类型的船舶图像,所述文本数据包括船舶名称、类型、IMO编号、航行轨迹。
6.如权利要求5所述的方法,其特征在于,训练阶段,将所有对齐融合后的文本和图像特征分别计算内积,得到一个矩阵;计算图像文本匹配的概率,通过Softmax进行归一化操作,得到所有标签概率的和为1。
7.如权利要求5所述的方法,其特征在于,模态间的余弦相似度计算公式如下:
其中,I表示图像,T表示文本数据,fI表示图像特征,fT表示文本特征,SI,T表示模态间的余弦相似度。
8.一种基于对齐和融合的图文多模态特征表示系统,其特征在于,包括处理器和存储器;
所述存储器,用于存储计算机执行指令;
所述处理器,用于执行所述计算机执行指令,使得权利要求1至7任一项所述的方法被执行。
CN202211280895.XA 2022-10-19 2022-10-19 一种基于对齐和融合的图文多模态特征表示方法和系统 Active CN115661594B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211280895.XA CN115661594B (zh) 2022-10-19 2022-10-19 一种基于对齐和融合的图文多模态特征表示方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211280895.XA CN115661594B (zh) 2022-10-19 2022-10-19 一种基于对齐和融合的图文多模态特征表示方法和系统

Publications (2)

Publication Number Publication Date
CN115661594A CN115661594A (zh) 2023-01-31
CN115661594B true CN115661594B (zh) 2023-08-18

Family

ID=84989186

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211280895.XA Active CN115661594B (zh) 2022-10-19 2022-10-19 一种基于对齐和融合的图文多模态特征表示方法和系统

Country Status (1)

Country Link
CN (1) CN115661594B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116702091B (zh) * 2023-06-21 2024-03-08 中南大学 基于多视图clip的多模态讽刺意图识别方法、装置和设备
CN117150381A (zh) * 2023-08-07 2023-12-01 中国船舶集团有限公司第七〇九研究所 一种目标功能群识别及其模型训练方法
CN116796251A (zh) * 2023-08-25 2023-09-22 江苏省互联网行业管理服务中心 一种基于图文多模态的不良网站分类方法、系统及设备
CN117421641B (zh) * 2023-12-13 2024-04-16 深圳须弥云图空间科技有限公司 一种文本分类的方法、装置、电子设备及可读存储介质

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105512245A (zh) * 2015-11-30 2016-04-20 青岛智能产业技术研究院 一种基于回归模型建立企业画像的方法
CN109783827A (zh) * 2019-01-31 2019-05-21 沈阳雅译网络技术有限公司 一种基于动态线性聚合的深层神经机器翻译方法
CN110097528A (zh) * 2019-04-11 2019-08-06 江南大学 一种基于联合卷积自编码网络的图像融合方法
CN112966127A (zh) * 2021-04-07 2021-06-15 北方民族大学 一种基于多层语义对齐的跨模态检索方法
CN113378989A (zh) * 2021-07-06 2021-09-10 武汉大学 基于复式协同结构特征重组网络的多模态数据融合方法
CN113761197A (zh) * 2021-07-29 2021-12-07 中国科学院计算机网络信息中心 一种可利用专家知识的申请书多标签层次分类方法
CN113971209A (zh) * 2021-12-22 2022-01-25 松立控股集团股份有限公司 一种基于注意力机制增强的无监督跨模态检索方法
CN114118111A (zh) * 2021-11-26 2022-03-01 昆明理工大学 融合文本和图片特征的多模态机器翻译方法
CN114186056A (zh) * 2021-12-14 2022-03-15 广州华多网络科技有限公司 商品标签标注方法及其装置、设备、介质、产品
CN114464247A (zh) * 2022-01-30 2022-05-10 腾讯科技(深圳)有限公司 基于抗原和抗体序列的结合亲和力预测方法和装置
CN114692633A (zh) * 2020-12-31 2022-07-01 Tcl科技集团股份有限公司 一种命名实体识别方法、终端以及存储介质
CN114818708A (zh) * 2022-04-20 2022-07-29 北京百度网讯科技有限公司 关键信息抽取方法、模型训练方法、相关装置及电子设备
CN114911914A (zh) * 2022-04-24 2022-08-16 中国电子科技集团公司第五十四研究所 一种跨模态图文检索方法
CN115017358A (zh) * 2022-08-09 2022-09-06 南京理工大学 一种多模态交互的跨模态检索方法及系统
CN115115913A (zh) * 2022-06-02 2022-09-27 北京科技大学 一种数据处理方法、装置、电子设备及存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11741306B2 (en) * 2019-12-18 2023-08-29 Microsoft Technology Licensing, Llc Controllable grounded text generation
CN113240056B (zh) * 2021-07-12 2022-05-17 北京百度网讯科技有限公司 多模态数据联合学习模型训练方法及装置

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105512245A (zh) * 2015-11-30 2016-04-20 青岛智能产业技术研究院 一种基于回归模型建立企业画像的方法
CN109783827A (zh) * 2019-01-31 2019-05-21 沈阳雅译网络技术有限公司 一种基于动态线性聚合的深层神经机器翻译方法
CN110097528A (zh) * 2019-04-11 2019-08-06 江南大学 一种基于联合卷积自编码网络的图像融合方法
CN114692633A (zh) * 2020-12-31 2022-07-01 Tcl科技集团股份有限公司 一种命名实体识别方法、终端以及存储介质
CN112966127A (zh) * 2021-04-07 2021-06-15 北方民族大学 一种基于多层语义对齐的跨模态检索方法
CN113378989A (zh) * 2021-07-06 2021-09-10 武汉大学 基于复式协同结构特征重组网络的多模态数据融合方法
CN113761197A (zh) * 2021-07-29 2021-12-07 中国科学院计算机网络信息中心 一种可利用专家知识的申请书多标签层次分类方法
CN114118111A (zh) * 2021-11-26 2022-03-01 昆明理工大学 融合文本和图片特征的多模态机器翻译方法
CN114186056A (zh) * 2021-12-14 2022-03-15 广州华多网络科技有限公司 商品标签标注方法及其装置、设备、介质、产品
CN113971209A (zh) * 2021-12-22 2022-01-25 松立控股集团股份有限公司 一种基于注意力机制增强的无监督跨模态检索方法
CN114464247A (zh) * 2022-01-30 2022-05-10 腾讯科技(深圳)有限公司 基于抗原和抗体序列的结合亲和力预测方法和装置
CN114818708A (zh) * 2022-04-20 2022-07-29 北京百度网讯科技有限公司 关键信息抽取方法、模型训练方法、相关装置及电子设备
CN114911914A (zh) * 2022-04-24 2022-08-16 中国电子科技集团公司第五十四研究所 一种跨模态图文检索方法
CN115115913A (zh) * 2022-06-02 2022-09-27 北京科技大学 一种数据处理方法、装置、电子设备及存储介质
CN115017358A (zh) * 2022-08-09 2022-09-06 南京理工大学 一种多模态交互的跨模态检索方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Neural Architecture Search for Transformers: A Survey;Krishna Teja Chitty-Venkata等;IEEE Access;第10卷;108374 - 108412 *

Also Published As

Publication number Publication date
CN115661594A (zh) 2023-01-31

Similar Documents

Publication Publication Date Title
CN115661594B (zh) 一种基于对齐和融合的图文多模态特征表示方法和系统
RU2691214C1 (ru) Распознавание текста с использованием искусственного интеллекта
CN111160343A (zh) 一种基于Self-Attention的离线数学公式符号识别方法
CN111738169B (zh) 一种基于端对端网络模型的手写公式识别方法
CN114821196A (zh) 零样本图像识别方法及其识别装置、介质与计算机终端
CN116304984A (zh) 基于对比学习的多模态意图识别方法及系统
CN116842944A (zh) 一种基于词增强的实体关系抽取方法及装置
Joren et al. Learning document graphs with attention for image manipulation detection
CN114092931B (zh) 场景文字识别方法、装置、电子设备及存储介质
CN115186683B (zh) 一种基于跨模态翻译的属性级多模态情感分类方法
CN114691895B (zh) 一种基于指针网络的刑事案情实体关系联合抽取方法
Ghosh et al. A light-weight natural scene text detection and recognition system
JP2023017759A (ja) セマンティック増強に基づく画像識別モデルのトレーニング方法およびトレーニング装置
CN115270792A (zh) 一种医疗实体识别方法及装置
CN115203415A (zh) 一种简历文档信息提取方法及相关装置
CN114707518A (zh) 面向语义片段的目标情感分析方法、装置、设备及介质
CN114330237A (zh) 一种基于嵌套编-解码网络的中文字体生成方法及系统
CN113688843A (zh) 一种基于Transformer-VAE的零样本目标识别方法
CN116704272A (zh) 用于医学视觉-语言多模态任务的文本嵌入表示方法及系统
CN116824308B (zh) 图像分割模型训练方法与相关方法、装置、介质及设备
RU2792743C1 (ru) Идентификация используемых в документах систем письма
CN117421631A (zh) 基于多模态融合的金融违规检测方法、装置、设备及介质
CN117373043A (zh) 图片信息抽取方法和装置、电子设备、存储介质
Zhi et al. A Feature Refinement Patch Embedding-Based Recognition Method for Printed Tibetan Cursive Script
CN117333886A (zh) 为图像匹配规则文本的方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant