CN115661594A - 一种基于对齐和融合的图文多模态特征表示方法和系统 - Google Patents
一种基于对齐和融合的图文多模态特征表示方法和系统 Download PDFInfo
- Publication number
- CN115661594A CN115661594A CN202211280895.XA CN202211280895A CN115661594A CN 115661594 A CN115661594 A CN 115661594A CN 202211280895 A CN202211280895 A CN 202211280895A CN 115661594 A CN115661594 A CN 115661594A
- Authority
- CN
- China
- Prior art keywords
- image
- text
- data
- modal
- alignment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Image Processing (AREA)
Abstract
本发明公开了一种基于对齐和融合的图文多模态特征表示方法和系统,属于多模态学习领域。包括:对获取到的图像文本数据进行预处理;将预处理后图像数据、文本数据输入至不同的模型,抽取出不同模态特征;通过线性映射将不同模态的特征数据对齐到相同的语义空间中;将对齐后的图像文本特征输入至深层联合自编码模型,得到图文多模态特征,深层联合自编码模型的每一层进行交叉注意力。本发明先通过线性映射层将图片特征向量和文本特征向量都映射到相同的嵌入特征维度,能够快速找到不同模态实体与实体之间的关联关系;再进行跨模态交互,获得了更细粒度的语义区分能力,二者相辅相成,有效地利用多模态数据,从而使得预测结果精度更高。
Description
技术领域
本发明属于多模态学习领域,更具体地,涉及一种基于对齐和融合的图文多模态特征表示方法和系统。
背景技术
2021年,OpenAI提出的CLIP模型,不同模态有各自的编码器,文本数据经过文本Embedding层后被输入到Transformer编码器中提取特征信息,图片数据则使用VisionTransformer作为图片编码其提取特征,然后将文本和图像特征表示直接经过线性投影到统一的多模态编码空间中,计算模态间相似度完成图文匹配任务,CLIP模型最出彩的地方是通过海量数据,不断挖掘预训练模型的潜力,使其具备很强的zero-shot的能力。
然而,它们虽然在对比学习任务上表现优异,但图像文本之间缺乏交互,因此不能满足一些细粒度的图文匹配需求,物体、物体属性、物体之间的关系这些细粒度的语义对于精准理解一些真实视觉场景是至关重要的。比如输入一张帆船的图片作为图像数据,输入文本的为“车、船、火车、飞机”进行测试时,模型可以准确识别出照片对应的文本标签为船而且准确率一般都会很高,大概有95%的精度。但是如果换成细粒度任务,比如再对船只类型进行细分的识别任务,一般的模型测试的效果就明显变差了。如输入一张游艇的图片作为图像数据,输入文本的为“客船、货船、帆船、游艇”进行测试时,模型对看到“船”的字眼的标签给了比较高的匹配概率,导致识别的结果出现了错误。再比如在一个港口船舶图片中去找“白色帆船”和“黑色游艇”,双塔模型并不能理解“白色帆船”、“黑色游艇”这两个概念,而是单独对“白色”“黑色”和“帆船”“游艇”这两个属性进行了组合,导致其可能会返回“白色游艇”这样的错误结果。
发明内容
针对现有技术的缺陷,本发明的目的在于提供一种基于对齐和融合的图文多模态特征表示方法和系统,旨在解决现有多模态特征表示方法中图像文本之间缺乏交互,无法满足细粒度图文匹配需求的问题。
为实现上述目的,第一方面,本发明提供了一种基于对齐和融合的图文多模态特征表示方法,该方法包括:
S1.对获取到的图像文本数据进行预处理;
S2.将预处理后图像数据、文本数据输入至不同的模型,抽取出不同模态特征;
S3.通过线性映射将不同模态的特征数据对齐到相同的语义空间中;
S4.将对齐后的图像文本特征输入至深层联合自编码模型,得到图文多模态特征,所述深层联合自编码模型的每一层进行交叉注意力。
优选地,步骤S1中,图像数据的预处理包括:
(1)对输入的图像进行缩放和中心裁剪,使得图像尺寸统一;
(2)采用加入高斯噪声、修改亮度、对比度、饱和度或者色调中的至少一种方法,对图像进行增强;
(3)将图像从0到255的值映射到0到1的范围内,转化成张量格式;
(4)用均值和标准差归一化张量图像。
优选地,步骤S1中,文本数据的预处理包括:
1)利用Ftfy.fix_text整理乱码数据;
2)对每个句子进行分词,将一个句子划分成若干个词,转换为一个词的序列;
3)查找字典以将字符串转换为数字,所述字典中每个词映射到一个唯一的索引编号。
优选地,步骤S2中,图像这一模态使用改进后的ResNet50提取特征;所述改进后的ResNet50用一个QKV注意力池化层来代替最后的平均池化层,所述QKV注意力池化层由一层Transformer形式的多头QKV注意力构成。
优选地,步骤S2中,文本这一模态,对预处理后的文本,用one-hot编码进行词向量编码,基于位置向量嵌入方法生成位置编码,将词向量和位置编码直接相加,输入至基于注意力机制的Transformer编码器中,以提取特征。
优选地,步骤S3中,对得到的图像文本特征向量进行标准化,以将数据按照比例缩放使之放到一个特定的区间中。
优选地,该方法应用于船舶类型识别,所述图像数据包括客船、拖船、油船、帆船、游艇、货船不同类型的船舶图像,所述文本数据包括船舶名称、类型、IMO编号、航行轨迹。
优选地,训练阶段,将所有对齐融合后的文本和图像特征分别计算内积,得到一个矩阵;计算图像文本匹配的概率,通过Softmax进行归一化操作,得到所有标签概率的和为1。
优选地,模态间的余弦相似度计算公式如下:
其中,I表示图像,T表示文本数据,fI表示图像特征,fT表示文本特征,SI,T表示模态间的余弦相似度。
为实现上述目的,第二方面,本发明提供了一种基于对齐和融合的图文多模态特征表示系统,包括处理器和存储器;所述存储器,用于存储计算机执行指令;所述处理器,用于执行所述计算机执行指令,使得第一方面所述的方法被执行。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,具有以下有益效果:
本发明提出了一种基于对齐和融合的图文多模态特征表示方法和系统,先通过线性映射层将图片特征向量和文本特征向量都映射到相同的嵌入特征维度,即对齐到相同的语义空间中,能够快速找到不同模态实体与实体之间的关联关系;再进行跨模态交互,获得了更细粒度的语义区分能力,二者相辅相成,有效地利用多模态数据,从而使得预测结果精度更高。
附图说明
图1为本发明提供的一种基于对齐和融合的图文多模态特征表示方法流程图。
图2为本发明提供的改进后的ResNet50总体结构示意图。
图3为本发明提供的深层联合自编码模型示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
图1为本发明提供的一种基于对齐和融合的图文多模态特征表示方法流程图。如图1所示,该方法包括:。
步骤S1.对获取到的图像文本数据进行预处理。
优选地,步骤S1中,图像数据的预处理包括:
(1)对输入的图像进行缩放和中心裁剪,使得图像尺寸统一;
(2)采用加入高斯噪声、修改亮度、对比度、饱和度或者色调中的至少一种方法,对图像进行增强;
(3)将图像从0到255的值映射到0到1的范围内,转化成张量格式;
(4)用均值和标准差归一化张量图像。
优选地,步骤S1中,文本数据的预处理包括:
1)利用Ftfy.fix_text整理乱码数据;
2)对每个句子进行分词,将一个句子划分成若干个词,转换为一个词的序列;
3)查找字典以将字符串转换为数字,所述字典中每个词映射到一个唯一的索引编号。
步骤S2.将预处理后图像数据、文本数据输入至不同的模型,抽取出不同模态特征。
优选地,步骤S2中,图像这一模态使用改进后的ResNet50提取特征;图2为本发明提供的改进后的ResNet50总体结构示意图。如图2所示,所述改进后的ResNet50用一个QKV注意力池化层来代替最后的平均池化层,所述QKV注意力池化层由一层Transformer形式的多头QKV注意力构成。
优选地,步骤S2中,文本这一模态,对预处理后的文本,用one-hot编码进行词向量编码,基于位置向量嵌入方法生成位置编码,将词向量和位置编码直接相加,输入至基于注意力机制的Transformer编码器中,以提取特征。
所述基于位置向量嵌入方法生成位置编码,公式如下:
其中,PE为二维矩阵,大小跟输入Embedding的维度一样;pos是单词在句子中的位置,取值为0到最大序列长度-1之间的整数,比如“[cls]我喜欢看书[sep]”是7个token组成的序列,“书”的pos值为5;i为词向量的位置;dmodel为词向量的维度。上述公式分别表示在每个词语的词向量的偶数位置2i使用正弦函数编码,奇数位置2i+1使用余弦函数编码。将位置编码信息加到词向量编码中去,这样位置编码的引入就完成了。
步骤S3.通过线性映射将不同模态的特征数据对齐到相同的语义空间中。
优选地,步骤S3中,对得到的图像文本特征向量进行标准化,以将数据按照比例缩放使之放到一个特定的区间中。
步骤S4.将对齐后的图像文本特征输入至深层联合自编码模型,得到图文多模态特征,所述深层联合自编码模型的每一层进行交叉注意力。
图3为本发明提供的深层联合自编码模型示意图。本发明中多模态编码器使用基于Bert的框架,在编码器的每一层进行交叉注意力从而实现跨模态交互。此处特征融合使用如图3所示的深层联合自编码模型,将两个模态的特征用两个线性层将特征转化为相同的维度,然后相加,最后再将二者还原回去。
优选地,该方法应用于船舶类型识别,所述图像数据包括客船、拖船、油船、帆船、游艇、货船不同类型的船舶图像,所述文本数据包括船舶名称、类型、IMO编号、航行轨迹。
本发明从图像和文字的图文多模态表征学习入手,用多模态预训练模型对船舶的图片文本数据进行语义特征提取、对齐、中间融合,计算模态间的相似度得到准确的分类结果从而实现对船舶类型的准确识别。
优选地,训练阶段,将所有对齐融合后的文本和图像特征分别计算内积,得到一个矩阵;计算图像文本匹配的概率,通过Softmax进行归一化操作,得到所有标签概率的和为1。
优选地,模态间的余弦相似度计算公式如下:
其中,I表示图像,T表示文本数据,fI表示图像特征,fT表示文本特征,SI,T表示模态间的余弦相似度。
图片和文本匹配的概率为:
其中,τ是可学习的温度参数它可以调整数值范围,在计算概率时使用温度参数会有利于模型的收敛。
用yi和yt表示真实的标签,用交叉熵损失计算图文匹配损失函数如下:
本发明还提供了一种基于对齐和融合的图文多模态特征表示系统,包括处理器和存储器;所述存储器,用于存储计算机执行指令;所述处理器,用于执行所述计算机执行指令,使得上述方法被执行。
相较于未进行对齐、融合的模型的预测结果,本方法有效地利用多模态数据从而使得预测结果精度更高,对不同类型的船舶平均识别精确度提升到90%以上,而且经过模态的交互,细粒度的图文匹配也能取得比较好的结果。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于对齐和融合的图文多模态特征表示方法,其特征在于,该方法包括:
S1.对获取到的图像文本数据进行预处理;
S2.将预处理后图像数据、文本数据输入至不同的模型,抽取出不同模态特征;
S3.通过线性映射将不同模态的特征数据对齐到相同的语义空间中;
S4.将对齐后的图像文本特征输入至深层联合自编码模型,得到图文多模态特征,所述深层联合自编码模型的每一层进行交叉注意力。
2.如权利要求1所述的方法,其特征在于,步骤S1中,图像数据的预处理包括:
(1)对输入的图像进行缩放和中心裁剪,使得图像尺寸统一;
(2)采用加入高斯噪声、修改亮度、对比度、饱和度或者色调中的至少一种方法,对图像进行增强;
(3)将图像从0到255的值映射到0到1的范围内,转化成张量格式;
(4)用均值和标准差归一化张量图像。
3.如权利要求1所述的方法,其特征在于,步骤S1中,文本数据的预处理包括:
1)利用Ftfy.fix_text整理乱码数据;
2)对每个句子进行分词,将一个句子划分成若干个词,转换为一个词的序列;
3)查找字典以将字符串转换为数字,所述字典中每个词映射到一个唯一的索引编号。
4.如权利要求1所述的方法,其特征在于,步骤S2中,图像这一模态使用改进后的ResNet50提取特征;所述改进后的ResNet50用一个QKV注意力池化层来代替最后的平均池化层,所述QKV注意力池化层由一层Transformer形式的多头QKV注意力构成。
5.如权利要求1所述的方法,其特征在于,步骤S2中,文本这一模态,对预处理后的文本,用one-hot编码进行词向量编码,基于位置向量嵌入方法生成位置编码,将词向量和位置编码直接相加,输入至基于注意力机制的Transformer编码器中,以提取特征。
6.如权利要求1所述的方法,其特征在于,步骤S3中,对得到的图像文本特征向量进行标准化,以将数据按照比例缩放使之放到一个特定的区间中。
7.如权利要求1至6任一项所述的方法,其特征在于,该方法应用于船舶类型识别,所述图像数据包括客船、拖船、油船、帆船、游艇、货船不同类型的船舶图像,所述文本数据包括船舶名称、类型、IMO编号、航行轨迹。
8.如权利要求7所述的方法,其特征在于,训练阶段,将所有对齐融合后的文本和图像特征分别计算内积,得到一个矩阵;计算图像文本匹配的概率,通过Softmax进行归一化操作,得到所有标签概率的和为1。
10.一种基于对齐和融合的图文多模态特征表示系统,其特征在于,包括处理器和存储器;
所述存储器,用于存储计算机执行指令;
所述处理器,用于执行所述计算机执行指令,使得权利要求1至9任一项所述的方法被执行。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211280895.XA CN115661594B (zh) | 2022-10-19 | 2022-10-19 | 一种基于对齐和融合的图文多模态特征表示方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211280895.XA CN115661594B (zh) | 2022-10-19 | 2022-10-19 | 一种基于对齐和融合的图文多模态特征表示方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115661594A true CN115661594A (zh) | 2023-01-31 |
CN115661594B CN115661594B (zh) | 2023-08-18 |
Family
ID=84989186
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211280895.XA Active CN115661594B (zh) | 2022-10-19 | 2022-10-19 | 一种基于对齐和融合的图文多模态特征表示方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115661594B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116702091A (zh) * | 2023-06-21 | 2023-09-05 | 中南大学 | 基于多视图clip的多模态讽刺意图识别方法、装置和设备 |
CN116796251A (zh) * | 2023-08-25 | 2023-09-22 | 江苏省互联网行业管理服务中心 | 一种基于图文多模态的不良网站分类方法、系统及设备 |
CN117150381A (zh) * | 2023-08-07 | 2023-12-01 | 中国船舶集团有限公司第七〇九研究所 | 一种目标功能群识别及其模型训练方法 |
CN117421641A (zh) * | 2023-12-13 | 2024-01-19 | 深圳须弥云图空间科技有限公司 | 一种文本分类的方法、装置、电子设备及可读存储介质 |
Citations (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105512245A (zh) * | 2015-11-30 | 2016-04-20 | 青岛智能产业技术研究院 | 一种基于回归模型建立企业画像的方法 |
CN109783827A (zh) * | 2019-01-31 | 2019-05-21 | 沈阳雅译网络技术有限公司 | 一种基于动态线性聚合的深层神经机器翻译方法 |
CN110097528A (zh) * | 2019-04-11 | 2019-08-06 | 江南大学 | 一种基于联合卷积自编码网络的图像融合方法 |
CN112966127A (zh) * | 2021-04-07 | 2021-06-15 | 北方民族大学 | 一种基于多层语义对齐的跨模态检索方法 |
US20210192140A1 (en) * | 2019-12-18 | 2021-06-24 | Microsoft Technology Licensing, Llc | Controllable grounded text generation |
CN113378989A (zh) * | 2021-07-06 | 2021-09-10 | 武汉大学 | 基于复式协同结构特征重组网络的多模态数据融合方法 |
CN113761197A (zh) * | 2021-07-29 | 2021-12-07 | 中国科学院计算机网络信息中心 | 一种可利用专家知识的申请书多标签层次分类方法 |
CN113971209A (zh) * | 2021-12-22 | 2022-01-25 | 松立控股集团股份有限公司 | 一种基于注意力机制增强的无监督跨模态检索方法 |
CN114118111A (zh) * | 2021-11-26 | 2022-03-01 | 昆明理工大学 | 融合文本和图片特征的多模态机器翻译方法 |
CN114186056A (zh) * | 2021-12-14 | 2022-03-15 | 广州华多网络科技有限公司 | 商品标签标注方法及其装置、设备、介质、产品 |
CN114464247A (zh) * | 2022-01-30 | 2022-05-10 | 腾讯科技(深圳)有限公司 | 基于抗原和抗体序列的结合亲和力预测方法和装置 |
CN114692633A (zh) * | 2020-12-31 | 2022-07-01 | Tcl科技集团股份有限公司 | 一种命名实体识别方法、终端以及存储介质 |
CN114818708A (zh) * | 2022-04-20 | 2022-07-29 | 北京百度网讯科技有限公司 | 关键信息抽取方法、模型训练方法、相关装置及电子设备 |
CN114911914A (zh) * | 2022-04-24 | 2022-08-16 | 中国电子科技集团公司第五十四研究所 | 一种跨模态图文检索方法 |
CN115017358A (zh) * | 2022-08-09 | 2022-09-06 | 南京理工大学 | 一种多模态交互的跨模态检索方法及系统 |
CN115115913A (zh) * | 2022-06-02 | 2022-09-27 | 北京科技大学 | 一种数据处理方法、装置、电子设备及存储介质 |
US20220327809A1 (en) * | 2021-07-12 | 2022-10-13 | Beijing Baidu Netcom Science Technology Co., Ltd. | Method, device and storage medium for training model based on multi-modal data joint learning |
-
2022
- 2022-10-19 CN CN202211280895.XA patent/CN115661594B/zh active Active
Patent Citations (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105512245A (zh) * | 2015-11-30 | 2016-04-20 | 青岛智能产业技术研究院 | 一种基于回归模型建立企业画像的方法 |
CN109783827A (zh) * | 2019-01-31 | 2019-05-21 | 沈阳雅译网络技术有限公司 | 一种基于动态线性聚合的深层神经机器翻译方法 |
CN110097528A (zh) * | 2019-04-11 | 2019-08-06 | 江南大学 | 一种基于联合卷积自编码网络的图像融合方法 |
US20210192140A1 (en) * | 2019-12-18 | 2021-06-24 | Microsoft Technology Licensing, Llc | Controllable grounded text generation |
CN114692633A (zh) * | 2020-12-31 | 2022-07-01 | Tcl科技集团股份有限公司 | 一种命名实体识别方法、终端以及存储介质 |
CN112966127A (zh) * | 2021-04-07 | 2021-06-15 | 北方民族大学 | 一种基于多层语义对齐的跨模态检索方法 |
CN113378989A (zh) * | 2021-07-06 | 2021-09-10 | 武汉大学 | 基于复式协同结构特征重组网络的多模态数据融合方法 |
US20220327809A1 (en) * | 2021-07-12 | 2022-10-13 | Beijing Baidu Netcom Science Technology Co., Ltd. | Method, device and storage medium for training model based on multi-modal data joint learning |
CN113761197A (zh) * | 2021-07-29 | 2021-12-07 | 中国科学院计算机网络信息中心 | 一种可利用专家知识的申请书多标签层次分类方法 |
CN114118111A (zh) * | 2021-11-26 | 2022-03-01 | 昆明理工大学 | 融合文本和图片特征的多模态机器翻译方法 |
CN114186056A (zh) * | 2021-12-14 | 2022-03-15 | 广州华多网络科技有限公司 | 商品标签标注方法及其装置、设备、介质、产品 |
CN113971209A (zh) * | 2021-12-22 | 2022-01-25 | 松立控股集团股份有限公司 | 一种基于注意力机制增强的无监督跨模态检索方法 |
CN114464247A (zh) * | 2022-01-30 | 2022-05-10 | 腾讯科技(深圳)有限公司 | 基于抗原和抗体序列的结合亲和力预测方法和装置 |
CN114818708A (zh) * | 2022-04-20 | 2022-07-29 | 北京百度网讯科技有限公司 | 关键信息抽取方法、模型训练方法、相关装置及电子设备 |
CN114911914A (zh) * | 2022-04-24 | 2022-08-16 | 中国电子科技集团公司第五十四研究所 | 一种跨模态图文检索方法 |
CN115115913A (zh) * | 2022-06-02 | 2022-09-27 | 北京科技大学 | 一种数据处理方法、装置、电子设备及存储介质 |
CN115017358A (zh) * | 2022-08-09 | 2022-09-06 | 南京理工大学 | 一种多模态交互的跨模态检索方法及系统 |
Non-Patent Citations (3)
Title |
---|
KRISHNA TEJA CHITTY-VENKATA等: "Neural Architecture Search for Transformers: A Survey", IEEE ACCESS, vol. 10, pages 108374, XP093043031, DOI: 10.1109/ACCESS.2022.3212767 * |
刘明童等: "联合自编码任务的多机制融合复述生成模型", 《北京大学学报(自然科学版)》, vol. 56, no. 1, pages 53 - 60 * |
李霞;马骏腾;覃世豪;: "融合图像注意力的多模态机器翻译模型", 中文信息学报, no. 07, pages 72 - 82 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116702091A (zh) * | 2023-06-21 | 2023-09-05 | 中南大学 | 基于多视图clip的多模态讽刺意图识别方法、装置和设备 |
CN116702091B (zh) * | 2023-06-21 | 2024-03-08 | 中南大学 | 基于多视图clip的多模态讽刺意图识别方法、装置和设备 |
CN117150381A (zh) * | 2023-08-07 | 2023-12-01 | 中国船舶集团有限公司第七〇九研究所 | 一种目标功能群识别及其模型训练方法 |
CN116796251A (zh) * | 2023-08-25 | 2023-09-22 | 江苏省互联网行业管理服务中心 | 一种基于图文多模态的不良网站分类方法、系统及设备 |
CN117421641A (zh) * | 2023-12-13 | 2024-01-19 | 深圳须弥云图空间科技有限公司 | 一种文本分类的方法、装置、电子设备及可读存储介质 |
CN117421641B (zh) * | 2023-12-13 | 2024-04-16 | 深圳须弥云图空间科技有限公司 | 一种文本分类的方法、装置、电子设备及可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN115661594B (zh) | 2023-08-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115661594B (zh) | 一种基于对齐和融合的图文多模态特征表示方法和系统 | |
CN111985239B (zh) | 实体识别方法、装置、电子设备及存储介质 | |
CN113076441A (zh) | 关键词抽取方法、装置、电子设备及计算机可读存储介质 | |
CN113837102B (zh) | 图文融合分类方法及其装置、设备、介质、产品 | |
CN111160348A (zh) | 自然场景的文本识别方法、存储装置和计算机设备 | |
CN116304984A (zh) | 基于对比学习的多模态意图识别方法及系统 | |
CN111507250B (zh) | 图像识别方法、设备及存储介质 | |
CN113191355A (zh) | 文本图像合成方法、装置、设备及存储介质 | |
Wu et al. | A neural network model for text detection in chinese drug package insert | |
CN116842944A (zh) | 一种基于词增强的实体关系抽取方法及装置 | |
CN114092931B (zh) | 场景文字识别方法、装置、电子设备及存储介质 | |
Joren et al. | Learning document graphs with attention for image manipulation detection | |
CN114548325B (zh) | 基于对偶对比学习的零样本关系抽取方法和系统 | |
Vankadaru et al. | Text Identification from Handwritten Data using Bi-LSTM and CNN with FastAI | |
CN116168379A (zh) | 自监督注意力的文本识别方法、装置、设备及介质 | |
CN115546577A (zh) | 一种多模态数据集的数据增强方法及装置 | |
CN112926373B (zh) | 字符的视觉感知编码 | |
CN114707518A (zh) | 面向语义片段的目标情感分析方法、装置、设备及介质 | |
Cai et al. | FE-YOLO: YOLO ship detection algorithm based on feature fusion and feature enhancement | |
CN112784838A (zh) | 一种基于局部敏感哈希网络的汉明ocr识别方法 | |
Gao et al. | Ship object detection in one-stage framework based on Swin-Transformer | |
RU2792743C1 (ru) | Идентификация используемых в документах систем письма | |
CN116597437B (zh) | 融合双层注意力网络的端到端老挝车牌照识别方法及装置 | |
CN113033518B (zh) | 图像检测方法、装置、电子设备及存储介质 | |
Le Xuan et al. | Vietnamese text detection, recognition and classification in images |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |