CN116431849A - 一种基于证据学习的鲁棒图文检索方法 - Google Patents

一种基于证据学习的鲁棒图文检索方法 Download PDF

Info

Publication number
CN116431849A
CN116431849A CN202310369406.6A CN202310369406A CN116431849A CN 116431849 A CN116431849 A CN 116431849A CN 202310369406 A CN202310369406 A CN 202310369406A CN 116431849 A CN116431849 A CN 116431849A
Authority
CN
China
Prior art keywords
matrix
text
image
data set
evidence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310369406.6A
Other languages
English (en)
Other versions
CN116431849B (zh
Inventor
胡鹏
秦阳
李源
彭德中
彭玺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan University
Original Assignee
Sichuan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan University filed Critical Sichuan University
Priority to CN202310369406.6A priority Critical patent/CN116431849B/zh
Publication of CN116431849A publication Critical patent/CN116431849A/zh
Application granted granted Critical
Publication of CN116431849B publication Critical patent/CN116431849B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • G06F16/535Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5846Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • G06N3/0442Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明公开了一种基于证据学习的鲁棒图文检索方法,包括以下步骤:处理包括图像和对应文本描述的训练数据集,得到处理后的训练数据集;根据处理后的训练数据集构建基于证据学习的鲁棒图文检索模型;向鲁棒图文检索模型输入检索数据模态,并计算数据相似性;根据计算的数据相似性进行相似性排序,输出图文检索结果,本发明解决了图文检索方法的鲁棒性差的问题。

Description

一种基于证据学习的鲁棒图文检索方法
技术领域
本发明涉及跨模态检索领域,具体地说,涉及一种基于证据学习的鲁棒图文检索方法。
背景技术
现有跨模态检索在方法上主要分为两大类,第一类是实值表示学习,其特点在于另一类直接对从不同模态提取到的特征进行学习,第二类是二值表示学习,其特点在于对从不同模态提取到的特征先映射到汉明二值空间,然后在此空间中进行学习。
然而上述方法有以下问题:即使使用大量且完整准确的数据进行训练,在面对一对多问题,比如要用多条不同的语句表达一张图像,或者使用多张不同的图像描绘一句话时,无法判断其给出的若干检索结果是否满足检索要求。
发明内容
针对现有技术中的上述不足,本发明提供的一种基于证据学习的鲁棒图文检索方法解决了图文检索方法的鲁棒性差的问题。
为了达到上述发明目的,本发明采用的技术方案为:提供一种基于证据学习的鲁棒图文检索方法,包括以下步骤:
S1、处理包括图像和对应文本描述的训练数据集,得到处理后的训练数据集;
S2、根据处理后的训练数据集构建基于证据学习的鲁棒图文检索模型;
S3、向鲁棒图文检索模型输入检索数据模态,并计算数据相似性;
S4、根据计算的数据相似性进行相似性排序,输出图文检索结果。
进一步地:所述步骤S1包括以下分步骤:
S11、确定训练数据集中的图像-文本对的数目K;
S12、将训练数据集中所有的图像数据转换为三通道的RGB图,得到处理后的图像数据集;
S13、将训练数据集中的每一段文本划分为单词或词组,并删除文本介词、连词和助词,将每一个词转换为数字编号,记录总长度Z,将训练集中每一段文本均转换成Z维向量,得到处理后的文本数据集;
S14、将处理后的图像数据集和处理后的文本数据集作为处理后的训练数据集。
进一步地:所述步骤S2包括以下分步骤:
S21、使用Faster RCNN构建图像预训练网络,并将理后的图像数据集输入图像预训练网络,并将其展平为一维向量,获得图像矩阵V’,其维度为K行P列其每一行对应一张图像的预训练向量;
S22、使用Bi-GRU网络构建文本预训练网络,将处理后的文本数据集输入图像预训练网络将其展平为一维向量,获得文本矩阵T’,其维度为K行Q列,其每一行对应一段文本的预训练向量;
S23、使用VSE++构建将不同模态的数据映射到相同空间的网络VSE,并设定其输出为D维向量;
S24、将图像矩阵V’和文本矩阵T’输入到网络VSE,获得其对应的图像特征矩阵V和文本特征矩阵T,其中V和T均为K行D列矩阵;
S25、计算图像特征矩阵V和文本特征矩阵T的相似矩阵S,并计算证据矩阵E;
S26、根据证据矩阵E计算迪利克雷分布参数矩阵α;
S27、根据迪利克雷分布参数矩阵α,计算不确定度损失函数Lce和一致性损失函数Lkl
S28、采用Adam优化器训练不确定度损失函数Lce和一致性损失函数Lkl,完成图文检索模型的构建。
进一步地:所述步骤S25中相似矩阵S和证据矩阵E的计算公式如下:
Figure BDA0004168144410000031
Figure BDA0004168144410000032
其中,S为相似矩阵,||*||为二范数计算式,E为证据矩阵,Τ为矩阵的转置,τ∈(0,1)为定参数,·为点乘符号。
进一步地:所述步骤S26中迪利克雷分布参数矩阵α的计算公式如下:
α=E+L
其中,α为迪利克雷分布参数矩阵,其每一行为迪利克雷分布的参数,L为数据元素全为1的矩阵,其行列数与证据矩阵E相同。
进一步地:所述步骤S27中不确定度损失函数Lce和一致性损失函数Lkl的计算公式如下:
Figure BDA0004168144410000033
Figure BDA0004168144410000034
Figure BDA0004168144410000035
Figure BDA0004168144410000036
其中,i,j均为计数参数,αi为迪利克雷分布参数矩阵α第i行,αij为迪利克雷分布参数矩阵α第i行第j列,ψ(.)为双伽马函数,Γ(.)为伽马函数,
Figure BDA0004168144410000041
为K阶单位矩阵的第i行,⊙为Hadamard乘积,B(.)为beta函数,/>
Figure BDA0004168144410000042
中间矩阵/>
Figure BDA0004168144410000043
的第i行,O为每个维度都为1的K维向量;/>
Figure BDA0004168144410000044
为/>
Figure BDA0004168144410000045
每一列元素之和,/>
Figure BDA0004168144410000046
为/>
Figure BDA0004168144410000047
的第j列元素,/>
Figure BDA0004168144410000048
为/>
Figure BDA0004168144410000049
的第k列元素。
进一步地:所述步骤S3包括以下分步骤:
S31、向鲁棒图文检索模型输入拟匹配的输出结果个数M和待检索数据模态;
S32、输入数据模态为待检索数据模态的待匹配数据,计算其余数据检索库中所有数据的相似性。
进一步地:所述步骤S4的方法为:根据计算的数据相似性进行相似性排序,获得M个相似性最高的匹配结果并输出,完成检索。
本发明的有益效果为:
1.与现有技术相比,可以捕获预测结果的不确定性;
2.与现有技术相比,加强了图文检索方法的鲁棒性,具有高可靠性和准确性。
附图说明
图1为本发明所述的图文检索方法流程图。
具体实施方式
下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
如图1所示,在本发明的一个实施例中,提供了一种基于证据学习的鲁棒图文检索方法,包括以下步骤:
S1、处理包括图像和对应文本描述的训练数据集,得到处理后的训练数据集;
S2、根据处理后的训练数据集构建基于证据学习的鲁棒图文检索模型;
S3、向鲁棒图文检索模型输入检索数据模态,并计算数据相似性;
S4、根据计算的数据相似性进行相似性排序,输出图文检索结果。
在本实施例中,所述步骤S1包括以下分步骤:
S11、确定训练数据集中的图像-文本对的数目K;
S12、将训练数据集中所有的图像数据转换为三通道的RGB图,得到处理后的图像数据集;
S13、将训练数据集中的每一段文本划分为单词或词组,并删除文本介词、连词和助词,将每一个词转换为数字编号,记录总长度Z,将训练集中每一段文本均转换成Z维向量,得到处理后的文本数据集;
S14、将处理后的图像数据集和处理后的文本数据集作为处理后的训练数据集。
在本实施例中,所述步骤S2包括以下分步骤:
S21、使用Faster RCNN构建图像预训练网络,并将理后的图像数据集输入图像预训练网络,并将其展平为一维向量,获得图像矩阵V’,其维度为K行P列其每一行对应一张图像的预训练向量;
S22、使用Bi-GRU网络构建文本预训练网络,将处理后的文本数据集输入图像预训练网络将其展平为一维向量,获得文本矩阵T’,其维度为K行Q列,其每一行对应一段文本的预训练向量;
S23、使用VSE++构建将不同模态的数据映射到相同空间的网络VSE,并设定其输出为D维向量;
S24、将图像矩阵V’和文本矩阵T’输入到网络VSE,获得其对应的图像特征矩阵V和文本特征矩阵T,其中V和T均为K行D列矩阵;
S25、计算图像特征矩阵V和文本特征矩阵T的相似矩阵S,并计算证据矩阵E,计算公式如下:
Figure BDA0004168144410000061
Figure BDA0004168144410000062
其中,S为相似矩阵,||*||为二范数计算式,E为证据矩阵,Τ为矩阵的转置,τ∈(0,1)为定参数,·为点乘符号;
S26、根据证据矩阵E计算迪利克雷分布参数矩阵α,其计算公式为:
α=E+L
其中,α为迪利克雷分布参数矩阵,其每一行为迪利克雷分布的参数,L为数据元素全为1的矩阵,其行列数与证据矩阵E相同;
S27、根据迪利克雷分布参数矩阵α,计算不确定度损失函数Lce和一致性损失函数Lkl,其计算公式如下:
Figure BDA0004168144410000063
Figure BDA0004168144410000064
Figure BDA0004168144410000065
Figure BDA0004168144410000066
其中,i,j均为计数参数,αi为迪利克雷分布参数矩阵α第i行,αij为迪利克雷分布参数矩阵α第i行第j列,ψ(.)为双伽马函数,Γ(.)为伽马函数,
Figure BDA0004168144410000071
为K阶单位矩阵的第i行,⊙为Hadamard乘积,B(.)为beta函数,/>
Figure BDA0004168144410000072
中间矩阵/>
Figure BDA0004168144410000073
的第i行,O为每个维度都为1的K维向量;/>
Figure BDA0004168144410000074
为/>
Figure BDA0004168144410000075
每一列元素之和,/>
Figure BDA0004168144410000076
为/>
Figure BDA0004168144410000077
的第j列元素,/>
Figure BDA0004168144410000078
为/>
Figure BDA0004168144410000079
的第k列元素;
S28、采用Adam优化器训练不确定度损失函数Lce和一致性损失函数Lkl,完成图文检索模型的构建。
在本实施例中,所述步骤S3包括以下分步骤:
S31、向鲁棒图文检索模型输入拟匹配的输出结果个数M和待检索数据模态;
S32、输入数据模态为待检索数据模态的待匹配数据,计算其余数据检索库中所有数据的相似性。
在本实施例中,所述步骤S4的方法为:根据计算的数据相似性进行相似性排序,获得M个相似性最高的匹配结果并输出,完成检索。
在本发明的描述中,需要理解的是,术语“中心”、“厚度”、“上”、“下”、“水平”、“顶”、“底”、“内”、“外”、“径向”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的设备或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性或隐含指明的技术特征的数量。因此,限定由“第一”、“第二”、“第三”的特征可以明示或隐含地包括一个或者更多个该特征。
本发明提供了一种基于证据学习的鲁棒图文检索方法,解决了图文检索方法的鲁棒性差的问题。

Claims (8)

1.一种基于证据学习的鲁棒图文检索方法,其特征在于,包括以下步骤:
S1、处理包括图像和对应文本描述的训练数据集,得到处理后的训练数据集;
S2、根据处理后的训练数据集构建基于证据学习的鲁棒图文检索模型;
S3、向鲁棒图文检索模型输入检索数据模态,并计算数据相似性;
S4、根据计算的数据相似性进行相似性排序,输出图文检索结果。
2.根据权利要求1所述的基于证据学习的鲁棒图文检索方法,其特征在于,所述步骤S1包括以下分步骤:
S11、确定训练数据集中的图像-文本对的数目K;
S12、将训练数据集中所有的图像数据转换为三通道的RGB图,得到处理后的图像数据集;
S13、将训练数据集中的每一段文本划分为单词或词组,并删除文本介词、连词和助词,将每一个词转换为数字编号,记录总长度Z,将训练集中每一段文本均转换成Z维向量,得到处理后的文本数据集;
S14、将处理后的图像数据集和处理后的文本数据集作为处理后的训练数据集。
3.根据权利要求2所述的基于证据学习的鲁棒图文检索方法,其特征在于,所述步骤S2包括以下分步骤:
S21、使用Faster RCNN构建图像预训练网络,并将理后的图像数据集输入图像预训练网络,并将其展平为一维向量,获得图像矩阵V’,其维度为K行P列其每一行对应一张图像的预训练向量;
S22、使用Bi-GRU网络构建文本预训练网络,将处理后的文本数据集输入图像预训练网络将其展平为一维向量,获得文本矩阵T’,其维度为K行Q列,其每一行对应一段文本的预训练向量;
S23、使用VSE++构建将不同模态的数据映射到相同空间的网络VSE,并设定其输出为D维向量;
S24、将图像矩阵V’和文本矩阵T’输入到网络VSE,获得其对应的图像特征矩阵V和文本特征矩阵T,其中V和T均为K行D列矩阵;
S25、计算图像特征矩阵V和文本特征矩阵T的相似矩阵S,并计算证据矩阵E;
S26、根据证据矩阵E计算迪利克雷分布参数矩阵α;
S27、根据迪利克雷分布参数矩阵α,计算不确定度损失函数Lce和一致性损失函数Lkl
S28、采用Adam优化器训练不确定度损失函数Lce和一致性损失函数Lkl,完成图文检索模型的构建。
4.根据权利要求3所述的基于证据学习的鲁棒图文检索方法,其特征在于,所述步骤S25中相似矩阵S和证据矩阵E的计算公式如下:
Figure FDA0004168144400000021
Figure FDA0004168144400000022
其中,S为相似矩阵,||*||为二范数计算式,E为证据矩阵,Τ为矩阵的转置,τ∈(0,1)为定参数,·为点乘符号。
5.根据权利要求4所述的基于证据学习的鲁棒图文检索方法,其特征在于,所述步骤S26中迪利克雷分布参数矩阵α的计算公式如下:
α=E+L
其中,α为迪利克雷分布参数矩阵,其每一行为迪利克雷分布的参数,L为数据元素全为1的矩阵,其行列数与证据矩阵E相同。
6.根据权利要求5所述的基于证据学习的鲁棒图文检索方法,其特征在于,所述步骤S27中不确定度损失函数Lce和一致性损失函数Lkl的计算公式如下:
Figure FDA0004168144400000031
Figure FDA0004168144400000032
Figure FDA0004168144400000033
Figure FDA0004168144400000034
其中,i,j均为计数参数,αi为迪利克雷分布参数矩阵α第i行,αij为迪利克雷分布参数矩阵α第i行第j列,ψ(.)为双伽马函数,Γ(.)为伽马函数,
Figure FDA0004168144400000035
为K阶单位矩阵的第i行,⊙为Hadamard乘积,B(.)为beta函数,/>
Figure FDA0004168144400000036
中间矩阵/>
Figure FDA0004168144400000037
的第i行,O为每个维度都为1的K维向量;
Figure FDA0004168144400000038
为/>
Figure FDA0004168144400000039
每一列元素之和,/>
Figure FDA00041681444000000310
为/>
Figure FDA00041681444000000311
的第j列元素,/>
Figure FDA00041681444000000312
为/>
Figure FDA00041681444000000313
的第k列元素。
7.根据权利要求6所述的基于证据学习的鲁棒图文检索方法,其特征在于,所述步骤S3包括以下分步骤:
S31、向鲁棒图文检索模型输入拟匹配的输出结果个数M和待检索数据模态;
S32、输入数据模态为待检索数据模态的待匹配数据,计算其余数据检索库中所有数据的相似性。
8.根据权利要求7所述的基于证据学习的鲁棒图文检索方法,其特征在于,所述步骤S4的方法为:根据计算的数据相似性进行相似性排序,获得M个相似性最高的匹配结果并输出,完成检索。
CN202310369406.6A 2023-04-07 2023-04-07 一种基于证据学习的鲁棒图文检索方法 Active CN116431849B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310369406.6A CN116431849B (zh) 2023-04-07 2023-04-07 一种基于证据学习的鲁棒图文检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310369406.6A CN116431849B (zh) 2023-04-07 2023-04-07 一种基于证据学习的鲁棒图文检索方法

Publications (2)

Publication Number Publication Date
CN116431849A true CN116431849A (zh) 2023-07-14
CN116431849B CN116431849B (zh) 2024-01-02

Family

ID=87092083

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310369406.6A Active CN116431849B (zh) 2023-04-07 2023-04-07 一种基于证据学习的鲁棒图文检索方法

Country Status (1)

Country Link
CN (1) CN116431849B (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200234086A1 (en) * 2019-01-22 2020-07-23 Honda Motor Co., Ltd. Systems for modeling uncertainty in multi-modal retrieval and methods thereof
CN112000818A (zh) * 2020-07-10 2020-11-27 中国科学院信息工程研究所 一种面向文本和图像的跨媒体检索方法及电子装置
US20210103814A1 (en) * 2019-10-06 2021-04-08 Massachusetts Institute Of Technology Information Robust Dirichlet Networks for Predictive Uncertainty Estimation
US20210117760A1 (en) * 2020-06-02 2021-04-22 Intel Corporation Methods and apparatus to obtain well-calibrated uncertainty in deep neural networks
WO2022036616A1 (zh) * 2020-08-20 2022-02-24 中山大学 一种基于低标注资源生成可推理问题的方法和装置
CN114372523A (zh) * 2021-12-31 2022-04-19 北京航空航天大学 一种基于证据深度学习的双目匹配不确定性估计方法
CN114817596A (zh) * 2022-04-14 2022-07-29 华侨大学 融合语义相似性嵌入和度量学习的跨模态图文检索方法
CN114999006A (zh) * 2022-05-20 2022-09-02 南京邮电大学 基于不确定性估计的多模态情感分析方法、装置及设备
CN115033727A (zh) * 2022-05-10 2022-09-09 中国科学技术大学 基于跨模态置信度感知的图像文本匹配方法
CN115221947A (zh) * 2022-06-22 2022-10-21 北京邮电大学 一种基于预训练语言模型的鲁棒的多模态主动学习方法
CN115455171A (zh) * 2022-11-08 2022-12-09 苏州浪潮智能科技有限公司 文本视频的互检索以及模型训练方法、装置、设备及介质

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200234086A1 (en) * 2019-01-22 2020-07-23 Honda Motor Co., Ltd. Systems for modeling uncertainty in multi-modal retrieval and methods thereof
US20210103814A1 (en) * 2019-10-06 2021-04-08 Massachusetts Institute Of Technology Information Robust Dirichlet Networks for Predictive Uncertainty Estimation
US20210117760A1 (en) * 2020-06-02 2021-04-22 Intel Corporation Methods and apparatus to obtain well-calibrated uncertainty in deep neural networks
CN112000818A (zh) * 2020-07-10 2020-11-27 中国科学院信息工程研究所 一种面向文本和图像的跨媒体检索方法及电子装置
WO2022036616A1 (zh) * 2020-08-20 2022-02-24 中山大学 一种基于低标注资源生成可推理问题的方法和装置
CN114372523A (zh) * 2021-12-31 2022-04-19 北京航空航天大学 一种基于证据深度学习的双目匹配不确定性估计方法
CN114817596A (zh) * 2022-04-14 2022-07-29 华侨大学 融合语义相似性嵌入和度量学习的跨模态图文检索方法
CN115033727A (zh) * 2022-05-10 2022-09-09 中国科学技术大学 基于跨模态置信度感知的图像文本匹配方法
CN114999006A (zh) * 2022-05-20 2022-09-02 南京邮电大学 基于不确定性估计的多模态情感分析方法、装置及设备
CN115221947A (zh) * 2022-06-22 2022-10-21 北京邮电大学 一种基于预训练语言模型的鲁棒的多模态主动学习方法
CN115455171A (zh) * 2022-11-08 2022-12-09 苏州浪潮智能科技有限公司 文本视频的互检索以及模型训练方法、装置、设备及介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
YANG QIN: "Deep Evidential Learning with Noisy Correspondence for Cross-modal Retrieval", 30TH ACM INTERNATIONAL CONFERENCE ON MULTIMEDI, pages 1 - 4 *

Also Published As

Publication number Publication date
CN116431849B (zh) 2024-01-02

Similar Documents

Publication Publication Date Title
US11775838B2 (en) Image captioning with weakly-supervised attention penalty
US8908961B2 (en) System and methods for arabic text recognition based on effective arabic text feature extraction
US8160402B2 (en) Document image processing apparatus
JP6003705B2 (ja) 情報処理装置及び情報処理プログラム
KR20110028034A (ko) 라벨 검색 방법 및 장치
CN114298035A (zh) 一种文本识别脱敏方法及其系统
JP2019153293A (ja) 人工ニューラルネットワークを用いたocrシステムのための、線認識最大−最小プーリングを用いたテキスト画像の処理
Saluja et al. Error detection and corrections in Indic OCR using LSTMs
CN101493896A (zh) 文档图像处理装置及文档图像处理方法
CN114724156B (zh) 表单识别方法、装置及电子设备
CN113159013A (zh) 基于机器学习的段落识别方法、装置、计算机设备和介质
CN115658934A (zh) 一种基于多类注意力机制的图文跨模态检索方法
CN116610803A (zh) 基于大数据的产业链优企信息管理方法及系统
CN116431849B (zh) 一种基于证据学习的鲁棒图文检索方法
CN116843175A (zh) 一种合同条款风险检查方法、系统、设备和存储介质
CN108628826B (zh) 候选词评估方法、装置、计算机设备和存储介质
CN115410185A (zh) 一种多模态数据中特定人名及单位名属性的提取方法
CN112270189A (zh) 一种提问式的分析节点生成方法、系统及存储介质
CN112434134B (zh) 搜索模型训练方法、装置、终端设备及存储介质
Soheili et al. Sub-word image clustering in Farsi printed books
Mady et al. Enhancing performance of biomedical named entity recognition
CN113553410B (zh) 长文档处理方法、处理装置、电子设备和存储介质
EP4089568A1 (en) Cascade pooling for natural language document processing
CN113850073A (zh) 文档识别方法、工程词库构建方法、电子设备及存储介质
KAZANÇ et al. Converting Image Files to LaTeX Format Using Computer Vision, Natural Language Processing, and Machine Learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant