CN115033727A - 基于跨模态置信度感知的图像文本匹配方法 - Google Patents
基于跨模态置信度感知的图像文本匹配方法 Download PDFInfo
- Publication number
- CN115033727A CN115033727A CN202210504329.6A CN202210504329A CN115033727A CN 115033727 A CN115033727 A CN 115033727A CN 202210504329 A CN202210504329 A CN 202210504329A CN 115033727 A CN115033727 A CN 115033727A
- Authority
- CN
- China
- Prior art keywords
- text
- image
- semantic similarity
- region
- global
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 230000008447 perception Effects 0.000 title claims abstract description 16
- 230000000007 visual effect Effects 0.000 claims description 33
- 239000013598 vector Substances 0.000 claims description 25
- 238000012549 training Methods 0.000 claims description 11
- 239000011159 matrix material Substances 0.000 claims description 10
- 230000006870 function Effects 0.000 claims description 9
- 238000013507 mapping Methods 0.000 claims description 7
- 230000007246 mechanism Effects 0.000 claims description 7
- 238000012512 characterization method Methods 0.000 claims description 6
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 3
- 230000002457 bidirectional effect Effects 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 238000012935 Averaging Methods 0.000 claims description 2
- 239000000470 constituent Substances 0.000 claims description 2
- 230000002776 aggregation Effects 0.000 description 2
- 238000004220 aggregation Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 230000004931 aggregating effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/38—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/383—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/53—Querying
- G06F16/532—Query formulation, e.g. graphical querying
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Library & Information Science (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及跨模态检索领域,公开了一种基于跨模态置信度感知的图像文本匹配方法,以待匹配文本为桥梁,参考图像‑文本的全局语义,来衡量图像区域在待匹配文本中被描述的可信程度。并且,本发明在聚合区域‑单词匹配对的局部对齐信息以得到图文整体相关性时,根据匹配置信度来过滤掉与全局图像‑文本语义不一致的局部区域‑单词匹配对,更准确地度量的图文相关性,提升跨模态检索性能。
Description
技术领域
本发明涉及跨模态检索领域,具体涉及一种基于跨模态置信度感知的图像文本匹配方法。
背景技术
随着互联网应用和社交媒体的兴起,图像、文本、视频和语音等模态的信息海量涌现。多模态信息的理解与应用日益重要,如何实现信息的跨模态转化、映射与对齐是近年来的研究热点。图像-文本匹配任务是跨模态领域中的核心任务,其通过计算图像和文本的语义相似度来进行跨模态检索,缩减两模态间的视觉-语义鸿沟以实现异质模态对齐,并可启发对其他跨模态任务的探索,如字幕生成,视觉问答等。因此,实现一种精准的图文匹配方法,对异质模态对齐理论的探讨和多模态应用技术的拓展都有重大意义。
现有的图文匹配方法可分为两种策略:基于全局对齐的匹配和基于局部对齐的匹配。全局对齐方法直接基于整张图像和全文在公共嵌入空间中的对齐程度来推断跨模态语义相似度。基于局部对齐的方法从检测到的显著区域和文本单词之间的局部语义对齐中聚合得到图文整体相关性。近来的研究工作主要关注于挖掘区域-单词水平上的细粒度视觉-语义对齐,如通过建模区域-单词间的语义交互过程来获得有助于对齐的可分性表征,或设计局部对齐聚合机制以得到更准确的整体相关性。总的来说,现有的方法主要通过关联局部视觉-语义来匹配区域-单词,再机械地聚合区域-单词匹配对之间的局部语义相似度来衡量图像-文本的整体相关性。
然而在现有的方法中,局部语义相似度,即区域-单词匹配对的相关性,被以默认的匹配置信度被聚合,这是不合理的。因为匹配置信度,即区域-单词匹配对的可信程度,取决于全局图像-文本语义,相互间存在差异。也就是说,某局部区域-单词对虽然是匹配的,但它与全局的图像-文本语义并不一致,是不可信任的。因此,为了揭示局部语义相似度对整体跨模态相关性的真实合理的贡献水平,需要明确表示区域-单词对在匹配中的置信度。在不考虑置信度的情况下,与整体语义不一致的区域-单词匹配对将被不加区分地聚合,从而干扰整体相关性的度量。
发明内容
为解决上述技术问题,本发明提供一种基于跨模态置信度感知的图像文本匹配方法。
为解决上述技术问题,本发明采用如下技术方案:
一种基于跨模态置信度感知的图像文本匹配方法,包括以下步骤:
步骤一:抽取图像I上N个区域vi的特征表示和文本T中M个单词ui的特征表示,计算图像的全局表征vglo和文本T的全局表征uglo;
c=σ(LayerNorm([∈1,∈2,…,∈i,…,∈N]));
步骤六:分别在集合Sv和Su上应用多层自注意力推理,拼接最后一层注意力推理层中视觉增强的全局语义相似度和语言增强的全局语义相似度得到拼接向量,将拼接向量输入到由sigmoid函数激活的全连接层来计算图像I和文本T之间的跨模态相关性r(I,T):
具体地,步骤一中抽取图像I上的区域vi的特征表示以及计算图像的全局表征vglo的方法如下:
采用以ResNet-101为骨干网络的Faster R-CNN目标检测器来抽取图像上N个显著区域的特征xi,然后将xi线性映射为共同嵌入空间中的视觉向量作为区域vi的特征,图像I的全局表征vglo通过以区域平均值vave为查询键的注意力机制来编码:
其中注意力权重wi是vave和vi的相似度。
具体地,步骤一中抽取文本T中的单词ui的特征表示以及计算文本T的全局表征uglo的方法如下:
文本T的全局表征uglo通过以单词平均值uave为查询键的注意力机制来编码:
其中注意力权重wi是uave和ui的相似度。
具体地,步骤三中以区域vi的周边区域作为视觉上下文对区域vi进行扩展的方法如下:将区域vi的周边划分为上、下、左、右四个视域,从每个视域中提取距离区域vi最近的3个区域并收集区域的索引号构成集合idxi,区域vi的视觉上下文其中wi为注意力权重。
其中λ是边距常数,[x]+=max(x,0),对于给定的图文匹配对(I,T),分别是训练批次中的图文最难例;模型训练时,边距常数λ设置为0.2,设置自注意力推理的总层数L为3,采用Adam作为优化器,学习率初始化为0.0005,区域和单词的特征表示向量的维度D为1024,各语义相似度向量的维度P为256。
与现有技术相比,本发明的有益技术效果是:
针对区域-单词匹配置信度不可区分的问题,本发明首次提出应用于图像文本匹配的跨模态置信度感知方法,该方法创新地计算区域-单词匹配对的置信度,并在全局聚合前使用匹配置信度来放缩相应的局部语义相似度,以准确地度量图文整体相关性。跨模态置信度感知方法以文本为桥梁,根据图像-文本整体语义相似信息中所包含的区域视觉上下文与全文的语义相似信息的多少来推断相应的区域-单词匹配置信度,其表示给定文本描述各区域的相对程度。
具体地,置信度是通过区域视觉上下文-文本的语义相似度与整张图像-文本的语义相似度之间的内积来计算的。在度量图文相关性作为匹配证据时,本发明根据区域-单词匹配置信度来加权由相应区域查询到的跨模态语义相似度,并通过自注意力机制借助加权局部区域语义相似度来增强全局对齐信息,基于增强后的对齐信息计算图像-文本整体语义相关性。
附图说明
图1为本发明图像文本匹配方法的示意图。
具体实施方式
下面结合附图对本发明的一种优选实施方式作详细的说明。
多模态对齐定义为从两个或多个模态中查找实例子组件之间的关系和对应,研究不同的信号如何对齐,比如给电影中的影像找出剧本中文字。
如图1所示,本发明提出了一种基于跨模态置信度感知的图像文本匹配方法,由三部分构成:(1)图像与文本特征表示;(2)区域-单词匹配置信度推理;(3)区分匹配置信度的跨模态相关性度量。对于给定的图像和文本,首先进行图像与文本的特征表示,以及各图像区域的视觉语义扩展,再以区域的视觉上下文和全文之间的语义相似度被包含在图像-文本的整体语义相似度中的程度,即该区域被文本所真正描述的相对程度,来推断其匹配置信度,最后根据匹配置信度在整体相关性聚合中过滤掉与全局语义不一致的不可信局部对齐信息。
1.图像与文本特征表示
1.1图像特征表示
本发明采用在VisualGenomes数据集上训练完备的以ResNet-101为骨干网络的Faster R-CNN目标检测器来抽取图像上N个显著区域的特征xi,然后将xi线性映射为共同嵌入空间中的视觉向量作为区域vi的特征。图像的全局表征vglo通过以区域平均值vave为查询键的注意力机制来编码:
其中注意力权重wi是vave和区域vi特征的相似度。本实施例中N=36。
1.2文本特征表示
本发明首先将单词的one-hot编码{d1,d2,…,dM}由可学习单词映射层ti=Wedi转换为分布式表征。为使用文本上下文来增强单词语义,本发明使用Bi-GRU来编码单词的前后向信息:
文本全局表征uglo的计算方法与图像全局表征vglo的相同。
1.3视觉语义扩展
为了使图像区域的语义更可区分,本发明进一步提取各区域的视觉上下文进行语义扩展。考虑到一个区域的周边场景通常包含与其相关的语义内容,本发明设计以其周边区域作为视觉上下文来扩展该区域。具体地,对于区域vi,将其周围场景划分为上、下、左、右四个视域,从每个视域中提取距离区域vi最近的3个区域并收集相关的索引号构成集合idxi;区域vi的视觉上下文
其中wi和计算图像全局表征vglo时的注意力权重相同。
2.区域-单词匹配置信度推理
2.1跨模态对齐
其中是可学习参数矩阵。vi的语义相关文本也称为文本模态上下文,是αijuj,j=1,…,M的累加。其中cij是图像区域vi和单词uj的余弦相似度。相似地,单词ui和其视觉模态上下文之间的单词局部语义相似度被计算为区域局部语义相似度也称为由区域查询到的语义相似度,单词局部语义相似度也称为由单词查询到的语义相似度。
本发明进一步通过vglo和uglo的度量全局语义相似向量sglo:
2.2匹配置信度推理
当图像的显著区域被分开查看时,它们的视觉语义是片段化的,以至于局部对齐的区域-单词可能与全局的图像-文本语义不一致。置信度是指各区域的视觉语义和图像-文本全局视野的一致性程度,可以过滤掉和全局语义不一致的区域-单词匹配对。具体地,本发明首先将区域vi扩展为它的视觉上下文以使各区域vi的语义更加可分。扩展的视觉上下文可以用来验证各区域在文本中被描述的程度其中是可学习参数矩阵。
c=σ(LayerNorm([∈1,∈2,…,∈36]));
其中c=[c1,c2,…,c36],是可学习参数向量,⊙指示元素对应相乘操作,σ表示sigmoid函数,LayerNorm表示层规范化操作。匹配置信度是由区域vi的视觉上下文和全文之间的语义相似度被包含在图像-文本的全局语义相似度sglo中的程度推断出来的,它表明了该区域从全局的图像-文本的角度被描述的相对程度。
2.3区分匹配置信度的跨模态相关性度量
为在图像-文本匹配中区分区域-单词匹配对的置信度,过滤虽然局部匹配但在文本整体语义中没有真正提及区域相关的区域-单词对所贡献的局部语义相似度,即不可靠的区域-单词匹配对,本发明首先将每个由区域查询到的语义相似度与相应的ci相乘,并将全局语义相似度sglo和被匹配置信度缩放后的集合为:
本发明分别在集合Sv和Su上应用多层自注意力推理,得到模态增强的拼接全局对齐信息:
本发明中的图像文本匹配方法训练时的损失函数为双向三元组排序损失:
其中λ是边距常数,[x]+=max(x,0),给定图文匹配对(I,T), 分别是训练批次中的图文最难例。模型训练时,边距常数λ设置为0.2,设置自注意力推理的总层数L为3,采用Adam作为优化器,学习率初始化为0.0005。本发明设置图像区域和文本单词的特征向量的维度D为1024,各语义相似度向量的维度P为256。
数据集使用Flickr30K和MSCOCO。Flickr30K数据集包含31000张图像,每张图像对应5句文本描述。本发明使用29000张图像用于训练,1000张图像用于验证,1000张图像用于测试。MSCOCO数据集包含133,287张图像,每张图像对应5句文本描述。本发明使用123287张图像用于训练,5000张图像用于验证,5000张图像用于测试。
与现有的不考虑图像区域-单词匹配对的可信性的方法相比,本发明提出了一种新颖的跨模态置信度感知模型,其以待匹配文本为桥梁,参考图像-文本的全局语义,来衡量图像区域在待匹配文本中被描述的可信程度。并且,本发明在聚合区域-单词匹配对的局部对齐信息以得到图文整体相关性时,根据匹配置信度来过滤掉与全局图像-文本语义不一致的局部区域-单词匹配对,更准确地度量的图文相关性,提升跨模态检索性能。
本发明中的实验评估指标为R@K(Recall at K),K=1,5,10和R@Sum,R@K表示在检索到的前K结果中包含正确样本的查询的百分比,R@Sum表示图像检索文本和文本检索图像两方向上的R@K指标的总和,衡量了总体匹配性能。大量实验结果表明,本发明提出的方法能够在图文匹配中推断出区域-单词匹配对的可信程度,并在整体相关性聚合时滤除低可信的局部对齐信息,显著提升图文匹配任务的精度。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内,不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立技术方案,说明书的这种叙述方式仅仅是为了清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。
Claims (6)
1.一种基于跨模态置信度感知的图像文本匹配方法,包括以下步骤:
步骤一:抽取图像I上N个区域vi的特征表示和文本T中M个单词ui的特征表示,计算图像的全局表征vglo和文本T的全局表征uglo;
c=σ(LayerNorm([∈1,E2,…,∈i,...,∈N]));
步骤六:分别在集合Sv和Su上应用多层自注意力推理,拼接最后一层注意力推理层中视觉增强的全局语义相似度和语言增强的全局语义相似度得到拼接向量,将拼接向量输入到由sigmoid函数激活的全连接层来计算图像I和文本T之间的跨模态相关性r(I,T):
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210504329.6A CN115033727B (zh) | 2022-05-10 | 2022-05-10 | 基于跨模态置信度感知的图像文本匹配方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210504329.6A CN115033727B (zh) | 2022-05-10 | 2022-05-10 | 基于跨模态置信度感知的图像文本匹配方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115033727A true CN115033727A (zh) | 2022-09-09 |
CN115033727B CN115033727B (zh) | 2023-06-20 |
Family
ID=83121315
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210504329.6A Active CN115033727B (zh) | 2022-05-10 | 2022-05-10 | 基于跨模态置信度感知的图像文本匹配方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115033727B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116127123A (zh) * | 2023-04-17 | 2023-05-16 | 中国海洋大学 | 基于语义实例关系渐进式海洋遥感图文检索方法 |
CN116431849A (zh) * | 2023-04-07 | 2023-07-14 | 四川大学 | 一种基于证据学习的鲁棒图文检索方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111026894A (zh) * | 2019-12-12 | 2020-04-17 | 清华大学 | 基于可信度自适应匹配网络的跨模态图像文本检索方法 |
CN112966127A (zh) * | 2021-04-07 | 2021-06-15 | 北方民族大学 | 一种基于多层语义对齐的跨模态检索方法 |
US20210256365A1 (en) * | 2017-04-10 | 2021-08-19 | Peking University Shenzhen Graduate School | Cross-media retrieval method based on deep semantic space |
CN113902764A (zh) * | 2021-11-19 | 2022-01-07 | 东北大学 | 基于语义的图像-文本的跨模态检索方法 |
CN114037945A (zh) * | 2021-12-10 | 2022-02-11 | 浙江工商大学 | 一种基于多粒度特征交互的跨模态检索方法 |
CN114297473A (zh) * | 2021-11-25 | 2022-04-08 | 北京邮电大学 | 基于多级图文语义对齐模型的新闻事件搜索方法及系统 |
-
2022
- 2022-05-10 CN CN202210504329.6A patent/CN115033727B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210256365A1 (en) * | 2017-04-10 | 2021-08-19 | Peking University Shenzhen Graduate School | Cross-media retrieval method based on deep semantic space |
CN111026894A (zh) * | 2019-12-12 | 2020-04-17 | 清华大学 | 基于可信度自适应匹配网络的跨模态图像文本检索方法 |
CN112966127A (zh) * | 2021-04-07 | 2021-06-15 | 北方民族大学 | 一种基于多层语义对齐的跨模态检索方法 |
CN113902764A (zh) * | 2021-11-19 | 2022-01-07 | 东北大学 | 基于语义的图像-文本的跨模态检索方法 |
CN114297473A (zh) * | 2021-11-25 | 2022-04-08 | 北京邮电大学 | 基于多级图文语义对齐模型的新闻事件搜索方法及系统 |
CN114037945A (zh) * | 2021-12-10 | 2022-02-11 | 浙江工商大学 | 一种基于多粒度特征交互的跨模态检索方法 |
Non-Patent Citations (1)
Title |
---|
贾迪 等: "图像匹配方法研究综述" * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116431849A (zh) * | 2023-04-07 | 2023-07-14 | 四川大学 | 一种基于证据学习的鲁棒图文检索方法 |
CN116431849B (zh) * | 2023-04-07 | 2024-01-02 | 四川大学 | 一种基于证据学习的鲁棒图文检索方法 |
CN116127123A (zh) * | 2023-04-17 | 2023-05-16 | 中国海洋大学 | 基于语义实例关系渐进式海洋遥感图文检索方法 |
Also Published As
Publication number | Publication date |
---|---|
CN115033727B (zh) | 2023-06-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112966127B (zh) | 一种基于多层语义对齐的跨模态检索方法 | |
EP2344958B1 (en) | Image-based semantic distance | |
CN111324752B (zh) | 基于图神经网络结构建模的图像与文本检索方法 | |
Jiang et al. | Deep compositional cross-modal learning to rank via local-global alignment | |
CN115033727B (zh) | 基于跨模态置信度感知的图像文本匹配方法 | |
CN114936623B (zh) | 一种融合多模态数据的方面级情感分析方法 | |
CN115131638B (zh) | 视觉文本预训练模型的训练方法、装置、介质和设备 | |
CN112487822A (zh) | 一种基于深度学习的跨模态检索方法 | |
Chen et al. | Integrating information theory and adversarial learning for cross-modal retrieval | |
CN113239159B (zh) | 基于关系推理网络的视频和文本的跨模态检索方法 | |
CN116610778A (zh) | 基于跨模态全局与局部注意力机制的双向图文匹配方法 | |
CN115878832B (zh) | 基于精细对齐判别哈希的海洋遥感图像音频检索方法 | |
CN113537304A (zh) | 一种基于双向cnn的跨模态语义聚类方法 | |
CN114461821A (zh) | 一种基于自注意力推理的跨模态图文互索方法 | |
CN115658934A (zh) | 一种基于多类注意力机制的图文跨模态检索方法 | |
CN116933051A (zh) | 一种用于模态缺失场景的多模态情感识别方法及系统 | |
CN115935194A (zh) | 基于共识嵌入空间和相似度的视觉和文本跨模态匹配方法 | |
CN115964560A (zh) | 基于多模态预训练模型的资讯推荐方法及设备 | |
CN117574904A (zh) | 基于对比学习和多模态语义交互的命名实体识别方法 | |
CN114661951A (zh) | 一种视频处理方法、装置、计算机设备以及存储介质 | |
CN116756363A (zh) | 一种由信息量引导的强相关性无监督跨模态检索方法 | |
CN117009570A (zh) | 一种基于位置信息与置信度感知的图文检索方法及装置 | |
CN116956869A (zh) | 文本标准化方法、装置、电子设备及存储介质 | |
CN114329064A (zh) | 视频处理方法、装置、计算机设备及存储介质 | |
CN117765450B (zh) | 一种视频语言理解方法、装置、设备及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |