CN114048340B - 一种层级融合的组合查询图像检索方法 - Google Patents

一种层级融合的组合查询图像检索方法 Download PDF

Info

Publication number
CN114048340B
CN114048340B CN202111348833.3A CN202111348833A CN114048340B CN 114048340 B CN114048340 B CN 114048340B CN 202111348833 A CN202111348833 A CN 202111348833A CN 114048340 B CN114048340 B CN 114048340B
Authority
CN
China
Prior art keywords
feature
image
graph
features
fusion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111348833.3A
Other languages
English (en)
Other versions
CN114048340A (zh
Inventor
杨阳
徐亚辉
宾燚
王国庆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202111348833.3A priority Critical patent/CN114048340B/zh
Publication of CN114048340A publication Critical patent/CN114048340A/zh
Application granted granted Critical
Publication of CN114048340B publication Critical patent/CN114048340B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/55Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5846Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Library & Information Science (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种层级融合的组合查询图像检索方法创新性地使用图像场景图(Image Scene Graph),对参考图像、目标图像中的实体信息、实体属性信息和实体间关系信息进行全面的分析,使用图结构来表示图像中实体以及之间的语义关系,解决了低层视觉特征和高层语义之间的鸿沟,提升了图像的语义表征能力,很好的解决了图像检索准确率低的问题。此外,本发明创新性地设计了一个层级的视觉表示和融合方式,将视觉特征编码为:全局特征、局部实体特征以及场景图特征;之后设计了多模态特征层级融合方式;最后设计了一种集束匹配方式,在全局空间,局部实体空间和场景图空间,三个特征空间进行图像匹配,进一步提升了组合查询图像检索的准确率。

Description

一种层级融合的组合查询图像检索方法
技术领域
本发明属于图像检索技术领域,更为具体地讲,涉及一种层级融合的组合查询图像检索方法。
背景技术
传统的图片检索方法,输入参考图像之后检索系统返回数据库中和参考图像最相似的一些结果。但是传统图像检索中存在意图鸿沟问题,即用户很难找到一张准确反应其检索意图的参考图像。
组合查询图像检索的目标是同时通过参考图像和文本描述,从大规模数据中检索出目标图像。而组合查询图像检索可以通过额外的文本描述修正参考图像,来反应用户真实的检索意图,检索方式更加灵活准确。
现有的组合查询图像检索方法主要有两种。一种是将参考图像的全局特征和文本描述特征融合。通常是通过卷积神经网络对参考图像进行编码,得到代表参考图像的全局特征;之后将文本描述通过循环神经网络进行编码,得到文本描述的语义特征;最后通过多模态融合技术将参考图像的全局特征和文本描述的语义特征进行融合,然后利用融合后的特征进行图像检索。另一种是将参考图像的局部实体特征和文本描述的语义特征进行融合。这种方法首先通过图像目标检测器将参考图像中的局部实体区域框定出来,之后提取参考图像的局部实体特征,然后通过多模态融合技术将参考图像的局部实体特征和文本特征融合。
现有的组合查询图像检索方法将参考图像的全局特征或局部实体特征与文本特征利用多模态融合技术进行融合,再利用融合后的特征进行图像检索。但是视觉图像是错综复杂的,包含大量的语义信息,是多个物体、环境和上下文信息的组合,这些信息由不同的实体、实体属性以及实体之间的关系组成。仅仅通过全局特征或者局部实体特征进行表示是不准确的,不能够较为全面地表示视觉图像的语义信息,缺乏对视觉图像场景的描述与概括能力,导致基于图像全局特征或局部实体特征的组合查询图像检索方法的准确率很低。
目前的方法仅仅在单一视觉维度对图像进行编码,考虑到文本描述是复杂多样的,不仅仅和抽象的全局视觉特征以及具体的局部实体特征关联,更是与图像的语义特征相关,这也影响了组合查询图像检索的准确率。
发明内容
本发明的目的在于克服现有技术的不足,提供一种层级融合的组合查询图像检索方法,以提高检索准确率。
为实现上述发明目的,本发明层级融合的组合查询图像检索方法,其特征在于,包括以下步骤:
(1)、构建基于场景图的层级融合学习模型
在基于场景图的层级融合学习模型中:
1.1)、层级视觉特征及文本特征提取
1.1.1)、使用目标检测器提取出参考图像的实体信息,使用属性分类器检测每个实体的属性信息,使用关系检测器检测实体间的关系信息;
将实体信息、实体属性信息和实体间关系信息作为图节点组织为有向图,该有向图为图像场景图,使用图卷积网络对图节点进行编码,得到图节点特征并组合起来,得到参考图像的场景图特征fs
Figure BDA0003354955950000021
其中,
Figure BDA0003354955950000022
i=1,2,…n为第i个图节点特征,为h维行向量,n为图节点的个数;
1.1.2)、使用卷积神经网络提取参考图像的全局特征fg,全局特征fg为h维行向量;
1.1.3)、使用目标检测器提取参考图像的局部实体特征fe
Figure BDA0003354955950000023
其中,
Figure BDA0003354955950000024
j=1,2,…k为第j个图节点特征,为h维行向量,k为局部实体的个数;
1.1.4)、使用循环神经网络对参考图像的文本描述进行编码,然后进行聚合得到文本特征ft,文本特征ft为h维行向量;
1.2)、层级视觉特征及文本特征融合
1.2.1)、对于全局的视觉特征fg,设计了一种基于门控机制和残差机制的特征融合方式,用于和文本特征ft进行融合,得到融合特征
Figure BDA0003354955950000031
Figure BDA0003354955950000032
其中,Wg和Wr为需要学习的参数,fgate(fg,ft)和fres(fg,ft)分别是特征融合的门控单元和残差单元,公式定义如下:
fgate(fg,ft)=σ(Wg2*ReLU(Wg1*[fg,ft]))⊙fg
fres(fg,ft)=Wr2*ReLU(Wr1*[fg,ft])
其中,Wg1,Wg2,Wr1和Wr2为需要学习的参数,σ代表sigmoid函数,⊙代表哈达玛积,[fg,ft]代表对全局特征fg、文本特征ft进行拼接,ReLU为线性整流函数;
1.2.2)、对于局部实体特征fe,首先与文本特征ft进行拼接,得到图像文本特征fet=[fe,ft],之后使用一注意力机制对图像文本特征fet进行调整,得到融合特征
Figure BDA0003354955950000033
Figure BDA0003354955950000034
其中,T表示转置,We1,We2和We3是需要学习的参数;
1.2.3)、对于场景图特征fs,首先与文本特征ft进行拼接,得到图像文本特征fst=[fs,ft],之后使用另一注意力机制对图像文本特征fst进行调整,得到融合特征
Figure BDA0003354955950000035
Figure BDA0003354955950000036
其中,Ws1,Ws2和Ws3是需要学习的参数;
(2)、构建基于场景图的目标图像编码模型与目标图像编码数据库
在基于场景图的目标图像编码模型中:按照步骤1.1)的方法,得到目标图像的场景图特征f′s、全局特征f′g以及局部实体特征f′e,完成目标图像编码;
将所有目标图像进行编码,得到目标图像编码数据库;
(3)、构建集束匹配模型
在集束匹配模型中:在全局空间、局部实体空间和场景图空间进行特征匹配,得到目标图像与参考图像的距离dof
Figure BDA0003354955950000037
(4)、训练基于场景图的层级融合学习模型
采用三元组度量函数作为损失函数,对基于场景图的层级融合学习模型进行训练,其中,损失函数
Figure BDA0003354955950000041
为:
Figure BDA0003354955950000042
其中,m是基于经验设置的常量,
Figure BDA0003354955950000043
为正样本的目标图像根据步骤(3)的距离公式得到的与参考图像的距离,
Figure BDA0003354955950000044
为负样本的目标图像根据步骤(3)的距离公式得到的与参考图像的距离;
(5)、图像检索
将待检索的参考图像及其对应的文本描述送入基于场景图的层级融合学习模型中,得到融合特征
Figure BDA0003354955950000045
然后在集束匹配模型中,与目标图像编码数据库的目标图像编码即目标图像的场景图特征f′s、全局特征f′g以及局部实体特征f′e进行特征匹配,选择最小距离的目标图像作为参考图像的目标图像。
本发明的目的是这样实现的。
本发明层级融合的组合查询图像检索方法创新性地使用图像场景图(ImageScene Graph),对参考图像、目标图像中的实体信息、实体属性信息和实体间关系信息进行全面的分析,使用图结构来表示图像中实体以及之间的语义关系,解决了低层视觉特征和高层语义之间的鸿沟,提升了图像的语义表征能力,很好的解决了图像检索准确率低的问题。此外,目前的方法仅仅在单一视觉维度对图像进行编码,考虑到文本描述是复杂多样的,不仅仅和抽象的全局视觉特征以及具体的局部实体特征关联,更是与图像的语义特征相关。因此本发明创新性地设计了一个层级的视觉表示和融合方式,将视觉特征从粗粒度到细粒度编码为:全局特征、局部实体特征以及场景图特征,层层递进,相辅相成;之后针对各个维度视觉特征的特点,设计了多模态特征层级融合方式;最后设计了一种集束匹配方式,在全局空间,局部实体空间和场景图空间,三个特征空间进行图像匹配,进一步提升了组合查询图像检索的准确率。
附图说明
图1是本发明层级融合的组合查询图像检索方法一种具体实施方式流程图;
图2是本发明层级融合的组合查询图像检索方法一种具体实施方式的原理示意图;
图3是图像场景图一具体实施例图。
具体实施方式
下面结合附图对本发明的具体实施方式进行描述,以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是,在以下的描述中,当已知功能和设计的详细描述也许会淡化本发明的主要内容时,这些描述在这里将被忽略。
图1、2分别是本发明层级融合的组合查询图像检索方法一种具体实施方式流程图及原理示意图。
在本实施例中,如图1、2所示,本发明层级融合的组合查询图像检索方法包括以下步骤:
步骤S1:构建基于场景图的层级融合学习模型
针对文本描述复杂多样的情况,需要综合考虑图像抽象的全局特征、局部实体特征以及高层的场景图特征,本发明设计了层级的视觉特征表示方式,具体为,在基于场景图的层级融合学习模型中进行以下步骤:
步骤S1.1:层级视觉特征及文本特征提取
为了更好的表征图像中丰富的语义信息,本发明首先提取参考图像中的实体信息、实体属性信息和实体间关系信息,之后将这些信息组织为有向图来理解具体图像,使用图卷积网络获取参考图像整体的场景图特征。具体为:
步骤S1.1.1:使用目标检测器提取出参考图像的实体信息,使用属性分类器检测每个实体的属性信息,使用关系检测器检测实体间的关系信息;
将实体信息、实体属性信息和实体间关系信息作为图节点组织为有向图,该有向图为图像场景图,如图3所示。使用图卷积网络对图节点进行编码,得到图节点特征并组合起来,得到参考图像的场景图特征fs
Figure BDA0003354955950000051
其中,
Figure BDA0003354955950000052
i=1,2,…n为第i个图节点特征,为h维行向量,n为图节点的个数。
在本发明中,场景图特征fs作为图像高层的语义特征。
步骤S1.1.2:使用卷积神经网络提取参考图像的全局特征fg,全局特征fg为h维行向量;
步骤S1.1.3:使用目标检测器提取参考图像的局部实体特征fe
Figure BDA0003354955950000061
其中,
Figure BDA0003354955950000062
j=1,2,…k为第j个图节点特征,为h维行向量,k为局部实体的个数;
全局特征fg、局部实体特征fe以及场景图特征fs构成多层图像编码。
步骤S1.1.4:使用循环神经网络对参考图像的文本描述进行编码,然后进行聚合得到文本特征ft,文本特征ft为h维行向量。
步骤S1.2:层级视觉特征及文本特征融合
步骤S1.2.1:对于全局的视觉特征fg,设计了一种基于门控机制和残差机制的特征融合方式,用于和文本特征ft进行融合,得到融合特征
Figure BDA0003354955950000063
Figure BDA0003354955950000064
其中,Wg和Wr为需要学习的参数,fgate(fg,ft)和fres(fg,ft)分别是特征融合的门控单元和残差单元,公式定义如下:
fgate(fg,ft)=σ(Wg2*ReLU(Wg1*[fg,ft]))⊙fg
fres(fg,ft)=Wr2*ReLU(Wr1*[fg,ft])
其中,Wg1,Wg2,Wr1和Wr2为需要学习的参数,σ代表sigmoid函数,⊙代表哈达玛积,[fg,ft]代表对全局特征fg、文本特征ft进行拼接,ReLU为线性整流函数。
在本发明中,门控单元负责参考图像应该保留下来的特征,残差单元负责对参考图像进行修改。
步骤S1.2.2:对于局部实体特征fe,首先与文本特征ft进行拼接,得到图像文本特征fer=[fe,ft],之后使用一注意力机制对图像文本特征fet进行调整,得到融合特征
Figure BDA0003354955950000065
Figure BDA0003354955950000066
其中,T表示转置,We1,We2和We3是需要学习的参数;
步骤S1.2.3:对于场景图特征fs,首先与文本特征ft进行拼接,得到图像文本特征fst=[fs,ft],之后使用另一注意力机制对图像文本特征fst进行调整,得到融合特征
Figure BDA0003354955950000067
Figure BDA0003354955950000071
其中,Ws1,Ws2和Ws3是需要学习的参数;
步骤S2:构建基于场景图的目标图像编码模型与目标图像编码数据库
在基于场景图的目标图像编码模型中:按照步骤S1.1的方法,得到目标图像的场景图特征f′s、全局特征f′g以及局部实体特征f′e,完成目标图像编码;
将所有目标图像进行编码,得到目标图像编码数据库;
步骤S3:构建集束匹配模型f′e
为了准确匹配,保证检索任务顺利进行,本发明设计了一种集束匹配模型。在集束匹配模型中:在全局空间、局部实体空间和场景图空间进行特征匹配,得到目标图像与参考图像的距离dof
Figure BDA0003354955950000072
步骤S4:训练基于场景图的层级融合学习模型
采用三元组度量函数作为损失函数,对基于场景图的层级融合学习模型进行训练,其中,损失函数
Figure BDA0003354955950000073
为:
Figure BDA0003354955950000074
其中,m是基于经验设置的常量,
Figure BDA0003354955950000075
为正样本的目标图像根据步骤(3)的距离公式得到的与参考图像的距离,
Figure BDA0003354955950000076
为负样本的目标图像根据步骤(3)的距离公式得到的与参考图像的距离;
步骤S5:图像检索
将待检索的参考图像及其对应的文本描述送入基于场景图的层级融合学习模型中,得到融合特征
Figure BDA0003354955950000077
然后在集束匹配模型中,与目标图像编码数据库的目标图像编码即目标图像的场景图特征f′s、全局特征f′g以及局部实体特征f′e进行特征匹配,选择最小距离的目标图像作为参考图像的目标图像。
对比测试实例
在本实例,使用R@K指标评估本发明检索性能。Recall@K指模型返回的前K个结果中有正确标签的图像所占的比例,是最常用的图像检索评估方法。在本实例中,在行业内广泛使用的三个数据集上Fahion200k,Mit-states和CSS数据集上对本发明进行测试。其中Fahion200k包含200K张图像数据,训练集包含172k的图像数据,测试集包含32k的图像数据;Mit-states包含60k张图像数据,训练集包含43K的图像数据,剩余数据是测试集;CSS包含16K的训练集以及16K的测试集。三个数据集的测试结果如下表所示:
Figure BDA0003354955950000081
表1
从表1可以看出,本发明在所有的数据集上均优于之前的方法。
在Fashion200k数据集上,本发明在R@1上比之前最优的方法提升了35%。本发明在Mit-states数据集上R@10精度达到46.71,在所有度量方式上均优于现有的方法,本发明检索准确率得到了提高。
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。

Claims (1)

1.一种层级融合的组合查询图像检索方法,其特征在于,包括以下步骤:
(1)、构建基于场景图的层级融合学习模型
在基于场景图的层级融合学习模型中:
1.1)、层级视觉特征及文本特征提取
1.1.1)、使用目标检测器提取出参考图像的实体信息,使用属性分类器检测每个实体的属性信息,使用关系检测器检测实体间的关系信息;
将实体信息、实体属性信息和实体间关系信息作为图节点组织为有向图,该有向图为图像场景图,使用图卷积网络对图节点进行编码,得到图节点特征并组合起来,得到参考图像的场景图特征fs
fs={fs 1,fs 2,...,fs n}
其中,fs i,i=1,2,...n为第i个图节点特征,为h维行向量,n为图节点的个数;
1.1.2)、使用卷积神经网络提取参考图像的全局特征fg,全局特征fg为h维行向量;
1.1.3)、使用目标检测器提取参考图像的局部实体特征fe
fe={fe 1,fe 2,...,fe k}
其中,fe j,j=1,2,...k为第j个图节点特征,为h维行向量,k为局部实体的个数;
1.1.4)、使用循环神经网络对参考图像的文本描述进行编码,然后进行聚合得到文本特征ft,文本特征ft为h维行向量;
1.2)、层级视觉特征及文本特征融合
1.2.1)、对于全局的视觉特征fg,设计了一种基于门控机制和残差机制的特征融合方式,用于和文本特征ft进行融合,得到融合特征
Figure FDA0003354955940000011
Figure FDA0003354955940000012
其中,Wg和Wr为需要学习的参数,fgate(fg,ft)和fres(fg,ft)分别是特征融合的门控单元和残差单元,公式定义如下:
fgate(fg,ft)=σ(Wg2*ReLU(Wg1*[fg,ft]))⊙fg
fres(fg,ft)=Wr2*ReLU(Wr1*[fg,ft])
其中,Wg1,Wg2,Wr1和Wr2为需要学习的参数,σ代表sigmoid函数,⊙代表哈达玛积,[fg,ft]代表对全局特征fg、文本特征ft进行拼接,ReLU为线性整流函数;
1.2.2)、对于局部实体特征fe,首先与文本特征ft进行拼接,得到图像文本特征fet=[fe,ft],之后使用一注意力机制对图像文本特征fet进行调整,得到融合特征
Figure FDA0003354955940000021
Figure FDA0003354955940000022
其中,T表示转置,We1,We2和We3是需要学习的参数;
1.2.3)、对于场景图特征fs,首先与文本特征ft进行拼接,得到图像文本特征fst=[fs,ft],之后使用另一注意力机制对图像文本特征fst进行调整,得到融合特征
Figure FDA0003354955940000023
Figure FDA0003354955940000024
其中,Ws1,Ws2和Ws3是需要学习的参数;
(2)、构建基于场景图的目标图像编码模型与目标图像编码数据库
在基于场景图的目标图像编码模型中:按照步骤1.1)的方法,得到目标图像的场景图特征f′s、全局特征f′g以及局部实体特征f′e,完成目标图像编码;
将所有目标图像进行编码,得到目标图像编码数据库;
(3)、构建集束匹配模型
在集束匹配模型中:在全局空间、局部实体空间和场景图空间进行特征匹配,得到目标图像与参考图像的距离dof
Figure FDA0003354955940000025
(4)、训练基于场景图的层级融合学习模型
采用三元组度量函数作为损失函数,对基于场景图的层级融合学习模型进行训练,其中,损失函数
Figure FDA0003354955940000026
为:
Figure FDA0003354955940000027
其中,m是基于经验设置的常量,
Figure FDA0003354955940000028
为正样本的目标图像根据步骤(3)的距离公式得到的与参考图像的距离,
Figure FDA0003354955940000029
为负样本的目标图像根据步骤(3)的距离公式得到的与参考图像的距离;
(5)、图像检索
将待检索的参考图像及其对应的文本描述送入基于场景图的层级融合学习模型中,得到融合特征
Figure FDA0003354955940000031
然后在集束匹配模型中,与目标图像编码数据库的目标图像编码即目标图像的场景图特征f′s、全局特征f′g以及局部实体特征f′e进行特征匹配,选择最小距离的目标图像作为参考图像的目标图像。
CN202111348833.3A 2021-11-15 2021-11-15 一种层级融合的组合查询图像检索方法 Active CN114048340B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111348833.3A CN114048340B (zh) 2021-11-15 2021-11-15 一种层级融合的组合查询图像检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111348833.3A CN114048340B (zh) 2021-11-15 2021-11-15 一种层级融合的组合查询图像检索方法

Publications (2)

Publication Number Publication Date
CN114048340A CN114048340A (zh) 2022-02-15
CN114048340B true CN114048340B (zh) 2023-04-21

Family

ID=80209091

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111348833.3A Active CN114048340B (zh) 2021-11-15 2021-11-15 一种层级融合的组合查询图像检索方法

Country Status (1)

Country Link
CN (1) CN114048340B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115049870A (zh) * 2022-05-07 2022-09-13 电子科技大学 一种基于小样本的目标检测方法
CN115905610B (zh) * 2023-03-08 2023-05-26 成都考拉悠然科技有限公司 一种多粒度注意力网络的组合式查询图像检索方法
CN116524513B (zh) * 2023-07-03 2023-10-20 中国科学技术大学 开放词表场景图生成方法、系统、设备及存储介质
CN116991919B (zh) * 2023-09-26 2023-12-08 中国铁塔股份有限公司吉林省分公司 结合平台数据库的业务数据检索方法及人工智能系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017212268A1 (en) * 2016-06-08 2017-12-14 Blippar.Com Limited Data processing system and data processing method
CN109800411A (zh) * 2018-12-03 2019-05-24 哈尔滨工业大学(深圳) 临床医疗实体及其属性抽取方法
CN111242125A (zh) * 2020-01-14 2020-06-05 深圳大学 一种自然场景图像文本检测方法、存储介质及终端设备
CN112734881A (zh) * 2020-12-01 2021-04-30 北京交通大学 基于显著性场景图分析的文本合成图像方法及系统
CN112784092A (zh) * 2021-01-28 2021-05-11 电子科技大学 一种混合融合模型的跨模态图像文本检索方法
CN113380360A (zh) * 2021-06-07 2021-09-10 厦门大学 一种基于多模态病历图的相似病历检索方法及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017212268A1 (en) * 2016-06-08 2017-12-14 Blippar.Com Limited Data processing system and data processing method
CN109800411A (zh) * 2018-12-03 2019-05-24 哈尔滨工业大学(深圳) 临床医疗实体及其属性抽取方法
CN111242125A (zh) * 2020-01-14 2020-06-05 深圳大学 一种自然场景图像文本检测方法、存储介质及终端设备
CN112734881A (zh) * 2020-12-01 2021-04-30 北京交通大学 基于显著性场景图分析的文本合成图像方法及系统
CN112784092A (zh) * 2021-01-28 2021-05-11 电子科技大学 一种混合融合模型的跨模态图像文本检索方法
CN113380360A (zh) * 2021-06-07 2021-09-10 厦门大学 一种基于多模态病历图的相似病历检索方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Yahui Xu等.Hierarchical composition learning for composed query image retrieval.《》ACM Multimedia Asia.2022,(第undefined期),1-7. *
宾燚.视觉数据的智能语义生成方法研究.《中国博士学位论文全文数据库 信息科技辑》.2021,I138-34. *

Also Published As

Publication number Publication date
CN114048340A (zh) 2022-02-15

Similar Documents

Publication Publication Date Title
CN114048340B (zh) 一种层级融合的组合查询图像检索方法
US20220222920A1 (en) Content processing method and apparatus, computer device, and storage medium
US7962500B2 (en) Digital image retrieval by aggregating search results based on visual annotations
CN110647904B (zh) 一种基于无标记数据迁移的跨模态检索方法及系统
Chen et al. Research on personalized recommendation hybrid algorithm for interactive experience equipment
CN106776849A (zh) 一种以图快速检索景点的方法及导游系统
WO2023124005A1 (zh) 地图兴趣点查询方法、装置、设备、存储介质及程序产品
CN113239159B (zh) 基于关系推理网络的视频和文本的跨模态检索方法
CN115935991A (zh) 多任务模型生成方法、装置、计算机设备和存储介质
Pigeau et al. Building and tracking hierarchical geographical & temporal partitions for image collection management on mobile devices
CN114386513A (zh) 一种集成评论与评分的交互式评分预测方法及系统
Liu et al. POI Recommendation Method Using Deep Learning in Location‐Based Social Networks
CN115033727A (zh) 基于跨模态置信度感知的图像文本匹配方法
CN114780777A (zh) 基于语义增强的跨模态检索方法及装置、存储介质和终端
CN109885797B (zh) 一种基于多身份空间映射的关系网络构建方法
CN117077071A (zh) 一种基于数据分级的数据分析方法及系统
CN109543712B (zh) 时态数据集上的实体识别方法
CN116383437A (zh) 一种基于卷积神经网络的跨模态素材推荐方法
CN114332729B (zh) 一种视频场景检测标注方法及系统
Yuan et al. dTexSL: A dynamic disaster textual storyline generating framework
CN117076484B (zh) 基于时序知识图谱的人力资源数据分析方法
Zhang An intelligent recommendation method of remote ideological and political education resources based on user clustering
Huang Link Prediction Model for Anchor Chain Connection Method
Ran et al. Learning multi-view embedding in joint space for bidirectional image-text retrieval
Du et al. Server node video processing based on feature depth analysis algorithm

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant