CN112199532A - 一种基于哈希编码和图注意力机制的零样本图像检索方法及装置 - Google Patents

一种基于哈希编码和图注意力机制的零样本图像检索方法及装置 Download PDF

Info

Publication number
CN112199532A
CN112199532A CN202010906456.XA CN202010906456A CN112199532A CN 112199532 A CN112199532 A CN 112199532A CN 202010906456 A CN202010906456 A CN 202010906456A CN 112199532 A CN112199532 A CN 112199532A
Authority
CN
China
Prior art keywords
hash
network
relation
graph
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010906456.XA
Other languages
English (en)
Other versions
CN112199532B (zh
Inventor
吴大衍
黄梅雪
李波
王伟平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Information Engineering of CAS
Original Assignee
Institute of Information Engineering of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Information Engineering of CAS filed Critical Institute of Information Engineering of CAS
Priority to CN202010906456.XA priority Critical patent/CN112199532B/zh
Publication of CN112199532A publication Critical patent/CN112199532A/zh
Application granted granted Critical
Publication of CN112199532B publication Critical patent/CN112199532B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • G06F16/532Query formulation, e.g. graphical querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/55Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Software Systems (AREA)
  • Library & Information Science (AREA)
  • Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种基于哈希编码和图注意力机制的零样本图像检索方法及装置。该方法包括:构建哈希网络和关系网络;基于软边距的分类损失对哈希网络和关系网络进行训练;将数据库中的每一张图像输入到训练完成的哈希网络中,得到对应的图像哈希码;将待查询图像输入到训练完成的哈希网络中生成哈希码,计算其与数据库中每一张图像的哈希码之间的距离,并根据距离返回满足要求的查询结果。本发明能够同时考虑语义和视觉信息,充分挖掘类别之间的相似关系,从而更好地实现知识迁移,同时基于软边距的分类损失进行哈希学习能够在一定程度上避免对可见类别过拟合学习,提升模型对未见类别的泛化能力,进而提高零样本图像检索的效果。

Description

一种基于哈希编码和图注意力机制的零样本图像检索方法及 装置
技术领域
本发明属于信息技术领域,具体涉及一种基于哈希编码和图注意力机制的零样本图像检索方法及装置。
背景技术
随着信息时代的高速发展,图像数据呈现爆炸式增长趋势,在海量图像中进行高效检索的需求与日俱增。而现实生活中,不断有新的类别出现,如何让模型适应新类别的检索,即零样本图像检索,成为热点问题。这一工作在智能监控、精准医疗、电子商务等众多领域都具有重要的实际应用价值。在大规模场景下,零样本哈希方法可以有效地提高计算和存储效率,被广泛应用到零样本图像检索任务中。现有的零样本哈希方法主要包括两个阶段,一是图像特征的提取,二是类别之间相似关系的挖掘。
传统的零样本哈希方法使用手工构建的特征(如LBP、SIFT特征)作为图像特征,然后再进行哈希编码。随着深度学习技术的不断发展,基于深度神经网络的零样本哈希方法取得了一定的突破。例如,中国专利(申请号:201510901348.2,公开号:CN105512289A)将图像特征的学习和哈希码的学习结合在一个深度卷积神经网络中,在提取图像特征的同时生成二值哈希码。通过这种方法,一方面,能够利用深度学习强大的表达能力,保留了图像的语义信息;另一方面,生成的哈希码可以大大降低相似度计算的时间代价,同时减少了空间存储开销,更加适用于大规模场景。
由于缺乏新类别的训练样本,传统的检索模型无法有效地解决新类别的检索问题。一些研究工作尝试通过挖掘类别之间的相似关系,来将已有类别的监督知识迁移到新类别的学习中。其中,语义嵌入空间作为全部类别的公共空间,被广泛应用到零样本学习任务。例如,中国专利(申请号:CN201810095061.9,公开号:CN108399421A)学习到一个图像特征和语义特征联合嵌入的子空间,从而利用词向量的语义能力来进行新类别的识别。
传统的零样本哈希方法使用人工构建的特征,对图像特征的提取不够充分,不能准确表达图像语义信息。并且,这种两阶段的学习使得哈希码的质量很大程度上依赖于特征提取的效果,导致检索准确度不高。
基于深度学习的零样本哈希方法,借助了深度神经网络强大的表达能力,在检索性能上有了很大提升。但是这些方法大多数是通过建立图像特征到语义标签的映射关系来进行知识迁移的,并没有显式地考虑类别之间的相似关系。此外,它们只关注类别在语义嵌入空间中的关系,并没有考虑视觉特征空间的结构,这就导致对相似关系的挖掘不够充分,使得迁移能力存在很大的局限性。
同时,由于缺乏未见类别的样本,零样本哈希方法只能在可见类别上进行哈希学习。这就导致在网络优化过程中,模型容易对可见类别过拟合学习,而限制了对未见类别的泛化能力,严重降低了检索精度。
发明内容
针对现有零样本哈希方法的不足,本发明提出一种基于哈希编码和图注意力机制的零样本图像检索方法及装置。该方法通过构建多关系融合的相似图,能够同时考虑语义和视觉信息,充分挖掘类别之间的相似关系,从而更好地实现知识迁移。同时,该方法提出基于软边距的分类损失进行哈希学习,能够在一定程度上避免对可见类别过拟合学习,提升模型对未见类别的泛化能力,进而提高零样本图像检索的效果。
本发明采用的技术方案如下:
一种基于哈希编码和图注意力机制的零样本图像检索方法,包括以下步骤:
构建哈希网络和关系网络,所述哈希网络用于提取图像特征并将图像特征转化成哈希码,所述关系网络用于构建语义相似图和视觉关系图,利用语义相似图和视觉相似图得到多关系融合的相似图,并将多关系融合的相似图与哈希网络得到的哈希码相结合,生成具有相似关系的哈希码;
基于软边距的分类损失对哈希网络和关系网络进行训练;
将数据库中的每一张图像输入到训练完成的哈希网络中,得到对应的图像哈希码;
将待查询图像输入到训练完成的哈希网络中生成哈希码,计算其与数据库中每一张图像的哈希码之间的距离,并根据距离返回满足要求的查询结果。
进一步地,所述哈希网络包括图像特征提取模块和哈希模块;图像特征提取模块由深度卷积神经网络搭建而成,用于提取图像特征;哈希模块用来将图像特征转化成哈希码。
进一步地,所述关系网络包括语义关系挖掘模块、视觉关系挖掘模块和多关系融合的哈希码生成模块;语义关系挖掘模块利用类别语义标签构建语义相似图;视觉关系挖掘模块在语义相似图的结构基础上,利用掩膜注意力机制构建视觉关系图;多关系融合的哈希码生成模块利用语义相似图和视觉相似图,得到多关系融合的相似图,然后引入图卷积神经网络,将多关系融合的相似图与哈希网络中学习到的原始哈希码相结合,生成具有相似关系的哈希码。
进一步地,所述图像特征提取模块的深度卷积神经网络由多个卷积层、最大池化层、局部响应归一化层和全连接层组成。
进一步地,所述哈希模块由全连接层和激活函数层组成,计算公式为:
B=tanh(f(x,θh))∈[-1,1]K
其中,B是哈希码,x是图像特征,θh是哈希模块的参数,K是哈希码的长度,激活函数tanh(·)将实值哈希码的值约束在[-1,1]范围内。
进一步地,所述语义关系挖掘模块,利用类别语义向量,根据余弦相似度构建语义相似图,计算公式为:
Figure BDA0002661641730000031
其中,zi,zj分别代表图像xi,xj的类别语义向量,<·>表示内积操作,||·||表示向量的模长。在语义相似图中,只有Sf(i,j)>0的情况下,才认为图像xi,xj相似,即图中顶点xi,xj有连边。
进一步地,所述视觉关系挖掘模块,利用图像的视觉特征,经过掩膜注意力机制得到视觉相似图,计算公式为:
Figure BDA0002661641730000032
其中,[xi|xj]表示将图像特征xi和xj拼接,Wa是注意力权重参数,sigmoid(·)将相似度的值归一化到[0,1]范围内,ReLU是激活函数。掩膜注意力指的是只在语义相似图Sf(i,j)>0的基础上计算视觉相似度Sa(i,j)。
进一步地,所述多关系融合的哈希码生成模块,对语义相似图和视觉相似图进行插值相加操作,得到多关系融合的相似图,计算公式为:
S=αSf+(1-α)Sa
其中,α是权重参数,用来衡量语义相似图和视觉相似图的影响。
进一步地,所述多关系融合的哈希码生成模块中的图卷积神经网络将多关系融合的相似图与哈希网络生成的哈希码相结合,得到具有相似关系的哈希码,计算公式为:
Figure BDA0002661641730000033
其中,D是多关系融合的相似图S的度矩阵,Wg是图卷积神经网络中的权重参数,激活函数tanh(·)将生成的实值哈希码的值约束在[-1,1]范围内。
进一步地,所述多关系融合的哈希码生成模块,将哈希网络生成的哈希码和关系网络生成的哈希码相结合,得到最终的实值哈希码,计算公式为:
Figure BDA0002661641730000041
其中,λ是权重参数,用来衡量原始哈希码和带关系哈希码的影响。
进一步地,所述基于软边距的分类损失表达为:
Figure BDA0002661641730000042
其中,N是训练图像数量,Wj是类别j对应的分类权重,β≥1是能量因子,用来衡量放大分类预测值的倍数,决定了生成的软边距的大小,
Figure BDA0002661641730000043
是最终学习到的哈希码。
基于同一发明构思,本发明还提供一种采用上述方法的基于哈希编码和图注意力机制的零样本图像检索装置,其包括:
模型构建模块,用于构建哈希网络和关系网络,所述哈希网络用于提取图像特征并将图像特征转化成哈希码,所述关系网络用于构建语义相似图和视觉关系图,利用语义相似图和视觉相似图得到多关系融合的相似图,并将多关系融合的相似图与哈希网络得到的哈希码相结合,生成具有相似关系的哈希码;
模型训练模块,用于基于软边距的分类损失对哈希网络和关系网络进行训练;
图像检索模块,用于将数据库中的每一张图像输入到训练完成的哈希网络中,得到对应的图像哈希码,将待查询图像输入到训练完成的哈希网络中生成哈希码,计算其与数据库中每一张图像的哈希码之间的距离,并按照距离排序,返回满足要求的查询结果。
本发明的关键点是:
1.本发明提出的零样本哈希方法将图像特征提取、类别相似关系挖掘以及哈希学习整合到一个端到端的框架中,能够充分地挖掘和利用类别的相似关系来进行知识迁移,高效地生成大规模图像的哈希码,同时显著地提高模型的泛化能力。
2.本方法的关系网络包含三个主要的模块,语义关系挖掘模块通过构建语义相似图,能够显示地考虑类别在语义空间的相似性;视觉关系挖掘模块通过掩膜注意力机制构建视觉相似图,能够考虑类别在视觉空间的相似性;多关系融合的哈希码生成模块通过将这两个相似图结合,可以综合考虑类别在不同模态下的相似关系,而图卷积神经网络将多关系融合的相似图融合到哈希码的生成过程中,能够学习到保留相似关系的哈希码,从而进一步地促进了知识迁移。
3.本方法提出基于软边距的分类损失,能够为困难样本生成分类软边距,在一定程度上容忍错误的分类,从而避免对可见类别的过拟合学习,提高了模型对未见类别的泛化能力。
本发明的有益效果如下:
1.本发明将图像特征提取和哈希编码整合到一个端到端的框架中,一方面可以借助深度学习强大的表达能力,保留图像更多的语义信息,另一方面,减少了特征提取和哈希编码的信息损失,可以高效地生成哈希码,显著地降低了计算和存储代价,更加适用于大规模图像检索任务。
2.本发明针对目前的零样本哈希方法中,类别关系挖掘不够充分,提出多关系融合的哈希码生成模块,利用构建多关系融合的相似图,可以考虑类别在不同模态下的相似关系,同时,利用图卷积神经网络,将相似关系融合到哈希码生成过程中,进一步提升了哈希码的迁移能力,从而能够更好地识别未见类别。
3.本发明针对哈希学习的过拟合问题,提出的基于软边距的分类损失,可以更好地监督哈希学习过程。在网络优化时,对于易区分样本,惩罚错误的分类,保证了哈希码的鉴别能力。而对于困难样本,生成的分类软边距能够在一定程度上容忍错误,从而避免了对可见类别的过拟合学习,增强了模型对未知类别的泛化能力,进而在整体上提高了检索准确度。
附图说明
图1是本发明方法的流程示意图。
图2是本发明方法提出的框架结构示意图。
图3是本发明方法和其他方法在哈希码长度为8、16、32、48时的汉明距离2以内的精度结果。其中(a)图是采用Animals with Attributes2数据集的结果,(b)图是采用CIFAR-10数据集的结果。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面通过具体实施例和附图,对本发明做进一步详细说明。
本发明提出一种基于哈希编码和图注意力机制的零样本图像检索方法。该方法提供一个端到端的神经网络架构,主要由哈希网络、关系网络和损失模块组成。在哈希网络中,图像经过深度卷积神经网络得到图像特征,再经过全连接层转换为哈希码。为了充分挖掘和利用类别之间的相似关系,关系网络通过融合相似关系到哈希码的生成过程中,来增强哈希码的迁移能力。首先,利用类别标签的语义向量构建语义相似图,在此基础上,提出掩膜注意力机制,利用图像特征构造出视觉相似图,接着在两个相似图上做插值相加操作,最终得到多关系融合的相似图。然后,引入图卷积神经网络,将多关系融合的相似图与哈希网络中学习到的哈希码相结合,从而得到保留相似关系的哈希码,更好地进行知识迁移。此外,为了避免哈希学习的过拟合问题,提出基于软边距的分类损失,来更好地监督哈希学习过程。在网络优化时,对于易区分样本,惩罚错误的分类,保证了哈希码的鉴别能力。而对于困难样本,生成的分类软边距能够在一定程度上容忍错误,从而避免了对可见类别的过拟合学习,同时提高了哈希码的泛化能力。
按照本发明所提供的设计方案,一种基于哈希编码和图注意力机制的零样本图像检索方法,具体包含如下步骤:
步骤1.数据预处理。按照类别将图像数据集分为训练集和测试集两部分,其中,每一个数据实例都包含一张图像和与其对应的类别标签。
步骤2.初始化模型框架。该框架由哈希网络、关系网络和损失模块组成。哈希网络包括图像特征提取模块和哈希模块,图像特征提取模块由深度卷积神经网络搭建而成,用于提取图像特征,而哈希模块用来将图像特征转化成哈希码。关系网络包括三个主要的模块,一是语义关系挖掘模块,利用类别语义标签来构建语义相似图;二是视觉关系挖掘模块,它在语义相似图的结构基础上,利用掩膜注意力机制,构建视觉关系图;三是多关系融合的哈希码生成模块,它利用语义相似图和视觉相似图,得到多关系融合的相似图,能够同时考虑类别在语义空间和视觉空间的相似结构,更加充分地挖掘类别之间的联系。然后,引入多关系融合的哈希码生成模块的图卷积神经网络,将多关系融合的相似图与哈希网络中学习到的原始哈希码相结合,用来生成更多具有相似关系的哈希码。损失模块是基于软边距的分类损失,它能够避免哈希学习的过拟合问题,进一步提高模型的泛化能力。该步骤2中各模块具体的计算公式见前文发明内容中的说明。
步骤3.模型训练。将训练集分成小批量数据,以批量为单位将图像输入到哈希网络中,经过图像特征提取模块得到图像视觉特征,再经过哈希模块得到初步的实值哈希码。在关系网络中,利用图像的类别语义标签经过语义关系挖掘模块,得到语义关系图,同时,利用图像视觉特征经过视觉关系挖掘模块,得到视觉相似图。在多关系融合的哈希码生成模块,将两个相似图进行插值相加操作,得到多关系融合的相似图。然后利用图卷积神经网络将相似关系与哈希网络的初始实值哈希码相结合,得到具有相似关系的实值哈希码。最后,根据哈希码的分类预测结果,计算基于软边距的分类损失值,通过反向传播,更新整个网络的参数。直到网络收敛且在测试集上的检索效果达到最优,得到并保存最优模型。
步骤4.哈希码生成。利用步骤3中得到的最优模型,将数据库中的所有图像输入到哈希网络中,得到图像的实值哈希码。此时对生成的哈希码进行取符号操作,即对实值哈希码的每一位元素进行符号函数
Figure BDA0002661641730000071
操作后,得到图像的由+1和-1组成的二值哈希码。
步骤5.检索阶段。在给定新的查询图像时,通过步骤4,得到查询的二值哈希码,然后在此哈希码与数据库中所有图像的哈希码之间计算汉明距离,按照汉明距离的升序排序,按序输出相应的图像,得到检索结果。
为更好的表达本发明中提出的基于哈希编码和图注意力机制的零样本图像检索方法,下面以224×224像素的图像生成48位的哈希码为例,对本发明进行进一步的说明。
图1为本发明的整体流程图,包括数据预处理,初始化模型框架,模型训练,哈希码生成和检索阶段五个部分。
步骤1.数据预处理。按照类别将整个数据集分为训练集和测试集两部分,其中训练集只包含已见类别,测试集中只包含未见类别,每张图像都有与之对应的类别标签;
步骤2.初始化模型框架。图2是本发明中设计的模型框架,该框架包含哈希网络、关系网络以及损失函数模块。卷积层用“Cov”表示,全连接层用“FC”表示,最大池化层用“MaxPool”表示(图2中未示意该层),图卷积神经网络用“G-Cov”表示。深度卷积神经网络的各项参数配置按顺序设置为:Cov(k.64×11×11,st.4×4,pad 2),ReLU,MaxPool(k.3×3,st.2×2,pad 0);Cov(k.192×5×5,st.1×1,pad 2),ReLU,MaxPool(k.3×3,st.2×2,pad0);Cov(k.384×3×3,st.1×1,pad 1),ReLU;Cov(k.256×3×3,st.1×1,pad 1),ReLU;Cov(k.256×3×3,st.1×1,pad 1),ReLU,MaxPool(k.3×3,st.2×2,pad 0);FC1;FC2,其中,k.表示卷积核的配置信息(个数×宽度×高度),st.表示步长,pad表示填充维度,FC1、FC2的特征数为4096。FC3层的特征数为图像特征的维度,在本实例中为1024。哈希模块中,FC4层的特征数为哈希码的长度,在本实例中为48。视觉关系挖掘模块中,权重维度为图像特征维度的2倍,在本实例中为2048。图卷积神经网络中,权重维度与哈希码的长度一致,在本实例中为48。类别词向量是从Word2Vec工具直接生成的,维度固定为300。
在本实例中,输入图像通过图像特征提取网络(图像特征提取模块)得到1024维的特征向量,即为FC3的输出。随后,图像特征经过哈希模块的全连接层FC4,得到48位的哈希码;图像对应的类别词向量经过语义关系挖掘模块得到语义相似图,其规模与训练批量大小相同,在实例中为64×64,同时,1024维的图像特征经过视觉关系挖掘模块得到视觉相似图,其规模也与训练批量大小相同,在实例中为64×64;在多关系融合的哈希码生成模块中,语义相似图和视觉相似图插值相加得到多关系融合的相似图,同时,FC4输出的48位哈希码和相似图一同输入到图卷积神经网络G-Cov中,得到48位的保留相似关系的哈希码。最后,再结合FC4输出的哈希码和G-Cov输出的哈希码,得到最终的48位的哈希码。
步骤3.模型训练。根据得到的实值哈希码,计算基于软边距的分类损失,通过反向传播更新整个网络的参数。重复参数更新过程,直到模型收敛,并且在测试集中的效果达到最优,保存此时的最优模型;
步骤4.哈希码生成。对于数据库中的每一张图像,将其输入到图像特征提取网络中,得到1024维的图像特征,然后再经过哈希模块的全连接层FC4,得到48位的实值哈希码,最后通过符号函数的操作,得到二值哈希码。
步骤5.检索阶段。将待查询的图像按照步骤4传入网络中,得到查询的二值哈希码,然后计算其与数据库中每一张图像哈希码之间的汉明距离,根据汉明距离的升序排列,返回满足要求的查询结果。
对比方法:ITQ、IMH、KSH、SDH、DHN、DNNH、TSK、SitNet
实验数据集:Animals with Attributes2、CIFAR-10、ImageNet
评价指标:平均精度均值(mAP)、汉明距离2以内精度(P@H≤2)
实验证明,本发明的性能优于其他方法,表1是实验数据,其中最后一行是本发明的方法结果。图3是各方法在哈希码长度为8、16、32、48时的汉明距离2以内的精度结果。
表1:各方法在哈希码长度为8、16、32、48时的平均精度均值结果
Figure BDA0002661641730000081
基于同一发明构思,本发明的另一个实施例提供一种采用上述方法的基于哈希编码和图注意力机制的零样本图像检索装置,其包括:
模型构建模块,用于构建哈希网络和关系网络,所述哈希网络用于提取图像特征并将图像特征转化成哈希码,所述关系网络用于构建语义相似图和视觉关系图,利用语义相似图和视觉相似图得到多关系融合的相似图,并将多关系融合的相似图与哈希网络得到的哈希码相结合,生成具有相似关系的哈希码;
模型训练模块,用于基于软边距的分类损失对哈希网络和关系网络进行训练;
图像检索模块,用于将数据库中的每一张图像输入到训练完成的哈希网络中,得到对应的图像哈希码,将待查询图像输入到训练完成的哈希网络中生成哈希码,计算其与数据库中每一张图像的哈希码之间的距离,并按照距离排序,返回满足要求的查询结果。
基于同一发明构思,本发明的另一个实施例提供一种电子装置(计算机、服务器、智能手机等),其包括存储器和处理器,所述存储器存储计算机程序,所述计算机程序被配置为由所述处理器执行,所述计算机程序包括用于执行本发明方法中各步骤的指令。
基于同一发明构思,本发明的另一个实施例提供一种计算机可读存储介质(如ROM/RAM、磁盘、光盘),所述计算机可读存储介质存储计算机程序,所述计算机程序被计算机执行时,实现本发明方法的各个步骤。
以上公开的本发明的具体实施例和附图,其目的在于帮助理解本发明的内容并据以实施,本领域的普通技术人员可以理解,在不脱离本发明的精神和范围内,各种替换、变化和修改都是可能的。本发明不应局限于本说明书的实施例和附图所公开的内容,本发明的保护范围以权利要求书界定的范围为准。

Claims (10)

1.一种基于哈希编码和图注意力机制的零样本图像检索方法,其特征在于,包括以下步骤:
构建哈希网络和关系网络,所述哈希网络用于提取图像特征并将图像特征转化成哈希码,所述关系网络用于构建语义相似图和视觉关系图,利用语义相似图和视觉相似图得到多关系融合的相似图,并将多关系融合的相似图与哈希网络得到的哈希码相结合,生成具有相似关系的哈希码;
基于软边距的分类损失对哈希网络和关系网络进行训练;
将数据库中的每一张图像输入到训练完成的哈希网络中,得到对应的图像哈希码;
将待查询图像输入到训练完成的哈希网络中生成哈希码,计算其与数据库中每一张图像的哈希码之间的距离,并根据距离返回满足要求的查询结果。
2.根据权利要求1所述的方法,其特征在于,所述哈希网络包括图像特征提取模块和哈希模块;图像特征提取模块由深度卷积神经网络搭建而成,用于提取图像特征;哈希模块用来将图像特征转化成哈希码。
3.根据权利要求2所述的方法,其特征在于,所述图像特征提取模块的深度卷积神经网络由多个卷积层、最大池化层、局部响应归一化层和全连接层组成;所述哈希模块由全连接层和激活函数层组成,计算公式为:
B=tanh(f(x,θh))∈[-1,1]K
其中,B是哈希码,x是图像特征,θh是哈希模块的参数,K是哈希码的长度,激活函数tanh(·)将实值哈希码的值约束在[-1,1]范围内。
4.根据权利要求1所述的方法,其特征在于,所述关系网络包括语义关系挖掘模块、视觉关系挖掘模块和多关系融合的哈希码生成模块;语义关系挖掘模块利用类别语义标签构建语义相似图;视觉关系挖掘模块在语义相似图的结构基础上,利用掩膜注意力机制构建视觉关系图;多关系融合的哈希码生成模块利用语义相似图和视觉相似图,得到多关系融合的相似图,然后引入图卷积神经网络,将多关系融合的相似图与哈希网络中学习到的原始哈希码相结合,生成具有相似关系的哈希码。
5.根据权利要求3所述的方法,其特征在于,所述语义关系挖掘模块利用类别语义向量根据余弦相似度构建语义相似图,计算公式为:
Figure FDA0002661641720000011
其中,zi,zj分别代表图像xi,xj的类别语义向量,<·>表示内积操作,||·||表示向量的模长;
在语义相似图中只有Sf(i,j)>0的情况下才认为图像xi,xj相似,即图中顶点xi,xj有连边;
所述视觉关系挖掘模块利用图像的视觉特征经过掩膜注意力机制得到视觉相似图,计算公式为:
Figure FDA0002661641720000021
其中,[xi|xj]表示将图像特征xi和xj拼接,Wa是注意力权重参数,sigmoid(·)将相似度的值归一化到[0,1]范围内,ReLU是激活函数;
所述多关系融合的哈希码生成模块对语义相似图和视觉相似图进行插值相加操作,得到多关系融合的相似图,计算公式为:
S=αSf+(1-α)Sa
其中,α是权重参数,用来衡量语义相似图和视觉相似图的影响。
6.根据权利要求5所述的方法,其特征在于,所述多关系融合的哈希码生成模块中的图卷积神经网络将多关系融合的相似图与哈希网络生成的哈希码相结合,得到具有相似关系的哈希码,计算公式为:
Figure FDA0002661641720000022
其中,D是多关系融合的相似图S的度矩阵,Wg是图卷积神经网络中的权重参数,激活函数tanh(·)将生成的实值哈希码的值约束在[-1,1]范围内;
所述多关系融合的哈希码生成模块将哈希网络生成的哈希码和关系网络生成的哈希码相结合,得到最终的实值哈希码,计算公式为:
Figure FDA0002661641720000023
其中,λ是权重参数,用来衡量原始哈希码和带关系哈希码的影响。
7.根据权利要求1所述的方法,其特征在于,所述基于软边距的分类损失表达为:
Figure FDA0002661641720000024
其中,N是训练图像数量,Wj是类别j对应的分类权重,β≥1是能量因子,用来衡量放大分类预测值的倍数,决定了生成的软边距的大小,
Figure FDA0002661641720000025
是最终学习到的哈希码。
8.一种采用权利要求1~7中任一权利要求所述方法的基于哈希编码和图注意力机制的零样本图像检索装置,其特征在于,包括:
模型构建模块,用于构建哈希网络和关系网络,所述哈希网络用于提取图像特征并将图像特征转化成哈希码,所述关系网络用于构建语义相似图和视觉关系图,利用语义相似图和视觉相似图得到多关系融合的相似图,并将多关系融合的相似图与哈希网络得到的哈希码相结合,生成具有相似关系的哈希码;
模型训练模块,用于基于软边距的分类损失对哈希网络和关系网络进行训练;
图像检索模块,用于将数据库中的每一张图像输入到训练完成的哈希网络中,得到对应的图像哈希码,将待查询图像输入到训练完成的哈希网络中生成哈希码,计算其与数据库中每一张图像的哈希码之间的距离,并按照距离排序,返回满足要求的查询结果。
9.一种电子装置,其特征在于,包括存储器和处理器,所述存储器存储计算机程序,所述计算机程序被配置为由所述处理器执行,所述计算机程序包括用于执行权利要求1~7中任一权利要求所述方法的指令。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储计算机程序,所述计算机程序被计算机执行时,实现权利要求1~7中任一权利要求所述的方法。
CN202010906456.XA 2020-09-01 2020-09-01 一种基于哈希编码和图注意力机制的零样本图像检索方法及装置 Active CN112199532B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010906456.XA CN112199532B (zh) 2020-09-01 2020-09-01 一种基于哈希编码和图注意力机制的零样本图像检索方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010906456.XA CN112199532B (zh) 2020-09-01 2020-09-01 一种基于哈希编码和图注意力机制的零样本图像检索方法及装置

Publications (2)

Publication Number Publication Date
CN112199532A true CN112199532A (zh) 2021-01-08
CN112199532B CN112199532B (zh) 2022-10-14

Family

ID=74005304

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010906456.XA Active CN112199532B (zh) 2020-09-01 2020-09-01 一种基于哈希编码和图注意力机制的零样本图像检索方法及装置

Country Status (1)

Country Link
CN (1) CN112199532B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113051417A (zh) * 2021-04-20 2021-06-29 南京理工大学 一种细粒度图像检索方法及系统
CN113537384A (zh) * 2021-07-30 2021-10-22 中国海洋大学 基于通道注意力的哈希遥感图像检索方法、装置及介质
CN113688357A (zh) * 2021-07-19 2021-11-23 华南理工大学 网络图片版权的保护方法、装置、系统、设备及存储介质
CN113780245A (zh) * 2021-11-02 2021-12-10 山东建筑大学 一种多场景下的物品检索方法及系统
CN113889228A (zh) * 2021-09-22 2022-01-04 武汉理工大学 基于混合注意的语义增强哈希医学图像检索方法
CN116796032A (zh) * 2023-04-11 2023-09-22 重庆师范大学 一种基于自适应图注意力哈希的多模态数据检索模型
CN117573915A (zh) * 2024-01-16 2024-02-20 山东建筑大学 基于对比学习的二值码图像检索方法及系统

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108874914A (zh) * 2018-05-29 2018-11-23 吉林大学 一种基于图卷积与神经协同过滤的信息推荐方法
CN109063113A (zh) * 2018-07-30 2018-12-21 成都快眼科技有限公司 一种基于不对称深度离散哈希的快速图像检索方法、检索模型及模型构建方法
CN109947963A (zh) * 2019-03-27 2019-06-28 山东大学 一种基于深度学习的多尺度哈希检索方法
CN110175248A (zh) * 2019-04-04 2019-08-27 中国科学院信息工程研究所 一种基于深度学习和哈希编码的人脸图像检索方法和装置
CN110795590A (zh) * 2019-09-30 2020-02-14 武汉大学 基于直推式零样本哈希的多标签图像检索方法及设备
CN111274424A (zh) * 2020-01-08 2020-06-12 大连理工大学 一种零样本图像检索的语义增强哈希方法
CN111291212A (zh) * 2020-01-24 2020-06-16 复旦大学 基于图卷积神经网络的零样本草图图像检索方法和系统
US20200242422A1 (en) * 2019-01-29 2020-07-30 Boe Technology Group Co., Ltd. Method and electronic device for retrieving an image and computer readable storage medium

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108874914A (zh) * 2018-05-29 2018-11-23 吉林大学 一种基于图卷积与神经协同过滤的信息推荐方法
CN109063113A (zh) * 2018-07-30 2018-12-21 成都快眼科技有限公司 一种基于不对称深度离散哈希的快速图像检索方法、检索模型及模型构建方法
US20200242422A1 (en) * 2019-01-29 2020-07-30 Boe Technology Group Co., Ltd. Method and electronic device for retrieving an image and computer readable storage medium
CN109947963A (zh) * 2019-03-27 2019-06-28 山东大学 一种基于深度学习的多尺度哈希检索方法
CN110175248A (zh) * 2019-04-04 2019-08-27 中国科学院信息工程研究所 一种基于深度学习和哈希编码的人脸图像检索方法和装置
CN110795590A (zh) * 2019-09-30 2020-02-14 武汉大学 基于直推式零样本哈希的多标签图像检索方法及设备
CN111274424A (zh) * 2020-01-08 2020-06-12 大连理工大学 一种零样本图像检索的语义增强哈希方法
CN111291212A (zh) * 2020-01-24 2020-06-16 复旦大学 基于图卷积神经网络的零样本草图图像检索方法和系统

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113051417A (zh) * 2021-04-20 2021-06-29 南京理工大学 一种细粒度图像检索方法及系统
CN113688357A (zh) * 2021-07-19 2021-11-23 华南理工大学 网络图片版权的保护方法、装置、系统、设备及存储介质
CN113537384A (zh) * 2021-07-30 2021-10-22 中国海洋大学 基于通道注意力的哈希遥感图像检索方法、装置及介质
CN113537384B (zh) * 2021-07-30 2023-11-28 中国海洋大学 基于通道注意力的哈希遥感图像检索方法、装置及介质
CN113889228A (zh) * 2021-09-22 2022-01-04 武汉理工大学 基于混合注意的语义增强哈希医学图像检索方法
CN113780245A (zh) * 2021-11-02 2021-12-10 山东建筑大学 一种多场景下的物品检索方法及系统
CN116796032A (zh) * 2023-04-11 2023-09-22 重庆师范大学 一种基于自适应图注意力哈希的多模态数据检索模型
CN117573915A (zh) * 2024-01-16 2024-02-20 山东建筑大学 基于对比学习的二值码图像检索方法及系统
CN117573915B (zh) * 2024-01-16 2024-04-26 山东建筑大学 基于对比学习的二值码图像检索方法及系统

Also Published As

Publication number Publication date
CN112199532B (zh) 2022-10-14

Similar Documents

Publication Publication Date Title
CN112199532B (zh) 一种基于哈希编码和图注意力机制的零样本图像检索方法及装置
Zhang et al. Improved deep hashing with soft pairwise similarity for multi-label image retrieval
CN109165306B (zh) 基于多任务哈希学习的图像检索方法
CN112015868B (zh) 基于知识图谱补全的问答方法
CN113535984B (zh) 一种基于注意力机制的知识图谱关系预测方法及装置
CN113657450B (zh) 基于注意机制的陆战场图像-文本跨模态检索方法及其系统
CN112507995B (zh) 一种跨模型人脸特征向量的转换系统及方法
CN113377981B (zh) 基于多任务深度哈希学习的大规模物流商品图像检索方法
CN111985538A (zh) 基于语义辅助注意力机制的小样本图片分类模型及方法
CN112949740B (zh) 一种基于多级度量的小样本图像分类方法
CN115203442B (zh) 基于联合注意力的跨模态深度哈希检索方法、系统及介质
CN111026887B (zh) 一种跨媒体检索的方法及系统
CN114943017B (zh) 一种基于相似性零样本哈希的跨模态检索方法
CN110598022B (zh) 一种基于鲁棒深度哈希网络的图像检索系统与方法
CN113378938B (zh) 一种基于边Transformer图神经网络的小样本图像分类方法及系统
CN116383422B (zh) 一种基于锚点的无监督跨模态哈希检索方法
Li et al. DAHP: Deep attention-guided hashing with pairwise labels
CN113051914A (zh) 一种基于多特征动态画像的企业隐藏标签抽取方法及装置
CN113868448A (zh) 一种细粒度场景级基于草图的图像检索方法及系统
CN111241326B (zh) 基于注意力金字塔图网络的图像视觉关系指代定位方法
CN115457332A (zh) 基于图卷积神经网络和类激活映射的图像多标签分类方法
CN113806582A (zh) 图像检索方法、装置、电子设备和存储介质
CN112035689A (zh) 一种基于视觉转语义网络的零样本图像哈希检索方法
CN112529057A (zh) 一种基于图卷积网络的图相似性计算方法及装置
CN116797821A (zh) 一种基于融合视觉信息的广义零样本图像分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant