CN112948617B - 基于特定类原型的深度哈希网络图像检索方法及装置 - Google Patents

基于特定类原型的深度哈希网络图像检索方法及装置 Download PDF

Info

Publication number
CN112948617B
CN112948617B CN202110176957.1A CN202110176957A CN112948617B CN 112948617 B CN112948617 B CN 112948617B CN 202110176957 A CN202110176957 A CN 202110176957A CN 112948617 B CN112948617 B CN 112948617B
Authority
CN
China
Prior art keywords
hash
prototype
image data
deep
semantic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110176957.1A
Other languages
English (en)
Other versions
CN112948617A (zh
Inventor
马雷
罗心怡
刘红
李璇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Institute of Technology
Original Assignee
Wuhan Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Institute of Technology filed Critical Wuhan Institute of Technology
Priority to CN202110176957.1A priority Critical patent/CN112948617B/zh
Publication of CN112948617A publication Critical patent/CN112948617A/zh
Application granted granted Critical
Publication of CN112948617B publication Critical patent/CN112948617B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/51Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • G06F16/538Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/55Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Library & Information Science (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于特定类原型的深度哈希网络图像检索方法及装置,涉及计算机信息检索技术领域。基于特定类原型深度哈希网络的数据检索方法具体包括:建立深度哈希网络模型;获取待检索的目标图像信息;根据所述深度哈希网络模型对所述目标图像信息进行检索,得到检索结果。本发明通过标签信息分解学习得到离散的特定类原型,作为语义标签的中间语义表示,并建立所述图像数据的哈希码和所述特定类原型之间的粗略语义关系,并通过成对的监督信息构造所有哈希码之间的精细化语义关系,该中间表示缩小了语义标签和哈希码之间的语义差距,解决语义标签与哈希码之间存在的语义鸿沟和域鸿沟问题,提升了哈希检索的性能。

Description

基于特定类原型的深度哈希网络图像检索方法及装置
技术领域
本发明属于计算机信息检索技术领域,特别是涉及一种基于特定类原型的深度哈希网络图像检索方法及装置。
背景技术
哈希方法,尤其是深度哈希方法(deep hashing)最近在大规模多媒体检索中流行起来,它可以用于各种大规模多媒体数据搜索任务。但是,许多多媒体数据中提取的哈希码与语义标签之间仍然存在着“语义鸿沟”,即从底层视觉特征提取的哈希码计算的相似性与人所理解的语义相似性之间存在差异,和“域鸿沟”问题,即哈希码位于汉明空间与语义标签位于的独热(one-hot)空间存在差异,引起哈希码的语义表示能力不足极大地削弱了制约了哈希检索的搜索性能的提升。
发明内容
本发明所要解决的技术问题是提供一种基于特定类原型深度哈希网络的数据检索方法及装置,解决语义标签与哈希码之间存在的语义鸿沟和域鸿沟,制约了哈希检索性能提升的问题。
具体实现步骤分别如下:
S1,建立深度哈希网络模型;所述深度哈希网络模型由图像数据的语义标签学习离散特定类原型作为语义标签的中间语义表示,建立所述图像数据的哈希码和所述特定类原型之间的粗略语义关系,并通过成对的监督信息构造所有哈希码之间的精细化语义关系得到;
S2,获取待检索的目标图像信息;
S3,根据所述深度哈希网络模型对所述目标图像信息进行检索,得到检索结果。
本发明的技术效果是:本发明通过标签信息分解学习得到离散的特定类原型,作为语义标签的中间语义表示,并建立所述图像数据的哈希码和所述特定类原型之间的粗略语义关系,并通过成对的监督信息构造所有哈希码之间的精细化语义关系,该中间表示缩小了语义标签和哈希码之间的语义差距,提升了哈希检索的搜索性能。
可选地,所述深度哈希网络模型的目标函数包含第一公式以进行学习离散特定类原型,所述第一公式为:
Figure BDA0002940246300000021
s.t.C=[c1,c2,…,cL]T∈{-1,1}L×r,
B=[b1,b2,…,bN]∈{-1,1}r×N,
Figure BDA0002940246300000022
h(xi)=sign(F(xi;θ))
Figure BDA0002940246300000023
其中,
Figure BDA0002940246300000024
是标签信息矩阵,可由Y=[Yki]L×N,Yki∈{0,1}根据公式
Figure BDA0002940246300000025
计算得到,表示特定类原型与所欲训练图像哈希码之间的语义相似和语义不相似信息;i(i=1,2,…,N)是训练样本图像数据的序号,N为所述训练样本图像数据的数量,j(j=1,2,…,L)是特定类原型的类序号,L为特定类原型的类数量;Yki表示训练样本集的标签信息,分别用于表示所述批次内第i个训练样本图像数据是否包含第k个类别目标;C表示特定类原型矩阵,其中cj表示第j个特定类原型;xi表示第i个所述训练样本图像数据的特征向量;X表示所述训练样本图像数据的特征向量集合;映射关系h是将所述特征向量转换成二进制哈希码的哈希函数,即深度哈希网络,其中F(xi;θ)∈Rr表示所述深度神经网络的输出,θ为所述深度神经网络参数,r是所述深度神经网络输出的特征维度;bi表示第i个所述训练样本图像数据的哈希码;B表示所述训练样本图像数据的特征向量集合映射到汉明空间中的哈希码矩阵,即图像数据库哈希码集合;
所述第一公式构成一个损失函数,用于限制学习到的第j个特定类原型的形式,使得:所述第j个特定类原型与第i个所述训练样本图像数据的哈希码之间的相似度,与所述第j个特定类原型与第i个所述训练样本图像数据的哈希码的内积相近。
上述可选方案的技术效果是:通过标签信息学习得到了离散的特定类原型,作为语义标签的中间语义表示,该中间表示缩小了语义标签和哈希码之间的语义差距。
进一步,所述深度哈希网络模型的目标函数还包含第二公式进行学习所述粗略语义关系,所述第二公式为:
Figure BDA0002940246300000031
其中,i(i=1,2,…,M)是一个批次的训练样本图像数据的序号,M为所述批次大小,bi表示所述批次内第i个训练样本图像数据的深度哈希网络输出,即所述批次内第i个训练样本图像数据的哈希码;j(j=1,2,…,L)是所述特定类原型的类序号,L为所述特定类原型的类数量;ck表示第k个所述特定类原型;Yki表示所述训练样本集的标签信息。
所述第二公式构成一个负对数似然函数,主要表征所述批次内训练样本图像数据的哈希码能被所述特定类原型正确分类的概率,并用-log函数将所述概率转化成非负值以用来生成约束。
上述可选方案的技术效果是:通过引入负对数似然函数可以同时最小化类内变化以及最大化类间变化,从而生成具有判别性和聚合度的哈希码,因此能建立较粗粒度的语义邻域关系。
进一步,所述深度哈希网络模型的目标函数还包含以下第三公式进行学习所述精细语义关系,所述第三公式为:
Figure BDA0002940246300000041
其中,i(i=1,2,…,M)是所述批次内的训练样本图像数据序号,M为所述批次大小;j(j=1,2,…,N)是所述训练样本图像数据的序号,N为所述图像训练样本数量;Sij表示所述批次内训练样本图像数据的第i个样本与所述训练样本图像数据内第j个样本的相似度;
Figure BDA0002940246300000042
bi表示所述批次内第i个训练样本图像数据的深度哈希网络输出,即所述批次内第i个训练样本图像数据的哈希码;bj表示所述训练样本图像数据内第j个样本的深度哈希网络输出,即第j个所述训练样本图像数据的哈希码。
所述第三公式用于约束深度哈希网络的映射,使得所述约束满足以下特性:所述批次内训练样本图像数据的哈希码与所述训练样本图像数据的哈希码的内积,趋近于所述批次内训练样本图像数据的哈希码与所述训练样本图像数据的哈希码的相关性。
上述可选方案的技术效果是:使得不同哈希码之间的距离大于相似哈希码之间的距离,建立精确语义邻域关系;在检索任务中保持语义相似性。
进一步,所述深度哈希网络模型的目标函数还包含超参数用于与公式相乘以控制学习目标的权重:
预设第一超参数γ,用于所述第一公式;
预设第二超参数λ和N的乘积,用于所述第二公式。
上述可选方案的技术效果是:通过λ控制哈希码的区分性和聚合性,γ控制特定类原型和哈希码之间的语义相关性;引入N可以平衡不同训练样本数量因素带来的优化项间影响。
进一步,所述深度哈希网络模型包含深度哈希网络和所述图像数据库哈希码集合,所述深度哈希网络包含由所述深度哈希网络模型和训练样本训练得到的深度哈希网络模型参数;所述图像数据库哈希码集合包含由所述训练样本经过所述深度哈希网络输出得到的哈希码;
S3步骤具体包括:
S3.1对所述待检索的目标图像信息预处理,得到待查询图像数据的特征向量;
S3.2将所述待查询图像数据的特征向量输入所述深度哈希网络,得到待查询哈希码;
S3.3将所述待查询哈希码与所述图像数据库哈希码集合中的哈希码进行比对,找出最相似的所述样本图像数据和该最相似图像数据对应的语义标签。
上述可选方案的技术效果是:通过将目标图像信息转换成哈希码进行比对得到最相似的所述样本图像数据和该最相似图像数据对应的语义标签。
进一步,S1还包含根据所述深度哈希网络的目标函数的优化步骤:
S1.1使用所述深度神经网络的输出值替代原目标函数中的哈希值;
S1.2固定所述深度神经网络参数θ,优化所述特定类原型矩阵C;
S1.3固定所述特定类原型矩阵C,优化所述深度神经网络参数θ;若未抵达停止条件,返回执行S1.2。
上述改进的有益效果是:使用所述深度神经网络的输出值替代原目标函数中的哈希值简化了优化过程,规避了哈希神经网络中哈希映射不可导的缺点;采用固定一部分参数,同时优化另一部分参数的方式迭代优化,简化变量的复杂优化过程。
进一步,S1.2采用逐列的方式优化所述特定类原型矩阵C。
上述改进的有益效果是:简化变量的优化过程。
本发明还提供一种和上述基于深度哈希网络的数据检索方法对应的基于深度哈希网络的数据检索装置,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序,实现如上述任一项所述的基于特定类原型的深度哈希网络图像检索方法。
本发明还提供一种非易失性计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现上述任一项所述的基于特定类原型的深度哈希网络图像检索方法。
本发明附加的方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明实践了解到。
附图说明
图1为本发明实施例提供的一种基于特定类原型深度哈希网络的数据检索方法的流程图。
图2为本发明实施例提供的一种基于特定类原型深度哈希网络的数据检索装置。
图3为本发明实施例提供的方案与现有技术在CIFAR-10上检索结果的平均精度对比。
图4为本发明实施例提供的方案与现有技术在MS-COCO上检索结果的平均精度对比。
图5为本发明实施例提供的方案与现有技术在NUS-WIDE上检索结果的平均精度对比。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
实施例一
本实施例提供了如图1所示一种基于特定类原型深度哈希网络的数据检索方法,包括:
S1,建立深度哈希网络模型;深度哈希网络模型由图像数据的语义标签学习离散特定类原型作为语义标签的中间语义表示,建立图像数据的哈希码和特定类原型之间的粗略语义关系,并通过成对的监督信息构造所有哈希码之间的精细化语义关系得到;
S2,获取待检索的目标图像信息;
S3,根据深度哈希网络模型对目标图像信息进行检索,得到检索结果。
具体地,检索过程包括:对待检索图像做预处理,提取出特征向量,将特征向量输入进深度哈希网络得到待检索图像的哈希码;将哈希码与从深度哈希网络中得到的图像数据库哈希码集合进行比较,得到图像数据库哈希码集合中最接近待检索图像哈希码的哈希码和相对应的语义标签;将得到的语义标签输出作为待检索图像的分类结果;将从所述图像数据库哈希码集合中得到的哈希码对应的训练样本输出,作为搜索得到的最接近待检索图像的训练样本。
发明的技术效果是:本发明通过标签信息分解学习得到离散的特定类原型,作为语义标签的中间语义表示,并建立图像数据的哈希码和特定类原型之间的粗略语义关系,并通过成对的监督信息构造所有哈希码之间的精细化语义关系,该中间表示缩小了语义标签和哈希码之间的语义差距,提升了哈希检索的搜索性能。具体地,如图3、图4和图5所示,本申请方法(缩写DCPH方法)在已有的常见三个数据集上都较现有方法相比,在检索精确度上均获得了较大幅度的提升(数值越大越好)。
可选地,在一些其他实施方式中,深度哈希网络模型的目标函数包含第一公式以进行学习离散特定类原型,第一公式为:
Figure BDA0002940246300000081
s.t.C=[c1,c2,…,cL]T∈{-1,1}L×r,
B=[b1,b2,…,bN]∈{-1,1}r×N,
Figure BDA0002940246300000082
h(xi)=sign(F(xi;θ))
Figure BDA0002940246300000083
其中,
Figure BDA0002940246300000084
是标签信息矩阵,可由Y=[Yki]L×N,Yki∈{0,1}根据公式
Figure BDA0002940246300000085
计算得到,表示特定类原型与所欲训练图像哈希码之间的语义相似和语义不相似信息;i(i=1,2,…,N)是训练样本图像数据的序号,N为所述训练样本图像数据的数量,j(j=1,2,…,L)是特定类原型的类序号,L为特定类原型的类数量;Yki表示训练样本集的标签信息,分别用于表示所述批次内第i个训练样本图像数据是否包含第k个类别目标;C表示特定类原型矩阵,其中cj表示第j个特定类原型;xi表示第i个训练样本图像数据的特征向量;X表示训练样本图像数据的特征向量集合;映射关系h是将特征向量转换成二进制哈希码的哈希函数,即深度哈希网络,其中F(xi;θ)∈Rr表示深度神经网络的输出,θ为深度神经网络参数,r是深度神经网络输出的特征维度;bi表示第i个训练样本图像数据的哈希码;B表示训练样本图像数据的特征向量集合映射到汉明空间中的哈希码矩阵。
第一公式构成损失函数中的一个约束,用于限制学习到的第j个特定类原型的形式,使得:第j个特定类原型与第i个训练样本图像数据的哈希码之间的相似度,与第j个特定类原型与第i个训练样本图像数据的哈希码的内积相近。
上述可选方案的技术效果是:本发明通过标签信息分解学习得到了离散的特定类原型,作为语义标签的中间语义表示,该中间表示缩小了语义标签和哈希码之间的语义差距。
可选地,在一些其他实施方式中,如图2所示的一种基于特定类原型的深度哈希网络图像检索方法,深度哈希网络模型的目标函数还包含第二公式进行学习粗略语义关系,第二公式为:
Figure BDA0002940246300000091
其中,i(i=1,2,…,M)是一个批次的训练样本图像数据的序号,M为批次大小,bi表示批次内第i个训练样本图像数据的深度哈希网络输出,即批次内第i个训练样本图像数据的哈希码;j(j=1,2,…,L)是特定类原型的类序号,L为特定类原型的类数量;ck表示第k个特定类原型;Yki表示训练样本集的标签信息,分别用于表示批次内第i个训练样本图像数据的哈希码与第k个特定类原型的相关/无关关系。
第二公式构成一个负对数似然函数,主要表征批次内训练样本图像数据的哈希码能被特定类原型正确分类的概率,并用-log函数将概率转化成非负值以用来生成约束。
第二公式的具体推导过程如下:构造一个完整的二部图G=(B,C,w),以此建立特定类原型矩阵C与哈希码矩阵B之间的粗略语义关系。顶点bi和顶点ck之间的边权重定义为
Figure BDA0002940246300000101
其中符号(·)T表示矩阵转置。在连接顶点bi的边权重上使用柔性最大值归一化来定义相邻概率Pik
Figure BDA0002940246300000102
其中Pik是bi选择ck作为其邻居的概率。这种邻域关系是粗糙的,因为本发明只考虑了哈希码和特定类原型之间的关系。若第k个特定类原型ck属于哈希码bi的语义类之一,则类原型ck就是哈希码bi的相关语义邻域。
基于此定义,图像i被正确分类的概率Pi为:
Figure BDA0002940246300000103
因此,由正确分类的概率Pi定义一个负对数似然函数为:
Figure BDA0002940246300000104
负对数似然函数可以同时最小化类内变化以及最大化类间变化,从而生成具有判别性和聚合度的哈希码。
可选地,在一些其他实施方式中,深度哈希网络模型的目标函数还包含以下第三公式进行学习精细语义关系,第三公式为:
Figure BDA0002940246300000111
其中,i(i=1,2,…,M)是批次内的训练样本图像数据序号,M为批次大小;j(j=1,2,…,N)是训练样本图像数据的序号,N为图像训练样本数量;Sij表示批次内训练样本图像数据的第i个样本与训练样本图像数据内第j个样本的相似度;
Figure BDA0002940246300000112
bi表示批次内第i个训练样本图像数据的深度哈希网络输出,即批次内第i个训练样本图像数据的哈希码;bj表示训练样本图像数据内第j个样本的深度哈希网络输出,即第j个训练样本图像数据的哈希码。
第三公式用于约束深度哈希网络的映射,使得约束满足以下特性:批次内训练样本图像数据的哈希码与训练样本图像数据的哈希码的内积,趋近于批次内训练样本图像数据的哈希码与训练样本图像数据的哈希码的相关性。
上述可选方案的技术效果是:使得不同哈希码之间的距离大于相似哈希码之间的距离,建立精确语义邻域关系;在检索任务中保持语义相似性。
可选地,在一些其他实施方式中,深度哈希网络模型的目标函数还包含超参数用于与公式相乘以控制学习目标的权重:
预设第一超参数γ,用于第一公式;
预设第二超参数λ和N的乘积,用于第二公式。
本实施例提出的目标函数为:J=JR+λNJC+γJP
故目标函数可以重新表述如下:
Figure BDA0002940246300000121
其中,
Figure BDA0002940246300000122
采取上述技术方案所得到的优于目前方案的效果在于:通过λ控制哈希码的区分性和聚合性,γ控制特定类原型和哈希码之间的语义相关性;引入N可以平衡不同训练样本数量因素带来的优化项间影响。
可选地,在一些其他实施方式中,深度哈希网络模型包含深度哈希网络和图像数据库哈希码集合,深度哈希网络包含由深度哈希网络模型和训练样本训练得到的深度哈希网络模型参数;图像数据库哈希码集合包含由训练样本经过深度哈希网络输出得到的哈希码;
S3步骤具体包括:
S3.1对待检索的目标图像信息预处理,得到待查询图像数据的特征向量;
S3.2将待查询图像数据的特征向量输入深度哈希网络,得到待查询哈希码;
S3.3将待查询哈希码与图像数据库哈希码集合中的哈希码进行比对,找出最相似的样本图像数据和该最相似图像数据对应的语义标签。
上述可选方案的技术效果是:通过将目标图像信息转换成哈希码进行比对得到最相似的样本图像数据和该最相似图像数据对应的语义标签。
可选地,在一些其他实施方式中,S1还包含根据深度哈希网络的目标函数的优化步骤:
S1.1使用深度神经网络的输出值替代原目标函数中的哈希值;
S1.2固定深度神经网络参数θ,优化特定类原型矩阵C;
S1.3固定特定类原型矩阵C,优化深度神经网络参数θ;若未抵达停止条件,返回执行S1.2。
具体地,S1.1步骤使用深度神经网络的输出值替代原目标函数中的哈希值可表述成下式:
Figure BDA0002940246300000131
,其中
Figure BDA0002940246300000132
上述改进的有益效果是:使用深度神经网络的输出值替代原目标函数中的哈希值简化了优化过程,规避了哈希神经网络中哈希映射不可导的缺点;采用固定一部分参数,同时优化另一部分参数的方式迭代优化,简化变量的复杂优化过程。
可选地,在一些其他实施方式中,S1.2采用逐列的方式优化特定类原型矩阵C。在优化特定类原型与深度哈希网络参数过程中,关于
Figure BDA0002940246300000133
的次优问题可以改写成:
Figure BDA0002940246300000134
其中,C的t列表示为
Figure BDA0002940246300000135
C的矩阵(不包括
Figure BDA0002940246300000136
)表示为
Figure BDA0002940246300000137
U的t行表示为
Figure BDA0002940246300000138
U的矩阵(不包括
Figure BDA0002940246300000139
)表示为
Figure BDA00029402463000001310
Q的第t列表示为
Figure BDA00029402463000001311
不含
Figure BDA00029402463000001312
的Q矩阵表示为
Figure BDA00029402463000001313
和“const”表示常数;
Figure BDA0002940246300000141
可按如下方式更新:
Figure BDA0002940246300000142
上述改进的有益效果是:简化变量的优化过程。
可以理解,在一些实施例中,可以包含如上述各实施方式中的部分或全部。
以上实施例中涉及的方法均利用开源的深度学习工具Pytorch对模型进行编程实现,将模型源代码放在具有2张Titan V型GPU服务器上进行训练。按照步骤一、二中的参数设置,对模型参数进行调整得到最优的参数值。最后,将训练好后的模型参数保存,以备后续使用和测试。
此实施例在几个大规模图像数据集上的实验表明所提出的方法在图像检索应用中优于目前已知的哈希方法。对于所有数据库,输入深度网络的批次大小M为128。对于CIFAR-10数据库、MS-COCO和NUS-WIDE数据库,本发明提出方法的迭代次数分别设为100、100和60。对于所有的数据学习率从0.01到0.0001通过交叉验证的方式进行设定。
具体地,从三个公开的数据集CIFAR-10,MS-COCO和NUS-WIDE获取数据。CIFAR-10数据包含10种类别60000张彩色图片。这些类别分别是“airplane”,“automobile”,“bird”,“cat”“deer”,“dog”,“frog”,“horse”,“ship”和“truck”。每一类分别包含6000张图片。从每一类中随机选择100张图片构成查询集。剩余样本作为检索集,从检索集的每一类中随机选择500张图片作为训练集。然后从检索集的每一类中随机选择3000张图像构成测试集。MS-COCO包含82783张训练图片、40504张验证图片。该数据库为多标签数据库,即每张图像至少包含91个类别中的一种。训练图像集中不包含类别信息的将被移除。对于MS-COCO数据库,从数据集和验证集中选择20个最多的类别挑选出来进行测试。从20类数据集中每一类中随机选择500张图像共10000张作为训练集。随机从20类验证集的每一类中选择250张图像共5000张图像作为测试集。其余图像作为检索集。NUS-WIDE数据集包含269648张图像。该数据库为一个多标签数据库,每张图片至少属于81类中的一个类别。选择21个最多的类别标签图像,共95834张图像进行测试。修剪后的NUS-WIDE数据,每一类至少包含5000张图像。随机从每一类中选择100张图像共2100张作为查询集,剩余图像构成检索集。然后从检索集中每类随机选择500张图像共10500张作为训练集。
实施例二
如图2所示,本实施例提供了一种基于特定类原型深度哈希网络的图像数据检索装置,包括:
存储器91,用于存储计算机程序;
处理器92,用于执行计算机程序,实现如上述任一项的基于特定类原型的深度哈希网络图像检索方法。
具体地,处理器92和存储器91电连接。处理器91可访问存储器92,读取存储器92中的程序和数据,并用于执行基于特定类原型深度哈希网络的图像数据方法;存储器91可存储处理器92中用于执行基于特定类原型深度哈希网络的图像数据方法的程序和数据,并用于保存处理器92执行方法后得到的结果。
实施例三
本实施例提供了一种非易失性计算机可读存储介质,其上存储有计算机程序指令,计算机程序指令被处理器执行时实现上述任意一项的基于特定类原型的深度哈希网络图像检索方法。
本公开可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于使处理器实现本公开的各个方面的计算机可读程序指令。
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是——但不限于——电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,编程语言包括面向对象的编程语言-诸如C++、Python等,以及常规的过程式编程语言-诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络-包括局域网(LAN)或广域网(WAN)-连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本公开的各个方面。
这里参照根据本公开实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
附图中的流程图和框图显示了根据本公开的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
以上已经描述了本公开的各实施例,上述说明是示例性的,并非穷尽性的,并且也不用以限制所披露的各实施例。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims (6)

1.一种基于特定类原型的深度哈希网络图像检索方法,其特征在于,包括如下步骤:
S1,建立深度哈希网络模型;
所述深度哈希网络模型由图像数据的语义标签学习离散特定类原型作为语义标签的中间语义表示,建立所述图像数据的哈希码和所述特定类原型之间的粗略语义关系,并通过成对的监督信息构造所有哈希码之间的精细化语义关系得到;
S2,获取待检索的目标图像信息;
S3,根据所述深度哈希网络模型对所述目标图像信息进行检索,得到检索结果;
所述深度哈希网络模型的目标函数包含第一公式以进行学习离散特定类原型,所述第一公式为:
Figure FDA0003580749770000011
s.t.C=[c1,c2,…,cL]T∈{-1,1}L×r,
B=[b1,b2,…,bN]∈{-1,1}r×N,
Figure FDA0003580749770000012
h(xi)=sign(F(xi;θ))
Figure FDA0003580749770000013
其中,
Figure FDA0003580749770000014
是标签信息矩阵,可由Y=[Yki]L×N,Yki∈{0,1}根据公式
Figure FDA0003580749770000015
计算得到,表示特定类原型与所欲训练图像哈希码之间的语义相似和语义不相似信息;i(i=1,2,…,N)是训练样本图像数据的序号,N为所述训练样本图像数据的数量,L为特定类原型的类数量;Yki表示训练样本集的标签信息,分别用于表示批次内第i个训练样本图像数据是否包含第k个类别目标;C表示特定类原型矩阵;xi表示第i个所述训练样本图像数据的特征向量;X表示所述训练样本图像数据的特征向量集合;映射关系h是将所述特征向量转换成二进制哈希码的哈希函数,即深度哈希网络,其中F(xi;θ)∈Rr表示所述深度哈希网络的输出,θ为所述深度哈希网络参数,
Figure FDA0003580749770000021
和F(xi;θ)∈Rr中的r是所述深度哈希网络的输出宽度;bi表示第i个所述训练样本图像数据的哈希码;B表示训练样本映射到汉明空间中的哈希码矩阵;
所述深度哈希网络模型的目标函数还包含第二公式进行学习所述粗略语义关系,所述第二公式为:
Figure FDA0003580749770000022
其中,i(i=1,2,…,M)是一个批次的训练样本图像数据的序号,M为所述批次大小,bi表示所述批次内第i个训练样本图像数据的深度哈希网络输出,即所述批次内第i个训练样本图像数据的哈希码;k(k=1,2,…,L)是所述特定类原型的类序号,L为所述特定类原型的类数量;ck表示第k个所述特定类原型;Yki表示所述训练样本集的标签信息;
所述深度哈希网络模型的目标函数还包含以下第三公式进行学习精细语义关系,所述第三公式为:
Figure FDA0003580749770000023
其中,i(i=1,2,…,M)是所述批次内的训练样本图像数据序号,M为所述批次大小;j(j=1,2,…,N)是所述训练样本图像数据的序号,N为所述图像训练样本数量;Sij表示所述批次内训练样本图像数据的第i个样本与所述训练样本图像数据内第j个样本的相似度;
Figure FDA0003580749770000024
bi表示所述批次内第i个样本的深度哈希网络输出,即所述批次内第i个样本的哈希码;bj表示所述训练样本图像数据内第j个样本的深度哈希网络输出,即第j个所述训练样本图像数据的哈希码;
所述深度哈希网络模型的目标函数还包含超参数用于与公式相乘以控制学习目标的权重:
预设第一超参数γ,用于所述第一公式;
预设第二超参数λ和N的乘积,用于所述第二公式;
所述目标函数为:
Figure FDA0003580749770000031
其中,
Figure FDA0003580749770000032
2.根据权利要求1所述的一种基于特定类原型的深度哈希网络图像检索方法,其特征在于,所述深度哈希网络模型包含深度哈希网络和图像数据库哈希码集合,所述深度哈希网络包含由所述深度哈希网络模型和训练样本训练得到的深度哈希网络模型参数;所述图像数据库哈希码集合包含由所述训练样本经过所述深度哈希网络输出得到的哈希码;
S3步骤具体包括:
S3.1对所述待检索的目标图像信息预处理,得到待查询图像数据的特征向量;
S3.2将所述待查询图像数据的特征向量输入所述深度哈希网络,得到待查询哈希码;
S3.3将待查询图像哈希码与所述图像数据库哈希码集合中的哈希码进行比对,找出最相似的所述样本图像数据和最相似图像数据对应的语义标签。
3.根据权利要求1所述的一种基于特定类原型的深度哈希网络图像检索方法,其特征在于,S1还包含根据所述深度哈希网络的目标函数的优化步骤:
S1.1使用所述深度哈希网络的输出值替代原目标函数中的哈希值;
S1.2固定所述深度哈希网络参数θ,优化所述特定类原型矩阵C;
S1.3固定所述特定类原型矩阵C,优化所述深度哈希网络参数θ;若未抵达停止条件,返回执行S1.2。
4.根据权利要求3所述的一种基于特定类原型的深度哈希网络图像检索方法,其特征在于,
S1.2采用逐列的方式优化所述特定类原型矩阵C。
5.一种基于特定类原型深度哈希网络的图像数据检索装置,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序,实现如权利要求1至4中任一项所述的基于特定类原型的深度哈希网络图像检索方法。
6.一种非易失性计算机可读存储介质,其上存储有计算机程序指令,其特征在于,所述计算机程序指令被处理器执行时实现权利要求1至4中任意一项所述的基于特定类原型的深度哈希网络图像检索方法。
CN202110176957.1A 2021-02-07 2021-02-07 基于特定类原型的深度哈希网络图像检索方法及装置 Active CN112948617B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110176957.1A CN112948617B (zh) 2021-02-07 2021-02-07 基于特定类原型的深度哈希网络图像检索方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110176957.1A CN112948617B (zh) 2021-02-07 2021-02-07 基于特定类原型的深度哈希网络图像检索方法及装置

Publications (2)

Publication Number Publication Date
CN112948617A CN112948617A (zh) 2021-06-11
CN112948617B true CN112948617B (zh) 2022-05-31

Family

ID=76244612

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110176957.1A Active CN112948617B (zh) 2021-02-07 2021-02-07 基于特定类原型的深度哈希网络图像检索方法及装置

Country Status (1)

Country Link
CN (1) CN112948617B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113761239A (zh) * 2021-09-08 2021-12-07 武汉工程大学 基于海量地理位置信息的索引库建立及检索方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107729513A (zh) * 2017-10-25 2018-02-23 鲁东大学 基于语义对齐的离散监督跨模态哈希检索方法
CN108629414A (zh) * 2018-05-09 2018-10-09 清华大学 深度哈希学习方法及装置
CN109063112A (zh) * 2018-07-30 2018-12-21 成都快眼科技有限公司 一种基于多任务学习深度语义哈希的快速图像检索方法、模型及模型构建方法
CN109063113A (zh) * 2018-07-30 2018-12-21 成都快眼科技有限公司 一种基于不对称深度离散哈希的快速图像检索方法、检索模型及模型构建方法
CN110516095A (zh) * 2019-08-12 2019-11-29 山东师范大学 基于语义迁移的弱监督深度哈希社交图像检索方法和系统
CN110532417A (zh) * 2019-09-02 2019-12-03 河北省科学院应用数学研究所 基于深度哈希的图像检索方法、装置及终端设备

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9734436B2 (en) * 2015-06-05 2017-08-15 At&T Intellectual Property I, L.P. Hash codes for images
US11556581B2 (en) * 2018-09-04 2023-01-17 Inception Institute of Artificial Intelligence, Ltd. Sketch-based image retrieval techniques using generative domain migration hashing

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107729513A (zh) * 2017-10-25 2018-02-23 鲁东大学 基于语义对齐的离散监督跨模态哈希检索方法
CN108629414A (zh) * 2018-05-09 2018-10-09 清华大学 深度哈希学习方法及装置
CN109063112A (zh) * 2018-07-30 2018-12-21 成都快眼科技有限公司 一种基于多任务学习深度语义哈希的快速图像检索方法、模型及模型构建方法
CN109063113A (zh) * 2018-07-30 2018-12-21 成都快眼科技有限公司 一种基于不对称深度离散哈希的快速图像检索方法、检索模型及模型构建方法
CN110516095A (zh) * 2019-08-12 2019-11-29 山东师范大学 基于语义迁移的弱监督深度哈希社交图像检索方法和系统
CN110532417A (zh) * 2019-09-02 2019-12-03 河北省科学院应用数学研究所 基于深度哈希的图像检索方法、装置及终端设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Correlation Filtering-Based Hashing for Fine-Grained Image Retrieval;Lei Ma;《IEEE SIGNAL PROCESSING LETTERS》;20201120;全文 *
深度哈希图像检索方法综述;刘颖;《中国图象图形学报》;20200716;全文 *

Also Published As

Publication number Publication date
CN112948617A (zh) 2021-06-11

Similar Documents

Publication Publication Date Title
US11334795B2 (en) Automated and adaptive design and training of neural networks
EP3731154A1 (en) Training a convolutional neural network for image retrieval with a listwise ranking loss function
CN111079639B (zh) 垃圾图像分类模型构建的方法、装置、设备及存储介质
Li et al. Multi-level adaptive active learning for scene classification
McCann et al. Local naive bayes nearest neighbor for image classification
EP3982275A1 (en) Image processing method and apparatus, and computer device
CN110073367B (zh) 用于零样本学习的利用基于soft-max的兼容性函数的多视图嵌入
US20160253597A1 (en) Content-aware domain adaptation for cross-domain classification
US20240078826A1 (en) Methods and systems of field detection in a document
JP6897749B2 (ja) 学習方法、学習システム、および学習プログラム
WO2022035942A1 (en) Systems and methods for machine learning-based document classification
CN111581368A (zh) 一种基于卷积神经网络的面向智能专家推荐的用户画像方法
CN116259060A (zh) 图像分类模型的训练方法及装置
Moysset et al. Learning to detect, localize and recognize many text objects in document images from few examples
CN112948617B (zh) 基于特定类原型的深度哈希网络图像检索方法及装置
US20230138491A1 (en) Continuous learning for document processing and analysis
WO2023155304A1 (zh) 关键词推荐模型训练方法、推荐方法和装置、设备、介质
CN113672804B (zh) 推荐信息生成方法、系统、计算机设备及存储介质
US20230134218A1 (en) Continuous learning for document processing and analysis
CN112949590B (zh) 一种跨域行人重识别模型构建方法及构建系统
CN115292542A (zh) 基于试题配图的试题搜索方法、系统、存储介质及设备
Zoghlami et al. Multiple instance learning for sequence data with across bag dependencies
Chehdi et al. Stable and unsupervised fuzzy C-means method and its validation in the context of multicomponent images
CN111695526A (zh) 网络模型生成方法、行人重识别方法及装置
Bicego et al. Combining free energy score spaces with information theoretic kernels: Application to scene classification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant