CN111984810A - 图像检索的方法及相关设备 - Google Patents
图像检索的方法及相关设备 Download PDFInfo
- Publication number
- CN111984810A CN111984810A CN202010827081.8A CN202010827081A CN111984810A CN 111984810 A CN111984810 A CN 111984810A CN 202010827081 A CN202010827081 A CN 202010827081A CN 111984810 A CN111984810 A CN 111984810A
- Authority
- CN
- China
- Prior art keywords
- image
- hash
- query
- dsbh
- layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/53—Querying
- G06F16/532—Query formulation, e.g. graphical querying
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/55—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Library & Information Science (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例公开了一种图像检索的方法及装置,其中,该方法包括:接收用户的第一查询请求,所述第一查询请求携带第一查询图像;将所述第一查询图像输入预先训练好的深度语义哈希DSBH模型,输出所述第一查询图像的第一图像特征;确定与所述第一图像特征的相似度符合预设条件的一个或者多个图像特征;将与所述一个或者多个图像特征对应的一个或者多个图像发送给用户。如此,利用预先训练好的DSBH模型输出图像特征,相较于传统的机器学习,能够提高图像检索的准确率。
Description
技术领域
本发明实施例涉及计算机视觉领域,特别涉及一种图像检索的方法及相关设备。
背景技术
基于内容的图像检索,即CBIR(Content-based image retrieval),是计算机视觉领域中关注大规模数字图像内容检索的研究分支。典型的CBIR系统,允许用户输入一张图片,以检索具有相同或相似内容的其他图片。
现有技术中已经将基于相关反馈的自学习识别算法引入图像检索领域。但是基于相关反馈的自学习识别算法,本质上是传统机器学习。而机器学习是用人类的先验知识,把原始数据预处理成各种特征,然后对特征进行分类。而这种分类的效果取决于特征选取的好坏。例如,即使是在svm(支持向量机,Support Vector Machine)算法中加入相关反馈机制,其本质也仍然是传统机器学习,因此导致图像检索准确性不高。
发明内容
为此,本发明实施例提供了一种图像检索方法,包括:
接收用户的第一查询请求,所述第一查询请求携带第一查询图像;
将所述第一查询图像输入预先训练好的深度语义哈希DSBH模型,输出所述第一查询图像的第一图像特征;
确定与所述第一图像特征的相似度符合预设条件的一个或者多个图像特征;
将与所述一个或者多个图像特征对应的一个或者多个图像发送给用户;
其中,所述DSBH模型是通过基于深度语义的哈希DSBH算法利用图像样本对深度卷积神经网络进行训练得到的卷积神经网络模型,以图像为输入,以该图像的图像特征为输出;所述图像样本包括已标记相关或者不相关的多个图像。
在一示例中,所述深度卷积神经网络包括两个或者两个以上全连接层和一个哈希层,将至少两个全连接层提取的所述第一查询图像的特征向量作为哈希层的输入,所述哈希层被训练为基于DSBH算法将所述至少两个全连接层提取的所述第一查询图像的特征向量进行融合后的融合特征转换为哈希码,并将所述哈希码作为所述第一图像特征进行输出。
在一示例中,该方法还包括:
接收用户对所述一个或者多个图像进行相关性判断后的反馈信息,所述反馈信息包括所述一个或者多个图像分别与所述第一查询图像相关或者不相关;
根据所述反馈信息重新对所述DSBH模型的哈希层进行训练,包括:
对分别与所述第一查询图像相关或者不相关的一个或者多个图像中的每一个图像执行如下操作:
将该图像输入所述深度卷积神经网络,利用两个或者两个以上的全连接层提取该图像的特征向量;
将至少两个全连接层提取的该图像的特征向量输入哈希层;
所述哈希层将所述至少两个全连接层提取的该图像的特征向量进行融合后基于DSBH算法将融合后的特征向量分别转换为哈希码,根据所述哈希码利用反向传播算法对第二目标函数进行求导优化哈希层的权重。
本发明实施例还提供了一种图像检索的装置,该装置包括:
接收单元,设置为接收用户的第一查询请求,所述第一查询请求携带第一查询图像;
特征输出单元,设置为将所述第一查询图像输入预先训练好的深度语义哈希DSBH模型,输出得到所述第一查询图像的第一图像特征;
确定单元,设置为确定与所述第一图像特征的相似度符合预设条件的一个或者多个图像特征;
发送单元,设置为将与所述一个或者多个图像特征对应的一个或者多个图像发送给用户;
其中,所述DSBH模型是通过基于深度语义的哈希DSBH算法利用图像样本对深度卷积神经网络进行训练得到的卷积神经网络模型,以图像为输入,以该图像的图像特征为输出;所述图像样本包括已标记相关或者不相关的多个图像。
本发明实施例还提供了一种图像检索的装置,其特征在于,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述任一所述图像检索的方法。
本发明实施例还提供了一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述图像检索的方法。
本发明实施例提供的技术方案,利用预先训练好的DSBH模型输出图像特征,提升了图像检索的准确性。进一步地,在深度卷积神经网络中增加一层哈希层,并且将至少两个全连接层提取的特征向量输入该哈希层,使得该哈希层输出的图像特征包含更多的语义信息能更深层次的表示图像,提高了图像检索的准确率。进一步地,还利用用户的反馈信息重新训练 DSBH模型,进一步提升了后续图像检索的准确性。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
一个或多个实施例通过与之对应的附图中的图片进行示例性说明,这些示例性说明并不构成对实施例的限定,附图中具有相同参考数字标号的元件表示为类似的元件,除非有特别申明,附图中的图不构成比例限制。
图1为本发明一实施例提供的一种图像检索的方法的流程示意图;
图2为本发明另一实施例提供的一种图像检索的方法的流程示意图;
图3为一种基于深度学习的哈希算法在图像检索中的特征学习示意图;
图4为本发明另一实施例提供的一种图像检索的方法的流程示意图;
图5为本发明另一实施例提供的一种图像检索的方法的流程示意图;
图6为本发明另一实施例提供的一种图像检索的方法的流程示意图;
图7为本发明另一实施例提供的一种图像检索的方法的流程示意图;
图8为本发明一实施例提供的一种图像检索系统的架构示意图;
图9为本发明一实施例中应用相关反馈模型的检索结果对比示意图;
图10为本发明一实施例提供的一种图像检索的装置的结构示意图;
图11为本发明另一实施例提供的一种图像检索的装置的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的各实施方式进行详细的阐述。然而,本领域的普通技术人员可以理解,在本发明各实施方式中,为了使读者更好地理解本申请而提出了许多技术细节。但是,即使没有这些技术细节和基于以下各实施方式的种种变化和修改,也可以实现本申请所要求保护的技术方案。以下各个实施例的划分是为了描述方便,不应对本发明的具体实现方式构成任何限定,各个实施例在不矛盾的前提下可以相互结合相互引用。
相关反馈(Relevant Feedback,RF)是一个检索最相关图像的强大工具和在线学习方法。 RF让用户参与图像检索过程,以改进最终结果集。特别是,用户对初始结果集中图像的相关性给出了反馈。
其中,是初始查询向量,α、β和γ是每项的相关权重,它们控制着判定结果和原始查询之间的平衡。如果存在大量的已判断的图像,那么就可以将较高的权重赋予β和γ。从初始向量开始,向相关图像的中心靠近,同时又与不相关图像远离。
基于上述相关反馈RF和基础理论,本发明实施例提出了一种新的图像检索方案。下面通过几个实施例详细阐述本发明。
图1为本发明一实施例提供的一种图像检索的方法的流程示意图,如图1所示,该方法包括:
步骤101,接收用户的第一查询请求,所述第一查询请求携带第一查询图像;
步骤102,将所述第一查询图像输入预先训练好的深度语义哈希DSBH模型,输出得到所述第一查询图像的第一图像特征;
步骤103,确定与所述第一图像特征的相似度符合预设条件的一个或者多个图像特征;
步骤104,将与所述一个或者多个图像特征对应的一个或者多个图像发送给用户;
其中,所述DSBH模型是通过基于深度语义的哈希DSBH算法利用图像样本对深度卷积神经网络进行训练得到的卷积神经网络模型,以图像为输入,以该图像的图像特征为输出;所述图像样本包括已标记相关或者不相关的多个图像;
在一示例中,所述深度卷积神经网络包括两个或者两个以上全连接层和一个哈希层,将至少两个全连接层提取的所述第一查询图像的特征向量作为哈希层的输入,所述哈希层被训练为基于DSBH算法将所述至少两个全连接层提取的所述第一查询图像的特征向量进行融合后的融合特征转换为哈希码,并将哈希码作为所述第一图像特征进行输出。
在一示例中,所述确定与所述第一图像特征的相似度符合预设条件的一个或者多个图像特征,包括:
利用相似度算法计算所述第一图像特征与预先存储的每一个图像特征之间的相似度;
选择相似度符合预设条件的一个或者多个图像特征;
其中,所述预设条件包括以下一个或者多个:超过相似度阈值;相似度从高到低排名前 N;相似度最高。
在一示例中,在接收用户的查询请求之前,该方法还包括:
训练所述DSBH模型,包括:
对所述图像样本中的每一个图像执行如下操作:
利用所述深度卷积神经网络的两个或者两个以上的全连接层提取该图像的特征向量,并将至少两个全连接层提取的该图像的特征向量作为所述哈希层的输入;
所述哈希层将所述至少两个全连接层提取的该图像的特征向量进行融合后基于DSBH算法将融合后的特征向量转换为哈希码,根据所述哈希码利用反向传播算法对第一目标函数进行求导优化哈希层的权重。
在一示例中,所述DSBH算法涉及的哈希函数为:
h(x;W)=[h1(x;w1),h2(x;w2),…,hk(x;wk)],
其中,深度哈希函数;h(x;w)=sign(wT[f6(x);f7(x)]),w表示哈希层的权重值,f6(x)和f7(x)分别表示第一个全连接层fc6和第二个全连接层fc7提取特征向量;
所述第一目标函数为:
所述第一目标函数求导后为:
在一示例中,该方法还包括:
接收用户对所述一个或者多个图像进行相关性判断后的反馈信息,所述反馈信息包括所述一个或者多个图像分别与所述第一查询图像相关或者不相关;
根据所述反馈信息重新对所述DSBH模型的哈希层进行训练,包括:
对分别与所述第一查询图像相关或者不相关的一个或者多个图像中的每一个图像执行如下操作:
将该图像输入所述深度卷积神经网络,利用两个或者两个以上的全连接层提取该图像的特征向量;
将至少两个全连接层提取的该图像的特征向量输入哈希层;
所述哈希层将所述至少两个全连接层提取的该图像的特征向量进行融合后基于DSBH算法将融合后的特征向量转换为哈希码,根据所述哈希码利用反向传播算法对第二目标函数进行求导优化哈希层的权重。
其中,表示相关的图像特征集合,表示不相关的图像特征集合;;为给定的数据集,其中数据点h(q;W) 为查询向量,哈希函数h(x;W)=[h1(x;w1),h2(x;w2),…,hK(x;wK)],W表示哈希函数的权重值,K是哈希码的位数,
本发明实施例提供的技术方案,利用预先训练好的DSBH模型输出图像特征,提升了图像检索的准确性。进一步地,在深度卷积神经网络中增加一层哈希层,并且将至少两个全连接层提取的特征向量输入该哈希层,使得该哈希层输出的图像特征包含更多的语义信息能更深层次的表示图像,提高了图像检索的准确率。进一步地,还利用用户的反馈信息重新训练 DSBH模型,进一步提升了后续图像检索的准确性。
图2为本发明另一实施例提供的一种图像检索的方法的流程示意图。
如图2所述,该方法包括:
步骤201训练深度语义哈希DSBH模型;
其中,本实施例对现有的深度卷积神经网络的结构进行了改进,加入了哈希层。
在一示例中,所述DSBH模型是通过基于深度语义的哈希DSBH算法利用图像样本对深度卷积神经网络进行训练得到的卷积神经网络模型,以图像为输入,以该图像的图像特征为输出;所述图像样本包括已标注相关或者不相关的多个图像。
其中,该深度卷积神经网络包括两个或者两个以上全连接层和一个哈希层,将至少两个全连接层提取的特征向量做为哈希层的输入,所述哈希层训练为基于DSBH算法将所述至少两个全连接层提取的特征向量进行融合后的融合特征转换为哈希码,并将哈希码作为图像特征进行输出。
本实施例中,例如在AlexNet网络基础上改进了网络结构并加入了哈希层为例进行说明。在此改进的结构基础上,由于将两个全连接层提取的特征向量都输入到哈希层,就可以将更多的语义信息嵌入到哈希层中,使得经过哈希层得到的哈希二值码包含更多的语义信息,以此解决针对图像的背景或者主体对象比较复杂问题以及深度学习中存在的“语义鸿沟”问题。即在改进了结构的深度卷积神经网络模型中利用深度哈希算法学习图像特征表示。如图3所示,为增加了哈希层的深度神经网络进行特征学习的示意图,相对于现有技术方案在使用深度哈希算法学习特征使用底层语义特征或者全连接层中的某一层语义特征,图3中的神经网络将两个全连接层即两层语义特征进行融合到一层哈希层,使得该哈希层输出的图像特征包含更多的语义信息能更深层次的表示图像。
在一示例中,训练所述DSBH模型,包括:
对所述图像样本中的每一个图像执行如下操作:
利用所述深度卷积神经网络的两个或者两个以上的全连接层提取该图像的特征向量,并将至少两个全连接层提取的该图像的特征向量作为所述哈希层的输入;
所述哈希层将所述至少两个全连接层提取的该图像的特征向量进行融合后基于DSBH算法将融合后的特征向量分别转换为哈希码,根据所述哈希码利用反向传播算法对第一目标函数进行求导优化哈希层的权重。
本实施例中,以将两个全连接层提取的该成对图像各自的特征向量作为所述哈希层的输入为例进行说明。
其中,在图像检索中使用基于深度学习的哈希算法主要是为了学习图像的特征表示。哈希算法的优点包括检索速度快、节省存储空间等。因此需要保证特征数据从实数空间映射到汉明空间不会发生太大的变化,一旦改变了数据点在实数空间的距离,检索的结果将会得不到保证,使得检索准确率下降。本实施例使用基于深度语义的哈希算法,即利用增加了哈希层的深度卷积神经网络,获得了比人工设计特征更丰富的图文信息,学习特征的同时将这些特征映射为哈希码,这种方法相比传统两阶段学习方法更加高效。
h(x;W)=[h1(x),h2(x),…,hK(x)] (1.4)
深度哈希函数定义为:
h(x;w)=sign(wT[f6(x);f7(x)]) (1.5)
其中,w表示哈希层的权重值,f6(x)和f7(x)分别表示全连接fc6层和fc7层的输出特征向量。为了简洁起见,这里省略了f6(x)和f7(x)的偏差项和参数。如此,将两层语义特征进行融合到一层哈希层,使得该哈希层特征包含更多的语义信息能更深层次的表示图像。
为了获得K位二进制码,哈希函数公式也可以写成:
h(x;W)=[h1(x;w1),h2(x;w2),…,hK(x;wK)] (1.6)
其中,q为查询向量,公式(1.7)中第一项表示代理损失(Surrogate Loss)函数,代理损失函数是凸函数而{-1,1}loss函数不是凸函数且不可导,因此使用代理损失函数。第二项是平衡惩罚因子,它被用来鼓励在训练数据上平均每个比特其均值为零,并确保学习过程更稳定的收敛。第三项是2层L2权重衰减,它被用来惩罚那些大权重。第一项的计算公式可表示为:
其中,[dH(h(q),h(xi))+ρ]+=max(0r),dH(h1,h2)是汉明距离,ρ是一个边距参数,它控制距离之间的最小边距。公式(1.8)是代理损失(Surrogate Loss)函数,在实践中使用代理损失函数作为学习过程最小化的风险。由于公式(1.5)中的不连续符号函数,优化公式(1.7)是很困难的,为了解决这个问题,放松约束h(x;w)为:
h(x;w)=2σ(wT[f6(x):f7(x)])-1 (1.9)
其中,σ(t)=1/(1+exp(-t))是逻辑回归函数。为了便于梯度计算,汉明距离改写为内积的形式:
其中,K是哈希码的位数。
可以观察到,第一目标函数(损失函数)(1.8)实际上是一系列加权损失的总和。公式(1.7) 关于哈希码向量的导数可计算为:
其中,平均值是在一个小批量(mini-batch)数据集上计算得到的,Nq是小批量数据集的大小。上面的求偏导数公式可以通过反向传播算法更新网络权值和反应网络预测误差的偏置。
上述基于深度语义的哈希算法,是一种端到端的方法,DSBH模型学到的图像特征能够反作用二值码的更新,既利用反向传播算法对第一目标函数进行求导优化哈希层的权重;这样网络的自学习能力更强,使得哈希码更多的保留原始信息。相似的图像经过哈希算法计算后尽可能相似,不相似的图像在汉明空间中尽可能的分开。利用深度哈希算法获取的图像特征值进行图像检索时,存在计算速度快、存储空间小、消耗内存少等优势。
步骤202,接收用户发送的第一查询请求,所述第一查询请求携带第一查询图像;将所述第一查询图像输入预先训练好的基于深度语义的哈希DSBH模型,输出得到所述第一查询图像的第一图像特征;
其中,本实施例中,所述DSBH模型将哈希层输出的哈希码作为图像特征,因此第一查询图像的第一图像特征是指将两个全连接层提取的特征向量输入哈希层,哈希层将两个全连接层提取的特征向量融合后转化为哈希码,输出该哈希码作为该第一图像的第一图像特征。
步骤203,利用相似度算法确定与所述第一图像特征的相似度符合预设条件的一个或者多个图像特征;
其中,该相似度算法可以为现有的任一种相似度算法,例如余弦相似度、欧氏距离、汉明距离等。
在一示例中,该预设条件包括:超过相似度阈值、相似度最高、或者相似度从高到低排序排名前N等,N为正整数。可以根据实际需求预先设置该条件。
在一示例中,可以在预先配置的特征库中利用相似度算法确定与所述第一图像特征的相似度符合预设条件的一个或者多个图像特征。特征库是指现有的或者预先定制的保存各种图像的图像特征的数据库,一个图像特征对应一个图像。
步骤204,将与所述一个或者多个图像特征对应的一个或者多个图像发送给用户。
其中,可以根据图像特征的标识找到对应的图像。
在一示例中,在与特征库对应的图像库中确定与将与所述一个或者多个图像特征对应的一个或者多个图像。图像库指现有的或者预先定制的保存各种图像的数据库。该图像库中的图像与特征库中的图像特征一一对应,还可以通过标识进行对应。
本发明实施例提供的技术方案,利用预先训练好的DSBH模型输出图像特征,而DSBH 模型将深度卷积神经网络中两个全连接层提取的特征向量融合到一层哈希层,使得该哈希层输出的图像特征包含更多的语义信息能更深层次的表示图像,提高了图像检索的准确率。
在本发明的另一实施例中,在上述实施例图2的基础上,如图4所示,该方法还包括:
步骤205,接收用户对所述一个或者多个图像进行相关性判断后的反馈信息,所述反馈信息包括所述一个或者多个图像分别与所述第一查询图像相关或者不相关;
其中,用户在提交第一查询请求后,接收查询结果,该查询结果携带查询到的一个或者多个图像,然后用户可以对收到的一个或者多个图像进行相关性判断,跟查询图像相关图像标记为相关,跟查询图像不相关的图像标记为不相关,再将这些标记信息作为反馈信息发送给系统。
步骤206,根据所述反馈信息重新对所述DSBH模型的哈希层进行训练。
在一示例中,根据所述反馈信息重新对所述DSBH模型的哈希层进行训练,包括:
对分别与所述第一查询图像相关或者不相关的一个或者多个图像中的每一个图像执行如下操作:
将该图像输入所述深度卷积神经网络,利用两个或者两个以上的全连接层提取该图像的特征向量;
将至少两个全连接层提取的该图像的特征向量输入哈希层;
所述哈希层将所述至少两个全连接层提取的该图像的特征向量进行融合后基于DSBH算法将融合后的特征向量转换为哈希码,根据所述哈希码利用反向传播算法对第二目标函数进行求导优化哈希层的权重。
本步骤中,通过与用户的互动,将一些检索到的图像标记为相关或不相关,并将其标记作为对系统的反馈。随后,系统使用该反馈来重新训练深度卷积神经网络中哈希层的权重,以使相关表示更接近查询表示,而远离不相关的表示。
例如,由于提取的48位哈希码特征值检索效果表现最好,因此本实施例使用48×1维的哈希码来表示查询向量h(q;W),是已被用户标注为相关的N个图像的特征表示集合,是不相关的M个图像的特征表示集合。主要利用神经网络的再训练能力修改上述相关和不相关的图像表示。通过求解以下优化问题,可以分别确定相关和不相关图像表示分别为:
和
同样使用梯度下降来解决上述优化问题。目标函数J+和J-的一阶梯度分别为:
当系统进入反馈过程时,公式(1.15)被用于反向传播算法更新网络权值。此后,当网络收敛,哈希层中表示的相关图像特征在汉明空间中更接近查询特征,并且无关图像远离查询图像。因此,通过将给定数据集和查询图像反馈到重新训练网络模型的输入层并获得新的哈希层表示,来整合RF过程。
本发明实施例提供的技术方案,利用用户的反馈信息重新训练DSBH模型,使得哈希层中表示的相关图像特征在汉明空间中更接近查询特征,并且无关图像远离查询图像,能够进一步提升后续图像检索的准确性。
在本发明的另一实施例中,在上述实施例图4的基础上,如图5所示,该方法还包括:
步骤207,根据重新训练后的DSBH模型输出所述第一查询图像新的图像特征;
步骤208,利用相似度算法确定与所述第一查询图像新的图像特征的相似度符合预设条件的一个或者多个图像特征;
步骤209,将与重新确定的所述一个或者多个图像特征对应的一个或者多个图像发送给用户。
需要说明地是,步骤209之后还可以再次接收用户的反馈,以此类推,迭代的次数可以根据业务需要预先设定。
在本发明的另一实施例中,在上述实施例的基础图4的基础上上,如图6所示,该方法还包括:
步骤207,接收用户的第二查询请求,所述第二查询请求携带第二查询图像;将所述第二查询图像输入根据所述反馈信息重新训练后的DSBH模型,输出得到所述第二查询图像的第二图像特征;
本步骤中,由于本步骤中使用的DSBH模型是根据用户的反馈信息重新训练的,该模型的哈希层输出的图像特征能够更接近第二查询图像。
步骤208,利用相似度算法确定与所述第二图像特征的相似度符合预设条件的一个或者多个图像特征;
其中,该相似度算法可以为现有的任一种相似度算法,例如余弦相似度、欧氏距离、汉明距离等。
在一示例中,该预设条件包括以下一个或者多个:超过相似度阈值;相似度最高;相似度从高到低排序排名前N等,N为正整数。可以根据实际需求预先设置该条件。
在一示例中,在预先设置的特征库中利用相似度算法确定与所述第一图像特征的相似度符合预设条件的一个或者多个图像特征。特征库是指现有的或者预先定制的保存各种图像的图像特征的数据库,一个图像特征对应一个图像。
步骤209,将与所述一个或者多个图像特征对应的一个或者多个图像发送给用户。
其中,可以根据图像特征的标识找到对应的图像。
在一示例中,可以在与特征库对应的图像库中确定与将与所述一个或者多个图像特征对应的一个或者多个图像。图像库指现有的或者预先定制的保存各种图像的数据库。该图像库中的图像与特征库中的图像特征一一对应,还可以通过标识进行对应。
本发明实施例提供的实施例中,将查询图像发送给用户后,还可以再次接收用户的反馈信息,再次对DSBH模型进行重新训练,如此不断通过反馈信息重新训练DSBH模型,逐步提高DSBH模型输出的图像特征更接近相关图像,并且远离不相干图像,逐步提升图像检索的准确性。
现有技术在使用相关反馈机制时,与传统识别算法结合的方法比较多,而在自学习方面,深度学习明显要优于传统识别算法;相关反馈加入了用户的交互在引导网络学习方面明显要比网络在大量数据集中学习更具有针对性;为此本发明提供的技术方案,将现有的深度哈希算法进行适当的改进以适应通过用户交互,让深度网络更有针对性的学习图像特征,提高了图像检索的准确性。
图7为本发明另一实施例提供的一种图像检索的方法的流程示意图。本实施例应用于图 8所示的图像检索系统,该系统包括训练好的DSBH模型、相关反馈模型、特征库、图像库 (图中未示出),该特征库中的图像特征分别与图像库中的图像一一对应。
如图7所示,该方法包括:
步骤701,接收用户提交的查询图像;
步骤702,将所述查询图像输入训练好的DSBH模型,输出所述查询图像的图像特征;
步骤703,利用相似度计算查询特征库中与所述查询图像的图像特征的相似度超过预设阈值的一个或者多个图像特征;
步骤704,将图像库中与所述一个或者多个图像特征对应的图像作为检索结果发送给用户;
步骤705,接收用户反馈的正负实例,将该正负实例通过相关反馈模型输入DSBH模型,重新训练所述DSBH模型;
其中,该正负实例是指与查询图像相关或者不相关的图像信息,相关的图像标注为正相关即正实例,不相关的图像标注为负相关即负实例。
步骤706,利用重新训练的DSBH模型输出所述查询图像新的图像特征;
步骤707,利用相似度计算查询特征库中与所述查询图像新的图像特征的相似度超过预设阈值的一个或者多个图像特征;
步骤708,将图像库中与所述一个或者多个图像特征对应的图像作为检索结果发送给用户。
需要说明地是,步骤704之后还可以再次接收用户的正负实例,以此类推,迭代的次数可以根据业务需要预先设定。
本实施例进行图像检索的效果如图9所示,图9中上面Initial query为初始查询向量,表示没有进行反馈之前的查询结果,下面的Initial query为进行反馈后再次查询的结果,从图中可以看出再次查询的结果更加接近Revised query,因此当网络得到用户的反馈优化后会更加靠近查询图像,不相关的图像会远离,下次查询可能返回的结果令用户更满意。
图10为本发明一实施例提供的一种图像检索的装置的结构示意图。如图10所示,该装置包括:
接收单元,设置为接收用户的第一查询请求,所述第一查询请求携带第一查询图像;
特征输出单元,设置为将所述第一查询图像输入预先训练好的深度语义哈希DSBH模型,输出得到所述第一查询图像的第一图像特征;
确定单元,设置为确定与所述第一图像特征的相似度符合预设条件的一个或者多个图像特征;
发送单元,设置为将与所述一个或者多个图像特征对应的一个或者多个图像发送给用户;
其中,所述DSBH模型是通过基于深度语义的哈希DSBH算法利用图像样本对深度卷积神经网络进行训练得到的卷积神经网络模型,以图像为输入,以该图像的图像特征为输出;所述图像样本包括已标记相关或者不相关的多个图像;
在一示例中,所述深度卷积神经网络包括两个或者两个以上全连接层和一个哈希层,将至少两个全连接层提取的所述第一查询图像的特征向量做为哈希层的输入,所述哈希层被训练为基于DSBH算法将所述至少两个全连接层提取的所述第一查询图像的特征向量进行融合后的融合特征转换为哈希码,并将所述哈希码作为所述第一图像特征进行输出。
在一示例中,所述确定与所述第一图像特征的相似度符合预设条件的一个或者多个图像特征,包括:
利用相似度算法计算所述第一图像特征与预先存储的每一个图像特征之间的相似度;
选择相似度符合预设条件的一个或者多个图像特征;
其中,所述预设条件包括以下一个或者多个:超过相似度阈值;相似度从高到低排名前 N;相似度最高。
在一示例中,该装置还包括,训练单元,设置为在接收用户的查询请求之前,训练所述 DSBH模型,包括:
对所述图像样本中的每一个图像执行如下操作:
利用所述深度卷积神经网络的两个或者两个以上的全连接层提取该图像的特征向量,并将至少两个全连接层提取的该图像的特征向量作为所述哈希层的输入;
所述哈希层将所述至少两个全连接层提取的该图像的特征向量进行融合后基于DSBH算法将融合后的特征向量转换为哈希码,根据所述哈希码利用反向传播算法对第一目标函数进行求导优化哈希层的权重。
在一示例中,所述所述DSBH算法涉及的哈希函数为:
h(x;W)=[h1(x;w1),h2(x;w2),…,hK(x;wK)],
其中,深度哈希函数;h(x;w)=sign(wT[f6(x);f7(x)]),w表示哈希层的权重值,f6(x)和f7(x)分别表示第一个全连接层fc6和第二个全连接层fc7提取特征向量;
所述第一目标函数为:
所述第一目标函数求导后为:
在一示例中,所述接收单元,还设置为接收用户对所述一个或者多个图像进行相关性判断后的反馈信息,所述反馈信息包括所述一个或者多个图像分别与所述查询图像相关或者不相关;
所述训练单元,还设置为根据所述反馈信息重新对所述DSBH模型的哈希层进行训练,包括:
对分别与所述第一查询图像相关或者不相关的一个或者多个图像中的每一个图像执行如下操作:
将该图像输入所述深度卷积神经网络,利用两个或者两个以上的全连接层提取该图像的特征向量;
将至少两个全连接层提取的该图像的特征向量输入哈希层;
所述哈希层将所述至少两个全连接层提取的该图像的特征向量进行融合后基于DSBH算法将融合后的特征向量转换为哈希码,根据所述哈希码利用反向传播算法对第二目标函数进行求导优化哈希层的权重。
其中,表示相关的图像特征集合,表示不相关的图像特征集合;;为给定的数据集,其中数据点h(q;W)为查询向量,哈希函数h(x;W)=[h1(x;w1),h2(x;w2),…,hK(x;wK)],W表示哈希函数的权重值,K是哈希码的位数,
本发明实施例提供的技术方案,利用预先训练好的DSBH模型输出图像特征,相较于传统的机器学习,提升了图像检索的准确性。进一步地,DSBH模型将深度卷积神经网络中至少两个全连接层提取的特征向量融合到一层哈希层,使得该哈希层输出的图像特征包含更多的语义信息能更深层次的表示图像,进一步提高了图像检索的准确率。在一示例中,还利用用户的反馈信息重新训练DSBH模型,更加提升了后续图像检索的准确性。
上面各种方法的步骤划分,只是为了描述清楚,实现时可以合并为一个步骤或者对某些步骤进行拆分,分解为多个步骤,只要包括相同的逻辑关系,都在本专利的保护范围内;对算法中或者流程中添加无关紧要的修改或者引入无关紧要的设计,但不改变其算法和流程的核心设计都在该专利的保护范围内。
值得一提的是,本实施方式中所涉及到的各模块均为逻辑模块,在实际应用中,一个逻辑单元可以是一个物理单元,也可以是一个物理单元的一部分,还可以以多个物理单元的组合实现。此外,为了突出本发明的创新部分,本实施方式中并没有将与解决本发明所提出的技术问题关系不太密切的单元引入,但这并不表明本实施方式中不存在其它的单元。
本发明实施例还提供了一种图像检索的装置,如图11所示,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述任一所述图像检索的方法。
其中,存储器和处理器采用总线方式连接,总线可以包括任意数量的互联的总线和桥,总线将一个或多个处理器和存储器的各种电路连接在一起。总线还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路连接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件,也可以是多个元件,比如多个接收器和发送器,提供用于在传输介质上与各种其他装置通信的单元。经处理器处理的数据通过天线在无线介质上进行传输,进一步,天线还接收数据并将数据传送给处理器。
处理器负责管理总线和通常的处理,还可以提供各种功能,包括定时,外围接口,电压调节、电源管理以及其他控制功能。而存储器可以被用于存储处理器在执行操作时所使用的数据。
本发明的实施例还提供了一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现上述任一项所述图像检索的方法。
即,本领域技术人员可以理解,实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM, Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本领域的普通技术人员可以理解,上述各实施方式是实现本发明的具体实施例,而在实际应用中,可以在形式上和细节上对其作各种改变,而不偏离本发明的精神和范围。
Claims (11)
1.一种图像检索的方法,其特征在于,包括:
接收用户的第一查询请求,所述第一查询请求携带第一查询图像;
将所述第一查询图像输入预先训练好的深度语义哈希DSBH模型,输出所述第一查询图像的第一图像特征;
确定与所述第一图像特征的相似度符合预设条件的一个或者多个图像特征;
将与所述一个或者多个图像特征对应的一个或者多个图像发送给用户;
其中,所述DSBH模型是通过基于深度语义的哈希DSBH算法利用图像样本对深度卷积神经网络进行训练得到的卷积神经网络模型,以图像为输入,以该图像的图像特征为输出;所述图像样本包括已标记相关或者不相关的多个图像。
2.根据权利要求1所述的方法,其特征在于,
所述深度卷积神经网络包括两个或者两个以上全连接层和一个哈希层,将至少两个全连接层提取的所述第一查询图像的特征向量作为哈希层的输入,所述哈希层被训练为基于DSBH算法将所述至少两个全连接层提取的所述第一查询图像的特征向量进行融合后的融合特征转换为哈希码,并将所述哈希码作为所述第一图像特征进行输出。
3.根据权利要求1所述的方法,其特征在于,所述确定与所述第一图像特征的相似度符合预设条件的一个或者多个图像特征,包括:
利用相似度算法计算所述第一图像特征与预先存储的每一个图像特征之间的相似度;
选择相似度符合预设条件的一个或者多个图像特征;
其中,所述预设条件包括以下一个或者多个:超过相似度阈值;相似度从高到低排名前N;相似度最高。
4.根据权利要求1所述的方法,其特征在于,在接收用户的查询请求之前,该方法还包括:
训练所述DSBH模型,包括:
对所述图像样本中的每一个图像执行如下操作:
利用所述深度卷积神经网络的两个或者两个以上的全连接层提取该图像的特征向量,并将至少两个全连接层提取的该图像的特征向量作为所述哈希层的输入;
所述哈希层将所述至少两个全连接层提取的该图像的特征向量进行融合后基于DSBH算法将融合后的特征向量转换为哈希码,根据所述哈希码利用反向传播算法对所述哈希层的第一目标函数进行求导优化所述哈希层的权重。
6.根据权利要求1所述的方法,其特征在于,该方法还包括:
接收用户对所述一个或者多个图像进行相关性判断后的反馈信息,所述反馈信息包括所述一个或者多个图像分别与所述第一查询图像相关或者不相关;
根据所述反馈信息重新对所述DSBH模型的哈希层进行训练,包括:
对分别与所述第一查询图像相关或者不相关的一个或者多个图像中的每一个图像执行如下操作:
将该图像输入所述深度卷积神经网络,利用两个或者两个以上的全连接层提取该图像的特征向量;
将至少两个全连接层提取的该图像的特征向量输入哈希层;
所述哈希层将所述至少两个全连接层提取的该图像的特征向量进行融合后基于DSBH算法将融合后的特征向量转换为哈希码,根据所述哈希码利用反向传播算法对第二目标函数进行求导优化哈希层的权重。
8.一种图像检索的装置,其特征在于,该装置包括:
接收单元,设置为接收用户的第一查询请求,所述第一查询请求携带第一查询图像;
特征输出单元,设置为将所述第一查询图像输入预先训练好的深度语义哈希DSBH模型,输出得到所述第一查询图像的第一图像特征;
确定单元,设置为确定与所述第一图像特征的相似度符合预设条件的一个或者多个图像特征;
发送单元,设置为将与所述一个或者多个图像特征对应的一个或者多个图像发送给用户;
其中,所述DSBH模型是通过基于深度语义的哈希DSBH算法利用图像样本对深度卷积神经网络进行训练得到的卷积神经网络模型,以图像为输入,以该图像的图像特征为输出;所述图像样本包括已标记相关或者不相关的多个图像。
9.根据权利要求8所述的装置,其特征在于,
所述深度卷积神经网络包括两个或者两个以上全连接层和一个哈希层,将至少两个全连接层提取的所述第一查询图像的特征向量作为哈希层的输入,所述哈希层被训练为基于DSBH算法将所述至少两个全连接层提取的所述第一查询图像的特征向量进行融合后的融合特征转换为哈希码,并将所述哈希码作为所述第一图像特征进行输出。
10.一种图像检索的装置,其特征在于,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至8中任一所述图像检索的方法。
11.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至8中任一项所述图像检索的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010827081.8A CN111984810A (zh) | 2020-08-17 | 2020-08-17 | 图像检索的方法及相关设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010827081.8A CN111984810A (zh) | 2020-08-17 | 2020-08-17 | 图像检索的方法及相关设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111984810A true CN111984810A (zh) | 2020-11-24 |
Family
ID=73435618
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010827081.8A Pending CN111984810A (zh) | 2020-08-17 | 2020-08-17 | 图像检索的方法及相关设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111984810A (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104834748A (zh) * | 2015-05-25 | 2015-08-12 | 中国科学院自动化研究所 | 一种利用基于深度语义排序哈希编码的图像检索方法 |
CN109918528A (zh) * | 2019-01-14 | 2019-06-21 | 北京工商大学 | 一种基于语义保护的紧凑的哈希码学习方法 |
-
2020
- 2020-08-17 CN CN202010827081.8A patent/CN111984810A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104834748A (zh) * | 2015-05-25 | 2015-08-12 | 中国科学院自动化研究所 | 一种利用基于深度语义排序哈希编码的图像检索方法 |
CN109918528A (zh) * | 2019-01-14 | 2019-06-21 | 北京工商大学 | 一种基于语义保护的紧凑的哈希码学习方法 |
Non-Patent Citations (1)
Title |
---|
徐恒: "《中国优秀硕士学位论文电子期刊网》", pages: 18 - 35 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Cheng et al. | Label ranking methods based on the Plackett-Luce model | |
CN111832605B (zh) | 无监督图像分类模型的训练方法、装置和电子设备 | |
CN108399185B (zh) | 一种多标签图像的二值向量生成方法及图像语义相似度查询方法 | |
CN112182166A (zh) | 一种文本匹配方法、装置、电子设备及存储介质 | |
CN111127385A (zh) | 基于生成式对抗网络的医学信息跨模态哈希编码学习方法 | |
US11574240B2 (en) | Categorization for a global taxonomy | |
CN111400548B (zh) | 一种基于深度学习与马尔科夫链的推荐方法及设备 | |
CN113064959A (zh) | 一种基于深度自监督排序哈希的跨模态检索方法 | |
CN111597298A (zh) | 一种基于深度对抗离散哈希学习的跨模态检索方法及装置 | |
CN110647904A (zh) | 一种基于无标记数据迁移的跨模态检索方法及系统 | |
CN114358188A (zh) | 特征提取模型处理、样本检索方法、装置和计算机设备 | |
CN108595546B (zh) | 基于半监督的跨媒体特征学习检索方法 | |
CN113343125B (zh) | 一种面向学术精准推荐的异质科研信息集成方法及系统 | |
CN113806582B (zh) | 图像检索方法、装置、电子设备和存储介质 | |
US20210294834A1 (en) | 3d-aware image search | |
CN111080551B (zh) | 基于深度卷积特征和语义近邻的多标签图像补全方法 | |
Zamiri et al. | MVDF-RSC: Multi-view data fusion via robust spectral clustering for geo-tagged image tagging | |
CN113011529B (zh) | 文本分类模型的训练方法、装置、设备及可读存储介质 | |
CN111159473A (zh) | 一种基于深度学习与马尔科夫链的连接的推荐方法 | |
CN114329029A (zh) | 对象检索方法、装置、设备及计算机存储介质 | |
CN113722439B (zh) | 基于对抗性类别对齐网络的跨领域情感分类方法及系统 | |
CN114358109A (zh) | 特征提取模型训练、样本检索方法、装置和计算机设备 | |
US20230259761A1 (en) | Transfer learning system and method for deep neural network | |
CN111984810A (zh) | 图像检索的方法及相关设备 | |
CN116842934A (zh) | 一种基于持续学习的多文档融合深度学习标题生成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |