CN114547354B - 一种基于函数自适应映射的深度哈希方法 - Google Patents
一种基于函数自适应映射的深度哈希方法 Download PDFInfo
- Publication number
- CN114547354B CN114547354B CN202210136975.1A CN202210136975A CN114547354B CN 114547354 B CN114547354 B CN 114547354B CN 202210136975 A CN202210136975 A CN 202210136975A CN 114547354 B CN114547354 B CN 114547354B
- Authority
- CN
- China
- Prior art keywords
- function
- base point
- inner product
- image
- pair
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/51—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/55—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种基于函数自适应映射的深度哈希方法。本发明所述的基于函数自适应映射的深度哈希方法包括如下步骤:构建带标签图像的实验数据集,及构建基于函数自适应映射的深度哈希模型;其中,实验数据集包括训练集和测试集;输入训练集的带标签图像将深度哈希模型训练至收敛,并在训练时通过目标函数进行损失计算;目标函数包括度量损失函数LDAMH,度量损失函数LDAMH使用交叉熵损失函数,其表达式为p(sij|θ)表示内积θ对相似性sij的似然概率,其表达式为σ[f(θ)]表示Sigmoid函数关于一次函数f(θ)的复合函数;输入测试集的带标签图像测试深度哈希模型,获得训练后的深度哈希模型。该方法的似然函数能够根据样本学习情况进行自适应映射,具有检索精度高、训练速度快、稳定性高的特点。
Description
技术领域
本发明涉及图像检索的技术领域,特别是涉及一种基于函数自适应映射的深度哈希方法。
背景技术
目前图像检索分为基于文本(Text-based Image Retrieval,TBIR)和基于内容(Content-based image retrieval,CBIR)两种检索方式,基于文本的图像检索方式利用文本描述的方式描述图像的特征在对应的数据库索引中检索,而基于内容的图像检索方式是以图像作为输入,利用图像的像素内容检索出与该图像相似的一系列相似图,由于文本所能描述的语义有限且不同的人对文本内容会有不同的理解,而基于内容的以图搜图方式能更全面的代表所需的图片含义,因此基于内容的图像检索方式逐渐受到研究者和应用者的追捧。
随着互联网图像与短视频行业的快速发展,以往的图像检索方式难以满足当前人们在大规模图像数据中高速的图像检索需求,同时为了满足大规模图像中检索同类别或更细粒度类别图像的需求,基于深度哈希的细粒度图像检索方法在近几年中成为研究热点。基于深度哈希的图像检索模型可将高维度的图像映射为低维的哈希码,极大地减少了数据存储空间的消耗,还能以极少的计算量快速地检索到精确的结果。因此,深度哈希方法是当前图像检索领域的研究热点。
在用于图像检索的深度哈希方法中,通常使用成对图像的哈希码内积来表征图像的相似程度。图像对的内积越大,表示其汉明距离越小,即图像对越相似,反之亦然。请参阅图1,其为现有技术中Sigmoid函数和Cauchy函数的曲线示意图,大多数基于贝叶斯学习的深度哈希模型使用Sigmoid作为似然函数。Sigmoid函数只在内积靠近0的区域函数斜率值较大,且范围较小,其它位置的函数斜率值趋于0。这样的设计,在单标签数据集训练时,限制了图像对内积的训练范围,使得不同类别图像在汉明空间出现交叉域现象。具体的,以哈希码长度K=48为例,当模型需要将相似图像对的内积训练到8以上,此时Sigmoid的斜率和梯度趋近于0,导致模型在反向传播时很难训练到更大的内积;同理,非相似图像对也很难训练到较小的内积。
当同类别图像无法聚集到各自的汉明球内时,会出现类间交叉现象,其交叉部分的图像无法正确分类。请参阅图2,其为现有技术中深度哈希模型进行图像检索的结果示意图;其中,图2(a)表示深度成对监督哈希(deep supervised Hashing with pairwiselabels,DPSH)模型在单标签数据集中检索的内积分布图和汉明空间图,图2(b)表示深度柯西哈希(deep Cauchy Hashing,DCH)模型在单标签数据集和多标签数据集中检索的内积分布图和汉明空间图。在Cifar-10单标签数据集中,训练使用Sigmoid似然函数的DPSH模型,可以发现不同类别图像存在交叉域。
为了克服Sigmoid函数产生的问题,研究者在DCH等深度哈希模型中提出使用Cauchy作为似然函数(如图1所示)。Cauchy函数在整个定义域区间有单调递增的曲线和斜率设计。该函数能有效地提高内积的训练范围,使相似对需要训练到更大的内积时,为模型的反向传播提供不为0的梯度,从而有效地减少了不同类别图像在汉明空间出现交叉域现象。如图2(b)所示,在Cifar-10单标签数据集中,训练使用Cauchy似然函数的DCH模型,可以发现类A和类B的分离效果较好。但是,其仍存在少量的数据分类错误。这是因为Cauchy函数临近内积最大值区域的曲线斜率远大于其它区域。在训练时,数量较少且处在斜率较小区域的数据,将被数量较多且处在斜率较大区域的数据淹没,从而模型在反向传播时无法训练这部分数据。这种难以优化的数据被称为难样本,反之为易样本。尽管Cauchy函数在单标签图像检索中表现出色,但在多标签图像检索中效果却不理想。在多标签数据集中,一张图像可能属于多个类别,而不只属于一个类别。在汉明空间中,图像理想的位置应当位于其所属的多个类别的中间区域,而非位于某单一类别的汉明球内。而Cauchy函数单调递增的曲线和斜率设计,相似对在训练过程中将会获得持续上升的内积值,使图像收敛于某单一类别的汉明球内,最终导致多标签数据分类不准确,这称为极端学习问题。如图2(b)所示,在NUS-WIDE多标签数据集中,训练DCH模型,可以发现多标签数据被极端地收敛到某单一类别A或B的汉明球内,而非中间位置。
综上所述,目前基于贝叶斯学习的深度哈希方法,无法同时在单标签和多标签图像中获得综合较优的检索效果,且改进的方法无法较好的优化难样本数据。
发明内容
基于此,本发明的目的在于,提供一种基于函数自适应映射的深度哈希方法,其似然函数能够根据样本的学习情况进行自适应映射,在单标签图像集和多标签图像集的测试中得到综合检索最优的效果,具有检索精度高、训练速度快、稳定性高的特点。
本发明是通过如下技术效果进行实现的:
一种基于函数自适应映射的深度哈希方法,包括如下步骤:
构建带标签图像的实验数据集,及构建基于函数自适应映射的深度哈希模型;其中,所述实验数据集包括训练集和测试集;所述深度哈希模型将输入带标签图像预处理为统一大小,然后提取预处理图像的特征值u,并根据所述特征值u生成哈希码b;
输入所述训练集的带标签图像将所述深度哈希模型训练至收敛,并在训练过程中通过目标函数进行损失计算;所述目标函数包括度量损失函数LDAMH,所述度量损失函数LDAMH使用交叉熵损失函数,其表达式为LDAMH=-log[p(sij|θ)];
其中,第i张图和第j张图为一个图像对,sij表示所述图像对的相似性,sij=1表示所述图像对为相似对,sij=0表示所述图像对为非相似对;θ表示所述图像对的内积;p(sij|θ)表示内积θ对相似性sij的似然概率,其表达式为;σ[f(θ)]表示Sigmoid函数关于一次函数f(θ)的复合函数,所述一次函数f(θ)用于控制所述复合函数的斜率范围和映射区域;所述复合函数σ[f(θ)]包括易样本函数和难样本函数两个阶段,所述易样本函数和所述难样本函数的临界点为基点(θ0,y0),所述复合函数σ[f(θ)]的表达式为:
其中,θ0表示所述基点的内积,y0表示所述基点的似然概率,K表示所述特征值u的向量长度或所述哈希码b的位数;当θ0<θ<K时,σ[f(θ)]为易样本函数,当-K<θ<θ0时,σ[f(θ)]为难样本函数;参数a、c用于控制σ[f(θ)]的斜率,参数a用于单独调控σ[f(θ)]中的所述难样本函数和所述易样本函数的斜率的比率,参数d、g用于控制所述基点的映射区域;
输入所述测试集的带标签图像测试所述深度哈希模型,获得训练后的深度哈希模型。
本发明所述的一种基于函数自适应映射的深度哈希方法,在Sigmoid函数的基础上引入一次函数f(θ),通过改变f(θ)的参数,使得复合函数σ[f(θ)]能够根据样本的学习情况进行自适应映射,提高图像对内积的学习范围,减少单标签数据集中不同类别的图像在汉明空间中的交叉域现象,从而提高图像检索的精度;同时,将复合函数σ[f(θ)]划分为易样本函数和难样本函数两个阶段,使难样本和易样本分别由复合函数σ[f(θ)]的不同阶段进行优化,减少难样本难以被优化的问题。
进一步地,所述基点内积θ0的取值范围为θlower≤θ0≤θupper;
其中,θlower表示所述基点的内积的移动下界,且θlower=0;θupper表示所述基点的内积的移动上界,对于单标签数据集,移动上界为θupper=K/2;对于多标签数据集,移动上界为θupper=K/4。
设置基点的移动上下界,能够控制复合函数的映射区域或平移范围,使非相似对有更好的分离效果,并防止多标签数据集极端地收敛到某单一类别的汉明球内。
在该坐标设置第一基点,能够合理地划分相似对集合中的难易样本,并最大化每batch样本的学习梯度,从而提高模型的训练速度。
进一步地,所述相似对的度量损失函数Lp的表达式为:
根据第一基点将相似对的Lp分成两段,使Lp能够根据样本的学习情况进行自适应映射,提高在单标签数据集中的检索精度。
其中,R和L是人为设定的参数,参数R用于限制所述易样本函数的内积的取值范围,参数L用于限制难样本的内积的取值范围。
通过参数的调控,实现了Lp的自适应映射,并为难样本提供更大的学习梯度,防止出现难样本梯度被简单样本淹没的问题。
进一步地,所述非相似对的度量损失函数Ln的具体表达式为:
其中,当时,Ln为易样本函数,当时,Ln为难样本函数;参数a'、c'用于控制Ln的斜率,参数a'用于单独调控Ln中的所述难样本函数和所述易样本函数的斜率的比率,参数d'、g'用于控制所述第二基点的映射区域。
进一步地,所述目标函数还包括量化损失函数LQ,其表达式为:
min Loss=LDAMH+λLQ=sijLp+(1-sij)Ln+λLQ (19)
其中,所述量化损失函数LQ为LQ=|u-b|,λ代表调控所述量化损失函数LQ的超参数。
进一步地,还包括如下步骤:
所述实验数据集还包括被检索集;
通过训练后的所述深度哈希模型,生成所述被检索集的带标签图像的哈希码,构建哈希码数据库。
与现有技术相比,本发明提供的一种基于函数自适应映射的深度哈希方法和装置,采用一个能根据样本的学习情况进行自适应映射的度量损失函数,使得DAMH模型优化后能够减少不同类别的单标签图像出现汉明交叉域现象;将度量损失函数根据难易样本设计为分段函数,避免了难样本难以被优化的问题;通过对度量损失函数的映射范围进行限制,防止多标签图像中的极端学习现象。整体而言,该深度哈希方法、装置、电子设备即存储介质提升了深度哈希图像检索模型的训练速度和稳定性,并在单标签图像集和多标签图像集的测试中得到综合检索最优的效果。
为了更好地理解和实施,下面结合附图详细说明本发明。
附图说明
图1为现有技术中Sigmoid函数和Cauchy函数的曲线示意图;
图2为现有技术中深度哈希模型进行图像检索的结果示意图;
图3为本发明一实施例提供的一种基于函数自适应映射的深度哈希方法的步骤流程图;
图4为本发明一实施例提供的DAMH模型的总体框架图;
图5为本发明一实施例提供的难样本和易样本的划分示意图;
图6为本发明一实施例提供的使用目标函数进行训练时基点的选择趋势的拟合曲线;
图7为本发明一实施例提供的DAMH模型在优化相似对时使用的目标函数示意图;
图8为本发明一实施例提供的DAMH模型在CIFAR-10数据集训练后输出的散点图;
图9为本发明一实施例提供的DAMH模型在CIFAR-10数据集训练第20次迭代时的内积分布图;
图10为本发明一实施例提供的DAMH模型在NUS-WIDE数据集训练的内积分布图;
图11为基于本发明一实施例提供的DAMH模型的图像检索方法的步骤流程图;
图12为基于本发明一实施例提供的DAMH模型的图像检索方法的结果示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施例方式作进一步地详细描述。
请参阅图3~4,图3为本实施例提供的一种基于函数自适应映射的深度哈希方法(A Deep Hashing Method Of Likelihood Function Adaptive Mapping,DAMH)的步骤流程图,图4为本实施例提供的DAMH模型的总体框架图。该深度哈希方法包括如下步骤:
S10、构建带标签图像的实验数据集和基于函数自适应映射的深度哈希(DAMH)模型;
S20、将DAMH模型训练至收敛,在训练过程中通过目标函数进行损失计算;
S30、对收敛后的DAMH模型进行测试,获得训练后的DAMH模型;
S40、通过训练后的DAMH模型,生成带标签图像的哈希码,构建哈希码数据库。
具体的,步骤S10包括如下两个子步骤:
S11、构建实验数据集:将公共数据集中的带标签图像保存至实验数据集,并随机划分为训练集、测试集和被检索集,用于后续步骤的模型训练和哈希码数据库的构建。
其中,带标签图像包括单标签图像和多标签图像,单标签图像从Cifar-10数据集中选取,多标签图像从NUS-WIDE数据集中选取。在其他实施例中,还可以从ImageNet数据集中选取更多类别的单标签图像,或者对公共数据集中的没有标签的图像进行人工标注,然后将标注后的图像与带标签图像一起保存至实验数据集。
将实验数据集随机划分为训练集、测试集和被检索集,将训练集中的带标签图像划分为多个batch;在本实施例中,实验数据集包括源自CIFAR-10数据集的6万张单标签图像和源自NUS-WIDE数据集的19.6万张多标签图像,随机选取其中5000张单标签图像和10500张多标签图像为训练集,1000张单标签图像和2100张多标签图像为测试集,其余单标签图像和多标签图像为被检索集。
S12、构建DAMH模型:DAMH模型包括预处理单元、神经网络和哈希函数;预处理单元用于将输入的图像预处理为统一大小,具体的,预处理后的图像均为224×224像素;神经网络用于提取预处理后的图像的特征值u,可选的,采用EfficientNet或MobileNet进行特征提取;哈希函数用于根据特征值u生成哈希码b,在本实施例中,使用Sgn阶跃函数为哈希函数,即b=h(u)=sgn(u)。
在步骤S20中,按batch输入训练集的带标签图像将DAMH模型训练至收敛,并在训练过程中通过目标函数进行损失计算。具体的,将训练集的带标签图像按batch输入DAMH模型进行训练,使用目标函数进行损失计算,以迭代更新神经网络的参数;其中,目标函数包括度量损失函数和量化损失函数,其表达式为:minLoss=LDAMH+λLQ;式中,minLoss表示最小化误差损失,LDAMH表示度量损失函数,LQ表示量化损失函数,λ表示调控量化损失函数LQ的超参数;
在步骤S30中,在DAMH模型收敛后,输入测试集的带标签图像对DAMH模型的性能进行测试,获得训练后的DAMH模型。
在步骤S40中,通过训练后的DAMH模型,生成被检索集的带标签图像的哈希码,从而构建得到带标签图像的哈希码数据库。
具体的,目标函数的详细推导过程如下:
(1)变量和函数的定义:
在n张图像中,用表示实验数据集中n张图像的集合,xi表示第i张图像的像素矩阵。定义神经网络的映射为表示将图像输入神经网络F中,通过tanh函数获得图像的低维度特征值(或特征向量)其中,K表示向量长度。
若第i张图和第j张图为一个图像对,该图像对的相似性集合S用S={sij}={0,1}表示。其中,sij=1表示该图像对为相似对,即标签相同;sij=0表示该图像对为非相似对,即标签不相同。图像对的内积θ由表示,用于衡量图像对的相似性;其中,bi、bj分别为第i、j图像的哈希码,T表示像素矩阵的转置;那么,图像对的汉明距离(即相似度)可由公式(1)计算得到。
其中,K为哈希码bi的位数(也即是特征值的向量长度)。
(2)贝叶斯学习框架:
用于图像检索的深度哈希模型学习的目的是最大化图像对的相似性概率,即最小化误差损失(minimal loss),或者说,使度量损失函数取得极小值。其中,度量损失函数使用交叉熵(Cross Entropy)损失函数,其表达式为:
LDAMH=CE[p(S|B)]=-log[p(sij|θ)] (2)
其中,CE=-log()代表交叉熵函数,p(S|B)是预测值B对结果S的似然概率,即哈希码集合B对相似性集合S的似然概率,也就是内积θ对相似(即sij=1)或不相似(即sij=0)的似然概率。那么,对于图像对的内积θ,其似然函数为:
其中,表示Sigmoid函数关于一次函数f(θ)的复合函数,一次函数f(θ)用于控制σ[f(θ)]的斜率范围和映射区域;sij=1时,p+(sij|θ)表示相似对的似然函数;sij=0时,p-(sij|θ)表示非相似对的似然函数。
(3)一次函数f(θ)的设计:
为了提高似然函数内积的训练范围,以减少单标签数据集不同类别的交叉现象,并为难样本提供更大的学习梯度,防止难样本梯度被简单样本淹没,本实施例将一次函数f(θ)设计为分段函数,该分段函数包括难样本函数和易样本函数两个阶段。其中,易样本函数feasy(θ)用于优化易样本,假设其表达式为feasy(θ)=cθ+d;难样本函数fhard(θ)用于优化难样本,假设其表达式为fhard(θ)=acθ+g。那么,复合函数σ[f(θ)]和似然函数p(sij|θ)也被划分为难易样本函数和难样本函数两个阶段。
复合函数σ[f(θ)]的表达式为:
其中,参数a、c、d和g均是人为设定的参数,用于通过对σ[f(θ)]的斜率范围和映射区域的调控,进而实现对似然函数p(sij|θ)的斜率范围和映射区域的调控。具体的,参数a、c用于控制似然函数p(sij|θ)的斜率,参数a用于单独调控似然函数p(sij|θ)中的难样本函数和易样本函数的斜率的比率,参数d、g用于控制似然函数p(sij|θ)的映射区域(或评议范围)。当相似对内积训练到梯度趋于0的曲线区域时,可通过调控d和g来重映射似然函数,即令似然函数进行平移,使原本梯度较小的样本重新映射到梯度较大的曲线处,从而提高了内积的训练范围。优选的,参数a的取值范围为a>1,难样本函数将比易样本函数具有更大的梯度,映射在难样本函数的样本将获得更大的斜率值,从而防止难样本梯度被大量的易样本淹没而无法优化问题。
(4)难样本和易样本的划分:
为了使似然函数随样本的学习情况自适应映射,需要确定函数以哪个点为基点(Base Point,BP),并且该基点以什么条件移动,才能使模型训练后有较优的结果。假设基点的坐标为(θ0,y0),其中,基点内积θ0用于作为划分难样本和易样本的临界点,或者说,用于作为划分似然函数p(sijθ)或复合函数σ[f(θ)]的难样本函数和易样本函数的临界点,即有:
其中,θ0<θ<K时,σ[f(θ)]为易样本函数,反之,σ[f(θ)]难样本函数。
具体的,基点(θ0,y0)包括第一基点和第二基点其中,第一基点为采用相似对集合对DAMH模型进行训练时的函数基点,用于区分相似对中的难易样本;第二基点为采用非相似对集合对DAMH模型进行训练时的函数基点,用于区分非相似对中的难易样本。
在本实施例中,难样本和易样本通过如下方式进行划分:
相似对与一个最相似的非相似对进行比较,非相似对与一个最不相似的相似对比较时,能更好地区分哪部分样本容易优化,哪部分样本难以优化。请参阅图5,其为本实施例提供的难样本和易样本的划分示意图。其中,A为锚点图,P是与A相似的正例图,N是与A不相似的负例图,也就是说,A和P为相似对,A和N为非相似对。
取与A最相似的负例图N0,A与N0的汉明距离为dn(θn,max)。在相似对集合中,当正例图与A的汉明距离大于dn(θn,max)时,则为相似对的难样本(如图5中的P1、P2),否则为相似对的易样本。不等式定义为:θp,hard≤θn,max<θp,easy,则第一基点的内积其中,θp,hard表示相似对的难样本的内积,θp,easy表示相似对的易样本的内积,θn,max表示非相似对的最大内积。
取与A最不相似的正例图P0,A与P0的汉明距离为dp(θp,min)。在非相似对集合中,当负例图与A的汉明距离小于dp(θp,min),则为非相似对的难样本(如图5的N1、N2),否则为非相似对的易样本。不等式定义为:θn,hard≥θp,min>θn,easy,则第二基点的内积其中,θn,hard表示非相似对的难样本的内积,θn,easy表示非相似对的易样本的内积,θp,min表示相似对的最小内积。
(5)基点的移动上界和下界:
进一步地,基点内积θ0的取值范围为θlower≤θ0≤θupper,其中,θupper为基点内积θ0的移动上界,θlower为基点内积θ0的移动下界,移动上界和移动下界用于限制似然函数的映射范围,使非相似对有更好的分离效果,并防止多标签数据集极端地收敛到某单一类别的汉明球内。
在本实施例中,移动上界和移动下界通过如下方式进行设定:
2dp≤dn (7)
其中,dp为相似对的汉明距离,dn为非相似对的汉明距离,即相似对的汉明球半径小于非相似对汉明距离的二分之一,带入公式(1)可得:
θn+K≤2θp (8)
其中,θp为相似对的内积。因此,在单标签数据集的训练中,通过公式(8)可得θp=K/2为基点的移动上界。同时,为了防止在多标签数据的极端学习现象,设θp=K/4为多标签数据集训练时基点的移动上界。
由此可得,基点内积θ0的取值范围为θlower≤θ0≤θupper。其中,移动下界θlower=0;对于单标签数据集,移动上界为θupper=K/2;对于多标签数据集,移动上界为θupper=K/4。
(6)基点的位置选择:
根据Sigmoid函数的性质,当σ[f(θ0)]=0.5时导数最大,远离该点的梯度逐渐递减,将该导数最大的点作为似然函数的基点(θ0,y0)。那么,对于相似对集合,似然函数的第一基点的坐标为其中,即第一基点的坐标为(θn,max,0.5);对于非相似对集合,似然函数的第二基点的坐标为即第二基点的坐标为(θp,min,0.5)。
使用基点(θ0,y0)所在的水平线为基准线,易样本的数据或易样本函数分布在基准线之上,难样本的数据或难样本函数分布在基准线之下,从而最大化每batch样本的学习梯度,提高模型的训练速度。
由公式(4)和公式(5)可得相似对的似然函数为:
由于相似对的难易样本是通过非相似对集合中最相似的非相似对θn,max来划分的,但随着非相似对样本的优化,θn,max(即第一基点的内积)会越来越小,似然函数将向左平移,而此时相似对样本仍希望训练到较大的似然概率,因此,可以添加相似对的内积均值ap加以限制,从而使模型根据样本的优化情况自适应地学习,其表达式为:
(7)似然函数斜率的调控:
由于Sigmoid函数学习范围有限,如果函数的移动基点位置选取错误,同样会导致相似对在模型中无法学习到更大的内积。因此,可以通过调整参数c使函数缩放的方式来提高内积的学习范围,从而避免移动基点选取不当造成干扰。其中c由feasy(θ)、fhard(θ)、最大似然概率(0.99)和最小似然概率(0.01)确定,所以设易样本的范围为[θ0,θ0+R],难样本的范围为[θ0-L,θ0],其中,参数R(即Right)和L(即Left)为人为设定的参数,分别用于调控feasy(θ)和fhard(θ)的陡度,即参数R用于调控似然函数的易样本函数的斜率,参数L用于调控似然函数的难样本函数的斜率,易得:
对于相似对的似然函数的易样本函数有:
对于相似对的似然函数的难样本函数有:
联立公式(9)、(13)和(14)可得:
将上述参数带入公式(4)和(5),再将结果带入公式(2),可得相似对的度量损失函数Lp为:
同理可求得非相似对的似然函数的参数a'、c'、d'和g',再将取c'的相反数,带入求得非相似对Ln的度量损失函数为:
最后,结合公式(15)和公式(16)可得完整的度量损失函数LDAMH为:
(8)量化损失函数LQ:
对于神经网络输出为连续特征值而哈希码为二进制值的情况,需要引入惩罚项来衡量这两者的误差,从而优化神经网络的输出。通过bi=sgn(ui)得到的哈希码时,该函数不可导将导致网络无法优化。因此,上述输入的θ都由ui Tuj代替bi Tbj,此时产生的误差可用连续松弛方法优化模型输出,即量化损失函数LQ的表达式为:
LQ=|u-b|=|u-sgn(u)| (18)
最终,目标函数的完整表达式为
min Loss=LDAMH+λLQ=sijLp+(1-sij)Ln+λLQ (19)
其中,λ代表调控量化损失函数LQ的超参数。
请参阅图6,其为本实施例使用目标函数进行训练时基点的选择趋势的拟合曲线;其中,图6(a)为相似对优化时基点的选择趋势拟合曲线,图6(b)为非相似对优化时基点的选择趋势拟合曲线。
在DAMH模型进行首batch优化时,由于相似对还未训练到较大的内积,ap较小,即wp趋近于1,由θn,max控制。此时,相似对和非相似对还未分离,θn,max将比大多数相似对的内积大,第一基点控制似然函数向右平移,使函数梯度较大的曲线范围映射在内积较大的区域,大多数相似对样本的概率值较小,通过交叉熵产生较大的损失值有利于模型的反向传播,从而提高模型的训练速度,使相似对训练到较大的内积。同理,非相似对训练到较小的内积。
在模型逐batch优化中,相似对的内积越来越大,使ap也越来越大,即0<wp<1,由ap和θn,max控制,从而使第一基点能根据当前的样本学习状况(即ap)控制似然函数继续向右平移,同时第一基点也依赖于样本的分离情况(即θn,max)划分难易样本。由于和斜率变化不同,相似对的易样本将获得一定的梯度和较小的损失(概率较大),小量的难样本将获得较大的梯度和较大的损失(概率较小),从而有效地防止难样本梯度被简单样本淹没,并使相似对训练到较大的内积。
在模型多个batch优化后,ap接近于θupper,即wp趋于1,由ap控制。由于θupper的限制,似然函数将不再向右平移。此时,所有相似对样本将获得较大的概率(较小的损失)和较低的梯度值,从而限制模型的反向传播,防止相似对继续训练到更大的内积。
请参阅图7,其为本实施例提供的DAMH模型在优化相似对时使用的目标函数示意图。向量长度(或哈希码位数)K=48,则第一基点能在的基准线上左右平移,移动上界θupper=K/2=24,移动下界θlower=0,使似然函数进行自适应映射。当图像对内积训练到梯度趋近于0的区域时,例如图7的X0点处梯度为0.01,第一基点根据样本的学习情况重新选取位置,由原来的B0点移动到B1点,使原本梯度较小的X0点重新映射到梯度较大的X1点,从而提高图像内积的学习范围,减少不同类别的图像在汉明空间中的交叉域现象,让图像得以正确分类和检索。同时,第一基点受到移动上界和移动下界的限制,使得函数斜率大的线段无法映射到内积极大或极小的坐标区域,从而防止多标签数据极端地聚集到某单一类别的汉明球内。
请参阅图8,其为本实施例提供的DAMH模型在CIFAR-10数据集训练后输出的散点图,DAMH模型在单标签数据集训练时,不同类别的图像并没有出现明显的汉明交叉域。请参阅图9,其为本实施例提供的DAMH模型在CIFAR-10数据集训练第20次迭代时的内积分布图。由图可知,在第20次迭代时,相似对的内积分布集中于θ>K/2(K=48)的区域,非相似对的内积分布集中于θ趋近于0的区域,说明DAMH模型能使相似对训练到较大的内积,为使内相似对训练到较小的内积,避免了不同类别的单标签图像出现汉明交叉域的现象,同时减少了难样本数据难以被优化的情况。
请参阅图10,其为本实施例的DAMH模型在NUS-WIDE数据集训练的内积分布图。由图可知,由于移动上界θupper的限制,相似对的内积在20次迭代后并没有被优化到内积更大的区域,防止多标签数据极端的聚集到某个单一类别汉明球内,从而避免了搜索多标签图像时只会搜索到与其仅有一个类别相同的图像的情况。最终,DAMH模型在第42次迭代时达到收敛,说明采用自适应映射的似然函数进行训练,能快速达到拟合状态,并且在训练初期就有较高的准确度。
请参阅图11,其为基于本实施例提供的DAMH模型的图像检索方法的步骤流程图,该图像检索步骤包括如下步骤:
S51、将查询图像输入训练后的DAMH模型,生成一个查询哈希码;在本实施例中,使用Sgn阶跃函数把查询图像(第i张图像)的特征值ui转化为二进制的哈希码bi;
S52、计算查询哈希码和哈希码数据库(即步骤S30所构建的哈希码数据库)中所有哈希码的汉明距离,其表达式如公式(1)所示;
S53、按照汉明距离从小到大的顺序对带标签图像进行相似度排序,选取排序结果中的前N张图像,并根据地址索引其所存储的位置,完成图像检索;其中,N为正整数。
请参阅图12,其为基于本实施例提供的DAMH模型的图像检索方法的结果示意图。在图12的例子中,随机选取一张单标签或多标签图像作为查询图像,在对应的哈希码数据库中进行检索,输出最相似的前10张图像(即N=10),并获取相似图像的存储地址。
如表1所示,当R=K/4,θupper=K/2,λ=0.1时,与DHN、DPSH、HashNet、DHLH和DCN等现有的深度哈希模型相比较,本实施例提供的DAMH模型在进行图像检索时,精度整体上都有所提升,并在单标签图像集和多标签图像集的测试中的到综合检索最优的效果。
表1.不同模型在CIFAR数据集中的检索精度对比
与现有技术相比,本发明提供的一种基于函数自适应映射的深度哈希方法,采用一个能根据样本的学习情况进行自适应映射的度量损失函数,使得DAMH模型优化后能够减少不同类别的单标签图像出现汉明交叉域现象;将度量损失函数根据难易样本设计为分段函数,避免了难样本难以被优化的问题;通过对度量损失函数的映射范围进行限制,防止多标签图像中的极端学习现象。整体而言,该深度哈希方法、装置、电子设备即存储介质提升了深度哈希图像检索模型的训练速度和稳定性,并在单标签图像集和多标签图像集的测试中得到综合检索最优的效果。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。
Claims (9)
1.一种基于函数自适应映射的深度哈希方法,其特征在于,包括如下步骤:
构建带标签图像的实验数据集,及构建基于函数自适应映射的深度哈希模型;其中,所述实验数据集包括训练集和测试集;所述深度哈希模型将输入带标签图像预处理为统一大小,然后提取预处理图像的特征值u,并根据所述特征值u生成哈希码b;
输入所述训练集的带标签图像将所述深度哈希模型训练至收敛,并在训练过程中通过目标函数进行损失计算;所述目标函数包括度量损失函数LDAMH,所述度量损失函数LDAMH使用交叉熵损失函数,其表达式为LDAMH=-log[p(sij|θ)];
其中,第i张图和第j张图为一个图像对,sij表示所述图像对的相似性,sij=1表示所述图像对为相似对,sij=0表示所述图像对为非相似对;θ表示所述图像对的内积;p(sij|θ)表示内积θ对相似性sij的似然概率,其表达式为σ[f(θ)]表示Sigmoid函数关于一次函数f(θ)的复合函数,所述一次函数f(θ)用于控制所述复合函数的斜率范围和映射区域;所述复合函数σ[f(θ)]包括易样本函数和难样本函数两个阶段,所述易样本函数和所述难样本函数的临界点为基点(θ0,y0),所述复合函数σ[f(θ)]的表达式为:
其中,θ0表示所述基点的内积,y0表示所述基点的似然概率,K表示所述特征值u的向量长度或所述哈希码b的位数;当θ0<θ<K时,σ[f(θ)]为易样本函数,当-K<θ<θ0时,σ[f(θ)]为难样本函数;参数a、c用于控制σ[f(θ)]的斜率,参数a用于单独调控σ[f(θ)]中的所述难样本函数和所述易样本函数的斜率的比率,参数d、g用于控制所述基点的映射区域;
输入所述测试集的带标签图像测试所述深度哈希模型,获得训练后的深度哈希模型。
2.根据权利要求1所述的一种基于函数自适应映射的深度哈希方法,其特征在于:
所述基点内积θ0的取值范围为θlower≤θ0≤θupper;
其中,θlower表示所述基点的内积的移动下界,且θlower=0;θupper表示所述基点的内积的移动上界,对于单标签数据集,移动上界为θupper=K/2;对于多标签数据集,移动上界为θupper=K/4。
3.根据权利要求1所述的一种基于函数自适应映射的深度哈希方法,其特征在于:
所述基点(θ0,y0)包括第一基点所述第一基点用于在优化相似对集合时,作为所述易样本函数和所述难样本函数的临界点,所述第一基点的内积为:
其中,ap代表所述相似对的内积均值,其表达式为
wp代表所述相似对的调控权重,其表达式为θn,max代表所述非相似对的最大内积,θupper表示所述基点的映射上界,θlower表示所述基点的映射下界;
表示所述第一基点的似然概率,其取值为
4.根据权利要求3所述的一种基于函数自适应映射的深度哈希方法,其特征在于:
所述相似对的度量损失函数Lp的表达式为:
其中,当时,Lp为易样本函数,当时,Lp为难样本函数;参数a、c用于控制Lp的斜率,参数a用于单独调控Lp中的难样本函数和易样本函数的斜率的比率,参数d、g用于控制所述第一基点的映射区域。
5.根据权利要求4所述的一种基于函数自适应映射的深度哈希方法,其特征在于:
所述参数a的表达式为:
所述参数c的表达式为:
所述参数d的表达式为:
所述参数g的表达式为:
其中,R和L是人为设定的参数,参数R用于限制所述相似对的易样本的内积的取值范围,参数L用于限制所述相似对的难样本的内积的取值范围。
6.根据权利要求3所述的一种基于函数自适应映射的深度哈希方法,其特征在于:
所述基点(θ0,y0)包括第二基点所述第二基点用于在优化非相似对集合时,作为所述易样本函数和所述难样本函数的临界点,所述第二基点的内积为:
其中,an代表所述非相似对的内积均值,其表达式为
wn代表所述非相似对的调控权重,其表达式为θp,min代表所述相似对的最小内积;表示所述第二基点的似然概率,其取值为
7.根据权利要求6所述的一种基于函数自适应映射的深度哈希方法,其特征在于:
所述非相似对的度量损失函数Ln的具体表达式为:
其中,当时,Ln为易样本函数,当时,Ln为难样本函数;参数a'、c'用于控制Ln的斜率,参数a'用于单独调控Ln中的难样本函数和易样本函数的斜率的比率,参数d'、g'用于控制所述第二基点的映射区域。
8.根据权利要求7所述的一种基于函数自适应映射的深度哈希方法,其特征在于:
所述目标函数还包括量化损失函数LQ,其表达式为:
min Loss=LDAMH+λLQ=sijLp+(1-sij)Ln+λLQ (19)
其中,所述量化损失函数LQ为LQ=|u-b|,λ代表调控所述量化损失函数LQ的超参数。
9.根据权利要求1所述的一种基于函数自适应映射的深度哈希方法,其特征在于,还包括如下步骤:
所述实验数据集还包括被检索集;
通过训练后的所述深度哈希模型,生成所述被检索集的带标签图像的哈希码,构建哈希码数据库。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210136975.1A CN114547354B (zh) | 2022-02-15 | 2022-02-15 | 一种基于函数自适应映射的深度哈希方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210136975.1A CN114547354B (zh) | 2022-02-15 | 2022-02-15 | 一种基于函数自适应映射的深度哈希方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114547354A CN114547354A (zh) | 2022-05-27 |
CN114547354B true CN114547354B (zh) | 2023-04-07 |
Family
ID=81675101
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210136975.1A Active CN114547354B (zh) | 2022-02-15 | 2022-02-15 | 一种基于函数自适应映射的深度哈希方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114547354B (zh) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113326390A (zh) * | 2021-08-03 | 2021-08-31 | 中国海洋大学 | 基于深度特征一致哈希算法的图像检索方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105512273A (zh) * | 2015-12-03 | 2016-04-20 | 中山大学 | 一种基于可变长深度哈希学习的图像检索方法 |
CN109918532B (zh) * | 2019-03-08 | 2023-08-18 | 苏州大学 | 图像检索方法、装置、设备及计算机可读存储介质 |
CN110457514A (zh) * | 2019-08-12 | 2019-11-15 | 桂林电子科技大学 | 一种基于深度哈希的多标签图像检索方法 |
CN112488231B (zh) * | 2020-12-11 | 2024-07-02 | 北京工业大学 | 一种具有平衡相似性的余弦度量监督深度哈希算法 |
-
2022
- 2022-02-15 CN CN202210136975.1A patent/CN114547354B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113326390A (zh) * | 2021-08-03 | 2021-08-31 | 中国海洋大学 | 基于深度特征一致哈希算法的图像检索方法 |
Also Published As
Publication number | Publication date |
---|---|
CN114547354A (zh) | 2022-05-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110309331B (zh) | 一种基于自监督的跨模态深度哈希检索方法 | |
WO2020244437A1 (zh) | 图像处理方法、装置及计算机设备 | |
CN108710894B (zh) | 一种基于聚类代表点的主动学习标注方法和装置 | |
WO2022068195A1 (zh) | 跨模态的数据处理方法、装置、存储介质以及电子装置 | |
US20210224332A1 (en) | Chart question answering | |
CN114841257B (zh) | 一种基于自监督对比约束下的小样本目标检测方法 | |
CN110222218B (zh) | 基于多尺度NetVLAD和深度哈希的图像检索方法 | |
CN109858015B (zh) | 一种基于ctw和km算法的语义相似度计算方法及装置 | |
CN108897791B (zh) | 一种基于深度卷积特征和语义相似度量的图像检索方法 | |
CN112948601B (zh) | 一种基于受控语义嵌入的跨模态哈希检索方法 | |
CN111125411A (zh) | 一种深度强相关哈希学习的大规模图像检索方法 | |
CN111325264A (zh) | 一种基于熵的多标签数据分类方法 | |
CN109960732B (zh) | 一种基于鲁棒监督的深度离散哈希跨模态检索方法及系统 | |
CN109062958B (zh) | 一种基于TextRank和卷积神经网络的小学作文自动分类方法 | |
CN110598022A (zh) | 一种基于鲁棒深度哈希网络的图像检索系统与方法 | |
CN114461839A (zh) | 基于多模态预训练的相似图片检索方法、装置及电子设备 | |
CN114841173B (zh) | 基于预训练模型的学术文本语义特征提取方法、系统和存储介质 | |
CN111506760B (zh) | 一种基于困难感知的深度集成度量图像检索方法 | |
CN114299362A (zh) | 一种基于k-means聚类的小样本图像分类方法 | |
CN112434134A (zh) | 搜索模型训练方法、装置、终端设备及存储介质 | |
CN117217277A (zh) | 语言模型的预训练方法、装置、设备、存储介质及产品 | |
CN114357221A (zh) | 一种基于图像分类的自监督主动学习方法 | |
CN117273134A (zh) | 一种基于预训练语言模型的零样本知识图谱补全方法 | |
CN115329120A (zh) | 一种知识图谱嵌入注意力机制的弱标注哈希图像检索架构 | |
CN114860973A (zh) | 一种面向小样本场景的深度图像检索方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |