CN116127121A - 一种图像检索模型的训练方法及基于此的图像检索算法 - Google Patents
一种图像检索模型的训练方法及基于此的图像检索算法 Download PDFInfo
- Publication number
- CN116127121A CN116127121A CN202310180785.4A CN202310180785A CN116127121A CN 116127121 A CN116127121 A CN 116127121A CN 202310180785 A CN202310180785 A CN 202310180785A CN 116127121 A CN116127121 A CN 116127121A
- Authority
- CN
- China
- Prior art keywords
- image
- representing
- loss
- sample
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 88
- 238000000034 method Methods 0.000 title claims abstract description 62
- 238000004422 calculation algorithm Methods 0.000 title claims description 9
- 239000013598 vector Substances 0.000 claims abstract description 24
- 230000008569 process Effects 0.000 claims abstract description 16
- 230000006870 function Effects 0.000 claims description 69
- 230000003247 decreasing effect Effects 0.000 claims description 17
- 238000009499 grossing Methods 0.000 claims description 4
- 238000005070 sampling Methods 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims description 3
- 238000006467 substitution reaction Methods 0.000 abstract description 18
- 230000000750 progressive effect Effects 0.000 abstract description 2
- 238000005457 optimization Methods 0.000 description 13
- 238000002474 experimental method Methods 0.000 description 10
- 238000012360 testing method Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 230000006872 improvement Effects 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 235000000332 black box Nutrition 0.000 description 1
- 244000085682 black box Species 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 241000894007 species Species 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/53—Querying
- G06F16/538—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Library & Information Science (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Processing Or Creating Images (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提出一种图像检索模型的训练方法,所述方法包括:S1、获取训练集和查询图像,所述训练集包括多个与查询图像同类的正样本图像和多个与查询图像不同类的负样本图像;S2、采用步骤S1中获得的训练集和查询图像将图像检索模型进行多轮训练直至收敛,并在训练过程中基于AUPRC目标损失采用梯度的方式更新图像检索模型参数。本发明通过构建AUPRC的一种上界作为替代损失(替代损失即AUPRC目标损失),并在随机估计中引入正样本图像估计的辅助向量,实现替代目标的可泛化性和渐进无偏性。
Description
技术领域
本发明涉及计算机视觉领域,具体来说,涉及计算机视觉领域中的图像检索领域,更具体地说,涉及一种图像检索模型的训练方法及基于此的图像检索算法。
背景技术
随着互联网信息量的迅速膨胀,从海量的信息中,特别是从其中的非结构化信息中挖掘所需信息已成为具有挑战性的任务。对于广泛应用于搜索引擎、智能安防、风险内容监测等实际场景的图像检索任务,其需要从海量图像(例如,图像数据库中的图像)中为用户搜索包含相同或相似内容的候选图像,并按与查询图像的相似度将候选图像排序。
近年来,随着深度学习的迅速发展,主流图像检索技术以深度学习中的深度模型(例如图像检索模型)为基础,并通过对比深度模型输出结果的损失来约束相关图像(相关图像即是与图像检索任务相关的图像)的相似度高于不相关图像(不相关图像即是与图像检索任务不相关的图像)的相似度来使得深度模型具有图像检索的能力。这样的图像检索技术忽略了相关图像组成的候选图像的整体排序,不能根据现实场景的需求对排序结果依次进行进一步的复核和处理,也不能利用整体排序中靠前部分,来提升具有重要现实意义的图像检索性能。为提高图像检索技术中聚焦头部的图像检索性能,现有技术通过直接优化基于精度-召回率曲线下面积(Area Under the Precision-Recall Curve,AUPRC),来提升模型整体检索性能,其中,AUPRC中的一种无偏估计平均精度(Average Precision,AP)是图像检索的标准指标之一,旨在衡量图像检索模型在不同阈值下的精度和召回率平衡情况。由此,通过直接优化AUPRC,可以对排序靠前的错分赋予更大的损失,使得图像检索模型更符合实际场景需求。
然而,现有基于AUPRC的图像检索方法中存在检索模型的训练目标与测试指标不一致问题,即训练过程中通常采用基于成对损失或三元组损失来调整检索模型参数,不能充分优化标准指标AUPRC,继而成为深度图像检索技术发展的瓶颈之一。得益于AUPRC优良性质和广泛应用前景,为实现学习框架中检索模型的训练目标与测试标准相统一,深度图像检索技术的优化问题吸引了学术界和工业界的广泛关注,相关理论和技术取得了重要进展。鉴于AUPRC需要涉及所有样本排序,早期方法,例如参考文献[1],[2],[3]中的方案均以全批次训练为主。这类方法需要大量计算资源,无法适应深度学习时代与日俱增的数据和模型规模。因此,近年的相关研究,例如参考文献[4],[5],[6]中的方案均旨在集中解决AUPRC随机优化问题。但是这些相关研究中的目标函数的存在不可微的问题,致使基于梯度的模型优化方法不可行。
现有方法应对目标函数存在不可微的问题,提出了将目标函数中不可微的0-1损失替换为可微替代损失的方案,例如参考文献[7]中采用的指数损失、参考文献[8]采用的Sigmoid损失和参考文献[9]采用的线性插值函数,都是为了解决目标函数因为部分损失不可微导致目标函数不可微进而无法基于目标函数采用梯度的方式更新模型参数的问题。尽管上述工作避免了目标函数不可微的问题,但是上述方案中采用替代损失后的目标函数和原始目标函数的关系难以保证,不能有效支撑模型算法设计和理论分析。
参考文献如下:
[1]Donald Metzler and W Bruce Croft.A markov random field model forterm dependencies.In lnternational ACM SIGIRConference on Research andDevelopment in Information Retrieval,pages 472-479,2005.
[2]Pritish Mohapatra,CV Jawahar,and M Pawan Kumar.Efficientoptimization for average precision svm.Advances in Neural lnformationProcessing Systems,27:2312-2320,2014.
[3]Mark Goadrich,Louis Oliphant,and Jude Shavlik.Gleaner:Creatingensembles of first-order clauses to improve recal I-precision curves.MachineLearning,64(1-3):231-261,2006.
[4]Andrew Brown,Weidi Xie,Vicky Kalogeiton,and AndrewZisserman.Smooth-ap:Smoothing the path towards large-scale image retrieval.InEuropean Conference on Computer Vision,pages677-694.Springer,2020.
[5]Fatih Cakir,Kun He,Xide Xia,Brian Kulis,and Stan Sclaroff.Deepmetric learning to rank.In lEEE/CVF Conference on Computer Vision and PatternRecognition,pages 1861-1870,2019.
[6]Paul Henderson and Vittorio Ferrari.End-to-end training of objectclass detectors for mean average precision.In Asian Conference on ComputerVision,pages 198-213.Springer,2016.
[7]Tao Qin,Xu-Dong Zhang,Ming-Feng Tsai,De-Sheng Wang,Tie-Yan Liu,andHang Li.Query-level loss functions for information retrieval.InformationProcessing&Management,44(2):838-855,2008.
[8]Andrew Brown,Weidi Xie,Vicky Kalogeiton,and AndrewZisserman.Smooth-ap:Smoothing the path towards large-scale image retrieval.InEuropean Conference on Computer Vision,pages 677-694.Springer,2020.
[9]Qijia Jiang,Olaoluwa Adigun,Harikrishna Narasimhan,Mahdi MilaniFard,and Maya Gupta.Optimizing black-box metrics with adaptive surrogates.InInternational Conference on Machine Learning,pages 4784-4793.PMLR,2020.
发明内容
因此,本发明的目的在于克服上述现有技术的缺陷,提供一种图像检索模型的训练方法及基于此的图像检索算法。
本发明的目的是通过以下技术方案实现的:
根据本发明的第一方面,提供一种图像检索模型的训练方法,所述方法包括:S1、获取训练集和查询图像,所述训练集包括多个与查询图像同类的正样本图像和多个与查询图像不同类的负样本图像;S2、采用步骤S1中获得的训练集和查询图像将图像检索模型进行多轮训练直至收敛,并在训练过程中基于AUPRC目标损失采用梯度的方式更新图像检索模型参数。
在本发明的一些实施例中,所述AUPRC目标损失为:
其中,w表示图像检索模型的参数,S表示训练集中所有样本的集合,x+表示正样本图像,S+表示S中所有正样本图像x+组成的正样本集合,表示对S+内的每个正样本图像x+对应的目标函数σ(*)值取平均,π表示预先得到的先验概率,hw(x+)th表示样本图像被判定为正样本图像的相似度阈值,l1表示给定hw(x+)th时采用满足利普希茨连续条件的单调递减凸函数计算的负样本损失,且l1≥0以及l1(0)=1,表示给定hw(x+)th时训练集对应的假阳率,l2表示给定hw(x+)th时采用满足利普希茨连续条件的单调递减函数计算的正样本损失,且l2(0)=0以及l2≤1,表示给定hw(x+)时训练集所对应的真阳率。
在本发明的一些实施例中,采用如下单调递减凸函数中的任意一种计算负样本损失:平滑函数、铰链损失函数、单边Huber函数。
优选的,采用单边Huber函数计算负样本损失,且基于单边Huber函数计算的负样本损失为:
其中,hw(x+)th表示样本图像被判定为正样本图像的相似度阈值,hw(x-)表示图像检索模型预测的负样本图像与查询图像相似度得分,τ1表示第一超参数。
在本发明的一些实施例中,所述正样本损失为:
其中,hw(x+)th表示样本图像被判定为正样本图像的相似度阈值,hw(x+)表示图像检索模型预测的正样本图像与查询图像相似度得分,τ2表示第二超参数。
在本发明的一些实施例中,所述正样本损失为:
其中,hw(x+)th表示样本图像被判定为正样本图像的相似度阈值,hw(x+)表示图像检索模型预测的正样本图像与查询图像相似度得分,τ2表示第二超参数。
在本发明的一些实施例中,在所述步骤S2中对步骤S1中获得的训练集进行多轮采样,每轮采样获得该轮对应的批次样本集合,并将每轮对应的批次样本集合用于对图像检索模型进行训练,并在每轮训练过程中基于该轮对应的批次样本集合的AUPRC目标损失采用梯度的方式更新图像检索模型参数,其中,每轮训过程中批次样本集合的AUPRC目标损失为:
其中,z表示批次样本集合,z+表示z中所有正样本图像x+组成的集合,表示对集合z+内的每个正样本图像x+对应的目标函数σ(*)值取平均,表示在给定hw(x+)th时z对应的假阳率,表示在给定hw(x+)th时z对应的真阳率,l1′表示给定hw(x+)th时z对应的负样本损失,l2′表示给定hw(x+)th时z对应的正样本损失。
在本发明的一些实施例中,在计算批次样本集合的损失时,引入辅助向量并按照如下方式计算AUPRC目标损失:
其中,
其中,表示采用批次样本集合对应的正样本图像与查询图像所有相似度得分的线性插值和指数加权平均估计的辅助向量,表示中的插值个数,表示引入辅助向量时批次样本集合z对应的无偏真阳率,l2″表示给定hw(x+)th时且引入后的正样本损失。
在本发明的一些实施例中,引入正样本辅助向量来增大批次中正样本数时,所述辅助向量通过以下方式确定:
其中,表示第t轮训练时对应的辅助向量,βj表示表示第j轮训练对应的预设的学习率,βs表示第s轮训练对应的预设的学习率,表示第s轮训练中正样本与预设查询图像的相似度对应的线性插值,为第s轮训练中正样本与预设查询图像的相似度得分。
在本发明的一些实施例中,在所述步骤S2中,还引入半方差正则项损失,并基于AUPRC目标损失和半方差正则项损失采用梯度的方式更新模型参数,其中半方差正则项为损失:
其中,λ1为第三超参数,n+表示批次样本集合z中的正样本图像个数,hw(x)表示图像检索模型预测z中样本图像与查询图像相似度得分,μ+表示z中的正样本图像与查询图像的所有相似度得分的平均值,λ2为第四超参数,n-表示z中的负样本图像个数,z-表示z中所有负样本图像x-组成的集合,μ-表示z中的负样本图像与查询图像的所有相似度得分的平均值。
在本发明的一些实施例中,τ1∈(0.01,0.1),τ2=0.001,λ1=1,λ2=0.1。
根据本发明的第二方面,本发明还提供一种图像检索算法,所述图像检索算法包括:T1、获取查询图像;T2、采用如本发明第一方面所述方法得到的图像检索模型在图像数据库中获得查询图像的检索结果。
与现有技术相比,本发明的优点在于:为确保替代优化目标与原始目标的关系可控,本发明提出对和选择不同的替代损失l1,l2,其中,l1表示给定hw(x+)th时采用满足利普希茨连续条件的单调递减凸函数计算的负样本损失,l2表示给定hw(x+)th时采用满足利普希茨连续的单调递减函数计算的正样本损失,替代损失l1,l2可以使得目标函数可微,并且,由σ的单调性可知,通过选择l1满足单调递减函数以及l1≥0且l1(0)=1可以保证l1为0-1损失上界,l2满足单调递减函数以及l2(0)=0且l2≤1可以保证为0-1损失下界,可保证上述替代优化目标(替代优化目标即是AUPRC目标损失最小化)为原始目标的上界,确保替代优化目标与原始目标的关系可控,达到了优化目标与测试指标一致的效果,此外,l1满足利普希茨连续合凸函数的性质以及l2满足利普希茨连续,使得基于AUPRC目标损失采用梯度的方式更新模型参数具有良好的收敛性。
附图说明
以下参照附图对本发明实施例作进一步说明,其中:
图1为根据本发明实施例的一种图像检索模型的训练方法的流程示意图。
具体实施方式
为了使本发明的目的,技术方案及优点更加清楚明白,以下通过具体实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
如背景技术部分提到的现有方法应对目标函数存在不可微的问题所提出的方案中存在采用替代损失后的目标函数和原始目标函数的关系难以保证、不能有效支撑模型算法设计和理论分析的问题。为了解决上述问题,本发明提出从AUPRC本身入手进行优化函数改进的方案,概括来说,本发明通过构建AUPRC的替代损失后的目标损失来优化AUPRC原目标,并使得采用替代损失后的AUPRC目标函数为AUPRC原目标的上界。具体来说,本发明是基于构建AUPRC原目标的上界的技术思想对不同类型的样本采用不同的替代损失,确保采用替代损失后的目标损失函数为原始目标损失函数的上界,使得利用AUPRC优化图像检索方法的过程中确保采用替代损失后的目标与测试指标一致且能保证目标损失函数可微,进而保证最小化替代目标能有效优化AUPRC,以满足实际场景的需求。
根据本发明的一个实施例,如图1所示,本发明提供一种图像检索模型的训练方法,所述方法包括:S1、获取训练集和查询图像,所述训练集包括多个与查询图像同类的正样本图像和多个与查询图像不同类的负样本图像;S2、采用步骤S1中获得的训练集和查询图像将图像检索模型进行多轮训练直至收敛,并在训练过程中基于AUPRC目标损失采用梯度的方式更新图像检索模型参数。根据本发明的一个实施例,所述AUPRC目标损失为:
其中,w表示图像检索模型的参数,S表示训练集中所有样本的集合,x+表示正样本图像,S+表示S中所有正样本图像x+组成的正样本集合,表示对S+内的每个正样本图像x+对应的目标函数σ(*)值取平均,π表示预先得到的先验概率,hw(x+)th表示样本图像被判定为正样本图像的相似度阈值,l1表示给定hw(x+)th时采用满足利普希茨连续条件的单调递减凸函数计算的负样本损失,且l1≥0以及l1(0)=1,表示给定hw(x+)th时训练集对应的假阳率,l2表示给定hw(x+)th时采用满足利普希茨连续的单调递减函数计算的正样本损失,且l2(0)=0以及l2≤1,表示给定hw(x+)时训练集所对应的真阳率。需要说明的是本发明采用的训练集、图像检索模型是本领域技术人员均知的,此处不在赘述,以下将从AUPRC目标损失的构建、无偏估计和实验验证三方面进行进一步的说明。
一、AUPRC目标损失的构建
本发明提供的AUPRC目标损失为原AUPRC目标损失的上界,能有效优化AUPRC,以满足实际场景的需求,为了更好的理解本发明的目标损失的优势,下面从现有技术中的AUPRC目标损失的介绍以及本发明提供的AUPRC目标损失的改进两方面来讲解本发明中的AUPRC目标损失的构建过程。
1.1现有技术中的AUPRC目标损失
上述公式(1)等价于:
再通过以经验样本集合的相似度得分估计公式(2)的分布,可由公式(2)可导出以下经验优化目标:
其中,S表示训练集中所有样本的集合(即经验样本集合),x+表示正样本图像,S+表示S中所有正样本图像x+组成的正样本集合,表示对S+内的每个正样本图像x+对应的目标函数σ(*)值取平均,π表示预先得到的先验概率,hw(x+)th表示样本图像被判定为正样本图像的相似度阈值,l0-1表示给定hw(x+)th时采现有0-1损失函数计算的样本图像的0-1损失,当hw(x)<0时样本图像的0-1损失值l0-1(hw(x))=1,否则l0-1(hw(x))=0,表示给定hw(x+)th时训练集基于所述样本图像的0-1损失所对应的假阳率,表示给定hw(x+)时训练集基于所述样本图像的0-1损失对应的真阳率。
1.2本发明提供的AUPRC目标损失的改进
如上内容所述,现有技术AUPRC目标损失受限于0-1损失不可微,无法通过基于梯度的优化方法最小化上述目标(即公式3),因此有必要选择适合的0-1替代损失以使上述目标函数可微,进而实现基于目标函数的梯度更新。为确保替代优化目标与原始目标的关系可控,本发明提出对和选择不同的替代损失l1,l2。由σ的单调性可知,通过选择l1为0-1损失上界,l2为0-1损失下界,可保证上述替代优化目标为原始目标的上界。即,使得利用AUPRC优化图像检索方法的过程中确保替代损失后的目标与测试指标一致,进而保证最小化替代目标能有效优化AUPRC,满足实际场景的需求。由此,本发明提供的AUPRC目标损失为:
其中,w表示图像检索模型的参数,S表示训练集中所有样本的集合,x+表示正样本图像,S+表示S中所有正样本图像x+组成的正样本集合,表示对S+内的每个正样本图像x+对应的目标函数σ(*)值取平均,π表示预先得到的先验概率,hw(x+)th表示样本图像被判定为正样本图像的相似度阈值,l1表示给定hw(x+)th时采用满足利普希茨连续条件的单调递减凸函数计算的负样本损失,且l1≥0以及l1(0)=1,表示给定hw(x+)th时训练集对应的假阳率,l2表示给定hw(x+)th时采用满足利普希茨连续的单调递减函数计算的正样本损失,且l2(0)=0以及l2≤1,表示给定hw(x+)时训练集所对应的真阳率。需要说明的是基于本发明提供的AUPRC目标损失采用梯度的更新图像检索模型,即可实现最小化发明提供的AUPRC目标损失,且保证了与AUPRC原始目标(公式3)的一致性。根据本发明的一个实施例,采用如下单调递减凸函数中的任意一种计算负样本损失:平滑函数、铰链损失函数、单边Huber函数。基于单调递减凸函数计算的负样本损失,可以确保负样本图像相对正样本图像被图像检索模型预测的相似得分越高时,对应梯度越大,保证了正负样本图像对被充分优化。
优选的,本发明采用单边Huber函数计算负样本损失,根据本发明的一个实施例,基于单边Huber函数计算的负样本损失为:
其中,hw(x+)th表示样本图像被判定为正样本图像的相似度阈值,hw(x-)表示图像检索模型预测的负样本图像与查询图像相似度得分,τ1表示第一超参数,优选的,τ1∈(0.01,0.1)。需要说明的是采用单调递减凸函数中的其他函数计算负样本损失的过程与基于单边Huber函数计算的负样本损失的计算过程相似,此处不再赘述。
根据本发明的一个实施例,所述正样本损失为:
其中,hw(x+)th表示样本图像被判定为正样本图像的相似度阈值,hw(x+)表示图像检索模型预测的正样本图像与查询图像相似度得分,τ2表示第二超参数。
根据本发明的一个实施例,所述正样本损失为:
其中,hw(x+)th表示样本图像被判定为正样本图像的相似度阈值,hw(x+)表示图像检索模型预测的正样本图像与查询图像相似度得分,τ2表示第二超参数。
需要说明的是上述正样本损失中,当τ2→0时有l2→l0-1,只要选择适当的超参数τ2,l2即可有效近似0-1损失,从而整体替代损失的近似误差在可接受范围内,满足随机优化收敛性保证所需条件,由此,第二超参数优选为:τ2=0.001。
根据本发明的一个实施例,在训练过程中,对训练集进行多轮采样,每轮采样获得该轮对应的批次样本集合,并将每轮对应的的批次样本集合用于对图像检索模型进行训练,并在每轮训练过程中基于该轮对应的批次样本集合的AUPRC目标损失采用梯度的方式更新模型参数,其中,每轮训过程中批次样本集合的AUPRC目标损失为:
其中,z表示批次样本集合,z+表示z中所有正样本图像x+组成的集合,表示对集合z+内的每个正样本图像x+对应的目标函数σ(*)值取平均,表示在给定hw(x+)th时z对应的假阳率,表示在给定hw(x+)th时z对应的真阳率,l1′表示给定hw(x+)th时z对应的负样本损失,l2′表示给定hw(x+)th时z对应的正样本损失。
二、无偏估计
众所周知,利用AUPRC优化图像检索方法中的目标函数(最小化AUPRC目标损失)涉及全体样本排名,但是采用多轮采样的方式进行训练时批次样本集合得到梯度的随机估计无偏性难保障。简单来说,每次迭代采一个S的子集z=z+∪z-,其中z+和z-分别为正负样本集,各有n+和n-个样本,然后以z对应的随机梯度作为f(w,S)的梯度估计,并通过梯度下降等方法更新模型参数时,假设z共有M种可能,考虑以下经验/期望风险:
显然,是F(w;S)的无偏估计,但不一定是f(w,S)的无偏估计。但是,当批次内的样本数充足或样本得分方差充分小时,则为f(w,S)的渐近无偏估计,进而F(w;S)和F(w)也是原始风险的渐近无偏估计。根据上述结论,减小得分方差或增大批次内正样本数均有利于减小估计误差。虽然可以考虑引入正则项减小方差,然而直接使用方差正则会导致得分较高的正样本倾向于降低得分,负样本反之,与优化目标不符。因此,本发明提出引入正样本辅助向量来增大批次中正样本数的方案或者在此基础上再引入半方差正则项来约束得分低于平均值的正样本和得分高于平均值的负样本。
根据本发明的一个实施例,引入正样本辅助向量来增大批次中正样本数时,所述辅助向量通过以下方式确定:
其中,表示第t轮训练时对应的辅助向量,βj表示表示第j轮训练对应的预设的学习率,βs表示第s轮训练对应的预设的学习率,表示第s轮训练中正样本与预设查询图像的相似度对应的线性插值,为第s轮训练中正样本与预设查询图像的相似度得分。
引入辅助向量后的AUPRC目标损失为:
其中,
其中,表示采用批次样本集合对应的正样本图像与查询图像所有相似度得分的线性插值和指数加权平均估计的辅助向量,表示中的插值个数,表示引入辅助向量时批次样本集合z对应的无偏真阳率,l2″表示给定hw(x+)th时且引入后的正样本损失,表示在给定hw(x+)th时z对应的假阳率,z-表示z中所有负样本图像x-组成的集合,|z-|为z-中负样本图像的个数。
需要说明的是,线性插值的计算过程是本领域技术人员均知的,此处不在赘述计算该计算过程。需要进一步说明的是,本发明计算批次样本集合的损失时引入辅助向量,相当于增大批次内正样本数,可以减小批次样本集合训练图像检索模型时的估计误差,即基于多个批次样本集合的损失迭代更新练图像检索模型的参数可以达到渐近无偏估计的效果,继而提高图像检索效果。
根据本发明的另一个实施例,为了更好的约束得分低于平均值的正样本和得分高于平均值的负样本,保障随机估计无偏性,本发明在计算批次样本集合的损失时,还引入半方差正则项损失。根据本发明的一个实施例,半方差正则项为损失:
其中,λ1为第三超参数,优选的λ1=1,n+表示批次样本集合z中的正样本图像个数,hw(x)表示图像检索模型预测z中样本图像与查询图像相似度得分,μ+表示z中的正样本图像与查询图像的所有相似度得分的平均值,λ2为第四超参数,优选的,λ2=0.1,n-表示z中的负样本图像个数,z-表示z中所有负样本图像x-组成的集合,μ-表示z中的负样本图像与查询图像的所有相似度得分的平均值。
根据本发明的一个实施例,基于AUPRC目标损失和半方差正则项损失采用梯度的方式更新模型参数时,将未引入插值向量的AUPRC目标损失f(w,z)和半方差正则项损失之和构成第一总损失,并基于该第一总损失更新模型参数。
根据本发明的一个实施例,基于AUPRC目标损失和半方差正则项损失采用梯度的方式更新模型参数时,将引入辅助向量后的AUPRC目标损失和半方差正则项损失之和构成第二总损失,并基于该第二总损失更新模型参数。
基于本发明的方法训练好的模型,可以直接用于图像检索。
通过上述实施例可知,本发明通过引入满足0-1损失上界的负样本损失l1以及满足0-1损失下界的正样本损失l2来优化AUPRC目标函数使得优化后目标函数可微,确保了优化目标函数与原始目标函数的可控性,达到了优化目标与测试指标一致的效果,此外,本发明还在随机估计中引入正样本图像估计的辅助向量以及引入半方差正则损失,实现替代目标的可泛化性和渐进无偏性。
三、实验验证
为了更好的说明本发明的技术效果,通过以下实验进行验证。
首先,本实验中,图像检索模型采用残差神经网络ResNet-50作为特征提取器,查询图像和样本图像的相似度采用余弦相似度;特征提取器输入为样本图像为224×224的彩色图像,特征提取器输出512维的嵌入。
再者,本实验基于上述图像检索模型的配置,分别采用三种训练集对图像检索模型进行训练,每种训练集采用8种现有损失作为本发明提供AUPRC目标损失的对照实验来训练得到图像检索模型并用训练图像检索模型对应的数据集构建测试集来对图像检索模型进行评估,其中三种训练集为商品检索数据集(Stanford Online Product-SOP)、长尾物种检索数据集(iNaturalist)和车辆重识别数据集(PKU VehiclelD),8种现有损失包括基于基于成对损失的四种(即Contrastive loss、Triplet loss、Multi-similarity(MS)loss和XBM)和基于AUPRC优化的检索方法的损失(即SmoothAP、DIR、FastAP和BlackBox)。对图像检索模型进行评估采用AUPRC指标以及其中前K个结果中检索出的相关结果数和库中所有的相关结果数的比率作为8种现有损失作为本发明的对照实验的结果,该结果的详细内容见表1。
表1
表1中,Ours表示本发明提供AUPRC目标损失,mAUPRC表示图像检索模型进行评估采用AUPRC指标,R@1、R@4、R@5、R@10分别依次表示前1、4、5、10个结果中检索出的相关结果数和库中所有的相关结果数的召回率,用加黑且下划线的数(例如表1中的实验结果 )表示基于损失训练图像检索模型后对应的最优的实验的结果,仅用加黑的数(例如表1中的实验结果 )表示基于损失训练图像检索模型后对应的次优的实验的结果。实验结果中,除了基于本发明提供AUPRC目标损失应用在车辆重识别数据集(PKU VehicleID)的图像检索中的R@1指标接近最优的实验的结果(即接近),本实验中其余数据集对应的实验结果均为最优。从表1可以看出,采用本发明提供AUPRC目标损失训练图像检索模型的方法在多个数据集和指标上显著超过现有最好方法,有效的验证了本发明的有效性。
需要说明的是,虽然上文按照特定顺序描述了各个步骤,但是并不意味着必须按照上述特定顺序来执行各个步骤,实际上,这些步骤中的一些可以并发执行,甚至改变顺序,只要能够实现所需要的功能即可。
本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。
计算机可读存储介质可以是保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以包括但不限于电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。
以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。
Claims (13)
1.一种图像检索模型的训练方法,其特征在于,所述方法包括:
S1、获取训练集和查询图像,所述训练集包括多个与查询图像同类的正样本图像和多个与查询图像不同类的负样本图像;
S2、采用步骤S1中获得的训练集和查询图像将图像检索模型进行多轮训练直至收敛,并在训练过程中基于AUPRC目标损失采用梯度的方式更新图像检索模型参数,其中,所述AUPRC目标损失为:
其中,w表示图像检索模型的参数,S表示训练集中所有样本的集合,x+表示正样本图像,S+表示S中所有正样本图像x+组成的正样本集合,表示对S+内的每个正样本图像x+对应的目标函数σ(*)值取平均,π表示预先得到的先验概率,hw(x+)th表示样本图像被判定为正样本图像的相似度阈值,l1表示给定hw(x+)th时采用满足利普希茨连续条件的单调递减凸函数计算的负样本损失,且l1≥0以及l1(0)=1,表示给定hw(x+)th时训练集对应的假阳率,l2表示给定hw(x+)th时采用满足利普希茨连续的单调递减函数计算的正样本损失,且l2(0)=0以及l2≤1,表示给定hw(x+)时训练集所对应的真阳率。
2.根据权利要求1所述的方法,其特征在于,采用如下单调递减凸函数中的任意一种计算负样本损失:平滑函数、铰链损失函数、单边Huber函数。
6.根据权利要求4或5所述的方法,其特征在于,在所述步骤S2中对步骤S1中获得的训练集进行多轮采样,每轮采样获得该轮对应的批次样本集合,并将每轮对应的的批次样本集合用于对图像检索模型进行训练,并在每轮训练过程中基于该轮对应的批次样本集合的AUPRC目标损失采用梯度的方式更新图像检索模型参数,其中,每轮训过程中批次样本集合的AUPRC目标损失为:
10.根据权利要求9所述的方法,其特征在于,τ1∈(0.01,0.1),τ2=0.001,λ1=1,λ2=0.1。
11.一种图像检索算法,其特征在于,所述图像检索算法包括:
T1、获取查询图像;
T2、采用如权利要求1-10任一所述方法得到的图像检索模型在图像数据库中获得查询图像的检索结果。
12.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,所述计算机程序可被处理器执行以实现权利要求1至11任一所述方法的步骤。
13.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述电子设备实现如权利要求1至11中任一项所述方法的步骤。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211557187 | 2022-12-06 | ||
CN2022115571876 | 2022-12-06 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116127121A true CN116127121A (zh) | 2023-05-16 |
Family
ID=86306376
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310180785.4A Pending CN116127121A (zh) | 2022-12-06 | 2023-02-16 | 一种图像检索模型的训练方法及基于此的图像检索算法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116127121A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117351240A (zh) * | 2023-10-12 | 2024-01-05 | 北京卓视智通科技有限责任公司 | 一种正样本采样方法、系统、存储介质和电子设备 |
-
2023
- 2023-02-16 CN CN202310180785.4A patent/CN116127121A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117351240A (zh) * | 2023-10-12 | 2024-01-05 | 北京卓视智通科技有限责任公司 | 一种正样本采样方法、系统、存储介质和电子设备 |
CN117351240B (zh) * | 2023-10-12 | 2024-04-09 | 北京卓视智通科技有限责任公司 | 一种正样本采样方法、系统、存储介质和电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112368697A (zh) | 经由对偶分解评估损失函数或损失函数的梯度的系统和方法 | |
WO2018031958A1 (en) | Aggregate features for machine learning | |
Huang et al. | Listwise collaborative filtering | |
US20210089832A1 (en) | Loss Function Optimization Using Taylor Series Expansion | |
CN112131890A (zh) | 一种会话意图智能识别模型的构建方法、装置及设备 | |
CN113392651B (zh) | 训练词权重模型及提取核心词的方法、装置、设备和介质 | |
CN113312505B (zh) | 一种基于离散在线哈希学习的跨模态检索方法及系统 | |
Dehghannasiri et al. | Efficient experimental design for uncertainty reduction in gene regulatory networks | |
CN116127121A (zh) | 一种图像检索模型的训练方法及基于此的图像检索算法 | |
CN109753577B (zh) | 一种搜索人脸的方法及相关装置 | |
CN107783998A (zh) | 一种数据处理的方法以及装置 | |
CN116112563A (zh) | 一种基于流行度预测的双策略自适应缓存替换方法 | |
CN109902192A (zh) | 基于无监督深度回归的遥感图像检索方法、系统、设备及介质 | |
CN109241442B (zh) | 基于预测值填充的项目推荐方法、可读存储介质和终端 | |
CN114565807A (zh) | 训练目标图像检索模型的方法和装置 | |
CN113947133A (zh) | 小样本图像识别的任务重要性感知元学习方法 | |
CN113763031B (zh) | 一种商品推荐方法、装置、电子设备及存储介质 | |
CN108268611B (zh) | 一种基于MapReduce的k-means文本聚类的方法及装置 | |
CN116467466A (zh) | 基于知识图谱的编码推荐方法、装置、设备及介质 | |
CN110674860A (zh) | 基于邻域搜索策略的特征选择方法、存储介质和终端 | |
Hu et al. | Pwsnas: powering weight sharing nas with general search space shrinking framework | |
Zhang et al. | Evaluation ranking is more important for NAS | |
CN115035304A (zh) | 一种基于课程学习的图像描述生成方法及系统 | |
CN114154582A (zh) | 基于环境动态分解模型的深度强化学习方法 | |
JP2012146003A (ja) | データ抽出装置、データ抽出方法、及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |