CN116127121A - 一种图像检索模型的训练方法及基于此的图像检索算法 - Google Patents

一种图像检索模型的训练方法及基于此的图像检索算法 Download PDF

Info

Publication number
CN116127121A
CN116127121A CN202310180785.4A CN202310180785A CN116127121A CN 116127121 A CN116127121 A CN 116127121A CN 202310180785 A CN202310180785 A CN 202310180785A CN 116127121 A CN116127121 A CN 116127121A
Authority
CN
China
Prior art keywords
image
representing
loss
sample
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310180785.4A
Other languages
English (en)
Inventor
许倩倩
温佩松
杨智勇
黄庆明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Computing Technology of CAS
Original Assignee
Institute of Computing Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Computing Technology of CAS filed Critical Institute of Computing Technology of CAS
Publication of CN116127121A publication Critical patent/CN116127121A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • G06F16/538Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Library & Information Science (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本发明提出一种图像检索模型的训练方法,所述方法包括:S1、获取训练集和查询图像,所述训练集包括多个与查询图像同类的正样本图像和多个与查询图像不同类的负样本图像;S2、采用步骤S1中获得的训练集和查询图像将图像检索模型进行多轮训练直至收敛,并在训练过程中基于AUPRC目标损失采用梯度的方式更新图像检索模型参数。本发明通过构建AUPRC的一种上界作为替代损失(替代损失即AUPRC目标损失),并在随机估计中引入正样本图像估计的辅助向量,实现替代目标的可泛化性和渐进无偏性。

Description

一种图像检索模型的训练方法及基于此的图像检索算法
技术领域
本发明涉及计算机视觉领域,具体来说,涉及计算机视觉领域中的图像检索领域,更具体地说,涉及一种图像检索模型的训练方法及基于此的图像检索算法。
背景技术
随着互联网信息量的迅速膨胀,从海量的信息中,特别是从其中的非结构化信息中挖掘所需信息已成为具有挑战性的任务。对于广泛应用于搜索引擎、智能安防、风险内容监测等实际场景的图像检索任务,其需要从海量图像(例如,图像数据库中的图像)中为用户搜索包含相同或相似内容的候选图像,并按与查询图像的相似度将候选图像排序。
近年来,随着深度学习的迅速发展,主流图像检索技术以深度学习中的深度模型(例如图像检索模型)为基础,并通过对比深度模型输出结果的损失来约束相关图像(相关图像即是与图像检索任务相关的图像)的相似度高于不相关图像(不相关图像即是与图像检索任务不相关的图像)的相似度来使得深度模型具有图像检索的能力。这样的图像检索技术忽略了相关图像组成的候选图像的整体排序,不能根据现实场景的需求对排序结果依次进行进一步的复核和处理,也不能利用整体排序中靠前部分,来提升具有重要现实意义的图像检索性能。为提高图像检索技术中聚焦头部的图像检索性能,现有技术通过直接优化基于精度-召回率曲线下面积(Area Under the Precision-Recall Curve,AUPRC),来提升模型整体检索性能,其中,AUPRC中的一种无偏估计平均精度(Average Precision,AP)是图像检索的标准指标之一,旨在衡量图像检索模型在不同阈值下的精度和召回率平衡情况。由此,通过直接优化AUPRC,可以对排序靠前的错分赋予更大的损失,使得图像检索模型更符合实际场景需求。
然而,现有基于AUPRC的图像检索方法中存在检索模型的训练目标与测试指标不一致问题,即训练过程中通常采用基于成对损失或三元组损失来调整检索模型参数,不能充分优化标准指标AUPRC,继而成为深度图像检索技术发展的瓶颈之一。得益于AUPRC优良性质和广泛应用前景,为实现学习框架中检索模型的训练目标与测试标准相统一,深度图像检索技术的优化问题吸引了学术界和工业界的广泛关注,相关理论和技术取得了重要进展。鉴于AUPRC需要涉及所有样本排序,早期方法,例如参考文献[1],[2],[3]中的方案均以全批次训练为主。这类方法需要大量计算资源,无法适应深度学习时代与日俱增的数据和模型规模。因此,近年的相关研究,例如参考文献[4],[5],[6]中的方案均旨在集中解决AUPRC随机优化问题。但是这些相关研究中的目标函数的存在不可微的问题,致使基于梯度的模型优化方法不可行。
现有方法应对目标函数存在不可微的问题,提出了将目标函数中不可微的0-1损失替换为可微替代损失的方案,例如参考文献[7]中采用的指数损失、参考文献[8]采用的Sigmoid损失和参考文献[9]采用的线性插值函数,都是为了解决目标函数因为部分损失不可微导致目标函数不可微进而无法基于目标函数采用梯度的方式更新模型参数的问题。尽管上述工作避免了目标函数不可微的问题,但是上述方案中采用替代损失后的目标函数和原始目标函数的关系难以保证,不能有效支撑模型算法设计和理论分析。
参考文献如下:
[1]Donald Metzler and W Bruce Croft.A markov random field model forterm dependencies.In lnternational ACM SIGIRConference on Research andDevelopment in Information Retrieval,pages 472-479,2005.
[2]Pritish Mohapatra,CV Jawahar,and M Pawan Kumar.Efficientoptimization for average precision svm.Advances in Neural lnformationProcessing Systems,27:2312-2320,2014.
[3]Mark Goadrich,Louis Oliphant,and Jude Shavlik.Gleaner:Creatingensembles of first-order clauses to improve recal I-precision curves.MachineLearning,64(1-3):231-261,2006.
[4]Andrew Brown,Weidi Xie,Vicky Kalogeiton,and AndrewZisserman.Smooth-ap:Smoothing the path towards large-scale image retrieval.InEuropean Conference on Computer Vision,pages677-694.Springer,2020.
[5]Fatih Cakir,Kun He,Xide Xia,Brian Kulis,and Stan Sclaroff.Deepmetric learning to rank.In lEEE/CVF Conference on Computer Vision and PatternRecognition,pages 1861-1870,2019.
[6]Paul Henderson and Vittorio Ferrari.End-to-end training of objectclass detectors for mean average precision.In Asian Conference on ComputerVision,pages 198-213.Springer,2016.
[7]Tao Qin,Xu-Dong Zhang,Ming-Feng Tsai,De-Sheng Wang,Tie-Yan Liu,andHang Li.Query-level loss functions for information retrieval.InformationProcessing&Management,44(2):838-855,2008.
[8]Andrew Brown,Weidi Xie,Vicky Kalogeiton,and AndrewZisserman.Smooth-ap:Smoothing the path towards large-scale image retrieval.InEuropean Conference on Computer Vision,pages 677-694.Springer,2020.
[9]Qijia Jiang,Olaoluwa Adigun,Harikrishna Narasimhan,Mahdi MilaniFard,and Maya Gupta.Optimizing black-box metrics with adaptive surrogates.InInternational Conference on Machine Learning,pages 4784-4793.PMLR,2020.
发明内容
因此,本发明的目的在于克服上述现有技术的缺陷,提供一种图像检索模型的训练方法及基于此的图像检索算法。
本发明的目的是通过以下技术方案实现的:
根据本发明的第一方面,提供一种图像检索模型的训练方法,所述方法包括:S1、获取训练集和查询图像,所述训练集包括多个与查询图像同类的正样本图像和多个与查询图像不同类的负样本图像;S2、采用步骤S1中获得的训练集和查询图像将图像检索模型进行多轮训练直至收敛,并在训练过程中基于AUPRC目标损失采用梯度的方式更新图像检索模型参数。
在本发明的一些实施例中,所述AUPRC目标损失为:
Figure BDA0004102306260000031
其中,w表示图像检索模型的参数,S表示训练集中所有样本的集合,x+表示正样本图像,S+表示S中所有正样本图像x+组成的正样本集合,
Figure BDA0004102306260000041
表示对S+内的每个正样本图像x+对应的目标函数σ(*)值取平均,π表示预先得到的先验概率,hw(x+)th表示样本图像被判定为正样本图像的相似度阈值,l1表示给定hw(x+)th时采用满足利普希茨连续条件的单调递减凸函数计算的负样本损失,且l1≥0以及l1(0)=1,
Figure BDA0004102306260000042
表示给定hw(x+)th时训练集对应的假阳率,l2表示给定hw(x+)th时采用满足利普希茨连续条件的单调递减函数计算的正样本损失,且l2(0)=0以及l2≤1,
Figure BDA0004102306260000043
表示给定hw(x+)时训练集所对应的真阳率。
在本发明的一些实施例中,采用如下单调递减凸函数中的任意一种计算负样本损失:平滑函数、铰链损失函数、单边Huber函数。
优选的,采用单边Huber函数计算负样本损失,且基于单边Huber函数计算的负样本损失为:
Figure BDA0004102306260000044
Figure BDA0004102306260000047
其中,hw(x+)th表示样本图像被判定为正样本图像的相似度阈值,hw(x-)表示图像检索模型预测的负样本图像与查询图像相似度得分,τ1表示第一超参数。
在本发明的一些实施例中,所述正样本损失为:
Figure BDA0004102306260000045
Figure BDA0004102306260000046
其中,hw(x+)th表示样本图像被判定为正样本图像的相似度阈值,hw(x+)表示图像检索模型预测的正样本图像与查询图像相似度得分,τ2表示第二超参数。
在本发明的一些实施例中,所述正样本损失为:
Figure BDA0004102306260000051
Figure BDA0004102306260000052
其中,hw(x+)th表示样本图像被判定为正样本图像的相似度阈值,hw(x+)表示图像检索模型预测的正样本图像与查询图像相似度得分,τ2表示第二超参数。
在本发明的一些实施例中,在所述步骤S2中对步骤S1中获得的训练集进行多轮采样,每轮采样获得该轮对应的批次样本集合,并将每轮对应的批次样本集合用于对图像检索模型进行训练,并在每轮训练过程中基于该轮对应的批次样本集合的AUPRC目标损失采用梯度的方式更新图像检索模型参数,其中,每轮训过程中批次样本集合的AUPRC目标损失为:
Figure BDA0004102306260000053
其中,z表示批次样本集合,z+表示z中所有正样本图像x+组成的集合,
Figure BDA0004102306260000054
表示对集合z+内的每个正样本图像x+对应的目标函数σ(*)值取平均,
Figure BDA0004102306260000055
表示在给定hw(x+)th时z对应的假阳率,
Figure BDA0004102306260000056
表示在给定hw(x+)th时z对应的真阳率,l1′表示给定hw(x+)th时z对应的负样本损失,l2′表示给定hw(x+)th时z对应的正样本损失。
在本发明的一些实施例中,在计算批次样本集合的损失时,引入辅助向量并按照如下方式计算AUPRC目标损失:
Figure BDA0004102306260000057
其中,
Figure BDA0004102306260000058
其中,
Figure BDA0004102306260000059
表示采用批次样本集合对应的正样本图像与查询图像所有相似度得分的线性插值和指数加权平均估计的辅助向量,
Figure BDA00041023062600000510
表示
Figure BDA00041023062600000511
中的插值个数,
Figure BDA00041023062600000512
表示引入辅助向量
Figure BDA00041023062600000513
时批次样本集合z对应的无偏真阳率,l2″表示给定hw(x+)th时且引入
Figure BDA00041023062600000514
后的正样本损失。
在本发明的一些实施例中,引入正样本辅助向量来增大批次中正样本数时,所述辅助向量通过以下方式确定:
Figure BDA0004102306260000061
其中,
Figure BDA0004102306260000062
表示第t轮训练时对应的辅助向量,βj表示表示第j轮训练对应的预设的学习率,βs表示第s轮训练对应的预设的学习率,
Figure BDA0004102306260000063
表示第s轮训练中正样本与预设查询图像的相似度对应的线性插值,
Figure BDA0004102306260000064
为第s轮训练中正样本与预设查询图像的相似度得分。
在本发明的一些实施例中,在所述步骤S2中,还引入半方差正则项损失,并基于AUPRC目标损失和半方差正则项损失采用梯度的方式更新模型参数,其中半方差正则项为损失:
Figure BDA0004102306260000065
其中,λ1为第三超参数,n+表示批次样本集合z中的正样本图像个数,hw(x)表示图像检索模型预测z中样本图像与查询图像相似度得分,μ+表示z中的正样本图像与查询图像的所有相似度得分的平均值,λ2为第四超参数,n-表示z中的负样本图像个数,z-表示z中所有负样本图像x-组成的集合,μ-表示z中的负样本图像与查询图像的所有相似度得分的平均值。
在本发明的一些实施例中,τ1∈(0.01,0.1),τ2=0.001,λ1=1,λ2=0.1。
根据本发明的第二方面,本发明还提供一种图像检索算法,所述图像检索算法包括:T1、获取查询图像;T2、采用如本发明第一方面所述方法得到的图像检索模型在图像数据库中获得查询图像的检索结果。
与现有技术相比,本发明的优点在于:为确保替代优化目标与原始目标的关系可控,本发明提出对
Figure BDA0004102306260000066
Figure BDA0004102306260000067
选择不同的替代损失l1,l2,其中,l1表示给定hw(x+)th时采用满足利普希茨连续条件的单调递减凸函数计算的负样本损失,l2表示给定hw(x+)th时采用满足利普希茨连续的单调递减函数计算的正样本损失,替代损失l1,l2可以使得目标函数可微,并且,由σ的单调性可知,通过选择l1满足单调递减函数以及l1≥0且l1(0)=1可以保证l1为0-1损失上界,l2满足单调递减函数以及l2(0)=0且l2≤1可以保证为0-1损失下界,可保证上述替代优化目标(替代优化目标即是AUPRC目标损失最小化)为原始目标的上界,确保替代优化目标与原始目标的关系可控,达到了优化目标与测试指标一致的效果,此外,l1满足利普希茨连续合凸函数的性质以及l2满足利普希茨连续,使得基于AUPRC目标损失采用梯度的方式更新模型参数具有良好的收敛性。
附图说明
以下参照附图对本发明实施例作进一步说明,其中:
图1为根据本发明实施例的一种图像检索模型的训练方法的流程示意图。
具体实施方式
为了使本发明的目的,技术方案及优点更加清楚明白,以下通过具体实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
如背景技术部分提到的现有方法应对目标函数存在不可微的问题所提出的方案中存在采用替代损失后的目标函数和原始目标函数的关系难以保证、不能有效支撑模型算法设计和理论分析的问题。为了解决上述问题,本发明提出从AUPRC本身入手进行优化函数改进的方案,概括来说,本发明通过构建AUPRC的替代损失后的目标损失来优化AUPRC原目标,并使得采用替代损失后的AUPRC目标函数为AUPRC原目标的上界。具体来说,本发明是基于构建AUPRC原目标的上界的技术思想对不同类型的样本采用不同的替代损失,确保采用替代损失后的目标损失函数为原始目标损失函数的上界,使得利用AUPRC优化图像检索方法的过程中确保采用替代损失后的目标与测试指标一致且能保证目标损失函数可微,进而保证最小化替代目标能有效优化AUPRC,以满足实际场景的需求。
根据本发明的一个实施例,如图1所示,本发明提供一种图像检索模型的训练方法,所述方法包括:S1、获取训练集和查询图像,所述训练集包括多个与查询图像同类的正样本图像和多个与查询图像不同类的负样本图像;S2、采用步骤S1中获得的训练集和查询图像将图像检索模型进行多轮训练直至收敛,并在训练过程中基于AUPRC目标损失采用梯度的方式更新图像检索模型参数。根据本发明的一个实施例,所述AUPRC目标损失为:
Figure BDA0004102306260000081
其中,w表示图像检索模型的参数,S表示训练集中所有样本的集合,x+表示正样本图像,S+表示S中所有正样本图像x+组成的正样本集合,
Figure BDA0004102306260000082
表示对S+内的每个正样本图像x+对应的目标函数σ(*)值取平均,π表示预先得到的先验概率,hw(x+)th表示样本图像被判定为正样本图像的相似度阈值,l1表示给定hw(x+)th时采用满足利普希茨连续条件的单调递减凸函数计算的负样本损失,且l1≥0以及l1(0)=1,
Figure BDA0004102306260000083
表示给定hw(x+)th时训练集对应的假阳率,l2表示给定hw(x+)th时采用满足利普希茨连续的单调递减函数计算的正样本损失,且l2(0)=0以及l2≤1,
Figure BDA0004102306260000084
表示给定hw(x+)时训练集所对应的真阳率。需要说明的是本发明采用的训练集、图像检索模型是本领域技术人员均知的,此处不在赘述,以下将从AUPRC目标损失的构建、无偏估计和实验验证三方面进行进一步的说明。
一、AUPRC目标损失的构建
本发明提供的AUPRC目标损失为原AUPRC目标损失的上界,能有效优化AUPRC,以满足实际场景的需求,为了更好的理解本发明的目标损失的优势,下面从现有技术中的AUPRC目标损失的介绍以及本发明提供的AUPRC目标损失的改进两方面来讲解本发明中的AUPRC目标损失的构建过程。
1.1现有技术中的AUPRC目标损失
众所周知,基于AUPRC的图像检索方法中图像检索目标是学习一个得分函数
Figure BDA0004102306260000085
使得正样本图像得分尽可能大于负样本图像,即是使得目标检索的AUPRC最大,也即是:
Figure BDA0004102306260000086
其中,w表示图像检索模型的参数,
Figure BDA0004102306260000087
表示原始图像组成的集合,
Figure BDA0004102306260000088
表示得分集合,hw(x)表示样本图像与查询图像相似度得分,hw(x+)th表示样本图像被判定为正样本图像的相似度阈值。
上述公式(1)等价于:
Figure BDA0004102306260000091
再通过以经验样本集合的相似度得分估计公式(2)的分布,可由公式(2)可导出以下经验优化目标:
Figure BDA0004102306260000092
其中,S表示训练集中所有样本的集合(即经验样本集合),x+表示正样本图像,S+表示S中所有正样本图像x+组成的正样本集合,
Figure BDA0004102306260000093
表示对S+内的每个正样本图像x+对应的目标函数σ(*)值取平均,π表示预先得到的先验概率,hw(x+)th表示样本图像被判定为正样本图像的相似度阈值,l0-1表示给定hw(x+)th时采现有0-1损失函数计算的样本图像的0-1损失,当hw(x)<0时样本图像的0-1损失值l0-1(hw(x))=1,否则l0-1(hw(x))=0,
Figure BDA0004102306260000094
表示给定hw(x+)th时训练集基于所述样本图像的0-1损失所对应的假阳率,
Figure BDA0004102306260000095
表示给定hw(x+)时训练集基于所述样本图像的0-1损失对应的真阳率。
1.2本发明提供的AUPRC目标损失的改进
如上内容所述,现有技术AUPRC目标损失受限于0-1损失不可微,无法通过基于梯度的优化方法最小化上述目标(即公式3),因此有必要选择适合的0-1替代损失以使上述目标函数可微,进而实现基于目标函数的梯度更新。为确保替代优化目标与原始目标的关系可控,本发明提出对
Figure BDA0004102306260000096
Figure BDA0004102306260000097
选择不同的替代损失l1,l2。由σ的单调性可知,通过选择l1为0-1损失上界,l2为0-1损失下界,可保证上述替代优化目标为原始目标的上界。即,使得利用AUPRC优化图像检索方法的过程中确保替代损失后的目标与测试指标一致,进而保证最小化替代目标能有效优化AUPRC,满足实际场景的需求。由此,本发明提供的AUPRC目标损失为:
Figure BDA0004102306260000098
其中,w表示图像检索模型的参数,S表示训练集中所有样本的集合,x+表示正样本图像,S+表示S中所有正样本图像x+组成的正样本集合,
Figure BDA0004102306260000101
表示对S+内的每个正样本图像x+对应的目标函数σ(*)值取平均,π表示预先得到的先验概率,hw(x+)th表示样本图像被判定为正样本图像的相似度阈值,l1表示给定hw(x+)th时采用满足利普希茨连续条件的单调递减凸函数计算的负样本损失,且l1≥0以及l1(0)=1,
Figure BDA0004102306260000102
表示给定hw(x+)th时训练集对应的假阳率,l2表示给定hw(x+)th时采用满足利普希茨连续的单调递减函数计算的正样本损失,且l2(0)=0以及l2≤1,
Figure BDA0004102306260000103
表示给定hw(x+)时训练集所对应的真阳率。需要说明的是基于本发明提供的AUPRC目标损失采用梯度的更新图像检索模型,即可实现最小化发明提供的AUPRC目标损失,且保证了与AUPRC原始目标(公式3)的一致性。根据本发明的一个实施例,采用如下单调递减凸函数中的任意一种计算负样本损失:平滑函数、铰链损失函数、单边Huber函数。基于单调递减凸函数计算的负样本损失,可以确保负样本图像相对正样本图像被图像检索模型预测的相似得分越高时,对应梯度越大,保证了正负样本图像对被充分优化。
优选的,本发明采用单边Huber函数计算负样本损失,根据本发明的一个实施例,基于单边Huber函数计算的负样本损失为:
Figure BDA0004102306260000104
Figure BDA0004102306260000105
其中,hw(x+)th表示样本图像被判定为正样本图像的相似度阈值,hw(x-)表示图像检索模型预测的负样本图像与查询图像相似度得分,τ1表示第一超参数,优选的,τ1∈(0.01,0.1)。需要说明的是采用单调递减凸函数中的其他函数计算负样本损失的过程与基于单边Huber函数计算的负样本损失的计算过程相似,此处不再赘述。
根据本发明的一个实施例,所述正样本损失为:
Figure BDA0004102306260000106
Figure BDA0004102306260000111
其中,hw(x+)th表示样本图像被判定为正样本图像的相似度阈值,hw(x+)表示图像检索模型预测的正样本图像与查询图像相似度得分,τ2表示第二超参数。
根据本发明的一个实施例,所述正样本损失为:
Figure BDA0004102306260000112
Figure BDA0004102306260000113
其中,hw(x+)th表示样本图像被判定为正样本图像的相似度阈值,hw(x+)表示图像检索模型预测的正样本图像与查询图像相似度得分,τ2表示第二超参数。
需要说明的是上述正样本损失中,当τ2→0时有l2→l0-1,只要选择适当的超参数τ2,l2即可有效近似0-1损失,从而整体替代损失的近似误差在可接受范围内,满足随机优化收敛性保证所需条件,由此,第二超参数优选为:τ2=0.001。
根据本发明的一个实施例,在训练过程中,对训练集进行多轮采样,每轮采样获得该轮对应的批次样本集合,并将每轮对应的的批次样本集合用于对图像检索模型进行训练,并在每轮训练过程中基于该轮对应的批次样本集合的AUPRC目标损失采用梯度的方式更新模型参数,其中,每轮训过程中批次样本集合的AUPRC目标损失为:
Figure BDA0004102306260000114
其中,z表示批次样本集合,z+表示z中所有正样本图像x+组成的集合,
Figure BDA0004102306260000115
表示对集合z+内的每个正样本图像x+对应的目标函数σ(*)值取平均,
Figure BDA0004102306260000116
表示在给定hw(x+)th时z对应的假阳率,
Figure BDA0004102306260000117
表示在给定hw(x+)th时z对应的真阳率,l1′表示给定hw(x+)th时z对应的负样本损失,l2′表示给定hw(x+)th时z对应的正样本损失。
二、无偏估计
众所周知,利用AUPRC优化图像检索方法中的目标函数(最小化AUPRC目标损失)涉及全体样本排名,但是采用多轮采样的方式进行训练时批次样本集合得到梯度的随机估计无偏性难保障。简单来说,每次迭代采一个S的子集z=z+∪z-,其中z+和z-分别为正负样本集,各有n+和n-个样本,然后以z对应的随机梯度
Figure BDA0004102306260000121
作为f(w,S)的梯度估计,并通过梯度下降等方法更新模型参数时,假设z共有M种可能,考虑以下经验/期望风险:
Figure BDA0004102306260000122
显然,
Figure BDA0004102306260000123
是F(w;S)的无偏估计,但不一定是f(w,S)的无偏估计。但是,当批次内的样本数充足或样本得分方差充分小时,
Figure BDA0004102306260000124
则为f(w,S)的渐近无偏估计,进而F(w;S)和F(w)也是原始风险的渐近无偏估计。根据上述结论,减小得分方差或增大批次内正样本数均有利于减小估计误差。虽然可以考虑引入正则项减小方差,然而直接使用方差正则会导致得分较高的正样本倾向于降低得分,负样本反之,与优化目标不符。因此,本发明提出引入正样本辅助向量来增大批次中正样本数的方案或者在此基础上再引入半方差正则项来约束得分低于平均值的正样本和得分高于平均值的负样本。
根据本发明的一个实施例,引入正样本辅助向量来增大批次中正样本数时,所述辅助向量通过以下方式确定:
Figure BDA0004102306260000125
其中,
Figure BDA0004102306260000126
表示第t轮训练时对应的辅助向量,βj表示表示第j轮训练对应的预设的学习率,βs表示第s轮训练对应的预设的学习率,
Figure BDA0004102306260000127
表示第s轮训练中正样本与预设查询图像的相似度对应的线性插值,
Figure BDA0004102306260000128
为第s轮训练中正样本与预设查询图像的相似度得分。
引入辅助向量后的AUPRC目标损失为:
Figure BDA0004102306260000129
其中,
Figure BDA00041023062600001210
Figure BDA0004102306260000131
其中,
Figure BDA0004102306260000132
表示采用批次样本集合对应的正样本图像与查询图像所有相似度得分的线性插值和指数加权平均估计的辅助向量,
Figure BDA0004102306260000133
表示
Figure BDA0004102306260000134
中的插值个数,
Figure BDA0004102306260000135
表示引入辅助向量
Figure BDA0004102306260000136
时批次样本集合z对应的无偏真阳率,l2″表示给定hw(x+)th时且引入
Figure BDA0004102306260000137
后的正样本损失,
Figure BDA0004102306260000138
表示在给定hw(x+)th时z对应的假阳率,z-表示z中所有负样本图像x-组成的集合,|z-|为z-中负样本图像的个数。
需要说明的是,线性插值的计算过程是本领域技术人员均知的,此处不在赘述计算该计算过程。需要进一步说明的是,本发明计算批次样本集合的损失时引入辅助向量,相当于增大批次内正样本数,可以减小批次样本集合训练图像检索模型时的估计误差,即基于多个批次样本集合的损失迭代更新练图像检索模型的参数可以达到渐近无偏估计的效果,继而提高图像检索效果。
根据本发明的另一个实施例,为了更好的约束得分低于平均值的正样本和得分高于平均值的负样本,保障随机估计无偏性,本发明在计算批次样本集合的损失时,还引入半方差正则项损失。根据本发明的一个实施例,半方差正则项为损失:
Figure BDA0004102306260000139
其中,λ1为第三超参数,优选的λ1=1,n+表示批次样本集合z中的正样本图像个数,hw(x)表示图像检索模型预测z中样本图像与查询图像相似度得分,μ+表示z中的正样本图像与查询图像的所有相似度得分的平均值,λ2为第四超参数,优选的,λ2=0.1,n-表示z中的负样本图像个数,z-表示z中所有负样本图像x-组成的集合,μ-表示z中的负样本图像与查询图像的所有相似度得分的平均值。
根据本发明的一个实施例,基于AUPRC目标损失和半方差正则项损失采用梯度的方式更新模型参数时,将未引入插值向量的AUPRC目标损失f(w,z)和半方差正则项损失
Figure BDA00041023062600001310
之和构成第一总损失,并基于该第一总损失更新模型参数。
根据本发明的一个实施例,基于AUPRC目标损失和半方差正则项损失采用梯度的方式更新模型参数时,将引入辅助向量后的AUPRC目标损失
Figure BDA0004102306260000141
和半方差正则项损失
Figure BDA0004102306260000142
之和构成第二总损失,并基于该第二总损失更新模型参数。
基于本发明的方法训练好的模型,可以直接用于图像检索。
通过上述实施例可知,本发明通过引入满足0-1损失上界的负样本损失l1以及满足0-1损失下界的正样本损失l2来优化AUPRC目标函数使得优化后目标函数可微,确保了优化目标函数与原始目标函数的可控性,达到了优化目标与测试指标一致的效果,此外,本发明还在随机估计中引入正样本图像估计的辅助向量以及引入半方差正则损失,实现替代目标的可泛化性和渐进无偏性。
三、实验验证
为了更好的说明本发明的技术效果,通过以下实验进行验证。
首先,本实验中,图像检索模型采用残差神经网络ResNet-50作为特征提取器,查询图像和样本图像的相似度采用余弦相似度;特征提取器输入为样本图像为224×224的彩色图像,特征提取器输出512维的嵌入。
再者,本实验基于上述图像检索模型的配置,分别采用三种训练集对图像检索模型进行训练,每种训练集采用8种现有损失作为本发明提供AUPRC目标损失的对照实验来训练得到图像检索模型并用训练图像检索模型对应的数据集构建测试集来对图像检索模型进行评估,其中三种训练集为商品检索数据集(Stanford Online Product-SOP)、长尾物种检索数据集(iNaturalist)和车辆重识别数据集(PKU VehiclelD),8种现有损失包括基于基于成对损失的四种(即Contrastive loss、Triplet loss、Multi-similarity(MS)loss和XBM)和基于AUPRC优化的检索方法的损失(即SmoothAP、DIR、FastAP和BlackBox)。对图像检索模型进行评估采用AUPRC指标以及其中前K个结果中检索出的相关结果数和库中所有的相关结果数的比率作为8种现有损失作为本发明的对照实验的结果,该结果的详细内容见表1。
表1
Figure BDA0004102306260000143
Figure BDA0004102306260000151
表1中,Ours表示本发明提供AUPRC目标损失,mAUPRC表示图像检索模型进行评估采用AUPRC指标,R@1、R@4、R@5、R@10分别依次表示前1、4、5、10个结果中检索出的相关结果数和库中所有的相关结果数的召回率,用加黑且下划线的数(例如表1中的实验结果
Figure BDA0004102306260000152
Figure BDA0004102306260000153
)表示基于损失训练图像检索模型后对应的最优的实验的结果,仅用加黑的数(例如表1中的实验结果
Figure BDA0004102306260000154
Figure BDA0004102306260000155
)表示基于损失训练图像检索模型后对应的次优的实验的结果。实验结果中,除了基于本发明提供AUPRC目标损失应用在车辆重识别数据集(PKU VehicleID)的图像检索中的R@1指标接近最优的实验的结果(即
Figure BDA0004102306260000156
接近
Figure BDA0004102306260000157
),本实验中其余数据集对应的实验结果均为最优。从表1可以看出,采用本发明提供AUPRC目标损失训练图像检索模型的方法在多个数据集和指标上显著超过现有最好方法,有效的验证了本发明的有效性。
需要说明的是,虽然上文按照特定顺序描述了各个步骤,但是并不意味着必须按照上述特定顺序来执行各个步骤,实际上,这些步骤中的一些可以并发执行,甚至改变顺序,只要能够实现所需要的功能即可。
本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。
计算机可读存储介质可以是保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以包括但不限于电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。
以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims (13)

1.一种图像检索模型的训练方法,其特征在于,所述方法包括:
S1、获取训练集和查询图像,所述训练集包括多个与查询图像同类的正样本图像和多个与查询图像不同类的负样本图像;
S2、采用步骤S1中获得的训练集和查询图像将图像检索模型进行多轮训练直至收敛,并在训练过程中基于AUPRC目标损失采用梯度的方式更新图像检索模型参数,其中,所述AUPRC目标损失为:
Figure FDA0004102306250000011
其中,w表示图像检索模型的参数,S表示训练集中所有样本的集合,x+表示正样本图像,S+表示S中所有正样本图像x+组成的正样本集合,
Figure FDA0004102306250000012
表示对S+内的每个正样本图像x+对应的目标函数σ(*)值取平均,π表示预先得到的先验概率,hw(x+)th表示样本图像被判定为正样本图像的相似度阈值,l1表示给定hw(x+)th时采用满足利普希茨连续条件的单调递减凸函数计算的负样本损失,且l1≥0以及l1(0)=1,
Figure FDA0004102306250000013
表示给定hw(x+)th时训练集对应的假阳率,l2表示给定hw(x+)th时采用满足利普希茨连续的单调递减函数计算的正样本损失,且l2(0)=0以及l2≤1,
Figure FDA0004102306250000014
表示给定hw(x+)时训练集所对应的真阳率。
2.根据权利要求1所述的方法,其特征在于,采用如下单调递减凸函数中的任意一种计算负样本损失:平滑函数、铰链损失函数、单边Huber函数。
3.根据权利要求2所述的方法,其特征在于,基于单边Huber函数计算的负样本损失为:
Figure FDA0004102306250000015
Figure FDA0004102306250000016
其中,hw(x+)th表示样本图像被判定为正样本图像的相似度阈值,hw(x-)表示图像检索模型预测的负样本图像与查询图像相似度得分,τ1表示第一超参数。
4.根据权利要求3所述的方法,其特征在于,所述正样本损失为:
Figure FDA0004102306250000021
Figure FDA0004102306250000022
其中,hw(x+)th表示样本图像被判定为正样本图像的相似度阈值,hw(x+)表示图像检索模型预测的正样本图像与查询图像相似度得分,τ2表示第二超参数。
5.根据权利要求3所述的方法,其特征在于,所述正样本损失为:
Figure FDA0004102306250000023
Figure FDA0004102306250000024
其中,hw(x+)th表示样本图像被判定为正样本图像的相似度阈值,hw(x+)表示图像检索模型预测的正样本图像与查询图像相似度得分,τ2表示第二超参数。
6.根据权利要求4或5所述的方法,其特征在于,在所述步骤S2中对步骤S1中获得的训练集进行多轮采样,每轮采样获得该轮对应的批次样本集合,并将每轮对应的的批次样本集合用于对图像检索模型进行训练,并在每轮训练过程中基于该轮对应的批次样本集合的AUPRC目标损失采用梯度的方式更新图像检索模型参数,其中,每轮训过程中批次样本集合的AUPRC目标损失为:
Figure FDA0004102306250000025
其中,z表示批次样本集合,z+表示z中所有正样本图像x+组成的集合,
Figure FDA0004102306250000026
表示对集合z+内的每个正样本图像x+对应的目标函数σ(*)值取平均,
Figure FDA0004102306250000027
表示在给定hw(x+)th时z对应的假阳率,
Figure FDA0004102306250000028
表示在给定hw(x+)th时z对应的真阳率,l1′表示给定hw(x+)th时z对应的负样本损失,l2′表示给定hw(x+)th时z对应的正样本损失。
7.根据权利要求6所述的方法,其特征在于,在计算批次样本集合的损失时,引入辅助向量并按照如下方式计算AUPRC目标损失:
Figure FDA0004102306250000031
其中,
Figure FDA0004102306250000032
其中,
Figure FDA0004102306250000033
表示采用批次样本集合对应的正样本图像与查询图像所有相似度得分的线性插值和指数加权平均估计的辅助向量,
Figure FDA0004102306250000034
表示
Figure FDA0004102306250000035
中的插值个数,
Figure FDA0004102306250000036
表示引入辅助向量
Figure FDA0004102306250000037
时批次样本集合z对应的无偏真阳率,l″2表示给定hw(x+)th时引入
Figure FDA0004102306250000038
后对应的正样本损失。
8.根据权利要求7所述的方法,其特征在于,所述辅助向量通过以下方式确定:
Figure FDA0004102306250000039
其中,
Figure FDA00041023062500000310
表示第t轮训练时对应的辅助向量,βj表示表示第j轮训练对应的预设的学习率,βs表示第s轮训练对应的预设的学习率,
Figure FDA00041023062500000311
表示第s轮训练中正样本与预设查询图像的相似度对应的线性插值,
Figure FDA00041023062500000312
为第s轮训练中正样本与预设查询图像的相似度得分。
9.根据权利要求8所述的方法,其特征在于,在所述步骤S2中,还引入半方差正则项损失,并基于AUPRC目标损失和半方差正则项损失采用梯度的方式更新模型参数,其中半方差正则项为损失:
Figure FDA00041023062500000313
其中,λ1为第三超参数,n+表示批次样本集合z中的正样本图像个数,hw(x)表示图像检索模型预测z中样本图像与查询图像相似度得分,μ+表示z中的正样本图像与查询图像的所有相似度得分的平均值,λ2为第四超参数,n-表示z中的负样本图像个数,z-表示z中所有负样本图像x-组成的集合,μ-表示z中的负样本图像与查询图像的所有相似度得分的平均值。
10.根据权利要求9所述的方法,其特征在于,τ1∈(0.01,0.1),τ2=0.001,λ1=1,λ2=0.1。
11.一种图像检索算法,其特征在于,所述图像检索算法包括:
T1、获取查询图像;
T2、采用如权利要求1-10任一所述方法得到的图像检索模型在图像数据库中获得查询图像的检索结果。
12.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,所述计算机程序可被处理器执行以实现权利要求1至11任一所述方法的步骤。
13.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述电子设备实现如权利要求1至11中任一项所述方法的步骤。
CN202310180785.4A 2022-12-06 2023-02-16 一种图像检索模型的训练方法及基于此的图像检索算法 Pending CN116127121A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202211557187 2022-12-06
CN2022115571876 2022-12-06

Publications (1)

Publication Number Publication Date
CN116127121A true CN116127121A (zh) 2023-05-16

Family

ID=86306376

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310180785.4A Pending CN116127121A (zh) 2022-12-06 2023-02-16 一种图像检索模型的训练方法及基于此的图像检索算法

Country Status (1)

Country Link
CN (1) CN116127121A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117351240A (zh) * 2023-10-12 2024-01-05 北京卓视智通科技有限责任公司 一种正样本采样方法、系统、存储介质和电子设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117351240A (zh) * 2023-10-12 2024-01-05 北京卓视智通科技有限责任公司 一种正样本采样方法、系统、存储介质和电子设备
CN117351240B (zh) * 2023-10-12 2024-04-09 北京卓视智通科技有限责任公司 一种正样本采样方法、系统、存储介质和电子设备

Similar Documents

Publication Publication Date Title
US20200257543A1 (en) Aggregate Features For Machine Learning
CN112131890A (zh) 一种会话意图智能识别模型的构建方法、装置及设备
CN113392651B (zh) 训练词权重模型及提取核心词的方法、装置、设备和介质
US20210089832A1 (en) Loss Function Optimization Using Taylor Series Expansion
Dehghannasiri et al. Efficient experimental design for uncertainty reduction in gene regulatory networks
CN113312505B (zh) 一种基于离散在线哈希学习的跨模态检索方法及系统
CN116127121A (zh) 一种图像检索模型的训练方法及基于此的图像检索算法
CN109753577B (zh) 一种搜索人脸的方法及相关装置
JP2019096313A (ja) 情報処理方法及び情報処理装置
CN114565807A (zh) 训练目标图像检索模型的方法和装置
CN116112563A (zh) 一种基于流行度预测的双策略自适应缓存替换方法
US9355196B2 (en) Model estimation device and model estimation method
Yang et al. A collaborative filtering method based on forgetting theory and neural item embedding
CN113947133A (zh) 小样本图像识别的任务重要性感知元学习方法
CN108268611B (zh) 一种基于MapReduce的k-means文本聚类的方法及装置
Wang et al. Robust variable screening for regression using factor profiling
CN110674860A (zh) 基于邻域搜索策略的特征选择方法、存储介质和终端
Hu et al. PWSNAS: Powering weight sharing NAS with general search space shrinking framework
JP5379813B2 (ja) データ抽出装置、データ抽出方法、及びプログラム
CN112738724B (zh) 一种区域目标人群的精准识别方法、装置、设备和介质
CN115035304A (zh) 一种基于课程学习的图像描述生成方法及系统
Zhang et al. Evaluation ranking is more important for NAS
JP2013054573A (ja) パターン識別方法、パターン識別装置、およびプログラム
Lamine et al. The threshold EM algorithm for parameter learning in bayesian network with incomplete data
Jiang et al. Learning unnormalized statistical models via compositional optimization

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination