CN113743251A - 一种基于弱监督场景的目标搜索方法及装置 - Google Patents

一种基于弱监督场景的目标搜索方法及装置 Download PDF

Info

Publication number
CN113743251A
CN113743251A CN202110943651.4A CN202110943651A CN113743251A CN 113743251 A CN113743251 A CN 113743251A CN 202110943651 A CN202110943651 A CN 202110943651A CN 113743251 A CN113743251 A CN 113743251A
Authority
CN
China
Prior art keywords
target
search
network model
loss function
branch
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110943651.4A
Other languages
English (en)
Other versions
CN113743251B (zh
Inventor
桑农
韩楚楚
邵远杰
高常鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong University of Science and Technology
Original Assignee
Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology filed Critical Huazhong University of Science and Technology
Priority to CN202110943651.4A priority Critical patent/CN113743251B/zh
Publication of CN113743251A publication Critical patent/CN113743251A/zh
Application granted granted Critical
Publication of CN113743251B publication Critical patent/CN113743251B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种基于弱监督场景的目标搜索方法及装置,属于人工智能目标搜索领域,方法包括:将待搜索图像和图像库输入至目标搜索网络模型中,得到待搜索图像目标特征和图像库中所有目标特征;计算两者之间的相似度,获取待搜索图像的匹配结果。训练目标搜索网络模型的方法为:构建目标搜索网络模型的框架;将原始场景图片以及图片中目标边界框作为弱监督场景下的目标搜索网络模型的输入,采用基于实例的一致性学习和聚类对比学习方法,构建监督信号以训练目标搜索网络模型;以特征的监督信号构建目标搜索网络模型的整体损失函数,训练目标搜索网络模型。本发明不需要使用目标的身份信息,可以实现目标搜索,扩充了训练目标搜索网络的数据库。

Description

一种基于弱监督场景的目标搜索方法及装置
技术领域
本发明属于人工智能目标搜索领域,更具体地,涉及一种基于弱监督场景的目标搜索方法及装置。
背景技术
行人搜索是指给定一张包含待查询行人的图片,从图片库中将该行人检测并识别出来。共包括行人检测和行人重识别两个子任务。相比于行人重识别直接利用裁好的行人图片,行人搜索更加接近现实场景。
现有的行人搜索方法主要分为两大类。一类方法是通过共享行人检测和行人重识别网络的部分特征进行联合训练。例如,文章“Joint detection and identificationfeature learning for person search,Computer Vision and Pattern Recognition(CVPR),2017IEEE Conference on.IEEE,2017:3376-3385”;另一类方法是分别进行检测和重识别,将两个任务端到端训练。
现有的行人搜索都是基于有监督的方法,即需要人工标注行人所在边界框以及行人的身份信息。然而标注大规模数据集中的行人身份是非常困难并且耗时的,即使是目前最常用的行人搜索数据集CUHK-SYSU,也只有72.7%的行人只标注了框,而没有身份信息。
发明内容
针对现有技术的缺陷,本发明的目的在于提供一种基于弱监督场景的目标搜索方法及装置,旨在解决现有的行人搜索方法需要的数据为行人所在边界框以及行人的身份信息,然而人工标注行人身份是非常困难并且耗时的,所以现有行人搜索方法可利用的数据比较少,导致基于有监督的行人搜索应用局限性较大,行人搜索的准确率较差的问题。
为实现上述目的,一方面,本发明提供了一种基于弱监督场景的目标搜索方法,包括以下步骤:
将待搜索图像和图像库输入至训练完毕的弱监督下的目标搜索网络模型中,得到待搜索图像目标特征和图像库中所有目标特征;
计算待搜索图像目标特征与所述图像库中所有目标特征之间的相似度,获取待搜索图像的匹配结果;
其中,训练目标搜索网络模型的方法,包括以下步骤:
(1)构建基于弱监督场景下的目标搜索网络模型的框架;
将目标搜索网络分为搜索分支和实例分支,两者的卷积神经网络参数共享;
(2)将原始场景图片以及图片中目标边界框作为弱监督场景下的目标搜索网络模型的输入,采用基于实例的一致性学习和聚类对比学习方法,构建特征的监督信号以训练目标搜索网络模型;其中,特征包括实例特征和搜索特征;
其中,搜索分支以原始场景图片和目标边界框为输入,并联合训练检测和重识别任务;实例分支的以原始场景图片中裁剪后的若干目标图片和目标边界框为输入,训练重识别任务;其中,原始场景图片中标注有目标边界框;
(3)以特征的监督信号构建目标搜索网络模型的整体损失函数,当目标搜索网络模型的整体损失函数收敛时,则判定训练完毕目标搜索网络模型。
优选地,聚类对比学习方法,具体包括如下步骤:
将原始场景图片和目标边界框输入至目标搜索网络模型,经过搜索分支和实例分支分别提取目标的搜索特征和实例特征;
顺次计算所有批次中目标的搜索特征和实例特征的平均值,存入记忆池;
对记忆池中的特征进行非参数化的聚类;
聚类后为每个特征分配一个伪标签,计算聚类层面的对比损失特征的监督信号;
结合检测过程中的损失函数,构建目标搜索网络模型的整体损失函数。
优选地,训练弱监督网络模型采用基于实例一致性学习构建特征的监督信号以训练目标搜索网络模型,具体包括以下步骤:
将原始场景图片和目标边界框输入至目标搜索网络模型,经过搜索分支和实例分支分别提取目标的搜索特征和实例特征;
基于目标的搜索特征和实例特征,建立基于实例本身的一致性损失函数和基于实例间相似性的一致性损失函数;
将基于实例本身的一致性损失函数、基于实例间相似性的一致性损失函数、聚类层面的对比损失特征以及检测过程中的损失函数结合,构建目标搜索网络模型的整体损失函数。
优选地,目标搜索网络模型的整体损失函数为:
L=Lins+Lint+Lclu+Lde
其中,Lde为检测过程中的损失;Lclu为聚类层面的对比损失;Lint为基于实例间相似性的一致性损失函数;Lins为基于实例本身的一致性损失函数;
Figure BDA0003215809850000031
Lint=DKL(Sa||Sb)+DKL(Sb||Sa)
Figure BDA0003215809850000032
其中,
Figure BDA0003215809850000033
(i=1…K)代表各个正样本对的相似度,
Figure BDA0003215809850000034
(j=1…J)代表负样本对的相似度;γ是比例系数,一般设为16;
Figure BDA0003215809850000035
Figure BDA0003215809850000036
(i=1,2,……,B)分别表示目标的搜索特征和实例特征;B表示每个训练批次中目标的个数;DKL为Kullback-Leibler散度;Sa和Sb分别表示搜索分支和实例分支中的相似性矩阵。
另一方面,本发明提供了一种基于弱监督场景的目标搜索装置,包括:目标搜索网络模块、匹配模块、模型框架构建模块、损失函数构建模块和训练判定模块;
目标搜索网络模块用于将待搜索图像和目标图像输入至训练完毕的弱监督下的目标搜索网络模型中,得到待搜索图像目标特征和目标图像目标特征;
且将原始场景图片以及图片中目标边界框作为弱监督场景下的目标搜索网络模型的输入,采用基于实例的一致性学习和聚类对比学习方法,构建特征的监督信号以训练目标搜索网络模型;其中,特征包括实例特征和搜索特征;
匹配模块用于计算待搜索图像目标特征与所述目标图像目标特征之间的相似度,获取待搜索图像的匹配结果;
模型框架构建模块用于构建基于弱监督场景下的目标搜索网络模型的框架,将目标搜索网络分为搜索分支和实例分支,两者的卷积神经网络参数共享;
其中,搜索分支以原始场景图片和目标边界框为输入,并联合训练检测和重识别任务;实例分支的以原始场景图片中裁剪后的若干目标图片和目标边界框为输入,训练重识别任务;其中,原始场景图片中标注有目标边界框;
损失函数构建模块用于以特征的监督信号构建目标搜索网络模型的整体损失函数;
训练判定模块用于当目标搜索网络模型的整体损失函数收敛时,则判定训练完毕目标搜索网络模型。
优选地,目标搜索网络模块包括聚类对比学习单元,用于聚类对比学习方法,具体执行过程如下:
将原始场景图片和目标边界框输入至目标搜索网络模型,经过搜索分支和实例分支分别提取目标的搜索特征和实例特征;
顺次计算所有批次中目标的搜索特征和实例特征的平均值,存入记忆池;
对记忆池中的特征进行非参数化的聚类;
聚类后为每个特征分配一个伪标签,计算聚类层面的对比损失特征的监督信号;
结合检测过程中的损失函数,构建目标搜索网络模型的整体损失函数。
优选地,目标搜索网络模块还包括实例一致性学习单元,用于采用实例一致性学习构建特征的监督信号以训练目标搜索网络模型,具体执行过程如下:
将原始场景图片和目标边界框输入至目标搜索网络模型,经过搜索分支和实例分支分别提取目标的搜索特征和实例特征;
基于目标的搜索特征和实例特征,建立基于实例本身的一致性损失函数和基于实例间相似性的一致性损失函数;
将基于实例本身的一致性损失函数、基于实例间相似性的一致性损失函数、聚类层面的对比损失特征以及检测过程中的损失函数结合,构建目标搜索网络模型的整体损失函数。
优选地,目标搜索网络模型的整体损失函数为:
L=Lins+Lint+Lclu+Lde
其中,Lde为检测过程中的损失;Lclu为聚类层面的对比损失;Lint为基于实例间相似性的一致性损失函数;Lins为基于实例本身的一致性损失函数;
Figure BDA0003215809850000051
Lint=DKL(Sa||Sb)+DKL(Sb||Sa)
Figure BDA0003215809850000052
其中,
Figure BDA0003215809850000053
(i=1…K)代表各个正样本对的相似度,
Figure BDA0003215809850000054
(j=1…J)代表负样本对的相似度;γ是比例系数,一般设为16;
Figure BDA0003215809850000055
Figure BDA0003215809850000056
(i=1,2,……,B)分别表示目标的搜索特征和实例特征;B表示每个训练批次中目标的个数;DKL为Kullback-Leibler散度;Sa和Sb分别表示搜索分支和实例分支中的相似性矩阵。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,具有以下有益效果:
本发明在训练目标搜索网络模型时,输入的原始场景图片中只需要标注目标边界框,采用目标搜索网络可以实现对目标的识别,主要归因于基于弱监督场景下的目标搜索网络分为搜索分支和实例分支,搜索分支以原始场景图片和目标边界框为输入,并联合训练检测和重识别任务;实例分支的以原始场景图片中裁剪后的若干目标图片和目标边界框为输入,训练重识别任务;采用聚类对比学习方法,可以构建特征的监督信号,从而可以训练出鲁棒性极好的目标搜索网络,可以提升目标搜索的准确性,从中可以看出,本发明降低了对数据的要求,不需要使用目标的身份信息,也可以实现目标搜索,扩充了训练目标搜索网络的数据库。
本发明提供的聚类对比学习方法以训练目标搜索网络模型,构建聚类层面的对比损失特征,使得目标搜索网络模型能够将相似的目标特征聚在一起,不同的目标特征之间互相分离,从而实现目标搜索网络模型在对目标类别进行判定时在可分离性和聚合性之间能够达到平衡。
本发明提供的基于实例的一致性学习以训练目标搜索网络模型,包括基于实例自身的一致性损失函数以及基于实例间相似性的一致性损失函数,主要目标是缩小两个分支中相同目标特征的差异性,从而使同类特征之间更加紧凑。
附图说明
图1是本发明实施例提供的一种基于弱监督场景的目标搜索方法流程图;
图2是本发明实施例提供的一种基于弱监督场景的行人搜索方法的深度神经网络结构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
一方面,本发明提供了一种基于弱监督场景的目标搜索方法,包括以下步骤:
将待搜索图像和图像库输入至训练完毕的弱监督下的目标搜索网络模型中,得到待搜索图像目标特征和图像库中所有目标特征;
计算待搜索图像目标特征与所述图像库中所有目标特征之间的相似度,获取待搜索图像的匹配结果;
其中,训练目标搜索网络模型的方法,包括以下步骤:
(1)构建基于弱监督场景下的目标搜索网络模型的框架;
将目标搜索网络分为搜索分支和实例分支,两者的卷积神经网络参数共享;
(2)将原始场景图片以及图片中目标边界框作为弱监督场景下的目标搜索网络模型的输入,采用基于实例的一致性学习和聚类对比学习方法,构建特征的监督信号以训练目标搜索网络模型;其中,特征包括实例特征和搜索特征;
其中,搜索分支以原始场景图片和目标边界框为输入,并联合训练检测和重识别任务;实例分支的以原始场景图片中裁剪后的若干目标图片和目标边界框为输入,训练重识别任务;其中,原始场景图片中标注有目标边界框;
(3)以特征的监督信号构建目标搜索网络模型的整体损失函数,当目标搜索网络模型的整体损失函数收敛时,则判定训练完毕目标搜索网络模型。
优选地,聚类对比学习方法,具体包括如下步骤:
将原始场景图片和目标边界框输入至目标搜索网络模型,经过搜索分支和实例分支分别提取目标的搜索特征和实例特征;
顺次计算所有批次中目标的搜索特征和实例特征的平均值,存入记忆池;
对记忆池中的特征进行非参数化的聚类;
聚类后为每个特征分配一个伪标签,计算聚类层面的对比损失特征的监督信号;
结合检测过程中的损失函数,构建目标搜索网络模型的整体损失函数。
优选地,训练弱监督网络模型还包括采用实例一致性学习构建特征的监督信号以训练目标搜索网络模型,具体包括以下步骤:
将原始场景图片和目标边界框输入至目标搜索网络模型,经过搜索分支和实例分支分别提取目标的搜索特征和实例特征;
基于目标的搜索特征和实例特征,建立基于实例本身的一致性损失函数和基于实例间相似性的一致性损失函数;
将基于实例本身的一致性损失函数、基于实例间相似性的一致性损失函数、聚类层面的对比损失特征以及检测过程中的损失函数结合,构建目标搜索网络模型的整体损失函数。
优选地,目标搜索网络模型的整体损失函数为:
L=Lins+Lint+Lclu+Lde
其中,Lde为检测过程中的损失;Lclu为聚类层面的对比损失;Lint为基于实例间相似性的一致性损失函数;Lins为基于实例本身的一致性损失函数;
Figure BDA0003215809850000081
Lint=DKL(Sa||Sb)+DKL(Sb||Sa)
Figure BDA0003215809850000082
其中,
Figure BDA0003215809850000083
(i=1…K)代表各个正样本对的相似度,
Figure BDA0003215809850000084
(j=1…J)代表负样本对的相似度,通过成对行人特征之间计算余弦相似度得到;γ是比例系数,一般设为16;
Figure BDA0003215809850000085
Figure BDA0003215809850000086
(i=1,2,……,B)分别表示目标的搜索特征和实例特征;B表示每个训练批次中目标的个数;DKL为Kullback-Leibler散度;Sa和Sb分别表示搜索分支和实例分支中的相似性矩阵。相似性矩阵代表同一训练批次内,所有目标特征之间的余弦相似度。
另一方面,本发明提供了一种基于弱监督场景的目标搜索装置,包括:目标搜索网络模块、匹配模块、模型框架构建模块、损失函数构建模块和训练判定模块;
目标搜索网络模块用于将待搜索图像和图像库输入至训练完毕的弱监督下的目标搜索网络模型中,得到待搜索图像目标特征和图像库中所有目标特征;
且将原始场景图片以及图片中目标边界框作为弱监督场景下的目标搜索网络模型的输入,采用基于实例的一致性学习和聚类对比学习方法,构建特征的监督信号以训练目标搜索网络模型;其中,特征包括实例特征和搜索特征;
匹配模块用于计算待搜索图像目标特征与所述图像库中所有目标特征之间的相似度,获取待搜索图像的匹配结果;
模型框架构建模块用于构建基于弱监督场景下的目标搜索网络模型的框架,将目标搜索网络分为搜索分支和实例分支,两者的卷积神经网络参数共享;
其中,搜索分支以原始场景图片和目标边界框为输入,并联合训练检测和重识别任务;实例分支的以原始场景图片中裁剪后的若干目标图片和目标边界框为输入,训练重识别任务;其中,原始场景图片中标注有目标边界框;
损失函数构建模块用于以特征的监督信号构建目标搜索网络模型的整体损失函数;
训练判定模块用于当目标搜索网络模型的整体损失函数收敛时,则判定训练完毕目标搜索网络模型。
优选地,目标搜索网络模块包括聚类对比学习单元,用于聚类对比学习方法,具体执行过程如下:
将原始场景图片和目标边界框输入至目标搜索网络模型,经过搜索分支和实例分支分别提取目标的搜索特征和实例特征;
顺次计算所有批次中目标的搜索特征和实例特征的平均值,存入记忆池;
对记忆池中的特征进行非参数化的聚类;
聚类后为每个特征分配一个伪标签,计算聚类层面的对比损失特征的监督信号;
结合检测过程中的损失函数,构建目标搜索网络模型的整体损失函数。
优选地,目标搜索网络模块还包括实例一致性学习单元,用于采用实例一致性学习构建特征的监督信号以训练目标搜索网络模型,具体执行过程如下:
将原始场景图片和目标边界框输入至目标搜索网络模型,经过搜索分支和实例分支分别提取目标的搜索特征和实例特征;
基于目标的搜索特征和实例特征,建立基于实例本身的一致性损失函数和基于实例间相似性的一致性损失函数;
将基于实例本身的一致性损失函数、基于实例间相似性的一致性损失函数、聚类层面的对比损失特征以及检测过程中的损失函数结合,构建目标搜索网络模型的整体损失函数。
优选地,目标搜索网络模型的整体损失函数为:
L=Lins+Lint+Lclu+Lde
其中,Lde为检测过程中的损失;Lclu为聚类层面的对比损失;Lint为基于实例间相似性的一致性损失函数;Lins为基于实例本身的一致性损失函数;
Figure BDA0003215809850000101
Lint=DKL(Sa||Sb)+DKL(Sb||Sa)
Figure BDA0003215809850000102
其中,
Figure BDA0003215809850000103
(i=1…K)代表各个正样本对的相似度,
Figure BDA0003215809850000104
(j=1…J)代表负样本对的相似度;γ是比例系数,一般设为16;
Figure BDA0003215809850000105
Figure BDA0003215809850000106
(i=1,2,……,B)分别表示目标的搜索特征和实例特征;B表示每个训练批次中目标的个数;DKL为Kullback-Leibler散度;Sa和Sb分别表示搜索分支和实例分支中的相似性矩阵。
实施例
如图1所示,本实施例提供了一种基于弱监督场景的目标搜索方法,包括以下步骤:
(1)对弱监督场景下的目标搜索进行设置;
标注大规模数据集中的目标身份是非常困难并且耗时的,不用于现有技术需要人工标注目标所在检测框以及目标的身份信息,本实施例提供了在弱监督场景下的目标搜索,只利用检测框的标注信息以训练网络;
(2)构建弱监督场景下的目标搜索网络模型的框架;
如图2所示,该目标搜索网络框架共包含两个分支,即搜索分支和实例分支;其中,两个分支中的卷积神经网络是参数共享的;搜索分支以原始场景图片为输入,并联合训练检测和重识别任务;实例分支的输入是原始场景图片中裁剪后的若干目标图片,只训练重识别任务;
具体地,本实施例采用Reppoints作为网络主干,其中检测模块是Reppoints中的多分类和回归网络;由于检测目标为特定一目标,修改Reppoints中的多分类为二分类;
对于搜索分支,其输入是原始场景图片;为了得到每一个目标的特征,基于卷积神经网络的输出,利用RoI align提取每一个目标边界框对应区域的搜索特征,作为目标特征;在这一分支中,需要对搜索特征进行联合训练检测和重识别任务;
对于实例分支,其输入为原始场景图片中裁剪后的若干目标图片,调整输入图片的宽高后输入卷积神经网络进行特征提取,得到每一个目标的实例特征表达;在这一分支中,只需要对实例特征施加重识别损失;
(3)将原始场景图片以及图片中目标边界框作为弱监督场景下的目标搜索网络模型的输入,构建特征的监督信号以训练目标搜索网络模型框架;其中,特征包括实例特征和搜索特征;
将原始场景图片以及图片中目标的边界框作为弱监督场景下的目标搜索网络框架的输入;由于弱监督场景下没有目标身份信息,基本思想是将每个目标视为一类进行训练;在此之上,提出两种方式构建对特征的监督信号,分别为基于实例的一致性学习、基于聚类的对比学习以训练整个目标搜索网络框架;
具体地,为了约束同类特征之间的紧凑性,主要目标是缩小两个分支中相同目标特征的差异性(实例特征和搜索特征的差异性),本实施例采用基于实例的一致性学习以训练目标搜索网络框架,包括两个损失函数以约束特征一致性,具体为:
(3-1)首先将训练图片输入至目标搜索网络模型,经过搜索分支和实例分支分别提取目标的搜索特征和实例特征,分别表示为
Figure BDA0003215809850000121
Figure BDA0003215809850000122
(i=1,2,……,B);其中,B表示每个训练批次中目标的个数;
(3-2)建立基于实例本身的一致性损失函数Lins,即对于每一个目标,约束两分支输出特征保持相似;
Figure BDA0003215809850000123
(3-3)建立基于实例间相似性的一致性损失函数Lint,即对于每一个分支,计算训练批次内所有目标之间的相似性矩阵,约束两个分支相似性矩阵之间的分布趋近一致;
Lint=DKL(Sa||Sb)+DKL(Sb||Sa)
其中,DKL为Kullback-Leibler散度;Sa和Sb分别表示搜索分支和实例分支中的相似性矩阵;
(3-4)目标搜索作为细粒度任务,仅将每个目标视为一类进行训练是不易优化的;为了在可分离性和聚合性之间达到平衡,本实施例采用基于聚类的对比学习,使网络框架能够将相似的目标特征聚在一起,不同的目标特征之间相互分离,具体过程如下:
(3-4-1)初始化一个记忆池,提取所有目标特征存入记忆池,每个目标为一类;这里的目标特征是两个分支目标特征(目标的搜索特征和实例特征)的平均值,表示为f;训练过程中,用最新训练批次中的目标特征以更新记忆池;
(3-4-2)在每次完成整个数据集训练之后,对记忆池中的特征进行非参数化的聚类;
假设现在构造一个邻接矩阵
Figure BDA0003215809850000131
(初始化为全0);如果想要聚合两个样本,即A(i,j)=1,需要满足两个条件:(a)
Figure BDA0003215809850000132
Figure BDA0003215809850000133
Figure BDA0003215809850000134
其中
Figure BDA0003215809850000135
代表i的最近邻;(b)i和j来自不同的原始图片;因为一张原始场景中的目标必然属于不同的类别;
(3-4-3)聚类之后,每个样本均被分配伪标签,则可以计算聚类层面的对比损失Lclu,约束每一个正样本对的相似性大于负样本对;
Figure BDA0003215809850000136
其中,
Figure BDA0003215809850000137
(i=1…K)代表各个正样本对的相似度,
Figure BDA0003215809850000138
(j=1…J)代表负样本对的相似度;γ是比例系数,一般设为16;
综上所述,结合检测过程中的损失函数Lde,整个目标搜索网络模型训练过程中的整体损失函数为:
L=Lins+Lint+Lclu+Lde
(4)将待搜索图像和图像库输入训练完毕的弱监督网络模型中,得到待搜索图像目标特征和图像库中所有目标特征,计算待搜索图像目标特征与图像库中所有目标特征之间的相似度,获得待搜索图像的匹配结果。
综上所述,本发明与现有技术相比,存在以下优势:
本发明在训练目标搜索网络模型时,输入的原始场景图片中只需要标注目标边界框,采用目标搜索网络可以实现对目标的识别,主要归因于基于弱监督场景下的目标搜索网络分为搜索分支和实例分支,搜索分支以原始场景图片和目标边界框为输入,并联合训练检测和重识别任务;实例分支的以原始场景图片中裁剪后的若干目标图片和目标边界框为输入,训练重识别任务;采用聚类对比学习方法,可以构建特征的监督信号,从而可以训练出鲁棒性极好的目标搜索网络,可以提升目标搜索的准确性,从中可以看出,本发明降低了对数据的要求,不需要使用目标的身份信息,也可以实现目标搜索,扩充了训练目标搜索网络的数据库。
本发明提供的聚类对比学习方法以训练目标搜索网络模型,构建聚类层面的对比损失特征,使得目标搜索网络模型能够将相似的目标特征聚在一起,不同的目标特征之间互相分离,从而实现目标搜索网络模型在对目标类别进行判定时在可分离性和聚合性之间能够达到平衡。
本发明提供的基于实例的一致性学习以训练目标搜索网络模型,包括基于实例自身的一致性损失函数以及基于实例间相似性的一致性损失函数,主要目标是缩小两个分支中相同目标特征的差异性,从而使同类特征之间更加紧凑。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种基于弱监督场景的目标搜索方法,其特征在于,包括以下步骤:
将待搜索图像和图像库输入至训练完毕的弱监督下的目标搜索网络模型中,得到待搜索图像目标特征和图像库中所有目标特征;
计算所述待搜索图像目标特征与所述图像库中所有目标特征之间的相似度,获取待搜索图像的匹配结果;
其中,训练目标搜索网络模型的方法,包括以下步骤:
(1)构建基于弱监督场景下的目标搜索网络模型的框架;
将目标搜索网络分为搜索分支和实例分支,两者的卷积神经网络参数共享;
(2)将原始场景图片以及图片中目标边界框作为弱监督场景下的目标搜索网络模型的输入,采用基于实例的一致性学习和聚类对比学习方法,构建特征的监督信号以训练目标搜索网络模型;其中,特征包括实例特征和搜索特征;
其中,搜索分支以原始场景图片和目标边界框为输入,并联合训练检测和重识别任务;实例分支的以原始场景图片中裁剪后的若干目标图片和目标边界框为输入,训练重识别任务;其中,原始场景图片中标注有目标边界框;
(3)以特征的监督信号构建目标搜索网络模型的整体损失函数,当目标搜索网络模型的整体损失函数收敛时,则判定训练完毕目标搜索网络模型。
2.根据权利要求1所述的目标搜索方法,其特征在于,所述聚类对比学习方法,具体包括如下步骤:
将原始场景图片和目标边界框输入至目标搜索网络模型,经过搜索分支和实例分支分别提取目标的搜索特征和实例特征;
顺次计算所有批次中目标的搜索特征和实例特征的平均值,存入记忆池;
对记忆池中的特征进行非参数化的聚类;
聚类后为每个特征分配一个伪标签,计算聚类层面的对比损失特征的监督信号;
结合检测过程中的损失函数,构建目标搜索网络模型的整体损失函数。
3.根据权利要求1或2所述的目标搜索方法,其特征在于采用基于实例一致性学习构建特征的监督信号以训练目标搜索网络模型,具体包括以下步骤:
将原始场景图片和目标边界框输入至目标搜索网络模型,经过搜索分支和实例分支分别提取目标的搜索特征和实例特征;
基于目标的搜索特征和实例特征,建立基于实例本身的一致性损失函数和基于实例间相似性的一致性损失函数;
将基于实例本身的一致性损失函数、基于实例间相似性的一致性损失函数、聚类层面的对比损失特征以及检测过程中的损失函数结合,构建目标搜索网络模型的整体损失函数。
4.根据权利要求3所述的目标搜索方法,其特征在于,所述目标搜索网络模型的整体损失函数为:
L=Lins+Lint+Lclu+Lde
其中,Lde为检测过程中的损失;Lclu为聚类层面的对比损失;Lint为基于实例间相似性的一致性损失函数;Lins为基于实例本身的一致性损失函数;
Figure FDA0003215809840000021
Lint=DKL(Sa||Sb)+DKL(Sb||Sa)
Figure FDA0003215809840000022
其中,
Figure FDA0003215809840000023
代表各个正样本对的相似度,
Figure FDA0003215809840000024
代表负样本对的相似度;γ是比例系数;fi a和fi b(i=1,2,......,B)分别表示目标的搜索特征和实例特征;B表示每个训练批次中目标的个数;DKL为Kullback-Leibler散度;Sa和Sb分别表示搜索分支和实例分支中的相似性矩阵。
5.一种基于弱监督场景的目标搜索装置,其特征在于,包括:目标搜索网络模块、匹配模块、模型框架构建模块、损失函数构建模块和训练判定模块;
所述目标搜索网络模块用于将待搜索图像和图像库输入至训练完毕的弱监督下的目标搜索网络模型中,得到待搜索图像目标特征和图像库中所有目标特征;
且将原始场景图片以及图片中目标边界框作为弱监督场景下的目标搜索网络模型的输入,采用基于实例的一致性学习和聚类对比学习方法,构建特征的监督信号以训练目标搜索网络模型;其中,特征包括实例特征和搜索特征;
所述匹配模块用于计算待搜索图像目标特征与所述目标图像目标特征之间的相似度,获取待搜索图像的匹配结果;
所述模型框架构建模块用于构建基于弱监督场景下的目标搜索网络模型的框架,将目标搜索网络分为搜索分支和实例分支,两者的卷积神经网络参数共享;
其中,搜索分支以原始场景图片和目标边界框为输入,并联合训练检测和重识别任务;实例分支的以原始场景图片中裁剪后的若干目标图片和目标边界框为输入,训练重识别任务;其中,原始场景图片中标注有目标边界框;
所述损失函数构建模块用于以特征的监督信号构建目标搜索网络模型的整体损失函数;
所述训练判定模块用于当目标搜索网络模型的整体损失函数收敛时,则判定训练完毕目标搜索网络模型。
6.根据权利要求5所述的目标搜索装置,其特征在于,所述目标搜索网络模块包括聚类对比学习单元,用于聚类对比学习方法,具体执行过程如下:
将原始场景图片和目标边界框输入至目标搜索网络模型,经过搜索分支和实例分支分别提取目标的搜索特征和实例特征;
顺次计算所有批次中目标的搜索特征和实例特征的平均值,存入记忆池;
对记忆池中的特征进行非参数化的聚类;
聚类后为每个特征分配一个伪标签,计算聚类层面的对比损失特征的监督信号;
结合检测过程中的损失函数,构建目标搜索网络模型的整体损失函数。
7.根据权利要求5或6所述的目标搜索装置,其特征在于,所述目标搜索网络模块还包括实例一致性学习单元,用于采用实例一致性学习构建特征的监督信号以训练目标搜索网络模型,具体执行过程如下:
将原始场景图片和目标边界框输入至目标搜索网络模型,经过搜索分支和实例分支分别提取目标的搜索特征和实例特征;
基于目标的搜索特征和实例特征,建立基于实例本身的一致性损失函数和基于实例间相似性的一致性损失函数;
将基于实例本身的一致性损失函数、基于实例间相似性的一致性损失函数、聚类层面的对比损失特征以及检测过程中的损失函数结合,构建目标搜索网络模型的整体损失函数。
8.根据权利要求7所述的目标搜索装置,其特征在于,所述目标搜索网络模型的整体损失函数为:
L=Lins+Lint+Lclu+Lde
其中,Lde为检测过程中的损失;Lclu为聚类层面的对比损失;Lint为基于实例间相似性的一致性损失函数;Lins为基于实例本身的一致性损失函数;
Figure FDA0003215809840000051
Lint=DKL(Sa||Sb)+DKL(Sb||Sa)
Figure FDA0003215809840000052
其中,
Figure FDA0003215809840000053
代表各个正样本对的相似度,
Figure FDA0003215809840000054
代表负样本对的相似度;γ是比例系数;fi a和fi b(i=1,2,......,B)分别表示目标的搜索特征和实例特征;B表示每个训练批次中目标的个数;DKL为Kullback-Leibler散度;Sa和Sb分别表示搜索分支和实例分支中的相似性矩阵。
CN202110943651.4A 2021-08-17 2021-08-17 一种基于弱监督场景的目标搜索方法及装置 Active CN113743251B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110943651.4A CN113743251B (zh) 2021-08-17 2021-08-17 一种基于弱监督场景的目标搜索方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110943651.4A CN113743251B (zh) 2021-08-17 2021-08-17 一种基于弱监督场景的目标搜索方法及装置

Publications (2)

Publication Number Publication Date
CN113743251A true CN113743251A (zh) 2021-12-03
CN113743251B CN113743251B (zh) 2024-02-13

Family

ID=78731399

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110943651.4A Active CN113743251B (zh) 2021-08-17 2021-08-17 一种基于弱监督场景的目标搜索方法及装置

Country Status (1)

Country Link
CN (1) CN113743251B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114638322A (zh) * 2022-05-20 2022-06-17 南京大学 开放场景下基于给定描述的全自动目标检测系统和方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018137358A1 (zh) * 2017-01-24 2018-08-02 北京大学 基于深度度量学习的目标精确检索方法
CN109948425A (zh) * 2019-01-22 2019-06-28 中国矿业大学 一种结构感知自注意和在线实例聚合匹配的行人搜索方法及装置
CN110533067A (zh) * 2019-07-22 2019-12-03 杭州电子科技大学 基于深度学习的边框回归的端到端弱监督目标检测方法
WO2021077785A1 (zh) * 2019-10-21 2021-04-29 华中科技大学 一种基于行人重识别驱动定位调整的行人搜索方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018137358A1 (zh) * 2017-01-24 2018-08-02 北京大学 基于深度度量学习的目标精确检索方法
CN109948425A (zh) * 2019-01-22 2019-06-28 中国矿业大学 一种结构感知自注意和在线实例聚合匹配的行人搜索方法及装置
CN110533067A (zh) * 2019-07-22 2019-12-03 杭州电子科技大学 基于深度学习的边框回归的端到端弱监督目标检测方法
WO2021077785A1 (zh) * 2019-10-21 2021-04-29 华中科技大学 一种基于行人重识别驱动定位调整的行人搜索方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114638322A (zh) * 2022-05-20 2022-06-17 南京大学 开放场景下基于给定描述的全自动目标检测系统和方法

Also Published As

Publication number Publication date
CN113743251B (zh) 2024-02-13

Similar Documents

Publication Publication Date Title
CN110414368B (zh) 一种基于知识蒸馏的无监督行人重识别方法
CN108960140B (zh) 基于多区域特征提取和融合的行人再识别方法
CN111401281B (zh) 基于深度聚类和样例学习的无监督行人重识别方法及系统
CN107153817B (zh) 行人重识别数据标注方法和装置
CN104599275B (zh) 基于概率图模型的非参数化的rgb-d场景理解方法
CN112232241B (zh) 一种行人重识别方法、装置、电子设备和可读存储介质
CN109801265B (zh) 一种基于卷积神经网络的实时输电设备异物检测系统
CN111639564B (zh) 一种基于多注意力异构网络的视频行人重识别方法
CN115294150A (zh) 一种图像处理方法和终端设备
CN109919084A (zh) 一种基于深度多索引哈希的行人重识别方法
CN114548256A (zh) 一种基于对比学习的小样本珍稀鸟类识别方法
CN115719475A (zh) 一种基于深度学习的三阶段轨旁设备故障自动检测方法
CN113743251B (zh) 一种基于弱监督场景的目标搜索方法及装置
CN114972952A (zh) 一种基于模型轻量化的工业零部件缺陷识别方法
CN114782752A (zh) 基于自训练的小样本图像集成分类方法及装置
CN111814760B (zh) 人脸识别方法及系统
CN113553975A (zh) 基于样本对关系蒸馏的行人重识别方法、系统、设备及介质
CN117152459A (zh) 图像检测方法、装置、计算机可读介质及电子设备
CN107609586A (zh) 一种基于自我监督的视觉表征学习方法
CN111539362A (zh) 一种无人机图像目标检测装置及方法
CN116229511A (zh) 基于金丝猴躯干特征提取的身份重识别方法
CN116958729A (zh) 对象分类模型的训练、对象分类方法、装置及存储介质
CN115984647A (zh) 面向星群的遥感分布式协同推理方法、装置、介质和卫星
CN112818837B (zh) 一种基于姿态校正和困难样本感知的航拍车辆重识别方法
CN114639076A (zh) 目标对象检测方法、装置、存储介质以及电子装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant