CN113743251A - 一种基于弱监督场景的目标搜索方法及装置 - Google Patents
一种基于弱监督场景的目标搜索方法及装置 Download PDFInfo
- Publication number
- CN113743251A CN113743251A CN202110943651.4A CN202110943651A CN113743251A CN 113743251 A CN113743251 A CN 113743251A CN 202110943651 A CN202110943651 A CN 202110943651A CN 113743251 A CN113743251 A CN 113743251A
- Authority
- CN
- China
- Prior art keywords
- target
- search
- network model
- loss function
- branch
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 73
- 230000006870 function Effects 0.000 claims abstract description 94
- 238000012549 training Methods 0.000 claims abstract description 50
- 238000001514 detection method Methods 0.000 claims description 34
- 230000008569 process Effects 0.000 claims description 27
- 238000010276 construction Methods 0.000 claims description 11
- 238000013527 convolutional neural network Methods 0.000 claims description 9
- 239000000126 substance Substances 0.000 claims description 7
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 239000011159 matrix material Substances 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000000159 protein binding assay Methods 0.000 description 1
- 230000001568 sexual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种基于弱监督场景的目标搜索方法及装置,属于人工智能目标搜索领域,方法包括:将待搜索图像和图像库输入至目标搜索网络模型中,得到待搜索图像目标特征和图像库中所有目标特征;计算两者之间的相似度,获取待搜索图像的匹配结果。训练目标搜索网络模型的方法为:构建目标搜索网络模型的框架;将原始场景图片以及图片中目标边界框作为弱监督场景下的目标搜索网络模型的输入,采用基于实例的一致性学习和聚类对比学习方法,构建监督信号以训练目标搜索网络模型;以特征的监督信号构建目标搜索网络模型的整体损失函数,训练目标搜索网络模型。本发明不需要使用目标的身份信息,可以实现目标搜索,扩充了训练目标搜索网络的数据库。
Description
技术领域
本发明属于人工智能目标搜索领域,更具体地,涉及一种基于弱监督场景的目标搜索方法及装置。
背景技术
行人搜索是指给定一张包含待查询行人的图片,从图片库中将该行人检测并识别出来。共包括行人检测和行人重识别两个子任务。相比于行人重识别直接利用裁好的行人图片,行人搜索更加接近现实场景。
现有的行人搜索方法主要分为两大类。一类方法是通过共享行人检测和行人重识别网络的部分特征进行联合训练。例如,文章“Joint detection and identificationfeature learning for person search,Computer Vision and Pattern Recognition(CVPR),2017IEEE Conference on.IEEE,2017:3376-3385”;另一类方法是分别进行检测和重识别,将两个任务端到端训练。
现有的行人搜索都是基于有监督的方法,即需要人工标注行人所在边界框以及行人的身份信息。然而标注大规模数据集中的行人身份是非常困难并且耗时的,即使是目前最常用的行人搜索数据集CUHK-SYSU,也只有72.7%的行人只标注了框,而没有身份信息。
发明内容
针对现有技术的缺陷,本发明的目的在于提供一种基于弱监督场景的目标搜索方法及装置,旨在解决现有的行人搜索方法需要的数据为行人所在边界框以及行人的身份信息,然而人工标注行人身份是非常困难并且耗时的,所以现有行人搜索方法可利用的数据比较少,导致基于有监督的行人搜索应用局限性较大,行人搜索的准确率较差的问题。
为实现上述目的,一方面,本发明提供了一种基于弱监督场景的目标搜索方法,包括以下步骤:
将待搜索图像和图像库输入至训练完毕的弱监督下的目标搜索网络模型中,得到待搜索图像目标特征和图像库中所有目标特征;
计算待搜索图像目标特征与所述图像库中所有目标特征之间的相似度,获取待搜索图像的匹配结果;
其中,训练目标搜索网络模型的方法,包括以下步骤:
(1)构建基于弱监督场景下的目标搜索网络模型的框架;
将目标搜索网络分为搜索分支和实例分支,两者的卷积神经网络参数共享;
(2)将原始场景图片以及图片中目标边界框作为弱监督场景下的目标搜索网络模型的输入,采用基于实例的一致性学习和聚类对比学习方法,构建特征的监督信号以训练目标搜索网络模型;其中,特征包括实例特征和搜索特征;
其中,搜索分支以原始场景图片和目标边界框为输入,并联合训练检测和重识别任务;实例分支的以原始场景图片中裁剪后的若干目标图片和目标边界框为输入,训练重识别任务;其中,原始场景图片中标注有目标边界框;
(3)以特征的监督信号构建目标搜索网络模型的整体损失函数,当目标搜索网络模型的整体损失函数收敛时,则判定训练完毕目标搜索网络模型。
优选地,聚类对比学习方法,具体包括如下步骤:
将原始场景图片和目标边界框输入至目标搜索网络模型,经过搜索分支和实例分支分别提取目标的搜索特征和实例特征;
顺次计算所有批次中目标的搜索特征和实例特征的平均值,存入记忆池;
对记忆池中的特征进行非参数化的聚类;
聚类后为每个特征分配一个伪标签,计算聚类层面的对比损失特征的监督信号;
结合检测过程中的损失函数,构建目标搜索网络模型的整体损失函数。
优选地,训练弱监督网络模型采用基于实例一致性学习构建特征的监督信号以训练目标搜索网络模型,具体包括以下步骤:
将原始场景图片和目标边界框输入至目标搜索网络模型,经过搜索分支和实例分支分别提取目标的搜索特征和实例特征;
基于目标的搜索特征和实例特征,建立基于实例本身的一致性损失函数和基于实例间相似性的一致性损失函数;
将基于实例本身的一致性损失函数、基于实例间相似性的一致性损失函数、聚类层面的对比损失特征以及检测过程中的损失函数结合,构建目标搜索网络模型的整体损失函数。
优选地,目标搜索网络模型的整体损失函数为:
L=Lins+Lint+Lclu+Lde
其中,Lde为检测过程中的损失;Lclu为聚类层面的对比损失;Lint为基于实例间相似性的一致性损失函数;Lins为基于实例本身的一致性损失函数;
Lint=DKL(Sa||Sb)+DKL(Sb||Sa)
其中,(i=1…K)代表各个正样本对的相似度,(j=1…J)代表负样本对的相似度;γ是比例系数,一般设为16;和(i=1,2,……,B)分别表示目标的搜索特征和实例特征;B表示每个训练批次中目标的个数;DKL为Kullback-Leibler散度;Sa和Sb分别表示搜索分支和实例分支中的相似性矩阵。
另一方面,本发明提供了一种基于弱监督场景的目标搜索装置,包括:目标搜索网络模块、匹配模块、模型框架构建模块、损失函数构建模块和训练判定模块;
目标搜索网络模块用于将待搜索图像和目标图像输入至训练完毕的弱监督下的目标搜索网络模型中,得到待搜索图像目标特征和目标图像目标特征;
且将原始场景图片以及图片中目标边界框作为弱监督场景下的目标搜索网络模型的输入,采用基于实例的一致性学习和聚类对比学习方法,构建特征的监督信号以训练目标搜索网络模型;其中,特征包括实例特征和搜索特征;
匹配模块用于计算待搜索图像目标特征与所述目标图像目标特征之间的相似度,获取待搜索图像的匹配结果;
模型框架构建模块用于构建基于弱监督场景下的目标搜索网络模型的框架,将目标搜索网络分为搜索分支和实例分支,两者的卷积神经网络参数共享;
其中,搜索分支以原始场景图片和目标边界框为输入,并联合训练检测和重识别任务;实例分支的以原始场景图片中裁剪后的若干目标图片和目标边界框为输入,训练重识别任务;其中,原始场景图片中标注有目标边界框;
损失函数构建模块用于以特征的监督信号构建目标搜索网络模型的整体损失函数;
训练判定模块用于当目标搜索网络模型的整体损失函数收敛时,则判定训练完毕目标搜索网络模型。
优选地,目标搜索网络模块包括聚类对比学习单元,用于聚类对比学习方法,具体执行过程如下:
将原始场景图片和目标边界框输入至目标搜索网络模型,经过搜索分支和实例分支分别提取目标的搜索特征和实例特征;
顺次计算所有批次中目标的搜索特征和实例特征的平均值,存入记忆池;
对记忆池中的特征进行非参数化的聚类;
聚类后为每个特征分配一个伪标签,计算聚类层面的对比损失特征的监督信号;
结合检测过程中的损失函数,构建目标搜索网络模型的整体损失函数。
优选地,目标搜索网络模块还包括实例一致性学习单元,用于采用实例一致性学习构建特征的监督信号以训练目标搜索网络模型,具体执行过程如下:
将原始场景图片和目标边界框输入至目标搜索网络模型,经过搜索分支和实例分支分别提取目标的搜索特征和实例特征;
基于目标的搜索特征和实例特征,建立基于实例本身的一致性损失函数和基于实例间相似性的一致性损失函数;
将基于实例本身的一致性损失函数、基于实例间相似性的一致性损失函数、聚类层面的对比损失特征以及检测过程中的损失函数结合,构建目标搜索网络模型的整体损失函数。
优选地,目标搜索网络模型的整体损失函数为:
L=Lins+Lint+Lclu+Lde
其中,Lde为检测过程中的损失;Lclu为聚类层面的对比损失;Lint为基于实例间相似性的一致性损失函数;Lins为基于实例本身的一致性损失函数;
Lint=DKL(Sa||Sb)+DKL(Sb||Sa)
其中,(i=1…K)代表各个正样本对的相似度,(j=1…J)代表负样本对的相似度;γ是比例系数,一般设为16;和(i=1,2,……,B)分别表示目标的搜索特征和实例特征;B表示每个训练批次中目标的个数;DKL为Kullback-Leibler散度;Sa和Sb分别表示搜索分支和实例分支中的相似性矩阵。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,具有以下有益效果:
本发明在训练目标搜索网络模型时,输入的原始场景图片中只需要标注目标边界框,采用目标搜索网络可以实现对目标的识别,主要归因于基于弱监督场景下的目标搜索网络分为搜索分支和实例分支,搜索分支以原始场景图片和目标边界框为输入,并联合训练检测和重识别任务;实例分支的以原始场景图片中裁剪后的若干目标图片和目标边界框为输入,训练重识别任务;采用聚类对比学习方法,可以构建特征的监督信号,从而可以训练出鲁棒性极好的目标搜索网络,可以提升目标搜索的准确性,从中可以看出,本发明降低了对数据的要求,不需要使用目标的身份信息,也可以实现目标搜索,扩充了训练目标搜索网络的数据库。
本发明提供的聚类对比学习方法以训练目标搜索网络模型,构建聚类层面的对比损失特征,使得目标搜索网络模型能够将相似的目标特征聚在一起,不同的目标特征之间互相分离,从而实现目标搜索网络模型在对目标类别进行判定时在可分离性和聚合性之间能够达到平衡。
本发明提供的基于实例的一致性学习以训练目标搜索网络模型,包括基于实例自身的一致性损失函数以及基于实例间相似性的一致性损失函数,主要目标是缩小两个分支中相同目标特征的差异性,从而使同类特征之间更加紧凑。
附图说明
图1是本发明实施例提供的一种基于弱监督场景的目标搜索方法流程图;
图2是本发明实施例提供的一种基于弱监督场景的行人搜索方法的深度神经网络结构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
一方面,本发明提供了一种基于弱监督场景的目标搜索方法,包括以下步骤:
将待搜索图像和图像库输入至训练完毕的弱监督下的目标搜索网络模型中,得到待搜索图像目标特征和图像库中所有目标特征;
计算待搜索图像目标特征与所述图像库中所有目标特征之间的相似度,获取待搜索图像的匹配结果;
其中,训练目标搜索网络模型的方法,包括以下步骤:
(1)构建基于弱监督场景下的目标搜索网络模型的框架;
将目标搜索网络分为搜索分支和实例分支,两者的卷积神经网络参数共享;
(2)将原始场景图片以及图片中目标边界框作为弱监督场景下的目标搜索网络模型的输入,采用基于实例的一致性学习和聚类对比学习方法,构建特征的监督信号以训练目标搜索网络模型;其中,特征包括实例特征和搜索特征;
其中,搜索分支以原始场景图片和目标边界框为输入,并联合训练检测和重识别任务;实例分支的以原始场景图片中裁剪后的若干目标图片和目标边界框为输入,训练重识别任务;其中,原始场景图片中标注有目标边界框;
(3)以特征的监督信号构建目标搜索网络模型的整体损失函数,当目标搜索网络模型的整体损失函数收敛时,则判定训练完毕目标搜索网络模型。
优选地,聚类对比学习方法,具体包括如下步骤:
将原始场景图片和目标边界框输入至目标搜索网络模型,经过搜索分支和实例分支分别提取目标的搜索特征和实例特征;
顺次计算所有批次中目标的搜索特征和实例特征的平均值,存入记忆池;
对记忆池中的特征进行非参数化的聚类;
聚类后为每个特征分配一个伪标签,计算聚类层面的对比损失特征的监督信号;
结合检测过程中的损失函数,构建目标搜索网络模型的整体损失函数。
优选地,训练弱监督网络模型还包括采用实例一致性学习构建特征的监督信号以训练目标搜索网络模型,具体包括以下步骤:
将原始场景图片和目标边界框输入至目标搜索网络模型,经过搜索分支和实例分支分别提取目标的搜索特征和实例特征;
基于目标的搜索特征和实例特征,建立基于实例本身的一致性损失函数和基于实例间相似性的一致性损失函数;
将基于实例本身的一致性损失函数、基于实例间相似性的一致性损失函数、聚类层面的对比损失特征以及检测过程中的损失函数结合,构建目标搜索网络模型的整体损失函数。
优选地,目标搜索网络模型的整体损失函数为:
L=Lins+Lint+Lclu+Lde
其中,Lde为检测过程中的损失;Lclu为聚类层面的对比损失;Lint为基于实例间相似性的一致性损失函数;Lins为基于实例本身的一致性损失函数;
Lint=DKL(Sa||Sb)+DKL(Sb||Sa)
其中,(i=1…K)代表各个正样本对的相似度,(j=1…J)代表负样本对的相似度,通过成对行人特征之间计算余弦相似度得到;γ是比例系数,一般设为16;和(i=1,2,……,B)分别表示目标的搜索特征和实例特征;B表示每个训练批次中目标的个数;DKL为Kullback-Leibler散度;Sa和Sb分别表示搜索分支和实例分支中的相似性矩阵。相似性矩阵代表同一训练批次内,所有目标特征之间的余弦相似度。
另一方面,本发明提供了一种基于弱监督场景的目标搜索装置,包括:目标搜索网络模块、匹配模块、模型框架构建模块、损失函数构建模块和训练判定模块;
目标搜索网络模块用于将待搜索图像和图像库输入至训练完毕的弱监督下的目标搜索网络模型中,得到待搜索图像目标特征和图像库中所有目标特征;
且将原始场景图片以及图片中目标边界框作为弱监督场景下的目标搜索网络模型的输入,采用基于实例的一致性学习和聚类对比学习方法,构建特征的监督信号以训练目标搜索网络模型;其中,特征包括实例特征和搜索特征;
匹配模块用于计算待搜索图像目标特征与所述图像库中所有目标特征之间的相似度,获取待搜索图像的匹配结果;
模型框架构建模块用于构建基于弱监督场景下的目标搜索网络模型的框架,将目标搜索网络分为搜索分支和实例分支,两者的卷积神经网络参数共享;
其中,搜索分支以原始场景图片和目标边界框为输入,并联合训练检测和重识别任务;实例分支的以原始场景图片中裁剪后的若干目标图片和目标边界框为输入,训练重识别任务;其中,原始场景图片中标注有目标边界框;
损失函数构建模块用于以特征的监督信号构建目标搜索网络模型的整体损失函数;
训练判定模块用于当目标搜索网络模型的整体损失函数收敛时,则判定训练完毕目标搜索网络模型。
优选地,目标搜索网络模块包括聚类对比学习单元,用于聚类对比学习方法,具体执行过程如下:
将原始场景图片和目标边界框输入至目标搜索网络模型,经过搜索分支和实例分支分别提取目标的搜索特征和实例特征;
顺次计算所有批次中目标的搜索特征和实例特征的平均值,存入记忆池;
对记忆池中的特征进行非参数化的聚类;
聚类后为每个特征分配一个伪标签,计算聚类层面的对比损失特征的监督信号;
结合检测过程中的损失函数,构建目标搜索网络模型的整体损失函数。
优选地,目标搜索网络模块还包括实例一致性学习单元,用于采用实例一致性学习构建特征的监督信号以训练目标搜索网络模型,具体执行过程如下:
将原始场景图片和目标边界框输入至目标搜索网络模型,经过搜索分支和实例分支分别提取目标的搜索特征和实例特征;
基于目标的搜索特征和实例特征,建立基于实例本身的一致性损失函数和基于实例间相似性的一致性损失函数;
将基于实例本身的一致性损失函数、基于实例间相似性的一致性损失函数、聚类层面的对比损失特征以及检测过程中的损失函数结合,构建目标搜索网络模型的整体损失函数。
优选地,目标搜索网络模型的整体损失函数为:
L=Lins+Lint+Lclu+Lde
其中,Lde为检测过程中的损失;Lclu为聚类层面的对比损失;Lint为基于实例间相似性的一致性损失函数;Lins为基于实例本身的一致性损失函数;
Lint=DKL(Sa||Sb)+DKL(Sb||Sa)
其中,(i=1…K)代表各个正样本对的相似度,(j=1…J)代表负样本对的相似度;γ是比例系数,一般设为16;和(i=1,2,……,B)分别表示目标的搜索特征和实例特征;B表示每个训练批次中目标的个数;DKL为Kullback-Leibler散度;Sa和Sb分别表示搜索分支和实例分支中的相似性矩阵。
实施例
如图1所示,本实施例提供了一种基于弱监督场景的目标搜索方法,包括以下步骤:
(1)对弱监督场景下的目标搜索进行设置;
标注大规模数据集中的目标身份是非常困难并且耗时的,不用于现有技术需要人工标注目标所在检测框以及目标的身份信息,本实施例提供了在弱监督场景下的目标搜索,只利用检测框的标注信息以训练网络;
(2)构建弱监督场景下的目标搜索网络模型的框架;
如图2所示,该目标搜索网络框架共包含两个分支,即搜索分支和实例分支;其中,两个分支中的卷积神经网络是参数共享的;搜索分支以原始场景图片为输入,并联合训练检测和重识别任务;实例分支的输入是原始场景图片中裁剪后的若干目标图片,只训练重识别任务;
具体地,本实施例采用Reppoints作为网络主干,其中检测模块是Reppoints中的多分类和回归网络;由于检测目标为特定一目标,修改Reppoints中的多分类为二分类;
对于搜索分支,其输入是原始场景图片;为了得到每一个目标的特征,基于卷积神经网络的输出,利用RoI align提取每一个目标边界框对应区域的搜索特征,作为目标特征;在这一分支中,需要对搜索特征进行联合训练检测和重识别任务;
对于实例分支,其输入为原始场景图片中裁剪后的若干目标图片,调整输入图片的宽高后输入卷积神经网络进行特征提取,得到每一个目标的实例特征表达;在这一分支中,只需要对实例特征施加重识别损失;
(3)将原始场景图片以及图片中目标边界框作为弱监督场景下的目标搜索网络模型的输入,构建特征的监督信号以训练目标搜索网络模型框架;其中,特征包括实例特征和搜索特征;
将原始场景图片以及图片中目标的边界框作为弱监督场景下的目标搜索网络框架的输入;由于弱监督场景下没有目标身份信息,基本思想是将每个目标视为一类进行训练;在此之上,提出两种方式构建对特征的监督信号,分别为基于实例的一致性学习、基于聚类的对比学习以训练整个目标搜索网络框架;
具体地,为了约束同类特征之间的紧凑性,主要目标是缩小两个分支中相同目标特征的差异性(实例特征和搜索特征的差异性),本实施例采用基于实例的一致性学习以训练目标搜索网络框架,包括两个损失函数以约束特征一致性,具体为:
(3-2)建立基于实例本身的一致性损失函数Lins,即对于每一个目标,约束两分支输出特征保持相似;
(3-3)建立基于实例间相似性的一致性损失函数Lint,即对于每一个分支,计算训练批次内所有目标之间的相似性矩阵,约束两个分支相似性矩阵之间的分布趋近一致;
Lint=DKL(Sa||Sb)+DKL(Sb||Sa)
其中,DKL为Kullback-Leibler散度;Sa和Sb分别表示搜索分支和实例分支中的相似性矩阵;
(3-4)目标搜索作为细粒度任务,仅将每个目标视为一类进行训练是不易优化的;为了在可分离性和聚合性之间达到平衡,本实施例采用基于聚类的对比学习,使网络框架能够将相似的目标特征聚在一起,不同的目标特征之间相互分离,具体过程如下:
(3-4-1)初始化一个记忆池,提取所有目标特征存入记忆池,每个目标为一类;这里的目标特征是两个分支目标特征(目标的搜索特征和实例特征)的平均值,表示为f;训练过程中,用最新训练批次中的目标特征以更新记忆池;
(3-4-2)在每次完成整个数据集训练之后,对记忆池中的特征进行非参数化的聚类;
假设现在构造一个邻接矩阵(初始化为全0);如果想要聚合两个样本,即A(i,j)=1,需要满足两个条件:(a)或或其中代表i的最近邻;(b)i和j来自不同的原始图片;因为一张原始场景中的目标必然属于不同的类别;
(3-4-3)聚类之后,每个样本均被分配伪标签,则可以计算聚类层面的对比损失Lclu,约束每一个正样本对的相似性大于负样本对;
综上所述,结合检测过程中的损失函数Lde,整个目标搜索网络模型训练过程中的整体损失函数为:
L=Lins+Lint+Lclu+Lde
(4)将待搜索图像和图像库输入训练完毕的弱监督网络模型中,得到待搜索图像目标特征和图像库中所有目标特征,计算待搜索图像目标特征与图像库中所有目标特征之间的相似度,获得待搜索图像的匹配结果。
综上所述,本发明与现有技术相比,存在以下优势:
本发明在训练目标搜索网络模型时,输入的原始场景图片中只需要标注目标边界框,采用目标搜索网络可以实现对目标的识别,主要归因于基于弱监督场景下的目标搜索网络分为搜索分支和实例分支,搜索分支以原始场景图片和目标边界框为输入,并联合训练检测和重识别任务;实例分支的以原始场景图片中裁剪后的若干目标图片和目标边界框为输入,训练重识别任务;采用聚类对比学习方法,可以构建特征的监督信号,从而可以训练出鲁棒性极好的目标搜索网络,可以提升目标搜索的准确性,从中可以看出,本发明降低了对数据的要求,不需要使用目标的身份信息,也可以实现目标搜索,扩充了训练目标搜索网络的数据库。
本发明提供的聚类对比学习方法以训练目标搜索网络模型,构建聚类层面的对比损失特征,使得目标搜索网络模型能够将相似的目标特征聚在一起,不同的目标特征之间互相分离,从而实现目标搜索网络模型在对目标类别进行判定时在可分离性和聚合性之间能够达到平衡。
本发明提供的基于实例的一致性学习以训练目标搜索网络模型,包括基于实例自身的一致性损失函数以及基于实例间相似性的一致性损失函数,主要目标是缩小两个分支中相同目标特征的差异性,从而使同类特征之间更加紧凑。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种基于弱监督场景的目标搜索方法,其特征在于,包括以下步骤:
将待搜索图像和图像库输入至训练完毕的弱监督下的目标搜索网络模型中,得到待搜索图像目标特征和图像库中所有目标特征;
计算所述待搜索图像目标特征与所述图像库中所有目标特征之间的相似度,获取待搜索图像的匹配结果;
其中,训练目标搜索网络模型的方法,包括以下步骤:
(1)构建基于弱监督场景下的目标搜索网络模型的框架;
将目标搜索网络分为搜索分支和实例分支,两者的卷积神经网络参数共享;
(2)将原始场景图片以及图片中目标边界框作为弱监督场景下的目标搜索网络模型的输入,采用基于实例的一致性学习和聚类对比学习方法,构建特征的监督信号以训练目标搜索网络模型;其中,特征包括实例特征和搜索特征;
其中,搜索分支以原始场景图片和目标边界框为输入,并联合训练检测和重识别任务;实例分支的以原始场景图片中裁剪后的若干目标图片和目标边界框为输入,训练重识别任务;其中,原始场景图片中标注有目标边界框;
(3)以特征的监督信号构建目标搜索网络模型的整体损失函数,当目标搜索网络模型的整体损失函数收敛时,则判定训练完毕目标搜索网络模型。
2.根据权利要求1所述的目标搜索方法,其特征在于,所述聚类对比学习方法,具体包括如下步骤:
将原始场景图片和目标边界框输入至目标搜索网络模型,经过搜索分支和实例分支分别提取目标的搜索特征和实例特征;
顺次计算所有批次中目标的搜索特征和实例特征的平均值,存入记忆池;
对记忆池中的特征进行非参数化的聚类;
聚类后为每个特征分配一个伪标签,计算聚类层面的对比损失特征的监督信号;
结合检测过程中的损失函数,构建目标搜索网络模型的整体损失函数。
3.根据权利要求1或2所述的目标搜索方法,其特征在于采用基于实例一致性学习构建特征的监督信号以训练目标搜索网络模型,具体包括以下步骤:
将原始场景图片和目标边界框输入至目标搜索网络模型,经过搜索分支和实例分支分别提取目标的搜索特征和实例特征;
基于目标的搜索特征和实例特征,建立基于实例本身的一致性损失函数和基于实例间相似性的一致性损失函数;
将基于实例本身的一致性损失函数、基于实例间相似性的一致性损失函数、聚类层面的对比损失特征以及检测过程中的损失函数结合,构建目标搜索网络模型的整体损失函数。
4.根据权利要求3所述的目标搜索方法,其特征在于,所述目标搜索网络模型的整体损失函数为:
L=Lins+Lint+Lclu+Lde
其中,Lde为检测过程中的损失;Lclu为聚类层面的对比损失;Lint为基于实例间相似性的一致性损失函数;Lins为基于实例本身的一致性损失函数;
Lint=DKL(Sa||Sb)+DKL(Sb||Sa)
5.一种基于弱监督场景的目标搜索装置,其特征在于,包括:目标搜索网络模块、匹配模块、模型框架构建模块、损失函数构建模块和训练判定模块;
所述目标搜索网络模块用于将待搜索图像和图像库输入至训练完毕的弱监督下的目标搜索网络模型中,得到待搜索图像目标特征和图像库中所有目标特征;
且将原始场景图片以及图片中目标边界框作为弱监督场景下的目标搜索网络模型的输入,采用基于实例的一致性学习和聚类对比学习方法,构建特征的监督信号以训练目标搜索网络模型;其中,特征包括实例特征和搜索特征;
所述匹配模块用于计算待搜索图像目标特征与所述目标图像目标特征之间的相似度,获取待搜索图像的匹配结果;
所述模型框架构建模块用于构建基于弱监督场景下的目标搜索网络模型的框架,将目标搜索网络分为搜索分支和实例分支,两者的卷积神经网络参数共享;
其中,搜索分支以原始场景图片和目标边界框为输入,并联合训练检测和重识别任务;实例分支的以原始场景图片中裁剪后的若干目标图片和目标边界框为输入,训练重识别任务;其中,原始场景图片中标注有目标边界框;
所述损失函数构建模块用于以特征的监督信号构建目标搜索网络模型的整体损失函数;
所述训练判定模块用于当目标搜索网络模型的整体损失函数收敛时,则判定训练完毕目标搜索网络模型。
6.根据权利要求5所述的目标搜索装置,其特征在于,所述目标搜索网络模块包括聚类对比学习单元,用于聚类对比学习方法,具体执行过程如下:
将原始场景图片和目标边界框输入至目标搜索网络模型,经过搜索分支和实例分支分别提取目标的搜索特征和实例特征;
顺次计算所有批次中目标的搜索特征和实例特征的平均值,存入记忆池;
对记忆池中的特征进行非参数化的聚类;
聚类后为每个特征分配一个伪标签,计算聚类层面的对比损失特征的监督信号;
结合检测过程中的损失函数,构建目标搜索网络模型的整体损失函数。
7.根据权利要求5或6所述的目标搜索装置,其特征在于,所述目标搜索网络模块还包括实例一致性学习单元,用于采用实例一致性学习构建特征的监督信号以训练目标搜索网络模型,具体执行过程如下:
将原始场景图片和目标边界框输入至目标搜索网络模型,经过搜索分支和实例分支分别提取目标的搜索特征和实例特征;
基于目标的搜索特征和实例特征,建立基于实例本身的一致性损失函数和基于实例间相似性的一致性损失函数;
将基于实例本身的一致性损失函数、基于实例间相似性的一致性损失函数、聚类层面的对比损失特征以及检测过程中的损失函数结合,构建目标搜索网络模型的整体损失函数。
8.根据权利要求7所述的目标搜索装置,其特征在于,所述目标搜索网络模型的整体损失函数为:
L=Lins+Lint+Lclu+Lde
其中,Lde为检测过程中的损失;Lclu为聚类层面的对比损失;Lint为基于实例间相似性的一致性损失函数;Lins为基于实例本身的一致性损失函数;
Lint=DKL(Sa||Sb)+DKL(Sb||Sa)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110943651.4A CN113743251B (zh) | 2021-08-17 | 2021-08-17 | 一种基于弱监督场景的目标搜索方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110943651.4A CN113743251B (zh) | 2021-08-17 | 2021-08-17 | 一种基于弱监督场景的目标搜索方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113743251A true CN113743251A (zh) | 2021-12-03 |
CN113743251B CN113743251B (zh) | 2024-02-13 |
Family
ID=78731399
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110943651.4A Active CN113743251B (zh) | 2021-08-17 | 2021-08-17 | 一种基于弱监督场景的目标搜索方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113743251B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114638322A (zh) * | 2022-05-20 | 2022-06-17 | 南京大学 | 开放场景下基于给定描述的全自动目标检测系统和方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018137358A1 (zh) * | 2017-01-24 | 2018-08-02 | 北京大学 | 基于深度度量学习的目标精确检索方法 |
CN109948425A (zh) * | 2019-01-22 | 2019-06-28 | 中国矿业大学 | 一种结构感知自注意和在线实例聚合匹配的行人搜索方法及装置 |
CN110533067A (zh) * | 2019-07-22 | 2019-12-03 | 杭州电子科技大学 | 基于深度学习的边框回归的端到端弱监督目标检测方法 |
WO2021077785A1 (zh) * | 2019-10-21 | 2021-04-29 | 华中科技大学 | 一种基于行人重识别驱动定位调整的行人搜索方法 |
-
2021
- 2021-08-17 CN CN202110943651.4A patent/CN113743251B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018137358A1 (zh) * | 2017-01-24 | 2018-08-02 | 北京大学 | 基于深度度量学习的目标精确检索方法 |
CN109948425A (zh) * | 2019-01-22 | 2019-06-28 | 中国矿业大学 | 一种结构感知自注意和在线实例聚合匹配的行人搜索方法及装置 |
CN110533067A (zh) * | 2019-07-22 | 2019-12-03 | 杭州电子科技大学 | 基于深度学习的边框回归的端到端弱监督目标检测方法 |
WO2021077785A1 (zh) * | 2019-10-21 | 2021-04-29 | 华中科技大学 | 一种基于行人重识别驱动定位调整的行人搜索方法 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114638322A (zh) * | 2022-05-20 | 2022-06-17 | 南京大学 | 开放场景下基于给定描述的全自动目标检测系统和方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113743251B (zh) | 2024-02-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110414368B (zh) | 一种基于知识蒸馏的无监督行人重识别方法 | |
CN108960140B (zh) | 基于多区域特征提取和融合的行人再识别方法 | |
CN111401281B (zh) | 基于深度聚类和样例学习的无监督行人重识别方法及系统 | |
CN107153817B (zh) | 行人重识别数据标注方法和装置 | |
CN104599275B (zh) | 基于概率图模型的非参数化的rgb-d场景理解方法 | |
CN112232241B (zh) | 一种行人重识别方法、装置、电子设备和可读存储介质 | |
CN109801265B (zh) | 一种基于卷积神经网络的实时输电设备异物检测系统 | |
CN111639564B (zh) | 一种基于多注意力异构网络的视频行人重识别方法 | |
CN115294150A (zh) | 一种图像处理方法和终端设备 | |
CN109919084A (zh) | 一种基于深度多索引哈希的行人重识别方法 | |
CN114548256A (zh) | 一种基于对比学习的小样本珍稀鸟类识别方法 | |
CN115719475A (zh) | 一种基于深度学习的三阶段轨旁设备故障自动检测方法 | |
CN113743251B (zh) | 一种基于弱监督场景的目标搜索方法及装置 | |
CN114972952A (zh) | 一种基于模型轻量化的工业零部件缺陷识别方法 | |
CN114782752A (zh) | 基于自训练的小样本图像集成分类方法及装置 | |
CN111814760B (zh) | 人脸识别方法及系统 | |
CN113553975A (zh) | 基于样本对关系蒸馏的行人重识别方法、系统、设备及介质 | |
CN117152459A (zh) | 图像检测方法、装置、计算机可读介质及电子设备 | |
CN107609586A (zh) | 一种基于自我监督的视觉表征学习方法 | |
CN111539362A (zh) | 一种无人机图像目标检测装置及方法 | |
CN116229511A (zh) | 基于金丝猴躯干特征提取的身份重识别方法 | |
CN116958729A (zh) | 对象分类模型的训练、对象分类方法、装置及存储介质 | |
CN115984647A (zh) | 面向星群的遥感分布式协同推理方法、装置、介质和卫星 | |
CN112818837B (zh) | 一种基于姿态校正和困难样本感知的航拍车辆重识别方法 | |
CN114639076A (zh) | 目标对象检测方法、装置、存储介质以及电子装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |