CN113743251A

CN113743251A - 一种基于弱监督场景的目标搜索方法及装置

Info

Publication number: CN113743251A
Application number: CN202110943651.4A
Authority: CN
Inventors: 桑农; 韩楚楚; 邵远杰; 高常鑫
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2021-08-17
Filing date: 2021-08-17
Publication date: 2021-12-03
Anticipated expiration: 2041-08-17
Also published as: CN113743251B

Abstract

本发明提供了一种基于弱监督场景的目标搜索方法及装置，属于人工智能目标搜索领域，方法包括：将待搜索图像和图像库输入至目标搜索网络模型中，得到待搜索图像目标特征和图像库中所有目标特征；计算两者之间的相似度，获取待搜索图像的匹配结果。训练目标搜索网络模型的方法为：构建目标搜索网络模型的框架；将原始场景图片以及图片中目标边界框作为弱监督场景下的目标搜索网络模型的输入，采用基于实例的一致性学习和聚类对比学习方法，构建监督信号以训练目标搜索网络模型；以特征的监督信号构建目标搜索网络模型的整体损失函数，训练目标搜索网络模型。本发明不需要使用目标的身份信息，可以实现目标搜索，扩充了训练目标搜索网络的数据库。

Description

一种基于弱监督场景的目标搜索方法及装置

技术领域

本发明属于人工智能目标搜索领域，更具体地，涉及一种基于弱监督场景的目标搜索方法及装置。

背景技术

行人搜索是指给定一张包含待查询行人的图片，从图片库中将该行人检测并识别出来。共包括行人检测和行人重识别两个子任务。相比于行人重识别直接利用裁好的行人图片，行人搜索更加接近现实场景。

现有的行人搜索方法主要分为两大类。一类方法是通过共享行人检测和行人重识别网络的部分特征进行联合训练。例如，文章“Joint detection and identificationfeature learning for person search，Computer Vision and Pattern Recognition(CVPR)，2017IEEE Conference on.IEEE，2017：3376-3385”；另一类方法是分别进行检测和重识别，将两个任务端到端训练。

现有的行人搜索都是基于有监督的方法，即需要人工标注行人所在边界框以及行人的身份信息。然而标注大规模数据集中的行人身份是非常困难并且耗时的，即使是目前最常用的行人搜索数据集CUHK-SYSU，也只有72.7％的行人只标注了框，而没有身份信息。

发明内容

针对现有技术的缺陷，本发明的目的在于提供一种基于弱监督场景的目标搜索方法及装置，旨在解决现有的行人搜索方法需要的数据为行人所在边界框以及行人的身份信息，然而人工标注行人身份是非常困难并且耗时的，所以现有行人搜索方法可利用的数据比较少，导致基于有监督的行人搜索应用局限性较大，行人搜索的准确率较差的问题。

为实现上述目的，一方面，本发明提供了一种基于弱监督场景的目标搜索方法，包括以下步骤：

将待搜索图像和图像库输入至训练完毕的弱监督下的目标搜索网络模型中，得到待搜索图像目标特征和图像库中所有目标特征；

计算待搜索图像目标特征与所述图像库中所有目标特征之间的相似度，获取待搜索图像的匹配结果；

其中，训练目标搜索网络模型的方法，包括以下步骤：

(1)构建基于弱监督场景下的目标搜索网络模型的框架；

将目标搜索网络分为搜索分支和实例分支，两者的卷积神经网络参数共享；

(2)将原始场景图片以及图片中目标边界框作为弱监督场景下的目标搜索网络模型的输入，采用基于实例的一致性学习和聚类对比学习方法，构建特征的监督信号以训练目标搜索网络模型；其中，特征包括实例特征和搜索特征；

其中，搜索分支以原始场景图片和目标边界框为输入，并联合训练检测和重识别任务；实例分支的以原始场景图片中裁剪后的若干目标图片和目标边界框为输入，训练重识别任务；其中，原始场景图片中标注有目标边界框；

(3)以特征的监督信号构建目标搜索网络模型的整体损失函数，当目标搜索网络模型的整体损失函数收敛时，则判定训练完毕目标搜索网络模型。

优选地，聚类对比学习方法，具体包括如下步骤：

将原始场景图片和目标边界框输入至目标搜索网络模型，经过搜索分支和实例分支分别提取目标的搜索特征和实例特征；

顺次计算所有批次中目标的搜索特征和实例特征的平均值，存入记忆池；

对记忆池中的特征进行非参数化的聚类；

聚类后为每个特征分配一个伪标签，计算聚类层面的对比损失特征的监督信号；

结合检测过程中的损失函数，构建目标搜索网络模型的整体损失函数。

优选地，训练弱监督网络模型采用基于实例一致性学习构建特征的监督信号以训练目标搜索网络模型，具体包括以下步骤：

基于目标的搜索特征和实例特征，建立基于实例本身的一致性损失函数和基于实例间相似性的一致性损失函数；

将基于实例本身的一致性损失函数、基于实例间相似性的一致性损失函数、聚类层面的对比损失特征以及检测过程中的损失函数结合，构建目标搜索网络模型的整体损失函数。

优选地，目标搜索网络模型的整体损失函数为：

L＝L_ins+L_int+L_clu+L_de

其中，L_de为检测过程中的损失；L_clu为聚类层面的对比损失；L_int为基于实例间相似性的一致性损失函数；L_ins为基于实例本身的一致性损失函数；

L_int＝D_KL(S^a||S^b)+D_KL(S^b||S^a)

其中，

(i＝1…K)代表各个正样本对的相似度，

(j＝1…J)代表负样本对的相似度；γ是比例系数，一般设为16；

和

(i＝1,2,……,B)分别表示目标的搜索特征和实例特征；B表示每个训练批次中目标的个数；D_KL为Kullback-Leibler散度；S^a和S^b分别表示搜索分支和实例分支中的相似性矩阵。

另一方面，本发明提供了一种基于弱监督场景的目标搜索装置，包括：目标搜索网络模块、匹配模块、模型框架构建模块、损失函数构建模块和训练判定模块；

目标搜索网络模块用于将待搜索图像和目标图像输入至训练完毕的弱监督下的目标搜索网络模型中，得到待搜索图像目标特征和目标图像目标特征；

且将原始场景图片以及图片中目标边界框作为弱监督场景下的目标搜索网络模型的输入，采用基于实例的一致性学习和聚类对比学习方法，构建特征的监督信号以训练目标搜索网络模型；其中，特征包括实例特征和搜索特征；

匹配模块用于计算待搜索图像目标特征与所述目标图像目标特征之间的相似度，获取待搜索图像的匹配结果；

模型框架构建模块用于构建基于弱监督场景下的目标搜索网络模型的框架，将目标搜索网络分为搜索分支和实例分支，两者的卷积神经网络参数共享；

损失函数构建模块用于以特征的监督信号构建目标搜索网络模型的整体损失函数；

训练判定模块用于当目标搜索网络模型的整体损失函数收敛时，则判定训练完毕目标搜索网络模型。

优选地，目标搜索网络模块包括聚类对比学习单元，用于聚类对比学习方法，具体执行过程如下：

对记忆池中的特征进行非参数化的聚类；

优选地，目标搜索网络模块还包括实例一致性学习单元，用于采用实例一致性学习构建特征的监督信号以训练目标搜索网络模型，具体执行过程如下：

优选地，目标搜索网络模型的整体损失函数为：

L＝L_ins+L_int+L_clu+L_de

L_int＝D_KL(S^a||S^b)+D_KL(S^b||S^a)

其中，

(i＝1…K)代表各个正样本对的相似度，

和

总体而言，通过本发明所构思的以上技术方案与现有技术相比，具有以下有益效果：

本发明在训练目标搜索网络模型时，输入的原始场景图片中只需要标注目标边界框，采用目标搜索网络可以实现对目标的识别，主要归因于基于弱监督场景下的目标搜索网络分为搜索分支和实例分支，搜索分支以原始场景图片和目标边界框为输入，并联合训练检测和重识别任务；实例分支的以原始场景图片中裁剪后的若干目标图片和目标边界框为输入，训练重识别任务；采用聚类对比学习方法，可以构建特征的监督信号，从而可以训练出鲁棒性极好的目标搜索网络，可以提升目标搜索的准确性，从中可以看出，本发明降低了对数据的要求，不需要使用目标的身份信息，也可以实现目标搜索，扩充了训练目标搜索网络的数据库。

本发明提供的聚类对比学习方法以训练目标搜索网络模型，构建聚类层面的对比损失特征，使得目标搜索网络模型能够将相似的目标特征聚在一起，不同的目标特征之间互相分离，从而实现目标搜索网络模型在对目标类别进行判定时在可分离性和聚合性之间能够达到平衡。

本发明提供的基于实例的一致性学习以训练目标搜索网络模型，包括基于实例自身的一致性损失函数以及基于实例间相似性的一致性损失函数，主要目标是缩小两个分支中相同目标特征的差异性，从而使同类特征之间更加紧凑。

附图说明

图1是本发明实施例提供的一种基于弱监督场景的目标搜索方法流程图；

图2是本发明实施例提供的一种基于弱监督场景的行人搜索方法的深度神经网络结构图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

一方面，本发明提供了一种基于弱监督场景的目标搜索方法，包括以下步骤：

其中，训练目标搜索网络模型的方法，包括以下步骤：

(1)构建基于弱监督场景下的目标搜索网络模型的框架；

优选地，聚类对比学习方法，具体包括如下步骤：

对记忆池中的特征进行非参数化的聚类；

优选地，训练弱监督网络模型还包括采用实例一致性学习构建特征的监督信号以训练目标搜索网络模型，具体包括以下步骤：

优选地，目标搜索网络模型的整体损失函数为：

L＝L_ins+L_int+L_clu+L_de

L_int＝D_KL(S^a||S^b)+D_KL(S^b||S^a)

其中，

(i＝1…K)代表各个正样本对的相似度，

(j＝1…J)代表负样本对的相似度，通过成对行人特征之间计算余弦相似度得到；γ是比例系数，一般设为16；

和

(i＝1,2,……,B)分别表示目标的搜索特征和实例特征；B表示每个训练批次中目标的个数；D_KL为Kullback-Leibler散度；S^a和S^b分别表示搜索分支和实例分支中的相似性矩阵。相似性矩阵代表同一训练批次内，所有目标特征之间的余弦相似度。

目标搜索网络模块用于将待搜索图像和图像库输入至训练完毕的弱监督下的目标搜索网络模型中，得到待搜索图像目标特征和图像库中所有目标特征；

匹配模块用于计算待搜索图像目标特征与所述图像库中所有目标特征之间的相似度，获取待搜索图像的匹配结果；

对记忆池中的特征进行非参数化的聚类；

优选地，目标搜索网络模型的整体损失函数为：

L＝L_ins+L_int+L_clu+L_de

L_int＝D_KL(S^a||S^b)+D_KL(S^b||S^a)

其中，

(i＝1…K)代表各个正样本对的相似度，

和

实施例

如图1所示，本实施例提供了一种基于弱监督场景的目标搜索方法，包括以下步骤：

(1)对弱监督场景下的目标搜索进行设置；

标注大规模数据集中的目标身份是非常困难并且耗时的，不用于现有技术需要人工标注目标所在检测框以及目标的身份信息，本实施例提供了在弱监督场景下的目标搜索，只利用检测框的标注信息以训练网络；

(2)构建弱监督场景下的目标搜索网络模型的框架；

如图2所示，该目标搜索网络框架共包含两个分支，即搜索分支和实例分支；其中，两个分支中的卷积神经网络是参数共享的；搜索分支以原始场景图片为输入，并联合训练检测和重识别任务；实例分支的输入是原始场景图片中裁剪后的若干目标图片，只训练重识别任务；

具体地，本实施例采用Reppoints作为网络主干，其中检测模块是Reppoints中的多分类和回归网络；由于检测目标为特定一目标，修改Reppoints中的多分类为二分类；

对于搜索分支，其输入是原始场景图片；为了得到每一个目标的特征，基于卷积神经网络的输出，利用RoI align提取每一个目标边界框对应区域的搜索特征，作为目标特征；在这一分支中，需要对搜索特征进行联合训练检测和重识别任务；

对于实例分支，其输入为原始场景图片中裁剪后的若干目标图片，调整输入图片的宽高后输入卷积神经网络进行特征提取，得到每一个目标的实例特征表达；在这一分支中，只需要对实例特征施加重识别损失；

(3)将原始场景图片以及图片中目标边界框作为弱监督场景下的目标搜索网络模型的输入，构建特征的监督信号以训练目标搜索网络模型框架；其中，特征包括实例特征和搜索特征；

将原始场景图片以及图片中目标的边界框作为弱监督场景下的目标搜索网络框架的输入；由于弱监督场景下没有目标身份信息，基本思想是将每个目标视为一类进行训练；在此之上，提出两种方式构建对特征的监督信号，分别为基于实例的一致性学习、基于聚类的对比学习以训练整个目标搜索网络框架；

具体地，为了约束同类特征之间的紧凑性，主要目标是缩小两个分支中相同目标特征的差异性(实例特征和搜索特征的差异性)，本实施例采用基于实例的一致性学习以训练目标搜索网络框架，包括两个损失函数以约束特征一致性，具体为：

(3-1)首先将训练图片输入至目标搜索网络模型，经过搜索分支和实例分支分别提取目标的搜索特征和实例特征，分别表示为

和

(i＝1,2,……,B)；其中，B表示每个训练批次中目标的个数；

(3-2)建立基于实例本身的一致性损失函数L_ins，即对于每一个目标，约束两分支输出特征保持相似；

(3-3)建立基于实例间相似性的一致性损失函数L_int，即对于每一个分支，计算训练批次内所有目标之间的相似性矩阵，约束两个分支相似性矩阵之间的分布趋近一致；

L_int＝D_KL(S^a||S^b)+D_KL(S^b||S^a)

其中，D_KL为Kullback-Leibler散度；S^a和S^b分别表示搜索分支和实例分支中的相似性矩阵；

(3-4)目标搜索作为细粒度任务，仅将每个目标视为一类进行训练是不易优化的；为了在可分离性和聚合性之间达到平衡，本实施例采用基于聚类的对比学习，使网络框架能够将相似的目标特征聚在一起，不同的目标特征之间相互分离，具体过程如下：

(3-4-1)初始化一个记忆池，提取所有目标特征存入记忆池，每个目标为一类；这里的目标特征是两个分支目标特征(目标的搜索特征和实例特征)的平均值，表示为f；训练过程中，用最新训练批次中的目标特征以更新记忆池；

(3-4-2)在每次完成整个数据集训练之后，对记忆池中的特征进行非参数化的聚类；

假设现在构造一个邻接矩阵

(初始化为全0)；如果想要聚合两个样本，即A(i，j)＝1，需要满足两个条件：(a)

或

或

其中

代表i的最近邻；(b)i和j来自不同的原始图片；因为一张原始场景中的目标必然属于不同的类别；

(3-4-3)聚类之后，每个样本均被分配伪标签，则可以计算聚类层面的对比损失L_clu，约束每一个正样本对的相似性大于负样本对；

其中，

(i＝1…K)代表各个正样本对的相似度，

综上所述，结合检测过程中的损失函数L_de，整个目标搜索网络模型训练过程中的整体损失函数为：

L＝L_ins+L_int+L_clu+L_de

(4)将待搜索图像和图像库输入训练完毕的弱监督网络模型中，得到待搜索图像目标特征和图像库中所有目标特征，计算待搜索图像目标特征与图像库中所有目标特征之间的相似度，获得待搜索图像的匹配结果。

综上所述，本发明与现有技术相比，存在以下优势：

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于弱监督场景的目标搜索方法，其特征在于，包括以下步骤：

计算所述待搜索图像目标特征与所述图像库中所有目标特征之间的相似度，获取待搜索图像的匹配结果；

其中，训练目标搜索网络模型的方法，包括以下步骤：

(1)构建基于弱监督场景下的目标搜索网络模型的框架；

2.根据权利要求1所述的目标搜索方法，其特征在于，所述聚类对比学习方法，具体包括如下步骤：

对记忆池中的特征进行非参数化的聚类；

3.根据权利要求1或2所述的目标搜索方法，其特征在于采用基于实例一致性学习构建特征的监督信号以训练目标搜索网络模型，具体包括以下步骤：

4.根据权利要求3所述的目标搜索方法，其特征在于，所述目标搜索网络模型的整体损失函数为：

L＝L_ins+L_int+L_clu+L_de

L_int＝D_KL(S^a||S^b)+D_KL(S^b||S^a)

其中，

代表各个正样本对的相似度，

代表负样本对的相似度；γ是比例系数；f_i ^a和f_i ^b(i＝1，2，......，B)分别表示目标的搜索特征和实例特征；B表示每个训练批次中目标的个数；D_KL为Kullback-Leibler散度；S^a和S^b分别表示搜索分支和实例分支中的相似性矩阵。

5.一种基于弱监督场景的目标搜索装置，其特征在于，包括：目标搜索网络模块、匹配模块、模型框架构建模块、损失函数构建模块和训练判定模块；

所述目标搜索网络模块用于将待搜索图像和图像库输入至训练完毕的弱监督下的目标搜索网络模型中，得到待搜索图像目标特征和图像库中所有目标特征；

所述匹配模块用于计算待搜索图像目标特征与所述目标图像目标特征之间的相似度，获取待搜索图像的匹配结果；

所述模型框架构建模块用于构建基于弱监督场景下的目标搜索网络模型的框架，将目标搜索网络分为搜索分支和实例分支，两者的卷积神经网络参数共享；

所述损失函数构建模块用于以特征的监督信号构建目标搜索网络模型的整体损失函数；

所述训练判定模块用于当目标搜索网络模型的整体损失函数收敛时，则判定训练完毕目标搜索网络模型。

6.根据权利要求5所述的目标搜索装置，其特征在于，所述目标搜索网络模块包括聚类对比学习单元，用于聚类对比学习方法，具体执行过程如下：

对记忆池中的特征进行非参数化的聚类；

7.根据权利要求5或6所述的目标搜索装置，其特征在于，所述目标搜索网络模块还包括实例一致性学习单元，用于采用实例一致性学习构建特征的监督信号以训练目标搜索网络模型，具体执行过程如下：

8.根据权利要求7所述的目标搜索装置，其特征在于，所述目标搜索网络模型的整体损失函数为：

L＝L_ins+L_int+L_clu+L_de

L_int＝D_KL(S^a||S^b)+D_KL(S^b||S^a)

其中，

代表各个正样本对的相似度，