CN111723645A

CN111723645A - 用于同相机内有监督场景的多相机高精度行人重识别方法

Info

Publication number: CN111723645A
Application number: CN202010332673.2A
Authority: CN
Inventors: 王梦琳; 龚小谨; 赖百胜; 陈浩锟; 黄健强; 华先胜
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2020-04-24
Filing date: 2020-04-24
Publication date: 2020-09-29
Anticipated expiration: 2040-04-24
Also published as: CN111723645B

Abstract

本发明公开了一种用于同相机内有监督场景的多相机高精度行人重识别方法。在同一行人场景下采用多相机进行拍摄，选择基础网络模型并预训练后修改，采集获得待训练的行人图片集，建立针对各相机的行人记忆特征并初始化；基于已有的待训练的行人图片集，对基础网络模型进行同相机阶段的训练优化和监督；以训练后的行人记忆特征并结合采用聚类方法得到行人伪标签，用行人伪标签再对基础网络模型进行微调训练；对训练所得的基础网络模型进行跨相机行人重识别应用。本发明只需同个相机内图片标注场景下有效提高识别性能，达到与全监督场景下相当的重识别准确度，达到与全监督场景相当的行人重识别准确率。

Description

用于同相机内有监督场景的多相机高精度行人重识别方法

技术领域

本发明属于计算机视觉技术领域，尤其是涉及一种用于同相机内有监督场景的多相机高精度行人重识别方法。

背景技术

行人重识别要解决的问题是在不同的相机之间对同一个行人进行匹配；由于行人重识别在安防、监控、刑侦等方面的众多应用，这一任务在近几年吸引了工业界和学术界的广泛研究与关注。

虽然行人重识别任务取得了较大的发展，但目前行人重识别模型和方法的高性能依赖于大量的标注数据；在实际应用场景中，由于行人繁多复杂，数据量大，对数据集进行完全标注十分昂贵，代价较高，限制了行人重识别技术在实际生产生活中的应用。

在行人图片的标注过程中，最费时费力的往往是对跨相机行人的标注。而在同相机中，由于行人的轨迹大多在时间上具有连续性，对同一个相机下的行人进行行人标注是相对更为容易的。

这一场景最早被提出是在Zhu Xiangping等人发表在《Proceedings of the IEEEInternational Conference on Computer Vision Workshops》的《Intra-camerasupervised person re-行人entification:A new benchmark》文章中，这一场景假设行人编码标签是在每个相机内被独立标注的，而跨相机之间的行人关系未知。

由于只有同相机的行人标注信息，没有跨相机的行人关联信息，这一场景下的模型设计面临着一定的挑战，之前在这一场景下被提出的模型，如Zhu Xiangping等人发表在《Proceedings of the IEEE International Conference on Computer VisionWorkshops》的《Intra-camera supervised person re-行人entification:A newbenchmark》，以及Qi Lei等人发表在《arXiv:1908.05669》的《Progressive Cross-cameraSoft-label Learning for Semi-supervised Person Re-行人entification》，虽然取得了较好的模型性能，但与全监督相比仍存在较大的差距。

现有针对同相机内有监督场景的行人重识别方法，主要存在的问题是没有充分利用已知的同相机内标注信息，来设计高效的重识别模型，以及促进跨相机行人关联信息的有效挖掘，因而有待改进。

发明内容

为了解决背景技术中存在的问题，本发明提供了一种用于同相机内有监督场景的多相机高精度行人重识别方法，利用现有在全监督场景下性能较优的模型作为基础网络模型，在此基础上挖掘同相机内有监督场景的数据特点来设计方法，可有效提高模型在同相机内有监督场景下的性能，达到与全监督场景相当的行人重识别准确率。

本发明是针对只有同相机内标注信息的场景进行多相机(跨相机)图像行人识别处理。

本发明的技术方案如下：

(1)在同一行人场景下采用多相机进行拍摄，选择基础网络模型并预训练后修改，采集获得待训练的行人图片集，建立针对各相机的行人记忆特征并初始化；

(2)基于已有的待训练的行人图片集，对步骤(1)获得的基础网络模型进行同相机阶段的训练，训练过程使用ADAM优化算法，使用针对每个相机的交叉熵损失函数和所提出的五元组混合损失函数进行监督；

(3)以训练后的行人记忆特征并结合采用聚类方法得到行人伪标签，用行人伪标签再对基础网络模型进行微调训练，训练过程使用交叉熵损失函数和三元组损失函数进行监督；

(4)训练结束后，对训练所得的基础网络模型进行跨相机行人重识别应用，即采用这一个相机训练所得的基础网络模型结果对另一个相机所拍摄的图片进行行人重识别。

所述步骤(1)中，所述的基础网络模型采用ResNet50神经网络，通过标准图片集进行预训练获得训练后的基础网络模型，对训练后的基础网络模型保留除最后用于分类的全连接层之外的其余网络结构及参数，然后在最后增加一层用于特征映射的d维的全连接层，全连接层随机初始化；

多相机拍摄采集并同相机标注后获得具有同相机标注信息的行人图片集作为待训练的行人图片集，同相机标注信息是通过独立地对每个相机所拍摄的图片分别进行行人编码标注获得；

建立行人记忆特征为d×N大小的矩阵，初始化为全零矩阵，其中，N为待训练的行人图片集中单个相机所拍摄的所有图片中累积具有行人数量总和，d为用于特征映射的全连接层的维度，具体实施中d值选择2048。

所述的步骤(2)中，

(2.1)训练过程以小批次(mini-batch)的方式进行训练，每个小批次(mini-batch)中从待训练的行人图片集随机采样B张图片，B值选择64，B张图片中随机采样到P个行人，每个行人再对应随机采用有K张图片作为锚图片，每次训练获得图片特征f，以mini-batch内图片特征f来更新行人记忆特征；行人记忆特征更新公式为：

K[j]←μK[j]+(1-μ)f(x_i)

其中，K[j]是行人记忆特征的第j列，μ是更新速率，选择0.5；xi是第i张图片，j表示行人的序数，f(xi)是图片xi的特征，←表示赋值；

f(*)代表基础网络模型的最后一层全连接层输出。

(2.2)建立以下针对每个相机的交叉熵损失函数LIntra_ID为：

其中，C是多相机的总个数，Dc是第c个相机下所拍摄的图片总数，p(j|xi)表示图片xi中具有第j个行人的概率；

图片xi中具有第j个行人的概率p(j|xi)为：

其中，τ是尺度变换系数，具体实施选择0.067，exp(*)是指数函数，A是从第1个相机到第ci–1个相机所拍摄的所有图片中累积具有的总行人数量，ci是图片xi所在的相机，Nci是第ci个相机下所拍摄的所有图片中累积具有的行人数量；T表示矩阵转置，

表示行人记忆特征；

(2.3)建立以下五元组混合损失函数LIntra_Quint：

其中，

是锚图片

的同相机标注值，

是锚图片

所在相机，

是锚图片

所在相机下的行人总数，A的表示意义同上文(2.2)，A+j是第

个相机下的第j个行人的累积标注值；P是每个mini-batch中随机采样的行人个数，K是每个mini-batch中每个行人随机采样的图片个数，m1和m2是第一、第二间隔参数值，选择m1＝m2＝0.3，max(*)是取最大值函数，min(*)是取最小值函数，[*]₊代表Hinge铰链函数max(0,*)，||*||代表欧氏距离，g(*)代表基础网络模型中的GAP层输出，GAP层即全局平均池化层，xa、xp和xn分别是锚图片、锚图片的正样本、锚图片的负样本，f(*)代表基础网络模型的最后一层全连接层输出；

是每个mini-batch中任一张图片，称为锚图片，

是锚图片的正样本图片,是指在同一个mini-batch中，和

具有相同行人的图片。

是锚图片的负样本图片，是指同一个mini-batch中，和

具有不同行人的图片。

(2.4)根据交叉熵损失函数L_{intra_ID}为和五元组混合损失函数L_{Intra_Quint}相加获得第一总体损失函数为：

L_Intra＝L_{intra_ID}+L_{Intra_Quint}

在第一总体损失函数监督下使用ADAM优化算法训练并更新行人记忆特征。

所述的步骤(3)中具体为：

(3.1)根据步骤(2)训练所得的行人记忆特征，计算两两行人之间的距离dist(i,j)，公式为：

其中，K[i]和K[j]分别代表第i个行人的行人记忆特征和第j个行人的行人记忆特征，||*||代表欧氏距离；

(3.2)构建行人之间的无向图，其中无向图中每个结点代表一个行人，结点之间的边代表行人之间的距离，然后对无向图中的边进行筛选，仅保留前N个最短边中互为跨相机距离最近邻的边，舍弃其余边；

(3.3)再采用基于密度应用于有噪声场景的空间聚类算法(DBSCAN)对无向图中的结点进行聚类处理，一类中只有一个结点作为单元素类，其余的类均为非单元素类，找出无向图中的所有非单元素类，将每个非单元素类中结点对应的行人看作同一个行人，每个非单元素类赋予一个唯一编号作为伪标签；

(3.4)对经过步骤(2)训练后的基础网络模型再次进行修改，保留除最后用于特征映射的全连接层之外的其余网络结构及参数，然后在基础网络模型最后增加用于分类的C1维的全连接层并随机初始化，其中C1是行人伪标签的类别总数；

(3.5)以行人伪标签值作为真值监督模型代替同相机标注信息的行人编码后再对基础网络模型进行微调训练，训练过程使用交叉熵损失函数和三元组损失函数进行监督，第二总体损失函数LInter为：

L_Inter＝L_{inter_ID}+L_{Inter_Triplet}

其中，Linter_ID表示交叉熵损失函数，此交叉熵损失函数Linter_ID和步骤(2.2)中的相同，LInter_Triplet表示三元组损失函数。

所述(3.5)中的三元组损失函数具体为：

其中，P是每个mini-batch中随机采样的行人个数，K是每个mini-batch中每个行人随机采样的图片个数，m3是第三间隔参数值，选择m3＝0.3，max(*)是取最大值函数，min(*)是取最小值函数，[*]₊代表铰链(Hinge)函数max(0,*)，||*||代表欧氏距离，g(*)代表基础网络模型的全局平均池化层(GAP)层输出，

是每个mini-batch中任一张图片，称为锚图片；

是锚图片的正样本图片,是指在同一个mini-batch中，和

具有相同行人的图片；

是锚图片的负样本图片，是指同一个mini-batch中，和

具有不同行人的图片。

与现有方法相比，本发明具有以下优点：

1、本发明在模型的同相机训练阶段提出了针对每个相机的非参数化分类器，以及一个五元组混合损失函数；这一设计充分挖掘同相机内有监督场景的数据特点，同时有效利用了行人记忆特征的全局性；这些设计使得所提出的模型在经过同相机阶段训练之后，跨相机训练之前，即可超过现有其他在同相机有监督场景下所提出的方法性能。

2、本发明在模型的跨相机训练阶段提出了基于行人无向图的关联方式，在同相机训练阶段的基础上，该所提出关联策略可产生较为可信的伪标签结果，使得模型经过微调训练之后，进一步提升性能，从而达到与现有全监督方法相当的性能准确率；

3、本发明在三个公开的标准行人重识别数据集，包括Market-1501、DukeMTMC-re行人和MSMT17上，取得了较好的性能，验证了所提出方法的有效性。

本发明在只需要同个相机内图片标注的场景下，可有效提高模型的图像识别性能，达到与全监督场景下相当的重识别准确度。

附图说明

图1为本发明方法的流程示意图。

图2为本发明实施例中同相机&跨相机学习网络模型的结构示意图。

具体实施方式

下面结合附图和实施例对本发明做进一步详细描述，需要指出的是，以下所述实施例旨在便于对本发明的理解，而不对其起任何限定作用。

如图1所示，本发明的实施例及其实施过程如下：

S01，选择经预训练的基础网络模型，初始化各相机内行人记忆特征。

本实施例中，基础网络模型选择在行人重识别任务上常用的ResNet-50网络，且网络预先在大规模图像分类数据集(如ImageNet)上进行预训练。

具有同相机标注信息的行人图片集获得方式为：独立地在每个相机下进行标注，对于同个相机下的图片：具有相同行人的图片给予相同的行人标签，不同行人的图片给予不同的标签；在具体实施中，由于每个相机独立标注，实际同个行人在不同相机下的图片可能会标注为不同的标签；不同相机下的图片行人标签不具有直接的关联性。

S02，基于已知同相机内图片标签，对基础网络进行同相机阶段的训练。

如图2所示，同相机阶段的训练由输入图片集、特征提取基础网络和同相机学习这三个部分所构成。

如图2所示，特征提取基础网络是基础网络模型进行修改所得，由若干个顺序连接的由多个卷积层组成的卷积块(Conv-block)所构成；具体修改方式为：保留基础网络模型中，除最后全连接分类层之外的其余网络层及参数，作为特征提取基础网络。

如图2所示，同相机学习部分包括一个d维的全连接层和各相机内行人记忆特征；d维的全连接层连接在特征提取基础网络的最后一层之后，用于特征再映射，其输出特征用于更新各相机内行人记忆特征；各相机内行人记忆特征作为针对每个相机的非参数化分类器，标记为K，初始化为一个d x N大小的全零矩阵；其中，N为待训练行人图片集中每个相机内累积行人编码数量总和；d为权利要求4所述用于特征映射的全连接层维度，本实施例中d值选择2048。

训练过程以mini-batch方式进行训练，mini-batch方式是指图片集所有图片分批次进行训练，每次随机选择B张采样的图片作为一个mini-batch，其中B值在本实施例中选择64。

训练过程使用ADAM优化算法对网络模型进行参数更新；ADAM优化算法是随机梯度下降算法的变式，使用自适应学习率来更新网络参数；与随机梯度下降算法相似，ADAM优化算法也通过计算网络模型预测值与实际真值之间的误差，以链式法则来更新网络参数的梯度，进而更新网络参数值。

在训练过程中，每个mini-batch的图片首先经过特征提取基础网络以提取图片特征，然后经过增加的全连接层FC#2048进行特征再映射，再映射的特征一方面更新行人记忆特征，另一方面经过非参数化的分类器进行分类，并计算针对图片在对应相机下的交叉熵损失函数和五元组混合损失函数；损失函数作为网络误差值，用来作为ADAM优化算法的输入，更新网络参数值。

以mini-batch的图片特征更新各相机内行人记忆特征，并建立交叉熵损失函数和五元组混合损失函数构成总体损失函数进行优化监督。

S03，以训练后的行人记忆特征作为行人特征，基于所提出聚类方法得到行人伪标签；基于所得到行人伪标签，对基础网络进行微调训练。

如图1所示，S03由输入图片集、特征提取基础网络和跨相机学习这三个部分所构成。

跨相机学习部分，包括跨相机行人的关联与聚类、网络模型微调训练两个步骤。

所述跨相机行人的关联与聚类，步骤如下：

首先，根据S02训练所得行人记忆特征，计算两两行人之间的距离，计算公式为:

dist(i,j)＝||K[i]-K[j]||，

其中K[i]和K[j]分别代表第i个行人的记忆特征和第j个行人的记忆特征。||*||代表欧氏距离。

之后，构建行人之间的无向图，其中无向图中每个结点代表一个行人，结点之间的边代表行人之间的距离；对边进行筛选，保留前S个最短边中互为跨相机最近邻的边，其中S设为图片集中的同相机下标注行人数量N；之后基于DBSCAN聚类算法找出所构建无向图中的所有非单元素的连通分量，将每个非单元素连通分量中的行人看作同一个类别，给予相同伪标签；不同连通分量中的行人具有不同的伪标签。

所述跨相机行人的关联与聚类步骤可以获得行人伪标签，基于行人伪标签对网络模型进行微调训练过程为：

首先在特征提取网络最后一层后面增加随机初始化的C1维的全连接层用于分类，其中C1是行人伪标签的类别总数。

之后以行人伪标签值作为真值监督模型进行微调训练；在训练过程中，每个mini-batch的图片首先经过特征提取基础网络以提取图片特征，然后经过增加的C1维用于分类的全连接层FC#行人，对mini-batch图片进行分类；最后计算交叉熵损失函数和三元组损失函数；损失函数作为网络误差值，用来作为ADAM优化算法的输入，更新网络参数值。

微调训练的总体损失函数为：

LInter＝Linter_行人+LInter_Triplet

S04，训练结束，对训练所得基础网络模型进行行人重识别应用。

为验证本发明方法的有效性，本发明在三个公开的标准行人重识别数据集Market-1501,DukeMTMC-re行人和MSMT17上进行验证，与目前最前沿的行人重识别方法进行对比：

Market-1501数据集总共有来自1501个行人的32668张带有标注的图片，数据集总共有6个相机视角。

DukeMTMC-re行人总共有来自1404个行人的36411张带有标注的图片，数据集总共有8个相机视角。

MSMT17数据集总共有来自4101个行人的126441张带有标注的图片，数据集总共有15个相机视角；相比Market-1501和DukeMTMC-re行人数据集，MSMT17数据集行人数量更多，涵盖跨天的图片数据，因此在行人重识别难度上相对更大。

本发明主要以行人重识别中常用的两个评价指标：CMC和mAP来评估重识别准确度；实验主要包括两部分，第一部分是本发明中各个模块的控制变量实验，第二部分是本发明方法与目前最前沿的行人重识别方法进行对比实验。

第一部分：本发明中各个模块的控制变量实验，是为了说明本发明中各个模块的有效性；在Market-1501,DukeMTMC-re行人和MSMT17三个数据集上，不同的模型变式的评测结果如表1所示：

表1

表1中，M1-M5是不同形式的同相机学习模型，其中M1是一个多分支参数化分类网络模型，M2是一个忽略相机来源的非参数化分类器，M3是本发明所提出的针对每个相机的非参数化分类器，M4是在M3的基础上增加一个常见的三元组损失函数；M5是在M3的基础上增加本发明所提出的五元组混合损失函数，即本发明所提出的完整的同相机训练模型；M6是本发明所提出的完整模型，包括了同相机训练和跨相机微调训练；M7是全监督情况下的模型；

通过比较表1中M1-M3，可以体现本发明中所提出的针对每个相机的非参数化分类器的有效性；通过进一步比较表1中M4与M5，可以体现本发明中所提出的五元组混合损失函数的有效性；通过比较M5与M6，可以看出在同相机模型训练的基础上，跨相机的微调训练对于模型性能的有效提升作用；此外，对比M6和M7，可看到本发明的完整模型M6相比全监督的模型，在Market-1501,DukeMTMC-re行人两个数据集上是较为接近全监督时的模型性能的，说明本发明所提出方法在有限标注场景下的实用性。

第二部分：本发明方法与目前最前沿的行人重识别方法进行对比实验，以说明本发明相比目前最前沿行人重识别方法的有利性；评测结果如表2所示；这一部分实验中，主要与全监督(supervised)方法代表OSNet,DGNet,BoT,PCB、无监督(unsupervised)方法代表ECN,AE,BUC,UGA以及同相机内有监督场景(Intra-camera supervised)方法代表MTML,PCSL,ACAN进行了对比；所选择对比方法是在不同场景下目前最前沿的方法；Precise-ICS:M5(ours)是本发明提出方法经过同相机训练的模型，Precise-ICS:M6(ours)是本发明提出方法经过同相机训练和跨相机微调训练的模型。

表2

表2中，首先通过与无监督方法和同相机内有监督场景方法进行对比，可以看出本发明所提出方法在三个数据集上的性能均领先于当前性能最好方法；通过进一步与全监督方法进行对比，可以看出本发明所提出方法与全监督方法PCB的性能相当，同时接近其他全监督方法性能；在只有同相机内标注信息的情况下，本发明所提出方法达到了与全标注场景下的方法接近的性能，体现了本发明的实用性和有益性。

以上所述的实施例对本发明的技术方案和有益效果进行了详细说明，应理解的是以上所述仅为本发明的具体实施例，但并不是用来限制本发明，任何在本发明的原则范围内所进行的变动和修改，都应当包含在本发明的保护范围内。

Claims

1.一种用于同相机内有监督场景的多相机高精度行人重识别方法，其特征在于，方法包括：

(4)训练结束后，对训练所得的基础网络模型进行跨相机行人重识别应用。

2.根据权利要求1所述的一种用于同相机内有监督场景的多相机高精度行人重识别方法，其特征在于：所述步骤(1)中，所述的基础网络模型采用ResNet50神经网络，通过标准图片集进行预训练获得训练后的基础网络模型，对训练后的基础网络模型保留除最后用于分类的全连接层之外的其余网络结构及参数，然后在最后增加一层用于特征映射的d维的全连接层，全连接层随机初始化；多相机拍摄采集并同相机标注后获得具有同相机标注信息的行人图片集作为待训练的行人图片集，同相机标注信息是通过独立地对每个相机所拍摄的图片分别进行行人编码标注获得；建立行人记忆特征为d×N大小的矩阵，初始化为全零矩阵，其中，N为待训练的行人图片集中单个相机所拍摄的所有图片中累积具有行人数量总和，d为用于特征映射的全连接层的维度。

3.根据权利要求1所述的一种用于同相机内有监督场景的多相机高精度行人重识别方法，其特征在于：所述的步骤(2)中，

(2.1)训练过程以小批次的方式进行训练，每个小批次中从待训练的行人图片集随机采样B张图片，B张图片中随机采样到P个行人，每个行人再对应随机采用有K张图片作为锚图片，每次训练获得图片特征f，以mini-batch内图片特征f来更新行人记忆特征；行人记忆特征更新公式为：

K[j]←μK[j]+(1-μ)f(x_i)

其中，K[j]是行人记忆特征的第j列，μ是更新速率，xi是第i张图片，j表示行人的序数，f(xi)是图片xi的特征，←表示赋值；

(2.2)建立以下针对每个相机的交叉熵损失函数LIntra_ID为：

图片xi中具有第j个行人的概率p(j|xi)为：

其中，τ是尺度变换系数，exp(*)是指数函数，A是从第1个相机到第ci–1个相机所拍摄的所有图片中累积具有的总行人数量，ci是图片xi所在的相机，Nci是第ci个相机下所拍摄的所有图片中累积具有的行人数量；T表示矩阵转置，

表示行人记忆特征；

(2.3)建立以下五元组混合损失函数LIntra_Quint：

其中，

是锚图片

的同相机标注值，

是锚图片

所在相机，

是锚图片

所在相机下的行人总数，A+j是第

个相机下的第j个行人的累积标注值；m1和m2是第一、第二间隔参数值，max(*)是取最大值函数，min(*)是取最小值函数，[*]₊代表Hinge铰链函数max(0,*)，||*||代表欧氏距离，g(*)代表基础网络模型中的GAP层输出，xa、xp和xn分别是锚图片、锚图片的正样本、锚图片的负样本，f(*)代表基础网络模型的最后一层全连接层输出；

L_Intra＝L_{intra_ID}+L_{Intra_Quint}

4.根据权利要求1所述的一种用于同相机内有监督场景的多相机高精度行人重识别方法，其特征在于：

所述的步骤(3)中具体为：

(3.2)构建行人之间的无向图，其中无向图中每个结点代表一个行人，结点之间的边代表行人之间的距离，然后对无向图中的边进行筛选，仅保留前N个最短边中距离最近邻的边，舍弃其余边；

(3.5)以行人伪标签值代替同相机标注信息的行人编码后再对基础网络模型进行微调训练，训练过程使用交叉熵损失函数和三元组损失函数进行监督，第二总体损失函数LInter为：

L_Inter＝L_{inter_ID}+L_{Inter_Triplet}

其中，Linter_ID表示交叉熵损失函数，LInter_Triplet表示三元组损失函数。

5.根据权利要求1所述的一种用于同相机内有监督场景的多相机高精度行人重识别方法，其特征在于：所述(3.5)中的三元组损失函数具体为：

其中，P是每个mini-batch中随机采样的行人个数，K是每个mini-batch中每个行人随机采样的图片个数，m3是第三间隔参数值，max(*)是取最大值函数，min(*)是取最小值函数，[*]₊代表铰链(Hinge)函数max(0,*)，||*||代表欧氏距离，g(*)代表基础网络模型的全局平均池化层(GAP)层输出，

是每个mini-batch中任一张图片，称为锚图片；

是锚图片的正样本图片,是指在同一个mini-batch中，和

具有相同行人的图片；

是锚图片的负样本图片，是指同一个mini-batch中，和

具有不同行人的图片。