CN111814845A

CN111814845A - 一种基于多支流融合模型的行人重识别方法

Info

Publication number: CN111814845A
Application number: CN202010563309.7A
Authority: CN
Inventors: 黄德双; 李安东
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2020-03-26
Filing date: 2020-06-19
Publication date: 2020-10-23
Anticipated expiration: 2040-06-19
Also published as: CN111814845B

Abstract

本发明涉及一种基于多支流融合模型的行人重识别方法，该方法使用深度学习技术，对训练集图片进行翻转、裁剪、随机擦除等预处理操作，然后经过基本网络模型进行特征提取，在使用多个支流损失函数进行融合联合训练网络，在第一、二条支流使用胶囊网络从水平方向和垂直方向来提取不同位置切片的空间关系，第三条支流使用胶囊网络来学习所获得特征图不同通道间的相关关系，第四条支流用于学习全局特征，第五条支流用于进行相应的相似度度量，通过多个支流模型的融合，考虑了不同的分割区域之间的相互关系，能够有效获取水平方向的身体零件特征，进而使网络提取的特征更加有效。

Description

一种基于多支流融合模型的行人重识别方法

技术领域

本发明涉及计算机视觉领域，尤其是涉及一种基于多支流融合模型的行人重识别方法。

背景技术

行人重识别(Personre-identification)也称行人再识别，是利用相关计算机视觉技术从视角无重叠的摄像头中所获得判断是否存在指定行人的技术，是视频监控领域关键组成部分，最初是作为跨摄像头跟踪的子问题进行研究的。具体地，行人重识别就是在已知目标行人(probe)情况下自动在监控网络其他摄像头所获的图像库(galleryset)中找到尽可能与目标相似的行人并排序。首先计算出待查询图片和图像库中的每张图片的特征向量，之后计算出目标行人和图像库中的特征向量之间的距离，再根据距离大小按照由近到远的顺序进行排序从而得到候选列表，最终选择距离最小的行人类别作为结果返回。

由于实际行人数据采集的不可控，实际图片往往存在以下问题：(1)采集图片分辨率较低且光照条件可能存在较大差异；(2)行人的姿态变化和摄像头视角的变化；(3)可能存在的遮挡。上述问题都给行人重识别任务带来了巨大的挑战。

传统的行人重识别技术主要分为两个方面：特征表达和相似性度量。常用的特征主要包括颜色特征、纹理特征、形状特征以及更高层次的属性特征、行为语意特征等。而对于相似性度量，欧式距离最先被使用，随后一些有监督的相似性判别方法也被提出。

而随着深度学习的发展，基于深度学习模型的方法已经占据了行人重识别的领域，根据所提取的图像特征，可以分为基于全局特征(Global Feature)和基于局部特征(Local Feature)的方法。全局特征指的是整张图片的特征，通常利用卷积神经网络直接进行提取便可以获得全局特征，但是因为行人重识别问题的复杂性，仅仅使用全局特征难以得到一个好的效果，因此局部信息的提取非常重要。单纯的分割行人图片再进行局部信息的提取往往会受到行人姿态变换导致的特征不对齐以及遮挡等问题，而通过学习不同分割区域间的序列关系可以避免这些问题。然而，现有的行人重识别技术都会忽略水平方向的身体零件特征，进而无法得到有效的分辨结果。在这种背景下，开发一种能够有效利用不同方向上的局部信息以及之间的相关关系的行人重识别技术就显得尤为重要。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于多支流融合模型的行人重识别方法。

本发明的目的可以通过以下技术方案来实现：

一种基于多支流融合模型的行人重识别方法，包括如下步骤：

S1、对基准数据集的图片数据随机进行翻转、加噪声、自动裁剪、随机擦除的数据预处理操作。

S2、采用ResNet50作为基准网络模型，对基准网络模型进行训练。

S3、将步骤S1处理得到的图片数据输入优化及调整后的基准网络模型中，利用多个支流模型的损失函数的融合，联合训练基准网络模型。

S4、对提取出的特征分别两两计算欧式距离，并对计算的欧式距离进行排序，在候选集中选取与查询集中目标距离最近的图片作为识别结果。

将预处理得到的训练集图片输入到调整后且去掉全连接层的ResNet-50中进行特征提取，通过主体特征提取器得到特征图后，将特征图进行不同的重组操作，重组后的特征图分别送入各个支流模型，各个支流模型通过总损失函数监督模型训练。

各个支流模型包括五条基于胶囊网络的支流模型，第一条支流模型通过胶囊网络从水平方向提取特征图中不同位置切片的空间关系，第一条支流模型通过胶囊网络从垂直方向提取特征图中不同位置切片的空间关系，第三条支流通过胶囊网络学习所获得特征图中不同通道间的相关关系，第四条支流学习特征图的全局特征，第五条支流获取特征图中相应的相似度度量。

第一、二、三、四支流选取在线实例匹配损失作为多分类损失。第五条支流上采用改进的批量难样本损失获取三元组损失，即多支流融合模型通过一个三元组损失函数和四个在线实例匹配损失共同监督训练。

因此网络的总损失函数L_total的表达式为：

式中，λ_r为平衡各支流损失的权重参数，r＝1,2,3,4,5；

为第q个支流所对应的分类损失，q＝1,2,3,4，L_T-batch为批量难样本损失函数。

进一步地，在线实例匹配损失采用x表示批数据中有行人图像的特征，同时利用查询表存储所有类别的行人特征，在前向传播的过程中，计算出特征图批数据中样本和所有带标签行人的余弦相似度，在反向传播时，若目标对应的为第t类行人，则更新查询表对应的第t行，并进行归一化。类别是指每张行人图片对应一个行人id，具体如0,1,2,3，第t类也可以等效表达为行人id为t。特征向量x被视为第j类行人的概率p_j为：

其中，

为查询表第j列的转置，

为查询表第i列的转置，其中τ为概率分布平缓程度，Q和L分别为队列的大小和查询表的行数。

与现有技术相比，本发明具有以下优点：

一、本发明使用多个支流来进行不同方向上特征及其相互关系的提取，在第一、二条支流，本发明使用胶囊网络从水平方向和垂直方向来提取不同位置切片的相关关系。第三条支流则使用胶囊网络来学习所获得特征图不同通道间的相关关系，更多有效特征的提取可以增强整个模型的鲁棒性；

二、本发明使用多种损失来进行融合，其中前四条支流使用在线实例匹配损失作为多分类损失，其将小批量样本和所有标记以及未标记的样本进行比较，使得基础特征向量和目标样本相似，同时也将其推离其他样本，有利于分辨结果的准确度，同时最后一条支流使用三元组损失，在拉开类间距离的同时，拉近类内距离，使网络提出的特征更有效；

三、本发明方法通过对训练集图片通过添加不同种类的噪声、水平翻转，以及抽取一些图片进行自动裁剪和随机擦除操作，一方面可起到数据扩充的作用，另一方面可避免过拟合的发生，对现实数据中一些遮挡等数据起到一定作用，提高模型的泛化能力。

附图说明

图1为本发明实施例提供的一种基于多支流融合模型的行人重识别方法的网络整体框图；

图2为本发明实施例提供的一种基于多支流融合模型的的行人重识别方法中的网络训练流程图；

图3为本发明实施例提供的一种基于多支流融合模型的行人重识别方法的结果评估流程图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。显然，所描述的实施例是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都应属于本发明保护的范围。

实施例

首先定义一些说明需要使用的变量：

x表示批数据中有标签行人图像的特征；

y表示输入的行人图像的标签；

Q表示队列的大小；

L表示查询表的行数；

p_j表示特征向量x被视为第j类人的概率；

表示循环队列第k个类别的转置；

表示查询表第j列的转置；

τ表示概率分布的平缓程度；

R_j表示特征向量x被视为第j无标签行人的概率；

L_oim表示OIM损失；

L_T-batch表示难采样损失；

f(x)表示经过深度网络所提取出的图像特征；

D(x,y)表示x和y之间的距离；

λ_r(r＝1,2,3,4,5)表示平衡各支流损失的权重参数；

[x]+表示函数max(0,x)。

本发明涉及一种基于多支流融合模型的行人重识别方法，包括如下步骤：

步骤一、对基准数据集进行数据预处理，使用如下几种数据处理方式：

(1)在数据集中随机抽取若干图片进行水平翻转处理；

(2)在数据集中随机抽取若干图片加高斯、椒盐噪声处理；

(3)在数据集中随机抽取若干图片进行随机区域随机大小的擦除处理。

步骤二、在对数据集进行过相应的组织和上述的数据处理之后，将图片输入到卷积神经网络中(ResNet50)进行特征提取。

在Market1501数据集上，延用原始的数据集设置，训练集包含了751个行人12936张图片，测试集包含了750个行人19732张图片，实际训练时，使用分类损失和三元组方式进行联合训练，整体模型包括五个分支的特征学习结构。通过各个分支特征提取得到图片的特征向量，然后通过联合的损失进行网络训练，权重更新。

将图片输入到调整后且去掉全连接层的ResNet-50中进行特征提取，通过主体特征提取器得到特征图，再将特征图进行不同的重组操作，重组后的特征图分别送入各个支流模型。利用多支流融合模型对各分组的特征图进行不同支流的处理，获取各支流的分类损失，进而得到网络的总损失函数。

在第一、二条支流，本发明使用胶囊网络从水平方向和垂直方向来提取不同位置切片的空间关系，具体为将特征图分别沿着水平方向和垂直方向进行分割，之后送入胶囊网络进行不同位置的相关信息学习。具体的在主网络提取出特征图后，对于第一条支流，首先将提取到的特征图沿着垂直方向分割，之后选用1x1的卷积核对特征图进行降维，之后对特征图重组可以得到多个8维向量作为初始胶囊送入数字胶囊层。因绝大多数基于行人部件的算法都忽略了水平方向的身体零件特征，当遮挡出现在身体的左侧或右侧时，水平方向的零件特征可能会很有用，因此与支流一相对，对于支流二，首先将提取到的特征图沿着水平方向分割，之后选用1x1的卷积核对特征图进行降维，之后对特征图重组可以得到多个8维向量作为初始胶囊送入数字胶囊层，即最终第一、第二支流对应的胶囊网络能够分别提取垂直方向和水平方向上的特征相关关系。

第三条支流则使用胶囊网络来学习所获得特征图不同通道间特征相关性，来增强整个模型的鲁棒性。对于主网络所提取的特征图，首先采用1x1的卷积核进行降维，再进行池化操作，最终得到的处理后的特征图进行重组为32维的向量作为初始胶囊送入到数字胶囊层。

第四条支流本发明将特征图经过全局平均池化得到的向量送入到多分类损失层。

第五条支流本发明则将特征图经过全局平均池化得到的向量送入三元组损失层来增加模型的鲁棒性。

本发明的上述支流所用到的模型选取在线实例匹配损失(Online InstanceMatching，OIM)作为多分类损失，在线实例匹配损失是无参的，因此其梯度可以不用经过分类矩阵而直接作用在特征上。本发明使用x来表示批数据中行人图像的特征，同时用一个查询表(lookup table，LUT)来存储所有带标签的行人特征。在前向传播的过程中，计算出批数据中样本和所有带标签行人的余弦相似度，用来进行后续的行人概率计算，而在反向传播时，如果目标对应的为第t类行人(类别是指每张行人图片对应一个行人id，具体如0,1,2,3，第t类也可以等效表达为行人id为t)，则更新LUT对应的第t行所存储的行人特征v_t，并进行归一化。

v_t←γv_t(1-γ)x

其中γ为用来加速训练的超参，一般设置在0-1之间。

基于以上两种数据结构，特征向量x被视为第j类行人的概率为：

其中，

表示查询表第j列的转置，

表示查询表第i列的转置，其中τ控制了概率分布的平缓程度，τ越高，则概率分布越平缓，Q和L分别表示队列的大小和查询表的行数。

多分类损失的目标是最大化期望似然函数：L＝E_x[log p_t]；其中E_x表示对x求期望，p_t为特征向量x被视为第t类行人的概率。

其对于x的导数如下式所示：

式中，p_t为特征向量x被视为第t类行人的概率。

OIM损失有效的将小批量样本和所有标记以及未标记的样本进行比较，使得基础特征向量和目标样本相似，同时也将其推离其他样本。实际模型支流一，二，三，四均使用OIM损失来作为分类损失。

在第五个支流上则使用不同的采样难样本的方法可以得到不同改进的三元组损失。改进的批量难样本损失(batch-hard triplet loss)，具体来说，就是对每一个训练的所选取的批样本，随机挑选p个ID的行人，每个行人随机挑选k张不同的图片，这样一个batch中就有p*k张图片。之后对batch中的每一张图片，挑选相差最大的正样本的和相差最小的负样本的与这张图片一起作为三元组。同样的用a表示基准图片，p表示正样本图片，n表示负样本图片，则批量难样本损失可以表示为：

其中[x]₊＝max(x,0)，

表示批样本中第i个行人对应的第j张图片，f(x)表示经过深度网络所提取出的图像特征，D(x,y)表示x和y之间的距离，超参m同样约束正样本距离要小于负样本距离。

最终网络被一个三元组损失函数和四个OIM损失共同监督训练，网络的总损失函数可以表示为：

其中，λ_r(r＝1,2,3,4,5)表示平衡各支流损失的权重参数，

表示第q个支流所对应的分类损失。

步骤三、对提取出的特征分别两两计算欧式距离，并对计算的欧式距离进行排序，在候选集中选取与查询集中目标距离最近的图片作为识别结果。

本实施例以数据集Market1501为例，进行完成的阐述网络模型的训练过程以及测试过程。应当理解，此处所描述的具体实施例仅仅用以解释本发明，但本发明并不用于限定单一特例数据集。

数据组织——将Market1501数据集中751个ID行人共12936张图片作为训练数据，余下的19732张图片作为测试数据。其中测试数据又分为查询集(query)和候选集(galley)。查询集(query)中共3368张图片，750个行人ID的图片，每个行人最多6张(6个camera)，测试数据剩余图片作为候选集(galley)。

数据预处理——在训练数据中随机抽取若干张图片进行水平翻转、加噪声、随机擦除等处理。

网络训练——因为Market1501属于数据量比较大的行人数据集，故使用在ImageNet上预训练的网络模型进行提取，由于参数以及时间方面的考虑，使用ResNet50作为基准网络模型，使用Adam来进行算法优化，使用f_OIM作作为最后的行人特征描述符。

网络评估——对于查询集中以及候选集中的图片使用已经训练好的网络进行特征提取，对提出出来的特征分别两两计算欧式距离进行距离排序。在候选集中得到与查询集中目标距离相近的图片。

网络结果——通过评估计算，所提出的一种基于多支流融合模型的行人重识别方法在Market1501数据集上(不使用re-ranking)mAP为81.5，rank1为93.1，rank5为97.5。同时，在其他数据集上也取得了好的实验效果。

以上所述仅为本发明在Market1501数据集上的实施例而已，并不用以限制本发明，凡在本发明精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。任何熟悉本技术领域的工作人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于多支流融合模型的行人重识别方法，其特征在于，该方法包括下列步骤：

1)对基准数据集的图片数据随机进行翻转、加噪声、自动裁剪、随机擦除的数据预处理操作；

2)采用ResNet50作为基准网络模型，对基准网络模型进行训练；

3)将步骤1)处理得到的图片数据输入优化及调整后的基准网络模型中，利用多个支流模型的损失函数的融合，联合训练基准网络模型；

4)对提取出的特征分别两两计算欧式距离，并对计算的欧式距离进行排序，在候选集中选取与查询集中目标距离最近的图片作为识别结果。

2.根据权利要求1所述的一种基于多支流融合模型的行人重识别方法，其特征在于，步骤4)的具体内容为：

3.根据权利要求2所述的一种基于多支流融合模型的行人重识别方法，其特征在于，各个支流模型包括五条基于胶囊网络的支流模型，第一条支流模型通过胶囊网络从水平方向提取特征图中不同位置切片的空间关系，第一条支流模型通过胶囊网络从垂直方向提取特征图中不同位置切片的空间关系，第三条支流通过胶囊网络学习所获得特征图中不同通道间的相关关系，第四条支流学习特征图的全局特征，第五条支流获取特征图中相应的相似度度量。

4.根据权利要求2所述的一种基于多支流融合模型的行人重识别方法，其特征在于，第一、二、三、四支流选取在线实例匹配损失作为多分类损失。

5.根据权利要求4所述的一种基于多支流融合模型的行人重识别方法，其特征在于，在线实例匹配损失采用x表示批数据中有行人图像的特征，同时利用查询表存储所有类别的行人特征，在前向传播的过程中，计算出特征图批数据中样本和所有带标签行人的余弦相似度，在反向传播时，若目标对应的为第t类行人，则更新查询表对应的第t行，并进行归一化。

6.根据权利要求5所述的一种基于多支流融合模型的行人重识别方法，其特征在于，特征向量x被视为第j类行人的概率p_j为：

其中，

为查询表第j列的转置，

7.根据权利要求4所述的一种基于多支流融合模型的行人重识别方法，其特征在于，第五条支流上采用改进的批量难样本损失获取三元组损失。

8.根据权利要求7所述的一种基于多支流融合模型的行人重识别方法，其特征在于，多支流融合模型通过一个三元组损失函数和四个在线实例匹配损失共同监督训练。

9.根据权利要求8所述的一种基于多支流融合模型的行人重识别方法，其特征在于，网络的总损失函数L_total的表达式为：

式中，_r为平衡各支流损失的权重参数，r＝1,2,3,4,5；