CN109977893A

CN109977893A - 基于层次显著性通道学习的深度多任务行人再识别方法

Info

Publication number: CN109977893A
Application number: CN201910257114.7A
Authority: CN
Inventors: 王旭; 王其聪; 赵冲; 李茂贞
Original assignee: Xiamen University
Current assignee: Xiamen University
Priority date: 2019-04-01
Filing date: 2019-04-01
Publication date: 2019-07-05
Anticipated expiration: 2039-04-01
Also published as: CN109977893B

Abstract

基于层次显著性通道学习的深度多任务行人再识别方法，涉及计算机视觉技术。准备行人再识别方向数据集；设计层次显著性通道特征学习的深度多任务行人再识别网络模型，通过该网络模型提取行人更具判别力的特征；在大规模图像数据上，利用反向传播算法对主干网络ResNet50网络进行预训练，得到预训练模型；在预训练模型的基础上，使用行人图像训练数据集，计算模型两个分支的分类损失和，利用反向传播算法对整个构建好的模型进行端到端训练，得到最终训练好的模型；利用训练好的模型进行行人重识别，将最终网络模型的输出特征作为行人图像的特征表示以进行接下来的相似性度量和排序。

Description

基于层次显著性通道学习的深度多任务行人再识别方法

技术领域

本发明涉及计算机视觉技术，尤其是涉及一种基于层次显著性通道特征学习的深度多任务行人再识别方法。

背景技术

行人再识别是目前计算机视觉热门的研究方向之一，其可广泛应用于智能视频监控、智能安保等领域，因此受到了越来越多人的关注。行人再识别是利用机器学习方面的技术，去判断非重叠视域摄像机所拍摄到的行人是否是同一个行人。但是，由于目前成像条件的约束，有许多因素可能影响行人再识别方法效果的进一步提高：

1)低分辨率。由于大量的行人图片都是由摄像头拍摄所得，大部分摄像头本身的分辨率比较低，其次摄像头与拍摄对象的距离相对较远，也会导致所获得的行人图片分辨率较低；

2)多姿势、多角度。行人图片由摄像头从不同的角度随机拍摄所得，因此图片中的行人往往呈现出不同的姿势和不同角度，导致有的图片呈现的是行人的正面，有的呈现的是行人的侧面或者背面；

3)光照变化。不同时间段或者摄像头放置的位置引起强烈的光照变化，可能使得行人的视觉外观发生改变，而影响模型识别效果；

4)背景和遮挡。行人再识别是去识别来自非重叠视域摄像机所拍摄到的行人图片，复杂的背景和遮挡可能使得提取到的特征含有大量的噪音，从而严重影响行人再识别的准确性。

目前，采用深度网络模型进行行人再识别是研究热点之一。大多数应用于行人再识别的网络模型没有考虑到不同通道特征表达的不同显著性信息对于行人再识别的重要性是不同的，然而蕴含重要信息的显著性通道特征往往提供了更具区分性的信息。对蕴含重要区分信息的显著性通道特征给予较高的权重，可以使模型对处理视角、姿势、光照变化以及遮挡等问题具有鲁棒性。然而如果把这些显著性通道特征等同看待，其相应的重要性将没有在行人再识别过程中得到充分的利用。并且，现阶段应用于行人再识别方向的网络模型，基本都是图片进去，直接用网络结构最后一层的特征去度量，而忽视了中间层的特征。网络不同层次的特征承载了不同层次的行人信息。高层特征更关注于行人语义信息，而忽视了部分的细节信息；低层的特征则包含了更多行人的细节信息，这是行人再识别的重要线索，但是又难免掺杂了很多的背景信息。因此在行人再识别网络中，不仅要考虑网络高层特征所带来的高度语义信息，还应结合低层次特征带来的细节信息。

发明内容

本发明的目的在于针对现有行人再识别模型中存在的上述技术问题，提供一种基于层次显著性通道特征学习的深度多任务行人再识别的方法。

本发明包括以下步骤：

1)准备行人再识别方向数据集；

在步骤1)中，所述准备行人再识别方向数据集的具体方法可为：假设训练集行人图像为{(x_i,y_i),i＝1,...,n}，其中，n为训练集的样本数且为自然数，x_i为第i个训练样本对应的行人图像，y_i(1≤yi≤N)表示第i个训练样本的行人类别标签，N表示训练样本集包含的行人类别数且为自然数。

2)设计层次显著性通道特征学习的深度多任务行人再识别网络模型，通过该网络模型提取行人更具判别力的特征；

3)在大规模图像数据上，利用反向传播算法对主干网络ResNet50网络(K.He,X.Zhang,S.Ren,and J.Sun,“Deep residual learning for image recognition,”inComputer Vision and Pattern Recognition(CVPR),2016,pp.770–778.)进行预训练，得到预训练模型；

4)在预训练模型的基础上，使用行人图像训练数据集，计算模型两个分支的分类损失和，利用反向传播算法对整个构建好的模型进行端到端训练，得到最终训练好的模型；

5)利用训练好的模型进行行人重识别，将最终网络模型的输出特征作为行人图像的特征表示以进行接下来的相似性度量和排序。

在步骤2)中，所述设计层次显著性通道特征学习的深度多任务行人再识别网络模型的具体步骤可为：

2.1把ResNet50残差网络作为主干网络，ResNet50网络从输入图片进行第一次卷积池化操作之后，主要分为4个阶段，每个阶段的特征像素值都为前一个阶段的一半，并且每一个阶段通道特征的数量都为前一个阶段的两倍；模型去掉ResNet50网络最后用1000个神经元分类的全连接层，把原网络4个阶段后的特征再加上第一次卷积池化操作后的特征作为接下来修改的5个阶段的特征；

2.2在5个阶段全局平均池化层获得对每个通道的单个描述子之后，对于5个阶段分别引入通道重要性自学习子网络，用于学习每个阶段每个通道特征的重要性，并且将其重要性描述子范围控制在0～1，然后把该重要性描述子与对应阶段对应通道的特征相乘进行加权操作，然后进行下一阶段的操作；

2.3对网络进行多层次特征融合操作，融合网络模型5个阶段经过全局平均池化层之后的特征，使得模型得以充分利用网络较低层次(前4个阶段)所蕴含的全局细节特征，达到与高层次(第5阶段)特征之间的优势互补。

在步骤4)中，所述计算模型两个分支的分类损失和的具体步骤可为：

4.1融合前4个阶段的特征作为一个分支，融合5个阶段的特征作为一个分支，对于这两个分支分别接两层用于对行人类别进行分类的全连接层，其中第一层用于降维的全连接层神经元数量为512，第二层用于分类的全连接层神经元数量为训练集行人的类别数，从而直接对提取的行人特征进行分类；

4.2模型优化阶段，计算以上两个分支的损失，通过这两个分支从而更好的优化模型。

与现有技术相比，本发明具有以下突出技术效果：

首先设计了基于层次显著性通道特征学习的深度多任务行人再识别的网络模型，在网络中引入一种通道特征重要性自学习网络，使得模型对表达显著性通道特征，更有助于识别行人身份的通道特征做出较高的响应，并且融合了网络不同层次的特征，既考虑高层次网络所表达的行人语义特征，同时又利用低层次网络所蕴含的全局细节特征，实现不同层次特征之间的优势互补；最后提出多任务优化目标函数，综合考虑不同层次的特征对行人再识别模型带来的损失，然后对模型进行优化，从而提取更有判别力的特征表示，并完成后续的特征相似性度量和排序，得到最后的行人再识别结果。

附图说明

图1为本发明实施例的框架图。

具体实施方式

为使本发明的上述目的、特征和优点能够更明显易懂，下面结合附图和实施例对本发明的方法作详细说明，本实施例在以本发明技术方案为前提下进行实施，给出了实施方式和具体操作过程，但本发明的保护范围不限于下述的实施例。

参见图1，本发明实施例的实施方式包括以下步骤：

1、准备行人再识别方向数据集。假设训练集行人图像为{(x_i,y_i),i＝1,...,n}，其中，n为训练集的样本数且为自然数，x_i为第i个训练样本对应的行人图像，y_i(1≤yi≤N)表示第i个训练样本的行人类别标签，N表示训练样本集包含的行人类别数且为自然数。

2、设计一个基于层次显著性通道特征学习的深度多任务行人再识别的网络模型。用该网络模型去提取更有判别力的行人特征。

2.1主干网络为ResNet50残差网络，ResNet50网络从输入图片进行第一次卷积池化操作之后，主要分为4个阶段，每个阶段的特征像素值都为前一个阶段的一半，并且每一个阶段特征通道的数量都为前一个阶段的两倍。模型删去ResNet50网络最后用1000个神经元分类的全连接层。把原网络4个阶段后的特征再加上第一次卷积池化操作后的特征作为接下来修改的5个阶段。

2.2假设5个阶段获得的特征为X⁽ⁱ⁾∈R^W×H×C，其中，i∈{1,2,3,4,5}分别表示上述的5个阶段；并且其中,表示第i个阶段第c个通道的特征。5个阶段特征的通道数量分别为：64，256，512，1024，2048，对于每一个W×H维的通道特征首先通过全局平均池化操作(即图1中的GAP模块)来获得对每个通道的单个数值性的描述子：

其中,表示第i个阶段第c个通道全局平均池化之后的结果。从而得到对第i个阶段每个通道特征对应的单个数值描述子：

2.3在5个阶段全局平均池化层之后，分别设计通道特征重要性自学习子网络。为了使单个描述子的数值范围不至于太大，因此通过Sigmoid激活函数，使其对应通道特征重要性的数值范围控制在0～1。在Sigmoid激活函数之前，首先对获得的特征Y⁽ⁱ⁾统一做了批标准化处理，然后用两次全连接操作对之前卷积之后抽象化的特征进行整合：

Z⁽ⁱ⁾＝σ(ψ₁(Y⁽ⁱ⁾)) (2)

其中，ψ₁表示两次全连接操作，不同阶段第一层全连接的神经元数量统一设定为512，第二层神经元的数量为该阶段的通道数量，其中全连接层用到的激活函数为LeaklyReLU，以更好地增加网络的表达能力(即非线性)，σ表示Sigmoid函数。Z⁽ⁱ⁾表示第i个阶段对于每个通道特征的重要性数值描述子，数值范围为0～1，并且表示第i个阶段第c个通道特征的重要性数值描述子。在每个阶段的重要性数值描述子中，显著性通道特征对应的数值描述子往往占了相对较高的权重。

获得对每个阶段每个通道的重要性数值描述子之后，对每个阶段的每个通道特征进行重要性加权操作：

其中，u∈{1,2,...,W},v∈{1,2,...,H}，表示第i阶段第c个通道特征u行v列的数值，表示第i阶段第c个通道特征u行v列加权之后的数值，最后用通道特征重要性加权之后的特征进行模型下一阶段的操作。

2.4前4个阶段全局平均池化后所得到的对应特征为其中i∈[1,2,3,4]，直接级连接前4个阶段全局池化之后的特征进行操作，

其中，φ_concat表示级连接操作，ψ₁表示进行了两次用于分类的全连接操作，第一层用于降维的全连接层神经元数量为512，第二层用于对行人类别进行分类的全连接层神经元数量为对应训练集的行人类别数，Y⁽¹⁾，Y⁽²⁾，Y⁽³⁾，Y⁽⁴⁾分别表示前4个阶段所得到的对应的特征，所得到的维度和训练集行人的类别数目相等，在之后同样用该特征计算该分支预测行人类别的损失。最后把该分支的特征融合到第5阶段经过通道特征重要性自学习网络加权之后的特征上：

其中，为融合5个阶段之后所得到的特征，统一对特征进行主干网络后续的操作，包括在测试阶段也是提取特征去进行行人相似度判断。

3、在设计好的网络模型中，通过计算模型双分支的分类损失，从而优化模型参数：

第一分支是对级连接的较低层次特征计算损失，即对较低层次网络融合的特征计算损失；第二分支是对高层次特征计算损失，即对修改后的主干网络最后输出的分类特征计算损失，修改后的主干网络融合的特征经过两层全连接层后所得到的特征表示为X^fus，其中X^fus的维度与训练集行人的类别数相等。

首先用Softmax损失函数分别计算每一张训练集图片在两个分支的损失：

其中，分别表示两个分支对第i个行人的预测得分，和分别表示对标签为label行人的预测得分，l_fus(X^fus；label)分别表示预测该行人所带来的损失。

然后分别求得两个分支在一个batchsize训练集的平均损失：

其中，和L_fus(X^fus；label)分别表示一个batchsize在第一个分支的平均损失和第个二分支的平均损失，最后得到的一个batchsize两部分的损失和，

其中，λ₁和λ₂为平衡两分支损失的权重参数，λ₁和λ₂分别为用第一个分支的特征和第二个分支的特征X^fus去预测训练集该batchsize的数据的错误率，并且若λ₁和λ₂的值低于0.5，则统一设置为0.5，使其控制在0.5～1的范围内。最后用得到的两个分支的损失和L_all去优化模型。

4、在大规模图像数据上，利用反向传播算法对主干网络ResNet50网络进行预训练，得到预训练模型。

5、在预训练模型的基础上，使用行人图像训练数据集，利用反向传播算法对整个构建好的模型进行端到端训练，得到最终训练好的模型。

6、利用训练好的模型进行行人重识别，将最终网络模型的输出特征作为行人图像的特征表示。

在Market-1501、DukeMTMC-reID和MSMT17数据集上本发明提出的方法与其他行人再识别结果对比如表1～3所示。

表1

表2

表3

其中：

SpindleNet对应H.Zhao等人提出的方法(H.Zhao,M.Tian,S.Sun,J.Shao,J.Yan,S.Yi,X.Wang,and X.Tang,“Spindle net:Person re-identification with human bodyregion guided feature decomposition and fusion,”in 2017IEEE Conference onComputer Vision and Pattern Recognition(CVPR).IEEE,2017,pp.907–915.)；

SVDNet对应Y.Sun等人提出的方法(Y.Sun,L.Zheng,W.Deng,and S.Wang,“Svdnetfor pedestrian retrieval,”arXiv preprint,vol.1,no.6,2017.)；

LSRO对应Z.Zheng等人提出的方法(Z.Zheng,L.Zheng,and Y.Yang,“Unlabeledsamples generated by gan improve the person re-identification baseline invitro,”arXiv preprint arXiv:1701.07717,vol.3,2017.)；

PNGAN对应X.Qian等人提出的方法(X.Qian,Y.Fu,T.Xiang,W.Wang,J.Qiu,Y.Wu,Y.-G.Jiang,and X.Xue,“Pose-normalized image generation for person re-identification,”in European Conference on Computer Vision.Springer,2018,pp.661–678.)；

CamStyle+RE对应Z.Zhong等人提出的方法(Z.Zhong,L.Zheng,Z.Zheng,S.Li,andY.Yang,“Camera style adapta□tion for person re-identification,”inProceedings of the IEEE Conference on Computer Vision and PatternRecognition,2018,pp.5157–5166.)；

MLFN对应X.Chang等人提出的方法(X.Chang,T.M.Hospedales,and T.Xiang,“Multi-level factorisation net for person re-identification,”in CVPR,vol.1,2018,p.2.)；

HA-CNN对应W.Li等人提出的方法(W.Li,X.Zhu,and S.Gong,“Harmoniousattention network for person re□identification,”in Proceedings of the IEEEconference on computer vision and pattern recognition,2018,pp.2285–2294.)；

DuATM对应J.Si等人提出的方法(J.Si,H.Zhang,C.-G.Li,J.Kuen,X.Kong,A.C.Kot,and G.Wang,“Dual attention matching network for context-aware featuresequence based person re-identification,”arXiv preprint arXiv:1803.09937,2018.)；

GoogLeNet对应C.Szegedy等人提出的方法(C.Szegedy,W.Liu,Y.Jia,P.Sermanet,S.Reed,D.Anguelov,D.Erhan,V.Vanhoucke,and A.Rabinovich,“Goingdeeper with convolutions,”in Proceedings of the IEEE conference on computervision and pattern recognition,2015,pp.1–9.)；

PDC对应C.Su等人提出的方法(C.Su,J.Li,S.Zhang,J.Xing,W.Gao,and Q.Tian,“Pose-driven deep convolutional model for person re-identification,”in 2017IEEE International Conference on Computer Vision(ICCV).IEEE,2017,pp.3980–3989.)；

GLAD对应L.Wei等人提出的方法(L.Wei,S.Zhang,H.Yao,W.Gao,and Q.Tian,“Glad:global-local□alignment descriptor for pedestrian retrieval,”inProceedings of the 2017 ACM on Multimedia Conference.ACM,2017,pp.420–428.)。

本发明首先设计网络模型，对主干网络引入一种通道特征重要性自学习子网络，对于表达不同显著性信息的通道特征给予了不同的权重，使得模型更关注于深度特征空间中更具区分性的显著性通道特征，并且融合网络不同层次的特征，使得模型不但能获取高层网络的行人语义特征，而且可以充分利用低层网络行人全局细节特征。然后提出了一种多任务目标损失优化方法，联合使用分类损失，从而对网络进行更好的优化。最后根据训练好的网络模型，对测试集图像进行特征表示，并且进行之后的相似性比较和排序。通过实验分析可知，提出的网络模型学习到的显著性通道特征具有视角不变性，可以部分处理遮挡、姿态变化以及背景杂乱等问题，在多个公开数据集上都取得了较好的识别性能。

Claims

1.基于层次显著性通道学习的深度多任务行人再识别方法，其特征在于包括以下步骤：

1)准备行人再识别方向数据集；

3)在大规模图像数据上，利用反向传播算法对主干网络ResNet50网络进行预训练，得到预训练模型；

2.如权利要求1所述基于层次显著性通道学习的深度多任务行人再识别方法，其特征在于在步骤1)中，所述准备行人再识别方向数据集的具体方法为：假设训练集行人图像为{(x_i,y_i),i＝1,...,n}，其中，n为训练集的样本数且为自然数，x_i为第i个训练样本对应的行人图像，y_i表示第i个训练样本的行人类别标签，1≤y_i≤N，N表示训练样本集包含的行人类别数且为自然数。

3.如权利要求1所述基于层次显著性通道学习的深度多任务行人再识别方法，其特征在于在步骤2)中，所述设计层次显著性通道特征学习的深度多任务行人再识别网络模型的具体步骤为：

2.1把ResNet50残差网络作为主干网络，ResNet50网络从输入图片进行第一次卷积池化操作之后，分为4个阶段，每个阶段的特征像素值都为前一个阶段的一半，并且每一个阶段通道特征的数量都为前一个阶段的两倍；模型去掉ResNet50网络最后用1000个神经元分类的全连接层，把原网络4个阶段后的特征再加上第一次卷积池化操作后的特征作为接下来修改的5个阶段的特征；

2.2在5个阶段全局平均池化层获得对每个通道的单个描述子之后，对于5个阶段分别引入通道重要性自学习子网络，来学习到每个阶段每个通道特征的重要性，并且将其重要性描述子范围控制在0～1，然后把该重要性描述子与对应阶段对应通道的特征相乘进行加权操作，然后进行下一阶段的操作；

2.3对网络进行多层次特征融合操作，融合网络模型5个阶段经过全局平均池化层之后的特征，使得模型得以充分利用网络较低层次所蕴含的全局细节特征，达到与高层次特征之间的优势互补。

4.如权利要求1所述基于层次显著性通道学习的深度多任务行人再识别方法，其特征在于在步骤4)中，所述计算模型两个分支的分类损失的具体步骤如下：

4.2模型优化阶段，计算了以上两个分支的损失，通过这两个分支从而更好的优化模型。