CN109508663A

CN109508663A - 一种基于多层次监督网络的行人重识别方法

Info

Publication number: CN109508663A
Application number: CN201811299473.0A
Authority: CN
Inventors: 张君鹏; 申瑞民; 姜飞
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2018-10-31
Filing date: 2018-10-31
Publication date: 2019-03-22
Anticipated expiration: 2038-10-31
Also published as: CN109508663B

Abstract

本发明涉及一种基于多层次监督网络的行人重识别方法，该方法通过一多层次监督网络对行人图像提取不同语义层次的特征，进而实现行人重识别；所述多层次监督网络包括一个多层深度卷积神经网络作为主干网络和多个分类模块作为特征提取子网络；主干网络将行人图像转换为不同语义层次的特征图，各分类模块通过监督学习将主干网络提取的各层特征图分别转化为具有区分性的特征向量，所有层次上的特征向量拼接形为最终特征向量，基于该最终特征向量实现行人重识别。与现有技术相比，本发明提取行人图像不同语义层次的特征，提高了特征的区分性，并利用半分离式的监督学习方式提高了训练过程的稳定性，提升了网络准确率性能，具有重识别准确率高等优点。

Description

一种基于多层次监督网络的行人重识别方法

技术领域

本发明涉及一种行人重识别方法，尤其是涉及一种基于多层次监督网络的行人重识别方法。

背景技术

视频中的行人重识别是计算机视觉和人工智能领域的一项重要研究课题。其任务目标可以简要概述为：给定一张(或多张)待查寻行人的图像(query image),需要在已有监控视频图像集合(gallery images)中搜索出该行人的所有图像。行人重识别在智能安防、城市安全等领域具有重大的现实意义与价值，是近年来研究的一大热点。

然而，在现实场景中，由于摄像机拍摄角度、拍摄距离、所处光照环境等各不相同，同一行人在不同视频中存在显著的视觉差异。除此之外，人体运动所产生的姿态变化、遮挡等现象进一步提高了这一任务的难度。于是，如何在这些因素的影响下对行人图象提取具有高度分辨性的特征并用于识别是这一技术领域的难题。

现有行人重识别技术通常可分为3个步骤。首先，准备大量带有身份标签的行人图像样本，作为训练集数据库。之后，利用训练集数据训练特定结构的深度卷积神经网络。神经网络的结构和训练方式通常决定了该行人重识别系统的准确率性能，是最重要的一步。最后，利用训练好的卷积网络对检索库图像提取特征。需要对行人进行重识别时，只需利用训练好的卷积网络对待查询行人图像(query image)提取特征，将得到的特征向量和检索库图像的特征向量逐一比对余弦相似度或欧式距离并进行排序。最为相似的若干库图像即为行人重识别系统的输出结果。

在以上技术框架下，现有技术方案主要聚焦于深度卷积神经网络的结构设计与训练方式设计。这类技术大体可分为两类(1)基于区域特征的行人重识别。(2)基于度量学习的行人重识别。

基于区域特征的行人重识别方案通常根据空间位置将图像划分为多个水平区域或网格区域。区域划分完毕后，分别对每一个区块使用深度卷积神经网络提取特征。特征提取的过程可以概括为：将原始图像(或区块)送入卷积神经网络，经过多个卷积层、批归一化层、非线性激活层等网络单元得到含有高层次语义特征的特征图。之后，将得到的特征图进行全局平均池化，作为代表这一图像区块的特征向量。最后，将所有区块的特征向量进行融合或合并，得到代表这一行人的特征向量。例如，文献“Glad:global-local-alignmentdescriptor for pedestrian retrieval”(Wei L,Zhang S,Yao H,et al.Proceedings ofthe 2017ACM on Multimedia Conference.ACM,2017:420-428)根据人体关键点将人体划分为头部、上半身、下半身三个区域，并分别对这三个区域提取特征。文献“Beyond PartModels:Person Retrieval with Refined Part Pooling”(Sun Y,Zheng L,Yang Y,etal.arXiv preprint arXiv:1711.09349,2017)将行人图像水平均分为6个区块，并分别对六个区域提取特征。

基于度量学习的行人重识别方案通常利用精心设计的损失函数训练网络，常见的度量学习损失函数有对照损失函数、三元组损失函数、大间距softmax损失函数等。

上述现有技术还存在以下缺点：

1、在提取特征的过程中，这类方法只采用了深度卷积网络最后一层的特征，对网络的利用率不高。

2、这类方法没有利用网络所产生的多层语义信息。网络最后一层的特征图虽然包含较强的语义信息，但也会因此容易丢失图像细节，进而导致特征的区分性有限。

3、基于度量学习的行人重识别网络通常更难以训练。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于多层次监督网络的行人重识别方法。

本发明的目的之一是解决现有行人重识别技术对卷积网络中间层特征利用率不高的问题，提高总体特征的区分性和鲁棒性。

本发明的目的之二是提高网络训练过程的稳定性，并提升网络准确率性能。

本发明的目的可以通过以下技术方案来实现：

一种基于多层次监督网络的行人重识别方法，该方法基于一多层次监督网络实现行人重识别，所述多层次监督网络包括一个多层深度卷积神经网络作为主干网络和多个分类模块作为特征提取子网络，所述主干网络将行人图像转换为不同语义层次的特征图，各所述分类模块通过监督学习将主干网络提取的各层特征图分别转化为具有区分性的特征向量，所有层次上的特征向量拼接形为最终特征向量，基于该最终特征向量实现行人重识别。

进一步地，所述多层深度卷积神经网络由多个残差卷积模块组成，各残差卷积模块包括若干卷积层、批归一化层和非线性激活层。

进一步地，多个所述分类模块的输入分别对应主干网络中多个残差卷积模块的输出。

进一步地，各所述分类模块不共享参数。

进一步地，所述分类模块包括依次设置的卷积层、批归一化层、非线性激活层、全局平均池化层、dropout层、维全连接层、批归一化层和softmax层。

进一步地，所述多层次监督网络的训练过程具体包括：

1)由收集的行人数据库中采集一批样本，输入所述多层次监督网络进行前向传播；

2)根据各分类模块的分类结果与样本标签计算交叉熵损失；

3)基于交叉熵损失对所述多层次监督网络进行半分离式反向传播，该反向传播过程中，仅各卷积神经网络模块对应的最后一个分类模块完成对整个多层次监督网络的反向传播，其余只对分类模块进行反向传播；

4)根据反向传播获得的梯度对网络执行梯度下降算法并更新参数，直至网络收敛。

进一步地，所述最终特征向量由各分类模块获得的特征向量拼接而成。

进一步地，基于所述最终特征向量实现行人重识别具体为：

将最终特征向量与库图像特征向量逐一比较余弦相似度，以相似度最高的前k张图像作为重识别的查询结果。

进一步地，所述行人数据库中的样本获取过程具体包括：

由不同空间位置利用不同摄像头获取行人视频，将所述行人视频切分为帧，对每一帧图像中的每个不同行人标注一个独立的样本标签，对每张图像进行分辨率缩放和反转处理，形成行人数据库。

与现有技术相比，本发明具有以如下有益效果：

1、本发明设计了分类模块，实现能够有效提取不同语义层次特征的深度卷积网络结构，在识别时将多层次的特征拼接融合，以此提高总体特征的区分性和鲁棒性，解决了现有行人重识别技术对卷积网络中间层特征利用率不高的问题，更高效地利用了计算资源。

2、本发明设计了一种有效的多层监督网络训练方式，即半分离式的训练方式，有效提高训练过程的稳定性，并提升网络准确率性能。

3、在行人重识别的查询阶段，将多个分类模块获得的所有层次的特征拼接成更高维度的特征向量，着重提升特征的辨识度，进而显著地提高了重识别的准确率。

4、本发明方法适合复杂场景下的行人重识别任务。

附图说明

图1为本发明多层次监督网络的结构示意图；

图2为本发明的检测结果示意图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

本发明提出了一种基于多层次监督网络的行人重识别方法，在深度残差网络(ResNet)的基础上，利用多个不共享参数的分类模块(Classification Block)，在网络的不同深度上进行监督学习，进而对行人图像提取不同语义层次的特征。网络的整体结构如图1所示。在网络训练阶段，本发明采用一种半分离式的监督学习方式，提高了训练过程的稳定性，并提升了网络准确率性能。在行人重识别的查询(query)阶段，将所有层次的特征拼接成更高维度的特征向量，着重提升特征的辨识度，进而显著地提高了重识别的准确率。

本发明采用的多层次监督网络包括一个多层深度卷积神经网络作为主干网络和多个分类模块作为特征提取子网络，所述主干网络通过一系列将残差卷积模块行人图像转换为不同语义层次的特征图，各所述分类模块通过监督学习将主干网络提取的各层特征图分别转化为具有区分性的特征向量，所有层次上的特征向量拼接形为最终特征向量，基于该最终特征向量实现行人重识别。所述分类模块包括依次设置的卷积层、批归一化层、非线性激活层、全局平均池化层、dropout层、维全连接层、批归一化层和softmax层。各所述分类模块不共享参数。

如图1所示，本实施例中，多层次监督网络基于现有的ResNet50(He K,Zhang X,Ren S,et al.Deep residual learning for image recognition.Proceedings of theIEEE conference on computer vision and pattern recognition.2016:770-778)实现。ResNet50以ResNet Block(残差卷积模块)构成，进而对行人图像提取特征图，网络整体由5个阶段组成，分别称为Block1至Block5。每个阶段包含多个残差卷积模块，例如Block4由6个残差卷积模块组成，分别为Block4_1至Block4_6；Block5由3个残差卷积模块组成，分别为Block5_1至Block5_3。这些残差卷积模块由若干卷积层、批归一化层、非线性激活层构成。传统的行人重识别网络通常只对整个网络最后一层(Block5_3)输出的特征加以利用，本实施例中，设置了9个分类模块，提取了Block4_1至Block4_6、Block5_1至Block5_3共9个层次的特征，并分别送入分类模块进行监督学习，从而提升了特征的区分性和鲁棒性。

本实施例中，分类模块进行特征处理的具体流程可以分为：

(1)首先，维度为256*128*3的三通道行人图像进入网络，经过Block1，转变为128*64*64的特征图。

(2)128*64*64的特征图经过Block2，转变为64*32*256的特征图。

(3)64*32*256的特征图经过Block3，转变为32*16*512的特征图。

(4)32*16*512的特征图按序经过Block4-1至Block4-6，输出6个16*8*1024的特征图。

(5)16*8*1024的特征图按序经过Block5-1至Block5-3，输出3个16*8*2048的特征图。与原始的ResNet50不同，该网络移除了Block5的下采样操作。

(6)6个16*8*1024的特征图分别送入分类模块1至6。分类模块由核大小为1*1*2048的卷积层、批归一化层、非线性激活层、全局平均池化层、dropout层、512维全连接层、批归一化层、softmax层按顺序组成。需要注意的是，分类模块1至9都不共享参数。

(7)16*8*1024的特征图经1*1卷积层转化为16*8*2048的特征图，经过全局平均池化层变为1*1*2048的特征向量，再经过全连接层降维，压缩为512维特征向量。

(8)512维特征向量作为代表行人的特征送入softmax层，完成分类任务的监督学习。

(9)分类模块7-9与分类模块1至6类似，唯一的差别在于Block5_1至Block5_3输出的特征图为16*8*2048维而不是16*8*1024维。

本发明采用一半分离式的训练方式对多层次监督网络进行训练，提高训练过程的稳定性，并提升网络准确率性能。训练过程具体包括：

步骤1：由收集的行人数据库中采集一批样本，输入所述多层次监督网络进行前向传播。

行人数据库的收集与预处理过程包括：

1)行人视频需要在不同空间位置利用不同的摄像头拍摄，从而保证行人图像的多样性与差异性，形成拥有大量不同行人视频的训练集。

2)视频收集完毕后，将视频切分为帧，对于每一帧图像，使用人工标注的方式或算法自动标注的方式截取出帧内的行人，保存为单独的图片，并给每个不同的行人标注一个独立的样本标签。

3)将每张图片缩放至256*128的分辨率大小，以适应后续卷积神经网络的输入需求，同时适配人体的物理尺寸，避免图像变形。

4)将处理后的行人图片逐一进行水平180度反转，用以扩充训练数据，形成最终的行人数据库。

步骤2：根据各分类模块的分类结果与样本标签计算交叉熵损失。

步骤3：基于交叉熵损失对所述多层次监督网络进行半分离式反向传播，该反向传播过程中，仅各卷积神经网络模块对应的最后一个分类模块完成对整个多层次监督网络的反向传播，其余只对分类模块进行反向传播。

本实施例中，如图1的虚线处所示，对于分类模块1，2，3，4，5，7，8反向传播只对分类模块自身进行，反向传播的梯度不回传至主干的ResNet网络，虚线箭头表示反向传播梯度在此被截断；对于分类模块6和9，分类模块自身和整个ResNet主干网络一起参与反向传播，完成整个ResNet主干网络的监督学习。

步骤4：根据反向传播获得的梯度对网络执行梯度下降算法并更新参数，直至网络收敛。

本实施例中，利用上述训练好的多层次监督网络进行行人重识别任务时，给定一张待查寻行人图像，按照如下流程完成识别过程：

(1)将待查寻行人图像缩放至256*128的分辨率大小，以适应训练好的神经网络的输入需求。

(2)将行人图像送入训练好的多层次监督网络进行前向传播。每个分类模块输出一个512维度的特征。

(3)将9个分类模块输出的特征向量进行拼接，形成一个4608维的特征向量，代表行人的最终特征。

(4)将上一步中得到的4608维的特征向量与库图像的特征向量逐一比较余弦相似度，并根据相似度进行排序。相似度最高的前k张图像即为重识别的查询结果。k可根据需要设定。

表1展示了本发明在Duke-MTMC Reid[4]数据集上的准确率效果，可以看出，该方法和一些现有方法相比准确率更高，重识别效果更好。表中，Rank@1，Rank@5，Rank@10分别表示采用CMC曲线统计时前1、前5、前10准确率。

表1本发明与现有技术准确率对比

图2展示了本发明在Duke-MTMC Reid数据集上的一些可视化效果，本发明效果较好。Query表示待查寻图像，后续的10张图片为与该行人相似度最高的10张库图像。

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此，凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由权利要求书所确定的保护范围内。

Claims

1.一种基于多层次监督网络的行人重识别方法，其特征在于，该方法基于一多层次监督网络实现行人重识别，所述多层次监督网络包括一个多层深度卷积神经网络作为主干网络和多个分类模块作为特征提取子网络，所述主干网络将行人图像转换为不同语义层次的特征图，各所述分类模块通过监督学习将主干网络提取的各层特征图分别转化为具有区分性的特征向量，所有层次上的特征向量拼接形为最终特征向量，基于该最终特征向量实现行人重识别。

2.根据权利要求1所述的基于多层次监督网络的行人重识别方法，其特征在于，所述多层深度卷积神经网络由多个残差卷积模块组成，各残差卷积模块包括若干卷积层、批归一化层和非线性激活层。

3.根据权利要求2所述的基于多层次监督网络的行人重识别方法，其特征在于，多个所述分类模块的输入分别对应主干网络中多个残差卷积模块的输出。

4.根据权利要求1所述的基于多层次监督网络的行人重识别方法，其特征在于，各所述分类模块不共享参数。

5.根据权利要求1所述的基于多层次监督网络的行人重识别方法，其特征在于，所述分类模块包括依次设置的卷积层、批归一化层、非线性激活层、全局平均池化层、dropout层、维全连接层、批归一化层和softmax层。

6.根据权利要求1所述的基于多层次监督网络的行人重识别方法，其特征在于，所述多层次监督网络的训练过程具体包括：

2)根据各分类模块的分类结果与样本标签计算交叉熵损失；

3)基于交叉熵损失对所述多层次监督网络进行半分离式反向传播，该反向传播过程中，仅部分分类模块完成对整个主干网络的反向传播，其余只对分类模块进行反向传播；

7.根据权利要求1所述的基于多层次监督网络的行人重识别方法，其特征在于，所述最终特征向量由各分类模块获得的特征向量拼接而成。

8.根据权利要求1所述的基于多层次监督网络的行人重识别方法，其特征在于，基于所述最终特征向量实现行人重识别具体为：

9.根据权利要求6所述的基于多层次监督网络的行人重识别方法，其特征在于，所述行人数据库中的样本获取过程具体包括：

由不同空间位置利用不同摄像头获取行人视频，将所述行人视频切分为帧，对每一帧图像中的每个不同行人标注一个独立的样本标签，对每张图像进行分辨率缩放和水平反转处理，形成行人数据库。