CN107273872A

CN107273872A - 用于图像或视频中行人重识别的深度判别网络模型方法

Info

Publication number: CN107273872A
Application number: CN201710570245.1A
Authority: CN
Inventors: 王文敏; 张奕豪; 王荣刚; 李革; 董胜富; 王振宇; 李英; 赵辉; 高文
Original assignee: Peking University Shenzhen Graduate School
Current assignee: Peking University Shenzhen Graduate School
Priority date: 2017-07-13
Filing date: 2017-07-13
Publication date: 2017-10-20
Anticipated expiration: 2037-07-13
Also published as: US11100370B2; US20210150268A1; WO2019010950A1; CN107273872B

Abstract

本发明公布了一种用于图像或视频中行人重识别的深度判别网络模型方法，通过构建深度判别网络，将不同输入图像在颜色通道上进行融合拼接，将得到的拼接结果定义为不同图像的原始差异性空间；将原始差异性空间送入卷积网络中，通过学习原始差异性空间中的差异性信息，网络输出两张输入图像之间的相似性，由此实现行人重识别。本发明不对单独的图像进行特征的学习，而是在一开始就将输入图像在颜色通道上进行融合拼接，利用设计好的网络在图像的原始空间上学习差异性信息；通过引入Inception模块，嵌入到模型之中，能够提高网络的学习能力，达到更好的判别效果。

Description

用于图像或视频中行人重识别的深度判别网络模型方法

技术领域

发明涉及计算机视觉中的行人重识别领域，尤其涉及一种用于图像或视频中行人重识别的深度判别网络模型方法。

背景技术

近年来，随着人们对社会的公共安全越来越关注，视频监控系统大量普及。诸如机场、火车站、校园和办公大楼等公众场所，都亟需监控，为安防保驾护航。面对海量的监控视频数据，大量的人力需要投入到视频信息的监控与检索中去，这种方式的效率不仅低，还造成了额外资源浪费。如果能够利用计算机视觉分析技术，自动化监控及分析视频信息，必然可以极大地加快“平安城市”的建设。

行人重识别是计算机视觉的研究中关键的任务。一般来说，给定关于行人的一张图片或者一段视频，行人重识别就是在其它不重合拍摄场景下的图片或者视频中，将同一个人识别出来的过程。尽管相关的研究越来越受到重视，行人重识别的准确率也已经提高了不少，但仍有许多困难需要解决。由于待识别的行人图片与原图片拍摄于不同的相机，设备的差异会给成像条件带来误差；不同的场景下的环境不一，对采集的数据也会产生不同的偏差；且光照的改变会使得同一种颜色的表现不同；更重要的是，行人在摄像头下的姿态变化以及遮挡问题，都使得对同一个人的辨别难度相当大。

近年来，由于深度学习的浪潮，卷积神经网络被广泛应用于行人重识别领域，通过深度网络提取图像特征，并且在相应的特征空间上使用深度学习或者传统方法进行距离度量，大大提高了行人重识别的准确率。这些工作的进展皆得益于深度卷积网络模型在特征提取上的能力，但在判别能力的探索上却局限于给定的特征空间，也因此限制了深度模型判别能力的提高。

发明内容

为了克服上述现有技术的不足，本发明提供一种用于图像或视频中行人重识别的深度判别网络模型方法，基于行人在不同图像之间的相似性判断过程，设计深度判别网络模型，将输入的两张图像在颜色通道上进行融合拼接，在原始的图像差异性空间上判别图像之间的相似性，并通过嵌入Inception模块提高网络的学习能力，可以有效地区分出输入图像是否属于同一个人。该方法不需要对输入图像进行单独特征提取，没有传统意义上对输入图像进行单独特征提取的步骤，因此可以充分发挥深度卷积神经网络模型在判别图像差异性上的潜力。

本发明首先把两张输入图像在颜色通道上进行融合拼接，将得到的拼接结果定义为两个图像的原始差异性空间，然后将得到拼接的结果送入设计好的卷积神经网络中去，通过学习原始空间中的差异性信息，网络最终可以给出输入两张图片之间的相似性。本发明中的深度判别网络包括产生的原始差异性空间和卷积网络，卷积网络包含了三个相连的卷积模块和一个Inception模块，紧接着一个非对称的卷积层和全联接层，并可利用SoftMax算法得到图像之间的相似性。

本发明提供的技术方案是：

一种用于图像或视频中行人重识别的深度判别网络模型方法，通过构建深度判别网络，将两张输入图像在颜色通道上进行融合拼接，得到拼接的结果，送入卷积网络中，通过学习原始差异性空间中的差异性信息，所述深度判别网络输出两张输入图像之间的相似性；由此实现行人重识别；具体过程如下：

1)设计深度判别网络模型的结构；

本发明构建的深度判别网络包括了原始差异性空间的产生和卷积神经网络两部分，其中卷积神经网络包含了3个相连的卷积模块和Inception模块，紧接着一个非对称的卷积层和全联接层；

11)构建图像的原始差异性空间；

将输入的两张图像在颜色通道(R、G、B)上进行融合拼接，使成为包含6个通道(R、G、B、R、G、B)的“图像”，将该“图像”定义为两个图像的原始差异性空间，作为卷积神经网络直接学习的对象；

12)设计三个相连的卷积模块，用于学习输入对象的差异性信息；

每一个模块中包含2个卷积操作、1个ReLU映射及1个最大池化操作，其中卷积核的大小为3*3，步长为1，采样大小为2*2，步长为2；

13)设计一个Inception模块，紧接在卷积模块的后面，可以增加网络的深度和宽度；

14)设计一个非对称的卷积操作进一步降低差异性维度，并使用全联接和SoftMax方法计算输入图像之间的相似度；

2)将数据集X中的行人图片设置为相同大小，并划分为训练集T和测试集D；

本发明具体实施时，将数据集X中的行人图片统一设为160*60大小，并随机划分为训练集T和测试集D；

3)利用训练集T训练步骤1)构建的深度判别网络，更新学习参数，直到收敛，得到训练好的深度判别网络模型；包括如下步骤：

31)通过以下方式对训练集T中的图片进行数据增强：

A.对训练集T中的图片进行水平翻转，得到各个图片的镜像图；

B.以训练集T中的每张图片(包括步骤A产生的镜像图)中心为基准，采样多张(如5张，采样的目的是增加训练样本的数目)在水平和竖直方向上随机偏移一定大小的图片，作为样本；本发明具体实施时，偏移范围为[-0.05H,0.05H]*[-0.05W,0.05W],H和W分别是原始图像的高和宽；

32)对样本进行预处理：计算训练集中所有样本的均值和方差，然后对所有图片(包括训练集和测试集)进行归一化操作，得到正态分布的样本数据，以此作为后续的训练样本数据；

33)生成训练样本：每个人的所有样本，相互之间构成相似对，对于每一个相似对，从其他所有人的样本中随机选取两张图片与其中一个样本构成不相似对，这样可以将相似对与不相似对的比例控制在1:2，以此作为最终的训练样本。

34)采用批量训练的方法，一次随机从训练样本中采样128对行人图片，并使用随机梯度下降法更新网络参数，直到收敛，得到训练好的深度判别网络模型；

本发明具体实施时，一次采样128对行人图片进行批量训练；其中，使用随机梯度下降法时，学习率设为0.05、动量为0.9、学习率衰减为0.0001，权重衰减为0.0005；

可使用测试集D中的行人图片对训练好的深度判别网络模型进行评估；

4)利用训练好的深度判别网络模型对测试数据集D进行识别，验证测试数据集D中两张输入图像中的行人是否属于同一行人，得到准确率。

本发明利用SoftMax算法得到图像之间的相似性。

与现有技术相比，本发明的有益效果是：

本发明提供一种用于图像或视频中行人重识别的深度判别网络模型方法,进一步发掘深度卷积神经网络模型在判别图像差异性上的潜力。与现有技术相比，本发明不再对单独的图像进行特征的学习，而是在一开始就将输入图像在颜色通道上进行融合拼接，让设计好的网络在图像的原始空间上去学习它们的差异性信息。通过引入Inception模块，嵌入到模型之中，能够提高网络的学习能力，达到更好的判别效果。

附图说明

图1是本发明构建的深度判别网络模型的结构示意图：

其中，(1)是两张图片在颜色通道上的融合；(2)是卷积层；(3)是ReLU激活函数；(4)是平均池化；(5)是最大池化；(6)是卷积块Conv-B 1，两个卷积层的核数量依次为32和64；(7)是卷积块Conv-B 2，两个卷积层的核数量依次为64和64；(8)是卷积块Conv-B 3，两个卷积层的核数量依次为64和64；(9)是Inception模块，其中#1、#2、#3和#4分别是4个平行子网络；(10)是一个卷积层Conv-L，核数量为64；(11)是全连接层+SoftMax层；(12)是输出相似性的概率；(13)是输出不相似的概率。

图2是将Inception模块置于深度判别网络不同位置时得到识别结果的对比图。

图3是本发明方法的流程框图。

具体实施方式

下面结合附图，通过实施例进一步描述本发明，但不以任何方式限制本发明的范围。

本发明提出了一种用于行人重识别的深度判别网络模型算法(以下简称DDN-IM)，其结构如图1所示。该算法是一种样本二分类方法，即判断输入的两张图像中的行人是否属于同一个行人，不涉及前期的行人定位与提取过程。该算法主要包含以下两个步骤：

1.深度判别网络的架构设计，具体步骤为：

1)构建图像的原始差异性空间。将输入的两张图像在颜色通道(R、G、B)上进行融合拼接，使成为包含6个通道(R、G、B、R、G、B)的“图像”，将该“图像”作为网络直接学习的对象；

2)设计3个相连的卷积模块，用于学习输入对象的差异性信息。每一个模块中包含2个卷积操作、1个ReLU映射及1个最大池化操作，其中卷积核的大小为3*3，步长为1，采样大小为2*2，步长为2，其它参数如图1所示；

3)设计一个Inception模块，紧接在卷积模块的后面，可以增加网络的深度和宽度。Inception模块的结构设置和相关参数如表1所示，其中子网络是指模块中的4个平行网络；

表1 Inception模块的结构设置和相关参数

子网络序号	类型	核尺寸/步长/填充	输入尺寸
				#1	平均池化	3*3/1/0	64164
-	卷积(ReLU)	1*1/1/0	64164
				#2	卷积(ReLU)	1*1/1/0	64164
#3	卷积(ReLU)	1*1/1/0	64164
					卷积(ReLU)	3*3/1/0	64164
#4	卷积(ReLU)	1*1/1/0	64164
					卷积(ReLU)	3*3/1/0	64164
	卷积(ReLU)	3*3/1/0	96164

4)最后设计一个非对称的卷积操作进一步降低差异性维度，并使用全联接和SoftMax方法计算输入图像之间的相似度。

2.深度判别网络的训练(参数学习)：

1)将数据集X中的行人图片统一设为160*60大小，并随机划分为训练集T和测试集D；

2)通过以下方式对训练集T中的图片进行数据增强：

(a)对图片进行水平翻转得到镜像图；

(b)以图片中心为基准，采样5张在水平和竖直方向上随机偏移一定大小的图片；

3)采用批量训练的方法，一次采样128对行人图片，并使用随机梯度下降法更新网络参数，直到收敛。其中学习率设为0.05、动量为0.9、学习率衰减为0.0001以及权重衰减为0.0005；

4)使用测试集D中的行人图片对深度网络进行评估。

为了验证Inception模块在深度判别网络模型中的作用，本发明根据是否使用Inception模块、及Inception分别放置在不同卷积模块的后面做了相应的对比实验，结果如图2所示，其中DDN-IM₀、DDN-IM₁、DDN-IM₂和DDN-IM₃分别表示没有使用Inception模块、Inception模块放置在卷积模块1、2和3后面。可以看出，使了Inception模块的模型比没使用的效果要好，且放在越后面，得到的提升会越明显。表2列出了不同方法在CUHK01数据集上取得的CMC(Cumulative Match Characteristic，累积匹配特性)结果。

表2 不同方法在CUHK01数据集上取得的CMC结果

表2中，eSDC(existing Salience Detection Combination)为文献(R.Zhao,W.Ouyang,and X.Wang,“Unsupervised salience learning for person re-identification,”in IEEE Conference on Computer Vision and PatternRecognition,2013,pp.3586–3593.)记载的与现有方法结合的显著性检测方法；KISSME(Keep It Simple and Straightforward Metric Learning，简单直接的度量学习)在文献(M.Hirzer,“Large scale metric learning from equivalence constraints,”inComputer Vision and Pattern Recognition,2012,pp.2288–2295.)中记载。FPNN(Filterpairing neural network，成对卷积核神经元网络)在文献(W.Li,R.Zhao,T.Xiao,andX.Wang,“Deepreid:Deep filter pairing neural network for person re-identification,”in IEEE Conference on Computer Vision and PatternRecognition,2014,pp.152–159.)中记载；IDLA(Improved Deep Learning Architecture，改进的深度学习架构)在文献(E.Ahmed,M.Jones,and T.K.Marks,“Animproved deeplearning architecture for person re-identification,”in IEEE Conference onComputer Vision and Pattern Recognition,2015,pp.3908–3916.)中记载；SIRCIR(Single-Image Rrepresentation and Cross-Image Representation，单一图像表示和交叉图像表示)在文献(F.Wang,W.Zuo,L.Lin,D.Zhang,and L.Zhang,“Joint learning ofsingle-image and cross-image representations for person reidentification,”inIEEE Conference on Computer Vision and Pattern Recognition,2016,pp.1288–1296.)中记载；PersonNet(Person Network，行人网络)在文献(L.Wu,S.C.,and A.van denHengel,“Personnet:Person reidentification with deep conv.)中记载；Norm X-Corr(Normalize Cross Correlation，归一化交叉关联)在文献(A.Subramaniam,M.Chatterjee,and A.Mittal,“Deep neural networks with inexact matching forpersonre-identification,”in Advances in Neural Information Processing Systems29,2016,pp.2667–2675.)中记载。

表3 不同方法在QMUL GRID数据集上取得的CMC结果

方法	Rank＝1	Rank＝5	Rank＝10	Rank＝20	参考来源
						LOMO+XQDA	16.56	33.84	41.84	47.68	CVPR 2015
KEPLER	18.40	39.12	50.24	57.04	TIP 2015
						Norm X-Corr	19.20	38.40	53.60	66.40	NIPS 2016
NLML	24.54	35.86	43.53	/	CS 2015
						SSDAL+XQDA	22.40	39.20	48.00	/	ArXiv 2016
DR-KISS	20.60	39.30	51.40	/	TIP 2016
						SCSP	24.24	44.56	54.08	59.68	CVPR 2016
SSM	27.20	/	61.12	70.56	arXiv 2017
						本发明方法	32.80	56.00	64.80	80.80	/

表3中，LOMO+XQDA(Local Maximum Occurrence and Cross-view QuadraticDiscriminant Analysis，局部最大直方图频数和交叉视觉二次判别分析)在文献(S.Liao,Y.Hu,X.Zhu,and S.Z.Li,“Person re-identification by local maximal occurrencerepresentation and metric learning,”in Computer Vision and PatternRecognition(CVPR),2015,pp.2197–2206.)中记载；KEPLER(KErnelized saliency-basedPerson re-identification through multiple metric LEaRning，通过多度量学习的基于核显著性的行人再识别)在文献(N.Martinel,C.Micheloni,and G.L.Foresti,“Kernelized saliency based person re-identification through multiple metriclearning,”IEEE Transactions on Image Processing,vol.24,no.12,pp.5645–5658,2015.)中记载；NLML(Nonlinear local metric learning，非线性局部度量学习)在文献(S.Huang,J.Lu,J.Zhou,and A.K.Jain,“Nonlinear local metric learning for personre-identification,”Computer Science,2015.)中记载；SSDAL+XQDA(semi-superviseddeep attribute learning and Cross-view Quadratic Discriminant Analysis，半监督深度属性学习和交叉视觉二次判别分析)在文献(C.Su,S.Zhang,J.Xing,W.Gao,andQ.Tian,“Deep attributes driven multi-camera person re-identification,”arXivpreprint arXiv:1605.03259,2016.)中记载；DR-KISS(dual-regularized kiss，双正则化KISS算法)在文献(D.Tao,Y.Guo,M.Song,Y.Li,Z.Yu,and Y.Y.Tang,“Personreidentification by dual-regularized kiss metric learning,”IEEE Transactionson Image Processing A Publication of the IEEE Signal Processing Society,vol.25,no.6,pp.2726–2738,2016.)中记载；SCSP(Spatially Constrained Similarityfunction on Polynomial feature map，基于多项式特征图的部分约束相似函数)在文献(D.Chen,Z.Yuan,B.Chen,and N.Zheng,“Similarity learning with spatialconstraints for person re-identification,”in IEEE Conference on ComputerVision and Pattern Recognition,2016,pp.1268–1277.)中记载；SSM(Supervisedsmoothed manifold，监督光滑流形)在文献(S.Bai,X.Bai,and Q.Tian,“Scalable personre-identification on supervised smoothed manifold,”arXiv preprint arXiv:1703.08359,2017.)中记载。

表4 不同方法在PRID2011数据集上取得的CMC结果

表4中，ITML(Information Theoretic Metric Learning，信息论度量学习)记载在文献(J.V.Davis,B.Kulis,P.Jain,S.Sra,and I.S.Dhillon,“Information theoreticmetric learning,”in Machine Learning,Proceedings of the Twenty-FourthInternational Conference,2007,pp.209–216.)中；kLFDA(kernel Local FisherDiscriminant Classifier，核局部Fisher判别分类器)在文献(F.Xiong,M.Gou,O.Camps,and M.Sznaier,“Person re-identification using kernel-based metric learningmethods,”in European conference on computer vision.Springer,2014,pp.1–16.)中记载；DML(Deep Metric Learning，深度度量学习)在文献(Y.Dong,L.Zhen,S.Liao,andS.Z.Li,“Deep metric learning for person re-identification,”in InternationalConference on Pattern Recognition,2014,pp.34–39)中记载；NullReid(Null spacefor person Reid，零空间用于行人再识别)在文献(L.Zhang,T.Xiang,and S.Gong,“Learning a discriminative null space for person re-identification,”in IEEEConference on Computer Vision and Pattern Recognition,2016,pp.1239–1248.)中记载；Ensembles(Metric Ensembles，度量集合)在文献(S.Paisitkriangkrai,C.Shen,andV.D.H.Anton,“Learning to rank in person re-identification with metricensembles,”in IEEE Conference on Computer Vision and Pattern Recognition,2015,pp.1846–1855.)中记载；ImpTrpLoss(Improved Triplet Loss，改进的三元损失)在文献(D.Cheng,Y.Gong,S.Zhou,J.Wang,and N.Zheng,“Person reidentification bymulti-channel parts-based cnn with improved triplet loss function,”in IEEEConference on Computer Vision and Pattern Recognition,2016,pp.1335–1344.)中记载；MTDnet(Multi-Task Deep Network，多任务深度网络)在文献(W.Chen,X.Chen,J.Zhang,and K.Huang,“A multi-task deep network for person re-identification,”in Thirty-First AAAI Conference on Artificial Intelligence,2017.)中记载。

如上所述，本发明在三个不同的数据集上做了实验，并与其它的方法进行了对比，表2、表3和表4分别列出了不同方法在CUHK01数据集、QMUL GRID数据集和PRID2011数据集上取得的CMC结果，可以看出，本发明所提出的深度判别网络模型均有更优的表现，说明该算法有效性。

需要注意的是，公布实施例的目的在于帮助进一步理解本发明，但是本领域的技术人员可以理解：在不脱离本发明及所附权利要求的精神和范围内，各种替换和修改都是可能的。因此，本发明不应局限于实施例所公开的内容，本发明要求保护的范围以权利要求书界定的范围为准。

Claims

1.一种用于图像或视频中行人重识别的深度判别网络模型方法，通过构建深度判别网络，将不同输入图像在颜色通道上进行融合拼接，将得到的拼接结果定义为不同图像的原始差异性空间；将原始差异性空间送入卷积网络中，通过学习原始差异性空间中的差异性信息，网络输出两张输入图像之间的相似性，由此实现行人重识别；包括如下步骤：

1)设计深度判别网络模型的结构，包括原始差异性空间和卷积神经网络，其中卷积神经网络包含三个相连的卷积模块和Inception模块，紧接着一个非对称的卷积层和全联接层；包括如下过程：

11)通过将不同输入图像在颜色通道上进行融合拼接，构建图像的原始差异性空间，作为卷积神经网络直接学习的对象；

12)设计三个相连的卷积模块，用于学习输入图像的差异性信息；

13)设计一个Inception模块，紧接在卷积模块的后面，用于增加网络的深度和宽度；

14)设计一个非对称的卷积操作进一步降低差异性维度，并计算输入图像之间的相似度；

31)通过以下方式对训练集T中的图片进行数据增强，获取多张样本图片；

32)对上述样本图片进行预处理：计算训练集中所有样本的均值和方差，然后对所有图片(包括训练集和测试集)进行归一化操作，得到正态分布的样本数据，以此作为训练样本数据；

33)利用训练样本数据得到相似对和不相似对，生成针对每个人的最终训练样本；

34)采用批量训练的方法，一次随机从上述训练样本中采样多对行人图片，并使用随机梯度下降法更新网络参数，直到收敛，得到训练好的深度判别网络模型；

4)利用训练好的深度判别网络模型对测试数据集D进行识别，可验证测试数据集D中两张输入图像中的行人是否属于同一行人，获得识别准确率。

2.如权利要求1所述深度判别网络模型方法，其特征是，步骤11)具体将输入的两张图像在颜色通道(R、G、B)上进行融合拼接，使成为包含六个通道(R、G、B、R、G、B)的图像结果，定义为两个图像的原始差异性空间。

3.如权利要求1所述深度判别网络模型方法，其特征是，步骤12)三个相连的卷积模块中，每一个模块均包含2个卷积操作、1个ReLU映射和1个最大池化操作。

4.如权利要求3所述深度判别网络模型方法，其特征是，优选地，卷积模块的卷积核大小为3*3；步长为1；采样大小为2*2；步长为2。

5.如权利要求1所述深度判别网络模型方法，其特征是，步骤14)采用一个非对称的卷积操作进一步降低差异性维度，并使用全联接和SoftMax方法计算输入图像之间的相似度。

6.如权利要求1所述深度判别网络模型方法，其特征是，步骤2)具体将数据集X中的行人图片统一设为160*60大小，并随机划分为训练集T和测试集D。

7.如权利要求1所述深度判别网络模型方法，其特征是，步骤31)通过以下方式对训练集T中的图片进行数据增强：

B.以训练集T中的每张图片(包括步骤A产生的镜像图)中心为基准，采样在水平和竖直方向上随机偏移一定大小的多张图片，作为样本；优选地，偏移范围为[-0.05H,0.05H]*[-0.05W,0.05W]，H和W分别是原始图像的高和宽。

8.如权利要求1所述深度判别网络模型方法，其特征是，步骤33)对于每个人的所有样本中的每一个相似对，从其他所有人的样本中随机选取两张图片与其中一个样本构成不相似对，作为最终的训练样本。

9.如权利要求1所述深度判别网络模型方法，其特征是，步骤34)具体采用一次采样128对行人图片进行批量训练；使用随机梯度下降法时，学习率设为0.05、动量为0.9、学习率衰减为0.0001，权重衰减为0.0005。

10.如权利要求1所述深度判别网络模型方法，其特征是，步骤3)之后，可使用测试集D中的行人图片对训练好的深度判别网络模型进行评估。