CN108596010B

CN108596010B - 行人重识别系统的实现方法

Info

Publication number: CN108596010B
Application number: CN201711493983.7A
Authority: CN
Inventors: 纪荣嵘; 林贤明; 孙研
Original assignee: Xiamen University
Current assignee: Xiamen University
Priority date: 2017-12-31
Filing date: 2017-12-31
Publication date: 2020-09-04
Anticipated expiration: 2037-12-31
Also published as: CN108596010A

Abstract

行人重识别系统的实现方法，涉及行人重识别技术。包括以下步骤：1)对监控视频进行离线建模，具体包括行人检测和行人特征提取；2)在线检索：在进行在线检索时，共进行两个排序，首先对于每个视频中的行人按照同检索目标的相似度进行排序，然后对于所有检索视频计算一个包含检索目标的可能性，将视频进行排序。在实际应用中采用将深度特征和手工特征相结合的方法。采用融合分类损失和三元组损失两种损失函数的网络结构进行深度特征学习，两种损失函数的融合充分利用了数据集的标签信息以及图像对的相似性信息，使得在数据集较小的情况下也可以获得有效的具有区分性的行人特征。采用改进的三元组损失函数，训练效果更优。

Description

行人重识别系统的实现方法

技术领域

本发明涉及行人重识别技术，尤其是涉及基于深度特征和手工特征结合的监控视频下的行人重识别系统的实现方法。

背景技术

近年来，随着互联网以及信息技术的发展，监控视频被应用于超市、地铁和商场等诸多公共场所，成为维护公共安全、协助公安部门破案的重要工具。当有案件发生并锁定嫌疑人后，可以通过查看监控视频进行追踪。目前，对嫌疑目标的定位主要采用人工排查的方式，即需要办案人员对视频进行逐个查看以确定是否包含嫌疑目标，由于监控视频数量庞大，该方式不仅耗费大量人力，而且效率低下。因此，需要采用行人重识别技术来对视频进行筛选，提取最可能包含嫌疑目标的视频片段。

行人重识别是指判断出现在不同监控摄像头下的行人是否为同一行人，对于两张行人图像，首先进行特征提取，然后计算两个行人的特征的相似度。

在特征提取部分，由于不同的监控摄像头通常视角和光照条件等环境因素会发生变化，行人的外貌特征可能变化较大，因此设计对行人外貌特征具有鲁棒性的行人特征是行人重识别中的一个关键问题。传统方法中采用的行人特征为手工特征。通常提取行人的服装以及携带物品的外貌特征(可以参考文章Gray,Douglas,and H.Tao."ViewpointInvariant Pedestrian Recognition with an Ensemble of Localized Features."Computer Vision-ECCV 2008,European Conference on Computer Vision,Marseille,France,October 12-18,2008,Proceedings DBLP,2008:262-275.)，包括颜色特征(RGB，HSV，Lab等)和纹理特征(LBP，Gabor滤波等)。近年来，随着深度学习在计算机视觉的诸多领域中取得显著效果，逐渐也有研究将深度特征应用于行人重识别问题。目前，常用于学习行人深度特征的模型有两类，第一类是分类模型，训练过程中，该类模型将行人重识别问题看成一个多分类问题，以单张行人图像以及行人的类别信息作为输入，输出层为行人的类别，采用Softmax损失函数。第二类是三元组网络，该类网络的输入为三张图像，一张锚点图像，一张与锚点图像为同一行人的正样本图像以及一张与锚点图像为不同行人的负样本图像。通过训练使同一行人特征间的距离小于不同行人特征间的距离(可以参考文章S.Ding,L.Lin,G.Wang,and H.Chao.Deep feature learning with relative distancecomparison for person reidentification.Pattern Recognition,2015.)。在应用网络进行特征提取时，采用全连接层的输出作为图像的特征。

在判断两个行人的特征相似性时，采用两个行人间的特征距离作为衡量标准。通常可以采用欧式距离、余弦距离等传统的距离度量。目前，也有研究采用度量学习的方法，学习符合样本特性的距离函数，经典的方法有KISSME(Roth,P.M.,et al."Large scalemetric learning from equivalence constraints."Computer Vision and PatternRecognition IEEE,2012:2288-2295.)，XQDA(S.Liao,Y.Hu,X.Zhu,and S.Z.Li,“Personre-identification by local maximal occurrence representation and metriclearning,”in Proceedings of the IEEE Conference on Computer Vision andPattern Recognition,2015,pp.2197–2206.)等。

发明内容

本发明的目的在于针对人工检索监控视频效率低等问题，提供一种基于深度特征和手工特征结合的监控视频下的行人重识别系统的实现方法。

本发明包括以下步骤：

1)对监控视频进行离线建模，具体包括：

(1)行人检测

应用Fast r-cnn(参考文献Girshick,Ross.“Fast r-cnn.”Proceedings of theIEEE International Conference on Computer Vision.2015.)对视频进行行人检测；

(2)行人特征提取

对视频中检测到的行人图像，提取其深度特征和手工特征；

(2.1)深度特征学习

在进行深度特征学习时，采用网络模型，所述网络模型中融合两个损失函数进行参数学习，一个为softmax损失函数，另一个为改进的三元组损失函数；

a)Softmax损失函数

假设行人类别数目为N，输出层为[Z₁,Z₂,…,Z_N]

第一步为计算归一化概率：

Z_i＝Z_i-max(Z₁,Z₂,…Z_N)

第二步为计算损失函数：

其中，p_i表示当前输入样本输入各个类别的概率，M表示一次迭代中所有样本的数目，k_m表示样本m的真实标签，L计算了M个样本的损失和，为当次迭代的损失；

b)改进的三元组损失函数

该损失通过在线的方法构建三元组，不需要提前确定训练使用的三元组对，当获得整个数据集的的特征后，通过特征间欧式距离，对任意一对正样本对，找到距离两张正样本最近的负样本，构成三元组对，计算其损失；

其优化目标为扩大不同类图像间的距离，使不同类图像特征间距离与同类图像特征间距离的距离差大于设定值α,其损失函数公式如下所示：

L_i,j＝max(max_(i,k)∈Nα-D_i,k,max_(j,l)∈Nα-D_j,l)+D_i,j

其中，P表示正样本对的集合，N表示负样本对的集合；

(2.2)手工特征提取

系统中的手工特征采用了LOMO特征(参考文献S.Liao,Y.Hu,X.Zhu,and S.Z.Li,“Person re-identification by local maximal occurrence representation andmetric learning,”in Proceedings of the IEEE Conference on Computer Vision andPattern Recognition,2015,pp.2197–2206.)，所述LOMO特征对于光照变化和视角变化都具有很好的适应性；

2)在线检索

在进行在线检索时，共进行两个排序，首先对于每个视频中的行人按照同检索目标的相似度进行排序，然后对于所有检索视频计算一个包含检索目标的可能性，将视频进行排序：

(1)距离计算

在提取出待检索行人的手工特征和深度特征后，需要计算其与库中行人的特征距离，其计算公式为：

dist＝α*dist_hand+(1-α)*dist_deep

其中，dist_hand和dist_deep分别表示手工特征和深度特征的欧式距离，α表示手工特征的权重，dist的值越大，表示两个行人图像的相似性越小，依据此值对侯选库中图像进行初次排序；

(2)查询扩展

由于采用根据单张图像进行检索，因此引入查询扩展的方法优化检索结果；

在进行查询扩展时，扩展的图像来自于初次检索的检索结果，将初次检索中与查找行人相似性最高的K个图像作为扩展，把扩展图像与检索图像的特征进行融合后作为新的查询输入，进行二次查询，查询扩展的计算方式表示如下：

其中，q_new为经过查询扩展后的输入，f(·)表示图像的特征，q表示原检索图像，r表示第一次检索后的排序结果；

(3)对视频进行排序

在对每个视频中的行人进行排序后，将每个视频中排在前M的图像的相似度距离求平均值作为视频中包含检索目标的可能性，假设某一视频中的行人图像经排序后的相似度距离为{dist₁,dist₂…,dist_n}，则该视频的可能性的计算公式可表示如下：

dist_video的值越小，该视频中包含检索目标的可能性越大，根据该值由小到大对视频进行排序。

本发明的特点及效果如下：

1、考虑行人重识别数据集较小，限制了深度学习模型的泛化能力，使得其在面对实际应用中多变的环境时识别效果减弱，而手工特征则不会受到数据集的影响，因此，本发明中提出在实际应用中采用将深度特征和手工特征相结合的方法。

2、本发明采用融合分类损失和三元组损失两种损失函数的网络结构进行深度特征学习，两种损失函数的融合充分利用了数据集的标签信息以及图像对的相似性信息，使得在数据集较小的情况下也可以获得有效的具有区分性的行人特征。同时，本发明中采用了改进的三元组损失函数，在计算损失时，通过在线的方式选择训练样本，充分利用一个mini-batch下的所有图像对，相比传统的三元组损失函数，训练效果更优。表1为采用融合的损失函数训练的模型进行特征提取时，在PRID450S数据集上的结果，通过对比其它方法可见，本发明中采用的方法可以取得较优结果。

表1

	rank@1(％)	rank@5(％)
			WARCA	24.6	55.5
CBRA	26.4	57.1
			KISSME	33.0	59.8
EIML	35.0	58.5
			Yang et al.	40.6	—
SCNCD	41.6	68.9
			ECM	41.9	66.3
Shen et al.	44.4	71.6
			Shi et al	44.9	71.7
MED_VL	45.9	73.0
			Kernel HPCA	52.8	80.9
X-KPLS	52.8	82.1
			Chen et al.	55.4	79.3
IDE+LIFT	55.6	80.9

附图说明

图1为行人重识别系统框架。

图2为学习深度特征应用的网络模型。

图3为行人重识别演示系统检索结果。

具体实施方式

以下实施例将结合附图对本发明作详细的说明。

所述行人重识别系统分为离线建模和在线检索两个部分，系统框架如图1所示。在离线建模部分，实现对监控视频的行人检测及特征提取。对真实环境下不断增加的监控视频实时进行离线建模，即不间断的构建监控视频中行人的信息模型。每个行人对应的信息包括行人在视频中出现的位置、行人的手工特征及深度特征。在线检索时，对于检索的行人图片，进行特征提取后，同离线模型中行人图片进行特征比对，将模型中的行人图片按照与检索图片的相似性由高到低进行展示。

本发明包括以下步骤：

1)对监控视频进行离线建模，具体包括：

(1)行人检测

(2)行人特征提取

对视频中检测到的行人图像，提取其深度特征和手工特征；

(2.1)深度特征学习

在进行深度特征学习时，采用网络模型如图2所示。该模型中融合两个损失函数进行参数学习，一个为softmax损失函数，另一个为改进的三元组损失函数(参考文献Song HO,Xiang Y,Jegelka S,et al.Deep Metric Learning via Lifted Structured FeatureEmbedding[J].Computer Science,2015.)

a)Softmax损失函数

假设行人类别数目为N，输出层为[Z₁,Z₂,…,Z_N]

第一步为计算归一化概率：

Z_i＝Z_i-max(Z₁,Z₂,…Z_N)

第二步为计算损失函数：

其中p_i表示当前输入样本输入各个类别的概率，M表示一次迭代中所有样本的数目，

k_m表示样本m的真实标签，L计算了M个样本的损失和，为当次迭代的损失。

b)改进的三元组损失函数

该损失通过在线的方法构建三元组，该方法不需要提前确定训练使用的三元组对，当获得整个数据集的的特征后，通过特征间欧式距离，对任意一对正样本对，找到距离两张正样本最近的负样本，构成三元组对，计算其损失。

L_i,j＝max(max_(i,k)∈Nα-D_i,k,max_(j,l)∈Nα-D_j,l)+D_i,j

其中P表示正样本对的集合，N表示负样本对的集合。

(2.2)手工特征提取

系统中的手工特征采用了LOMO特征(参考文献S.Liao,Y.Hu,X.Zhu,and S.Z.Li,“Person re-identification by local maximal occurrence representation andmetric learning,”in Proceedings of the IEEE Conference on Computer Vision andPattern Recognition,2015,pp.2197–2206.)。该特征对于光照变化和视角变化都具有很好的适应性。

2)在线检索

在进行在线检索时，共进行两个排序，首先，对于每个视频中的行人按照同检索目标的相似度进行排序，然后，对于所有检索视频计算一个包含检索目标的可能性，将视频进行排序。

(1)距离计算

在提取出待检索行人的手工特征和深度特征后，需要计算其与库中行人的特征距离。其计算公式为：

dist＝α*dist_hand+(1-α)*dist_deep

其中dist_hand和dist_deep分别表示手工特征和深度特征的欧式距离。α表示手工特征的权重。dist的值越大，表示两个行人图像的相似性越小。依据此值对侯选库中图像进行初次排序。

(2)查询扩展

由于本系统采用根据单张图像进行检索的方法。因此，在系统中引入查询扩展的方法来优化检索结果。

在进行查询扩展时，扩展的图像来自于初次检索的检索结果，将初次检索中与查找行人相似性最高的K个图像作为扩展，把扩展图像与检索图像的特征进行融合后作为新的查询输入，进行二次查询。查询扩展的计算方式表示如下：

其中q_new为经过查询扩展后的输入，f(·)表示图像的特征，q表示原检索图像，r表示第一次检索后的排序结果。

(3)对视频进行排序

dist_video的值越小，该视频中包含检索目标的可能性越大。根据该值由小到大对视频进行排序。

本发明中采用Caffe深度学习框架进行网络的搭建。应用CaffeNet网络作为基本的网络结构。该网络模型由五层卷积层和两层全连接层构成。在Caffenet最后一个全连接层上连接分类损失函数和三元组损失函数。测试时，采用全连接层的输出作为图像的特征。网络细节如表2所示(ImageData表示图像输入层，Conv表示卷积层，max pool表示最大池化层，fc表示全连接层，loss表示损失函数，SoftmaxWithLoss是分类损失函数，loss_pairs是三元组损失函数)。

表2

类型/名称	输入	输入大小	块大小/步长
				ImageData/data	图像	2272273
Conv/Conv1	data	2272273	11/4
				max pool/pool1	Conv1	555596	3/2
Conv/Conv2	pool1	272796	5/1
				max pool/pool2	Conv2	2727256	3/2
Conv/Conv3	pool2	1313256	3/1
				Conv/Conv4	Conv3	1313384	3/1
Conv/Conv5	Conv4	1313384	3/1
				max pool/pool5	Conv5	1313256	3/2
fc/fc6	pool5	66256
				fc/fc7	fc6	4096
fc/fc8	fc7	4096
				fc/fc_embedding	fc7	4096
loss/SoftmaxWithLoss	fc8	类别数
				loss/loss_pairs	fc_embedding	128

在模型训练中应用ImageNet-1000数据集训练的Caffenet模型。该数据集中共有1000类，共126万张图像。应用Market1501数据集中的训练样本对模型进行fine-tune，使该模型学习的特征适合解决行人重识别任务。

本发明中用DukeMTMC数据集对系统进行测试。该数据集共采集了8个摄像头的视频。测试方法为在一个摄像头下拍摄的视频中截取行人，在另一个摄像头下的视频中进行检索。检索后，每个视频中的行人会按照同检索目标的相似性由高到低排序。图3展示了一次检索后的结果。

Claims

1.行人重识别系统的实现方法，其特征在于包括以下步骤：

1)对监控视频进行离线建模，具体包括：

(1)行人检测

应用Fast r-cnn对视频进行行人检测；

(2)行人特征提取

对视频中检测到的行人图像，提取其深度特征和手工特征；

所述行人特征提取包括：

(2.1)深度特征学习

a)Softmax损失函数

假设行人类别数目为N，输出层为[Z₁,Z₂,…,Z_N]

第一步为计算归一化概率：

Z_i＝Z_i-max(Z₁,Z₂,…Z_N)

第二步为计算损失函数：

b)改进的三元组损失函数

L_i,j＝max(max_(i,k)∈Bα-D_i,k,max_(j,l)∈Bα-D_j,l)+D_i,j

其中，P表示正样本对的集合，B表示负样本对的集合；

(2.2)手工特征提取

系统中的手工特征采用了LOMO特征，所述LOMO特征对于光照变化和视角变化都具有很好的适应性；

2)在线检索

在进行在线检索时，共进行两个排序，首先对于每个视频中的行人按照同检索目标的相似度进行排序，然后对于所有检索视频计算一个包含检索目标的可能性，将视频进行排序；

所述在线检索的具体方法为：

(1)距离计算

dist＝α*dist_hand+(1-α)*dist_deep

(2)查询扩展

(3)对视频进行排序

在对每个视频中的行人进行排序后，将每个视频中排在前M的图像的相似度距离求平均值作为视频中包含检索目标的可能性，假设某一视频中的行人图像经排序后的相似度距离为{dist₁,dist₂…,dist_n}，则该视频的可能性的计算公式表示如下：