CN104915643A

CN104915643A - 一种基于深度学习的行人再标识方法

Info

Publication number: CN104915643A
Application number: CN201510277708.6A
Authority: CN
Inventors: 赖剑煌; 陈世哲; 郭春超
Original assignee: National Sun Yat Sen University
Current assignee: Guangzhou ziweiyun Technology Co.,Ltd.
Priority date: 2015-05-26
Filing date: 2015-05-26
Publication date: 2015-09-16
Anticipated expiration: 2035-05-26
Also published as: CN104915643B

Abstract

本发明公开了一种基于深度学习的行人再标识方法，包括下述步骤：S1、提出一个适用于行人再标识的深度网络结构，从原始图像的裸像素获得他们的相似度得分；S2、提出一个学习排序算法，用于引导深度网络的学习；S3、对训练样本进行排序单元的采样，训练深度网络使用随机梯度下降算法；S4、深度网络训练完成后，对于一个镜头下的行人，网络直接计算它与另一个镜头下的候选人图像的相似度得分，获得匹配结果。本发明通过深度卷积神经网络的方法来建立原始图像对到对应相似度得分的映射，网络的输入是原始图像的像素值，不需要任何预处理和设计手工特征，并能够利用大规模的数据学习出更具判别性和表达性的特征，大大改善了行人再标识的效果。

Description

一种基于深度学习的行人再标识方法

技术领域

本发明涉及行人再标识的研究领域，特别涉及一种基于深度卷积神经网络进行特征表达和相似度测度学习的行人再标识的方法。

背景技术

目前，大规模视频监控网络已经在各大公共场合得到普及，例如火车站、医院、飞机场等地方正是视频监控的重点地带。然而，由于成本控制、隐私权等方面的因素，监控网络没有全面覆盖到所有区域，即监控的区域是不连续的。这给跨摄像头视频分析(如，跨摄像头行人跟踪，异常行为检测和人流分析等)带来极大的挑战性。若要通过视频监控技术来挖掘摄像机网络之内的行人高层语义信息，一个关键前提就是，将不同摄像头下的同一个行人关联起来，即行人再标识问题。

行人再标识问题是一个极具挑战性的问题。受不同的摄像头参数、角度、分辨率变化，以及环境光照和行人姿态变化的影响，同一个行人处于不同摄像头下的外观会发生剧烈改变。这个问题吸引了很多研究团队的关注，已有了很多较好的算法。近几年来对这一问题的研究主要可以归为以下2类：第一类方法是设计更加鲁棒的特征描述子。由于同一个行人在不同摄像机下表观差异很大，手工设计的特征和描述子并不具有很强的判别性，使得识别效果不佳。第二类方法是通过距离学习(metric learning)，最小化类内差异，最大化类间差异。第二类方法利用了标记样本进行有监督学习，效果通常优于第一类方法，但是依然存在3个主要缺陷：(1)这类方法首先提取特征，然后对提取的特征学习距离度量，因此，学习的距离度量的性能很大程度受到手工设计的特征表达性和判别性的限制；(2)这类方法孤立地看待特征提取和距离学习这两个重要的模块，通常只能获得一个次优的解；(3)这类方法学习到的距离度量是特别针对当前场景的，迁移到另一个新的场景时，匹配的效果会大幅度地降低。

发明内容

本发明的主要目的在于克服现有技术的缺点与不足，提供一种基于深度卷积神经网络进行特征表达和相似度测度学习的行人再标识的方法，引导深度卷积神经网络的训练，学习出从一对行人图像到对应相似度得分的映射，不需要依赖于任何假设、预处理和特征设计，能够取得很好的效果。

为了达到上述目的，本发明采用以下技术方案：

一种基于深度学习的行人再标识方法，包括下述步骤：

S1、提出一个适用于行人再标识的深度网络结构，所述深度网络结构采用八层的结构，包含五层卷积层和三层全连接层，深度网络以一对行人的图像为输入，直接从原始图像的裸像素获得他们的相似度得分；

S2、提出一个学习排序算法，用于引导深度网络的学习，所述学习排序算法不依赖于任何假设，从排序的本质出发，直接惩罚排序的错乱，使得深度网络经过学习后趋于给正确匹配的样本对分配最高的相似度得分；

S3、对训练样本进行排序单元的采样，训练深度网络使用随机梯度下降算法，所述深度网络的训练方法为：随机初始化网络参数，每次迭代随机选取多个排序单元，输入网络中，采用反向传播算法更新网络的参数；所述一个排序单元一个排序单元包含x、它的正确匹配x⁺和G^-的子集R_x；学习排序算法引导深度网络的学习，迭代直到网络在验证集上收敛；

S4、深度网络训练完成后，对于一个镜头下的行人，直接将它与另一个镜头下的候选人图像输入网络，得到对应的相似度得分，根据获得的得分由大到小排列，返回本次查询的排序结果。

优选的，所述前五层卷积层的卷积核看作可以看作是多个局部特征检测器，从输入图像的裸像素开始，提取得到对光照、姿态、摄像机角度变化鲁棒的特征，所述的全连接层融合前面卷积层提取的局部特征，并且进行特征维数的压缩，以获得更鲁棒和紧致的特征表达，最后一层的全连接层只有一个神经元，输出对应的相似度得分。

优选的，步骤S2中的学习排序算法具体为：

假定给定训练集其中是第i个行人被摄像机A和B拍摄到的图像，N为训练集的人数，对于特定的行人图像x，在另一个摄像机中存在一个正确的匹配x⁺，其余的样本都被视为负样本，记为G^-，算法的目标是得到一个映射f(·,·)，输入一对行人的图像，输出他们的相似度得分，最理想的情况是

f (x, x^{+}) > f (x, y), &ForAll; y &Element; G^{-}

所以相对于G^-，x的排序为

rank (x | G^{-}) = \underset{y &Element; G^{-}}{Σ} I {f (x, x^{+}) - f (x, y) < 0},

其中I(·)为符号函数，首先，我们希望把x⁺排在最前，即学习的f(·,·)使得f(x,x⁺)最大，因此，rank(x|G^-)必须尽可能地小；其次，对于两个错误的匹配，没有足够的信息知道哪个错误的匹配跟当前的x更相似，所以直接忽略G^-内部的排序，基于以上两点考虑，通过最小化以下的损失函数来求解f(·,·)

\begin{matrix} J = \underset{x}{Σ} rank (x | G^{-}) \\ = \underset{x}{Σ} \underset{y &Element; G^{-}}{Σ} I {f (x, x^{+}) - f (x, y) < 0} \end{matrix}

为了方便求解，引入一个可导的函数σ(x)＝log₂(1+2^-x)，它是符号函数I(·＜0)的上界，所以问题可以转化为最小化以下的方程

\min_{f} \underset{x}{Σ} \underset{y &Element; G^{-}}{Σ} σ (f (x, x^{+}) - f (x, y)) .

优选的，步骤S3具体为：学习排序算法通过深度卷积神经网络来求解，定义损失函数为

loss = \underset{x}{Σ} \underset{y &Element; G^{-}}{Σ} σ (f (x, x^{+}) - f (x, y))

采用随机梯度下降的算法，迭代更新网络的参数，训练完毕后，整个深度网络刻画了图像对到相似度表达的映射f(·,·)，即输入一对图像就可以直接获得它们的相似度得分。

优选的，提出排序单元采样的算法，每次迭代只考虑使用G^-的一个随机采样的子集来代替G^-，在训练中慢慢地增加R_x的元素个数，由于R_x是随机采样的子集，所以在迭代次数足够多的时候，可以近似地看作对于整个G^-做优化；同时，不需要将所有的数据导入内存，适合于大规模学习

优选的，步骤S4中，将查询的行人图像与待匹配样本集中的图像逐对输入训练好的深度网络，计算得到它们的相似度得分，排序后返回检索的结果。

本发明与现有技术相比，具有如下优点和有益效果：

1、本发明针对已有方法的不足，通过深度卷积神经网络的方法来建立原始图像对到对应相似度得分的映射，网络的输入是原始图像的像素值，不需要任何预处理和设计手工特征。这种方法能够利用大规模的数据学习出更具判别性和表达性的特征，大大改善了行人再标识的效果。

2、本发明提出一个简单有效的学习排序算法，跟深度网络结合在一起，形成一个完整统一的框架。它不依赖于对数据分布等的任何假设，有更强的适用性。因此，在跨数据库的场景下，虽然没有对深度网络进行重新训练，依然能够取得较理想的匹配效果，这是传统的方法不能做到的。

3、本发明的方法跟传统方法有很强的互补性，更传统的方法结合之后，能够取得更加理想的效果。

附图说明

图1为本发明方法的算法流程图。

图2为本发明的深度网络结构图。

图3为本发明的排序单元采样方法的示意图。

图4(a)为本发明测试使用的VIPeR数据集的部分示意图像；图4(b)为本发明测试使用的CUHK01数据集的部分示意图像；示意图中每一行对应同一个摄像机，每一列对应同一个行人。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

实施例

如图1所示，本发明基于深度卷积神经网络的行人再标识方法，包括下述步骤：

S1、提出一个适用于行人再标识的深度网络结构，所述深度网络结构采用八层的结构，包含五层卷积层和三层全连接层，深度网络以一对行人的图像为输入，直接从原始图像的裸像素获得他们的相似度得分。不需要对原始图像做任何预处理，也不需要手工设计复杂的特征和描述子。

如图2所示，所述前五层卷积层的卷积核看作可以看作是多个局部特征检测器，从输入图像的裸像素开始，提取得到对光照、姿态、摄像机角度变化等鲁棒的特征。所述的全连接层融合前面卷积层提取的局部特征，并且进行特征维数的压缩，以获得更鲁棒和紧致的特征表达，最后一层的全连接层只有一个神经元，输出对应的相似度得分。

S2、提出一个学习排序算法，用于引导深度网络的学习，所述学习排序算法不依赖于任何假设，从排序的本质出发，直接惩罚排序的错乱，使得深度网络经过学习后趋于给正确匹配的样本对分配最高的相似度得分，如图1所示。

上述学习排序算法具体为：

f (x, x^{+}) > f (x, y), &ForAll; y &Element; G^{-}

所以相对于G^-，x的排序为

rank (x | G^{-}) = \underset{y &Element; G^{-}}{Σ} I {f (x, x^{+}) - f (x, y) < 0},

\begin{matrix} J = \underset{x}{Σ} rank (x | G^{-}) \\ = \underset{x}{Σ} \underset{y &Element; G^{-}}{Σ} I {f (x, x^{+}) - f (x, y) < 0} \end{matrix}

\min_{f} \underset{x}{Σ} \underset{y &Element; G^{-}}{Σ} σ (f (x, x^{+}) - f (x, y)) .

S3、对训练样本进行排序单元的采样，训练深度网络使用随机梯度下降算法，所述深度网络的训练方法为：随机初始化网络参数，每次迭代随机选取多个排序单元，输入网络中，采用反向传播算法更新网络的参数；所述一个排序单元一个排序单元包含x、它的正确匹配x⁺和G^-的子集R_x，如图3所示。学习排序算法引导深度网络的学习，迭代直到网络在验证集上收敛。

学习排序算法通过深度卷积神经网络来求解，定义损失函数为

loss = \underset{x}{Σ} \underset{y &Element; G^{-}}{Σ} σ (f (x, x^{+}) - f (x, y))

S4、深度网络训练完成后，将查询的行人图像与待匹配样本集中的图像逐对输入训练好的深度网络，计算得到它们的相似度得分，排序后返回检索的结果。

本实施例还提出排序单元采样的算法，每次迭代只考虑使用G^-的一个随机采样的子集来代替G^-，在训练中慢慢地增加R_x的元素个数。这样做的好处是，由于R_x是随机采样的子集，所以在迭代次数足够多的时候，可以近似地看作对于整个G^-做优化；同时，不需要将所有的数据导入内存，更适合于大规模学习。

本发明通过以下实验对本发明的效果进行说明：如图4(a)和图4(b)所示，实验选择两个公共数据集VIPeR和CUHK01，采用单对单的测试协议(single-shot)，比较10次测试的平均CMC曲线。为了体现本发明提出的算法的优越性，我们比较了本发明和近几年效果较好的算法，包括2类算法：基于描述子的方法和基于距离学习的方法。如图表1和表2所示，本发明的方法取得了最佳的效果，尤其是在训练样本充足的前提下(CUHK01数据集的结果，如表2所示)。

表1：VIPeR数据集的实验结果

算法	r＝1	r＝5	r＝10	r＝20
					ELF	12.00	41.50	59.50	74.50
SDALF	19.87	38.89	49.37	65.73
					CPS	21.84	44.00	57.21	71.00
RDC	15.66	38.42	53.86	70.09
					aPRDC	16.14	37.72	50.98	65.95
RankSVM	14.00	37.00	51.00	67.00
					KISSME	19.60	48.00	62.20	77.00
PCCA	19.27	48.89	64.91	80.28
					rPCCA	21.96	54.78	70.97	85.29
eBiCov	20.66	42.00	56.18	68.00
					LMNN-R	20.00	49.00	66.00	79.00
eSDC	26.31	46.61	58.86	72.77
					SalMatch	30.16	52.31	65.54	79.15
MLF	29.11	52.34	65.95	79.87
					LF	24.18	52.00	67.12	82.00
LADF	29.34	61.04	75.98	88.10
					MFA	32.24	65.99	79.66	90.64
kLFDA	32.33	65.78	79.72	90.95
					SCNCD	37.80	68.67	81.01	90.51
Ours	38.37	69.22	81.33	90.43
					MLF+LDAF	43.39	73.04	84.87	93.70
Ours+kLFDA	52.85	81.96	90.51	95.73

表2：CUHK-01数据集的实验结果

算法	r＝1	r＝5	r＝10	r＝20
					L1-norm	10.33	20.64	26.34	33.52
L2-norm	9.84	19.84	26.42	33.13
					SDALF	9.90	22.57	30.33	41.03
eSDC	19.67	32.72	40.29	50.58
					LMNN	13.45	31.33	42.25	54.11
ITML	15.98	35.22	45.60	59.81
					Generic Metric	20.00	43.58	56.04	69.27
SalMatch	28.45	45.85	55.67	67.95
					MLF	34.30	55.06	64.96	74.94
kLFDA	32.76	59.01	69.63	79.18
					Ours	50.41	75.93	84.07	91.32
Ours+kLFDA	57.28	81.07	88.44	93.46

最后，通过上述实验可以看到，本发明的方法与传统的基于低层特征的距离学习的方法(如kLFDA，具体M.Sugiyama,“Dimensionality reduction ofmultimodal labeled data by local fisher discriminant analysis,”The Journal ofMachine Learning Research,vol.8,pp.1027–1061,2007.)具有较强的互补性，结合kLFDA之后效果又有了明显的提升。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于深度学习的行人再标识方法，其特征在于，包括下述步骤：

2.根据权利要求1所述的基于深度学习的行人再标识方法，其特征在于，所述前五层卷积层的卷积核看作可以看作是多个局部特征检测器，从输入图像的裸像素开始，提取得到对光照、姿态、摄像机角度变化鲁棒的特征，所述的全连接层融合前面卷积层提取的局部特征，并且进行特征维数的压缩，以获得更鲁棒和紧致的特征表达，最后一层的全连接层只有一个神经元，输出对应的相似度得分。

3.根据权利要求1所述的基于深度学习的行人再标识方法，其特征在于，步骤S2中的学习排序算法具体为：

假定给定训练集

X = {(x_{i}^{A}, x_{i}^{B}) | i = 1,2, . . ., N},

其中是第i个行人被摄像机A和B拍摄到的图像，N为训练集的人数，对于特定的行人图像x，在另一个摄像机中存在一个正确的匹配x⁺，其余的样本都被视为负样本，记为G^-，算法的目标是得到一个映射输入一对行人的图像，输出他们的相似度得分，最理想的情况是

f (x, x^{+}) > f (x, y), &ForAll; y &Element; G^{-}

所以相对于G^-，x的排序为

rank (x | G^{-}) = \underset{y &Element; G^{-}}{Σ} I {f (x, x^{+}) - f (x, y) < 0},

其中I(·)为符号函数，首先，我们希望把x⁺排在最前，即学习的使得f(x,x⁺)最大，因此，rank(x|G^-)必须尽可能地小；其次，对于两个错误的匹配，没有足够的信息知道哪个错误的匹配跟当前的x更相似，所以直接忽略G^-内部的排序，基于以上两点考虑，通过最小化以下的损失函数来求解

\begin{matrix} J = \underset{x}{Σ} rank (x | G^{-}) \\ = \underset{x}{Σ} \underset{y &Element; G^{-}}{Σ} I {f (x, x^{+}) - f (x, y) < 0} \end{matrix}

\min_{f} \underset{x}{Σ} \underset{y &Element; G^{-}}{Σ} σ (f (x, x^{+}) - f (x, y)) .

4.根据权利要求1所述的基于深度学习的行人再标识方法，其特征在于，步骤S3具体为：学习排序算法通过深度卷积神经网络来求解，定义损失函数为

loss = \underset{x}{Σ} \underset{y &Element; G^{-}}{Σ} σ (f (x, x^{+}) - f (x, y))

采用随机梯度下降的算法，迭代更新网络的参数，训练完毕后，整个深度网络刻画了图像对到相似度表达的映射即输入一对图像就可以直接获得它们的相似度得分。

5.根据权利要求1所述的基于深度学习的行人再标识方法，其特征在于，提出排序单元采样的算法，每次迭代只考虑使用G^-的一个随机采样的子集来代替G^-，在训练中慢慢地增加R_x的元素个数，由于R_x是随机采样的子集，所以在迭代次数足够多的时候，可以近似地看作对于整个G^-做优化；同时，不需要将所有的数据导入内存，适合于大规模学习。

6.根据权利要求1所述的基于深度学习的行人再标识方法，其特征在于，步骤S4中，将查询的行人图像与待匹配样本集中的图像逐对输入训练好的深度网络，计算得到它们的相似度得分，排序后返回检索的结果。