CN108280411A

CN108280411A - 一种具有空间变换能力的行人搜索方法

Info

Publication number: CN108280411A
Application number: CN201810024909.9A
Authority: CN
Inventors: 杨华; 李亮奇; 陈琳
Original assignee: Shanghai Jiao Tong University
Current assignee: Shanghai Jiao Tong University
Priority date: 2018-01-10
Filing date: 2018-01-10
Publication date: 2018-07-13

Abstract

本发明提供了一种具有空间变换能力的行人搜索方法，包括：利用卷积神经网络对图像提取初步特征；基于改进的空间变换网络对图像提取行人候选框；利用改进的空间变换网络对行人候选框进行空间变换并下采样到固定维度；利用卷积神经网络进一步提取深层特征输出行人检测结果和行人再识别结果；并设计改良的Loss函数对行人搜索中具有特殊性的行人再识别进行监督。本发明通过基于DenseNet的卷积神经网络将行人检测与行人再识别联合起来并提取更具有辨别力的深层次特征，提高了鲁棒性减少了计算量，在保证行人检测性能的同时提升了行人再识别的性能。

Description

一种具有空间变换能力的行人搜索方法

技术领域

本发明属于计算机视觉技术领域，具体为一种具有空间变换能力的行人搜索方法，适合于多摄像机下的一体化行人检测与再识别。

背景技术

目前，行人检测(pedestrian detection)和行人再识别(person re-identification) 技术在实际应用中发挥着越来越重要的作用，比如安全监控，人群流量监测，行人行为分析等。现如今大部分计算机视觉研究者将行人检测与行人再识别作为两个独立的问题进行研究，但实际上这二者密不可分。行人检测的结果可以进一步用于行人再识别，而行人再识别的研究也建立在良好的检测结果上。Xu在2014 年提出了行人搜索的概念(参见：YuanluXu，Bingpeng Ma，Rui Huang and Liang Lin，“Person search in ascene by jointly modeling people commonness and person uniqueness，”in ACMMM，2014.)，基于人工设计特征利用滑动窗策略对行人检测与行人再识别进行联合研究，然而该方法面临如下三个问题：1)人工设计的特征鲁棒性不好；2)Loss函数的设计不合理；3)样本的空间变换例如拍摄角度、样本尺寸、遮挡等会影响行人搜索的性能。

发明内容

本发明的目的在于克服上述现有技术的不足之处，提出了一种基于深度学习的具有空间变换能力的行人搜索方法，联合研究行人检测与行人再识别问题。首先，本发明基于卷积神经网络提取更具有分辨力的特征，采用了DenseNet网络结构(参见：Gao Huang，Zhuang Liu，Laurens van der Maaten，and Kilian Q Weinberger，“Densely connectedconvolutional networks，”in Proceedings of the IEEE Conference on ComputerVision and Pattern Recognition，2017.)；其次，提出了一种改进的空间变换网络，用于产生行人候选框以及对候选框进行诸如缩放、裁剪、旋转等空间变换；最后，本发明设计了一种改良的Loss函数对行人搜索的训练过程进行监督，在保证行人检测性能的同时提升行人再识别的性能。

本发明是通过以下技术方案实现的。

一种具有空间变换能力的行人搜索方法，包括以下步骤：

第一步：将给定的输入全景图片I(x，y)送入神经网络，按比例缩放到固定尺度，利用Pre-extracting Net(预提取网络)提取初步特征，得到特征图P(x，y，z)；其中，x表示特征图横坐标，y表示特征图纵坐标，z表示特征图的通道维度；

第二步：利用空间变换网络中的Pedestrian Proposal Net(行人建议网络)产生行人候选框；

第三步：利用所有行人候选框的坐标以及特征图P(x，y，z)的尺寸产生用于空间仿射变换的参数θ_ij并组成仿射变换矩阵：

其中，下标i，j表示矩阵索引；

第四步：将所有经过空间仿射变换的行人候选框映射到特征图P(x，y，z)的尺度，然后下采样到固定的尺度大小；

第五步：利用Feature Sharing Net(特征共享网络)进一步提取共享的行人候选框的深层特征，并经过一个全连接层输出为固定维度的向量；

第六步：将第五步获取的向量分别通过三个全连接层输出为用于行人检测的 2维和8维向量以及用于行人重识别的D维向量；其中，2维向量表示当前行人候选框的类别为行人或背景两类，8维向量表示该当前行人候选框分属于两类对应的坐标信息，D维向量用于判断该当前行人的ID。

优选地：第一步所述的Pre-extracting Net中，最初的卷积层卷积核为7×7，激活层为ReLU层，池化层为最大值池化层Max-pooling。

优选地：所述第二步中，产生行人候选框的具体方法是：首先选取一定尺寸和比例的锚点(anchor)，在第一步所得到的特征图的每个位置上生成对应的候选框并利用softmax分类和非极大值抑制保留一定数量的行人候选框。

优选地：所述第三步中，利用所有行人候选框以及第一步所得到的特征图产生用于空间仿射变换的参数θ_ij组成仿射变换矩阵τ_θ并进行空间变换。

优选地：所述第四步中，将空间变换后的行人候选框映射到第一步得到的特征图的尺度并利用空间变换网络中的采样器下采样到固定维度，以处理不同的行人候选框大小不同的问题。

优选地：第五步所述的Feature Sharing Net中，所用的卷积层卷积核为 3×3或1×1，激活层为ReLU层，池化层为平均值池化层Average-pooling。

优选地：还包括第七步：对第六步中输出的行人监测结果和行人再识别结果进行训练。

优选地：对第六步中输出的2维向量和8维向量(即行人检测结果)进行训练的过程，具体为：

行人检测结果由如下的Loss函数监督：

L(p，u，t^u，v)＝L_cls(p，u)+λ[u＝1]L_loc(t^u，v)，

其中，p表示当前行人候选框属于某个类别的概率，u表示类别，其中u为0 时表示背景，u为1时表示前景即行人，t^u表示对应类别的行人候选框的坐标信息， v为groundtruth的坐标信息，λ为平衡两种Loss的系数；而L_cls(p，u)＝-logp_u为分类损失，[u＝1]表示当u＝1时取值为1，否则为0；L_loc(t^u，v)为定位损失，具体形式如下：

式中，x为候选框横坐标，y为候选框纵坐标，w为候选框宽度，h为候选框高度，而(·)的函数形式如下所示：

优选地：对第六步中输出的D维向量(即行人再识别结果)进行训练的过程，具体为：

创建一个用于存储每一个标记样本特征的查找表其中L为数据集中标记行人个体的数目，D为特征向量的维度，为表示矩阵集合；同时建立一个用于存储非标记样本特征的循环队列其中Q表示自定义的循环队列的长度；将ground truth的集合记为将当前待查找的D维向量进行L2归一化后记为β，那么β与查找表V中L个标记样本之间的余弦相似度为V^Tβ；同样地，β与循环对列U中Q个标记样本之间的余弦相似度为U^Tβ；若β的ID为t，且β是一个 ground truth，则对查找表V进行如下更新：

其中，v_t表示查找表V的第t列，γ∈[0，1]为平均系数；然后对v_t进行L2归一化；

当前D维向量β被判别成第i个标记个体的概率p_i为：

而当前D维向量β被判别成循环对列U中第i个非标记个体的概率q_i为：

对行人再识别结果进行监督的Loss函数的优化目标为最大化期望：

本发明提供的一种具有空间变换能力的行人搜索方法，将行人检测问题与行人再识别问题进行联合研究，尤其能够处理行人再识别问题中由于摄像机角度、分辨率、遮挡等造成的空间变换问题。包括步骤为：利用卷积神经网络对图像提取初步特征；基于改进的空间变换网络对图像提取行人候选框；利用改进的空间变换网络对行人候选框进行空间变换并下采样到固定维度；利用卷积神经网络进一步提取深层特征输出行人检测结果和行人再识别结果；并设计改良的Loss函数对行人搜索中具有特殊性的行人再识别进行监督。本发明通过基于DenseNet 的卷积神经网络将行人检测与行人再识别联合起来并提取更具有辨别力的深层次特征，提高了鲁棒性减少了计算量，在保证行人检测性能的同时提升了行人再识别的性能。

与现有技术相比，本发明具有如下有益效果：

1)利用基于DenseNet的卷积神经网络提取具有更高鲁棒性的特征；

2)引入空间变换网络并对其进行改进，用于产生行人候选框并对其做空间变换，提高行人再识别的性能；

3)改良Loss函数用于适应行人搜索的特殊挑战，并减少计算量。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明一实施例的行人搜索流程图。

图2为传统的行人再识别与行人搜索对比示意图；其中，(a)为传统的行人再识别(Traditional person Re-ID)示意图，(b)为行人搜索(Person search) 示意图。

具体实施方式

下面结合附图对本发明的实施例作详细说明：本实施例在以本发明技术方案为前提下进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

参照图1所示，一种具有空间变换能力的行人搜索方法，包括以下几个步骤：

第一步：将给定的输入全景图片I(x，y)送入神经网络，按比例缩放到固定尺度，利用Pre-extractingNet(预提取网络)提取初步特征，得到特征图P(x，y，z)；

其中，x表示特征图横坐标，y表示特征图纵坐标，z表示特征图的通道维度。

第二步：利用空间变换网络中的Pedestrian Proposal Net(行人建议网络)产生行人候选框。

具体步骤为：

1.选定一系列尺寸和比例不同的k种锚点(anchor)。

2.在特征图P(x，y，z)的每个位置(x_i，y_i，z)处根据k种anchor产生k个行人候选框。

3.使用softmax分类器将所有的行人候选框分为前景候选框和背景候选框，并按照softmax分类的前景分值大小降序排列，保留前m个行人候选框。

4.设定阈值ε对保留的m个行人候选框进行非极大值抑制，选取前n个候选框作为Pedestrian Proposal Net的输出。

其中，下标i，j表示矩阵索引。

第四步：将所有经过空间仿射变换的行人候选框映射到特征图P(x，y，z)的尺度，然后下采样到固定的尺度大小。

第五步：利用Feature Sharing Net(特征共享网络)进一步提取共享的行人候选框的深层特征，并经过一个全连接层输出为固定维度的向量。

第六步：将第五步获取的向量分别通过三个全连接层输出为2维、8维和D维向量。其中2维向量表示当前候选框的类别(行人或背景)，8维向量表示该当前行人候选框分属于两类对应的坐标信息，D维向量用于判断该当前行人的ID。

第七步：对第六步中输出的行人监测结果和行人再识别结果进行训练。

其中，2维和8维向量即行人检测的结果，在训练过程中使用的Loss函数为

L(p，u，t^u，v)＝L_cls(p，u)+λ[u＝1]L_loc(t^u，v)，

其中，p表示当前候选框属于某个类别的概率，u表示类别，其中u为0时表示背景，其中u为1时表示前景(即行人)，t^u表示对应类别的行人候选框的坐标信息， v为groundtruth(参考标准)的坐标信息，λ为平衡两种Loss的系数。而 L_cls(p，u)＝-logp_u为分类损失，[u＝1]表示当u＝1时取值为1，否则为0； L_loc(t^u，v)为定位损失，具体形式如下

而D维向量用作行人重识别，在训练过程中对应的Loss函数改良自OnlineInstance Matching(OIM)Loss(参见T.Xiao，S.Li，B.Wang，L.Lin，and X.Wang，“Jointdetection and identification feature learning for person search，”in CVPR，2017.)。行人搜索问题与传统的行人再识别问题不同，其不仅包含待查找的标记行人样本，也包含不是搜索目标的非标记行人样本。本实施例在训练过程中创建一个用于存储每一个标记样本特征的查找表其中L为数据集中标记行人个体的数目，D为特征向量的维度，表示矩阵集合；；同时建立一个用于存储非标记样本特征的循环队列其中Q表示自定义的循环队列的长度。将ground truth的集合记为将当前待查找的D维向量进行L2归一化后记为β，那么β与查找表V中L个标记样本之间的余弦相似度为V^Tβ；同样地，β与循环对列U中Q个标记样本之间的余弦相似度为U^Tβ。若β的ID为t，且β是一个groundtruth，则对查找表V进行如下更新

其中v_t表示查找表V的第t列，γ∈[0，1]为平均系数。然后对v_t进行L2归一化。原OIM Loss用所有属于标记个体的样本特征对查找表V进行更新，计算量较大。

当前D维向量β被判别成第i个标记个体的概率为：

而其被判别成循环对列U中第i个非标记个体的概率为：

该Loss函数的优化目标为最大化期望：

测试过程中直接计算目标行人的D维向量与检测出的行人的D维向量之间的余弦相似度即可。

下面结合具体实例对本实施例进一步描述。

本具体实例采用的图像帧来自数据SPS和PRW。SPS数据集分为两部分，一部分来自手持相机拍摄的街景照片，另一部分来自影视作品的截图，包含了大量的场景和光照变化等等。数据集共含18184张图像，包含96143个行人样本，这些样本包含标记样本和非标记样本。PRW数据集来自清华大学校园的六个监控摄像机拍摄的监控视频，除了场景和光照变化，行人的衣着、姿势、拍摄角度也都发生了很大的变化，是一个更加具有挑战性的数据集。该数据集图像分辨率较高，收集所用的摄像机有五个为高清摄像头，数据集质量较好。

本实施例涉及的具有空间变换能力的行人搜索方法，包括如下具体步骤：

第一步：将给定的输入全景图片I(x，y)送入神经网络，按比例缩放到固定尺度(本实施例中将图片短边缩放到600像素，长边按照原图长宽比进行缩放)，利用Pre-extracting Net提取初步特征，得到特征图P(x，y，z)。

其中，z表示特征图的通道维度。本实施例中z≤512，设计的Pre-extracting Net由一个7×7的卷积层以及三个dense block组成，每个dense block分别包含 6，12，24个dense层。

第二步：利用空间变换网络中的Pedestrian Proposal Net产生行人候选框。

具体步骤为：

1.选定一系列尺寸和比例不同的k种anchor，本实施例中选择三种尺寸128， 256，512以及三种比例1∶1，1∶2，2∶1，共k＝3×3＝9种anchor。

2.在特征图P(x，y，z)的每个位置(x_i，y_i，z)处根据k种anchor产生k个候选框，本实施例中k＝9。

3.使用softmax分类器将所有的候选框分为前景候选框和背景候选框，并按照softmax分类的前景分值大小降序排列，保留前m个候选框。本实施例中m＝12000。

4.设定阈值ε对保留的m个候选框进行非极大值抑制，选取前n个候选框作为Pedestrian Proposal Net的输出。本实施例中ε＝0.7，n＝2000。

第三步：利用所有候选框的坐标以及特征图P(x，y，z)的尺寸产生用于空间仿射变换的参数θ并组成仿射变换矩阵

第四步：将所有经过空间仿射变换的候选框映射到特征图P(x，y，z)的尺度，然后下采样到固定的尺度大小。本实施例中下采样后的特征图大小为7×7。

第五步：利用Feature Sharing Net进一步提取共享的深层特征，并经过一个全连接层输出为固定维度的向量。本实施例中Feature Sharing Net为一个包含16 层的denseblock。

第六步：将第五步获取的向量分别通过三个全连接层输出为2维、8维和D维向量。其中2维向量表示当前候选框的类别(行人或背景)，8维向量表示该候选框分属于两类对应的坐标信息，D维向量用于判断该行人的ID。本实施例中 D＝256。

在测试过程中，同时将目标行人(query)和待查找图片(gallery)送入神经网络提取特征。对于gallery图片，网络最终输出的2维向量和8维向量即行人检测的结果；而对于query图片则无需进行检测，只需提取最终的D维向量与所有gallery中所有属于行人的候选框对应D维向量计算余弦相似度即可得到行人再识别的结果。

通过实验证明，本实施例较之以前方法能很好联合完成行人检测和行人再识别任务。表1和表2为本实施例在SPS数据集上的行人再识别结果，评价标准采用 mAP(meanAverage Precision)和CMC top-K。其中CCF(Convolutional Channel Features)和ACF(Aggregate Channel Features)为两种人工目标检测器， FRCN(Faster R-CNN)为基于深度学习的目标检测器；DSIFT (DenseSIFT-ColorHist)，BoW(Bag of Words)和LOMO(LocalMaximal Occurrence) 是三种常见的行人检测算法，Euclidean，Cosine，KISSME和XQDA是四种距离度量方式，Xiao和Yang是两种一体化的行人检测与再识别方法。

表1

表2

表3为本实施例在PRW数据集上的行人再识别结果。

表3

表4为本实施例在SPS数据集和PRW数据集上的行人检测结果，评价标准采用AP(Average Precision)和召回率(recall)。

表4

可以看出由本实施例得到的结果在保证行人检测性能的同时，较大程度了提升了行人搜索任务中行人再识别的性能。此外，本实施例采用一体化的处理方式，充分地利用了行人检测的结果，极大地降低了实际应用中的研究复杂度。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变形或修改，这并不影响本发明的实质内容。

Claims

1.一种具有空间变换能力的行人搜索方法，其特征在于，包括以下步骤：

第一步：将给定的输入全景图片I(x，y)送入神经网络，按比例缩放到固定尺度，利用Pre-extracting Net提取初步特征，得到特征图P(x，y，z)；其中，x表示特征图横坐标，y表示特征图纵坐标，z表示特征图的通道维度；

第二步：利用空间变换网络中的Pedestrian Proposal Net产生行人候选框；

其中，下标i、j分别为矩阵的索引；

第五步：利用Feature Sharing Net进一步提取共享的行人候选框的深层特征，并经过一个全连接层输出为固定维度的向量；

第六步：将第五步获取的向量分别通过三个全连接层输出为用于行人检测的2维和8维向量以及用于行人重识别的D维向量；其中，2维向量表示当前行人候选框的类别为行人或背景两类，8维向量表示该当前行人候选框分属于两类对应的坐标信息，D维向量用于判断该当前行人的ID。

2.根据权利要求1所述的具有空间变换能力的行人搜索方法，其特征在于：第一步所述的Pre-extracting Net中，最初的卷积层卷积核为7×7，激活层为ReLU层，池化层为最大值池化层Max-pooling。

3.根据权利要求1所述的具有空间变换能力的行人搜索方法，其特征在于：所述第二步中，产生行人候选框的具体方法是：首先选取一定尺寸和比例的锚点，在第一步所得到的特征图的每个位置上生成对应的候选框并利用softmax分类和非极大值抑制保留一定数量的行人候选框。

4.根据权利要求1所述的具有空间变换能力的行人搜索方法，其特征在于：所述第三步中，利用所有行人候选框以及第一步所得到的特征图产生用于空间仿射变换的参数θ_ij组成仿射变换矩阵τ_θ并进行空间变换。

5.根据权利要求1所述的具有空间变换能力的行人搜索方法，其特征在于：所述第四步中，将空间变换后的行人候选框映射到第一步得到的特征图的尺度并利用空间变换网络中的采样器下采样到固定维度，以处理不同的行人候选框大小不同的问题。

6.根据权利要求1所述的具有空间变换能力的行人搜索方法，其特征在于：第五步所述的Feature Sharing Net中，所用的卷积层卷积核为3×3或1×1，激活层为ReLU层，池化层为平均值池化层Average-pooling。

7.根据权利要求1所述的具有空间变换能力的行人搜索方法，其特征在于：还包括第七步：对第六步中输出的行人监测结果和行人再识别结果进行训练。

8.根据权利要求7所述的具有空间变换能力的行人搜索方法，其特征在于：对第六步中输出的2维向量和8维向量即行人检测结果进行训练的过程，具体为：

行人检测结果由如下的Loss函数监督：

L(p，u，t^u，u)＝L_cls(p，u)+λ[u＝1]L_loc(t^u，v)，

其中，p表示当前行人候选框属于某个类别的概率，u表示类别，其中u为0时表示背景，u为1时表示前景即行人，t^u表示对应类别的行人候选框的坐标信息，v为ground truth的坐标信息，λ为平衡两种Loss的系数；而L_cls(p，u)＝-log p_u为分类损失，[u＝1]表示当u＝1时取值为1，否则为0；L_loc(t^u，v)为定位损失，具体形式如下：

式中，x为候选框横坐标，y为候选框纵坐标，w为候选框宽度，h为候选框高度，而的函数形式如下所示：

9.根据权利要求7所述的具有空间变换能力的行人搜索方法，其特征在于：对第六步中输出的D维向量即行人再识别结果进行训练的过程，具体为：

创建一个用于存储每一个标记样本特征的查找表其中L为数据集中标记行人个体的数目，D为特征向量的维度，表示矩阵集合；同时建立一个用于存储非标记样本特征的循环队列其中Q表示自定义的循环队列的长度；将ground truth的集合记为将当前待查找的D维向量进行L2归一化后记为β，那么β与查找表V中L个标记样本之间的余弦相似度为V^Tβ；同样地，β与循环对列U中Q个标记样本之间的余弦相似度为U^Tβ；若β的ID为t，且β是一个ground truth，则对查找表V进行如下更新：

当前D维向量β被判别成第i个标记个体的概率p_i为：