CN110334687A

CN110334687A - 一种基于行人检测、属性学习和行人识别的行人检索增强方法

Info

Publication number: CN110334687A
Application number: CN201910638547.7A
Authority: CN
Inventors: 刘学亮; 杜海骏; 汪萌; 洪日昌; 徐超峰
Original assignee: Hefei Polytechnic University
Current assignee: Hefei University of Technology; Hefei Polytechnic University
Priority date: 2019-07-16
Filing date: 2019-07-16
Publication date: 2019-10-15

Abstract

本发明公开了一种基于行人检测、属性学习和行人识别的行人检索增强方法，包括行人检测、行人重识别、行人属性预测，通过使用行人检测损失函数、属性分类损失函数和身份分类损失函数，利用属性和身份标签通过训练框架识别行人在图像中的位置，最终的损失函数。本发明通过开发一个多任务的深度学习框架来解决行人检索问题，该框架在单个卷积神经网络中综合考虑了行人检测、行人重识别和行人属性预测，提高检索精度。

Description

一种基于行人检测、属性学习和行人识别的行人检索增强方法

技术领域

本发明涉及一种基于行人检测、属性学习和行人识别的行人检索增强方法。

背景技术

行人检索因其在视频监控中的重要作用而受到越来越多的关注，它的目的是在多个非重叠的相机视图中检索感兴趣的人。给定一副图片，任务是通过计算图片与候选图像之间的相似性/距离对候选的所有行人图像进行排序，并返回最相关的图像作为检索结果。它主要由特征提取和度量学习两部分组成。第一部分着重于设计更加健壮的特征。第二个部分是学习一个合适的距离/相似度函数，使用从图像中提取出的特征来更好的描述相似/不同样本之间的相似关系。在早期的工作中，大多数工作仅仅使用一种特征作为检测的依据，最常用的是颜色和纹理特征，即通过图像中行人和背景之间颜色和纹理的差别将行人分离出来进行检索。从不同的相机视角观察人体外观的复杂变换并提取图像特征是另一种已经被提出的方法。另外还有将人体姿态估计引入该工作的方法，该类方法需要借助人体姿势相关的数据集和专门的姿势估计模块才能从复杂的实际场景中检索出与目标相符的行人图像特征。不足的是，姿势数据集和行人检索数据集存在的语义偏差会影响行人检索的精度。

另一方面，由于不同的特征所携带的信息侧重点不同，导致使用单一的特征并不能达到较好的效果。因此部分研究者提出多特征学习的方法对图像中的行人进行检索。在已经提出的方法中，包括通过引入注意力机制和序列相似性估计的方法以及使用多通道的卷积神经网络同时学习行人的全局特征和局部肢体特征的方法等。其基本目的都是学习图像特征和更加准确的度量行人图像之间的差异。除此之外，还有将关注点聚焦于噪声的方法，提出使用一种自定步长离群点检测的方法来评估视频子序列的噪声程度，然后使用加权多距离度量的方法对两幅图像序列进行距离度量。

近年来，越来越多的研究者倾向于通过训练深度神经网络，端到端联合学习特征和度量。在基于深度神经网络的行人检索方法中，识别行人是首要工作。较早提出的方法中有研究者提出在端到端框架下共同处理行人检测和识别。还有人提出使用生成式对抗网络生成的未标记样本对行人检索中的超平面模型进行正则化，从而有效的提高了模型性能。

行人检索的精度直接受到行人检测效果的影响。在行人检测领域，可变形部件模型(DPM)、聚集通道特征(ACF)和局部去相关通道特征(LDCF)是三种典型的基于手工特征和线性分类器的行人检测方法。在已经提出的方法中，试图将行人。

发明内容

本发明的目的是提供一种基于行人检测、属性学习和行人识别的行人检索增强方法，其是一个端到端的行人检测框架，该框架以多任务学习的方式将行人检测、行人重识别和行人属性预测有机地结合起来，提高检索的精度。

为解决上述技术问题，本发明采用如下技术方案：

一种基于行人检测、属性学习和行人识别的行人检索增强方法，包括如下步骤：

S1、行人检测

进行行人检索的第一步是要在给定的图像中检测出行人所在的区域，目前对于该工作取得较好效果的是FasterR-CNN；Faster-RCNN基于深度学习，具有统一性和高精度，是目前非常流行的一种目标检测方法；当从行人图像中检测行人时，使用Faster-RCNN作为检测器；该检测器通过共享卷积特性将RPN和 FastR-CNN合并为一个网络；作为一个全卷积网络，RPN可以同时预测每个位置的目标边界和得分；当检测行人时，首先通过RPN生成高质量的区域建议，然后使用FastR-CNN网络进行检测；根据这些定义，FasterR-CNN具有跟踪多任务损失的目标函数，图像特定的损失函数定义为：

其中L_cls表示分类损失，即超过两个类的log损失,回归损失采用其中R为L1正则化项；p_i表示锚点为物体的预测概率， t_i为描述预测边界框坐标的四维向量；

通过上述损失函数训练网络可以使网络具备行人检测能力，可以在复杂的真实场景图像中确定行人所在的区域；

S2、行人属性预测

对于从实际场景图像中检测出的行人特征图，首先对该行人进行属性预测；用11个行人属性手工标注了PRW数据集，属性标注主要考虑以下因素:性别、发型、服装类型、服装颜色、姿势。具体的，11个属性标注分别为：性别(男、女),头发长度(长、短),(裙子/裙子,裤子),戴着帽子(是的,没有),携带的背包 (是的,没有),携带手提包(是的,没有),携带信使袋(是的,没有),骑自行车(是的,没有),姿势(正面，侧面，背面),上衣颜色(白色,黑色,棕色,灰色,红色,黄色,绿色,蓝色,紫色,其它),下装颜色(白色,黑色,棕色,灰色,红色,黄色,绿色, 蓝色,紫色,其它)；

每个行人有N个属性(N＝11)，使用N个全连接层和N个softmax损失函数来训练行人属性预测器，将行人样本x分配给属性类k(k属于1到n之间，其中n为属性类数)的概率可以表示为其中k属于1到n 之间，其中n为属性类数；同样的，属性分类损失函数可以表示为令y为真实属性标签，那么对于所有的k≠ y，q(y)＝1和q(k)＝0，其它的符号和基本的softmax损失函数相同。

S3、行人重识别

利用半监督在线实例匹配损失来进行身份识别，在训练阶段可以有效地同时考虑带标签的身份和未带标签的身份，其目标是最大限度地提高同一个人实例之间的特征相似性，并使不同人之间的特征相似性最小化；在训练阶段，将一个批次内已标记的特征向量记为x∈R^d，其中d为特征维度；查找表V∈R^d*L用于存储所有标记身份的特性；对于未标记身份，使用循环序列U∈R^d*Q存储该批次内未标记的特征，其中Q为序列大小；在正向传播过程中，利用V^Tx计算批次内样本x和所有已标记标签的余弦相似度。在反向传播过程中，如果目标分类为t，那么查找表的第t列将通过V_t←γV_t+(1-γ)x，其中γ∈[0，1]，同时查找表的第t列需要进行L2正则化；同时利用V^Tx计算批次内样本x和所有为标记身份的余弦相似度，每次迭代后，将新的特征向量加入队列，并删除过期的特征向量，通过下面的softmax函数计算x被识别为i的身份的概率:

其中τ是一个表示概率分布的尺度参数。可以用类似的方法计算x被识别为循环序列中的第i个未标记身份的概率。OIM损失的目标是最大化期望L_id＝E_x[logp_t]；

OIM损失的主要优点是它可以有效的比较批次内样本和所有的标记及未标记的身份。

S4、通过使用行人检测损失函数、属性分类损失函数和身份分类损失函数，利用属性和身份标签通过训练框架识别行人在图像中的位置，最终的损失函数定义为：

其中L_det，L_id和L_att分别表示行人检测，身份分类和属性分类的交叉熵损失。

与现有技术相比，本发明的有益技术效果：

通过开发一个多任务的深度学习框架来解决行人检索问题，该框架在单个卷积神经网络中综合考虑了行人检测、行人重识别和行人属性预测。给定一个包含至少一个行人作为输入的场景图像，首先使用卷积神经网络(CNN)将整个场景图像从原始像素转换为卷积特征图，在特征图的基础上，利用区域建议网络 (RPN)对行人区域进行预测，然后通过候选框(ROI)池化层、两个卷积层、一个全局平均池化层和一个全连接层对行人区域进行预测，提取低维正态化特征。

附图说明

下面结合附图说明对本发明作进一步说明。

图1为本发明流程示意图。

具体实施方式

如图1所示，一种基于行人检测、属性学习和行人识别的行人检索增强方法，包括如下步骤：

S1、行人检测

进行行人检索的第一步是要在给定的图像中检测出行人所在的区域，目前对于该工作取得较好效果的是FasterR-CNN。Faster-RCNN基于深度学习，具有统一性和高精度，是目前非常流行的一种目标检测方法；当从行人图像中检测行人时，使用Faster-RCNN作为检测器。该检测器通过共享卷积特性将RPN和 FastR-CNN合并为一个网络；作为一个全卷积网络，RPN可以同时预测每个位置的目标边界和得分；当检测行人时，首先通过RPN生成高质量的区域建议，然后使用FastR-CNN网络进行检测；根据这些定义，FasterR-CNN具有跟踪多任务损失的目标函数，图像特定的损失函数定义为：

其中L_cls表示分类损失，即超过两个类(行人和背景)的log损失。回归损失采用其中R为L1正则化项，p_i表示锚点为物体的预测概率，t_i为描述预测边界框坐标的四维向量；

通过上述损失函数训练网络可以使网络具备一定的行人检测能力，可以在复杂的真实场景图像中确定行人所在的区域；

S2、行人属性预测

每个行人有N个属性(N＝11)，使用N个全连接层和N个softmax损失函数来训练行人属性预测器，将行人样本x分配给属性类k(k属于1到n之间，其中n为属性类数)的概率可以表示为同样的，属性分类损失函数可以表示为令y为真实属性标签，那么对于所有的k≠y,q(y)＝1和q(k)＝0，其它的符号和基本的softmax 损失函数相同。

S3、行人重识别

利用半监督在线实例匹配(OIM)损失来进行身份识别，在训练阶段可以有效地同时考虑带标签的身份和未带标签的身份，其目标是最大限度地提高同一个人实例之间的特征相似性，并使不同人之间的特征相似性最小化；在训练阶段，将一个批次内已标记的特征向量记为x∈R^d，其中d为特征维度，查找表V∈R^d*L用于存储所有标记身份的特性，对于未标记身份，使用循环序列U∈R^d*Q存储该批次内未标记的特征，其中Q为序列大小，在正向传播过程中，利用V^Tx计算批次内样本x和所有已标记标签的余弦相似度，在反向传播过程中，如果目标分类为t，那么查找表的第t列将通过V_t←γV_t+(1-γ)x，其中γ∈[0，1],同时查找表的第t列需要进行L2正则化。我们同时也利用V^Tx计算批次内样本x和所有为标记身份的余弦相似度，每次迭代后，将新的特征向量加入队列，并删除过期的特征向量，通过下面的softmax函数计算x被识别为i的身份的概率:

其中τ是一个表示概率分布的尺度参数。可以用类似的方法计算x被识别为循环序列中的第i个未标记身份的概率。OIM损失的目标是最大化期望 L_id＝E_x[logp_t];

下表1为在数据集PRW上的性能比较结果：

表1在数据集PRW上的性能比较

Method	mAP(％)	top-1(％)
			ACF-Alex+LOMO+XQDA	10.3	30.6
ACF-Alex+IDE<sub>det</sub>	17.5	43.6
			ACF-Alex+IDE<sub>det</sub>+CWS	17.8	45.2
LDCF+LOMO+XQDA	11	31.1
			LDCF+IDE<sub>det</sub>	18.3	44.6
LDCF+IDE<sub>det</sub>+CWS	18.3	45.5
			DPM-Alex+LOMO+XQDA	13	34.1
DPM-Alex+IDE<sub>det</sub>	20.3	47.4
			DPM-Alex+IDE<sub>det</sub>+CWS	20.5	48.3
OIM(Baseline)	20.3	58.9
			本发明	24.8	65.5

由上表1可知，本发明的检索增强方法相对于其它方法在行人检索时精确度有明显的提升。

上所述的实施例仅是对本发明的优选方式进行描述，并非对本发明的范围进行限定，在不脱离本发明设计精神的前提下，本领域普通技术人员对本发明的技术方案做出的各种变形和改进，均应落入本发明权利要求书确定的保护范围内。

Claims

1.一种基于行人检测、属性学习和行人识别的行人检索增强方法，其特征在于，包括如下步骤：

S1、行人检测

从行人图像中检测行人，使用Faster-RCNN作为检测器，该检测器通过共享卷积特性将RPN和Fast R-CNN合并为一个网络，作为一个全卷积网络，RPN可以同时预测每个位置的目标边界和得分；当检测行人时，首先通过RPN生成高质量的区域建议，然后使用Fast R-CNN网络进行检测；

建立Faster R-CNN具有跟踪多任务损失的目标函数，图像特定的损失函数定义为：

其中L_cls表示分类损失，即超过两个类的log损失,回归损失采用其中R为L1正则化项；p_i表示锚点为物体的预测概率，t_i为描述预测边界框坐标的四维向量，通过上述损失函数训练网络可以使网络具备行人检测能力，可以在复杂的真实场景图像中确定行人所在的区域；

S2、行人属性预测

对于从实际场景图像中检测出的行人特征图，对该行人进行属性预测，采用多个行人属性手工标注PRW数据集；

每个行人有N个属性，使用N个全连接层和N个softmax损失函数来训练行人属性预测器；将行人样本x分配给属性类k的概率可以表示为其中k属于1到n之间，其中n为属性类数；同样的，属性分类损失函数可以表示为令y为真实属性标签，那么对于所有的k≠y，q(y)＝1和q(k)＝0，其它的符号和基本的softmax损失函数相同；

S3、行人重识别

利用半监督在线实例匹配损失来进行身份识别，在训练阶段可以有效地同时考虑带标签的身份和未带标签的身份，其目标是最大限度地提高同一个人实例之间的特征相似性，并使不同人之间的特征相似性最小化；

在训练阶段，将一个批次内已标记的特征向量记为x∈R^d，其中d为特征维度；查找表V∈R^d*L用于存储所有标记身份的特性；

对于未标记身份，使用循环序列U∈R^d*Q存储该批次内未标记的特征，其中Q为序列大小；在正向传播过程中，利用V^Tx计算批次内样本x和所有已标记标签的余弦相似度；在反向传播过程中，如果目标分类为t，那么查找表的第t列将通过V_t←γV_t+(1-γ)x，其中γ∈[0，1]，同时查找表的第t列需要进行L2正则化；

同时利用V^Tx计算批次内样本x和所有为标记身份的余弦相似度，每次迭代后，将新的特征向量加入队列，并删除过期的特征向量，通过下面的softmax函数计算x被识别为i的身份的概率:

其中τ是一个表示概率分布的尺度参数，可以用类似的方法计算x被识别为循环序列中的第i个未标记身份的概率；OIM损失的目标是最大化期望L_id＝E_x[logp_t]；OIM损失的主要优点是它可以有效的比较批次内样本和所有的标记及未标记的身份；

2.根据权利要求1所述的基于行人检测、属性学习和行人识别的行人检索增强方法，其特征在于，所述步骤S2中，属性标注主要考虑以下因素:性别、发型、服装类型、服装颜色、姿势。

3.根据权利要求2所述的基于行人检测、属性学习和行人识别的行人检索增强方法，其特征在于，所述步骤S2中，采用11个行人属性手工标注PRW数据集，11个属性标注分别为：性别，头发长度，裙子或裤子，戴着帽子，携带的背包，携带手提包，携带信使袋，骑自行车，姿势，上衣颜色，下装颜色。

4.根据权利要求3所述的基于行人检测、属性学习和行人识别的行人检索增强方法，其特征在于，所述头发长度包括长发与短发两个类别。

5.根据权利要求3所述的基于行人检测、属性学习和行人识别的行人检索增强方法，其特征在于，所述姿势包括正面、侧面、背面。

6.根据权利要求1所述的基于行人检测、属性学习和行人识别的行人检索增强方法，其特征在于，上衣颜色或下装颜色均包括白色、黑色、棕色、灰色、红色、黄色、绿色、蓝色、紫色及其它。