CN109447175A

CN109447175A - 结合深度学习与度量学习的行人再识别方法

Info

Publication number: CN109447175A
Application number: CN201811320953.0A
Authority: CN
Inventors: 侯丽; 刘琦; 陈珍海; 许媛; 吕军
Original assignee: Huangshan University
Current assignee: Huangshan University
Priority date: 2018-11-07
Filing date: 2018-11-07
Publication date: 2019-03-08

Abstract

本发明公开了一种结合深度学习与度量学习的行人再识别方法，其步骤包括：提取行人图像形变区域深度卷积特征；计算行人图像形变区域马氏和杰卡德距离度量；优化跨摄像机行人的距离度量。本发明借助区域提名网络，获取行人图像的局部形变区域，充分应用行人外观的局部形变区域的深度卷积特征，表示行人图像的多处细节信息，并结合行人图像形变区域的马氏距离和杰卡德距离，应用模拟退火算法，学习跨摄像机行人最优的距离函数，实现跨摄像机行人最优的距离度量，从而提高行人再识别的辨识力和鲁棒性。

Description

结合深度学习与度量学习的行人再识别方法

技术领域

本发明涉及机器学习与模式识别技术领域，具体涉及一种结合深度学习与度量学习的行人再识别方法。

背景技术

大规模的智能视频监控系统在公共安全、智能交通、国防和军事等领域广泛使用，在提高城市安全管理水平和维护社会稳定方面正发挥着越来越重要的作用。该系统除满足图像/视频数据的采集、传输、存储和显示等基本要求，更需要具备对图像/视频数据的智能分析功能。行人再识别作为其中一种重要的智能视频分析技术，其任务是让计算机去判断出现于不同摄像机视域下的行人图像是否为同一行人目标。

因监控场景的多变性和行人外观变化的复杂性，对行人再识别的研究极具挑战性。当前对行人再识别的研究主要集中于两方面：一是提取具有辨识力的特征来表示行人的外观，二是探索具有辨识力的距离度量学习方法。然而，大多数手工提取的特征，如颜色、纹理、形状特征等，在进行跨摄像机行人匹配时，或者辨识力不够，或者对视角变化不具有鲁棒性。深度卷积特征虽然在一定程度上弥补了上述手工提取特征的不足，但因不同摄像机下行人图像相应位置特征未对齐问题，严重影响行人再识别性能。而距离度量学习是从优化特征距离度量角度，虽然在一定程度上减轻了不同摄像机行人匹配时的外观差异，但是只应用同一个数据集上有限的训练数据，难于获取具有泛化能力的马氏距离度量模型。此外，因不同摄像机下行人外观的显著变化，导致直接应用训练过程中获取的马氏距离度量去计算行人的特征距离时产生的初始排序结果可能不够准确，从而影响行人再识别的性能。

发明内容

本发明的目的在于克服上述现有技术的缺陷，将行人图像的辨识特征提取和特征距离优化相结合，提供了一种结合深度学习与度量学习的行人再识别方法，能够充分地应用行人外观的局部形变区域的深度卷积特征，表示行人图像的多处细节信息，并结合行人图像形变区域的马氏距离和杰卡德距离，应用模拟退火算法，学习跨摄像机行人最优的距离函数，实现跨摄像机行人最优的距离度量，从而提高行人再识别的辨识力和鲁棒性。

按照本发明所采用的技术方案，所述结合深度学习与度量学习的行人再识别方法包括以下步骤：

步骤1，在行人标准姿态数据集上训练区域提名网络，将整张行人图像划分成多个局部形变区域；

步骤2，应用多个行人再识别数据集的训练样本，训练具有多级卷积和池化的深度卷积神经网络，获取整张行人图像区域，即全局区域，以及多个局部形变区域的深度卷积特征；

步骤3，应用行人图像全局区域和多个局部形变区域提取的深度卷积特征，学习行人图像全局区域和多个局部形变区域的马氏距离度量模型；

步骤4，基于行人图像全局区域和多个局部形变区域的马氏距离度量，借助跨摄像机行人相互最近邻比较，获取行人图像全局区域和多个局部形变区域的杰卡德距离度量；

步骤5，应用模拟退火算法将行人图像全局区域和多个局部形变区域的马氏距离和杰卡德距离进行加权融合，得到跨摄像机行人优化的距离度量；相同身份目标较不同身份目标，该距离度量更近。

具体的，步骤1中，应用区域提名网络，在包含各种各样行人姿态的行人标准姿态数据集上进行训练，产生7个矩形区域候选，用于表示行人图像的7个局部形变区域，其中包括3个大区域，即头肩区域、上身区域、下身区域，和4个小区域，即左臂区域、右臂区域、左腿区域、右腿区域。

具体的，步骤1中训练区域提名网络包括以下步骤：

步骤1.1，从整张行人图像中定位14个体关节，包括：头关节、颈关节、左肩关节、右肩关节、左肘关节、左腕关节、右肘关节、右腕关节、左髋关节、右髋关节、左膝关节、左踝关节、右膝关节、右踝关节；应用全卷积结构，将行人图像作为输入，对每个人体关节计算1个特征响应图，基于每个人体关节的特征响应图，通过寻找具有最大特征值的位置坐标，实现每个人体关节的定位；

步骤1.2，基于已定位的14个体关节，获取整张行人图像的3个大区域和4个小区域，方法为：

14个已定位的体关节分配给3个大集合和4个小集合，所述3个大集合分别为：头关节、颈关节、左肩关节、右肩关节组成的集合，左肩关节、右肩关节、左肘关节、左腕关节、右肘关节、右腕关节、左髋关节、右髋关节组成的集合，左髋关节、右髋关节、左膝关节、左踝关节、右膝关节、右踝关节组成的集合；所述4个小集合分别为：左肩关节、左肘关节、左腕关节组成的集合，右肩关节、右肘关节、右腕关节组成的集合，左髋关节、左膝关节、左踝关节组成的集合，右髋关节、右膝关节、右踝关节组成的集合；基于3个大集合和4个小集合包含的体关节的位置坐标，分别获取3个大区域和4个小区域的边界框，用于表示行人图像的3个大区域和4个小区域。

具体的，步骤2中训练深度卷积神经网络包括以下步骤：

步骤2.1，在第一级卷积和池化阶段，输入图像经缩放后通过三个卷积层和一个Inception模块，通过卷积输出第一级全局特征图；基于由区域提名网络生成的所述3个大区域，从第一级全局特征图中池化出3个第一级大区域特征图；

步骤2.2，在第二级卷积和池化阶段，第一级全局特征图和3个第一级大区域特征图通过一个Inception模块，卷积输出第二级全局特征图和3个第二级大区域特征图；基于由区域提名网络生成的所述4个小区域，从第二级全局特征图池化出4个第二级小区域特征图；

步骤2.3，在第三级卷积和池化阶段，第二级全局特征图、第二级大区域特征图、第二级小区域特征图通过一个Inception模块，再通过一个全局池化层和一个内积层，将Inceptionn模块输出结果转换为一个特征向量；该层输出第三级全局和7个局部区域特征向量，分别代表整张行人图像、3个大区域和 4个小区域的深度卷积特征。

具体的，步骤3中，马氏距离度量模型采用跨视图二次判别分析距离度量学习方法，一方面用不同摄像机下的行人图像作为训练样本，学习一个低维的子空间W＝(w₁,w₂,...,w_r)∈R^d×r，由r个d维的向量w_i,i＝1,2,...,r组成，其中维度r小于维度d，另一方面在这个低维子空间里学习一个距离函数

d_W(x,y)＝(x-y)^TW[(W^T∑_IW)^-1-(W^T∑_EW)^-1]W^T(x-y),

其中(x,y)表示来自不同摄像机下的一对行人样本，x和y分别表示d维空间的一个样本的特征向量，∑_I和∑_E分别表示相同身份行人间的协方差矩阵和不同身份行人间的协方差矩阵。

具体的，步骤3中，基于整张行人图像全局区域和7个局部形变区域的深度卷积特征，应用跨视图二次判别分析距离度量学习方法，学习相应区域的马氏距离度量模型。

具体的，步骤4中，基于整张行人图像全局区域和7个局部形变区域的马氏距离度量模型，计算相应区域的马氏距离，通过构建测试样本的相互k近邻R(p,k)＝{g_i|(g_i∈N(p,k))∩(p∈N(g_i,k))}，其中N(p,k)表示测试样本p的k近邻， N(g_i,k)表示查询样本g_i的k近邻，查询集G＝{g_i|i＝1,2,...,N}，定义测试样本p和查询样本g_i的杰卡德距离

具体的，步骤5中，学习一个加权的距离函数其中分别表示行人图像全局区域和7个局部形变区域马氏距离和杰卡德距离的权重，分别表示行人图像全局区域和7个局部形变区域的马氏距离和杰卡德距离，通过模拟退火算法学习使优化的跨摄像机行人图像的绝对特征距离d满足：相同身份行人目标特征距离更近，不同身份行人目标特征距离更远。

本发明的技术方案与现有技术相比，能够取得以下有益效果：

1、本发明借助区域提名网络，获取行人图像的局部形变区域，充分应用行人外观的局部形变区域的深度卷积特征，表示行人图像的多处细节信息，，能够使提取的行人图像特征更具辨识力和鲁棒性，有助于解决跨摄像机行人图像相应位置特征未对齐问题；

2、在跨摄像机行人图像特征距离度量上，本发明结合行人图像形变区域的马氏距离和杰卡德距离，应用模拟退火算法，学习跨摄像机行人最优的距离函数，能够更为准确地计算跨摄像机行人图像之间的特征距离，有助于实现跨摄像机行人图像的正确匹配。

附图说明

图1是本发明结合深度学习与度量学习的行人再识别方法的流程图。

图2是本发明行人图像的14个体关节和7个局部形变区域的示意图。

图3是本发明基于区域深度卷积特征的外观表示流程图。

图4是本发明Inception模块的流程图。

图5是本发明基于模拟退火加权距离融合的相似度度量流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚，以下结合附图，对本发明进行进一步详细说明。

本发明的基本思路在于，提出一种结合深度学习与度量学习的行人再识别方法，其流程图如图1所示。本发明首先在行人标准姿态数据集上训练区域提名网络，用于把整张行人图像分成7个局部形变区域，包括头肩区域、上身区域、下身区域、左臂区域、右臂区域、左腿区域、右腿区域。然后联合多个行人再识别数据集，借助区域提名网络生成的局部形变区域，应用多级卷积和池化的深度卷积网络，提取整张行人图像全局区域和若干局部区域的深度卷积特征，用于表示行人图像的全身外观信息和多处细节外观信息。进一步，基于行人图像全局和7个局部形变区域提取的深度卷积特征，应用跨视图二次判别分析距离度量学习方法，学习行人图像全局和7个局部形变区域的马氏距离度量模型，获取跨摄像机行人图像全局和局部形变区域的马氏距离度量，并在此基础上，基于跨摄像机行人相互最近邻比较，获取行人图像全局和7个局部形变区域的杰卡德距离。最后，将行人图像全局和7个局部形变区域的马氏距离和杰卡德距离进行加权距离融合，并应用模拟退火算法，学习相应行人图像全局和7个局部形变区域的距离权重系数，获取跨摄像机行人优化的距离度量，用于跨摄像机行人的最佳匹配。

如图1所示，本发明提供的结合深度学习与度量学习的行人再识别方法包括以下步骤：

步骤1，在行人标准姿态数据集上训练区域提名网络，将整张行人图像划分成多个局部形变区域。应用区域提名网络，在包含各种各样行人姿态的行人姿态基准数据集上进行训练，产生7个矩形区域候选，用于表示行人图像的7个局部形变区域，其中包括3个大区域，即头肩区域、上身区域、下身区域，和4个小区域，即左臂区域、右臂区域、左腿区域、右腿区域。训练区域提名网络包括以下步骤：

步骤1.1，从整张行人图像中定位14个体关节，包括头关节、颈关节、左肩关节、右肩关节、左肘关节、左腕关节、右肘关节、右腕关节、左髋关节、右髋关节、左膝关节、左踝关节、右膝关节、右踝关节，如图2所示；应用全卷积结构，将行人图像作为输入，对每个人体关节计算1个特征响应图F_i(x,y)，i＝1,2,...,14。采用序列框架结构由粗到精的方式产生这些响应图，对每个人体关节位置进行越来越精细的估计。基于每个人体关节的特征响应图，通过寻找具有最大特征值的位置坐标[x_i,y_i],i＝1,2,...,14,即：[x_i,y_i]＝argmaxF_i(x,y)，实现每个人体关节的定位；

步骤1.2，基于已定位的14个体关节，获取整张行人图像的3个大区域和4个小区域。方法为：将上述14个体关节首先分配给3个大集合(包含较多关节组合)，分别为：和4 个的小集合(包括较少关节组合)，分别为如图2虚线框所示，14个体关节在图中分别用节点序号1～14表示；然后基于3个大集合和4个小集合包含的体关节的位置坐标[x_i,y_i],i＝1,2,...,14，分别获取3个大区域和4个小区域的边界框用于表示行人图像的3个大区域，即头肩区域上身区域下身区域和4个小区域，即左臂区域右臂区域左腿区域右腿区域

步骤2，应用多个行人再识别数据集的训练样本，训练具有多级卷积和池化的深度卷积神经网络，如图3所示，获取整张行人图像区域，即全局区域，以及多个局部形变区域的深度卷积特征。深度神经网络包括3个卷积阶段和2 个池化阶段。从不同级卷积和池化阶段的全局特征中获取每个体区域局域特征。本步骤中，训练深度卷积神经网络具体包括以下步骤：

步骤2.1，在第一级卷积和池化阶段，输入图像缩放到96*96大小后，通过三个卷积层和图4所示的一个Inception模块，通过卷积输出第一级24*24 大小的全局特征图。基于由区域提名网络生成的3个大区域，从第一级全局特征图中池化出3个24*24大小的第一级大区域特征图；

步骤2.2，在第二级卷积和池化阶段，第一级24*24大小的全局特征图和 3个24*24大小的第一级大区域特征图通过一个图4所示的Inception模块，卷积输出12*12大小的第二级全局特征图和3个12*12第二级大区域特征图；基于由区域提名网络生成的4个小区域，从第二级全局特征图池化出4个 12*12大小的第二级小区域特征图；

步骤2.3，在第三级卷积和池化阶段，12*12大小的第二级全局特征图、 12*12大小的第二级大区域特征图、12*12大小的第二级小区域特征图通过一个图4所示的Inception模块，输出的每个特征图的维度降为6*6大小，再通过一个全局池化层和一个内积层，将Inception模块输出结果转换为一个256 维特征向量。该层输出8个256维的第三级全局和7个局部形变区域特征向量，分别代表整张行人图像、3个大区域和4个小区域的深度卷积特征。

步骤3，应用步骤2.3中获取的行人图像全局区域和多个局部形变区域提取的256维深度卷积特征，学习行人图像全局区域和多个局部形变区域的马氏距离度量模型。马氏距离度量模型采用跨视图二次判别分析距离度量学习方法，跨视图二次判别分析一方面用不同摄像机下的行人图像的样本特征作为训练数据{X,Y}，X＝(x₁,x₂,...,x_n)∈R^d×n，Y＝(y₁,y₂,...,y_n)∈R^d×n,其中X和Y表示源于不同摄像机的样本数据，都由特征维度为d的n个样本组成，学习一个低维的子空间W＝(w₁,w₂,...,w_r)∈R^d×r，由r个d维的向量w_i,i＝1,2,...,r组成，其中维度r小于维度d，另一方面在这个低维子空间里学习一个优化的距离函数

d_W(x,y)＝(x-y)^TW[(W^T∑_IW)^-1-(W^T∑_EW)^-1]W^T(x-y),

其中(x,y)表示来自不同摄像机下的一对行人样本，x和y分别表示d维空间的一个样本的特征向量，∑_I和∑_E分别表示相同身份行人间的协方差矩阵和不同身份行人间的协方差矩阵。基于步骤2.3整张行人图像全局区域和7个局部形变区域的8个256维深度卷积特征，应用跨视图二次判别分析距离度量学习方法，学习相应区域的马氏距离度量模型。基于在训练集学习获取的行人图像全局区域和7个局部形变区域的马氏距离度量模型，在测试集中可获取跨摄像机行人全局区域和7个形变区域的马氏距离度量。

步骤4，基于行人图像全局区域和多个局部形变区域的马氏距离度量，借助跨摄像机行人相互最近邻比较，获取行人图像全局区域和多个局部形变区域的杰卡德距离度量。基于整张行人图像全局区域和7个局部形变区域的马氏距离度量模型，计算相应区域的马氏距离，通过构建测试样本的相互k近邻 R(p,k)＝{g_i|(g_i∈N(p,k))∩(p∈N(g_i,k))}，其中N(p,k)表示测试样本p的k近邻， N(g_i,k)表示查询样本g_i的k近邻，查询集G＝{g_i|i＝1,2,...,N}，定义测试样本p和查询样本g_i的杰卡德距离基于步骤2.3的256 维的第三级全局和7个局部形变区域的特征向量，可获取跨摄像机行人图像全局区域和7个局部形变区域的杰卡德距离度量。

步骤5，应用模拟退火算法将行人图像全局区域和多个局部形变区域的马氏距离和杰卡德距离进行加权融合，获取跨摄像机行人优化的距离度量，如图5所示。相同身份目标较不同身份目标，该距离度量更近。学习一个加权的距离函数其中分别表示行人图像全局区域和7 个局部形变区域马氏距离和杰卡德距离的权重，分别表示行人图像全局区域和7个局部形变区域的马氏距离和杰卡德距离，通过模拟退火算法学习使优化的距离函数d满足：相同身份行人目标特征距离更近，不同身份行人目标特征距离更远。通过优化以下的损失函数L最小实现这一目标：

其中约束条件为：

表示相同身份样本的归一化特征距离，表示不同身份样本的归一化特征距离。引入正则项以避免不重要的比较小的w_n。β为正则化参数。上述优化问题通过模拟退火算法来实现。在算法的开始，损失函数L的权重被初始化作为当前解L_current，然后基于当前解L_current产生新解L_new。如果新解的损失函数L_current小于当前解的损失函数函数L_new，接受新解L_new。否则，以概率接受新解。其实现细节如下：

输入：同类样本和不同类样本各个特征的归一化距离正则化参数β，算法停止的最小温度T_min。

输出：各个特征距离的权重

初始化：设置所有特征权重为0.5；

重复：

产生新解w_new

计算新解的损失函数值L_new

如果L_new＜L_current

L_current＝L_new，w_current＝w_new

否则ΔE＝L_new-L_current，

如果P＞0-1之间的随机数

L_current＝L_new，w_current＝w_new

结束条件

T＝T(1-冷却率)

直到T＜T_min。

以上为伪代码译成文字表达的形式，包括循环语句、条件语句，可供本领域技术人员参考。

Claims

1.结合深度学习与度量学习的行人再识别方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的结合深度学习与度量学习的行人再识别方法，其特征在于，步骤1中，应用区域提名网络，在包含各种各样行人姿态的行人标准姿态数据集上进行训练，产生7个矩形区域候选，用于表示行人图像的7个局部形变区域，其中包括3个大区域，即头肩区域、上身区域、下身区域，和4个小区域，即左臂区域、右臂区域、左腿区域、右腿区域。

3.根据权利要求2所述的结合深度学习与度量学习的行人再识别方法，其特征在于，步骤1中，训练区域提名网络包括以下步骤：

4.根据权利要求2所述的结合深度学习与度量学习的行人再识别方法，其特征在于，步骤2中，训练深度卷积神经网络包括以下步骤：

步骤2.3，在第三级卷积和池化阶段，第二级全局特征图、第二级大区域特征图、第二级小区域特征图通过一个Inception模块，再通过一个全局池化层和一个内积层，将Inceptionn模块输出结果转换为一个特征向量；该层输出第三级全局和7个局部区域特征向量，分别代表整张行人图像、3个大区域和4个小区域的深度卷积特征。

5.根据权利要求1所述的结合深度学习与度量学习的行人再识别方法，其特征在于，步骤3中，马氏距离度量模型采用跨视图二次判别分析距离度量学习方法，一方面用不同摄像机下的行人图像作为训练样本，学习一个低维的子空间W＝(w₁,w₂,...,w_r)∈R^d×r，由r个d维的向量w_i,i＝1,2,...,r组成，其中维度r小于维度d，另一方面在这个低维子空间里学习一个距离函数

d_W(x,y)＝(x-y)^TW[(W^T∑_IW)^-1-(W^T∑_EW)^-1]W^T(x-y),

6.根据权利要求2所述的结合深度学习与度量学习的行人再识别方法，其特征在于，步骤3中，基于整张行人图像全局区域和7个局部形变区域的深度卷积特征，应用跨视图二次判别分析距离度量学习方法，学习相应区域的马氏距离度量模型。

7.根据权利要求2所述的结合深度学习与度量学习的行人再识别方法，其特征在于，步骤4中，基于整张行人图像全局区域和7个局部形变区域的马氏距离度量模型，计算相应区域的马氏距离，通过构建测试样本的相互k近邻R(p,k)＝{g_i(g_i∈N(p,k))∩(p∈N(g_i,k))}，其中N(p,k)表示测试样本p的k近邻，N(g_i,k)表示查询样本g_i的k近邻，查询集G＝{g_ii＝1,2,...,N}，定义测试样本p和查询样本g_i的杰卡德距离

8.根据权利要求2所述的结合深度学习与度量学习的行人再识别方法，其特征在于，步骤5中，学习一个加权的距离函数其中分别表示行人图像全局区域和7个局部形变区域马氏距离和杰卡德距离的权重，分别表示行人图像全局区域和7个局部形变区域的马氏距离和杰卡德距离，通过模拟退火算法学习使优化的跨摄像机行人图像的绝对特征距离d满足：相同身份行人目标特征距离更近，不同身份行人目标特征距离更远。