CN112084895B

CN112084895B - 一种基于深度学习的行人重识别方法

Info

Publication number: CN112084895B
Application number: CN202010861035.XA
Authority: CN
Inventors: 马千里; 马驰
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2020-08-25
Filing date: 2020-08-25
Publication date: 2022-07-29
Anticipated expiration: 2040-08-25
Also published as: CN112084895A

Abstract

本发明公开一种基于深度学习的行人重识别方法，包括：步骤1：对行人图片数据集进行预处理，将图片按照行人ID进行分类，对图片进行增强；步骤2：选用残差网络作为基本的网络结构，调整网络的结构；步骤3：使用BatchHard算法构建三元组损失函数；步骤4：将增强后的行人图片数据集输入到调整后的网络中进行训练，根据损失函数变化情况，得到训练好的网络模型；步骤5：将待识别的行人图片和视频输入训练好的网络模型，输出行人重识别信息。本发明通过深度学习的方法实现了行人重识别，可用于行人查找，目标追踪监控领域。

Description

一种基于深度学习的行人重识别方法

技术领域

本发明涉及计算机视觉处理，尤其涉及一种基于深度学习的行人重识别方法，可以应用于视频监控、嫌疑追踪、人员查找等领域。

背景技术

随着社会的飞速发展，社会公共安全问题越来越受到人们的关注，大型公共场所都已经安装了监控摄像头，随之而来的是海量的视频监控数据，如何利用好这些海量数据，使得监控技术更加高效和智能化成为了一个有待解决的问题，行人重识别就是视频监控中核心的环节，行人重识别是判断在不同监控视频下出现的行人是否属于同一个行人的技术，传统的行人重识别技术主要采用人工提取特征的方法，效率低、准确性也不高。现有技术中已有基于机器学习的行人重识别方法，但存在对行人视觉特征提取不佳导致的重识别准确率低的问题。

发明内容

发明目的：针对现有技术的不足，本发明提出一种基于深度学习的行人重识别方法，能够提高识别的准确度和效率。

技术方案：一种基于深度学习的行人重识别方法，包括以下步骤：

步骤1：对行人数据集进行预处理，将图片按照行人ID进行分类，对图片进行增强；

步骤2：选用残差网络作为基本的网络结构，调整网络的结构；

步骤3：使用BatchHard算法构建三元组损失函数；

步骤4：将数据集的图片输入到调整后的网络中，根据损失函数变化情况，得到训练好的网络模型；

步骤5：使用训练好的网络模型进行行人重识别，输入想要查询行人的图片和视频，输出行人重识别信息。

其中，步骤2所选用的残差网络为ImageNet上预训练好的残差网络，使用带参数的ReLU作为残差网络的激活函数，即PReLU，定义为：

其中，i表示不同通道数，a_i为激活函数参数，x_i为行人图片经过卷积操作后的在通道i上的特征向量。

进一步地，步骤2中调整网络结构包括：将残差网络第4层输出的N维特征与第5层输出的2N维特征进行特征拼接，形成3N维特征。去除残差网络池化层之后的部分，增加一层线性层，增加一层归一化层，增加一层ReLU层，输出行人特征向量。

步骤3所使用的损失函数为三元组损失函数，三元组损失由正样本、负样本、锚点组成，其目标函数为：

其中，

表示正样本和锚点之间的欧式距离，

表示负样本和锚点之间的欧式距离，a指的是两距离之间的一个最小间隔，括号右下角+表示，当表达式的值大于等于零的时候，损失为表达式值，当表达式的值小于零的时候，损失为零。

步骤3使用的损失函数三元组选取策略为BatchHard算法，包括：随机抽取P个人，每个人K张图片组成一个Batch，每个人的K张图片之间形成K*(K-1)个样本对，再在剩下的其他人中选择一个与该样本对距离最近的负样本，组成损失函数的正样本、负样本、锚点。

步骤4将数据集图片输入到网络中进行训练，其实现步骤如下：

a)设置训练参数，包括，设置每次训练随机丢失隐含层的节点数，设置全部训练集中样本训练的次数，设置学习率，选择优化器。

b)根据损失曲线判断损失是否收敛，从而选择训练好的模型。

步骤5中输入想要查询行人图片和视频，提取视频中的行人作为候选图，判断标准使用余弦距离，根据余弦距离对图片中行人相似程度进行排序，依次输出行人出现在视频中的时间信息以及具体位置，完成行人重识别测试。

有益效果：本发明采用深度学习的方法，通过深层次卷积网络提取行人特征，并对特征进行拼接，增强对行人视觉特征的提取，并采用BatchHard算法构建三元组损失函数，深度挖掘数据集的行人特征分布特点，在行人重识别平均精度均值和第一匹配率等性能参数上有所提升。本发明相较于现有行人重识别方法提高了识别准确度。

附图说明

图1为本发明的行人重识别方法流程图；

图2为本发明的深度学习网络结构图；

图3为本发明的网络训练流程图。

具体实施方式

下面结合附图对本发明的技术方案作进一步说明。

本发明提出一种基于深度学习的行人重识别方法，应用流程图如图1所示，具体按以下步骤实施：

步骤1：获取用于行人重识别的MarKet-1501图片数据集，根据MarKet-1501数据集命名规则将图片按照行人ID进行分类，对图片进行逆时针和顺时针旋转30度，对数据集进行扩充增强，并剪旋转后的图片，将图片分辨率统一至64x128。

步骤2：选用ImageNet上预训练好的残差网络ResNet-50，调整网络结构。

更改ResNet-50的激活函数，使用带参数的ReLU，即PReLU，定义为：

其中，i表示不同通道数，a_i为激活函数参数，为了简化参数，实施例中所有通道的a_i取0.25。x_i指即将进入神经元的来自上一层神经网络的输入向量，其物理含义为行人图片经过卷积操作后的在通道i上的特征向量。

调整网络结构包括：将ResNet-50网络第4层输出的1024维特征与第5层输出的2048维特征进行特征拼接，形成3072维特征。

第五卷积层之后有一个池化层，使用全局平均池化作为池化层操作，去除ResNet-50池化层之后的网络，增加一层线性层，增加一层归一化层，增加一层ReLU层，网络结构如图2所示。对于其他残差网络也是按照图2的结构来实现。

图2每一层完成的功能如下：输入为行人图片，第一卷积层到第五卷积层每一层都是对输入图片的2倍下采样，输入图片特征为(64*128*3)，第四层输出图片特征为(4*8*1024)，第五层输出图片特征为(2*4*2048)；特征拼接：将第四层输出图片特征与第五层输出图片特征进行拼接形成3072维特征；池化层：全局平均池化操作，得到(1*1*3072)的特征图；线性层：将3072维特征映射到512维；归一化层：进行归一化操作，防止过拟合和梯度爆炸；Relu层：进行非线性操作，输出为行人特征向量。在ResNet-50基础模型中使用的是交叉熵损失函数，对于本发明，在图片经过最后Relu层得到特征向量后，将得到的特征向量用于三元组损失的构造，根据损失函数更新网络的权重，反复迭代直至训练结束，得到网络模型。

步骤3：使用BatchHard算法构建三元组损失函数。

使用的损失函数为三元组损失函数，三元组损失由正样本、负样本、锚点组成，其目标函数为：

其中，

表示锚点(anchor)特征向量，

表示正样本(positive)特征向量，

表示负样本(negative)特征向量，‖**‖为欧氏距离，所以

表示正样本和锚点之间的欧氏距离，

表示负样本和锚点之间的欧氏距离，a指的是两距离之间的一个最小间隔，括号右下角+表示，当表达式的值大于等于零的时候，损失为表达式值，当表达式的值小于零的时候，损失为零。

损失函数三元组选取策略为BatchHard算法，随机抽取P个ID的行人，每个行人随机挑选K张不同的图片，即一个batch含有P×K张图片，每个行人的K张照片选择一张作为正样本，剩下的K-1张分别作为锚点，形成K*(K-1)个样本对，然后在剩下的其他行人图片中选择与该样本对欧氏距离最近的作为负样本，组成损失函数的正样本、负样本、锚点。

步骤4：将数据集图片输入到网络中进行训练，设置训练参数，包括，设置每次训练随机丢失隐含层的节点数，设置全部训练集中样本训练的次数，设置学习率，选择优化器，根据损失曲线判断损失是否收敛，当损失函数在一定次数(如5次、10次等)训练中取值变化不大时，即可判断算法收敛，停止训练，从而得到训练好的模型，网络训练流程如图3所示。

步骤5：使用训练好的网络模型进行行人重识别，输入行人图片和视频，图片是要查询的行人，视频是用来提取行人候选图。提取视频中的行人作为候选图，在行人提取的时候会把行人在视频中出现的时间、位置记录到数据库中。

判断标准使用余弦距离，计算视频提取的候选图和行人图片中每个行人的余弦距离，对图片中行人按照距离排序，距离表征了二者之间相似程度，相似程度高的就对应视频提取的候选图的那个人。最后依次输出行人出现在视频中的时间信息以及具体位置，完成行人重识别。

根据上述描述的行人重识别方法的步骤，验证了在MarKet-1501数据集上的识别性能。性能测试结果表明，本发明的方法Rank-1为0.809382，mAP为0.617552。Rank-1为识别结果中第1张图的结果正确率，也称第一匹配率，mAP为平均精度均值，是将多分类任务中的平均精度求和再取平均。本发明的识别精度和第一匹配率均比较优秀。

Claims

1.一种基于深度学习的行人重识别方法，其特征在于，包括以下步骤：

步骤1：对行人图片数据集进行预处理，将图片按照行人ID进行分类，对图片进行增强；

步骤3：使用BatchHard算法构建三元组损失函数如下：

其中，

表示锚点特征向量，

表示正样本特征向量，

表示负样本特征向量，N为特征维数，

表示正样本和锚点之间的欧式距离，

表示负样本和锚点之间的欧式距离，a指的是两距离之间的一个最小间隔，中括号右下角+表示当表达式的值大于等于零的时候，损失为表达式值，当表达式的值小于零的时候，损失为零；

步骤4：将增强后的行人图片数据集输入到调整后的网络中进行训练，根据损失函数变化情况，得到训练好的网络模型；

步骤5：将待识别的行人图片和视频输入训练好的网络模型，输出行人重识别信息。

2.根据权利要求1所述的一种基于深度学习的行人重识别方法，其特征在于，所述残差网络使用带参数的ReLU作为激活函数，其定义为：

3.根据权利要求1所述的一种基于深度学习的行人重识别方法，其特征在于，所述步骤2中调整网络结构包括：将残差网络第4层输出的N维特征与第5层输出的2N维特征进行特征拼接，形成3N维特征；去除残差网络池化层之后的部分，增加一层线性层，增加一层归一化层，增加一层ReLU层，输出行人特征向量。

4.根据权利要求3所述的一种基于深度学习的行人重识别方法，其特征在于，所述池化层采用全局平均池化操作。

5.根据权利要求1所述的一种基于深度学习的行人重识别方法，其特征在于，所述BatchHard算法包括：从数据集中随机抽取P个ID的行人，每个行人随机挑选K张不同的图片，即一个batch含有P×K张图片，每个行人的K张照片选择一张作为正样本，剩下的K-1张分别作为锚点，形成K*(K-1)个样本对，然后在剩下的其他行人图片中选择与该样本对欧氏距离最近的作为负样本，组成损失函数的正样本、负样本、锚点。

6.根据权利要求1所述的一种基于深度学习的行人重识别方法，其特征在于，所述步骤5包括：输入想要查询的行人图片和视频，根据网络模型提取视频中的行人作为候选图，计算行人图片中每个行人与候选图的余弦距离，根据余弦距离对图片中行人进行排序，排序最前的行人作为识别结果，完成行人重识别。