CN108830236A

CN108830236A - 一种基于深度特征的行人重识别方法

Info

Publication number: CN108830236A
Application number: CN201810644862.6A
Authority: CN
Inventors: 邹见效; 李方方; 周雪; 徐红兵
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2018-06-21
Filing date: 2018-06-21
Publication date: 2018-11-16

Abstract

本发明公开了一种基于深度特征的行人重识别方法，其包括以下步骤：S1、获取Alexnet模型并修改Alexnet模型的最后一个全连接层；S2、随机初始化最后一个全连接层的参数；S3、采用已知标签进行训练并更新最后一个全连接层的参数，得到用于行人重识别的神经网络；S4、根据所述神经网络分别提取待识别图像和目标图像的深度特征；S5、根据待识别图像深度特征和目标图像深度特征的相似度得到待识别图像与目标图像的相似度，根据待识别图像与目标图像的相似度进行行人重识别。本发明可以通过现有监控摄像头所拍摄的图像进行高效准确的行人重识别。

Description

一种基于深度特征的行人重识别方法

技术领域

本发明涉及行人重识别领域，具体涉及一种基于深度特征的行人重识别方法。

背景技术

随着社会的飞速发展，科学的日益进步，视频监控系统出现在了越来越多的场合。这些监控系统的广泛应用在带来很多便利的同时也带来了一定的问题。因为现在的监控系统大部分是由人工负责看管的，比较枯燥，不能及时做出反应。为了解决这个问题，进一步发挥摄像头的监控作用，需要各种各样的智能监控系统，运用计算机视觉，机器学习，图像处理等知识，自动提取有用的关键信息，快速地精确定位到异常发生之处，并及时做出相应的处理。

行人重识别是智能监控系统的一个重要领域，在图像搜索，刑侦等方面有重要的应用。目前行人重识别主要存在以下几个方面的挑战：一是现在的监控摄像机的图像分辨率大部分都很低，这使得一些很成熟的技术比如人脸识别无法应用。而且不同的摄像机有不同的参数配置，即使相同的摄像机由于拍摄角度的不同，拍摄效果也会有所不同。二是由于外界环境不同所引起的光照变化，亮度变化，角度不变化，有时候还存在部分遮挡以及噪声干扰。

Alexnet模型(Alexnet神经网络模型)是用于物体识别和分类的神经网络，其输出为多种物体所属的类别名称，并不能直接应用于行人重识别，其具备5个卷积层和3个全连接层。

发明内容

针对现有技术中的上述不足，本发明提供的一种基于深度特征的行人重识别方法可以通过现有监控摄像头所拍摄的图像进行高效准确的行人重识别。

为了达到上述发明目的，本发明采用的技术方案为：

提供一种基于深度特征的行人重识别方法，其包括以下步骤：

S1、获取Alexnet模型并修改Alexnet模型的最后一个全连接层；

S2、随机初始化最后一个全连接层的参数；

S3、采用已知标签进行训练并更新最后一个全连接层的参数，得到用于行人重识别的神经网络；

S4、根据所述神经网络分别提取待识别图像和目标图像的深度特征；

S5、根据待识别图像深度特征和目标图像深度特征的相似度得到待识别图像与目标图像的相似度，根据待识别图像与目标图像的相似度进行行人重识别。

进一步地，步骤S1的具体方法包括以下步骤：

S1-1、将Alexnet模型的最后一个全连接层中的损失函数设置为softmax函数；

S1-2、将神经元个数修改为训练集中行人的总个数；

S1-3、将每次执行图片的数量设置为20，测试批次设置为验证集图片总数除以每次执行的数量，测试间隔大于等于训练集图片总数除以每次执行的数量；

S1-4、使用step模式调整基础学习速率，将学习速率降低10倍；

S1-5、将最大迭代次数设置为50000次，权重衰减项设置为0.0005；

S1-6、预设第一个卷积层的图像文件来源和均值文件来源，并将前七层的学习速率降低10倍。

进一步地，步骤S3的具体方法包括以下步骤：

S3-1、在修改后的Alexnet模型中输入已知标签，通过Alexnet模型中的softmax层得到所述已知标签所属类别的概率，进而得到判断误差；

S3-2、将判断误差进行反向传播更新神经元的权重和偏置；

S3-3、判断神经网络的验证正确度和验证误差是否达到预置精度，若是则完成对最后一个全连接层参数的更新，得到用于行人重识别的神经网络，否则返回步骤S3-1。

进一步地，步骤S4的具体方法为：

将用于行人重识别的神经网络中第二个全连接层的输出对应作为待识别图像的深度特征或目标图像的深度特征。

进一步地，步骤S5的具体方法包括以下步骤：

S5-1、根据交叉视角二次判别分析法分别计算待识别图像和目标图像的深度特征之间的距离；

S5-2、根据待识别图像和目标图像的深度特征之间距离的相似度得到待识别图像与目标图像的相似度；

S5-3、根据待识别图像与目标图像的相似度大小按降序对待识别图像进行排序，将相似度最大的待识别图像作为输出结果，完成对行人的重识别。

进一步地，根据交叉视角二次判别分析法分别计算待识别图像和目标图像的深度特征之间的距离的具体方法为：

将给定的分别属于待识别图像和目标图像的深度特征的两个不同视角的样本集X和Z

X＝(x₁,x₂,...,x_n)∈R^d×n，Z＝(z₁,z₂,...,z_m)∈R^d×m

投影到子空间中，并根据公式：

得到待识别图像和目标图像的深度特征之间的距离d_W(X,Z)；其中Σ′_E＝W^TΣ_EW，Σ′_I＝W^TΣ_IW，W＝(w₁,w₂,...,w_r)∈R^d×r分别是低纬度的子空间，由得到；∑_I和∑_E分别是类内差值和类间差值的协方差矩阵；x_i为待识别图像样本集中的第i个样本，i＝1,2，...，n；n为待识别图像的总数；d为每个样本的原始特征维度；z_j为目标图像的第j个样本，j＝1,2,...,m；m为目标图像的总数；R^d×n为d维空间中的n个样本；r为子空间的维度，r＜d；(·)^T为矩阵的转置；(·)^-1为逆矩阵。

本发明的有益效果为：本发明对用于物体分类的Alexnet模型进行改进，使其适应行人重识别的任务；然后使用训练集中的图片对改进后的模型进行训练，使模型中的参数不断得到优化，从而实现迁移学习；通过训练过后的Alexnet模型提取待识别图像和目标图像的深度特征，从而将待识别图像集合和目标图像集合中的图片用深度特征表示出来；最后根据深度特征之间的相似度得到与目标图像最相似的待识别图像，有效提高行人重识别的准确度，实现高效准确的行人重识别。

附图说明

图1为本发明的流程示意图；

图2为修改后的Alexnet模型网络结构示意图；

图3为修改后的Alexnet模型中不同层深度特征对比图；

图4为CUHK03训练过程中的accuracy可视化图；

图5为CUHK03数据集的累计匹配曲线对比图。

具体实施方式

下面对本发明的具体实施方式进行描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

如图1所示，该基于深度特征的行人重识别方法包括以下步骤：

S1、获取Alexnet模型并修改Alexnet模型的最后一个全连接层；

S2、随机初始化最后一个全连接层的参数；

步骤S1的具体方法包括以下步骤：

S1-1、将Alexnet模型的最后一个全连接层中的损失函数设置为softmax函数，并修改name函数；

S1-2、将神经元个数修改为训练集中行人的总个数；

S1-4、使用step模式调整基础学习速率，将学习速率降低10倍；

步骤S3的具体方法包括以下步骤：

S3-2、将判断误差进行反向传播更新神经元的权重和偏置；

步骤S4的具体方法为：

步骤S5的具体方法包括以下步骤：

根据交叉视角二次判别分析法分别计算待识别图像和目标图像的深度特征之间的距离的具体方法为：

X＝(x₁,x₂,...,x_n)∈R^d×n，Z＝(z₁,z₂,...,z_m)∈R^d×m

投影到子空间中，并根据公式：

在本发明的一个实施例中，为了使输出种类数与行人重识别任务一致，将最后一个全连接层的神经元个数修改为训练集中行人的总个数。得到了基于Alexnet模型的行人重识别网络结构，具体结构如图2所示，其中的n表示待识别图像中行人的总个数。在迁移学习过程中，为了加快收敛速度，本方法使用ImageNet训练过的Alexnet模型的参数对改进的Alexnet模型的前五个卷积层和前两个全连接层进行赋初值。由于最后一个全连接层是重新设计，所以最后一个全连接层的参数需要进行随机初始化。输入行人重识别数据集的图片，进行前向传播，利用softmax函数，计算图片所属类别的概率。利用已知的标签，计算相应的判定误差。对误差进行反向传播，使权重不断得到更新，从而参数不断得到优化。如此循环，直至accuracy(验证正确度)和loss(验证误差)稳定。

在神经网络的训练过程中，对于行人重识别的数据集，选择一部分人的图片作为训练集，剩下人的图片作为测试集。训练集和测试集含有不同行人的图片，训练集和测试集不能重叠。在训练集中，需要每个行人每个摄像头下至少挑选出一张图片作为验证集。训练集和验证集含有的行人相同但是图片不同。训练集是用来训练网络参数的，验证集是在训练网络的过程中用来验证网络训练的程度，计算accuracy。测试集是对于已经训练好的网络，进行提取深度特征，并与XQDA算法结合，计算累计匹配曲线。为了加快计算速度，需要将训练集和验证集中的行人图片以txt文件的形式，创建训练集，验证集列表清单。

在caffe中经常使用的数据是lmdb(Lightning Memory-Mapped Database)或者leveldb格式的。因为lmdb读取的效率更高，并且支持不同进程同时读取，所以本方法使用lmdb格式。而我们的原始图片是bmp，jpg等格式的，所以在训练之前需要使用convert_imageset函数结合图片存放的路径及图片列表清单进行数据格式的转化。lmdb格式的文件夹，里面含有两个文件。一个是数据文件，另一个为锁文件。验证集和测试集都需要转化成lmdb格式。

为了提高模型训练的速度和精度，需要计算训练集图像的均值，然后图片减去这个均值后再进行训练。使用caffe自带的compute_image_mean.cpp文件，结合lmdb格式的数据保存路径算出训练数据集的均值文件。为了保持参数一致，在测试数据集提取特征的时候，均值文件取值为训练数据集的均值文件而不需要计算测试数据集的均值。

由于使用预训练过的模型对基于Alexnet模型改进的行人重识别网络结构的前面七层进行参数初始化，这些参数已经一定程度上得到了优化，所以一般需要减小学习速率，减短步长及缩小迭代次数。由于训练集图片的个数不同，需要修改测试批次(Test_iter)和测试间隔(Test_interval)。在对验证集进行处理时，一次性执行全部数据，速率比较低，所以需要分批次进行。

由于行人重识别数据集与物体识别分类的数据集不同，所以需要修改数据集的均值和来源。同时由于是使用预训练过的模型进行参数赋值，在开始训练模型时，模型已经得到了部分优化，需要降低学习速率，本方法可以将学习速率降低10倍来避免时间的浪费。

加载已经使用ImageNet训练好的模型文件，为基于Alexnet改进的行人重识别网络结构进行参数初始化，开始进行训练。生成并记录训练过程中网络模型参数的日志。训练完成后，根据日志，通过accuracy是否达到很高的精度并稳定，loss是否小于一定的值并稳定来判断是否需要重新调整参数进行训练，并进行accuracy和loss的可视化。

本发明在修改过后的Alexnet模型上，使用CUHK03中的测试集图片，依次提取出了五个卷积层特征和前两个连接层的输出特征，分别为290400、186624、64896、64896、43264、4096、4096维特征，并结合欧式距离进行准确度的比较，具体结果如图3所示，可以看出第二个全连接层的准确度最高。所以本发明使用第二个全连接层的输出作为本章使用的深度特征。提取第二个全连接层的深度特征后进行距离测度的比较，获得图片之间相似度的排序，预测相匹配的行人，实现行人重识别。在此基础上还可以计算出相应的累计匹配曲线。

本发明在CUHK03数据集上进行了对比试验，图4为CUHK03训练过程中的accuracy可视化图，横坐标表示迭代次数，纵坐标表示准确度；图5为CUHK03数据集的累计匹配曲线对比图，其中的圆圈线条表示使用了本发明的结果，方框线条表示使用Improved DL方法的结果图，三角形线条表示使用FPNN方法的实验结果图。从实验结果图中可以看出，使用本发明的方法使准确度得到了一定程度的提升，证明了本发明的有效性。

Claims

1.一种基于深度特征的行人重识别方法，其特征在于：包括以下步骤：

S1、获取Alexnet模型并修改Alexnet模型的最后一个全连接层；

S2、随机初始化最后一个全连接层的参数；

2.根据权利要求1所述的基于深度特征的行人重识别方法，其特征在于：所述步骤S1的具体方法包括以下步骤：

S1-2、将神经元个数修改为训练集中行人的总个数；

S1-4、使用step模式调整基础学习速率，将学习速率降低10倍；

3.根据权利要求2所述的基于深度特征的行人重识别方法，其特征在于：所述步骤S3的具体方法包括以下步骤：

S3-2、将判断误差进行反向传播更新神经元的权重和偏置；

4.根据权利要求3所述的基于深度特征的行人重识别方法，其特征在于：所述步骤S4的具体方法为：

5.根据权利要求4所述的基于深度特征的行人重识别方法，其特征在于：所述步骤S5的具体方法包括以下步骤：

6.根据权利要求5所述的基于深度特征的行人重识别方法，其特征在于：所述根据交叉视角二次判别分析法分别计算待识别图像和目标图像的深度特征之间的距离的具体方法为：

X＝(x₁,x₂,...,x_n)∈R^d×n，Z＝(z₁,z₂,...,z_m)∈R^d×m

投影到子空间中，并根据公式：