CN110929558B

CN110929558B - 一种基于深度学习的行人重识别方法

Info

Publication number: CN110929558B
Application number: CN201910950347.5A
Authority: CN
Inventors: 颜成钢; 黄智坤; 王文铅; 高宇涵; 孙垚棋; 张继勇; 张勇东
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2019-10-08
Filing date: 2019-10-08
Publication date: 2022-10-18
Anticipated expiration: 2039-10-08
Also published as: CN110929558A

Abstract

本发明公开了一种基于深度学习的行人重识别方法。本发明对输入到孪生神经网络中的一对数据提取特征的同时，在每一步降维或卷积操作之后计算两个输入数据之间的欧氏距离，由此获得一个欧式距离矩阵；利用该欧式距离矩阵设计一个损失函数，使用图像对或高维特征图像对计算出来的欧式距离，对最终使用特征序列对计算出的欧式距离进行优化，通过网络的梯度回传，优化参数，加速网络的训练。本发明充分利用原本原图像中的行人信息，使用完整的图像信息来优化模糊的图像特征，进一步优化网络参数，使得神经网络之间的参数更容易拟合，加快网络训练速度。

Description

一种基于深度学习的行人重识别方法

技术领域

本发明属于计算机视觉中的行人重识别，主要为了提高行人重识别的准确度，具体涉及一种基于深度学习以及行人重识别。

背景技术

行人重识别(Person Re-identification也称行人再识别，简称为Re-ID，是利用计算机视觉技术判断图像或者视频序列中是否存在特定行人的技术。广泛被认为是一个图像检索的子问题。给定一个监控行人图像，检索跨设备下的该行人图像。在监控视频中，由于相机分辨率和拍摄角度的缘故，通常无法得到质量非常高的人脸图片。当人脸识别失效的情况下，行人重识别就成为了一个非常重要的替代品技术。

计算机视觉又被称为计算机模仿人类的光学识别系统，需要借助光源感应器计算机控制系统等，对物体进行定位判断和动作的研究目前已有30多年，且该技术多应用于工程方面，虽然与人体的视觉系统存在差异，但在一定的环境和模式背景下由计算机实现完全准确工作，完成人类不能做的工作和代替人类完成一些工作量较大的任务。影像处理是计算机视觉的主要内容，主要包括数字影像的处理、模拟信号输入、分析、取样等十项技术。具体流程是将影像摄入之后将影像进行强化，除去噪声、压缩之后对比数据库的样本，由程序作出分析判断，完成命令下达。

随着计算机视觉的发展，人们一直研究图像、文字、音频，进而计算机视觉艺术也被人们所了解，其形式上发生的变化也得到大众的广泛关注。在传统的寻人技术中，需通过翻阅所有目标任务所在的区域所有的摄像头，来寻找特定目标，需要花费大量的人力和时间。使用行人重识别技术，通过提取图像中对人们有用的信息，来使识别出寻找目标所花费的代价减少。

但相比于人脸识别来说，行人重识别在实际应用场景下的数据非常复杂，由于不同摄像设备之间的差异，同时行人兼具刚性和柔性的特性，外观易受穿着、尺度、遮挡、姿态和视角等影响，所以，对行人重识别算法的要求也更高。因此，设计出更有效的算法或方法来更准确的在不同设备之间识别出目标任务，是行人重识别的重点工作。

在基于深度学习的行人重识别技术中，我们需要对大量现有数据集进行训练，使网络参数更拟合在图像中识别目标的任务。并且，作为网络的输入图像，是已经经过目标检测标定后，去除大部分背景的行人图像，这些图像中的行人将作为主要信息输入到网络中进行训练。但对大量维度高的图像进行计算，会十分耗费资源，并且因为背景信息的冗余而减少学习的有效性，并降低识别的准确率。借助深度学习中的卷积神经网络，我们可以通过大量的训练，从大数据中提取出少量但包含丰富、重要信息的特征序列，从而提升行人重识别技术的可行性。

孪生神经网络有两个输入，将两个输入传入进入两个神经网络，这两个神经网络分别将输入映射到新的空间，形成输入在新的空间中的表示。通过计算损失，评价两个输入的相似度。

通过度量学习(Metric Learning)来提升行人重识别的准确率是如今该技术的一个主流方向，卷积神经网络需要经过大量的训练才能将神经网络中的参数更好的拟合所有数据，才能服务于未参与网络训练的数据。度量学习通过计算正负样本之间的距离，将正样本和负样本分别聚类，而正负样本之间又有着较大的距离，以此达到聚类又分类的目标。所以如何优化度量学习方法成了科研人员的重点工作之一。

发明内容

本发明的目的是改进行人重识别中度量学习的方法，提出一种新的基于深度学习的行人重识别方法。本发明旨在孪生神经网络，对输入到网络中的一对数据提取特征的同时，在每一步降维或卷积操作之后计算两个输入之间的欧氏距离，由此获得一个欧式距离矩阵。利用该欧式距离矩阵，设计一个损失函数，使用图像对或高维特征图像对计算出来的欧式距离，对最终使用特征序列对计算出的欧式距离进行优化，通过网络的梯度回传，更快地优化参数，加速网络的训练。

本发明解决其技术问题所采用的技术方案包括如下步骤：

步骤1：将数据集划分成训练集和测试集，对数据集进行预处理，将同一目标来自不同摄像头的图像组合作为一个正样本对，将来自不同目标的两张输入图像随机配对，作为负样本对；

步骤2：将分配好的正负样本对交替输入神经网络中。首先将一对样本对进行下采样，得到样本对的低维图像。同时，将样本对中两张图像分别作为孪生网络的两个输入；

步骤3：计算低维图像对之间的欧式距离。并使用卷积神经网络，分别提取输入刀孪生神经网络中的图像对的特征，卷积神经网络中设置三个卷积层，图像每经过一次卷积操作后将特征图输出，最后得到三对不同维度的特征图；

步骤4：分别计算三个特征图对之间的欧氏距离；

步骤5：将卷积层最后输出的特征图对经全连接层，得到特征序列对，并计算特征序列之间的欧式距离；

步骤6：将计算所得的五个欧氏距离置入距离矩阵，并使用距离矩阵计算距离损失；

步骤7：将特征序列对分别使用交叉熵损失(Cross Entropy Loss)计算出两个分类损失；

步骤8：将计算得到的距离损失和两个分类损失相加，得到网络最终损失；

步骤9：通过梯度回传更新网络中各参数的梯度，经训练之后得到有效的模型。

所述的数据集来自经典的行人重识别数据集，每个样本需要有来自于不同摄像头所拍摄的图像；并将数据划分为训练集和测试集，训练集和测试集各占比50％。

所述的对数据进行预处理，包括将RGB图像转换为YUV图像，并将图像的每一层均减去该层的均值。

所述的下采样操作通过一个1*1的卷积核，设置stride为2或者3来实现降维操作，得到InputA_LR和InputB_LR，计算两张低分辨率图像之间的欧式距离，得到dist1；同时将样本对作为孪生神经网络中的两个输入，在卷积神经网络中执行特征提取操作；

所述的卷积神经网络的主体由三个卷积层以及一个全连接层组成，每个卷积层后面都连接了激活函数，激活函数是tanh或者ReLU。输入的数据经三个卷积层处理，并在每一次卷积操作后输出一个特征图，由于卷积层中卷积核设置为3*3或者5*5，所以每经过一次卷积操作后，特征图的维度将会越来越小，设三个卷积层layer1、layer2、layer3对应输出的特征对分别为FeatureA_1/FeatureB_1、FeatureA_2/FeatureB_2、FeatureA_3/FeatureB_3，三个特征图的维度呈递减；通过特征对分别计算出三个特征维度下的特征之间的欧式距离，分别为dist2、dist3、dist4。

在经过第三层卷积层后，网络除了将特征对FeatureA_3/FeatureB_3输出以计算特征之间的欧式距离，也将该特征输入到全连接层；全连接层在减少特征数的同时，也将特征转化为1*n形式的特征序列，其中n为划分数据集时训练集拥有的样本数量；通过全连接层，将特征序列映射到n个特征上，得到输出序列FeatureA_4和FeatureB_4，为后面使用交叉熵损失计算分类损失做好准备。

使用FeatureA_4和FeatureB_4计算卷积网络最后产生的特征序列间的欧式距离Dist5；至此将计算所得的五个欧式距离乘上相对应设置的权重后，置入距离矩阵Dist。

使用交叉熵损失分别计算两个输出序列的分类损失，得到loss2和loss3；并使用公式来计算距离损失loss1；

计算网络损失的公式如下所示：

φ＝[1,1,1,1,1] (3)

loss＝loss1+loss2+loss3 (4)

其中，y为为每个样本对设置的标签，当样本对为正样本对时y＝1，当样本对为负样本对时y＝0；m为设置的正负样本类之间的距离阈值；φ是一个全为1的矩阵，用于矩阵间相乘。

本发明有益效果如下：

本发明的创新性使用原输入图像经过降维处理后的图像以及高维特征图来计算样本对之间的欧氏距离，并使用前面计算所得的欧式距离来优化后面的特征对之间的距离计算，充分利用原本原图像中的行人信息，使用完整的图像信息来优化模糊的图像特征，进一步优化网络参数，使得神经网络之间的参数更容易拟合，加快网络训练速度。

附图说明

图1是本发明实施的流程图

具体实施方式

本发明主要针对行人重识别技术中的度量学习进行方法和算法创新，对于整个模型的训练流程进行了详细的介绍，以下结合附图，详细阐述本发明的具体实施步骤，本发明的目的和小果果将变得更加明显。

图1是本发明实施的流程图，从图中可以清楚地看到该应用于行人重识别的卷积神经网络的结构。其中虚线框内为卷积神经网络内的操作，包含卷积操的layer1、layer2、layer3以及全连接操作的FullConnect；而不在虚框内的数据则为我们输入的数据以及经神经网络处理后产生的数据。图中连接线指明了该网络中数据处理的顺序、输出的数据、数学计算及其结果，其中实连接线的是网络中数据处理的顺序以及经网络处理后产生的数据，在图中没有说清的计算操作将会在以下内容中阐明。本发明的具体操作包括：

1.从经典的行人重识别数据集(如iLIDS-VID，PRID 2011)中选取所需的数据，每个样本需要有来自于不同摄像头所拍摄的图像。并将数据划分为训练集和测试集，训练集和测试集各占比50％。

2.对数据进行预处理，预处理包括将RGB图像转换为YUV图像，并将图像的每一层均减去该层的均值。

3.读取欲输入到网络中的样本对，其中正样本对为来自同一个人的两张来自不同摄像头所拍摄的图像，负样本对为来自不同人的随机两张图像。

4.首先将样本对进行下采样操作，该下采样操作通过一个1*1的卷积核，设置stride为2或者3来实现降维操作，得到InputA_LR和InputB_LR，计算两张低分辨率图像之间的欧式距离，得到dist1。同时，将样本对作为网络的两个输入，在卷积神经网络中执行特征提取操作。

其中，卷积神经网络主体的由三个卷积层(layer1、layer2、layer3)以及全连接层(FullConnect)组成，每个卷积层后面都连接了未在图中显示的激活函数，激活函数可以是tanh或者ReLU。

5.输入的数据经三层卷积层处理，并在每一次卷积操作后输出一个特征图，由于我们的卷积层中卷积核一般设置未3*3或者5*5，所以每经过一次卷积操作后，特征图的维度将会越来越小，我们可以看到，在图中，layer1、layer2、layer3对应输出的特征图为FeatureA_1/FeatureB_1,FeatureA_2/FeatureB_2,FeatureA_3/FeatureB_3，三个特征图的维度呈递减，也就是说我们要通过越来越少的特征来表征我们最初输入的样本对，所以卷积神经网络中参数的拟合效果显得至关重要。

使用这些特征对，我们可以分别计算出三个特征维度下的特征之间的欧式距离，分别为dist2、dist3、dist4。

6.在经过第三层卷积层后，网络除了将FeatureA_3/FeatureB_3，输出以计算特征之间的欧式距离，也将该特征输入到全连接层。全连接层在减少特征数的同时，也将特征转化为1*n的形式，其中，n为划分数据集时，训练集拥有的样本数量。我们通过全连接层，将特征序列映射到n个特征上，为下一步使用Cross Entropy Loss计算分类损失做好准备。

7.使用FeatureA_4和FeatureB_4计算卷积网络最后产生的特征序列间的欧式距离。至此，我们将计算所得的五个欧式距离乘上相对应的权重之后置入一个距离矩阵中，我们令距离矩阵为Dist。

8.使用Cross Entropy Loss分别计算两个输出序列的分类损失，得到loss2和loss3。并使用公式来计算距离损失loss1。

计算网络损失的公式如下所示：

φ＝[1,1,1,1,1]

loss＝loss1+loss2+loss3

其中，y为我们为每个样本对设置的标签，当样本对为正样本对时y＝1，当样本对为负样本对时y＝0；m为我们设置的正负样本类之间的距离阈值；φ是一个全为1的矩阵，用于矩阵间相乘。该损失函数借鉴了度量学习中，当目标为同一类时使之聚类，当目标为不同类别时增大类间距离。在公式(1)中，我们为距离矩阵Dist中的各个距离乘上不同的权重。我们认为，原图像能够将样本的信息更好地展现出来，故而样本对在输入时的距离最能体现其相似性，所以我们把dist1作为计算各个权重的分母。考虑到原图像维度较高，如果直接计算将十分占用计算机资源，所以我们使用4中所阐述的方法对其进行降维操作，使用低分辨率图像来计算两个样本之间的距离。此外，我们任务，在神经网络开始工作时，网络中的参数并不能很好地拟合所有数据，故而我们在矩阵Dist中使用四个代表权重的参数，表示各层输出的特征对之间的欧式距离与dist1的比值，以此作为该距离的权重。

通过此方法，我们可以让各层输出的特征对之间的欧式距离更快地向dist1靠近，并通过梯度回传，来优化网络中的各个参数。通过调整网络的超参数，我们可以进行多次训练，以此达到更好的训练效果。

Claims

1.一种基于深度学习的行人重识别方法，其特征在于：对输入到孪生神经网络中的一对数据提取特征的同时，在每一步降维或卷积操作之后计算两个输入数据之间的欧氏距离，由此获得一个欧式距离矩阵；利用该欧式距离矩阵设计一个损失函数，使用图像对或高维特征图像对计算出来的欧式距离，对最终使用特征序列对计算出的欧式距离进行优化，通过网络的梯度回传，优化参数，加速网络的训练；

包括如下步骤：

步骤1：将数据集划分成训练集和测试集，对数据集进行预处理，将来自同一目标的不同摄像头的图像组合作为一个正样本对，将来自不同目标的两张输入图像随机配对，作为负样本对；

步骤2：将分配好的正负样本对交替输入孪生神经网络中；

将一对样本对进行下采样，得到样本对的低维图像对；同时将样本对中两张图像分别作为孪生神经网络的两个输入；

步骤3：计算低维图像对之间的欧式距离；并使用卷积神经网络，分别提取输入到孪生神经网络中的样本对的特征，卷积神经网络中设置三个卷积层，图像每经过一次卷积操作后将特征图输出，最后得到三对不同维度的特征图；

步骤4：分别计算三对特征图对之间的欧氏距离；

步骤5：将卷积层最后输出的特征图对经过全连接层，得到特征序列对，并计算特征序列之间的欧式距离；

步骤7：将特征序列对分别使用交叉熵损失计算出两个分类损失；

2.根据权利要求1所述的一种基于深度学习的行人重识别方法，其特征在于：数据集来自经典的行人重识别数据集，每个样本需要有来自于不同摄像头所拍摄的图像；并将数据划分为训练集和测试集，训练集和测试集各占比50％。

3.根据权利要求2所述的一种基于深度学习的行人重识别方法，其特征在于：所述的对数据进行预处理，包括将RGB图像转换为YUV图像，并将图像的每一层均减去该层的均值。

4.根据权利要求3所述的一种基于深度学习的行人重识别方法，其特征在于：下采样操作通过一个1*1的卷积核，设置stride为2或者3来实现降维操作，得到InputA_LR和InputB_LR，计算两张低分辨率图像之间的欧式距离，得到dist1；同时将样本对作为孪生神经网络中的两个输入，在卷积神经网络中执行特征提取操作；

所述的卷积神经网络的主体由三个卷积层以及一个全连接层组成，每个卷积层后面都连接了激活函数，激活函数是tanh或者ReLU。

5.根据权利要求3或4所述的一种基于深度学习的行人重识别方法，其特征在于：输入的数据经三个卷积层处理，并在每一次卷积操作后输出一个特征图，由于卷积层中卷积核设置为3*3或者5*5，所以每经过一次卷积操作后，特征图的维度将会越来越小，设三个卷积层layer1、layer2、layer3对应输出的特征对分别为FeatureA_1/FeatureB_1、FeatureA_2/FeatureB_2、FeatureA_3/FeatureB_3，三个特征图的维度呈递减；通过特征对分别计算出三个特征维度下的特征之间的欧式距离，分别为dist2、dist3、dist4。

6.根据权利要求5所述的一种基于深度学习的行人重识别方法，其特征在于：在经过第三层卷积层后，网络除了将特征对FeatureA_3/FeatureB_3输出以计算特征之间的欧式距离，也将该特征输入到全连接层；全连接层在减少特征数的同时，也将特征转化为1*n形式的特征序列，其中n为划分数据集时训练集拥有的样本数量；通过全连接层，将特征序列映射到n个特征上，得到输出序列FeatureA_4和FeatureB_4，为后面使用交叉熵损失计算分类损失做好准备。

7.根据权利要求6所述的一种基于深度学习的行人重识别方法，其特征在于：使用FeatureA_4和FeatureB_4计算卷积网络最后产生的特征序列间的欧式距离Dist5；至此将计算所得的五个欧式距离乘上相对应设置的权重后，置入距离矩阵Dist。

8.根据权利要求7所述的一种基于深度学习的行人重识别方法，其特征在于：使用交叉熵损失分别计算两个输出序列的分类损失，得到loss2和loss3；并使用公式来计算距离损失loss1；

计算网络损失的公式如下所示：

φ＝[1,1,1,1,1](3)

loss＝loss1+loss2+loss3(4)