CN109902590A

CN109902590A - 深度多视图特征距离学习的行人重识别方法

Info

Publication number: CN109902590A
Application number: CN201910091921.6A
Authority: CN
Inventors: 廖开阳; 邓轩; 郑元林; 章明珠; 雷浩; 刘山林
Original assignee: Xian University of Technology
Current assignee: Qingdao Class Cognition Artificial Intelligence Co ltd
Priority date: 2019-01-30
Filing date: 2019-01-30
Publication date: 2019-06-18
Anticipated expiration: 2039-01-30
Also published as: CN109902590B

Abstract

深度多视图特征距离学习的行人重识别方法，具体按照以下步骤实施：步骤1，提取区域特征向量；步骤2，区域划分，先根据步骤1中得到的图像的所有特征向量，通过归一化算法l₂范数归一化；再通过加和的方式表现图像的矢量集合，之后再对图像表示进行l₂范数归一化处理；一幅图像划分为N个区域，得到深度区域聚合特征；步骤3，LOMO特征提取，对于参考集和测试集中的行人图像分别提取传统LOMO特征；步骤4，多视图特征距离学习，从深度区域聚合特征和LOMO特征两个角度出发，两个特征分别通过度量方法XQDA训练获得两个距离；步骤5，加权融合策略，对于步骤4得到的两个距离通过参数加权融合获得最终距离，并根据最终距离得到匹配的等级；能明显提高行人重识别的鲁棒性；提高行人重识别的性能。

Description

深度多视图特征距离学习的行人重识别方法

技术领域

本发明属于图像分析及图像识别技术领域，具体涉及一种深度多视图特征距离学习的行人重识别方法。

背景技术

近年来，监控摄像机网络在公共安全、商业活动、智慧交通、国防和军事应用领域中的需求日益增加，如：在机场、地铁、车站、银行、学校和军事设施等场所安装监控摄像机网络，用于安全自动无人监控，以有效确保国家设施和公众的安全。正因为监控摄像机网络具有如此大的应用前景，智能视频监控系统引起了许多国家的高度重视，并投入大量资金开展了广泛的研究工作。

行人重识别问题是通过多个摄像机视图判断行人是否为同一目标的过程，当前已广泛应用于跟踪任务的视频分析和行人检索中。但是在实际生活中，由于行人重识别受到视角、光照、姿态、背景杂波和遮挡等因素的影响，使得行人图像在不重叠的摄像机视图中的差异性较大，如何减少和降低这种差异性对行人重识别的影响，是当前行人重识别中存在的巨大问题和面临的严峻挑战。

特征表示和度量学习是行人重识别系统中的两个基本要素，其中由于特征表示是构成距离度量学习的基础，使其在行人重识别系统中显得尤为重要。虽然度量学习具有一定的有效性，但它很大程度上取决于特征表示的质量。因此，当前许多研究致力于开发更加复杂和具有鲁棒性的特征，用以描述可变条件下的视觉外观，可以将其提取的特征划分为两类：传统特征和深度特征。

部分学者对传统特征的研究多集中于设计具有区分性和不变性特征，着手于不同外观特征的拼接，克服了重识别任务中的交叉视图的外观变化，使得识别更加可靠。也有较多的研究使用不同特征的组合来产生更有效的特征。Liao等人(S.Liao,Y.Hu,X.Zhu,andS.Z.Li,"Person re-identification by Local Maximal Occurrencerepresentationand metric learning,"in IEEE Conference onComputer Vision and PatternRecognition,2015,pp.2197-2206.)提出LOMO(Local Maximal Occurrence Feature)来表示每个行人图像的高维特征，不仅从图像中提取SILTP(Scale Invariant LocalTernaryPattern)和HSV(Hue,Saturation,Value)颜色直方图以形成高级描述符，还分析了人体局部的颜色和纹理特征的水平发生概率，并且最大化这一水平发生概率，以获得鲁棒的特性表示，有效地处理了跨摄像机视角的变化；并通过同时学习更具辨别性的距离度量和低维子空间提出了一种交叉视图二次判别分析(Cross-view QuadraticDiscriminantAnalysis,XQDA)方法。XQDA旨在应用跨摄像机视域训练数据，学习一个可判别的低维子空间。当前深度学习提供了一种强大的自适应方法来处理计算机视觉问题，而无需过多的对图像进行手工操作，广泛应用于行人重识别领域。卷积神经网络(Convolutional NeuralNetwork,CNN)因其运行模式最接近生物神经网络而成为最具代表性的深度网络，在计算机视觉中也具有最广泛的应用。CNN的输入可以是原始图像，因此避免了人工进行特征提取的复杂操作，并用CNN的权值共享特性大大降低了网络的复杂度。Li等人(W.Li,R.Zhao,T.Xiao,and X.Wang,"DeepReID:DeepFilter Pairing Neural Network for Person Re-identification,"in 2014IEEE Conference on Computer Vision andPatternRecognition(CVPR),2014.)于2014年在计算机视觉与模式识别国际会议上首次将CNN成功应用于行人重识别领域。之后，CNN在行人重识别领域的应用受到越来越多研究者的关注，部分研究侧重于通过卷积神经网络框架学习特征和度量，将行人重新编码作为排序任务，将图像对或三元组输入CNN。由于深度学习需要依赖于大量的样本标签，因而使得该方法在行人重识别领域中具有应用的局限性。

卷积神经网络提取的特征对图像具有较强的描述能力，通常可以提取三维的卷积特征以及单维的全连接特征向量。但卷积层特征比全连接层特征更适合用来识别图像。由于卷积特征是三维特征，如果将其展成一维的特征向量，其维数必然很高，使用高维特征在数据库中的图像进行匹配，必然会花费大量的时间，增加计算的复杂度。因此如何将三维特征变成一维，并能够保证特征的简单化是本发明的一个核心问题。由于来自较高层的特征具有大的感受野，容易受到人类姿势和背景杂波的污染，不能充分地应用于行人的重识别。而手工制作的不同的外观特征，旨在克服重新识别任务中的跨视图外观变化，有时会更加独特和可靠。所以本发明的另一个核心问题是如何通过操作完成深度特征和传统手工特征的融合，使之相互影响，互相协作，进而提高识别的准确度。

发明内容

为克服上述现有技术的不足，本发明的目的在于提供一种深度多视图特征距离学习的行人重识别方法，将充分使用深度学习的强大能力，即利用区域特征向量聚合的方法，在微调卷积神经网络的基础上，提出了一个新的低维深度特征向量，并利用加权策略，以一种有效的方式完成深度特征与传统的手工特征之间的协作，用参数加权融合来调整两个特征的相对重要性。

为实现上述目的，本发明采用的技术方案是，深度多视图特征距离学习的行人重识别方法，具体按照以下步骤实施：

步骤1，提取区域特征向量，使用微调的Resnet-50模型提取图像的三维卷积特征，设计不同尺度的滑框，滑框技术被运用到通过网络得到的激活映射的长宽截面上，对得到的卷积层的激活应用各种尺度的滑动窗口，并提取所有区域块中的特征向量，并将所有区域块中的特征向量聚合得到图像的聚合特征向量；

步骤2，区域划分，先根据步骤1中得到的图像的所有聚合特征向量，通过归一化算法l₂范数归一化；再通过加和的方式表现图像的矢量集合，之后再对图像表示进行归一化算法l₂范数归一化处理；最终一幅图像划分为N个区域，得到深度区域聚合特征；

步骤3，LOMO特征提取，对于参考集和测试集中的行人图像分别提取传统LOMO特征；

步骤4，多视图特征距离学习，从深度区域聚合特征和LOMO特征两个角度出发，两个特征分别通过度量方法、交叉视图二次判别方法训练获得两个距离；

步骤5，加权融合策略，对于步骤4得到的两个距离通过参数加权融合获得最终距离，并根据最终距离得到匹配的等级。

本发明的特点还在于：

步骤1所述的提取区域特征向量，具体按照以下步骤实施：

步骤1.1，使用微调的Resnet-50卷积网络，根据来自最后一个卷积层的每个图像的图像大小和纵横比来提取激活和特征映射，提取行人单幅图像的激活映射并定义为A_i,j,k，i,j,k分别代表激活映射的宽(W)、长(H)、通道(C)；

步骤1.2，经步骤1.1处理后，为提高局部信息在模型中的比重，在步骤1.1的基础上，运用滑框技术到已经提取的激活映射的长宽截面上，目的是提高图像局部信息的描述能力；

步骤1.3，用L种不同尺度的滑框对特征平面进行区域划分，即用不同比例的区域进行采样，并提取区域块中的特征向量，以获取图像中的局部特征；

步骤2所述的区域划分，具体按照以下方法实施：

步骤2.1，滑框的选择标准与过程，滑框的使用被分为四个尺度等级进行，最大尺度对应着激活映射的最大尺寸，在最大尺度L＝1时，区域尺寸被确定为尽可能大，即滑框的尺寸等于卷积激活映射长宽截面的短边长度，利用全部的激活映射从长宽两个方向进行累加整合成一个特征向量，在滑框与滑框之间，都有一定的重叠区域，可认为对那些重叠的区域赋予了较大的权重，并且每个滑框都是正方形的，对区域进行均匀采样，使得连续区域之间的重叠尽可能接近40％，滑框的大小由特征平面的短边决定，滑框边长的表达式如下：

步骤2.2，当滑框尺度L＝4时，即有4个不同尺度的滑框对激活映射进行操作，对激活映射的各个区域块以宽的方向进行编号，定义为Region 1,Region 2,…,Region N，将滑框内的元素直接相加，若定义f_a,b为第a个滑框尺度等级下的第b个向量，那么单幅图像在通过滑框操作后累加所有尺度下特征向量的和，最终的全局特征向量的表达式如下式所示：

步骤2.3，通过计算与每个区域块相关的特征向量，并用归一化算法l₂归一化对其进行后处理，将区域特征向量聚合到单个图像向量中，通过将它们相加并最终进行l₂归一化；该步骤使图像的特征维度较低，使其维数等于特征通道的数量；通过提取单幅图像的卷积特征，并将图像特征用一个等于通道数的向量维度表示，最终得到的深度区域聚合特征用DRIF(Deep Regional Integration Feature)来表示。

步骤3所述的LOMO特征提取，具体按照以下步骤实施：

步骤3.1，LOMO主要着重解决光照和视角问题，在特征提取之前采用Retinex算法进行图像增强，而Retinex算法是一种常见的图像增强算法，该算法可以在动态范围压缩、边缘增强和颜色恒常性三个方面达到平衡，因此可以对各种不同类型的图像进行自适应的增强；

步骤3.2，经步骤3.1进行图像增强之后采用HSV直方图来提取图像的颜色特征，SILTP直方图用来提取光照尺度不变的纹理特征，使用滑动窗口来描述行人图像的局部信息，具体来说，使用10×10的子窗口大小，步长为5的窗口来定位大小为128×48图像中的局部块，在每个子窗口中，分别提取两个尺度的SILTP直方图和一个HSV直方图，为了进一步考虑多尺度信息，构建一个三尺度金字塔，其通过两次2×2局部平均混合操作对原图像进行下采样，进而得到LOMO特征向量。

步骤4所述的多视图特征距离学习，具体按照以下步骤实施：

XQDA是在保持直接简单原则的度量和贝叶斯人脸方法基础上提出的；

步骤4.1，用高斯模型分别拟合类内和类间样本特征的差值分布，根据两个高斯分布的对数似然比推导出马氏距离，其中类内协方差矩阵、类间协方差矩阵分别定义为：

其中x_i和x_j分别代表两个样本，y_ij是x_i和x_j的指示向量，若x_i和x_j属于同一个行人，则y_ij＝1，否则y_ij＝0，而N_I代表相似样本对的数量，N_E代表不相似样本对的数量；

步骤4.2，子空间W通过学习优化广义瑞利商来得到：

步骤4.3，距离计算公式，来自不同摄像机下的一对行人样本数据(x_i,x_j)在子空间W的距离函数如公式(6)所示：进一步计算距离的公式被定义为：

d(x_i,x_j)＝(x_i-x_j)^TW((W^TΣ_IW)^-1-(W^TΣ_EW)^-1)W^T(x_i-x_j)(6)

式中x_i和x_j分别代表不同摄像机下行人的两个样本，W表示特征子空间，W^T表示矩阵W的转置，Σ_I和Σ_E分别表示同类行人间的协方差矩阵和不同类行人间的协方差矩阵，d表示样本间的距离。

步骤5所述的加权融合策略，具体按照以下步骤实施：

由于提出的深度特征学习模型与实际问题直接相关，但来自较高层的特征可能受到行人姿势背景杂波的显著变化的污染，不能充分地定位于行人的重识别，并且深度网络依赖大量的样本标签，而传统的LOMO特征与样本数量无关，在克服重新识别任务中的跨视图外观变化时会更加可靠，所以将步骤2.3获得的DRIF特征和步骤3获得的LOMO特征的编码补充信息整合以克服它们的个别缺陷是实用的；

步骤5.1，步骤2.3获得的DRIF特征和步骤3获得的LOMO特征分别通过度量方法XQDA训练获得两个距离，具体而言，对于每个特征表示，度量方法XQDA分别用于学习测试库和查询库图像之间的距离，基于LOMO、DRIF两个特征，采用公式(6)定义的距离函数可分别获取每个特征优化的距离度量，如公式(7)所示：

d_k(x_ik,x_jk)＝(x_ik-x_jk)^TW_k((W_k ^TΣ_IW_k)^-1-(W_k ^TΣ_EW_k)^-1)W_k ^T(x_ik-x_jk)(7)

式中：k＝LOMO,DRIF；x_ik,x_jk分别代表第k个特征的训练样本数据，W_k代表第K个特征的特征子空间，Σ_Ik和Σ_Ek分别代表第k个特征的同类样本的协方差矩阵和不同类样本的协方差矩阵。d_k代表第k个特征的距离度量；

步骤5.2，为了更好地表达传统和深度学习功能之间的协作，最终用于排序的距离可以通过以下加权平均方案将深度特征得到的距离与传统特征得到的距离融合：

d＝αd_LOMO+(1-α)d_DRIF(8)

式中：d_LOMO,d_DRIF表示特征LOMO和DRIF分别通过XQDA度量学习得到的距离，参数0≤α≤1用来调整区域聚合深度特征和传统特征的相对重要性。并根据公式(8)最终得到的距离获得匹配的等级。

本发明的有益效果在于：

1)本发明通过设计基于CNN区域聚合特征和多特征加权融合的算法，能明显提高行人重识别的鲁棒性。

2)本发明通过行人重识别数据集微调了网络模型Resnet-50，使网络模型能够判别不同身份的行人；

3)提取微调模型的卷积层的特征，利用不同尺度的滑窗在卷积神经网络的卷积层进行规律滑动，来提取局部CNN特征并对其进行一系列的加权优化，从而提高了局部信息在模型中的比重，本发明能获得一种鲁棒性的深度区域聚合特征。

4)本发明将对卷积特征优化处理后得到的特征描述子用于行人重识别，提高行人重识别的性能。

5)本发明提出了一种加权融合策略，通过参数加权来判断区域聚合特征和传统特征的相对重要性，能有效克服深度特征和传统特征存在的问题，大幅度提高行人重识别的精度，并能广泛应用于行人重识别领域。

6)本发明基于CNN特征区域聚合和多特征加权融合的行人重识别算法也适合于图像检索领域，能大幅提高图像检索的精度。

行人重识别是广泛区域视频监控中的一项重要研究，其重点是识别不同摄像机视图之间的行人。传统特征(如颜色和纹理直方图)经常用于行人重识别，但大多数传统特征受限于不能直接适用于实际问题。深度学习方法在各种应用中获得了最先进的性能，但是卷积特征是高维特征，若直接用来匹配图像会消耗大量的时间和内存，而且来自较高层的特征容易受到行人姿势背景杂波显著变化的影响。因此本发明提出了一种新的改善和整合区域卷积特征，形成低维的深度区域聚合特征向量，再将其用于图像识别的方法；并从深度区域聚合特征和传统手工特征两个角度出发，通过利用交叉视图二次判别分析度量学习，提出一种加权融合策略，以一种有效的方式完成传统特征和深度卷积特征之间的协作。

附图说明

图1是本发明基于深度多视图特征距离学习的行人重识别方法算法的框架图。

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

深度多视图特征距离学习的行人重识别方法算法的框架图，如图1所示，从算法输入输出来看，本发明输入两个图像库(查询图库、待处理图像库)，其中两幅图像在CNN特征区域聚合和LOMO特征提取阶段经过，得到N个相似的目标区域。

从算法的流程来看。对于区域特征向量，即利用微调的Resnet-50模型提取三维卷积特征向量，并利用滑框技术对卷积特征进行处理，即通过某种权重自适应的方式，加大目标区域的权重，而减小非目标区域的权重。如图1所示，本文的算法模型主要以下分为三个部分：

1)区域特征向量聚合，得到低维深度特征。使用微调的Resnet-50模型提取图像的三维卷积特征，设计不同尺度的滑框，并将滑框作用于网络的最后一个卷积层，每个滑框内的元素直接相加求和得到多个局部特征向量，经过归一化，最后直接相加得到低维的深度全局特征向量；

2)对于参考集和测试集中的行人图像分别提取传统LOMO特征；

3)从深度区域聚合特征和LOMO特征两个角度出发，两个特征分别通过度量方法XQDA训练获得两个距离，并通过参数加权融合获得最终距离，根据最终距离得到匹配的等级。

本发明深度多视图特征距离学习的行人重识别方法，具体按照以下步骤实施：

步骤1、提取区域特征向量。使用微调的Resnet-50模型提取图像的三维卷积特征，设计不同尺度的滑框，滑框技术被运用到通过网络得到的激活映射的长宽截面上，对得到的卷积层的激活应用各种尺度的滑动窗口，并提取所有块中的特征向量，以获取图像中的局部信息；

步骤1.1、使用微调的Resnet-50卷积网络，根据来自最后一个卷积层的每个图像的图像大小和纵横比来提取激活和特征映射，提取行人单幅图像的激活映射并定义为A_i,j,k，i,j,k分别代表激活映射的宽W、长H、通道C；

步骤1.2、经步骤1.1处理后，为了提高局部信息在模型中的比重，在步骤1的基础上，滑框技术被运用到已经提取的激活映射的长宽截面上；

步骤1.3，滑框的使用将会被分为不同尺度等级上进行，即用不同比例的区域进行采样，并提取所有块中的特征向量，以获取图像中的局部信息；

步骤2，区域划分，根据步骤1中得到的图像的所有特征向量，通过归一化算法l₂范数归一化，然后通过加和的方式表现图像的矢量集合，之后再对图像表示进行归一化算法l₂范数归一化处理，最终一幅图像可以划分为N个区域；

步骤2.1，滑框的选择标准与过程，滑框的使用将会被分为四个尺度等级下进行，在滑框的最大尺度L＝1时，区域尺寸被确定为尽可能大，即滑框的尺寸等于min(W,H)，利用全部的激活映射从长宽两个方向进行累加整合成一个特征向量；例如L＝3时，通常可以得到20个区域特征向量，此外，将这些区域特征向量通过加和处理得到一个特征向量，于是一幅图可以得到21个区域特征向量，将这21个区域特征向量直接相加求和，即得到最终的全局特征向量。另外，在滑框与滑框之间，都有一定的重叠区域，可以认为对那些重叠的区域赋予了较大的权重。并且每个滑框都是正方形的，对区域进行均匀采样，使得连续区域之间的重叠尽可能接近40％，滑框的大小由特征平面的短边决定，滑框边长的表达式如下：

步骤2.2，当滑框的尺度L＝4时，即有4个不同尺度的滑框对激活映射进行操作，对激活映射的各个区域块以宽的方向进行编号，定义为Region 1,Region 2,…,Region N，将滑框内的元素直接相加，若定义f_a,b为第a个滑框尺度等级下的第b个向量，那么单幅图像在通过滑框操作后累加所有尺度下特征向量的和，最终的全局特征向量的表达式如下式所示：

步骤2.3，通过计算与每个区域块相关的特征向量，并用归一化算法l₂对其归一化处理；将区域特征向量聚合到单个图像向量中，通过将它们相加并最终进行l₂归一化，该步骤使维度保持较低，使其维数等于特征通道的数量；这些步骤能够提取单幅图像的卷积特征，并将图像特征用一个等于通道数的向量维度表示；最终得到的深度区域聚合特征用DRIF(Deep Regional Integration Feature)来表示；

步骤3，LOMO特征提取，对于参考集和测试集中的行人图像分别提取传统LOMO特征；Local Maximal Occurrence Feature的中文意思为局部最大出现特征，英文简称LOMO；

步骤3.1，LOMO特征主要着重解决光照和视角问题，在特征提取之前采用Retinex算法进行图像增强，而Retinex算法是一种常见的图像增强算法，该算法可以在动态范围压缩、边缘增强和颜色恒常性三个方面达到平衡，因此可以对各种不同类型的图像进行自适应的增强；

步骤3.2，经步骤3.1进行图像增强之后采用HSV直方图来提取图像的颜色特征，SILTP直方图用来提取光照尺度不变的纹理特征，使用滑动窗口来描述行人图像的局部信息。具体来说，使用10×10的子窗口大小，步长为5的窗口来定位大小为128×48图像中的局部块。在每个子窗口中，分别提取两个尺度的SILTP直方图和一个HSV直方图。为了进一步考虑多尺度信息，构建一个三尺度金字塔，其通过两次2×2局部平均混合操作对原图像进行下采样，进而得到LOMO特征向量；

步骤4，多视图特征距离学习，从深度区域聚合特征和LOMO特征两个角度出发，两个特征分别通过度量方法、交叉视图二次判别方法(XQDA)训练获得两个距离；Cross-viewQuadratic DiscriminantAnalys is中文意思为：交叉视图二次判别方法，英文简称为XQDA；

步骤4.2，子空间W通过学习优化广义瑞利商来得到：

d(x_i,x_j)＝(x_i-x_j)^TW((W^TΣ_IW)^-1-(W^TΣ_EW)^-1)W^T(x_i-x_j)(6)；

式中x_i和x_j分别代表不同摄像机下行人的两个样本，W表示特征子空间，W^T表示子空间W的转置，Σ_I和Σ_E分别表示同类行人间的协方差矩阵和不同类行人间的协方差矩阵，d表示样本间的距离。

步骤5，加权融合策略，对于步骤4得到的两个距离通过参数加权融合获得最终距离，根据最终距离得到匹配的等级；

步骤5.1，两个特征分别通过度量方法XQDA训练获得两个距离，具体而言，对于每个特征表示，XQDA分别用于学习测试库和查询库图像之间的距离，基于LOMO、本发明提出的DRIF两个特征，采用公式(6)定义的距离函数可分别获取每个特征优化的距离度量，如公式(7)所示：

d＝αd_LOMO+(1-α)d_DRIF(8)

式中：d_LOMO,d_DRIF表示LOMO特征和DRIF特征分别通过XQDA度量学习得到的距离，d表示经过距离融合之后用于最终排序的距离。参数0≤α≤1用来调整区域聚合深度特征和传统特征的相对重要性，并根据公式(8)最终得到的距离获得匹配的等级。

本发明基于深度多视图特征距离学习的行人重识别方法，首先对现有的网络模型Resnet-50进行微调，提取网络最后一个卷积层的卷积映射，并将滑框操作作用于该卷积特征平面，得到区域特征向量，所得到的区域特征向量增加了图像局部区域特征。区域聚合特征对于行人重识别过程而言具有更好的鲁棒性。

本发明基于深度多视图特征距离学习的行人重识别方法，由于卷积特征比全连接层特征更适用于图像识别，但是卷积特征是高维特征，如果直接用来匹配图像会耗费大量的时间和内存，故本发明将滑框操作作用于卷积特征平面，得到区域特征向量，并通过优化操作，得到区域聚合特征；但是由于深度学习依赖大量的样本标注，而且来自较高卷积层的特征容易受到行人姿势和背景杂波的影响，而传统特征对于克服行人外观的变化，有时会更加独特和可靠，故本发明提出了一种加权融合策略，以一种有效的方式完成区域聚合特征和传统特征的协作，本发明的算法模型能够广泛适用于图像识别领域，并能提高行人重识别的性能。

Claims

1.深度多视图特征距离学习的行人重识别方法，其特征在于，包括以下步骤实施：

步骤2，区域划分，先根据步骤1中得到的图像的聚合特征向量，通过归一化算法l₂范数归一化；再通过加和的方式表现图像的矢量集合，之后再对图像表示进行归一化算法l₂范数归一化处理；最终一幅图像划分为N个区域，得到深度区域聚合特征；

2.根据权利要求1所述的深度多视图特征距离学习的行人重识别方法，其特征在于，步骤1所述的提取区域特征向量，具体按照以下步骤实施：

步骤1.1，使用微调的Resnet-50卷积网络，根据来自最后一个卷积层的每个图像的图像大小和纵横比来提取激活和特征映射，提取行人单幅图像的激活映射并定义为A_i,j,k，i,j,k分别代表激活映射的宽W、长H、通道C；

步骤1.3，用L种不同尺度的滑框对特征平面进行区域划分，即用不同比例的区域进行采样，并提取区域块中的特征向量，以获取图像的局部特征。

3.根据权利要求1所述的深度多视图特征距离学习的行人重识别方法，其特征在于，步骤2所述的区域划分，具体按照以下方法实施：

步骤2.3，通过计算与每个区域块相关的特征向量，并用归一化算法l₂归一化对其进行后处理，将区域特征向量聚合到单个图像向量中，通过将它们相加并最终进行l₂归一化；该步骤使图像的特征维度较低，使其维数等于特征通道的数量；通过提取单幅图像的卷积特征，并将图像特征用一个等于通道数的向量维度表示，最终得到的深度区域聚合特征用DRIF来表示。

4.根据权利要求1所述的深度多视图特征距离学习的行人重识别方法，其特征在于，步骤3所述的LOMO特征提取，具体按照以下步骤实施：

步骤3.2，经步骤3.1进行图像增强之后采用HSV(色相Hue，饱和度Saturation，色调Value)直方图来提取图像的颜色特征，尺度不变的局部三元模式(Scale Invariant LocalTernary Pattern，SILTP)用来提取光照尺度不变的纹理特征，使用滑动窗口来描述行人图像的局部信息，具体来说，使用10×10的子窗口大小，步长为5的窗口来定位大小为128×48图像中的局部块，在每个子窗口中，分别提取两个尺度的SILTP直方图和一个HSV直方图，为了进一步考虑多尺度信息，构建一个三尺度金字塔，其通过两次2×2局部平均混合操作对原图像进行下采样，进而得到LOMO特征向量。

5.根据权利要求1所述的深度多视图特征距离学习的行人重识别方法，其特征在于，步骤4所述的多视图特征距离学习，具体按照以下步骤实施：

步骤4.2，子空间W通过学习优化广义瑞利商来得到：

d(x_i,x_j)＝(x_i-x_j)^TW((W^TΣ_IW)^-1-(W^TΣ_EW)^-1)W^T(x_i-x_j) (6)。

式中x_i和x_j分别代表不同摄像机下行人的两个样本，W表示特征子空间，W^T表示矩阵W的转置，Σ_I和Σ_E分别表示同类行人间的协方差矩阵和不同类行人间的协方差矩阵。

6.根据权利要求1所述的深度多视图特征距离学习的行人重识别方法，其特征在于，步骤5所述的加权融合策略，具体按照以下步骤实施：

步骤5.1，步骤2.3获得的DRIF特征和步骤3获得的LOMO特征分别通过度量方法XQDA训练获得两个距离，具体而言，对于每个特征表示，度量方法XQDA分别用于学习测试库和查询库图像之间的距离，基于LOMO、DRIF两种特征，采用公式(6)定义的距离函数可分别获取每个特征优化的距离度量，如公式(7)所示：

d_k(x_ik,x_jk)＝(x_ik-x_jk)^TW_k((W_k ^TΣ_IkW_k)^-1-(W_k ^TΣ_EkW_k)^-1)W_k ^T(x_ik-x_jk) (7)

d＝αd_LOMO+(1-α)d_DRIF (8)

式中：d_LOMO,d_DRIF表示LOMO特征和DRIF特征分别通过XQDA度量学习得到的距离，d表示经过距离融合之后得到的用于排序的最终距离，参数0≤α≤1用来调整区域聚合深度特征和传统特征的相对重要性，并根据公式(8)最终得到的距离获得匹配的等级。