CN112307847A

CN112307847A - 一种基于指导的多尺度注意力行人重识别深度学习系统

Info

Publication number: CN112307847A
Application number: CN201910705947.5A
Authority: CN
Inventors: 付彦伟; 姜育刚; 薛向阳; 钱学林
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2019-08-01
Filing date: 2019-08-01
Publication date: 2021-02-02

Abstract

本发明提供一种具有强大的特征表征能力和泛化能力的基于指导的多尺度注意力行人重识别深度学习系统，其特征在于，包括：行人图片获取部，用于获取行人图片，行人图片包含行人待检测图片以及行人候选图片；图片特征提取部，用于根据预先训练完成的基于指导的多尺度特征提取模型提取行人图片在各个尺度下的全局特征和局部特征；图片特征拼接部，用于分别拼接各张行人图片的全局特征以及局部特征作为对应各张行人图片的行人图片特征；特征距离计算部，用于根据各个行人图片特征计算不同的行人图片特征之间的特征距离；相似程度判断部，用于根据各个特征距离之间的远近判断行人待检测图片与行人候选图片的相似程度作为行人重识别结果。

Description

一种基于指导的多尺度注意力行人重识别深度学习系统

技术领域

本发明属于计算机图象识别技术领域，具体涉及一种基于指导的多尺度注意力行人重识别深度学习系统。

背景技术

行人重识别任务旨在通过两个不相交的摄像头对行人进行识别匹配。通常，行人的外观表现可以因为姿态、光照、遮挡、视角等因素的改变而发生巨大的变化；并且在公共场合，不同行人可能会穿着非常相似的服装，例如在冬天穿着深色的厚外套。这些现象都会很大程度的给行人重识别问题带来巨大的挑战和难题。在这些严峻的干扰因素下，往往需要依靠一些细微的差异来实现行人重识别，这些细微的因素可以是全局的，例如体型、性别；也可以是局部的，例如鞋子、发型，即综合考虑由粗到细的，由全局到局部的多尺度行人信息，并合理地进行比对推敲。

一方面，随着深度学习热潮地掀起，越来越多的计算机视觉任务开始使用深度学习方法来解决，包括行人重识别任务。近几年提出的解决行人重识别任务的深度学习方法由于借鉴了目标分类任务的结构思想，通常只利用了单一尺度的特征。这些特征经过较深的网络提取，具有强大的抽象能力和表征能力。但是由于该特征更关注全局信息，并且不像多尺度特征能够进行反复推敲，因此对于行人重识别问题，尤其是一些难例，单一尺度特征的能力仍尤显不足。

另一方面，利用多尺度学习的思想来进行匹配的过程和人类的感知非常相似。给定两张行人图片，人类通常会先粗略的捕获图片中的显著信息或较大区域的信息，例如整体的衣着颜色、纹理等；如果这些信息不足以判断行人身份相同与否，那么人类会进一步仔细地有条理地观察一些细节信息，例如发型，鞋子款式等，直至获取足够的线索作出结论。因此设计一个有效的多尺度特征学习模型是帮助解决行人重识别问题的关键。

然而，现有一些行人重识别方法都具有一些问题，例如：

文献1(G.Wang,Y.Yuan,X.Chen,J.Li,and X.Zhou,“Learning DiscriminativeFeatures with Multiple Granularities for Person Re-identification”,Y.Lin,L.Zheng,Z.Zheng,Y.Wu,and Y.Yang.in ACM Multimedia，2018)提出了一个多分支的深度神经网络来提取行人图片的全局特征和不同规模的局部特征。但是该方法从行人物理结构角度来考虑绝对的全局与局部的划分，受输入图片质量影响，对多尺度特征的互补性学习较弱。

文献2(C.Shen,Z.Jin,Y.Zhao,Z.Fu,R.Jiang,Y.Chen,and X.-S.Hua,“Deepsiamese network with multi-level similarity perception for person re-identification”,in ACM Multimedia，2017)和文献3(Y.Guo and N.-M.Cheung,“Efficient and deep person re-identification using multi-level similarity”,inCVPR,2018)提出了利用网络中间层多层特征的相似性来监督学习，提高行人图片特征的表征能力。但是由于共享权重的设计，该方法对多尺度特征的差异性学习较弱。

文献4(J.Liu,Z.-J.Zha,Q.Tian,D.Liu,T.Yao,Q.Ling,and T.Mei,“Multi-scaletriplet cnn for person re-identification”,in ACM Multimedia,2016)提出了将不同尺度的图片输入不同的浅层网络来提取多尺度特征，并和深层网络的特征进行融合最后最终的识别特征。但是该方法具有计算耗时，模型参数大，多尺度特征学习独立的缺点。

发明内容

为解决上述方法中存在的问题，提供一种具有强大的特征表征能力和泛化能力的基于指导的多尺度注意力行人重识别深度学习系统，本发明采用了如下技术方案：

本发明提供了一种基于指导的多尺度注意力行人重识别深度学习系统，用于对行人待检测图片以及行人候选图片进行识别从而完成行人重识别，其特征在于，包括：行人图片获取部，用于获取行人图片，行人图片包含行人待检测图片以及行人候选图片；图片特征提取部，用于根据预先训练完成的基于指导的多尺度特征提取模型提取行人图片在各个尺度下的全局特征和局部特征；图片特征拼接部，用于分别拼接各张行人图片的全局特征以及局部特征作为对应各张行人图片的行人图片特征；特征距离计算部，用于根据各个行人图片特征计算不同的行人图片特征之间的特征距离；相似程度判断部，用于根据各个特征距离之间的远近判断行人待检测图片与行人候选图片的相似程度作为行人重识别结果，其中，基于指导的多尺度特征提取模型对全局特征以及局部特征的提取过程包括如下步骤：步骤S1，对行人图片进行基本深度特征提取得到对应该行人图片的描述特征；步骤S2，对描述特征进行多尺度特征分析从而获取每个行人图片在各个尺度下的尺度特征；步骤S3，利用基于指导的注意力机制对尺度特征下的显著性空间区域进行突显从而得到对应各个尺度特征的突显特征；步骤S4；将突显特征利用全局与局部双分支数据流进行全局特征和局部特征的提取。

本发明提供的基于指导的多尺度注意力行人重识别深度学习系统，还可以具有这样的技术特征，其中，在步骤S1中进行基本深度特征提取时，具体使用ResNet50的前3个残差模块作为基础卷积层提取描述特征。

本发明提供的基于指导的多尺度注意力行人重识别深度学习系统，还可以具有这样的技术特征，其中，步骤S2中，在描述特征进行多尺度特征分析时，使用3个权重不共享的数据流分支S_i(i＝1,2,3)，分别提取3个表示不同尺度的尺度特征F_i(i＝1,2,3)：对数据流分支S₁，使用卷积核为3×3的卷积层提取行人图片小尺度特征F₁；对数据流分支S₂，使用卷积核为5×5的卷积层提取行人图片中等尺度特征F₂；对数据流分支S₃，使用卷积核为7×7的卷积层提取行人图片大尺度特征F₃。

本发明提供的基于指导的多尺度注意力行人重识别深度学习系统，还可以具有这样的技术特征，其中，数据流分支S₂拆分为2个级联的3×3卷积层，数据流分支S₃拆分为3个级联的3×3卷积层，对数据流分支S₁，S₂和S₃，为每一层3×3卷积层嵌入h(x)＝f(x)+x的残差思想，即额外添加一个由输入直接到输出的单位函数通道。

本发明提供的基于指导的多尺度注意力行人重识别深度学习系统，还可以具有这样的技术特征，其中，步骤S3包括如下子步骤：步骤S3-1，对尺度特征F_i(i＝1,2,3)，将其以第二维度为基准进行拼接作为注意力指导者，并使用1×1卷积对其进行降维、精炼操作，从而得到注意力指导特征H_g：

H_g＝W_g·Cat(F₁,F₂,F₃) (1)

式中，W_g表示1×1卷积的参数，Cat(*)表示特征拼接操作；步骤S3-2，对任一数据流分支S_i(i＝1,2,3)，利用两个1×1卷积分别将注意力指导特征H_g映射到两个不同的特征空间

和

式中，

和

分别为两个1×1卷积的参数，且对其他数据流分支不共享；然后从两个特征空间

和

计算对应于尺度S_i的注意力权重α＝(α₁,α₂,…,α_C)^T：

式中，T表示矩阵转置，k,j∈[1,C]表示特征行索引，

表示批量矩阵乘法运算，C为尺度特征F_i的维度；步骤S3-3，利用注意力权重α，对尺度特征F_i的显著性空间区域进行突显，从而得到突显特征

步骤S3-4，对突显特征

通过一个可学习权重系数β自动调节其比重

本发明提供的基于指导的多尺度注意力行人重识别深度学习系统，还可以具有这样的技术特征，其中，步骤S4包括如下子步骤：步骤S4-1，对突显特征

使用全局池化层提取该尺度下行人待检测图片的全局特征；步骤S4-2，对突显特征

使用水平的全局池化层均分地提取该尺度下行人待检测图片的3个局部特征；步骤S4-3，对全局特征以及局部特征，均利用一层1×1卷积进行降维，将特征维度降至512形成降维全局特征以及降维局部特征；步骤S4-4，循环执行步骤S4-1到步骤S4-3，对步骤S3得到的3个不同尺度特征

和

均利用全局与局部双分支进行特征提取，从而得到各个行人图片的3个全局特征以及9个局部特征。

本发明提供的基于指导的多尺度注意力行人重识别深度学习系统，还可以具有这样的技术特征，其中，特征距离采用余弦距离。

发明作用与效果

根据本发明的基于指导的多尺度注意力行人重识别深度学习系统，由于图片特征提取部通过基于指导的多尺度特征提取模型对行人图片进行多尺度的全局以及局部特征的提取，因此本发明能够以不同尺度对行人图片进行特征提取、并通过基于指导的注意力学习层以全尺度信息作为指导，从全方位的角度对各个尺度特征中的对行人重识别具有识别力的关键/显著性区域进行指导、突显，抑制冗余、干扰信息，从而有效地提高重识别的精度和效率。还由于通过图像特征拼接部对行人图片的多尺度特征进行拼接、通过特征距离计算部计算特征距离以及通过相似程度判断部判断相似程度，因此能够根据行人图片的相似度进行精确的判断从而完成行人重识别。

本发明的系统具有速度快、精确度高、鲁棒性好、泛化能力佳、可扩展性强等优点，非常适用于视频行人监控、视频行人信息检索等实际应用。更重要的是，由于本发明提出的基于指导的多尺度特征提取模型具有强大的多尺度特征学习分析能力，因此基于指导的多尺度注意力行人重识别深度学习系统具有很好的可扩展性和泛化能力，能适用于不同的摄像网络间的行人重识别任务。

附图说明

图1是本发明实施例中基于指导的多尺度注意力行人重识别深度学习系统的结构框图；

图2是本发明实施例中基于指导的多尺度注意力行人重识别深度学习系统的构成示意图；

图3是本发明实施例中基于指导的多尺度特征提取模型的结构示意图；

图4是本发明实施例中在多尺度数据流层中采用的残差结构图；

图5是本发明实施例中基于指导的注意力学习模块的结构示意图；以及

图6是本发明实施例中行人重识别过程的流程图。

具体实施方式

为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解，以下结合实施例及附图对本发明的基于指导的多尺度注意力行人重识别深度学习系统作具体阐述。

<实施例>

对于行人重识别任务，考虑行人图片不同尺度的特征，并合理地进行对比推敲是一种可行有效的，具有理论依据的方法。受启发于人类视觉感知系统，本发明设计了基于指导的多尺度注意力行人重识别深度学习系统，该系统所采用的基于指导的多尺度特征提取模型主要包含基础卷积层模块、多尺度数据流层模块、基于指导的注意力学习层模块和全局与局部分支层模块。对于给定的一张行人图片，多尺度数据流层模块可以从由小到大3个不同的尺度对分行人图片特征进行分析、挖掘；基于指导的注意力学习层模块利用所有尺度的特征作为指导信息，指导各个尺度特征的关键/显著性空间区域的学习与突显；全局与局部双分支层模块对行人图片提取的多尺度特征从全局与局部双分支数据流进行监督训练。

图1是本发明实施例中基于指导的多尺度注意力行人重识别深度学习系统的结构框图。

如图1所示，基于指导的多尺度注意力行人重识别深度学习系统100包括行人图片获取部1、图片特征提取部2、图片特征拼接部3、特征距离计算部4、相似程度判断部5、画面存储部6、输入显示部7、系统通信部8以及系统控制部9。

其中，系统通信部8用于进行系统100与其他系统之间以及系统100的各个构成部件之间的数据交互；系统控制部9中存储有用于对系统100的各个构成部分进行控制的计算机程序。

本实施例中，如图2所示，基于指导的多尺度注意力行人重识别深度学习系统100由一个计算设备以及一个展示设备组成，用于对外部的媒体数据进行处理。其中，计算设备由处理器以及内存构成：处理器是一个用于计算以及运行可执行代码的硬件处理器，如中央处理器CPU或是图形计算处理器GPU；内存是一个非易失的存储器，用于储存可执行代码从而让处理器执行相应的计算过程，同时，内存也会存储各类中间数据及参数。内存中存储有用于系统运行的可执行代码，即、用于运行行人图片获取部1、图片特征提取部2、图片特征拼接部3、特征距离计算部4以及相似程度判断部5的相关执行程序代码。展示设备包括画面存储部6以及输入显示部7。

行人图片获取部1用于获取行人图片，行人图片包含行人待检测图片以及行人候选图片。

本实施例中，行人图片获取部1首先获取媒体数据，并从该媒体数据中获取行人图片。媒体数据为通过电视、因特网(Internet)等方式传播的视频内容(如电影、录像等)、图像内容或是包含多个不同行人身份的图像数据。

图片特征提取部2用于根据预先训练完成的基于指导的多尺度特征提取模型提取行人图片在各个尺度下的全局特征和局部特征。

本实施例中，基于指导的多尺度特征提取模型以可执行代码的形式作为图片特征提取部2的部分程序，该基于指导的多尺度特征提取模型包括基础卷积层模块21、多尺度数据流模块22、基于指导的注意力学习模块23以及全局与局部分支模块24(如图3所示)。基于指导的多尺度特征提取模型的各个模块分别对应图片特征提取部2对行人图片进行全局特征以及局部特征进行提取的具体执行过程，即步骤S1至步骤S4。

步骤S1，对行人图片进行基本深度特征提取得到对应该行人图片的基本描述特征。

本实施例中，步骤S1所对应的基础卷积层模块21具体使用ResNet50的前3个残差模块作为基础卷积层。该基础卷积层模块21是处理媒体数据的代码模块，用于对图像内容进行基础的解码、从而提取各个行人图片的描述特征。

在特征层面，多尺度特征提取方法利用不同尺度的滤波器对同一行人图片提取不同尺度的特征。该方式具有计算复杂度低、模型参数少、多尺度特征维度相同的优势。对于任一给定的行人图片(其维度为H×W×3，一张图片仅包含一个行人)，本实施例利用基础卷积层(即基础卷积层模块21)对行人图片提取基本的深度特征，该层采用具有非常优秀的分类任务精度的网络结构ResNet-50[5]作为骨架，同时为了保证后续数据分析具有足够的特征维度，舍弃了ResNet-50中的最后一个残差模块(因为其会将特征维度降低一半)。

通过上述基础卷积层，最终可以获得一个维度为

的浅层行人图片特征(基础特征)。在实际的网络使用中，本实施例采用H＝384,W＝192。

步骤S2，对描述特征进行多尺度特征分析从而获取每个行人图片在各个尺度下的尺度特征。

本实施例中，步骤S2所对应的多尺度数据流模块22，用于从基础卷积层模块21得到的基础特征中提取多尺度信息，即从行人图片的基础特征中利用不同尺度的滤波器提取具有不同尺度、相同维度的行人表征特征。

通过实施步骤S1，可以获得每个行人图片的基本深度特征，因此接下来，将从多个不同的尺度对该基本深度特征进行深入的探讨分析以挖掘不同尺度的具潜在识别能力的信息。本实施例使用多尺度数据流层(即多尺度数据流模块22)实现对基本深度特征的多尺度分析，该层一共包含3个尺度的数据流分支：S₁，S₂和S₃。

对于第一个分支S₁，利用卷积核为3×3的卷积层对行人图片基本特征以较小的感受野进行分析；对于第二个分支S₂，利用卷积核为5×5的卷积层对行人图片特征以中等感受野进行分析；同理地，对于第三个分支S₃，以7×7的感受野(卷积核)对行人图片进行大尺度分析。

由此，可以从三个不同尺度对行人图片基本特征进行分析，从而获得三个具有不同感受野尺度、但拥有相同维度的行人图片多尺度特征。更进一步，为了提高多尺度特征的表征能力，对该层嵌入两个实用有效地设计：感受野级联和残差结构。前者通过将5×5或7×7卷积核的卷积层拆分为两个或三个级联的3×3的卷积层，该设计不仅可以加深网络，增强特征表征能力，还可以减少网络训练参数；后者对于每一个尺度分支中的每一个3×3的卷积层，在其前后均添加两个级联的1×1卷积层，用于特征维度的降维和升维(即额外添加了一个由输入直接到输出的单位函数通道，实现了h(x)＝f(x)+x的残差思想，如图4所示)。最后将卷积得到的特征与残差信息相加作为最终的输出。

通过上述多尺度数据流层，最终可以获得三个具有不同尺度、相同维度的多尺度行人特征F_i(i＝1,2,3)。

步骤S3，利用基于指导的注意力机制对尺度特征下的显著性空间区域进行突显从而得到对应各个尺度特征的突显特征。

本实施例中，步骤S3对应的基于指导的注意力学习模块23(如图5所示)，用于从多尺度数据流模块22提取的多尺度行人图像特征中突显一些具有识别能力的显著性区域，抑制一些具有冗余、误导性的信息响应。

通过步骤S2获得的行人多尺度特征，可能包含不同尺度的，对行人重识别有益的信息，例如体型、衣服颜色、鞋子款式等，但也可能包含一些无用和冗余的信息，例如背景。因此，本实施例提出一种新颖的基于指导的注意力学习层(即基于指导的注意力学习模块23)对多尺度行人特征进行进一步地筛选，凸显显著性区域、抑制干扰信息。该层的优势在于学习生成注意力权重时不仅仅考虑输入特征自己本身，还考虑了其他尺度的特征信息，使得对于某一尺度分支的注意力权重在学习时，不会因为片面、不完善的行人特征信息而导致误导或不可靠。

具体地，步骤S3的具体步骤包括步骤S3-1至步骤S3-4：

步骤S3-1，对于任一尺度数据流分支S_i(i＝1,2,3)，先将3个尺度分析挖掘得到的特征F₁，F₂和F₃，将其以第二维度为基准进行拼接作为注意力指导者，并使用1×1卷积对其进行降维、精炼操作，从而得到注意力指导特征H_g：

H_g＝W_g·Cat(F₁,F₂,F₃)

式中，W_g表示1×1卷积的参数，Cat(*)表示特征拼接操作。

步骤S3-2，对任一数据流分支S_i(i＝1,2,3)，首先利用两个1×1卷积分别将注意力指导特征H_g映射到两个不同的特征空间

和

式中，

和

分别为两个1×1卷积的参数，且对其他数据流分支不共享，

然后从两个特征空间

和

计算对应于尺度S_i的注意力权重α＝(α₁,α₂,…,α_C)^T：

式中，T表示矩阵转置，k,j∈[1,C]表示特征行索引，

表示批量矩阵乘法运算，C为尺度特征F_i的维度。

步骤S3-3，基于注意力权重α，对尺度特征F_i的关键/显著性空间区域进行突显，从而得到突显特征

步骤S3-4，对突显特征

通过一个可学习权重系数β自动调节其比重

本实施例中，由于在网络结构的训练初期，对基于指导的注意力学习层中的所有参数均采用随机初始化，因此有可能对先前的多尺度行人特征提取造成误导。为减少这种风险，保证网络稳定收敛，额外为计算得到的显著性突显特征

添加一个初值为0的可学习权重系数β，以此来自动调节其比重

通过上述基于指导的注意力学习层，最终可以将步骤S2得到的三个具有不同尺度、相同维度的多尺度行人特征F_i(i＝1,2,3)精炼优化成更具识别能力的基于指导的注意力机制的行人多尺度特征

步骤S4，将突显特征利用全局与局部双分支数据流进行全局特征和局部特征的提取。

本实施例中，步骤S4所对应的全局与局部分支模块24，用于将从多尺度数据流模块22提取的，经过基于指导的注意力学习模块23筛选的特征分解为全局特征和局部特征，进一步激发局部特征的重要性，挖掘全局特征和局部特征之间的互补性。

通过步骤S3获得的行多尺度特征，已经具有很好的特征表征能力和识别能力，可以直接用于行人重识别任务。为了更一步体现局部特征的重要性，以及挖掘全局特征和局部特征之间的互补性，对于任一尺度的行人图片特征

不仅使用一层全局池化层进行池化操作，得到一个维度为C的全局特征(其中C为尺度特征

的维度)用于监督学习、识别测试；还使用一层水平的全局池化层对特征

进行均匀的水平池化操作，得到M个维度为C的局部特征。同时为了减少高纬度带来的高计算量，又为了增强特征的表征能力，在全局特征和局部特征后都拼接一层权重不共享的1×1卷积层将特征维度从C降低到C′进行压缩精炼。在实际运行时，全局与局部分支层操作应用到所有尺度的分支，并采用C＝2048，C′＝512。

具体地，步骤S4的具体步骤包括步骤S4-1至步骤S4-4。

步骤S4-1，对突显特征

使用全局池化层提取该尺度下行人待检测图片的全局特征；

步骤S4-2，对突显特征

使用水平的全局池化层均分地提取该尺度下行人待检测图片的3个局部特征；

步骤S4-3，对全局特征以及局部特征，均利用一层1×1卷积进行降维，将特征维度降至512形成降维全局特征以及降维局部特征；

步骤S4-4，循环执行步骤S4-1到步骤S4-3，对步骤S3得到的3个不同尺度特征

和

通过上述全局与局部分支层，最终可以得到3个尺度共3个行人全局特征以及3个尺度共9个局部特征进行特征表示，从而实现从行人视觉感受野层面及行人物理结构层面双重多尺度特征分析。

本实施例中，图片特征提取部2还能够用于训练的行人重识别数据集进行特征提取并进行模型训练。在模型的训练时期，通过将行人重识别数据集中的行人图片输入基于指导的多尺度特征提取模型并进行监督训练，从而修正该模型的参数。具体地，在基于指导的多尺度特征提取模型对行人重识别数据集中的行人图片进行处理并得到全局和局部特征的输出后，利用行人图片身份信息作为监督信息，监督训练整个系统的参数(包括从步骤S1-S4的所有参数)。

在实际训练中，为了更好地强化多尺度特征的学习和监督基于指导的注意力学习，本发明提出同时使用分类损失函数和三元组损失函数来监督网络的训练。

对于分类损失函数，我们使用softmax分类器分别将3个全局特征和9个局部特征映射到对应的行人身份分类空间，并利用交叉熵损失函数生成损失、梯度回传、更新网络：

式中，M表示局部特征的数量，

表示尺度分支i上第j个局部特征计算得到的交叉熵损失；

尺度分支i上的全局特征计算得到的交叉熵损失；

对于三元组损失函数，我们采用在线难例挖掘的方法，拉近难例正样本之间的全局特征距离，拉远难例负样本之间的全局特征距离，其公式为：

式中，m表示三元组损失函数的边缘距离；

表示第i个尺度分支上的正样本全局特征之间的欧氏距离；

表示第i个尺度分支上的负样本全局特征之间的欧氏距离；N_batch表示一个批量的训练样本数量；操作(*)+表示如果*<0则输出为0。

在训练过程中，需要同时考虑损失L_cls和L_tri对基于指导的多尺度特征提取模型进行参数学习更新。

本实施例中，上述对基于指导的多尺度特征提取模型进行的训练过程可以事先执行并将训练完成的基于指导的多尺度特征提取模型参数存储至图片特征提取部2中，也可以在图片特征提取部2存储基于指导的多尺度特征提取模型后根据行人重识别数据集进行训练迭代。

图片特征拼接部3用于分别拼接各张行人图片的全局特征以及局部特征作为对应各张行人图片的行人图片特征。

本实施例中，通过步骤S1到步骤S4，最终每张行人图片一共获得12个特征(每个尺度分支提取1个全局和3个局部，一共3个尺度分支，即(1+3)*3＝12)，图片特征拼接部3分别将每张行人图片全部12个特征拼接在一起形成一个12*512＝6144维度的特征作为各张行人图片最终的行人图片特征。

特征距离计算部4用于根据各个行人图片特征计算不同的行人图片特征之间的特征距离。

本实施例中，特征距离计算部4利用余弦距离计算不同行人图片之间的特征距离。

相似程度判断部5根据各个特征距离之间的远近判断行人待检测图片与行人候选图片的相似程度作为行人重识别结果。

本实施例中，对于实际应用，相似程度判断部5可以通过不同方式判断行人待检测图片与行人候选图片的相似程度从而完成行人重识别。

具体地，一方面，相似程度判断部5可以利用相似性进行由高到低的排序，输出行人重识别Top-K的匹配结果，相似性越高，排序越前，待检测图片和行人候选图片是同一个人的概率越高(即，行人重识别结果为待检测图片和行人候选图片的相似程度排序结果)；另一方面，由于相似性值的值域为(0,1]，相似程度判断部5也可以通过设定阈值T(例如T＝0.5)，对候选行人图片的识别相似性进行二分类，如果相似性大于阈值T，则认为候选行人图片和待检测行人图片属于同一个人；反之，如果相似性小于阈值T，则认为他们不属于同一个行人。

画面存储部6用于存储识别结果显示画面。

识别结果显示画面用于在相似程度判断部5判断出行人重识别结果后显示并在该画面中显示行人重识别结果从而让用户查看。

输入显示部7用于显示上述画面，从而让用户通过这些画面完成相应的人机交互。

本实施例中，输入显示部7以及画面存储部6为一个与计算设备相通信连接的展示设备，该展示设备可以是电脑、电视或者移动设备等。在相似程度判断部5判断出行人重识别结果后，由系统通信部8将该行人重识别结果发送给输入显示部7。

在其他实施例中，展示设备、计算设备可以为同一设备，例如计算机。

图6是本发明实施例中行人重识别过程的流程图。

本实施例中，基于指导的多尺度注意力行人重识别深度学习系统100的行人重识别过程包括如下步骤：

步骤T1，行人图片获取部1获取用于对比的行人待检测图片以及行人候选图片作为行人图片，然后进入步骤T2；

步骤T2，图片特征提取部2根据基于指导的多尺度特征提取模型分别对步骤T1中获取的各个行人图片提取其在各个尺度下的全局特征和局部特征，然后进入步骤T3；

步骤T3，图片特征拼接部3依次将步骤T2中提取全局特征和局部特征进行拼接从而得到对应各张行人图片的行人图片特征，然后进入步骤T4；

步骤T4，特征距离计算部4根据步骤T3中得到的行人图片特征计算各个行人图片之间的特征距离，然后进入步骤T5；

步骤T5，相似程度判断部5根据步骤T3中得到的特征距离判断各个行人图片的相似程度并作为行人重识别结果，然后进入步骤T6；

步骤T6，输入显示部7显示识别结果显示画面并在该画面中显示步骤T5得到的行人重识别结果让用户查看，然后进入结束状态。

实施例作用与效果

根据本实施例提供的基于指导的多尺度注意力行人重识别深度学习系统，由于图片特征提取部通过基于指导的基于指导的多尺度特征提取模型对行人图片进行多尺度的全局以及局部特征的提取，因此本发明能够以不同尺度对行人图片进行特征提取、并通过基于指导的注意力学习层以全尺度信息作为指导，从全方位的角度对各个尺度特征中的对行人重识别具有识别力的关键/显著性区域进行指导、突显，抑制冗余、干扰信息，从而有效地提高重识别的精度和效率。还由于通过图像特征拼接部对行人图片的多尺度特征进行拼接、通过特征距离计算部计算特征距离以及通过相似程度判断部判断相似程度，因此能够根据行人图片的相似度进行精确的判断从而完成行人重识别。

本发明的系统具有速度快、精确度高、鲁棒性好、泛化能力佳、可扩展性强等优点，非常适用于视频行人监控、视频行人信息检索等实际应用。更重要的是，由于本发明提出的基于指导的基于指导的多尺度特征提取模型具有强大的多尺度特征学习分析能力，因此基于指导的多尺度注意力行人重识别深度学习系统具有很好的可扩展性和泛化能力，能适用于不同的摄像网络间的行人重识别任务。

实施例中，由于采用3个尺度对描述特征进行多尺度分析，同时，由于本发明的多尺度定义为多尺度视觉感受野，而非多尺度图片分辨率，因此本发明能够通过多尺度数据流层对行人图片特征以不同尺度的感受野进行分析挖掘，从而提取由粗到细不同尺度的视觉特征，最终提高系统的效率和可扩展性。

实施例中，由于将各个数据流分支拆分为多个级联的3×3卷积层中，因此实现了既增加网络深度、又减少训练参数的效果；同时将残差思想嵌入每一层3×3的卷积层，因此还提高总体的特征表达能力。

实施例中，由于能够在自注意力机制(根据输入信息动态生成注意力权重)的基础上，引入更全面、广泛的信息作为指导，使注意力权重在生成的同时，不会因为输入信息的片面而产生误导，因此本发明能够很好地从全方位的角度对各个尺度特征中的对行人重识别具有识别力的关键/显著性区域进行指导、突显，抑制冗余、干扰信息，最终更好地提高系统的泛化能力和可扩展性。

上述实施例仅用于举例说明本发明的具体实施方式，而本发明不限于上述实施例的描述范围。