CN113221625A

CN113221625A - 一种利用深度学习的局部特征对齐行人重识别方法

Info

Publication number: CN113221625A
Application number: CN202110229514.4A
Authority: CN
Inventors: 徐胜军; 刘求缘; 史亚; 孟月波; 刘光辉; 韩九强; 王艳
Original assignee: Xian University of Architecture and Technology
Current assignee: Xian University of Architecture and Technology
Priority date: 2021-03-02
Filing date: 2021-03-02
Publication date: 2021-08-06
Anticipated expiration: 2041-03-02
Also published as: CN113221625B

Abstract

一种利用深度学习的局部特征对齐行人重识别方法，步骤1：获取跨监控摄像头的行人图像数据；步骤2：将得到的行人图像进行图像增强操作后输入该卷积神经网络以提取该行人的多个特征映射，步骤3：将其中一个分支构造成全局分支，其余网络分支构造成三分支局部注意力网络，得到一个具有完整结构信息和语义信息的行人特征表示；步骤4：对于多分支局部注意力网络，设计激活一致性惩罚损失函数；步骤5：将跨监控摄像头的行人图像训练数据全部输入卷积神经网络进行训练；步骤6：将跨监控摄像头的行人图像测试数据全部输入卷积神经网络进行测试，完成行人重识别。本发明提高了行人重识别的匹配精度，便于在实际场景中部署落地。

Description

一种利用深度学习的局部特征对齐行人重识别方法

技术领域

本发明涉及行人重识别技术领域，特别涉及一种利用深度学习的局部特征对齐行人重识别方法。

背景技术

随着物联网技术近年来飞速发展，监控设备获取的数据已达海量，传统人工监测方法已经难以从海量视频数据中进行检索筛查，城市监控系统面临着巨大的挑战，此时急需计算机来代替人工对数据进行分析与处理，提高检索效率。得益于近年来深度学习、机器学习和计算机视觉技术的飞速发展，在目标检索、识别、分类、检测等任务中具有优越表现，从而在智慧城市领域具有广阔的应用前景和意义。

智能视频监控是确保城市安全的重要措施，而行人重识别是此类智能视频监控的基础和主要组成部分。行人重识别旨在复杂环境下对行人进行跨摄像头图像检索匹配，从而实现行人检测、行人跟踪、行人计数等。具体而言，从非重叠多摄像机获取的图像或视频数据库中查询特定行人，即给定一幅行人图像后在图像库中跨设备检索其所有图像，在视频监控、安防等领域有重大应用价值，极大的节省了人力物力。然而现有的行人重识别方法需要大量带有标注信息的行人图像数据，同时依赖更多标注的信息，比如需要额外标注行人语义信息，例如帽子、鞋子、背包等，这种方式需要更多的人力做额外的标注，极大的限制了行人重识别方法的广泛性和普适性；此外，在现实场景中通常存在部分遮挡、光线、视角、姿态变化等因素影响，从而造成行人特征难以对齐，导致行人重识别准确率低，因此行人重识别任务仍然是一个具有巨大挑战性的难题。

发明内容

为了克服现有技术的不足，本发明的目的在于提供一种利用深度学习的局部特征对齐行人重识别方法，该方法通过多分支局部注意力网络学习行人辨别性局部特征，即仅靠行人身份ID作为标签而不需要额外标注，自适应定位行人局部特征并用于行人特征匹配，极大的提高了行人重识别的匹配精度，更便于在实际场景中部署落地。

为了实现上述目的，本发明采用的技术方案是：

一种利用深度学习的局部特征对齐行人重识别方法，包括以下步骤；

步骤1：获取跨监控摄像头的行人图像数据，构建行人重识别训练数据集与测试数据集，数据集中包含不同摄像头拍摄的图像；

步骤2：构造一个四分支卷积神经网络，将步骤1得到的行人图像进行图像增强操作后输入该卷积神经网络以提取该行人的四个特征映射，定义为F_g,F₁,F₂,F₃，其中F_g表示为全局分支特征映射，F₁,F₂,F₃分别表示三个局部分支特征映射；

步骤3：将步骤2中的F_g部分造成全局分支，F₁,F₂,F₃部分构造成三分支局部注意力网络，每个局部注意力网络中都包含一个增强型空间注意力模型，将步骤2中得到的四个特征映射F_g,F₁,F₂,F₃输入对应网络，生成一个全局特征f_g和三个局部特征f₁,f₂,f₃，最终融合全局特征f_g和三个局部特征f₁,f₂,f₃，得到一个具有完整结构信息和语义信息的行人特征表示；

步骤4：对于三分支局部注意力网络，设计激活一致性惩罚损失函数L_CAP使步骤3得到的多个局部特征表达为同一行人图像的不同语义部位；

步骤5：将步骤1的跨监控摄像头的行人图像训练数据全部输入所述全局分支和局部多分支注意力网络进行训练；

步骤6：将步骤1的跨监控摄像头的行人图像测试数据全部输入所述全局分支和局部多分支注意力网络进行识别，计算跨监控摄像头行人特征相似度，然后根据相似度大小进行排序，实现行人重识别。

所述步骤1中具体为：

首先，从多个无交叉的监控摄像头中获取多段行人监控视频；

然后，通过预训练的行人检测器从监控视频中检测所有行人，通过定位并裁剪行人区域图像构建行人重识别数据集；

最后，使用人工标注的方法对行人图像进行行人类别和摄像头编号标注，不同行人之间的类和编号不同，循环上述步骤来构建行人重识别数据集，构建完成后，按照一定比例划分训练数据集与测试数据集，其中测试数据集又分为查询数据和图库数据，训练数据集和测试数据集分别用于网络参数训练和最终结果测试。

所述步骤2具体为：

将步骤1得到的行人图像进行随机裁剪、翻转、旋转、归一化的图像增强操作后输入该四分支卷积神经网络以提取该行人的特征映射，多分支卷积神经网络由一个共享权重的主干网络和四个独立权重的子网络相连而构成；其中共享权重的主干网络和四个独立权重的子网络皆由若干批量归一化层、卷积层、非线性激活层和池化层构成，其中四分支子网络构造相同但权重独立；给定一个行人图像，首先经过共享权重的主干网络生成一个特征映射，然后该特征映射分别经过多个独立权重的子网络生成高维特征映射作为行人特征F_g,F₁,F₂,F₃。

所述步骤3中具体为：

在独立权重的分支网络之后设计一个全局网络和三个局部注意力网络，其中注意力网络由两个卷积层，一个非线性激活函数构成，在三个高维特征映射F₁,F₂,F₃，分别经过对应分支后的注意力层之后会得到三个局部注意力特征F₁′,F₂′,F₃′，和三个注意力激活图w₁,w₂,w₃，，其中

然后将全局特征与多分支局部特征输入池化层，并且对得到的高维特征F_g,F₁,F₂,F₃进行融合，得到一个具有完整结构信息和语义信息的行人特征表示。

所述步骤4具体为：

对于局部多分支注意力网络，在获得注意力权重矩阵之后，采用海林格(Hellinger)距离H(·)度量任意两个LAN分支输出的w_i和w_j的一致性，即：

其中，

且w_i+w_j＝1，那么对上式求平方可得：

为了保证不同注意力模型的高激活区域不互相重叠，则需要最大化w_i和w_j之间的距离，等价于

最小化。

令

构造如下激活一致性惩罚损失函数

其中，||·||_F表示Frobenius范数，I为K维单位阵。使得注意力激活图w₁,w₂,w₃分别响应行人的不同语义部位。

所述步骤5具体为：

对于每一个分支，设计了一个三元组损失函数L(f_a,f_p,f_n)与一个交叉熵损失函数L(W*f)，其中f_a,f_n,f_p分别表示组成三元组的锚点、正样本和负样本行人图像的高维特征向量，W表示线性层参数。然后，将收集到的行人训练图像组成三元组输入至网络，进行前向传播算法计算得到损失；求解目标函数关于特征的偏导数

利用反向传播算法得出梯度进行参数更新学习。优化目标为以上损失函数和激活一致性惩罚函数的加和：

L＝L(w₁,w₂,w₃)+L(f_a,f_p,f_n)+L(W*f)。

所述步骤6具体为：

对于多个行人视频测试数据，首先利用行人检测器检测多个行人目标；然后将多个测试行人目标送入上述卷积神经网络得到对应高维特征向量；最后通过特征相似度函数S(f_i,f_j)＝cos(f₁,f₂)进行相似度计算，其中f_i,f_j分别表示第i个和j个不同输入行人图像，然后根据相似度大小进行排序，根据相似度最大原则确定行人重识别结果。

本发明的有益效果：

本发明利用注意力机制定位行人有辨别性特征的区域，有效学习了分布在人体不同部位的关键语义信息，提高了特征提取网络对行人图像的多粒度特征表达能力；同时，建立了一种基于注意力激活图的正则化损失函数，利用多分支局部注意力网络得到的激活图，计算不同分支的激活一致性，建立了基于局部区域激活一致性惩罚的约束；最后，与多分支局部注意力网络以及全局分支相结合，提出了具有局部特征多样化的多样化局部注意力网络(Diversified Local Attention Network，DLAN)，有效描述了行人图像不同部位间语义信息的关联性。

进一步的，局部分支越多，学习的局部特征越多，但模型的计算复杂度越高，实验验证给定局部分支k＝3时提出模型在识别精度和复杂度上得到了平衡；

进一步的，注意力模型利用3×3和1×1的卷积核以及非线性激活函数对特征进行非线性映射，通过与邻域建立相关性，有效提升了局部分支定位辨别性局部特征和学习语义信息的能力。

进一步的，基于特征提取网络，融合人体结构信息的全局特征、局部特征和人体空间结构的语义信息，建立基于深度学习的局部特征对齐的行人重识别模型，有效提升了模型对行人局部特征对齐的能力，因此针对局部遮挡和姿态变化带来的特征未对齐问题具有鲁棒性与有效性。

本发明不仅能有效定位辨别性特征区域、提取全局结构信息和局部语义信息，而且能更有效地处理遮挡问题，具有更强的鲁棒性。

附图说明

图1为本发明的流程图。

图2为行人重识别匹配结果示意图。

具体实施方式

下面结合实施例对本发明作进一步详细说明。

如图1所示：

本发明一种基于深度学习的局部特征对齐行人重识别方法，包括以下步骤：

1.获取跨监控摄像头的行人图像数据，构建行人重识别训练数据集与测试数据集，数据集中应包含一定数量的行人图像。具体步骤包括：

首先，从多个无交叉的监控摄像头中获取多段行人监控视频；然后，通过预训练的行人检测器从监控视频中检测所有行人，通过定位并裁剪行人区域图像构建行人重识别数据集；最后，使用人工标注的方法对行人图像进行行人类别和摄像头编号标注，不同行人之间的类和编号不同。循环上述步骤来构建行人重识别数据集，构建完成后，按照一定比例划分训练数据集、测试数据集，分别用于网络参数训练和最终结果测试。

2.构造一个四分支卷积神经网络，用于提取同一行人的全局特征和三个局部语义特征。具体步骤包括：

首先构建一个四分支卷积神经网络，该网络由一个共享权重的主干网络和四个构造相同但权重独立的子网络相连而构成；其中共享权重的主干网络由ResNet-50网络的前四个残差块构成，四个独立权重的网络由ResNet-50网络的第五个残差块构成。给定一个输入行人图像，首先经过共享权重的主干网络生成1024维的特征映射，然后该特征向量分别经过四个独立权重的子网络生成四个2048维特征映射，定义为F_g,F₁,F₂,F₃。

3.在三个局部分支后构建注意力网络。具体步骤包括：

在三个分支局部网络之后分别设计一个注意力网络，该注意力网络由两个卷积层，一个非线性激活函数构成。在F₁,F₂,F₃特征映射分别经过对应分支的注意力层之后会分别得到三个对应的注意力激活图 w₁,w₂,w₃，其次将三个注意力激活图w₁,w₂,w₃与对应的三个2048维特征映射F₁,F₂,F₃进行矩阵相乘的操作，使得F₁,F₂,F₃特征映射能够响应同一输入行人图像的不同的部位，最后各自通过一个池化层得到三个高维特征向量f₁,f₂,f₃。

4.设计一个一致性激活惩罚函数使得不同的注意力网络可以关注同一行人图像的不同部位。具体步骤包括：

对于单个局部注意力网络分支，在获得注意力权重矩阵之后，采用海林格(Hellinger)距离H(·)度量任意两个LAN分支输出的w_i和w_j的一致性，即：

其中，

且w_i+w_j＝1。

对上式求平方可得：

最小化。令

构造激活抑制性惩罚损失函数如下：

L＝L(w₁,w₂,w₃)+L(f_a,f_p,f_n)+L(W*f)

5.使用跨监控摄像头的行人图像训练数据对网络进行训练。具体步骤包括：

将收集到的行人训练图像组成三元组输入至网络，进行前向传播算法计算得到损失；求解目标函数关于特征的偏导数

利用反向传播算法得出梯度进行参数更新学习。

6.计算跨监控摄像头行人特征相似度，根据相似度大小进行排序，完成行人重识别，具体步骤包括：

对于多个行人视频数据，首先利用检测器检测多个目标行人；然后将多个目标行人送入上述卷积神经网络得到对应高维特征向量；最后通过特征相似度函数S(f_i,f_j)＝cos(f₁,f₂)进行相似度计算，其中f_i,f_j分别指不同输入行人图像i和行人图像j，根据相似度大小进行排序，完成行人重识别。识别匹配结果如图2所示，图2中从上到下四行图分别为数据集Market1501、DukeMTMC-reID、CHUK03的匹配结果，每行第一张代表查询图像，第2-6张代表查询结果，图片上绿色框代表查询正确，红色代表查询错误。

从匹配结果可以发现，模型在CUHK03数据集上有匹配错误的行人图像，由于CUHK03数据集中有较多的部分遮挡、半身照等图片，导致整体平均匹配精度比其他两个数据集低，这说明带遮挡的行人图像对于行人重识别存在巨大干扰，是行人重识别任务中的一大挑战；虽然，在CUHK03数据集上的表现不如其他数据集，但是DLAN模型采用多分支的局部注意力网络定位辨别性特征，并设计一致性激活惩罚损失函数优化多分支局部注意力网络，使其具有更强的定位和提取特征的能力。此外，DLAN通过将具有全局结构信息的全局特征和具有局部语义信息的辨别性局部特征进行融合，获得更完善的行人特征描述，使DLAN的整体性能优于基于深度学习的同类其他方法。由此可以看出，本发明提出的DLAN模型对部分遮挡具有较强的鲁棒性，显著提高了行人重识别的精度，特别是平均匹配精度。

表1本发明方法和现有方法在Market1501和DukeMTMC-REID数据集上的mAP和Rank-1结果

表2本发明方法和现有方法在CUHK03-NP数据集上的mAP和Rank-1 结果

表1与表2中：

[1]SUN Yifan,ZHENG Liang,YANG Yi,et al.Beyond part models:Personretrieval with refined part pooling(and a strong convolutional baseline)[C].Proceedings of the European Conference on Computer Vision,Munich,Germany,2018:480-496.doi:10.1007/978-3-030-01225-0_30.

[2]DAI Zuozhuo,CHEN Mingqiang,ZHU Siyu,et al.Batch dropblock networkfor person re-identification and beyond[C].Proceedings of the IEEEInternational Conference on Computer Vision,Seoul,Korea,2019:.3691–3701.doi:10.1109/ICCV.2019.00379.

[3]CHEN Binghui,DENG Weihong,and HU Jiani.Mixed high- order attentionnetwork for person re-identification[C]. Proceedings of the IEEEInternational Conference on Computer Vision,Seoul,Korea,2019:371-381.doi:10.1109/ICCV.2019.00046.

[4]ZHOU Jieming,ROY S,FANG Pengfei,et al.Cross- Correlated AttentionNetworks for Person Re- Identification[J].Image and Vision Computing,2020:103931.doi:10.1016/j.imavis.2020.103931.

表1列出了本发明方法和其他现有方法在Market1501和 DukeMTMC-REID数据集上的mAP(Mean Average Precision，平均精度均值)和CMC(Cumulative MatchCharacteristic，累计匹配特性)结果，表2列出了本发明方法和其他现有方法在CUHK03-NP数据集上的mAP和CMC结果。对比发现，本发明的准确率较高，在识别性能上有较大提升，在CUHK03-NP这类好含较多遮挡图像的数据集上，仍然保持优秀的识别性能，证明了本发明方法的有效性。

以上内容仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明权利要求书的保护范围之内。

Claims

1.一种利用深度学习的局部特征对齐行人重识别方法，其特征在于，包括以下步骤；

2.根据权利要求1所述的一种利用深度学习的局部特征对齐行人重识别方法，其特征在于，所述步骤1中具体为：

3.根据权利要求1所述的一种利用深度学习的局部特征对齐行人重识别方法，其特征在于，所述步骤2具体为：将步骤1得到的行人图像进行随机裁剪、翻转、旋转、归一化的图像增强操作后输入该四分支卷积神经网络以提取该行人的特征映射，多分支卷积神经网络由一个共享权重的主干网络和四个独立权重的子网络相连而构成；其中共享权重的主干网络和四个独立权重的子网络皆由若干批量归一化层、卷积层、非线性激活层和池化层构成，其中四分支子网络构造相同但权重独立；给定一个行人图像，首先经过共享权重的主干网络生成一个特征映射，然后该特征映射分别经过多个独立权重的子网络生成高维特征映射作为行人特征F_g,F₁,F₂,F₃。

4.根据权利要求1所述的一种利用深度学习的局部特征对齐行人重识别方法，其特征在于，所述步骤3中具体为：

5.根据权利要求1所述的一种利用深度学习的局部特征对齐行人重识别方法，其特征在于，所述步骤4具体为：

其中，

且w_i+w_j＝1，那么对上式求平方可得：

最小化。

令

构造如下激活一致性惩罚损失函数

6.根据权利要求1所述的一种利用深度学习的局部特征对齐行人重识别方法，其特征在于，所述步骤5具体为：

L＝L(w₁,w₂,w₃)+L(f_a,f_p,f_n)+L(W*f)。

7.根据权利要求1所述的一种利用深度学习的局部特征对齐行人重识别方法，其特征在于，所述步骤6具体为：