CN111310720A

CN111310720A - 基于图度量学习的行人重识别方法及系统

Info

Publication number: CN111310720A
Application number: CN202010165320.8A
Authority: CN
Inventors: 郝志峰; 苏伟根; 蔡瑞初; 温雯; 许柏炎
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2020-03-11
Filing date: 2020-03-11
Publication date: 2020-06-19

Abstract

本发明公开了基于图度量学习的行人重识别方法及系统，通过姿态估计深度学习网络提取行人姿态关键点，利用残差神经网络和人体姿态关键点提取局部特征向量，再使用图卷积神经网络融合局部特征和局部结构信息得到图形表示特征向量，从而提取行人图像更细粒度的特征，并在结点层面对比图与图之间的相似度；使用图度量损失函数和分类损失函数，更准确地拉近同个行人图形特征向量之间的距离，拉大不同行人图形特征向量之间的距离，从而提高了网络的特征表示能力和判别能力，进而提高行人重识别的首位命中率(Rank‑1)和平均准确率均值(mAP)。

Description

基于图度量学习的行人重识别方法及系统

技术领域

本发明涉及行人重识别技术领域，尤其涉及基于图度量学习的行人重识别方法及系统。

背景技术

近年来，随着安防行业的发展，越来越多的视频监控系统投入使用，产生了海量的监控视频数据，单独依靠人工方式进行视频信息的监控与检索的方式不仅效率不高，而且需要投入大量的人力。因此，如果能够利用计算机视觉技术，实现视频监控分析自动化，将是推动“平安城市”建设的一大动力。

深度学习神经网络的兴起，直接推动了计算机视觉技术的发展，计算机视觉技术在越来越多的应用场景大放异彩。行人重识别，旨在识别出跨摄像头拍摄到的特定行人的图像，但由于摄视角变化、光线变化、行人部位存在遮挡、图像分辨率低等众多因素的影响，使得其成为计算机视觉领域最具挑战性的任务之一，受到学术界和工业界的重视。目前，行人重识别的研究重点集中在特征提取和度量学习两个方面。特征提取旨在利用神经网络根据任务需求自动提取出特征表示，包括提取整图的全局特征和提取图像局部区域的局部特征。虽然特征提取的方法训练比较稳定，但是都忽视了局部特征的结构信息，在行人图像存在遮挡、越界等问题时，容易导致模型准确度下降，并且当训练的行人类别数增加到一定数量级后难以训练。不同于特征提取，度量学习旨在通过网络学习两张行人图像的相似度，从而使同个行人的图像的相似度大于不同行人的图像的相似度。

如何在充分利用数据集有效信息的前提下，提高网络提取到的特征判别能力是行人重识别的目的。因此，在图像像素低，背景混杂，视角变化大，存在行人越界等问题下，通过提取行人图像更细粒度的特征，并找到合适的度量方式从细粒度上计算两张图像的特征相似度，进而根据相似度判断是否属于同一个体是我们需要解决的主要问题。

发明内容

本发明为解决现有的行人重识别方法由于受目标图像像素、拍摄视角变化、光线变化、背景混杂等影响，导致识别准确度不高的问题，提供了基于图度量学习的行人重识别方法及系统。

为实现以上发明目的，而采用的技术手段是：

基于图度量学习的行人重识别方法，包括以下步骤：

S1.通过姿态估计深度学习网络对各行人图像进行姿态提取，得到行人各身体部位的姿态关键点坐标；

S2.基于所述行人各身体部位的姿态关键点坐标，通过残差神经网络前向传播提取得到各行人图像对应的局部特征向量；

S3.基于所述局部特征向量及人体姿态连接方式，通过图卷积神经网络进行融合得到行人图像的图形表示特征向量；

S4.计算所述图形表示特征向量的分类损失结果以及图度量损失结果，进而判断其是否收敛；若收敛则进行下一步，若否则根据所述分类损失结果及图度量损失结果梯度反向传播更新所述残差神经网络的参数及图卷积神经网络的参数，并返回步骤S2；

S5.获取目标行人图像，执行步骤S1～S3提取对应的图形表示特征向量后，计算所述目标行人图像的各图形表示特征向量之间的相似度，根据相似度大小进行行人重识别。

上述方案中，通过姿态估计深度学习网络提取行人姿态关键点，利用残差神经网络和人体姿态关键点提取局部特征向量，再使用图卷积神经网络融合局部特征和局部结构信息得到图形表示特征向量，从而提取行人图像更细粒度的特征，并在结点层面对比图与图之间的相似度；使用图度量损失函数和分类损失函数，更准确地拉近同个行人图形特征向量之间的距离，拉大不同行人图形特征向量之间的距离，从而提高了网络的特征表示能力和判别能力，进而提高行人重识别的首位命中率(Rank-1)和平均准确率均值(mAP)。

优选的，所述步骤S1前还包括以下步骤：获取由不同摄像装置拍摄得到的行人图像，将其调整为固定大小后进行数据增强及去均值处理，并设置随机选取输入行人图像对的方式。在本优选方案中，为使行人图像的特征提取更加具有针对性，剔除了无关特征。

优选的，所述步骤S3具体为：以所述局部特征向量作为图的结点，以人体姿态连接方式作为图的边，构建行人图像的图形表示，并通过图卷积神经网络融合得到行人图像的图形表示特征向量。在本优选方案中，通过图卷积神经网络融合局部特征和局部结构信息，从而提取行人图像更细粒度的特征。

优选的，步骤S4中所述的分类损失结果具体通过对所述图形表示特征向量进行交叉熵损失计算得到：

其中，n表示所有行人图像中行人的ID总数，y_i表示行人的ID真值，

表示不同行人图像中行人的ID真值是否为同一行人的ID真值。

优选的，步骤S4中所述的图度量损失结果具体包括：

利用如下公式进行相似度计算：分别计算同一批行人图像组成的图像对中，相同行人的行人图像对的图形表示特征向量的余弦距离得到x⁺，不同行人的行人图像对的图形表示特征向量的余弦距离得到x^-：

其中f1，f2表示行人图像的图形表示特征向量；

再基于如下公式计算图度量损失结果：

L^g＝(δ⁺²+δ^-2)+λmax(0,m-(μ⁺-μ^-))

其中μ⁺表示同一批行人图像中，相同行人的行人图像对的图形表示特征向量的余弦距离的均值；μ^-表示不同行人的行人图像对的图形表示特征向量之间的余弦距离的均值；δ⁺²表示相同行人的行人图像对的图形表示特征向量的余弦距离的方差，δ^-2表示不同行人的行人图像对的图形表示特征向量之间的余弦距离的方差，λ表示权重参数，m表示正负类样本相似度均值的边界。

优选的，步骤S4中所述进而判断所述S3是否收敛的具体步骤包括：取所述图形表示特征向量相邻两次迭代计算的分类损失结果以及图度量损失结果之差，若差值小于预设收敛阈值，则判断为收敛，否则为未收敛。

在本优选方案中，使用图度量损失函数和分类损失函数，更准确地拉近同个行人图形特征向量之间的距离，拉大不同行人图形特征向量之间的距离，从而提高了网络的特征表示能力和判别能力。

优选的，步骤S5中所述根据相似度大小进行行人重识别具体为：若各目标行人图像的图形表示特征向量的相似度大于预设相似度阈值，则判断其属于同一个行人；否则判断其不属于同一行人。

一种基于图度量学习的行人重识别系统，包括：

人体姿态提取模块，用于通过姿态估计深度学习网络对各行人图像进行姿态提取，得到行人各身体部位的姿态关键点坐标；

局部特征提取模块，用于基于所述行人各身体部位的姿态关键点坐标，通过残差神经网络前向传播提取得到各行人图像对应的局部特征向量；

行人图形表示模块，用于基于所述局部特征向量及人体姿态连接方式，通过图卷积神经网络进行融合得到行人图像的图形表示特征向量；

损失计算模块，用于计算所述图形表示特征向量的分类损失结果以及图度量损失结果，进而判断其是否收敛；若收敛则进行下一步，若否则根据所述分类损失结果及图度量损失结果梯度反向传播更新所述残差神经网络的参数及图卷积神经网络的参数，并返回至局部特征提取模块；

行人重识别模块，用于在依次通过人体姿态提取模块、局部特征提取模块、行人图形表示模块提取目标行人图像对应的图形表示特征向量后，计算所述目标行人图像的各图形表示特征向量之间的相似度，根据相似度大小进行行人重识别。

优选的，所述行人重识别系统还包括图像预处理模块，用于获取由不同摄像装置拍摄得到的行人图像，将其调整为固定大小后进行数据增强及去均值处理，并设置随机选取输入行人图像对的方式。

与现有技术相比，本发明技术方案的有益效果是：

本发明提供的基于图度量学习的行人重识别方法及系统通过姿态估计深度学习网络提取行人姿态关键点，利用残差神经网络和人体姿态关键点提取局部特征向量，再使用图卷积神经网络融合局部特征和局部结构信息得到图形表示特征向量，从而提取行人图像更细粒度的特征，并在结点层面对比图与图之间的相似度；使用图度量损失函数和分类损失函数，更准确地拉近同个行人图形特征向量之间的距离，拉大不同行人图形特征向量之间的距离，从而提高了网络的特征表示能力和判别能力，进而提高行人重识别的首位命中率(Rank-1)和平均准确率均值(mAP)。

本发明针对目标图像存在像素低、拍摄视角变化、光线变化、背景混杂、行人越界等问题，通过提取行人图像更细粒度的特征，并找到合适的度量方式从细粒度上计算两张图像的特征相似度，进而根据相似度判断是否属于同一行人。本发明在充分利用数据集有效信息的前提下，提高了网络的特征表示能力和判别能力。

附图说明

图1为实施例1行人重识别方法的流程图。

图2为实施例2行人重识别方法的流程图。

图3为实施例3行人重识别系统的模块图。

图4为实施例4行人重识别系统的训练过程图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；

对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

实施例1

本实施例1提供了一种基于图度量学习的行人重识别方法，可用于识别不同摄像装置下捕捉到的行人图像是否属于同一行人。如图1所示，包括：

首先获取由不同摄像装置拍摄得到的行人图像，为使其特征提取更加具有针对性，将其调整为固定大小后进行数据增强及去均值处理，并设置随机选取输入行人图像对的方式。然后执行以下步骤：

对于行人重识别任务来说，主要是判断两张图像是否属于同一行人，这种情况下细节信息很重要。因此该步骤进行姿态关键点提取工作，旨在获取更多的行人图像细节信息。

S2.基于所述行人各身体部位的姿态关键点坐标，通过残差神经网络前向传播提取得到各行人图像对应的局部特征向量；在该步骤中使用了姿态关键点和残差神经网络，通过两者的结合，可以获取到图像特征中更细粒度的各个身体局部的特征，进而关注行人的细节差异而抑制对行人重识别任务作用不大的信息，进行后续更细粒度的相似度对比。

S3.以所述局部特征向量作为图的结点，以人体姿态连接方式作为图的边，构建行人图像的图形表示，并通过图卷积神经网络融合得到行人图像的图形表示特征向量；在该步骤中，充分考虑了行人的局部身体结构信息，能提取到更强判别能力的结构化特征。

其中分类损失结果具体通过对所述图形表示特征向量进行交叉熵损失计算得到：

表示不同行人图像中行人的ID真值是否为同一行人的ID真值

其中图度量损失结果通过计算孪生网络中两张行人图像对应的图形表示特征向量的相似度，并计算其图度量损失结果。具体如下：

其中f1，f2表示行人图像的图形表示特征向量；

进一步具体即为：

计算同一批行人图像组成的图像对中，相同行人的行人图像对的图形表示特征向量的余弦距离：

其中f1，f2表示同一批行人图像组成的图像对中，相同行人的行人图像对的图形表示特征向量；

计算不同行人的行人图像对的图形表示特征向量的余弦距离：

其中f1，f2表示不同行人的行人图像对的图形表示特征向量的余弦距离；

再基于如下公式计算图度量损失结果：

L^g＝(δ⁺²+δ^-2)+λmax(0,m-(μ⁺-μ^-))

其中是否收敛的依据为：取所述图形表示特征向量相邻两次迭代计算的分类损失结果以及图度量损失结果之差，若差值小于预设收敛阈值，则判断为收敛，否则为未收敛。

在该步骤中，包括分类损失计算和图度量损失计算两项任务。两项任务联合训练整个网络，通过反向传播对整个网络的参数进行调整，从而得到最终训练好的网络结构。同时使用图度量损失函数和分类损失函数，更准确地拉近同个行人图形特征向量之间的距离，拉大不同行人图形特征向量之间的距离，从而提高了网络的特征表示能力和判别能力。

在上述步骤S2和S3中，采用了孪生网络，包括参数共享的残差神经网络和参数共享的图卷积神经网络。其中残差神经网络使用的是基于ImageNet数据集预先训练好的Resnet50深度学习网络，该网络通过卷积对图像进行特征提取，结合步骤S1所获得的姿态关键点坐标信息可以提取行人身体各部位的局部特征。图卷积神经网络由两层图卷积层组成，可以融合局部特征和局部结构信息得到行人图像的图形表示特征向量，该图形表示特征向量输入到多任务损失函数(分类损失和图度量损失)中，通过反向传播对整个网络的参数进行调整，从而得到最终训练好的网络结构。利用以上训练好的结果，即可进行图形表示特征向量的提取。

以上步骤中，首先利用各行人图像作为训练数据对残差神经网络、图卷积神经网络进行训练，训练完毕后再利用训练好的网络对待识别的目标行人图像进行图形表示特征向量的提取，即：

S5.获取目标行人图像，将其调整为固定大小后进行数据增强及去均值处理，并设置随机选取输入行人图像对的方式，然后执行步骤S1～S3提取对应的图形表示特征向量后，计算所述目标行人图像的各图形表示特征向量之间的相似度，根据相似度大小进行行人重识别：若各目标行人图像的图形表示特征向量的相似度大于预设相似度阈值，则判断其属于同一个行人；否则判断其不属于同一行人。

其中相似度的计算可以采用欧式距离、余弦相似度等距离度量方式，本领域技术人员可根据实际需求自行选择。

实施例2

本实施例为实施例1的补充例，如图2所示，与其区别在于，在步骤S5前还加入了测试步骤：获取作为测试数据的行人图像，将其调整为固定大小后进行数据增强及去均值处理，并设置随机选取输入行人图像对的方式，然后执行步骤S1～S3提取对应的图形表示特征向量后，计算所述目标行人图像的各图形表示特征向量之间的相似度作为测试结果。若该测试结果达到预期效果，则已最终训练成功，继续执行步骤S5；否则调整学习率等参数后再返回步骤S1进行训练。

实施例3

本实施例3提供了基于图度量学习的行人重识别系统，如图3和4所示，包括：

图像预处理模块，用于获取由不同摄像装置拍摄得到的行人图像，将其调整为固定大小后进行数据增强及去均值处理，并设置随机选取输入行人图像对的方式。获取到的行人图像划分为训练数据集、测试训练集及目标集。

人体姿态提取模块，用于通过姿态估计深度学习网络对各行人图像进行姿态提取，得到行人各身体部位的姿态关键点坐标；该模块的输入为行人图像，输出为行人图像及其对应的各身体部位的姿态关键点坐标；

局部特征提取模块，用于基于所述行人各身体部位的姿态关键点坐标，通过残差神经网络前向传播提取得到各行人图像对应的局部特征向量；该模块的输入为来自人体姿态提取模块的行人图像及其对应的各身体部位的姿态关键点坐标；输出为行人图像的局部特征向量；

行人图形表示模块，用于基于所述局部特征向量及人体姿态连接方式，通过图卷积神经网络进行融合得到行人图像的图形表示特征向量；该模块的输入为局部特征提取模块输出的行人图像的局部特征向量以及人体姿态连接图，输出为行人图像的图形表示特征向量；

行人重识别模块，用于在依次通过人体姿态提取模块、局部特征提取模块、行人图形表示模块提取目标集中行人图像对应的图形表示特征向量后，计算目标集中行人图像的各图形表示特征向量之间的相似度，根据相似度大小进行行人重识别：若各目标行人图像的图形表示特征向量的相似度大于预设相似度阈值，则判断其属于同一个行人；否则判断其不属于同一行人。其中相似度的计算可以采用欧式距离、余弦相似度等距离度量方式，本领域技术人员可根据实际需求自行对该模块进行设定。

在以上局部特征提取模块及行人图形表示模块采用了孪生网络，包括参数共享的残差神经网络和参数共享的图卷积神经网络。其中残差神经网络使用的是基于ImageNet数据集预先训练好的Resnet50深度学习网络，该网络通过卷积对图像进行特征提取，结合人体姿态提取模块所获得的姿态关键点坐标信息可以提取行人身体各部位的局部特征。图卷积神经网络由两层图卷积层组成，可以融合局部特征和局部结构信息得到行人图像的图形表示特征向量，该图形表示特征向量输入到损失模块计算其距离(相似度)，并计算图度量损失。通过反向传播对整个网络的参数进行调整，从而得到最终训练好的网络结构。利用以上训练好的结果，即可进行图形表示特征向量的提取。

本实施例3所提供的行人重识别系统与传统行人重识别系统相比，增加了人体姿态提取模块，并且在行人图形表示模块中，提出了一种新的网络结构：在基准残差神经网络Resnet50后添加了图卷积神经网络融合局部结构信息，使用多任务损失函数(分类损失及图度量损失)调整网络参数。

在行人重识别任务中，由于输入的行人图像均由摄像设备获取，图像本身存在光线变化大、视角差异大等问题，导致细节信息提取存在困难。而对于重识别任务来说，主要是判断两张图像是否属于同一行人，这种情况下细节信息很重要。因此，本实施例进行图像特征提取之前通过人体姿态提取模块进行姿态关键点提取工作，旨在获取更多的行人图像细节信息。

在局部特征提取模块，使用了姿态关键点和残差神经网络，通过两者的结合，可以获取到图像特征中各个身体局部的特征，进而关注行人的细节差异而抑制对行人重识别任务作用不大的信息。

同时，在行人图形表示模块中提出图形表示将行人局部特征和局部结构信息进行融合，提取到结构化、更具判别性的特征，使用多任务损失函数调节网络模型参数，在交叉熵损失函数的基础上对同一行人、不同行人之间的距离进行约束，从而提高网络模型的准确率。

实施例4

本实施例为实施例3的补充例，与其区别在于，在行人重识别模块还加入了测试模块：对于测试数据集的行人图像，依次通过人体姿态提取模块、局部特征提取模块、行人图形表示模块及损失计算模块后提取对应的图形表示特征向量后，计算所述目标行人图像的各图形表示特征向量之间的相似度作为测试结果。若该测试结果达到预期效果，则已最终训练成功，继续执行行人重识别模块；否则调整学习率等参数后再返回人体姿态提取模块进行训练。

综上所述，以上实施例所提供的基于图度量学习的行人重识别方法或系统，首先使用姿态估计深度学习网络对行人图像进行姿态关键点提取，获取行人图像细节信息，如行人衣服上的LOGO、发饰、鞋子、是否背包等信息可以为后续的重识别带来关键性的判断信息，提高判断结果的准确率。提取到的姿态关键点输入到残差神经网络模型中，经过该网络得到原始行人图像的局部特征表示，这种方式能提取到更细粒度的判别特征；随后将局部特征向量和人体姿态连接矩阵输入图卷积神经网络，经过该网络得到原始行人图像的图形表示，上述残差神经网络模型和图卷积神经网络模型并使用多任务损失函数进行参数的调整，可以拉近相同个体之间的距离。本发明中残差神经网络与图卷积神经网络相辅相成，共同提高网络的特征表示能力和判别能力，进而提高行人重识别准确率。

附图中描述位置关系的用语仅用于示例性说明，不能理解为对本专利的限制；

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.基于图度量学习的行人重识别方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于图度量学习的行人重识别方法，其特征在于，所述步骤S1前还包括以下步骤：获取由不同摄像装置拍摄得到的行人图像，将其调整为固定大小后进行数据增强及去均值处理，并设置随机选取输入行人图像对的方式。

3.根据权利要求1所述的基于图度量学习的行人重识别方法，其特征在于，所述步骤S3具体为：以所述局部特征向量作为图的结点，以人体姿态连接方式作为图的边，构建行人图像的图形表示，并通过图卷积神经网络融合得到行人图像的图形表示特征向量。

4.根据权利要求1所述的基于图度量学习的行人重识别方法，其特征在于，步骤S4中所述的分类损失结果具体通过对所述图形表示特征向量进行交叉熵损失计算得到：

表示不同行人图像中行人的ID真值是否为同一行人的ID真值。

5.根据权利要求4所述的基于图度量学习的行人重识别方法，其特征在于，

步骤S4中所述的图度量损失结果具体包括：

其中f1，f2表示行人图像的图形表示特征向量；

再基于如下公式计算图度量损失结果：

L^g＝(δ⁺²+δ^-2)+λmax(0,m-(μ⁺-μ^-))

6.根据权利要求1所述的基于图度量学习的行人重识别方法，其特征在于，步骤S4中所述进而判断所述S3是否收敛的具体步骤包括：取所述图形表示特征向量相邻两次迭代计算的分类损失结果以及图度量损失结果之差，若差值小于预设收敛阈值，则判断为收敛，否则为未收敛。

7.根据权利要求1所述的基于图度量学习的行人重识别方法，其特征在于，步骤S5所述的获取目标行人图像后还包括将所述目标行人图像调整为固定大小后进行数据增强及去均值处理，并设置随机选取输入行人图像对的方式。

8.根据权利要求1所述的基于图度量学习的行人重识别方法，其特征在于，步骤S5中所述根据相似度大小进行行人重识别具体为：若各目标行人图像的图形表示特征向量的相似度大于预设相似度阈值，则判断其属于同一个行人；否则判断其不属于同一行人。

9.一种基于图度量学习的行人重识别系统，其特征在于，包括：

人体姿态提取模块，通过姿态估计深度学习网络对各行人图像进行姿态提取，得到行人各身体部位的姿态关键点坐标；

10.根据权利要求9所述的基于图度量学习的行人重识别系统，其特征在于，所述行人重识别系统还包括图像预处理模块，用于获取由不同摄像装置拍摄得到的行人图像，将其调整为固定大小后进行数据增强及去均值处理，并设置随机选取输入行人图像对的方式。