CN113361334B

CN113361334B - 基于关键点优化和多跳注意图卷积行人重识别方法及系统

Info

Publication number: CN113361334B
Application number: CN202110540831.8A
Authority: CN
Inventors: 张化祥; 高文博; 刘丽; 朱磊; 孙建德; 金圣开; 于治楼
Original assignee: Shandong Normal University
Current assignee: Shandong Normal University
Priority date: 2021-05-18
Filing date: 2021-05-18
Publication date: 2022-07-22
Anticipated expiration: 2041-05-18
Also published as: CN113361334A

Abstract

本发明提出了基于关键点优化和多跳注意图卷积行人重识别方法及系统，包括：提取图像中的关键点，获取每个关键点相应的置信度等级，基于图像中行人被遮挡时，相应关键点的置信度低，将置信度等级低的关键点利用其他关键点的相应特征来近似估计受遮挡关键点的特征信息；针对处理后的关键点的特征信息，利用增加了多跳注意力机制的特征学习网络进行学习，考虑了网络中每一层的有效信息，将注意力矩阵与特征信息相结合，得到特征学习的输出；对于输出的特征，特征匹配网络通过图匹配算法和人体拓扑特征对比两幅图像中的节点关系，输出预测的分类结果。本发明提高了受遮挡的行人重识别的精度。

Description

基于关键点优化和多跳注意图卷积行人重识别方法及系统

技术领域

本发明属于图像识别技术领域，尤其涉及基于关键点优化和多跳注意图卷积行人重识别方法及系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

行人重识别的目标是在多个不相关的摄像头中找到指定的人。大多数现有的方法都是采用深度学习的方法，通过训练神经网络来获得人的外观特征，这些方法可能会在几个特定的数据集上取得很好的结果，但是在实际情况下由于摄像机所拍摄获得的图像可能不能构建理想的数据集。具体来说，由于外部环境因素的影响，行人可能处于各种障碍物的阴影下，很难获得完整的行人图像。

近年来，一些基于局部特征的方法被提出来处理这类被遮挡的行人图像。然而，这些方法由于需要严格的特征对齐，因此这类方法在遮挡数据集上不能取得很好的效果。因为被遮挡的图像含有的判别信息较少，从而导致图像匹配难度较大。而这种对遮挡图片的重识别问题，被称为遮挡的的行人重识别问题。对于被遮挡的待检测图像，有方法采用忽略遮挡部分，只使用未被遮挡的特征。这种方法使模型只关注未遮挡的部分。也有人采用直接分割图像的方法，从无遮挡物的区域提取特征。然后水平分割全局特征，利用局部特征和全局特征联合进行学习。另外也有研究者提出了一种深度空间特征重构算法，该算法不需要图像对齐，也不限制输入图像的大小，提高了检测的精度。

但是发明人在研究中发现，虽然现在对于受遮挡的行人重识别问题有许多的解决办法，但大都采用直接舍弃遮挡点的办法，比如输入图像的下方的某些身体部位被遮挡了，这导致模型对遮挡的这一部分的学习效果很差，因此当某些部位被遮挡，模型对这一部分学习意义并不突出时，这些部位就会被故意丢弃，只学习那些没有遮挡的部位。很明显，这种策略并不可靠。

发明内容

为克服上述现有技术的不足，本发明提供了基于关键点优化和多跳注意图卷积行人重识别方法，提高对受遮挡的行人图片的判别能力。

为实现上述目的，本发明的一个或多个实施例提供了如下技术方案：

第一方面，公开了基于关键点优化和多跳注意图卷积行人重识别方法，包括：

提取图像中的关键点，获取每个关键点相应的置信度等级，基于图像中行人被遮挡时，相应关键点的置信度低，将置信度等级低的关键点利用其他关键点的相应特征来近似估计受遮挡关键点的特征信息；

针对处理后的关键点的特征信息，利用增加了多跳注意力机制的特征学习网络进行学习，考虑了网络中每一层的有效信息，将注意力矩阵与特征信息相结合，得到特征学习的输出；

对于输出的特征，特征匹配网络通过图匹配算法和人体拓扑特征对比两幅图像中的节点关系，输出预测的分类结果。

作为进一步的技术方案，构建由卷积神经网络和人体关键点提取网络组成的特征提取网络，之后添加用于人体关键点优化的优化网络，二者联合构成特征提取与优化网络，特征提取与优化网络用于从被遮挡的图片中得到优化后的特征信息。

作为进一步的技术方案，还包括网络训练步骤，将训练集图像，经过特征提取与优化网络、特征学习网络、特征匹配网络处理得到预测的分类结果，传入到损失函数里，计算每部分损失并使用反向传播算法对每一部分进行参数更新直至网络收敛，最后传入测试集图像，利用训练好的网络得到较为精确地分类结果，对遮挡行人重识别。

作为进一步的技术方案，所述特征提取与优化网络对图像的处理过程为：原始图片与网络输出的特征向量的结合，输出为特征向量、分类得分和每个关键点的置信度，然后添加交叉熵损失层和三元组损失层用于对于网络进行约束，其中交叉熵损失的输入为分类得分和关键点的置信度三元组损失层的输入则特征向量与原始图片的标签。

作为进一步的技术方案，所述特征学习网络中每一层使用特征和邻接矩阵来提取相邻节点不同跳中节点层次的局部子结构特征，网络采用残差结构，将注意力卷积层叠加并构建一个注意力图卷积模块，每一卷积层都是前一层的输出和初始输入之和，采用一个稠密图来处理每一个卷积层的输出组合，最后将原始图卷积的最大/平均池化层更改为自注意力池化层，利用交叉熵损失层和三元组损失层对网络进行约束。

作为进一步的技术方案，所述特征提取优化网络用于提取每个图像信息的特征，关键点信息通过关键点提取网络提取，特征由特征提取网络获得；

输入的图像经过关键点提取网络后得到图像H_kp的热图，热图中包含关键点信息，包括关键点的置信度H_lo和关键点位置H_co；

特征提取网络输出关键点对应的特征向量及全局特征。

作为进一步的技术方案，得到关键点在图像中的位置H_lo、相应的关键点的置信度H_co和特征信息F_cnn后，为每个关键点设定一个阈值α，通过迭代每个关键点的置信度H_co是否小于对应的关键点的阈值α，从而推断该关键点是否存在遮挡。

作为进一步的技术方案，当H_co>α，把为每个关键点人为设定的遮挡标志位H_ju设为1，表明该关键点不存在遮挡；

如果H_co<α，则说明存在遮挡，将H_ju设为0，每个关键点都包含一个H_ju，来表示该关键点是否存在遮挡；

当第i个关键点的H_ju(i)值为0时，表示存在遮挡，找到它对应的关键点j，并判断H_ju(j)的值是否为1，如果满足，就将该关键点的特征信息分配给被遮挡关键点的特征信息，否则不改变该关键点的特征信息。

作为进一步的技术方案，再分配之后，计算特征图F_cnn和关键点热图H_kp的向量积，并将结果通过池化层得到输出的语义特征。

作为进一步的技术方案，特征学习网络中，定义一个无向图，G＝(V,E)，其中V表示节点数量，每个节点表示一个关键点；

通过L_p＝D-A构造拉普拉斯矩阵，对拉普拉斯矩阵进行标准化并得到每层的输出结果；

利用了每一层的信息，将每一层的每个节点的图卷积信息进行结合；

最终的输出值包含全部节点的信息。

第二方面，公开了基于关键点优化和多跳注意图卷积行人重识别方法，包括：

关键点特征提取模块，被配置为：提取图像中的关键点，获取每个关键点相应的置信度等级，基于图像中行人被遮挡时，相应关键点的置信度低，将置信度等级低的关键点利用其他关键点的相应特征来近似估计受遮挡关键点的特征信息；

特征学习模块，被配置为：针对处理后的关键点的特征信息，利用增加了多跳注意力机制的特征学习网络进行学习，考虑了网络中每一层的有效信息，将注意力矩阵与特征信息相结合，得到特征学习的输出；

匹配模块，被配置为：对于输出的特征，通过图匹配算法和人体拓扑特征对比两幅图像中的节点关系，输出匹配结果。

以上一个或多个技术方案存在以下有益效果：

1.本发明提出了一种基于对称关键点优化和多跳注意图卷积的行人重识别的方法，该方法包含特征提取与优化阶段、特征学习阶段和特征匹配阶段，相较于之前的检测方式，进一步提高了受遮挡的行人重识别的精度。

2.本发明提出了一种对称的关键点优化机制，根据关键点的置信度对关键点信息进行调整。当行人被阻挡时，图像中相应关键点的置信度会降低。因此，本发明对低置度的关键点进行优化，并利用其他关键点的相应特征来近似估计受遮挡关键点的特征信息。

3.为了增强模型对被遮挡行人的检测能力，本发明提出了多跳注意力图卷积网络，使网络能够充分利用在网络中所学习得到的有价值特征信息，大大提高了模型的学习能力。

本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为实施例一中基于对称关键点优化和多跳注意图卷积的行人重识别的简要流程框图；

图2为实施例一中基于对称关键点优化和多跳注意图卷积的行人重识别算法的总体流程示意图；

图3为实施例一中多跳注意力图卷积网络结构示意图。

具体实施方式

应该指出，以下详细说明都是示例性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

实施例一

本实施例公开了基于关键点优化和多跳注意图卷积行人重识别方法，本发明主要分为特征提取与优化、特征学习和特征匹配三个部分，在特征提取与优化部分中添加对称关键点优化，用于尽可能多的提取出有效特征，减少行人被遮挡部分对整体带来的影响。在特征学习部分添加了多跳注意图卷积，可以最大化的将特征中有价值的信息利用起来，从而提高判别精度。

具体的，参见附图1-2所示，包括：构建主要由卷积神经网络和人体关键点提取网络组成的特征提取部分并进行预训练，之后添加了用于人体关键点优化的优化网络，二者联合构成特征提取与优化网络，采用交叉熵损失和三元组损失作为网络的损失函数，该网络的目的是从被遮挡的图片中得到优化后的特征信息。

在特征提取与优化网络之后构建特征学习网络，在传统图卷积网络的基础上添加了多跳注意力机制，利用从特征提取与优化网络得到的特征信息作为输入，经过网络处理之后得到更为有效的特征信息来作为判别的依据。网络采用交叉熵损失和三元组损失来监督网络进行特征学习，通过反向传播算法对多跳图卷积网络进行参数更新，训练网络直至收敛。

特征匹配网络利用特征学习网络传入的特征信息，采用了基于的交叉图嵌入对齐策略。通过图匹配算法和人体拓扑特征对比两幅图像中的节点关系，得到最终的分类结果，网络采用交叉熵损失，通过BP算法更新网络参数。

上述网络在进行使用前需要进行训练并优化，具体为：

获取训练集和测试集图像并输入到特征提取与优化网络，其中训练集图像在训练时附带有标签用于在训练时提高整体网络对受遮挡行人的判别能力，测试集图像在测试时不带有标签，用于测试网络的泛化能力。

整体网络的三个子网络(特征提取与优化网络、特征学习网络、特征匹配网络)都有对应的损失函数，子网络参数并不共享，网络分别进行反向传播，不断训练直至网络收敛；

传入训练集图像，经过三部分网络处理得到预测的分类结果，传入到损失函数里，计算每部分损失并使用反向传播算法对每一部分进行参数更新直至网络收敛，最后传入测试集图像，利用训练好的网络得到较为精确地分类结果，实现良好的对遮挡行人的重识别效果。

具体实施例子中，网络的构建过程为：

本发明提出的网络包含三个子网络：特征提取与优化网络、特征学习网络和特征匹配网络。

特征提取与优化阶网络采用在Imagenet数据集预训练的Resnet-50网络和在COCO数据集预训练的HR-Net基础上修改得到，将ResNet-50网络的layer4中索引为0的卷积层步长改为1，以及同一索引位置的下采样步长也设为1，额外增加一个bn层和最大池化层，在HR-Net中总体保持不变，ResNet-50网络的输入为原始图片，输出是处理之后得到的特征向量，而HR-Net的输入为原始图片加ResNet-50网络输出的特征向量的结合，输出为特征向量、分类得分和每个关键点的置信度，然后添加交叉熵损失层和三元组损失层用于对于网络进行约束，其中交叉熵损失的输入为分类得分和关键点的置信度三元组损失层的输入则特征向量与原始图片的标签。

特征学习网络在传统图卷积的基础上在每一层上添加了注意力机制，每一层使用特征和邻接矩阵来提取相邻节点不同跳中节点层次的局部子结构特征，多跳注意力图卷积网络不仅依赖于k-hop卷积结果，还能从每一跳中捕获有价值的信息，网络采用残差结构，将m个注意力卷积层叠加并构建了一个注意力图卷积模块，每一卷积层都是前一层的输出和初始输入之和，采用一个稠密图来处理每一个卷积层的输出组合，最后将原始图卷积的最大/平均池化层更改为本发明提出的自注意力池化层，利用交叉熵损失层和三元组损失层对网络进行约束。

特征匹配网络采用了基于交叉图嵌入对齐策略。通过图匹配算法和人体拓扑特征对比两幅图像中的节点关系，有效地避免了一对一对齐的困难。该部分采用交叉熵损失进行参数更新。

更为具体的实施例子中，特征提取优化网络这部分的目标是提取每个图像信息的特征。其中，关键点信息通过关键点提取网络HR-Net提取，特征由ResNet-50网络获得。但是，由于行人在图片中可能存在被遮挡的情况，一些由网络所提取到的关键点特征可能并不准确。因此本发明引入对称关键点优化机制来优化这些由于被遮挡物遮挡而导致采集的不准确的特征信息。本发明将这些无效的信息尽可能的接近未被遮挡时的特征，以恢复原本被遮挡而导致的无效的特征，使模型提取到更多的特征信息以提高判别精度。

关于关键点检测网络：高分辨率子网(HR-Net)作为一种新型的人体关键点检测网络，是一种目前较为先进的关键点提取网络。在关键点提取网络中输入一幅图像，可以得到图像H_kp的热图，热图中包含关键点信息，包括关键点的置信度H_co和关键点位置H_lo。

特征提取网络：本发明使用经过预训练的ResNet-50作为特征提取网络，并去掉其最后的池化层和全连接层。该模型输出关键点对应的特征向量F_cnn。为了提高提取精度，该特征提取模型还输出一个全局特征F_g。

通过关键点检测模型和特征提取模型，本发明得到关键点在图像中的位置H_lo、相应的关键点的置信度H_co和特征向量F_cnn，特征向量F_cnn为模型所学习到的不同关键点的特征，而位置H_lo代表特征向量在图片中的位置，关键点的置信度H_co表示位置H_lo正确表示的可能性。本发明为每个关键点设定一个阈值α，通过迭代每个关键点的置信度H_co是否小于对应的关键点的阈值α，从而推断该关键点是否存在遮挡。当H_co>α，本发明就把为每个关键点人为设定的遮挡标志位H_ju设为1，表明该关键点不存在遮挡；如果H_co<α，则说明存在遮挡，就将H_ju设为0，每个关键点都包含一个H_ju，来表示该关键点是否存在遮挡。公式表示为Eq.(1)。根据Eq.(1)，当第i个关键点的H_ju(i)值为0时，表示存在遮挡。那么本发明需要找到它对应的关键点j(如第i个关键点为左臂时，就去寻找对应的右臂所表示的关键点j)，并判断H_ju(j)的值是否为1。如果满足，就将该关键点的特征信息分配给被遮挡关键点的特征信息，否则不改变该关键点的特征信息。

公式表示为Eq.(2)。

其中F_cnn(·)为关键点的输出特征向量。虽然在匹配阶段所替换的关键点发挥了优化作用，但也不能完全代表被遮挡的关键点。因此，在匹配阶段，这些被替换的关键点在匹配中所占的权重较小。之后本发明计算特征图F_cnn和关键点热图H_kp的向量积，并将结果通过池化层得到输出的语义特征，公式见Eq.(3)

F_rg＝F_r|F_g

其中F_r是这一阶段得到的局部语义特征，g(·)是平均池化层，F_rg是将全局特征和局部特征进行拼接，

表示两个向量的向量积。

本发明采用交叉熵损失L_cls和三元组损失L_tri作为Eq.(4)中的损失。

其中r为关键点的个数，H_co(i)为第i个关键点的置信度，第r+1的关键点值为全局特征，F_sr(i)为第r个属于类别s的关键点的特征，-logpF_rs(i)为信息量。

参见附图3所示，在特征学习网络中，网络的输入为经特征提取优化网络得到的经过优化的关键点的特征信息F_rg。但此时图像中的还有很多的有效信息并没有得到充分利用。因此，为了充分利用图中的语义信息，本发明使用图卷积对之前获得的特征进行处理，获得更多的信息，同时加深了图卷积的深度，因此本发明就可以通过结合多跳注意力来获得更多的信息。本发明定义了一个无向图G＝(V,E)，其中V表示节点数量，每个节点表示一个关键点，因此|V|＝r，E表示图中的边数，A∈R^n×n表示邻接矩阵，F_rg是图G的输入，图卷积公式的定义如式(5)所示。

H^l+1＝σ(AH^lW^l) (5)

其中W^l是第l层的权重矩阵，σ(·)是一个非线性激活函数，H^l+1是第l层的输出。

将邻接矩阵A与特征H相乘，就相当于将某节点的邻居节点的特征逐个相加，然后对多个层再进行叠加，这样就可以利用多层的邻居信息。但是这个图卷积结构有两个问题：(1)这种结构忽略了节点本身的影响，(2)邻接矩阵A没有进行标准化，这就会导致在进行传播时邻居节点的节点就会有更大的影响力，但本发明并不希望出现这种现象，为此，本发明使用引入对角矩阵(D)，并对邻接矩阵进行归一化操作。对角线矩阵的对角线元素是每个顶点的度数。特别地，本发明通过L_p＝D-A构造拉普拉斯矩阵，通过L_p来代替之前的邻接矩阵A，在这种情况下拉普拉斯矩阵Lp包含其自身节点的信息。之后，本发明通过Eq.(6)对拉普拉斯矩阵进行标准化并得到每层的输出结果

H^k+1＝σ(D^-1L_pH^kW) (6)

图卷积近年来得到了很多的关注，由于卷积本身的限制使得每一层图卷积的输出都只是基于上一层的结果，如第k+1跳只使用第k跳的数据，这就会丢失掉k层之前的信息，因此，本发明利用Eq.(7)将每一层的每个节点的图卷积信息结合起来，从而充分利用了每一层的信息，使得有价值的判别信息更多从而判别更加精准。

其中θi为注意力权值，H^k _Ln为Ln节点在k跳中的局部特征。b为当前节点，取值为0到n，其中n为节点总数。Y^l _Ln表示在l层的注意力卷积层中节点Ln的结构信息，对于Eq.(8)，G_Ln为全部层中节点Ln的结构信息矩阵，G是最终的输出值，它包含了全部节点的信息。

之后，利用式(9)中的softmax激活函数对卷积层的输出进行约束，α1和α2是两个权重矩阵，A^adp通过自适应有向图卷积层(ADGC)[7]来获得，通过与G连接通过Eq.(10)来获得输出V，f1和f2分别是两个全连接层，其中的参数不共享。

G_OUT＝[f(softmax(tan(G)),F_g)] (9)

给出一个图像对(x1,x2)，通过Eq.(10)可以得到输出值V₁和V₂，之后通过Eq.(11)计算两者的余弦相似度。在这一部分，本发明采用与Eq.(4)同样的交叉熵损失和三元组损失作为损失函数，然后将Eq.(10)得到的V作为损失函数的输入来优化本发明的模型。

在特征匹配网络中为了在图卷积中充分利用人的一阶信息，并考虑人的高阶拓扑信息，本文采用交叉图嵌入对齐层(CGEA)来解决传统的一对一对齐难的问题。通过CGEA可以学习高阶行人的拓扑信息，同时避免了敏感的一对一对齐问题。给定两组输入节点V_1in和V_2in，通过CGEA和图匹配策略本发明就得到输出特征V_1OUT和V_2OUT，最后，如Eq.(12)所示，本发明使用一个全连接层f_s来输出两个图的相似度。

s² _x1,x2＝σ(f_s(-|V₁ ^OUT-V₂ ^OUT|)) (12)

其中|·|为取绝对值，f为全连接层，[·，·]表示沿通道维度的串行操作。

本部分损失由公式(13)进行计算。

一般情况下，特征提取优化模块、特征学习模块和特征匹配模块三部分的总体损失见Eq.(14)所示，其中λ1和λ2为对应的权值。

Loss＝Loss₁+λ₁Loss₂+λ₂Loss₃ (14)

之后在匹配阶段，通过将图像对(x1,x2)输入到Eq.(11)的联合图卷积中得到其前n个最近邻，然后本发明使用Eq.(15)来计算前n邻居的相似度，取其相似度最高的邻居即预测结果。

s＝γs¹ _x1,x2+(1-γ)s² _x1,x2 (15)

网络总共包含三部分损失函数，针对特征提取与优化阶网的交叉熵损失和三元组损失Loss₁，特征学习网络损失Loss₂，特征匹配网络损失Loss₃。

给定损失函数：损失函数总共分为三部分，

在具体实施例子中，将输入的图像尺寸修改为256×128，按批次的输入到网络计算各项损失，并在加权求和后用于更新网络参数。

需要说明的是，上述特征匹配网络输入是成对输入，因为是进行图的匹配，所以输入的是成对的图片，来匹配两张图片，在训练的时候输入的是一个类别的成对图片，测试的时候输入一张是待测图，另一张是图库里面的图片，依据待测图去寻找图库里面能够匹配上的图片。

具体的，按图像数目按照一批次14张图片输入至网络，输入的图像被随机水平翻转，随机剪切，随机擦除。同时，对每幅图像填充10个像素进行数据增强，采用L2正则化的Adam优化策略。总培训轮数为60轮。在测试中，我们使用ResNet50网络作为CNN骨干网络，去掉了最后一个全局平均池和全连接层。对于行人关键点检测模型，使用了在COCO数据集上预先训练好的HR-NET[12]。将HR-NET预测的17个关键点中的前4个关键点合并。在最后的分类部分，使用了批处理标准化层、全连接层和softmax功能。在特征学习部分，我们尽量不对模型进行微调以提高性能。所有测试集都使用相同的配置，初始学习率为3.5e-4。我们使用PyTorch实现我们的模型，并以端到端方式在NVIDIA TITAN RTX gpu 24G上训练网络，获得一个对受遮挡的行人具有良好识别能力的预训练模型。

实验例子：

分别在Market-1501、Occluded Duke和Occluded-ReID三个数据集上进行实验。

Market-1501数据集包含32,668张图像，对应32,668个边框和1,501个身份类别。这些图像是由总共6个不同的和不相关的相机拍摄的。在这些图片中，19,732张(来自750个不同的人)形成了图库集，12,936张(来自751个不同的人)形成了训练集。该训练集中的一些图像包含了被遮挡的行人。

Occluded-ReID数据集共有1404人的36441张图片，由8台不相关的相机拍摄，其中训练集包含16522张图片，2228张用于测试集，图库集包含17661张图片。

Occluded Duke数据集包含15618张图片(含702人)，查询集包含2210张图片(含519人)，图库集包含17661张图片(含1110人)。这是最大、最复杂的遮挡ReID数据集，图片中包括各种障碍，如汽车、自行车、树木和其他人。

本实施例在Pytorch框架下进行实施。对于图像网络，本发明使用在ImageNet数据集上预训练的Resnet-50网络和在COCO数据集上预训练的HR-Net进行初始化，特征匹配网络中使用交叉图嵌入对齐层和图匹配策略来对学习到的特征进行分类匹配。投入网络的所有图片的尺寸均被修改为256×128，每个阶段的Batchsize设置为14。超参数α₁，α₂，设置为1，阈值α设置为0.5，参数γ设为0.9，算法实现过程如下。

第1部分：特征提取与优化网络

输入：数据集图片I；数据集标签；阈值α

输出：优化后的特征信息F_rg

初始化：初始化图像尺寸为256×128；使用Imagenet数据集上预训练的Resnet-50网络和在COCO数据集上预训练的HR-Net作为初始化参数；批次大小Batchsize＝14

循环执行下列语句

1.计算通过预训练模型得到输入图片的特征向量和热力图

F_cnn＝Resnet50(I)

H_kp＝HRnet(I)

2.使用阈值α来为关键点添加标注

3.合并特征信息

F_rg＝F_r|F_g

4.计算损失

第2阶段：特征学习网络

输入：优化后的特征信息F_rg；数据集图片I；数据集标签

输出：进一步学习处理后的特征信息，相似度度量

初始化：初始化图像尺寸为256×128；批次大小Batchsize＝14；构建多跳注意力图卷积网络

循环执行下列语句

1.提将特征信息传入网络中

H^k+1＝σ(D^-1L_pH^kW)

2.结合每一层的图卷积信息

G_Lb＝(Y⁰ _Lb,Y¹ _Lb,…,Y^l _Lb)

G＝(G_L0,G_L1,…,G_Ln)

3.通过softmax激活函数获得网络的输出

G_OUT＝[f(softmax(tan(G)),F_g)]

4.计算相似度与损失

第3阶段：特征匹配网络

输入：特征学习网络输出的特征信息V；相似度度量s¹ _x1,x2；参数γ＝0.9；λ1＝1；λ2＝1

输出：分类结果

初始化：初始化图像尺寸为256×128；批次大小Batchsize＝14；参数γ＝0.9；λ₁＝1；λ₂＝1；定义交叉图嵌入对齐层和图匹配算法。

执行下列语句：

1.利用图匹配算法获得亲和度矩阵U^*

U＝s¹ _x1,x2

2.将亲和度矩阵传入交叉图嵌入对齐层得到其拓扑特征

3.根据拓扑特征计算相似度

s² _x1,x2＝σ(f_s(-|V₁ ^OUT-V₂ ^OUT|))

4.根据相似度计算损失

5.结合三个子网络的三个损失，利用反向传播算法更新网络参数

Loss＝Loss₁+λ₁Loss₂+λ₂Loss₃

6.在匹配阶段，通过将图像对网络中得到其前n个最近邻，之后计算前n邻居的相似度，取其相似度最高的邻居即预测结果。

s＝γs¹ _x1,x2+(1-γ)s² _x1,x2

在三个数据集上进行实验，并对比了当前比较流行的其他6种方法(PCB,FD-GAN,DSR,SFR,PGFA,SPGAN,HOReID)。从表1-3可以看出：本实施例提供的方法在不同数据集上都表现出优于其他方法的检索性能。

表1

表2

表3

基于同样的发明构思，一个或多个实施例提供了一种计算机系统，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述实施例子中基于对称关键点优化和多跳注意图卷积的行人重识别方法。

基于同样的发明构思，一个或多个实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述实施例子中基于对称关键点优化和多跳注意图卷积的行人重识别方法。

基于同样的发明构思，一个或多个实施例提供了一种基于对称关键点优化和多跳注意图卷积的行人重识别系统，包括：

特征提取与优化模块：我们使用CNN网络提取图像特征，使用身体关键点提取网络提取图像中的关键点，获取每个关键点相应的置信度等级，根据不同关键点的置信度使用对称关键点优化机制对关键点进行优化。；

特征学习模块：将每个人定义为一个图，提出了多跳注意力机制。它不仅考虑了最后一层的相关信息，而且考虑了每一层的有效信息。将注意力矩阵与特征信息相结合，得到特征学习的输出与相似度度量。因此，特征学习模块的输出了学习过程中包含了不同层次的有价值信息；

特征匹配模块：采用了基于交叉图嵌入对齐策略。通过图匹配算法和人体拓扑特征对比两幅图像中的节点关系，输出相似度度量，有效地避免了一对一对齐的困难；

损失训练模块：针对不同的模块采用不同的损失函数计算损失，定义交叉熵损失和三元组损失。

对于训练集图像，输入至搭建好的网络，计算各项损失和相似度并更新联合损失训练网络参数；

对于测试集图像，输入至训练好好的网络，计算前n个邻居的相似度，取其相似度最高的邻居即预测结果。

以上实施例的装置中涉及的各步骤与方法实施例一相对应，具体实施方式可参见实施例一的相关说明部分。术语“计算机可读存储介质”应该理解为包括一个或多个指令集的单个介质或多个介质；还应当被理解为包括任何介质，所述任何介质能够存储、编码或承载用于由处理器执行的指令集并使处理器执行本发明中的任一方法。

本领域技术人员应该明白，上述本发明的各模块或各步骤可以用通用的计算机装置来实现，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。本发明不限制于任何特定的硬件和软件的结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.基于关键点优化和多跳注意图卷积行人重识别方法，其特征是，包括：

对于输出的特征，特征匹配网络通过图匹配算法和人体拓扑特征对比两幅图像中的节点关系，输出预测的分类结果；

所述特征学习网络中每一层使用特征和邻接矩阵来提取相邻节点不同跳中节点层次的局部子结构特征，网络采用残差结构，将注意力卷积层叠加并构建一个注意力图卷积模块，每一卷积层都是前一层的输出和初始输入之和，采用一个稠密图来处理每一个卷积层的输出组合，最后将原始图卷积的最大/平均池化层更改为自注意力池化层，利用交叉熵损失层和三元组损失层对网络进行约束。

2.如权利要求1所述的基于关键点优化和多跳注意图卷积行人重识别方法，其特征是，构建由卷积神经网络和人体关键点提取网络组成的特征提取网络，之后添加用于人体关键点优化的优化网络，二者联合构成特征提取与优化网络，特征提取与优化网络用于从被遮挡的图片中得到优化后的特征信息。

3.如权利要求1所述的基于关键点优化和多跳注意图卷积行人重识别方法，其特征是，还包括网络训练步骤，将训练集图像，经过特征提取与优化网络、特征学习网络、特征匹配网络处理得到预测的分类结果，传入到损失函数里，计算每部分损失并使用反向传播算法对每一部分进行参数更新直至网络收敛，最后传入测试集图像，利用训练好的网络得到较为精确地分类结果，对遮挡行人重识别。

4.如权利要求1所述的基于关键点优化和多跳注意图卷积行人重识别方法，其特征是，所述特征提取与优化网络对图像的处理过程为：原始图片与网络输出的特征向量的结合，输出为特征向量、分类得分和每个关键点的置信度，然后添加交叉熵损失层和三元组损失层用于对于网络进行约束，其中交叉熵损失层的输入为分类得分和关键点的置信度，三元组损失层的输入则为特征向量与原始图片的标签。

5.如权利要求1所述的基于关键点优化和多跳注意图卷积行人重识别方法，其特征是，所述特征提取优化网络用于提取每个图像信息的特征，关键点信息通过关键点提取网络提取，特征由特征提取网络获得；

特征提取网络输出关键点对应的特征向量及全局特征。

6.如权利要求5所述的基于关键点优化和多跳注意图卷积行人重识别方法，其特征是，得到关键点在图像中的位置H_lo、相应的关键点的置信度H_co和特征信息F_cnn后，为每个关键点设定一个阈值α，通过迭代每个关键点的置信度H_co是否小于对应的关键点的阈值α，从而推断该关键点是否存在遮挡。

7.如权利要求6所述的基于关键点优化和多跳注意图卷积行人重识别方法，其特征是，当H_co>α，把为每个关键点人为设定的遮挡标志位H_ju设为1，表明该关键点不存在遮挡；

8.如权利要求7所述的基于关键点优化和多跳注意图卷积行人重识别方法，其特征是，再分配之后，计算特征图F_cnn和关键点热图H_kp的向量积，并将结果通过池化层得到输出的语义特征。

9.如权利要求1所述的基于关键点优化和多跳注意图卷积行人重识别方法，其特征是，特征学习网络中，定义一个无向图，G＝(V,E)，其中V表示节点数量，每个节点表示一个关键点；

最终的输出值包含全部节点的信息。

10.基于关键点优化和多跳注意图卷积行人重识别方法，其特征是，包括：

特征提取与优化模块，被配置为：提取图像中的关键点，获取每个关键点相应的置信度等级，基于图像中行人被遮挡时，相应关键点的置信度低，将置信度等级低的关键点利用其他关键点的相应特征来近似估计受遮挡关键点的特征信息；

特征匹配模块，被配置为：对于输出的特征，通过图匹配算法和人体拓扑特征对比两幅图像中的节点关系，输出匹配结果；

11.一种计算机系统，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征是，所述处理器执行所述程序时实现上述权利要求1-9任一所述的方法的步骤。

12.一种计算机可读存储介质，其上存储有计算机程序，其特征是，该程序被处理器执行时实现上述权利要求1-9任一所述的方法的步骤。