CN113642515A

CN113642515A - 基于姿态关联的行人识别方法与装置、电子设备和介质

Info

Publication number: CN113642515A
Application number: CN202111007502.3A
Authority: CN
Inventors: 李甲; 马中行; 赵一凡; 赵沁平
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2021-08-30
Filing date: 2021-08-30
Publication date: 2021-11-12
Anticipated expiration: 2041-08-30
Also published as: CN113642515B

Abstract

本公开的实施例公开了基于姿态关联的行人识别方法与装置、电子设备和介质。该方法的一具体实施方式包括：获取行人图像和自身类别，将行人图像和自身类别输入预先训练的ResNet和预先训练的HR‑Net中，得到第一特征图和热度图；将热度图经过上采样扩大范围，融合为掩码图；将第一特征图和掩码图输入部件内部关联模块中，以生成第二特征图；对第二特征图进行横向和方块的划分，得到特征集合，对热度图进行关键点式的划分，得到关键点特征集合；将特征集合和关键点特征集合输入部件外部关联模块，得到全局特征和局部特征，根据全局特征和局部特征，得到图像表征和分类结果。该实施方式提高了行人识别的准确率。

Description

基于姿态关联的行人识别方法与装置、电子设备和介质

技术领域

本公开的实施例涉及计算机技术领域，具体涉及基于姿态关联的行人识别方法与装置、电子设备和介质。

背景技术

对于输入的行人图像，图像识别是获取图像中行人的类别信息的一项技术。高遮挡环境下所获得的行人图像，行人本身往往只占据图像的一部分，且行人本身的信息往往是残缺不全的。针对高遮挡环境下图像的处理办法，中国科学院的He等人提出了空间特征重建的免对齐方法，该方法通过构建大量局部特征，使用最小二乘法计算两张图像空间特征之间的系数矩阵，此种方法的主要缺点是计算量大。中国科学院的Wang等人提出了通过姿态估计提取多个关键点，利用关键点之间的关联构建图神经网络，使用图匹配算法匹配两张图像。京东研究院的He等人，通过结合姿态估计和语义分割生成的掩码，指导模型更好地关注行人可见区域。大连理工大学的Gao等提出基于姿态估计的分块方法，针对行人的特点将行人分割为相同大小的区域，以此对行人的特征进行强匹配。

本发明公开了一种基于姿态关联的行人识别方法与装置，相比于上述方法，具有三个有益的特点：(1)通过引入自注意力机制构建行人部件内部关系和部件外部关系，使得生成的特征能够很好去除遮挡物的噪声信息，从而可以较好地捕捉行人的可见信息。(2)对姿态估计引导的关键点信息进行扩张，并人工划分成组，使得抽取的关键点的语义更丰富，同时能够结合自注意力去除无用关键点信息。(3)通过抽取图像全局特征和姿态估计引导的局部特征表达行人特征，减少单一特征表达存在的不稳定性的问题。

发明内容

提出一种基于姿态关联的行人识别方法与装置、电子设备和介质，给定输入行人图像，能够根据图像识别行人类别或生成表征用于检索。

本发明包含如下5个步骤：

步骤S100，获取行人图像和自身类别，将上述行人图像和上述自身类别输入预先训练的卷积神经网络ResNet和预先训练的姿态估计卷积神经网络HR-Net中，得到上述行人图像的第一特征图和含有上述行人图像多个关键点位置信息的热度图；

步骤S200，将上述热度图经过上采样扩大范围，融合为行人区域的掩码图；

步骤S300，将上述第一特征图和上述掩码图输入部件内部关联模块中，以生成第二特征图，其中，上述第二特征图与上述第一特征图的维度相同；

步骤S400，对上述第二特征图进行横向和方块的划分，得到特征集合，对上述热度图进行关键点式的划分，得到关键点特征集合；

步骤S500，将上述特征集合和上述关键点特征集合输入部件外部关联模块，得到全局特征和局部特征，根据上述全局特征和上述局部特征，得到图像表征和分类结果。

附图说明

结合附图并参考以下具体实施方式，本公开各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中，相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的，元件和元素不一定按照比例绘制。

图1是本公开的一些实施例的基于姿态关联的行人识别方法与装置的一个应用场景的示意图；

图2是根据本公开的基于姿态关联的行人识别方法与装置的一些实施例的流程图；

具体实施方式

下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例。相反，提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本公开的附图及实施例仅用于示例性作用，并非用于限制本公开的保护范围。

另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互组合。

需要注意，本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分，并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。

需要注意，本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的，本领域技术人员应当理解，除非在上下文另有明确指出，否则应该理解为“一个或多个”。

本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的，而并不是用于对这些消息或信息的范围进行限制。

下面将参考附图并结合实施例来详细说明本公开。

图1是本公开的一些实施例的基于姿态关联的行人识别方法与装置的一个应用场景的示意图。

在图1的应用场景中，首先，计算设备101可以获取行人图像102和自身类别103，将上述行人图像102和上述自身类别103输入预先训练的卷积神经网络ResNet104和预先训练的姿态估计卷积神经网络HR-Net105中，得到上述行人图像的第一特征图106和含有上述行人图像多个关键点位置信息的热度图107；其次，计算设备101可以将上述热度图107经过上采样扩大范围，融合为行人区域的掩码图108；然后，计算设备101可以将上述第一特征图106和上述掩码图108输入部件内部关联模块109中，以生成第二特征图110，其中，上述第二特征图110与上述第一特征图106的维度相同；然后，计算设备101可以对上述第二特征图110进行横向和方块的划分，得到特征集合111，对上述热度图107进行关键点式的划分，得到关键点特征集合112；最后，计算设备101可以将上述特征集合111和上述关键点特征集合112输入部件外部关联模块113，得到全局特征114和局部特征115，根据上述全局特征114和上述局部特征115，得到图像表征116和分类结果117。

需要说明的是，上述计算设备101可以是硬件，也可以是软件。当计算设备为硬件时，可以实现成多个服务器或终端设备组成的分布式集群，也可以实现成单个服务器或单个终端设备。当计算设备体现为软件时，可以安装在上述所列举的硬件设备中。其可以实现成例如用来提供分布式服务的多个软件或软件模块，也可以实现成单个软件或软件模块。在此不做具体限定。

应该理解，图1中的计算设备的数目仅仅是示意性的。根据实现需要，可以具有任意数目的计算设备。

继续参考图2，示出了根据本公开的基于姿态关联的行人识别方法与装置的一些实施例的流程200。该基于姿态关联的行人识别方法与装置，包括以下步骤：

步骤S100，获取行人图像和自身类别，将上述行人图像和上述自身类别输入预先训练的卷积神经网络ResNet和预先训练的姿态估计卷积神经网络HR-Net中，得到上述行人图像的第一特征图和含有上述行人图像多个关键点位置信息的热度图。

在一些实施例中，上述执行主体可以将行人图像和自身类别输入预先训练的ResNet网络，抽取最后一层残差模块特征，得到第一特征图。上述执行主体可以将行人图像和自身类别输入预先训练好的姿态估计卷积神经网络HR-Net，生成带有十四个关键点的热度图。其中，上述自身类别可以为上述行人图像中的子图像对应的类别。第一特征图可以是预先训练的卷积神经网络ResNet按照行人图像十六倍下采样所得到的图像。热度图可以是预先训练的姿态估计卷积神经网络HR-Net按照行人图像四倍下采样所得到的图像。每张热度图的值对应上述行人图像中关键点位置的置信度。

步骤S200，将热度图经过上采样扩大范围，融合为行人区域的掩码图。

在一些实施例中，上述执行主体可以将热度图经过上采样扩大范围。上采样的尺寸可以为原来的四倍，即最终关键点的抽象区域范围代表的是行人图像十六倍下采样尺寸的区域。上述执行主体可以将热度图中相同超像素位置的最大值取出，将最大值集合融合为覆盖图像前景区域的掩码图。例如，热度图A中的(1，2)位置对应的值为1。热度图B中的(1，2)位置对应的值为2。热度图C中的(1，2)位置对应的值为3。上述执行主体取(1，2)位置对应的最大值3作为掩码图中(1，2)位置的值。

步骤S300，将第一特征图和掩码图输入部件内部关联模块中，以生成第二特征图。

在一些实施例中，上述执行主体可以将上述第一特征图和上述掩码图输入部件内部关联模块中，以生成第二特征图。其中，上述第二特征图与上述第一特征图的维度相同。

可选地，上述部件内部关联模块包括信息压缩模块，多头自注意力模块，丢弃模块，批次标准化层，线性整流单元和掩码辅助信息扩张模块，

作为示例，上述执行主体将上述第一特征图和上述掩码图输入部件内部关联模块中，以生成第二特征图，可以包括以下子步骤：

第一步，将第一特征图F输入信息压缩模块，得到第一压缩特征图F_φ。

例如，上述执行主体可以将上述第一特征图F输入信息压缩模块，得到上述第一压缩特征图F_φ。其中，上述第一特征图F的维度为(H×W×C)。上述第一压缩特征图F_φ的维度为(H×W×d)。H分别表示第一特征图和第一压缩特征图的长。W分别表示第一特征图和第一压缩特征图的宽。C表示第一特征图的通道数。d表示第一压缩特征图的通道数。上述信息压缩模块包括1×1卷积层，实例标准化层，批次标准化层以及线性整流单元。1×1卷积层可以用于对每个特征维度都做一次线性变化。1×1卷积层会使输入的上述第一特征图F的维度从C变为d，d为C的四分之一。首先，上述执行主体可以将上述第一特征图F输入实例标准化层，得到第一特征。然后，上述执行主体可以将上述第一特征输入批次标准化层，得到第二特征。最后，上述执行主体可以将上述第二特征输入线性整流单元，得到上述第一压缩特征图F_φ。

第二步，将第一压缩特征图进行H块的横向划分后输入多头自注意力模块中，得到第二压缩特征图。

例如，上述执行主体首先，可以将第一压缩特征图F_φ进行H块的横向划分，得到多个相同尺寸的压缩特征图，其中，上述压缩特征图的维度为(l×W×d)。然后，上述执行主体可以将上述多个相同尺寸的压缩特征图输入多头自注意力模块中，得到第二压缩特征图。其中，多头自注意力模块可以用以下公式表示：

其中，

表示第二压缩特征图。concat()表示拼接函数，可以将两个不同的张量拼接。sof tmax()表示归一化指数函数。X表示输入多头自注意力模块的第一压缩特征图。i表示被划分的第i个头。Q表示权重的第一标记分类。M_i ^Q表示第i个头对应的第五权重。K表示权重的第二标记分类。M_i ^K表示第i个头对应的第六权重。T表示矩阵的转置操作。N表示被划分之后的特征维度。

表示对N进行开根号。V表示权重的第三标记分类。M_i ^V表示第i个头对应的第七权重。H表示权重的第四标记分类。M^H表示第八权重。h表示被划分的份数。

第三步，将上述第一压缩特征图输入上述丢弃模块，得到候选特征图。

例如，上述执行主体可以将上述第一压缩特征图输入上述丢弃模块，得到候选特征图。其中，上述丢弃模块用于在均等概率下丢弃每一个维度的值，将丢弃的值置为0。

第四步，根据上述第二压缩特征图和上述候选特征图，得到内部关联特征图。

例如，上述执行主体可以根据上述第二压缩特征图和上述候选特征图，得到上述内部关联特征图。上述执行主体可以将上述第二压缩特征图进行拼接，得到和第一压缩特征图维度相同的第三压缩特征图。然后，上述执行主体可以将上述第三压缩特征图与上述候选特征图相加，得到上述内部关联特征图。

其中，得到上述内部关联特征图的过程可以通过如下公式表示：

F_φ ^*＝concat(MHSA(chunk(F_φ)))+DRopout(F_φ)。

其中，F_φ ^*表示内部关联特征图。concat()表示拼接函数，可以将两个不同的张量拼接。MHSA()表示多头自注意力模块。chunk()表示拆分函数，可以将一个张量拆分为两个或多个张量。F_φ表示第一压缩特征图。Dropout()表示丢弃模块。Dropout(F_φ)表示候选特征图。

第五步，将上述内部关联特征图输入批次标准化层和线性整流单元，得到处理后的内部关联特征图，将上述处理后的内部关联特征图和上述掩码图输入掩码辅助信息扩张模块，得到第二特征图。

例如，上述执行主体可以将上述内部关联特征图输入批次标准化层和线性整流单元，得到处理后的内部关联特征图。然后，上述执行主体可以将上述处理后的内部关联特征图和上述掩码图输入掩码辅助信息扩张模块，得到第二特征图。

其中，上述掩码辅助信息扩张模块包含一个1×1卷积层和一个批次标准化层，经过掩码筛选的第一特征图的拷贝，以及一个线性整流单元。1×1卷积层会使输入的特征图的维度从d恢复为C。然后，上述执行主体可以将上述处理后的内部关联特征图输入1×1卷积层，得到第三特征。然后，上述执行主体可以将上述第三特征输入批次标准化层，得到候选特征。然后，上述执行主体可以将第一特征图的拷贝和上述掩码图进行点乘处理，得到第四特征。然后，上述执行主体可以将上述候选特征和上述第四特征相加，得到整体特征。最后，上述执行主体可以将上述整体特征输入线性整流单元，得到第二特征图。

其中，得到上述第二特征图的过程可以通过以下公式表示：

F_irm＝ReLU(θ(F_φ ^*)+Y·F)。

其中，F_irm表示第二特征图。ReLU()表示线性整流单元。θ()表示批次标准化层。F_φ ^*表示内部关联特征图。Y表示掩码图。F表示第一特征图。

步骤S400，对第二特征图进行横向和方块的划分，得到特征集合，对热度图进行关键点式的划分，得到关键点特征集合。

在一些实施例中，上述执行主体可以对上述第二特征图进行横向和方块的划分，得到上述特征集合，对上述热度图进行关键点式的划分，得到上述关键点特征集合，可以包括以下子步骤：

第一步，将上述第二特征图进行横向划分，得到上述特征集合中的W个特征。

例如，上述执行主体可以将上述第二特征图进行横向划分，得到上述特征集合中的W个特征。上述执行主体可以对上述第二特征图的宽进行单位长度为1的划分，得到W个被划分后的第二特征图。上述执行主体可以将上述W个被划分后的第二特征图确定为特征集合中的W个特征。其中，W个特征中的特征的维度为(H×1×C)。

第二步，将上述第二特征图进行方块划分，得到上述特征集合中的8个特征。

例如，上述执行主体可以将上述第二特征图进行方块划分，得到上述特征集合中的8个特征。首先，上述执行主体可以对上述第二特征图的长进行单位长度为H/4的划分。然后，上述执行主体可以对上述第二特征图的宽进行单位长度为W/2的划分。最终得到8个被划分后的第二特征图。上述执行主体可以将上述8个被划分后的第二特征图确定为特征集合中的8个特征。其中，8个特征中的特征的维度为(H/4×W/2×C)。

第三步，将上述热度图进行关键点式的划分，得到被划分为头、上半身和下半身的三组关键点位置信息的热度图。

例如，上述执行主体可以将上述热度图进行关键点式的划分，得到被划分为头、上半身和下半身的三组关键点位置信息的热度图。上述执行主体可以将上述热度图按照两个预设关键点的位置进行横向的划分，得到被划分为头、上半身和下半身三部分的热度图。上述执行主体可以将上述头、上半身和下半身三部分的热度图分别确定为关键点位置信息的热度图，得到三组关键点位置信息的热度图。其中，三组关键点位置信息的热度图中的每组关键点位置信息的热度图含有的节点个数是固定的。两个预设关键点的位置可以为头和上半身的交界处位置和上半身和下半身的交界处位置。

第四步，根据上述三组关键点位置信息的热度图，提取上述第二特征图对应特征区域的上述关键点特征集合。

例如，上述执行主体可以根据上述三组关键点位置信息的热度图，提取上述第二特征图对应特征区域的上述关键点特征集合。上述执行主体可以将上述三组关键点位置信息的热度图中的每一组的关键点位置信息的热度图分别对上述第二特征图进行比较。上述执行主体可以将比较过程中的重复部分提取出来，作为上述关键点特征集合。

步骤S500，将特征集合和关键点特征集合输入部件外部关联模块，得到全局特征和局部特征，根据全局特征和局部特征，得到图像表征和分类结果。

在一些实施例中，上述执行主体可以将上述特征集合和上述关键点特征集合输入上述部件外部关联模块，得到上述全局特征和上述局部特征，根据上述全局特征和上述局部特征，得到上述图像表征和上述分类结果。

可选地，上述部件外部关联模块包括多层变换模块和全局平均池化层。其中，上述多层变换模块包括多头自注意力模块和前馈神经网络。

作为示例，上述执行主体将上述特征集合和上述关键点特征集合输入上述部件外部关联模块，得到上述全局特征和上述局部特征，根据上述全局特征和上述局部特征，得到上述图像表征和上述分类结果，可以包括以下子步骤：

第一步，将上述特征集合和上述关键点特征集合分别输入多层变换模块中，得到注意力特征集合和关键点注意力特征集合。

例如，上述执行主体可以将上述特征集合和上述关键点特征集合分别输入多层变换模块中，得到注意力特征集合和关键点注意力特征集合。其中，上述多层变换模块包括多头自注意力模块和前馈神经网络。上述多头自注意力模块和S400步骤中的上述多头自注意力模块为同一模块，而上述前馈神经网络可以用以下公式表示：

FFN(X)＝Dropout(ReLU(XR₁+b₁))R₂+b₂。

其中，X表示输入前馈神经网络的特征集合和关键点特征集合。FFN()表示注意力特征集合和关键点注意力特征集合。Dropout()表示丢弃模块。ReLU()表示线性整流单元。R1_表示第一权重。b₁表示第二权重。R₂表示第三权重。b₂表示第四权重。

第二步，将上述注意力特征集合输入全局平均池化层，得到上述全局特征，将上述关键点注意力特征集合进行全局平均池化，得到上述局部特征。

例如，上述执行主体可以将上述注意力特征集合进行全局平均池化，得到上述全局特征。上述执行主体可以将上述关键点注意力特征集合进行全局平均池化，得到上述局部特征。

第三步，根据上述局部特征和置信度模块，得到优化后的局部特征。

例如，上述执行主体根据上述局部特征和上述置信度模块，得到上述优化后的局部特征，可以包括以下子步骤：

第一子步，将上述局部特征输入上述置信度模块，得到对应的置信度。

其中，上述置信度模块可以用如下公式表示：

其中，S_self表示局部特征对应的置信度。ReLU()表示线性整流单元。

表示局部特征。R₁表示第一权重。b₁表示第二权重。R₂表示第三权重。b₂表示第四权重。

第二子步，根据上述置信度将上述局部特征进行优化，得到优化后的局部特征。

其中，得到上述优化后的局部特征的过程可以使用如下公式表示：

其中，

表示优化后的局部特征。

表示局部特征。norm()表示标准化函数。S_self表示局部特征对应的置信度。S表示热度图初始置信度。

第四步，通过上述全局特征和上述优化后的局部特征，得到上述图像表征。

例如，上述执行主体可以通过上述全局特征和上述优化后的局部特征，得到上述图像表征。上述执行主体可以将上述全局特征和上述优化后的局部特征的集合作为上述图像表征。

第五步，将上述图像表征通过全连接层，得到上述分类结果。

例如，上述执行主体可以将上述图像表征通过全连接层，得到上述分类结果。其中，上述分类结果可以是以分类个数为长度的向量。例如，最终分类结果为500个行人，向量的长度(或者说维度)即为500。

以上描述仅为本公开的一些较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本公开的实施例中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开的实施例中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种基于姿态关联的行人识别方法与装置，包括：

步骤S100，获取行人图像和自身类别，将所述行人图像和所述自身类别输入预先训练的卷积神经网络ResNet和预先训练的姿态估计卷积神经网络HR-Net中，得到所述行人图像的第一特征图和含有所述行人图像多个关键点位置信息的热度图；

步骤S200，将所述热度图经过上采样扩大范围，融合为行人区域的掩码图；

步骤S300，将所述第一特征图和所述掩码图输入部件内部关联模块中，以生成第二特征图，其中，所述第二特征图与所述第一特征图的维度相同；

步骤S400，对所述第二特征图进行横向和方块的划分，得到特征集合，对所述热度图进行关键点式的划分，得到关键点特征集合；

步骤S500，将所述特征集合和所述关键点特征集合输入部件外部关联模块，得到全局特征和局部特征，根据所述全局特征和所述局部特征，得到图像表征和分类结果。

2.根据权利要求1所述的方法，其中，所述部件内部关联模块包括信息压缩模块，多头自注意力模块，丢弃模块，批次标准化层，线性整流单元和掩码辅助信息扩张模块，以及

所述将所述第一特征图和所述掩码图输入部件内部关联模块中，以生成第二特征图，包括：

将所述第一特征图F输入信息压缩模块，得到第一压缩特征图F_φ，其中，所述第一特征图F的维度为(H×W×C)，所述第一压缩特征图F_φ的维度为(H×W×d)，H分别表示第一特征图和第一压缩特征图的长，W分别表示第一特征图和第一压缩特征图的宽，C表示第一特征图的通道数，d表示第一压缩特征图的通道数；

将所述第一压缩特征图进行H块的横向划分后输入多头自注意力模块中，得到第二压缩特征图；

将所述第一压缩特征图输入所述丢弃模块，得到候选特征图；

根据所述第二压缩特征图和所述候选特征图，得到内部关联特征图，其中，得到所述内部关联特征图的过程通过以下公式表示：

F_φ ^*＝concat(MHSA(chunk(F_φ)))+Dropout(F_φ)，

其中，F_φ ^*表示内部关联特征图，concat()表示拼接函数，可以将两个不同的张量拼接，MHSA()表示多头自注意力模块，chunk()表示拆分函数，可以将一个张量拆分为两个或多个张量，F_φ表示第一压缩特征图，Dropout()表示丢弃模块，Dropout(F_φ)表示候选特征图；

将所述内部关联特征图输入批次标准化层和线性整流单元，得到处理后的内部关联特征图，将所述处理后的内部关联特征图和所述掩码图输入掩码辅助信息扩张模块，得到第二特征图，其中，得到所述第二特征图的过程通过以下公式表示：

F_irm＝ReLU(θ(F_φ ^*)+Y·F)，

其中，F_irm表示第二特征图，ReLU()表示线性整流单元，θ()表示批次标准化层，F_φ ^*表示内部关联特征图，Y表示掩码图，F表示第一特征图。

3.根据权利要求2所述的方法，其中，所述信息压缩模块包含1×1卷积层，实例标准化层，批次标准化层和线性整流单元，其中，1×1卷积层使输入的所述第一特征图的维度从C变为d，d为C的四分之一。

4.根据权利要求3所述的方法，其中，所述掩码辅助信息扩张模块包括1×1卷积层，批次标准化层，经过掩码筛选的第一特征图的拷贝和线性整流单元，其中，1×1卷积层使输入的所述内部关联特征图的维度从d恢复到C。

5.根据权利要求4所述的方法，其中，所述对所述第二特征图进行横向和方块的划分，得到特征集合，对所述热度图进行关键点式的划分，得到关键点特征集合，包括：

将所述第二特征图进行横向划分，得到所述特征集合中的W个特征，其中，W个特征中的特征的维度为(H×1×C)；

将所述第二特征图进行方块划分，得到所述特征集合中的8个特征，其中，8个特征中的特征的维度为(H/4×W/2×C)；

将所述热度图进行关键点式的划分，得到被划分为头、上半身和下半身的三组关键点位置信息的热度图；

根据所述三组关键点位置信息的热度图，提取所述第二特征图对应特征区域的所述关键点特征集合。

6.根据权利要求5所述的方法，其中，所述部件外部关联模块包括多层变换模块和全局平均池化层，其中，所述多层变换模块包括多头自注意力模块和前馈神经网络；以及

所述将所述特征集合和所述关键点特征集合输入部件外部关联模块，得到全局特征和局部特征，根据所述全局特征和所述局部特征，得到图像表征和分类结果，包括：

将所述特征集合和所述关键点特征集合分别输入多层变换模块中，得到注意力特征集合和关键点注意力特征集合；

将所述注意力特征集合输入全局平均池化层，得到全局特征，将所述关键点注意力特征集合进行全局平均池化，得到局部特征；

根据所述局部特征和置信度模块，得到优化后的局部特征；

通过所述全局特征和所述优化后的局部特征，得到所述图像表征；

将所述图像表征通过全连接层，得到所述分类结果。

7.根据权利要求6所述的方法，其中，所述根据所述局部特征和所述置信度模块，得到优化后的局部特征，包括：

将所述局部特征输入所述置信度模块，得到对应的置信度，其中，所述置信度模块通过如下公式表示：

其中，S_self表示局部特征对应的置信度，ReLU()表示线性整流单元，

表示局部特征，R₁表示第一权重，b₁表示第二权重，R₂表示第三权重，b₂表示第四权重；

根据所述置信度将所述局部特征进行优化，得到所述优化后的局部特征，其中，优化过程通过如下公式表示：

其中，

表示优化后的局部特征，

表示局部特征，norm()表示标准化函数，S_self表示局部特征对应的置信度，S表示热度图初始置信度。