CN115063598A

CN115063598A - 关键点检测方法、神经网络、装置、电子设备及存储介质

Info

Publication number: CN115063598A
Application number: CN202210864276.9A
Authority: CN
Inventors: 许鲁珉; 金晟; 曾望; 刘文韬; 钱晨
Original assignee: Beijing Sensetime Technology Development Co Ltd
Current assignee: Beijing Sensetime Technology Development Co Ltd
Priority date: 2022-07-20
Filing date: 2022-07-20
Publication date: 2022-09-16

Abstract

本公开提供了一种关键点检测方法、神经网络、装置、电子设备及存储介质，该方法包括：获取包括任一类别的待检测对象的待检测图像、和至少一个参考图像；其中，所述参考图像与所述待检测图像包括相同类别的对象，且所述参考图像携带有参考对象的多个参考关键点的位置信息；对所述待检测图像进行第一特征提取，生成第一特征图；以及基于所述参考图像和各个所述参考关键点的位置信息，生成与每个所述参考关键点匹配的参考特征数据；基于所述第一特征图以及各个所述参考特征数据，确定目标关键点信息。

Description

关键点检测方法、神经网络、装置、电子设备及存储介质

技术领域

本公开涉及计算机视觉技术领域，具体而言，涉及一种关键点检测方法、神经网络、装置、电子设备及存储介质。

背景技术

随着计算机视觉的发展，姿态估计任务也越发收到重视；姿态估计任务旨在检测对象的预先定义的关键点的位置信息。其中，不同类别的对象的关键点检测有着不同的应用，比如，人体肢体姿态估计是虚拟现实和增强现实的基础，手势姿态估计对于手势动作分析具有重要意义，车辆姿态估计可以应用于自动驾驶领域等等。

一般的，姿态估计方法都是针对单一类别的对象，即对一种类别的对象进行关键点检测，该方法的泛化能力较低，使得该方法的应用场景受限。

发明内容

有鉴于此，本公开至少提供一种关键点检测方法、神经网络、装置、电子设备及存储介质。

第一方面，本公开提供了一种关键点检测方法，包括：

获取包括任一类别的待检测对象的待检测图像、和至少一个参考图像；其中，所述参考图像与所述待检测图像包括相同类别的对象，且所述参考图像携带有参考对象的多个参考关键点的位置信息；

对所述待检测图像进行第一特征提取，生成第一特征图；以及

基于所述参考图像和各个所述参考关键点的位置信息，生成与每个所述参考关键点匹配的参考特征数据；

基于所述第一特征图以及各个所述参考特征数据，确定目标关键点信息。

上述方法中，获取待检测图像和至少一个参考图像；待检测图像可以包括任一类别的待检测对象，参考图像与待检测图像包括相同类别的对象，且参考图像携带有参考对象的多个参考关键点的位置信息；对待检测图像进行第一特征提取，生成第一特征图；以及基于参考图像和各个参考关键点的位置信息，生成与每个参考关键点匹配的参考特征数据。由于参考图像可以用于为待检测图像提供关键点定义，故可以将第一特征图分别和各个参考特征数据进行匹配，确定目标关键点信息，使得生成的目标关键点的分布和数量、与参考关键点一致，从而实现了对任意类别的对象进行姿态估计。

一种可能的实施方式中，所述基于所述参考图像和各个所述参考关键点的位置信息，生成与每个所述参考关键点匹配的参考特征数据，包括：

对所述参考图像进行第二特征提取，生成第二特征图；

对所述第二特征图进行上采样处理，得到处理后特征图；

利用所述多个参考关键点分别对应的参考热力图，对所述处理后特征图进行加权处理，生成多个中间特征图；其中，每个所述参考热力图用于表征一个所述参考关键点的位置信息；

基于所述多个中间特征图，生成与每个所述参考关键点匹配的参考特征数据。

这里，对参考图像进行第二特征提取，生成第二特征图，该第二特征图包括参考图像的图像特征，在得到处理后特征图之后，利用多个参考关键点分别对应的参考热力图，对处理后特征图进行加权处理，生成多个中间特征图，每个中间特征图与一个参考关键点相匹配；再可以基于多个中间特征图，生成与每个参考关键点匹配的参考特征数据，为后续确定待检测图像的目标关键点信息提供数据支持。

一种可能的实施方式中，在所述基于所述参考图像和各个所述参考关键点的位置信息，生成与每个所述参考关键点匹配的参考特征数据之后，还包括：

基于所述第一特征图，对多个所述参考特征数据进行特征增强处理，生成多个处理后参考特征数据；

所述基于所述第一特征图以及各个所述参考特征数据，确定目标关键点信息，包括：

基于所述第一特征图以及各个所述处理后参考特征数据，确定目标关键点信息。

考虑到独立的多个参考特征数据之间无法学习到参考对象的结构信息，且由于多个参考特征数据是基于参考图像生成的，在将多个参考特征数据与待检测图像进行匹配的过程中会存在特征差异；因此，可以基于第一特征图，对多个参考特征数据进行特征增强处理，生成多个处理后参考特征数据，使得处理后参考特征数据较丰富；可以使得基于第一特征图以及各个处理后参考特征数据，能够较准确地确定目标关键点信息。

一种可能的实施方式中，所述基于所述第一特征图，对多个所述参考特征数据进行特征增强处理，生成多个处理后参考特征数据，包括：

对多个所述参考特征数据进行交互处理，得到多个交互后的参考特征数据；

利用所述第一特征图，分别对所述多个交互后的参考特征数据进行特征增强处理，生成多个处理后参考特征数据。

这里，通过对多个参考特征数据进行交互处理，得到多个交互后的参考特征数据，该交互后的参考特征数据可以较好地学习到参考对象的结构信息，以便后续能够较准确地估计参考对象的姿态；以及通过利用第一特征图，分别对多个交互后的参考特征数据进行特征增强处理，实现第一特征图与交互后的参考特征数据之间的交互，能够减小第一特征图与多个交互后的参考特征数据之间的差距，以便后续能够较准确的确定目标关键点信息。

一种可能的实施方式中，所述基于所述第一特征图以及各个所述参考特征数据，确定目标关键点信息，包括：

基于所述第一特征图和各个所述参考特征数据，生成多个目标热力图；其中，所述多个目标热力图的数量与所述参考关键点的数量相同；

基于所述多个目标热力图，确定目标关键点信息。

这里，基于第一特征图和各个参考特征数据，可以较快速的生成多个目标热力图；进而，基于多个热力图，可以较快速、较准确地确定待检测对象的目标关键点信息。

一种可能的实施方式中，所述基于所述第一特征图以及各个所述参考特征数据，生成多个目标热力图，包括：

对每个所述参考特征数据进行扩展处理，得到各个扩展后参考特征数据；其中，所述扩展后参考特征数据的尺寸与所述第一特征图的尺寸相同；

将所述各个扩展后参考特征数据分别与所述第一特征图进行级联，得到多个级联后特征图；

对所述多个级联后特征图进行第三特征提取，生成多个目标热力图。

这里，利用多个参考特征数据分别和第一特征图进行匹配，可以较快速、较准确地生成表征待检测对象的目标关键点信息的多个目标热力图，以便后续可以基于多个热力图，确定待检测对象的目标关键点信息。

一种可能的实施方式中，所述目标关键点信息由训练得到的目标神经网络生成；根据下述步骤训练得到所述目标神经网络：

获取样本数据集；其中，所述样本数据集包括多种类别的样本对象分别对应的样本图像对；所述样本图像对中第一样本图像和第二样本图像包括的样本对象的类别相同；

基于所述第一样本图像、所述第二样本图像、和待训练神经网络，生成所述第一样本图像中样本对象对应的多个预测热力图；

基于所述多个预测热力图、和所述第一样本图像对应的基准热力图，生成所述待训练神经网络对应的损失值；

基于所述损失值，对所述待训练神经网络的网络参数进行调整，直至满足训练截止条件，得到目标神经网络。

本公开实施例中，样本数据集包括多种类别的样本对象分别对应的样本图像对，利用该样本数据集训练得到的目标神经网络能够对任意类别的对象进行关键点检测，提高了目标神经网络的应用范围。

以下神经网络、装置、电子设备等的效果描述参见上述方法的说明，这里不再赘述。

第二方面，本公开提供了一种用于关键点检测的神经网络，包括：第一特征提取子网络、第二特征提取子网络、和匹配子网络；所述匹配子网络分别与所述第一特征提取子网络和所述第二特征提取子网络相连；

所述第一特征提取子网络，用于对接收到的待检测图像进行第一特征提取，生成第一特征图；

所述第二特征提取子网络，用于基于接收到的参考图像和所述参考图像中各个参考关键点的位置信息，生成与每个所述参考关键点匹配的参考特征数据；

所述匹配子网络，用于基于所述第一特征图以及各个所述参考特征数据，确定目标关键点信息。

一种可能的实施方式中，所述神经网络还包括：关键点交互子网络；所述关键点交互子网络包括：自注意力单元、交叉注意力单元；其中，所述自注意力单元与所述第二特征提取子网络相连；所述交叉注意力单元分别与所述自注意力单元、所述匹配子网络、和所述第一特征提取子网络相连；

所述自注意力单元，用于对接收到的多个所述参考特征数据进行交互处理，得到多个交互后的参考特征数据；并将所述多个交互后的参考特征数据输入至所述交叉注意力单元；

所述交叉注意力单元，用于利用所述第一特征图，分别对所述多个交互后的参考特征数据进行特征增强处理，生成多个处理后参考特征数据；并将所述多个处理后参考特征数据输入至所述匹配子网络；

所述匹配子网络，在基于所述第一特征图以及各个所述参考特征数据，确定目标关键点信息时，用于基于所述第一特征图以及各个所述处理后参考特征数据，确定目标关键点信息。

第三方面，本公开提供了一种关键点检测装置，包括：

获取模块，用于获取包括任一类别的待检测对象的待检测图像、和至少一个参考图像；其中，所述参考图像与所述待检测图像包括相同类别的对象，且所述参考图像携带有参考对象的多个参考关键点的位置信息；

第一生成模块，用于对所述待检测图像进行第一特征提取，生成第一特征图；

第二生成模块，用于基于所述参考图像和各个所述参考关键点的位置信息，生成与每个所述参考关键点匹配的参考特征数据；

确定模块，用于基于所述第一特征图以及各个所述参考特征数据，确定目标关键点信息。

第四方面，本公开提供一种电子设备，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行如上述第一方面或任一实施方式所述的关键点检测方法的步骤。

第五方面，本公开提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如上述第一方面或任一实施方式所述的关键点检测方法的步骤。

为使本公开的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本公开实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，此处的附图被并入说明书中并构成本说明书中的一部分，这些附图示出了符合本公开的实施例，并与说明书一起用于说明本公开的技术方案。应当理解，以下附图仅示出了本公开的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本公开实施例所提供的一种关键点检测方法的流程示意图；

图2a示出了本公开实施例所提供的一种关键点检测方法中，参考图像的示意图；

图2b示出了本公开实施例所提供的一种关键点检测方法中，参考图像的示意图；

图3a示出了本公开实施例所提供的一种关键点检测方法中，一种目标神经网络的结构示意图；

图3b示出了本公开实施例所提供的一种关键点检测方法中，另一种目标神经网络的结构示意图；

图3c示出了本公开实施例所提供的一种关键点检测方法中，神经网络训练的框架示意图；

图4示出了本公开实施例所提供的一种关键点检测装置的架构示意图；

图5示出了本公开实施例所提供的一种电子设备的结构示意图。

具体实施方式

为使本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本公开实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本公开的实施例的详细描述并非旨在限制要求保护的本公开的范围，而是仅仅表示本公开的选定实施例。基于本公开的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本公开保护的范围。

姿态估计旨在检测对象的预先定义的关键点的位置信息，由于姿态估计任务在学术界和工业界的应用前景较广泛，使其受到极大关注。其中，不同类别的对象的关键点检测有着不同的应用，比如，人体姿态估计已广泛应用于虚拟现实(Virtual Reality，VR)和增强现实(Augmented Reality，AR)等，动物姿态估计在动物学和野生动物保护中具有重要意义，车辆姿态估计对于自动驾驶至关重要。

一般的，在不同领域的实际应用中会检测各种特定类别对象的位姿，比如，在生物学领域可能会对植物的生长进行观察，需要检测植物在生成过程中的姿态；在人机交互场景中，需要检测控制设备的用户的手部姿态等。

相关技术中的姿态估计方法都是针对特定的、单一类别的对象，即对一种类别的对象进行关键点检测，该方法的泛化能力较低，使得该方法的应用场景受限。

相关技术中，姿态估计方法通常被当作回归问题去解决：一种方法是直接回归关键点的坐标，另一种方式是回归关键点的热图(heatmap)；然而，这种基于回归的方法无法对多种类别对象进行姿态估计。在对多种类别的对象进行姿态估计时，需要为每种类别的对象提供数据集和神经网络，以利用数据集对神经网络进行训练，得到能够对该种类别的对象进行关键点检测的神经网络，但是该方式消耗的成本较高，检测效率较低。

基于此，本公开实施例提出一种关键点检测方法、神经网络、装置、电子设备及存储介质。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

为便于对本公开实施例进行理解，首先对本公开实施例所公开的一种关键点检测方法进行详细介绍。本公开实施例所提供的关键点检测方法的执行主体一般为具有一定计算能力的计算机设备，该计算机设备例如包括：终端设备或服务器。在一些可能的实现方式中，该关键点检测方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。

参见图1所示，为本公开实施例所提供的关键点检测方法的流程示意图，该方法包括：S101-S104，具体的：

S101，获取包括任一类别的待检测对象的待检测图像、和至少一个参考图像；其中，参考图像与待检测图像包括相同类别的对象，且参考图像携带有参考对象的多个参考关键点的位置信息。

S102，对待检测图像进行第一特征提取，生成第一特征图。

S103，基于参考图像和各个参考关键点的位置信息，生成与每个参考关键点匹配的参考特征数据。

S104，基于第一特征图以及各个参考特征数据，确定目标关键点信息。

下述对S101至S104进行具体说明。

针对S101：

该待检测图像可以包括任一类别的待检测对象，比如，待检测对象可以包括但不限于：人体、人脸、动物、衣服、家具、车辆等。在获取待检测图像的同时，可以获取至少一个参考图像，该参考图像与待检测图像包括相同类别的对象，且参考图像携带有参考对象的多个参考关键点的位置信息。

比如，参见图2a所示的参考图像的示意图，参考图像包括的对象为椅子，且携带有椅子的10个参考关键点的标识信息和位置信息：参考关键点①(椅子靠背左上角)位于参考图像的像素坐标(2，9)处，参考关键点②(椅子靠背右上角)位于参考图像的像素坐标(4，9)处，参考关键点③(椅子靠背左下角)位于参考图像的像素坐标(2，5)处，参考关键点④(椅子靠背右下角)位于参考图像的像素坐标(4，5)处，……，参考关键点⑨(左前侧椅子腿的支点)位于参考图像的像素坐标(1，0.5)处，参考关键点⑩(右前侧椅子腿的支点)位于参考图像的像素坐标(5，0.5)处。

若参考图像的数量为多个，则多个参考图像携带的参考关键点的数量、标识、以及参考关键点表征的对象中的部位一致，比如，若图2a所示为参考图像一的示意图，则图2b所示为参考图像二的示意图，参考图像一和参考图像二均包括10个参考关键点，且参考关键点①表示椅子靠背左上角的点，参考关键点②表示椅子靠背右上角的点，参考关键点③表示椅子靠背左下角的点，参考关键点④表示椅子靠背右下角的点，参考关键点⑤表示椅子面左前角的点，参考关键点⑥表示椅子面右前角的点，参考关键点⑦表示左后侧椅子腿的支点，参考关键点⑧表示右后侧椅子腿的支点，参考关键点⑨表示左前侧椅子腿的支点，参考关键点⑩表示右前侧椅子腿的支点。

针对S102和S103：

在获取待检测图像和至少一个参考图像之后，可以对待检测图像进行特征提取，得到第一特征图；比如，可以利用卷积层，对待检测图像进行特征提取，或者，可以利用多个卷积层构成的卷积网络，对待检测图像进行特征提取。

以及可以先基于参考图像携带的参考对象的多个参考关键点的位置信息，确定各个参考关键点分别对应的参考热力图；该参考热力图可以用于表征参考关键点的位置信息。比如，该参考热力图中，与参考关键点的位置信息相匹配的目标像素点的像素值为1，其他像素点的像素值为0。或者，与参考关键点的位置信息相匹配的目标像素点的像素值为1，目标像素点周围的像素点的像素值呈下降趋势，直至像素值降为0；再可以基于参考图像和各个参考关键点分别对应的参考热力图，生成与每个参考关键点匹配的参考特征数据。

一种可能的实施方式中，基于参考图像和各个参考关键点的位置信息，生成与每个参考关键点匹配的参考特征数据，包括：

步骤A1，对参考图像进行第二特征提取，生成第二特征图。

步骤A2，对第二特征图进行上采样处理，得到处理后特征图。

步骤A3，利用多个参考关键点分别对应的参考热力图，对处理后特征图进行加权处理，生成多个中间特征图；其中，每个参考热力图用于表征一个参考关键点的位置信息。

步骤A4，基于多个中间特征图，生成与每个参考关键点匹配的参考特征数据。

实施时，可以对参考图像进行第二特征提取，生成第二特征图；比如可以利用至少一个卷积层对参考图像进行特征提取。再可以对第二特征图进行上采样处理，得到处理后特征图，以使得处理后特征图的尺寸和参考图像的尺寸相同。由于该参考热力图的尺寸和参考图像的尺寸相同，则该参考热力图的尺寸和处理后特征图的尺寸相同，故可以利用多个参考关键点分别对应的参考热力图，对处理后特征图进行加权处理，生成多个中间特征图。

比如，针对每个参考关键点，可以将处理后特征图和该参考关键点对应的参考热力图进行同位置特征值相乘处理，得到与该参考关键点匹配的中间特征图；其中，每个参考热力图用于表征一个参考关键点的位置信息；即可以得到多个中间特征图，中间特征图的数量与参考关键点的数量相同。

进而，可以基于各个参考关键点对应的中间特征图，生成与每个参考关键点匹配的参考特征数据。比如，可以对多个中间特征图进行平均池化处理，生成与每个参考关键点匹配的参考特征数据。

具体实施时，若参考图像的数量为多个、且多个参考图像携带的参考关键点的数量和标识一致的情况下，可以针对每个参考图像，执行步骤A1至步骤A4，即可以基于该参考图像、和该参考图像中各个参考关键点的位置信息，生成该参考图像对应的、与每个参考关键点匹配的中间参考特征数据；再可以针对同一标识的参考关键点，将各个参考图像分别对应的、与该参考关键点匹配的中间参考特征数据求均值，得到与该参考关键点匹配的参考特征数据。

示例性的，结合图2a和图2b进行说明，参考图像的数量为2，包括参考图像一和参考图像二，且参考图像一和参考图像二均包括参考关键点①至参考关键点⑩；针对参考图像一，可以基于参考图像一、和参考图像一中各个参考关键点的位置信息，生成参考图像一对应的、与每个参考关键点匹配的中间参考特征数据，即中间参考特征数据1-①、中间参考特征数据1-②、……、中间参考特征数据1-⑨、中间参考特征数据1-⑩；针对参考图像二，可以基于参考图像二、和参考图像二中各个参考关键点的位置信息，生成参考图像二对应的、与每个参考关键点匹配的中间参考特征数据，即中间参考特征数据2-①、中间参考特征数据2-②、……、中间参考特征数据2-⑨、中间参考特征数据2-⑩。

再可以针对参考关键点①，将中间参考特征数据1-①和中间参考特征数据2-①求均值，得到与参考关键点①匹配的参考特征数据1；针对参考关键点②，将中间参考特征数据1-②和中间参考特征数据2-②求均值，得到与参考关键点②匹配的参考特征数据2；……；针对参考关键点⑩，将中间参考特征数据1-⑩和中间参考特征数据2-⑩求均值，得到与参考关键点⑩匹配的参考特征数据10；即可以得到与各个参考关键点分别匹配的参考特征数据。

一种可能的实施方式中，在基于参考图像和各个参考关键点的位置信息，生成与每个参考关键点匹配的参考特征数据之后，还包括：基于第一特征图，对多个参考特征数据进行特征增强处理，生成多个处理后参考特征数据。

基于第一特征图以及各个参考特征数据，确定目标关键点信息，包括：基于第一特征图以及各个处理后参考特征数据，确定目标关键点信息。

考虑到多个参考特征数据是单独生成的，故多个参考特征数据无法学习到参考对象的结构信息；同时，多个参考特征数据是基于参考图像生成的，故在将多个参考特征数据与待检测图像进行匹配的过程中会存在特征差异。因此，在生成与每个参考关键点匹配的参考特征数据之后，可以基于第一特征图，对多个参考特征数据进行特征增强处理，生成多个处理后参考特征数据；其中，特征增强处理可以用于进行参考关键点之间的信息交互、以及参考关键点与待检测图像之间的信息交互；进而，可以基于第一特征图以及各个处理后参考特征数据，确定目标关键点信息。

实施时，由于不同类别的对象的关键点的数量不同，在生成与每个参考关键点匹配的参考特征数据之后，可以在多个参考特征数据末尾补充虚拟特征数据，以保障参考特征数据的数量为固定值；同时，在基于第一特征图，对多个参考特征数据进行特征增强处理的过程中，可以通过填充掩码padding mask区分padding(即虚拟特征数据)和非padding(即参考特征数据)。

一种可选实施方式中，基于第一特征图，对多个参考特征数据进行特征增强处理，生成多个处理后参考特征数据，包括：

步骤B1，对多个参考特征数据进行交互处理，得到多个交互后的参考特征数据。

步骤B2，利用第一特征图，分别对多个交互后的参考特征数据进行特征增强处理，生成多个处理后参考特征数据。

实施时，可以对多个参考特征数据进行交互处理，得到多个交互后的参考特征数据；比如，可以利用自注意力机制算法，对多个参考特征数据进行交互处理。

示例性的，参考特征数据的数量有3个，包括参考特征数据1、参考特征数据2、和参考特征数据3；针对每个参考特征数据，可以得到该参考特征数据对应的三个特征向量，比如，针对参考特征数据1，可以得到特征向量q1、k1、v1；针对参考特征数据2，可以得到特征向量q2、k2、v2；针对参考特征数据3，可以得到特征向量q3、k3、v3；再可以根据下述公式(1)得到多个交互后的参考特征数据：

其中，I和J表示参考特征数据的数量，b_i表示第i个交互后的参考特征数据，q_i表示第i个参考特征数据对应的查询(query)特征向量q，k_j表示第j个参考特征数据对应的关键(key)特征向量k，v_j表示第j个参考特征数据对应的值(value)特征向量v，Similarity(q_i,k_j)用于计算q_i和k_j之间的相似度，比如可以为q_i和k_j的点积结果，也可以为q_i和k_j的余弦相似度。

再可以利用第一特征图，分别对多个交互后的参考特征数据进行特征增强处理，生成多个处理后参考特征数据；比如，可以利用交叉注意力机制算法进行特征增强处理。

示例性的，若交互后的参考特征数据包括交互后的参考特征数据1、交互后的参考特征数据2、和交互后的参考特征数据3，可以基于第一特征图包括的每个第一特征值，得到各个第一特征值分别对应的关键特征向量K、值特征向量V，针对每个交互后的参考特征数据，可以得到该交互后的参考特征数据对应的查询特征向量Q；再可以根据下述公式(2)得到多个处理后参考特征数据：

其中，I表示交互后的参考特征数据的数量，M表示第一特征图包括的第一特征值的数量，若第一特征图的分辨率为H×W，则M＝H×W；B_i表示第i个处理后参考特征数据，Q_i表示第i个交互后的参考特征数据对应的查询特征向量Q，K_m表示第m个第一特征值对应的关键特征向量K，V_m表示第m个第一特征值对应的值特征向量V，Similarity(Q_i,K_m)用于计算Q_i和K_m之间的相似度，比如可以为Q_i和K_m的点积结果，也可以为Q_i和K_m的余弦相似度。

针对S104：

实施时，可以将第一特征图分别与各个参考特征数据进行匹配，能够确定目标关键点信息；以便应用时可以基于待检测对象的目标关键点信息，确定待检测对象的姿态。

一种可能的实施方式中，基于第一特征图以及各个参考特征数据，确定目标关键点信息，包括：基于第一特征图和各个参考特征数据，生成多个目标热力图；其中，多个目标热力图的数量与参考关键点的数量相同；基于多个目标热力图，确定目标关键点信息。

实施时，在确定目标关键点信息时，可以先基于第一特征图和各个参考特征数据，生成多个目标热力图；其中，多个目标热力图的数量与参考关键点的数量相同，多个目标热力图可以表征待检测对象的目标关键点信息；比如，针对每个目标热力图，可以从该目标热力图中确定像素信息最大的像素点，将该像素点确定为目标关键点，并将该像素点的像素位置确定为目标关键点的位置信息。

一种可能的实施方式中，基于第一特征图以及各个参考特征数据，生成多个目标热力图，包括：

步骤C1，对每个参考特征数据进行扩展处理，得到各个扩展后参考特征数据；其中，扩展后参考特征数据的尺寸与第一特征图的尺寸相同。

步骤C2，将各个扩展后参考特征数据分别与第一特征图进行级联，得到多个级联后特征图。

步骤C3，对多个级联后特征图进行第三特征提取，生成表征待检测对象的目标关键点信息的多个目标热力图。

实施时，可以对每个参考特征数据进行扩展处理，得到各个扩展后参考特征数据；其中，扩展后参考特征数据的尺寸与第一特征图的尺寸相同；比如，若第一特征图的尺寸为W×H×C，参考特征数据的尺寸为1×1×C，则可以将参考特征数据的数值进行复制扩展，生成尺寸为W×H×C的扩展后参考特征数据。

再可以将各个扩展后参考特征数据分别与第一特征图进行级联，得到多个级联后特征图；并对多个级联后特征图进行第三特征提取，生成表征待检测对象的目标关键点信息的多个目标热力图。比如，可以先对多个级联后特征图进行卷积处理，生成多个目标热力图；或者，还可以先对多个级联后特征图进行卷积处理，得到卷积后特征图，再可以对卷积后特征图进行反卷积处理，生成目标热力图，在保障准确度的基础上，使得生成的多个目标热力图的分辨率较高。

目标关键点信息可以由训练得到的目标神经网络生成；下述对目标神经网络的结构进行说明。

一种可能的实施方式中，多个目标热力图由训练得到的目标神经网络生成；其中，目标神经网络包括：第一特征提取子网络、第二特征提取子网络、和匹配子网络；匹配子网络分别与第一特征提取子网络和第二特征提取子网络相连。

示例性的，参见图3a所示的目标神经网络的结构示意图，该目标神经网络可以包括第一特征提取子网络θ_Q、第二特征提取子网络θ_S、和匹配子网络MH；其中，匹配子网络MH分别与第一特征提取子网络θ_Q和第二特征提取子网络θ_S相连；第一特征提取子网络θ_θ可以用于对待检测图像进行第一特征提取，生成第一特征图，并可以将第一特征图输入至匹配子网络MH；第二特征提取子网络θ_S可以用于对参考图像进行第二特征提取，生成第二特征图；以及可以基于第二特征图和多个参考关键点分别对应的参考热力图H^* _S，生成与每个参考关键点匹配的参考特征数据，并可以将多个参考特征数据输入至匹配子网络MH；其中，第一特征提取子网络θ_Q和第二特征提取子网络θ_S的网络结构可以为基于卷积神经网络的Hourglass网络、高分辨率网络(High-Resolution Net，HRNet)，或者可以为基于Transformer的视觉变换网络(Vision Transformer，ViT)等等。

匹配子网络MH可以包括连接层concat和第三特征提取子网络θ_M，匹配子网络MH可以用于对每个参考特征数据进行扩展处理，得到各个扩展后参考特征数据；针对每个扩展后参考特征数据，利用连接层concat将该扩展后参考特征数据与第一特征图进行级联，得到该扩展后参考特征数据对应的级联后特征图，并将该级联后特征图输入至第三特征提取子网络θ_M；第三特征提取子网络θ_M可以用于对多个级联后特征图进行第三特征提取，生成表征待检测对象的目标关键点信息的多个目标热力图H_Q；其中，第三特征提取子网络θ_M可以包括卷积特征层、或者可以包括卷积特征层和反卷积特征层。

一种可能的实施方式中，目标神经网络还包括：关键点交互子网络；关键点交互子网络包括：自注意力单元、交叉注意力单元；其中，自注意力单元与第二特征提取子网络相连；交叉注意力单元分别与自注意力单元、匹配子网络、和第一特征提取子网络相连。

关键点交互子网络的网络结构可以根据需要进行设置，比如，关键点交互子网络还可以包括前馈单元；示例性的，参见图3b所示的目标神经网络的结构示意图，该目标神经网络还可以包括关键点交互子网络KIM；关键点交互子网络KIM可以包括：自注意力单元、交叉注意力单元、和前馈单元；其中，自注意力单元与第二特征提取子网络θ_S相连；交叉注意力单元分别与自注意力单元、前馈单元(feed-forward network，FFN)、和第一特征提取子网络θ_Q相连；前馈单元和匹配子网络MH相连；自注意力单元可以用于接收第二特征提取子网络θ_S输入的多个参考特征数据，以及可以对多个参考特征数据进行交互处理，得到多个交互后的参考特征数据，并将多个交互后的参考特征数据输入至交叉注意力单元；交叉注意力单元可以用于接收第一特征提取子网络θ_Q输入的第一特征图、和自注意力单元输入的多个交互后的参考特征数据，以及可以利用第一特征图，分别对多个交互后的参考特征数据进行特征增强处理，生成多个处理后参考特征数据；并将多个处理后参考特征数据输入至前馈单元；前馈单元可以用于对接收到的多个处理后参考特征数据进行特征提取，得到多个特征提取后的参考特征数据；并将多个特征提取后的参考特征数据输入至匹配子网络。

实施时，该目标神经网络还可以包括多个关键点交互子网络，多个关键点交互子网络的结构一致，以便可以使得多个参考特征数据之间实现更深层次的交互，以及可以使得多个交互后的参考特征数据和第一特征图之间实现较好的特征对齐；比如，可以包括关键点交互子网络1、关键点交互子网络2、关键点交互子网络3；关键点交互子网络2分别与关键点交互子网络1和关键点交互子网络3相连，关键点交互子网络3与匹配子网络相连。

一种可能的实施方式中，根据下述步骤训练得到目标神经网络：

步骤D1，获取样本数据集；其中，样本数据集包括多种类别的样本对象分别对应的样本图像对；样本图像对中第一样本图像和第二样本图像包括的样本对象的类别相同；

步骤D2，基于第一样本图像、第二样本图像、和待训练神经网络，生成第一样本图像中样本对象对应的多个预测热力图；

步骤D3，基于多个预测热力图、和第一样本图像对应的基准热力图，生成待训练神经网络对应的损失值；

步骤D4，基于损失值，对待训练神经网络的网络参数进行调整，直至满足训练截止条件，得到目标神经网络。

实施时，获取的样本数据集可以包括多种类别的样本对象分别对应的样本图像对；样本图像对中第一样本图像和第二样本图像包括的样本对象的类别相同；比如，样本数据集中的对象类别可以包括但不限于人手、人脸、人体、动物身体、动物脸、衣服、家具、车辆等；同时，对于同一种类别的对象也可以包括多个关键点定义，比如，对于人脸，可以包括21个关键点定义、68个关键点定义、98个关键点定义等等。

参见图3c所示的神经网络训练的框架示意图，可以将第一样本图像输入至待训练神经网络的第一特征提取子网络θ_Q，得到第一样本特征图；以及可以将第二样本图像输入至待训练神经网络的第二特征提取子网络θ_S，得到第二样本特征图；并可以基于第二样本特征图和多个关键点分别对应的样本热力图H^* _S，得到多个特征数据，该特征数据与第二样本图像中样本对象的每个关键点相匹配；再可以将第一特征图和多个特征数据输入至待训练神经网络的关键点交互子网络KIM，生成多个更新后特征数据；进而，可以将第一特征图和多个更新后特征数据输入至待训练神经网络的匹配子网络MH，生成第一样本图像中样本对象对应的多个预测热力图H_Q。

可以基于多个预测热力图、和第一样本图像对应的基准热力图H^* _Q，生成待训练神经网络对应的损失值；并可以基于损失值，对待训练神经网络的网络参数进行调整，直至满足训练截止条件，得到目标神经网络；比如训练截止条件包括但不限于：训练次数大于或等于阈值，损失函数收敛等等。

示例性的，可以利用均方误差损失(Mean Square Error，MSE)函数，生成损失值，如下述公式(3)所示：

其中，N表示预测热力图的数量，H、W表示预测热力图的高和宽，

表示位于第n个预测热力图上位置p处的预测特征值，

表示位于第n个基准热力图上位置p处的基准特征值。

示例性的，在实际应用中，存在检测新类别对象的姿态的情况，一般的，为了检测新类别对象的姿态，需要采用大量已标记数据，对设计的特定类别的位姿估计模型进行训练，以得到对该新类别的关键点进行检测的神经网络，需要耗费大量的时间；而对于稀有对象(如濒危动物)和需要领域知识(如医学图像)案例的语义关键点注释的数据集的收集也较困难，使得得到的神经网络的精准度较低。基于此，由于本方案得到的神经网络能够对任意类别的对象进行关键点检测，针对包括新类别对象的待检测图像，可以通过获取包括新类别对象的参考关键点信息的参考图像，实现对待检测图像中新类别对象的目标关键点检测，提高了检测效率和检测精准度。

具体实施时，该目标神经网络可以用于关键点预标注、姿态追踪、基于关键点的分割和匹配等衍生任务；示例性的，若该目标神经网络应用于车辆姿态检测场景中，该目标神经网络的应用过程可以包括：获取行驶装置在行驶过程中采集的前车图像；利用目标神经网络，对前车图像进行目标检测，得到前车图像对应的对象检测结果；基于前车图像对应的对象检测结果，控制行驶装置的行驶状态。

示例性的，行驶装置可以为自动驾驶车辆、装有高级驾驶辅助系统(AdvancedDriving Assistance System，ADAS)的车辆、或者机器人等。前车图像可以为行驶装置在行驶过程中实时采集到的图像数据。

通过利用生成的目标神经网对前车图像进行检测，生成前车图像对应的对象检测结果；比如，对象检测结果可以包括前车图像中每个目标对象的关键点信息、位置信息、朝向信息等等。目标对象可以为任一待检测对象，比如，目标对象可以机动车辆、非机动车辆、行人、动物等。进而可以基于前车图像对应的对象检测结果，控制行驶装置的行驶状态。

其中，在控制行驶装置时，可以控制行驶装置加速、减速、停止、转向、制动、规避对象等，比如，规避对象可以包括绕开对象、更改行驶路线等；或者可以播放语音提示信息，以提示驾驶员控制行驶装置的行驶状态。

本领域技术人员可以理解，在具体实施方式的上述方法中，各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定，各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。

基于相同的构思，本公开实施例还提供了一种用于关键点检测的神经网络，所述神经网络包括：第一特征提取子网络、第二特征提取子网络、和匹配子网络；所述匹配子网络分别与所述第一特征提取子网络和所述第二特征提取子网络相连；

基于相同的构思，本公开实施例还提供了一种关键点检测装置，参见图4所示，为本公开实施例提供的关键点检测装置的架构示意图，包括获取模块401、第一生成模块402、第二生成模块403、确定模块404，具体的：

获取模块401，用于获取包括任一类别的待检测对象的待检测图像、和至少一个参考图像；其中，所述参考图像与所述待检测图像包括相同类别的对象，且所述参考图像携带有参考对象的多个参考关键点的位置信息

第一生成模块402，用于对所述待检测图像进行第一特征提取，生成第一特征图；

第二生成模块403，用于基于所述参考图像和各个所述参考关键点的位置信息，生成与每个所述参考关键点匹配的参考特征数据；

确定模块404，用于基于所述第一特征图以及各个所述参考特征数据，确定目标关键点信息。

一种可能的实施方式中，所述第二生成模块403，在基于所述参考图像和各个所述参考关键点的位置信息，生成与每个所述参考关键点匹配的参考特征数据时，用于：

对所述参考图像进行第二特征提取，生成第二特征图；

对所述第二特征图进行上采样处理，得到处理后特征图；

一种可能的实施方式中，所述装置还包括：第三生成模块405；所述第三生成模块405，在所述基于所述参考图像和各个所述参考关键点的位置信息，生成与每个所述参考关键点匹配的参考特征数据之后，还用于：

所述确定模块404，在基于所述第一特征图以及各个所述参考特征数据，确定目标关键点信息时，用于：

一种可能的实施方式中，所述第三生成模块405，在基于所述第一特征图，对多个所述参考特征数据进行特征增强处理，生成多个处理后参考特征数据时，用于：

一种可能的实施方式中，所述确定模块404，在基于所述第一特征图以及各个所述参考特征数据，确定目标关键点信息时，用于：

基于所述多个目标热力图，确定目标关键点信息。

一种可能的实施方式中，所述确定模块404，在基于所述第一特征图以及各个所述参考特征数据，生成多个目标热力图时，用于：

一种可能的实施方式中，所述目标关键点信息由训练得到的目标神经网络生成；其中，所述目标神经网络包括：第一特征提取子网络、第二特征提取子网络、和匹配子网络；所述匹配子网络分别与所述第一特征提取子网络和所述第二特征提取子网络相连。

一种可能的实施方式中，所述目标神经网络还包括：关键点交互子网络；所述关键点交互子网络包括：自注意力单元、交叉注意力单元、前馈单元；其中，所述自注意力单元与所述第二特征提取子网络相连；所述交叉注意力单元分别与所述自注意力单元、所述前馈单元、和所述第一特征提取子网络相连；所述前馈单元和所述匹配子网络相连。

一种可能的实施方式中，所述目标关键点信息由训练得到的目标神经网络生成；所述装置还包括：训练模块406；所述训练模块406用于根据下述步骤训练得到所述目标神经网络：

在一些实施例中，本公开实施例提供的装置具有的功能或包含的模板可以用于执行上文方法实施例描述的方法，其具体实现可以参照上文方法实施例的描述，为了简洁，这里不再赘述。

基于同一技术构思，本公开实施例还提供了一种电子设备。参照图5所示，为本公开实施例提供的电子设备500的结构示意图，包括处理器501、存储器502、和总线503。其中，存储器502用于存储执行指令，包括内存5021和外部存储器5022；这里的内存5021也称内存储器，用于暂时存放处理器501中的运算数据，以及与硬盘等外部存储器5022交换的数据，处理器501通过内存5021与外部存储器5022进行数据交换，当电子设备500运行时，处理器501与存储器502之间通过总线503通信，使得处理器501在执行以下指令：

获取包括任一类别的待检测对象的待检测图像、和至少一个参考图像；其中，所述参考图像与所述待检测图像包括相同类别的对象，且所述参考图像携带有参考对象的多个参考关键点的位置信息；对所述待检测图像进行第一特征提取，生成第一特征图；以及

其中，处理器501的具体处理流程可以参照上述方法实施例的记载，这里不再赘述。

此外，本公开实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述方法实施例中所述的关键点检测方法的步骤。其中，该存储介质可以是易失性或非易失的计算机可读取存储介质。

本公开实施例还提供一种计算机程序产品，该计算机程序产品承载有程序代码，所述程序代码包括的指令可用于执行上述方法实施例中所述的关键点检测方法的步骤，具体可参见上述方法实施例，在此不再赘述。

其中，上述计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中，所述计算机程序产品具体体现为计算机存储介质，在另一个可选实施例中，计算机程序产品具体体现为软件产品，例如软件开发包(Software Development Kit，SDK)等等。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统和装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。在本公开所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本公开各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-OnlyMemory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上仅为本公开的具体实施方式，但本公开的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本公开揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本公开的保护范围之内。因此，本公开的保护范围应以权利要求的保护范围为准。

Claims

1.一种关键点检测方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述基于所述参考图像和各个所述参考关键点的位置信息，生成与每个所述参考关键点匹配的参考特征数据，包括：

对所述参考图像进行第二特征提取，生成第二特征图；

对所述第二特征图进行上采样处理，得到处理后特征图；

3.根据权利要求1或2所述的方法，其特征在于，在所述基于所述参考图像和各个所述参考关键点的位置信息，生成与每个所述参考关键点匹配的参考特征数据之后，还包括：

4.根据权利要求3所述的方法，其特征在于，所述基于所述第一特征图，对多个所述参考特征数据进行特征增强处理，生成多个处理后参考特征数据，包括：

5.根据权利要求1-4任一所述的方法，其特征在于，所述基于所述第一特征图以及各个所述参考特征数据，确定目标关键点信息，包括：

基于所述多个目标热力图，确定目标关键点信息。

6.根据权利要求5所述的方法，其特征在于，所述基于所述第一特征图以及各个所述参考特征数据，生成多个目标热力图，包括：

7.根据权利要求1-6任一所述的方法，其特征在于，所述目标关键点信息由训练得到的目标神经网络生成；根据下述步骤训练得到所述目标神经网络：

8.一种用于关键点检测的神经网络，其特征在于，包括：第一特征提取子网络、第二特征提取子网络、和匹配子网络；所述匹配子网络分别与所述第一特征提取子网络和所述第二特征提取子网络相连；

9.根据权利要求8所述的神经网络，其特征在于，所述神经网络还包括：关键点交互子网络；所述关键点交互子网络包括：自注意力单元、交叉注意力单元；其中，所述自注意力单元与所述第二特征提取子网络相连；所述交叉注意力单元分别与所述自注意力单元、所述匹配子网络、和所述第一特征提取子网络相连；

10.一种关键点检测装置，其特征在于，包括：

11.一种电子设备，其特征在于，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行如权利要求1至7任一所述的关键点检测方法的步骤。

12.一种计算机可读存储介质，其特征在于，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如权利要求1至7任一所述的关键点检测方法的步骤。