CN116631010A

CN116631010A - 一种交互式关键点检测方法及相关装置

Info

Publication number: CN116631010A
Application number: CN202310871769.XA
Authority: CN
Inventors: 曾爱玲; 杨杰; 张磊
Original assignee: International Digital Economy Academy IDEA
Current assignee: International Digital Economy Academy IDEA
Priority date: 2023-07-17
Filing date: 2023-07-17
Publication date: 2023-08-22
Anticipated expiration: 2043-07-17
Also published as: CN116631010B

Abstract

本申请公开了一种交互式关键点检测方法及相关装置，方法包括获取目标图像的多尺度图像特征；基于多尺度图像特征确定候选人体查询和候选关键点查询序列；对候选关键点查询序列进行修正操作得到修正关键点查询序列；基于多尺度图像特征、修正关键点查询序列、候选人体查询和第一人体‑关键点解码器确定目标人体查询和目标关键点查询序列，以确定目标人体和目标人体的关键点。本申请通过对候选关键点查询序列中的少数候选关键点进行修正操作，再通过神经网络模型对其他可能错误的关键点进行更新，这样通过神经网络模型与用户交互地对关键点的检测，可以通过少量手动操作得到高精度的人体关键点，提高了标注效率且降低了标注工作量和标注成本。

Description

一种交互式关键点检测方法及相关装置

技术领域

本申请涉及计算机视觉技术领域，特别涉及一种交互式关键点检测方法及相关装置。

背景技术

多人关键点检测旨在检测图像中每个人的关键点坐标，其在研究和工业领域，尤其是在体育、娱乐和监控应用中，引起了极大的关注。在将多人关键点检测应用于不同应用场景时，需要针对各应用场景进行训练，这就需要大量具有人体关键点标签的训练数据。

目标普遍采用手动标注的方式来对训练数据进行人体关键点标签的标注，需要花费大量的时间成本和人力成本，从而影响了人体关键点标签的标注成本以及标注效率。

因而现有技术还有待改进和提高。

发明内容

本申请要解决的技术问题在于，针对现有技术的不足，提供一种交互式关键点检测方法及相关装置。

为了解决上述技术问题，本申请实施例第一方面提供了一种交互式关键点检测方法，所述方法包括：

获取包含人的目标图像的多尺度图像特征；

基于所述多尺度图像特征确定所述目标图像对应的候选人体查询和候选关键点查询序列；

对所述候选关键点查询序列中的至少一个候选关键点查询进行修正操作，以得到修正关键点查询序列；

将所述多尺度图像特征、修正关键点查询序列和所述候选人体查询输入第一人体-关键点解码器，通过所述第一人体-关键点解码器确定目标人体查询和所述目标人体查询对应的目标关键点查询序列；

基于所述目标人体查询和目标关键点查询序列，确定所述目标图像中的目标人体及目标人体对应的人体关键点。

所述交互式关键点检测方法，其中，所述对所述候选关键点查询序列中的至少一个候选关键点查询进行修正操作，以得到修正关键点查询序列具体包括：

接收关键点查询修正指令，其中，所述关键点查询修正指令携带有关键点标识以及修正数据；

根据所述关键点标识在所述候选关键点查询序列中选取待修正的候选关键点查询，并按照所述修正数据对待修正的候选关键点查询进行修正操作以得到修正关键点查询序列。

所述交互式关键点检测方法，其中，所述按照所述修正数据对待修正的候选关键点查询进行修正操作以得到修正关键点查询序列具体包括：

将所述修正数据添加至待修正的候选关键点查询中的候选关键点位置上，以得到修正关键点位置查询；

根据预设码本对待修正的候选关键点查询中的候选关键点特征查询进行标签嵌入来初始化，以得到修正关键点特征查询；

基于所述修正关键点位置查询和所述修正关键点特征查询形成修正关键点查询，并采用所述修正关键点查询替换其对应的待修正的候选关键点查询，以得到修正关键点查询序列。

所述交互式关键点检测方法，其中，所述关键点检测模型的训练过程具体包括：

基于训练图像的人体关键点标签形成误差关键点查询序列；

基于所述误差关键点查询序列、所述训练图像、所述初始网络模型确定训练人体查询、训练关键点查询序列、第一预测关键点查询、预测人体查询和第二预测关键点查询序列；

基于所述预测人体查询、训练人体查询、训练关键点查询序列、第一预测关键点查询以及第二预测关键点查询训练初始网络模型，以得到关键点检测模型。

所述交互式关键点检测方法，其中，所述基于所述误差关键点查询序列、所述训练图像、所述初始网络模型确定训练人体查询、训练关键点查询序列、第一预测关键点查询、预测人体查询和第二预测关键点查询序列具体包括：

将所述训练图像和所述误差关键点查询序列输入所述初始网络模型中的检测模块，通过所述检测模块输出所述训练图像对应的多尺度训练图像特征、训练人体查询、训练关键点查询序列以及第一预测关键点查询；

对所述训练关键点查询序列中的至少一个训练关键点查询进行修改操作，以得到修改关键点查询序列；

将所述多尺度训练图像特征、所述训练人体查询和修改关键点查询序列输入所述初始网络模型中的第一人体-关键点解码器，通过所述第一人体-关键点解码器输出预测人体查询和第二预测关键点查询序列。

所述交互式关键点检测方法，其中，所述将所述训练图像和所述误差关键点查询序列输入所述初始网络模型中的检测模块，通过所述检测模块输出所述训练图像对应的多尺度训练图像特征、训练人体查询、训练关键点查询序列以及第一预测关键点查询具体包括：

将所述训练图像输入所述检测模块中的编码模块，通过所述编码模块输出多尺度训练图像特征以及多条初始人体查询；

将所述多条初始人体查询输入所述检测模块中的人体解码器，通过人体解码器确定中间人体查询和中间人体关键点查询序列；

将多尺度训练图像特征、中间人体查询、中间人体关键点查询序列和误差关键点查询序列输入所述检测模块中的第二人体-关键点解码器，通过第二人体-关键点解码器输出训练人体查询及训练关键点查询序列，以及所述误差关键点查询序列对应的第一预测关键点查询。

所述交互式关键点检测方法，其中，所述误差关键点查询序列的确定过程具体包括：

获取训练图像中人的关键点标签集，确定所述关键点标签集对应的关键点查询序列；

在所述关键点查询序列中添加扰动误差和/或翻转误差，以形成误差关键点查询序列。

所述交互式关键点检测方法，其中，所述扰动误差用于改变关键点查询中的关键点位置，所述翻转误差用于改变关键点查询中的关键点特征的身体部位标签。

本申请实施例第二方面提供了一种交互式关键点检测装置，所述装置包括：

检测模块，用于获取包含人的目标图像的多尺度图像特征，基于所述多尺度图像特征确定所述目标图像对应的候选人体查询和候选关键点查询序列；

修正模块，用于对所述候选关键点查询序列中的至少一个候选关键点查询进行修正操作，以得到修正关键点查询序列；

人体关键点解码模块，用于将所述多尺度图像特征、修正关键点查询序列和所述候选人体查询输入第一人体-关键点解码器，通过所述第一人体-关键点解码器确定目标人体查询和所述目标人体查询对应的目标关键点查询序列；

确定模块，用于基于所述目标人体查询和目标关键点查询序列，确定所述目标图像中的目标人体及目标人体对应的人体关键点。

本申请实施例第三方面提供了一种计算机可读存储介质，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现如上任一所述的交互式关键点检测方法中的步骤。

本申请实施例第四方面提供了一种终端设备，其包括：处理器、存储器及通信总线;所述存储器上存储有可被所述处理器执行的计算机可读程序；

所述通信总线实现处理器和存储器之间的连接通信；

所述处理器执行所述计算机可读程序时实现如上任一所述的交互式关键点检测方法中的步骤。

有益效果：与现有技术相比，本申请提供了一种交互式关键点检测方法及相关装置，方法包括获取包含人的目标图像的多尺度图像特征；基于所述多尺度图像特征确定所述目标图像对应的候选人体查询和候选关键点查询序列；对所述候选关键点查询序列中的至少一个候选关键点查询进行修正操作，以得到修正关键点查询序列；将所述多尺度图像特征、修正关键点查询序列和所述候选人体查询输入第一人体-关键点解码器，通过所述第一人体-关键点解码器确定目标人体查询和所述目标人体查询对应的目标关键点查询序列；基于所述目标人体查询和目标关键点查询序列，确定所述目标图像中的目标人体及目标人体对应的人体关键点。本申请通过在人体关键点检测过程中，对候选关键点查询序列中的少数候选关键点进行修正操作，然后通过神经网络模型对其他可能错误的关键点进行更新，这样通过神经网络模型与用户交互来对关键点的检测与标注，可以通过少量手动操作得到高精度的人体关键点，提高了标注效率且降低了标注工作量和标注成本。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员而言，在不符创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请提供的交互式关键点检测方法的流程图。

图2为交互式关键点检测方法的一个示例的流程示意图。

图3为本申请提供的交互式关键点检测装置的结构原理图。

图4为本申请提供的终端设备的结构原理图。

具体实施方式

本申请提供一种交互式关键点检测方法及相关装置，为使本申请的目的、技术方案及效果更加清楚、明确，以下参照附图并举实施例对本申请进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本申请所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样被特定定义，否则不会用理想化或过于正式的含义来解释。

应理解，本实施例中各步骤的序号和大小并不意味着执行顺序的先后，各过程的执行顺序以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

发明人经过研究发现，多人关键点检测旨在检测图像中每个人的关键点坐标，其在研究和工业领域，尤其是在体育、娱乐和监控应用中，引起了极大的关注。在将多人关键点检测应用于不同应用场景时，需要针对各应用场景进行训练，这就需要大量具有人体关键点标签的训练数据（例如，COCO数据集等）。目标普遍采用手动标注的方式来对训练数据进行人体关键点标签的标注，而手动标注会存在耗时、费力和成本高昂的问题，例如，根据统计注释一个具有17个关键点的人体关键点标签需要约230秒，那么对于包含50K张图像，每张图像平均包含有四个人的数据集，则需要532小时。

为了减少手动工作量，目前普遍采用的方式是先通过检测网络模型获得初步人体关键点标签，然后通过手动纠正初步人体关键点标签中的所有错误关键点。这种方式严重依赖于检测网络模型的模型性能来减少手动工作量，这就导致以下问题：

1、虽然随着检测网络模型的预测精度的提升可以提高训练数据域内数据的标注速度，减少需要手工纠正的错误关键点数量，但是，检测网络模型无法保证数据域外的数据或未定义的新关键点的预测精度，从而仍然需要大量的手动工作量来纠正的错误关键点。

2）、检测网络模型的模型性能通常很难被不断提升，这就使得进一步减少手动工作量变动具有挑战性。

为了解决上述问题，在本申请实施例中，获取包含人的目标图像的多尺度图像特征；基于所述多尺度图像特征确定所述目标图像对应的候选人体查询和候选关键点查询序列；对所述候选关键点查询序列中的至少一个候选关键点查询进行修正操作，以得到修正关键点查询序列；将所述多尺度图像特征、修正关键点查询序列和所述候选人体查询输入第一人体-关键点解码器，通过所述第一人体-关键点解码器确定目标人体查询和所述目标人体查询对应的目标关键点查询序列；基于所述目标人体查询和目标关键点查询序列，确定所述目标图像中的目标人体及目标人体对应的人体关键点。本申请通过在人体关键点检测过程中，对候选关键点查询序列中的少数候选关键点进行修正操作，然后通过神经网络模型对其他可能错误的关键点进行更新，这样通过神经网络模型与用户交互来对关键点的检测与标注，可以通过少量手动操作得到高精度的人体关键点，提高了标注效率且降低了标注工作量和标注成本。

下面结合附图，通过对实施例的描述，对申请内容作进一步说明。

本实施例提供了一种交互式关键点检测方法，如图1所示，所述方法包括：

S10、获取包含人的目标图像的多尺度图像特征。

具体地，目标图像可以包含一个人，也可以包含多个人，其中，当目标图像包括多个人时，多个人之间可以存在重叠，即目标图像中的部分人可以被其他人遮挡。多尺度图像特征中的各尺度图像特征均为基于目标图像确定的，其中，多尺度图像特征中的每个图像特征均可以通过编码模块确定，编码模块包括特征提取网络和编码器，特征提取网络用于对目标图像进行特征提取，以得到多尺度初始图像特征；编码器用于将各尺度初始图像特征与其对应的初始位置信息进行结合，以得多尺度图像特征。其中，特征提取网络可以采用现有的特征提取网络模型，例如，VGG-16，ResNet50等网络；编码器可以采用Transformer编码器等。

举例说明：如图2所示，假设目标图像，其中，R为实数矩阵，H为图像的高，W为图像的宽，将目标图像/>输入特征提取网络为/>，通过特征提取网络为/>提取到多尺度初始图像特征/>，其中，/>由图像多尺度分辨率信息组成，，C表示特征维度。然后获取多尺度初始图像特征中各初始图像特征对应的位置嵌入，并将各尺度初始图像特征和其对应的位置嵌入输入编码器，通过编码器获取到多尺度图像特征/>，以提高多尺度图像特征的精细度。

S20、基于所述多尺度图像特征确定所述目标图像对应的候选人体查询和候选关键点查询序列。

具体地，候选人体查询包括候选人体特征查询和候选人体位置查询，候选关键点查询序列包括若干候选关键点查询，其中，若干候选关键点查询的数量与目标图像中人的待识别关键点的数量相同，例如，目标图像中人的待识别标关键点的数量为17，那么候选关键点查询序列包括17条候选关键点查询。也就是说，每个候选人体查询对应有17条候选关键点查询。此外，当目标图像包含有多个人时，基于多尺度图像特征会确定多条候选人体查询，若干候选人体查询中的每个候选人体查询均对应有候选关键点查询序列，并且各候选人体查询各自对应的候选关键点查询序列所包括的候选关键点查询的数量相同。

进一步，所述候选人体查询及其对应的候选关键点查询序列可以直接通过编码网络模型确定的，也可以是首先通过多尺度图像特征确定多条初始人体查询，并基于多条人体查询和人体解码器确定多条更新人体查询；其次，通过多条更新人体查询确定多条初始关键点查询；最后，基于多条更新人体查询、多条初始关键点查询和第二人体-关键点解码器确定候选人体查询及其对应的候选关键点查询序列。

在一个实现方式中，基于所述多尺度图像特征确定所述目标图像对应的候选人体查询和候选关键点查询序列具体包括：

S21、基于多尺度特征图确定若干初始人体查询；

S22、将若干初始人体查询输入人体解码器，通过人体解码器确定若干更新人体查询；

S23、基于若干更新人体查询若干初始化关键点查询，得到若干初始关键点查询；

S24、将若干初始关键点查询和若干更新人体查询输入第二人体-关键点解码器，通过第二人体-关键点解码器确定所述目标图像对应的候选人体查询和候选关键点查询序列。

具体地，初始人体查询包括初始人体特征查询/>和初始人体位置查询/>，其中，N表示查询数量，C表示特征维度。其中，多条初始人体查询的确定过程可以为：将各尺度图像特征划分为若干子图像特征，然后将各子图像特征转换为特征向量，并对各子图像特征对应的特征向量进行回归以得到各子图像特征对应的位置向量，最后将各子图像特征的转换得到的特征向量和其对应位置向量作为一个初始人体查询，其中，特征向量为初始人体特征查询，位置向量为初始人体位置查询。当然，在实际应用中，在通过对各尺度图像特征进行划分以及向量转换得到若干初始人体查询后，还可以对若干初始人体查询进行筛选，以去除未携带人体特征或者携带人体特征少的特征向量，这样可以减少初始人体特征查询的数量，提高后续解码器的输入项的数据量，从而可以提高后续解码过程的解码效率，进而提高姿态估计的速度。

如图2所示，人体解码器用于对初始人体查询进行更新，其中，人体解码器首先通过人体与人体交互的自注意力层计算不同初始人体特征查询间的上下文关系，以得到中间人体特征查询，然后在通过交叉注意层对多尺度图像特征和中间人体特征查询进行学习，以得到更新人体特征查询。然后，根据更新人体特征查询计算四维偏移量，并将四维偏移量添加到初始位置查询中，以得到更新人体位置查询；最后，将更新人体特征查询和更新人体位置查询进行拼接，得到更新人体查询。

初始关键点查询包括初始关键点特征查询/>和初始关键点位置查询/>，/>代表关键点的个数，N*K为所有人体的关键点查询个数，N表示初始人体查询的数量。其中，初始关键点查询的初始化过程可以为：对更新人体查询中的更新人体位置查询进行回归得到初始关键点位置查询，然后基于更新人体特征查询初始关键点特征查询。

在获取到初始关键点查询后，将更新人体查询与其对应的若干初始关键点查询进行拼接，其中，在将更新人体查询与初始关键点查询拼接时，将更新人体查询中的更新人体特征查询与初始关键点查询中的初始关键点特征查询连接，将更新人体位置查询与初始关键点位置查询连接。然后，将拼接得到各拼接查询输入第二人体-关键点解码器，通过第二人体-关键点解码器中的注意力交互层来学习人体和关键点的上下文关系，以更新拼接查询；然后通过交叉注意层对多尺度图像特征和更新拼接查询进行交互，以得到候选拼接特征查询，利用候选拼接特征查询确定四维偏移量/>，并将其添加到初始关键点位置查询得到候选拼接位置查询，最后，将候选拼接特征查询中的人体特征查询和关键点位置查询进行分割，以得到候选人体特征查询和候选关键点位置查询，将候选拼接位置查询中的人体位置查询和关键点位置查询进行分割，以得到候选人体位置查询和候选关键点位置查询，从而得到候选人体查询/>和候选关键点查询序列/>。

S30、对所述候选关键点查询序列中的至少一个候选关键点查询进行修正操作，以得到修正关键点查询序列。

具体地，修正关键点查询序列为基于对候选关键点查询序列/>中的至少一个候选关键点查询按照修正操作进行修正后的关键点查询序列。修正操作可以基于接收到修正指令所进行的，也可以是根据预设条件自动进行的等。在本实施例中，修正操作为根据用户交互所形成的修正指令所进行的，其中，修正指令可以根据检测到的用户点击操作所形成的，也可以是根据接收到的用户输入信息所形成的等。

候选关键点查询序列中被修正的候选关键点查询的数量可以预先设置的，例如，1,2等，也可以是基于候选关键点查询序列中被判断为错误关键点的数量确定，例如，被判断为错误关键点的数量的一半，三分之一，或者四分之一等。候选关键点查询序列中被修改的候选关键点查询的数量少于未被修改的候选关键点查询的数量。在一个的典型实现方式中，候选关键点查询序列中被修正的候选关键点查询的确定过程可以为：在目标图像中显示各候选关键点位置查询对应的候选关键点，然后通过人工对各候选关键点进行检测以确定错误关键点，最后在错误关键点中选取部分错误关键点，并将错误关键点对应的候选关键点查询作为被修正的候选关键点查询。

在一个实现方式中，所述对所述候选关键点位置查询序列中的至少一个候选关键点查询进行修正，以得到修正关键点查询序列具体包括：

根据所述关键点标识在所述候选关键点查询序列中选取待修正的候选关键点查询，并按照所述修正数据对所述候选关键点查询进行修正以得到修正关键点查询。

具体地，所述关键点标识用于确定待修正的候选关键点查询，修正数据用于反映待修正的候选关键点查询对应的修正内容，其中，关键点标识可以为候选关键点位置查询，修正内容可以为位置修正量。在本实施例中，修正指令可以基于接收到用户点击操作所形成的，即将各候选关键点查询中的候选关键点位置查询显示于目标图像上，并接收对所述目标图像所进行的点击操作。在接收到点击操作时，基于点击操作形成修正指令，并且记录点击操作所确定的候选关键点以及修正内容，将候选关键点作为关键点标识，将修正内容作为修正数据，其中，候选关键点可以基于点击操作对应的点击位置坐标确定的，修正内容为接收到的输入数据，也可以为通过拖到关键点标识对应的候选关键点的在目标图像中的位置所形成的位置偏移数据。

在一个实现方式中，所述按照修正数据对所述候选关键点查询进行修正以得到修正关键点查询序列具体包括：

根据所述修正数据对所述候选关键点查询中的候选关键点位置进行修正，以得到修正关键点查询序列；

具体地，修正数据用于对关键点位置进行修正，也就是说，修正数据可以为位置偏移量，通过位置偏移量对关键点位置进行修正，例如，将位置偏移量添加到候选关键点位置查询对应的关键点位置中，或者是，在候选关键点位置查询对应的关键点位置上减去位置偏移量等。此外，在对候选关键点查询中的候选关键点位置进行修正得到修正关键点位置查询后，候选关键点查询中的修正关键点位置查询对应的候选关键点特征查询与修正关键点位置查询不匹配，从而需要为修正关键点位置查询配置修正关键点特征查询，这样可以提高修正关键点查询中的修正关键点特征查询和修正关键点位置查询的匹配度，从而可以提高后续基于候选人体查询和修正关键点查询序列确定的目标人体查询和目标关键点查询序列的准确性。

预设码本为预先设置的，用于初始化目标图像中每个位置信息对应的内容信息。也就是说，在获取到修正后的候选关键点位置查询后，可以基于预设码本确定修正关键点位置查询对应的修正关键点特征查询，即通过预设码本进行标签嵌入来初始化修正关键点特征查询。

S40、将所述多尺度图像特征、修正关键点查询序列和所述候选人体查询输入第一人体-关键点解码器，通过所述第一人体-关键点解码器确定目标人体查询和所述目标人体查询对应的目标关键点查询序列。

具体地，目标人体查询和目标关键点查询序列/>通过对修正关键点查询序列、候选人体查询和多尺度图像特征进行交叉学习所得到的，通过对修正关键点查询和候选人体查询进行交互学习，可以学习到人体与关键点的上下文关系，同时还可以通过修正关键点查询序列中的修正关键点查询来对其他错误关键点进行更新，以自动修正其他错误关键点，从而可以减少手动修改的工作量，提高目标人体查询和目标关键点查询序列的确定速度。

在一个实现方式中，目标人体查询和所述目标人体查询对应的目标关键点查询序列可以是通过第一人体-关键点解码器确定，其中，第一人体-关键点解码器和第二人体-关键点解码器均包括若干级联解码单元，每个解码单元均包括注意力交互层和交叉注意力交互层，注意力交互层用于学习人体与关键点的上下文关系，以及关键点与关键点间的上下文关系；交叉注意力交互层用于将多尺度图像特征与人体特征查询进行交互，以及将多尺度图像特征与关键点特征查询进行交互，这样通过第二人体-关键点解码器可以学习到全局到局部以及局部到局部的上下文关系，即学习到人到关键点以及关键点到关键点的上下文关系，从而可以基于修正关键点查询对其他关键点查询进行更新。

S50、基于所述目标人体查询和目标关键点查询序列，确定所述目标图像中的目标人体及目标人体对应的人体关键点。

具体地，目标人体查询用于确定目标人体的人体检测框，即确定目标人体，目标关键点查询序列用于确定目标人体的人体关键点。其中，目标人体和目标人体对应的人体关键点可以基于预先训练的前馈网络模型确定，即在获取到目标人体查询和目标关键点查询序列后，将目标人体查询和目标关键点查询序列输入前馈网络模型，通过前馈网络模型对目标图像中的目标人体及目标人体对应的人体关键点。此外，当目标图像包括多个人时，会确定得到多条目标人体查询和多个目标关键点查询序列，那么基于多条目标人体查询和多个目标关键点查询序列可以确定多个目标人体以及每个目标人体对应的人体关键点。

在一个实现方式中，所述交互式关键点检测方法可以通过将经过训练的关键点检测模型和用户交互相结合所实现的，其中，关键点检测模型用于获取包含人的目标图像的多尺度图像特征，基于所述多尺度图像特征确定所述目标图像对应的候选人体查询和候选关键点查询序列。用户交互用于形成修正指令，以便于基于修正指令对所述候选关键点位置查询序列中的至少一个候选关键点查询进行修正来形成到修正关键点查询序列。关键点检测模型还用于基于多尺度图像特征、修正关键点查询序列和所述候选人体查询，通过所述第一人体-关键点解码器确定目标人体查询和所述目标人体查询对应的目标关键点查询序列；以及基于所述目标人体查询和目标关键点查询序列，确定所述目标图像中的目标人体对应的人体关键点。

所述关键点检测模型包括检测模块和第一人体-关键点解码器；所述检测模块用于获取所述目标图像的候选人体查询和候选关键点查询序列；所述第一人体-关键点解码器用于确定目标人体查询和目标人体查询对应的目标关键点查询序列。其中，检测模块可以包括编码模块、人体解码器和第二人体-关键点解码器，编码模块包括特征提取网络和编码器，特征提取网络用于提取多尺度初始图像特征，编码器用于对多尺度初始图像特征进行编码以得到多尺度图像特征。人体解码器用于基于多尺度图像特征确定更新人体查询，第二人体-关键点解码器用于基于更新人体查询确定候选人体查询和候选关键点查询，其中，第二人体-关键点解码器和第一人体-关键点解码器的模型结构和模型参数均相同，也就是说，第二人体-关键点解码器和第一人体-关键点解码器共享模型参数。此外，值得说明的是，特征提取网络、编码器、人体解码器以及第一人体-关键点解码器的工作过程在上述步骤中已经说明，这里就不再赘述，具体可以参照上述步骤的说明。

进一步，由于在通过手动标注或者修正关键点时，可能会存在遗漏、定位偏差和误标注的问题，从而为了提高关键点检测模型的自动纠错能力，在关键点检测模型的训练过程中，可以添加误差关键点查询，通过误差关键点查询来使得关键点检测模型对错误关键点的纠正能力，从而可以提高关键点检测模型的鲁棒性。由此，在关键点检测模型的训练过程中，关键点检测模型对应的初始网络模型的输入项还可以包括误差关键点查询序列，所述误差关键点查询为基于训练图像的关键点标签集形成的，每个训练图像对应生成一个误差关键点查询序列，然后将误差关键点查询序列作为第二人体-关键点解码器的一个输入项，使得第二人体-关键点解码器单独执行对误差关键点查询序列的学习，提高第二人体-关键点解码器的自动纠错能力，从而提高关键点检测模型的自动纠错能力。

基于此，如图2所示，所述关键点检测模型的训练过程可以包括：

H10、基于训练图像的人体关键点标签形成误差关键点查询序列；

H20、基于所述误差关键点查询序列、所述训练图像、所述初始网络模型确定训练人体查询、训练关键点查询序列、第一预测关键点查询、预测人体查询和第二预测关键点查询序列；

H30、基于所述预测人体查询、训练人体查询、训练关键点查询序列、第一预测关键点查询以及第二预测关键点查询训练初始网络模型，以得到关键点检测模型。

具体地，在步骤H10中，训练图像为待检测的关键点检测模型对应的训练数据集中的一训练图像，训练数据集包可以包括多张训练图像，多张训练图像中的每张训练图像均携带有人体检测框标签和人体关键点标签，例如，训练数据集可以为COCO数据集，或者Human-Art数据集等。

误差关键点查询序列为在基于关键点标签形成的关键点查询序列中添加误差形成，以使得误差关键点查询序列包含具有误差的关键点查询。在一个实现方式中，所述误差关键点查询序列的确定过程具体包括：

具体地，关键点标签集包括若干关键点标签，若干关键点标签中的每个关键点标签均属于同一人。关键点查询序列包若干关键点查询，若干关键点查询与若干关键点标签一一对应，每个关键点查询均是基于其对应的关键点标签确定的，其中，关键点查询中的关键点位置查询为对关键点标签的二维坐标进行初始化得到的，关键点查询中的关键点特征查询为基于可学习码本初始化得到的。可学习码本为预先初始化的，并且在关键点检测模型的训练过程中进行学习，当关键点检测模型训练结束后，经过学习的可学习码本为上述步骤中用于确定修正关键点查询中的修正关键点特征查询的预设码本，也就是说，预设码本是通过关键点检测模型的训练过程学习后的可学习码本。

进一步，在所述关键点查询序列中添加扰动误差和/或翻转误差可以为在关键点查询序列中的一个关键点查询中添加扰动误差和/或翻转误差，也可以是在关键点查询序列中选取部分关键点查询，在选取到的每个关键点查询中添加扰动误差和/或翻转误差；还可以是在关键点查询序列中选取部分关键点查询，在选取到关键点查询中选取一部分关键点查询添加扰动误差，选取一部分关键点查询添加翻转误差，选取一部分关键点查询添加扰动误差和/或翻转误差。

在本实施例中，通过在一部分关键点查询添加扰动误差，一部分关键点查询添加翻转误差，一部分关键点查询添加扰动误差和/或翻转误差的方式形成误差关键点查询序列，这样可以增加误差关键点查询序列所携带的误差类型。相应的，误差关键点查询序列包括的误差关键点查询的数量与关键点查询序列包括的关键点查询的数量相同，并且误差关键点查询序列中的部分误差关键点查询为关键点查询序列中的关键点查询，部分误差关键点查询为在关键点查询序列中的关键点查询中添加扰动误差所形成的，部分误差关键点查询为在关键点查询序列中的关键点查询中添加翻转误差所形成的，部分误差关键点查询为在关键点查询序列中的关键点查询中添加扰动误差和/或翻转误差所形成的。此外，误差关键点查询序列中的每个误差关键点查询均包括误差关键点特征查询/>和误差关键点位置查询/>，其中，M表示训练图像所包含的人的数量，/>表示关键点数量，/>表示特征维度。

扰动误差用于改变关键点查询中的关键点位置，以使得误差关键点查询携带有抖动、缺失和交换类姿态误差。所述翻转误差用于改变关键点查询中的关键点特征的身体部位标签（例如，身体部位标签中的左右方向），以使得误差关键点查询/>携带有部位误标类姿态误差（例如，左肘和右肘标记反等），扰动误差和翻转误差通过作用，可以使得误差关键点查询携带有翻转类错误。

扰动误差可以为二维扰动坐标，通过将二维扰动坐标添加到关键点标签的二维坐标上，以形成扰动误差关键点的二维坐标，其中，二维扰动坐标为随机生成的，也就是说，每个添加扰动误差的关键点标签所条件的误差程度不同，即添加的扰动误差的二维扰动坐标不同。此外，为了使得添加扰动误差的扰动误差关键点位于关键点标签所处的人体检测框内，需要对随机生成的二维扰动坐标的范围进行限定，其中，扰动误差(，∆y)的横坐标满足/>，纵坐标∆y满足/>，其中，/>，/>∈(0,1)。

翻转误差可以通过随机翻转身体部位标签来实现，即可以设置一个超参数，通过该超参数来随机翻转身体部位标签，这样通过随机翻转身体部位标签可以引入误差关键点位置查询和误差关键点特征查询间的错误，迫使初始网络模型的识别身体部位的位置和标签之间的相互依赖关系，同时在误差关键点查询序列中携带有正确的关键点位置查询，使得初始网络模型的可以学会如何以正确的关键点作为参考来修正错误的关键点。其中，所述身体部位标签可以为身体部位标签中的左右标签，例如，将左手标签修改为右手标签等。以上完成对步骤H10的说明，下面对步骤H20进行说明。

在步骤H20中，所述关键点检测模型对应的初始网络模型的模型结构与关键点检测模型的模型结构相同，两者的区别在于所述关键点检测模型对应的初始网络模型的模型参数为初始参数，关键点检测模型的模型参数为经过训练的模型参数。基于此，所述基于所述误差关键点查询序列、所述训练图像、所述初始网络模型确定训练人体查询、训练关键点查询序列、第一预测关键点查询、预测人体查询和第二预测关键点查询序列具体包括：

H21、将所述训练图像和所述误差关键点查询序列输入所述初始网络模型中的检测模块，通过所述检测模块输出所述训练图像对应的多尺度训练图像特征、训练人体查询、训练关键点查询序列以及第一预测关键点查询；

H22、对所述训练关键点查询序列中的至少一个训练关键点查询进行修改操作，以得到修改关键点查询序列；

H23、将所述多尺度训练图像特征、所述训练人体查询和修改关键点查询序列输入所述初始网络模型中的第一人体-关键点解码器，通过所述第一人体-关键点解码器输出预测人体查询和第二预测关键点查询序列。

具体地，在步骤H21中，所述训练图像作为检测模块的一组输入项，通过检测模块输入训练图像对应的多尺度训练图像特征、训练人体查询及训练关键点查询序列。误差关键点查询序列作为检测模块的一组输入项，通过检测模块输出第一预测关键点查询。其中，多尺度训练图像特征会作为第一人体-关键点解码器，以使得第一人体-关键点解码器可以学到对多尺度训练图像所携带图像特征。

在一个实现方式中，所述将所述训练图像和所述误差关键点查询序列输入所述初始网络模型中的检测模块，通过所述检测模块输出所述训练图像对应的多尺度训练图像特征、训练人体查询、训练关键点查询序列以及第一预测关键点查询具体包括：

具体地，编码模块用于提取多尺度图像特征以及多条初始人体查询，其中，多条初始人体查询为基于多尺度图像特征确定的，具体确定过程可以参照上述关于关键点检测模型的说明。人体解码器用于基于多条初始人体查询和人体解码器确定中间人体查询和中间人体关键点查询序列。第二人体-关键点解码器用于确定训练人体查询、训练关键点查询序列以及第一预测关键点查询，其中，训练人体查询和训练关键点查询序列为基于中间人体查询、中间关键点查询序列以及多尺度训练图像特征确定得到的，第一预测关键点查询为基于误差关键点查询序列和多尺度训练图像特征确定的。也就是说，多尺度训练图像特征、中间人体查询和中间关键点查询序列作为第二人体-关键点解码器的第一组输入项，多尺度训练图像特征和误差关键点查询序列作为第二人体-关键点解码器的第二组输入项，第二人体-关键点解码器对第一组输入项进行处理得到训练人体查询和训练人体查询对应的训练关键点查询序列，对第二组输入项进行处理得到第一预测关键点查询，其中，第一组输入项和第二组输入项的处理过程为相互独立的。

在步骤H22中，在获取到训练关键点查询序列后，可以对所述训练关键点查询序列中的至少一个训练关键点查询进行修改，以得到修改关键点查询序列。其中，所述修改过程可以与上述修正过程相同，也可以是通过直接通过真实关键点标签来修改训练关键点查询训练中的至少一个训练关键点查询来模拟用户点击操作，实现了训练过程的自动化，提高了关键点检测模型的训练速度。此外，值得说明的是，训练过程中固定修改过程所采用的码本为与误差关键点查询序列生成所过程中所采用的码本相同，均是可学习码本。

在步骤23中，第一人体-关键点解码器的工作过程已在上述步骤中进行说明，这里就不在赘述。在训练过程中，基于多尺度训练图像特征、训练人体查询和训练关键点查询序列可以获取到预测人体查询和第二预测关键点查询序列。以上完成对步骤H20的说明，下面对步骤H30进行说明。

在步骤H30中，在获取所述预测人体查询、训练人体查询、训练关键点查询序列、第一预测关键点查询以及第二预测关键点查询后，可以基于预测人体查询、训练人体查询、训练关键点查询序列、第一预测关键点查询、第二预测关键点查询、关键点标签集以及人体检测框标签来确定损失函数，其中，损失函数包括基于预测人体查询和人体检测框确定第一损失项，基于训练人体查询和人体检测框确定第二损失项，基于训练关键点查询序列和关键点标签集确定的第三损失项，基于第一预测关键点查询和关键点标签确定的第四损失项，以及基于第二预测关键点查询和关键点标签确定的第五损失项。第二损失项和第三损失项可以反映未添加误差和交互的损失信息，第一损失项和第五损失项可以反映添加交互操作后的损失信息，第四损失项可以反映添加误差后的损失信息。

综上所述，本实施例提供了一种交互式关键点检测方法，方法包括获取包含人的目标图像的多尺度图像特征；基于所述多尺度图像特征确定所述目标图像对应的候选人体查询和候选关键点查询序列；对所述候选关键点查询序列中的至少一个候选关键点查询进行修正操作，以得到修正关键点查询序列；将所述多尺度图像特征、修正关键点查询序列和所述候选人体查询输入第一人体-关键点解码器，通过所述第一人体-关键点解码器确定目标人体查询和所述目标人体查询对应的目标关键点查询序列；基于所述目标人体查询和目标关键点查询序列，确定所述目标图像中的目标人体及目标人体对应的人体关键点。本申请通过在人体关键点检测过程中，对候选关键点查询序列中的少数候选关键点进行修正操作，然后通过神经网络模型对其他可能错误的关键点进行更新，这样通过神经网络模型与用户交互来对关键点的检测与标注，可以通过少量手动操作得到高精度的人体关键点，提高了标注效率且降低了标注工作量和标注成本。

基于上述交互式关键点检测方法，本实施例提供了一种交互式关键点检测装置，如图3所示，所述装置包括：

检测模块100，用于获取包含人的目标图像的多尺度图像特征，基于所述多尺度图像特征确定所述目标图像对应的候选人体查询和候选关键点查询序列；

修正模块200，用于对所述候选关键点查询序列中的至少一个候选关键点查询进行修正操作，以得到修正关键点查询序列；

人体关键点解码模块300，用于将所述多尺度图像特征、修正关键点查询序列和所述候选人体查询输入第一人体-关键点解码器，通过所述第一人体-关键点解码器确定目标人体查询和所述目标人体查询对应的目标关键点查询序列；

确定模块400，用于基于所述目标人体查询和目标关键点查询序列，确定所述目标图像中的目标人体及目标人体对应的人体关键点。

基于上述交互式关键点检测方法，本实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现如上述实施例所述的交互式关键点检测方法中的步骤。

基于上述交互式关键点检测方法，本申请还提供了一种终端设备，如图4所示，其包括至少一个处理器（processor）20；显示屏21；以及存储器（memory）22，还可以包括通信接口（Communications Interface）23和总线24。其中，处理器20、显示屏21、存储器22和通信接口23可以通过总线24完成相互间的通信。显示屏21设置为显示初始设置模式中预设的用户引导界面。通信接口23可以传输信息。处理器20可以调用存储器22中的逻辑指令，以执行上述实施例中的方法。

此外，上述的存储器22中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。

存储器22作为一种计算机可读存储介质，可设置为存储软件程序、计算机可执行程序，如本公开实施例中的方法对应的程序指令或模块。处理器20通过运行存储在存储器22中的软件程序、指令或模块，从而执行功能应用以及数据处理，即实现上述实施例中的方法。

存储器22可包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端设备的使用所创建的数据等。此外，存储器22可以包括高速随机存取存储器，还可以包括非易失性存储器。例如，U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等多种可以存储程序代码的介质，也可以是暂态存储介质。

此外，上述存储介质以及终端设备中的多条指令处理器加载并执行的具体过程在上述方法中已经详细说明，在这里就不再一一陈述。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修正操作，或者对其中部分技术特征进行等同替换；而这些修正或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种交互式关键点检测方法，其特征在于，所述方法包括：

获取包含人的目标图像的多尺度图像特征；

将所述多尺度图像特征、所述修正关键点查询序列和所述候选人体查询输入第一人体-关键点解码器，通过所述第一人体-关键点解码器确定目标人体查询和所述目标人体查询对应的目标关键点查询序列；

2.根据权利要求1所述交互式关键点检测方法，其特征在于，所述对所述候选关键点查询序列中的至少一个候选关键点查询进行修正操作，以得到修正关键点查询序列具体包括：

3.根据权利要求2所述交互式关键点检测方法，其特征在于，所述按照所述修正数据对待修正的候选关键点查询进行修正操作以得到修正关键点查询序列具体包括：

4.根据权利要求1-3任意一项所述交互式关键点检测方法，其特征在于，所述方法应用经过训练的关键点检测模型，其中，在所述关键点检测模型的训练过程中，所述关键点检测模型对应的初始网络模型的输入项还包括误差关键点查询序列，其中，所述误差关键点查询序列为基于训练图像的人体关键点标签形成的。

5.根据权利要求4所述交互式关键点检测方法，其特征在于，所述关键点检测模型的训练过程具体包括：

基于训练图像的人体关键点标签形成误差关键点查询序列；

6.根据权利要求5所述交互式关键点检测方法，其特征在于，所述基于所述误差关键点查询序列、所述训练图像、所述初始网络模型确定训练人体查询、训练关键点查询序列、第一预测关键点查询、预测人体查询和第二预测关键点查询序列具体包括：

7.根据权利要求6所述交互式关键点检测方法，其特征在于，所述将所述训练图像和所述误差关键点查询序列输入所述初始网络模型中的检测模块，通过所述检测模块输出所述训练图像对应的多尺度训练图像特征、训练人体查询、训练关键点查询序列以及第一预测关键点查询具体包括：

8.根据权利要求4所述交互式关键点检测方法，其特征在于，所述误差关键点查询序列的确定过程具体包括：

9.根据权利要求8所述交互式关键点检测方法，其特征在于，所述扰动误差用于改变关键点查询中的关键点位置，所述翻转误差用于改变关键点查询中的关键点特征的身体部位标签。

10.一种交互式关键点检测装置，其特征在于，所述装置包括：

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现如权利要求1-9任意一项所述的交互式关键点检测方法中的步骤。

12.一种终端设备，其特征在于，包括：处理器、存储器及通信总线；所述存储器上存储有可被所述处理器执行的计算机可读程序；

所述通信总线实现处理器和存储器之间的连接通信；

所述处理器执行所述计算机可读程序时实现如权利要求1-9任意一项所述的交互式关键点检测方法中的步骤。