CN111611903B

CN111611903B - 动作识别模型的训练方法、使用方法、装置、设备和介质

Info

Publication number: CN111611903B
Application number: CN202010415119.0A
Authority: CN
Inventors: 卢子鹏; 王健; 迟至真; 孙昊; 文石磊; 丁二锐; 章宏武
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-05-15
Filing date: 2020-05-15
Publication date: 2021-10-26
Anticipated expiration: 2040-05-15
Also published as: CN111611903A

Abstract

本申请实施例公开了一种动作识别模型的训练方法、使用方法、装置、设备和介质，涉及人工智能领域。其中，该动作识别模型的训练方法包括：获取至少一张样本动作图像，并确定样本动作图像上的人体二维关键点；利用三维关键点预测模型，预测人体二维关键点对应的人体三维关键点；利用人体二维关键点和人体三维关键点，训练动作识别模型。本申请实施例可以实现基于人体动作图像，低成本、高效地得到人体三维关键点，从而提高动作识别模型的训练准确性，提高动作识别的准确性。

Description

动作识别模型的训练方法、使用方法、装置、设备和介质

技术领域

本申请实施例涉及计算机技术，具体涉及人工智能，尤其涉及一种动作识别模型的训练方法、使用方法、装置、设备和介质。

背景技术

当前，基于人体关键点的动作识别系统绝大部分是基于二维(2D)人体关键点进行动作预测，具体处理流程包括：读入特定时长的动作视频，对每一帧RGB图片进行二维人体关键点预测，然后将每一帧RGB图片的二维人体关键点，输入预先基于二维人体关键点训练得到的动作识别模型，从而识别人体动作。

由于二维人体关键点相比于三维人体关键点缺失了部分结构化信息，导致基于二维人体关键点训练得到的动作识别模型的准确性相对较低。然而，动作视频帧通常为RGB图片，目前无法便捷、高效地对RGB图片进行三维人体关键点标注，进而导致如何提升动作识别模型的训练准确性仍是亟待解决的问题。

发明内容

本申请实施例公开一种动作识别模型的训练方法、使用方法、装置、设备和介质，以实现基于人体动作图像，低成本、高效地得到人体三维关键点，从而提高动作识别模型的训练准确性，提高动作识别的准确性。

第一方面，本申请实施例公开了一种动作识别模型的训练方法，包括：

获取至少一张样本动作图像，并确定所述样本动作图像上的人体二维关键点；

利用三维关键点预测模型，预测所述人体二维关键点对应的人体三维关键点；

利用所述人体二维关键点和所述人体三维关键点，训练动作识别模型。

第二方面，本申请实施例还公开了一种动作识别模型的使用方法，所述动作识别模型采用本申请实施例所公开的任意动作识别模型的训练方法训练得到，所述使用方法包括：

获取至少一张待识别的人体动作图像，并确定所述人体动作图像上的人体二维关键点；

基于所述人体二维关键点和所述人体三维关键点，利用所述动作识别模型，识别所述至少一张待识别的人体动作图像对应的人体动作。

第三方面，本申请实施例还公开了一种动作识别模型的训练装置，包括：

二维关键点提取模块，用于获取至少一张样本动作图像，并确定所述样本动作图像上的人体二维关键点；

三维关键点预测模块，用于利用三维关键点预测模型，预测所述人体二维关键点对应的人体三维关键点；

模型训练模块，用于利用所述人体二维关键点和所述人体三维关键点，训练动作识别模型。

第四方面，本申请实施例还公开了一种动作识别模型的使用装置，所述动作识别模型预先采用本申请实施例所公开的任意动作识别模型的训练方法训练得到，所述使用装置包括：

二维关键点提取模块，用于获取至少一张待识别的人体动作图像，并确定所述人体动作图像上的人体二维关键点；

动作识别模块，用于基于所述人体二维关键点和所述人体三维关键点，利用所述动作识别模型，识别所述至少一张待识别的人体动作图像对应的人体动作。

第五方面，本申请实施例还公开了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如本申请实施例任一所述的动作识别模型的训练方法，或者执行如本申请实施例任一所述的动作识别模型的使用方法。

第六方面，本申请实施例还公开了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行如本申请实施例任一所述的动作识别模型的训练方法，或者执行如本申请实施例任一所述的动作识别模型的使用方法。

根据本申请实施例的技术方案，通过利用三维关键点预测模型，预测样本动作图像上人体二维关键点对应的人体三维关键点，并综合利用人体二维关键点和人体三维关键点，训练动作识别模型，然后将该动作识别模型用于人体动作识别过程中，实现了基于人体动作图像，低成本、高效地得到人体三维关键点，从而提高了动作识别模型的训练准确性，提高了动作识别的准确性。

应当理解，本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征，也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1是根据本申请实施例公开的一种动作识别模型的训练方法的流程图；

图2是根据本申请实施例公开的另一种动作识别模型的训练方法的流程图；

图3是根据本申请实施例公开的另一种动作识别模型的训练方法的流程图；

图4是根据本申请实施例公开的另一种动作识别模型的训练方法的流程图；

图5是根据本申请实施例公开的一种动作识别模型的使用方法的流程图；

图6是根据本申请实施例公开的另一种动作识别模型的使用方法的流程图；

图7是根据本申请实施例公开的一种动作识别模型的训练装置的结构示意图；

图8是根据本申请实施例公开的一种动作识别模型的使用装置的结构示意图；

图9是根据本申请实施例公开的一种电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

图1是根据本申请实施例公开的一种动作识别模型的训练方法的流程图，本申请实施例可以适用于如何训练动作识别模型的情况，尤其是针对不同的业务场景，如何训练得到针对该业务场景的动作识别模型。本申请实施例公开的训练方法可以由动作识别模型的训练装置来执行，该训练装置可以采用软件和/或硬件实现，并可集成在任意的具有计算能力的电子设备上，例如服务器等。

如图1所示，本申请实施例公开的动作识别模型的训练方法可以包括：

S101、获取至少一张样本动作图像，并确定样本动作图像上的人体二维关键点。

其中，至少一张样本动作图像可以是对样本动作视频进行数据处理后得到的一系列视频帧，例如RGB图像。考虑具有动作识别需求的不同业务场景之间的差异，样本动作视频可以是针对具体业务场景而预先采集的特定时长的视频，从而可以通过对样本动作视频帧进行二维和三维人体关键点预测，训练得到符合具体业务场景的动作识别模型。

关于样本动作图像上的人体二维关键点的确定，可以利用任意可用的人体二维关键点提取或标注方式实现，包括人工标注和自动化标注，本申请实施例不作具体限定。

示例性的，确定样本动作图像上的人体二维关键点，包括：利用二维关键点预测模型，提取样本动作图像上的人体二维关键点。进一步的，在利用二维关键点预测模型，提取样本动作图像上的人体二维关键点之前，本申请实施例公开的训练方法还可以包括：利用第二公开数据集，训练得到二维关键点预测模型；其中，第二公开数据集中包括不同人体姿态下的离散化的人体图像以及与该人体图像对应的人体二维公开关键点。第二公开数据集包括但不限于COCO数据集等现有的已经标注好二维关键点的数据集。

二维关键点预测模型可以采用自上而下的人体检测以及单人关键点预测的流程提取样本动作图像上的人体二维关键点。其中，人体检测可以采用yoloV3模型，单人关键点预测可以采用深度残差网络模型，例如resnent50，作为神经网络模型(backbone)。在确保关键点提取合理的基础上，利用二维关键点预测模型产生的人体二维关键点的数量本申请实施例不作具体限定，例如可以包括头部、脖子、左肩、左肘、左腕、右肩、右肘、右腕、左髋、左膝、左脚、右髋、右膝以及右脚在内的共14个二维关键点，覆盖人体动作表现最具特征的关键部位。

通过利用公开数据集训练得到二维关键点预测模型，可以省去预测模型训练之前进行二维关键点提取或标注的操作，提高预测模型训练的效率，进而提高确定样本动作图像上人体二维关键点的准确性和便利性。

S102、利用三维关键点预测模型，预测人体二维关键点对应的人体三维关键点。

三维关键点预测模型是预先训练的用于预测任意人体姿态下人体二维关键点对应的三维关键点的模型，在确保可以准确、便捷得到样本动作图像上的人体三维关键点的基础上，本申请实施例对三维关键点预测模型的训练过程不作具体限定。三维关键点预测模型训练过程中使用的人体三维关键点可以是采用特定手段、借助特定的关键点标注设备来获取。

示例性的，在利用三维关键点预测模型，预测人体二维关键点对应的人体三维关键点之前，本申请实施例公开的训练方法还可以包括：利用第一公开数据集，训练得到三维关键点预测模型；其中，第一公开数据集中包括不同人体姿态下的离散化的人体图像以及与该人体图像对应的人体三维公开关键点。第一公开数据集包括但不限于Human3.6M数据集等公开可用的三维数据集。Human3.6M数据集是利用4个数字摄像机，1个时间传感器，以及10个运动摄像机捕获17个动作场景而采集得到。Human3.6M数据集作为一种公开化的三维数据集，其中人体图像上的人体姿态具有较高的泛化性，并不能直接适用于针对具体业务场景的动作识别模型的训练中，否则将会导致训练得到的动作识别模型不准确。

三维关键点预测模型可以基于语义图卷积神经网络(Semantic GraphConvolutional Networks，SemGCN)训练得到。同样的，在确保关键点提取合理的基础上，利用三维关键点预测模型产生的人体三维关键点的数量本申请实施例也不作具体限定，例如可以包括头部、脖子、左肩、左肘、左腕、右肩、右肘、右腕、脊椎中点、左髋、左膝、左脚、右髋、右膝、右脚以及左右髋中点在内的共16个三维关键点。

在本申请实施例中，第一公开数据集中图像上的人体三维关键点标注具体较高的准确性、权威性，因此，利用第一公开数据集训练得到的三维关键点预测模型具有较高的预测准确性，确保了样本动作图像对应的人体三维关键点的预测准确性，为训练准确的动作识别模型奠定了基础，同时也提高了针对任意动作图像预测对应的人体三维关键点的便利性，无需额外借助专门的硬件设备，节省了人体三维关键点的标注成本，即可以高效、低成本地构建动作识别模型训练所需的人体三维关键点，进而减少了训练准确的动作识别模型的成本。

需要说明的是，在本申请实施例中出现的“第一”、“第二”等类似用词，不带有任何顺序上的限定含义，只是发挥用词区分的作用。例如第一公开数据集和第二公开数据集，作为数据集本身不带有任何顺序上的限定，只是用于区分三维关键点预测模型和二维关键点预测模型在训练过程中使用的不同公开数据集。

S103、利用人体二维关键点和人体三维关键点，训练动作识别模型。

即在得到样本动作图像上的人体二维关键点以及对应的人体三维关键点之后，便可以同时利用该二维和三维关键点，基于已有的动作识别模型训练原理，训练出针对不同业务场景的动作识别模型，实现对不同人体动作的分类。

人体三维关键点相比于人体二维关键点增加了深度维度，更加具有结构化信息，将两者同时用于动作识别模型训练过程中，可以基于更加全面的特征信息，极大提高动作识别模型的训练准确性，确保后续动作识别的准确性。

在上述技术方案的基础上，进一步的，利用人体二维关键点和人体三维关键点，训练动作识别模型，包括：基于时空图卷积网络(Spatial Temporal Graph ConvolutionalNetworks，ST-GCN)模型，利用人体二维关键点和人体三维关键点，训练得到动作识别模型。

具体而言，本申请实施例可以将至少一张样本动作图像上的人体二维关键点以及对应的人体三维关键点同时作为时空图卷积网络模型输入，训练得到动作识别模型。示例性的，在本申请实施例中，时空图卷积网络模型的第一层网络结构可以表示为(N，C，T，V，M)，其中，N表示一次训练规模(batch)中的训练样本数目，例如可以是至少一张样本动作图像所对应的样本动作视频的数量；C表示模型训练过程中输入特征的维度数目，本申请实施例中输入特征可以包括人体二维关键点特征(x，y)、人体三维关键点特征(x，y，z)、以及各关键点对应的预测评分(score)在内的一共6维特征，因此C可以取值为6，其中关键点对应的预测评分可以由对应的预测模型在输出关键点的同时进行输出；T表示一个样本动作视频中的帧数；V表示每张样本动作图像(或称为视频帧)上的关键点的数目，可以根据实际情况进行设置，例如，本申请实施例中针对人体二维关键点和人体三维关键点，均可以对应人体部位：头部、脖子、左肩、左肘、左腕、右肩、右肘、右腕、左髋、左膝、左脚、右髋、右膝和右脚，因此，每张样本动作图像上的人体二维关键点以及对应的人体三维关键点均可以分别为14个关键点，即V可以取值为14；M表示每张样本动作图像上包括的人数，可以适应性设置，一般可以选择平均置信度最高的值，即M取值为2，默认每张样本动作图像可以包括2个人。当时空图卷积网络模型的第一层网络结构确定之后，便可以借鉴时空图卷积网络模型的通用实现原理，训练得到动作识别模型。

根据本申请实施例的技术方案，通过利用三维关键点预测模型，预测样本动作图像上人体二维关键点对应的人体三维关键点，并综合利用人体二维关键点和人体三维关键点，训练动作识别模型，然后将该动作识别模型用于人体动作识别过程中，实现了基于人体动作图像，低成本、高效地得到人体三维关键点的效果，从而提高了动作识别模型的训练准确性，提高了动作识别的准确性，解决了现有基于二维人体关键点训练的动作识别模型准确性较低的问题；并且，利用本申请实施例的技术方案，针对不同的业务场景，基于该业务场景下的样本动作图像，可以便捷、高效地构建用于动作识别模型训练的人体三维关键点，无需额外借助专门的硬件设备进行人体三维关键点标注，解决了目前针对不同业务场景下动作图像上的人体三维关键点标注成本较高的问题，减少了训练准确的动作识别模型的成本。

此外，在上述技术方案的基础上，参与动作识别模型训练过程的数据还可以包括辅助训练数据集，辅助训练数据集中包括辅助动作图像以及该辅助动作图像上的人体二维标注关键点。辅助训练数据集可以包括但不限于kinetics数据集等可以用于动作识别模型训练的公开数据集。可以利用三维关键点预测模型，同时预测人体二维关键点对应的人体三维关键点、以及人体二维标注关键点所对应的人体三维标注关键点，然后将人体二维关键点、人体三维关键点、人体二维标注关键点和人体三维标注关键点，综合用于动作识别模型的训练过程中。示例性的，首先利用人体二维标注关键点和人体三维标注关键点，训练候选动作识别模型；然后，利用人体二维关键点和人体三维关键点，对候选动作识别模型进行调整，得到目标动作识别模型。

其中，对候选动作识别模型进行调整的实现，可以参考模型训练微调整(finetue)的实现原理。候选动作识别模型相当于一个较为通用的动作识别模型，利用至少一张样本动作图像(相当于针对具体业务场景的业务数据集)上的人体二维关键点以及对应的人体三维关键点，对其进行调整，可以使得候选动作识别模型有针对性的适配当前具体业务场景，并且通过结合辅助训练数据集和业务数据集进行分步式的动作识别模型训练，可以提高动作识别模型训练的效率和精度。如果具体业务场景发生变化，可以通过变更业务数据集，即变更样本动作图像，迅速得到当前业务场景下样本动作图像上的人体二维关键点以及对应的人体三维关键点，进而对候选动作识别模型进行调整，便可得到针对当前业务场景的动作识别模型。

图2是根据本申请实施例公开的另一种动作识别模型的训练方法的流程图，基于上述技术方案进一步优化与扩展，并可以与上述各个可选实施方式进行结合。如图2所示，该方法可以包括：

S201、获取至少一张样本动作图像，并确定样本动作图像上的人体二维关键点。

S202、遍历样本动作图像上的人体二维关键点，确定人体二维关键点中的缺失关键点。

缺失关键点是指按照预先设定的关键点类型，任意样本动作图像上的人体二维关键点中所缺少的关键点。在确定样本动作图像上的人体二维关键点的同时，可以确定每个人体二维关键点对应的人体部位标签。遍历样本动作图像上的人体二维关键点，基于关键点对应的人体部位标签，便可以确定人体二维关键点中的缺失关键点，例如某张样本动作图像上的人体二维关键点中，缺失了右腕对应的二维关键点。

S203、利用人体二维关键点中与缺失关键点的距离满足第一距离阈值的目标关键点、以及第一预设距离，对缺失关键点进行补全。

S204、利用三维关键点预测模型，预测缺失关键点补全后的人体二维关键点所对应的人体三维关键点。

S205、利用人体二维关键点和人体三维关键点，训练动作识别模型。

在本申请实施例中，通过计算样本动作图像上确定的人体二维关键点与缺失关键点的距离，并根据计算的距离与第一距离阈值的关系，可以确定样本图像上与缺失关键点相邻近的关键点，即目标关键点，例如头部连接颈部，左肩连接左肘，左肘连接左腕，那么头部和颈部、左肩和左肘、左肘和左腕就是一对相邻近的关键点；然后根据缺失关键点的邻近关键点以及第一预设距离，自动化补充缺失的关键点，确保了样本动作图像上人体二维关键点的提取全面性，进而确保了后续预测的人体三维关键点的全面性，即确保了用于动作识别模型训练的训练数据的构建准确性，为训练准确的动作识别模型奠定了基础。

其中，第一预设距离与人体二维关键点中相邻关键点之间的距离有关，可以通过统计样本动作图像上人体二维关键点中相邻关键点之间距离变化规律，进行合理取值，以确保缺失关键点补全的准确性。第一距离阈值的具体取值也可以合理化设置，本申请实施例不作具体限定。

可选的，利用人体二维关键点中与缺失关键点的距离满足第一距离阈值的目标关键点、以及第一预设距离，对缺失关键点进行补全，包括：

确定人体二维关键点中相邻关键点之间的距离平均值；

利用人体二维关键点中与缺失关键点的距离满足第一距离阈值的目标关键点的图像坐标、以及距离平均值，确定缺失关键点的图像坐标。

示例性的，可以在目标关键点的图像坐标上加上距离平均值与设定权重的乘积，得到缺失关键点的图像坐标。例如，可以根据样本图像上确定的各个人体二维关键点对应的图像坐标，计算任意相邻近的关键点对之间的距离D_n，然后对多个相邻近的关键点对之间的距离求平均，得到距离平均值Davg，具体可以表示为：

Davg＝(D₁+D₂+…+D_n)/n，其中，n为整数；

假设样本动作图像上人体二维关键点中与缺失关键点的距离满足第一距离阈值的目标关键点的图像坐标表示为(x_n，y_n)，缺失关键点的图像坐标表示为(x，y)，则缺失关键点的图像坐标(x，y)可以表示如下：

(x，y)＝(x_n+q₁·Davg，y_n+q₂·Davg)，其中，q₁和q₂为预先设置的权重，根据缺失关键点对应的人体部位的不同，q₁和q₂取值可以动态设置，即针对不同的人体部位，q₁和q₂可以取不同的值；并且，针对同一人体部位，q₁和q₂可以取相同的值，也可以取不同的值，从而确保达到准确补充缺失关键点的效果，符合人体结构规律，确保用于动作识别模型训练的训练数据的构建准确性，为训练准确的动作识别模型奠定基础。此外，根据图像坐标系中原点以及坐标轴正向的设置，权重q可以携带正号或者负号，以保证缺失关键点的图像坐标(x，y)的确定合理性、正确性。

示例性的，如果通过调整第一距离阈值的取值，针对每个缺失关键点，确定的目标关键点为2个，意味着样本动作图像上人体二维关键点中与该缺失关键点相邻近的关键点确定为2个，则利用人体二维关键点中与缺失关键点的距离满足第一距离阈值的目标关键点的图像坐标、以及距离平均值，确定缺失关键点的图像坐标，可以包括：

计算两个目标关键点之间的距离，即可以根据两个目标关键点的图像坐标计算两者的距离；

根据两个目标关键点的图像坐标的差值，以及两个目标关键点之间的距离，计算得到单位坐标；

根据两个目标关键点中与缺失关键点最近邻的关键点的图像坐标、单位坐标、以及距离平均值，确定缺失关键点的图像坐标。

假设样本动作图像上人体二维关键点中与缺失关键点的距离满足第一距离阈值的两个目标关键点的图像坐标分别表示为(x₁，y₁)、(x₂，y₂)，且(x₂，y₂)为与缺失关键点最近邻的目标关键点，基于图像坐标可以确定两个目标关键点之间的距离为d，则单位坐标可以表示为：(x_i，x_i)＝(x₂-x₁，y₂-y₁)/d，进而缺失关键点的图像坐标可以表示为：(x，y)＝(x₂，y₂)+(x_i，x_i)·Davg。利用上述方式确定缺失关键点的图像坐标，可以达到准确补充缺失关键点的效果，从而确保了用于动作识别模型训练的训练数据的构建准确性，为训练准确的动作识别模型奠定了基础。

示例一：如果样本动作图像上缺失左、右腕对应的二维关键点，并且左右肘对应的二维关键点都存在的情况下，可以通过左肩和左肘对应的二维关键点图像坐标计算两点之间的单位坐标(x_i，x_i)，结合相邻关键点平均距离Davg以及左肘对应的二维关键点图像坐标，估计左腕对应的二维关键点位置。同理，可以通过右肩和右肘对应的二维关键点估计右腕对应的二维关键点。

示例二：如果样本动作图像上缺失左、右脚对应的二维关键点，并且左右膝对应的二维关键点都存在的情况下，可以通过左髋和左膝对应的二维关键点图像坐标计算两点之间的单位坐标(x_i，x_i)，结合相邻关键点平均距离Davg以及左膝对应的二维关键点图像坐标，估计左脚对应的二维关键点位置。同理，可以通过右髋和右膝对应的二维关键点估计右脚对应的二维关键点。

除了上述所示例的关于缺失关键点的补全方案外，还可以根据与缺失关键点相邻近的两个目标关键点的图像坐标，通过计算两个图像坐标的中心坐标(即中点)的方式，确定缺失关键点的图像坐标。例如，根据左髋、右髋对应的二维关键点图像坐标，计算左右髋中点；根据左肩、右肩对应的二维关键点图像坐标，计算左右肩中点；根据左右髋中点、左右肩中点计算得到脊椎中点；如果缺失颈部关键点，可通过头部对应的二维关键点、以及左右肩中点对应的二维关键点之间的中点进行估计；如果缺失左、右肘对应的二维关键点并且左右腕对应的关键点都存在的情况下，左肘对应的二维关键点可以通过左腕对应的二维关键点、以及左肩对应的二维关键点之间的中点进行估计，右肘对应的二维关键点可以通过右腕对应的二维关键点、以及右肩对应的二维关键点之间的中点进行估计；如果缺失左、右膝对应的二维关键点并且左右脚对应的二维关键点都存在的情况下，左膝对应的二维关键点可以通过左脚对应的二维关键点、以及左髋对应的二维关键点之间的中点进行估计，右膝对应的二维关键点可以通过右脚对应的二维关键点、以及右髋关键点之间的中点进行估计。即在本申请实施例中，缺失关键点的补全方案可以根据缺失关键点对应的人体部位，进行灵活采用。

在上述技术方案的基础上，可选的，在遍历样本动作图像上的人体二维关键点，确定人体二维关键点中的缺失关键点之后，本申请实施例公开的训练方法还可以包括：如果样本动作图像上的人体二维关键点中，不存在与缺失关键点的距离满足第一距离阈值的目标关键点，则将缺失关键点的图像坐标确定为0。进一步的，本申请实施例公开的训练方法还可以包括：统计人体二维关键点中缺失关键点的数量，如果统计的数量超过数量阈值，则将当前样本动作图像上的人体二维关键点丢弃，即当前样本动作图像上的人体二维关键点不再参与动作识别模型的训练过程中，从而避免不完整的人体二维关键点数据对动作识别模型的训练准确性的影响。其中，数量阈值可以适应性设置，例如可以设置为4。并且，需要说明的，在完整的人体基本架构中，对应头部、左肩、右肩、左髋以及右髋的关键点是必要关键点，因此，在遍历样本动作图像上的人体二维关键点之后，如果确定对应头部、左肩、右肩、左髋以及右髋的二维关键点中存在至少一个缺失，则可以直接将该样本动作图像上的人体二维关键点丢弃，换言之，上述缺失关键点的补全处理需要在确保对应头部、左肩、右肩、左髋以及右髋的二维关键点存在的基础上实现。

根据本申请实施例的技术方案，确定样本动作图像上的人体二维关键点之后，首先对人体二维关键点进行检测，确定出缺失关键点并进行缺失关键点的自动化补全，确保了用于动作识别模型训练的训练数据的构建准确性；然后利用三维关键点预测模型，预测缺失关键点补全后的人体二维关键点所对应的人体三维关键点，实现了基于人体动作图像，低成本、高效地得到人体三维关键点的效果；最后综合利用人体二维关键点和人体三维关键点，训练动作识别模型，提高了动作识别模型的训练准确性，提高了动作识别的准确性，解决了现有基于二维人体关键点训练的动作识别模型准确性较低的问题；并且，利用本申请实施例的技术方案，针对不同的业务场景，基于该业务场景下的样本动作图像，可以便捷、高效地构建用于动作识别模型训练的人体三维关键点，无需额外借助专门的硬件设备进行人体三维关键点标注，解决了目前针对不同业务场景下动作图像上的人体三维关键点标注成本较高的问题，减少了训练准确的动作识别模型的成本。

图3是根据本申请实施例公开的另一种动作识别模型的训练方法的流程图，基于上述技术方案进一步优化与扩展，并可以与上述各个可选实施方式进行结合。可选的，参与动作识别模型训练过程的数据还包括辅助训练数据集，辅助训练数据集中包括辅助动作图像以及该辅助动作图像上的人体二维标注关键点。其中，针对辅助训练数据集，可以采用与样本动作图像相同的缺失关键点补全方案，对辅助训练数据集中的缺失标注关键点进行补全处理，以下未详细解释的内容，可以参考上述实施方式中的解释。辅助训练数据集可以包括但不限于kinetics数据集等可以用于动作识别模型训练的公开数据集。

如图3所示，该方法可以包括：

S301、获取至少一张样本动作图像，并确定样本动作图像上的人体二维关键点。

S302、遍历样本动作图像上的人体二维关键点，确定人体二维关键点中的缺失关键点。

S303、利用人体二维关键点中与缺失关键点的距离满足第一距离阈值的目标关键点、以及第一预设距离，对缺失关键点进行补全。

其中，第一预设距离与人体二维关键点中相邻关键点之间的距离有关。

S304、利用三维关键点预测模型，预测缺失关键点补全后的人体二维关键点所对应的人体三维关键点。

S305、遍历辅助动作图像上的人体二维标注关键点，确定人体二维标注关键点中的缺失标注关键点。

缺失标注关键点是指按照预先设定的关键点类型，任意辅助动作图像上的人体二维标注关键点中所缺少的关键点。通过遍历辅助动作图像上的人体二维标注关键点，基于关键点对应的人体部位标签，便可以确定人体二维标注关键点中的缺失标注关键点。

S306、利用人体二维标注关键点中与缺失标注关键点的距离满足第二距离阈值的目标关键点、以及第二预设距离，对缺失标注关键点进行补全。

其中，第二预设距离与人体二维标注关键点中相邻标注关键点之间的距离有关，可以通过统计辅助动作图像上人体二维标注关键点中相邻标注关键点之间距离变化规律，进行合理取值，以确保缺失标注关键点补全的准确性。第二距离阈值的具体取值也可以合理化设置，本申请实施例不作具体限定。

可选的，利用人体二维标注关键点中与缺失标注关键点的距离满足第二距离阈值的目标关键点、以及第二预设距离，对缺失标注关键点进行补全，包括：

确定人体二维标注关键点中相邻标注关键点之间的距离平均值；

利用人体二维标注关键点中与缺失标注关键点的距离满足第二距离阈值的目标关键点的图像坐标、以及距离平均值，确定缺失标注关键点的图像坐标。

示例性的，可以在目标关键点的图像坐标上加上距离平均值与设定标注权重的乘积，得到缺失标注关键点的图像坐标。设定标注权重针对图像坐标的两个分量，可以包括两个权重分量。针对不同人体部位的关键点，设定标注权重的两个分量可以动态设置；并且，针对同一人体部位的关键点，设定标注权重的两个分量可以取相同的值，也可以取不同的值；从而确保达到准确补充缺失标注关键点的效果，符合人体结构规律，确保用于动作识别模型训练的训练数据的构建准确性，为训练准确的动作识别模型奠定基础。

示例性的，如果通过调整第二距离阈值的取值，针对每个缺失标注关键点，确定的目标关键点为2个，意味着辅助动作图像上人体二维标注关键点中与该缺失标注关键点相邻近的标注关键点确定为2个，则利用人体二维标注关键点中与缺失标注关键点的距离满足第二距离阈值的目标关键点的图像坐标、以及距离平均值，确定缺失标注关键点的图像坐标，可以包括：

根据两个目标关键点中与缺失标注关键点最近邻的标注关键点的图像坐标、单位坐标、以及距离平均值，确定缺失标注关键点的图像坐标。

上述关于缺失标注关键点的补全处理，可以参照前述实施例中关于样本动作图像上人体二维关键点中缺失关键点的补全处理的解释，两者属于相同的实现逻辑。需要说明的，在完整的人体基本架构中，对应头部、左肩、右肩、左髋以及右髋的关键点是必要关键点，因此，在遍历辅助动作图像上的人体二维标注关键点之后，如果确定对应头部、左肩、右肩、左髋以及右髋的二维标注关键点中存在至少一个缺失，则可以直接将该辅助动作图像上的人体二维标注关键点丢弃，换言之，上述缺失标注关键点的补全处理需要在确保对应头部、左肩、右肩、左髋以及右髋的二维标注关键点存在的基础上实现。

需要说明的是，上述提及的第一距离阈值、第二距离阈值、第一预设距离以及第二预设距离，不带有任何顺序上的限定，只是针对不同的图像处理对象，进行阈值之间的区分表述。并且，第一距离阈值和第二距离阈值，可以取相同的值，也可以取不同的值，具体根据处理需求而定，本申请实施例不作具体限定，同理，第一预设距离和第二预设距离，也采用与前述相同的取值原则。

S307、利用三维关键点预测模型，预测缺失标注关键点补全后的人体二维标注关键点所对应的人体三维标注关键点。

S308、利用人体二维关键点、人体三维关键点、人体二维标注关键点和人体三维标注关键点，训练动作识别模型。

在得到动作识别模型的训练数据后，可以基于已有的动作识别模型训练原理，训练出针对不同业务场景的动作识别模型。

根据本申请实施例的技术方案，通过对样本动作图像上人体二维关键点进行检测，以及对辅助训练数据集中辅助动作图像上的人体二维标注关键点进行检测，分别确定出缺失的关键点，并自动化补全缺失的关键点，确保了用于动作识别模型训练的训练数据的构建准确性；然后利用三维关键点预测模型，预测关键点补全后的人体二维关键点和人体二维标注关键点各自所对应的三维关键点，实现了基于人体动作图像，低成本、高效地得到人体三维关键点的效果，无需额外借助专门的硬件设备进行人体三维关键点标注，减少了训练准确的动作识别模型的成本；最后综合利用样本动作图像上的人体二维关键点和对应的三维关键点、以及辅助动作图像上的人体二维标注关键点和对应的人体三维标注关键点，训练动作识别模型，提高了动作识别模型的训练准确性，提高了动作识别的准确性，解决了现有基于二维人体关键点训练的动作识别模型准确性较低的问题。

在上述技术方案的基础上，示例性的，利用人体二维关键点、人体三维关键点、人体二维标注关键点和人体三维标注关键点，训练动作识别模型，包括：

利用人体二维标注关键点和人体三维标注关键点，训练候选动作识别模型；

利用人体二维关键点和人体三维关键点，对候选动作识别模型进行调整，得到目标动作识别模型。

图4是根据本申请实施例公开的另一种动作识别模型的训练方法的流程图，如图4所示，在前期准备阶段，首先利用第一公开数据集(例如Human3.6M数据集)训练得到三维关键点预测模型，利用第二公开数据集(利用COCO数据集)训练得到二维关键点预测模型；然后，利用二维关键点预测模型生成二维业务数据(即得到针对具体业务场景下动作图像上的人体二维关键点)；其次，对二维业务数据以及二维辅助训练数据(例如kinetics数据集)进行预处理，例如缺失关键点补全处理，利用三维关键点预测模型预测得到缺失关键点补全处理后的二维业务数据以及二维辅助训练数据，分别对应的三维业务数据以及三维辅助训练数据(即得到对应的三维的人体关键点)；最后，利用二维和三维辅助训练数据训练得到候选动作识别模型，利用二维和三维业务数据对候选动作识别模型进行调整，得到目标动作识别模型，将目标动作识别模型用于具体业务场景下的动作识别过程中。

图5是根据本申请实施例公开的一种动作识别模型的使用方法的流程图，本申请实施例可以适用于如何进行人体动作识别的情况，该使用装置可以采用软件和/或硬件实现，并可集成在任意的具有计算能力的电子设备上，例如服务器等。

本申请实施例中的动作识别模型可以采用本申请实施例中任意公开的动作识别模型的训练方法预先训练得到，具体可以参考本申请实施例中关于训练方法的详细解释。并且，本申请实施例中关于动作识别模型的使用方法和训练方法属于相同的发明构思，关于动作识别模型的使用方法实施例中未详细解释的内容，可以参考关于动作识别模型的训练方法实施例中的解释。

如图5所示，本申请实施例公开的动作识别模型的使用方法可以包括：

S501、获取至少一张待识别的人体动作图像，并确定人体动作图像上的人体二维关键点。

至少一张待识别的人体动作图像可以是对待识别的动作视频进行数据处理后得到的一系列视频帧。关于待识别的人体动作图像上的人体二维关键点的确定，可以利用任意可用的人体二维关键点提取或标注方式实现，包括人工标注和自动化标注，本申请实施例不作具体限定。示例性的，确定人体动作图像上的人体二维关键点，包括：利用二维关键点预测模型，提取人体动作图像上的人体二维关键点，从而提高人体动作图像上人体二维关键点提取的准确性和便利性。

S502、利用三维关键点预测模型，预测人体二维关键点对应的人体三维关键点。

S503、基于人体二维关键点和人体三维关键点，利用动作识别模型，识别至少一张待识别的人体动作图像对应的人体动作。

根据本申请实施例的技术方案，通过在动作识别过程中，利用三维关键点预测模型，预测待识别的人体动作图像上人体二维关键点对应的人体三维关键点，并用于动作识别过程中，实现了基于人体动作图像，低成本、高效地得到人体三维关键点的效果，无需额外借助专门的硬件设备进行人体三维关键点标注，减少了三维关键点标注的成本，提高了动作识别的准确性，解决了现有动作识别准确性较低的问题。

图6是根据本申请实施例公开的另一种动作识别模型的使用方法的流程图，基于上述技术方案进一步优化与扩展，并可以与上述各个可选实施方式进行结合。如图6所示，该方法可以包括：

S601、获取至少一张待识别的人体动作图像，并确定人体动作图像上的人体二维关键点。

S602、遍历人体动作图像上的人体二维关键点，确定人体二维关键点中的缺失关键点。

此处的缺失关键点是指在动作识别过程中，按照预先设定的关键点类型，任意待识别的人体动作图像上人体二维关键点中所缺少的关键点。

S603、利用人体二维关键点中与缺失关键点的距离满足预设距离阈值的目标关键点、以及预设补全距离，对缺失关键点进行补全。

其中，预设补全距离与待识别的人体动作图像上人体二维关键点中相邻关键点之间的距离有关，可以通过统计待识别的人体动作图像上人体二维关键点中相邻关键点之间距离变化规律，进行合理取值，以确保缺失关键点补全的准确性。关于预设距离阈值和预设补全距离的具体取值，本申请实施例不作具体限定。

可选的，利用人体二维关键点中与缺失关键点的距离满足预设距离阈值的目标关键点、以及预设补全距离，对缺失关键点进行补全，包括：

确定人体二维关键点中相邻关键点之间的距离平均值；

利用人体二维关键点中与缺失关键点的距离满足预设距离阈值的目标关键点的图像坐标、以及距离平均值，确定缺失关键点的图像坐标。

示例性的，可以在目标关键点的图像坐标上加上距离平均值与设定权重的乘积，得到缺失关键点的图像坐标。该设定权重针对图像坐标的两个分量，可以包括两个权重分量。针对不同人体部位的关键点，设定权重的两个分量可以动态设置；并且，针对同一人体部位的关键点，设定权重的两个分量可以取相同的值，也可以取不同的值；从而确保达到准确补充缺失标注关键点的效果，符合人体结构规律，进而可以基于完整的人体二维关键点和人体三维关键点，确保人体动作识别结果的准确性。

进一步的，如果确定待识别的人体动作图像上人体二维关键点中与缺失关键点的距离满足预设距离阈值的目标关键点为两个，则上述利用人体二维关键点中与缺失关键点的距离满足预设距离阈值的目标关键点的图像坐标、以及距离平均值，确定缺失关键点的图像坐标，包括：

计算两个目标关键点之间的距离；

在动作识别模型的使用过程中，针对待识别的人体动作图像，关于缺失关键点的补全处理，可以参照动作识别模型的训练过程中关于样本动作图像上人体二维关键点中缺失关键点的补全处理的解释，两者属于相同的实现逻辑。

S604、利用三维关键点预测模型，预测缺失关键点补全后的人体二维关键点所对应的人体三维关键点；

S605、基于人体二维关键点和人体三维关键点，利用动作识别模型，识别至少一张待识别的人体动作图像对应的人体动作。

根据本申请实施例的技术方案，确定待识别的人体动作图像上的人体二维关键点之后，首先对人体二维关键点进行检测，确定出缺失关键点并进行缺失关键点的自动化补全，确保了动作识别过程中二维关键点的完整性，为得到准确的人体动作识别结果奠定了数据基础；然后利用三维关键点预测模型，预测缺失关键点补全后的人体二维关键点所对应的人体三维关键点，实现了基于人体动作图像，低成本、高效地得到人体三维关键点的效果；最后综合利用人体二维关键点和人体三维关键点，进行动作识别，解决了现有动作识别准确性较低的问题，提高了动作识别的准确性。

在上述技术方案的基础上，可选的，在遍历待识别的人体动作图像上的人体二维关键点，确定人体二维关键点中的缺失关键点之后，本申请实施例公开的使用方法还可以包括：如果人体动作图像上的人体二维关键点中，不存在与缺失关键点的距离满足预设距离阈值的目标关键点，则将缺失关键点的图像坐标确定为0。进一步的，本申请实施例公开的使用方法还可以包括：统计人体二维关键点中缺失关键点的数量，如果统计的数量超过数量阈值，则将当前待识别的人体动作图像上的人体二维关键点丢弃，即当前待识别的人体动作图像上的人体二维关键点不再参与动作识别过程中，从而避免不完整的人体二维关键点数据对动作识别准确性的影响。其中，数量阈值可以适应性设置，例如可以设置为4。并且，需要说明的，在完整的人体基本架构中，对应头部、左肩、右肩、左髋以及右髋的关键点是必要关键点，因此，在遍历待识别的人体动作图像上的人体二维关键点之后，如果确定对应头部、左肩、右肩、左髋以及右髋的二维关键点中存在至少一个缺失，则可以直接将该待识别的人体动作图像上的人体二维标注关键点丢弃，换言之，上述缺失关键点的补全处理需要在确保对应头部、左肩、右肩、左髋以及右髋的二维关键点存在的基础上实现。

图7是根据本申请实施例公开的一种动作识别模型的训练装置的结构示意图，本申请实施例可以适用于如何训练动作识别模型的情况，该训练装置可以采用软件和/或硬件实现，并可集成在任意的具有计算能力的电子设备上，例如服务器等。

如图7所示，本申请实施例公开的动作识别模型的训练装置700可以包括二维关键点提取模块701、三维关键点预测模块702和模型训练模块703，其中：

二维关键点提取模块701，用于获取至少一张样本动作图像，并确定样本动作图像上的人体二维关键点；

三维关键点预测模块702，用于利用三维关键点预测模型，预测人体二维关键点对应的人体三维关键点；

模型训练模块703，用于利用人体二维关键点和人体三维关键点，训练动作识别模型。

可选的，本申请实施例公开的训练装置还包括：

第一预测模型训练模块，用于在三维关键点预测模块702执行利用三维关键点预测模型，预测人体二维关键点对应的人体三维关键点的操作之前，利用第一公开数据集，训练得到三维关键点预测模型；

其中，第一公开数据集中包括人体图像以及与该人体图像对应的人体三维公开关键点。

可选的，模型训练模块703具体用于：

基于时空图卷积网络模型，利用人体二维关键点和人体三维关键点，训练得到动作识别模型。

可选的，本申请实施例公开的训练装置还包括：

缺失关键点确定模块，用于在三维关键点预测模块702执行利用三维关键点预测模型，预测人体二维关键点对应的人体三维关键点的操作之前，遍历样本动作图像上的人体二维关键点，确定人体二维关键点中的缺失关键点；

缺失关键点补全模块，用于利用人体二维关键点中与缺失关键点的距离满足第一距离阈值的目标关键点、以及第一预设距离，对缺失关键点进行补全；

可选的，缺失关键点补全模块包括：

距离平均值确定单元，用于确定人体二维关键点中相邻关键点之间的距离平均值；

缺失关键点补全单元，用于利用人体二维关键点中与缺失关键点的距离满足第一距离阈值的目标关键点的图像坐标、以及距离平均值，确定缺失关键点的图像坐标。

可选的，如果确定人体二维关键点中与缺失关键点的距离满足第一距离阈值的目标关键点为两个，则缺失关键点补全单元包括：

距离计算子单元，用于计算两个目标关键点之间的距离；

单位坐标计算子单元，用于根据两个目标关键点的图像坐标的差值，以及两个目标关键点之间的距离，计算得到单位坐标；

图像坐标确定子单元，用于根据两个目标关键点中与缺失关键点最近邻的关键点的图像坐标、单位坐标、以及距离平均值，确定缺失关键点的图像坐标。

可选的，参与动作识别模型训练过程的数据还包括辅助训练数据集，辅助训练数据集中包括辅助动作图像以及该辅助动作图像上的人体二维标注关键点；

相应的，本申请实施例公开的训练装置还包括：

缺失标注关键点确定模块，用于遍历辅助动作图像上的人体二维标注关键点，确定人体二维标注关键点中的缺失标注关键点；

缺失标注关键点补全模块，用利用人体二维标注关键点中与缺失标注关键点的距离满足第二距离阈值的目标关键点、以及第二预设距离，对缺失标注关键点进行补全；其中，第二预设距离与人体二维标注关键点中相邻标注关键点之间的距离有关；

三维标注关键点预测模块，用于利用三维关键点预测模型，预测缺失标注关键点补全后的人体二维标注关键点所对应的人体三维标注关键点；

相应的，模型训练模块703具体用于：

利用人体二维关键点、人体三维关键点、人体二维标注关键点和人体三维标注关键点，训练动作识别模型。

可选的，模型训练模块703包括：

候选动作识别模型训练单元，用于利用人体二维标注关键点和人体三维标注关键点，训练候选动作识别模型；

目标动作识别模型训练单元，用于利用人体二维关键点和人体三维关键点，对候选动作识别模型进行调整，得到目标动作识别模型。

可选的，二维关键点提取模块701包括：

动作图像获取单元，用于获取至少一张样本动作图像；

二维关键点提取单元，用于利用二维关键点预测模型，提取样本动作图像上的人体二维关键点。

可选的，本申请实施例公开的训练装置还包括：

第二预测模型训练模块，用于在二维关键点提取单元执行利用二维关键点预测模型，提取样本动作图像上的人体二维关键点的操作之前，利用第二公开数据集，训练得到二维关键点预测模型；

其中，第二公开数据集中包括人体图像以及与该人体图像对应的人体二维公开关键点。

本申请实施例所公开的动作识别模型的训练装置700可执行本申请实施例所公开的任一动作识别模型的训练方法，具备执行方法相应的功能模块和有益效果。本申请装置实施例中未详尽描述的内容可以参考本申请任意方法实施例中的描述。

图8是根据本申请实施例公开的一种动作识别模型的使用装置的结构示意图，本申请实施例可以适用于如何进行人体动作识别的情况，该使用装置可以采用软件和/或硬件实现，并可集成在任意的具有计算能力的电子设备上，例如服务器等。

本申请实施例中的动作识别模型可以预先采用本申请实施例中任意公开的动作识别模型的训练方法训练得到，具体可以参考本申请实施例中关于训练方法的详细解释。

如图8所示，本申请实施例公开的动作识别模型的使用装置800可以包括二维关键点提取模块801、三维关键点预测模块802和动作识别模块803，其中：

二维关键点提取模块801，用于获取至少一张待识别的人体动作图像，并确定人体动作图像上的人体二维关键点；

三维关键点预测模块802，用于利用三维关键点预测模型，预测人体二维关键点对应的人体三维关键点；

动作识别模块803，用于基于人体二维关键点和人体三维关键点，利用动作识别模型，识别至少一张待识别的人体动作图像对应的人体动作。

可选的，本申请实施例公开的使用装置还包括：

缺失关键点确定模块，用于在三维关键点预测模块802执行利用三维关键点预测模型，预测人体二维关键点对应的人体三维关键点的操作之前，遍历人体动作图像上的人体二维关键点，确定人体二维关键点中的缺失关键点；

缺失关键点补全模块，用于利用人体二维关键点中与缺失关键点的距离满足预设距离阈值的目标关键点、以及预设补全距离，对缺失关键点进行补全；

其中，预设补全距离与人体二维关键点中相邻关键点之间的距离有关。

可选的，缺失关键点补全模块包括：

缺失关键点补全单元，用于利用人体二维关键点中与缺失关键点的距离满足预设距离阈值的目标关键点的图像坐标、以及距离平均值，确定缺失关键点的图像坐标。

可选的，如果确定人体二维关键点中与缺失关键点的距离满足预设距离阈值的目标关键点为两个，则缺失关键点补全单元包括：

距离计算子单元，用于计算两个目标关键点之间的距离；

可选的，二维关键点提取模块801具体用于：

利用二维关键点预测模型，提取人体动作图像上的人体二维关键点。

本申请实施例所公开的动作识别模型的使用装置800可执行本申请实施例所公开的任一动作识别模型的使用方法，具备执行方法相应的功能模块和有益效果。本申请装置实施例中未详尽描述的内容可以参考本申请任意方法实施例中的描述。

根据本申请的实施例，本申请实施例还提供了一种电子设备和一种可读存储介质。

如图9所示，图9是用于实现本申请实施例中动作识别模型的训练方法或者动作识别模型的使用方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请实施例的实现。

如图9所示，该电子设备包括：一个或多个处理器901、存储器902，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示图形用户界面(Graphical User Interface，GUI)的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作，例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统。图9中以一个处理器901为例。

存储器902即为本申请实施例所提供的非瞬时计算机可读存储介质。其中，存储器存储有可由至少一个处理器执行的指令，以使至少一个处理器执行本申请实施例所提供的动作识别模型的训练方法或者动作识别模型的使用方法。本申请实施例的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请实施例所提供的动作识别模型的训练方法或者动作识别模型的使用方法。

存储器902作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中动作识别模型的训练方法或者动作识别模型的使用方法对应的程序指令/模块，例如，附图7所示的二维关键点提取模块701、三维关键点预测模块702和模型训练模块703，或者，附图8所示的二维关键点提取模块801、三维关键点预测模块802和动作识别模块803。处理器901通过运行存储在存储器902中的非瞬时软件程序、指令以及模块，从而执行电子设备的各种功能应用以及数据处理，即实现上述方法实施例中的动作识别模型的训练方法或者动作识别模型的使用方法。

存储器902可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据电子设备的使用所创建的数据等。此外，存储器902可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器902可选包括相对于处理器901远程设置的存储器，这些远程存储器可以通过网络连接至用于实现本实施例中动作识别模型的训练方法或者动作识别模型的使用方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

用于实现本申请实施例中动作识别模型的训练方法或者动作识别模型的使用方法的电子设备还可以包括：输入装置903和输出装置904。处理器901、存储器902、输入装置903和输出装置904可以通过总线或者其他方式连接，图9中以通过总线连接为例。

输入装置903可接收输入的数字或字符信息，以及产生与用于实现本实施例中动作识别模型的训练方法或者动作识别模型的使用方法的电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置904可以包括显示设备、辅助照明装置和触觉反馈装置等，其中，辅助照明装置例如发光二极管(Light Emitting Diode，LED)；触觉反馈装置例如，振动电机等。该显示设备可以包括但不限于，液晶显示器(Liquid CrystalDisplay，LCD)、LED显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用集成电路(Application Specific Integrated Circuit，ASIC)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序，也称作程序、软件、软件应用、或者代码，包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置，例如，磁盘、光盘、存储器、可编程逻辑装置(Programmable Logic Device，PLD)，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置，例如，阴极射线管(Cathode Ray Tube，CRT)或者LCD监视器；以及键盘和指向装置，例如，鼠标或者轨迹球，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈，例如，视觉反馈、听觉反馈、或者触觉反馈；并且可以用任何形式，包括声输入、语音输入或者、触觉输入，来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统，例如，作为数据服务器，或者实施在包括中间件部件的计算系统，例如，应用服务器，或者实施在包括前端部件的计算系统，例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互，或者实施在包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信，例如通信网络，来将系统的部件相互连接。通信网络的示例包括：局域网(Local Area Network，LAN)、广域网(Wide Area Network，WAN)、和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种动作识别模型的训练方法，其特征在于，包括：

利用人体二维标注关键点和人体三维标注关键点，训练候选动作识别模型；利用所述人体二维关键点和人体三维关键点，对所述候选动作识别模型进行调整，得到最终的动作识别模型，其中，所述二维标注关键点是辅助训练数据集中包括的辅助动作图像上的人体二维标注关键点，所述人体三维标注关键点是利用所述三维关键点预测模型预测的所述人体二维标注关键点对应的人体三维关键点；

在所述利用三维关键点预测模型，预测所述人体二维关键点对应的人体三维关键点之前，所述方法还包括：

利用第一公开数据集，训练得到所述三维关键点预测模型；

其中，所述第一公开数据集中包括人体图像以及与该人体图像对应的人体三维公开关键点。

2.根据权利要求1所述的方法，其特征在于，利用所述人体二维标注关键点和所述人体三维标注关键点，训练所述候选动作识别模型，包括：

基于时空图卷积网络模型，利用所述人体二维标注关键点和所述人体三维标注关键点，训练得到所述候选动作识别模型。

3.根据权利要求1所述的方法，其特征在于，在所述利用三维关键点预测模型，预测所述人体二维关键点对应的人体三维关键点之前，所述方法还包括：

遍历所述样本动作图像上的人体二维关键点，确定所述人体二维关键点中的缺失关键点；

利用所述人体二维关键点中与所述缺失关键点的距离满足第一距离阈值的目标关键点、以及第一预设距离，对所述缺失关键点进行补全；

其中，所述第一预设距离与所述人体二维关键点中相邻关键点之间的距离有关。

4.根据权利要求3所述的方法，其特征在于，利用所述人体二维关键点中与所述缺失关键点的距离满足第一距离阈值的目标关键点、以及第一预设距离，对所述缺失关键点进行补全，包括：

确定所述人体二维关键点中相邻关键点之间的距离平均值；

利用所述人体二维关键点中与所述缺失关键点的距离满足所述第一距离阈值的目标关键点的图像坐标、以及所述距离平均值，确定所述缺失关键点的图像坐标。

5.根据权利要求4所述的方法，其特征在于，如果确定所述人体二维关键点中与所述缺失关键点的距离满足所述第一距离阈值的目标关键点为两个，则利用所述人体二维关键点中与所述缺失关键点的距离满足所述第一距离阈值的目标关键点的图像坐标、以及所述距离平均值，确定所述缺失关键点的图像坐标，包括：

计算两个目标关键点之间的距离；

根据所述两个目标关键点的图像坐标的差值，以及所述两个目标关键点之间的距离，计算得到单位坐标；

根据所述两个目标关键点中与所述缺失关键点最近邻的关键点的图像坐标、所述单位坐标、以及所述距离平均值，确定所述缺失关键点的图像坐标。

6.根据权利要求3所述的方法，其特征在于，所述方法还包括：

遍历所述辅助动作图像上的人体二维标注关键点，确定所述人体二维标注关键点中的缺失标注关键点；

利用所述人体二维标注关键点中与所述缺失标注关键点的距离满足第二距离阈值的目标关键点、以及第二预设距离，对所述缺失标注关键点进行补全；其中，所述第二预设距离与所述人体二维标注关键点中相邻标注关键点之间的距离有关；

利用所述三维关键点预测模型，预测缺失标注关键点补全后的人体二维标注关键点所对应的人体三维标注关键点。

7.根据权利要求1所述的方法，其特征在于，确定所述样本动作图像上的人体二维关键点，包括：

利用二维关键点预测模型，提取所述样本动作图像上的人体二维关键点。

8.根据权利要求7所述的方法，其特征在于，在所述利用二维关键点预测模型，提取所述样本动作图像上的人体二维关键点之前，所述方法还包括：

利用第二公开数据集，训练得到所述二维关键点预测模型；

其中，所述第二公开数据集中包括人体图像以及与该人体图像对应的人体二维公开关键点。

9.一种动作识别模型的使用方法，其特征在于，所述动作识别模型预先采用权利要求1-8中任一项所述的动作识别模型的训练方法训练得到，所述使用方法包括：

10.根据权利要求9所述的方法，其特征在于，在所述利用三维关键点预测模型，预测所述人体二维关键点对应的人体三维关键点之前，所述方法还包括：

遍历所述人体动作图像上的人体二维关键点，确定所述人体二维关键点中的缺失关键点；

利用所述人体二维关键点中与所述缺失关键点的距离满足预设距离阈值的目标关键点、以及预设补全距离，对所述缺失关键点进行补全；

其中，所述预设补全距离与所述人体二维关键点中相邻关键点之间的距离有关。

11.根据权利要求10所述的方法，其特征在于，利用所述人体二维关键点中与所述缺失关键点的距离满足预设距离阈值的目标关键点、以及预设补全距离，对所述缺失关键点进行补全，包括：

确定所述人体二维关键点中相邻关键点之间的距离平均值；

利用所述人体二维关键点中与所述缺失关键点的距离满足所述预设距离阈值的目标关键点的图像坐标、以及所述距离平均值，确定所述缺失关键点的图像坐标。

12.根据权利要求11所述的方法，其特征在于，如果确定所述人体二维关键点中与所述缺失关键点的距离满足所述预设距离阈值的目标关键点为两个，则利用所述人体二维关键点中与所述缺失关键点的距离满足所述预设距离阈值的目标关键点的图像坐标、以及所述距离平均值，确定所述缺失关键点的图像坐标，包括：

计算两个目标关键点之间的距离；

13.根据权利要求9所述的方法，其特征在于，确定所述人体动作图像上的人体二维关键点，包括：

利用二维关键点预测模型，提取所述人体动作图像上的人体二维关键点。

14.一种动作识别模型的训练装置，其特征在于，包括：

模型训练模块，用于利用人体二维标注关键点和人体三维标注关键点，训练候选动作识别模型；利用所述人体二维关键点和人体三维关键点，对所述候选动作识别模型进行调整，得到最终的动作识别模型，其中，所述二维标注关键点是辅助训练数据集中包括的辅助动作图像上的人体二维标注关键点，所述人体三维标注关键点是利用所述三维关键点预测模型预测的所述人体二维标注关键点对应的人体三维关键点；

所述训练装置还包括：

第一预测模型训练模块，用于在所述三维关键点预测模块执行利用三维关键点预测模型，预测人体二维关键点对应的人体三维关键点的操作之前，利用第一公开数据集，训练得到三维关键点预测模型；其中，第一公开数据集中包括人体图像以及与该人体图像对应的人体三维公开关键点。

15.一种动作识别模型的使用装置，其特征在于，所述动作识别模型预先采用权利要求1-8中任一项所述的动作识别模型的训练方法训练得到，所述使用装置包括：

16.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-8中任一项所述的动作识别模型的训练方法，或者执行权利要求9-13中任一项所述的动作识别模型的使用方法。

17.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行权利要求1-8中任一项所述的动作识别模型的训练方法，或者执行权利要求9-13中任一项所述的动作识别模型的使用方法。