CN113822254A

CN113822254A - 一种模型训练方法及相关装置

Info

Publication number: CN113822254A
Application number: CN202111398623.5A
Authority: CN
Inventors: 温少国; 王君乐; 许子潇
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-11-24
Filing date: 2021-11-24
Publication date: 2021-12-21
Anticipated expiration: 2041-11-24
Also published as: WO2023093244A1; EP4390728A1; US20230290003A1; CN113822254B

Abstract

本申请实施例公开了一种人工智能领域的模型训练方法及相关装置，其中该方法包括：通过m个参考对象关键点检测模型分别对目标训练图像进行对象关键点检测处理，得到m个包括目标训练图像中多个对象关键部位各自对应的关键点的预测位置的关键点检测结果；针对每个对象关键部位，根据m个关键点检测结果中该对象关键部位对应的关键点的预测位置，确定该对象关键部位是否为目标对象关键部位；若是，则确定该目标对象关键部位对应的标注位置；将目标训练图像以及其中各目标对象关键部位各自对应的标注位置作为训练样本；基于训练样本，训练目标对象关键点检测模型。该方法能够提高所训练的目标对象关键点检测模型的性能。

Description

一种模型训练方法及相关装置

技术领域

本申请涉及人工智能技术领域，尤其涉及一种模型训练方法及相关装置。

背景技术

人体关键点检测技术又被称为人体姿态估计技术，该技术用于识别图像中人体骨骼上重要关节点（例如鼻子、左右眼、左右耳、左右肩、左右肘、左右腕、左右臀、左右膝、左右脚踝等）的位置。人体关键点检测技术如今在很多场景中被广泛应用；例如，在体感游戏场景中，人体关键点检测技术用于检测玩家的肢体动作变化，以便后续根据检测结果执行相应的游戏逻辑。

人体关键点检测技术的实现主要依靠人体关键点检测模型，即通过人体关键点检测模型，根据输入的图像确定其中人体骨骼上重要关节点的位置。在实际应用中，由于标注人体关键点数据非常耗时费力，难以标注出充足的用于训练人体关键点检测模型的训练数据，并且为了保证人体关键点的检测效率，实际投入使用的人体关键点检测模型也不能太复杂；因此，相关技术训练实际投入使用的人体关键点检测模型时，通常先利用结构复杂、且性能较优的人体关键点检测模型，针对未标注的图像进行人体关键点检测处理，确定该图像中人体关键点的位置作为该图像的伪标签，进而，将该图像及其伪标签作为训练样本，利用该训练样本对需要实际投入使用的、结构较简单的人体关键点检测模型进行训练。

然而，即使是结构复杂的人体关键点检测模型，其模型性能也存在局限，难以保证所确定的伪标签的准确度，即通过上述方式生成的伪标签通常存在很多噪声。相应地，利用包括此种伪标签的训练样本训练需要投入实际使用的人体关键点检测模型，将会影响所训练的人体关键点检测模型的性能。

发明内容

本申请实施例提供了一种模型训练方法及相关装置，能够提高所确定的伪标签的准确度，进而提高基于包括该伪标签的训练样本训练的人体关键点检测模型的性能。

有鉴于此，本申请第一方面提供了一种模型训练方法，所述方法包括：

通过m个参考对象关键点检测模型，分别对目标训练图像进行对象关键点检测处理，得到所述m个参考对象关键点检测模型各自对应的关键点检测结果；所述关键点检测结果包括所述目标训练图像中多个对象关键部位各自对应的关键点的预测位置；所述m为大于1的整数；

针对每个所述对象关键部位，根据所述m个关键点检测结果中所述对象关键部位对应的关键点的预测位置，确定所述对象关键部位是否为目标对象关键部位；若是，则根据所述m个关键点检测结果中所述目标对象关键部位对应的关键点的预测位置，确定所述目标对象关键部位对应的标注位置；

将所述目标训练图像及其对应的关键点标注结果，作为训练样本；所述关键点标注结果包括各所述目标对象关键部位各自对应的标注位置；

基于所述训练样本，训练目标对象关键点检测模型。

本申请第二方面提供了一种模型训练装置，所述装置包括：

关键点检测模块，用于通过m个参考对象关键点检测模型，分别对目标训练图像进行对象关键点检测处理，得到所述m个参考对象关键点检测模型各自对应的关键点检测结果；所述关键点检测结果包括所述目标训练图像中多个对象关键部位各自对应的关键点的预测位置；所述m为大于1的整数；

部位标注模块，用于针对每个所述对象关键部位，根据所述m个关键点检测结果中所述对象关键部位对应的关键点的预测位置，确定所述对象关键部位是否为目标对象关键部位；若是，则根据所述m个关键点检测结果中所述目标对象关键部位对应的关键点的预测位置，确定所述目标对象关键部位对应的标注位置；

样本生成模块，用于将所述目标训练图像及其对应的关键点标注结果，作为训练样本；所述关键点标注结果包括各所述目标对象关键部位各自对应的标注位置；

模型训练模块，用于基于所述训练样本，训练目标对象关键点检测模型。

本申请第三方面提供了一种计算机设备，所述设备包括处理器以及存储器：

所述存储器用于存储计算机程序；

所述处理器用于根据所述计算机程序，执行如上述第一方面所述的模型训练方法的步骤。

本申请第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质用于存储计算机程序，所述计算机程序用于执行上述第一方面所述的模型训练方法的步骤。

本申请第五方面提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述第一方面所述的模型训练方法的步骤。

从以上技术方案可以看出，本申请实施例具有以下优点：

本申请实施例提供了一种模型训练方法，该方法生成用于训练需要投入实际应用的目标对象关键点检测模型的训练样本时，会通过m（m为大于1的整数）个参考对象关键点检测模型，分别对目标训练图像进行对象关键点检测处理，得到m个参考对象关键点检测模型各自对应的关键点检测结果，此处每个关键点检测结果包括目标训练图像中多个对象关键部位各自对应的关键点的预测位置。然后，基于各关键点检测结果中相同的对象关键部位的预测位置应基本一致的原理，针对每个对象关键部位，根据各个关键点检测结果中该对象关键部位对应的关键点的预测位置，衡量各个参考对象关键点检测模型对于该对象关键部位的位置预测结果是否可靠，即确定该对象关键部位是否为目标对象关键部位；在确定各个参考对象关键点检测模型对于该对象关键部位的位置预测结果可靠的情况下，再进一步确定该目标对象关键部位对应的标注位置即伪标签；进而，利用该目标训练图像以及其中各目标对象关键部位各自对应的标注位置组成训练样本；如此，忽略位置预测结果不可靠的对象关键部位，仅利用位置预测结果可靠的对象关键部位对应的标注位置作为伪标签，能够有效地减少所确定的伪标签中存在的噪声，提高该伪标签的准确度。相应地，基于包括该种伪标签的训练样本，训练需要投入实际应用、结构比较简单的目标对象关键点检测模型，能够在一定程度上保证所训练的目标对象关键点检测模型的性能。

附图说明

图1为本申请实施例提供的模型训练方法的应用场景示意图；

图2为本申请实施例提供的模型训练方法的流程示意图；

图3为本申请实施例提供的参考对象关键点检测模型的工作原理示意图；

图4为本申请实施例提供的目标对象关键点检测模型的训练流程示意图；

图5为本申请实施例提供的体感游戏的整体实现架构图；

图6为本申请实施例提供的应用在体感游戏中的人体关键点检测模型的训练架构示意图；

图7为本申请实施例提供的人体关键点检测模型的测试结果示意图；

图8为本申请实施例提供的一种模型训练装置的结构示意图；

图9为本申请实施例提供的另一种模型训练装置的结构示意图；

图10为本申请实施例提供的又一种模型训练装置的结构示意图；

图11为本申请实施例提供的终端设备的结构示意图；

图12为本申请实施例提供的服务器的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等（如果存在）是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

人工智能（Artificial Intelligence，AI）是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。

计算机视觉技术（Computer Vision，CV）是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建、自动驾驶、智慧交通等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

本申请实施例提供的方案涉及人工智能的计算机视觉技术，具体通过如下实施例进行说明：

相关技术中，直接将结构复杂的对象关键点检测模型对于未标注图像的关键点检测结果，作为该未标注图像对应的伪标签；进而，利用由该未标注图像及其对应的伪标签组成的训练样本，对结构简单、需要投入实际使用的对象关键点检测模型进行训练。通过该种方式生成的伪标签通常存在较多的噪声，准确度较低，而这将对所训练的对象关键点检测模型的模型性能产生负面影响。

为了解决上述相关技术存在的问题，本申请实施例提供了一种模型训练方法，在该模型训练方法中，先通过m（m为大于1的整数）个参考对象关键点检测模型，分别对目标训练图像进行对象关键点检测处理，得到m个参考对象关键点检测模型各自对应的关键点检测结果，此处的每个关键点检测结果包括目标训练图像中多个对象关键部位各自对应的关键点的预测位置。然后，针对每个对象关键部位，根据m个关键点检测结果中该对象关键部位对应的关键点的预测位置，确定该对象关键部位是否为目标对象关键部位；若是，则根据m个关键点检测结果中该目标对象关键部位对应的关键点的预测位置，确定该目标对象关键部位对应的标注位置。进而，利用该目标训练图像以及其中各目标对象关键部位各自对应的标注位置作为训练样本；并且基于该训练样本，训练需要投入实际应用的、结构较简单的目标对象关键点检测模型。

上述模型训练方法生成用于训练需要投入实际应用的目标对象关键点检测模型的训练样本时，会通过多个结构复杂的参考对象关键点检测模型分别对目标训练图像进行对象关键点检测处理，得到多个关键点检测结果。然后，基于各关键点检测结果中相同的对象关键部位的预测位置应基本一致的原理，针对每个对象关键部位，根据各个关键点检测结果中该对象关键部位对应的关键点的预测位置，衡量各个参考对象关键点检测模型对于该对象关键部位的位置预测结果是否可靠，即确定该对象关键部位是否为目标对象关键部位。在确定各个参考对象关键点检测模型对于该对象关键部位的位置预测结果可靠的情况下，再进一步确定该目标对象关键部位对应的标注位置即伪标签；进而，利用该目标训练图像以及其中各目标对象关键部位各自对应的标注位置组成训练样本。如此，忽略位置预测结果不可靠的对象关键部位，仅利用位置预测结果可靠的对象关键部位对应的标注位置作为伪标签，能够有效地减少所确定的伪标签中存在的噪声，提高该伪标签的准确度。相应地，基于包括该种伪标签的训练样本，训练需要投入实际应用、结构比较简单的目标对象关键点检测模型，能够在一定程度上保证所训练的目标对象关键点检测模型的性能。

应理解，本申请实施例提供的模型训练方法可以由具备图像处理能力的计算机设备执行，该计算机设备可以是终端设备或服务器。其中，终端设备具体可以为计算机、智能手机、平板电脑、个人数字助理（Personal Digital Assistant，PDA）等；服务器具体可以为应用服务器或Web服务器，在实际部署时，可以为独立服务器，也可以为由多个物理服务器构成的集群服务器或云服务器。本申请实施例涉及的处理数据（如训练图像、关键点检测结果、关键点标注结果等）可以保存于区块链上。

为了便于理解本申请实施例提供的模型训练方法，下面以该模型训练方法的执行主体为服务器为例，对该模型训练方法的应用场景进行示例性介绍。

参见图1，图1为本申请实施例提供的模型训练方法的应用场景示意图。如图1所示，该应用场景中包括服务器110和数据库120，服务器110可以通过网络从数据库120中调取数据，或者数据库120也可以集成在服务器110中。其中，服务器110用于执行本申请实施例提供的模型训练方法，以训练需要投入实际应用的、结构较简单的目标对象关键点检测模型；数据库120用于存储未标注的训练图像。

在实际应用中，服务器110可以从数据库120中调取目标训练图像，该目标训练图像中包括待检测对象，该待检测对象上包括若干对象关键部位；例如，目标训练图像中可以包括清晰且完整的待检测人体。

然后，服务器110可以通过m（m为大于1的整数）个参考对象关键点检测模型，分别对所调取的目标训练图像进行对象关键点检测处理，得到m个参考对象关键点检测模型各自对应的关键点检测结果；此处的每个关键点检测结果中可以包括目标训练图像中多个对象关键部位各自对应的关键点的预测位置。需要说明的是，上述参考对象关键点检测模型是预先训练好的对象关键点检测模型，其通常能够较准确地检测出图像中待检测对象上各对象关键部位的位置，其模型结构通常比较复杂。

作为一种示例，上述各参考对象关键点检测模型可以是参考人体关键点检测模型，其用于检测人体骨骼上各重要关节的位置。相应地，通过各参考人体关键点检测模型分别对目标训练图像进行人体关键点检测处理，将得到各参考人体关键点检测模型各自对应的关键点检测结果，该关键点检测结果包括目标训练图像中待检测人体上各重要关节各自对应的关键点的预测位置。

接着，服务器110可以针对每个对象关键部位，根据这m个关键点检测结果中该对象关键部位对应的关键点的预测位置，评判这m个参考对象关键点检测模型对于该对象关键部位的位置预测结果是否可靠，即确定该对象关键部位是否为目标对象关键部位。若确定该对象关键部位为目标对象关键部位，则可以根据m个关键点检测结果中该目标对象关键部位对应的关键点的预测位置，确定该目标对象关键部位对应的标注位置。

应理解，不同的参考对象关键点检测模型对于目标训练图像中同一对象关键部位的位置预测结果应基本一致，即不同的参考对象关键点检测模型对于同一对象关键部位的预测位置彼此之间的距离应较小。若m个关键点检测结果中对于同一对象关键部位的预测位置彼此之间的距离较大，则说明这m个关键点检测结果中该对象关键部位对应的预测位置不可靠，可能存在较大的噪声；为了避免将此噪声引入后续的模型训练，可以忽略该对象关键部位，不基于m个关键点检测结果中对于该对象关键部位的预测位置，确定该对象关键部位对应的标注位置。反之，若m个关键点检测结果对于同一对象关键部位的预测位置彼此之间的距离较小，则说明这m个关键点检测结果中该对象关键部位对应的预测位置较可靠，相应地，可以将该对象关键部位视为目标对象关键部位，并根据m个关键点检测结果中该目标对象关键部位对应的预测位置，确定该目标对象关键部位对应的标注位置。

针对目标训练图像中各对象关键部位进行上述处理后，将得到目标训练图像中各目标对象关键部位各自对应的标注位置，然后可以利用该目标训练图像中各目标对象关键部位各自对应的标注位置，组成该目标训练图像对应的关键点标注结果，也即该目标训练图像对应的伪标签。进而，可以将目标训练图像及其对应的关键点标注结果作为训练样本。

进而，可以基于通过上述方式构建出的训练样本，训练目标对象关键点检测模型。该目标对象关键点检测模型是需要投入实际应用的对象关键点检测模型，例如，可以是应用在体感游戏中用于识别玩家肢体动作的人体关键点检测模型；考虑到实际应用中的对象关键点检测模型需要具有较高的检测效率，因此，通常设置模型结构较简单的对象关键点检测模型作为上述目标对象关键点检测模型。

应理解，图1所示的应用场景仅为示例，在实际应用中，本申请实施例提供的模型训练方法还可以应用于其它场景，在此不对本申请实施例提供的模型训练方法适用的应用场景做任何限定。

下面通过方法实施例对本申请提供的模型训练方法进行详细介绍。

参见图2，图2为本申请实施例提供的模型训练方法的流程示意图。为了便于描述，下述实施例仍以该模型训练方法的执行主体为服务器为例进行介绍。如图2所示，该模型训练方法包括以下步骤：

步骤201：通过m个参考对象关键点检测模型，分别对目标训练图像进行对象关键点检测处理，得到所述m个参考对象关键点检测模型各自对应的关键点检测结果；所述关键点检测结果包括所述目标训练图像中多个对象关键部位各自对应的关键点的预测位置；所述m为大于1的整数。

在本申请实施例中，服务器针对目标训练图像生成其对应的伪标签时，可以先通过m个参考对象关键点检测模型，分别对该目标训练图像进行对象关键点检测处理，得到这m个参考对象关键点检测模型各自对于该目标训练图像的关键点检测结果，即这m个参考对象关键点检测模型各自对应的关键点检测结果。此处，每个关键点检测结果中均包括目标训练图像中多个对象关键部位各自对应的关键点的预测位置。

需要说明的是，伪标签是半监督学习中常用的训练数据，通常情况下，可以通过性能更优的复杂模型对无标注数据进行处理，得到该无标注数据对应的伪标签，该伪标签可能是不准确的。在本申请实施例中，目标训练图像对应的伪标签，可以根据m个参考对象关键点检测模型对于该目标训练图像的关键点检测结果确定；本申请旨在通过一系列处理流程，对m个参考对象关键点检测模型对于该目标训练图像的关键点检测结果进行处理，得到能够较准确地反映该目标训练图像中对象关键部位位置的伪标签，从而便于提高基于包括该伪标签的训练样本训练的目标对象关键点检测模型的性能。

需要说明的是，参考对象关键点检测模型是预先训练好的用于检测图像中待检测对象上对象关键部位所处位置的模型，其通常能够较准确地检测出对象关键部位所处的位置；通常情况下，为了使得参考对象关键点检测模型能够较准确地检测对象关键部位的位置，会设置参考对象关键点检测模型具有比较复杂的模型结构。示例性的，上述各参考对象关键点检测模型可以为参考人体关键点检测模型，其用于检测图像中人体上各重要关节所处的位置，该参考人体关键点检测模型的关键点检测结果可以用于确定人体姿态。应理解，本申请实施例中的m个参考对象关键点检测模型，可以是基于相同的训练样本集训练得到的，也可以是基于不同的训练样本集训练得到的，本申请对此不做任何限定。

需要说明的是，目标训练图像是包括待检测对象的图像，其中的待检测对象上包括若干对象关键部位；此处的对象关键部位包括待检测对象上能够反映该待检测对象的姿态的部位。示例性的，该目标训练图像可以是包括清晰且完整的待检测人体的图像，该待检测人体上包括若干重要关节，如鼻子、左右眼、左右耳、左右肩、左右肘、左右腕、左右臀、左右膝、左右脚踝等。

需要说明的是，参考对象关键点检测模型对应的关键点检测结果，是通过该参考对象关键点检测模型对目标训练图像进行对象关键点检测处理得到的，该关键点检测结果中包括目标训练图像中待检测对象上各对象关键部位各自对应的关键点的预测位置。示例性的，假设目标训练图像是尺寸为H×W的图像，参考对象关键点检测模型对该目标训练图像进行对象关键点检测处理后，将输出尺寸为K×H×W的热力特征图，其中，K为所需检测的对象关键部位的数目，K×H×W的热力特征图中第k张热力特征图用于表示目标训练图像中第k个对象关键部位对应的关键点的预测位置。

在一种可能的实现方式中，服务器可以通过以下方式获得每个参考对象关键点检测模型对应的关键点检测结果：针对每个参考对象关键点检测模型，通过该参考对象关键点检测模型对目标训练图像进行对象关键点检测处理，以确定该目标训练图像中各像素点属于对象关键部位的置信度。然后，根据该目标训练图像中属于对象关键部位的置信度高于预设置信度阈值的像素点，确定该参考对象关键点检测模型对应的关键点检测结果。

具体的，图3所示为本申请实施例提供的一种参考对象关键点检测模型的工作原理示意图。如图3所示，服务器将尺寸为H×W的目标训练图像输入某参考对象关键点检测模型中后，该参考对象关键点检测模型通过对该目标训练图像进行分析处理，将相应地输出尺寸为K×H×W的热力特征图，该热力特征图本质上是由K张尺寸为H×W的热力特征图组成的，其中，每张尺寸为H×W的热力特征图包括目标训练图像中各个像素点属于该张热力特征图对应的对象关键部位的置信度，例如，在第k张尺寸为H×W的热力特征图中，每个像素点具有其对应的置信度，该置信度用于表征对应的像素点属于第k个对象关键部位的概率。

针对每张尺寸为H×W的热力特征图，服务器可以将其中所对应的置信度小于或等于预设置信度（如0.5）的像素点忽略，例如，直接将此类像素点对应的置信度调整为0，默认其不属于该张热力特征图对应的对象关键部位。仅根据所对应的置信度高于该预设置信度的像素点，确定该张热力特征图对应的对象关键部位的预测位置，例如，将此类像素点对应的置信度调整为1，默认其属于该张热力特征图对应的对象关键部位；相应地，该张热力特征图中所对应的置信度等于1的像素点的位置，即可反映该张热力特征图对应的对象关键部位的预测位置。如此，通过上述方式完成对K张尺寸为H×W的热力特征图的初筛处理后，可以将初筛处理后得到的尺寸为K×H×W的热力特征图，作为该参考对象检测模型对应的关键点检测结果。

如此，通过对参考对象关键点检测模型的实际检测结果进行预处理，得到该参考对象关键点检测模型对应的关键点检测结果，可以进一步减少关键点检测结果中的噪声，同时可以避免服务器后续对于此类噪声点进行不必要的处理，减少所需耗费的处理资源，并且还能够提高后续的处理效率。

步骤202：针对每个所述对象关键部位，根据所述m个关键点检测结果中所述对象关键部位对应的关键点的预测位置，确定所述对象关键部位是否为目标对象关键部位；若是，则根据所述m个关键点检测结果中所述目标对象关键部位对应的关键点的预测位置，确定所述目标对象关键部位对应的标注位置。

服务器获得m个参考对象关键点检测模型各自对应的关键点检测结果后，可以根据这m个关键点检测结果，评判m个参考对象关键点检测模型对各个对象关键部位的位置预测结果是否可靠。即，针对每个对象关键部位，服务器可以根据m个关键点检测结果中该对象关键部位对应的关键点的预测位置，确定该对象关键部位是否为目标对象关键部位；在确定该对象关键部位为目标对象关键部位的情况下，服务器可以进一步根据m个关键点检测结果中该目标对象关键部位对应的关键点的预测位置，确定该目标对象关键部位对应的标注位置；进而，服务器可以利用目标训练图像中各目标对象关键部位各自对应的标注位置，组成该目标训练图像对应的关键点标注结果。

从空间一致性的角度来看，不同的参考对象关键点检测模型对目标训练图像中同一对象关键部位的位置预测结果应基本一致，即不同的参考对象关键点检测模型对于同一对象关键部位的预测位置彼此之间距离较近。若m个关键点检测结果中同一对象关键部位对应的预测位置彼此之间距离较远，则说明这m个关键点检测结果中该对象关键部位对应的预测位置不可靠，可能存在较大的噪声；为了避免将此噪声引入后续的模型训练，本申请实施例选择忽略该对象关键部位，不基于m个关键点检测结果中该对象关键部位对应的预测位置确定该对象关键部位对应的标注位置，即不基于该对象关键部位生成目标训练图像对应的伪标签。反之，若m个关键点检测结果中同一对象关键部位对应的预测位置彼此之间距离较近，则说明这m个关键点检测结果中该对象关键部位对应的预测位置较可靠，相应地，可以将该对象关键部位视为目标对象关键部位，并根据m个关键点检测结果中该目标对象关键部位对应的预测位置，确定该目标对象关键部位对应的标注位置，后续也可基于该目标对象关键部位对应的标注位置确定目标训练图像对应的伪标签。

在一种可能的实现方式中，服务器可以通过以下方式评判m个参考对象关键点检测模型对每个对象关键部位的位置预测结果是否可靠，也即通过以下方式针对每个对象关键部位确定其是否为目标对象关键部位：根据m个关键点检测结果中该对象关键部位对应的关键点的预测位置，确定该对象关键部位对应的参考位置；然后，针对每个关键点检测结果，确定其中该对象关键部位对应的关键点的预测位置与该对象关键点对应的参考位置之间的距离，，并根据该距离，确定该关键点检测结果是否属于对象关键部位对应的目标关键点检测结果；进而，统计m个关键点检测结果中该对象关键部位对应的目标关键点检测结果的数量；若该对象关键部位对应的目标关键点检测结果的数量超过预设数量，则可以确定该对象关键部位为目标对象关键部位；若该对象关键部位对应的目标关键点检测结果的数量未超过预设数量，则可以确定该对象关键部位为非目标对象关键部位。

应理解，对象关键部位对应的关键点的预测位置，是参考对象关键点检测模型对目标训练图像进行对象关键点检测处理得到的，即是参考对象关键点检测模型输出的对象关键部位的位置预测结果。对象关键部位对应的参考位置，是根据多个参考对象关键点检测模型的关键点检测结果中该对象关键部位的位置预测结果确定的，例如，是对多个关键点检测结果中该对象关键部位对应的预测位置进行求平均处理得到的；其用于反映多个关键点检测结果中该对象关键部位对应的预测位置的分布情况。

为了便于理解上述实现过程，下面以针对对象关键部位“头部”确定其是否为目标对象关键部位为例，对上述实现过程进行示例性介绍。针对头部确定其是否属于目标对象关键部位时，服务器可以计算m个关键点检测结果中头部对应的关键点的预测位置的平均值，作为头部对应的参考位置；然后，以该头部对应的参考位置为中心，针对每个关键点检测结果，确定其中头部对应的关键点的预测位置与该参考位置之间的距离，并判断该距离是否小于第一预设距离（例如在对各位置进行归一化处理的情况下，该第一预设距离可以为0.1），若小于，则可以确定该关键点检测结果属于头部对应的目标关键点检测结果，反之，若不小于，则可以确定该关键点检测结果不属于头部对应的目标关键点检测结果；针对m个关键点检测结果均完成上述处理后，可以统计这m个关键点检测结果中头部对应的目标关键点检测结果的数量；若该头部对应的目标关键点检测结果的数量超过预设数量（例如m/2），则可以确定头部属于目标对象关键部位；反之，若该头部对应的目标关键点检测结果的数量没有超过预设数量，则可以确定头部属于非目标对象关键部位。

应理解，上述第一预设距离、预设数量等参数均可以根据实际需求设定，本申请在此不对其做任何限定。此外，上述确定对象关键部位对应的参考位置的实现方式、以及判断关键点检测结果是否属于对象关键部位对应的目标关键点检测结果的实现方式，也均可以根据实际需求设定，本申请在此也不对其做任何限定。

通过上述方式评判m个参考对象关键点检测模型对每个对象关键部位的位置预测结果是否可靠，可以保证评判结果的可靠性，有效地过滤掉可靠性较低的对象关键部位的位置预测结果。相应地，可以保证后续确定的目标训练图像对应的伪标签具有较高的可靠性，避免其中掺杂大量噪声。

在通过上述方式确定各对象关键部位是否为目标对象关键部位的情况下，服务器可以进一步通过以下方式确定目标对象关键部位对应的标注位置：针对目标对象关键部位对应的每个目标关键点检测结果，确定其中该目标对象关键部位对应的关键点的预测位置，作为该目标对象关键部位对应的目标预测位置；进而，根据该目标对象关键部位对应的各目标预测位置，确定该目标对象关键部位对应的标注位置。

示例性的，针对某目标对象关键部位，服务器可以获取该目标对象关键部位对应的各目标关键点检测结果中该目标对象关键部位对应的关键点的预测位置，作为该目标对象关键目标对应的目标预测位置。进而，服务器可以计算该目标对象关键部位对应的各目标预测位置的平均值，作为该目标对象关键部位对应的标注位置。

如此，仅根据目标对象关键部位对应的目标关键点检测结果中该目标对象关键部位的位置预测结果，确定该目标对象关键部位对应的标注位置，能够保证所确定的标注位置的准确性。

应理解，在实际应用中，服务器也可以采用其它方式确定目标对象关键部位对应的标注位置，例如，直接将目标对象关键部位对应的参考位置（即m个关键点检测结果中该目标对象关键部位对应的关键点的预测位置的均值）作为该目标对象关键部位对应的标注位置。本申请在此不对服务器确定目标对象关键部位对应的标注位置的方式做任何限定。

可选的，在目标训练图像为目标视频中的视频帧的情况下，服务器还可以从时序连贯性的角度出发，对上述目标对象关键部位进行进一步的评判，以确定是否保留上述目标对象关键部位。

即，服务器可以确定目标视频中与目标训练图像相邻的视频帧作为参考训练图像，并且获取该参考训练图像对应的关键点标注结果，该关键点标注结果中包括该参考训练图像中各目标对象关键部位各自对应的标注位置。然后，针对每个目标对象关键部位，确定其在目标训练图像对应的关键点标注结果中的标注位置为第一位置，确定其在参考训练图像对应的关键点标注结果中的标注位置为第二位置；根据该第一位置与该第二位置之间的距离，确定是否保留目标训练图像对应的关键点标注结果中的该第一位置、以及是否保留参考训练图像对应的关键点标注结果中的该第二位置。

在实际应用中，视频中相邻的视频帧之间不会存在很大的差异，这意味着相邻的视频帧中待检测对象上对象关键部位的变化幅度也不会很大，基于此，本申请实施例可以对视频中相邻的两个视频帧各自对应的关键点标注结果所涉及的目标对象关键部位做进一步评判处理。

具体的，服务器可以确定目标训练图像所属的目标视频，并确定该目标视频中与该目标训练图像相邻的视频帧作为参考训练图像，该参考训练图像可以是目标训练图像的前一个视频帧，也可以是目标训练图像的后一个视频帧。并且获取该参考训练图像对应的关键点标注结果，该参考训练图像对应的关键点标注结果的产生方式与上文介绍的目标训练图像对应的关键点标注结果的产生方式相同，该参考训练图像对应的关键点标注结果中包括该参考训练图像中各目标对象关键部位各自对应的标注位置。

针对目标训练图像和参考训练图像中的每个目标对象关键部位，服务器可以确定目标训练图像对应的关键点标注结果中该目标对象关键部位对应的标注位置作为第一位置，确定参考训练图像对应的关键点标注结果中该目标对象关键部位对应的标注位置作为第二位置；然后，计算该第一位置与第二位置之间的距离，并判断该距离是否小于第二预设距离（例如在对各位置进行归一化处理的情况下，该第二预设距离可以为0.2），若小于，则可以保留目标训练图像和参考训练图像各自对应的关键点标注结果中该目标对象关键部位对应的标注位置（即第一位置和第二位置），反之，若不小于，则可以剔除目标训练图像和参考训练图像各自对应的关键点标注结果中该目标对象关键部位对应的标注位置，即将该目标对象关键部位视为无效对象关键部位。

应理解，上述第二预设距离可以根据实际需求设定，本申请对此不做任何限定。

如此，通过上述方式，基于时序连贯性对目标对象关键部位做进一步的筛选处理，有助于提高所确定的关键点标注结果的准确性，可以进一步滤除关键点标注结果中可能存在的噪声。

步骤203：将所述目标训练图像及其对应的关键点标注结果，作为训练样本；所述关键点标注结果包括各所述目标对象关键部位各自对应的标注位置。

服务器通过上述方式得到目标训练图像对应的关键点标注结果（其中包括该目标训练图像中各目标对象关键部位各自对应的标注位置）后，即可利用该目标训练图像及其对应的关键点标注结果，组成用于训练需要投入实际应用的目标对象关键点检测模型的训练样本。应理解，此处的目标训练图像对应的关键点标注结果本质上即是该目标训练图像对应的伪标签。

步骤204：基于所述训练样本，训练目标对象关键点检测模型。

在实际应用中，服务器可以通过上述步骤201至步骤203生成大量的训练样本，进而，利用所生成的训练样本，训练需要投入实际应用的目标对象关键点检测模型。

需要说明的是，目标对象关键点检测模型是待训练的用于检测图像中待检测对象上对象关键部位所处位置的模型，其是需要投入实际应用的模型，通常情况下，为了保证实际应用中的检测效率，该目标对象关键点检测模型的模型结构通常比较简单，即该目标对象关键点检测模型的复杂度通常低于上述参考对象关键点检测模型的复杂度。示例性的，该目标对象关键点检测模型可以是应用在体感游戏中用于检测玩家肢体动作变化的模型，其用于对摄像头拍摄的图像中的人体进行重要关节点位置检测，以确定该人体的动作姿态。

在一种可能的实现方式中，服务器可以基于图4所示的流程，实现对于目标对象关键点检测模型的训练。如图4所示，服务器训练目标关键点检测模型时具体需要执行以下步骤：

步骤2041：通过所述目标对象关键点检测模型，对所述训练样本中的所述目标训练图像进行对象关键点检测处理，得到所述目标训练图像对应的训练关键点检测结果；所述训练关键点检测结果包括多个对象关键部位各自对应的关键点的训练预测位置。

服务器具体利用训练样本训练目标对象关键点检测模型时，可以将训练样本中的目标训练图像输入该目标对象关键点检测模型，该目标对象关键点检测模型通过对输入的目标训练图像进行分析处理，可以相应地输出该目标训练图像对应的训练关键点检测结果，该训练关键点检测结果中包括目标训练图像中多个对象关键部位各自对应的关键点的训练预测位置。

应理解，目标对象关键点检测模型与上文中参考对象关键点检测模型的工作原理基本相同，只是二者的模型结构存在区别，通常情况下，目标对象关键点检测模型的结构比参考对象关键点检测模型的结构更简单。基于此，目标对象关键点检测模型的工作原理也可以如图3所示，即将尺寸为H×W的目标训练图像输入目标对象关键点检测模型，该目标对象关键点检测模型通过处理该目标训练图像，输出的训练关键点检测结果应为尺寸为K×H×W的热力特征图，其中，第k张热力特征图y_k用于表征第k个对象关键部位对应的关键点的预测位置。

步骤2042：根据所述目标训练图像对应的训练关键点检测结果、以及所述训练样本中的所述关键点标注结果，构建目标损失函数。

服务器利用目标对象关键点检测模型对目标训练图像进行关键点检测处理，得到该目标训练图像对应的训练关键点检测结果后，可以根据该训练关键点检测结果和训练样本中的关键点标注结果间的差异，构建目标损失函数。

在一种可能的实现方式中，服务器可以通过以下方式构建目标损失函数：针对训练关键点检测结果中的每个关键点，判断该关键点对应的对象关键部位是否为关键点标注结果中的目标对象关键部位；若是，则根据该关键点对应的训练预测位置以及该关键点对应的目标对象关键部位的标注位置，构建该关键点对应的损失项，并且为该关键点对应的损失项配置对应的第一损失权重；若否，根据该关键点对应的训练预测位置，构建该关键点对应的损失项，并且为所述关键点对应的损失项配置对应的第二损失权重；此处的第一损失权重大于0，第二损失权重等于0。进而，根据训练关键点检测结果中各关键点各自对应的损失项及其对应的损失权重，构建目标损失函数。

根据对于步骤202的介绍内容可知，本申请实施例在确定目标训练图像对应的关键点标注结果时，会针对每个对象关键部位判断其是否为目标对象关键部位，并且仅确定目标对象关键部位对应的标注位置，仅利用目标对象关键部位对应的标注位置确定关键点标注结果。在此过程中，会忽略掉一些对象关键部位对应的关键点，虽然这些对象关键部位对应的关键点可能实际存在，但是本申请实施例通过一系列评判处理，认为这些对象关键部位对应的关键点并不可靠，因此，没有将其加入到目标训练图像对应的关键点标注结果中。为了避免构建目标损失函数时因误认为上述被忽略的对象关键部位对应的关键点实际是不存在的，而导致错误地梯度反向传播，影响所训练的目标对象关键点检测模型的性能，本申请实施例创新性地设计了带权重的平均平方误差（Mean squared Error，MSE）损失函数，作为目标损失函数。

具体的，针对训练关键点检测结果中的每个关键点，服务器可以先判断该关键点对应的对象关键部位是否为关键点标注结果中的某个目标对象关键部位，即判断该关键点标注结果中是否存在该关键点对应的对象关键部位的标注位置。若是，则服务器可以根据该关键点对应的训练预测位置与关键点标注结果中该关键点对应的对象关键部位的标注位置之间的差异，构建该关键点对应的损失项，同时为该损失项配置大于0的第一损失权重（例如1）。若否，则服务器可以根据该关键点对应的训练预测位置以及预设的参考标注位置（可以随机设置），构建该关键点对应的损失项，同时为该损失项配置等于0的第二损失权重。进而，服务器可以根据训练关键点检测结果中各关键点各自对应的损失项及其对应的损失权重，构建目标损失函数、

目标损失函数的具体构建公式可以如式（1）所示：

（1）

其中，L_mse即为所构建的目标损失函数；K为目标对象关键点检测模型所要检测的对象关键部位的总数目。

为第k个对象关键部位对应的损失项；其中，y_t,k为训练关键点检测结果中第k个对象关键部位对应的关键点的训练预测位置；在关键点标注结果包括第k个对象关键部位对应的标注位置的情况下，

为关键点标注结果中第k个对象关键部位对应的标注位置；在关键点标注结果不包括第k个对象关键部位对应的标注位置的情况下，

为随机设置的参考标注位置。v_t,k为上述损失项对应的损失权重；在关键点标注结果包括第k个对象关键部位对应的标注位置的情况下，v_t,k等于第一损失权重，例如v_t,k=1；在关键点标注结果不包括第k个对象关键部位对应的标注位置的情况下，v_t,k等于第二损失权重，即v_t,k=0。

可选的，在目标训练图像为目标视频中的视频帧的情况下，服务器还可以从时序连贯性的角度出发构建第一参考损失函数，以便基于上述目标损失函数和该第一参考损失函数，对目标对象关键点检测模型进行协同训练。

即，服务器可以确定目标视频中与目标训练图像相邻的视频帧作为参考训练图像，并获取该参考训练图像对应的训练关键点检测结果，此处的参考训练图像对应的训练关键点检测结果，是通过目标对象关键点检测模型对该参考训练图像进行对象关键点检测处理得到的，其中包括该参考训练图像中多个对象关键部位各自对应的关键点的训练预测位置。然后，服务器可以根据目标训练图像和参考训练图像各自对应的训练关键点检测结果，构建第一参考损失函数。

在实际应用中，视频中相邻的视频帧之间不会存在很大的差异，这意味着相邻的视频帧中待检测对象上对象关键部位的变化幅度也不会很大；基于此，本申请实施例创新性地设计了用于约束帧间连续性的第一参考损失函数，即，根据目标对象关键点检测模型对于相邻的两个视频帧的训练关键点检测结果，构建用于辅助训练目标对象关键点检测模型的第一参考损失函数，以通过该第一参考损失函数约束帧间的对象关键部位的位置变化幅度不会太大。

具体实现时，服务器可以针对每个对象关键部位，确定目标训练图像中该对象关键部位对应的关键点的训练预测位置为第三位置，确定参考训练图像中该对象关键部位对应的关键点的训练预测位置为第四位置；然后，根据第三位置与第四位置之间的距离，构建该对象关键部位对应的损失项，并为该损失项配置对应的损失权重。进而，服务器可以根据各对象关键部位各自对应的损失项及其对应的损失权重，构建该第一参考损失函数。

示例性的，针对每个对象关键部位，服务器可以确定目标训练图像对应的训练关键点预测结果中该对象关键部位对应的关键点的预测位置作为第三位置，确定参考训练图像对应的训练关键点预测结果中该对象关键部位对应的关键点的预测位置作为第四位置。然后，服务器可以计算该第三位置与该第四位置之间的距离，并根据该距离构建该对象关键部位对应的损失项，以及根据该距离确定该损失项对应的损失权重；例如，若该距离小于第三预设距离（例如在对各位置进行归一化处理的情况下，该第三预设距离可以为0.1），则可以确定该损失项对应的损失权重等于0，若该距离不小于第三预设距离，则可以确定该损失项对应的损失权重等于1；当然，针对该距离小于第三预设距离和不小于第三预设距离这两种情况，服务器也可以相应地配置其它损失权重，只需保证在小于第三预设距离的情况下配置的损失权重小于在不小于第三预设距离的情况下配置的损失权重即可。进而，服务器可以根据各对象关键部位各自对应的损失项以及损失权重，构建该第一参考损失函数。

第一参考损失函数的具体构建公式可以如式（2）所示：

（2）

其中，L_consistency即为所构建的第一参考损失函数；K为目标对象关键点检测模型所要检测的对象关键部位的总数目。

为第k个对象关键部位对应的损失项；其中，y_t,k为目标训练图像对应的训练关键点检测结果中第k个对象关键部位对应的关键点的训练预测位置，y_t-1,k为参考训练图像对应的训练关键点检测结果中第k个对象关键部位对应的关键点的训练预测位置。w_k为上述损失项对应的损失权重；在y_t,k与y_t-1,k之间的距离小于第三预设距离的情况下，w_k例如可以等于0；在y_t,k与y_t-1,k之间的距离不小于第三预设距离的情况下，w_k例如可以等于1。

如此，通过上述方式，引入用于约束帧间连续性的第一参考损失函数，有助于使所训练的目标对象关键点检测模型快速收敛，提高模型训练效率，并且提高所训练的目标对象关键点检测模型的模型性能。

可选的，本申请实施例还可以将知识蒸馏的思想引入对于目标对象关键点检测模型的训练过程中，以进一步提升所训练的目标对象关键点检测模型的模型性能。知识蒸馏是利用复杂模型（又被称为老师模型）学习到的知识指导简单模型（又被称为学生模型）的模型训练方式，旨在使得简单模型具有与复杂模型相当的性能，并且该简单模型的参数数量相比复杂模型的参数数量大幅降低，如此实现模型的压缩与加速。

即，服务器可以获取某个参考对象关键点检测处理目标训练图像时产生的第一中间处理结果，以及获取目标对象关键点检测模型处理目标训练图像时产生的第二中间处理结果。进而，根据该第一中间处理结果和该第二中间处理结果，构建第二参考损失函数。

示例性的，服务器可以从m个参考对象关键点检测模型中，选取与所训练的目标对象关键点检测模型的模型结构较接近的参考对象关键点检测模型，作为老师模型；然后，获取该老师模型处理目标训练图像时产生的中间处理结果，作为第一中间处理结果，例如，获取该老师模型处理目标训练图像时，其中某特征提取层从目标训练图像中提取出的特征，作为第一中间处理结果。服务器利用目标对象关键点检测模型处理该目标训练图像时，可以获取该目标对象关键点检测模型处理该目标训练图像时产生的中间处理结果，作为第二中间处理结果，例如，获取该目标对象关键点检测模型处理目标训练图像时，其中某特征提取层从目标训练图像中提取出的特征，作为第二中间结果。需要说明的是，此处获取的第一中间处理结果和第二中间处理结果应当具有相同的维度，并且应当来自同一处理阶段，例如，第一中间处理结果和第二中间处理结果分别来自参考对象关键点检测模型和目标对象关键点检测模型的编码阶段，和/或第一中间处理结果和第二中间处理结果分别来自参考对象关键点检测模型和目标对象关键点检测模型的解码阶段；本申请实施例在此不对第一中间处理结果和第二中间处理结果做任何限定。

服务器获取到第一中间处理结果和第二中间处理结果后，可以根据第一中间处理结果与第二中间处理结果之间的差异，构建第二参考损失函数。基于该第二参考损失函数训练目标对象关键点检测模型时，可以将最小化该第二损失函数为训练目标，调整所要训练的目标对象关键点检测模型的模型参数。

如此，通过上述方式，引入基于知识蒸馏思想构建的第二参考损失函数，利用模型性能较优的参考对象关键点检测模型指导目标对象关键点检测模型的训练，有助于提高目标对象关键点检测模型的模型性能，并且有助于使得所训练的目标对象关键点检测模型快速收敛，提高模型训练效率。

步骤2043：基于所述目标损失函数，调整所述目标对象关键点检测模型的模型参数。

服务器通过步骤2042，构建出用于训练目标对象关键点检测模型的目标损失函数后，可以将最小化该目标损失函数作为训练目标，调整目标对象关键点检测模型的模型参数，使得该目标对象关键点检测模型趋于收敛。

应理解，在服务器还引入了用于约束帧间连续性的第一参考损失函数的情况下，服务器可以基于目标损失函数和该第一参考损失函数，调整该目标对象关键点检测模型的模型参数。

具体的，服务器可以通过如下式（3）根据目标损失函数和第一参考损失函数，构建模型训练阶段的总损失函数：

L = L_mse +

L_consistency（3）

其中，L为模型训练阶段的总损失函数，L_mse为目标损失函数，L_consistency为第一参考损失函数，

为预先为第一参考损失函数配置的权重。

进而，以最小化该总损失函数为训练目标，调整目标对象关键点检测模型的模型参数，使得该目标对象关键点检测模型趋于收敛。

应理解，在服务器还引入了基于知识蒸馏思想构建的第二参考损失函数的情况下，服务器可以基于目标损失函数和第二参考损失函数，调整该目标对象关键点检测模型的模型参数。

具体的，服务器可以采用与上文中根据目标损失函数和第一参考损失函数构建总损失函数相类似的方式，根据目标损失函数和该第二参考损失函数，构建模型训练阶段的总损失函数。进而，以最小化该总损失函数为训练目标，调整目标对象关键点检测模型的模型参数，使得该目标对象关键点检测模型趋于收敛。

应理解，在服务器同时引入了上述第一参考损失函数和第二参考损失函数的情况下，服务器可以基于目标损失函数、第一参考损失函数和第二参考损失函数，调整该目标对象关键点检测模型的模型参数。即，服务器可以为第一参考损失函数和第二参考损失函数分别配置对应的权重，进而，根据目标损失函数、第一参考损失函数及其对应的权重、以及第二参考损失函数及其对应的权重，构建模型训练阶段的总损失函数；并以最小化该总损失函数为训练模型，调整目标对象关键点检测模型的模型参数，使得该目标对象关键点检测模型趋于收敛。

服务器基于不同的目标训练图像，反复执行上述步骤2041至步骤2043，实现对于目标对象关键点检测模型的迭代训练，直至该目标对象关键点检测模型满足模型训练结束条件为止，此时训练得到的目标对象关键点检测模型即为可以投入实际应用的目标对象关键点检测模型。此处的训练结束条件，例如可以是所训练的目标对象关键点检测模型的模型性能满足预设要求（如目标对象关键点检测模型的检测准确率达到预设准确率阈值等），又例如可以是目标对象关键点检测模型的模型性能不再显著提高（如利用测试样本集对几轮训练得到的目标对象关键点检测模型分别进行测试，确定几轮训练得到的目标对象关键点检测模型的检测准确率之间的差距小于预设差距阈值等），再例如可以是对于目标对象关键点检测模型的迭代训练次数达到预设次数，本申请在此不对该训练结束条件做任何限定。

为了便于进一步理解本申请实施例提供的模型训练方法，下面以通过该模型训练方法训练体感游戏中用于检测玩家姿态的人体关键点检测模型为例，对该模型训练方法进行整体示例性介绍。

体感游戏是指用身体去感受的游戏，突破传统的单纯以手柄按键输入的操作方式，体感游戏是一种通过肢体动作变化来进行操作的新型电子游戏。在进行体感游戏的过程中，摄像头可以拍摄包括玩家肢体的图像，并将拍摄的图像传输给后台的游戏服务器，由游戏服务器通过人体关键点检测模型，检测图像中玩家骨骼重要关节点的位置，并据此识别玩家所做的肢体动作，进而执行对应的游戏逻辑。图5所示即为上述体感游戏的整体实现架构图。

图6为本申请实施例提供的对于应用在上述体感游戏中的人体关键点检测模型的训练架构示意图。如图6所示，在模型训练过程中，对于任意一段没有标注过的且包括清晰完整人体的视频，服务器可以从中选取相邻的两个视频帧x_t-1和x_t，然后，通过伪标签生成网络生成这两个视频帧各自对应的伪标签

和

；进而，通过所需训练的人体关键点检测模型，对这两个视频帧进行人体关键点检测处理，得到这两个视频帧各自对应的热力特征图，模型训练过程的训练目标即是使得这两个热力特征图与对应的伪标签相近。此外，本申请实施例还基于

和

之间具备的帧间连续性设计了特定的损失函数，使模型能够实现自我监督学习。在测试或者应用阶段，只需要将图片或视频输入到所训练的人体关键点检测模型即可，伪标签生成网络仅存在于模型训练阶段。

本申请实施例提供的技术方案涉及的核心模块主要包括两个：一个是伪标签生成网络，其借助现有的结构复杂、且性能较优的多个人体关键点检测模型，对无标注的视频中的视频帧进行人体关键点检测处理，然后基于各个人体关键点检测模型各自的检测结果，生成该视频帧对应的伪标签，并将其用于后续的模型训练过程中。另一个是帧间连续性约束损失函数，其基于视频帧间人物动作变化幅度不会很大的先验条件，设计了帧间连续性损失函数，使得模型可以实现无监督的学习。

下面对上述两个核心模块分别进行详细介绍。

如图6所示，伪标签生成网络包括人体关键点预测模块和预测结果集成模块。

其中，人体关键点预测模块中包括多个

目前已有的结构复杂、且性能较优的人体关键点检测模型；在人体关键点检测模块中包括m（m为大于1的整数）个人体关键点检测模型的情况下，假设输入一张图片x_t，那么通过这m个人体关键点检测模型对该图片进行人体关键点检测处理，将得到这m个人体关键点检测模型各自对应的预测结果

。

其中，预测结果集成模块用于通过以下步骤完成对m个预测结果的集成，在集成的过程中，本申请实施例对预测结果在空间维度和时间维度上均进行了严格的过滤处理，从而保证所生成的伪标签具有更高的准确度。具体集成方法如下：

（1）针对每个预测结果，对于其中所对应的置信度小于0.5的关键点均进行忽略处理。具体的，预测结果中包括图片x_t-1中各个像素点属于人体关键点的置信度，对于所对应的置信度小于0.5的像素点，本申请实施例可以默认其不属于人体关键点，因此可以将其忽略掉。

（2）从空间上考虑，针对某个人体部位对应的关键点，服务器可以计算m个预测结果中该人体部位对应的关键点预测坐标的均值，作为该人体部位对应的参考坐标。进而，可以针对每个预测结果中该人体部位对应的关键点预测坐标与该参考坐标之间的距离，确定该预测结果是否属于该人体部位对应的合格预测结果；具体的，当预测结果中该人体部位对应的关键点预测坐标与该参考坐标之间的距离小于0.1（经归一化处理后）时，可以认为该预测结果属于该人体部位对应的合格预测结果；否则，则可以认为该预测结果不属于该人体部位对应的合格预测结果。当该人体部位对应的合格预测结果的数量大于或等于m/2时，服务器可以确定该人体部位属于有效人体部位，并对该有效人体部位对应的合格预测结果中该有效人体部位对应的关键点预测坐标取平均，得到该有效人体部位对应的标注坐标；否则，服务器可以确定该人体部位属于无效人体部位，忽略该无效人体部位，不确定其对应的标注坐标。进而，服务器可以利用各有效人体部位各自对应的标注坐标，组成图片x_t对应的伪标签

。

（3）从时序上考虑，在图片x_t为某视频中的一个视频帧的情况下，服务器还可以获取该视频中与该图片x_t相邻的视频帧x_t-1；进而，根据这两个视频帧各自对应的伪标签

和

，对这两个伪标签

和

中包括的标注坐标做进一步筛选处理。具体的，如果伪标签

中第k个人体部位对应的标注坐标

与伪标签

中第k个人体部位对应的标注坐标

之间的距离超过0.2（经归一化处理后），则可以将伪标签

中的

和伪标签

中的

均忽略掉。

（4）通过上述空间维度和时间维度的过滤处理后，可以获取到准确度较高的伪标签，但是通过上述处理会存在很多被忽略掉的人体部位，这些人体部位实际是存在的，只不过本申请会认为人体关键点检测模型对于它们的检测结果不可靠，所以没有将其投入后续的模型训练过程。如果直接基于MSE损失函数进行模型训练，会错误地认为这些关键点实际就是不存在的，从而导致错误地梯度反向传播，从而影响所训练的人体关键点检测模型的性能。为了解决此问题，本申请实施例设计了带权重的MSE损失函数，当伪标签中该人体部位被忽略时，设置该人体部位对应的损失项的损失权重为0，这样可以防止错误的反向传播。如下公式，即为本申请实施例提出的带权重的MSE损失函数：

其中，L_mse即为所构建的损失函数；K为人体关键点检测模型所要检测的人体部位的总数目。

为第k个人体部位对应的损失项；其中，y_t,k为所要训练的人体关键点检测模型对于第k个人体部位预测位置；在伪标签

包括第k个人体部位对应的标注位置的情况下，

为伪标签

中第k个人体部位对应的标注位置；在伪标签

不包括第k个人体部位对应的标注位置的情况下，

为随机设置的参考标注位置。v_t,k为上述损失项对应的损失权重；在伪标签

包括第k个人体部位对应的标注位置的情况下，v_t,k =1；在伪标签

不包括第k个人体部位对应的标注位置的情况下，v_t,k=0。

除此之外，本申请实施例发现一个视频前后相邻的两个视频帧之间不会存在太大的变化差异，即相邻视频帧中人体部位的变化幅度不会很大，基于该先验知识，本申请还设计了一个帧间连续性的约束函数，用来实现对于人体关键点检测模型的无监督学习，以保证该人体关键点检测模型在对视频做预测时，帧间的关键点坐标跳动幅度不会太大，该损失函数具体如下：

其中，L_consistency即为帧间连续性的约束函数；K为人体关键点检测模型所要检测的人体部位的总数目。

为第k个人体部位对应的损失项；其中，y_t,k为第t个视频帧对应的训练预测结果中第k个人体部位对应的关键点的训练预测位置，y_t-1,k为第t-1个视频帧对应的训练预测结果中第k个人体部位对应的关键点的训练预测位置。w_k为上述损失项对应的损失权重；在y_t,k与y_t-1,k之间的距离小于0.1（经归一化处理后）的情况下，w_k=0；在y_t,k与y_t-1,k之间的距离不小于0.1（经归一化处理后）的情况下，w_k=1。

综上，本申请实施例提供的方案在训练阶段总的损失函数如下：

L = L_mse +

L_consistency

其中，

是预先为L_consistency配置的权重。

进而，服务器可以基于该损失函数L，对所要训练的人体关键点检测模型进行训练。

利用COCO-wholebody人体关键点检测公开测试集，对通过上述方式训练得到的人体关键点检测模型进行测试，全类平均正确率（mean Average Precision，mAP）指标从0.457上升到了0.521。

本申请发明人还对体感游戏中目前应用的人体关键点检测模型和通过上述方式训练得到的人体关键点检测模型进行了对比测试，对比测试的结果如图7所示，其中（a）为通过本申请实施例提供的方案训练得到的人体关键点检测模型确定的检测结果，（b）为通过现有的人体关键点检测模型确定的检测结果，通过对比可以发现，（a）相比（b）更加准确，（a）中的左右脚对应的关键点没有换位，而（b）中的左右脚对应的关键点出现了换位。

应理解，本申请实施例提供的模型训练方法，除了可以用于训练应用在体感游戏场景中的人体关键点检测模型外，还可以用于训练其它场景中的对象关键点检测模型，如视频拍摄场景中用于为人体或动物增加特效的功能，往往需要对象关键点检测模型检测图像中对象的关键点，本申请实施例提供的方案也可以用于训练此种场景中的对象关键点检测模型，在此不对本申请实施例提供的方案所适用的应用场景做任何限定。

可以理解的是，在本申请的具体实施方式中，涉及到用户信息（如摄像头拍摄的图像）等相关的数据，当本申请以上实施例运用到具体产品或技术中时，需要获得用户许可或者同意，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

针对上文描述的模型训练方法，本申请还提供了对应的模型训练装置，以使上述模型训练方法在实际中得以应用及实现。

参见图8，图8是与上文图2所示的模型训练方法对应的一种模型训练装置800的结构示意图。如图8所示，该模型训练装置800包括：

关键点检测模块801，用于通过m个参考对象关键点检测模型，分别对目标训练图像进行对象关键点检测处理，得到所述m个参考对象关键点检测模型各自对应的关键点检测结果；所述关键点检测结果包括所述目标训练图像中多个对象关键部位各自对应的关键点的预测位置；所述m为大于1的整数；

部位标注模块802，用于针对每个所述对象关键部位，根据所述m个关键点检测结果中所述对象关键部位对应的关键点的预测位置，确定所述对象关键部位是否为目标对象关键部位；若是，则根据所述m个关键点检测结果中所述目标对象关键部位对应的关键点的预测位置，确定所述目标对象关键部位对应的标注位置；

样本生成模块803，用于将所述目标训练图像及其对应的关键点标注结果，作为训练样本；所述关键点标注结果包括各所述目标对象关键部位各自对应的标注位置；

模型训练模块804，用于基于所述训练样本，训练目标对象关键点检测模型。

可选的，在图8所示的模型训练装置的基础上，所述部位标注模块802具体用于：

根据所述m个关键点检测结果中所述对象关键部位对应的关键点的预测位置，确定所述对象关键部位对应的参考位置；

针对每个所述关键点检测结果，确定其中所述对象关键部位对应的关键点的预测位置与所述对象关键部位对应的参考位置之间的距离，并根据所述距离，确定所述关键点检测结果是否属于所述对象关键部位对应的目标关键点检测结果；

统计所述m个关键点检测结果中所述对象关键部位对应的目标关键点检测结果的数量；

若所述对象关键部位对应的目标关键点检测结果的数量超过预设数量，则确定所述对象关键部位为目标对象关键部位；若所述对象关键部位对应的目标关键点检测结果的数量未超过所述预设数量，则确定所述对象关键部位为无效对象关键部位。

针对所述目标对象关键部位对应的每个目标关键点检测结果，确定其中所述目标对象关键部位对应的关键点的预测位置，作为所述目标对象关键部位对应的目标预测位置；

根据所述目标对象关键部位对应的各目标预测位置，确定所述目标对象关键部位对应的标注位置。

可选的，在图8所示的模型训练装置的基础上，参见图9，图9为本申请实施例提供的另一种模型训练装置900的结构示意图。如图9所示，当所述目标训练图像为目标视频中的视频帧时，所述装置还包括：

参考数据获取模块901，用于确定所述目标视频中与所述目标训练图像相邻的视频帧，作为参考训练图像；并获取所述参考训练图像对应的关键点标注结果；

标注结果筛选模块902，用于针对每个所述目标对象关键部位，确定其在所述目标训练图像对应的关键点标注结果中的标注位置为第一位置，确定其在所述参考训练图像对应的关键点标注结果中的标注位置为第二位置；根据所述第一位置与所述第二位置之间的距离，确定是否保留所述目标训练图像对应的关键点标注结果中的所述第一位置、以及是否保留所述参考训练图像对应的关键点标注结果中的所述第二位置。

可选的，在图8所示的模型训练装置的基础上，所述关键点检测模块801具体用于：

针对每个所述参考对象关键点检测模型，通过所述参考对象关键点检测模型，对所述目标训练图像进行对象关键点检测处理，确定所述目标训练图像中各像素点属于所述对象关键部位的置信度；

根据所述目标训练图像中属于所述对象关键部位的置信度高于预设置信度的像素点，确定所述参考对象关键点检测模型对应的关键点检测结果。

可选的，在图8所示的模型训练装置的基础上，参见图10，图10为本申请实施例提供的另一种模型训练装置1000的结构示意图。如图10所示，所述模型训练模块804包括：

关键点检测子模块1001，用于通过所述目标对象关键点检测模型，对所述训练样本中的所述目标训练图像进行对象关键点检测处理，得到所述目标训练图像对应的训练关键点检测结果；所述训练关键点检测结果包括多个对象关键部位各自对应的关键点的训练预测位置；

损失函数构建子模块1002，用于根据所述目标训练图像对应的训练关键点检测结果、以及所述训练样本中的所述关键点标注结果，构建目标损失函数；

参数调整子模块1003，用于基于所述目标损失函数，调整所述目标对象关键点检测模型的模型参数。

可选的，在图10所示的模型训练装置的基础上，所述损失函数构建子模块1002具体用于：

针对所述训练关键点检测结果中的每个关键点，判断所述关键点对应的对象关键部位是否为所述关键点标注结果中的目标对象关键部位；若是，则根据所述关键点对应的训练预测位置、以及所述关键点对应的目标对象关键部位的标注位置，构建所述关键点对应的损失项，并为所述关键点对应的损失项配置对应的第一损失权重；若否，根据所述关键点对应的训练预测位置，构建所述关键点对应的损失项，并为所述关键点对应的损失项配置对应的第二损失权重；所述第一损失权重大于0，所述第二损失权重等于0；

根据所述训练关键点检测结果中各关键点各自对应的损失项及其对应的损失权重，构建所述目标损失函数。

可选的，在图10所示的模型训练装置的基础上，所述损失函数构建子模块1002还用于：

确定所述目标视频中与所述目标训练图像相邻的视频帧，作为参考训练图像；并获取所述参考训练图像对应的训练关键点检测结果；

根据所述目标训练图像和所述参考训练图像各自对应的训练关键点检测结果，构建第一参考损失函数；

则所述参数调整子模块1003具体用于：

基于所述目标损失函数和所述第一参考损失函数，调整所述目标对象关键点检测模型的模型参数。

可选的，所述损失函数构建子模块1002具体用于：

针对每个所述对象关键部位，确定所述目标训练图像中所述对象关键部位对应的关键点的训练预测位置为第三位置，确定所述参考训练图像中所述对象关键部位对应的关键点的训练预测位置为第四位置；根据所述第三位置与所述第四位置之间的距离，构建所述对象关键部位对应的损失项，并为所述损失项配置对应的损失权重；

根据各所述对象关键部位各自对应的损失项及其对应的损失权重，构建所述第一参考损失函数。

获取所述参考对象关键点检测模型处理所述目标训练图像时产生的第一中间处理结果；以及，获取所述目标对象关键点检测模型处理所述目标训练图像时产生的第二中间处理结果；

根据所述第一中间处理结果和所述第二中间处理结果，构建第二参考损失函数；

则所述参数调整子模块1003具体用于：

基于所述目标损失函数和所述第二参考损失函数，调整所述目标对象关键点检测模型的模型参数。

上述模型训练装置生成用于训练需要投入实际应用的目标对象关键点检测模型的训练样本时，会通过多个结构复杂的参考对象关键点检测模型分别对目标训练图像进行对象关键点检测处理，得到多个关键点检测结果。然后，基于各关键点检测结果中相同的对象关键部位的预测位置应基本一致的原理，针对每个对象关键部位，根据各个关键点检测结果中该对象关键部位对应的关键点的预测位置，衡量各个参考对象关键点检测模型对于该对象关键部位的位置预测结果是否可靠，即确定该对象关键部位是否为目标对象关键部位。在确定各个参考对象关键点检测模型对于该对象关键部位的位置预测结果可靠的情况下，再进一步确定该目标对象关键部位对应的标注位置即伪标签；进而，利用该目标训练图像以及其中各目标对象关键部位各自对应的标注位置组成训练样本。如此，忽略位置预测结果不可靠的对象关键部位，仅利用位置预测结果可靠的对象关键部位对应的标注位置作为伪标签，能够有效地减少所确定的伪标签中存在的噪声，提高该伪标签的准确度。相应地，基于包括该种伪标签的训练样本，训练需要投入实际应用、结构比较简单的目标对象关键点检测模型，能够在一定程度上保证所训练的目标对象关键点检测模型的性能。

本申请实施例还提供了一种用于训练模型的计算机设备，该计算机设备具体可以是终端设备或者服务器，下面将从硬件实体化的角度对本申请实施例提供的终端设备和服务器进行介绍。

参见图11，图11是本申请实施例提供的终端设备的结构示意图。如图11所示，为了便于说明，仅示出了与本申请实施例相关的部分，具体技术细节未揭示的，请参照本申请实施例方法部分。该终端可以为包括手机、平板电脑、个人数字助理、销售终端（Point ofSales，POS）、车载电脑等任意终端设备，以终端为计算机为例：

图11示出的是与本申请实施例提供的终端相关的计算机的部分结构的框图。参考图11，计算机包括：射频（Radio Frequency，RF）电路1110、存储器1120、输入单元1130（其中包括触控面板1131和其他输入设备1132）、显示单元1140（其中包括显示面板1141）、传感器1150、音频电路1160（其可以连接扬声器1161和传声器1162）、无线保真（wirelessfidelity，WiFi）模块1170、处理器1180、以及电源1190等部件。本领域技术人员可以理解，图11中示出的计算机结构并不构成对计算机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

存储器1120可用于存储软件程序以及模块，处理器1180通过运行存储在存储器1120的软件程序以及模块，从而执行计算机的各种功能应用以及数据处理。存储器1120可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序（比如声音播放功能、图像播放功能等）等；存储数据区可存储根据计算机的使用所创建的数据（比如音频数据、电话本等）等。此外，存储器1120可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

处理器1180是计算机的控制中心，利用各种接口和线路连接整个计算机的各个部分，通过运行或执行存储在存储器1120内的软件程序和/或模块，以及调用存储在存储器1120内的数据，执行计算机的各种功能和处理数据，从而对计算机进行整体监控。可选的，处理器1180可包括一个或多个处理单元；优选的，处理器1180可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器1180中。

在本申请实施例中，该终端所包括的处理器1180还具有以下功能：

基于所述训练样本，训练目标对象关键点检测模型。

可选的，所述处理器1180还用于执行本申请实施例提供的模型训练方法的任意一种实现方式的步骤。

参见图12，图12为本申请实施例提供的一种服务器1200的结构示意图。该服务器1200可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器（central processing units，CPU）1222（例如，一个或一个以上处理器）和存储器1232，一个或一个以上存储应用程序1242或数据1244的存储介质1230（例如一个或一个以上海量存储设备）。其中，存储器1232和存储介质1230可以是短暂存储或持久存储。存储在存储介质1230的程序可以包括一个或一个以上模块（图示没标出），每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1222可以设置为与存储介质1230通信，在服务器1200上执行存储介质1230中的一系列指令操作。

服务器1200还可以包括一个或一个以上电源1226，一个或一个以上有线或无线网络接口1250，一个或一个以上输入输出接口1258，和/或，一个或一个以上操作系统，例如Windows Server^TM，Mac OS X^TM，Unix^TM, Linux^TM，FreeBSD^TM等等。

上述实施例中由服务器所执行的步骤可以基于该图12所示的服务器结构。

其中，CPU 1222用于执行如下步骤：

基于所述训练样本，训练目标对象关键点检测模型。

可选的，CPU 1222还可以用于执行本申请实施例提供的模型训练方法的任意一种实现方式的步骤。

本申请实施例还提供一种计算机可读存储介质，用于存储计算机程序，该计算机程序用于执行前述各个实施例所述的一种模型训练方法中的任意一种实施方式。

本申请实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行前述各个实施例所述的一种模型训练方法中的任意一种实施方式。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（Read-Only Memory，ROM）、随机存取存储器（Random Access Memory，RAM）、磁碟或者光盘等各种可以存储计算机程序的介质。

应当理解，在本申请中，“至少一个（项）”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：只存在A，只存在B以及同时存在A和B三种情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项（个）或复数项（个）的任意组合。例如，a，b或c中的至少一项（个），可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种模型训练方法，其特征在于，所述方法包括：

针对每个所述对象关键部位，根据m个关键点检测结果中对象关键部位对应的关键点的预测位置，确定所述对象关键部位是否为目标对象关键部位；若是，则根据所述m个关键点检测结果中所述目标对象关键部位对应的关键点的预测位置，确定所述目标对象关键部位对应的标注位置；

基于所述训练样本，训练目标对象关键点检测模型。

2.根据权利要求1所述的方法，其特征在于，所述根据m个关键点检测结果中所述对象关键部位对应的关键点的预测位置，确定所述对象关键部位是否为目标对象关键部位，包括：

若所述对象关键部位对应的目标关键点检测结果的数量超过预设数量，则确定所述对象关键部位为目标对象关键部位；若所述对象关键部位对应的目标关键点检测结果的数量未超过所述预设数量，则确定所述对象关键部位为非目标对象关键部位。

3.根据权利要求2所述的方法，其特征在于，所述根据所述m个关键点检测结果中所述目标对象关键部位对应的关键点的预测位置，确定所述目标对象关键部位对应的标注位置，包括：

4.根据权利要求1所述的方法，其特征在于，当所述目标训练图像为目标视频中的视频帧时，所述方法还包括：

确定所述目标视频中与所述目标训练图像相邻的视频帧，作为参考训练图像；并获取所述参考训练图像对应的关键点标注结果；

针对每个所述目标对象关键部位，确定其在所述目标训练图像对应的关键点标注结果中的标注位置为第一位置，确定其在所述参考训练图像对应的关键点标注结果中的标注位置为第二位置；根据所述第一位置与所述第二位置之间的距离，确定是否保留所述目标训练图像对应的关键点标注结果中的所述第一位置、以及是否保留所述参考训练图像对应的关键点标注结果中的所述第二位置。

5.根据权利要求1所述的方法，其特征在于，所述通过m个参考对象关键点检测模型，分别对目标训练图像进行对象关键点检测处理，得到所述m个参考对象关键点检测模型各自对应的关键点检测结果，包括：

6.根据权利要求1所述的方法，其特征在于，所述基于所述训练样本，训练目标对象关键点检测模型，包括：

通过所述目标对象关键点检测模型，对所述训练样本中的所述目标训练图像进行对象关键点检测处理，得到所述目标训练图像对应的训练关键点检测结果；所述训练关键点检测结果包括多个对象关键部位各自对应的关键点的训练预测位置；

根据所述目标训练图像对应的训练关键点检测结果、以及所述训练样本中的所述关键点标注结果，构建目标损失函数；

基于所述目标损失函数，调整所述目标对象关键点检测模型的模型参数。

7.根据权利要求6所述的方法，其特征在于，所述根据所述目标训练图像对应的训练关键点检测结果、以及所述训练样本中的所述关键点标注结果，构建目标损失函数，包括：

8.根据权利要求6所述的方法，其特征在于，当所述目标训练图像为目标视频中的视频帧时，所述方法还包括：

所述基于所述目标损失函数，调整所述目标对象关键点检测模型的模型参数，包括：

9.根据权利要求8所述的方法，其特征在于，所述根据所述目标训练图像和所述参考训练图像各自对应的训练关键点检测结果，构建第一参考损失函数，包括：

10.根据权利要求6或8所述的方法，其特征在于，所述方法还包括：

11.一种模型训练装置，其特征在于，所述装置包括：

部位标注模块，用于针对每个所述对象关键部位，根据m个关键点检测结果中所述对象关键部位对应的关键点的预测位置，确定所述对象关键部位是否为目标对象关键部位；若是，则根据所述m个关键点检测结果中所述目标对象关键部位对应的关键点的预测位置，确定所述目标对象关键部位对应的标注位置；

12.根据权利要求11所述的装置，其特征在于，所述部位标注模块具体用于：

13.一种计算机设备，其特征在于，所述设备包括处理器及存储器；

所述存储器用于存储计算机程序；

所述处理器用于根据所述计算机程序执行权利要求1至10中任一项所述的模型训练方法。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储计算机程序，所述计算机程序用于执行权利要求1至10中任一项所述的模型训练方法。

15.一种计算机程序产品，包括计算机程序或者指令，其特征在于，所述计算机程序或者所述指令被处理器执行时，实现权利要求1至10中任一项所述的模型训练方法。