CN113705297A

CN113705297A - 检测模型的训练方法、装置、计算机设备和存储介质

Info

Publication number: CN113705297A
Application number: CN202110267246.5A
Authority: CN
Inventors: 康洋; 付灿苗; 孙冲
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-03-11
Filing date: 2021-03-11
Publication date: 2021-11-26

Abstract

本申请涉及一种检测模型的训练方法、装置、计算机设备和存储介质，应用于机器学习领域。所述方法包括：通过目标检测模型和至少一个参考检测模型，分别对每张待标注图像进行关键点检测，得到与各待标注图像分别对应的至少两组关键点预测结果；确定每张待标注图像分别对应的离散信息量，再筛选出离散信息量满足目标离散条件的目标图像，并获取分别对应的实际关键点信息；基于包括有实际关键点信息的各目标图像，对各模型分别进行模型训练；基于当前轮训练得到的各模型，以及更新的多张待标注图像，返回执行分别对每张待标注图像进行关键点检测的步骤，直至达到训练停止条件时结束训练，得到训练好的目标检测模型。采用本方法能够提高训练效率。

Description

检测模型的训练方法、装置、计算机设备和存储介质

技术领域

本申请涉及计算机技术领域，特别是涉及一种检测模型的训练方法、装置、计算机设备和存储介质。

背景技术

随着计算机技术的发展，出现了各种处理图像、处理视频的技术，可以用于但不限于视频图像处理、短视频编辑、及视频通话等多种需要对图像进行再编辑的项目或者产品中。在对图像进行再编辑的过程中，通常是通过关键点检测模型预测出图像中的关键点，再基于关键点进行处理。

可以理解的是，计算机需要预先对关键点检测模型进行训练，而传统的训练方式，通常是基于关键点检测模型的初始化标注数据，组建关键点的标注团队，通过标注团队人工对关键点检测模型进行训练和优化。

然而，目前的检测模型的训练方式，需要通过人工对大量的训练样本图像进行标注，存在训练效率低的问题。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高训练效率的检测模型的训练方法、装置、计算机设备和存储介质。

一种检测模型的训练方法，所述方法包括：

通过目标检测模型和至少一个参考检测模型，分别对每张待标注图像进行关键点检测，得到与各所述待标注图像分别对应的至少两组关键点预测结果；

根据每张所述待标注图像所对应的所述关键点预测结果，确定每张所述待标注图像分别对应的离散信息量；

从多张所述待标注图像中筛选出离散信息量满足目标离散条件的目标图像，并获取每张所述目标图像分别对应的实际关键点信息；

基于包括有所述实际关键点信息的各所述目标图像，对所述目标检测模型和至少一个参考检测模型分别进行当前轮的模型训练；

基于当前轮训练得到的目标检测模型和至少一个参考检测模型，以及更新的多张待标注图像，返回执行所述分别对每张待标注图像进行关键点检测的步骤，以进入下一轮的模型训练，并继续执行，直至达到训练停止条件时结束训练，得到最终训练好的目标检测模型。

一种检测模型的训练装置，所述装置包括：

检测模块，用于通过目标检测模型和至少一个参考检测模型，分别对每张待标注图像进行关键点检测，得到与各所述待标注图像分别对应的至少两组关键点预测结果；

确定模块，用于根据每张所述待标注图像所对应的所述关键点预测结果，确定每张所述待标注图像分别对应的离散信息量；

筛选模块，用于从多张所述待标注图像中筛选出离散信息量满足目标离散条件的目标图像，并获取每张所述目标图像分别对应的实际关键点信息；

训练模块，用于基于包括有所述实际关键点信息的各所述目标图像，对所述目标检测模型和至少一个参考检测模型分别进行当前轮的模型训练；基于当前轮训练得到的目标检测模型和至少一个参考检测模型，以及更新的多张待标注图像，返回执行所述分别对每张待标注图像进行关键点检测的步骤，以进入下一轮的模型训练，并继续执行，直至达到训练停止条件时结束训练，得到最终训练好的目标检测模型。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现如上述的方法的步骤。

一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时实现如上述的方法的步骤。

上述检测模型的训练方法、装置、计算机设备和存储介质，通过目标检测模型和至少一个参考检测模型，分别对每张待标注图像进行关键点检测，得到与各待标注图像分别对应的至少两组关键点预测结果。根据每张待标注图像所对应的关键点预测结果，确定每张待标注图像分别对应的离散信息量，进而可基于离散信息量筛选出满足目标离散条件的目标图像。可以理解，满足目标离散条件的目标图像可以认为是不同的检测模型对这张图像进行关键点检测时结果差异较大，而这种情况一般是由于图像本身的信息量较多，或者图像中的关键点信息不易检测到。因而基于筛选出的目标图像进行标注以作为样本输入，可使得模型在训练过程中学习到“更难”以及更多的关键点信息，可以覆盖更多的离散信息量小的待标注图像。这样，通过筛选出的带有实际关键点信息的目标图像用于对目标检测模型和至少一个参考检测模型进行当前轮的模型训练时，目标检测模型和至少一个参考检测模型可以学习到更多的关键点信息，也就可以采用更少的训练样本量就可训练出检测准确性高的目标检测模型，提高了检测模型的训练效率，也节约了模型训练过程中的时间成本。

附图说明

图1为一个实施例中检测模型的训练方法的应用环境图；

图2为一个实施例中检测模型的训练方法的流程示意图；

图3为一个实施例中通过训练好的目标检测模型对人脸图像进行关键点检测得到的关键点检测结果的示意图；

图4为另一个实施例中通过训练好的目标检测模型对人脸图像进行关键点检测得到的关键点检测结果的示意图；

图5为一个实施例中针对每张待标注图像，确定待标注图像所对应的至少两组关键点预测结果之间的离散程度步骤的流程示意图；

图6为另一个实施例中检测模型的训练方法的流程示意图；

图7为一个实施例中检测模型的训练方法的时序图；

图8为一个实施例中检测模型的训练装置的结构框图；

图9为一个实施例中服务器的内部结构图；

图10为一个实施例中终端的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的检测模型的训练方法，可以应用于如图1所示的应用环境中。其中，服务器102通过网络与终端106进行通信。在本申请的实施例中，终端106和服务器102均可单独用于执行该检测模型的训练方法，终端106也可与服务器102协同执行该检测模型的训练方法。下面以服务器单独执行该检测模型的训练方法为例进行说明：服务器102从数据库104中获取目标检测模型、至少一个参考检测模型和待标注图像，通过目标检测模型和至少一个参考检测模型，分别对每张待标注图像进行关键点检测，得到与各待标注图像分别对应的至少两组关键点预测结果；根据每张待标注图像所对应的关键点预测结果，确定每张待标注图像分别对应的离散信息量；从多张待标注图像中筛选出离散信息量满足目标离散条件的目标图像，并获取每张目标图像分别对应的实际关键点信息；基于包括有实际关键点信息的各目标图像，对目标检测模型和至少一个参考检测模型分别进行当前轮的模型训练；基于当前轮训练得到的目标检测模型和至少一个参考检测模型，以及更新的多张待标注图像，返回执行分别对每张待标注图像进行关键点检测的步骤，以进入下一轮的模型训练，并继续执行，直至达到训练停止条件时结束训练，得到最终训练好的目标检测模型。

进一步地，服务器104将训练好的目标检测模型发送至终端106。终端106可以通过训练好的目标检测模型对终端显示页面中的图像(或者视频)进行关键点检测，实现对图像(或者视频)进行再编辑，从而实现美化、加入特效等功能。

其中，终端106可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器102可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习、主动学习等技术。

本申请提供的检测模型的训练方法，涉及机器学习等技术，具体说明如下：通过筛选出的包括有实际关键点信息的各目标图像，让目标检测模型和至少一个参考检测模型进行主动学习、迁移学习或者few-shot学习，可以学习到筛选出的各目标图像的关键点检测，从而得到关键点检测准确的目标检测模型。

在一个实施例中，如图2所示，提供了一种检测模型的训练方法，以该方法应用于计算机设备为例进行说明，包括以下步骤：

步骤S202，通过目标检测模型和至少一个参考检测模型，分别对每张待标注图像进行关键点检测，得到与各待标注图像分别对应的至少两组关键点预测结果。

其中，目标检测模型和参考检测模型都是关键点检测模型。目标检测模型是本申请中所需得到的关键点检测模型，也就是本申请的目的是要训练得到关键点检测性能达到指标的关键点检测模型。而参考检测模型是为了辅助目标检测模型的训练而设置的关键点检测模型，参考检测模型在本申请的训练过程中，主要是为了筛选出“较难”和“图像信息量较大”的目标图像而提供关键点参考的模型。待标注图像是待进行关键点检测和标注的图像。待标注图像的数量可以根据需要进行设置。例如，待标注图像的数量为2000张。

可以理解，目标检测模型和参考检测模型其都是可实现关键点检测的神经网络模型，基于各自的作用目标而在本申请中承担了不同的角色。需要说明的是，在其他的应用场景或者业务需求场景下，该参考检测模型也可以作为目标检测模型，该目标检测模型也可以作为参考检测模型。

关键点是图像中具有关键信息的点。例如，当待标注图像中包括人脸时，关键点可以是眼睛、耳朵、嘴巴、痣、疤痕、眉毛等；当待标注图像中包括有手机时，关键点可以是手机的各角点、物理按键、摄像头等。关键点所包括的关键信息，可以用于更快速并更准确地识别出图像的内容。

关键点预测结果是目标检测模型或者参考检测模型对待标注图像进行关键点检测所得到的结果。关键点预测结果可以包括关键点的位置信息、关键点的识别内容等。关键点的位置信息可以包括关键点在待标注图像中的坐标。关键点的位置信息还可以包括关键点识别出的内容。例如，关键点A识别出的内容为眼睛，关键点B识别出的内容为鼻子。

目标检测模型和至少一个参考检测模型中的每个模型对每张待标注图像进行关键点预测，得到一组关键点预测结果。即，针对每张待标注图像，目标检测模型和至少一个参考检测模型中的每个模型对应一组关键点预测结果。

例如，目标检测模型为A模型，两个参考检测模型分别为B模型和C模型，通过A模型、B模型和C模型分别对1000张待标注图像进行关键点检测，则针对每张待标注图像，可以得到A模型对应的一组关键点预测结果、B模型对应的一组关键点预测结果和C模型对应的一组关键点预测结果。

在一个实施例中，待标注图像为人脸图像，关键点预测结果为人脸关键点的预测位置信息，人脸关键点至少包括眉毛、眼睛、鼻子、嘴巴、及耳朵中的一种。

预测位置信息是目标检测模型或者参考检测模型预测的关键点的位置信息。预测位置信息可以采用坐标进行表示。人脸关键点还可以包括痣、痘痘、人脸印记等。

在另一个实施例中，待标注图像为建筑物图像，关键点结果为建筑物关键点的预测位置信息，建筑物关键点至少包括建筑物的各角点、窗户、建筑物上的图案中的一种。

目标检测模型可以是Stacked Hour Glass模型，也可以是基于热图回归的HRNet(High Resolution Net，高分辨率网络)模型，还可以是基于坐标回归的ResNet50(Residual Network 50，50层的残差网络)，不限于此。

参考检测模型可以是基于热图回归的HRNet模型，也可以是基于坐标回归的ResNet50，还可以是Stacked Hour Glass模型，不限于此。参考检测模型的数量为至少一个，例如，参考检测模型的数量为2个，分别是基于热图回归的HRNet模型和基于坐标回归的ResNet50模型。

在一个实施例中，目标检测模型为Stacked Hour Glass模型，参考检测模型分别是基于热图回归的HRNet模型和基于坐标回归的ResNet50，计算机设备通过Stacked HourGlass模型、基于热图回归的HRNet模型和基于坐标回归的ResNet50，分别对每张待标注图像进行关键点检测，得到与各待标注图像分别对应的至少两组关键点预测结果。其中，基于热图回归的HRNet模型可以是带预训练的模型，基于坐标回归的ResNet50也可以是带预训练的模型，Stacked Hour Glass模型可以是不带预训练的模型。

需要说明的是，Stacked Hour Glass模型，即级联沙漏网络，又可以称为堆叠沙漏网络，是指将多个沙漏网络串联起来的网络结构，级联沙漏网络最终的预测结果是根据级联的多个沙漏网络的预测结果生成的，因而相比于单个沙漏网络，可以得到更加准确的预测结果。基于热图回归的HRNet模型为高分辨率网络的主体架构，高分辨率网络将高分辨率的底层特征和低分辨率的高层特征并列相连，使得网络结构后端始终保留了具有边缘等精细的底层特征及包含语义的高层特征，既有利于边缘的精确提取，又有利于物体区域的分割。基于坐标回归的ResNet50的网络结构，首先对输入做了卷积操作，之后包含4个残差块(Residual Block)，最后进行全连接操作以便于进行分类任务。

步骤S204，根据每张待标注图像所对应的关键点预测结果，确定每张待标注图像分别对应的离散信息量。

离散信息量用于表征一张待标注图像所对应的各关键点预测结果之间的差异，离散信息量具体可以通过待标注图像的信息熵来表示。信息熵是用于表征特定信息的不确定性。当某种特定信息出现概率越低，则该特定信息的不确定性越高，信息熵越高。当至少两组关键点预测结果之间不一致时，待标注图像的不确定性高，则待标注图像对应的离散信息量也高。

进一步地，离散信息量是待标注图像对应的至少两组关键点预测结果之间的离散程度，所表征的信息量。

待标注图像对应的至少两组关键点预测结果之间的离散程度越大，表示目标检测模型和至少一个参考检测模型，针对待标注图像得到的至少两组关键点预测结果之间的差异程度越大，各模型对该待标注图像的不确定性越高，信息熵越高，离散信息量越高。

可以理解的是，目标检测模型和至少一个参考检测模型相当于多委员会中的每个委员，对每张待标注图像进行关键点预测，即对每张待标注图像进行共同投票，得到的至少两组关键点预测结果，再根据至少两组关键点预测结果可以确定出每张待标注图像的离散信息量。

步骤S206，从多张待标注图像中筛选出离散信息量满足目标离散条件的目标图像，并获取每张目标图像分别对应的实际关键点信息。

其中，目标离散条件是用于对待标注图像的离散信息量进行筛选，从而得到目标图像的条件。目标离散条件可以根据需要进行设置。目标离散条件可以是离散信息量最高的指定数量的待标注图像，也可以是离散信息量高于信息量阈值的待标注图像，还可以是离散信息量高于信息量阈值，并且离散信息量最高的指定数量的待标注图像，不限于此。

目标图像指的是满足目标离散条件的待标注图像。实际关键点信息是目标图像中实际上所包括的关键点的关键点信息。可以理解的是，关键点预测结果是目标检测模型或者参考检测模型预测得到的，可能与实际上的关键点的关键点信息存在偏差；而实际关键点信息指的是实际上的关键点的关键点信息，表征该目标图像中正确标注的关键点的关键点信息。

实际关键点信息可以包括实际关键点的位置坐标、实际关键点的属性信息等。实际关键点的属性信息可以是颜色、位置等其中至少一种。例如，实际关键点A的实际关键点信息可以包括位置坐标(20,50)、属性信息(颜色)，属性信息为颜色表示关键点A是通过颜色筛选出并标注得到的。

在一种实施方式中，可通过人工对每张目标图像进行关键点标注，从而计算机设备获取人工输入的每张目标图像分别对应的关键点信息。

在另一种实施方式中，通过预设的关键点检测模型分别对每张目标图像进行关键点检测，得到每张目标图像分别对应的实际关键点信息；其中，关键点检测模型的检测精度高于精度上限值。

精度上限值可以根据需要进行设置。例如，精度上限值可以是90％，也可以是95％等。通常地，精度上限值是一个较高的数值。关键点检测模型的检测精度高于精度上限值，表示该关键点检测模型对图像进行关键点检测的准确率高，因此可以将关键点检测模型对目标图像进行关键点检测得到的结果作为实际关键点信息，避免人工进行标注关键点或者输入关键点信息而造成时间成本的浪费，提高处理效率。

步骤S208，基于包括有实际关键点信息的各目标图像，对目标检测模型和至少一个参考检测模型分别进行当前轮的模型训练。

模型训练指的是通过向模型输入训练样本以调整模型参数，使得模型具有特定的功能的过程。计算机设备对模型进行训练是一个反复迭代的优化过程。整个训练过程一般会经历多轮迭代训练，每一轮训练结束后，基于损失函数求得预测结果和实际结果之间的损失(loss)，根据损失更新模型参数，然后开始下一轮训练，直到满足训练停止条件时结束训练，得到训练好的模型。

计算机设备将包括有实际关键点信息的各目标图像分别输入目标检测模型和至少一个参考检测模型中，对于目标检测模型和至少一个参考检测模型中的每个模型，将得到的目标图像的关键点预测结果与该目标图像对应的实际关键点信息输入损失函数中，得到关键点预测结果和实际关键点信息之间的损失，再根据损失更新模型参数，得到训练后的目标检测模型。

可选地，计算机设备可以基于全部的包括有实际关键点信息的各目标图像，对目标检测模型和至少一个参考检测模型分别进行当前轮的模型训练；也可以基于部分的包括有实际关键点信息的各目标图像，对目标检测模型和至少一个参考检测模型分别进行当前轮的模型训练；还可以基于全部的包括有实际关键点信息的各目标图像，以及其他的包括有实际关键点信息的图像，对目标检测模型和至少一个参考检测模型分别进行当前轮的模型训练；还可以基于部分的包括有实际关键点信息的各目标图像，以及其他的包括有实际关键点信息的图像，对目标检测模型和至少一个参考检测模型分别进行当前轮的模型训练。

步骤S210，基于当前轮训练得到的目标检测模型和至少一个参考检测模型，以及更新的多张待标注图像，返回执行分别对每张待标注图像进行关键点检测的步骤，以进入下一轮的模型训练，并继续执行，直至达到训练停止条件时结束训练，得到最终训练好的目标检测模型。

计算机设备更新多张待标注图像，即获取新的多张待标注图像，可以使得目标检测模型和至少一个参考检测模型基于不同的待标注图像进行训练，主动学习到各种不同的图像的关键点检测。计算机设备可以获取一个训练图像集合，当每一轮训练结束时，去除该训练图像集合中上一轮训练所获取的待标注图像，更新该训练图像集合，执行分别对每张待标注图像进行关键点检测的步骤，以进入下一轮的模型训练，并继续执行；当每一轮需要获取新的待标注图像时，从更新的训练图像集合中获取得到，可以保证每一轮训练所获取的待标注图像均不同，避免采用相同的待标注图像进行训练。

训练停止条件可以根据需要进行设置。训练停止条件可以是目标检测模型或者其中一个参考检测模型的关键点预测结果满足预设精度条件，也可以是目标图像的数量小于数量阈值，还可以是多张待标注图像中离散信息量最高的数值小于指定数值，不限于此。

当达到训练停止条件时结束训练，得到最终训练好的目标检测模型，也得到更加准确的参考检测模型。其中，达到训练停止条件时得到的参考检测模型可以是训练完成的，也可以是未训练完成的。

训练好的目标检测模型提高了关键点预测精度，同样的，参考检测模型也提高了关键点预测精度。

上述检测模型的训练方法，通过目标检测模型和至少一个参考检测模型，分别对每张待标注图像进行关键点检测，得到与各待标注图像分别对应的至少两组关键点预测结果。根据每张待标注图像所对应的关键点预测结果，确定每张待标注图像分别对应的离散信息量，进而可基于离散信息量筛选出满足目标离散条件的目标图像。可以理解，满足目标离散条件的目标图像可以认为是不同的检测模型对这张图像进行关键点检测时结果差异较大，而这种情况一般是由于图像本身的信息量较多，或者图像中的关键点信息不易检测到。因而基于筛选出的目标图像进行标注以作为样本输入，可使得模型在训练过程中学习到“更难”以及更多的关键点信息，可以覆盖更多的离散信息量小的待标注图像。这样，通过筛选出的带有实际关键点信息的目标图像用于对目标检测模型和至少一个参考检测模型进行模型训练时，目标检测模型和至少一个参考检测模型可以学习到更多的关键点信息，也就可以采用更少的训练样本量就可训练出检测准确性高的目标检测模型，提高了检测模型的训练效率，也节约了模型训练过程中的时间成本。

在一个实施例中，上述方法还包括：通过最终训练好的目标检测模型对待检测图像进行关键点检测，得到该待检测图像中的关键点。其中，待检测图像可以是实时拍摄的图像，也可以是电子设备中存储的图像，还可以是其他设备发送的图像，不限于此。

例如，通过最终训练好的目标检测模型对人脸图像进行关键点预测，可以标注出人脸图像中的关键点。人脸图像中的关键点包括五官关键点和脸部标记关键点，五官关键点具体可以包括眼睛、鼻子、嘴巴、眉毛、耳朵等关键点，脸部标记关键点具体可以包括痣、疤痕、或斑点等。

在一些实施例中，目标检测模型可对待检测图像进行特征提取，并特征提取所得到的特征图进行回归处理或分类处理，从而定位出待检测图像中的各关键点。

当目标检测模型是StackedHourGlass(级联沙漏网络)模型时，通过StackedHourGlass模型中每一级沙漏网络分别提取出待检测图像的多尺度特征，反复进行上采样和下采样，不断地融合多尺度空间信息，可以将各个关键点的信息连贯的融合在一起，最后输出该待检测图像中预测的关键点。

在一个实施例中，当计算机设备接收到对待检测图像进行处理的指令时，将图像输入最终训练好的目标检测模型，通过目标检测模型对该待检测图像进行关键点预测，得到待检测图像中的关键点，再基于得到的关键点对待检测图像进行相应的处理。计算机设备对待检测图像进行相应的处理，具体可以是美颜处理、加入特效等。当待检测图像是人脸图像时，计算机设备可以对人脸图像中的脸部标记关键点所在的脸部标记进行淡化处理，也可以对人脸图像中的五官关键点所在的五官区域进行变形、扭曲、加入特定效果等。

参考图3，图3为一个实施例中通过训练好的目标检测模型对人脸图像进行关键点检测得到的关键点检测结果的示意图。如图3所示，人脸图像中的黑点为训练好的目标检测模型对该人脸图像进行关键点检测，所标注出的关键点。

参考图4，图4为另一个实施例中通过训练好的目标检测模型对人脸图像进行关键点检测得到的关键点检测结果的示意图。如图4所示，人脸存在一定的偏转角度，人脸图像中的黑点为训练好的目标检测模型对该人脸图像进行关键点检测。即使是人脸存在一定的偏转角度，训练好的目标检测模型仍然可以对该人脸图像进行关键点检测，准确地标注出人脸图像中的关键点。

在一个实施例中，根据每张待标注图像所对应的关键点预测结果，确定每张待标注图像分别对应的离散信息量，包括：针对每张待标注图像，确定待标注图像所对应的至少两组关键点预测结果之间的离散程度；基于离散程度，确定待标注图像对应的离散信息量。

至少两组关键点预测结果之间的离散程度是指至少两组关键点预测结果之间的差异程度。离散程度越大，表示目标检测模型和至少一个参考检测模型得到的各组关键点预测结果之间的差异程度越大，各组关键点预测结果越不一致。

计算机设备确定待标注图像所对应的至少两组关键点预测结果之间的离散程度的实施方式并不限定。在一种实施方式中，计算机设备采用至少两组关键点预测结果之间的标准差，确定至少两组关键点预测结果之间的离散程度。在另一种实施方式中，计算机设备采用至少两组关键点预测结果之间的极差，确定至少两组关键点预测结果之间的离散程度。在另一种实施方式中，计算机设备采用至少两组关键点预测结果之间的平均差，确定至少两组关键点预测结果之间的离散程度。

其中，标准差(Standard Deviation，STD)，是离均差平方的算术平均数(即：方差)的算术平方根。极差又称全距，是观测变量的最大取值与最小取值之间的离差，也就是观测变量的最大观测值与最小观测值之间的区间跨度。平均差是总体各单位标志对其算术平均数的离差绝对值的算术平均数，综合反映了总体各单位标志值的变动程度。

计算机设备基于离散程度确定待标注图像对应的离散信息量的实施方式并不限定。在一种实施方式中，计算机设备可以将待标注图像所对应的至少两组关键点预测结果之间的离散程度，直接作为该待标注图像对应的离散信息量。在另一种实施方式中，计算机设备基于待标注图像所对应的至少两组关键点预测结果之间的离散程度，从离散程度与离散信息量之间的对应关系中，确定待标注图像对应的离散信息量。其中，离散程度与离散信息量之间的对应关系可以根据需要进行设置。

在本实施例中，针对每张待标注图像，确定待标注图像所对应的至少两组关键点预测结果之间的离散程度，基于离散程度可以准确地确定待标注图像对应的离散信息量。

在一个实施例中，如图5所示，针对每张待标注图像，确定待标注图像所对应的至少两组关键点预测结果之间的离散程度，包括：

步骤S502，对于每张待标注图像，将至少两组关键点预测结果中与相同关键点所对应的预测关键点信息作为一套待处理数据。

对于每张待标注图像，目标检测模型和至少一个参考检测模型均会检测出相同关键点所对应的预测关键点信息作为一套待处理数据。一套待处理数据包括至少两个预测关键点信息，包括目标检测模型检测出的某一关键点的预测关键点信息，以及参考检测模型检测出的该相同关键点的预测关键点信息。

例如，对于一个待标注图像，从目标检测模型对应的关键点预测结果中选取鼻子这一关键点所对应的预测关键点信息A，从参考检测模型1对应的关键点预测结果中选取鼻子这一相同关键点所对应的预测关键点信息B，从参考检测模型2对应的关键点预测结果中选取鼻子这一相同关键点所对应的预测关键点信息C，则将预测关键点信息A、预测关键点信息B和预测关键点信息C作为一套待处理数据。

步骤S504，对于每套待处理数据，计算相应待处理数据所对应的标准差。

标准差(Standard Deviation，STD)，是离均差平方的算术平均数(即：方差)的算术平方根。标准差也被称为标准偏差，或者实验标准差，在概率统计中最常使用作为统计分布程度上的测量依据。标准差能反映一个数据集的离散程度。

对于每套待处理数据，标准差越大，则对应的这一套待处理数据的离散程度越大，即目标检测模型和至少一个参考检测模型对于相同关键点预测出的预测关键点信息越不一致，那么可以认为目标检测模型对该相同关键点预测得到的预测关键点信息准确的概率越低，可靠性也越低。

步骤S506，根据各套待处理数据的标准差，确定待标注图像所对应的至少两组关键点预测结果之间的离散程度。

可以理解的是，在待标注图像中包括有多个关键点，对于每个关键点所对应的待处理数据的标准差，表示的是目标检测模型和参考检测模型在该关键点上的预测结果的离散程度；而根据待标注图像的各套待处理数据的标准差，则可以从整个待标注图像的全局上，更准确地确定该待标注图像所对应的离散程度。

在一种实施方式中，计算机设备对各套待处理数据所对应的标准差进行求和，将得到的总和作为待标注图像所对应的至少两组关键点预测结果之间的离散程度。

在另一种实施方式中，计算机设备从各套待处理数据的标准差中去除最大值和最小值，将剩余的其他各个标准差进行相加，得到的总和作为该待标注图像所对应的至少两组关键点预测结果之间的离散程度。

在本实施例中，对于每张待标注图像，将至少两组关键点预测结果中与相同关键点所对应的预测关键点信息作为一套待处理数据；对于每套待处理数据，计算相应待处理数据所对应的标准差；根据各套待处理数据的标准差，可以从待标注图像的全局上，准确地确定待标注图像所对应的至少两组关键点预测结果之间的离散程度，从而准确地确定出待标注图像的离散信息量。

在一个实施例中，对于每套待处理数据，计算相应待处理数据所对应的标准差，包括：对于每套待处理数据，基于相应待处理数据中对应第一方向的第一预测关键点信息，确定第一标准差；基于相应待处理数据中对应第二方向的第二预测关键点信息，确定第二标准差；第一方向和第二方向相互垂直；基于第一标准差和第二标准差，确定相应待处理数据所对应的标准差。

第一方向和第二方向相互垂直。例如，第一方向为水平方向，第二方向为竖直方向；又如，第一方向为与水平方向成60度夹角的方向，第二方向为与水平方向成150度夹角的方向。第一方向和第二方向可以构成二维坐标中相互垂直的两个坐标轴，如第一方向为水平方向的x轴，第二方向为竖直方向的y轴。

第一预测关键点信息是待处理数据中对应第一方向上的预测关键点信息。第二预测关键点信息是待处理数据中对应第二方向上的预测关键点信息。第一标准差是每套待处理数据中各第一预测关键点信息之间的标准差。第二标准差是每套待处理数据中各第二预测关键点信息之间的标准差。

在一种实施方式中，基于第一标准差和第二标准差，确定相应待处理数据所对应的标准差，包括：针对每套待处理数据，从相对应的第一标准差和第二标准差中，选择数值大的作为待处理数据所对应的标准差。

在另一种实施方式中，基于第一标准差和第二标准差，确定相应待处理数据所对应的标准差，包括：针对每套待处理数据，从相对应的第一标准差和第二标准差中，选择数值小的作为待处理数据所对应的标准差。

在另一种实施方式中，基于第一标准差和第二标准差，确定相应待处理数据所对应的标准差，包括：针对每套待处理数据，将相对应的第一标准差和第二标准差进行求和，将得到的总和作为待处理数据所对应的标准差。

在本实施例中，对于每套待处理数据，基于相应待处理数据中对应第一方向的第一预测关键点信息，确定第一标准差；基于相应待处理数据中对应第二方向的第二预测关键点信息，确定第二标准差；第一方向和第二方向相互垂直；基于每套待处理数据在第一方向所对应的第一标准差，以及在第二方向上的第二标准差，可以确定出不同方向上的离散程度，从而可以更准确地确定相应待处理数据所对应的标准差。

在一个实施例中，假设模型k(目标检测模型和参考检测模型的其中一个)对每张待标注图像进行关键点检测，得到的关键点的坐标为{X_k,Y_k}，k＝0，1，…K。

那么，待标注图像中每一套待处理数据的标准差通过以下公式计算得到：

其中，STD是一套待处理数据的标准差，K是模型的总数，k是其中一个模型的标识，X_k是第k个模型预测得到的关键点的X坐标，Y_k是第k个模型预测得到的关键点的Y坐标，

是一套待处理数据的X坐标的平均值，

是一套待处理数据的Y坐标的平均值，

是X坐标的标准差，即第一方向对应的第一标准差，

是Y坐标的标准差，即第二方向对应的第二标准差，从第一标准差和第二标准差中，选择数值大的作为待处理数据所对应的标准差。

在一个实施例中，从多张待标注图像中筛选出离散信息量满足目标离散条件的目标图像，包括：按照各待标注图像所对应的离散信息量的大小，对多张待标注图像进行排序，并基于排序结果从多张待标注图像中筛选出离散信息量最高的指定数量的待标注图像作为目标图像；或者，从多张待标注图像中筛选出离散信息量高于信息量阈值的待标注图像作为目标图像。

可选地，计算机设备可以按照各待标注图像所对应的离散信息量的大小，从大到小对多张待标注图像进行排序，也可以从小到大对多张待标注图像进行排序。

指定数量可以根据需要进行设置。例如，指定数量为100,200等。信息量阈值也可以根据需要进行设置。

在另一个实施例中，计算机设备还可以从待标注图像中筛选出离散信息量最高的指定数量的待标注图像后，从筛选的待标注图像中离散信息量最高和最低的待标注图像，再将去除后的待标注图像作为目标图像。

在另一种实施例中，计算机还可以从待标注图像中筛选出离散信息量最高的指定数量的待标注图像后，再随机筛选出多张待标注图像作为目标图像。

在另一个实施例中，计算机设备还可以从离散信息量高于信息量阈值的待标注图像中，再次筛选出离散信息量最高的指定数量的待标注图像作为目标图像。

需要说明的是，计算机设备基于多张待标注图像的离散信息量，从多张待标注图像中筛选得到目标图像的具体方式并不限定，可以根据用户需要进行设置。

在本实施例中，计算机设备基于排序结果从多张待标注图像中筛选出离散信息量最高的指定数量的待标注图像作为目标图像，或者从多张待标注图像中筛选出离散信息量高于信息量阈值的待标注图像作为目标图像，筛选出的目标图像的离散信息量均较高，则通过该目标图像对目标检测模型和至少一个参考检测模型进行当前轮的模型训练时，目标检测模型和至少一个参考检测模型可以主动学习到更多的不同的关键点的预测，可以覆盖离散信息量较低的图像对模型进行训练的效果，因此需要较少的目标图像即可训练出关键点检测准确的目标检测模型，更快速地提高目标检测模型和至少一个参考检测模型标注关键点的一致性，提高了检测模型的训练效率，并且也节约了时间成本。

需要指出的是，当模型对关键点检测较准确时，若检测出的待标注图像的离散信息量较大，则该待标注图像也为标注难度较大的图像，则采用该离散信息量较大的待标注图像作为目标图像，也即将标注难度较大的待标注图像作为目标头像，可以使得模型主动学习到标注难度较大的图像的关键点检测。其中，标注难度较大的图像如90度大侧脸的图像。

在本实施例中，优先采用离散信息量均较高的目标图像对目标检测模型和至少一个参考检测模型进行模型训练，还能提升关键点标注质量，标注出语义更为一致的关键点，提升关键点标注的精度、稳定性和鲁棒性。

在另一个实施例中，除了让目标检测模型和至少一个参考检测模型主动学习到更多的不同的关键点的预测，还可以让目标检测模型和至少一个参考检测模型迁移学习或者few-shot学习。其中，迁移学习是一种机器学习方法，就是把为任务A开发的模型作为初始点，重新使用在为任务B开发模型的过程中。Few-shot学习是Meta Learning在监督学习领域的应用。

例如，当目标检测模型为Stacked Hour Glass模型，参考检测模型分别是基于热图回归的HRNet模型和基于坐标回归的ResNet50时，采用上述检测模型的训练方法，仅需要大概2万个目标图像即可训练得到关键点检测准确并且稳定性高的Stacked Hour Glass模型，提高了模型训练的效率，降低了时间成本。

在一个实施例中，上述方法还包括：对每张待标注图像进行归一化处理；根据每张待标注图像所对应的关键点预测结果，确定每张待标注图像分别对应的离散信息量，包括：根据归一化处理后的每张待标注图像所对应的关键点预测结果，确定每张待标注图像分别对应的离散信息量。

归一化处理指的是将数据映射到0～1范围之内。归一化方法常见有两种形式，一种是把数变为(0,1)之间的小数，一种是把有量纲表达式变为无量纲表达式。

计算机设备对每张待标注图像进行归一化处理，可以使得每张待标注图像对应的至少两组关键点预测结果在同一量纲上进行比较，从而准确地确定出每张待标注图像分别对应的离散信息量。

在一个实施例中，上述方法还包括：获取每张待标注图像中同一参照物的参照距离；基于每张待标注图像的参照距离，对每张待标注图像进行归一化处理；基于每张待标注图像所对应的至少两组关键点预测结果，确定每张待标注图像分别对应的离散信息量，包括：基于归一化处理后的每张待标注图像所对应的至少两组关键点预测结果，确定每张待标注图像分别对应的离散信息量。

参照物可以预先设置。例如，当待标注图像均包括有人脸时，参照物可以是眼睛、鼻子、嘴巴等；当代标注图像均包括有树木时，参照物可以是树干、树枝等。

参照距离指的是参照物在相应待标注图像中所对应的距离，用于在对待标注图像进行归一化处理时作为参考。例如，当参照物是眼睛时，参照距离可以是左眼和右眼之间的距离；当参照物是嘴巴时，参照距离可以是嘴巴的长度；当参照物是建筑物时，参照距离可以是参照物的高度。

计算机设备基于每张待标注图像中同一参照物的参照距离，对每张待标注图像进行归一化处理，可以将各待标注图像归一化至同一量纲上，则每张待标注图像对应的关键点预测结果也在同一量纲上，每张待标注图像对应的离散信息量也在同一量纲上，更准确地确定出每张待标注图像的离散信息量。

例如，待标注图像A的人脸较大，待标注图像B的人脸较小，若直接确定待标注图像A和待标注图像B分别对应的离散信息量，那么目标检测模型和参考检测模型对待标注图像A所预测的关键点坐标之间的偏差容易更大，对待标注图像B所预测的关键点坐标之间的偏差较小，造成待标注图像A的离散信息量过大而待标注图像B的离散信息量过小的问题。

当待标注图像为90度大侧脸图像时，也可以对该图像进行归一化。其中的一种方式是用户先对该90度大侧脸图像进行标注，让归一化模型主动学习，则训练好的归一化模型会大致估计出90度大侧脸中眼睛(参照物)所在位置，从而确定参照距离。其中，用户对该90度大侧脸中眼睛进行标注的位置一般贴着人脸边缘，即在鼻梁上。

在一个实施例中，当对归一化模型进行训练的样本少于数量阈值时，表示训练样本较少，而由于HRNet有pretrained模型，则可以采用HRNet作为归一化模型，可以训练出归一化比较准确的模型。在其他实施例中，归一化模型也可以采用StackedHourGlass或者ResNet50。

而在本实施例中，计算机设备基于待标注图像中同一参照物的参照距离，对每张待标注图像进行归一化处理，可以使得每张待标注图像的关键点预测结果在同一量纲上，从而更准确地确定各待标注图像分别对应的离散信息量。例如，计算机设备获取待标注图像A中人脸的左眼和右眼之间的距离，对待标注图像A进行归一化处理得到归一化处理后的待标注图像A；获取待标注图像B中人脸的左眼和右眼之间的距离，对待标注图像B进行归一化处理得到归一化处理后的待标注图像B，从而更准确地确定各待标注图像分别对应的离散信息量。

在一个实施例中，上述方法还包括：采用包括样本关键点信息的多张初始图像对目标检测模型和至少一个参考检测模型进行预训练，得到预训练的目标检测模型以及预训练的至少一个参考检测模型，执行分别对每张待标注图像进行关键点检测的步骤；基于包括有实际关键点的各目标图像，对目标检测模型和至少一个参考检测模型分别进行当前轮的模型训练，包括：基于包括有实际关键点的各目标图像，以及包括有样本关键点信息的各初始图像，对目标检测模型和至少一个参考检测模型分别进行当前轮的模型训练。

初始图像指的是对目标检测模型和至少一个参考检测模型进行预训练的样本图像。初始图像的数量可以根据需要设置。例如，初始图像的数量为2000张，5000张等。样本关键点信息指的是初始图像中实际上的关键点的关键点信息。

在一种实施方式中，计算机设备可以获取用户输入的对每张初始图像的样本关键点信息，得到包括有样本关键点信息的多张初始图像。在另一种实施方式中，计算机设备通过训练好的关键点检测模型，分别对多张初始图像进行关键点检测，得到每张初始图像分别对应的样本关键点信息。

计算机设备采用包括有样本关键点信息的多张初始图像对目标检测模型和至少一个参考检测模型进行预训练，可以预训练出具有初步检测能力的目标检测模型和至少一个参考检测模型，则在后续对目标检测模型进行训练时可以节约训练的时间。并且，在后续对目标检测模型和至少一个参考检测模型分别进行当前轮的模型训练时，训练样本不仅包括有目标图像，还包括有预训练的初始图像，可以保证后续每一轮训练得到的目标检测模型和至少一个参考检测模型，对图像的关键点检测能力均比预训练后的模型的关键点检测能力更强。

在另一个实施例中，每一轮模型训练的训练图像包括当前轮筛选出的包括有实际关键点的各目标图像、上一轮模型训练的训练图像以及包括有样本关键点信息的各初始图像。

例如，第二轮模型训练的训练图像包括当前轮筛选出的包括有实际关键点的各目标图像、第一轮模型训练的训练图像以及包括有样本关键点信息的各初始图像；第三轮模型训练的训练图像包括当前轮筛选出的包括有实际关键点的各目标图像、第二轮模型训练的训练图像以及包括有样本关键点信息的各初始图像；其中，第二轮模型训练的训练图像也包括第二轮筛选出的包括有实际关键点、各目标图像和第一轮模型训练的训练图像以及包括有样本关键点信息的各初始图像，以此类推。其中，计算机设备可以对获取的各训练图像进行去重处理，去除重复的初始图像。

在本实施例中，每一轮模型训练的训练图像包括当前轮筛选出的包括有实际关键点的各目标图像、上一轮模型训练的训练图像以及包括有样本关键点信息的各初始图像，可以保证每一轮训练得到的目标检测模型和至少一个参考检测模型，对图像的关键点检测能力均比上一轮训练得到的模型的关键点检测能力更强。

图6为另一个实施例中检测模型的训练方法的流程图。计算机设备从待标注的初始图像池602中获取初始图像，将初始图像作为目标图像604，获取目标图像604的实际关键点信息，得到包括有实际关键点信息的目标图像606，基于包括有实际关键点信息的目标图像606构成训练集608，基于训练集608对目标检测模型和至少一个参考检测模型610进行当前轮的模型训练。其中，至少一个参考检测模型至少包括参考检测模型1。计算机设备待标注图像池612中获取更新的多张待标注图像，基于当前轮训练得到的目标检测模型和至少一个参考检测模型，分别对每张待标注图像进行关键点检测，得到与各待标注图像分别对应的目标检测模型的关键点预测结果614，以及参考检测模型的关键点预测结果616；根据每张待标注图像所对应的关键点预测结果，确定每张待标注图像分别对应的离散信息量618；从多张待标注图像中筛选出离散信息量满足目标离散条件的目标图像604，并获取每张目标图像分别对应的实际关键点信息，得到包括有实际关键点信息的目标图像606，基于包括有实际关键点信息的目标图像606构成训练集608，再次对目标检测模型和至少一个参考检测模型610进行迭代训练，直至达到训练停止条件时结束训练，得到训练好的目标检测模型。

在一个实施例中，上述方法还包括：从多张待标注图像中筛选出满足预设属性条件的多样性图像，获取每张多样性图像分别对应的实际关键点信息；基于包括有实际关键点信息的各目标图像，对目标检测模型和至少一个参考检测模型分别进行当前轮的模型训练，包括：根据包括有实际关键点信息的各目标图像，以及包括有实际关键点信息的各多样性图像，确定训练样本集；基于训练样本集，对目标检测模型和至少一个参考检测模型分别进行当前轮的模型训练。

预设属性条件是预先设置的用于筛选出多样性图像的属性条件。例如，预设属性条件可以包括脸部有遮挡，人脸偏转角度大于60度，人脸面积大于指定面积，微笑表情等其中至少一个。

多样性图像是满足预设属性条件的图像。多样性图像可以满足全部的预设属性条件，也可以满足各预设属性条件的至少一个。

例如，预设属性条件有2个，分别是脸部有遮挡，人脸偏转角度大于60度，计算机设备可以从多张待标注图像中筛选脸部有遮挡的多样性图像，以及人脸偏转角度大于60度的多样性图像，计算机设备还可以从多张待标注图像中筛选出脸部有遮挡、并且人脸偏转角度大于60度的多样性图像。

计算机设备筛选出满足预设属性条件的多样性图像的方式并不限定。在一种实施方式中，计算机设备可以直接由用户筛选出满足预设属性条件的多样性图像。在另一种实施方式中，计算机设备可以通过训练好的属性多样性模型，从多张待标注图像中筛选出满足预设属性条件的多样性图像。其中，属性多样性模型可以预先进行训练得到。

训练样本集是对目标检测模型和至少一个参考检测模型进行训练的多个样本的集合。在一种实施方式中，计算机设备可以将包括有实际关键点信息的各目标图像，以及包括有实际关键点信息的各多样性图像，均作为训练样本集中的训练样本，构成训练样本集。

在另一种实施方式中，计算机设备可以对包括有实际关键点信息的各目标图像，以及包括有实际关键点信息的各多样性图像进行筛选，确定训练样本集。其中，筛选方式并不限定，可以是去除重复的图像，也可以是对目标图像和多样性图像的数量进行筛选，不限于此。

在本实施例中，从多张待标注图像中筛选出预设属性条件的多样性图像，确定出包括有多样性图像和目标图像的训练样本集，该训练样本集包括的属性更多，则最终训练得到的目标检测模型可以准确地对各种属性的图像进行关键点检测。

在一个实施例中，根据包括有实际关键点信息的各目标图像，以及包括有实际关键点信息的各多样性图像，确定训练样本集，包括：确定各目标图像和各多样性图像分别对应的图像属性类别；基于图像属性类别，从目标图像和多样性图像中筛选出图像属性类别满足多样性分布条件的图像，基于筛选出的图像构成训练样本集。

图像属性类别是目标图像或者多样性图像的属性类别。例如，图像属性类别可以包括脸部有遮挡、人脸偏转角度大于指定角度、微笑表情等。

多样性分布条件指的是图像属性类别的多样性分布情况所对应的条件。多样性分布条件可以根据进行设置。例如，多样性分布条件可以是各图像属性类别均匀分布，也可以是特定图像属性类别的图像数量占比多于比例阈值，不限于此。

在本实施例中，计算机设备确定各目标图像和各多样性图像分别对应的图像属性类别；基于图像属性类别，筛选出图像属性类别满足多样性分布条件的图像，基于筛选出的图像构成训练样本集，则基于满足多样性分布条件的训练样本集对目标检测模型和至少一个参考检测模型进行当前轮的模型训练，得到的训练好的目标检测模型可以准确地对不同图像属性类别的图像进行关键点检测。

在一个实施例中，上述方法还包括：在进行多轮迭代训练过程中，当通过当前轮训练得到的目标检测模型和至少一个参考检测模型，分别对下一轮的待标注图像进行关键点检测所得到关键点预测结果满足预设精度条件时，确定达到训练停止条件。

预设精度条件是预先设置的关键点预测结果所对应的精度条件。预设精度条件可以根据需要进行设置。预设精度条件具体可以是目标检测模型或者其中一个参考检测模型的关键点预测结果的精度达到精度阈值，也可以是各目标图像的预测关键点信息与实际关键点信息的匹配度大于匹配阈值，不限于此。其中，精度阈值和匹配阈值均可以根据需要进行设置。

例如，预设精度条件可以是目标检测模型的关键点预测结果的精度达到90％，也可以是目标检测模型各目标图像的预测关键点信息与实际关键点信息的匹配度大于95％。

又如，当从下一轮筛选出的各目标图像的离散信息量均小于预设离散阈值时，判定下一轮的关键点预测结果满足预设精度条件。其中，预设精度条件是各目标图像的离散信息量均小于预设离散阈值。

预设离散阈值可以根据需要进行设置。例如，预设离散阈值可以是0.5,0.8等。当从下一轮筛选出的各目标图像的离散信息量均小于预设离散阈值时，表示目标检测模型和至少一个参考检测模型对各目标图像进行关键点检测的结果趋于一致，可以认为目标检测模型和至少一个参考检测模型对待标注图像进行关键点检测的精度较高，达到训练停止条件，得到训练好的、并且关键点检测准确的目标检测模型。

其中，计算机设备可以从多张待标注图像中筛选出离散信息量最高的指定数量的待标注图像作为目标图像；或者，从多张待标注图像中筛选出离散信息量高于信息量阈值的待标注图像作为目标图像。也就是说，筛选出的目标图像是多张待标注图像中离散信息量相对高的，而对于多张待标注图像中离散信息量相对高的目标图像，目标检测模型和至少一个参考检测模型的关键点预测结果都趋于一致，那么目标检测模型和至少一个参考检测模型对其他的图像进行关键点检测的结果，更加趋于一致，因此可以认为目标检测模型和至少一个参考检测模型对图像进行关键点检测的精度较高，达到训练停止条件，可以得到训练好的、并且关键点检测准确的目标检测模型。

在本实施例中，在进行多轮迭代训练过程中，当通过当前轮训练得到的目标检测模型和至少一个参考检测模型，分别对下一轮的待标注图像进行关键点检测所得到的关键点预测满足预设精度条件时，确定达到训练停止条件，则可以得到训练好的、并且关键点检测准确的目标检测模型。

在一个实施例中，上述方法还包括：通过训练好的目标检测模型对每张训练图像进行关键点检测，得到各训练图像的标准关键点结果；将各训练图像作为样本输入，并将相应训练图像的标准关键点结果作为样本标签，对应用于终端的线上检测模型进行模型训练。

训练图像是用于对终端的线上检测模型进行模型训练的图像。标准关键点结果是训练好的目标检测模型对训练图像进行关键点检测得到的结果。可以理解的是，训练好的目标检测模型对训练图像进行关键点预测的结果准确性高，可以作为训练图像的样本标签，对应用于终端的线上检测模型进行模型训练。

在一个实施例中，训练好的目标检测模型的网络结构复杂，运行时CPU(centralprocessing unit，中央处理器)占用率高，而在终端上运行的线上检测模型通常要求网络结构简单，运行时CPU占用率低，因此可以通过训练好的目标检测模型对每张训练图像进行关键点检测，将得到的标准关键点结果，以及包括有标准关键点结果的各训练图像对应用于终端的线上检测模型进行模型训练，可以训练得到适应于终端运行的线上检测模型。

在一个实施例中，应用于计算机设备中，该检测模型的训练方法包括以下步骤：

步骤1：采用包括样本关键点信息的多张初始图像对目标检测模型和至少一个参考检测模型进行预训练，得到预训练的目标检测模型以及预训练的至少一个参考检测模型。

步骤2：通过预训练的目标检测模型和预训练后的至少一个参考检测模型，分别对每张待标注图像进行关键点检测，得到与各待标注图像分别对应的至少两组关键点预测结果。其中，待标注图像为人脸图像，关键点预测结果为人脸关键点的预测位置信息，人脸关键点至少包括眉毛、眼睛、鼻子、嘴巴、及耳朵中的一种。

步骤3：获取每张待标注图像中同一参照物的参照距离；基于每张待标注图像的参照距离，对每张待标注图像进行归一化处理。

步骤4：对于归一化处理后的每张待标注图像，将至少两组关键点预测结果中与相同关键点所对应的预测关键点信息作为一套待处理数据；对于每套待处理数据，基于相应待处理数据中对应第一方向的第一预测关键点信息，确定第一标准差；基于相应待处理数据中对应第二方向的第二预测关键点信息，确定第二标准差；第一方向和第二方向相互垂直；基于第一标准差和第二标准差，确定相应待处理数据所对应的标准差；根据各套待处理数据的标准差，确定归一化处理后的待标注图像所对应的至少两组关键点预测结果之间的离散程度；基于离散程度，确定归一化处理后的待标注图像对应的离散信息量。

步骤5：按照各待标注图像所对应的离散信息量的大小，对多张待标注图像进行排序，并基于排序结果从多张待标注图像中筛选出离散信息量最高的指定数量的待标注图像作为目标图像；或者，从多张待标注图像中筛选出离散信息量高于信息量阈值的待标注图像作为目标图像。

步骤6：获取每张目标图像分别对应的实际关键点信息。

步骤7：从多张待标注图像中筛选出满足预设属性条件的多样性图像，获取每张多样性图像分别对应的实际关键点信息。

步骤8：确定各目标图像和各多样性图像分别对应的图像属性类别；基于图像属性类别，从目标图像和多样性图像中筛选出图像属性类别满足多样性分布条件的图像，基于筛选出的图像构成训练样本集。

步骤9：基于训练样本集和各初始图像，对目标检测模型和至少一个参考检测模型分别进行模型训练。

步骤10：基于训练后的目标检测模型和至少一个参考检测模型，以及更新的多张待标注图像，返回执行分别对每张待标注图像进行关键点检测的步骤，在进行多轮迭代训练过程中，当通过当前轮训练得到的目标检测模型和至少一个参考检测模型，分别对下一轮的待标注图像进行关键点检测所得到的关键点预测结果满足预设精度条件时，确定达到训练停止条件，则结束训练，得到训练好的目标检测模型。

步骤11：通过训练好的目标检测模型对每张训练图像进行关键点检测，得到各训练图像的标准关键点结果；将各训练图像作为样本输入，并将相应训练图像的标准关键点结果作为样本标签，对应用于终端的线上检测模型进行模型训练。

在本实施例中，包括样本关键点信息的多张初始图像对目标检测模型和至少一个参考检测模型进行预训练，可以节约后续对目标检测模型和至少一个参考检测模型进行模型训练的时间。

而对目标检测模型和至少一个参考检测模型进行模型训练时，训练的样本数据不仅包括有目标图像，还包括有预训练的初始图像，可以保证每一轮训练得到的模型的关键点检测能力比预训练的模型的关键点检测能力更强。

先对待标注图像进行归一化处理，再对归一化处理后的待标注图像计算离散信息量，可以使得各待标注图像处于同一量纲上，准确地确定各待标注图像的离散信息量。

通过目标检测模型和至少一个参考检测模型，分别对每张待标注图像进行关键点检测，得到与各待标注图像分别对应的至少两组关键点预测结果，则可以根据每张待标注图像所对应的关键点预测结果，确定每张待标注图像分别对应的离散信息量，也就是说，目标检测模型和至少一个参考检测模型相当于多委员会中的委员，对每张待标注图像进行关键点预测，根据每张待标注图像得到的至少两组关键点预测结果共同投票，准确地确定出每张待标注图像的离散信息量。

从待标注图像中筛选出的目标图像的离散信息量较高，对模型进行训练的效果可以覆盖更多的离散信息量较低的图像对模型进行训练的效果，则采用较少的目标图像即可训练出关键点检测准确的目标检测模型，提高检测模型的训练效率，节约时间成本。

还采用了多样性图像对目标检测模型和至少一个参考检测模型进行模型训练，则训练好的目标检测模型可以准确地对不同图像属性类别的图像进行关键点检测。

训练好的目标检测模型还可以对各训练图像进行关键点检测，得到的标准关键点结果，将各训练图像作为样本输入，将标准关键点结果作为样本标签，对应用于终端的线上检测模型进行模型训练，可以训练出适应于终端运行的线上检测模型。

图7为一个实施例中检测模型的训练方法的时序图。计算机设备中包括有检测模块、离散信息确定模块、筛选模块和训练模块。

其中，检测模块通过目标检测模型和至少一个参考检测模型，分别对每张待标注图像进行关键点检测，得到与各待标注图像分别对应的至少两组关键点预测结果，并将关键点预测结果发送至离散信息确定模块。

离散信息确定模块根据每张待标注图像所对应的关键点预测结果，确定每张待标注图像分别对应的离散信息量，并将每张待标注图像分别对应的离散信息量发送至筛选模块。

筛选模块从多张待标注图像中筛选出离散信息量满足目标离散条件的目标图像，并获取每张目标图像分别对应的实际关键点信息。筛选模块还获取包括有实际关键点信息的多样性图像，以及包括有样本关键点信息的初始图像，并将多样性图像、初始图像和目标图像发送至训练模块。

训练模块基于包括有实际关键点信息的各目标图像，包括有实际关键点信息的多样性图像，以及包括有样本关键点信息的初始图像，对目标检测模型和至少一个参考检测模型分别进行模型训练；基于训练后的目标检测模型和至少一个参考检测模型，以及更新的多张待标注图像，返回至检测模块重新执行分别对每张待标注图像进行关键点检测的步骤，直至达到训练停止条件时结束训练，得到训练好的目标检测模型。

本申请还提供一种应用场景，该应用场景应用上述的检测模型的训练方法。具体地，该检测模型的训练方法在该应用场景的应用如下：

计算机设备通过目标人脸检测模型和至少一个参考人脸检测模型，分别对每张待标注人脸图像进行人脸关键点检测，得到与各待标注人脸图像分别对应的至少两组人脸关键点预测结果；根据每张待标注人脸图像所对应的人脸关键点预测结果，确定每张待标注人脸图像分别对应的离散信息量；从多张待标注图像中筛选出离散信息量满足目标离散条件的目标人脸图像，并获取每张目标人脸图像分别对应的实际人脸关键点信息；基于包括有实际人脸关键点信息的各目标人脸图像，对目标人脸检测模型和至少一个参考人脸检测模型分别进行模型训练；基于训练后的目标人脸检测模型和至少一个参考人脸检测模型，以及更新的多张待标注人脸图像，返回执行分别对每张待标注人脸图像进行人脸关键点检测的步骤，直至达到训练停止条件时结束训练，得到训练好的目标人脸检测模型。

当计算机设备需要进行人脸关键点检测时，通过训练好的目标人脸检测模型对人脸图像或者人脸视频进行人脸关键点检测，基于人脸关键点检测结果对该人脸图像或者人脸视频进行处理，可以实现瘦脸、大眼等功能。计算机设备需要进行人脸关键点检测的情况可以包括：用户打开摄像头进行自拍，用户对人脸图像或者人脸视频加入特效，用户与其他好友进行视频通话等。

在另一种应用场景中，上述检测模型的训练方法中，目标人脸检测模型还可以替换为目标肢体检测模型，参考人脸检测模型还可以替换为参考肢体检测模型，待标注人脸图像还可以替换为待标注肢体图像，可以训练得到训练好的目标肢体检测模型。

当计算机设备需要进行肢体关键点检测时，通过训练好的目标肢体检测模型对肢体图像或者肢体视频进行肢体关键点检测，基于肢体关键点检测结果对该肢体图像或者肢体视频进行处理，可以实现肢体调整、动作调节等功能。

在另一种应用场景中，上述检测模型的训练方法中，目标人脸检测模型还可以替换为目标物品检测模型，参考人脸检测模型还可以替换为参考物品检测模型，待标注人脸图像还可以替换为待标注物品图像，可以训练得到训练好的目标物品检测模型。当计算机设备需要进行物品关键点检测时，通过训练好的目标物品检测模型对物品图像或者物品视频进行物品关键点检测，基于物品关键点检测结果对该物品图像或者物品视频进行处理，可以实现物品图像的调整、加入特效等功能。

应该理解的是，虽然图2、图5和图6的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2、图5和图6中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图8所示，提供了一种检测模型的训练装置，该装置可以采用软件模块或硬件模块，或者是二者的结合成为计算机设备的一部分，该装置具体包括：检测模块802、确定模块804、筛选模块806和训练模块808，其中：

检测模块802，用于通过目标检测模型和至少一个参考检测模型，分别对每张待标注图像进行关键点检测，得到与各待标注图像分别对应的至少两组关键点预测结果。

确定模块804，用于根据每张待标注图像所对应的关键点预测结果，确定每张待标注图像分别对应的离散信息量。

筛选模块806，用于从多张待标注图像中筛选出离散信息量满足目标离散条件的目标图像，并获取每张目标图像分别对应的实际关键点信息。

训练模块808，用于基于包括有实际关键点信息的各目标图像，对目标检测模型和至少一个参考检测模型分别进行当前轮的模型训练；基于当前轮训练得到的目标检测模型和至少一个参考检测模型，以及更新的多张待标注图像，返回执行分别对每张待标注图像进行关键点检测的步骤，以进入下一轮的模型训练，并继续执行，直至达到训练停止条件时结束训练，得到最终训练好的目标检测模型。

上述检测模型的训练装置，通过目标检测模型和至少一个参考检测模型，分别对每张待标注图像进行关键点检测，得到与各待标注图像分别对应的至少两组关键点预测结果。根据每张待标注图像所对应的关键点预测结果，确定每张待标注图像分别对应的离散信息量，进而可基于离散信息量筛选出满足目标离散条件的目标图像。可以理解，满足目标离散条件的目标图像可以认为是不同的检测模型对这张图像进行关键点检测时结果差异较大，而这种情况一般是由于图像本身的信息量较多，或者图像中的关键点信息不易检测到。因而基于筛选出的目标图像进行标注以作为样本输入，可使得模型在训练过程中学习到“更难”以及更多的关键点信息，可以覆盖更多的离散信息量小的待标注图像。这样，通过筛选出的带有实际关键点信息的目标图像用于对目标检测模型和至少一个参考检测模型进行当前轮的模型训练时，目标检测模型和至少一个参考检测模型可以学习到更多的关键点信息，也就可以采用更少的训练样本量就可训练出检测准确性高的目标检测模型，提高了检测模型的训练效率，也节约了模型训练过程中的时间成本。

在一个实施例中，上述确定模块804还用于针对每张待标注图像，确定待标注图像所对应的至少两组关键点预测结果之间的离散程度；基于离散程度，确定待标注图像对应的离散信息量。

在一个实施例中，上述确定模块804还用于对于每张待标注图像，将至少两组关键点预测结果中与相同关键点所对应的预测关键点信息作为一套待处理数据；对于每套待处理数据，计算相应待处理数据所对应的标准差；根据各套待处理数据的标准差，确定待标注图像所对应的至少两组关键点预测结果之间的离散程度。

在一个实施例中，上述确定模块804还用于对于每套待处理数据，基于相应待处理数据中对应第一方向的第一预测关键点信息，确定第一标准差；基于相应待处理数据中对应第二方向的第二预测关键点信息，确定第二标准差；第一方向和第二方向相互垂直；基于第一标准差和第二标准差，确定相应待处理数据所对应的标准差。

在一个实施例中，上述确定模块804还用于针对每套待处理数据，从相对应的第一标准差和第二标准差中，选择数值大的作为待处理数据所对应的标准差。

在一个实施例中，上述确定模块804还用于针对每套待处理数据，从相对应的第一标准差和第二标准差中，选择数值小的作为待处理数据所对应的标准差。

在一个实施例中，上述确定模块804还用于针对每套待处理数据，将相对应的第一标准差和第二标准差进行求和，将得到的总和作为待处理数据所对应的标准差。

在一个实施例中，上述筛选模块806还用于按照各待标注图像所对应的离散信息量的大小，对多张待标注图像进行排序，并基于排序结果从多张待标注图像中筛选出离散信息量最高的指定数量的待标注图像作为目标图像。

在一个实施例中，上述筛选模块806还用于从多张待标注图像中筛选出离散信息量高于信息量阈值的待标注图像作为目标图像。

在一个实施例中，上述检测模型的训练装置还包括归一化处理模块，用于对每张待标注图像进行归一化处理；上述确定模块804还用于根据归一化处理后的每张待标注图像所对应的关键点预测结果，确定每张待标注图像分别对应的离散信息量。

在一个实施例中，上述归一化处理模块还用于获取每张待标注图像中同一参照物的参照距离；基于每张待标注图像的参照距离，对每张待标注图像进行归一化处理；上述确定模块804还用于基于归一化处理后的每张待标注图像所对应的关键点预测结果，确定每张待标注图像分别对应的离散信息量。

在一个实施例中，上述检测模型的训练装置还包括预训练模块，用于采用包括样本关键点信息的多张初始图像对目标检测模型和至少一个参考检测模型进行预训练，得到预训练的目标检测模型以及预训练的至少一个参考检测模型，通过检测模块802分别对每张待标注图像进行关键点检测；上述训练模块808还用于基于包括有实际关键点信息的各目标图像，以及包括有样本关键点信息的各初始图像，对目标检测模型和至少一个参考检测模型分别进行当前轮的模型训练。

在一个实施例中，上述筛选模块806还用于从多张待标注图像中筛选出满足预设属性条件的多样性图像，获取每张多样性图像分别对应的实际关键点信息；上述训练模块808还用于根据包括有实际关键点信息的各目标图像，以及包括有实际关键点信息的各多样性图像，确定训练样本集；基于训练样本集，对目标检测模型和至少一个参考检测模型分别进行当前轮的模型训练。

在一个实施例中，上述筛选模块806还用于确定各目标图像和各多样性图像分别对应的图像属性类别；基于图像属性类别，从目标图像和多样性图像中筛选出图像属性类别满足多样性分布条件的图像，基于筛选出的图像构成训练样本集。

在一个实施例中，上述训练模块808还用于在进行多轮迭代训练过程中，当通过当前轮训练得到的目标检测模型和至少一个参考检测模型，分别对下一轮的待标注图像进行关键点检测所得到的关键点预测结果满足预设精度条件时，确定达到训练停止条件。

在一个实施例中，上述训练模块808还用于通过训练好的目标检测模型对每张训练图像进行关键点检测，得到各训练图像的标准关键点结果；将各训练图像作为样本输入，并将相应训练图像的标准关键点结果作为样本标签，对应用于终端的线上检测模型进行模型训练。

在一个实施例中，待标注图像为人脸图像，所述关键点预测结果为人脸关键点的预测位置信息，所述人脸关键点至少包括眉毛、眼睛、鼻子、嘴巴、及耳朵中的一种。

关于检测模型的训练装置的具体限定可以参见上文中对于检测模型的训练方法的限定，在此不再赘述。上述检测模型的训练装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图9所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储目标检测模型、参考检测模型、待标注图像等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种检测模型的训练方法。

在另一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图10所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、运营商网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种检测模型的训练方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图9和图10中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各方法实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种检测模型的训练方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述根据每张所述待标注图像所对应的所述关键点预测结果，确定每张所述待标注图像分别对应的离散信息量，包括：

针对每张所述待标注图像，确定所述待标注图像所对应的所述至少两组关键点预测结果之间的离散程度；

基于所述离散程度，确定所述待标注图像对应的离散信息量。

3.根据权利要求2所述的方法，其特征在于，所述针对每张所述待标注图像，确定所述待标注图像所对应的所述至少两组关键点预测结果之间的离散程度，包括：

对于每张所述待标注图像，将所述至少两组关键点预测结果中与相同关键点所对应的预测关键点信息作为一套待处理数据；

对于每套待处理数据，计算相应待处理数据所对应的标准差；

根据各套待处理数据的标准差，确定所述待标注图像所对应的所述至少两组关键点预测结果之间的离散程度。

4.根据权利要求3所述的方法，其特征在于，所述对于每套待处理数据，计算相应待处理数据所对应的标准差，包括：

对于每套待处理数据，基于相应待处理数据中对应第一方向的第一预测关键点信息，确定第一标准差；

基于相应待处理数据中对应第二方向的第二预测关键点信息，确定第二标准差；所述第一方向和所述第二方向相互垂直；

基于所述第一标准差和所述第二标准差，确定相应待处理数据所对应的标准差。

5.根据权利要求1所述的方法，其特征在于，所述从多张所述待标注图像中筛选出离散信息量满足目标离散条件的目标图像，包括：

按照各所述待标注图像所对应的离散信息量的大小，对多张所述待标注图像进行排序，并基于排序结果从多张所述待标注图像中筛选出离散信息量最高的指定数量的待标注图像作为目标图像；或者，

从多张所述待标注图像中筛选出离散信息量高于信息量阈值的待标注图像作为目标图像。

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取每张所述待标注图像中同一参照物的参照距离；

基于每张所述待标注图像的所述参照距离，对每张所述待标注图像进行归一化处理；

所述根据每张所述待标注图像所对应的所述关键点预测结果，确定每张所述待标注图像分别对应的离散信息量，包括：

基于归一化处理后的每张所述待标注图像所对应的所述关键点预测结果，确定每张所述待标注图像分别对应的离散信息量。

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

采用包括样本关键点信息的多张初始图像对目标检测模型和至少一个参考检测模型进行预训练，得到预训练的目标检测模型以及预训练的至少一个参考检测模型，执行所述分别对每张待标注图像进行关键点检测的步骤；

所述基于包括有所述实际关键点信息的各所述目标图像，对所述目标检测模型和至少一个参考检测模型分别进行当前轮的模型训练，包括：

基于包括有所述实际关键点信息的各所述目标图像，以及包括有所述样本关键点信息的各所述初始图像，对所述目标检测模型和至少一个参考检测模型分别进行当前轮的模型训练。

8.根据权利要求1所述的方法，其特征在于，所述方法还包括：

从多张所述待标注图像中筛选出满足预设属性条件的多样性图像，获取每张所述多样性图像分别对应的实际关键点信息；

根据包括有实际关键点信息的各所述目标图像，以及包括有实际关键点信息的各所述多样性图像，确定训练样本集；

基于所述训练样本集，对所述目标检测模型和至少一个参考检测模型分别进行当前轮的模型训练。

9.根据权利要求8所述的方法，其特征在于，所述根据包括有实际关键点信息的各所述目标图像，以及包括有实际关键点信息的各所述多样性图像，确定训练样本集，包括：

确定各所述目标图像和各所述多样性图像分别对应的图像属性类别；

基于所述图像属性类别，从所述目标图像和所述多样性图像中筛选出图像属性类别满足多样性分布条件的图像，基于筛选出的图像构成训练样本集。

10.根据权利要求1所述的方法，其特征在于，所述方法还包括：

在进行多轮迭代训练过程中，当通过当前轮训练得到的目标检测模型和至少一个参考检测模型，分别对下一轮的待标注图像进行关键点检测所得到的关键点预测结果满足预设精度条件时，确定达到训练停止条件。

11.根据权利要求1至10中任一项所述的方法，其特征在于，所述方法还包括：

通过训练好的目标检测模型对每张训练图像进行关键点检测，得到各所述训练图像的标准关键点结果；

将各训练图像作为样本输入，并将相应训练图像的标准关键点结果作为样本标签，对应用于终端的线上检测模型进行模型训练。

12.根据权利要求1至10中任一项所述的方法，其特征在于，所述待标注图像为人脸图像，所述关键点预测结果为人脸关键点的预测位置信息，所述人脸关键点至少包括眉毛、眼睛、鼻子、嘴巴、及耳朵中的一种。

13.一种检测模型的训练装置，其特征在于，所述装置包括：

14.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至12中任一项所述的方法的步骤。

15.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至12中任一项所述的方法的步骤。