CN111353325A

CN111353325A - 关键点检测模型训练方法及装置

Info

Publication number: CN111353325A
Application number: CN201811560699.1A
Authority: CN
Inventors: 陈建业; 张爱喜; 史培元; 刘巍; 陈宇
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Priority date: 2018-12-20
Filing date: 2018-12-20
Publication date: 2020-06-30

Abstract

本发明实施例提供一种关键点检测模型训练方法及装置，通过对第一训练数据集进行运动模糊处理得到第二训练数据集，将该第二训练数据集中的每幅图像输入至预先构建好的神经网络模型中，并利用关键点加权欧式距离的损失函数对神经网络进行迭代训练，直到得到收敛的神经网络模型，将该收敛的神经网络模型作为最终的关键点检查模型。该过程中，通过对第一训练数据集包含的主体明确、目标清晰的正常图像进行运动模糊处理，利用该些加入了随机的运动模糊处理的图像训练关键点检测模型，从而训练出能够对含有运动模糊的图像中的人体关键点进行准确检测的关键点检测模型。

Description

关键点检测模型训练方法及装置

技术领域

本发明实施例涉及视觉检测技术领域，尤其涉及一种关键点检测模型训练方法及装置。

背景技术

随着科技的发展以及大数据时代的到来，如何方便、精准的实现视频分析以及人机交互等成为热点问题。其中，人体关键点检测技术作为智能化的视觉检测技术，可以方便的赋予机器识别人体姿态的能力，具备快捷便利、节省人力、降低运行成本的优势，被广泛应用于人机交互、异常行为检测、自动驾驶等领域。

目前，常见的人体关键点识别技术中，将网络的上公开人体关键点数据集或自采集数据集作为训练数据集，对该训练数据集进行神经网络的训练，得到关键点检测模型；并用不同人体关键点的检测值和标注值的欧几里得距离作为损失函数，利用损失函数对关键点检测模型进行迭代，直到得到收敛的关键点检测模型。然后，将图片输入至该关键点检测模型，利用收敛的关键点检测模型对该图片进行分析，输出人体各个关键点在图片中的坐标值；或者，将视频帧输入至该关键点检测模型，利用收敛的关键点检测模型对该视频帧进行分析，输出人体各个关键点在视频帧中的坐标值。

上述训练关键点检测模型的过程中，网上公开的人体关键点数据集或自采集数据集包含主体明确、目标清晰的正常图像。当待检测图像，如图片或视频帧为清晰图像时，利用收敛的关键点检测模型进行关键点检测时，检测准确率较高。然而，在人机交互、视频分析等场景中，由于成像设备能力有限，且目标与成像设备之间存在相对运动，导致成像设备获得的图像存在运动模糊，利用上述的关键点检测模型对模糊图片或视频帧进行关键点检测时，很难准确识别到关键点。

发明内容

本发明实施例提供一种关键点检测模型训练方法及装置，通过对人体关键点加入随机的运动模糊处理，实现训练出能够检测出运动场景中人体关键点的关键点检测模型，提供人体关键点检测的准确率的目的。

第一方面，本发明实施例提供一种关键点检测模型训练方法，包括：

对第一训练数据集中的每幅图像进行运动模糊处理，得到第二训练数据集；

将所述第二训练数据集中的每幅图像输入神经网络模型，并利用损失函数对所述神经网络模型进行迭代，直到所述神经网络模型收敛，将收敛的神经网络模型作为关键点检测模型，所述神经网络模型为预先构建好的模型，所述关键点检测模型用于检测人物图像中人物的关键点。

一种可行的设计中，所述将所述第二训练数据集中的每幅图像输入神经网络模型，并利用损失函数对所述神经网络模型进行迭代，包括：

将所述第二训练数据集中的第一组图像输入至所述神经网络模型，所述第一组图像包含预设数量的图像；

确定所述第一组图像中每类关键点的权重，同一类关键点在所述第一组图像包含的各图像中的不同人物图像上的人体位置相同；

根据各类关键点的权重，更新损失函数；

利用更新后的损失函数更新所述神经网络模型；

将所述第二训练数据集中的第二组图像输入至更新后的神经网络模型，重复上述步骤直到得到收敛的神经网络模型。

一种可行的设计中，所述确定所述第一组图像中每类关键点的权重，包括：

对于第一类关键点，利用所述神经网络模型，预测所述第一组图像中的每幅图像包含的每个人物图像的第一关键点的第一坐标值，所述第一组图像中的每个图像包含至少一个人物图像，每个人物图像上包含所述第一关键点，所述第一类关键点包含各所述第一关键点；

根据各第一关键点的第一坐标值和第二坐标值，确定各所述第一关键点的相似度，所述第二坐标值为预先在人物图像上对所述第一关键点标注的坐标；

根据各所述第一关键点的相似度，确定所述第一类关键点的权重。

一种可行的设计中，所述根据各所述第一关键点的相似度，确定所述第一类关键点的权重，包括：

根据各所述第一关键点的相似度，从所述第一类关键点包含的各第一关键点中，确定出相似度大于第一阈值的第一关键点的第一数量；

根据第一数量和第二数量，确定所述第一类关键点的平均准确率，所述第二数量是所述第一关键点的总数；

根据所述平均准确率，确定所述第一类关键点的权重。

一种可行的设计中，所述根据所述平均准确率，确定所述第一类关键点的权重，包括：

根据准确率公式，确定所述平均准确率；

确定所述平均准确率的倒数，将所述倒数作为所述第一类关键点的权重；其中，所述平均准确率公式为：

其中，AP表示平均准确率，i表示第i类关键点，OKS表示所述相似度，p表示所述第二训练数据集合中的人物图像的编号，thres表示所述第一阈值。

一种可行的设计中，所述根据各第一关键点的第一坐标值和第二坐标值，确定各所述第一关键点的相似度，包括：

利用相似度计算公式，根据各第一关键点的第一坐标值和第二坐标值，确定各所述第一关键点的相似度，所述相似度计算公式为：

其中，OKS表示相似度，p表示所述第二训练数据集合中的人物图像的编号，表示第i类关键点，d_pi表示所述第一坐标值域所述第二坐标值的欧式距离，s_p和σ_i分别为尺度因子，δ(v_pi＝1)为克罗内克函数。

一种可行的设计中，所述对第一训练数据集中的每幅图像进行运动模糊处理，得到第二训练数据集，包括：

随机生成运动速率、角速度和噪声函数；

在第一图像上选择预设数量的关键点，所述第一图像是所述第一训练数据集中的任意一幅图像；

根据待移动关键点的位置，确定第一区域，所述待移动关键点是所述预设数量的关键点中的任意一个关键点；

根据所述运动速度、所述角速度和所述噪声函数，移动所述第一区域中的每个点，得到第二区域；

叠加所述第二区域与所述第一图像，得到所述第二训练数据集。

一种可行的设计中，所述根据所述运动速度、所述角速度和所述噪声参数，移动所述第一区域中的每个点，得到第二区域，包括：

根据移动公式，以及运动速度、所述角速度和所述噪声参数，移动所述第一区域中的每个点，得到第二区域，所述移动公式为：

其中，dst为所述第一点移动后的坐标值，src表示所述第一图像，x和y分别表示所述第一点移动前的x坐标和y坐标，所述运动速度为v，所述角速度为

所述

所述

noisy表示噪声函数，所述第一点为所述第一区域内的任意一个点。

一种可行的设计中，所述将所述第二训练数据集中的每幅图像输入神经网络模型，并利用损失函数对所述神经网络模型进行迭代之后，还包括：

将待检测图像转换为红绿蓝RGB图像，将所述RGB图像输入至所述关键点检测模型，得到所述RGB图像中各关键点的概率置信图；

根据各概率置信图的最大概率点的位置，将所述最大概率点的位置作为所述概率置信图对应的关键点的坐标位置。

第二方面，本发明实施例提供一种关键点检测模型训练装置，包括：

处理模块，用于对第一训练数据集中的每幅图像进行运动模糊处理，得到第二训练数据集；

训练模块，用于将所述第二训练数据集中的每幅图像输入神经网络模型，并利用损失函数对所述神经网络模型进行迭代，直到所述神经网络模型收敛，将收敛的神经网络模型作为关键点检测模型，所述神经网络模型为预先构建好的模型，所述关键点检测模型用于检测人物图像中人物的关键点。

一种可行的设计中，所述训练模块，具体用于将所述第二训练数据集中的第一组图像输入至所述神经网络模型，所述第一组图像包含预设数量的图像；确定所述第一组图像中每类关键点的权重，同一类关键点在所述第一组图像包含的各图像中的不同人物图像上的人体位置相同；根据各类关键点的权重，更新损失函数；利用更新后的损失函数更新所述神经网络模型；将所述第二训练数据集中的第二组图像输入至更新后的神经网络模型，重复上述步骤直到得到收敛的神经网络模型。

一种可行的设计中，所述训练模块，在确定所述第一组图像中每类关键点的权重时，用于对于第一类关键点，利用所述神经网络模型，预测所述第一组图像中的每幅图像包含的每个人物图像的第一关键点的第一坐标值，所述第一组图像中的每个图像包含至少一个人物图像，每个人物图像上包含所述第一关键点，所述第一类关键点包含各所述第一关键点；根据各第一关键点的第一坐标值和第二坐标值，确定各所述第一关键点的相似度，所述第二坐标值为预先在人物图像上对所述第一关键点标注的坐标；根据各所述第一关键点的相似度，确定所述第一类关键点的权重。

一种可行的设计中，所述训练模块，在根据各所述第一关键点的相似度，确定所述第一类关键点的权重时，用于根据各所述第一关键点的相似度，从所述第一类关键点包含的各第一关键点中，确定出相似度大于第一阈值的第一关键点的第一数量；根据第一数量和第二数量，确定所述第一类关键点的平均准确率，所述第二数量是所述第一关键点的总数；根据所述平均准确率，确定所述第一类关键点的权重。

一种可行的设计中，所述训练模块，在根据所述平均准确率，确定所述第一类关键点的权重时，用于根据准确率公式，确定所述平均准确率；

一种可行的设计中，所述训练模块，在根据各第一关键点的第一坐标值和第二坐标值，确定各所述第一关键点的相似度时，是利用相似度计算公式，根据各第一关键点的第一坐标值和第二坐标值，确定各所述第一关键点的相似度，所述相似度计算公式为：

一种可行的设计中，所述处理模块，具体用于随机生成运动速率、角速度和噪声函数；

在第一图像上选择预设数量的关键点，所述第一图像是所述第一训练数据集中的任意一幅图像；根据待移动关键点的位置，确定第一区域，所述待移动关键点是所述预设数量的关键点中的任意一个关键点；根据所述运动速度、所述角速度和所述噪声函数，移动所述第一区域中的每个点，得到第二区域；叠加所述第二区域与所述第一图像，得到所述第二训练数据集。

一种可行的设计中，所述处理模块，在根据所述运动速度、所述角速度和所述噪声参数，移动所述第一区域中的每个点，得到第二区域时，用于根据移动公式，以及运动速度、所述角速度和所述噪声参数，移动所述第一区域中的每个点，得到第二区域，所述移动公式为：

所述

所述

一种可行的设计中，上述的装置还包括：

检测模块，用于在所述训练模块将所述第二训练数据集中的每幅图像输入神经网络模型，并利用损失函数对所述神经网络模型进行迭代之后，将待检测图像转换为红绿蓝RGB图像，将所述RGB图像输入至所述关键点检测模型，得到所述RGB图像中各关键点的概率置信图；根据各概率置信图的最大概率点的位置，将所述最大概率点的位置作为所述概率置信图对应的关键点的坐标位置。

第三方面，本发明实施例提供一种关键点检测模块训练装置，包括处理器、存储器及存储在所述存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如上第一方面或第一方面的各种可行的实现方式所述的方法。

第四方面，本发明实施例提供一种存储介质，所述存储介质中存储有指令，当其在计算机上运行时，使得计算机执行如上第一方面或第一方面的各种可行的实现方式所述的方法。

第五方面，本发明实施例提供一种计算机程序产品，所述计算机程序产品在计算机上运行时，使得计算机执行如上第一方面或第一方面的各种可行的实现方式所述的方法。

本发明实施例提供的关键点检测模型训练方法及装置，通过对第一训练数据集进行运动模糊处理得到第二训练数据集，将该第二训练数据集中的每幅图像输入至预先构建好的神经网络模型中，并利用关键点加权欧式距离的损失函数对神经网络进行迭代训练，直到得到收敛的神经网络模型，将该收敛的神经网络模型作为最终的关键点检查模型。该过程中，通过对第一训练数据集包含的主体明确、目标清晰的正常图像进行运动模糊处理，利用该些加入了随机的运动模糊处理的图像训练关键点检测模型，从而训练出能够对含有运动模糊的图像中的人体关键点进行准确检测的关键点检测模型。另外，训练关键点检测模型的过程中，利用关键点加权欧式距离的损失函数调节各关键点的权重，从而突出识别效果较差的关键点，进一步的提升了关键点检测模型的准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种关键点检测模型训练方法的流程图；

图2是本发明实施例提供的一种关键点检测模型训练方法中的运动模糊处理的流程图；

图3是本发明实施例提供的一种关键点检测模型训练方法中经过运动模糊处理的图像的示意图；

图4是本发明实施例提供的一种关键点检测模型训练方法中的关键点自适应权重调整的流程图；

图5是本发明实施例提供的一种关键点检测模型训练方法中的确定关键点权重的流程图；

图6是本发明实施例提供的一种关键点检测模型训练方法中检测关键点的流程图；

图7为本发明实施例提供的一种关键点检测模型训练装置的结构示意图；

图8为本发明实施例提供的另一种关键点检测模型训练装置的结构示意图；

图9为本发明实施例提供的又一种电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

目前，训练关键点检测模型的过程中，采用的是网络上公开的人体关键点数据集或自采集数据集，该些训练数据集包含主体明确、目标清晰的正常图像。利用该训练数据集训练得到的关键点检测模型能够准确识别清晰图像中的人物的关键点。然而，在人机交互、视频分析等场景，由于成像设备的能力有限，且目标与成像设备之间存在相对运动，使得成像设备采集的图像包含模糊图像。这种场景下，采用上述安定关键点检测模型对含有运动模糊的图像中的人体关键点进行检测，则会出现难以识别出目标关键点或定位偏差较大等现象，导致人体关键点识别效果差。为了消除运动模糊，若单纯对成像设备的硬件进行升级，则会提升硬件成本呢支出。另外，上述训练关键点检测模型的过程中，采用不同人体关键点的检测值和标注值的欧几里得距离之和作为损失函数，由于多个关键点同时存在，则会出现较容易检测到的关键点掩盖其他关键的现象。例如，一种图像上共有10个人体关键点，其中8个关键点很容易被检测到，另外两个不易被检测到，根据该10个关键点得到的损失函数较小，使得关键点检测模型误认为能够准确识别该10个关键点。事实上，关键点检测模型无法准确识别出其中2个不易检测到的关键点。

有鉴于此，本发明实施例提供一种关键点检测模型训练方法。该方法中，首先在主体明确、目标清晰的正常图像构成的训练数据集(以下称之为第一训练数据集)的基础上，模拟成像设备与目标之间的相对移动，对人体关键点加入随机的运动模糊处理，得到第二训练数据集合；其次，在模型训练过程中，根据不同的关键点的识别准确情况，调节其在损失函数中的权重，从而突出识别较差的关键点，从而保证整个训练过程中平衡所有类别的关键点，达到优化关键点检测模型的效果。

本发明实施例提供的关键点检测模型训练方法可应用于需要对人体关键点进行检测的任何场景，执行关键点检测模型训练方法的关键点检测模型训练装置可以设置在客户端的电子设备上，也可以设置在服务器上，电子设备例如可以是计算机设备、移动终端设备、自动驾驶车载设备、人机交互设备以及其他人工智能设备。下面，对本发明实施例所述的关键点检测模型训练方法进行详细说明。示例性的，请参照图1。

图1是本发明实施例提供的一种关键点检测模型训练方法的流程图。本实施例的执行主体是关键点检测模型训练装置，该装置可以通过软件、硬件或者软硬件结合的方式实现，该装置可以是电子设备的部分或者全部，也可以是服务器的部分或全部。本实施以该关键点检测模型训练方法应用于电子设备为例进行说明，本实施例包括：

101、对第一训练数据集中的每幅图像进行运动模糊处理，得到第二训练数据集，所述第二训练数据集合包含至少一幅图像。

本发明实施例中，关键点检测模型训练方法包括两个阶段：第一阶段、训练数据准备阶段；第二阶段，利用训练数据训练关键点检测模型阶段。

本步骤中，电子设备在第一阶段，对第一训练数据集中的各个正常图像进行运动模糊处理，得到第二训练数据集。其中，第一训练数据集中包含主体明确、目标清晰的正常图像。

102、将所述第二训练数据集中的每幅图像输入神经网络模型，并利用损失函数对所述神经网络模型进行迭代，直到所述神经网络模型收敛，将收敛的神经网络模型作为关键点检测模型，所述神经网络模型为预先构建好的模型，所述关键点检测模型用于检测人物图像中人物的关键点。

本步骤中，将第二训练数据集中的每幅图像输入至预先构建好的神经网络模型中，并利用损失函数对该神经网络模型进行迭代训练，直到训练出收敛的神经网络模型，将该收敛的神经网络模型作为最终的关键点检测模型。

本发明实施例提供的关键点检测模型训练方法，通过对第一训练数据集进行运动模糊处理得到第二训练数据集，将该第二训练数据集中的每幅图像输入至预先构建好的神经网络模型中，并利用关键点加权欧式距离的损失函数对神经网络进行迭代训练，直到得到收敛的神经网络模型，将该收敛的神经网络模型作为最终的关键点检查模型。该过程中，通过对第一训练数据集包含的主体明确、目标清晰的正常图像进行运动模糊处理，利用该些加入了随机的运动模糊处理的图像训练关键点检测模型，从而训练出能够对含有运动模糊的图像中的人体关键点进行准确检测的关键点检测模型。另外，训练关键点检测模型的过程中，利用关键点加权欧式距离的损失函数调节各关键点的权重，从而突出识别效果较差的关键点，进一步的提升了关键点检测模型的准确性。

下面，对上述实施例中，第一阶段中的运动模糊处理以及第二阶段中的关键点自适应权重调整进行详细说明。

首先，第一阶段的运动模糊处理。

示例性的，可参见图2，图2是本发明实施例提供的一种关键点检测模型训练方法中的运动模糊处理的流程图，本实施例包括：

201、获取第一训练数据集。

本步骤中，收集若干图像作为第一训练数据集，该第一训练数据集包含主体明确、目标清晰的人物图像。然后，对于第一训练数据集中的每一幅第一图像，在该第一图形上标记人物所在位置，以及关键点位置。其中，人物所在位置用四元组(x,y,w,h)表示，该四元组中，x表示左上角点横坐标，y表示左上角点纵坐标，w表示框的宽度，h表示框的高度，根据该四元组，可以确定出一个人物矩形框；人物所在位置也可以用四元组(x₁,y₁,x₂,y₂)表示，该四元组中，x₁表示左上角点横坐标，y₁表示左上角点纵坐标，x₂表示右下角点横坐标，y₂表示右下角点纵坐标，根据该四元组，可以确定出一个人物矩形框。人体关键点位置用三元组(x,y,c)表示，x表示横坐标，y表示纵坐标，c表示状态，状态包括可见、遮挡不可见、在图内或不可推测等。

202、随机生成运动速度、角速度和噪声函数。

本步骤中，根据预设速度[v_low,v_up]和角度

大小范围，随机生成运动速率v与运动角度

以及噪声函数noisy(x,y)。得到

v_x和v_y分别表示v在水平和垂直方向上的分量。

203、在第一图像上选择预设数量的关键点，所述第一图像是所述第一训练数据集中的任意一幅图像。

本步骤中，对于第一训练数据集中的每一幅图像，以下称之为第一图像，将该第一图像作为源图像src，并在第一图像中随机选择零个或多个可见的人体关键点，以准备进行运动模糊处理。

204、根据待移动关键点的位置，确定第一区域，所述待移动关键点是所述预设数量的关键点中的任意一个关键点；

本步骤中，对于预设数量的关键点中的每一个关键点，即待移动关键点，根据该待移动关键点的位置，确定第一区域，该第一区域例如是以待移动关键点为圆心，以预设长度为半径得到的圆形区域，或者，该第一区域是以待移动关键点为中心的正方形等，本发明实施例并不限制。

205、根据所述运动速度、所述角速度和所述噪声函数，移动所述第一区域中的每个点，得到第二区域。

本步骤中，根据上述步骤201中得到的运动速度、角速度和噪声函数等，对第一区域中的每个点进行平移，得到第二区域。平移过程中，将待移动关键点周围一定范围内的图像，即第一区域内的图像按照运动速率和角速度进行移动。对于第一区域内的任意一个坐标点，以下称之为第一坐标点，该第一坐标点的坐标为(x，y)，可以根据移动公式对该坐标进行移动。其中，移动公式为：

其中，dst为第一点移动后的坐标值，src表示所述第一图像，x和y分别表示所述第一点移动前的x坐标和y坐标，所述运动速度为v，所述角速度为

所述

所述

noisy表示噪声函数，第一点为第一区域内的任意一个点。

根据该步骤可知：运动模糊处理过程中，对于一个关键而言，是对该关键点周围的一小块图像进行移动。

206、叠加所述第二区域与所述第一图像。

本步骤中，通过积分处理等叠加第二区域与第一图像。其中，积分处理例如是通过离散叠加进行模拟的。

需要说明的是，由于第一训练数据集中有多个第一图像，每个第一图像上至少存在一个人物图像，因此，经过步骤204和205的处理后，可以得到多幅叠加了第二区域的第一图像。

另外，还需要说明的是，为了使得关键点检测模型能够用于检测包含运动模糊的图像中的关键点，也能够用于检测包含主体明确、目标清晰的图像中的关键点，上述步骤203中，对于第一训练数据集中的某些第一图像，也可以选择零个关键点，即对第一训练数据集中的部分人物图像不做运动模糊处理，该人物图像可以是包含在多幅图中的人物图像，也可以是一幅图中的多个人物图像。

207、对叠加了第二区域的第一图像进行归一化处理。

本步骤中，对每幅叠加了第二区域的第一图像进行归一化处理，从而将第二区域内的图像归一化到第一区域原始像素范围内，以保证颜色的正确性。对各叠加了第二区域的第一图像进行归一化处理后，得到第二训练数据集，该第二训练数据集中的每幅图像是经过运动模糊处理的图像。

208、判断是否达到迭代上限，若到达迭代上限，则执行209；若未达到迭代上限，则执行204。

本步骤中，电子是判断是否到达预设的迭代次数上限，若到达迭代上限，则执行209；若未达到迭代上限，则返回步骤204，再次随机选择一幅图像，并随机选择关键点进行运动模糊处理。

209、根据归一化后的图像得到的第二训练数据集合。

上述第一阶段准备训练数据集的过程中，对第一训练数据集中的各幅图像的关键点进行随机的运动模糊处理，可以使得关键点检测模型对实际场景下的运动模糊识别具有更好的鲁棒性，无需增加成像设备的硬件成本，同时，降低了训练数据集的收集成本。示例性的，可参见图3，图3是本发明实施例提供的一种关键点检测模型训练方法中经过运动模糊处理的图像的示意图。请参照图3，图3中的(a)表示第一训练数据集合中主题明确、目标清晰的图像，该图像为人物的左手腕的局部图；图3中的(b)表示第二训练数据集中经过运动模糊处理的图像，该图像相较于(b)中的图像，模糊不清。图3的(a)和(b)中，白色圆点表示左手腕关键点。

在对第一训练数据集添加运动模糊处理后，使用运动模糊数据集，即第二训练数据集进行关键点检测模型的训练过程中，完成加入不同关键点的自适应权重调整。示例性的，可参见下述第二阶段。

其次，第二阶段中的关键点自适应权重调整。

示例性的，可参见图4，图4是本发明实施例提供的一种关键点检测模型训练方法中的关键点自适应权重调整的流程图，本实施例包括：

301、构建神经网络模型。

本步骤中，预先构建神经网络模型，如残留的神经网络(residual neuralnetwork，Resnet)模型、突变级数(catastrophe progression method，CPM)神经网络模型等。该神经网络模型的参数主要包含卷积层的卷积权重和卷积核偏置等，参数的初始值可以通过随机初始化或预训练模型获取。

302、将第二训练数据集中的第一组图像输入至所述神经网络模型，所述第一组图像包含预设数量的图像。

通常而言，第二训练数据集中包含数万计、甚至更多的图像。关键点检测模型训练过程中，根据电子设备的硬件能力，分组将第二训练数据集中的所有图像输入至神经网络模型。其中，每组图像例如为32幅、64幅、128幅等。

303、确定所述第一组图像中每类关键点的权重，同一类关键点在所述第一组图像包含的各图像中的不同人物图像上的人体位置相同。

本发明实施例中，第二训练数据集包含多幅图像，每幅图像上包含至少一个人物，每个人物具有预设数量的人体关键点，如14个或28个等，每个关键点位于人体不同的位置。以14个关键点为例，该些关键点包括右肩、右肘、右腕、左肩、左肘、左腕、右髋、右膝、右踝、左髋、左膝、左踝、头顶和脖子等。由于第一组图像包含多个人物图像，理论上不遮挡的情况下每个人物都具有该14个关键点。因此，对于所有的人物图像而言，共有14类关键点，同一类关键点在第一组图像包含的各图像中的不同人物图像上的人体位置相同，例如，右肩类关键点、右肘类关键点。本步骤中，确定每类关键点的权重，例如，确定出右肩类关键点的权重、右肘类关键点的权重、右膝类关键点的权重。

304、根据各类关键点的权重，更新损失函数；

本实施例中，假设初始的损失函数是利用不同关键点的检测值和标注值的欧几里得距离之和得到的，该初始损失函数并未考虑不同类别的关键点的权重。本步骤中，根据上述步骤303得到的各类关键点的权重，更新初始的损失函数，得到关键点加权欧式距离的损失函数。

305、利用更新后的损失函数更新所述神经网络模型。

306、判断更新后的神经网络模型是否收敛，若更新后的神经网络模型不收敛，则返回执行307，若更新后的神经网络模型收敛，则执行308。

307、将所述第二训练数据集中的第二组图像输入至更新后的神经网络模型，重复上述步骤直到得到收敛的神经网络模型。

308、根据收敛的神经网络模型得到关键点检测模型。

下面，对上述步骤303中如何确定第一组图像中每类关键点的权重进行详细说明。示例性的，可参见图5，图5是本发明实施例提供的一种关键点检测模型训练方法中的确定关键点权重的流程图，本实施例包括：

401、对于第一类关键点，利用所述神经网络模型，预测所述第一组图像中的每幅图像包含的每个人物图像的第一关键点的第一坐标值。

本发明实施例中，第一组图像中的每幅图像中，每个人物的第一关键点的总和称之为第一类关键点，以人体共有14种关键点为例，该第一类关键点是14种关键点中的任意一种，例如，右肩类关键点、右肘类关键点等。

本步骤中，利用神经网络模型，预测第一类关键点包含的各个第一关键点的第一坐标值。

402、根据各第一关键点的第一坐标值和第二坐标值，确定各所述第一关键点的相似度。

其中，所述第二坐标值为预先在人物图像上对所述第一关键点标注的坐标。

本步骤中，得到第一关键点的第一坐标值和第二坐标值，即标注的坐标和通过神经网络模型的预测值后，根据该第一坐标值和第二坐标值得到第一关键点的欧式距离。然后，根据欧式距离等，确定第一关键点的相似度。确定过程中，使用相似度计算公式确定相似度，其中，相似度计算公式为：

假设第一组图像共有32幅图，每幅图上有一个人物，假设第一关键点为右肘关键点，则不遮挡的情况下，本步骤中，共计算出32个右肘类关键点的相似度。

403、根据各所述第一关键点的相似度，从所述第一类关键点包含的各第一关键点中，确定出相似度大于第一阈值的第一关键点的第一数量。

本步骤中，对比各个第一关键点的相似度与预设的第一阈值的大小，从而确定出相似度大于第一阈值的第一关键点的数量。例如，假设第一阈值为0.5，32个右肘类关键点中，相似度超过0.5的关键点有20个，相似度未超过0.5的有12个；再如，假设第一阈值为0.6，32个左肩类关键点中，相似度超过0.5的有8个，相似度未超过0.5的有24个。

404、根据第一数量和第二数量，确定所述第一类关键点的平均准确率，所述第二数量是所述第一关键点的总数。

本步骤中，可以使用准确率公式，确定平均准确率，准确率公式为：

其中，AP表示平均准确率，i表示第i类关键点，OKS表示所述相似度，p表示所述第二训练数据集合中的人物图像的编号，thres表示所述第一阈值。继续沿用步骤403中的例子，第一类关键点为右肘类关键点时，平均准确率为

第一类关键点为左肩类关键点时，平均准确率为

也就是说，神经网络模型对右肘类关键点的识别准确率较高，对左肩类关键点的识别准确类较低。

405、根据所述平均准确率，确定所述第一类关键点的权重。

本发明实施例中，根据平均准确率确定第一类关键点的权中。例如，确定平均准确率的倒数，将该倒数作为所述第一类关键点的权重。继续沿用上述步骤403中的例子，则右肘类关键点的权重为

左肩类的关键点的权重为4。由此可知：自适应调整权重后，原本识别准确率低的左肩类关键点的权重自动提高，即突出了识别较差的关键点的权重，提高识别较差的关键点的准确率。

本实施例中，在计算得到各个关键点的权重后，根据该各类关键点的权重，更新损失函数。其中，损失函数的公式如下：

其中，P表示所述第二训练数据集合中的人物图像的编号，J表示人体关键点类别总量，z表示特征图范围Z中的坐标，

和

分别表示编号为p的人物图像的关键点j的输出特征图和目标特征图，通过欧式距离衡量两者的不一致程度，w_j表示第j类关键点的权重。其中，输出的特征图例如为对各个关键点利用神经网络模型预测到的坐标值得到的，目标特征图例如为对各个关键点的坐标进行标注得到的。

上述第二阶段训练关键点检测模型的过程中，采用关键点加权欧式距离作为损失函数，能够突出优化识别较差的关键点，从而提升关键点检测模型对各个关键点的检测精度。

本发明实施例中，通过上述第一阶段和第二阶段后，得到收敛的神经网络模型，即关键点检测模型。之后，需要检测关键点的时候，将待检测的图像转换为红绿蓝(red greenblue，RGB)图像后，将该RGB图像输入至关键点检测模型，使得关键点检测模型输出RGB图像上各个人体关键点的坐标值。下面，对如何利用关键点检测模型进行人体关键点检测进行详细说明。示例性的，可参见图6，图6是本发明实施例提供的一种关键点检测模型训练方法中检测关键点的流程图，本实施例包括：

501、获取待检测图像。

本步骤中，获取成像设备采集的图形，

502、确定待检测图像是否为RGB图像，若待检测图像为RGB图像，则执行504；若待检测图像不为RGB图像，则执行503；

503、将待检测图像转换为RGB图像，执行步骤504；

504、将RGB图像输入至关键点检测模型，得到所述RGB图像中各关键点的概率置信图。

505、根据各概率置信图的最大概率点的位置，将所述最大概率点的位置作为所述概率置信图对应的关键点的坐标位置。

上述步骤504与505中，将彩色的RGB图像输入至训练好的关键点检测模型中，利用前向算法等计算各个人体关键点的概率置信图，并取每张概率置信图中最大概率点的位置作为该关键点的坐标值，从而输出所有的关键点的位置坐标。

下述为本发明装置实施例，可以用于执行本发明方法实施例。对于本发明装置实施例中未披露的细节，请参照本发明方法实施例。

图7为本发明实施例提供的一种关键点检测模型训练装置的结构示意图，该关键点检测模型训练装置可以通过软件和/或硬件的方式实现。如图7所示，该关键点检测模型训练装置100包括：

处理模块11，用于对第一训练数据集中的每幅图像进行运动模糊处理，得到第二训练数据集；

训练模块12，用于将所述第二训练数据集中的每幅图像输入神经网络模型，并利用损失函数对所述神经网络模型进行迭代，直到所述神经网络模型收敛，将收敛的神经网络模型作为关键点检测模型，所述神经网络模型为预先构建好的模型，所述关键点检测模型用于检测人物图像中人物的关键点。

一种可行的设计中，所述训练模块12，具体用于将所述第二训练数据集中的第一组图像输入至所述神经网络模型，所述第一组图像包含预设数量的图像；确定所述第一组图像中每类关键点的权重，同一类关键点在所述第一组图像包含的各图像中的不同人物图像上的人体位置相同；根据各类关键点的权重，更新损失函数；利用更新后的损失函数更新所述神经网络模型；将所述第二训练数据集中的第二组图像输入至更新后的神经网络模型，重复上述步骤直到得到收敛的神经网络模型。

一种可行的设计中，所述训练模块12，在确定所述第一组图像中每类关键点的权重时，用于对于第一类关键点，利用所述神经网络模型，预测所述第一组图像中的每幅图像包含的每个人物图像的第一关键点的第一坐标值，所述第一组图像中的每个图像包含至少一个人物图像，每个人物图像上包含所述第一关键点，所述第一类关键点包含各所述第一关键点；根据各第一关键点的第一坐标值和第二坐标值，确定各所述第一关键点的相似度，所述第二坐标值为预先在人物图像上对所述第一关键点标注的坐标；根据各所述第一关键点的相似度，确定所述第一类关键点的权重。

一种可行的设计中，所述训练模块12，在根据各所述第一关键点的相似度，确定所述第一类关键点的权重时，用于根据各所述第一关键点的相似度，从所述第一类关键点包含的各第一关键点中，确定出相似度大于第一阈值的第一关键点的第一数量；根据第一数量和第二数量，确定所述第一类关键点的平均准确率，所述第二数量是所述第一关键点的总数；根据所述平均准确率，确定所述第一类关键点的权重。

一种可行的设计中，所述训练模块12，在根据所述平均准确率，确定所述第一类关键点的权重时，用于根据准确率公式，确定所述平均准确率；

一种可行的设计中，所述训练模块12，在根据各第一关键点的第一坐标值和第二坐标值，确定各所述第一关键点的相似度时，是利用相似度计算公式，根据各第一关键点的第一坐标值和第二坐标值，确定各所述第一关键点的相似度，所述相似度计算公式为：

一种可行的设计中，所述处理模块11，具体用于随机生成运动速率、角速度和噪声函数；

一种可行的设计中，所述处理模块11，在根据所述运动速度、所述角速度和所述噪声参数，移动所述第一区域中的每个点，得到第二区域时，用于根据移动公式，以及运动速度、所述角速度和所述噪声参数，移动所述第一区域中的每个点，得到第二区域，所述移动公式为：

所述

所述

图8为本发明实施例提供的另一种关键点检测模型训练装置的结构示意图，该关键点检测模型训练装置在上述图7的基础上，进一步的，还包括：

检测模块13，用于在所述训练模块12将所述第二训练数据集中的每幅图像输入神经网络模型，并利用损失函数对所述神经网络模型进行迭代之后，将待检测图像转换为红绿蓝RGB图像，将所述RGB图像输入至所述关键点检测模型，得到所述RGB图像中各关键点的概率置信图；根据各概率置信图的最大概率点的位置，将所述最大概率点的位置作为所述概率置信图对应的关键点的坐标位置。

本发明实施例提供的关键点检测模型训练装置，其实现原理和技术可参见上述方法实施例，在此不再赘述。

图9为本发明实施例提供的又一种电子设备的结构示意图。如图9所示，该电子设备200包括：

至少一个处理器21和存储器22；

所述存储器22存储计算机执行指令；

所述至少一个处理器21执行所述存储器22存储的计算机执行指令，使得所述至少一个处理器21执行如上所述的关键点检测模型训练方法。

处理器21的具体实现过程可参见上述方法实施例，其实现原理和技术效果类似，本实施例此处不再赘述。

可选地，该电子设备200还包括通信部件23。其中，处理器21、存储器22以及通信部件23可以通过总线24连接。

本发明实施例还提供一种存储介质，所述存储介质中存储有计算机执行指令，所述计算机执行指令被处理器执行时用于实现如上所述的关键点检测模型训练方法。

本发明实施例还提供一种计算机程序产品，当所述计算机程序产品在计算机上运行时，使得计算机执行如上述关键点检测模型训练方法。

在上述的实施例中，应该理解到，所描述的设备和方法，可以通过其它的方式实现。例如，以上所描述的设备实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能模块可以集成在一个处理单元中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个单元中。上述模块成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能模块的形式实现的集成的模块，可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中，包括若干指令用以使得一台电子设备(可以是个人计算机，服务器，或者网络设备等)或处理器(英文：processor)执行本发明各个实施例所述方法的部分步骤。

应理解，上述处理器可以是中央处理单元(central processing unit，CPU)，还可以是其他通用处理器、数字信号处理器(digital signal processor，DSP)、专用集成电路(application specific integrated circuit，ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合发明所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

存储器可能包含高速RAM存储器，也可能还包括非易失性存储NVM，例如至少一个磁盘存储器，还可以为U盘、移动硬盘、只读存储器、磁盘或光盘等。

总线可以是工业标准体系结构(industry standard architecture，ISA)总线、外部设备互连(peripheral component，PCI)总线或扩展工业标准体系结构(extendedIndustry standard architecture，EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，本发明附图中的总线并不限定仅有一根总线或一种类型的总线。

上述存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。存储介质可以是通用或专用计算机能够存取的任何可用介质。

一种示例性的存储介质耦合至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息。当然，存储介质也可以是处理器的组成部分。处理器和存储介质可以位于专用集成电路(application specific integrated circuits，ASIC)中。当然，处理器和存储介质也可以作为分立组件存在于终端或服务器中。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。