CN113361380A

CN113361380A - 人体关键点检测模型训练方法、检测方法及装置

Info

Publication number: CN113361380A
Application number: CN202110617016.7A
Authority: CN
Inventors: 何涛
Original assignee: Shanghai Bilibili Technology Co Ltd
Current assignee: Shanghai Bilibili Technology Co Ltd
Priority date: 2021-06-03
Filing date: 2021-06-03
Publication date: 2021-09-07
Anticipated expiration: 2041-06-03
Also published as: CN113361380B

Abstract

本申请公开了一种人体关键点检测模型训练方法、装置。该方法包括：获取训练样本数据集，所述训练样本数据集包括多组人体图片；将各组人体图片输入至神经网络模型中，以通过神经网络模型输出第一、第二预测人体关键点；对第二预测人体关键点执行逆变换操作得到第三预测人体关键点；根据原始人体图片的人体关键点和第三预测人体关键点确定第一损失值，并根据原始人体图片、增广人体图片的人体关键点、第一、第二预测人体关键点确定第二损失值；基于第一、第二损失值构建损失函数；根据损失函数对神经网络模型的模型参数进行更新，直至满足预设条件，得到训练好的人体关键点检测模型。本申请可提高模型的检测精度。

Description

人体关键点检测模型训练方法、检测方法及装置

技术领域

本申请涉及图像处理技术领域，尤其涉及一种人体关键点检测模型训练方法、检测方法及装置。

背景技术

人体关键点检测也称为人体关键点定位，定位出人体的关键区域位置，包括人脸、手、足等。人体关键点检测是人体识别任务中重要的基础环节，人体关键点的精确检测对众多科研和应用课题具有关键作用，例如，人脸姿态矫正、姿态识别、表情识别、疲劳监测、嘴型识别等。

在现有技术中，人体关键点检测和人体检测类似，由于受到姿态和遮挡、抖动等各种因素的影响，比如，在对视频中的各个视频帧中的人体关键点进行检测时，由于视频画面会经常出现抖动。发明人发现，现有的人体关键点检测模型在这种场景下对人体图片进行检测时，模型的检测精度不高。

发明内容

有鉴于此，现提供一种人体关键点检测模型训练方法、装置、计算机设备及计算机可读存储介质，以解决现有的人体关键点检测模型的检测精度不高的问题。

本申请提供了一种人体关键点检测模型训练方法，包括：

获取训练样本数据集，所述训练样本数据集包括多组人体图片，每组人体图片包括一张原始人体图片以及至少一张对所述原始人体图片进行图像增广处理后得到的增广人体图片，每张原始人体图片及每张增广人体图片都具有人体关键点；

将各组人体图片输入至预设的神经网络模型中，并通过所述神经网络模型输出每组人体图片中的原始人体图片的第一预测人体关键点和各张增广人体图片的第二预测人体关键点；

对所述第二预测人体关键点执行所述图像增广处理的逆变换操作得到第三预测人体关键点；

根据所述原始人体图片的人体关键点、第一预测人体关键点、所述第二预测人体关键点、所述第三预测人体关键点及所述增广人体图片的人体关键点计算所述神经网络模型的损失函数；

根据所述损失函数对所述神经网络模型的模型参数进行更新，直至所述损失函数满足预设条件，得到训练好的人体关键点检测模型。

可选地，所述根据所述原始人体图片的人体关键点、第一预测人体关键点、所述第二预测人体关键点、所述第三预测人体关键点及所述增广人体图片的人体关键点计算所述神经网络模型的损失函数包括：

根据所述原始人体图片的人体关键点和所述第三预测人体关键点确定第一损失值，并根据所述原始人体图片的人体关键点、所述第一预测人体关键点、所述增广人体图片的人体关键点及所述第二预测人体关键点确定第二损失值；

根据所述第一损失值和所述第二损失值计算所述神经网络模型的损失函数。

可选地，所述根据所述原始人体图片的人体关键点、所述第一预测人体关键点、所述增广人体图片的人体关键点及所述第二预测人体关键点确定第二损失值包括：

根据所述原始人体图片的人体关键点及所述第一预测人体关键点确定第三损失值；

根据所述增广人体图片的人体关键点及所述第二预测人体关键点确定第四损失值；

将所述第三损失值和所述第四损失值的和值或平均值作为所述第二损失值。

可选地，当原始人体图像存在对应的至少两张增广人体图片时，所述根据所述原始人体图片的人体关键点及所述第一预测人体关键点确定第三损失值包括：

计算所述原始人体图片的人体关键点及各个第一预测人体关键点的第五损失值；

将计算得到的各个第五损失值的和值或平均值作为所述第三损失值；

所述根据所述增广人体图片的人体关键点及所述第二预测人体关键点确定第四损失值包括：

计算各个增广人体图片的人体关键点与对应的第二预设人体关键点的第六损失值；

将计算得到的各个第六损失值的和值或平均值作为所述第四损失值。

可选地，所述根据所述第一损失值和所述第二损失值计算所述神经网络模型的损失函数包括：

获取所述第一损失值的第一权重，以及所述第二损失值的第二权重；

根据所述第一损失值、所述第一权重、所述第二损失值和所述第二权重计算所述损失函数。

可选地，所述方法还包括：

获取多张带有人体关键点标注的原始人体图片；

对每张原始人体图片都执行图像增广处理，得到对应的增广人体图片，其中，增广人体图片的人体关键点通过对原始人体图片的人体关键点执行对应的操作得到；

将每一张原始人体图片和对应的增广人体图片作为所述训练样本数据集中的一组人体图片。

可选地，所述根据所述损失函数对所述神经网络模型的模型参数进行更新，直至所述损失函数满足预设条件，得到训练好的人体关键点检测模型包括：

根据所述损失函数，采用随机梯度下降法对所述神经网络模型的模型参数进行更新，直至所述损失函数满足预设条件，得到训练好的人体关键点检测模型。

本申请还提供了一种人体关键点检测方法，所述方法包括：

获取待检测的人体图片；

将所述人体图片输入至人体关键点检测模型中，得到人体关键点，其中，所述人体关键点检测模型为通过上述所述的人体关键点检测模型训练方法训练得到的。

本申请还提供了一种人体关键点检测模型训练装置，包括：

获取模块，用于获取训练样本数据集，所述训练样本数据集包括多组人体图片，每组人体图片包括一张原始人体图片以及至少一张对所述原始人体图片进行图像增广处理后得到的增广人体图片，每张原始人体图片及每张增广人体图片都具有人体关键点；

输入模块，用于将各组人体图片输入至预设的神经网络模型中，并通过所述神经网络模型输出每组人体图片中的原始人体图片的第一预测人体关键点和各张增广人体图片的第二预测人体关键点；

执行模块，用于对所述第二预测人体关键点执行所述图像增广处理的逆变换操作得到第三预测人体关键点；

计算模块，用于根据所述原始人体图片的人体关键点、第一预测人体关键点、所述第二预测人体关键点、所述第三预测人体关键点及所述增广人体图片的人体关键点计算所述神经网络模型的损失函数；

训练模块，用于根据所述损失函数对所述神经网络模型的模型参数进行更新，直至所述损失函数满足预设条件，得到训练好的人体关键点检测模型。

本申请还提供了一种人体关键点检测模型训练装置，包括：

获取模块，用于获取待检测的人体图片；

输入模块，用于将所述人体图片输入至人体关键点检测模型中，得到人体关键点，其中，所述人体关键点检测模型为通过上述所述的人体关键点检测模型训练方法训练得到的。

本申请还提供了一种计算机设备，所述计算机设备，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述方法的步骤。

本申请还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述方法的步骤。

本申请实施例中，通过获取训练样本数据集，所述训练样本数据集包括多组人体图片，每组人体图片包括一张原始人体图片以及至少一张对所述原始人体图片进行图像增广处理后得到的增广人体图片，每张原始人体图片及每张增广人体图片都具有人体关键点；将各组人体图片输入至预设的神经网络模型中，并通过所述神经网络模型输出每组人体图片中的原始人体图片的第一预测人体关键点和各张增广人体图片的第二预测人体关键点；对所述第二预测人体关键点执行所述图像增广处理的逆变换操作得到第三预测人体关键点；根据所述原始人体图片的人体关键点、第一预测人体关键点、所述第二预测人体关键点、所述第三预测人体关键点及所述增广人体图片的人体关键点计算所述神经网络模型的损失函数；根据所述损失函数对所述神经网络模型的模型参数进行更新，直至所述损失函数满足预设条件，得到训练好的人体关键点检测模型。在本申请实施例中，通过引入对原始人体图片进行图像增广处理后得到的增广人体图片来模拟视频帧中的前后帧，并基于增广人体图片和原始人体图片的训练损失值构建时序一致性的损失函数，以实现对人体关键点检测模型的优化训练，能够有效保证训练得到的人体关键点检测模型在对视频中的视频帧进行人体关键点预测时可以保持一致性，大幅减少画面抖动的影响，提高模型的稳定性及检测精度。

附图说明

图1为本申请实施例的人体关键点检测模型训练方法的环境示意图；

图2为本申请所述的人体关键点检测模型训练方法的一种实施例的流程图；

图3为本申请所述的人体关键点检测模型训练方法的另一种实施例的流程图；

图4为本申请一实施方式中根据所述原始人体图片的人体关键点、所述第一预测人体关键点、所述增广人体图片的人体关键点及所述第二预测人体关键点确定第二损失值的步骤细化流程示意图；

图5为本申请一实施方式中基于所述第一损失值和所述第二损失值构建损失函数的步骤细化流程示意图；

图6为本申请所述的人体关键点检测方法的一种实施例的流程图；

图7为本申请所述的人体关键点检测模型训练装置的一种实施例的程序模块图；

图8为本申请所述的人体关键点检测装置的一种实施例的程序模块图；

图9为本申请实施例提供的执行人体关键点检测模型训练方法或人体关键点检测方法的计算机设备的硬件结构示意图。

具体实施方式

以下结合附图与具体实施例进一步阐述本申请的优点。

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

在本公开使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本公开。在本公开和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其它含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本公开可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本公开范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

在本申请的描述中，需要理解的是，步骤前的数字标号并不标识执行步骤的前后顺序，仅用于方便描述本申请及区别每一步骤，因此不能理解为对本申请的限制。

图1示意性示出了根据本申请实施例的人体关键点检测模型训练方法的应用环境示意图。在示例性的实施例中，该应用环境的系统可包括计算机设备9、终端设备20。其中，计算机设备9与终端设备20形成无线或有线连接。计算机设备9可以为手机、iPAD，平板电脑、一台服务器或多台服务器组成的服务器集群或云计算中心等，具体此处不作限定。终端设备20可以为平板电脑、笔记本电脑、掌上电脑、手机、个人电脑(personal computer，PC)及语音交互设备，也可以为监控设备、人脸识别设备等，此处不做限定。其中，语音交互设备包含但不仅限于智能音响以及智能家电。

参阅图2，其为本申请一实施例的人体关键点检测模型训练方法的流程示意图。本可以理解，本方法实施例中的流程图不用于对执行步骤的顺序进行限定。下面以计算机设备为执行主体进行示例性描述，从图中可以看出，本实施例中所提供的人体关键点检测模型训练方法包括：

步骤S20、获取训练样本数据集，所述训练样本数据集包括多组人体图片，每组人体图片包括一张原始人体图片以及至少一张对所述原始人体图片进行图像增广处理后得到的增广人体图片，每张原始人体图片及每张增广人体图片都具有人体关键点。

具体地，所述图像增广处理包括可以包括翻转变换(flip)、随机修剪(randomcrop)、色彩抖动(color jittering)、平移变换(shift)、尺度变换(scale)、对比度变换(contrast)、噪声扰动(noise)、旋转变换/反射变换(Rotation/reflection)，其中，对比度变换操作可以为gamma变换；噪声扰动操作可以包括高斯噪声、运动模糊、高斯模糊、jpeg噪声操作等。

在本实施例中，在对原始人体图片进行图像增广处理时，可以采用上述各种类型的图像增广处理中的任意一种对原始图片进行处理，得到增广人体图片，也可以同时采用上述各种类型的图像增广处理中多种对对原始图片进行处理，得到增广人体图片，在本实施例中不作限定；也可以对原始人体图片采用上述多种不同类型的图像增广处理对原始人体图片进行多次处理，以便可以得到多张增广人体图片。需要说明的是，在对训练样本集中包含的所有的原始人体图片进行图像增广处理时，对于各张原始人体图片进行的图像增广处理可以是相同的图像增广处理，也可以是不同的图像增广处理，在本实施例中也不作限定。

其中，所述原始人体图片指的是没有经过图像增广处理的人体图片。所述人体关键点为用于定位人体的各个部位的关键点，在本本实施例中，该人体关键点以定位出人脸中的眼睛、眉毛、嘴巴、鼻子以及人脸轮廓等的点为例。当所述人体关键点为人脸关键点时，该人体关键点可以为等现有技术中的5关键点、21关键点、68关键点、98关键点等，在本实施例中不作限定。

在一实施方式中，为了提高训练样本数据集的获取效率，可以直接从公开数据集中获取具有人体关键点标注的人体图片作为所述原始人体图片。

在另一实施方式中，也可以直接从网络中爬取人体图片，然后通过现有的人体关键点检测模型对这些人体图片进行检测，输出具有人体关键点的人体图片，并将这些输出的具有人体图关键点的人体图片作为所述原始人体图片。

需要说明的是，在本实施例中以及下面的实施例中所提到的各种关键点在实际处理中，都是以关键点在图片中的坐标来表示的。

在本实施例中，所述人体图片优选为人脸图片。

在一示例性的实施方式中，参照图3，所述方法还可以包括：步骤S30，获取多张带有人体关键点标注的原始人体图片；步骤S31，对每张原始人体图片都执行图像增广处理，得到对应的增广人体图片，其中，增广人体图片的人体关键点通过对原始人体图片的人体关键点执行对应的操作得到；步骤S32，将每一张原始人体图片和对应的增广人体图片作为所述训练样本数据集中的一组人体图片。

具体地，在对原始人体图片进行图像增广处理得到增广人体图片时，由于增广人体图片相对于原始人体图片可能发生了旋转，或者尺度变换等会导致人体关键点发生变化的改变。在此种情况下，为了得到增广人体图片的人体关键点，需要对原始人体图片的人体关键点进行相应的操作，从而得到增广人体图片的人体关键点。也就是说，本实施例中，对原始人体图片的人体关键点执行对应的操作与增广人体图片相对于原始人体图片是否发生了旋转，或者尺度变换有关，当其发生了旋转或者尺度变换时，该对应操作为对原始人体图片的人体关键点执行对应的旋转，或者尺度变换操作；当为发生了旋转或者尺度变换时，该对应操作为不对原始人体图片的人体关键点进行处理，而是直接将原始人体图片的人体关键点作为增广人体图片的人体关键点。

作为示例，增广人体图片是对原始人体图片旋转30°后得到的，因此，在确定增广人体图片的人体关键点时，需要对原始人体图片的人体关键点同样进行旋转30°处理，并将旋转处理后得到的作为增广人体图片的人体关键点。本实施例中，通过对原始人体图片进行图像增广操作，以便可以将得到的增广人体图片来模拟视频中的相邻帧，可以使得用于训练模型的样本数据的稳定性更好，进而提高训练得到的模型的检测精度。

步骤S21，将各组人体图片输入至预设的神经网络模型中，并通过所述神经网络模型输出每组人体图片中的原始人体图片的第一预测人体关键点和各张增广人体图片的第二预测人体关键点。

具体地，所述神经网络模型可以为卷积神经网络模型，循环神经网络模型，递归神经网络模型等，在本实施例中不作限定。此外，本实施例中的神经网络模型的具体网络结构可以根据实际需求进行配置和选择，在本实施例中也不作限定。

步骤S22，对所述第二预测人体关键点执行所述图像增广处理的逆变换操作得到第三预测人体关键点。

具体地，通过对第二预测人体关键点执行所述图像增广处理的逆变换操作以实现将经过图像增广处理操作后的人体关键点进行还原。

在一实施方式中，为了便于直观地观测到还原后得到的第三人体关键点与原始人体图片的人体关键点的差别，可以将该所述第三预测人体关键点映射到原始人体图片上。

步骤S23，根据所述原始人体图片的人体关键点、第一预测人体关键点、所述第二预测人体关键点、所述第三预测人体关键点及所述增广人体图片的人体关键点计算所述神经网络模型的损失函数。

作为示例，在计算所述损失函数时，可以先根据所述原始人体图片的人体关键点和所述第三预测人体关键点确定第一损失值，并根据所述原始人体图片的人体关键点、所述第一预测人体关键点、所述增广人体图片的人体关键点及所述第二预测人体关键点确定第二损失值。之后，在根据所述第一损失值和所述第二损失值计算所述神经网络模型的损失函数。

具体地，所述第一损失值可以为所述原始人体图片的人体关键点和所述第三预测人体关键点的差值，也可以为所述原始人体图片的人体关键点和所述第三预测人体关键点的均方差(标准差)，或者为所述原始人体图片的人体关键点和所述第三预测人体关键点的方差，或者为所述原始人体图片的人体关键点和所述第三预测人体关键点的均方误差，或者为所述原始人体图片的人体关键点和所述第三预测人体关键点的平方差等，在本实施例中不作限定。

作为示例，若所述原始人体图片的人体关键点为gt1，所述第三预测人体关键点为c3，则所述第一损失值Loss1可以为：Loss1＝(gt1-c3)²。

其中，所述第一损失值Loss1也可以用如下公式进行计算：

其中，yi表示原始人体图片的人体关键点中的第i个关键点的，f(xi)表示所述第三预测人体关键点中与第i个关键点相对应的关键点的。

在本实施例中，当所述第三预测人体关键点存在多个时，即增广人体图片存在多张时，则在确定所述第一损失值时，可以先计算所述原始人体图片的人体关键点y’与各个第三预测人体关键点y*的差值，然后将计算得到的各个差值的和值或者平均值作为所述第一损失值。

在一示例性的实施方式中，参照图4，所述根据所述原始人体图片的人体关键点、所述第一预测人体关键点、所述增广人体图片的人体关键点及所述第二预测人体关键点确定第二损失值可以包括：步骤S40-S42，其中：

步骤S40，根据所述原始人体图片的人体关键点及所述第一预测人体关键点确定第三损失值。

具体地，所述第三损失值可以为所述原始人体图片的人体关键点和所述第一预测人体关键点的差值，也可以为所述原始人体图片的人体关键点和所述第一预测人体关键点的均方差(标准差)，或者为所述原始人体图片的人体关键点和所述第一预测人体关键点的方差，或者为所述原始人体图片的人体关键点和所述第一预测人体关键点的均方误差，或者为所述原始人体图片的人体关键点和所述第一预测人体关键点的平方差等，在本实施例中不作限定。

作为示例，所述第三损失值Loss3可以用如下公式进行计算：

其中，yi表示原始人体图片的人体关键点中的第i个关键点的，f(xi)表示所述第i个关键点对应的的预测关键点的。

在一示例性的实施方式中，当原始人体图像存在对应的至少两张增广人体图片时，所述根据所述原始人体图片的人体关键点及所述第一预测人体关键点确定第三损失值可以包括以下步骤：计算所述原始人体图片的人体关键点及各个第一预测人体关键点的第五损失值；将计算得到的各个第五损失值的和值或平均值作为所述第三损失值。

具体地，当原始人体图像存在对应的至少两张增广人体图片时，则所述第一预测人体关键点则也会存在多个，因而，在计算所述第三损失值时，可以先计算所述原始人体图片的人体关键点gt1与各个第一预测人体关键点c1的第五损失值Loss5，其中，每一个第五损失值Loss5的计算公式可以与第一损失值采用相同的计算公式，也可以采用不同的计算公式，作为示例，可以采用如下公式计算：Loss5＝(gt1-c1)²。

在计算得到各个第五损失值Loss5后，即可以将各个第五损失值Loss5的和值或者差值或者平均值作为第三损失值Loss3。

步骤S41，根据所述增广人体图片的人体关键点及所述第二预测人体关键点确定第四损失值。

具体地，所述第四损失值可以为所述增广人体图片的人体关键点和所述第二预测人体关键点的差值，也可以为所述增广人体图片的人体关键点和所述第二预测人体关键点的均方差(标准差)，或者为所述增广人体图片的人体关键点和所述第二预测人体关键点的方差，或者为所述增广人体图片的人体关键点和所述第二预测人体关键点的均方误差，或者为所述增广人体图片的人体关键点和所述第二预测人体关键点的平方差等，在本实施例中不作限定。

在一示例性的实施方式中，当原始人脸图像存在对应的至少两张增广人体图片时，所述根据所述增广人体图片的人体关键点及所述第二预测人体关键点确定第四损失值可以包括以下步骤：计算各个增广人体图片的人体关键点与对应的第二预设人体关键点的第六损失值；将计算得到的各个第六损失值的和值或平均值作为所述第四损失值。

具体地，当原始人体图像存在对应的至少两张增广人体图片时，则增广人体图片的人体关键点也会存在多个，因而，在计算所述第四损失值时，可以先计算各个增广人体图片的人体关键点gt2与对应的第二预设人体关键点c2的第六损失值Loss6，其中，每一个第六损失值Loss6的计算公式可以与第一损失值或第三损失值采用相同的计算公式，也可以采用不同的计算公式，作为示例，可以采用如下公式计算：Loss6＝(gt2-c2)²。

在计算得到各个第六损失值Loss6后，即可以将各个第六损失值Loss6的和值或者差值平均值作为第四损失值Loss4。

步骤S42，将所述第三损失值和所述第四损失值的和值或平均值作为所述第二损失值。

作为示例，假设所述第三损失值为Loss3，所述第四损失值为Loss4，则所述第二损失值Loss2＝Loss3+Loss4，或者所述第二损失值Loss2＝(Loss3+Loss4)/2。

本实施例中，通过将所述第三损失值和所述第四损失值的和值或平均值作为所述第二损失值，可以提高训练得到的模型的检测精度。

其中，为了联合第一损失值和第二损失值对模型进行训练，以提高模型的检测精度，本实施例中可以基于所述第一损失值和所述第二损失值的和值来计算损失函数，即所述损失函数Loss＝所述第一损失值+所述第二损失值。

在一示例性的实施方式中，参照图5，所述根据所述第一损失值和所述第二损失值计算所述神经网络模型的损失函数可以包括步骤S50-S51，其中：

步骤S50，获取所述第一损失值的第一权重，以及所述第二损失值的第二权重。

具体地，可以预先设置第一损失值和第二损失值的权重，比如，设置第一损失值Loss1的第一权重为a，第二损失值Loss2的第二权重为b，该第一权重a与第二权重b的具体取值可以根据实际应用场景的需要来进行设定与调整，比如，a＝2，b＝1。

步骤S51，根据所述第一损失值、所述第一权重、所述第二损失值和所述第二权重计算所述损失函数。

作为示例，所述第一损失值、所述第一权重、所述第二损失值和所述第二权重以上述为例，则损失函数Loss＝2*Loss1+Loss2。步骤S24，根据所述损失函数对所述神经网络模型的模型参数进行更新，直至所述损失函数满足预设条件，得到训练好的人体关键点检测模型。

具体地，所述预设条件为模型训练结束的条件，即模型的损失函数收敛。预设条件可以根据实际需求进行相应的设置。比如，损失函数满足预设条件可以是损失函数的值小于预设值，也可以是损失函数的值的变化趋近于平稳，即相邻两次或多次训练对应的损失函数的值的差值小于设定值，也就是损失函数的值基本不再变化。

可以理解的是，在通过训练样本数据集对神经网络模型的训练过程中，不断根据每次训练的损失函数的值对神经网络模型的模型参数进行调整，当损失函数的值满足预设条件时，得到训练好的神经网络模型，即得到训练好的人体关键点检测模型。

具体而言，上述训练过程具体可以包括：首先，可以将训练样本数据集中的多组人体图片划分为多个批次。可选地，为了更好的保证样本图像的客观性，提升训练效果，每一批次中包含的人体图片组的数量可以相同，也可以不相同。然后，将每一批次的样本图像分别输入神经网络模型中进行训练，直至损失函数的值满足预设条件，即完成对神经网络模型的训练。

每一批次的人体图片组对应的具体训练过程可以包括以下步骤：

步骤一，将该批次中的人体图片组输入至神经网络模型中，通过该神经网络模型输出原始人体图片的第一预测人体关键点和增广人体图片的第二预测人体关键点。

步骤二，对所述第二预测人体关键点执行所述图像增广处理的逆变换操作得到第三预测人体关键点。

步骤三，将原始人体图片的人体关键点和第三预测人体关键点代入第一损失函数，得到对应的第一损失值，将所述原始人体图片的人体关键点、所述第一预测人体关键点、所述增广人体图片的人体关键点及所述第二预测人体关键点代入第二损失函数，得到对应的第二损失值，再根据第一损失值和第二损失值构建损失函数。

步骤四，根据损失函数的值对神经网络模型的模型参数进行调整，即完成该批次的训练。

在一示例性的实施方式中，所述根据所述损失函数对所述神经网络模型的模型参数进行更新，直至所述损失函数满足预设条件，得到训练好的人体关键点检测模型包括：

具体地，在每个批次对应的训练过程中，可以采用随机梯度下降法(SGD，Stochastic gradient descent)对模型进行优化训练，也就是说，在训练过程中，每一个批次包含的人体图片组的数量为一组，每次对模型的模型参数的迭代更新通过一组人体图片来实现。

可以理解的是，在本申请其他实施方式中，也可以采用批量梯度下降法BGD(BatchGradient Descent)或小批量梯度下降法MBGD(mini-batch Gradient Descent)对模型进行优化训练。

图6为本申请实施例提供的人体关键点检测方法的流程示意图，如图6所示，该方法可以包括：

步骤S60，获取待检测的人体图片。

具体地，所述待检测的人体图片一般为只包含一张人脸的图像，其一般可以通过获取包含人脸的原始图像后，对原始图像进行人脸位置框定，之后，将框定的人体图片从原始图片中裁剪出来作为待检测的人体图片。

步骤S61，将所述人体图片输入至人体关键点检测模型中，得到人体关键点。

具体的，所述人体关键点检测模型是通过上述实施例中的人体关键点检测模型训练方法对神经网络模型进行训练，在损失函数的值满足预设条件后，即得到训练好的人体关键点检测模型。

本申请实施例中人体关键点检测方法，利用训练好的人体关键点检测模型对人体关键点进行检测，由于该人体关键点检测模型在训练过程中通过引入对原始人体图片进行图像增广处理后得到的增广人体图片来模拟视频帧中的前后帧，并基于增广人体图片和原始人体图片的训练损失值构建损失函数，实现对人体关键点检测模型的优化训练，能够有效保证训练得到的人体关键点检测模型在对视频中的视频帧进行人体关键点预测时可以保持一致性，大幅减少画面抖动的影响，提高模型的稳定性及检测精度。

参阅图7所示，是本申请人体关键点检测模型训练装置70一实施例的程序模块图。

本实施例中，所述人体关键点检测模型训练装置70包括一系列的存储于存储器上的计算机程序指令，当该计算机程序指令被处理器执行时，可以实现本申请各实施例的人体关键点检测模型训练功能。在一些实施例中，基于该计算机程序指令各部分所实现的特定的操作，人体关键点检测模型训练装置70可以被划分为一个或多个模块，具体可以划分的模块如下：

获取模块71，用于获取训练样本数据集，所述训练样本数据集包括多组人体图片，每组人体图片包括一张原始人体图片以及至少一张对所述原始人体图片进行图像增广处理后得到的增广人体图片，每张原始人体图片及每张增广人体图片都具有人体关键点；

输入模块72，用于将各组人体图片输入至预设的神经网络模型中，并通过所述神经网络模型输出每组人体图片中的原始人体图片的第一预测人体关键点和各张增广人体图片的第二预测人体关键点；

执行模块73，用于对所述第二预测人体关键点执行所述图像增广处理的逆变换操作得到第三预测人体关键点；

计算模块74，用于根据所述原始人体图片的人体关键点、第一预测人体关键点、所述第二预测人体关键点、所述第三预测人体关键点及所述增广人体图片的人体关键点计算所述神经网络模型的损失函数；

训练模块75，用于根据所述损失函数对所述神经网络模型的模型参数进行更新，直至所述损失函数满足预设条件，得到训练好的人体关键点检测模型。

在一示例性的实施方式中，计算模块74，还用于根据所述原始人体图片的人体关键点和所述第三预测人体关键点确定第一损失值，并根据所述原始人体图片的人体关键点、所述第一预测人体关键点、所述增广人体图片的人体关键点及所述第二预测人体关键点确定第二损失值；根据所述第一损失值和所述第二损失值计算所述神经网络模型的损失函数。

在一示例性的实施方式中，计算模块74，还用于根据所述原始人体图片的人体关键点及所述第一预测人体关键点确定第三损失值；根据所述增广人体图片的人体关键点及所述第二预测人体关键点确定第四损失值；将所述第三损失值和所述第四损失值的和值或平均值作为所述第二损失值。

在一示例性的实施方式中，当原始人体图像存在对应的至少两张增广人体图片时，计算模块74，还用于计算所述原始人体图片的人体关键点及各个第一预测人体关键点的第五损失值；将计算得到的各个第五损失值的和值或平均值作为所述第三损失值。

计算模块74，还用于计算各个增广人体图片的人体关键点与对应的第二预设人体关键点的第六损失值；将计算得到的各个第六损失值的和值或平均值作为所述第四损失值。

在一示例性的实施方式中，计算模块74，还用于获取所述第一损失值的第一权重，以及所述第二损失值的第二权重；根据所述第一损失值、所述第一权重、所述第二损失值和所述第二权重计算所述损失函数。

在一示例性的实施方式中，获取模块71，还用于获取多张带有人体关键点标注的原始人体图片；对每张原始人体图片都执行图像增广处理，得到对应的增广人体图片，其中，增广人体图片的人体关键点通过对原始人体图片的人体关键点执行对应的操作得到；将每一张原始人体图片和对应的增广人体图片作为所述训练样本数据集中的一组人体图片。

在一示例性的实施方式中，训练模块75，还用于根据所述损失函数，采用随机梯度下降法对所述神经网络模型的模型参数进行更新，直至所述损失函数满足预设条件，得到训练好的人体关键点检测模型。

参阅图8所示，是本申请人体关键点检测装置80一实施例的程序模块图。

本实施例中，所述人体关键点检测装置80包括一系列的存储于存储器上的计算机程序指令，当该计算机程序指令被处理器执行时，可以实现本申请各实施例的人体关键点检测功能。在一些实施例中，基于该计算机程序指令各部分所实现的特定的操作，人体关键点检测装置80可以被划分为一个或多个模块，具体可以划分的模块如下：

获取模块81，用于获取待检测的人体图片。

输入模块82，用于将所述人体图片输入至人体关键点检测模型中，得到人体关键点，其中，所述人体关键点检测模型是通过上述实施例中的人体关键点检测模型训练方法对神经网络模型进行训练，在损失函数的值满足预设条件后，即得到训练好的人体关键点检测模型。

图9示意性示出了根据本申请实施例的适于实现人体关键点检测模型训练方法或人体关键点检测方法的计算机设备9的硬件架构示意图。本实施例中，计算机设备9是一种能够按照事先设定或者存储的指令，自动进行数值计算和/或信息处理的设备。例如，可以是平板电脑、笔记本电脑、台式计算机、机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器，或者多个服务器所组成的服务器集群)等。如图9所示，计算机设备9至少包括但不限于：可通过系统总线相互通信链接存储器120、处理器121、网络接口122。其中：

存储器120至少包括一种类型的计算机可读存储介质，该可读存储介质可以是易失性的，也可以是非易失性的，具体而言，可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，存储器120可以是计算机设备9的内部存储模块，例如该计算机设备9的硬盘或内存。在另一些实施例中，存储器120也可以是计算机设备9的外部存储设备，例如该计算机设备9上配备的插接式硬盘，智能存储卡(Smart Media Card，简称为SMC)，安全数字(Secure Digital，简称为SD)卡，闪存卡(Flash Card)等。当然，存储器120还可以既包括计算机设备9的内部存储模块也包括其外部存储设备。本实施例中，存储器120通常用于存储安装于计算机设备9的操作系统和各类应用软件，例如人体关键点检测模型训练方法或人体关键点检测方法的程序代码等。此外，存储器120还可以用于暂时地存储已经输出或者将要输出的各类数据。

处理器121在一些实施例中可以是中央处理器(Central Processing Unit，简称为CPU)、控制器、微控制器、微处理器、或其它人体关键点检测模型训练芯片。该处理器121通常用于控制计算机设备9的总体操作，例如执行与计算机设备9进行数据交互或者通信相关的控制和处理等。本实施例中，处理器121用于运行存储器120中存储的程序代码或者处理数据。

网络接口122可包括无线网络接口或有线网络接口，该网络接口122通常用于在计算机设备9与其它计算机设备之间建立通信链接。例如，网络接口122用于通过网络将计算机设备9与外部终端相连，在计算机设备9与外部终端之间的建立数据传输通道和通信链接等。网络可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯系统(GlobalSystem of Mobile communication，简称为GSM)、宽带码分多址(Wideband Code DivisionMultiple Access，简称为WCDMA)、4G网络、5G网络、蓝牙(Bluetooth)、Wi-Fi等无线或有线网络。

需要指出的是，图9仅示出了具有部件120～122的计算机设备，但是应理解的是，并不要求实施所有示出的部件，可以替代的实施更多或者更少的部件。

在本实施例中，存储于存储器120中的人体关键点检测模型训练方法或者人体关键点检测方法可以被分割为一个或者多个程序模块，并由一个或多个处理器(本实施例为处理器121)所执行，以完成本申请。

本申请实施例提供了一种计算机可读存储介质，计算机可读存储介质其上存储有计算机程序，计算机程序被处理器执行时实现实施例中的人体关键点检测模型训练方法或人体关键点检测方法的步骤。

本实施例中，计算机可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，计算机可读存储介质可以是计算机设备的内部存储单元，例如该计算机设备的硬盘或内存。在另一些实施例中，计算机可读存储介质也可以是计算机设备的外部存储设备，例如该计算机设备上配备的插接式硬盘，智能存储卡(Smart Media Card，简称为SMC)，安全数字(Secure Digital，简称为SD)卡，闪存卡(Flash Card)等。当然，计算机可读存储介质还可以既包括计算机设备的内部存储单元也包括其外部存储设备。本实施例中，计算机可读存储介质通常用于存储安装于计算机设备的操作系统和各类应用软件，例如实施例中的人体关键点检测模型训练方法或人体关键点检测方法的程序代码等。此外，计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的各类数据。

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到至少两个网络单元上。可以根据实际的需要筛选出其中的部分或者全部模块来实现本申请实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域普通技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现，当然也可以通过硬件。本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-OnlyMemory，ROM)或随机存储记忆体(RandomAccessMemory，RAM)等。

最后应说明的是：以上各实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述各实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims

1.一种人体关键点检测模型训练方法，其特征在于，包括：

获取训练样本数据集，所述训练样本数据集包括多组人体图片，每组人体图片包括一张原始人体图片以及至少一张对所述原始人体图片进行图像增广处理后得到的增广人体图片每张原始人体图片及每张增广人体图片都具有人体关键点；

2.根据权利要求1所述的人体关键点检测模型训练方法，其特征在于，所述根据所述原始人体图片的人体关键点、第一预测人体关键点、所述第二预测人体关键点、所述第三预测人体关键点及所述增广人体图片的人体关键点计算所述神经网络模型的损失函数包括：

3.根据权利要求2所述的人体关键点检测模型训练方法，其特征在于，所述根据所述原始人体图片的人体关键点、所述第一预测人体关键点、所述增广人体图片的人体关键点及所述第二预测人体关键点确定第二损失值包括：

4.根据权利要求3所述的人体关键点检测模型训练方法，其特征在于，当原始人体图像存在对应的至少两张增广人体图片时，所述根据所述原始人体图片的人体关键点及所述第一预测人体关键点确定第三损失值包括：

5.根据权利要求2所述的人体关键点检测模型训练方法，其特征在于，所述根据所述第一损失值和所述第二损失值计算所述神经网络模型的损失函数括：

6.根据权利要求1至5任一项所述的人体关键点检测模型训练方法，其特征在于，所述方法还包括：

获取多张带有人体关键点标注的原始人体图片；

7.根据权利要求1至5任一项所述的人体关键点检测模型训练方法，其特征在于，所述根据所述损失函数对所述神经网络模型的模型参数进行更新，直至所述损失函数满足预设条件，得到训练好的人体关键点检测模型包括：

8.一种人体关键点检测方法，其特征在于，所述方法包括：

获取待检测的人体图片；

将所述人体图片输入至人体关键点检测模型中，得到人体关键点，其中，所述人体关键点检测模型为通过权利要求1至7任一项所述的人体关键点检测模型训练方法训练得到的。

9.一种人体关键点检测模型训练装置，其特征在于，包括：

10.一种人体关键点检测装置，其特征在于，包括：

获取模块，用于获取待检测的人体图片；

输入模块，用于将所述人体图片输入至人体关键点检测模型中，得到人体关键点，其中，所述人体关键点检测模型为通过权利要求1至7任一项所述的人体关键点检测模型训练方法训练得到的。

11.一种计算机设备，所述计算机设备，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现权利要求1至8任一项所述的方法的步骤。

12.一种计算机可读存储介质，其上存储有计算机程序，其特征在于：所述计算机程序被处理器执行时实现权利要求1至8任一项所述的方法的步骤。