CN113361381A

CN113361381A - 人体关键点检测模型训练方法、检测方法及装置

Info

Publication number: CN113361381A
Application number: CN202110617098.5A
Authority: CN
Inventors: 何涛
Original assignee: Shanghai Bilibili Technology Co Ltd
Current assignee: Shanghai Bilibili Technology Co Ltd
Priority date: 2021-06-03
Filing date: 2021-06-03
Publication date: 2021-09-07
Anticipated expiration: 2041-06-03
Also published as: CN113361381B

Abstract

本申请公开了一种人体关键点检测模型训练方法。该方法包括：获取多组人体图片；将各组人体图片输入至教师模型中，以提取出第一人体关键点特征向量；将各组人体图片输入至学生模型中，以提取出第二人体关键点特征向量；根据每组人体图片对应的各个第一人体关键点特征向量计算每组人脸图片对应的第一时序特征，以及根据每组人体图片对应的各个第二人体关键点特征向量计算每组人脸图片对应的第二时序特征；根据所述第一时序特征与对应的所述第二时序特征计算所述学生模型的损失函数，并根据损失函数对学生模型的模型参数进行更新，直至损失函数满足预设条件，得到人体关键点检测模型。本申请可提高模型的检测精度。

Description

人体关键点检测模型训练方法、检测方法及装置

技术领域

本申请涉及图像处理技术领域，尤其涉及一种人体关键点检测模型训练方法、检测方法及装置。

背景技术

人体关键点检测也称为人体关键点定位，定位出人体的关键区域位置，包括人脸、手、足等。人体关键点检测是人体识别任务中重要的基础环节，人体关键点的精确检测对众多科研和应用课题具有关键作用，例如，人脸姿态矫正、姿态识别、表情识别、疲劳监测、嘴型识别等。

在现有技术中，存在多种人体关键点检测模型，比如基于知识蒸馏方法训练得到的人体关键点检测模型。然而，发明人发现，现有的人体关键点检测模型在进行人体关键点检测时，由于受到姿态和遮挡、抖动等各种因素的影响，比如，在对视频中的各个视频帧中的人体关键点进行检测时，现有的基于知识蒸馏方法训练得到的人体关键点检测模型在这种场景下对人体图片进行检测时，模型的检测精度不高。

发明内容

有鉴于此，现提供一种人体关键点检测模型训练方法、装置、计算机设备及计算机可读存储介质，以解决现有的基于知识蒸馏方法训练得到的人体关键点检测模型的检测精度不高的问题。

本申请提供了一种人体关键点检测模型训练方法，包括：

获取训练样本数据集，所述训练样本数据集包括多组人体图片，每组人体图片包括至少两张相邻的视频帧图片，所述视频帧图片为从视频帧中提取出的人体图片；

将各组人体图片输入至预先训练好的教师模型中，并通过所述教师模型提取出每组人体图片中的各个视频帧图片的第一人体关键点特征向量，其中，所述教师模型为用于从人体图片中检测出人体关键点的模型；

将各组人体图片输入至学生模型中，并通过所述学生模型提取出每组人体图片中的各个视频帧图片的第二人体关键点特征向量，所述学生模型为用于从人体图片中检测出人体关键点的模型；

根据每组人体图片对应的各个第一人体关键点特征向量计算每组人脸图片对应的第一时序特征，以及根据每组人体图片对应的各个第二人体关键点特征向量计算每组人脸图片对应的第二时序特征；

根据所述第一时序特征与对应的所述第二时序特征计算所述学生模型的损失函数；

根据所述损失函数对所述学生模型的模型参数进行更新，直至所述损失函数满足预设条件，得到训练好的人体关键点检测模型。

可选地，所述根据每组人体图片对应的各个第一人体关键点特征向量计算每组人脸图片对应的第一时序特征包括：

将每组人体图片对应的各个第一人体关键点特征向量按位相乘，得到每组人脸图片对应的第一时序特征；

所述根据每组人体图片对应的各个第二人体关键点特征向量计算每组人脸图片对应的第二时序特征包括：

将每组人体图片对应的各个第二人体关键点特征向量按位相乘，得到每组人脸图片对应的第二时序特征。

可选地，所述根据所述第一时序特征与对应的所述第二时序特征计算所述学生模型的损失函数包括：

基于所述第一时序特征和对应的第二时序特征确定第一损失值；

分别计算每组人体图片的各个第一人体关键点特征向量与对应的第二人体关键点特征向量的第二损失值，并根据计算得到的各个第二损失值确定第三损失值；

根据所述第一损失值和所述第三损失值计算所述学生模型的损失函数。

可选地，所述根据计算得到的各个第二损失值确定第三损失值包括：

将计算得到的各个第二损失值的和值或平均值作为所述第三损失值。

可选地，所述根据所述第一损失值和所述第三损失值计算所述学生模型的损失函数包括：

获取所述第一损失值的第一权重，以及所述第三损失值的第二权重；

根据所述第一损失值、所述第一权重、所述第三损失值和所述第二权重计算所述损失函数。

可选地，每一张视频帧画面都具有人体关键点，所述方法还包括：

获取所述学生模型输出的每组人体图片对应的预测人体关键点；

根据各个预测人体关键点与对应的人体关键点确定第四损失值；

所述根据所述第一损失值和所述第三损失值计算所述学生模型的损失函数包括：

基于所述第一损失值、所述第三损失值和所述第四损失值计算所述损失函数。

可选地，所述基于所述第一损失值、所述第三损失值和所述第四损失值计算所述损失函数包括：

获取所述第一损失值的第三权重，所述第三损失值的第四权重和所述第四损失值的第五权重；

基于所述第一损失值、所述第三权重、所述第三损失值、所述第四权重、所述第四损失值和所述第五权重计算所述损失函数。

可选地，所述根据所述损失函数对所述学生模型的模型参数进行更新，直至所述损失函数满足预设条件，得到训练好的人体关键点检测模型包括：

根据所述损失函数，采用随机梯度下降法对所述学生模型的模型参数进行更新，直至所述损失函数满足预设条件，得到训练好的人体关键点检测模型。

本申请还提供了一种人体关键点检测方法，所述方法包括：

获取待检测的人体图片；

将所述人体图片输入至人体关键点检测模型中，得到人体关键点，其中，所述人体关键点检测模型为通过上述所述的人体关键点检测模型训练方法训练得到的。

本申请还提供了一种人体关键点检测模型训练装置，包括：

获取模块，用于获取训练样本数据集，所述训练样本数据集包括多组人体图片，每组人体图片包括至少两张相邻的视频帧图片，所述视频帧图片为从视频帧中提取出的人体图片；

第一提取模块，用于将各组人体图片输入至预先训练好的教师模型中，并通过所述教师模型提取出每组人体图片中的各个视频帧图片的第一人体关键点特征向量，其中，所述教师模型为用于从人体图片中检测出人体关键点的模型；

第二提取模块，用于将各组人体图片输入至学生模型中，并通过所述学生模型提取出每组人体图片中的各个视频帧图片的第二人体关键点特征向量，所述学生模型为用于从人体图片中检测出人体关键点的模型；

时序特征获取模块，用于根据每组人体图片对应的各个第一人体关键点特征向量计算每组人脸图片对应的第一时序特征，以及根据每组人体图片对应的各个第二人体关键点特征向量计算每组人脸图片对应的第二时序特征；

计算模块，用于根据所述第一时序特征与所述第二时序特征计算所述学生模型的损失函数；

训练模块，用于根据所述损失函数对所述学生模型的模型参数进行更新，直至所述损失函数满足预设条件，得到训练好的人体关键点检测模型。

本申请还提供了一种人体关键点检测模型训练装置，包括：

获取模块，用于获取待检测的人体图片；

输入模块，用于将所述人体图片输入至人体关键点检测模型中，得到人体关键点，其中，所述人体关键点检测模型为通过上述所述的人体关键点检测模型训练方法训练得到的。

本申请还提供了一种计算机设备，所述计算机设备，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述方法的步骤。

本申请还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述方法的步骤。

本申请实施例中，通过获取训练样本数据集，所述训练样本数据集包括多组人体图片，每组人体图片包括至少两张相邻的视频帧图片，所述视频帧图片为从视频帧中提取出的人体图片；将各组人体图片输入至预先训练好的教师模型中，并通过所述教师模型提取出每组人体图片中的各个视频帧图片的第一人体关键点特征向量，其中，所述教师模型为用于从人体图片中检测出人体关键点的模型；将各组人体图片输入至学生模型中，并通过所述学生模型提取出每组人体图片中的各个视频帧图片的第二人体关键点特征向量，所述学生模型为用于从人体图片中检测出人体关键点的模型；根据每组人体图片对应的各个第一人体关键点特征向量计算每组人脸图片对应的第一时序特征，以及根据每组人体图片对应的各个第二人体关键点特征向量计算每组人脸图片对应的第二时序特征；根据所述第一时序特征与对应的所述第二时序特征计算所述学生模型的损失函数；根据所述损失函数对所述学生模型的模型参数进行更新，直至所述损失函数满足预设条件，得到训练好的人体关键点检测模型。在本申请实施例中，通过采用时序特征对模型进行训练，由于这个时序特征包含了视频序列的信息，所以学生模型可以有效学习到教师模型对于视频的稳定性和一致性，从而可以大幅减少画面抖动的影响，提高模型的稳定性及检测精度。

附图说明

图1为本申请实施例的人体关键点检测模型训练方法的环境示意图；

图2为本申请所述的人体关键点检测模型训练方法的一种实施例的流程图；

图3为本申请一实施方式中基于所述第一损失值和所述第三损失值计算所述学生模型的损失函数的步骤细化流程示意图；

图4为本申请所述的人体关键点检测模型训练方法的另一种实施例的流程图；

图5为本申请一实施方式中基于所述第一损失值、所述第三损失值和所述第四损失值计算所述损失函数的步骤细化流程示意图；

图6为本申请所述的人体关键点检测方法的一种实施例的流程图；

图7为本申请所述的人体关键点检测模型训练装置的一种实施例的程序模块图；

图8为本申请所述的人体关键点检测装置的一种实施例的程序模块图；

图9为本申请实施例提供的执行人体关键点检测模型训练方法或人体关键点检测方法的计算机设备的硬件结构示意图。

具体实施方式

以下结合附图与具体实施例进一步阐述本申请的优点。

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

在本公开使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本公开。在本公开和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其它含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本公开可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本公开范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

在本申请的描述中，需要理解的是，步骤前的数字标号并不标识执行步骤的前后顺序，仅用于方便描述本申请及区别每一步骤，因此不能理解为对本申请的限制。

图1示意性示出了根据本申请实施例的人体关键点检测模型训练方法的应用环境示意图。在示例性的实施例中，该应用环境的系统可包括计算机设备9、终端设备20。其中，计算机设备9与终端设备20形成无线或有线连接。计算机设备9可以为手机、iPAD，平板电脑、一台服务器或多台服务器组成的服务器集群或云计算中心等，具体此处不作限定。终端设备20可以为平板电脑、笔记本电脑、掌上电脑、手机、个人电脑(personal computer，PC)及语音交互设备，也可以为监控设备、人体识别设备等，此处不做限定。其中，语音交互设备包含但不仅限于智能音响以及智能家电。

参阅图2，其为本申请一实施例的人体关键点检测模型训练方法的流程示意图。本可以理解，本方法实施例中的流程图不用于对执行步骤的顺序进行限定。下面以计算机设备为执行主体进行示例性描述，从图中可以看出，本实施例中所提供的人体关键点检测模型训练方法包括：

步骤S20、获取训练样本数据集，所述训练样本数据集包括多组人体图片，每组人体图片包括至少两张相邻的视频帧图片，所述视频帧图片为从视频帧中提取出的人体图片。

具体地，所述训练样本数据集中的人体图片可以是按照时间顺序对视频的视频帧中提取出的人体图片，即提取出视频帧图片。在从视频帧中提取人体图片时，可以通过现有的人体检测模型中从视频帧中检测出人体，然后将检测出的人体从视频帧中裁剪出来作为训练样本数据集中的人体图片。

在完成视频帧图片的提取之后，可以将至少两张相邻的视频帧图片组成一组人体图片，比如，将相邻的2张视频帧图片组成一组人体图片，又比如，将相邻的3张视频帧图片组成一组人体图片，在本实施例中不作限定。

在本实施例中，所述人体图片优选为人脸图片。

步骤S21，将各组人体图片输入至预先训练好的教师模型中，并通过所述教师模型提取出每组人体图片中的各个视频帧图片的第一人体关键点特征向量，其中，所述教师模型为用于从人体图片中检测出人体关键点的模型。

具体地，所述教师模型是指通过大而笨重的模型(网络结构相对复杂的大模型)进行训练得到的用于从人体图片中检测出人体关键点的模型，该教师模型可以为卷积神经网络模型，循环神经网络模型，递归神经网络模型等，在本实施例中不作限定。此外，本实施例中的教师模型的具体网络结构可以根据实际需求进行配置和选择，在本实施例中也不作限定。比如，该教师模型的网络结构为Resnet101，其中，Resnet101指的是一种带shortcut连接的101层卷积神经网络。

在本实施例中，教师模型的训练过程具体可以包括：首先，可以将训练样本数据集中包含的多个训练样本划分为多个批次，其中，每一个训练样本可以包括一张人体图片，也可以包括上述所述的一组人体图片，且每张人体图片具有人体图片标签，所述人体图片标签为人体关键点。可选地，为了更好的保证样本图像的客观性，提升训练效果，每一批次中包含的人体图片或人体图片组的数量可以相同，也可以不相同。然后，将每一批次的样本图像分别输入教师模型中进行训练，直至损失函数的值满足预设条件，即完成对教师模型的训练。

每一批次的人体图片或人体图片组对应的具体训练过程可以包括以下步骤：

步骤一，将该批次中的人体图片或人体图片组输入至教师模型中，通过该教师模型输出预测的人体关键点。

步骤二，将每张人体图片的人体关键点和预测的人体关键点代入损失函数中，得到损失值。

步骤三，根据损失函数的损失值对教师模型的模型参数进行调整，即完成该批次的训练。

需要说明的是，所述人体关键点是指用于定位眼睛、眉毛、嘴巴、鼻子以及人体轮廓等的点。在本实施例中，该人体关键点可以为等现有技术中的5关键点、21关键点、68关键点、98关键点等，在本实施例中不作限定。

其中，所述第一人体关键点特征向量优选为教师模型去除输出层的输出，即教师模型中的最后一个隐层的输出，比如，教师模型具有5个隐层，则所述第一人体关键点特征向量即为第5个隐层的输出。可以理解的是，在本申请其他实施方式中，所述第一人体关键点特征向量也可以不为最后一个隐层的输出，比如，为倒数第二个隐层的输出，在本实施例中不作限定。

需要说明的是，在本实施例中以及下面的实施例中所提到的各种关键点在实际处理中，都是以关键点在图片中的坐标来表示的。

步骤S22，将各组人体图片输入至学生模型中，并通过所述学生模型提取出每组人体图片中的各个视频帧图片的第二人体关键点特征向量，所述学生模型为用于从人体图片中检测出人体关键点的模型。

具体地，所述学生模型是相对于教师模型来说的，其相对于教师模型是一个小而紧凑(网络结构相对简单的小模型)的更适合部署模型。该学生模型为一个用于从人体图片中检测出人体关键点的模型，该学生模型可以为卷积神经网络模型，循环神经网络模型，递归神经网络模型等，在本实施例中不作限定。此外，本实施例中的学生模型的具体网络结构可以根据实际需求进行配置和选择，在本实施例中也不作限定。比如，该学生模型的网络结构为Resnet18，其中，Resnet18是一种带shortcut连接的18层卷积神经网络。

其中，所述第二人体关键点特征向量优选为学生模型去除输出层的输出，即学生模型中的最后一个隐层的输出，比如，学生模型具有3个隐层，则所述第二人体关键点特征向量即为第3个隐层的输出。可以理解的是，在本申请其他实施方式中，当所述第一人体关键点特征向量不为最后一个隐层的输出，则所述第二人体关键点特征向量也可以不为最后一个隐层的输出，而为与教师模型中输出第一人体关键点特征向量的隐层相对应的隐层的输出。

需要说明的是，教师模型的网络结构更复杂，深度更深，参数更多，计算量更大，效果也更好。学生模型相对于教师模型来说，网络结构更简单，深度更浅，参数更少，计算量更小，速度更快。

步骤S23，根据每组人体图片对应的各个第一人体关键点特征向量计算每组人脸图片对应的第一时序特征，以及根据每组人体图片对应的各个第二人体关键点特征向量计算每组人脸图片对应的第二时序特征。

其中，所述第一时序特征与第二时序特征均包含每组人脸图片的时序特征。在本实施例中，在计算第一时序特征时，可以通过对每组人体图片对应的各个第一人体关键点特征向量进行按位相乘的方式，来得到每组人脸图片对应的第一时序特征。同理，在计算第二时序特征时，可以通过对每组人体图片对应的各个第二人体关键点特征向量进行按位相乘的方式，来得到每组人脸图片对应的第二时序特征。

作为示例，假设每一组人体图片对应的第一人体关键点特征向量存在2个，分别为向量a＝(a1,a2,…an)，以及向量b＝(b1,b2,…bn)，则第一时序特征为a*b＝(a1*b1,a2*b2,…,an*bn)。同理，假设每一组人体图片对应的第二人体关键点特征向量分别为向量c＝(c1,c2,…cn)，以及向量d＝(d1,b2,…dn)，则第二时序特征为c*d＝(c1*d1,c2*d2,…,cn*dn)。

作为示例，假设每一组人体图片对应的第一人体关键点特征向量存在3个，分别为向量a＝(a1,a2,…an)，向量b＝(b1,b2,…bn)，以及向量c＝(c1,c2,…cn)，则第一时序特征为a*b*c＝(a1*b1*c1,a2*b2*c2,…,an*bn*cn)。

步骤S24，根据所述第一时序特征与对应的所述第二时序特征计算所述学生模型的损失函数。

具体地，所述对应的第二时序特征为与输入至教师模型相同的一组人体图片输入至学生模型后提取出的各个第二人体关键点特征向量按位相乘得到的时序特征。比如，第一时序特征是视频帧图片A与视频帧图片B输入至教师模型中提取到的2个第一人体关键点特征向量按位相乘得到的时序特征，则所述对应的第二时序特征即为视频帧图片A与视频帧图片B输入至学生模型中提取到的2个第二人体关键点特征向量按位相乘得到的时序特征。其中，所述损失函数可以为所述第一时序特征S和对应的第二时序特征s的差值，也可以为所述第一时序特征S和对应的第二时序特征s的均方差(标准差)，或者为所述第一时序特征S和对应的第二时序特征s的方差，或者为所述第一时序特征S和对应的第二时序特征s的均方误差，或者为所述第一时序特征S和对应的第二时序特征s的平方差等，在本实施例中不作限定。

作为示例，所述损失函数Loss1可以采用如下公式计算：Loss1＝(S-s)²。

在一示例性的实施方式中，为了提高模型的检测精度，所述根据所述第一时序特征与对应的所述第二时序特征计算所述学生模型的损失函数可以包括：基于所述第一时序特征和对应的第二时序特征确定第一损失值；分别计算每组人体图片的各个第一人体关键点特征向量与对应的第二人体关键点特征向量的第二损失值，并根据计算得到的各个第二损失值确定第三损失值；根据所述第一损失值和所述第三损失值计算所述学生模型的损失函数。

其中，所述第一损失值为上述所述的损失函数Loss1。

其中，所述对应的第二人体关键点特征向量为与输入至教师模型相同的一组人体图片输入至学生模型后提取出的各个第二人体关键点特征向量。比如，第一人体关键点特征向量是视频帧图片A输入至教师模型中提取到的向量，则所述对应的第二人体关键点特征向量即为视频帧图片A输入至学生模型中提取到的向量。

作为示例，假设一组人体图片包括视频帧图片A与视频帧图片B，则需要计算视频帧图片A输入至教师模型提取出的第一人体关键点特征向量F1与视频帧图片A输入至学生模型提取出的第二人体关键点特征向量f1的第二损失值Loss2，以及计算计算视频帧图片B输入至教师模型提取出的第一人体关键点特征向量F2与视频帧图片B输入至学生模型提取出的第二人体关键点特征向量f2的第二损失值Loss2。

其中，第二损失值可以为所述第一人体关键点特征向量与对应的第二人体关键点特征向量的差值，也可以为所述第一人体关键点特征向量与对应的第二人体关键点特征向量的均方差(标准差)，或者为所述第一人体关键点特征向量与对应的第二人体关键点特征向量的方差，或者为所述第一人体关键点特征向量与对应的第二人体关键点特征向量的均方误差，或者为所述第一人体关键点特征向量与对应的第二人体关键点特征向量的平方差等，在本实施例中不作限定。

作为示例，所述第二损失值Loss2可以采用如下公式计算：Loss2＝(F-f)²，其中，F为所述第一人体关键点特征向量，f为所述对应的第二人体关键点特征向量。

在本实施例中，在得到各个第二损失值之后，即可以根据计算得到的各个第二损失值来计算第三损失值。

在一示例性的实施方式中，所述根据计算得到的各个第二损失值确定第三损失值包括：

作为示例，假设各个第二损失值分别为L1、L2与L3，则所述第三损失值Loss1＝L1+L2+L3，或者所述第三损失值Loss3＝(L1+L2+L3)/3。

步骤S25，根据所述损失函数对所述学生模型的模型参数进行更新，直至所述损失函数满足预设条件，得到训练好的人体关键点检测模型。

具体地，为了联合第一损失值和第三损失值对模型进行训练，以提高模型的检测精度，本实施例中可以基于所述第一损失值和所述第三损失值的和值来构建损失函数。

在一示例性的实施方式中，参照图3，所述根据所述第一时序特征与对应的所述第二时序特征计算所述学生模型的损失函数可以包括步骤S30-S31，其中：

步骤S30，获取所述第一损失值的第一权重，以及所述第三损失值的第二权重。

具体地，可以预先设置第一损失值和第三损失值的权重，比如，设置第一损失值Loss1的第一权重为a，第三损失值Loss3的第二权重为b，该第一权重为a与第二权重为b的具体取值可以根据实际应用场景的需要来进行设定与调整，比如，a＝2，b＝1。

步骤S31，根据所述第一损失值、所述第一权重、所述第三损失值和所述第二权重计算所述学生模型的损失函数。

作为示例，所述第一损失值、所述第一权重、所述第三损失值和所述第二权重以上述为例，则损失函数Loss＝2*Loss1+Loss2。

其中，所述预设条件为学生模型训练结束的条件，即学生模型的损失函数收敛。在本实施例中，预设条件可以根据实际需求进行相应的设置。比如，损失函数满足预设条件可以是损失函数的值小于预设值，也可以是损失函数的值的变化趋近于平稳，即相邻两次或多次训练对应的损失函数的值的差值小于设定值，也就是损失函数的值基本不再变化。

可以理解的是，在通过训练样本数据集对学生模型的训练过程中，不断根据每次训练的损失函数的值对学生模型的模型参数进行调整，当损失函数的值满足预设条件时，得到训练好的学生模型，即得到训练好的人体关键点检测模型。

具体而言，上述训练过程具体可以包括：首先，可以将训练样本数据集中的多组人体图片划分为多个批次。可选地，为了更好的保证样本图像的客观性，提升训练效果，每一批次中包含的人体图片组的数量可以相同，也可以不相同。然后，将每一批次的样本图像分别输入学生模型中进行训练，直至损失函数的值满足预设条件，即完成对学生模型的训练。

每一批次的人体图片组对应的具体训练过程可以包括以下步骤：

步骤一，将该批次中的人体图片组输入至预先训练好的教师模型中，通过该教师模型提取出每组人体图片中的各个视频帧图片的第一人体关键点特征向量。

步骤二，将该批次中的人体图片组输入至学生模型中，通过该学生模型提取出每组人体图片中的各个视频帧图片的第二人体关键点特征向量。

步骤三，每组人体图片对应的各个第一人体关键点特征向量按位相乘，得到第一时序特征，并将每组人体图片对应的各个第二人体关键点特征向量按位相乘，得到第二时序特征。

步骤四，将第一时序特征和对应的第二时序特征代入第一损失函数，得到对应的第一损失值。

步骤五，分别将每组人体图片的各个第一人体关键点特征向量与对应的第二人体关键点特征向量代入第二损失函数，得到对应的第二损失值，然后根据得到的各个第二损失值确定第三损失值。

步骤六、基于第一损失值和第三损失值构建损失函数，然后根据损失函数的值对学生模型的模型参数进行调整，即完成该批次的训练。

在一示例性的实施方式中，所述根据所述损失函数对所述学生模型的模型参数进行更新，直至所述损失函数满足预设条件，得到训练好的人体关键点检测模型包括：

具体地，在每个批次对应的训练过程中，可以采用随机梯度下降法(SGD，Stochastic gradient descent)对模型进行优化训练，也就是说，在训练过程中，每一个批次包含的人体图片组的数量为一组，每次对学生模型的模型参数的迭代更新通过一组人体图片来实现。

可以理解的是，在本申请其他实施方式中，也可以采用批量梯度下降法BGD(BatchGradient Descent)或小批量梯度下降法MBGD(mini-batch Gradient Descent)对学生模型进行优化训练。

在一示例性的实施方式中，为了进一步提高训练的模型的检测精度，在对学生模型进行训练时，也可以采用带有人体图片标签的视频帧画面对模型进行训练，即每一张张视频帧画面都具有人体关键点。

作为示例，参照图4，当采用带有人体图片标签的视频帧画面对模型进行训练，所述方法还包括：

步骤S40，获取所述学生模型输出的每组人体图片对应的预测人体关键点。

具体地，在将每组人体图片输入至学生模型后，该学生模型会输出每组人体图片中包含的各张视频帧图片的预测人体关键点。

步骤S41，根据各个预测人体关键点与对应的人体关键点确定第四损失值。

具体地，所述对应的人体关键点为预测人体关键点对应的视频帧图片的人体图片标签，比如，预测人体关键点a为视频帧图片A输入至学生模型后输出的预测人体关键点，则所述人体关键点即为视频帧图片A的人体图片标签。

在本实施例中，在计算所述第四损失值时，可以先计算每一个预测人体关键点与对应的人体关键点的第五损失值Loss5，然后，将各个第五损失值Loss5的和值或者平均值等作为第四损失值Loss4。

其中，所述第五损失值可以为每一个预测人体关键点与对应的人体关键点的差值，也可以为每一个预测人体关键点与对应的人体关键点的均方差(标准差)，或者为每一个预测人体关键点与对应的人体关键点的方差，或者为每一个预测人体关键点与对应的人体关键点的均方误差，或者为每一个预测人体关键点与对应的人体关键点的平方差等，在本实施例中不作限定。

作为示例，所述第五损失值Loss5可以用如下公式进行计算：

其中，yi表示视频帧图片的人体关键点中的第i个关键点的，f(xi)表示所述第i个关键点对应的的预测关键点的。

在本实施例中，当每一张视频帧画面都标注有人体关键点时，所述基于所述第一损失值和所述第三损失值计算所述损失函数包括：

具体地，为了联合第一损失值、第三损失值和第四损失值对模型进行训练，以提高模型的检测精度，在一实施方式中，可以基于所述第一损失值、所述第三损失值、所述第四损失函数的和值来计算损失函数，即所述损失函数Loss＝所述第一损失值+所述第三损失值+所述第四损失函数。

在另一示例性的实施方式中，参照图5，所述基于所述第一损失值、所述第三损失值和所述第四损失值计算所述损失函数包括步骤S50-S51，其中：

步骤S50，获取所述第一损失值的第三权重，所述第三损失值的第四权重和所述第四损失值的第五权重。

具体地，可以预先设置第一损失值、第三损失值和第四损失值的权重，比如，设置第一损失值Loss1的第三权重为c，第三损失值Loss3的第四权重为d，第四损失值Loss4的第五权重为e，其中，该第三权重c、第四权重d与第五权重e的具体取值可以根据实际应用场景的需要来进行设定与调整，比如，c＝2，d＝1，e＝1。

步骤S51，基于所述第一损失值、所述第三权重、所述第三损失值、所述第四权重、所述第四损失值和所述第五权重计算所述损失函数。

作为示例，所述第一损失值、所述第三权重、所述第三损失值、所述第四权重、所述第四损失值和所述第五权重以上述为例，则损失函数Loss＝2*Loss1+Loss3+Loss4。

本实施例中，通过设置第一损失值、所述第三损失值及所述第四损失值不同的权重值，从而可以调整各个损失值在对模型进行训练时在损失函数中所占的比例，提高训练得到的模型的识别精度。

图6为本申请实施例提供的人体关键点检测方法的流程示意图，如图6所示，该方法可以包括：

步骤S60，获取待检测的人体图片。

具体地，所述待检测的人体图片一般为只包含一张人体的图像，其一般可以通过获取包含人体的原始图像后，对原始图像进行人体位置框定，之后，将框定的人体图片从原始图片中裁剪出来作为待检测的人体图片。

步骤S61，将所述人体图片输入至人体关键点检测模型中，得到人体关键点。

具体的，所述人体关键点检测模型是通过上述实施例中的人体关键点检测模型训练方法对神经网络模型进行训练，在损失函数的值满足预设条件后，即得到训练好的人体关键点检测模型。

本申请实施例中人体关键点检测方法，利用训练好的人体关键点检测模型对人体关键点进行检测，由于该人体关键点检测模型在训练过程中采用的是至少两帧相邻的视频帧画面的图像特征按位相乘，得到时序特征，而这个时序特征包含了视频序列的信息，所以学生模型可以有效学习到教师模型对于视频的稳定性和一致性，从而可以大幅减少画面抖动的影响，提高模型的稳定性及检测精度。

参阅图7所示，是本申请人体关键点检测模型训练装置70一实施例的程序模块图。

本实施例中，所述人体关键点检测模型训练装置70包括一系列的存储于存储器上的计算机程序指令，当该计算机程序指令被处理器执行时，可以实现本申请各实施例的人体关键点检测模型训练功能。在一些实施例中，基于该计算机程序指令各部分所实现的特定的操作，人体关键点检测模型训练装置70可以被划分为一个或多个模块，具体可以划分的模块如下：

获取模块71，用于获取训练样本数据集，所述训练样本数据集包括多组人体图片，每组人体图片包括至少两张相邻的视频帧图片，所述视频帧图片为从视频帧中提取出的人体图片；

第一提取模块72，用于将各组人体图片输入至预先训练好的教师模型中，并通过所述教师模型提取出每组人体图片中的各个视频帧图片的第一人体关键点特征向量，其中，所述教师模型为用于从人体图片中检测出人体关键点的模型；

第二提取模块73，用于将各组人体图片输入至学生模型中，并通过所述学生模型提取出每组人体图片中的各个视频帧图片的第二人体关键点特征向量，所述学生模型为用于从人体图片中检测出人体关键点的模型；

时序特征获取模块74，用于根据每组人体图片对应的各个第一人体关键点特征向量计算每组人脸图片对应的第一时序特征，以及根据每组人体图片对应的各个第二人体关键点特征向量计算每组人脸图片对应的第二时序特征；

计算模块75，用于根据所述第一时序特征与对应的所述第二时序特征计算所述学生模型的损失函数；

训练模块76，用于根据所述损失函数对所述学生模型的模型参数进行更新，直至所述损失函数满足预设条件，得到训练好的人体关键点检测模型。

在一示例性的实施方式中，时序特征获取模块74，还用于将每组人体图片对应的各个第一人体关键点特征向量按位相乘，得到每组人脸图片对应的第一时序特征。

时序特征获取模块74，还用于将每组人体图片对应的各个第二人体关键点特征向量按位相乘，得到每组人脸图片对应的第二时序特征。

在一示例性的实施方式中，计算模块75，还用于基于所述第一时序特征和对应的第二时序特征确定第一损失值；分别计算每组人体图片的各个第一人体关键点特征向量与对应的第二人体关键点特征向量的第二损失值，并根据计算得到的各个第二损失值确定第三损失值；根据所述第一损失值和所述第三损失值计算所述学生模型的损失函数。

在一示例性的实施方式中，计算模块75，还用于将计算得到的各个第二损失值的和值或平均值作为所述第三损失值。

在一示例性的实施方式中，计算模块75，还用于获取所述第一损失值的第一权重，以及所述第三损失值的第二权重；根据所述第一损失值、所述第一权重、所述第三损失值和所述第二权重计算所述损失函数。

在一示例性的实施方式中，每一张视频帧画面都具有人体关键点，人体关键点检测模型训练装置70还包括：预测获取模块、损失值确定模块。

所述预测获取模块，用于获取所述学生模型输出的每组人体图片对应的预测人体关键点。

所述损失值确定模块，用于根据各个预测人体关键点与对应的人体关键点确定第四损失值。

所述计算模块75，还用于基于所述第一损失值、所述第三损失值和所述第四损失值计算所述损失函数。

在一示例性的实施方式中，所述计算模块75，还用于获取所述第一损失值的第三权重，所述第三损失值的第四权重和所述第四损失值的第五权重；基于所述第一损失值、所述第三权重、所述第三损失值、所述第四权重、所述第四损失值和所述第五权重计算所述损失函数。

在一示例性的实施方式中，所述训练模块76，还用于根据所述损失函数，采用随机梯度下降法对所述学生模型的模型参数进行更新，直至所述损失函数满足预设条件，得到训练好的人体关键点检测模型。

参阅图8所示，是本申请人体关键点检测装置80一实施例的程序模块图。

本实施例中，所述人体关键点检测装置80包括一系列的存储于存储器上的计算机程序指令，当该计算机程序指令被处理器执行时，可以实现本申请各实施例的人体关键点检测功能。在一些实施例中，基于该计算机程序指令各部分所实现的特定的操作，人体关键点检测装置80可以被划分为一个或多个模块，具体可以划分的模块如下：

获取模块81，用于获取待检测的人体图片。

输入模块82，用于将所述人体图片输入至人体关键点检测模型中，得到人体关键点，其中，所述人体关键点检测模型是通过上述实施例中的人体关键点检测模型训练方法对神经网络模型进行训练，在损失函数的值满足预设条件后，即得到训练好的人体关键点检测模型。

本申请实施例中人体关键点检测方法，利用训练好的人体关键点检测模型对人体关键点进行检测，由于该人体关键点检测模型在训练过程中采用的是至少两帧相邻的视频帧画面的图像特征按位相乘，得到时序特征，而这个时序特征包含了视频序列的信息，所以学生模型可以有效学习到教师模型对于视频的稳定性和一致性，从而可以大幅减少画面抖动的影响，提高模型的稳定性。

图9示意性示出了根据本申请实施例的适于实现人体关键点检测模型训练方法的计算机设备9的硬件架构示意图。本实施例中，计算机设备9是一种能够按照事先设定或者存储的指令，自动进行数值计算和/或信息处理的设备。例如，可以是平板电脑、笔记本电脑、台式计算机、机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器，或者多个服务器所组成的服务器集群)等。如图9所示，计算机设备9至少包括但不限于：可通过系统总线相互通信链接存储器120、处理器121、网络接口122。其中：

存储器120至少包括一种类型的计算机可读存储介质，该可读存储介质可以是易失性的，也可以是非易失性的，具体而言，可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，存储器120可以是计算机设备9的内部存储模块，例如该计算机设备9的硬盘或内存。在另一些实施例中，存储器120也可以是计算机设备9的外部存储设备，例如该计算机设备9上配备的插接式硬盘，智能存储卡(Smart Media Card，简称为SMC)，安全数字(Secure Digital，简称为SD)卡，闪存卡(Flash Card)等。当然，存储器120还可以既包括计算机设备9的内部存储模块也包括其外部存储设备。本实施例中，存储器120通常用于存储安装于计算机设备9的操作系统和各类应用软件，例如人体关键点检测模型训练方法的程序代码等。此外，存储器120还可以用于暂时地存储已经输出或者将要输出的各类数据。

处理器121在一些实施例中可以是中央处理器(Central Processing Unit，简称为CPU)、控制器、微控制器、微处理器、或其它人体关键点检测模型训练芯片。该处理器121通常用于控制计算机设备9的总体操作，例如执行与计算机设备9进行数据交互或者通信相关的控制和处理等。本实施例中，处理器121用于运行存储器120中存储的程序代码或者处理数据。

网络接口122可包括无线网络接口或有线网络接口，该网络接口122通常用于在计算机设备9与其它计算机设备之间建立通信链接。例如，网络接口122用于通过网络将计算机设备9与外部终端相连，在计算机设备9与外部终端之间的建立数据传输通道和通信链接等。网络可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯系统(GlobalSystem of Mobile communication，简称为GSM)、宽带码分多址(Wideband Code DivisionMultiple Access，简称为WCDMA)、4G网络、5G网络、蓝牙(Bluetooth)、Wi-Fi等无线或有线网络。

需要指出的是，图9仅示出了具有部件120～122的计算机设备，但是应理解的是，并不要求实施所有示出的部件，可以替代的实施更多或者更少的部件。

在本实施例中，存储于存储器120中的人体关键点检测模型训练方法或者人体关键点检测方法可以被分割为一个或者多个程序模块，并由一个或多个处理器(本实施例为处理器121)所执行，以完成本申请。

本申请实施例提供了一种计算机可读存储介质，计算机可读存储介质其上存储有计算机程序，计算机程序被处理器执行时实现实施例中的人体关键点检测模型训练方法或人体关键点检测方法的步骤。

本实施例中，计算机可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，计算机可读存储介质可以是计算机设备的内部存储单元，例如该计算机设备的硬盘或内存。在另一些实施例中，计算机可读存储介质也可以是计算机设备的外部存储设备，例如该计算机设备上配备的插接式硬盘，智能存储卡(Smart Media Card，简称为SMC)，安全数字(Secure Digital，简称为SD)卡，闪存卡(Flash Card)等。当然，计算机可读存储介质还可以既包括计算机设备的内部存储单元也包括其外部存储设备。本实施例中，计算机可读存储介质通常用于存储安装于计算机设备的操作系统和各类应用软件，例如实施例中的人体关键点检测模型训练方法或人体关键点检测方法的程序代码等。此外，计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的各类数据。

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到至少两个网络单元上。可以根据实际的需要筛选出其中的部分或者全部模块来实现本申请实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域普通技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现，当然也可以通过硬件。本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-OnlyMemory，ROM)或随机存储记忆体(RandomAccessMemory，RAM)等。

最后应说明的是：以上各实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述各实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims

1.一种人体关键点检测模型训练方法，其特征在于，包括：

2.根据权利要求1所述的人体关键点检测模型训练方法，其特征在于，所述根据每组人体图片对应的各个第一人体关键点特征向量计算每组人脸图片对应的第一时序特征包括：

3.根据权利要求1所述的人体关键点检测模型训练方法，所述根据所述第一时序特征与对应的所述第二时序特征计算所述学生模型的损失函数包括：

4.根据权利要求3所述的人体关键点检测模型训练方法，其特征在于，所述根据计算得到的各个第二损失值确定第三损失值包括：

5.根据权利要求3所述的人体关键点检测模型训练方法，其特征在于，所述根据所述第一损失值和所述第三损失值计算所述学生模型的损失函数包括：

6.根据权利要求3所述的人体关键点检测模型训练方法，其特征在于，每一张视频帧画面都具有人体图片人体关键点，所述方法还包括：

7.根据权利要6所述的人体关键点检测模型训练方法，其特征在于，所述基于所述第一损失值、所述第三损失值和所述第四损失值计算所述损失函数包括：

8.根据权利要求1至7任一项所述的人体关键点检测模型训练方法，其特征在于，所述根据所述损失函数对所述学生模型的模型参数进行更新，直至所述损失函数满足预设条件，得到训练好的人体关键点检测模型包括：

9.一种人体关键点检测方法，其特征在于，所述方法包括：

获取待检测的人体图片；

将所述人体图片输入至人体关键点检测模型中，得到人体关键点，其中，所述人体关键点检测模型为通过权利要求1至8任一项所述的人体关键点检测模型训练方法训练得到的。

10.一种人体关键点检测模型训练装置，其特征在于，包括：

11.一种人体关键点检测装置，其特征在于，包括：

获取模块，用于获取待检测的人体图片；

输入模块，用于将所述人体图片输入至人体关键点检测模型中，得到人体关键点，其中，所述人体关键点检测模型为通过权利要求1至8任一项所述的人体关键点检测模型训练方法训练得到的。

12.一种计算机设备，所述计算机设备，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现权利要求1至9任一项所述的方法的步骤。

13.一种计算机可读存储介质，其上存储有计算机程序，其特征在于：所述计算机程序被处理器执行时实现权利要求1至9任一项所述的方法的步骤。