CN116229520A

CN116229520A - 一种基于detr及回归神经网络的人体关键点检测方法

Info

Publication number: CN116229520A
Application number: CN202310263736.7A
Authority: CN
Inventors: 卢隆; 李永; 梁丞瑜; 钱翔; 樊庆宇; 王军鹏
Original assignee: Tianyi Cloud Technology Co Ltd
Current assignee: Tianyi Cloud Technology Co Ltd
Priority date: 2023-03-12
Filing date: 2023-03-12
Publication date: 2023-06-06

Abstract

本发明公开了一种基于detr及回归神经网络的人体关键点检测方法，涉及深度学习技术领域，针对现有人体关键点检测方法无法实现检测精度与计算速度的共同兼顾，本发明通过结合回归模型以及transformer模型的方法，将人体关键点检测任务转换为目标检测任务，具有无需后处理、计算量小、推理速度快、同时精度高的优点，使用拉普拉斯分布设计的损失函数可以在回归任务中取得更佳的模型优化效果，且由于transformer模型有更好的全局建模能力，使得本发明的人体关键点检测方法针对遮挡情况具有更好的检测效果。

Description

一种基于detr及回归神经网络的人体关键点检测方法

技术领域

本发明涉及深度学习技术领域，尤其涉及一种基于detr及回归神经网络的人体关键点检测方法。

背景技术

随着VR以及人工智能的快速发展，关键点检测已经成为现在的一个热点领域。在人体关键点检测中，目前主流的方法是利用神经网络获取人体关键点，主要方法有两种，一种是基于热力图(heatmap)的关键点检测，模型先通过热力图得到整张图片每个像素点的关键点种类以及概率，然后取概率最大的点作为关键点输出；另一种是基于回归的关键点检测，模型直接输出各个关键点的坐标。

两种方案各有优劣，基于热力图的方案最优精度一般高于回归方法，但是模型需要维持高清特征图，计算成本高速度较慢，而基于回归的方案的缺点是最优精度低于基于热力图方案，不过随着新技术的提出，现在的回归方案精度已经能超越一部分热力图方法，但是这些方案通常还需要在基于热力图模型训练的主干网络作为预训练模型。

因此，迫切需要设计一种精度高、速度快的人体关键点检测方法。

发明内容

针对现有人体关键点检测方法无法实现检测精度与计算速度的共同兼顾，本发明通过结合回归模型以及transformer模型的方法，将人体关键点检测任务转换为目标检测任务，在计算量相较热力图方案下降的情况下得到较好的精度，实现对人体关键点更加快速准确的检测，同时由于transformer模型有更好的全局建模能力，针对遮挡情况模型效果优于CNN网络。

本发明提出一种基于detr及回归神经网络的人体关键点检测方法，包括如下步骤：

步骤S0：获取样本数据：获取人体图像、人体关键点类别以及坐标信息标签；

步骤S1：构建人体关键点检测回归模型：所述人体关键点检测回归模型由主干网络模块和transformer模块构成；

步骤S2：训练人体关键点检测回归模型：将所述样本数据输入所述人体关键点检测回归模型，输出人体关键点位置；

步骤S3：人体关键点检测：将待测图像输入训练好的人体关键点检测回归模型，输出人体关键点位置，计算所述人体关键点位置的置信度，根据合理设置阈值滤出可信关键点。

进一步的，所述步骤S1，所述主干网络模块由一个特征提取器、一个全局池化层和一个全连接网络构成。

进一步的，所述主干网络模块的特征提取器可选择任意常用主干网络。

进一步的，所述全连接网络输出维度为Kx4，K为关键点类别数，4代表关键点位置坐标x、坐标y以及坐标x的方差和坐标y的方差。

进一步的，所述步骤S1，所述transformer模块由关键点编码器KeypointEncoder、查询编码器Query Decoder组成，关键点编码器Keypoint Encoder用于根据人体关键点坐标范围生成查询信息queries，查询编码器Query Decoder接收所述查询信息queries，输出准确的人体关键点位置。

进一步的，所述步骤S2中，人体关键点检测回归模型训练采用拉普拉斯分布设计的损失函数，所述损失函数公式为：

其中，

α为权重参数，默认设置为1，

μ_g为关键点的真实位置，

b_bb为主干网络模块输出的位置的方差，

μ_bb为主干网络模块输出的关键点位置，

b_dec为Query decoder模块输出的位置的方差，

μ_dec为Query decoder模块输出的关键点位置。

进一步的，所述步骤S3中，人体关键点位置的置信度conf计算方法如下：

conf＝1-b_f (4)

其中：

b_f为关键点位置坐标的方差。

进一步的，所述关键点位置坐标的方差b_f通过sigmoid激活函数得到。

与现有技术相比较，本发明的有益效果在于：

一是通过结合回归模型以及transformer模型的方法，将人体关键点检测任务转换为目标检测任务，在计算量相较热力图方案下降的情况下得到较好的精度，无需后处理、计算量小，实现对人体关键点更加快速准确的检测。

二是由于transformer模型有更好的全局建模能力，使得本发明的人体关键点检测方法针对遮挡情况具有更好的检测效果。

三是使用拉普拉斯分布设计的损失函数可以在回归任务中取得更佳的模型优化效果。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明人体关键点检测方法的流程图；

图2为本发明人体关键点检测模型的整体结构图：

图3为主干网络模块的示意图；

图4为Query Decoder结构示意图。

具体实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

本领域技术人员应当知晓，下述具体实施例或具体实施方式，是本发明为进一步解释具体的发明内容而列举的一系列优化的设置方式，而该些设置方式之间均是可以相互结合或者相互关联使用的，除非在本发明明确提出了其中某些或某一具体实施例或实施方式无法与其他的实施例或实施方式进行关联设置或共同使用。同时，下述的具体实施例或实施方式仅作为最优化的设置方式，而不作为限定本发明的保护范围的理解。

下面结合附图(表)对本发明的具体实施方式做出说明。

图1为本发明人体关键点检测方法的流程图，图2为本发明人体关键点检测模型的整体结构图。

本发明提出了一种基于detr及回归神经网络的人体关键点检测方法，其特征在于包括步骤：

步骤S0：获取样本数据：获取人体图像、人体关键点类别以及坐标信息标签。

具体每个个体包含的关键点类别数量视需要而定。

步骤S1：构建人体关键点检测回归模型：所述人体关键点检测回归模型由主干网络模块和transformer模块构成。

主干网络模块由一个特征提取器、一个全局池化层和一个全连接网络构成。其中主干网络backbone中的特征提取器可选择任意常用backbone，诸如resnet、HRnet、swin等等，后续以swin-L为例，整体主干模块由swin-L后先接一个全局池化操作，再接一个全连接网络FCN组成，FCN后得到各个关键点的坐标μ以及方差b，得到的μ以及b会进行一次损失计算，提高本次回归任务得到的坐标精度；FCN的输出维度为Kx4,K为关键点类别数，4代表关键点位置坐标x,y以及方差b1,b2。方差一定程度上代表置信度，方差越大说明对预测的坐标结果越不确定。

图3为主干网络模块的示意图。

核心思想为先使用主干网络模块进行一次回归任务得到关键点坐标的范围，得到的坐标信息结合主干网络模块提取出的特征信息送入transformer模块得到更准确的关键点坐标，其中transformer模块主要由Keypoint Encoder、Query Decoder组成。KeypointEncoder用于根据人体关键点坐标范围生成queries，Query Decoder接收所述queries，输出准确的人体关键点位置。

Keypoint Encoder主要的任务为生成queries，首先对主干模块得到的关键点坐标μ_bb进行位置信息嵌入(position embedding)，position embedding是transformer模型中对于位置信息进行编码的操作。

Query Decoder结构示意图如4所示，其中k queries是上一步Keypoints encoder的输出，features是backbone提取的不同尺寸特征与position embedding相加的结果，encoder中还有N个相同的网络层,每层网络先对queries进行多头自注意力计算，得到的结果再与features结合进行自注意力计算，最后通过前馈神经网络FFN(feed forwardnetwork)得到新的k queries，新的queries再送入下一层重新上述步骤，最后得到queries在通过一个FFN计算出关键点的x-y坐标μ_f以及方差b_f,之后进行一次损失计算。

步骤S2：训练人体关键点检测回归模型：将所述样本数据输入所述人体关键点检测回归模型，输出人体关键点位置。

常用的损失函数在回归任务中逐渐被发现效果不佳，主要原因是对于数据结果分布的假设过于简单，因为大量实验显示拉普拉斯分布更接近关键点检测任务中的数据真实分布，因此本方案假设结果数据分布属于拉普拉斯分布，对于每张图片I,分布的均值为μ_g，即标签的关键点坐标位置，方差为b，拉普拉斯分布公式：

根据极大似然函数：

L＝-logf(x|μ,b) (6)

得到损失公式：

模型中在主干网络后进行一次损失计算，在query decoder之后又进行一次损失计算。

主干网络后的计算公式为：

其中：

P_θbb(x|I)代表输入图像为I，backbone模型参数为θ_bb时的真实关键点位置为x的概率密度函数，μ_g为真实位置，x为主干之后输出的关键点位置，b_bb为主干之后输出的方差。

query decoder之后的计算公式为：

其中：

代表输入图像为I，decoder模块参数为θ_dec时的真实关键点位置为x的概率密度函数，μ_g为真实位置，x为decoder模块之后输出的关键点位置，b_dec为decoder模块之后输出的方差。

最终的损失计算为：

其中：

α为权重参数，默认可设置为1，

μ_g为关键点的真实位置，

b_bb为主干网络模块输出的位置的方差，

μ_bb为主干网络模块输出的关键点位置，

b_dec为Query decoder模块输出的位置的方差，

μ_dec为Query decoder模块输出的关键点位置。

人体关键点位置置信度conf计算方法如下：

conf＝1-b_f (4)

其中：

b_f为关键点位置坐标的方差，可通过sigmoid激活函数得到。

b_f以及conf的大小都在(0,1)之内，数据结果分布的方差越大，说明关键点的不确定性越强，置信度就越低。

在一个具体实施方式中，本发明可通过如下4步来实现：

1.获取训练数据，明确关键点类别数K,选择需要的数据增强方式，例如旋转，线性变换，随机遮挡等等。

2.选择适合场景的backbone,以简单场景为例，选取resnet50作为backbone，下载开源的在大数据集上预训练的resnet50作为backbone；

3.模型训练，选择精度下降前精度最高的轮次的模型

4.模型推理，选择合适的行人检测器，如yolo等，将待提取关键点的图片先用yolo推理得到行人的图片，将行人图片送入关键点检测模型推理得到K个类关键点坐标以及置信度，根据合理设置阈值滤出可信关键点后完成整体任务。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种基于detr及回归神经网络的人体关键点检测方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的一种基于detr及回归神经网络的人体关键点检测方法，其特征在于，所述步骤S1，所述主干网络模块由一个特征提取器、一个全局池化层和一个全连接网络构成。

3.根据权利要求2所述的一种基于detr及回归神经网络的人体关键点检测方法，其特征在于，所述主干网络模块的特征提取器可选择任意常用主干网络。

4.根据权利要求2所述的一种基于detr及回归神经网络的人体关键点检测方法，其特征在于，所述全连接网络输出维度为Kx4，K为关键点类别数，4代表关键点位置坐标x、坐标y以及坐标x的方差和坐标y的方差。

5.根据权利要求1所述的一种基于detr及回归神经网络的人体关键点检测方法，其特征在于，所述步骤S1，所述transformer模块由关键点编码器Keypoint Encoder、查询编码器Query Decoder组成，关键点编码器Keypoint Encoder用于根据人体关键点坐标范围生成查询信息queries，查询编码器Query Decoder接收所述查询信息queries，输出准确的人体关键点位置。

6.根据权利要求1所述的一种基于detr及回归神经网络的人体关键点检测方法，其特征在于，所述步骤S2中，人体关键点检测回归模型训练采用拉普拉斯分布设计的损失函数，所述损失函数公式为：

其中，

α为权重参数，默认设置为1，

μ_g为关键点的真实位置，

b_bb为主干网络模块输出的位置的方差，

μ_bb为主干网络模块输出的关键点位置，

b_dec为Querydecoder模块输出的位置的方差，

μ_dec为Querydecoder模块输出的关键点位置。

7.根据权利要求1所述的一种基于detr及回归神经网络的人体关键点检测方法，其特征在于，所述步骤S3中，人体关键点位置的置信度conf计算方法如下：

conf＝1-b_f (4)

其中：

b_f为关键点位置坐标的方差。

8.根据权利要求7所述的一种基于detr及回归神经网络的人体关键点检测方法，其特征在于，所述关键点位置坐标的方差b_f通过sigmoid激活函数得到。