CN116229520A - 一种基于detr及回归神经网络的人体关键点检测方法 - Google Patents
一种基于detr及回归神经网络的人体关键点检测方法 Download PDFInfo
- Publication number
- CN116229520A CN116229520A CN202310263736.7A CN202310263736A CN116229520A CN 116229520 A CN116229520 A CN 116229520A CN 202310263736 A CN202310263736 A CN 202310263736A CN 116229520 A CN116229520 A CN 116229520A
- Authority
- CN
- China
- Prior art keywords
- human body
- key point
- body key
- point detection
- detr
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 55
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 17
- 230000000306 recurrent effect Effects 0.000 title claims description 12
- 238000004364 calculation method Methods 0.000 claims abstract description 14
- 238000000034 method Methods 0.000 claims description 9
- 238000012549 training Methods 0.000 claims description 8
- 238000001914 filtration Methods 0.000 claims description 4
- 238000011176 pooling Methods 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 238000013135 deep learning Methods 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 14
- 230000006870 function Effects 0.000 description 9
- 230000000694 effects Effects 0.000 description 4
- 230000009466 transformation Effects 0.000 description 4
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/766—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using regression, e.g. by projecting features on hyperplanes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Human Computer Interaction (AREA)
- Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于detr及回归神经网络的人体关键点检测方法,涉及深度学习技术领域,针对现有人体关键点检测方法无法实现检测精度与计算速度的共同兼顾,本发明通过结合回归模型以及transformer模型的方法,将人体关键点检测任务转换为目标检测任务,具有无需后处理、计算量小、推理速度快、同时精度高的优点,使用拉普拉斯分布设计的损失函数可以在回归任务中取得更佳的模型优化效果,且由于transformer模型有更好的全局建模能力,使得本发明的人体关键点检测方法针对遮挡情况具有更好的检测效果。
Description
技术领域
本发明涉及深度学习技术领域,尤其涉及一种基于detr及回归神经网络的人体关键点检测方法。
背景技术
随着VR以及人工智能的快速发展,关键点检测已经成为现在的一个热点领域。在人体关键点检测中,目前主流的方法是利用神经网络获取人体关键点,主要方法有两种,一种是基于热力图(heatmap)的关键点检测,模型先通过热力图得到整张图片每个像素点的关键点种类以及概率,然后取概率最大的点作为关键点输出;另一种是基于回归的关键点检测,模型直接输出各个关键点的坐标。
两种方案各有优劣,基于热力图的方案最优精度一般高于回归方法,但是模型需要维持高清特征图,计算成本高速度较慢,而基于回归的方案的缺点是最优精度低于基于热力图方案,不过随着新技术的提出,现在的回归方案精度已经能超越一部分热力图方法,但是这些方案通常还需要在基于热力图模型训练的主干网络作为预训练模型。
因此,迫切需要设计一种精度高、速度快的人体关键点检测方法。
发明内容
针对现有人体关键点检测方法无法实现检测精度与计算速度的共同兼顾,本发明通过结合回归模型以及transformer模型的方法,将人体关键点检测任务转换为目标检测任务,在计算量相较热力图方案下降的情况下得到较好的精度,实现对人体关键点更加快速准确的检测,同时由于transformer模型有更好的全局建模能力,针对遮挡情况模型效果优于CNN网络。
本发明提出一种基于detr及回归神经网络的人体关键点检测方法,包括如下步骤:
步骤S0:获取样本数据:获取人体图像、人体关键点类别以及坐标信息标签;
步骤S1:构建人体关键点检测回归模型:所述人体关键点检测回归模型由主干网络模块和transformer模块构成;
步骤S2:训练人体关键点检测回归模型:将所述样本数据输入所述人体关键点检测回归模型,输出人体关键点位置;
步骤S3:人体关键点检测:将待测图像输入训练好的人体关键点检测回归模型,输出人体关键点位置,计算所述人体关键点位置的置信度,根据合理设置阈值滤出可信关键点。
进一步的,所述步骤S1,所述主干网络模块由一个特征提取器、一个全局池化层和一个全连接网络构成。
进一步的,所述主干网络模块的特征提取器可选择任意常用主干网络。
进一步的,所述全连接网络输出维度为Kx4,K为关键点类别数,4代表关键点位置坐标x、坐标y以及坐标x的方差和坐标y的方差。
进一步的,所述步骤S1,所述transformer模块由关键点编码器KeypointEncoder、查询编码器Query Decoder组成,关键点编码器Keypoint Encoder用于根据人体关键点坐标范围生成查询信息queries,查询编码器Query Decoder接收所述查询信息queries,输出准确的人体关键点位置。
进一步的,所述步骤S2中,人体关键点检测回归模型训练采用拉普拉斯分布设计的损失函数,所述损失函数公式为:
其中,
α为权重参数,默认设置为1,
μg为关键点的真实位置,
bbb为主干网络模块输出的位置的方差,
μbb为主干网络模块输出的关键点位置,
bdec为Query decoder模块输出的位置的方差,
μdec为Query decoder模块输出的关键点位置。
进一步的,所述步骤S3中,人体关键点位置的置信度conf计算方法如下:
conf=1-bf (4)
其中:
bf为关键点位置坐标的方差。
进一步的,所述关键点位置坐标的方差bf通过sigmoid激活函数得到。
与现有技术相比较,本发明的有益效果在于:
一是通过结合回归模型以及transformer模型的方法,将人体关键点检测任务转换为目标检测任务,在计算量相较热力图方案下降的情况下得到较好的精度,无需后处理、计算量小,实现对人体关键点更加快速准确的检测。
二是由于transformer模型有更好的全局建模能力,使得本发明的人体关键点检测方法针对遮挡情况具有更好的检测效果。
三是使用拉普拉斯分布设计的损失函数可以在回归任务中取得更佳的模型优化效果。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明人体关键点检测方法的流程图;
图2为本发明人体关键点检测模型的整体结构图:
图3为主干网络模块的示意图;
图4为Query Decoder结构示意图。
具体实施方式
下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
本领域技术人员应当知晓,下述具体实施例或具体实施方式,是本发明为进一步解释具体的发明内容而列举的一系列优化的设置方式,而该些设置方式之间均是可以相互结合或者相互关联使用的,除非在本发明明确提出了其中某些或某一具体实施例或实施方式无法与其他的实施例或实施方式进行关联设置或共同使用。同时,下述的具体实施例或实施方式仅作为最优化的设置方式,而不作为限定本发明的保护范围的理解。
下面结合附图(表)对本发明的具体实施方式做出说明。
本发明公开了一种基于detr及回归神经网络的人体关键点检测方法,涉及深度学习技术领域,针对现有人体关键点检测方法无法实现检测精度与计算速度的共同兼顾,本发明通过结合回归模型以及transformer模型的方法,将人体关键点检测任务转换为目标检测任务,具有无需后处理、计算量小、推理速度快、同时精度高的优点,使用拉普拉斯分布设计的损失函数可以在回归任务中取得更佳的模型优化效果,且由于transformer模型有更好的全局建模能力,使得本发明的人体关键点检测方法针对遮挡情况具有更好的检测效果。
图1为本发明人体关键点检测方法的流程图,图2为本发明人体关键点检测模型的整体结构图。
本发明提出了一种基于detr及回归神经网络的人体关键点检测方法,其特征在于包括步骤:
步骤S0:获取样本数据:获取人体图像、人体关键点类别以及坐标信息标签。
具体每个个体包含的关键点类别数量视需要而定。
步骤S1:构建人体关键点检测回归模型:所述人体关键点检测回归模型由主干网络模块和transformer模块构成。
主干网络模块由一个特征提取器、一个全局池化层和一个全连接网络构成。其中主干网络backbone中的特征提取器可选择任意常用backbone,诸如resnet、HRnet、swin等等,后续以swin-L为例,整体主干模块由swin-L后先接一个全局池化操作,再接一个全连接网络FCN组成,FCN后得到各个关键点的坐标μ以及方差b,得到的μ以及b会进行一次损失计算,提高本次回归任务得到的坐标精度;FCN的输出维度为Kx4,K为关键点类别数,4代表关键点位置坐标x,y以及方差b1,b2。方差一定程度上代表置信度,方差越大说明对预测的坐标结果越不确定。
图3为主干网络模块的示意图。
核心思想为先使用主干网络模块进行一次回归任务得到关键点坐标的范围,得到的坐标信息结合主干网络模块提取出的特征信息送入transformer模块得到更准确的关键点坐标,其中transformer模块主要由Keypoint Encoder、Query Decoder组成。KeypointEncoder用于根据人体关键点坐标范围生成queries,Query Decoder接收所述queries,输出准确的人体关键点位置。
Keypoint Encoder主要的任务为生成queries,首先对主干模块得到的关键点坐标μbb进行位置信息嵌入(position embedding),position embedding是transformer模型中对于位置信息进行编码的操作。
Query Decoder结构示意图如4所示,其中k queries是上一步Keypoints encoder的输出,features是backbone提取的不同尺寸特征与position embedding相加的结果,encoder中还有N个相同的网络层,每层网络先对queries进行多头自注意力计算,得到的结果再与features结合进行自注意力计算,最后通过前馈神经网络FFN(feed forwardnetwork)得到新的k queries,新的queries再送入下一层重新上述步骤,最后得到queries在通过一个FFN计算出关键点的x-y坐标μf以及方差bf,之后进行一次损失计算。
步骤S2:训练人体关键点检测回归模型:将所述样本数据输入所述人体关键点检测回归模型,输出人体关键点位置。
常用的损失函数在回归任务中逐渐被发现效果不佳,主要原因是对于数据结果分布的假设过于简单,因为大量实验显示拉普拉斯分布更接近关键点检测任务中的数据真实分布,因此本方案假设结果数据分布属于拉普拉斯分布,对于每张图片I,分布的均值为μg,即标签的关键点坐标位置,方差为b,拉普拉斯分布公式:
根据极大似然函数:
L=-logf(x|μ,b) (6)
得到损失公式:
模型中在主干网络后进行一次损失计算,在query decoder之后又进行一次损失计算。
主干网络后的计算公式为:
其中:
Pθbb(x|I)代表输入图像为I,backbone模型参数为θbb时的真实关键点位置为x的概率密度函数,μg为真实位置,x为主干之后输出的关键点位置,bbb为主干之后输出的方差。
query decoder之后的计算公式为:
其中:
最终的损失计算为:
其中:
α为权重参数,默认可设置为1,
μg为关键点的真实位置,
bbb为主干网络模块输出的位置的方差,
μbb为主干网络模块输出的关键点位置,
bdec为Query decoder模块输出的位置的方差,
μdec为Query decoder模块输出的关键点位置。
步骤S3:人体关键点检测:将待测图像输入训练好的人体关键点检测回归模型,输出人体关键点位置,计算所述人体关键点位置的置信度,根据合理设置阈值滤出可信关键点。
人体关键点位置置信度conf计算方法如下:
conf=1-bf (4)
其中:
bf为关键点位置坐标的方差,可通过sigmoid激活函数得到。
bf以及conf的大小都在(0,1)之内,数据结果分布的方差越大,说明关键点的不确定性越强,置信度就越低。
在一个具体实施方式中,本发明可通过如下4步来实现:
1.获取训练数据,明确关键点类别数K,选择需要的数据增强方式,例如旋转,线性变换,随机遮挡等等。
2.选择适合场景的backbone,以简单场景为例,选取resnet50作为backbone,下载开源的在大数据集上预训练的resnet50作为backbone;
3.模型训练,选择精度下降前精度最高的轮次的模型
4.模型推理,选择合适的行人检测器,如yolo等,将待提取关键点的图片先用yolo推理得到行人的图片,将行人图片送入关键点检测模型推理得到K个类关键点坐标以及置信度,根据合理设置阈值滤出可信关键点后完成整体任务。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (8)
1.一种基于detr及回归神经网络的人体关键点检测方法,其特征在于,包括如下步骤:
步骤S0:获取样本数据:获取人体图像、人体关键点类别以及坐标信息标签;
步骤S1:构建人体关键点检测回归模型:所述人体关键点检测回归模型由主干网络模块和transformer模块构成;
步骤S2:训练人体关键点检测回归模型:将所述样本数据输入所述人体关键点检测回归模型,输出人体关键点位置;
步骤S3:人体关键点检测:将待测图像输入训练好的人体关键点检测回归模型,输出人体关键点位置,计算所述人体关键点位置的置信度,根据合理设置阈值滤出可信关键点。
2.根据权利要求1所述的一种基于detr及回归神经网络的人体关键点检测方法,其特征在于,所述步骤S1,所述主干网络模块由一个特征提取器、一个全局池化层和一个全连接网络构成。
3.根据权利要求2所述的一种基于detr及回归神经网络的人体关键点检测方法,其特征在于,所述主干网络模块的特征提取器可选择任意常用主干网络。
4.根据权利要求2所述的一种基于detr及回归神经网络的人体关键点检测方法,其特征在于,所述全连接网络输出维度为Kx4,K为关键点类别数,4代表关键点位置坐标x、坐标y以及坐标x的方差和坐标y的方差。
5.根据权利要求1所述的一种基于detr及回归神经网络的人体关键点检测方法,其特征在于,所述步骤S1,所述transformer模块由关键点编码器Keypoint Encoder、查询编码器Query Decoder组成,关键点编码器Keypoint Encoder用于根据人体关键点坐标范围生成查询信息queries,查询编码器Query Decoder接收所述查询信息queries,输出准确的人体关键点位置。
7.根据权利要求1所述的一种基于detr及回归神经网络的人体关键点检测方法,其特征在于,所述步骤S3中,人体关键点位置的置信度conf计算方法如下:
conf=1-bf (4)
其中:
bf为关键点位置坐标的方差。
8.根据权利要求7所述的一种基于detr及回归神经网络的人体关键点检测方法,其特征在于,所述关键点位置坐标的方差bf通过sigmoid激活函数得到。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310263736.7A CN116229520A (zh) | 2023-03-12 | 2023-03-12 | 一种基于detr及回归神经网络的人体关键点检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310263736.7A CN116229520A (zh) | 2023-03-12 | 2023-03-12 | 一种基于detr及回归神经网络的人体关键点检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116229520A true CN116229520A (zh) | 2023-06-06 |
Family
ID=86584426
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310263736.7A Pending CN116229520A (zh) | 2023-03-12 | 2023-03-12 | 一种基于detr及回归神经网络的人体关键点检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116229520A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118038340A (zh) * | 2024-04-15 | 2024-05-14 | 盛视科技股份有限公司 | 基于视频图像的防尾随检测系统 |
-
2023
- 2023-03-12 CN CN202310263736.7A patent/CN116229520A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118038340A (zh) * | 2024-04-15 | 2024-05-14 | 盛视科技股份有限公司 | 基于视频图像的防尾随检测系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Chu et al. | Spot and learn: A maximum-entropy patch sampler for few-shot image classification | |
Komorowski et al. | Minkloc++: lidar and monocular image fusion for place recognition | |
CN111191583B (zh) | 基于卷积神经网络的空间目标识别系统及方法 | |
CN107529222B (zh) | 一种基于深度学习的WiFi室内定位系统 | |
CN110175615B (zh) | 模型训练方法、域自适应的视觉位置识别方法及装置 | |
CN113191387A (zh) | 结合无监督学习与数据自增强的文物碎片点云分类方法 | |
CN113838109B (zh) | 一种低重合度点云配准方法 | |
CN116071667B (zh) | 基于历史数据的指定区域内异常飞机目标检测方法及系统 | |
CN116229520A (zh) | 一种基于detr及回归神经网络的人体关键点检测方法 | |
CN113705596A (zh) | 图像识别方法、装置、计算机设备和存储介质 | |
CN112035689A (zh) | 一种基于视觉转语义网络的零样本图像哈希检索方法 | |
CN113065409A (zh) | 一种基于摄像分头布差异对齐约束的无监督行人重识别方法 | |
CN112733710A (zh) | 用于灌溉装置的灌溉水压控制的神经网络的训练方法 | |
Cheng et al. | A two-stage outlier filtering framework for city-scale localization using 3D SfM point clouds | |
CN114820668B (zh) | 一种端到端的基于同心环卷积的建筑物规则轮廓自动提取方法 | |
Li et al. | PSCLI-TF: Position-Sensitive Cross-Layer Interactive Transformer Model for Remote Sensing Image Scene Classification | |
CN113158756A (zh) | 基于HRNet深度学习的姿态、行为分析模块及分析方法 | |
CN117392488A (zh) | 一种数据处理方法、神经网络及相关设备 | |
CN112528062A (zh) | 一种跨模态武器检索方法及系统 | |
Zhou et al. | Obstacle detection for unmanned surface vehicles by fusion refinement network | |
CN116452888A (zh) | 一种基于迁移学习的小样本目标检测系统及检测方法 | |
CN110826726B (zh) | 目标处理方法、目标处理装置、目标处理设备及介质 | |
CN109919162B (zh) | 用于输出mr图像特征点描述向量符的模型及其建立方法 | |
Wang et al. | Feature-based and convolutional neural network fusion method for visual relocalization | |
Zhou et al. | Prototype Relation Embedding and Contrastive Learning for Improved Few-Shot Object Detection in Sonar Images |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |