CN115953806A - 一种基于yolo的2d姿态检测方法 - Google Patents

一种基于yolo的2d姿态检测方法 Download PDF

Info

Publication number
CN115953806A
CN115953806A CN202310094627.7A CN202310094627A CN115953806A CN 115953806 A CN115953806 A CN 115953806A CN 202310094627 A CN202310094627 A CN 202310094627A CN 115953806 A CN115953806 A CN 115953806A
Authority
CN
China
Prior art keywords
points
key points
key
detection
point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310094627.7A
Other languages
English (en)
Inventor
都卫东
和江镇
祝伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Focusight Technology Co Ltd
Original Assignee
Focusight Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Focusight Technology Co Ltd filed Critical Focusight Technology Co Ltd
Priority to CN202310094627.7A priority Critical patent/CN115953806A/zh
Publication of CN115953806A publication Critical patent/CN115953806A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Image Analysis (AREA)

Abstract

本发明涉及一种基于YOLO的2D姿态检测方法,包括1)训练集标注;标注出训练集图片中检测对象的Bbox、检测对象所有关键点坐标及关键点类别、各个关键点连接顺序;2)训练检测模型并进行检测;3)检测时的输入包含待检测图片与关键点连接顺序两部分组成;先经过检测模型检测出检测对象的Bbox、Bbox的embedding值,关键点的坐标、关键点的embedding值;然后关键点匹配组合部分根据embedding值将同个检测对象的关键点组合到一起,再依据关键点连接顺序确定检测对象位置及姿态。本发明保留了基于YOLO的姿态估计方法推理速度快显存占用小的特点,同时提高了关键点的预测精度并且几乎不增加额外的算法运行时间。

Description

一种基于YOLO的2D姿态检测方法
技术领域
本发明涉及计算机视觉检测技术领域,尤其是一种基于YOLO的2D姿态检测方法。
背景技术
姿态估计是计算机视觉领域中的一个重要研究方向,目前被广泛应用于人体活动分析、人机交互以及视频监视等方面。姿态估计大多数是人体姿态估计,还有一些有手部姿态估计;人体姿态估计是指通过计算机算法在图像或视频中定位人体关键点(如肩、肘、腕、髋膝、膝、踝等);手部姿态估计分为有标记和无标记的姿态估计,用于理解手部行为的意思。
姿态估计的方法可分为基于传统的姿态估计和基于深度学习的姿态估计。
传统的姿态估计主要是基于图结构模型方法。基于图结构模型方法包含三部分:图模型、优化算法和组件外观模型,它提供了经典的对象统计模型,使用图形结构模型识别图像中的对象,缺点在于属于启发式的局部搜索,没办法找到全局最优解。
深度学习是自我解释型的学习方式,简单方便,功能强大,很多领域都在使用,而基于深度学习的姿态估计是利用深度卷积神经网络来增强人体估计系统的性能。与传统方法相比,深度学习能够得到更深层图像特征,对数据的表达更准确,因此已成为研究的主流方向。在深度学习方法中,根据检测人数分为单人姿态估计与多人姿态估计两类,对单人姿态估计分为基于坐标回归与基于热图检测的方法;对多人姿态估计可分为自上而下(Top-Down)和自下而上(Bottom-Up)的方法。
自上而下是指先检测目标,然后对提取出来的目标区域使用单目标关键点检测方法来构造姿态,这种方法优势是不用考虑多个目标的多个同类别关键点间的匹配组合问题,缺点是非常依赖目标检测效果,当目标检出不完整时就无法检出目标的所有关键点,同时随着目标数量的增加,计算量也会增加。自下而上的方法是目前的主流方法,这种方法先计算所有目标的所有关键点,再将关键点组合到对应的目标上,关键点匹配组合到目标的过程会增加算法的复杂度。
对于关键点检测目前常用的方法主要有基于heatmap的方法和YoloPose这样的用目标模型直接回归关键点坐标的方法。早期的回归坐标的方法是用于单目标的关键点检测,对单目标图片提取特征后直接用全连接层输出所有关键点坐标。Heatmap的方法将关键点坐标用图片的形式输出出来,生成与关键点类别数相等的热力图的数量,这种方法的缺点是计算量大,显存占用量高;通常heatmap的尺寸为输入图片的四分之一,这就导致至少会存在3个像素左右的误差。使用heatmap的方法随着关键点数量的增加会大幅度增加特征图尺寸,同时还需要考虑不同目标的同类别关键点的区分与匹配问题,如在人体姿态估计中一张图片存在两个人,每个人都有左肩、左肘、左手这三个关键点,即一张图片中的6个点应该怎样连接才能分别正确地构成这两个人的左手臂,在OpenPose算法中使用的是生成关键点亲和场的方法,这会进一步增加特征图尺寸,同时带来计算量与显存的增加;虽然heatmap方法也有通过生成关键点embedding的方法进行匹配,但无法解决生成heatmap特征图带来的计算量增加的问题。
而YoloPose使用的是在预测目标对象的目标框同时,计算每个目标的每个关键点,即在得到关键点坐标的同时就已经与目标对象进行关联,通过目标对象的全局特征姿态来生成关键点,所以不用考虑找到关键点后与目标的关联匹配问题,因此可以使算法的检测速度达到与Yolo系列目标检测模型几乎相同的速度。但YoloPose存在的问题是对于大尺寸的目标,Yolo是通过低分辨率特征图进行回归的,所以对于大尺寸目标检测关键点这样的精细操作会带来较大的精度丢失。
发明内容
本发明要解决的技术问题是:提供一种基于YOLO的2D姿态估计方法,解决目前已有的基于YOLO架构在对超大目标的关键点定位时,由于都是基于目标所在anchor回归关键点的偏移量,导致anchor尺度过大、目标末端关键点距离anchor距离较远而产生了较大的误差的问题。
本发明解决其技术问题所采用的技术方案是:一种基于YOLO的2D姿态检测方法,包括以下步骤,
1)训练集标注;标注出训练集图片中检测对象的Bbox,即Bounding box、检测对象所有关键点坐标及关键点类别、各个关键点连接顺序;
2)训练检测模型并进行检测;
3)检测时的输入包含待检测图片与关键点连接顺序两部分组成;先经过检测模型检测出检测对象的Bbox、Bbox的embedding值,关键点的坐标、关键点的embedding值;然后关键点匹配组合部分根据embedding值将同个检测对象的关键点组合到一起,再依据关键点连接顺序确定检测对象位置及姿态。
进一步的说,本发明所述的步骤1)中,同一个检测对象的关键点数量、关键点类别完全相同且各个关键点的连接方式唯一,关键点的连接顺序标注时只创建一次。
再进一步的说,本发明所述的步骤3)中,关键点检测部分采用YoloX的backbone;输出的是点类型的目标,采用高分辨率的特征图提高定位精度,backbone中去掉了一个CSP1和CBA的结构,使原始backbone输出的特征图尺寸由(W/8,H/8)、(W/16,H/16)、(W/32,H/32)变为(W/4,H/4)、(W/8,H/8)、(W/16,H/16),其中W、H为输入图片的宽与高。
再进一步的说,本发明所述的步骤3)中,embedding head的loss计算方法如下:
Figure BDA0004071290380000041
其中,P={(pnk)},n∈[1,N],k∈[1,K];pnk表示第n个目标的第k个关键点的坐标;enk(pnk)是预测的第n个目标的第k个关键点的embedding值,en是第n个目标的参考embedding,是当前目标所有关键点embedding的均值,计算方法如下:
Figure BDA0004071290380000042
更进一步的说,本发明所述的步骤3)中,在对关键点匹配时,使用MeanShift算法对关键点的embedding进行聚类,包括以下步骤:
1、在未被标记的数据点中随机n个点作为n个聚类的起始中心点center;
2、找出以center为中心,半径为radius的区域中出现的所有数据点,认为这些点同属于一个聚类C;同时将在该聚类中数据点的访问频率加1;
3、以center为中心点,计算center点到集合M中每个数据点的向量之和,得到向量shift,对于给定的d维空间中的n个样本点xi,i=1,...,n,对于点x,MeanShift向量的基本形式为:
Figure BDA0004071290380000051
4、center点沿着向量shift的方向移动,移动距离是||shift||;
5、迭代:重复步骤2、3、4,直到||shift||很小,即迭代到收敛,记住此时的center;这个迭代过程中遇到的点都应该归类到簇C;
6、如果收敛时当前簇C的center与其它已经存在的簇C2中心的距离小于阈值,那么把C2和C合并,数据点出现次数也对应合并;否则,把C作为新的聚类;
7、重复1、2、3、4、5、6直到所有的点都被标记为已访问;
8、根据每个类,对每个点的访问频率,取访问频率最大的那个类,作为当前点集的所属类。
本发明的有益效果是,解决了背景技术中存在的缺陷,将关键点作为单独的目标进行检测,关键点组合到同个目标采用匹配embedding的方法,同时预测每个关键点的embedding;训练时,对于同个目标让模型向各关键点embedding距离最短收敛,对于不同目标以增加embedding距离的方向收敛;保留了相较heatmap方法的基于YOLO的姿态估计方法推理速度快显存占用小的特点,同时提高了关键点的预测精度并且几乎不增加额外的算法运行时间。
附图说明
图1是本发明基本架构示意图;
图2是模型结构示意图。
具体实施方式
现在结合附图和优选实施例对本发明作进一步详细的说明。这些附图均为简化的示意图,仅以示意方式说明本发明的基本结构,因此其仅显示与本发明有关的构成。
如图1-图2所示的一种基于YOLO的2D姿态检测方法,分为关键点检测与关键点匹配组合两个部分,基本架构如图1所示,包括以下流程:
1)训练集标注。标注出训练集图片中检测对象的Bbox(Bounding box)、检测对象所有关键点坐标及关键点类别、各个关键点连接顺序(注:embedding不用标注;由于同一个检测对象的关键点数量、关键点类别完全相同且各个关键点的连接方式唯一,所以关键点的连接顺序标注时只需创建一次)。
2)模型训练。
3)检测过程。如图1所示,本检测方案的输入包含待检测图片与关键点连接顺序两部分组成。先经过检测模型检测出检测对象的Bbox、Bbox的embedding值,关键点的坐标、关键点的embedding值。关键点匹配组合部分会根据embedding值将同个检测对象的关键点组合到一起(注:一张图片可能存在多个检测对象),再依据关键点连接顺序确定检测对象位置及姿态。
其中关键点检测部分采用YoloX的backbone。由于输出的是点类型的目标,需要用高分辨率的特征图提高定位精度,backbone中去掉了一个CSP1和CBA的结构,使原始backbone输出的特征图尺寸由(W/8,H/8)、(W/16,H/16)、(W/32,H/32)变为(W/4,H/4)、(W/8,H/8)、(W/16,H/16),其中W、H为输入图片的宽与高。相较于官方版本的YoloX,在回归检测头分支中增加了对关键点embadding的输出,如图2所示。
由于检出目标都为点类型,模型会主要由(W/4,H/4)分辨率的检测头分支进行输出,为了进一步降低计算量,裁减掉backbone中的PAN结构,去掉(W/8,H/8)和(W/16,H/16)分别率的检测头分支。
对于class head、region head和object head分支的损失函数不做修改,embedding head的loss计算方法如下:
Figure BDA0004071290380000071
其中P={(pnk)},n∈[1,N],k∈[1,K]。pnk表示第n个目标的第k个关键点的坐标。enk(pnk)是预测的第n个目标的第k个关键点的embedding值,en是第n个目标的参考embedding,是当前目标所有关键点embedding的均值,计算方法如下:
Figure BDA0004071290380000072
这个损失函数的作用是使模型训练时尽可能减少同个目标的每个关键点embedding的距离,尽可能增大不同目标间的参考embedding距离,实现同个目标关键点间的匹配,不同目标的同类型关键点能够区分。
在对关键点匹配时,使用MeanShift算法对关键点的embedding进行聚类。
其中MeanShift的基本步骤如下:
1、在未被标记的数据点中随机n个点作为n个聚类的起始中心点center。
2、找出以center为中心,半径为radius的区域中出现的所有数据点,认为这些点同属于一个聚类C。同时将在该聚类中数据点的访问频率加1。
3、以center为中心点,计算center点到集合M中每个数据点的向量之和,得到向量shift,对于给定的d维空间中的n个样本点xi,i=1,...,n,对于点x,MeanShift向量的基本形式为:
Figure BDA0004071290380000073
4、center点沿着向量shift的方向移动,移动距离是||shift||。
5、迭代:重复步骤2、3、4,直到||shift||很小(就是迭代到收敛),记住此时的center。这个迭代过程中遇到的点都应该归类到簇C。
6、如果收敛时当前簇C的center与其它已经存在的簇C2中心的距离小于阈值,那么把C2和C合并,数据点出现次数也对应合并。否则,把C作为新的聚类。
7、重复1、2、3、4、5、6直到所有的点都被标记为已访问。
8、根据每个类,对每个点的访问频率,取访问频率最大的那个类,作为当前点集的所属类。
本发明采用类似heatmap方法中先检测所有关键点再用关键点embedding匹配的方法,而不同的是将每个关键点用目标模型当成一个目标进行检出,这样可以避免生成heatmap特征图需要大量计算资源的问题;同时由于是对关键点的检测,特征图分辨率越高越有利于回归出精确坐标,又因为Yolo算法对小目标检测结果的输出主要来源高分别率特征图,因此对网络结构进行简化,去掉了PAN结构,仅保留FPN部分,裁减掉另外两个低分辨率的检测头。
针对关键点检测所用的Heatmap方法计算量大、不适合部署在边缘设备上的问题,本方法目标检测的方法,将关键点当成目标进行检测。目标模型的整体架构基于YOLOX,YOLO系列的模型在业内是公认的兼具精度与速度的模型,YOLOX在历代YOLO模型的基础上首次使用了分类检测头、回归检测头分离的解耦头,增加了模型的收敛速度,同时提高了模型的可拓展性;使用simOTA标签分配策略使模型在使用anchor free机制的情况下也能有非常好的检测效果,简化了历代YOLO模型使用anchor base机制下模型output decode的复杂度。通过对模型结构简化、部署时使用int8量化,使模型能够做到在边缘设备上实时检测的需求。
针对关键点匹配组合算法复杂度高的问题,本发明采用了关键点embedding的方法,每个关键点都会通过模型回归出一个embedding值,在训练过程中让同个检测对象的每个关键点embedding值向相等的方向收敛;不同检测对象的关键点embedding值向距离增大的方向收敛。最终在模型推理时,可直接通过聚类的方式将embedding值近似的关键点归类于同一个检测对象,简化了关键点匹配组合流程。
同时由于是对关键点的检测,特征图分辨率越高越有利于回归出精确坐标,又因为Yolo算法对小目标检测结果的输出主要来源高分别率特征图,因此对网络结构进行简化,去掉了PAN结构,仅保留FPN部分,裁减掉另外两个低分辨率的检测头。
以上说明书中描述的只是本发明的具体实施方式,各种举例说明不对本发明的实质内容构成限制,所属技术领域的普通技术人员在阅读了说明书后可以对以前所述的具体实施方式做修改或变形,而不背离发明的实质和范围。

Claims (5)

1.一种基于YOLO的2D姿态检测方法,其特征在于:包括以下步骤,
1)训练集标注;标注出训练集图片中检测对象的Bbox,即Bounding box、检测对象所有关键点坐标及关键点类别、各个关键点连接顺序;
2)训练检测模型并进行检测;
3)检测时的输入包含待检测图片与关键点连接顺序两部分组成;先经过检测模型检测出检测对象的Bbox、Bbox的embedding值,关键点的坐标、关键点的embedding值;然后关键点匹配组合部分根据embedding值将同个检测对象的关键点组合到一起,再依据关键点连接顺序确定检测对象位置及姿态。
2.如权利要求1所述的一种基于YOLO的2D姿态检测方法,其特征在于:所述的步骤1)中,同一个检测对象的关键点数量、关键点类别完全相同且各个关键点的连接方式唯一,关键点的连接顺序标注时只创建一次。
3.如权利要求2所述的一种基于YOLO的2D姿态检测方法,其特征在于:所述的步骤3)中,关键点检测部分采用YoloX的backbone;输出的是点类型的目标,采用高分辨率的特征图提高定位精度,backbone中去掉了一个CSP1和CBA的结构,使原始backbone输出的特征图尺寸由(W/8,H/8)、(W/16,H/16)、(W/32,H/32)变为(W/4,H/4)、(W/8,H/8)、(W/16,H/16),其中W、H为输入图片的宽与高。
4.如权利要求3所述的一种基于YOLO的2D姿态检测方法,其特征在于:所述的步骤3)中,embedding head的loss计算方法如下:
Figure FDA0004071290370000011
其中,P={(pnk)},n∈[1,N],k∈[1,K];pnk表示第n个目标的第k个关键点的坐标;enk(pnk)是预测的第n个目标的第k个关键点的embedding值,
Figure FDA0004071290370000012
是第n个目标的参考embedding,是当前目标所有关键点embedding的均值,计算方法如下:
Figure FDA0004071290370000021
5.如权利要求4所述的一种基于YOLO的2D姿态检测方法,其特征在于:所述的步骤3)中,在对关键点匹配时,使用MeanShift算法对关键点的embedding进行聚类,包括以下步骤:
1、在未被标记的数据点中随机n个点作为n个聚类的起始中心点center;
2、找出以center为中心,半径为radius的区域中出现的所有数据点,认为这些点同属于一个聚类C;同时将在该聚类中数据点的访问频率加1;
3、以center为中心点,计算center点到集合M中每个数据点的向量之和,得到向量shift,对于给定的d维空间中的n个样本点xi,i=1,...,n,对于点x,MeanShift向量的基本形式为:
Figure FDA0004071290370000022
4、center点沿着向量shift的方向移动,移动距离是||shift||;
5、迭代:重复步骤2、3、4,直到||shift||很小,即迭代到收敛,记住此时的center;这个迭代过程中遇到的点都应该归类到簇C;
6、如果收敛时当前簇C的center与其它已经存在的簇C2中心的距离小于阈值,那么把C2和C合并,数据点出现次数也对应合并;否则,把C作为新的聚类;
7、重复1、2、3、4、5、6直到所有的点都被标记为已访问;
8、根据每个类,对每个点的访问频率,取访问频率最大的那个类,作为当前点集的所属类。
CN202310094627.7A 2023-02-10 2023-02-10 一种基于yolo的2d姿态检测方法 Pending CN115953806A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310094627.7A CN115953806A (zh) 2023-02-10 2023-02-10 一种基于yolo的2d姿态检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310094627.7A CN115953806A (zh) 2023-02-10 2023-02-10 一种基于yolo的2d姿态检测方法

Publications (1)

Publication Number Publication Date
CN115953806A true CN115953806A (zh) 2023-04-11

Family

ID=87287680

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310094627.7A Pending CN115953806A (zh) 2023-02-10 2023-02-10 一种基于yolo的2d姿态检测方法

Country Status (1)

Country Link
CN (1) CN115953806A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116645699A (zh) * 2023-07-27 2023-08-25 杭州华橙软件技术有限公司 一种关键点检测方法、装置、终端及计算机可读存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116645699A (zh) * 2023-07-27 2023-08-25 杭州华橙软件技术有限公司 一种关键点检测方法、装置、终端及计算机可读存储介质
CN116645699B (zh) * 2023-07-27 2023-09-29 杭州华橙软件技术有限公司 一种关键点检测方法、装置、终端及计算机可读存储介质

Similar Documents

Publication Publication Date Title
Yang et al. Extraction of 2d motion trajectories and its application to hand gesture recognition
CN106897670B (zh) 一种基于计算机视觉的快递暴力分拣识别方法
Kim et al. Simultaneous gesture segmentation and recognition based on forward spotting accumulative HMMs
WO2018107760A1 (zh) 一种用于行人检测的协同式深度网络模型方法
CN108062525B (zh) 一种基于手部区域预测的深度学习手部检测方法
CN111310659B (zh) 基于增进式图卷积神经网络的人体动作识别方法
US7983448B1 (en) Self correcting tracking of moving objects in video
CN111368769B (zh) 基于改进锚点框生成模型的船舶多目标检测方法
CN109559320A (zh) 基于空洞卷积深度神经网络实现视觉slam语义建图功能的方法及系统
CN111401293B (zh) 一种基于Head轻量化Mask Scoring R-CNN的手势识别方法
JP2006524394A (ja) 画像における人体輪郭描写
Wang et al. Point linking network for object detection
CN110032952B (zh) 一种基于深度学习的道路边界点检测方法
Han et al. Robust visual tracking based on adversarial unlabeled instance generation with label smoothing loss regularization
CN111582154A (zh) 基于多任务骨架姿态划分部件的行人重识别方法
CN115953806A (zh) 一种基于yolo的2d姿态检测方法
CN110533725B (zh) 一种基于结构推理网络的高铁接触网多种零部件定位方法
Zhang et al. Residual memory inference network for regression tracking with weighted gradient harmonized loss
CN110008899B (zh) 一种可见光遥感图像候选目标提取与分类方法
Abdullah et al. Vehicle counting using deep learning models: a comparative study
Dhore et al. Human Pose Estimation And Classification: A Review
CN113076891A (zh) 基于改进高分辨率网络的人体姿态预测方法及系统
CN107146215A (zh) 一种基于颜色直方图和凸包的显著性检测方法
CN116580289A (zh) 一种基于注意力的细粒度图像识别方法
CN114973305B (zh) 一种针对拥挤人群的精确人体解析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination