CN114863487A - 基于二次回归的一阶段多人人体检测和姿态估计的方法 - Google Patents
基于二次回归的一阶段多人人体检测和姿态估计的方法 Download PDFInfo
- Publication number
- CN114863487A CN114863487A CN202210613234.8A CN202210613234A CN114863487A CN 114863487 A CN114863487 A CN 114863487A CN 202210613234 A CN202210613234 A CN 202210613234A CN 114863487 A CN114863487 A CN 114863487A
- Authority
- CN
- China
- Prior art keywords
- regression
- human body
- label
- anchor
- person
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/762—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/766—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using regression, e.g. by projecting features on hyperplanes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Evolutionary Biology (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于二次回归的一阶段多人人体检测和姿态估计的方法,所用的深度神经网络由主体网络和特征金字塔两部分组成,使用了一阶段检测网络的思想提升了总体效率,并在训练网络时采用二次回归的方法。第一次回归时将人体的中心点作为特征图的正样本锚点,监督锚点回归人体的检测框坐标和人体的关键点坐标;第二次回归时将第一次回归预测出的关键点位置来作为锚点,监督该锚点学习自身和与之相邻的关键点与真实坐标的差值,从二次回归的锚点中得到关键点坐标更为精确的位置,从而提升姿态估计的精度以及提升对遮挡的鲁棒性。
Description
技术领域
本发明涉及计算机视觉图像处理领域,特别涉及基于二次回归的一阶段多人人体检测和姿态估计的方法。
背景技术
多人人体姿态估计技术是计算机视觉中的常见任务,而人体检测技术技术通常用于图像中人体的定位于裁剪,以及视频中行人跟踪技术等领域。人体姿态估计技术对于描述人体运动轨迹、预测人体行为的方面也至关重要,目前的人体姿态估计方法在大的种类上可以分为传统机器学习方法与基于深度学习的方法两种。
大多数传统机器学习方法中主要将人体关键点的运动轨迹估计表述为树状结构模型或图形模型,并基于手工制作的特征预测这些人体关键点的位置,即人体关键点在图像中的二维坐标。然而由于人体运动的灵活性、服装的多变性以及环境的复杂性,很难定义一个与人体运动匹配的具体模板;同时在利用机器学习方法完成人体姿态估计的过程中,需要从原始输入图像中提取大量的特征,同样由于人体姿态的高复杂性,提取的特征分辨率相对较高,导致计算复杂度很高,因此传统机器学习方法主要应用于简单背景,单人运动且无遮挡的理想状态,难以应用于实际场景中。
而最近流行的深度学习方法则在性能和效率上都大幅度超越了传统的机器学习方法。深度学习方法中的多人姿态估计方法按照其处理步骤的不同可以分为一阶段检测方法和二阶段检测方法两种。
一阶段多人姿态估计方法使用一个神经网络直接输出一幅图片中所有人的关键点的坐标以及它们的组合。一阶段方法是完全端到端训练的。
二阶段多人姿态估计方法则是将多人姿态估计问题拆分为人体目标检测问题加单人姿态估计问题。二阶段多人姿态估计方法依赖于人体目标检测技术,即对一张含有人体的图片,对其中的每个人体均预测出一个边界框。将图片中每个边界框中的图像截取出来,这样就提取出了一张多人图片中的每个单人部分。将提取出的单人图像依次送入单人姿态估计网络中,就可以得到他们每一个的结果。
现有的二阶段多人姿态估计方法训练方法复杂,它需要单独训练一个目标检测网络和一个单人姿态估计网络。并且由于它依次对所有人体图片进行单人姿态估计的特性,图片中的人越多,二阶段多人姿态估计方法所用的时间就越多。因此二阶段多人姿态估计方法的效率较低。
除了按阶段来划分多人姿态估计方法之外,也可按照监督信号的形式不同,将现有的多人体姿态估计方法分为基于热力图的方法和基于回归的方法两种。
基于热力图的方法是利用人体关键点生成一个热力图,即越靠近人体关键点的位置置信度越高。使用类似于生成网络的方法来学习这个热力图的生成,但这种方法的主要问题是,为了有更好的精度,热力图方法就必须生成一个分辨率较高的热力图,而在卷积神经网络的输出端维持较高的输出分辨率会导致计算量大增。因此基于热力图的方法通常计算开销都很大。
而基于回归的方法则不同,它直接学习人体关键点的坐标值,即基于回归的神经网络直接在尾部输出关键单坐标,基于回归的姿态估计方法由于不需要维持较高的分辨率因此计算量较低。但通常由于基于回归的神经网络的输出是固定长度的,因此基于回归的姿态估计方法通常用于单人姿态估计和二阶段多人姿态估计的第二阶段。
CN108154104A公开了一种基于深度图像超像素联合特征的人体姿态估计方法,该方法使用单幅包含人体的深度图像作为输入数据,
该方法使用了超像素分割的方法对人体图像进行分割,并根据此提取人体特征。并对分割结果使用聚类方法进行聚类,利用稀疏回归的方式获取人体关键点坐标值。但这种方法有着较为明显的缺陷,首先改方法需要专用的深度提取设备来获取深度信息,难以在实际中应用。并且该方法仅仅可以做单人姿态估计,而现实的场景中大多数都是多人的,因此该方法的应用面不够广泛。
CN110008915A公开了一种基于Mask-RCNN的稠密人体姿态估计的系统及方法。该方法将实例分割方法应用到了姿态估计中,首先使用主干网络对特征图进行降维,并使用降维后的特征图进行检测,得到目标所在的矩形框,并再依据语义分割的方式对检测到的区域进行分割,为每个像素预测一个标签值。但该方法存在一个主要问题,在于该方法如果检测到两个人存在重叠区域或出现遮挡情况时,很难判定单个像素的类别是属于哪个人。这样就会导致在模型训练以及推断过程中出现人体关键点的歧义与主体目标的歧义,进而会导致模型的识别率下降的缺陷。
CN110084138A公开了一种2D多人姿态估计方法,使用一种全卷积神经网络来学习人体姿态的响应热图,在推断阶段取输出热图的局部极值点来作为人体关键点的坐标。并且为了解决同一个人的不同关键点的匹配问题,改方法还同时学习了人体关键点的亲和力场图,用于匹配同一个人的不同关键点。但这种方法也存在着一些问题,例如通过全卷积神经网络获取的热图的分辨率不足,因此极值点坐标时会存在着量化误差。如果要想减少量化误差,该网络的特征图就需要一直维持一个很高的分辨率,这样会导致运行效率大为降低。
综上所述,现有技术中,多人人体姿态估计方法还存在有精度不足与计算量较大的缺陷。
发明内容
为了解决上述问题,本发明提供了一种基于二次回归的一阶段多人人体检测和姿态估计的方法,二次回归方法可改进模型的精度,一阶段回归方法大大提升了模型的效率。
为此,本发明的技术方案是:基于二次回归的一阶段多人人体检测和姿态估计的方法,包括以下步骤:
1)图像预处理:获取图像文件和相应的标签文件构成数据集,并将数据集分为训练集、验证集和测试集;标签文件中保存了图像文件内人体的多个人体关键点信息和边界框信息;选取标签文件中每个人的边界框的中心位置作为初次回归的锚点;选取人体关键点周围的点来作为二次回归的锚点;
2)构建多人人体检测和姿态估计模型:模型由主干网络、Neck网络与预测网络组成;
主干网络用于提取图像特征,主干网络由Focus模块、CBL模块、CSP模块和残差连接组成;
Neck网络采用FPN+PAN的结构,FPN自顶向下进行多层采样,构造多尺度的特征金字塔,PAN使用自底向上的多层采样,加强了定位信息;
预测网络:Neck网络中的PAN结构输出4层特征图,其中前3层特征图用于学习一次回归过程,最后一层特征图用户学习二次回归过程;
3)训练多人人体检测和姿态估计模型:
c1)一次回归的监督:以人体的中心点作为特征图的正样本锚点,监督锚点回归人体的检测框坐标和人体的关键点坐标,使用L1损失函数来监督人体关键点坐标的回归,使用CIOU loss来监督人体检测框的回归过程:
Loss_person=L1(anchor_point(i),target(i))
Loss1=α·Loss_person+β·Loss_CIoU
其中:
anchor_point(i)代表网络输出层的第i个位置的锚点输出;
target(i)代表网络输出层的第i个位置的锚点所对应的标签值;
b和bgt代表预测框和标签框;
ρ表示两个矩形框之间的欧氏距离;
c表示两个矩形框的闭包区域的对角线的距离;
δ是权重系数;
v用来衡量两个矩形框相对比例的一致性;
Intersection表示两框相交部分面积;
Union表示两框相并的面积表示;
wgt和w分别表示标签框的宽和预测框的宽值;
hgt和h分别表示标签框的高和预测框的高值;
α和β为预设权重系数,默认值为1;
如公式所示,将Loss_point和Loss_CIoU分别乘以参数α和β来进行加权,从而得到一次回归的总损失函数;
c2)二次回归的监督:利用步骤1)中生成的标签来监督二次回归的锚点,学习自身和与之相邻的关键点与真实坐标的差值,以及自身的检测边界框;用L1损失函数来监督关键点坐标的回归:
Loss_2=L1(anchor_point(i),target(i))
将两次回归的损失函数相加,得到总的损失函数:
loss_total=Loss1+Loss_2
使用loss_total对网络参数求梯度,使用梯度下降法来优化网络的所有参数;
4)多人人体检测和姿态估计模型的推断与测试:
a1)输入图像文件,并对输入的图像文件进行归一化处理;
a2)利用非极大值抑制方法来获取一次回归的结果:获取预测网络输出的前3层特征图,获取特征图中每个位置回归的边界框和它的置信度,取得置信度最高的边界框先放入结果序列;遍历剩余位置,计算与当前置信度最高的边界框的交并比,若大于预设的阈值则剔除,然后对剩余位置的检测框重复上述操作,直到处理完网络输出的所有位置的边界框,即可得到最终位置;
选取上述筛选出来的最终位置来作为一次回归的预测锚点,来获取一次回归的结果,即从该位置获取它回归出的人体关键点的坐标信息;
a3)利用步骤a2)得到的一次回归的结果来找二次回归所需的锚点,即利用人体关键点的坐标映射到预测网络输出的第4层特征图中;得到二次回归的锚点后,分别取它们的二次回归的坐标,若置信度大于预设阈值,则用第二次回归的坐标来替代一次回归的坐标;反之,依然使用一次回归的坐标结果来作为最终的输出坐标;
a4)选取测试集内的图像文件,重复步骤a1)~a3)进行推断,得到测试集内图像文件的各个人体关键点的坐标信息,完成多人人体检测和姿态估计。
优选地,步骤1)中的图像预处理,包括以下步骤:
b1)图像归一化:从多人大型姿态估计公开数据集MS-COCO上获取图像文件和相应的标签文件;将图片进行缩放至512×512像素大小,利用MSCOCO数据集图像RGB三个通道各自的均值与标准差,对图像进行标准化操作,并且将数据集分为训练集、验证集和测试集三个部分;
b2)锚框值的选取:载入MS-COCO数据集中的所有标签文件,得到该数据集中所有人体边界框的宽和高,将每张图片对应标签的人体边界框的宽和高等比例缩放;并将边界框的相对坐标转化为绝对坐标;筛选边界框,保留宽和高均大于等于两个像素的边界框;使用K-均值算法对边界框进行聚类;最后使用遗传算法随机对锚框的宽和高进行变异;若变异后适应度提高,则将变异后的结果赋值给锚框,若变异后适应度降低,则跳过该次变异结果,进行下一次变异,默认变异1000次;
b3)生成包含人体检测框和关键点的锚点和标签:选取标签中每个人的边界框的中心位置来作为初次回归的锚点:
其中x,y是边界框的左上角的坐标;h,w代表边界框的长和宽,获得边界框的中点后,将中点对应的位置作为一次回归的锚点;为每一个锚点分配一个标签,标签设置为向量的形式;一次标签向量中包括该锚点所对应的人体关键点的坐标值、边界框的坐标值、预设锚框的相对值以及分类的置信度;
选取人体关键点周围的点来作为二次回归的锚点,即从标签文件中读取人体关键点的坐标值,并将该坐标点周围半径为r的范围内的所有点都设为二次回归的锚点;为每个二次回归的锚点都分配一个二次标签向量,二次标签向量包含二次回归锚点与其对应人体关键点的相对位置。
优选地,所述步骤1)中的图像预处理中数据集可由马赛克数据增强法进行扩充:将数据集中的任意4张图片进行组合,按照随机缩放、裁剪和排布的方法将这4张图拼接得到一张新的图像,并将原有4张图像对应的标签文件也按照同样的方法进行缩放和拼接,来得到一个新的标签文件。
优选地,所述标签文件中保存了图像文件中人体的17个人体关键点信息和边界框信息;所述17个人体关键点包括鼻子、左右眼、左右耳、左右肩、左右手肘、左右手腕、左右臀部、左右膝盖和左右脚踝,这些人体关键点所对应的标签索分别为,0-鼻子、1-左眼、2-右眼、3-左耳、4-右耳、5-左肩、6-右肩、7-左肘、8右肘、9-左腕、10-右腕、11-左髋、12-右髋、13-左膝、14-右膝、15-左踝、16-右踝。
优选地,所述CBL模块由卷积层加批标准化层和Relu激活函数组成。
优选地,所述Focus模块对图片进行切片操作:在一张图片上每隔一个像素取一个值,将一整张图片分成4张图片;将这4张图片在通道维度上进行拼接,将通道数扩充4倍;再将得到的结果进行卷积操作,从而在没有信息丢失的情况下实现了下采样操作。
优选地,所述CSP模块先将输入数据分成两个分支,分别进行卷积操作使得通道数减半,其中一个分支经过CBL模块处理,另一个分支不做额外处理,最后拼接两个分支,使得CSP模块的输入与输出大小一致,利于多个模块的堆叠。
优选地,步骤a1)中图像文件为验证集中的人体图像或摄像头捕获的实时图像;将输入的图像文件的缩放至512×512像素大小,使用MSCOCO数据集图像RGB三个通道各自的均值与标准差对图像进行标准化操作。
与现有技术相比,本发明的有益效果是:深度神经网络由主体网络和特征金字塔两部分组成,使用了一阶段检测网络的思想提升了总体效率,并在训练网络时采用二次回归的方法;第一次回归时将人体的中心点作为特征图的正样本锚点,监督锚点回归人体的检测框坐标和人体的关键点坐标;第二次回归时将第一次回归预测出的关键点位置来作为锚点,监督该锚点学习自身和与之相邻的关键点与真实坐标的差值,从而提升姿态估计的精度以及提升对遮挡的鲁棒性;在网络推断时使用非极大值抑制的方法选取检测框置信值的局部极大值点作为锚点,并使用该锚点回归出的人体关键点位置选作为关键点二次回归的锚点,并从二次回归的锚点中得到关键点坐标更为精确的位置,从而提升人体关键点预测值的精确度以及在一定程度上减轻遮挡的影响。
附图说明
以下结合附图和本发明的实施方式来作进一步详细说明
图1为本发明的流程框图。
具体实施方式
参见附图。本实施例所述基于二次回归的一阶段多人人体检测和姿态估计的方法,该方法基于深度神经网络,该方法所用的深度神经网络由主体网络和特征金字塔两部分组成,使用了一阶段检测网络的思想提升了总体效率,并在训练网络时采用二次回归的方法:第一次回归时将人体的中心点作为特征图的正样本锚点,监督锚点回归人体的检测框坐标和人体的关键点坐标。第二次回归时将第一次回归预测出的关键点位置来作为锚点,监督该锚点学习自身和与之相邻的关键点与真实坐标的差值;从而提升姿态估计的精度以及提升对遮挡的鲁棒性。在网络推断时使用非极大值抑制的方法选取检测框置信值的局部极大值点作为锚点,并使用该锚点回归出的人体关键点位置选作为关键点二次回归的锚点,并从二次回归的锚点中得到关键点坐标更为精确的位置。
具体步骤如下:
1、图像数据的预处理:
b1)图像归一化:首先从多人大型姿态估计公开数据集MS-COCO上获取图像文件和相应的标签文件;其中图像文件中包含一个及以上的人体,标签文件中保存了图片中人体的17个人体关键点信息和边界框信息。
首先将图片进行缩放至512×512像素大小,随后使用MSCOCO数据集图像RGB三个通道各自的均值与标准差[[0.485,0.456,0.406],[0.229,0.244]],对图像进行标准化操作,并且按照数据集中的原有划分方法将数据集分为训练集、验证集和测试集三个部分,由此完成了输入图像的归一化操作。
训练集用于训练模型,验证集用于选择模型,测试集用于评估模型。数据集的划分一般有三种方法:留出法、交叉验证法、自助法。
b2)锚框值的选取:首先载入MSCOCO数据集中的所有标签文件,得到该数据集中所有人体边界框的宽和高,将每张图片对应标签的人体边界框的宽和高等比例缩放到步骤b1)中缩放的图片尺寸;并将边界框的相对坐标转化为绝对坐标(乘以缩放后的宽和高);筛选边界框,保留宽和高均大于等于两个像素的边界框;使用K-均值算法对边界框进行聚类;最后使用遗传算法随机对锚框的宽和高进行变异,如果变异后适应度变得更好就将变异后的结果赋值给锚框,如果变异后效果变差就跳过,默认变异1000次。
b3)生成包含人体检测框和关键点的锚点和标签:
为了使用回归的方法进行监督,需要生成用于网络训练的人体关键点的锚点和标签。在锚点选取上,选取标签中每个人的边界框的中心位置来作为初次回归的锚点,即:
其中x,y是边界框的左上角的坐标。h,w代表边界框的长和宽,获得边界框的中点后将中点对应的位置来作为一次回归的锚点;为每一个锚点分配一个标签,并将标签设置为一个向量的形式。标签向量中包括该锚点所对应的17个关键点的坐标值、边界框的坐标值、预设锚框的相对值,以及分类的置信度。
所述十七个人体关键点的选定包括,鼻子、左右眼、左右耳、颈部、左右肩、左右手肘、左右手腕、左右臀部、左右膝盖和左右脚踝,这些人体关键点所对应的标签索分别为,0-鼻子、1-左眼、2-右眼、3-左耳、4-右耳、5-左肩、6-右肩、7-左肘、8右肘、9-左腕、10-右腕、11-左髋、12-右髋、13-左膝、14-右膝、15-左踝、16-右踝;
选取人体关键点周围的点来作为二次回归的锚点,即从标签文件中读取人体的17个坐标点的值,并将该坐标点周围半径为r的范围内的所有点都设为二次回归的锚点。为每个二次回归的锚点都分配一个标签向量,与一次回归的锚点的标签向量不同的是,二次回归的锚点标签向量只包含锚点与其对应人体关键点的相对位置。
b4)马赛克数据增强:马赛克数据增强法将输入数据集中的任意4张图片进行组合,按照随机缩放、裁剪和排布的方法将这4张图拼接得到一张新的图像,并将原有4张图像对应的标签也按照同样的方法进行缩放和拼接,来得到一个新的标签。由此,用于训练的数据集的多样性得到极大地扩充。
2、构建多人人体检测和姿态估计模型
多人人体检测和姿态估计模型由主干网络、Neck网络与预测网络三个主要部分组成,使用了计算机视觉任务中常用的残差神经网络来作为主干网络,用于提取图像特征。主干网络由Focus模块、CBL模块、CSP模块和残差连接组成。
其中CBL模块由卷积层加批标准化层和Relu激活函数组成,是现有卷积神经网络的一个基础结构。
Focus模块对图片进行切片操作,具体操作是在一张图片中在平面上每隔一个像素取一个值,对一整张图片进行这样的操作就可以将一整张图片分成4张图片而没有任何信息丢失。将这4张图片才通道维度上进行拼接,这样就将通道数扩充了4倍。再将得到的结果进行卷积操作,从而在没有信息丢失的情况下实现了下采样操作。
CSP模块则是结构是先将输入分成两个分支,分别进行卷积操作使得通道数减半,然后一个分支经过CBL模块处理,另一个分支不做额外处理,最后拼接两个分支。使得CSP模块的输入与输出大小一致,利于多个模块的堆叠。
Neck网络:Neck的网络结构设计也是使用了FPN+PAN的结构。FPN就是使用一种自顶向下进行多层采样,构造了多尺度的特征金字塔,PAN则是与之相反的结构,使用自底向上的多层采样,加强了定位信息。
预测网络:在PAN结构之后,模型最终会输出4层的特征图来作为预测网络的输出,其中前3层特征图用于学习一次回归过程,最后一层特征图用户学习二次回归过程。
3、训练人体检测和姿态估计的通用模型
c1)一次回归的监督:将人体的中心点作为特征图的正样本锚点,监督锚点回归人体的检测框坐标和人体的关键点坐标,使用L1损失函数来监督人体关键点坐标的回归,使用CIOU loss来监督人体检测框的回归过程:
Loss_person=L1(anchor_point(i),target(i))
Loss1=α·Loss_person+β·Loss_CIoU
其中:
anchor_point(i)代表网络输出层的第i个位置的锚点输出;
target(i)代表网络输出层的第i个位置的锚点所对应的标签值;
b和bgt代表预测框和标签框;
ρ表示两个矩形框之间的欧氏距离;
c表示两个矩形框的闭包区域的对角线的距离;
δ是权重系数;
v用来衡量两个矩形框相对比例的一致性;
Intersection表示两框相交部分面积;
Union表示两框相并的面积表示;
wgt和w分别表示标签框的宽和预测框的宽值;
hgt和h分别表示标签框的高和预测框的高值;
α和β为预设权重;
如公式所示,最终将Loss_point和Loss_CIoU分别乘以参数α和β来进行加权从而得到一次回归的总损失函数。参数α和β为定值,是两个先验的预设权重,参数α和β可默认为1。
c2)二次回归的监督
对于二次回归的锚点,使用步骤b3)中生成的标签来监督该锚点学习自身和与之相邻的关键点与真实坐标的差值,以及自身的检测边界框。用L1损失函数来监督关键点坐标的回归:
Loss_2=L1(anchor_point(i),target(i))
最后将两次回归的损失函数相加,得到总的损失函数。
loss_total=Loss1+Loss_2
使用loss_total对网络参数求梯度,最后使用梯度下降法来优化网络的所有参数。
至此,多人人体检测和姿态估计模型的构建、训练完成。
4、多人人体检测和姿态估计模型的推断与测试过程
a1)图像的获取与预处理
在推断的过程中,不需要标签文件,因此输入的图像文件可以来自不同途径。例如摄像头捕获的实时图像,或者是MS-COCO数据集中验证集中的人体图像。在使用摄像头时,使用opencv软件来实时捕获摄像头拍摄下的每一帧画面;在使用MS-COCO数据集时,图像文件由本地直接加载。
图像预处理时,首先将图片进行缩放至512×512像素大小,随后使用MSCOCO数据集图像RGB三个通道各自的均值与标准差[[0.485,0.456,0.406],[0.229,0.244]],对图像进行标准化操作。
a2)推断过程的一次回归与非极大值抑制
使用非极大值抑制方法来获取一次回归的结果。首先,获取预测网络输出的前3层特征图,将获取特征图中每个位置回归的边界框和它的置信度,取得置信度最高的边界框先放入结果序列;接着遍历剩余位置,计算与当前置信度最最高的位置的边界框的交并比,若大于预设的阈值则剔除,然后对剩余位置的检测框重复上述操作,直到处理完网络输出的所有位置的边界框,即可得到筛选的最终位置。
选取这些拥有最优置信度与边界框的最终位置来作为一次回归的预测锚点,从该最终位置获取它回归出的人体17个坐标点的位置,即为一次回归的结果。
a3)推断过程的二次回归与结果校正
第一次回归的结果比较粗糙,为了对结果进行进一步优化,使用一次回归的结果来找二次回归所需的锚点。即使用一次回归得到的人体关键点坐标映射到预测网络输出的第4层特征图中;一次回归中1个锚点回归出的17个结果,对应着二次回归的17个锚点的位置;得到二次回归的锚点之后,分别取它们的二次回归的坐标,若它们的置信度大于预设阈值,则用第二次回归的坐标来替代一次回归的坐标。否则,依然使用一次回归的坐标结果来作为最终的输出坐标。
a4)在MS-COCO数据集上进行测试
加载MS-COCO的测试集图片,根据步骤a1)、a2)、a3)进行推断,得到测试集结果,至此完成多人人体检测和姿态估计的推断与测试;人体姿态估计任务就是要估计出每个人的关键单坐标信息;最终得到的多人人体检测和姿态估计模型。
以上所述仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (8)
1.基于二次回归的一阶段多人人体检测和姿态估计的方法,其特征在于:包括以下步骤:
1)图像预处理:获取图像文件和相应的标签文件构成数据集,并将数据集分为训练集、验证集和测试集;标签文件中保存了图像文件内人体的多个人体关键点信息和边界框信息;选取标签文件中每个人的边界框的中心位置作为初次回归的锚点;选取人体关键点周围的点来作为二次回归的锚点;
2)构建多人人体检测和姿态估计模型:模型由主干网络、Neck网络与预测网络组成;
主干网络用于提取图像特征,主干网络由Focus模块、CBL模块、CSP模块和残差连接组成;
Neck网络采用FPN+PAN的结构,FPN自顶向下进行多层采样,构造多尺度的特征金字塔,PAN使用自底向上的多层采样,加强了定位信息;
预测网络:Neck网络中的PAN结构输出4层特征图,其中前3层特征图用于学习一次回归过程,最后一层特征图用户学习二次回归过程;
3)训练多人人体检测和姿态估计模型:
c1)一次回归的监督:以人体的中心点作为特征图的正样本锚点,监督锚点回归人体的检测框坐标和人体的关键点坐标,使用L1损失函数来监督人体关键点坐标的回归,使用CIOU loss来监督人体检测框的回归过程:
Loss_person=L1(anchor_point(i),target(i))
Loss1=α·Loss_person+β·Loss_CIoU
其中:
anchor_point(i)代表网络输出层的第i个位置的锚点输出;
target(i)代表网络输出层的第i个位置的锚点所对应的标签值;
b和bgt代表预测框和标签框;
ρ表示两个矩形框之间的欧氏距离;
c表示两个矩形框的闭包区域的对角线的距离;
δ是权重系数;
v用来衡量两个矩形框相对比例的一致性;
Intersection表示两框相交部分面积;
Union表示两框相并的面积表示;
wgt和w分别表示标签框的宽和预测框的宽值;
hgt和h分别表示标签框的高和预测框的高值;
α和β为预设权重系数,默认值为1;
如公式所示,将Loss_point和Loss_CIoU分别乘以参数α和β来进行加权,从而得到一次回归的总损失函数;
c2)二次回归的监督:利用步骤1)中生成的标签来监督二次回归的锚点,学习自身和与之相邻的关键点与真实坐标的差值,以及自身的检测边界框;用L1损失函数来监督关键点坐标的回归:
Loss_2=L1(anchor_point(i),target(i))
将两次回归的损失函数相加,得到总的损失函数:
loss_total=Loss1+Loss_2
使用loss_total对网络参数求梯度,使用梯度下降法来优化网络的所有参数;
4)多人人体检测和姿态估计模型的推断与测试:
a1)输入图像文件,并对输入的图像文件进行归一化处理;
a2)利用非极大值抑制方法来获取一次回归的结果:获取预测网络输出的前3层特征图,获取特征图中每个位置回归的边界框和它的置信度,取得置信度最高的边界框先放入结果序列;遍历剩余位置,计算与当前置信度最高的边界框的交并比,若大于预设的阈值则剔除,然后对剩余位置的检测框重复上述操作,直到处理完网络输出的所有位置的边界框,即可得到最终位置;
选取上述筛选出来的最终位置来作为一次回归的预测锚点,来获取一次回归的结果,即从该位置获取它回归出的人体关键点的坐标信息;
a3)利用步骤a2)得到的一次回归的结果来找二次回归所需的锚点,即利用人体关键点的坐标映射到预测网络输出的第4层特征图中;得到二次回归的锚点后,分别取它们的二次回归的坐标,若置信度大于预设阈值,则用第二次回归的坐标来替代一次回归的坐标;反之,依然使用一次回归的坐标结果来作为最终的输出坐标;
a4)选取测试集内的图像文件,重复步骤a1)~a3)进行推断,得到测试集内图像文件的各个人体关键点的坐标信息,完成多人人体检测和姿态估计。
2.如权利要求1所述的基于二次回归的一阶段多人人体检测和姿态估计的方法,其特征在于:步骤1)中的图像预处理,包括以下步骤:
b1)图像归一化:从多人大型姿态估计公开数据集MS-COCO上获取图像文件和相应的标签文件;将图片进行缩放至512×512像素大小,利用MSCOCO数据集图像RGB三个通道各自的均值与标准差,对图像进行标准化操作,并且将数据集分为训练集、验证集和测试集三个部分;
b2)锚框值的选取:载入MS-COCO数据集中的所有标签文件,得到该数据集中所有人体边界框的宽和高,将每张图片对应标签的人体边界框的宽和高等比例缩放;并将边界框的相对坐标转化为绝对坐标;筛选边界框,保留宽和高均大于等于两个像素的边界框;使用K-均值算法对边界框进行聚类;最后使用遗传算法随机对锚框的宽和高进行变异;若变异后适应度提高,则将变异后的结果赋值给锚框,若变异后适应度降低,则跳过该次变异结果,进行下一次变异,默认变异1000次;
b3)生成包含人体检测框和关键点的锚点和标签:选取标签中每个人的边界框的中心位置来作为初次回归的锚点:
其中x,y是边界框的左上角的坐标;h,w代表边界框的长和宽,获得边界框的中点后,将中点对应的位置作为一次回归的锚点;为每一个锚点分配一个标签,标签设置为向量的形式;一次标签向量中包括该锚点所对应的人体关键点的坐标值、边界框的坐标值、预设锚框的相对值以及分类的置信度;
选取人体关键点周围的点来作为二次回归的锚点,即从标签文件中读取人体关键点的坐标值,并将该坐标点周围半径为r的范围内的所有点都设为二次回归的锚点;为每个二次回归的锚点都分配一个二次标签向量,二次标签向量包含二次回归锚点与其对应人体关键点的相对位置。
3.如权利要求2所述的基于二次回归的一阶段多人人体检测和姿态估计的方法,其特征在于:所述步骤1)中的图像预处理中数据集可由马赛克数据增强法进行扩充:将数据集中的任意4张图片进行组合,按照随机缩放、裁剪和排布的方法将这4张图拼接得到一张新的图像,并将原有4张图像对应的标签文件也按照同样的方法进行缩放和拼接,来得到一个新的标签文件。
4.如权利要求1所述的基于二次回归的一阶段多人人体检测和姿态估计的方法,其特征在于:所述标签文件中保存了图像文件中人体的17个人体关键点信息和边界框信息;所述17个人体关键点包括鼻子、左右眼、左右耳、左右肩、左右手肘、左右手腕、左右臀部、左右膝盖和左右脚踝,这些人体关键点所对应的标签索分别为,0-鼻子、1-左眼、2-右眼、3-左耳、4-右耳、5-左肩、6-右肩、7-左肘、8右肘、9-左腕、10-右腕、11-左髋、12-右髋、13-左膝、14-右膝、15-左踝、16-右踝。
5.如权利要求1所述的基于二次回归的一阶段多人人体检测和姿态估计的方法,其特征在于:所述CBL模块由卷积层加批标准化层和Relu激活函数组成。
6.如权利要求1所述的基于二次回归的一阶段多人人体检测和姿态估计的方法,其特征在于:所述Focus模块对图片进行切片操作:在一张图片上每隔一个像素取一个值,将一整张图片分成4张图片;将这4张图片在通道维度上进行拼接,将通道数扩充4倍;再将得到的结果进行卷积操作,从而在没有信息丢失的情况下实现了下采样操作。
7.如权利要求1所述的基于二次回归的一阶段多人人体检测和姿态估计的方法,其特征在于:所述CSP模块先将输入数据分成两个分支,分别进行卷积操作使得通道数减半,其中一个分支经过CBL模块处理,另一个分支不做额外处理,最后拼接两个分支,使得CSP模块的输入与输出大小一致,利于多个模块的堆叠。
8.如权利要求1所述的基于二次回归的一阶段多人人体检测和姿态估计的方法,其特征在于:步骤a1)中图像文件为验证集中的人体图像或摄像头捕获的实时图像;将输入的图像文件的缩放至512×512像素大小,使用MSCOCO数据集图像RGB三个通道各自的均值与标准差对图像进行标准化操作。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210613234.8A CN114863487A (zh) | 2022-05-31 | 2022-05-31 | 基于二次回归的一阶段多人人体检测和姿态估计的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210613234.8A CN114863487A (zh) | 2022-05-31 | 2022-05-31 | 基于二次回归的一阶段多人人体检测和姿态估计的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114863487A true CN114863487A (zh) | 2022-08-05 |
Family
ID=82641851
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210613234.8A Pending CN114863487A (zh) | 2022-05-31 | 2022-05-31 | 基于二次回归的一阶段多人人体检测和姿态估计的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114863487A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117975574A (zh) * | 2024-04-02 | 2024-05-03 | 泉州装备制造研究所 | 一种用于人体关键点回归的单阶段识别方法及装置 |
-
2022
- 2022-05-31 CN CN202210613234.8A patent/CN114863487A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117975574A (zh) * | 2024-04-02 | 2024-05-03 | 泉州装备制造研究所 | 一种用于人体关键点回归的单阶段识别方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111339903B (zh) | 一种多人人体姿态估计方法 | |
CN110147743B (zh) | 一种复杂场景下的实时在线行人分析与计数系统及方法 | |
CN111639692B (zh) | 一种基于注意力机制的阴影检测方法 | |
WO2020108362A1 (zh) | 人体姿态检测方法、装置、设备及存储介质 | |
CN110532897B (zh) | 零部件图像识别的方法和装置 | |
CN105139004B (zh) | 基于视频序列的人脸表情识别方法 | |
CN112766160A (zh) | 基于多级属性编码器和注意力机制的人脸替换方法 | |
CN107329962B (zh) | 图像检索数据库生成方法、增强现实的方法及装置 | |
CN111768388A (zh) | 一种基于正样本参考的产品表面缺陷检测方法及系统 | |
CN109711268B (zh) | 一种人脸图像筛选方法及设备 | |
CN110263768A (zh) | 一种基于深度残差网络的人脸识别方法 | |
CN110381268A (zh) | 生成视频的方法,装置,存储介质及电子设备 | |
CN110705566B (zh) | 一种基于空间金字塔池的多模态融合显著性检测方法 | |
CN110598715A (zh) | 图像识别方法、装置、计算机设备及可读存储介质 | |
CN111931603B (zh) | 基于竞合网络的双流卷积网络的人体动作识别系统及方法 | |
CN112101262A (zh) | 一种多特征融合手语识别方法及网络模型 | |
CN112733756B (zh) | 一种基于w散度对抗网络的遥感图像语义分割方法 | |
CN111428664A (zh) | 一种基于人工智能深度学习技术的计算机视觉的实时多人姿态估计方法 | |
CN111401113A (zh) | 一种基于人体姿态估计的行人重识别方法 | |
CN111325661A (zh) | 一种名为msgan的图像的季节风格转换模型及方法 | |
CN113743192A (zh) | 静默式人脸活体检测模型及方法 | |
CN113297956A (zh) | 一种基于视觉的手势识别方法及系统 | |
CN113657196B (zh) | Sar图像目标检测方法、装置、电子设备和存储介质 | |
CN114863487A (zh) | 基于二次回归的一阶段多人人体检测和姿态估计的方法 | |
CN113065506B (zh) | 一种人体姿态识别方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |