CN113128446A - 一种基于信念图增强网络的人体姿态估计方法 - Google Patents
一种基于信念图增强网络的人体姿态估计方法 Download PDFInfo
- Publication number
- CN113128446A CN113128446A CN202110471854.8A CN202110471854A CN113128446A CN 113128446 A CN113128446 A CN 113128446A CN 202110471854 A CN202110471854 A CN 202110471854A CN 113128446 A CN113128446 A CN 113128446A
- Authority
- CN
- China
- Prior art keywords
- belief
- resolution
- network
- graph
- map
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 238000012549 training Methods 0.000 claims abstract description 49
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims abstract description 7
- 238000002372 labelling Methods 0.000 claims abstract description 4
- 238000010586 diagram Methods 0.000 claims description 35
- 230000008569 process Effects 0.000 claims description 18
- 230000006870 function Effects 0.000 claims description 15
- 230000002238 attenuated effect Effects 0.000 claims description 2
- 230000006872 improvement Effects 0.000 abstract description 5
- 101000742346 Crotalus durissus collilineatus Zinc metalloproteinase/disintegrin Proteins 0.000 description 9
- 101000872559 Hediste diversicolor Hemerythrin Proteins 0.000 description 9
- 238000001514 detection method Methods 0.000 description 7
- 238000012545 processing Methods 0.000 description 7
- 230000008901 benefit Effects 0.000 description 4
- 238000012805 post-processing Methods 0.000 description 4
- 238000007781 pre-processing Methods 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 238000007429 general method Methods 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 230000000737 periodic effect Effects 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000002708 enhancing effect Effects 0.000 description 2
- 238000009499 grossing Methods 0.000 description 2
- 230000001737 promoting effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 241000872198 Serjania polyphylla Species 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 210000003423 ankle Anatomy 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 210000003127 knee Anatomy 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 210000000697 sensory organ Anatomy 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 210000000707 wrist Anatomy 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/103—Static body considered as a whole, e.g. static pedestrian or occupant recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/23—Recognition of whole body movements, e.g. for sport training
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Human Computer Interaction (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Image Analysis (AREA)
Abstract
一种基于信念图增强网络的人体姿态估计方法,构建一个信念图增强网络,对人体姿态估计基础模型输出的信念图提高分辨率;在训练信念图增强网络时,根据训练集中的标注信息生成低分辨率信念图标签和高分辨率信念图标签,低分辨率信念图标签对应基础模型的输出分辨率,高分辨率信念图标签对应信念图增强网络的输出分辨率,训练时利用MESLoss函数分别计算两种分辨率下预测结果与真实标签之间的均方误差,求二者的加权和,并以此推导信念图增强网络各层参数的梯度,使用Adam优化器进行监督训练。本发明能够改善现有人体姿态估计方法中最终输出的信念图分辨率较低的现状,达到提高预测精确度的目的,而且不会带来参数量和浮点运算量上的显著提升。
Description
技术领域
本发明属于深度学习、计算机视觉和计算机图像理解技术领域,主要涉及人体检测和人体姿态估计,是一种基于信念图增强网络的人体姿态估计方法,用于提高网络模型最终输出的信念图的分辨率从而获得更加精准的预测结果。
背景技术
人体姿态估计(Human Pose Estimation),又名关键点检测(KeypointDetection),是一项与图像分类、物体检测、图像语义分割等相并列的计算机视觉任务,也是一项促进和推动计算机视觉领域图像理解方向发展和进步的基础性研究。人体姿态估计的具体含义是指给定一张图像,需要从中得到人体的各个关键点的位置信息。人体的各个关键点实际上指的是包含了五官、肩颈、手肘、手腕、髋跨、膝盖、脚踝等在内的一系列的重要关节点。在获得了人体的这些信息之后,就具备了在一个新的空间中重建人体姿态结构的能力,从而能够促进机器对图像的理解,于是衍生出了一系列的与姿态相关的应用场景,比如:姿态迁移,动作识别,人机交互,姿态追踪,监控安防等等。
自从2014年Tompson和Jain等学者提出使用深度卷积神经网络(DeepConvolutional Neural Network,简称DCNN)来预测人体各个关键点的信念图(BeliefMap),而不是直接回归其数值坐标,这类方法就一跃成为了解决人体姿态估计问题的最主流的方法。在生成真实标签(Ground-Truth Label)时,每个关键点都会单独占据一个通道的信念图,且以其坐标点为中心生成一个二维高斯分布,为了拟合这个结果,输入图像在经过卷积神经网络处理之后也会生成一组热度图,两组热度图之间的均方误差作为损失函数供网络调整训练。这类方法具有天然的高鲁棒性的优势,最近几年,人体姿态估计领域百花齐放,绝大多数模型的提出采用的都是上述方法。
但是,这些模型往往会涉及到非常深的网络层数,为了避免浮点运算量(FLOPs)过大而导致训练、推理流程速度过慢,网络的设计者们通常会指定输出一个具有固定尺寸的低分辨率信念图,然后提取该信念图中信念值最大的像素点的坐标,再将这个坐标从低分辨率空间映射回原图像所在的高分辨率空间。映射过程中,信念图的分辨率越低,变换之后得到的关键点坐标与真实坐标之间的误差就会越大,反之,信念图的分辨率越高,预测得到的关键点坐标就会越准确。因此,在计算资源受限的场景下,如何得到高分辨率信念图来获取更加精确的姿态估计结果,同时又能尽量避免运算量上的额外负担,是目前亟需解决的问题之一。
发明内容
本发明要解决的问题是:人体姿态估计目前的常用方法是使用DCNN预测人体各个关键点的信念图,为了避免浮点运算量过大而导致训练、推理流程速度过慢,信念图的分辨率往往会比原始图像的分辨率低很多,而为了得到最终的预测结果,需要通过多次映射将信念图变换回原始空间,信念图分辨率越低,映射过程产生的偏差就越大,预测结果就会越不准确。如何在不增加计算量的情况下提高准确性,是一个亟需解决的问题。
本发明的技术方案为:一种基于信念图增强网络的人体姿态估计方法,构建一个信念图增强网络,对人体姿态估计基础模型输出的信念图提高分辨率,信念图增强网络由若干个卷积层和一个亚像素卷积层构成,将基础模型输出的特征图和信念图进行拼接,作为信念图增强网络的输入,输出一组更高分辨率的信念图;在训练信念图增强网络时,根据训练集中的标注信息生成低分辨率信念图标签和高分辨率信念图标签,低分辨率信念图标签对应基础模型的输出分辨率,高分辨率信念图标签对应信念图增强网络的输出分辨率,训练时利用MESLoss函数分别计算两种分辨率下预测结果与真实标签之间的均方误差,求二者的加权和,并以此推导信念图增强网络各层参数的梯度,使用Adam优化器进行监督训练。
进一步的,训练集具体为:生成信念图标签时,对于一个人体样本,首先根据数据集规定的关键点数量K定义一个具有K个通道的全黑图像,即该图像中每个像素点的灰度值都是0,然后按照该样本的标注信息,对于每一个关键点坐标,在上述全黑图像的对应通道处以该坐标点为中心生成一个高斯二维分布,从而得到一个具有K个通道的信念图,若指定信念图增强网络生成的信念图分辨率与原始图像的分辨率不同,则在生成高斯二维分布时将标准差乘上相应的缩放因子。
进一步的,信念图增强网络中,亚像素卷积层的输出通道数由参数k*r2控制。
作为优选方式,对信念图增强网络的训练具体为:根据训练集的不同分辨率的信念图标签,利用MSELoss函数分别计算不同分辨率下的预测损失,然后将两类预测损失按比例比例相加作为网络最终的损失函数,通过最终损失函数的值计算模型中各网络层的参数梯度,使用Adam优化器对其进行监督训练,其中,对信念图增强网络的训练需要150个epoch,训练时的学习率初始化为0.001,分别在第60个epoch和第90个epoch进行一次衰减,学习率衰减后变为原先的十分之一。
进一步的,在训练过程中,还对训练集进行增强操作来提升模型的泛化能力,所述增强操作包括旋转和缩放,其中,旋转操作绕图像中心点以[-40°,+40°]的随机角度进行旋转;缩放操作以[1-0.3,1+0.3]的比例进行缩放。
本发明提出了一种与模型无关(model-agnostic)的高效的信念图增强网络(Belief Map Enhancement Network简称EnhanceNet),能够改善一般方法中最终输出的信念图分辨率较低的现状,且不会带来参数量和浮点运算量上的显著提升。本发明所谓与模型无关,指的是无论何种方法,只要其网络最终输出的是一组信念图,都可以经过信念图增强网络的处理来得到一组更高分辨率的信念图,从而达到提高精确度的目的。
虽然现有技术中有通过亚像素卷积来提高像素图分辨率的手段,但亚像素卷积无法直接用于信念图的分辨率调整。本发明设计的信念图增强网络提取基础网络的特征图和信念图,通过卷积层的卷积操作对基础模型的两种输出拼接后作进一步的特征提取,再利用亚像素卷积操作的原理对提取的特征进行周期性重排从而得到提高分辨率的信念图。同时,对于本发明新提出的EnhanceNet,本发明设计的训练方法包括了两种标签来保障它训练过程的顺利进行,在EnhanceNet指定的输出分辨率下生成对应的用于监督学习的信念图标签,且生成过程根据缩放因子来平衡分辨率调整的影响。训练过程中以两种分辨率下的均方误差的加权和作为最终的损失函数计算梯度,从而对模型进行优化。这一整套处理流程,包括模型设计、标签生成、损失函数设计,是本发明区别于其它已有方法的关键所在。
本发明的基于信念图增强网络的人体姿态估计方法相比于现有方法优点在于:
1.本发明提供了一种基于信念图增强网络的人体姿态估计方法,能够改善一般方法中最终输出的信念图分辨率较低的现状,从而达到提高预测精确度的目的,而且不会带来参数量和浮点运算量上的显著提升。相比于基础模型,信念图增强网络的参数量只有0.5M,浮点运算量只有大约1.5GFLOPs。
2.本发明具有模型无关性,普适性较强,对于大多数基础模型都适用。只要基础模型最终输出的是一组信念图,都可以经过本发明的处理获得更高分辨率的信念图,从而取得更加精确的预测结果。
3.本发明的预测精度更高,在MPII和COCO两个数据集上都取得了世界领先的成绩。其中,在数据集MPII上,采用DLCM作为基础模型,信念图增强网络取得的成绩为MeanPCKh@0.5=92.5;在数据集COCO上,采用HRNet作为基础模型,信念图增强网络取得的成绩为AP=74.9。
附图说明
图1为本发明的流程图。
图2为本发明的人体姿态估计模型结构图。
图3为本发明的模型中涉及到的Periodic Shuffling模块。
具体实施方式
本发明提供了一种基于信念图增强网络的人体姿态估计方法,能够改善一般人体姿态估计模型中最终输出的信念图分辨率较低的现状,从而达到提高预测精确度的目的,而且不会带来参数量和浮点运算量上的显著提升。本发明提供的方法与模型无关(model-agnostic),即具有较高的适用性,只要采用的基础模型输出的是一组信念图,都可以经过本发明提供的信念图增强网络的处理来得到一组更高分辨率的信念图。不同于一般的网络训练方法,本发明方法在数据预处理阶段除了要生成低分辨率信念图标签之外,还要额外生成高分辨率的信念图标签,共同用于模型的监督训练。人体姿态模型的整体搭建由所选用的基础模型和信念图增强网络组合而成,将基础模型输出的特征图和信念图进行拼接,作为信念图增强网络的输入,信念图增强网络由若干个卷积层和一个亚像素卷积层构成,能够在维持低运算量的前提下输出高分辨率的预测结果。利用MESLoss函数分别计算不同分辨率下预测结果与真实标签之间的均方误差,求二者的加权和,并以此推导网络各层参数的梯度,使用Adam优化器进行监督训练,训练过程在达到一定的迭代次数后自动结束。在使用训练好的模型进行推理测试时,输出的仍然是一组信念图,需要进行额外的后处理才能得到最终的关键点预测结果。后处理过程提取出信念图每个通道中信念值最大的像素点的坐标,然后根据原始图像与信念图之间的尺寸比例计算得到最终的关键点位置。图1展示了本发明的主要流程。
结合附图和具体实施方式对本发明做进一步的详细描述:
步骤1:数据集预处理。本发明所提供的信念图增强网络(EnhanceNet)用于和基础模型搭配使用,预测得到具有更高分辨率的信念图。因此对于整个人体姿态检测模型的训练,在数据集的预处理得到训练集的过程中,除了要生成基础模型所需要的低分辨率信念图标签MLR,还要生成EnhanceNet所需要的高分辨率信念图标签MHR。生成信念图标签时,对于一个人体样本,首先会根据规定的关键点数量K定义一个具有K个通道的全黑图像,即该图像中每个像素点的灰度值都是0,K也是人体姿态估计所要求的关键点数量。然后按照该样本的标注信息,对于每一个关键点坐标,在上述全黑图像的对应通道处以该坐标点为中心生成一个高斯二维分布,从而得到一个具有K个通道的信念图,若指定生成的信念图分辨率与原始图像的分辨率不同,则在生成高斯二维分布时需要将标准差乘上相应的缩放因子r。无论是哪种分辨率的信念图标签,都符合一下分布:
Mk(p)~N(p,(rσ)2) (1)
其中p代表的是关键点坐标,Mk(p)表示的是第k个关键点所对应的信念图,N()表示的是高斯二维分布,σ表示的是高斯分布的标准差。通常情况下,生成的信念图分辨率与原始图像分辨率差别越大,由于缩放因子r的影响,高斯二维分布的实际标准差则会越高,信念图中的信念值分布则会相对平坦,反之,生成的信念图分辨率与原始图像分辨率越接近,信念图中的信念值分布则会相对突出,这一操作可以使不同分辨率下的信念图标签都能够具备良好的监督指导能力。
步骤2:人体姿态检测模型的构建与监督训练。如图2所示,模型的构建过程首先需要选择一个合适的基础模型,因为本发明提出的信念图增强网络具有模型无关性,所以只要基础模型输出的是一组信念图则均适配于本发明的方法。对于一张输入图像,经过基础模型的处理之后最终会得到一组低分辨率特征图FLR和一组低分辨率信念图MLR*,然后将二者进行简单拼接,作为一个整体成为信念图增强网络的输入。信念图增强网络总共包含了三个网络层,其中前两个均为卷积层,用于将基础模型输出的特征图和信念图做进一步的特征提取,这两个卷积层的输出通道数都是128;第三个是亚像素卷积层(sub-pixelconvolutional layer),该操作是跨步卷积的一种高效实现,通过执行如图3所示的Periodic Shuffling操作输出高分辨率的结果,同时又能够避免在高分辨率空间进行运算,降低运算量,详见论文《Real-time single image and video super-resolutionusing an efficient sub-pixel convolutional neural network》(Wenzhe Shi,JoseCaballero)。亚像素卷积层的输出通道数由参数k*r2控制,其中k表示关键点的数量也是信念图的通道数,由数据集特点来决定;缩放因子r表示的是放大倍数,因为信念图是二维的,所以此处的放大倍数需要进行平方处理,本发明中参数r设置为4。信念图增强网络所执行的操作可以公式化为以下流程:
(1)对基础模型的输出结果进行拼接。
x=[FLR,MLR*] (2)
(2)两个卷积层操作,用矩阵乘法来表示卷积操作。
(3)亚像素卷积层操作,用PS来表示Periodic Shuffling操作。
信念图增强网络最终输出的结果即为预测的高分辨率信念图MHR*。
信念图增强网络的训练过程可以和基础模型共同进行,也可以使用预训练好的基础模型,只训练信念图增强网络,二者的训练方式都是一致的。训练过程中会得到两种不同分辨率的信念图预测结果,分别是基础模型的输出结果MLR*和信念图增强网络的输出结果MHR*。将步骤1中经过预处理的数据集作为训练集,根据预处理过程中得到的不同分辨率的信念图真实标签MLR和MHR,利用MSELoss函数分别计算不同分辨率下的预测损失:
N和K表示训练样本总数和关键点总数。
然后将两类预测损失以1:1的权重等比例相加作为网络最终的损失函数:
通过该损失值计算模型中各网络层的参数梯度,使用Adam优化器对其进行监督训练。在深度学习中训练过程中,通常将遍历一遍训练集称为一个epoch,对信念图增强网络的训练通常需要150个epoch,而训练时的学习率初始化为0.001,分别在第60个epoch和第90个epoch进行一次衰减,学习率衰减后变为原先的十分之一。除此之外,在训练过程中,还需要对数据集进行一定的增强操作来提升模型的泛化能力,这些增强操作包括:旋转和缩放。其中,旋转操作绕图像中心点以[-40°,+40°]的随机角度进行旋转;缩放操作以[1-0.3,1+0.3]的比例进行缩放。
经过步骤1、2得到本发明基于信念图增强网络的人体姿态检测模型,通过下面的步骤3、4进一步验证效果。
步骤3:信念图预测及后处理。使用训练完毕的基础模型和信念图增强网络对验证集或测试集进行预测,在预测时,为了得到更精确的结果,需要对输入图像做水平翻转处理,分别将原始图像和水平翻转后的图像送入网络,得到两组高分辨率信念图预测结果。将水平翻转后的图像对应的信念图再一次进行水平翻转,并与原始图像对应的信念图相加求平均,作为最终的高分辨率信念图预测结果。因为数据集中的真实标签都是数值坐标,因此接下来还需要对信念图做一定的后处理才能够完成预测。首先需要获得原始图像与高分辨率信念图之间的尺寸比例,然后从信念图的每个通道中提取信念值最大的像素点坐标,最后乘以上述尺寸比例即可得到最终的关键点坐标的预测结果。
步骤4:结果评估。在验证集或测试集上完成预测后,需要对预测结果进行一定的评估来判断模型泛化能力的强弱,不同的数据集具有不同的评估标准。对于人体姿态估计任务而言,常用的数据集主要有两个,分别是MPII和COCO。
MPII数据集通常用来做单人人体姿态估计研究,它使用PCKh(head-normalizedPercentage of Corrected Keypoints)作为评价指标,其具体含义是预测得到的关键点与其对应的真实坐标之间归一化距离小于设定阈值的比例。之所以使用坐标之间的归一化距离而不是绝对距离,是因为每个样本的尺度不同,尺度越大,它在同一阈值下能够容忍的误差就越小。MPII使用头部长度作为归一化参考,如果预测得到的某个关键点落在了与它对应的真实坐标α*h个像素范围内,那么就判断该关键点的预测是正确的,其中α是用来控制抖动误差容忍度的阈值,而h则是上述提到的头部长度,这一参数存在于每个样本的标注中。MPII数据集中最常使用的阈值是0.5,即PCKh@0.5。
COCO数据集通常用来做多人人体姿态估计研究,它使用OKS(Object KeypointSimilarity)作为评价指标,OKS的公式可以表示为:
其中,di表示预测得到的关键点坐标与真实坐标之间的欧氏距离;ski表示的是标准差;vi表示的是该关键点是否可见,vi=0是未标注点,vi=1是标注了但该点在图像中不可见,vi=2是标注了且该点可见;由公式可知,每个关键点OKS的值域始终落在[0,1]区间内,丝毫没有误差的预测将会得到OKS=1,预测坐标与真实坐标之间的误差过大将会得到OKS=0。COCO数据集使用10个不同阈值下的OKS指标(OKS=.50:.05:.95)的均值AP(Average Precision)作为最终的挑战指标。
本发明提供了一种基于信念图增强网络的人体姿态估计方法,能够改善一般方法中最终输出的信念图分辨率较低的现状,从而达到提高预测精确度的目的,而且不会带来参数量和浮点运算量上的显著提升。相比于基础模型,信念图增强网络的参数量只有0.5M,浮点运算量只有大约1.5GFLOPs。本发明具有模型无关性,普适性较强,对于大多数模型都适用。本发明的预测精度更高,在MPII和COCO两个数据集上都取得了世界领先的成绩。其中,在数据集MPII上,采用DLCM作为基础模型,信念图增强网络取得的成绩为Mean PCKh@0.5=92.5;在数据集COCO上,采用HRNet作为基础模型,信念图增强网络取得的成绩为AP=74.9。
Claims (6)
1.一种基于信念图增强网络的人体姿态估计方法,其特征是构建一个信念图增强网络,对人体姿态估计基础模型输出的信念图提高分辨率,信念图增强网络由若干个卷积层和一个亚像素卷积层构成,将基础模型输出的特征图和信念图进行拼接,作为信念图增强网络的输入,输出一组更高分辨率的信念图;在训练信念图增强网络时,根据训练集中的标注信息生成低分辨率信念图标签和高分辨率信念图标签,低分辨率信念图标签对应基础模型的输出分辨率,高分辨率信念图标签对应信念图增强网络的输出分辨率,训练时利用MESLoss函数分别计算两种分辨率下预测结果与真实标签之间的均方误差,求二者的加权和,并以此推导信念图增强网络各层参数的梯度,使用Adam优化器进行监督训练。
2.根据权利要求1所述的一种基于信念图增强网络的人体姿态估计方法,其特征是训练集具体为:生成信念图标签时,对于一个人体样本,首先根据规定的关键点数量K定义一个具有K个通道的全黑图像,即该图像中每个像素点的灰度值都是0,然后按照该样本的标注信息,对于每一个关键点坐标,在上述全黑图像的对应通道处以该坐标点为中心生成一个高斯二维分布,从而得到一个具有K个通道的信念图,若指定信念图增强网络生成的信念图分辨率与原始图像的分辨率不同,则在生成高斯二维分布时将标准差乘上相应的缩放因子r。
3.根据权利要求2所述的一种基于信念图增强网络的人体姿态估计方法,其特征是信念图增强网络中,亚像素卷积层的输出通道数由参数k*r2控制。
4.根据权利要求1或2或3所述的一种基于信念图增强网络的人体姿态估计方法,其特征是对信念图增强网络的训练具体为:根据训练集的不同分辨率的信念图标签,利用MSELoss函数分别计算不同分辨率下的预测损失,然后将两类预测损失按比例相加作为网络最终的损失函数,通过最终损失函数的值计算模型中各网络层的参数梯度,使用Adam优化器对其进行监督训练,其中,对信念图增强网络的训练需要150个epoch,训练时的学习率初始化为0.001,分别在第60个epoch和第90个epoch进行一次衰减,学习率衰减后变为原先的十分之一。
5.根据权利要求4所述的一种基于信念图增强网络的人体姿态估计方法,其特征是在训练过程中,还对训练集进行增强操作来提升模型的泛化能力,所述增强操作包括旋转和缩放,其中,旋转操作绕图像中心点以[-40°,+40°]的随机角度进行旋转;缩放操作以[1-0.3,1+0.3]的比例进行缩放。
6.根据权利要求4所述的一种基于信念图增强网络的人体姿态估计方法,其特征是将两类预测损失以1:1的比例相加作为网络最终的损失函数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110471854.8A CN113128446A (zh) | 2021-04-29 | 2021-04-29 | 一种基于信念图增强网络的人体姿态估计方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110471854.8A CN113128446A (zh) | 2021-04-29 | 2021-04-29 | 一种基于信念图增强网络的人体姿态估计方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113128446A true CN113128446A (zh) | 2021-07-16 |
Family
ID=76780444
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110471854.8A Pending CN113128446A (zh) | 2021-04-29 | 2021-04-29 | 一种基于信念图增强网络的人体姿态估计方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113128446A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116524546A (zh) * | 2023-07-04 | 2023-08-01 | 南京邮电大学 | 一种基于异构图像协同增强的低分辨率人体姿态估计方法 |
CN116824631A (zh) * | 2023-06-14 | 2023-09-29 | 西南交通大学 | 一种姿态估计方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107145830A (zh) * | 2017-04-07 | 2017-09-08 | 西安电子科技大学 | 基于空间信息增强和深度信念网络的高光谱图像分类方法 |
CN107358966A (zh) * | 2017-06-27 | 2017-11-17 | 北京理工大学 | 基于深度学习语音增强的无参考语音质量客观评估方法 |
CN108898063A (zh) * | 2018-06-04 | 2018-11-27 | 大连大学 | 一种基于全卷积神经网络的人体姿态识别装置及方法 |
CN110598554A (zh) * | 2019-08-09 | 2019-12-20 | 中国地质大学(武汉) | 基于对抗学习的多人姿态估计方法 |
US10984543B1 (en) * | 2019-05-09 | 2021-04-20 | Zoox, Inc. | Image-based depth data and relative depth data |
-
2021
- 2021-04-29 CN CN202110471854.8A patent/CN113128446A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107145830A (zh) * | 2017-04-07 | 2017-09-08 | 西安电子科技大学 | 基于空间信息增强和深度信念网络的高光谱图像分类方法 |
CN107358966A (zh) * | 2017-06-27 | 2017-11-17 | 北京理工大学 | 基于深度学习语音增强的无参考语音质量客观评估方法 |
CN108898063A (zh) * | 2018-06-04 | 2018-11-27 | 大连大学 | 一种基于全卷积神经网络的人体姿态识别装置及方法 |
US10984543B1 (en) * | 2019-05-09 | 2021-04-20 | Zoox, Inc. | Image-based depth data and relative depth data |
CN110598554A (zh) * | 2019-08-09 | 2019-12-20 | 中国地质大学(武汉) | 基于对抗学习的多人姿态估计方法 |
Non-Patent Citations (4)
Title |
---|
JIE LIU等: "Belief Map Enhancement Network for Accurate Human Pose Estimation", 《ECAI 2020》, 8 September 2020 (2020-09-08), pages 2736 - 2743 * |
WENZHE SHI等: "Real-Time Single Image and Video Super-Resolution Using an Efficient Sub-Pixel Convolutional Neural Network", 《CVPR 2016》, 1 July 2016 (2016-07-01), pages 1874 - 1883 * |
张哲: "面向资源受限场景的人体姿态估计研究", 《中国优秀硕士学位论文全文数据库 (信息科技辑)》, no. 2022, 15 May 2022 (2022-05-15), pages 138 - 960 * |
范冬艳: "基于深度学习的二维人体姿态估计的研究", 《中国优秀硕士学位论文全文数据库 (信息科技辑)》, no. 2021, 15 April 2021 (2021-04-15), pages 138 - 859 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116824631A (zh) * | 2023-06-14 | 2023-09-29 | 西南交通大学 | 一种姿态估计方法及系统 |
CN116824631B (zh) * | 2023-06-14 | 2024-02-27 | 西南交通大学 | 一种姿态估计方法及系统 |
CN116524546A (zh) * | 2023-07-04 | 2023-08-01 | 南京邮电大学 | 一种基于异构图像协同增强的低分辨率人体姿态估计方法 |
CN116524546B (zh) * | 2023-07-04 | 2023-09-01 | 南京邮电大学 | 一种基于异构图像协同增强的低分辨率人体姿态估计方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113077471B (zh) | 一种基于u型网络的医学图像分割方法 | |
US20220004744A1 (en) | Human posture detection method and apparatus, device and storage medium | |
CN110991497B (zh) | 一种基于bsvc方法的城市土地利用变化模拟元胞自动机方法 | |
CN110543906B (zh) | 基于Mask R-CNN模型的肤质自动识别方法 | |
CN113128446A (zh) | 一种基于信念图增强网络的人体姿态估计方法 | |
CN110287760A (zh) | 一种基于深度学习的人脸五官点遮挡检测方法 | |
Tu et al. | Consistent 3d hand reconstruction in video via self-supervised learning | |
Zhu et al. | Tiny object tracking: A large-scale dataset and a baseline | |
Li et al. | Automatic road extraction from remote sensing imagery using ensemble learning and postprocessing | |
CN111507184B (zh) | 基于并联空洞卷积和身体结构约束的人体姿态检测方法 | |
CN114283285A (zh) | 交叉一致性自训练遥感图像语义分割网络训练方法及装置 | |
CN116524062A (zh) | 一种基于扩散模型的2d人体姿态估计方法 | |
Fang et al. | Concise feature pyramid region proposal network for multi-scale object detection | |
Liu et al. | Key algorithm for human motion recognition in virtual reality video sequences based on hidden markov model | |
Wang et al. | Enhancing representation learning by exploiting effective receptive fields for object detection | |
Banerjee et al. | Explaining deep-learning models using gradient-based localization for reliable tea-leaves classifications | |
Lu et al. | Multimode gesture recognition algorithm based on convolutional long short-term memory network | |
Son et al. | Partial convolutional LSTM for spatiotemporal prediction of incomplete data | |
Feng et al. | Improved deep fully convolutional network with superpixel-based conditional random fields for building extraction | |
Song et al. | Spatial-Aware Dynamic Lightweight Self-Supervised Monocular Depth Estimation | |
Wang et al. | Tongue semantic segmentation based on fully convolutional neural network | |
Lin et al. | Click-Pixel Cognition Fusion Network With Balanced Cut for Interactive Image Segmentation | |
Hu et al. | Crowd R-CNN: An object detection model utilizing crowdsourced labels | |
Zan et al. | A framework for human motion segmentation based on multiple information of motion data | |
CN111914751A (zh) | 一种图像人群密度识别检测方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |