CN110276316B - 一种基于深度学习的人体关键点检测方法 - Google Patents

一种基于深度学习的人体关键点检测方法 Download PDF

Info

Publication number
CN110276316B
CN110276316B CN201910559424.4A CN201910559424A CN110276316B CN 110276316 B CN110276316 B CN 110276316B CN 201910559424 A CN201910559424 A CN 201910559424A CN 110276316 B CN110276316 B CN 110276316B
Authority
CN
China
Prior art keywords
network
key point
human body
stage
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910559424.4A
Other languages
English (en)
Other versions
CN110276316A (zh
Inventor
李纯明
胡保林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN201910559424.4A priority Critical patent/CN110276316B/zh
Publication of CN110276316A publication Critical patent/CN110276316A/zh
Application granted granted Critical
Publication of CN110276316B publication Critical patent/CN110276316B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/23Recognition of whole body movements, e.g. for sport training

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

一种基于深度学习的人体关键点检测方法,包括数据获取、网络构建、模型训练和评估、最优模型预测等步骤。本发明通过对ResNet50网络进行改进提出了扩张卷积残差网络,采用两级扩张卷积残差网络构建了人体关键点检测网络。模型训练时第一级网络对训练数据进行特征提取并使用四个通道进行预测,将预测结果中所有关键点计算损失后返回调整网络参数;采用中间级将第一级网络的输入特征图、输出特征图和预测结果相加后传送至第二级,由第二级网络进行特征提取并经过两层转置后对最后得到的特征图进行预测,计算预测结果的关键点损失并按从大到小排序,选择前K×B个损失返回调整网络参数。选择最优的训练模型对将待检测图像进行人体关键点预测,精度高实用性好。

Description

一种基于深度学习的人体关键点检测方法
技术领域
本发明属于计算机视觉技术领域,在公共安全、体感游戏娱乐、人机交互、标准动作分析等领域有广泛的应用需求,准确的说是一种基于深度学习的人体关键点检测方法。
背景技术
人体关键点检测是计算机视觉领域中一个重要的课题,主要任务是在给定的图像中对人体关键点(通常是一些关节点或者部位)进行检测,输入一副含有行人的图像,输出图像中包括所有人的全部关键点坐标,由这些坐标信息可以获得当前姿态。由于每个行人的尺度不一样,行人之间的相互影响也很复杂,比如互相遮挡或者被其他物体遮挡,还有背景和衣着干扰、人体动作和姿态的复杂多变性等难题,这都将会给多人关键点检测带来很大的挑战。
传统方法主要采用图形结构来解决人体关键点检测问题,例如,树模型(TreeModels)和随机森林模型(Random Forest Models)都被证明是非常有效的关键点检测算法。随着人体关键点检测精度要求越来越高,传统方法已经不能满足需求了。近年来,深度学习技术得到了广泛的应用,产生了一系列人体关键点检测算法,例如DeepPose、CPM、SHN、PAFs、RMPE、CPN及其一系列衍生算法,但是这些检测技术或由于精度低或由于检测耗时过长并不能很好的应用到商业产品中。目前的人体关键点检测算法很难满足实际应用的需求,在科研领域,大部分研究者只关注人体关键点检测精度,会设计出很复杂的网络加一些很复杂的方法和一些训练技巧,然后在公开数据集上得到一个较好的成绩,但是这很难直接应用到实际中去。少部分研究者的方法在速度上满足了需求,但是会以牺牲精度为代价,精度低使得应用无法落地,大量的漏检和误检不可接受。
发明内容
针对传统检测方法难以平衡精度和复杂度的不足之处,本发明提出一种基于深度学习的人体关键点检测方法,设计了一种新的扩张卷积残差网络来构建人体关键点检测网络,不使用大网络也能实现较高的检测精度,机制鲁棒性强,因此本方法具有较高的实用价值。
本发明的技术方案为:
一种基于深度学习的人体关键点检测方法,包括如下步骤:
步骤1、获取训练数据,所述训练数据包括图片以及包含行人检测框和人体关键点坐标的标记文件;
步骤2、构建人体关键点检测网络,所述人体关键点检测网络为两级网络结构,第一级网络和第二级网络均采用扩张卷积残差网络;所述扩张卷积残差网络基于ResNet50网络,使用扩张卷积代替ResNet50网络中最后一个残差模块的普通卷积,扩张卷积的步长设置为1不减小特征图大小,并将ResNet50网络中最后一个残差模块的特征图通道数减小为原来的二分之一后形成所述扩张卷积残差网络;
步骤3、利用步骤1得到的训练数据对步骤2构建的人体关键点检测网络进行多次训练得到多个训练模型,每一次训练的具体方法为:
3.1、使用第一级扩张卷积残差网络的后四个残差模块作为骨干模块对所述训练数据进行特征提取得到四个特征图,并使用金字塔结构对四个特征图进行特征融合然后预测,将预测结果中的所有关键点计算损失后返回调整网络参数;
3.2、利用中间级将第一级网络的输入特征图、第一级网络的输出特征图和第一级网络的预测结果统一为相同的特征图通道数后相加作为第二级网络的输入特征图;
3.3、使用第二级扩张卷积残差网络的后四个残差模块作为骨干模块对所述第二级网络的输入特征图进行特征提取,将第二级扩张卷积残差网络中最后一个残差模块提取的特征图经过两层转置卷积后进行预测,将预测结果中的所有关键点计算损失并根据计算结果对所有关键点的损失按从大到小进行排序,选择前K×B个关键点的损失返回调整网络参数,B为输入图片的批量数,K∈[0,J],J为人体关键点数;
步骤4、选择步骤3得到的所有训练模型中的最优模型;
步骤5、将待检测图像输入最优模型中检测进行人体关键点预测,具体方法为:
5.1、预处理:使用行人检测器检测出待检测图像中的所有行人,以固定宽高比的形式裁剪出单独的行人;
5.2、模型预测:使用步骤4得到的最优模型对预处理后的数据进行预测,得到人体关键点的预测热力图;
5.3、后处理:将步骤5.2得到的预测热力图上的最大响应点向第二大响应点偏移1/4得到最终关键点的位置坐标,然后将坐标映射回原图得到最终的人体关键点坐标。
具体的,所述步骤3中利用步骤1得到的训练数据对步骤2构建的人体关键点检测网络进行训练之前还包括将所述训练数据进行数据增强。
具体的,所述数据增强的具体方法为:
a、将所述训练数据中的行人检测框的宽高放大1.3倍,使用固定长宽比为4︰3的方式裁剪训练数据的图片中的行人,裁剪后缩放为固定尺寸;
b、将步骤a得到的裁剪后的所有图片以0.5的概率随机水平翻转,按0.7至1.3之间的缩放比例随机缩放,在-40°~+40°之间的旋转角度范围内随机旋转。
具体的,所述步骤3.1和3.3使用公式(1)计算损失得到损失函数LH
Figure BDA0002107825550000031
其中Hj(p)为预测结果,表示关键点j在位置p处的概率,
Figure BDA0002107825550000032
是真实值生成的热力图,关键点j是否可见用vj表示,关键点j不可见时vj=0,关键点j可见时vj=1。
本发明的有益效果为:本发明充分利用了深度学习的准确度高的性质,鲁棒性好,能够适应外界环境的各种变化;构建了SDPN网络作为人体关键点检测网络,SDPN网络的两级网络采用不同的方式解码,能够更快速和准确地进行训练;提出批量级别困难关键点挖掘技术,在精度和速度之间做出平衡;本发明改进ResNet50网络保留更多的空间信息,能够达到较高的精度和较快的速度,具有很高的实用性。
附图说明
图1是本发明的整体框图。
图2是残差网络的原始结构(左)和本发明提出的一种基于深度学习的人体关键点检测方法中的扩张卷积残差网络(右)的结构示意图。
图3是本发明提出的一种基于深度学习的人体关键点检测方法中的SDPN网络结构图。
图4是本发明提出的一种基于深度学习的人体关键点检测方法中的中间层网络的结构图。
图5是本发明提出的一种基于深度学习的人体关键点检测方法中进行人体关键点检测的流程图。
图6是利用本发明提出的一种基于深度学习的人体关键点检测方法进行检测的待检测原图。
图7是利用本发明提出的一种基于深度学习的人体关键点检测方法进行检测的关键点检测结果图。
具体实施方式
下面结合附图和具体实施例详细描述本发明的技术方案。
如图1所示是本发明提出的一种基于深度学习的人体关键点检测方法的流程图,包括数据获取、网络构建、模型训练和评估、最优模型预测等步骤。本发明构建了堆叠扩张卷积金字塔网络结构SDPN进行预测,包括模型训练和利用训练好的模型进行预测。
模型训练包括如下步骤:
步骤1)获取数据。训练数据包含图片和标记文件,标注包含两个部分,行人检测框和人体关键点坐标,主要使用公开数据集。公开数据集是指MSCOCO数据集的人体关键点检测任务相关的数据,本实施例在COCO2017的训练集(包含58,945张图像和15万个标注行人)上训练,没有使用额外数据集,使用val2017(包含5000张图像)线下验证,使用test-dev2017(包含超过2万张图像)线上验证。COCO数据集(Common Objects in COntext,是微软团队提供的一个可以用来进行图像识别的数据集)的每个标注对象都包含一系列的字段,包括图片的ID、物体的类别ID(对于关键点检测任务主要取行人那一类,对应ID为1)、物体的包围框、物体的分割掩码,物体的面积以及是否是密集(iscrowd)等字段,其中物体面积表示物体包含的像素数,iscrowd字段用于表示标注对象是否密集。对于关键点检测任务的标注,除了以上所有字段以外,还有以下属性,关键点坐标、关键点是否可见(isvisible)、关键点个数以及骨架(skeleton),其中关键点是否可见用v表示,定义v=0表示未标记(这种情况下x=y=0),v=1表示标记但不可见,v=2表示标记并且可见。其中标注中的关键点个数表示该人体被标记关键点的数量(即v>0)。骨架信息表示不同关键点之间的连线。
步骤2)网络构建。
本发明提出了堆叠扩张卷积金字塔网络结构(Stacked Dilated-conv PyramidNetwork,SDPN)来作为人体关键点检测网络,堆叠扩张卷积金字塔网络基于扩张卷积残差网络,使用堆叠方式构建,一共有两级,两级网络均为扩张卷积残差网络,扩张卷积残差网络基于ResNet50网络,如图2所示,其中,dr表示下采样率,C表示特征图通道数,conv表示卷积,maxpool表示最大池化,dilated conv表示扩张卷积,Fc表示全连接层,softmax表示把分类结果映射为一种概率的形式,值是到0-1之间的实数,且和为1。图2左图为ResNet50网络,右图为本发明提出的扩张卷积残差网络,本发明将ResNet50网络中最后一个残差模块的特征图通道数减小为原来的二分之一,并用步长为1的扩张卷积代替ResNet50网络中最后一个残差模块的普通卷积后形成扩张卷积残差网络。
本发明没有直接使用残差网络ResNet50作为基础网络,由于ResNet50可以分为5个残差模块,ResNet50网络有5次下采样,最后一个残差模块输出的特征图的宽和高都是原图的1/32,大量损失了空间信息,因为ResNet最初使用在ImageNet的图像分类任务,空间信息对于图像分类任务可能不是那么重要,相对而言语义信息可能更重要。但是人体关键点检测任务需要精准定位关键点坐标,空间信息很重要,下采样过程损失的空间信息很难被恢复,本发明通过在最后一个残差模块中引入扩张卷积代替原始结构中的普通卷积来解决这个问题。引入扩张卷积改变了网络结构从而导致不能完全使用预训练模型初始化。本发明只在最后一个残差模块使用步长为1、扩张率为2的扩张卷积,增加感受野的同时不减小特征图,保留更多的空间信息,但这将会带来计算量的增加,为了避免计算量增加过大,本方法对特征图的通道数和特征图的空间尺寸做一个平衡,由于特征图大小不变,减小通道数为原来的1/2,即C4和C5具有相同尺寸和相同的通道数。
堆叠扩张卷积金字塔网络结构SDPN两个基础网络都是使用扩张卷积残差网络,堆叠扩张卷积金字塔网络结构如图3所示,deconv表示转置卷积。使用堆叠方式构建两级网络,其中第一级网络使用金字塔网络结构,在4个不同的层级进行特征融合然后预测,第二级网络使用转置卷积上采样两次然后预测,并在第二级网络使用批量级别困难关键点挖掘。
步骤3)模型训练。将步骤2构建的网络使用训练集进行多次模型训练,单次训练的过程如下。
使用第一级扩张卷积残差网络的后四个残差模块作为骨干模块对所述训练数据进行特征提取得到四个特征图,并对四个特征图进行预测,将预测结果中的所有关键点计算损失后返回调整网络参数。其中本发明中第一级网络使用金字塔网络结构,金字塔网络在多个不同分辨率的特征图上进行预测,本方法没有使用较大尺度的上采样,最多只使用2倍上采样和4倍上采样。使用中继监督的方式训练,对这些预测结果分别计算损失并进行回传。
在不同级网络之间连接方面,见图4,下一级网络的输入由三个部分组成,分别是前一级的输出特征图、前一级的预测结果和金字塔网络最初的输入特征图,这三部分特征图的尺寸都相同,只有通道数不同,中间级使用1×1的卷积将这三部分的通道数变为相同,然后按元素相加。另外为了更好利用前一级特征,SDPN还大量使用了跳过连接,第一级的上采样和下采样支路中的特征都会通过跳过连接传输到第二级网络中进行特征融合,第二级网络的特征图将同时具备浅层和深层的特征以及不同尺度的特征。前一级网络中间特征和最后的预测结果都会以某种形式传递到下一级,对于关键点检测这类结构式任务,很多关键点之间有很强的关联性,该结构将有利于第二级网络生成更精确的结果。
在第二级网络中,类似第一级的骨干网络,继续使用带扩张卷积的ResNet50网络的后4个残差模块作为骨干网络用于提取特征,在解码部分使用带转置卷积的头部网络,转置卷积可以同时实现卷积和上采样的功能,同时它也是可学习的层。在经过2层转置卷积之后,特征图的分辨率达到最大,宽和高变为原图1/4。在第二级网络中,只在最终的特征图上做一次预测,并计算损失和反向传播,如图3所示。其中第二级网络在计算损失时采用批量级别困难关键点挖掘技术,批量级别困难关键点挖掘是一种改进的困难关键点挖掘方法。
SDPN整体网络是粗糙检测到精细检测的过程,在第一级网络中对所有标记的关键点计算损失,在第二级网络中并不是回传所有关键点损失。传统方法是以每个人体为单位进行困难关键点挖掘,取每个人体J个关键点损失中的前K(其中K根据实际实验得到)个,对于全身可见的人体提取前K个困难关键点,对于非常多遮挡的人体也是只提取前K大的损失,这显然不合理。本方法使用批量级别困难关键点挖掘,困难关键点挖掘是在整个批量样本中而不是单个人体样本,很容易观察到困难关键点并不是均匀分布在每个人体身上。具体为,假设输入图片的批量大小为B,计算这个批量所有人体关键点的损失,然后从大到小排序取前K×B(其中K根据实际实验得到,取值为0-J)个损失进行反向传播。在人体关键点检测中一个批量大小一般为十几或者几十,在比较多的样本中去寻找困难关键点会更精确和更有代表性。K表示对困难关键点的一种挖掘程度,使用枚举法找到一个合适的K,可以最佳的平衡难关键点和简单关键点,因为不同的K可以得到不同的检测精度,对于本方法,取值是在0-17之间。
一些实施例中,步骤3的模型训练中还使用了一些数据增强的方式,数据增强是指根据标注信息中的行人包围框去裁剪每个行人得到单个行人的图片和标注信息,裁剪方式如下:把行人检测框的宽高放大1.3倍,使用固定长宽比为4:3的方式裁剪保证图像不会发生扭曲形变并缩放为固定尺寸,默认情况高度是256,宽度是192,填充值为ImageNet数据集的像素均值。关于数据增强,主要使用常见的一些增强方式,以0.5的概率随机水平翻转,随机缩放,缩放比例为0.7至1.3之间,以及随机旋转,旋转角度范围-40°~+40°之间,所有这些增强变换需要同时用于图片和标注信息上。
本发明使用在ImageNet上预训练的ResNet50模型来初始化SDPN的第一级网络的部分参数,其他参数随机初始化。加载步骤1)中的训练数据进行一定的数据增强之后输入到网络中训练,不断调整学习率、批量大小(batch_size)、优化方法等超参数来训练SDPN网络。本实施例中使用L2损失函数,每个人体的损失使用LH表示。
Figure BDA0002107825550000061
上式中,Hj(p)是预测结果代表关键点j在位置p处的概率,
Figure BDA0002107825550000062
是真实值生成的热力图,关键点j是否可见用vj表示,vj取值为0或1,如果关键点j不可见即vj=0,将不用计算损失,否则vj=1,需要计算损失。
步骤4)模型评估。选出所有训练得到的模型中在验证集表现最优的模型;在训练过程,每经过1轮存储一次模型,一般情况,训练120轮即可。并将该模型在验证集测试,根据人体关键点检测的精度选择最优的模型。
根据上述过程可到训练好的最优模型,随后就可以利用训练好的模型进行预测。
预测的流程如图5所示,预测程序是构建网络的前向推断过程,前向推断过程的网络结构与训练时的结构是相同的,只是没有计算损失和回传损失的过程,只使用第二级网络输出作为最终结果。输入参数为待检测的图像数据,返回为预测结果,得到所有人体关键点坐标,中间经过预处理、模型预测和后处理。输入图片做一个简单的预处理,预处理包含使用行人检测器检测出图片中的所有行人,以固定宽高比的形式裁剪出单独的行人,然后传给SDPN网络进行预测,得到人体关键点的预测热力图结果,后处理对热力图进行一定的处理,把热力图上的最大响应点向第二大响应点偏移1/4得到最终关键点位置,然后将坐标映射回原图得到最终的人体关键点坐标。
本发明提出了一种性能更好的人体关键点检测网络模型,称为堆叠扩张卷积金字塔网络,整体使用两级网络,体现由粗糙检测到精细检测的思想。它是一个典型的非对称网络结构,使用比较深的骨干网络作为编码部分提取更丰富的特征,同时可以使用ImageNet预训练模型初始化权重。另外在骨干网络的最后一个模块使用扩张卷积,最后一个模块不减小特征图,保留更多的空间信息,减少特征图的通道数,避免过大的计算量。通过大量的跳过连接进行特征融合,不同层级不同尺度的特征融合带来更丰富的空间信息和语义信息。整体网络是一个从粗糙检测到精细检测的过程,后一级会在前一级的基础上针对困难关键点做一些微调,从而得到更精确的结果。
另外针对本发明使用的堆叠扩张卷积金字塔网络,改进了损失函数的处理方式,对不同级网络的输出使用不同的处理方式,第一级网络使用普通的L2损失处理所有关键点,第二级网络使用批量级别困难关键点挖掘方法处理难关键点。
以上对本发明所提供的方法进行了详细介绍,本方法中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (4)

1.一种基于深度学习的人体关键点检测方法,其特征在于,包括如下步骤:
步骤1、获取训练数据,所述训练数据包括图片以及包含行人检测框和人体关键点坐标的标记文件;
步骤2、构建人体关键点检测网络,所述人体关键点检测网络为两级网络结构,第一级网络和第二级网络均采用扩张卷积残差网络;所述扩张卷积残差网络基于ResNet50网络,使用步长为1的扩张卷积代替ResNet50网络中最后一个残差模块的普通卷积,并将ResNet50网络中最后一个残差模块的特征图通道数减小为原来的二分之一后形成所述扩张卷积残差网络;
步骤3、利用步骤1得到的训练数据对步骤2构建的人体关键点检测网络进行多次训练得到多个训练模型,每一次训练的具体方法为:
3.1、使用第一级扩张卷积残差网络的后四个残差模块作为骨干模块对所述训练数据进行特征提取得到四个特征图,并使用金字塔结构对四个特征图进行特征融合然后预测,将预测结果中的所有关键点计算损失后返回调整网络参数;
3.2、利用中间级将第一级网络的输入特征图、第一级网络的输出特征图和第一级网络的预测结果统一为相同的特征图通道数后相加作为第二级网络的输入特征图;
3.3、使用第二级扩张卷积残差网络的后四个残差模块作为骨干模块对所述第二级网络的输入特征图进行特征提取,将第二级扩张卷积残差网络中最后一个残差模块提取的特征图经过两层转置卷积后进行预测,将预测结果中的所有关键点计算损失并根据计算结果对所有关键点的损失按从大到小进行排序,选择前K×B个关键点的损失返回调整网络参数,B为输入图片的批量数,K∈[0,J],J为人体关键点数;
步骤4、选择步骤3得到的所有训练模型中的最优模型;
步骤5、将待检测图像输入最优模型中检测进行人体关键点预测,具体方法为:
5.1、预处理:使用行人检测器检测出待检测图像中的所有行人,以固定宽高比的形式裁剪出单独的行人;
5.2、模型预测:使用步骤4得到的最优模型对预处理后的数据进行预测,得到人体关键点的预测热力图;
5.3、后处理:将步骤5.2得到的预测热力图上的最大响应点向第二大响应点偏移1/4得到最终关键点的位置坐标,然后将坐标映射回原图得到最终的人体关键点坐标。
2.根据权利要求1所述的基于深度学习的人体关键点检测方法,其特征在于,所述步骤3中利用步骤1得到的训练数据对步骤2构建的人体关键点检测网络进行训练之前还包括将所述训练数据进行数据增强。
3.根据权利要求2所述的基于深度学习的人体关键点检测方法,其特征在于,所述数据增强的具体方法为:
a、将所述训练数据中的行人检测框的宽高放大1.3倍,使用固定长宽比为4︰3的方式裁剪训练数据的图片中的行人,裁剪后缩放为固定尺寸;
b、将步骤a得到的裁剪后的所有图片以0.5的概率随机水平翻转,按0.7至1.3之间的缩放比例随机缩放,在-40°~+40°之间的旋转角度范围内随机旋转。
4.根据权利要求1至3任一项所述的基于深度学习的人体关键点检测方法,其特征在于,所述步骤3.1和3.3使用公式(1)计算损失得到损失函数LH
Figure FDA0002107825540000021
其中Hj(p)为预测结果,表示关键点j在位置p处的概率,
Figure FDA0002107825540000022
是真实值生成的热力图,关键点j是否可见用vj表示,关键点j不可见时vj=0,关键点j可见时vj=1。
CN201910559424.4A 2019-06-26 2019-06-26 一种基于深度学习的人体关键点检测方法 Active CN110276316B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910559424.4A CN110276316B (zh) 2019-06-26 2019-06-26 一种基于深度学习的人体关键点检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910559424.4A CN110276316B (zh) 2019-06-26 2019-06-26 一种基于深度学习的人体关键点检测方法

Publications (2)

Publication Number Publication Date
CN110276316A CN110276316A (zh) 2019-09-24
CN110276316B true CN110276316B (zh) 2022-05-24

Family

ID=67963256

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910559424.4A Active CN110276316B (zh) 2019-06-26 2019-06-26 一种基于深度学习的人体关键点检测方法

Country Status (1)

Country Link
CN (1) CN110276316B (zh)

Families Citing this family (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110728310B (zh) * 2019-09-27 2023-09-01 聚时科技(上海)有限公司 一种基于超参数优化的目标检测模型融合方法及融合系统
CN110827314B (zh) * 2019-09-27 2020-10-23 深圳云天励飞技术有限公司 单目标跟踪方法及相关设备
CN110956097B (zh) * 2019-11-13 2023-07-21 北京影谱科技股份有限公司 遮挡人体提取方法及模块、场景转换方法及装置
CN111160085A (zh) * 2019-11-19 2020-05-15 天津中科智能识别产业技术研究院有限公司 一种人体图像关键点姿态估计方法
CN110929638B (zh) * 2019-11-20 2023-03-07 北京奇艺世纪科技有限公司 一种人体关键点识别方法、装置及电子设备
CN111126412B (zh) * 2019-11-22 2023-04-18 复旦大学 基于特征金字塔网络的图像关键点检测方法
CN111027427B (zh) * 2019-11-29 2023-07-18 大连理工大学 一种用于小型无人机竞速比赛的目标门检测方法
CN110889858A (zh) * 2019-12-03 2020-03-17 中国太平洋保险(集团)股份有限公司 一种基于点回归的汽车部件分割方法及装置
CN111127495A (zh) * 2019-12-04 2020-05-08 深圳市图郅创新科技有限公司 一种关于图像关键点检测的神经网络模型建立方法
CN111160111B (zh) * 2019-12-09 2021-04-30 电子科技大学 一种基于深度学习的人体关键点检测方法
CN111027481B (zh) * 2019-12-10 2023-04-07 浩云科技股份有限公司 基于人体关键点检测的行为分析方法及装置
CN111027504A (zh) * 2019-12-18 2020-04-17 上海眼控科技股份有限公司 人脸关键点检测方法、装置、设备及存储介质
CN111127632B (zh) * 2019-12-20 2023-06-02 北京奇艺世纪科技有限公司 人体建模模型获取方法、装置、电子设备及存储介质
CN111079683B (zh) * 2019-12-24 2023-12-12 天津大学 基于卷积神经网络的遥感图像云雪检测方法
CN111178251B (zh) * 2019-12-27 2023-07-28 汇纳科技股份有限公司 一种行人属性识别方法及系统、存储介质及终端
CN111160262A (zh) * 2019-12-30 2020-05-15 国网北京市电力公司 一种融合人体关键点检测的人像分割方法
CN111428645B (zh) * 2020-03-25 2023-07-18 Oppo广东移动通信有限公司 人体关键点的检测方法、装置、电子设备及存储介质
CN111444978B (zh) * 2020-04-03 2023-06-09 王银璇 椎体成形术骨水泥渗漏检测方法、系统及存储介质
CN111476184B (zh) * 2020-04-13 2023-12-22 河南理工大学 一种基于双注意力机制的人体关键点检测方法
CN111311732B (zh) * 2020-04-26 2023-06-20 中国人民解放军国防科技大学 3d人体网格获取方法及装置
CN111832383B (zh) * 2020-05-08 2023-12-08 北京嘀嘀无限科技发展有限公司 姿态关键点识别模型的训练方法、姿态识别方法及装置
CN112131959B (zh) * 2020-08-28 2024-03-22 浙江工业大学 一种基于多尺度特征强化的2d人体姿态估计方法
CN112132013B (zh) * 2020-09-22 2022-07-15 中国科学技术大学 一种车辆关键点检测方法
CN112232194A (zh) * 2020-10-15 2021-01-15 广州云从凯风科技有限公司 一种单目标人体关键点检测方法、系统、设备及介质
CN112418046B (zh) * 2020-11-17 2023-06-23 武汉云极智能科技有限公司 一种基于云机器人的健身指导方法、存储介质及系统
CN112580721B (zh) * 2020-12-19 2023-10-24 北京联合大学 一种基于多分辨率特征融合的目标关键点检测方法
CN112699750A (zh) * 2020-12-22 2021-04-23 南方电网深圳数字电网研究院有限公司 基于边缘计算和ai的智慧加油站安全监测方法及系统
CN112926692B (zh) * 2021-04-09 2023-05-09 四川翼飞视科技有限公司 基于非均匀混合卷积的目标检测装置、方法和存储介质
CN113139470B (zh) * 2021-04-25 2023-05-23 安徽工业大学 一种基于Transformer的玻璃识别方法
CN113408709B (zh) * 2021-07-12 2023-04-07 浙江大学 基于单元重要度的条件计算方法
CN116912884B (zh) * 2023-07-21 2024-03-19 北京优创新港科技股份有限公司 一种人体关键点检测方法及系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107169475A (zh) * 2017-06-19 2017-09-15 电子科技大学 一种基于kinect相机的人脸三维点云优化处理方法
CN108229445A (zh) * 2018-02-09 2018-06-29 深圳市唯特视科技有限公司 一种基于级联金字塔网络的多人姿态估计方法
CN108389190A (zh) * 2018-02-08 2018-08-10 贵州联科卫信科技有限公司 一种基于深度学习方法的肺结节自动检测方法
CN108921225A (zh) * 2018-07-10 2018-11-30 深圳市商汤科技有限公司 一种图像处理方法及装置、计算机设备和存储介质
CN109543549A (zh) * 2018-10-26 2019-03-29 北京陌上花科技有限公司 用于多人姿态估计的图像数据处理方法及装置、移动端设备、服务器
CN109635642A (zh) * 2018-11-01 2019-04-16 浙江科技学院 一种基于残差网络和扩张卷积的道路场景分割方法
CN109685067A (zh) * 2018-12-26 2019-04-26 江西理工大学 一种基于区域和深度残差网络的图像语义分割方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019041262A1 (en) * 2017-08-31 2019-03-07 Shenzhen United Imaging Healthcare Co., Ltd. SYSTEM AND METHOD FOR IMAGE SEGMENTATION

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107169475A (zh) * 2017-06-19 2017-09-15 电子科技大学 一种基于kinect相机的人脸三维点云优化处理方法
CN108389190A (zh) * 2018-02-08 2018-08-10 贵州联科卫信科技有限公司 一种基于深度学习方法的肺结节自动检测方法
CN108229445A (zh) * 2018-02-09 2018-06-29 深圳市唯特视科技有限公司 一种基于级联金字塔网络的多人姿态估计方法
CN108921225A (zh) * 2018-07-10 2018-11-30 深圳市商汤科技有限公司 一种图像处理方法及装置、计算机设备和存储介质
CN109543549A (zh) * 2018-10-26 2019-03-29 北京陌上花科技有限公司 用于多人姿态估计的图像数据处理方法及装置、移动端设备、服务器
CN109635642A (zh) * 2018-11-01 2019-04-16 浙江科技学院 一种基于残差网络和扩张卷积的道路场景分割方法
CN109685067A (zh) * 2018-12-26 2019-04-26 江西理工大学 一种基于区域和深度残差网络的图像语义分割方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
ECNet: An Efficient and Context-Aware Network for Street Scene Parsing;Bin Jiang et al.;《2018 9th International Symposium on Parallel Architecture, Algorithms and Programming (PAAP)》;20190502;202-210 *
基于卷积神经网络的行为识别研究;杨楠;《中国优秀硕士学位论文全文数据库 信息科技辑》;20181015;I138-717 *
基于卷积神经网络的道路场景感知算法研究;唐静;《中国优秀硕士学位论文全文数据库 信息科技辑》;20190115;I138-3162 *
基于深度学习的人体关键点检测;胡保林;《中国优秀硕士学位论文全文数据库 信息科技辑》;20191215;I138-617 *

Also Published As

Publication number Publication date
CN110276316A (zh) 2019-09-24

Similar Documents

Publication Publication Date Title
CN110276316B (zh) 一种基于深度学习的人体关键点检测方法
CN111259930B (zh) 自适应注意力指导机制的一般性目标检测方法
Qingyun et al. Cross-modality fusion transformer for multispectral object detection
CN112926396B (zh) 一种基于双流卷积注意力的动作识别方法
CN110246181B (zh) 基于锚点的姿态估计模型训练方法、姿态估计方法和系统
CN110287960A (zh) 自然场景图像中曲线文字的检测识别方法
CN111368769B (zh) 基于改进锚点框生成模型的船舶多目标检测方法
CN112699847A (zh) 基于深度学习的人脸特征点检测方法
CN111160111B (zh) 一种基于深度学习的人体关键点检测方法
CN112036260B (zh) 一种自然环境下多尺度子块聚合的表情识别方法及系统
CN112330684B (zh) 对象分割方法、装置、计算机设备及存储介质
CN114565860B (zh) 一种多维度增强学习合成孔径雷达图像目标检测方法
CN109299303B (zh) 基于可变形卷积与深度网络的手绘草图检索方法
CN113326735B (zh) 一种基于YOLOv5的多模态小目标检测方法
CN115512103A (zh) 多尺度融合遥感图像语义分割方法及系统
CN111507184B (zh) 基于并联空洞卷积和身体结构约束的人体姿态检测方法
CN104616005A (zh) 一种领域自适应的人脸表情分析方法
CN113298817A (zh) 一种准确率高的遥感图像语义分割方法
CN115187786A (zh) 一种基于旋转的CenterNet2目标检测方法
CN114663880A (zh) 基于多层级跨模态自注意力机制的三维目标检测方法
CN113076891B (zh) 基于改进高分辨率网络的人体姿态预测方法及系统
CN116895098A (zh) 基于深度学习和隐私保护的视频人体动作识别系统与方法
CN116342894A (zh) 基于改进YOLOv5的GIS红外特征识别系统及方法
CN116311518A (zh) 一种基于人体交互意图信息的层级人物交互检测方法
CN114066844A (zh) 一种基于注意力叠加与特征融合的肺炎x光片图像分析模型及分析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant