CN113095251A - 一种人体姿态估计方法及系统 - Google Patents

一种人体姿态估计方法及系统 Download PDF

Info

Publication number
CN113095251A
CN113095251A CN202110421844.3A CN202110421844A CN113095251A CN 113095251 A CN113095251 A CN 113095251A CN 202110421844 A CN202110421844 A CN 202110421844A CN 113095251 A CN113095251 A CN 113095251A
Authority
CN
China
Prior art keywords
network
thermodynamic diagram
feature maps
teacher
path space
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110421844.3A
Other languages
English (en)
Other versions
CN113095251B (zh
Inventor
王好谦
蔡元昊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen International Graduate School of Tsinghua University
Original Assignee
Shenzhen International Graduate School of Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen International Graduate School of Tsinghua University filed Critical Shenzhen International Graduate School of Tsinghua University
Priority to CN202110421844.3A priority Critical patent/CN113095251B/zh
Publication of CN113095251A publication Critical patent/CN113095251A/zh
Application granted granted Critical
Publication of CN113095251B publication Critical patent/CN113095251B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种人体姿态估计方法和系统,其方法包括:S1.对图像进行预处理,并对卷积神经网络进行预训练获得教师网络;S2.将预处理后的图像分别输入至学生网络和教师网络,学生网络为骨干采用动态路径空间的卷积神经网络;S3.教师网络输出多个不同尺度的第一特征图,再将第一特征图卷积生成第一热力图,同时第一特征图迁移至学生网络的动态路径空间的最后一个阶段的节点中;S4.学生网络输出多个不同尺度的第二特征图,再将第二特征图卷积生成第二热力图,然后第一热力图的概率分布迁移至第二热力图中生成最终热力图;S5.将步骤S4生成的最终热力图进行解码获得人体骨骼关键的坐标。该方法为轻量级,能极大提高计算效率。

Description

一种人体姿态估计方法及系统
技术领域
本发明涉及计算机视觉(Computer Vision)中检测识别领域,尤其涉及一种人体姿态估计方法及系统。
背景技术
人体姿态估计的主要目标是将单张RGB图像中的所有人的骨骼关键点都定位出来并连接成一个个的人体实例。人体姿态估计是计算机视觉中的一个十分重要且基础的任务。传统算法将人体姿态估计任务视为一个树状或者网状的图论模型,基于手工设计的特征去求解。这种方法的表征能力有限,无法取得较好的效果。随着深度学习的不断突破,人体姿态估计领域也取得了飞速的进展。
当前的人体姿态估计主流算法主要分为两类:自顶向下(Top-down)和自底向上(Bottom-up)。自顶向下算法首先采用一个人体检测器输出矩形边界框(bounding box)来标定出行人位置。通常而言矩形边界框是一个四元组参量(x,y,w,h),x表示矩形边界框的左上角点的横坐标,y表示矩形边界框的左上角点的纵坐标,w表示矩形边界框的宽度,h表示矩形边界框的高度,用这样一个四元组便表示出了矩形边界框的位置和大小信息。然后将包含行人的矩形框区域扣出,对每个人体实例进行单人姿态估计。单人姿态估计的流程就是对将包含单人的图片输入到设计好的卷积神经网络当中,假定人有K个骨骼关键点,则神经网络会输出K通道的热力图,每个通道表示图片中任意位置是该种类骨骼关键点的概率大小,然后对每个通道的热力图进行解码(一般是取峰值往次峰值偏移)便可得到每个骨骼关键点的二维坐标。自底向上算法首先检测出整张图片中的所有不含实例标注的人体骨骼关键点,具体而言是将包含多个人的整张图片输入到卷积神经网络当中,然后输出所有骨骼关键点的热力图,一样也是K个通道,然后对每个通道的热力图进行解码得到每一种类的骨骼关键点的二维坐标信息,接着将属于同一个人的关键点连接得到一个个的人体实例。
近年来,人们对于人体姿态估计的研究主要集中在深度卷积神经网络的设计上,通常会调用更深更宽更大的神经网络,这类神经网络虽然可以取得较好的检测效果,但是往往参数量(Parameters)大、计算复杂度(FLOPS,floating-point operations persecond)高,使得算法效率低下。而移动端设备要求速度快,延迟低,模型容量小。因此,这些算法很难部署到移动端,很难投入到实际应用当中。因此,越来越多的研究兴趣转移到模型轻量化。
现有的模型轻量化的算法有:模型剪枝,低位宽量化,采用深度可分离卷积。这三种方法的通病是盲目压缩模型的参数量导致模型的表征能力较低。同时在训练过程中缺少更多的信息来指导模型的整体优化。
知识蒸馏(Knowledge Distillation)是实现模型轻量化的一项重要技术。知识蒸馏算法中有两个卷积神经网络——学生网络(Student)和教师网络(Teacher),教师网络通常会使用一个尽心设计过的参数量和计算量较大的网络,通常教师网络会事先训练好,并且将网络的参数固定住。而学生网络通常而言参数量和计算量都较小,并且在训练学生网络时,将训练图片分别输入到学生网络和教师网络当中得到两个输出(Predictions),把教师网络的输出作为软标签(Soft Labels),真实标注(True Label)作为硬标签(HardLabels)。软标签与硬标签一同与学生网络进行损失计算。如此一来,学生网络不仅可以从真实标注中学到拟合真值所需要的隐含信息,还能从教师网络的输出中学到蒸馏出来的知识(Distilled Knowledge),从而模仿教师网络。但现有的知识蒸馏方法主要集中在图像分类,是一种基于向量的点对点的对齐。
动态路径规划(Dynamic Routing)是2020年在CVPR论文《Learning DynamicRouting for Semantic Segmentation》中新提出的一项技术。之前的方法采用的是静态的深度卷积神经网络,在训练阶段,卷积核中的参数经过不断优化后便固定不变,测试阶段每张图片经过的卷积核,通过的路径,经过的计算过程都是预先设定好的。而动态路径规划打破了这一常识,首先设定一个总体的搜索空间,定义好每个节点及其对应的门函数,然后在训练过程中将每个节点及其门函数的参数进行优化。在测试的过程中,图片输入到动态卷积神经网络之后,每一个节点通过其门函数来控制图片是否需要经过该节点的计算。在训练过程中预先设定好计算复杂度的限制,并且将这样的限制体现在损失函数当中,如此一来,整个训练过程就转化为一个优化问题,而测试阶段就变成了一个路径寻优问题。动态路径规划算法会在一定计算复杂度内对包含不同尺度物体的图片匹配一条最优计算路径,从而使得检测效果达到最优。但现有的动态路径规划的卷积神经网络的路径搜索的引擎目标主要是网络的参数量,过于单一,仅仅主要关注网络的轻量化。
发明内容
为解决上述问题,本发明提出一种人体姿态估计方法及系统,该轻量级方法能极大提高计算效率,具备模型容量小、计算速度快、延时低等优势,适用于部署在移动端。
本发明提出一种人体姿态估计方法,包括:S1.对图像进行预处理,并对卷积神经网络进行预训练获得教师网络;S2.将预处理后的图像分别输入至学生网络和所述教师网络,所述学生网络为骨干采用动态路径空间的卷积神经网络;S3.所述教师网络的骨干部分输出多个不同尺度的第一特征图,再由业务层部分将所述第一特征图卷积生成第一热力图,同时所述第一特征图迁移至学生网络的动态路径空间的最后一个阶段的节点中;S4.所述学生网络的骨干部分输出多个不同尺度的第二特征图,再由业务层部分将所述第二特征图卷积生成第二热力图,然后所述第一热力图的概率分布迁移至所述第二热力图中生成最终热力图;S5.将步骤S4生成的最终热力图进行解码获得人体骨骼关键的坐标。
优选地,所述步骤S1中对图像进行预处理包括:利用检测器将图像中的人体一一分别检测出来,并进行数据增强;选取残差网络ResNet152作为卷积神经网络的骨干来进行预训练获得教师网络。
优选地,所述第一特征图和所述第二特征图的不同尺度包括:预处理后图像的1/4,1/8,1/16,1/32。
优选地,所述动态路径空间包括多个整齐排列的路径单元,每个路径单元包括一个操作节点和一个门函数;每个路径单元中,三个不同尺度的特征图输入至操作节点,并分别通过恒等连接、双三次上采样和降采样之后按位相加得到输入该路径单元的特征值,所述特征值输入到该路径单元之后分为三条支路,第一条支路为依次通过两个深度可分离卷积、一个批归一化和一个ReLU激活函数,第二条支路为恒等连接,第三条支路为先通过两层深度可分离卷积和全局均值池化将特征值的维度转化为B×3×1×1,再通过门函数。
进一步优选,所述动态路径空间分为L个阶段,第i个阶段竖着排列max{i+1,4}个路径单元;且所述动态路径空间分为四层,从上往下输出图像的尺度依次为预处理后图像的1/4,1/8,1/16,1/32,第二、三层的路径单元有三个尺度的输出,第一、四层的单元只有两个尺度的输出,第L阶段的路径单元只有一个尺度的输出。
进一步优选,所述门函数表达如下:
Figure BDA0003028122530000041
其中v为任意实数,tanh为双正切函数,t为可以调整的超参数。
优选地,所述动态路径空间中包含计算复杂度的预算限定,且将所述计算复杂度的预算限定反映在损失函数上并进行优化。
进一步优选,所述动态路径空间的理论计算复杂度为:
Figure BDA0003028122530000042
其中,
Figure BDA0003028122530000043
表示第l阶段,第s层的路径单元的计算复杂度。
设计算复杂度的监督目标为:
Figure BDA0003028122530000044
其中C表示路径空间实际的计算复杂度,μ∈[0,1],表示衰减因子。
本发明还提供一种人体姿态估计系统,包括:预处理模块:对图像进行预处理,并对卷积神经网络进行预训练获得教师网络;教师网络:用于输入预处理后的图像,骨干部分输出多个不同尺度的第一特征图,再由业务层部分将所述第一特征图卷积生成第一热力图;学生网络:包括采用动态路径空间的骨干网络,用于输入预处理后的图像,骨干部分输出多个不同尺度的第二特征图,再由业务层部分将所述第二特征图卷积生成第二热力图;金字塔知识蒸馏模块:用于将所述教师网络的知识迁移至所述学生网络,包括金字塔特征蒸馏模块和金字塔热力图蒸馏模块;所述金字塔特征蒸馏模块用于对所述教师网络输出的多个不同尺度的第一特征图迁移至所述学生网络的动态路径空间的最后一个阶段的节点中;所述金字塔热力图蒸馏模块用于将所述教师网络输出的第一热力图的概率分布迁移至所述学生网络输出的第二热力图中;骨骼关键点热力图解码模块:用于对所述第一热力图的概率分布迁移至所述第二热力图中生成的最终热力图进行解码获得人体骨骼关键的坐标。
本发明的有益效果:
1)首先采用知识蒸馏的方式来实现人体姿态估计的轻量化,这项技术不必对模型进行剪枝和低位宽量化,而是在有限的模型容量中尽可能多地学到丰富有效的表征,能极大地提高卷积神经网络的效率。同时,知识蒸馏是一种隐式的表征迁移学习,通过将教师网络中提炼的知识转移到学生网络当中来提升学生的性能。且本申请中的知识蒸馏基于三维矩阵,关注到对生成高质量热力图的起到关键作用的金字塔特征的对齐。
2)人体姿态估计领域当前的许多算法大都采用一些精心设计过的很深很宽空间存储量大计算量高的卷积神经网络,这些模型一味过度地追求人体关键点检测的精度而忽视了计算效率。相较于当前人体姿态估计的主流算法,本发明提供的解决方案具备模型容量小、计算速度快、延时低等优势,适用于部署在移动端。
3)本发明加大了对金字塔特征图的利用率和挖掘力度,不仅仅基于训练任务本身去优化,还基于教师模型的金字塔特征图去进行对齐,其表征能力更强。独创的金字塔知识蒸馏使得学生网络能够全方位地学到教师网络多个尺度输出的关键点热力图,同时还能捕获教师网络中更加深层的隐式特征知识,从而更好地模拟教师,提升性能。
4)本发明采用了动态路径规划技术,能够在给定的预算限定(计算复杂度和空间存储量)对计算路径和计算单元进行优选,将人体姿态估计问题转化为一个凸优化问题去求解。相较于人手工设计的静态神经网络,动态路径规划技术能够根据输入图片的不同来调整计算路径,具备更优越的灵活性和泛化性,在解决多尺度不平衡问题上有着天然的优势。同时,动态路径规划本质上来看也是一种实现Auto Machine Learning(自动机器学习)的手段,减少了人工参与,更加智能化。本发明的动态路径规划是基于人体骨骼关键点更精确定位,金字塔特征更具表现力和网络骨干轻量化三个目标进行驱动。另一方面,操作节点与门函数都经过了改良,参数量和计算量都经过降低。
5)本发明在关键点热力图解码上采用了一种Top-k加权的形式。由于人体骨骼关键点在图像中的位置大概率不是落在一个整点上边,因此与该关键点临近的四个整点在热力图中的概率值都相对较大,取关键点的坐标为这四个点的加权和能够有效地降低在图片数据处理过程中引入的量化误差,从而提升检测精度。
附图说明
图1为本发明实施例中人体姿态估计方法的流程图。
图2为本发明实施例中预处理模块图。
图3为本发明实施例中金字塔知识蒸馏模块图。
图4为本发明实施例中学生网络中的动态路径空间模块图。
图5为本发明实施例中骨骼关键点热力图解码模块图。
图6为本发明实施例中的实验效果图。
具体实施方式
下面结合具体实施方式并对照附图对本发明作进一步详细说明,应该强调的是,下述说明仅仅是示例性的,而不是为了限制本发明的范围及其应用。
本实施例提供一种人体姿态估计系统,基于深度卷积神经网络和迁移学习理论研究降低人体骨骼关键点检测任务的计算复杂度的问题,如图1所示,分为如下板块:
101:预处理模块
102:教师网络
103:学生网络,包括采用动态路径空间(动态路径规划)的骨干网络
104:金字塔知识蒸馏模块
105:骨骼关键点热力图解码模块
101预处理模块
预处理模块由两部分组成,如图2所示,包括201和202。
201:用一个行人检测器输出一系列的矩形边界框将图片中的人给检测出来,然后将矩形框扣出作为训练数据。将训练数据调整为统一大小(256×256或256×192或384×288)并进行随机裁剪、旋转、对称、遮挡、截断等数据增强。
202:选取残差网络ResNet-152作为卷积神经网络的骨干,采用《Simple Baselinefor Human Pose Estimation》中的模型作为教师网络并将其训练好。
102教师网络
如图1所示,预处理后的图像输入至教师网络,骨干部分输出多个不同尺度的第一特征图1021,再由业务层部分将第一特征图卷积生成第一热力图1022。
104金字塔知识蒸馏模块
如图3所示,金字塔知识蒸馏模块包含金字塔特征蒸馏模块和金字塔热力图蒸馏模块。
301:金字塔特征蒸馏模块。在学生网络和教师网络的骨干部分当中,特征图被连续地上采样三次得到四个不同尺度的特征图,计算学生和教师这一部分特征图的均方损失,记为L1,并计入总的损失函数当中。
302:金字塔热力图蒸馏模块。在学生和教师网络四个不同尺度的业务层特征图之后都分别跟随着一个1×1的卷积层,然后将特征图转化为K个通道的骨骼关键点热力图。对教师和学生输出的四个尺度的骨骼关键点热力图分别计算均方误差求和,得到这一部分的损失记为L2,并最终计入总的损失函数当中。
103学生网络
如图1所示,学生网络包括采用动态路径空间的骨干网络402,用于输入预处理后的图像,骨干部分输出多个不同尺度的第二特征图1031,再由业务层部分将所述第二特征图卷积生成第二热力图1032。
学生网络中的骨干动态路径空间
输入图片进入动态路径空间之前首先经过卷积神经网络头部的2~3层卷积层降采样为原图大小的1/4。
学生网络的主干部分采用动态路径规划算法,如图4所示,动态路径空间(RoutingSpace)402由多个整齐排列的路径单元(Routing Cell)401组成。
401:路径单元。路径单元是动态路径空间中的基本组件,每一个路径单元包括一个操作节点和一个门函数,门函数与操作节点呈并联关系,共同组成了路径空间中的一个单元。通过寻找各单元之间的连接关系来实现动态路径规划。
每一个路径单元都接受多个尺度特征图的输入,假设当前操作节点的空间分辨率为s,则在输入端,s,s/2与2s的特征图分别通过恒等连接、双三次上采样和降采样之后按位相加得到输入该动态路径单元的特征值。该特征值输入到路径单元之后有三条支路,一条路依次通过两个深度可分离卷积(SepConv),一个批归一化和一个ReLU激活函数,另一条路是一个恒等连接,还有一条路首先通过两层深度可分离卷积和全局均值池化将特征值的维度转化为B×3×1×1,通过一个门函数(Gate)。
每一个操作节点都接收三个不同尺度的特征图作为输入,并且输出的特征图会依次缩放到三个尺度的大小并输入到后续的操作节点。为了实现动态路劲规划,需要在每个操作节点后部署一个门函数来控制输出路径的权重。本发明对双曲正切函数(Tanh(x))进行改造,得到一个可调参的门函数。门函数的表达式如下:
Figure BDA0003028122530000081
其中v为任意实数,tanh为双正切函数,t为可以调整的超参数。
402:动态路径空间实质是动态路径规划的搜索空间。如图4中402,该空间由一个个的路径单元及其相互间的连接的概率值共同实现动态规划功能。
路径空间一共分为L阶段,第i阶段竖着排列max{i+1,4}个单元。
路径空间可分为四层,从上往下依次为原图大小的1/4,1/8,1/16,1/32。
第二、三层的路径单元会有3个尺度的输出,第一、四层的单元只有两个尺度的输出。第L阶段的单元只有一个尺度的输出。
在实际应用场合中计算资源有限,因此,本发明对路径规划作了计算复杂度的预算限定。同时将计算复杂度的预算限定反映在损失函数上并进行优化。
整个空间的长度为L,层数为4(即4个空间分辨率尺度)。则整个动态路径空间的理论计算复杂度为:
Figure BDA0003028122530000082
其中,
Figure BDA0003028122530000083
表示第l阶段,第s层的路径单元的计算复杂度。如此一来,设计计算复杂度的监督目标如下:
Figure BDA0003028122530000084
其中C表示路径空间实际的计算复杂度,μ∈[0,1],表示衰减因子。
105骨骼关键点热力图解码模块:
在得到业务层的四个尺度的特征图之后,分别将其通过一个1×1卷积层便得到该尺度下的关键点热力图,热力图与真值标签之间计算均方误差损失,记为L4。如图5所示,为了降低量化误差,取这四个尺度热力图中空间分辨率最大者用于解码骨骼关键点的二维坐标。在解码的过程中,我们分别对K个通道的热力图采用Top-4加权,即假设第i个通道的热力图中概率降序排列的前四个二维坐标分别为(x1,y1),(x2,y2),(x3,y3),(x4,y4)。那么最终解码得到的第i个骨骼关键点的二维坐标为:
(xi,yi)=λ1(x1,y1)+λ2(x2,y2)+λ3(x3,y3)+λ4(x4,y4) 公式(4)
最后总的损失函数为:
loss=α1L12L23L34L4 公式(5)
其中,α1,α2,α3,α4都是超参数,均可调整。完成模型训练之后,对学生网络作测试,初步的效果图如图6所示,且其计算量均在0.5GFLOPS左右。
以上内容是结合具体/优选的实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,其还可以对这些已描述的实施方式做出若干替代或变型,而这些替代或变型方式都应当视为属于本发明的保护范围。

Claims (10)

1.一种人体姿态估计方法,其特征在于,包括:
S1.对图像进行预处理,并对卷积神经网络进行预训练获得教师网络;
S2.将预处理后的图像分别输入至学生网络和所述教师网络,所述学生网络为骨干采用动态路径空间的卷积神经网络;
S3.所述教师网络的骨干部分输出多个不同尺度的第一特征图,再由业务层部分将所述第一特征图卷积生成第一热力图,同时所述第一特征图迁移至学生网络的动态路径空间的最后一个阶段的节点中;
S4.所述学生网络的骨干部分输出多个不同尺度的第二特征图,再由业务层部分将所述第二特征图卷积生成第二热力图,然后所述第一热力图的概率分布迁移至所述第二热力图中生成最终热力图;
S5.将步骤S4生成的最终热力图进行解码获得人体骨骼关键的坐标。
2.如权利要求1所述的方法,其特征在于,所述步骤S1中对图像进行预处理包括:利用检测器将图像中的人体一一分别检测出来,并进行数据增强;选取残差网络ResNet152作为卷积神经网络的骨干来进行预训练获得教师网络。
3.如权利要求1所述的方法,其特征在于,所述第一特征图和所述第二特征图的不同尺度包括:预处理后图像的1/4,1/8,1/16,1/32。
4.如权利要求1所述的方法,其特征在于,所述动态路径空间包括多个整齐排列的路径单元,每个路径单元包括一个操作节点和一个门函数;每个路径单元中,三个不同尺度的特征图输入至操作节点,并分别通过恒等连接、双三次上采样和降采样之后按位相加得到输入该路径单元的特征值,所述特征值输入到该路径单元之后分为三条支路,第一条支路为依次通过两个深度可分离卷积、一个批归一化和一个ReLU激活函数,第二条支路为恒等连接,第三条支路为先通过两层深度可分离卷积和全局均值池化将特征值的维度转化为B×3×1×1,再通过门函数。
5.如权利要求4所述的方法,其特征在于,所述动态路径空间分为L个阶段,第i个阶段竖着排列max{i+1,4}个路径单元;且所述动态路径空间分为四层,从上往下输出图像的尺度依次为预处理后图像的1/4,1/8,1/16,1/32,第二、三层的路径单元有三个尺度的输出,第一、四层的单元只有两个尺度的输出,第L阶段的路径单元只有一个尺度的输出。
6.如权利要求4所述的方法,其特征在于,所述门函数表达如下:
Figure FDA0003028122520000021
其中v为任意实数,tanh为双正切函数,t为可以调整的超参数。
7.如权利要求1所述的方法,其特征在于,所述动态路径空间中包含计算复杂度的预算限定,且将所述计算复杂度的预算限定反映在损失函数上并进行优化。
8.如权利要求7所述的方法,其特征在于,所述动态路径空间的理论计算复杂度为:
Figure FDA0003028122520000022
其中,
Figure FDA0003028122520000023
表示第l阶段,第s层的路径单元的计算复杂度;
设计算复杂度的监督目标为:
Figure FDA0003028122520000024
其中C表示路径空间实际的计算复杂度,μ∈[0,1],表示衰减因子。
9.如权利要求8所述的方法,其特征在于,所述多个尺度的第一特征图和第二特征图分别计算均方损失L1,对所述多个尺度的第一热力图和第二热力图的分别计算均方误差求和L2,L4为最终热力图与真值标签之间计算均方误差损失,总损失函数为:
loss=α1L12L23L34L4
其中,α1,α2,α3,α4为超参数,均可调整。
10.一种人体姿态估计(人体骨骼关键点定位识别)系统,其特征在于,包括:
预处理模块:对图像进行预处理,并对卷积神经网络进行预训练获得教师网络
教师网络:用于输入预处理后的图像,骨干部分输出多个不同尺度的第一特征图,再由业务层部分将所述第一特征图卷积生成第一热力图;
学生网络:包括采用动态路径空间的骨干网络,用于输入预处理后的图像,骨干部分输出多个不同尺度的第二特征图,再由业务层部分将所述第二特征图卷积生成第二热力图;
金字塔知识蒸馏模块:用于将所述教师网络的知识迁移至所述学生网络,包括金字塔特征蒸馏模块和金字塔热力图蒸馏模块;所述金字塔特征蒸馏模块用于对所述教师网络输出的多个不同尺度的第一特征图迁移至所述学生网络的动态路径空间的最后一个阶段的节点中;所述金字塔热力图蒸馏模块用于将所述教师网络输出的第一热力图的概率分布迁移至所述学生网络输出的第二热力图中。
骨骼关键点热力图解码模块:用于对所述第一热力图的概率分布迁移至所述第二热力图中生成的最终热力图进行解码获得人体骨骼关键的坐标。
CN202110421844.3A 2021-04-20 2021-04-20 一种人体姿态估计方法及系统 Active CN113095251B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110421844.3A CN113095251B (zh) 2021-04-20 2021-04-20 一种人体姿态估计方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110421844.3A CN113095251B (zh) 2021-04-20 2021-04-20 一种人体姿态估计方法及系统

Publications (2)

Publication Number Publication Date
CN113095251A true CN113095251A (zh) 2021-07-09
CN113095251B CN113095251B (zh) 2022-05-27

Family

ID=76678983

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110421844.3A Active CN113095251B (zh) 2021-04-20 2021-04-20 一种人体姿态估计方法及系统

Country Status (1)

Country Link
CN (1) CN113095251B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113920587A (zh) * 2021-11-01 2022-01-11 哈尔滨理工大学 基于卷积神经网络的人体姿态估计方法
CN114283495A (zh) * 2021-12-16 2022-04-05 北京航空航天大学 一种基于二值化神经网络的人体姿态估计方法
CN117636403A (zh) * 2024-01-26 2024-03-01 江苏源驶科技有限公司 一种基于知识蒸馏的人体姿态估计方法及系统

Citations (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180150684A1 (en) * 2016-11-30 2018-05-31 Shenzhen AltumView Technology Co., Ltd. Age and gender estimation using small-scale convolutional neural network (cnn) modules for embedded systems
US20180365564A1 (en) * 2017-06-15 2018-12-20 TuSimple Method and device for training neural network
CN109086683A (zh) * 2018-07-11 2018-12-25 清华大学 一种基于点云语义增强的人手姿态回归方法和系统
US20190188533A1 (en) * 2017-12-19 2019-06-20 Massachusetts Institute Of Technology Pose estimation
CN110175628A (zh) * 2019-04-25 2019-08-27 北京大学 一种基于自动搜索与知识蒸馏的神经网络剪枝的压缩算法
US20190279052A1 (en) * 2014-12-15 2019-09-12 Samsung Electronics Co., Ltd. Image recognition method and apparatus, image verification method and apparatus, learning method and apparatus to recognize image, and learning method and apparatus to verify image
CN110443144A (zh) * 2019-07-09 2019-11-12 天津中科智能识别产业技术研究院有限公司 一种人体图像关键点姿态估计方法
CN111126573A (zh) * 2019-12-27 2020-05-08 深圳力维智联技术有限公司 基于个体学习的模型蒸馏改进方法、设备及存储介质
CN111160533A (zh) * 2019-12-31 2020-05-15 中山大学 一种基于跨分辨率知识蒸馏的神经网络加速方法
CN111259735A (zh) * 2020-01-08 2020-06-09 西安电子科技大学 基于多级预测特征增强卷积神经网络的单人姿态估计方法
US20200311402A1 (en) * 2018-04-11 2020-10-01 Tencent Technology (Shenzhen) Company Limited Human pose prediction method and apparatus, device, and storage medium
CN111783674A (zh) * 2020-07-02 2020-10-16 厦门市美亚柏科信息股份有限公司 一种基于ar眼镜的人脸识别方法和系统
CN111914727A (zh) * 2020-07-28 2020-11-10 联芯智能(南京)科技有限公司 基于平衡采样与非线性特征融合的小目标人体检测方法
CN111931608A (zh) * 2020-07-23 2020-11-13 安徽天达网络科技有限公司 基于学生姿态以及学生人脸识别的操行管理的方法和系统
CN112200062A (zh) * 2020-09-30 2021-01-08 广州云从人工智能技术有限公司 一种基于神经网络的目标检测方法、装置、机器可读介质及设备
CN112446302A (zh) * 2020-11-05 2021-03-05 杭州易现先进科技有限公司 一种人体姿态检测方法、系统、电子设备和存储介质
CN112528831A (zh) * 2020-12-07 2021-03-19 深圳市优必选科技股份有限公司 多目标姿态估计方法、多目标姿态估计装置及终端设备
CN112633191A (zh) * 2020-12-28 2021-04-09 百果园技术(新加坡)有限公司 一种三维人脸重建的方法、装置、设备和存储介质

Patent Citations (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190279052A1 (en) * 2014-12-15 2019-09-12 Samsung Electronics Co., Ltd. Image recognition method and apparatus, image verification method and apparatus, learning method and apparatus to recognize image, and learning method and apparatus to verify image
US20180150684A1 (en) * 2016-11-30 2018-05-31 Shenzhen AltumView Technology Co., Ltd. Age and gender estimation using small-scale convolutional neural network (cnn) modules for embedded systems
US20180365564A1 (en) * 2017-06-15 2018-12-20 TuSimple Method and device for training neural network
US20190188533A1 (en) * 2017-12-19 2019-06-20 Massachusetts Institute Of Technology Pose estimation
US20200311402A1 (en) * 2018-04-11 2020-10-01 Tencent Technology (Shenzhen) Company Limited Human pose prediction method and apparatus, device, and storage medium
CN109086683A (zh) * 2018-07-11 2018-12-25 清华大学 一种基于点云语义增强的人手姿态回归方法和系统
CN110175628A (zh) * 2019-04-25 2019-08-27 北京大学 一种基于自动搜索与知识蒸馏的神经网络剪枝的压缩算法
CN110443144A (zh) * 2019-07-09 2019-11-12 天津中科智能识别产业技术研究院有限公司 一种人体图像关键点姿态估计方法
CN111126573A (zh) * 2019-12-27 2020-05-08 深圳力维智联技术有限公司 基于个体学习的模型蒸馏改进方法、设备及存储介质
CN111160533A (zh) * 2019-12-31 2020-05-15 中山大学 一种基于跨分辨率知识蒸馏的神经网络加速方法
CN111259735A (zh) * 2020-01-08 2020-06-09 西安电子科技大学 基于多级预测特征增强卷积神经网络的单人姿态估计方法
CN111783674A (zh) * 2020-07-02 2020-10-16 厦门市美亚柏科信息股份有限公司 一种基于ar眼镜的人脸识别方法和系统
CN111931608A (zh) * 2020-07-23 2020-11-13 安徽天达网络科技有限公司 基于学生姿态以及学生人脸识别的操行管理的方法和系统
CN111914727A (zh) * 2020-07-28 2020-11-10 联芯智能(南京)科技有限公司 基于平衡采样与非线性特征融合的小目标人体检测方法
CN112200062A (zh) * 2020-09-30 2021-01-08 广州云从人工智能技术有限公司 一种基于神经网络的目标检测方法、装置、机器可读介质及设备
CN112446302A (zh) * 2020-11-05 2021-03-05 杭州易现先进科技有限公司 一种人体姿态检测方法、系统、电子设备和存储介质
CN112528831A (zh) * 2020-12-07 2021-03-19 深圳市优必选科技股份有限公司 多目标姿态估计方法、多目标姿态估计装置及终端设备
CN112633191A (zh) * 2020-12-28 2021-04-09 百果园技术(新加坡)有限公司 一种三维人脸重建的方法、装置、设备和存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
HYO-JEONG SO 等: "Little experience with ICT: Are they really the Net Generation student-teachers?", 《COMPUTERS & EDUCATION》 *
袁泽昊 等: "基于特征知识蒸馏的人体姿态估计", 《软件》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113920587A (zh) * 2021-11-01 2022-01-11 哈尔滨理工大学 基于卷积神经网络的人体姿态估计方法
CN113920587B (zh) * 2021-11-01 2022-05-17 哈尔滨理工大学 基于卷积神经网络的人体姿态估计方法
CN114283495A (zh) * 2021-12-16 2022-04-05 北京航空航天大学 一种基于二值化神经网络的人体姿态估计方法
CN114283495B (zh) * 2021-12-16 2024-05-28 北京航空航天大学 一种基于二值化神经网络的人体姿态估计方法
CN117636403A (zh) * 2024-01-26 2024-03-01 江苏源驶科技有限公司 一种基于知识蒸馏的人体姿态估计方法及系统
CN117636403B (zh) * 2024-01-26 2024-04-05 江苏源驶科技有限公司 一种基于知识蒸馏的人体姿态估计方法及系统

Also Published As

Publication number Publication date
CN113095251B (zh) 2022-05-27

Similar Documents

Publication Publication Date Title
CN111489358B (zh) 一种基于深度学习的三维点云语义分割方法
CN113095251B (zh) 一种人体姿态估计方法及系统
CN110598029B (zh) 基于注意力转移机制的细粒度图像分类方法
CN111626330A (zh) 基于多尺度特征图重构和知识蒸馏的目标检测方法与系统
CN112396002A (zh) 一种基于SE-YOLOv3的轻量级遥感目标检测方法
CN108805070A (zh) 一种基于嵌入式终端的深度学习行人检测方法
CN112036447B (zh) 零样本目标检测系统及可学习语义和固定语义融合方法
CN110059741A (zh) 基于语义胶囊融合网络的图像识别方法
CN112907602B (zh) 一种基于改进k-近邻算法的三维场景点云分割方法
US20230162522A1 (en) Person re-identification method of integrating global features and ladder-shaped local features and device thereof
CN110738146A (zh) 一种目标重识别神经网络及其构建方法和应用
CN107871106A (zh) 人脸检测方法和装置
CN109558862A (zh) 基于空间感知的注意力细化框架的人群计数方法及系统
CN112150493A (zh) 一种基于语义指导的自然场景下屏幕区域检测方法
CN113095254B (zh) 一种人体部位关键点的定位方法及系统
CN110705566B (zh) 一种基于空间金字塔池的多模态融合显著性检测方法
CN105574545B (zh) 街道环境图像多视角语义切割方法及装置
CN113032613B (zh) 一种基于交互注意力卷积神经网络的三维模型检索方法
CN113723366B (zh) 一种行人重识别方法、装置及计算机设备
CN115311502A (zh) 基于多尺度双流架构的遥感图像小样本场景分类方法
CN112329771A (zh) 一种基于深度学习的建筑材料样本识别方法
CN114492634B (zh) 一种细粒度装备图片分类识别方法及系统
CN115222754A (zh) 一种基于知识蒸馏和对抗学习的镜面图像分割方法
CN113435461A (zh) 一种点云局部特征提取方法、装置、设备及存储介质
CN108960005A (zh) 一种智能视觉物联网中对象视觉标签的建立及显示方法、系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant