CN109299685A - 用于人体关节3d坐标估计的推断网络及其方法 - Google Patents
用于人体关节3d坐标估计的推断网络及其方法 Download PDFInfo
- Publication number
- CN109299685A CN109299685A CN201811071839.9A CN201811071839A CN109299685A CN 109299685 A CN109299685 A CN 109299685A CN 201811071839 A CN201811071839 A CN 201811071839A CN 109299685 A CN109299685 A CN 109299685A
- Authority
- CN
- China
- Prior art keywords
- network
- hourglass
- coordinate
- rank
- estimation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明所述用于人体关节3D坐标估计的推断网络及其方法,将3D坐标估计作为离散化的3D空间姿态推断的关键点定位问题,并不直接回归关节3D坐标(x,y,z)而是训练CNN来预测该体积中每个关节的每个体素的可能性,从而形成一个3D的热力图,以期提高对于人体姿态估计的3D坐标数据准确性、降低直接回归关节点任务的非线性程度、提高学习效果。所述的推断网络是一种具有以n(n≥2)阶沙漏网络(Hourglass)为中心、m级(m≥2)级联的模型结构。
Description
技术领域
本发明涉及一种用于人体关节3D坐标估计的推断网络及其方法,属于虚拟现实技术领域。
背景技术
人体的3D姿态估计,是将人体的若干个关节(例如头部,肩部,肘部等)的3D位置精确地估算出来。由于失去了深度信息,从RGB的视频流中估计人体的3D关节点的位置是计算机视觉领域的一个很大挑战。
随着卷积神经网络(Convolutional Neural Networks,以下简称CNN)技术的发展,特别是在模式分类领域,由于该网络避免了对图像的复杂前期预处理,可以直接输入原始图像,因而得到了更为广泛的应用。
目前越来越多的计算机视觉方面的任务使用CNN来解决,现阶段基于深度学习的从RGB视频流中进行人体3D姿态估计的方法分为2个阶段:第一阶段,使用目标检测的深度学习框架从每一个帧的RGB图像中进行人体的目标检测,得到人体的边界框。之后将一个包含待估计的人体的图像剪切出来;第二阶段,将一个包含待检测人体的图像送入该阶段的网络中进行人体3D关节点的推断,最终得到人体中指定关节点的3D坐标。上述第二阶段的人体3D姿态估计的部分,主流的方法采用两步进行解决。即,首先,使用一个2D姿态估计的网络对输入图像进行人体2D姿态(不包含深度坐标)的推断;之后,根据2D姿态估计的结果进行3D姿态的推断,比如使用最邻近的方法在数据库中找到和2D姿态估计最为接近的3D姿态最为最后的预测结果等方法。
上述现有技术存在的缺陷是,在3D姿态估计阶段采用两段式的设计。在进行2D姿态估计的时候,网络不直接回归关节点的2D坐标,而是对于每一个关节点回归一个w*h的热力图来表示该关节点的2维平面的分布概率。如后附图1所示,正方形为输入的图像,使用沙漏形状的结构表示神经网络,长条方块部分表示的就是人体关节点的2D的热力图。从2D的关节点热力图可以直接得到关节点的坐标,即小圆形表示的结果。大圆形部分指的是人体的3D的关节点坐标。此类“非端到端”的设计会带来两个弊端:一是,会出现误差的累积。将一个任务拆分为两个阶段进行,每个阶段产生的误差会累积,在最终的结果表现上会造成更大的误差。二是,这种解决方案中,3D姿态估计的表现完全取决于2D的结果,这会使得丢失一部分信息。因为在进行2D姿态估计的时候,产生出来的中间结果也是十分有用的,这些中间的特征图在进行3D结果推断的时候可以起到辅助的作用。而现有技术使用的方法没有充分利用中间特征,造成最终的3D推断结果出现较大的误差。
有鉴于此,特提出本专利申请。
发明内容
本发明所述用于人体关节3D坐标估计的推断网络及其方法,其目的在于解决上述现有技术存在的问题而将3D坐标估计作为离散化的3D空间姿态推断的关键点定位问题,并不直接回归关节3D坐标(x,y,z)而是训练CNN来预测该体积中每个关节的每个体素的可能性,从而形成一个3D的热力图,以期提高对于人体姿态估计的3D坐标数据准确性、降低直接回归关节点任务的非线性程度、提高学习效果。
为实现上述发明目的,所述用于人体关节3D坐标估计的推断网络,是一种具有以n(n≥2)阶沙漏网络(Hourglass)为中心、m级(m≥2)级联的模型结构。
其中,一级推断网络,包括依次串联的卷积层、初级模块(Residual)、1/2池化层、3个连续的初级模块(Residual)、n阶沙漏网络(Hourglass)、2个连续的线性模块(linear)、卷积层;
所述m级推断网络是在(m-1)级推断网络的基础上并联一层跳级路,该跳级路依次串联有n阶沙漏网络(Hourglass)、2个连续的线性模块(linear)、卷积层;
在m级推断网络的跳级路中,n阶沙漏网络(Hourglass)的输入数据包括经串接和相加融合后的以下3组数据,即(m-1)级推断网络中n阶沙漏网络(Hourglass)的输入数据和输出数据、以及(m-1)级推断网络的输出数据。
基于上述推断网络的结构,本申请将多个网络组件堆叠在一起而不受维度问题的影响。在n阶沙漏网络(Hourglass)中,相邻两个阶段的推断过程,后一个阶段的输入不仅有上一个阶段的结果,还包含了上一个阶段的中间特征结果,这就使得网络推断的依据较为丰富,推断的结果更加全面,直接提升了最终的推断精度。
基于上述“端到端”结构的深度神经网络,其可去除误差的累积效应,同时通过此类体素表示方法可使用完全卷积的神经网络架构进行推断。与使用全连接层进行坐标回归或者姿态分类的推断结构相比较,上述全卷积的推断网络,使得网络的参数更少、计算量更小,效率更高,更重要的是预测的精度更好。
针对沙漏网络(Hourglass)的进一步优化与补充方案是,一阶沙漏网络(Hourglass)包括以下并联的结构:
上半路具有M输入通道和N输出通道的若干个初级模块;
下半路具有串联的降采样1/2池化层、若干个初级模块、升采样最近邻插值模块;
n(n≥2)阶沙漏网络具有以下结构:
将(n-1)阶沙漏网络下半路的任一初级模块替换为(n-1)阶沙漏网络,其他的上、下半路结构与(n-1)阶沙漏网络相同。
具体地,上半路将M个通道的数据提取得到N通道的数据。在串联的若干个初级模块中,两个相邻的初级模块,后一个初级模块的输入通道数总是等于前一个初级模块的输出通道数。
下半路同样将M个通道的数据提取得到N通道的数据,不同的是在原本输入一半的尺寸上进行的,即串联有降采样1/2池化层、初级模块和升采样最近邻插值模块。
在n阶沙漏网络中,是将(n-1)阶沙漏网络(Hourglass)下半路中的初级模块替换为(n-1)阶沙漏网络,通过将该初级模块替换为一个新的沙漏网络,将n-1阶沙漏网络扩增为n阶沙漏网络。
针对所应用的核心与基础内容的初级模块(Residual),有如下优选方案:
所述的初级模块(Residual),具有M通道输入和N通道输出。其包括有以下并联的结构:
第一行为卷积路,由三个核尺度不同的卷积层串联构成;
第二行为跳级路,包含一个核尺度为1、输入与输出通道数相同的卷积层。
基于相同的设计构思,在应用上述用于人体关节3D坐标估计的推断网络的基础上,本申请还同时实现了一种新的用于人体关节3D坐标估计的推断方法。
具体地,包括以下实施步骤:
(1)将视频流的每一帧图像送入YOLO目标检测网络中,进行人体的边界框检测,并在原图像中将人体所在的边界框剪切出来;
(2)将在上一步得到的边界框图像送入所述的推断网络中,输入为H*W*3的图像,进行人体关节3D坐标态估计,得到推断结果输出为h*w*K的热力图。
上述YOLO(You Only Look Once,以下简称YOLO)目标检测,是一个可以一次性预测多个Box位置和类别的卷积神经网络,其能够实现端到端的、实时的目标检测和识别。
优选地,采用的YOLO目标检测网络版本为2.0。
综上内容,用于人体关节3D坐标估计的推断网络及其方法具有以下优点:
1、有效地降低了从“特征空间”到“3D姿态空间”学习任务的非线性程度,实现了一种科学的表示方法与学习方法。
2、实现了一种进行人体3D姿态估计的“端到端”的深度学习网络,进行人体关节点3D推断过程中避免了累积误差的产生。
3、实现最大化地利用神经网络的中间特征,将不同尺度、维度的特征结合起来,产生出最佳的推断效果。
4、直接减小了计算量,使得最终的推断效果达到实时性的要求,实用性较强。
附图说明
图1是现有技术中两段式推断方法示意图;
图2是本申请所述体积表示方式生成热力图的示意;
图3是本申请所述由粗到细预测方案的示意图;
图4是所述初级模块(Residual)的结构示意图;
图5是一阶沙漏网络(Hourglass)的结构示意图;
图6是二阶沙漏网络(Hourglass)的结构示意图;
图7是一级推断网络的结构示意图;
图8是二级推断网络的结构示意图;
具体实施方式
下面结合附图和实施示例对本发明作进一步详细地描述。
如图1所示,现有技术在3D姿态估计过程中采用两段式设计,即先估计人体的2D坐标,之后在采用其他方法完成2D关节点到3D的推断。
在进行2D姿态估计的时候,网络不直接回归关节点的2D坐标,而是对于每一个关节点回归一个w*h的热力图来表示该关节点的2维平面的分布概率。
这种非端到端的现有技术既会出现误差的累积,又未充分地利用中间特征而造成最终的3D推断结果出现较大的误差。
实施例1,如图2所示,为充分利用CNN在3D人体姿势估计的价值,本申请将3D姿态估计作为离散化3D空间中的关键点定位问题。
在人体2D姿态估计当中,对于神经网络的输出结构进行迭代处理,在多个处理阶段产生预测。这些中间的预测结果,会逐渐完善以产生更加准确的估计结果。
“沙漏网络”就是这种设计结构,其采用级联的方案多次预测结果,逐步修正结果。
在本申请的3D姿态估计中,设计出一种由“粗”到“精”的预测方案。
假如对于具有16个关节点的64×64×64的最高3D分辨率,需要估计多于400万个体素的可能性。为了解决分辨率较大的问题,本申请所采用的预测方案,是在网络预测的早期预测一个较为低分辨率的z维度结果作为网络的输出。准确地说,即可使用每个关节点尺寸为64×64×d的目标,其中d通常取集合{1,2,4,8,16,32,64}中的值。
具体地,如图3所示,将多个网络组件堆叠在一起而不受维度问题的影响。
直观上来说,在网络的早期阶段是一个较为简单的预测任务。在之后,网络的复杂性会逐步增加。这会推迟较为困难的决策,直到最后的处理阶段,所有的可用信息都经过处理和整理,这样进行最后的决策精度是非常有用的。
在’沙漏网络’网络中相邻的两个阶段的推断过程中,后一个阶段的输入不仅有上一个阶段的结果,还包含了上一个阶段的中间特征结果,这就使得网络的推断的依据较为丰富,推断的结果更加的全面,提升了最终的推断精度。
本申请所述用于人体关节3D坐标估计的推断方法,包括有以下实施步骤:
(1)将视频流的每一帧图像送入YOLO目标检测网络中,进行人体的边界框检测,并在原图像中将人体所在的边界框剪切出来;
(2)将在上一步得到的边界框图像送入所述的推断网络中,输入为H*W*3的图像,进行人体关节3D坐标态估计,得到推断结果输出为h*w*K的热力图。
其中,采用的YOLO目标检测网络版本为2.0。
在上述第(1)步骤中,YOLO目标检测网络V2.0使用了一个新的分类网络作为特征提取部分。比如,类似于VGG,使用了较多的3*3卷积核,在每一次池化操作后把通道数翻倍。也可借鉴network in network的设计构思,使用全局平均池化(global averagepooling),把1*1的卷积核置于3*3的卷积核之间,用来压缩特征。另外,也可采用batchnormalization稳定模型训练,最终得出的基础模型就是Darknet-19。如以表1所示,在表中包含有19个卷积层、5个最大值池化层(maxpooling layers)。
在上述第(2)步骤中,采用由“粗”到“精”的体素表达模型,以进行人体3D姿态估计。
如图4所示,所述的初级模块(Residual Module),是一个具有M通道的特征图,输出的是一个具有N通道的特征图。
第一行为卷积路,由三个核尺度不同的卷积层,圆角矩形表示为一个卷积操作,其中的文字写明了该卷积操作的参数,共分为3行,分别是输入特征的通道数,卷积核的尺寸以及输出特征的通道数;
第二行为跳级路,只包含一个核尺度为1的卷积层;跳级路的输入输出通道数相同,这一路为单位映射。
所有卷积层的步长为1,pading为0,不改变数据长和宽尺寸,只对数据深度(channel)进行变更。
上述初级模块(Residual Module),可由两个参数控制:输入深度M和输出深度N,实现对任意尺寸图像的操作。
初级模块(Residual Module),提取了较高层次的特征(卷积路),同时保留了原有层次的信息(跳级路),其可以看做是一个保尺寸的高级“卷积”层。
沙漏网络(Hourglass)是本申请推断网络的核心部件,由若干个初级模块(Residual)组成。
如图5所示,一阶沙漏网络(Hourglass)的输入是M通道的特征图,输出是N通道的特征图。其上半路包含3个串联的初级模块(Residual),两个相邻的初级模块中,后一个初级模块的输入通道数总是等于前一个初级模块的输出通道数,以逐步提取更深层次特征。
下半路同样将M个通道的数据提取得到N通道的数据,不同的是在原本输入一半的尺寸上进行的。具有串联的降采样1/2池化层、5个初级模块、升采样最近邻插值模块。
具体地,上半路在原尺度进行,下半路经历了先降采样(带有/2字样的矩形)再升采样(带有*2的矩形)的过程。
其中,降采样模块使用最大池化,升采样模块使用最近邻插值。
一阶沙漏网络(Hourglass),通过将输入的M通道的特征图分成两路处理。其中一个支路,是在原始的尺度上进行;另外一路,是在一个较低尺度上进行,最后在各自的支路上处理完毕之后进行融合。使得神经网络具有较高的识别和表达能力,能够对不同尺度的特征信息进行较好的甄选,以便提取到影响最终结果的本质特征。
如图6所示,二阶沙漏网络(Hourglass),是一阶沙漏网络(Hourglass)的虚线框部分替换成一个一阶沙漏网络(输入通道256,输出通道N)。
即二阶沙漏网络(Hourglass),是将一阶沙漏网络(Hourglass)的下半路中的第4个初级模块替换为一阶沙漏网络(Hourglass)。
在二阶沙漏网络(Hourglass)中,下半路组成了两次降采样,再两次升采样的过程。
二阶沙漏网络(Hourglass),在降采样的支路上进行了最大相对于原始数据尺寸为1/4的降采样,相对于一阶沙漏网络(Hourglass)更加凸显了尺度信息的差异性。
为了进一步增加综合不同尺度的信息,本申请可采取n阶沙漏网络(Hourglass),即经历最多n次的降采样,而每次降采样之前,分出上半路保留原尺度信息;每次升采样之后,和上一个尺度的数据相加;两次降采样之间,使用三个初级模块提取特征;在两次相加之间,使用一个初级模块(Residual)提取特征。即n阶沙漏网络(Hourglass),可提取从原始尺度到1/2n尺度的中间特征。
n(n≥2)阶沙漏网络,是将(n-1)阶沙漏网络下半路的一个初级模块替换为(n-1)阶沙漏网络,其他的上、下半路结构与(n-1)阶沙漏网络相同。
对于n阶与(n-1)阶沙漏网络来说,下半路被替换的初级模块位置可以相同,也可以不相同。在本实施例中,n阶与(n-1)阶沙漏网络的下半路被替换的初级模块均是第4个。
本申请所述的推断网络,以n阶沙漏网络(Hourglass)为中心,可从输入的RGB图像预测K个人体关节点的热力图,输入为H*W*3的图像,输出为h*w*K的热力图。
如图7所示的一级推断网络,输入的图像大小是256*256*3的,先经过一个7*7,步长为2的卷积层,输出为64通道;之后,经过一个初级模块(Residual),输出为128通道;紧跟着一个1/2池化层;最后连续进行3个初级模块(Residual),输出的特征图大小为64*64*256。
在一级推断网络中,对n阶沙漏网络的输出,经过两个卷积核大小为1*1,步长为1的卷积层操作(图8中标注为,即线性模块linear),得到64*64*256的特征图;最后经过一个卷积核大小为1*1,步长为1的卷积层操作,就得到了最终输出,即即K个关节点的热力图。
如图8所示的二级推断网络,重复了一级推断网络的后半部结构。具体地,
第二个n阶沙漏网络的输入包含以下三路:
第一个n阶沙漏网络的输入数据,第一个n阶沙漏网络的的输出数据、以及上述一级推断网络的最终预测结果;
这三路数据通过串接和相加进行融合,它们的尺度不同,将不同层次的特征融合起来,输入到下一阶段的网络,从而能够增加整体推断的精度。
理论上来说,我们可以使用m级n阶沙漏网络进行级联,来作为最终的推断网络模型。其中,m的选择根据选用何种尺寸的体素表达来决定,我们给出m的合理范围在1到6之间。
在上述用于人体关节3D坐标估计的推断网络及其方法中,为改善网络结构本申请提出3D人体姿态的体积表示方式。
人体对象周围的体积在每个维度上均匀离散化。对于每个关节点,可创建一个大小为w*h*d的体积。在本申请中,深度方向的分辨率即d的选择是64。如果想要更加精细的深度估计,可以选用更加大的深度分辨率。
一个简单的做法是对于m个阶段的每个沙漏网络(Hourglass)关节点的输出热力图深度分辨率都选用d,但是这样做会造成比较大的计算开销,需要采用一种由粗到精的预测方法。
在第i阶段(1<=i<=m)的输出关节点的热力图的尺寸为w*h*d(i),在我们的方法中第i阶段的输出关节点的热力图深度分辨率d(i)为d/2(m-i)。举一个具体的例子来说,假设深度分辨率最大为64,那么在第1-6阶段的输出的深度分辨率分别为2,4,8,16,32,64。此类方法的优点有,一是这样可以大幅度的减少网络的参数和计算量,做到效率的提升;二是在网络的前期阶段,只要网络在关节点的深度预测上作出一个大概范围的推断,对于更加精确的深度信息推断在后期进行,并且在网络的第m阶段也就是最后一阶段达到最高的深度分辨率的输出,即此时达到了最为精准的推断。
在后期进行较为精准的推断是合理的,因为网络前期提取的特征可能不够精准,随着网络的加深,网络提取的特征得到了综合,此时的特征用来进行最终的精确推断是合理的。这就是,上述由粗到精估计方法对于提升精确度最突出的优点。
如用表示关节n在体素(i,j,k)中的预测可能性。为了训练这个网络,Groundtruth也是以体积形式提供的。每个关节的Groundtruth是一个三维高斯的体积分布,三维网格中关节点n在(x,y,z)处的Groundtruth使用如下公式计算:
在本申请中,可将σ=2。
在训练过程中,使用均方误差损失作为损失函数。具体地,
上述函数的输出结果是三维的,即w×h×dN。
每个关节3D网格中具有最大响应的体素被选为该关节的3D位置。因为3D的结果不方便使用图像化的方法去表示,因此借用如以下表2所示的2D的网络输出,以说明如何根据网络的输出的某个关节点的热力图(Heatmap)来得到最终的预测坐标。
0.0 | 0.0 | 0.0 | 0.0 | 0.0 |
0.0 | 0.1 | 0.2 | 0.3 | 0.25 |
0.0 | 0.15 | 0.25 | 0.8 | 0.6 |
0.0 | 0.22 | 0.31 | 0.55 | 0.4 |
0.0 | 0.0 | 0.0 | 0.0 | 0.0 |
在上表中,一个5×5的2D热力图(Heatmap),可以看到位于第3行第4列的响应值为0.8,该值是所有位置响应值中的最大值。
因此,该2D热力图(Heatmap)对应的关节点的位置(x,y)为(4,3)。对于一个3D的大小为w×h×d的热力图(Heatmap),可以使用同样的方法得到最大响应值对应的坐标(x,y,z),其中x,y,z分别满足,1<=x<=w,1<=y<=h,1<=z<=d。
综上,使用了YOLO的快速目标检测算法,对视频的每一帧进行高效率的人体检测,并且送到人体关节点检测网络中进行检测,在关节点检测网络中采用了一个由粗到精的预测结果,减少了计算量,提高了速度,最终达到实时性的人体关节点的检测。
在关节点的检测网络中使用了体素的表达方法,能够量化以人体为中心的坐标以便进行关节点的检测,达到了更好的精度。
应当理解的是,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,而所有这些改进和变换都应属于本发明所附权利要求的保护范围。
Claims (5)
1.一种用于人体关节3D坐标估计的推断网络,其特征在于:具有以n(n≥2)阶沙漏网络(Hourglass)为中心、m级(m≥2)级联的模型结构;
一级推断网络,包括依次串联的卷积层、初级模块(Residual)、1/2池化层、3个连续的初级模块(Residual)、n阶沙漏网络(Hourglass)、2个连续的线性模块(linear)、卷积层;
所述m级推断网络是在(m-1)级推断网络的基础上并联一层跳级路,该跳级路依次串联有n阶沙漏网络(Hourglass)、2个连续的线性模块(linear)、卷积层;
在m级推断网络的跳级路中,n阶沙漏网络(Hourglass)的输入数据包括经串接和相加融合后的以下3组数据,即(m-1)级推断网络中n阶沙漏网络(Hourglass)的输入数据和输出数据、以及(m-1)级推断网络的输出数据。
2.根据权利要求1所述的用于人体关节3D坐标估计的推断网络,其特征在于:
一阶沙漏网络包括以下并联的结构,
上半路具有M输入通道和N输出通道的若干个初级模块;
下半路具有串联的降采样1/2池化层、若干个初级模块、升采样最近邻插值模块;
所述的n(n≥2)阶沙漏网络,是将(n-1)阶沙漏网络下半路的任一初级模块替换为(n-1)阶沙漏网络。
3.根据权利要求2所述的用于人体关节3D坐标估计的推断网络,其特征在于:所述的初级模块,具有M通道输入和N通道输出;
初级模块包括以下并联的结构,
第一行为卷积路,由三个核尺度不同的卷积层串联构成;
第二行为跳级路,包含一个核尺度为1、输入与输出通道数相同的卷积层。
4.如权利要求1至3所述用于人体关节3D坐标估计的推断网络的推断方法,其特征在于:包括以下实施步骤,
(1)将视频流的每一帧图像送入YOLO目标检测网络中,进行人体的边界框检测,并在原图像中将人体所在的边界框剪切出来;
(2)将在上一步得到的边界框图像送入所述的推断网络中,输入为H*W*3的图像,进行人体关节3D坐标态估计,得到推断结果输出为h*w*K的热力图。
5.根据权利要求4所述的用于人体关节3D坐标估计的推断方法,其特征在于:采用的YOLO目标检测网络版本为2.0。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811071839.9A CN109299685A (zh) | 2018-09-14 | 2018-09-14 | 用于人体关节3d坐标估计的推断网络及其方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811071839.9A CN109299685A (zh) | 2018-09-14 | 2018-09-14 | 用于人体关节3d坐标估计的推断网络及其方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109299685A true CN109299685A (zh) | 2019-02-01 |
Family
ID=65166918
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811071839.9A Pending CN109299685A (zh) | 2018-09-14 | 2018-09-14 | 用于人体关节3d坐标估计的推断网络及其方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109299685A (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110705563A (zh) * | 2019-09-07 | 2020-01-17 | 创新奇智(重庆)科技有限公司 | 一种基于深度学习的工业零件关键点检测方法 |
CN110807380A (zh) * | 2019-10-22 | 2020-02-18 | 北京达佳互联信息技术有限公司 | 一种人体关键点检测方法及装置 |
CN110969138A (zh) * | 2019-12-10 | 2020-04-07 | 上海芯翌智能科技有限公司 | 人体姿态估计方法及设备 |
CN111062981A (zh) * | 2019-12-13 | 2020-04-24 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置及存储介质 |
CN111062326A (zh) * | 2019-12-02 | 2020-04-24 | 北京理工大学 | 一种基于几何驱动的自监督人体3d姿态估计网络训练方法 |
CN111260774A (zh) * | 2020-01-20 | 2020-06-09 | 北京百度网讯科技有限公司 | 生成3d关节点回归模型的方法和装置 |
CN111523379A (zh) * | 2020-03-11 | 2020-08-11 | 浙江工业大学 | 一种3d人体姿态估计模型训练方法 |
CN112233161A (zh) * | 2020-10-15 | 2021-01-15 | 北京达佳互联信息技术有限公司 | 手部图像深度确定方法、装置、电子设备及存储介质 |
CN112330730A (zh) * | 2020-11-27 | 2021-02-05 | 北京百度网讯科技有限公司 | 图像处理方法、装置、设备及存储介质 |
WO2021248814A1 (zh) * | 2020-06-13 | 2021-12-16 | 德派(嘉兴)医疗器械有限公司 | 一种鲁棒的家庭儿童学习状态视觉监督方法及装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107492121A (zh) * | 2017-07-03 | 2017-12-19 | 广州新节奏智能科技股份有限公司 | 一种单目深度视频的二维人体骨骼点定位方法 |
CN107495971A (zh) * | 2017-07-27 | 2017-12-22 | 大连和创懒人科技有限公司 | 基于骨架识别的患者发病报警医疗系统及其检测方法 |
CN107886089A (zh) * | 2017-12-11 | 2018-04-06 | 深圳市唯特视科技有限公司 | 一种基于骨架图回归的三维人体姿态估计的方法 |
-
2018
- 2018-09-14 CN CN201811071839.9A patent/CN109299685A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107492121A (zh) * | 2017-07-03 | 2017-12-19 | 广州新节奏智能科技股份有限公司 | 一种单目深度视频的二维人体骨骼点定位方法 |
CN107495971A (zh) * | 2017-07-27 | 2017-12-22 | 大连和创懒人科技有限公司 | 基于骨架识别的患者发病报警医疗系统及其检测方法 |
CN107886089A (zh) * | 2017-12-11 | 2018-04-06 | 深圳市唯特视科技有限公司 | 一种基于骨架图回归的三维人体姿态估计的方法 |
Non-Patent Citations (3)
Title |
---|
GUANGHAN NING等: "Knowledge-Guided Deep Fractal Neural Networks for Human Pose Estimation", 《 IEEE TRANSACTIONS ON MULTIMEDIA 》 * |
LINGFEI ZHU等: "Human Pose Estimation Based on Deep Neural network", 《LANGUAGE AND IMAGE PROCESSING (ICALIP)》 * |
储彬彬: "基于深度学习的人类行为分析技术的研究与实现", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110705563B (zh) * | 2019-09-07 | 2020-12-29 | 创新奇智(重庆)科技有限公司 | 一种基于深度学习的工业零件关键点检测方法 |
CN110705563A (zh) * | 2019-09-07 | 2020-01-17 | 创新奇智(重庆)科技有限公司 | 一种基于深度学习的工业零件关键点检测方法 |
CN110807380A (zh) * | 2019-10-22 | 2020-02-18 | 北京达佳互联信息技术有限公司 | 一种人体关键点检测方法及装置 |
CN110807380B (zh) * | 2019-10-22 | 2023-04-07 | 北京达佳互联信息技术有限公司 | 一种人体关键点检测方法及装置 |
CN111062326B (zh) * | 2019-12-02 | 2023-07-25 | 北京理工大学 | 一种基于几何驱动的自监督人体3d姿态估计网络训练方法 |
CN111062326A (zh) * | 2019-12-02 | 2020-04-24 | 北京理工大学 | 一种基于几何驱动的自监督人体3d姿态估计网络训练方法 |
CN110969138A (zh) * | 2019-12-10 | 2020-04-07 | 上海芯翌智能科技有限公司 | 人体姿态估计方法及设备 |
CN111062981B (zh) * | 2019-12-13 | 2023-05-05 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置及存储介质 |
CN111062981A (zh) * | 2019-12-13 | 2020-04-24 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置及存储介质 |
CN111260774A (zh) * | 2020-01-20 | 2020-06-09 | 北京百度网讯科技有限公司 | 生成3d关节点回归模型的方法和装置 |
CN111523379A (zh) * | 2020-03-11 | 2020-08-11 | 浙江工业大学 | 一种3d人体姿态估计模型训练方法 |
WO2021248814A1 (zh) * | 2020-06-13 | 2021-12-16 | 德派(嘉兴)医疗器械有限公司 | 一种鲁棒的家庭儿童学习状态视觉监督方法及装置 |
CN112233161A (zh) * | 2020-10-15 | 2021-01-15 | 北京达佳互联信息技术有限公司 | 手部图像深度确定方法、装置、电子设备及存储介质 |
CN112233161B (zh) * | 2020-10-15 | 2024-05-17 | 北京达佳互联信息技术有限公司 | 手部图像深度确定方法、装置、电子设备及存储介质 |
CN112330730A (zh) * | 2020-11-27 | 2021-02-05 | 北京百度网讯科技有限公司 | 图像处理方法、装置、设备及存储介质 |
CN112330730B (zh) * | 2020-11-27 | 2024-02-20 | 北京百度网讯科技有限公司 | 图像处理方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109299685A (zh) | 用于人体关节3d坐标估计的推断网络及其方法 | |
CN109271933A (zh) | 基于视频流进行三维人体姿态估计的方法 | |
Gyulassy et al. | Efficient computation of Morse-Smale complexes for three-dimensional scalar functions | |
CN111401436B (zh) | 一种融合网络和双通道注意力机制的街景图像分割方法 | |
CN103325061B (zh) | 一种社区发现方法和系统 | |
CN110288695A (zh) | 基于深度学习的单帧图像三维模型表面重建方法 | |
CN102521843B (zh) | 一种基于流形学习的三维人体运动分析与合成方法 | |
CN110188733A (zh) | 基于3d区域卷积神经网络的时序行为检测方法及系统 | |
CN114998548B (zh) | 一种图像重建的方法和系统 | |
JP2020109659A (ja) | 編集可能なフィーチャツリーの推測のためにニューラルネットワークを学習すること | |
JP2020109660A (ja) | 編集可能なフィーチャツリーの推測のためのデータ集合を形成すること | |
CN114663509B (zh) | 一种关键点热力图引导的自监督单目视觉里程计方法 | |
CN111028335B (zh) | 一种基于深度学习的点云数据的分块面片重建方法 | |
CN113449735A (zh) | 一种超像素分割的语义分割方法及装置 | |
CN110991317A (zh) | 一种基于多尺度透视感知型网络的人群计数方法 | |
Chen et al. | Density-imbalance-eased lidar point cloud upsampling via feature consistency learning | |
CN105045906A (zh) | 投放信息点击率的预估方法和装置 | |
CN109190800A (zh) | 一种基于spark框架的海面温度预测方法 | |
CN113256543A (zh) | 一种基于图卷积神经网络模型的点云补全方法 | |
Son et al. | Partial convolutional LSTM for spatiotemporal prediction of incomplete data | |
CN110532868B (zh) | 一种预测自由空间语义边界的方法 | |
CN107492129A (zh) | 基于素描表示和结构化聚类的非凸压缩感知优化重构方法 | |
KR101063827B1 (ko) | 한국토지정보시스템 연속지적도와 수치지형도의 기하학적 지도 변환을 위한 반자동화된 공액점 쌍 추출방법 | |
CN107464272A (zh) | 基于关键点的中心扩散式气象传真图等值线的插值方法 | |
CN107424122A (zh) | 一种大位移下形变辅助的图像插补方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190201 |
|
RJ01 | Rejection of invention patent application after publication |