CN110008915A - 基于掩码-rcnn进行稠密人体姿态估计的系统及方法 - Google Patents
基于掩码-rcnn进行稠密人体姿态估计的系统及方法 Download PDFInfo
- Publication number
- CN110008915A CN110008915A CN201910289577.1A CN201910289577A CN110008915A CN 110008915 A CN110008915 A CN 110008915A CN 201910289577 A CN201910289577 A CN 201910289577A CN 110008915 A CN110008915 A CN 110008915A
- Authority
- CN
- China
- Prior art keywords
- human body
- mask
- module
- characteristic pattern
- attitude estimation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/64—Three-dimensional objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Social Psychology (AREA)
- Psychiatry (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及人体姿态估计技术,其公开了一种基于掩码‑RCNN进行稠密人体姿态估计的系统及方法,解决传统技术在实例分割时,存在的由于目标检测框包含多个目标而无法精准进行稠密人体姿态估计的问题。本发明中的系统包括:目标检测模块,用于获取精确的目标检测框;语义分割模块,用于对目标检测框的检测对象进行语义分割,获得语义分割掩码;实例分割模块,用于对语义分割掩码进行处理获得人体实例分割掩码;稠密姿态估计模块,用于建立RGB图像与3D人体表面模型的关系,并输出人体部件索引和3D模型上的UV坐标,从而将RGB图像上的纹理信息映射到3D人体表面模型上。本发明适用于各种场景下的稠密人体姿态估计。
Description
技术领域
本发明涉及人体姿态估计技术,具体涉及一种基于掩码-RCNN进行稠密人体姿态估计的系统及方法。
背景技术
在对图片中的人体个体级别分析方面,较早的方法如Vitruvian-Manifold[1]通过深度图的方式对人体进行姿态估计,而目前最新的方法则采用掩码-RCNN[2]作为基本框架,将其生成的目标检测框作为输入进行进一步分割以及稠密像素点估计,如DensePose[3]。
然而在自然环境下,对于实例分割来说,目标检测框并不能完全准确地检测有且仅有一个目标,因为自然环境下的图片包含各种复杂情况,这使得目标检测框总是会包含多个目标,其中这些目标有的很小,有的重叠在一起,有的背景十分复杂,有的大小比例各不相同。
因此,传统技术存在着目标检测框包含多个目标无法精准进行稠密人体姿态估计的问题。
参考文献:
[1]Taylor J,Shotton J,Sharp T,et al.The Vitruvian Manifold:InferringDense Correspondences for One-Shot Human Pose Estimation[C]//IEEE ComputerVision and Pattern Recognition.IEEE,2012.
[2]He K,Gkioxari G,Dollar P,et al.Mask R-CNN.[J].IEEE Transactions onPattern Analysis&Machine Intelligence,2017,PP(99):1-1.
[3]Güler R A,Neverova N,Kokkinos I.DensePose:Dense Human PoseEstimation In The Wild[J].2018.
[4]Lin T Y,Dollár,Piotr,Girshick R,et al.Feature Pyramid Networks forObject Detection[J].2016.
[5]Ren S,He K,Girshick R,et al.Faster R-CNN:towards real-time objectdetection with region proposal networks[J].2015.
[6]Newell A,Yang K,Jia D.Stacked Hourglass Networks for Human PoseEstimation[J].2016.
[7]Güler,R1za Alp,Trigeorgis G,Antonakos E,et al.DenseReg:FullyConvolutional Dense Shape Regression In-the-Wild[J].2016.
发明内容
本发明所要解决的技术问题是:提供一种基于掩码-RCNN进行稠密人体姿态估计的系统及方法,解决传统技术在实例分割时,存在的由于目标检测框包含多个目标而无法精准进行稠密人体姿态估计的问题。
本发明解决上述技术问题所采用的技术方案是:
基于掩码-RCNN进行稠密人体姿态估计的系统,包括:
目标检测模块,用于获取精确的目标检测框,其包括两个串行的均包括1024个通道的全连接层以及紧接的两个并行的分别包括2个通道的和8个通道的全连接层;
语义分割模块,用于对目标检测框的检测对象进行语义分割,获得语义分割掩码,其包括用于产生一个特征图的4个连续的3*3卷积层以及用于对产生的特征图进行线性上采样的两个4*4反卷积层,在两个4*4反卷积层后还连接有用于调整上采样得到的热力图的通道数的维度分别为3*3和1*1的两个卷积层;
实例分割模块,用于对语义分割掩码进行处理获得人体实例分割掩码,其包括4个连续的3*3卷积层以及紧接的上采样模块,所述上采样模块包括两个4*4反卷积层;
稠密姿态估计模块,用于建立RGB图像与3D人体表面模型的关系,并输出人体部件索引和3D人体表面模型上的UV坐标,从而将RGB图像上的纹理信息映射到3D人体表面模型上;其包括8个串行的3*3卷积层以及3个并行的输出部件,所述3个并行的输出部件分别用于输出3D人体部件的索引,3D人体部件上的U坐标和V坐标。
作为进一步优化,所述目标检测模块以小特征图作为输入,所述小特征图的获取方法为:
采用特征金字塔网络结构作为基本网络,从输入图片中提取出一个特征图,输入到感兴趣区排列池化层中,通过池化操作从特征图中的感兴趣区域提取出低维度的小特征图。
作为进一步优化,所述通过池化操作从特征图中的感兴趣区域提取出低维度的小特征图具体包括:在感兴趣区映射到特征图后,将候选区域分割成n*n个单元,在每个单元上固定4个点,分别用双线性插值计算出每个点的位置,然后再进行最大池化操作。
作为进一步优化,所述目标检测模块,在训练时分别使用一个像素级别的交叉熵损失函数用于对人的分类以及使用一个Smooth L1Loss函数(平滑的L1损失函数)用于目标检测框的回归计算。
作为进一步优化,所述语义分割模块,在训练时通过定义语义分割损失函数通过将图片中所有的人当成前景来对整个网络进行中继监督,最后输出语义分割掩码。
作为进一步优化,所述实例分割模块,在训练时分别最小化两个像素级别的交叉熵函数损失函数得到语义分割掩码和实例分割掩码,其中实例分割损失函数把语义分割掩码中指定的人当成前景,其他人当成背景,分别生成人体实例分割掩码。
作为进一步优化,所述稠密姿态估计模块,在训练时使用像素级交叉熵损失函数进行部件分类来得到3D人体部件索引,并训练两个平滑的Smooth L1Loss函数得到U坐标和V坐标。
此外,本发明还提供了一种应用于上述系统中的基于掩码-RCNN进行稠密人体姿态估计的方法,其包括以下步骤:
a.从输入图片中提取出一个特征图,输入到感兴趣区排列池化层中,通过池化操作从特征图中的感兴趣区域提取出低维度的小特征图;
b.将所述低维度的小特征图输入至目标检测模块,获取精确的目标检测框;
c.语义分割模块对目标检测框的检测对象进行语义分割,获得语义分割掩码;
d.实例分割模块对语义分割掩码进行处理获得人体实例分割掩码;
e.稠密姿态估计模块建立RGB图像与3D人体表面模型的关系,并输出人体部件索引和3D模型上的UV坐标,然后将人体实例分割掩码和人体部件索引以及UV坐标进行结合获得3D人体表面模型的表面坐标。
作为进一步优化,步骤a中,所述通过池化操作从特征图中的感兴趣区域提取出低维度的小特征图具体包括:在感兴趣区映射到特征图后,将候选区域分割成n*n个单元,在每个单元上固定4个点,分别用双线性插值计算出每个点的位置,然后再进行最大池化操作。
作为进一步优化,步骤e中,所述稠密姿态估计模块建立RGB图像与3D人体表面模型的关系,并输出人体部件索引和3D模型上的UV坐标具体包括:
将人体结构分为24个独立的部件,并使用局部二维坐标系对每个部件进行参数化:首先,将一个像素点归类为背景或者24个3D人体部件中的一个,进行初步粗略的像素点位置估计;然后,利用两个Smooth L1Loss函数回归得到每个部件中像素点的确切UV坐标,如果像素点在某个人体部件中,则仅考虑该部件的回归损失。
本发明的有益效果是:
(1)在原始DensePose-RCNN结构基础上运用了级联思想,有效地建立了一个RGB图像与3D人体表面模型的关系,并输出人体部件索引和3D模型上的UV坐标。这样就能将RGB图像上的纹理信息准确地映射到3D人体模型上,增加3D物体的真实感。
(2)结合语义分割模块和实例分割模块的结果,利用中继监督的思想有效地解决了多人同框的问题,从而提高检测精度,即使输入图片包含各种复杂的场景以及比例跨度大的目标,本发明依然能通过结合人体实例级别的细节信息,改善最终整体准确率甚至是小目标准确率。
附图说明
图1为本发明实施例中的网络结构框图。
具体实施方式
本发明旨在提供一种基于掩码-RCNN进行稠密人体姿态估计的系统及方法,解决传统技术在实例分割时,存在的由于目标检测框包含多个目标而无法精准进行稠密人体姿态估计的问题。其基本思想是通过在稠密人体姿态估计-RCNN基本框架的基础上,采用级联的思想增加一个全卷积层的结构,对得到的目标检测框进行中继监督,通过有效地从一个目标检测框中分割多个目标来解决多人同框的问题,以实现稠密人体姿态估计。
实施例:
本实施例中的基于掩码-RCNN进行稠密人体姿态估计的系统,包括:目标检测模块、语义分割模块、实例分割模块和稠密姿态估计模块;具体的,
目标检测模块,用于获取精确的目标检测框,其包括两个串行的通道数为1024的全连接层以及紧接的两个并行的通道数分别为2和8的全连接层;
语义分割模块,用于对目标检测框的检测对象进行语义分割,获得语义分割掩码,其包括用于产生一个特征图的4个连续的3*3卷积层以及用于对产生的特征图进行线性上采样的两个4*4反卷积层,在两个4*4反卷积层后还连接有用于调整上采样得到的热力图的通道数的维度分别为3*3和1*1的两个卷积层;
实例分割模块,用于对语义分割掩码进行处理获得人体实例分割掩码,其包括4个连续的3*3卷积层以及紧接的上采样模块,所述上采样模块包括两个4*4反卷积层;
稠密姿态估计模块,用于建立RGB图像与3D人体表面模型的关系,并输出人体部件索引和3D模型上的UV坐标,从而将RGB图像上的纹理信息映射到3D人体表面模型上;其包括8个串行的3*3卷积层以及3个并行的输出部件,所述3个并行的输出部件分别用于输出3D人体部件的索引,3D人体部件上的U坐标和V坐标。
应用上述系统实现稠密人体姿态估计的所采用的网络结构如图1所示,首先,特征金字塔网络结构[4](FCN)作为本发明的基本网络,被用于从输入图片中提取出一个特征图,被提取的特征图包含一些来自输入图片不同比例大小目标的细节信息。接着特征图将被输入到感兴趣区排列(RoIAlign)池化层中[2]。传统的感兴趣区池化(RoIPooling)操作[5]是根据候选框的位置坐标在特征图中将对应区域池化成固定尺寸的特征图,该操作会进行两次浮点数取整的量化过程,而对于小目标检测,这一过程会造成一定的误差。而本发明在RoIAlign层通过移除所有粗略的量化过程并使用双线性插值的方法获取坐标为浮点数的像素点上的数值,最终提取出一个小特征图如维度为7*7,具体做法是:在感兴趣区映射到特征图后,不再对浮点数边缘进行四舍五入。而是将候选区域分割成n*n个单元,在每个单元上固定4个点,分别用双线性插值计算出每个点的位置,然后再进行最大池化操作,这样就达到了输入与输出之间像素级别上的一一对应。
得到的小特征图将被输入至目标检测模块(如图1中的a)。该模块有两个串行的通道数为1024的全连接层以及紧接着两个并行的通道数分别为2和8的全连接层,使目标检测框更精准。该模块分别使用了一个像素级别的交叉熵损失函数用于对人的分类以及一个Smooth L1Loss函数用于目标检测框的回归计算。
得到精准的目标检测框后,输入到语义分割模块(如图1中的b)。该模块包含4个连续的3*3卷积层产生一个特征图和一个上采样模块,上采样模块包含两个4*4反卷积层将产生的特征图进行线性地上采样以及最后为了调整上采样得到的热力图的通道数,在反卷积层后再连接的两个卷积层(维度分别为3*3和1*1)。在训练该模块时,我们定义语义分割损失函数通过将图片中所有的人当成前景来对整个网络进行中继监督[6],最后输出语义分割掩码。
然后实例分割模块(如图1中的c)通过将语义分割掩码进一步处理得到实例分割掩码。对于人体姿态预测,语义分割掩码是一个必不可少的中间过程,而实例分割可以被看做是分割由粗略到精细的过程。同样该模块也含有4个连续的3*3卷积层和一个上采样模块。在训练该模块时,我们分别最小化两个像素级别的交叉熵函数损失函数得到语义分割掩码和实例分割掩码,其中实例分割损失函数把语义分割掩码中指定的人当成前景,其他人当成背景,分别生成人体实例分割掩码。
借鉴DenseReg[7]网络结构,稠密姿态估计模块(如图1中的d)包含8个串行的3*3卷积层以及3个并行的输出部件,最后将分别输出3个值:3D人体部件的索引(I),3D人体部件上的U坐标和V坐标,每个部件都含有1个反卷积层和1个双线性插值层。该模块通过把经过精细调整后的候选框特征图(维度为14*14)作为输入,直接建立一个RGB图像上像素点与3D人体表面模型的联系。最后,该模块把实例分割掩码和得到的IUV坐标结合到一起,得到最终的3D表面坐标。为了训练该模块,我们使用像素级交叉熵损失函数进行部件分类来得到3D人体部件索引,以及训练两个Smooth L1Loss函数得到U坐标和V坐标。
由于人体结构复杂,我们将人体结构分为24个独立的部件,并使用局部二维坐标系对每个部件进行参数化。具体步骤是:第一,该模块通过将一个像素点归类为背景或者24个3D人体部件中的一个,进行初步粗略的像素点位置估计;第二,利用两个Smooth L1Loss回归得到每个部件中像素点的确切UV坐标。如果像素点在某个人体部件中,则仅考虑该部件的回归损失。
利用上述网络结构,本实施例实现基于掩码-RCNN进行稠密人体姿态估计的方法包括以下步骤:
1.从输入图片中提取出一个特征图,输入到感兴趣区排列池化层中,通过池化操作从特征图中的感兴趣区域提取出低维度的小特征图;
2.将所述低维度的小特征图输入至目标检测模块,获取精确的目标检测框;
3.语义分割模块对目标检测框的检测对象进行语义分割,获得语义分割掩码;
4.实例分割模块对语义分割掩码进行处理获得人体实例分割掩码;
5.稠密姿态估计模块建立RGB图像与3D人体表面模型的关系,并输出人体部件索引和3D模型上的UV坐标,然后将人体实例分割掩码和人体部件索引以及UV坐标进行结合获得3D人体表面模型的表面坐标。
由此,我们解决了现有方法存在的目标检测框包含多个目标而无法精准进行点估计的技术问题,有效地实现由二维(RGB)图像上的点映射到三维(3D)人体表面模型。
Claims (10)
1.基于掩码-RCNN进行稠密人体姿态估计的系统,其特征在于,包括:
目标检测模块,用于获取精确的目标检测框,其包括两个串行的均包括1024个通道的全连接层以及紧接的两个并行的分别包括2个通道的和8个通道的全连接层;
语义分割模块,用于对目标检测框的检测对象进行语义分割,获得语义分割掩码,其包括用于产生一个特征图的4个连续的3*3卷积层以及用于对产生的特征图进行线性上采样的两个4*4反卷积层,在两个4*4反卷积层后还连接有用于调整上采样得到的热力图的通道数的维度分别为3*3和1*1的两个卷积层;
实例分割模块,用于对语义分割掩码进行处理获得人体实例分割掩码,其包括4个连续的3*3卷积层以及紧接的上采样模块,所述上采样模块包括两个4*4反卷积层;
稠密姿态估计模块,用于建立RGB图像与3D人体表面模型的关系,并输出3D人体部件索引和3D人体表面模型上的UV坐标,从而将RGB图像上的纹理信息映射到3D人体表面模型上;其包括8个串行的3*3卷积层以及3个并行的输出部件,所述3个并行的输出部件分别用于输出3D人体部件的索引,3D人体部件上的U坐标和V坐标。
2.如权利要求1所述的基于掩码-RCNN进行稠密人体姿态估计的系统,其特征在于,
所述目标检测模块以小特征图作为输入,所述小特征图的获取方法为:
采用特征金字塔网络结构作为基本网络,从输入图片中提取出一个特征图,输入到感兴趣区排列池化层中,通过池化操作从特征图中的感兴趣区域提取出低维度的小特征图。
3.如权利要求2所述的基于掩码-RCNN进行稠密人体姿态估计的系统,其特征在于,
所述通过池化操作从特征图中的感兴趣区域提取出低维度的小特征图具体包括:在感兴趣区映射到特征图后,将候选区域分割成n*n个单元,在每个单元上固定4个点,分别用双线性插值计算出每个点的位置,然后再进行最大池化操作。
4.如权利要求1所述的基于掩码-RCNN进行稠密人体姿态估计的系统,其特征在于,
所述目标检测模块,在训练时分别使用一个像素级别的交叉熵损失函数用于对人的分类以及使用一个Smooth L1 Loss函数用于目标检测框的回归计算。
5.如权利要求1所述的基于掩码-RCNN进行稠密人体姿态估计的系统,其特征在于,
所述语义分割模块,在训练时通过定义语义分割损失函数通过将图片中所有的人当成前景来对整个网络进行中继监督,最后输出语义分割掩码。
6.如权利要求1所述的基于掩码-RCNN进行稠密人体姿态估计的系统,其特征在于,
所述实例分割模块,在训练时分别最小化两个像素级别的交叉熵函数损失函数得到语义分割掩码和实例分割掩码,其中实例分割损失函数把语义分割掩码中指定的人当成前景,其他人当成背景,分别生成人体实例分割掩码。
7.如权利要求1所述的基于掩码-RCNN进行稠密人体姿态估计的系统,其特征在于,
所述稠密姿态估计模块,在训练时使用像素级交叉熵损失函数进行部件分类来得到3D人体部件索引,并训练两个Smooth L1 Loss函数得到U坐标和V坐标。
8.基于掩码-RCNN进行稠密人体姿态估计的方法,应用于如权利要求1-7任意一项所述的系统中,其特征在于,包括以下步骤:
a.从输入图片中提取出一个特征图,输入到感兴趣区排列池化层中,通过池化操作从特征图中的感兴趣区域提取出低维度的小特征图;
b.将所述低维度的小特征图输入至目标检测模块,获取精确的目标检测框;
c.语义分割模块对目标检测框的检测对象进行语义分割,获得语义分割掩码;
d.实例分割模块对语义分割掩码进行处理获得人体实例分割掩码;
e.稠密姿态估计模块建立RGB图像与3D人体表面模型的关系,并输出人体部件索引和3D模型上的UV坐标,然后将人体实例分割掩码和人体部件索引以及UV坐标进行结合获得3D人体表面模型的表面坐标。
9.如权利要求8所述的基于掩码-RCNN进行稠密人体姿态估计的方法,其特征在于,
步骤a中,所述通过池化操作从特征图中的感兴趣区域提取出低维度的小特征图具体包括:在感兴趣区映射到特征图后,将候选区域分割成n*n个单元,在每个单元上固定4个点,分别用双线性插值计算出每个点的位置,然后再进行最大池化操作。
10.如权利要求8所述的基于掩码-RCNN进行稠密人体姿态估计的方法,其特征在于,
步骤e中,所述稠密姿态估计模块建立RGB图像与3D人体表面模型的关系,并输出人体部件索引和3D模型上的UV坐标具体包括:
将人体结构分为24个独立的部件,并使用局部二维坐标系对每个部件进行参数化:首先,将一个像素点归类为背景或者24个3D人体部件中的一个,进行初步粗略的像素点位置估计;然后,利用两个Smooth L1 Loss函数回归得到每个部件中像素点的确切UV坐标,如果像素点在某个人体部件中,则仅考虑该部件的回归损失。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910289577.1A CN110008915B (zh) | 2019-04-11 | 2019-04-11 | 基于掩码-rcnn进行稠密人体姿态估计的系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910289577.1A CN110008915B (zh) | 2019-04-11 | 2019-04-11 | 基于掩码-rcnn进行稠密人体姿态估计的系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110008915A true CN110008915A (zh) | 2019-07-12 |
CN110008915B CN110008915B (zh) | 2023-02-03 |
Family
ID=67171103
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910289577.1A Active CN110008915B (zh) | 2019-04-11 | 2019-04-11 | 基于掩码-rcnn进行稠密人体姿态估计的系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110008915B (zh) |
Cited By (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110517278A (zh) * | 2019-08-07 | 2019-11-29 | 北京旷视科技有限公司 | 图像分割和图像分割网络的训练方法、装置和计算机设备 |
CN110599489A (zh) * | 2019-08-26 | 2019-12-20 | 华中科技大学 | 一种目标空间定位方法 |
CN110705558A (zh) * | 2019-09-29 | 2020-01-17 | 郑州阿帕斯科技有限公司 | 图像实例分割方法和装置 |
CN111178251A (zh) * | 2019-12-27 | 2020-05-19 | 汇纳科技股份有限公司 | 一种行人属性识别方法及系统、存储介质及终端 |
CN111340964A (zh) * | 2020-03-05 | 2020-06-26 | 长春中国光学科学技术馆 | 一种基于迁移学习的3d模型图像的构建方法 |
CN111489394A (zh) * | 2020-03-16 | 2020-08-04 | 华南理工大学 | 物体姿态估计模型训练方法、系统、装置及介质 |
CN111539262A (zh) * | 2020-04-02 | 2020-08-14 | 中山大学 | 一种基于单张图片的运动转移方法及系统 |
CN111553247A (zh) * | 2020-04-24 | 2020-08-18 | 上海锘科智能科技有限公司 | 一种基于改进骨干网络的视频结构化系统、方法及介质 |
CN111563492A (zh) * | 2020-07-14 | 2020-08-21 | 浙江大华技术股份有限公司 | 一种跌倒检测方法、跌倒检测装置及存储装置 |
CN111898566A (zh) * | 2020-08-04 | 2020-11-06 | 成都井之丽科技有限公司 | 姿态估计方法、装置、电子设备和存储介质 |
CN111968208A (zh) * | 2020-07-07 | 2020-11-20 | 广东工业大学 | 一种基于人体软组织网格模型的人体动画合成方法 |
CN112381760A (zh) * | 2020-10-12 | 2021-02-19 | 萱闱(北京)生物科技有限公司 | 一种人体姿态骨节点和手部mask掩码识别方法 |
CN112651316A (zh) * | 2020-12-18 | 2021-04-13 | 上海交通大学 | 二维和三维多人姿态估计系统及方法 |
CN112668522A (zh) * | 2020-12-31 | 2021-04-16 | 华南理工大学 | 一种人体关键点与人体掩码联合检测网络及方法 |
CN112884780A (zh) * | 2021-02-06 | 2021-06-01 | 罗普特科技集团股份有限公司 | 一种用于人体姿态的估计方法和系统 |
CN113065506A (zh) * | 2021-04-16 | 2021-07-02 | 南京大学 | 一种人体姿态识别方法及系统 |
CN113256574A (zh) * | 2021-05-13 | 2021-08-13 | 中国科学院长春光学精密机械与物理研究所 | 一种三维目标检测方法 |
CN113269197A (zh) * | 2021-04-25 | 2021-08-17 | 南京三百云信息科技有限公司 | 基于语义分割的证件图像顶点坐标回归系统和识别方法 |
CN113569771A (zh) * | 2021-07-30 | 2021-10-29 | 北京市商汤科技开发有限公司 | 视频分析方法及装置、电子设备和存储介质 |
CN113762498A (zh) * | 2020-06-04 | 2021-12-07 | 合肥君正科技有限公司 | 一种量化RoiAlign算子的方法 |
CN114445632A (zh) * | 2022-02-08 | 2022-05-06 | 支付宝(杭州)信息技术有限公司 | 图片处理方法及装置 |
CN114514535A (zh) * | 2019-10-11 | 2022-05-17 | 北京嘀嘀无限科技发展有限公司 | 基于语义分割的实例分割系统和方法 |
CN115546379A (zh) * | 2022-11-29 | 2022-12-30 | 思看科技(杭州)股份有限公司 | 一种数据处理方法、装置和计算机设备 |
EP4134911A1 (en) * | 2021-08-13 | 2023-02-15 | Toyota Jidosha Kabushiki Kaisha | A direct method for estimating a pose of a body in at least one image |
WO2023098487A1 (zh) * | 2021-11-30 | 2023-06-08 | 西门子股份公司 | 目标检测方法、装置、电子设备和计算机存储介质 |
CN116681892A (zh) * | 2023-06-02 | 2023-09-01 | 山东省人工智能研究院 | 基于多中心PolarMask模型改进的图像精准分割方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106897697A (zh) * | 2017-02-24 | 2017-06-27 | 深圳市唯特视科技有限公司 | 一种基于可视化编译器的人物和姿势检测方法 |
US20170243053A1 (en) * | 2016-02-18 | 2017-08-24 | Pinscreen, Inc. | Real-time facial segmentation and performance capture from rgb input |
US20170287137A1 (en) * | 2016-03-31 | 2017-10-05 | Adobe Systems Incorporated | Utilizing deep learning for boundary-aware image segmentation |
CN107909005A (zh) * | 2017-10-26 | 2018-04-13 | 西安电子科技大学 | 基于深度学习的监控场景下人物姿态识别方法 |
CN109035293A (zh) * | 2018-05-22 | 2018-12-18 | 安徽大学 | 适用于视频图像中显著人体实例分割的方法 |
CN109190537A (zh) * | 2018-08-23 | 2019-01-11 | 浙江工商大学 | 一种基于掩码感知深度强化学习的多人物姿态估计方法 |
-
2019
- 2019-04-11 CN CN201910289577.1A patent/CN110008915B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170243053A1 (en) * | 2016-02-18 | 2017-08-24 | Pinscreen, Inc. | Real-time facial segmentation and performance capture from rgb input |
US20170287137A1 (en) * | 2016-03-31 | 2017-10-05 | Adobe Systems Incorporated | Utilizing deep learning for boundary-aware image segmentation |
CN106897697A (zh) * | 2017-02-24 | 2017-06-27 | 深圳市唯特视科技有限公司 | 一种基于可视化编译器的人物和姿势检测方法 |
CN107909005A (zh) * | 2017-10-26 | 2018-04-13 | 西安电子科技大学 | 基于深度学习的监控场景下人物姿态识别方法 |
CN109035293A (zh) * | 2018-05-22 | 2018-12-18 | 安徽大学 | 适用于视频图像中显著人体实例分割的方法 |
CN109190537A (zh) * | 2018-08-23 | 2019-01-11 | 浙江工商大学 | 一种基于掩码感知深度强化学习的多人物姿态估计方法 |
Non-Patent Citations (2)
Title |
---|
HUIYANG ZHANG等: "Orientation and Occlusion Aware Multi-Person Pose Estimation using Multi-Task Deep Learning Network", 《2019 IEEE INTERNATIONAL CONFERENCE ON CONSUMER ELECTRONICS (ICCE)》, 7 March 2019 (2019-03-07), pages 1 - 5 * |
陈智: "基于卷积神经网络的语义分割研究", 《中国优秀硕士学位论文全文数据库(信息科技辑)》, 15 January 2019 (2019-01-15) * |
Cited By (41)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110517278A (zh) * | 2019-08-07 | 2019-11-29 | 北京旷视科技有限公司 | 图像分割和图像分割网络的训练方法、装置和计算机设备 |
CN110517278B (zh) * | 2019-08-07 | 2022-04-29 | 北京旷视科技有限公司 | 图像分割和图像分割网络的训练方法、装置和计算机设备 |
CN110599489A (zh) * | 2019-08-26 | 2019-12-20 | 华中科技大学 | 一种目标空间定位方法 |
CN110705558A (zh) * | 2019-09-29 | 2020-01-17 | 郑州阿帕斯科技有限公司 | 图像实例分割方法和装置 |
CN110705558B (zh) * | 2019-09-29 | 2022-03-08 | 郑州阿帕斯科技有限公司 | 图像实例分割方法和装置 |
CN114514535A (zh) * | 2019-10-11 | 2022-05-17 | 北京嘀嘀无限科技发展有限公司 | 基于语义分割的实例分割系统和方法 |
CN111178251A (zh) * | 2019-12-27 | 2020-05-19 | 汇纳科技股份有限公司 | 一种行人属性识别方法及系统、存储介质及终端 |
CN111178251B (zh) * | 2019-12-27 | 2023-07-28 | 汇纳科技股份有限公司 | 一种行人属性识别方法及系统、存储介质及终端 |
CN111340964A (zh) * | 2020-03-05 | 2020-06-26 | 长春中国光学科学技术馆 | 一种基于迁移学习的3d模型图像的构建方法 |
CN111340964B (zh) * | 2020-03-05 | 2023-03-24 | 长春中国光学科学技术馆 | 一种基于迁移学习的3d模型图像的构建方法 |
CN111489394B (zh) * | 2020-03-16 | 2023-04-21 | 华南理工大学 | 物体姿态估计模型训练方法、系统、装置及介质 |
CN111489394A (zh) * | 2020-03-16 | 2020-08-04 | 华南理工大学 | 物体姿态估计模型训练方法、系统、装置及介质 |
CN111539262B (zh) * | 2020-04-02 | 2023-04-18 | 中山大学 | 一种基于单张图片的运动转移方法及系统 |
CN111539262A (zh) * | 2020-04-02 | 2020-08-14 | 中山大学 | 一种基于单张图片的运动转移方法及系统 |
CN111553247B (zh) * | 2020-04-24 | 2023-08-08 | 上海锘科智能科技有限公司 | 一种基于改进骨干网络的视频结构化系统、方法及介质 |
CN111553247A (zh) * | 2020-04-24 | 2020-08-18 | 上海锘科智能科技有限公司 | 一种基于改进骨干网络的视频结构化系统、方法及介质 |
CN113762498A (zh) * | 2020-06-04 | 2021-12-07 | 合肥君正科技有限公司 | 一种量化RoiAlign算子的方法 |
CN113762498B (zh) * | 2020-06-04 | 2024-01-23 | 合肥君正科技有限公司 | 一种量化RoiAlign算子的方法 |
CN111968208A (zh) * | 2020-07-07 | 2020-11-20 | 广东工业大学 | 一种基于人体软组织网格模型的人体动画合成方法 |
CN111968208B (zh) * | 2020-07-07 | 2023-10-03 | 广东工业大学 | 一种基于人体软组织网格模型的人体动画合成方法 |
CN111563492A (zh) * | 2020-07-14 | 2020-08-21 | 浙江大华技术股份有限公司 | 一种跌倒检测方法、跌倒检测装置及存储装置 |
CN111898566A (zh) * | 2020-08-04 | 2020-11-06 | 成都井之丽科技有限公司 | 姿态估计方法、装置、电子设备和存储介质 |
CN112381760A (zh) * | 2020-10-12 | 2021-02-19 | 萱闱(北京)生物科技有限公司 | 一种人体姿态骨节点和手部mask掩码识别方法 |
CN112651316A (zh) * | 2020-12-18 | 2021-04-13 | 上海交通大学 | 二维和三维多人姿态估计系统及方法 |
CN112668522B (zh) * | 2020-12-31 | 2023-06-20 | 华南理工大学 | 一种人体关键点与人体掩码联合检测网络及方法 |
CN112668522A (zh) * | 2020-12-31 | 2021-04-16 | 华南理工大学 | 一种人体关键点与人体掩码联合检测网络及方法 |
CN112884780A (zh) * | 2021-02-06 | 2021-06-01 | 罗普特科技集团股份有限公司 | 一种用于人体姿态的估计方法和系统 |
CN113065506A (zh) * | 2021-04-16 | 2021-07-02 | 南京大学 | 一种人体姿态识别方法及系统 |
CN113065506B (zh) * | 2021-04-16 | 2023-12-26 | 南京大学 | 一种人体姿态识别方法及系统 |
CN113269197A (zh) * | 2021-04-25 | 2021-08-17 | 南京三百云信息科技有限公司 | 基于语义分割的证件图像顶点坐标回归系统和识别方法 |
CN113269197B (zh) * | 2021-04-25 | 2024-03-08 | 南京三百云信息科技有限公司 | 基于语义分割的证件图像顶点坐标回归系统和识别方法 |
CN113256574B (zh) * | 2021-05-13 | 2022-10-25 | 中国科学院长春光学精密机械与物理研究所 | 一种三维目标检测方法 |
CN113256574A (zh) * | 2021-05-13 | 2021-08-13 | 中国科学院长春光学精密机械与物理研究所 | 一种三维目标检测方法 |
CN113569771A (zh) * | 2021-07-30 | 2021-10-29 | 北京市商汤科技开发有限公司 | 视频分析方法及装置、电子设备和存储介质 |
CN113569771B (zh) * | 2021-07-30 | 2024-05-24 | 北京市商汤科技开发有限公司 | 视频分析方法及装置、电子设备和存储介质 |
EP4134911A1 (en) * | 2021-08-13 | 2023-02-15 | Toyota Jidosha Kabushiki Kaisha | A direct method for estimating a pose of a body in at least one image |
WO2023098487A1 (zh) * | 2021-11-30 | 2023-06-08 | 西门子股份公司 | 目标检测方法、装置、电子设备和计算机存储介质 |
CN114445632A (zh) * | 2022-02-08 | 2022-05-06 | 支付宝(杭州)信息技术有限公司 | 图片处理方法及装置 |
CN115546379A (zh) * | 2022-11-29 | 2022-12-30 | 思看科技(杭州)股份有限公司 | 一种数据处理方法、装置和计算机设备 |
CN116681892A (zh) * | 2023-06-02 | 2023-09-01 | 山东省人工智能研究院 | 基于多中心PolarMask模型改进的图像精准分割方法 |
CN116681892B (zh) * | 2023-06-02 | 2024-01-26 | 山东省人工智能研究院 | 基于多中心PolarMask模型改进的图像精准分割方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110008915B (zh) | 2023-02-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110008915A (zh) | 基于掩码-rcnn进行稠密人体姿态估计的系统及方法 | |
CN111832655B (zh) | 一种基于特征金字塔网络的多尺度三维目标检测方法 | |
CN110689599B (zh) | 基于非局部增强的生成对抗网络的3d视觉显著性预测方法 | |
CN110443842A (zh) | 基于视角融合的深度图预测方法 | |
CN110381268B (zh) | 生成视频的方法,装置,存储介质及电子设备 | |
CN111079685A (zh) | 一种3d目标检测方法 | |
CN109446922B (zh) | 一种实时鲁棒的人脸检测方法 | |
CN110135227B (zh) | 一种基于机器学习的激光点云室外场景自动分割方法 | |
CN102609950B (zh) | 一种二维视频深度图的生成方法 | |
CN106127818B (zh) | 一种基于单幅图像的材质外观获取系统及方法 | |
CN112861729A (zh) | 一种基于伪深度图引导的实时深度补全方法 | |
CN104063702A (zh) | 一种基于遮挡修复和局部相似性匹配的三维步态识别方法 | |
CN113808005A (zh) | 一种基于视频驱动的人脸姿态迁移方法及装置 | |
CN110443883A (zh) | 一种基于dropblock的单张彩色图片平面三维重建方法 | |
CN112184731B (zh) | 一种基于对抗性训练的多视图立体深度估计方法 | |
CN109064556B (zh) | 一种面向isr的地貌高精度仿真建模系统 | |
CN116205962B (zh) | 基于完整上下文信息的单目深度估计方法及系统 | |
WO2021096190A1 (en) | Method for synthesizing 2d image of scene as viewed from desired viewpoint and electronic computing device implementing the same | |
CN116664782A (zh) | 一种基于融合体素的神经辐射场三维重建方法 | |
CN115049556A (zh) | 一种基于StyleGAN的人脸图像修复方法 | |
CN114677479A (zh) | 一种基于深度学习的自然景观多视图三维重建方法 | |
CN104301706A (zh) | 一种增强裸眼立体显示效果的合成方法 | |
CN118072034A (zh) | 一种基于神经网络的孔喉特征提取方法及系统 | |
Ma et al. | Cloud-egan: Rethinking cyclegan from a feature enhancement perspective for cloud removal by combining cnn and transformer | |
CN117501313A (zh) | 基于深度神经网络的毛发渲染系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |