CN111462149A - 一种基于视觉显著性的实例人体解析方法 - Google Patents
一种基于视觉显著性的实例人体解析方法 Download PDFInfo
- Publication number
- CN111462149A CN111462149A CN202010148744.3A CN202010148744A CN111462149A CN 111462149 A CN111462149 A CN 111462149A CN 202010148744 A CN202010148744 A CN 202010148744A CN 111462149 A CN111462149 A CN 111462149A
- Authority
- CN
- China
- Prior art keywords
- human body
- edge detection
- map
- semantic segmentation
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 241000282414 Homo sapiens Species 0.000 title claims abstract description 134
- 238000004458 analytical method Methods 0.000 title claims abstract description 44
- 230000000007 visual effect Effects 0.000 title claims abstract description 37
- 230000011218 segmentation Effects 0.000 claims abstract description 55
- 238000003708 edge detection Methods 0.000 claims abstract description 39
- 238000001514 detection method Methods 0.000 claims abstract description 22
- 238000000605 extraction Methods 0.000 claims abstract description 22
- 230000004927 fusion Effects 0.000 claims abstract description 10
- 238000000034 method Methods 0.000 claims description 21
- 238000011176 pooling Methods 0.000 claims description 13
- 238000012545 processing Methods 0.000 claims description 3
- 230000004913 activation Effects 0.000 claims description 2
- 238000003475 lamination Methods 0.000 claims description 2
- 238000013507 mapping Methods 0.000 claims description 2
- 238000012986 modification Methods 0.000 claims description 2
- 230000004048 modification Effects 0.000 claims description 2
- 239000004576 sand Substances 0.000 claims description 2
- 101100295091 Arabidopsis thaliana NUDT14 gene Proteins 0.000 claims 2
- 230000010339 dilation Effects 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 10
- 238000012549 training Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 4
- 238000010606 normalization Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 239000000126 substance Substances 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 125000004432 carbon atom Chemical group C* 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000009827 uniform distribution Methods 0.000 description 1
- 230000002087 whitening effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/13—Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/20—Image enhancement or restoration by the use of local operators
- G06T5/30—Erosion or dilatation, e.g. thinning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/90—Determination of colour characteristics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20212—Image combination
- G06T2207/20221—Image fusion; Image merging
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Abstract
本发明公开了一种基于视觉显著性的实例人体解析方法,包含步骤:利用显著性检测算法将输入图片中的显著性区域检测出来,从而获取显著性图;将显著性图和输入图片相加得到人体被高亮的视觉增强图;接下来将视觉增强图作为网络输入,经过公共特征提取网络获取同时适用于语义分割和边缘检测的公用特征,在公共特征提取网络的第3、4、5层卷积层后分别引入侧输出层,将融合后的侧输出特征图送入人体语义分割单元中,得到人体语义分割结果图;在公共特征提取网络的第3、4、5层卷积层后分别引入侧输出层,将融合后的侧输出特征图分别送入人体边缘检测单元,得到人体边缘检测结果图;通过融合单元将人体语义分割结果图和人体边缘检测进行融合,从而得到最后的人体解析结果。
Description
技术领域
本发明涉及人体解析领域,更具体地说,涉及一种基于视觉显著性的实例人体解析方法。
背景技术
人体解析是一种细粒度的语义分割任务,旨在将人体的各个部位以及衣物配饰等语义标签分配给图像中人体的每一个像素,以提供对图片的详细理解。目前,对于单人人体解析的研究已经取得了很大的进步,产生了众多优秀的算法。但是在人类面对的真实情景中,很多时候并非是单个人的画面,实例人体解析因此成为了必要的研究任务。实例人体解析是指在识别出人体各个部位类别的同时,进一步识别这些类别分别属于哪一个实例。实例人体解析目前已经广泛应用于人体行为分析,视频监控,虚拟现实等领域。
现有的实例级人体解析算法从算法流程出发大体可以分为两类,基于检测的方法和基于分割的方法。基于检测的方法大多是先利用检测算法定位到每一个人体实例,然后对选中的实例进行人体部分语义分割。例如Liu等人(Liu S,Sun Y,Zhu D,et al.Cross-domain human parsing via adversarial feature and label adaptation[C]//Thirty-Second AAAI Conference on Artificial Intelligence.2018)首先利用目标检测的方法,通过训练检测网络得到人体实例目标框,再与人体解析得到的全局分类合并。Ruan T等(Ruan T,Liu T,HuangZ,et al.Devil in the details:Towards accurate single andmultiple human parsing[C]//Proceedings of the AAAI Conference on ArtificialIntelligence.2019,33:4814-4821)首先提出了人体解析模型CE2P,然后对于单人图片,先通过Mask-RCNN(He K,Gkioxari G,Dollár P,et al.Mask r-cnn[C]//Proceedings ofthe IEEE international conference on computer vision.2017:2961-2969)将图片中的每一个人检测出来并处理成满足CE2P输入尺寸的单独的图片,再分别利用CE2P模型对每一个实例进行分割,最后将所有的分割结果融合以得到最后的解析结果。然而,分别独立训练用于粗略定位的检测网络和用于细致分割的分割网络可能会导致检测结果和分割结果不一致,这种网络模式不仅训练耗时,而且预测结果也会过于依赖检测网络的准确性。
基于分割的方法,例如Holistic网络(Li Q,Arnab A,Torr P H S.Holistic,instance-level human parsing[J].arXiv preprint arXiv:1709.03612,2017)同时训练检测网络和分割网络,检测网络定位到每一个人体实例,分割网络则将图像中人体的每一个像素赋予相应的语义标签,然后通过马尔科夫随机场的方法将两个子网络的结果融合并得到最后的实例解析结果。文献[5]首先通过PGN(Gong K,Liang X,Li Y,et al.Instance-level human parsing via part grouping network[C]//Proceedings of the EuropeanConference on Computer Vision(ECCV).2018:770-785)生成实例边缘图和整体分割图,然后通过线性解码的方式将这两个任务融合得到最后的实例解析结果。虽然这一类方法都是端到端的训练方式,但是它们应用在拥挤的场景中时的分割结果容易缺少实例,且对于眼镜、手表等小目标容易分割失败。
目前的技术方案多是针对单人图片进行人体解析,而实际应用中多是多人的场景,因此迫切需要有效的针对多人的实例人体解析算法。目前存在的实例人体解析算法主要还存在以下问题:基于检测的算法模型需要分别训练检测模型和分割模型,训练需耗费大量的计算资源和时间,且由于不是端到端的网络,需要先通过检测网络定位到每一个人体实例,这导致算法的整体性能过于依赖检测网络的准确性;基于分割的方法尽管解决了基于检测方法存在的问题,但是算法的精度依然不能应用于实际生活中,主要是因为在现实场景中,人物之间会存在拥挤、遮挡、交叠等情况,而现有算法在拥挤场景下的分割结果会存在实例缺失的情况。
发明内容
本发明要解决的技术问题在于,针对实例人体解析的现有技术中存在的:(1)跟语义分割一样,实例人体解析也存在物体边缘容易与背景或其他实例物体混淆的问题;(2)对于人物数量多的拥挤场景,现有的实例人体解析方法分割出的结果容易缺少实例,从而大大降低分割精度和算法性能的技术缺陷,提供了一种基于视觉显著性的实例人体解析方法,用于解决上述两个技术问题。
本发明为解决其技术问题,提供了一种基于视觉显著性的实例人体解析方法,包含如下步骤:
S1、利用显著性检测算法将输入图片中的显著性区域检测出来,从而获取显著性图;
S2、将显著性图和输入图片相加得到人体被高亮的视觉增强图;
S3、接下来将视觉增强图作为网络输入,经过公共特征提取网络获取同时适用于语义分割和边缘检测的公用特征,在公共特征提取网络的第3、4、5层卷积层后分别引入侧输出层,将融合后的侧输出特征图送入人体语义分割单元中,得到人体语义分割结果图;
S4、在公共特征提取网络的第3、4、5层卷积层后分别引入侧输出层,将融合后的侧输出特征图分别送入人体边缘检测单元,得到人体边缘检测结果图;
S5、通过融合单元将人体语义分割结果图和人体边缘检测进行融合,从而得到最后的人体解析结果。
实施本发明的基于视觉显著性的实例人体解析方法,具有下述技术效果:(1)本发明中利用了视觉显著性这一先验特征,通过适当增大显著性区域像素值的方法使得图像中的人体实例更容易被分割网络定位,而不需要依赖额外的检测网络;(2)用显著性检测算法对输入图片进行显著性检测,使得图像中的每个人体实例都被高亮,从而解决了其它算法在拥挤场景下缺失实例的问题;(3)利用边缘检辅助任务使得实例的边缘部分更加清晰平滑。
附图说明
下面将结合附图及实施例对本发明作进一步说明,附图中:
图1是本发明的基于视觉显著性的实例人体解析框架图;
图2是本发明的BMS算法模型流程图。
具体实施方式
为了对本发明的技术特征、目的和效果有更加清楚的理解,现对照附图详细说明本发明的具体实施方式。
参考图1,图1是本发明的基于视觉显著性的实例人体解析框架图一种基于视觉显著性的实例人体解析方法,包含如下步骤:
S1、利用显著性检测算法将输入图片中的显著性区域检测出来,从而获取显著性图;
S2、将显著性图和输入图片相加得到人体被高亮的视觉增强图;
S3、接下来将视觉增强图作为网络输入,经过公共特征提取网络获取同时适用于语义分割和边缘检测的公用特征,在公共特征提取网络的第3、4、5层卷积层后分别引入侧输出层,将融合后的侧输出特征图送入人体语义分割单元中,得到人体语义分割结果图;
S4、在公共特征提取网络的第3、4、5层卷积层后分别引入侧输出层,将融合后的侧输出特征图分别送入人体边缘检测单元,得到人体边缘检测结果图;
S5、通过融合单元将人体语义分割结果图和人体边缘检测进行融合,从而得到最后的人体解析结果。
接下来,对每一步操作进行解释。
S1、T0到T1环节:利用BMS算法获取显著性图。接下来详细介绍BMS算法:BMS是基于布尔图理论的显著性目标检测算法模型,其流程图如图2所示,图中C(I)为颜色特征图,Bcolor为颜色布尔图,Acolor为颜色注意力图,Si为显著性图。
(1)从输入到C(I)
图像的颜色通道能反映图像的全局信息,而Lab颜色空间能更好地以颜色之间的差异体现人眼感觉到的色差大小,视觉上具有良好的连续性,有利于形成良好的颜色通道特征图。因此首先将输入图片根据以下公式转换为Lab空间的颜色特征图C(I)。
RGB颜色空间不能直接转换为Lab颜色空间,需要借助XYZ颜色空间,把RGB颜色空间转换到XYZ颜色空间,之后再把XYZ颜色空间转换到Lab颜色空间。
RGB与XYZ颜色空间有如下关系:
假设r,g,b(R,G,B)为像素三个通道,取值范围均为[0,255],转换公式如下:
XYZ转Lab:
L*=116f(Y/Yn)-16
a*=500[f(X/Xn)-f(Y/Yn)]
b*=200[f(Y/Yn)-f(Z/Zn)]
上述公式中L*,a*,b*是最终的Lab彩色空间三个通道的值,X,Y,Z是RGB转XYZ后计算出来的值,Xn,Yn,Zn一般默认是95.047,100.0,108.883。
(2)从C(I)到Bcolor
对(1)得到的颜色特征图进行如下操作得到对应的布尔图。首先将颜色特征图根据以下三个公式进行白化操作以去除冗余并将特征值都归一化到[0,255]范围内。
其中n为像素数,pij为像素值,最后得到的Xij即是白化操作后得到的对应像素值,μ表示均值,σ2表示方差。
然后根据布尔图理论的先验分布理论取一组范围在[0,255]范围内的符合均匀分布的阈值这里取n=50,即然后根据以下公式分别得到50张颜色布尔图Bcolor={Bcolor1,Bcolor2…Bcolorn}。
(3)从Bcolor到Acolor
根据格式塔心理学提出的图像-背景分离原则:显著性目标很大程度上具有完整的闭合轮廓,而背景往往是无序的。由上一步得到的颜色布尔图中被包围的区域是值为0或1的连通区域,具有完整的闭合轮廓,而不被包围的区域则是杂乱无序的背景区域,因此对于布尔图Bcolor,本发明利用Flood Fill算法以图像的四个边界的像素作为种子点快速掩膜掉不被包围的像素,保留具有闭合轮廓的像素,通过这一处理后,被包围的区域取1,不被包围的区域取0,最终得到了一系列的颜色视觉注意图Acolor,将其相加得到最终的颜色注意力图。如以下公式所示:
Acolor=f(Bcolor)
(4)从Acolor到Si
将颜色注意图Acolor进行归一化处理以保留小的视觉注意区域,本发明在其L2范数范围内进行归一化处理,与L1范数相比,L2范数对极小的显著性区域并不敏感。为了使得具有小的、分散的显著性区域的视觉注意图不被抑制,在归一化之前还进行了内核宽为ωd1的膨胀操作,归一化后将视觉注意图分别求平均即得到最终的显著性图Si。
其中归一化的公式如下:
S*=average(S)
其中A*为膨胀操作之后的注意力图,||A*||2表示L2范数,S即为归一化后的初步显著性图,S*表示显著性图。
S2、T1到T2环节:对显著性图和输入图片进行融合操作。将上一步得到的显著性图和原图按照以下公式相加,得到视觉增强图Se:
Se=ξSi+ηS*,
其中,Se是指视觉增强图,S*表示显著性图,Si表示输入图片,ξ和η表示权重,ξ>0,η>0,ξ+η=1。根据多次实验结果,最终取ξ=0.5,η=0.5。
S3、T2到T3环节:利用公共特征提取网络获取公用特征并利用人体语义分割单元获取人体语义分割结果图。将视觉增强图Se作为输入送入公共特征提取网络,然后将经过公共特征网络单元得到的特征图送入人体语义分割单元以得到人体语义分割结果图。
(1)公共特征提取网络
本发明所用的公共特征提取网络是基于ResNet-101网络的改进,将ResNet-101网络的第三阶段和第四阶段的普通卷积全部更改为空洞卷积,以达到在不增加参数量的前提下增大感受野。公共特征提取网络主要目的是提取图像中同时适用于语义分割和边缘检测的特征,因为语义分割和边缘检测都是利用来自附近像素的低级上下文信息和高级语义特征来理解像素级的语义特征的,所以本发明没有单独训练两个网络来处理这两个相关的任务,而是共用了一个允许权重共享的骨干网络。
(2)人体语义分割单元
传统的语义分割算法都是在几个不同的尺度上利用共享的网络权重预测图像,然后将预测与学习到的权重结合在一起。为了增强网络的泛化性,本发明应用了另外一种上下文聚合模式,在公共特征提取网络的第3、4、5层卷积层后分别引出侧输出层,接着分别通过一个卷积层得到特征图,共三个特征图,然后将三个特征图级联,通过这样的方式,将浅层的空间信息和深层的语义信息充分结合。为了获得全局信息,本发明还采用了金字塔池化处理级联后的特征图。接下来再经过一个卷积层使得通道数等于物体的总类别数,再连接一个dropout层,最后增加一个卷积层进一步融合特征,得到人体语义分割结果图T3。
S4、T2到T4环节:利用人体边缘检测单元获取人体边缘检测结果图
本发明首先将视觉增强图Se作为输入送入公共特征提取网络,在公共特征提取网络的第3、4、5层卷积层后分别引出侧输出层,,在第3、4、5层卷积层后引出的侧输出层后分别增加了带空洞卷积的金字塔池化模块ASPP(Atrous Spatial Pyramid Pooling),利用ASPP能在不耗费巨大的计算量的前提下得到多尺度信息,以此产生了前三个边缘特征图;同时在三个侧输出层后分别通过一个1×1的卷积层来得到后三个边缘特征图,再将后三个边缘特征图级联,在级联融合后的特征图后面继续添加金字塔池化模块(无特殊说明,本发明中金字塔池化模块是指一般的金字塔池化模块,而非ASPP),再经过一个卷积层改变通道数,使得通道数等于物体的总类别数,再连接一个dropout层,最后增加一个卷积层进一步融合特征,从而得到人体边缘检测结果图T4。其中,所述带空洞卷积的金字塔池化模块ASPP包括依次连接的一个1×1卷积和四个3×3空洞卷积,其扩张率分别为2、4、8和16。
人体边缘检测任务是相关任务,其主要目的是辅助人体解析这一主任务,作为相关任务,它主要有以下两个功能:第一通过边缘信息可以准确的定位到每一个人体实例,以防存在实例缺失的情况;第二边缘信息也可以使实例的边缘部分分割更加清晰平滑,解决了实例人体解析边缘部分容易与背景或其它物体混淆的问题。
S5、T3、T4到T5环节:将人体语义分割结果图和人体边缘结果图融合。
将人体语义分割单元所得到的人体语义分割结果图T3、人体语义分割单元中dropout前的特征图、人体边缘检测单元所得到的人体边缘检测结果图T4以及人体边缘检测单元中dropout前的特征图级联,然后通过一个1×1卷积将级联后的特征图映射为更大数量通道的特征图,将映射后的特征图再次送入金字塔池化模块中,以相互促进分割和边缘检测的结果,再连接一个dropout层,最后增加一个卷积层进一步融合特征,最后即得到实例人体解析结果图T5,进行融合所采用的公式如下:
式中,α和β分别为分割和边缘检测所占的权重,Ls和L's分别是人体语义分割单元得到的人体语义分割结果图和dropout前的特征图经过softmax以及交叉熵损失函数所得到的损失值,Le和L'e则是人体边缘检测单元得到的人体边缘检测结果图和dropout前的特征图经过softmax以及交叉熵损失函数所得到的损失值,Lside是前三个边缘特征图经过sigmoid激活函数以及二进制交叉熵损失函数得到的损失值,其中N=3。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,这些均属于本发明的保护之内。
Claims (9)
1.一种基于视觉显著性的实例人体解析方法,其特征在于,包含如下步骤:
S1、利用显著性检测算法将输入图片中的显著性区域检测出来,从而获取显著性图;
S2、将显著性图和输入图片相加得到人体被高亮的视觉增强图;
S3、接下来将视觉增强图作为网络输入,经过公共特征提取网络获取同时适用于语义分割和边缘检测的公用特征,在公共特征提取网络的第3、4、5层卷积层后分别引入侧输出层,将融合后的侧输出特征图送入人体语义分割单元中,得到人体语义分割结果图;
S4、在公共特征提取网络的第3、4、5层卷积层后分别引入侧输出层,将融合后的侧输出特征图分别送入人体边缘检测单元,得到人体边缘检测结果图;
S5、通过融合单元将人体语义分割结果图和人体边缘检测进行融合,从而得到最后的人体解析结果。
2.根据权利要求1所述的基于视觉显著性的实例人体解析方法,其特征在于,步骤S1具体中所述显著性检测算法具体是指BMS算法。
3.根据权利要求1所述的基于视觉显著性的实例人体解析方法,其特征在于,步骤S2中将显著性图和输入图片相加得到人体被高亮的视觉增强图,具体是采用下述公式计算得到:
Se=ξSi+ηS*,
其中,Se是指视觉增强图,S*表示显著性图,Si表示输入图片,ξ和η表示权重,ξ>0,η>0,ξ+η=1。
4.根据权利要求1所述的基于视觉显著性的实例人体解析方法,其特征在于,所述公共特征提取网络是基于ResNet-101网络的改进,将ResNet-101网络的第三阶段和第四阶段的普通卷积全部更改为空洞卷积。
5.根据权利要求1所述的基于视觉显著性的实例人体解析方法,其特征在于,步骤S3中,所述人体语义分割结果图具体是通过下述方法得到:
在公共特征提取网络的第3、4、5层卷积层后分别引出侧输出层,接着分别通过一个卷积层得到特征图,共三个特征图,然后将三个特征图级联,采用金字塔池化处理级联后的特征图,接下来再经过一个卷积层使得通道数等于物体的总类别数,再连接一个dropout层,最后增加一个卷积层进一步融合特征,得到人体语义分割结果图T3。
6.根据权利要求1所述的基于视觉显著性的实例人体解析方法,其特征在于,步骤S4中,所述人体边缘检测结果图具体是通过下述方法得到:
在公共特征提取网络的第3、4、5层卷积层后分别引出侧输出层,在第3、4、5层卷积层后引出的侧输出层后分别增加了带空洞卷积的金字塔池化模块ASPP,以此产生了前三个边缘特征图;同时在三个侧输出层后分别通过一个1×1的卷积层来得到后三个边缘特征图,再将后三个边缘特征图级联,在级联融合后的特征图后面继续添加金字塔池化模块,再经过一个卷积层改变通道数,使得通道数等于物体的总类别数,再连接一个dropout层,最后增加一个卷积层进一步融合特征,从而得到人体边缘检测结果图T4。
7.根据权利要求6所述的基于视觉显著性的实例人体解析方法,其特征在于,所述带空洞卷积的金字塔池化模块ASPP包括依次连接的一个1×1卷积和四个3×3空洞卷积,其扩张率分别为2、4、8和16。
8.根据权利要求1所述的基于视觉显著性的实例人体解析方法,其特征在于,步骤S5中,进行融合的方法如下:
将人体语义分割单元所得到的人体语义分割结果图T3、人体语义分割单元中dropout前的特征图、人体边缘检测单元所得到的人体边缘检测结果图T4以及人体边缘检测单元中dropout前的特征图级联,然后通过一个1×1卷积将级联后的特征图映射为更大数量通道的特征图,将映射后的特征图再次送入金字塔池化模块中,以相互促进分割和边缘检测的结果,再连接一个dropout层,最后增加一个卷积层进一步融合特征,最后即得到实例人体解析结果图T5。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010148744.3A CN111462149B (zh) | 2020-03-05 | 2020-03-05 | 一种基于视觉显著性的实例人体解析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010148744.3A CN111462149B (zh) | 2020-03-05 | 2020-03-05 | 一种基于视觉显著性的实例人体解析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111462149A true CN111462149A (zh) | 2020-07-28 |
CN111462149B CN111462149B (zh) | 2023-06-06 |
Family
ID=71684972
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010148744.3A Active CN111462149B (zh) | 2020-03-05 | 2020-03-05 | 一种基于视觉显著性的实例人体解析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111462149B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112000099A (zh) * | 2020-08-26 | 2020-11-27 | 大连理工大学 | 动态环境下协作机器人柔性路径规划方法 |
CN112149494A (zh) * | 2020-08-06 | 2020-12-29 | 中国地质大学(武汉) | 一种多人姿态识别方法及系统 |
CN112883948A (zh) * | 2021-05-06 | 2021-06-01 | 深圳市城市交通规划设计研究中心股份有限公司 | 一种语义分割与边缘检测模型建立及护栏异常监测方法 |
CN113159026A (zh) * | 2021-03-31 | 2021-07-23 | 北京百度网讯科技有限公司 | 图像处理方法、装置、电子设备和介质 |
CN113192093A (zh) * | 2021-05-10 | 2021-07-30 | 新疆大学 | 基于双流网络结构的快速显著性目标检测方法 |
AU2021240229B1 (en) * | 2021-09-21 | 2023-02-02 | Sensetime International Pte. Ltd. | Stacked object recognition method, apparatus and device, and computer storage medium |
WO2023047167A1 (en) * | 2021-09-21 | 2023-03-30 | Sensetime International Pte. Ltd. | Stacked object recognition method, apparatus and device, and computer storage medium |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090112287A1 (en) * | 2007-03-08 | 2009-04-30 | Greenberg Robert J | Saliency-based apparatus and methods for visual prostheses |
CN109035293A (zh) * | 2018-05-22 | 2018-12-18 | 安徽大学 | 适用于视频图像中显著人体实例分割的方法 |
CN109118459A (zh) * | 2017-06-23 | 2019-01-01 | 南开大学 | 图像显著性物体检测方法和装置 |
CN109409240A (zh) * | 2018-09-28 | 2019-03-01 | 北京航空航天大学 | 一种结合随机游走的SegNet遥感图像语义分割方法 |
CN110363140A (zh) * | 2019-07-15 | 2019-10-22 | 成都理工大学 | 一种基于红外图像的人体动作实时识别方法 |
CN110414513A (zh) * | 2019-07-31 | 2019-11-05 | 电子科技大学 | 基于语义增强卷积神经网络的视觉显著性检测方法 |
CN110674685A (zh) * | 2019-08-19 | 2020-01-10 | 电子科技大学 | 一种基于边缘信息增强的人体解析分割模型及方法 |
-
2020
- 2020-03-05 CN CN202010148744.3A patent/CN111462149B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090112287A1 (en) * | 2007-03-08 | 2009-04-30 | Greenberg Robert J | Saliency-based apparatus and methods for visual prostheses |
CN109118459A (zh) * | 2017-06-23 | 2019-01-01 | 南开大学 | 图像显著性物体检测方法和装置 |
CN109035293A (zh) * | 2018-05-22 | 2018-12-18 | 安徽大学 | 适用于视频图像中显著人体实例分割的方法 |
CN109409240A (zh) * | 2018-09-28 | 2019-03-01 | 北京航空航天大学 | 一种结合随机游走的SegNet遥感图像语义分割方法 |
CN110363140A (zh) * | 2019-07-15 | 2019-10-22 | 成都理工大学 | 一种基于红外图像的人体动作实时识别方法 |
CN110414513A (zh) * | 2019-07-31 | 2019-11-05 | 电子科技大学 | 基于语义增强卷积神经网络的视觉显著性检测方法 |
CN110674685A (zh) * | 2019-08-19 | 2020-01-10 | 电子科技大学 | 一种基于边缘信息增强的人体解析分割模型及方法 |
Non-Patent Citations (4)
Title |
---|
JING ZHANG, ET.AL: "Holistic, instance-level human parsing" * |
WEI L, ET.AL: "A spatiotemporal saliency model of visual attention based on maximum entropy" * |
赵旭: "基于医学先验的多尺度乳腺超声肿瘤实例分割方法" * |
邵杰等: "基于深度学习的人体解析研究综述" * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112149494A (zh) * | 2020-08-06 | 2020-12-29 | 中国地质大学(武汉) | 一种多人姿态识别方法及系统 |
CN112000099A (zh) * | 2020-08-26 | 2020-11-27 | 大连理工大学 | 动态环境下协作机器人柔性路径规划方法 |
CN113159026A (zh) * | 2021-03-31 | 2021-07-23 | 北京百度网讯科技有限公司 | 图像处理方法、装置、电子设备和介质 |
CN112883948A (zh) * | 2021-05-06 | 2021-06-01 | 深圳市城市交通规划设计研究中心股份有限公司 | 一种语义分割与边缘检测模型建立及护栏异常监测方法 |
CN113192093A (zh) * | 2021-05-10 | 2021-07-30 | 新疆大学 | 基于双流网络结构的快速显著性目标检测方法 |
CN113192093B (zh) * | 2021-05-10 | 2023-04-18 | 新疆大学 | 基于双流网络结构的快速显著性目标检测方法 |
AU2021240229B1 (en) * | 2021-09-21 | 2023-02-02 | Sensetime International Pte. Ltd. | Stacked object recognition method, apparatus and device, and computer storage medium |
WO2023047167A1 (en) * | 2021-09-21 | 2023-03-30 | Sensetime International Pte. Ltd. | Stacked object recognition method, apparatus and device, and computer storage medium |
Also Published As
Publication number | Publication date |
---|---|
CN111462149B (zh) | 2023-06-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111462149A (zh) | 一种基于视觉显著性的实例人体解析方法 | |
CN109949317B (zh) | 基于逐步对抗学习的半监督图像实例分割方法 | |
Mehra et al. | ReViewNet: A fast and resource optimized network for enabling safe autonomous driving in hazy weather conditions | |
CN109859190B (zh) | 一种基于深度学习的目标区域检测方法 | |
Anwar et al. | Image colorization: A survey and dataset | |
CN111523410B (zh) | 一种基于注意力机制的视频显著性目标检测方法 | |
CN109598268B (zh) | 一种基于单流深度网络的rgb-d显著目标检测方法 | |
CN111275713B (zh) | 一种基于对抗自集成网络的跨域语义分割方法 | |
Pang et al. | Visual haze removal by a unified generative adversarial network | |
CN111832443B (zh) | 一种施工违规行为检测模型的构建方法及其应用 | |
CN112581409B (zh) | 一种基于端到端的多重信息蒸馏网络的图像去雾方法 | |
CN111931603B (zh) | 基于竞合网络的双流卷积网络的人体动作识别系统及方法 | |
CN111681177A (zh) | 视频处理方法及装置、计算机可读存储介质、电子设备 | |
CN114220126A (zh) | 一种目标检测系统及获取方法 | |
CN114743027B (zh) | 弱监督学习引导的协同显著性检测方法 | |
CN112884758A (zh) | 一种基于风格迁移方法的缺陷绝缘子样本生成方法及系统 | |
CN114627269A (zh) | 一种基于深度学习目标检测的虚拟现实安防监控平台 | |
CN110503049B (zh) | 基于生成对抗网络的卫星视频车辆数目估计方法 | |
CN115984133A (zh) | 图像增强方法、车辆抓拍方法、设备及介质 | |
CN112164078B (zh) | 基于编码器-解码器的rgb-d多尺度语义分割方法 | |
Liu et al. | A shadow imaging bilinear model and three-branch residual network for shadow removal | |
US11816181B2 (en) | Blur classification and blur map estimation | |
Lee et al. | A design of image dehazing engine using DTE and DAE techniques | |
CN114445618A (zh) | 一种跨模态交互rgb-d图像显著区域检测方法 | |
CN114565764A (zh) | 基于舰船实例分割的港口全景感知系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20240314 Address after: 230000 floor 1, building 2, phase I, e-commerce Park, Jinggang Road, Shushan Economic Development Zone, Hefei City, Anhui Province Patentee after: Dragon totem Technology (Hefei) Co.,Ltd. Country or region after: China Address before: 430000 Lu Mill Road, Hongshan District, Wuhan, Hubei Province, No. 388 Patentee before: CHINA University OF GEOSCIENCES (WUHAN CITY) Country or region before: China |