CN111597920B - 一种自然场景下的全卷积单阶段的人体实例分割方法 - Google Patents

一种自然场景下的全卷积单阶段的人体实例分割方法 Download PDF

Info

Publication number
CN111597920B
CN111597920B CN202010343727.5A CN202010343727A CN111597920B CN 111597920 B CN111597920 B CN 111597920B CN 202010343727 A CN202010343727 A CN 202010343727A CN 111597920 B CN111597920 B CN 111597920B
Authority
CN
China
Prior art keywords
mask
prototype
crop
human body
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010343727.5A
Other languages
English (en)
Other versions
CN111597920A (zh
Inventor
黄永明
周宇
孙昆阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN202010343727.5A priority Critical patent/CN111597920B/zh
Publication of CN111597920A publication Critical patent/CN111597920A/zh
Application granted granted Critical
Publication of CN111597920B publication Critical patent/CN111597920B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle

Abstract

本发明公开了一种新的适用于自然场景下的全卷积单阶段的人体实例分割方法,该方法包括特征图提取、生成原型掩膜、掩膜系数计算、分类、位置回归、中心性计算、通过ROIAlign产生感兴趣区域以及原型掩膜和掩膜系数相结合得到最终的实例掩膜。在特征图提取时,采用ResNet+FPN作为网络的backbone,使用P3、P4、P5、P6、P7作为计算掩膜系数、分类和回归的特征图,使用P3作为计算原型掩膜的特征图,原型掩膜和掩膜系数的结合采用分段线性组合的方式,本方法可以在MS COCO 2017数据集上实现41.4fps速度下34.8mAP的实时人体实例分割。

Description

一种自然场景下的全卷积单阶段的人体实例分割方法
技术领域
本发明涉及一种自然场景下的全卷积单阶段的人体实例分割方法,属于计算机视觉技术领域。
背景技术
自然场景下的人体实例分割是当前计算机视觉领域一个新的难题,实例分割在一定程度上可以理解为目标检测和语义分割的结合,实例分割可以被广泛应用于无人驾驶、医疗图像分析、智能机器人以及地理信息系统等领域,其中人体实例分割显得尤为重要。
当下,目标检测和语义分割任务的主流解决方案通过卷积神经网络实现,实例分割也不例外,目前已经提出的性能较好的实例分割网络包括two-stage的Mask R-CNN和FCIS以及one-stage的YOLACT等。Mask R-CNN缺点主要在于检测器采用Faster-RCNN,需要设计大量的anchors,引入很多人工设计的尺度和比例参数,FCIS的主要缺点在于在第一阶段需要通过RPN生成大量的候选框,YOLACT网络的缺点在于使用基于全图的原型掩膜和掩膜系数做结合生成最终的实例掩膜,缺少对于感兴趣区域的提取。
发明内容
发明目的,本发明旨在解决现有方法需要设计大量锚点、具有双阶段架构、检测速度较慢,缺少实时应用价值的缺点,针对自然场景下的人体实例分割问题,提出一种新的自然场景下的全卷积单阶段实时人体实例分割方法,该方法应该是单阶段的、不需要使用锚点的,可以实现实时的人体实例分割,同时具有较高的查准率。
为实现本发明的目的,本发明所采用的技术方案是:一种基于深度学习的自然场景下全卷积单阶段人体实例分割方法,实现如下功能:对一张包含人体的自然场景下的图片,通过深度卷积神经网络处理实现对所有人体实例的实时分割。
本方法生成实例掩膜的思路为:通过将由卷积神经网络预测得到的原型掩膜和掩膜系数进行分段线性组合,得到最终的实例掩膜。
该方法的训练过程包括如下步骤:
步骤一:通过骨干网络从输入的包含人体的自然场景图像中实现特征图提取;
步骤二:基于骨干网络提取到的特征图,通过全卷积网络实现掩膜系数计算、中心性指标计算、分类和回归计算;
步骤三:基于骨干网络提取到的特征图,通过全卷积网络生成原型掩膜,原型掩膜是用来生成最终实例掩膜的组成元素之一;
步骤四:通过ROIAlign在生成的原型掩膜上截取感兴趣的区域;
步骤五:将原型掩膜中的感兴趣的区域和掩膜系数相结合得到最终的实例掩膜;
步骤六:根据分类结果、回归结果、中心性指标和计算得到的实例掩膜,进行分类和回归的loss计算、中心性的loss计算以及实例掩膜的loss计算;
步骤七:在COCO-2017-train数据集上采用随机梯度下降方法不断迭代优化神经网络,最终得到训练好的网络;
步骤八:将训练好的网络用于自然场景下的人体实例分割和目标检测。
进一步的,所述步骤1中的特征图提取,采用与FCOS网络相同的残差网络+特征金字塔网络作为骨干网络,从输入图片中提取到多尺度的特征图P3、P4、P5、P6、P7。
进一步的,所述步骤2中的基于提取到的特征图,通过全卷积网络实现掩膜系数、中心性指标以及分类和回归的计算,具体而言是通过全卷积网络对步骤1中输出的特征图逐点位地计算掩膜系数、中心性指标以及分类和回归结果。首先将通过骨干网络得到的金字塔特征图P3、P4、P5、P6、P7,再将其送入四层3*3卷积层,保持特征图尺寸不变,计算得到分类共享特征图,然后将分类共享特征图送入分类卷积层得到类别计算结果,将分类共享特征图送入中心性计算卷积层得到中心性计算结果,将特征图P3、P4、P5、P6、P7送入回归卷积层,即五层3*3卷积层,计算得到回归结果,将特征图P3、P4、P5、P6、P7送入掩膜系数计算卷积层,即五层3*3卷积层,计算得到掩膜系数。
其中,中心性指标以及分类和回归结果与FCOS网络相同,得到的掩膜系数维度为H×W×Ccoef,其中,H×W表示特征图的尺寸,Ccoef表示掩膜系数的通道数,且Ccoef=Scrop×Scrop×k2,其中Scrop表示利用ROIAlign在原型掩膜上截取的感兴趣区域的尺寸,k表示实例掩膜在水平和竖直两个方向上的分段组数,假设实例掩膜在水平和竖直两个方向上的分段组数相同。
进一步的,所属步骤3中的原型掩膜生成,从生成的特征图P3、P4、P5、P6、P7中选择P3送入原型掩膜生成网络,经过五层3*3卷积层后,再通过Sigmoid激活函数输出原型掩膜,原型掩膜也是针对特征图P3上的每个点输出的。原型掩膜的维度为H×W×Ccoef,其中H×W表示输入原型生成网络的特征图的尺寸,Cproto表示原型掩膜的通道数,且Cproto=Smask×Smask,其中Smask表示最终期望生成的实例掩膜尺寸。
进一步的,所述步骤4中的通过ROIAlign提取原型掩膜中感兴趣的区域,通过原型掩膜生成网络得到原型掩膜,根据原型原膜和目标人体边界框的真实值,通过ROIAlign提取原型mask中感兴趣的区域。其具体步骤包括:
1.根据尺度对应关系,计算目标人体边界框的真实值对应到特征图上的区域,不作任何量化;
2.将候选区域分割成Scrop×Scrop个单元,每个单元的边界也不做量化;
3.将每个单元按照十字形平分成四份,每一份取其中心点位置,根据每个中心点四周的像素点取值,用双线性内插的方法计算出这四个中心点位置的值,然后进行最大池化操作。
经过ROIAlign,得到的原型掩膜感兴趣区域维度为nobj×Scrop×Scrop×Cproto其中,nobj表示检测到的物体个数,Scrop表示得到的原型掩膜感兴趣区域的尺度,Cproto为得到的原型掩膜通道数。
进一步的,所述步骤5中的原型掩膜和掩膜系数的结合,其方法为:采用分段线性组合的方式,通过结合原型掩膜感兴趣区域以及掩膜系数生成实例掩膜。
具体步骤如下:
(1)设最终期望生成的实例掩膜M的大小为Smask×Smask,则对于原型掩膜而言,设置其通道数Cproto=Smask 2,设原型掩膜的感兴趣区域的边长为Scrop,经过ROIAlign,得到的原型掩膜感兴趣区域维度为nobj×Scrop 2×Cproto=nobj×Scrop 2×Smask 2,经过张量形状重塑(reshape)操作后,得到原型掩膜感兴趣区域维度为nobj×Smask 2×Scrop 2,其中nobj表示待预测的目标实例个数。
(2)对于掩膜系数而言,根据原型掩膜的感兴趣区域的边长为Scrop,设原型掩膜在水平和竖直两个方向上的都分成k段,则掩膜系数的通道数Ccoef设置为
Ccoef=Scrop 2×k2
经过对特征图上的位置进行筛选后,得到掩膜系数的维度为nobj×Ccoef=nobj×Scrop 2×k2
(3)对于每一个待预测的目标而言,其原型掩膜张量维度为Smask×Smask×Scrop 2,沿其水平和竖直方向各分为k段,每一段原型掩膜的维度为
Figure BDA0002469319800000041
即将原型掩膜共分成k2段。
(4)对于每一个待预测的目标而言,其掩膜系数张量维度为Scrop×Scrop×k2,将其沿着深度方向分为k2段,每一段掩膜系数的维度为Scrop×Scrop,可看成一个二维张量,且每一段掩膜系数与每一段原型掩膜一一对应。
(5)将每一段原型掩膜和每一段掩膜系数相结合,生成实例掩膜的每一个分段。
具体的,对于每一个维度为
Figure BDA0002469319800000042
的原型掩膜分段,可看成由Scrop 2个大小为
Figure BDA0002469319800000043
的原型掩膜二维张量组成,可将这些原型掩膜二维张量记为为
Figure BDA0002469319800000045
Figure BDA0002469319800000046
对于每一个维度为Scrop×Scrop的掩膜系数分段,可看成由Scrop 2个掩膜系数标量组成的二维张量,可将这些掩膜系数标量记为
Figure BDA0002469319800000047
则实例掩膜的一个分段Mdiv可按如下式子计算:
Figure BDA0002469319800000044
其中,掩膜系数标量ci和原型掩膜二维张量pi的相乘为标量和张量的相乘,即ci分别乘以pi的每一个元素,从而得到新的二维张量,然后再对这些二维张量求和得到实例掩膜的一个分段。
(6)得到所有实例掩膜的分段后,将它们依次做水平和竖直方向上的连接(concat),最终可以得到大小为Smask×Smask的实例掩膜M。
进一步的,所属步骤6中的各项损失函数的计算,其中,分类损失函数采用focalloss,回归损失函数采用IOU loss,实例掩膜损失函数采用二进制交叉熵损失函数,中心性损失函数采用带有sigmoid函数的二进制交叉熵损失。
进一步的,所述步骤7中对网络采用引入动量的随机梯度下降法进行训练,选取batch size大小为8,使用两块Tesla P100 GPU进行训练。
进一步的,所述步骤8中用训练好的网络做自然场景下的人体实例分割,在COCO2017test测试该方法的时候,步骤1、步骤2、步骤3和步骤4与训练时相同,步骤5中生成原型掩膜中感兴趣区域时,采用生成的回归结果进行定位,步骤6也和训练时相同,最后得到图片中人体的实例分割结果。
有益效果:与现有技术相比,本发明的技术方案具有以下有益技术效果:
本发明所提出的自然场景下的人体实例分割方法,具有单阶段、全卷积、不需要anchors等特点,从而具有较快的运行速度,实现了实时人体实例分割;同时,本发明具备生成原型掩膜感兴趣区域的能力,并且采用了分段线性组合的方式结合掩膜系数和原型掩膜,从而得到最终的实例掩膜,因此具有较高的查准率。
本方法在MS COCO 2017数据集上完成了训练和测试,其中,训练采用COCO2017train数据集,测试采用COCO 2017val数据集,并且从两个数据集中都筛选出了包含人体实例标注的图片进行训练和测试,舍弃其余图片。本方法获得了可以与目前主流方法相比较的性能,可以实现41.4fps速度下的实时人体实例分割,同时人体实例分割的平均查准率可以达到34.8%。
附图说明
图1是本发明整体网络结构图。
图2是本发明中生成实例掩膜的方法示意图。
图3是本发明在COCO 2017val数据集上的部分测试结果图。
具体实施方式
本发明旨在设计一种新的基于深度学习的自然场景下的人体实例分割方法,该方法应该是全卷积单阶段的,通过借鉴YOLACT方法的设计思想,同时重新设计原型掩膜生成方式以及重新设计原型掩膜和掩膜系数相结合的方式,取得良好的人体实例分割以及目标检测性能。
其中,一个人体实例指图片中的一个人,对一个人体实例的定位指画出该人体实例的边界框,对人体实例的分类指的是判断该边界框属于人这个类别还是背景,对一个人体实例的分割即通过实例掩膜标注出该人体实例在图像中所覆盖的像素点。实例掩膜与实例之间是一一对应的,对于一个实例掩膜而言,在其对应的实例所在的像素取值为1,其他像素取值为0,,即在图像中标注了一个实例所在的像素。
该方法在MS COCO数据集中包含人体实例标签的图片上实现训练和测试,训练之前首先需要从COCO数据集中挑选出包含人体实例标签的图片,去除其他图片。COCO数据集通过表示一个人体实例轮廓的一系列点的位置来对该人体实例进行标注,可以在对数据集进行处理时将其转化为二进制掩膜的形式,为后续计算实例分割损失做好准备。
本方法属于基于人体实例划分的人体实例分割方法,即先对于人体实例进行检测,然后再对每个人体实例进行分割。对于人体实例进行检测的过程就等同于目标检测的过程,对人体实例进行定位和分类(二分类:背景或者人)。对人体进行目标检测的过程,通过逐点位地进行预测实现,每个点位是由原始图片经过骨干网络进行特征提取后,得到的金字塔特征图上的每个点映射到原图上的一点得到。
COCO数据集中本身已包含对人体实例的目标检测和实例分割标签,包括该人体实例的边界框真实值、所属的类别以及该人体实例的轮廓点。基于这些已有的标注和前文对于点位的计算,可以计算每个待预测的点位的回归、分类和分割的真实值。
本发明采用COCO 2017数据集作为训练和测试数据集,并且从中挑选出包含人体实例标注的图像,舍弃其余的图像。COCO的全称是Common Objects in COntext,是微软团队提供的一个可以用来进行图像识别的数据集。MS COCO数据集中的图像分为训练、验证和测试集。COCO通过在Flickr上搜索80个对象类别和各种场景类型来收集图像,其使用了亚马逊的Mechanical Turk(AMT)。Coco 2017数据集是自然场景下目标检测以及人体实例分割的公开数据集,同时也是计算机视觉领域认可的标准数据集。COCO数据集包括80个类别的物体实例标签,其中包括人和其他生活中常见物体和动物等。
在训练时使用COCO 2017train数据集,在测试时使用COCO 2017val数据集,并且从两个数据集中都筛选出了包含人体实例标注的图片进行训练和测试,舍弃其余图片。另外,在训练时采用多尺度(multi-scale)训练方式,即对于每batch送入网络的图片,在保持原图长宽比的前提下,先将图片的较短边resize到整数值区间[680,800]中的任意大小,再送入网络的backbone。测试时,在保持原图长宽比的前提下,将每个batch的图片较短的一边resize成一个设定的标准大小,然后再送入网络的Backbone。
本发明整体网络结构如图1所示。
本方法采用pytorch框架编程实现,具体实施步骤如下:
1、通过骨干网络(backbone)从输入图像中实现特征图提取;
采用残差网络+特征金字塔网络作为骨干网络从输入图片中提取特征图,将包含人体的原始图像输入残差网络,通过残差网络的conv3_x,conv4_x和conv5_x分别生成特征图C3、C4和C5,特征图C3、C4和C5分别经过1*1的卷积得到金字塔特征图P3、P4和P5,金字塔特征图P5通过两次步长为2的卷积分别得到金字塔特征图P6和P7。最终,经过骨干网络提取得到的特征图为P3、P4、P5、P6和P7这五层特征图
2、利用得到的特征图,通过全卷积网络实现掩膜系数计算、中心性指标计算、分类和回归计算;
首先将通过骨干网络得到的特征图P3、P4、P5、P6、P7,再将其送入四层3*3卷积层,保持特征图尺寸不变,计算得到分类共享特征图,然后将分类共享特征图送入分类卷积层(一层3*3卷积层),得到类别计算结果,将分类共享特征图送入中心性计算卷积层(一层3*3卷积层),得到中心性指标计算结果,将特征图P3、P4、P5、P6、P7送入回归卷积层(五层3*3卷积层),计算得到回归结果,将特征图P3、P4、P5、P6、P7送入掩膜系数计算卷积层(五层3*3卷积层),计算得到掩膜系数。
其中,中心性指标以及分类和回归结果与FCOS网络相同,得到的掩膜系数维度为H×W×Ccoef,其中,H×W表示特征图的尺寸,Ccoef表示掩膜系数的通道数,且Ccoef=Scrop×Scrop×k2,其中Scrop表示利用ROIAlign在原型掩膜上截取的感兴趣区域的尺寸,k表示实例掩膜在水平和竖直两个方向上的分段组数,假设实例掩膜在水平和竖直两个方向上的分段组数相同。
3、利用得到的特征图,通过全卷积网络生成原型掩膜;
从生成的特征图P3、P4、P5、P6、P7中选择P3送入原型掩膜生成网络,经过五层3*3卷积层后,再通过Sigmoid激活函数输出原型掩膜,原型掩膜也是针对特征图P3上的每个点输出的。原型掩膜的维度为H×W×Ccoef,其中H×W表示输入原型生成网络的特征图的尺寸,Cproto表示原型掩膜的通道数,且Cproto=Smask×Smask,其中Smask表示最终期望生成的实例掩膜尺寸。
4、使用Mask R-CNN中的ROIAlign在生成的原型掩膜上截取感兴趣的区域;
通过原型掩膜生成网络得到原型掩膜,根据原型原膜和目标人体边界框的真实值,通过ROIAlign提取原型mask中感兴趣的区域。其具体步骤包括:
1.根据尺度对应关系,计算目标人体边界框的真实值对应到特征图上的区域,不作任何量化;
2.将候选区域分割成Scrop×Scrop个单元,每个单元的边界也不做量化;
3.将每个单元按十字形平分成四份,每一份取其中心点位置,根据每个中心点四周的像素值,用双线性内插的方法计算出这四个中心点位置的值,然后进行最大池化操作。
经过ROIAlign,得到的原型掩膜感兴趣区域维度为nobj×Scrop×Scrop×Cproto其中,nobj表示检测到的物体个数,Scrop表示得到的原型掩膜感兴趣区域的尺度,Cproto为得到的原型掩膜通道数。
5、将原型掩膜中的感兴趣的区域和掩膜系数相结合得到最终的实例掩膜;
通过ROIAlign获得原型掩膜中感兴趣的区域后,采用分段线性组合的方式,通过结合原型掩膜感兴趣区域以及掩膜系数生成实例掩膜。如图2所示,具体步骤如下:
(1)设最终期望生成的实例掩膜M的大小为Smask×Smask,则对于原型掩膜而言,设置其通道数Cproto=Smask 2,设原型掩膜的感兴趣区域的边长为Scrop,经过ROIAlign,得到的原型掩膜感兴趣区域维度为nobj×Scrop 2×Cproto=nobj×Scrop 2×Smask 2,经过张量形状重塑(reshape)操作后,得到原型掩膜感兴趣区域维度为nobj×Smask 2×Scrop 2,其中nobj表示待预测的目标实例个数。
(2)对于掩膜系数而言,根据原型掩膜的感兴趣区域的边长为Scrop,设原型掩膜在水平和竖直两个方向上的都分成k段,则掩膜系数的通道数Ccoef设置为
Ccoef=Scrop 2×k2
经过对特征图上的位置进行筛选后,得到掩膜系数的维度为nobj×Ccoef=nobj×Scrop 2×k2
(3)对于每一个待预测的目标而言,其原型掩膜张量维度为Smask×Smask×Scrop 2,沿其水平和竖直方向各分为k段,每一段原型掩膜的维度为
Figure BDA0002469319800000081
即将原型掩膜共分成k2段。如图2中所示,设置分段数目k=2,即将原型掩膜共分成4段。
(4)对于每一个待预测的目标而言,其掩膜系数张量维度为Scrop×Scrop×k2,将其沿着深度方向分为k2段,每一段掩膜系数的维度为Scrop×Scrop,可看成一个二维张量,且每一段掩膜系数与每一段原型掩膜一一对应。如图2中所示,设置分段数目k=2,即掩膜系数共分成4段,且每一段掩膜系数与每一段原型掩膜一一对应,如掩膜系数中蓝色的分段和原型掩膜中蓝色的分段对应。
(5)将每一段原型掩膜和每一段掩膜系数相结合,生成实例掩膜的每一个分段。
具体的,对于每一个维度为
Figure BDA0002469319800000082
的原型掩膜分段,可看成由Scrop 2个大小为
Figure BDA0002469319800000083
的原型掩膜二维张量组成,可将这些原型掩膜二维张量记为为
Figure BDA0002469319800000084
Figure BDA0002469319800000095
对于每一个维度为Scrop×Scrop的掩膜系数分段,可看成由Scrop 2个掩膜系数标量组成的二维张量,可将这些掩膜系数标量记为
Figure BDA0002469319800000096
如图2中所示,可设置Scrop=7,则每个掩膜系数分段由49个掩膜系数标量组成。
则实例掩膜的一个分段Mdiv可按如下式子计算:
Figure BDA0002469319800000091
其中,掩膜系数标量ci和原型掩膜二维张量pi的相乘为标量和张量的相乘,即ci分别乘以pi的每一个元素,从而得到新的二维张量,然后再对这些二维张量求和得到实例掩膜的一个分段。
如图2中所示,对图中蓝色的分段进行上述操作后,需要对每一个掩膜系数和对应的原型掩膜分段都进行上述的操作。
(6)如图2中所示,得到所有实例掩膜的分段后,将它们依次做水平和竖直方向上的连接(concat),图中取k=2,则将四块颜色分别为蓝色、橙色、黄色和绿色的分段连接在一起,得到最终的实例掩膜。最终,可以得到大小为Smask×Smask的实例掩膜M。
在一个具体实施例中,最终的实例掩膜大小设置为28*28,在原图上进行展现时,可以通过上采样将实例掩膜还原到原来图片中人体的尺度。
6、进行分类和回归的loss计算、中心性的loss计算以及实例掩膜的loss计算:
分类损失函数采用focal loss,其具体表达式如下:
Figure BDA0002469319800000092
其中,
Figure BDA0002469319800000094
表示预测的类别,y表示真实的类别,γ表示难易分类样本平衡因子,α表示正负样本平衡因子。
回归损失函数采用IOU loss,其具体表达式如下:
Figure BDA0002469319800000093
其中,
Figure BDA0002469319800000097
表示预测得到的人体实例的边界框,x表示COCO数据集标注的人体实例的真实的边界框,
Figure BDA0002469319800000098
表示这两个边界框的重叠(交集)部分的像素数,
Figure BDA0002469319800000099
表示这两个边界框的并集区域包含的像素数。
实例掩膜损失函数采用二进制交叉熵损失函数(Binary Cross Entropy loss),对每个实例掩膜而言,其具体表达式如下:
Figure BDA0002469319800000101
其中,y表示该位置上预测得到的掩膜取值(0~1),
Figure BDA0002469319800000106
表示真实的掩膜取值0或1。
中心性损失函数采用带有sigmoid函数的二进制交叉熵损失,中心性定义采用FCOS网络的定义,表征一个位置的中心性(Center-ness),其表达式如下:
Figure BDA0002469319800000102
其中,l*表示预测得到的该位置距离边界框左边界的距离,r*表示预测得到的该位置距离边界框右边界的距离,t*表示预测得到的该位置距离边界框上边界的距离,b*表示预测得到的该位置距离边界框下边界的距离。
带有sigmoid函数的二进制交叉熵损失函数如下:
Figure BDA0002469319800000103
其中,
Figure BDA0002469319800000104
表示原本预测值
Figure BDA0002469319800000105
的sigmoid函数。
7、采用随机梯度下降方法不断迭代优化神经网络,最终得到训练好的网络
所述步骤7中对网络采用引入动量的随机梯度下降法进行训练,选取batch size大小为8,使用两块Tesla P100GPU进行训练,设置基础学习率为0.005。
本发明测试的具体实现步骤如下:
1.通过骨干网络(backbone)从输入图像中实现特征图提取,与训练时相同;
2.利用得到的特征图,通过全卷积网络实现掩膜系数计算、中心性指标计算、分类和回归计算,与训练时相同;
3.利用得到的特征图,通过全卷积网络生成原型掩膜,与训练的时候相同;
4.使用ROIAlign在生成的原型掩膜上截取感兴趣的区域,测试时使用步骤2回归得到的边界框进行ROIAlign操作,截取原型掩膜上感兴趣的区域;
5.将原型掩膜中的感兴趣的区域和掩膜系数相结合得到最终的实例掩膜,与训练时相同;
6.根据COCO 2017val数据集的标签真实值评测网络性能,评测主要考察两个指标:通过人体实例分割得到的实例掩膜的平均查准率(mAP)以及实现人体实例分割的速度(41.4fps)。测试结果如下表所示:
表格1:人体实例分割性能
Method Backbone AP AP<sub>50</sub> AP<sub>75</sub> AP<sub>s</sub> AP<sub>M</sub> AP<sub>L</sub> FPS
Ours ResNet50+FPN 34.8 70.2 31.6 12.7 41.1 56.8 41.4
根据表格1给出的结果,本发明实现了实时人体实例分割,并且具有较高的查准率,说明本发明有具有较好的算法性能和实用价值。本发明在COCO 2017val数据集上的部分测试图片如图2所示。

Claims (9)

1.一种基于深度学习的自然场景下全卷积单阶段人体实例分割方法,其特征在于,该方法包括如下步骤:
步骤一:通过骨干网络从输入的包含人体的自然场景图像中实现特征图提取;
步骤二:利用得到的特征图,通过全卷积网络实现掩膜系数计算、中心性指标计算、分类和回归计算;
步骤三:利用得到的特征图,通过全卷积网络生成原型掩膜,原型掩膜是用来生成最终实例掩膜的组成元素之一;
步骤四:通过ROIAlign在生成的原型掩膜上截取感兴趣的区域;
步骤五:将原型掩膜中的感兴趣的区域和掩膜系数相结合得到最终的实例掩膜;
步骤六:根据分类结果、回归结果、中心性指标和计算得到的实例掩膜,进行分类和回归的loss计算、中心性的loss计算以及实例掩膜的loss计算;
步骤七:在COCO-2017-train数据集上采用随机梯度下降方法不断迭代优化神经网络,最终得到训练好的网络;
步骤八:将训练好的网络用于自然场景下的人体实例分割和目标检测。
2.根据权利要求 1所述的一种基于深度学习的自然场景下全卷积单阶段人体实例分割方法,其特征在于,所述步骤1中的特征图提取,采用残差网络+特征金字塔网络作为骨干网络从输入图片中提取特征图。
3.根据权利要求 1所述的一种基于深度学习的自然场景下全卷积单阶段人体实例分割方法,其特征在于,所述步骤2中对掩膜系数、中心性指标以及分类和回归的计算,是通过全卷积网络对步骤1中输出的特征图进行处理实现的,通过全卷积网络对步骤1中输出的特征图逐点位地计算掩膜系数、中心性指标以及分类和回归结果,其中,中心性指标以及分类和回归结果与FCOS网络相同,得到的掩膜系数维度为H×W×Ccoef,其中,H×W表示特征图的尺寸,Ccoef表示掩膜系数的通道数,且Ccoef=Scrop×Scrop×k2,其中,Scrop表示利用ROIAlign在原型掩膜上截取的感兴趣区域的尺寸,k表示实例掩膜在水平和竖直两个方向上的分段组数,假设实例掩膜在水平和竖直两个方向上的分段组数相同。
4.根据权利要求 1所述的一种基于深度学习的自然场景下全卷积单阶段人体实例分割方法,其特征在于,所属步骤3中的原型掩膜生成,选取特征图中的最浅层特征图送入原型生成网络,经过五层3*3的卷积层,再经过Sigmoid函数后,得到针对于整体特征图而言的原型掩膜,原型掩膜的维度为H×W×Ccoef,其中,H×W表示输入原型生成网络的特征图的尺寸,Cproto表示原型掩膜的通道数,且Cproto=Smask×Smask,其中,Smask表示最终期望生成的实例掩膜尺寸。
5.根据权利要求 1中所述 的一种基于深度学习的自然场景下全卷积单阶段人体实例分割方法,其特征在于,所述步骤4中的通过ROIAlign提取原型掩膜中感兴趣的区域,得到原型掩膜后,根据原型掩膜和目标人体边界框的真实值,通过ROIAlign提取原型mask中感兴趣的区域,其具体步骤包括:
(1)根据尺度对应关系,计算目标人体边界框的真实值对应到特征图上的区域,不作任何量化;
(2)将候选区域分割成Scrop×Scrop个单元,每个单元的边界不做量化;
(3)将每个单元按照十字形平分成四份,每一份取其中心点位置,根据每个中心点四周的像素点取值,用双线性内插的方法计算出这四个中心点位置的值,然后进行最大池化操作;
经过ROIAlign,得到的原型掩膜感兴趣区域维度为nobj×Scrop×Scrop×Cproto,其中,nobj表示待预测的目标实例个数,Scrop表示得到的原型掩膜感兴趣区域的尺度,Cproto为得到的原型掩膜通道数。
6.根据权利要求 1所述的一种基于深度学习的自然场景下全卷积单阶段人体实例分割方法,其特征在于,所述步骤5中的原型掩膜和掩膜系数的结合,其方法为:采用分段线性组合的方式,通过结合原型掩膜感兴趣区域以及掩膜系数生成实例掩膜,具体步骤如下:
(1)设最终期望生成的实例掩膜M的大小为Smask×Smask,则对于原型掩膜而言,设置其通道数Cproto=Smask 2,设原型掩膜的感兴趣区域的边长为Scrop,经过ROIAlign,得到的原型掩膜感兴趣区域维度为nobj×Scrop 2×Cproto=nobj×Scrop 2×Smask 2,经过张量形状重塑操作后,得到原型掩膜感兴趣区域维度为nobj×Smask 2×Scrop 2,其中,nobj表示待预测的目标实例个数;
(2)对于掩膜系数而言,根据原型掩膜的感兴趣区域的边长为Scrop,设原型掩膜在水平和竖直两个方向上的都分成k段,则掩膜系数的通道数Ccoef设置为:
Ccoef=Scrop 2×k2
经过对特征图上的位置进行筛选后,得到掩膜系数的维度为nobj×Ccoef=nobj×Scrop 2×k2
(3)对于每一个待预测的目标而言,其原型掩膜张量维度为Smask×Smask×Scrop 2,沿其水平和竖直方向各分为k段,每一段原型掩膜的维度为
Figure FDA0002469319790000031
即将原型掩膜共分成k2段;
(4)对于每一个待预测的目标而言,其掩膜系数张量维度为Scrop×Scrop×k2,将其沿着深度方向分为k2段,每一段掩膜系数的维度为Scrop×Scrop,可看成一个二维张量,且每一段掩膜系数与每一段原型掩膜一一对应;
(5)将每一段原型掩膜和每一段掩膜系数相结合,生成实例掩膜的每一个分段;
具体的,对于每一个维度为
Figure FDA0002469319790000032
的原型掩膜分段,可看成由Scrop 2个大小为
Figure FDA0002469319790000033
的原型掩膜二维张量组成,可将这些原型掩膜二维张量记为
Figure FDA0002469319790000037
Figure FDA0002469319790000034
对于每一个维度为Scrop×Scrop的掩膜系数分段,可看成由Scrop 2个掩膜系数标量组成的二维张量,可将这些掩膜系数标量记为
Figure FDA0002469319790000035
则实例掩膜的一个分段Mdiv可按如下式子计算:
Figure FDA0002469319790000036
其中,掩膜系数标量ci和原型掩膜二维张量pi的相乘为标量和张量的相乘,即ci分别乘以pi的每一个元素,从而得到新的二维张量,然后再对这些二维张量求和得到实例掩膜的一个分段;
(6)得到所有实例掩膜的分段后,将它们依次做水平和竖直方向上的连接,最终可以得到大小为Smask×Smask的实例掩膜M。
7.根据权利要求 1中所述的一种基于深度学习的自然场景下全卷积单阶段人体实例分割方法,其特征在于,所属步骤6中的各项损失函数的计算,其中,分类损失函数采用focal loss,回归损失函数采用IOU loss,实例掩膜损失函数采用二进制交叉熵损失函数,中心性损失函数采用带有sigmoid函数的二进制交叉熵损失。
8.根据权利要求 1中所述的一种基于深度学习的自然场景下全卷积单阶段人体实例分割方法,其特征在于,所述步骤7中对网络采用引入动量的随机梯度下降法进行训练,选取batch size大小为8,使用两块Tesla P100 GPU进行训练。
9.根据权利要求 1中所述 的基于深度学习的自然场景下全卷积单阶段人体实例分割方法,其特征在于,所述步骤8中用训练好的网络做自然场景下的人体实例分割,在COCO2017 test测试该方法的时候,步骤1、步骤2、步骤3和步骤4与训练时相同,步骤5中生成原型掩膜中感兴趣区域时,采用生成的回归结果进行定位,步骤6也和训练时相同,最后得到图片中人体的实例分割结果。
CN202010343727.5A 2020-04-27 2020-04-27 一种自然场景下的全卷积单阶段的人体实例分割方法 Active CN111597920B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010343727.5A CN111597920B (zh) 2020-04-27 2020-04-27 一种自然场景下的全卷积单阶段的人体实例分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010343727.5A CN111597920B (zh) 2020-04-27 2020-04-27 一种自然场景下的全卷积单阶段的人体实例分割方法

Publications (2)

Publication Number Publication Date
CN111597920A CN111597920A (zh) 2020-08-28
CN111597920B true CN111597920B (zh) 2022-11-15

Family

ID=72192118

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010343727.5A Active CN111597920B (zh) 2020-04-27 2020-04-27 一种自然场景下的全卷积单阶段的人体实例分割方法

Country Status (1)

Country Link
CN (1) CN111597920B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112085728B (zh) * 2020-09-17 2022-06-21 哈尔滨工程大学 一种海底管道及泄漏点检测方法
CN112164077B (zh) * 2020-09-25 2023-12-29 陕西师范大学 基于自下而上路径增强的细胞实例分割方法
CN112232200A (zh) * 2020-10-15 2021-01-15 浙江凌图科技有限公司 一种基于Yolact目标分割模型的停机坪状态监管方法
CN112396601B (zh) * 2020-12-07 2022-07-29 中山大学 一种基于内窥镜图像的实时的神经外科手术器械分割方法
CN112907605B (zh) * 2021-03-19 2023-11-17 南京大学 用于实例分割的数据增强方法
CN116721263A (zh) * 2023-05-23 2023-09-08 山东大学 一种基于实时实例分割的轨道扣件状态识别方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109584248B (zh) * 2018-11-20 2023-09-08 西安电子科技大学 基于特征融合和稠密连接网络的红外面目标实例分割方法
CN109800631B (zh) * 2018-12-07 2023-10-24 天津大学 基于掩膜区域卷积神经网络的荧光编码微球图像检测方法
CN111046880B (zh) * 2019-11-28 2023-12-26 中国船舶重工集团公司第七一七研究所 一种红外目标图像分割方法、系统、电子设备及存储介质

Also Published As

Publication number Publication date
CN111597920A (zh) 2020-08-28

Similar Documents

Publication Publication Date Title
CN111597920B (zh) 一种自然场景下的全卷积单阶段的人体实例分割方法
CN109859190B (zh) 一种基于深度学习的目标区域检测方法
CN109685776B (zh) 一种基于ct图像的肺结节检测方法及系统
CN109584248B (zh) 基于特征融合和稠密连接网络的红外面目标实例分割方法
CN108647585B (zh) 一种基于多尺度循环注意力网络的交通标识符检测方法
CN111598030B (zh) 一种航拍图像中车辆检测和分割的方法及系统
CN110032925B (zh) 一种基于改进胶囊网络与算法的手势图像分割与识别方法
CN104484886B (zh) 一种mr图像的分割方法及装置
CN111079739B (zh) 一种多尺度注意力特征检测方法
CN109784283A (zh) 基于场景识别任务下的遥感图像目标提取方法
TWI809410B (zh) 物體偵測方法及其卷積神經網路
CN109635812B (zh) 图像的实例分割方法及装置
CN109670555B (zh) 基于深度学习的实例级行人检测和行人重识别系统
CN109977834B (zh) 从深度图像中分割人手与交互物体的方法和装置
CN111739037B (zh) 一种针对室内场景rgb-d图像的语义分割方法
CN116645592B (zh) 一种基于图像处理的裂缝检测方法和存储介质
CN111932529A (zh) 一种图像分割方法、装置及系统
CN111401293A (zh) 一种基于Head轻量化Mask Scoring R-CNN的手势识别方法
CN114445715A (zh) 一种基于卷积神经网络的农作物病害识别方法
CN116129291A (zh) 一种面向无人机畜牧的图像目标识别方法及其装置
CN113221731B (zh) 一种多尺度遥感图像目标检测方法及系统
CN113076889B (zh) 集装箱铅封识别方法、装置、电子设备和存储介质
CN113570573A (zh) 混合注意力机制的肺结节假阳性排除方法、系统、设备
CN113096080A (zh) 图像分析方法及系统
CN113111740A (zh) 一种遥感图像目标检测的特征编织方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant