CN111597920B

CN111597920B - 一种自然场景下的全卷积单阶段的人体实例分割方法

Info

Publication number: CN111597920B
Application number: CN202010343727.5A
Authority: CN
Inventors: 黄永明; 周宇; 孙昆阳
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2020-04-27
Filing date: 2020-04-27
Publication date: 2022-11-15
Anticipated expiration: 2040-04-27
Also published as: CN111597920A

Abstract

本发明公开了一种新的适用于自然场景下的全卷积单阶段的人体实例分割方法，该方法包括特征图提取、生成原型掩膜、掩膜系数计算、分类、位置回归、中心性计算、通过ROIAlign产生感兴趣区域以及原型掩膜和掩膜系数相结合得到最终的实例掩膜。在特征图提取时，采用ResNet+FPN作为网络的backbone，使用P3、P4、P5、P6、P7作为计算掩膜系数、分类和回归的特征图，使用P3作为计算原型掩膜的特征图，原型掩膜和掩膜系数的结合采用分段线性组合的方式，本方法可以在MS COCO 2017数据集上实现41.4fps速度下34.8mAP的实时人体实例分割。

Description

一种自然场景下的全卷积单阶段的人体实例分割方法

技术领域

本发明涉及一种自然场景下的全卷积单阶段的人体实例分割方法，属于计算机视觉技术领域。

背景技术

自然场景下的人体实例分割是当前计算机视觉领域一个新的难题，实例分割在一定程度上可以理解为目标检测和语义分割的结合，实例分割可以被广泛应用于无人驾驶、医疗图像分析、智能机器人以及地理信息系统等领域，其中人体实例分割显得尤为重要。

当下，目标检测和语义分割任务的主流解决方案通过卷积神经网络实现，实例分割也不例外，目前已经提出的性能较好的实例分割网络包括two-stage的Mask R-CNN和FCIS以及one-stage的YOLACT等。Mask R-CNN缺点主要在于检测器采用Faster-RCNN，需要设计大量的anchors，引入很多人工设计的尺度和比例参数，FCIS的主要缺点在于在第一阶段需要通过RPN生成大量的候选框，YOLACT网络的缺点在于使用基于全图的原型掩膜和掩膜系数做结合生成最终的实例掩膜，缺少对于感兴趣区域的提取。

发明内容

发明目的，本发明旨在解决现有方法需要设计大量锚点、具有双阶段架构、检测速度较慢，缺少实时应用价值的缺点，针对自然场景下的人体实例分割问题，提出一种新的自然场景下的全卷积单阶段实时人体实例分割方法，该方法应该是单阶段的、不需要使用锚点的，可以实现实时的人体实例分割，同时具有较高的查准率。

为实现本发明的目的，本发明所采用的技术方案是：一种基于深度学习的自然场景下全卷积单阶段人体实例分割方法，实现如下功能：对一张包含人体的自然场景下的图片，通过深度卷积神经网络处理实现对所有人体实例的实时分割。

本方法生成实例掩膜的思路为：通过将由卷积神经网络预测得到的原型掩膜和掩膜系数进行分段线性组合，得到最终的实例掩膜。

该方法的训练过程包括如下步骤：

步骤一：通过骨干网络从输入的包含人体的自然场景图像中实现特征图提取；

步骤二：基于骨干网络提取到的特征图，通过全卷积网络实现掩膜系数计算、中心性指标计算、分类和回归计算；

步骤三：基于骨干网络提取到的特征图，通过全卷积网络生成原型掩膜，原型掩膜是用来生成最终实例掩膜的组成元素之一；

步骤四：通过ROIAlign在生成的原型掩膜上截取感兴趣的区域；

步骤五：将原型掩膜中的感兴趣的区域和掩膜系数相结合得到最终的实例掩膜；

步骤六：根据分类结果、回归结果、中心性指标和计算得到的实例掩膜，进行分类和回归的loss计算、中心性的loss计算以及实例掩膜的loss计算；

步骤七：在COCO-2017-train数据集上采用随机梯度下降方法不断迭代优化神经网络，最终得到训练好的网络；

步骤八：将训练好的网络用于自然场景下的人体实例分割和目标检测。

进一步的，所述步骤1中的特征图提取，采用与FCOS网络相同的残差网络+特征金字塔网络作为骨干网络，从输入图片中提取到多尺度的特征图P3、P4、P5、P6、P7。

进一步的，所述步骤2中的基于提取到的特征图，通过全卷积网络实现掩膜系数、中心性指标以及分类和回归的计算，具体而言是通过全卷积网络对步骤1中输出的特征图逐点位地计算掩膜系数、中心性指标以及分类和回归结果。首先将通过骨干网络得到的金字塔特征图P3、P4、P5、P6、P7，再将其送入四层3*3卷积层，保持特征图尺寸不变，计算得到分类共享特征图，然后将分类共享特征图送入分类卷积层得到类别计算结果，将分类共享特征图送入中心性计算卷积层得到中心性计算结果，将特征图P3、P4、P5、P6、P7送入回归卷积层，即五层3*3卷积层，计算得到回归结果，将特征图P3、P4、P5、P6、P7送入掩膜系数计算卷积层，即五层3*3卷积层，计算得到掩膜系数。

其中，中心性指标以及分类和回归结果与FCOS网络相同，得到的掩膜系数维度为H×W×C_coef，其中，H×W表示特征图的尺寸，C_coef表示掩膜系数的通道数，且C_coef＝S_crop×S_crop×k²，其中S_crop表示利用ROIAlign在原型掩膜上截取的感兴趣区域的尺寸，k表示实例掩膜在水平和竖直两个方向上的分段组数，假设实例掩膜在水平和竖直两个方向上的分段组数相同。

进一步的，所属步骤3中的原型掩膜生成，从生成的特征图P3、P4、P5、P6、P7中选择P3送入原型掩膜生成网络，经过五层3*3卷积层后，再通过Sigmoid激活函数输出原型掩膜，原型掩膜也是针对特征图P3上的每个点输出的。原型掩膜的维度为H×W×C_coef，其中H×W表示输入原型生成网络的特征图的尺寸，C_proto表示原型掩膜的通道数，且C_proto＝S_mask×S_mask，其中S_mask表示最终期望生成的实例掩膜尺寸。

进一步的，所述步骤4中的通过ROIAlign提取原型掩膜中感兴趣的区域，通过原型掩膜生成网络得到原型掩膜，根据原型原膜和目标人体边界框的真实值，通过ROIAlign提取原型mask中感兴趣的区域。其具体步骤包括：

1.根据尺度对应关系，计算目标人体边界框的真实值对应到特征图上的区域，不作任何量化；

2.将候选区域分割成S_crop×S_crop个单元，每个单元的边界也不做量化；

3.将每个单元按照十字形平分成四份，每一份取其中心点位置，根据每个中心点四周的像素点取值，用双线性内插的方法计算出这四个中心点位置的值，然后进行最大池化操作。

经过ROIAlign，得到的原型掩膜感兴趣区域维度为n_obj×S_crop×S_crop×C_proto其中，n_obj表示检测到的物体个数，S_crop表示得到的原型掩膜感兴趣区域的尺度，C_proto为得到的原型掩膜通道数。

进一步的，所述步骤5中的原型掩膜和掩膜系数的结合，其方法为：采用分段线性组合的方式，通过结合原型掩膜感兴趣区域以及掩膜系数生成实例掩膜。

具体步骤如下：

(1)设最终期望生成的实例掩膜M的大小为S_mask×S_mask，则对于原型掩膜而言，设置其通道数C_proto＝S_mask ²，设原型掩膜的感兴趣区域的边长为S_crop，经过ROIAlign，得到的原型掩膜感兴趣区域维度为n_obj×S_crop ²×C_proto＝n_obj×S_crop ²×S_mask ²，经过张量形状重塑(reshape)操作后，得到原型掩膜感兴趣区域维度为n_obj×S_mask ²×S_crop ²，其中n_obj表示待预测的目标实例个数。

(2)对于掩膜系数而言，根据原型掩膜的感兴趣区域的边长为S_crop，设原型掩膜在水平和竖直两个方向上的都分成k段，则掩膜系数的通道数C_coef设置为

C_coef＝S_crop ²×k²

经过对特征图上的位置进行筛选后，得到掩膜系数的维度为n_obj×C_coef＝n_obj×S_crop ²×k²。

(3)对于每一个待预测的目标而言，其原型掩膜张量维度为S_mask×S_mask×S_crop ²，沿其水平和竖直方向各分为k段，每一段原型掩膜的维度为

即将原型掩膜共分成k²段。

(4)对于每一个待预测的目标而言，其掩膜系数张量维度为S_crop×S_crop×k²，将其沿着深度方向分为k²段，每一段掩膜系数的维度为S_crop×S_crop，可看成一个二维张量，且每一段掩膜系数与每一段原型掩膜一一对应。

(5)将每一段原型掩膜和每一段掩膜系数相结合，生成实例掩膜的每一个分段。

具体的，对于每一个维度为

的原型掩膜分段，可看成由S_crop ²个大小为

的原型掩膜二维张量组成，可将这些原型掩膜二维张量记为为

对于每一个维度为S_crop×S_crop的掩膜系数分段，可看成由S_crop ²个掩膜系数标量组成的二维张量，可将这些掩膜系数标量记为

则实例掩膜的一个分段M^div可按如下式子计算：

其中，掩膜系数标量c_i和原型掩膜二维张量p_i的相乘为标量和张量的相乘，即c_i分别乘以p_i的每一个元素，从而得到新的二维张量，然后再对这些二维张量求和得到实例掩膜的一个分段。

(6)得到所有实例掩膜的分段后，将它们依次做水平和竖直方向上的连接(concat)，最终可以得到大小为S_mask×S_mask的实例掩膜M。

进一步的，所属步骤6中的各项损失函数的计算，其中，分类损失函数采用focalloss，回归损失函数采用IOU loss，实例掩膜损失函数采用二进制交叉熵损失函数，中心性损失函数采用带有sigmoid函数的二进制交叉熵损失。

进一步的，所述步骤7中对网络采用引入动量的随机梯度下降法进行训练，选取batch size大小为8，使用两块Tesla P100 GPU进行训练。

进一步的，所述步骤8中用训练好的网络做自然场景下的人体实例分割，在COCO2017test测试该方法的时候，步骤1、步骤2、步骤3和步骤4与训练时相同，步骤5中生成原型掩膜中感兴趣区域时，采用生成的回归结果进行定位，步骤6也和训练时相同，最后得到图片中人体的实例分割结果。

有益效果：与现有技术相比，本发明的技术方案具有以下有益技术效果：

本发明所提出的自然场景下的人体实例分割方法，具有单阶段、全卷积、不需要anchors等特点，从而具有较快的运行速度，实现了实时人体实例分割；同时，本发明具备生成原型掩膜感兴趣区域的能力，并且采用了分段线性组合的方式结合掩膜系数和原型掩膜，从而得到最终的实例掩膜，因此具有较高的查准率。

本方法在MS COCO 2017数据集上完成了训练和测试，其中，训练采用COCO2017train数据集，测试采用COCO 2017val数据集，并且从两个数据集中都筛选出了包含人体实例标注的图片进行训练和测试，舍弃其余图片。本方法获得了可以与目前主流方法相比较的性能，可以实现41.4fps速度下的实时人体实例分割，同时人体实例分割的平均查准率可以达到34.8％。

附图说明

图1是本发明整体网络结构图。

图2是本发明中生成实例掩膜的方法示意图。

图3是本发明在COCO 2017val数据集上的部分测试结果图。

具体实施方式

本发明旨在设计一种新的基于深度学习的自然场景下的人体实例分割方法，该方法应该是全卷积单阶段的，通过借鉴YOLACT方法的设计思想，同时重新设计原型掩膜生成方式以及重新设计原型掩膜和掩膜系数相结合的方式，取得良好的人体实例分割以及目标检测性能。

其中，一个人体实例指图片中的一个人，对一个人体实例的定位指画出该人体实例的边界框，对人体实例的分类指的是判断该边界框属于人这个类别还是背景，对一个人体实例的分割即通过实例掩膜标注出该人体实例在图像中所覆盖的像素点。实例掩膜与实例之间是一一对应的，对于一个实例掩膜而言，在其对应的实例所在的像素取值为1，其他像素取值为0,，即在图像中标注了一个实例所在的像素。

该方法在MS COCO数据集中包含人体实例标签的图片上实现训练和测试，训练之前首先需要从COCO数据集中挑选出包含人体实例标签的图片，去除其他图片。COCO数据集通过表示一个人体实例轮廓的一系列点的位置来对该人体实例进行标注，可以在对数据集进行处理时将其转化为二进制掩膜的形式，为后续计算实例分割损失做好准备。

本方法属于基于人体实例划分的人体实例分割方法，即先对于人体实例进行检测，然后再对每个人体实例进行分割。对于人体实例进行检测的过程就等同于目标检测的过程，对人体实例进行定位和分类(二分类：背景或者人)。对人体进行目标检测的过程，通过逐点位地进行预测实现，每个点位是由原始图片经过骨干网络进行特征提取后，得到的金字塔特征图上的每个点映射到原图上的一点得到。

COCO数据集中本身已包含对人体实例的目标检测和实例分割标签，包括该人体实例的边界框真实值、所属的类别以及该人体实例的轮廓点。基于这些已有的标注和前文对于点位的计算，可以计算每个待预测的点位的回归、分类和分割的真实值。

本发明采用COCO 2017数据集作为训练和测试数据集，并且从中挑选出包含人体实例标注的图像，舍弃其余的图像。COCO的全称是Common Objects in COntext，是微软团队提供的一个可以用来进行图像识别的数据集。MS COCO数据集中的图像分为训练、验证和测试集。COCO通过在Flickr上搜索80个对象类别和各种场景类型来收集图像，其使用了亚马逊的Mechanical Turk(AMT)。Coco 2017数据集是自然场景下目标检测以及人体实例分割的公开数据集，同时也是计算机视觉领域认可的标准数据集。COCO数据集包括80个类别的物体实例标签，其中包括人和其他生活中常见物体和动物等。

在训练时使用COCO 2017train数据集，在测试时使用COCO 2017val数据集，并且从两个数据集中都筛选出了包含人体实例标注的图片进行训练和测试，舍弃其余图片。另外，在训练时采用多尺度(multi-scale)训练方式，即对于每batch送入网络的图片，在保持原图长宽比的前提下，先将图片的较短边resize到整数值区间[680,800]中的任意大小，再送入网络的backbone。测试时，在保持原图长宽比的前提下，将每个batch的图片较短的一边resize成一个设定的标准大小，然后再送入网络的Backbone。

本发明整体网络结构如图1所示。

本方法采用pytorch框架编程实现，具体实施步骤如下：

1、通过骨干网络(backbone)从输入图像中实现特征图提取；

采用残差网络+特征金字塔网络作为骨干网络从输入图片中提取特征图，将包含人体的原始图像输入残差网络，通过残差网络的conv3_x，conv4_x和conv5_x分别生成特征图C3、C4和C5，特征图C3、C4和C5分别经过1*1的卷积得到金字塔特征图P3、P4和P5，金字塔特征图P5通过两次步长为2的卷积分别得到金字塔特征图P6和P7。最终，经过骨干网络提取得到的特征图为P3、P4、P5、P6和P7这五层特征图

2、利用得到的特征图，通过全卷积网络实现掩膜系数计算、中心性指标计算、分类和回归计算；

首先将通过骨干网络得到的特征图P3、P4、P5、P6、P7，再将其送入四层3*3卷积层，保持特征图尺寸不变，计算得到分类共享特征图，然后将分类共享特征图送入分类卷积层(一层3*3卷积层)，得到类别计算结果，将分类共享特征图送入中心性计算卷积层(一层3*3卷积层)，得到中心性指标计算结果，将特征图P3、P4、P5、P6、P7送入回归卷积层(五层3*3卷积层)，计算得到回归结果，将特征图P3、P4、P5、P6、P7送入掩膜系数计算卷积层(五层3*3卷积层)，计算得到掩膜系数。

3、利用得到的特征图，通过全卷积网络生成原型掩膜；

从生成的特征图P3、P4、P5、P6、P7中选择P3送入原型掩膜生成网络，经过五层3*3卷积层后，再通过Sigmoid激活函数输出原型掩膜，原型掩膜也是针对特征图P3上的每个点输出的。原型掩膜的维度为H×W×C_coef，其中H×W表示输入原型生成网络的特征图的尺寸，C_proto表示原型掩膜的通道数，且C_proto＝S_mask×S_mask，其中S_mask表示最终期望生成的实例掩膜尺寸。

4、使用Mask R-CNN中的ROIAlign在生成的原型掩膜上截取感兴趣的区域；

通过原型掩膜生成网络得到原型掩膜，根据原型原膜和目标人体边界框的真实值，通过ROIAlign提取原型mask中感兴趣的区域。其具体步骤包括：

3.将每个单元按十字形平分成四份，每一份取其中心点位置，根据每个中心点四周的像素值，用双线性内插的方法计算出这四个中心点位置的值，然后进行最大池化操作。

5、将原型掩膜中的感兴趣的区域和掩膜系数相结合得到最终的实例掩膜；

通过ROIAlign获得原型掩膜中感兴趣的区域后，采用分段线性组合的方式，通过结合原型掩膜感兴趣区域以及掩膜系数生成实例掩膜。如图2所示，具体步骤如下：

C_coef＝S_crop ²×k²

即将原型掩膜共分成k²段。如图2中所示，设置分段数目k＝2，即将原型掩膜共分成4段。

(4)对于每一个待预测的目标而言，其掩膜系数张量维度为S_crop×S_crop×k²，将其沿着深度方向分为k²段，每一段掩膜系数的维度为S_crop×S_crop，可看成一个二维张量，且每一段掩膜系数与每一段原型掩膜一一对应。如图2中所示，设置分段数目k＝2，即掩膜系数共分成4段，且每一段掩膜系数与每一段原型掩膜一一对应，如掩膜系数中蓝色的分段和原型掩膜中蓝色的分段对应。

具体的，对于每一个维度为

的原型掩膜分段，可看成由S_crop ²个大小为

如图2中所示，可设置S_crop＝7，则每个掩膜系数分段由49个掩膜系数标量组成。

则实例掩膜的一个分段M^div可按如下式子计算：

如图2中所示，对图中蓝色的分段进行上述操作后，需要对每一个掩膜系数和对应的原型掩膜分段都进行上述的操作。

(6)如图2中所示，得到所有实例掩膜的分段后，将它们依次做水平和竖直方向上的连接(concat)，图中取k＝2，则将四块颜色分别为蓝色、橙色、黄色和绿色的分段连接在一起，得到最终的实例掩膜。最终，可以得到大小为S_mask×S_mask的实例掩膜M。

在一个具体实施例中，最终的实例掩膜大小设置为28*28，在原图上进行展现时，可以通过上采样将实例掩膜还原到原来图片中人体的尺度。

6、进行分类和回归的loss计算、中心性的loss计算以及实例掩膜的loss计算：

分类损失函数采用focal loss，其具体表达式如下：

其中，

表示预测的类别，y表示真实的类别，γ表示难易分类样本平衡因子，α表示正负样本平衡因子。

回归损失函数采用IOU loss，其具体表达式如下：

其中，

表示预测得到的人体实例的边界框，x表示COCO数据集标注的人体实例的真实的边界框，

表示这两个边界框的重叠(交集)部分的像素数，

表示这两个边界框的并集区域包含的像素数。

实例掩膜损失函数采用二进制交叉熵损失函数(Binary Cross Entropy loss)，对每个实例掩膜而言，其具体表达式如下：

其中，y表示该位置上预测得到的掩膜取值(0～1)，

表示真实的掩膜取值0或1。

中心性损失函数采用带有sigmoid函数的二进制交叉熵损失，中心性定义采用FCOS网络的定义，表征一个位置的中心性(Center-ness)，其表达式如下：

其中，l^*表示预测得到的该位置距离边界框左边界的距离，r^*表示预测得到的该位置距离边界框右边界的距离，t^*表示预测得到的该位置距离边界框上边界的距离，b^*表示预测得到的该位置距离边界框下边界的距离。

带有sigmoid函数的二进制交叉熵损失函数如下：

其中，

表示原本预测值

的sigmoid函数。

7、采用随机梯度下降方法不断迭代优化神经网络，最终得到训练好的网络

所述步骤7中对网络采用引入动量的随机梯度下降法进行训练，选取batch size大小为8，使用两块Tesla P100GPU进行训练，设置基础学习率为0.005。

本发明测试的具体实现步骤如下：

1.通过骨干网络(backbone)从输入图像中实现特征图提取，与训练时相同；

2.利用得到的特征图，通过全卷积网络实现掩膜系数计算、中心性指标计算、分类和回归计算，与训练时相同；

3.利用得到的特征图，通过全卷积网络生成原型掩膜，与训练的时候相同；

4.使用ROIAlign在生成的原型掩膜上截取感兴趣的区域，测试时使用步骤2回归得到的边界框进行ROIAlign操作，截取原型掩膜上感兴趣的区域；

5.将原型掩膜中的感兴趣的区域和掩膜系数相结合得到最终的实例掩膜，与训练时相同；

6.根据COCO 2017val数据集的标签真实值评测网络性能，评测主要考察两个指标：通过人体实例分割得到的实例掩膜的平均查准率(mAP)以及实现人体实例分割的速度(41.4fps)。测试结果如下表所示：

表格1：人体实例分割性能

Method

Backbone

AP

AP50

AP75

APs

APM

APL

FPS

Ours

ResNet50+FPN

34.8

70.2

31.6

12.7

41.1

56.8

41.4

根据表格1给出的结果，本发明实现了实时人体实例分割，并且具有较高的查准率，说明本发明有具有较好的算法性能和实用价值。本发明在COCO 2017val数据集上的部分测试图片如图2所示。

Claims

1.一种基于深度学习的自然场景下全卷积单阶段人体实例分割方法，其特征在于，该方法包括如下步骤：

步骤二：利用得到的特征图，通过全卷积网络实现掩膜系数计算、中心性指标计算、分类和回归计算；

步骤三：利用得到的特征图，通过全卷积网络生成原型掩膜，原型掩膜是用来生成最终实例掩膜的组成元素之一；

2.根据权利要求 1所述的一种基于深度学习的自然场景下全卷积单阶段人体实例分割方法，其特征在于，所述步骤1中的特征图提取，采用残差网络+特征金字塔网络作为骨干网络从输入图片中提取特征图。

3.根据权利要求 1所述的一种基于深度学习的自然场景下全卷积单阶段人体实例分割方法，其特征在于，所述步骤2中对掩膜系数、中心性指标以及分类和回归的计算，是通过全卷积网络对步骤1中输出的特征图进行处理实现的，通过全卷积网络对步骤1中输出的特征图逐点位地计算掩膜系数、中心性指标以及分类和回归结果，其中，中心性指标以及分类和回归结果与FCOS网络相同，得到的掩膜系数维度为H×W×C_coef，其中，H×W表示特征图的尺寸，C_coef表示掩膜系数的通道数，且C_coef＝S_crop×S_crop×k²，其中，S_crop表示利用ROIAlign在原型掩膜上截取的感兴趣区域的尺寸，k表示实例掩膜在水平和竖直两个方向上的分段组数，假设实例掩膜在水平和竖直两个方向上的分段组数相同。

4.根据权利要求 1所述的一种基于深度学习的自然场景下全卷积单阶段人体实例分割方法，其特征在于，所属步骤3中的原型掩膜生成，选取特征图中的最浅层特征图送入原型生成网络，经过五层3*3的卷积层，再经过Sigmoid函数后，得到针对于整体特征图而言的原型掩膜，原型掩膜的维度为H×W×C_coef，其中，H×W表示输入原型生成网络的特征图的尺寸，C_proto表示原型掩膜的通道数，且C_proto＝S_mask×S_mask，其中，S_mask表示最终期望生成的实例掩膜尺寸。

5.根据权利要求 1中所述的一种基于深度学习的自然场景下全卷积单阶段人体实例分割方法，其特征在于，所述步骤4中的通过ROIAlign提取原型掩膜中感兴趣的区域，得到原型掩膜后，根据原型掩膜和目标人体边界框的真实值，通过ROIAlign提取原型mask中感兴趣的区域，其具体步骤包括：

(1)根据尺度对应关系，计算目标人体边界框的真实值对应到特征图上的区域，不作任何量化；

(2)将候选区域分割成S_crop×S_crop个单元，每个单元的边界不做量化；

(3)将每个单元按照十字形平分成四份，每一份取其中心点位置，根据每个中心点四周的像素点取值，用双线性内插的方法计算出这四个中心点位置的值，然后进行最大池化操作；

经过ROIAlign，得到的原型掩膜感兴趣区域维度为n_obj×S_crop×S_crop×C_proto，其中，n_obj表示待预测的目标实例个数，S_crop表示得到的原型掩膜感兴趣区域的尺度，C_proto为得到的原型掩膜通道数。

6.根据权利要求 1所述的一种基于深度学习的自然场景下全卷积单阶段人体实例分割方法，其特征在于，所述步骤5中的原型掩膜和掩膜系数的结合，其方法为：采用分段线性组合的方式，通过结合原型掩膜感兴趣区域以及掩膜系数生成实例掩膜，具体步骤如下：

(1)设最终期望生成的实例掩膜M的大小为S_mask×S_mask，则对于原型掩膜而言，设置其通道数C_proto＝S_mask ²，设原型掩膜的感兴趣区域的边长为S_crop，经过ROIAlign，得到的原型掩膜感兴趣区域维度为n_obj×S_crop ²×C_proto＝n_obj×S_crop ²×S_mask ²，经过张量形状重塑操作后，得到原型掩膜感兴趣区域维度为n_obj×S_mask ²×S_crop ²，其中，n_obj表示待预测的目标实例个数；

(2)对于掩膜系数而言，根据原型掩膜的感兴趣区域的边长为S_crop，设原型掩膜在水平和竖直两个方向上的都分成k段，则掩膜系数的通道数C_coef设置为：

C_coef＝S_crop ²×k²

经过对特征图上的位置进行筛选后，得到掩膜系数的维度为n_obj×C_coef＝n_obj×S_crop ²×k²；

即将原型掩膜共分成k²段；

(4)对于每一个待预测的目标而言，其掩膜系数张量维度为S_crop×S_crop×k²，将其沿着深度方向分为k²段，每一段掩膜系数的维度为S_crop×S_crop，可看成一个二维张量，且每一段掩膜系数与每一段原型掩膜一一对应；

(5)将每一段原型掩膜和每一段掩膜系数相结合，生成实例掩膜的每一个分段；

具体的，对于每一个维度为

的原型掩膜分段，可看成由S_crop ²个大小为

的原型掩膜二维张量组成，可将这些原型掩膜二维张量记为

则实例掩膜的一个分段M^div可按如下式子计算：

其中，掩膜系数标量c_i和原型掩膜二维张量p_i的相乘为标量和张量的相乘，即c_i分别乘以p_i的每一个元素，从而得到新的二维张量，然后再对这些二维张量求和得到实例掩膜的一个分段；

(6)得到所有实例掩膜的分段后，将它们依次做水平和竖直方向上的连接，最终可以得到大小为S_mask×S_mask的实例掩膜M。

7.根据权利要求 1中所述的一种基于深度学习的自然场景下全卷积单阶段人体实例分割方法，其特征在于，所属步骤6中的各项损失函数的计算，其中，分类损失函数采用focal loss，回归损失函数采用IOU loss，实例掩膜损失函数采用二进制交叉熵损失函数，中心性损失函数采用带有sigmoid函数的二进制交叉熵损失。

8.根据权利要求 1中所述的一种基于深度学习的自然场景下全卷积单阶段人体实例分割方法，其特征在于，所述步骤7中对网络采用引入动量的随机梯度下降法进行训练，选取batch size大小为8，使用两块Tesla P100 GPU进行训练。

9.根据权利要求 1中所述的基于深度学习的自然场景下全卷积单阶段人体实例分割方法，其特征在于，所述步骤8中用训练好的网络做自然场景下的人体实例分割，在COCO2017 test测试该方法的时候，步骤1、步骤2、步骤3和步骤4与训练时相同，步骤5中生成原型掩膜中感兴趣区域时，采用生成的回归结果进行定位，步骤6也和训练时相同，最后得到图片中人体的实例分割结果。