CN114240991A

CN114240991A - 一种rgb图像的实例分割方法

Info

Publication number: CN114240991A
Application number: CN202111547350.6A
Authority: CN
Inventors: 邵天甲; 周昆
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2021-12-16
Filing date: 2021-12-16
Publication date: 2022-03-25
Anticipated expiration: 2041-12-16
Also published as: CN114240991B

Abstract

本发明公开一种RGB图像的实例分割方法，该方法检测一张图像中的所有物体并预测它的掩码。该方法以现有的物体检测框架为基础，并在其基础上进行扩充，对于一张输入的RGB图像，本发明的方法通过神经网络为其预测两种嵌入特征，第一种特征是针对每个检测到的物体的，名为物体嵌入特征，另一种特征是针对图像中的像素的，名为像素嵌入特征。通过比较像素特征与物体特征的相似度，本发明就可以判断出该像素是否属于该物体的掩码。本发明的方法预测速度快、检测精度高、掩码质量好、流程简单。

Description

一种RGB图像的实例分割方法

技术领域

本发明涉及RGB图像的实例分割领域，具体涉及一种RGB图像的实例分割方法。

背景技术

现有的实例分割技术主要分成两大类：基于物体检测的和基于分割的。基于物体检测的方法会先预测一系列的物体然后再针对每个物体提取它的掩码。在统一的框架提出之前，DeepMask使用滑动窗口来进行物体检测，然后再在其内部分割出物体掩码。而MaskR-CNN在物体检测框架Faster R-CNN的基础上提出了一个实例分割的方法，借助局部池化(repooling)的操作使得物体检测任务和分割任务都能在统一神经网络下工作。但该方法的缺点是操作较复杂，且局部池化的操作会使得特征信息的丢失从而导致掩码不够精细。还有不少工作是在Mask R-CNN的基础上进行的改进来提高它的精度。

基于分割的方法直接为每个像素预测一个嵌入特征(embedding)。然后将这些像素根据特征进行聚类。聚成一个类别的像素就组成了一个物体的掩码。这类方法的关键点在于特征的训练和聚类的方式。一些方法提出了特殊的损失函数用于特征的训练。而在聚类方法也是各式各样的，有使用mean-shift的，有使用谱聚类的，也有使用生成种子的。由于直接在像素级别上进行掩码的预测，这些方法预测得到的掩码通常是比较精细的。但它们不能很好地解决如何找到正确的聚类中心和聚类数量的问题，所以它们的检测精度通常不高。

发明内容

本发明的目的在于针对现有技术的不足，提供了一种RGB图像的实例分割方法。本发明可以对现有的物体检测框架进行扩展，利用物体特征和像素特征的预测以及特征匹配的操作实现高效高质量的掩码预测。同时本发明的步骤简单，相对于原物体检测框架额外消耗小，具有很高的实用价值。

本发明的目的是通过以下技术方案来实现的：

一种RGB图像实例分割方法，该方法包括如下步骤：

步骤一：构建神经网络；

所述神经网络包括特征提取网络、检测子网络和分割子网络；所述特征提取网络采用主干网络接特征金字塔网络的模式，其输入为图像，输出为P3-P7五个大小不同的特征图；所述检测子网络的输入为P3-P7五个大小不同的特征图，每个输入特征图经过一个共享权重的检测子网络，输出特征筛选等处理得到检测到的物体在图像中的位置，不同的输入特征图得到不同大小的检测物体；

所述分割子网络包括两个分支：

(1)分支一以P3-P7的特征图作为输入，每个输入特征图经过多次卷积操作，先得到中间特征，再将该中间特征经过卷积操作得到物体范围特征，将所述中间特征再经过嵌入特征预测模块得到物体嵌入特征，不同的输入特征图得到不同大小的物体对应的物体范围特征和物体嵌入特征；所述嵌入特征预测模块将输入特征图经过并行的卷积操作，其中一个卷积操作后得到通道数为(D-2)的空间无关嵌入特征；另一个卷积操作得到通道数为2的特征图，再将该特征图与像素坐标图相加，得到空间相关嵌入特征；所述嵌入特征预测模块将空间无关嵌入特征和空间相关嵌入特征拼接后，得到通道数为D的物体嵌入特征；

(1)分支二以P3的特征图作为输入，经过多次卷积操作得到中间特征，将该中间特征同样经过嵌入特征预测模块，输出像素嵌入特征；

步骤二：训练所述神经网络；

将训练图像输入所述神经网络；其中，检测子网络输出检测到的物体的位置，分割子网络输出物体嵌入特征、物体范围特征和像素嵌入特征；选择目标物体所在像素位置的物体嵌入特征和物体范围特征，并连同像素嵌入特征，进行掩码计算，获得掩码概率图；将掩码概率图与对应的物体的真实掩码进行比较，通过二项分类损失函数计算得到误差损失，进行反向梯度求导，对特征提取网络和分割子网络进行监督训练；同时，将目标物体的位置和检测子网络输出的物体位置进行比较，对特征提取网络和检测子网络进行监督训练；

步骤三：将待分割图像输入训练后的神经网络，分割子网络输出所有的物体嵌入特征、物体范围特征和像素嵌入特征，检测子网络输出的信息经过筛选等处理之后得到检测到的物体的位置；选择检测到物体所在位置的物体嵌入特征和物体范围特征，并连同像素嵌入特征，进行掩码计算，获得掩码概率图，并将掩码概率图与某个固定阈值进行比较，得到了二值化后的掩码。

进一步地，所述步骤二中的掩码计算的公式如下：

其中，pⁱ表示第i个物体的物体嵌入特征，σⁱ表示第i个物体的物体范围特征，q^j表示第j个像素的像素嵌入特征，D是pⁱ，σⁱ，q^j这些特征向量的维度，φ(i，j)表示第j个像素属于第i个物体的概率；对于第i个物体，使用该公式遍历所有的像素，即可得到该物体的掩码概率图。

进一步地，所述步骤一中的分割子网络在输出物体范围特征之前使用指数函数激活，使得输出物体范围特征中的所有值大于零。

本发明的有益效果如下：

本发明在原有的物体检测框架上只通过神经网络额外预测了三种特征，并通过简单的特征匹配实现针对物体实例的掩码预测，步骤简洁，额外消耗少。并且本方法借助像素嵌入特征可以直接在原图像空间进行掩码预测，不需要进行局部池化，没有特征信息的丢失，预测出来的掩码能够保留足够的细节。而借助物体嵌入特征，本发明的方法解决了基于分割的方法中寻找聚类数量和聚类中心困难的问题，可以获得较高的检测精度。

附图说明

图1是本发明的算法训练阶段流程图。

图2是本发明的算法推理阶段流程图。

图3是本发明的神经网络架构。

图4是神经网络架构中的嵌入特征预测模块。

图5是使用本方法预测到的图像中掩码，着重展示了细节区域。

具体实施方式

下面根据附图和优选实施例详细描述本发明，本发明的目的和效果将变得更加明白，应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明的RGB图像的实例分割方法EmbedMask是在现有的物体检测方法上进行扩充得到的。本发明的方法具体包括以下步骤：

步骤1:准备训练数据。本方法使用公开数据集作为训练数据，如MS COCO。该数据集包含输入图像，以及每张输入图像的目标物体类别、包围盒和掩码，同时，本方法将目标物体包围盒中心所在的像素坐标当作该物体在图像中所在的位置。在正式进入训练之前，需要对数据图像进行缩放，使得图像的最短边的范围在640-800之间，同时最长边不超过1333。

步骤2:构建神经网络。该神经网络构造如图3所示，主要包含特征提取网络、检测子网络和分割子网络。特征提取网络采用主干网络接特征金字塔网络的模式，主干网络可以使用ResNet、MobileNet等。特征提取网络输入为训练图像，输出为P3-P7五个特征图，其大小分别为原图的

所述检测子网络使用现有的物体检测方法的网络，如FCOS，以P3-P7五个不同大小的特征图作为输入，每个输入特征图经过一个共享权重的检测子网络，输出五组特征，每组特征对应于不同大小的物体的检测，如以P3-P7作为输入，其输出分别对应于最长边长范围为(64-)，(64,128)，(128,256)，(256,512)，(512+)的物体的检测。具体而言，每组输出特征的内容为Hⁱ×Wⁱ×4的物体包围盒特征和Hⁱ×Wⁱ×(C+1)的物体类别分数特征，其中，i的范围为3-7，Hⁱ和Wⁱ表示以Pi特征图作为输入得到的输出特征图的长宽，C表示物体类别的数量。物体包围盒特征图中的每个像素的值是一个4维的向量，表示位于该像素的物体的包围盒的4条边界与该像素的距离；物体类别分数特征图中的每个像素的值是一个(C+1)维的向量，表示位于该像素的物体属于C类中的某一类或者不属于任何类别。

所述分割子网络包括两个分支：

(1)分支一以P3-P7的特征图作为输入，每个输入特征图经过4次卷积操作，先得到Hⁱ×Wⁱ×256的中间特征，再将该中间特征经过卷积操作得到Hⁱ×Wⁱ×D的物体范围特征(proposal margin)，将所述中间特征再经过嵌入特征预测模块得到Hⁱ×Wⁱ×D的物体嵌入特征(proposal embedding)。如图4所示，嵌入特征预测模块将输入特征图经过并行的卷积操作，其中一个卷积操作后得到通道数为(D-2)的空间无关嵌入特征(spatial-freeembedding)；另一个卷积操作得到通道数为2的特征图，再将该特征图与像素坐标图相加，得到空间相关嵌入特征(spatial-aware embedding)；所述嵌入特征预测模块将空间无关嵌入特征和空间相关嵌入特征拼接后，得到通道数为D的物体嵌入特征；上述过程使用的卷积操作的卷积核大小为3×3，步长为1，填充边长为1；并且除了输出层以外的卷积操作使用ReLU函数激活，物体范围特征的输出层使用指数函数激活，物体嵌入特征的输出层不使用激活函数。本分支输出的物体嵌入特征图和物体范围特征图中的每个像素位置的值代表位于该像素的物体的嵌入特征和范围特征。

(2)分支二以P3的特征图作为输入，经过4次卷积操作，先得到H³×W³×256的中间特征，再将所述中间特征经过嵌入特征预测模块得到H³×W³×D的像素嵌入特征。上述过程使用的卷积操作的卷积核大小为3×3，步长为1，填充边长为1；并且除了输出层以外的卷积操作使用ReLU函数激活，像素嵌入特征的输出层不使用激活函数。本分支输出的像素嵌入特征图中的每个像素位置的值代表该像素的嵌入特征(pixel embedding)。

步骤3:训练神经网络。神经网络的前向传输流程如图1所示，将训练图像输入由特征提取网络、检测子网络和分割子网络组成的神经网络。其中，分割子网络输出物体嵌入特征、物体范围特征和像素嵌入特征，检测子网络输出物体包围盒特征和物体类别分数特征。选择目标物体所在位置的物体嵌入特征和物体范围特征，并连同像素嵌入特征，进行掩码计算，获得掩码概率图。上述掩码计算公式如下：

其中，pⁱ表示第i个物体的物体嵌入特征，σⁱ表示第i个物体的物体范围特征，q^j表示第j个像素的像素嵌入特征，D是pⁱ，σⁱ，q^j这些特征向量的维度，φ(i，j)表示第j个像素属于第i个物体的概率。对于第i个物体，使用该公式遍历所有的像素，即可得到该物体的掩码概率图。将得到的掩码概率图缩放到原图大小后与物体的真实掩码进行比较，通过二项分类损失函数计算得到误差损失。使用该损失值进行反向梯度求导，对特征提取网络和分割子网络进行监督训练。同时，将目标物体的包围盒和类别与检测子网络的输出进行比较，对特征提取网络和检测子网络进行监督训练。

步骤4:实例分割推理。如图3所示，将待分割图像输入训练后的神经网络，分割子网络输出物体嵌入特征、物体范围特征和像素嵌入特征，检测子网络输出物体包围盒特征和物体类别分数特征；将物体包围盒特征和物体类别分数特征经过非极大值抑制算法(NMS)得到检测到的物体的位置。选择检测到物体的位置的物体嵌入特征和物体范围特征，并连同像素嵌入特征，输入掩码预测模块，获得所有检测到的物体的掩码概率图。将所述掩码概率图使用线性插值得到原图大小的掩码概率图，再与某个固定阈值(如0.5)进行比较，将概率值大于0.5的像素区域视作物体的掩码，得到最终结果。

实施实例

发明人在一台配备Intel I7-6950X中央处理器，Nvidia GeForce GTX 2080Ti显卡以及128GB内存的台式计算机上实现了本发明的实施实例。发明人使用微软发布的公共数据集MS COCO来测试发明的实验结果。

本发明的实例分割结果如图5所示，图中着重展示了本发明的方法在细节区域的分割结果，可以看出本发明具有优秀的精细掩码预测能力。

表1展示了本发明的方法与Mask R-CNN在分类精度和推理时间上的对比。实验使用平均精度指标(AP)来判断实例分割结果的好坏，平均精度指标越高代表分割结果越好。为了公平性，两种方法的训练参数都保持一致，并且采用了两种不同的特征提取网络来验证。可以发现，不论是用哪种特征提取网络，EmbedMask的平均精度都比Mask R-CNN高，并且推理速度也更快。

表1.本发明的方法与Mask R-CNN在分类精度和推理时间上的对比

方法	特征提取网络	AP	推理时间(毫秒)
				Mask R-CNN	Resnet-50-FPN	34.6	149.3
EmbedMask	Resnet-50-FPN	34.8	66.2
				Mask R-CNN	Resnet-101-FPN	38.1	158.7
EmbedMask	Resnet-101-FPN	38.3	85.5

本领域普通技术人员可以理解，以上所述仅为发明的优选实例而已，并不用于限制发明，尽管参照前述实例对发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实例记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在发明的精神和原则之内，所做的修改、等同替换等均应包含在发明的保护范围之内。

Claims

1.一种RGB图像实例分割方法，其特征在于，该方法包括如下步骤：

步骤一：构建神经网络；

所述分割子网络包括两个分支：

步骤二：训练所述神经网络；

2.根据权利要求1所述的RGB图像实例分割方法，其特征在于，所述步骤二中的掩码计算的公式如下：

3.根据权利要求1所述的RGB图像实例分割方法，其特征在于，所述步骤一中的分割子网络在输出物体范围特征之前使用指数函数激活，使得输出物体范围特征中的所有值大于零。