CN106780536A

CN106780536A - 一种基于对象掩码网络的形状感知实例分割方法

Info

Publication number: CN106780536A
Application number: CN201710025896.2A
Authority: CN
Inventors: 夏春秋
Original assignee: Shenzhen Vision Technology Co Ltd
Current assignee: Shenzhen Vision Technology Co Ltd
Priority date: 2017-01-13
Filing date: 2017-01-13
Publication date: 2017-05-31

Abstract

本发明中提出的一种基于对象掩码网络的形状感知实例分割方法，其主要内容包括：形状感知分割预测和学习实例分割，其过程为，使用密集多值映射编码对对象的形状进行建模，对于框中的每个像素到对象边界的最小距离，通过逆距离变换将该多值图转换为二进制掩码来实现对象分割。使用区域网络来生成初始的包围框的建议；对每一个执行感兴趣区域来使特征变形，将结果传递给对象掩码网络并产生结果。通过将对象掩码网络集成到多级网络级联中来构造形状感知实例分割网络和多级形状感知实例分割网络，并通过端到端的方式训练它。本发明分割细致，精确度高，误差较小，将有助于完善和扩展现有图像分割的理论与方法，为图像分析与理解等应用提供实用工具。

Description

一种基于对象掩码网络的形状感知实例分割方法

技术领域

本发明涉及图像分割领域，尤其是涉及了一种基于对象掩码网络的形状感知实例分割方法。

背景技术

随着科学技术的发展，数字图像的数量也与日俱增，因此对于数字图像技术的需求也与日俱增。为了更好地识别和理解图像中的内容，图像分割技术显得尤为重要。图像分割是由图像处理向图像分析与理解过渡的重要桥梁，是计算机视觉等相关研究领域的基础科学问题。图像分割可以实现计算机分辨图像的各个部分以及识别它们的类型和颜色，在交通运输方面，由于可以通过分割识别行人，车辆，路况，交通信号灯，交通警告标志等，从而辅助驾驶系统技术，无人驾驶智能车辆技术等。然而，目前的图像分割方法并不完善，仍存在图像分割不细致，不能实现自动分割等问题。

本发明提出了一种基于对象掩码网络的形状感知实例分割方法，使用密集多值映射编码对对象的形状进行建模，对于框中的每个像素到对象边界的(截断的)最小距离，通过逆距离变换将该多值图转换为二进制掩码来实现对象分割。使用区域网络(RPN)来生成初始的包围框的建议；对每一个执行感兴趣区域(RoI)来使特征变形，将结果传递给对象掩码网络并产生结果。通过将对象掩码网络集成到多级网络级联(MNC)中来构造形状感知实例分割(SAIS)网络和多级形状感知实例分割网络，并通过端到端的方式训练它。本发明分割细致，精确度高，误差较小，将有助于完善和扩展现有水平集图像分割的理论与方法，也为图像分析与理解等高层应用提供实用工具。

发明内容

针对图像分割不细致等问题，本发明的目的在于提供一种基于对象掩码网络的形状感知实例分割方法，使用密集多值映射编码对对象的形状进行建模，对于框中的每个像素到对象边界的(截断的)最小距离，通过逆距离变换将该多值图转换为二进制掩码来实现对象分割。使用区域网络(RPN)来生成初始的包围框的建议；对每一个执行感兴趣区域(RoI)来使特征变形，将结果传递给对象掩码网络并产生结果。通过将对象掩码网络集成到多级网络级联(MNC)中来构造形状感知实例分割(SAIS)网络和多级形状感知实例分割网络，并通过端到端的方式训练它。

为解决上述问题，本发明提供一种基于对象掩码网络的形状感知实例分割方法，其主要内容包括：

(一)形状感知分割预测；

(二)学习实例分割。

其中，所述的形状感知分割预测，包括形状感知掩码表示和对象掩码网络(OMN)。

进一步地，所述的形状感知掩码表示，给定一个窗口，描绘了一个潜在的部分观察对象，从一个包围框中获得图像，目标是产生整个对象的掩码；在图像中的每个像素的值代表距离最近的对象边界；

不同的窗口大小和物体的形状、距离变换可以产生大范围不同的值，这将导致较少的改变；因此，规范窗口为普通大小和截断距离变换得到一个限定范围内的值；明确地使Q表示对象边界和对象外部的像素集；对于归一化的窗口中的每一个像素p，计算对于Q的截断距离D(p)，即

其中，d(p,q)是像素p和q之间的欧氏空间距离，返回最接近x且大于x的整数，R是截断阈值，即要代表的最大距离；然后，直接使用D作为致密对象表示；

首先，像素的值给出了对象边界位置的信息，即使该像素属于对象的内部；因此，我们的表示是遮挡不准确的包围框产生的部分；其次，因为每个像素有一个距离值，这种表示是多余的，因此在一定程度上的像素映射的噪声有较强的鲁棒性；更重要的是，预测这样的表示，可以配制成像素的标签任务；

为了进一步推动这一标注任务，量化值的像素映射到K一致的二进制；换句话说，将截断距离像素p，用k维二进制向量b(p)表示为

其中，r_n对应于第n个二进制的距离值；通过编码，将多值像素映射到一组K个二进制像素图；这使我们能够把预测密集的地图翻译成一组像素二进制分类任务的问题；

给定一个对象段的密集像素地图(或K个二进制地图)，应用逆距离变换，可以近似恢复完整的对象掩码；具体来说，通过每个像素与一个二进制磁盘的半径D(p)关联来构建对象掩码；

通过联合所有的磁盘计算对象掩码M，T(p,r)代表像素p半径为r的磁盘；对象掩码可以表示为：

其中，*代表卷积算子，B_n是二进制像素图的第n个二进制。

进一步地，所述的对象掩码网络(OMN)，形状感知表示每个输入图像产生每个对象掩码；为此，我们设计了一个深度神经网络来预测包围框，建议每个包围框K形状感知的密集二进制图，每个框通过公式(3)解码成一个完整的对象掩码；

在实践中，建议使用区域网络(RPN)来生成初始的包围盒的建议；对于它们中的每一个，执行感兴趣区域(RoI)来使特征变形，将结果传递给网络，并通过网络产生结果。

进一步地，所述的对象掩码网络，它由以下两个模块组成：

给定RoI扭曲的一个边界框的特征作为输入，网络中的第一模块预测编码，我们(近似)截断距离变换的K二进制掩码；具体来说，对于第n个二进制掩码，使用具有S形激活函数的完全连接层来预测近似于B_n的像素概率图；

给定K个概率图，设计一个新的残差反卷积网络模块，将它们解码为二进制对象掩码；然后用一系列加权求和层，接着用S形函数近似联合运算符；训练期间学习求和层中的权重；为了适应反卷积滤波器的不同大小，在每个加权求和之前对与网络中的较小的r_n值相对应的反卷积的输出进行上采样；为此，使用K的固定步长值；

OMN是完全可微分的，并且解码模块的输出可以使用交叉熵损失，以高分辨率直接与地面实况进行比较；这允许我们以端到端的方式训练OMN，包括初始RPN，或者将其与分类模块集成以执行实例级语义分段。

其中，所述的学习实例分割，通过将对象掩码网络集成到多级网络级联(MNC)中来构造形状感知实例分割(SAIS)网络；由于OMN模块是可区分的，故可以通过端到端的方式训练整个实例分段网络；包括形状感知实例分割网络和网络学习与推理。

进一步地，所述的形状感知实例分割网络，分割网络包括三个子网络，对应于边界框提议生成，对象模板预测和对象分类的任务；第一个模块包括从输入图像中提取特征表示的深度CNN，然后是RPN，后者生成一组边界框建议；在RoI扭曲之后，通过每个提议通过OMN产生一个段掩码；最后，在原始MNC网络中，通过使用特征掩蔽层中的预测掩码，并且与边界框特征连接来计算掩码特征；然后将所得到的表示馈送到第三子网络中，该第三子网络由用于分类和边界框回归的单个完全连接的层组成。

进一步地，所述的多级形状感知实例分割网络，将上述的SAIS网络(可以被认为是3级级联)扩展到5级级联；基于OMN的输出来细化边界框建议的初始集合，并且因此改进预测的分段；前三个阶段由上述模型组成，即VGG16卷积层，RPN，OMN，分类模块和边界框预测；然后使用由第三阶段的边界框回归部分产生的预测偏移来细化初始框；这些新框通过RoI扭曲用作对应于第二OMN的第四阶段的输入；其输出然后在最后阶段与精制箱结合用于分类目的；在这个5级级联中，两个OMN和两个分类模块的权重是共享的。

进一步地，所述的网络学习与推理，SAIS网络是完全可区分的，因此以端到端的方式来训练它；为此，使用多任务损失函数来考虑边界框，对象掩码和分类错误；具体来说，使用softmax损失的RPN和分类，以及OMN的二进制交叉熵损失；在五级级联中，在第三和第五级之后计算边界框和掩码损耗，并且使用平滑L₁损失进行边界框回归；

使用随机梯度下降(SGD)将所产生的多任务，多阶段损失最小化在所有参数上；依赖于最小批量的8个图像，调整图像的大小，使短边有600像素；

网络中的第一个模块首先生成～12k个边界框，通过非最大抑制(NMS)进行修剪；在OMN中，使用K＝5的概率图来编码(近似)截断距离变换；通过方程式解码这些映射之后，使用0.4的阈值来获得二进制掩码，使用该掩码来汇集特征，最终通过分类模块获得语义标签。

进一步地，所述的SAIS网络，测试时，SAIS网络获取输入图像，首先计算卷积特征图；RPN模块然后生成300个边界框建议，并且OMN模块预测相应的对象掩码；根据类别分数对这些掩码进行分类，并且以0.5的IoU阈值应用类别特定的非最大抑制；最后，独立应用掩码投票方案到每个类别，以进一步细化实例分段。

附图说明

图1是本发明一种基于对象掩码网络的形状感知实例分割方法的系统框架图。

图2是本发明一种基于对象掩码网络的形状感知实例分割方法的传统实况分割和本方法形状感知分割的比较图。

图3是本发明一种基于对象掩码网络的形状感知实例分割方法的截断距离变换和基于去卷积的形状-解码网络。

图4是本发明一种基于对象掩码网络的形状感知实例分割方法的SAIS网络的总结构图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互结合，下面结合附图和具体实施例对本发明作进一步详细说明。

图1是本发明一种基于对象掩码网络的形状感知实例分割方法的系统框架图。主要包括形状感知分割预测和学习实例分割。

形状感知分割预测包括形状感知掩码表示和对象掩码网络(OMN)。

学习实例分割，通过将对象掩码网络集成到多级网络级联(MNC)中来构造形状感知实例分割(SAIS)网络；由于OMN模块是可区分的，故可以通过端到端的方式训练整个实例分段网络；包括形状感知实例分割网络和网络学习与推理。

图2是本发明一种基于对象掩码网络的形状感知实例分割方法的传统实况分割和本方法形状感知分割的比较图。给定一个窗口，描绘了一个潜在的部分观察对象，从一个包围框中获得图像，目标是产生整个对象的掩码；在图像中的每个像素的值代表距离最近的对象边界；

其中，*代表卷积算子，B_n是二进制像素图的第n个二进制。

对象掩码网络(OMN)，形状感知表示每个输入图像产生每个对象掩码；为此，我们设计了一个深度神经网络来预测包围框，建议每个包围框K形状感知的密集二进制图，每个框通过公式(3)解码成一个完整的对象掩码；

对象掩码网络由以下两个模块组成：给定RoI扭曲的一个边界框的特征作为输入，网络中的第一模块预测编码，我们(近似)截断距离变换的K二进制掩码；具体来说，对于第n个二进制掩码，使用具有S形激活函数的完全连接层来预测近似于B_n的像素概率图；

图4是本发明一种基于对象掩码网络的形状感知实例分割方法的SAIS网络的总结构图。学习实例分割，通过将对象掩码网络集成到多级网络级联(MNC)中来构造形状感知实例分割(SAIS)网络；由于OMN模块是可区分的，故可以通过端到端的方式训练整个实例分段网络；包括形状感知实例分割网络和网络学习与推理。

形状感知实例分割网络，分割网络包括三个子网络，对应于边界框提议生成，对象模板预测和对象分类的任务；第一个模块包括从输入图像中提取特征表示的深度CNN，然后是RPN，后者生成一组边界框建议；在RoI扭曲之后，通过每个提议通过OMN产生一个段掩码；最后，在原始MNC网络中，通过使用特征掩蔽层中的预测掩码，并且与边界框特征连接来计算掩码特征；然后将所得到的表示馈送到第三子网络中，该第三子网络由用于分类和边界框回归的单个完全连接的层组成。

多级形状感知实例分割网络，将上述的SAIS网络(可以被认为是3级级联)扩展到5级级联；基于OMN的输出来细化边界框建议的初始集合，并且因此改进预测的分段；前三个阶段由上述模型组成，即VGG16卷积层，RPN，OMN，分类模块和边界框预测；然后使用由第三阶段的边界框回归部分产生的预测偏移来细化初始框；这些新框通过RoI扭曲用作对应于第二OMN的第四阶段的输入；其输出然后在最后阶段与精制箱结合用于分类目的；在这个5级级联中，两个OMN和两个分类模块的权重是共享的。

网络学习与推理，SAIS网络是完全可区分的，因此以端到端的方式来训练它；为此，使用多任务损失函数来考虑边界框，对象掩码和分类错误；具体来说，使用softmax损失的RPN和分类，以及OMN的二进制交叉熵损失；在五级级联中，在第三和第五级之后计算边界框和掩码损耗，并且使用平滑L₁损失进行边界框回归；

测试时，SAIS网络获取输入图像，首先计算卷积特征图；RPN模块然后生成300个边界框建议，并且OMN模块预测相应的对象掩码；根据类别分数对这些掩码进行分类，并且以0.5的IoU阈值应用类别特定的非最大抑制；最后，独立应用掩码投票方案到每个类别，以进一步细化实例分段。

对于本领域技术人员，本发明不限制于上述实施例的细节，在不背离本发明的精神和范围的情况下，能够以其他具体形式实现本发明。此外，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围，这些改进和变型也应视为本发明的保护范围。因此，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

Claims

1.一种基于对象掩码网络的形状感知实例分割方法，其特征在于，主要包括形状感知分割预测(一)；学习实例分割(二)。

2.基于权利要求书1所述的形状感知分割预测(一)，其特征在于，包括形状感知掩码表示和对象掩码网络(OMN)。

3.基于权利要求书1所述的形状感知掩码表示，其特征在于，给定一个窗口，描绘了一个潜在的部分观察对象，从一个包围框中获得图像，目标是产生整个对象的掩码；在图像中的每个像素的值代表距离最近的对象边界；

D (p) = Σ_{n = 1}^{K} r_{n} \cdot b_{n} (p), Σ_{n = 1}^{K} b_{n} (p) = 1 - - - (2)

\begin{matrix} M = \underset{p}{\cup} T (p, D (p)) = \underset{p}{\cup} T (p, Σ_{n = 1}^{K} r_{n} \cdot b_{n} (p)) \\ = \cup_{n = 1}^{K} \underset{p}{\cup} T (p, r_{n} \cdot b (p)) \cup_{n = 1}^{K} T (\cdot, r_{n}) * B_{n} \end{matrix} - - - (3)

其中，*代表卷积算子，B_n是二进制像素图的第n个二进制。

4.基于权利要求书1所述的对象掩码网络(OMN)，其特征在于，形状感知表示每个输入图像产生每个对象掩码；为此，我们设计了一个深度神经网络来预测包围框，建议每个包围框K形状感知的密集二进制图，每个框通过公式(3)解码成一个完整的对象掩码；

5.基于权利要求书4所述的对象掩码网络，其特征在于，它由以下两个模块组成：

6.基于权利要求书1所述的学习实例分割(二)，其特征在于，通过将对象掩码网络集成到多级网络级联(MNC)中来构造形状感知实例分割(SAIS)网络；由于OMN模块是可区分的，故可以通过端到端的方式训练整个实例分段网络；包括形状感知实例分割网络和网络学习与推理。

7.基于权利要求书6所述的形状感知实例分割网络，其特征在于，分割网络包括三个子网络，对应于边界框提议生成，对象模板预测和对象分类的任务；第一个模块包括从输入图像中提取特征表示的深度CNN，然后是RPN，后者生成一组边界框建议；在RoI扭曲之后，通过每个提议通过OMN产生一个段掩码；最后，在原始MNC网络中，通过使用特征掩蔽层中的预测掩码，并且与边界框特征连接来计算掩码特征；然后将所得到的表示馈送到第三子网络中，该第三子网络由用于分类和边界框回归的单个完全连接的层组成。

8.基于权利要求书7所述的多级形状感知实例分割网络，其特征在于，将上述的SAIS网络(可以被认为是3级级联)扩展到5级级联；基于OMN的输出来细化边界框建议的初始集合，并且因此改进预测的分段；前三个阶段由上述模型组成，即VGG16卷积层，RPN，OMN，分类模块和边界框预测；然后使用由第三阶段的边界框回归部分产生的预测偏移来细化初始框；这些新框通过RoI扭曲用作对应于第二OMN的第四阶段的输入；其输出然后在最后阶段与精制箱结合用于分类目的；在这个5级级联中，两个OMN和两个分类模块的权重是共享的。

9.基于权利要求书6所述的网络学习与推理，其特征在于，SAIS网络是完全可区分的，因此以端到端的方式来训练它；为此，使用多任务损失函数来考虑边界框，对象掩码和分类错误；具体来说，使用softmax损失的RPN和分类，以及OMN的二进制交叉熵损失；在五级级联中，在第三和第五级之后计算边界框和掩码损耗，并且使用平滑L₁损失进行边界框回归；

10.基于权利要求书9所述的SAIS网络，其特征在于，测试时，SAIS网络获取输入图像，首先计算卷积特征图；RPN模块然后生成300个边界框建议，并且OMN模块预测相应的对象掩码；根据类别分数对这些掩码进行分类，并且以0.5的IoU阈值应用类别特定的非最大抑制；最后，独立应用掩码投票方案到每个类别，以进一步细化实例分段。