CN110992379A

CN110992379A - 一种基于方向超像素的快速图像分割方法

Info

Publication number: CN110992379A
Application number: CN201911232075.1A
Authority: CN
Inventors: 许永超; 万建强; 柳阳; 白翔
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2019-12-05
Filing date: 2019-12-05
Publication date: 2020-04-10
Anticipated expiration: 2039-12-05
Also published as: CN110992379B

Abstract

本发明公开了一种基于方向超像素的快速图像分割方法。与传统的基于聚类、分水岭、主动轮廓模型或图模型的分割方法相比，该方法的分割性能平均提高了100％。同时与之前一些通过卷积神经网络预测边缘加上耗时的后处理的分割方法相比，该方法可实时运行，速度是这些分割方法的18倍以上。首先，通过卷积神经网络在每个像素位置上预测一个二维向量，该向量的方向为从距离当前像素最近的边缘指向当前点。然后，根据每个位置预测的方向，得到基于方向的超像素图。在超像素图的基础上，构建区域关系图，最后使用定制的快速融合方法得到分割结果。该方法在图像分割的速度和精度的平衡上取得了很好的效果，实现简单，具有很广的实际应用范围。

Description

一种基于方向超像素的快速图像分割方法

技术领域

本发明属于计算机视觉技术领域，更具体地，涉及一种基于方向超像素的快速图像分割方法。

背景技术

卷积神经网络极大地提高了各大计算机视觉任务的性能，如图像分类、目标检测、语义分割、目标跟踪等。其中语义分割的目标在于给图像中的每一个像素分配语义标签，尽管目前语义分割的精度已经非常高了，但训练好的模型对于未见过的场景或类别很难得到准确的分割结果。一般图像分割与语义分割不同，其目的在于将图像分割成若干块不重叠的区域，各区域内部保持语义或视觉感知一致性。

由于无法确定每张图像分割的块数，目前高精度或快速的语义分割模型无法迁移至一般图像分割，而现有的一般图像分割方法大致可分为精度高但速度慢以及精度低但速度快两类。精度高的图像分割方法一般采用卷积神经网络预测边缘，之后用非常耗时的分水岭方法得到分割结果，总时间接近1秒，尽管精度高，但速度限制了它的实际应用。速度快的方法使用卷积神经网络预测一个内嵌空间，之后使用聚类的方法得到分割结果，该类方法在图像内微弱边缘处会产生严重的泄露问题，导致精度低，同时速度离实时运行相差较远，实际应用非常有限。

发明内容

本发明的目的在于提供一种基于方向超像素的快速图像分割方法，该分割方法比基于边缘预测的方法快数十倍，同时性能相差很小，与目前快速图像分割算法相比，性能提升十个点以上，同时速度是其五分之一，该方法实现了图像的快速分割，在精度与速度的平衡上取得了很好的效果。

为实现上述目的，本发明提供了一种基于方向超像素的快速图像分割方法，包括以下步骤：

(1)训练基于方向超像素的快速图像分割网络模型，包括如下子步骤：

(1.1)对原始数据集中所有图片的感兴趣区域进行像素级别的标注，属于同一区域内的像素标签相同，不同区域的像素标签不同。根据像素级别的标注计算标准方向场D，得到带标注的标准训练数据集；对于标准训练数据集Itr的第k张图片Itr_k，将图片划分为若干个感兴趣的区域，同时为每个区域内的像素分配不同的标签，各区域内部应保证语义或视觉感知一致性。对于图片任一像素p，找到距离像素p最近的边界点B_p，根据如下公示计算像素p处的标准方向场，其中

表示的是向量

的模长。

(1.2)定义基于方向超像素的快速图像分割网络模型，根据(1.1)带标注的标准训练数据集，设计损失函数，利用反向传导方法训练该快速图像分割网络，得到基于方向超像素的快速图像分割网络模型；包括：

(1.2.1)构建基于方向超像素的快速图像分割网络模型，所述分割网络模型由VGG基本网络、多层特征融合网络、方向场回归网络组成；其中，VGG基本网络由VGG16的layer1，layer2，layer3，layer4，layer5和ASPP组成。ASPP由空洞率分别为2，4，8和16的空洞卷积构成。多层特征融合网络和方向场回归网络分别由四个和三个1x1卷积组成。

(1.2.2)以带标注的标准训练数据集作为快速分割网络模型的输入，利用VGG基本网络提取特征，将VGG基本网络提取的特征输入多层特征融合网络，将融合后的特征输入方向场回归网络，最终生成预测方向场；将标准训练数据集Itr中的图片输入VGG基本网络中。多层特征融合网络在layer3，layer4，layer5和ASPP的特征上使用1x1卷积，并在通道维度上合并这些卷积后的中间特征。最后，方向场回归网络通过在合并后的特征上使用三个1x1卷积得到预测方向场

(1.2.3)以步骤(1.1)中计算得到的标准方向场D为网络期望输出，以步骤(1.2.2)中的预测方向场

为网络预测输出，针对步骤(1.2.1)构建的网络模型，设计期望输出和预测输出之间的目标损失函数，整体目标损失函数由L2距离损失函数和角度域损失函数共同组成，整体目标损失函数表达式如下：

其中，

是L2距离损失函数，

是角度域损失函数，α是两个损失函数之间的平衡系数，设置为1，Ω是图片内所有像素的集合，‖ ‖₂和‖ ‖²分别表示2-范数和1-范数的平方，

其中|R_p|是包含像素p的区域的面积。

根据设计的整体目标损失函数，利用反向传导方法对模型进行迭代训练，最小化L2距离损失函数和角度域损失函数组成的整体目标损失函数，实现最优网络模型。

(2)利用上述训练好的模型对待分割图片进行图像分割，包括如下子步骤：

(2.1)对于待分割数据集Itst里的第k张图片Itst_k，将其输入到步骤(1.2)训练好的模型中，经过VGG基本网络和多层特征融合网络得到中间特征，再把中间特征输入方向场回归网络，得到预测方向场

(2.2)根据预测方向场

构建父节点图P，对于每个像素点p，把p的指向离散化为八个方向，计算p指向的点N_p的指向与p点指向的角度差异，如果角度差异大于一定的阈值θ_a，则p点即为根节点，p点的父节点为其本身，否则p点的父节点为N_p。为父节点图中的每个点分配与其父节点相同的标签，得到方向超像素图，每个方向超像素由根节点表示。将距离小于或等于

的根节点合并，即相应的方向超像素块合并为一个大块。

融合距离较近的根节点后，在方向超像素图的基础上构建区域关系图。区域关系图中每个顶点表示相应的方向超像素块，每条边表示该边连接的方向超像素块之间的方向相似性。方向相似性的计算公式如下：

其中，e表示的是连接区域R₁和R₂的边，

表示的是像素点

的第s个父节点，

表示的是像素点

的第s个父节点，

和

分别表示区域R₁和R₂中的边界点，s＝0时表示本身，测试时s设为3，|B(e)|表示区域R₁和R₂的共同边界点的个数。同时，区域关系图中边被分为了两个集合，S<10的边放入排斥边集，其他的放入吸引边集，将吸引边集中的边按方向相似性从大到小排序。

在区域关系图的基础上，逐渐合并相邻的方向超像素，即方向超像素块从大到小，方向相似性从大到小合并。首先，对于区域关系图中的边e，如果R₁，R₂的面积A(R₁)，A(R₂)均大于a_t且S(e)>θ(A(R₁),A(R₂))(阈值函数θ(A(R₁),A(R₂))如下，其中θ_l>θ_s，a_s>a_t，a_s和a_t分别设为1500和200，θ_l和θ_s根据数据集的不同进行相应的遍历查找)，

同时R₁和R₂的合并不会与排斥边集中的元素产生冲突，则合并区域R₁和R₂。最后，对于面积小于a_t的小区域，将其与方向相似性最高的邻居合并，同时该合并不能与排斥边集中的元素产生冲突。处理完所有的边后，最终得到分割结果。

通过本发明所构思的以上技术方案，与现有技术相比，本发明具有以下技术效果：

(1)准确度高：该发明比基于聚类的方法更加健壮，可更好地处理微弱边缘，基本不会产生泄露问题，可以对任意形状物体进行精确分割；

(2)速度快：该发明无需繁琐耗时的后处理，同时该发明的后处理时间复杂度为线性级别，在GPU上可做到实时运行；

(2)泛化能力强：本发明不受限于图像内容，对不同类别的物体可进行精确分割，同时对未在训练集中出现的物体也可得到满意的分割结果。

附图说明

图1是本发明基于方向超像素的快速图像分割方法的流程图，其中，实线箭头表示训练，虚线箭头表示测试；

图2是本发明实施例中利用训练好的基于方向超像素的快速图像分割网络模型对自然图片和复杂场景下的图片进行分割的可视化结果。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

以下首先就本发明的技术术语进行解释和说明：

VGG：VGG是基于小卷积核(3x 3)堆叠的深度卷积神经网络，通过多个小卷积核代替大卷积核，网络可以学习更复杂的模式同时参数量更小，成为经典的卷积神经网络模型。它们的预训练模型可用于PyTorch开发框架下的即插即用，通常被现有的多数计算机视觉任务采用为网络模型的基本结构。

如图1所示，本发明基于方向超像素的快速图像分割方法包括以下步骤：

表示的是向量

的模长。

(1.2.2)以带标注的标准训练数据集作为快速分割网络模型的输入，利用VGG基本网络提取特征，将VGG基本网络提取的特征输入多层特征融合网络，将融合后的特征输入方向场回归网络，最终生成预测方向场；将标准训练数据集Itr中的图片输入VGG基本网络中。多层特征融合网络在layer3，layer4，layer5和ASPP的特征上使用1x1卷积，并在通道维度上合并这些卷积后的中间特征。最后，方向场回归网络通过在合并后的特征上使用三个1x1卷积得到最终的预测方向场

其中，

是L2距离损失函数，

其中|R_p|是包含像素p的区域的面积。

(2.2)根据预测方向场

的根节点合并，即相应的方向超像素块合并为一个大块。

其中，e表示的是连接区域R₁和R₂的边，

表示的是像素点

的第s个父节点，

表示的是像素点

的第s个父节点，

和

分别表示区域R₁和R₂中的边界点，s＝0时表示本身，测试时s设为3，|B(e)|表示区域R₁和R₂的边界点的个数。同时，区域关系图中边被分为了两个集合，S<10的边放入排斥边集，其他的放入吸引边集，将吸引边集中的边按方向相似性从大到小排序。

图2是本发明一实施例中利用训练好的基于方向超像素的快速图像分割网络模型对自然图片和复杂场景下的图片进行分割的可视化结果，通过图2可以看到，本发明能够得到精确的图像分割结果，尤其在物体的细小边缘处，同时复杂场景下也可以取得优异的分割结果。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于方向超像素的快速图像分割方法，其特征在于，所述方法包括下述步骤：

(1.1)对原始数据集中所有图片的感兴趣区域进行像素级别的标注，属于同一区域内的像素标签相同，不同区域的像素标签不同，根据像素级别的标注计算标准方向场D，得到带标注的标准训练数据集；

(1.2.1)构建基于方向超像素的快速图像分割网络模型，所述分割网络模型由VGG基本网络、多层特征融合网络和方向场回归网络组成；

(1.2.2)以带标注的标准训练数据集作为快速图像分割网络模型的输入，利用VGG基本网络提取特征，将VGG基本网络提取的特征输入多层特征融合网络，将融合后的特征输入方向场回归网络，最终生成预测方向场

(1.2.3)以(1.1)中标准方向场D为网络期望输出，以(1.2.2)中预测方向场

为网络预测输出，针对构建的网络模型，设计期望输出和预测输出之间的目标损失函数，利用反向传导方法训练该快速图像分割网络；

(2)利用上述训练好的模型对待分割图片进行快速图像分割，包括如下子步骤：

(2.1)将待分割图片通过VGG基本网络提取特征，经过多层特征融合网络和方向场回归网络生成预测方向场

(2.2)根据预测方向场得到方向超像素，融合根节点相距较近的方向超像素，之后在超像素图的基础上构建区域关系图，遍历全图计算区域与区域之间的方向相似性和各区域的面积，最后根据相关规则合并方向超像素，得到分割结果。

2.根据权利要求1所述的基于方向超像素的快速图像分割方法，其特征在于，所述步骤(1.1)具体为：

对于标准训练数据集Itr的第k张图片Itr_k，将图片划分为若干个感兴趣的区域，同时为每个区域内的像素分配不同的标签，各区域内部应保证语义或视觉感知一致性，对于图片任一像素p，找到距离像素p最近的边界点B_p，根据公示

计算像素p处的标准方向场，其中

表示的是向量

的模长。

3.根据权利要求1或2所述的基于方向超像素的快速图像分割方法，其特征在于，所述步骤(1.2.1)中的分割网络模型具体为：

所述分割网络模型由VGG基本网络、多层特征融合网络和方向场回归网络组成，其中，VGG基本网络由VGG16的layer1，layer2，layer3，layer4，layer5和带洞空间金字塔池化(Atrous Spatial Pyramid Pooling，ASPP)组成，ASPP由空洞率分别为2，4，8和16的空洞卷积构成，多层特征融合网络和方向场回归网络分别由四个和三个1x1卷积组成。

4.根据权利要求1或2所述的基于方向超像素的快速图像分割方法，其特征在于，所述步骤(1.2.2)具体为：

将标准训练数据集Itr中的图片输入VGG基本网络中，多层特征融合网络在layer3，layer4，layer5和ASPP的特征上使用1x1卷积，并在通道维度上合并这些卷积后的中间特征，最后方向场回归网络通过在合并后的特征上使用三个1x1卷积得到预测方向场

5.根据权利要求1或2所述的基于方向超像素的快速图像分割方法，其特征在于，所述步骤(1.2.3)具体为：

以步骤(1.1)中计算得到的标准方向场D为网络期望输出，以步骤(1.2.2)中的预测方向场

其中，

是L2距离损失函数，

是角度域损失函数，α是两个损失函数之间的平衡系数，Ω是图片内所有像素的集合，‖ ‖₂和‖ ‖²分别表示2-范数和1-范数的平方，

其中|R_p|是包含像素p的区域的面积，根据设计的整体目标损失函数，利用反向传导方法对模型进行迭代训练，最小化L2距离损失函数和角度域损失函数组成的整体目标损失函数，实现最优网络模型。

6.根据权利要求1或2所述的基于方向超像素的快速图像分割方法，其特征在于，所述步骤(2.1)具体为：

对于待分割数据集Itst里的第k张图片Itst_k，将其输入到步骤(1.2)训练好的模型中，经过VGG基本网络和多层特征融合网络得到中间特征，再把中间特征输入方向场回归网络，得到预测方向场

7.根据权利要求1或2所述的基于方向超像素的快速图像分割方法，其特征在于，所述步骤(2.2)中根据预测方向场得到方向超像素，具体为：

根据预测方向场

构建父节点图P，对于每个像素点p，把p的指向离散化为八个方向，计算p指向的点N_p的指向与p点指向的角度差异，如果角度差异大于设定阈值θ_a，则p点即为根节点，p点的父节点为其本身，否则p点的父节点为N_p，为父节点图中的每个点分配与其父节点相同的标签，得到方向超像素图，每个方向超像素由根节点表示。

8.根据权利要求7所述的基于方向超像素的快速图像分割方法，其特征在于，所述步骤(2.2)中融合根节点相距较近的方向超像素，具体为：

将距离小于或等于