CN113706561B

CN113706561B - 一种基于区域分离的图像语义分割方法

Info

Publication number: CN113706561B
Application number: CN202111268879.4A
Authority: CN
Inventors: 刘发贵; 张禹
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2021-10-29
Filing date: 2021-10-29
Publication date: 2022-03-29
Anticipated expiration: 2041-10-29
Also published as: CN113706561A

Abstract

本发明公开一种基于区域分离的图像语义分割方法。所述方法包括以下步骤：构建卷积神经网络；训练构建的卷积神经网络；使用训练完成的卷积神经网络对给定场景中图像进行语义分割。在不改变模型结构的情况下，本发明能够保持原模型的推理效率且改善训练模型的分割精度，能有效处理复杂场景图像，缓解多分类语义分割场景下数据不平衡问题，改善模型对分割对象边界的拟合效果，取得良好的分割性能。

Description

一种基于区域分离的图像语义分割方法

技术领域

本发明属于计算机视觉领域，具体涉及一种基于区域分离的图像语义分割方法。

背景技术

图像语义分割作为计算机视觉领域的一项基本任务，其任务是为图像中的每个像素进行分类，获取图像的像素级理解。作为一项图像稠密分类任务，语义分割为诸多应用场景提供了技术支撑，例如自动驾驶、医学影像诊断、人机交互等。复杂场景下，图像往往表现出种类繁多、对象尺度不一、视角多变等特点，为多分类复杂场景图像语义分割任务带来了极大挑战。

FCN（FullyConvolutionalNetwork）通过将传统经典分类网络中的全连接层替换为卷积层，提供了一种端到端的方式，将经典深度卷积网络应用到语义分割任务，为深度卷积网络在语义分割任务的广泛研究开辟了先河。目前，面向语义分割任务的深度卷积网络得到了长足的发展。然而，现有的主流方法仍采用标准交叉熵损失来进行语义分割任务模型的监督，其中忽视了复杂语义分割场景中普遍存在的图像中类别不平衡以及对象主体区域和边界区域像素样本不平衡的问题，导致模型的训练被大量的主体区域像素所主导，进而影响模型对小尺度类别和对象边界区域的分割精度。

为了改善模型对于边界区域像素分类的准确性，FusionNet（Cheng D, Meng G,Xiang S, et al. Fusionnet: Edge aware deep convolutional networks forsemantic segmentation of remote sensing harbor images[J]. IEEE Journal ofSelected Topics in Applied Earth Observations and Remote Sensing, 2017, 10(12): 5769-5783.）采用一种多任务学习的方式，使用编码器-解码器架构的SegNet作为语义分割模型，从SegNet的多个中间层提取特征添加到边界检测分支网络，同时训练语义分割模型和边界检测模型，并通过添加正则化项的方式，结合边界检测模型的输出来改善语义分割模型在边界区域的分割精度。通过引入边界检测分支网络，FusionNet使用边界检测分支的输出进一步改善语义分割模型在图像边界区域分割不准确的问题，但引入了边界检测分支网络的同时，限定了模型结构，也增加了模型训练和推理的时间。

发明内容

为了实现更加准确的各类场景语义分割，克服场景中对象主体区域和边界区域像素不平衡的问题，本发明提供一种基于区域分离的图像语义分割方法，通过分离边界和主体两个区域，施加权值以平衡模型对两个区域的拟合，从而实现更加准确的语义分割效果。

本发明的目的至少通过如下技术方案之一实现。

一种基于区域分离的图像语义分割方法，包括以下步骤：

S1、构建卷积神经网络；

S2、训练构建的卷积神经网络；

S3、使用训练完成的卷积神经网络对给定场景中图像进行语义分割。

进一步地，步骤S1中，构建的卷积神经网络为现有的面向语义分割任务的通用卷积神经网络。

进一步地，步骤S1中，构建的卷积神经网络包括FCN、Deeplabv3和DANet。

进一步地，步骤S2包括以下步骤：

S2.1、获取训练图像和对应的语义分割标注；

S2.2、输入训练图像到步骤S1中构建的卷积神经网络，卷积神经网络以端到端的方式输出与输入图像尺寸一致的预测值；

S2.3、根据语义分割标注获取对应的语义分割标注边界；

S2.4、使用获得的语义分割标注边界和圆形填充的卷积核将语义分割标注分离为边界区域和主体区域；

S2.5、使用分离的边界区域和主体区域结合语义分割标注计算区域的有效像素占比；

S2.6、使用区域的有效像素占比结合区域的超参权重计算区域的动态权重,使用标准交叉熵损失结合对应区域的动态权重和卷积神经网络的预测值计算得到训练图像的最终损失值；

S2.7、使用梯度下降法更新卷积神经网络的权重至收敛，得到训练完成的卷积神经网络。

进一步地，步骤S2.3中，根据语义分割标注获取对应的语义分割标注边界，具体如下：

将训练图像的语义分割标注向不同的多个方向分别平移一个像素单位，超出标注图像范围的像素被舍弃，空出的像素位置则以该像素位置的原始标注值填充，将语义分割标注分别与由此得到的多个中间结果相减；

对于语义分割标注图像中的任一像素，将该像素与八个相邻像素值相减后，得到相邻像素差值，若该像素与所有相邻像素值相等，则计算得到的该像素位置的相邻像素差值为零，说明该像素与其相邻像素属于同一类别，非边界像素；反之，若计算得到的某像素位置的相邻像素差值非零，则说明存在相邻像素与其属于不同类别，该像素为边界像素；

将计算得到的相邻像素差值中的非零值替换为1，得到训练图像的语义分割标注边界，其中，边界像素值为1，非边界像素值为0。

进一步地，将训练图像的语义分割标注向不同的8个方向分别平移一个像素单位，超出标注图像范围的像素被舍弃，空出的像素位置则以该像素位置的原始标注值填充，将语义分割标注分别与由此得到的8个中间结果相减。

进一步地，步骤S2.4中，使用获得的语义分割标注边界和圆形填充的卷积核将语义分割标注分离为边界区域和主体区域，具体如下：

根据选取的阈值距离d，计算大小为

的圆形填充卷积核，其中，圆形填充卷积核中，到中心点距离小于等于d的位置取值为1，其余位置取值为0；

使用圆形填充卷积核将卷积运算作用于训练图像对应的语义分割标注边界，卷积步长为1，卷积操作不使用偏移值，使用0向图像外填充d个像素单位，得到区域分离结果图；由此得到的区域分离结果图与训练图像的尺寸相同，其中到边界距离小于等于d的像素点值为非零；反之，到边界距离大于d的像素点值为零；

将区域分离结果图中的非零值替换为1，得到分离的边界区域和主体区域；其中，边界区域中像素值为1，主体区域中像素值为0。

进一步地，步骤S2.5中，使用分离的边界和主体区域结合语义分割标注计算区域的有效像素占比，具体如下：

；

其中，

表示边界区域或主体区域；

表示对应区域的有效像素占比；

表示对应区域中有效像素的数目；

表示图像中像素的总数。

进一步地，步骤S2.6中，使用区域的有效像素占比结合区域的超参权重计算区域的动态权重,使用标准交叉熵损失结合对应区域的动态权重和卷积神经网络的预测值计算得到训练图像的最终损失值，具体如下：

其中，

表示训练图像的最终损失；

表示边界区域或主体区域；

表示图像中像素的总数；

表示图像中某个像素；

表示该像素点

上卷积神经网络的预测值，即预测像素

属于语义分割标注中该像素标注类别的概率；

表示对应区域的超参权重；

表示对应区域的有效像素占比。

进一步地，步骤S3包括以下步骤：

S3.1、输入待分割图像至训练完成的卷积神经网络；

S3.2、卷积神经网络进行前行传播，获取待分割图像中每个像素预测类别的概率分布；

S3.3、选择概率值最大的类别作为卷积神经网络的预测类别。

与现有方法相比，本发明具有如下优点和效果：

本发明适用于现有的面向语义分割任务的通用深度卷积网络，相较于FusionNet，本发明方法具有良好的适用性，适用于现有的面向语义分割任务的通用卷积神经网络，无需修改网络结构，从而保留了原网络的推理效率。同时，本发明能够有效缓解复杂语义分割场景中普遍存在的图像中对象主体区域和边界区域像素样本不平衡的问题，提供了一种新颖的区域分离方法，并通过动态权值平衡模型对于图像不同区域的拟合，有效提升模型对图像边界区域的分割精度，改善模型对小尺度对象的拟合效果，进而提升模型分割精度。此外，本发明提供了一种端到端的训练和推理方式，简化了模型的训练和部署过程。

附图说明

图1为本发明实施例中模型训练流程示意图；

图2为本发明实施例中圆形填充卷积核示意图；

图3为本发明实施例中区域分离流程示意图。

具体实施方式

为了使本发明的技术方案及优点更加清楚明白，以下结合附图和实施例对本发明的具体实施进行进一步的详细说明，但本发明的实施和保护不限于此。

实施例：

一种基于区域分离的图像语义分割方法，包括以下步骤：

S1、构建卷积神经网络；

构建的卷积神经网络为现有的面向语义分割任务的通用卷积神经网络，在一个实施例中，卷积神经网络采用FCN；在另一个实施例中，卷积神经网络采用Deeplabv3；

S2、如图1所示，训练构建的卷积神经网络，包括以下步骤：

S2.1、获取训练图像和对应的语义分割标注；

S2.2、输入训练图像到步骤S1中构建的卷积神经网络，卷积神经网络以端到端的方式输出尺寸与输入图像一致的预测值；

S2.3、根据语义分割标注获取对应的语义分割标注边界，具体如下：

本实施例中，将训练图像的语义分割标注向不同的8个方向（上、下、左、右、左上、右上、左下、右下）分别平移一个像素单位，超出标注图像范围的像素被舍弃，空出的像素位置则以该像素位置的原始标注值填充，将语义分割标注分别与由此得到的8个中间结果相减；

S2.4、使用获得的语义分割标注边界和圆形填充的卷积核将语义分割标注分离为边界区域和主体区域，具体如下：

如图2所示，根据选取的阈值距离d，计算大小为

如图3所示，使用圆形填充卷积核将卷积运算作用于训练图像对应的语义分割标注边界，卷积步长为1，卷积操作不使用偏移值，使用0向图像外填充d个像素单位，得到区域分离结果图；由此得到的区域分离结果图与训练图像的尺寸相同，其中到边界距离小于等于d的像素点值为非零；反之，到边界距离大于d的像素点值为零；

S2.5、使用分离的边界和主体区域结合语义分割标注计算区域的有效像素占比，具体如下：

；

其中，

表示边界区域或主体区域；

表示对应区域的有效像素占比；

表示对应区域中有效像素的数目；

表示图像中像素的总数。

S2.6、使用区域的有效像素占比结合区域的超参权重计算区域的动态权重,使用标准交叉熵损失结合对应区域的动态权重和卷积神经网络的预测值计算得到训练图像的最终损失值，具体如下：

其中，

表示训练图像的最终损失；

表示边界区域或主体区域；

表示图像中像素的总数；

表示图像中某个像素；

表示该像素点

上卷积神经网络的预测值，即预测像素

属于语义分割标注中该像素标注类别的概率；

表示对应区域的超参权重；

表示对应区域的有效像素占比。

S3、使用训练完成的卷积神经网络对给定场景中图像进行语义分割，包括以下步骤：

S3.1、输入待分割图像至训练完成的卷积神经网络；

S3.3、选择概率值最大的类别作为卷积神经网络的预测类别。

本实施例中，本发明所述基于区域分离的语义分割方法具有良好的适用性，可应用于现有的面向语义分割任务的深度卷积网络，在不修改网络结构的前提下，可有效提升多分类复杂场景下图像语义分割的精度，改善模型对于图像边界区域和小尺度对象的拟合效果。在Cityscapes这一多目标复杂街道场景数据集上，区域超参权重

和

分别设为1.0、 0.5的情况下，应用本发明方法的FCN模型在验证集上取得了平均交并比（meanintersectionoverunion, mIoU）为73.58%的分割性能，而目前主流的使用交叉熵损失的FCN模型在相同条件下结果为72.16%。同样，相较于交叉熵损失，使用本发明的Deeplabv3模型在Cityscapes验证集上平均交并比由77.24%提升至78.30%；DANet模型由77.49%提升至77.84%。在PASCALVOC2012验证集上，

和

分别设为0.5、 0.2的情况下，使用本发明的FCN模型由70.30%提升至71.52%；Deeplabv3模型由77.44%提升至78.46%；DANet模型由77.19%提升至78.79%。本发明无需修改原始网络结构，保留了原始模型的推理效率。通过区域分离操作，缓解了由于复杂场景中边界区域和主体区域像素不平衡而影响模型训练效果的问题，提升了模型分割精度。同时本发明在不同模型和数据集上表现出良好的适用性，相较于交叉熵损失，使用本发明的模型分割精度均获得了明显提升。

Claims

1.一种基于区域分离的图像语义分割方法，其特征在于，包括以下步骤：

S1、构建卷积神经网络；

S2、训练构建的卷积神经网络；包括以下步骤：

S2.1、获取训练图像和对应的语义分割标注；

S2.3、根据语义分割标注获取对应的语义分割标注边界；

S2.5、使用分离的边界区域和主体区域结合语义分割标注计算区域的有效像素占比；使用分离的边界区域和主体区域分别结合语义分割标注计算区域的有效像素占比，具体如下：

其中，region表示边界区域或主体区域；t_region表示对应区域的有效像素占比；c_region表示对应区域中有效像素的数目；c_image表示图像中像素的总数；

S2.7、使用梯度下降法更新卷积神经网络的权重至收敛，得到训练完成的卷积神经网络；

2.根据权利要求1所述的一种基于区域分离的图像语义分割方法，其特征在于，步骤S1中，构建的卷积神经网络为现有的面向语义分割任务的通用卷积神经网络。

3.根据权利要求1所述的一种基于区域分离的图像语义分割方法，其特征在于，步骤S1中，构建的卷积神经网络为FCN、Deeplabv3或DANet。

4.根据权利要求1所述的一种基于区域分离的图像语义分割方法，其特征在于，步骤S2.3中，根据语义分割标注获取对应的语义分割标注边界，具体如下：

5.根据权利要求4所述的一种基于区域分离的图像语义分割方法，其特征在于，将训练图像的语义分割标注向不同的8个方向分别平移一个像素单位，超出标注图像范围的像素被舍弃，空出的像素位置则以该像素位置的原始标注值填充，将语义分割标注分别与由此得到的8个中间结果相减。

6.根据权利要求5所述的一种基于区域分离的图像语义分割方法，其特征在于，所述8个方向包括上、下、左、右、左上、右上、左下、右下。

7.根据权利要求1所述的一种基于区域分离的图像语义分割方法，其特征在于，步骤S2.4中，使用获得的语义分割标注边界和圆形填充的卷积核将语义分割标注分离为边界区域和主体区域，具体如下：

根据选取的阈值距离d，计算大小为(2d+1)×(2d+1)的圆形填充卷积核，其中，圆形填充卷积核中，到中心点距离小于等于d的位置取值为1，其余位置取值为0；

8.根据权利要求1所述的一种基于区域分离的图像语义分割方法，其特征在于，步骤S2.6中，使用区域的有效像素占比结合区域的超参权重计算区域的动态权重，使用标准交叉熵损失结合对应区域的动态权重和卷积神经网络的预测值计算得到训练图像的最终损失值，具体如下：

其中，L表示训练图像的最终损失；region表示边界区域或主体区域；N表示图像中像素的总数；i表示图像中某个像素；

表示该像素点i上卷积神经网络的预测值，即预测像素i属于语义分割标注中该像素标注类别的概率；λ_region表示对应区域的超参权重；t_region表示对应区域的有效像素占比。

9.根据权利要求1-8任一项所述的一种基于区域分离的图像语义分割方法，其特征在于，步骤S3包括以下步骤：

S3.1、输入待分割图像至训练完成的卷积神经网络；

S3.2、卷积神经网络进行前向传播，获取待分割图像中每个像素预测类别的概率分布；

S3.3、选择概率值最大的类别作为卷积神经网络的预测类别。