CN112418228B

CN112418228B - 一种基于多种特征融合的图像语义分割方法

Info

Publication number: CN112418228B
Application number: CN202011201208.1A
Authority: CN
Inventors: 石敏; 蔡少委; 易清明
Original assignee: Jinan University
Current assignee: Jinan University
Priority date: 2020-11-02
Filing date: 2020-11-02
Publication date: 2023-07-21
Anticipated expiration: 2040-11-02
Also published as: CN112418228A

Abstract

本发明公开了一种基于多种特征融合的图像语义分割方法，包括如下步骤：首先构造融合增强特征和图像边缘特征的空洞‑稠密结构；将待分割图像分别输入到图像增强通道、空洞卷积通道和图像边缘特征提取通道进行特征提取；接着将提取得到的特征通过稠密连接的方式进行合并；然后将合并的特征传递到多个由三层空洞卷积构成的稠密块中，最后通过反卷积层得到像素分类后的结果。本发明同时利用方差拟合的方法改进了L1范数的平滑性，并利用改进后的L1范数裁剪掉卷积层中存在的冗余卷积核。本图像语义分割方法在卷积层参数适中情况下提高了图像语义分割的效果。

Description

一种基于多种特征融合的图像语义分割方法

技术领域

本发明涉及图像处理和机器视觉技术领域，具体涉及一种基于多种特征融合的图像语义分割方法。

背景技术

图像语义分割(ISS，Image Semantic Segmentation)能够根据图像的特征来获取图像信息，是数字图像处理研究的重点之一。当前，普遍的神经网络模型对于类别属性较为明显的物体都能表现出较好的分割效果，但对于一些属性类别相似的目标或图像背景较为复杂时，常见的图像语义分割方法在分割过程产生的特征往往由于分辨率下降、局部特征提取不充分等问题使得模型分割效果并不理想。目前在许多图像语义分割方法中常采用空洞卷积层(Dilated Convolution)构建空洞卷积神经网络来解决复杂的图像语义分割问题。图像语义分割是在卷积神经网络(Convolutional Neural Networks,CNN)的结构基础上进行改进，凭借其较好的拟合能力，通过卷积学习大量数据，能提取到最大限度区分物体的抽象特征。然而在复杂图像语义分割场景中，空洞卷积神经网络因图像中的光线、角度和状态等差异性，以及不同类别物体之间的高度相似性的影响，使得空洞卷积神经网络在改变多种空洞卷积层参数的情况下也并不能很好地提升图像语义的分割效果。

此外，在设计神经网络的过程中通常会选择提供比需求更多的参数，使得卷积层和空洞卷积层需要巨大的计算资源，在实际应用或者计算平台中难以满足其对运算性能的要求，这就要求图像语义分割方法在保持较好的分割效果的同时减少神经网络中冗余的参数。

发明内容

本发明的目的是为了解决现有技术中的上述缺陷，提供一种基于多种特征融合的图像语义分割方法。

本发明的目的可以通过采取如下技术方案达到：

一种基于多种特征融合的图像语义分割方法，所述的图像语义分割方法包括以下步骤：

S1、将待分割图像输入到融合了增强图像特征和图像边缘特征的空洞-稠密结构中；

S2、在空洞-稠密结构的图像增强通道、空洞卷积通道及图像边缘特征提取通道中分别对待分割图像进行特征图提取；

S3、将图像增强通道、空洞卷积通道及图像边缘特征提取通道提取的特征图通过稠密连接的方式进行合并；

S4、将合并后得到的特征图输入到由多个稠密块依次串联构成的特征提取器中，得到待检测图像的特征图；

S5、将特征提取器获取的特征图输入反卷积层中进行上采样得到语义分析的检测结果。

进一步地，所述的图像增强通道采用自适应直方图均衡化方法对输入图像进行增强，然后将增强后的图像输入两层卷积层和一层批量归一化层，从而获得增强后的特征图；或者，

所述的图像增强通道采用限制对比度自适应直方图均衡化方法对图像进行增强，然后将增强后的图像输入两层卷积层和一层批量归一化层，从而获得增强后的特征图。

进一步地，所述的空洞卷积通道将输入图像经过两层卷积层后进入采样间隔分别为1、2和5的三个空洞卷积层中，并且，每一个空洞卷积层后面连接批量归一化层和激活函数层。

进一步地，所述的图像边缘特征提取通道采用Canny算子的边缘提取算法来获取图像边缘信息，然后将图像边缘信息输入两层卷积层和一层批量归一化层，从而获得图像边缘特征。

进一步地，所述的稠密块包括两条并行通道，第一条通道由三个空洞卷积层、批量归一化层和relu激活函数层构成，并且三个空洞卷积层的采样间隔分别为1、2和5，第二条通道由三个卷积层和归一化层构成，两条通道在输出部分进行稠密连接后经过一层relu激活函数进行输出。

进一步地，所述的步骤S5中将特征提取器获取的特征图输入反卷积层中基于双线性插值进行上采样得到语义分析的检测结果。

进一步地，所述的空洞-稠密结构中卷积层和空洞卷积层的参数利用改进后的L1范数确定，减少卷积层和空洞卷积层中冗余的卷积核。

进一步地，所述的改进后的L1范数是在L1范数基础上增加方差调节L1范数的平滑性，改进后的公式如下所示：

其中，h和w分别为卷积核的高和宽，x_i,j为卷积核中矩阵的元素，u为卷积核中矩阵元素的均值。

本发明相对于现有技术具有如下的优点及效果：

(1)本发明采用空洞-稠密结构替代卷积池化结构，在整体引入更少参数的同时，能够获得更大的感受野，从而降低图像特征分辨率的下降速度并保留更多图像中目标位置的信息；

(2)本发明在空洞-稠密结构的基础之上融合了Canny算法提取的边缘信息以及通过AHE算法增强图像后的特征，可以较好解决因光照、色彩等因素造成的图像质量问题，为像素分类过程提供更多的特征信息，提高图像语义分割的准确率；

(3)本发明在L1范数基础上增加用方差来调节L1范数的平滑性，弥补卷积核元素差异性较大而L1范数值较小的不足，使训练得到的图像语义分割模型的参数更加合理。

附图说明

图1是本发明实施例中公开的一种基于多种特征融合的图像语义分割方法的流程图；

图2是本发明实施例中裁剪直方图；

图3是本发明实施例中双线性插值示例图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例

图1是本发明实施例中公开的一种基于多种特征融合的图像语义分割方法的流程图，如图1所示，本发明实施例提供一种适用于图像语义分割的空洞-稠密网络融合模型方法，包括以下步骤：

其中，图像增强通道采用自适应直方图均衡化(Aptive HistogramEqualization，AHE)方法对输入图像进行增强，然后将增强后的图像输入两层卷积层和一层批量归一化层，从而获得增强后的特征图。

在另外一种可选的实施方式中，图像增强通道中采用限制对比度自适应直方图均衡化(Contrast Limited Adaptive Histogram Equalization，CLAHE)方法来对图像进行增强，同时在变换函数斜率的基础上，结合插值的算法来提升直方图变换的效率。CLAHE方法对每个子块直方图进行了限制，通过预先定义的阀值来裁剪直方图。将子块裁剪掉的部分移动到其它部分，从而调整每个子块的对比度，得到增强后的图像。

其中，空洞卷积通道将输入图像经过两层卷积层后进入采样间隔分别为1、2和5的空洞卷积层中，并且，每一个空洞卷积层后面连接批量归一化层和激活函数层。

其中，图像边缘特征提取通道采用Canny算子的边缘提取算法来获取图像边缘信息，然后将图像边缘信息输入两层卷积层和一层批量归一化层，从而获得图像边缘特征。

本实施例中，采用Canny算子的边缘提取算法具体流程如下：

将图像进行平滑处理后对特征的强度梯度和方向进行分析，然后对非极大值进行抑制，以及采用双阈值和滞后技术来确定边界并得到边缘信息。本实施例采用常用的高斯滤波器与图像进行卷积来减少图像噪声在边缘检测中的影响。滤波器核的元素值符合高斯分布，因此滤波器核的大小会影响对图像噪声的减少程度，噪声的敏感度随滤波器核的增大而降低，本文将滤波器核大小设为5x5大小。

在计算平滑后图像的强度梯度和方向时，由于任一点的边缘与梯度的向量正交且图像分割中的边缘检测较为复杂，为了提高检测效率，本实施例采用sobel算子来计算梯度的强度和方向，得到水平和垂直方向的一阶导数值G_x和G_y。根据一阶导数可以确定像素点的梯度G和方向θ，如以下公式所示：

由于获取的像素点在正负方向上的两个像素点的梯度值可能存在较大的差异，无法选出合适的边缘值点，因此需要通将这些像素点的梯度值进行比较，并去除非极大值。此外，噪声和颜色变化产生的一些边缘像素对边缘提取也会产生干扰，需要对这些像素进行过滤。高低阀值过滤可以将大于高阀值得边缘像素标记为强边缘像素，而低于低阀值的点则被抑制为0，并将这些边缘像素标记为弱边缘像素。如果相邻的多个边缘像素点没有被标记强边缘像素，则需要将该弱边缘像素进行抑制。

稠密块主要由两条通道构成，第一条通道由三个空洞卷积层、批量归一化层和relu激活函数层构成。通过改变空洞卷积的采样间隔可以改变卷积核大小，本实例采样间隔选择较为常用的1、2和5大小。第二条下采样通道由三个卷积层和归一化层构成。两条通道在输出部分进行稠密连接方式进行合并后经过一层relu激活函数进行输出。本实例使用的稠密块网络卷积层配置如下表1所示，稠密块之间通过1x1卷积层进行降维。

表1.稠密块卷积层配置表

卷积层	通道	采样间隔	卷积核参数
				空洞卷积层	通道一	1	3x3
空洞卷积层	通道一	2	3x3
				空洞卷积层	通道一	5	3x3
卷积层	通道二	-	3x3
				卷积层	通道二	-	7x7
卷积层	通道二	-	7x7

本实施例利用L1范数能够较直接地反映图像的表征信息的特点，对每个卷积核在所对应的卷积层中发挥的重要性进行评估，对于重要性较低的卷积核将直接去除。由于本实施例使用到的卷积层所对应的卷积核不同，卷积核的数量随层数的增加而增多，对神经网络逐层进行裁剪需要消耗较多的时间。因此本实施例通过设置裁剪30％的卷积核作为本图像语义分割方法中每个卷积层裁剪数量的上限。本实施例还求出每个通道所对应卷积核的方差，并且利用方差作为系数调解L1范数值：

L1范数公式如下所示，h和w分别为卷积核的高和宽，x_i,j为卷积核的元素。通过计算卷积核中的参数绝对值之和得到L1范数值，u为卷积核元素的均值。

其中，本实施例步骤S4中基于双线性插值进行上采样。

双线性插值主要是通过周围的Q点值来确定用于填充P值，假设Q₀₀、Q₀₁、Q₁₀和Q₁₁点的坐标分别为(x₁,y₁)、(x₂,y₁)、(x₁,y₂)和(x₂,y₂)。在横坐标上通过两次线性插值得到新的坐标点R₀和R₁，R₀和R₁的值f(x,y₁)和f(x,y₂)，如下公式所示。然后对R₀和R₁在纵坐标上进行一次线性插值得到P点的值f(x,y)。

本实施例在PASCAL VOC 2012数据集上针对现有的FCN,CRF-RNN,LRR,dilations和Dilations8和本发明提出的基于多特征融合的图像语义分割方法进行了实验，用于比较的数据集有21类，分别是人类、动物(鸟、猫、牛、狗、马、羊)、交通工具(飞机、自行车、船、公共汽车、小轿车、摩托车、火车)、室内物品(瓶子、椅子、餐桌、盆栽植物、沙发、电视)和背景。表2直观地显示了在PASCAL VOC 2012数据集上的各个语义分割模型的平均交并比(MIoU)。FCN算法提出时间较早，在分割性能上也具有局限性。以此基础上进行改进的CRF-RNN和基于特征融合的LRR模型的在性能上有了很大提升，并且相对本发明提出的基于多特征融合的图像语义分割方法在Aero、Bottle、Bird、Bus、Mbike、Train、Tv类中也具有更好的分割效果。但本发明提出的基于多特征融合的图像语义分割方法融合了图像边缘特征和增强后的图像特征后使得模型在Bike、Sofa、Plant等类能够保留较多的细节特征，分割性能有了明显的提升。与Dilations和Dilation8算法相比，本发明提出的基于多特征融合的图像语义分割方法同样采用空洞卷积的方式，但通过稠密网络结构和增加特征信息方式，使得模型的整体性能都有所提升，相对Dilations和Dilations8的平均mIOU分别提升18.5％和6.4％。

表2.PASCAL VOC2012测试集逐类别准确率

Category	FCN	CRFs	LRR	Dilations	Dilations8	Ours
							Aero	76.8	87.5	92.4	82.2	91.7	91.3
Bike	34.2	39.0	45.1	37.4	39.6	60.4
							Bird	68.9	79.7	94.6	72.7	87.8	93.7
Boat	49.4	64.2	65.2	57.1	63.1	68.4
							Bottle	60.3	68.3	75.8	62.7	71.8	74.3
Bus	75.3	87.6	95.1	82.8	89.7	94.0
							Car	77.6	80.8	89.1	77.8	82.9	89.8
Cat	77.6	84.4	92.3	78.9	89.8	93.0
							Chair	21.4	30.4	39.0	28	37.2	39.3
Cow	62.5	78.2	85.7	70	84.0	89.5
							Table	46.8	60.4	70.4	51.6	63.0	70.8
Dog	71.8	80.5	88.6	73.1	83.3	89.1
							Horse	63.9	77.8	89.4	72.8	89.0	92.3
Mbike	76.5	83.1	88.6	81.5	83.8	87.1
							Person	73.9	80.6	86.6	79.1	85.1	88.6
Plant	45.2	59.5	65.8	56.6	56.8	70.5
							Sheep	72.4	82.8	86.2	77.1	87.6	87.5
Sofa	37.4	47.8	57.4	49.9	56.0	62.9
							Train	70.9	78.3	85.7	75.3	80.2	84.1
Tv	55.1	67.1	77.3	60.9	64.7	76.2
							mIoU	62.2	72.0	79.3	67.6	75.3	80.1

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于多种特征融合的图像语义分割方法，其特征在于，所述的图像语义分割方法包括以下步骤：

S2、在空洞-稠密结构的图像增强通道、空洞卷积通道及图像边缘特征提取通道中分别对待分割图像进行特征图提取；所述的空洞-稠密结构中卷积层和空洞卷积层的参数利用改进后的L1范数确定，减少卷积层和空洞卷积层中冗余的卷积核；所述的改进后的L1范数是在L1范数基础上增加方差调节L1范数的平滑性，改进后的公式如下所示：

其中，h和w分别为卷积核的高和宽，x_i,j为卷积核中矩阵的元素值，u为卷积核中矩阵元素的均值；

S3、将图像增强通道、空洞卷积通道及图像边缘特征提取通道提取的特征图通过稠密连接的方式进行合并；所述的空洞卷积通道将输入图像经过两层卷积层后进入采样间隔分别为1、2和5的三个空洞卷积层中，并且，每一个空洞卷积层后面连接批量归一化层和激活函数层；所述的图像边缘特征提取通道采用Canny算子的边缘提取算法来获取图像边缘信息，然后将图像边缘信息输入两层卷积层和一层批量归一化层，从而获得图像边缘特征；

S4、将合并后得到的特征图输入到由多个稠密块依次串联构成的特征提取器中，得到待检测图像的特征图；所述的稠密块包括两条并行通道，第一条通道由三个空洞卷积层、批量归一化层和relu激活函数层构成，并且三个空洞卷积层的采样间隔分别为1、2和5，第二条通道由三个卷积层和归一化层构成，两条通道在输出部分进行稠密连接后经过一层relu激活函数进行输出；

2.根据权利要求1所述的一种基于多种特征融合的图像语义分割方法，其特征在于，所述的图像增强通道采用自适应直方图均衡化方法对输入图像进行增强，然后将增强后的图像输入两层卷积层和一层批量归一化层，从而获得增强后的特征图；或者，

3.根据权利要求1所述的一种基于多种特征融合的图像语义分割方法，其特征在于，所述的步骤S5中将特征提取器获取的特征图输入反卷积层中基于双线性插值进行上采样得到语义分析的检测结果。