CN112101363A

CN112101363A - 基于空洞残差和注意力机制的全卷积语义分割系统及方法

Info

Publication number: CN112101363A
Application number: CN202010910084.8A
Authority: CN
Inventors: 李庆武; 陆秋雨; 陈俊锋; 丁成龙; 周清楷; 周亚琴; 马云鹏
Original assignee: Hohai University HHU
Current assignee: Hohai University HHU
Priority date: 2020-09-02
Filing date: 2020-09-02
Publication date: 2020-12-18
Anticipated expiration: 2040-09-02
Also published as: CN112101363B

Abstract

本发明公开了一种基于空洞残差和注意力机制的全卷积快速语义分割方法，当检测到输入图像时，首先对图像进行预处理，提取特征信息，然后进行不同维度的池化；再提取边缘特征进行强化，并结合注意力机制，处理低层高分辨率低语义特征图像，融合处理后的低层高分辨率低语义特征图像和高层低分辨率高语义特征图像；此外，融合边缘强化模块输出、卷积输出、注意力机制模块输出；最后，进行反卷积还原，得到准确度高，速度快的语义分割结果。本发明可准确、快速完成语义分割功能，具有较高的工程价值、应用价值。

Description

基于空洞残差和注意力机制的全卷积语义分割系统及方法

技术领域

本发明涉及一种基于空洞残差和注意力机制的全卷积语义分割方法，属于计算机视觉领域。

技术背景

语义分割技术是计算机视觉领域不可或缺的一部分，在智能驾驶、精准农业等领域应用广泛。以语义分割为基础的比亚迪、特斯拉等品牌电动汽车，可以实现自动车道保持、自动变更车道等功能；农业无人机可以根据语义分割结果进行实时除草、喷洒农药等行动。

分割精度和模型推理速度是衡量语义分割技术优劣的关键，近年来，实时场景下对网络模型的实时性需求不断增加，使一些快速语义分割算法逐渐兴起，这些算法通过减少网络层数目、裁剪输入图像尺寸等方式来缩短模型架构推理时间，以达到实时性需求，虽然提高了模型推理的效率，但是分割精度往往不高。包括全卷积神经网络(FullyConvolutional Neural Network,FCN)在内的传统网络模型结构对图像的一些边缘轮廓部分识别相对模糊，像素间的空间未能紧密连接，导致分割目标整体连贯性较差，分割结果不够精细，无法同时保证较高的分割精度和模型推理速度。如何在提高模型推理速度的同时，保障分割精度，是解决语义分割技术在实时场景中应用的问题关键。

发明内容

本发明所要解决的技术问题是：在实时场景下，语义分割技术的神经网络模型有的无法满足实时性要求，有的不能实现对图像的准确、快速分割，在精准度以及实际测试速率两方面难以做到平衡。

为解决上述技术问题，本发明提出基于空洞残差和注意力机制的全卷积语义分割系统，包括以下功能模块：

图像预处理卷积模块：读取原始图像后，进行一层卷积处理，通过第一层卷积(conv1)提取图像中物体形状特征；

金字塔池化模块：对预处理后的图像使用金字塔池化模型进行金字塔池化；把图像分成多个子区域，每个子区域使用不同层级金字塔池化，在金字塔池化模块每一个层级后引入一个1×1的二层卷积实现通道降维；通过对应倍率的双线性插值恢复图像分辨率，得到恢复特征图像C2；

边缘强化模块：对恢复特征图像进行三层卷积处理，通过残差块结构实现边缘强化(BM)，记作边缘强化模块BM1；对三层卷积处理结果进行四层卷积处理，同样根据残差块结构实现边缘强化，记作边缘强化模块BM2；

注意力机制模块：将恢复特征图像C2和边缘强化模块BM2输出映射分别作为低层高分辨率低语义特征和高层低分辨率高语义特征输入“注意力机制”(Attentionmechanism，AM)融合语义特征；

多特征融合模块：使用多特征融合模块(Feature gathering module,FGM)融合四层卷积处理结果、边缘强化模块BM1处理结果、注意力机制处理结果进行输出；

反卷积还原模块：使用由三个反卷积层级联而成的反卷积还原(DCM)模块，将融合结果还原至原始输入的分辨率大小。

一种基于空洞残差和注意力机制的全卷积语义分割方法，包括以下步骤：

1)图像预处理：读取原始图像后，进行一层卷积处理，通过第一层卷积(conv1)提取图像中物体形状特征；

2)获取不同尺度的特征：将预处理后的图像分成数个子区域，此例为4个，使用金字塔池化模型(PPM)进行金字塔池化；

3)通道降维：在金字塔池化模块每一个层级后引入一个1×1的二层卷积实现通道降维；

4)恢复图像分辨率：通过对应倍率的双线性插值恢复图像分辨率，得到恢复特征图像C2；

5)边缘强化：对恢复特征图像进行三层卷积处理，通过残差块结构实现边缘强化(BM)，记作边缘强化模块BM1；对三层卷积处理结果进行四层卷积处理，同样根据残差块结构实现边缘强化，记作边缘强化模块BM2；

6)引入注意力机制：将步骤4)得到的二层卷积处理结果，即恢复特征图像C2和边缘强化模块BM2输出映射分别作为低层高分辨率低语义特征和高层低分辨率高语义特征输入“注意力机制”(Attention mechanism，AM)融合语义特征；

7)多特征融合：使用多特征融合模块(Feature gathering module,FGM)融合四层卷积处理结果、边缘强化模块BM1处理结果、注意力机制处理结果进行输出；

8)还原原始输入：使用由三个反卷积层级联而成的反卷积还原(DCM)模块，将融合结果还原至原始输入的分辨率大小。

与现有技术相比，本发明的有益效果是：

(1)本发明利用边缘强化模块(BM)处理图像中的低级特征如角点、锐利边缘等，有助于提取更精细的边缘细节；

(2)本发明提出的多特征融合模块(Feature gathering module,FGM)对底层边缘特征、全局特征、注意力机制处理后的特征进行融合，在保证检测准确率的同时，加快了处理速度；

(3)本发明利用基础残差块结构和孔洞卷积相结合的方式，既保证了分辨率不变也维持了原有感受野，使底层信息得以保留，提高识别准度。

附图说明

图1为本发明的系统模块结构图；

图2为本发明的系统运行示意图；

图3为边缘强化模块示意图；

图4为注意力机制模块示意图；

图5为多特征融合模块示意图。

具体实施方式

下面结合附图对本发明作更进一步的说明。

实施例1

如图1所示，本发明提出的一种基于空洞残差和注意力机制的全卷积快速语义分割系统包括：

图像预处理卷积模块：读取原始图像后，进行一层卷积处理，通过第一层卷积提取图像中物体形状特征；

边缘强化模块：对恢复特征图像进行三层卷积处理，通过残差块结构实现边缘强化，记作边缘强化模块BM1；对三层卷积处理结果进行四层卷积处理，同样根据残差块结构实现边缘强化，记作边缘强化模块BM2；

注意力机制模块：将恢复特征图像C2和边缘强化模块BM2输出映射分别作为低层高分辨率低语义特征和高层低分辨率高语义特征输入“注意力机制”融合语义特征；

多特征融合模块：使用多特征融合模块融合四层卷积处理结果、边缘强化模块BM1处理结果、注意力机制处理结果进行输出；

其中图像预处理卷积模块和反卷积还原模块都是由一个卷积单元实现相应的特征压缩或还原功能，边缘强化模块、注意力机制模块、多特征融合模块则有各自的连接、组成方式。

如图2所示，本发明的基于空洞残差和注意力机制的全卷积快速语义分割方法，具体运行流程为：

1)读取原始图像后，进行一层卷积处理，通过第一层卷积(conv1)提取图像中物体形状特征，对图像进行预处理；

2)对预处理后的图像使用金字塔池化模型(Pyramid pooling module,PPM)进行金字塔池化；

21)首先确定金字塔池化层数，将金字塔池化层分成多层，例如4层；

22)对金字塔池化层从顶端到底端进行4路池化，分别为全局池化、1/2池化、1/4池化、1/8池化；

23)将特征图分为多个子区域，在不同位置使用不同池化层表示；

3)在PPM模块各层级后引入一个1×1的卷积(conv2)实现通道降维；

4)降维后通过对应倍率的双线性插值恢复图像分辨率，得到恢复特征图像C2；

5)如图3所示，使用边缘强化模块(BM)对恢复特征图像C2进行处理；

51)利用卷积模块(conv3)处理恢复特征图像C2，得到特征图像三C3；

52)利用卷积模块(conv4)处理特征图像C3，得到特征图像四C4；

53)使用特定卷积步长和扩张率的空洞卷积对输入边缘强化模块(BM)的图像进行处理，例如卷积步长(stride)为1，扩张率d＝2，维持空洞卷积的感受野不变，得到和输入特征图像一致分辨率的输出；所述输入边缘强化模块(BM)的图像为步骤51)得到的特征图像三C3或步骤52)得到的特征图像四C4；

感受野计算公式为：RF_l＝RF_l-1+(f_l-1)×s_l-1×d_l，l为神经元的层数，RF_l-1为第l-1层神经元的感受野，RF_l为其最后一层感受野，f_l为卷积核大小，s_l-1为两卷基层之间的卷积步长，d_l为当前空洞步长值；

54)调用非线性激活函数(ReLU)进行非线性建模；

55)重复53)步骤，将输出记为CB；

56)利用残差块结构，令Im表示粗糙的输入特征，令R(Im)表示残差分支，残差分支由步骤53)、步骤54)、步骤55)串联组成，定义Om＝Im+R(Im)，表示粗糙的输入特征和残差分支相加结果为边缘增强后的特征映射Om，促使残差分支学习物体边缘，保留更多底层信息；

57)分别对步骤51)中输出特征图像三C3和步骤52)中输出特征图像四C4进行步骤53)、步骤54)、步骤55)、步骤56)所述的边缘特征强化，得到强化后的强化特征图像B1和强化特征图像B2；

6)如图4所示，利用注意力机制模型，提取高层语义信息衡量特征映射重要性，“引导”低层级语义特征，改善语义分割精度；

61)根据注意力机制模型特点，将步骤4)中输出的低层高分辨率低语义特征图像，即恢复特征图像C2，和步骤57)中输出的高层低分辨率高语义特征图像，即强化特征图像B2作为注意力机制模型输入；

62)把两个注意力机制模型输入进行比较，将低层高分辨率低语义特征图像进行全局平均池化(GAP)，具体过程如下：

a.按照预期语义分割类别数目将低层高分辨率低语义特征图像分成指定的多种类别，即确定输出特征图数目，同时配置最后的卷积层，使其卷积层包含的滤波器个数和输出特征图数目相同；

b.依据全局平均池化(GAP)定义，对每个特征图的所有像素分别进行累加，进而求平均值；

c.将得到的所有平均值数据输入到神经网络的归一化层(softmax层)，归一化层首先根据前馈神经网络和符号系统计算带权输入：

L表示当前神经元层数，j表示第几个神经元，k也表示第几个神经元，

表示带权输入，

表示从L-1层的第k个神经元到L层的第j个神经元连接的权重，

表示L-1层第j个神经元的激活值，

表示L层第j个神经元的偏置；

d.将每个神经元的输入占当前层所有神经元输入之和的比值，当作该神经元的输出，神经元的输出值越大，则所述神经元对应的类别是真实类别的可能性更高，神经元输出概率计算公式为：

得到的概率值

就是每张图片属于某类的概率，

表示L层第j个神经元归一化后的带权输入，

为k层归一化带权输入的和；

63)使用卷积步长(stride)为1，扩张率为d＝2的空洞卷积处理全局平均池化输出特征图像，得到和输入特征图像一致分辨率的输出；

64)经过非线性函数模块(ReLU)显示建模特征的相关性，记为输出特征图像一R1；

65)将高层低分辨率高语义特征图像B2和步骤64)中输出特征图像一R1进行融合，融合后的输出图像为融合特征图像M1，具体流程如下：

a.从所有训练数据选取n个数据作为特征融合的训练输入，通常情况，n远小于N，N为整体训练数据个数；

b.构建决策树，整体的特征集M中，从每一个分裂节点从选取m个特征进行构建，m远小于M，通常情况下m＝log₂M，从m个属性中计算信息增益，从而确定分裂属性特征；

c.重复b中步骤，直到无法继续分裂，或分裂程度达到所设定的阈值，完成决策树构建；

d.重复步骤a、步骤b、步骤c三个步骤，建立足够的决策树，实现特征图像融合；

e.获取步骤a中N-n个数据作为误差分析数据，分析特征融合误差。

66)对65)中融合特征图像M1进行卷积核大小为1×1的卷积运算，并使用非线性函数模块(ReLU)计算得到注意力机制模块(AM)输出AM1；

7)如图5所示，使用多特征融合模块(Feature gathering module,FGM)对底层边缘特征、全局特征和经注意力机制处理后的高层语义信息实施全面融合；

71)将步骤57)中得到的边缘强化特征图像B1，步骤66)中得到的注意力机制模块(AM)输出AM1和步骤52)中得到的特征图像四C4进行融合，得到融合输出图像F1，将F1作为多特征融合模块的输入进行多特征融合，具体步骤如下：

a.将融合输出图像F1进行3×3的卷积运算，得到的结果进行空洞卷积运算，之后再进行一次3×3的卷积运算，得到多特征融合模块中的一条支路输出；

b.将融合输出图像F1本身作为多特征融合模块中另一条支路输出；

c.将两个支路输出使用加法模块相加，得到输出特征图像，利用3×3的卷积模块计算，增大感受野，得到特征映射细节信息十分充分，语义非常完整的特征图像输出，记为多特征融合模块输出F1。

8)使用反卷积还原模块(DCM)，将多特征融合结果还原至原始输入的分辨率大小；

81)用卷积操作模拟得到反卷积层，使用3个卷积步长(Stride)为2的反卷积层进行级联，组成反卷积还原模块(DCM)；

82)根据反卷积输出维度计算公式，output＝(input-1)×s+x-2×p，其中input为输入矩阵的大小，p为padding即元素边框与元素内容之间的空间，x为卷积核大小，s为卷积步长，还原成最初输入图像的分辨率。

以上实施例仅用以说明发明的技术方案而非对其限制，所属领域的研发人员参照上述实施例依然可以对本发明的具体实施方式进行修改或者等同替换，这些没有脱离本发明精神和范围的任何修改或者等同替换，均在申请待批的本发明的权利要求保护范围以内。

Claims

1.一种基于空洞残差和注意力机制的全卷积语义分割系统，其特征在于：包括以下功能模块：

像预处理卷积模块：读取原始图像后，进行一层卷积处理，通过第一层卷积提取图像中物体形状特征；

反卷积还原模块：使用由三个反卷积层级联而成的反卷积还原模块，将融合结果还原至原始输入的分辨率大小。

2.一种基于空洞残差和注意力机制的全卷积语义分割方法，包括以下步骤：

1)读取原始图像后，进行一层卷积处理，通过第一层卷积提取图像中物体形状特征；

2)将预处理后的图像分成数个子区域，此例为4个，使用金字塔池化模型(PPM)进行金字塔池化；

3)在金字塔池化模块每一个层级后引入一个1×1的二层卷积实现通道降维；

4)通过对应倍率的双线性插值恢复图像分辨率，得到恢复特征图像C2；

5)对恢复特征图像进行三层卷积处理，通过残差块结构实现边缘强化，记作边缘强化模块BM1；对三层卷积处理结果进行四层卷积处理，同样根据残差块结构实现边缘强化，记作边缘强化模块BM2；

6)将步骤4)得到的二层卷积处理结果，即恢复特征图像C2和边缘强化模块BM2输出映射分别作为低层高分辨率低语义特征和高层低分辨率高语义特征输入“注意力机制”融合语义特征；

7)使用多特征融合模块融合四层卷积处理结果、边缘强化模块BM1处理结果、注意力机制处理结果进行输出；

8)使用由三个反卷积层级联而成的反卷积还原模块，将融合结果还原至原始输入的分辨率大小。

3.根据权利要求2所述的基于空洞残差和注意力机制的全卷积语义分割方法，其特征在于，在所述步骤2)中，包括以下步骤：

21)首先确定金字塔池化层数，将金字塔池化层分成多层；

23)将特征图分为多个子区域，在不同位置使用不同池化层表示。

4.根据权利要求2所述的基于空洞残差和注意力机制的全卷积语义分割方法，其特征在于，在所述步骤5)中，包括以下步骤：

52)利用卷积模块(conv4)处理特征图像C3，得到特征图像四C4；

53)使用特定卷积步长和扩张率的空洞卷积对输入边缘强化模块的图像进行处理，例如卷积步长为1，扩张率d＝2，维持空洞卷积的感受野不变，得到和输入特征图像一致分辨率的输出；所述输入边缘强化模块的图像为步骤51)得到的特征图像三C3或步骤52)得到的特征图像四C4；

54)调用非线性激活函数进行非线性建模；

55)重复53)步骤，将输出记为CB；

57)分别对步骤51)中输出特征图像三C3和步骤52)中输出特征图像四C4进行步骤53)、步骤54)、步骤55)、步骤56)所述的边缘特征强化，得到强化后的强化特征图像B1和强化特征图像B2。

5.根据权利要求4所述的基于空洞残差和注意力机制的全卷积语义分割方法，其特征在于，在所述步骤53)中，感受野计算公式为：RF_l＝RF_l-1+(f_l-1)×s_l-1×d_l，l为神经元的层数，RF_l-1为第l-1层神经元的感受野，RF_l为其最后一层感受野，f_l为卷积核大小，s_l-1为两卷基层之间的卷积步长，d_l为当前空洞步长值。

6.根据权利要求2所述的基于空洞残差和注意力机制的全卷积语义分割方法，其特征在于，在所述步骤6)中，包括以下步骤：

62)把两个注意力机制模型输入进行比较，将低层高分辨率低语义特征图像进行全局平均池化；

63)使用卷积步长为1，扩张率为d＝2的空洞卷积处理全局平均池化输出特征图像，得到和输入特征图像一致分辨率的输出；

64)经过非线性函数模块显示建模特征的相关性，记为输出特征图像一R1；

65)将高层低分辨率高语义特征图像B2和步骤64)中输出特征图像一R1进行融合，融合后的输出图像为融合特征图像M1，

66)对65)中融合特征图像M1进行卷积核大小为1×1的卷积运算，并使用非线性函数模块计算得到注意力机制模块输出AM1。

7.根据权利要求6所述的基于空洞残差和注意力机制的全卷积语义分割方法，其特征在于，在所述步骤62)中，具体过程如下：

b.依据全局平均池化定义，对每个特征图的所有像素分别进行累加，进而求平均值；

c.将得到的所有平均值数据输入到神经网络的归一化层，归一化层首先根据前馈神经网络和符号系统计算带权输入：