CN111860411A

CN111860411A - 一种基于注意力残差学习的道路场景语义分割方法

Info

Publication number: CN111860411A
Application number: CN202010745354.4A
Authority: CN
Inventors: 周武杰; 吕营; 强芳芳; 周扬; 雷景生; 杨胜英; 郭翔; 马骁
Original assignee: Zhejiang Lover Health Science and Technology Development Co Ltd
Current assignee: Zhejiang Lover Health Science and Technology Development Co Ltd
Priority date: 2020-07-29
Filing date: 2020-07-29
Publication date: 2020-10-30

Abstract

本发明公开了一种基于注意力残差学习的道路场景语义分割方法，应用于图像处理领域，具体步骤在于：选取训练集；构建神经网络，所述神经网络包括RGB图像通道和热图像通道，分别获取所述RGB图像和所述热图像的特征，并将所述特征依次经控制门模块和注意力残差模块处理；将选取的图像输入到所述神经网络中进行训练，得到训练集中对应的每幅分割预测图；计算训练集中的每幅所述RGB图像对应的所述分割预测图构成的集合与对应的所述真实标签图像构成的集合之间的损失函数值；重复训练并计算损失函数值，确定最优权值矢量和最优偏置项。本发明其具有较高的分割准确性，并且适用范围广。

Description

一种基于注意力残差学习的道路场景语义分割方法

技术领域

本发明涉及图像处理技术领域，更具体的说是涉及一种基于注意力残差学习的道路场景语义分割方法。

背景技术

语义分割在智能交通系统中有许多重要的应用，从交通场景理解、多目标障碍检测到视觉导航。目前最常用的语义分割方法有SVM、AdaBoost、random forest等算法。这些算法主要针对二值化分类任务，对特定物体进行检测和识别，如路面、车辆、行人。这些传统的机器学习方法往往需要专家进行特征工程，从而阻碍了不同场景下语义分割机器学习技术的快速发展。近年来，深度学习取得了突破性进展，在图像处理领域得到了广泛的应用。深度学习方法的一个优点是，它们有助于避免设计特征提取器。这使得它们可以应用于不同的任务，如语义分割，目标检测，图像分类。研究表明，深度学习技术特别适用于涉及复杂自然数据的任务，包括来自交通场景的图像数据。基于GPU的并行计算技术的发展有助于解决这一问题深度学习方法需要高计算复杂度的问题，从而使基于像素的交通场景语义分割成为可能。目前，深度学习的应用大大提高了图像分类任务的准确率。许多深度神经网络如AlexNet，VGG net，GoogLeNet在图像分类任务上都取得了很好的效果；最近的算法已经尝试使这些深度网络适应语义像素明智的分割任务，并且取得了一定的成就，考虑到为了实现户外交通场景分割存在的挑战在于交通场景更加复杂多变，系统需要获取更大距离上的深度信息，在恶劣的光照条件或者距离较远，深度相机受到限制。大多数已有的方法都需要精确的深度图作为场景分割的输入，这严重限制了方法的应用。

因此，如何提供一种适用范围广、分割准确性高的道路场景语义分割方法是本领域技术人员亟需解决的问题。

发明内容

有鉴于此，本发明提供了一种基于注意力残差学习的道路场景语义分割方法，其具有较高的分割准确性，并且适用范围广。

为了达到上述目的，本发明采用如下技术方案：

一种基于注意力残差学习的道路场景语义分割方法，具体步骤在于：

选取N幅RGB图像以及对应的热图像和真实标签图像，并构成训练集；

构建神经网络，所述神经网络包括RGB图像通道和热图像通道，分别获取RGB图像和热图像的特征，并将所述特征依次经控制门模块和注意力残差模块处理；

将训练集中的每幅RGB图像和热图像作为原始输入图像，输入到所述神经网络中进行训练，得到训练集中对应的每幅分割预测图；

计算训练集中的每幅RGB图像对应的分割预测图构成的集合与对应的真实标签图像构成的集合之间的损失函数值；

重复训练并计算损失函数值，确定损失函数值中最小值；所述最小值对应的权值矢量和偏置项对应作为所述神经网络的最优权值矢量和最优偏置项。

进一步，所述RGB图像通道包括五个第一神经网络块；五个所述第一神经网络块依次连接，上一级所述第一神经网络块的输出，作为下一级所述第一神经网络块的输入。

进一步，所述热图像通道包括五个第二神经网络块；上一级所述第二神经网络块经所述控制门模块处理分别作为下一级所述第二神经网络块的输入和所述注意力残差模块的输入。

进一步，所述控制门模块包括五个；第一级所述控制门模块以获取RGB图像和热图像的特征作为第一级输入；第一级所述控制门模块的输出作为第一级注意力残差模块的输入；同时经第二神经网络块作为下一级所述控制门模块的输入。

进一步，所述注意力残差模块包括四个；第一级所述控制门模块的输出和所述第二级注意力残差模块的输出作为第一级注意力残差模块的输入。

进一步，所述控制门模块包括依次设置的第1神经网络层、第2神经网络层、第3神经网络层；

其中，第一输入和第二输入的叠连结果分别输入到所述第1神经网络层和所述第2神经网络层；所述第1神经网络层与所述叠连结果相乘再加上所述第一输入，得到第一输出；所述叠连结果输入所述第2神经网络层，所述第2神经网络层的输出与叠连结果相乘再加上所述第二输入，得到第二输出；同时所述第2神经网络层的输出作为所述第3神经网络层的输入；所述第3神经网络层的输出与第二输出相乘再加上第一输出为所述控制门模块的输出。

进一步，所述注意力残差模块，其输入包括第三输入和第四输入，由依次设置的第4神经网络层、第5神经网络层、第6神经网络层，第7神经网络层和第8个神经网络层；将所述第三输入和所述第四输入的叠连结果分别作为所述第4神经网络层、所述第5神经网络层、所述第6神经网络层的输入，将其三者的输出叠连在一起输入到所述第7神经网络层，得到第三输出；所述第四输入作为第8神经网络层的输入，其输出与所述第三输出相乘，得到第四输出，将第四输入与所述第四输出加和。

进一步，所述损失函数值采用交叉熵函数作为损失函数获得。

经由上述的技术方案可知，与现有技术相比，本发明公开提供了一种基于注意力残差学习的道路场景语义分割方法，本发明方法是通过加载预训练模型MobileNetv2的参数来学习多级语义信息，使模型提取到的特征包含了更多的上下文信息的同时又具有很高的分割效率，并提高了模型的分割性能；本发明方法在RGB通道嵌入了控制门模块，控制门模块使跨模态信息有效融合，通过自适应地对热图像的信息进行过滤，极大地缩小了特征融合的难度，并且控制门模块可以与任何前馈模型一起以端到端的方式进行训练；本发明方法中注意力残差模块的使用，使模型对于图像语义的高级认知得以保留，避免了在上采样融合过程中低级特征对高级特征的抵消作用，并且多尺度的带孔卷积有效解决了网络学习内容的匮乏、单一等问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明的总体实现图框图；

图2为本发明的控制门模块的框图；

图3为本发明的注意力残差模块的框图；

图4为本发明的方法流程图。

具体实施方式

下面将对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例公开了一种基于注意力残差学习的道路场景语义分割方法，如图4所示，该方法流程具体步骤如下：

步骤S101：选取N幅RGB图像以及对应的热图像和真实标签图像，并构成训练集；

步骤S102：构建神经网络，所述神经网络包括RGB图像通道和热图像通道，分别获取RGB图像和热图像的特征，并将所述特征依次经控制门模块和注意力残差模块处理；

步骤S103：将训练集中的每幅RGB图像和热图像作为原始输入图像，输入到所述神经网络中进行训练，得到训练集中对应的每幅分割预测图；

步骤S104：计算训练集中的每幅RGB图像对应的分割预测图构成的集合与对应的真实标签图像构成的集合之间的损失函数值；

步骤S105：重复训练并计算损失函数值，确定损失函数值中最小值；所述最小值对应的权值矢量和偏置项对应作为所述神经网络的最优权值矢量和最优偏置项。

通过上述步骤，解决了分割效率低，性能差的问题，通过学习学习多级语义信息，使模型提取到的特征包含了更多的上下文信息的同时又具有很高的分割效率，并提高了模型的分割性能；在RGB通道嵌入了控制门模块，极大地缩小了特征融合的难度；注意力残差模块的使用，使模型对于图像语义的高级认知得以保留，避免了在上采样融合过程中低级特征对高级特征的抵消作用，并且多尺度的带孔卷积有效解决了网络学习内容的匮乏、单一等问题。

在本实施例中，步骤S101，选取N幅RGB图像以及对应的热图像和真实标签图像，并构成训练集；

具体地，首先选取N幅RGB图像以及对应的热图像和真实标签图像，并构成训练集，将训练集中的第n幅RGB图像记为

热图像记为{Dⁿ(x，y)}，真实的标签图像记为{Gⁿ(x，y)}，其中，1≤x≤W，1≤y≤H，W表示

的宽度，H表示

的高度，

表示

中坐标位置为(x,y)的像素点的像素值，Dⁿ(x，y)表示{Dⁿ(x，y)}中坐标位置为(x,y)的像素点的像素值，Gⁿ(x，y)表示{Gⁿ(x，y)}中坐标位置为(x,y)的像素点的像素值。

在本实施例中，步骤S102，构建神经网络，神经网络包括RGB图像通道和热图像通道，分别获取RGB图像和热图像的特征，并将特征依次经控制门模块和注意力残差模块处理；

其中，在本实施例中，RGB图像通道包括五个第一神经网络块；五个第一神经网络块依次连接，上一级第一神经网络块的输出，作为下一级第一神经网络块的输入。

其中，在本实施例中，热图像通道包括五个第二神经网络块；上一级第二神经网络块经控制门模块处理分别作为下一级第二神经网络块的输入和注意力残差模块的输入。

其中，在本实施例中，控制门模块包括五个；第一级控制门模块以获取RGB图像和热图像的特征作为第一级输入；第一级控制门模块的输出作为第一级注意力残差模块的输入；同时经第二神经网络块作为下一级控制门模块的输入。

其中，在本实施例中，注意力残差模块包括四个；第一级控制门模块的输出和第二级注意力残差模块的输出作为第一级注意力残差模块的输入。

进一步，构建神经网络，该网络采用双流模型来分别处理RGB图像和热图像的分层特征，RGB图像输入的通道包括第1、2、3、4、5个神经网络块分别来自MobileNetv2的features0-3，4-6，7-10，11-13，14-16，热图像通道包括第6、7、8、9、10个神经网络块也分别来自MobileNetv2的features0-3，4-6，7-10，11-13，14-16。其结构参数与MobileNetv2中相同。五个控制门模块，即第1，2，3，4，5个控制门模块；四个注意力残差模块，即第1，2，3，4个注意力残差模块；最后是一个输出模块。

对于第1个神经网络块，其输入为热图像，其尺寸为480×640(W×H)，输出24幅特征图，大小为H/4×W/4，记为P₁。

对于第2个神经网络块，其输入为P₁，输出32幅特征图，大小为H/8×W/8，记为P₂。

对于第3个神经网络块，其输入为P₂，输出64幅特征图，大小为H/16×W/16，记为P₃。

对于第4个神经网络块，其输入为P₃，输出96幅特征图，大小为H/16×W/16，记为P₄。

对于第5个神经网络块，其输入为P₄，输出160幅特征图，大小为H/16×W/16，记为P₅。

对于第6个神经网络块，其输入为RGB图像，其尺寸为480×640(W×H)，输出24幅特征图，大小为H/4×W/4，记为P₆。而第6个神经网络块的输出P₆和第1个神经网络块的输出P₁是第1个控制门模块的输入，所有的控制门模块不改变输入的尺寸和个数，将其输出记为G₁。

对于第7个神经网络块，其输入为G₁，输出32幅特征图，大小为H/8×W/8，记为P₇。P₇和P₂作为第2个控制门模块的输入，将其输出记为G₂。

对于第8个神经网络块，其输入为G₂，输出64幅特征图，大小为H/16×W/16，记为P₈。P₈和P₃作为第3个控制门模块的输入，将其输出记为G₃。

对于第9个神经网络块，其输入为G₃，输出96幅特征图，大小为H/16×W/16，记为P₉。P₉和P₄作为第4个控制门模块的输入，将其输出记为G₄。

对于第10个神经网络块，其输入为G₄，输出64幅特征图，大小为H/16×W/16，记为P₁₀。P₁₀和P₅作为第5个控制门模块的输入，将其输出记为G₅。将G₅输入到第4个注意力残差模块。

对于第1、2、3、4、5个控制门模块，其结构都相同，均由依次设置的第1个神经网络层、第2个神经网络层、第3个神经网络层构成；以第1个控制门模块为例，如图2所示，其中P₁和P₆的叠连分别输入到第1个神经网络层和第2个神经网络层，第1个神经网络层由第1卷积层、第1批标准化层、第1激活层组成，第1卷积层的卷积核大小为3×3，步幅为1，卷积核个数为24，输出24幅特征图，与P₁和P₆的叠连相乘再加上P₁，将此结果记为D1；第2个神经网络层由第2卷积层、第2批标准化层、第2激活层组成，第2卷积层的卷积核大小为3×3，步幅为1，卷积核个数为24，将其输出做两步操作，操作1输入到第3个神经网络层，操作2是与P₁和P₆的叠连相乘再加上P₆，将此结果记为D2；第3个神经网络层由全局均值池化层、全连接层和Sigmoid激活层组成，其输出与D2相乘再加上D1为第1个控制门模块的输出G₁。

以此类推，第2、3、4、5个控制门模块结构与第1个控制门模块结构相同，其中卷积层的个数分别为32，64，96，160。

对于第4个注意力残差模块，如图3所示，其输入包括G₄和G₅，由依次设置的第4个神经网络层、第5个神经网络层、第6个神经网络层，第7个神经网络层，第8个神经网络层构成，将G₄和G₅的叠连分别为第4个神经网络层、第5个神经网络层、第6个神经网络层的输入，再将其三者的输出叠连在一起输入到第7个神经网络层，输出记为L1；G₅作为第8个神经网络层的输入，其输出与L1相乘，记为A1，将G₅与A1之和记为A2。其中第4个神经网络层由第3卷积层、第3批标准化层、第3激活层组成，第3卷积层的卷积核大小为3×3，步幅为1，扩张为1，卷积核个数为96；第5个神经网络层由第4卷积层、第4批标准化层、第4激活层组成，第4卷积层的卷积核大小为3×3，步幅为1，扩张为2，卷积核个数为96；第6个神经网络层由第5卷积层、第5批标准化层、第5激活层组成，第5卷积层的卷积核大小为3×3，步幅为1，扩张为4，卷积核个数为96；

第7个神经网络层由第6卷积层、第6批标准化层、第6激活层组成，第6卷积层的卷积核大小为1×1，步幅为1，卷积核个数为96；第8个神经网络层由第7卷积层、第7批标准化层、第7激活层组成，第7卷积层的卷积核大小为1×1，步幅为1，卷积核个数为96；激活层均采用ReLU激活函数。第4个注意力残差模块的输出为A1和A1加A2记为A11，其尺寸均为H/16×W/16，特征图个数均为96。

对于第3个注意力残差模块，其输入包括G₃，A1和A11，其结构与第4个注意力残差模块相同，其中用到的卷积核的个数均为64。将第3个注意力残差模块的输出为记为A2和A22，其尺寸均为H/16×W/16，特征图个数均为64。

对于第2个注意力残差模块，其输入包括G₂，A2和A22，其结构与第3个注意力残差模块相同，其中用到的卷积核的个数均为32。将第2个注意力残差模块的输出为记为A3和A33，其尺寸均为H/8×W/8，特征图个数均为32。

对于第1个注意力残差模块，其输入包括G₂，A2和A22，其结构与第2个注意力残差模块相同，其中用到的卷积核的个数均为24。将第1个注意力残差模块的输出为记为A4和A44，其尺寸均为H/4×W/4，特征图个数均为24。

对于输出模块，由依次设置的第8卷积层、第8批标准化层、第8激活层、第9卷积层组成，第8卷积层的卷积核大小为1×1，步幅为1，卷积核个数为216；第9卷积层的卷积核大小为3×3，步幅为1，卷积核个数为41；输出模块的输入为A11，A22，A33，A44，利用双线性上采样将A11，A22尺寸扩大4倍，A33尺寸扩大2倍，然后将扩大后的特征图与A44叠连为输出模块的输入，得到寸均为H/4×W/4的特征图个数均为41。最后利用双线性上采样其扩大4倍得到寸均为H×W的输出结果。

在本实施例中，步骤S103中，将训练集中的每幅RGB图像和热图像作为原始输入图像，输入到卷积神经网络中进行训练，得到训练集中对应的每幅分割预测图，将

对应的分割预测图构成的集合记为

在本实施例中，步骤S104中，计算训练集中的每幅RGB图像对应的分割预测图构成的集合与对应的真实标签图像构成的集合之间的损失函数值，将

与Gⁿ之间的损失函数值记为

其采用交叉熵函数作为损失函数获得。

在本实施例中，步骤S105中，重复执行步骤S103和步骤S104共V次，得到卷积神经网络分类训练模型，并共得到N×V个损失函数值；然后从N×V个损失函数值中找出值最小的损失函数值；接着将值最小的损失函数值对应的权值矢量和偏置项对应作为卷积神经网络分类训练模型的最优权值矢量和最优偏置项，对应记为W^best和b^best；其中，V＞1。

进一步，测试阶段过程的具体步骤为：

步骤201：令

表示待分割的RGB图像，其中，1≤x'≤W'，1≤y'≤H'，W'表示

的宽度，H'表示

的高度，

表示

中坐标位置为(x′,y′)的像素点的像素值；

对应的热图像记为

表示

中坐标位置为(x′,y′)的像素点的像素值。

步骤202：将

和

分别输入到神经网络的RGB像通道和热图像通道中，并利用W^best和b^best进行预测，得到

对应的分割预测图像，记为

其中，

表示

中坐标位置为(x',y')的像素点的像素值。

为了验证本发明方法的可行性和有效性，进行实验。

在此，使用的是Ha Qishen等人在MFNet中发布的公共数据集。它的记录是在城市街景中，其中包含了常见的对象:汽车、人、自行车、曲线(车道)、停车、护栏、色锥、凹凸。由InfReC R500相机拍摄的图像分辨率为480×640，可以同时提供RGB和热成像。数据集中登记的RGB和thermal图像1569张，其中夜间749张，白天820张。该数据集提供了手工标记的像素真实标签，包括上述8类公共对象和一个未标记的背景类。这里，利用评估图像分割方法的3个常用客观参量作为评价指标，即像素精度(PixAcc.)，平均精度(mAcc.)，以及平均交并比(mIoU)。

利用本发明方法获取上述数据集中测试集的每幅图像的最终分割图，并与这个数据集中的每幅图像的实际标签图进行比较PixAcc.，mAcc.以及mIoU值越高说明本发明方法提取的最终分割图与实际标签图的一致性越好。反映本发明方法的分割性能的mAcc.，mIoU相关指标如表1所列。从表1所列的数据可知，按本发明方法提取得到的最终分割图与实际标签图的准确性和稳定性是很好的，足以说明本发明方法的可行性和有效性。

表1利用本发明方法提取得到的最终分割图与实际标签图的准确性和稳定性

性能指标	PixAcc.	mAcc.	mIoU
				结果	0.963	0.889	0.764

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于注意力残差学习的道路场景语义分割方法，其特征在于，具体步骤在于：

构建神经网络，所述神经网络包括RGB图像通道和热图像通道，分别获取所述RGB图像和所述热图像的特征，并将所述特征依次经控制门模块和注意力残差模块处理；

将所述训练集中的每幅所述RGB图像和所述热图像作为原始输入图像，输入到所述神经网络中进行训练，得到所述训练集中对应的每幅分割预测图；

计算所述训练集中的每幅所述RGB图像对应的所述分割预测图构成的集合与对应的所述真实标签图像构成的集合之间的损失函数值；

重复训练并计算损失函数值，确定最优权值矢量和最优偏置项。

2.根据权利要求1所述的一种基于注意力残差学习的道路场景语义分割方法，其特征在于，所述RGB图像通道包括五个第一神经网络块；五个所述第一神经网络块依次连接，上一级所述第一神经网络块的输出，作为下一级所述第一神经网络块的输入。

3.根据权利要求2所述的一种基于注意力残差学习的道路场景语义分割方法，其特征在于，所述热图像通道包括五个第二神经网络块；上一级所述第二神经网络块经所述控制门模块处理分别作为下一级所述第二神经网络块的输入和所述注意力残差模块的输入。

4.根据权利要求3所述的一种基于注意力残差学习的道路场景语义分割方法，其特征在于，所述控制门模块包括五个；第一级所述控制门模块以获取RGB图像和热图像的特征作为第一级输入；第一级所述控制门模块的输出作为第一级注意力残差模块的输入；同时经第二神经网络块作为下一级所述控制门模块的输入。

5.根据权利要求4所述的一种基于注意力残差学习的道路场景语义分割方法，其特征在于，所述注意力残差模块包括四个；第一级所述控制门模块的输出和所述第二级注意力残差模块的输出作为第一级注意力残差模块的输入。

6.根据权利要求1-5任一项所述的一种基于注意力残差学习的道路场景语义分割方法，其特征在于，所述控制门模块包括依次设置的第1神经网络层、第2神经网络层和第3神经网络层；

7.根据权利要求1-5任一项所述的一种基于注意力残差学习的道路场景语义分割方法，其特征在于，所述注意力残差模块，其输入包括第三输入和第四输入，由依次设置的第4神经网络层、第5神经网络层、第6神经网络层，第7神经网络层和第8个神经网络层；将所述第三输入和所述第四输入的叠连结果分别作为所述第4神经网络层、所述第5神经网络层、所述第6神经网络层的输入，将其三者的输出叠连在一起输入到所述第7神经网络层，得到第三输出；所述第四输入作为第8神经网络层的输入，其输出与所述第三输出相乘，得到第四输出，将第四输入与所述第四输出加和。

8.根据权利要求1所述的一种基于注意力残差学习的道路场景语义分割方法，其特征在于，所述损失函数值采用交叉熵函数作为损失函数获得。

9.根据权利要求1所述的一种基于注意力残差学习的道路场景语义分割方法，其特征在于，重复训练并计算损失函数值，确定损失函数值中最小值；所述最小值对应的权值矢量和偏置项对应作为所述神经网络的最优权值矢量和最优偏置项。