CN112699727B

CN112699727B - 一种联合反射注意力和自注意力机制的道路水体检测方法

Info

Publication number: CN112699727B
Application number: CN202011290844.6A
Authority: CN
Inventors: 王欢; 孟策
Original assignee: Nanjing University of Science and Technology
Current assignee: Nanjing University of Science and Technology
Priority date: 2020-11-17
Filing date: 2020-11-17
Publication date: 2022-10-28
Anticipated expiration: 2040-11-17
Also published as: CN112699727A

Abstract

本发明公开了一种联合反射注意力和自注意力机制的道路水体检测方法，包括：利用可见光相机采集道路水体图像并标注；构建本文所述的网络模型，并使用训练图像和标注数据对网络进行训练；将待检测的图像缩放至指定尺寸，输入训练好的网络，获得用以表示水体区域和非水体区域的二值图像。本发明能够利用可见光相机采集的路面图像高效地进行水体检测，检测结果的较为精细并且在各项指标上都有良好的表现，适用于无人车上的地表分类相关任务。

Description

一种联合反射注意力和自注意力机制的道路水体检测方法

技术领域

本发明属于计算机视觉中的图像分割任技术，具体为一种联合反射注意力和自注意力机制的道路水体检测方法。

背景技术

对于道路图像的水体区域检测，大多数现有的深度学习方法都将其作为图像分割问题进行处理，而U-Net作为医学图像分割领域的基线，同时利用了来自底层和高层的图像特征，保证了恢复出来的分割结果比较精细。同时，网络的参数量不太大，不至于过拟合。但是由于医学图像和道路水体图像性质的不一致性，医学图像中的病灶面积大多较小，而道路图像中的水体区域面积大小不固定，因此直接将U-Net网络用于道路图像水体区域检测会导致检测的精确率和召回率不够高。

反射注意力单元首次提出于ECCV 2018的论文《Single Image Water HazardDetection using FCN with ReflectionAttention Units》中，该文章针对水体表面可以反射周围环境的物理特性，提出了反射注意力单元(ReflectionAttention Units， RAU)，反射注意力单元的初衷是让深度神经网络能够捕捉图像不同部分之间的反射对应关系。由于反射关系大多是垂直的，因此先通过池化操作将多尺度的特征映射在垂直方向上划分为若干个块，然后将每块上采样为原特征图大小，与原特征图相减，将相减后的特征图连同原特征图在通道维度上连接，最后卷积得到和原来特征图尺寸相同的输出特征图。实验结果表明，在FCN-8s的每个池化层之前添加相应的反射注意力单元能够有效改善水体检测结果的质量，准确率和召回率都有大幅提高。但是，全卷积网络提取特征的能力有限，并且在上采样环节没有利用之前提取出来的特征，在性能上仍有较大的提升空间。

《Water Hazard Detection Using cGAN with Mixture ReflectionAttentionUnit》的作者认为，通过使用RAU的预处理函数对输入进行预处理，并且通过对抗学习的方式，可以有效提高预测的准确性。该文章重新注释了相关数据集，并且将网络的基础架构从FCN(Fully Convolutional Networks)更换为cGAN(Conditional GenerativeAdversarial Networks)。该文章将原始图像作为输入，馈送到cGAN 的生成器中，然后生成器输出代表检测结果的二值图像。对于鉴别器，将生成的二值图像或者真实的分割掩膜输入鉴别器，并将对应的原始输入图像作为条件输入。该文章将RAU中的预处理函数提取出来对生成器和鉴别器的输入进行预处理，并在生成器的第一个和第三个卷积层后面加入RAU。该方法在图像分割中引入GAN，是强化学习思想在图像分割领域的有益尝试，但是GAN的训练过程比较复杂，难以收敛，无法得到稳定的性能提升。

发明内容

本发明的目的在于提供了一种联合反射注意力和自注意力机制的道路水体检测方法。

实现本发明目的的技术方案为：一种联合反射注意力和自注意力机制的道路水体检测方法，包括以下步骤：

步骤1、利用可见光相机采集不同场景下的道路图像并缩放至指定尺寸构成训练集，标注训练集图像的水体位置信息的掩膜作为标签；

步骤2、构建联合反射注意力单元和自我注意力机制的类U-Net网络，所述类U-Net网络包括下采样通道、位置注意力模块和通道注意力模块、上采样通道；

步骤3、利用训练集图像训练类U-Net网络；

步骤4、将待检测的可见光图像馈送到网络中，获得用以表示水体区域和非水体区域的二值图像。

优选地，标注训练集图像的水体位置信息的掩膜作为标签的具体过程为：

标注训练集图像中的水体区域信息，得到相应的二值掩膜；

原掩膜像素值大于127的像素点，将其值赋为0，否则为1，记为mask1，并将原掩膜像素值大于127的像素点，将其值赋为1，否则为0，记为mask2；将mask1和mask2在通道维度上相连，作为训练标签。

优选地，所述下采样通道包括依次间隔连接的5个下采样卷积块和5个 RAU，且前4个RAU之后均进行均值池化操作。

优选地，所述下采样通道的输出特征通过两个不同的卷积核大小为3×3，步长为1×1的卷积操作，得到通道数为512维的特征图conv5a和conv5c。

优选地，所述位置注意力模块用于对特征图conv5a做处理，得到输出特征图sa，处理过程具体为：

a)通过3个不同的1×1卷积核对输入特征图conv5a进行降维，得到三个不同的特征图conv5a_query、conv5a_key、conv5a_value；

b)分别对特征图conv5a_query和conv5a_key进行转置，得到 conv5a_query′、conv5a_key′，执行矩阵相乘，经过softmax层后得到w个h ×h的矩阵，记为S₁；

c)对特征图conv5a_value进行转置，与S₁执行矩阵乘法，并且用1×1卷积核进行卷积得到特征图H₁；

d)输出的特征图为sa＝conv5a+αH₁，其中α初始值为0。

优选地，所述位置注意力模块用于对特征图conv5c做处理，得到输出特征图 sc，处理过程具体为：

a)对于输入特征图conv5c，将其重组为[h×w,c]的特征图conv5c′；

b)将特征图conv5c′转置得到特征图conv5c”；

c)对conv5c′和conv5c”执行矩阵乘法，得到注意力矩阵S₂，对注意力矩阵S₂进行归一化以及softmax操作；

d)将输入特征图conv5c与矩阵S₂相乘，得到特征图H₂；

e)输出的特征图sc＝conv5c+αH₂，其中α初始值为0，由学习得到。

优选地，所述上采样通道包括4个依次连接的上采样块和一个1×1的卷积块，所述上采样块对输入特征图通过一个卷积核大小为2×2，步长为2×2的转置卷积，将其长、宽扩大一倍；通过ReLU激活函数得到激活值，并与特征图O₄在通道维度上相连，再通过两个卷积核大小为3×3，步长为1×1的卷积操作，得到通道维度为输入特征图一半的输出特征图。

优选地，类U-Net网络的损失函数采用的是交叉熵损失函数，具体为：

其中，x_i代表网络的第i个输入，p(x_i)代表其真实的标签值，q(x_i)代表其预测的标签值。

优选地，利用训练集图像训练类U-Net网络的具体过程为：

随机初始化构造的类U-Net网络中的参数，使用Adam优化器优化网络，将其学习率设置为0.0002，系数beta1设置为0.5，迭代轮次的目标次数设为(100000 次/训练集图像数量)，每遍历完训练集中的图像一次，迭代轮次数加1。

本发明与现有技术相比，其显著优点为：本发明构建的类U-Net结构融合了高层次和低层次的不同语义信息，对于道路水体区域检测这种场景结构类似的问题具有优势；反射注意力单元和位置注意力模块的中心思想类似，即寻找竖直方向上的特征相似性，因此联合作用可以提高检测精度。

附图说明

图1是本发明的整体网络架构。

图2是本发明所采用的通道注意力模块示意图。

图3是本发明所采用的位置注意力模块示意图。

图4是本发明的输入、真实值、输出之间的对比。

具体实施方式

一种联合反射注意力和自注意力机制的道路水体检测方法，具体步骤为：

步骤1：利用可见光相机采集不同场景下的道路图像并缩放至指定尺寸构成训练集，标注训练集图像中的水体区域信息，得到相应的二值掩膜。具体的，标注图像时，像素值为0的区域表示对应的原始图像为非水体区域，像素值为255 的区域表示对应的原始图像为水体区域。在某些实施例中，构造的深度神经网络需要的输入大小为360×640，因此将原始道路图像和二值掩膜均缩放至360× 640。

进一步的实施例中，构建数据集输入模块。具体的，首先定义一个 DataProvider类，其有两种不同的工作模式，对应训练图片的根目录和测试图片的根目录。在类中定义了一个__call__方法，每次调用从训练集中取出一张图片及二值掩膜图像，将图片像素值从0～255映射到0～1之间，同时对二值掩膜图像做处理，原掩膜像素值大于127的像素点，将其值赋为0，否则为1，记为mask1，原掩膜像素值大于127的像素点，将其值赋为1，否则为0，记为mask2。将mask1 和mask2在通道维度上相连，作为训练标签。

步骤2：构建联合反射注意力单元和自我注意力机制的类U-Net网络，所述类U-Net网络包括下采样通道、位置注意力模块和通道注意力模块、上采样通道。其中下采样通道由5个下采样卷积块和5个RAU组成，每个RAU放置于下采样卷积块之后，除了最后一个下采样卷积块及RAU，其余每个下采样卷积块及 RAU之后均进行均值池化操作，如图1所示，所述类U-Net网络具体结构为：

(1)卷积块1+RAU₁：其输入的特征维度为3，输出的特征维度为64。对于卷积块的原始输入特征X，先通过一个卷积核大小为3×3，步长为1×1的卷积操作得到特征conv_{1_1}，然后加上层正则化操作(LayerNormalization)操作得到特征l_{1_1}，LayerNormalization相比于传统的批正则化操作(Batch Normalization)，它们的目的都是对数据进行归一化，使其分布一致，避免发生梯度消失和梯度爆炸的情况，不同的是LayerNormalization不依赖于每次输入的batch大小，因此适用于batch大小为1的情况，LayerNormalization针对深度网络的某一层的所有神经元的输入按以下公式进行normalize操作：

其中，H代表某一层的节点数量，l为多层感知机的层数，a代表原神经元的激活值，

代表修正后的激活值；然后通过ReLU激活函数得到激活值act_{1_1}，ReLU 激活函数的公式如下：

重复上述操作一次，得到激活值act_{1_2}；另一方面，对于原始输入特征X，通过一个卷积核大小为1×1，步长为1×1的卷积操作和LayerNormalization操作得到特征值residual₁，将residual₁和act_{1_2}两个特征相加，并通过ReLU激活函数，最终得到卷积块的输出out₁。将out₁送入反射注意力单元中，根据前述的RAU 操作，最后得到输出O₁；

(2)均值池化1：对特征图O₁进行大小为2×2的均值池化操作，即对局部感受野中的所有激活值求平均，得到特征图O′₁；

(3)卷积块2+RAU₂：其输入的特征维度为64，输出的特征维度为128。

仿照前述的卷积块1+RAU₁的操作，得到特征图out₂，将out₂送入反射注意力单元中，根据前述的RAU操作，最后得到输出O₂；

(4)均值池化2：对特征图O₂进行大小为2×2的均值池化操作，得到特征图O′₂；

(5)卷积块3+RAU₃：其输入的特征维度为128，输出的特征维度为256。

仿照前述的卷积块1+RAU₁的操作，得到特征图out₃，将out₃送入反射注意力单元中，根据前述的RAU操作，最后得到输出O₃；

(6)均值池化3：对特征图O₃进行大小为2×2的均值池化操作，得到特征图O′₃；

(7)卷积块4+RAU₄：其输入的特征维度为256，输出的特征维度为512。

仿照前述的卷积块1+RAU₁的操作，得到特征图out₄，将out₄送入反射注意力单元中，根据前述的RAU操作，最后得到输出O₄；

(8)均值池化4：对特征图O₄进行大小为2×2的均值池化操作，得到特征图O′₄；

(9)卷积块5+RAU₅：其输入的特征维度为512，输出的特征维度为1024。仿照前述的卷积块1+RAU₁的操作，得到特征图out₅，将out₅送入反射注意力单元中，根据前述的RAU操作，最后得到输出O₅；

(10)位置注意力模块+通道注意力模块：注意力模块参考了论文《Non-localNeuralNetworks》中的做法，不过略有不同的是，《Non-local NeuralNetworks》中得到的矩阵是1个大小为[h*w,h*w]的矩阵，本发明针对水体检测问题的物理特性做出了相应改进。对于输入特征图O₅，先通过两个不同的，卷积核大小为3 ×3，步长为1×1的卷积操作，得到通道数为512维的特征图conv5a和conv5c，将conv5a送入位置注意力模块，得到输出特征图sa，如图2所示，位置注意力模块的具体操作如下：

a)先通过3个不同的1×1卷积核对输入特征图conv5a(特征图大小为 [h,w,c])进行降维，得到三个不同的特征图conv5a_query(特征图大小为 [h,w,c/4])、特征图conv5a_key(特征图大小为[h,w,c/4])、特征图 conv5a_value(特征图大小为[h,w,c/4])；

b)分别对conv5a_query和conv5a_key进行转置，得到conv5a_query′(特征图大小为[w,h,c/4])、conv5a_key′(特征图大小为[w,c/4,h])，执行矩阵相乘，经过softmax层后得到w个h×h的矩阵，记为S₁；

c)对特征图conv5a_value进行转置，与S₁执行矩阵乘法，并且用1×1卷积核进行卷积得到特征图H₁(特征图大小为[h,w,c])；

d)输出的特征图为sa＝conv5a+αH₁，其中α初始值为0，由学习得到。

将conv5c送入位置注意力模块，得到输出特征图sc，如图3所示，通道注意力模块的具体操作如下：

a)对于输入特征图conv5c，将其重组为[h×w,c]的特征图conv5c′；

b)将特征图conv5c′转置得到特征图conv5c”，其大小为[c,h×w]；

c)对conv5c′和conv5c”执行矩阵乘法，得到注意力矩阵S₂，为了防止梯度爆炸，对S₂先进行归一化，后执行softmax操作；

d)对于输入特征图conv5c，与矩阵S₂相乘，得到特征图H₂；

对于特征图sa和sc，通过两个不同的，卷积核大小为3×3，步长为1×1的卷积操作，将通道数还原为512，得到特征图conv51和conv52，此处的特征融合我们选择直接相加的策略，得到特征图conv_sum，最后我们通过一个1×1的卷积，将特征还原为原来的形状，得到特征图O₆。

(11)上采样块1：对于特征图O₆，先通过一个卷积核大小为2×2，步长为 2×2的转置卷积，将其特征图长、宽扩大一倍，得到特征图deconv_{1_1}，其中转置卷积不同于传统的上采样操作，其权重是可以学习的；然后通过ReLU激活函数得到激活值，并与特征图O₄在通道维度上相连，先后通过两个卷积核大小为3 ×3，步长为1×1的卷积操作，得到通道维度为512的输出特征图O₇。

(12)上采样块2：对于特征图O₇，仿照前述的上采样块1的操作，不同点在于与特征图O₃在通道维度上相连，得到通道维度为256的输出特征图O₈。

(13)上采样块3：对于特征图O₈，仿照前述的上采样块1的操作，不同点在于与特征图O₂在通道维度上相连，得到通道维度为128的输出特征图O₉。

(14)上采样块4：对于特征图O₉，仿照前述的上采样块1的操作，不同点在于与特征图O₁在通道维度上相连，得到通道维度为64的输出特征图O₁₀。

(15)最后，通过一个1×1的卷积，将输出变为360×640×2的特征图。

本发明的残差卷积块不同于传统的U-Net模型的卷积块，作了如下改进：

1)在每一个下采样卷积块中，卷积的方式采用padding＝SAME，因此每个卷积块中的输入输出特征图尺寸不变；

2)在每个卷积后，激活函数之前加上LayerNorm正则化操作，用来对输入进行归一化；

3)将卷积块的原始输入x_l，经过一个1×1的卷积核卷积后，直接加到卷积块的输出x_l+1上，其过程可以用公式表示为x_l+1＝h(x_l)+F(x_l,W_l)，其中h代表卷积核大小为1×1的卷积操作，F(x_l,W_l)代表残差部分，由两个卷积操作构成。

步骤3：利用训练集图像训练类U-Net网络；

利用训练集图像训练类U-Net网络，将训练集分批次输入到类U-Net网络中，在整个训练集经过一轮迭代后，重新打乱整个数据集，进行再次训练，直至模型收敛为止。

具体地，随机初始化前述构造的类U-Net网络中的参数，使用Adam优化器优化网络，将其学习率设置为0.0002，系数beta1设置为0.5。迭代的目标次数设为(100000次/训练集图像数量)，每遍历完训练集中的图像一次，就将迭代轮次数加1。每经过500次训练，就使用tensorflow中提供的saver类，保存最新训练出的模型，用于测试。构造的类U-Net网络的损失函数采用的是交叉熵损失函数，其公式如下：

步骤4、将待检测的可见光图像缩放至设定大小馈送到网络中，获得用以表示水体区域和非水体区域的二值图像。

本发明将待检测图像缩放至360×640，将其送入网络，只执行前向传播的过程。计算用以衡量水体区域检测效果的测度：准确率(accuracy)、精确率 (precision)、召回率(recall)以及F1-measure，计算公式如下：

其中，TP代表预测为水体，实际上也为水体的像素，FP代表预测为水体，实际上是非水体的像素，TN代表预测为非水体，实际上为非水体的像素，FN 代表预测为非水体，实际上是水体的像素。

如图4所示，本发明给出了原始输入、预测值和真实值之间的对比，可以看到本发明在路面水体检测方面具有非常良好的效果，虚检和漏检率较低，检测结果较为精细，和真实情况非常接近。与前人方法相比，在各项指标上都处于领先。

Claims

1.一种联合反射注意力和自注意力机制的道路水体检测方法，其特征在于，包括以下步骤：

所述位置注意力模块用于对特征图conv5a做处理，得到输出特征图sa，处理过程具体为：

b)分别对特征图conv5a_query和conv5a_key进行转置，得到conv5a_query'、conv5a_key'，执行矩阵相乘，经过softmax层后得到w个h×h的矩阵，记为S₁；

d)输出的特征图为sa＝conv5a+αH₁，其中α初始值为0；

所述位置注意力模块用于对特征图conv5c做处理，得到输出特征图sc，处理过程具体为：

a)对于输入特征图conv5c，将其重组为[h×w,c]的特征图conv5c'；

b)将特征图conv5c'转置得到特征图conv5c”；

c)对conv5c'和conv5c”执行矩阵乘法，得到注意力矩阵S₂，对注意力矩阵S₂进行归一化以及softmax操作；

d)将输入特征图conv5c与矩阵S₂相乘，得到特征图H₂；

e)输出的特征图sc＝conv5c+αH₂，其中α初始值为0，由学习得到；

步骤3、利用训练集图像训练类U-Net网络；

2.根据权利要求1所述的联合反射注意力和自注意力机制的道路水体检测方法，其特征在于，标注训练集图像的水体位置信息的掩膜作为标签的具体过程为：

标注训练集图像中的水体区域信息，得到相应的二值掩膜；

3.根据权利要求1所述的联合反射注意力和自注意力机制的道路水体检测方法，其特征在于，所述下采样通道包括依次间隔连接的5个下采样卷积块和5个RAU，且前4个RAU之后均进行均值池化操作。

4.根据权利要求1所述的联合反射注意力和自注意力机制的道路水体检测方法，其特征在于，所述下采样通道的输出特征通过两个不同的卷积核大小为3×3，步长为1×1的卷积操作，得到通道数为512维的特征图conv5a和conv5c。

5.根据权利要求1所述的联合反射注意力和自注意力机制的道路水体检测方法，其特征在于，所述上采样通道包括4个依次连接的上采样块和一个1×1的卷积块，所述上采样块对输入特征图通过一个卷积核大小为2×2，步长为2×2的转置卷积，将其长、宽扩大一倍；通过ReLU激活函数得到激活值，并与特征图O₄在通道维度上相连，再通过两个卷积核大小为3×3，步长为1×1的卷积操作，得到通道维度为输入特征图一半的输出特征图。

6.根据权利要求1所述的联合反射注意力和自注意力机制的道路水体检测方法，其特征在于，类U-Net网络的损失函数采用的是交叉熵损失函数，具体为：

7.根据权利要求1所述的联合反射注意力和自注意力机制的道路水体检测方法，其特征在于，利用训练集图像训练类U-Net网络的具体过程为：

随机初始化构造的类U-Net网络中的参数，使用Adam优化器优化网络，将其学习率设置为0.0002，系数beta1设置为0.5，迭代轮次的目标次数设为100000次/训练集图像数量，每遍历完训练集中的图像一次，迭代轮次数加1。