CN114170519A

CN114170519A - 基于深度学习与多维注意力的高分辨率遥感道路提取方法

Info

Publication number: CN114170519A
Application number: CN202111571146.8A
Authority: CN
Inventors: 张男; 黄鑫; 杨艾青
Original assignee: Individual
Current assignee: Individual
Priority date: 2021-12-21
Filing date: 2021-12-21
Publication date: 2022-03-11

Abstract

本发明公开了一种基于深度学习与多维注意力机制结合的高分辨率遥感图像道路提取方法。该方法包括采用全卷积神经网络UNet对遥感图像道路信息进行提取；将多维注意力模块与UNet网络的编码部分进行结合，使传递给解码部分的道路特征图具有更强的特征表达能力；采用多层级特征融合的方式，在解码阶段的每一层获取到不同层级的特征信息，使传递的特征图具有纹理信息与语义信息，以优化特征图的表达能力；用户通过访问node.js基于服务器的Web前端，可以实时观测卫星传回的高分辨率遥感图像的提取结果。通过上述方案，本发明提取到了高准确率的遥感图像道路信息，多维注意力模块和多层级特征融合方法的引入使进行卷积训练的图像具有更强的表达能力，与一般的深度学习方法相比提升了遥感图像道路提取的精确度。与此同时，深度学习网络的自我反馈机制使提取过程更加智能化与自动化，能够对不同地区的不同道路规模的图像进行适应性调整，以获取最优道路图像信息，因此具有很高的实用价值和推广价值。

Description

基于深度学习与多维注意力的高分辨率遥感道路提取方法

技术领域

本发明属于遥感图像处理技术领域，尤其涉及基于深度学习的高分辨率遥感图像道路提取技术，主要结合了多维度注意力机制与多层级特征融合方法。

背景技术

在近几年，对于遥感大数据的运用逐渐扩大。高分辨率图像广泛的覆盖面和高精度使其成为了地理信息数据的重要来源。从这些图像中提取的道路网络信息将会在导航、制图学、城市规划和地质检测等方面有广泛的应用。道路是现代交通设施的重要人工特征和主题，同时也是地理信息系统的基础资料。因此，及时更新道路信息对依靠于这些系统的如地图绘制、路线分析和应急响应等工作具有重大意义。当前快速发展的无人车驾驶技术依赖于最新的道路网络信息，而遥感图像可以提供便捷、可靠、高质量的数据来支持这一任务。如何从卫星图像中自动、高效且准确地提取道路信息已经引起了世界范围的广泛关注。

与此同时，随着计算机硬件设备性能的不断提升，深度学习在图像处理、目标检测、语义分割等方向的应用领域不断扩大。人工干预少、提升效果显著是深度学习的优点。能够自动且高效地从图像中提取需要的有用信息，深度学习发挥着必不可少的作用。精细的纹理特征是高精度遥感图像道路的重要特征，而单纯使用传统的卷积神经网络无法将其中的纹理特征很好地表达出来。传统的用于图像分割的网络包括全卷积神经网络FCN（FullConvolutional Network），SegNet，ENet，UNet，PSPNet，DLinkNet等。其中DLinkNet和UNet在图像道路分割表现尤为突出。而SSD、YOLO等用于目标检测的网络，在图像分割领域的表现却不是很好。

因此，如何使高精度遥感图像中的道路发挥其纹理特征的优势，使提取结果更加精确，是需要解决的问题和本发明所关注的重点。

发明内容

本发明的目的在于提供一种基于深度学习网络与多维注意力机制结合的高分辨率遥感图像道路提取方法，主要解决如何有效利用道路纹理特征从高精度遥感图像中快速、实时且精确地提取出道路信息的问题。

为了实现上述目的，本发明采用的技术方案如下：

一种基于深度学习网络与多维注意力机制结合的高分辨率遥感图像道路提取方法，包括以下步骤：

（S1）构建数据集：科学选取一定数量的带有标签的高分辨率遥感图像，分为训练数据集，验证数据集和测试数据集；使用数据增强方法预先处理数据集，避免训练过程中过拟合的发生。

（S2）构建多维注意力机制模块：模块会将输入的特征图像分别在高度（H）、宽度（W）和通道（C）三个维度上进行全局平均池化，然后将三个维度的结果分别通过全连接层并用激活函数激活，得到的结果为每个高度、宽度、通道的重要性权重值，将权重值与输入的特征图像相乘。最后将三个维度得到的结果进行逐像素相加。

（S3）构建UNet网络与多维注意力机制结合的深度学习模型：UNet的编码部分包括四层，每一层的输出连接一个（S2）得到的多维注意力机制模块，并采用多层级特征融合的方式让多维注意力机制模块的输出传递到UNet的解码部分。

（S4）选取损失函数：选取结合焦点损失函数Focal loss、结构相似指数损失函数SSIM loss和交并比损失函数IoU loss的混合损失函数，此损失函数能够获取不同尺度目标的清晰边界。

（S5）对模型进行迭代训练：利用训练数据集对（S3）得到的模型进行迭代训练，将输出结果通过Sigmoid函数激活得到道路图像提取结果，并选用随机梯度下降方法作为优化器，以获取最优损失函数结果。随后选取损失函数结果最优的模型在验证数据集上进行训练，进一步调整模型的超参数。最后在测试数据集上训练模型，以评估模型提取道路特征信息的精确度。

（S6）搭建Web应用界面：将训练好的模型加入基于node.js的服务器系统，服务器可以实时接收卫星遥感图像或用户自定义上传的遥感图像，并将道路提取结果实时传递给基于node.js服务器搭建的用户交互界面的Web前端服务。

进一步地，所述步骤（S1）选取了DeepGlobe的高精度遥感图像，其中训练数据集包括6626张高精度遥感图像和6626张标签，训练集包括1243张图像，测试集包括1101张图像，图片大小均为1024x1024。数据增强方法为：预先对训练集和验证集图像进行水平、竖直、对角线三种方式翻折，然后对图像进行缩放比例最高为15%的随机缩放，其次将图像进行偏移距离最多15%的随机偏移，之后将图像沿水平或竖直方向拉伸最多15%，最后将图像截取中心的1024x1024部分。

进一步地，所述步骤（2）将输入图像分别在高度（H）、宽度（W）和通道（C）三个维度上进行全局平均池化的公式分别为：

其中，以第三个公式为例，u_c代表输入图像数据，c 代表输入图像数据的第c个通道。

进一步地，全局平均池化后进行的全连接层操作以及激活具体公式如下：

其中， W₁z是进行第一次全连接操作，与 W₂相乘是进行第二次全连接操作。

进一步地，上述公式中表示的s 代表了各个维度中注意的高度、宽度、通道的重要性权重值。将该权重值与初始的输入数据相乘，其具体公式如下：

将三个维度得到的结果逐像素相加，即可得到多维度注意力机制模块的输出结果。其具体公式如下：

其中，将⊕定义为逐像素相加运算，因为多维度注意力机制模块被添加在UNet网络的每层编码结果之后，因此i表示第i编码层。

进一步地，编码层经过多维注意力机制模块输出的结果传递到解码层所采用的多层级特征融合方法具体公式如下：

其中，C(.)表示卷积操作，μ表示上采样过程，[.]表示通道维度拼接融合，H(.)表示特征融合操作（包括卷积操作、批标准化和ReLU激活函数）。

进一步地，评价构建的深度学习网络与多维注意力机制结合的训练模型的输出结果所采用的的损失函数具体公式如下：

其中，L_focal表示焦点损失函数，L_iou表示交并比损失函数，L_ssim表示结构相似指数损失函数，Lseg表示本发明选取的三个损失函数的混合损失函数，g表示遥感图像的地面真值，即数据集中的标签部分，p 表示预测值，即深度学习模型的输出，μ_p、μ_g表示p、g的均值，σ_p、σ_g表示p、g的方差，σ_pg表示p和g的协方差，γ、α、β、C₁、C₂均为超参数：γ起到平滑的作用，设置范围为（0, 5）；α、β定义两个相乘部分的相对重要性；C₁、C₂避免出现结果为0的情况。

具体地，所述步骤（S6）中实现Web前端与服务器进行交互的具体过程为Web 前端使用javascript向node.js 服务器发出HTTP 请求，服务器根据请求类型判断调用实时卫星遥感图像或是接收前端发出的自定义图像，然后将目标图像进行道路信息提取后，将结果发送给Web前端用户。Web前端包括登录页面、Index页面、状态页面、功能选择页面、图片上传页面、结果显示页面、历史记录页面、数据更新页面、用户配置页面，其中Index页面用于访问应用程序不同部分的导航页，同时包含指向网站所有其他页面的链接。

与现有技术相比，本发明具有以下有益效果：

（1）与使用了单一通道注意力机制模块的深度学习方法相比，本发明的多维注意力机制模块关注了高度、宽度、通道三个维度，这使模块的输出结果具有更详细的特征信息。

（2）与使用传统的深度学习模型的道路提取方法相比，本发明使用了深度学习模型和多维注意力机制模块相结合的模型，通过多维注意力机制模块输出的特征图像具有更强的特征表达能力。

（3）在模型的解码阶段，本发明使用了多层特征融合的方式进行信息传递，而不是使用传统深度学习模型的单层线性信息传递方法。这有效利用了高精度遥感图像中道路精细的纹理特征这一优势，使提取结果的精确度得到显著提升。

（4）本发明添加了应用模块，用户能够通过Web前端实时获取道路信息，或自主上传图像，获得道路提取结果。

附图说明

图1为本发明提供的方法的流程示意图。

图2为本发明选用的数据集的原始图像之一。

图3为本发明选用的数据集的原始图像之一（图1）的标签（地面真值）。

图4为本发明对数据集的原始图像之一（图1）进行数据增强的结果。

图5为本发明对数据集的原始图像之一（图1）进行数据增强的结果的标签（地面真值）。

图6为本发明提出的多维度注意力机制模块示意图。

图7为本发明提出的UNet与多维度注意力机制模块结合的模型示意图。

图8为本发明的道路提取结果及与其他网络模型结果的对比图。

图9为本发明的前后端设计构架示意图。

具体实施方式

下面结合附图和实施方式对本发明作进一步说明。

如图1所示，一种基于深度学习网络与多维注意力机制结合的高分辨率遥感图像道路提取方法，包括（S1）~（S6）六个步骤。

本发明选取了DeepGlobe的高精度遥感图像，其中训练数据集包括6626张高精度遥感图像和6626张标签，训练集包括1243张图像，测试集包括1101张图像，图片大小均为1024x1024。DeepGlobe数据集图像包括了泰国、印度、印度尼西亚等多个国家的城市、乡村、荒郊、海滨、热带雨林等不同场景的图像。数据集的原始图像的效果如图2所示。由于本发明涉及的深度学习属于有监督学习的范畴，因此训练集图像还包括了标签（地面真值），效果如图3所示。

本发明数据增强方法为：预先对训练集和验证集图像进行水平、竖直、对角线三种方式翻折，然后对图像进行缩放比例最高为15%的随机缩放，其次将图像进行偏移距离最多15%的随机偏移，之后将图像沿水平或竖直方向拉伸最多15%，最后将图像截取中心的1024x1024部分。为了保证训练集中图像与所对应标签的一致性，在对训练集图像进行数据增强的同时，对图像所对应标签进行相同比例的数据增强。本发明对图1所做的数据增强结果如图4所示。本发明对图2所做的数据增强结果所对应的标签如图5所示。

（S2）构建多维注意力机制模块：一张图像由像素级的高度（H）、宽度（W）和通道（C）三个维度构成。首先将输入的图像分别在高度、宽度和通道三个维度上进行全局平均池化，具体的公式如下：

其中，以公式（3）为例，u_c代表输入图像数据，c代表输入图像数据的第c个通道。经过全局平均池化后，得到了只关注一个维度，而其余维度均为1的结果。如图6所示，H-GAP、W-GAP、C-GAP分别为在高度、宽度、通道上的全局平均池化，分别得到1x1xH、1x1xC、1x1xC的结果。

然后将三个维度的结果分别通过全连接层并用激活函数激活，具体公式如下：

其中，z是经过全局平均池化的结果，W₁z是进行第一次全连接操作，与W₂相乘是进行第二次全连接操作。

如图6所示，FC1为进行第一次全连接层以及激活函数ReLU操作，本发明选用的全连接层层数（即神经元的个数）为256，因此通过FC1后会得到1x1x256的结果。FC2为进行第二次全连接层以及激活函数Sigmoid操作，本发明选用的全连接层层数与输入的图像所关注的维度保持一致。

公式（4）得到的结果s为每个高度、宽度、通道的重要性权重值，接下来的操作为将权重值与输入的特征图像相乘，具体公式如下：

其中，以公式（7）为例，u_c代表输入图像数据，c代表输入图像数据的第c个通道，s_c代表经过公式（4）操作后的结果。

最后将三个维度得到的结果进行逐像素相加，就得到了多维注意力机制模块的输出结果，具体公式如下：

其中，本发明将⊕定义为逐像素相加运算。因为多维度注意力机制模块被添加在UNet网络的每层编码结果之后，因此i表示第i编码层。

通过多维注意力机制模块，输入的图像会产生更加具有分辨性的特征表示，使图像有更强的特征表达能力。

（S3）构建UNet网络与多维注意力机制结合的深度学习模型：如图7所示，本发明所采用的UNet的编码部分包括四层，每一层的输出连接一个（S2）得到的多维注意力机制模块，并采用多层级特征融合的方式让多维注意力机制模块的输出传递到UNet的解码部分。图7所示左虚线框内为编码部分，右虚线框内为解码部分。编码部分中，F1~F4为分层编码，分别包括了两次卷积核为3x3大小的卷积和ReLU激活函数；编码结果向下传递为下采样，方式为卷积核大小为2x2的最大池化。解码部分中，F1~F4为分层解码，分别包括两次卷积核大小为3x3的卷积和ReLU激活函数；解码结果向上传递为上采样，方式为卷积核大小为2x2的反卷积。

如图7所示，编码部分的输出通过多维度注意力机制模块后，会以多层特征融合的方式传递到解码阶段，具体公式如下：

其中，C(.)表示卷积操作，μ(.)表示上采样过程，方式为卷积核大小为2x2的反卷积，x_{De_in}表示进行了特征融合但还未进行分层解码的第层的结果，x_{De_out}表示分层解码后的结果。[.]表示通道维度拼接融合，H(.)表示特征融合操作（包括卷积核大小为3x3的卷积操作、批标准化和ReLU激活函数）。通过上述步骤，本发明得到，通过Sigmoid激活函数获得模型的最终输出结果。

（S4）选取损失函数：损失函数能够评价构建的深度学习网络与多维注意力机制结合的训练模型，并通过迭代训练改变模型的参数使损失函数的值越来越小，模型的识别准确率越来越高。本发明选取结合焦点损失函数Focal loss、结构相似指数损失函数SSIMloss和交并比损失函数IoU loss的混合损失函数，此损失函数能够获取不同尺度目标的清晰边界，其具体公式如下：

其中，L_focal表示焦点损失函数，L_iou表示交并比损失函数，L_ssim表示结构相似指数损失函数，L_seg表示本发明选取的三个损失函数的混合损失函数。g表示遥感图像的地面真值，即数据集中的标签部分，f表示预测值，即深度学习模型的输出。μ_p、μ_g表示p、g的均值，σ_p、σ_g表示p、g的方差，σ_pg表示p和g的协方差。γ、α、β、C₁、C₂均为超参数：γ起到平滑的作用，设置范围为（0，5），本发明将其设置为2；α、β定义两个相乘部分的相对重要性，本发明将其设置为0.4和0.6；C1、C2避免出现结果为0的情况，本发明将其设置为0.015²。

值得注意的是，因为输入与输出均为图像数据，因此为了更好地衡量模型，本发明将g定义为在地面真值的图像中道路部分所占的像素个数；将p定义为预测的图像中道路部分所占的像素个数。

（S5）对模型进行迭代训练：初始化（S3）得到的模型参数，本发明采用的方法是基于固定方差的参数初始化，使用高斯分布对每个参数随机初始化，这样的方法比起预训练初始化参数来说具有更高的灵活性。本发明在Linux系统上使用NVIDIA 1080TIx2进行训练，利用训练数据集对初始化后的模型进行迭代训练（迭代次数为8万次），将输出结果通过Sigmoid函数激活得到道路图像的提取结果，并选用随机梯度下降方法作为优化器，学习率设置为0.001，以获取最小损失函数结果。随后选取损失函数结果最小的模型在验证数据集上进行训练，进一步调整模型的超参数。最后在测试数据集上训练模型，以评估模型提取道路特征信息的精确度。

为了量化最终模型对测试数据集中道路的提取效果，除了损失函数，本发明引入了真正值（TP）、真负值（TN）、假真值（FP）、假负值（FN）的概念。在本发明中，TP为既是地面真值图像中道路部分的像素点又是提取结果中道路部分的像素点的个数，TN为既不是地面真值图像中道路部分的像素点又不是提取结果中道路部分的像素点个数，FP为是地面真值图像中道路部分的像素点但不是提取结果中道路部分的像素点的个数，FN为不是地面真值图像中道路部分的像素点但是提取结果中道路部分的像素点的个数。并且定义以下衡量标准：

因此本发明拥有了精确率precision、召回率recall、F1分数三个衡量指标。模型训练后得到的验证集和测试集的召回率和F1分数与其他图像分割网络的结果进行对比如下：

其中MDAUNet即为本发明提出的多维度注意力机制与UNet结合的模型。

如图8所示，为了更为直观地观察模型对道路的提取结果，本发明随机挑选了5张测试数据集及其提取结果与地面真值和其他图像分割网络的结果进行对比，其中gt即为地面真值数据（标签）。

其中实现Web前端与服务器进行交互的具体过程为Web 前端使用javascript向node.js 服务器发出HTTP 请求，服务器根据请求类型判断调用实时卫星遥感图像或是接收前端发出的自定义图像，然后将目标图像进行道路信息提取后，将结果发送给Web前端用户。Web前端包括登录页面、Index页面、状态页面、功能选择页面、图片上传页面、结果显示页面、历史记录页面、数据更新页面、用户配置页面，其中Index页面用于访问应用程序不同部分的导航页，同时包含指向网站所有其他页面的链接，具体如图9所示。若是用户在功能选择页面选择的是获取指定地区道路提取图像，那么将会跳过图片上传页面，直接到达结果显示页面。

上述实施例并非是对本发明保护范围的限制，本发明也不仅限于上述举例，但凡采用本发明的实行原理，以及在此基础上进行非创造性劳动而做出的变化、改型、添加或替换，也均应属于本发明的保护范围之内。

Claims

1.一种基于深度学习网络与多维注意力机制结合的高分辨率遥感图像道路提取方法，其特征在于，包括如下步骤：

（S1）构建数据集：科学选取一定数量的带有标签的高分辨率遥感图像，分为训练数据集，验证数据集和测试数据集；使用数据增强方法预先处理数据集，避免训练过程中过拟合的发生；

（S2）构建多维注意力机制模块：模块会将输入的特征图像分别在高度（H）、宽度（W）和通道（C）三个维度上进行全局平均池化，然后将三个维度的结果分别通过全连接层并用激活函数激活，得到的结果为每个高度、宽度、通道的重要性权重值，将权重值与输入的特征图像相乘，最后将三个维度得到的结果进行逐像素相加；

（S3）构建UNet网络与多维注意力机制结合的深度学习模型：UNet的编码部分包括四层，每一层的输出连接一个（S2）得到的多维注意力机制模块，并采用多层级特征融合的方式让多维注意力机制模块的输出传递到UNet的解码部分；

（S4）选取损失函数：选取结合焦点损失函数Focal loss、结构相似指数损失函数SSIMloss和交并比损失函数IoU loss的混合损失函数，此损失函数能够获取不同尺度目标的清晰边界；

（S5）对模型进行迭代训练：利用训练数据集对（S3）得到的模型进行迭代训练，将输出结果通过Sigmoid函数激活得到道路图像提取结果，并选用随机梯度下降方法作为优化器，以获取最优损失函数结果，随后选取损失函数结果最优的模型在验证数据集上进行训练，进一步调整模型的超参数，最后在测试数据集上训练模型，以评估模型提取道路特征信息的精确度；

2.根据权利要求1所述的一种基于深度学习网络与多维注意力机制结合的高分辨率遥感图像道路提取方法，其特征在于：所述步骤（S1）选取了DeepGlobe的高精度遥感图像，其中训练数据集包括6626张高精度遥感图像和6626张标签，训练集包括1243张图像，测试集包括1101张图像，图片大小均为1024x1024，而数据增强方法为：预先对训练集和验证集图像进行水平、竖直、对角线三种方式翻折，然后对图像进行缩放比例最高为15%的随机缩放，其次将图像进行偏移距离最多15%的随机偏移，之后将图像沿水平或竖直方向拉伸最多15%，最后将图像截取中心的1024x1024部分。

3.根据权利要求1所述的一种基于深度学习网络与多维注意力机制结合的高分辨率遥感图像道路提取方法，其特征在于：所述步骤（2）将输入图像分别在高度（H）、宽度（W）和通道（C）三个维度上进行全局平均池化的公式分别为：

4.根据权利要求3所述的一种基于深度学习网络与多维注意力机制结合的高分辨率遥感图像道路提取方法，其特征在于：全局平均池化后进行的全连接层操作以及激活具体公式如下：

5.根据权利要求4所述的一种基于深度学习网络与多维注意力机制结合的高分辨率遥感图像道路提取方法，其特征在于：权利要求4中公式表示的s 代表了各个维度中注意的高度、宽度、通道的重要性权重值，将该权重值与初始的输入数据相乘，其具体公式如下：

最后，将三个维度得到的结果逐像素相加，即可得到多维度注意力机制模块的输出结果，

其具体公式如下：

6.根据权利要求5所述的一种基于深度学习网络与多维注意力机制结合的高分辨率遥感图像道路提取方法，其特征在于：编码层经过多维注意力机制模块输出的结果传递到解码层所采用的多层级特征融合方法具体公式如下：

7.根据权利要求6所述的一种基于深度学习网络与多维注意力机制结合的高分辨率遥感图像道路提取方法，其特征在于：评价构建的深度学习网络与多维注意力机制结合的训练模型的输出结果所采用的的损失函数具体公式如下：

其中，L_focal表示焦点损失函数，L_iou表示交并比损失函数，L_ssim表示结构相似指数损失函数，L_seg表示本发明选取的三个损失函数的混合损失函数，g表示遥感图像的地面真值，即数据集中的标签部分，p 表示预测值，即深度学习模型的输出，μ_p、μ_g表示p、g的均值，σ_p、σ_g表示p、g的方差，σ_pg表示p和g的协方差，γ、α、β、C₁、C₂均为超参数：γ起到平滑的作用，设置范围为（0, 5）；α、β定义两个相乘部分的相对重要性；C1、C2避免出现结果为0的情况。

8. 根据权利要求1所述的一种基于深度学习网络与多维注意力机制结合的高分辨率遥感图像道路提取方法，其特征在于：所述步骤（S6）中实现Web前端与服务器进行交互的具体过程为Web 前端使用javascript 向node.js 服务器发出HTTP 请求，服务器根据请求类型判断调用实时卫星遥感图像或是接收前端发出的自定义图像，然后将目标图像进行道路信息提取后，将结果发送给Web前端用户。

9.根据权利要求8所述的一种基于深度学习网络与多维注意力机制结合的高分辨率遥感图像道路提取方法，其特征在于：所述步骤（S6）中Web前端包括登录页面、Index页面、状态页面、功能选择页面、图片上传页面、结果显示页面、历史记录页面、数据更新页面、用户配置页面，其中Index页面用于访问应用程序不同部分的导航页，同时包含指向网站所有其他页面的链接。