CN117935060B

CN117935060B - 基于深度学习的洪水区域检测方法

Info

Publication number: CN117935060B
Application number: CN202410323876.3A
Authority: CN
Inventors: 钟剑丹; 刘永清; 李英祥; 陈春衫; 李冰潇; 邓伟; 刘苈乐
Original assignee: Chengdu University of Information Technology
Current assignee: Chengdu University of Information Technology
Priority date: 2024-03-21
Filing date: 2024-03-21
Publication date: 2024-05-28
Anticipated expiration: 2044-03-21
Also published as: CN117935060A

Abstract

本发明公开了一种基于深度学习的洪水区域检测方法，属于图像数据处理领域，包括构造数据集；构造洪水区域检测网络；用数据集训练洪水区域检测网络得到洪水区域检测模型，用于待识别的洪水图像中的洪水区域检测。本发明中针对洪水图像中洪水占比大、洪水边缘和淹没物场景复杂的问题，用残差图像金字塔模块对深层次特征中的感受野进行进一步扩大，使得模型注重于全局；多个浅层特征融合多输入坐标注意力机制，获得通道和两个空间方向的特征信息，使得模型注重于分割细节，由特征融合模块对获得的深层特征和浅层特征进行更好的特征选择与结合，将语义信息和空间方向相关的细节信息有效结合，能更好地分割洪水区域，在整体上提高分割精度。

Description

基于深度学习的洪水区域检测方法

技术领域

本发明涉及图像数据处理技术领域，尤其涉及一种基于深度学习的洪水区域检测方法。

背景技术

洪水是暴雨、急剧融化的冰雪、风暴潮等自然因素引起的江河湖泊水量迅速增加，或者水位迅猛上涨的一种自然现象，会威胁有关地区的安全，甚至造成灾害。目前基于图像对洪水的检测主要有以下几种方法：

一、利用合成孔径雷达图像对洪水覆盖区域进行分割提取，这种方法需要从遥感卫星中获取信息，实时监测和动态更新方面的能力较弱，缺乏实际场景中的细节信息且成本昂贵。

二、利用传统数字图像处理对洪水图像中的洪水区域进行分割，但洪水的发生往往伴随着特殊的环境因素，容易受光照、雨雾等环境因素影响，鲁棒性不高，传统图像分割方法无法时刻准确分割洪水区域。

三、利用深度学习方法直接对洪水图像进行语义分割处理，而洪水区域的边缘往往是非结构性的，在洪水的边缘或者洪水中间往往有树木、车辆和行人等比较复杂的场景，如果对其进行分割则需要更丰富的上下文信息以及空间细节信息，一般的深度学习分割模型容易造成洪水区域的过分割或欠分割。

因此，完整准确地分割出洪水区域仍然具有挑战性。

发明内容

本发明的目的就在于提供一种解决因洪水图像中洪水占比大，洪水边缘和淹没物场景复杂导致无法精确分割洪水区域等问题的，基于深度学习的洪水区域检测方法。

为了实现上述目的，本发明采用的技术方案是这样的：一种基于深度学习的洪水区域检测方法，包括以下步骤；

S1，构造数据集；

获取不同区域的洪水图像，对每张洪水图像人工标记真实洪水区域，得到训练样本，所有训练样本构成数据集；

S2，构造洪水区域检测网络，包括分层Transformer编码器、残差图像金字塔模块、多输入坐标注意力模块、特征融合模块和分割头；

所述分层Transformer编码器，用于逐层对洪水图像进行特征提取，依次得到四张维度不同的分层特征图C1~C4；

所述残差图像金字塔模块，用于输入C4，输出大视野特征图，包括用于空洞卷积的第一空洞卷积层到第四空洞卷积层；

C4经第一空洞卷积层输出特征图K1，K1与C4拼接，再经第二空洞卷积层输出特征图CP1，CP1与C4拼接，经第三空洞卷积层输出特征图CP2，CP2与C4拼接，经第四空洞卷积层输出特征图CP3，C4分别送入1×1的第一卷积层和全局池化层得到对应输出K2和K3；

将K1、K2、K3、CP1、CP2、CP3拼接，再经1×1的第二卷积层输出大视野特征图；

所述多输入坐标注意力模块包括多输入特征提取单元、坐标注意力模块；

所述多输入特征提取单元用于输入C1、C2、C3，对其进行拼接和1×1卷积得到特征图，将/>经3×3的深度可分离卷积、批量正则化和非线性处理得到特征图/>，将和/>拼接得到拼接特征图/>；

所述坐标注意力模块用于输入，输出带坐标注意力的特征图/>；

所述特征融合模块用于对、/>进行特征融合，输出融合特征图，并送入分割头中进行分割得到预测洪水区域；

S3，用数据集训练构造洪水区域检测网络至收敛，得到洪水区域检测模型；

S4，获取待识别的洪水图像，送入洪水区域检测模型，输出预测洪水区域。

作为优选：所述训练样本高×宽×通道数为H×W×3；所述C1~C4的维度不同，其高×宽×通道数依次为：

C1为，C2为/>、C3尺寸为/>、C4尺寸为。

作为优选：所述多输入坐标注意力模块中，、/>的维度与C2相同；

所述注意力模块输入，输出/>的方法为；

Sa1，根基下式（1）、（2）对分别在水平和垂直方向进行全局平均池化，得到宽度方向特征图/>和宽度方向特征图/>；

（1），

（2），

式（1）中，为/>中高度为j，宽度为w的特征值，/>为/>在宽度w和通道c的输出特征值，0≤j＜/>，c=1~128，H为训练样本的高度；

式（2）中，为/>中高度为h，宽度为i的特征值，/>为/>在高度h和通道c的输出特征值，0≤i＜/>，W为训练样本的宽度；

Sa2，将和/>拼接，再进行卷积核大小为1×1的卷积操作，得到第一中间特征图；

Sa3，用非线性激活函数对进行批量正则化操作，得到第二特征图/>；

Sa4，对第二特征图按Sa2的拼接方式反向拆分，得到高度方向拆分图F₂ ^h和宽度方向拆分图F ₂ ^w；

Sa5，按下式（3）（4）得到x _c在高度和宽度上的注意力权重g ^h、g ^w；

（3）,

（4）,

式中，σ为sigmoid激活函数，F(·)为1X1的卷积操作；

Sa6，根据下式（5）得到；

（5）,

式中，为/>中宽度为i、高度为j的特征值，/>为/>中宽度为i、高度为j的特征值。

作为优选：所述特征融合模块的处理方法为：

Sb1，获取训练样本对应的大视野特征图和带坐标注意力的特征图，将二者拼接，再将拼接得到的特征图依次经卷积核大小为3×3的卷积操作、批量正则化和ReLU操作，得到第一融合特征图；

Sb2，对依次进行全局平均池化、1×1卷积、ReLU操作、1×1卷积、Sigmoid函数操作得到一权重特征/>；

Sb3，根据公式得到融合特征图M。

与现有技术相比，本发明的优点在于：

关于残差图像金字塔模块：由于洪水图像中，洪水区域在图像中的占比较大，为了完整分割出大面积的洪水区域，需要获得更高层次的语义信息。分层Transformer编码器得到不同的分层特征图，其中C4为最后一层，故C4为深层特征图。本发明对深层特征图添加残差图像金字塔进行多重的空洞卷积，在保留原有特征的基础上，进行膨胀因子分别为6、9、12、15的多个空洞卷积，在进行膨胀率为9、12、15的空洞卷积之前，都与上一空洞卷积特征层进行残差拼接，实现自由的多尺度特征提取。对于洪水图像中洪水占比较大的情况，将空洞卷积后的特征与普通卷积和池化层进行残差结合，既扩大了空间感受野，又避免了空洞卷积导致的细节缺失，避免边缘处分割不精确。

关于多输入坐标注意力模块：将多个浅层特征结合多输入坐标注意力机制，在通道间关系的基础上还考虑到了特征空间的位置信息，将位置信息嵌入到通道中，在我们的方法中可以获得通道和两个空间方向的特征信息，有助于模型获得更多细节信息，在分割洪水区域时更好地注意洪水边缘。

关于有效融合不同层次特征提升分割精度：对于深层特征和浅层特征所具有的语义信息和细节信息的丰富度不同，采用特征融合模块对其进行特征选择与结合。将多输入坐标注意力机制和残差图像金字塔模块输出的语义信息和空间方向相关的细节信息有效结合，整体提升了模型分割的精度。

综上，本发明针对洪水图像中洪水占比大，洪水边缘和淹没物场景复杂的问题，采用残差图像金字塔模块对深层次特征中的感受野进行进一步扩大，使得模型注重于全局；多个浅层特征融合多输入坐标注意力机制，获得通道和两个空间方向的特征信息，使得模型注重于分割细节，并在分割模型中添加特征融合模块，对获得的深层特征和浅层特征进行更好的特征选择与结合，将语义信息和空间方向相关的细节信息有效结合，有助于模型更好地分割洪水区域，在整体上提高分割精度。

附图说明

图1为本发明洪水区域检测网络架构图；

图2为残差图像金字塔模块结构示意图；

图3为多输入坐标注意力模块的处理流程图；

图4为特征融合模块的处理流程图；

图5为本发明洪水区域检测模型处理前后对比图。

具体实施方式

下面将结合附图对本发明作进一步说明。

实施例1：参见图1到图5，一种基于深度学习的洪水区域检测方法，包括以下步骤；

S1，构造数据集；

所述训练样本高×宽×通道数为H×W×3；

所述C1~C4的维度不同，其高×宽×通道数依次为：

C1为，C2为/>、C3尺寸为/>、C4尺寸为。

所述多输入坐标注意力模块中，、/>的维度与C2相同；

所述注意力模块输入，输出/>的方法为；

（1），

（2），

（3）,

（4）,

式中，σ为sigmoid激活函数，F(·)为1X1的卷积操作；

Sa6，根据下式（5）得到；

（5）,

所述特征融合模块的处理方法为：

Sb3，根据公式得到融合特征图M。

图5给出了一张待识别的洪水图像，经本发明洪水区域检测模型进行预测，输出的预测洪水区域示意图，从图5中可以看出，对于洪水边沿树木、桥墩等复杂场景，均能左右准确分割。

实施例2：为了更好的说明本发明效果，我们制作了一个包含2500张洪水图像的数据集，进行了100轮的训练，其中训练集和验证集的比例是8：2，每张洪水图像都事先进行过人工标记，且尺寸为512×512×3。

我们采用同样的数据集，用几种现有技术方法与本发明进行对比实验，并用三种常用的语义分割评价指标进行对比，得到下表1：

表1，不同方法对比实验数评价指标

方法	Accuracy %	F1-score %	mIoU %
				PSPNet	90.96	90.00	81.77
U-Net	93.84	93.38	87.20
				DeeplabV3+	90.38	92.19	85.87
V-FloodNet	91.27	92.65	87.87
				本发明	96.65	96.48	92.8

表1中：Accuracy为像素准确率，F-score为精确率(Precision)和召回率(Recall)的调和平均，mIoU英文为Mean Intersection over Union，中文为平均交并比。

几种方法分别为：

PSPNet：英文为Pyramid Scene Parseing Network，是采用金字塔池化模块搭建的场景分析网络。

U-Net：为U-Net模型，是常见的语义分割模型。

DeeplabV3+模型，也是一种常见的语义分割模型，使用空间金字塔模块和encoder-decoder结构做语义分割。

V-FloodNet：一种使用encoder-decoder结构的针对洪水的语义分割模型，参见论文Liang Y, Li X, Tsai B, et al. V-FloodNet: A video segmentation system forurban flood detection and quantification[J]. Environmental Modelling&Software, 2023, 160: 105586.

从表1中可知，与其他洪水分割方法相比，本发明在Accuracy、F1-score和mIoU的指标上均优于所有对比的现有技术。与U-Net相比，我们的Accuracy高出了3.19百分点，在F1-score上高出了3.1个百分点，在mIoU上高出了5.6个百分点，说明我们的方法能精准的检测到洪水区域。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于深度学习的洪水区域检测方法，其特征在于：包括以下步骤；

S1，构造数据集；

所述多输入特征提取单元用于输入C1、C2、C3，对其进行拼接和1×1卷积得到特征图，将/>经3×3的深度可分离卷积、批量正则化和非线性处理得到特征图/>，将/>和/>拼接得到拼接特征图/>；

2.根据权利要求1所述的基于深度学习的洪水区域检测方法，其特征在于：

所述训练样本高×宽×通道数为H×W×3，所述C1~C4的维度不同，其高×宽×通道数依次为：

C1为，C2为/>、C3尺寸为/>、C4尺寸为。

3.根据权利要求1所述的基于深度学习的洪水区域检测方法，其特征在于：所述多输入坐标注意力模块中，、/>的维度与C2相同；

所述坐标注意力模块输入，输出/>的方法为；

Sa1，根据下式（1）、（2）对分别在水平和垂直方向进行全局平均池化，得到宽度方向特征图/>和宽度方向特征图/>；

（1），

（2），

Sa2，将和/>拼接，再进行卷积核大小为1×1的卷积操作，得到第一中间特征图/>；

（3）,

（4）,

式中，σ为sigmoid激活函数，F(·)为1X1的卷积操作；

Sa6，根据下式（5）得到；

（5）,

4.根据权利要求1所述的基于深度学习的洪水区域检测方法，其特征在于：所述特征融合模块的处理方法为：

Sb3，根据公式得到融合特征图M。