CN116563550A - 基于混合注意力的滑坡解译语义分割方法、系统、装置及介质 - Google Patents
基于混合注意力的滑坡解译语义分割方法、系统、装置及介质 Download PDFInfo
- Publication number
- CN116563550A CN116563550A CN202310612783.8A CN202310612783A CN116563550A CN 116563550 A CN116563550 A CN 116563550A CN 202310612783 A CN202310612783 A CN 202310612783A CN 116563550 A CN116563550 A CN 116563550A
- Authority
- CN
- China
- Prior art keywords
- module
- channel
- attention
- feature
- landslide
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 52
- 238000000034 method Methods 0.000 title claims abstract description 36
- 230000003993 interaction Effects 0.000 claims abstract description 41
- 238000005070 sampling Methods 0.000 claims abstract description 11
- 230000002457 bidirectional effect Effects 0.000 claims abstract description 10
- 238000000605 extraction Methods 0.000 claims description 32
- 230000004927 fusion Effects 0.000 claims description 32
- 238000012549 training Methods 0.000 claims description 31
- 230000006870 function Effects 0.000 claims description 27
- 238000012360 testing method Methods 0.000 claims description 21
- 238000004590 computer program Methods 0.000 claims description 20
- 235000019580 granularity Nutrition 0.000 claims description 18
- 238000010606 normalization Methods 0.000 claims description 18
- 230000004913 activation Effects 0.000 claims description 17
- 238000010586 diagram Methods 0.000 claims description 14
- 239000011159 matrix material Substances 0.000 claims description 13
- 238000013528 artificial neural network Methods 0.000 claims description 9
- 239000000284 extract Substances 0.000 claims description 8
- 230000007246 mechanism Effects 0.000 claims description 7
- 238000010276 construction Methods 0.000 claims 1
- 230000000694 effects Effects 0.000 abstract description 5
- 238000013135 deep learning Methods 0.000 description 4
- 238000001514 detection method Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 238000007430 reference method Methods 0.000 description 3
- 238000013136 deep learning model Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000002679 ablation Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/70—Labelling scene content, e.g. deriving syntactic or semantic representations
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于混合注意力的滑坡解译语义分割方法、系统、装置及介质,包括:混合注意力模块采用并行双分支结构,并采用空间‑通道双向交互模块将两路提取到的不同的特征进行结合;使得模型能够同时学习到输入图像的空间特征和通道特征,能够在复杂地理环境精准地识别山体滑坡发生的位置。同时本发明通过多尺度特征互偿模块将每个阶段编码器的输出经过一个深度可分离卷积作为细粒度特征融合到下一个阶段的粗粒度特征中,在输入解码器之前再使用一个上采样模块将粗粒度特征赋给下一个阶段的细粒度特征,最终使得每个阶段的特征都具有全局语义视野,对不同的地形有了更好的泛化性,在滑坡分割上的效果达到最好。
Description
技术领域
本发明属于人工智能和深度学习技术领域,涉及一种基于混合注意力的滑坡解译语义分割方法、系统、装置及介质。
背景技术
早期的山体滑坡检测手段以传统的机器学习为主,彼时深度神经网络的应用还没有被应用于该领域。除了山体滑坡区域的检测,对于滑坡易发性的检测也至关重要。灾害和风险发生概率图绘制的目标是在空间上识别并描述灾害易发区域,同时进行有针对性的研究来分析潜在风险。为了分析风险,有必要研究过去的灾害发生原因,特征和影响,然后将所有的因素与现状联系起来生成灾害易发概率图。几乎所有的机器学习方法都需要用于训练,验证和测试的标注数据集,然而传统的山体滑坡制图方法中,耗时且消耗人力资源是不可避免的问题。
近年来,随着深度学习技术的迅速发展,其在各种任务中表现出超越传统机器学习方法的优越性,因此深度学习模型越来越受到欢迎。然而,深度学习模型在滑坡解译中的广泛应用也带来了新的挑战。一个主要挑战是将模型应用于具有不同地理条件的数据时所遇到的泛化性困难。另一个基本的挑战是缺乏针对滑坡的公开数据集,这妨碍了滑坡检测的广泛发展,影响了深度学习在山体滑坡领域的适用性和准确性。
发明内容
本发明的目的在于解决现有技术中深度学习在不同地理条件下泛化性困难,影响整体的适用性和准确性的问题,提供一种基于混合注意力的滑坡解译语义分割方法、系统、装置及介质。
为达到上述目的,本发明采用以下技术方案予以实现:
基于混合注意力的滑坡解译语义分割方法,包括:
步骤1:获取山体滑坡数据集,并划分为训练集和测试集;
步骤2:构建基于混合注意力的特征提取模块,基于交叉窗口注意力提取空间特征,基于连续堆叠的深度可分离卷积提取通道特征;
步骤3:构建空间-通道双向交互模块,将所获取的空间特征信息和通道特征信息进行交互,得到融合后的特征;
步骤4:基于多尺度融合模块将融合后的特征进行编码,获取当前阶段不同尺度和不同粒度的信息;并将当前阶段不同尺度和不同粒度的信息与其他阶段的特征进行特征融合;
步骤5:基于特征金字塔解码器对融合得到的特征进行解码,输出特征图像;
步骤6:基于训练集对步骤2至步骤5进行重复训练,获取最优化的语义分割模型;
步骤7:基于最优化的语义分割模型对测试集进行山体滑坡的区域识别,得到最终的语义分割结果。
本发明的进一步改进在于:
进一步的,训练集和测试集的划分比例为随机划分或以预设的比例进行划分;所述预设的比例为人为设定。
进一步的,构建混合注意力模块,基于交叉窗口注意力提取空间特征,基于连续堆叠的深度可分离卷积提取通道特征,具体为:
设计交叉窗口注意力提取空间特征得到一个分支的特征表示;深度可分离卷积提取通道特征;每一个混合注意力模块均包括层归一化、混合注意力、前馈神经网络和残差链接;其中,混合注意力模块为:
其中,Xl+1分别代表整个混合注意力模块的输出和前馈神经网络的输出;Hybrid表示输出融合通道特征和空间特征的函数,LN表示层归一化函数;
混合注意力中的交叉窗口注意力为:
V*=V×σ(C2(()))
其中,H-Attention代表水平方向的注意力,Q、K和V分别代表查询、键值和价值矩阵,σ代表sigmoid激活函数,C2T代表下一节的通道-空间交互注意力模块,CFE代表通道特征提取模块,V*代表经过了通道-空间交互后的价值矩阵;
对交叉窗口注意力进行总结,具体为:
其中,head表示经过线性投射之后的多头注意力,K为投射的维度数,H/V-Attention分别代表水平方向和竖直方向的注意力。
进一步的,构建空间-通道双向交互模块,将所获取的空间特征信息和通道特征信息进行交互,得到融合后的特征,具体为:
所述空间-通道双向交互模块包括通道-空间交互模块和空间-通道交互模块;通道-空间交互模块由两组1×1深度卷积核、批归一化操作和ReLU非线性激活函数连续堆叠而成;具体地,通道特征提取模块得到通道数为C的输出,结果经过通道-空间交互模块之后通道维度依旧维持,基于非线性激活函数sigmoid将通道特征作为通道因子赋给交叉窗口注意力的价值矩阵的每一个通道维度,注意力模块的学习结果兼具空间特征和通道特征;所述通道特征提取模块为连续堆叠的深度可分离卷积;相对地,空间-通道交互模块将最终注意力机制学习到的空间特征作为特征因子传递给通道特征提取模块的结果;最后将双分支结构提取到的特征再进行特征相加得到融合后的特征。
进一步的,多尺度特征融合模块,具体为:所述空间特征和通道特征在特征图像内部的关系为完全解耦,采用跨越连接结构进行连接,所述跨越连接结构包括第一深度可分离卷积模块和第二深度可分离卷积模块;所述第一深度可分离卷积模块运用于相同阶段的编码器-解码器之间的提取特征;所述第二深度可分离卷积模块运用于跨阶段的编码器-解码器之间的特征提取;
将上一阶段编码器提取到的细粒度的特征与下一阶段编码器提取出的粗粒度的特征做融合,使得每一阶段中网络的bottleneck部分在利用第一深度可分离卷积模块做特征提取时的输入均包含了相邻阶段的多尺度、多粒度语义信息,当传递至最后一个阶段时,第一深度可分离卷积模块的输入包含所有的不同粒度的语义信息;
所述多尺度特征融合模块还包括:上采样融合模块;所述上采样融合模块的输入是经过第一深度可分离卷积模块提取的特征,上采样融合模块的输出通过双线性插值将特征图的空间尺寸与下一个阶段对齐,最后将当前特征与粗粒度的原始语义特征进行融合。
进一步的,第一深度可分离卷积模块和第二深度可分离卷积模块,具体为:
所述第一深度可分离卷积模块的逐深度卷积中的步长为1;输入的特征图像经过第一深度可分离卷积模块,输入和输出的通道数和空间维度不发生变化;所述第二深度可分离卷积模块的逐深度卷积中的步长置为2,输入的特征图像经过第二深度可分离卷积模块后通道数减半而空间维度扩大两倍。
进一步的,基于特征金字塔解码器对融合得到的特征进行解码,输出特征图像,具体为:所述特征金字塔解码器包含3×3的卷积核、分组归一化、ReLU激活函数以及2倍的双线性插值上采样;所述特征金字塔解码器的输入包括四个阶段;所述第四阶段输入是32倍下采样后的特征图,经过三次上采样获得所需特征图尺寸;第三阶段、第二阶段和第一阶段的下采样倍率分别是16、8和4,故上采样模块的数量依次减少至0,最终每一个阶段的解码器均产生一个1/4倍输入的特征图,对这四个输出进行按元素相加,并经过4倍上采样融合模块得到最终的特征图像。
基于混合注意力的滑坡解译语义分割系统,包括:
划分模块,所述划分模块获取山体滑坡数据集,并划分为训练集和测试集;
提取模块,所述提取模块基于交叉窗口注意力提取空间特征,基于连续堆叠的深度可分离卷积提取通道特征;
交互模块,所述交互模块将所获取的空间特征信息和通道特征信息进行交互,得到融合后的特征;
编码模块,所述编码模块基于多尺度融合模块将融合后的特征进行编码,获取当前阶段不同尺度和不同粒度的信息;并将当前阶段不同尺度和不同粒度的信息与其他阶段的特征进行特征融合;
解码模块,所述解码模块基于特征金字塔解码器对融合得到的特征进行解码,输出特征图像;
训练模块,所述训练模块基于训练集进行重复训练,获取最优化的语义分割模型;
识别模块,所述识别模块基于最优化的语义分割模型对测试集进行山体滑坡的区域识别,得到最终的语义分割结果。
一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述方法的步骤。
与现有技术相比,本发明具有以下有益效果:
本发明中混合注意力模块采用并行双分支结构,并采用空间-通道双向交互模块将两路提取到的不同的特征进行结合;使得模型能够同时学习到输入图像的空间特征和通道特征,从而更好对滑坡进行区域分割,能够在复杂地理环境依旧完整精准地识别山体滑坡发生的位置。
进一步的,本发明通过多尺度特征互偿模块将每个阶段编码器的输出经过一个深度可分离卷积作为细粒度特征融合到下一个阶段的粗粒度特征中,在输入解码器之前再使用一个上采样模块将粗粒度特征赋给下一个阶段的细粒度特征,最终使得每个阶段的特征都具有全局语义视野,不仅让模型每个阶段的解码器输入拥有小尺寸,粗粒度的语义信息,也得到了大尺寸细粒度的语义信息,模型有了更大的语义视野关注到长程依赖,对不同的地形有了更好的泛化性,在滑坡分割上的效果达到最好。
进一步的,本发明经过特征金字塔解码器之后最终的特征图不仅包含了粗粒度和细粒度的语义信息还包含了多尺度的全局信息,让该方法在山体滑坡的分割任务上有了更好的效果。
附图说明
为了更清楚的说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明的基于混合注意力的滑坡解译语义分割方法的一种流程示意图;
图2为本发明的基于混合注意力的滑坡解译语义分割系统的结构示意图;
图3是本发明的基于混合注意力的滑坡解译语义分割方法的另一种流程示意图;
图4是本发明的混合注意力的滑坡解译语义分割架构图;
图5是本发明的多尺度特征融合模块的一种结构图;
图6是本发明的深度可分离卷积结构示意图;
图7是本发明的多尺度特征融合模块的另一种结构图;
图8是本发明的用于在网络的bottleneck部分做特征提取以及融合的深度可分离卷积模块结构示意图;
图9是本发明的语义分割特征金字塔解码器模块结构示意图;
图10是本发明的常用基准方法和本发明提出方法所识别的山体滑坡区域对比图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
在本发明实施例的描述中,需要说明的是,若出现术语“上”、“下”、“水平”、“内”等指示的方位或位置关系为基于附图所示的方位或位置关系,或者是该发明产品使用时惯常摆放的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
此外,若出现术语“水平”,并不表示要求部件绝对水平,而是可以稍微倾斜。如“水平”仅仅是指其方向相对“竖直”而言更加水平,并不是表示该结构一定要完全水平,而是可以稍微倾斜。
在本发明实施例的描述中,还需要说明的是,除非另有明确的规定和限定,若出现术语“设置”、“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
下面结合附图对本发明做进一步详细描述:
参见图1,本发明公布了一种基于混合注意力的滑坡解译语义分割方法,包括:
S101:获取山体滑坡数据集,并划分为训练集和测试集。
训练集和测试集的划分比例为随机划分或以预设的比例进行划分;预设的比例为人为设定
S102:构建基于混合注意力的特征提取模块,基于交叉窗口注意力提取空间特征,基于连续堆叠的深度可分离卷积提取通道特征。
设计交叉窗口注意力提取空间特征得到一个分支的特征表示;深度可分离卷积提取通道特征;每一个混合注意力模块均包括层归一化、混合注意力、前馈神经网络和残差链接;其中,混合注意力模块为:
其中,Xl+1分别代表整个混合注意力模块的输出和前馈神经网络的输出;Hybrid表示输出融合通道特征和空间特征的函数,LN表示层归一化函数;
混合注意力中的交叉窗口注意力为:
V*=V×σ(C2(()))
其中,H-Attention代表水平方向的注意力,Q、K和V分别代表查询、键值和价值矩阵,σ代表sigmoid激活函数,C2T代表下一节的通道-空间交互注意力模块,CFE代表通道特征提取模块,V*代表经过了通道-空间交互后的价值矩阵;
对交叉窗口注意力进行总结,具体为:
其中,head表示经过线性投射之后的多头注意力,K为投射的维度数,H/V-Attention分别代表水平方向和竖直方向的注意力。
S103:构建空间-通道双向交互模块,将所获取的空间特征信息和通道特征信息进行交互,得到融合后的特征。
所述空间-通道双向交互模块包括通道-空间交互模块和空间-通道交互模块;通道-空间交互模块由两组1×1深度卷积核、批归一化操作和ReLU非线性激活函数连续堆叠而成;具体地,通道特征提取模块得到通道数为C的输出,结果经过通道-空间交互模块之后通道维度依旧维持,基于非线性激活函数sigmoid将通道特征作为通道因子赋给交叉窗口注意力的价值矩阵的每一个通道维度,注意力模块的学习结果兼具空间特征和通道特征;所述通道特征提取模块为连续堆叠的深度可分离卷积;相对地,空间-通道交互模块将最终注意力机制学习到的空间特征作为特征因子传递给通道特征提取模块的结果;最后将双分支结构提取到的特征再进行特征相加得到融合后的特征。
S104:基于多尺度融合模块将融合后的特征进行编码,获取当前阶段不同尺度和不同粒度的信息;并将当前阶段不同尺度和不同粒度的信息与其他阶段的特征进行特征融合。
多尺度特征融合模块,具体为:所述空间特征和通道特征在特征图像内部的关系为完全解耦,采用跨越连接结构进行连接,所述跨越连接结构包括第一深度可分离卷积模块和第二深度可分离卷积模块;所述第一深度可分离卷积模块运用于相同阶段的编码器-解码器之间的提取特征;所述第二深度可分离卷积模块运用于跨阶段的编码器-解码器之间的特征提取;
将上一阶段编码器提取到的细粒度的特征与下一阶段编码器提取出的粗粒度的特征做融合,使得每一阶段中网络的bottleneck部分在利用第一深度可分离卷积模块做特征提取时的输入均包含了相邻阶段的多尺度、多粒度语义信息,当传递至最后一个阶段时,第一深度可分离卷积模块的输入包含所有的不同粒度的语义信息;
多尺度特征融合模块还包括:上采样融合模块;所述上采样融合模块的输入是经过第一深度可分离卷积模块提取的特征,上采样融合模块的输出通过双线性插值将特征图的空间尺寸与下一个阶段对齐,最后将当前特征与粗粒度的原始语义特征进行融合。第一深度可分离卷积模块的逐深度卷积中的步长为1;输入的特征图像经过第一深度可分离卷积模块,输入和输出的通道数和空间维度不发生变化;第二深度可分离卷积模块的逐深度卷积中的步长置为2,输入的特征图像经过第二深度可分离卷积模块后通道数减半而空间维度扩大两倍。
S105:基于特征金字塔解码器对融合得到的特征进行解码,输出特征图像。
特征金字塔解码器包含3×3的卷积核、分组归一化、ReLU激活函数以及2倍的双线性插值上采样;所述特征金字塔解码器的输入包括四个阶段;所述第四阶段输入是32倍下采样后的特征图,经过三次上采样获得所需特征图尺寸;第三阶段、第二阶段和第一阶段的下采样倍率分别是16、8和4,故上采样模块的数量依次减少至0,最终每一个阶段的解码器均产生一个1/4倍输入的特征图,对这四个输出进行按元素相加,并经过4倍上采样融合模块得到最终的特征图像。
S106:基于训练集对S102至S105进行重复训练,获取最优化的语义分割模型。
S107:基于最优化的语义分割模型对测试集进行山体滑坡的区域识别,得到最终的语义分割结果。
参见图2,本发明公布了一种基于混合注意力的滑坡解译语义分割系统,包括:
划分模块,所述划分模块获取山体滑坡数据集,并划分为训练集和测试集;
提取模块,所述提取模块基于交叉窗口注意力提取空间特征,基于连续堆叠的深度可分离卷积提取通道特征;
交互模块,所述交互模块将所获取的空间特征信息和通道特征信息进行交互,得到融合后的特征;
编码模块,所述编码模块基于多尺度融合模块将融合后的特征进行编码,获取当前阶段不同尺度和不同粒度的信息;并将当前阶段不同尺度和不同粒度的信息与其他阶段的特征进行特征融合;
解码模块,所述解码模块基于特征金字塔解码器对融合得到的特征进行解码,输出特征图像;
训练模块,所述训练模块基于训练集进行重复训练,获取最优化的语义分割模型;
识别模块,所述识别模块基于最优化的语义分割模型对测试集进行山体滑坡的区域识别,得到最终的语义分割结果。
参见图3和图4,本发明实施例提供的一种基于混合注意力机制的山体滑坡语义分割方法,包括以下步骤:
步骤S1:获取山体滑坡数据集,并将其按比例划分为训练集和测试集;所述训练集用于模型的训练,所述测试集用于对完成训练的模型进行测试。上述的数据集划分可以是随机划分,也可以是按照预设的比例进行划分,本实施例不做限定。
步骤S2:采用交叉窗口注意力提取空间特征,得到一个分支的特征表示;通过深度可分离卷积提取通道特征;每一个混合注意力模块都由层归一化,混合注意力,前馈神经网络和残差链接构成。其中,混合注意力模块的过程表示为:
其中和Xl+1分别代表整个混合注意力模块的输出和前馈神经网络的输出。Hybrid表示融合通道特征和空间特征的函数,LN表示层归一化函数。
混合注意力中的交叉窗口注意力表示为:
V*=V×σ(C2(()))
其中,H-Attention代表水平方向的注意力,Q、K和V分别代表查询、键值和价值矩阵,σ代表sigmoid激活函数,C2T代表下一节的通道-空间交互注意力模块,CFE代表左分支的通道特征提取模块,V*代表经过了通道-空间交互后的价值矩阵。
参见图5,对交叉窗口注意力进行总结表示为:
其中,head表示经过线性投射之后的多头注意力,K就是投射的维度数,H/V-Attention分别代表水平方向和竖直方向的注意力。
步骤S3:通道-空间交互模块由两组1×1深度卷积核,批归一化操作(BN)和ReLU非线性激活函数连续堆叠而成。参见图6和图7,具体地,通道特征提取模块得到通道数为C的输出,结果经过通道-空间交互模块之后通道维度依旧维持,然后使用一个非线性激活函数sigmoid将通道特征作为通道因子赋给交叉窗口注意力的价值矩阵的每一个通道维度,也就是说每一个维度相乘的二维矩阵都是不同的,最终注意力模块的学习结果就是兼具空间特征和通道特征的,后面的消融实验证明这个方法是简单且有效的。
相对地,空间-通道交互模块的目的是将最终注意力机制学习到的空间维度特征作为特征因子传递给通道特征提取模块的结果。最后将双分支结构提取到的特征再进行特征相加得到融合后的特征。
步骤S4:将编码器部分得到的特征在模型的bottleneck部分使用了多尺度特征融合模块做进一步的特征表达优化,多尺度特征融合模块包括以下步骤:
其中,代表模型在第i阶段的bottleneck部分的输出,同时也是第i阶段的解码器的输入。图8为第一深度可分离卷积模块DWSC和第二深度可分离卷积模块DWSC*的结构,分别表示相同阶段之间的深度可分离卷积模块和相邻阶段之间的深度可分离卷积模块,总体而言每个深度可分离卷积模块都由一个逐通道卷积、批归一化、ReLU、逐点卷积、批归一化和ReLU激活函数组成,它们的主要区别是卷积步长为1和2。显然/>的输入由两部分构成,第一部分来自当前阶段的编码器输出结果,另一部分来自于上一个阶段的编码器输出经过一个步长为2的深度可分离卷积。
图9为本发明在模型的解码器部分使用的语义分割金字塔模块,图中最左侧的图片分别代表四个不同阶段最后的解码器输入,图中的分数代表编码器的下采样倍率。
步骤S5:每个阶段各采用了一个语义分割金字塔解码器模块。每一个解码器中包含以3×3的卷积核,分组归一化,ReLU激活函数以及2倍的双线性插值上采样组成的模块,第四阶段最终的输入是32倍下采样后的特征图,需要经过三次上采样才可以获得所需特征图尺寸。第3,2,1阶段的下采样倍率分别是16,8,4,故上采样模块的数量依次减少至0,最终每一个阶段的解码器都会产生一个1/4倍输入的特征图,对这四个输出做一次按元素相加的操作后在经过一个4倍上采样模块得到最终的特征图输出。
对于该结构来说,不管是参数量还是运算量都比传统的U形结构解码器和普通的FPN结构要轻量化的多。由于解码器的输入是由相同阶段的编码器输出经过DWSC特征提取后的输出和上一个阶段较粗粒度的原始语义信息两部分融合而来,所以经过特征金字塔解码器之后最终的特征图不仅包含了粗粒度和细粒度的语义信息还包含了多尺度的全局信息,让该方法在山体滑坡的分割任务上有了更好的效果。
步骤S6:按照基于批处理的随机梯度下降方法,采用所述训练集来训练山体滑坡语义分割模型。
步骤S7:采用完成训练的模型,对所述山体滑坡测试集进行语义分割,得到山体滑坡区域识别结果。
本发明在山体滑坡数据集上进行了充足且全面的测试,实验结果表明本发明显著提高了模型的山体滑坡区域识别能力。
如表1:在山体滑坡脸数据集上的Precision,Recall,F1-score,mACC,mIoU数值表示比较表所示。本发明山体滑坡数据集上与其他基准方法进行Precision,Recall,F1-score,mACC,mIoU数值的比较。比较的基准方法包括DPT,Twins-svt,Segformer,SWin-Transformer和CSWin-Transformer。由表1的定量结果可以看出,采用本发明的双通路人脸图超分辨率重建模型DPMF Net的三项指标均明显高于其他方法。
表1:在山体滑坡脸数据集上的Precision,Recall,F1-score,mACC,mIoU数值表示比较表所示
参见图10,图10展示了上述基准方法和本发明提出的基于混合注意力机制的山体滑坡语义分割模型HA-Net所识别的山体滑坡区域。由图9可以看出,采用本发明提出的基于混合注意力机制的山体滑坡语义分割模型HA-Net在各类不同的地理环境下不同规模的山体滑坡都有非常好的分割效果,边缘清晰,识别准确。
本发明一实施例提供的终端设备。该实施例的终端设备包括:处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序。所述处理器执行所述计算机程序时实现上述各个方法实施例中的步骤。或者,所述处理器执行所述计算机程序时实现上述各装置实施例中各模块/单元的功能。
所述计算机程序可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器中,并由所述处理器执行,以完成本发明。
所述终端设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端设备可包括,但不仅限于,处理器、存储器。
所述处理器可以是中央处理单元(CentralProcessingUnit,CPU),还可以是其他通用处理器、数字信号处理器(DigitalSignalProcessor,DSP)、专用集成电路(ApplicationSpecificIntegratedCircuit,ASIC)、现成可编程门阵列(Field-ProgrammableGateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。
所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现所述终端设备的各种功能。
所述终端设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,RandomAccessMemory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.基于混合注意力的滑坡解译语义分割方法,其特征在于,包括:
步骤1:获取山体滑坡数据集,并划分为训练集和测试集;
步骤2:构建基于混合注意力的特征提取模块,基于交叉窗口注意力提取空间特征,基于连续堆叠的深度可分离卷积提取通道特征;
步骤3:构建空间-通道双向交互模块,将所获取的空间特征信息和通道特征信息进行交互,得到融合后的特征;
步骤4:基于多尺度融合模块将融合后的特征进行编码,获取当前阶段不同尺度和不同粒度的信息;并将当前阶段不同尺度和不同粒度的信息与其他阶段的特征进行特征融合;
步骤5:基于特征金字塔解码器对融合得到的特征进行解码,输出特征图像;
步骤6:基于训练集对步骤2至步骤5进行重复训练,获取最优化的语义分割模型;
步骤7:基于最优化的语义分割模型对测试集进行山体滑坡的区域识别,得到最终的语义分割结果。
2.根据权利要求1所述的基于混合注意力的滑坡解译语义分割方法,其特征在于,所述训练集和测试集的划分比例为随机划分或以预设的比例进行划分;所述预设的比例为人为设定。
3.根据权利要求2所述的基于混合注意力的滑坡解译语义分割方法,其特征在于,所述构建混合注意力模块,基于交叉窗口注意力提取空间特征,基于连续堆叠的深度可分离卷积提取通道特征,具体为:
设计交叉窗口注意力提取空间特征得到一个分支的特征表示;深度可分离卷积提取通道特征;每一个混合注意力模块均包括层归一化、混合注意力、前馈神经网络和残差链接;其中,混合注意力模块为:
其中,Xl+1分别代表整个混合注意力模块的输出和前馈神经网络的输出;Hybrid表示输出融合通道特征和空间特征的函数,LN表示层归一化函数;
混合注意力中的交叉窗口注意力为:
V*=V×σ(C2T(CFE(X)))
其中,H-Attention代表水平方向的注意力,Q、K和V分别代表查询、键值和价值矩阵,σ代表sigmoid激活函数,C2T代表下一节的通道-空间交互注意力模块,CFE代表通道特征提取模块,V*代表经过了通道-空间交互后的价值矩阵;
对交叉窗口注意力进行总结,具体为:
其中,head表示经过线性投射之后的多头注意力,K为投射的维度数,H/V-Attention分别代表水平方向和竖直方向的注意力。
4.根据权利要求3所述的基于混合注意力的滑坡解译语义分割方法,其特征在于,所述构建空间-通道双向交互模块,将所获取的空间特征信息和通道特征信息进行交互,得到融合后的特征,具体为:
所述空间-通道双向交互模块包括通道-空间交互模块和空间-通道交互模块;通道-空间交互模块由两组1×1深度卷积核、批归一化操作和ReLU非线性激活函数连续堆叠而成;具体地,通道特征提取模块得到通道数为C的输出,结果经过通道-空间交互模块之后通道维度依旧维持,基于非线性激活函数sigmoid将通道特征作为通道因子赋给交叉窗口注意力的价值矩阵的每一个通道维度,注意力模块的学习结果兼具空间特征和通道特征;所述通道特征提取模块为连续堆叠的深度可分离卷积;相对地,空间-通道交互模块将最终注意力机制学习到的空间特征作为特征因子传递给通道特征提取模块的结果;最后将双分支结构提取到的特征再进行特征相加得到融合后的特征。
5.根据权利要求4所述的基于混合注意力的滑坡解译语义分割方法,其特征在于,所述多尺度特征融合模块,具体为:所述空间特征和通道特征在特征图像内部的关系为完全解耦,采用跨越连接结构进行连接,所述跨越连接结构包括第一深度可分离卷积模块和第二深度可分离卷积模块;所述第一深度可分离卷积模块运用于相同阶段的编码器-解码器之间的提取特征;所述第二深度可分离卷积模块运用于跨阶段的编码器-解码器之间的特征提取;
将上一阶段编码器提取到的细粒度的特征与下一阶段编码器提取出的粗粒度的特征做融合,使得每一阶段中网络的bottleneck部分在利用第一深度可分离卷积模块做特征提取时的输入均包含了相邻阶段的多尺度、多粒度语义信息,当传递至最后一个阶段时,第一深度可分离卷积模块的输入包含所有的不同粒度的语义信息;
所述多尺度特征融合模块还包括:上采样融合模块;所述上采样融合模块的输入是经过第一深度可分离卷积模块提取的特征,上采样融合模块的输出通过双线性插值将特征图的空间尺寸与下一个阶段对齐,最后将当前特征与粗粒度的原始语义特征进行融合。
6.根据权利要求5所述的基于混合注意力的滑坡解译语义分割方法,其特征在于,所述第一深度可分离卷积模块和第二深度可分离卷积模块,具体为:
所述第一深度可分离卷积模块的逐深度卷积中的步长为1;输入的特征图像经过第一深度可分离卷积模块,输入和输出的通道数和空间维度不发生变化;所述第二深度可分离卷积模块的逐深度卷积中的步长置为2,输入的特征图像经过第二深度可分离卷积模块后通道数减半而空间维度扩大两倍。
7.根据权利要求6所述的基于混合注意力的滑坡解译语义分割方法,其特征在于,所述基于特征金字塔解码器对融合得到的特征进行解码,输出特征图像,具体为:所述特征金字塔解码器包含3×3的卷积核、分组归一化、ReLU激活函数以及2倍的双线性插值上采样;所述特征金字塔解码器的输入包括四个阶段;所述第四阶段输入是32倍下采样后的特征图,经过三次上采样获得所需特征图尺寸;第三阶段、第二阶段和第一阶段的下采样倍率分别是16、8和4,故上采样模块的数量依次减少至0,最终每一个阶段的解码器均产生一个1/4倍输入的特征图,对这四个输出进行按元素相加,并经过4倍上采样融合模块得到最终的特征图像。
8.基于混合注意力的滑坡解译语义分割系统,其特征在于,包括:
划分模块,所述划分模块获取山体滑坡数据集,并划分为训练集和测试集;
提取模块,所述提取模块基于交叉窗口注意力提取空间特征,基于连续堆叠的深度可分离卷积提取通道特征;
交互模块,所述交互模块将所获取的空间特征信息和通道特征信息进行交互,得到融合后的特征;
编码模块,所述编码模块基于多尺度融合模块将融合后的特征进行编码,获取当前阶段不同尺度和不同粒度的信息;并将当前阶段不同尺度和不同粒度的信息与其他阶段的特征进行特征融合;
解码模块,所述解码模块基于特征金字塔解码器对融合得到的特征进行解码,输出特征图像;
训练模块,所述训练模块基于训练集进行重复训练,获取最优化的语义分割模型;
识别模块,所述识别模块基于最优化的语义分割模型对测试集进行山体滑坡的区域识别,得到最终的语义分割结果。
9.一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1-7任一项所述方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-7任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310612783.8A CN116563550A (zh) | 2023-05-26 | 2023-05-26 | 基于混合注意力的滑坡解译语义分割方法、系统、装置及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310612783.8A CN116563550A (zh) | 2023-05-26 | 2023-05-26 | 基于混合注意力的滑坡解译语义分割方法、系统、装置及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116563550A true CN116563550A (zh) | 2023-08-08 |
Family
ID=87486087
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310612783.8A Pending CN116563550A (zh) | 2023-05-26 | 2023-05-26 | 基于混合注意力的滑坡解译语义分割方法、系统、装置及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116563550A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117113063A (zh) * | 2023-10-19 | 2023-11-24 | 北京齐碳科技有限公司 | 用于纳米孔信号的编码器、解码器、编解码系统和方法 |
CN118014844A (zh) * | 2024-04-09 | 2024-05-10 | 临沂大学 | 一种结合超分辨率技术的遥感图像语义分割方法 |
-
2023
- 2023-05-26 CN CN202310612783.8A patent/CN116563550A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117113063A (zh) * | 2023-10-19 | 2023-11-24 | 北京齐碳科技有限公司 | 用于纳米孔信号的编码器、解码器、编解码系统和方法 |
CN117113063B (zh) * | 2023-10-19 | 2024-02-02 | 北京齐碳科技有限公司 | 用于纳米孔信号的编解码系统 |
CN118014844A (zh) * | 2024-04-09 | 2024-05-10 | 临沂大学 | 一种结合超分辨率技术的遥感图像语义分割方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111104962B (zh) | 图像的语义分割方法、装置、电子设备及可读存储介质 | |
KR101865102B1 (ko) | 시각 문답을 위한 시스템 및 방법 | |
CN110706302B (zh) | 一种文本合成图像的系统及方法 | |
CN111369440B (zh) | 模型训练、图像超分辨处理方法、装置、终端及存储介质 | |
WO2022017025A1 (zh) | 图像处理方法、装置、存储介质以及电子设备 | |
CN110782395B (zh) | 图像处理方法及装置、电子设备和计算机可读存储介质 | |
CN116563550A (zh) | 基于混合注意力的滑坡解译语义分割方法、系统、装置及介质 | |
Wang et al. | A review of image super-resolution approaches based on deep learning and applications in remote sensing | |
CN113159143B (zh) | 基于跳跃连接卷积层的红外与可见光图像融合方法和装置 | |
CN109711409A (zh) | 一种结合U-net和ResNet的手写乐谱谱线删除方法 | |
CN111652059B (zh) | 基于计算鬼成像的目标识别模型构建、识别方法及装置 | |
CN114612902A (zh) | 图像语义分割方法、装置、设备、存储介质及程序产品 | |
Xia et al. | Building change detection based on an edge-guided convolutional neural network combined with a transformer | |
CN113392791A (zh) | 一种皮肤预测处理方法、装置、设备及存储介质 | |
CN115171052A (zh) | 基于高分辨率上下文网络的拥挤人群姿态估计方法 | |
CN114119627B (zh) | 基于深度学习的高温合金微观组织图像分割方法及装置 | |
CN116912268A (zh) | 一种皮肤病变图像分割方法、装置、设备及存储介质 | |
Qi et al. | JAED-Net: joint attention encoder–decoder network for road extraction from remote sensing images | |
Zhang et al. | Single image super-resolution reconstruction with preservation of structure and texture details | |
Liao et al. | Low-cost image compressive sensing with multiple measurement rates for object detection | |
CN115223181A (zh) | 基于文本检测的报告材料印章文字识别方法和装置 | |
CN113496228A (zh) | 一种基于Res2Net、TransUNet和协同注意力的人体语义分割方法 | |
CN114781393A (zh) | 图像描述生成方法和装置、电子设备及存储介质 | |
Chen et al. | An Enhanced Steganography Network for Concealing and Protecting Secret Image Data | |
Chen et al. | DTT-CGINet: A dual temporal transformer network with multi-scale contour-guided graph interaction for change detection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |