CN114550014A - 道路分割方法及计算机装置 - Google Patents
道路分割方法及计算机装置 Download PDFInfo
- Publication number
- CN114550014A CN114550014A CN202210174578.3A CN202210174578A CN114550014A CN 114550014 A CN114550014 A CN 114550014A CN 202210174578 A CN202210174578 A CN 202210174578A CN 114550014 A CN114550014 A CN 114550014A
- Authority
- CN
- China
- Prior art keywords
- module
- output
- road
- attention
- residual error
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 30
- 230000011218 segmentation Effects 0.000 title claims abstract description 24
- 238000000605 extraction Methods 0.000 claims abstract description 52
- 238000012549 training Methods 0.000 claims abstract description 23
- 230000002776 aggregation Effects 0.000 claims description 32
- 238000004220 aggregation Methods 0.000 claims description 32
- 230000009977 dual effect Effects 0.000 claims description 27
- 239000013598 vector Substances 0.000 claims description 26
- 238000011176 pooling Methods 0.000 claims description 24
- 238000005070 sampling Methods 0.000 claims description 22
- 238000012545 processing Methods 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 4
- 230000006870 function Effects 0.000 description 18
- 238000010586 diagram Methods 0.000 description 13
- 230000004927 fusion Effects 0.000 description 9
- 239000011159 matrix material Substances 0.000 description 9
- 230000009286 beneficial effect Effects 0.000 description 6
- 238000012360 testing method Methods 0.000 description 6
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000007726 management method Methods 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 230000003213 activating effect Effects 0.000 description 2
- 230000004913 activation Effects 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000003909 pattern recognition Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000011056 performance test Methods 0.000 description 1
- 230000005180 public health Effects 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000004379 similarity theory Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 230000017105 transposition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种道路分割方法及计算机装置,从无人机航拍高分辨率道路数据集获取N张图像,利用所述N张图像获取训练集;利用所述训练集训练道路提取模型,得到训练后的道路提取模型;将待测试图像输入所述训练后的道路提取模型,得到道路提取结果。本发明提出了双注意力的残差学习模块,在自适应调节感受野之外兼顾了全局信息的提取,能够更准确的捕捉道路拓扑结构特征,获得更拟合目标的感受野,提升了道路提取的连贯性。
Description
技术领域
本发明涉及计算机视觉领域,特别是一种道路分割方法及计算机装置。
背景技术
道路信息在应急响应、智慧城市、城市可持续扩展、车辆管理、城市规划、交通导航、公共健康,无人机导航、灾害管理、农业发展,以及无人驾驶车路径规划和交通管理等多个领域扮演着基础性的角色。光学遥感、倾斜摄影正射影像等数据,不仅具有宏观性、多源性、真实性、海量性等一系列优点,而且能够以较高的空间分辨率对目标地物进行精细化解译,其提取的目标信息具有严格的地理坐标转换关系,可为不同行业用户提供统一的表达模式。
目前道路提取传统手段主要采用模板匹配、知识驱动、面向对象等方法,王文峰(基于局部方向编码的遥感影像平行边缘识别.光学学报.2012,32(3):0315001)等利用道路平行边缘的特点,提出了交叉点共线约束的8邻域边界追踪算法和9像素滑动窗口内直线检测算法,但该方法对道路边缘模糊、遮挡等问题敏感,Schubert(Efficient computationof greyscale path openings.Mathematical Morphology Theory and Applications,2016,1(1):189-202)等根据道路的几何特征,利用路径形态学提取影像中长而窄的结构,但受到遮挡(树木)、相似纹理(房屋)等干扰时,会出现道路错提、漏提问题。
随着深度学习的崛起,众多优秀的网络模型被相继提出,如Unet、PSPNet、DeeplabV3等,而这些网络也被广泛应用于道路提取中,其通过encoder阶段(编码器阶段)对图像进行特征提取,再在decoder阶段(解码器阶段)上采样和叠加细节特征来恢复原始大小进行分类,由于空间信息的保留,道路轮廓分割结果边缘抗干扰性较高,边缘更细致化,但是受建筑物阴影、绿化带遮挡时其容易出现误识别,道路提取结果连通性不足。
专利申请CN113888550A《一种结合超分辨率和注意力机制的遥感图像道路分割方法》以语义分割Unet网络为基础结合注意力机制,实现了城市遥感图像道路的准确提取,但该方法存在以下缺陷:(1)并未针对道路特有的形态特征设计网络结构,对于一些农村非常规道路,可能出现无法识别的问题;(2)其注意力机制只考虑了空间层面的特征融合,未考虑通道层面的融合,同时其模型结构不具备扩张感受野的能力,无法有效识别树木遮挡场景下的道路。
发明内容
本发明所要解决的技术问题是,针对现有技术不足,提供一种道路分割方法及计算机装置,更准确的捕捉道路拓扑结构特征。
为解决上述技术问题,本发明所采用的技术方案是:一种道路分割方法,包括以下步骤:
S1、从无人机航拍高分辨率道路数据集获取N张图像,利用所述N张图像获取训练集;
S2、利用所述训练集训练道路提取模型,得到训练后的道路提取模型;
所述道路提取模型包括:
特征提取层,用于对所述训练集中的图像进行降采样操作;
至少一个双注意力残差模块,包括至少一个残差单元,所述残差单元用于对输入进行包括如下步骤的操作:
对所述特征提取层的输出进行卷积操作,得到特征向量F1;
将所述特征向量F1输入通道注意力模块,并将所述通道注意力模块的输出与所述特征向量F1相乘,得到第一输出结果;
将所述第一输出结果输入空间注意力模块,并将所述空间注意力模块的输出与所述第一输出结果相乘,得到第二输出结果;
拼接所述特征向量F1与所述第二输出结果,得到第三输出结果;
上采样重建模块,用于对所述第三结果进行上采样操作,得到最终输出结果;
S3、将待测试图像输入所述训练后的道路提取模型,得到道路提取结果。
本发明构建了双注意力残差模块,在自适应调节感受野之外兼顾了全局信息的提取,能够更准确地捕捉道路拓扑结构特征,获得更拟合目标的感受野,提升了道路提取的连贯性和准确性,可以识别各种环境下的道路,解决了建筑物阴影和树木遮挡的干扰造成的道路无法识别问题。
所述双注意力残差模块数量为两个,其中第一个双注意力残差模块的输出经池化层后输入第二个双注意力残差模块,且两个所述双注意力残差模块的输出拼接后的结果为所述上采样重建模块的输入。两个双注意力残差模块串联有利于图像深层特征提取,拼接两个所述双注意力残差模块的输出有助于多层次特征信息融合,提升道路分割精度。
所述双注意力残差模块数量为三个,其中第一个双注意力残差模块的输出经池化层后输入第二个双注意力残差模块,第二个双注意力残差模块的输出经池化层后输入第三个双注意力残差模块,且三个所述双注意力残差模块的输出拼接后的结果为所述上采样重建模块的输入。三个双注意力残差模块串联有利于进一步提取图像高层语义信息,拼接三个所述双注意力残差模块的输出有助于多尺度特征信息融合,提升道路分割精度。
每个所述双注意力残差模块与一个全局金字塔聚合模块连接。全局金字塔聚合模块扩展感受野并融合上下文语义信息,保障了图像全局信息的融合,降低图像信息损失。
本发明中,所有金字塔聚合模块的输出拼接后得到的拼接结果输入所述上采样重建模块。该结构有利于整合图像多尺度全局信息,为上采样层提供丰富的语义信息,提高道路的分割精度。
或者,第n个金字塔聚合模块的输出经第一上采样层后与第n-1个金字塔聚合模块的输出拼接,得到的第一拼接结果输入第二上采样层,第二上采样层的输出与第n-2个金字塔采样模块的输出拼接后,得到的第二拼接结果输入第三上采样层,依此类推;其中,n为最后一个金字塔聚合模块,n≥3。该结构实现了图像多尺度特征的高效融合、局部信息与全局信息的深度关联,降低了图像上采样过程中的图像信息损失,有助于图像的精确分割。
本发明的道路提取模型还包括非局部注意力聚合模块,所述非局部注意力聚合模块的输入为所述双注意力残差模块的输出经池化层操作后的结果;所述非局部注意力聚合模块的输出与上一处理层的输出拼接后输入所述上采样重建模块;其中,所述上一处理层为最后一个双注意力残差模块,或者最后一个金字塔聚合模块。该结构整合图像多个维度方向的信息,专注捕获目标感兴趣特征,剔除冗余特征,降低模型参数量,提高了道路形状分割精度。
所述非局部注意力聚合模块与池化层之间还设有可变形卷积网络。所述可变形卷积网络可以较好的适应图像中目标的多种尺寸形状,使得提取到的特征更丰富更加集中于目标本身。
所述双注意力残差模块包括多个串联的残差单元,其中第一个残差单元的输入为所述特征提取层的输出;第二个残差单元的输入为所述第一个残差单元的输出,依此类推。多个残差单元的串联有利于提取到更深层的图像特征,有助于网络理解图像语义信息。
当所述双注意力残差模块个数为多个时,每个所述双注意力残差模块中残差单元的数量不同。多个具有不同数量残差单元的双注意力残差模块串联可实现对不同层次阶段的特征进行多维度融合,有利于图像深度语义信息的获取。
本发明还提供了一种计算机装置,包括存储器、处理器及存储在存储器上的计算机程序;所述处理器执行所述计算机程序,以实现本发明所述方法的步骤。
与现有技术相比,本发明所具有的有益效果为:
(1)本发明提出了双注意力的残差学习模块,结合可变形卷积网络,在自适应调节感受野之外兼顾了多维度信息的提取,能够更准确的捕捉道路拓扑结构特征,获得更拟合目标的感受野,提升了道路提取的连贯性;
(2)本发明采用了全局金字塔聚合模块与非局部注意力结构,通过扩展模型感受野并融合上下文语义信息,降低图像在上采样过程中的信息损失,使模型具有拓扑结构自推理能力,解决了建筑物阴影和树木遮挡的干扰造成的无法识别问题。
附图说明
图1为本发明实施例1道路提取模型结构原理图;
图2为本发明实施例1双注意力残差模块结构原理图;
图3为本发明实施例1通道注意力模块结构原理图;
图4为本发明实施例1空间注意力模块结构原理图;
图5为本发明实施例1残差块结构原理图;
图6为本发明实施例1可变形卷积层结构原理图;
图7为本发明实施例1可变形池化层结构原理图;
图8为本发明实施例1全局金字塔聚合模块结构原理图;
图9为本发明实施例1非局部注意力聚合模块结构原理图;
图10为本发明实施例2道路提取模型结构原理图;
图11为本发明实施例3道路提取模型结构原理图;
图12为本发明实施例4道路提取模型结构原理图;
图13(a)~图13(c)为本发明实施例1方案对应的道路连贯性实验结果图;图13(a)为原始图像;13(b)为本发明方法对应的提取结果;13(c)为deeplabV3方法对应的提取结果;
图14(a)~图14(c)为本发明实施例1方案对应的道路连贯性实验结果图;图14(a)为原始图像;14(b)为本发明方法对应的提取结果;14(c)为deeplabV3方法对应的提取结果;
具体实施方式
如图1所示,本发明实施例1中,道路提取的具体实现过程包括:
S1、从无人机航拍高分辨率道路数据集获取N张图像,将其拆分为训练集和验证集,并将拍摄到的道路数据作为测试集,对训练集进行归一化与数据增强;
S2、构建具有目标约束变形卷积与双注意力机制残差块的道路提取模型,主要包括五个部分:双注意力残差模块、可变形卷积网络、非局部注意力聚合模块、全局金字塔聚合模块、上采样重建模块(Decoder block);
S3、基于构建的目标约束变形卷积与双注意力机制的道路提取模型(如图1所示),在(1)中所准备的训练集上进行训练,优化模型参数、直至网络收敛,验证集用于每个训练周期结束时的模型性能测试,优化超参数。
S4、基于(3)所训练的模型,对测试集进行预测,获取道路提取结果。
进一步的,S1的具体实现包括以下步骤:
S1.1选择DeepGlobe数据集,挑选分辨率为1024×1024,带有标签的5000张道路图像数据;
S1.2根据通常数据集划分标准按4:1将S1.1所得数据划分为训练集和验证集
S1.3将S1.2中的训练集进行归一化处理,并利用水平旋转、随机翻转进行数据增强。
进一步的,s2的具体实现包括以下步骤:
S2.1特征提取层采用Conv7X7,stride=2,其输入为S1.1中数据集图像,对数据集图像进行降采样,降低图像空间复杂度。
S2.2双注意力残差模块,其输入为S2.1特征提取层输出,残差单元中的残差块(Res-block)中有两个3X3卷积层,(如图5所示,He,Kaiming."Deep residual learningfor image recognition."Proceedings of the IEEE conference on computer visionand pattern recognition.2016.),每个卷积后采用ReLU函数(对应图5中的)作为激活函数,残差块的输入端与输出端利用残差连接实现特征融合,其后接双注意力结构(CBAM,即通道注意力模块和空间注意力模块串联),双注意力残差模块的输入端和输出端之间采用残差连接(skip-connect,或skip connection),该部分表达式如下:
xl+1=xl+F(Fl,Wl)
其中xl+1为输出的图像特征图,xl为输入的图像特征图,F(xl,Wl)是残差部分。
双注意力残差模块将通道注意力模块(如图3所示,Hu J,Shen L,Sun G.Squeeze-and-excitation networks[C]//Proceedings of the IEEE conference on computervision and pattern recognition.2018:7132-7141)和空间注意力模块(如图4所示,Jaderberg M,Simonyan K,Zisserman A.Spatial transformer networks[J].Advancesin neural information processing systems,2015,28.)进行串联,其中通道注意力模块输入为步骤S2.2中第二个3X3卷积输出的特征向量F1,将特征向量F1分别经过全局最大池化和全局平均池化得到Fmax和Favg两个特征向量,将Fmax和Favg两个特征向量通过MLP层进行全局特征提取获得F`max和F`avg,将F`max和F`avg相加,经过sigmoid函数激活操作,生成最终的通道注意力权重FMC。将该通道注意力权重和特征向量F1做乘法操作,获得特征向量F2。
FMC=σ(MLP(AvgPool(F1))+MLP(MaxPool(F1)))
=σ(W1(W0(Favg))+W1(W0(Fmax)))
其中F1表示输入的特征向量,Favg和Fmax分别表示经过全局最大池化和全局平均池化得到的两个特征向量,MLP是多层感知机,W1和W0代表的是多层感知机模型中的两层参数,σ表示sigmoid激活函数,FMC表示生成的最终的通道注意力权重。
空间注意力模块输入为特征向量F2,将特征向量F2分别经过全局最大池化和全局平均池化得到特征向量Fmax2和Favg2,将Fmax2和Favg2通过Conv7x7的卷积层进行全局特征提取获得F、,经过sigmoid函数(对应图3和图4中的)激活操作,生成最终的空间注意力权重FMs,FMs与特征向量F2通过矩阵乘法的结果与双注意力残差模块的输入进行拼接操作,获得输出特征向量F3。
FMs=σ(f7×7([AvgPool(F2);MaxOool(F2)]))
=σ(f7×7([Favg2;Fmax2]))
其中σ为sigmoid操作,f7×7代表卷积核为7×7的卷积,Favg2和Fmax2分别代表经过全局最大池化和全局平均池化得到的特征向量。
3个双注意力残差模块(图1中的Res-block(with CBAM))以串联形式依次连接,图1中,3*Res-block(with CBAM)表示3个残差单元串联,4*Res-block(with CBAM)表示4个残差单元串联,6*表示6个残差单元串联。双注意力残差模块的结构见图2。第3个双注意力残差模块后接可变形卷积网络(DCNv2,见图6,Dai J,Qi H,Xiong Y,et al.Deformableconvolutional networks[C]//Proceedings of the IEEE international conferenceon computer vision.2017:764-773.),该可变形卷积网络包含可变形卷积层与可变形池化层,可变形卷积层设置为两个分支,第一个分支增加额外的卷积层来学习偏置,第二个分支卷积核先基于偏置进行插值操作,然后与输入特征进行常规卷积操作,获得输出特征:
其中,P0代表输入特征上的一点,Pn代表第n个位置,w是卷积运算函数,x为输入特征,ΔPn为偏移量。
上述可变形卷积层输出通过可变形池化层(见图7)进行下采样处理,该可变形池化层设置为两个分支,第一个分支通过常规池化操作获得局部特征向量,利用全连接层(fc)来学习偏置,第二个分支先基于偏置进行插值操作,然后与输入特征进行常规池化操作,获得输出特征:
其中,P0代表输入特征上的一点,Pn代表每个位置,x为输入特征,ΔPn为偏移量,nij为池化的尺寸。
S2.3全局金字塔聚合模块如图8所示,对于多个分支的输入,先用1x1卷积层使各输入特征向量通道数相同,再上采样得到相同的尺寸,而后拼接个分支的输出,再经过具有不同膨胀系数的可分离膨胀卷积,此处膨胀系数设置为1、2、4,获取不同感受野的各层融合信息,最后通过3×3卷积层得到最终结果;
S2.4非局部注意力模块(Wang X,Girshick R,Gupta A,et al.Non-local neuralnetworks[C]//Proceedings of the IEEE conference on computer vision andpattern recognition.2018:7794-7803.)如图9所示,将可变形池化层的输出x经过3个1×1卷积,把通道缩减为原来一半得到θ、g三个张量,通过展平操作将θ、g三个张量的高(h),宽(w)两个维度进行展平(将多维的输入向量一维化,即图9中的flatten),维数变为h×w,获得形状为[c/2,h×w]的θ1、g1三个张量,c为单个特征向量的通道数。对θ1、g1对应的张量进行通道重排,在线性代数中也就是转置,分别得到形状为[h×w,c/2]的张量θ2、g2,将θ2与代表的张量进行矩阵乘法,得到一个形状为[h×w,h×w]的矩阵f,经过softmax函数进行归一化,得到形状为[h×w,h×w]的分数矩阵fc,将得到的分数矩阵fc与g2进行矩阵相乘,得到的形状为[h×w,c/2]的张量fd。将fd转置为[c/2,h×w]的张量,将h×w维度重新伸展为[h,w],从而得到了形状为[c/2,h,w]的张量fe,利用1×1卷积核,将fe通道扩展为原来的c,维度变为[c,h,w],并将其与可变形池化层的输出x进行相加得到输出y。
g(xj)=Wgxj
其中Wg是可学习的权重矩阵,xj为输入
x是输入信号feature map;
i代表的是输出位置,如空间、时间或者时空的索引,对j进行枚举后计算得到;
f函数计算i和j的相似度;
g函数计算feature map在j位置的表示;
最终的y是通过响应因子C(x)进行标准化处理以后得到的。
S2.4图1中的3个上采样层(图1竖向箭头表示上采样层,Decoder block)采用1x1卷积层+3x3转置卷积+1x1卷积层组合,利用转置卷积学习自适应映射,得到更详细的信息恢复特征,其中从下往上第1上采样层的输入为非局部注意力聚合模块的输出与第1个全局金字塔聚合模块的输出拼接所得的特征向量,第2个上采样层的输入为第1个上采样层的输出与第2全局金字塔聚合模块的输出拼接所得的特征向量,第3个上采样层的输入为第2个上采样层的输出与第3全局金字塔聚合模块的输出拼接所得的特征向量。
进一步,S3的具体实现步骤如下:
S3.1使用Pytorch作为深度学习框架。所有模型均在2个NVIDIA GTX2080 GPU上进行了训练。
S3.2使用二值交叉熵函数作为损失函数,并选择Adam作为优化器,学习率为2*10-4,训练批次大小为4,训练周期为160epoch。S2中所给定数据集{(x1,y1),…(xn,yn)},目标函数如下定义,其中n是训练集的样本数。
F(xi;0)=-[yiln(σ(xi))+(1-yi)ln(1-σ(xi))]
其中F(xi;θ)为特征提取函数;xi为输入特征;yi为对应的真值;θ为求解的最优参数;L(θ)为目标函数
S3.3训练时采用随机梯度下降(SGD)来最小化目标函数。其更新过程可写成如下:
具体步骤如下:首先对网络参数θ进行随机初始化,然后参数θ按照以下更新规则来最小化目标函数:
……
进行N次迭代,直到满足要求,循环结束,得到θ值。
S3.4利用pytorch框架API,torch.save()函数保存最佳训练权重,通过torch.load()函数加载模型参数,将训练完成的模型对S.1中的测试集进行推理测试。、
本发明实施例2中,双注意力残差模块数量也可以只有一个,如图10所示。图10中的m为残差单元数量,可以为1个或者多个。
本发明实施例3中,双注意力残差模块的数量为两个,如图11所示。
本发明实施例4中,所有全局金字塔聚合模块的输出可以拼接到一起,以实施例1的结构为例,得到图12的结构。
图11、12中,残差单元数量可以根据实际使用需要设置。
图10~图12的实施例中,双注意力残差模块也可以不接全局金字塔聚合模块。
图1、图11和图12的实施例中,可以只有一个或者两个双注意力残差模块接全局金字塔聚合模块。
进一步,具体实现结果如下。
由图13(a)~图13(c)可以看出,常规语义分割算法(CHEN L C,ZHU Y,PAPANDREOUG,et al.Encoder-Decoder with Atrous Separable Convolution for Semantic ImageSegmentation[C]Proceedings of the European Conference on Computer Vision(ECCV),2018:801-818)识别结果中道路出现多处未识别,道路提取线条连贯性差的问题,本发明实施例方法所提取道路整体结构完整,连续性好。
由图14(a)~图14(c)可以看出,常规语义分割算法在面对道路被树木遮挡场景,无法有效识别被遮挡部分,本发明实施例方法在树木遮挡场景下,依然能成功提取出遮挡部分,识别效果极佳。
Claims (10)
1.一种道路分割方法,其特征在于,包括以下步骤:
S1、从无人机航拍高分辨率道路数据集获取N张图像,利用所述N张图像获取训练集;
S2、利用所述训练集训练道路提取模型,得到训练后的道路提取模型;
所述道路提取模型包括:
特征提取层,用于对所述训练集中的图像进行降采样操作;
至少一个双注意力残差模块,包括至少一个残差单元,所述残差单元用于对输入进行包括如下步骤的操作:
对所述特征提取层的输出进行卷积操作,得到特征向量F1;
将所述特征向量F1输入通道注意力模块,并将所述通道注意力模块的输出与所述特征向量F1相乘,得到第一输出结果;
将所述第一输出结果输入空间注意力模块,并将所述空间注意力模块的输出与所述第一输出结果相乘,得到第二输出结果;
拼接所述特征提取层的输出与所述第二输出结果,得到第三输出结果;
上采样重建模块,用于对所述第三结果进行上采样操作,得到最终输出结果;S3、将待测试图像输入所述训练后的道路提取模型,得到道路提取结果。
2.根据权利要求1所述的道路分割方法,其特征在于,所述双注意力残差模块数量为两个,其中第一个双注意力残差模块的输出经池化层后输入第二个双注意力残差模块,且两个所述双注意力残差模块的输出拼接后的结果为所述上采样重建模块的输入。
3.根据权利要求1所述的道路分割方法,其特征在于,所述双注意力残差模块数量为三个,其中第一个双注意力残差模块的输出经池化层后输入第二个双注意力残差模块,第二个双注意力残差模块的输出经池化层后输入第三个双注意力残差模块,且三个所述双注意力残差模块的输出拼接后的结果为所述上采样重建模块的输入。
4.根据权利要求2或3所述的道路分割方法,其特征在于,每个所述双注意力残差模块与一个全局金字塔聚合模块连接。
5.根据权利要求4所述的道路分割方法,其特征在于,所有金字塔聚合模块的输出拼接后得到的拼接结果输入所述上采样重建模块;或者,第n个金字塔聚合模块的输出经第一上采样层后与第n-1个金字塔聚合模块的输出拼接,得到的第一拼接结果输入第二上采样层,第二上采样层的输出与第n-2个金字塔采样模块的输出拼接后,得到的第二拼接结果输入第三上采样层,依此类推;其中,n为最后一个金字塔聚合模块,n≥3。
6.根据权利要求1~5之一所述的道路分割方法,其特征在于,所述道路提取模型还包括非局部注意力聚合模块,所述非局部注意力聚合模块的输入为所述双注意力残差模块的输出经池化层操作后的结果;所述非局部注意力聚合模块的输出与上一处理层的输出拼接后输入所述上采样重建模块;其中,所述上一处理层为最后一个双注意力残差模块,或者最后一个金字塔聚合模块。
7.根据权利要求6所述的道路分割方法,其特征在于,所述非局部注意力聚合模块与池化层之间还设有可变形卷积网络。
8.根据权利要求1所述的道路分割方法,其特征在于,所述双注意力残差模块包括多个串联的残差单元,其中第一个残差单元的输入为所述特征提取层的输出;第二个残差单元的输入为所述第一个残差单元的输出,依此类推。
9.根据权利要求8所述的道路分割方法,其特征在于,当所述双注意力残差模块个数为多个时,每个所述双注意力残差模块中残差单元的数量不同。
10.一种计算机装置,包括存储器、处理器及存储在存储器上的计算机程序;其特征在于,所述处理器执行所述计算机程序,以实现权利要求1~9之一所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210174578.3A CN114550014A (zh) | 2022-02-24 | 2022-02-24 | 道路分割方法及计算机装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210174578.3A CN114550014A (zh) | 2022-02-24 | 2022-02-24 | 道路分割方法及计算机装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114550014A true CN114550014A (zh) | 2022-05-27 |
Family
ID=81680426
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210174578.3A Pending CN114550014A (zh) | 2022-02-24 | 2022-02-24 | 道路分割方法及计算机装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114550014A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117036937A (zh) * | 2023-07-21 | 2023-11-10 | 山东省计算中心(国家超级计算济南中心) | 基于物联网和深度学习的盲道方向识别及瑕疵检测方法 |
CN117078943A (zh) * | 2023-10-17 | 2023-11-17 | 太原理工大学 | 融合多尺度特征和双注意力机制的遥感影像道路分割方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113642634A (zh) * | 2021-08-12 | 2021-11-12 | 南京邮电大学 | 一种基于混合注意力的阴影检测方法 |
US20210390338A1 (en) * | 2020-06-15 | 2021-12-16 | Dalian University Of Technology | Deep network lung texture recogniton method combined with multi-scale attention |
CN113850825A (zh) * | 2021-09-27 | 2021-12-28 | 太原理工大学 | 基于上下文信息和多尺度特征融合的遥感图像道路分割方法 |
CN113888550A (zh) * | 2021-09-27 | 2022-01-04 | 太原理工大学 | 一种结合超分辨率和注意力机制的遥感图像道路分割方法 |
-
2022
- 2022-02-24 CN CN202210174578.3A patent/CN114550014A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210390338A1 (en) * | 2020-06-15 | 2021-12-16 | Dalian University Of Technology | Deep network lung texture recogniton method combined with multi-scale attention |
CN113642634A (zh) * | 2021-08-12 | 2021-11-12 | 南京邮电大学 | 一种基于混合注意力的阴影检测方法 |
CN113850825A (zh) * | 2021-09-27 | 2021-12-28 | 太原理工大学 | 基于上下文信息和多尺度特征融合的遥感图像道路分割方法 |
CN113888550A (zh) * | 2021-09-27 | 2022-01-04 | 太原理工大学 | 一种结合超分辨率和注意力机制的遥感图像道路分割方法 |
Non-Patent Citations (1)
Title |
---|
熊炜;管来福;童磊;王传胜;刘敏;曾春艳;: "基于残差神经网络的道路提取算法研究", 光电子技术, no. 01, 30 March 2020 (2020-03-30) * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117036937A (zh) * | 2023-07-21 | 2023-11-10 | 山东省计算中心(国家超级计算济南中心) | 基于物联网和深度学习的盲道方向识别及瑕疵检测方法 |
CN117036937B (zh) * | 2023-07-21 | 2024-01-26 | 山东省计算中心(国家超级计算济南中心) | 基于物联网和深度学习的盲道方向识别及瑕疵检测方法 |
CN117078943A (zh) * | 2023-10-17 | 2023-11-17 | 太原理工大学 | 融合多尺度特征和双注意力机制的遥感影像道路分割方法 |
CN117078943B (zh) * | 2023-10-17 | 2023-12-19 | 太原理工大学 | 融合多尺度特征和双注意力机制的遥感影像道路分割方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111563508B (zh) | 一种基于空间信息融合的语义分割方法 | |
CN111259786B (zh) | 一种基于视频的外观和运动信息同步增强的行人重识别方法 | |
CN111274892B (zh) | 一种鲁棒的遥感影像变化检测方法及系统 | |
CN105740894B (zh) | 一种高光谱遥感图像的语义标注方法 | |
CN113780149B (zh) | 一种基于注意力机制的遥感图像建筑物目标高效提取方法 | |
CN112906720B (zh) | 基于图注意力网络的多标签图像识别方法 | |
CN112288011B (zh) | 一种基于自注意力深度神经网络的图像匹配方法 | |
CN113298815A (zh) | 一种半监督遥感图像语义分割方法、装置和计算机设备 | |
CN114550014A (zh) | 道路分割方法及计算机装置 | |
Xia et al. | A deep Siamese postclassification fusion network for semantic change detection | |
CN111738074B (zh) | 基于弱监督学习的行人属性识别方法、系统及装置 | |
CN116258976A (zh) | 一种分层次Transformer的高分辨率遥感图像语义分割方法及系统 | |
CN116740527A (zh) | U型网络与自注意力机制结合的遥感图像变化检测方法 | |
CN116596966A (zh) | 一种基于注意力和特征融合的分割与跟踪方法 | |
CN104463962B (zh) | 基于gps信息视频的三维场景重建方法 | |
Li et al. | DSPCANet: Dual-channel scale-aware segmentation network with position and channel attentions for high-resolution aerial images | |
CN114511787A (zh) | 一种基于神经网络的遥感图像地物信息生成方法及其系统 | |
CN116246338B (zh) | 一种基于图卷积和Transformer复合神经网络的行为识别方法 | |
CN116758419A (zh) | 针对遥感图像的多尺度目标检测方法、装置和设备 | |
CN115830707A (zh) | 一种基于超图学习的多视角人体行为识别方法 | |
CN113554655B (zh) | 基于多特征增强的光学遥感图像分割方法及装置 | |
CN113222016B (zh) | 一种基于高层和低层特征交叉增强的变化检测方法及装置 | |
Jia et al. | Siamese Meets Diffusion Network: SMDNet for Enhanced Change Detection in High-Resolution RS Imagery | |
CN117237858B (zh) | 一种回环检测方法 | |
CN115240121B (zh) | 一种用于增强行人局部特征的联合建模方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |