CN114581762A - 一种基于多尺度条形池化和金字塔池化的道路提取方法 - Google Patents

一种基于多尺度条形池化和金字塔池化的道路提取方法 Download PDF

Info

Publication number
CN114581762A
CN114581762A CN202111557826.4A CN202111557826A CN114581762A CN 114581762 A CN114581762 A CN 114581762A CN 202111557826 A CN202111557826 A CN 202111557826A CN 114581762 A CN114581762 A CN 114581762A
Authority
CN
China
Prior art keywords
pooling
module
scale bar
size
pyramid
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111557826.4A
Other languages
English (en)
Inventor
渠慎明
周华飞
冯天伟
李贺
席广正
吕慧娟
万敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Henan University
Original Assignee
Henan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Henan University filed Critical Henan University
Priority to CN202111557826.4A priority Critical patent/CN114581762A/zh
Publication of CN114581762A publication Critical patent/CN114581762A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

本发明的目的是提供一种基于多尺度条形池化和金字塔池化的道路提取方法,通过替换到传统的池化方式,采用条形池化聚合远程上下文,以一种高效的方式编码道路特征,解决了在遥感图像中道路提取的连通性问题。

Description

一种基于多尺度条形池化和金字塔池化的道路提取方法
技术领域
本发明属于遥感图像信息的自动解译领域技术领域,具体涉及一种基于多尺 度条形池化和金字塔池化的道路提取方法。
背景技术
在深度学习领域道路提取可视为二分类语义分割任务,目前广泛使用的语义 分割方法建立在FCN的基础上,通过使用卷积层替换掉全连接层,在保留输入 图像空间特征的同时,实现像素级别的端到端的预测;在FCN架构的基础上研究 人员使用FCN-4s模型进行道路目标提取,并通过使用跳跃连接结构 复用浅层的特征信息,准确度有了较大的提高;研究人员在SegNet网络上引入池 化索引,编码器部分使用池化层进行下采样时记录最大池化的索引(位置),在解 码器中调用相应的索引信息进行上采样,减小最大池化造成的位置信息丢失的影 响;研究人员采用DenseNet结构构建多条回路连接,该模型可以适应不同大小 的目标,并且有效的在高分辨率影像中提取道路,但是显著增加了网络的参数量,导致训练耗时很长。研究人员结合注意力机制和空间金字塔模块,提出了金字塔 注意力网络实现目标特征信息的增强。上述方法聚焦于更深的特征提取网络或者 使用优秀的语义解析模块,没有考虑遥感图像道路本身的结构特点,由于遥感图 像具有高分辨且通常覆盖范围大,感受野的大小至关重要,通常采用多次下采样 扩大网络的感受野,会导致较小的物体信息无法通过上采样重建。研究人员通过 并联多个不同空洞率的空洞卷积,减少下采样操作的同时将感受野的大小扩大至 整个输入图像,提高了道路提取能力。
发明内容
本发明的目的是提供一种基于多尺度条形池化和金字塔池化的道路提取方 法,用于解决道路提取碎片化的问题。
本发明解决其技术问题的技术方案为:一种基于多尺度条形池化和金字塔池 化的道路提取方法,其特征在于,所述方法包括以下步骤:
S1:对输入的原始图像进行数据增强;
S2:模型总体架构搭建;采用Pytorch深度学习框架对模型进行搭建;
S3:搭建多尺度条形池化模块;
S4:搭建混合池化模块;
S5:模型训练,把遥感图像数据输入模型当中进行训练。
所述步骤S1中数据增强方法包括随机水平和垂直翻转,随机平移和随机裁剪。
所述模型总体架构的搭建方法包括:采用编码器解码器架构作为整体的网络 架构,首先通过7×7卷积将输入图像下采样到512×512,使用两个3 x 3的卷积 构成一个残差块,每3,6,4,3个残差块构成一个构建块,在每个构建块之后 分别下采样一次,每次下采样的特征图大小为上个构建块的一半,将编码器通过 多尺度条形池化模块跳跃连接解码器的对应部分,最终输入图像在编码器部分下 采样到32×32,此时通过两个混合池化模块连接到解码器,之后在解码器部分上 采样四次到原图大小,最后输出经过sigmoid函数处理的大小为1024×1024的单 通道预测图像。
多尺度条形池化模块的实现方式如下:
设输入张量x∈RH×W,其中H,W分别为输入张量的长和宽,池化核的大小为 h×w,考虑一种简单的情况,h,w分别可以被H,W整除,输出张量y的长和宽 可以分别表示为
Figure BDA0003419627250000021
则平均池化如公式(1)所示
Figure BDA0003419627250000022
io,jo表示池化结果的第io行第jo列的值,在给出平均池化公式之后,在水平 和垂直方向部署两个狭长的池化核捕获远程依赖关系,在垂直方向,池化核的大 小为:
Figure BDA0003419627250000023
水平方向池化核大小为:
Figure BDA0003419627250000024
分别将公式2、3所述的池化核带入到公式1所述的池化操作当中,则水平 方向输出池化结果为
Figure BDA0003419627250000025
垂直方向输出池化结果为
Figure BDA0003419627250000026
其中r是人工设定的缩放 因子,用于控制池化核的大小。之后,将
Figure BDA0003419627250000031
逐像素相加得:
Figure BDA0003419627250000032
函数Scale(.,.)指逐元素相加,分别令r取1、3、7带入到公式4中,得到 y1、y2、y3,然后将y1、y2、y3进行通道合并得
y=Concat(yr=1,yr=3,yr=7) (5)
其中函数Concat(.,.,.)表示通道合并,最后多尺度条形池化模块的输出 可以表示为
Z=Scale(x,σ(f(y)) (6)
其中σ为sigmoid函数,f表示1×1卷积。
混合池化模块的实现方式如下:所述混合池化模块包括一个多尺度条形池化 子模块和一个金字塔池化子模块,多尺度条形池化模块在上小节2已详细描述, 本节描述金字塔池化子模块的实现,具体实现如下:对输入特征图进行两次池化 操作,池化后的特征图分别为A和B,大小分别为20×20、12×12。然后将池化后 的两个特征图A和B上采样到输入特征图大小,最后分别将特征图A、B、输入 特征图三者逐像素相加得到输出特征图。
本发明的有益效果为:通过替换到传统的池化方式,采用条形池化聚合远程 上下文,以一种高效的方式编码道路特征。解决了在遥感图像中道路提取的连通 性问题。
附图说明
图1是本发明的流程图。
图2是本发明的总体架构图。
图3是本发明的多尺度条形池化模块架构图。
图4是本发明的混合池化模块架构图。
图5是本发明金字塔池化架构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、 完整地描述。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳 动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明包括以下步骤:
步骤1,数据增强:对输入的原始图像进行数据增强,以防止出现过拟合的 情况。数据增强方法包括以0.5的概率对输入图像进行随机水平和垂直翻转,随 机平移和随机裁剪。
步骤2,模型总体架构搭建:模型架构图如附图2所示,输入图像尺寸为 1024×1024,首先通过7×7卷积将输入图像下采样到512×512,之后在ResNet34 每个构建块分别下采样一次,每次下采样的特征图大小为上个构建块的一半,将 编码器通过多尺度条形池化模块跳跃连接解码器的对应部分,最终输入图像在编 码器部分下采样到32×32,此时通过两个MP模块连接到解码器,之后在解码器 部分上采样四次,每一次上采样都会融合经过多尺度条形池化编码的语义信息, 最后输出经过sigmoid函数处理的大小为1024×1024的单通道图像。
步骤3,多尺度条形池化模块搭建。多尺度条形池化模块如附图3所示,设 输入张量x∈RH×W,其中H,W分别为输入张量的长和宽,池化核的大小为h×w, 考虑一种简单的情况,h,w分别可以被H,W整除,输出张量y的长和宽可以分 别表示为
Figure BDA0003419627250000041
则平均池化如公式(1)所示
Figure BDA0003419627250000042
io,jo表示池化结果的第io行第jo列的值,通常池化核的长宽相等,如常用的 3×3、7×7大小的池化核,在处理不规则的物体比如狭长的道路时,会引入不相 关的区域语义信息的干扰。本文使用多个不同大小的狭长池化核收集远程上下文 信息,具体来说,首先输入一个H×W大小的张量,在垂直方向,池化核的大小 为:
Figure BDA0003419627250000043
水平方向池化核大小为:
Figure BDA0003419627250000044
分别将其带入公式(1),水平方向输出池化结果为
Figure BDA0003419627250000045
垂直方向输出池化结 果为
Figure BDA0003419627250000051
其中r是人工设定的缩放因子,用于控制池化核的大小。之后,将
Figure BDA0003419627250000052
逐 像素相加得:
Figure BDA0003419627250000053
函数Scale(.,.)指逐元素相加,分别令r取1、3、5,则上式分别输出y1、y2、 y3,然后将三者通道合并得
y=Concat(yr=1,yr=3,yr=5) (5)
其中函数Concat(.,.,.)表示通道合并,最后MSP模块的输出可以表示为
Z=Scale(x,σ(f(y)) (6)
其中σ为sigmoid函数,f表示1×1卷积。
步骤4,混合池化模块搭建:如图4、5所示,本方法采用了一个轻量级的 空间金字塔池化来收集本地上下文信息。具体来说,包括两个用于多尺度特征提 收的卷积层,每次池化后的特征图的大小分别为20×20和12×12,然后将其上采 样到输入特征图大小,以及用于保留原始空间信息的二维卷积层,最后通过求和 组合所有三个子路径。基于MP和MSP两个子模块,构成混合池化模块,在每 个模块之前,首先使用1×1卷积进行通道缩减,将通道缩减为原来的四分之一, 然后将两个模块的输入相加在一起,最后通过一个1×1卷积将通道扩展为四倍。 输出和输入特征图大小保持一致,以便可以方便的嵌入网络当中。
步骤5,模型训练,实验基于pytorch深度学习框架,CPU为6×Xeon E5-2678 v3,GPU为2×NVIDIA GeForce RTX 2080 Ti在实验过程中BatchSize设置为11, 初始学习率设置为0.005,每隔4个epoch损失不下降将学习率调整为原来的五 分之一,Epoch设置为200,最终我们的网络收敛于130个epoch。
本发明通过一种新颖的条形池化方式,聚合远程上下文,这种远程上下文先 验知识可以为被树木,建筑遮挡的道路提供先验。从而恢复道路的连通性。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限 制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员 应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中 部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方 案的本质脱离本发明各实施例技术方案的范围。

Claims (5)

1.一种基于多尺度条形池化和金字塔池化的道路提取方法,其特征在于,所述方法包括以下步骤:
S1:对输入的原始图像进行数据增强;
S2:模型总体架构搭建;采用Pytorch深度学习框架对模型进行搭建;
S3:搭建多尺度条形池化模块;
S4:搭建混合池化模块;
S5:模型训练,把遥感图像数据输入模型当中进行训练。
2.根据权利要求1所述的一种基于多尺度条形池化和金字塔池化的道路提取方法,其特征在于,所述步骤S1中数据增强方法包括随机水平和垂直翻转,随机平移和随机裁剪。
3.根据权利要求1所述的一种基于多尺度条形池化和金字塔池化的道路提取方法,其特征在于,所述模型总体架构的搭建方法包括:采用编码器解码器架构作为整体的网络架构,首先通过7×7卷积将输入图像下采样到512×512,使用两个3x3的卷积构成一个残差块,每3,6,4,3个残差块构成一个构建块,在每个构建块之后分别下采样一次,每次下采样的特征图大小为上个构建块的一半,将编码器通过多尺度条形池化模块跳跃连接解码器的对应部分,最终输入图像在编码器部分下采样到32×32,此时通过两个混合池化模块连接到解码器,之后在解码器部分上采样四次到原图大小,最后输出经过sigmoid函数处理的大小为1024×1024的单通道预测图像。
4.根据权利要求1所述的一种基于多尺度条形池化和金字塔池化的道路提取方法,其特征在于,多尺度条形池化模块的实现方式如下:
设输入张量x∈RH×W,其中H,W分别为输入张量的长和宽,池化核的大小为h×w,考虑一种简单的情况,h,w分别可以被H,W整除,输出张量y的长和宽可以分别表示为
Figure FDA0003419627240000011
则平均池化如公式(1)所示
Figure FDA0003419627240000012
io,jo表示池化结果的第io行第jo列的值,在给出平均池化公式之后,在水平和垂直方向部署两个狭长的池化核捕获远程依赖关系,在垂直方向,池化核的大小为:
Figure FDA0003419627240000021
水平方向池化核大小为:
Figure FDA0003419627240000022
分别将公式2、3所述的池化核带入到公式1所述的池化操作当中,则水平方向输出池化结果为
Figure FDA0003419627240000023
垂直方向输出池化结果为
Figure FDA0003419627240000024
其中r是人工设定的缩放因子,用于控制池化核的大小。之后,将
Figure FDA0003419627240000025
逐像素相加得:
Figure FDA0003419627240000026
函数Scale(.,.)指逐元素相加,分别令r取1、3、7带入到公式4中,得到y1、y2、y3,然后将y1、y2、y3进行通道合并得
y=Concat(yr=1,yr=3,yr=7) (5)
其中函数Concat(.,.,.)表示通道合并,最后多尺度条形池化模块的输出可以表示为
Z=Scale(x,σ(f(y)) (6)
其中σ为sigmoid函数,f表示1×1卷积。
5.根据权利要求1所述的一种基于多尺度条形池化和金字塔池化的道路提取方法,其特征在于,混合池化模块的实现方式如下:所述混合池化模块包括一个多尺度条形池化子模块和一个金字塔池化子模块,多尺度条形池化模块在上小节2已详细描述,本节描述金字塔池化子模块的实现,具体实现如下:对输入特征图进行两次池化操作,池化后的特征图分别为A和B,大小分别为20×20、12×12。然后将池化后的两个特征图A和B上采样到输入特征图大小,最后分别将特征图A、B、输入特征图三者逐像素相加得到输出特征图。
CN202111557826.4A 2021-12-20 2021-12-20 一种基于多尺度条形池化和金字塔池化的道路提取方法 Pending CN114581762A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111557826.4A CN114581762A (zh) 2021-12-20 2021-12-20 一种基于多尺度条形池化和金字塔池化的道路提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111557826.4A CN114581762A (zh) 2021-12-20 2021-12-20 一种基于多尺度条形池化和金字塔池化的道路提取方法

Publications (1)

Publication Number Publication Date
CN114581762A true CN114581762A (zh) 2022-06-03

Family

ID=81769813

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111557826.4A Pending CN114581762A (zh) 2021-12-20 2021-12-20 一种基于多尺度条形池化和金字塔池化的道路提取方法

Country Status (1)

Country Link
CN (1) CN114581762A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115393712A (zh) * 2022-08-23 2022-11-25 杭州电子科技大学 基于动态混合池化策略的sar图像道路提取方法及系统
CN117911908A (zh) * 2024-03-20 2024-04-19 湖北经济学院 一种无人机航拍图像的增强处理方法及系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115393712A (zh) * 2022-08-23 2022-11-25 杭州电子科技大学 基于动态混合池化策略的sar图像道路提取方法及系统
CN117911908A (zh) * 2024-03-20 2024-04-19 湖北经济学院 一种无人机航拍图像的增强处理方法及系统
CN117911908B (zh) * 2024-03-20 2024-05-28 湖北经济学院 一种无人机航拍图像的增强处理方法及系统

Similar Documents

Publication Publication Date Title
CN110059772B (zh) 基于多尺度解码网络的遥感图像语义分割方法
CN110232394B (zh) 一种多尺度图像语义分割方法
Li et al. Survey of single image super‐resolution reconstruction
CN111179167B (zh) 一种基于多阶段注意力增强网络的图像超分辨方法
CN115222601A (zh) 基于残差混合注意力网络的图像超分辨率重建模型及方法
CN113052210A (zh) 一种基于卷积神经网络的快速低光照目标检测方法
CN113837938B (zh) 基于动态视觉传感器重建潜在图像的超分辨率方法
CN114581762A (zh) 一种基于多尺度条形池化和金字塔池化的道路提取方法
CN116342596A (zh) 一种基于YOLOv5改进的变电站设备螺母缺陷识别检测方法
CN115375999B (zh) 应用于危化品车检测的目标检测模型、方法及装置
CN110689509A (zh) 基于循环多列3d卷积网络的视频超分辨率重建方法
CN114842216A (zh) 一种基于小波变换的室内rgb-d图像语义分割方法
Huang et al. Fast blind image super resolution using matrix-variable optimization
CN111161156A (zh) 一种基于深度学习的水下桥墩病害图像分辨率增强方法
Hua et al. Dynamic scene deblurring with continuous cross-layer attention transmission
CN111753714B (zh) 基于字符分割的多方向自然场景文本检测方法
US20240062347A1 (en) Multi-scale fusion defogging method based on stacked hourglass network
CN117058043A (zh) 一种基于lstm的事件-图像去模糊方法
CN116681978A (zh) 一种基于注意力机制和多尺度特征融合的显著性目标检测方法
CN116152710A (zh) 一种基于跨帧实例关联的视频实例分割方法
CN113409321B (zh) 一种基于像素分类和距离回归的细胞核图像分割方法
Park et al. Image super-resolution using dilated window transformer
Li et al. Refined division features based on Transformer for semantic image segmentation
CN114565764A (zh) 基于舰船实例分割的港口全景感知系统
Zhang et al. Transformer for the Building Segmentation of Urban Remote Sensing

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination