CN114119974A - 基于改进PSPNet的语义分割模型 - Google Patents

基于改进PSPNet的语义分割模型 Download PDF

Info

Publication number
CN114119974A
CN114119974A CN202111328227.5A CN202111328227A CN114119974A CN 114119974 A CN114119974 A CN 114119974A CN 202111328227 A CN202111328227 A CN 202111328227A CN 114119974 A CN114119974 A CN 114119974A
Authority
CN
China
Prior art keywords
feature
feature map
improved
network
pspnet
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111328227.5A
Other languages
English (en)
Inventor
郑秋梅
徐林康
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China University of Petroleum East China
Original Assignee
China University of Petroleum East China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China University of Petroleum East China filed Critical China University of Petroleum East China
Priority to CN202111328227.5A priority Critical patent/CN114119974A/zh
Publication of CN114119974A publication Critical patent/CN114119974A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明提出基于改进PSPNet的语义分割算法,解决PSPNet对于小目标与物体边缘分割效果差,提高网络的分割精度。其包括以下步骤:1)以ResNet50为基础添加改进的通道注意力模块作为主干特征提取网络,充分提取图像浅层特征信息;2)将金字塔池化模块(PPM)的四种全局池化由1×1、2×2、3×3、4×4改为1×1、2×2、4×4、8×8,同时对后三种池化模块添加改进的空间注意力模块,来融合提取的浅层特征信息建立加强特征提取网络。3)将四种深层特征图上采样与浅层特征图拼接,利用双线性插值恢复至输入图片大小,根据损失函数为每个像素分类,利用自适应时刻估计方法(Adam)优化求解模型;4)用预训练后的网络模型对输入图片提取特征,送入到改进后的PSPNet网络中的金字塔池化模块进行预测。

Description

基于改进PSPNet的语义分割模型
技术领域
本发明提出基于改进PSPNet的语义分割模型,解决PSPNet对于小目标与物体边缘分割效果差,提高网络的分割精度。
背景技术
PSPNet是语义分割的经典网络,但是该网络对于小尺寸目标的分割不够精准,边缘分割不够精细,或多或少的阻碍了分割技术更好的落地、应用和推广。因此解决小目标与边缘分割的研究意义更加突出。
对于一些常规的目标,PSPNet网络已经具备了很好的分割效果,但是对于图片中一些小物体依然分割不出来。这说明图片里小目标像素的信息在网络的多次下采样中被丢失,凸显出网络特征提取能力的不足。虽然该网络已经结合了多尺度特征融合的方法解决信息丢失的问题,但是效果依然不明显。通过研究注意力模块在网络中的作用,它能够很好的对特征图进行权重的增减,使得更加重要的信息得到关注,同时本发明也针对当前一些注意力模块缺乏关注对特征图内在相关性的问题,对注意力模块进行了改进。故本文发明了一种针对PSPNet网络小目标分割效果不好的问题,提出了一种改进的PSPNet网络模型。该模型把改进的注意力模块与PSPNet相结合,使得PSPNet网络具有更好的特征提取能力,实现对小目标与边缘分割效果的提升
发明内容
针对上述问题,本发明的是一种基于改进PSPNet的语义分割模型,通过对作为主干网络的ResNet中添加基于自注意力机制改变的通道注意力模块来提高主干网络的特征提取能力;随后对加强特征提取模块中的2×2、4×4、8×8特征图添加基于自注意力机制与伪希尔伯特曲线遍历改变的空间注意力模块,来提高模块的计算能力和网络的特征提取能力。发明基本流程如图1所示。
本发明采取如下技术方案:一种基于改进PSPNet的语义分割模型包括如下步骤:
1)以ResNet50为基础添加改进的通道注意力模块作为主干特征提取网络,充分提取图像浅层特征信息;
2)将金字塔池化模块(PPM)的四种全局池化由1×1、2×2、3×3、4×4改为1×1、2×2、4×4、8×8,同时对后三种池化模块添加改进的空间注意力模块,来融合提取的浅层特征信息建立加强特征提取网络。
3)将四种深层特征图上采样与浅层特征图拼接,利用双线性插值恢复至输入图片大小,根据损失函数为每个像素分类,利用自适应时刻估计方法(Adam)优化求解模型;
4)用预训练后的网络模型对输入图片提取特征,送入到改进后的PSPNet网络中的金字塔池化模块进行预测。
本发明由于采取以上方法,其具有以下优点:
1、通过对空间和通道注意力模块进行基于自注意力机制的改进,使得模块关注到特征图内在的相关性,提高注意力模块的计算效果。
2、利用伪希尔伯特曲线遍历来改进空间注意力模块的降维方式,保证特征图语义信息的连续性,进一步提高空间注意力模块的计算效果。
3、将改进后的注意力模块分别添加进主干网络和加强网络中,使得两种子网络的特征提取能力得到加强,小目标的特征得到关注,提高了网络语义分割精度。
附图说明
图1本发明基本流程图;
图2本发明的整体网络结构;
图3本发明的通道注意力模块结构;
图4本发明的空间注意力模块结构;
图5基于伪希尔伯特曲线的遍历算法;
图6本发明网络整体改进后检测效果;
图7本发明在Pascal VOC2012数据集实际分割效果图。
具体实施方式
下面结合说明书附图通过一个实例对本发明做进一步说明,本实例仅为本发明其中的一种应用实例。
获取Pascal VOC2012数据集,其中分为训练集10582张和验证集1449张。
步骤1)以ResNet50为基础添加改进的通道注意力模块作为主干特征提取网络,充分提取图像浅层特征信息,如图2所示,具体步骤为:
S11)将输入图片大小为473×473×3的图片先进行三次卷积操作再进行最大池化,生成119×119×128的特征图;将119×119×128的特征图放入ResNet的第一层中生成119×119×256的特征图,并在此层添加通道注意力模块,计算特征图的通道权重并与该特征图相乘;将119×119×256的特征图放入ResNet的第二层中生成60×60×512的特征图,并在此层添加通道注意力模块,计算特征图的通道权重并与该特征图相乘;将60×60×512的特征图放入ResNet的第三层中生成60×60×1024的特征图,并在此层添加通道注意力模块,计算特征图的通道权重并与该特征图相乘;将60×60×1024的特征图放入ResNet的第四层中生成60×60×2048的特征图,并在此层添加通道注意力模块,计算特征图的通道权重并与该特征图相乘;
S12)通道注意力模块是将输入的特征图分别进行平均池化和最大池化,生成两个大小为1×1×C(C为通道数)的特征图,将该特征图利用自制力机制进行通道权值的计算。通过自注意力机制计算出的权值能充分体现通道间的自相关性,同时利用注意力机制使得主干网络的特征提取能力得到提升,如图3所示。
步骤2)将金字塔池化模块(PPM)的四种全局池化由1×1、2×2、3×3、4×4改为1×1、2×2、4×4、8×8,同时对后三种池化模块添加改进的空间注意力模块,来融合提取的浅层特征信息建立加强特征提取网络。如图2所示,具体步骤为:
S21)将经过主干网络计算出的60×60×2048特征图,分别池化成1×1×2048、2×2×2048、4×4×2048、8×8×2048的深层特征图。
S22)将2×2×2048、4×4×2048、8×8×2048三种特征图分别放入空间注意力模块中计算得到形如H×W×1(H、W为三种分辨率)空间权值信息,再分别与这三种特征图相乘。如图4所示
S23)空间注意力模块是把输入的特征图进一个平均池化,生成H×W×1的特征图,随后利用伪一、二、三阶伪希尔伯特曲线遍历特征图,将二维特征图降维到一维向量,再利用自注意力机制计算空间上的权值。通过本发明,能使得特征图降维后像素间的语义信息不会断开,利于自注意力机制的计算,使得加强特征提取网络的特征提取能力进一步提升,伪希尔伯特曲线遍历如图5所示。
步骤3)将四种深层特征图上采样与浅层特征图拼接,利用双线性插值恢复至输入图片大小,根据损失函数为每个像素分类,利用自适应时刻估计方法(Adam)优化求解模型;具体步骤如下:
将上一步骤中的四种特征图1×1×2048、2×2×2048、4×4×2048、8×8×2048,分别卷积成1×1×512、2×2×512、4×4×512、8×8×512。通过双线性插值上采样至四个60×60×512的特征图。把这四个深层特征图与之前的60×60×2048进行通道的拼接,生成60×60×4096,经过卷积再次生成60×60×512的特征图,最后卷积生成60×60×N(N为预测像素的类别数)。把该图通过双线性插值恢复成473×473×N,最后利用损失函数CE_Loss与Dice_loss生成预测图,并用Adam算法优化网络。
步骤4)用预训练后的网络模型对输入图片提取特征,送入到改进后的PSPNet网络中的金字塔池化模块进行预测。具体步骤如下:
将用于主干网络的ResNet50网络放在ImageNet上进行预训练生成权值文件,缩短训练时间。保留ResNet50的前四层结构,去掉最后的平均池化与全连接层。最后通过PASCAL-VOC2012的训练集去训练改进后的PSPNet网络。本发明设置的最大迭代次数为60次,初始化学习率为0.0001,batch_size设置为12,根据损失下降的趋势,可以适当调节学习率和batch_size的值,直至迭代次数结束。
通过整合以上所有改进,形成了本文的HA-PSPNet网络,本发明的实验对比了PSPNet与HA--PSPNet(没有添加伪希尔伯特曲线遍历)网络在PASCAL-VOC2012数据集上的检测效果,MAP和MIoU评价指标评估本发明提出的改进网络的性能,如图6所示。
本发明在上述实验结果的基础之上,随机选取数据集中的三种图片进行分割,将网络的分割效果展示出来,如图7所示。
从附图6中可看出HA-PSPNet对于数据集大部分类别都有相应的提升,从附图7中也可以看出,本文改进的HA-PSPNet算法在小目标的检测当中获得了比原模型更好的效果,说明本文改进的算法有效。
本发明的保护范围也并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。

Claims (5)

1.一种基于改进PSPNet的语义分割方法,其特征在于,包含如下步骤:
1)以ResNet50为基础添加改进的通道注意力模块作为主干特征提取网络,充分提取图像浅层特征信息;
2)将金字塔池化模块(PPM)的四种全局池化由1×1、2×2、3×3、4×4改为1×1、2×2、4×4、8×8,同时对后三种池化模块添加改进的空间注意力模块,来融合提取的浅层特征信息建立加强特征提取网络。
3)将四种深层特征图上采样与浅层特征图拼接,利用双线性插值恢复至输入图片大小,根据损失函数为每个像素分类,利用自适应时刻估计方法(Adam)优化求解模型;
4)用预训练后的网络模型对输入图片提取特征,送入到改进后的PSPNet网络中的金字塔池化模块进行预测。
2.如权利要求1所述的一种基于改进PSPNet的语义分割模型算法,其特征在于:所述步骤1)构建以ResNet50为基础并添加通道注意力模块作为主干特征提取模块,具体步骤为:
S11)将输入图片大小为473×473×3的图片先进行三次卷积操作再进行最大池化,生成119×119×128的特征图;将119×119×128的特征图放入ResNet的第一层中生成119×119×256的特征图,并在此层添加通道注意力模块,计算特征图的通道权重并与该特征图相乘;将119×119×256的特征图放入ResNet的第二层中生成60×60×512的特征图,并在此层添加通道注意力模块,计算特征图的通道权重并与该特征图相乘;将60×60×512的特征图放入ResNet的第三层中生成60×60×1024的特征图,并在此层添加通道注意力模块,计算特征图的通道权重并与该特征图相乘;将60×60×1024的特征图放入ResNet的第四层中生成60×60×2048的特征图,并在此层添加通道注意力模块,计算特征图的通道权重并与该特征图相乘;
S12)通道注意力模块是将输入的特征图分别进行平均池化和最大池化,生成两个大小为1×1×C(C为通道数)的特征图,将特征图利用自制力机制进行通道权值的计算。通过自注意力机制计算出的权值能充分体现通道间的自相关性,同时利用注意力机制使得主干网络的特征提取能力得到提升。
3.如权利要求1所述的一种基于改进PSPNet的语义分割模型算法,其特征在于:所述步骤2),具体步骤为:
S21)将经过主干网络计算出的60×60×2048特征图,分别池化成1×1×2048、2×2×2048、4×4×2048、8×8×2048的深层特征图。
S22)将2×2×2048、4×4×2048、8×8×2048三种特征图分别放入空间注意力模块中计算得到形如H×W×1(H、W为三种分辨率)空间权值信息,再分别与这三种特征图相乘。
S23)空间注意力模块是把输入的特征图进一个平均池化,生成H×W×1的特征图,随后利用伪一、二、三阶伪希尔伯特曲线遍历特征图,将二维特征图降维到一维向量,再利用自注意力机制计算空间上的权值。通过本发明,能使得特征图降维后像素间的语义信息不会断开,利于自注意力机制的计算,使得加强特征提取网络的特征提取能力进一步提升。
4.如权利要求1所述的一种基于改进PSPNet的语义分割模型算法,其特征在于:所述步骤3)具体步骤为:将上一步骤中的四种特征图1×1×2048、2×2×2048、4×4×2048、8×8×2048,分别卷积成1×1×512、2×2×512、4×4×512、8×8×512。通过双线性插值上采样至四个60×60×512的特征图。把这四个深层特征图与之前的60×60×2048进行通道的拼接,生成60×60×4096,经过卷积再次生成60×60×512的特征图,最后卷积生成60×60×N(N为预测像素的类别数)。把该图通过双线性插值恢复成473×473×N,最后利用损失函数CE_Loss与Dice_loss生成预测图,并用Adam算法优化网络。
5.如权利要求1所述的一种基于改进PSPNet的语义分割模型算法,其特征在于:所述步骤4)具体步骤为:将用于主干网络的ResNet50网络放在ImageNet上进行预训练生成权值文件,缩短训练时间。保留ResNet50的前四层结构,去掉最后的平均池化与全连接层。最后通过PASCAL-VOC2012的训练集去训练改进后的PSPNet网络。本发明设置的最大迭代次数为60次,初始化学习率为0.0001,batch_size设置为12,根据损失下降的趋势,可以适当调节学习率和batch_size的值,直至迭代次数结束。
CN202111328227.5A 2021-11-10 2021-11-10 基于改进PSPNet的语义分割模型 Pending CN114119974A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111328227.5A CN114119974A (zh) 2021-11-10 2021-11-10 基于改进PSPNet的语义分割模型

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111328227.5A CN114119974A (zh) 2021-11-10 2021-11-10 基于改进PSPNet的语义分割模型

Publications (1)

Publication Number Publication Date
CN114119974A true CN114119974A (zh) 2022-03-01

Family

ID=80378139

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111328227.5A Pending CN114119974A (zh) 2021-11-10 2021-11-10 基于改进PSPNet的语义分割模型

Country Status (1)

Country Link
CN (1) CN114119974A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116030353A (zh) * 2023-03-29 2023-04-28 成都大学 一种基于卷积神经网络的滑坡灾害自动识别方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116030353A (zh) * 2023-03-29 2023-04-28 成都大学 一种基于卷积神经网络的滑坡灾害自动识别方法
CN116030353B (zh) * 2023-03-29 2023-05-30 成都大学 一种基于卷积神经网络的滑坡灾害自动识别方法

Similar Documents

Publication Publication Date Title
CN112016507B (zh) 基于超分辨率的车辆检测方法、装置、设备及存储介质
CN111915660B (zh) 基于共享特征和注意力上采样的双目视差匹配方法及系统
CN112435282B (zh) 一种基于自适应候选视差预测网络的实时双目立体匹配方法
CN110533712A (zh) 一种基于卷积神经网络的双目立体匹配方法
CN111340844A (zh) 基于自注意力机制的多尺度特征光流学习计算方法
CN113313810B (zh) 一种透明物体的6d姿态参数计算方法
CN105787867A (zh) 基于神经网络算法的处理视频图像的方法和装置
CN116612288B (zh) 一种多尺度轻量级实时语义分割方法、系统
CN109447897B (zh) 一种真实场景图像合成方法及系统
CN111080648A (zh) 基于残差学习的实时图像语义分割算法
CN113344869A (zh) 一种基于候选视差的行车环境实时立体匹配方法及装置
CN117576402B (zh) 一种基于深度学习的多尺度聚合Transformer遥感图像语义分割方法
CN114677479A (zh) 一种基于深度学习的自然景观多视图三维重建方法
CN112329808A (zh) 一种Deeplab语义分割算法的优化方法及系统
CN115511759A (zh) 一种基于级联特征交互的点云图像深度补全方法
CN114119974A (zh) 基于改进PSPNet的语义分割模型
CN116222577A (zh) 闭环检测方法、训练方法、系统、电子设备及存储介质
CN108154522B (zh) 目标追踪系统
CN117152580A (zh) 双目立体视觉匹配网络构建方法及双目立体视觉匹配方法
KR20230026296A (ko) 이미지 처리 방법, 모델 훈련 방법, 전자기기, 자율주행 차량, 저장매체 및 컴퓨터 프로그램
CN114066750B (zh) 一种基于域变换的自编码器去模糊方法
CN113222016B (zh) 一种基于高层和低层特征交叉增强的变化检测方法及装置
CN115471718A (zh) 基于多尺度学习的轻量级显著性目标检测模型的构建和检测方法
CN110490235B (zh) 一种面向2d图像的车辆对象视点预测与三维模型恢复方法及装置
CN114417946A (zh) 目标检测方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication