CN112381097A - 一种基于深度学习的场景语义分割方法 - Google Patents

一种基于深度学习的场景语义分割方法 Download PDF

Info

Publication number
CN112381097A
CN112381097A CN202011279994.7A CN202011279994A CN112381097A CN 112381097 A CN112381097 A CN 112381097A CN 202011279994 A CN202011279994 A CN 202011279994A CN 112381097 A CN112381097 A CN 112381097A
Authority
CN
China
Prior art keywords
feature
network
image
convolution
semantic segmentation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011279994.7A
Other languages
English (en)
Inventor
赵成明
陈金令
李洁
何东
王熙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southwest Petroleum University
Original Assignee
Southwest Petroleum University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southwest Petroleum University filed Critical Southwest Petroleum University
Priority to CN202011279994.7A priority Critical patent/CN112381097A/zh
Publication of CN112381097A publication Critical patent/CN112381097A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于深度学习的场景语义分割方法。该方法包括了训练阶段和测试阶段,在训练阶段,先使用Resnet101在COCO数据集上预训练得到预训练模型,再将预训练模型加载到构建的卷积神经网络中提取低水平特征图像,之后将低水平特征图像依次通过特征增强网络、自适应可变形空洞空间卷积池化金字塔网络和特征注意力网络进行高水平的特征提取和特征融合,最后通过上采样操作输出语义分割的Mask图,并获得卷积神经网络语义分割模型权重;在测试阶段,将PASCAL VOC 2012或者Cityscapes测试数据集输入到卷积神经网络语义分割模型权重中,得到预测的语义分割Mask图。本发明在上述方法中可以提高目标图像的边界轮廓精度和场景语义分割的准确度。

Description

一种基于深度学习的场景语义分割方法
技术领域
本发明涉及一种计算机视觉技术,涉及图像语义分割领域,特别是涉及一种基于深度学习的场景语义分割方法。
背景技术
Hinton等人在2006年提出了深度学习的基本概念,并逐步应用于计算机视觉领域,例如图像、声音和文本等领域,加快解决了计算机视觉领域复杂任务的步伐并提升了各类任务的准确度。
在图像分类任务中,通过随后几年的发展,提出像AlexNet、VGG、GoogLeNet、Resnet、Inception等一系列的经典网络,这些网络依旧活跃在现在的卷积神经网络中,例如Resnet、Inception会应用于图像分割、目标检测等任务中,以主干网络的方式提取图像的特征,方便应用于下游网络训练,一个好的主干网络也会影响整个任务的精度,因此有必要选择一个符合计算机视觉任务的主干网络。
在图像分割任务中,近几年时间里相继提出了比较经典的深度学习网络架构,例如FCN、Segnet、Unet、DeepLab系列等,这些网络的主要思想都是以一个编码-解码(encoder-decoder)的方式对目标类别进行语义分割。
语义分割是一个较为典型的计算机视觉问题,它涉及到将一些原始数据 (如图像)作为输入,并将图像自动的转换为指定突出显示的感兴趣区域的掩模。通常人们使用术语全像素语义分割(full-pixel semantic segmentation),其中图像中的每一个像素会根据所属的感兴趣区域而被自动分配到一个类别ID,最终通过设置不同颜色的Mask图呈现出来,并且语义分割可以应用的领域包括自动驾驶、医疗影像分析、服装分类、地质检测-土地使用情况等多种方向,能够提高商业价值。
现有的研究方法能够实现对目标类别的图像分割,但也存在着一些不足点,这些不足点主要体现在目标轮廓不能细致划分和识别,因此,为了对目标场景进行准确的语义分割,需要考虑到不同场景类别会有不同的形变能力,怎样对这些具有多种形变能力的图像进行较好的建模塑造,就是提升深度学习网络对场景分割的精确度的关键。
发明内容
针对现有技术不足的情况,本发明的目的在于提供一种基于深度学习的场景语义分割方法,可以有效的提高目标轮廓的识别的精度。
本发明采用的技术方案为:一种基于深度学习的场景语义分割方法,包括主干网络、特征增强网络(FE)、自适应可变形空洞空间卷积池化金字塔网络 (ADASP)以及特征注意力网络(FAN);
所述主干网络采用Resnet101在COCO数据集上预训练得到预训练模型,之后将预训练模型加载到主干网络中进行特征提取,得到低水平的特征图像,另外,此预训练模型包括了1个convolution层(conv1_x)、1个maxpool层、4个残差残差连接块,其中第一个残差连接块(conv2_x)包含有3个残差块,6个1 ×1的卷积层和3个3×3的卷积层,第二个残差连接块(conv3_x)包含有4个残差块,8个1×1的卷积层和4个3×3的卷积层,第三个残差连接块(conv4_x) 包含有23个残差块,46个1×1的卷积层和23个3×3的卷积层,第四个残差连接块(conv5_x)包含有3个残差块,6个1×1的卷积层和3个3×3的卷积层,最后通过平均池化层、全连接层以及softmax层输出预训练模型结果,每一个残差连接块都进行了残差连接,这样做的目的在于增强了上下文本信息,若将 Resnet101作为主干网络则去掉最后的平均池化层、全连接层以及softmax层;
所述特征增强网络能够对主干网络提取的低水平特征图像进行一定程度的细化增强,此特征增强网络包含了1个1×1的卷积层、1个3×3的自适应可变形卷积层和1个3×3的卷积层,每个卷积层串联,进一步增强了上下文本信息;
所述自适应可变形空洞空间卷积池化金字塔网络在ASPP的基础上增加了自适应可变形卷积,对特征增强后的特征图像进行自适应可变形的特征提取,然后将提取后的特征图像传送到拥有不同感受野的模块当中,且此模块含有不同空洞卷积率,以便进行多尺度的特征提取,确保融合了上下文本信息,最后通过一个1×1的卷积进行特征融合,并减少融合后的通道数,减小后面网络的计算复杂度,提高计算速度;
所述特征注意力网络是将Resnet101中低水平的特征图与经过ADASP 处理之后的高水平特征图进行逐步特征融合的过程。
为了能够进一步解决上诉的技术问题,本发明提供了一种基于深度学习的场景语义分割方法,所述方法步骤包括:
S1,获取目标图像;
S2,将目标图像送入主干网络Resnet101中,进行低水平特征提取,得到特征图像A1、A2、A3、A4
S3,将特征图像A4送入特征增强网络,细化并增强一部分上下文本信息,得到特征图像B;
S4,将特征图像B送入ADASP中,得到高水平的特征图像C;
S5,将特征图像A3、B和C送入到FAN中,得到特征图像D1、D2
S6,最后将特征图像进行上采样得到最终的Mask图。
进一步的,所述网络预设训练epoch为100-200次。
进一步的,对于所述步骤S1,有:
将训练数据集图像进行数据预处理,图像随机上下翻转、随机尺寸裁剪等一系列的数据增强操作;
进一步的,对于所述步骤S2,有:
将主干网络Resnet101经过conv2_x得到特征图像A1,conv3_x得到特征图像A2,conv4_x得到特征图像A3,conv5_x得到特征图像A4
进一步的,对于所述步骤S3,有:
将主干网络Resnet101最后一层得到的特征图像A4送入到特征增强网络中,细化并增强一部分上下文本信息,得到特征图像B;
进一步的,对于所述步骤S4,有:
将经过特征增强网络之后的特征图像B送入到ADASP中,得到高水平的特征图像C,其中,自适应可变形卷积(Adaptive deformable convolution)采用的卷积核为:
Figure BDA0002780458120000021
其中用W代表加权采样之和,网格k定义采样位置,用pk代表采样点在自适应可变形卷积核中的位置,sk表示对采样点pk的学习因子,Δpk表示可学习偏移量,Δmk表示可调制量,ck表示对可调制量Δmk的学习因子,其中,sk∈[0,1],Δmk∈[0,1],ck∈[0,1],特别地,sk、ck、Δpk和Δmk来自于
Figure BDA0002780458120000031
输出通道的单独卷积,其中,2k输出通道模拟空间偏移量Δpk,连续的k个输出通道对应于调制量Δmk,用Sigmoid函数激活,剩余的
Figure BDA0002780458120000032
个通道是sk和ck在空间维度上与Δpk和Δmk作用的张量,它们的学习率是当前层学习率的0.1倍;
自适应可变形卷积相比于普通卷积的最大不同点在于能以非固定的卷积尺寸大小对特征图像进行采样,这样操作的目的在于能极大的适应目标图像的各种形变能力,还能增强网络的建模能力;
进一步的,对于所述步骤S5,有:
将特征图像A3、B和C一起送入到第一个FAN中进行低水平特征与高水平特征的融合,最终会得到特征图像D1、D2,D2与C进行相加操作,得到特征图像E1,特征图像A2、D1和E1经过第二个FAN会得到特征图像D3、D4,然后,将D4和E1同样进行相加操作得到E2,最后将A1、D3和E2经过第三个FAN输出较高水平的特征图D5
此FAN结构与Global Attention Upsample(GAU)结构相似,最大的不同点在于将GAU中的普通卷积替换成自适应可变形卷积,以获取特征图像的边缘特征,增强了边界的分割能力;
进一步的,对于所述步骤S6,有
将特征图像D5与E2进行相加操作之后,通过最后的一个3×3的上采样操作输出Mask图。
进一步的,本发明使用的语义分割数据集为PASCAL VOC 2012和 Cityscapes。
进一步的,针对于所述的自适应可变形空洞空间卷积池化金字塔网络 (ADASP),其采用了四种不同的空洞卷积分支和一个平均池化层,当网络的 output stride=16时,四个不同的空洞卷积分支的采样率大小分别为1、6、12、18, output stride=8时,四个不同的空洞卷积分支的采样率大小分别为1、12、24、36。
进一步的,采用学习率衰减策略对场景分割网络进行训练,随着网络迭代次数的增加,设置的初始学习率会逐步减小,此方法能够保证训练模型的稳定性,从而使模型接近最优解。
进一步的,设置网络的初始学习率lr为0.006,在训练过程中使用公式 (I)对学习率进行衰减,训练过程中采用公式(II)对每个类别计算损失,其损失函数为交叉熵损失函数:
Figure BDA0002780458120000033
公式(I)中,iter指代当前场景语义分割网络的训练迭代次数,maxiter 指代场景语义分割网络中训练的最大迭代次数;
Loss=-∑clytlog(yp) (II)
公式(II)中,yt代表真实的标签,yp代表预测的标签,cl代表多个类别数。
进一步的,训练结果通过像素精度(AP)和平均交并比(MIoU)对语义分割网络进行评价,其公式分别为(III)和(IV):
Figure BDA0002780458120000041
Figure BDA0002780458120000042
其中,nii代表真实分割标签是第i类,预测也为第i类的正确像素点数, nji代表真实分割标签是第i类,但是预测为第j类的错误像素点数,ti代表真实分割标签是第i类的像素总数,ncl代表标签类别总数。
本发明的优点:
1)本发明构建了基于深度学习的卷积神经网络,使用了标准的场景数据集PASCALVOC 2012和Cityscapes,可以将图像送到卷积神经网络中进行端到端的训练,并且能够得到场景语义分割训练模型,之后可以将要语义分割的场景图像送入到已训练好的分割模型中,最后输出场景图像对应的预测场景语义分割的Mask图。
2)本发明通过发明了自适应可变形卷积,并将自适应可变形卷积添加到现有的ASPP网络中,构建出了ADASP网络,而自适应可变形卷积相比于普通卷积的最大不同点在于,自适应可变形卷积能以非固定的卷积尺寸大小对特征图像进行采样,这样操作的目的在于能极大的适应目标图像的各种形变能力,还能增强网络的建模能力,针对现有网络对目标物体不能很好的分割出边界轮廓做出提升。
3)本发明融合了不同尺度的特征图像以及高低水平特征图像,这样操作的目的在于可以丰富上下文本信息,对提升训练模型的精度有帮助。
附图说明
图1为本发明方法所提出的总体实现框图;
图2为本发明方法所提出的特征增强网络(FE);
图3为本发明方法所提出的自适应可变形空洞空间卷积池化金字塔网络(ADASP);
图4为本发明方法所提出的特征注意力网络(FAN);
图5为本发明方法所提出的自适应可变形卷积特征提取方法中的采样点分布示意图;
图6为本发明提出的场景语义分割方法在PASCAL VOC 2012数据集中用于语义分割的结果展示图;
图7为本发明提出的场景语义分割方法在Cityscapes数据集中用于语义分割的结果展示图。
具体实施方式
本发明的核心思想是提供一种基于深度学习的场景语义分割方法,该方法可以有效的辨别场景轮廓的识别精度,从而提高MIoU。为了使本发明的目的、技术方案以及优点更加清楚明白,将会结合附图以及实施例,对本发明进一步的详细说明,以下所描述的具体实施例仅仅用于解释本发明,并不用于限定本发明的主要思想。
本发明实施例及其实施过程如下,其卷积神经网络的总体实现框图如图 1所示,其包括了训练阶段和测试阶段两个过程;
步骤1:选择语义分割训练数据集;本实施例中选择的是PASCAL VOC 2012作为训练测试基准。
步骤2:建立特征提取模块。使用Resnet101网络构建特征提取模块,在 Resnet101中,conv1包含了7×7的卷积核,输出通道为64,stride为2;conv2_x 包含了3×3的最大池化层,stride为2,有3个[1×1,64;3×3,64;1×1,256]这样的残差块,且通过跳跃连接;conv3_x包含有4个[1×1,128;3×3,128;1×1, 512]这样的残差块,且通过跳跃连接;conv4_x包含有23个[1×1,256;3×3,256; 1×1,1024]这样的残差块,且通过跳跃连接;conv5_x包含有3个[1×1,512;3×3, 512;1×1,2048]这样的残差块,且通过跳跃连接;最后通过平均池化层、全连接层以及softmax输出结果。
步骤3:使用特征提取模块进行预训练。利用COCO数据集对步骤2构建的特征提取模块进行预训练得到预训练模型,该模型能够得到一个良好的初始值,对加快网络训练以及精度有所帮助。
步骤4:将步骤2中的特征提取模块去掉全连接层和softmax就变成了场景语义分割模型中的主干网络,可将PASCALVOC 2012数据集中原始图像输入其中进行低水平的特征提取,得到特征图像A1、A2、A3、A4
步骤5:将特征图像A4送入特征增强网络,细化并增强一部分上下文本信息,得到特征图像B。
步骤6:将经过特征增强网络之后的特征图像B送入到ADASP中,得到高水平的特征图像C,其中,自适应可变形卷积采用的卷积核为:
Figure BDA0002780458120000051
其中用W代表加权采样之和,网格k定义采样位置,用pk代表采样点在自适应可变形卷积核中的位置,sk表示对采样点pk的学习因子,Δpk表示可学习偏移量,Δmk表示可调制量,ck表示对可调制量Δmk的学习因子,其中,sk∈[0,1],Δmk∈[0,1],ck∈[0,1],特别地,sk、ck、Δpk和Δmk来自于
Figure BDA0002780458120000052
输出通道的单独卷积,其中,2k输出通道模拟空间偏移量Δpk,连续的k个输出通道对应于调制量Δmk,用Sigmoid函数激活,剩余的
Figure BDA0002780458120000053
个通道是sk和ck在空间维度上与Δpk和Δmk作用的张量,它们的学习率是当前层学习率的0.1倍;
自适应可变形卷积相比于普通卷积的最大不同点在于能以非固定的卷积尺寸大小对特征图像进行采样,这样操作的目的在于能极大的适应目标图像的各种形变能力,还能增强网络的建模能力。
步骤7:将特征图像A3、B和C一起送入到第一个FAN中进行低水平特征与高水平特征的融合,最终会得到特征图像D1、D2,D2与C进行相加操作,得到特征图像E1,特征图像A2、D1和E1经过第二个FAN会得到特征图像D3、D4,然后,将D4和E1同样进行相加操作得到E2,最后将A1、D3和E2经过第三个FAN 输出较高水平的特征图D5
步骤8:将特征图像D5与E2进行相加操作之后,通过最后的一个3×3的上采样操作输出Mask图。
图2为本发明方法所提出的特征增强网络(FE),该网络使用了一个1×1 的普通卷积、1个3×3的自适应可变形卷积和1个3×3的普通卷积对特征图像B 进行细化增强操作。
图3为本发明方法所提出的自适应可变形空洞空间卷积池化金字塔网络(ADASP),在该网络中将自适应可变形卷积添加到各个普通卷积和空洞卷积之前,其它保持不变,这样既能获取多尺度的特征图像,又能保证边缘轮廓被充分采样。
图4为本发明方法所提出的特征注意力网络(FAN),该注意力网络能够将主干网络中低水平的特征图像和解码结构中的高水平特征图像相互融合在一起,充分利用了图像的上下文本信息,可以使得解码后的Mask图像更加符合原始目标标签。
图5为本发明方法所提出的自适应可变形卷积特征提取方法中的采样点分布示意图,自适应可变形卷积能够以非固定的卷积尺寸大小对特征图像进行采样,这样操作的目的在于能极大的适应目标图像的各种形变能力,还能增强网络的建模能力。
为了进一步验证本发明方法的可行性和有效性,进行了实验。
使用了pytorch框架搭建本发明的卷积神经网络。采用PASCAL VOC 2012测试集来验证本发明的方法预测得到场景语义分割Mask图,通过利用2个常用的客观量作为语义分割方法的评价指标,即像素精度(Pixel Acurracy,PA) 以及平均交并比(MeanIntersection over Union,MIoU)来评价该卷积神经网络的分割性能。
表1利用本发明方法在PASCAL VOC 2012测试集上的评测结果
PA 94.58%
MIou 79.86%
图6为PASCAL VOC 2012数据集语义分割的结果展示图,其中第一行为原始图像,第二行为本发明方法语义分割Mask图,第三行为原始图像的标准 Mask图。
图7为Cityscapes数据集语义分割的结果展示图,其中第一列为原始图像,第二列为本发明方法语义分割Mask图,第三列为原始图像的标准Mask图。
由上述的实验可知,通过使用本发明方法构建的卷积神经网络得到的预测Mask图,分割的精确度较高,并且取得了较为显著的技术效果。

Claims (8)

1.一种基于深度学习的场景语义分割方法,其特征在于,网络结构包括主干网络、特征增强网络(FE)、自适应可变形空洞空间卷积池化金字塔网络(ADASP)以及特征注意力网络(FAN);
所述主干网络采用Resnet101在COCO数据集上预训练得到预训练模型,之后将预训练模型加载到主干网络中进行特征提取,得到低水平的特征图像,另外,此预训练模型包括了1个convolution层(conv1_x)、1个maxpool层、4个残差残差连接块,其中第一个残差连接块(conv2_x)包含有3个残差块,6个1×1的卷积层和3个3×3的卷积层,第二个残差连接块(conv3_x)包含有4个残差块,8个1×1的卷积层和4个3×3的卷积层,第三个残差连接块(conv4_x)包含有23个残差块,46个1×1的卷积层和23个3×3的卷积层,第四个残差连接块(conv5_x)包含有3个残差块,6个1×1的卷积层和3个3×3的卷积层,最后通过平均池化层、全连接层以及softmax层输出预训练模型结果,每一个残差连接块都进行了残差连接,这样做的目的在于增强了上下文本信息,若将Resnet101作为主干网络则去掉最后的平均池化层、全连接层以及softmax层;
所述特征增强网络能够对主干网络提取的低水平特征图像进行一定程度的细化增强,此特征增强网络包含了1个1×1的卷积层、1个3×3的自适应可变形卷积层和1个3×3的卷积层,每个卷积层串联,进一步增强了上下文本信息;
所述自适应可变形空洞空间卷积池化金字塔网络在ASPP的基础上增加了自适应可变形卷积,对特征增强后的特征图像进行自适应可变形的特征提取,然后将提取后的特征图像传送到拥有不同感受野的模块当中,且此模块含有不同空洞卷积率,以便进行多尺度的特征提取,确保融合了上下文本信息,最后通过一个1×1的卷积进行特征融合,并减少融合后的通道数,减小后面网络的计算复杂度,提高运行速度;
所述特征注意力网络是将Resnet101中低水平的特征图与ADASP之后高水平的特征图进行逐步特征融合的过程。
2.根据权利要求1所述的基于深度学习的场景语义分割方法,其特征在于,所述特征增强网络(FE)、自适应可变形空洞空间卷积池化金字塔网络(ADASP)以及特征注意力网络(FAN)包括一下六个步骤:
S1,获取目标图像;
S2,将目标图像送入主干网络Resnet101中,进行低水平特征提取,得到特征图像A1、A2、A3、A4
S3,将特征图像A4送入特征增强网络,细化并增强一部分上下文本信息,得到特征图像B;
S4,将特征图像B送入ADASP中,得到高水平的特征图像C;
S5,将特征图像A3、B和C送入到FAN中,得到特征图像D1、D2
S6,最后将特征图像进行上采样得到最终的Mask。
3.根据权利要求2所述的基于深度学习的场景语义分割方法,其特征在于,所述具体步骤为:
对于步骤S1,有:
将训练数据集图像进行数据预处理,图像随机上下翻转、随机尺寸裁剪等一系列的数据增强操作;
对于步骤S2,有:
将主干网络Resnet101经过conv2_x得到特征图像A1,conv3_x得到特征图像A2,conv4_x得到特征图像A3,conv5_x得到特征图像A4
对于步骤S3,有:
将主干网络Resnet101最后一层得到的特征图像A4送入到特征增强网络中,细化并增强一部分上下文本信息,得到特征图像B;
对于步骤S4,有:
将经过特征增强网络之后的特征图像B送入到ADASP中,得到高水平的特征图像C,其中,自适应可变形卷积(Adaptive deformable convolution)采用的卷积核为:
Figure FDA0002780458110000021
其中用W代表加权采样之和,网格k定义采样位置,用pk代表采样点在自适应可变形卷积核中的位置,sk表示对采样点pk的学习因子,Δpk表示可学习偏移量,Δmk表示可调制量,ck表示对可调制量Δmk的学习因子,其中,sk∈[0,1],Δmk∈[0,1],ck∈[0,1],特别地,sk、ck、Δpk和Δmk来自于
Figure FDA0002780458110000022
输出通道的单独卷积,其中,2k输出通道模拟空间偏移量Δpk,连续的k个输出通道对应于调制量Δmk,用Sigmoid函数激活,剩余的
Figure FDA0002780458110000023
个通道是sk和ck在空间维度上与Δpk和Δmk作用的张量,它们的学习率是当前层学习率的0.1倍;
自适应可变形卷积相比于普通卷积的最大不同点在于能以非固定的卷积尺寸大小对特征图像进行采样,这样操作的目的在于能极大的适应目标图像的各种形变能力,还能增强网络的建模能力;
对于步骤S5,有:
将特征图像A3、B和C一起送入到第一个FAN中进行低水平特征与高水平特征的融合,最终会得到特征图像D1、D2,D2与C进行相加操作,得到特征图像E1,特征图像A2、D1和E1经过第二个FAN会得到特征图像D3、D4,然后,将D4和E1同样进行相加操作得到E2,最后将A1、D3和E2经过第三个FAN输出较高水平的特征图D5
此FAN结构与Global Attention Upsample(GAU)结构相似,最大的不同点在于将GAU中的普通卷积替换成自适应可变形卷积,以获取特征图像的边缘特征,增强了边界的分割能力;
对于步骤S6,有:
将特征图像D5与E2进行相加操作之后,通过最后的一个3×3的上采样操作输出Mask。
4.根据权利要求3所述的基于深度学习的场景语义分割方法,其特征在于,所述的语义分割数据集为PASCAL VOC 2012、Cityscapes。
5.根据权利要求3所述的基于深度学习的场景语义分割方法,其特征在于,所述的自适应可变形空洞空间卷积池化金字塔网络(ADASP)采用了四种不同的空洞卷积分支和一个平均池化层,当网络的output stride=16时,四个不同的空洞卷积分支的采样率大小分别为1、6、12、18,output stride=8时,四个不同的空洞卷积分支的采样率大小分别为1、12、24、36。
6.根据权利要求3所述的基于深度学习的场景语义分割方法,其特征在于,当低水平的特征图像和高水平的特征图像进行特征融合的时候,将会进行双线性插值上采样操作,以确保特征维度的相同。
7.根据权利要求3所述的基于深度学习的场景语义分割方法,其特征在于,在训练过程中,设置网络的初始学习率lr为0.006,在训练过程中使用公式(I)对学习率进行衰减:
Figure FDA0002780458110000031
公式(I)中,iter指代当前场景语义分割网络的训练迭代次数,maxiter指代场景语义分割网络中训练的最大迭代次数;
训练过程中采用公式(II)对每个类别计算损失,其损失函数为交叉熵损失函数:
Loss=-∑clytlog(yp) (II)
公式(II)中,yt代表真实的标签,yp代表预测的标签,cl代表多个类别标签数。
8.根据权利要求3所述的基于深度学习的场景语义分割方法,其特征在于,训练结果最终主要通过像素精度(AP)和平均交并比(MIoU)对语义分割网络进行评价,其公式分别为(III)和(IV):
Figure FDA0002780458110000032
Figure FDA0002780458110000033
其中,nii代表真实分割标签是第i类,预测也为第i类的正确像素点数,nji代表真实分割标签是第i类,但是预测为第j类的错误像素点数,ti代表真实分割标签是第i类的像素总数,ncl代表标签类别总数。
CN202011279994.7A 2020-11-16 2020-11-16 一种基于深度学习的场景语义分割方法 Pending CN112381097A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011279994.7A CN112381097A (zh) 2020-11-16 2020-11-16 一种基于深度学习的场景语义分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011279994.7A CN112381097A (zh) 2020-11-16 2020-11-16 一种基于深度学习的场景语义分割方法

Publications (1)

Publication Number Publication Date
CN112381097A true CN112381097A (zh) 2021-02-19

Family

ID=74585530

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011279994.7A Pending CN112381097A (zh) 2020-11-16 2020-11-16 一种基于深度学习的场景语义分割方法

Country Status (1)

Country Link
CN (1) CN112381097A (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113033571A (zh) * 2021-03-31 2021-06-25 太原科技大学 基于增强特征融合的交通场景图像语义分割方法
CN113239825A (zh) * 2021-05-19 2021-08-10 四川中烟工业有限责任公司 一种复杂场景下高精度烟草甲虫检测方法
CN113256649A (zh) * 2021-05-11 2021-08-13 国网安徽省电力有限公司经济技术研究院 一种基于深度学习的遥感图像选站选线语义分割方法
CN113313105A (zh) * 2021-04-12 2021-08-27 厦门大学 一种办公转椅木板喷胶与贴棉区域识别方法
CN113362360A (zh) * 2021-05-28 2021-09-07 上海大学 基于流体速度场的超声颈动脉斑块分割方法
CN113486716A (zh) * 2021-06-04 2021-10-08 电子科技大学长三角研究院(衢州) 机场场面目标分割方法及其系统
CN113506310A (zh) * 2021-07-16 2021-10-15 首都医科大学附属北京天坛医院 医学图像的处理方法、装置、电子设备和存储介质
CN113658189A (zh) * 2021-09-01 2021-11-16 北京航空航天大学 一种跨尺度特征融合的实时语义分割方法和系统
CN113658188A (zh) * 2021-08-18 2021-11-16 北京石油化工学院 一种基于改进Unet模型的溶液结晶过程图像语义分割方法
CN113703045A (zh) * 2021-08-27 2021-11-26 电子科技大学 一种基于轻量级网络的地震相识别方法
CN113762396A (zh) * 2021-09-10 2021-12-07 西南科技大学 一种二维图像语义分割方法
CN113887459A (zh) * 2021-10-12 2022-01-04 中国矿业大学(北京) 一种基于改进Unet++的露天矿区采场变化区域检测方法
CN115439654A (zh) * 2022-11-07 2022-12-06 武汉数字家园科技有限公司 动态约束下的弱监督农田地块精细化分割方法及系统
CN117078692A (zh) * 2023-10-13 2023-11-17 山东未来网络研究院(紫金山实验室工业互联网创新应用基地) 一种基于自适应特征融合的医疗超声图像分割方法及系统

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110781895A (zh) * 2019-10-10 2020-02-11 湖北工业大学 一种基于卷积神经网络的图像语义分割方法
CN110782462A (zh) * 2019-10-30 2020-02-11 浙江科技学院 一种基于双流特征融合的语义分割方法
CN110826596A (zh) * 2019-10-09 2020-02-21 天津大学 一种基于多尺度可变形卷积的语义分割方法
CN111160276A (zh) * 2019-12-31 2020-05-15 重庆大学 基于遥感影像的u型空洞全卷积分割网络识别模型
US20200167930A1 (en) * 2017-06-16 2020-05-28 Ucl Business Ltd A System and Computer-Implemented Method for Segmenting an Image
US20200167929A1 (en) * 2018-03-15 2020-05-28 Boe Technology Group Co., Ltd. Image processing method, image processing apparatus, and computer-program product
CN111369563A (zh) * 2020-02-21 2020-07-03 华南理工大学 一种基于金字塔空洞卷积网络的语义分割方法
CN111401202A (zh) * 2020-03-11 2020-07-10 西南石油大学 一种基于深度学习的行人口罩佩戴实时检测方法
CN111539959A (zh) * 2020-07-13 2020-08-14 浙江省肿瘤医院(浙江省癌症中心) 基于跨层稀疏空洞卷积的甲状腺结节超声图像处理方法
CN111563508A (zh) * 2020-04-20 2020-08-21 华南理工大学 一种基于空间信息融合的语义分割方法
CN111680695A (zh) * 2020-06-08 2020-09-18 河南工业大学 一种基于反向注意力模型的语义分割方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200167930A1 (en) * 2017-06-16 2020-05-28 Ucl Business Ltd A System and Computer-Implemented Method for Segmenting an Image
US20200167929A1 (en) * 2018-03-15 2020-05-28 Boe Technology Group Co., Ltd. Image processing method, image processing apparatus, and computer-program product
CN110826596A (zh) * 2019-10-09 2020-02-21 天津大学 一种基于多尺度可变形卷积的语义分割方法
CN110781895A (zh) * 2019-10-10 2020-02-11 湖北工业大学 一种基于卷积神经网络的图像语义分割方法
CN110782462A (zh) * 2019-10-30 2020-02-11 浙江科技学院 一种基于双流特征融合的语义分割方法
CN111160276A (zh) * 2019-12-31 2020-05-15 重庆大学 基于遥感影像的u型空洞全卷积分割网络识别模型
CN111369563A (zh) * 2020-02-21 2020-07-03 华南理工大学 一种基于金字塔空洞卷积网络的语义分割方法
CN111401202A (zh) * 2020-03-11 2020-07-10 西南石油大学 一种基于深度学习的行人口罩佩戴实时检测方法
CN111563508A (zh) * 2020-04-20 2020-08-21 华南理工大学 一种基于空间信息融合的语义分割方法
CN111680695A (zh) * 2020-06-08 2020-09-18 河南工业大学 一种基于反向注意力模型的语义分割方法
CN111539959A (zh) * 2020-07-13 2020-08-14 浙江省肿瘤医院(浙江省癌症中心) 基于跨层稀疏空洞卷积的甲状腺结节超声图像处理方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
F. CHEN 等: "Adaptive deformable convolutional network", 《RESEARCHGATE在线公开》 *
F. WU 等: "Dynamic attention network for semantic segmentation", 《NEUROCOMPUTING》 *
L. CHEN 等: "DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Fully Connected CRFs", 《IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE》 *
何东 等: "基于改进YOLOV3的红外行人目标检测", 《中国科技论文》 *
陈峰: "基于深度学习的图像语义分割方法及其应用", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 *

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113033571A (zh) * 2021-03-31 2021-06-25 太原科技大学 基于增强特征融合的交通场景图像语义分割方法
CN113313105B (zh) * 2021-04-12 2022-07-01 厦门大学 一种办公转椅木板喷胶与贴棉区域识别方法
CN113313105A (zh) * 2021-04-12 2021-08-27 厦门大学 一种办公转椅木板喷胶与贴棉区域识别方法
CN113256649A (zh) * 2021-05-11 2021-08-13 国网安徽省电力有限公司经济技术研究院 一种基于深度学习的遥感图像选站选线语义分割方法
CN113239825A (zh) * 2021-05-19 2021-08-10 四川中烟工业有限责任公司 一种复杂场景下高精度烟草甲虫检测方法
CN113239825B (zh) * 2021-05-19 2022-08-19 四川中烟工业有限责任公司 一种复杂场景下高精度烟草甲虫检测方法
CN113362360A (zh) * 2021-05-28 2021-09-07 上海大学 基于流体速度场的超声颈动脉斑块分割方法
CN113486716A (zh) * 2021-06-04 2021-10-08 电子科技大学长三角研究院(衢州) 机场场面目标分割方法及其系统
CN113506310B (zh) * 2021-07-16 2022-03-01 首都医科大学附属北京天坛医院 医学图像的处理方法、装置、电子设备和存储介质
CN113506310A (zh) * 2021-07-16 2021-10-15 首都医科大学附属北京天坛医院 医学图像的处理方法、装置、电子设备和存储介质
CN113658188A (zh) * 2021-08-18 2021-11-16 北京石油化工学院 一种基于改进Unet模型的溶液结晶过程图像语义分割方法
CN113658188B (zh) * 2021-08-18 2022-04-01 北京石油化工学院 一种基于改进Unet模型的溶液结晶过程图像语义分割方法
CN113703045B (zh) * 2021-08-27 2022-11-15 电子科技大学 一种基于轻量级网络的地震相识别方法
CN113703045A (zh) * 2021-08-27 2021-11-26 电子科技大学 一种基于轻量级网络的地震相识别方法
CN113658189B (zh) * 2021-09-01 2022-03-11 北京航空航天大学 一种跨尺度特征融合的实时语义分割方法和系统
CN113658189A (zh) * 2021-09-01 2021-11-16 北京航空航天大学 一种跨尺度特征融合的实时语义分割方法和系统
CN113762396A (zh) * 2021-09-10 2021-12-07 西南科技大学 一种二维图像语义分割方法
CN113887459A (zh) * 2021-10-12 2022-01-04 中国矿业大学(北京) 一种基于改进Unet++的露天矿区采场变化区域检测方法
CN115439654A (zh) * 2022-11-07 2022-12-06 武汉数字家园科技有限公司 动态约束下的弱监督农田地块精细化分割方法及系统
CN117078692A (zh) * 2023-10-13 2023-11-17 山东未来网络研究院(紫金山实验室工业互联网创新应用基地) 一种基于自适应特征融合的医疗超声图像分割方法及系统
CN117078692B (zh) * 2023-10-13 2024-02-06 山东未来网络研究院(紫金山实验室工业互联网创新应用基地) 一种基于自适应特征融合的医疗超声图像分割方法及系统

Similar Documents

Publication Publication Date Title
CN112381097A (zh) 一种基于深度学习的场景语义分割方法
CN111259905B (zh) 一种基于下采样的特征融合遥感图像语义分割方法
CN111666836B (zh) M-f-y型轻量化卷积神经网络的高分辨率遥感影像目标检测方法
CN110428428B (zh) 一种图像语义分割方法、电子设备和可读存储介质
CN113159051B (zh) 一种基于边缘解耦的遥感图像轻量化语义分割方法
CN113033570B (zh) 一种改进空洞卷积和多层次特征信息融合的图像语义分割方法
CN109461157A (zh) 基于多级特征融合及高斯条件随机场的图像语义分割方法
CN114937151A (zh) 基于多感受野和注意力特征金字塔的轻量级目标检测方法
CN112488025B (zh) 基于多模态特征融合的双时相遥感影像语义变化检测方法
CN111612008A (zh) 基于卷积网络的图像分割方法
CN112766283B (zh) 一种基于多尺度卷积网络的两相流流型识别方法
CN113240683B (zh) 基于注意力机制的轻量化语义分割模型构建方法
CN113642390A (zh) 一种基于局部注意力网络的街景图像语义分割方法
CN113393370A (zh) 中国书法文字图像风格迁移的方法、系统、智能终端
CN111882620A (zh) 一种基于多尺度信息道路可行驶区域分割方法
CN115620010A (zh) 一种rgb-t双模态特征融合的语义分割方法
CN112070040A (zh) 一种用于视频字幕的文本行检测方法
CN113298817A (zh) 一种准确率高的遥感图像语义分割方法
CN114332473A (zh) 目标检测方法、装置、计算机设备、存储介质及程序产品
CN115330703A (zh) 基于上下文信息融合的遥感影像云与云阴影检测方法
CN116310339A (zh) 基于矩阵分解增强全局特征的遥感图像分割方法
CN115171074A (zh) 一种基于多尺度yolo算法的车辆目标识别方法
CN115908793A (zh) 一种基于位置注意力机制的编解码结构语义分割模型
CN112818777B (zh) 一种基于密集连接与特征增强的遥感图像目标检测方法
CN111612803B (zh) 一种基于图像清晰度的车辆图像语义分割方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20210219