CN111259983B - 基于深度学习的图像语义分割方法及存储介质 - Google Patents

基于深度学习的图像语义分割方法及存储介质 Download PDF

Info

Publication number
CN111259983B
CN111259983B CN202010091095.8A CN202010091095A CN111259983B CN 111259983 B CN111259983 B CN 111259983B CN 202010091095 A CN202010091095 A CN 202010091095A CN 111259983 B CN111259983 B CN 111259983B
Authority
CN
China
Prior art keywords
semantic segmentation
feature
module
level features
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010091095.8A
Other languages
English (en)
Other versions
CN111259983A (zh
Inventor
程博
管庆
元楚楚
潘晔
胡全
汪浩翔
文卓豪
雍怡然
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202010091095.8A priority Critical patent/CN111259983B/zh
Publication of CN111259983A publication Critical patent/CN111259983A/zh
Application granted granted Critical
Publication of CN111259983B publication Critical patent/CN111259983B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于深度学习的图像语义分割方法及存储介质,图像语义分割方法包括在特征提取网络后串联一个平均全局池化层和全连接层作为分类的预训练模型,并采用Imagenet‑1K数据集对预训练模型进行分类训练;将训练后的预训练模型中的特征提取网络与轻量级ASPP模块和两个特征增强模块依次连接构成语义分割模型;通过翻转、旋转和缩放对数据集cityscapes进行扩充,并采用扩充后的数据集对语义分割模型进行训练,得到目标语义分割模型;将预处理后的新图片输入目标语义分割模型,在目标语义分割模型中进行一次前向传播,端到端地输出预测的语义分割结果。

Description

基于深度学习的图像语义分割方法及存储介质
技术领域
本发明涉及图像处理技术,具体涉及一种基于深度学习的图像语义分割方法及存储介质。
背景技术
当前绝大多数最佳的图像语义分割方法多是以deeplabv3+为基础的编码器-解码器框架。编码器部分:首先deeplabv3+通过在ImagNet数据集上预训练resnet得到特征提取网络,但下采样会降低特征的分辨率,导致信息丢失,于是将最后一个残差块的普通卷积替代为空洞卷积,这个残差块内的每个卷积都使用了不同的扩张率来捕捉多尺度的语境信息。然后,将提取的特征输入到ASPP模块。ASPP模块将输入的特征同时输出到五个模块中,第一个模块采用平均池化对特征进行融合,使得编码模块最后的特征图能够融合图像的多尺度信息,可以提高小目标的分割精度。第2到第5个模块采用了不同膨胀率的空洞卷积对特征进行提取,获得4种拥有不同感受野的特征,膨胀率分别是1,6,12,18。ASPP输出的特征通道数一般来说会很大,所以之后将这五个模块的输出作concat,然后通过一个1x1的卷积层,降低特征的通道数到需要的数值,最后得到编码部分的输出。
解码器部分:编码器输出的特征虽然能够提供丰富的语义信息,但是多次下采样操作会导致特征边界信息丢失,如果直接上采样到原图尺寸会导致语义分割结果的物体边界模糊,分割精度会很低。于是首先将编码模块的输出进行四倍的上采样操作,然后从特征提取网络中选择一张分辨率一致的特征图,这张特征图进行1x1的普通卷积扩大通道数并使之与四倍上采样得到的输出一致,然后将这两部分特征进行concat,最后通过3x3的普通卷积和四倍的上采样得到预测结果。
尽管空洞残差模块和ASPP使得deeplabv3+在图像语义分割上获得了较高的精度,但过大的计算量导致其无法进行实时的场景处理,同时大量的膨胀卷积会导致网格效应,同时直接将上下文特征concat后上采样的解码方式过于粗糙。
发明内容
针对现有技术中的上述不足,本发明提供的基于深度学习的图像语义分割方法及存储介质解决了现有技术中图像语义分割方法运算量大的问题。
为了达到上述发明目的,本发明采用的技术方案为:
第一方面,提供一种基于深度学习的图像语义分割方法,其包括:
在特征提取网络后串联一个平均全局池化层和全连接层作为分类的预训练模型,并采用Imagenet-1K数据集对预训练模型进行分类训练;
将训练后的预训练模型中的特征提取网络与轻量级ASPP模块和两个特征增强模块依次连接构成语义分割模型;
通过翻转、旋转和缩放对数据集cityscapes进行扩充,并采用扩充后的数据集对语义分割模型进行训练,得到目标语义分割模型;
将预处理后的新图片输入目标语义分割模型,在目标语义分割模型中进行一次前向传播,端到端地输出预测的语义分割结果。
进一步,所述特征增强模块包括双通道注意力模块、空间注意力模型和特征融合模块;
所述采用扩充后的数据集对语义分割模型进行训练,得到目标语义分割模型进一步包括:
S1、于扩充后的数据集中随机选取一张图片输入语义分割模型中的特征提取网络得到分辨率为原图1/32的特征图;
S2、将特征图输入轻量级ASPP模块进行融合,得到融合多尺度信息的高级特征;
S3、第一个特征增强模块的空间注意力模块和双通道注意力模块对高级特征和特征提取网络中间部分跳接而来的低级特征进行修正,分别得到修正后的高级特征和低级特征;
S4、将修正后得到的高级特征和低级特征输入第一个特征增强模块的特征融合模块得到高级特征;
S5、采用第二个特征增强模块的空间注意力模块和双通道注意力模块对第一个特征增强模块输出的高级特征和特征提取网络中间部分跳接而来的低级特征进行修正,分别得到再次修正后的高级特征和低级特征;
S6、将再次修正后得到的高级特征和低级特征输入第二个特征增强模块的特征融合模块得到最终的高级特征,并对最终的高级特征进行上采样完成一次迭代,并将训练迭代次数累加一次;
S7、判断训练迭代次数是否大于等于预设迭代次数,若是,进入步骤S8,否则返回步骤S1;
S8、完成语义分割模型的训练,得到目标语义分割模型。
第二方面,提供一种计算机可读存储介质,所述计算机可读存储介质上存储有图像语义分割程序,所述图像语义分割程序被处理器执行时实现图像语义分割方法的步骤。
采用上述方案后,本发明的有益效果为:
(1)本方案的语义分割方法采用预训练好的特征提取网络做基础模型进行特征提取,得到的特征经过轻量级ASPP模块可以在速度和精度上取得提升。
(2)现在常用的特征融合只是将高低级别特征做concat或者sum操作,无法剔除特征中伴有的噪声,而本方案在特征融合前分别让高低级特征经过空间注意力模块和双通道注意力模块,剔除特征中的噪声,在只消耗微量计算的情况下提升网络分割的精度。
附图说明
图1为基于深度学习的图像语义分割方法的流程图。
图2为本方案的语义分割模型的结构图。
图3为本方案的特征增强模块的结构图。
图4为本方案的双通道注意力模块的结构图。
图5为本方案的空间注意力模块的结构图。
图6为本方案的特征融合模块的结构图。
图7为本方案的轻量级ASPP模块的结构图。
具体实施方式
下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
参考图1,图1示出了基于深度学习的图像语义分割方法的流程图;如图1所示,该方法100包括步骤101至步骤104。
在步骤101中,在特征提取网络后串联一个平均全局池化层和一个输出为1000的全连接层作为分类的预训练模型,并采用Imagenet-1K数据集对预训练模型进行分类训练,参见表1。
表1为训练后的预训练模型
Figure BDA0002383749480000051
Imagenet-1K数据集包含1K个类别,由1,281,167张训练集,50000张验证集,100000张测试集组成。在对预训练模型进行分类训练时,其训练策略为:
输入为统一resize为224×224,batch_size为256,优化策略为SGD随机梯度下降法,正则项系数weight_decay为0.0001,动量参数power为0.9,损失函数为交叉熵损失函数,先使用0.1的学习率训练5轮,然后使用0.8的学习率训练80轮。
在步骤102中,将训练后的预训练模型中的特征提取网络与轻量级ASPP模块和两个特征增强模块依次连接构成语义分割模型;语义分割模型的结构图可以参考图2。
其中,特征增强模块包括双通道注意力模块、空间注意力模型和特征融合模块,特征增强模块的结构图可以参考图3。
在步骤103中,通过翻转、旋转和缩放对数据集cityscapes进行扩充,并采用扩充后的数据集对语义分割模型进行训练,得到目标语义分割模型;
本实例中数据集cityscapes包含2975张训练集,500张验证集,1525张测试集。在训练集中随机选取一半进行-10和10度旋转,在训练集中随机选取一半进行0.5和2倍的缩放,通过旋转和缩放操作后,数据集cityscapes扩充为原来的3倍,在此基础上进行水平镜像翻转,训练集cityscapes扩充为原来的6倍。
在本发明的一个实施例中,所述采用扩充后的数据集对语义分割模型进行训练,得到目标语义分割模型进一步包括步骤S1至步骤S8。
在步骤S1中,于扩充后的数据集中随机选取一张图片输入语义分割模型中的特征提取网络得到分辨率为原图1/32的特征图;
实施时,本方案优选所述特征提取网络由五部分串联构成,其中一、二部分均为步长为2的3x3标准卷积;
第三部分和第四部分相同,均由1个过渡层和2个密集连接层串联而成,过渡层由两个并联支路组成,两个支路的输入相同,一个支路是步长为2的3x3标准卷积串联一个步长为1的3x3标准卷积,另一个支路是步长为2的1x1标准卷积,两个支路的输出相加作为与其连接的密集连接层的输入,两个密集连接层都是由两个步长为1的3x3标准卷积串联而成的标准残差结构;
第五部分由1个过渡层、2个密集连接层和1个过渡层串联而成,第五部分的第一个过渡层和2个密集连接层与第三部分的组成结构相同,第二个过渡层由两个并联支路组成,两个支路的输入相同,一个支路是步长为1的3x3标准卷积串联一个步长为1的3x3标准卷积,另一个支路是步长为1的1x1标准卷积,两个支路的输出相加作为特征提取网络的输出。
在步骤S2中,将特征图输入轻量级ASPP模块进行融合,得到融合多尺度信息的高级特征。
在本发明的一个实施例中,所述轻量级ASPP模块(轻量级ASPP模块的结构图可以参考图7)包括三个支路,特征提取网络的输出作为轻量级ASPP模块的输入特征,输入特征并行输入到轻量级ASPP模块的三个支路进行处理:
第一个支路经过全局平均池化,步长为1的1x1标准卷积降维,上采样到输入时的分辨率,输出结果为aspp1;第二个支路直接经过步长为1的1x1标准卷积降维,输出结果为aspp2;
第三个支路先经过分组为4,膨胀率为4,步长为1的3x3卷积,输出记为temp1,temp1先经过步长为1的3x3标准卷积输出aspp3;temp1再经过分组为4,膨胀率为9,步长为1的3x3卷积,输出记为temp2,temp1与temp2逐点相加得到temp3,temp3先经过步长为1的3x3标准卷积输出aspp4,temp3再经过分组为4,膨胀率为16,步长为1的3x3卷积,输出记为temp4,temp3与temp4逐点相加得到temp5,temp5经过步长为1的3x3标准卷积输出aspp5;
将轻量级ASPP模块的输入特征、aspp1、aspp2、aspp3、aspp4和aspp5级联,aspp1、aspp2、aspp3、aspp4、aspp5通道都是128,然后接入到步长为1的3x3标准卷积降维到512,再经过步长为1的1x1标准卷积降维到32得到轻量级ASPP模块的输出。
采用上述结构的轻量级ASPP模块后,可以减轻原始ASPP导致的网格效应,可以提升精度。
在步骤S3中,第一个特征增强模块的空间注意力模块和双通道注意力模块对高级特征和特征提取网络中间部分跳接而来的低级特征进行修正,分别得到修正后的高级特征和低级特征;
步骤S3中高级特征和特征提取网络中间部分跳接而来的低级特征均作为第一个特征增强模块的空间注意力模块和双通道注意力模块内均输入特征。
在步骤S4中,将修正后得到的高级特征和低级特征输入第一个特征增强模块的特征融合模块得到高级特征;
在步骤S5中,采用第二个特征增强模块的空间注意力模块和双通道注意力模块对第一个特征增强模块输出的高级特征和特征提取网络中间部分跳接而来的低级特征进行修正,分别得到再次修正后的高级特征和低级特征;
步骤S5中第一个特征增强模块输出的高级特征和特征提取网络中间部分跳接而来的低级特征均作为第二个特征增强模块的空间注意力模块和双通道注意力模块内均输入特征。
在步骤S6中,将再次修正后得到的高级特征和低级特征输入第二个特征增强模块的特征融合模块得到最终的高级特征,并对最终的高级特征进行上采样完成一次迭代,并将训练迭代次数累加一次。
如图3和图6所示,实施时,本方案优选两个特征融合模块得到高级特征的实现方法包括:
输入的高级特征首先经过上采样使分辨率与输入的低级特征相同,然后低级特征与高级特征级联,级联后先做3x3标准卷积混洗,然后作1x1标准卷积降维通道到32作为高级特征输出。
在步骤S7中,判断训练迭代次数是否大于等于预设迭代次数,若是,进入步骤S8,否则返回步骤S1;
在步骤S8中,完成语义分割模型的训练,得到目标语义分割模型。
在训练语义分割模型过程中,其训练策略为:
网络输入为随机裁剪后的1024*1024,batch_size为12,优化策略为SGD,正则项系数weight_decay为0.0001,动量参数power为0.9,
其中,初始学习率设置为0.005,分别在100轮、200轮、300轮、400轮迭代后对学习率进行衰减,衰减系数为0.1,损失函数为交叉熵损失。
在步骤104中,将预处理后的新图片输入目标语义分割模型,在目标语义分割模型中进行一次前向传播,端到端地输出预测的语义分割结果。
下面以一个小实例对步骤104进行说明,输入分辨率为2048*1024的图像首先经过特征提取网络得到分辨率为原图1/32的特征图,然后特征图经过轻量级ASPP模块得到融合多尺度信息的高级特征,通过空间注意力模块修正高级特征,通过双通道注意力模块修正由特征提取网络第四部分跳接后降维而来的低级特征,将修正后的高低级特征输入特征融合模块得到分辨率为原图1/16的高级特征。经过两次修正和融合后,特征图分辨率为原图1/8,接着经过一个3×3的卷积将特征通道数改为待分割类别的数目,再经过8倍上采样得到分割预测结果。
在本发明的一个实施例中,两个双通道注意力模块(双通道注意力模块的结构图可以参考图4)得到修正后低级特征进一步包括:
高级特征首先输入一个通道权值提取模块,所述通道权值提取模由两个并行支路组成:一个支路对高级特征做平均全局池化得到特征图
Figure BDA0002383749480000101
然后做1/4降维的全连接+relu激活得到特向向量
Figure BDA0002383749480000102
最后做一个升维4倍的全连接得到特征向量
Figure BDA0002383749480000103
另一个支路首先做极大值全局池化得到特征图
Figure BDA0002383749480000104
然后做降维的全连接+relu激活得到特向向量
Figure BDA0002383749480000105
最后做一个升维的全连接得到特征向量
Figure BDA0002383749480000106
接着将两个升维后的特征向量
Figure BDA0002383749480000107
和特征向量
Figure BDA0002383749480000108
相加,再做sigmoid归一化得到向量
Figure BDA0002383749480000109
将向量
Figure BDA00023837494800001010
与特征提取网络中间部分跳接而来的低级特征逐通道相乘,得到通道权重修改后的低级特征
Figure BDA00023837494800001011
实施时,本方案优选两个空间注意力模块(空间注意力模块的结构图可以参考图5)得到修正后高级特征进一步包括:
输入的低级特征首先经过1x1的标准卷积降维1/4,分辨率不变,得到特征图Ldown,然后经过1x1的标准卷积升维4倍得到特征图Lup,对特征图Lup作sigmoid操作得到特征图
Figure BDA00023837494800001012
首先将输入的高级特征M与特征图
Figure BDA00023837494800001013
逐点相乘,得到空间权重修改后的高级特征
Figure BDA00023837494800001014
再将高级特征M与高级特征
Figure BDA00023837494800001015
逐点相加,得到修正过后的高级特征
Figure BDA00023837494800001016
本方案还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有图像语义分割程序,所述图像语义分割程序被处理器执行时实现图像语义分割方法的步骤。

Claims (8)

1.基于深度学习的图像语义分割方法,其特征在于,包括:
在特征提取网络后串联一个平均全局池化层和全连接层作为分类的预训练模型,并采用Imagenet-1K数据集对预训练模型进行分类训练;
将训练后的预训练模型中的特征提取网络与轻量级ASPP模块和两个特征增强模块依次连接构成语义分割模型;
通过翻转、旋转和缩放对数据集cityscapes进行扩充,并采用扩充后的数据集对语义分割模型进行训练,得到目标语义分割模型;
将预处理后的新图片输入目标语义分割模型,在目标语义分割模型中进行一次前向传播,端到端地输出预测的语义分割结果;
所述特征增强模块包括双通道注意力模块、空间注意力模型和特征融合模块;
所述采用扩充后的数据集对语义分割模型进行训练,得到目标语义分割模型进一步包括:
S1、于扩充后的数据集中随机选取一张图片输入语义分割模型中的特征提取网络得到分辨率为原图1/32的特征图;
S2、将特征图输入轻量级ASPP模块进行融合,得到融合多尺度信息的高级特征;
S3、第一个特征增强模块的空间注意力模块和双通道注意力模块对高级特征和特征提取网络中间部分跳接而来的低级特征进行修正,分别得到修正后的高级特征和低级特征;
S4、将修正后得到的高级特征和低级特征输入第一个特征增强模块的特征融合模块得到高级特征;
S5、采用第二个特征增强模块的空间注意力模块和双通道注意力模块对第一个特征增强模块输出的高级特征和特征提取网络中间部分跳接而来的低级特征进行修正,分别得到再次修正后的高级特征和低级特征;
S6、将再次修正后得到的高级特征和低级特征输入第二个特征增强模块的特征融合模块得到最终的高级特征,并对最终的高级特征进行上采样完成一次迭代,并将训练迭代次数累加一次;
S7、判断训练迭代次数是否大于等于预设迭代次数,若是,进入步骤S8,否则返回步骤S1;
S8、完成语义分割模型的训练,得到目标语义分割模型。
2.根据权利要求1所述的基于深度学习的图像语义分割方法,其特征在于,所述特征提取网络由五部分串联构成,其中一、二部分均为步长为2的3x3标准卷积;
第三部分和第四部分相同,均由1个过渡层和2个密集连接层串联而成,过渡层由两个并联支路组成,两个支路的输入相同,一个支路是步长为2的3x3标准卷积串联一个步长为1的3x3标准卷积,另一个支路是步长为2的1x1标准卷积,两个支路的输出相加作为与其连接的密集连接层的输入,两个密集连接层都是由两个步长为1的3x3标准卷积串联而成的标准残差结构;
第五部分由1个过渡层、2个密集连接层和1个过渡层串联而成,第五部分的第一个过渡层和2个密集连接层与第三部分的组成结构相同,第二个过渡层由两个并联支路组成,两个支路的输入相同,一个支路是步长为1的3x3标准卷积串联一个步长为1的3x3标准卷积,另一个支路是步长为1的1x1标准卷积,两个支路的输出相加作为特征提取网络的输出。
3.根据权利要求1所述的基于深度学习的图像语义分割方法,其特征在于,所述轻量级ASPP模块包括三个支路,特征提取网络的输出作为轻量级ASPP模块的输入特征,输入特征并行输入到轻量级ASPP模块的三个支路进行处理:
第一个支路经过全局平均池化,步长为1的1x1标准卷积降维,上采样到输入时的分辨率,输出结果为aspp1;第二个支路直接经过步长为1的1x1标准卷积降维,输出结果为aspp2;
第三个支路先经过分组为4,膨胀率为4,步长为1的3x3卷积,输出记为temp1,temp1先经过步长为1的3x3标准卷积输出aspp3;temp1再经过分组为4,膨胀率为9,步长为1的3x3卷积,输出记为temp2,temp1与temp2逐点相加得到temp3,temp3先经过步长为1的3x3标准卷积输出aspp4,temp3再经过分组为4,膨胀率为16,步长为1的3x3卷积,输出记为temp4,temp3与temp4逐点相加得到temp5,temp5经过步长为1的3x3标准卷积输出aspp5;
将轻量级ASPP模块的输入特征、aspp1、aspp2、aspp3、aspp4和aspp5级联,aspp1、aspp2、aspp3、aspp4、aspp5通道都是128,然后接入到步长为1的3x3标准卷积降维到512,再经过步长为1的1x1标准卷积降维到32得到轻量级ASPP模块的输出。
4.根据权利要求1所述的基于深度学习的图像语义分割方法,其特征在于,两个双通道注意力模块得到修正后低级特征进一步包括:
高级特征首先输入一个通道权值提取模块,所述通道权值提取模由两个并行支路组成:一个支路对高级特征做平均全局池化得到特征图
Figure FDA0003514671750000031
然后做1/4降维的全连接+relu激活得到特向向量
Figure FDA0003514671750000041
最后做一个升维4倍的全连接得到特征向量
Figure FDA0003514671750000042
另一个支路首先做极大值全局池化得到特征图
Figure FDA0003514671750000043
然后做降维的全连接+relu激活得到特向向量
Figure FDA0003514671750000044
最后做一个升维的全连接得到特征向量
Figure FDA0003514671750000045
接着将两个升维后的特征向量
Figure FDA0003514671750000046
和特征向量
Figure FDA0003514671750000047
相加,再做sigmoid归一化得到向量
Figure FDA0003514671750000048
将向量
Figure FDA0003514671750000049
与特征提取网络中间部分跳接而来的低级特征逐通道相乘,得到通道权重修改后的低级特征
Figure FDA00035146717500000410
5.根据权利要求1所述的基于深度学习的图像语义分割方法,其特征在于,两个空间注意力模块得到修正后高级特征进一步包括:
输入的低级特征首先经过1x1的标准卷积降维1/4,分辨率不变,得到特征图Ldown,然后经过1x1的标准卷积升维4倍得到特征图Lup,对特征图Lup作sigmoid操作得到特征图
Figure FDA00035146717500000411
首先将输入的高级特征M与特征图
Figure FDA00035146717500000412
逐点相乘,得到空间权重修改后的高级特征
Figure FDA00035146717500000413
再将高级特征M与高级特征
Figure FDA00035146717500000414
逐点相加,得到修正过后的高级特征
Figure FDA00035146717500000415
6.根据权利要求1所述的基于深度学习的图像语义分割方法,其特征在于,两个特征融合模块得到高级特征的实现方法包括:
输入的高级特征首先经过上采样使分辨率与输入的低级特征相同,然后低级特征与高级特征级联,级联后先做3x3标准卷积混洗,然后作1x1标准卷积降维通道到32作为高级特征输出。
7.根据权利要求1-6任一所述的基于深度学习的图像语义分割方法,其特征在于,旋转为在训练集中各随机选取一半进行-10和10度旋转,缩放为在训练集中各随机选取一半进行0.5和2倍的缩放,所述翻转为水平镜像翻转。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有图像语义分割程序,所述图像语义分割程序被处理器执行时实现如权利要求1至7中任一项所述的图像语义分割方法的步骤。
CN202010091095.8A 2020-02-13 2020-02-13 基于深度学习的图像语义分割方法及存储介质 Active CN111259983B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010091095.8A CN111259983B (zh) 2020-02-13 2020-02-13 基于深度学习的图像语义分割方法及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010091095.8A CN111259983B (zh) 2020-02-13 2020-02-13 基于深度学习的图像语义分割方法及存储介质

Publications (2)

Publication Number Publication Date
CN111259983A CN111259983A (zh) 2020-06-09
CN111259983B true CN111259983B (zh) 2022-05-20

Family

ID=70945578

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010091095.8A Active CN111259983B (zh) 2020-02-13 2020-02-13 基于深度学习的图像语义分割方法及存储介质

Country Status (1)

Country Link
CN (1) CN111259983B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11657279B2 (en) 2020-06-16 2023-05-23 National Taiwan University Of Science And Technology Electronic device and method for document segmentation
TWI776489B (zh) * 2020-06-16 2022-09-01 國立臺灣科技大學 用於文件分割的電子裝置和方法
CN111860351B (zh) * 2020-07-23 2021-04-30 中国石油大学(华东) 一种基于行列自注意力全卷积神经网络的遥感图像鱼塘提取方法
CN112132834B (zh) * 2020-09-18 2023-09-29 中山大学 一种心室图像分割方法、系统、装置及存储介质
CN112330705B (zh) * 2020-10-14 2022-08-19 南京理工大学 一种基于深度学习语义分割的图像二值化方法
CN112446914B (zh) * 2020-12-04 2023-08-15 中国矿业大学(北京) 一种放顶煤过程中的煤矸石质量计算方法及系统
CN112907600B (zh) * 2021-03-10 2024-05-24 无锡禹空间智能科技有限公司 目标检测模型的优化方法及系统
CN113223006B (zh) * 2021-05-19 2022-04-15 成都理工大学 一种基于深度学习的轻量级目标语义分割方法
CN114937171B (zh) * 2022-05-11 2023-06-09 复旦大学 基于深度学习的阿尔茨海默分类系统
CN115620013B (zh) * 2022-12-14 2023-03-14 深圳思谋信息科技有限公司 语义分割方法、装置、计算机设备及计算机可读存储介质
CN117058380B (zh) * 2023-08-15 2024-03-26 北京学图灵教育科技有限公司 基于自注意力的多尺度轻量化三维点云分割方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109241972A (zh) * 2018-08-20 2019-01-18 电子科技大学 基于深度学习的图像语义分割方法
CN109543685A (zh) * 2018-10-16 2019-03-29 深圳大学 图像语义分割方法、装置和计算机设备
CN110781895A (zh) * 2019-10-10 2020-02-11 湖北工业大学 一种基于卷积神经网络的图像语义分割方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109241972A (zh) * 2018-08-20 2019-01-18 电子科技大学 基于深度学习的图像语义分割方法
CN109543685A (zh) * 2018-10-16 2019-03-29 深圳大学 图像语义分割方法、装置和计算机设备
CN110781895A (zh) * 2019-10-10 2020-02-11 湖北工业大学 一种基于卷积神经网络的图像语义分割方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于编解码和局部增强的光电图像分割算法;李承珊等;《半导体光电》;20181215(第06期);全文 *

Also Published As

Publication number Publication date
CN111259983A (zh) 2020-06-09

Similar Documents

Publication Publication Date Title
CN111259983B (zh) 基于深度学习的图像语义分割方法及存储介质
CN109241972B (zh) 基于深度学习的图像语义分割方法
US20200334819A1 (en) Image segmentation apparatus, method and relevant computing device
CN110349087B (zh) 基于适应性卷积的rgb-d图像高质量网格生成方法
CN113947680A (zh) 一种基于级联多尺度视觉Transformer的图像语义分割方法
CN109816659B (zh) 图像分割方法、装置及系统
CN114387512B (zh) 基于多尺度特征融合与增强的遥感影像建筑物提取方法
CN116469100A (zh) 一种基于Transformer的双波段图像语义分割方法
CN114694005A (zh) 目标检测模型训练方法和装置、目标检测方法和装置
CN112070040A (zh) 一种用于视频字幕的文本行检测方法
CN114332133A (zh) 基于改进CE-Net的新冠肺炎CT图像感染区分割方法及系统
CN115984701A (zh) 一种基于编解码结构的多模态遥感图像语义分割方法
CN113066089A (zh) 一种基于注意力引导机制的实时图像语义分割网络
CN114742985A (zh) 一种高光谱特征提取方法、装置及存储介质
CN116109920A (zh) 一种基于Transformer的遥感图像建筑物提取方法
CN112699889A (zh) 基于多任务监督的无人驾驶实时道路场景语义分割方法
CN115187820A (zh) 轻量化的目标检测方法、装置、设备、存储介质
CN115995002B (zh) 一种网络构建方法及城市场景实时语义分割方法
CN117456330A (zh) 一种基于MSFAF-Net的低照度目标检测方法
CN115512100A (zh) 基于多尺度特征提取与融合的点云分割方法、装置及介质
CN115170812A (zh) 图像去噪模型训练、降噪方法及其设备、存储介质
CN114494284A (zh) 一种基于显式监督区域关系的场景解析模型及方法
CN113554655A (zh) 基于多特征增强的光学遥感图像分割方法及装置
CN111539922A (zh) 基于多任务网络的单目深度估计与表面法向量估计方法
CN113486781B (zh) 一种基于深度学习模型的电力巡检方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant