CN110826596A - 一种基于多尺度可变形卷积的语义分割方法 - Google Patents

一种基于多尺度可变形卷积的语义分割方法 Download PDF

Info

Publication number
CN110826596A
CN110826596A CN201910953235.5A CN201910953235A CN110826596A CN 110826596 A CN110826596 A CN 110826596A CN 201910953235 A CN201910953235 A CN 201910953235A CN 110826596 A CN110826596 A CN 110826596A
Authority
CN
China
Prior art keywords
network
training
semantic segmentation
model
convolution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910953235.5A
Other languages
English (en)
Inventor
马帅
庞彦伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN201910953235.5A priority Critical patent/CN110826596A/zh
Publication of CN110826596A publication Critical patent/CN110826596A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Abstract

本发明涉及一种基于多尺度可变形卷积的语义分割方法,包括下列步骤:第一步,准备好训练所用的语义分割输入图像数据及其相应的标签;第二步,训练该深度学习网络,首先对网络的基础模型进行预训练,在预训练的基础上对网络的参数进一步优化,添加相关的语义分割模块,进行进一步训练,最终得到适合该数据集的网络参数,对于新输入的图像,该网络通过前向计算最终得到图像的输出,使其能够对图像中的每一个像素进行分类,构成语义分割的输出图像;第三步,对损失函数采用梯度下降法进行权重更新,使得损失逐渐减小,并迭代训练,直至网络收敛或达到最大迭代次数,得到最终网络参数。保存训练好的网络模型以及各个参数权重,构成语义分割的模型。

Description

一种基于多尺度可变形卷积的语义分割方法
技术领域
本发明属于语义分割领域,涉及一种利用多尺度可变形卷积对图像进行语义分割的方法。
背景技术
语义分割是将像素分类为数据集所标识的种类的任务。它是图像处理中的一个基础性和挑战性领域。该技术广泛应用于自动驾驶汽车,医学图像疾病检测,无人机飞行实验等不同领域。
近年来,作为目前最为基础且具有指导意义的网络,基于全卷积神经网络[1](FCN)的语义分割方法取得了重大突破。与分类网络不同,FCN通过把分类网络的全连接层替换为卷积层以预测像素类别。但是这种方法基于小范围的图像来预测每个像素,这使得在分割时很容易引入噪声来破坏分割的连续性。为了解决这个问题,条件随机场[2](CRF)被应用于整个网络的输出。但它只是一种后处理方法,并没有从根本上解决像素预测相对独立的问题。Deeplabv2[3]指出来自相邻和全局的信息可以提供丰富的感受野以便更好地进行分割。该方法提供了一种称为膨胀卷积的新型卷积,它在卷积核中的相邻元素之间填充零,以增加感知野。此外,PSPNet[4]也应用了空间金字塔池化的方法来获取多尺度上下文信息。
而语义分割的任务是对图像进行像素点级别的语义预测,它要求预测图片中每个像素的类别、位置以及形状。所以如果只是像Deeplabv2在基础网络最后的输出采用多个并行的膨胀卷积,并不能很好的提取空间信息。
因此,本专利对ASPP模块进行分析和改造,使用可变性卷积替换膨胀卷积,自适应的学习特征图中不同像素的贡献,使得输出的特征图的像素信息包含更多的空间信息,使整个网络的分割能力能够得到提升。
[1]Long J,Shelhamer E,Darrell T.Fully Convolutional Networks forSemantic Segmentation[J].IEEE Transactions on Pattern Analysis&MachineIntelligence,2014,39(4):640-651.
[2]Chen L C,Papandreou G,Kokkinos I,et al.DeepLab:Semantic ImageSegmentation with Deep Convolutional Nets,Atrous Convolution,and FullyConnected CRFs[J].IEEE Transactions onPatternAnalysis&Machine Intelligence,2018,40(4):834-848.
[3]Chen L C,Papandreou G,Schroff F,et al.Rethinking atrousconvolution for semantic image segmentation[J].arXivpreprint arXiv:1706.05587,2017.
[4]Zhao H,Shi J,Qi X,et al.Pyramid scene parsing network[C]//IEEEConf.on Computer Vision andPatternRecognition(CVPR).2017:2881-2890.
[5]Dai J,Qi H,Xiong Y,et al.Deformable ConvolutionalNetworks[J].2017.
发明内容
本专利的目的是设计一种在保持提取上下文信息的基础上,能够得到空间信息的一种网络模块,该模块通过使用可变性卷积学习相关的空间信息,同时,使用多个并行的大核的不同尺度的可变性卷积,能够较好的保持上下文信息,从而达到整个设计的目的,更好的分割场景中的物体。主要技术方案如下:
一种基于多尺度可变形卷积的语义分割方法,包括下列步骤:
第一步,准备好训练所用的语义分割输入图像数据及其相应的标签。
第二步,训练该深度学习网络,首先对网络的基础模型进行预训练,在预训练的基础上对网络的参数进一步优化,添加相关的语义分割模块,在公开数据集上进行进一步训练,最终得到适合该数据集的网络参数,对于新输入的图像,该网络通过前向计算最终得到图像的输出,使其能够对图像中的每一个像素进行分类,构成语义分割的输出图像。实现方法如下:
(1)这里选取ResNet101作为网络的基础模型,采用ImageNet对ResNet101进行预训练,对ResNet101模型进行修改,使最后一个Block不进行下采样,从而使输出的特征尺度为图像尺度的1/8,预训练完成后,保存相应的网络参数,得到预训练模型。
(2)在网络基础模型的后端添加添加多路并行的不同尺度的可变形卷积,选取的卷积核大小为3,6,9,12,将卷积后的输出合并到一起,通过1×1卷积将通道数减少到和数据集类别数相等的大小,上采样得到最终的特征图;加载保存过的预训练模型,使用SoftMax对每一个像素位置进行处理,再和经过one-hot编码的数据集的标签一同输入到交叉熵损失函数中,计算损失值。
第三步,对损失函数采用梯度下降法进行权重更新,使得损失逐渐减小,并迭代训练,直至网络收敛或达到最大迭代次数,得到最终网络参数。保存训练好的网络模型以及各个参数权重,从而构成语义分割的模型。
本专利提出了不同于Deeplabv2中的ASPP模块,将可变形卷积引入到语义分割中,能够使网络提取丰富的上下文信息的基础上,能够在主网络中进一步的自适应学习空间的细节信息,有利于对分割的边界实现更精准的判断,消除类内的不一致性,使整个网络更好的分割场景中的物体。
附图说明
图1可变形卷积结构图[5]
图2多尺度可变形卷积的语义分割结构图
图3采用ASPP和多尺度可变形卷积的效果对比
具体实施方式
为使本发明的技术方案更加清楚,下面结合附图对本发明做进一步阐述。本发明按以下步骤具体实现:
第一步,准备数据集。
收集各种不同类别的图像,统一好类别后,对选定的类别生成图像的标签信息,每个标签图像是单通道的,每个像素的值对应所选取的类别。将收集的图像划分为训练集,验证集和测试集,训练集用于训练卷积神经网络,验证集用于选择最佳的训练模型,测试集为后续测试模型效果或者实际应用时使用。为了使用方便,本专利采用公开的PASCALVOC2012数据集进行相关实验。
第二步,设计多尺度可变形卷积的神经网络架构。
图2为采用多尺度可变形卷积模块的网络框图。在语义分割算法中,采用多个尺度并行的卷积结构可以有效的提高网络的感受野,能够提升对不同尺度物体的检测和分割。因此本专利在该结构的基础上将膨胀卷积替换为可变形卷积,可变性卷积的示意如图1所示,通过学习特征图中每个像素的偏移量,自适应决定对分割像素产生较大影响的临近像素,因此,在保持能够提取丰富的上下文信息的基础上,该方法也能够获取更多的空间细节信息。
主要设计要点是在并行结构中添加多尺度可变性卷积的个数,每一个卷积的输出层数以及添加何种尺寸的可变性卷积。通过设计相关的对比试验,设计网络迭代的次数和学习率下降函数,从而找到最优的收敛条件。将训练数据批量的输入到该网络中,进行计算和训练,具体步骤如下:
将训练数据输入网络中,选择一个提取特征的基础网络,批量输入图像数据得到网络输出的特征RN×H×W×C,其中N代表批量输入的图片数量,该数量决定了批归一化的程度,H×W表示输出的特征图的大小,D表示输出的特征图的通道数,将该网络的输出送入多尺度可变性卷积模块中。
多尺度可变性卷积模块:
1)选择相应的可变性卷积的数量,尺寸大小,个数。
2)对基础网络输出的特征进行并行的可变形卷积操作,得到尺度相同的特征图。
3)将这些特征图进行特征融合操作,将融合后的特征图使用1×1卷积进行通道降维。
4)将降维后的特征图的通道数再次降维到与输出类别相等的大小,并上采样到原图的大小。
将标签数据和得到的特征图一起计算损失并进行反向传播,按照随机梯度下降法更新网络权重。经过多次迭代后,最终得到训练好的神经网络模型。将训练好的模型应用于测试/实际应用中,当输入图像时,该模型可以输出对应的标签图像(每个像素的类别用一个RGB的3通道值表示)。
具体参数设置如下:
(1)这里选取ResNet101作为网络的基础模型,采用ImageNet对ResNet101进行预训练,这里对ResNet101模型进行修改,使最后一个Block不进行下采样,从而使输出的特征尺度为图像尺度的1/8。预训练完成后,保存相应的网络参数。
(2)在网络基础模型的后端添加多路并行的不同尺度的可变形卷积,这里选取的卷积核大小为3,6,9,12,将卷积后的输出合并到一起,通过1×1卷积将通道数减少到和数据集类别数相等的大小,上采样得到最终的特征图。加载保存过的预训练模型,使用SoftMax对每一个像素位置进行处理,再和经过one-hot编码的数据集的标签一同输入到交叉熵损失函数中,计算损失值。
第三步,测试本系统的分割效果
(1)选定测试所用的语义分割输入图像数据及其相应的标签,本专利采用PASCALVOC2012测试集进行测试。
(2)将在PASCAL VOC2012训练集中训练好的参数进一步在PASCAL VOC2012训练验证集上继续训练,将得到的模型提交到相应的服务器中,进行评估。图3是使用该方法的实验效果。

Claims (1)

1.一种基于多尺度可变形卷积的语义分割方法,包括下列步骤:
第一步,准备好训练所用的语义分割输入图像数据及其相应的标签;
第二步,训练该深度学习网络,首先对网络的基础模型进行预训练,在预训练的基础上对网络的参数进一步优化,添加相关的语义分割模块,在公开数据集上进行进一步训练,最终得到适合该数据集的网络参数,对于新输入的图像,该网络通过前向计算最终得到图像的输出,使其能够对图像中的每一个像素进行分类,构成语义分割的输出图像。实现方法如下:
(1)这里选取ResNet101作为网络的基础模型,采用ImageNet对ResNet101进行预训练,对ResNet101模型进行修改,使最后一个Block不进行下采样,从而使输出的特征尺度为图像尺度的1/8,预训练完成后,保存相应的网络参数,得到预训练模型;
(2)在网络基础模型的后端添加添加多路并行的不同尺度的可变形卷积,选取的卷积核大小为3,6,9,12,将卷积后的输出合并到一起,通过1×1卷积将通道数减少到和数据集类别数相等的大小,上采样得到最终的特征图;加载保存过的预训练模型,使用SoftMax对每一个像素位置进行处理,再和经过one-hot编码的数据集的标签一同输入到交叉熵损失函数中,计算损失值。
第三步,对损失函数采用梯度下降法进行权重更新,使得损失逐渐减小,并迭代训练,直至网络收敛或达到最大迭代次数,得到最终网络参数。保存训练好的网络模型以及各个参数权重,从而构成语义分割的模型。
CN201910953235.5A 2019-10-09 2019-10-09 一种基于多尺度可变形卷积的语义分割方法 Pending CN110826596A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910953235.5A CN110826596A (zh) 2019-10-09 2019-10-09 一种基于多尺度可变形卷积的语义分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910953235.5A CN110826596A (zh) 2019-10-09 2019-10-09 一种基于多尺度可变形卷积的语义分割方法

Publications (1)

Publication Number Publication Date
CN110826596A true CN110826596A (zh) 2020-02-21

Family

ID=69548848

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910953235.5A Pending CN110826596A (zh) 2019-10-09 2019-10-09 一种基于多尺度可变形卷积的语义分割方法

Country Status (1)

Country Link
CN (1) CN110826596A (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111563508A (zh) * 2020-04-20 2020-08-21 华南理工大学 一种基于空间信息融合的语义分割方法
CN111583291A (zh) * 2020-04-20 2020-08-25 中山大学 基于深度学习的视网膜层和积液区域的层分割方法及系统
CN111612803A (zh) * 2020-04-30 2020-09-01 杭州电子科技大学 一种基于图像清晰度的车辆图像语义分割方法
CN111739001A (zh) * 2020-06-17 2020-10-02 东华大学 一种基于可变形卷积的产品表面缺陷检测模型和检测方法
CN111797712A (zh) * 2020-06-16 2020-10-20 南京信息工程大学 基于多尺度特征融合网络的遥感影像云与云阴影检测方法
CN111882563A (zh) * 2020-07-13 2020-11-03 浙江大学 一种基于方向性卷积网络的语义分割方法
CN111915615A (zh) * 2020-09-10 2020-11-10 中移(杭州)信息技术有限公司 图像分割方法、装置、电子设备及计算机可读存储介质
CN112132841A (zh) * 2020-09-22 2020-12-25 上海交通大学 医疗图像切割方法及装置
CN112216371A (zh) * 2020-11-20 2021-01-12 中国科学院大学 多路多尺度并联编解码网络图像分割方法、系统及介质
CN112381097A (zh) * 2020-11-16 2021-02-19 西南石油大学 一种基于深度学习的场景语义分割方法
CN112396607A (zh) * 2020-11-18 2021-02-23 北京工商大学 一种可变形卷积融合增强的街景图像语义分割方法
CN113221977A (zh) * 2021-04-26 2021-08-06 中国科学院大学 一种基于抗混叠语义重构的小样本语义分割方法
CN114205646A (zh) * 2020-09-18 2022-03-18 阿里巴巴集团控股有限公司 数据处理方法、装置、电子设备及存储介质
CN114494699A (zh) * 2022-01-28 2022-05-13 福州大学 基于语义传播与前背景感知的图像语义分割方法及系统
CN115294337A (zh) * 2022-09-28 2022-11-04 珠海大横琴科技发展有限公司 训练语义分割模型的方法、图像语义分割方法及相关装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180260956A1 (en) * 2017-03-10 2018-09-13 TuSimple System and method for semantic segmentation using hybrid dilated convolution (hdc)
CN108549895A (zh) * 2018-04-17 2018-09-18 深圳市唯特视科技有限公司 一种基于对抗网络的半监督语义分割方法
CN108876793A (zh) * 2018-04-13 2018-11-23 北京迈格威科技有限公司 语义分割方法、装置和系统及存储介质
CN109784424A (zh) * 2019-03-26 2019-05-21 腾讯科技(深圳)有限公司 一种图像分类模型训练的方法、图像处理的方法及装置
CN109784386A (zh) * 2018-12-29 2019-05-21 天津大学 一种用语义分割辅助物体检测的方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180260956A1 (en) * 2017-03-10 2018-09-13 TuSimple System and method for semantic segmentation using hybrid dilated convolution (hdc)
CN108876793A (zh) * 2018-04-13 2018-11-23 北京迈格威科技有限公司 语义分割方法、装置和系统及存储介质
CN108549895A (zh) * 2018-04-17 2018-09-18 深圳市唯特视科技有限公司 一种基于对抗网络的半监督语义分割方法
CN109784386A (zh) * 2018-12-29 2019-05-21 天津大学 一种用语义分割辅助物体检测的方法
CN109784424A (zh) * 2019-03-26 2019-05-21 腾讯科技(深圳)有限公司 一种图像分类模型训练的方法、图像处理的方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
CONGCONG WANG 等: ""Adaptive Context Encoding Module for Semantic Segmentation"" *

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111583291B (zh) * 2020-04-20 2023-04-18 中山大学 基于深度学习的视网膜层和积液区域的层分割方法及系统
CN111583291A (zh) * 2020-04-20 2020-08-25 中山大学 基于深度学习的视网膜层和积液区域的层分割方法及系统
CN111563508A (zh) * 2020-04-20 2020-08-21 华南理工大学 一种基于空间信息融合的语义分割方法
CN111563508B (zh) * 2020-04-20 2023-05-23 华南理工大学 一种基于空间信息融合的语义分割方法
CN111612803A (zh) * 2020-04-30 2020-09-01 杭州电子科技大学 一种基于图像清晰度的车辆图像语义分割方法
CN111612803B (zh) * 2020-04-30 2023-10-17 杭州电子科技大学 一种基于图像清晰度的车辆图像语义分割方法
CN111797712A (zh) * 2020-06-16 2020-10-20 南京信息工程大学 基于多尺度特征融合网络的遥感影像云与云阴影检测方法
CN111797712B (zh) * 2020-06-16 2023-09-15 南京信息工程大学 基于多尺度特征融合网络的遥感影像云与云阴影检测方法
CN111739001A (zh) * 2020-06-17 2020-10-02 东华大学 一种基于可变形卷积的产品表面缺陷检测模型和检测方法
CN111882563A (zh) * 2020-07-13 2020-11-03 浙江大学 一种基于方向性卷积网络的语义分割方法
CN111915615A (zh) * 2020-09-10 2020-11-10 中移(杭州)信息技术有限公司 图像分割方法、装置、电子设备及计算机可读存储介质
CN114205646A (zh) * 2020-09-18 2022-03-18 阿里巴巴集团控股有限公司 数据处理方法、装置、电子设备及存储介质
CN114205646B (zh) * 2020-09-18 2024-03-29 阿里巴巴达摩院(杭州)科技有限公司 数据处理方法、装置、电子设备及存储介质
CN112132841A (zh) * 2020-09-22 2020-12-25 上海交通大学 医疗图像切割方法及装置
CN112132841B (zh) * 2020-09-22 2024-04-09 上海交通大学 医疗图像切割方法及装置
CN112381097A (zh) * 2020-11-16 2021-02-19 西南石油大学 一种基于深度学习的场景语义分割方法
CN112396607A (zh) * 2020-11-18 2021-02-23 北京工商大学 一种可变形卷积融合增强的街景图像语义分割方法
CN112396607B (zh) * 2020-11-18 2023-06-16 北京工商大学 一种可变形卷积融合增强的街景图像语义分割方法
CN112216371A (zh) * 2020-11-20 2021-01-12 中国科学院大学 多路多尺度并联编解码网络图像分割方法、系统及介质
CN113221977A (zh) * 2021-04-26 2021-08-06 中国科学院大学 一种基于抗混叠语义重构的小样本语义分割方法
CN114494699A (zh) * 2022-01-28 2022-05-13 福州大学 基于语义传播与前背景感知的图像语义分割方法及系统
CN115294337A (zh) * 2022-09-28 2022-11-04 珠海大横琴科技发展有限公司 训练语义分割模型的方法、图像语义分割方法及相关装置

Similar Documents

Publication Publication Date Title
CN110826596A (zh) 一种基于多尺度可变形卷积的语义分割方法
CN110378381B (zh) 物体检测方法、装置和计算机存储介质
CN108133188B (zh) 一种基于运动历史图像与卷积神经网络的行为识别方法
CN110428428B (zh) 一种图像语义分割方法、电子设备和可读存储介质
CN111652321B (zh) 一种基于改进yolov3算法的海上船舶检测方法
US9633282B2 (en) Cross-trained convolutional neural networks using multimodal images
CN109711426B (zh) 一种基于gan和迁移学习的病理图片分类装置及方法
CN112446383B (zh) 车牌识别方法及装置、存储介质、终端
CN111291809B (zh) 一种处理装置、方法及存储介质
CN109740451B (zh) 基于重要性加权的道路场景图像语义分割方法
CN109671070B (zh) 一种基于特征加权和特征相关性融合的目标检测方法
US20220215227A1 (en) Neural Architecture Search Method, Image Processing Method And Apparatus, And Storage Medium
WO2018052587A1 (en) Method and system for cell image segmentation using multi-stage convolutional neural networks
US11443514B2 (en) Recognizing minutes-long activities in videos
CN111259904B (zh) 一种基于深度学习和聚类的语义图像分割方法及系统
CN110222718B (zh) 图像处理的方法及装置
CN110781980B (zh) 目标检测模型的训练方法、目标检测方法及装置
CN110879982A (zh) 一种人群计数系统及方法
CN116863194A (zh) 一种足溃疡图像分类方法、系统、设备及介质
US10643092B2 (en) Segmenting irregular shapes in images using deep region growing with an image pyramid
CN113807356B (zh) 一种端到端的低能见度图像语义分割方法
CN111027472A (zh) 一种基于视频光流和图像空间特征权重融合的视频识别方法
CN112132145B (zh) 一种基于模型扩展卷积神经网络的图像分类方法及系统
CN111582057B (zh) 一种基于局部感受野的人脸验证方法
CN111401209B (zh) 一种基于深度学习的动作识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20200221

WD01 Invention patent application deemed withdrawn after publication