CN111612008B - 基于卷积网络的图像分割方法 - Google Patents
基于卷积网络的图像分割方法 Download PDFInfo
- Publication number
- CN111612008B CN111612008B CN202010436462.3A CN202010436462A CN111612008B CN 111612008 B CN111612008 B CN 111612008B CN 202010436462 A CN202010436462 A CN 202010436462A CN 111612008 B CN111612008 B CN 111612008B
- Authority
- CN
- China
- Prior art keywords
- network
- convolution
- model
- layer
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 63
- 238000003709 image segmentation Methods 0.000 title claims abstract description 29
- 238000012549 training Methods 0.000 claims abstract description 49
- 230000008569 process Effects 0.000 claims abstract description 25
- 238000012360 testing method Methods 0.000 claims abstract description 24
- 238000012795 verification Methods 0.000 claims abstract description 14
- 238000005457 optimization Methods 0.000 claims abstract description 13
- 230000006872 improvement Effects 0.000 claims abstract description 12
- 238000007781 pre-processing Methods 0.000 claims abstract description 8
- 238000013461 design Methods 0.000 claims abstract description 6
- 238000012545 processing Methods 0.000 claims abstract description 4
- 230000011218 segmentation Effects 0.000 claims description 45
- 230000004927 fusion Effects 0.000 claims description 16
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 8
- 238000005070 sampling Methods 0.000 claims description 7
- 230000006870 function Effects 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 4
- 238000005192 partition Methods 0.000 claims description 4
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 3
- 230000003321 amplification Effects 0.000 claims description 3
- 230000003247 decreasing effect Effects 0.000 claims description 3
- 238000003199 nucleic acid amplification method Methods 0.000 claims description 3
- 238000003475 lamination Methods 0.000 claims 1
- 238000012876 topography Methods 0.000 claims 1
- 238000005259 measurement Methods 0.000 abstract description 5
- 230000009286 beneficial effect Effects 0.000 abstract description 2
- 210000004027 cell Anatomy 0.000 description 13
- 230000000694 effects Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 239000000284 extract Substances 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 230000008034 disappearance Effects 0.000 description 3
- 238000004880 explosion Methods 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 210000000805 cytoplasm Anatomy 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000003902 lesion Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001550 time effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Multimedia (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于卷积网络的图像分割方法。本发明一种基于卷积网络的图像分割方法,包括:步骤1:数据预处理;步骤2:卷积网络模型的设计所述卷积网络称为LBNet网络,主要基于ENet网络进行改进;步骤3:模型训练与验证;步骤4:模型优化与改进处理,根据步骤3中在测试集上的度量结果,不断调整模型的超参数,实现对步骤2建立的卷积网络模型进行参数优化;步骤5:模型使用,根据步骤4得到的最终优化好的模型进行测试使用。本发明的有益效果:本发明提供一种基于卷积网络的图像分割方法与流程,所述卷积网络是以ENet网络为主干网络改进而来,在实施过程中对原有ENet网络结构进行修改。
Description
技术领域
本发明涉及图像分割方法领域,具体涉及一种基于卷积网络的图像分割方法。
背景技术
在计算机视觉中,图像是不同像素的集合。图像分割即为将具有近似特性的像素分成若干不相交的像素块。其目的不仅可以使图像的信息表达更加简化,同时也让图像更方便理解与分析。图像分割在分析与理解图像信息中起着即为关键的作用。当前图像分割已经取得了不少的成果,常用于图像分割的方法包括:边缘分割、阈值法、聚类法和深度学习的方法等。图像分割可以极大地推动诸如自动化医学诊断,自动驾驶等的新技术的发展。例如医学图像处理中,需要基于图像分割技术,将病灶区域分割出来,以便后续病情的分析;或者自动驾驶领域,为了辨别障碍物,需要将图像分割技术引入到目标识别中,以达到精确识别目标的目的。
目前,图像语义分割的研究已经进入到深度学习领域,发展出来了许多优秀的卷积网络模型。卷积网络可通过局部感受野和权值共享减少了所需要训练的参数,使卷积网络能快速处理高维图像,并具有平移不变性,其强大的自动学习特征能力也使其能捕捉目标的高层语义信息,使其在图像分割领域有着广泛的应用。但在具有优秀的分割效果的同时,卷积网络相较于传统图像分割算法,需要更多的数据和更高的计算成本。同时,复杂场景中存在着类别信息较多,语义对象轮廓不够清晰,影响了语义分割的准确性和适应性。
目前,也有一些研究提到采用卷积网络的图像语义分割方法,
A.Paszke等人提出ENet网络(Efficient Neural Network),其是基于SegNet网络改进的用于实时分割的轻量化模型。该网络使用类ResNet的残差块连接方法,优化了模型参数,在计算量,存储空间和准确率方面取得了非常不错的平衡,其核心思想就是卷积核的巧妙分解,引入了一种deep-wise的卷积来代替传统的卷积操作,降低了卷积核的参数,加快了推理速度,但是其在追求分割速度的同时导致分割精度较差。
中国专利CN201810085381提出一种基于深度全卷积网络和条件随机场的图像语义分割方法,该方法在深度全卷积网络中引用膨胀卷积和空间金字塔池化模块,并对深度全卷积网络输出的标签预测图使用条件随机场进一步修正,膨胀卷积扩大感受野的同时确保特征图分辨率不变,空间金字塔池化模块从卷积局部特征图提取不同尺度区域上下文特征,为标签预测提供不同对象之间相互关系及对象与不同尺度区域特征之间联系,全连接条件随机场根据像素强度和位置的特征相似性对象标签进行优化,从而产生图像语义分割图。但上述方法分割结果还是不够精细,像素之间的关系考虑不是很充分,导致语义分割图像中的细节有所丢失,空间缺乏一致性。
传统技术存在以下技术问题:
目前,卷积网络在图像语义分割的研究中取得了较为优秀的成果,但很多方法往往过于追求分割精度,而忽视了实时性要求。同时,复杂场景中存在着类别信息较多,语义对象轮廓不够清晰,影响了语义分割的准确性和适应性。
发明内容
本发明要解决的技术问题是提供一种基于卷积网络的图像分割方法,针对目前语义分割发展的局限性,本发明提出一种改进的卷积网络图像分割方法,该方法通过使用改进的卷积模块和扩张卷积金字塔融合模块,最终完成了一个有效且满足实时性要求的图像语义分割模型。
为了解决上述技术问题,本发明提供了一种基于卷积网络的图像分割方法,包括:
步骤1:数据预处理
使用Cityscapes图像数据集,在训练中只使用其中的11个类别,通过计算得到,该11个类别的像素占比已经超过总像素个数的90%以上,分别为路(Road)、人行道(Sidewalk)、建筑(Building)、植被(Vegetation)、天空(Sky)、地形(Terrain)、人(Person)、轿车(Car)、自行车(Bicycle)、杆(Pole)、巴士(Bus);同时对训练集图像进行左右翻折扩增数据集,获得5950张图片,之后缩放图像大小为512×1024用于网络的训练;
步骤2:卷积网络模型的设计
所述卷积网络称为LBNet网络,主要基于ENet网络进行改进;
步骤3:模型训练与验证
步骤3.1、将步骤1中预处理后的数据分为训练集、验证集和测试集,并将训练集作为卷积网络的输入,训练网络模型参数;
步骤3.2、LBNet网络的验证度量指标使用像素分割精度MPA(Mean PixelAccuracy)和平均交并比MIoU(Mean Intersection over Union),分别定义为:
其中k+1为分割的总类别数,xij表示类i像素被预测为类j像素的总数目;
步骤3.3、将训练好的网络模型在准备好的测试集上进行模型的验证,并分别统计像素分割精度MPA和平均交并比MIou;
步骤4:模型优化与改进处理
根据步骤3中在测试集上的度量结果,不断调整模型的超参数,实现对步骤2建立的卷积网络模型进行参数优化;
步骤5:模型使用
根据步骤4得到的最终优化好的模型进行测试使用。
在其中一个实施例中,具体改进策略如下:
步骤2.1、对于中间层中的残差块,ENet使用加法的融合策略Fi=Sum(Xi,Yi)将特征图进行融合,该发明中的卷积网络将上采样阶段的残差块结构,全部改为最大值融合策略,即:Fi=Max(Xi,Yi);
步骤2.2、为了减少采样过程中的图像细节丢失问题,网络结构共使用三次下采样操作,同时在上采样阶段使用反卷积层替换ENet网络解码过程中的所有上采样层,并使用跳跃连接结构,将下采样阶段与上采样过程中同分辨率大小的特征图进行融合;
步骤2.3、对ENet网络结构中存在的一些合并层(Concat),在其后面加一层卷积层,设定卷积核的大小为(1×1),卷积核的数目为合并层的特征图通道数,其目的是对合并后的特征图进行线性组合,更好的提取图像特征;
步骤2.4、为了增加感受野,在下采样过程的卷积模块中多次使用扩张卷积,扩张率分别为2、4、8、16,同时加入金字塔结构的融合策略,分别将扩张率为2和4的卷积模块的输出进行融合,得到的结果再与扩张率为8的卷积模块融合,最后与扩张率为16的卷积模块融合;
步骤2.5、修改ENet网络中使用的卷积模块,由两路卷积分别捕捉不同尺度感受野信息,并使用残差结构进行融合,进一步提高网络的分割精度。
在其中一个实施例中,训练参数设定如下:初始学习率设置成0.001,总共迭代次数为75000次,学习率衰减规则为:分别在迭代次数是18750、37500和56250时降低学习率为当前学习率的0.1,权重衰减率为0.0002,使用Softmax损失函数,并且通过Adam优化器优化损失函数,参数为:β1=0.9,β2=0.99,其他参数默认。
在其中一个实施例中,对步骤4中优化后的网络模型参数进行处理,推断BN层参数,并融合到卷积层中,进而优化网络模型的推理速度;BN层常用在网络的训练阶段,通过对输入数据进行批量归一化操作,以加快网络的收敛速率,避免梯度消失与梯度爆炸的问题;合并参数的具体做法为:假设网络某一卷积层中获得的训练权重为W,偏差参数为b,卷积运算可以简化为Y=WX+b,X为上一层网络的输入;令BN层中的均值为μ,方差为δ,缩放因子为γ,偏移为β,一个较小数∈,则BN层用数学公式表示为:
BN层和卷积层合并后新的权重和偏差计算公式为:
Wmerged=Wα,Bmerged=Bα+(β-μα)
一种基于卷积网络的图像分割方法,包括:
步骤1:数据预处理:
使用宫颈细胞公开数据集Herlev Dataset,该数据集由917张图像及其对应的真实分割标签组成,每幅图像包含一个宫颈细胞,该细胞被分为三类:细胞质、细胞核和背景。首先对细胞图像进行数据扩增,每一张细胞图像分别使用:翻折、旋转90°、旋转180°、旋转270°、旋转90°加翻折、旋转180°加翻折、旋转270°加翻折进行变换,扩充数据集为原来的8倍,总共得到7336张图片;
步骤2:卷积网络模型的设计
所述卷积网络称为LBNet网络,主要基于ENet网络进行改进;
步骤3:模型训练与验证
步骤3.1、将步骤1中预处理后的数据分为训练集、验证集和测试集,并将训练集作为卷积网络的输入,训练网络模型参数;
步骤3.2、LBNet网络的验证度量指标使用像素分割精度MPA(Mean PixelAccuracy)和平均交并比MIoU(Mean Intersection over Union),分别定义为:
其中k+1为分割的总类别数,xij表示类i像素被预测为类j像素的总数目;
步骤3.3、将训练好的网络模型在准备好的测试集上进行模型的验证,并分别统计像素分割精度MPA和平均交并比MIou;
步骤4:模型优化与改进处理
根据步骤3中在测试集上的度量结果,不断调整模型的超参数,实现对步骤2建立的卷积网络模型进行参数优化;
步骤5:模型使用
根据步骤4得到的最终优化好的模型进行测试使用。
在其中一个实施例中,具体改进策略如下:
步骤2.1、对于中间层中的残差块,ENet使用加法的融合策略Fi=Sum(Xi,Yi)将特征图进行融合,该发明中的卷积网络将上采样阶段的残差块结构,全部改为最大值融合策略,即:Fi=Max(Xi,Yi);
步骤2.2、为了减少采样过程中的图像细节丢失问题,网络结构共使用三次下采样操作,同时在上采样阶段使用反卷积层替换ENet网络解码过程中的所有上采样层,并使用跳跃连接结构,将下采样阶段与上采样过程中同分辨率大小的特征图进行融合;
步骤2.3、对ENet网络结构中存在的一些合并层(Concat),在其后面加一层卷积层,设定卷积核的大小为(1×1),卷积核的数目为合并层的特征图通道数,其目的是对合并后的特征图进行线性组合,更好的提取图像特征;
步骤2.4、为了增加感受野,在下采样过程的卷积模块中多次使用扩张卷积,扩张率分别为2、4、8、16,同时加入金字塔结构的融合策略,分别将扩张率为2和4的卷积模块的输出进行融合,得到的结果再与扩张率为8的卷积模块融合,最后与扩张率为16的卷积模块融合;
步骤2.5、修改ENet网络中使用的卷积模块,由两路卷积分别捕捉不同尺度感受野信息,并使用残差结构进行融合,进一步提高网络的分割精度。
在其中一个实施例中,对步骤4中优化后的网络模型参数进行处理,推断BN层参数,并融合到卷积层中,进而优化网络模型的推理速度;BN层常用在网络的训练阶段,通过对输入数据进行批量归一化操作,以加快网络的收敛速率,避免梯度消失与梯度爆炸的问题;合并参数的具体做法为:假设网络某一卷积层中获得的训练权重为W,偏差参数为b,卷积运算可以简化为Y=WX+b,X为上一层网络的输入;令BN层中的均值为μ,方差为δ,缩放因子为γ,偏移为β,一个较小数∈,则BN层用数学公式表示为:
BN层和卷积层合并后新的权重和偏差计算公式为:
Wmerged=Wα,Bmerged=Bα+(β-μα)
基于同样的发明构思,本申请还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现任一项所述方法的步骤。
基于同样的发明构思,本申请还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现任一项所述方法的步骤。
基于同样的发明构思,本申请还提供一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行任一项所述的方法。
本发明的有益效果:
本发明提供一种基于卷积网络的图像分割方法与流程,所述卷积网络是以ENet网络为主干网络改进而来,在实施过程中对原有ENet网络结构进行修改,一定程度上提高了图像的分割速度及分割准确性。网络模型学习能力较强,鲁棒性好,可以使用不同场景的语义分割任务。
附图说明
图1是本发明基于卷积网络的图像分割算法的流程示意图。
图2是本发明卷积网络模型详细结构图。
图3中左图和右图分别是图2中的网络使用的输入模块、下采样模型。
图4为本发明改进的卷积模块结构图。(左边的为原始卷积模块,右边的为改进卷积模块)
图5为本发明使用Cityscapes数据集的分割效果图。(从左到右:输入图像、真实标签、分割结果)
图6为本发明使用宫颈细胞数据集的分割效果图。(从左到右:输入图像、真实标签、分割结果、融合结果)
具体实施方式
下面结合附图和具体实施例对本发明作进一步说明,以使本领域的技术人员可以更好地理解本发明并能予以实施,但所举实施例不作为对本发明的限定。
本发明提供的技术方案如下:
一种基于卷积网络的图像分割方法,该方法包括以下步骤,其中具体步骤流程图见图1:
步骤1:数据预处理
卷积网络的训练依赖于大量的样本数据,通过训练来学习样本数据的信息表达,数据量的大小一定程度上将影响网络的学习效果。当样本过少时,卷积网络会出现过拟合现象,在测试数据中性能效果差。在使用数据训练时,通过预处理步骤对数据进行归一化操作,降低样本之间的差异对网络学习的影响。同时通过数据扩增的方法扩大样本量。例如对图像镜像翻折,翻折后的图像的基本结构信息没有发生变化,不影响图像分割判别。对大尺度图像截取部分来增加图像数据量,截取后的图像为原始图像的一部分,图像保持原始图像中正常的结构信息。此外,平移、旋转、滤波操作也是经常会使用的扩大数据集的方法。
步骤2:卷积网络模型的设计
所述卷积网络称为LBNet网络(总体结构图见图2),主要基于ENet网络进行改进,具体改进策略如下:
步骤2.1、对于中间层中的残差块,ENet使用加法的融合策略Fi=Sum(Xi,Yi)将特征图进行融合,该发明中的卷积网络将上采样阶段的残差块结构,全部改为最大值融合策略,即:Fi=Max(Xi,Yi)。
步骤2.2、为了减少采样过程中的图像细节丢失问题,网络结构共使用三次下采样操作,下采样模块见图3,同时在上采样阶段使用反卷积层替换ENet网络解码过程中的所有上采样层,并使用跳跃连接结构,将下采样阶段与上采样过程中同分辨率大小的特征图进行融合。
步骤2.3、对ENet网络结构中存在的一些合并层(Concat),在其后面加一层卷积层,设定卷积核的大小为(1×1),卷积核的数目为合并层的特征图通道数,其目的是对合并后的特征图进行线性组合,更好的提取图像特征。
步骤2.4、为了增加感受野,在下采样过程的卷积模块中多次使用扩张卷积,扩张率分别为2、4、8、16,同时加入金字塔结构的融合策略,分别将扩张率为2和4的卷积模块的输出进行融合,得到的结果再与扩张率为8的卷积模块融合,最后与扩张率为16的卷积模块融合。
步骤2.5、修改ENet网络中使用的卷积模块,改进的卷积模块如图4所示,由两路卷积分别捕捉不同尺度感受野信息,并使用残差结构进行融合,进一步提高网络的分割精度。
步骤3:模型训练与验证
步骤3.1、将步骤1中预处理后的数据按照8:1:1的比例分为训练集、验证集和测试集,并将训练集作为卷积网络的输入,训练网络模型参数。
步骤3.2、LBNet网络的验证度量指标使用像素分割精度MPA(Mean PixelAccuracy)和平均交并比MIoU(Mean Intersection over Union),分别定义为:
其中k+1为分割的总类别数,xij表示类i像素被预测为类j像素的总数目。
步骤3.3、将训练好的网络模型在准备好的测试集上进行模型的验证,并分别统计像素分割精度MPA和平均交并比MIou。
步骤4:模型优化与改进处理
根据步骤3中在测试集上的度量结果,不断调整模型的超参数,实现对步骤2建立的卷积网络模型进行参数优化。
步骤5:模型使用
根据步骤4得到的最终优化好的模型对更多的真实场景图像进行测试使用。
一种基于卷积网络的农田图像分割方法与流程
实施方式一:
步骤1、图像数据集预处理。
使用Cityscapes图像数据集,该数据集包含5000张图片,2975张训练集,500张验证集和1525张测试集,分辨率大小为1024×2048,共细分为34个不同的分割类别。由于部分类别在整个数据集中占比太少,导致测试分割结果时度量指标计算为0,影响整体的评估结果,故在训练中只使用其中的11个类别,通过计算得到,该11个类别的像素占比已经超过总像素个数的90%以上,分别为路(Road)、人行道(Sidewalk)、建筑(Building)、植被(Vegetation)、天空(Sky)、地形(Terrain)、人(Person)、轿车(Car)、自行车(Bicycle)、杆(Pole)、巴士(Bus)。同时对训练集图像进行左右翻折扩增数据集,获得5950张图片,之后缩放图像大小为512×1024用于网络的训练。
步骤2:设计卷积网络,并进行网络训练
所构造卷积网络为LBNet网络(结构图见图2),将步骤1中训练集的数据作为卷积网络的输入。训练时使用迁移学习思想,加载ENet网络官方训练好的模型参数,提高模型的泛化能力,加快网络的收敛速度。训练参数设定如下:初始学习率设置成0.001,总共迭代次数为75000次,学习率衰减规则为:分别在迭代次数是18750、37500和56250时降低学习率为当前学习率的0.1,权重衰减率为0.0002,使用Softmax损失函数,并且通过Adam优化器优化损失函数,参数为:β1=0.9,β2=0.99,其他参数默认。
步骤3:模型验证
将训练好的网络模型在500张验证集上进行模型评估,其中测试图像分辨率设定为512×1024,统计像素分割精度MPA和平均交并比MIou见表1。
表1.LBNet和ENet网络在Cityscapes数据集上的整体分割度量结果对比
网络 | 图片大小 | MPA(%) | MIoU(%) |
ENet | 512×1024 | 75.42 | 67.38 |
LBnet | 512×1024 | 79.23 | 70.97 |
步骤4:模型优化与改进处理
根据步骤3中的卷积网络模型在验证集数据的评估结果不断调整模型的超参数,实现对步骤2建立的卷积网络模型进行参数优化。
步骤5:模型使用
根据步骤4得到的最终优化好的模型对真实场景图像进行测试。
实施方式二:
本实施方式与实施方式一不同的是,所述步骤2中设计卷积网络,并进行网络训练,本实施方式中使用多分辨率策略进行网络训练。首先将数据缩放为三个不同分辨率大小,分别为全
分辨率512×1024、半分辨率256×512和四分之三分辨率384×768,之后先训练半分辨率数据集,并将网络参数作为四分之三分辨率数据集的训练初始化参数,最后训练全分辨率数据集。一方面通过不同分辨率间接的扩充了数据集,同时鼓励相同图像区域在不同分辨率下使用相同的标签,加强像素之间的相互作用。其它步骤及参数与实施方式一相同。
实施方式三:
本实施方式与实施方式一和二不同的是,所述步骤4中模型优化与改进处理,本实施方式中对步骤4中优化后的网络模型参数进行处理,推断BN层参数,并融合到卷积层中,进而优化网络模型的推理速度。BN层常用在网络的训练阶段,通过对输入数据进行批量归一化操作,以加快网络的收敛速率,避免梯度消失与梯度爆炸的问题。合并参数的具体做法为:假设网络某一卷积层中获得的训练权重为W,偏差参数为b,卷积运算可以简化为Y=WX+b,X为上一层网络的输入。令BN层中的均值为μ,方差为δ,缩放因子为γ,偏移为β,一个较小数∈(防止分母为0),则BN层用数学公式表示为:
BN层和卷积层合并后新的权重和偏差计算公式为:
Wmerged=Wα,Bmerged=Bα+(β-μα)
下面对LBNet网络使用640×480大小图片,验证合并BN层对网络推断时间的影响。表2记录了LBNet分别在BN层合并前与合并后的网络推断时间,可以看出合并BN层参数后,在CPU和GPU上的时间效率相比未合并BN参数时有极大地提高。其它步骤及参数与实施方式一或二相同。
表2.LBNet网络合并BN层到卷积层时间效果比较
模型 | CPU前向时间(ms) | GPU前向时间(ms) |
LBNet(合并前) | 2586.42 | 188.60 |
LBNet(合并后) | 1541.46 | 15.43 |
效率提升 | 40.4% | 91.8% |
实施方式四:
本实施方式与实施方式一至三不同的是,所述步骤1中图像数据集预处理,本实施方式在步骤1中使用宫颈细胞公开数据集Herlev Dataset,该数据集由917张图像及其对应的真实分割标签组成,每幅图像包含一个宫颈细胞,该细胞被分为三类:细胞质、细胞核和背景。首先对细胞图像进行数据扩增,每一张细胞图像分别使用:翻折、旋转90°、旋转180°、旋转270°、旋转90°加翻折、旋转180°加翻折、旋转270°加翻折等方式进行变换,扩充数据集为原来的8倍,总共得到7336张图片,并按照8:2的比例分为训练集和测试集。其它步骤及参数与实施方式一至三相同。通过在1467张测试图片集上进行LBNet网络的测试,得到宫颈细胞图像的像素分割精度(MPA)和平均交并比(MIoU)见表3中。
表3.LBNet网络在宫颈细胞图像上的分割度量结果
上述的实施方式均在以下实验环境中进行:Ubuntu 18.04.3 LTS,Intel(R)Xeon(R)CPU E5-2680v3@2.50GHz,内存为128GB,显存为11G,显卡型号为2080ti,其中模型训练基于Caffe框架。
以上对本发明提供的基于卷积网络的图像分割方法做了详细的描述,还有以下几点需要说明:
本发明以ENet网络为主干网络设计了一个有效和较强适用性的图像语义分割模型。
本发明提出了一个有效的扩张卷积金字塔融合模块,该模块使用扩张卷积代替传统卷积,并加入融合策略,分别将扩张率为2和4的卷积模块输出进行融合,得到的结果再与扩张率为8的卷积模块融合,最后与扩张率为16的卷积模块融合。
本发明提出了一个新型的卷积模块,该模块由两路卷积分别捕捉不同尺度感受野信息,并通过残差结构进行融合,可以有效提高网络的分割精度。
本发明将提出的LBNet卷积网络引入医学图像分割中,实现了宫颈细胞的分割检测,对医学影像诊断有着重要的研究价值和广泛的实际意义。
本发明使用多分辨率网络方法,通过将不同分辨率大小图片送入网络训练,鼓励相同图像区域在不同分辨率下使用相同的标签,加强像素之间的相互作用。
本发明将网络模型中的BN层参数融合到卷积层中,提升模型推理速度,实现了图像语义分割的实时性。
以上所述实施例仅是为充分说明本发明而所举的较佳的实施例,本发明的保护范围不限于此。本技术领域的技术人员在本发明基础上所作的等同替代或变换,均在本发明的保护范围之内。本发明的保护范围以权利要求书为准。
Claims (4)
1.一种基于卷积网络的图像分割方法,其特征在于,包括:
步骤1:数据预处理
使用Cityscapes图像数据集,在训练中只使用其中的11个类别,通过计算得到,该11个类别的像素占比已经超过总像素个数的90%以上,分别为路、人行道、建筑、植被、天空、地形、人、轿车、自行车、杆、巴士;同时对训练集图像进行左右翻折扩增数据集,获得5950张图片,之后缩放图像大小为512×1024用于网络的训练;
步骤2:卷积网络模型的设计
所述卷积网络称为LBNet网络,基于ENet网络进行改进,包括:
步骤2.1、所述LBNet网络中的卷积网络将上采样阶段的残差块结构,全部改为最大值融合策略,即:Fi=Max(Xi,Yi);
步骤2.2、网络结构共使用三次下采样操作,同时在上采样阶段使用反卷积层替换ENet网络解码过程中的所有上采样层,并使用跳跃连接结构,将下采样阶段与上采样过程中同分辨率大小的特征图进行融合;
步骤2.3、对ENet网络结构中存在的一些合并层,在其后面加一层卷积层,设定卷积核的大小为(1×1),卷积核的数目为合并层的特征图通道数;
步骤2.4、在下采样过程的卷积模块中多次使用扩张卷积,扩张率分别为2、4、8、16,同时加入金字塔结构的融合策略,分别将扩张率为2和4的卷积模块的输出进行融合,得到的结果再与扩张率为8的卷积模块融合,最后与扩张率为16的卷积模块融合;
步骤2.5、修改ENet网络中使用的卷积模块,由两路卷积分别捕捉不同尺度感受野信息,并使用残差结构进行融合;
步骤3:模型训练与验证
步骤3.1、将步骤1中预处理后的数据分为训练集和测试集,并将训练集作为卷积网络的输入,训练网络模型参数;
步骤3.2、LBNet网络的验证度量指标使用像素分割精度MPA和平均交并比MIoU,分别定义为:
其中k+1为分割的总类别数,xij表示类i像素被预测为类j像素的总数目;
步骤3.3、将训练好的网络模型在准备好的测试集上进行模型的验证,并分别统计像素分割精度MPA和平均交并比MIou;
步骤4:模型优化与改进处理
根据在测试集上的像素分割精度MPA和平均交并比MIou,不断调整模型的超参数,实现对卷积网络模型进行参数优化;对优化后的卷积网络模型参数进行处理,推断BN层参数,并融合到卷积层中,进而优化网络模型的推理速度;具体做法为:假设网络某一卷积层中获得的训练权重为W,偏差参数为b,卷积运算可以简化为Y=WX+b,X为上一层网络的输入;令BN层中的均值为μ,方差为δ,缩放因子为γ,偏移为β,一个较小数∈,则BN层用数学公式表示为:
BN层和卷积层融合后新的权重和偏差计算公式为:
Wmerged=Wα,Bmerged=Bα+(β-μα)
步骤5:模型使用
根据步骤4得到的最终优化好的模型进行图像分割。
2.如权利要求1所述的基于卷积网络的图像分割方法,其特征在于,训练参数设定如下:初始学习率设置成0.001,总共迭代次数为75000次,学习率衰减规则为:分别在迭代次数是18750、37500和56250时降低学习率为当前学习率的0.1,权重衰减率为0.0002,使用Softmax损失函数,并且通过Adam优化器优化损失函数,参数为:β1=0.9,β2=0.99,其他参数默认。
3.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1到2任一项所述方法的步骤。
4.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1到2任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010436462.3A CN111612008B (zh) | 2020-05-21 | 2020-05-21 | 基于卷积网络的图像分割方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010436462.3A CN111612008B (zh) | 2020-05-21 | 2020-05-21 | 基于卷积网络的图像分割方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111612008A CN111612008A (zh) | 2020-09-01 |
CN111612008B true CN111612008B (zh) | 2024-02-09 |
Family
ID=72199882
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010436462.3A Active CN111612008B (zh) | 2020-05-21 | 2020-05-21 | 基于卷积网络的图像分割方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111612008B (zh) |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112132037B (zh) * | 2020-09-23 | 2024-04-16 | 平安国际智慧城市科技股份有限公司 | 基于人工智能的人行道检测方法、装置、设备及介质 |
CN112200797B (zh) * | 2020-10-28 | 2024-04-05 | 佛山市南海区广工大数控装备协同创新研究院 | 一种基于pcb噪声标注数据的有效训练方法 |
CN112508961A (zh) * | 2020-11-16 | 2021-03-16 | 苏州工业职业技术学院 | 一种基于改进ResNet-Unet的CT图像分割方法 |
CN112580492A (zh) * | 2020-12-15 | 2021-03-30 | 深兰人工智能(深圳)有限公司 | 车辆检测方法及装置 |
CN112561933A (zh) * | 2020-12-15 | 2021-03-26 | 深兰人工智能(深圳)有限公司 | 图像分割方法及装置 |
CN112613387A (zh) * | 2020-12-18 | 2021-04-06 | 五邑大学 | 一种基于YOLOv3的交通标志检测方法 |
CN113012164A (zh) * | 2021-03-12 | 2021-06-22 | 山东大学 | 基于聚合层间信息的U-Net肾脏肿瘤图像分割方法、设备及存储介质 |
CN113191222B (zh) * | 2021-04-15 | 2024-05-03 | 中国农业大学 | 水下鱼类目标检测方法及装置 |
CN113128413A (zh) * | 2021-04-22 | 2021-07-16 | 广州织点智能科技有限公司 | 一种人脸检测模型训练方法、人脸检测方法及其相关装置 |
CN113033572B (zh) * | 2021-04-23 | 2024-04-05 | 上海海事大学 | 一种基于usv的障碍物分割网络及其生成方法 |
CN113496482B (zh) * | 2021-05-21 | 2022-10-04 | 郑州大学 | 一种毒驾试纸图像分割模型、定位分割方法及便携式装置 |
CN116310187B (zh) * | 2023-05-17 | 2023-08-04 | 中国地质大学(武汉) | 一种小尺度短周期的滩涂精细建模方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110110692A (zh) * | 2019-05-17 | 2019-08-09 | 南京大学 | 一种基于轻量级全卷积神经网络的实时图像语义分割方法 |
CN110490082A (zh) * | 2019-07-23 | 2019-11-22 | 浙江科技学院 | 一种有效融合神经网络特征的道路场景语义分割方法 |
CN111091130A (zh) * | 2019-12-13 | 2020-05-01 | 南京邮电大学 | 基于轻量级卷积神经网络的实时图像语义分割方法及系统 |
-
2020
- 2020-05-21 CN CN202010436462.3A patent/CN111612008B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110110692A (zh) * | 2019-05-17 | 2019-08-09 | 南京大学 | 一种基于轻量级全卷积神经网络的实时图像语义分割方法 |
CN110490082A (zh) * | 2019-07-23 | 2019-11-22 | 浙江科技学院 | 一种有效融合神经网络特征的道路场景语义分割方法 |
CN111091130A (zh) * | 2019-12-13 | 2020-05-01 | 南京邮电大学 | 基于轻量级卷积神经网络的实时图像语义分割方法及系统 |
Non-Patent Citations (2)
Title |
---|
Bobo lian 等.Fast Spectral Clustering algorithm based on wavelet basis decomposition.《2020 IEEE 4th Information Technology,Networking,Electronic and Automation Control Conference (ITNEC 2020)》.2020,全文. * |
田洪宝.《中国优秀硕士学位论文全文数据库 (农业科技辑)》.2020,全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN111612008A (zh) | 2020-09-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111612008B (zh) | 基于卷积网络的图像分割方法 | |
CN111563508B (zh) | 一种基于空间信息融合的语义分割方法 | |
CN111047551B (zh) | 一种基于U-net改进算法的遥感影像变化检测方法及系统 | |
CN110298262B (zh) | 物体识别方法及装置 | |
CN108509978B (zh) | 基于cnn的多级特征融合的多类目标检测方法及模型 | |
CN111898432B (zh) | 一种基于改进YOLOv3算法的行人检测系统及方法 | |
CN112163498B (zh) | 前景引导和纹理聚焦的行人重识别模型建立方法及其应用 | |
CN111598030A (zh) | 一种航拍图像中车辆检测和分割的方法及系统 | |
Zeng et al. | LEARD-Net: Semantic segmentation for large-scale point cloud scene | |
CN111882620B (zh) | 一种基于多尺度信息道路可行驶区域分割方法 | |
Chen et al. | Dr-tanet: Dynamic receptive temporal attention network for street scene change detection | |
CN111738055B (zh) | 多类别文本检测系统和基于该系统的票据表单检测方法 | |
CN113298815A (zh) | 一种半监督遥感图像语义分割方法、装置和计算机设备 | |
CN112150493A (zh) | 一种基于语义指导的自然场景下屏幕区域检测方法 | |
WO2023030182A1 (zh) | 图像生成方法及装置 | |
CN108230330B (zh) | 一种快速的高速公路路面分割和摄像机定位的方法 | |
CN110826462A (zh) | 一种非局部双流卷积神经网络模型的人体行为识别方法 | |
CN113066089B (zh) | 一种基于注意力引导机制的实时图像语义分割方法 | |
CN114299383A (zh) | 基于密度图与注意力机制融合的遥感图像目标检测方法 | |
CN115063786A (zh) | 一种高位远景模糊车牌检测方法 | |
CN114332473A (zh) | 目标检测方法、装置、计算机设备、存储介质及程序产品 | |
CN110852327A (zh) | 图像处理方法、装置、电子设备及存储介质 | |
CN116091946A (zh) | 一种基于YOLOv5的无人机航拍图像目标检测方法 | |
CN116596966A (zh) | 一种基于注意力和特征融合的分割与跟踪方法 | |
CN112446292A (zh) | 一种2d图像显著目标检测方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |