CN114972753A - 基于上下文信息聚合和辅助学习的轻量级语义分割方法及系统 - Google Patents

基于上下文信息聚合和辅助学习的轻量级语义分割方法及系统 Download PDF

Info

Publication number
CN114972753A
CN114972753A CN202210548515.XA CN202210548515A CN114972753A CN 114972753 A CN114972753 A CN 114972753A CN 202210548515 A CN202210548515 A CN 202210548515A CN 114972753 A CN114972753 A CN 114972753A
Authority
CN
China
Prior art keywords
semantic segmentation
image
segmentation network
loss function
context information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210548515.XA
Other languages
English (en)
Inventor
李展
姚庚奇
钟晓键
吕吉雅
赵祎明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jinan University
Original Assignee
Jinan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jinan University filed Critical Jinan University
Priority to CN202210548515.XA priority Critical patent/CN114972753A/zh
Publication of CN114972753A publication Critical patent/CN114972753A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/042Knowledge-based neural networks; Logical representations of neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/041Abduction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及基于上下文信息聚合和辅助学习的轻量级语义分割方法及系统,其方法包括步骤:S1、获取图像,对图像进行预处理,得到输入图像;S2、构建语义分割网络,语义分割网络包含上下文信息聚合模块和两阶段可分离卷积模块;S3、对语义分割网络进行训练,得到训练后的语义分割网络;S4、利用训练后的语义分割网络对输入图像进行处理,得到语义分割结果图。本发明引入了多尺度上下文并行聚合模块,在提高少量参数量的前提下均衡地提升了单向架构在大多数类别上的分割精度,在降低尽量少的分割精度的情况下,提高了语义分割网络整体的推断效率,还引入了辅助分支损失函数提升语义分割网络训练时的收敛速度,并且该分支不影响推断过程的推断速度。

Description

基于上下文信息聚合和辅助学习的轻量级语义分割方法及 系统
技术领域
本发明涉及图像处理技术领域,尤其涉及基于上下文信息聚合和辅助学习的轻量级语义分割方法及系统。
背景技术
计算机视觉作为深度学习技术落地到现实生活中的重要应用领域之一,主要关注于如何区分一幅图像所表示的物体类别,即图像分类,或是如何分类并定位出处于同一幅图像内的多个目标,即目标识别。而随着图像数据量的大规模增长和应用复杂性的不断提高,人们要求计算机不仅能够从高层次上理解一幅图像表示了什么物体,还要能够站在低层次的角度理解每个像素分别对应了什么类别,这给计算机视觉研究提出了新的挑战。得益于硬件计算能力的飞速提高,对图像的像素级分析已经成为可能,基于深度学习技术的语义分割算法也应运而生。
通俗来说,语义分割指的是在给定一幅图像的条件下,为每个像素点赋予一个类别标签,使得属于同一个类别的像素聚类为一个独立的语义实体的过程。作为图像分割的一个子领域,可以从数学的角度将语义分割视为一类边缘分割的图像处理技术,也可以从统计学的角度将其视为一种聚类方法。但相比基于Sobel算子等传统图像处理方法的边缘检测而言,后者仅仅利用了一阶导数或二阶梯度等数学信息对像素值发生跃迁或渐变的区域进行识别,而前者在此基础上还对像素之间的信息关联进行了上下文建模,使得分割结果呈现语义化的特征,从而能够适应于现实语境下的应用场景。
现有的神经网络结构大多聚焦于如何通过加深网络层数来提高准确率,以及如何在网络深度较大的前提下对其进行有效训练,而已有的轻量级网络大多以图像分类任务作为性能指标的评估标准。由于语义分割的像素级输出非常适合作为其他下游任务的前处理步骤,所以分割模型常常需要被部署到移动端或嵌入式设备端。受制于这些端侧设备有限的计算能力与功耗瓶颈,高精度的语义分割模型很难有效落地,而通过牺牲少量精度来大幅提升计算效率的轻量级模型却能大放异彩。
发明内容
为解决现有技术所存在的技术问题,本发明提出一种基于上下文信息聚合和辅助学习的轻量级语义分割方法及系统,引入了多尺度上下文并行聚合模块,在提高少量参数量的前提下较为均衡地提升了单向架构在大多数类别上的分割精度,提出了一种适用于编码器-解码器架构的深度可分离解码器,在降低尽量少的分割精度的情况下,大幅提高了语义分割网络整体的推断效率,此外,还引入了辅助分支损失函数用于提升语义分割网络训练时的收敛速度,并且该分支不影响推断过程的推断速度。
本发明方法采用以下技术方案来实现:基于上下文信息聚合和辅助学习的轻量级语义分割方法,包括以下步骤:
S1、获取图像,对图像进行预处理,得到输入图像;
S2、构建语义分割网络,语义分割网络包含上下文信息聚合模块和两阶段可分离卷积模块;
S3、对语义分割网络进行训练,得到训练后的语义分割网络;
S4、利用训练后的语义分割网络对输入图像进行处理,得到语义分割结果图;
步骤S3中对语义分割网络进行训练的具体过程如下:
S31、通过对输入的训练图像进行预处理得到输入图像和真实标记图像;
S32、通过使用语义分割网络对输入图像进行特征提取和处理得到输入图像的语义分割图像;
S33、通过交叉熵损失函数对语义分割图像和真实标记图像GT进行损失计算,得到交叉熵损失;
S34、通过将下采样卷积层输出的特征图输入第一辅助分支进行加权辅助损失函数计算,得到加权的第一辅助分支损失,通过特征融合输出的特征图输入第二辅助分支进行损失函数计算,得到加权的第二辅助分支损失;
S35、根据交叉熵损失函数、第一加权辅助分支损失函数和第二加权辅助分支损失函数,得到总损失函数;
S36、通过总损失函数对语义分割网络模型进行优化。
本发明系统采用以下技术方案来实现:基于上下文信息聚合和辅助学习的轻量级语义分割系统,包括:
图像获取模块:用于获取图像,对图像进行预处理,得到输入图像;
语义分割网络构建模块:用于构建语义分割网络,语义分割网络包含上下文信息聚合模块和两阶段可分离卷积模块;
语义分割网络训练模块:用于对语义分割网络进行训练,得到训练后的语义分割网络;
语义分割结果图获取模块:利用训练后的语义分割网络对输入图像进行处理,得到语义分割结果图;
语义分割网络训练模块的具体训练过程如下:
通过对输入的训练图像进行预处理得到输入图像和真实标记图像;
通过使用语义分割网络对输入图像进行特征提取和处理得到输入图像的语义分割图像;
通过交叉熵损失函数对语义分割图像和真实标记图像GT进行损失计算,得到交叉熵损失;
通过将下采样卷积层输出的特征图输入第一辅助分支进行加权辅助损失函数计算,得到加权的第一辅助分支损失,通过特征融合输出的特征图输入第二辅助分支进行损失函数计算,得到加权的第二辅助分支损失;
根据交叉熵损失函数、第一加权辅助分支损失函数和第二加权辅助分支损失函数,得到总损失函数;
通过总损失函数对语义分割网络模型进行优化。
本发明与现有技术相比,具有如下优点和有益效果:
1、本发明通过对Fast-SCNN轻量级语义分割网络进行改进,结合交叉熵损失和新建的第一辅助分支网络和第二辅助分支网络计算第一辅助分支损失和第二辅助分支损失,并以交叉熵损失加上权重辅助分支损失共同监督语义分割网络的训练和学习过程,保留了特征提取的优势,有效提升了单向架构网络在训练阶段的收敛速度,避免梯度消失。
2、本发明基于金字塔池化结构SPP提出了一种基于多尺度池化的上下文并行聚合模块,在几乎不损失推理效率的前提下提高了语义分割网络模型在特征提取阶段对特征图上下文信息的整合能力,提高了网络的推断性能。
3、本发明基于深度可分离卷积提出了一种适用于编码器-解码器架构的深度可分离解码器模型,在牺牲了少量分割精度的前提下大幅提高了语义分割网络模型整体的推理效率。
附图说明
图1是本发明的方法流程图;
图2是语义分割网络训练流程图;
图3是基于多尺度的上下文信息聚合模块示意图;
图4是深度可分离解码器模块结构示意图;
图5是辅助分支损失的网络结构示意图;
图6是本发明的系统结构框图;
图7(a)是输入图片示意图;
图7(b)是输出的语义图像示意图;
图7(c)是真实的标记图GT示意图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
实施例
如图1所示,本实施例基于上下文信息聚合和辅助学习的轻量级语义分割方法,包括以下步骤:
S1、获取图像,对图像进行预处理,得到输入图像;
S2、构建语义分割网络,语义分割网络包含上下文信息聚合模块和两阶段可分离卷积模块;
S3、对语义分割网络进行训练,得到训练后的语义分割网络;
S4、利用训练后的语义分割网络对输入图像进行处理,得到语义分割结果图。
本实施例中,步骤S1中对图像进行预处理的具体过程如下:
S11、将Cityscapes数据集的训练集用于训练,验证集作为测试集,Cityscapes数据集由道路、交通灯、卡车等19个类别组成;
S12、对获取的图像进行图像增强操作,并将处理后的图像缩放为512*1024的图块得到输入图像,且对图像的真实标记图进行除归一化和填充的操作外相同的增强操作得到和输入图像相同大小的GT图;
S13、对所有训练图像进行图像增强,介于0.5和2.0之间倍数的随机放缩操作、最大不超过75%的随机裁剪操作、随机翻转操作、归一化操作,以及图像填充操作。
如图2所示,本实施例中,采用Fast-SCNN网络构建语义分割网络,引入上下文信息聚合模块和两阶段深度可分离解码器;并引入如图5所示的辅助分支,辅助分支将在训练完成后抛弃;其中,在下采样卷积层引入第一辅助损失分支,在特征融合模块引入第二辅助损失分支。
如图2所示,本实施例中,步骤S3中对语义分割网络进行训练的具体过程如下:
S31、通过对输入的训练图像进行预处理得到输入图像和真实标记图像。
S32、通过使用语义分割网络对输入图像进行特征提取和处理得到输入图像的语义分割图像;
具体地,对于语义分割网络来说,输入图像经过下采样特征提取,如图3所示,经过上下文信息聚合,特征融合和如图4所示的深度可分离解码器后会得到和输入图像大小一致的语义图。
S33、通过交叉熵损失函数对语义分割图像和真实标记图像GT进行损失计算,得到交叉熵损失;具体计算公式如下:
Figure BDA0003653324780000051
其中,M表示类别数;y为one-hot变量,即元素只取0、1,若与样本类别相同则取1,否则取0;log是以e为底的对数,p表示预测样本属于c的概率。
S34、通过将下采样卷积层输出的特征图输入第一辅助分支进行加权辅助损失函数计算,得到加权的第一辅助分支损失,通过特征融合输出的特征图输入第二辅助分支进行损失函数计算,得到加权的第二辅助分支损失,辅助分支损失网络结构示意图如图5所示;
具体地,如图2所示,输入图像经过下采样卷积层得到中间特征图F1,经过上下文信息聚合模块后得到中间特征图F2,将F1和F2输入图2中得到第一辅助分支损失Laux_1和第二辅助分支损失Laux_2;加权辅助分支具体为:使用一个自适应平均池化层和一个卷积核为1的卷积层调整中间特征图的分辨率和通道数,使用全连接层编码分类信息,然后使用Softmax激活函数输出概率向量,从而计算辅助损失,在完成网络训练后,该辅助损失分支将被删除,不影响网络推断速度。
S35、根据交叉熵损失函数、第一加权辅助分支损失函数和第二加权辅助分支损失函数,得到总损失函数,具体公式如下:
Figure BDA0003653324780000052
其中,LCross Entropy Loss表示交叉熵损失,Naux表示辅助分支损失的数量,wi表示第i个辅助分支损失的权重,Laux_i表示第i个辅助分支损失的值,其中w1=w2=1。
S36、通过总损失函数对语义分割网络模型进行优化;具体地,通过梯度下降方法,使用随机梯度下降配合值为0.9的动量策略作为优化算法,使用L2权重衰减,设定批次大小为4,使用幂次为0.9的多项式学习率调整策略对学习率进行更新。
本实施例中,训练迭代次数设为16万次,每次训练一个样本即Batchsize设置为4,训练集样本数DataLoader的值为训练集中所含图片的张数,在Cityscapes数据集中训练集为2975张,测试机为500张。训练时对所有图片缩放为512*1024的输入图像,设置保存模型的间隔迭代次数为5000,批处理生成期间要使用的CPU线程数设为8,总损失函数公式中的所有辅助分支的权重参数设置为1。
本发明通过对提出多尺度上下文信息聚合模块,在几乎不损失推理效率的前提下提高了多种架构网络在多个类别上的分割精度,基于已有的深度可分离卷积提出了一种适用于编码器-解码器架构的深度可分离解码器,在牺牲少量分割精度的前提下大幅提高了模型整体的推理效率;最后引入了基于加权辅助分支的损失函数用于促进网络的收敛速度,防止梯度下降和梯度爆炸。
为了验证上下文信息聚合模块和深度可分离卷积解码器的作用,本发明基于Fast-SCNN,BiSeNet和FANet三个网络,其中Fast-SCNN为本发明的基准模型,分别引入了以上两个模块并且评估了模型引入模块前后的性能。引入上下文信息聚合模块后,语义分割网络的各项指标如平均交并比(mIoU),平均精度(mPA)或者精度(PA)都有提高,结果如表1所示;而对比于使用深度可分离卷积解码器的过程中,本发明对使用前和使用后的语义分割网络的推理效率进行了对比,从参数量(Params),计算浮点数(FLOPs)和推断速度(fps)上进行比较,结果如表2所示。在表1和表2中,分别用后缀MS-CPA和DSD表示上下文信息聚合模块和深度可分离卷积解码器。从表1和表2可以看出,引入上下文信息聚合模块提升了网络在分割上的精度,两阶段深度可分离卷积解码器则提升了网络的推断速率。
表1:语义分割评价指标结果表
语义分割方法 mIoU/% mPA/% PA/%
FANet 70.28 80.29 95.01
FANet-MS-CPA 71.88 81.82 95.03
BiSeNet 65.39 75.08 94.38
BiSeNet-MS-CPA 66.18 75.29 94.44
Fast-SCNN 55.87 63.62 93.65
Fast-SCNN-MS-CPA(Ours) 59.32 67.81 93.79
表2:语义分割推理速率结果表
语义分割方法 Params/M FLOPs/G Speed/fps
FANet 13.08 56.97 15.43
FANet-DSD 12.56 39.88 15.80
BiSeNetV2 3.34 98.61 9.46
BiSeNetV2-DSD 2.29 64.30 10.84
Fast-SCNN 1.39 15.82 19.10
Fast-SCNN-DSD(Ours) 1.13 7.31 19.48
如图6所示,基于相同的发明构思,本发明提出基于上下文信息聚合和辅助学习的轻量级语义分割系统,包括:
图像获取模块:用于获取图像,对图像进行预处理,得到输入图像;
语义分割网络构建模块:用于构建语义分割网络,语义分割网络包含上下文信息聚合模块和两阶段可分离卷积模块;
语义分割网络训练模块:用于对语义分割网络进行训练,得到训练后的语义分割网络;
语义分割结果图获取模块:利用训练后的语义分割网络对输入图像进行处理,得到语义分割结果图。
本实施例中,语义分割网络训练模块的具体训练过程如下:
通过对输入的训练图像进行预处理得到输入图像和真实标记图像;
通过使用语义分割网络对输入图像进行特征提取和处理得到输入图像的语义分割图像;
通过交叉熵损失函数对语义分割图像和真实标记图像GT进行损失计算,得到交叉熵损失;
通过将下采样卷积层输出的特征图输入第一辅助分支进行加权辅助损失函数计算,得到加权的第一辅助分支损失,通过特征融合输出的特征图输入第二辅助分支进行损失函数计算,得到加权的第二辅助分支损失;
根据交叉熵损失函数、第一加权辅助分支损失函数和第二加权辅助分支损失函数,得到总损失函数;
通过总损失函数对语义分割网络模型进行优化。
本实施例中,语义分割网络模型的输入图如图7(a)所示,输出的语义图如图7(b)所示,真实标记图如图7(c)所示。由此可见,语义分割网络采用辅助分支进行辅助损失函数计算,能有效地避免梯度消失和梯度爆炸问题,此外,辅助分支只会在训练过程中起作用,在推断过程中不会影响语义分割网络的推断速度。每个残差块将卷积输出特征与原先的特征相加,通过在特征处理前的特征图进行跳跃连接,将浅层的特征传递给后续的深度网络,使得网络更加便于优化。
引入多尺度上下文信息聚合模块和深度可分离解码器模块的语义分割网络可以更加有效的提取上下文信息以及提高推断的速率,也可以通过增加辅助损失函数分支或调整辅助分支函数的比重提高训练效率,使得网络的训练和输出达到预期效果,提升网络的推断精度和推断速度。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (8)

1.基于上下文信息聚合和辅助学习的轻量级语义分割方法,其特征在于,包括以下步骤:
S1、获取图像,对图像进行预处理,得到输入图像;
S2、构建语义分割网络,语义分割网络包含上下文信息聚合模块和两阶段可分离卷积模块;
S3、对语义分割网络进行训练,得到训练后的语义分割网络;
S4、利用训练后的语义分割网络对输入图像进行处理,得到语义分割结果图;
步骤S3中对语义分割网络进行训练的具体过程如下:
S31、通过对输入的训练图像进行预处理得到输入图像和真实标记图像;
S32、通过使用语义分割网络对输入图像进行特征提取和处理得到输入图像的语义分割图像;
S33、通过交叉熵损失函数对语义分割图像和真实标记图像GT进行损失计算,得到交叉熵损失;
S34、通过将下采样卷积层输出的特征图输入第一辅助分支进行加权辅助损失函数计算,得到加权的第一辅助分支损失,通过特征融合输出的特征图输入第二辅助分支进行损失函数计算,得到加权的第二辅助分支损失;
S35、根据交叉熵损失函数、第一加权辅助分支损失函数和第二加权辅助分支损失函数,得到总损失函数;
S36、通过总损失函数对语义分割网络模型进行优化。
2.根据权利要求1所述的基于上下文信息聚合和辅助学习的轻量级语义分割方法,其特征在于,步骤S1中对图像进行预处理的具体过程如下:
S11、将Cityscapes数据集的训练集用于训练,验证集作为测试集,Cityscapes数据集由道路、交通灯、卡车19个类别组成;
S12、对获取的图像进行图像增强操作,并将处理后的图像缩放为512*1024的图块得到输入图像,且对图像的真实标记图进行除归一化和填充的操作外相同的增强操作得到和输入图像相同大小的GT图;
S13、对所有训练图像进行图像增强,介于0.5和2.0之间倍数的随机放缩操作、最大不超过75%的随机裁剪操作、随机翻转操作、归一化操作,以及图像填充操作。
3.根据权利要求1所述的基于上下文信息聚合和辅助学习的轻量级语义分割方法,其特征在于,步骤S2中采用Fast-SCNN网络构建语义分割网络,引入上下文信息聚合模块和两阶段深度可分离解码器;并引入辅助分支,在下采样卷积层引入第一辅助损失分支,在特征融合模块引入第二辅助损失分支。
4.根据权利要求1所述的基于上下文信息聚合和辅助学习的轻量级语义分割方法,其特征在于,步骤S33中交叉熵损失的计算公式如下:
Figure FDA0003653324770000021
其中,M表示类别数;y为one-hot变量;log是以e为底的对数;p表示预测样本属于c的概率。
5.根据权利要求1所述的基于上下文信息聚合和辅助学习的轻量级语义分割方法,其特征在于,步骤S34中加权辅助分支具体为:使用一个自适应平均池化层和一个卷积核为1的卷积层调整中间特征图的分辨率和通道数,使用全连接层编码分类信息,再使用Softmax激活函数输出概率向量,计算辅助损失,在完成网络训练后,删除该辅助损失分支。
6.根据权利要求1所述的基于上下文信息聚合和辅助学习的轻量级语义分割方法,其特征在于,步骤S35中总损失函数的具体公式如下:
Figure FDA0003653324770000022
其中,LCrossEntropyLoss表示交叉熵损失,Naux表示辅助分支损失的数量,wi表示第i个辅助分支损失的权重,Laux_i表示第i个辅助分支损失的值,其中,w1=w2=1。
7.根据权利要求1所述的基于上下文信息聚合和辅助学习的轻量级语义分割方法,其特征在于,步骤S36中对语义分割网络模型进行优化的具体过程如下:通过梯度下降方法,使用随机梯度下降配合值为0.9的动量策略作为优化算法,使用L2权重衰减,设定批次大小为4,使用幂次为0.9的多项式学习率调整策略对学习率进行更新。
8.基于上下文信息聚合和辅助学习的轻量级语义分割系统,其特征在于,包括:
图像获取模块:用于获取图像,对图像进行预处理,得到输入图像;
语义分割网络构建模块:用于构建语义分割网络,语义分割网络包含上下文信息聚合模块和两阶段可分离卷积模块;
语义分割网络训练模块:用于对语义分割网络进行训练,得到训练后的语义分割网络;
语义分割结果图获取模块:利用训练后的语义分割网络对输入图像进行处理,得到语义分割结果图;
语义分割网络训练模块的具体训练过程如下:
通过对输入的训练图像进行预处理得到输入图像和真实标记图像;
通过使用语义分割网络对输入图像进行特征提取和处理得到输入图像的语义分割图像;
通过交叉熵损失函数对语义分割图像和真实标记图像GT进行损失计算,得到交叉熵损失;
通过将下采样卷积层输出的特征图输入第一辅助分支进行加权辅助损失函数计算,得到加权的第一辅助分支损失,通过特征融合输出的特征图输入第二辅助分支进行损失函数计算,得到加权的第二辅助分支损失;
根据交叉熵损失函数、第一加权辅助分支损失函数和第二加权辅助分支损失函数,得到总损失函数;
通过总损失函数对语义分割网络模型进行优化。
CN202210548515.XA 2022-05-20 2022-05-20 基于上下文信息聚合和辅助学习的轻量级语义分割方法及系统 Pending CN114972753A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210548515.XA CN114972753A (zh) 2022-05-20 2022-05-20 基于上下文信息聚合和辅助学习的轻量级语义分割方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210548515.XA CN114972753A (zh) 2022-05-20 2022-05-20 基于上下文信息聚合和辅助学习的轻量级语义分割方法及系统

Publications (1)

Publication Number Publication Date
CN114972753A true CN114972753A (zh) 2022-08-30

Family

ID=82985343

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210548515.XA Pending CN114972753A (zh) 2022-05-20 2022-05-20 基于上下文信息聚合和辅助学习的轻量级语义分割方法及系统

Country Status (1)

Country Link
CN (1) CN114972753A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116152497A (zh) * 2023-02-24 2023-05-23 智慧眼科技股份有限公司 一种语义分割模型优化方法及系统
CN116402895A (zh) * 2023-06-05 2023-07-07 未来机器人(深圳)有限公司 安全校验方法、无人叉车及存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116152497A (zh) * 2023-02-24 2023-05-23 智慧眼科技股份有限公司 一种语义分割模型优化方法及系统
CN116152497B (zh) * 2023-02-24 2024-02-27 智慧眼科技股份有限公司 一种语义分割模型优化方法及系统
CN116402895A (zh) * 2023-06-05 2023-07-07 未来机器人(深圳)有限公司 安全校验方法、无人叉车及存储介质

Similar Documents

Publication Publication Date Title
CN111462126B (zh) 一种基于边缘增强的语义图像分割方法及系统
CN109241982B (zh) 基于深浅层卷积神经网络的目标检测方法
CN111680706B (zh) 一种基于编码和解码结构的双通道输出轮廓检测方法
CN111832546B (zh) 一种轻量级自然场景文本识别方法
CN110175613A (zh) 基于多尺度特征和编解码器模型的街景图像语义分割方法
CN111582397B (zh) 一种基于注意力机制的cnn-rnn图像情感分析方法
CN111460980B (zh) 基于多语义特征融合的小目标行人的多尺度检测方法
CN114972753A (zh) 基于上下文信息聚合和辅助学习的轻量级语义分割方法及系统
CN111612008A (zh) 基于卷积网络的图像分割方法
CN110717921B (zh) 改进型编码解码结构的全卷积神经网络语义分割方法
CN110599459A (zh) 基于深度学习的地下管网风险评估云系统
CN110599502A (zh) 一种基于深度学习的皮肤病变分割方法
CN115223017B (zh) 一种基于深度可分离卷积的多尺度特征融合桥梁检测方法
CN114463340B (zh) 一种边缘信息引导的敏捷型遥感图像语义分割方法
CN110991374B (zh) 一种基于rcnn的指纹奇异点检测方法
CN115346071A (zh) 高置信局部特征与全局特征学习的图片分类方法及系统
CN109086806A (zh) 一种基于低分辨率压缩图像的iot便携式设备视觉识别加速方法
CN110633706B (zh) 一种基于金字塔网络的语义分割方法
CN115965864A (zh) 一种用于农作物病害识别的轻量级注意力机制网络
CN113327227B (zh) 一种基于MobilenetV3的小麦头快速检测方法
CN112818777B (zh) 一种基于密集连接与特征增强的遥感图像目标检测方法
Zeng et al. Masanet: Multi-angle self-attention network for semantic segmentation of remote sensing images
Ni et al. Enhanced knowledge distillation for face recognition
CN112164065B (zh) 一种基于轻量化卷积神经网络的实时图像语义分割方法
CN115035408A (zh) 基于迁移学习和注意力机制的无人机影像树种分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination