CN114463545A - 一种基于多通道深度加权聚合的图像语义分割算法及系统 - Google Patents
一种基于多通道深度加权聚合的图像语义分割算法及系统 Download PDFInfo
- Publication number
- CN114463545A CN114463545A CN202210123937.2A CN202210123937A CN114463545A CN 114463545 A CN114463545 A CN 114463545A CN 202210123937 A CN202210123937 A CN 202210123937A CN 114463545 A CN114463545 A CN 114463545A
- Authority
- CN
- China
- Prior art keywords
- semantic
- channel
- level
- auxiliary
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/70—Labelling scene content, e.g. deriving syntactic or semantic representations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/776—Validation; Performance evaluation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种基于多通道深度加权聚合的图像语义分割算法及系统,其中基于多通道深度加权聚合的图像语义分割算法包括以下步骤:S1,通过低级语义通道、辅助语义通道以及高级语义通道分别提取图像中具有明确类别信息的语义特征、介于低级语义和高级语义的过渡语义特征以及图像中上下文逻辑关系的语义特征;S2,将步骤S1得到的三种不同的语义特征通过加权聚合进行融合得到图像的全局语义信息;S3,将步骤S1中各语义通道输出的语义特征与步骤S2中的全局语义信息共同计算损失函数进行训练。本发明中的基于多通道深度加权聚合的图像语义分割算法能够解决传统图像语义分割算法无法实现分割精度与速度之间权衡的问题,具有更强的鲁棒性。
Description
技术领域
本发明涉及图像语义分割技术领域,尤其涉及一种基于多通道深度加权聚合的图像语义分割算法及系统。
背景技术
近年来,随着深度学习技术的不断发展,图像语义分割技术也随之发展到一个新的阶段,涌现出各种语义分割算法。这其中图像语义分割算法是一种重要的智能感知技术,其任务是为每个像素分配语义标签,将图像中不同物体的像素区域分隔开,并对每一块区域的类别进行标注。传统的语义分割算法有很多缺陷,如:推理速度慢、语义分割精度低、无法在智能移动机器人上实时运行等。
对于大多数语义分割算法,如何保持算法的速度与精度之间的均衡仍是一个关键问题。在传统语义分割算法中,一些方法通过限制图像大小,或者通过修剪网络的冗余通道来降低网络的计算复杂度,以此提高算法推理速度,但这些语义分割算法的分割精度较低;也有一些方法利用U形结构在高分辨率特征图上操作,提高分割精度,但这会大幅增加计算复杂度,使得算法推理速度过慢。显然,上述传统语义分割算法都不能很好的平衡精度与速度之间的关系。
考虑到当前大部分语义分割算法学习能力有限,导致算法整体性能无法得到较大的提升,为此有研究者提出从提高语义分割算法的学习能力上来改进的思路。其中神经进化方法最为显著,如神经进化的卷积神经网络ConvGP(Convolutional GeneticProgramming)、生成式对抗网络EGAN(Evolutionary Generative AdversarialNetworks)、自动编码器EvoAE(Evolutionary AutoEncoder)、长短期记忆网络CoDeepNEAT(Convolution Deep Neuro Evolution of Augmenting Topologies)、深度强化学习WANN(Weight Agnostic Neural Network)等典型模型,这些模型能极大的提高算法的学习能力,但在推理速度上仍然受到很大的限制,无法根本解决算法速度与精度之间的平衡问题。
也有研究者提出了一些改进措施:如BiSeNet语义分割算法利用双分支结构结合空间信息在保证一定速度的同时,尽可能提高算法的分割精度,取得了一定的效果。但双分支结构中分支之间的相互独立性限制了算法的学习能力,使算法无法更好的学习图像的全局语义特征,使得分割精度的提升非常有限。
DFANet语义分割算法利用多分支结构并使各分支之间进行信息交互提取图像语义特征,在保证了算法的推理速度前提下,一定程度上提高了算法的分割精度。但该多分支结构均相同,因此只能提取一种语义信息,无法更好的获取全局语义和上下文信息特征,使得算法的分割精度受到限制。
综上,虽然目前已有众多基于深度学习的语义分割算法,但这些算法几乎都无法保证图像分割精度与推理速度之间的均衡。为此本发明提出一种全新的语义分割网络框架,实现图像语义分割算法分割精度与推理速度之间的权衡。
发明内容
针对现有技术中存在的技术问题,本发明的目的在于提供一种基于多通道深度加权聚合的图像语义分割算法及系统,能够解决传统图像语义分割算法无法实现分割精度与速度之间权衡的问题,具有更强的鲁棒性。
本发明提供的基于多通道深度加权聚合的图像语义分割算法,包括以下步骤:
S1,通过低级语义通道、辅助语义通道以及高级语义通道分别提取图像中具有明确类别信息的语义特征、介于低级语义和高级语义的过渡语义特征以及图像中上下文逻辑关系的语义特征;
S2,将步骤S1得到的三种不同的语义特征通过加权聚合进行融合得到图像的全局语义信息;
S3,将步骤S1中各语义通道输出的语义特征与步骤S2中的全局语义信息共同计算损失函数进行训练。
优选地,步骤S1中:采用浅层卷积结构网络构建低级语义通道,用于提取低级语义信息;
采用深度可分离卷积结构网络构建辅助语义通道,并将辅助语义通道得到的过渡语义信息反馈至高级语义通道;
采用深层卷积结构网络构建高级语义通道,用于提取高级语义信息。
优选地,浅层卷积结构网络提取低级语义信息的过程包括:
LS(IH*W)=S3(S2(S1(IH*W)))
其中,LS(x)为低级语义信息提取过程,IH*W为输入图像矩阵,S为卷积步长。
优选地,可分离卷积结构网络包括三个串联的辅助模块及位于尾部的注意力机制模块,各模块将提取到的不同层次辅助语义信息传递到高级语义通道;
辅助语义通道提取过渡语义信息的过程包括:
AS(Km*n)=Atten(Aux(Aux(Aux(Km*n))))
其中,AS(x)为过渡语义信息提取过程,Km*n为输入辅助语义通道的特征矩阵,Aux(x)为辅助模块,Atten(x)为注意力机制模块;
辅助语义通道各阶段输出的辅助语义信息包括:
Aux1(Km*n)=Aux(Km*n)
Aux2(Km*n)=Aux(Aux1(Km*n))
Aux3(Km*n)=Aux(Aux2(Km*n))
Aux1'(Km*n)=Up(AS(Km*n),4)
其中,Up(x,k)为注意力机制模块向高级语义通道的上采样,x为输入,k为上采样倍数,选取数值为4。
优选地,高级语义通道包括启动模块、特征聚合模块以及语义嵌套模块,其提取高级语义信息的过程包括:
通过启动模块和特征聚合模块与辅助语义通道提供的辅助语义信息融合,提取图像深层语义信息,然后利用语义嵌套模块将辅助语义通道与高级语义通道的深层语义信息整合,得到高级语义信息。
优选地,所述启动模块包括卷积和最大池化两种不同的下采样方式,两种输出结果连接后卷积输出;所述特征聚合模块包括两个特征聚合子模块,利用深度卷积加深特征层数,所述特征聚合模块的聚合过程包括:
FGB(K′m*n,s1,s′1)=FG(FG(K′m*n,s1),s′1)
其中,FGB(x)为特征聚合模块推理过程,FG(x,s1)表示特征聚合子模块的推理过程,K′m*n为输入特征矩阵,步长s1=2,s1=1;
辅助语义通道中三个辅助模块的特征聚合模块的推理过程包括:
FGB1(Km*n)=FGB(ST(Km*n)+Aux1(Km*n)+Aux1'(Km*n),s1,s′1)
FGB2(Km*n)=FGB(FGB1(Km*n)+Aux2(Km*n),s1,s′1)
FGB3(Km*n)=FGB(FGB2(Km*n)+Aux3(Km*n),s1,s′1)
所述语义嵌套模块采用全局平均池化和跳跃连接结构,将高级语义通道和辅助语义通道提供的辅助语义信息进行深度融合;
高级语义通道语义信息提取的过程包括:
AS(Km*n)=SEB(FGB3(Km*n))
其中,AS(x)为高级语义通道语义信息提取过程,SEB(x)为语义嵌套模块的推理过程。
优选地,步骤S2中语义特征的融合包括加权聚合以及三类语义特征的融合,
加权聚合包括:更新低级语义通道、辅助语义通道以及高级语义通道分别得到语义特征的加权权重ε1、ε2和ε3,权重的更新由三类语义特征在验证集中测得的MIoU={MIoU1,MIoU2,MIoU3}自适应决定,采用各通道的网络权重在验证集上求得MIoU,再由MIoU值根据如下公式更新三类语义特征的加权权重,包括:
三类语义特征加权过程包括:
其中,Up为一个放大倍数为2的上采样,Up(x)表示所述上采样过程,Conv为卷积操作,sigmoid(x)的计算包括:
优选地,三类语义特征的融合包括将两两语义通道得到的加权结果相乘后再进行步长为1的3*3卷积,三类语义特征中的两两聚合过程包括:
其中,SA1(x)、SA2(x)和SA3(x)分别为三类语义特征两两聚合过程;
三类语义通道得到的三向语义特征的复合过程包括:
MSA(x)=SA1(x)+SA2(x)+SA3(x)
其中,MSA(x)为三向语义特征的复合过程。
优选地,步骤S3中,将各通道输出语义特征进行上采样与图像的全局语义信息共同计算损失进行随机梯度下降学习,损失函数包括权值的计算、损失函数的计算以及综合训练机制中损失函数的确定,其中权值的计算包括:
其中,α为权值,n为类别数;
损失函数的计算包括:
CED(x,y)=CEL(x,y)+α*D L(x,y)
其中,x为预测数据,y为真实数据,CEL(x,y)为Cross-Entropy损失函数,DL(x,y)为Dice loss损失函数;
综合训练机制中损失函数的确定包括:
其中,T为真实标签,Pre为全局语义信息输出标签,A1、A2和A3分别为低级语义通道、辅助语义通道和高级语义通道的输出标签。
本发明还提供了一种图像语义分割系统,采用上述基于多通道深度加权聚合的图像语义分割算法,包括:三通道语义表征模型、三类语义加权聚合模块以及增强训练模块;
所述三通道语义表征模型包括低级语义通道、辅助语义通道以及高级语义通道;所述辅助语义通道包括辅助模块及注意力机制模块,所述高级语义通道包括启动模块、特征聚合模块以及语义嵌套模块。
本发明针对传统图像语义分割算法无法实现分割精度与速度之间权衡的问题,提供了一种基于多通道深度加权聚合网络(Muti-Channel Deep Weighted AggregationNet,MCDWA Net,简称MCDWA_Net)新的高精度实时图像语义分割算法。
首先通过三通道语义表征模型引入多通道思想,主要包括:低级语义通道、辅助语义通道和高级语义通道三种不同的语义通道,分别用于提取三类互补的语义信息。低级语义通道输出图像中具有明确类别信息的语义特征;辅助语义通道提取介于低级语义和高级语义的过渡信息,并实现对高级语义通道的多层反馈,确保高级语义通道提取的快速性和准确性;高级语义通道获取图像中上下文逻辑关系的语义特征。
其次通过三类语义特征加权聚合模块可将三通道输出的互补语义特征加权后进行深度融合,输出全局语义特征,从而大幅提高网络的分割精度。
最后,增强训练模块通过改善两种损失函数的缺陷,并将其融合,从而加强训练阶段的特征表示,强化和改善训练的速度。
本发明中的图像语义分割算法与传统语义分割算法相比,对场景的分割精度更高,推理速度更快,对各种复杂环境的适应性更强,具有更好的实用价值。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1为本发明基于多通道深度加权聚合的图像语义分割算法的逻辑框架图;
图2为低级语义通道网络结构示意图;
图3为辅助语义通道网络结构示意图;
图4为高级语义通道网络结构示意图;
图5为启动模块网络结构示意图;
图6为特征聚合子模块网络结构示意图;
图7为语义嵌套模块网络结构示意图;
图8为三类语义特征加权聚合模块示意图;
图9为增强训练模块示意图;
图10为实施例1中模型训练损失值变化曲线图;
图11为实施例1中模型训练MIoU值变化曲线图;
图12为消融实验效果图;
图13为实施例1中六种语义分割算法实际分割效果图;
图14为实施例2中模型训练损失值变化曲线图;
图15为实施例2中模型训练MIoU值变化曲线图;
图16为实施例2中六种语义分割算法在分割效果图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
在本公开使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本公开。在本公开和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本公开可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本公开范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
参见图1,本发明提供的基于多通道深度加权聚合的图像语义分割算法,主体步骤包括:1)利用浅层卷积网络结构构建低级语义通道,用于提取图像中具有明确类别信息的语义特征,2)利用深度可分离卷积构建较深层的辅助语义通道,用于提取介于低级语义和高级语义的过渡信息,并实现对高级语义通道的多层反馈,3)利用深层卷积结构构建高级语义通道,获取图像中上下文逻辑关系的语义特征。
然后设计一种三类语义特征加权聚合模块,该模块可将三通道输出的互补语义特征加权后进行深度融合,输出全局语义特征,从而大幅提高网络的分割精度;
最后引入增强训练机制,加强训练阶段的特征表示,强化和改善训练速度。
相比于传统的语义分割算法具有更强的鲁棒性,且能够实现图像语义分割速度与精度之间的权衡。
本发明提出的基于多通道深度加权聚合的图像语义分割算法,与传统语义分割算法相比,引入多通道思想,设计一种三通道语义表征模型用于提取图像中三类不同的语义信息,该模型能够最大程度提取图像中各类语义信息,并将语义信息提取任务分配在三个通道中完成,大大降低算法推理时间,提高算法运行速度;为了使三类局部语义信息能够更好的融合在一起,本发明提供了三类语义特征加权聚合模块,使三类语义信息加权后进行两两融合,最后再将其全部融合在一起,从而融合成全局语义信息;此外,为了提高算法训练速度,通过增强训练模块能够更快的训练出算法的模型。
本发明采用了如下的技术方案及实现步骤:
三通道语义特征分别为低级语义通道、辅助语义通道和高级语义通道。
低级语义通道负责提取图像中具有明确类别信息的语义特征,此类语义信息只有在高分辨率特征图中才能完整展现。因此,本发明通过浅层结构卷积网络提取低级类别语义信息,如图2所示。该种简单的浅层结构卷积网络不仅能够提取高分辨率特征图,而且还能大大减少推理时间。
设输入图像矩阵为IH*W,通道数为3,则低级语义信息的提取可表达为表1中S1-S3的过程。
表1中,H和W分别为输入图像的高和宽,Conv表示卷积操作,k为卷积核大小,Cout为输出图像通道数,s为卷积步长。
表1低级语义通道语义信息提取过程
设函数LS(x)为低级语义通道信息提取过程,则该低级语义信息提取过程如式(1)所示:
LS(IH*W)=S3(S2(S1(IH*W))) (1)
由表1可知,低级语义通道最终会输出H/8*W/8*64的低级语义特征LS(IH*W),其能更好的表达图像中具有明确类别信息的语义特征。
辅助语义通道负责提取图像中介于低级语义和高级语义的过渡语义信息,并将其提供给高级语义通道,辅助高级语义通道提取图像上下文信息,从而起到辅助作用。
本发明采用深度可分离卷积(DSC),设计了一种既能提高运行速度又能提取更深层特征信息的辅助模块(Aux),将三个辅助模块(Aux)串联,并在尾部添加一种全连接结构的注意力机制模块(Atten),以此保留最大的感受野,输出更完整的辅助特征信息;最后将各阶段提取的辅助语义特征传递给高级语义模块,构建辅助通道,其网络结构示意图如图3所示。
如图3中,Aux模块由三层深度可分离卷积(DSC)结果和一层步长为2的3*3卷积结果结合后输出,Atten模块先将输入变为n*1000*1*1(n为类别数)的矩阵结构,再对其进行步长为1的1*1卷积,最后再恢复成原来的输入形状并与输入进行合并后输出。
设输入辅助语义通道的特征矩阵为Km*n,Aux模块用Aux(x)函数表示,Atten模块用Atten(x)表示,用AS(x)表示辅助语义通道信息提取过程,则辅助语义通道信息提取过程可表达为如下过程:
AS(Km*n)=Atten(Aux(Aux(Aux(Km*n)))) (2)
进一步,由图3可看出辅助语义通道最终输出H/16*W/16*64的过渡语义特征AS(Km*n)。
基于上述分析,设上采样操作为Up(x,k)(其中,x为输入,k为上采样倍数,此处k=4),辅助语义通道各阶段输出的辅助语义信息可表达为:
Aux1(Km*n)=Aux(Km*n) (3)
Aux2(Km*n)=Aux(Aux1(Km*n)) (4)
Aux3(Km*n)=Aux(Aux2(Km*n)) (5)
Aux1'(Km*n)=Up(AS(Km*n),4) (6)
综上可看出,辅助语义通道将各阶段输出的不同层次辅助语义信息反馈给高级语义通道,使高级语义通道更精准的提取图像中上下文逻辑关系,加快提取速度和精度。
高级语义通道负责获取图像中上下文逻辑关系的语义特征。高级语义通道通过启动模块(Start)和特征聚合模块(CGB)与辅助语义通道提供的辅助语义信息融合,实现对图像深层语义信息的提取,最后利用语义嵌套模块(SEB)将辅助语义通道与高级语义通道的深层语义信息整合,完成高级语义通道的信息提取过程,其网络结构示意图如图4所示。
启动模块(Start):高级语义通道中,以启动模块作为第一阶段,如图5所示,其使用了卷积和最大池化两种不同的下采样方式,再将它们的输出结果连接再卷积输出,以此增强特征表达能力。设函数ST(x)为启动模块的推理过程。
特征聚合模块(FGB):在启动模块之后是特征聚合模块,特征聚合模块由两个特征聚合子模块组成,特征聚合子模块网络结构示意图,如图6所示。利用深度卷积加深特征层数,提取更深层语义信息,更有效地聚合语义特征,输出更深层特征。
假设采用FG(x,s1)表示特征聚合子模块推理过程,FGB(x)表示特征聚合模块推理过程,则聚合过程如公式(7)所示:
FGB(K'm*n,s1,s′1)=FG(FG(K'm*n,s1),s′1) (7)
其中,K'm*n为输入特征矩阵,步长s1=2,s′1=1。
进一步结合公式(3)、(4)、(5)、(6)和(7),可将FGB1、FGB2、FGB3推理过程表达如下:
FGB1(Km*n)=FGB(ST(Km*n)+Aux1(Km*n)+Aux1'(Km*n),s1,s′1) (8)
FGB2(Km*n)=FGB(FGB1(Km*n)+Aux2(Km*n),s1,s′1) (9)
FGB3(Km*n)=FGB(FGB2(Km*n)+Aux3(Km*n),s1,s′1) (10)
语义嵌套模块(SEB):在高级语义通道最后阶段是一个语义嵌套模块,该模块使用了全局平均池化和跳跃连接结构,将高级语义通道和辅助语义通道提供的辅助语义信息进行深度融合,从而更有效的嵌入全局上下文信息,如图7所示。设SEB(x)表示该模块的推理过程,AS(x)为高级语义通道语义信息提取过程,则结合公式(10)可将AS(x)推理过程表达如下:
AS(Km*n)=SEB(FGB3(Km*n)) (11)
综上,可由高级语义通道提取H/32*W/32*128的高级语义特征AS(Km*n)。
上述三类语义信息均为图像的局部语义特征,具有互补性,为此需要将三者进行融合得到图像的全局语义信息,本发明通过采用特征加权聚合方法实现三类语义融合。
具体融合原理如图8所示,当输入H*W*3的图像时,先通过三类语义通道提取语义特征,之后加权聚合过程如下:
加权聚合原理分析
设三类语义特征加权权重分别为ε1、ε2和ε3,其初值均设为1,运行中权重的改变由三类语义特征在验证集中测得的MIoU={MIoU1,MIoU2,MIoU3}自适应决定,具体更新规则为采用当前各通道的网络权重在验证集上求得MIoU,再由MIoU值根据如下公式(14)~(16)更新ε1、ε2和ε3。
如图8中Down是一个步长为2的3*3卷积,Up是一个放大倍数为2的上采样,设Up(x)表示该上采样过程,则三类语义特征加权过程如下:
式中,
三类语义特征聚合
如图8中表示将两种结果相乘后再进行步长为1的3*3卷积,设该卷积过程用Conv1(x)表示,三类语义特征两两聚合过程分别用SA1(x)、SA2(x)和SA3(x)表示,最后复合过程用MSA(x)表示,由公式(15)可得:
三向语义特征最后的复合过程可表达如下:
MSA(x)=SA1(x)+SA2(x)+SA3(x) (18)
综上,公式(15)~公式(18)完成了三类语义特征加权聚合的推理过程。
为进一步提高训练速度和训练效果,本发明设计了一种新的增强训练模块,可增强训练阶段特征表示。如图9所示,在训练MCDWA_Net网络时,将各通道输出特征进行上采样与网络最终输出结果共同计算损失进行随机梯度下降学习。
传统语义分割中,一般采用Cross-Entropy损失函数进行梯度下降学习,如式(19)所示:
其中,p为真实数据,q为预测数据,C为类别数。
然而Cross-Entropy损失函数在语义分割时,权重的更新会受到误差的影响。例如图像中前景像素远小于背景像素,式(19)中pi=0部分会占据主导,则会使训练出的模型偏向背景。
为此,引入另一种损失函数Dice loss如式(20)所示:
式(20)中,X为预测数据,Y为真实数据。一般情况下使用Dice loss损失函数会对反向传播不利,使训练过程不稳定,因此该损失函数应用并不多。
然而通过实验发现,Dice loss损失函数有一个特点即当图像中前景像素与背景像素数量不均衡时,该函数能恰好弥补Cross-Entropy损失函数的缺陷,消除偏差影响。为此,本发明将二者相结合,设计了一种基于Cross-Entropy与Dice loss的联合损失函数,简称CEDice损失函数。
设x为预测数据,y为真实数据,n为类别数,α为权值,则公式如下:
则CEDice损失函数可表达如下:
CED(x,y)=CEL(x,y)+α*DL(x,y) (22)
CEL(x,y)为Cross-Entropy交叉熵损失函数,DL(x,y)为Dice loss铰链损失函数;由式(21)和式(22)可知,当语义分割中分割类别数为1时,相当于一个二分类,此时无需用到Dice loss损失函数,因此,只有Cross-Entropy损失函数起作用;当语义分割类别数目越大时,图像中会存在前景像素远小于背景像素,即图像中前景像素与背景像素数量不均衡的情况,此时加入Dice loss损失函数的权值越大,会极大的降低像素不均衡的影响。
综上,将本发明的综合训练机制中的损失函数替换为CEDice损失函数,则最终的损失函数可设为:
式(23)中,T为真实标签,Pre为MCDWA_Net网络输出标签,A1、A2和A3分别为低级语义通道、辅助语义通道和高级语义通道的输出标签。
以下针对不同的应用环境对本发明中的技术方案展开说明,本发明中仿真实验平台的硬件环境为Intel Core i7-10750 CPU,@2.6GHz,x6 cores,16GB RAM,实验的运行环境为Pytorch1.6.0。
实施例1
本实施例中主要进行Cityscapes街景数据集实验。
在仿真实验中,首先采用Cityscapes街景数据集进行验证。该数据集共有18类街景和1类背景(总类别数为19),采用数据集中3475张图片及其标签进行训练、验证和测试。其中训练集、验证集和测试集图片数量分别为2975张、300张、200张。之后,制作了实验室走廊的实际场景数据集,该数据集共有7个走廊场景类和1个背景类(总类别数为8),共350张图片及其标签,300张用于训练模型,30张用于验证模型,20张用于测试模型。为充分表明本发明算法的有效性,分别与BiSeNet、BiSeNetV2、DFANet、Deeplab V3和ShuffleNet V2算法进行了对比和分析。
1)模型训练
在用Cityscapes街景数据集训练MCDWA_Net模型时,设置训练批量Batch_size为4,类别数为Num_classes为19,迭代次数为Epoches为500,学习策略采用随机梯度下降(SGD)算法,并设其动量为0.9,初始学习率设为0.05,权重衰减率为0.0001。
在训练模型时,采用本发明提出的增强训练模块将各通道提取的三类语义特征应用公式(23)计算损失函数,并采用随机梯度下降法进行训练学习,训练过程中损失值变化如图10所示。
2)模型性能评价指标
首先引入平均交并比(Mean Intersection over Union,MIoU)对模型的准确性进行评估,MIoU评估的是模型分割物体的精度,MIoU值越高则表示物体分割效果越好。计算方法如式(23)所示:
式中,k为类别数,FTi表示第i个类别中预测错误且预测为真的样本数,FFi表示第i个类别中预测错误且预测为假的样本数,TTi表示第i个类别中预测正确的样本数。
本发明算法在Cityscapes街景数据集上训练过程MIoU值变化如图11所示。
3)模型消融实验
在Cityscapes街景数据集上完成消融实验,验证网络模型中各模块的有效性,并利用Cityscapes街景验证集进行算法评估。
表2和图12是MCDWA_Net在Cityscapes街景数据集上的实验结果。表2中前三行表示仅使用一个通道时的分割精度和运算复杂度,低级语义通道无法获取图像的上下文逻辑关系特征,辅助语义通道仅能提取过渡语义信息,高级语义通道包含图像的上下文逻辑关系语义特征,但没有明确的类别信息,因此,这三种语义通道都无法获取图像完整的语义信息,必须将三类语义信息进行相融才能表达图像的完整语义信息,而融合方法结果也起到了至关重要的作用,如表2第4行的直接相加融合效果明显比第五行的语义特征加权融合效果差很多。但也可看出无论何种融合方法,融合后分割效果均明显优于各通道的分割效果,说明三个通道提取的语义信息具有局部性和互补性。
此外,模型训练的方法也影响着模型的分割效果,用普通的训练方法比本发明的增强训练方法训练出的模型分割精度低0.6%。因此,一定程度上来说,本发明设计的增强训练方法也能提高训练模型的分割精度。综上,将三类互补的语义信息加权聚合后,图像的语义分割效果更好,分割精度更高,上下文信息表达更加明确。
表2 MCDWA_Net在Cityscapes街景数据集上的消融实验
4)模型性能对比实验
将BiSeNet、BiSeNetV2、DFANet、Deeplab V3和ShuffleNet V2算法在Cityscapes街景数据集上训练出相应模型,采用传统训练策略进行训练。
表3 MCDWA_Net算法与先进算法在Cityscapes街景数据集上的性能比较
表3展现了MCDWA_Net和5种相对最新的语义分割算法性能指标对比结果。由表3可明显看出本发明所提的MCDWA_Net算法分割精度高于其他5种算法,但其运算复杂度比BiSeNet、BiSeNetV2、DFANet算法更复杂,因此其推理速度稍慢于这三种算法,在算法精度和推理速度上均优于Deeplab V3和ShuffleNet V2算法。
上述6种算法具体分割效果如图13所示。由表3和图13可知,本发明中的算法虽然小幅降低了推理速度,但大幅提升了分割精度,其MIoU最高可达80.4%,推理速度为16ms/帧。因此,综合性能更优、性价比更高,具有更好的实际应用价值。
实施例2
本实施例中主要进行实验室走廊场景数据集实验,实验室走廊场景数据集是自设场景建立的数据集。本实施例中的重要目的是验证本发明设计的增强训练模块的训练效果,在用实验室走廊场景数据集训练MCDWA_Net模型时,设置训练批量Batch_size为4,类别数为Num_classes为8,迭代次数为Epoches为500,学习策略采用随机梯度下降(SGD)算法,并设其动量为0.9,初始学习率设为0.05,权重衰减率为0.0001。
利用本发明所提出的增强训练模块的CEDice loss损失函数与单独使用CrossEntropy损失函数和Dice loss损失函数训练结果最对比,验证本发明算法的优越性。训练过程损失值变化过程如图14所示,MIoU值变化过程如图15所示。此外,表4展现了各种损失函数的训练效果。
表4三种损失函数训练效果比较
结合图14和表4可知,本发明设计的CEDice loss损失函数在训练过程中循环训练90次即可让损失值降低90%以上,而Cross Entropy损失函数在训练过程中需要循环139次才能使损失值降低90%,Dice loss损失函数在训练过程中需要循环141次才能使损失值降低90%,由此可见本发明所设计的损失函数能够更好的降低训练时的损失值。
结合图15和表4可知,在实验室走廊场景数据集训练过程中,本发明中的增强训练模块使用CEDice loss损失函数能够使模型MIoU最高达到95%,且仅需要循环训练9次即可使模型的MIoU提升90%,而Cross Entropy损失函数与Dice loss损失函数能够使模型精度最高达到94.2%和82%,它们分别需要循环训练22次和298次才能使模型的MIoU提升90%,由此可见,本发明所设计的训练算法能够更快的使语义分割网络模型提升至更高精度,强于其他损失函数的单独应用。
同时,本发明也将BiSeNet、BiSeNetV2、DFANet、Deeplab V3和ShuffleNet V2算法在实验室走廊场景数据集上训练出相应模型,并与本发明算法性能进行比较,6种算法在实验室走廊场景数据集上的性能如表5所示,其对实验室走廊场景的分割效果如图16所示。
表5 MCDWA_Net算法与先进算法在实验室走廊场景数据集上的性能比较
表5中展现了本发明所提MCDWA_Net算法虽然推理速度相对较慢,但其分割精度大幅提高,这几类算法具体分割效果如图16所示,本发明所提算法对图像的分割效果明显优于其他算法的分割效果。
此外,本发明所提算法在分割精度上具有显著的提升,大大高于其他5种算法,且其运算复杂度相对较低,推理速度相对较快,再根据图15可看出(左图为较简单场景,右图为较复杂场景),在左图简单场景中本发明算法的优越性并不十分明显,但在右图复杂场景中,可显著看出其他5种算法对场景的语义分割均有缺陷,由于它们不能完整的提取图像的全局语义信息,从而导致分割效果相对欠佳。因此,在对实验室走廊场景的实验中,本发明所提算法的综合性能更优,分割精度更高,运行速度较快,从而进一步表明本发明算法在实际场景中的优越性。
最后应说明的是:虽然本说明书包含许多具体实施细节,但是这些不应被解释为限制任何发明的范围或所要求保护的范围,而是主要用于描述特定发明的具体实施例的特征。本说明书内在多个实施例中描述的某些特征也可以在单个实施例中被组合实施。另一方面,在单个实施例中描述的各种特征也可以在多个实施例中分开实施或以任何合适的子组合来实施。此外,虽然特征可以如上所述在某些组合中起作用并且甚至最初如此要求保护,但是来自所要求保护的组合中的一个或多个特征在一些情况下可以从该组合中去除,并且所要求保护的组合可以指向子组合或子组合的变型。
类似地,虽然在附图中以特定顺序描绘了操作,但是这不应被理解为要求这些操作以所示的特定顺序执行或顺次执行、或者要求所有例示的操作被执行,以实现期望的结果。在某些情况下,多任务和并行处理可能是有利的。此外,上述实施例中的各种系统模块和组件的分离不应被理解为在所有实施例中均需要这样的分离,并且应当理解,所描述的程序组件和系统通常可以一起集成在单个软件产品中,或者封装成多个软件产品。
由此,主题的特定实施例已被描述。其他实施例在所附权利要求书的范围以内。在某些情况下,权利要求书中记载的动作可以以不同的顺序执行并且仍实现期望的结果。此外,附图中描绘的处理并非必需所示的特定顺序或顺次顺序,以实现期望的结果。在某些实现中,多任务和并行处理可能是有利的。
以上所述仅为本公开的较佳实施例而已,并不用以限制本公开,凡在本公开的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本公开保护的范围之内。
Claims (10)
1.一种基于多通道深度加权聚合的图像语义分割算法,其特征在于,包括以下步骤:
S1,通过低级语义通道、辅助语义通道以及高级语义通道分别提取图像中具有明确类别信息的语义特征、介于低级语义和高级语义的过渡语义特征以及图像中上下文逻辑关系的语义特征;
S2,将步骤S1得到的三种不同的语义特征通过加权聚合进行融合得到图像的全局语义信息;
S3,将步骤S1中各语义通道输出的语义特征与步骤S2中的全局语义信息共同计算损失函数进行训练。
2.根据权利要求1所述的基于多通道深度加权聚合的图像语义分割算法,其特征在于,步骤S1中:
采用浅层卷积结构网络构建低级语义通道,用于提取低级语义信息;
采用深度可分离卷积结构网络构建辅助语义通道,并将辅助语义通道得到的过渡语义信息反馈至高级语义通道;
采用深层卷积结构网络构建高级语义通道,用于提取高级语义信息。
3.根据权利要求2所述的基于多通道深度加权聚合的图像语义分割算法,其特征在于,浅层卷积结构网络提取低级语义信息的过程包括:
LS(IH*W)=S3(S2(S1(IH*W)))
其中,LS(x)为低级语义信息提取过程,IH*W为输入图像矩阵,S为卷积步长。
4.根据权利要求2所述的基于多通道深度加权聚合的图像语义分割算法,其特征在于,可分离卷积结构网络包括三个串联的辅助模块及位于尾部的注意力机制模块,各模块将提取到的不同层次辅助语义信息传递到高级语义通道;
辅助语义通道提取过渡语义信息的过程包括:
AS(Km*n)=Atten(Aux(Aux(Aux(Km*n))))
其中,AS(x)为过渡语义信息提取过程,Km*n为输入辅助语义通道的特征矩阵,Aux(x)为辅助模块,Atten(x)为注意力机制模块;
辅助语义通道各阶段输出的辅助语义信息包括:
Aux1(Km*n)=Aux(Km*n)
Aux2(Km*n)=Aux(Aux1(Km*n))
Aux3(Km*n)=Aux(Aux2(Km*n))
Aux1'(Km*n)=Up(AS(Km*n),4)
其中,Up(x,k)为注意力机制模块向高级语义通道的上采样,x为输入,k为上采样倍数,选取数值为4。
5.根据权利要求4所述的基于多通道深度加权聚合的图像语义分割算法,其特征在于,高级语义通道包括启动模块、特征聚合模块以及语义嵌套模块,其提取高级语义信息的过程包括:
通过启动模块和特征聚合模块与辅助语义通道提供的辅助语义信息融合,提取图像深层语义信息,然后利用语义嵌套模块将辅助语义通道与高级语义通道的深层语义信息整合,得到高级语义信息。
6.根据权利要求5所述的基于多通道深度加权聚合的图像语义分割算法,其特征在于,所述启动模块包括卷积和最大池化两种不同的下采样方式,两种输出结果连接后卷积输出;所述特征聚合模块包括两个特征聚合子模块,利用深度卷积加深特征层数,所述特征聚合模块的聚合过程包括:
FGB(K′m*n,s1,s′1)=FG(FG(K′m*n,s1),s′1)
其中,FGB(x)为特征聚合模块推理过程,FG(x,s1)表示特征聚合子模块的推理过程,K′m*n为输入特征矩阵,步长s1=2,s′1=1;
辅助语义通道中三个辅助模块的特征聚合模块的推理过程包括:
FGB1(Km*n)=FGB(ST(Km*n)+Aux1(Km*n)+Aux1'(Km*n),s1,s′1)
FGB2(Km*n)=FGB(FGB1(Km*n)+Aux2(Km*n),s1,s′1)
FGB3(Km*n)=FGB(FGB2(Km*n)+Aux3(Km*n),s1,s′1)
所述语义嵌套模块采用全局平均池化和跳跃连接结构,将高级语义通道和辅助语义通道提供的辅助语义信息进行深度融合;
高级语义通道语义信息提取的过程包括:
AS(Km*n)=SEB(FGB3(Km*n))
其中,AS(x)为高级语义通道语义信息提取过程,SEB(x)为语义嵌套模块的推理过程。
9.根据权利要求1所述的基于多通道深度加权聚合的图像语义分割算法,其特征在于,步骤S3中,将各通道输出语义特征进行上采样与图像的全局语义信息共同计算损失进行随机梯度下降学习,损失函数包括权值的计算、损失函数的计算以及综合训练机制中损失函数的确定,其中权值的计算包括:
其中,α为权值,n为类别数;
损失函数的计算包括:
CED(x,y)=CEL(x,y)+α*DL(x,y)
其中,x为预测数据,y为真实数据,CEL(x,y)为Cross-Entropy损失函数,DL(x,y)为Diceloss损失函数;
综合训练机制中损失函数的确定包括:
其中,T为真实标签,Pre为全局语义信息输出标签,A1、A2和A3分别为低级语义通道、辅助语义通道和高级语义通道的输出标签。
10.一种基于多通道深度加权聚合的图像语义分割系统,其特征在于,包括:三通道语义表征模型、三类语义加权聚合模块以及增强训练模块;
所述三通道语义表征模型包括低级语义通道、辅助语义通道以及高级语义通道;所述辅助语义通道包括辅助模块及注意力机制模块,所述高级语义通道包括启动模块、特征聚合模块以及语义嵌套模块。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210123937.2A CN114463545A (zh) | 2022-02-10 | 2022-02-10 | 一种基于多通道深度加权聚合的图像语义分割算法及系统 |
US18/163,918 US20230316699A1 (en) | 2022-02-10 | 2023-02-03 | Image semantic segmentation algorithm and system based on multi-channel deep weighted aggregation |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210123937.2A CN114463545A (zh) | 2022-02-10 | 2022-02-10 | 一种基于多通道深度加权聚合的图像语义分割算法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114463545A true CN114463545A (zh) | 2022-05-10 |
Family
ID=81413384
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210123937.2A Pending CN114463545A (zh) | 2022-02-10 | 2022-02-10 | 一种基于多通道深度加权聚合的图像语义分割算法及系统 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20230316699A1 (zh) |
CN (1) | CN114463545A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116452931A (zh) * | 2023-04-11 | 2023-07-18 | 北京科技大学 | 一种层级敏感的图像特征聚合方法 |
CN117078923A (zh) * | 2023-07-19 | 2023-11-17 | 苏州大学 | 面向自动驾驶环境的语义分割自动化方法、系统及介质 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117576569B (zh) * | 2024-01-12 | 2024-04-02 | 城云科技(中国)有限公司 | 一种用于城市市容事件管理的多目标检测模型及方法 |
-
2022
- 2022-02-10 CN CN202210123937.2A patent/CN114463545A/zh active Pending
-
2023
- 2023-02-03 US US18/163,918 patent/US20230316699A1/en active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116452931A (zh) * | 2023-04-11 | 2023-07-18 | 北京科技大学 | 一种层级敏感的图像特征聚合方法 |
CN116452931B (zh) * | 2023-04-11 | 2024-03-19 | 北京科技大学 | 一种层级敏感的图像特征聚合方法 |
CN117078923A (zh) * | 2023-07-19 | 2023-11-17 | 苏州大学 | 面向自动驾驶环境的语义分割自动化方法、系统及介质 |
Also Published As
Publication number | Publication date |
---|---|
US20230316699A1 (en) | 2023-10-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110175671B (zh) | 神经网络的构建方法、图像处理方法及装置 | |
CN114463545A (zh) | 一种基于多通道深度加权聚合的图像语义分割算法及系统 | |
CN110852368A (zh) | 全局与局部特征嵌入及图文融合的情感分析方法与系统 | |
WO2021057056A1 (zh) | 神经网络架构搜索方法、图像处理方法、装置和存储介质 | |
CN108509978A (zh) | 基于cnn的多级特征融合的多类目标检测方法及模型 | |
CN111368972B (zh) | 一种卷积层量化方法及其装置 | |
CN107239733A (zh) | 连续手写字识别方法及系统 | |
de Geus et al. | Single network panoptic segmentation for street scene understanding | |
CN113486726A (zh) | 一种基于改进卷积神经网络的轨道交通障碍物检测方法 | |
WO2022007867A1 (zh) | 神经网络的构建方法和装置 | |
EP4152211A1 (en) | Neural network model training method, image classification method, text translation method and apparatus, and device | |
CN113422952B (zh) | 基于时空传播层次编解码器的视频预测方法 | |
CN113159067A (zh) | 一种基于多粒度局部特征软关联聚合的细粒度图像辨识方法及装置 | |
CN110532911A (zh) | 协方差度量驱动小样本gif短视频情感识别方法及系统 | |
CN113592825A (zh) | 一种基于yolo算法的煤矸实时检测方法 | |
CN114821340A (zh) | 一种土地利用分类方法及系统 | |
CN115797629A (zh) | 基于检测增强和多阶段边界框特征细化的实例分割方法 | |
Lu et al. | Mfnet: Multi-feature fusion network for real-time semantic segmentation in road scenes | |
CN116703947A (zh) | 一种基于注意力机制和知识蒸馏的图像语义分割方法 | |
CN111179272A (zh) | 一种面向道路场景的快速语义分割方法 | |
CN111783688B (zh) | 一种基于卷积神经网络的遥感图像场景分类方法 | |
CN114494284B (zh) | 一种基于显式监督区域关系的场景解析模型及方法 | |
CN116258176A (zh) | 一种数据处理方法及其装置 | |
CN115600421A (zh) | 基于改进型Petri网的自主式交通系统演化模型的构建方法及装置、介质 | |
CN116863260A (zh) | 数据处理方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |