CN115797635A - 一种基于并行特征补全的多阶段实例分割方法及系统 - Google Patents

一种基于并行特征补全的多阶段实例分割方法及系统 Download PDF

Info

Publication number
CN115797635A
CN115797635A CN202211580594.9A CN202211580594A CN115797635A CN 115797635 A CN115797635 A CN 115797635A CN 202211580594 A CN202211580594 A CN 202211580594A CN 115797635 A CN115797635 A CN 115797635A
Authority
CN
China
Prior art keywords
features
parallel
feature
mask
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211580594.9A
Other languages
English (en)
Inventor
王海
朱世林
蔡英凤
陈龙
李祎承
刘擎超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu University
Original Assignee
Jiangsu University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu University filed Critical Jiangsu University
Priority to CN202211580594.9A priority Critical patent/CN115797635A/zh
Publication of CN115797635A publication Critical patent/CN115797635A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

本发明公开了一种基于并行特征补全的多阶段实例分割方法及系统,经过数据前处理得到适用于系统输入的数据格式后,在骨干网络ResNet50引入GC Block获取实例关联信息。然后提出并行语义分支和并行全局分支,提取特征层的语义和全局信息,实现RoI特征的补全。再经过边界框动态交互模块和检测分支得到边界框的回归。此外,还提出了特征传递结构,通过显式增加检测与分割分支的联系,改变梯度反向传播的路径进而间接补全RoI特征,在经过掩码动态交互模块和掩码分支得到实例掩码。值得强调的一点,上述结构均为并行的,即阶段与阶段之间没有干扰,并且与QueryInst的并行监督机制相契合。并且还将其与非并行结构比较,进一步凸显所提并行结构的优越性能。

Description

一种基于并行特征补全的多阶段实例分割方法及系统
技术领域
本发明属于智能自动驾驶汽车环境感知技术领域,特别涉及一种基于并行特征补全的多阶段实例分割方法及系统。
背景技术
实例分割是一项基本的却具有挑战性的计算机视觉任务,需要识别图像中的对象,并且在像素级别的层面上对每个感兴趣的对象进行分割。因此,将实例分割算法应用到自动驾驶场景,可以在实例级和像素级层面同时区分行人,汽车,骑手等关注对象,具有工程意义。
实例分割方法依据生成掩码的阶段数目可以大致分为单阶段,二阶段,以及多阶段。单阶段方法的掩码生成过程各不相同,关键在于掩码的建模和监督是否耦合。其优势在于推理速度快,但是精度不够高。二阶段方法普遍建立在Mask R-CNN的基础上,首先得到感兴趣的区域,然后引出掩码分支对该局部区域进行二值化。二阶段方法普遍比一阶段的精度高,但是速度略低一些。多阶段方法则是二阶段方法的推广,其目的在于追求更高的精度。目前,主流的实例分割方法是建立在注意力机制的基础上,通过结合掩码信息与对象查询,对对象查询进行编码-解码,最后得到分割结果。因此,考虑到算法在自动驾驶汽车对准确性的要求,兼具多阶段和注意力机制的算法越来越受到学界和工业界的关注。
QueryInst是第一个融合注意力机制的多阶段方法,但是对RoI(region ofinterest)特征补全的单一性、与骨干网络ResNet50联系的不足以及RoIAlign(region ofinterest align)的局部性和被动性,这三种因素造成了RoI特征的不足。RoI特征的不足则会导致无法与背景特征相互区分,造成关注的对象未进行实例级的区分和像素级的分割。于是,针对QueryInst进行特征补全,以此实现实例分割的效果更加全面是一个值得研究的方向。
发明内容
针对此问题,本发明提出了一种基于并行特征补全的多阶段实例分割方法及系统,来进行QueryInst方法每个阶段的并行性特征补全,从而使得特征层上的实例信息与周围的背景信息更易区分,进而使得分割的关注对象更加全面,以此来提高QueryInst方法的精度。具体技术方案如下:
一种基于并行特征补全的多阶段实例分割方法,包括以下步骤:
S1数据预处理;
S2带有全局上下文的骨干网络ResNet50特征提取;
S3将特征输入QueryInst-Parallel Completion网络头部,得到补全的掩码结果;
S4并行语义分支特征补全;
S5并行全局分支特征补全;
S6并行特征传递,输出分割结果。
进一步,所述S1的数据预处理具体如下:
S1.1从本地文件加载数据集,
S1.2从本地文件加载标签文件;
S1.3对输入的图像和标签调整大小;
S1.4进行随机翻转处理;
S1.5进行归一化和边界补零处理得到具有三通道的数字形式的图像。
进一步,所述S2具体如下:
将GC Block插入到骨干网络ResNet50,依据每个查询位置,捕获长距离依赖关系,提取出全局上下文信息,进而将这种信息聚合到每个查询位置的特征中;
所述GC Block的逻辑框架包括:
(a)对输入的特征图进行上下文关系的建模,以获取全局上下文特征;
(b)对全局上下文特征进行转换以捕获通道依赖性关系;
(c)将具有全局上下文信息的特征与每个对应位置的特征进行聚合,使特征更加完整;
所述特征提取的步骤如下:
首先对特征图进行全局上下文建模,对于特征图中的查询位置j,首先通过1x1的卷积获取j位置关系权重,然后进行SoftMax归一化处理,最后与j位置的特征对应相乘再对所有查询位置进行求和获取相应的全局上下文特征∑jajxj
然后进行特征转换δ,为了减小更深层由通道数增多导致的计算量,将1x1卷积设置为瓶颈变换,使得卷积后的通道数为C/r,其中r为瓶颈比率,得到的全局上下文特征具备通道依赖关系;
最后通过利用广播机制进行元素位置的相加,获取完整特征。
进一步,所述S3具体如下:
将S2得到的特征输入到QueryInst-Parallel Completion网络头部,同时初始化随机生成边界框对特征进行RoIAlign处理、并行语义分支处理和并行全局分支处理,得到语义信息和全局信息补全的RoI特征,并且随机初始化生成对象查询,经过MSA处理得到增强的对象查询,将增强的对象查询与RoI特征输入到边界框动态交互模块得到增强边界框RoI特征和下一阶段的对象查询,然后将增强边界框RoI特征输入到检测分支得到边界框信息,之后进入掩码生成环节,依据生成的边界框进行正负样本划分,依据损失代价选出损失较小的为正样本,将正样本进行RoIAlign处理、并行语义分支处理和并行全局分支处理,得到语义信息和全局信息补全的RoI特征,同时将在检测部分的边界框动态交互后的增强边界框RoI特征依据正样本进行索引,筛选出相应的增强边界框RoI特征输入到特征传递部分,与之后进行掩码动态交互得到增强掩码RoI特征进行对应元素求和,实现补全,最后将补全结果输入到掩码分支,得到掩码结果。
进一步,所述S4的实现包括:
将骨干网络ResNet50前两个阶段的特征层作为输入,分别是阶段0和1,首先进行1x1的卷积进行特征转换,使其进一步靠向语义特征,然后stage1输出结果经过上采样与stage0结果进行对齐,经过元素对应相加得到融合特征;之后将融合特征输入到金字塔池化模块,具体的将融合特征层划分成6x6,3x3,2x2,1x1的网格,每个网格内部各自进行平均池化,池化结果进行上采样聚合,再经过4个3x3卷积和1x1卷积调整通道以适应RoI特征的维度;最后得到的语义特征与RoI特征融合补全,使其具有语义信息。
进一步,所述S5的实现包括:
将骨干网络ResNet50的阶段2和3以及经过下采样的阶段4特征作为输入,首先经过1x1的卷积进行特征通道数调整,然后对齐到阶段4,之后按元素对应关系相加,得到融合特征,再经过4个3x3卷积对融合特征进行全局信息提取、展平,通过一层全连接对局部信息进行整体组装,得到具有高度全局信息的特征向量,子分支数目和并行语义分支相同,其中一个通过图像分类预测各个感兴趣对象的类别实现对特征向量的监督,另一个分支则是输出全局特征,补全到RoI特征。
进一步,所述S6的实现包括:
将经过检测分支的动态交互后的增强边界框特征作为并行特征传递的输入,然后对增强边界框特征依据正样本索引进行筛选,与掩码分支的增强RoI特征一一对应,然后送入全连接层,之后进行形状重塑处理,对齐掩码特征,最后通过上采样和按照元素求和实现与掩模特征的融合。
进一步,还包括S7非并行特征传递,具体实现包括:设计四种掩码信息流横向交互,第一阶段交互:利用前一阶段相同位置的四个卷积;第二个交互是充分利用前一阶段的动态掩码交互模块;第三个交互则是进行了阶段间的增强掩码特征的融合;第四个交互则是将前三种非并行结构统一起来,完全的掩码分支横向交互。
进一步,还包括S8设计损失函数:
总体的损失函数由以下部分构成:
Figure BDA0003990892300000041
对于检测分支,λcls,λreg,λgiou分别为2,5,2;对于分割分支,β为8,损失函数为DiceLoss,对于并行语义分支,采用交叉熵损失函数进行监督,具体公式如下所示:
Figure BDA0003990892300000042
对于并行全局分支,本发明采用二值交叉熵损失函数进行多个目标类别的监督:
Figure BDA0003990892300000043
本发明还提出了基于并行特征补全的多阶段实例分割系统,包括数据前处理模块、骨干网络ResNet50特征提取、并行语义分支模块、并行全局分支模块、MSA(多头注意力机制)模块、掩码动态交互模块、边界框动态交互模块、特征传递模块、检测分支模块和掩码分支模块。
系统中的各个模块间的关系以及功能如下所述:
数据前处理模块是整个系统的开始阶段。随后同时进行骨干网络ResNet50特征提取和MSA模块的并行处理。ResNet50特征提取后,进行并行语义分支模块和并行全局分支模块处理。然后边界框动态交互模块将结合并行语义分支模块、并行全局分支模块和MSA模块的输出进行处理得到交互结果。交互结果输入到检测分支得到检测结果。检测结果分别再次经过并行语义分支模块和并行全局分支模块处理得到融合后的特征。同时特征传递模块输出传递特征。掩码动态交互模块将融合后的特征、传递特征和MSA模块三者的输出进行处理得到掩码特征。最后掩码分支模块将掩码特征转换为实例掩码结果。上述过程经6次迭代,取最后一次迭代作为系统的输出。
所述数据前处理模块:对输入的图像以及标签进行调整尺寸大小、随机翻转和归一化操作,使其得到的图像数据更加规范。该图像数据则作为系统的输入。
所述骨干网络特征提取:对图像数据进行提取特征,利用浅层的特征将简单的目标区分开,利用深层的特征将复杂的目标区分开,使得系统具有一定的鲁棒性。
所述并行语义分支模块:加强骨干网络ResNet50特征与RoI特征之间的联系并且更好的将前景点和背景点进行区分。
所述并行全局分支模块:更加主动地进行特征提取,具体表现为提取得到的特征不依赖于边界框的质量,与边界框的优劣无关。总体来说,它弥补了RoI对齐操作被动性和局部性的缺陷,同时也加强了与主干网络的联系。
所述MSA模块:将所有查询进行注意力机制处理,加强各个查询之间的联系。
所述边界框动态交互模块:查询对边界框RoI特征进行解码,查询本身具有的实例信息如中心位置,类别信息等赋予到边界框RoI特征中。该阶段作为过渡,以便后续阶段的处理。
所述掩码动态交互模块:查询对掩码RoI特征进行解码,查询本身具有的实例信息如形状信息赋予到掩码RoI特征中。该阶段作为过渡,以便后续阶段的处理。
所述特征传递模块:建立了连接交互后的掩码特征和边界框特征的通道。用边界框特征补全掩码特征,掩码特征则是通过梯度回传修正边界框特征,以此提升各个子任务的精度。
所述检测分支模块:对边界框RoI特征进行回归,得到检测结果,用于输入到下阶段以及作为掩码分支的输入。
所述掩码分支模块:对掩码RoI特征进行回归,得到掩码结果。
本发明的系统具体实现为:首先对输入的二维图像进行数据预处理,具体的,包括从本地文件加载数据集,然后从本地文件加载标签文件,对输入的图像和标签进行调整大小处理,之后进行随即翻转处理,增强模型的鲁棒性,最后进行归一化和边界补零处理得到具有三通道的数字形式的图像。
将三通道的数字形式的图像输入到骨干网络ResNet50进行特征提取。之后初始化随机生成边界框对提取的特征进行RoIAlign处理,得到RoI特征,同时随机初始化生成对象查询,经过MSA处理得到增强的对象查询,将增强的对象查询与RoI特征输入到动态交互模块得到增强RoI特征,然后依次输入到检测分支和掩码分支得到边界框信息和实例掩码。
骨干网络ResNet50的特征提取是后面各个结构模块的输入,因此为了使得骨干网络ResNet50提取的特征更加充分,本发明在骨干网络ResNet50引入GC Block(全局下文关系模块),该模块可以捕获长距离依赖关系,使其输出的特征层具有更加完整的信息。
其中动态交互模块可以被认为是对象查询对RoI特征的补全,但是方式过于单一,缺乏与骨干网络ResNet50联系方式的多样性以及RoIAlign的局部性和被动性导致没有充分提取骨干网络ResNet50的实例信息。因此本发明提出并行语义分支将骨干网络ResNet50的语义特征进行提取,补全到RoI特征,使得RoI特征具备语义信息。
本发明也提出并行全局分支,补全RoI特征的全局信息。并行全局分支与并行语义分支不同之处不仅仅是提取的信息类型不同,更关键的是,它没有涉及到RoIAlign操作,因此它不是被动的,和边界框优劣无关。
两种并行分支的引入充分利用了骨干网络ResNet50所有特征层,加强了与骨干网路的联系,所以补全方式是更加全面的。并行分支的引入是一种直接的特征补全,本发明对QueryInst的梯度回传路径也进行了理论分析,提出了特征传递这种间接的特征补全方法。具体地,该结构建立起了检测分支与分割分支的显式联系,充分利用检测和分割子任务互惠的关系,增强检测框特征为增强掩码特征提供先验知识,掩码分支又通过梯度反向传播精修边界框特征,这种紧密耦合的关系最后反馈给RoI特征,进而实现补全。
本发明的有益效果:
1、针对QueryInst对RoI特征补全的单一性、与骨干网络ResNet50联系的不足以及RoIAlign的局部性和被动性,这三种因素造成了RoI特征的不足问题,本发明围绕特征补全,提出了一种新颖的并行性特征补全的网络框架系统QueryInst-Parallel Completion。
2、在骨干网络ResNet50引入GC Block,以获取更加充足的实例关联信息。
3、提出并行语义分支模块,实现RoI特征的语义信息的补全。
4、提出并行全局分支模块,实现RoI特征的全局信息的补全。
5、提出了特征传递模块,增加检测与分割分支的显式联系和RoI特征的显示交互。
6、以上结构均为并行结构,本发明也提出非并行结构与之比较,进一步凸显所提并行结构与QueryInst的并行监督机制相契合的优势。
附图说明
图1为发明实施流程图
图2为QueryInst-Parallel Completion网络头部整体框架图
图3为GC Block(全局下文关系模块)构成图
图4为并行语义分支结构图
图5为并行全局分支结构图
图6为并行特征传递结构图
图7为非并行结构图
具体实施方式
QueryInst是第一个融合注意力机制的多阶段方法,但是对RoI特征补全的单一性、与骨干网络ResNet50联系的不足以及RoIAlign的局部性和被动性,这三种因素造成了RoI特征的不足。针对这个问题,本发明围绕特征补全对该方法进行改进,提出了一种新颖的并行性特征补全的网络框架QueryInst-Parallel Completion。首先在骨干网络ResNet50引入GC Block获取实例关联信息。然后提出并行语义分支和并行全局分支,提取特征层的语义和全局信息,实现RoI特征的补全。此外,还提出了特征传递结构,通过显式增加检测与分割分支的联系,改变梯度反向传播的路径进而间接补全RoI特征。值得强调的一点,上述结构均为并行的,即阶段与阶段之间没有干扰,并且与QueryInst的并行监督机制相契合。并且还将其与非并行结构比较,进一步凸显所提并行结构的优越性能。
下面结合附图对本发明作进一步说明。
如图1、2所示,本发明的实施包含以下步骤:
Step1数据预处理
首先准备好用于模型训练的带有标注的数据集:COCO数据集和Cityscapes数据集。在模型训练时,使用以下方法进行图像数据的预处理:(1)从本地文件加载数据集。(2)从本地文件加载标签文件。(3)对输入的图像和标签进行调整大小处理。(4)进行随机翻转处理,增强模型的鲁棒性。(5)进行归一化和边界补零处理得到具有三通道的数字形式的图像。
Step2带有全局上下文的骨干网络ResNet50特征提取
并行分支结构以及感兴趣区域对齐操作需要将骨干网络ResNet50输出的特征层作为输入,因此有必要对骨干网络ResNet50的结构进行优化,使其输出的特征层具备更加完整的上下文信息。传统的神经网络通过卷积进行局部特征的提取,为获得全局上下文信息,需要进行深度方向的卷积堆叠以此来扩大感受野进行全局关系的建模。为了追求更加有效的方式,本发明将GC Block插入到骨干网络ResNet50,依据每个查询位置,捕获长距离依赖关系,提取出全局上下文信息,进而将这种信息聚合到每个查询位置的特征中。
如图3(a)所示,GC Block模块的逻辑框架主要有以下三部分构成:(a)对输入的特征图进行上下文关系的建模,以获取全局上下文特征(b)对全局上下文特征进行转换以捕获通道依赖性关系。(c)将具有全局上下文信息的特征与每个对应位置的特征进行聚合,使特征更加完整。
特征提取的步骤具体实现如图3(b)所示:首先对特征图进行全局上下文建模,对于特征图中的查询位置j,首先通过1x1的卷积获取j位置关系权重,然后进行SoftMax归一化处理,最后与j位置的特征对应相乘再对所有查询位置进行求和(矩阵乘法)获取相应的全局上下文特征∑jajxj。然后进行特征转换δ,为了减小更深层由通道数增多导致的计算量,本发明将1x1卷积设置为瓶颈变换模块,使得卷积后的通道数为C/r,其中r为瓶颈比率。得到的全局上下文特征具备通道依赖关系。最后通过利用广播机制进行元素位置的相加,获取完整特征。
Step3利用系统的MSA模块、边界框动态交互模块、掩码动态交互模块、检测分支和掩码分支对特征处理
本发明将得到的特征输入到QueryInst-Parallel Completion网络头部,具体如图2所示。同时初始化随机生成边界框对特征进行RoIAlign处理、并行语义分支处理和并行全局分支处理,得到语义信息和全局信息补全的RoI特征,并且随机初始化生成对象查询,经过MSA处理得到增强的对象查询,将增强的对象查询与RoI特征输入到边界框动态交互模块得到增强边界框RoI特征和下一阶段的对象查询,然后将增强边界框RoI特征输入到检测分支得到边界框信息,例如边界框位置坐标和置信度分数。之后进入掩码生成环节,依据生成的边界框进行正负样本划分,依据损失代价选出损失较小的为正样本。正样本还是进行RoIAlign处理、并行语义分支处理和并行全局分支处理,得到语义信息和全局信息补全的RoI特征,同时将在检测部分的边界框动态交互模块后的增强边界框RoI特征依据正样本进行索引,筛选出相应的增强边界框RoI特征输入到特征传递模块,与之后进行掩码动态交互模块得到增强掩码RoI特征进行元素对应求和,实现补全。最后补全结果输入到掩码分支,得到掩码结果。以上部分用公式表示为:
其中检测流程用公式表示为:
Figure BDA0003990892300000091
Figure BDA0003990892300000092
Figure BDA0003990892300000093
Figure BDA0003990892300000094
分割流程用公式表示为:
Figure BDA0003990892300000095
Figure BDA0003990892300000096
Figure BDA0003990892300000097
Figure BDA0003990892300000098
Figure BDA0003990892300000099
其中bt-1为t-1阶段的边界框;xgc为经过GC Block处理后的特征图;G为并行全局分支模块;S为并行语义分支模块;Pbox和Pmask分别是针对特征图进行7x7和14x14大小的对齐操作;
Figure BDA00039908923000000910
Figure BDA00039908923000000911
分别是7x7和14x14大小的RoI特征;MSAt为t阶段的多头注意力机制模块;qt-1为输入到t阶段的查询;
Figure BDA00039908923000000912
为转换的t阶段的查询;
Figure BDA00039908923000000913
Figure BDA00039908923000000914
分别是经过动态交互模块增强后的边界框和掩码RoI特征;
Figure BDA00039908923000000915
Figure BDA00039908923000000916
分别是边界框和掩码动态交互模块;Bt和Mt分别是检测分支和掩码分支;FT是特征传递模块;bt和mt分别是检测结果边界框和实例分割结果实例掩码。
以上只是一个阶段的结果,为此,本发明将边界框信息以及边界框动态交互模块得到的对象查询输入到下一阶段。整体循环6个阶段结束。每个阶段内部的检测分支和掩码分支以及并行语义分支和并行全局分支同时受到监督。具体的并行分支和特征传递结构将在下面步骤中介绍。
Step 4并行语义分支特征补全
为了充分利用骨干网络ResNet50提供的完整特征,受到HTC语义分支的启发,本发明进行了并行语义分支的搭建,以此来加强骨干网络ResNet50特征与RoI特征之间的联系。本发明的并行语义分支相比于原RoIAlign操作,它对RoI特征的提取具有明显的目的性和针对性,因为它受到子分支的监督,该子分支则是通过传统的语义分割损失函数对图像的每个像素点和标签作交叉熵损失,从而保证另一个子分支输出的是语义特征。并且该并行语义分支输出的语义特征等价于传统的语义分割网络结果,它有更好的将前景点和背景点进行区分。
进一步的,新增的并行语义分支实现了分割任务与原任务之间的交互,各个任务的之间的密切联合有助于特征表示的改善,并为原始任务带来性能增益。具体实现用公式表示为:
Figure BDA0003990892300000101
Figure BDA0003990892300000102
图4(a)展示了本发明的并行语义分割分支的具体结构。与HTC中提到的语义分支不同的是,本发明只是将骨干网络ResNet50前两个阶段的特征层作为输入,分别是阶段0和1。输入特征层数量的减少使得上采样操作以及对应的卷积操作减少,计算量降低。而更深层次的语义信息则是通过特征金字塔的自上而下路径、骨干网络ResNet50的GC Block和特征金字塔池化模块获得。PPM模块结构如图4(b)所示,具体的,首先是经过1x1的卷积进行特征转换,使其进一步靠向语义特征,然后stage1输出结果经过上采样与stage0结果进行对齐,经过元素对应相加得到融合特征。之后将融合特征输入到PPM模块,具体的将融合特征层划分成6x6,3x3,2x2,1x1的网格,每个网格内部各自进行平均池化,池化结果进行上采样聚合,再经过4个3x3卷积和1x1卷积调整通道以适应RoI特征的维度。最后得到的语义特征与RoI特征融合补全,使其具有语义信息。
Step 5并行全局分支特征补全
为了充分利用阶段2和3的特征,同时受到SCNet全局分支的启发,本发明还构建了并行全局分支。相比于并行语义分支,它更专注于全局信息的提取。所以补全到RoI特征的更多的是全局的实例关联信息。值得一提的是,本发明的并行全局分支相比于原RoIAlign操作,它是更加主动地进行特征提取,具体表现为提取得到的特征不依赖于边界框的质量,与边界框的优劣无关。总体来说,它弥补了RoIAlign被动性和局部性的缺陷,同时也加强了与主干网络的联系。具体实现用公式表示为:
Figure BDA0003990892300000111
Figure BDA0003990892300000112
具体的并行全局分支结构如图5所示。本发明将骨干网络ResNet50的阶段2和3以及经过下采样的阶段4特征作为输入,首先经过1x1的卷积进行特征通道数调整,然后对齐到阶段4,之后按元素对应关系相加,得到融合特征,再经过4个3x3卷积对融合特征进行全局信息提取、展平,通过一层全连接对局部信息进行整体组装,得到具有高度全局信息的特征向量。并且子分支数目和并行语义分支相同,其中其中输出多标签类别预测的分支通过图像分类预测各个感兴趣对象的类别实现对特征向量的监督,输出全局向量的分支则是输出全局特征,补全到RoI特征。
Step 6并行特征传递
无论是显式的还是隐式的,子任务之间的交互都是互惠的。QueryInst则是通过共享对象查询以及MSA实现了检测和分割子任务的隐式交互。受到SCNet特征中继结构的启发,本发明提出了并行特征传递这种显式交互结构。总的来说,建立了连接交互后的掩码特征和边界框特征的通道。用边界框特征补全掩码特征,掩码特征则是通过梯度回传修正边界框特征,以此提升各个子任务的精度。本发明的并行特征传递结构相比于并行分支是间接的特征补全。具体地,梯度回传时,计算得到的loss由交互后的特征分别回传到交互前的RoI特征和对象查询中。并行特征传递则是借助梯度回传改善头部梯度信息进而优化RoI特征的梯度更新。
图6展示了本发明并行特征传递结构的细节。具体来说,本发明将经过检测分支的动态交互后的增强边界框特征作为并行特征传递的输入,然后对增强边界框特征依据正样本索引进行筛选,与掩码分支的增强RoI特征一一对应,然后送入全连接层,之后进行reshape处理,对齐掩码特征,最后通过上采样和按照元素求和实现与掩模特征的融合。
Step 7非并行性结构
本发明的分支结构和特征传递具有并行性的特点。总的来说,它们的特征补全都是发生在各个阶段内部,并且遵循QueryInst算法的并行监督机制,相辅相成,能够达到很好的效果。具体来说,语义分支和全局分支将提取到的语义和全局特征并行插入到各个阶段内部,补全RoI特征。特征传递结构则是利用该阶段内检测分支的增强特征对掩码分支的增强特征进行补全。上述结构前一阶段和后一阶段之间的干扰是不存在的。为了证明以上三种并行特征补全的优越性和有效性,本发明针对并行结构提出了与之对比的非并行结构,即不同阶段之间相互影响,进行交互。参考HTC的掩码信息流交互,本发明对QueryInst算法做出了四种掩码信息流横向交互的改进,具体来说如图7所示。
整体的逻辑框架如图7所示,这四种结构的本质是阶段之间的横向交互。第一种结构表示为在进行本阶段卷积之前,利用前一阶段相同位置的四个卷积。第二个结构则是充分利用前一阶段的动态掩码交互模块。第三个结构则是进行了阶段间的增强掩码特征的融合。第四个结构则是将前三种非并行结构统一起来,完全的掩码分支横向交互。上述四个结构发生部分对应的公式表示为:
Figure BDA0003990892300000121
Figure BDA0003990892300000122
Figure BDA0003990892300000123
Figure BDA0003990892300000124
Figure BDA0003990892300000125
Step 8模型训练与损失函数设置
总体的损失函数由以下部分构成:
Figure BDA0003990892300000126
对于检测分支,λcls,λreg,λgiou分别为2,5,2。对于分割分支,本发明遵循QueryInst的超参数设置,β为8,γ和δ分别表示为并行语义分支模块和并行全局分支模块的损失函数的权重系数,值为0.01和0.1,损失函数为Dice Loss,
Figure BDA0003990892300000127
表示为t阶段检测分支所用到的类别损失函数,用于对输出的类别结果进行监督。
Figure BDA0003990892300000128
表示为t阶段检测分支所用到的边界框损失函数,用于对输出的边界框位置进行监督。
Figure BDA0003990892300000129
表示为t阶段检测分支所用到的辅助边界框损失函数,用于对输出的边界框形状进行监督。
Figure BDA00039908923000001210
表示为t阶段分割分支所用到的掩码损失函数,用于对输出的实例掩码进行监督。Lsema表示为并行语义分支模块所用到的分割损失函数,用于对输出的语义分割结果进行监督。Lglobal表示为并行全局分支模块所用到的全局损失函数,用于对输出的多类别结果进行监督,对于并行语义分支,本发明采用交叉熵损失函数进行监督,具体公式如下所示:
Figure BDA00039908923000001211
对于并行全局分支,本发明采用二值交叉熵损失函数进行多个目标类别的监督:
Figure BDA0003990892300000131
CE全称为Cross Entropy表示为交叉熵损失函数,将语义分割结果s与标签
Figure BDA0003990892300000132
进行交叉熵损失计算。
BCE全称为Binary Cross Entropy表示为二值交叉熵损失函数,将多类别标签结果c与分类标签
Figure BDA0003990892300000133
进行二值交叉熵损失计算。
综上所述为本发明提出的一种基于并行特征补全的多阶段实例分割方法。
上文所列出的一系列的详细说明仅仅是针对本发明的可行性实施方式的具体说明,它们并非用以限制本发明的保护范围,凡未脱离本发明技术所创的等效方式或变更均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于并行特征补全的多阶段实例分割方法,其特征在于,包括以下步骤:
S1数据预处理;
S2带有全局上下文的骨干网络特征提取;
S3将特征输入QueryInst-Parallel Completion网络头部,得到补全的掩码结果;
S4并行语义分支特征补全;
S5并行全局分支特征补全;
S6并行特征传递,输出分割结果。
2.根据权利要求1所述的一种基于并行特征补全的多阶段实例分割方法,其特征在于,所述S1的数据预处理具体如下:
S1.1从本地文件加载数据集,
S1.2从本地文件加载标签文件;
S1.3对输入的图像和标签调整大小;
S1.4进行随机翻转处理;
S1.5进行归一化和边界补零处理得到具有三通道的数字形式的图像。
3.根据权利要求1所述的一种基于并行特征补全的多阶段实例分割方法,其特征在于,所述S2具体如下:
将GC Block插入到骨干网络,依据每个查询位置,捕获长距离依赖关系,提取出全局上下文信息,进而将这种信息聚合到每个查询位置的特征中;
所述GC Block的逻辑框架包括:
(a)对输入的特征图进行上下文关系的建模,以获取全局上下文特征;
(b)对全局上下文特征进行转换以捕获通道依赖性关系;
(c)将具有全局上下文信息的特征与每个对应位置的特征进行聚合,使特征更加完整;
所述特征提取的步骤如下:
首先对特征图进行全局上下文建模,对于特征图中的查询位置j,首先通过1x1的卷积获取j位置关系权重,然后进行SoftMax归一化处理,最后与j位置的特征对应相乘再对所有查询位置进行求和获取相应的全局上下文特征∑jajxj
然后进行特征转换δ,为了减小更深层由通道数增多导致的计算量,将1x1卷积设置为瓶颈变换,使得卷积后的通道数为C/r,其中r为瓶颈比率,得到的全局上下文特征具备通道依赖关系;
最后通过利用广播机制进行元素位置的相加,获取完整特征。
4.根据权利要求1所述的一种基于并行特征补全的多阶段实例分割方法,其特征在于,所述S3具体如下:
将S2得到的特征输入到QueryInst-Parallel Completion网络头部,同时初始化随机生成边界框对特征进行RoIAlign处理、并行语义分支处理和并行全局分支处理,得到语义信息和全局信息补全的RoI特征,并且随机初始化生成对象查询,经过MSA处理得到增强的对象查询,将增强的对象查询与RoI特征输入到边界框动态交互模块得到增强边界框RoI特征和下一阶段的对象查询,然后将增强边界框RoI特征输入到检测分支得到边界框信息,之后进入掩码生成环节,依据生成的边界框进行正负样本划分,依据损失代价选出损失较小的为正样本,将正样本进行RoIAlign处理、并行语义分支处理和并行全局分支处理,得到语义信息和全局信息补全的RoI特征,同时将在检测部分的边界框动态交互后的增强边界框RoI特征依据正样本进行索引,筛选出相应的增强边界框RoI特征输入到特征传递部分,与之后进行掩码动态交互得到增强掩码RoI特征进行对应元素求和,实现补全,最后将补全结果输入到掩码分支,得到掩码结果。
5.根据权利要求1所述的一种基于并行特征补全的多阶段实例分割方法,其特征在于,所述S4的实现包括:
将骨干网络前两个阶段的特征层作为输入,分别是阶段0和1,首先进行1x1的卷积进行特征转换,使其进一步靠向语义特征,然后stage1输出结果经过上采样与stage0结果进行对齐,经过元素对应相加得到融合特征;之后将融合特征输入到金字塔池化模块,具体的将融合特征层划分成6x6,3x3,2x2,1x1的网格,每个网格内部各自进行平均池化,池化结果进行上采样聚合,再经过4个3x3卷积和1x1卷积调整通道以适应RoI特征的维度;最后得到的语义特征与RoI特征融合补全,使其具有语义信息。
6.根据权利要求1所述的一种基于并行特征补全的多阶段实例分割方法,其特征在于,所述S5的实现包括:
将骨干网络的阶段2和3以及经过下采样的阶段4特征作为输入,首先经过1x1的卷积进行特征通道数调整,然后对齐到阶段4,之后按元素对应关系相加,得到融合特征,再经过4个3x3卷积对融合特征进行全局信息提取、展平,通过一层全连接对局部信息进行整体组装,得到具有高度全局信息的特征向量,子分支数目和并行语义分支相同,其中输出多标签类别预测的分支通过图像分类预测各个感兴趣对象的类别实现对特征向量的监督,输出全局向量的分支则是输出全局特征,补全到RoI特征。
7.根据权利要求1所述的一种基于并行特征补全的多阶段实例分割方法,其特征在于,所述S6的实现包括:
将经过检测分支的动态交互后的增强边界框特征作为并行特征传递的输入,然后对增强边界框特征依据正样本索引进行筛选,与掩码分支的增强RoI特征一一对应,然后送入全连接层,之后进行形状重塑处理,对齐掩码特征,最后通过上采样和按照元素求和实现与掩模特征的融合。
8.根据权利要求1所述的一种基于并行特征补全的多阶段实例分割方法,其特征在于,还包括S7非并行特征传递,具体实现包括:设计四种掩码信息流横向交互,第一阶段交互:利用前一阶段相同位置的四个卷积;第二个交互是充分利用前一阶段的动态掩码交互模块;第三个交互则是进行了阶段间的增强掩码特征的融合;第四个交互则是将前三种非并行结构统一起来,完全的掩码分支横向交互。
9.根据权利要求1所述的一种基于并行特征补全的多阶段实例分割方法,其特征在于,还包括S8设计损失函数:
总体的损失函数由以下部分构成:
Figure FDA0003990892290000031
对于检测分支,λcls,λreg,λgiou分别为2,5,2;对于分割分支,β为8,损失函数为DiceLoss,对于并行语义分支,采用交叉熵损失函数进行监督,具体公式如下所示:
Figure FDA0003990892290000032
对于并行全局分支,本发明采用二值交叉熵损失函数进行多个目标类别的监督:
Figure FDA0003990892290000033
10.一种基于并行特征补全的多阶段实例分割系统,其特征在于,包括数据前处理模块、骨干网络特征提取、并行语义分支模块、并行全局分支模块、MSA模块、掩码动态交互模块、边界框动态交互模块、特征传递模块、检测分支模块和掩码分支模块;数据前处理是整个系统的开始阶段,随后同时进行骨干网络特征提取和MSA模块的并行处理,骨干网络特征提取后,进行并行语义分支模块和并行全局分支模块处理,然后边界框动态交互模块将结合并行语义分支模块、并行全局分支模块和MSA模块的输出进行处理得到交互结果,交互结果输入到检测分支得到检测结果,检测结果分别再次经过并行语义分支模块和并行全局分支模块处理得到融合后的特征,同时特征传递模块输出传递特征,掩码动态交互模块将融合后的特征、传递特征和MSA模块三者的输出进行处理得到掩码特征,最后掩码分支模块将掩码特征转换为实例掩码结果,上述过程经若干次迭代,取最后一次迭代作为系统的输出;所述数据前处理模块:对输入的图像以及标签进行调整尺寸大小、随机翻转和归一化操作,使其得到的图像数据更加规范,该图像数据则作为系统的输入;
所述骨干网络特征提取:对图像数据进行提取特征,利用浅层的特征将简单的目标区分开,利用深层的特征将复杂的目标区分开,使得系统具有鲁棒性;
所述并行语义分支模块:加强骨干网络特征与RoI特征之间的联系并且更好的将前景点和背景点进行区分;
所述并行全局分支模块:更加主动地进行特征提取,具体表现为提取得到的特征不依赖于边界框的质量,与边界框的优劣无关,总体来说,它弥补了RoI对齐操作被动性和局部性的缺陷,同时也加强了与主干网络的联系;
所述MSA模块:将所有查询进行注意力机制处理,加强各个查询之间的联系;
所述边界框动态交互模块:查询对边界框RoI特征进行解码,查询本身具有的实例信息如中心位置,类别信息等赋予到边界框RoI特征中。该阶段作为过渡,以便后续阶段的处理;
所述掩码动态交互模块:查询对掩码RoI特征进行解码,查询本身具有的实例信息如形状信息赋予到掩码RoI特征中,该阶段作为过渡,以便后续阶段的处理;
所述特征传递模块:建立了连接交互后的掩码特征和边界框特征的通道,用边界框特征补全掩码特征,掩码特征则是通过梯度回传修正边界框特征,以此提升各个子任务的精度;
所述检测分支模块:对边界框RoI特征进行回归,得到检测结果,用于输入到下阶段以及作为掩码分支的输入;
所述掩码分支模块:对掩码RoI特征进行回归,得到掩码结果。
CN202211580594.9A 2022-12-09 2022-12-09 一种基于并行特征补全的多阶段实例分割方法及系统 Pending CN115797635A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211580594.9A CN115797635A (zh) 2022-12-09 2022-12-09 一种基于并行特征补全的多阶段实例分割方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211580594.9A CN115797635A (zh) 2022-12-09 2022-12-09 一种基于并行特征补全的多阶段实例分割方法及系统

Publications (1)

Publication Number Publication Date
CN115797635A true CN115797635A (zh) 2023-03-14

Family

ID=85418266

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211580594.9A Pending CN115797635A (zh) 2022-12-09 2022-12-09 一种基于并行特征补全的多阶段实例分割方法及系统

Country Status (1)

Country Link
CN (1) CN115797635A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117152443A (zh) * 2023-10-30 2023-12-01 江西云眼视界科技股份有限公司 一种基于语义前导指引的图像实例分割方法及系统
CN117372879A (zh) * 2023-12-07 2024-01-09 山东建筑大学 基于自监督增强的轻量级遥感影像变化检测方法和系统

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117152443A (zh) * 2023-10-30 2023-12-01 江西云眼视界科技股份有限公司 一种基于语义前导指引的图像实例分割方法及系统
CN117152443B (zh) * 2023-10-30 2024-02-23 江西云眼视界科技股份有限公司 一种基于语义前导指引的图像实例分割方法及系统
CN117372879A (zh) * 2023-12-07 2024-01-09 山东建筑大学 基于自监督增强的轻量级遥感影像变化检测方法和系统
CN117372879B (zh) * 2023-12-07 2024-03-26 山东建筑大学 基于自监督增强的轻量级遥感影像变化检测方法和系统

Similar Documents

Publication Publication Date Title
Jiang et al. Rednet: Residual encoder-decoder network for indoor rgb-d semantic segmentation
Xue et al. Mvscrf: Learning multi-view stereo with conditional random fields
Lateef et al. Survey on semantic segmentation using deep learning techniques
Zhou et al. Contextual ensemble network for semantic segmentation
De Geus et al. Fast panoptic segmentation network
CN115797635A (zh) 一种基于并行特征补全的多阶段实例分割方法及系统
Ye et al. Drinet: A dual-representation iterative learning network for point cloud segmentation
de Geus et al. Single network panoptic segmentation for street scene understanding
Wang et al. An advanced YOLOv3 method for small-scale road object detection
Wei et al. Efficient dual attention SlowFast networks for video action recognition
CN115424104A (zh) 一种基于特征融合与注意力机制的目标检测方法
An et al. Object recognition algorithm based on optimized nonlinear activation function-global convolutional neural network
Wang et al. TF-SOD: a novel transformer framework for salient object detection
Rana et al. We don't need thousand proposals: Single shot actor-action detection in videos
CN116863194A (zh) 一种足溃疡图像分类方法、系统、设备及介质
Kan et al. A GAN-based input-size flexibility model for single image dehazing
CN111104855A (zh) 一种基于时序行为检测的工作流识别方法
Chong et al. Multi-hierarchy feature extraction and multi-step cost aggregation for stereo matching
Wang et al. Msfnet: multistage fusion network for infrared and visible image fusion
Zhang et al. Attention-guided aggregation stereo matching network
Zhang et al. Small target detection based on squared cross entropy and dense feature pyramid networks
Wan et al. U2ESPNet—A lightweight and high-accuracy convolutional neural network for real-time semantic segmentation of visible branches
CN117011655A (zh) 基于自适应区域选择特征融合方法、目标跟踪方法及系统
Schieber et al. Deep sensor fusion with pyramid fusion networks for 3D semantic segmentation
CN115171074A (zh) 一种基于多尺度yolo算法的车辆目标识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination