CN114693930A - 基于多尺度特征和上下文注意力的实例分割方法及系统 - Google Patents
基于多尺度特征和上下文注意力的实例分割方法及系统 Download PDFInfo
- Publication number
- CN114693930A CN114693930A CN202210333902.1A CN202210333902A CN114693930A CN 114693930 A CN114693930 A CN 114693930A CN 202210333902 A CN202210333902 A CN 202210333902A CN 114693930 A CN114693930 A CN 114693930A
- Authority
- CN
- China
- Prior art keywords
- scale
- feature
- convolution
- attention
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 105
- 238000000034 method Methods 0.000 title claims abstract description 48
- 230000002776 aggregation Effects 0.000 claims abstract description 49
- 238000004220 aggregation Methods 0.000 claims abstract description 49
- 230000004927 fusion Effects 0.000 claims abstract description 45
- 238000012549 training Methods 0.000 claims abstract description 16
- 238000012545 processing Methods 0.000 claims abstract description 13
- 238000007781 pre-processing Methods 0.000 claims abstract description 4
- 230000001902 propagating effect Effects 0.000 claims abstract description 3
- 238000010586 diagram Methods 0.000 claims description 30
- 238000001514 detection method Methods 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 13
- 238000011176 pooling Methods 0.000 claims description 13
- 238000000605 extraction Methods 0.000 claims description 10
- 230000009466 transformation Effects 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 7
- 230000006870 function Effects 0.000 claims description 6
- 238000005070 sampling Methods 0.000 claims description 6
- 230000000873 masking effect Effects 0.000 claims description 3
- 230000002708 enhancing effect Effects 0.000 claims description 2
- 239000000284 extract Substances 0.000 claims description 2
- 238000011478 gradient descent method Methods 0.000 claims description 2
- 241000669244 Unaspis euonymi Species 0.000 claims 1
- 238000011160 research Methods 0.000 description 4
- 238000003860 storage Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 230000001965 increasing effect Effects 0.000 description 2
- 230000003278 mimic effect Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种基于多尺度特征和上下文注意力的实例分割方法及系统,该方法包括以下步骤:对训练集中图像进行包括数据增强和标准化处理的数据预处理;构建多尺度特征融合和上下文注意力聚合模块,以利用金字塔结构加强特征表示,并聚焦金字塔特征图中的小目标物体;构建基于多尺度特征融合和上下文注意力聚合的实例分割网络;利用训练集中图像对实例分割网络进行训练,生成实例分割结果并计算损失函数,反向传播优化整个网络的参数,得到训练好的实例分割网络;将待处理图像输入训练好的实例分割网络,得到实例分割结果。该方法及系统不仅能够提高大目标和中等目标的分割精度,同时也聚焦小目标物体,提升小目标的分割性能。
Description
技术领域
本发明属于图像处理以及计算机视觉领域,具体涉及一种基于多尺度特征和上下文注意力的实例分割方法及系统
背景技术
近年来,随着人工智能的飞速发展,由机器代替人来进行各项工作的研究越来越多。机器通过人工智能算法,模仿人类的各种行为,执行一些重复单一的工作已经不是问题。但对于模仿人类更为高级且复杂的行为,还存在着一定的差距。计算机视觉任务是这里面最重要的任务之一,通过模仿人脑感知外界信息,来进行各项工作活动。实例分割是计算机视觉领域中的一个经典且具有挑战的任务,旨在对图像中存在的不同类别、不同个体的物体进行像素级地标定。实例分割任务要求不仅能标识出物体的类别,同时能够清楚地界定物体的边界及所在位置。实例分割被广泛应用在无人驾驶、医学影像分析、安全防控、工业分拣等领域。由于其具有的广泛应用性和工业价值性,也吸引许多国内外的学者在该领域进行研究。为了更好地给后续视觉处理任务(如三维重建等)提供准确精细的物体掩膜,设计出分割精度更高,分割速度更快,实际应用中鲁棒性更好的实例分割模型方法的重要性不言而喻。
随着目标检测算法的不断研究,实例分割的研究进展也得益于强大的目标检测器。根据实际目标的不同分为单阶段实例分割模型与双阶段实例分割模型,前者旨在做到实时分割的高效,后者希望使用较复杂的模型使得掩膜的分割更加准确。现有的双阶段实例分割模型已经能够做到较为准确地对目标物体进行实例分割,但在对小目标物体的分割上还存在一定不足。双阶段模型依赖于骨干网络提取的特征进行实例分割,例如在Mask R-CNN中借助特征金字塔(Feature pyramid network,FPN)来对骨干提取到的初始特征进行特征融合,并利用不同层级的金字塔结构的特征图,对大目标(像素大于96×96)、中等目标(像素介于32×32和96×96之间)、小目标(像素小于32×32)进行检测分割。即低层级包含少语义的特征图用来检测较小物体,高层级包含较多语义的特征图用来检测大物体。但对于小目标物体,由于像素较小且缺少高层的语义信息,通常会被漏检和错检。现有的一些改进特征融合的方法并没有聚焦小目标物体其检测分割的困难性,只是将高层的语义信息更多的给低层来进行增强,虽然增强了特征融合表示,但仅仅给大目标物体的分割带来更多的效益,忽略了对小目标分割的针对性。
为了解决双阶段模型小目标物体由于像素过小通常在高层的语义信息层中消失,经过卷积或池化后小目标物体的像素几乎可以忽略不计,在不利用其他方法的时候会导致漏检的问题,本发明提出了一种基于多尺度特征融合和上下文注意力聚合的实例分割方法,该方法利用更强的多尺度特征融合和引入上下文注意力机制,不仅增强不同层级特征图的表示,提高大目标和中等目标的分割精度,同时还聚焦小目标在特征图中的表示,使得小目标的分割精度上升、漏检率下降。
发明内容
本发明的目的在于提供一种基于多尺度特征和上下文注意力的实例分割方法及系统,该方法及系统不仅能够提高大目标和中等目标的分割精度,同时也聚焦小目标物体,提升小目标的分割性能。
为实现上述目的,本发明采用的技术方案是:一种基于多尺度特征和上下文注意力的实例分割方法,包括以下步骤:
步骤A:对训练集中图像进行包括数据增强和标准化处理的数据预处理;
步骤B:构建多尺度特征融合和上下文注意力聚合模块,包括级联的多尺度特征融合模块和上下文注意力聚合模块,以利用金字塔结构加强特征表示,并聚焦金字塔特征图中的小目标物体;
步骤C:构建基于多尺度特征融合和上下文注意力聚合的实例分割网络;
步骤D:利用训练集中图像对实例分割网络进行训练,生成实例分割结果并计算损失函数,反向传播优化整个网络的参数,得到训练好的实例分割网络;
步骤E:将待处理图像输入训练好的实例分割网络,得到实例分割结果。
进一步地,所述步骤A具体包括以下步骤:
步骤A1:对训练集中图像进行尺度变换,在保持长宽比不变的情况下,设定图像长和宽的阈值为2048;即根据图像的长边和阈值对图像进行尺度变换,保证长边和短边都不会超出所述阈值;然后将尺度变换后的所有图像进行随机翻转,翻转比例为0.5,实现数据增强;
步骤A2:对增强后的图像进行标准化处理,标准化的均值为[123.675,116.28,103.53],方差为[58.395,57.12,57.375];最后对图像进行填充,使得长宽能被32整除;每张图像有对应标签,标签内容是图像中每个实例物体的边界框和掩码,在图像尺度变换和数据增强的同时也对图像标签进行同步处理。
进一步地,所述步骤B中,多尺度特征融合模块的实现方法如下:
步骤B101:实例分割网络的特征提取模块对输入图像进行特征提取,得到高分辨率层到低分辨率层,即低语义信息到高语义信息的四个特征图C1、C2、C3、C4,然后输入多尺度特征融合模块;
步骤B102:多尺度特征融合模块对低分辨率特征图进行双线性差值上采样操作,得到和C1特征图一样分辨率大小的特征图,进行特征拼接得到M1,再利用3×3卷积改变M1特征图的通道数为N,具体公式如下所示:
M1=Conv3×3(Concat(C1,2xUp(C2),4xUp(C3),8xUp(C4))),
其中,Conv3×3为3×3卷积,Concat为特征拼接操作,2xUp表示2倍上采样,4xUp和8xUp分别是4倍和8倍上采样;
步骤B103:构建金字塔特征图结构;对步骤B102得到的M1进行3×3卷积下采样2倍,再与初始的特征图C2经过1×1卷积改变通道数为N后进行逐元素相加,得到M2;同理,M3由M2下采样与经过1×1卷积的特征图C3进行逐元素相加得到,M4由M3下采样与经过l×1卷积的特征图C4进行逐元素相加得到,具体公式如下所示:
Mi=Conv3×3(Mi-1)+Conv1×1(Ci),
其中Conv3×3为3×3卷积且步长为2,Conv1×1为1×1卷积且输出通道数为N,i=2,3,4;
步骤B104:将M4通过3×3且步长为2的卷积下采样2倍得到M5,至此形成金字塔结构的5个特征图M1、M2、M3、M4、M5。
进一步地,所述步骤B中,上下文注意力聚合模块的实现方法如下:
步骤B201:将特征图M5经过3×3卷积得到P5,此为尺度5的金字塔结构特征图;
步骤B202:通过上下文注意力聚合模块CAA,融合两个层次的特征图;将特征图M4、M5输入到第四CCA模块中,利用特征图M5高层的语义信息,提升特征图M4中上下文信息,将第四CAA模块的输出记为M′4;M′4再经过3×3卷积得到P4,此为尺度4的金字塔结构特征图,具体公式如下所示:
M′4=CAA4(M4,M5),
P4=Conv3×3(M′4),
其中,CAA4是第4个尺度使用的上下文注意力聚合模块,Conv3×3是3×3卷积且步长为1、输入输出通道数都为N;
步骤B203:将特征图M3、M′4输入到第三CAA模块中,得到M′3,再经过3×3卷积得到P3;以此类推,M2与M′3经过第二CAA模块后再经过3×3卷积得到特征图P2,M1与M′2经过第一CAA模块后再经过3×3卷积得到特征图P1;至此聚合上下文注意力的5个尺度的金字塔结构特征图,分别为P1、P2、P3、P4、P5;以上过程具体公式如下所示:
M′i=CAAi(Mi,M′i+1),
Pi=Conv3×3(M′i),
其中,CAAi为第i个尺度使用的上下文注意力聚合模块,Conv3×3是3×3卷积且步长为1、输入输出通道数都为N,i=1,2,3。
进一步地,所述上下文注意力聚合模块的输入为任意两个相邻层的特征图Mi与M′i+1,对于倒数第二层,即尺度4,使用Mi+1代替M′i+1;Mi+1和M′i+1为较低分辨率、高语义层,Mi为较高分辨率、低语义层;将特征图M′i+1经过全局平均池化得到高层注意力,经过1×1卷积改变通道数为N后,与M′i+1经过双线性插值2倍上采样的特征图以及特征图Mi,三者逐元素相加得到上下文特征Chigh,具体公式如下所示:
Chigh=Mi+2xUp(M′i+1)+Conv1×1(GAP(M′i+1)),
其中,2xUp表示2倍上采样,Conv1×1为输出通道数N的1×1卷积,GAP为全局平均池化;
将上下文特征Chigh经过全局平均池化得到上下文注意力,经过1×1卷积改变通道数为N后,与原输入特征图Mi经过3×3卷积后进行逐元素相乘得到上下文注意力CAtten,具体公式如下所示:
CAtten=Conv3×3(Mi)×Conv1×1(GAP(Chigh))
最后将CAtten与Chigh逐元素相加得到最终上下文注意力聚合的特征图M′i,具体公式如下所示:
M′i=CAtten+Chigh。
进一步地,所述步骤C中,基于多尺度特征融合和上下文注意力聚合的实例分割网络的实现方法为:
步骤C1:以HRNet骨干网络作为特征提取模块,对输入图像进行特征提取,将提取到的特征图送入多尺度特征融合和上下文注意力聚合模块;
步骤C2:利用多尺度特征融合和上下文注意力聚合模块,加强特征的表示,形成多尺度的金字塔结构,然后送入RPN子网络中进行区域候选提议;
步骤C3:在RPN子网络中进行背景与前景二分类的预测,并将预测为前景的候选区域送入RoI Align池化为固定大小的区域候选框;最后将区域候选框送入RefineMask实例分割头和RefineMask目标检测头;
步骤C4:利用RefineMask实例分割头,与由多尺度特征融合和上下文注意力聚合模块产生的细粒度特征一起进行掩码的分割,得到最终实例分割结果。
进一步地,所述步骤D具体包括以下步骤:
步骤D1:将预处理后的训练集中图像输入实例分割网络,得到5个尺度的金字塔结构特征图P1、P2、P3、P4、P5,送入RefineMask的RPN网络生成一定数量的候选区域,分类出正样本即前景物体,以及负样本即背景区域后,利用RoI Align将候选区域变为7×7大小再送入目标检测头和实例分割头;
步骤D2:在RefineMask的实例分割头中所需的细粒度特征,由得到的特征图P1,经过4个3×3卷积构成的小型语义分割子网络产生;利用RefineMask的目标检测头、实例分割头,进行边界框的检测和掩码的分割;
步骤D3:计算边界框损失、掩码损失以及生成细粒度特征过程的语义损失;总的损失目标为三种损失之和,使用反向传播方法计算基于多尺度特征融合和上下文注意力聚合的实例分割网络中各参数的梯度,并利用随机梯度下降方法更新实例分割网络的参数。
进一步地,所述步骤E具体包括以下步骤:
步骤E1:将无标签信息的图像输入到训练好的实例分割网络进行处理;
步骤E2:使用目标检测头预测图像中前景物体的边界框,以及使用实例分割头预测图像中每个实例的掩码结果;网络中实例分割头得到的结果为最终的实例分割结果。
本发明还提供了一种基于多尺度特征和上下文注意力的实例分割系统,包括存储器、处理器以及存储于存储器上并能够被处理器运行的计算机程序指令,当处理器运行该计算机程序指令时,能够实现上述的方法步骤。
与现有技术相比,本发明具有以下有益效果:提供了一种基于多尺度特征和上下文注意力的实例分割方法及系统,该方法基于HRNet骨干网络,构建了一个新的多尺度金字塔特征融合,增强原有每层中的特征表示,能够更强地表征每层中的特征信息;同时,引入注意力机制,构建一个上下文注意力聚合模块,通过对高层语义信息注意力的融合,使得低层能够获得更多高层的语义信息表示,使得小目标的分割精度上升、漏检率下降。本发明不但能够增强大目标和中等目标的分割精度,同时也能使得小目标的分割精度上升,降低漏检率,具有很强的实用性和广阔的应用前景。
附图说明
图1为本发明实施例的方法实现流程图。
图2是本发明实施例中整个实例分割网络的结构示意图。
图3是本发明实施例中多尺度特征融合和上下文注意力聚合模块的结构示意图。
图4是本发明实施例中上下文注意力聚合模块的结构示意图。
具体实施方式
下面结合附图及实施例对本发明做进一步说明。
应该指出,以下详细说明都是示例性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
如图1所示,本实施例提供了一种基于多尺度特征和上下文注意力的实例分割方法,包括以下步骤:
步骤A:对训练集中图像进行包括数据增强和标准化处理的数据预处理。
步骤B:构建多尺度特征融合和上下文注意力聚合模块,包括级联的多尺度特征融合模块和上下文注意力聚合模块,以利用金字塔结构加强特征表示,并聚焦金字塔特征图中的小目标物体。
步骤C:构建基于多尺度特征融合和上下文注意力聚合的实例分割网络。
步骤D:利用训练集中图像对实例分割网络进行训练,生成实例分割结果并计算损失函数,反向传播优化整个网络的参数,得到训练好的实例分割网络。
步骤E:将待处理图像输入训练好的实例分割网络,得到实例分割结果。
在本实施例中,所述步骤A具体包括以下步骤:
步骤A1:对训练集中图像进行尺度变换,在保持长宽比不变的情况下,设定图像长和宽的阈值为2048;即根据图像的长边和阈值对图像进行尺度变换,保证长边和短边都不会超出所述阈值;然后将尺度变换后的所有图像进行随机翻转,翻转比例为0.5,实现数据增强。
步骤A2:对增强后的图像进行标准化处理,标准化的均值为[123.675,116.28,103.53],方差为[58.395,57.12,57.375];最后对图像进行填充,使得长宽能被32整除;每张图像有对应标签,标签内容是图像中每个实例物体的边界框和掩码,在图像尺度变换和数据增强的同时也对图像标签进行同步处理。
图3为本实施例中多尺度特征融合和上下文注意力聚合模块的结构示意图。如图3所示,其包括级联的多尺度特征融合模块和上下文注意力聚合模块。其中,多尺度特征融合模块的实现方法如下:
步骤B101:实例分割网络的特征提取模块对输入图像进行特征提取,得到高分辨率层(低语义信息)到低分辨率层(高语义信息)的四个特征图C1、C2、C3、C4,然后输入多尺度特征融合模块。
步骤B102:多尺度特征融合模块对低分辨率特征图进行双线性差值上采样操作,得到和C1特征图一样分辨率大小的特征图,进行特征拼接得到M1,再利用3×3卷积改变M1特征图的通道数为N,具体公式如下所示:
M1=Conv3×3(Concat(C1,2xUp(C2),4xUp(C3),8xUp(C4))),
其中,Conv3×3为3×3卷积,Concat为特征拼接操作,2xUp表示2倍上采样,4xUp和8xUp分别是4倍和8倍上采样。
步骤B103:构建金字塔特征图结构;对步骤B102得到的M1进行3×3卷积下采样2倍,再与初始的特征图C2经过1×1卷积改变通道数为N后进行逐元素相加,得到M2;同理,M3由M2下采样与经过1×1卷积的特征图C3进行逐元素相加得到,M4由M3下采样与经过1×1卷积的特征图C4进行逐元素相加得到,具体公式如下所示:
Mi=Conv3×3(Mi-1)+Conv1×1(Ci),
其中Conv3×3为3×3卷积且步长为2,Conv1×1为1×1卷积且输出通道数为N,i=2,3,4。
步骤B104:将M4通过3×3且步长为2的卷积下采样2倍得到M5,至此形成金字塔结构的5个特征图M1、M2、M3、M4、M5。
上下文注意力聚合模块的实现方法如下:
步骤B201:将特征图M5经过3×3卷积得到P5,此为尺度5的金字塔结构特征图。
步骤B202:通过上下文注意力聚合模块(Context Attention Aggregation,CAA),融合两个层次的特征图;将特征图M4、M5输入到第四CCA模块中,利用特征图M5高层的语义信息,提升特征图M4中上下文信息,将第四CAA模块的输出记为M′4;M′4再经过3×3卷积得到P4,此为尺度4的金字塔结构特征图,具体公式如下所示:
M′4=CAA4(M4,M5),
P4=Conv3×3(M′4),
其中,CAA4是第4个尺度使用的上下文注意力聚合模块,Conv3×3是3×3卷积且步长为1、输入输出通道数都为N。
步骤B203:将特征图M3、M′4输入到第三CAA模块中,得到M′3,再经过3×3卷积得到P3;以此类推,M2与M′3经过第二CAA模块后再经过3×3卷积得到特征图P2,M1与M′2经过第一CAA模块后再经过3×3卷积得到特征图P1;至此聚合上下文注意力的5个尺度的金字塔结构特征图,分别为P1、P2、P3、P4、P5;以上过程具体公式如下所示:
M′i=CAAi(Mi,M′i+1),
Pi=Conv3×3(M′i),
其中,CAAi为第i个尺度使用的上下文注意力聚合模块,Conv3×3是3×3卷积且步长为1、输入输出通道数都为N,i=1,2,3。
所述上下文注意力聚合模块的结构如图4所示。如图4所示,所述上下文注意力聚合模块的输入为任意两个相邻层的特征图Mi与M′i+1,对于倒数第二层,即尺度4,使用Mi+1代替M′i+1;Mi+1和M′i+1为较低分辨率、高语义层,Mi为较高分辨率、低语义层;将特征图M′i+1经过全局平均池化得到高层注意力,经过1×1卷积改变通道数为N后,与M′i+1经过双线性插值2倍上采样的特征图以及特征图Mi,三者逐元素相加得到上下文特征Chigh,具体公式如下所示:
Chigh=Mi+2xUp(M′i+1)+Conv1×1(GAP(M′i+1)),
其中,2xUp表示2倍上采样,Conv1×1为输出通道数N的1×1卷积,GAP为全局平均池化。
将上下文特征Chigh经过全局平均池化(Global Average Pooling,GAP)得到上下文注意力,经过1×1卷积改变通道数为N后,与原输入特征图Mi经过3×3卷积后进行逐元素相乘得到上下文注意力CAtten,具体公式如下所示:
CAtten=Conv3×3(Mi)×Conv1×1(GAP(Chigh))
最后将CAtten与Chigh逐元素相加得到最终上下文注意力聚合的特征图M′i,具体公式如下所示:
M′i=CAtten+Chigh。
图2为本实施例中基于多尺度特征融合和上下文注意力聚合的实例分割网络的结构图。如图2所示,基于多尺度特征融合和上下文注意力聚合的实例分割网络的实现方法为:
步骤C1:以HRNet(High-Resolution Net)骨干网络作为特征提取模块,对输入图像进行特征提取,将提取到的特征图送入多尺度特征融合和上下文注意力聚合模块。
步骤C2:利用多尺度特征融合和上下文注意力聚合模块,加强特征的表示,形成多尺度的金字塔结构,然后送入RPN子网络中进行区域候选提议。
步骤C3:在RPN子网络中进行背景与前景二分类的预测,并将预测为前景的候选区域送入RoI Align池化为固定大小的区域候选框;最后将区域候选框送入RefineMask实例分割头和RefineMask目标检测头。
步骤C4:利用RefineMask实例分割头,与由多尺度特征融合和上下文注意力聚合模块产生的细粒度特征一起进行掩码的分割,得到最终实例分割结果。
在本实施例中,对实例分割网络进行训练,具体包括以下步骤:
步骤D1:将预处理后的训练集中图像输入实例分割网络,得到5个尺度的金字塔结构特征图P1、P2、P3、P4、P5,送入RefineMask的RPN网络生成一定数量的候选区域,分类出分类出正样本(前景物体)和负样本(背景区域)后,利用RoI Align将候选区域变为7×7大小再送入目标检测头和实例分割头。
步骤D2:在RefineMask的实例分割头中所需的细粒度特征,由得到的特征图P1,经过4个3×3卷积构成的小型语义分割子网络产生;利用RefineMask的目标检测头、实例分割头,进行边界框的检测和掩码的分割。
步骤D3:计算边界框损失、掩码损失以及生成细粒度特征过程的语义损失;总的损失目标为三种损失之和,使用反向传播方法计算基于多尺度特征融合和上下文注意力聚合的实例分割网络中各参数的梯度,并利用随机梯度下降(Stochastic gradient descent,SGD)方法更新实例分割网络的参数。
在本实施例中,按如下方法对待处理图像进行处理:
步骤E1:将无标签信息的图像输入到训练好的实例分割网络进行处理
步骤E2:使用目标检测头预测图像中前景物体的边界框,以及使用实例分割头预测图像中每个实例的掩码结果;网络中实例分割头得到的结果为最终的实例分割结果。
本实施例还提供了一种基于多尺度特征和上下文注意力的实例分割系统,包括存储器、处理器以及存储于存储器上并能够被处理器运行的计算机程序指令,当处理器运行该计算机程序指令时,能够实现上述的方法步骤。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述,仅是本发明的较佳实施例而已,并非是对本发明作其它形式的限制,任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的等效实施例。但是凡是未脱离本发明技术方案内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与改型,仍属于本发明技术方案的保护范围。
Claims (9)
1.一种基于多尺度特征和上下文注意力的实例分割方法,其特征在于,包括以下步骤:
步骤A:对训练集中图像进行包括数据增强和标准化处理的数据预处理;
步骤B:构建多尺度特征融合和上下文注意力聚合模块,包括级联的多尺度特征融合模块和上下文注意力聚合模块,以利用金字塔结构加强特征表示,并聚焦金字塔特征图中的小目标物体;
步骤C:构建基于多尺度特征融合和上下文注意力聚合的实例分割网络;
步骤D:利用训练集中图像对实例分割网络进行训练,生成实例分割结果并计算损失函数,反向传播优化整个网络的参数,得到训练好的实例分割网络;
步骤E:将待处理图像输入训练好的实例分割网络,得到实例分割结果。
2.根据权利要求1所述的基于多尺度特征和上下文注意力的实例分割方法,其特征在于,所述步骤A具体包括以下步骤:
步骤A1:对训练集中图像进行尺度变换,在保持长宽比不变的情况下,设定图像长和宽的阈值为2048;即根据图像的长边和阈值对图像进行尺度变换,保证长边和短边都不会超出所述阈值;然后将尺度变换后的所有图像进行随机翻转,翻转比例为0.5,实现数据增强;
步骤A2:对增强后的图像进行标准化处理,标准化的均值为[123.675,116.28,103.53],方差为[58.395,57.12,57.375];最后对图像进行填充,使得长宽能被32整除;每张图像有对应标签,标签内容是图像中每个实例物体的边界框和掩码,在图像尺度变换和数据增强的同时也对图像标签进行同步处理。
3.根据权利要求1所述的基于多尺度特征和上下文注意力的实例分割方法,其特征在于,所述步骤B中,多尺度特征融合模块的实现方法如下:
步骤B101:实例分割网络的特征提取模块对输入图像进行特征提取,得到高分辨率层到低分辨率层,即低语义信息到高语义信息的四个特征图C1、C2、C3、C4,然后输入多尺度特征融合模块;
步骤B102:多尺度特征融合模块对低分辨率特征图进行双线性差值上采样操作,得到和C1特征图一样分辨率大小的特征图,进行特征拼接得到M1,再利用3×3卷积改变M1特征图的通道数为N,具体公式如下所示:
M1=Conv3×3(Concat(C1,2xUp(C2),4xUp(C3),8xUp(C4))),
其中,Conv3×3为3×3卷积,Concat为特征拼接操作,2xUp表示2倍上采样,4xUp和8xUp分别是4倍和8倍上采样;
步骤B103:构建金字塔特征图结构;对步骤B102得到的M1进行3×3卷积下采样2倍,再与初始的特征图C2经过1×1卷积改变通道数为N后进行逐元素相加,得到M2;同理,M3由M2下采样与经过1×1卷积的特征图C3进行逐元素相加得到,M4由M3下采样与经过1×1卷积的特征图C4进行逐元素相加得到,具体公式如下所示:
Mi=Conv3×3(Mi-1)+Conv1×1(Ci),
其中Conv3×3为3×3卷积且步长为2,Conv1×1为1×1卷积且输出通道数为N,i=2,3,4;
步骤B104:将M4通过3×3且步长为2的卷积下采样2倍得到M5,至此形成金字塔结构的5个特征图M1、M2、M3、M4、M5。
4.根据权利要求3所述的基于多尺度特征和上下文注意力的实例分割方法,其特征在于,所述步骤B中,上下文注意力聚合模块的实现方法如下:
步骤B201:将特征图M5经过3×3卷积得到P5,此为尺度5的金字塔结构特征图;
步骤B202:通过上下文注意力聚合模块CAA,融合两个层次的特征图;将特征图M4、M5输入到第四CCA模块中,利用特征图M5高层的语义信息,提升特征图M4中上下文信息,将第四CAA模块的输出记为M'4;M'4再经过3×3卷积得到P4,此为尺度4的金字塔结构特征图,具体公式如下所示:
M′4=CAA4(M4,M5),
P4=Conv3×3(M′4),
其中,CAA4是第4个尺度使用的上下文注意力聚合模块,Conv3×3是3×3卷积且步长为1、输入输出通道数都为N;
步骤B203:将特征图M3、M'4输入到第三CAA模块中,得到M'3,再经过3×3卷积得到P3;以此类推,M2与M'3经过第二CAA模块后再经过3×3卷积得到特征图P2,M1与M'2经过第一CAA模块后再经过3×3卷积得到特征图P1;至此聚合上下文注意力的5个尺度的金字塔结构特征图,分别为P1、P2、P3、P4、P5;以上过程具体公式如下所示:
M′i=CAAi(Mi,M′i+1),
Pi=Conv3×3(M′i),
其中,CAAi为第i个尺度使用的上下文注意力聚合模块,Conv3×3是3×3卷积且步长为1、输入输出通道数都为N,i=1,2,3。
5.根据权利要求4所述的基于多尺度特征和上下文注意力的实例分割方法,其特征在于,所述上下文注意力聚合模块的输入为任意两个相邻层的特征图Mi与M'i+1,对于倒数第二层,即尺度4,使用Mi+1代替M'i+1;Mi+1和M'i+1为较低分辨率、高语义层,Mi为较高分辨率、低语义层;将特征图M'i+1经过全局平均池化得到高层注意力,经过1×1卷积改变通道数为N后,与M'i+1经过双线性插值2倍上采样的特征图以及特征图Mi,三者逐元素相加得到上下文特征Chigh,具体公式如下所示:
Chigh=Mi+2xUp(M′i+1)+Conv1×1(GAP(M′i+1)),
其中,2xUp表示2倍上采样,Conv1×1为输出通道数N的1×1卷积,GAP为全局平均池化;
将上下文特征Chigh经过全局平均池化得到上下文注意力,经过1×1卷积改变通道数为N后,与原输入特征图Mi经过3×3卷积后进行逐元素相乘得到上下文注意力CAtten,具体公式如下所示:
CAtten=Conv3×3(Mi)×Conv1×1(GAP(Chigh))
最后将CAtten与Chigh逐元素相加得到最终上下文注意力聚合的特征图M'i,具体公式如下所示:
M′i=CAtten+Chigh。
6.根据权利要求5所述的基于多尺度特征和上下文注意力的实例分割方法,其特征在于,所述步骤C中,基于多尺度特征融合和上下文注意力聚合的实例分割网络的实现方法为:
步骤C1:以HRNet骨干网络作为特征提取模块,对输入图像进行特征提取,将提取到的特征图送入多尺度特征融合和上下文注意力聚合模块;
步骤C2:利用多尺度特征融合和上下文注意力聚合模块,加强特征的表示,形成多尺度的金字塔结构,然后送入RPN子网络中进行区域候选提议;
步骤C3:在RPN子网络中进行背景与前景二分类的预测,并将预测为前景的候选区域送入RoIAlign池化为固定大小的区域候选框;最后将区域候选框送入RefineMask实例分割头和RefineMask目标检测头;
步骤C4:利用RefineMask实例分割头,与由多尺度特征融合和上下文注意力聚合模块产生的细粒度特征一起进行掩码的分割,得到最终实例分割结果。
7.根据权利要求6所述的基于多尺度特征和上下文注意力的实例分割方法,其特征在于,所述步骤D具体包括以下步骤:
步骤D1:将预处理后的训练集中图像输入实例分割网络,得到5个尺度的金字塔结构特征图P1、P2、P3、P4、P5,送入RefineMask的RPN网络生成一定数量的候选区域,分类出正样本即前景物体,以及负样本即背景区域后,利用RoIAlign将候选区域变为7×7大小再送入目标检测头和实例分割头;
步骤D2:在RefineMask的实例分割头中所需的细粒度特征,由得到的特征图P1,经过4个3×3卷积构成的小型语义分割子网络产生;利用RefineMask的目标检测头、实例分割头,进行边界框的检测和掩码的分割;
步骤D3:计算边界框损失、掩码损失以及生成细粒度特征过程的语义损失;总的损失目标为三种损失之和,使用反向传播方法计算基于多尺度特征融合和上下文注意力聚合的实例分割网络中各参数的梯度,并利用随机梯度下降方法更新实例分割网络的参数。
8.根据权利要求7所述的基于多尺度特征和上下文注意力的实例分割方法,其特征在于,所述步骤E具体包括以下步骤:
步骤E1:将无标签信息的图像输入到训练好的实例分割网络进行处理;
步骤E2:使用目标检测头预测图像中前景物体的边界框,以及使用实例分割头预测图像中每个实例的掩码结果;网络中实例分割头得到的结果为最终的实例分割结果。
9.一种基于多尺度特征和上下文注意力的实例分割系统,其特征在于,包括存储器、处理器以及存储于存储器上并能够被处理器运行的计算机程序指令,当处理器运行该计算机程序指令时,能够实现如权利要求1-8任一项所述的方法步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210333902.1A CN114693930A (zh) | 2022-03-31 | 2022-03-31 | 基于多尺度特征和上下文注意力的实例分割方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210333902.1A CN114693930A (zh) | 2022-03-31 | 2022-03-31 | 基于多尺度特征和上下文注意力的实例分割方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114693930A true CN114693930A (zh) | 2022-07-01 |
Family
ID=82140443
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210333902.1A Pending CN114693930A (zh) | 2022-03-31 | 2022-03-31 | 基于多尺度特征和上下文注意力的实例分割方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114693930A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115661174A (zh) * | 2022-11-14 | 2023-01-31 | 北京矩视智能科技有限公司 | 基于流扭曲的表面缺陷区域分割方法、装置及电子设备 |
CN117314932A (zh) * | 2023-09-12 | 2023-12-29 | 四川大学华西第四医院(四川大学华西职业病医院) | 基于令牌金字塔的胰胆管分割方法、模型及存储介质 |
CN117437424A (zh) * | 2023-12-20 | 2024-01-23 | 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) | 运动物体实例分割方法、装置、设备和计算机程序产品 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190164290A1 (en) * | 2016-08-25 | 2019-05-30 | Intel Corporation | Coupled multi-task fully convolutional networks using multi-scale contextual information and hierarchical hyper-features for semantic image segmentation |
CN112837330A (zh) * | 2021-03-02 | 2021-05-25 | 中国农业大学 | 基于多尺度双注意力机制和全卷积神经网络的叶分割方法 |
CN113567984A (zh) * | 2021-07-30 | 2021-10-29 | 长沙理工大学 | 一种sar图像中人造小目标的检测方法及系统 |
CN113888550A (zh) * | 2021-09-27 | 2022-01-04 | 太原理工大学 | 一种结合超分辨率和注意力机制的遥感图像道路分割方法 |
-
2022
- 2022-03-31 CN CN202210333902.1A patent/CN114693930A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190164290A1 (en) * | 2016-08-25 | 2019-05-30 | Intel Corporation | Coupled multi-task fully convolutional networks using multi-scale contextual information and hierarchical hyper-features for semantic image segmentation |
CN112837330A (zh) * | 2021-03-02 | 2021-05-25 | 中国农业大学 | 基于多尺度双注意力机制和全卷积神经网络的叶分割方法 |
CN113567984A (zh) * | 2021-07-30 | 2021-10-29 | 长沙理工大学 | 一种sar图像中人造小目标的检测方法及系统 |
CN113888550A (zh) * | 2021-09-27 | 2022-01-04 | 太原理工大学 | 一种结合超分辨率和注意力机制的遥感图像道路分割方法 |
Non-Patent Citations (3)
Title |
---|
CHEN, YUZHONG: ""Pyramid Context Contrast for Semantic Segmentation"", 《IEEE ACCESS》, 12 February 2020 (2020-02-12) * |
宁芊;胡诗雨;雷印杰;陈炳才;: "基于多尺度特征和注意力机制的航空图像分割", 控制理论与应用, no. 06, 30 June 2020 (2020-06-30) * |
林冠秒: ""基于多尺度特征的无参考屏幕内容图像质量评估"", 《小型微型计算机系统》, 28 February 2022 (2022-02-28) * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115661174A (zh) * | 2022-11-14 | 2023-01-31 | 北京矩视智能科技有限公司 | 基于流扭曲的表面缺陷区域分割方法、装置及电子设备 |
CN117314932A (zh) * | 2023-09-12 | 2023-12-29 | 四川大学华西第四医院(四川大学华西职业病医院) | 基于令牌金字塔的胰胆管分割方法、模型及存储介质 |
CN117314932B (zh) * | 2023-09-12 | 2024-06-07 | 四川大学华西第四医院(四川大学华西职业病医院) | 基于令牌金字塔的胰胆管分割方法、模型及存储介质 |
CN117437424A (zh) * | 2023-12-20 | 2024-01-23 | 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) | 运动物体实例分割方法、装置、设备和计算机程序产品 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114693930A (zh) | 基于多尺度特征和上下文注意力的实例分割方法及系统 | |
CN111325108B (zh) | 一种多任务网络模型及使用方法、装置、和存储介质 | |
CN110852383B (zh) | 基于注意力机制深度学习网络的目标检测方法及装置 | |
US11900646B2 (en) | Methods for generating a deep neural net and for localising an object in an input image, deep neural net, computer program product, and computer-readable storage medium | |
CN111104903B (zh) | 一种深度感知交通场景多目标检测方法和系统 | |
WO2021218786A1 (zh) | 一种数据处理系统、物体检测方法及其装置 | |
Bruno et al. | Image classification system based on deep learning applied to the recognition of traffic signs for intelligent robotic vehicle navigation purposes | |
CN114332133A (zh) | 基于改进CE-Net的新冠肺炎CT图像感染区分割方法及系统 | |
CN111754507A (zh) | 一种轻量化的基于强注意力机制的工业缺陷图像分类方法 | |
EP1801731B1 (en) | Adaptive scene dependent filters in online learning environments | |
CN115797629A (zh) | 基于检测增强和多阶段边界框特征细化的实例分割方法 | |
CN113723170A (zh) | 危险检测整合架构系统和方法 | |
CN114067186B (zh) | 一种行人检测方法、装置、电子设备及存储介质 | |
Mirani et al. | Object recognition in different lighting conditions at various angles by deep learning method | |
CN111951260B (zh) | 基于部分特征融合卷积神经网络实时目标计数系统及方法 | |
CN117011819A (zh) | 基于特征引导注意力的车道线检测方法、装置及设备 | |
Surinwarangkoon et al. | Traffic sign recognition by color filtering and particle swarm optimization | |
CN116311154A (zh) | 一种基于YOLOv5模型优化的车辆检测与识别方法 | |
Surinwarangkoon et al. | A traffic sign detection and recognition system | |
CN114332989A (zh) | 一种多任务级联卷积神经网络的人脸检测方法及系统 | |
CN109492755B (zh) | 图像处理方法、图像处理装置和计算机可读存储介质 | |
Jokela | Person counter using real-time object detection and a small neural network | |
NGUYEN | Improvement Of Detecting Small-Sized Traffic Signs Based On Deep Learning | |
SaiNikhil et al. | Identification of road and surrounding obstacles using U-net architecture for better perception | |
Nguyen | Improving traffic sign detection with deep convolutional neural networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |