CN115222946A - 一种单阶段实例图像分割方法、装置以及计算机设备 - Google Patents

一种单阶段实例图像分割方法、装置以及计算机设备 Download PDF

Info

Publication number
CN115222946A
CN115222946A CN202211134330.0A CN202211134330A CN115222946A CN 115222946 A CN115222946 A CN 115222946A CN 202211134330 A CN202211134330 A CN 202211134330A CN 115222946 A CN115222946 A CN 115222946A
Authority
CN
China
Prior art keywords
feature
mask
kernel
branch
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211134330.0A
Other languages
English (en)
Other versions
CN115222946B (zh
Inventor
陈苏婷
张晓敏
王天语
缪则林
王航将
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan Yongwang Practical New Technology Research Institute
Original Assignee
Nanjing University of Information Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Information Science and Technology filed Critical Nanjing University of Information Science and Technology
Priority to CN202211134330.0A priority Critical patent/CN115222946B/zh
Publication of CN115222946A publication Critical patent/CN115222946A/zh
Application granted granted Critical
Publication of CN115222946B publication Critical patent/CN115222946B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种单阶段实例图像分割方法、装置以及计算机设备,涉及图像实例分割技术领域,首先提取多层次的图像特征信息,为了更充分地利用高层特征的语义信息和底层特征的细粒度特征,引入自适应特征融合模块计算不同尺度特征权重并融合,将融合后的特征送入三个分支进行实例核预测和掩码分割以及语义类别预测,为了突出特征核的位置信息,引入混合双注意力机制筛选有效特征核,然后将生成掩码与特征核进行映射,根据实例的分类分数和相应的掩码,确定每个实例的类别与置信度,阈值筛选得到最终的分割结果,为了权衡模型分割的速度与精度,采用二部匹配的策略,避免矩阵非极大值抑制操作,大大提升了分割速度。

Description

一种单阶段实例图像分割方法、装置以及计算机设备
技术领域
本发明涉及图像实例分割技术领域,特别是涉及一种单阶段实例图像分割方法、装置以及计算机设备。
背景技术
实例分割是经典的计算机视觉任务之一,旨在对图像前景目标中不同属类别的个体以及同属类别的不同个体进行像素级区分,从而保留不同实例之间的像素差异性;实例分割由于其分割结果与人眼观察的结果具有高相似度,已被广泛应用于多个领域,比如自动驾驶、虚拟现实场景建模、安防监控以及智慧医疗等等。
目前主流的实例分割方法遵循着两阶段的思路,即先建立实例的候选框,然后再根据候选框对像素进行标记,进行前景与背景的区分,这些方法在精度上取得了较大的提升,但由于其依赖多个分支计算,存在庞大的参数,会导致其难以应用在需要实时性分割的领域,例如自动驾驶以及边缘设备。
单阶段实例分割受单阶段目标检测的影响,通过直接预测每个对象实例的类别与分割掩码来简化检测与分割分支,然而单阶段实例分割提升分割速度的同时仍存在如下问题:1、实例分割依赖主干网络加特征金字塔的结构来学习多尺度特征,这种结构对大尺度目标敏感,上采样与下采样过程中容易造成大目标特征覆盖小目标特征;2、通过目标中心定位实例时,每个像素的感受域有限,从而导致上下文信息不足;3、处理大量生成掩码并进行矩阵非极大值抑制需要耗费大量的时间以及计算资源。
发明内容
为了解决以上技术问题,本发明提供一种单阶段实例图像分割方法,其特征在于:包括以下步骤
S1、输入图像;
S2、采用骨干网络ResNet+FPN提取多层次的图像特征信息,使用ResNet上四层的特征图C2、C3、C4以及C5,每层特征图通过1×1卷积后与上一层特征上采样后的特征图进行元素相加,构建自上而下的特征金字塔结构,接着每层再通过3×3卷积得到特征图P2、P3、P4以及P5;
S3、利用自适应空间特征融合模块将特征金字塔结构中的P3、P4、P5特征图融合上下文细粒度特征;
S4、设置并行的三个分支,分别为实例核分支、掩码分支以及类别分支,实例核分支用于在划分成S×S个网格的增强特征图上预测出包含实例信息的特征核;掩码分支用于生成对应特征的掩码图;类别分支用于生成实例语义类别分数和预测语义类别概率;
S5、利用混合双注意力模块突出实例特征,增强实例核分支,混合双注意力模块包括通道注意力模块和位置注意力模块;对组卷积后的特征图进行通道混合操作,使其通道重新打乱排序;将子特征分别送入通道注意力模块以及位置注意力模块,突出实例特征信息;
S6、实例特征核与掩码图动态卷积生成掩码分割结果,通过与类别分支预测出的语义类别概率进行二部匹配得到最终的实例分割结果;
类别分支将不同层级特征进行双线性上采样或下采样统一特征尺寸,将输入特征图像划分成S×S个网格,通过四组3×3卷积+GN+ReLu的重复模块,生成S×S个C维输出,C表示总类别数,对每个网格进行语义类别概率的预测;
提出了一个基于DICE的配对分数
Figure 445972DEST_PATH_IMAGE001
,如式(7)所示,用于在训练阶段分配正负样 本,以及为特征图的不同位置分配学习目标,其中i表示第i个预测对象,k表示k个ground- truth对象,由分类分数和掩码的DICE系数决定,
Figure 140259DEST_PATH_IMAGE002
(7)
其中,
Figure 244350DEST_PATH_IMAGE003
是超参数,用于平衡分类和分割的影响,
Figure 289666DEST_PATH_IMAGE004
表示第k个ground-truth实例的 类别标签,
Figure 684876DEST_PATH_IMAGE005
表示第i个预测的类别为
Figure 233669DEST_PATH_IMAGE004
的概率,
Figure 321710DEST_PATH_IMAGE006
分别表示第i个预测实例和第k个 ground-truth实例的掩码,DICE系数计算如式(8)所示:
Figure 526427DEST_PATH_IMAGE007
(8)
其中,
Figure 725327DEST_PATH_IMAGE008
分别表示预测掩码m和真值掩码t中(x,y)处的像素;
S7、得到最终掩码结果以及对象分类结果,并将其映射至原图像输出最终实例分割图像。
本发明进一步限定的技术方案是:
进一步的,步骤S3中,自适应空间特征融合模块的融合方法包括以下步骤
S3.1、分别对特征金字塔输出的P2、P3以及P4进行统一尺寸,对P2统一尺寸时,将P3上采样、P4上采样与P2统一尺寸;对P3统一尺寸时,将P2下采样、P4上采样与P3统一尺寸;对P4统一尺寸时,将P2下采样、P3下采样与P4统一尺寸;
S3.2、对调整后的三个特征图进行1×1的卷积运算;
S3.3、将这三个特征图拼接后再通过1×1的卷积和softmax归一化得到对应权值α、β和γ;
S3.4、当为P2时,将对应权重分别与P4_resized、P3_resized和P2相乘;当为P3时,将对应权重分别与P4_resized、P2_resized和P3相乘;当为P4时,将对应权重分别与P3_resized、P2_resized和P4相乘;
S3.5、将上一步骤中三个相乘的结果相加得到新的融合特征,获得对应的自适应空间特征融合模块,自适应空间特征融合的计算方式如式(1)所示
Figure 128627DEST_PATH_IMAGE009
(1)
其中,
Figure 387570DEST_PATH_IMAGE010
表示特征图中位置(i,j)的特征向量,
Figure 343498DEST_PATH_IMAGE011
表示第n层级的特征图与
Figure 80510DEST_PATH_IMAGE012
调 整至相同尺寸,
Figure 603895DEST_PATH_IMAGE013
表示三个不同层级中位于(i,j)的特征向量计算出的空间特征权 重,取值范围是0到1;
Figure 33739DEST_PATH_IMAGE013
的计算公式分别如式(2)、式(3)、式(4)所示
Figure 9786DEST_PATH_IMAGE014
(2)
Figure 488172DEST_PATH_IMAGE015
(3)
Figure 131643DEST_PATH_IMAGE016
(4)
其中,
Figure 466809DEST_PATH_IMAGE017
分别表示三个权值的控制参数。
前所述的单阶段实例图像分割方法,步骤S4中,掩码分支采用阶梯式特征对齐方式来生成对应特征的掩码图,包括以下步骤
S4.1、由P5、P4、P3、P2每三个相邻层级统一尺寸后进行融合得到P4´、P3´以及P2´;
S4.2、由P4´、P3´、P2´进行融合得到P3´´以及P2´´;
S4.3、将P3´´和P2´´元素相加后,再与进行八倍上采样后的包含坐标信息的P5层进行特征融合,得到最终的融合特征;
S4.4、融合特征依次通过1×1卷积、GN以及ReLu激活函数生成掩码特征图。
前所述的单阶段实例图像分割方法,步骤S5中,
通道注意力模块中,首先使用全局平均池化在通道统计信息中嵌入全局信息;接着进行参数变换并进行sigmoid激活生成每个通道的特征权值,产生每个通道对应的注意力权重;通道注意力模块用于有选择地对每个通道的重要性进行加权,从而产生通道输出特征,如式(5);
利用位置注意力模块提供更多的位置信息,作为通道注意力模块的补充,首先对特征进行组归一化得到空间位置信息统计,使用参数变换以及sigmoid操作生成位置注意力结果,如式(6),然后将通道注意力模块与位置注意力模块连接,使得通道数与输入相同;
Figure 195731DEST_PATH_IMAGE018
(5)
Figure 274545DEST_PATH_IMAGE019
(6)
其中,
Figure 959473DEST_PATH_IMAGE020
表示原始通道注意力特征,
Figure 465541DEST_PATH_IMAGE021
表示原始位置注意力特征,
Figure 681758DEST_PATH_IMAGE022
则 表示对应变换的参数;
经过混合双注意力模块后经过实例核分支,在四组3×3卷积+GN+ReLu的重复模块以及一次3×3卷积后生成感知特征核
前所述的单阶段实例图像分割方法,步骤S6中,实例特征核与掩码图动态卷积生 成掩码分割结果,即将实例核分支结果与掩码分支结果进行动态卷积生成最终掩码
Figure 564264DEST_PATH_IMAGE023
,其中
Figure 916748DEST_PATH_IMAGE024
表示掩码核,
Figure 796979DEST_PATH_IMAGE025
表示掩码分支生成结果。
前所述的单阶段实例图像分割方法,步骤S6中,超参数设置为0.76。
前所述的单阶段实例图像分割方法,步骤S6中,实例特征核通过与类别分支预测出的语义类别概率进行二部匹配得到最终的实例分割结果,还包括用于计算真值和预测的误差的方法,训练损失函数如式(9)所示:
Figure 234914DEST_PATH_IMAGE026
(9)
其中,
Figure 655531DEST_PATH_IMAGE027
是用于对象分类的focal loss,
Figure 128100DEST_PATH_IMAGE028
是用于掩码生成的Dice Loss;计 算真值和预测的误差,并通过反向传播,不断更新网络权重,使损失函数值不断降低,重复 迭代直至收敛。
本发明还提供一种单阶段实例图像分割装置,包括
图像输入模块,用于输入待分割的图像;
图像特征信息提取模块,用于采用骨干网络ResNet+FPN提取多层次的图像特征信息,使用ResNet上四层的特征图C2、C3、C4以及C5,每层特征图通过1×1卷积后与上一层特征上采样后的特征图进行元素相加,构建自上而下的特征金字塔结构,接着每层再通过3×3卷积得到特征图P2、P3、P4以及P5;
自适应空间特征融合模块,用于将特征金字塔结构中的P3、P4、P5特征图融合上下文细粒度特征;
实例核模块,用于在划分成S×S个网格的增强特征图上预测出包含实例信息的特征核;
掩码模块,用于生成对应特征的掩码图,还用于将实例特征核与掩码图动态卷积生成掩码分割结果;
类别模块,用于生成实例语义类别分数和预测语义类别概率,还用于将实例特征核与语义类别概率进行二部匹配得到最终的实例分割结果;
混合双注意力模块,用于突出实例特征,增强实例核分支。
本发明还提供一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现上述单阶段实例图像分割方法的步骤。
本发明还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述单阶段实例图像分割方法的步骤。
本发明的有益效果是:
(1)本发明,在实时实例分割任务中,提出了一种基于二部匹配和混合注意力机制的单阶段实例分割方法,特征金字塔网络初步提取的多层特征经过自适应空间特征融合模块,增强不同尺度特征的显著性,抑制背景噪声的影响,为了增强特征核位置敏感性与前景背景区分度,引入混合双注意力模块,突出每个前景对象的信息区域,使用二部匹配策略进行标签分配,代替计算量大的后处理操作,相对现有实例分割技术来说,有效提高了分割精度(+3.7%),并在推理速度上达到了34.6FPS,在精度和速度上优于其他单阶段实例分割方法,充分证明了该方法的有效性,利用匈牙利算法寻找真值目标与预测结果的最优匹配,避免了复杂的后处理工作,例如矩阵非极大值抑制、排序等,提升了模型推理速度,改善了正负样本不均衡的情况;
(2)本发明中,引入自适应特征融合模块计算不同尺度特征权重并融合,可以更充分地利用高层特征的语义信息和底层特征的细粒度特征,引入混合双注意力机制筛选有效特征核,可以突出特征核的位置信息,采用二部匹配的策略,可以权衡模型分割的速度与精度,避免矩阵非极大值抑制操作,大大提升了分割速度,从而改进目前单阶段实例分割的不足,在提升分割精度的同时,提升分割速度,实现速度与精度的均衡,减少模型参数量便于在边缘设备段部署;
(3)本发明适用于实时实例分割场景,通过自适应空间特征融合模块充分利用不同尺度特征,减少高层与底层之间的语义差异,从而改善了特征的比例不变性,更有效地抑制负样本干扰,为后续实例特征核预测、掩码生成、语义类别预测做准备;
(4)本发明中,对于实例核分支,其将特征图对其后划分为S×S个网格,通过卷积操作后生成特征核,对特征核影响最大的是如何判断量化的中心点位置以及物体大小,区分不同目标实例能够帮助实例核分支筛选有效特征核,本发明提出的混合双注意力机制,对组卷积后的特征图进行通道混合操作,帮助信息在不同通道间流通,然后利用通道以及位置注意力,凸显实例核信息。
附图说明
图1为本发明的单阶段实例分割方法流程图;
图2为本发明中自适应空间特征融合模块的结构图;
图3为本发明中混合双注意力模块的结构图;
图4为本发明的掩码分支流程图。
具体实施方式
本实施例提供的一种单阶段实例图像分割方法,如图1所示,首先采用骨干网络ResNet+FPN用于提取多层次的图像特征信息,使用ResNet上四层的特征图(C2-C5),每层通过1×1卷积核后与上一层特征上采样后的特征图进行元素相加操作,构建自上而下的特征金字塔结构,最后每层通过3×3卷积得到特征图(P2-P5);将特征金字塔中P3、P4、P5层次利用自适应空间特征融合模块融合上下文细粒度特征,增强感受野;设置并行的三个分支,分别为实例核分支、掩码分支以及类别分支,分别用于特征核预测、掩码生成、语义类别预测;实例核分支在划分成S×S个网格的增强特征图上预测出包含实例信息的特征核,并与掩码分支中生成的掩码进行动态卷积操作,其根据输入特征,自适应地调整卷积参数生成掩码分割结果;类别分支生成实例语义类别分数;本发明端到端的获得N个实例的分类分数和相应的掩码,通过二值匹配生成最优的实例分割结果。
为了更加充分的利用高层特征的语义信息和底层特征的细粒度特征,很多网络都会采用特征金字塔的方式输出多层特征,现有模型一般使用直接连接或者相加的方式,这样并不能充分的利用不同尺度的特征。
如图2所示,本发明利用自适应空间特征融合(ASFF)模块计算不同尺度特征权重并融合,通过为每个融合的特征图设置自适应权值来进行加权融合,能够保留该层特有尺度信息,突出相邻层次有效特征,能够有效抑制负样本的干扰。
将特征金字塔输出的P2、P3、P4进行统一尺寸,以P3为例,将P2下采样、P4上采样与P3统一尺寸(对P2统一尺寸时,将P3上采样、P4上采样与P2统一尺寸;对P4统一尺寸时,将P2下采样、P3下采样与P4统一尺寸),对调整后的三个特征图进行1×1的卷积运算,然后将这三个特征图拼接后再通过1×1的卷积、softmax归一化得到对应权值α、β和γ,将对应权重分别与P4_resized、P2_resized和P3相乘(当为P2时,将对应权重分别与P4_resized、P3_resized和P2相乘;当为P4时,将对应权重分别与P3_resized、P2_resized和P4相乘),然后将这三个结果相加得到新的融合特征,自适应空间特征融合(ASFF)的计算方式如式(1)所示;以此为例,对P2、P3、P4分别进行上述操作获得对应的自适应空间特征融合(ASFF)模块。
Figure 162921DEST_PATH_IMAGE009
(1)
其中,
Figure 88152DEST_PATH_IMAGE010
表示特征图中位置(i,j)的特征向量,
Figure 312460DEST_PATH_IMAGE011
表示第n层级的特征图与
Figure 639536DEST_PATH_IMAGE012
调 整至相同尺寸,
Figure 923887DEST_PATH_IMAGE013
表示三个不同层级中位于(i,j)的特征向量计算出的空间特征权 重,取值范围是0到1。
Figure 274097DEST_PATH_IMAGE029
的计算公式如式(2)所示,其中,
Figure 36516DEST_PATH_IMAGE017
分别表示三个权值的控制参 数,同理,
Figure 218099DEST_PATH_IMAGE030
Figure 673351DEST_PATH_IMAGE031
定义与
Figure 760125DEST_PATH_IMAGE032
相同,分别如式(3)和式(4)所示,
Figure 326235DEST_PATH_IMAGE014
(2)
Figure 362324DEST_PATH_IMAGE015
(3)
Figure 988478DEST_PATH_IMAGE016
(4)
在特征图中影响最大的是如何判断量化的中心点位置和物体大小,区分不同目标实例,能够帮助实例核分支筛选有效内核,常见的捕获通道与位置依赖关系的注意力模会带来太多的参数,不利于在速度和精度之间进行权衡。
如图3所示,本发明采用混合双注意力模块突出实例特征,增强实例核分支,对组卷积后的特征图进行通道混合操作,使其通道重新打乱排序,帮助信息在不同特征通道间流动,将子特征分别送入通道注意力模块以及位置注意力模块,突出实例特征信息。
通道注意力模块中,首先使用全局平均池化在通道统计信息中嵌入全局信息,然后进行参数变换并进行sigmoid激活生成每个通道的特征权值,产生每个通道对应的注意力权重,通道注意模块用于有选择地对每个通道的重要性进行加权,从而产生通道输出特征,如式(5)。
同时利用位置注意力提供更多的位置信息,作为通道注意力的补充,首先对特征进行组归一化得到空间位置信息统计,使用参数变换以及sigmoid操作生成位置注意力结果,如式(6),然后将两个分支连接起来,使得通道数与输入相同。
Figure 375597DEST_PATH_IMAGE018
(5)
Figure 417502DEST_PATH_IMAGE019
(6)
其中,
Figure 573677DEST_PATH_IMAGE020
表示原始通道注意力特征,
Figure 370732DEST_PATH_IMAGE021
表示原始位置注意力特征,
Figure 979568DEST_PATH_IMAGE022
则 表示对应变换的参数。
经过双混合注意力模块后经过实例核分支,在四组3×3卷积+GN+ReLu的重复模块以及一次3×3卷积后生成感知特征核。
原SOLOv2模型中采用最简单的特征对齐方式,将不同尺度的特征通过不同次数的上采样和卷积操作对齐至掩码尺寸,该方式不利于各个尺度信息在不同特征层级流动。
如图4所示,本发明中采用阶梯式特征对齐方式,加强了特征间信息的融合,并且对P5层进行CoordConv操作,串入两个坐标通道,将空间信息保留至掩码特征中,本发明掩码分支中包含三个阶段操作,第一阶段由P5、P4、P3、P2每三个相邻层级统一尺寸后进行融合得到P4´、P3´、P2´,第二阶段由P4´、P3´、P2´融合得到P3´´、P2´´,第三阶段P3´´、P2´´元素相加后再与进行八倍上采样后的包含坐标信息的P5层进行特征融合得到最终的融合特征,融合特征P2´´´保留了多尺度信息,加强特征间信息的融合,有利于生成高质量的特征掩码。
融合特征后通过1×1卷积、组归一化、ReLu激活函数生成掩码特征图,将实例核分 支结果与掩码分支结果进行动态卷积生成最终掩码
Figure 153060DEST_PATH_IMAGE023
,其中
Figure 353622DEST_PATH_IMAGE024
表示掩码 核,
Figure 321578DEST_PATH_IMAGE025
表示掩码分支生成结果。
类别分支将不同层级特征进行双线性上采样或下采样统一特征尺寸,将输入特征图像划分成S×S个网格,通过四组3×3卷积+GN+ReLu的重复模块,生成S×S个C维输出,C表示总类别数,对每个网格进行语义类别概率的预测。
为在训练阶段高效分配正负样本,为特征图不同位置分配合适的学习目标,本发 明提出了一个基于DICE的配对分数
Figure 417710DEST_PATH_IMAGE001
,如式(7)所示,其中i与k表示第i个预测对象,k个 ground-truth对象,由分类分数和掩码的DICE系数决定。
Figure 863734DEST_PATH_IMAGE002
(7)
其中,
Figure 994502DEST_PATH_IMAGE003
是超参数,以平衡分类和分割的影响,本发明中设置为0.76,
Figure 71042DEST_PATH_IMAGE004
表示第k个 ground-truth实例的类别标签,
Figure 654470DEST_PATH_IMAGE005
表示第i个预测的类别为
Figure 904186DEST_PATH_IMAGE004
的概率,
Figure 889459DEST_PATH_IMAGE006
分别表示第i 个预测实例和第k个ground-truth,DICE系数计算如式(8)所示:
Figure 199218DEST_PATH_IMAGE007
(8)
其中,
Figure 456893DEST_PATH_IMAGE008
分别表示预测掩码m和真值掩码t中(x,y)处的像素。
然后,本发明采用匈牙利算法依据基于DICE的配对分数寻找K个ground-truth实例与N个预测结果之间的最优匹配,本发明无需矩阵非极大值抑制操作或排序操作即可得到最终掩码结果以及对象分类结果,并将其映射至原图像输出最终实例分割图像。
训练损失函数如式(9)所示
Figure 510299DEST_PATH_IMAGE026
(9)
其中,
Figure 350079DEST_PATH_IMAGE027
是用于对象分类的focal loss,
Figure 830739DEST_PATH_IMAGE028
是用于掩码生成的Dice Loss,计 算真值和预测的误差,并通过反向传播,不断更新网络权重,使损失函数值不断降低,重复 迭代直至收敛。
除上述实施例外,本发明还可以有其他实施方式。凡采用等同替换或等效变换形成的技术方案,均落在本发明要求的保护范围。

Claims (10)

1.一种单阶段实例图像分割方法,其特征在于:包括以下步骤
S1、输入图像;
S2、采用骨干网络ResNet+FPN提取多层次的图像特征信息,使用ResNet上四层的特征图C2、C3、C4以及C5,每层特征图通过1×1卷积后与上一层特征上采样后的特征图进行元素相加,构建自上而下的特征金字塔结构,接着每层再通过3×3卷积得到特征图P2、P3、P4以及P5;
S3、利用自适应空间特征融合模块将特征金字塔结构中的P3、P4、P5特征图融合上下文细粒度特征;
S4、设置并行的三个分支,分别为实例核分支、掩码分支以及类别分支,实例核分支用于在划分成S×S个网格的增强特征图上预测出包含实例信息的特征核;掩码分支用于生成对应特征的掩码图;类别分支用于生成实例语义类别分数和预测语义类别概率;
S5、利用混合双注意力模块突出实例特征,增强实例核分支,混合双注意力模块包括通道注意力模块和位置注意力模块;对组卷积后的特征图进行通道混合操作,使其通道重新打乱排序;将子特征分别送入通道注意力模块以及位置注意力模块,突出实例特征信息;
S6、实例特征核与掩码图动态卷积生成掩码分割结果,通过与类别分支预测出的语义类别概率进行二部匹配得到最终的实例分割结果;
类别分支将不同层级特征进行双线性上采样或下采样统一特征尺寸,将输入特征图像划分成S×S个网格,通过四组3×3卷积+GN+ReLu的重复模块,生成S×S个C维输出,C表示总类别数,对每个网格进行语义类别概率的预测;
提出了一个基于DICE的配对分数
Figure DEST_PATH_IMAGE002
,如式(7)所示,用于在训练阶段分配正负样本,以及为特征图的不同位置分配学习目标,其中i表示第i个预测对象,k表示k个ground-truth对象,由分类分数和掩码的DICE系数决定,
Figure DEST_PATH_IMAGE004
(7)
其中,
Figure DEST_PATH_IMAGE006
是超参数,用于平衡分类和分割的影响,
Figure DEST_PATH_IMAGE008
表示第k个ground-truth实例的类别标签,
Figure DEST_PATH_IMAGE010
表示第i个预测的类别为
Figure DEST_PATH_IMAGE008A
的概率,
Figure DEST_PATH_IMAGE012
分别表示第i个预测实例和第k个ground-truth实例的掩码,DICE系数计算如式(8)所示:
Figure DEST_PATH_IMAGE014
(8)
其中,
Figure DEST_PATH_IMAGE016
分别表示预测掩码m和真值掩码t中(x,y)处的像素;
S7、得到最终掩码结果以及对象分类结果,并将其映射至原图像输出最终实例分割图像。
2.根据权利要求1所述的单阶段实例图像分割方法,其特征在于:所述步骤S3中,自适应空间特征融合模块的融合方法包括以下步骤
S3.1、分别对特征金字塔输出的P2、P3以及P4进行统一尺寸,对P2统一尺寸时,将P3上采样、P4上采样与P2统一尺寸;对P3统一尺寸时,将P2下采样、P4上采样与P3统一尺寸;对P4统一尺寸时,将P2下采样、P3下采样与P4统一尺寸;
S3.2、对调整后的三个特征图进行1×1的卷积运算;
S3.3、将这三个特征图拼接后再通过1×1的卷积和softmax归一化得到对应权值α、β和γ;
S3.4、当为P2时,将对应权重分别与P4_resized、P3_resized和P2相乘;当为P3时,将对应权重分别与P4_resized、P2_resized和P3相乘;当为P4时,将对应权重分别与P3_resized、P2_resized和P4相乘;
S3.5、将上一步骤中三个相乘的结果相加得到新的融合特征,获得对应的自适应空间特征融合模块,自适应空间特征融合的计算方式如式(1)所示
Figure DEST_PATH_IMAGE018
(1)
其中,
Figure DEST_PATH_IMAGE020
表示特征图中位置(i,j)的特征向量,
Figure DEST_PATH_IMAGE022
表示第n层级的特征图与
Figure DEST_PATH_IMAGE024
调整至相同尺寸,
Figure DEST_PATH_IMAGE026
表示三个不同层级中位于(i,j)的特征向量计算出的空间特征权重,取值范围是0到1;
Figure DEST_PATH_IMAGE026A
的计算公式分别如式(2)、式(3)、式(4)所示
Figure DEST_PATH_IMAGE028
(2)
Figure DEST_PATH_IMAGE030
(3)
Figure DEST_PATH_IMAGE032
(4)
其中,
Figure DEST_PATH_IMAGE034
分别表示三个权值的控制参数。
3.根据权利要求1所述的单阶段实例图像分割方法,其特征在于:所述步骤S4中,掩码分支采用阶梯式特征对齐方式来生成对应特征的掩码图,包括以下步骤
S4.1、由P5、P4、P3、P2每三个相邻层级统一尺寸后进行融合得到P4´、P3´以及P2´;
S4.2、由P4´、P3´、P2´进行融合得到P3´´以及P2´´;
S4.3、将P3´´和P2´´元素相加后,再与进行八倍上采样后的包含坐标信息的P5层进行特征融合,得到最终的融合特征;
S4.4、融合特征依次通过1×1卷积、GN以及ReLu激活函数生成掩码特征图。
4.根据权利要求1所述的单阶段实例图像分割方法,其特征在于:所述步骤S5中,
通道注意力模块中,首先使用全局平均池化在通道统计信息中嵌入全局信息;接着进行参数变换并进行sigmoid激活生成每个通道的特征权值,产生每个通道对应的注意力权重;通道注意力模块用于有选择地对每个通道的重要性进行加权,从而产生通道输出特征,如式(5);
利用位置注意力模块提供更多的位置信息,作为通道注意力模块的补充,首先对特征进行组归一化得到空间位置信息统计,使用参数变换以及sigmoid操作生成位置注意力结果,如式(6),然后将通道注意力模块与位置注意力模块连接,使得通道数与输入相同;
Figure DEST_PATH_IMAGE036
(5)
Figure DEST_PATH_IMAGE038
(6)
其中,
Figure DEST_PATH_IMAGE040
表示原始通道注意力特征,
Figure DEST_PATH_IMAGE041
表示原始位置注意力特征,
Figure DEST_PATH_IMAGE043
则表示对应变换的参数;
经过混合双注意力模块后经过实例核分支,在四组3×3卷积+GN+ReLu的重复模块以及一次3×3卷积后生成感知特征核。
5.根据权利要求1所述的单阶段实例图像分割方法,其特征在于:所述步骤S6中,实例特征核与掩码图动态卷积生成掩码分割结果,即将实例核分支结果与掩码分支结果进行动态卷积生成最终掩码
Figure DEST_PATH_IMAGE045
,其中
Figure DEST_PATH_IMAGE047
表示掩码核,
Figure DEST_PATH_IMAGE049
表示掩码分支生成结果。
6.根据权利要求1所述的单阶段实例图像分割方法,其特征在于:所述步骤S6中,超参数
Figure DEST_PATH_IMAGE006A
设置为0.76。
7.根据权利要求1所述的单阶段实例图像分割方法,其特征在于:所述步骤S6中,实例特征核通过与类别分支预测出的语义类别概率进行二部匹配得到最终的实例分割结果,还包括用于计算真值和预测的误差的方法,训练损失函数如式(9)所示:
Figure DEST_PATH_IMAGE051
(9)
其中,
Figure DEST_PATH_IMAGE053
是用于对象分类的focal loss,
Figure DEST_PATH_IMAGE055
是用于掩码生成的Dice Loss;计算真值和预测的误差,并通过反向传播,不断更新网络权重,使损失函数值不断降低,重复迭代直至收敛。
8.一种单阶段实例图像分割装置,其特征在于:包括
图像输入模块,用于输入待分割的图像;
图像特征信息提取模块,用于采用骨干网络ResNet+FPN提取多层次的图像特征信息,使用ResNet上四层的特征图C2、C3、C4以及C5,每层特征图通过1×1卷积后与上一层特征上采样后的特征图进行元素相加,构建自上而下的特征金字塔结构,接着每层再通过3×3卷积得到特征图P2、P3、P4以及P5;
自适应空间特征融合模块,用于将特征金字塔结构中的P3、P4、P5特征图融合上下文细粒度特征;
实例核模块,用于在划分成S×S个网格的增强特征图上预测出包含实例信息的特征核;
掩码模块,用于生成对应特征的掩码图,还用于将实例特征核与掩码图动态卷积生成掩码分割结果;
类别模块,用于生成实例语义类别分数和预测语义类别概率,还用于将实例特征核与语义类别概率进行二部匹配得到最终的实例分割结果;
混合双注意力模块,用于突出实例特征,增强实例核分支。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于:所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现权利要求1至7中任一项所述方法的步骤。
CN202211134330.0A 2022-09-19 2022-09-19 一种单阶段实例图像分割方法、装置以及计算机设备 Active CN115222946B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211134330.0A CN115222946B (zh) 2022-09-19 2022-09-19 一种单阶段实例图像分割方法、装置以及计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211134330.0A CN115222946B (zh) 2022-09-19 2022-09-19 一种单阶段实例图像分割方法、装置以及计算机设备

Publications (2)

Publication Number Publication Date
CN115222946A true CN115222946A (zh) 2022-10-21
CN115222946B CN115222946B (zh) 2022-11-25

Family

ID=83617184

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211134330.0A Active CN115222946B (zh) 2022-09-19 2022-09-19 一种单阶段实例图像分割方法、装置以及计算机设备

Country Status (1)

Country Link
CN (1) CN115222946B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116071374A (zh) * 2023-02-28 2023-05-05 华中科技大学 一种车道线实例分割方法及系统
CN116128734A (zh) * 2023-04-17 2023-05-16 湖南大学 一种基于深度学习的图像拼接方法、装置、设备和介质
CN117765378A (zh) * 2024-02-22 2024-03-26 成都信息工程大学 多尺度特征融合的复杂环境下违禁物品检测方法和装置
CN117877034A (zh) * 2024-01-08 2024-04-12 耕宇牧星(北京)空间科技有限公司 一种基于动态卷积增强的遥感图像实例分割方法及模型
CN118154884A (zh) * 2024-05-13 2024-06-07 山东锋士信息技术有限公司 一种基于样本混合和对比学习的弱监督图像语义分割方法
CN118230071A (zh) * 2024-05-22 2024-06-21 安徽大学 一种基于深度学习的摄像头脏污检测方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190057507A1 (en) * 2017-08-18 2019-02-21 Samsung Electronics Co., Ltd. System and method for semantic segmentation of images
CN112102321A (zh) * 2020-08-07 2020-12-18 深圳大学 一种基于深度卷积神经网络的病灶图像分割方法及系统
CN112989942A (zh) * 2021-02-09 2021-06-18 四川警察学院 一种基于交通监控视频的目标实例分割方法
CN113989499A (zh) * 2021-12-27 2022-01-28 智洋创新科技股份有限公司 一种基于人工智能的银行场景下智能报警方法
CN114372968A (zh) * 2021-12-31 2022-04-19 江南大学 结合注意力机制与自适应记忆性融合网络的瑕疵检测方法
CN114372949A (zh) * 2021-10-26 2022-04-19 桂林电子科技大学 基于改进YOLOv5算法的PCB表面缺陷检测方法
CN114419468A (zh) * 2022-01-26 2022-04-29 江西农业大学 一种结合注意力机制和空间特征融合算法的水田分割方法
CN114581670A (zh) * 2021-11-25 2022-06-03 哈尔滨工程大学 一种基于空间分布注意力的船舶实例分割方法
CN114998725A (zh) * 2022-05-17 2022-09-02 北京理工大学 基于自适应空谱注意力核生成网络的高光谱图像分类方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190057507A1 (en) * 2017-08-18 2019-02-21 Samsung Electronics Co., Ltd. System and method for semantic segmentation of images
CN112102321A (zh) * 2020-08-07 2020-12-18 深圳大学 一种基于深度卷积神经网络的病灶图像分割方法及系统
CN112989942A (zh) * 2021-02-09 2021-06-18 四川警察学院 一种基于交通监控视频的目标实例分割方法
CN114372949A (zh) * 2021-10-26 2022-04-19 桂林电子科技大学 基于改进YOLOv5算法的PCB表面缺陷检测方法
CN114581670A (zh) * 2021-11-25 2022-06-03 哈尔滨工程大学 一种基于空间分布注意力的船舶实例分割方法
CN113989499A (zh) * 2021-12-27 2022-01-28 智洋创新科技股份有限公司 一种基于人工智能的银行场景下智能报警方法
CN114372968A (zh) * 2021-12-31 2022-04-19 江南大学 结合注意力机制与自适应记忆性融合网络的瑕疵检测方法
CN114419468A (zh) * 2022-01-26 2022-04-29 江西农业大学 一种结合注意力机制和空间特征融合算法的水田分割方法
CN114998725A (zh) * 2022-05-17 2022-09-02 北京理工大学 基于自适应空谱注意力核生成网络的高光谱图像分类方法

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
ACHARYA B C等: "One-shot Object Detection and Segmentation Mask using Attention Localization", 《PROCEEDINGS OF 10TH IOE GRADUATE CONFERENCE》 *
CHEN SUMIN等: "SnipeDet: Attention-guided pyramidal prediction kernels for generic object detection", 《PATTERN RECOGNITION LETTERS》 *
LI X等: "Enhanced blind face restoration with multi-exemplar images and adaptive spatial feature fusion", 《PROCEEDINGS OF THE IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION》 *
LI Y等: "Attention-guided unified network for panoptic segmentation", 《PROCEEDINGS OF THE IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION》 *
SONGTAO LIU等: "Learning Spatial Fusion for Single-Shot Object Detection", 《ARXIV:1911.09516V2 [CS.CV]》 *
唐乾坤等: "基于注意力机制的单阶段目标检测锚点框部件感知特征表达", 《计算机辅助设计与图形学学报》 *
张绪义等: "基于轮廓点掩模细化的单阶段实例分割网络", 《光学学报》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116071374A (zh) * 2023-02-28 2023-05-05 华中科技大学 一种车道线实例分割方法及系统
CN116071374B (zh) * 2023-02-28 2023-09-12 华中科技大学 一种车道线实例分割方法及系统
CN116128734A (zh) * 2023-04-17 2023-05-16 湖南大学 一种基于深度学习的图像拼接方法、装置、设备和介质
CN117877034A (zh) * 2024-01-08 2024-04-12 耕宇牧星(北京)空间科技有限公司 一种基于动态卷积增强的遥感图像实例分割方法及模型
CN117765378A (zh) * 2024-02-22 2024-03-26 成都信息工程大学 多尺度特征融合的复杂环境下违禁物品检测方法和装置
CN117765378B (zh) * 2024-02-22 2024-04-26 成都信息工程大学 多尺度特征融合的复杂环境下违禁物品检测方法和装置
CN118154884A (zh) * 2024-05-13 2024-06-07 山东锋士信息技术有限公司 一种基于样本混合和对比学习的弱监督图像语义分割方法
CN118230071A (zh) * 2024-05-22 2024-06-21 安徽大学 一种基于深度学习的摄像头脏污检测方法

Also Published As

Publication number Publication date
CN115222946B (zh) 2022-11-25

Similar Documents

Publication Publication Date Title
CN115222946B (zh) 一种单阶段实例图像分割方法、装置以及计算机设备
WO2021244079A1 (zh) 智能家居环境中图像目标检测方法
CN111461110B (zh) 一种基于多尺度图像和加权融合损失的小目标检测方法
CN111259930B (zh) 自适应注意力指导机制的一般性目标检测方法
WO2021042828A1 (zh) 神经网络模型压缩的方法、装置、存储介质和芯片
CN107945204B (zh) 一种基于生成对抗网络的像素级人像抠图方法
CN111291809B (zh) 一种处理装置、方法及存储介质
CN114758288B (zh) 一种配电网工程安全管控检测方法及装置
CN111860398B (zh) 遥感图像目标检测方法、系统及终端设备
CN113705769A (zh) 一种神经网络训练方法以及装置
CN110991513B (zh) 一种具有类人连续学习能力的图像目标识别系统及方法
CN112348036A (zh) 基于轻量化残差学习和反卷积级联的自适应目标检测方法
CN112529146B (zh) 神经网络模型训练的方法和装置
CN111310604A (zh) 一种物体检测方法、装置以及存储介质
CN112927209B (zh) 一种基于cnn的显著性检测系统和方法
CN114782311B (zh) 一种基于CenterNet改进的多尺度缺陷目标检测方法及系统
CN111860683B (zh) 一种基于特征融合的目标检测方法
CN113191489B (zh) 二值神经网络模型的训练方法、图像处理方法和装置
CN114925320B (zh) 一种数据处理方法及相关装置
CN111967464A (zh) 一种基于深度学习的弱监督目标定位方法
CN115937774A (zh) 一种基于特征融合和语义交互的安检违禁品检测方法
CN111899203A (zh) 基于标注图在无监督训练下的真实图像生成方法及存储介质
CN113971764A (zh) 一种基于改进YOLOv3的遥感图像小目标检测方法
CN115222998A (zh) 一种图像分类方法
CN115410081A (zh) 一种多尺度聚合的云和云阴影辨识方法、系统、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20230627

Address after: 1101, 1102, 1103, 1104-A159, Building 12, Phase I, China Resources Land Plaza, 266 Dongliu Road, Changsha Economic and Technological Development Zone, Changsha City, 410000, Hunan Province

Patentee after: Hunan Yongwang Practical New Technology Research Institute

Address before: No. 219, Ningliu Road, Jiangbei New District, Nanjing City, Nanjing City, Jiangsu Province, 210032

Patentee before: Nanjing University of Information Science and Technology