CN115222946A - 一种单阶段实例图像分割方法、装置以及计算机设备 - Google Patents
一种单阶段实例图像分割方法、装置以及计算机设备 Download PDFInfo
- Publication number
- CN115222946A CN115222946A CN202211134330.0A CN202211134330A CN115222946A CN 115222946 A CN115222946 A CN 115222946A CN 202211134330 A CN202211134330 A CN 202211134330A CN 115222946 A CN115222946 A CN 115222946A
- Authority
- CN
- China
- Prior art keywords
- feature
- mask
- kernel
- branch
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 238000003709 image segmentation Methods 0.000 title claims abstract description 21
- 230000011218 segmentation Effects 0.000 claims abstract description 45
- 230000004927 fusion Effects 0.000 claims description 34
- 238000005070 sampling Methods 0.000 claims description 15
- 230000003044 adaptive effect Effects 0.000 claims description 12
- 230000009466 transformation Effects 0.000 claims description 10
- 230000006870 function Effects 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 7
- 230000004913 activation Effects 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 6
- 238000012549 training Methods 0.000 claims description 6
- 230000002708 enhancing effect Effects 0.000 claims description 3
- 239000000203 mixture Substances 0.000 claims description 3
- 238000011176 pooling Methods 0.000 claims description 3
- 239000013589 supplement Substances 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 2
- 238000013507 mapping Methods 0.000 claims description 2
- 238000007500 overflow downdraw method Methods 0.000 claims description 2
- 239000000047 product Substances 0.000 claims description 2
- 101000836150 Homo sapiens Transforming acidic coiled-coil-containing protein 3 Proteins 0.000 claims 1
- 102100027048 Transforming acidic coiled-coil-containing protein 3 Human genes 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 10
- 239000011159 matrix material Substances 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 230000000717 retained effect Effects 0.000 description 3
- 230000001629 suppression Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000009977 dual effect Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000012805 post-processing Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000005764 inhibitory process Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种单阶段实例图像分割方法、装置以及计算机设备,涉及图像实例分割技术领域,首先提取多层次的图像特征信息,为了更充分地利用高层特征的语义信息和底层特征的细粒度特征,引入自适应特征融合模块计算不同尺度特征权重并融合,将融合后的特征送入三个分支进行实例核预测和掩码分割以及语义类别预测,为了突出特征核的位置信息,引入混合双注意力机制筛选有效特征核,然后将生成掩码与特征核进行映射,根据实例的分类分数和相应的掩码,确定每个实例的类别与置信度,阈值筛选得到最终的分割结果,为了权衡模型分割的速度与精度,采用二部匹配的策略,避免矩阵非极大值抑制操作,大大提升了分割速度。
Description
技术领域
本发明涉及图像实例分割技术领域,特别是涉及一种单阶段实例图像分割方法、装置以及计算机设备。
背景技术
实例分割是经典的计算机视觉任务之一,旨在对图像前景目标中不同属类别的个体以及同属类别的不同个体进行像素级区分,从而保留不同实例之间的像素差异性;实例分割由于其分割结果与人眼观察的结果具有高相似度,已被广泛应用于多个领域,比如自动驾驶、虚拟现实场景建模、安防监控以及智慧医疗等等。
目前主流的实例分割方法遵循着两阶段的思路,即先建立实例的候选框,然后再根据候选框对像素进行标记,进行前景与背景的区分,这些方法在精度上取得了较大的提升,但由于其依赖多个分支计算,存在庞大的参数,会导致其难以应用在需要实时性分割的领域,例如自动驾驶以及边缘设备。
单阶段实例分割受单阶段目标检测的影响,通过直接预测每个对象实例的类别与分割掩码来简化检测与分割分支,然而单阶段实例分割提升分割速度的同时仍存在如下问题:1、实例分割依赖主干网络加特征金字塔的结构来学习多尺度特征,这种结构对大尺度目标敏感,上采样与下采样过程中容易造成大目标特征覆盖小目标特征;2、通过目标中心定位实例时,每个像素的感受域有限,从而导致上下文信息不足;3、处理大量生成掩码并进行矩阵非极大值抑制需要耗费大量的时间以及计算资源。
发明内容
为了解决以上技术问题,本发明提供一种单阶段实例图像分割方法,其特征在于:包括以下步骤
S1、输入图像;
S2、采用骨干网络ResNet+FPN提取多层次的图像特征信息,使用ResNet上四层的特征图C2、C3、C4以及C5,每层特征图通过1×1卷积后与上一层特征上采样后的特征图进行元素相加,构建自上而下的特征金字塔结构,接着每层再通过3×3卷积得到特征图P2、P3、P4以及P5;
S3、利用自适应空间特征融合模块将特征金字塔结构中的P3、P4、P5特征图融合上下文细粒度特征;
S4、设置并行的三个分支,分别为实例核分支、掩码分支以及类别分支,实例核分支用于在划分成S×S个网格的增强特征图上预测出包含实例信息的特征核;掩码分支用于生成对应特征的掩码图;类别分支用于生成实例语义类别分数和预测语义类别概率;
S5、利用混合双注意力模块突出实例特征,增强实例核分支,混合双注意力模块包括通道注意力模块和位置注意力模块;对组卷积后的特征图进行通道混合操作,使其通道重新打乱排序;将子特征分别送入通道注意力模块以及位置注意力模块,突出实例特征信息;
S6、实例特征核与掩码图动态卷积生成掩码分割结果,通过与类别分支预测出的语义类别概率进行二部匹配得到最终的实例分割结果;
类别分支将不同层级特征进行双线性上采样或下采样统一特征尺寸,将输入特征图像划分成S×S个网格,通过四组3×3卷积+GN+ReLu的重复模块,生成S×S个C维输出,C表示总类别数,对每个网格进行语义类别概率的预测;
提出了一个基于DICE的配对分数,如式(7)所示,用于在训练阶段分配正负样
本,以及为特征图的不同位置分配学习目标,其中i表示第i个预测对象,k表示k个ground-
truth对象,由分类分数和掩码的DICE系数决定,
其中,是超参数,用于平衡分类和分割的影响,表示第k个ground-truth实例的
类别标签,表示第i个预测的类别为的概率,分别表示第i个预测实例和第k个
ground-truth实例的掩码,DICE系数计算如式(8)所示:
S7、得到最终掩码结果以及对象分类结果,并将其映射至原图像输出最终实例分割图像。
本发明进一步限定的技术方案是:
进一步的,步骤S3中,自适应空间特征融合模块的融合方法包括以下步骤
S3.1、分别对特征金字塔输出的P2、P3以及P4进行统一尺寸,对P2统一尺寸时,将P3上采样、P4上采样与P2统一尺寸;对P3统一尺寸时,将P2下采样、P4上采样与P3统一尺寸;对P4统一尺寸时,将P2下采样、P3下采样与P4统一尺寸;
S3.2、对调整后的三个特征图进行1×1的卷积运算;
S3.3、将这三个特征图拼接后再通过1×1的卷积和softmax归一化得到对应权值α、β和γ;
S3.4、当为P2时,将对应权重分别与P4_resized、P3_resized和P2相乘;当为P3时,将对应权重分别与P4_resized、P2_resized和P3相乘;当为P4时,将对应权重分别与P3_resized、P2_resized和P4相乘;
S3.5、将上一步骤中三个相乘的结果相加得到新的融合特征,获得对应的自适应空间特征融合模块,自适应空间特征融合的计算方式如式(1)所示
前所述的单阶段实例图像分割方法,步骤S4中,掩码分支采用阶梯式特征对齐方式来生成对应特征的掩码图,包括以下步骤
S4.1、由P5、P4、P3、P2每三个相邻层级统一尺寸后进行融合得到P4´、P3´以及P2´;
S4.2、由P4´、P3´、P2´进行融合得到P3´´以及P2´´;
S4.3、将P3´´和P2´´元素相加后,再与进行八倍上采样后的包含坐标信息的P5层进行特征融合,得到最终的融合特征;
S4.4、融合特征依次通过1×1卷积、GN以及ReLu激活函数生成掩码特征图。
前所述的单阶段实例图像分割方法,步骤S5中,
通道注意力模块中,首先使用全局平均池化在通道统计信息中嵌入全局信息;接着进行参数变换并进行sigmoid激活生成每个通道的特征权值,产生每个通道对应的注意力权重;通道注意力模块用于有选择地对每个通道的重要性进行加权,从而产生通道输出特征,如式(5);
利用位置注意力模块提供更多的位置信息,作为通道注意力模块的补充,首先对特征进行组归一化得到空间位置信息统计,使用参数变换以及sigmoid操作生成位置注意力结果,如式(6),然后将通道注意力模块与位置注意力模块连接,使得通道数与输入相同;
经过混合双注意力模块后经过实例核分支,在四组3×3卷积+GN+ReLu的重复模块以及一次3×3卷积后生成感知特征核
前所述的单阶段实例图像分割方法,步骤S6中,超参数设置为0.76。
前所述的单阶段实例图像分割方法,步骤S6中,实例特征核通过与类别分支预测出的语义类别概率进行二部匹配得到最终的实例分割结果,还包括用于计算真值和预测的误差的方法,训练损失函数如式(9)所示:
本发明还提供一种单阶段实例图像分割装置,包括
图像输入模块,用于输入待分割的图像;
图像特征信息提取模块,用于采用骨干网络ResNet+FPN提取多层次的图像特征信息,使用ResNet上四层的特征图C2、C3、C4以及C5,每层特征图通过1×1卷积后与上一层特征上采样后的特征图进行元素相加,构建自上而下的特征金字塔结构,接着每层再通过3×3卷积得到特征图P2、P3、P4以及P5;
自适应空间特征融合模块,用于将特征金字塔结构中的P3、P4、P5特征图融合上下文细粒度特征;
实例核模块,用于在划分成S×S个网格的增强特征图上预测出包含实例信息的特征核;
掩码模块,用于生成对应特征的掩码图,还用于将实例特征核与掩码图动态卷积生成掩码分割结果;
类别模块,用于生成实例语义类别分数和预测语义类别概率,还用于将实例特征核与语义类别概率进行二部匹配得到最终的实例分割结果;
混合双注意力模块,用于突出实例特征,增强实例核分支。
本发明还提供一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现上述单阶段实例图像分割方法的步骤。
本发明还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述单阶段实例图像分割方法的步骤。
本发明的有益效果是:
(1)本发明,在实时实例分割任务中,提出了一种基于二部匹配和混合注意力机制的单阶段实例分割方法,特征金字塔网络初步提取的多层特征经过自适应空间特征融合模块,增强不同尺度特征的显著性,抑制背景噪声的影响,为了增强特征核位置敏感性与前景背景区分度,引入混合双注意力模块,突出每个前景对象的信息区域,使用二部匹配策略进行标签分配,代替计算量大的后处理操作,相对现有实例分割技术来说,有效提高了分割精度(+3.7%),并在推理速度上达到了34.6FPS,在精度和速度上优于其他单阶段实例分割方法,充分证明了该方法的有效性,利用匈牙利算法寻找真值目标与预测结果的最优匹配,避免了复杂的后处理工作,例如矩阵非极大值抑制、排序等,提升了模型推理速度,改善了正负样本不均衡的情况;
(2)本发明中,引入自适应特征融合模块计算不同尺度特征权重并融合,可以更充分地利用高层特征的语义信息和底层特征的细粒度特征,引入混合双注意力机制筛选有效特征核,可以突出特征核的位置信息,采用二部匹配的策略,可以权衡模型分割的速度与精度,避免矩阵非极大值抑制操作,大大提升了分割速度,从而改进目前单阶段实例分割的不足,在提升分割精度的同时,提升分割速度,实现速度与精度的均衡,减少模型参数量便于在边缘设备段部署;
(3)本发明适用于实时实例分割场景,通过自适应空间特征融合模块充分利用不同尺度特征,减少高层与底层之间的语义差异,从而改善了特征的比例不变性,更有效地抑制负样本干扰,为后续实例特征核预测、掩码生成、语义类别预测做准备;
(4)本发明中,对于实例核分支,其将特征图对其后划分为S×S个网格,通过卷积操作后生成特征核,对特征核影响最大的是如何判断量化的中心点位置以及物体大小,区分不同目标实例能够帮助实例核分支筛选有效特征核,本发明提出的混合双注意力机制,对组卷积后的特征图进行通道混合操作,帮助信息在不同通道间流通,然后利用通道以及位置注意力,凸显实例核信息。
附图说明
图1为本发明的单阶段实例分割方法流程图;
图2为本发明中自适应空间特征融合模块的结构图;
图3为本发明中混合双注意力模块的结构图;
图4为本发明的掩码分支流程图。
具体实施方式
本实施例提供的一种单阶段实例图像分割方法,如图1所示,首先采用骨干网络ResNet+FPN用于提取多层次的图像特征信息,使用ResNet上四层的特征图(C2-C5),每层通过1×1卷积核后与上一层特征上采样后的特征图进行元素相加操作,构建自上而下的特征金字塔结构,最后每层通过3×3卷积得到特征图(P2-P5);将特征金字塔中P3、P4、P5层次利用自适应空间特征融合模块融合上下文细粒度特征,增强感受野;设置并行的三个分支,分别为实例核分支、掩码分支以及类别分支,分别用于特征核预测、掩码生成、语义类别预测;实例核分支在划分成S×S个网格的增强特征图上预测出包含实例信息的特征核,并与掩码分支中生成的掩码进行动态卷积操作,其根据输入特征,自适应地调整卷积参数生成掩码分割结果;类别分支生成实例语义类别分数;本发明端到端的获得N个实例的分类分数和相应的掩码,通过二值匹配生成最优的实例分割结果。
为了更加充分的利用高层特征的语义信息和底层特征的细粒度特征,很多网络都会采用特征金字塔的方式输出多层特征,现有模型一般使用直接连接或者相加的方式,这样并不能充分的利用不同尺度的特征。
如图2所示,本发明利用自适应空间特征融合(ASFF)模块计算不同尺度特征权重并融合,通过为每个融合的特征图设置自适应权值来进行加权融合,能够保留该层特有尺度信息,突出相邻层次有效特征,能够有效抑制负样本的干扰。
将特征金字塔输出的P2、P3、P4进行统一尺寸,以P3为例,将P2下采样、P4上采样与P3统一尺寸(对P2统一尺寸时,将P3上采样、P4上采样与P2统一尺寸;对P4统一尺寸时,将P2下采样、P3下采样与P4统一尺寸),对调整后的三个特征图进行1×1的卷积运算,然后将这三个特征图拼接后再通过1×1的卷积、softmax归一化得到对应权值α、β和γ,将对应权重分别与P4_resized、P2_resized和P3相乘(当为P2时,将对应权重分别与P4_resized、P3_resized和P2相乘;当为P4时,将对应权重分别与P3_resized、P2_resized和P4相乘),然后将这三个结果相加得到新的融合特征,自适应空间特征融合(ASFF)的计算方式如式(1)所示;以此为例,对P2、P3、P4分别进行上述操作获得对应的自适应空间特征融合(ASFF)模块。
在特征图中影响最大的是如何判断量化的中心点位置和物体大小,区分不同目标实例,能够帮助实例核分支筛选有效内核,常见的捕获通道与位置依赖关系的注意力模会带来太多的参数,不利于在速度和精度之间进行权衡。
如图3所示,本发明采用混合双注意力模块突出实例特征,增强实例核分支,对组卷积后的特征图进行通道混合操作,使其通道重新打乱排序,帮助信息在不同特征通道间流动,将子特征分别送入通道注意力模块以及位置注意力模块,突出实例特征信息。
通道注意力模块中,首先使用全局平均池化在通道统计信息中嵌入全局信息,然后进行参数变换并进行sigmoid激活生成每个通道的特征权值,产生每个通道对应的注意力权重,通道注意模块用于有选择地对每个通道的重要性进行加权,从而产生通道输出特征,如式(5)。
同时利用位置注意力提供更多的位置信息,作为通道注意力的补充,首先对特征进行组归一化得到空间位置信息统计,使用参数变换以及sigmoid操作生成位置注意力结果,如式(6),然后将两个分支连接起来,使得通道数与输入相同。
经过双混合注意力模块后经过实例核分支,在四组3×3卷积+GN+ReLu的重复模块以及一次3×3卷积后生成感知特征核。
原SOLOv2模型中采用最简单的特征对齐方式,将不同尺度的特征通过不同次数的上采样和卷积操作对齐至掩码尺寸,该方式不利于各个尺度信息在不同特征层级流动。
如图4所示,本发明中采用阶梯式特征对齐方式,加强了特征间信息的融合,并且对P5层进行CoordConv操作,串入两个坐标通道,将空间信息保留至掩码特征中,本发明掩码分支中包含三个阶段操作,第一阶段由P5、P4、P3、P2每三个相邻层级统一尺寸后进行融合得到P4´、P3´、P2´,第二阶段由P4´、P3´、P2´融合得到P3´´、P2´´,第三阶段P3´´、P2´´元素相加后再与进行八倍上采样后的包含坐标信息的P5层进行特征融合得到最终的融合特征,融合特征P2´´´保留了多尺度信息,加强特征间信息的融合,有利于生成高质量的特征掩码。
类别分支将不同层级特征进行双线性上采样或下采样统一特征尺寸,将输入特征图像划分成S×S个网格,通过四组3×3卷积+GN+ReLu的重复模块,生成S×S个C维输出,C表示总类别数,对每个网格进行语义类别概率的预测。
为在训练阶段高效分配正负样本,为特征图不同位置分配合适的学习目标,本发
明提出了一个基于DICE的配对分数,如式(7)所示,其中i与k表示第i个预测对象,k个
ground-truth对象,由分类分数和掩码的DICE系数决定。
其中,是超参数,以平衡分类和分割的影响,本发明中设置为0.76,表示第k个
ground-truth实例的类别标签,表示第i个预测的类别为的概率,分别表示第i
个预测实例和第k个ground-truth,DICE系数计算如式(8)所示:
然后,本发明采用匈牙利算法依据基于DICE的配对分数寻找K个ground-truth实例与N个预测结果之间的最优匹配,本发明无需矩阵非极大值抑制操作或排序操作即可得到最终掩码结果以及对象分类结果,并将其映射至原图像输出最终实例分割图像。
训练损失函数如式(9)所示
除上述实施例外,本发明还可以有其他实施方式。凡采用等同替换或等效变换形成的技术方案,均落在本发明要求的保护范围。
Claims (10)
1.一种单阶段实例图像分割方法,其特征在于:包括以下步骤
S1、输入图像;
S2、采用骨干网络ResNet+FPN提取多层次的图像特征信息,使用ResNet上四层的特征图C2、C3、C4以及C5,每层特征图通过1×1卷积后与上一层特征上采样后的特征图进行元素相加,构建自上而下的特征金字塔结构,接着每层再通过3×3卷积得到特征图P2、P3、P4以及P5;
S3、利用自适应空间特征融合模块将特征金字塔结构中的P3、P4、P5特征图融合上下文细粒度特征;
S4、设置并行的三个分支,分别为实例核分支、掩码分支以及类别分支,实例核分支用于在划分成S×S个网格的增强特征图上预测出包含实例信息的特征核;掩码分支用于生成对应特征的掩码图;类别分支用于生成实例语义类别分数和预测语义类别概率;
S5、利用混合双注意力模块突出实例特征,增强实例核分支,混合双注意力模块包括通道注意力模块和位置注意力模块;对组卷积后的特征图进行通道混合操作,使其通道重新打乱排序;将子特征分别送入通道注意力模块以及位置注意力模块,突出实例特征信息;
S6、实例特征核与掩码图动态卷积生成掩码分割结果,通过与类别分支预测出的语义类别概率进行二部匹配得到最终的实例分割结果;
类别分支将不同层级特征进行双线性上采样或下采样统一特征尺寸,将输入特征图像划分成S×S个网格,通过四组3×3卷积+GN+ReLu的重复模块,生成S×S个C维输出,C表示总类别数,对每个网格进行语义类别概率的预测;
提出了一个基于DICE的配对分数,如式(7)所示,用于在训练阶段分配正负样本,以及为特征图的不同位置分配学习目标,其中i表示第i个预测对象,k表示k个ground-truth对象,由分类分数和掩码的DICE系数决定,
其中,是超参数,用于平衡分类和分割的影响,表示第k个ground-truth实例的类别标签,表示第i个预测的类别为的概率,分别表示第i个预测实例和第k个ground-truth实例的掩码,DICE系数计算如式(8)所示:
S7、得到最终掩码结果以及对象分类结果,并将其映射至原图像输出最终实例分割图像。
2.根据权利要求1所述的单阶段实例图像分割方法,其特征在于:所述步骤S3中,自适应空间特征融合模块的融合方法包括以下步骤
S3.1、分别对特征金字塔输出的P2、P3以及P4进行统一尺寸,对P2统一尺寸时,将P3上采样、P4上采样与P2统一尺寸;对P3统一尺寸时,将P2下采样、P4上采样与P3统一尺寸;对P4统一尺寸时,将P2下采样、P3下采样与P4统一尺寸;
S3.2、对调整后的三个特征图进行1×1的卷积运算;
S3.3、将这三个特征图拼接后再通过1×1的卷积和softmax归一化得到对应权值α、β和γ;
S3.4、当为P2时,将对应权重分别与P4_resized、P3_resized和P2相乘;当为P3时,将对应权重分别与P4_resized、P2_resized和P3相乘;当为P4时,将对应权重分别与P3_resized、P2_resized和P4相乘;
S3.5、将上一步骤中三个相乘的结果相加得到新的融合特征,获得对应的自适应空间特征融合模块,自适应空间特征融合的计算方式如式(1)所示
3.根据权利要求1所述的单阶段实例图像分割方法,其特征在于:所述步骤S4中,掩码分支采用阶梯式特征对齐方式来生成对应特征的掩码图,包括以下步骤
S4.1、由P5、P4、P3、P2每三个相邻层级统一尺寸后进行融合得到P4´、P3´以及P2´;
S4.2、由P4´、P3´、P2´进行融合得到P3´´以及P2´´;
S4.3、将P3´´和P2´´元素相加后,再与进行八倍上采样后的包含坐标信息的P5层进行特征融合,得到最终的融合特征;
S4.4、融合特征依次通过1×1卷积、GN以及ReLu激活函数生成掩码特征图。
4.根据权利要求1所述的单阶段实例图像分割方法,其特征在于:所述步骤S5中,
通道注意力模块中,首先使用全局平均池化在通道统计信息中嵌入全局信息;接着进行参数变换并进行sigmoid激活生成每个通道的特征权值,产生每个通道对应的注意力权重;通道注意力模块用于有选择地对每个通道的重要性进行加权,从而产生通道输出特征,如式(5);
利用位置注意力模块提供更多的位置信息,作为通道注意力模块的补充,首先对特征进行组归一化得到空间位置信息统计,使用参数变换以及sigmoid操作生成位置注意力结果,如式(6),然后将通道注意力模块与位置注意力模块连接,使得通道数与输入相同;
经过混合双注意力模块后经过实例核分支,在四组3×3卷积+GN+ReLu的重复模块以及一次3×3卷积后生成感知特征核。
8.一种单阶段实例图像分割装置,其特征在于:包括
图像输入模块,用于输入待分割的图像;
图像特征信息提取模块,用于采用骨干网络ResNet+FPN提取多层次的图像特征信息,使用ResNet上四层的特征图C2、C3、C4以及C5,每层特征图通过1×1卷积后与上一层特征上采样后的特征图进行元素相加,构建自上而下的特征金字塔结构,接着每层再通过3×3卷积得到特征图P2、P3、P4以及P5;
自适应空间特征融合模块,用于将特征金字塔结构中的P3、P4、P5特征图融合上下文细粒度特征;
实例核模块,用于在划分成S×S个网格的增强特征图上预测出包含实例信息的特征核;
掩码模块,用于生成对应特征的掩码图,还用于将实例特征核与掩码图动态卷积生成掩码分割结果;
类别模块,用于生成实例语义类别分数和预测语义类别概率,还用于将实例特征核与语义类别概率进行二部匹配得到最终的实例分割结果;
混合双注意力模块,用于突出实例特征,增强实例核分支。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于:所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现权利要求1至7中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211134330.0A CN115222946B (zh) | 2022-09-19 | 2022-09-19 | 一种单阶段实例图像分割方法、装置以及计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211134330.0A CN115222946B (zh) | 2022-09-19 | 2022-09-19 | 一种单阶段实例图像分割方法、装置以及计算机设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115222946A true CN115222946A (zh) | 2022-10-21 |
CN115222946B CN115222946B (zh) | 2022-11-25 |
Family
ID=83617184
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211134330.0A Active CN115222946B (zh) | 2022-09-19 | 2022-09-19 | 一种单阶段实例图像分割方法、装置以及计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115222946B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116071374A (zh) * | 2023-02-28 | 2023-05-05 | 华中科技大学 | 一种车道线实例分割方法及系统 |
CN116128734A (zh) * | 2023-04-17 | 2023-05-16 | 湖南大学 | 一种基于深度学习的图像拼接方法、装置、设备和介质 |
CN117765378A (zh) * | 2024-02-22 | 2024-03-26 | 成都信息工程大学 | 多尺度特征融合的复杂环境下违禁物品检测方法和装置 |
CN117877034A (zh) * | 2024-01-08 | 2024-04-12 | 耕宇牧星(北京)空间科技有限公司 | 一种基于动态卷积增强的遥感图像实例分割方法及模型 |
CN118154884A (zh) * | 2024-05-13 | 2024-06-07 | 山东锋士信息技术有限公司 | 一种基于样本混合和对比学习的弱监督图像语义分割方法 |
CN118230071A (zh) * | 2024-05-22 | 2024-06-21 | 安徽大学 | 一种基于深度学习的摄像头脏污检测方法 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190057507A1 (en) * | 2017-08-18 | 2019-02-21 | Samsung Electronics Co., Ltd. | System and method for semantic segmentation of images |
CN112102321A (zh) * | 2020-08-07 | 2020-12-18 | 深圳大学 | 一种基于深度卷积神经网络的病灶图像分割方法及系统 |
CN112989942A (zh) * | 2021-02-09 | 2021-06-18 | 四川警察学院 | 一种基于交通监控视频的目标实例分割方法 |
CN113989499A (zh) * | 2021-12-27 | 2022-01-28 | 智洋创新科技股份有限公司 | 一种基于人工智能的银行场景下智能报警方法 |
CN114372968A (zh) * | 2021-12-31 | 2022-04-19 | 江南大学 | 结合注意力机制与自适应记忆性融合网络的瑕疵检测方法 |
CN114372949A (zh) * | 2021-10-26 | 2022-04-19 | 桂林电子科技大学 | 基于改进YOLOv5算法的PCB表面缺陷检测方法 |
CN114419468A (zh) * | 2022-01-26 | 2022-04-29 | 江西农业大学 | 一种结合注意力机制和空间特征融合算法的水田分割方法 |
CN114581670A (zh) * | 2021-11-25 | 2022-06-03 | 哈尔滨工程大学 | 一种基于空间分布注意力的船舶实例分割方法 |
CN114998725A (zh) * | 2022-05-17 | 2022-09-02 | 北京理工大学 | 基于自适应空谱注意力核生成网络的高光谱图像分类方法 |
-
2022
- 2022-09-19 CN CN202211134330.0A patent/CN115222946B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190057507A1 (en) * | 2017-08-18 | 2019-02-21 | Samsung Electronics Co., Ltd. | System and method for semantic segmentation of images |
CN112102321A (zh) * | 2020-08-07 | 2020-12-18 | 深圳大学 | 一种基于深度卷积神经网络的病灶图像分割方法及系统 |
CN112989942A (zh) * | 2021-02-09 | 2021-06-18 | 四川警察学院 | 一种基于交通监控视频的目标实例分割方法 |
CN114372949A (zh) * | 2021-10-26 | 2022-04-19 | 桂林电子科技大学 | 基于改进YOLOv5算法的PCB表面缺陷检测方法 |
CN114581670A (zh) * | 2021-11-25 | 2022-06-03 | 哈尔滨工程大学 | 一种基于空间分布注意力的船舶实例分割方法 |
CN113989499A (zh) * | 2021-12-27 | 2022-01-28 | 智洋创新科技股份有限公司 | 一种基于人工智能的银行场景下智能报警方法 |
CN114372968A (zh) * | 2021-12-31 | 2022-04-19 | 江南大学 | 结合注意力机制与自适应记忆性融合网络的瑕疵检测方法 |
CN114419468A (zh) * | 2022-01-26 | 2022-04-29 | 江西农业大学 | 一种结合注意力机制和空间特征融合算法的水田分割方法 |
CN114998725A (zh) * | 2022-05-17 | 2022-09-02 | 北京理工大学 | 基于自适应空谱注意力核生成网络的高光谱图像分类方法 |
Non-Patent Citations (7)
Title |
---|
ACHARYA B C等: "One-shot Object Detection and Segmentation Mask using Attention Localization", 《PROCEEDINGS OF 10TH IOE GRADUATE CONFERENCE》 * |
CHEN SUMIN等: "SnipeDet: Attention-guided pyramidal prediction kernels for generic object detection", 《PATTERN RECOGNITION LETTERS》 * |
LI X等: "Enhanced blind face restoration with multi-exemplar images and adaptive spatial feature fusion", 《PROCEEDINGS OF THE IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION》 * |
LI Y等: "Attention-guided unified network for panoptic segmentation", 《PROCEEDINGS OF THE IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION》 * |
SONGTAO LIU等: "Learning Spatial Fusion for Single-Shot Object Detection", 《ARXIV:1911.09516V2 [CS.CV]》 * |
唐乾坤等: "基于注意力机制的单阶段目标检测锚点框部件感知特征表达", 《计算机辅助设计与图形学学报》 * |
张绪义等: "基于轮廓点掩模细化的单阶段实例分割网络", 《光学学报》 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116071374A (zh) * | 2023-02-28 | 2023-05-05 | 华中科技大学 | 一种车道线实例分割方法及系统 |
CN116071374B (zh) * | 2023-02-28 | 2023-09-12 | 华中科技大学 | 一种车道线实例分割方法及系统 |
CN116128734A (zh) * | 2023-04-17 | 2023-05-16 | 湖南大学 | 一种基于深度学习的图像拼接方法、装置、设备和介质 |
CN117877034A (zh) * | 2024-01-08 | 2024-04-12 | 耕宇牧星(北京)空间科技有限公司 | 一种基于动态卷积增强的遥感图像实例分割方法及模型 |
CN117765378A (zh) * | 2024-02-22 | 2024-03-26 | 成都信息工程大学 | 多尺度特征融合的复杂环境下违禁物品检测方法和装置 |
CN117765378B (zh) * | 2024-02-22 | 2024-04-26 | 成都信息工程大学 | 多尺度特征融合的复杂环境下违禁物品检测方法和装置 |
CN118154884A (zh) * | 2024-05-13 | 2024-06-07 | 山东锋士信息技术有限公司 | 一种基于样本混合和对比学习的弱监督图像语义分割方法 |
CN118230071A (zh) * | 2024-05-22 | 2024-06-21 | 安徽大学 | 一种基于深度学习的摄像头脏污检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN115222946B (zh) | 2022-11-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115222946B (zh) | 一种单阶段实例图像分割方法、装置以及计算机设备 | |
WO2021244079A1 (zh) | 智能家居环境中图像目标检测方法 | |
CN111461110B (zh) | 一种基于多尺度图像和加权融合损失的小目标检测方法 | |
CN111259930B (zh) | 自适应注意力指导机制的一般性目标检测方法 | |
WO2021042828A1 (zh) | 神经网络模型压缩的方法、装置、存储介质和芯片 | |
CN107945204B (zh) | 一种基于生成对抗网络的像素级人像抠图方法 | |
CN111291809B (zh) | 一种处理装置、方法及存储介质 | |
CN114758288B (zh) | 一种配电网工程安全管控检测方法及装置 | |
CN111860398B (zh) | 遥感图像目标检测方法、系统及终端设备 | |
CN113705769A (zh) | 一种神经网络训练方法以及装置 | |
CN110991513B (zh) | 一种具有类人连续学习能力的图像目标识别系统及方法 | |
CN112348036A (zh) | 基于轻量化残差学习和反卷积级联的自适应目标检测方法 | |
CN112529146B (zh) | 神经网络模型训练的方法和装置 | |
CN111310604A (zh) | 一种物体检测方法、装置以及存储介质 | |
CN112927209B (zh) | 一种基于cnn的显著性检测系统和方法 | |
CN114782311B (zh) | 一种基于CenterNet改进的多尺度缺陷目标检测方法及系统 | |
CN111860683B (zh) | 一种基于特征融合的目标检测方法 | |
CN113191489B (zh) | 二值神经网络模型的训练方法、图像处理方法和装置 | |
CN114925320B (zh) | 一种数据处理方法及相关装置 | |
CN111967464A (zh) | 一种基于深度学习的弱监督目标定位方法 | |
CN115937774A (zh) | 一种基于特征融合和语义交互的安检违禁品检测方法 | |
CN111899203A (zh) | 基于标注图在无监督训练下的真实图像生成方法及存储介质 | |
CN113971764A (zh) | 一种基于改进YOLOv3的遥感图像小目标检测方法 | |
CN115222998A (zh) | 一种图像分类方法 | |
CN115410081A (zh) | 一种多尺度聚合的云和云阴影辨识方法、系统、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20230627 Address after: 1101, 1102, 1103, 1104-A159, Building 12, Phase I, China Resources Land Plaza, 266 Dongliu Road, Changsha Economic and Technological Development Zone, Changsha City, 410000, Hunan Province Patentee after: Hunan Yongwang Practical New Technology Research Institute Address before: No. 219, Ningliu Road, Jiangbei New District, Nanjing City, Nanjing City, Jiangsu Province, 210032 Patentee before: Nanjing University of Information Science and Technology |