CN112364870A - 一种基于特征和谐激活的小样本语义分割方法 - Google Patents
一种基于特征和谐激活的小样本语义分割方法 Download PDFInfo
- Publication number
- CN112364870A CN112364870A CN202011139920.3A CN202011139920A CN112364870A CN 112364870 A CN112364870 A CN 112364870A CN 202011139920 A CN202011139920 A CN 202011139920A CN 112364870 A CN112364870 A CN 112364870A
- Authority
- CN
- China
- Prior art keywords
- activation
- feature
- query
- small sample
- segmentation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000004913 activation Effects 0.000 title claims abstract description 124
- 230000011218 segmentation Effects 0.000 title claims abstract description 111
- 238000000034 method Methods 0.000 title claims abstract description 79
- 238000012549 training Methods 0.000 claims abstract description 23
- 230000008569 process Effects 0.000 claims abstract description 22
- 230000003213 activating effect Effects 0.000 claims abstract description 3
- 238000000354 decomposition reaction Methods 0.000 claims description 29
- 239000013598 vector Substances 0.000 claims description 24
- 239000011159 matrix material Substances 0.000 claims description 21
- 238000000605 extraction Methods 0.000 claims description 16
- 230000004927 fusion Effects 0.000 claims description 13
- 238000010586 diagram Methods 0.000 claims description 7
- 230000001902 propagating effect Effects 0.000 claims description 3
- 238000010998 test method Methods 0.000 claims 1
- 238000012360 testing method Methods 0.000 description 14
- 239000010410 layer Substances 0.000 description 8
- 239000004576 sand Substances 0.000 description 8
- 238000003709 image segmentation Methods 0.000 description 7
- 230000008901 benefit Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 4
- 230000006872 improvement Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000002372 labelling Methods 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 239000002356 single layer Substances 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000012804 iterative process Methods 0.000 description 2
- FKOQWAUFKGFWLH-UHFFFAOYSA-M 3,6-bis[2-(1-methylpyridin-1-ium-4-yl)ethenyl]-9h-carbazole;diiodide Chemical compound [I-].[I-].C1=C[N+](C)=CC=C1C=CC1=CC=C(NC=2C3=CC(C=CC=4C=C[N+](C)=CC=4)=CC=2)C3=C1 FKOQWAUFKGFWLH-UHFFFAOYSA-M 0.000 description 1
- 101100295091 Arabidopsis thaliana NUDT14 gene Proteins 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
- 238000005303 weighing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于特征和谐激活的小样本语义分割方法、小样本语义分割系统及计算机可读存储介质,所述方法包括训练分割模型用以进行语义分割的过程,分割模型训练过程包括以下步骤:对支撑图片和查询图片进行特征提取;对支撑特征和查询特征进行融合,获得中间特征激活图;对中间特征激活图进行更新,获得特征和谐激活图;对特征和谐激活图进行语义分割,获得查询图片的分割图。本发明所公开的基于特征和谐激活的小样本语义分割方法,在充分保留支撑和查询特征中细节信息的同时,将查询特征中的目标类别进行了准确而完整的激活。
Description
技术领域
本发明属于计算机视觉技术领域,具体涉及一种基于特征和谐激活的小样本语义分割方法,利用少量带标注的支撑样本对无标注的查询样本进行语义分割。
背景技术
深度学习在视觉、文字、语音、搜索等领域取得了巨大的进展,很大程度上得益于大量带标注的数据集。但是,数据集的标注需要耗费大量的人力物力,尤其是语义分割任务,其数据集需要像素级别的稠密标注,成本非常高昂。小样本学习可以通过学习少量带标注的数据,快速学习并优化模型,在很大程度上缓解了标注成本的问题。
小样本语义分割,首先将模型在一定量带标注的数据上进行特征提取学习,使得模型具有一定的特征表达能力;然后利用支撑集提供的少量图片,实现对查询集图片的准确分割。
目前,主流的小样本语义分割方法是基于度量学习框架,其主要做法是:将支撑图像中目标类别特征压缩为向量,作为目标类别的表征;然后利用此向量与查询特征空间位置上所有像素进行比对,依据其相似度来进行查询图像的分割。
但是,将目标类别特征压缩为语义向量的做法会丢失很多细节信息,同时,将语义向量和查询特征比对会导致支撑和查询特征元素中间交互不充分,使得查询特征中的目标类别特征不能很好地被激活,从而产生类别错分,分割不完整的问题。
因此,有必要提供一种小样本语义分割方法,其能够充分保留支撑和查询特征中的细节信息,且能够将查询特征中的目标类别进行准确而完整的激活。
发明内容
为了克服上述问题,本发明人进行了锐意研究,提出了一种基于特征和谐激活的小样本语义分割方法,对少量带标注的支持图像和查询图像提取特征,利用双线性特征激活模型和语义传播模型将支撑特征和查询特征进行融合,实现对查询图的和谐特征激活,并将目标类别准确分割。利用特征和谐激活的方法,在充分保留支撑和查询特征中细节信息的同时,将查询特征中的目标类别进行了准确而完整的激活,从而完成了本发明。
具体来说,本发明的目的在于提供以下方面:
第一方面,提供一种基于特征和谐激活的小样本语义分割方法,所述方法包括训练分割模型用以进行语义分割的过程,分割模型训练过程包括以下步骤:
步骤1,对支撑图片和查询图片进行特征提取;
步骤2,对支撑特征和查询特征进行融合,获得中间特征激活图;
步骤3,对中间特征激活图进行更新,获得特征和谐激活图;
步骤4,对特征和谐激活图进行语义分割,获得查询图片的分割图。
第二方面,提供一种小样本语义分割系统,优选用于实施第一方面所述的方法,所述系统包括特征提取单元、特征激活单元、语义传播单元和分割单元,其中,
特征提取单元,用于支撑图片和查询图片进行特征提取;
特征激活单元,用于引导支撑特征对查询特征进行激活,获得中间特征激活图;
语义传播单元,用于对中间特征激活图进行传播更新,获得特征和谐激活图;
分割单元,用于对特征和谐激活图进行语义分割,获得查询图片的分割图。
第三方面,提供一种计算机可读存储介质,其中,所述计算机可读存储介质上存储有小样本语义分割程序,所述小样本语义分割程序被处理器执行时实现上述基于特征和谐激活的小样本语义分割方法。
本发明所具有的有益效果包括:
(1)本发明提供的基于特征和谐激活的小样本语义分割方法,仅需少量数据标注,降低了数据标注成本;
(2)本发明提供的基于特征和谐激活的小样本语义分割方法,基于双线性特征激活和语义传播,充分融合支撑和查询图的信息,并利用查询图自身的结构信息,提高了神经网络对查询图像的分割精度;
(3)本发明提供的基于特征和谐激活的小样本语义分割方法,采用低秩矩阵分解的方法对双线性特征激活进行近似,在大大提高激活效率的同时,保证了特征激活的效果;
(4)本发明提供的基于特征和谐激活的小样本语义分割方法,在PASCAL VOC和MSCOCO两大主流数据集上取得了当前最高的性能,对小样本学习、语义分割等有重要意义,对遥感图像分割、医学图像分割和自然场景图像分割等领域具有应用价值。
附图说明
图1示出本发明所述小样本语义分割方法的流程图;
图2示出根据本发明一种优选实施方式的双线性特征激活流程图;
图3示出根据本发明一种优选实施方式的融合张量的初步分解示意图;
图4示出根据本发明一种优选实施方式的语义传播的流程图;
图5示出本发明所述方法在PASCAL VOC数据集各类别性能提升柱状图;
图6示出本发明所述方法的分解矩阵秩和mIoU的关系图;
图7示出本发明所述方法在PASCAL VOC数据集上的结果可视化图。
具体实施方式
下面通过优选实施方式和实施例对本发明进一步详细说明。通过这些说明,本发明的特点和优点将变得更为清楚明确。
在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。
本发明提供了一种基于特征和谐激活的小样本语义分割方法,所述方法包括训练分割模型用以进行语义分割的过程,分割模型训练过程包括以下步骤,如图1所示:
步骤1,对支撑图片和查询图片进行特征提取;
步骤2,对支撑特征和查询特征进行融合,获得中间特征激活图;
步骤3,对中间特征激活图进行更新,获得特征和谐激活图;
步骤4,对特征和谐激活图进行语义分割,获得查询图片的分割图。
以下进一步描述所述分割模型训练过程:
步骤1,对支撑图片和查询图片进行特征提取。
根据本发明一种优选的实施方式,所述支撑图片与查询图片中的目标具有相同类别,
优选查询图片为一张,支撑图片为一张或多张,以利用支撑图片及标注来引导查询图片的分割。
其中,采用卷积神经网络对支撑图片和查询图片进行特征提取,例如可以采用VGG-16或者ResNet-50作为基础网络,支撑分支和查询分支共享网络参数。
优选地,在利用VGG-16网络提取特征时,采用其block3输出的特征,维度为512维;在利用ResNet-50网络提取特征时,采用其stage2和stage3的特征输出,将两个stage输出的特征在通道上进行合并,然后输入卷积核大小为3×3的单层卷积,得到输出特征图,其维度为256维。
步骤2,对支撑特征和查询特征进行融合,获得中间特征激活图。
在本发明中,步骤1中获得的支撑图和查询图的维度分别为H*W*Ds和H*W*Dq,其中,H和W分别表示特征图的高度和宽度,Ds和Dq则分别表示支撑特征图的通道数和查询特征图的通道数。对其进行二维重构,分别得到fs和fq,其维度分别为HW*Ds和HW*Dq。
根据本发明一种优选的实施方式,如图2所示,利用双线性特征激活模型引导支撑特征对查询特征进行激活,获得中间特征激活图,
其中,所述双线性特征激活模型为利用融合张量将支撑特征和查询特征进行融合,如下式(一)所示:
A=T×1fs×2fq(一)
其中,A表示激活特征,T表示融合张量,其维度为Ds*Dq*Do,×i(i=1,2)表示张量和矩阵之间的i模乘法,fs表示重构后的支撑特征,fq表示重构后的查询特征。
在本发明中,采用双线性模型进行融合,相较于现有技术中的线性融合,具有特征细节信息丢失少,融合特征交互充分,特征激活更加准确完整的优点。
优选地,所述中间特征激活图的获得包括以下步骤:
步骤2-1,对支撑特征和查询特征进行精细语义信息提取。
本发明人发现,采用上述双线性模型进行特征融合时维度较高,为了在获得支撑特征和查询特征的精细语义信息的同时,不过度增加模型的参数和计算量,我们需要对融合张量T进行分解近似,利用分解得到的向量来编码支撑特征和查询特征并提取其中的语义信息。
根据本发明一种优选的实施方式,所述分解近似包括初步分解和再次分解,
其中,如图3所示,所述初步分解为对融合张量T进行Tucker分解,优选按照下式(二)进行:
T=τ×1Ms×2Mq×3Mo(二)
其中,τ表示核心张量,维度为ts*tq*to;Ms,Mq,Mo为二维矩阵,Ms维度为Ds*ts;Mq维度为Dq*tq;Mo维度为Do*to。
其中,将T进行初步分解后,式(一)可以表示为:
A=τ×1(Msfs)×2(Mqfq)×3Mo
如图2中所示,重构后的支撑特征fs和重构后的查询特征fq分别通过二维矩阵Ms和Mq,降维至维度分别为HW*ts和HW*tq。
在本发明中,通过对融合张量T进行Tucker分解,得到一个更小的核心张量和三个二维矩阵,由于核心张量仍然为三维,需要进行再次分解。
其中,根据分解获得的列向量和行向量,分别与降维至维度分别为HW*ts和HW*tq的支撑特征和查询特征相乘,可以获得支撑语义向量和查询语义向量。
步骤2-2,对支撑特征和查询特征进行相似语义信息激活,获得激活置信图。
根据本发明一种优选的实施方式,将步骤2-1获得的支撑语义向量和查询语义向量,相互计算外积,然后在第一个维度上进行拼接,在第二个维度上进行求和,进行相似语义信息的激活,获得激活置信图。
其中,支撑特征和查询特征在与二维矩阵及行向量、列向量相乘之后,相互计算外积。通过张量和矩阵相乘的方式,将支撑特征和查询特征之间的元素进行了两两交互,实现了对查询特征中目标特征的激活。
本发明人经过研究发现,将融合张量进行低秩矩阵分解之后,利用分解得到的矩阵和向量提取支撑特征和查询特征的精细语义信息,进而将支撑特征和查询特征进行元素之间的稠密融合,可以显著提高特征激活效率,尤其是当L取3时,既能提高计算效率、减少模型参数,又能保证激活效果。
优选地,可以按照下式(四)对支撑特征和查询特征进行融合:
步骤2-3,调整激活置信图的维度,获得激活特征,进而得到中间特征激活图。
步骤3,对中间特征激活图进行更新,获得特征和谐激活图。
本发明人研究发现,通过获得步骤2的中间特征激活图,能够将查询特征中显著的特征进行激活,但仍存在部分目标特征区域未被激活,需要采用语义传播模型对中间特征激活图进行迭代更新,以获得特征和谐激活图。
优选地,如图4所示,步骤3包括以下子步骤:
步骤3-1,对查询特征进行编码,获得传播参数。
在本发明中,步骤1中获得的查询特征的维度为H*W*Dq,优选地,利用卷积神经网络中的卷积模块对查询特征进行编码,得到传播参数,记为P。
其中,传播参数代表查询特征图中每个点和其邻域点的传播权重。
根据本发明一种优选的实施方式,所述卷积模块为三层卷积级联而成,每一层卷积核大小为3*3,步长为1;
优选地,前两层卷积输入和输出通道数均为Dq,最后一层卷积输入通道数为Dq,输出通道数为r2。
如图4所示,每个点(红色点)的传播参数具有r×r个,由于查询特征的维度为H*W*Dq,经卷积模块编码后,维度为r2*H*W,具有H*W个点,则对应r2*H*W个传播参数。
步骤3-2,根据传播参数,更新中间特征激活图,获得特征和谐激活图。
在本发明中,语义信息的传播过程是一个迭代的过程,在每一次迭代(传播)的过程中,对于中间特征激活图上的每一个像素值,将由其邻域像素和传播参数更新。
其中,所述传播迭代过程如下式所示:
优选地,所述更新按照包括以下步骤的方法进行:
步骤3-2-1,将中间特征激活图通过卷积模块进行降维。
根据本发明一种优选的实施方式,降维卷积层为单层卷积,卷积核大小为3*3,步长为1;
降维卷积层的输入输出通道数分别为Do和C。
步骤3-2-2,采用传播参数对中间特征激活图上的每一个像素点进行更新。
其中,Nx,y表示点(x,y)的邻域像素,Yx,y;e,g为约束系数满足:
在本发明中,当r为3,即每个点的传播参数具有3×3=9个时,每一次迭代过程中,对于中间激活图上的每一个像素,其值将由传播参数加权其八邻域的点更新。
本发明人研究发现,由于传播参数包含了查询图片自身的结构信息,通过迭代传播可以很好地将中间特征激活图中未被激活的目标特征区域激活,增强中间特征激活图的结果语义一致性。
步骤3-2-3,迭代完成后,进行升维,获得特征和谐激活图。
在本发明中,迭代次数为Max(H,W),其中,H和W分别表示特征图(中间特征激活图)的高度和宽度,迭代次数为高度和宽度中较大的值。
迭代后,采用卷积模块进行升维,卷积层为单层卷积,卷积核大小为3*3,步长为1,输入输出通道数为C和D,最终得到特征和谐激活图,其维度为H*W*Do。
步骤4,对特征和谐激活图进行语义分割,获得查询图片的分割图。
在本发明中,将上述获得的特征和谐激活图通过分割网络进行分割,可以采用现有技术中常用的网络进行,如ASPP。
优选地,在语义分割后,利用一层卷积核大小为3×3的卷积层对其进行降维,输出通道数为2,两个通道分别表征预测为前景和背景的分割图,即得到维度为H*W*2的分割图。
根据本发明一种优选的实施方式,所述分割模型训练过程还包括步骤5,利用交叉熵损失函数计算分割图与标注(查询图片的标注)之间的损失,利用梯度反传函数更新模型参数。
其中,优选采用随机梯度下降法获得损失函数的梯度。
在本发明中,通过上述训练过程,获得基于特征和谐激活的小样本语义分割模型。
根据本发明一种优选的实施方式,所述基于特征和谐激活的小样本语义分割方法还包括测试过程:即利用训练好的小样本语义分割模型,对未知图像进行小样本语义分割。
其中,所述未知图像是指图像类别与训练过程的图像类别完全不同,即训练过程和测试过程的类别无重合。
在进一步优选的实施方式中,测试过程中,支撑图片的个数为1个或多个。
当支撑图片为多个时,将对多个支撑图片分别提取特征,然后通过加权平均的方式对多个特征进行组合,再将组合后的支撑特征和查询特征进行和谐特征激活,得到特征和谐激活图。
优选地,在测试时,提供一张查询图片和一对(1-shot)或多对(few-shots)支撑图片和标注,将其输入模型进行特征和谐激活,并输出分割图,计算其分割准确性。
本发明提供的基于特征和谐激活的小样本语义分割方法,仅需少量数据标注,降低了数据标注成本;充分融合支撑和查询图的信息,并利用查询图自身的结构信息,提高了神经网络对查询图像的分割精度;对小样本学习、语义分割等有重要意义,对遥感图像分割、医学图像分割和自然场景图像分割等领域具有应用价值。
本发明的第二方面,提供了一种小样本语义分割系统,优选用于实施第一方面所述方法,所述系统包括特征提取单元、特征激活单元、语义传播单元和分割单元,其中,
特征提取单元,用于支撑图片和查询图片进行特征提取;
特征激活单元,用于引导支撑特征对查询特征进行激活,获得中间特征激活图;
语义传播单元,用于对中间特征激活图进行传播更新,获得特征和谐激活图;
分割单元,用于对特征和谐激活图进行语义分割,获得查询图片的分割图。
其中,所述特征激活单元包括精细语义信息提取子单元和相似语义信息激活子单元,以分别提取支撑特征和查询特征的精细语义信息、进行相似语义信息激活。
优选地,所述精细语义信息提取子单元包括低秩矩阵分解模块。
所述语义传播单元包括编码子单元,以对查询特征进行编码,获得传播参数;和
更新子单元,以利用传播参数更新中间特征激活图。
本发明的第三方面,提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有小样本语义分割程序,所述小样本语义分割程序被处理器执行时实现上述基于特征和谐激活的小样本语义分割方法。
本发明中所述的基于特征和谐激活的小样本语义分割方法可借助软件加必需的通用硬件平台的方式来实现,所述软件存储在计算机可读存储介质(包括ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机、计算机、服务器、网络设备等)执行本发明所述方法。
实施例
以下通过具体实例进一步描述本发明,不过这些实例仅仅是范例性的,并不对本发明的保护范围构成任何限制。
实施例
1、数据集:
本实施例在PASCAL-5i和COCO-20i主流数据集上进行。
PASCAL-5i是为小样本语义分割特定划分的数据集,它由PASCAL VOC 2012以及SDS两部分数据集组合得到。数据集包含20个类,被按顺序划分为4组,每组5个类别。
在训练时,分4个模型进行训练,每个模型训练时采用3组类别数据,剩下一组类别数据用来测试。在测试阶段,从测试类别数据中随机采样1000张查询图,及其对应的支撑图片标注对,输入模型进行分割。
其中,PASCAL-5i类别划分如表1所示。
表1
COCO-20i则是由MS COCO 2017重新划分得到。MS COCO2017包含80个类别,被依次分为4组,每组包含20个类别。
在训练时,分4个模型进行训练,每个模型训练时采用3组类别数据,剩下一组类别数据用来测试。在测试阶段,从测试类别数据中随机采样1000张查询图,及其对应的支撑图片标注对,输入模型进行分割。
其中,COCO-20i类别划分如表2所示:
表2
2、评测标准
采用mIoU(meanintersectionover-union)指标来进行性能评测。mIoU计算所有测试类别的IoU并对其取平均。对于每个类别,IoU的计算方式为IoU=TP/(TP+FP+FN),其中TP、FP、FN分别代表分割图像中真正例类、假正例类、假负例类的像素点面积。
3、任务描述
小样本语义分割,将数据集划分为训练集和测试集,训练集带有完全标注。
首先利用训练集对模型进行基础训练,使得模型具有一定的特征提取和泛化能力。然后利用测试集中带有少量标注的支撑集,引导模型实现对查询集图像的分割,并对分割结果进行评测。
4、结果与分析
4.1、本实施例分别采用VGG-16和ResNet-50两种基础网络,在COCO-20i、PASCAL-5i两个数据集上进行训练和评测,结果如表3~7所示。
表3示出了COCO-20i 1-shot和5-shot测试性能结果:
表3
其中,
PANet的具体步骤如“Wang,K.,Liew,J.,Zou,Y.,Zhou,D.,Feng,J.:Panet:Few-shot image semanticsegmentation with prototype alignment.(2019)622-631”中所述;
FWB的具体步骤如“Nguyen,K.,Todorovic,S.:Feature weighting and boostingfor few-shot segmentation.In:IEEE ICCV.(2019)622-631”中所述;
Baseline为CANet去除迭代优化模块,CANet的具体步骤如“Zhang,C.,Lin,G.,Liu,F.,Yao,R.,Shen,C.:Canet:Class-agnostic segmentation networks withiterative refinement and attentive few-shot learning.In:IEEECVPR.(2019)5217-5226”中所述。
由表3可以看出,本发明所述方法(HFA)在1-shot和5-shot设定下性能均超越了其它方法。在1-shot设定下,HFA在baseline的基础上提升了4.86%,分别超越了PANet和FWB10.07%和9.78%;在5-shot设定下,HFA在baseline的基础上提升了6.10%,分别超越PANet和FWB4.26%和10.31%,说明本发明所述方法的性能在小样本语义分割任务上取得非常显著的提升。
表4和表5分别示出了PASCAL-5i 1-shot和5-shot的测试性能结果:
表4
表5
其中,OSLSM的具体步骤如“Shaban,A.,Bansal,S.,Liu,Z.,Essa,I.,Boots,B.:One-shot learning for semanticsegmentation.In:BMVC.(2017)”中所述;
co-FCN的具体步骤如“Rakelly,K.,Shelhamer,E.,Darrell,T.,Efros,A.A.,Levine,S.:Conditional networks for few-shot semantic segmentation.In:ICLRWorkshop.(2018)”中所述;
SG-One的具体步骤如“Zhang,X.,Wei,Y.,Yang,Y.,Huang,T.:Sg-one:Similarityguidance network forone-shot semantic segmentation.CoRR abs/1810.09091(2018)”中所述;
PGNet的具体步骤如“C.Zhang,G.Lin,F.Liu,J.Guo,Q.Wu,R.Yao,Pyramidgraphnetworks with connection attentions for region-based one-shotsemanticsegmentation,in:IEEE ICCV,2019”中所述;
CRNet的具体步骤如“W.Liu,C.Zhang,G.Lin,F.Liu,Crnet:Cross-referencenetworks for few-shot segmentation,in:IEEE/CVF Conference on ComputerVisionand Pattern Recognition(CVPR),2020”中所述。
由表4和表5可以看出,本发明所述方法(HFA)在1-shot和5-shot设定下性能均超越了其它方法。在1-shot设定下,在以VGG16为基础网络时HFA分别超越了PANet和FWB5.03%和1.23%;在以ResNet50为基础网络时,HFA超过CRNet1.08%。在5-shot的设定下,HFA同样达到了目前最高性能。
4.2、进一步地,对本发明小样本语义分割模型各个模块的性能及模型速度进行了检测,结果如表6和7所示。
表6
其中,“√”表示包含该功能单元。
表7
由表6可以看出,双线性特征激活在baseline的基础上提升了3.94%,证明了双线性特征激活模块的有效性;在对双线性模型进行低秩矩阵近似后,性能只降低了0.26%,但表7中显示模型的速度却大大加快了。语义传播模块在baseline的基础上提升了2.88%,这体现了查询图片内部的结构一致性对于语义分割的重要性,本发明中考虑了这一因素,其他方法并未考虑。
由表7可以看出,在以VGG16为基础网络的情况下,低秩矩阵分解在分割每张图片只需划分0.096秒,而不带低秩矩阵分解的方法需要0.432秒。同样,在ResNet50为基础网络的情况下,低秩矩阵分解也明显快于无低秩矩阵分解的方法(0.162vs0.621)。另外,在以VGG为基础网络的情况下,语义传播模块只占用了非常少的时间(0.001秒)。
4.3、本发明所述方法(HFA)和baseline在VOC数据集各类别性能的提升对比结果如图5所示,可以看出,相对于baseline,本发明所述方法在所有类别上均取得了明显的提升。
图6示出了本发明所述方法中分解矩阵稚和mIoU的关系,从图中可以看出,取低秩矩阵分解的秩为3时能够取得最理想的效果。
图7可视化了部分在PASCAL-5i数据集上的实验结果,其中,HFA代表本发明,B代表baseline。
可以看出,与baseline相比,本发明大大提高了类别特征激活的准确性和完整性,显著改善了类别错分和分割不完整的情况。
以上结合具体实施方式和范例性实例对本发明进行了详细说明,不过这些说明并不能理解为对本发明的限制。本领域技术人员理解,在不偏离本发明精神和范围的情况下,可以对本发明技术方案及其实施方式进行多种等价替换、修饰或改进,这些均落入本发明的范围内。
Claims (10)
1.一种基于特征和谐激活的小样本语义分割方法,其特征在于,所述方法包括训练分割模型用以进行语义分割的过程,分割模型训练过程包括以下步骤:
步骤1,对支撑图片和查询图片进行特征提取;
步骤2,对支撑特征和查询特征进行融合,获得中间特征激活图;
步骤3,对中间特征激活图进行更新,获得特征和谐激活图;
步骤4,对特征和谐激活图进行语义分割,获得查询图片的分割图。
2.根据权利要求1所述的小样本语义分割方法,其特征在于,步骤2中,利用双线性特征激活模型将支撑特征和查询特征进行融合,如下式所示:
A=T×1fs×2fq
其中,A表示激活特征,T表示融合张量,其维度为Ds*Dq*Do,×i(i=1,2)表示张量和矩阵之间的i模乘法,fs表示重构后的支撑特征,fq表示重构后的查询特征。
3.根据权利要求1所述的小样本语义分割方法,其特征在于,步骤2中,所述中间特征激活图的获得包括以下步骤:
步骤2-1,对支撑特征和查询特征进行精细语义信息提取;
步骤2-2,对支撑特征和查询特征进行相似语义信息激活,获得激活置信图;
步骤2-3,调整激活置信图的维度,获得激活特征,进而得到中间特征激活图。
6.根据权利要求1所述的小样本语义分割方法,其特征在于,步骤3包括以下子步骤:
步骤3-1,对查询特征进行编码,获得传播参数;
步骤3-2,根据传播参数,更新中间特征激活图,获得特征和谐激活图。
7.根据权利要求1所述的小样本语义分割方法,其特征在于,所述方法还包括测试过程:利用训练好的小样本语义分割模型,对未知图像进行小样本语义分割;
其中,所述未知图像是指图像类别与训练过程的图像类别完全不同。
8.一种小样本语义分割系统,优选用于实施权利要求1至7之一所述的方法,其特征在于,所述系统包括特征提取单元、特征激活单元、语义传播单元和分割单元,其中,
特征提取单元,用于支撑图片和查询图片进行特征提取;
特征激活单元,用于引导支撑特征对查询特征进行激活,获得中间特征激活图;
语义传播单元,用于对中间特征激活图进行传播更新,获得特征和谐激活图;
分割单元,用于对特征和谐激活图进行语义分割,获得查询图片的分割图。
9.根据权利要求8所述的小样本语义分割系统,其特征在于,所述特征激活单元包括精细语义信息提取子单元,以提取支撑特征和查询特征的精细语义信息;和
相似语义信息激活子单元,以进行相似语义信息激活。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有小样本语义分割程序,所述小样本语义分割程序被处理器执行时实现权利要求1至7之一所述基于特征和谐激活的小样本语义分割方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011139920.3A CN112364870B (zh) | 2020-10-22 | 2020-10-22 | 一种基于特征和谐激活的小样本语义分割方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011139920.3A CN112364870B (zh) | 2020-10-22 | 2020-10-22 | 一种基于特征和谐激活的小样本语义分割方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112364870A true CN112364870A (zh) | 2021-02-12 |
CN112364870B CN112364870B (zh) | 2021-10-15 |
Family
ID=74511634
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011139920.3A Expired - Fee Related CN112364870B (zh) | 2020-10-22 | 2020-10-22 | 一种基于特征和谐激活的小样本语义分割方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112364870B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113052209A (zh) * | 2021-03-10 | 2021-06-29 | 天津城建大学 | 融合胶囊相似性的单样本语义分割方法 |
CN113223011A (zh) * | 2021-04-25 | 2021-08-06 | 山东师范大学 | 基于引导网络和全连接条件随机场的小样本图像分割方法 |
CN113256585A (zh) * | 2021-05-24 | 2021-08-13 | 北京理工大学 | 基于时空张量分解的红外视频运动小目标实时检测方法 |
CN116935242A (zh) * | 2023-07-24 | 2023-10-24 | 哈尔滨工业大学 | 基于空间和语义一致性对比学习的遥感图像语义分割方法及系统 |
JP7447221B1 (ja) | 2022-11-10 | 2024-03-11 | ソフトバンク株式会社 | 画像認識装置、プログラム、及び画像認識方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109784203A (zh) * | 2018-12-24 | 2019-05-21 | 中国科学院大学 | 基于分层传播和激活的弱监督x光图像违禁品检查方法 |
CN110580500A (zh) * | 2019-08-20 | 2019-12-17 | 天津大学 | 一种面向人物交互的网络权重生成少样本图像分类方法 |
CN110675405A (zh) * | 2019-09-12 | 2020-01-10 | 电子科技大学 | 基于注意力机制的one-shot图像分割方法 |
CN111583284A (zh) * | 2020-04-22 | 2020-08-25 | 中国科学院大学 | 一种基于混合模型的小样本图像语义分割方法 |
CN111695570A (zh) * | 2020-05-19 | 2020-09-22 | 广东石油化工学院 | 一种基于变分原型推理的小样本下语义分割方法 |
-
2020
- 2020-10-22 CN CN202011139920.3A patent/CN112364870B/zh not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109784203A (zh) * | 2018-12-24 | 2019-05-21 | 中国科学院大学 | 基于分层传播和激活的弱监督x光图像违禁品检查方法 |
CN110580500A (zh) * | 2019-08-20 | 2019-12-17 | 天津大学 | 一种面向人物交互的网络权重生成少样本图像分类方法 |
CN110675405A (zh) * | 2019-09-12 | 2020-01-10 | 电子科技大学 | 基于注意力机制的one-shot图像分割方法 |
CN111583284A (zh) * | 2020-04-22 | 2020-08-25 | 中国科学院大学 | 一种基于混合模型的小样本图像语义分割方法 |
CN111695570A (zh) * | 2020-05-19 | 2020-09-22 | 广东石油化工学院 | 一种基于变分原型推理的小样本下语义分割方法 |
Non-Patent Citations (3)
Title |
---|
BOYU YANG ET AL.: "Prototype Mixture Models for Few-shot Semantic Segmentation", 《ARXIV:2008.03898V2 [CS.CV]》 * |
HUAXI HUANG ET AL: "Low-Rank Pairwise Alignment Bilinear Network For Few-Shot Fine-Grained Image Classification", 《ARXIV:1908.01313V1 [CS.CV]》 * |
潘哲 等: "弱监督细粒度分类在绝缘子故障识别中的应用", 《山西大学学报(自然科学版)》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113052209A (zh) * | 2021-03-10 | 2021-06-29 | 天津城建大学 | 融合胶囊相似性的单样本语义分割方法 |
CN113223011A (zh) * | 2021-04-25 | 2021-08-06 | 山东师范大学 | 基于引导网络和全连接条件随机场的小样本图像分割方法 |
CN113256585A (zh) * | 2021-05-24 | 2021-08-13 | 北京理工大学 | 基于时空张量分解的红外视频运动小目标实时检测方法 |
JP7447221B1 (ja) | 2022-11-10 | 2024-03-11 | ソフトバンク株式会社 | 画像認識装置、プログラム、及び画像認識方法 |
CN116935242A (zh) * | 2023-07-24 | 2023-10-24 | 哈尔滨工业大学 | 基于空间和语义一致性对比学习的遥感图像语义分割方法及系统 |
CN116935242B (zh) * | 2023-07-24 | 2024-08-06 | 哈尔滨工业大学 | 基于空间和语义一致性对比学习的遥感图像语义分割方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN112364870B (zh) | 2021-10-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112364870B (zh) | 一种基于特征和谐激活的小样本语义分割方法 | |
Zhou et al. | Contextual ensemble network for semantic segmentation | |
CN111104962B (zh) | 图像的语义分割方法、装置、电子设备及可读存储介质 | |
Yasarla et al. | Deblurring face images using uncertainty guided multi-stream semantic networks | |
CN108229468B (zh) | 车辆外观特征识别及车辆检索方法、装置、存储介质、电子设备 | |
CN111583284B (zh) | 一种基于混合模型的小样本图像语义分割方法 | |
CN110188239B (zh) | 一种基于跨模态注意力机制的双流视频分类方法和装置 | |
CN110147836B (zh) | 模型训练方法、装置、终端及存储介质 | |
CN105160312A (zh) | 基于人脸相似度匹配的明星脸装扮推荐方法 | |
CN110096961B (zh) | 一种超像素级别的室内场景语义标注方法 | |
Zhao et al. | Super-resolution for monocular depth estimation with multi-scale sub-pixel convolutions and a smoothness constraint | |
Shi et al. | Exploiting multi-scale parallel self-attention and local variation via dual-branch transformer-CNN structure for face super-resolution | |
CN116580257A (zh) | 特征融合模型训练及样本检索方法、装置和计算机设备 | |
CN117078790B (zh) | 图像生成方法、装置、计算机设备和存储介质 | |
CN113642400A (zh) | 基于2s-agcn的图卷积动作识别方法、装置及设备 | |
CN111108508A (zh) | 脸部情感识别方法、智能装置和计算机可读存储介质 | |
CN112017162B (zh) | 病理图像处理方法、装置、存储介质和处理器 | |
CN112597824A (zh) | 行为识别方法、装置、电子设备和存储介质 | |
CN113221977B (zh) | 一种基于抗混叠语义重构的小样本语义分割方法 | |
CN111368850A (zh) | 图像的特征提取、目标检测方法及装置、卷积装置、cnn网络装置、终端 | |
CN112446348A (zh) | 一种基于特征谱流的行为识别方法 | |
CN111242068A (zh) | 基于视频的行为识别方法、装置、电子设备和存储介质 | |
CN114494981A (zh) | 一种基于多层次运动建模的动作视频分类方法及系统 | |
CN113569855A (zh) | 一种舌象分割方法、设备及存储介质 | |
CN112069412A (zh) | 信息推荐方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20211015 |