CN113569865B - 一种基于类别原型学习的单样本图像分割方法 - Google Patents

一种基于类别原型学习的单样本图像分割方法 Download PDF

Info

Publication number
CN113569865B
CN113569865B CN202111133883.XA CN202111133883A CN113569865B CN 113569865 B CN113569865 B CN 113569865B CN 202111133883 A CN202111133883 A CN 202111133883A CN 113569865 B CN113569865 B CN 113569865B
Authority
CN
China
Prior art keywords
image
prototype
support
features
query
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111133883.XA
Other languages
English (en)
Other versions
CN113569865A (zh
Inventor
陈涛
姚亚洲
孙泽人
沈复民
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Code Geek Technology Co ltd
Original Assignee
Nanjing Code Geek Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Code Geek Technology Co ltd filed Critical Nanjing Code Geek Technology Co ltd
Priority to CN202111133883.XA priority Critical patent/CN113569865B/zh
Publication of CN113569865A publication Critical patent/CN113569865A/zh
Application granted granted Critical
Publication of CN113569865B publication Critical patent/CN113569865B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Abstract

本发明提出了一种基于类别原型学习的单样本图像分割方法,通过引入多类标签信息有效地缓解了特征缺乏语义信息的问题,促使网络为目标类别生成具有丰富语义信息的类别原型,通过更鲁棒的目标类别线索指导网络更精确地分割出查询图像中目标区域的基于类别原型学习的单样本图像分割算法。

Description

一种基于类别原型学习的单样本图像分割方法
技术领域
本发明属于计算机图像处理技术领域,具体地说,涉及一种基于类别原型学习的单样本图像分割方法。
背景技术
图像分割,旨在识别出图像中每个像素的类别,是计算机视觉领域一个核心的研究课题。近年来,深度卷积神经网络的发展,使得包括图像分割在内的计算机视觉任务都取得了重大突破。然而,训练深度神经网络通常需要大量的带标签数据集,而这些数据集的收集成本非常昂贵、耗时也很长。尽管最近有许多半监督、弱监督和无监督的方法被提出来减轻全监督任务的注释负担,这些方法都是针对预先定义的类别进行训练的,使得训练好的网络不能很好地推广到在训练过程中没有定义过的新类别任务上。另一方面,即使给定几个新类别的样本,已经训练好的网络也很难迁移到新类别任务上。相比之下,人类只需要通过对一张包含新类别的图像进行学习,就可以很好地学到这个新类别的特殊之处。为了模仿人类的这种泛化能力,研究者们最近将注意力转到小样本学习上,试图通过对少量样本的学习将网络适应到新类别上。
单样本图像分割任务试图通过学习一张带注释的图片掌握新类别的特性,进而在测试图片中分割出新类别的区域。人类能够通过少量数据学习新任务的能力在很大程度上得益于他们过去所积累的经验,因此,让网络充分利用可获得的储备知识(例如大量带注释的可见类图像)对于促进单样本学习具有重大意义。由于传统方法训练得到的语义分割网络在单张图像上对新的类别进行微调容易产生过拟合,最近的一些工作尝试在具有大量数据标签的数据集上采用片段训练策略来模拟测试时的情景,进而学习一个在测试时会利用单样本进行学习的网络。在每个片段训练中,一张带标注的图像为网络提供目标类别信息,指导网络对查询图像中的目标类别进行分割。然而,这些现有的方法在片段训练过程中对测试场景的模拟过于一致,没有充分利用可获得的数据集信息。例如,这些方法主要侧重于将目标类别当作前景的二类分割设置上,只利用二值掩码标签进行训练,丢弃了数据集的多类别标签信息。由于缺少多类别标签信息,编码器提取的特征将缺乏语义信息,训练得到的网络也更容易出现过拟合,进而阻碍了后续针对引导特征的融合网络设计。另外,在现有的单样本分割方法中,支持分支的信息只为查询分支提供目标类别线索,支持图像和掩码对没有被网络充分利用,训练得到的目标类别原型不够鲁棒。
发明内容
本发明针对现有技术的上述缺陷和需求,提出了一种基于类别原型学习的单样本图像分割方法,通过引入多类标签信息有效地缓解了特征缺乏语义信息的问题,促使网络为目标类别生成具有丰富语义信息的类别原型,通过更鲁棒的目标类别线索指导网络更精确地分割出查询图像中目标区域的基于类别原型学习的单样本图像分割算法。
本发明具体实现内容如下:
本发明提出了一种基于类别原型学习的单样本图像分割方法,使用单样本图像分割模型进行以下步骤:
步骤1:选择样本集,并将样本集分为训练集和测试集;
步骤2:选择训练集作为支持图像和查询图像输入到特征编码器中进行特征提取,得到支持图像特征和查询图像特征;
步骤3:使用多类标签信息约束网络生成查询图像和支持图像的类别相关的语义特征;
步骤4:使用原型提取器从支持图像特征中提取到包含目标类别的原型向量
Figure 100002_DEST_PATH_IMAGE002
步骤5:使用原型引导分支的金字塔特征融合模块,将包含目标线索的原型向量
Figure 100002_DEST_PATH_IMAGE004
与查询图像特征进行整合,得到用于指导查询图像自身的分割的整合后的查询图像特征;并将整合后的查询图像特征发送到对应的空洞空间金字塔池化分类器分割得到查询图像的二值分割图;
步骤6:使用自原型引导分支的金字塔特征融合模块,将包含目标线索的原型向量
Figure 293087DEST_PATH_IMAGE004
与支持图像特征进行整合,得到用于指导支持图像自身的分割的整合后的支持图像特征;并将整合后的支持图像特征发送到对应的空洞空间金字塔池化分类器分割得到支持图像的二值分割图;
步骤7:使用测试集进行测试,并使用原型提取器从查询图像特征中提取到包含目标类别的原型向量
Figure DEST_PATH_IMAGE007
,整合包含目标线索的原型向量
Figure DEST_PATH_IMAGE009
和包含目标类别的原型向量
Figure DEST_PATH_IMAGE011
生成鲁棒的目标线索来指导查询图像的最终分割;
所述单样本图像分割模型包括特征提取器、原型提取器、自原型引导分支、原型引导分支;所述自原型引导分支和原型引导分支中都设置有连接在一起的金字塔特征融合模块和空洞空间金字塔池化分类器;
所述特征提取器接收支持图像和查询图像,输出端分别连接原型提取器、自原型引导分支的金字塔融合模块、原型引导分支的金字塔融合模块;所述原型提取器还分别与自原型引导分支的金字塔融合模块、原型引导分支的金字塔融合模块连接。
所述特征提取器中设置有多类标签信息约束网络。
为了更好地实现本发明,进一步地,所述步骤4的具体操作为:在使用特征编码器提取了支持图像和查询图像的支持图像特征和查询图像特征后:
首先,利用支持掩码标签通过掩码平均池化操作,从支持图像特征中提取到目标类别的原型向量
Figure 413490DEST_PATH_IMAGE002
然后,将支持图像特征上采样到和支持掩码同样的尺寸大小;
最后,计算得到支持图像的包含目标线索的原型向量p,具体计算公式如下:
Figure DEST_PATH_IMAGE014
式中,h和w是输入的支持图像特征和支持掩码的尺寸的高和宽,
Figure DEST_PATH_IMAGE016
是支持图像特征,
Figure DEST_PATH_IMAGE018
是支持掩码,p是支持图像的包含目标线索的原型向量。
为了更好地实现本发明,进一步地,所述步骤5的具体操作为:
首先,将得到的支持图像的包含目标线索的原型向量p上采样到和查询图像特征相同的尺寸大小;
然后,将上采样后的支持图像的包含目标线索的原型向量p拼接到查询图像特征上,得到拼接后的查询图像特征,并输入到原型引导分支的金字塔融合模块中;
接着,在原型引导分支的金字塔融合模块中先应用一个3×3卷积层将拼接后的查询图像特征的维度从1024降到512;
然后,将维度降为512的拼接后的查询图像特征下采样为原始空间大小的1/2和1/4;
接着,将原始空间大小的1/2以及1/4的拼接后的查询图像特征输入到具有一个512个过滤器的3×3卷积层中,以多尺度方式挖掘特征,然后进行上采样操作,将拼接后的查询图像特征恢复到原始空间大小,并通过逐像素加和的方式得到融合后的查询图像特征;
然后,采用两个残差模块对融合后的查询图像特征进行增强,得到增强融合后的查询图像特征;每个所述残差模块包括三个卷积层,残差模块的三个卷积层分别具有64个、64个和512个滤波器;
最后,将增强融合后的查询图像特征发送到空洞空间金字塔池化分类器进行分类,最终得到查询图像的二值分割图。
为了更好地实现本发明,进一步地,所述步骤5中,将预测和查询掩码
Figure DEST_PATH_IMAGE020
之间的交叉熵损失作为查询图像分割损失函数Lq,具体公式为:
Figure DEST_PATH_IMAGE022
式中,
Figure DEST_PATH_IMAGE024
为预测,
Figure DEST_PATH_IMAGE026
指代像素是否属于目标类,
Figure DEST_PATH_IMAGE028
,h和w是输入的拼接后的查询图像特征Ff和掩码标签Mq的尺寸的高和宽。
为了更好地实现本发明,进一步地,在步骤4和步骤5中原型向量p的具体计算操作为
在使用特征编码器提取了支持图像和查询图像的支持图像特征和查询图像特征后:
首先,利用支持掩码标签通过掩码平均池化操作,从支持图像特征中提取到目标类别的原型向量
Figure 770391DEST_PATH_IMAGE002
然后,将支持图像特征上采样到和支持掩码同样的尺寸大小;
最后,计算得到支持图像的包含目标线索的原型向量p,具体计算公式如下:
Figure 100002_DEST_PATH_IMAGE031
式中,h和w是输入的支持图像特征和支持掩码的尺寸的高和宽,
Figure 572125DEST_PATH_IMAGE016
是支持图像特征,
Figure 917655DEST_PATH_IMAGE018
是支持掩码,p是支持图像的包含目标线索的原型向量。
为了更好地实现本发明,进一步地,所述步骤6的具体操作为:
首先,将得到的支持图像的包含目标线索的原型向量p上采样到和支持图像特征相同的尺寸大小;
然后,将上采样后的支持图像的包含目标线索的原型向量p拼接到支持图像特征上,得到拼接后的支持图像特征,并输入到原型引导分支的金字塔融合模块中;
接着,在自原型引导分支的金字塔融合模块中先应用一个3×3卷积层将拼接后的支持图像特征的维度从1024降到512;
然后,将维度降为512的拼接后的支持图像特征下采样为原始空间大小的1/2和1/4;
接着,将原始空间大小的1/2以及1/4的拼接后的支持图像特征输入到具有一个512个过滤器的3×3卷积层中,以多尺度方式挖掘特征,然后进行上采样操作,将拼接后的支持图像特征恢复到原始空间大小,并通过逐像素加和的方式得到融合后的支持图像特征;
然后,采用两个残差模块对融合后的支持图像特征进行增强,得到增强融合后的支持图像特征;每个所述残差模块包括三个卷积层,残差模块的三个卷积层分别具有64个、64个和512个滤波器;
最后,将增强融合后的支持图像特征发送到空洞空间金字塔池化分类器进行分类,最终得到支持图像的二值分割图。
为了更好地实现本发明,进一步地,所述步骤7中,具体操作为:
在测试时,使用一个进行原型向量融合的指导分支来获得具有更加鲁棒的目标线索用于提升查询图像的分割性能,具体为:
首先,利用训练好的网络来获得查询图像的二值分割预测;
然后,将查询图像的二值分割预测作为伪掩码
Figure DEST_PATH_IMAGE035
接着,利用查询图像的伪掩码
Figure DEST_PATH_IMAGE037
通过掩码平均池化操作从查询图像特征
Figure DEST_PATH_IMAGE039
中获得目标类别的伪原型;
然后,将查询图像特征
Figure DEST_PATH_IMAGE041
上采样到和伪掩码
Figure DEST_PATH_IMAGE043
同样的尺寸大小,计算得到查询图像的目标类别的伪原型向量
Figure DEST_PATH_IMAGE045
,即查询图像特征的包含目标类别的原型向量
Figure 254965DEST_PATH_IMAGE002
,具体计算公式为:
Figure DEST_PATH_IMAGE048
其中h和w是输入的查询图像和伪掩码的尺寸大小。
为了更好地实现本发明,进一步地,所述特征编码器采用预先在ImageNet数据集上进行了预训练的VGG-16网络。
为了更好地实现本发明,进一步地,所述步骤3的具体操作为:
在支持图像特征和查询图像特征之后,采用一个参数共享的多类标签信息约束网络
Figure DEST_PATH_IMAGE050
来预测图像中像素的类别,多类分割损失
Figure DEST_PATH_IMAGE052
如下:
Figure DEST_PATH_IMAGE054
其中,
Figure DEST_PATH_IMAGE056
为训练集中的图像类别, h和w是输入图像和标签的尺寸的高和宽,Y为图像语义标签,即支持图像语义标签或查询图像语义标签;F代表图像特征,即支持图像特征或查询图像特征。
为了更好地实现本发明,进一步地,所述特征编码器采用预先在ImageNet数据集上进行了预训练的VGG-16网络,且去掉了VGG-16网络最后的两个池化层。
为了更好地实现本发明,进一步地,在所述VGG-16网络的conv5层中使用了扩张率为2的空洞卷积。
为了更好地实现本发明,进一步地,将所述VGG-16网络的全连接层替换为两个扩张率为4的3×3卷积层。
为了更好地实现本发明,进一步地,对于样本集中的输入样本图像进行图像预处理,具体操作为:将图像的大小调整为(417,417),并使用随机水平翻转对图像进行增强。
为了更好地实现本发明,进一步地,利用随机梯度下降法对模型进行优化,将随机梯度下降法的动量设置为0.9,学习率设为 0.01,权重衰减设为0.0001,训练40000次。
本发明与现有技术相比具有以下优点及有益效果:
(1)在现有的方法中,支持分支生成的目标类别原型只用于指导查询图像的分割;本发明在训练时采用一个自原型引导分支,利用支持分支生成的目标类别原型进一步指导支持图像本身的分割,生成一个更鲁棒的类别原型来指导网络定位目标类别区域。引入所提出的自原型引导分支分有以下三个好处:首先,自原型引导分支分为应用于融合特征之上的分割头提供了更多的监督。当支持图像特征和查询图像特征之间的差异太大时,可以缓解不匹配的融合特征给分割头带来的困惑。其次,自原型引导分支保证了从支持图像特征中提取的类别原型能够有效地定位出支持图像自身包含的目标区域,这将促使网络为每个语义类生成更加紧凑的特征和更加鲁棒的原型。另外,它还与在测试过程中的原型融合引导分支相呼应,从而有利于在测试时利用查询图像的目标类别原型来指导查询图像自身的最终分割。
(2)现有的方法在训练过程中丢弃了多标签信息,会使得特征的语义信息逐渐减少;本发明使用像素级的多类标签信息来约束编码器的特征提取,可以鼓励编码器为每个类别生成更加具有鉴别性的特征,帮助网络更准确地定位目标类别区域。
附图说明
图1为本发明的单样本图像分割模型的模型结构示意图;
图2为本发明整体训练架构图;
图3是本发明整体测试架构图。
具体实施方式
为了更清楚地说明本发明实施例的技术方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,应当理解,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例,因此不应被看作是对保护范围的限定。基于本发明中的实施例,本领域普通技术工作人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“设置”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;也可以是直接相连,也可以是通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
实施例1:
本实施例提出了一种基于类别原型学习的单样本图像分割方法,使用单样本图像分割模型进行以下步骤:
步骤1:选择样本集,并将样本集分为训练集和测试集;
步骤2:选择训练集作为支持图像和查询图像输入到特征编码器中进行特征提取,得到支持图像特征和查询图像特征;
步骤3:使用多类标签信息约束网络生成查询图像和支持图像的类别相关的语义特征;
步骤4:使用原型提取器从支持图像特征中提取到包含目标类别的原型向量
Figure DEST_PATH_IMAGE058
步骤5:使用原型引导分支的金字塔特征融合模块,将包含目标线索的原型向量
Figure DEST_PATH_IMAGE060
与查询图像特征进行整合,得到用于指导查询图像自身的分割的整合后的查询图像特征;并将整合后的查询图像特征发送到对应的空洞空间金字塔池化分类器分割得到查询图像的二值分割图;
步骤6:使用自原型引导分支的金字塔特征融合模块,将包含目标线索的原型向量
Figure 183650DEST_PATH_IMAGE060
与支持图像特征进行整合,得到用于指导支持图像自身的分割的整合后的支持图像特征;并将整合后的支持图像特征发送到对应的空洞空间金字塔池化分类器分割得到支持图像的二值分割图;
步骤7:使用测试集进行测试,并使用原型提取器从查询图像特征中提取到包含目标类别的原型向量
Figure 648129DEST_PATH_IMAGE058
,整合包含目标线索的原型向量
Figure 723532DEST_PATH_IMAGE060
和包含目标类别的原型向量
Figure DEST_PATH_IMAGE065
生成鲁棒的目标线索来指导查询图像的最终分割;
所述单样本图像分割模型包括特征提取器、原型提取器、自原型引导分支、原型引导分支;所述自原型引导分支和原型引导分支中都设置有连接在一起的金字塔特征融合模块和空洞空间金字塔池化分类器;
所述特征提取器接收支持图像和查询图像,输出端分别连接原型提取器、自原型引导分支的金字塔融合模块、原型引导分支的金字塔融合模块;所述原型提取器还分别与自原型引导分支的金字塔融合模块、原型引导分支的金字塔融合模块连接。
所述特征提取器中设置有多类标签信息约束网络。
实施例2:
本实施例在上述实施例1的基础上,为了更好地实现本发明,进一步地,用于提取图像特征的骨干网络是预先在ImageNet数据集上进行了预训练的VGG-16网络。
本实施例的其他部分与上述实施例1相同,故不再赘述。
实施例3:
本实施例在上述实施例1-2任一项的基础上,使用多类标签信息约束网络生成类别相关的语义特征的具体过程为:
现有的方法在训练过程中丢弃了多标签信息,会使得特征的语义信息逐渐减少,使用像素级的多类标签信息来约束编码器的特征提取,可以鼓励编码器为每个类别生成更加具有鉴别性的特征,帮助网络更准确地定位目标类别区域。在支持图像和查询图像的特征F之后,进一步采用一个参数共享的多类分类器
Figure 248055DEST_PATH_IMAGE050
来预测图像中像素的类别,多类分割损失如下:
Figure DEST_PATH_IMAGE068
其中,
Figure 658176DEST_PATH_IMAGE056
为训练集中的图像类别。 h和w是输入图像和标签的尺寸大小。
本实施例的其他部分与上述实施例1-2任一项相同,故不再赘述。
实施例4:
本实施例在上述实施例1-3任一项的基础上,为了更好地实现本发明,进一步地,所述步骤4的具体操作为:在使用特征编码器提取了支持图像和查询图像的支持图像特征和查询图像特征后:
首先,利用支持掩码标签通过掩码平均池化操作,从支持图像特征中提取到目标类别的原型向量
Figure 926347DEST_PATH_IMAGE002
然后,将支持图像特征上采样到和支持掩码同样的尺寸大小;
最后,计算得到支持图像的包含目标线索的原型向量p,具体计算公式如下:
Figure DEST_PATH_IMAGE072
式中,h和w是输入的支持图像特征和支持掩码的尺寸的高和宽,
Figure DEST_PATH_IMAGE074
是支持图像特征,
Figure DEST_PATH_IMAGE076
是支持掩码,p是支持图像的包含目标线索的原型向量。
本实施例的其他部分与上述实施例1-3任一项相同,故不再赘述。
实施例5:
本实施例在上述实施例1-4任一项的基础上,为了更好地实现本发明,进一步地,所述步骤5的具体操作为:
首先,将得到的支持图像的包含目标线索的原型向量p上采样到和查询图像特征相同的尺寸大小;
然后,将上采样后的支持图像的包含目标线索的原型向量p拼接到查询图像特征上,得到拼接后的查询图像特征,并输入到原型引导分支的金字塔融合模块中;
接着,在原型引导分支的金字塔融合模块中先应用一个3´3卷积层将拼接后的查询图像特征的维度从1024降到512;
然后,将维度降为512的拼接后的查询图像特征下采样为原始空间大小的1/2和1/4;
接着,将原始空间大小的1/2以及1/4的拼接后的查询图像特征输入到具有一个512个过滤器的3´3卷积层中,以多尺度方式挖掘特征,然后进行上采样操作,将拼接后的查询图像特征恢复到原始空间大小,并通过逐像素加和的方式得到融合后的查询图像特征;
然后,采用两个残差模块对融合后的查询图像特征进行增强,得到增强融合后的查询图像特征;每个所述残差模块包括三个卷积层,残差模块的三个卷积层分别具有64个、64个和512个滤波器;
最后,将增强融合后的查询图像特征发送到空洞空间金字塔池化分类器进行分类,最终得到查询图像的二值分割图。
工作原理:从支持分支得到包含目标类别信息的原型向量后,便可以利用它来指导查询图像的分割。将原型向量上采样到和查询图像特征相同的尺寸大小,然后将其拼接到查询图像特征上输入到金字塔融合模块。金字塔融合模块首先应用一个3×3卷积层将拼接后的特征维度从1024降到512,然后将特征下采样到原始空间大小的1/2和1/4,之后,分别将各个大小的特征图输入到具有512个过滤器的3×3卷积层中,以多尺度方式挖掘特征,然后对缩小的特征进行上采样,使其恢复到原来大小,并通过逐像素加和对特征进行融合。最后采用两个残差模块来进一步增强融合后的特征,每个残差块包含三个分别具有64、64和512个滤波器的卷积层。金字塔特征融合模块可以为最终的空洞空间金字塔池化分类器生成对尺度鲁棒的特征进而更好地分割目标区域。这里,金字塔特征融合模块和空洞空间金字塔池化将被分别用作特征融合模块和分类模块,来构造完整的分割头模块得到查询图像的二值分割图。
本实施例的其他部分与上述实施例1-4任一项相同,故不再赘述。
实施例6:
本实施例在上述实施例1-5任一项的基础上,如图 1 所示,基于类别原型学习的单样本图像分割算法,其特征在于:包括以下步骤:
(1) 使用一个骨干网络(例如 VGG-16)提取支持图像和查询图像的特征表示:
使用PASCAL-5i数据集,该数据集是单样本图像分割任务中最广泛被使用的图像数据集。PASCAL-5i是由SBD扩展后的PASCAL VOC 2012数据集构建的。PASCAL VOC 2012中的20个语义类别平均分为4个子集,每个子集包含5个类。我们从4个子集中挑选一个子集用于测试,其中的类别在训练时对模型不可见,然后将剩余的3个子集中的类别作为可见类别用于模型训练,实验以交叉验证的方式进行。
对于特征编码器,采用ImageNet上预训练过的VGG-16模型作为主干网络。去掉VGG-16的最后两个池化层,使得输出特征的有效分辨率为输入图像大小的1/8。为了扩大感受野,在conv5层中使用了扩张率为2的空洞卷积。另外,将全连接层替换为两个扩张率为4的3×3卷积层。图像预处理的方法是:将输入图像的大小调整为(417,417),并使用随机水平翻转对图像进行增强。
(2) 使用多类标签信息约束网络生成类别相关的语义特征的具体过程为:
现有的方法在训练过程中丢弃了多标签信息,会使得特征的语义信息逐渐减少,使用像素级的多类标签信息来约束编码器的特征提取,可以鼓励编码器为每个类别生成更加具有鉴别性的特征,帮助网络更准确地定位目标类别区域。在支持图像和查询图像的特征F之后,进一步采用一个参数共享的多类分类器
Figure DEST_PATH_IMAGE078
来预测图像中像素的类别,多类分割损失如下:
Figure DEST_PATH_IMAGE080
其中,
Figure DEST_PATH_IMAGE082
为训练集中的图像类别。 h和w是输入图像和标签的尺寸大小。
(3) 使用金字塔特征融合模块,将目标线索与查询图像特征进行整合的具体过程为:
使用特征编码器提取支持图像和查询图像的深层特征,利用支持掩码标签通过掩码平均池化操作从支持图像特征图中提取目标类别的原型向量,通过将支持图像特征
Figure DEST_PATH_IMAGE084
上采样到和支持掩码
Figure DEST_PATH_IMAGE086
同样的尺寸大小,然后采用如下公式获得目标线索的原型向量
Figure DEST_PATH_IMAGE088
Figure DEST_PATH_IMAGE090
其中h和w是输入图像和掩码的尺寸大小。
从支持分支得到包含目标类别信息的原型向量后,便可以利用它来指导查询图像的分割。将原型向量上采样到和查询图像特征相同的尺寸大小,然后将其拼接到查询图像特征上输入到金字塔融合模块。金字塔融合模块首先应用一个3×3卷积层将拼接后的特征维度从1024降到512,然后将特征下采样到原始空间大小的1/2和1/4,之后,分别将各个大小的特征图输入到具有512个过滤器的3×3卷积层中,以多尺度方式挖掘特征,然后对缩小的特征进行上采样,使其恢复到原来大小,并通过逐像素加和对特征进行融合。最后采用两个残差模块来进一步增强融合后的特征,每个残差块包含三个分别具有64、64和512个滤波器的卷积层。金字塔特征融合模块可以为最终的空洞空间金字塔池化分类器生成对尺度鲁棒的特征进而更好地分割目标区域。这里,金字塔特征融合模块和空洞空间金字塔池化将被分别用作特征融合模块和分类模块,来构造完整的分割头模块得到查询图像的二值分割图。查询图像的分割损失被定义为预测
Figure DEST_PATH_IMAGE092
和查询掩码
Figure DEST_PATH_IMAGE094
之间的交叉熵损失:
Figure DEST_PATH_IMAGE096
其中
Figure DEST_PATH_IMAGE098
指代像素是否属于目标类,h和w是输入的查询图像和掩码标签的尺寸大小。
(4) 使用自原型引导分支指导支持图像自身分割的具体过程为:
在现有的方法中,支持分支生成的目标类别原型只用于指导查询图像的分割,为了生成一个更鲁棒的类别原型来指导网络定位目标类别区域,在训练时采用一个自原型引导分支,利用支持分支生成的目标类别原型进一步指导支持图像本身的分割。将支持图像特征和经过上采样之后支持原型进行拼接,将拼接特征
Figure DEST_PATH_IMAGE100
输入和查询分支相同结构的分割头模块去获得支持图像的二值分割预测。引入所提出的自原型引导分支分有以下三个好处:首先,自原型引导分支分为应用于融合特征之上的分割头提供了更多的监督。当支持图像特征和查询图像特征之间的差异太大时,可以缓解不匹配的融合特征给分割头带来的困惑。其次,自原型引导分支保证了从支持图像特征中提取的类别原型能够有效地定位出支持图像自身包含的目标区域,这将促使网络为每个语义类生成更加紧凑的特征和更加鲁棒的原型。另外,它还与在测试过程中的原型融合引导分支相呼应,从而有利于在测试时利用查询图像的目标类别原型来指导查询图像自身的最终分割。支持图像的单样本分割损失被定义为预测
Figure DEST_PATH_IMAGE102
和支持掩码
Figure 26895DEST_PATH_IMAGE086
之间的交叉熵损失:
Figure DEST_PATH_IMAGE105
其中
Figure DEST_PATH_IMAGE107
指代像素是否属于目标类,h和w是输入的支持图像和掩码标签的尺寸大小。
(5) 在测试过程中使用原型融合,整合支持原型和查询原型以生成鲁棒的目标线索来指导查询图像的最终分割,具体过程为:
尽管网络在训练过程中努力学习类别相关的语义特征,并为目标类别提取具有丰富语义信息的类别原型,但支持图像和查询图像之间的视觉外观和布局上的差异会使它们的特征或多或少有所不同。因此,在测试时使用一个原型融合的指导分支来获得具有更加鲁棒的目标线索来提升查询图像的分割性能。首先利用训练好的网络来获得查询图像的二值分割预测,然后将该预测作为伪掩码
Figure DEST_PATH_IMAGE109
来提取查询分支的目标类别伪原型。利用查询图像的伪掩码通过掩码平均池化操作从查询图像特征图获得目标类别的伪原型。将查询图像特征
Figure DEST_PATH_IMAGE111
上采样到和伪掩码
Figure 191161DEST_PATH_IMAGE109
同样的尺寸大小,采用如下公式获得目标类别的伪原型向量
Figure DEST_PATH_IMAGE114
Figure DEST_PATH_IMAGE116
其中h和w是输入查询图像和伪掩码的尺寸大小。得益于训练过程中的自原型引导分支,网络可以直接应用于伪原型( 查询图像的自原型)设置进行查询图像的分割。然而,由于伪掩码比较粗糙,查询图像的伪原型会包含噪声信息,通过平均查询图像的伪原型与支持原型可以得到更鲁棒的类别原型,从而指导查询图像的最终分割。
(6)超参数设置为:利用随机梯度下降法(SGD) 对模型进行优化,将SGD的动量设置为0.9,将学习率设为 0.01,权重衰减设为0.0001,训练40000次。
将本发明的单样本图像分割算法与5种单样本分割方法的效果进行对比,采用平均交并比(mIoU)作为分割的评价指标, mIoU 值越高,分割效果越优异。5种单样本分割方法如下:
[1] Shaban, S. Bansal, Z. Liu, I. Essa, and B. Boots, “单样本语义分割,” 英国机器视觉会议, 2017, pp. 167.1–167.13。
[2] K. Rakelly, E. Shelhamer, T. Darrell, A. Efros, and S. Levine,“用于单样本语义分割的条件网络,”学习表征国际会议, 2018。
[3]M. Siam, B. N. Oreshkin, and M. Jagersand, “用于单样本分割的自适应掩码代理,” IEEE计算机视觉国际会议, 2019, pp. 5249–5258。
[4]X. Zhang, Y. Wei, Y. Yang, and T. S. Huang, “用于单样本分割的相似性引导网络,” IEEE控制论会刊。
[5]K. Wang, J. H. Liew, Y. Zou, D. Zhou, and J. Feng, “基于原型对齐的小样本图像语义分割,” IEEE计算机视觉国际会议, 2019, pp. 9197–9206.]。
表1 单样本分割结果对比
方法 PASCAL-51 PASCAL-52 PASCAL-53 PASCAL-54 平均结果
[1] 33.6 55.3 40.9 33.5 40.8
[2] 36.7 50.6 44.9 32.4 41.1
[3] 41.9 50.2 46.7 34.7 43.4
[4] 40.2 58.4 48.4 38.4 46.3
[5] 42.3 58.0 51.1 41.2 48.1
本发明 50.6 61.9 49.4 48.4 52.6
从表 1可以看出,本发明在单样本图像分割任务上都取得了最好的平均性能,表明本发明的方法中提取类别相关的语义表征的有效性,验证了多类标签指导、金字塔特征融合、自原型引导和原型融合的有效性。
本实施例的其他部分与上述实施例1-5任一项相同,故不再赘述。
以上所述,仅是本发明的较佳实施例,并非对本发明做任何形式上的限制,凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化,均落入本发明的保护范围之内。

Claims (14)

1.一种基于类别原型学习的单样本图像分割方法,其特征在于,使用单样本图像分割模型进行以下步骤:
步骤1:选择样本集,并将样本集分为训练集和测试集;
步骤2:选择训练集作为支持图像和查询图像输入到特征编码器中进行特征提取,得到支持图像特征和查询图像特征;
步骤3:使用多类标签信息约束网络生成查询图像和支持图像的类别相关的语义特征;
步骤4:使用原型提取器从支持图像特征中提取到包含目标类别的原型向量
Figure DEST_PATH_IMAGE002
步骤5:使用原型引导分支的金字塔特征融合模块,将包含目标线索的原型向量
Figure DEST_PATH_IMAGE004
与查询图像特征进行整合,得到用于指导查询图像自身的分割的整合后的查询图像特征;并将整合后的查询图像特征发送到对应的空洞空间金字塔池化分类器分割得到查询图像的二值分割图;
步骤6:使用自原型引导分支的金字塔特征融合模块,将包含目标线索的原型向量
Figure DEST_PATH_IMAGE006
与支持图像特征进行整合,得到用于指导支持图像自身的分割的整合后的支持图像特征;并将整合后的支持图像特征发送到对应的空洞空间金字塔池化分类器分割得到支持图像的二值分割图;
步骤7:使用测试集进行测试,并使用原型提取器从查询图像特征中提取到包含目标类别的原型向量
Figure DEST_PATH_IMAGE008
,整合包含目标线索的原型向量
Figure DEST_PATH_IMAGE010
和包含目标类别的原型向量
Figure DEST_PATH_IMAGE012
生成鲁棒的目标线索来指导查询图像的最终分割;
所述单样本图像分割模型包括特征提取器、原型提取器、自原型引导分支、原型引导分支;所述自原型引导分支和原型引导分支中都设置有连接在一起的金字塔特征融合模块和空洞空间金字塔池化分类器;
所述特征提取器接收支持图像和查询图像,输出端分别连接原型提取器、自原型引导分支的金字塔融合模块、原型引导分支的金字塔融合模块;所述原型提取器还分别与自原型引导分支的金字塔融合模块、原型引导分支的金字塔融合模块连接;
所述特征提取器中设置有多类标签信息约束网络。
2.如权利要求1所述的一种基于类别原型学习的单样本图像分割方法,其特征在于,所述步骤4的具体操作为:在使用特征编码器提取了支持图像和查询图像的支持图像特征和查询图像特征后:
首先,利用支持掩码标签通过掩码平均池化操作,从支持图像特征中提取到目标类别的原型向量
Figure 967617DEST_PATH_IMAGE002
然后,将支持图像特征上采样到和支持掩码同样的尺寸大小;
最后,计算得到支持图像的包含目标线索的原型向量p,具体计算公式如下:
Figure DEST_PATH_IMAGE015
式中,h和w是输入的支持图像特征和支持掩码的尺寸的高和宽,
Figure DEST_PATH_IMAGE017
是支持图像特征,
Figure DEST_PATH_IMAGE019
是支持掩码,p是支持图像的包含目标线索的原型向量。
3.如权利要求1所述的一种基于类别原型学习的单样本图像分割方法,其特征在于,所述步骤5的具体操作为:
首先,将得到的支持图像的包含目标线索的原型向量p上采样到和查询图像特征相同的尺寸大小;
然后,将上采样后的支持图像的包含目标线索的原型向量p拼接到查询图像特征上,得到拼接后的查询图像特征,并输入到原型引导分支的金字塔融合模块中;
接着,在原型引导分支的金字塔融合模块中先应用一个3×3卷积层将拼接后的查询图像特征的维度从1024降到512;
然后,将维度降为512的拼接后的查询图像特征下采样为原始空间大小的1/2和1/4;
接着,将原始空间大小的1/2以及1/4的拼接后的查询图像特征输入到具有一个512个过滤器的3×3卷积层中,以多尺度方式挖掘特征,然后进行上采样操作,将拼接后的查询图像特征恢复到原始空间大小,并通过逐像素加和的方式得到融合后的查询图像特征;
然后,采用两个残差模块对融合后的查询图像特征进行增强,得到增强融合后的查询图像特征;每个所述残差模块包括三个卷积层,残差模块的三个卷积层分别具有64个、64个和512个滤波器;
最后,将增强融合后的查询图像特征发送到空洞空间金字塔池化分类器进行分类,最终得到查询图像的二值分割图。
4.如权利要求3所述的一种基于类别原型学习的单样本图像分割方法,其特征在于,所述步骤5中,将预测
Figure DEST_PATH_IMAGE021
和查询掩码
Figure DEST_PATH_IMAGE023
之间的交叉熵损失作为查询图像分割损失函数Lq,具体公式为:
Figure DEST_PATH_IMAGE025
式中,
Figure DEST_PATH_IMAGE027
为预测,
Figure DEST_PATH_IMAGE029
指代像素是否属于目标类,
Figure DEST_PATH_IMAGE031
,h和w是输入的拼接后的查询图像特征Ff和掩码标签Mq的尺寸的高和宽。
5.如权利要求1所述的一种基于类别原型学习的单样本图像分割方法,其特征在于,在所述步骤4和步骤5中原型向量p的具体计算操作为:
在使用特征编码器提取了支持图像和查询图像的支持图像特征和查询图像特征后:
首先,利用支持掩码标签通过掩码平均池化操作,从支持图像特征中提取到目标类别的原型向量
Figure 274971DEST_PATH_IMAGE002
然后,将支持图像特征上采样到和支持掩码同样的尺寸大小;
最后,计算得到支持图像的包含目标线索的原型向量p,具体计算公式如下:
Figure DEST_PATH_IMAGE034
式中,h和w是输入的支持图像特征和支持掩码的尺寸的高和宽,
Figure 382604DEST_PATH_IMAGE017
是支持图像特征,
Figure 512234DEST_PATH_IMAGE019
是支持掩码,p是支持图像的包含目标线索的原型向量。
6.如权利要求1所述的一种基于类别原型学习的单样本图像分割方法,其特征在于,所述步骤6的具体操作为:
首先,将得到的支持图像的包含目标线索的原型向量p上采样到和支持图像特征相同的尺寸大小;
然后,将上采样后的支持图像的包含目标线索的原型向量p拼接到支持图像特征上,得到拼接后的支持图像特征,并输入到原型引导分支的金字塔融合模块中;
接着,在自原型引导分支的金字塔融合模块中先应用一个3×3卷积层将拼接后的支持图像特征的维度从1024降到512;
然后,将维度降为512的拼接后的支持图像特征下采样为原始空间大小的1/2和1/4;
接着,将原始空间大小的1/2以及1/4的拼接后的支持图像特征输入到具有一个512个过滤器的3×3卷积层中,以多尺度方式挖掘特征,然后进行上采样操作,将拼接后的支持图像特征恢复到原始空间大小,并通过逐像素加和的方式得到融合后的支持图像特征;
然后,采用两个残差模块对融合后的支持图像特征进行增强,得到增强融合后的支持图像特征;每个所述残差模块包括三个卷积层,残差模块的三个卷积层分别具有64个、64个和512个滤波器;
最后,将增强融合后的支持图像特征发送到空洞空间金字塔池化分类器进行分类,最终得到支持图像的二值分割图。
7.如权利要求1所述的一种基于类别原型学习的单样本图像分割方法,其特征在于,所述步骤7中,具体操作为:
在测试时,使用一个进行原型向量融合的指导分支来获得具有更加鲁棒的目标线索用于提升查询图像的分割性能,具体为:
首先,利用训练好的网络来获得查询图像的二值分割预测;
然后,将查询图像的二值分割预测作为伪掩码
Figure DEST_PATH_IMAGE038
接着,利用查询图像的伪掩码
Figure DEST_PATH_IMAGE040
通过掩码平均池化操作从查询图像特征中获得目标类别的伪原型;
然后,将查询图像特征上采样到和伪掩码
Figure DEST_PATH_IMAGE042
同样的尺寸大小,计算得到查询图像的目标类别的伪原型向量
Figure DEST_PATH_IMAGE044
,即查询图像特征的包含目标类别的原型向量
Figure 451240DEST_PATH_IMAGE002
,具体计算公式为:
Figure DEST_PATH_IMAGE047
其中h和w是输入的查询图像和伪掩码的尺寸大小,
Figure DEST_PATH_IMAGE049
为查询图像特征。
8.如权利要求1所述的一种基于类别原型学习的单样本图像分割方法,其特征在于,所述特征编码器采用预先在ImageNet数据集上进行了预训练的VGG-16网络。
9.如权利要求8所述的一种基于类别原型学习的单样本图像分割方法,其特征在于,所述步骤3的具体操作为:
在支持图像特征和查询图像特征之后,采用一个参数共享的多类标签信息约束网络
Figure DEST_PATH_IMAGE051
来预测图像中像素的类别,多类分割损失
Figure DEST_PATH_IMAGE053
如下:
Figure DEST_PATH_IMAGE055
其中,
Figure DEST_PATH_IMAGE057
为训练集中的图像类别, h和w是输入图像和标签的尺寸的高和宽,Y为图像语义标签,即支持图像语义标签或查询图像语义标签;F代表图像特征,即支持图像特征或查询图像特征。
10.如权利要求8所述的一种基于类别原型学习的单样本图像分割方法,其特征在于,所述特征编码器采用预先在ImageNet数据集上进行了预训练的VGG-16网络,且去掉了VGG-16网络最后的两个池化层。
11.如权利要求8所述的一种基于类别原型学习的单样本图像分割方法,其特征在于,在所述VGG-16网络的conv5层中使用了扩张率为2的空洞卷积。
12.如权利要求8所述的一种基于类别原型学习的单样本图像分割方法,其特征在于,将所述VGG-16网络的全连接层替换为两个扩张率为4的3×3卷积层。
13.如权利要求1所述的一种基于类别原型学习的单样本图像分割方法,其特征在于,对于样本集中的输入样本图像进行图像预处理,具体操作为:将图像的大小调整为(417,417),并使用随机水平翻转对图像进行增强。
14.如权利要求9或10或11或12或13所述的一种基于类别原型学习的单样本图像分割方法,其特征在于,利用随机梯度下降法对模型进行优化,将随机梯度下降法的动量设置为0.9,学习率设为 0.01,权重衰减设为0.0001,训练40000次。
CN202111133883.XA 2021-09-27 2021-09-27 一种基于类别原型学习的单样本图像分割方法 Active CN113569865B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111133883.XA CN113569865B (zh) 2021-09-27 2021-09-27 一种基于类别原型学习的单样本图像分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111133883.XA CN113569865B (zh) 2021-09-27 2021-09-27 一种基于类别原型学习的单样本图像分割方法

Publications (2)

Publication Number Publication Date
CN113569865A CN113569865A (zh) 2021-10-29
CN113569865B true CN113569865B (zh) 2021-12-17

Family

ID=78174773

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111133883.XA Active CN113569865B (zh) 2021-09-27 2021-09-27 一种基于类别原型学习的单样本图像分割方法

Country Status (1)

Country Link
CN (1) CN113569865B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114240968A (zh) * 2021-12-17 2022-03-25 联通(上海)产业互联网有限公司 一种分割图像中异常区域的自监督深度学习算法
CN114565760B (zh) * 2022-02-24 2023-02-28 北京百度网讯科技有限公司 图像分割方法、模型的训练方法、装置、电子设备及介质
CN114240945B (zh) * 2022-02-28 2022-05-10 科大天工智能装备技术(天津)有限公司 一种基于目标分割的桥梁钢索断裂检测方法及系统
CN115019036B (zh) * 2022-05-10 2024-02-27 西北工业大学 一种学习非目标知识的小样本语义分割方法
CN115115825B (zh) * 2022-05-27 2024-05-03 腾讯科技(深圳)有限公司 图像中的对象检测方法、装置、计算机设备和存储介质
CN116129226B (zh) * 2023-04-10 2023-07-25 之江实验室 一种基于多原型混合模块的少样本目标检测方法及装置
CN116521875B (zh) * 2023-05-09 2023-10-31 江南大学 引入群体情绪感染的原型增强小样本对话情感识别方法
CN117409413B (zh) * 2023-12-14 2024-04-05 江西师范大学 一种基于背景信息挖掘的小样本语义分割方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110337669A (zh) * 2017-01-27 2019-10-15 爱克发医疗保健公司 多类图像分割方法
CN112419352A (zh) * 2020-11-24 2021-02-26 复旦大学 一种基于轮廓的小样本语义分割方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109598728B (zh) * 2018-11-30 2019-12-27 腾讯科技(深圳)有限公司 图像分割方法、装置、诊断系统及存储介质
CN110782467B (zh) * 2019-10-24 2023-05-30 新疆农业大学 基于深度学习和图像处理的马体尺测量方法
CN111583284B (zh) * 2020-04-22 2021-06-22 中国科学院大学 一种基于混合模型的小样本图像语义分割方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110337669A (zh) * 2017-01-27 2019-10-15 爱克发医疗保健公司 多类图像分割方法
CN112419352A (zh) * 2020-11-24 2021-02-26 复旦大学 一种基于轮廓的小样本语义分割方法

Also Published As

Publication number Publication date
CN113569865A (zh) 2021-10-29

Similar Documents

Publication Publication Date Title
CN113569865B (zh) 一种基于类别原型学习的单样本图像分割方法
Sultana et al. Evolution of image segmentation using deep convolutional neural network: A survey
Zhou et al. MFFENet: Multiscale feature fusion and enhancement network for RGB–thermal urban road scene parsing
CN110738207B (zh) 一种融合文字图像中文字区域边缘信息的文字检测方法
CN110322495B (zh) 一种基于弱监督深度学习的场景文本分割方法
Nandhini Abirami et al. Deep CNN and deep GAN in computational visual perception-driven image analysis
Xiong et al. DP-LinkNet: A convolutional network for historical document image binarization
US20190205758A1 (en) Gland segmentation with deeply-supervised multi-level deconvolution networks
Yun et al. Focal loss in 3d object detection
CN111259724A (zh) 从图像中提取相关信息的方法和系统及计算机程序产品
Mao et al. Deep residual pooling network for texture recognition
CN110782420A (zh) 一种基于深度学习的小目标特征表示增强方法
CN104239872A (zh) 异态汉字识别方法
Khan et al. Face segmentation: A journey from classical to deep learning paradigm, approaches, trends, and directions
Yuan et al. Half-CNN: a general framework for whole-image regression
Petrovai et al. Multi-task network for panoptic segmentation in automated driving
Liu et al. Towards enhancing fine-grained details for image matting
Onim et al. Blpnet: A new dnn model and bengali ocr engine for automatic licence plate recognition
Ko et al. Skelgan: A font image skeletonization method
Xia et al. Mixed spatial pyramid pooling for semantic segmentation
Nguyen TableSegNet: a fully convolutional network for table detection and segmentation in document images
CN114463205A (zh) 一种基于双分支Unet噪声抑制的车辆目标分割方法
Jayasundara et al. Flowcaps: Optical flow estimation with capsule networks for action recognition
CN113554655B (zh) 基于多特征增强的光学遥感图像分割方法及装置
Lei et al. Noise-robust wagon text extraction based on defect-restore generative adversarial network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant