CN115331004A - 一种基于有意义学习的零样本语义分割方法及装置 - Google Patents

一种基于有意义学习的零样本语义分割方法及装置 Download PDF

Info

Publication number
CN115331004A
CN115331004A CN202210894312.6A CN202210894312A CN115331004A CN 115331004 A CN115331004 A CN 115331004A CN 202210894312 A CN202210894312 A CN 202210894312A CN 115331004 A CN115331004 A CN 115331004A
Authority
CN
China
Prior art keywords
semantic
class
visual
sample
zero
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210894312.6A
Other languages
English (en)
Inventor
马宇晴
刘祥龙
白世豪
赵晓薇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CN202210894312.6A priority Critical patent/CN115331004A/zh
Publication of CN115331004A publication Critical patent/CN115331004A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/42Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
    • G06V10/422Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation for representing the structure of the pattern or shape of an object therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/54Extraction of image or video features relating to texture
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/56Extraction of image or video features relating to colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种基于有意义学习的零样本语义分割方法及装置。该方法包括如下步骤:S1:利用大规模的具有标注信息的已知类别数据对分割模型和生成模型进行预训练;S2:利用预训练的生成模型以及未知类的语义编码,获取针对未知类的生成视觉表征;S3:从可见类中随机挑选样本抽取视觉表征,并和步骤S2生成的未知类的视觉表征构建共轭关联损失;S4:将未知类的生成视觉表征分别通过快分类器和慢分类器进行两次预测,并计算相应的损失函数,实现零样本图像分割。本发明更加注重可见类与不可见类之间的相关性,自然地促进了知识的持续构建,可以使图像分割效果更加优越。

Description

一种基于有意义学习的零样本语义分割方法及装置
技术领域
本发明涉及一种基于有意义学习的零样本语义分割方法,同时也涉及相应的零样本语义分割装置,属于计算机视觉技术领域。
背景技术
零样本学习(zero shot learning)是计算机视觉领域常用的识别方法之一。利用零样本学习技术,可以识别出从未见过的数据类别,即训练的分类器不仅能够识别出训练集中已有的数据类别,还可以对于来自未见过的类别的数据进行区分。近年来,零样本学习技术引起了广泛的关注,主要在于它能够缓解语义边界明确的条件下标注样本的缺失,放松了对大规模数据的苛刻条件,从而能够快速地利用已有知识,泛化到未见过的类别或者是任务上。
目前,主流的零样本学习方法主要分为两种,一种是基于投射的方法,另一种是基于生成的方法。基于投射的方法是学习一个投射函数,将语义嵌入和视觉表征同时投影到公共隐空间,在测试阶段利用投影函数对不可见类的语义进行投影得到不可见类的视觉参数,从而进行判别。然而,基于投射的方法通常在更适用于实际应用的广义零样本学习任务上表现较差,因为没有不可见类的投影约束,并且不可见类的投影不可避免地会受到可见类的偏差影响。另一方面,基于生成的方法主要利用生成对抗网络生成不可见类的特征,并利用这种带标签的特征训练分类器,从而将零样本学习转换为一个全监督任务。尽管基于生成的方法可以在零样本学习任务上取得较好的效果,但是大多数零样本学习都是针对分类任务,在密集性任务如图像分割上,仍然难以取得较好的效果。
在专利号为ZL 202110093474.5的中国发明专利中,公开了一种零样本图像语义分割方法,分为类别无关前背景图像分割模块与零样本目标分类模块两部分。其中,类别无关前背景图像分割采用基于Mask-RCNN的两阶段图像分割框架,并辅助内外边缘判别器,边缘自监督模块提升图像前背景分割的精度。零样本目标分类模块基于CADA-VAE算法,并辅助Deep Inversion反向生成视觉特征减小视觉特征与语义特征的域距离,提升零样本目标分类的精度。利用该方法,在已知类上训练后可在未知类目标上也得到较好的图像分割性能,大大减少了样本的需求以及繁复的人工标注,大幅提升没有样本以及样本较少场景下图像语义分割任务的性能。
发明内容
本发明所要解决的首要技术问题在于提供一种基于有意义学习的零样本语义分割方法。
本发明所要解决的另一技术问题在于提供一种基于有意义学习的零样本语义分割装置。
为了实现上述目的,本发明采用下述的技术方案:
根据本发明实施例的第一方面,提供一种基于有意义学习的零样本语义分割方法,包括如下步骤:
S1:利用大规模的具有标注信息的已知类别数据对分割模型和生成模型进行预训练;
S2:利用预训练的生成模型以及未知类的语义编码,获取针对未知类的生成视觉表征;
S3:从可见类中随机挑选样本抽取视觉表征,并和步骤S2生成的未知类的视觉表征构建共轭关联损失;
S4:将未知类的生成视觉表征分别通过快分类器和慢分类器进行两次预测,并计算相应的损失函数,实现零样本图像分割。
其中较优地,所述步骤S1中,所使用的语义图像分割模型为DeepLab V2,其中的判别器
Figure BDA0003768773360000021
快分类器
Figure BDA0003768773360000022
和慢分类器
Figure BDA0003768773360000023
分别采用两个1×1卷积层实现,认知控制器采用一个卷积层实现。
其中较优地,所述步骤S1中,随机采样第n个可见类数据的真值语义图
Figure BDA0003768773360000024
构造标签词向量图
Figure BDA0003768773360000025
并与随机采样的噪声图Zn进行拼接,输入给生成器
Figure BDA0003768773360000026
获得生成视觉表征
Figure BDA0003768773360000027
并引导生成视觉表征
Figure BDA0003768773360000028
和真实视觉表征
Figure BDA0003768773360000029
相接近,从而建立标签-视觉的语义映射,其中
Figure BDA00037687733600000210
是特征提取器,n为正整数。
其中较优地,所述生成视觉表征
Figure BDA00037687733600000211
和所述真实视觉表征
Figure BDA00037687733600000212
被送入所述快分类器
Figure BDA0003768773360000031
并计算分类损失,所述判别器
Figure BDA0003768773360000032
与所述快分类器
Figure BDA0003768773360000033
共享第一层的参数。
其中较优地,所述步骤S2中,根据可见类和不可见类的语义编码,随机采样一个语义编码矩阵作为未知类的语义编码,给定相应的标签词向量图
Figure BDA0003768773360000034
并送入经过预训练的生成器
Figure BDA0003768773360000035
获取针对未知类的生成视觉表征。
其中较优地,所述步骤S3具体包括如下子步骤:
S31,从可见类中随机采样一个图片;
S32,计算语义空间上的真实向量图和随机向量之间的语义空间关联;
S33,计算视觉空间上真实视觉表征和生成视觉表征的视觉语义关联;
S34,根据语义空间关联和视觉语义关联计算共轭关联损失。
其中较优地,所述语义空间关联为语义空间中随机产生的真实向量图
Figure BDA0003768773360000036
的第i个补丁
Figure BDA0003768773360000037
以及真实标签词向量图
Figure BDA0003768773360000038
的第j个补丁
Figure BDA0003768773360000039
之间的关联关系。
其中较优地,所述视觉语义关联为视觉空间中真实视觉表征
Figure BDA00037687733600000310
的第j个补丁
Figure BDA00037687733600000311
以及生成视觉表征
Figure BDA00037687733600000312
的第i个补丁
Figure BDA00037687733600000313
之间的关联关系。
其中较优地,所述步骤S4具体包括如下子步骤:
S41,通过快分类器对所有视觉语义进行预测;
S42,通过认知控制器评估快分类器的预测,并估计所述预测和可见类的概念之间的兼容性;
S43,通过慢分类器进一步预测认知控制器不确定的视觉语义表示;
S44,计算加权分类的损失函数以及认知控制器的损失函数。
根据本发明实施例的第二方面,提供一种基于有意义学习的零样本语义分割装置,包括处理器和存储器,所述处理器读取所述存储器中的计算机程序,用于执行以下操作:
S1:利用大规模的具有标注信息的已知类别数据对分割模型和生成模型进行预训练;
S2:利用预训练的生成模型以及未知类的语义编码,获取针对未知类的生成视觉表征;
S3:从可见类中随机挑选样本抽取视觉表征,并和步骤S2生成的未知类的视觉表征构建共轭关联损失;
S4:将未知类的生成视觉表征分别通过快分类器和慢分类器进行两次预测,并计算相应的损失函数,实现零样本图像分割。
与现有技术相比较,本发明具有以下的技术效果:能够在没有视觉样本的条件下很好地学习新概念,并且通过构建可见类的视觉表征和不可见类的视觉表征之间的共轭关联损失,处理新概念与已有概念之间的冲突,形成融合的概念模式,将新概念(不可见类)与已有的概念(可见类)联系起来进行快速的学习。相比于以前基于投射和基于生成的零样本分割方法,本发明更加注重可见类与不可见类之间的相关性,自然地促进了知识的持续构建,可以使图像分割效果更加优越。
附图说明
图1为本发明实施例提供的基于有意义学习的零样本语义分割方法的流程图;
图2为本发明实施例中,构建可见类的视觉表征和不可见类的视觉表征之间的共轭关联损失的流程图;
图3为本发明实施例中,对未知类的生成视觉表征进行预测并计算损失函数的流程图;
图4(a)为本发明实施例中,进行抠图实验的输入图片示意图;
图4(b)为本发明实施例中,通过SPNet进行抠图的结果示意图;
图4(c)为本发明实施例中,通过ZS3Net进行抠图的结果示意图;
图4(d)为本发明实施例中,通过CaGNet进行抠图的结果示意图;
图4(e)为本发明实施例中,通过本发明所述方法进行抠图的结果示意图;
图4(f)为本发明实施例中,通过本发明所述方法进行抠图的标签示意图;
图5为本发明实施例提供的基于有意义学习的零样本语义分割装置的结构示意图。
具体实施方式
下面结合附图和具体实施例对本发明的技术内容进行详细具体的说明。
首先需要说明的是,在计算机视觉领域中,本发明的处理对象主要为图像,因此也可以称其为零样本语义图像分割方法及零样本语义图像分割装置。为了表述简洁起见,在本发明中将它们分别简称为零样本语义分割方法及零样本语义分割装置。
图1为本发明实施例中,基于有意义学习的零样本语义分割方法的整体流程图。如图1所示,该零样本语义分割方法至少包括如下步骤:
S1:利用大规模的具有标注信息的已知类别数据对分割模型和生成模型进行预训练。
在本发明的一个实施例中,所使用的语义图像分割模型为DeepLab V2(进一步的详细说明,可以参阅论文《DeepLab:Semantic Image Segmentation with DeepConvolutional Nets,Atrous Convolution,and Fully Connected CRFs》,其网址为https://arxiv.org/abs/1606.00915)。DeepLab V2主要由两部分组成,一个是区域分割网络,另一个是用于实现边界优化的CRF概率图模型。另外,其中的判别器
Figure BDA0003768773360000051
快分类器
Figure BDA0003768773360000052
和慢分类器
Figure BDA0003768773360000053
分别采用两个1×1卷积层实现,并且共享第一层的参数,认知控制器采用一个卷积层来实现。
在此基础上,对于可见类的所有训练数据(在本发明的不同实施例中,具体为各类图片),随机采样第n个可见类数据的真值语义图
Figure BDA0003768773360000054
构造标签词向量图
Figure BDA0003768773360000055
并与随机采样的噪声图Zn进行拼接,输入给生成器
Figure BDA0003768773360000056
获得生成视觉表征
Figure BDA0003768773360000057
并引导生成视觉表征
Figure BDA0003768773360000058
和真实视觉表征
Figure BDA0003768773360000059
相接近,从而建立起标签-视觉的语义映射,其中
Figure BDA00037687733600000510
是特征提取器,n为正整数。此外,生成视觉表征
Figure BDA00037687733600000511
和真实视觉表征
Figure BDA00037687733600000512
被送入快分类器
Figure BDA00037687733600000513
并计算分类损失,判别器
Figure BDA00037687733600000514
与快分类器
Figure BDA00037687733600000515
共享第一层的参数,用于尽可能地区分出生成视觉表征
Figure BDA00037687733600000516
和真实视觉表征
Figure BDA00037687733600000517
生成器
Figure BDA00037687733600000518
和判别器
Figure BDA00037687733600000519
组成生成对抗网络。其中,生成器
Figure BDA00037687733600000520
生成像是真实的但含有噪音的视觉表征
Figure BDA00037687733600000521
用于欺骗判别器
Figure BDA00037687733600000522
判别器
Figure BDA00037687733600000523
需要判别该视觉表征是真实的还是生成的。通过以上方式迭代训练,最终完成对生成器
Figure BDA0003768773360000061
特征提取器
Figure BDA0003768773360000062
判别器
Figure BDA0003768773360000063
和快分类器
Figure BDA0003768773360000064
的预训练。
通过上述的预训练步骤,可以构造一个性能卓越的生成模型,从而更好地学习不可见类(即未知类,下同)的真实概率分布,生成尽可能接近于真实不可见类样本的合成样本,以此缩小可见类和不可见类的之间的数据不平衡,从而提高图像分类精度。
S2:利用预训练的生成模型以及未知类的语义编码,获取针对未知类的生成视觉表征。
在本发明的一个实施例中,可以将输入样本表征为
Figure BDA0003768773360000065
其中H、W、C分别代表图像的高度、宽度和通道数。在此基础上,根据可见类和不可见类的语义编码,随机采样一个语义编码矩阵作为未知类的语义编码,给定相应的标签词向量图
Figure BDA0003768773360000066
并送入经过预训练的生成器
Figure BDA0003768773360000067
获取针对未知类的生成视觉表征
Figure BDA0003768773360000068
S3:从可见类中随机挑选样本抽取视觉表征,并和步骤S2生成的未知类的视觉表征构建共轭关联损失。
如图2所示,在本发明的一个实施例中,上述步骤S3具体包括如下子步骤S31~S34:
S31,从可见类中随机采样一个图片;
具体地说,在可见类训练集中随机采样一张图片,假设是第n张图片,并获取相应的真实视觉表征
Figure BDA0003768773360000069
生成视觉表征
Figure BDA00037687733600000610
以及标签词向量图
Figure BDA00037687733600000611
其中n为正整数。
S32,计算语义空间上的真实向量图和随机向量之间的语义空间关联;
在计算机视觉领域,语义指的是图像的内容。相应的语义空间关联具体为:语义空间中随机产生的真实向量图
Figure BDA00037687733600000612
的第i个补丁
Figure BDA00037687733600000613
以及真实标签词向量图
Figure BDA00037687733600000614
的第j个补丁
Figure BDA00037687733600000615
之间的关联关系,可以建模为:
Figure BDA00037687733600000616
S33,计算视觉空间上真实视觉表征和生成视觉表征的视觉语义关联;
在计算机视觉领域,视觉语义是指通常所理解的底层语义特征,即颜色、纹理和形状等。相应的视觉语义关联具体为:视觉空间中真实视觉表征
Figure BDA0003768773360000071
的第j个补丁
Figure BDA0003768773360000072
以及生成视觉表征
Figure BDA0003768773360000073
的第i个补丁
Figure BDA0003768773360000074
之间的关联关系,可以建模为:
Figure BDA0003768773360000075
S34,根据语义空间关联和视觉语义关联计算共轭关联损失。
在本发明的一个实施例中,所述共轭关联损失lCON通过如下公式进行计算:
Figure BDA0003768773360000076
Figure BDA0003768773360000077
其中,αi,j是一个像素级的自适应边缘,用于充分保证不同像素位置的视觉语义多样性。通过计算语义空间关联和视觉语义关联的共轭关联损失,可以将不可见类与可见类联系起来,建立不可见类与可见类之间的相关性。其中,共轭关联损失lCON越小,不可见类与可见类之间的相关性越强。
S4:将未知类的生成视觉表征分别通过快分类器和慢分类器进行两次预测,并计算相应的损失函数,实现零样本图像分割。
如图3所示,在本发明的一个实施例中,上述步骤S4具体包括子步骤S41~S44:
S41,通过快分类器对所有视觉语义进行预测;
所述快分类器的预测过程表达式为:
Figure BDA0003768773360000078
其中,
Figure BDA0003768773360000079
是由生成器生成视觉表征。
S42,通过认知控制器评估快分类器的预测,并估计所述预测和可见类的概念之间的兼容性;
所述认知控制器的评估表达式为:
Figure BDA00037687733600000710
其中,pm,i∈[0,1]2是一个二维向量,分别表示
Figure BDA0003768773360000081
和已有概念的匹配程度和不匹配程度。
S43,通过慢分类器进一步预测认知控制器不确定的视觉语义表示;
所述慢分类器的二次预测表达式为:
Figure BDA0003768773360000082
其中,
Figure BDA0003768773360000083
表示克罗内克符号函数,如果pm,i[0]<pm,i[1]成立,则取值为1,反之则取值为0。
S44,计算加权分类的损失函数以及认知控制器的损失函数。
在本发明的一个实施例中,采用二值交叉熵引导认知控制器的学习,计算认知控制器的损失函数lCON。其计算公式为:
Figure BDA0003768773360000084
其中,
Figure BDA0003768773360000085
的值由该像素点的真值标签
Figure BDA0003768773360000086
计算得到,其计算公式为:
Figure BDA0003768773360000087
由于慢分类器的部分参数是由已知概念初始化的,为了限制对可见类和不可见类的惩罚力度,在损失中引入了平衡因子,使得在训练慢分类器时更关注不可见类。在本发明的一个实施例中,形式化表示平衡因子为:
Figure BDA0003768773360000088
因此,加权分类的损失函数lCLS的计算公式为:
Figure BDA0003768773360000089
需要说明的,加权分类的损失函数lCLS越小,表明慢分类器的分类效果越好。
上述步骤通过快分类器和慢分类器对生成视觉表征进行两次预测,通过计算得到尽量小的加权分类的损失函数以及认知控制器的损失函数,最终能够较准确地实现未知类的生成视觉表征的分类。
在本发明的一个实施例中,将上述各个步骤应用于计算机视觉中的抠图处理。其中,物体分割选用数据集PASCAL-VOC。在具体实施时,迭代执行上述步骤S1~S4,特征提取器采用初始学习率2.5e-4的SGD优化器,生成器和判别器的优化器分别是初始学习率2e-4和2.5e-4的两个Adam优化器。权重衰减设置为5e-4,批次大小设置为8。对于超参数,通过交叉验证设置了λ=10,β1=0.5,β1=0.5。在测试时,首先将输入图片的像素调整至513X513。实验中采用了两种不同的标签嵌入模型,在Google News上训练的word2vec(维度d=600)和在Common Crawl上训练的快速文本(维度d=300),并按照之前的工作拼接了这两个嵌入作为最终词向量。对于具有多个单词的类别,直接平均每个单词的嵌入表示。
如图4(a)所示,本发明通过所提供的不同类别的语义编码以及本发明预先训练完成的分割模型和生成模型,即可以完成对输入图片的抠图处理。如图4(b)~图4(f)所示,采用其他方法对输入图片进行抠图处理后,不能很好地识别出真实标签,但本发明所提供的零样本语义分割方法的图像分割效果较好,能准确识别图像内容并给出正确标签。
表1 不同方法抠图处理的分割结果和真实标签之间的重合度
方法 SPNet ZS3 CaGNet 本发明
mIoU 0.5467 0.6143 0.6423 0.6702
结合表1所示,其中mIoU为计算预测的分割结果和真实的标签之间重合度的指标。从表1可以看出,本发明所提供的零样本语义分割方法的重合度相对最高。可以看出,无论是实际的抠图效果,还是与真实分割结果的重合度,本发明所提供的零样本语义分割方法均可以获得优于现有技术的显著效果。
在上述零样本语义分割方法的基础上,本发明进一步提供一种基于有意义学习的零样本语义分割装置。如图5所示,该零样本语义分割装置包括一个或多个处理器51和存储器52。其中,存储器52与处理器51耦接,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器51执行,使得所述一个或多个处理器51实现如上述实施例中的零样本语义分割方法。
其中,处理器51用于控制上述零样本语义分割装置的整体操作,以完成上述零样本语义分割方法的全部或部分步骤。该处理器51可以是中央处理器(CPU)、图形处理器(GPU)、现场可编程逻辑门阵列(FPGA)、专用集成电路(ASIC)、数字信号处理(DSP)芯片等。存储器52用于存储各种类型的数据以支持在该零样本语义分割装置的操作,这些数据例如可以包括用于在该零样本语义分割装置上操作的任何应用程序或方法的指令,以及应用程序相关的数据。该存储器52可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,例如静态随机存取存储器(SRAM)、电可擦除可编程只读存储器(EEPROM)、可擦除可编程只读存储器(EPROM)、可编程只读存储器(PROM)、只读存储器(ROM)、磁存储器、快闪存储器等。
综上所述,本发明所提供的基于有意义学习的零样本语义分割方法及装置,首先利用大规模的具有标注信息的已知类别数据对分割模型和生成模型进行预训练,通过预训练的生成模型以及未知类的语义编码,获取针对未知类的生成视觉表征;然后重点在于构建可见类的视觉表征和不可见类的视觉表征之间的共轭关联损失,利用可见类与不可见类之间的相关性进行学习,最后将未知类的生成视觉表征分别通过快分类器和慢分类器进行两次预测,并计算相应的损失函数,实现零样本图像分割。
与现有技术相比较,本发明具有以下的技术效果:能够在没有视觉样本的条件下很好地学习新概念,并且通过构建可见类的视觉表征和不可见类的视觉表征之间的共轭关联损失,处理新概念与已有概念之间的冲突,形成融合的概念模式,将新概念(不可见类)与已有的概念(可见类)联系起来进行快速的学习。相比于以前基于投射和基于生成的零样本分割方法,本发明更加注重可见类与不可见类之间的相关性,自然地促进了知识的持续构建,可以使图像分割效果更加优越。
上面对本发明所提供的基于有意义学习的零样本语义分割方法及装置进行了详细的说明。对本领域的一般技术人员而言,在不背离本发明实质内容的前提下对它所做的任何显而易见的改动,都将构成对本发明专利权的侵犯,将承担相应的法律责任。

Claims (10)

1.一种基于有意义学习的零样本语义分割方法,其特征在于包括如下步骤:
S1:利用大规模的具有标注信息的已知类别数据对分割模型和生成模型进行预训练;
S2:利用预训练的生成模型以及未知类的语义编码,获取针对未知类的生成视觉表征;
S3:从可见类中随机挑选样本抽取视觉表征,并和步骤S2生成的未知类的视觉表征构建共轭关联损失;
S4:将未知类的生成视觉表征分别通过快分类器和慢分类器进行两次预测,并计算相应的损失函数,实现零样本图像分割。
2.如权利要求1所述的零样本语义分割方法,其特征在于:
所述步骤S1中,所使用的语义图像分割模型为DeepLab V2,其中的判别器
Figure FDA0003768773350000011
快分类器
Figure FDA0003768773350000012
和慢分类器
Figure FDA0003768773350000013
分别采用两个1×1卷积层实现,认知控制器采用一个卷积层实现。
3.如权利要求2所述的零样本语义分割方法,其特征在于:
所述步骤S1中,随机采样第n个可见类数据的真值语义图
Figure FDA0003768773350000014
构造标签词向量图
Figure FDA0003768773350000015
并与随机采样的噪声图Zn进行拼接,输入给生成器
Figure FDA0003768773350000016
获得生成视觉表征
Figure FDA0003768773350000017
并引导生成视觉表征
Figure FDA0003768773350000018
和真实视觉表征
Figure FDA0003768773350000019
相接近,从而建立标签-视觉的语义映射,其中
Figure FDA00037687733500000110
是特征提取器,n为正整数。
4.如权利要求3所述的零样本语义分割方法,其特征在于:
所述生成视觉表征
Figure FDA00037687733500000111
和所述真实视觉表征
Figure FDA00037687733500000112
被送入所述快分类器
Figure FDA00037687733500000113
并计算分类损失,所述判别器
Figure FDA00037687733500000114
与所述快分类器
Figure FDA00037687733500000115
共享第一层的参数。
5.如权利要求1所述的零样本语义分割方法,其特征在于:
所述步骤S2中,根据可见类和不可见类的语义编码,随机采样一个语义编码矩阵作为未知类的语义编码,给定相应的标签词向量图
Figure FDA0003768773350000021
并送入经过预训练的生成器
Figure FDA0003768773350000022
获取针对未知类的生成视觉表征。
6.如权利要求1所述的零样本语义分割方法,其特征在于所述步骤S3具体包括如下子步骤:
S31,从可见类中随机采样一个图片;
S32,计算语义空间上的真实向量图和随机向量之间的语义空间关联;
S33,计算视觉空间上真实视觉表征和生成视觉表征的视觉语义关联;
S34,根据语义空间关联和视觉语义关联计算共轭关联损失。
7.如权利要求6所述的零样本语义分割方法,其特征在于:
所述语义空间关联为语义空间中随机产生的真实向量图
Figure FDA0003768773350000023
的第i个补丁
Figure FDA0003768773350000024
以及真实标签词向量图
Figure FDA0003768773350000025
的第j个补丁
Figure FDA0003768773350000026
之间的关联关系。
8.如权利要求6所述的零样本语义分割方法,其特征在于:
所述视觉语义关联为视觉空间中真实视觉表征
Figure FDA0003768773350000027
的第j个补丁
Figure FDA0003768773350000028
以及生成视觉表征
Figure FDA0003768773350000029
的第i个补丁
Figure FDA00037687733500000210
之间的关联关系。
9.如权利要求1所述的零样本语义分割方法,其特征在于所述步骤S4具体包括如下子步骤:
S41,通过快分类器对所有视觉语义进行预测;
S42,通过认知控制器评估快分类器的预测,并估计所述预测和可见类的概念之间的兼容性;
S43,通过慢分类器进一步预测认知控制器不确定的视觉语义表示;
S44,计算加权分类的损失函数以及认知控制器的损失函数。
10.一种基于有意义学习的零样本语义分割装置,其特征在于包括处理器和存储器,所述处理器读取所述存储器中的计算机程序,用于执行以下操作:
S1:利用大规模的具有标注信息的已知类别数据对分割模型和生成模型进行预训练;
S2:利用预训练的生成模型以及未知类的语义编码,获取针对未知类的生成视觉表征;
S3:从可见类中随机挑选样本抽取视觉表征,并和步骤S2生成的未知类的视觉表征构建共轭关联损失;
S4:将未知类的生成视觉表征分别通过快分类器和慢分类器进行两次预测,并计算相应的损失函数,实现零样本图像分割。
CN202210894312.6A 2022-07-27 2022-07-27 一种基于有意义学习的零样本语义分割方法及装置 Pending CN115331004A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210894312.6A CN115331004A (zh) 2022-07-27 2022-07-27 一种基于有意义学习的零样本语义分割方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210894312.6A CN115331004A (zh) 2022-07-27 2022-07-27 一种基于有意义学习的零样本语义分割方法及装置

Publications (1)

Publication Number Publication Date
CN115331004A true CN115331004A (zh) 2022-11-11

Family

ID=83919884

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210894312.6A Pending CN115331004A (zh) 2022-07-27 2022-07-27 一种基于有意义学习的零样本语义分割方法及装置

Country Status (1)

Country Link
CN (1) CN115331004A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115758159A (zh) * 2022-11-29 2023-03-07 东北林业大学 基于混合对比学习和生成式数据增强的零样本文本立场检测方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115758159A (zh) * 2022-11-29 2023-03-07 东北林业大学 基于混合对比学习和生成式数据增强的零样本文本立场检测方法
CN115758159B (zh) * 2022-11-29 2023-07-21 东北林业大学 基于混合对比学习和生成式数据增强的零样本文本立场检测方法

Similar Documents

Publication Publication Date Title
CN108875827B (zh) 一种细粒度图像分类的方法及系统
CN110580501B (zh) 一种基于变分自编码对抗网络的零样本图像分类方法
CN110363220B (zh) 行为类别检测方法、装置、电子设备和计算机可读介质
CN111475613A (zh) 案件分类方法、装置、计算机设备及存储介质
CN108959474B (zh) 实体关系提取方法
CN114926835A (zh) 文本生成、模型训练方法和装置
CN112395487A (zh) 信息推荐方法、装置、计算机可读存储介质及电子设备
CN113064995A (zh) 一种基于图深度学习的文本多标签分类方法和系统
CN115331004A (zh) 一种基于有意义学习的零样本语义分割方法及装置
CN116150367A (zh) 一种基于方面的情感分析方法及系统
CN111680506A (zh) 数据库表的外键映射方法、装置、电子设备和存储介质
Padhy et al. Image classification in artificial neural network using fractal dimension
CN117422878A (zh) 一种基于双分支动态注意力的遥感图像语义分割方法
CN113761845A (zh) 一种文本生成方法、装置、存储介质及电子设备
CN112801489A (zh) 诉讼案件风险检测方法、装置、设备和可读存储介质
CN117315686A (zh) 基于分类模型的甲骨文辅助破译分类方法及系统
CN116342906A (zh) 一种跨域小样本图像识别方法及系统
Garozzo et al. Knowledge-based generative adversarial networks for scene understanding in Cultural Heritage
CN114119142A (zh) 信息推荐方法、装置和系统
CN112632284A (zh) 用于未标注文本数据集的信息抽取方法及系统
CN109711456A (zh) 一种具备鲁棒性的半监督图像聚类方法
CN111583072B (zh) 法条上下位关系判断方法及处理终端
CN113988226B (zh) 数据脱敏有效性验证方法、装置、计算机设备及存储介质
WO2023221328A1 (zh) 一种基于多光谱图像的语义分割方法、装置及存储介质
CN118051669A (zh) 基于虚假新闻鉴别的个性化新闻推荐方法、系统及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination