CN115331012A - 基于零样本学习的联合生成式图像实例分割方法及系统 - Google Patents

基于零样本学习的联合生成式图像实例分割方法及系统 Download PDF

Info

Publication number
CN115331012A
CN115331012A CN202211256409.0A CN202211256409A CN115331012A CN 115331012 A CN115331012 A CN 115331012A CN 202211256409 A CN202211256409 A CN 202211256409A CN 115331012 A CN115331012 A CN 115331012A
Authority
CN
China
Prior art keywords
features
mask
segmentation
image
instance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211256409.0A
Other languages
English (en)
Other versions
CN115331012B (zh
Inventor
王少华
秦者云
袭肖明
刘兴波
聂秀山
尹义龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong University
Shandong Jianzhu University
Original Assignee
Shandong University
Shandong Jianzhu University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong University, Shandong Jianzhu University filed Critical Shandong University
Priority to CN202211256409.0A priority Critical patent/CN115331012B/zh
Publication of CN115331012A publication Critical patent/CN115331012A/zh
Application granted granted Critical
Publication of CN115331012B publication Critical patent/CN115331012B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/762Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/70Labelling scene content, e.g. deriving syntactic or semantic representations

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Image Analysis (AREA)

Abstract

本发明属于图像实例分割技术领域,为解决现有技术图像实例分割效果差的问题,提供了基于零样本学习的联合生成式图像实例分割方法及系统。其中,该方法包括获取待分割的可见类图像和文本描述,分别提取视觉特征和属性语义特征;拼接视觉特征和所述属性语义特征,得到拼接特征;基于拼接特征及联合生成对抗网络的编码器,得到属性增强的视觉特征;基于属性增强的视觉特征及联合生成对抗网络的解码器,得到重建图像特征;将重建图像特征划分为网格,使用基于位置协同定位的两路网络对每个网格进行实例分割,上路分支网络预测每个网格的类别属性,下路分支网络预测每个网格的实例掩码。其根据实例的位置和大小为每个像素分配类别,提高实例分割效果。

Description

基于零样本学习的联合生成式图像实例分割方法及系统
技术领域
本发明属于图像实例分割技术领域,尤其涉及一种基于零样本学习的联合生成式图像实例分割方法及系统。
背景技术
本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
图像实例分割是为了获得图像中每一个实例所的区域,尽管基于深度卷积模型的方法在这项任务中取得了良好的性能,但它们需要昂贵的密集注释来学习它们的众多参数。为了训练良好的实例分割模型,需要大量具有完整像素级标签的图像。但是,收集所有类别的标签数据是不切实际的。在实际场景中,通常会出现不同于训练中类别的新类别。在这种情况下,实例分割神经网络很难为它们做出正确的预测。这属于零样本学习的范畴下。由于在训练过程中缺乏看不见的类数据,零样本学习是一项具有挑战性的任务。
发明人发现,现有的方法试图通过一个共同的中间语义空间在视觉空间和类空间之间建立一种映射,但这往往导致域偏移的问题,即对看得见的样本有很强的偏向性,从而导致图像实例分割效果差的问题。
发明内容
为了解决上述背景技术中存在的技术问题,本发明提供一种基于零样本学习的联合生成式图像实例分割方法及系统,其利用重建的特征能够学习可见类和不可见类的区分性特征,并且使用基于语义和视觉信息协同聚类的方式进行实例分割,可以根据实例的位置和大小为实例中的每个像素分配类别,从而很好地将实例分割转化为一个单镜头分类可解决的问题,提高图像实例分割效果。
为了实现上述目的,本发明采用如下技术方案:
本发明的第一个方面提供一种基于零样本学习的联合生成式图像实例分割方法,其包括:
获取待分割的可见类图像和文本描述,分别提取视觉特征和属性语义特征;
拼接所述视觉特征和所述属性语义特征,得到拼接特征;
基于拼接特征及联合生成对抗网络的编码器,得到属性增强的视觉特征;
基于属性增强的视觉特征及联合生成对抗网络的解码器,得到重建图像特征;
将所述重建图像特征网格化处理,使用基于位置协同定位的两路网络对每个网格进行实例分割;其中,一路分支网络用于预测每个网格的类别属性,另一路分支网络用于预测每个网格的实例掩码;
采用非最大值抑制算法处理所有网格的实例分割结果,得到最终的实例分割结果。
作为一种实施方式,所述基于位置协同定位的两路网络的训练过程中的损失函数为:实例类别分支损失函数与实例掩码分支损失函数之和。
作为一种实施方式,所述实例掩码分支损失函数为:
Figure 100002_DEST_PATH_IMAGE001
其中,
Figure 191527DEST_PATH_IMAGE002
为实例掩码分支损失函数;
Figure 100002_DEST_PATH_IMAGE003
表示正样本数量;G是指标函数;
Figure 841951DEST_PATH_IMAGE004
为交叉熵损失;
Figure 100002_DEST_PATH_IMAGE005
是实例掩膜的第k个通道的分割掩码;
Figure 969307DEST_PATH_IMAGE006
表示实例掩膜的第k个通道的掩膜标签。
作为一种实施方式,将重建图像特征和从待分割的可见类图像中直接提取的视觉特征作为输入样本,基于生成对抗损失和变分损失来训练联合生成对抗网络。
作为一种实施方式,联合生成对抗网络的解码器由变分自动编码器和对抗生成器两部分构成,用于分别重建可见类图像的特征。
本发明的第二个方面提供了一种基于零样本学习的联合生成式图像实例分割系统,其包括:
特征提取模块,其用于获取待分割的可见类图像和文本描述,分别提取视觉特征和属性语义特征;
特征拼接模块,其用于拼接所述视觉特征和所述属性语义特征,得到拼接特征;
视觉特征增强模块,其用于基于拼接特征及联合生成对抗网络的编码器,得到属性增强的视觉特征;
图像特征重建模块,其用于基于属性增强的视觉特征及联合生成对抗网络的解码器,得到重建图像特征;
网格实例分割模块,其用于将所述重建图像特征网格化处理,使用基于位置协同定位的两路网络对每个网格进行实例分割;其中,一路分支网络用于预测每个网格的类别属性,另一路分支网络用于预测每个网格的实例掩码;
实例分割结果确定模块,其用于采用非最大值抑制算法处理所有网格的实例分割结果,得到最终的实例分割结果。
作为一种实施方式,所述基于位置协同定位的两路网络的训练过程中的损失函数为:实例类别分支损失函数与实例掩码分支损失函数之和。
作为一种实施方式,所述实例掩码分支损失函数为:
Figure 603550DEST_PATH_IMAGE001
其中,
Figure 904082DEST_PATH_IMAGE002
为实例掩码分支损失函数;
Figure 674592DEST_PATH_IMAGE003
表示正样本数量;G是指标函数;
Figure 769587DEST_PATH_IMAGE004
为交叉熵损失;
Figure 891126DEST_PATH_IMAGE005
是实例掩膜的第k个通道的分割掩码;
Figure 729769DEST_PATH_IMAGE006
表示实例掩膜的第k个通道的掩膜标签。
本发明的第三个方面提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述所述的基于零样本学习的联合生成式图像实例分割方法中的步骤。
本发明的第四个方面提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述所述的基于零样本学习的联合生成式图像实例分割方法中的步骤。
与现有技术相比,本发明的有益效果是:
本发明基于零样本的图像实例分割,结合了变分推理和生成对抗来缩小可见类和不可见类的特征差异,并且利用类级语义属性作为条件信息,基于像素和整体重构的特征生成,重建的特征能够学习到可见类和不可见类的区分性特征,并且使用基于语义和视觉信息协同聚类的方式进行实例分割,可以根据实例的位置和大小为实例中的每个像素分配类别,从而很好地将实例分割转化为一个单镜头分类可解决的问题,提高了图像实例分割效果。
本发明附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1是本发明实施例的基于零样本学习的联合生成式图像实例分割方法流程图。
具体实施方式
下面结合附图与实施例对本发明作进一步说明。
应该指出,以下详细说明都是例示性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
实施例一
参照图1,本实施例提供了一种基于零样本学习的联合生成式图像实例分割方法,其包括:
步骤S101:获取待分割的可见类图像和文本描述,分别提取视觉特征和属性语义特征。
在步骤S101的具体实施过程中,使用骨干网络提取可见类图像的视觉特征,对文本描述进行编码得到属性语义特征。例如:骨干网络为ResNet101。
此处需要说明的是,在其他实施例中,骨干网络也可为其他现有的网络结构,本领域技术人员可根据实际情况来具体选择,此处不再累述。
步骤S102:拼接所述视觉特征和所述属性语义特征,得到拼接特征。
在步骤S102中,所述视觉特征的维度是1×D1,所述属性语义特征的维度是1×D2,拼接后的特征的维度为1×(D1+D2)
步骤S103:基于拼接特征及联合生成对抗网络的编码器,得到属性增强的视觉特征。
其中,联合生成对抗网络包含编码器(E),解码器(G)和判别器(D),对抗性分类器(C)等三部分,其中基于对抗式学习的分类器用于确保生成的特征具有类别级的区分性,基于感知重构的生成器为特征生成保留了更多的语义信息。
编码器E同时捕捉视觉特征x和属性语义特征s,并将联合编码特征映射到一个潜在的空间,然后解码器G将潜在表示解码至特征空间进行重构。该重构由两部分构成,二者共享解码器的权重。一部分是由条件变分编码器实现,其损失函数包含KL(Kullback-Leibler)散度损失
Figure DEST_PATH_IMAGE007
和重构损失
Figure 89207DEST_PATH_IMAGE008
构成:
Figure DEST_PATH_IMAGE009
(1)
Figure 89524DEST_PATH_IMAGE010
(2)
Figure DEST_PATH_IMAGE011
(3)
其中
Figure 901622DEST_PATH_IMAGE012
表示条件变分编码器的损失函数;
Figure DEST_PATH_IMAGE013
Figure 543956DEST_PATH_IMAGE014
Figure DEST_PATH_IMAGE015
分别表示视觉特征和属性语义特征的先验分布,
Figure 754970DEST_PATH_IMAGE016
是高斯分布,
Figure DEST_PATH_IMAGE017
是高斯噪声。
Figure 926188DEST_PATH_IMAGE018
表示编码器E的参数,
Figure DEST_PATH_IMAGE019
表示期望,通过最小化公式(2)可以减小潜在表示的分布与其先验分布之间的差距,最小化公式(3)可以减少真实图像和重构图像之间平方误差。
解码器的另一部分由对抗生成器构成,为了在像素相似度的基础上获取更具有区分性的全局信息,进一步使用判别器D进行对抗学习:
Figure 225582DEST_PATH_IMAGE020
其中
Figure DEST_PATH_IMAGE021
为判别器D的损失;
Figure 406028DEST_PATH_IMAGE022
是联合编码特征。生成器G(因为变分编码器和对抗生成器共享网络参数和网络结构,这里使用G来表示生成器,不再区分表示)旨在合成与真实视觉特征分布相似的特征,而判别器则试图将真实视觉特征与生成的视觉特征区分开来。
为了确保生成的视觉特征具有类别级的区分性,分类器也采用对抗式设计:
Figure DEST_PATH_IMAGE023
其中
Figure 474478DEST_PATH_IMAGE024
为分类器的损失;x是真实视觉特征,
Figure DEST_PATH_IMAGE025
是生成器G基于潜在表示
Figure 816598DEST_PATH_IMAGE026
生成的视觉特征,
Figure DEST_PATH_IMAGE027
是生成器G基于高斯噪声z生成的视觉特征,
Figure 603288DEST_PATH_IMAGE028
分类器C的参数。分类器C不仅必须要正确地将真实视觉特征映射到它们对应的K个类中,而且要将生成器G生成的特征分类到附加类(K+1)上。综上,联合模型的总体目标函数L为:
Figure DEST_PATH_IMAGE029
经过对整个模型的训练,生成器G能够高质量地合成视觉特征。给定一个高斯噪声z和已知类或陌生类的语义嵌入s,由生成器生成特征
Figure 321846DEST_PATH_IMAGE030
如下:
Figure DEST_PATH_IMAGE031
步骤S104:基于属性增强的视觉特征及联合生成对抗网络的解码器,得到重建图像特征。
步骤S105:将所述重建图像特征网格化处理,使用基于位置协同定位的两路网络对每个网格进行实例分割;其中,一路分支网络用于预测每个网格的类别属性,另一路分支网络用于预测每个网格的实例掩码。
实例类别信息的实例分割模块有两个分支:实例类别分支和实例掩码分支。生成的增强特征大小为
Figure 510381DEST_PATH_IMAGE032
,将其化为
Figure DEST_PATH_IMAGE033
个方格,然后分别输入到两个分支中。实例类别分支使用修改后的Resnet18模型,使得模型输出大小满足
Figure 23402DEST_PATH_IMAGE034
,其中C为类别数。具体来说,如果网格
Figure DEST_PATH_IMAGE035
落入任何标签掩膜的中心区域,则将其视为正样本;否则,它为负样本。对于标签掩膜,给定掩膜质心
Figure 562968DEST_PATH_IMAGE036
,宽高
Figure DEST_PATH_IMAGE037
,中心区域设置为
Figure 285549DEST_PATH_IMAGE038
。对于实例掩码分支,首先创建一个大小为
Figure DEST_PATH_IMAGE039
的张量,使用CoordConv获得归一化的图像的x-y坐标信息。将坐标信息和特征拼接后的张量(大小为
Figure 328591DEST_PATH_IMAGE040
)输入到改进后的FCN网络,使得模型输出大小满足
Figure DEST_PATH_IMAGE041
,即每个图像(原始尺寸为
Figure 12514DEST_PATH_IMAGE042
)都会有
Figure DEST_PATH_IMAGE043
个输出掩膜。实例掩膜的第k个通道就可以很自然的和类别信息通过网格
Figure 508217DEST_PATH_IMAGE035
联系起来,
Figure 834156DEST_PATH_IMAGE044
实例分割模块的损失函数
Figure DEST_PATH_IMAGE045
如下:
Figure 731705DEST_PATH_IMAGE046
实例类别分支的
Figure DEST_PATH_IMAGE047
采用Focal Loss;其中,Focal Loss为一种处理样本分类不均衡的损失函数,其公式为现有技术,此处不再详述。
实例掩码分支的
Figure 586528DEST_PATH_IMAGE002
Figure 366266DEST_PATH_IMAGE001
其中,
Figure 230316DEST_PATH_IMAGE002
为实例掩码分支损失函数;
Figure 247951DEST_PATH_IMAGE003
表示正样本数量;G是指标函数;
Figure 70413DEST_PATH_IMAGE004
为交叉熵损失;
Figure 806288DEST_PATH_IMAGE005
是实例掩膜的第k个通道的分割掩码;
Figure 739609DEST_PATH_IMAGE006
表示实例掩膜的第k个通道的掩膜标签。
S106:采用非最大值抑制算法处理所有网格的实例分割结果,得到最终的实例分割结果。
直接对每个网格来建立最终的实例分割结果。原始的实例分割结果是通过收集所有网格结果生成的。采用非最大抑制(non-maximum-suppression, NMS)算法得到最终的实例分割结果。不需要其他的后期处理操作。
本实施例采用了联合生成模型来解决零样本学习的实例分割的问题,基于生成的特征适用于解决可见类样本和不可见类样本之间的域迁移现状,此外基于视觉信息和属性信息的位置协同实例分割方法以聚类的方式将从而很好地将实例分割转化为一个单目分类可解决的问题。
表1是本实施例的该方法的一个仿真实验,该实验采用平均查准率和平均召回率进行度量。本任务使用的公开数据集MS-COCO,将其分为48个可见类和17个不可见类。
与现有技术相比,本实施例的该方法,极大地降低了过拟合现象,提高了实例分割的性能。
表1 本发明与其他算法准确度比较
Figure 877330DEST_PATH_IMAGE048
其中,表1涉及到的其他方法定义如下:
DSES:是没有采用端到端的训练方式,选用极为耗时的Edge-Box候选框产生方式,加上了80类之外物体的候选框用于训练,并采用基于残差网络的Inception-v2网络来提取候选框的参数。在损失函数上,使用了最大化边缘距离来对齐语义特征和视觉特。
PL:是主曲线算法,是Hastie于1984年提出的。主曲线是通过数据分布“中央”并满足“自相合”的光滑曲线,其目的是根据给定的数据集合求出一条曲线,使得这条曲线对给定的数据集合是某种意义下的对偶。
BLC:Black Level Correction,黑电平校正算法,黑电平也就是黑色的最低点,以8bit数据来说,指在经过一定校准的显示装置上,没有一行光亮输出的视频信号电平。定义图像数据为0时对应的信号电平。
为了减小可见类数据和未可见类数据之间的差距,本实施例提出了一种联合生成模型来综合特征作为未可见类数据的替代。基于所生成的特征,可以对传统的零样本学习问题进行监督处理,集成了变分自动编码器(VAE)和基于类级语义属性的通用生成对抗网络(GAN),用于基于像素和整体重构的特征生成,重建的特征能够学习到可见类和不可见类的区分性特征,并且使用基于语义和视觉信息协同聚类的方式进行实例分割,可以根据实例的位置和大小为实例中的每个像素分配类别,从而很好地将实例分割转化为一个单镜头分类可解决的问题。
实施例二
本实施例提供一种基于零样本学习的联合生成式图像实例分割系统,其包括:
(1)特征提取模块,其用于获取待分割的可见类图像和文本描述,分别提取视觉特征和属性语义特征。
(2)特征拼接模块,其用于拼接所述视觉特征和所述属性语义特征,得到拼接特征。
(3)视觉特征增强模块,其用于基于拼接特征及联合生成对抗网络的编码器,得到属性增强的视觉特征。
(4)图像特征重建模块,其用于基于属性增强的视觉特征及联合生成对抗网络的解码器,得到重建图像特征。
(5)网格实例分割模块,其用于将所述重建图像特征网格化处理,使用基于位置协同定位的两路网络对每个网格进行实例分割;其中,一路分支网络用于预测每个网格的类别属性,另一路分支网络用于预测每个网格的实例掩码。
在具体实施过程中,所述基于位置协同定位的两路网络的训练过程中的损失函数为:实例类别分支损失函数与实例掩码分支损失函数之和。
其中,所述实例掩码分支损失函数为:
Figure 605114DEST_PATH_IMAGE001
其中,
Figure 90935DEST_PATH_IMAGE002
为实例掩码分支损失函数;
Figure 296788DEST_PATH_IMAGE003
表示正样本数量;G是指标函数;
Figure 554594DEST_PATH_IMAGE004
为交叉熵损失;
Figure 453280DEST_PATH_IMAGE005
是实例掩膜的第k个通道的分割掩码;
Figure 163747DEST_PATH_IMAGE006
表示实例掩膜的第k个通道的掩膜标签。
(6)实例分割结果确定模块,其用于采用非最大值抑制算法处理所有网格的实例分割结果,得到最终的实例分割结果。
此处需要说明的是,本实施例中的各个模块与实施例一中的各个步骤一一对应,其具体实施过程相同,此处不再累述。
实施例三
本实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述所述的基于零样本学习的联合生成式图像实例分割方法中的步骤。
实施例四
本实施例提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述所述的基于零样本学习的联合生成式图像实例分割方法中的步骤。
本发明是参照本发明实施例的方法、设备(系统)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于零样本学习的联合生成式图像实例分割方法,其特征在于,包括:
获取待分割的可见类图像和文本描述,分别提取视觉特征和属性语义特征;
拼接所述视觉特征和所述属性语义特征,得到拼接特征;
基于拼接特征及联合生成对抗网络的编码器,得到属性增强的视觉特征;
基于属性增强的视觉特征及联合生成对抗网络的解码器,得到重建图像特征;
将所述重建图像特征网格化处理,使用基于位置协同定位的两路网络对每个网格进行实例分割;其中,一路分支网络用于预测每个网格的类别属性,另一路分支网络用于预测每个网格的实例掩码;
采用非最大值抑制算法处理所有网格的实例分割结果,得到最终的实例分割结果。
2.如权利要求1所述的基于零样本学习的联合生成式图像实例分割方法,其特征在于,所述基于位置协同定位的两路网络的训练过程中的损失函数为:实例类别分支损失函数与实例掩码分支损失函数之和。
3.如权利要求2所述的基于零样本学习的联合生成式图像实例分割方法,其特征在于,所述实例掩码分支损失函数为:
Figure DEST_PATH_IMAGE001
其中,
Figure 294740DEST_PATH_IMAGE002
为实例掩码分支损失函数;
Figure DEST_PATH_IMAGE003
表示正样本数量;G是指标函数;
Figure 918619DEST_PATH_IMAGE004
为交叉熵损失;
Figure DEST_PATH_IMAGE005
是实例掩膜的第k个通道的分割掩码;
Figure 594451DEST_PATH_IMAGE006
表示实例掩膜的第k个通道的掩膜标签。
4.如权利要求1所述的基于零样本学习的联合生成式图像实例分割方法,其特征在于,将重建图像特征和从待分割的可见类图像中直接提取的视觉特征作为输入样本,基于生成对抗损失和变分损失来训练联合生成对抗网络。
5.如权利要求1所述的基于零样本学习的联合生成式图像实例分割方法,其特征在于,联合生成对抗网络的解码器由变分自动编码器和对抗生成器两部分构成,用于分别重建可见类图像的特征。
6.一种基于零样本学习的联合生成式图像实例分割系统,其特征在于,包括:
特征提取模块,其用于获取待分割的可见类图像和文本描述,分别提取视觉特征和属性语义特征;
特征拼接模块,其用于拼接所述视觉特征和所述属性语义特征,得到拼接特征;
视觉特征增强模块,其用于基于拼接特征及联合生成对抗网络的编码器,得到属性增强的视觉特征;
图像特征重建模块,其用于基于属性增强的视觉特征及联合生成对抗网络的解码器,得到重建图像特征;
网格实例分割模块,其用于将所述重建图像特征网格化处理,使用基于位置协同定位的两路网络对每个网格进行实例分割;其中,一路分支网络用于预测每个网格的类别属性,另一路分支网络用于预测每个网格的实例掩码;
实例分割结果确定模块,其用于采用非最大值抑制算法处理所有网格的实例分割结果,得到最终的实例分割结果。
7.如权利要求6所述的基于零样本学习的联合生成式图像实例分割系统,其特征在于,所述基于位置协同定位的两路网络的训练过程中的损失函数为:实例类别分支损失函数与实例掩码分支损失函数之和。
8.如权利要求7所述的基于零样本学习的联合生成式图像实例分割系统,其特征在于,所述实例掩码分支损失函数为:
Figure 176742DEST_PATH_IMAGE001
其中,
Figure 836393DEST_PATH_IMAGE002
为实例掩码分支损失函数;
Figure 529543DEST_PATH_IMAGE003
表示正样本数量;G是指标函数;
Figure 325461DEST_PATH_IMAGE004
为交叉熵损失;
Figure 78653DEST_PATH_IMAGE005
是实例掩膜的第k个通道的分割掩码;
Figure 225601DEST_PATH_IMAGE006
表示实例掩膜的第k个通道的掩膜标签。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-5中任一项所述的基于零样本学习的联合生成式图像实例分割方法中的步骤。
10.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-5中任一项所述的基于零样本学习的联合生成式图像实例分割方法中的步骤。
CN202211256409.0A 2022-10-14 2022-10-14 基于零样本学习的联合生成式图像实例分割方法及系统 Active CN115331012B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211256409.0A CN115331012B (zh) 2022-10-14 2022-10-14 基于零样本学习的联合生成式图像实例分割方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211256409.0A CN115331012B (zh) 2022-10-14 2022-10-14 基于零样本学习的联合生成式图像实例分割方法及系统

Publications (2)

Publication Number Publication Date
CN115331012A true CN115331012A (zh) 2022-11-11
CN115331012B CN115331012B (zh) 2023-03-24

Family

ID=83914305

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211256409.0A Active CN115331012B (zh) 2022-10-14 2022-10-14 基于零样本学习的联合生成式图像实例分割方法及系统

Country Status (1)

Country Link
CN (1) CN115331012B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116958712A (zh) * 2023-09-20 2023-10-27 山东建筑大学 基于先验概率分布的图像生成方法、系统、介质及设备
CN117407557A (zh) * 2023-12-13 2024-01-16 江西云眼视界科技股份有限公司 零样本实例分割方法、系统、可读存储介质及计算机

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104537660A (zh) * 2014-12-25 2015-04-22 西安电子科技大学 基于多目标智能体进化聚类算法的图像分割方法
US20180260957A1 (en) * 2017-03-08 2018-09-13 Siemens Healthcare Gmbh Automatic Liver Segmentation Using Adversarial Image-to-Image Network
CN110097131A (zh) * 2019-05-08 2019-08-06 南京大学 一种基于对抗协同训练的半监督医疗图像分割方法
CN110826639A (zh) * 2019-11-12 2020-02-21 福州大学 一种利用全量数据训练零样本图像分类方法
CN112085738A (zh) * 2020-08-14 2020-12-15 南京邮电大学 一种基于生成对抗网络的图像分割方法
CN112233132A (zh) * 2020-10-26 2021-01-15 上海明略人工智能(集团)有限公司 一种基于无监督学习的脑磁共振图像分割方法及装置
CN112330685A (zh) * 2020-12-28 2021-02-05 北京达佳互联信息技术有限公司 图像分割模型训练、图像分割方法、装置及电子设备
CN112364894A (zh) * 2020-10-23 2021-02-12 天津大学 一种基于元学习的对抗网络的零样本图像分类方法
CN112651940A (zh) * 2020-12-25 2021-04-13 郑州轻工业大学 基于双编码器生成式对抗网络的协同视觉显著性检测方法
CN112767405A (zh) * 2021-01-18 2021-05-07 北京工商大学 一种基于图注意力网络的三维网格模型分割方法及系统
CN113642621A (zh) * 2021-08-03 2021-11-12 南京邮电大学 基于生成对抗网络的零样本图像分类方法
CN113936139A (zh) * 2021-10-29 2022-01-14 江苏大学 一种视觉深度信息与语义分割相结合的场景鸟瞰图重构方法及系统
US20220067994A1 (en) * 2020-09-01 2022-03-03 Amazon Technologies, Inc. Catalog normalization and segmentation for fashion images

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104537660A (zh) * 2014-12-25 2015-04-22 西安电子科技大学 基于多目标智能体进化聚类算法的图像分割方法
US20180260957A1 (en) * 2017-03-08 2018-09-13 Siemens Healthcare Gmbh Automatic Liver Segmentation Using Adversarial Image-to-Image Network
CN110097131A (zh) * 2019-05-08 2019-08-06 南京大学 一种基于对抗协同训练的半监督医疗图像分割方法
CN110826639A (zh) * 2019-11-12 2020-02-21 福州大学 一种利用全量数据训练零样本图像分类方法
CN112085738A (zh) * 2020-08-14 2020-12-15 南京邮电大学 一种基于生成对抗网络的图像分割方法
US20220067994A1 (en) * 2020-09-01 2022-03-03 Amazon Technologies, Inc. Catalog normalization and segmentation for fashion images
CN112364894A (zh) * 2020-10-23 2021-02-12 天津大学 一种基于元学习的对抗网络的零样本图像分类方法
CN112233132A (zh) * 2020-10-26 2021-01-15 上海明略人工智能(集团)有限公司 一种基于无监督学习的脑磁共振图像分割方法及装置
CN112651940A (zh) * 2020-12-25 2021-04-13 郑州轻工业大学 基于双编码器生成式对抗网络的协同视觉显著性检测方法
CN112330685A (zh) * 2020-12-28 2021-02-05 北京达佳互联信息技术有限公司 图像分割模型训练、图像分割方法、装置及电子设备
CN112767405A (zh) * 2021-01-18 2021-05-07 北京工商大学 一种基于图注意力网络的三维网格模型分割方法及系统
CN113642621A (zh) * 2021-08-03 2021-11-12 南京邮电大学 基于生成对抗网络的零样本图像分类方法
CN113936139A (zh) * 2021-10-29 2022-01-14 江苏大学 一种视觉深度信息与语义分割相结合的场景鸟瞰图重构方法及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
孙亮等: "基于生成对抗网络的多视图学习与重构算法", 《自动化学报》 *
聂秀山等: "基于自然语言的视频片段定位综述", 《计算机科学》 *
董涛: "基于纹理图像与网格协同优化算法的三维模型压缩", 《科技资讯》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116958712A (zh) * 2023-09-20 2023-10-27 山东建筑大学 基于先验概率分布的图像生成方法、系统、介质及设备
CN116958712B (zh) * 2023-09-20 2023-12-15 山东建筑大学 基于先验概率分布的图像生成方法、系统、介质及设备
CN117407557A (zh) * 2023-12-13 2024-01-16 江西云眼视界科技股份有限公司 零样本实例分割方法、系统、可读存储介质及计算机
CN117407557B (zh) * 2023-12-13 2024-05-07 江西云眼视界科技股份有限公司 零样本实例分割方法、系统、可读存储介质及计算机

Also Published As

Publication number Publication date
CN115331012B (zh) 2023-03-24

Similar Documents

Publication Publication Date Title
CN111898507B (zh) 一种预测无标签遥感影像地表覆盖类别的深度学习方法
CN110136170B (zh) 一种基于卷积神经网络的遥感影像建筑物变化检测方法
CN115331012B (zh) 基于零样本学习的联合生成式图像实例分割方法及系统
CN103049763B (zh) 一种基于上下文约束的目标识别方法
US11507777B2 (en) Labeling techniques for a modified panoptic labeling neural network
CN111986099A (zh) 基于融合残差修正的卷积神经网络的耕地监测方法及系统
CN114219943B (zh) 一种基于深度学习的ct图像危及器官分割系统
CN112712273B (zh) 一种基于骨架相似度的手写体汉字美观度评判方法
CN103903013A (zh) 一种无标记平面物体识别的优化算法
CN114758288A (zh) 一种配电网工程安全管控检测方法及装置
CN112884758B (zh) 一种基于风格迁移方法的缺陷绝缘子样本生成方法及系统
CN114841972A (zh) 基于显著性图和语义嵌入特征金字塔的输电线路缺陷识别方法
CN104036296A (zh) 一种图像的表示和处理方法及装置
CN113505670A (zh) 基于多尺度cam和超像素的遥感图像弱监督建筑提取方法
KR20200075940A (ko) 실시간 데이터 셋 확대 생성 시스템, 실시간 데이터 셋 확대 생성 방법, 및 이를 실행시키기 위한 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체
CN112149689A (zh) 基于目标领域自监督学习的无监督领域适应方法和系统
CN117496347A (zh) 遥感影像建筑物提取方法、装置及介质
CN114519819A (zh) 一种基于全局上下文感知的遥感图像目标检测方法
CN113076806A (zh) 一种结构增强的半监督在线地图生成方法
CN114494893B (zh) 基于语义重用上下文特征金字塔的遥感图像特征提取方法
CN115641344A (zh) 一种眼底图像中视盘图像的分割方法
CN113628349B (zh) 基于场景内容自适应的ar导航方法、设备及可读存储介质
CN115482463A (zh) 一种生成对抗网络矿区土地覆盖识别方法及系统
CN114359956B (zh) 一种基于图像转换的半监督行人检测方法
KR102648354B1 (ko) 인공 신경망을 이용한 영상 변환 시스템 및 그 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant