CN116051909B - 一种直推式零次学习的未见类图片分类方法、设备及介质 - Google Patents

一种直推式零次学习的未见类图片分类方法、设备及介质 Download PDF

Info

Publication number
CN116051909B
CN116051909B CN202310205176.XA CN202310205176A CN116051909B CN 116051909 B CN116051909 B CN 116051909B CN 202310205176 A CN202310205176 A CN 202310205176A CN 116051909 B CN116051909 B CN 116051909B
Authority
CN
China
Prior art keywords
visual
unseen
class
semantic
visible
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310205176.XA
Other languages
English (en)
Other versions
CN116051909A (zh
Inventor
何向南
王志才
郝艳宾
王硕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
Original Assignee
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC filed Critical University of Science and Technology of China USTC
Priority to CN202310205176.XA priority Critical patent/CN116051909B/zh
Publication of CN116051909A publication Critical patent/CN116051909A/zh
Application granted granted Critical
Publication of CN116051909B publication Critical patent/CN116051909B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种直推式零次学习的未见类图片分类方法、设备及介质,该方法是使用双向跨模态生成算法,包括视觉‑语义对齐模型和视觉‑视觉对齐模型,其中,视觉‑语义对齐模型通过监督学习和非条件式对抗式训练方法实现从视觉特征解析语义信息的功能;语义‑视觉对齐模型通过条件式非条件式对抗式训练方法实现从语义信息生成视觉特征的功能。本发明具有对训练过程中未见种类数据的分类功能,同时具有通过语义描述生成准备的视觉特征,可以解决现实生活中对标注数据稀缺的问题,满足视觉场景下对数据增广的需求。

Description

一种直推式零次学习的未见类图片分类方法、设备及介质
技术领域
本发明涉及计算机视觉技术领域,尤其涉及零样本学习中的对未见过数据的准确分类。
背景技术
零样本学习 (Zero-Shot Learning,ZSL) 最初被提出为计算机视觉中的零数据学习,旨在解决现实中有标签数据难以获取的情况下,模型能够通过对有限的已标注数据学习实现对其从没见过的未见类(unseen classes)的分类。例如,在传统的 ZSL 中,没有为未见类提供训练示例, 但同时提供了大量的训练样例与他们的类别标签配对的数据,这些已匹配的数据类别称为已见类(seen classes)。为了实现对已见类数据学习的知识可以迁移到未见类别上,通常会使用辅助信息作为桥梁来进行知识迁移。这样的辅助信息,例如类别属性(attribute),使用者可以知道特定某个已见类的属性分布,比如对于‘猫’这个类别,‘它有毛’的属性值为‘1’,‘它有鱼鳍’的属性值为‘0’,‘它有尾巴’的属性值为‘1’等等;对于未见类‘海豚’,‘它有毛’的属性值为‘0’,‘它有鱼鳍’的属性值为‘1’,‘它有尾巴’的属性值为‘0’。该方法通过在已见类数据上对属性知识的学习,来实现利用未见类属性来对这些未见数据的分类,即让模型获得了推理的能力。
但是完全无训练示例的零样本学习很容易导致领域漂移的问题(domain shift),即模型建模的分布与实际分布存在偏差。因此该发明建立在未见类的训练示例可以在模型训练的时候使用,但是其与未见类标签是未匹配的情况下,这也被称为直推式(transductive)零样本学习(TZSL)。注意这样的假设是合理,因为在现实场景下获取大量未标注数据的难度要低很多。
针对现有的零样本学习,其存在的问题可以总结如下:
1、传统的零样本学习有显著的领域漂移问题,由于其无法利用未匹配标签的未见类训练示例来监督模型建模的未见类数据分布,如图1所示。
2、目前已经有的直推式零样本学习方案十分依赖辅助信息的质量,当辅助信息质量较低时,知识迁移效果不佳,对未见类的分类准确率较低。
3、基于生成式的直推式零样本学习方案十分依赖未见类别的频率分布先验知识,即给定特定未见类别,需要同时给定它在测试数据中的分布占比,从而才能实现良好的知识迁移结果。对于未见类分布先验未知的情况下,模型的知识迁移能力会极大的坍塌。
发明内容
本发明是为了解决上述现有技术存在的不足之处,提出一种直推式零次学习的未见类图片分类方法、设备及介质,以期能将已见类知识的学习准确鲁棒的迁移到未见类的分类当中去,从而能解决现实情况中已标注数据稀少的情形,以满足视觉场景下对数据增广的需求。
本发明的目的是通过以下技术方案实现的:
本发明一种直推式零次学习的未见类图片分类方法的特点在于,是按照如下步骤进行:
步骤1、构建图像-多语言字幕数据集D = {Vs, Ys, As, Vu, Au};其中,Vs已见类视觉特征集合,Ys表示所述已见类视觉特征集Vs的标签集合,令ns代表已见类视觉特征集合Vs的样本数目,As代表已见类视觉特征集Vs的已见类标签集合Ys相对应的已见类语义描述向量集合,Ns代表已见类标签集合Ys的种类数目;Vu表示未见类图像特征集,Au表示未见类图像特征集Vu的未见类标签集合相对应的未见类语义描述向量集合,令nu代表未见类标签集合Ys的样本数目,令Nu代表未见类标签集合的种类数目;
步骤2、构建基于多层感知机网络的双向式分布对齐方式模型,包括,视觉编码网络E,视觉生成网络G,回归器R,非条件式属性判别器Da,条件式视觉判别器D和非条件式视觉判别器Du
步骤2.1、构建由回归器R和非条件式属性判别器Da组成的视觉-语义对齐模型,并用于实现对视觉特征的语义信息预测;
步骤2.2、构建由视觉编码网络E,视觉生成网络G,回归器R,条件式视觉判别器D和非条件式视觉判别器Du组成的语义-视觉对齐模型,并用于实现对语义特征的视觉特征解析生成;
步骤3、基于图像-多语言字幕数据集D,利用AdamW优化器对所述双向式分布对齐方式模型进行训练,并计算两个总体训练损失函数Loss1和Loss2以更新模型参数,直到Loss1和Loss2收敛为止,从而得到训练好的双向式分布对齐方式模型;
步骤4、获取另一未见类的标签数据集
Figure SMS_1
,并与未见类语义描述向量集合Au一起输入训练好的视觉生成网络G中,以生成一定量的合成数据/>
Figure SMS_2
,从而得到带标签的合成未见类数据/>
Figure SMS_3
步骤5、基于
Figure SMS_4
训练分类器f,并利用训练好的分类器f对未见类图像特征集Vu分配伪标签/>
Figure SMS_5
,实现对未见类视觉特征的分类。
本发明所述的直推式零次学习的未见类图片分类方法的特点也在于,所述步骤2.1包括:
步骤2.1.1、从已见类视觉特征集合Vs中随机采样得到一个已见类图像特征vs输入回归器R中,并经过全连接层的映射后得到输出已见类图像特征表示R(vs),将vs对应标签ys的语义描述as作为监督信号,从而利用式(1)构建已见类监督损失函数
Figure SMS_6
Figure SMS_7
(1)
式(1)中,E表示期望;
步骤2.1.2、基于采样分布
Figure SMS_8
从未见类语义向量集合Au中采样得到一个未见类语义描述向量au并输入回归器R中进行处理,从而得到输出伪未见类语义向量/>
Figure SMS_9
;y表示标签自变量;对au和/>
Figure SMS_10
进行球面插值计算,得到插值后的插值未见类语义向量/>
Figure SMS_11
,且
Figure SMS_12
,其中,/>
Figure SMS_13
表示插值分布;
将au
Figure SMS_14
和/>
Figure SMS_15
输入所述非条件式属性判别器Da中进行处理,并得到真实未见类语义判别分数表示Da(au),伪未见类语义判别分数表示/>
Figure SMS_16
和插值未见类语义判别分数表示/>
Figure SMS_17
,从而利用式(2)构建语义非条件式对抗式训练损失函数/>
Figure SMS_18
Figure SMS_19
(2)
步骤2.1.3、利用式(3)构建所述视觉-语义对齐模型的总体训练损失函数Loss1
Figure SMS_20
(3)。
所述步骤2.2包括:
步骤2.2.1、从正态分布
Figure SMS_21
中随机采样高斯噪声z,并与语义描述as拼接后输入视觉生成网络G中进行处理,得到伪已见类视觉特征/>
Figure SMS_22
;再对vs和/>
Figure SMS_23
进行球面插值计算,得到插值后的插值已见类视觉特征/>
Figure SMS_24
将vs和as拼接,将
Figure SMS_25
和as拼接,将/>
Figure SMS_26
和as拼接后分别输入所述条件式视觉判别器D中进行处理,得到真实已见类判别分数输出D(vs,as),伪已见类判别分/>
Figure SMS_27
和插值已见类判别分数/>
Figure SMS_28
,从而利用式(4)构建视觉条件式对抗式训练损失函数
Figure SMS_29
Figure SMS_30
(4)
式(4)中,
Figure SMS_31
表示对/>
Figure SMS_32
求梯度;
步骤2.2.2、从未见类视觉特征集合Vu中随机采样得到一个未见类图像特征vu,将z和au拼接后输入所述视觉生成网络G中进行处理,并得到伪未见类视觉特征
Figure SMS_33
;再对vu
Figure SMS_34
进行球面插值计算,得到插值未见类视觉特征/>
Figure SMS_35
将vu
Figure SMS_36
和/>
Figure SMS_37
分别输入所述条件式视觉判别器D中进行处理,相应得到真实未见类判别分数Du(vu),伪未见类判别分数/>
Figure SMS_38
和插值未见类判别分数/>
Figure SMS_39
,从而利用式(5)构建视觉非条件对抗式训练损失函数/>
Figure SMS_40
Figure SMS_41
(5)
步骤2.2.3、将z和au拼接后输入所述视觉生成网络G中进行处理,并得到未见类生成特征表示G(au,z);将G(au,z)所述回归器R中进行处理,并得到重预测未见类语义信息表示R(G(au,z)),将au作为监督信号,从而利用式(6)构建未见类监督损失函数
Figure SMS_42
Figure SMS_43
(6)
步骤2.2.4、将vs,as拼接后输入所述视觉编码网络E中进行处理,并得到高斯分布输出E(vs,as);
从E(vs,as)中采样得到编码表示zs;再将zs和as拼接后输入所述视觉生成网络G中进行处理,并得到已见类生成特征G(as,vs),将vs作为监督信号,从而利用式(7)构建变分自编码损失函数
Figure SMS_44
Figure SMS_45
(7)
式(7)中,KL表示Kullback-Leibler 散度约束;
步骤2.2.5、利用式(8)构建所述语义-视觉对齐模型的总体训练损失函数Loss2
Figure SMS_46
(8)。
本发明一种电子设备,包括存储器以及处理器,其特征在于,所述存储器用于存储支持处理器执行任一所述直推式零次学习的未见类图片分类方法的程序,所述处理器被配置为用于执行所述存储器中存储的程序。
本发明一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器运行时执行任一所述直推式零次学习的未见类图片分类方法的步骤。
与现有技术相比,本发明的有益效果在于:
1、对于直推式零样本学习,本发明利用生成式的方法建模属性数据到图片的生成路径,利用数据增广的方式来模拟未见类的图片分布,同时创造性的提出了直推式回归器(transductive regressor,TR),将生成的增广数据映射回到属性数据上,从而提高了对未见类图片的识别准确率,可以缓解现实场景下对标注数据稀缺的矛盾现状。
2、对于生成式的学习方式,本发明提出使用L2归一化方式进行数据的预处理,相较于以往利用Min-Max归一化的方式,前者更利于模型建模真实数据的值分布,从而提高了模型的图像生成准确性,有利于满足现实场景下数据增广的需求。
附图说明
图1为本发明中双向对齐的零次学习技术的流程图;
图2为本发明中双向对齐的零次学习技术的框架图;
图3为本发明实施例提供的回归器模型的训练策略图;
图4为本发明实施例提供的视觉生成网络模型的训练策略图;
图5为本发明实施例提供的CPE算法的伪代码图。
实施方式
本实施例中,一种直推式零次学习的未见类图片分类方法,是按照如下步骤进行:
步骤1、构建图像-多语言字幕数据集D = {Vs, Ys, As, Vu, Au};其中,Vs已见类视觉特征集合,Ys表示已见类视觉特征集Vs的标签集合,令ns代表已见类视觉特征集合Vs的样本数目,As代表已见类视觉特征集Vs的已见类标签集合Ys相对应的已见类语义描述向量集合,Ns代表已见类标签集合Ys的种类数目;Vu表示未见类图像特征集,Au表示未见类图像特征集Vu的未见类标签集合相对应的未见类语义描述向量集合,令nu代表未见类标签集合Ys的样本数目,令Nu代表未见类标签集合的种类数目;
步骤2、构建基于多层感知机网络的双向式分布对齐方式模型,包括,视觉编码网络E,视觉生成网络G,回归器R,非条件式属性判别器Da,条件式视觉判别器D和非条件式视觉判别器Du
步骤2.1、构建由回归器R和非条件式属性判别器Da组成的视觉-语义对齐模型,并用于实现对视觉特征的语义信息预测,模型流程图如图3所示;
步骤2.1.1、从已见类视觉特征集合Vs中随机采样得到一个已见类图像特征vs输入回归器R中,并经过全连接层的映射后得到输出已见类图像特征表示R(vs),将vs对应标签ys的语义描述as作为监督信号,从而利用式(1)构建已见类监督损失函数
Figure SMS_47
Figure SMS_48
(1)
式(1)中,E表示期望;
步骤2.1.2、基于采样分布
Figure SMS_49
从未见类语义向量集合Au中采样得到一个未见类语义描述向量au并输入回归器R中进行处理,从而得到输出伪未见类语义向量/>
Figure SMS_50
;y表示标签自变量;对au和/>
Figure SMS_51
进行球面插值计算,得到插值后的插值未见类语义向量/>
Figure SMS_52
,且
Figure SMS_53
,其中,/>
Figure SMS_54
表示插值分布;
将au
Figure SMS_55
和/>
Figure SMS_56
输入非条件式属性判别器Da中进行处理,并得到真实未见类语义判别分数表示Da(au),伪未见类语义判别分数表示/>
Figure SMS_57
和插值未见类语义判别分数表示
Figure SMS_58
,从而利用式(2)构建语义非条件式对抗式训练损失函数/>
Figure SMS_59
Figure SMS_60
(2)
对于来自未已见类的示例,它通过最大化对手目标来学习区分它们的真实属性和根据视觉特征计算的伪属性,式(2)中的第三项代表梯度惩罚项,这是沃森斯坦-对抗生成网络WGAN中为了稳定对抗生成网络GAN的训练而引入的;
步骤2.1.3、利用式(3)构建视觉-语义对齐模型的总体训练损失函数Loss1
Figure SMS_61
(3)。
因此回归器R旨在以有监督的方式学习已见类从视觉到属性特征的映射,同时以无监督的方式学习不已见类的整体特征域的分布。
步骤2.2、构建由视觉编码网络E,视觉生成网络G,回归器R,条件式视觉判别器D和非条件式视觉判别器Du组成的语义-视觉对齐模型,并用于实现对语义特征的视觉特征解析生成。该步视觉生成网络G也采用了直推式和对抗式的训练方式。它旨在对齐合成视觉特征和真实特征,在视觉空间中使用视觉判别器D和Du,同时在属性空间中使用冻结回归器R,模型流程图如图4所示。
步骤2.2.1、从正态分布
Figure SMS_62
中随机采样高斯噪声z,并与语义描述as拼接后输入视觉生成网络G中进行处理,得到伪已见类视觉特征/>
Figure SMS_63
;再对vs和/>
Figure SMS_64
进行球面插值计算,得到插值后的插值已见类视觉特征/>
Figure SMS_65
将vs和as拼接,将
Figure SMS_66
和as拼接,将/>
Figure SMS_67
和as拼接后分别输入条件式视觉判别器D中进行处理,得到真实已见类判别分数输出D(vs,as),伪已见类判别分数/>
Figure SMS_68
和插值已见类判别分数/>
Figure SMS_69
,从而利用式(4)构建视觉条件式对抗式训练损失函数/>
Figure SMS_70
Figure SMS_71
(4)
式(4)中,
Figure SMS_72
表示对/>
Figure SMS_73
求梯度。
步骤2.2.2、从未见类视觉特征集合Vu中随机采样得到一个未见类图像特征vu,将z和au拼接后输入视觉生成网络G中进行处理,并得到伪未见类视觉特征
Figure SMS_74
;再对vu和/>
Figure SMS_75
进行球面插值计算,得到插值未见类视觉特征/>
Figure SMS_76
将vu
Figure SMS_77
和/>
Figure SMS_78
分别输入条件式视觉判别器D中进行处理,相应得到真实未见类判别分数Du(vu),伪未见类判别分数/>
Figure SMS_79
和插值未见类判别分数/>
Figure SMS_80
,从而利用式(5)构建视觉非条件对抗式训练损失函数/>
Figure SMS_81
Figure SMS_82
(5)
步骤2.2.3、式(4)和式(5)弱对齐未见类在视觉空间上的条件分布,但这样的过程缺乏任何监督约束,这也使得从已见类知识迁移到未见类的过程极度依赖属性知识的质量。因此缓解这种弱约束对齐的情况,即为了进一步加强条件对齐,该步骤使用回归器R来执行监督约束。
将z和au拼接后输入视觉生成网络G中进行处理,并得到未见类生成特征表示G(au,z);将G(au,z)回归器R中进行处理,并得到重预测未见类语义信息表示R(G(au,z)),将au作为监督信号,从而利用式(6)构建未见类监督损失函数
Figure SMS_83
Figure SMS_84
(6)
步骤2.2.4、将vs,as拼接后输入视觉编码网络E中进行处理,并得到高斯分布输出E(vs,as);
从E(vs,as)中采样得到编码表示zs;再将zs和as拼接后输入视觉生成网络G中进行处理,并得到已见类生成特征G(as,vs),将vs作为监督信号,从而利用式(7)构建变分自编码损失函数
Figure SMS_85
Figure SMS_86
(7)
式(7)中,KL表示Kullback-Leibler 散度约束;
步骤2.2.5、利用式(8)构建语义-视觉对齐模型的总体训练损失函数Loss2
Figure SMS_87
(8)。
通过传递已见类的成对视觉特征和属性以及未见类的类别先验分布的知识,并且通过属性回归器 R 得到增强,以进一步约束未见类的视觉特征生成。
步骤3、基于图像-多语言字幕数据集D,利用AdamW优化器对双向式分布对齐方式模型进行训练,并计算Loss1和Loss2更新模型参数,直到Loss1和Loss2收敛为止,从而得到训练好的双向式分布对齐方式模型。
步骤4、当模型收敛的时候,本发明方法利用视觉生成网络生成增广的未见类数据,因为是基于条件生成,所以增广的数据具有标签属性。利用带标签的合成数据,本发明训练一个简单的线性分类器,并利用训练好的分类器在真实的未见类数据上进行推理预测,最终的评价指标由分类准确率(ACC)给出。
首先获取另一未见类的标签数据集
Figure SMS_88
,并与未见类语义描述向量集合Au一起输入训练好的视觉生成网络G中,以生成一定量的合成数据/>
Figure SMS_89
,从而得到带标签的合成未见类数据/>
Figure SMS_90
步骤5、进一步的,基于
Figure SMS_91
训练分类器f,并利用训练好的分类器f对未见类图像特征集Vu分配伪标签/>
Figure SMS_92
,实现对未见类视觉特征的分类;
步骤6、未见类的分布先验估计。
当对式(3)和式(8)中的目标函数进行训练时,未见类的属性是从类之前采样的:au~
Figure SMS_93
。由于没有为看不见的类提供标签信息,因此不可能从真实的类先验分布pu(y)中采样,这就需要一种估计/>
Figure SMS_94
的方法。利用未见类的示例在视觉特征空间中具有较好的聚类结构的特点,该发明使用这种聚类结构来估计未见类先验,即聚类先验估计策略(CPE)。采用 K 均值聚类算法进行分布的估计,并仔细设计其聚类中心的初始化方式,算法伪代码在图5中给出。具体来说,先验估计会在每个训练周期结束迭代更新,并且在每个时期中,簇中心由伪类中心初始化。这个伪类中心利用一个额外的分类器在Vu上推理得到的伪标签给定。同时对于/>
Figure SMS_95
的第一次先验估计,该发明没有使用朴素但有时有害的均匀分布假设,而是使用在非直推式ZSL上训练的视觉生成网络来传输已见类的配对知识以获得温和的估计。
本实施例中,一种电子设备,包括存储器以及处理器,该存储器用于存储支持处理器执行该直推式零次学习的未见类图片分类方法的程序,该处理器被配置为用于执行该存储器中存储的程序。
本实施例中,一种计算机可读存储介质,是在计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行该直推式零次学习的未见类图片分类方法的步骤。
实施例:
本发明方法可以用于标注数据稀缺场景下,对未标注的未见类别数据仍旧可以进行准确的分类,这个技术也让模型学得有限数据的知识高效的迁移到新的数据当中,使得模型获得了更强的推理能力。
为了说明本发明的有效性,通过进行了如下实验进行了验证。
在这里使用四个数据集AWA1,AWA2,CUB,SUN上的进行直推式零次学习(TZSL)实验,并展现了未见类的分类准确率(ACC)作为评价指标。实验分为如下两个部分:
未见类分布先验已知的情形:
如表1所示, 是在四个数据集上的TZSL分类准确率比较结果。其中,“*”代表使用了已知的未见类分布先验的生成式方法。
表1
Figure SMS_96
该发明与其他非直推式和直推式的TZSL 方法进行比较结果展示。以往的大部分生成式方法使用了已知的未见类分布先验假设,因此,对双向生成模型Bi-VAEGAN 应用相同的设置以获得公平的比较。表 1可以看出,一般来说,使用了无标签测试数据的直推式方法要远优于非直推式方法。同时Bi-VAEGAN 在所有数据集上都优于其他的方法,其中包括了和Bi-VAEGAN一样采用了变分自编码器VAE和GAN作为基础框架的视觉特征生成模型F-VAEGAN和视觉特征反馈生成模型TF-VAEGAN。该发明实现的新的最好的 TZSL结果为93.9\%(AWA1)、95.8\% (AWA2)、78.0\% (CUB) 和 74.2\% (SUN)。值得一提的是,对于类内样本稀缺的 SUN 数据集,Bi-VAEGAN 取得了令人满意的性能提升。这是因为每个类别的样本数量少,本质上使条件生成的判别力降低,从而使 SUN 数据集更具有挑战性。而 Bi-VAEGAN 受益于其双向对齐生成,提供了更具辨别力的特征进而获得了显著的性能提升。
2、未见类分布先验未知的情形:
如表2所示,是在未见类分布先验未知的假设下的实验结果;
表2
Figure SMS_97
在这个实验中,该发明展示未知的未见类分布先验的假设下的实验结果,即表2所示。其中,对于生成式方法需要从未见类分布先验采样,该发明使用了“均匀分布先验”和“CPE”两种方式。通过比较表2和图4可以看出,当使用的未见类分布先验与根据实际类别大小计算的先验类别有显着差异时,有显着的性能下降,例如,对于极度不平衡的 AWA2 数据集上存在超过 30%的性能下降。CPE 在这类困难的未知先验的数据集表现出优异的性能。

Claims (5)

1.一种直推式零次学习的未见类图片分类方法,其特征在于,是按照如下步骤进行:
步骤1、构建图像-多语言字幕数据集D = {Vs, Ys, As, Vu, Au};其中,Vs已见类视觉特征集合,Ys表示所述已见类视觉特征集Vs的标签集合,令ns代表已见类视觉特征集合Vs的样本数目,As代表已见类视觉特征集Vs的已见类标签集合Ys相对应的已见类语义描述向量集合,Ns代表已见类标签集合Ys的种类数目;Vu表示未见类图像特征集,Au表示未见类图像特征集Vu的未见类标签集合相对应的未见类语义描述向量集合,令nu代表未见类标签集合Ys的样本数目,令Nu代表未见类标签集合的种类数目;
步骤2、构建基于多层感知机网络的双向式分布对齐方式模型,包括,视觉编码网络E,视觉生成网络G,回归器R,非条件式属性判别器Da,条件式视觉判别器D和非条件式视觉判别器Du
步骤2.1、构建由回归器R和非条件式属性判别器Da组成的视觉-语义对齐模型,并用于实现对视觉特征的语义信息预测;
步骤2.2、构建由视觉编码网络E,视觉生成网络G,回归器R,条件式视觉判别器D和非条件式视觉判别器Du组成的语义-视觉对齐模型,并用于实现对语义特征的视觉特征解析生成;
步骤3、基于图像-多语言字幕数据集D,利用AdamW优化器对所述双向式分布对齐方式模型进行训练,并计算两个总体训练损失函数Loss1和Loss2以更新模型参数,直到Loss1和Loss2收敛为止,从而得到训练好的双向式分布对齐方式模型;
步骤4、获取另一未见类的标签数据集
Figure QLYQS_1
,并与未见类语义描述向量集合Au一起输入训练好的视觉生成网络G中,以生成一定量的合成数据/>
Figure QLYQS_2
,从而得到带标签的合成未见类数据/>
Figure QLYQS_3
步骤5、基于
Figure QLYQS_4
训练分类器f,并利用训练好的分类器f对未见类图像特征集Vu分配伪标签/>
Figure QLYQS_5
,实现对未见类视觉特征的分类。
2.根据权利要求1所述的直推式零次学习的未见类图片分类方法,其特征在于,所述步骤2.1包括:
步骤2.1.1、从已见类视觉特征集合Vs中随机采样得到一个已见类图像特征vs输入回归器R中,并经过全连接层的映射后得到输出已见类图像特征表示R(vs),将vs对应标签ys的语义描述as作为监督信号,从而利用式(1)构建已见类监督损失函数
Figure QLYQS_6
Figure QLYQS_7
(1)
式(1)中,E表示期望;
步骤2.1.2、基于采样分布
Figure QLYQS_8
从未见类语义向量集合Au中采样得到一个未见类语义描述向量au并输入回归器R中进行处理,从而得到输出伪未见类语义向量/>
Figure QLYQS_9
;y表示标签自变量;对au和/>
Figure QLYQS_10
进行球面插值计算,得到插值后的插值未见类语义向量/>
Figure QLYQS_11
,且
Figure QLYQS_12
,其中,/>
Figure QLYQS_13
表示插值分布;
将au
Figure QLYQS_14
和/>
Figure QLYQS_15
输入所述非条件式属性判别器Da中进行处理,并得到真实未见类语义判别分数表示Da(au),伪未见类语义判别分数表示/>
Figure QLYQS_16
和插值未见类语义判别分数表示
Figure QLYQS_17
,从而利用式(2)构建语义非条件式对抗式训练损失函数/>
Figure QLYQS_18
Figure QLYQS_19
(2)
步骤2.1.3、利用式(3)构建所述视觉-语义对齐模型的总体训练损失函数Loss1
Figure QLYQS_20
(3)。
3.根据权利要求2所述的直推式零次学习的未见类图片分类方法,其特征在于,所述步骤2.2包括:
步骤2.2.1、从正态分布
Figure QLYQS_21
中随机采样高斯噪声z,并与语义描述as拼接后输入视觉生成网络G中进行处理,得到伪已见类视觉特征/>
Figure QLYQS_22
再对vs
Figure QLYQS_23
进行球面插值计算,得到插值后的插值已见类视觉特征/>
Figure QLYQS_24
将vs和as拼接,将
Figure QLYQS_25
和as拼接,将/>
Figure QLYQS_26
和as拼接后分别输入所述条件式视觉判别器D中进行处理,得到真实已见类判别分数输出D(vs,as),伪已见类判别分/>
Figure QLYQS_27
和插值已见类判别分数/>
Figure QLYQS_28
,从而利用式(4)构建视觉条件式对抗式训练损失函数
Figure QLYQS_29
Figure QLYQS_30
(4)
式(4)中,
Figure QLYQS_31
表示对/>
Figure QLYQS_32
求梯度;
步骤2.2.2、从未见类视觉特征集合Vu中随机采样得到一个未见类图像特征vu,将z和au拼接后输入所述视觉生成网络G中进行处理,并得到伪未见类视觉特征
Figure QLYQS_33
;再对vu和/>
Figure QLYQS_34
进行球面插值计算,得到插值未见类视觉特征/>
Figure QLYQS_35
将vu
Figure QLYQS_36
和/>
Figure QLYQS_37
分别输入所述条件式视觉判别器D中进行处理,相应得到真实未见类判别分数Du(vu),伪未见类判别分数/>
Figure QLYQS_38
和插值未见类判别分数/>
Figure QLYQS_39
,从而利用式(5)构建视觉非条件对抗式训练损失函数/>
Figure QLYQS_40
Figure QLYQS_41
(5)
步骤2.2.3、将z和au拼接后输入所述视觉生成网络G中进行处理,并得到未见类生成特征表示G(au,z);将G(au,z)所述回归器R中进行处理,并得到重预测未见类语义信息表示R(G(au,z)),将au作为监督信号,从而利用式(6)构建未见类监督损失函数
Figure QLYQS_42
Figure QLYQS_43
(6)
步骤2.2.4、将vs,as拼接后输入所述视觉编码网络E中进行处理,并得到高斯分布输出E(vs,as);
从E(vs,as)中采样得到编码表示zs;再将zs和as拼接后输入所述视觉生成网络G中进行处理,并得到已见类生成特征G(as,vs),将vs作为监督信号,从而利用式(7)构建变分自编码损失函数
Figure QLYQS_44
Figure QLYQS_45
(7)
式(7)中,KL表示Kullback-Leibler 散度约束;
步骤2.2.5、利用式(8)构建所述语义-视觉对齐模型的总体训练损失函数Loss2
Figure QLYQS_46
(8)。
4.一种电子设备,包括存储器以及处理器,其特征在于,所述存储器用于存储支持处理器执行权利要求1-3中任一所述直推式零次学习的未见类图片分类方法的程序,所述处理器被配置为用于执行所述存储器中存储的程序。
5.一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器运行时执行权利要求1-3中任一所述直推式零次学习的未见类图片分类方法的步骤。
CN202310205176.XA 2023-03-06 2023-03-06 一种直推式零次学习的未见类图片分类方法、设备及介质 Active CN116051909B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310205176.XA CN116051909B (zh) 2023-03-06 2023-03-06 一种直推式零次学习的未见类图片分类方法、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310205176.XA CN116051909B (zh) 2023-03-06 2023-03-06 一种直推式零次学习的未见类图片分类方法、设备及介质

Publications (2)

Publication Number Publication Date
CN116051909A CN116051909A (zh) 2023-05-02
CN116051909B true CN116051909B (zh) 2023-06-16

Family

ID=86113541

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310205176.XA Active CN116051909B (zh) 2023-03-06 2023-03-06 一种直推式零次学习的未见类图片分类方法、设备及介质

Country Status (1)

Country Link
CN (1) CN116051909B (zh)

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3500978A4 (en) * 2016-08-16 2020-01-22 Nokia Technologies Oy METHOD AND DEVICE FOR ZERO SHOT LEARNING
EP3593284A4 (en) * 2017-03-06 2021-03-10 Nokia Technologies Oy ZERO SHOT LEARNING PROCEDURE AND SYSTEM WITH TRANSDUCTIVE AND / OR ADAPTIVE MAX MARGIN
CN111581396B (zh) * 2020-05-06 2023-03-31 西安交通大学 一种基于多维特征融合与依存句法的事件图谱构建系统及方法
CN111563165B (zh) * 2020-05-11 2020-12-18 北京中科凡语科技有限公司 一种基于锚点词定位和训练语句增广的语句分类方法
CN111914929B (zh) * 2020-07-30 2022-08-23 南京邮电大学 零样本学习方法
CN114357193B (zh) * 2022-01-10 2024-04-02 中国科学技术大学 一种知识图谱实体对齐方法、系统、设备与存储介质
CN114386534A (zh) * 2022-01-29 2022-04-22 安徽农业大学 一种基于变分自编码器和对抗生成网络的图像增广模型训练方法及图像分类方法
CN114821196A (zh) * 2022-06-08 2022-07-29 安徽大学 零样本图像识别方法及其识别装置、介质与计算机终端
CN115147607A (zh) * 2022-09-05 2022-10-04 南京信息工程大学 一种基于凸优化理论的抗噪声零样本图像分类方法

Also Published As

Publication number Publication date
CN116051909A (zh) 2023-05-02

Similar Documents

Publication Publication Date Title
Huang et al. Multimodal unsupervised image-to-image translation
CN111754596B (zh) 编辑模型生成、人脸图像编辑方法、装置、设备及介质
Royer et al. Xgan: Unsupervised image-to-image translation for many-to-many mappings
Jha et al. Disentangling factors of variation with cycle-consistent variational auto-encoders
CN108875935B (zh) 基于生成对抗网络的自然图像目标材质视觉特征映射方法
Wang et al. Probabilistic diffusion for interactive image segmentation
CN112784929B (zh) 一种基于双元组扩充的小样本图像分类方法及装置
CN111724400A (zh) 视频自动抠像方法及系统
Boltz et al. High-dimensional statistical measure for region-of-interest tracking
CN112861805B (zh) 一种基于内容特征和风格特征的人脸图像生成方法
CN109800768A (zh) 半监督gan的散列特征表示学习方法
CN113822953A (zh) 图像生成器的处理方法、图像生成方法及装置
WO2022166840A1 (zh) 人脸属性编辑模型的训练方法、人脸属性编辑方法及设备
Vašata et al. Image inpainting using Wasserstein generative adversarial imputation network
Zong et al. Transductive transfer lda with riesz-based volume lbp for emotion recognition in the wild
Du et al. Boosting dermatoscopic lesion segmentation via diffusion models with visual and textual prompts
Xiong et al. Joint intensity–gradient guided generative modeling for colorization
CN116051909B (zh) 一种直推式零次学习的未见类图片分类方法、设备及介质
Isobe et al. Inference with model uncertainty on indoor scene for semantic segmentation
Padala et al. Effect of input noise dimension in GANs
Póka et al. Data augmentation powered by generative adversarial networks
CN111539263B (zh) 一种基于聚合对抗网络的视频人脸识别方法
Manisha et al. Effect of input noise dimension in gans
CN111401519A (zh) 一种基于物体内和物体间相似性距离的深层神经网络无监督学习方法
Molnár et al. Variational autoencoders for 3D data processing

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant