CN112380374A - 一种基于语义扩充的零样本图像分类方法 - Google Patents

一种基于语义扩充的零样本图像分类方法 Download PDF

Info

Publication number
CN112380374A
CN112380374A CN202011149508.XA CN202011149508A CN112380374A CN 112380374 A CN112380374 A CN 112380374A CN 202011149508 A CN202011149508 A CN 202011149508A CN 112380374 A CN112380374 A CN 112380374A
Authority
CN
China
Prior art keywords
class
vector
semantic
seen
representing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011149508.XA
Other languages
English (en)
Other versions
CN112380374B (zh
Inventor
陈琼
李志群
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN202011149508.XA priority Critical patent/CN112380374B/zh
Publication of CN112380374A publication Critical patent/CN112380374A/zh
Application granted granted Critical
Publication of CN112380374B publication Critical patent/CN112380374B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/55Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Library & Information Science (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于语义扩充的零样本图像分类方法,用于计算机识别无标签的图像,为其分配对应的类标签,包括S1构建已见类的潜在扩充语义信息;S2构建未见类的潜在扩充语义信息;S3构建生成对抗网络模型模式坍塌约束规则;S4构建基于语义扩充的零样本图像分类模型,合成视觉特征,利用合成的视觉特征构建特征分类器。本发明通过扩充语义信息,合成了更具多样性和判别性的视觉特征,进一步提高了网络的泛化性能。

Description

一种基于语义扩充的零样本图像分类方法
技术领域
本发明涉及标签分类,具体涉及一种基于语义扩充的零样本图像分类方法。
背景技术
对于零样本图像分类问题,通常的解决方法分为两大类别:一是学习基于空 间的一个映射函数,使用该映射函数来进行零样本图像分类;二是使用生成对抗 网络,为未见过类别生成视觉特征,从而把零样本图像分类问题,转化为传统的 有监督的图像分类问题。然而,第一类方法因为在网络训练阶段,只使用了已见 过类别的图像特征进行训练,导致训练好的网络在对测试样本进行预测时,会极 大可能把该测试样本预测为网络训练时已经见过的类别,从而导致网络对于未 见过类别的预测准确率大大降低,该现象称为类别预测偏置。第二类方法,在很 大程度上缓解了第一类方法的弊端,但是由于在使用生成对抗网络为未见过类 别生成视觉特征的时候使用了领域专家人为定义的语义信息作为条件,导致语 义信息并不能完整准确地描述类别的全部信息。使用不完整的语义信息作为生成对抗网络的条件生成出的未见类的视觉特征不具有更加真实性和多样性的特 点,从而损害了网络对未见过类别的预测准确率。
发明内容
为了克服现有技术存在的缺点与不足,本发明提供一种基于语义扩充的零 样本图像分类方法,将人为定义的不完整的语义信息进行扩充得到更加完整且 丰富的语义信息。使用扩充后的语义信息结合生成对抗网络来合成更具多样性 和真实性的视觉特征来解决零样本图像的分类问题。
本发明提出的方法模型在传统零样本图像分类和广义零样本图像分类问题 中均可使用,是一个具有较强鲁棒性的通用模型。
本发明采用如下技术方案:
一种基于语义扩充的零样本图像分类方法,用于计算机识别无标签的图像, 为其分配对应的类标签,包括如下步骤:
S1构建已见类的潜在扩充语义信息;
S2构建未见类的潜在扩充语义信息;
S3构建生成对抗网络模型模式坍塌约束规则;
S4构建基于语义扩充的零样本图像分类模型,合成视觉特征,利用合成的 视觉特征构建特征分类器。
进一步,S1构建已见类的潜在扩充语义信息,具体为:
针对数据集
Figure BDA0002740749100000021
其中
Figure BDA0002740749100000022
为已见类的视觉特征向量,
Figure BDA0002740749100000023
为已见类的标签,
Figure BDA0002740749100000024
为已见类的人为定义的属性语义向量;
使用视觉语义嵌入网络E(x)将已见类的视觉特征向量映射至将语义向量和 视觉特征向量关联起来的嵌入空间
每一个已见类的视觉特征向量
Figure BDA0002740749100000025
经[ui,li]=E(xi)映射后,产生映射属性向量ui和潜在扩充属性向量li
由公式
Figure BDA0002740749100000026
得出每一个可见类的类中心扩充语义向量,其中
Figure BDA0002740749100000027
表示第i个已见类的类中心扩充语义向量,lj表示第i个已见类的第j个样 本的扩充语义向量,n表示第i个已见类中有n个样本。
进一步,视觉语义嵌入网络在每个训练批次前构造一组三元组样本数据集
Figure BDA0002740749100000028
其中xi,xj来自相同类别的已见过类的视觉特征,xi,xk表示来自 不同类别的视觉特征,E(xi)将
Figure BDA0002740749100000029
转化为[ui,li],然后依据LE损失进行训练。
进一步,在人为定义的属性语义空间中,计算每一个未见类与其他已见类的 相似度,相似度计算公式为:
Figure BDA00027407491000000210
其中
Figure BDA00027407491000000211
表示向量
Figure BDA00027407491000000212
与向量
Figure BDA00027407491000000213
的相似度得分;
Figure BDA00027407491000000214
表示第i类未见过类 的人为定义的属性语义向量,
Figure BDA00027407491000000215
表示第j类已见过类的人为定义的属性语义向 量,
Figure BDA00027407491000000216
表示向量
Figure BDA00027407491000000217
与向量
Figure BDA00027407491000000218
的点积,
Figure BDA00027407491000000219
分别表示向量
Figure BDA00027407491000000220
与向量
Figure BDA00027407491000000221
的模;
给定相似度分数阈值ξ,0≤ξ≤1,对
Figure BDA00027407491000000222
筛选出
Figure BDA00027407491000000223
的所有
Figure BDA00027407491000000224
的相似 度分数向量[α12...αk],ξ≤α12...αk≤1,由公式
Figure BDA00027407491000000225
得出所有 未见过类的扩充语义向量,其中
Figure BDA00027407491000000226
表示第i个未见过类的类中心扩充语义向量, αj表示大于阈值ξ的第i个未见过类与第j个已见过类的相似度分数,
Figure BDA00027407491000000227
表示第 j个已见过类的类中心扩充语义向量。
进一步,将已见过类和未见过类的扩充语义向量
Figure BDA00027407491000000228
Figure BDA00027407491000000229
以及原有人为定义 的属性语义向量作为条件,构建SA-WGAN-VAE网络模型;
通过坍塌约束规则:
Figure BDA0002740749100000031
ε=1e-7,约束当zi和zj相似时,
Figure BDA0002740749100000032
Figure BDA0002740749100000033
尽可能有较大的差异性;其中zi和zj分别表示从Z~N(0,1)标准正态分布中随 机采样得到的噪声向量,
Figure BDA0002740749100000034
Figure BDA0002740749100000035
表示WGAN使用zi和zj合成出的视觉特征向量, cossim(zi,zj)和
Figure BDA0002740749100000036
表示求两个向量的余弦相似度。
进一步,所述SA-WGAN-VAE网络模型包括VAE网络模块及WGAN网 络模块。
进一步,所述WGAN网络模块包括生成器和判别器,
进一步,用于训练视觉嵌入网络E(x)的损失函数为:
LE=Lua+Lls
其中
Figure BDA0002740749100000037
Lls=max(m+dis(li,lj)-dis(li,lk),0)
N表示已见类的类别数目,ac表示第c个已见类人为定义的属性语义向 量,
Figure BDA0002740749100000038
表示每一类中每个样本产生的对数分类损失值,<ui,ai> 表示向量ui与向量ai的点积,
Figure BDA0002740749100000039
表示每一类中n个样本分类 损失的累加值,即Lua表示N个类别所有样本的对数分类损失;
Lls=max(m+dis(li,lj)-dis(li,lk),0)表示利用三元组损失函数来拉近同一类别样本间 的距离,推远不同类别样本间的距离,以此来学习到人为定义的属性语义向量 中未包含的表达类间可分关系的潜在属性,从而来得到扩充的语义向量, dis(li,lj)表示潜在扩充属性向量li与潜在扩充属性向量lj的欧式距离,dis(li,lk)表 示潜在扩充属性向量li与潜在扩充属性向量lk的欧式距离;li与lj来自同一个类 不同样本的潜在扩充属性向量,li与lk来自不同类的不同样本的潜在扩充属性 向量,m表示三元组损失的一个边距间隔,通常设置为1.0。
进一步,所述S4中,
用SA-WGAN-VAE网络模型,结合人为定义的属性语义向量和S2中构建 的扩充语义向量,使用已见过类数据集
Figure BDA00027407491000000310
来训练SA-WGAN- VAE网络模型参数,每使用5个批次的Ds训练网络后,为未见过类生成视觉特 征,使用已见过类的视觉特征和合成的未见过类的视觉特征训练分类器,使用验 证集数据周期性对当前分类器进行分类准确率测试,当分类器的分类准确率趋 于平缓时,停止网络训练,保存当前网络模型参数。
本发明与现有技术相比,具有如下优点与有益效果:
1、相比基于空间映射的零样本分类方法,本发明克服了网络的预测偏置现 象;相比基于特征生成的零样本分类方法,本发明通过扩充语义信息,合成了更 具多样性和判别性的视觉特征,进一步提高了网络的泛化性能。
2、本发明设计的方法模型是能应用在不同类型数据上的通用模型,对于不 同类型的数据使用统一的端到端网络模型即可进行零样本分类学习。
3、本发明设计的扩充语义向量对不同数据集有很强的适应性,可以结合现 有的生成式零样本分类模型,提升该模型的对于零样本数据的分类准确率。
4、本发明设计的方法模型可以较好地识别已见过类的样本,训练过程中, 始终保证对少数类样本有较高的预测准确率。
5、本发明设计的方法可通过调整Lc函数进一步缓和SA-WGAN-VAE网络 的模式坍塌问题,以一种灵活可控的方式避免生成的视觉特征呈现单一模式。当 采样得到zi和zj相似度高时,仍鼓励网络利用该相似度高的向量组生成尽可能差 异性大的视觉特征从而提升特征的多样性和丰富度。可通过调节合适的Lc函数 的值来提升模型性能。
6、对于基于语义扩充的零样本图像分类模型,本发明在训练模型时,使用 验证集数据中已见过类和未见过类的类平均预测准确率来评估网络的性能,较 好地追踪模型真实性能的变化,训练出的模型的更加可靠。
附图说明
图1是本发明方法的工作流程图;
图2是本发明实施例的视觉语义嵌入网络和SA-WGAN-VAE输入数据的实 例图。
图3为本发明训练基于语义扩充的零样本图像分类模型的算法流程图。
具体实施方式
下面结合实施例及附图,对本发明作进一步地详细说明,但本发明的实施方 式不限于此。
实施例
如图1-图3所示,本实施例所提供的基于语义扩充的零样本分类方法,包 括以下步骤:
S1构建已见过类的潜在扩充语义信息,具体为:
S1.1语义视觉嵌入网络E(x)在每个训练批次前构造一组三元组样本数据集
Figure BDA00027407491000000510
其中xi,xj来自相同类别的已见过类的视觉特征,xi,xk表示来自 不同类别的视觉特征。
E(xi)将
Figure BDA0002740749100000051
转化为[ui,li],然后依据LE损失进行训练,目的是学习类与类之间 的潜在判别性语义信息。
S1.2针对数据集
Figure BDA0002740749100000052
其中
Figure BDA0002740749100000053
为已见类的视觉特征向量,
Figure BDA0002740749100000054
为已见类的标签,
Figure BDA0002740749100000055
为已见类的人为定义的属性语义向量。使用视觉语义嵌入 网络E(x)将已见类的视觉特征映射至将语义信息和视觉信息关联起来的嵌入空 间。每一个已见类的视觉特征向量
Figure BDA0002740749100000056
经[ui,li]=E(xi)映射后,产生映射属性向量ui和潜在扩充属性向量li
具体来说,该视觉特征向量是通过卷积神经网络提取得到,用来描述类的图 片相关视觉信息,同一类别的视觉特征向量之间存在相似性,不同类别之间的视 觉特征向量存在差异性,使用视觉特征向量有利于帮助计算机识别出具体类别。 属性语义向量具体是通过定义类的各个属性并且给这些属性赋予一定数值,即 通过一组属性值组成的向量来描述每一个类,比如对于斑马类,斑马有条纹、外 形及体重等属性,可以通过给体重、外形等属性赋予一个数值来具体描述一个类 别要是斑马的情况下,这些属性应该是多少,该部分为人为定义。
用于训练视觉嵌入网络E(x)的损失函数为:
LE=Lua+Lls
其中
Figure BDA0002740749100000057
Lls=max(m+dis(li,lj)-dis(li,lk),0)
N表示已见类的类别数目,ac表示第c个已见类人为定义的属性语义向量,
Figure BDA0002740749100000058
表示每一类中每个样本产生的对数分类损失值,<ui,ai>表示 向量ui与向量ai的点积,
Figure BDA0002740749100000059
表示每一类中n个样本分类损失的 累加值,即Lua表示N个类别所有样本的对数分类损失。 Lls=max(m+dis(li,lj)-dis(li,lk),0)表示利用三元组损失函数来拉近同一类别样本间 的距离,推远不同类别样本间的距离,以此来学习到人为定义的属性语义向量中 未包含的表达类间可分关系的潜在属性,从而来得到扩充的语义向量,dis(li,lj) 表示潜在扩充属性向量li与潜在扩充属性向量lj的欧式距离,dis(li,lk)表示潜在扩 充属性向量li与潜在扩充属性向量lk的欧式距离;li与lj来自同一个类不同样本的 潜在扩充属性向量,li与lk来自不同类的不同样本的潜在扩充属性向量,m表示 三元组损失的一个边距间隔,通常设置为1.0。
S1.3获得的所有已见类的扩充语义向量,由公式
Figure BDA0002740749100000061
得出每一个可见类的类中心扩充语义向量,其中
Figure BDA0002740749100000062
表示第i个已见类的类中心扩充语 义向量,lj表示第i个已见类的第j个样本的扩充语义向量,n表示第i个已见 类中有n个样本。
语义视觉嵌入网络E(x)参数如表1所示。
表1语义视觉嵌入网络E(x)参数设置
Layer Width Height Depth
Input 32 32 1
Flatten 1 1 1024
FullyConnected 1 1 4096
ReLU 1 1 4096
FullyConnected 1 1 624
S2构建未见类的潜在扩充语义信息;
根据S1中所构建的已见过类的扩充语义信息,通过
Figure BDA0002740749100000063
得到所有未见过类的扩充语义信息,具体步骤为:
S2.1在人为定义的属性语义空间中,计算每一个未见过类与其他已见过类 的相似度,相似度计算公式为:
Figure BDA0002740749100000071
其中
Figure BDA0002740749100000072
表示向量
Figure BDA0002740749100000073
与向量
Figure BDA0002740749100000074
的相似度得分;
Figure BDA0002740749100000075
表示第i类未见过类 的人为定义的属性向量,
Figure BDA0002740749100000076
表示第j类已见过类的人为定义的属性向量,
Figure BDA0002740749100000077
表示向量
Figure BDA0002740749100000078
与向量
Figure BDA0002740749100000079
的点积,
Figure BDA00027407491000000710
分别表示向量
Figure BDA00027407491000000711
与向量
Figure BDA00027407491000000712
的模。
给定相似度分数阈值ξ,0≤ξ≤1。依据
Figure BDA00027407491000000713
筛选出
Figure BDA00027407491000000714
Figure BDA00027407491000000715
的相似度 分数大于ξ的值组成向量[α12...αk],ξ≤α12...αk≤1。
S2.2由公式
Figure BDA00027407491000000716
得出所有未见过类的扩充语义向量,其 中
Figure BDA00027407491000000717
表示第i个未见过类的类中心扩充语义向量,αj表示大于阈值ξ的第i个未 见过类与第j个已见过类的相似度分数,
Figure BDA00027407491000000718
表示第j个已见过类的类中心扩充语 义向量。
S3构建生成对抗网络模型以及缓和模式坍塌约束规则:
根据S2中得到的已见过类和未见过类的类中心扩充语义向量
Figure BDA00027407491000000719
Figure BDA00027407491000000720
以及 人为定义的属性语义向量a作为条件,构建Wasserstein Generative Adversarial Networks(WGAN)和Variational Autoencoders(VAE),Semantic Augment组合的SA-WGAN- VAE网络模型,通过
Figure BDA00027407491000000721
保证当zi和zj相似时,
Figure BDA00027407491000000722
Figure BDA00027407491000000723
尽可能有较大的差异性;SA-WGAN-VAE网络模型由两部分组成,分别为VAE 网络模块、WGAN网络模块。其中WGAN网络模块包含生成器模块和判别器 模块。通过如下损失函数:
Figure BDA00027407491000000724
更新VAE模块参数,其中KL表示Kullback-Leibler divergence,q(z|x,a)表示 给定x,a时生成z的条件分布,
Figure BDA00027407491000000725
分别表示类的视觉特征向量、人为定义的语 义向量以及已见过类的中心扩充语义向量,p(x|a)假设服从标准正态分布N(0,1)。 Epq(z|x,a)[logp(x|z,a)]表示求logp(x|z,a)的期望,通过如下损失函数
Figure BDA00027407491000000726
更新WGAN模块,其中D(x,a)表示判别器D将x,a一起输入给出判别结果,
Figure BDA00027407491000000727
表示生成器G以人为定义的属性语义向量a作为条件的合成视觉特征,
Figure BDA00027407491000000728
表 示生成器G以已见过类的中心扩充语义向量
Figure BDA0002740749100000081
作为条件的合成视觉特征,
Figure BDA0002740749100000082
其中U(0,1)表示均匀分布,同理
Figure BDA0002740749100000083
λ表示梯度惩罚系数。
VAE网络模块参数如表2所示
表2语义VAE网络参数设置
Layer Width Height Depth
Input 1 1 2048
FullyConnected 1 1 4096
LeakyReLU 1 1 4096
FullyConnected 1 1 2048
生成器参数如表3所示
表3生成器参数设置
Layer Width Height Depth
Input 1 1 2048
FullyConnected 1 1 2048
LeakyReLU 1 1 2048
FullyConnected 1 1 4096
LeakyReLU 1 1 4096
FullyConnected 1 1 2048
Sigmoid 1 1 2048
判别器参数如表4所示
表4判别器参数设置
Figure BDA0002740749100000084
Figure BDA0002740749100000091
S 4训练基于语义扩充的零样本图像分类模型,合成视觉特征,利用合成的 视觉特征构建特征分类器。具有如下特征:
①利用已见类和未见过类的人为定义的属性语义向量和扩充语义向量结 合SA-WGAN-VAE网络合成视觉特征;
②在模型训练过程中,使用验证集数据周期性对当前分类进行准确率测试, 当分类器的分类准确率趋于平缓时,停止网络训练,保存当前分类器模型参数。
使用预处理的CUB数据集对本发明上述方法进行具体说明。对于原始CUB 数据集,CUB是具有200个类别的描述鸟类的数据集,本发明随机取其中150 个类别的鸟类图片数据作为已见过类别,将剩余的50个类的鸟类图片数据作为 未见过类;已见过类别和未见过类的实例图片如图2所示,一共11788长图片。 使用通用的ResNet101网络对已见过类和未见过类的抽取2048维的图像特征集 合分别记为
Figure BDA0002740749100000092
在本实例中,所述的基于语义扩充的零样本分类方法,包括以下步骤:
1)将
Figure BDA0002740749100000093
通过E(x)将xi转换为[ui,li],通过
Figure BDA0002740749100000094
和Lls=max(m+dis(li,lj)-dis(li,lk),0) 损失函数计算梯度;根据梯度更新E(x)网络参数,当Lua,Lls损失值不再下降时, 停止训练,由公式
Figure BDA0002740749100000095
得出CUB数据集中150种可见类的类 中心扩充语义向量。
2)根据1)中所构建的已见过类的扩充语义信息,在人为定义的属性语义 空间中,通过
Figure BDA0002740749100000096
计算CUB中50种未见过鸟类与 150种已见过鸟类的相似度,通过
Figure BDA0002740749100000097
得到50种未见过鸟类 的中心扩充语义向量。
3)根据步骤2)中得到CUB数据集中150类已见过鸟类和50类未见过鸟 类的中心扩充语义向量
Figure BDA0002740749100000101
Figure BDA0002740749100000102
以及原有人为定义的 已见过类属性语义向量集As={ai s},i=1,2,3......150、Au={aj u},j=1,2,3......50,ai s,aj u向 量维度均为312。构建SA-WGAN-VAE网络,网络模块参数上述内容,同时为 了缓和WGAN的模式坍塌问题,构建
Figure BDA0002740749100000103
损失函数。
4)训练基于语义扩充零样本分类模型,具有如下特征
①将CUB中已见过类数据集
Figure BDA0002740749100000104
中每一个已见过类样本xi, 向量输入到VAE网络中产生潜在变量对zi,,随后将该潜在变量对与
Figure BDA0002740749100000105
以及As={ai s},i=1,2,3......150进行组合形成[zi,Li s]和[zi,ai s]输入到生 成器中生成重建视觉向量
Figure BDA0002740749100000106
通过Lvae计算损失更新VAE模块网络参数。
②将CUB中已见过类的
Figure BDA0002740749100000107
以及As={ai s},i=1,2,3......150与标准 正态分布随机采样得到噪声向量z1 N,
Figure BDA0002740749100000108
组合形成
Figure BDA0002740749100000109
[z2 N,ai s]向量对进而输 入到WGAN的生成器模块中产生两个合成视觉向量
Figure BDA00027407491000001010
合成视觉向量
Figure BDA00027407491000001011
随后输入到WGAN的判别器模块中输出辨别结果,依据判别器输出的结果通过 Lwgan计算损失更新WGAN模块网络参数。
③在使用CUB 150种已见过类训练好SA-WGAN-VAE网络参数后,使用 SA-WGAN-VAE结合
Figure BDA00027407491000001012
为CUB剩余的50 种未见过类生成视觉特征数据集
Figure BDA00027407491000001013
每一种未见过 类使用SA-WGAN-VAE为其合成300个视觉特征。将
Figure BDA00027407491000001014
和Ds输入到分类器C 中使用Softmax损失函数进行网络训练,
Figure BDA00027407491000001015
N=300, C(xi)表示分类器C输出的类预测概率值。
分类器C模型参数如表5所示
表5分类器C模型参数设置
Layer Width Height Depth
Input 1 1 2048
FullyConnected 1 1 4096
LeakyReLU 1 1 4096
FullyConnected 1 1 200
④在模型的训练中,采用Adam网络优化器,优化器的学习率对所有数据集 设定为恒定的学习率大小为0.001;梯度惩罚因子λ设置为10,WGAN模块训练 时,每进行5轮判别器模块的参数更新后进行一次生成器参数的更新;设置分 类器的学习率为0.0001,训练过程中周期性使用验证数据集监控分类器对于已 见过类和未见过类的平均分类准确率,当类的平均分类准确率不再上升时,终止 训练,保存模型。在测试阶段,对测试集的已见过类的平均分类准确率为56.1%, 未见过类的平均分类准确率为56.8%。
本发明的算法模型使用Python3.5编写,基于深度学习框架Pytorch,实验运 行的GPU型号为2块NVIDIA GeForce GTX 1080Ti,一共22GB显存。
其它零样本图像分类方法类似此方法。
综上所述,本发明利用扩充的语义向量的优势对零样本分类问题建模,通过 使用扩充的语义向量弥补了人为定义的属性语义向量的不全面,保证SA- WGAN-VAE利用扩充语义向量和人为定义的属性语义向量能够合成更具多样 性和更符合真实样本分布的视觉特征。本发明提出的方法模型在传统零样本分 类和广义零样本分类问题中均适用,在不同类型的数据环境和结合不同特征生 成模型都能有优秀的分类表现,是一个具有较强鲁棒性的通用模型。因而本发明 具有实际应用价值,值得推广。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受所述实 施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、 替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (10)

1.一种基于语义扩充的零样本图像分类方法,用于计算机识别无标签的图像,为其分配对应的类标签,其特征在于,包括如下步骤:
S1构建已见类的潜在扩充语义信息;
S2构建未见类的潜在扩充语义信息;
S3构建生成对抗网络模型模式坍塌约束规则;
S4构建基于语义扩充的零样本图像分类模型,合成视觉特征,利用合成的视觉特征构建特征分类器。
2.根据权利要求1所述的零样本图像分类方法,其特征在于,S1构建已见类的潜在扩充语义信息,具体为:
针对数据集
Figure FDA0002740749090000011
其中
Figure FDA0002740749090000012
为已见类的视觉特征向量,
Figure FDA0002740749090000013
为已见类的标签,
Figure FDA0002740749090000014
为已见类的人为定义的属性语义向量;
使用视觉语义嵌入网络E(x)将已见类的视觉特征向量映射至将语义向量和视觉特征向量关联起来的嵌入空间
每一个已见类的视觉特征向量
Figure FDA0002740749090000015
经[ui,li]=E(xi)映射后,产生映射属性向量ui和潜在扩充属性向量li
由公式
Figure FDA0002740749090000016
得出每一个可见类的类中心扩充语义向量,其中
Figure FDA0002740749090000017
表示第i个已见类的类中心扩充语义向量,lj表示第i个已见类的第j个样本的扩充语义向量,n表示第i个已见类中有n个样本。
3.根据权利要求2所述的零样本图像分类方法,其特征在于,视觉语义嵌入网络在每个训练批次前构造一组三元组样本数据集
Figure FDA0002740749090000018
其中xi,xj来自相同类别的已见过类的视觉特征,xi,xk表示来自不同类别的视觉特征,E(xi)将
Figure FDA0002740749090000019
转化为[ui,li],然后依据LE损失进行训练。
4.根据权利要求3所述的零样本图像分类方法,其特征在于,在人为定义的属性语义空间中,计算每一个未见类与其他已见类的相似度,相似度计算公式为:
Figure FDA00027407490900000110
其中
Figure FDA00027407490900000111
表示向量
Figure FDA00027407490900000112
与向量
Figure FDA00027407490900000113
的相似度得分;
Figure FDA00027407490900000114
表示第i类未见过类的人为定义的属性语义向量,
Figure FDA00027407490900000115
表示第j类已见过类的人为定义的属性语义向量,
Figure FDA0002740749090000021
表示向量
Figure FDA0002740749090000022
与向量
Figure FDA0002740749090000023
的点积,
Figure FDA0002740749090000024
分别表示向量
Figure FDA0002740749090000025
与向量
Figure FDA0002740749090000026
的模;
给定相似度分数阈值ξ,0≤ξ≤1,对
Figure FDA0002740749090000027
筛选出
Figure FDA0002740749090000028
的所有
Figure FDA0002740749090000029
的相似度分数向量[α12...αk],ξ≤α12...αk≤1,由公式
Figure FDA00027407490900000210
得出所有未见过类的扩充语义向量,其中
Figure FDA00027407490900000211
表示第i个未见过类的类中心扩充语义向量,αj表示大于阈值ξ的第i个未见过类与第j个已见过类的相似度分数,
Figure FDA00027407490900000212
表示第j个已见过类的类中心扩充语义向量。
5.根据权利要求1所述的零样本图像分类方法,其特征在于,将已见过类和未见过类的扩充语义向量
Figure FDA00027407490900000213
Figure FDA00027407490900000214
以及原有人为定义的属性语义向量作为条件,构建SA-WGAN-VAE网络模型;
通过坍塌约束规则:
Figure FDA00027407490900000215
约束当zi和zj相似时,
Figure FDA00027407490900000216
Figure FDA00027407490900000217
尽可能有较大的差异性;其中zi和zj分别表示从Z~N(0,1)标准正态分布中随机采样得到的噪声向量,
Figure FDA00027407490900000218
Figure FDA00027407490900000219
表示WGAN使用zi和zj合成出的视觉特征向量,cossim(zi,zj)和
Figure FDA00027407490900000220
表示求两个向量的余弦相似度。
6.根据权利要求5所述的零样本图像分类方法,其特征在于,所述SA-WGAN-VAE网络模型包括VAE网络模块及WGAN网络模块。
7.根据权利要求6所述的零样本图像分类方法,其特征在于,所述WGAN网络模块包括生成器和判别器。
8.根据权利要求3所述的零样本图像分类方法,其特征在于,用于训练视觉嵌入网络E(x)的损失函数为:
LE=Lua+Lls
其中
Figure FDA00027407490900000221
Lls=max(m+dis(li,lj)-dis(li,lk),0)
N表示已见类的类别数目,ac表示第c个已见类人为定义的属性语义向量,
Figure FDA00027407490900000222
表示每一类中每个样本产生的对数分类损失值,<ui,ai>表示向量ui与向量ai的点积,
Figure FDA00027407490900000223
表示每一类中n个样本分类损失的累加值,即Lua表示N个类别所有样本的对数分类损失;
Lls=max(m+dis(li,lj)-dis(li,lk),0)表示利用三元组损失函数来拉近同一类别样本间的距离,推远不同类别样本间的距离,以此来学习到人为定义的属性语义向量中未包含的表达类间可分关系的潜在属性,从而来得到扩充的语义向量,dis(li,lj)表示潜在扩充属性向量li与潜在扩充属性向量lj的欧式距离,dis(li,lk)表示潜在扩充属性向量li与潜在扩充属性向量lk的欧式距离;li与lj来自同一个类不同样本的潜在扩充属性向量,li与lk来自不同类的不同样本的潜在扩充属性向量,m表示三元组损失的一个边距间隔。
9.根据权利要求6所述的零样本图像分类方法,其特征在于,所述S4中,
用SA-WGAN-VAE网络模型,结合人为定义的属性语义向量和S2中构建的扩充语义向量,使用已见过类数据集
Figure FDA0002740749090000031
来训练SA-WGAN-VAE网络模型参数,每使用5个批次的Ds训练网络后,为未见过类生成视觉特征,使用已见过类的视觉特征和合成的未见过类的视觉特征训练分类器,使用验证集数据周期性对当前分类器进行分类准确率测试,当分类器的分类准确率趋于平缓时,停止网络训练,保存当前网络模型参数。
10.根据权利要求8所述的零样本图像分类方法,其特征在于,m通常设置为1.0。
CN202011149508.XA 2020-10-23 2020-10-23 一种基于语义扩充的零样本图像分类方法 Active CN112380374B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011149508.XA CN112380374B (zh) 2020-10-23 2020-10-23 一种基于语义扩充的零样本图像分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011149508.XA CN112380374B (zh) 2020-10-23 2020-10-23 一种基于语义扩充的零样本图像分类方法

Publications (2)

Publication Number Publication Date
CN112380374A true CN112380374A (zh) 2021-02-19
CN112380374B CN112380374B (zh) 2022-11-18

Family

ID=74580912

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011149508.XA Active CN112380374B (zh) 2020-10-23 2020-10-23 一种基于语义扩充的零样本图像分类方法

Country Status (1)

Country Link
CN (1) CN112380374B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113378959A (zh) * 2021-06-24 2021-09-10 中国矿业大学 一种基于语义纠错下生成对抗网络的零样本学习方法
CN113537322A (zh) * 2021-07-02 2021-10-22 电子科技大学 一种跨模态语义增强生成对抗网络的零样本视觉分类方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106203483A (zh) * 2016-06-29 2016-12-07 天津大学 一种基于语义相关多模态映射方法的零样本图像分类方法
WO2018032354A1 (en) * 2016-08-16 2018-02-22 Nokia Technologies Oy Method and apparatus for zero-shot learning
US20190065492A1 (en) * 2016-02-12 2019-02-28 Sri International Zero-shot event detection using semantic embedding
CN110516718A (zh) * 2019-08-12 2019-11-29 西北工业大学 基于深度嵌入空间的零样本学习方法
CN110610124A (zh) * 2019-07-30 2019-12-24 珠海亿智电子科技有限公司 一种基于生成对抗网络的图像生成方法
CN110826638A (zh) * 2019-11-12 2020-02-21 福州大学 基于重复注意力网络的零样本图像分类模型及其方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190065492A1 (en) * 2016-02-12 2019-02-28 Sri International Zero-shot event detection using semantic embedding
CN106203483A (zh) * 2016-06-29 2016-12-07 天津大学 一种基于语义相关多模态映射方法的零样本图像分类方法
WO2018032354A1 (en) * 2016-08-16 2018-02-22 Nokia Technologies Oy Method and apparatus for zero-shot learning
CN110610124A (zh) * 2019-07-30 2019-12-24 珠海亿智电子科技有限公司 一种基于生成对抗网络的图像生成方法
CN110516718A (zh) * 2019-08-12 2019-11-29 西北工业大学 基于深度嵌入空间的零样本学习方法
CN110826638A (zh) * 2019-11-12 2020-02-21 福州大学 基于重复注意力网络的零样本图像分类模型及其方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
MAXIME BUCHER: "Zero-shot semantic segmentation", 《ARXIC》 *
ZHONG JI ET AL.: "Semantic Softmax Loss for Zero-Shot Learning", 《NEUROCOMPUTING》 *
徐戈等: "基于视觉误差与语义属性的零样本图像分类", 《计算机应用》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113378959A (zh) * 2021-06-24 2021-09-10 中国矿业大学 一种基于语义纠错下生成对抗网络的零样本学习方法
CN113378959B (zh) * 2021-06-24 2022-03-15 中国矿业大学 一种基于语义纠错下生成对抗网络的零样本学习方法
CN113537322A (zh) * 2021-07-02 2021-10-22 电子科技大学 一种跨模态语义增强生成对抗网络的零样本视觉分类方法
CN113537322B (zh) * 2021-07-02 2023-04-18 电子科技大学 一种跨模态语义增强生成对抗网络的零样本视觉分类方法

Also Published As

Publication number Publication date
CN112380374B (zh) 2022-11-18

Similar Documents

Publication Publication Date Title
CN109523463B (zh) 一种基于条件生成对抗网络的人脸老化方法
CN108875807B (zh) 一种基于多注意力多尺度的图像描述方法
CN108647583B (zh) 一种基于多目标学习的人脸识别算法训练方法
CN111507311B (zh) 一种基于多模态特征融合深度网络的视频人物识别方法
CN109190479A (zh) 一种基于混合深度学习的视频序列表情识别方法
CN112307995B (zh) 一种基于特征解耦学习的半监督行人重识别方法
CN110097095B (zh) 一种基于多视图生成对抗网络的零样本分类方法
CN112528928B (zh) 一种基于自注意力深度网络的商品识别方法
CN110135386B (zh) 一种基于深度学习的人体动作识别方法和系统
CN107169117B (zh) 一种基于自动编码器和dtw的手绘图人体运动检索方法
EP1433118A1 (en) System and method of face recognition using portions of learned model
CN112949740B (zh) 一种基于多级度量的小样本图像分类方法
CN113158861B (zh) 一种基于原型对比学习的运动分析方法
CN112380374B (zh) 一种基于语义扩充的零样本图像分类方法
CN116311483B (zh) 基于局部面部区域重构和记忆对比学习的微表情识别方法
CN111028319A (zh) 一种基于面部运动单元的三维非真实感表情生成方法
CN106897671A (zh) 一种基于光流和FisherVector编码的微表情识别方法
Sinha et al. Identity-preserving realistic talking face generation
CN112529063B (zh) 一种适用于帕金森语音数据集的深度域适应分类方法
CN113628309A (zh) 一种真人语音口型动画生成方法及系统、电子设备、存储介质
CN109948662B (zh) 一种基于K-means和MMD的人脸图像深度聚类方法
CN111523404A (zh) 一种基于卷积神经网络和稀疏表示的部分人脸识别方法
CN116229179A (zh) 基于宽度学习系统的双松弛图像分类方法
CN114581991A (zh) 基于面部表情动态感知的行为态度识别方法
CN115690276A (zh) 虚拟形象的视频生成方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant