CN112380374B - 一种基于语义扩充的零样本图像分类方法 - Google Patents

一种基于语义扩充的零样本图像分类方法 Download PDF

Info

Publication number
CN112380374B
CN112380374B CN202011149508.XA CN202011149508A CN112380374B CN 112380374 B CN112380374 B CN 112380374B CN 202011149508 A CN202011149508 A CN 202011149508A CN 112380374 B CN112380374 B CN 112380374B
Authority
CN
China
Prior art keywords
class
vector
semantic
seen
attribute
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011149508.XA
Other languages
English (en)
Other versions
CN112380374A (zh
Inventor
陈琼
李志群
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN202011149508.XA priority Critical patent/CN112380374B/zh
Publication of CN112380374A publication Critical patent/CN112380374A/zh
Application granted granted Critical
Publication of CN112380374B publication Critical patent/CN112380374B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/55Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Library & Information Science (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于语义扩充的零样本图像分类方法,用于计算机识别无标签的图像,为其分配对应的类标签,包括S1构建已见类的潜在扩充语义信息;S2构建未见类的潜在扩充语义信息;S3构建生成对抗网络模型模式坍塌约束规则;S4构建基于语义扩充的零样本图像分类模型,合成视觉特征,利用合成的视觉特征构建特征分类器。本发明通过扩充语义信息,合成了更具多样性和判别性的视觉特征,进一步提高了网络的泛化性能。

Description

一种基于语义扩充的零样本图像分类方法
技术领域
本发明涉及标签分类,具体涉及一种基于语义扩充的零样本图像分类方法。
背景技术
对于零样本图像分类问题,通常的解决方法分为两大类别:一是学习基于空间的一个映射函数,使用该映射函数来进行零样本图像分类;二是使用生成对抗网络,为未见过类别生成视觉特征,从而把零样本图像分类问题,转化为传统的有监督的图像分类问题。然而,第一类方法因为在网络训练阶段,只使用了已见过类别的图像特征进行训练,导致训练好的网络在对测试样本进行预测时,会极大可能把该测试样本预测为网络训练时已经见过的类别,从而导致网络对于未见过类别的预测准确率大大降低,该现象称为类别预测偏置。第二类方法,在很大程度上缓解了第一类方法的弊端,但是由于在使用生成对抗网络为未见过类别生成视觉特征的时候使用了领域专家人为定义的语义信息作为条件,导致语义信息并不能完整准确地描述类别的全部信息。使用不完整的语义信息作为生成对抗网络的条件生成出的未见类的视觉特征不具有更加真实性和多样性的特点,从而损害了网络对未见过类别的预测准确率。
发明内容
为了克服现有技术存在的缺点与不足,本发明提供一种基于语义扩充的零样本图像分类方法,将人为定义的不完整的语义信息进行扩充得到更加完整且丰富的语义信息。使用扩充后的语义信息结合生成对抗网络来合成更具多样性和真实性的视觉特征来解决零样本图像的分类问题。
本发明提出的方法模型在传统零样本图像分类和广义零样本图像分类问题中均可使用,是一个具有较强鲁棒性的通用模型。
本发明采用如下技术方案:
一种基于语义扩充的零样本图像分类方法,用于计算机识别无标签的图像,为其分配对应的类标签,包括如下步骤:
S1构建已见类的潜在扩充语义信息;
S2构建未见类的潜在扩充语义信息;
S3构建生成对抗网络模型模式坍塌约束规则;
S4构建基于语义扩充的零样本图像分类模型,合成视觉特征,利用合成的视觉特征构建特征分类器。
进一步,S1构建已见类的潜在扩充语义信息,具体为:
针对数据集
Figure GDA0002875884460000021
其中
Figure GDA0002875884460000022
为已见类的视觉特征向量,
Figure GDA0002875884460000023
为已见类的标签,
Figure GDA0002875884460000024
为已见类的人为定义的属性语义向量;
使用视觉语义嵌入网络E(x)将已见类的视觉特征向量映射至将语义向量和视觉特征向量关联起来的嵌入空间
每一个已见类的视觉特征向量
Figure GDA0002875884460000025
经[ui,li]=E(xi)映射后,产生映射属性向量ui和潜在扩充属性向量li
由公式
Figure GDA0002875884460000026
得出每一个可见类的类中心扩充语义向量,其中
Figure GDA0002875884460000027
表示第i个已见类的类中心扩充语义向量,lj表示第i个已见类的第j个样本的扩充语义向量,n表示第i个已见类中有n个样本。
进一步,视觉语义嵌入网络在每个训练批次前构造一组三元组样本数据集
Figure GDA0002875884460000028
其中xi,xj来自相同类别的已见过类的视觉特征,xi,xk表示来自不同类别的视觉特征,E(xi)将
Figure GDA0002875884460000029
转化为[ui,li],然后依据LE损失进行训练。
进一步,在人为定义的属性语义空间中,计算每一个未见类与其他已见类的相似度,相似度计算公式为:
Figure GDA00028758844600000210
其中
Figure GDA00028758844600000211
表示向量
Figure GDA00028758844600000212
与向量
Figure GDA00028758844600000213
的相似度得分;
Figure GDA00028758844600000214
表示第i类未见过类的人为定义的属性语义向量,
Figure GDA00028758844600000215
表示第j类已见过类的人为定义的属性语义向量,
Figure GDA00028758844600000216
表示向量
Figure GDA00028758844600000217
与向量
Figure GDA00028758844600000218
的点积,
Figure GDA00028758844600000219
分别表示向量
Figure GDA00028758844600000220
与向量
Figure GDA00028758844600000221
的模;
给定相似度分数阈值ξ,0≤ξ≤1,对
Figure GDA00028758844600000222
筛选出
Figure GDA00028758844600000223
的所有
Figure GDA00028758844600000224
的相似度分数向量[α12...αk],ξ≤α12...αk≤1,由公式
Figure GDA00028758844600000225
得出所有未见过类的扩充语义向量,其中
Figure GDA00028758844600000226
表示第i个未见过类的类中心扩充语义向量,αj表示大于阈值ξ的第i个未见过类与第j个已见过类的相似度分数,
Figure GDA00028758844600000227
表示第j个已见过类的类中心扩充语义向量。
进一步,将已见过类和未见过类的扩充语义向量
Figure GDA00028758844600000228
Figure GDA00028758844600000229
以及原有人为定义的属性语义向量作为条件,构建SA-WGAN-VAE网络模型;
通过坍塌约束规则:
Figure GDA0002875884460000031
ε=1e-7,约束当zi和zj相似时,
Figure GDA0002875884460000032
Figure GDA0002875884460000033
尽可能有较大的差异性;其中zi和zj分别表示从Z~N(0,1)标准正态分布中随机采样得到的噪声向量,
Figure GDA0002875884460000034
Figure GDA0002875884460000035
表示WGAN使用zi和zj合成出的视觉特征向量,cossim(zi,zj)和
Figure GDA0002875884460000036
表示求两个向量的余弦相似度。
进一步,所述SA-WGAN-VAE网络模型包括VAE网络模块及WGAN网络模块。
进一步,所述WGAN网络模块包括生成器和判别器,
进一步,用于训练视觉嵌入网络E(x)的损失函数为:
LE=Lua+Lls
其中
Figure GDA0002875884460000037
Lls=max(m+dis(li,lj)-dis(li,lk),0)
N表示已见类的类别数目,ac表示第c个已见类人为定义的属性语义向量,
Figure GDA0002875884460000038
表示每一类中每个样本产生的对数分类损失值,<ui,ai>表示向量ui与向量ai的点积,
Figure GDA0002875884460000039
表示每一类中n个样本分类损失的累加值,即Lua表示N个类别所有样本的对数分类损失;
Lls=max(m+dis(li,lj)-dis(li,lk),0)表示利用三元组损失函数来拉近同一类别样本间的距离,推远不同类别样本间的距离,以此来学习到人为定义的属性语义向量中未包含的表达类间可分关系的潜在属性,从而来得到扩充的语义向量,dis(li,lj)表示潜在扩充属性向量li与潜在扩充属性向量lj的欧式距离,dis(li,lk)表示潜在扩充属性向量li与潜在扩充属性向量lk的欧式距离;li与lj来自同一个类不同样本的潜在扩充属性向量,li与lk来自不同类的不同样本的潜在扩充属性向量,m表示三元组损失的一个边距间隔,通常设置为1.0。
进一步,所述S4中,
用SA-WGAN-VAE网络模型,结合人为定义的属性语义向量和S2中构建的扩充语义向量,使用已见过类数据集
Figure GDA00028758844600000310
来训练SA-WGAN-VAE网络模型参数,每使用5个批次的Ds训练网络后,为未见过类生成视觉特征,使用已见过类的视觉特征和合成的未见过类的视觉特征训练分类器,使用验证集数据周期性对当前分类器进行分类准确率测试,当分类器的分类准确率趋于平缓时,停止网络训练,保存当前网络模型参数。
本发明与现有技术相比,具有如下优点与有益效果:
1、相比基于空间映射的零样本分类方法,本发明克服了网络的预测偏置现象;相比基于特征生成的零样本分类方法,本发明通过扩充语义信息,合成了更具多样性和判别性的视觉特征,进一步提高了网络的泛化性能。
2、本发明设计的方法模型是能应用在不同类型数据上的通用模型,对于不同类型的数据使用统一的端到端网络模型即可进行零样本分类学习。
3、本发明设计的扩充语义向量对不同数据集有很强的适应性,可以结合现有的生成式零样本分类模型,提升该模型的对于零样本数据的分类准确率。
4、本发明设计的方法模型可以较好地识别已见过类的样本,训练过程中,始终保证对少数类样本有较高的预测准确率。
5、本发明设计的方法可通过调整Lc函数进一步缓和SA-WGAN-VAE网络的模式坍塌问题,以一种灵活可控的方式避免生成的视觉特征呈现单一模式。当采样得到zi和zj相似度高时,仍鼓励网络利用该相似度高的向量组生成尽可能差异性大的视觉特征从而提升特征的多样性和丰富度。可通过调节合适的Lc函数的值来提升模型性能。
6、对于基于语义扩充的零样本图像分类模型,本发明在训练模型时,使用验证集数据中已见过类和未见过类的类平均预测准确率来评估网络的性能,较好地追踪模型真实性能的变化,训练出的模型的更加可靠。
附图说明
图1是本发明方法的工作流程图;
图2是本发明实施例的视觉语义嵌入网络和SA-WGAN-VAE输入数据的实例图。
图3为本发明训练基于语义扩充的零样本图像分类模型的算法流程图。
具体实施方式
下面结合实施例及附图,对本发明作进一步地详细说明,但本发明的实施方式不限于此。
实施例
如图1-图3所示,本实施例所提供的基于语义扩充的零样本分类方法,包括以下步骤:
S1构建已见过类的潜在扩充语义信息,具体为:
S1.1语义视觉嵌入网络E(x)在每个训练批次前构造一组三元组样本数据集
Figure GDA0002875884460000051
其中xi,xj来自相同类别的已见过类的视觉特征,xi,xk表示来自不同类别的视觉特征。
E(xi)将
Figure GDA0002875884460000052
转化为[ui,li],然后依据LE损失进行训练,目的是学习类与类之间的潜在判别性语义信息。
S1.2针对数据集
Figure GDA0002875884460000053
其中
Figure GDA0002875884460000054
为已见类的视觉特征向量,
Figure GDA0002875884460000055
为已见类的标签,
Figure GDA0002875884460000056
为已见类的人为定义的属性语义向量。使用视觉语义嵌入网络E(x)将已见类的视觉特征映射至将语义信息和视觉信息关联起来的嵌入空间。每一个已见类的视觉特征向量
Figure GDA0002875884460000057
经[ui,li]=E(xi)映射后,产生映射属性向量ui和潜在扩充属性向量li
具体来说,该视觉特征向量是通过卷积神经网络提取得到,用来描述类的图片相关视觉信息,同一类别的视觉特征向量之间存在相似性,不同类别之间的视觉特征向量存在差异性,使用视觉特征向量有利于帮助计算机识别出具体类别。属性语义向量具体是通过定义类的各个属性并且给这些属性赋予一定数值,即通过一组属性值组成的向量来描述每一个类,比如对于斑马类,斑马有条纹、外形及体重等属性,可以通过给体重、外形等属性赋予一个数值来具体描述一个类别要是斑马的情况下,这些属性应该是多少,该部分为人为定义。
用于训练视觉嵌入网络E(x)的损失函数为:
LE=Lua+Lls
其中
Figure GDA0002875884460000058
Lls=max(m+dis(li,lj)-dis(li,lk),0)
N表示已见类的类别数目,ac表示第c个已见类人为定义的属性语义向量,
Figure GDA0002875884460000059
表示每一类中每个样本产生的对数分类损失值,<ui,ai>表示向量ui与向量ai的点积,
Figure GDA00028758844600000510
表示每一类中n个样本分类损失的累加值,即Lua表示N个类别所有样本的对数分类损失。Lls=max(m+dis(li,lj)-dis(li,lk),0)表示利用三元组损失函数来拉近同一类别样本间的距离,推远不同类别样本间的距离,以此来学习到人为定义的属性语义向量中未包含的表达类间可分关系的潜在属性,从而来得到扩充的语义向量,dis(li,lj)表示潜在扩充属性向量li与潜在扩充属性向量lj的欧式距离,dis(li,lk)表示潜在扩充属性向量li与潜在扩充属性向量lk的欧式距离;li与lj来自同一个类不同样本的潜在扩充属性向量,li与lk来自不同类的不同样本的潜在扩充属性向量,m表示三元组损失的一个边距间隔,通常设置为1.0。
S1.3获得的所有已见类的扩充语义向量,由公式
Figure GDA0002875884460000061
得出每一个可见类的类中心扩充语义向量,其中
Figure GDA0002875884460000062
表示第i个已见类的类中心扩充语义向量,lj表示第i个已见类的第j个样本的扩充语义向量,n表示第i个已见类中有n个样本。
语义视觉嵌入网络E(x)参数如表1所示。
表1语义视觉嵌入网络E(x)参数设置
Layer Width Height Depth
Input 32 32 1
Flatten 1 1 1024
FullyConnected 1 1 4096
ReLU 1 1 4096
FullyConnected 1 1 624
S2构建未见类的潜在扩充语义信息;
根据S1中所构建的已见过类的扩充语义信息,通过
Figure GDA0002875884460000063
得到所有未见过类的扩充语义信息,具体步骤为:
S2.1在人为定义的属性语义空间中,计算每一个未见过类与其他已见过类的相似度,相似度计算公式为:
Figure GDA0002875884460000071
其中
Figure GDA0002875884460000072
表示向量
Figure GDA0002875884460000073
与向量
Figure GDA0002875884460000074
的相似度得分;
Figure GDA0002875884460000075
表示第i类未见过类的人为定义的属性向量,
Figure GDA0002875884460000076
表示第j类已见过类的人为定义的属性向量,
Figure GDA0002875884460000077
表示向量
Figure GDA0002875884460000078
与向量
Figure GDA0002875884460000079
的点积,
Figure GDA00028758844600000710
分别表示向量
Figure GDA00028758844600000711
与向量
Figure GDA00028758844600000712
的模。
给定相似度分数阈值ξ,0≤ξ≤1。依据
Figure GDA00028758844600000713
筛选出
Figure GDA00028758844600000714
Figure GDA00028758844600000715
的相似度分数大于ξ的值组成向量[α12...αk],ξ≤α12...αk≤1。
S2.2由公式
Figure GDA00028758844600000716
得出所有未见过类的扩充语义向量,其中
Figure GDA00028758844600000717
表示第i个未见过类的类中心扩充语义向量,αj表示大于阈值ξ的第i个未见过类与第j个已见过类的相似度分数,
Figure GDA00028758844600000718
表示第j个已见过类的类中心扩充语义向量。
S3构建生成对抗网络模型以及缓和模式坍塌约束规则:
根据S2中得到的已见过类和未见过类的类中心扩充语义向量
Figure GDA00028758844600000719
Figure GDA00028758844600000720
以及人为定义的属性语义向量a作为条件,构建Wasserstein Generative Adversarial Networks(WGAN)和Variational Autoencoders(VAE),Semantic Augment组合的SA-WGAN-VAE网络模型,通过
Figure GDA00028758844600000721
ε=1e-7,保证当zi和zj相似时,
Figure GDA00028758844600000722
Figure GDA00028758844600000723
尽可能有较大的差异性;SA-WGAN-VAE网络模型由两部分组成,分别为VAE网络模块、WGAN网络模块。其中WGAN网络模块包含生成器模块和判别器模块。通过如下损失函数:
Figure GDA00028758844600000724
更新VAE模块参数,其中KL表示Kullback-Leibler divergence,q(z|x,a)表示给定x,a时生成z的条件分布,x,a,
Figure GDA00028758844600000725
分别表示类的视觉特征向量、人为定义的语义向量以及已见过类的中心扩充语义向量,p(x|a)假设服从标准正态分布N(0,1)。Epq(z|x,a)[logp(x|z,a)]表示求logp(x|z,a)的期望,通过如下损失函数
Figure GDA00028758844600000727
更新WGAN模块,其中D(x,a)表示判别器D将x,a一起输入给出判别结果,
Figure GDA00028758844600000728
表示生成器G以人为定义的属性语义向量a作为条件的合成视觉特征,
Figure GDA00028758844600000729
表示生成器G以已见过类的中心扩充语义向量
Figure GDA0002875884460000081
作为条件的合成视觉特征,
Figure GDA0002875884460000082
其中U(0,1)表示均匀分布,同理
Figure GDA0002875884460000083
λ表示梯度惩罚系数。
VAE网络模块参数如表2所示
表2语义VAE网络参数设置
Layer Width Height Depth
Input 1 1 2048
FullyConnected 1 1 4096
LeakyReLU 1 1 4096
FullyConnected 1 1 2048
生成器参数如表3所示
表3生成器参数设置
Layer Width Height Depth
Input 1 1 2048
FullyConnected 1 1 2048
LeakyReLU 1 1 2048
FullyConnected 1 1 4096
LeakyReLU 1 1 4096
FullyConnected 1 1 2048
Sigmoid 1 1 2048
判别器参数如表4所示
表4判别器参数设置
Figure GDA0002875884460000084
Figure GDA0002875884460000091
S4训练基于语义扩充的零样本图像分类模型,合成视觉特征,利用合成的视觉特征构建特征分类器。具有如下特征:
①利用已见类和未见过类的人为定义的属性语义向量和扩充语义向量结合SA-WGAN-VAE网络合成视觉特征;
②在模型训练过程中,使用验证集数据周期性对当前分类进行准确率测试,当分类器的分类准确率趋于平缓时,停止网络训练,保存当前分类器模型参数。
使用预处理的CUB数据集对本发明上述方法进行具体说明。对于原始CUB数据集,CUB是具有200个类别的描述鸟类的数据集,本发明随机取其中150个类别的鸟类图片数据作为已见过类别,将剩余的50个类的鸟类图片数据作为未见过类;已见过类别和未见过类的实例图片如图2所示,一共11788长图片。使用通用的ResNet101网络对已见过类和未见过类的抽取2048维的图像特征集合分别记为
Figure GDA0002875884460000092
在本实例中,所述的基于语义扩充的零样本分类方法,包括以下步骤:
1)将
Figure GDA0002875884460000093
通过E(x)将xi转换为[ui,li],通过
Figure GDA0002875884460000094
和Lls=max(m+dis(li,lj)-dis(li,lk),0)损失函数计算梯度;根据梯度更新E(x)网络参数,当Lua,Lls损失值不再下降时,停止训练,由公式
Figure GDA0002875884460000095
得出CUB数据集中150种可见类的类中心扩充语义向量。
2)根据1)中所构建的已见过类的扩充语义信息,在人为定义的属性语义空间中,通过
Figure GDA0002875884460000096
计算CUB中50种未见过鸟类与150种已见过鸟类的相似度,通过
Figure GDA0002875884460000097
得到50种未见过鸟类的中心扩充语义向量。
3)根据步骤2)中得到CUB数据集中150类已见过鸟类和50类未见过鸟类的中心扩充语义向量
Figure GDA0002875884460000101
Figure GDA0002875884460000102
以及原有人为定义的已见过类属性语义向量集As={ai s},i=1,2,3......150、Au={aj u},j=1,2,3......50,ai s,
Figure GDA0002875884460000103
向量维度均为312。构建SA-WGAN-VAE网络,网络模块参数上述内容,同时为了缓和WGAN的模式坍塌问题,构建
Figure GDA0002875884460000104
ε=1e-7损失函数。
4)训练基于语义扩充零样本分类模型,具有如下特征
①将CUB中已见过类数据集
Figure GDA0002875884460000105
中每一个已见过类样本xi,向量输入到VAE网络中产生潜在变量对zi,,随后将该潜在变量对与
Figure GDA0002875884460000106
以及As={ai s},i=1,2,3......150进行组合形成[zi,Li s]和[zi,ai s]输入到生成器中生成重建视觉向量
Figure GDA0002875884460000107
通过Lvae计算损失更新VAE模块网络参数。
②将CUB中已见过类的
Figure GDA0002875884460000108
以及As={ai s},i=1,2,3......150与标准正态分布随机采样得到噪声向量z1 N,
Figure GDA0002875884460000109
组合形成
Figure GDA00028758844600001010
[z2 N,ai s]向量对进而输入到WGAN的生成器模块中产生两个合成视觉向量
Figure GDA00028758844600001011
合成视觉向量
Figure GDA00028758844600001012
随后输入到WGAN的判别器模块中输出辨别结果,依据判别器输出的结果通过Lwgan计算损失更新WGAN模块网络参数。
③在使用CUB 150种已见过类训练好SA-WGAN-VAE网络参数后,使用SA-WGAN-VAE结合
Figure GDA00028758844600001013
为CUB剩余的50种未见过类生成视觉特征数据集
Figure GDA00028758844600001014
每一种未见过类使用SA-WGAN-VAE为其合成300个视觉特征。将
Figure GDA00028758844600001015
和Ds输入到分类器C中使用Softmax损失函数进行网络训练,
Figure GDA00028758844600001016
C(xi)表示分类器C输出的类预测概率值。
分类器C模型参数如表5所示
表5分类器C模型参数设置
Layer Width Height Depth
Input 1 1 2048
FullyConnected 1 1 4096
LeakyReLU 1 1 4096
FullyConnected 1 1 200
④在模型的训练中,采用Adam网络优化器,优化器的学习率对所有数据集设定为恒定的学习率大小为0.001;梯度惩罚因子λ设置为10,WGAN模块训练时,每进行5轮判别器模块的参数更新后进行一次生成器参数的更新;设置分类器的学习率为0.0001,训练过程中周期性使用验证数据集监控分类器对于已见过类和未见过类的平均分类准确率,当类的平均分类准确率不再上升时,终止训练,保存模型。在测试阶段,对测试集的已见过类的平均分类准确率为56.1%,未见过类的平均分类准确率为56.8%。
本发明的算法模型使用Python3.5编写,基于深度学习框架Pytorch,实验运行的GPU型号为2块NVIDIA GeForce GTX 1080Ti,一共22GB显存。
其它零样本图像分类方法类似此方法。
综上所述,本发明利用扩充的语义向量的优势对零样本分类问题建模,通过使用扩充的语义向量弥补了人为定义的属性语义向量的不全面,保证SA-WGAN-VAE利用扩充语义向量和人为定义的属性语义向量能够合成更具多样性和更符合真实样本分布的视觉特征。本发明提出的方法模型在传统零样本分类和广义零样本分类问题中均适用,在不同类型的数据环境和结合不同特征生成模型都能有优秀的分类表现,是一个具有较强鲁棒性的通用模型。因而本发明具有实际应用价值,值得推广。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受所述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (6)

1.一种基于语义扩充的零样本图像分类方法,用于计算机识别无标签的图像,为其分配对应的类标签,其特征在于,包括如下步骤:
S1构建已见类的潜在扩充语义信息;
S2构建未见类的潜在扩充语义信息;
S3构建生成对抗网络模型模式坍塌约束规则;
S4构建基于语义扩充的零样本图像分类模型,合成视觉特征,利用合成的视觉特征构建特征分类器;
S1构建已见类的潜在扩充语义信息,具体为:
针对数据集
Figure FDA0003835567580000011
其中
Figure FDA0003835567580000012
为已见类的视觉特征向量,
Figure FDA0003835567580000013
为已见类的标签,
Figure FDA0003835567580000014
为已见类的人为定义的属性语义向量;
每一个已见类的视觉特征向量
Figure FDA0003835567580000015
经视觉语义嵌入网络E(xi)=[ui,li]映射后,产生映射属性向量ui和潜在扩充属性向量li,实现将已见类的视觉特征向量映射至语义向量和视觉特征向量关联起来的嵌入空间;
由公式
Figure FDA0003835567580000016
得出每一个已见类的类中心扩充语义向量,其中
Figure FDA0003835567580000017
表示第i个已见类的类中心扩充语义向量,lg表示第i个已见类的第g个样本的扩充语义向量,n表示第i个已见类中有n个样本;
视觉语义嵌入网络在每个训练批次前构造一组三元组样本数据集
Figure FDA0003835567580000018
其中xti,xtj来自相同类别的已见过类的视觉特征,xti,xtk表示来自不同类别的视觉特征,E(xi)将
Figure FDA0003835567580000019
转化为[ui,li],然后根据三元组损失函数进行训练;
S2构建未见类的潜在扩充语义信息,具体为:
在人为定义的属性语义空间中,计算每一个未见类与其他已见类的相似度,相似度计算公式为:
Figure FDA00038355675800000110
其中
Figure FDA00038355675800000111
表示向量
Figure FDA00038355675800000112
与向量
Figure FDA00038355675800000113
的相似度得分;
Figure FDA00038355675800000114
表示第j类未见过类的人为定义的属性语义向量,
Figure FDA00038355675800000115
表示第i类已见过类的人为定义的属性语义向量,
Figure FDA00038355675800000116
表示向量
Figure FDA00038355675800000117
与向量
Figure FDA00038355675800000118
的点积,
Figure FDA00038355675800000119
分别表示向量
Figure FDA00038355675800000120
与向量
Figure FDA00038355675800000121
的模;
给定相似度分数阈值ξ,0≤ξ≤1,对
Figure FDA00038355675800000122
筛选出
Figure FDA00038355675800000123
的所有
Figure FDA00038355675800000124
的相似度分数向量[α12...αk],ξ≤α12...αk≤1,k是和第j类未见过类的属性语义向量
Figure FDA00038355675800000125
相似度值大于ξ的已见过类属性语义向量的个数,由公式
Figure FDA0003835567580000021
得出所有未见过类的扩充语义向量,其中
Figure FDA0003835567580000022
表示第j个未见过类的类中心扩充语义向量,αr表示大于阈值ξ的第j个未见过类与第i个已见过类的相似度分数,
Figure FDA0003835567580000023
表示第i个已见过类的类中心扩充语义向量;
所述S3构建生成对抗网络模型模式坍塌约束规则,具体为:
将已见过类和未见过类的扩充语义向量
Figure FDA0003835567580000024
Figure FDA0003835567580000025
以及原有人为定义的属性语义向量作为条件,构建SA-WGAN-VAE网络模型;
通过坍塌约束规则:
Figure FDA0003835567580000026
约束当zi和zj相似时,
Figure FDA0003835567580000027
Figure FDA0003835567580000028
尽可能有较大的差异性;其中zi和zj分别表示从Z~N(0,1)标准正态分布中随机采样得到的噪声向量,
Figure FDA0003835567580000029
Figure FDA00038355675800000210
表示WGAN使用zi和zj合成出的视觉特征向量,cossim(zi,zj)和
Figure FDA00038355675800000211
表示求两个向量的余弦相似度。
2.根据权利要求1所述的零样本图像分类方法,其特征在于,所述SA-WGAN-VAE网络模型包括VAE网络模块及WGAN网络模块。
3.根据权利要求2所述的零样本图像分类方法,其特征在于,所述WGAN网络模块包括生成器和判别器。
4.根据权利要求1所述的零样本图像分类方法,其特征在于,
用于训练视觉嵌入网络E(x)的损失函数为:
LE=Lua+Lls
其中
Figure FDA00038355675800000212
Lls=max(m+dis(lti,ltj)-dis(lti,ltk),0)
N表示已见类的类别数目,Ys为已见类标签集合,
Figure FDA00038355675800000213
表示第c个已见类人为定义的属性语义向量,
Figure FDA00038355675800000214
表示每一类中每个样本产生的对数分类损失值,<ui,ai>表示向量ui与向量ai的点积,
Figure FDA00038355675800000215
表示每一类中n个样本分类损失的累加值,即Lua表示N个类别所有样本的对数分类损失;Lls=max(m+dis(lti,ltj)-dis(lti,ltk),0)表示利用三元组损失函数来拉近同一类别样本间的距离,推远不同类别样本间的距离,以此来学习到人为定义的属性语义向量中未包含的表达类间可分关系的潜在属性,从而来得到扩充的语义向量,dis(lti,ltj)表示潜在扩充属性向量lti与潜在扩充属性向量ltj的欧式距离,dis(lti,ltk)表示潜在扩充属性向量lti与潜在扩充属性向量ltk的欧式距离;lti与ltj来自同一个类不同样本的潜在扩充属性向量,lti与ltk来自不同类的不同样本的潜在扩充属性向量,m表示三元组损失的一个边距间隔。
5.根据权利要求2所述的零样本图像分类方法,其特征在于,所述S4中,
用SA-WGAN-VAE网络模型,结合人为定义的属性语义向量和S2中构建的扩充语义向量,使用已见过类数据集
Figure FDA0003835567580000031
来训练SA-WGAN-VAE网络模型参数,每使用5个批次的Ds训练网络后,为未见过类生成视觉特征,使用已见过类的视觉特征和合成的未见过类的视觉特征训练分类器,使用验证集数据周期性对当前分类器进行分类准确率测试,当分类器的分类准确率趋于平缓时,停止网络训练,保存当前网络模型参数。
6.根据权利要求4所述的零样本图像分类方法,其特征在于,m为1.0。
CN202011149508.XA 2020-10-23 2020-10-23 一种基于语义扩充的零样本图像分类方法 Active CN112380374B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011149508.XA CN112380374B (zh) 2020-10-23 2020-10-23 一种基于语义扩充的零样本图像分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011149508.XA CN112380374B (zh) 2020-10-23 2020-10-23 一种基于语义扩充的零样本图像分类方法

Publications (2)

Publication Number Publication Date
CN112380374A CN112380374A (zh) 2021-02-19
CN112380374B true CN112380374B (zh) 2022-11-18

Family

ID=74580912

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011149508.XA Active CN112380374B (zh) 2020-10-23 2020-10-23 一种基于语义扩充的零样本图像分类方法

Country Status (1)

Country Link
CN (1) CN112380374B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113378959B (zh) * 2021-06-24 2022-03-15 中国矿业大学 一种基于语义纠错下生成对抗网络的零样本学习方法
CN113537322B (zh) * 2021-07-02 2023-04-18 电子科技大学 一种跨模态语义增强生成对抗网络的零样本视觉分类方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106203483A (zh) * 2016-06-29 2016-12-07 天津大学 一种基于语义相关多模态映射方法的零样本图像分类方法
WO2018032354A1 (en) * 2016-08-16 2018-02-22 Nokia Technologies Oy Method and apparatus for zero-shot learning
CN110516718A (zh) * 2019-08-12 2019-11-29 西北工业大学 基于深度嵌入空间的零样本学习方法
CN110610124A (zh) * 2019-07-30 2019-12-24 珠海亿智电子科技有限公司 一种基于生成对抗网络的图像生成方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017139764A1 (en) * 2016-02-12 2017-08-17 Sri International Zero-shot event detection using semantic embedding
CN110826638B (zh) * 2019-11-12 2023-04-18 福州大学 基于重复注意力网络的零样本图像分类模型及其方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106203483A (zh) * 2016-06-29 2016-12-07 天津大学 一种基于语义相关多模态映射方法的零样本图像分类方法
WO2018032354A1 (en) * 2016-08-16 2018-02-22 Nokia Technologies Oy Method and apparatus for zero-shot learning
CN110610124A (zh) * 2019-07-30 2019-12-24 珠海亿智电子科技有限公司 一种基于生成对抗网络的图像生成方法
CN110516718A (zh) * 2019-08-12 2019-11-29 西北工业大学 基于深度嵌入空间的零样本学习方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Semantic Softmax Loss for Zero-Shot Learning;Zhong Ji et al.;《Neurocomputing》;20181231;369-375 *
Zero-shot semantic segmentation;Maxime Bucher;《arXic》;20191231;1-15 *
基于视觉误差与语义属性的零样本图像分类;徐戈等;《计算机应用》;20200430;第40卷(第04期);1017-1022 *

Also Published As

Publication number Publication date
CN112380374A (zh) 2021-02-19

Similar Documents

Publication Publication Date Title
CN109523463B (zh) 一种基于条件生成对抗网络的人脸老化方法
CN104866810B (zh) 一种深度卷积神经网络的人脸识别方法
CN109815826B (zh) 人脸属性模型的生成方法及装置
Cheng et al. Exploiting effective facial patches for robust gender recognition
CN108647583B (zh) 一种基于多目标学习的人脸识别算法训练方法
Chin et al. Incremental kernel principal component analysis
US7711156B2 (en) Apparatus and method for generating shape model of object and apparatus and method for automatically searching for feature points of object employing the same
CN112307995B (zh) 一种基于特征解耦学习的半监督行人重识别方法
CN107578007A (zh) 一种基于多特征融合的深度学习人脸识别方法
Sun et al. Facial age synthesis with label distribution-guided generative adversarial network
CN109858392B (zh) 一种用于化妆前后人脸图像自动识别方法
CN109978882A (zh) 一种基于多模态融合的医疗影像目标检测方法
CN112949740B (zh) 一种基于多级度量的小样本图像分类方法
CN112380374B (zh) 一种基于语义扩充的零样本图像分类方法
CN112528928A (zh) 一种基于自注意力深度网络的商品识别方法
CN116311483B (zh) 基于局部面部区域重构和记忆对比学习的微表情识别方法
Sinha et al. Identity-preserving realistic talking face generation
CN105718898B (zh) 基于稀疏无向概率图模型的人脸年龄估计方法、系统
CN116229179A (zh) 基于宽度学习系统的双松弛图像分类方法
CN116704612A (zh) 一种基于对抗域自适应学习的跨视角步态识别方法
CN115690276A (zh) 虚拟形象的视频生成方法、装置、计算机设备和存储介质
CN115205903A (zh) 一种基于身份迁移生成对抗网络的行人重识别方法
CN114037866B (zh) 一种基于可辨伪特征合成的广义零样本图像分类方法
CN115393930A (zh) 一种基于三分支卷积神经网络的表情识别方法
CN109509144B (zh) 一种基于对抗生成网络的与职业相关的人脸老化方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant