CN114821196A - 零样本图像识别方法及其识别装置、介质与计算机终端 - Google Patents

零样本图像识别方法及其识别装置、介质与计算机终端 Download PDF

Info

Publication number
CN114821196A
CN114821196A CN202210638733.2A CN202210638733A CN114821196A CN 114821196 A CN114821196 A CN 114821196A CN 202210638733 A CN202210638733 A CN 202210638733A CN 114821196 A CN114821196 A CN 114821196A
Authority
CN
China
Prior art keywords
visual
semantic
features
unseen
loss
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210638733.2A
Other languages
English (en)
Inventor
赵鹏
刘金辉
韩莉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui University
Original Assignee
Anhui University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui University filed Critical Anhui University
Priority to CN202210638733.2A priority Critical patent/CN114821196A/zh
Publication of CN114821196A publication Critical patent/CN114821196A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及公开了一种基于原型域对齐与跨模态重建的零样本图像识别方法,其包括以下主要步骤:提取可见类样本的视觉特征;通过特征分布编码器获得可见类图像的视觉分布信息;通过特征生成器获得生成的视觉特征;通过设计分布正则化损失、域一致性损失、视觉重建损失、对抗损失和语义重建损失,训练优化所述特征生成器的模型的参数,获得训练好的特征生成器;将未见类语义特征输入训练好的特征生成器获得生成的未见类视觉特征;利用生成的未见类视觉特征训练未见类分类器;利用训练好的未见类分类器对未见类图像进行预测。本发明通过原型域一致性对齐和跨模态重建,使生成的视觉特征与真实的视觉特征更加接近,并且包含更多的类别判别性特征。

Description

零样本图像识别方法及其识别装置、介质与计算机终端
技术领域
本发明涉及计算机视觉的图像识别领域中的一种零样本图像识别方法,特别是一种基于原型域对齐与跨模态重建的零样本图像识别方法、与所述零样本图像识别方法相对应的零样本图像识别装置、采用所述零样本图像识别方法的计算机可读存数介质与计算机终端。
背景技术
现有的图像识别方法需要在模型训练阶段收集大量有类别标签的图像对模型进行训练,识别阶段只能识别训练阶段中出现过的类别。然而在实际场景中,经常需要识别训练阶段缺少图像的类别,例如濒危物种的图像、医疗肿瘤图像等。在上述应用场景下,训练阶段只能获取到各个类别的文本描述,无法获得对应的图像。因此,传统的图像识别方法无法对未见类图像进行识别,而采用零样本图像识别方法便可以对对未见类图像进行识别。零样本图像识别方法通过模型训练,能够在识别阶段识别出在训练阶段无法获取到图像的类别。训练阶段具有图像的类别称为可见类,训练阶段无法获取到图像的类别称为未见类。
公开号为CN113537322A的发明专利申请公开了一种跨模态语义增强生成对抗网络的零样本视觉分类方法。该方法需先训练跨模态语义增强网络,再训练基于跨模态语义增强的生成对抗网络。所述方法的跨模态语义增强网络首先将视觉特征进行降维后完成分类器及回归器操作。然后,为了保证视觉和语义之间更接近,所述方法又将语义特征通过升维变换为与降维后视觉空间相同的维度,然后通过网络将语义特征和视觉特征映射到同一子空间中,获得跨模态重构的语义特征和视觉特征,并进行计算不同模态的特征差异。
但是考虑到视觉特征包含丰富的细致和判别信息,容易在降维的过程中丢失一部分视觉信息;同时,这传统的视觉模态和语义文本模态的特征生成机制会存在有些细致视觉特征没法找到对应的语义特征,有些具有隐喻的语义文本特征也无法找到对应的视觉特征,因而将视觉特征和语义特征映射到同一空间,会造成信息损失和错误的信息对齐。其次,公开号为CN113537322A的发明专利申请中的方法通过生成对抗网络中的生成器进行特征生成的,生成器从高斯分布中直接采样,忽略了样本的分布信息。
零样本学习通过可见类的视觉图像和语义属性进行训练,建立相同类别的视觉图像与语义属性之间的关系,并在预测时,将这种关系迁移到未见类,便可以实现对未见类图像的预测。现有的零样本学习方法主要分为基于属性预测的方法、基于空间嵌入的方法以及基于生成模型的方法。本发明属于基于生成模型的零样本学习方法。
由于图像和语义特征来自不同模态,某些相同的语义属性映射到不同类上的视觉特征具有较大的分布差异,例如“大象”和“猪”具有相同的语义属性“鼻子”,但它们的视觉特征差异很大。因此不同类别之间视觉特征和语义特征的映射关系存在着域偏移现象。因而,基于生成模型的零样本学习在生成未见类视觉样本时,存在生成的视觉特征分布偏离真实视觉特征分布的现象,从而会产生样本域分布不一致的问题。此外,基于生成模型的方法需要同时以随机向量与语义向量作为生成器的输入,生成的图像难以保证包含充足的类别信息,可能会掺杂更多与类别无关的噪声信息,无法保证生成器可以将随机向量和语义向量充分解耦。生成的图像可能会包含更多与类别无关的信息,导致合成样本的类区分性比较差,从而会产生生成样本类别信息不完全的问题。
发明内容
为解决生成模型中样本域分布不一致和生成样本类别信息不完全的技术问题,本发明提供一种基于原型域对齐与跨模态重建的零样本图像识别方法、与所述零样本图像识别方法相对应的零样本图像识别装置、采用所述零样本图像识别方法的计算机可读存数介质与计算机终端。
本发明是通过以下技术方案实现:一种基于原型域对齐与跨模态重建的零样本图像识别方法,具有模型训练阶段和零样本图像识别阶段,所述零样本图像识别方法包括以下步骤:
一、模型训练阶段
(1)所述模型训练阶段采用的训练集中包含图像的类别称为可见类,具有可见类的图像和类别语义属性,所述训练集中没有包含图像的类别称为未见类,具有未见类的类别语义属性;
(2)利用视觉提取器对所述可见类的图像获得视觉特征x,利用原型提取器对所述可见类获得类别视觉原型
Figure 233800DEST_PATH_IMAGE001
,利用语义提取器分别对所述可见类的类别语义属性、所述未见类的类别语义属性均获得语义特征s
(3)将所述视觉特征x和所述可见类的语义特征拼接s,输入到特征分布编码器,获取所述可见类的图像的视觉分布信息,所述视觉分布信息包括均值μ和标准差σ
(4)计算潜在空间中的低维向量z
z=σ×εμ
其中,ε表示服从高斯分布的随机向量,设计分布正则化损失,通过模型训练,约束所述低维向量z逼近于高斯分布;
所述特征分布编码器是通过最小化分布正则化损失完成的,所述特征分布编码器的分布正则化损失L Dis-Reg 表示为:
Figure 429289DEST_PATH_IMAGE002
其中,KL(·)表示散度函数,用于度量特征分布编码器获取的分布参数进行重参数化后的低维向量z的分布与高斯分布之间的分布差异; q φ (z|x, s)表示低维向量z的后验分布,即根据通过特征分布编码器对样本中的视觉特征x和语义特征s编码后得到的分布参数重参数化的z的分布, p θ (z|s)表示z的先验分布,即高斯分布;
(5)将所述低维向量z和所述可见类的语义特征s拼接,输入到特征生成器,获得生成的视觉特征x';设计域一致性损失,最小化所述图像生成的视觉特征和对应类别的视觉原型之间的差异,使生成的视觉特征和对应类别的视觉原型尽可能一致;
所述域一致性损失L MMD 设计如下:
Figure 327975DEST_PATH_IMAGE003
其中,
Figure 772862DEST_PATH_IMAGE004
表示该类别的视觉原型,φ(·)表示将数据映射到再生希尔伯特空间的核函数,K表示生成的该类别的视觉特征的个数,而
Figure 47986DEST_PATH_IMAGE005
表示生成第i个视觉特征;
(6)设计视觉重建损失,最小化所述生成的视觉特征x'与所述视觉特征x之间的差异,使所述生成的视觉特征x'与所述视觉特征x尽可能一致;
所述视觉重建损失的函数L Visual-Rec 为:
Figure 832402DEST_PATH_IMAGE006
其中,M表示数据集中图像的数目,
Figure 636410DEST_PATH_IMAGE007
表示第i个图像的视觉特征,
Figure 834174DEST_PATH_IMAGE008
表示与该图像的视觉特征对应的生成的视觉特征;
(7)将所述生成的视觉特征x'和所述视觉特征x分别输入到真假判别器,设计对抗损失,通过博弈的方式,增强所述视觉特征生成器的生成能力和所述真假判别器的真假判别能力;
所述特征生成器和所述真假判别器通过对抗的方式进行训练,用于提高视觉特征生成的质量,对抗损失函数L GAN 设计如下:
Figure 381830DEST_PATH_IMAGE009
其中,D(·)表示所述真假判别器的判别函数,其值介于0到1之间,IE[·]表示期望值函数;梯度惩罚项通过执行Lipschitz约束进行实现,λ表示梯度惩罚项的权重;
Figure 348648DEST_PATH_IMAGE010
表示所述视觉特征x和生成的视觉特征x'的线性插值,即
Figure 323558DEST_PATH_IMAGE011
,其中α是一个随机数值;
(8)将所述生成的视觉特征x'输入到语义解码器,重构与所述生成的视觉特征x'相对应的语义特征s',设计语义重建损失,最小化所述重构的语义特征s'和相应语义特征s之间的差异,使所述重构的语义特征s '与相应语义特征s尽可能一致;
通过语义解码器,获得视觉特征重构的语义特征s',并通过所述语义重建损失对模型进行训练,所述语义重建损失L Semantic-Rec 设计如下:
Figure 805355DEST_PATH_IMAGE012
其中,M 表示数据集中图像的数目,s i 表示第i 个图像对应类别的语义特征,s' i 表示第i 个生成的视觉特征通过所述语义解码器后重构的语义特征;
(9)将所述分布正则化损失、所述域一致性损失、所述视觉重建损失、所述对抗损失和所述语义重建损失相加,获得所述视觉特征生成器的模型整体的损失函数,通过梯度反向传播,优化所述特征生成器的模型的参数,获得训练好的特征生成器;
(10)将未见类的语义特征和从高斯分布中采样的随机向量拼接,输入到所述训练好的特征生成器,生成未见类的视觉特征;
(11)将生成的未见类视觉特征输入到分类器,输出预测的类别标签,通过交叉熵损失,使所述分类器输出的类别标签与生成的未见类视觉特征对应的类别标签尽可能一致,训练获得一个未见类的分类器;
通过所述分类器预测所述生成的未见类视觉特征对应的类别标签,所述分类器的分类函数定义如下:
Figure 646051DEST_PATH_IMAGE013
其中,exp(·)表示以e 为底的指数函数;
Figure 467376DEST_PATH_IMAGE014
为视觉特征x 在分类器中输出的标签值,
Figure 347608DEST_PATH_IMAGE015
表示第y 个类别对应的模型参数向量的转置,
Figure 457646DEST_PATH_IMAGE016
表示第j 个类别的模型参数向量的转置,C表示未见类别的个数;
所述分类器通过交叉熵损失进行训练,交叉熵损失L Cls-CE 表示为:
Figure 347105DEST_PATH_IMAGE017
其中,y i,k 表示第k 个样本是否属于第i 个标签,k=1,2,…,Ki=1,…,N;当第k个样本属于第i个标签时,y i,k =1,否则,y i,k =0;p i,k 表示第k 个样本属于第i 个类别的概率;
二、零样本图像识别阶段
(12)通过所述视觉提取器和训练好的所述未见类的分类器,获得待预测的未见类图像的类别标签;
其中,通过所述视觉提取器,获得未见类图像对应的视觉特征,再输入到训练好的所述未见类的分类器中,获得识别出的类别标签。
作为上述方案的进一步改进,所述可见类的类别视觉原型是利用原型提取器获得的,即将类别中所有图像视觉特征均值作为该类别的视觉原型。
作为上述方案的进一步改进,α是介于0到1之间的一个随机数值。
作为上述方案的进一步改进,在步骤(1)之前,还包括步骤:
获得所需图像;其中,模型所使用的公开数据集包括:细粒度的鸟类数据集CUB、动物系列数据集AWA以及场景类数据集SUN;
对所述公开数据集进行类别划分;其中,使用预处理过程,将各数据集的全部类别划分为不相交的可见类和未见类,并分别获得对应的图像和语义属性;可见类的图像和语义属性用于生成模型的训练阶段,未见类的语义属性用于生成模型的未见类视觉特征生成阶段,未见类的图像则用于最终的零样本识别阶段;
获取数据集的特征;其中,在大规模数据集ImageNet上预训练一个ResNet网络,将类别划分后的所述公开数据集中的图像送入已预训练好的网络中,获得数据集中每张图像对应的视觉特征。
本发明还提供开一种基于原型域对齐与跨模态重建的零样本图像识别装置,所述零样本图像识别装置包括应用于模型训练阶段的定义模块、第一提取模块、视觉分布信息获取模块、低维向量计算模块、域一致性损失设计模块、视觉重建损失设计模块、真假判别能力模块、语义重建损失设计模块、第二提取模块、第三提取模块、未见类的分类器生成模块;
所述定义模块用于将所述模型训练阶段采用的训练集中包含图像的类别称为可见类,具有可见类的图像和类别语义属性,所述训练集中没有包含图像的类别称为未见类,具有未见类的类别语义属性;
所述第一提取模块用于利用视觉提取器对所述可见类的图像获得视觉特征x,利用原型提取器对所述可见类获得类别视觉原型
Figure 554095DEST_PATH_IMAGE018
,利用语义提取器分别对所述可见类的类别语义属性、所述未见类的类别语义属性均获得语义特征s
所述视觉分布信息获取模块用于将所述视觉特征x和所述可见类的语义特征拼接s,输入到特征分布编码器,获取所述可见类的图像的视觉分布信息,所述视觉分布信息包括均值μ和标准差σ
所述低维向量计算模块用于计算潜在空间中的低维向量z
z=σ×εμ
其中,ε表示服从高斯分布的随机向量,设计分布正则化损失,通过模型训练,约束所述低维向量z逼近于高斯分布;
所述特征分布编码器是通过最小化分布正则化损失完成的,所述特征分布编码器的分布正则化损失L Dis-Reg 表示为:
Figure 870807DEST_PATH_IMAGE019
其中,KL(.)表示散度函数,用于度量特征分布编码器获取的分布参数进行重参数化后的低维向量z的分布与高斯分布之间的分布差异;
Figure 264879DEST_PATH_IMAGE020
表示低维向量z的后验分布,即根据通过特征分布编码器对样本中的视觉特征x和语义特征s编码后得到的分布参数重参数化的z的分布,
Figure 161291DEST_PATH_IMAGE021
表示z的先验分布,即高斯分布;
所述域一致性损失设计模块用于将所述低维向量z和所述可见类的语义特征s拼接,输入到特征生成器,获得生成的视觉特征
Figure 957209DEST_PATH_IMAGE022
;设计域一致性损失,最小化所述图像生成的视觉特征和对应类别的视觉原型之间的差异,使生成的视觉特征和对应类别的视觉原型尽可能一致;
其中,所述域一致性损失L MMD 设计如下:
Figure 507139DEST_PATH_IMAGE023
其中,
Figure 388507DEST_PATH_IMAGE024
表示该类别的视觉原型,φ(.)表示将数据映射到再生希尔伯特空间的核函数,K表示生成的该类别的视觉特征的个数,而
Figure 354189DEST_PATH_IMAGE025
表示生成第i个视觉特征;
所述视觉重建损失设计模块用于设计视觉重建损失,最小化所述生成的视觉特征
Figure 4613DEST_PATH_IMAGE022
与所述视觉特征x之间的差异,使所述生成的视觉特征
Figure 725445DEST_PATH_IMAGE022
与所述视觉特征x尽可能一致;
所述视觉重建损失的函数L Visual-Rec 为:
Figure 825600DEST_PATH_IMAGE006
其中,M表示数据集中图像的数目,x i 表示第i个图像的视觉特征,
Figure 860552DEST_PATH_IMAGE025
表示与该图像的视觉特征对应的生成的视觉特征;
所述真假判别能力模块用于将所述生成的视觉特征
Figure 365483DEST_PATH_IMAGE022
和所述视觉特征x分别输入到真假判别器,设计对抗损失,通过博弈的方式,增强所述视觉特征生成器的生成能力和所述真假判别器的真假判别能力;
所述特征生成器和所述真假判别器通过对抗的方式进行训练,用于提高视觉特征生成的质量,对抗损失函数L GAN 设计如下:
Figure 726057DEST_PATH_IMAGE026
其中,D(.)表示所述真假判别器的判别函数,其值介于0到1之间,IE[·]表示期望值函数;梯度惩罚项通过执行Lipschitz约束进行实现,λ表示梯度惩罚项的权重;
Figure 316438DEST_PATH_IMAGE027
表示所述视觉特征x和生成的视觉特征
Figure 889502DEST_PATH_IMAGE022
的线性插值,即
Figure 514519DEST_PATH_IMAGE028
,其中,α~U(0,1),即:α是介于0到1之间的一个随机数值;
所述语义重建损失设计模块用于将所述生成的视觉特征
Figure 780415DEST_PATH_IMAGE022
输入到语义解码器,重构与所述生成的视觉特征
Figure 654830DEST_PATH_IMAGE022
相对应的语义特征
Figure 31585DEST_PATH_IMAGE029
,设计语义重建损失,最小化所述重构的语义特征
Figure 307845DEST_PATH_IMAGE029
和相应语义特征s之间的差异,使所述重构的语义特征
Figure 744643DEST_PATH_IMAGE029
与相应语义特征s尽可能一致;
通过语义解码器,获得视觉特征重构的语义特征
Figure 44037DEST_PATH_IMAGE029
,并通过所述语义重建损失对模型进行训练,所述语义重建损失L Semantic-Rec 设计如下:
Figure 958904DEST_PATH_IMAGE012
其中,M表示数据集中图像的数目,s i 表示第i个图像对应类别的语义特征,s' i 表示第i个生成的视觉特征通过所述语义解码器后重构的语义特征;
所述第二提取模块用于将所述分布正则化损失、所述域一致性损失、所述视觉重建损失、所述对抗损失和所述语义重建损失相加,获得所述视觉特征生成器的模型整体的损失函数,通过梯度反向传播,优化所述特征生成器的模型的参数,获得训练好的特征生成器;
所述第三提取模块用于将未见类的语义特征和从高斯分布中采样的随机向量拼接,输入到所述训练好的特征生成器,生成未见类的视觉特征;
所述未见类的分类器生成模块用于将生成的未见类视觉特征输入到分类器,输出预测的类别标签,通过交叉熵损失,使所述分类器输出的类别标签与生成的未见类视觉特征对应的类别标签尽可能一致,训练获得一个未见类的分类器;
通过所述分类器预测所述生成的未见类视觉特征对应的类别标签,所述分类器的分类函数定义如下:
Figure 355250DEST_PATH_IMAGE030
其中,exp(.)表示以e为底的指数函数;
Figure 697369DEST_PATH_IMAGE031
为视觉特征x在分类器中输出的标签值,
Figure 749639DEST_PATH_IMAGE015
表示第y个类别对应的模型参数向量的转置,
Figure 264934DEST_PATH_IMAGE016
表示第j个类别的模型参数向量的转 置,C表示未见类别的个数;
所述分类器通过交叉熵损失进行训练,交叉熵损失L Cls-CE 表示为:
Figure 719049DEST_PATH_IMAGE032
其中,y i,k 表示第k个样本是否属于第i个标签,k=1,2,…,Ki=1,…,N;当第k个样本属于第i 个标签时,y i,k =1,否则,y i,k =0;p i,k 表示第k个样本属于第i个类别的概率;
所述零样本图像识别装置还包括应用于零样本图像识别阶段的类别标签识别模块,
所述类别标签识别模块用于通过所述视觉提取器和训练好的所述未见类的分类器,获得待预测的未见类图像的类别标签;其中,通过所述视觉提取器,获得未见类图像对应的视觉特征,再输入到训练好的所述未见类的分类器中,获得识别出的类别标签。
作为上述方案的进一步改进,所述可见类的类别视觉原型是利用原型提取器获得的,即将类别中所有图像视觉特征均值作为该类别的视觉原型。
作为上述方案的进一步改进,α是介于0到1之间的一个随机数值。
作为上述方案的进一步改进,所述零样本图像识别装置还包括也应用于模型训练阶段的所需图像获得模块、公开数据集类别划分模块、数据集的特征获取模块;
所述所需图像获得模块用于获得所需图像;其中,模型所使用的公开数据集包括:细粒度的鸟类数据集CUB、动物系列数据集AWA以及场景类数据集SUN;
所述公开数据集类别划分模块用于对所述公开数据集进行类别划分;其中,使用预处理过程,将各数据集的全部类别划分为不相交的可见类和未见类,并分别获得对应的图像和语义属性;可见类的图像和语义属性用于生成模型的训练阶段,未见类的语义属性用于生成模型的未见类视觉特征生成阶段,未见类的图像则用于最终的零样本识别阶段;
所述数据集的特征获取模块用于获取数据集的特征;其中,在大规模数据集ImageNet上预训练一个ResNet网络,将类别划分后的所述公开数据集中的图像送入已预训练好的网络中,获得数据集中每张图像对应的视觉特征。
本发明还公开一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时,实现上述任意基于原型域对齐与跨模态重建的零样本图像识别方法的步骤。
本发明还公开一种计算机终端,其包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现上述任意基于原型域对齐与跨模态重建的零样本图像识别方法的步骤。
采用以上技术方案,本发明具有以下技术优点:
1.本发明提出通过所述视觉原型提取器获得同一类别的视觉原型,同时最小化域一致性损失实现原型域一致性对齐,使得生成的样本更接近于对应类别的视觉原型,保证了生成样本与对应的真实分布更加接近,使生成模型可以学习到与类别更相关的视觉信息;
2.通过一个语义解码器,将生成的视觉特征解码到语义空间,并分别计算视觉重建损失和语义重建损失,使解码后的语义接近于真实的语义特征,从而与对应类别更接近,增加了所生成视觉特征的类区分性;
3. 本发明提供了一种高效的零样本图像识别方法,能够满足多种未知类别的图像识别需求,无需对生成模型重新进行训练降低了样本收集标记过程中带来的人力物力消耗,提高了对未见类别图像的识别分类的任务性能,加快零样本分类在实际场景中的研究与应用。
4. 不同于公开号为CN113537322A的发明专利申请的跨模态重建方法,本发明通过分布编码器获得样本的潜在分布特征,通过特征生成器获取生成的视觉特征,即在视觉模态下重建视觉特征;同时通过语义解码器,将生成的视觉特征解码为生成的语义特征,即在语义模态下重建语义特征,通过这种跨模态的重建方式,使生成过程更直接地得到训练,即将跨模态重建和生成过程融入一个统一的框架,统一训练,各部件在训练过程中直接互相补益,无需先训练跨模态语义增强网络,再训练基于跨模态语义增强的生成对抗网络。本发明无需进行复杂的降维/升维变换及子空间映射操作,降低了模型复杂度的同时,避免了在视觉特征维度降低过程所产生的信息损失问题,并且在统一的训练框架下同时训练分布编码器,特征生成器和语义解码器,使得各部件在训练过程中直接互相补益。而本发明的权利要求1使用了分布编码器、生成对抗网络的生成器作为本模型的特征生成器,共同进行特征生成过程;通过分布编码器对样本中的视觉特征和语义特征进行编码后,能够获得样本的潜在分布向量;使特征生成器生成的视觉特征包含更多真实的样本分布信息。即本发明和公开号为CN113537322A的发明专利申请所使用的方法均为基于生成模型的方法,但二者所使用的模型并不相同。此外,本方法通过分布编码器,使视觉特征的生成过程能够包含更多真实样本的分布信息。
5. 与现有的基于生成模型的零样本学习方法相比,本发明首次在生成过程中通过获取视觉原型特征,度量生成的视觉特征与视觉原型特征之间的最大均值差异;通过域一致性度量操作,即最小化最大均值差异,使生成的视觉特征与对应类别的视觉原型特征更加接近,减小了生成视觉特征的分布与对应类别真实视觉特征域分布的差异。从而在对未见类视觉特征进行合成时,可以生成与对应类别真实视觉特征更接近的视觉特征。
附图说明
图1是本发明中模型训练阶段中的生成模型训练阶段框架图。
图2是本发明中模型训练阶段中的未见类分类器训练阶段框架图。
图3是本发明中零样本图像识别阶段框架图。
图4是本发明实施例二中基于原型域对齐与跨模态重建的零样本图像识别方法的流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
零样本图像识别的数据集由可见类和未见类构成。在训练过程中,可见类包含图像、类别标签及类别标签对应的语义属性,而未见类只包含类别标签对应的语义属性,不包含未见类的图像。此外,可见类和未见类的类别无交集。
本发明提出了一种基于原型域对齐与跨模态重建的零样本图像识别方法,通过在可见类上训练好生成模型,便可以借助未见类的语义属性生成对应的图像。从而将缺乏未见类图像的零样本图像识别转化为传统的基于监督学习的图像识别问题;利用生成的未见类样本便可以训练出用于对未见类图像识别的分类器。
实施例一
本发明的基于原型域对齐与跨模态重建的零样本图像识别方法主要有两个阶段:一、模型训练阶段;二、零样本图像识别阶段。模型训练包括生成模型的训练和未见类分类器的训练两部分,第一部分是获得训练好的特征生成器,第二部分首先利用训练好的特征生成器和未见类的语义特征生成未见类视觉特征,然后用这些生成的未见类视觉特征训练未见类分类器。零样本图像识别阶段,将待分类的未见类图像送入训练好的未见类分类器,识别出该未见类图像所属的类别。
所述零样本图像识别方法可设计相应的基于原型域对齐与跨模态重建的零样本图像识别装置。所述零样本图像识别装置包括应用于模型训练阶段的所需图像获得模块、公开数据集类别划分模块、数据集的特征获取模块、定义模块、第一提取模块、视觉分布信息获取模块、低维向量计算模块、域一致性损失设计模块、视觉重建损失设计模块、真假判别能力模块、语义重建损失设计模块、第二提取模块、第三提取模块、未见类的分类器生成模块,还包括应用于零样本图像识别阶段的类别标签识别模块。
参照图1,图2和图3,对本发明的各阶段进行详细介绍。
一、模型训练阶段
本发明模型训练阶段包括生成模型训练阶段和未见类分类器训练阶段。生成模型训练阶段参阅图1,主要包括以下步骤:
(1)所述模型训练阶段采用的训练集中包含图像的类别称为可见类,具有可见类的图像和类别语义属性,所述训练集中没有包含图像的类别称为未见类,具有未见类的类别语义属性。步骤(1)可由定义模块执行。
在本实施例中,在步骤(1)之前,可以包括以下步骤:
I获得所需数据集:
在本步中,获得用于模型训练的公开数据集,本方法采用了计算机视觉领域中通用的零样本学习数据集,包含:细粒度的鸟类数据集CUB、动物数据集AWA以及场景数据集SUN。CUB指:细粒度的鸟类数据集Caltech- UCSD Birds-200-2011。CUB数据集由加州理工学院建立,包含200个类别的11,788张鸟类图片,每个类别附有312维的语义属性,其中150个类作为训练集,50个类作为测试集,在珍稀鸟类识别的场景中具有较好的研究价值。AwA指:动物系列数据集Animals with Attributes。 AwA是Lampert等人在2009年创建的动物数据集,它是一种粗粒度动物数据集,包含50个类别的30,475张动物图片,每个类别附有85维的语义属性,其中40个类做为训练集,10个类作为测试集。SUN指场景类数据集SUNAttributes。SUN是它是一个细粒度场景数据集,包含717个类别的14,340张场景图,每个类别附有102维的语义属性,其中645类作为训练集,72类作为测试集一个场景数据集,可以应用于场景识别中。由于不同类别的样本数目差距较大,SUN数据集存在着严重的长尾分布现象,因此其分类难度比较大。
II对数据集进行类别划分:
使用预处理过程,将各数据集的全部类别划分为不相交的可见类和未见类,分别获得对应的图像和语义属性。其中,可见类的图像和语义属性用于生成模型的训练阶段;未见类的语义属性用于未见类分类器训练阶段中,利用生成模型训练阶段完成后已训练好的特征生成器,生成未见类的视觉特征;未见类的图像则用于最终的零样本识别阶段。此步骤可由公开数据集类别划分模块执行。
III获取数据集的特征;其中,在大规模数据集ImageNet上预训练一个ResNet网络,将类别划分后的所述公开数据集中的图像送入已预训练好的网络中,获得数据集中每张图像对应的视觉特征。此步骤可由数据集的特征获取模块执行。
(2)利用视觉提取器对所述可见类的图像获得视觉特征
Figure 963561DEST_PATH_IMAGE033
,利用原型提取器对所述视觉特征
Figure 503127DEST_PATH_IMAGE033
获得视觉原型
Figure 759796DEST_PATH_IMAGE001
,利用语义提取器分别对所述可见类的类别语义属性、所述未见类的类别语义属性均获得语义特征s。此步骤可由数据集的特征获取模块执行。
需要说明的是,所述视觉提取器是在大规模数据集ImageNet上预训练一个卷积神经网络,例如ResNet,用于获取图像的视觉特征向量。将数据集中的图像送入已预训练好的网络,便可以获得数据集中每张图像对应的视觉特征。
需要说明的是,所述语义提取器获得类别对应的语义特征,通常情况下,可以使用手工标注的形式获得每个类别对应的属性向量,作为类别对应的语义特征。同一数据集的属性向量维度相同,每一维度均表示一定的含义,例如羽毛、尾巴等。每个维度的值则可以利用0/1二进制或[0, 1]之间的实数值表示。此外,也可以选择预训练好的词向量提取网络,对来自Wikipedia中的类别描述提取对应的词向量,作为每个类别的语义特征。
在本实施例中,获得每个类别的视觉原型特征,本模型提出所述原型提取器,计算各类别视觉特征的均值,作为该类别的视觉原型,与语义特征分别用来表征类别的视觉信息和语义信息。
(3)将所述视觉特征
Figure 865155DEST_PATH_IMAGE033
和所述可见类的语义特征拼接s,输入到特征分布编码器,获取所述可见类的图像的视觉分布信息,所述视觉分布信息包括均值μ和标准差σ。此步骤可由视觉分布信息获取模块执行。
在本实施例中,将可见类的视觉特征和语义特征拼接,输入到特征分布编码器中,将样本的高维特征编码到低维潜在空间,获得样本的特征分布参数μσ。随后,使用重参数化技术获得可以表征样本分布信息的潜在分布向量即低维向量z,其中,z=σ×εμ,其中,ε表示服从高斯分布的随机向量。由于潜在分布向量是通过特征分布编码器编码得到的,因此,z可以表示为z=Enc(x,s),其中Enc(·)表示编码操作。
(4)计算潜在空间中的低维向量z
z=σ×εμ
其中,ε表示服从高斯分布的随机向量,设计分布正则化损失,通过模型训练,约束所述低维向量z逼近于高斯分布。
所述特征分布编码器是通过最小化分布正则化损失完成的,所述分布编码器的分布正则化损失L Dis-Reg 表示为:
L Dis-Reg =KL(q φ (z|x, s)||p θ (z|s))
其中,KL(·) KL表示散度函数,用于度量特征分布编码器获取的分布参数进行重参数化后的低维向量z的分布与高斯分布之间的分布差异;q φ (z|x, s)表示低维向量z的后验分布,即根据通过特征分布编码器对样本中的视觉特征x和语义特征s编码后得到的分布参数重参数化的z的分布,p θ (z|s)表示z的先验分布,即高斯分布。
(5)将所述低维向量z和所述可见类的语义特征s拼接,输入到特征生成器,获得生成的视觉特征
Figure 17919DEST_PATH_IMAGE034
;设计域一致性损失,最小化所述图像生成的视觉特征和对应类别的视觉原型之间的差异,使生成的视觉特征和对应类别的视觉原型尽可能一致。
所述域一致性损失L MMD 设计如下:
Figure 575939DEST_PATH_IMAGE003
其中,
Figure 636299DEST_PATH_IMAGE001
表示该类别的视觉原型特征,φ(·)表示将数据映射到再生希尔伯特空间的核函数,K表示生成的该类别的视觉特征的个数,而
Figure 799427DEST_PATH_IMAGE005
表示生成第i个视觉特征。此步骤可由域一致性损失设计模块执行。
在本实施例中,使用原型域一致性对齐约束生成视觉特征的分布。将生成的视觉特征与视觉原型进行一致性度量。本模型最小化生成视觉特征和类别视觉原型之间的分布差异,减小在特征生成过程中随机采样导致的分布偏差。上述约束使生成的视觉特征与对应类别的视觉原型特征在希尔伯特空间中更加接近,保证了域一致性,减小了生成视觉特征的分布与对应类别真实视觉特征域分布的差异。从而在对未见类视觉特征进行合成时,可以生成与对应类别真实视觉特征更接近的视觉特征。
(6)设计视觉重建损失,最小化所述生成的视觉特征x'与所述视觉特征x之间的差异,使所述生成的视觉特征x'与所述视觉特征x尽可能一致。所述视觉重建损失函数L Visual-Rec 为:
Figure 857513DEST_PATH_IMAGE035
]
其中,M表示数据集中图像的数目,x i 表示第i个图像的视觉特征,
Figure 168409DEST_PATH_IMAGE036
表示与该图像的视觉特征对应的生成的视觉特征。
在本实施例中,在视觉模态,使用均方误差实现视觉重建损失,最小化生成的可见类视觉特征与采样的真实视觉特征之间的差异,从而使模型能够获得与真实视觉特征更接近的生成视觉特征。此步骤可由视觉重建损失设计模块执行。
(7)将所述生成的视觉特征
Figure 766880DEST_PATH_IMAGE034
和所述视觉特征x分别输入到真假判别器,设计对抗损失,通过博弈的方式,增强所述特征生成器的生成能力和所述真假判别器的真假判别能力。
所述特征生成器和所述真假判别器通过对抗的方式进行训练,用于提高视觉特征生成的质量,对抗损失函数L GAN 设计如下:
Figure 784515DEST_PATH_IMAGE009
其中,D(·)表示所述真假判别器的判别函数,其值介于0到1之间,IE[·]表示期望值函数;梯度惩罚项通过执行Lipschitz约束进行实现,用于避免判别器产生梯度消失现象,从而可以增加所述真假判别器的判别能力,λ表示梯度惩罚项的权重;
Figure 341398DEST_PATH_IMAGE037
表示所述视觉特征x和生成的视觉特征x'的线性插值,即
Figure 874011DEST_PATH_IMAGE038
,其中,
Figure 276173DEST_PATH_IMAGE039
,即:α是介于0到1之间的一个随机数值。
在本实施例中,训练特征生成器合成可见类的视觉特征。将获取的潜在低维向量z和语义特征s拼接后传入特征生成器,生成语义特征对应类别的视觉特征x'。将可见类的视觉特征和生成的视觉特征传入真假判别器,对输入视觉特征的真假情况进行判断,即判断输入的特征是真实视觉特征还是生成的视觉特征。视觉特征生成器和真假判别器通过对抗的方式进行训练,用于提高视觉特征生成的质量。生成视觉特征的过程可以表示为
Figure 148314DEST_PATH_IMAGE040
Gen(·)表示特征生成操作,上述目标函数通过对抗的方式进行训练,以生成更真实的视觉特征。此步骤可由真假判别能力模块执行。
(8)通过语义解码器,重构与所述生成的视觉特征x'相对应的语义特征s',设计语义重建损失,最小化所述重构的语义特征s'和相应语义特征s之间的差异,使所述重构的语义特征s'与相应语义特征s尽可能一致。所述语义重建损失L Semantic-Rec 设计如下:
Figure 92743DEST_PATH_IMAGE041
]
其中, M表示数据集中图像的数目,s i 表示第i个图像对应类别的语义特征,s' i 表示第i个生成的视觉特征通过所述语义解码器后重构的语义特征。此步骤可由语义重建损失设计模块执行。
需要说明的是,将生成的视觉特征输入到语义解码器,解码输出与真实的语义特征维度相同的特征向量,该输出的特征向量称之为重构的语义特征。使用均方误差计算真实的语义特征和重建的语义特征之间的语义重建损失,使生成的视觉特征中能够保留更多语义信息。
使用语义解码器,将生成的视觉特征重建回语义空间,得到重建后的语义特征。为了保证与真实的语义特征更接近,本模型在语义模态使用语义重建损失,使映射后的语义特征与真实的语义特征更接近,保证了生成的视觉特征能够还原到语义空间,使特征生成器能够生成包含更多语义知识的视觉特征,从而使生成的视觉特征具有更强的类区分性。本步骤联合步骤(6)一起,通过多模态重建的约束,保证了生成的视觉特征与真实的视觉特征更接近,同时还能保证生成的视觉特征中包含更多的类判别信息。
(9)将所述分布正则化损失、所述域一致性损失、所述视觉重建损失、所述对抗损失和所述语义重建损失相加,获得所述生成模型整体的损失函数,通过梯度反向传播,优化所述生成模型的参数,获得训练好的特征生成器。此步骤可由第二提取模块执行。
未见类分类器训练阶段参阅图2,主要包括以下步骤:
(1)将未见类的语义特征和从高斯分布中采样的随机向量拼接,输入到所述训练好的特征生成器,生成未见类的视觉特征。此步骤可由第三提取模块执行。
(2)将生成的未见类视觉特征输入到分类器,输出预测的类别标签,通过交叉熵损失,使所述分类器输出的类别标签与生成的未见类视觉特征对应的类别标签尽可能一致,训练获得一个未见类的分类器。此步骤可由未见类的分类器生成模块执行。
需要说明的是,分类器预测类别标签的分类函数定义如下:
Figure 847072DEST_PATH_IMAGE013
其中,exp(·)表示以e为底的指数函数;
Figure 318505DEST_PATH_IMAGE042
为视觉特征x在分类器中输出的标签值,
Figure 45153DEST_PATH_IMAGE043
表示第y个类别对应的模型参数向量的转置,
Figure 943838DEST_PATH_IMAGE044
表示第j个类别的模型参数向量的转置,C表示未见类别的个数。
在本实施例中,所述分类器可通过交叉熵损失进行训练,交叉熵损失L Cls-CE 表示为:
Figure 654306DEST_PATH_IMAGE017
其中,y i,k 表示第k个样本是否属于第i个标签,k=1,2,…,Ki=1,…,N;当第k个样本属于第
Figure 398271DEST_PATH_IMAGE045
个标签时,y i,k =1,否则,y i,k =0;p i,k 表示第k个样本属于第i个类别的概率。
二、零样本图像识别阶段
在本实施例中,完成模型训练后,便可以进入零样本图像识别过程。零样本图像识别阶段参阅图3,主要包括以下步骤:
(1)将待识别的未见类图像输入到所述视觉提取器,获得该未见类图像的视觉特征x u
(2)将视觉特征x u 输入到训练好的所述分类器,预测出的该未见类图像的类别标签。
需要说明的是,分类器预测类别标签的分类函数定义如下:
Figure 41742DEST_PATH_IMAGE013
其中,exp(·)表示以e为底的指数函数;
Figure 845749DEST_PATH_IMAGE042
为视觉特征x在分类器中输出的标签值,
Figure 777933DEST_PATH_IMAGE043
表示第y个类别对应的模型参数向量的转置,
Figure 387906DEST_PATH_IMAGE044
表示第j个类别的模型参数向量的转置,C表示未见类别的个数。此两个步骤可由未见类的分类器生成模块执行。
需要说明的是,未见类分类器训练阶段步骤(2)中分类函数定义中的
Figure 351796DEST_PATH_IMAGE033
为未见类生成的视觉特征,而在零样本图像识别阶段的步骤(2)中分类函数定义中的
Figure 61126DEST_PATH_IMAGE046
为待识别的未见类图像真实的视觉特征。
本发明的基于原型域对齐与跨模态重建的零样本图像识别方法设计成程序进行实现功能时,可以采用一种计算机可读存储介质。所述计算机可读存储介质上存储有计算机程序。该计算机终端可包括存储器、处理器,以及存储在存储器上并可在处理器上运行的计算机程序。该计算机程序被处理器执行时,实现本发明的基于原型域对齐与跨模态重建的零样本图像识别方法的步骤。计算机终端可以是电脑、智能手机等。也可以设计成嵌入式运行的程序,安装在计算机终端上,如安装在单片机上。
本发明的基于原型域对齐与跨模态重建的零样本图像识别方法设计成程序进行实现功能时,也可以设计成计算机可读存储介质可独立运行的程序,计算机可读存储介质可以是U盘,设计成U盾,通过U盘设计成通过外在触发启动整个方法的程序。
实施例二
本实施例的零样本图像识别方法,与实施例1基本相似,用于实现对未见类的视觉特征进行识别。参照图4,该方法包括以下步骤:
S1.获取数据集。
S2.提取视觉特征,语义特征和可见类类别的视觉原型。使用所述视觉提取器和语义提取器,提取可见类别图像的视觉特征和语义特征,以及未见类别语义特征。设计原型提取器,获取每个可见类类别的视觉原型。
S3.利用可见类别图像的视觉特征和语义特征,以及可见类别视觉原型训练生成模型,获得训练好的特征生成器。
S4.将未见类别的语义特征送入训练好的特征生成器,获得未见类的生成的视觉特征。
S5.利用未见类的生成的视觉特征训练未见类分类器,获得训练好的分类器。
S6.提取待识别的未见类图像的视觉特征。
S7.将待识别的未见类图像的视觉特征输入训练好的分类器,识别出该未见类图像的类别。
在本实施例中,步骤S2中,提取每个样本的视觉特征的同时,对每一类别的语义特征和视觉原型特征进行获取。其流程可以分为:1)使用视觉提取器提取每张图像的1024维视觉特征,2)使用语义提取器,根据语义属性或词向量获取类别的语义特征,3)按照不同的类别,得到由视觉特征和语义特征构成的样本集合,4)计算每个类别中全部视觉特征的均值,作为每个类别的视觉原型。
步骤S3中,生成模型中包括特征分布编码器,特征生成器,语义解码器和真假判别器。通过设计所述分布正则化损失、所述域一致性损失、所述视觉重建损失、所述对抗损失和所述语义重建损失,并上述损失相加,获得所述生成模型整体的损失函数,通过梯度反向传播,优化所述生成模型的参数,获得训练好的特征生成器。
步骤S5中,利用未见类生成的视觉特征和交叉熵损失训练未见类分类器,将零样本图像识别问题转换为传统的基于监督学习的图像识别问题。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于原型域对齐与跨模态重建的零样本图像识别方法,其特征在于,具有模型训练阶段和零样本图像识别阶段,所述零样本图像识别方法包括以下步骤:
一、模型训练阶段
(1)所述模型训练阶段采用的训练集中包含图像的类别称为可见类,具有可见类的图像和类别语义属性,所述训练集中没有包含图像的类别称为未见类,具有未见类的类别语义属性;
(2)利用视觉提取器对所述可见类的图像获得视觉特征x,利用原型提取器对所述可见类获得类别视觉原型
Figure 683715DEST_PATH_IMAGE001
,利用语义提取器分别对所述可见类的类别语义属性、所述未见类的类别语义属性均获得语义特征s
(3)将所述视觉特征x和所述可见类的语义特征拼接s,输入到特征分布编码器,获取所述可见类的图像的视觉分布信息,所述视觉分布信息包括均值μ和标准差σ
(4)计算潜在空间中的低维向量z
z=σ×εμ
其中,ε表示服从高斯分布的随机向量,设计分布正则化损失,通过模型训练,约束所述低维向量z逼近于高斯分布;
所述特征分布编码器是通过最小化分布正则化损失完成的,所述特征分布编码器的分布正则化损失L Dis-Reg 表示为:
Figure 35062DEST_PATH_IMAGE002
其中,KL(·)表示散度函数,用于度量特征分布编码器获取的分布参数进行重参数化后的低维向量z的分布与高斯分布之间的分布差异; q φ (z|x, s)表示低维向量z的后验分布,即根据通过特征分布编码器对样本中的视觉特征x和语义特征s编码后得到的分布参数重参数化的z的分布, p θ (z|s)表示z的先验分布,即高斯分布;
(5)将所述低维向量z和所述可见类的语义特征s拼接,输入到特征生成器,获得生成的视觉特征x';设计域一致性损失,最小化所述图像生成的视觉特征和对应类别的视觉原型之间的差异,使生成的视觉特征和对应类别的视觉原型尽可能一致;
所述域一致性损失L MMD 设计如下:
Figure 653125DEST_PATH_IMAGE003
其中,
Figure 798936DEST_PATH_IMAGE004
表示该类别的视觉原型,φ(·)表示将数据映射到再生希尔伯特空间的核函 数,K表示生成的该类别的视觉特征的个数,而
Figure 702782DEST_PATH_IMAGE005
表示生成第i个视觉特征;
(6)设计视觉重建损失,最小化所述生成的视觉特征x'与所述视觉特征x之间的差异,使所述生成的视觉特征x'与所述视觉特征x尽可能一致;
所述视觉重建损失的函数L Visual-Rec 为:
Figure 592241DEST_PATH_IMAGE006
其中,M表示数据集中图像的数目,
Figure 268073DEST_PATH_IMAGE007
表示第i个图像的视觉特征,
Figure 647102DEST_PATH_IMAGE008
表示与该图像的 视觉特征对应的生成的视觉特征;
(7)将所述生成的视觉特征x'和所述视觉特征x分别输入到真假判别器,设计对抗损失,通过博弈的方式,增强所述视觉特征生成器的生成能力和所述真假判别器的真假判别能力;
所述特征生成器和所述真假判别器通过对抗的方式进行训练,用于提高视觉特征生成的质量,对抗损失函数L GAN 设计如下:
Figure 41174DEST_PATH_IMAGE009
其中,D(·)表示所述真假判别器的判别函数,其值介于0到1之间,IE[·]表示期望值 函数;梯度惩罚项通过执行Lipschitz约束进行实现,λ表示梯度惩罚项的权重;
Figure 468744DEST_PATH_IMAGE010
表示所述 视觉特征x和生成的视觉特征x'的线性插值,即
Figure 264662DEST_PATH_IMAGE011
,其中α是一个随机数 值;
(8)将所述生成的视觉特征x'输入到语义解码器,重构与所述生成的视觉特征x'相对应的语义特征s',设计语义重建损失,最小化所述重构的语义特征s'和相应语义特征s之间的差异,使所述重构的语义特征s '与相应语义特征s尽可能一致;
通过语义解码器,获得视觉特征重构的语义特征s',并通过所述语义重建损失对模型进行训练,所述语义重建损失L Semantic-Rec 设计如下:
Figure 17854DEST_PATH_IMAGE012
其中,M 表示数据集中图像的数目,s i 表示第i 个图像对应类别的语义特征,s' i 表示第i 个生成的视觉特征通过所述语义解码器后重构的语义特征;
(9)将所述分布正则化损失、所述域一致性损失、所述视觉重建损失、所述对抗损失和所述语义重建损失相加,获得所述视觉特征生成器的模型整体的损失函数,通过梯度反向传播,优化所述特征生成器的模型的参数,获得训练好的特征生成器;
(10)将未见类的语义特征和从高斯分布中采样的随机向量拼接,输入到所述训练好的特征生成器,生成未见类的视觉特征;
(11)将生成的未见类视觉特征输入到分类器,输出预测的类别标签,通过交叉熵损失,使所述分类器输出的类别标签与生成的未见类视觉特征对应的类别标签尽可能一致,训练获得一个未见类的分类器;
通过所述分类器预测所述生成的未见类视觉特征对应的类别标签,所述分类器的分类函数定义如下:
Figure 430381DEST_PATH_IMAGE013
其中,exp(·)表示以e 为底的指数函数;
Figure 661642DEST_PATH_IMAGE014
为视觉特征x 在分类器中输出的标签值,
Figure 108804DEST_PATH_IMAGE015
表示第y 个类别对应的模型参数向量的转置,
Figure 32898DEST_PATH_IMAGE016
表示第j 个类别的模型参数向量的转 置,C表示未见类别的个数;
所述分类器通过交叉熵损失进行训练,交叉熵损失L Cls-CE 表示为:
Figure 135983DEST_PATH_IMAGE017
其中,y i,k 表示第k 个样本是否属于第i 个标签,k=1,2,…,Ki=1,…,N;当第k个样本属于第i个标签时,y i,k =1,否则,y i,k =0;p i,k 表示第k 个样本属于第i 个类别的概率;
二、零样本图像识别阶段
(12)通过所述视觉提取器和训练好的所述未见类的分类器,获得待预测的未见类图像的类别标签;
其中,通过所述视觉提取器,获得未见类图像对应的视觉特征,再输入到训练好的所述未见类的分类器中,获得识别出的类别标签。
2.如权利要求1所述的基于原型域对齐与跨模态重建的零样本图像识别方法,其特征在于,所述可见类的类别视觉原型是利用原型提取器获得的,即将类别中所有图像视觉特征均值作为该类别的视觉原型。
3.如权利要求1所述的基于原型域对齐与跨模态重建的零样本图像识别方法,其特征在于,α是介于0到1之间的一个随机数值。
4.如权利要求1 所述的基于原型域对齐与跨模态重建的零样本图像识别方法,其特征在于,在步骤(1)之前,还包括步骤:
获得所需图像;其中,模型所使用的公开数据集包括:细粒度的鸟类数据集CUB、动物系列数据集AWA 以及场景类数据集SUN;
对所述公开数据集进行类别划分;其中,使用预处理过程,将各数据集的全部类别划分为不相交的可见类和未见类,并分别获得对应的图像和语义属性;可见类的图像和语义属性用于生成模型的训练阶段,未见类的语义属性用于生成模型的未见类视觉特征生成阶段,未见类的图像则用于最终的零样本识别阶段;
获取数据集的特征;其中,在大规模数据集ImageNet 上预训练一个ResNet 网络,将类别划分后的所述公开数据集中的图像送入已预训练好的网络中,获得数据集中每张图像对应的视觉特征。
5.一种基于原型域对齐与跨模态重建的零样本图像识别装置,其特征在于,所述零样本图像识别装置包括应用于模型训练阶段的定义模块、第一提取模块、视觉分布信息获取模块、低维向量计算模块、域一致性损失设计模块、视觉重建损失设计模块、真假判别能力模块、语义重建损失设计模块、第二提取模块、第三提取模块、未见类的分类器生成模块;
所述定义模块用于将所述模型训练阶段采用的训练集中包含图像的类别称为可见类,具有可见类的图像和类别语义属性,所述训练集中没有包含图像的类别称为未见类,具有未见类的类别语义属性;
所述第一提取模块用于利用视觉提取器对所述可见类的图像获得视觉特征x,利用原 型提取器对所述可见类获得类别视觉原型
Figure 967673DEST_PATH_IMAGE001
,利用语义提取器分别对所述可见类的类别 语义属性、所述未见类的类别语义属性均获得语义特征s
所述视觉分布信息获取模块用于将所述视觉特征x和所述可见类的语义特征拼接s,输入到特征分布编码器,获取所述可见类的图像的视觉分布信息,所述视觉分布信息包括均值μ和标准差σ
所述低维向量计算模块用于计算潜在空间中的低维向量z
z=σ×εμ
其中,ε表示服从高斯分布的随机向量,设计分布正则化损失,通过模型训练,约束所述低维向量z逼近于高斯分布;
所述特征分布编码器是通过最小化分布正则化损失完成的,所述特征分布编码器的分布正则化损失L Dis-Reg 表示为:
Figure 472603DEST_PATH_IMAGE002
其中,KL(·)表示散度函数,用于度量特征分布编码器获取的分布参数进行重参数化后的低维向量z的分布与高斯分布之间的分布差异; q φ (z|x, s)表示低维向量z的后验分布,即根据通过特征分布编码器对样本中的视觉特征x和语义特征s编码后得到的分布参数重参数化的z的分布, p θ (z|s)表示z的先验分布,即高斯分布;
所述域一致性损失设计模块用于将所述低维向量z和所述可见类的语义特征s拼接,输入到特征生成器,获得生成的视觉特征x';设计域一致性损失,最小化所述图像生成的视觉特征和对应类别的视觉原型之间的差异,使生成的视觉特征和对应类别的视觉原型尽可能一致;
所述域一致性损失L MMD 设计如下:
Figure 567598DEST_PATH_IMAGE003
其中,
Figure 892401DEST_PATH_IMAGE004
表示该类别的视觉原型,φ(·)表示将数据映射到再生希尔伯特空间的核函 数,K表示生成的该类别的视觉特征的个数,而
Figure 731044DEST_PATH_IMAGE005
表示生成第i个视觉特征;
所述视觉重建损失设计模块用于设计视觉重建损失,最小化所述生成的视觉特征x'与所述视觉特征x之间的差异,使所述生成的视觉特征x'与所述视觉特征x尽可能一致;
所述视觉重建损失的函数L Visual-Rec 为:
Figure 356060DEST_PATH_IMAGE006
其中,M表示数据集中图像的数目,
Figure 418694DEST_PATH_IMAGE007
表示第i个图像的视觉特征,
Figure 496371DEST_PATH_IMAGE008
表示与该图像的 视觉特征对应的生成的视觉特征;
所述真假判别能力模块用于将所述生成的视觉特征x'和所述视觉特征x分别输入到真假判别器,设计对抗损失,通过博弈的方式,增强所述视觉特征生成器的生成能力和所述真假判别器的真假判别能力;
所述特征生成器和所述真假判别器通过对抗的方式进行训练,用于提高视觉特征生成的质量,对抗损失函数L GAN 设计如下:
Figure 604617DEST_PATH_IMAGE009
其中,D(·)表示所述真假判别器的判别函数,其值介于0到1之间,IE[·]表示期望值 函数;梯度惩罚项通过执行Lipschitz约束进行实现,λ表示梯度惩罚项的权重;
Figure 84140DEST_PATH_IMAGE010
表示所述 视觉特征x和生成的视觉特征x'的线性插值,即
Figure 317675DEST_PATH_IMAGE011
,其中α是一个随机数 值;
所述语义重建损失设计模块用于将所述生成的视觉特征x'输入到语义解码器,重构与所述生成的视觉特征x'相对应的语义特征s',设计语义重建损失,最小化所述重构的语义特征s'和相应语义特征s之间的差异,使所述重构的语义特征s '与相应语义特征s尽可能一致;
通过语义解码器,获得视觉特征重构的语义特征s',并通过所述语义重建损失对模型进行训练,所述语义重建损失L Semantic-Rec 设计如下:
Figure 617070DEST_PATH_IMAGE012
其中,M 表示数据集中图像的数目,s i 表示第i 个图像对应类别的语义特征,s' i 表示第i 个生成的视觉特征通过所述语义解码器后重构的语义特征;
所述第二提取模块用于将所述分布正则化损失、所述域一致性损失、所述视觉重建损失、所述对抗损失和所述语义重建损失相加,获得所述视觉特征生成器的模型整体的损失函数,通过梯度反向传播,优化所述特征生成器的模型的参数,获得训练好的特征生成器;
所述第三提取模块用于将未见类的语义特征和从高斯分布中采样的随机向量拼接,输入到所述训练好的特征生成器,生成未见类的视觉特征;
所述未见类的分类器生成模块用于将生成的未见类视觉特征输入到分类器,输出预测的类别标签,通过交叉熵损失,使所述分类器输出的类别标签与生成的未见类视觉特征对应的类别标签尽可能一致,训练获得一个未见类的分类器;
通过所述分类器预测所述生成的未见类视觉特征对应的类别标签,所述分类器的分类函数定义如下:
Figure 797515DEST_PATH_IMAGE013
其中,exp(·)表示以e 为底的指数函数;
Figure 193861DEST_PATH_IMAGE014
为视觉特征x 在分类器中输出的标签值,
Figure 801560DEST_PATH_IMAGE015
表示第y 个类别对应的模型参数向量的转置,
Figure 322671DEST_PATH_IMAGE016
表示第j 个类别的模型参数向量的转 置,C表示未见类别的个数;
所述分类器通过交叉熵损失进行训练,交叉熵损失L Cls-CE 表示为:
Figure 306808DEST_PATH_IMAGE017
其中,y i,k 表示第k 个样本是否属于第i 个标签,k=1,2,…,Ki=1,…,N;当第k个样本属于第i个标签时,y i,k =1,否则,y i,k =0;p i,k 表示第k 个样本属于第i 个类别的概率;
所述零样本图像识别装置还包括应用于零样本图像识别阶段的类别标签识别模块,所述类别标签识别模块用于通过所述视觉提取器和训练好的所述未见类的分类器,获得待预测的未见类图像的类别标签;
其中,通过所述视觉提取器,获得未见类图像对应的视觉特征,再输入到训练好的所述未见类的分类器中,获得识别出的类别标签。
6.如权利要求5所述的基于原型域对齐与跨模态重建的零样本图像识别装置,其特征在于,所述可见类的类别视觉原型是利用原型提取器获得的,即将类别中所有图像视觉特征均值作为该类别的视觉原型。
7.如权利要求5所述的基于原型域对齐与跨模态重建的零样本图像识别装置,其特征在于,α是介于0到1之间的一个随机数值。
8.如权利要求5所述的基于原型域对齐与跨模态重建的零样本图像识别装置,其特征在于,所述零样本图像识别装置还包括也应用于模型训练阶段的所需图像获得模块、公开数据集类别划分模块、数据集的特征获取模块;
所述所需图像获得模块用于获得所需图像;其中,模型所使用的公开数据集包括:细粒度的鸟类数据集CUB、动物系列数据集AWA以及场景类数据集SUN;
所述公开数据集类别划分模块用于对所述公开数据集进行类别划分;其中,使用预处理过程,将各数据集的全部类别划分为不相交的可见类和未见类,并分别获得对应的图像和语义属性;可见类的图像和语义属性用于生成模型的训练阶段,未见类的语义属性用于生成模型的未见类视觉特征生成阶段,未见类的图像则用于最终的零样本识别阶段;
所述数据集的特征获取模块用于获取数据集的特征;其中,在大规模数据集ImageNet上预训练一个ResNet网络,将类别划分后的所述公开数据集中的图像送入已预训练好的网络中,获得数据集中每张图像对应的视觉特征。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时,实现如权利要求1至4中任意一项所述的基于原型域对齐与跨模态重建的零样本图像识别方法的步骤。
10.一种计算机终端,其包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至4中任意一项所述的基于原型域对齐与跨模态重建的零样本图像识别方法的步骤。
CN202210638733.2A 2022-06-08 2022-06-08 零样本图像识别方法及其识别装置、介质与计算机终端 Pending CN114821196A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210638733.2A CN114821196A (zh) 2022-06-08 2022-06-08 零样本图像识别方法及其识别装置、介质与计算机终端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210638733.2A CN114821196A (zh) 2022-06-08 2022-06-08 零样本图像识别方法及其识别装置、介质与计算机终端

Publications (1)

Publication Number Publication Date
CN114821196A true CN114821196A (zh) 2022-07-29

Family

ID=82522127

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210638733.2A Pending CN114821196A (zh) 2022-06-08 2022-06-08 零样本图像识别方法及其识别装置、介质与计算机终端

Country Status (1)

Country Link
CN (1) CN114821196A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115147607A (zh) * 2022-09-05 2022-10-04 南京信息工程大学 一种基于凸优化理论的抗噪声零样本图像分类方法
CN116051909A (zh) * 2023-03-06 2023-05-02 中国科学技术大学 一种直推式零次学习的未见类图片分类方法、设备及介质
CN116109877A (zh) * 2023-04-07 2023-05-12 中国科学技术大学 组合式零样本图像分类方法、系统、设备及存储介质
CN117237823A (zh) * 2023-11-10 2023-12-15 中国科学院空天信息创新研究院 一种基于零样本学习的遥感基础模型迁移方法及其装置

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115147607A (zh) * 2022-09-05 2022-10-04 南京信息工程大学 一种基于凸优化理论的抗噪声零样本图像分类方法
CN116051909A (zh) * 2023-03-06 2023-05-02 中国科学技术大学 一种直推式零次学习的未见类图片分类方法、设备及介质
CN116109877A (zh) * 2023-04-07 2023-05-12 中国科学技术大学 组合式零样本图像分类方法、系统、设备及存储介质
CN116109877B (zh) * 2023-04-07 2023-06-20 中国科学技术大学 组合式零样本图像分类方法、系统、设备及存储介质
CN117237823A (zh) * 2023-11-10 2023-12-15 中国科学院空天信息创新研究院 一种基于零样本学习的遥感基础模型迁移方法及其装置
CN117237823B (zh) * 2023-11-10 2024-03-08 中国科学院空天信息创新研究院 一种基于零样本学习的遥感基础模型迁移方法及其装置

Similar Documents

Publication Publication Date Title
CN109492662B (zh) 一种基于对抗自编码器模型的零样本图像分类方法
CN108875807B (zh) 一种基于多注意力多尺度的图像描述方法
CN114821196A (zh) 零样本图像识别方法及其识别装置、介质与计算机终端
CN111581405A (zh) 基于对偶学习生成对抗网络的跨模态泛化零样本检索方法
CN113139591B (zh) 一种基于增强多模态对齐的广义零样本图像分类方法
CN110795585B (zh) 基于生成对抗网络的零样本图像分类系统及其方法
CN112891945B (zh) 数据处理方法、装置、电子设备及存储介质
Rani et al. Reconstruction of simple and complex three dimensional images using pattern recognition algorithm
Berrahal et al. Optimal text-to-image synthesis model for generating portrait images using generative adversarial network techniques
CN114926835A (zh) 文本生成、模型训练方法和装置
CN113837229B (zh) 一种知识驱动型的文本到图像生成方法
CN113361646A (zh) 基于语义信息保留的广义零样本图像识别方法及模型
US20230215162A1 (en) Method and apparatus for text-to-image generation using self-supervised discriminator to extract image feature
WO2022166840A1 (zh) 人脸属性编辑模型的训练方法、人脸属性编辑方法及设备
CN116933051A (zh) 一种用于模态缺失场景的多模态情感识别方法及系统
CN117217368A (zh) 预测模型的训练方法、装置、设备、介质及程序产品
CN114529785A (zh) 模型的训练方法、视频生成方法和装置、设备、介质
CN114694074A (zh) 一种使用图像生成视频的方法、装置以及存储介质
CN111445545B (zh) 一种文本转贴图方法、装置、存储介质及电子设备
CN117315070A (zh) 图像生成方法、装置、电子设备、存储介质和程序产品
CN113408721A (zh) 神经网络结构搜索方法、装置、计算机设备和存储介质
CN112215282B (zh) 一种基于小样本图像分类的元泛化网络系统
CN115659242A (zh) 一种基于模态增强卷积图的多模态情感分类方法
CN112836482A (zh) 一种基于模板的序列生成模型生成问题的方法及装置
Cardenas et al. Generating Annotated High-Fidelity Images Containing Multiple Coherent Objects

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination