CN113139591B - 一种基于增强多模态对齐的广义零样本图像分类方法 - Google Patents

一种基于增强多模态对齐的广义零样本图像分类方法 Download PDF

Info

Publication number
CN113139591B
CN113139591B CN202110401006.XA CN202110401006A CN113139591B CN 113139591 B CN113139591 B CN 113139591B CN 202110401006 A CN202110401006 A CN 202110401006A CN 113139591 B CN113139591 B CN 113139591B
Authority
CN
China
Prior art keywords
loss
class
distribution
hypersphere
latent
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110401006.XA
Other languages
English (en)
Other versions
CN113139591A (zh
Inventor
胡晓
钟小容
丁嘉昱
向俊将
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou University
Original Assignee
Guangzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou University filed Critical Guangzhou University
Priority to CN202110401006.XA priority Critical patent/CN113139591B/zh
Publication of CN113139591A publication Critical patent/CN113139591A/zh
Application granted granted Critical
Publication of CN113139591B publication Critical patent/CN113139591B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Molecular Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于增强多模态对齐的广义零样本图像分类方法,该方法包括以下步骤:图像获取步骤:获取待识别图像;图像分类步骤:将待识别图像输入广义零样本图像分类模型中确定待识别图像的识别目标类别;广义零样本图像分类模型为通过训练步骤和测试步骤得出;训练步骤具体包括:特征编码步骤:采用两个超球面变分自编码器分别对训练样本的视觉特征和语义特征编码进共享的潜层空间中;潜层向量对齐步骤:将训练模型的优化方向趋向于视觉潜层向量和语义潜层向量的分布对齐;分布边界阈值获取步骤:寻找分布边界阈值。本发明通过超球面变分自编码器为视觉特征和语义特征构建潜层空间,使不同类的相互远离,提高已见类和未见类的识别效果。

Description

一种基于增强多模态对齐的广义零样本图像分类方法
技术领域
本发明涉及图像分类技术领域,尤其涉及一种基于增强多模态对齐的广义零样本图像分类方法。
背景技术
零样本学习就是让计算机模拟人类的推理方式,识别从未见过的新事物。比如,在传统的图像识别算法中,要想让计算机认出斑马,往往需要给计算机输入足够量的斑马图像才可以实现,尽管如此,训练出来的分类器,往往无法识别它未见过的其他类别的图像。但是零样本学习却可以在没有提供新事物数据的情况下,只需要特征描述就能识别出新事物。广义零样本学习与零样本学习的区别在于广义零样本学习在测试阶段的输入图像包含已见类和未见类。在现实中,训练广义零样本学习的模型更具挑战性。
零样本图像分类的数据集的划分和传统的图像分类不一样。前者将数据集划分为已见类和未见类,并且已见类和未见类的类别是不重叠的。已见类主要用于训练模型,而未见类用于评估模型的性能。为了使得未见类样本可以在模型上有更好的表现,在训练的时候通常会引入类别的辅助信息来帮助模型学习未见类的相关知识。而传统的图像分类方法是监督学习问题。这种数据集划分方式的不同是零样本图像分类和传统图像分类的最大区别。
现有的零样本图像分类的算法主要分为三种:嵌入方法,生成方法和选通方法。嵌入方法通常是利用映射函数将视觉特征和辅助信息(语义属性特征或者词向量)映射到一个公共的嵌入空间中,通过某种距离度量方式判断特征的相似度。虽然该方法可以较为简单实现,但是其中存在的偏差和域移位问题的限制,因此嵌入方法具有一定的局限性。生成方法采用模型利用生成对抗网络或变分自编码器为未见类样本生成合成特征,虽然生成方法大大提高了零样本图像分类的性能,但它们仍然受到特征混淆问题的困扰。选通方法通常由未见类专家和已见类专家分别处理未见类样本和已见类样本。理想情况下,如果二进制分类器足够可靠,则广义零样本问题可以分解为一个零样本问题和一个监督分类问题,基于选通方法去解决零样本分类问题上已经卓有成效。
在实际应用过程中,由于零样本学习是多模态学习模式,由视觉空间和语义空间组成,当模态不同的特征通过编码的方式在高维的潜层空间中表示时,很容易造成特征混淆,尤其当两种类别不同但视觉特征相似的数据在潜层空间中的表示更为相近时,更易导致数据分布的混乱,进而导致数据分类效果差。因此,如何在潜层空间中提高模态的不变性,增强同类数据在潜层空间中的凝聚力,仍是零样本图像分类中需共同探讨的问题。
发明内容
为了克服现有技术存在的缺陷与不足,本发明提供了一种基于增强多模态对齐的广义零样本图像分类方法,该方法利用超球面变分自编码器为视觉特征和语义特征构建潜层空间,促使模态对齐,最后通过未见类数据与已见类数据的距离设定,将未见类数据和已见类数据分离,再将分离的数据交由各自领域的专家分类器处理,从而提高广义零样本图像分类的准确度。
为了达到上述目的,本发明采用以下技术方案:
一种基于增强多模态对齐的广义零样本图像分类方法,包括以下步骤:
图像获取步骤:获取待识别图像;
图像分类步骤:将所述待识别图像输入广义零样本图像分类模型中确定待识别图像的识别目标类别;
所述广义零样本图像分类模型为通过训练步骤和测试步骤得出;
所述训练步骤具体包括:
特征编码步骤:采用两个超球面变分自编码器分别对训练样本的视觉特征和语义特征编码进共享的潜层空间中;
潜层向量对齐步骤:设置损失函数,将训练模型的优化方向趋向于视觉潜层向量和语义潜层向量的分布对齐,即通过将超球面变分损失、交叉对齐损失、潜层分布损失、互信息损失、联合熵损失以及分类损失相结合形成混合损失,优化损失函数,收敛训练模型,使用梯度下降法训练视觉编码器、语义编码器、视觉解码器、语义解码器和第一分类器的参数,当训练模型的测试准确率达到预设训练准确度阈值时,保存训练模型所有的最优参数,基于所述训练模型所有的最优参数得到广义零样本图像分类模型的参数;
分布边界阈值获取步骤:将已见类的语义潜层向量定义为对应样本的类中心,寻找每一个已见类在潜层空间中的分布边界阈值;
所述测试步骤具体包括:
第一分类处理步骤:将测试样本通过视觉编码器编码到潜层空间中,计算与每一个已见类中心的余弦相似度再与分布边界阈值进行比较;
通过比较结果判断测试样本是否投影到已见类的边界里面,如果是,交由已见类分类器处理,否则交由未见类分类器处理;
第二分类处理步骤:分别对已见类和未见类进行类别识别。
作为优选的技术方案,所述第二分类处理步骤,具体步骤包括:当交由已见类分类器处理时,利用第一分类器进行分类,所述第一分类器由所述潜层向量对齐步骤得到;当交由未见类分类器处理时,利用第二分类器进行分类,第二分类器采用基于减缓特征混淆的零样本分类器。
作为优选的技术方案,所述特征编码步骤,具体包括以下步骤:
部署两个超球面变分自编码器,用于在单位超球面上建立潜层空间,在所述潜层空间中,根据近似圆进行划分数据,令近似圆包围的数据作为已见类数据,令散布在近似圆之外的数据为未见类数据;
所述超球面变分自编码器遵循编解码结构的范式,编码器将输入特征编码得到潜层向量,解码器将潜层向量表示为输入特征的概率分布;
在潜层空间中每个类基于vMF分布表示。
作为优选的技术方案,所述部署两个超球面变分自编码器,具体步骤为:设置两个超球面变分自编码器,即第一超球面变分自编码器和第二超球面变分自编码器,初始化两个超球面变分自编码器,所述第一超球面变分自编码器设有视觉编码器、视觉解码器,所述第二超球面变分自编码器设有语义编码器、语义解码器。
作为优选的技术方案,所述在潜层空间中每个类基于vMF分布表示,具体步骤为:将已见类的视觉特征、语义特征分别通过视觉编码器、语义编码器编码到潜层空间中,对于每一个特征经过编码后的输出均服从近似于均值为u,方差为σ的高斯分布,从不同模态合成的高斯分布中分别采样一个第一潜层向量z1和第二潜层向量z2,且第一潜层向量z1和第二潜层向量z2均服从vMF分布。
作为优选的技术方案,所述潜层向量对齐步骤,具体包括以下步骤:
重构原始数据步骤:利用超球面变分自编码器重构原始数据,建立超球面变分损失,所述超球面变分损失包括两个超球面变分自编码器的损失,所述超球面变分自编码器的损失表示为对数似然函数的变分下界;
模态不变信息捕获步骤:基于交叉对齐损失对潜层向量捕获模态不变信息;
潜层向量分布对齐步骤:最小化潜层分布损失,其中潜层分布损失为在高斯分布的情况下,根据两个分布的参数之间的Wasserstein距离进行对齐潜层向量分布得到;
模态对齐步骤:基于互信息损失对齐潜层空间中的不同模态的潜层向量;
联合分布的熵最大化步骤:最大化联合熵损失;
第一分类器构建步骤:构建第一分类器,所述第一分类器用于对已见类数据编码在潜层空间的向量进行分类、在所述测试步骤中当判断为已见类时进行监督分类,在训练阶段将已见类数据编码在潜层空间的向量直接用于分类,即构建分类损失;
训练步骤:通过将超球面变分损失、交叉对齐损失、潜层分布损失、互信息损失、联合熵损失以及分类损失相结合形成混合损失,优化损失函数,收敛训练模型,使用梯度下降法训练视觉编码器、语义编码器、视觉解码器、语义解码器和第一分类器的参数,最终保存训练模型所有的最优参数,基于所述训练模型所有的最优参数得到广义零样本图像分类模型的参数;
所述混合损失具体为:
Loss=LSVAE+LCA+LDA+LMI+LEM+Lcls
其中,Loss表示混合损失,LSVAE表示超球面变分损失,LCA表示交叉对齐损失,LDA表示潜层分布损失,LMI表示互信息损失,LEM表示联合熵损失,Lcls表示分类损失。
作为优选的技术方案,所述分布边界阈值获取步骤,具体包括以下步骤:
已见类数据分布步骤:将每个已见类数据在潜层空间中由vMF分布表示,同一类样本在潜层空间中的分布近似地用单位超球面上的一个圆来表示;
分布边界阈值确定步骤:寻求已见类数据在潜层空间中的边界;
设定语义特征在潜层空间中的表示Ci作为类中心,视觉特征在潜层空间中的表示zij围绕类中心Ci进行随机分布;
计算每个视觉潜层向量zij与每个类中心Ci之间的余弦相似度D(zij,Cj);
通过设定数据界限值γ,确定在每一个视觉潜层向量zij与类中心Ci的余弦相似度中抽取预设距离数据作为分布边界阈值η,所述分布边界阈值η小于γ,其中γ∈(0,1)且η大于1-γ。
作为优选的技术方案,所述第一分类处理步骤,具体包括以下步骤:
设置一个测试样本的视觉特征,将视觉特征通过训练好的视觉编码器将其编码在潜层空间中得到潜层向量;
根据分布边界阈值去比较测试样本和已见类中心之间的余弦相似度,进而确定测试样本是否被投影到流形中;
如果是,交由已见类分类器处理,否则交由未见类分类器处理。
作为优选的技术方案,所述根据分布边界阈值去比较测试样本和已见类中心之间的余弦相似度,利用分布边界阈值η,通过分类归属公式判断测试样本属于未见类还是已见类;
所述分类归属公式具体为:
Figure BDA0003020366470000061
其中Result代表数据归属情况,具体的,0代表未见类,1代表已见类,zij表示第i个类别的第j个视觉特征,i表示第i个类别的中心,D(zij,Ci)表示视觉潜层向量zij与类中心Ci之间的余弦相似度,max表示取最大值处理,As表示已见类样本的语义特征。
作为优选的技术方案,在所述训练步骤执行前,还包括训练准备步骤;
所述训练准备步骤,具体包括以下步骤:
数据集获取步骤:采用预先由卷积神经网络提取的高维图像特征作为视觉特征,采用人工标注类别信息的作为语义特征;
数据集划分步骤:将数据集划分为两种类别互不重叠的已见类和未见类。
本发明与现有技术相比,具有如下优点和有益效果:
(1)本发明运用深度学习的技术,通过超球面变分自编码器为视觉特征和语义特征构建潜层空间,设定损失函数,收敛训练模型,从而生成更加具有区分性的特征表示分布,增强模态不变性,使同类的不同模态数据相互对齐,以此更好的将同类的视觉特征和语义特征聚集,并使不同类的数据相互远离,进而在潜层空间中减小特征混淆问题。
(2)本发明通过对未见类数据与已见类数据的距离设定,利用二分法判别测试样本是属于未见类还是已见类,最后再交由各自分类器去预测样本的确切类别,通过在高维的潜层空间中表示特征时,提高了特征之间的区别,进而减小特征混淆的现象,进而提高最终的图像分类的准确度。
(3)本发明利用超球面变分自编码器重构原始数据,使最大限度的减少信息损失,避免重构数据与原始数据的差异过大。
(4)本发明将超球面变分损失、交叉对齐损失、潜层分布损失、互信息损失、联合熵损失以及分类损失相结合形成混合损失,使编码在潜层空间中的模态对齐,从而增强两个模态的不变性,减小了特征混淆的现象,提高了广义零样本图像分类的准确度。
附图说明
图1为本发明实施例中基于增强多模态对齐的广义零样本图像分类方法的步骤流程图;
图2为本发明实施例中广义零样本图像分类模型的网络结构图;
图3为本发明实施例中基于增强多模态对齐的广义零样本图像分类方法的训练流程示意图。
具体实施方式
在本公开的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本公开和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本公开的限制。
此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。同样,“一个”、“一”或者“该”等类似词语也不表示数量限制,而是表示存在至少一个。“包括”或者“包含”等类似的词语意指出现在该词前面的元素或者物件涵盖出现在该词后面列举的元素或者物件及其等同,而不排除其他元素或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。
在本公开的描述中,需要说明的是,除非另有明确的规定和限定,否则术语“安装”、“相连”、“连接”应做广义理解。例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本公开中的具体含义。此外,下面所描述的本公开不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
实施例
如图1所示,本实施例提供了一种基于增强多模态对齐的广义零样本图像分类方法,该方法包括以下步骤:
图像获取步骤:获取待识别图像;
图像分类步骤:将待识别图像输入广义零样本图像分类模型中确定待识别图像的识别目标类别;
在本实施例中,广义零样本图像分类模型为通过训练步骤和测试步骤得出;
在本实施例中,训练步骤具体包括以下步骤:
特征编码步骤:采用两个超球面变分自编码器分别对训练样本的视觉特征和语义特征编码进共享的潜层空间中;
潜层向量对齐步骤:设置损失函数,将训练模型的优化方向趋向于视觉潜层向量和语义潜层向量的分布对齐,并保存训练模型所有的最优参数。实际应用时,通过将超球面变分损失、交叉对齐损失、潜层分布损失、互信息损失、联合熵损失以及分类损失相结合形成混合损失,优化损失函数,收敛训练模型,并使用梯度下降法训练视觉编码器、语义编码器、视觉解码器、语义解码器和第一分类器的参数,当训练模型的测试准确率达到预设训练准确度阈值时,保存该训练模型所有的最优参数,基于训练模型所有的最优参数得到广义零样本图像分类模型的参数;
分布边界阈值获取步骤:将已见类的语义潜层向量定义为对应样本的类中心,寻找每一个已见类在潜层空间中的分布边界阈值;
在本实施例中,测试步骤具体包括以下步骤:
第一分类处理步骤:将测试样本通过视觉编码器编码到潜层空间中,计算与每一个已见类中心的余弦相似度再与分布边界阈值进行比较;
通过比较结果判断测试样本是否投影到已见类的边界里面,如果是,交由已见类分类器处理,否则交由未见类分类器处理;
第二分类处理步骤:当交由已见类分类器处理时,利用第一分类器进行分类,第一分类器由潜层向量对齐步骤得到;当交由未见类分类器处理时,利用第二分类器进行分类,第二分类器采用基于减缓特征混淆的零样本分类器。
此外,本领域技术人员可根据实际情况将识别性能高的未见类分类器作为第二分类器,以提高基于增强多模态对齐的广义零样本图像分类方法的可拓展性,进而在图像分类得到更高的准确度。
如图2所示,本实施例在特征编码步骤中部署了两个超球面变分自编码器(SVAE),用于在单位超球面上建立潜层空间。其中,在潜层空间中,根据近似圆进行划分数据,令近似圆包围的数据作为已见类数据,令散布在近似圆之外的数据为未见类数据。超球面变分自编码器遵循编解码结构的范式,编码器将输入特征x编码得到潜层向量z,解码器则将潜层向量z表示为输入特征x的概率分布。将编码器表示为q(z|x),将解码器表示为p(x|z)。
结合图2所示,在潜层空间中每个类基于vMF(von Mises Fisher)分布表示,一个vMF分布可以看作是超球面上的高斯分布η(μ,Σ)。实际应用时,首先设置两个超球面变分自编码器,即第一超球面变分自编码器和第二超球面变分自编码器,初始化两个超球面变分自编码器,第一超球面变分自编码器设有视觉编码器E1、视觉解码器D1,其相应的网络参数分别为θ、
Figure BDA0003020366470000101
第二超球面变分自编码器设有语义编码器E2、语义解码器D2,其相应的网络参数分别为φ、τ。然后,将已见类的视觉特征X、语义特征A分别通过视觉编码器、语义编码器编码到潜层空间中。对于每一个特征经过编码后的输出均服从均值为u和方差为σ的高斯分布,从不同模态合成的高斯分布中分别采样一个第一潜层向量z1和第二潜层向量z2,且z1和z2均服从vMF分布。
如图3所示,潜层向量对齐步骤,具体包括以下步骤:
重构原始数据步骤:利用超球面变分自编码器重构原始数据,建立超球面变分损失。本实施例中的超球面变分损失包括两个超球面变分自编码器的损失,其中超球面变分自编码器的损失表示为对数似然函数的变分下界,具体为:
Figure BDA0003020366470000111
其中,qθ(z1|X)是视觉编码器,pφ(X|z1)是视觉解码器,
Figure BDA0003020366470000112
是语义编码器,pτ(A|z2)是语义解码器,θ、
Figure BDA0003020366470000113
φ、τ是网络参数,β是超参数,log为取对数运算。
Figure BDA0003020366470000114
表示对第一潜层向量z1的对数似然期望;
βDKL(qθ(z1|X)‖pφ(z1))表示对第一潜层向量z1的KL散度正则项;
Figure BDA0003020366470000115
表示对第二潜层向量z2的对数似然期望;
Figure BDA0003020366470000116
表示对第二潜层向量z2的KL散度正则项;
在本实施例中,
Figure BDA0003020366470000117
Figure BDA0003020366470000118
均用于重构损失,使生成数据和原始数据尽可能相近。βDKL(qθ(z1|X)‖pφ(z1))和
Figure BDA0003020366470000119
作为KL散度正则项,促使后验概率qθ(z1|X)、
Figure BDA00030203664700001110
分别与先验概率pφ(z1)、pτ(z2)尽可能相似。
模态不变信息捕获步骤:基于交叉对齐损失对潜层向量捕获模态不变信息。实际应用时,由于学习了两种不同模态的共享潜层空间,因此需对潜层向量进行捕获模态不变信息,为此,本实施例采用的交叉对齐损失LCA,具体为:
Figure BDA0003020366470000121
其中LCA表示交叉对齐损失,
Figure BDA0003020366470000122
τ分别是视觉解码器和语义解码器的参数。
潜层向量分布对齐步骤:最小化潜层分布损失LDA。实际应用时,在高斯分布的情况下,根据两个分布的参数之间的Wasserstein距离进行对齐潜层向量分布,使潜层分布损失最小化,其中潜层分布对齐损失LDA具体为:
Figure BDA0003020366470000123
其中,u1、u2分别表示潜层分布中第一潜层向量z1和第二潜层向量z2的均值,Σ1、Σ2分别表示潜层分布中第一潜层向量z1和第二潜层向量z2的方差。
模态对齐步骤:基于互信息损失对齐潜层空间中的不同模态的潜层向量。实际应用时,由于视觉特征和语义特征的模态不同,故编码到共享的潜层空间后,属于相同类别的视觉和语义的潜层向量会受到域位移的困扰,因此为了增强两个模态的不变性,本实施例通过引入互信息损失,使编码在潜层空间中的模态对齐。
实际应用时,在潜层空间中第一潜层向量z1和第二潜层向量z2的互信息MI表示为:
Figure BDA0003020366470000124
其中Tω,ξ为神经网络建模函数,ω、ξ是其在网络中需要学习的参数,
Figure BDA0003020366470000125
Figure BDA0003020366470000126
分别是z1和z2的联合分布和边缘分布乘积;
Figure BDA0003020366470000127
表示获取潜层空间中z1和z2的联合分布信息,
Figure BDA0003020366470000128
表示获取潜层空间中z1和z2的边缘分布信息。通过最大化互信息MI从联合分布中学习并获取信息,而不从边缘分布中获取信息。E表示为取均值运算,log表示取对数运算,g为激活函数,其表达形式具体为g(a)函数:
Figure BDA0003020366470000129
a表示自变量,exp为以e为底的指数函数。
当视觉特征和语义特征编码后采样输出的第一潜层向量z1和第二潜层向量z2来自同一类别时,即z1和z2是一个类的不同模态的潜层向量时,基于互信息损失函数LMI将最大化两者之间的互信息,促进潜层空间中模态的不变性,该互信息损失函数LMI具体为:
LMI=-I(z1;z2);
其中(z1;z2)表示两种潜层向量均是来自相同类别的已见类,I(z1;z2)表示在潜层空间中第一潜层向量z1和第二潜层向量z2的互信息MI。
实际应用时,通过优化两个潜层向量的互信息,能够学习视觉特征和语义特征的共同潜层表示,并有助于对齐同一类的两种模态,减轻不同类别的模态混乱程度,从而提高图像分类的准确度。
联合分布的熵最大化步骤:最大化联合熵损失。实际应用时,本实施例利用z1和z2的联合分布的熵最大化,来避免编码器生成过度记忆的已见类数据的潜层向量而导致在测试未见类的潜层向量分布不准确的问题,具体地,为进一步加强两种模态的不变性,设置第一潜层向量z1和第二潜层向量z2的联合熵损失LEM
Figure BDA0003020366470000131
其中γ是超参数且γ>0,f(z)表示对潜层向量z的归一化操作,H(f(z))表示对归一化后的潜层向量z的求熵运算,
Figure BDA0003020366470000132
表示第一潜层向量z1和第二潜层向量z2的联合分布。
Figure BDA0003020366470000133
表示最大化第一潜层向量z1和第二潜层向量z2的联合分布的熵。
此外,本实施例对于归一化处理函数f采用Softmax,本领域技术人员可根据实际情况调整,本实施例在此对归一化处理函数f不做限定。
第一分类器构建步骤:构建第一分类器,该第一分类器用于对已见类数据编码在潜层空间的向量进行分类、在测试步骤中当判断为已见类时进行监督分类。实际应用时,为了使分类器在已见类的数据上有良好的分类性能,以便在后期作为已见类专家对测试样本的已见类数据进行监督分类,故在训练阶段应该将已见类数据编码在潜层空间的向量直接用于分类,即构建分类损失Lcls为:
Figure BDA0003020366470000141
其中y是类别的标签,log为取对数运算,ρ表示线性Softmax分类器的参数。
Figure BDA0003020366470000142
表示视觉编码器对于已见类的视觉特征X生成的潜层向量为第一潜层向量z1的分类概率。相应地,
Figure BDA0003020366470000143
表示语义编码器对于已见类的语义特征A生成的潜层向量为第二潜层向量z2的分类概率。logpρ(y|z1)和logpρ(y|z2)分别表示分类器做对数据第一潜层向量z1和第二潜层向量z2进行分类处理。
Figure BDA0003020366470000144
Figure BDA0003020366470000145
分别表示分类器对由已见类的视觉特征X经过视觉编码器生成的潜层向量为第一潜层向量z1的正确分类概率和分类器对由已见类的语义特征A经过语义编码器生成的潜层向量为第二潜层向量z2的正确分类概率。
训练步骤:通过将超球面变分损失、交叉对齐损失、潜层分布损失、互信息损失、联合熵损失以及分类损失相结合形成混合损失,优化损失函数,收敛训练模型,并使用梯度下降法训练视觉编码器、语义编码器、视觉解码器、语义解码器和第一分类器的参数,最终保存训练模型所有的最优参数,基于训练模型所有的最优参数得到广义零样本图像分类模型的参数。实际应用时,混合损失具体为:
Loss=LSVAE+LCA+LDA+LMI+LEM+Lcls
其中,Loss表示混合损失,LSVAE表示超球面变分损失,LCA表示交叉对齐损失,LDA表示潜层分布损失,LMI表示互信息损失,LEM表示联合熵损失,Lcls表示分类损失。
在本实施例中,分布边界阈值获取步骤,具体包括以下步骤:
已见类数据分布步骤:将每个已见类数据在潜层空间中由vMF分布表示,同一类样本在潜层空间中的分布可以近似地用单位超球面上的一个圆来表示;
分布边界阈值确定步骤:寻求已见类数据在潜层空间中的边界,首先,设定语义特征在潜层空间中的表示Ci作为类中心,视觉特征在潜层空间中的表示zij则围绕类中心Ci进行随机分布,然后,计算每个视觉潜层向量zij与每个类中心Ci之间的余弦相似度D(zij,Cj);然后我们通过设定数据界限值γ,确定在每一个视觉潜层向量zij与类中心Ci的余弦相似度中抽取预设距离数据作为分布边界阈值η,限定η小于γ,γ∈(0,1)并且η大于1-γ。
结合图3所示,第一分类处理步骤,具体包括以下步骤:
设置一个测试样本的视觉特征X,将视觉特征X通过训练好的视觉编码器将其编码在潜层空间中得到潜层向量z;
根据确定好的分布边界阈值去比较测试样本和已见类中心之间的余弦相似度,进而确定测试样本是否被投影到流形中;
如果是,交由已见类分类器处理,否则交由未见类分类器处理;
实际应用时,利用分布边界阈值η,通过分类归属公式判断测试样本属于未见类还是已见类,分类归属公式具体为:
Figure BDA0003020366470000151
其中Result代表数据归属情况,具体的,0代表未见类,1代表已见类,zij表示第i个类别的第j个视觉特征,即视觉潜层向量,Ci表示第i个类别的中心,D(zij,Ci)表示视觉潜层向量zij与类中心Ci之间的余弦相似度,max表示取最大值处理,AS表示已见类样本的语义特征。
在本实施例中,由于训练过程只有已见类的视觉特征进行训练,而未见类视觉特征只存在于测试过程,故对于已见类分类器,本实施例直接采用在训练过程中保存的第一分类器。对于未见类分类器,本发明采用基于减缓特征混淆的零样本分类器,并将该基于减缓特征混淆的零样本分类器作为第二分类器。通过两种高性能的分类器的结合,最终达到提升图像分类准确度的效果。
此外,本领域技术人员可根据实际情况对第二分类器进行调整,直接利用由其他学者提出的高识别性能的零样本分类器作为第二分类器,本实施例在此不做限制。
此外,本实施例在实验前期准备过程包括以下步骤:
数据集获取步骤:直接使用从ResNet-101在Image Net数据集上预先训练的最后一个池化层中提取的2048维的特征作为视觉特征,即采用预先由卷积神经网络提取的高维图像特征作为视觉特征,利用人工标注类别信息作为语义特征。实际应用时,还可采用其它预先训练的分类图像的高维图像特征作为视觉特征,采用其它已标注类别信息的作为语义特征,本实施例在此不作限定。
数据集划分步骤:将数据集划分为两种类别互不重叠的已见类和未见类。实际应用时,广义零样本图像分类任务就是在训练集{Xs,As,Ys}训练一个分类器fGZSL:X→Ys∪Yu。令已见类的视觉特征表示为X,语义特征表示为A,Y为类别的标签,则已见类样本集合为:{Xs,As,Ys},其中Xs是已见类样本的视觉特征,As是已见类样本的语义特征,Ys是已见类样本对应标签。未见类样本集合为:{Xu,Au,Yu},其中Xu是未见类样本的视觉特征,Au是未见类样本的语义特征,Yu是未见类样本对应标签。根据零样本学习的定义,由于在训练过程中未见类的视觉特征Xu是不参与训练的,因此在测试阶段,只能依靠已见类别样本的训练好的模型对未见类样本进行分类,并且有
Figure BDA0003020366470000171
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (8)

1.一种基于增强多模态对齐的广义零样本图像分类方法,其特征在于,包括以下步骤:
图像获取步骤:获取待识别图像;
图像分类步骤:将所述待识别图像输入广义零样本图像分类模型中确定待识别图像的识别目标类别;
所述广义零样本图像分类模型为通过训练步骤和测试步骤得出;
所述训练步骤具体包括:
特征编码步骤:采用两个超球面变分自编码器分别对训练样本的视觉特征和语义特征编码进共享的潜层空间中;
潜层向量对齐步骤:设置损失函数,将训练模型的优化方向趋向于视觉潜层向量和语义潜层向量的分布对齐,即通过将超球面变分损失、交叉对齐损失、潜层分布损失、互信息损失、联合熵损失以及分类损失相结合形成混合损失,优化损失函数,收敛训练模型,使用梯度下降法训练视觉编码器、语义编码器、视觉解码器、语义解码器和第一分类器的参数,当训练模型的测试准确率达到预设训练准确度阈值时,保存训练模型所有的最优参数,基于所述训练模型所有的最优参数得到广义零样本图像分类模型的参数;
所述潜层向量对齐步骤,具体包括以下步骤:
重构原始数据步骤:利用超球面变分自编码器重构原始数据,建立超球面变分损失,所述超球面变分损失包括两个超球面变分自编码器的损失,所述超球面变分自编码器的损失表示为对数似然函数的变分下界;
模态不变信息捕获步骤:基于交叉对齐损失对潜层向量捕获模态不变信息;
潜层向量分布对齐步骤:最小化潜层分布损失,其中潜层分布损失为在高斯分布的情况下,根据两个潜层向量分布的参数之间的Wasserstein距离进行对齐潜层向量分布得到;
模态对齐步骤:基于互信息损失对齐潜层空间中的不同模态的潜层向量;
联合分布的熵最大化步骤:最大化联合熵损失;
第一分类器构建步骤:构建第一分类器,所述第一分类器用于对已见类数据编码在潜层空间的向量进行分类、在所述测试步骤中当判断为已见类时进行监督分类,在训练阶段将已见类数据编码在潜层空间的向量直接用于分类,即构建分类损失;
训练步骤:通过将超球面变分损失、交叉对齐损失、潜层分布损失、互信息损失、联合熵损失以及分类损失相结合形成混合损失,优化损失函数,收敛训练模型,使用梯度下降法训练视觉编码器、语义编码器、视觉解码器、语义解码器和第一分类器的参数,最终保存训练模型所有的最优参数,基于所述训练模型所有的最优参数得到广义零样本图像分类模型的参数;
所述混合损失具体为:
Loss=LSVAE+LCA+LDA+LMI+LEM+Lcls
其中,Loss表示混合损失,LSVAE表示超球面变分损失,LCA表示交叉对齐损失,LDA表示潜层分布损失,LMI表示互信息损失,LEM表示联合熵损失,Lcls表示分类损失;
分布边界阈值获取步骤:将已见类的语义潜层向量定义为对应样本的类中心,寻找每一个已见类在潜层空间中的分布边界阈值;
所述分布边界阈值获取步骤,具体包括以下步骤:
已见类数据分布步骤:将每个已见类数据在潜层空间中由vMF分布表示,同一类样本在潜层空间中的分布近似地用单位超球面上的一个圆来表示;
分布边界阈值确定步骤:寻求已见类数据在潜层空间中的边界;
设定语义特征在潜层空间中的表示Ci作为类中心,视觉特征在潜层空间中的表示zij围绕类中心Ci进行随机分布;
计算每个视觉潜层向量zij与每个类中心Ci之间的余弦相似度D(zij,Cj);
通过设定数据界限值γ,确定在每一个视觉潜层向量zij与类中心Ci的余弦相似度中抽取预设距离数据作为分布边界阈值η,所述分布边界阈值η小于γ,其中γ∈(0,1)且η大于1-γ;
所述测试步骤具体包括:
第一分类处理步骤:将测试样本通过视觉编码器编码到潜层空间中,计算与每一个已见类中心的余弦相似度再与分布边界阈值进行比较;
通过比较结果判断测试样本是否投影到已见类的边界里面,如果是,交由已见类分类器处理,否则交由未见类分类器处理;
第二分类处理步骤:分别对已见类和未见类进行类别识别。
2.根据权利要求1所述的基于增强多模态对齐的广义零样本图像分类方法,其特征在于,所述第二分类处理步骤,具体步骤包括:当交由已见类分类器处理时,利用第一分类器进行分类,所述第一分类器由所述潜层向量对齐步骤得到;当交由未见类分类器处理时,利用第二分类器进行分类,第二分类器采用基于减缓特征混淆的零样本分类器。
3.根据权利要求1所述的基于增强多模态对齐的广义零样本图像分类方法,其特征在于,所述特征编码步骤,具体包括以下步骤:
部署两个超球面变分自编码器,用于在单位超球面上建立潜层空间,在所述潜层空间中,根据近似圆进行划分数据,令近似圆包围的数据作为已见类数据,令散布在近似圆之外的数据为未见类数据;
所述超球面变分自编码器遵循编解码结构的范式,编码器将输入特征编码得到潜层向量,解码器将潜层向量表示为输入特征的概率分布;
在潜层空间中每个类基于vMF分布表示。
4.根据权利要求3所述的基于增强多模态对齐的广义零样本图像分类方法,其特征在于,所述部署两个超球面变分自编码器,具体步骤为:设置两个超球面变分自编码器,即第一超球面变分自编码器和第二超球面变分自编码器,初始化两个超球面变分自编码器,所述第一超球面变分自编码器设有视觉编码器、视觉解码器,所述第二超球面变分自编码器设有语义编码器、语义解码器。
5.根据权利要求4所述的基于增强多模态对齐的广义零样本图像分类方法,其特征在于,所述在潜层空间中每个类基于vMF分布表示,具体步骤为:将已见类的视觉特征、语义特征分别通过视觉编码器、语义编码器编码到潜层空间中,对于每一个特征经过编码后的输出均服从近似于均值为u,方差为σ的高斯分布,从不同模态合成的高斯分布中分别采样第一潜层向量z1和第二潜层向量z2,且第一潜层向量z1和第二潜层向量z2均服从vMF分布。
6.根据权利要求1所述的基于增强多模态对齐的广义零样本图像分类方法,其特征在于,所述第一分类处理步骤,具体包括以下步骤:
设置一个测试样本的视觉特征,将视觉特征通过训练好的视觉编码器将其编码在潜层空间中得到潜层向量;
根据分布边界阈值去比较测试样本和已见类中心之间的余弦相似度,进而确定测试样本是否被投影到流形中;
如果是,交由已见类分类器处理,否则交由未见类分类器处理。
7.根据权利要求6所述的基于增强多模态对齐的广义零样本图像分类方法,其特征在于,所述根据分布边界阈值去比较测试样本和已见类中心之间的余弦相似度,利用分布边界阈值η,通过分类归属公式判断测试样本属于未见类还是已见类;
所述分类归属公式具体为:
Figure FDA0003911076470000051
其中Result代表数据归属情况,具体的,0代表未见类,1代表已见类,zij表示第i个类别的第j个视觉特征,i表示第i个类别的中心,D(zij,Ci)表示视觉潜层向量zij与类中心Ci之间的余弦相似度,max表示取最大值处理,AS表示已见类样本的语义特征。
8.根据权利要求1所述的基于增强多模态对齐的广义零样本图像分类方法,其特征在于,在所述训练步骤执行前,还包括训练准备步骤;
所述训练准备步骤,具体包括以下步骤:
数据集获取步骤:采用预先由卷积神经网络提取的高维图像特征作为视觉特征,采用人工标注信息作为语义特征;
数据集划分步骤:将数据集划分为两种类别互不重叠的已见类和未见类。
CN202110401006.XA 2021-04-14 2021-04-14 一种基于增强多模态对齐的广义零样本图像分类方法 Active CN113139591B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110401006.XA CN113139591B (zh) 2021-04-14 2021-04-14 一种基于增强多模态对齐的广义零样本图像分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110401006.XA CN113139591B (zh) 2021-04-14 2021-04-14 一种基于增强多模态对齐的广义零样本图像分类方法

Publications (2)

Publication Number Publication Date
CN113139591A CN113139591A (zh) 2021-07-20
CN113139591B true CN113139591B (zh) 2023-02-24

Family

ID=76812581

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110401006.XA Active CN113139591B (zh) 2021-04-14 2021-04-14 一种基于增强多模态对齐的广义零样本图像分类方法

Country Status (1)

Country Link
CN (1) CN113139591B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113688879B (zh) * 2021-07-30 2024-05-24 南京理工大学 一种基于置信度分布外检测的广义零样本学习分类方法
CN113554127B (zh) * 2021-09-18 2021-12-28 南京猫头鹰智能科技有限公司 一种基于混合模型的图像识别方法和设备、介质
CN113782029B (zh) * 2021-09-22 2023-10-27 广东电网有限责任公司 语音识别模型的训练方法、装置、设备以及存储介质
CN114037866B (zh) * 2021-11-03 2024-04-09 哈尔滨工程大学 一种基于可辨伪特征合成的广义零样本图像分类方法
CN114580425B (zh) * 2022-05-06 2022-09-09 阿里巴巴(中国)有限公司 命名实体识别的方法和装置,以及电子设备和存储介质
CN114937178B (zh) * 2022-06-30 2023-04-18 抖音视界有限公司 基于多模态的图像分类方法、装置、可读介质和电子设备
CN115424096B (zh) * 2022-11-08 2023-01-31 南京信息工程大学 一种多视角零样本图像识别方法
CN116977796B (zh) * 2023-09-25 2024-02-23 中国科学技术大学 零样本图像识别方法、系统、设备及存储介质
CN117152752B (zh) * 2023-10-30 2024-02-20 之江实验室 一种自适应权重的视觉深度特征重建方法和装置
CN117909854A (zh) * 2024-03-20 2024-04-19 东北大学 基于多模态对比嵌入的零样本复合故障诊断方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107679556A (zh) * 2017-09-18 2018-02-09 天津大学 基于变分自动编码器的零样本图像分类方法
GB201911724D0 (en) * 2019-08-15 2019-10-02 Vision Semantics Ltd Text based image search
CN110580501A (zh) * 2019-08-20 2019-12-17 天津大学 一种基于变分自编码对抗网络的零样本图像分类方法
CN111428071A (zh) * 2020-03-26 2020-07-17 电子科技大学 一种基于多模态特征合成的零样本跨模态检索方法
CN111461323A (zh) * 2020-03-13 2020-07-28 中国科学技术大学 一种图像识别方法及装置
CN111563554A (zh) * 2020-05-08 2020-08-21 河北工业大学 基于回归变分自编码器的零样本图像分类方法
CN111914903A (zh) * 2020-07-08 2020-11-10 西安交通大学 一种基于外分布样本检测的广义零样本目标分类方法、装置及相关设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112364894B (zh) * 2020-10-23 2022-07-08 天津大学 一种基于元学习的对抗网络的零样本图像分类方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107679556A (zh) * 2017-09-18 2018-02-09 天津大学 基于变分自动编码器的零样本图像分类方法
GB201911724D0 (en) * 2019-08-15 2019-10-02 Vision Semantics Ltd Text based image search
CN110580501A (zh) * 2019-08-20 2019-12-17 天津大学 一种基于变分自编码对抗网络的零样本图像分类方法
CN111461323A (zh) * 2020-03-13 2020-07-28 中国科学技术大学 一种图像识别方法及装置
CN111428071A (zh) * 2020-03-26 2020-07-17 电子科技大学 一种基于多模态特征合成的零样本跨模态检索方法
CN111563554A (zh) * 2020-05-08 2020-08-21 河北工业大学 基于回归变分自编码器的零样本图像分类方法
CN111914903A (zh) * 2020-07-08 2020-11-10 西安交通大学 一种基于外分布样本检测的广义零样本目标分类方法、装置及相关设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Edgar Schönfeld.Generalized Zero- and Few-Shot Learning via Aligned Variational Autoencoders.《2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)》.2019,8239-8247. *

Also Published As

Publication number Publication date
CN113139591A (zh) 2021-07-20

Similar Documents

Publication Publication Date Title
CN113139591B (zh) 一种基于增强多模态对齐的广义零样本图像分类方法
Patrick et al. Capsule networks–a survey
CN113378632B (zh) 一种基于伪标签优化的无监督域适应行人重识别方法
Aakur et al. A perceptual prediction framework for self supervised event segmentation
Zafar et al. Face recognition with Bayesian convolutional networks for robust surveillance systems
CN103605972B (zh) 一种基于分块深度神经网络的非限制环境人脸验证方法
CN110795585B (zh) 基于生成对抗网络的零样本图像分类系统及其方法
US11443514B2 (en) Recognizing minutes-long activities in videos
Yang et al. Facial expression recognition based on dual-feature fusion and improved random forest classifier
Gupta et al. Single attribute and multi attribute facial gender and age estimation
CN112766217A (zh) 基于解纠缠和特征级差异学习的跨模态行人重识别方法
CN115862120A (zh) 可分离变分自编码器解耦的面部动作单元识别方法及设备
Qin et al. Finger-vein quality assessment based on deep features from grayscale and binary images
Xu et al. Weakly supervised facial expression recognition via transferred DAL-CNN and active incremental learning
CN108319891A (zh) 基于稀疏表达和改进的lda的人脸特征提取方法
CN113657498B (zh) 生物特征提取方法、训练方法、认证方法、装置和设备
CN114937298A (zh) 一种基于特征解耦的微表情识别方法
Khan et al. Building discriminative features of scene recognition using multi-stages of inception-ResNet-v2
CN115995040A (zh) 一种基于多尺度网络的sar图像小样本目标识别方法
US20240135708A1 (en) Permutation invariant convolution (pic) for recognizing long-range activities
Tvoroshenko et al. Analysis of methods for detecting and classifying the likeness of human features
Bhavani et al. Robust 3D face recognition in unconstrained environment using distance based ternary search siamese network
Khamis et al. Walking and talking: A bilinear approach to multi-label action recognition
Liang Unrestricted Face Recognition Algorithm Based on Transfer Learning on Self‐Pickup Cabinet
Lei et al. Student action recognition based on multiple features

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant