CN113111917A - 一种基于双重自编码器的零样本图像分类方法及装置 - Google Patents

一种基于双重自编码器的零样本图像分类方法及装置 Download PDF

Info

Publication number
CN113111917A
CN113111917A CN202110281868.3A CN202110281868A CN113111917A CN 113111917 A CN113111917 A CN 113111917A CN 202110281868 A CN202110281868 A CN 202110281868A CN 113111917 A CN113111917 A CN 113111917A
Authority
CN
China
Prior art keywords
sample
semantic
model
dual
encoder
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110281868.3A
Other languages
English (en)
Other versions
CN113111917B (zh
Inventor
米建勋
台德宝
陈涛
向菲
钱基业
江金洋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN202110281868.3A priority Critical patent/CN113111917B/zh
Publication of CN113111917A publication Critical patent/CN113111917A/zh
Application granted granted Critical
Publication of CN113111917B publication Critical patent/CN113111917B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24143Distances to neighbourhood prototypes, e.g. restricted Coulomb energy networks [RCEN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于双重自编码器的零样本图像分类方法及装置,涉及图像分类技术领域技术领域,将视觉和语义特征投影到一个公共空间中学习潜在语义,并基于图知识构造一致性权重矩阵使得双重投影保持一致的数据结构,再引入ε‑牵引技术,设计一个基于标签松弛的可见类分类器,增强了潜在语意义的判别性和模型的泛化能力,其包括,获取样本图像;构建视觉特征向量,再建立视觉和语义特征空间并构造一致性权重矩阵,基于双重图嵌入构建正则化自编码器,引入ε‑牵引技术,建立基于标签松弛的可见类潜在语义分类器并通过对双重判别图正则化自编码模型进行训练获取零样本分类模型利用距离计算公式,并在公共空间中获取未见类测试样本的类别标签。

Description

一种基于双重自编码器的零样本图像分类方法及装置
技术领域
本发明涉及图像分类技术领域,具体涉及一种基于双重自编码器的零样本图像分类方法及装置。
背景技术
零样本分类是图像分类中的一个重要研究方向,属于迁移学习的一个重要分支,尽管目前研究者已经提出一些解决的方案,但该技术仍然面临许多挑战。其中就包括底层视觉特征与高层语义之间存在语义鸿沟以及语义属性判别性不强等问题。
近年来,基于深度学习的图像分类取得了突破性的进展,然而收集和标注训练图片是一项十分费时费力的工作。因此,有研究者提出“零样本学习”的概念,即迁移标签已知的可见类知识来识别标记缺失的未见类。当前零样本图像分类主要为以下两类:
(1)基于中间属性分类器的零样本图像分类方法,早期的工作(如DAP,IAP)假设属性之间相互独立,通过学习概率属性分类器来预测图像标签,由于其忽略属性和标签之间的分布差异,导致分类效果较差;
(2)基于视觉-语义投影的零样本图像分类方法,即仅仅迁移通过可见类样本训练的从视觉特征空间到语义空间的视觉-语义投影函数预测未见类。
目前主流的零样本图像分类主要通过以下三种步骤实现:首先,构建语义空间来实现跨类别、多层级关联。在语义空间中,每一个类别(包括可见类和未见类)都有对应的语义类原型来表示,通常是人工标注的属性向量或者词向量。其次,专注于学习可见类样本的视觉特征与其对应语义之间的视觉-语义投影。第三,迁移可见类训练的模型来推断未见类的潜在语义,以便可以在搜索空间中使用最近邻搜索来识别新的未见类对象。
现有专利中,CN108921226A的专利针对样本数据中存在噪音,会严重影响分类效果,提出基于低秩表示和流形正则化的方法去除未见类的数据噪声,但是该方法需要利用未见类的数据,违背传统的零样本分类设定。CN106485272A的专利提出了基于流形约束的跨模态嵌入的零样本分类方法,充分挖掘不同模态之间的语义信息及不同类别之间的判别信息。然而,该专利直接学习从视觉特征到语义特征的视觉-语义投影,未解决底层视觉特征与高级语义特征之间存在的语义鸿沟问题。
发明内容
经发明人研究发现目前基于视觉-语义投影的零样本分类模型存在以下两个问题:
1)图像特征空间和语义空间中数据流形结构不一致,因此直接学习两者之间的投影不合理;2)基于人工语义属性的设计具有主观性,如何增强其判别性需要进一步的研究。
针对存在的问题,本发明提供了一种基于双重自编码器的零样本图像分类方法及装置,通过将视觉和语义特征投影到一个公共空间中学习潜在语义,并基于图知识构造一致性权重矩阵使得双重投影保持一致的数据结构,再引入ε-牵引技术,设计一个基于标签松弛的可见类分类器,以此增强潜在语义的判别性和模型泛化能力。
本发明通过下述技术方案实现:
一种基于双重自编码器的零样本图像分类方法,包括以下步骤:
步骤S1:获取样本图像,利用深度残差网络提取样本图像的视觉特征;
步骤S2:构建关联所述样本图像类别的语义知识库获得语义特征,并对语义知识库做可见类和未见类的语义属性标签,并生成可见类训练样本和未见类测试样本;
步骤S3:建立两个最邻近节点算法图,其分别对应所述可见类训练样本在视觉特征空间的数据结构以及所述可见类训练样本在语义特征空间的数据结构,通过两种空间内的数据结构来构造一致性权重矩阵,将一致性权重矩阵作为数据结构来建立公共空间;
步骤S4:基于双重自编码器将视觉特征和语义特征投影到公共空间来构建潜在语义,利用两个最邻近节点算法图嵌入,构建双重图正则化自编码器模型;
步骤S5:引入ε-牵引技术,建立基于标签松弛的可见类潜在语义分类器;
步骤S6:根据双重图正则化自编码模型结合可见类潜在语义分类器联合构建双重判别图正则化自编码模型;
步骤S7:通过可见类训练样本对双重判别图正则化自编码器模型进行训练获得零样本分类模型,并确定参数;
步骤S8:利用训练好的零样本分类模型预测未见类测试样本的潜在语义,然后利用距离计算公式在所述公共空间中获取未见类测试样本的类别标签。
本发明在应用时,通过双重图正则化自编码器将视觉特征和语义特征通过双重投影嵌入到公共空间中联合构造潜在语义,此外,再引入ε-牵引技术,通过基于标签松弛的可见类潜在语义分类器,用来增强公共空间中潜在语义的判别性和模型的泛化能力,本方案基于图嵌入分别挖掘样本视觉和语义特征的潜在结构信息,并采用简单有效的融合策略学习一致性权重矩阵,使得双重投影可以保持一致的流形结构,以缓解底层视觉特征与高层语义之间存在的语义间隔问题。
优选地,在步骤S3中,还包括以下步骤:
步骤S31:基于流形学习构建可见类训练样本在视觉特征空间的数据流形结构Vx和可见类训练样本在语义空间的数据流形结构Vs
步骤S32:通过数据流形结构Vx和Vs构造一致性权重矩阵,所述一致性权重矩阵表示为:
Figure BDA0002978975830000031
其中,Vx和Vs表示为:
Figure BDA0002978975830000032
其中,Nk(zj)表示样本zi的k近邻集合。
优选地,在步骤S4中,所述双重图正则化自编码器模型通过双重自编码器框架和图嵌入构成,所述双重图正则化自编码器模型具体为:
Figure BDA0002978975830000033
s.t.A≥0
其中,X∈Rd×N表示图像样本的视觉特征,S∈Rk×N表示图像样本的语义特征,W∈Rr ×d表示视觉特征投影到公共空间,Q∈Rr×k表示原始语义投影到公共空间,A∈Rr×N表示非负潜在语义,L∈RN×N表示拉普拉斯矩阵,L=D-V,其中D表示一个对偶矩阵,D为第i个对偶元素为∑jVij
进一步地,在步骤S5中,所述可见类潜在语义分类器表示为:
Figure BDA0002978975830000034
Figure BDA0002978975830000035
其中,P∈Rc×r表示潜在语义分类器,Y∈Rc×N表示可见类样本的标签,M∈Rc×N表示非负松弛矩阵,B∈Rc×N表示预定义的常数矩阵;
所述常数矩阵表示为:
Figure BDA0002978975830000041
优选地,所述零样本分类模型表示为:
Figure BDA0002978975830000042
Figure BDA0002978975830000043
进一步地,所述零样本分类模型预测过程表示为:
Figure BDA0002978975830000044
其中,
Figure BDA0002978975830000045
表示第i个未见类样本的图像视觉特征,
Figure BDA0002978975830000046
表示第j个未见类的类原型,D(·,·)用于计算公共空间中向量
Figure BDA0002978975830000047
和向量
Figure BDA0002978975830000048
之间的余弦相似度。
优选地,所述距离计算公式包括欧式距离和余弦距离。
在一些实施例中,本发明还提供一种基于双重自编码器的零样本图像分类装置,其包括:
接受模块,用于获取待任意数量待识别样本图像,生成对应的视觉特征;
编码模块,用于导入样本图像获得视觉特征,并设置关联样本图像类别的语义知识库,提取语义知识库的语义特征;
重构模块,用于通过双重自编码器将视觉特征和语义特征投影到公共空间构建潜在语义,并分别重构视觉图像和所述类别对应的编码向量;
约束模块,用于设置标签松弛的可见类潜在语义分类器,对潜在语义进行约束;
计算模块,用于通过潜在语义分类器和双重图正则化自编码器模型建立双重判别图正则化自编码模型判别约束最小,得到训练好的零样本分类模型;
确定模块,用于通过训练好的零样本分类模型,获取样本图像的潜在语义编码,使用最邻近分类器对潜在语义编码进行分类。
进一步地,在计算模块中还具体包括:
第一计算模块,用于根据目标函数计算出损失函数值;
更新模块,优化模型并求解,更新模型参数;
判断模块,根据当前的损失函数值,判断是否收敛,若收敛则停止更新模型,否则继续进行模型更新;
第一确定模块,当模型已经收敛或是达到停止条件,则可确定最终的模型参数
在一些实施例中,本发明还提供一种电子设备,包括处理器和存储器,所述储存器中存储有程序代码,当所述程序代码被所述处理器执行时,所述处理器执行上述一种基于双重自编码器的零样本图像分类方法的步骤。
在一些实施例中,本发明还提供一种计算机储存介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现上述一种基于双重自编码器的零样本图像分类方法的步骤。
本发明与现有技术相比,具有如下的优点和有益效果:
1、本发明一种基于双重自编码器的零样本图像分类方法及装置,通过双重图正则化自编码器将视觉特征和语义特征通过双重投影嵌入到公共空间中联合构造潜在语义,此外,引入ε-牵引技术,设计一个基于标签松弛的可见类潜在语义分类器,用来增强公共空间中潜在语义的判别性和模型的泛化能力;
2、本发明一种基于双重自编码器的零样本图像分类方法及装置,本方法基于图嵌入分别挖掘样本视觉和语义特征的潜在结构信息,并采用简单有效的融合策略学习一致性权重矩阵,使得双重投影可以保持一致的流形结构,以缓解底层视觉特征与高层语义之间存在语义间隔问题。
附图说明
此处所说明的附图用来提供对本发明实施例的进一步理解,构成本申请的一部分,并不构成对本发明实施例的限定。在附图中:
图1为本发明实施例中整体流程示意图;
图2为本发明实施例中的零样本图像分类装置示意图;
图3为本发明实施例中计算模块的结构图;
图4为本发明实施例中数据集预测结果示意图;
图5为本发明实施例中的终端设备部分结构示意框图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施例和附图,对本发明作进一步的详细说明,本发明的示意性实施方式及其说明仅用于解释本发明,并不作为对本发明的限定。
在以下描述中,为了提供对本发明的透彻理解阐述了大量特定细节。然而,对于本领域普通技术人员显而易见的是:不必采用这些特定细节来实行本发明。在其他实例中,为了避免混淆本发明,未具体描述公知的结构、电路、材料或方法。
在整个说明书中,对“一个实施例”、“实施例”、“一个示例”或“示例”的提及意味着:结合该实施例或示例描述的特定特征、结构或特性被包含在本发明至少一个实施例中。因此,在整个说明书的各个地方出现的短语“一个实施例”、“实施例”、“一个示例”或“示例”不一定都指同一实施例或示例。此外,可以以任何适当的组合和、或子组合将特定的特征、结构或特性组合在一个或多个实施例或示例中。此外,本领域普通技术人员应当理解,在此提供的示图都是为了说明的目的,并且示图不一定是按比例绘制的。这里使用的术语“和/或”包括一个或多个相关列出的项目的任何和所有组合。
实施例
如图1所示,图1为本实施例提供的一种基于双重自编码器的零样本图像分类方法的整体流程示意图,具体包括以下步骤:
具体以AWA2数据集为例,详细说明具体实施过程。AWA2数据集中包含50个动物类别,其中40个类别作为可见类用于训练模型,10个类别作为未见类用于测试,每个类别(包括可见类和未见类)均由85维语义属性表示。
具体的,假设Ωs={X,S,Y}和Ωu={Xu,Su,Yu}分别表示来自C个可见类的N个样本和cu个未见类的Nu个样本。其中,X∈Rd×N,分别表示可见类和未见类样本的d-维图像视觉特征,对应的标签分别为Y∈Rc×N
Figure BDA0002978975830000061
S∈Rk×N
Figure BDA0002978975830000062
分别指可见类和未见类样本的k-维实语义表示。
需要说明的是,在传统零样本学习中,由于可见类和未见类是不相交的,因此
Figure BDA0002978975830000063
S101:首先,使用基于深度神经网络ResNet提取的图像视觉特征和基于人工设计的语义属性特征作为本方法中模型的输入数据。
S102:建立两个KNN图分别探索可见类训练样本在视觉特征空间和语义空间的内部数据结构Vx和Vs,并通过简单的融合策略得到一致性权重矩阵作为样本在公共空间中的数据结构。其中Vx和Vs定义如下:
Figure BDA0002978975830000064
其中,Nk(zj)表示样本zi的k近邻集合。
S103:使用可见类训练样本的图像视觉特征X和语义特征S构建下列基于双重判别图正则化自编码器零样本图像分类模型,其表达式具体如下:
Figure BDA0002978975830000071
Figure BDA0002978975830000072
其中,W∈Rr×d,Q∈Rr×k表示双重投影(W是将视觉特征投影到公共空间,Q是将原始语义投影到公共空间),P∈Rc×r表示潜在语义分类器,用以增强潜在语义的判别性和模型的泛化能力;A∈RN表示非负潜在语义,其中每一个潜在语义特征可以视为不同判别属性的线性组合。L∈Rx×N表示拉普拉斯矩阵,L=D-V,其中D是一个对偶矩阵,其第i个对偶元素为∑jVij。Y∈Rc×N表示可见类样本的one-hot标签,M∈Rc×N表示非负松弛矩阵,而B∈Rc×N是预定义的常数矩阵,其中的每个元素均表示牵引的方向,其定义为:
Figure BDA0002978975830000073
具体地,本方法通过交替迭代优化求解,优化方法如下:
1)固定其他变量更新变量W,则子问题变成以下公式:
Figure BDA0002978975830000074
为了求解上式,我们只需要对其求导并令其等于0,可获得以下新的公式:
AATW+WX(I+L)XT=2AXT
可以理解的是,上式为西尔维斯特方程,通过MATLAB提供了一行简单的代码可以对其进行求解。
2)固定其他变量更新变量Q,则子问题变成以下公式:
Figure BDA0002978975830000075
显然上式也是西尔维斯特方程,可以采取与上式相同的方法得到以下闭式解,即:
AATQ+QS(I+L)ST=2AST
3)固定其他变量更新变量A,则变成以下子问题:
Figure BDA0002978975830000081
其中,
Figure BDA0002978975830000082
并且让H=Y+B⊙M,I∈Rr×r表示单位矩阵。通过对上式求导,可以得到以下闭式解:
Figure BDA0002978975830000083
此外,使用ReLU激活函数σ(z)=max(0,z)保证潜在语义A具有非负性。
4)固定其他变量更新变量M,让R=PA-Y,则变成以下子问题:
Figure BDA0002978975830000084
s.t.M≥0.
M的最终结果为:
M*=max(B⊙R,0)
5)固定其他变量更新变量P,则变成以下子问题:
Figure BDA0002978975830000085
Figure BDA0002978975830000086
上式可以通过拉格朗日对偶来优化,故其优化结果为:
P*=(Y+B⊙M)AT(AAT+∧)-1
其中,∧是由所有拉格朗日对偶变量构成的对角矩阵。
上述步骤迭代进行,直至目标函数值收敛为止。
S104:利用投影矩阵W和Q在公共空间中预测未见类样本的类别标签:
Figure BDA0002978975830000091
其中,
Figure BDA0002978975830000092
表示第i个未见类样本的图像视觉特征,而
Figure BDA0002978975830000093
则表示第j个未见类的原始语义表示。
D(·,·)是用来计算公共空间中样本的预测语义与未见类潜在语义之间的余弦距离,具体为向量
Figure BDA0002978975830000094
和向量
Figure BDA0002978975830000095
之间的余弦相似度。
参考图2,图2为本实施例提供的零样本图像分类的结构装置示意图,装置包括:
接收模块401,用于接收任意待识别图像,并将每一张图像通过ResNet网络转化成对应的向量形式,多张图转化成对应的矩阵形式;
编码模块402,针对所述待识别图像,分别预先存储每个视觉图像对应类别的编码向量,其中每个类别编码向量可以通过人工设计的语义属性进行编码;
重构模块403,利用双重图正则化自编码器首先联合视觉图像和所述图像类别对应的编码向量构建潜在语义,同时分别重构视觉图像和所述类别对应的编码向量;
约束模块404,添加基于标签松弛的可见类分类器,约束潜在语义的判别性和模型的泛化能力;
计算模块405,根据双重图正则化自编码器和潜在语义判别约束最小,得到最终得到目标函数,以此来进行迭代训练更新参数,得到训练好的模型;
确定模块406,利用训练好的模型得到测试图像数据的潜在语义编码,并利用最近邻分类器对编码进行分类。
具体的,所述重构模块利用公式(1),得到双重图正则化自编码器:
Figure BDA0002978975830000096
s.t.A≥0.(1)
其中,W∈Rr×d,Q∈Rr×k表示双重投影(W是将视觉特征投影到公共空间,Q是将原始语义投影到公共空间),A∈Rr×N表示非负潜在语义,其中每一个潜在语义特征可以视为不同判别属性的线性组合。L∈RN×N表示拉普拉斯矩阵,L=D-V,其中D是一个对偶矩阵,其第i个对偶元素为∑jVij
具体的,所述约束模块利用公式(2),得到可见类潜在语义分类器:
Figure BDA0002978975830000101
Figure BDA0002978975830000102
这里P∈Rc×r表示潜在语义分类器,用以增强潜在语义的判别性和模型泛化能力,Y∈Rc×N表示可见类样本的one-hot标签,M∈Rc×N表示非负松弛矩阵,而B∈Rc×N是预定义的常数矩阵,其中的每个元素均表示牵引的方向,其定义为:
Figure BDA0002978975830000103
具体的,计算模块联合公式(1)和(2),得到训练好的语义编码器:
Figure BDA0002978975830000104
Figure BDA0002978975830000105
具体的,确定模块利用公式(4),得到测试图像的类别标签:
Figure BDA0002978975830000106
其中,Xu i表示第i个未见类样本的图像视觉特征,而
Figure BDA0002978975830000107
则表示第j个未见类的原始语义编码。
D(·,·)是用来计算公共空间中样本的预测编码与未见类潜在语义编码之间的余弦距离。
需要说明的是,标签松弛的可见类分类器与标签判别分类器不同,其具有如下特征:
标签松弛的可见类分类器可进一步扩大不同类别之间的距离,以提高潜在语义的判别性,同时在将每个样本对应的ε值沿对应标签的方向拖动,以反映样本之间的差异,有助于分类器可以学习更多的知识,进一步增强模型的泛化能力。因此,标签松弛的可见类分类器不仅增强潜在语义的判别性,同时增强模型泛化能力。
另外,参考图3,图3所示为图2中计算模块的结构图,其中405还具体包括:
第一计算模块501,用于根据目标函数计算出损失函数值;
更新模块502,利用交替迭代优化对模型求解,更新模型参数;
判断模块503,根据当前的损失函数值,判断是否收敛,若收敛则停止更新模型,若不收敛,则继续进行模型更新;
第一确定模块504,当模型已经收敛或是达到停止条件,则可确定最终的模型参数。
如图4所示,本发明中AWA2数据集10个未见类的混淆矩阵。混淆矩阵的对角线数字显示每个未见类的正确预测精度,行表示预测结果,列表示真实结果,验证了本发明的对于零样本图像分类具有较好的分类效果。
此外,本发明实施例还提供了一种电子设备终端,如图5所示,为了便于说明,仅展示了与本发明实施例相关的部分。该终端可以包括手机、平板、电脑、POS机等任意终端设备,以终端手机为例。
图5显示的是与本发明实施例提供的终端相关的手机的部分结构的框图。参考图5,手机包括::射频(Radio Frequency,RF)电路、存储器、输入设备、显示设备、传感器、音频电路、无线保真(wireless fidelity,WIFI)模块、处理器、电源等部件。本领域技术人员可以理解,图5中示出的手机结构并不构成对手机的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
下面结合图5对手机的各个构成部件进行具体的介绍:
RF电路可用于收发信息或通话过程中,信号的接收和发送,特别地,将基站的下行信息接收后,给处理器处理;另外,将设计上行的数据发送给基站。通常,RF电路包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low Noise Amplifier,LAN、双工器等。此外,RF电路还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议,包括但不限于全球移动通讯系统(Global System of Mobilecommunication,GSMC)、通用分组无线服务(General Packet Radio Service,GPRS)、码分多址(Code Division Multiple Access,CDMA),电子邮件、短消息服务(Short MessagingService,SMS)等。
存储器可用于存储软件程序以及模块,处理器通过运行存储在存储器的软件程序以及模块,从而执行手机的各种功能应用以及数据处理。存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等,本发明中存储数据区可存储两个视角数据的图像,其中,多张图像可以被预先转化成矩阵的形式被存储。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
输入设备可用于接收输入的数字或字符信息,以及产生与手机的用户设置以及功能控制有关的键信号输入。本发明中的输入设备可用于接收待分类的两个视角的图像数据。
输出设备可用于输出显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。输出设备可包括显示面板,可选的,可以采用液晶显示器(Liquid CrystalDisplay)、有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置输出显示面板。
传感器,比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节输出显示面板的亮度,接近传感器可在手机移动到耳边时,关闭显示面板和/或背光。作为运动传感器的一种,加速计传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
音频模块可将接收到的音频数据转换后的电信号,传输到扬声器,由扬声器转换为声音信号输出。
WiFi属于短距离无线传输技术,手机通过WiFi模块可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。
处理器是手机的控制中心,利用各种接口和线路连接整个手机的各个部分,通过运行或执行存储在存储器内的软件程序和/或模块,以及调用存储在存储器内的数据,执行手机的各种功能和处理数据,从而对手机进行整体监控。可选的,处理器可包括一个或多个处理单元;优选的,处理器可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器中。
电源(比如电池),优选的,电源可以通过电源管理系统与处理器逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。
尽管未在图5中示出,手机还可以包括摄像头、蓝牙模块等,在此不再赘述。
具体在本实施例中,终端中的处理器会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器中,并由处理器来运行存储在存储器中的应用程序,从而实现各种功能。
接收待识别图像,并将图像转换为向量形式,多个图像转换为矩阵形式;
针对所述待识别图像,分别预先存储每个视觉图像对应类别的编码向量,其中每个类别可以通过人工设计的语义属性预先编码;
利用双重图正则化自编码器联合视觉图像和所述图像类别对应的编码向量构建潜在语义;
其次分别重构视觉图像和所述类别对应的编码向量;
再对图像的潜在语义编码进行判别约束;
结合上述双重图正则化自编码器和判别分类器多次训练,得到训练好的模型;
新来的图像样本通过训练好的模型得到语义编码,利用最近邻分类器对其进行分类,得到其所属的类别;
进一步的,利用公式(1),得到待识别图像的潜在语义编码,并且重构图像视觉特征和语义编码:
Figure BDA0002978975830000131
s.t.A≥0.(1)
进一步的,利用公式(2),约束潜在语义编码的判别性并提升模型的泛化能力:
Figure BDA0002978975830000132
Figure BDA0002978975830000133
进一步的,整合得到最终的目标函数,公式如(3),并不断迭代训练确定最终的参数:
Figure BDA0002978975830000134
Figure BDA0002978975830000141
进一步的,新来的图像样本通过训练好的模型得到潜在语义编码,利用最近邻分类器对其进行分类,得到其所属的类别。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于双重自编码器的零样本图像分类方法,其特征在于,包括以下步骤:
步骤S1:获取样本图像,利用深度残差网络提取样本图像的视觉特征;
步骤S2:构建关联所述样本图像类别的语义知识库获得语义特征,并对语义知识库做可见类和未见类的语义属性标签,并生成可见类训练样本和未见类测试样本;
步骤S3:建立两个最邻近节点算法图,其分别对应所述可见类训练样本在视觉特征空间的数据结构以及所述可见类训练样本在语义特征空间的数据结构,通过两种空间内的数据结构来构造一致性权重矩阵,将一致性权重矩阵作为数据结构来建立公共空间;
步骤S4:基于双重自编码器将视觉特征和语义特征投影到公共空间来构建潜在语义,利用两个最邻近节点算法图嵌入,构建双重图正则化自编码器模型;
步骤S5:引入-ε牵引技术,建立基于标签松弛的可见类潜在语义分类器;
步骤S6:根据双重图正则化自编码模型结合可见类潜在语义分类器联合构建双重判别图正则化自编码模型;
步骤S7:通过可见类训练样本对双重判别图正则化自编码器模型进行训练获得零样本分类模型,并确定参数;
步骤S8:利用训练好的零样本分类模型预测未见类测试样本的潜在语义,然后利用距离计算公式在所述公共空间中获取未见类测试样本的类别标签。
2.根据权利要求1所述的一种基于双重自编码器的零样本图像分类方法,其特征在于,在步骤S3中,还包括:
步骤S31:基于流形学习构建可见类训练样本在视觉特征空间的数据流形结构Vx和可见类训练样本在语义空间的数据流形结构Vs
步骤S32:通过数据流形结构Vx和Vs构造一致性权重矩阵,所述一致性权重矩阵表示为:
Figure FDA0002978975820000011
其中,Vx和Vs表示为:
Figure FDA0002978975820000012
其中,Nk(zj)表示样本zi的k近邻集合。
3.根据权利要求1所述的一种基于双重自编码器的零样本图像分类方法,其特征在于,在步骤S4中,所述双重图正则化自编码器模型通过双重自编码器框架和图嵌入构成,所述双重图正则化自编码器模型具体为:
Figure FDA0002978975820000021
s.t.A≥0
其中,X∈Rd×N表示图像样本的视觉特征,S∈Rk×N表示图像样本的语义特征,W∈Rr×d表示视觉特征投影到公共空间,Q∈Rr×k表示原始语义投影到公共空间,A∈Rr×N表示非负潜在语义,L∈RN×N表示拉普拉斯矩阵,L=D-V,其中D表示一个对偶矩阵,D为第i个对偶元素为∑jVij
4.根据权利要求3所述的一种基于双重自编码器的零样本图像分类方法,其特征在于,在步骤S5中,所述可见类潜在语义分类器表示为:
Figure FDA0002978975820000022
Figure FDA0002978975820000023
其中,P∈Rc×r表示潜在语义分类器,Y∈Rc×N表示可见类样本的标签,M∈Rc×N表示非负松弛矩阵,B∈Rc×N表示预定义的常数矩阵;
所述常数矩阵表示为:
Figure FDA0002978975820000024
5.根据权利要求4所述的一种基于双重自编码器的零样本图像分类方法,其特征在于,所述零样本分类模型表示为:
Figure FDA0002978975820000025
Figure FDA0002978975820000026
6.根据权利要求5所述的一种基于双重自编码器的零样本图像分类方法,其特征在于,所述零样本分类模型预测过程表示为:
Figure FDA0002978975820000031
其中,
Figure FDA0002978975820000032
表示第i个未见类样本的图像视觉特征,
Figure FDA0002978975820000033
表示第j个未见类的类原型,D(·,·)用于计算公共空间中获取得到样本的预测语义与类原型之间的余弦距离。
7.根据权利要求1所述的一种基于双重自编码器的零样本图像分类方法,其特征在于,所述距离计算公式包括欧式距离和余弦距离。
8.一种基于双重自编码器的零样本图像分类装置,其特征在于,包括:
接受模块,用于获取待任意数量待识别样本图像,生成对应的视觉特征;
编码模块,用于导入样本图像获得视觉特征,并设置关联样本图像类别的语义知识库,提取语义知识库的语义特征;
重构模块,用于通过双重自编码器将视觉特征和语义特征投影到公共空间构建潜在语义,并分别重构视觉图像和所述类别对应的编码向量;
约束模块,用于设置标签松弛的可见类潜在语义分类器,对潜在语义进行约束;
计算模块,用于通过潜在语义分类器和双重图正则化自编码器模型建立双重判别图正则化自编码模型判别约束最小,获得零样本分类模型的目标函数,并进行迭代训练,得到训练好的零样本分类模型;
确定模块,用于通过训练好的零样本分类模型,获取样本图像的潜在语义编码,使用最邻近分类器对潜在语义编码进行分类。
9.根据权利要求8所述的一种基于双重自编码器的零样本图像分类装置,其特征在于,所述计算模块还包括:
第一计算模块,用于根据目标函数计算出损失函数值;
更新模块,优化模型并求解,更新模型参数;
判断模块,根据当前的损失函数值,判断是否收敛,若收敛则停止更新模型,否则继续进行模型更新;
第一确定模块,当模型已经收敛或是达到停止条件,则可确定最终的模型参数。
10.一种电子设备,其特征在于,所述设备包括:处理器和存储器,所述储存器中存储有程序代码,当所述程序代码被所述处理器执行时,所述处理器执行权利要求1-7任一项所述一种基于双重自编码器的零样本图像分类方法的步骤。
CN202110281868.3A 2021-03-16 2021-03-16 一种基于双重自编码器的零样本图像分类方法及装置 Active CN113111917B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110281868.3A CN113111917B (zh) 2021-03-16 2021-03-16 一种基于双重自编码器的零样本图像分类方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110281868.3A CN113111917B (zh) 2021-03-16 2021-03-16 一种基于双重自编码器的零样本图像分类方法及装置

Publications (2)

Publication Number Publication Date
CN113111917A true CN113111917A (zh) 2021-07-13
CN113111917B CN113111917B (zh) 2022-07-01

Family

ID=76711391

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110281868.3A Active CN113111917B (zh) 2021-03-16 2021-03-16 一种基于双重自编码器的零样本图像分类方法及装置

Country Status (1)

Country Link
CN (1) CN113111917B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115424096A (zh) * 2022-11-08 2022-12-02 南京信息工程大学 一种多视角零样本图像识别方法
CN116433977A (zh) * 2023-04-18 2023-07-14 国网智能电网研究院有限公司 未知类别图像分类方法、装置、计算机设备及存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180165554A1 (en) * 2016-12-09 2018-06-14 The Research Foundation For The State University Of New York Semisupervised autoencoder for sentiment analysis
CN109492662A (zh) * 2018-09-27 2019-03-19 天津大学 一种基于对抗自编码器模型的零样本分类方法
CN110580501A (zh) * 2019-08-20 2019-12-17 天津大学 一种基于变分自编码对抗网络的零样本图像分类方法
CN111274424A (zh) * 2020-01-08 2020-06-12 大连理工大学 一种零样本图像检索的语义增强哈希方法
US20200250540A1 (en) * 2018-12-29 2020-08-06 Dassault Systemes Machine-learning for 3d modeled object inference
WO2020238293A1 (zh) * 2019-05-30 2020-12-03 华为技术有限公司 图像分类方法、神经网络的训练方法及装置
CN112288091A (zh) * 2020-10-30 2021-01-29 西南电子技术研究所(中国电子科技集团公司第十研究所) 基于多模态知识图谱的知识推理方法
CN112364893A (zh) * 2020-10-23 2021-02-12 天津大学 一种基于数据增强的半监督零样本图像分类方法
CN112487193A (zh) * 2020-12-18 2021-03-12 贵州大学 一种基于自编码器的零样本图片分类方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180165554A1 (en) * 2016-12-09 2018-06-14 The Research Foundation For The State University Of New York Semisupervised autoencoder for sentiment analysis
CN109492662A (zh) * 2018-09-27 2019-03-19 天津大学 一种基于对抗自编码器模型的零样本分类方法
US20200250540A1 (en) * 2018-12-29 2020-08-06 Dassault Systemes Machine-learning for 3d modeled object inference
WO2020238293A1 (zh) * 2019-05-30 2020-12-03 华为技术有限公司 图像分类方法、神经网络的训练方法及装置
CN110580501A (zh) * 2019-08-20 2019-12-17 天津大学 一种基于变分自编码对抗网络的零样本图像分类方法
CN111274424A (zh) * 2020-01-08 2020-06-12 大连理工大学 一种零样本图像检索的语义增强哈希方法
CN112364893A (zh) * 2020-10-23 2021-02-12 天津大学 一种基于数据增强的半监督零样本图像分类方法
CN112288091A (zh) * 2020-10-30 2021-01-29 西南电子技术研究所(中国电子科技集团公司第十研究所) 基于多模态知识图谱的知识推理方法
CN112487193A (zh) * 2020-12-18 2021-03-12 贵州大学 一种基于自编码器的零样本图片分类方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
ELYOR KODIROV 等: "Semantic Autoencoder for Zero-Shot Learning", 《2017 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION》 *
YANG LIU 等: "Graph and Autoencoder Based Feature Extraction for Zero-shot Learning", 《PROCEEDINGS OF THE TWENTY-EIGHTH INTERNATIONAL JOINT CONFERENCE ON ARTIFICIAL INTELLIGENCE (IJCAI-19)》 *
冯耀功 等: "基于知识的零样本视觉识别综述", 《软件学报》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115424096A (zh) * 2022-11-08 2022-12-02 南京信息工程大学 一种多视角零样本图像识别方法
CN116433977A (zh) * 2023-04-18 2023-07-14 国网智能电网研究院有限公司 未知类别图像分类方法、装置、计算机设备及存储介质
CN116433977B (zh) * 2023-04-18 2023-12-05 国网智能电网研究院有限公司 未知类别图像分类方法、装置、计算机设备及存储介质

Also Published As

Publication number Publication date
CN113111917B (zh) 2022-07-01

Similar Documents

Publication Publication Date Title
WO2020182112A1 (zh) 一种图像区域定位的方法、模型训练的方法及相关装置
CN108280458B (zh) 群体关系类型识别方法及装置
CN111813532B (zh) 一种基于多任务机器学习模型的图像管理方法及装置
CN108304388A (zh) 机器翻译方法及装置
CN109543195A (zh) 一种文本翻译的方法、信息处理的方法以及装置
CN112069414A (zh) 推荐模型训练方法、装置、计算机设备及存储介质
WO2022016556A1 (zh) 一种神经网络蒸馏方法以及装置
CN112990390B (zh) 一种图像识别模型的训练方法、图像识别的方法及装置
CN113111917B (zh) 一种基于双重自编码器的零样本图像分类方法及装置
CN112287994A (zh) 伪标签处理方法、装置、设备及计算机可读存储介质
CN111914113A (zh) 一种图像检索的方法以及相关装置
CN110069715A (zh) 一种信息推荐模型训练的方法、信息推荐的方法及装置
CN113515942A (zh) 文本处理方法、装置、计算机设备及存储介质
CN113723378B (zh) 一种模型训练的方法、装置、计算机设备和存储介质
CN111611490A (zh) 资源搜索方法、装置、设备及存储介质
CN111709398A (zh) 一种图像识别的方法、图像识别模型的训练方法及装置
CN111914180B (zh) 基于图结构的用户特征确定方法、装置、设备及介质
CN113821589A (zh) 一种文本标签的确定方法及装置、计算机设备和存储介质
WO2023231753A1 (zh) 一种神经网络的训练方法、数据的处理方法以及设备
CN114328906A (zh) 一种多级类目的确定方法、模型训练的方法以及相关装置
CN114722937A (zh) 一种异常数据检测方法、装置、电子设备和存储介质
CN115879508A (zh) 一种数据处理方法及相关装置
CN114281936A (zh) 分类方法、装置、计算机设备及存储介质
CN116935188B (zh) 模型训练方法、图像识别方法、装置、设备及介质
CN112287070A (zh) 词语的上下位关系确定方法、装置、计算机设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant