CN112487193B - 一种基于自编码器的零样本图片分类方法 - Google Patents
一种基于自编码器的零样本图片分类方法 Download PDFInfo
- Publication number
- CN112487193B CN112487193B CN202011501875.1A CN202011501875A CN112487193B CN 112487193 B CN112487193 B CN 112487193B CN 202011501875 A CN202011501875 A CN 202011501875A CN 112487193 B CN112487193 B CN 112487193B
- Authority
- CN
- China
- Prior art keywords
- class
- encoder
- classifier
- vector
- classes
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Animal Behavior & Ethology (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于自编码器的零样本图片分类方法,构建了一个新的生成模型,来直接用生成式方法生成不可见类别的分类器向量。生成模型是一个基于图的自编码结构,其中,编码器用来学习每个类别的隐分布,解码器则用来依据隐分布信息来生成每个类的分类器向量。由于知识图谱允许类别之间共享统计强度,本发明利用结构化的知识图谱来表示类别之间的关系,并采用图卷积神经网络在类别之间迁移知识。不同于之前的生成式方法生成类别的视觉特征,本发明直接为不可见类生成分类器,从而避免现有的生成式方法消耗大量时间的问题,缩短训练耗时,提高图片分类精度,即高效且准确。
Description
技术领域
本发明属于图片分类技术领域,更为具体地讲,涉及一种基于自编码器的零样本图片分类方法。
背景技术
零样本学习的目标是在有标注的数据集上训练一个网络,使其既能识别参与训练的可见类别,同时能识别未参与训练的不可见类别。零样本学习的核心思想是将从可见类别获取到的知识迁移到不可见类别中。
现有的零样本学习方法可以粗略分类两类:基于嵌入的方法和基于生成式的方法。
基于嵌入的方法致力于学习一个共享的嵌入空间,将可见类和不可见类的信息映射到公共空间内,并在其中迁移知识。基于嵌入的方法的关键点是学习类别之间的隐式关系。然而,类别之间的关系是模糊的和不确定的,很难在公共的嵌入空间内学习到准确的类别之间的关系,导致知识迁移准确性较低,限制了嵌入方法的效果。
基于生成式的方法生成不可见类的视觉特征,通常该方法训练一个基于类别信息的条件生成器,利用生成的视觉特征来训练网络,从而将零样本分类问题转化为普通的分类问题。基于生成式的方法虽然能生成大量的视觉特征,一定程度上能解决基于嵌入方法的难题。但是训练一个好的生成网络,需要大量的运行时间,且用生成的样本来训练网络依然需要消耗大量的计算时间。而在现实中,新事物层出不穷,类别的数量无时无刻不在增加,且不可见类的数量是巨大的。当新类别出现后,需要重新训练生成网络,对时间的消耗是巨大的。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于自编码器的零样本图片分类方法,直接为不可见类生成视觉分类器,从而避免现有的生成式方法消耗大量时间的问题,缩短训练耗时,提高图片分类精度。
为实现上述发明目的,本发明基于自编码器的零样本图片分类方法,其特征在于,包括以下步骤:
(1)、编码类级语义特征
设计一个全连接图卷积网络作为编码器,采集类级别的语义特征矩阵C,并构建类别间的知识图谱A,然后利用编码器,将知识图谱A作为邻接矩阵对语义特征矩阵C进行编码,输出类别的隐分布特征矩阵Z:
(2)、解码每个隐分布特征(向量)
设计一个全连接图卷积网络作为解码器,以每个类别的隐分布向量作为输入,并为每一类生成一个分类器
其中,fi为类别i的分类器向量,Wh为图卷积网络第h层的参数矩阵,{Wh}表示参数矩阵集合;
(3)、极小化损失函数,训练自编码器
构建损失函数L:
其中,M是所有类别中可见类的数量,f′j为可见类中类别j的语义特征(向量)c'j经过编码器、解码器(编码器、解码器构成自编码器)得到的类别j的分类器向量,为可见类中类别j的真实分类器向量,λ为惩罚因子,qφ(z'j|c'j)是在类别j的语义特征(向量)c'j下类别j的隐分布特征zj的后验分布,pθ(z'j)为隐分布特征zj的先验分布,MSE(·||·)表示求两个向量的均方误差,DKL(·||·)表示求两个分布的KL散度;
通过端到端的方式,依据随机梯度下降算法更新编码器参数矩阵集合{Wk}、解码器参数矩阵集合{Wk}极小化损失函数L来训练自编码器;
(4)、零样本图片分类
4.1)、将所有N个类别的语义特征(向量)输入到自编码器中,得到每个类别的分类器向量fi,i=1,2,…N;
4.2)、用真实分类器向量对应的训练好的CNN(卷积神经网络)提取未知类别图片的视觉特征向量;
4.3)、将未知类别图片的视觉特征向量与步骤4.1)的每个类别的分类器向量fi,i=1,2,…N计算内积值;
4.4)、依据内积值大小,从大到小排列,内积值最大的分类器向量对应的类别就是图片的类别。
本发明的目的是这样实现的。
本发明基于自编码器的零样本图片分类方法,构建了一个新的生成模型,来直接用生成式方法生成不可见类别的分类器向量。生成模型是一个基于图的自编码结构,其中,编码器用来学习每个类别的隐分布,解码器则用来依据隐分布信息来生成每个类的分类器向量。由于知识图谱允许类别之间共享统计强度,本发明利用结构化的知识图谱来表示类别之间的关系,并采用图卷积神经网络在类别之间迁移知识。不同于之前的生成式方法生成类别的视觉特征,本发明直接为不可见类生成分类器,从而避免现有的生成式方法消耗大量时间的问题,缩短训练耗时,提高图片分类精度,即高效且准确。
附图说明
图1是本发明基于自编码器的零样本图片分类方法一种具体实施方式流程图;
图2是本发明中自编码器结构编解码构建分类器输出分类器向量的示意图。
具体实施方式
下面结合附图对本发明的具体实施方式进行描述,以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是,在以下的描述中,当已知功能和设计的详细描述也许会淡化本发明的主要内容时,这些描述在这里将被忽略。
图卷积网络(Graph convolutional networks(GCN))最早被用于处理弱监督分类问题。GCN是一个表现良好的分层传播规则,它源于谱图卷积的一阶近似。由于GCN能直接处理图结构数据,被广泛用于各种任务。给定节点的特征矩阵Hl和邻接矩阵A,扩增规则可以被定义为:
在本发明中,编码器、解码器都是一个全连接图卷积结构。具体而言,如图1所示,本发明基于自编码器的零样本图片分类方法,包括以下步骤:
步骤S1:编码类级语义特征
如图2所示,设计一个全连接图卷积网络作为编码器,编码器以类级的语义特征为输入,输出类别的隐分布特征。
具体地,采集类级别的语义特征矩阵C,并构建类别间的知识图谱A,然后利用编码器,将知识图谱A作为邻接矩阵对语义特征矩阵C进行编码,输出类别的隐分布特征矩阵Z:
步骤S2:解码每个隐分布特征(向量)
如图2所示,设计一个全连接图卷积网络作为解码器,通过编码器能获取到每个类别的隐分布向量。此处,本发明设计一个解码器来从隐分布向量中生成分类器。本发明设计一个全连接图卷积网络作为解码器。它以每个类别的隐分布向量作为输入,并为每一类别生成一个分类器,输出分类器向量。
具体地,以每个类别的隐分布向量作为输入,并为每一类生成一个分类器
其中,fi为类别i的分类器向量,Wh为图卷积网络第h层的参数矩阵,{Wh}表示参数矩阵集合。
步骤S3:极小化损失函数,训练自编码器
编码器、解码器构成自编码器。
在本发明中,自编码器是以一种弱监督的方式来训练的。损失是在可见类别对应的节点上计算得出的。为了清晰表示,让M表示可见类的数量,自编码器是通过端到端的方式、极小化损失函数来训练。
具体地,构建损失函数L:
其中,M是所有类别中可见类的数量,f′j为可见类中类别j的语义特征(向量)c'j经过编码器、解码器得到的类别j的分类器向量,为可见类中类别j的真实分类器向量,λ为惩罚因子,qφ(z'j|c'j)是在类别j的语义特征(向量)c'j下类别j的隐分布特征zj的后验分布,pθ(z'j)为隐分布特征zj的先验分布,MSE(·||·)表示求两个向量的均方误差,DKL(·||·)表示求两个分布的KL散度。
通过端到端的方式,依据随机梯度下降算法更新编码器参数矩阵集合{Wk}、解码器参数矩阵集合{Wk}极小化损失函数L来训练自编码器。
步骤S4:零样本图片分类
在预测(零样本图片分类)阶段,利用预先训练的CNN网络提取图片的视觉特征向量,然后用生成的分类器向量对其进行分类:将分类器向量和视觉特征向量进行内积,内积值最大的分类器向量对应的类别就是图片的类别。具体地,包括以下步骤:
步骤S4.1:获取每个类别的分类器向量
将所有N个类别的语义特征(向量)输入到自编码器中,得到每个类别的分类器向量fi,i=1,2,…N。
步骤S4.2:获取未知类别图片的视觉特征向量
用真实分类器向量对应的训练好的CNN(卷积神经网络)提取未知类别图片的视觉特征向量x。
步骤S4.3:计算内积值
将未知类别图片的视觉特征向量x与步骤4.1)的每个类别的分类器向量fi,i=1,2,…N计算内积值si:
si=fi T·x,i=1,2,...,N
步骤S4.4:依据内积值得到图片类别
将内积值si作为分类预测分数,依据内积值大小,从大到小排列,内积值最大的分类器向量对应的类别i*就是图片的类别。
测试
我们在ImageNet-21K数据集上对本发明进行测试。我们采用Hit@k作为评价指标,它表示在前k个结果中有正确类别的图片所占的比例。ImageNet-21K包含三个子集,2-hops,3-hops以及All。2-hops包含1549个不可见类别,3-hops包含7800个不可见类别,all数据集包含20841个不可见类别。我们在ImageNet-1K数据集上进行训练,在三个子集上进行零样本分类测试。在测试时,分两种零样本设定,第一种是传统设定,测试候选类仅包含不可见类,第二种设定是广义零样本设定,测试候选类别既包含可见类也包含不可见类别。测试结果分别呈现在表1和表2中。
表1
表2
表1是在传统设定下的实验结果,表2是在广义设定下的实验结果。
从表1、2中可以看出,我们的方法均优于之前的方法。
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
Claims (1)
1.一种基于自编码器的零样本图片分类方法,其特征在于,包括以下步骤:
(1)、编码类级语义特征
设计一个全连接图卷积网络作为编码器,采集类级别的语义特征矩阵C,并构建类别间的知识图谱A,然后利用编码器,将知识图谱A作为邻接矩阵对语义特征矩阵C进行编码,输出类别的隐分布特征矩阵Z:
(2)、解码每个隐分布特征向量
设计一个全连接图卷积网络作为解码器,以每个类别的隐分布向量作为输入,并为每一类生成一个分类器
其中,fi为类别i的分类器向量,Wh为图卷积网络第h层的参数矩阵,{Wh}表示参数矩阵集合;
(3)、极小化损失函数,训练自编码器
构建损失函数L:
其中,M是所有类别中可见类的数量,f′j为可见类中类别j的语义特征向量c'j经过构成自编码器的编码器、解码器得到的类别j的分类器向量,为可见类中类别j的真实分类器向量,λ为惩罚因子,qφ(z'j|c'j)是在类别j的语义特征向量c'j下类别j的隐分布特征向量z'j的后验分布,pθ(z'j)为隐分布特征向量z'j的先验分布,MSE(·,·)表示求两个向量的均方误差,DKL(·||·)表示求两个分布的KL散度;
通过端到端的方式,依据随机梯度下降算法更新编码器参数矩阵集合{Wk}、解码器参数矩阵集合{Wh}极小化损失函数L来训练自编码器;
(4)、零样本图片分类
4.1)、将所有N个类别的语义特征向量输入到自编码器中,得到每个类别的分类器向量fi,i=1,2,…N;
4.2)、用真实分类器向量对应的训练好的CNN(卷积神经网络)提取未知类别图片的视觉特征向量;
4.3)、将未知类别图片的视觉特征向量与步骤4.1)的每个类别的分类器向量fi,i=1,2,…N计算内积值;
4.4)、依据内积值大小,从大到小排列,内积值最大的分类器向量对应的类别就是图片的类别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011501875.1A CN112487193B (zh) | 2020-12-18 | 2020-12-18 | 一种基于自编码器的零样本图片分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011501875.1A CN112487193B (zh) | 2020-12-18 | 2020-12-18 | 一种基于自编码器的零样本图片分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112487193A CN112487193A (zh) | 2021-03-12 |
CN112487193B true CN112487193B (zh) | 2022-11-22 |
Family
ID=74914765
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011501875.1A Active CN112487193B (zh) | 2020-12-18 | 2020-12-18 | 一种基于自编码器的零样本图片分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112487193B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113111917B (zh) * | 2021-03-16 | 2022-07-01 | 重庆邮电大学 | 一种基于双重自编码器的零样本图像分类方法及装置 |
CN113470812B (zh) * | 2021-06-18 | 2023-08-22 | 浙江大学 | 基于图卷积神经网络和迭代阈值收缩算法的心脏跨膜电位重建方法 |
CN113822183B (zh) * | 2021-09-08 | 2024-02-27 | 北京科技大学 | 基于au-emo关联与图神经网络的零样本表情识别方法及系统 |
CN114383845B (zh) * | 2022-01-06 | 2024-08-27 | 合肥工业大学 | 一种基于嵌入式零样本学习模型的轴承复合故障诊断方法 |
CN115147607A (zh) * | 2022-09-05 | 2022-10-04 | 南京信息工程大学 | 一种基于凸优化理论的抗噪声零样本图像分类方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108875818A (zh) * | 2018-06-06 | 2018-11-23 | 西安交通大学 | 基于变分自编码机与对抗网络结合的零样本图像分类方法 |
CN109492662A (zh) * | 2018-09-27 | 2019-03-19 | 天津大学 | 一种基于对抗自编码器模型的零样本分类方法 |
CN110222771A (zh) * | 2019-06-10 | 2019-09-10 | 成都澳海川科技有限公司 | 一种零样本图片的类别识别方法 |
CN110580501A (zh) * | 2019-08-20 | 2019-12-17 | 天津大学 | 一种基于变分自编码对抗网络的零样本图像分类方法 |
WO2020192442A1 (zh) * | 2019-03-26 | 2020-10-01 | 中国科学技术大学 | 利用少数标注图像生成分类器的方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11205103B2 (en) * | 2016-12-09 | 2021-12-21 | The Research Foundation for the State University | Semisupervised autoencoder for sentiment analysis |
-
2020
- 2020-12-18 CN CN202011501875.1A patent/CN112487193B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108875818A (zh) * | 2018-06-06 | 2018-11-23 | 西安交通大学 | 基于变分自编码机与对抗网络结合的零样本图像分类方法 |
CN109492662A (zh) * | 2018-09-27 | 2019-03-19 | 天津大学 | 一种基于对抗自编码器模型的零样本分类方法 |
WO2020192442A1 (zh) * | 2019-03-26 | 2020-10-01 | 中国科学技术大学 | 利用少数标注图像生成分类器的方法 |
CN110222771A (zh) * | 2019-06-10 | 2019-09-10 | 成都澳海川科技有限公司 | 一种零样本图片的类别识别方法 |
CN110580501A (zh) * | 2019-08-20 | 2019-12-17 | 天津大学 | 一种基于变分自编码对抗网络的零样本图像分类方法 |
Non-Patent Citations (3)
Title |
---|
Graph-based Variational Auto-Encoder for Generalized Zero-Shot Learning;Jiwei Wei等;《MMAsia"20: Proceedings of the 2nd ACM International Conference on Multimedia in Asia》;20210503;1-7 * |
Semantic_Autoencoder_for_Zero-Shot_Learning;Elyor Kodirov等;《2017 IEEE Conference on Computer Vision and Pattern Recognition》;20171109;4447-4456 * |
度量学习改进语义自编码零样本分类算法;陈祥凤 等;《北京邮电大学学报》;20180831;第41卷(第4期);69-75 * |
Also Published As
Publication number | Publication date |
---|---|
CN112487193A (zh) | 2021-03-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112487193B (zh) | 一种基于自编码器的零样本图片分类方法 | |
CN112784092B (zh) | 一种混合融合模型的跨模态图像文本检索方法 | |
CN109284506B (zh) | 一种基于注意力卷积神经网络的用户评论情感分析系统及方法 | |
CN110046252B (zh) | 一种基于注意力机制神经网络与知识图谱的医疗文本分级方法 | |
CN111127146B (zh) | 基于卷积神经网络与降噪自编码器的信息推荐方法及系统 | |
CN109753571B (zh) | 一种基于二次主题空间投影的场景图谱低维空间嵌入方法 | |
CN113051399B (zh) | 一种基于关系型图卷积网络的小样本细粒度实体分类方法 | |
US11334791B2 (en) | Learning to search deep network architectures | |
CN112417289B (zh) | 一种基于深度聚类的资讯信息智能推荐方法 | |
CN111368920A (zh) | 基于量子孪生神经网络的二分类方法及其人脸识别方法 | |
CN112699222B (zh) | 基于量子启发式神经网络的文本分类方法及邮件分类方法 | |
WO2018133596A1 (zh) | 一种基于名义属性的连续型特征构造方法 | |
CN112784031B (zh) | 一种基于小样本学习的客服对话文本的分类方法和系统 | |
CN113190654A (zh) | 一种基于实体联合嵌入和概率模型的知识图谱补全方法 | |
CN110110372B (zh) | 一种用户时序行为自动切分预测方法 | |
CN116304061B (zh) | 基于层次文本图结构学习的文本分类方法、装置及介质 | |
CN113869424A (zh) | 基于双通道图卷积网络的半监督节点分类方法 | |
CN110874392B (zh) | 基于深度双向注意力机制的文本网络信息融合嵌入方法 | |
CN114036298B (zh) | 一种基于图卷积神经网络与词向量的节点分类方法 | |
CN111985680A (zh) | 基于胶囊网络与时序的刑事多罪名预测方法 | |
Lonij et al. | Open-world visual recognition using knowledge graphs | |
Wu et al. | Discovering Mathematical Expressions Through DeepSymNet: A Classification-Based Symbolic Regression Framework | |
CN113191150A (zh) | 一种多特征融合的中文医疗文本命名实体识别方法 | |
CN116013407A (zh) | 一种基于语言模型的性质解耦蛋白质生成方法 | |
Zhu et al. | A hybrid model for nonlinear regression with missing data using quasilinear kernel |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |