CN113177587A - 基于主动学习和变分自编码器的广义零样本目标分类方法 - Google Patents

基于主动学习和变分自编码器的广义零样本目标分类方法 Download PDF

Info

Publication number
CN113177587A
CN113177587A CN202110459763.2A CN202110459763A CN113177587A CN 113177587 A CN113177587 A CN 113177587A CN 202110459763 A CN202110459763 A CN 202110459763A CN 113177587 A CN113177587 A CN 113177587A
Authority
CN
China
Prior art keywords
encoder
classifier
layer
sample
variational
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110459763.2A
Other languages
English (en)
Other versions
CN113177587B (zh
Inventor
李晓
翟之博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN202110459763.2A priority Critical patent/CN113177587B/zh
Publication of CN113177587A publication Critical patent/CN113177587A/zh
Application granted granted Critical
Publication of CN113177587B publication Critical patent/CN113177587B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques

Abstract

本发明提出了一种基于主动学习和变分自编码器的广义零样本目标分类方法,用于解决现有技术中存在的由于未知类监督信息丢失导致的偏置问题和从高维特征到低维空间投影所导致的低维特征聚集问题,有效地提高了分类准确率,实现步骤为:获取训练样本集Ptrain和测试样本集Ptest;构建基于变分自编码器的广义零样本分类模型H;对基于变分自编码器的广义零样本分类模型H中的变分自编码器f和非线性分类器fclassifier进行迭代训练;获取广义零样本的目标分类结果。本发明可以实现对缺乏训练数据的稀有物种分类、生物医学图像识别等领域。

Description

基于主动学习和变分自编码器的广义零样本目标分类方法
技术领域
本发明属于零样本图像分类技术领域,涉及一种广义零样本目标分类方法,具体涉及一种基于主动学习和变分自编码器的广义零样本目标分类方法,可用于稀有物种分类、生物医学图像识别等领域。
背景技术
目标分类作为人工智能主要的研究方向之一,随着人工智能的蓬勃发展,目标分类已经广泛应用于缺陷检测、无人驾驶、医学诊断等人工智能领城。当前目标分类的研究主要针对图像的分类问题。但随着社交网络和社会标签系统的快速发展,新的标签和概念不断涌现,随之而来的是人们如何使用这些新标签对图像进行标记的问题,即广义零样本目标分类问题。在广义零样本目标分类问题中,已知类样本集和未知类样本集属于不同的目标类别,并且对于未知类样本集中样本没有带标记的训练样本可用,其目的是实现一个从已知类样本或未知类样本到已知类和未知类所属类别的分类。
现有的目标分类学习方法大多是监督学习方法,需要大量标记信息才能进行有效分类,因此不能适用于这种没有标记信息的情况,而无监督的方法虽然可行但却不能充分利用己有的相关领域中的信息,来提高目标领城中的分类准确率。针对上述情况,研究者提出了半监督学习,半监督学习一种是将监督学习和无监督学习相结合的学习方法,主要考虑的是如何利用少量的标注样本和大量的未标注样本进行训练和分类的问题。
现有的广义零样本目标分类方法大多采用的是半监督的方法,通过建立视觉特征和监督信息之间的联系来实现新目标的分类,由于未知类缺失有效的监督信息,导致现有的广义零样本目标分类方法都存在着较强的偏置问题,即在训练阶段,视觉特征通常被投影到由已知类确定的子空间中的几个固定的点,这样就导致了在测试阶段中,测试数据集中的新类图像倾向于被分到已知类当中,除此之外,广义零样本学习的方法通常会把视觉特征空间和语义空间投影到一个公共的子空间,通过拉近视觉特征和对应的语义在子空间中投影点的距离来减小两个空间的结构差异,但这种方式往往使得不同类别样本在子空间出现聚集的问题,即当将高维向量投影到低维空间时,会出现聚集现象,这样的投影减小了样本方差,从而导致投影点聚集成中心点,因而子空间的判别性降低,分类准确率也随之下降。
例如Edgar Schonfeld等人发表的名称为“Generalized Zero-and Few-ShotLearning via Aligned Variational Autoencoders”(Proceedings of the IEEE/CVFConference on Computer Vision and Pattern Recognition.2019:8247-8255)的论文中,提出了一种基于分布对齐和交叉重建对齐的变分自编码器的广义零样本目标分类方法,该方法通过构建两个变分自编码器,分别将视觉特征和语义特征投影至相近的子空间。在分类时,先通过编码器将样本视觉特征投影至子空间,再用分类器对子空间特征进行分类,但该方法中并没有解决由于未知类监督信息缺失带来的偏置问题和从高维特征向低维空间投影所带来的聚集性问题,即子空间并不具有较强的判别性,因而导致该方法的分类准确率较低。
主动学习方法能够使得在模型在训练的过程中主动地采样出“难”分类的样本数据,通过人为地对样本数据添加标注信息,然后将人工标注得到的数据再次使用半监督学习模型进行训练,这种主动采样并添加标注信息的操作可以有效消除广义零样本问题中由于未知类监督信息丢失带来的偏置问题。
发明内容
本发明的目的在于克服上述现有技术存在的缺陷,提出了一种基于主动学习和变分自编码器的广义零样本目标分类方法,用于解决现有技术存在的广义零样本目标分类准确率较低的技术问题。
为实现上述目的,本发明采取的技术方案包括如下步骤:
(1)获取训练样本集Ptrain和测试样本集Ptest
将从零样本图像集O中获取的包含ns个已知目标类别的n1幅图像以及每幅已知类别图像的目标类别标签组成的已知类训练样本集Ptrain s,和从O中获取的包含nu个未知目标类别的n2幅图像组成未知类训练样本集Ptrain u,组成训练样本集Ptrain,同时将从O中获取的包含nu个未知目标类别的m幅图像组成测试样本集Ptest,其中,ns≥10,n1≥1000,nu≥10,n2≥1000,m≥1000,且n1+n2>m;
(2)构建基于变分自编码器的广义零样本分类模型H:
(2a)构建基于变分自编码器的广义零样本分类模型H的结构:
构建包括变分自编码器f和非线性分类器fclassifier的广义零样本分类模型的结构,其中变分自编码器由并行连接的第一变分自编码器VAE和第二变分自编编码器CVAE组成,VAE由顺次连接的第一编码器f1 encoder和第一解码器f1 decoder组成,CVAE由顺次连接的第二编码器f2 encoder和第二解码器f2 decoder组成,非线性分类器fclassifier的输入与第一编码器f1 encoder的输出相连;
(2b)定义广义零样本分类模型H的损失函数:
定义广义零样本分类模型H中变分自编码器f的损失函数为L,非线性分类器fclassifier的损失函数LClassifier
L=LVAE+LCVAE+λLDA
Figure BDA0003041971510000033
Figure BDA0003041971510000034
Figure BDA0003041971510000031
其中,LVAE表示第一变分自编码器VAE的损失函数,LCVAE表示第二变分自编编码器CVAE的损失函数,λ表示权重系数,λ∈(0,1),LDA表示VAE和CVAE的对齐损失函数,
Figure BDA0003041971510000032
μ1和μ2分别表示VAE和CVAE输出的隐含分布的均值,σ1 2和σ2 2分别表示VAE和CVAE输出的方差,||·||2表示向量二范数,||·||Frob表示矩阵的Frobenius范数,LClassifier表示非线性分类器fclassifier的损失函数,KL(·)为概率分布间的Kullback-Leibler散度,N(μ11 2)表示均值为μ1方差为σ1 2的正态分布,N(μ22 2)表示均值为μ2方差为σ2 2的正态分布,
Figure BDA0003041971510000041
Figure BDA0003041971510000042
分别表示VAE和CVAE的重建损失函数,
Figure BDA0003041971510000043
xi表示第i个已知类图像特征,
Figure BDA0003041971510000044
Figure BDA0003041971510000045
分别表示VAE和CVAE对xi的重建结果,Σ表示求和操作,yj表示训练样本集Ptrain中第j类样本的标签,pj表示xi被分类为yj的概率;
(3)对基于变分自编码器的广义零样本分类模型H中的变分自编码器f和非线性分类器fclassifier进行迭代训练:
(3a)将训练样本集Ptrain作为残差网络模型的输入进行特征提取,得到已知类训练样本集Ptrain s对应的图像特征集
Figure BDA0003041971510000046
和未知类训练样本集Ptrain u对应的图像特征集
Figure BDA0003041971510000047
(3b)初始化迭代次数为k,最大迭代次数为K,K≥30,并令k=1;
(3c)将图像特征集P'train s作为广义零样本分类模型H的输入,变分自编码器f中的第一变分自编码器VAE所包含的第一编码器f1 encoder对每个已知类图像特征xi进行编码,得到隐含分布的均值
Figure BDA0003041971510000048
和方差
Figure BDA0003041971510000049
非线性分类器fclassifier
Figure BDA00030419715100000410
进行分类,得到已知类图像特征xi所属各类的概率
Figure BDA00030419715100000411
CVAE所包含的第二编码器f2 encoder对每个已知类图像特征xi和特征标签yi进行编码,得到隐含分布的均值
Figure BDA00030419715100000412
和方差
Figure BDA00030419715100000413
(3d)第一解码器f1 decoder对隐含变量
Figure BDA00030419715100000414
进行解码,得到第一图像重建特征
Figure BDA00030419715100000415
同时第二解码器f2 decoder对隐含变量
Figure BDA00030419715100000416
进行解码,得到第二图像重建特征
Figure BDA00030419715100000417
其中,
Figure BDA00030419715100000418
z1和z2表示从随机高斯分布z~N(0,1)中采样得到的高斯噪声;
(3e)采用变分自编码器f的损失函数为L,并通过第一编码器f1 encoder编码的
Figure BDA00030419715100000419
Figure BDA0003041971510000051
第二编码器f2 encoder编码的
Figure BDA0003041971510000052
Figure BDA0003041971510000053
以及第一解码器f1 decoder解码的
Figure BDA0003041971510000054
和第二解码器f2 decoder解码的
Figure BDA0003041971510000055
计算变分自编码器的损失值L*,同时采用非线性分类器fclassifier的损失函数LClassifier,并通过非线性分类器fclassifier的分类结果
Figure BDA0003041971510000056
计算非线性分类器的损失值
Figure BDA0003041971510000057
(3f)采用反向传播法,并通过L*计算L的梯度
Figure BDA0003041971510000058
同时通过
Figure BDA0003041971510000059
计算LClassifier的梯度
Figure BDA00030419715100000510
然后采用梯度下降法,通过
Figure BDA00030419715100000511
Figure BDA00030419715100000512
分别对变分自编码器f和非线性分类器fclassifier的权值参数进行更新;
(3g)将图像样本特征集P'train u作为第一变分自编码器VAE的输入,第一编码器f1 encoder对每个未知类图像特征uj进行编码,采用非线性分类器fclassifier对编码结果
Figure BDA00030419715100000513
进行分类,得到uj所属各类的概率
Figure BDA00030419715100000514
(3h)通过
Figure BDA00030419715100000515
中概率的最大值
Figure BDA00030419715100000516
和次大值
Figure BDA00030419715100000517
计算
Figure BDA00030419715100000518
的不确定性
Figure BDA00030419715100000519
并将ui
Figure BDA00030419715100000520
Figure BDA00030419715100000521
组合为三元组集合
Figure BDA00030419715100000522
Figure BDA00030419715100000523
的计算公式为:
Figure BDA00030419715100000524
(3i)对三元组集合S1进行聚类,并对聚类获取的nu个类别中的三元组中的不确定性按照由小到大的顺序进行排列,然后选取每个类别对应的不确定性集合中前nadd个未知类图像特征uj,组成待标注样本集S2,其中nadd>0;
(3j)对S2中的未知类图像特征uj添加标注信息后加入P'train s中,同时从P'train u中删除S2中的uj,并判断k>K是否成立,若是,得到训练好的广义零样本分类模型H*,否则,令k=k+1,并执行步骤(3c);
(4)获取广义零样本的目标分类结果:
(4a)将测试样本集Ptest作为残差网络模型的输入进行特征提取,得到未知类测试样本集Ptest的图像特征集P'test={t1,…,tk,…,tm},其中tk为P'test中第k个样本,m为P'test中的样本个数;
(4b)将P'test作为训练好的广义零样本分类模型H*的输入,第一编码器f1 encoder对每个未知类图像特征tk进行编码,得到隐含分布的均值
Figure BDA0003041971510000061
非线性分类器fclassifier
Figure BDA0003041971510000062
进行分类,得到m个测试样本的分类结果。
本发明与现有技术相比,具有如下优点:
1.本发明由于在对广义零样本分类模型进行训练的过程中,通过计算非线性分类器分类得到每个图像特征所属各类的概率的不确定性,并对包括不确定性的三元组集合进行聚类,再从聚类中选取对分类准确率提升最有帮助的样本,即具有最大的不确定性的样本进行标注,经过多次迭代,实现对广义零样本分类模型的主动学习,消除了广义零样本目标分类中未知类监督信息缺失所导致的偏置问题,与现有技术相比,有效提高了目标分类准确率。
2.本发明在对广义零样本分类模型进行训练的过程中,第一编码器对每个已知类图像特征进行编码,第二编码器对每个已知类图像特征和特征标签进行编码,并通过两个编码器的编码结果,以及两个解码器的解码结果来计算变分自编码器的损失值,然后通过变分自编码器的损失值计算出的梯度实现对变分自编码器权值的更新,由于第二编码器输入的已知类图像特征添加有特征标签,能够实现将图像特征映射到更具判别性的子空间中,且因为两个编码器为同时训练,第一编码器也具有将图像特征映射到更具判别性的子空间的特性,与现有技术中的编码器接受输入为不带监督信息的图像特征相比,解决了从高维特征向低维空间投影时出现的聚集问题,有效地降低了目标分类的难度,提高了目标分类准确率。
附图说明
图1是本发明的实现流程图。
图2是本发明基于主动学习和变分自编码器的广义零样本目标分类模型的结构示意图。
图3是本发明在AWA1数据集下分类准确率随迭代次数与采样方式变化的结果图。
图4是本发明在AWA2数据集下分类准确率随迭代次数与采样方式变化的结果图。
图5是本发明在CUB1数据集下分类准确率随迭代次数与采样方式变化的结果图。
图6是本发明在APY数据集下分类准确率随迭代次数与采样方式变化的结果图。
具体实施方式
以下结合附图和具体实施例,对本发明作进一步详细描述。
步骤1,获取训练样本集Ptrain和测试样本集Ptest
将从零样本图像集O中获取的包含ns个已知目标类别的n1幅图像以及每幅已知类别图像的目标类别标签组成的已知类训练样本集Ptrain s,和从O中获取的包含nu个未知目标类别的n2幅图像组成未知类训练样本集Ptrain u,组成训练样本集Ptrain,同时将从O中获取的包含nu个未知目标类别的m幅图像组成测试样本集Ptest,本实施例中,零样本图像集O为AWA1数据集,ns=40,n1=17060,nu=10,n2=4251,m=9164,且满足n1+n2>m;
步骤2,构建基于主动学习和变分自编码器的广义零样本目标分类模型H:
(2a)构建如图2所示的基于主动学习和变分自编码器的广义零样本目标分类模型H的结构:
构建包括变分自编码器f和非线性分类器fclassifier的广义零样本分类模型的结构,其中变分自编码器由并行连接的第一变分自编码器VAE和第二变分自编编码器CVAE组成,VAE由顺次连接的第一编码器f1 encoder和第一解码器f1 decoder组成,CVAE由顺次连接的第二编码器f2 encoder和第二解码器f2 decoder组成。f1 encoder的具体结构设置为,第一层为d1×d2的全连接层,第二层为ReLU层,第三层为d2×hiden_d的全连接层,第四层为ReLU层;f2 encoder的具体结构设置为,第一层为d3×d4的全连接层,第二层为ReLU层,第三层为d4×hiden_d的全连接层,第四层为ReLU层;f1 decoder和f2 decoder的具体结构设置为,第一层为hiden_d×d5的全连接层,第二层为ReLU层,第三层为d5×d1的全连接层,第四层为ReLU层;同时第一编码器f1 encoder的输出与非线性分类器fclassifier的输入相连,fclassifier的具体结构设置为,第一层为d6×d7的全连接层,第二层为非线性层,第三层为d7×(ns+nu)全连接层,本实施例中,d1,d2,d3,d4,d5,d6,d7,hiden_d分别为对应全连接层的神经元个数,d1=2048,d2=1540,hiden_d=128,d3=2098,d4=1640,d5=1540,d6=64,d7=128。
(2b)定义广义零样本分类模型H的损失函数:
定义广义零样本分类模型H中变分自编码器f的损失函数为L,非线性分类器fclassifier的损失函数LClassifier
L=LVAE+LCVAE+λLDA
Figure BDA0003041971510000088
Figure BDA0003041971510000089
Figure BDA0003041971510000081
其中,LVAE表示第一变分自编码器VAE的损失函数,LCVAE表示第二变分自编编码器CVAE的损失函数,λ表示权重系数,λ∈(0,1),LDA表示VAE和CVAE的对齐损失函数,
Figure BDA0003041971510000082
μ1和μ2分别表示VAE和CVAE输出的隐含分布的均值,σ1 2和σ2 2分别表示VAE和CVAE输出的方差,||·||2表示向量二范数,||·||Frob表示矩阵的Frobenius范数,LClassifier表示非线性分类器fclassifier的损失函数,KL(·)为概率分布间的Kullback-Leibler散度,N(μ11 2)表示均值为μ1方差为σ1 2的正态分布,N(μ22 2)表示均值为μ2方差为σ2 2的正态分布,
Figure BDA0003041971510000083
Figure BDA0003041971510000084
分别表示VAE和CVAE的重建损失函数,
Figure BDA0003041971510000085
xi表示第i个已知类图像特征,
Figure BDA0003041971510000086
Figure BDA0003041971510000087
分别表示VAE和CVAE对xi的重建结果,Σ表示求和操作,yj表示训练样本集Ptrain中第j类样本的标签,pj表示xi被分类为yj的概率,本实施例中,λ=0.7;
其中第二编码器的输入为带监督信息的图像特征,能够实现将图像特征映射到更具判别性的子空间中,且因为两个编码器为同时训练,对对齐损失函数LDA进行优化可以拉近图像特征在子空间投影的距离,从而使得第一编码器也具有将图像特征映射到更具判别性的子空间的特性,与现有技术中的编码器接受输入为不带监督信息的图像特征相比,解决了从高维特征向低维空间投影时出现的聚集问题,有效地降低了目标分类的难度,提高了目标分类准确率。
步骤3,对基于变分自编码器的广义零样本分类模型H中的变分自编码器f和非线性分类器fclassifier进行迭代训练:
(3a)将训练样本集Ptrain作为残差网络模型的输入进行特征提取,得到已知类训练样本集Ptrain s对应的图像特征集
Figure BDA0003041971510000091
和未知类训练样本集Ptrain u对应的图像特征集
Figure BDA0003041971510000092
(3b)初始化迭代次数为k,最大迭代次数为K,K≥30,并令k=1,本实施例中,K=30;
(3c)将图像特征集P'train s作为广义零样本分类模型H的输入,变分自编码器f中的第一变分自编码器VAE所包含的第一编码器f1 encoder对每个已知类图像特征xi进行编码,得到隐含分布的均值
Figure BDA0003041971510000093
和方差
Figure BDA0003041971510000094
非线性分类器fclassifier
Figure BDA0003041971510000095
进行分类,得到已知类图像特征xi所属各类的概率
Figure BDA0003041971510000096
CVAE所包含的第二编码器f2 encoder对每个已知类图像特征xi和特征标签yi进行编码,得到隐含分布的均值
Figure BDA0003041971510000097
和方差
Figure BDA0003041971510000098
其中f1 encoder接受的输入为不带标签的图像特征,f2 encoder接受的输入为带标签的图像特征,因而f2 encoder可以学习到一个从图像特征到一个更具判别性的子空间的映射,通过对f1 encoder和f2 encoder共同训练能够使得f1 encoder学习到与f2 encoder相同的映射,可以解决高维特征向低维空间投影时出现的聚集问题,该判别性子空间可以提高目标分类的准确率。
(3d)第一解码器f1 decoder对隐含变量
Figure BDA0003041971510000101
进行解码,得到第一图像重建特征
Figure BDA0003041971510000102
同时第二解码器f2 decoder对隐含变量
Figure BDA0003041971510000103
进行解码,得到第二图像重建特征
Figure BDA0003041971510000104
其中,
Figure BDA0003041971510000105
z1和z2表示从随机高斯分布z~N(0,1)中采样得到的高斯噪声;
(3e)采用变分自编码器f的损失函数为L,并通过第一编码器f1 encoder编码的
Figure BDA0003041971510000106
Figure BDA0003041971510000107
第二编码器f2 encoder编码的
Figure BDA0003041971510000108
Figure BDA0003041971510000109
以及第一解码器f1 decoder解码的
Figure BDA00030419715100001010
和第二解码器f2 decoder解码的
Figure BDA00030419715100001011
计算变分自编码器的损失值L*,同时采用非线性分类器fclassifier的损失函数LClassifier,并通过非线性分类器fclassifier的分类结果
Figure BDA00030419715100001012
计算非线性分类器的损失值
Figure BDA00030419715100001013
(3f)采用反向传播法,并通过L*计算L的梯度
Figure BDA00030419715100001014
同时通过
Figure BDA00030419715100001015
计算LClassifier的梯度
Figure BDA00030419715100001016
然后采用梯度下降法,通过
Figure BDA00030419715100001017
Figure BDA00030419715100001018
分别对变分自编码器f和非线性分类器fclassifier的权值参数进行更新;
(3g)将图像样本特征集P'train u作为第一变分自编码器VAE的输入,第一编码器f1 encoder对每个未知类图像特征uj进行编码,采用非线性分类器fclassifier对编码结果
Figure BDA00030419715100001019
进行分类,得到uj所属各类的概率
Figure BDA00030419715100001020
(3h)通过
Figure BDA00030419715100001021
中概率的最大值
Figure BDA00030419715100001022
和次大值
Figure BDA00030419715100001023
计算
Figure BDA00030419715100001024
的不确定性
Figure BDA00030419715100001025
并将ui
Figure BDA00030419715100001026
Figure BDA00030419715100001027
组合为三元组集合
Figure BDA00030419715100001028
Figure BDA00030419715100001029
的计算公式为:
Figure BDA00030419715100001030
(3i)对三元组集合S1进行聚类,并对聚类获取的nu个类别中的三元组中的不确定性按照由小到大的顺序进行排列,然后选取每个类别对应的不确定性集合中前nadd个未知类图像特征uj,组成待标注样本集S2,本实施例中,nadd=1;
其中从每个聚类中选取前nadd个未知类图像特征uj可以保证模型可以主动选择出对分类准确率提升最有帮助的样本,从而有效地提高分类准确率。
(3j)对S2中的未知类图像特征uj添加标注信息后加入P'train s中,同时从P'train u中删除S2中的uj,并判断k>K是否成立,若是,得到训练好的广义零样本分类模型H*,否则,令k=k+1,并执行步骤(3c);
步骤(3h)至(3j)为主动学习过程,其中通过对S2中未知类图像特征添加标注信息,可以消除广义零样本目标分类中未知类监督信息缺失所导致的偏置问题,进而提高分类准确率。
步骤4,获取广义零样本的目标分类结果:
(4a)将测试样本集Ptest作为残差网络模型的输入进行特征提取,得到未知类测试样本集Ptest的图像特征集P'test={t1,…,tk,…,tm},其中tk为P'test中第k个样本,m为P'test中的样本个数;
(4b)将P'test作为训练好的广义零样本分类模型H*的输入,第一编码器f1 encoder对每个未知类图像特征tk进行编码,得到隐含分布的均值
Figure BDA0003041971510000111
非线性分类器fclassifier
Figure BDA0003041971510000112
进行分类,得到m个测试样本的分类结果。
下面结合仿真实验,对本发明的技术效果作进一步的说明。
1.仿真条件和内容:
仿真实验在CPU为AMD r7 3700x、GPU为NVIDIA 2070super、内存16G的Microsoftwindows 10系统上使用Python仿真,实验使用的深度学习框架为Pytorch。
仿真1:本发明在数据集AWA1、AWA2、APY、CUB1上分别用随机采样和主动学习采样两种方案进行对比仿真,其结果分别如图3、图4、图5、图6所示。
仿真2:对本发明与现有的基于分布对齐和交叉重建对齐的变分自编码器的广义零样本目标分类方法的分类准确率进行对比仿真,其结果如表1所示。
表1
Figure BDA0003041971510000121
2.仿真结果分析:
参照图3至图6,在不同数据集上对比了随机采样与主动学习采样两种策略随迭代次数增加对识别率提升的影响,横坐标为迭代次数,纵坐标为未知类目标的分类准确率。
参照图3,从图3中可以看出,模型由于采用了主动学习的采样方法,未知类的目标分类准确率从迭代次数第10次的14%提升到了迭代次数第30次的63%,而当模型采用随机采样方法时,未知类的目标分类准确率从迭代次数第10次的12%只提升到了迭代次数第30次的19%。
参照图4,从图4中可以看出,模型由于采用了主动学习的采样方法,未知类的目标分类准确率从迭代次数第3次的0%提升到了迭代次数第30次的54%,而当模型采用随机采样方法时,未知类的目标分类准确率从迭代次数第3次的0%只提升到了迭代次数第30次的18%;
参照图5,从图5中可以看出,模型由于采用了主动学习的采样方法,未知类的目标分类准确率从迭代次数第4次的0%提升到了迭代次数第30次的60%,而当模型采用随机采样方法时,未知类的目标分类准确率从迭代次数第4次的0%只提升到了迭代次数第30次的37%;
参照图6,从图6中可以看出,模型由于采用了主动学习的采样方法,未知类的目标分类准确率从迭代次数第9次的8%提升到了迭代次数第30次的62%,而当模型采用随机采样方法时,未知类的目标分类准确率从迭代次数第9次的8%只提升到了迭代次数第30次的46%。
从图3到图6可以看出,采用主动学习采样策略较随机采样策略可以有效地提升模型对未知类目标的分类准确率。
参照表1对比了本发明与现有的基于分布对齐和交叉重建对齐的变分自编码器的广义零样本目标分类方法在不同数据集下的分类准确率,评价指标包括未知类样本的分类准确率、已知类样本的分类准确率以及未知类样本和已知类样本分类准确率的调和平均数,在AWA1,AWA2,CUB1,APY数据集上本发明所达到的未知类分类准确率分别为0.63、0.54、0.62、0.60,已知类分类准确率分别为0.894、0.913、0.882、0.592,未知类样本和已知类样本分类准确率的调和平均数分别为0.753,0.71,0.598,0.714,均高于现已有技术的分类准确率。
综上,本发明既能缓解未知类由于缺少监督信息导致的偏置问题,又可以解决高维特征向低维空间投影时,低维特征的聚集问题,从而提高目标分类的准确率。

Claims (4)

1.一种基于主动学习和变分自编码器的广义零样本目标分类方法,其特征在于,包括如下步骤:
(1)获取训练样本集Ptrain和测试样本集Ptest
将从零样本图像集O中获取的包含ns个已知目标类别的n1幅图像以及每幅已知类别图像的目标类别标签组成的已知类训练样本集Ptrain s,和从O中获取的包含nu个未知目标类别的n2幅图像组成未知类训练样本集Ptrain u,组成训练样本集Ptrain,同时将从O中获取的包含nu个未知目标类别的m幅图像组成测试样本集Ptest,其中,ns≥10,n1≥1000,nu≥10,n2≥1000,m≥1000,且n1+n2>m;
(2)构建基于变分自编码器的广义零样本分类模型H:
(2a)构建基于变分自编码器的广义零样本分类模型H的结构:
构建包括变分自编码器f和非线性分类器fclassifier的广义零样本分类模型的结构,其中变分自编码器由并行连接的第一变分自编码器VAE和第二变分自编编码器CVAE组成,VAE由顺次连接的第一编码器f1 encoder和第一解码器f1 decoder组成,CVAE由顺次连接的第二编码器f2 encoder和第二解码器f2 decoder组成,非线性分类器fclassifier的输入与第一编码器f1 encoder的输出相连;
(2b)定义广义零样本分类模型H的损失函数:
定义广义零样本分类模型H中变分自编码器f的损失函数为L,非线性分类器fclassifier的损失函数LClassifier
L=LVAE+LCVAE+λLDA
Figure FDA0003041971500000011
Figure FDA0003041971500000012
Figure FDA0003041971500000021
其中,LVAE表示第一变分自编码器VAE的损失函数,LCVAE表示第二变分自编编码器CVAE的损失函数,λ表示权重系数,λ∈(0,1),LDA表示VAE和CVAE的对齐损失函数,
Figure FDA0003041971500000022
μ1和μ2分别表示VAE和CVAE输出的隐含分布的均值,σ1 2和σ2 2分别表示VAE和CVAE输出的方差,||·||2表示向量二范数,||·||Frob表示矩阵的Frobenius范数,LClassifier表示非线性分类器fclassifier的损失函数,KL(·)为概率分布间的Kullback-Leibler散度,N(μ11 2)表示均值为μ1方差为σ1 2的正态分布,N(μ22 2)表示均值为μ2方差为σ2 2的正态分布,
Figure FDA0003041971500000023
Figure FDA0003041971500000024
分别表示VAE和CVAE的重建损失函数,
Figure FDA0003041971500000025
xi表示第i个已知类图像特征,
Figure FDA0003041971500000026
Figure FDA0003041971500000027
分别表示VAE和CVAE对xi的重建结果,Σ表示求和操作,yj表示训练样本集Ptrain中第j类样本的标签,pj表示xi被分类为yj的概率;
(3)对基于变分自编码器的广义零样本分类模型H中的变分自编码器f和非线性分类器fclassifier进行迭代训练:
(3a)将训练样本集Ptrain作为残差网络模型的输入进行特征提取,得到已知类训练样本集Ptrain s对应的图像特征集
Figure FDA0003041971500000028
和未知类训练样本集Ptrain u对应的图像特征集
Figure FDA0003041971500000029
(3b)初始化迭代次数为k,最大迭代次数为K,K≥30,并令k=1;
(3c)将图像特征集
Figure FDA00030419715000000214
作为广义零样本分类模型H的输入,变分自编码器f中的第一变分自编码器VAE所包含的第一编码器f1 encoder对每个已知类图像特征xi进行编码,得到隐含分布的均值
Figure FDA00030419715000000210
和方差
Figure FDA00030419715000000211
非线性分类器fclassifier
Figure FDA00030419715000000212
进行分类,得到已知类图像特征xi所属各类的概率
Figure FDA00030419715000000213
CVAE所包含的第二编码器f2 encoder对每个已知类图像特征xi和特征标签yi进行编码,得到隐含分布的均值
Figure FDA0003041971500000031
和方差
Figure FDA0003041971500000032
(3d)第一解码器f1 decoder对隐含变量
Figure FDA0003041971500000033
进行解码,得到第一图像重建特征
Figure FDA0003041971500000034
同时第二解码器f2 decoder对隐含变量
Figure FDA0003041971500000035
进行解码,得到第二图像重建特征
Figure FDA0003041971500000036
其中,
Figure FDA0003041971500000037
z1和z2表示从随机高斯分布z~N(0,1)中采样得到的高斯噪声;
(3e)采用变分自编码器f的损失函数为L,并通过第一编码器f1 encoder编码的
Figure FDA0003041971500000038
Figure FDA0003041971500000039
第二编码器f2 encoder编码的
Figure FDA00030419715000000310
Figure FDA00030419715000000311
以及第一解码器f1 decoder解码的
Figure FDA00030419715000000312
和第二解码器f2 decoder解码的
Figure FDA00030419715000000313
计算变分自编码器的损失值L*,同时采用非线性分类器fclassifier的损失函数LClassifier,并通过非线性分类器fclassifier的分类结果
Figure FDA00030419715000000314
计算非线性分类器的损失值
Figure FDA00030419715000000315
(3f)采用反向传播法,并通过L*计算L的梯度▽L*,同时通过
Figure FDA00030419715000000316
计算LClassifier的梯度
Figure FDA00030419715000000317
然后采用梯度下降法,通过▽L*
Figure FDA00030419715000000318
分别对变分自编码器f和非线性分类器fclassifier的权值参数进行更新;
(3g)将图像样本特征集
Figure FDA00030419715000000319
作为第一变分自编码器VAE的输入,第一编码器f1 encoder对每个未知类图像特征uj进行编码,采用非线性分类器fclassifier对编码结果
Figure FDA00030419715000000320
进行分类,得到uj所属各类的概率
Figure FDA00030419715000000321
(3h)通过
Figure FDA00030419715000000322
中概率的最大值
Figure FDA00030419715000000323
和次大值
Figure FDA00030419715000000324
计算
Figure FDA00030419715000000325
的不确定性
Figure FDA00030419715000000326
并将ui
Figure FDA00030419715000000327
Figure FDA00030419715000000328
组合为三元组集合
Figure FDA00030419715000000329
Figure FDA00030419715000000330
的计算公式为:
Figure FDA00030419715000000331
(3i)对三元组集合S1进行聚类,并对聚类获取的nu个类别中的三元组中的不确定性按照由小到大的顺序进行排列,然后选取每个类别对应的不确定性集合中前nadd个未知类图像特征uj,组成待标注样本集S2,其中nadd>0;
(3j)对S2中的未知类图像特征uj添加标注信息后加入
Figure FDA0003041971500000041
中,同时从
Figure FDA0003041971500000042
中删除S2中的uj,并判断k>K是否成立,若是,得到训练好的广义零样本分类模型H*,否则,令k=k+1,并执行步骤(3c);
(4)获取广义零样本的目标分类结果:
(4a)将测试样本集Ptest作为残差网络模型的输入进行特征提取,得到未知类测试样本集Ptest的图像特征集P'test={t1,…,tk,…,tm},其中tk为P'test中第k个样本,m为P'test中的样本个数;
(4b)将P'test作为训练好的广义零样本分类模型H*的输入,第一编码器f1 encoder对每个未知类图像特征tk进行编码,得到隐含分布的均值
Figure FDA0003041971500000043
非线性分类器fclassifier
Figure FDA0003041971500000044
进行分类,得到m个测试样本的分类结果。
2.根据权利要求1所述的基于主动学习和变分自编码器的广义零样本目标分类方法,其特征在于,步骤(2a)中所述的基于变分自编码器的广义零样本分类模型H的结构,其中第一编码器f1 encoder的具体结构设置为,第一层为d1×d2的全连接层,第二层为ReLU层,第三层为d2×hiden_d的全连接层,第四层为ReLU层;第二编码器f2 encoder的具体结构设置为,第一层为d3×d4的全连接层,第二层为ReLU层,第三层为d4×hiden_d的全连接层,第四层为ReLU层;第一解码器f1 decoder和第二解码器f2 decoder的具体结构设置为,第一层为hiden_d×d5的全连接层,第二层为ReLU层,第三层为d5×d1的全连接层,第四层为ReLU层;非线性分类器fclassifier的具体结构设置为,第一层为d6×d7的全连接层,第二层为非线性层,第三层为d7×(ns+nu)全连接层,d1,d2,d3,d4,d5,d6,d7,hiden_d分别为对应全连接层的神经元个数。
3.根据权利要求1所述的基于主动学习和变分自编码器的广义零样本目标分类方法,其特征在于,步骤(3f)中所述残差网络是由多个包括卷积层、全连接层、ReLU层、正则化层的残差块构成的ResNet101网络。
4.根据权利要求1所述的基于主动学习和变分自编码器的广义零样本目标分类方法,其特征在于,步骤(3f)中所述的计算L的梯度▽L*和LClassifier的梯度
Figure FDA0003041971500000051
以及对变分自编码器f和非线性分类器fclassifier的权值参数wf
Figure FDA0003041971500000052
进行更新,其公式分别为:
Figure FDA0003041971500000053
Figure FDA0003041971500000054
Figure FDA0003041971500000055
Figure FDA0003041971500000056
其中,
Figure FDA0003041971500000057
Figure FDA0003041971500000058
为f更新后的权值参数。
CN202110459763.2A 2021-04-27 2021-04-27 基于主动学习和变分自编码器的广义零样本目标分类方法 Active CN113177587B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110459763.2A CN113177587B (zh) 2021-04-27 2021-04-27 基于主动学习和变分自编码器的广义零样本目标分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110459763.2A CN113177587B (zh) 2021-04-27 2021-04-27 基于主动学习和变分自编码器的广义零样本目标分类方法

Publications (2)

Publication Number Publication Date
CN113177587A true CN113177587A (zh) 2021-07-27
CN113177587B CN113177587B (zh) 2023-04-07

Family

ID=76926452

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110459763.2A Active CN113177587B (zh) 2021-04-27 2021-04-27 基于主动学习和变分自编码器的广义零样本目标分类方法

Country Status (1)

Country Link
CN (1) CN113177587B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113838041A (zh) * 2021-09-29 2021-12-24 西安工程大学 一种基于自编码器的彩色纹理织物缺陷区域的检测方法

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101853400A (zh) * 2010-05-20 2010-10-06 武汉大学 基于主动学习和半监督学习的多类图像分类方法
US20140029839A1 (en) * 2012-07-30 2014-01-30 Xerox Corporation Metric learning for nearest class mean classifiers
CN104751477A (zh) * 2015-04-17 2015-07-01 薛笑荣 基于空间域和频域特征的并行sar图像分类方法
CN110580501A (zh) * 2019-08-20 2019-12-17 天津大学 一种基于变分自编码对抗网络的零样本图像分类方法
US20200117863A1 (en) * 2018-10-13 2020-04-16 Massachusetts Institute Of Technology Methods and apparatus for radio frequency sensing in diverse environments
CN111191786A (zh) * 2019-12-20 2020-05-22 南京航空航天大学 一种基于主动学习的迁移学习算法
CN111222340A (zh) * 2020-01-15 2020-06-02 东华大学 基于多标准主动学习的乳腺电子病历实体识别系统
CN111461232A (zh) * 2020-04-02 2020-07-28 大连海事大学 一种基于多策略批量式主动学习的核磁共振图像分类方法
CN111563554A (zh) * 2020-05-08 2020-08-21 河北工业大学 基于回归变分自编码器的零样本图像分类方法
CN111680757A (zh) * 2020-06-12 2020-09-18 汪金玲 一种基于自编码器的零样本图像识别算法及系统
CN112364894A (zh) * 2020-10-23 2021-02-12 天津大学 一种基于元学习的对抗网络的零样本图像分类方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101853400A (zh) * 2010-05-20 2010-10-06 武汉大学 基于主动学习和半监督学习的多类图像分类方法
US20140029839A1 (en) * 2012-07-30 2014-01-30 Xerox Corporation Metric learning for nearest class mean classifiers
CN104751477A (zh) * 2015-04-17 2015-07-01 薛笑荣 基于空间域和频域特征的并行sar图像分类方法
US20200117863A1 (en) * 2018-10-13 2020-04-16 Massachusetts Institute Of Technology Methods and apparatus for radio frequency sensing in diverse environments
CN110580501A (zh) * 2019-08-20 2019-12-17 天津大学 一种基于变分自编码对抗网络的零样本图像分类方法
CN111191786A (zh) * 2019-12-20 2020-05-22 南京航空航天大学 一种基于主动学习的迁移学习算法
CN111222340A (zh) * 2020-01-15 2020-06-02 东华大学 基于多标准主动学习的乳腺电子病历实体识别系统
CN111461232A (zh) * 2020-04-02 2020-07-28 大连海事大学 一种基于多策略批量式主动学习的核磁共振图像分类方法
CN111563554A (zh) * 2020-05-08 2020-08-21 河北工业大学 基于回归变分自编码器的零样本图像分类方法
CN111680757A (zh) * 2020-06-12 2020-09-18 汪金玲 一种基于自编码器的零样本图像识别算法及系统
CN112364894A (zh) * 2020-10-23 2021-02-12 天津大学 一种基于元学习的对抗网络的零样本图像分类方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
ASHISH MISHRA 等: "A Generative Model For Zero Shot Learning Using Conditional Variational Autoencoders", 《2018 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION WORKSHOPS》 *
EDGAR SCHONFELD 等: "Generalized Zero- and Few-Shot Learning via Aligned Variational Autoencoders", 《2019 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR)》 *
曹真 等: "基于改进变分自编码器的零样本图像分类", 《太原理工大学学报》 *
杨晨曦等: "基于自编码器的零样本学习方法研究进展", 《现代计算机》 *
毕秋敏等: "一种主动学习和协同训练相结合的半监督微博情感分类方法", 《现代图书情报技术》 *
潘崇煜 等: "融合零样本学习和小样本学习的弱监督学习方法综述", 《系统工程与电子技术》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113838041A (zh) * 2021-09-29 2021-12-24 西安工程大学 一种基于自编码器的彩色纹理织物缺陷区域的检测方法
CN113838041B (zh) * 2021-09-29 2023-09-08 西安工程大学 一种基于自编码器的彩色纹理织物缺陷区域的检测方法

Also Published As

Publication number Publication date
CN113177587B (zh) 2023-04-07

Similar Documents

Publication Publication Date Title
CN109389171B (zh) 基于多粒度卷积降噪自动编码器技术的医疗图像分类方法
CN110188653A (zh) 基于局部特征聚合编码和长短期记忆网络的行为识别方法
CN110827260B (zh) 一种基于lbp特征与卷积神经网络的布匹缺陷分类方法
CN111564183B (zh) 融合基因本体和神经网络的单细胞测序数据降维方法
CN111461025B (zh) 一种自主进化的零样本学习的信号识别方法
CN111222638B (zh) 一种基于神经网络的网络异常检测方法及装置
CN109492748B (zh) 一种基于卷积神经网络的电力系统的中长期负荷预测模型建立方法
CN108268872B (zh) 一种基于增量学习的鲁棒非负矩阵分解方法
CN115732034A (zh) 一种空间转录组细胞表达模式的识别方法及系统
CN114692732A (zh) 一种在线标签更新的方法、系统、装置及存储介质
CN112132257A (zh) 基于金字塔池化及长期记忆结构的神经网络模型训练方法
CN111242028A (zh) 基于U-Net的遥感图像地物分割方法
CN111985152A (zh) 一种基于二分超球面原型网络的事件分类方法
CN113177587B (zh) 基于主动学习和变分自编码器的广义零样本目标分类方法
CN115271063A (zh) 基于特征原型投影的类间相似性知识蒸馏方法与模型
CN114973019A (zh) 一种基于深度学习的地理空间信息变化检测分类方法及系统
CN108388918B (zh) 具有结构保持特性的数据特征选择方法
CN114200245A (zh) 一种配电网的线损异常识别模型的构建方法
CN114417975A (zh) 基于深度pu学习与类别先验估计的数据分类方法及系统
CN115761654B (zh) 一种车辆重识别方法
CN116523877A (zh) 一种基于卷积神经网络的脑mri图像肿瘤块分割方法
CN113591955B (zh) 一种提取图数据的全局信息的方法、系统、设备及介质
CN111797732B (zh) 一种对采样不敏感的视频动作识别对抗攻击方法
CN116521863A (zh) 一种基于半监督学习的标签抗噪文本分类方法
CN112735604B (zh) 一种基于深度学习算法的新型冠状病毒分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant