CN114037866B - 一种基于可辨伪特征合成的广义零样本图像分类方法 - Google Patents
一种基于可辨伪特征合成的广义零样本图像分类方法 Download PDFInfo
- Publication number
- CN114037866B CN114037866B CN202111295572.3A CN202111295572A CN114037866B CN 114037866 B CN114037866 B CN 114037866B CN 202111295572 A CN202111295572 A CN 202111295572A CN 114037866 B CN114037866 B CN 114037866B
- Authority
- CN
- China
- Prior art keywords
- class
- visible
- pseudo
- feature
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 54
- 230000015572 biosynthetic process Effects 0.000 title claims abstract description 35
- 238000003786 synthesis reaction Methods 0.000 title claims abstract description 35
- 238000012549 training Methods 0.000 claims abstract description 56
- 239000011159 matrix material Substances 0.000 claims abstract description 40
- 239000013598 vector Substances 0.000 claims abstract description 40
- 230000009466 transformation Effects 0.000 claims abstract description 38
- 238000003062 neural network model Methods 0.000 claims abstract description 24
- 230000006870 function Effects 0.000 claims description 30
- 238000013507 mapping Methods 0.000 claims description 26
- 230000000007 visual effect Effects 0.000 claims description 17
- 238000005457 optimization Methods 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 5
- 230000001131 transforming effect Effects 0.000 claims description 4
- 238000012216 screening Methods 0.000 claims description 3
- 238000001914 filtration Methods 0.000 abstract description 5
- 230000000694 effects Effects 0.000 description 8
- 238000013508 migration Methods 0.000 description 5
- 230000005012 migration Effects 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000001308 synthesis method Methods 0.000 description 4
- 238000011478 gradient descent method Methods 0.000 description 3
- 230000002194 synthesizing effect Effects 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 2
- 101100004037 Saccharomyces cerevisiae (strain Kyokai no. 7 / NBRC 101557) AWA1 gene Proteins 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000002243 precursor Substances 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000003313 weakening effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24133—Distances to prototypes
- G06F18/24143—Distances to neighbourhood prototypes, e.g. restricted Coulomb energy networks [RCEN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种基于可辨伪特征合成的广义零样本图像分类方法,包括如下步骤:构建端到端神经网络模型;用可见类图像对模型进行预训练,使得在潜在空间中的同类潜在特征与它们的语义属性之间距离最小,得到可见类的可辨潜在特征;对每个未见类,选取与其符合相似性判定要求的可见类的语义属性构造属性变换矩阵,并用于优化非负合成向量;利用非负合成向量结合被选中的可见类的潜在特征,以及未见类的语义属性,合成未见类的伪特征;对合成的未见类伪特征进行过滤并剔除伪特征中的离群值,得到可辨伪特征;用可辨伪特征与可见类图像训练整个网络。本发明能够同时对可见类别和未见类别的图像进行高精度分类。
Description
技术领域
本发明涉及图像分类与广义零样本学习技术领域,具体涉及一种基于可辨伪特征合成的广义零样本图像分类方法。
背景技术
目前,神经网络在图像分类领域取得了一定的成果,但是需要用大量的图像数据对它进行训练后才能起到准确识别的作用。神经网络对训练样本中没有的未见类的识别是很困难的。零样本学习(ZSL)是未见类图像分类领域流行的研究方法,它构造神经网络模型,用训练集中已有的类别作为可见类,训练神经网络,解决未见类的分类问题,但它在测试阶段仅针对未见类的图像进行分类。对于一个出色的分类模型,需要同时具备可见类和未见类准确识别的功能。广义零样本学习(Generalized ZSL)是同时识别不存在任何样本交集可见类与未见类的常用方法,被越来越多的相关领域人员关注。
广义零样本的核心思想最初来源于零样本的思想,就是设计一个语义嵌入模型和一个适当的优化函数,在训练阶段利用可见类带标注数据集和语义信息来学习知识转移。目前,最常用的语义信息是语义属性。语义属性是用最少量的信息概括某领域内所有类别的全部特点。常用基于广义零样本的图像分类方法具有三大类,分别是基于映射法,基于生成网络法和基于可见类合成法。基于映射法可以构造视觉空间和嵌入空间之间的知识关联。但是在无法准确地获知未见类特征分布情况下,构造出来的模型会引起从原领域(可见类)到目标领域(未见类)的迁移偏差,降低特征可分辨性和分类精度。而且在只有少量样本的可见类学习中效果不理想。
为了模拟不可见类的特征分布构造出伪特征,一些学者提出用语义信息和随机噪声作为先验知识构造未见类的生成网络,再用可见类来训练判别器,引导生成网络准确生成未见类伪特征。然而这种基于生成网络方法单凭语义信息作为先验知识,容易导致生成特征分布与真实特征分布不一致,诱发模式崩溃。
考虑到部分类别语义属性之间存在局部特征的相似性,基于可见类特征嵌入合成方法被陆续的提出。该方法符合人脑从旧事物提取特征来理解新的事物的规律。但现有的基于可见类合成方法中合成特征与真实语义属性之间距离存在较大偏差,合成特征易混入与未见类无关类别的特征,而造成负迁移等问题。
因此,如何提供一种具有高分类精度、可以同时对可见类别和未见类别的图像进行分类的广义零样本图像分类方法,本领域技术人员亟需解决的问题。
发明内容
有鉴于此,本发明提供了一种基于可辨伪特征合成的广义零样本图像分类方法,解决现有方法存在的未见类识别能力差、可见类别与未见类别间的领域漂移以及构成未见类的伪特征与真实特征存在偏差等问题,以提高分类精度。
为了实现上述目的,本发明采用如下技术方案:
一种基于可辨伪特征合成的广义零样本图像分类方法,包括如下步骤:
S1、构建端到端的神经网络模型,神经网络模型包括串行连接的嵌入模块和分类模块,所述嵌入模块接收可见类图像的视觉特征,所述视觉特征由具有固定权重的骨干网络从训练集图像提取得到;
S2:用可见类图像和语义属性对神经网络模型进行预训练,所述可见类图像的视觉特征经嵌入模块处理获得潜在特征,并将其和语义属性一同映射到嵌入模块与分类模块之间的潜在空间中,在潜在空间中计算同类图像潜在特征与各自的属性之间的距离,并使之最小,得到可见类图像的可变潜在特征;
S3:对每个未见类,构造一个非负合成向量,再利用与未见类符合相似性判定要求的可见类语义属性构成属性变换矩阵,并用所述属性变换矩阵对所述非负合成向量进行优化,使其满足经过属性变换矩阵映射到未见类语义属性的距离最小;
S4:从与未见类符合相似性判定要求的每个可见类中随机抽取一个潜在特征构成嵌入变换矩阵,采用嵌入变换矩阵对非负合成向量进行变换得到特征嵌入项,并将特征嵌入项与相应未见类的自身语义属性项进行加权求和,得到未见类伪特征;
S5:对未见类伪特征进行筛查,利用预训练的神经网络模型中的分类模块剔除未见类伪特征中的离群值,得到可辨伪特征;
S6:用可辨伪特征作为未见类的训练样本和训练集图像样本作为可见类的训练样本,完成神经网络模型的最终训练。优选的,所述S2中,为了解决少量样本训练的问题,在每次神经网络模型的迭代中,为每个可见类抽取L个图像建立每个可见类的支持集,以及在可见类中抽取M个图像建立一个查询集,用支持集中所有图像潜在特征的平均作为自身原型,并建立每个可见类中潜在特征与自身原型之间的距离最小约束,以及自身原型与自身语义属性之间的距离最小的约束,以得到可见类的可辨潜在特征。提炼出的未见类的属性信息,用来指导未见类伪特征的有效嵌入。
优选的,在潜在空间中,分别计算查询集中每个图像的潜在特征与自身原型之间的距离,以及同类图像中的原型与语义属性之间的距离,用这两个距离之和构建二阶段的最小距离函数,结合交叉熵损失函数构成总损失函数;每次迭代更新过程利用梯度下降算法来最小化损失函数,然后利用反向传播操作来更新嵌入模块和分类模块的权重参数,完成神经网络模型的预训练。
优选的,所述S3中构成属性变换矩阵的具体步骤包括:
计算每个未见类语义属性与所有可见类语义属性的余弦距离;
对每一个未见类,寻找余弦距离最小的可见类的语义属性,构成属性变换矩阵。
优选的,所述S3中,用属性变换矩阵对每一个未见类所构成的非负合成向量进行局部卡罗需-库恩-塔克条件下非线性优化,直至每个非负合成向量收敛,得到属性域中的准确映射,消除映射偏离,并有效地抑制因无关类的属性特征引入造成负迁移现象的发生。
优选的,所述S4中,对每一个未见类,用与未见类符合相似性判定要求的每个可见类潜在特征,取代属性变换矩阵中与之对应的属性构成嵌入变换矩阵,将优化后的非负合成向量通过嵌入变换矩阵映射,得到反映未见类特点的特征嵌入项。
用可见类的可辨潜在特征作为嵌入变换矩阵取代属性变换矩阵,将优化后的非负合成向量通过嵌入变换矩阵的准确映射,得到能够准确地符合未见类属性特点的特征嵌入项,结合自身语义属性补偿项所得到的伪特征,能够有效地抑制伪特征过于离散,这也是得到剔除离群值后可辨伪特征的关键前序步骤。
优选的,所述S5中,如果未见类伪特征在所有可见类中的分类概率最大值超过设定阈值,则作为未见类伪特征中的离群值被剔除。
经由上述的技术方案可知,与现有技术相比,本发明的有益效果包括:
本发明用带有分类模块的监督学习做图像分类,解决用K近邻方法进行图像分类所产生的枢纽点问题;有效地从图像中提取语义属性的潜在信息,构造从可见类语义属性到未见类语义属性的精确映射后,在可见类语义属性周围寻找可辨潜在特征对未见类进行特征嵌入,准确地捕获未见类语义属性特点,消除领域之间映射偏差;
本发明充分利用属性信息和可见类可辨潜在特征信息,遏制模式崩溃;仅选取部分与未见类别相似的可见类进行嵌入,降低了无关类别带来的负迁移影响;结合自身语义属性补偿项所得到的伪特征,能够有效地抑制合成的伪特征过于离散;利用预训练分类模块剔除未见类伪特征中的离群值,避免离群未见类伪特征对可见类的分类造成干扰;
本发明得到的可见类和未见类的特征都是可辨的,极大地优化了分类器的分类效果,提高了多样本图像分类的准确率;
同时,本发明的上述步骤不仅局限在图像领域,在其它可进行语义属性描述领域,例如声音信号领域,均可使用本发明完成广义零样本目标识别。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图;
图1为本发明实施例提供的一种基于可辨伪特征合成的广义零样本图像分类方法的流程图;
图2是本发明实施例提供的神经网络模型和训练框架示意图;
图3是本发明在第一训练阶段对神经网络模型预训练的示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本实施例公开的一种基于可辨伪特征合成的广义零样本图像分类方法。为了使本发明的目的、技术方案及优点更加清楚明白,首先列举与本实施例相关的数学符号表示,如下:
s个可见类和u个未见类的标签集合分别记为Y S和Y U;可见类样本集合记为其中xi是一个视觉特征向量,X表示视觉特征空间;图2中,由嵌入模块输出的特征定义为潜在特征/>其中/>代表嵌入模块的映射函数,θem是嵌入模块中的权重参数;可见类和未见类的语义属性向量所构成的矩阵分别记为/>和/>其中/>和/>分别是是可见类和未见类的一个语义属性向量,/>例如在动物图像领域,语义属性向量中每个元素代表动物的颜色、相貌、身材、生活习性等有关特点的数值化表达,颜色还可分黑,白,灰,红等,数值越高代表具有这种特点越强烈。
在图2中第一阶段训练中,对每一代构建的支持集和查询集分别记为Sy(k)和Q,其中S y(k)={(xi,k)|xi∈X,k∈Y S};在图2第二阶段训练中,未见类伪样本集记为其中/>表示经过合成和过滤后得到的可辨伪特征,其在潜在空间V中。
以下结合图1-3对本发明做进一步说明。
如图1所示,一种基于可辨伪特征合成的广义零样本图像分类方法,包括以下几个步骤:
S1:构建端对端的神经网络模型,其中包含嵌入模块和分类模块,该两模块通过串行连接,它们分别是图2中的梯形块E和梯形块C,嵌入模块的输入都来自通过骨干网络输出提取的视觉特征;
S2:用可见类图像和语义属性对神经网络模型进行预训练,经嵌入模块获得潜在特征,并将其和语义属性一同映射到嵌入模块与分类模块之间的潜在空间中,然后分别计算同类潜在特征与各自的语义属性之间的距离,以及同类原型与自身语义属性之间的距离,用这两个距离之和构成最小距离约束,并结合预分类损失完成预训练,如图2所示的第一阶段训练;
S3:对每个未见类,构造一个非负合成向量,再利用与未见类符合相似性判定要求的可见类语义属性构成属性变换矩阵,并用所述属性变换矩阵对所述非负合成向量进行优化,使其满足它经过属性变换矩阵映射到自身属性的距离最小,如图2所示的属性映射优化部分;
S4:从与未见类符合相似性判定要求的每个可见类中随机抽取一个潜在特征构成嵌入变换矩阵,变换矩阵,采用嵌入变换矩阵对非负合成向量进行变换得到特征嵌入项,并将特征嵌入项与自身语义属性项进行加权求和,得到未见类伪特征,如图2所示的合成操作部分;
S5:对未见类伪特征进行筛查,利用预训练的神经网络模型中的分类模块剔除未见类伪特征中的离群值,得到可辨伪特征,如图2所示的过滤操作;
S6:用可辨伪特征作为未见类的训练样本和训练集中图像作为可见类的训练样本,完成神经网络模型的最终训练,如图2所示的第二阶段训练。
在一个实施例中,S1所构建端对端的神经网络模型中,骨干网络可以是目前常见的几种深层卷积神经网络(DCNN),例如VGG、GoogleNet、ResNet等。为了方便对本发明进行效果验证,用经过ImageNet预训练后的ResNet101,通过固定好权重的骨干网络提取训练样本图像的视觉特征,将该特征作为本发明的研究对象,这仅用以解释本发明,并不用于限定本发明。
在一个实施例中,S2即为要完成图2中的第一阶段训练,其具体步骤为:
S2.1:从训练样本中,每次迭代都要为每个可见类随机抽取L个同类图像样本,构成每类支持集Sy(k),与此同时从所有可见类中随机抽取M个图像样本,构成查询集Q,并保证来自支持集和查询集中的样本都不同。
S2.2:在潜在空间中,将支持集中所有图像样本的潜在特征的平均作为该类的原型。
本步骤中,对支持集中所有样本,采用嵌入模块映射处理,计算其潜在特征的平均,作为该类的原型,其数学表示为:
其中,|Sy(k)|表示类别k的支持集样本总数,xi是来自Sy(k)中的一个视觉特征。
S2.3:在潜在空间中,分别计算查询集中每个样本的潜在特征与自身原型之间的距离,以及同类的原型与语义属性之间的距离,用这两个距离之和构建距离损失函数Ld,结合预分类损失函数Lpcls构成总损失函数Lp,预先训练整个网络。
本步骤中,构成总损失函数Lp的具体表达式为:
Lp=Lpcls+λ1Ld
其中Ld为二段式的最小距离约束函数,Lpcls为具有交叉熵性质的损失函数,λ1是控制约束强度的一个参数,通常情况下λ1∈[0.5,1],Ld和Lpcls分别被定义为:
其中,Q表示查询集,cy(i)是可见类y(i)在本代支持集下的原型,表示可见类y(i)的语义属性向量,θcls表示分类模块的权重参数,/>是未见类语义属性/>在ε邻域中某个值,ε应为所有语义属性中两个余弦距离最小数值的十分之一,Lpcls中的第二项是根据未见类语义属性信息对未见类的特征进行预判。
本步骤中,最小距离约束的详细解释如图3所示,在潜在空间中,不同的大椭圆虚线内代表不同的类别,小圆圈表示潜在空间中的潜在特征,三角表示原型,实线五角星表示可见类语义属性,虚线五角星表示未见类语义属性,训练时在查询集的各类目标(被提取潜在特征)都要和支持集中与其相同语义属性的类别(原型)归为一类(以缩小类内距离),经过第一阶段训练后,每个可见类的潜在特征具备可分辨性。
本步骤中,每次迭代更新过程利用梯度下降算法来最小化损失函数Lp,然后利用反向传播操作更新嵌入模块和分类模块的权重参数,目前常见的梯度下降法有随机梯度下降法(SGD)、自适应梯度法(Adagrad)、自适应矩估计法(Adam)等,为了方便对本发明进行效果验证,用Adam作为最小化损失函的优化算法,这仅用以解释本发明,并不用于限定本发明。
在一个实施例中,S3具体步骤为:
S3.1:计算每个未见类与所有可见类之间的语义属性余弦距离,具体公式为:
其中,和/>分别表示第i未见类和第j可见类的语义属性向量。
S3.2:对每个未见类,寻找余弦距离最小的部分可见类的语义属性,构成属性变换矩阵。
本步骤中,每个未见类合成变换矩阵是由与未见类最相似的N个可见类的语义属性向量联合构成,具体表达式如下:
其中,c(1)到c(N)分别表示与未见类第一个到第N个最相似的可见类的编号。
S3.3:对每个未见类,建立非负合成向量,将自身的属性变换矩阵变换后的值与语义属性做绝对值运算,并对非负合成向量进行正则化,得到属性映射总误差函数。
本步骤中,属性映射总误差函数如下:
s.t.mi≥0
其中,mi表示其中一个未见类的非负合成向量,β1和β2分别是对mi的L1范数和L2范数正则化项,且β1,β2>0。
S3.4:执行属性映射优化,根据被选中的可见类与每个未见类之间的语义属性余弦距离,对每个非负合成向量进行初始化,然后在满足局部卡罗需-库恩-塔克(KKT)条件下对属性映射误差函数进行优化,直至每个非负合成向量收敛;
本步骤中,对每个非负合成向量进行初始化的具体公式为:
对带约束项的属性映射总误差函数进行优化,通过多次迭代,更新每个非负合成向量mi,即:
这里,通过上面得到的初始化非负合成向量作为初代,/>表示第t代的结果,/>是一个对角线矩阵,满足:
这里,是向量/>中第j个参数的绝对值。经过迭代收敛后,最后一代的非负合成向量作为输出结果。
如图2所示,属性映射优化框内表示其中一个未见类属性映射的一个范例,与这个未见类相似的可见类属性经过优化后的非负合成向量,能够准确地映射到这个未见类的属性当中。
在一个实施例中,S4中,如图2中第二阶段训练的合成操作,其具体是对每一个未见类,分别从与未见类符合相似性判定要求的每个可见类中随机抽取一个潜在特征,取代属性变换矩阵中与之对应的属性构成嵌入变换矩阵,采用嵌入变换矩阵对非负合成向量进行变换得到特征嵌入项,与其语义属性项进行加权求和,得到伪特征。
合成伪特征的具体公式表达为:
这里,是嵌入变换矩阵,γ是属性项的加权系数。
如图2所示,合成操作的括号内表示其中一个未见类伪特征合成的一个范例。从与未见类相似的可见类中各随机抽取一个可辨潜在特征经过非负映射向量嵌入,得到特征嵌入项。并将特征嵌入项与自身语义属性做加权,为了抑制伪特征过于离散。
对步骤5即图2第二阶段训练中,对伪特征过滤的具体公式为:
这里,τ表示可信阈值,p(·|·)表示分类模块的映射函数,如果伪特征在所有可见类中的分类概率最大值超过阈值τ,则将剔除这个伪特征。最终构成所有未见类的伪特征训练集合/>要满足/>从中可以看出,经过S2得到可辨别潜在特征,然后经过S3得到部分可见类到未见类的合成上的准确映射,再经过S4得到从可见类的潜在特征经过准确映射到能符合语义属性特点的伪特征,后经过S5滤除伪特征中的离群值,最终得到具有可辨别性的未见类伪特征。
在一个实施例中,S6中,即要完成图2第二阶段训练中预训练后的模型进行最终训练,其具体步骤为:
S6.1:在每次迭代训练过程中,分别从可辨别的未见类伪特征样本和可见类图像样本中随机抽取一定数量训练样本。
本步骤中,整体最小误差函数的具体表达式为:
Lf=Lfcls+λ2Lt
其中Lt为三元组损失函数,Lfcls为最终分类损失函数,λ2是控制三元组损失强度的一个参数,Lt和Lfcls被定义为:
其中,N是训练样本数量,构成三元组,其中/>是来自同类中可辨潜在特征二元组,/>是来自异类中可辨潜在特征二元组,α是边缘系数,[·]+=max(·,0),η表示在每一代训练集样本中来自未见类样本的占比。
S6.2:利用三元组损失函数与最终分类损失函数,构建整体最小误差函数,并训练整个网络模型。
本步骤中,每次迭代更新过程采用梯度下降法,训练模块权重的方法与步骤2.2中的是类似的,区别在于要对嵌入模块的学习率降低,其值为步骤2.2中学习率的1%-10%。
表1是本发明在5种常用广义零样本标准数据集验证,在调和平均指标上对比现有的最新方法的结果。
这个调和平均指标H的公式如下:
其中,AccS表示在测试集中每个可见类分类精度平均值。AccU表示在测试集中每个未见类分类精度的平均值。
本发明的方法在AWA1,AWA2,aPY,CUB和SUN数据集下的调和平均指标分别为71.9%,71.8%,52.7%,58.5%和46.1%。本发明方法相比DCC(2020年)在AWA1中分类性能提升4.5%;相比LIUF(2020年)在AWA2,aPY,CUB和SUN中分类性能分别提升1.6%,4.9%,4.6%和2.3%。
表1中的五种数据集是仅用来对本发明的优越性进行解释,本发明的图像分类不仅仅限用于这几种数据集,对已知语义属性或其他语义信息的其他图像分类领域同样适用。
表1
本发明针对广义零样本图像分类领域提出可辨伪特征的合成方法,先对模型进行预训练,提取可见类可辨特征,然后构建与未见类相似部分可见类到未见类语义属性映射后,选取这部分可见类可辨特征通过语义属性映射得到特征嵌入,再对其进行自身语义属性加权和离群值过滤,最终合成未见类可辨伪特征,同时用训练图像作为可见类训练样本和合成可辨伪特征作为未见类训练样本一起训练整个网络。
本发明用神经网络分类模块作为类别分类方式的分类效果优于用K近邻方法进行图像分类的LATEM方法(Latent Embeddings for Zero-shot Classification);本发明用从图像中提取潜在语义属性信息作为特征嵌入的分类效果优于直接用视觉特征信息作为特征嵌入的DEM方法(Learning a Deep Embedding Model for Zero-Shot Learning);本发明构造从可见类语义属性到未见类语义属性的精确映射后,得到捕获语义属性特点可辨潜在特征来对未见类进行特征嵌入,分类效果分别优于基于映射的CPL方法(Convolutional prototype learning for zero-shot recognition)和DCC方法(Discriminative comparison classifier for generalized zero-shot learning),同时也优于没有建立可见类到未见类精确映射而合成伪特征的SPF方法(Generalized ZeroShot Learning via Synthesis Pseudo Features);本发明用语义属性补偿弱化特征离散和剔除离群值的方式,并且仅选取部分与未见类别相似的可见类进行嵌入,降低了无关类别带来的负迁移影响,分类效果优于用所有可见类合成伪特征的LIUF方法(Learningdomain invariant unseen features for generalized zero-shot classification)。同时本发明充分整合可见类的可辨潜在特征信息和语义信息,分类效果优于单纯依靠语义信息生成伪特征的基于生成法。
以上对本发明所提供的基于可辨伪特征合成的广义零样本图像分类方法进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上,本说明书内容不应理解为对本发明的限制。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (7)
1.一种基于可辨伪特征合成的广义零样本图像分类方法,其特征在于,包括如下步骤:
S1、构建端到端的神经网络模型,神经网络模型包括串行连接的嵌入模块和分类模块,所述嵌入模块接收可见类图像的视觉特征,所述视觉特征由具有固定权重的骨干网络从训练集图像提取得到;
S2:用可见类图像和语义属性对神经网络模型进行预训练,所述可见类图像的视觉特征经嵌入模块处理获得潜在特征,并将其和语义属性一同映射到嵌入模块与分类模块之间的潜在空间中,在潜在空间中计算同类潜在特征与各自的语义属性之间的距离,并使之最小,得到可见类图像的可辨潜在特征;
S3:对每个未见类,构造一个非负合成向量,再利用与未见类符合相似性判定要求的可见类语义属性构成属性变换矩阵,并用所述属性变换矩阵对所述非负合成向量进行优化,使其满足经过属性变换矩阵映射到未见类语义属性的距离最小;
S4:从与未见类符合相似性判定要求的每个可见类中随机抽取一个潜在特征构成嵌入变换矩阵,采用嵌入变换矩阵对非负合成向量进行变换得到特征嵌入项,并将特征嵌入项与自身语义属性项进行加权求和,得到未见类伪特征;
S5:对未见类伪特征进行筛查,利用预训练的神经网络模型中的分类模块剔除未见类伪特征中的离群值,得到可辨伪特征;
S6:用可辨伪特征作为未见类的训练样本和训练集图像作为可见类的训练样本,完成神经网络模型的最终训练。
2.根据权利要求1所述的基于可辨伪特征合成的广义零样本图像分类方法,其特征在于,所述S2中,在每次神经网络模型的迭代中,为每个可见类抽取L个图像建立每个可见类的支持集,以及在可见类中抽取M个图像建立一个查询集,用支持集中所有图像潜在特征的平均作为自身原型,并建立每个可见类中潜在特征与自身原型之间的距离最小约束,以及自身原型与自身语义属性之间的距离最小约束,以得到可见类的可辨潜在特征。
3.根据权利要求2所述的基于可辨伪特征合成的广义零样本图像分类方法,其特征在于,在潜在空间中,分别计算查询集中每个图像的潜在特征与自身原型之间的距离,以及同类图像中的原型与语义属性之间的距离,用这两个距离之和构建二阶段的最小距离函数,结合交叉熵损失函数构成总损失函数;每次迭代更新过程利用梯度下降算法来最小化损失函数,然后利用反向传播操作来更新嵌入模块和分类模块的权重参数,完成神经网络模型的预训练。
4.根据权利要求1所述的基于可辨伪特征合成的广义零样本图像分类方法,其特征在于,所述S3中构成属性变换矩阵的具体步骤包括:
计算每个未见类语义属性与所有可见类语义属性的余弦距离;
对每一个未见类,寻找余弦距离最小的可见类的语义属性,构成属性变换矩阵。
5.根据权利要求1所述的基于可辨伪特征合成的广义零样本图像分类方法,其特征在于,所述S3中,用属性变换矩阵对每一个未见类所构成的非负合成向量进行局部卡罗需-库恩-塔克条件下非线性优化,直至每个非负合成向量收敛。
6.根据权利要求1所述的基于可辨伪特征合成的广义零样本图像分类方法,其特征在于,所述S4中,对每一个未见类,用与未见类符合相似性判定要求的每个可见类的潜在特征,取代属性变换矩阵中与之对应的语义属性构成嵌入变换矩阵,将优化后的非负合成向量通过嵌入变换矩阵映射,得到反映未见类特点的特征嵌入项。
7.根据权利要求1所述的基于可辨伪特征合成的广义零样本图像分类方法,其特征在于,所述S5中,如果未见类伪特征在所有可见类中的分类概率最大值超过设定阈值,则作为未见类伪特征中的离群值被剔除。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111295572.3A CN114037866B (zh) | 2021-11-03 | 2021-11-03 | 一种基于可辨伪特征合成的广义零样本图像分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111295572.3A CN114037866B (zh) | 2021-11-03 | 2021-11-03 | 一种基于可辨伪特征合成的广义零样本图像分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114037866A CN114037866A (zh) | 2022-02-11 |
CN114037866B true CN114037866B (zh) | 2024-04-09 |
Family
ID=80136395
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111295572.3A Active CN114037866B (zh) | 2021-11-03 | 2021-11-03 | 一种基于可辨伪特征合成的广义零样本图像分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114037866B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114612726A (zh) * | 2022-03-22 | 2022-06-10 | 南京工业大学 | 一种基于字典学习的零样本图像分类方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110309875A (zh) * | 2019-06-28 | 2019-10-08 | 哈尔滨工程大学 | 一种基于伪样本特征合成的零样本目标分类方法 |
CN112364893A (zh) * | 2020-10-23 | 2021-02-12 | 天津大学 | 一种基于数据增强的半监督零样本图像分类方法 |
CN112364894A (zh) * | 2020-10-23 | 2021-02-12 | 天津大学 | 一种基于元学习的对抗网络的零样本图像分类方法 |
CN113139591A (zh) * | 2021-04-14 | 2021-07-20 | 广州大学 | 一种基于增强多模态对齐的广义零样本图像分类方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10908616B2 (en) * | 2017-05-05 | 2021-02-02 | Hrl Laboratories, Llc | Attribute aware zero shot machine vision system via joint sparse representations |
-
2021
- 2021-11-03 CN CN202111295572.3A patent/CN114037866B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110309875A (zh) * | 2019-06-28 | 2019-10-08 | 哈尔滨工程大学 | 一种基于伪样本特征合成的零样本目标分类方法 |
CN112364893A (zh) * | 2020-10-23 | 2021-02-12 | 天津大学 | 一种基于数据增强的半监督零样本图像分类方法 |
CN112364894A (zh) * | 2020-10-23 | 2021-02-12 | 天津大学 | 一种基于元学习的对抗网络的零样本图像分类方法 |
CN113139591A (zh) * | 2021-04-14 | 2021-07-20 | 广州大学 | 一种基于增强多模态对齐的广义零样本图像分类方法 |
Also Published As
Publication number | Publication date |
---|---|
CN114037866A (zh) | 2022-02-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113378632B (zh) | 一种基于伪标签优化的无监督域适应行人重识别方法 | |
CN113326731B (zh) | 一种基于动量网络指导的跨域行人重识别方法 | |
CN108399428A (zh) | 一种基于迹比准则的三元组损失函数设计方法 | |
CN109359541A (zh) | 一种基于深度迁移学习的素描人脸识别方法 | |
CN114841257B (zh) | 一种基于自监督对比约束下的小样本目标检测方法 | |
CN110728192A (zh) | 一种基于新型特征金字塔深度网络的高分遥感图像分类方法 | |
CN112347970B (zh) | 一种基于图卷积神经网络的遥感影像地物识别方法 | |
CN109684922A (zh) | 一种基于卷积神经网络的多模型对成品菜的识别方法 | |
CN113920472B (zh) | 一种基于注意力机制的无监督目标重识别方法及系统 | |
CN111126226B (zh) | 一种基于小样本学习和特征增强的辐射源个体识别方法 | |
CN111783841A (zh) | 基于迁移学习和模型融合的垃圾分类方法、系统及介质 | |
CN112699899A (zh) | 一种基于生成对抗网络的高光谱图像特征提取方法 | |
CN111967325A (zh) | 一种基于增量优化的无监督跨域行人重识别方法 | |
CN111581368A (zh) | 一种基于卷积神经网络的面向智能专家推荐的用户画像方法 | |
CN116910571B (zh) | 一种基于原型对比学习的开集域适应方法及系统 | |
Chen et al. | Application of improved convolutional neural network in image classification | |
Chen et al. | Military image scene recognition based on CNN and semantic information | |
CN114170426A (zh) | 一种基于代价敏感的稀有肿瘤类别小样本分类的算法模型 | |
CN111126155B (zh) | 一种基于语义约束生成对抗网络的行人再识别方法 | |
CN113222072A (zh) | 基于K-means聚类和GAN的肺部X光图像分类方法 | |
CN110188864B (zh) | 基于分布表示和分布度量的小样本学习方法 | |
CN114037866B (zh) | 一种基于可辨伪特征合成的广义零样本图像分类方法 | |
CN118351371A (zh) | 一种基于对抗训练和元学习的小样本图像分类方法及系统 | |
CN117671666A (zh) | 一种基于自适应图卷积神经网络的目标识别方法 | |
CN117611838A (zh) | 一种基于自适应超图卷积网络的多标签图像分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |