CN112364893B - 一种基于数据增强的半监督零样本图像分类方法 - Google Patents
一种基于数据增强的半监督零样本图像分类方法 Download PDFInfo
- Publication number
- CN112364893B CN112364893B CN202011147838.5A CN202011147838A CN112364893B CN 112364893 B CN112364893 B CN 112364893B CN 202011147838 A CN202011147838 A CN 202011147838A CN 112364893 B CN112364893 B CN 112364893B
- Authority
- CN
- China
- Prior art keywords
- sample
- class
- classes
- regressor
- visible
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明属于图像分类的技术领域,具体涉及一种基于数据增强的半监督零样本图像分类方法,利用快捷的搜索引擎,在训练过程中引入与未见类别相关的附加类别的数据,使可见类的信息可以很好地迁移到未见类中;同时不需要加入更多的语义信息,也就不需要耗费更多的人力,方便快捷;此外,本发明采用视觉特征和语义特征双向映射的方式,生成附加类样本的语义表示,使模型更好地从可见类迁移到未见类上去,提高模型的泛化能力,有助于推动零样本学习应用于生产生活实际,加速深度学习算法向实用发展。
Description
技术领域
本发明属于图像分类的技术领域,具体涉及一种基于数据增强的半监督零样本图像分类方法。
背景技术
近年来,机器学习在自然语言处理、计算机视觉、语音识别等领域都得到了广泛应用,而在计算机视觉领域,图像分类任务是最受关注且应用最广的任务之一,各种分类技术层出不穷,性能不断提升。在机器学习任务中,通过大量人工标注的图像而实现分类的监督学习方法是图像分类的传统方法,在现实生活中得到了很好的应用。然而,实际中为每个类别的图像收集足够的样本并且进行标注并不容易,会消耗大量的劳动力。不难理解,自然界的物种分布呈现长尾效应,只有少数类别的物种具有足够的图像样本可供监督学习训练分类模型,而很多类别的物种样本少而标签标注困难,这就使监督学习带来巨大挑战。因此,为解决样本标签缺失的问题,零样本学习应运而生。
零样本图像分类是零样本学习的一个重要方向,用来解决图像标注困难的分类问题。零样本图像分类有以下几种划分方式:第一种是根据测试样本的目标类别分为传统零样本学习和广义零样本学习,其中传统设定下测试样本都属于未见类,而广义设定中测试样本的目标类别包括可见类和未见类;第二种是根据训练的数据中是否包括未见类别的样本分为直推式零样本分类和传导式零样本分类。
目前零样本图像分类的具体实施方法可大致分为两种:一是基于映射的方法,通过视觉特征空间和语义特征空间之间的映射或者二者到公共空间的映射来对其视觉特征和语义特征,从而获得较好的分类结果;二是基于生成的方法,利用生成对抗网络、变分自编码器等生成模型来生成测试样本的伪特征,通过比较生成的伪特征与真实特征之间的相似度来确定所属类别。
为了完成对测试样本类别的预测,零样本图像分类技术通过利用可见类和未见类的语义信息以达到知识迁移的作用,同时本发明引入与测试类别相关的类别样本参与训练。实验设置如下所示:在训练阶段,给定N个可见类的带标签样本其中n为可见类的样本数目,为第i个样本的视觉特征,表示其相应的类别标签,此外,表示其对应的类级语义原型。同时,给定一个包括K个类别的附加类样本集其中k为附加数据集的样本数,表示样本xa对应的标签。测试过程中,传统的零样本图像分类是给定未见类的语义特征AU,将测试样本xt分到未见类YU中,且广义的零样本图像分类是根据可见类和未见类的语义特征,将测试样本xt分到可见类和未见类中。此外,引入附加类样本的同时要注意保证且总之,半监督零样本图像分类就是利用可见类和附加类样本的相关特征训练模型,利用这个模型预测测试样本的类别标签yt。
通过学习视觉空间和语义空间之间的简单映射关系会导致特征表征的不完整,同时会产生低维枢纽点问题。通过学习从高维视觉空间到低维语义空间的简单映射会引发高维中不同类的样本压缩到低维中同一类语义的枢纽点现象,而从低维空间到高维空间的简单映射同样会产生类似的问题。此外,生成对抗网络的引入不可避免的是其本身训练不稳定,易引发模式崩溃的问题,不能保证完全生成的样本的可靠性。因此,在引入附加类样本之前,无监督的训练方式容易造成可见类到未见类的知识迁移不完全的问题。
发明内容
本发明的目的在于:针对现有技术的不足,提供一种基于数据增强的半监督零样本图像分类方法,提高可见类到未见类知识迁移的能力,从而提升零样本图像分类的性能。
为了实现上述目的,本发明采用如下技术方案:
一种基于数据增强的半监督零样本图像分类方法,包括如下步骤:
1)分别初始化回归器R和生成器G的参数为r和e;
2)将可见类的视觉特征和类别语义特征随机选取设定批量的数据分别记作xs和as,从附加类样本中也提取相同批量的数据记作xa;
其中,[;]表示两个向量的级联;
6)计算生成样本与真实样本的重构损失函数:
7)将回归损失函数与重构损失函数相加,训练回归器和生成器,更新它们的参数:
Ltotal=Lreg+λLrec
其中,Ltotal表示模型的总损失函数;
8)重复步骤2)~步骤7),达到设定的迭代次数,得到最终的回归器R和生成器G的参数r和e;
9)将测试样本的视觉特征xt输入到训练好的生成器G中,获得对应的语义特征,利用最近邻的方法对生成语义特征进行分类,即:
作为本发明所述的一种基于数据增强的半监督零样本图像分类方法的一种改进,所述步骤2)的附加类ya的样本视觉特征xa的获取过程包括:
利用搜索引擎,搜索和未见类相关的类别作为附加类别ya,下载若干附加类的清晰图像,且保证附加类别的数目与未见类数目相同,且附加类与可见类和未见类都不相交;
将获得的图像输入resnet101网络,获得相应的视觉特征xa。
回归器R的网络结构由3层全连接层表示,其中前两层利用relu函数作为激活层,工作过程为:
其中,fc1、fc2和fc3分别表示3个全连接层,relu()表示激活函数。
作为本发明所述的一种基于数据增强的半监督零样本图像分类方法的一种改进,所述步骤5)的生成器G的结构使用与回归器对称的结构,其工作过程为:
作为本发明所述的一种基于数据增强的半监督零样本图像分类方法的一种改进,还包括:
作为本发明所述的一种基于数据增强的半监督零样本图像分类方法的一种改进,还包括:
给定xt为测试样本的视觉特征,at为测试样本的类别语义特征。
本发明的有益效果在于,本发明利用双向映射网络的方法实现视觉特征与语义特征的对齐并获取附加类样本的语义信息,与原可见类的语义信息一起训练特征映射网络,从而将更多更直观高效地提升零样本学习的性能。本发明利用快捷的搜索引擎,在训练过程中引入与未见类别相关的附加类别的数据,使可见类的信息可以很好地迁移到未见类中;同时不需要加入更多的语义信息,也就不需要耗费更多的人力,方便快捷;此外,本发明采用视觉特征和语义特征双向映射的方式,生成附加类样本的语义表示,使模型更好地从可见类迁移到未见类上去,提高模型的泛化能力,有助于推动零样本学习应用于生产生活实际,加速深度学习算法向实用发展。
附图说明
下面将参考附图来描述本发明示例性实施方式的特征、优点和技术效果。
图1为本发明的结构示意图。
具体实施方式
如在说明书及权利要求当中使用了某些词汇来指称特定组件。本领域技术人员应可理解,硬件制造商可能会用不同名词来称呼同一个组件。本说明书及权利要求并不以名称的差异来作为区分组件的方式,而是以组件在功能上的差异来作为区分的准则。如在通篇说明书及权利要求当中所提及的“包含”为一开放式用语,故应解释成“包含但不限定于”。“大致”是指在可接受的误差范围内,本领域技术人员能够在一定误差范围内解决技术问题,基本达到技术效果。
此外,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。
在发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
以下结合附图1对本发明作进一步详细说明,但不作为对本发明的限定。
本发明引入搜索引擎获取的与未见类相似的附加类别的视觉特征,利用一个回归器和生成器,分别实现视觉空间到语义空间、语义空间到视觉空间的双向映射,具体来说,将可见类和附加类的视觉特征通过回归器生成相应的语义特征,再通过一个生成器将真实的可见类语义特征与合成的语义特征映射回视觉空间,合成视觉特征。训练好模型后,使用最近邻来对测试样本进行分类,实现零样本图像分类技术。
发明人发现可见类与未见类越相关且训练数据越多,学习到的迁移知识越有利于未见类别样本的推断。因此本发明采用半监督的训练方式,充分利用搜索引擎来获取更多与未见类相关的样本,结合视觉特征和语义特征相互映射的方式,从而提高可见类到未见类知识迁移的能力,提升零样本图像分类的性能。
本发明采用一种新的零样本图像分类的设定方法,引入从搜索引擎上下载的大量与未见类别相关的类别样本,与可见类别的样本和语义信息加入到训练过程中,同时不引入更多的附加信息,而在测试时根据测试样本的目标类别进行传统零样本分类和广义零样本分类的实验。
本发明首先将图像数据集分为可见类和未见类,可见类包括来自N个类别的n个样本,表示为其中为第i个训练样本的视觉特征,和分别表示第i个训练样本相应的类别标签和类别语义原型。附加类包括来自K个类别的k个样本,表示为其中xa和ya分别表示样本的视觉特征和类别标签。给定xt为测试样本的视觉特征,at为测试样本的类别语义特征。传统的零样本图像分类是给定未见类的语义特征at∈AU,将xt分到未见类YU中,且广义的零样本图像分类是根据AS和AU,将xt分到可见类和未见类中。此外,本发明引入附加类样本的同时要注意保证且总之,半监督零样本图像分类就是利用可见类和附加类样本的相关特征训练模型,利用这个模型预测测试样本的类别标签yt。如图1所示,进行如下步骤:
1)分别初始化回归器R和生成器G的参数为r和e;
2)将可见类的视觉特征和类别语义特征随机选取设定批量的数据分别记作xs和as,从附加类样本中也提取相同批量的数据记作xa。
其中,[;]表示两个向量的级联。
6)计算生成样本与真实样本的重构损失函数:
7)将回归损失函数与重构损失函数相加,训练回归器和生成器,更新它们的参数:
Ltotal=Lreg+λLrec (5)
其中,Ltotal表示模型的总损失函数。
8)重复步骤2)~步骤7),达到设定的迭代次数,得到最终的回归器R和生成器G的参数r和e。
9)将测试样本的视觉特征xt输入到训练好的生成器G中,获得对应的语义特征,利用最近邻的方法对生成语义特征进行分类,即:
根据上述说明书的揭示和教导,本发明所属领域的技术人员还能够对上述实施方式进行变更和修改。因此,本发明并不局限于上述的具体实施方式,凡是本领域技术人员在本发明的基础上所作出的任何显而易见的改进、替换或变型均属于本发明的保护范围。此外,尽管本说明书中使用了一些特定的术语,但这些术语只是为了方便说明,并不对本发明构成任何限制。
Claims (6)
1.一种基于数据增强的半监督零样本图像分类方法,其特征在于,包括如下步骤:
1)分别初始化回归器R和生成器G的参数为r和e;
2)将可见类的视觉特征和类别语义特征随机选取设定批量的数据分别记作xs和as,从附加类样本中也提取相同批量的数据记作xa,所述附加类包括来自K个类别的k个样本,表示为其中xa和ya分别表示样本的视觉特征和类别标签;
其中,[;]表示两个向量的级联;
6)计算生成样本与真实样本的重构损失函数:
7)将回归损失函数与重构损失函数相加,训练回归器和生成器,更新它们的参数:
Ltotal=Lreg+λLrec
其中,Ltotal表示模型的总损失函数;
8)重复步骤2)~步骤7),达到设定的迭代次数,得到最终的回归器R和生成器G的参数r和e;
9)将测试样本的视觉特征xt输入到训练好的生成器G中,获得对应的语义特征,利用最近邻的方法对生成语义特征进行分类,即:
2.如权利要求1所述的一种基于数据增强的半监督零样本图像分类方法,其特征在于,所述步骤2)的附加类ya的样本视觉特征xa的获取过程包括:
利用搜索引擎,搜索和未见类相关的类别作为附加类别ya,下载若干附加类的清晰图像,且保证附加类别的数目与未见类数目相同,且附加类与可见类和未见类都不相交;
将获得的图像输入resnet101网络,获得相应的视觉特征xa。
6.如权利要求1所述的一种基于数据增强的半监督零样本图像分类方法,其特征在于,还包括:
给定xt为测试样本的视觉特征,at为测试样本的类别语义特征。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011147838.5A CN112364893B (zh) | 2020-10-23 | 2020-10-23 | 一种基于数据增强的半监督零样本图像分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011147838.5A CN112364893B (zh) | 2020-10-23 | 2020-10-23 | 一种基于数据增强的半监督零样本图像分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112364893A CN112364893A (zh) | 2021-02-12 |
CN112364893B true CN112364893B (zh) | 2022-07-05 |
Family
ID=74511956
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011147838.5A Active CN112364893B (zh) | 2020-10-23 | 2020-10-23 | 一种基于数据增强的半监督零样本图像分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112364893B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113111917B (zh) * | 2021-03-16 | 2022-07-01 | 重庆邮电大学 | 一种基于双重自编码器的零样本图像分类方法及装置 |
CN114037866B (zh) * | 2021-11-03 | 2024-04-09 | 哈尔滨工程大学 | 一种基于可辨伪特征合成的广义零样本图像分类方法 |
CN114694150B (zh) * | 2022-05-31 | 2022-10-21 | 成都考拉悠然科技有限公司 | 一种提升数字图像分类模型泛化能力的方法及系统 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107563444A (zh) * | 2017-09-05 | 2018-01-09 | 浙江大学 | 一种零样本图像分类方法及系统 |
EP3682370A4 (en) * | 2017-09-12 | 2021-06-09 | HRL Laboratories, LLC | VISIONIC SYSTEM WITHOUT SHOOTING SENSITIVE TO ATTRIBUTES THROUGH SHARED COMMON REPRESENTATIONS |
CN108376267B (zh) * | 2018-03-26 | 2021-07-13 | 天津大学 | 一种基于类别转移的零样本分类方法 |
CN109598279B (zh) * | 2018-09-27 | 2023-04-25 | 天津大学 | 基于自编码对抗生成网络的零样本学习方法 |
CN110580501B (zh) * | 2019-08-20 | 2023-04-25 | 天津大学 | 一种基于变分自编码对抗网络的零样本图像分类方法 |
-
2020
- 2020-10-23 CN CN202011147838.5A patent/CN112364893B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN112364893A (zh) | 2021-02-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112364893B (zh) | 一种基于数据增强的半监督零样本图像分类方法 | |
CN112364894B (zh) | 一种基于元学习的对抗网络的零样本图像分类方法 | |
CN112069920B (zh) | 基于属性特征驱动聚类的跨域行人重识别方法 | |
CN107766933B (zh) | 一种解释卷积神经网络的可视化方法 | |
CN110580501A (zh) | 一种基于变分自编码对抗网络的零样本图像分类方法 | |
CN103425996B (zh) | 一种并行分布式的大规模图像识别方法 | |
CN106650820B (zh) | 一种手写电气元器件符号与标准电气元器件符号的匹配识别方法 | |
CN113806493B (zh) | 一种用于互联网文本数据的实体关系联合抽取方法、装置 | |
CN113378563B (zh) | 一种基于遗传变异和半监督的案件特征提取方法及装置 | |
CN113448843B (zh) | 基于缺陷分析的图像识别软件测试数据增强方法及装置 | |
Wang et al. | Multi-task Joint Sparse Representation Classification Based on Fisher Discrimination Dictionary Learning. | |
CN116842194A (zh) | 一种电力语义知识图谱系统及方法 | |
CN112685374B (zh) | 日志分类方法、装置及电子设备 | |
Wang et al. | Unsupervised category discovery via looped deep pseudo-task optimization using a large scale radiology image database | |
CN112633346A (zh) | 一种基于特征交互性的特征选择方法 | |
CN116611071A (zh) | 一种基于多模态的函数级漏洞检测的方法 | |
CN116525075A (zh) | 基于少样本学习的甲状腺结节计算机辅助诊断方法及系统 | |
CN115269870A (zh) | 一种基于知识图谱实现数据中台数据链路故障分类预警的方法 | |
CN113987188B (zh) | 一种短文本分类方法、装置及电子设备 | |
Sunitha et al. | Novel content based medical image retrieval based on BoVW classification method | |
CN114329124A (zh) | 基于梯度重优化的半监督小样本分类方法 | |
CN117669656A (zh) | 基于TCN-Semi PN的直流微电网稳定性实时监测方法及装置 | |
CN114202038B (zh) | 一种基于dbm深度学习的众包缺陷分类方法 | |
CN114387444A (zh) | 一种基于负边界三元组损失和数据增强的零样本分类方法 | |
Zhou et al. | Efficient image evidence analysis of cnn classification results |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |