CN112380374B - 一种基于语义扩充的零样本图像分类方法 - Google Patents
一种基于语义扩充的零样本图像分类方法 Download PDFInfo
- Publication number
- CN112380374B CN112380374B CN202011149508.XA CN202011149508A CN112380374B CN 112380374 B CN112380374 B CN 112380374B CN 202011149508 A CN202011149508 A CN 202011149508A CN 112380374 B CN112380374 B CN 112380374B
- Authority
- CN
- China
- Prior art keywords
- class
- vector
- semantic
- seen
- attribute
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/55—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Library & Information Science (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于语义扩充的零样本图像分类方法,用于计算机识别无标签的图像,为其分配对应的类标签,包括S1构建已见类的潜在扩充语义信息;S2构建未见类的潜在扩充语义信息;S3构建生成对抗网络模型模式坍塌约束规则;S4构建基于语义扩充的零样本图像分类模型,合成视觉特征,利用合成的视觉特征构建特征分类器。本发明通过扩充语义信息,合成了更具多样性和判别性的视觉特征,进一步提高了网络的泛化性能。
Description
技术领域
本发明涉及标签分类,具体涉及一种基于语义扩充的零样本图像分类方法。
背景技术
对于零样本图像分类问题,通常的解决方法分为两大类别:一是学习基于空间的一个映射函数,使用该映射函数来进行零样本图像分类;二是使用生成对抗网络,为未见过类别生成视觉特征,从而把零样本图像分类问题,转化为传统的有监督的图像分类问题。然而,第一类方法因为在网络训练阶段,只使用了已见过类别的图像特征进行训练,导致训练好的网络在对测试样本进行预测时,会极大可能把该测试样本预测为网络训练时已经见过的类别,从而导致网络对于未见过类别的预测准确率大大降低,该现象称为类别预测偏置。第二类方法,在很大程度上缓解了第一类方法的弊端,但是由于在使用生成对抗网络为未见过类别生成视觉特征的时候使用了领域专家人为定义的语义信息作为条件,导致语义信息并不能完整准确地描述类别的全部信息。使用不完整的语义信息作为生成对抗网络的条件生成出的未见类的视觉特征不具有更加真实性和多样性的特点,从而损害了网络对未见过类别的预测准确率。
发明内容
为了克服现有技术存在的缺点与不足,本发明提供一种基于语义扩充的零样本图像分类方法,将人为定义的不完整的语义信息进行扩充得到更加完整且丰富的语义信息。使用扩充后的语义信息结合生成对抗网络来合成更具多样性和真实性的视觉特征来解决零样本图像的分类问题。
本发明提出的方法模型在传统零样本图像分类和广义零样本图像分类问题中均可使用,是一个具有较强鲁棒性的通用模型。
本发明采用如下技术方案:
一种基于语义扩充的零样本图像分类方法,用于计算机识别无标签的图像,为其分配对应的类标签,包括如下步骤:
S1构建已见类的潜在扩充语义信息;
S2构建未见类的潜在扩充语义信息;
S3构建生成对抗网络模型模式坍塌约束规则;
S4构建基于语义扩充的零样本图像分类模型,合成视觉特征,利用合成的视觉特征构建特征分类器。
进一步,S1构建已见类的潜在扩充语义信息,具体为:
使用视觉语义嵌入网络E(x)将已见类的视觉特征向量映射至将语义向量和视觉特征向量关联起来的嵌入空间
进一步,视觉语义嵌入网络在每个训练批次前构造一组三元组样本数据集其中xi,xj来自相同类别的已见过类的视觉特征,xi,xk表示来自不同类别的视觉特征,E(xi)将转化为[ui,li],然后依据LE损失进行训练。
进一步,在人为定义的属性语义空间中,计算每一个未见类与其他已见类的相似度,相似度计算公式为:
给定相似度分数阈值ξ,0≤ξ≤1,对筛选出的所有的相似度分数向量[α1,α2...αk],ξ≤α1,α2...αk≤1,由公式得出所有未见过类的扩充语义向量,其中表示第i个未见过类的类中心扩充语义向量,αj表示大于阈值ξ的第i个未见过类与第j个已见过类的相似度分数,表示第j个已见过类的类中心扩充语义向量。
通过坍塌约束规则:ε=1e-7,约束当zi和zj相似时,和尽可能有较大的差异性;其中zi和zj分别表示从Z~N(0,1)标准正态分布中随机采样得到的噪声向量,和表示WGAN使用zi和zj合成出的视觉特征向量,cossim(zi,zj)和表示求两个向量的余弦相似度。
进一步,所述SA-WGAN-VAE网络模型包括VAE网络模块及WGAN网络模块。
进一步,所述WGAN网络模块包括生成器和判别器,
进一步,用于训练视觉嵌入网络E(x)的损失函数为:
LE=Lua+Lls
其中
Lls=max(m+dis(li,lj)-dis(li,lk),0)
N表示已见类的类别数目,ac表示第c个已见类人为定义的属性语义向量,表示每一类中每个样本产生的对数分类损失值,<ui,ai>表示向量ui与向量ai的点积,表示每一类中n个样本分类损失的累加值,即Lua表示N个类别所有样本的对数分类损失;
Lls=max(m+dis(li,lj)-dis(li,lk),0)表示利用三元组损失函数来拉近同一类别样本间的距离,推远不同类别样本间的距离,以此来学习到人为定义的属性语义向量中未包含的表达类间可分关系的潜在属性,从而来得到扩充的语义向量,dis(li,lj)表示潜在扩充属性向量li与潜在扩充属性向量lj的欧式距离,dis(li,lk)表示潜在扩充属性向量li与潜在扩充属性向量lk的欧式距离;li与lj来自同一个类不同样本的潜在扩充属性向量,li与lk来自不同类的不同样本的潜在扩充属性向量,m表示三元组损失的一个边距间隔,通常设置为1.0。
进一步,所述S4中,
用SA-WGAN-VAE网络模型,结合人为定义的属性语义向量和S2中构建的扩充语义向量,使用已见过类数据集来训练SA-WGAN-VAE网络模型参数,每使用5个批次的Ds训练网络后,为未见过类生成视觉特征,使用已见过类的视觉特征和合成的未见过类的视觉特征训练分类器,使用验证集数据周期性对当前分类器进行分类准确率测试,当分类器的分类准确率趋于平缓时,停止网络训练,保存当前网络模型参数。
本发明与现有技术相比,具有如下优点与有益效果:
1、相比基于空间映射的零样本分类方法,本发明克服了网络的预测偏置现象;相比基于特征生成的零样本分类方法,本发明通过扩充语义信息,合成了更具多样性和判别性的视觉特征,进一步提高了网络的泛化性能。
2、本发明设计的方法模型是能应用在不同类型数据上的通用模型,对于不同类型的数据使用统一的端到端网络模型即可进行零样本分类学习。
3、本发明设计的扩充语义向量对不同数据集有很强的适应性,可以结合现有的生成式零样本分类模型,提升该模型的对于零样本数据的分类准确率。
4、本发明设计的方法模型可以较好地识别已见过类的样本,训练过程中,始终保证对少数类样本有较高的预测准确率。
5、本发明设计的方法可通过调整Lc函数进一步缓和SA-WGAN-VAE网络的模式坍塌问题,以一种灵活可控的方式避免生成的视觉特征呈现单一模式。当采样得到zi和zj相似度高时,仍鼓励网络利用该相似度高的向量组生成尽可能差异性大的视觉特征从而提升特征的多样性和丰富度。可通过调节合适的Lc函数的值来提升模型性能。
6、对于基于语义扩充的零样本图像分类模型,本发明在训练模型时,使用验证集数据中已见过类和未见过类的类平均预测准确率来评估网络的性能,较好地追踪模型真实性能的变化,训练出的模型的更加可靠。
附图说明
图1是本发明方法的工作流程图;
图2是本发明实施例的视觉语义嵌入网络和SA-WGAN-VAE输入数据的实例图。
图3为本发明训练基于语义扩充的零样本图像分类模型的算法流程图。
具体实施方式
下面结合实施例及附图,对本发明作进一步地详细说明,但本发明的实施方式不限于此。
实施例
如图1-图3所示,本实施例所提供的基于语义扩充的零样本分类方法,包括以下步骤:
S1构建已见过类的潜在扩充语义信息,具体为:
S1.2针对数据集其中为已见类的视觉特征向量,为已见类的标签,为已见类的人为定义的属性语义向量。使用视觉语义嵌入网络E(x)将已见类的视觉特征映射至将语义信息和视觉信息关联起来的嵌入空间。每一个已见类的视觉特征向量经[ui,li]=E(xi)映射后,产生映射属性向量ui和潜在扩充属性向量li。
具体来说,该视觉特征向量是通过卷积神经网络提取得到,用来描述类的图片相关视觉信息,同一类别的视觉特征向量之间存在相似性,不同类别之间的视觉特征向量存在差异性,使用视觉特征向量有利于帮助计算机识别出具体类别。属性语义向量具体是通过定义类的各个属性并且给这些属性赋予一定数值,即通过一组属性值组成的向量来描述每一个类,比如对于斑马类,斑马有条纹、外形及体重等属性,可以通过给体重、外形等属性赋予一个数值来具体描述一个类别要是斑马的情况下,这些属性应该是多少,该部分为人为定义。
用于训练视觉嵌入网络E(x)的损失函数为:
LE=Lua+Lls
其中
Lls=max(m+dis(li,lj)-dis(li,lk),0)
N表示已见类的类别数目,ac表示第c个已见类人为定义的属性语义向量,表示每一类中每个样本产生的对数分类损失值,<ui,ai>表示向量ui与向量ai的点积,表示每一类中n个样本分类损失的累加值,即Lua表示N个类别所有样本的对数分类损失。Lls=max(m+dis(li,lj)-dis(li,lk),0)表示利用三元组损失函数来拉近同一类别样本间的距离,推远不同类别样本间的距离,以此来学习到人为定义的属性语义向量中未包含的表达类间可分关系的潜在属性,从而来得到扩充的语义向量,dis(li,lj)表示潜在扩充属性向量li与潜在扩充属性向量lj的欧式距离,dis(li,lk)表示潜在扩充属性向量li与潜在扩充属性向量lk的欧式距离;li与lj来自同一个类不同样本的潜在扩充属性向量,li与lk来自不同类的不同样本的潜在扩充属性向量,m表示三元组损失的一个边距间隔,通常设置为1.0。
S1.3获得的所有已见类的扩充语义向量,由公式得出每一个可见类的类中心扩充语义向量,其中表示第i个已见类的类中心扩充语义向量,lj表示第i个已见类的第j个样本的扩充语义向量,n表示第i个已见类中有n个样本。
语义视觉嵌入网络E(x)参数如表1所示。
表1语义视觉嵌入网络E(x)参数设置
Layer | Width | Height | Depth |
Input | 32 | 32 | 1 |
Flatten | 1 | 1 | 1024 |
FullyConnected | 1 | 1 | 4096 |
ReLU | 1 | 1 | 4096 |
FullyConnected | 1 | 1 | 624 |
S2构建未见类的潜在扩充语义信息;
S2.1在人为定义的属性语义空间中,计算每一个未见过类与其他已见过类的相似度,相似度计算公式为:
S3构建生成对抗网络模型以及缓和模式坍塌约束规则:
根据S2中得到的已见过类和未见过类的类中心扩充语义向量和以及人为定义的属性语义向量a作为条件,构建Wasserstein Generative Adversarial Networks(WGAN)和Variational Autoencoders(VAE),Semantic Augment组合的SA-WGAN-VAE网络模型,通过ε=1e-7,保证当zi和zj相似时,和尽可能有较大的差异性;SA-WGAN-VAE网络模型由两部分组成,分别为VAE网络模块、WGAN网络模块。其中WGAN网络模块包含生成器模块和判别器模块。通过如下损失函数:
更新VAE模块参数,其中KL表示Kullback-Leibler divergence,q(z|x,a)表示给定x,a时生成z的条件分布,x,a,分别表示类的视觉特征向量、人为定义的语义向量以及已见过类的中心扩充语义向量,p(x|a)假设服从标准正态分布N(0,1)。Epq(z|x,a)[logp(x|z,a)]表示求logp(x|z,a)的期望,通过如下损失函数
更新WGAN模块,其中D(x,a)表示判别器D将x,a一起输入给出判别结果,表示生成器G以人为定义的属性语义向量a作为条件的合成视觉特征,表示生成器G以已见过类的中心扩充语义向量作为条件的合成视觉特征,其中U(0,1)表示均匀分布,同理λ表示梯度惩罚系数。
VAE网络模块参数如表2所示
表2语义VAE网络参数设置
Layer | Width | Height | Depth |
Input | 1 | 1 | 2048 |
FullyConnected | 1 | 1 | 4096 |
LeakyReLU | 1 | 1 | 4096 |
FullyConnected | 1 | 1 | 2048 |
生成器参数如表3所示
表3生成器参数设置
Layer | Width | Height | Depth |
Input | 1 | 1 | 2048 |
FullyConnected | 1 | 1 | 2048 |
LeakyReLU | 1 | 1 | 2048 |
FullyConnected | 1 | 1 | 4096 |
LeakyReLU | 1 | 1 | 4096 |
FullyConnected | 1 | 1 | 2048 |
Sigmoid | 1 | 1 | 2048 |
判别器参数如表4所示
表4判别器参数设置
S4训练基于语义扩充的零样本图像分类模型,合成视觉特征,利用合成的视觉特征构建特征分类器。具有如下特征:
①利用已见类和未见过类的人为定义的属性语义向量和扩充语义向量结合SA-WGAN-VAE网络合成视觉特征;
②在模型训练过程中,使用验证集数据周期性对当前分类进行准确率测试,当分类器的分类准确率趋于平缓时,停止网络训练,保存当前分类器模型参数。
使用预处理的CUB数据集对本发明上述方法进行具体说明。对于原始CUB数据集,CUB是具有200个类别的描述鸟类的数据集,本发明随机取其中150个类别的鸟类图片数据作为已见过类别,将剩余的50个类的鸟类图片数据作为未见过类;已见过类别和未见过类的实例图片如图2所示,一共11788长图片。使用通用的ResNet101网络对已见过类和未见过类的抽取2048维的图像特征集合分别记为
在本实例中,所述的基于语义扩充的零样本分类方法,包括以下步骤:
1)将通过E(x)将xi转换为[ui,li],通过和Lls=max(m+dis(li,lj)-dis(li,lk),0)损失函数计算梯度;根据梯度更新E(x)网络参数,当Lua,Lls损失值不再下降时,停止训练,由公式得出CUB数据集中150种可见类的类中心扩充语义向量。
3)根据步骤2)中得到CUB数据集中150类已见过鸟类和50类未见过鸟类的中心扩充语义向量和以及原有人为定义的已见过类属性语义向量集As={ai s},i=1,2,3......150、Au={aj u},j=1,2,3......50,ai s,向量维度均为312。构建SA-WGAN-VAE网络,网络模块参数上述内容,同时为了缓和WGAN的模式坍塌问题,构建ε=1e-7损失函数。
4)训练基于语义扩充零样本分类模型,具有如下特征
①将CUB中已见过类数据集中每一个已见过类样本xi,向量输入到VAE网络中产生潜在变量对zi,,随后将该潜在变量对与以及As={ai s},i=1,2,3......150进行组合形成[zi,Li s]和[zi,ai s]输入到生成器中生成重建视觉向量通过Lvae计算损失更新VAE模块网络参数。
②将CUB中已见过类的以及As={ai s},i=1,2,3......150与标准正态分布随机采样得到噪声向量z1 N,组合形成[z2 N,ai s]向量对进而输入到WGAN的生成器模块中产生两个合成视觉向量合成视觉向量随后输入到WGAN的判别器模块中输出辨别结果,依据判别器输出的结果通过Lwgan计算损失更新WGAN模块网络参数。
③在使用CUB 150种已见过类训练好SA-WGAN-VAE网络参数后,使用SA-WGAN-VAE结合为CUB剩余的50种未见过类生成视觉特征数据集每一种未见过类使用SA-WGAN-VAE为其合成300个视觉特征。将和Ds输入到分类器C中使用Softmax损失函数进行网络训练,C(xi)表示分类器C输出的类预测概率值。
分类器C模型参数如表5所示
表5分类器C模型参数设置
Layer | Width | Height | Depth |
Input | 1 | 1 | 2048 |
FullyConnected | 1 | 1 | 4096 |
LeakyReLU | 1 | 1 | 4096 |
FullyConnected | 1 | 1 | 200 |
④在模型的训练中,采用Adam网络优化器,优化器的学习率对所有数据集设定为恒定的学习率大小为0.001;梯度惩罚因子λ设置为10,WGAN模块训练时,每进行5轮判别器模块的参数更新后进行一次生成器参数的更新;设置分类器的学习率为0.0001,训练过程中周期性使用验证数据集监控分类器对于已见过类和未见过类的平均分类准确率,当类的平均分类准确率不再上升时,终止训练,保存模型。在测试阶段,对测试集的已见过类的平均分类准确率为56.1%,未见过类的平均分类准确率为56.8%。
本发明的算法模型使用Python3.5编写,基于深度学习框架Pytorch,实验运行的GPU型号为2块NVIDIA GeForce GTX 1080Ti,一共22GB显存。
其它零样本图像分类方法类似此方法。
综上所述,本发明利用扩充的语义向量的优势对零样本分类问题建模,通过使用扩充的语义向量弥补了人为定义的属性语义向量的不全面,保证SA-WGAN-VAE利用扩充语义向量和人为定义的属性语义向量能够合成更具多样性和更符合真实样本分布的视觉特征。本发明提出的方法模型在传统零样本分类和广义零样本分类问题中均适用,在不同类型的数据环境和结合不同特征生成模型都能有优秀的分类表现,是一个具有较强鲁棒性的通用模型。因而本发明具有实际应用价值,值得推广。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受所述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (6)
1.一种基于语义扩充的零样本图像分类方法,用于计算机识别无标签的图像,为其分配对应的类标签,其特征在于,包括如下步骤:
S1构建已见类的潜在扩充语义信息;
S2构建未见类的潜在扩充语义信息;
S3构建生成对抗网络模型模式坍塌约束规则;
S4构建基于语义扩充的零样本图像分类模型,合成视觉特征,利用合成的视觉特征构建特征分类器;
S1构建已见类的潜在扩充语义信息,具体为:
视觉语义嵌入网络在每个训练批次前构造一组三元组样本数据集其中xti,xtj来自相同类别的已见过类的视觉特征,xti,xtk表示来自不同类别的视觉特征,E(xi)将转化为[ui,li],然后根据三元组损失函数进行训练;
S2构建未见类的潜在扩充语义信息,具体为:
在人为定义的属性语义空间中,计算每一个未见类与其他已见类的相似度,相似度计算公式为:
给定相似度分数阈值ξ,0≤ξ≤1,对筛选出的所有的相似度分数向量[α1,α2...αk],ξ≤α1,α2...αk≤1,k是和第j类未见过类的属性语义向量相似度值大于ξ的已见过类属性语义向量的个数,由公式得出所有未见过类的扩充语义向量,其中表示第j个未见过类的类中心扩充语义向量,αr表示大于阈值ξ的第j个未见过类与第i个已见过类的相似度分数,表示第i个已见过类的类中心扩充语义向量;
所述S3构建生成对抗网络模型模式坍塌约束规则,具体为:
2.根据权利要求1所述的零样本图像分类方法,其特征在于,所述SA-WGAN-VAE网络模型包括VAE网络模块及WGAN网络模块。
3.根据权利要求2所述的零样本图像分类方法,其特征在于,所述WGAN网络模块包括生成器和判别器。
4.根据权利要求1所述的零样本图像分类方法,其特征在于,
用于训练视觉嵌入网络E(x)的损失函数为:
LE=Lua+Lls
其中
Lls=max(m+dis(lti,ltj)-dis(lti,ltk),0)
N表示已见类的类别数目,Ys为已见类标签集合,表示第c个已见类人为定义的属性语义向量,表示每一类中每个样本产生的对数分类损失值,<ui,ai>表示向量ui与向量ai的点积,表示每一类中n个样本分类损失的累加值,即Lua表示N个类别所有样本的对数分类损失;Lls=max(m+dis(lti,ltj)-dis(lti,ltk),0)表示利用三元组损失函数来拉近同一类别样本间的距离,推远不同类别样本间的距离,以此来学习到人为定义的属性语义向量中未包含的表达类间可分关系的潜在属性,从而来得到扩充的语义向量,dis(lti,ltj)表示潜在扩充属性向量lti与潜在扩充属性向量ltj的欧式距离,dis(lti,ltk)表示潜在扩充属性向量lti与潜在扩充属性向量ltk的欧式距离;lti与ltj来自同一个类不同样本的潜在扩充属性向量,lti与ltk来自不同类的不同样本的潜在扩充属性向量,m表示三元组损失的一个边距间隔。
6.根据权利要求4所述的零样本图像分类方法,其特征在于,m为1.0。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011149508.XA CN112380374B (zh) | 2020-10-23 | 2020-10-23 | 一种基于语义扩充的零样本图像分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011149508.XA CN112380374B (zh) | 2020-10-23 | 2020-10-23 | 一种基于语义扩充的零样本图像分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112380374A CN112380374A (zh) | 2021-02-19 |
CN112380374B true CN112380374B (zh) | 2022-11-18 |
Family
ID=74580912
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011149508.XA Active CN112380374B (zh) | 2020-10-23 | 2020-10-23 | 一种基于语义扩充的零样本图像分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112380374B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113378959B (zh) * | 2021-06-24 | 2022-03-15 | 中国矿业大学 | 一种基于语义纠错下生成对抗网络的零样本学习方法 |
CN113537322B (zh) * | 2021-07-02 | 2023-04-18 | 电子科技大学 | 一种跨模态语义增强生成对抗网络的零样本视觉分类方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106203483A (zh) * | 2016-06-29 | 2016-12-07 | 天津大学 | 一种基于语义相关多模态映射方法的零样本图像分类方法 |
WO2018032354A1 (en) * | 2016-08-16 | 2018-02-22 | Nokia Technologies Oy | Method and apparatus for zero-shot learning |
CN110516718A (zh) * | 2019-08-12 | 2019-11-29 | 西北工业大学 | 基于深度嵌入空间的零样本学习方法 |
CN110610124A (zh) * | 2019-07-30 | 2019-12-24 | 珠海亿智电子科技有限公司 | 一种基于生成对抗网络的图像生成方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017139764A1 (en) * | 2016-02-12 | 2017-08-17 | Sri International | Zero-shot event detection using semantic embedding |
CN110826638B (zh) * | 2019-11-12 | 2023-04-18 | 福州大学 | 基于重复注意力网络的零样本图像分类模型及其方法 |
-
2020
- 2020-10-23 CN CN202011149508.XA patent/CN112380374B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106203483A (zh) * | 2016-06-29 | 2016-12-07 | 天津大学 | 一种基于语义相关多模态映射方法的零样本图像分类方法 |
WO2018032354A1 (en) * | 2016-08-16 | 2018-02-22 | Nokia Technologies Oy | Method and apparatus for zero-shot learning |
CN110610124A (zh) * | 2019-07-30 | 2019-12-24 | 珠海亿智电子科技有限公司 | 一种基于生成对抗网络的图像生成方法 |
CN110516718A (zh) * | 2019-08-12 | 2019-11-29 | 西北工业大学 | 基于深度嵌入空间的零样本学习方法 |
Non-Patent Citations (3)
Title |
---|
Semantic Softmax Loss for Zero-Shot Learning;Zhong Ji et al.;《Neurocomputing》;20181231;369-375 * |
Zero-shot semantic segmentation;Maxime Bucher;《arXic》;20191231;1-15 * |
基于视觉误差与语义属性的零样本图像分类;徐戈等;《计算机应用》;20200430;第40卷(第04期);1017-1022 * |
Also Published As
Publication number | Publication date |
---|---|
CN112380374A (zh) | 2021-02-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109523463B (zh) | 一种基于条件生成对抗网络的人脸老化方法 | |
CN104866810B (zh) | 一种深度卷积神经网络的人脸识别方法 | |
CN109815826B (zh) | 人脸属性模型的生成方法及装置 | |
Cheng et al. | Exploiting effective facial patches for robust gender recognition | |
CN108647583B (zh) | 一种基于多目标学习的人脸识别算法训练方法 | |
Chin et al. | Incremental kernel principal component analysis | |
US7711156B2 (en) | Apparatus and method for generating shape model of object and apparatus and method for automatically searching for feature points of object employing the same | |
CN112307995B (zh) | 一种基于特征解耦学习的半监督行人重识别方法 | |
CN107578007A (zh) | 一种基于多特征融合的深度学习人脸识别方法 | |
Sun et al. | Facial age synthesis with label distribution-guided generative adversarial network | |
CN109858392B (zh) | 一种用于化妆前后人脸图像自动识别方法 | |
CN109978882A (zh) | 一种基于多模态融合的医疗影像目标检测方法 | |
CN112949740B (zh) | 一种基于多级度量的小样本图像分类方法 | |
CN112380374B (zh) | 一种基于语义扩充的零样本图像分类方法 | |
CN112528928A (zh) | 一种基于自注意力深度网络的商品识别方法 | |
CN116311483B (zh) | 基于局部面部区域重构和记忆对比学习的微表情识别方法 | |
Sinha et al. | Identity-preserving realistic talking face generation | |
CN105718898B (zh) | 基于稀疏无向概率图模型的人脸年龄估计方法、系统 | |
CN116229179A (zh) | 基于宽度学习系统的双松弛图像分类方法 | |
CN116704612A (zh) | 一种基于对抗域自适应学习的跨视角步态识别方法 | |
CN115690276A (zh) | 虚拟形象的视频生成方法、装置、计算机设备和存储介质 | |
CN115205903A (zh) | 一种基于身份迁移生成对抗网络的行人重识别方法 | |
CN114037866B (zh) | 一种基于可辨伪特征合成的广义零样本图像分类方法 | |
CN115393930A (zh) | 一种基于三分支卷积神经网络的表情识别方法 | |
CN109509144B (zh) | 一种基于对抗生成网络的与职业相关的人脸老化方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |