CN111967513A - 一种基于注意力的零样本图像分类方法 - Google Patents
一种基于注意力的零样本图像分类方法 Download PDFInfo
- Publication number
- CN111967513A CN111967513A CN202010809547.1A CN202010809547A CN111967513A CN 111967513 A CN111967513 A CN 111967513A CN 202010809547 A CN202010809547 A CN 202010809547A CN 111967513 A CN111967513 A CN 111967513A
- Authority
- CN
- China
- Prior art keywords
- sample
- attention
- aaln
- vector
- semantic vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 20
- 239000013598 vector Substances 0.000 claims abstract description 73
- 238000012549 training Methods 0.000 claims abstract description 20
- 230000008569 process Effects 0.000 claims description 5
- 230000009467 reduction Effects 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 2
- 238000000605 extraction Methods 0.000 abstract description 5
- 101100004037 Saccharomyces cerevisiae (strain Kyokai no. 7 / NBRC 101557) AWA1 gene Proteins 0.000 description 7
- 241000283070 Equus zebra Species 0.000 description 4
- 241001465754 Metazoa Species 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000013507 mapping Methods 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 208000025174 PANDAS Diseases 0.000 description 2
- 208000021155 Paediatric autoimmune neuropsychiatric disorders associated with streptococcal infection Diseases 0.000 description 2
- 240000004718 Panda Species 0.000 description 2
- 235000016496 Panda oleosa Nutrition 0.000 description 2
- 241000282376 Panthera tigris Species 0.000 description 2
- 230000004913 activation Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种基于注意力的零样本图像分类方法,包括特征提取阶段和分类阶段,特征提取阶段包括:利用CNN对训练集图像提取特征,特征经过多个网络分支得到语义向量每一维的表示,按序拼接每一维得到最终的语义向量表示。每个分支的结构相同,特征通过两个全连接层得到每个样本特征的注意力向量,将该注意力向量与特征逐元素再通过两个全连接层得到一个属性值。本发明将上述网络命名为面向零样本图像分类的基于注意力的属性学习网络AALN。分类阶段:将待分类的图像通过CNN提取特征,通过AALN计算每个分支的输出并拼接得到最终的语义向量,最后基于与未知类的语义向量的余弦相似度进行分类。
Description
技术领域
本发明属于图像处理及模式识别的技术领域,具体地涉及一种基于注意力的零样本图像分类方法。
背景技术
机器学习已经成功应用到许多领域,如语音识别、自然语言处理和计算机视觉等。图像分类是计算机视觉领域的一个重要分支。在传统基于机器学习算法的图像分类中,为了学习到好的分类模型以有效分类图像,通常需要大量的包含所有类别的训练样本,并且样本越多,得到的模型越好。不过得到有标注的训练样本是非常困难的。一方面,数据标注会提高数据预处理的人力和财力成本。因为手工标注的成本很高,不仅需要专业的知识,还要有大量人力的注入。特别地,随着图像/视频获取设备的普及,图像数据不断增长,这给训练样本标注带来极大压力。另一方面,计算机视觉任务常常希望计算机能识别自然界中成千上万的对象,但自然界中的对象分布是存在着长尾效应的,以数据集ImageNet为例,其包含的种类有2万种,超过1400万张的图像样本,但大部分的图像样本基本都属于人们常见的1000类,而其他类别包含的图像样本就少之又少,有的类别甚至只包含了1-2张图像样本。如何完成对这些未见过类别图像的识别任务是具有挑战性并且非常有前景的研究课题。在面对训练中未出现过的类别时,还能对该类样本进行准确的识别,这即是零样本学习所要解决的问题。
在许多现实应用中,经常需要对以前从未见过的类别的实例进行分类。当面对一个未见过的类别时,人们习惯用现有的知识对该未知类进行描述,根据这些描述去知识库搜索属于哪一类。例如,当识别出了马、老虎和熊猫,并且学习得到了马的外形信息、老虎身上的斑纹信息和熊猫的黑白肤色信息,而斑马在知识库中的描述是具有马的外形、身背条纹、拥有黑白肤色,那么可以根据这几种特性去识别出斑马,即使以前从未见过斑马。零样本学习也正是借鉴了这种思想。零样本学习的一个方法是首先定义一个语义知识库,对所有已知类和不可见类分别用语义向量对其进行编码,将各个语义向量之间的特性联系起来,通过训练已知类的样本,建立起已知类图像特征与语义向量之间的映射关系,对于待识别的图像样本,通过前述的映射关系会得到一个语义向量,再通过语义向量检索语义知识库,得到该样本的类别信息。
在图像分类任务中,提升网络性能的方法有很多,如增加空间维度等。但增加空间维度会降低计算效率,耗时更长。一般的图像分类任务在提取图像特征的过程中,无论是多通道的特征图还是最终的全局特征向量,都会存在冗余,即某些通道的特征图或者特征向量的某几个维度对该图像分类任务是有贡献的。零样本学习分类任务同样面临这样的问题,由于属性向量是带有语义的高维特征,在特征到属性向量的映射过程中,可以细化到特征向量每一维的贡献对应于属性向量的每一维是不同的,需要建立多个网络分支,计算特征向量中每个维度的权值,每一分支只针对属性向量的其中一维。
发明内容
零样本图像分类问题有N个类别,每个类别的类别信息用语义向量进行描述,其中N1个类别有对应的样本图像且每个类别对应不同数量的图像,这些类别称为已知类;剩余的(N-N1)个类别没有样本图像与之对应,这些类别称为未知类。零样本图像分类要解决的问题是如何基于已知类图像完成未知类图像的分类。
针对零样本图像分类问题,本发明提出一种基于注意力的属性学习网络(Attention-based Attribute Learning network for ZSL,AALN),学习样本的语义向量表示。首先对样本图像提取特征,针对语义向量的每一维计算样本特征的注意力权重向量,利用注意力权重向量与原始特征逐点相乘计算新特征;基于新特征计算样本的语义向量。对未知类样本,计算样本语义向量与未知类语义向量的距离,即可求得未知类样本所属的语义类别。本发明的具体技术解决方案是:
1、利用CNN提取已知类图像的特征
对训练集(已知类图像集)提取特征,得到训练样本特征集合X={Xi},Xi∈Rd是第i个训练样本的特征,Xi所属类的语义向量表示是Si∈Rr;
2、利用提取的已知类图像特征训练AALN网络,所述的AALN网络用于学习样本Xi的语义向量Pi∈Rr,其中,AALN包含r个分支网络如图1所示,每个分支网络的结构相同如图2所示,第m个分支网络AALNm负责学习样本的Xi的语义向量的第m维分量AALNm的计算过程如下:
1)根据公式(1)计算样本Xi的计算注意力权重向量Aim:
Aim=Sigmoid(W2m(ReLU(W1mXi))) (1)
其中,AALNm的损失如公式(3):
3、利用训练完成的AALN网络对未知类样本进行分类,所述分类阶段包括以下步骤:
1)对未知类的待分类样本利用CNN提取特征,Yj∈Rd表示未知类的第j个待分类样本的特征。
2)利用训练完成的AALN学习样本Yj的语义向量Pj。
3)计算Yj的语义向量Pj与各未知类的语义向量之间的余弦相似度。
4)最相似的类别即为待分类样本的分类结果。
有益效果
本发明在网络训练时,为每个特征向量针对属性向量的每一维学习一个注意力向量,在分类过程中增加了特征向量的表达能力。
附图说明
图1 AALN-ZSL的整体网络结构
图2一个AALN分支示意图
图3 AALN-ZSL与DAP方法比较的结果
具体实施方式
本发明以AWA1动物数据集为例,但不限于此,该数据集已经过CNN提取特征,符合本发明要求,如果某数据集只包含图像,需要先对图像提取特征,目前常见的手段是利用CNN提取特征。在AWA1动物数据集中,共有50个类别,训练时包含40种类别,称为已知类或可见类;10类用于测试,称为未知类或不可见类。该数据集使用的是由人工定义的类别属性所构成的共享语义嵌入空间,每个类别有85维的语义向量,语义向量的每一维是一个0-100的相对值。
下面更详细的说明本方法。
1特征提取阶段
本实施例中使用AWA1公开数据集,有50类的语义向量,每一类的语义向量均为85维,语义向量是知识库中预定义的。
如图1所示,图像通过CNN提取得到特征向量,CNN可以是GoogleNet、ResNet等,提取图像特征部分是所有分支共享的,且该部分的参数是固定不变的。AWA1数据集利用GoogleNet为每个样本提取得到1024维的特征向量,降维系数k,t均取2。如图2所示,以第m个分支网络AALNm为例,特征向量通过1024×512的变换矩阵得到512维的向量,并用ReLU激活函数进行激活,再通过512×1024的变换矩阵,并用Sigmoid激活得到1024维的注意力向量,将原始特征向量与注意力向量逐元素相乘后得到特征向量Xim,通过1024×512和512×1两个变换矩阵得到该样本语义向量第m维的预测值
是样本Xi所属类的语义向量的第m维分量,计算与之间的均方误差并利用Adam优化方法进行优化,学习率为0.001。由于每个分支是独立的,每一个分支单独进行优化。把每一分支得到的值按序拼接在一起得到每个样本的语义向量,最后计算得到的待分类样本语义向量与未知类语义向量的相似度找到该样本的最终分类结果。
为了验证本发明提出的算法的有效性,本发明选用AWA1动物数据集和aPY数据集进行了实验测试。
AWA1数据集和aPY数据集上的实验结果
图3为本发明的实验效果。在零样本学习中,DAP方法也是独立学习语义向量的每个维度,所以我们的方法与DAP进行比较,在整体的分类效果上好于DAP。
Claims (4)
4.根据权利要求1所述的一种基于注意力的零样本图像分类方法,其特征在于:步骤(3)所述的分类阶段包括以下步骤:
(3.1)对未知类的待分类样本利用CNN提取特征,Yj∈Rd表示未知类的第j个待分类样本的特征;
(3.2)利用训练完成的AALN学习样本Yj的语义向量Pj;
(3.3)计算Yj的语义向量Pj与各未知类的语义向量之间的余弦相似度;
(3.4)最相似的类别即为待分类样本的分类结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010809547.1A CN111967513B (zh) | 2020-08-12 | 2020-08-12 | 一种基于注意力的零样本图像分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010809547.1A CN111967513B (zh) | 2020-08-12 | 2020-08-12 | 一种基于注意力的零样本图像分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111967513A true CN111967513A (zh) | 2020-11-20 |
CN111967513B CN111967513B (zh) | 2024-05-31 |
Family
ID=73365789
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010809547.1A Active CN111967513B (zh) | 2020-08-12 | 2020-08-12 | 一种基于注意力的零样本图像分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111967513B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110163258A (zh) * | 2019-04-24 | 2019-08-23 | 浙江大学 | 一种基于语义属性注意力重分配机制的零样本学习方法及系统 |
CN110826638A (zh) * | 2019-11-12 | 2020-02-21 | 福州大学 | 基于重复注意力网络的零样本图像分类模型及其方法 |
US20200097771A1 (en) * | 2018-09-25 | 2020-03-26 | Nec Laboratories America, Inc. | Deep group disentangled embedding and network weight generation for visual inspection |
-
2020
- 2020-08-12 CN CN202010809547.1A patent/CN111967513B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200097771A1 (en) * | 2018-09-25 | 2020-03-26 | Nec Laboratories America, Inc. | Deep group disentangled embedding and network weight generation for visual inspection |
CN110163258A (zh) * | 2019-04-24 | 2019-08-23 | 浙江大学 | 一种基于语义属性注意力重分配机制的零样本学习方法及系统 |
CN110826638A (zh) * | 2019-11-12 | 2020-02-21 | 福州大学 | 基于重复注意力网络的零样本图像分类模型及其方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111967513B (zh) | 2024-05-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110532900B (zh) | 基于U-Net和LS-CNN的人脸表情识别方法 | |
CN108596039B (zh) | 一种基于3d卷积神经网络的双模态情感识别方法及系统 | |
CN112288011B (zh) | 一种基于自注意力深度神经网络的图像匹配方法 | |
Mohamed et al. | Content-based image retrieval using convolutional neural networks | |
CN112800891B (zh) | 一种用于微表情识别的鉴别性特征学习方法与系统 | |
CN112949740B (zh) | 一种基于多级度量的小样本图像分类方法 | |
KR20200010672A (ko) | 딥러닝을 이용한 스마트 상품 검색 방법 및 시스템 | |
CN108182475A (zh) | 一种基于自动编码机-超限学习机的多维度数据特征识别方法 | |
CN113920472A (zh) | 一种基于注意力机制的无监督目标重识别方法及系统 | |
Giraddi et al. | Flower classification using deep learning models | |
CN113704534A (zh) | 图像处理方法、装置及计算机设备 | |
CN114170659A (zh) | 一种基于注意力机制的面部情感识别方法 | |
Xu et al. | Weakly supervised facial expression recognition via transferred DAL-CNN and active incremental learning | |
Liu et al. | Agglomerative neural networks for multiview clustering | |
CN114398935A (zh) | 一种基于深度学习的医学影像报告多标签分类方法 | |
Upreti | Convolutional neural network (cnn). a comprehensive overview | |
Li et al. | Spatial-temporal dynamic hand gesture recognition via hybrid deep learning model | |
CN117994623A (zh) | 一种图像特征向量的获取方法 | |
Kanungo | Analysis of Image Classification Deep Learning Algorithm | |
Anggoro et al. | Classification of Solo Batik patterns using deep learning convolutional neural networks algorithm | |
CN114140848B (zh) | 基于knn和dsn的微表情识别方法、系统、设备及存储介质 | |
CN112801153B (zh) | 一种嵌入lbp特征的图的半监督图像分类方法及系统 | |
CN111967513B (zh) | 一种基于注意力的零样本图像分类方法 | |
CN115601578A (zh) | 基于自步学习与视图赋权的多视图聚类方法及系统 | |
CN114692715A (zh) | 一种样本标注方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |