CN111967513A - 一种基于注意力的零样本图像分类方法 - Google Patents

一种基于注意力的零样本图像分类方法 Download PDF

Info

Publication number
CN111967513A
CN111967513A CN202010809547.1A CN202010809547A CN111967513A CN 111967513 A CN111967513 A CN 111967513A CN 202010809547 A CN202010809547 A CN 202010809547A CN 111967513 A CN111967513 A CN 111967513A
Authority
CN
China
Prior art keywords
sample
attention
aaln
vector
semantic vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010809547.1A
Other languages
English (en)
Other versions
CN111967513B (zh
Inventor
王立春
陈晟
李敬华
孔德慧
王少帆
尹宝才
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN202010809547.1A priority Critical patent/CN111967513B/zh
Publication of CN111967513A publication Critical patent/CN111967513A/zh
Application granted granted Critical
Publication of CN111967513B publication Critical patent/CN111967513B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种基于注意力的零样本图像分类方法,包括特征提取阶段和分类阶段,特征提取阶段包括:利用CNN对训练集图像提取特征,特征经过多个网络分支得到语义向量每一维的表示,按序拼接每一维得到最终的语义向量表示。每个分支的结构相同,特征通过两个全连接层得到每个样本特征的注意力向量,将该注意力向量与特征逐元素再通过两个全连接层得到一个属性值。本发明将上述网络命名为面向零样本图像分类的基于注意力的属性学习网络AALN。分类阶段:将待分类的图像通过CNN提取特征,通过AALN计算每个分支的输出并拼接得到最终的语义向量,最后基于与未知类的语义向量的余弦相似度进行分类。

Description

一种基于注意力的零样本图像分类方法
技术领域
本发明属于图像处理及模式识别的技术领域,具体地涉及一种基于注意力的零样本图像分类方法。
背景技术
机器学习已经成功应用到许多领域,如语音识别、自然语言处理和计算机视觉等。图像分类是计算机视觉领域的一个重要分支。在传统基于机器学习算法的图像分类中,为了学习到好的分类模型以有效分类图像,通常需要大量的包含所有类别的训练样本,并且样本越多,得到的模型越好。不过得到有标注的训练样本是非常困难的。一方面,数据标注会提高数据预处理的人力和财力成本。因为手工标注的成本很高,不仅需要专业的知识,还要有大量人力的注入。特别地,随着图像/视频获取设备的普及,图像数据不断增长,这给训练样本标注带来极大压力。另一方面,计算机视觉任务常常希望计算机能识别自然界中成千上万的对象,但自然界中的对象分布是存在着长尾效应的,以数据集ImageNet为例,其包含的种类有2万种,超过1400万张的图像样本,但大部分的图像样本基本都属于人们常见的1000类,而其他类别包含的图像样本就少之又少,有的类别甚至只包含了1-2张图像样本。如何完成对这些未见过类别图像的识别任务是具有挑战性并且非常有前景的研究课题。在面对训练中未出现过的类别时,还能对该类样本进行准确的识别,这即是零样本学习所要解决的问题。
在许多现实应用中,经常需要对以前从未见过的类别的实例进行分类。当面对一个未见过的类别时,人们习惯用现有的知识对该未知类进行描述,根据这些描述去知识库搜索属于哪一类。例如,当识别出了马、老虎和熊猫,并且学习得到了马的外形信息、老虎身上的斑纹信息和熊猫的黑白肤色信息,而斑马在知识库中的描述是具有马的外形、身背条纹、拥有黑白肤色,那么可以根据这几种特性去识别出斑马,即使以前从未见过斑马。零样本学习也正是借鉴了这种思想。零样本学习的一个方法是首先定义一个语义知识库,对所有已知类和不可见类分别用语义向量对其进行编码,将各个语义向量之间的特性联系起来,通过训练已知类的样本,建立起已知类图像特征与语义向量之间的映射关系,对于待识别的图像样本,通过前述的映射关系会得到一个语义向量,再通过语义向量检索语义知识库,得到该样本的类别信息。
在图像分类任务中,提升网络性能的方法有很多,如增加空间维度等。但增加空间维度会降低计算效率,耗时更长。一般的图像分类任务在提取图像特征的过程中,无论是多通道的特征图还是最终的全局特征向量,都会存在冗余,即某些通道的特征图或者特征向量的某几个维度对该图像分类任务是有贡献的。零样本学习分类任务同样面临这样的问题,由于属性向量是带有语义的高维特征,在特征到属性向量的映射过程中,可以细化到特征向量每一维的贡献对应于属性向量的每一维是不同的,需要建立多个网络分支,计算特征向量中每个维度的权值,每一分支只针对属性向量的其中一维。
发明内容
零样本图像分类问题有N个类别,每个类别的类别信息用语义向量进行描述,其中N1个类别有对应的样本图像且每个类别对应不同数量的图像,这些类别称为已知类;剩余的(N-N1)个类别没有样本图像与之对应,这些类别称为未知类。零样本图像分类要解决的问题是如何基于已知类图像完成未知类图像的分类。
针对零样本图像分类问题,本发明提出一种基于注意力的属性学习网络(Attention-based Attribute Learning network for ZSL,AALN),学习样本的语义向量表示。首先对样本图像提取特征,针对语义向量的每一维计算样本特征的注意力权重向量,利用注意力权重向量与原始特征逐点相乘计算新特征;基于新特征计算样本的语义向量。对未知类样本,计算样本语义向量与未知类语义向量的距离,即可求得未知类样本所属的语义类别。本发明的具体技术解决方案是:
1、利用CNN提取已知类图像的特征
对训练集(已知类图像集)提取特征,得到训练样本特征集合X={Xi},Xi∈Rd是第i个训练样本的特征,Xi所属类的语义向量表示是Si∈Rr
2、利用提取的已知类图像特征训练AALN网络,所述的AALN网络用于学习样本Xi的语义向量Pi∈Rr,其中,AALN包含r个分支网络如图1所示,每个分支网络的结构相同如图2所示,第m个分支网络AALNm负责学习样本的Xi的语义向量的第m维分量
Figure BDA0002629570870000021
AALNm的计算过程如下:
1)根据公式(1)计算样本Xi的计算注意力权重向量Aim
Aim=Sigmoid(W2m(ReLU(W1mXi))) (1)
其中Aim∈Rd
Figure BDA0002629570870000031
降维系数k是个超参数。
2)计算样本Xi的基于注意力的特征表示Xim
Figure BDA0002629570870000032
Figure BDA0002629570870000033
表示向量的逐元素乘积;
3)根据公式(2)计算样本Xi的语义向量的第m维分量
Figure BDA0002629570870000034
Figure BDA0002629570870000035
其中
Figure BDA0002629570870000036
降维系数t是个超参数;
4)按序拼接以上学习得到的
Figure BDA0002629570870000037
即得到样本Xi的语义向量Pi
其中,AALNm的损失如公式(3):
Figure BDA0002629570870000038
Figure BDA0002629570870000039
是样本Xi所属类的语义向量的第m维分量。
3、利用训练完成的AALN网络对未知类样本进行分类,所述分类阶段包括以下步骤:
1)对未知类的待分类样本利用CNN提取特征,Yj∈Rd表示未知类的第j个待分类样本的特征。
2)利用训练完成的AALN学习样本Yj的语义向量Pj
3)计算Yj的语义向量Pj与各未知类的语义向量之间的余弦相似度。
4)最相似的类别即为待分类样本的分类结果。
有益效果
本发明在网络训练时,为每个特征向量针对属性向量的每一维学习一个注意力向量,在分类过程中增加了特征向量的表达能力。
附图说明
图1 AALN-ZSL的整体网络结构
图2一个AALN分支示意图
图3 AALN-ZSL与DAP方法比较的结果
具体实施方式
本发明以AWA1动物数据集为例,但不限于此,该数据集已经过CNN提取特征,符合本发明要求,如果某数据集只包含图像,需要先对图像提取特征,目前常见的手段是利用CNN提取特征。在AWA1动物数据集中,共有50个类别,训练时包含40种类别,称为已知类或可见类;10类用于测试,称为未知类或不可见类。该数据集使用的是由人工定义的类别属性所构成的共享语义嵌入空间,每个类别有85维的语义向量,语义向量的每一维是一个0-100的相对值。
下面更详细的说明本方法。
1特征提取阶段
本实施例中使用AWA1公开数据集,有50类的语义向量,每一类的语义向量均为85维,语义向量是知识库中预定义的。
如图1所示,图像通过CNN提取得到特征向量,CNN可以是GoogleNet、ResNet等,提取图像特征部分是所有分支共享的,且该部分的参数是固定不变的。AWA1数据集利用GoogleNet为每个样本提取得到1024维的特征向量,降维系数k,t均取2。如图2所示,以第m个分支网络AALNm为例,特征向量通过1024×512的变换矩阵得到512维的向量,并用ReLU激活函数进行激活,再通过512×1024的变换矩阵,并用Sigmoid激活得到1024维的注意力向量,将原始特征向量与注意力向量逐元素相乘后得到特征向量Xim,通过1024×512和512×1两个变换矩阵得到该样本语义向量第m维的预测值
Figure BDA0002629570870000041
Figure BDA0002629570870000042
是样本Xi所属类的语义向量的第m维分量,计算
Figure BDA0002629570870000043
Figure BDA0002629570870000044
之间的均方误差并利用Adam优化方法进行优化,学习率为0.001。由于每个分支是独立的,每一个分支单独进行优化。把每一分支得到的值按序拼接在一起得到每个样本的语义向量,最后计算得到的待分类样本语义向量与未知类语义向量的相似度找到该样本的最终分类结果。
为了验证本发明提出的算法的有效性,本发明选用AWA1动物数据集和aPY数据集进行了实验测试。
AWA1数据集和aPY数据集上的实验结果
图3为本发明的实验效果。在零样本学习中,DAP方法也是独立学习语义向量的每个维度,所以我们的方法与DAP进行比较,在整体的分类效果上好于DAP。

Claims (4)

1.一种基于注意力的零样本图像分类方法,其特征在于:
(1)利用CNN提取已知类图像的特征:
对训练集提取特征,得到训练样本特征集合X={Xi},Xi∈Rd是第i个训练样本的特征,Xi所属类的语义向量表示是Si∈Rr,其中,训练集即为已知类图像集;
(2)利用提取的已知类图像特征训练AALN网络,所述的AALN网络用于学习样本Xi的语义向量Pi∈Rr,其中,AALN包含r个分支网络,每个分支网络的结构相同,第m个分支网络AALNm负责学习样本的Xi的语义向量的第m维分量
Figure FDA00026295708600000111
按序拼接以上学习得到的
Figure FDA00026295708600000112
即得到样本Xi的语义向量Pi
(3)利用训练完成的AALN网络对未知类样本进行分类。
2.根据权利要求1所述的一种基于注意力的零样本图像分类方法,其特征在于:步骤(2)中所述的AALNm的计算过程如下:
(2.1)根据公式(1)计算样本Xi的计算注意力权重向量Aim
Aim=Sigmoid(W2m(ReLU(W1mXi))) (1)
其中Aim∈Rd
Figure FDA0002629570860000011
为待训练参数,
Figure FDA0002629570860000012
为待训练参数,降维系数k是个超参数;
(2.2)计算样本Xi的基于注意力的特征表示Xim
Figure FDA0002629570860000014
表示向量的逐元素乘积;
(2.3)根据公式(2)计算样本Xi的语义向量的第m维分量
Figure FDA0002629570860000015
Figure FDA0002629570860000016
其中
Figure FDA0002629570860000017
为待训练参数,
Figure FDA0002629570860000018
为待训练参数,降维系数t是个超参数。
3.根据权利要求1所述的一种基于注意力的零样本图像分类方法,其特征在于:步骤(2)中所述的AALNm的损失如公式(3):
Figure FDA0002629570860000019
Figure FDA00026295708600000110
是样本Xi所属类的语义向量的第m维分量。
4.根据权利要求1所述的一种基于注意力的零样本图像分类方法,其特征在于:步骤(3)所述的分类阶段包括以下步骤:
(3.1)对未知类的待分类样本利用CNN提取特征,Yj∈Rd表示未知类的第j个待分类样本的特征;
(3.2)利用训练完成的AALN学习样本Yj的语义向量Pj
(3.3)计算Yj的语义向量Pj与各未知类的语义向量之间的余弦相似度;
(3.4)最相似的类别即为待分类样本的分类结果。
CN202010809547.1A 2020-08-12 2020-08-12 一种基于注意力的零样本图像分类方法 Active CN111967513B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010809547.1A CN111967513B (zh) 2020-08-12 2020-08-12 一种基于注意力的零样本图像分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010809547.1A CN111967513B (zh) 2020-08-12 2020-08-12 一种基于注意力的零样本图像分类方法

Publications (2)

Publication Number Publication Date
CN111967513A true CN111967513A (zh) 2020-11-20
CN111967513B CN111967513B (zh) 2024-05-31

Family

ID=73365789

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010809547.1A Active CN111967513B (zh) 2020-08-12 2020-08-12 一种基于注意力的零样本图像分类方法

Country Status (1)

Country Link
CN (1) CN111967513B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110163258A (zh) * 2019-04-24 2019-08-23 浙江大学 一种基于语义属性注意力重分配机制的零样本学习方法及系统
CN110826638A (zh) * 2019-11-12 2020-02-21 福州大学 基于重复注意力网络的零样本图像分类模型及其方法
US20200097771A1 (en) * 2018-09-25 2020-03-26 Nec Laboratories America, Inc. Deep group disentangled embedding and network weight generation for visual inspection

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200097771A1 (en) * 2018-09-25 2020-03-26 Nec Laboratories America, Inc. Deep group disentangled embedding and network weight generation for visual inspection
CN110163258A (zh) * 2019-04-24 2019-08-23 浙江大学 一种基于语义属性注意力重分配机制的零样本学习方法及系统
CN110826638A (zh) * 2019-11-12 2020-02-21 福州大学 基于重复注意力网络的零样本图像分类模型及其方法

Also Published As

Publication number Publication date
CN111967513B (zh) 2024-05-31

Similar Documents

Publication Publication Date Title
CN110532900B (zh) 基于U-Net和LS-CNN的人脸表情识别方法
CN108596039B (zh) 一种基于3d卷积神经网络的双模态情感识别方法及系统
CN112288011B (zh) 一种基于自注意力深度神经网络的图像匹配方法
Mohamed et al. Content-based image retrieval using convolutional neural networks
CN112800891B (zh) 一种用于微表情识别的鉴别性特征学习方法与系统
CN112949740B (zh) 一种基于多级度量的小样本图像分类方法
KR20200010672A (ko) 딥러닝을 이용한 스마트 상품 검색 방법 및 시스템
CN108182475A (zh) 一种基于自动编码机-超限学习机的多维度数据特征识别方法
CN113920472A (zh) 一种基于注意力机制的无监督目标重识别方法及系统
Giraddi et al. Flower classification using deep learning models
CN113704534A (zh) 图像处理方法、装置及计算机设备
CN114170659A (zh) 一种基于注意力机制的面部情感识别方法
Xu et al. Weakly supervised facial expression recognition via transferred DAL-CNN and active incremental learning
Liu et al. Agglomerative neural networks for multiview clustering
CN114398935A (zh) 一种基于深度学习的医学影像报告多标签分类方法
Upreti Convolutional neural network (cnn). a comprehensive overview
Li et al. Spatial-temporal dynamic hand gesture recognition via hybrid deep learning model
CN117994623A (zh) 一种图像特征向量的获取方法
Kanungo Analysis of Image Classification Deep Learning Algorithm
Anggoro et al. Classification of Solo Batik patterns using deep learning convolutional neural networks algorithm
CN114140848B (zh) 基于knn和dsn的微表情识别方法、系统、设备及存储介质
CN112801153B (zh) 一种嵌入lbp特征的图的半监督图像分类方法及系统
CN111967513B (zh) 一种基于注意力的零样本图像分类方法
CN115601578A (zh) 基于自步学习与视图赋权的多视图聚类方法及系统
CN114692715A (zh) 一种样本标注方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant