CN105718940A - 基于多组间因子分析的零样本图像分类方法 - Google Patents

基于多组间因子分析的零样本图像分类方法 Download PDF

Info

Publication number
CN105718940A
CN105718940A CN201610027088.5A CN201610027088A CN105718940A CN 105718940 A CN105718940 A CN 105718940A CN 201610027088 A CN201610027088 A CN 201610027088A CN 105718940 A CN105718940 A CN 105718940A
Authority
CN
China
Prior art keywords
sample image
zero
classification
formula
eigenvalue
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610027088.5A
Other languages
English (en)
Other versions
CN105718940B (zh
Inventor
冀中
谢于中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Ruili Network Technology Co., Ltd.
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN201610027088.5A priority Critical patent/CN105718940B/zh
Publication of CN105718940A publication Critical patent/CN105718940A/zh
Application granted granted Critical
Publication of CN105718940B publication Critical patent/CN105718940B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种基于多组间因子分析的零样本图像分类方法,包括:使用训练数据的视觉特征及其相应类别的语义特征构建协方差矩阵;求解协方差矩阵的特征值,选择最大的d个特征值对应的d维特征向量作为映射矩阵;在验证集中学习得到下式中的权重;使用映射矩阵,将测试数据的视觉特征和未见过的类别的语义特征映射至公共空间;对测试数据进行分类。本发明能够寻求图像的视觉特征与多个模态的语义特征之间的公共空间,其在零样本图像分类中可以取得更高的准确率,因此是一种有效的零样本图像分类方法,本发明的方法简单易行,效果优良。除了零样本图像分类问题,同时也能适应其他的多模态分类、检索问题。

Description

基于多组间因子分析的零样本图像分类方法
技术领域
本发明涉及一种实现零样本图像分类的方法。特别是涉及一种通过多组间因子分析方法,建立图像的视觉空间与图像类别的语义空间之间的联系,从而实现零样本图像分类的基于多组间因子分析的零样本图像分类方法。
背景技术
对于传统的图像分类系统,要想准确识别出某类图像,必须给出相应的带标签的训练数据。但训练数据的标签往往是难以获得的,零样本图像分类就是解决类别标签缺失问题的一种有效手段,其目的在于模仿人类无需看过实际视觉样例,就能认出新的类别的能力。零样本图像分类系统通过有标签的训练数据,也就是已经见过的类别,在视觉空间和语义空间之间建立映射关系。然后根据这个映射关系,将测试数据的视觉特征与未见过的类别的语义特征相联系,选择语义最接近的类别作为测试数据的标签。
在零样本图像分类中,对于未见过的类别的测试图像和相应的类别名称,需要借助语义空间建立联系。在语义空间中,每一个类别名称都被表示成一个高维向量。早期工作中,这个语义空间通常是基于属性的,于是每个类别名称就能表示成一个属性向量。例如Lampert等人对50类动物图像标注了85个语义属性,比如对象的颜色、形状等,用其作为高级语义描述方式。
近年来,随着自然语言处理技术的发展,基于文本矢量的语义空间逐渐流行。常用的文本矢量提取方法是Mikolov等人提出的Word2Vec,它是一种无监督的方法,可以将语料库中的单词用向量来表示,并且向量之间的相似度可以很好的反映单词语义上的相似度。
在给定的语义空间中求得已见过的和未见过的类别的语义特征向量后,各类别间的语义相关性就可以由语义特征向量之间的距离求出。然而,图像是由视觉空间中的视觉特征向量表示的,由于语义鸿沟的存在,它不能与语义空间的特征向量直接建立联系。现有的方法大多通过已见过的类别图片的视觉特征和相应标签的语义特征,学习一个从视觉空间映射到语义空间的映射函数。然后,通过这个映射函数将测试图像的视觉特征映射至语义空间,得到预测的语义特征,再找出离它最近的未见过类别的语义特征,从而确定所属类别。
但是,单种模态的语义特征构成的语义空间往往不能充分的描述数据集的类别结构。因此可以从以下两个方面进行改进:一、将视觉特征和语义特征映射至一个公共空间,然后进一步对它们建立联系;二、使用多种模态的语义特征,从多个角度对数据集的类别结构进行描述。多组间因子分析正好可以同时满足这两个需求。
通常的零样本图像分类方法是将图像的视觉特征映射到类别名称的语义特征空间,然后进行分类。但是,类别名称的语义特征构成的原始空间往往不能很好地描绘数据集的类别结构。
发明内容
本发明所要解决的技术问题是,提供一种基于多组间因子分析的零样本图像分类方法,可以将训练图像的视觉特征和图像类别名称的语义特征映射到一个公共空间。在这个公共空间中,图像的视觉特征和相应的语义特征具有良好的对应关系。对于新输入的测试图像,将它的视觉特征映射到公共空间,找到与其最相近的未见过的类别的语义特征,就可以确定测试图像的所属类别。
本发明所采用的技术方案是:一种基于多组间因子分析的零样本图像分类方法,其特征在于,包括如下步骤:
1)使用训练数据的视觉特征X1及其相应类别的语义特征X2,…Xc构建协方差矩阵M;
2)求解协方差矩阵M的特征值,选择最大的d个特征值对应的d维特征向量作为映射矩阵W;
3)在验证集中学习得到下式中的权重αi
k * = argmax k [ Σ i = 2 c α i s i m ( W 1 T x j , W i T y i k ) ] , - - - ( 4 )
k=1,2,...,n.
式中,xj是验证数据的视觉特征,是与xj相对应类别的第k个模态的语义特征,sim(a,b)=aTb/(||a||·||b||),为两个向量的距离;
4)使用映射矩阵W,将测试数据的视觉特征和未见过的类别的语义特征yk映射至公共空间;
5)用步骤3)中的公式对测试数据进行分类,式中的k*是测试数据相应的类别。
2.根据权利要求1所述的基于多组间因子分析的零样本图像分类方法,其特征在于,步骤1)中所述的协方差矩阵M为:
M ij = 0 , i = j X i X j T , i ≠ j . - - - ( 1 )
式中,c是模态的个数。
3.根据权利要求1所述的基于多组间因子分析的零样本图像分类方法,其特征在于,步骤2)中所述的求解协方差矩阵M的特征值是由下式得到:
MW=λW(2)
其中,λ为特征值。
4.根据权利要求1所述的基于多组间因子分析的零样本图像分类方法,其特征在于,步骤2)中取得特征值λ后,根据预先设定的公共空间维数d,选择最大的d个特征值对应的d维特征向量W,进而由公式
W = [ W 1 T , W 2 T , ... , W c T ] T . - - - ( 3 )
得到视觉特征的映射矩阵W1,以及各个语义特征的映射矩阵Wi,i∈[2,c]。
本发明的基于多组间因子分析的零样本图像分类方法,具有以下有益效果:
1、通常的方法只能寻求图像的视觉特征与单个模态的语义特征之间的公共空间,本发明的多组间因子分析能够寻求图像的视觉特征与多个模态的语义特征之间的公共空间。
2、多个模态的语义特征能够从不同角度对类别名称进行描述,从而达到更好的描述效果。经过实验验证,与其他只能使用单个模态的语义特征的方法相比,本发明设计的算法在零样本图像分类中可以取得更高的准确率,因此是一种有效的零样本图像分类方法。
3、本发明的方法简单易行,效果优良。除了零样本图像分类问题,同时也能适应其他的多模态分类、检索问题。
具体实施方式
下面结合实施例对本发明的基于多组间因子分析的零样本图像分类方法做出详细说明。
零样本图像分类属于机器学习中的图像分类问题。分类问题是指,根据已知的训练数据集学习一个分类器,然后利用这个分类器对新的输入实例进行分类。零样本图像分类也是分类问题,只是在训练数据集中没有出现过新的测试数据的类别。本发明通过多组间因子分析方法,建立图像的视觉空间与图像类别的语义空间之间的联系,从而实现零样本图像分类。
多组间因子分析的目标是将样本多个模态的特征映射至一个公共空间,使得所有样本映射后所有特征的协方差之和最大。在这个公共空间中,图像的视觉特征和相应的语义特征具有良好的对应关系。对于新输入的测试图像,将它的视觉特征映射到公共空间,找到与其最相近的未见过的类别的语义特征,就可以确定测试图像的所属类别。
本发明的基于多组间因子分析的零样本图像分类方法,利用多组间因子分析技术,将图像的视觉特征及其对应的语义特征映射至公共空间,进而有效地比较映射后的视觉特征和语义特征之间的距离,从而可以更好的解决零样本图像分类问题。本发明的基于多组间因子分析的零样本图像分类方法,包括如下步骤:
1)使用训练数据的视觉特征X1及其对应类别的语义特征X2,…Xc构建协方差矩阵M,所述的协方差矩阵M为:
M ij = 0 , i = j X i X j T , i ≠ j . - - - ( 1 )
式中,c是模态的个数。
2)求解协方差矩阵M的特征值,选择最大的d个特征值对应的d维特征向量作为映射矩阵W,所述的协方差矩阵M的特征值是由下式得到:
MW=λW(2)
其中,λ为特征值。
取得特征值λ后,根据预先设定的公共空间维数d,选择最大的d个特征值对应的d维特征向量W,进而由公式
W = [ W 1 T , W 2 T , ... , W c T ] T . - - - ( 3 )
得到视觉特征的映射矩阵W1,以及各个语义特征的映射矩阵Wi,i∈[2,c]。
3)在验证集中学习得到下式中的权重αi
k * = argmax k [ Σ i = 2 c α i s i m ( W 1 T x j , W i T y i k ) ] , - - - ( 4 )
k=1,2,...,n.
式中,xj是验证数据的视觉特征,是与xj相对应类别的第k个模态的语义特征,sim(a,b)=aTb/(a||·||b||),为两个向量的距离。
4)使用映射矩阵W,将测试数据的视觉特征和未见过的类别的语义特征yk映射至公共空间;
5)用步骤3)中的公式对测试数据进行分类,式中的k*是测试数据相应的类别。

Claims (4)

1.一种基于多组间因子分析的零样本图像分类方法,其特征在于,包括如下步骤:
1)使用训练数据的视觉特征X1及其相应类别的语义特征X2,...Xc构建协方差矩阵M;
2)求解协方差矩阵M的特征值,选择最大的d个特征值对应的d维特征向量作为映射矩阵W;
3)在验证集中学习得到下式中的权重αi
k * = argmax k [ Σ i = 2 c α i s i m ( W 1 T x j , W i T y i k ) ] , - - - ( 4 )
k=1,2,...,n.
式中,xj是验证数据的视觉特征,是与xj相对应类别的第k个模态的语义特征,sim(a,b)=aTb/(||a||·||b||),为两个向量的距离;
4)使用映射矩阵W,将测试数据的视觉特征和未见过的类别的语义特征yk映射至公共空间;
5)用步骤3)中的公式对测试数据进行分类,式中的k*是测试数据相应的类别。
2.根据权利要求1所述的基于多组间因子分析的零样本图像分类方法,其特征在于,步骤1)中所述的协方差矩阵M为:
式中,c是模态的个数。
3.根据权利要求1所述的基于多组间因子分析的零样本图像分类方法,其特征在于,步骤2)中所述的求解协方差矩阵M的特征值是由下式得到:
MW=λW(2)
其中,λ为特征值。
4.根据权利要求1所述的基于多组间因子分析的零样本图像分类方法,其特征在于,步骤2)中取得特征值λ后,根据预先设定的公共空间维数d,选择最大的d个特征值对应的d维特征向量W,进而由公式
W = [ W 1 T , W 2 T , ... , W c T ] T . - - - ( 3 )
得到视觉特征的映射矩阵W1,以及各个语义特征的映射矩阵Wi,i∈[2,c]。
CN201610027088.5A 2016-01-15 2016-01-15 基于多组间因子分析的零样本图像分类方法 Active CN105718940B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610027088.5A CN105718940B (zh) 2016-01-15 2016-01-15 基于多组间因子分析的零样本图像分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610027088.5A CN105718940B (zh) 2016-01-15 2016-01-15 基于多组间因子分析的零样本图像分类方法

Publications (2)

Publication Number Publication Date
CN105718940A true CN105718940A (zh) 2016-06-29
CN105718940B CN105718940B (zh) 2019-03-29

Family

ID=56147803

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610027088.5A Active CN105718940B (zh) 2016-01-15 2016-01-15 基于多组间因子分析的零样本图像分类方法

Country Status (1)

Country Link
CN (1) CN105718940B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106250925A (zh) * 2016-07-25 2016-12-21 天津大学 一种基于改进的典型相关分析的零样本视频分类方法
CN106485271A (zh) * 2016-09-30 2017-03-08 天津大学 一种基于多模态字典学习的零样本分类方法
CN106485270A (zh) * 2016-09-30 2017-03-08 天津大学 域自适应学习方法
CN106778804A (zh) * 2016-11-18 2017-05-31 天津大学 基于类别属性迁移学习的零样本图像分类方法
CN107563444A (zh) * 2017-09-05 2018-01-09 浙江大学 一种零样本图像分类方法及系统
WO2018161217A1 (en) * 2017-03-06 2018-09-13 Nokia Technologies Oy A transductive and/or adaptive max margin zero-shot learning method and system
CN109643384A (zh) * 2016-08-16 2019-04-16 诺基亚技术有限公司 用于零样本学习的方法和装置
CN111079468A (zh) * 2018-10-18 2020-04-28 珠海格力电器股份有限公司 机器人识别物体的方法及装置
CN112200239A (zh) * 2020-09-30 2021-01-08 上海海事大学 一种基于希尔伯特-施密特独立性和度量学习的零样本学习方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101299241A (zh) * 2008-01-14 2008-11-05 浙江大学 基于张量表示的多模态视频语义概念检测方法
CN102629328A (zh) * 2012-03-12 2012-08-08 北京工业大学 融合颜色的显著特征概率潜在语义模型物体图像识别方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101299241A (zh) * 2008-01-14 2008-11-05 浙江大学 基于张量表示的多模态视频语义概念检测方法
CN102629328A (zh) * 2012-03-12 2012-08-08 北京工业大学 融合颜色的显著特征概率潜在语义模型物体图像识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
CHRISTOPH H. LAMPERT等: "Attribute-Based Classification for Zero-Shot", 《IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE》 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106250925A (zh) * 2016-07-25 2016-12-21 天津大学 一种基于改进的典型相关分析的零样本视频分类方法
CN109643384A (zh) * 2016-08-16 2019-04-16 诺基亚技术有限公司 用于零样本学习的方法和装置
CN106485271A (zh) * 2016-09-30 2017-03-08 天津大学 一种基于多模态字典学习的零样本分类方法
CN106485270A (zh) * 2016-09-30 2017-03-08 天津大学 域自适应学习方法
CN106485271B (zh) * 2016-09-30 2019-11-15 天津大学 一种基于多模态字典学习的零样本分类方法
CN106485270B (zh) * 2016-09-30 2019-11-15 天津大学 域自适应学习方法
CN106778804A (zh) * 2016-11-18 2017-05-31 天津大学 基于类别属性迁移学习的零样本图像分类方法
CN106778804B (zh) * 2016-11-18 2020-10-20 天津大学 基于类别属性迁移学习的零样本图像分类方法
WO2018161217A1 (en) * 2017-03-06 2018-09-13 Nokia Technologies Oy A transductive and/or adaptive max margin zero-shot learning method and system
CN107563444A (zh) * 2017-09-05 2018-01-09 浙江大学 一种零样本图像分类方法及系统
CN111079468A (zh) * 2018-10-18 2020-04-28 珠海格力电器股份有限公司 机器人识别物体的方法及装置
CN111079468B (zh) * 2018-10-18 2024-05-07 珠海格力电器股份有限公司 机器人识别物体的方法及装置
CN112200239A (zh) * 2020-09-30 2021-01-08 上海海事大学 一种基于希尔伯特-施密特独立性和度量学习的零样本学习方法

Also Published As

Publication number Publication date
CN105718940B (zh) 2019-03-29

Similar Documents

Publication Publication Date Title
CN105718940A (zh) 基于多组间因子分析的零样本图像分类方法
CN105701514A (zh) 一种用于零样本分类的多模态典型相关分析的方法
CN109002834B (zh) 基于多模态表征的细粒度图像分类方法
CN111126482B (zh) 一种基于多分类器级联模型的遥感影像自动分类方法
CN106294344B (zh) 视频检索方法和装置
CN106203483B (zh) 一种基于语义相关多模态映射方法的零样本图像分类方法
CN107766873A (zh) 基于排序学习的多标签零样本分类方法
US20150178321A1 (en) Image-based 3d model search and retrieval
US20150356199A1 (en) Click-through-based cross-view learning for internet searches
CN103473327A (zh) 图像检索方法与系统
CN106250925B (zh) 一种基于改进的典型相关分析的零样本视频分类方法
CN102542067A (zh) 基于尺度学习和关联标号传播的自动图像语义标注方法
CN103440508B (zh) 基于视觉词袋模型的遥感图像目标识别方法
CN106778834A (zh) 一种基于距离测度学习的ap聚类图像标注方法
CN106997379B (zh) 一种基于图片文本点击量的相近文本的合并方法
Niu et al. Knowledge-based topic model for unsupervised object discovery and localization
CN111444342A (zh) 一种基于多重弱监督集成的短文本分类方法
CN110046264A (zh) 一种面向手机文档的自动分类方法
CN106485272A (zh) 基于流形约束的跨模态嵌入的零样本分类方法
CN105740879A (zh) 基于多模态判别分析的零样本图像分类方法
CN112613451A (zh) 一种跨模态文本图片检索模型的建模方法
Sorkhi et al. A comprehensive system for image scene classification
Sitaula et al. Unsupervised deep features for privacy image classification
Lin et al. Learning contour-fragment-based shape model with and-or tree representation
Bai et al. Integrating scene text and visual appearance for fine-grained image classification with convolutional neural networks

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20200103

Address after: 201, room 518000, building A, No. 1, front Bay Road, Qianhai Shenzhen Guangdong Shenzhen Hong Kong cooperation zone (Qianhai business secretary)

Patentee after: Shenzhen Ruili Network Technology Co., Ltd.

Address before: 300072 Tianjin City, Nankai District Wei Jin Road No. 92

Patentee before: Tianjin University

TR01 Transfer of patent right
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20160629

Assignee: Zhongkang Ruixin (Guangdong) Technology Co., Ltd

Assignor: SHENZHEN REALLIBANK NETWORK TECHNOLOGY Co.,Ltd.

Contract record no.: X2020980008254

Denomination of invention: Zero sample image classification method based on multi group factor analysis

Granted publication date: 20190329

License type: Common License

Record date: 20201119

EE01 Entry into force of recordation of patent licensing contract