CN106203483A - 一种基于语义相关多模态映射方法的零样本图像分类方法 - Google Patents
一种基于语义相关多模态映射方法的零样本图像分类方法 Download PDFInfo
- Publication number
- CN106203483A CN106203483A CN201610507579.XA CN201610507579A CN106203483A CN 106203483 A CN106203483 A CN 106203483A CN 201610507579 A CN201610507579 A CN 201610507579A CN 106203483 A CN106203483 A CN 106203483A
- Authority
- CN
- China
- Prior art keywords
- space
- classification
- matrix
- training data
- auxiliary information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Abstract
一种基于语义相关多模态映射方法的零样本图像分类方法,首先输入:训练数据的视觉特征矩阵、训练数据的辅助信息矩阵、权重参数、公共映射空间的维数、待测试数据的视觉特征,以及测试数据的辅助信息矩阵,进行如下步骤:计算训练数据中每两个类别之间的语义相似度;构建矩阵A;由矩阵A构造矩阵L;在训练数据的每个类别中,计算每两个图像在视觉空间中的距离之和;构造矩阵D;分别计算本征矢量P和Q;计算从视觉空间映射到公共空间的映射矢量,计算从辅助信息空间映射到公共空间的映射矢量;得到测试数据的分类结果。本发明使各个类别在公共空间中具有类内紧致性和类间分离性,本发明方法法在零样本图像分类中可以取得更高的准确率,简单易行,效果优良。
Description
技术领域
本发明涉及一种零样本图像分类方法。特别是涉及一种通过建立图像的视觉空间与图像类别的语义空间之间的联系,实现零样本图像分类的基于语义相关多模态映射方法的零样本图像分类方法。
背景技术
对于传统的图像分类系统,要想准确识别出某类图像,必须给出相应的带标签的训练数据。但训练数据的标签往往是难以获得的,零样本图像分类就是解决类别标签缺失问题的一种有效手段,其目的在于模仿人类无需看过实际视觉样例,就能认出新的类别的能力。零样本图像分类系统通过有标签的训练数据,也就是已经见过的类别,在视觉空间和语义空间之间建立映射关系,然后根据训练数据和未见过的类别的测试数据在视觉和语义上的联系,为测试数据赋予类别标签。
在零样本图像分类中,对于未见过的类别的测试图像和相应的类别名称,需要借助语义空间建立联系。在语义空间中,每一个类别名称都被表示成一个高维向量。早期工作中,这个语义空间通常是基于属性的,于是每个类别名称就能表示成一个属性向量。例如Lampert等人对50类动物图像标注了85个语义属性,比如对象的颜色、形状等,用其作为高级语义描述方式。
近年来,随着自然语言处理技术的发展,基于文本矢量的语义空间逐渐流行。常用的文本矢量提取方法是Mikolov等人提出的word2vec,它是一种无监督的方法,可以将语料库中的单词用向量来表示,并且向量之间的相似度可以很好的模拟单词语义上的相似度。
在给定的语义空间中求得已见过的和未见过的类别的语义特征向量后,各类别间的语义相关性就可以由语义特征向量之间的距离求出。然而,图像是由视觉空间中的视觉特征向量表示的,由于语义鸿沟的存在,它不能与语义空间的特征向量直接建立联系。现有的方法大多通过已见过的类别图片的视觉特征和相应标签的语义特征,学习一个从视觉空间映射到语义空间的映射函数。然后,通过这个映射函数,将测试图片的视觉特征映射至语义空间,得到预测的语义特征,再找出离它最近的未见过类别的语义特征,从而确定所属类别。
即,通常的零样本图像分类方法是将图像的视觉特征映射到类别名称的语义特征空间,然后进行分类。但是,类别名称的语义特征构成的原始空间往往不能很好的描绘数据集的类别结构。
一种更好的方式是寻求视觉特征空间和语义特征空间之间的一个公共空间。典型相关分析正好可以满足这个寻找公共空间的需求。
发明内容
本发明所要解决的技术问题是,提供一种在零样本图像分类中可以取得更高准确率的基于语义相关多模态映射方法的零样本图像分类方法。
本发明所采用的技术方案是:一种基于语义相关多模态映射方法的零样本图像分类方法,其特征在于,首先输入如下信息:训练数据的视觉特征矩阵X={x1,x2,...,xn},其中n为训练数据样本数;训练数据的辅助信息矩阵Y={y1,y2,...,ym},其中m为训练数据类别数;权重参数α,公共映射空间E的维数d;待测试数据的视觉特征x′,以及测试数据的辅助信息矩阵Y′={y′1,y′2,...,y′t},其中t是测试数据类别数,然后,进行如下步骤:
1)计算训练数据中每两个类别之间的语义相似度其中i,j=1,2,...,m,yi为训练数据第i类的辅助信息,yj为训练数据第j类的辅助信息,σ为可调节的参数;
2)构建矩阵其中ti是训练数据中第i类的图像样本个数,i,j=1,2,...,m;
3)由步骤2)中的矩阵A构造矩阵
4)在训练数据的每个类别中,计算每两个图像在视觉空间中的距离之和其中ti是训练数据中第i类的图像样本个数;
5)构造矩阵D=diag{H1,...,Hm},其中
6)利用如下公式分别计算本征矢量P=[p1,...,pd]和Q=[q1,...,qd],将P和Q作变换矩阵,
其中,α为权重参数,λ、μ为求得的特征值;
7)对于测试数据的图像特征x′利用PTx′计算从视觉空间映射到公共空间的映射矢量,利用QTy′j计算从辅助信息空间映射到公共空间的映射矢量,j=1,2,...,m;
8)在公共空间中,找到与PTx′距离最近的QTy′j,所述的QTy′j所对应的类别j就是所要求的测试数据的分类结果。
步骤6)给出的计算本征矢量P=[p1,...,pd]和Q=[q1,...,qd]的公式是根据目标函数公式:
其中,P和Q是变换矩阵,分别将视觉特征和辅助信息矩阵映射到一个共享的公共映射空间;表示类别i和类别j的语义相似度,两个类别越相似,它们的语义特征就会越接近,aij值也就越接近于1,其中σ是一个常数,用来度量和之间的视觉相似性,α是权重参数,用来平衡目标函数公式中和的重要程度。
本发明的一种基于语义相关多模态映射方法的零样本图像分类方法,具有以下有益效果:
1、新颖性:本发明将流形约束引入目标函数,使得类别之间的相似度表现的更加具体。并且加入了局部保持的约束项,让同一类图像的视觉特征映射到公共空间后仍然保持原来视觉空间中的几何结构。从而使各个类别在公共空间中具有类内紧致性和类间分离性。
2、有效性:经过实验验证,与其他未用流形的方法和将视觉特征映射到语义特征空间的方法相比,本发明设计的算法在零样本图像分类中可以取得更高的准确率,因此是一种有效的零样本图像分类方法。
3、本发明的方法简单易行,效果优良。除了零样本图像分类问题,同时也能适应其他的多模态分类、检索问题。
具体实施方式
下面结合实施例对本发明的一种基于语义相关多模态映射方法的零样本图像分类方法做出详细说明。
本发明的一种基于语义相关多模态映射方法的零样本图像分类方法,首先输入如下信息:训练数据的图像/视频特征矩阵X={x1,x2,...,xn},其中n为训练数据样本数;训练数据的辅助信息矩阵Y={y1,y2,...,ym},例如属性信息或者分布式文本表示信息,其中m为训练数据类别数;权重参数α,公共映射空间E的维数d;待测试数据的视觉特征x′,以及测试数据的辅助信息矩阵Y′={y′1,y′2,...,y′t},其中t是测试数据类别数。然后,进行如下步骤:
1)计算训练数据中每两个类别之间的语义相似度其中i,j=1,2,...,m,yi为训练数据第i类的辅助信息,yj为训练数据第j类的辅助信息,σ为可调节的参数,一般取1;
2)构建矩阵其中ti是训练数据中第i类的图像样本个数,i,j=1,2,...,m;
3)由步骤2)中的矩阵A构造矩阵
4)在训练数据的每个类别中,计算每两个图像在视觉空间中的距离之和其中ti是训练数据中第i类的图像样本个数;
5)构造矩阵D=diag{H1,...,Hm},其中
6)利用如下公式分别计算本征矢量P=[p1,...,pd]和Q=[q1,...,qd],将P和Q作变换矩阵,
其中,α为权重参数,λ、μ为求得的特征值;
上述的计算本征矢量P=[p1,...,pd]和Q=[q1,...,qd]的公式(4)和公式(5)是根据目标函数公式:
其中,P和Q是变换矩阵,分别将视觉特征和辅助信息矩阵映射到一个共享的公共映射空间;表示类别i和类别j的语义相似度,两个类别越相似,它们的语义特征就会越接近,aij值也就越接近于1,其中σ是一个常数,用来度量和之间的视觉相似性,α是权重参数,用来平衡目标函数公式中平衡目标函数公式中和的重要程度。
公式(1)中第一项的物理意义是让图像的视觉特征与其类别的语义特征在映射到公共空间后的欧氏距离最接近。其中aij的目的是使得类别之间的相似度表现的更加具体,而不是简单的表示类别相同或不同。公式(1)中第二项的物理意义是增加视觉一致性约束,使目标函数具有局部保持特性,让同一类图像的视觉特征映射到公共空间后仍然保持原来视觉空间中的几何结构,即在视觉空间中相近的两幅图像在公共空间中距离依然相近。
将公式(1)进一步化简,得到:
其中,这里的D=diag{H1,...,Hm},这里的Hi=Di-Si,
用拉格朗日乘子法解公式(2),得到以下方程:
其中,λ、μ是拉格朗日乘子,且β1=1/λ,β2=1/μ。这样,就把最优化问题转化为了特征值的求解问题。求出方程(3)的特征值λ、μ,根据公共空间的维数d,分别选择λ、μ最大的d个特征值对应的d个特征向量P、Q,这就是要求的映射矩阵。
7)对于测试数据的图像特征x′利用PTx′计算从视觉空间映射到公共空间的映射矢量,利用QTy′j计算从辅助信息空间映射到公共空间的映射矢量,j=1,2,...,m;
8)在公共空间中,找到与PTx′距离最近的QTy′j,所述的QTy′j所对应的类别j就是所要求的测试数据的分类结果。
Claims (2)
1.一种基于语义相关多模态映射方法的零样本图像分类方法,其特征在于,首先输入如下信息:训练数据的视觉特征矩阵X={x1,x2,...,xn},其中n为训练数据样本数;训练数据的辅助信息矩阵Y={y1,y2,...,ym},其中m为训练数据类别数;权重参数α,公共映射空间E的维数d;待测试数据的视觉特征x′,以及测试数据的辅助信息矩阵Y′={y′1,y′2,...,y′t},其中t是测试数据类别数,然后,进行如下步骤:
1)计算训练数据中每两个类别之间的语义相似度其中i,j=1,2,...,m,yi为训练数据第i类的辅助信息,yj为训练数据第j类的辅助信息,σ为可调节的参数;
2)构建矩阵其中ti是训练数据中第i类的图像样本个数,i,j=1,2,...,m;
3)由步骤2)中的矩阵A构造矩阵
4)在训练数据的每个类别中,计算每两个图像在视觉空间中的距离之和其中ti是训练数据中第i类的图像样本个数;
5)构造矩阵D=diag{H1,...,Hm},其中Hi=Di-Si,
6)利用如下公式分别计算本征矢量P=[p1,...,pd]和Q=[q1,...,qd],将P和Q作变换矩阵,
其中,α为权重参数,λ、μ为求得的特征值;
7)对于测试数据的图像特征x′利用PTx′计算从视觉空间映射到公共空间的映射矢量,利用QTy′j计算从辅助信息空间映射到公共空间的映射矢量,j=1,2,...,m;
8)在公共空间中,找到与PTx′距离最近的QTy′j,所述的QTy′j所对应的类别j就是所要求的测试数据的分类结果。
2.根据权利要求1所述的一种基于语义相关多模态映射方法的零样本图像分类方法,其特征在于,步骤6)给出的计算本征矢量P=[p1,...,pd]和Q=[q1,...,qd]的公式是根据目标函数公式:
获得,
其中,P和Q是变换矩阵,分别将视觉特征和辅助信息矩阵映射到一个共享的公共映射空间;表示类别i和类别j的语义相似度,两个类别越相似,它们的语义特征就会越接近,aij值也就越接近于1,其中σ是一个常数,用来度量和之间的视觉相似性,α是权重参数,用来平衡目标函数公式中和的重要程度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610507579.XA CN106203483B (zh) | 2016-06-29 | 2016-06-29 | 一种基于语义相关多模态映射方法的零样本图像分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610507579.XA CN106203483B (zh) | 2016-06-29 | 2016-06-29 | 一种基于语义相关多模态映射方法的零样本图像分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106203483A true CN106203483A (zh) | 2016-12-07 |
CN106203483B CN106203483B (zh) | 2019-06-11 |
Family
ID=57463413
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610507579.XA Active CN106203483B (zh) | 2016-06-29 | 2016-06-29 | 一种基于语义相关多模态映射方法的零样本图像分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106203483B (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106845533A (zh) * | 2017-01-05 | 2017-06-13 | 天津大学 | 基于自训练的零样本视频分类方法 |
CN107766873A (zh) * | 2017-09-06 | 2018-03-06 | 天津大学 | 基于排序学习的多标签零样本分类方法 |
WO2018161217A1 (en) * | 2017-03-06 | 2018-09-13 | Nokia Technologies Oy | A transductive and/or adaptive max margin zero-shot learning method and system |
CN109063746A (zh) * | 2018-07-14 | 2018-12-21 | 深圳市唯特视科技有限公司 | 一种基于深度无监督学习的视觉相似性学习方法 |
CN109993197A (zh) * | 2018-12-07 | 2019-07-09 | 天津大学 | 一种基于深度端对端示例差异化的零样本多标签分类方法 |
CN110717512A (zh) * | 2019-09-05 | 2020-01-21 | 华南理工大学 | 一种基于结构保持零样本学习的鸟类濒危物种识别方法 |
CN110717513A (zh) * | 2019-09-05 | 2020-01-21 | 华南理工大学 | 一种基于多分类器的零样本深海生物图片分类方法 |
CN112380374A (zh) * | 2020-10-23 | 2021-02-19 | 华南理工大学 | 一种基于语义扩充的零样本图像分类方法 |
CN113128467A (zh) * | 2021-05-11 | 2021-07-16 | 临沂大学 | 基于面部先验知识的低分辨率人脸超分辨与识别的方法 |
CN115424096A (zh) * | 2022-11-08 | 2022-12-02 | 南京信息工程大学 | 一种多视角零样本图像识别方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101923653A (zh) * | 2010-08-17 | 2010-12-22 | 北京大学 | 一种基于多层次内容描述的图像分类方法 |
CN102314614A (zh) * | 2011-10-24 | 2012-01-11 | 北京大学 | 一种基于类共享多核学习的图像语义分类方法 |
CN103810274A (zh) * | 2014-02-12 | 2014-05-21 | 北京联合大学 | 基于WordNet语义相似度的多特征图像标签排序方法 |
CN105512679A (zh) * | 2015-12-02 | 2016-04-20 | 天津大学 | 一种基于极限学习机的零样本分类方法 |
CN105701504A (zh) * | 2016-01-08 | 2016-06-22 | 天津大学 | 用于零样本学习的多模态流形嵌入方法 |
-
2016
- 2016-06-29 CN CN201610507579.XA patent/CN106203483B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101923653A (zh) * | 2010-08-17 | 2010-12-22 | 北京大学 | 一种基于多层次内容描述的图像分类方法 |
CN102314614A (zh) * | 2011-10-24 | 2012-01-11 | 北京大学 | 一种基于类共享多核学习的图像语义分类方法 |
CN103810274A (zh) * | 2014-02-12 | 2014-05-21 | 北京联合大学 | 基于WordNet语义相似度的多特征图像标签排序方法 |
CN105512679A (zh) * | 2015-12-02 | 2016-04-20 | 天津大学 | 一种基于极限学习机的零样本分类方法 |
CN105701504A (zh) * | 2016-01-08 | 2016-06-22 | 天津大学 | 用于零样本学习的多模态流形嵌入方法 |
Non-Patent Citations (3)
Title |
---|
YONGQIN XIAN 等: "Latent Embeddings for Zero-shot Classification", 《ARXIV》 * |
ZHENYONG FU 等: "Zero-Shot Object Recognition by Semantic Manifold Distance", 《CVPR 2015》 * |
巩萍 等: "基于属性关系图正则化特征选择的零样本分类", 《中国矿业大学学报》 * |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106845533B (zh) * | 2017-01-05 | 2020-11-24 | 天津大学 | 基于自训练的零样本视频分类方法 |
CN106845533A (zh) * | 2017-01-05 | 2017-06-13 | 天津大学 | 基于自训练的零样本视频分类方法 |
WO2018161217A1 (en) * | 2017-03-06 | 2018-09-13 | Nokia Technologies Oy | A transductive and/or adaptive max margin zero-shot learning method and system |
CN107766873A (zh) * | 2017-09-06 | 2018-03-06 | 天津大学 | 基于排序学习的多标签零样本分类方法 |
CN109063746A (zh) * | 2018-07-14 | 2018-12-21 | 深圳市唯特视科技有限公司 | 一种基于深度无监督学习的视觉相似性学习方法 |
CN109993197A (zh) * | 2018-12-07 | 2019-07-09 | 天津大学 | 一种基于深度端对端示例差异化的零样本多标签分类方法 |
CN109993197B (zh) * | 2018-12-07 | 2023-04-28 | 天津大学 | 一种基于深度端对端示例差异化的零样本多标签分类方法 |
CN110717513A (zh) * | 2019-09-05 | 2020-01-21 | 华南理工大学 | 一种基于多分类器的零样本深海生物图片分类方法 |
CN110717512B (zh) * | 2019-09-05 | 2023-04-07 | 华南理工大学 | 一种基于结构保持零样本学习的鸟类濒危物种识别方法 |
CN110717513B (zh) * | 2019-09-05 | 2023-04-07 | 华南理工大学 | 一种基于多分类器的零样本深海生物图片分类方法 |
CN110717512A (zh) * | 2019-09-05 | 2020-01-21 | 华南理工大学 | 一种基于结构保持零样本学习的鸟类濒危物种识别方法 |
CN112380374A (zh) * | 2020-10-23 | 2021-02-19 | 华南理工大学 | 一种基于语义扩充的零样本图像分类方法 |
CN112380374B (zh) * | 2020-10-23 | 2022-11-18 | 华南理工大学 | 一种基于语义扩充的零样本图像分类方法 |
CN113128467A (zh) * | 2021-05-11 | 2021-07-16 | 临沂大学 | 基于面部先验知识的低分辨率人脸超分辨与识别的方法 |
CN115424096A (zh) * | 2022-11-08 | 2022-12-02 | 南京信息工程大学 | 一种多视角零样本图像识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN106203483B (zh) | 2019-06-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106203483A (zh) | 一种基于语义相关多模态映射方法的零样本图像分类方法 | |
CN108399163B (zh) | 结合词聚合与词组合语义特征的文本相似性度量方法 | |
CN113378632B (zh) | 一种基于伪标签优化的无监督域适应行人重识别方法 | |
CN105701514B (zh) | 一种用于零样本分类的多模态典型相关分析的方法 | |
CN105718940B (zh) | 基于多组间因子分析的零样本图像分类方法 | |
CN114169442B (zh) | 基于双原型网络的遥感图像小样本场景分类方法 | |
CN105389326B (zh) | 基于弱匹配概率典型相关性模型的图像标注方法 | |
CN105760900B (zh) | 基于近邻传播聚类和稀疏多核学习的高光谱图像分类方法 | |
CN106250925B (zh) | 一种基于改进的典型相关分析的零样本视频分类方法 | |
CN105678261B (zh) | 基于有监督图的直推式数据降维方法 | |
CN104699781B (zh) | 基于双层锚图散列的sar图像检索方法 | |
CN109241813A (zh) | 用于非约束人脸识别的判别稀疏保持嵌入方法 | |
CN106021402A (zh) | 用于跨模态检索的多模态多类Boosting框架构建方法及装置 | |
CN109034213B (zh) | 基于相关熵原则的高光谱图像分类方法和系统 | |
CN107016359A (zh) | 一种复杂环境下基于t分布的人脸快速识别方法 | |
CN104978569A (zh) | 一种基于稀疏表示的增量人脸识别方法 | |
CN106250918A (zh) | 一种基于改进的推土距离的混合高斯模型匹配方法 | |
Deng et al. | Citrus disease recognition based on weighted scalable vocabulary tree | |
CN107578063B (zh) | 基于快速选取地标点的图像谱聚类方法 | |
CN115131580A (zh) | 基于注意力机制的空间目标小样本识别方法 | |
WO2023273337A1 (zh) | 一种基于代表特征的遥感图像中的密集目标检测方法 | |
CN113220915B (zh) | 一种基于残差注意力的遥感图像检索方法及装置 | |
CN105740879B (zh) | 基于多模态判别分析的零样本图像分类方法 | |
CN112149556B (zh) | 一种基于深度互学习和知识传递的人脸属性识别方法 | |
CN104573727A (zh) | 一种手写体数字图像降维方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20211214 Address after: 252000 No. 2, Huixin South Road, Gaotang Economic Development Zone, Liaocheng City, Shandong Province (Development Zone Management Committee) Patentee after: GAOTANG Rongzhi Rongzhi Technology Service Co.,Ltd. Address before: 300072 Tianjin City, Nankai District Wei Jin Road No. 92 Patentee before: Tianjin University |
|
TR01 | Transfer of patent right |