CN105701514B - 一种用于零样本分类的多模态典型相关分析的方法 - Google Patents
一种用于零样本分类的多模态典型相关分析的方法 Download PDFInfo
- Publication number
- CN105701514B CN105701514B CN201610027658.0A CN201610027658A CN105701514B CN 105701514 B CN105701514 B CN 105701514B CN 201610027658 A CN201610027658 A CN 201610027658A CN 105701514 B CN105701514 B CN 105701514B
- Authority
- CN
- China
- Prior art keywords
- classification
- zero sample
- semantic feature
- visual signature
- formula
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 25
- 238000010219 correlation analysis Methods 0.000 title claims abstract description 13
- 230000000007 visual effect Effects 0.000 claims abstract description 25
- 238000012360 testing method Methods 0.000 claims abstract description 16
- 238000013507 mapping Methods 0.000 claims abstract description 11
- 239000011159 matrix material Substances 0.000 claims abstract description 10
- 238000012549 training Methods 0.000 claims abstract description 9
- 239000013598 vector Substances 0.000 claims description 13
- 230000000694 effects Effects 0.000 abstract description 4
- 230000006870 function Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000010422 painting Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Abstract
一种用于零样本分类的多模态典型相关分析的方法,包括:使用训练数据的视觉特征以及相应类别的语义特征求解得到映射矩阵;使用映射矩阵,将测试数据的视觉特征和未见过的类别的语义特征映射至公共空间;对测试数据进行分类。本发明能够寻求图像的视觉特征与多个模态的语义特征之间的公共空间,在零样本图像分类中可以取得更高的准确率,因此是一种有效的零样本图像分类方法。本发明的方法简单易行,效果优良。除了零样本图像分类问题,同时也能适应其他的多模态分类、检索问题。
Description
技术领域
本发明涉及一种实现零样本图像分类的方法。特别是涉及一种通过多模态典型相关分析,建立图像的视觉空间与图像类别的语义空间之间的联系,从而实现零样本图像分类的用于零样本分类的多模态典型相关分析的方法。
背景技术
对于传统的图像分类系统,要想准确识别出某类图像,必须给出相应的带标签的训练数据。但训练数据的标签往往是难以获得的,零样本图像分类就是解决类别标签缺失问题的一种有效手段,其目的在于模仿人类无需看过实际视觉样例,就能认出新的类别的能力。零样本图像分类系统通过有标签的训练数据,也就是已经见过的类别,在视觉空间和语义空间之间建立映射关系。然后根据这个映射关系,将测试数据的视觉特征与未见过的类别的语义特征相联系,选择语义最接近的类别作为测试数据的标签。
在零样本图像分类中,对于未见过的类别的测试图像和相应的类别名称,需要借助语义空间建立联系。在语义空间中,每一个类别名称都被表示成一个高维向量。早期工作中,这个语义空间通常是基于属性的,于是每个类别名称就能表示成一个属性向量。例如Lampert等人对50类动物图像标注了85个语义属性,比如对象的颜色、形状等,用其作为高级语义描述方式。
近年来,随着自然语言处理技术的发展,基于文本矢量的语义空间逐渐流行。常用的文本矢量提取方法是Mikolov等人提出的Word2Vec,它是一种无监督的方法,可以将语料库中的单词用向量来表示,并且向量之间的相似度可以很好的模拟单词语义上的相似度。
在给定的语义空间中求得已见过的和未见过的类别的语义特征向量后,各类别间的语义相关性就可以由语义特征向量之间的距离求出。然而,图像是由视觉空间中的视觉特征向量表示的,由于语义鸿沟的存在,它不能与语义空间的特征向量直接建立联系。现有的方法大多通过已见过的类别图片的视觉特征和相应标签的语义特征,学习一个从视觉空间映射到语义空间的映射函数。然后,通过这个映射函数,将测试图片的视觉特征映射至语义空间,得到预测的语义特征,再找出离它最近的未见过类别的语义特征,从而确定所属类别。
但是,单种模态的语义特征构成的语义空间往往不能充分的描述数据集的类别结构。
通常的零样本图像分类方法是将图像的视觉特征映射到类别名称的语义特征空间,然后进行分类。但是,类别名称的语义特征构成的原始空间往往不能很好的描绘数据集的类别结构。
发明内容
本发明所要解决的技术问题是,提供一种可以将训练图像的视觉特征和图像类别名称的语义特征映射到一个公共空间的用于零样本分类的多模态典型相关分析的方法。
本发明所采用的技术方案是:一种用于零样本分类的多模态典型相关分析的方法,包括 如下步骤:
1)使用训练数据的视觉特征X1以及相应类别的语义特征X2,…Xc求解下式,得到映射矩阵W:
式中,I是单位矩阵;
2)在验证集中学习得到下式中的权重αi
式中,xj是验证数据的视觉特征,是与xj相对应类别的第k个模态的语义特征,sim(a,b)=aTb/(||a||·||b||),为两个向量的距离;
3)使用映射矩阵W,将测试数据的视觉特征和未见过的类别的语义特征yk映射至公共空间;
4)用步骤2)中的公式对测试数据进行分类,式中的k*是测试数据相应的类别。
本发明的一种用于零样本分类的多模态典型相关分析的方法,具有以下有益效果:
1、通常的方法只能寻求图像的视觉特征与单个模态的语义特征之间的公共空间,而本发明的多模态典型相关分析能够寻求图像的视觉特征与多个模态的语义特征之间的公共空间。
2、多个模态的语义特征能够从不同角度对类别名称进行描述,从而达到更好的描述效果。经过实验验证,与其他只能使用单个模态的语义特征的方法相比,本发明的方法在零样本图像分类中可以取得更高的准确率,因此是一种有效的零样本图像分类方法。
3、本发明的方法简单易行,效果优良。除了零样本图像分类问题,同时也能适应其他的多模态分类、检索问题。
具体实施方式
下面结合实施例对本发明的一种用于零样本分类的多模态典型相关分析的方法做出详细说明。
本发明的一种用于零样本分类的多模态典型相关分析的方法,旨在利用多模态典型相关分析,提供一种有效的零样本图像分类方法,通过本发明的方法可以将训练图像的视觉特征和图像类别名称的语义特征映射到一个公共空间,进而有效的比较映射后的视觉特征和语义特征之间的距离,从而可以更好的解决零样本图像分类问题。在这个公共空间中,图像的视觉特征和相应的语义特征具有良好的对应关系。对于新输入的测试图像,将它的视觉特征映射到公共空间,找到与其最相近的未见过的类别的语义特征,就可以确定测试图像的所属类别。
本发明的一种用于零样本分类的多模态典型相关分析的方法,包括如下步骤:
1)使用训练数据的视觉特征X1以及相应类别的语义特征X2,…Xc求解下式,得到映射矩 阵W:
式中,I是单位矩阵;
2)在验证集中学习得到下式中的权重αi
式中,xj是验证数据的视觉特征,是与xj相对应类别的第k个模态的语义特征,sim(a,b)=aTb/(||a||·||b||),为两个向量的距离;
3)使用映射矩阵W,将测试数据的视觉特征和未见过的类别的语义特征yk映射至公共空间;
4)用步骤2)中的公式对测试数据进行分类,式中的k*是测试数据相应的类别。
Claims (1)
1.一种用于零样本分类的多模态典型相关分析的方法,其特征在于,包括如下步骤:
1)使用训练数据的视觉特征X1以及相应类别的语义特征X2,…Xc求解下式,得到映射矩阵W:
式中,I是单位矩阵;
2)在验证集中学习得到下式中的权重αi
式中,xj是验证数据的视觉特征,是与xj相对应类别的第k个模态的语义特征,sim(a,b)=aTb/(||a||·||b||),为两个向量的距离;
3)使用映射矩阵W,将测试数据的视觉特征和未见过的类别的语义特征yk映射至公共空间;
4)用步骤2)中的公式对测试数据进行分类,式中的k*是测试数据相应的类别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610027658.0A CN105701514B (zh) | 2016-01-15 | 2016-01-15 | 一种用于零样本分类的多模态典型相关分析的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610027658.0A CN105701514B (zh) | 2016-01-15 | 2016-01-15 | 一种用于零样本分类的多模态典型相关分析的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105701514A CN105701514A (zh) | 2016-06-22 |
CN105701514B true CN105701514B (zh) | 2019-05-21 |
Family
ID=56227371
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610027658.0A Expired - Fee Related CN105701514B (zh) | 2016-01-15 | 2016-01-15 | 一种用于零样本分类的多模态典型相关分析的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105701514B (zh) |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106250925B (zh) * | 2016-07-25 | 2019-06-11 | 天津大学 | 一种基于改进的典型相关分析的零样本视频分类方法 |
CN109643384A (zh) * | 2016-08-16 | 2019-04-16 | 诺基亚技术有限公司 | 用于零样本学习的方法和装置 |
CN106485270B (zh) * | 2016-09-30 | 2019-11-15 | 天津大学 | 域自适应学习方法 |
CN106485271B (zh) * | 2016-09-30 | 2019-11-15 | 天津大学 | 一种基于多模态字典学习的零样本分类方法 |
CN106485272A (zh) * | 2016-09-30 | 2017-03-08 | 天津大学 | 基于流形约束的跨模态嵌入的零样本分类方法 |
CN106778804B (zh) * | 2016-11-18 | 2020-10-20 | 天津大学 | 基于类别属性迁移学习的零样本图像分类方法 |
CN106844518B (zh) * | 2016-12-29 | 2019-02-12 | 天津中科智能识别产业技术研究院有限公司 | 一种基于子空间学习的不完整跨模态检索方法 |
WO2018161217A1 (en) * | 2017-03-06 | 2018-09-13 | Nokia Technologies Oy | A transductive and/or adaptive max margin zero-shot learning method and system |
CN107480688B (zh) * | 2017-06-20 | 2020-06-19 | 广东工业大学 | 基于零样本学习的细粒度图像识别方法 |
CN107766873A (zh) * | 2017-09-06 | 2018-03-06 | 天津大学 | 基于排序学习的多标签零样本分类方法 |
CN108376267B (zh) * | 2018-03-26 | 2021-07-13 | 天津大学 | 一种基于类别转移的零样本分类方法 |
CN109325512A (zh) * | 2018-08-01 | 2019-02-12 | 北京市商汤科技开发有限公司 | 图像分类方法及装置、电子设备、计算机程序及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101299241A (zh) * | 2008-01-14 | 2008-11-05 | 浙江大学 | 基于张量表示的多模态视频语义概念检测方法 |
CN104463246A (zh) * | 2014-12-08 | 2015-03-25 | 天津大学 | 一种基于流形的线性回归学习方法 |
CN104462818A (zh) * | 2014-12-08 | 2015-03-25 | 天津大学 | 一种基于Fisher准则的嵌入流形回归模型 |
-
2016
- 2016-01-15 CN CN201610027658.0A patent/CN105701514B/zh not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101299241A (zh) * | 2008-01-14 | 2008-11-05 | 浙江大学 | 基于张量表示的多模态视频语义概念检测方法 |
CN104463246A (zh) * | 2014-12-08 | 2015-03-25 | 天津大学 | 一种基于流形的线性回归学习方法 |
CN104462818A (zh) * | 2014-12-08 | 2015-03-25 | 天津大学 | 一种基于Fisher准则的嵌入流形回归模型 |
Non-Patent Citations (3)
Title |
---|
Learning To Detect Unseen Object Classes by Between-Class Attribute Transfer;Christoph H. Lampert,et.al;《2009 IEEE Conference on Computer Vision and Pattern Recognition》;20090625;全文 |
Zero-Shot Learning Through Cross-Modal Transfer;Richard Socher,et.al;《https://www.researchgate.net/publication/234131208》;20150414;全文 |
基于图嵌入与视觉注意的特征抽取;赵才荣;《中国博士学位论文全文数据库》;20111215(第2011年12期);全文 |
Also Published As
Publication number | Publication date |
---|---|
CN105701514A (zh) | 2016-06-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105701514B (zh) | 一种用于零样本分类的多模态典型相关分析的方法 | |
CN105718940B (zh) | 基于多组间因子分析的零样本图像分类方法 | |
Hsu et al. | Progressive domain adaptation for object detection | |
CN106203483B (zh) | 一种基于语义相关多模态映射方法的零样本图像分类方法 | |
Hendricks et al. | Deep compositional captioning: Describing novel object categories without paired training data | |
Jiang et al. | Understanding and predicting interestingness of videos | |
Saito et al. | Illustration2vec: a semantic vector representation of illustrations | |
CN106294344B (zh) | 视频检索方法和装置 | |
CN110059807A (zh) | 图像处理方法、装置和存储介质 | |
Bui et al. | Scalable sketch-based image retrieval using color gradient features | |
CN105389326B (zh) | 基于弱匹配概率典型相关性模型的图像标注方法 | |
Jas et al. | Image specificity | |
CN110245259A (zh) | 基于知识图谱的视频打标签方法及装置、计算机可读介质 | |
CN102549603A (zh) | 基于相关性的图像选择 | |
CN105740879B (zh) | 基于多模态判别分析的零样本图像分类方法 | |
CN106227836B (zh) | 基于图像与文字的无监督联合视觉概念学习系统及方法 | |
CN110110610A (zh) | 一种用于短视频的事件检测方法 | |
CN106203448B (zh) | 一种基于非线性尺度空间的场景分类方法 | |
Karaoglu et al. | Con-text: text detection using background connectivity for fine-grained object classification | |
Bai et al. | Integrating scene text and visual appearance for fine-grained image classification with convolutional neural networks | |
Mironica et al. | Fisher kernel based relevance feedback for multimodal video retrieval | |
CN104123382B (zh) | 一种社会媒体下的图像集摘要生成方法 | |
Ji et al. | Research on indoor scene classification mechanism based on multiple descriptors fusion | |
CN111738039A (zh) | 一种行人重识别方法、终端及存储介质 | |
Bartoli et al. | Computer Vision–ECCV 2020 Workshops: Glasgow, UK, August 23–28, 2020, Proceedings, Part VI |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20190521 |
|
CF01 | Termination of patent right due to non-payment of annual fee |