CN106485272A - 基于流形约束的跨模态嵌入的零样本分类方法 - Google Patents

基于流形约束的跨模态嵌入的零样本分类方法 Download PDF

Info

Publication number
CN106485272A
CN106485272A CN201610879328.4A CN201610879328A CN106485272A CN 106485272 A CN106485272 A CN 106485272A CN 201610879328 A CN201610879328 A CN 201610879328A CN 106485272 A CN106485272 A CN 106485272A
Authority
CN
China
Prior art keywords
sample
matrix
classification
cross
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610879328.4A
Other languages
English (en)
Inventor
冀中
于云龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN201610879328.4A priority Critical patent/CN106485272A/zh
Publication of CN106485272A publication Critical patent/CN106485272A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种基于流形约束的跨模态嵌入的零样本分类方法,包括:利用如下流形约束的跨模态嵌入模型学习从视觉空间映射到类别语义空间的转换矩阵;利用学习到的转换矩阵,将测试样本从视觉空间映射到类别语义空间,得到测试样本在类别语义空间中的嵌入向量;利用欧式距离计算测试样本在类别语义空间中的嵌入向量与测试类别的语义特征之间的关系,利用最近邻分类器实现对测试样本的分类。本发明的基于流形约束的跨模态嵌入的零样本分类方法,能够更好的挖掘不同模态之间的语义信息以及不同类别之间的判别信息,并且利用流形约束保持在模态转换过程中的局部结构。

Description

基于流形约束的跨模态嵌入的零样本分类方法
技术领域
本发明涉及一种零样本分类方法。特别是涉及一种基于流形约束的跨模态嵌入的零样本分类方法。
背景技术
传统的物体分类技术中测试样本所属的类别一定包含在训练阶段出现过的类别中。为了获得更好的分类效果,每一个训练类别需要大量的标注样本。而对样本进行标注需要大量的时间和人力,而且有些类别很难获得标注样本。为了解决训练样本缺失的问题,零样本分类引起了研究者们的关注。
零样本分类的任务是将测试样本分类到在训练阶段未出现过的类别中。传统的分类技术无法解决这一问题。为了实现这一目标,研究者们提出了一种所有类别共享的中间层特征空间将信息从训练类别中转移到测试类别。常用的中间层特征空间有:属性空间和类别语义描述空间。
属性特征是人为定义的类别之间共享的特性,如“颜色”,“纹理”,“大小”,“习性”等能够描述类别语义的特性。研究表明,属性特征有助于复杂环境下的机器学习,对于熟悉和不熟悉的事物具有独特的作用。作为不同类别共享的中间层语义特征,属性特征被用于弥补底层的视觉特征和高层的类别特征之间的语义鸿沟,因此被广泛应用于物体检测,图像描述,人脸识别,图像检索等,并且为识别未标注类别的样本提供了可能。
利用自然语言处理技术从语料库中获得文本描述特征是另一种常用的中间层特征。与属性特征不同,文本描述是一种无监督方式提取的类别语义特征,因此更具有普适性。常用的获取文本描述的方法有word2vec,GloVE等技术。Word2vec技术是Google在2013年提出的一种将单词表征为实数值向量的工具。利用深度学习的思想,word2vec模型可以把对文本内容的处理简化为K维向量空间中的向量运算。
零样本分类的基本框架是:在训练阶段,利用有标注样本的训练样本学习一个跨模态嵌入的模型,将样本从视觉特征空间映射到中间层的类别语义空间。在类别语义空间中,每一个类别(训练类别和测试类别)都对应着一个类别描述向量。在测试阶段,利用在训练阶段学习到的跨模态嵌入框架将测试样本嵌入到类别语义空间中,根据样本在类别语义空间中的嵌入向量与测试类别在类别语义空间中的类别描述向量之间的关系,利用最近邻分类器对测试样本进行预测。然而当前跨模态嵌入的框架只关注不同模态空间之间的语义对齐,而忽视了跨模态过程中的局部结构变化。
发明内容
本发明所要解决的技术问题是,提供一种基于流形约束的跨模态嵌入的零样本分类方法,本发明的方法不仅能挖掘不同模态之间的语义信息及类别之间的判别信息,还能够利用流形约束保持特征转换前后的结构信息。
本发明所采用的技术方案是:一种基于流形约束的跨模态嵌入的零样本分类方法,包括如下步骤:
1)利用如下流形约束的跨模态嵌入模型学习从视觉空间映射到类别语义空间的转换矩阵W
其中,xi表示来自训练数据集S的训练样本,是训练样本xi所属类别的类别语义特征,λ1和λ2是常数,表示所有的训练样本,L表示拉普拉斯矩阵,n表示训练数据集的样本个数,K表示训练样本的类别数;
2)利用学习到的转换矩阵W,将测试样本从视觉空间映射到类别语义空间,得到测试样本在类别语义空间中的嵌入向量;
3)利用欧式距离计算测试样本在类别语义空间中的嵌入向量与测试类别的语义特征之间的关系,利用最近邻分类器实现对测试样本的分类。
步骤1)中所述的拉普拉斯矩阵L=D-S,其中,Dii=∑jSij表示第i个样本的度,S表示样本的相似度矩阵,Sij表示样本xi和xj之间的相似度,xi和xj是来自训练数据集S的训练样本。
步骤1)中所述的转换矩阵W学习过程是一个最小二乘优化问题,是利用流形约束的跨模态嵌入模型对转换矩阵W求导,得到转换矩阵W的最优值:
其中I是单位矩阵,表示对应的类别语义特征矩阵,矩阵YS的每一列表示每一个样本对应的类别语义特征向量,矩阵的每一列表示所有训练类别的语义特征向量的平均值,即:
本发明的基于流形约束的跨模态嵌入的零样本分类方法,能够更好的挖掘不同模态之间的语义信息以及不同类别之间的判别信息,并且利用流形约束保持在模态转换过程中的局部结构。其优势主要体现在:
(1)新颖性:首次将流形约束应用在零样本分类中,并在此基础上设计了一种有效的跨模态嵌入方法,充分挖掘不同模态之间的语义信息及不同类别之间的判别信息,提出了适用于零样本分类的跨模态嵌入算法。
(2)多模态性:所提供的方法属于多模态学习算法。除了视觉特征外,零样本分类还需要类别语义特征。一方面,通过最大化不同模态数据之间的语义相关性,挖掘不同模态之间的语义信息。另一方面,根据标注样本类别,挖掘类别之间的判别信息,同时利用流形约束保持特征转换过程中的局部结构。两方面结合共同实现跨模态转换的目的。
(3)有效性:实验证明,与当前跨模态嵌入算法相比较,本发明设计的基于流形嵌入的跨模态嵌入模型在零样本分类实验中的性能有明显的优势,
(4)实用性:简单可行,复杂度低。可以用在零样本分类,多模态检索等相关领域。
附图说明
图1是基于流形约束的跨模态嵌入的零样本分类方法的流程图;
图2是本发明中基于流形约束的跨模态嵌入方法的流程图。
具体实施方式
下面结合实施例和附图对本发明的基于流形约束的跨模态嵌入的零样本分类方法做出详细说明。
本发明的基于流形约束的跨模态嵌入的零样本分类方法,是在跨模态嵌入框架的基础上,提出一种有效地解决零样本分类的方法。本发明对当前的跨模态嵌入方法进行了改进,在特征转换的过程中不仅充分挖掘不同模态之间的语义信息及类别之间的判别信息,而且利用流形约束保持特征转换前后的局部结构,从而达到有效利用数据信息,提高分类效果的目的。本发明还提供了利用本方法实现零样本分类的系统。本发明的方法不仅仅能挖掘不同模态之间的语义信息及类别之间的判别信息,而且利用流形约束保持特征转换前后的结构信息。
如图1所示,本发明的基于流形约束的跨模态嵌入的零样本分类方法,目标是学习一个转移矩阵W*将视觉空间中的特征向量映射到类别语义空间中。其目标函数主要有三部分组成:流形约束项语义对齐项和正则项流形约束项是用于保持特征转换前后的局部结构信息,语义对齐项是用于挖掘不同模态空间中的语义信息及类别之间的判别信息,正则项用于防止过拟合。
本发明的基于流形约束的跨模态嵌入的零样本分类方法,包括如下步骤:
1)如图2所示,利用如下流形约束的跨模态嵌入模型学习从视觉空间映射到类别语义空间的转换矩阵W
其中,xi表示来自训练数据集S的训练样本,是训练样本xi所属类别的类别语义特征,λ1和λ2是常数,表示所有的训练样本,L表示拉普拉斯矩阵,n表示训练数据集的样本个数,K表示训练样本的类别数;
所述的拉普拉斯矩阵L=D-S,其中,Dii=∑jSij表示第i个样本的度,S表示样本的相似度矩阵,Sij表示样本xi和xj之间的相似度,xi和xj是来自训练数据集S的训练样本。
所述的转换矩阵W学习过程是一个最小二乘优化问题,是利用流形约束的跨模态嵌入模型对转换矩阵W求导,得到转换矩阵W的W最优值:
其中I是单位矩阵,表示对应的类别语义特征矩阵,矩阵YS的每一列表示每一个样本对应的类别语义特征向量,矩阵的每一列表示所有训练类别的语义特征向量的平均值,即:
2)利用学习到的转换矩阵W,将测试样本从视觉空间映射到类别语义空间,得到测试样本在类别语义空间中的嵌入向量;
3)利用欧式距离计算测试样本在类别语义空间中的嵌入向量与测试类别的语义特征之间的关系,利用最近邻分类器实现对测试样本的分类。

Claims (3)

1.一种基于流形约束的跨模态嵌入的零样本分类方法,其特征在于,包括如下步骤:
1)利用如下流形约束的跨模态嵌入模型学习从视觉空间映射到类别语义空间的转换矩阵W
arg m i n w Σ i = 1 n Σ j = 1 K - ( x i T Wy l i - x i T Wy j ) + λ 1 2 | | W | | F 2 + λ 2 2 W T X S LX S T W s . t . X S T WW T X S T = 1 ,
其中,xi表示来自训练数据集S的训练样本,是训练样本xi所属类别的类别语义特征,λ1和λ2是常数,表示所有的训练样本,L表示拉普拉斯矩阵,n表示训练数据集的样本个数,K表示训练样本的类别数;
2)利用学习到的转换矩阵W,将测试样本从视觉空间映射到类别语义空间,得到测试样本在类别语义空间中的嵌入向量;
3)利用欧式距离计算测试样本在类别语义空间中的嵌入向量与测试类别的语义特征之间的关系,利用最近邻分类器实现对测试样本的分类。
2.根据权利要求1所述的基于流形约束的跨模态嵌入的零样本分类方法,其特征在于,步骤1)中所述的拉普拉斯矩阵L=D-S,其中,表示第i个样本的度,S表示样本的相似度矩阵,Sij表示样本xi和xj之间的相似度,xi和xj是来自训练数据集S的训练样本。
3.根据权利要求1所述的基于流形约束的跨模态嵌入的零样本分类方法,其特征在于,步骤1)中所述的转换矩阵W学习过程是一个最小二乘优化问题,是利用流形约束的跨模态嵌入模型对转换矩阵W求导,得到转换矩阵W的最优值:
W * = ( X S X S T + λ 1 I + λ 2 X S LX S T ) - 1 ( X S Y S T - X S Y ^ S T ) ,
其中I是单位矩阵,表示对应的类别语义特征矩阵,矩阵YS的每一列表示每一个样本对应的类别语义特征向量,矩阵的每一列表示所有训练类别的语义特征向量的平均值,即:
CN201610879328.4A 2016-09-30 2016-09-30 基于流形约束的跨模态嵌入的零样本分类方法 Pending CN106485272A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610879328.4A CN106485272A (zh) 2016-09-30 2016-09-30 基于流形约束的跨模态嵌入的零样本分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610879328.4A CN106485272A (zh) 2016-09-30 2016-09-30 基于流形约束的跨模态嵌入的零样本分类方法

Publications (1)

Publication Number Publication Date
CN106485272A true CN106485272A (zh) 2017-03-08

Family

ID=58268626

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610879328.4A Pending CN106485272A (zh) 2016-09-30 2016-09-30 基于流形约束的跨模态嵌入的零样本分类方法

Country Status (1)

Country Link
CN (1) CN106485272A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109325512A (zh) * 2018-08-01 2019-02-12 北京市商汤科技开发有限公司 图像分类方法及装置、电子设备、计算机程序及存储介质
CN109598279A (zh) * 2018-09-27 2019-04-09 天津大学 基于自编码对抗生成网络的零样本学习方法
CN110472652A (zh) * 2019-06-30 2019-11-19 天津大学 基于语义引导的少量样本分类方法
CN114970685A (zh) * 2022-05-06 2022-08-30 北京三快在线科技有限公司 向量提取模型的训练方法、装置、电子设备和存储介质
CN115424096A (zh) * 2022-11-08 2022-12-02 南京信息工程大学 一种多视角零样本图像识别方法
CN116595343A (zh) * 2023-07-17 2023-08-15 山东大学 基于流形排序学习的在线无监督跨模态检索方法及系统
CN117746075A (zh) * 2024-01-03 2024-03-22 上海交通大学 一种基于精细纹理特征的零样本图像检索方法、装置及计算机可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105512679A (zh) * 2015-12-02 2016-04-20 天津大学 一种基于极限学习机的零样本分类方法
CN105701504A (zh) * 2016-01-08 2016-06-22 天津大学 用于零样本学习的多模态流形嵌入方法
CN105701514A (zh) * 2016-01-15 2016-06-22 天津大学 一种用于零样本分类的多模态典型相关分析的方法
CN105740879A (zh) * 2016-01-15 2016-07-06 天津大学 基于多模态判别分析的零样本图像分类方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105512679A (zh) * 2015-12-02 2016-04-20 天津大学 一种基于极限学习机的零样本分类方法
CN105701504A (zh) * 2016-01-08 2016-06-22 天津大学 用于零样本学习的多模态流形嵌入方法
CN105701514A (zh) * 2016-01-15 2016-06-22 天津大学 一种用于零样本分类的多模态典型相关分析的方法
CN105740879A (zh) * 2016-01-15 2016-07-06 天津大学 基于多模态判别分析的零样本图像分类方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CHAOQUN HONG 等: "Multi-view ensemble manifold regularization for 3D object recognition", 《INFORMATION SCIENCES》 *
XUN XU 等: "Zero-Shot Action Recognition by Word-Vector Embedding", 《INTERNATIONAL JOURNAL OF COMPUTER VISION》 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109325512A (zh) * 2018-08-01 2019-02-12 北京市商汤科技开发有限公司 图像分类方法及装置、电子设备、计算机程序及存储介质
CN109598279A (zh) * 2018-09-27 2019-04-09 天津大学 基于自编码对抗生成网络的零样本学习方法
CN109598279B (zh) * 2018-09-27 2023-04-25 天津大学 基于自编码对抗生成网络的零样本学习方法
CN110472652A (zh) * 2019-06-30 2019-11-19 天津大学 基于语义引导的少量样本分类方法
CN110472652B (zh) * 2019-06-30 2023-06-09 天津大学 基于语义引导的少量样本分类方法
CN114970685A (zh) * 2022-05-06 2022-08-30 北京三快在线科技有限公司 向量提取模型的训练方法、装置、电子设备和存储介质
CN115424096A (zh) * 2022-11-08 2022-12-02 南京信息工程大学 一种多视角零样本图像识别方法
CN115424096B (zh) * 2022-11-08 2023-01-31 南京信息工程大学 一种多视角零样本图像识别方法
CN116595343A (zh) * 2023-07-17 2023-08-15 山东大学 基于流形排序学习的在线无监督跨模态检索方法及系统
CN116595343B (zh) * 2023-07-17 2023-10-03 山东大学 基于流形排序学习的在线无监督跨模态检索方法及系统
CN117746075A (zh) * 2024-01-03 2024-03-22 上海交通大学 一种基于精细纹理特征的零样本图像检索方法、装置及计算机可读存储介质
CN117746075B (zh) * 2024-01-03 2024-05-14 上海交通大学 一种基于精细纹理特征的零样本图像检索方法、装置及计算机可读存储介质

Similar Documents

Publication Publication Date Title
Sun et al. PBNet: Part-based convolutional neural network for complex composite object detection in remote sensing imagery
CN106485272A (zh) 基于流形约束的跨模态嵌入的零样本分类方法
CN107368787B (zh) 一种面向深度智驾应用的交通标志识别方法
CN108376267B (zh) 一种基于类别转移的零样本分类方法
CN104217225B (zh) 一种视觉目标检测与标注方法
CN102314614B (zh) 一种基于类共享多核学习的图像语义分类方法
CN107679580A (zh) 一种基于多模态深度潜在关联的异构迁移图像情感极性分析方法
CN109993197A (zh) 一种基于深度端对端示例差异化的零样本多标签分类方法
CN106485271B (zh) 一种基于多模态字典学习的零样本分类方法
CN105701504B (zh) 用于零样本学习的多模态流形嵌入方法
CN106778804A (zh) 基于类别属性迁移学习的零样本图像分类方法
CN102156871B (zh) 基于类别相关的码本和分类器投票策略的图像分类方法
CN105808752B (zh) 一种基于cca和2pknn的自动图像标注方法
CN108629367A (zh) 一种基于深度网络增强服装属性识别精度的方法
CN105787513A (zh) 多示例多标记框架下基于域适应迁移学习设计方法和系统
CN105389550A (zh) 一种基于稀疏指引与显著驱动的遥感目标检测方法
CN105701514A (zh) 一种用于零样本分类的多模态典型相关分析的方法
CN108427740A (zh) 一种基于深度度量学习的图像情感分类与检索算法
Lu et al. Image classification by visual bag-of-words refinement and reduction
CN105718940A (zh) 基于多组间因子分析的零样本图像分类方法
CN104636761A (zh) 一种基于多层分割的图像语义标注方法
CN110009017A (zh) 一种基于视角类属特征学习的多视角多标记分类方法
CN107463996A (zh) 自步‑协同训练学习方法
CN102117337B (zh) 一种融合空间信息的Bag of Words图像检索方法
CN105740888A (zh) 一种用于零样本学习的联合嵌入模型

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20170308