CN106485272A - 基于流形约束的跨模态嵌入的零样本分类方法 - Google Patents

基于流形约束的跨模态嵌入的零样本分类方法 Download PDF

Info

Publication number
CN106485272A
CN106485272A CN201610879328.4A CN201610879328A CN106485272A CN 106485272 A CN106485272 A CN 106485272A CN 201610879328 A CN201610879328 A CN 201610879328A CN 106485272 A CN106485272 A CN 106485272A
Authority
CN
China
Prior art keywords
classification
sample
matrix
cross
module state
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610879328.4A
Other languages
English (en)
Inventor
冀中
于云龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN201610879328.4A priority Critical patent/CN106485272A/zh
Publication of CN106485272A publication Critical patent/CN106485272A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种基于流形约束的跨模态嵌入的零样本分类方法,包括:利用如下流形约束的跨模态嵌入模型学习从视觉空间映射到类别语义空间的转换矩阵;利用学习到的转换矩阵,将测试样本从视觉空间映射到类别语义空间,得到测试样本在类别语义空间中的嵌入向量;利用欧式距离计算测试样本在类别语义空间中的嵌入向量与测试类别的语义特征之间的关系,利用最近邻分类器实现对测试样本的分类。本发明的基于流形约束的跨模态嵌入的零样本分类方法,能够更好的挖掘不同模态之间的语义信息以及不同类别之间的判别信息,并且利用流形约束保持在模态转换过程中的局部结构。

Description

基于流形约束的跨模态嵌入的零样本分类方法
技术领域
本发明涉及一种零样本分类方法。特别是涉及一种基于流形约束的跨模态嵌入的零样本分类方法。
背景技术
传统的物体分类技术中测试样本所属的类别一定包含在训练阶段出现过的类别中。为了获得更好的分类效果,每一个训练类别需要大量的标注样本。而对样本进行标注需要大量的时间和人力,而且有些类别很难获得标注样本。为了解决训练样本缺失的问题,零样本分类引起了研究者们的关注。
零样本分类的任务是将测试样本分类到在训练阶段未出现过的类别中。传统的分类技术无法解决这一问题。为了实现这一目标,研究者们提出了一种所有类别共享的中间层特征空间将信息从训练类别中转移到测试类别。常用的中间层特征空间有:属性空间和类别语义描述空间。
属性特征是人为定义的类别之间共享的特性,如“颜色”,“纹理”,“大小”,“习性”等能够描述类别语义的特性。研究表明,属性特征有助于复杂环境下的机器学习,对于熟悉和不熟悉的事物具有独特的作用。作为不同类别共享的中间层语义特征,属性特征被用于弥补底层的视觉特征和高层的类别特征之间的语义鸿沟,因此被广泛应用于物体检测,图像描述,人脸识别,图像检索等,并且为识别未标注类别的样本提供了可能。
利用自然语言处理技术从语料库中获得文本描述特征是另一种常用的中间层特征。与属性特征不同,文本描述是一种无监督方式提取的类别语义特征,因此更具有普适性。常用的获取文本描述的方法有word2vec,GloVE等技术。Word2vec技术是Google在2013年提出的一种将单词表征为实数值向量的工具。利用深度学习的思想,word2vec模型可以把对文本内容的处理简化为K维向量空间中的向量运算。
零样本分类的基本框架是:在训练阶段,利用有标注样本的训练样本学习一个跨模态嵌入的模型,将样本从视觉特征空间映射到中间层的类别语义空间。在类别语义空间中,每一个类别(训练类别和测试类别)都对应着一个类别描述向量。在测试阶段,利用在训练阶段学习到的跨模态嵌入框架将测试样本嵌入到类别语义空间中,根据样本在类别语义空间中的嵌入向量与测试类别在类别语义空间中的类别描述向量之间的关系,利用最近邻分类器对测试样本进行预测。然而当前跨模态嵌入的框架只关注不同模态空间之间的语义对齐,而忽视了跨模态过程中的局部结构变化。
发明内容
本发明所要解决的技术问题是,提供一种基于流形约束的跨模态嵌入的零样本分类方法,本发明的方法不仅能挖掘不同模态之间的语义信息及类别之间的判别信息,还能够利用流形约束保持特征转换前后的结构信息。
本发明所采用的技术方案是:一种基于流形约束的跨模态嵌入的零样本分类方法,包括如下步骤:
1)利用如下流形约束的跨模态嵌入模型学习从视觉空间映射到类别语义空间的转换矩阵W
其中,xi表示来自训练数据集S的训练样本,是训练样本xi所属类别的类别语义特征,λ1和λ2是常数,表示所有的训练样本,L表示拉普拉斯矩阵,n表示训练数据集的样本个数,K表示训练样本的类别数;
2)利用学习到的转换矩阵W,将测试样本从视觉空间映射到类别语义空间,得到测试样本在类别语义空间中的嵌入向量;
3)利用欧式距离计算测试样本在类别语义空间中的嵌入向量与测试类别的语义特征之间的关系,利用最近邻分类器实现对测试样本的分类。
步骤1)中所述的拉普拉斯矩阵L=D-S,其中,Dii=∑jSij表示第i个样本的度,S表示样本的相似度矩阵,Sij表示样本xi和xj之间的相似度,xi和xj是来自训练数据集S的训练样本。
步骤1)中所述的转换矩阵W学习过程是一个最小二乘优化问题,是利用流形约束的跨模态嵌入模型对转换矩阵W求导,得到转换矩阵W的最优值:
其中I是单位矩阵,表示对应的类别语义特征矩阵,矩阵YS的每一列表示每一个样本对应的类别语义特征向量,矩阵的每一列表示所有训练类别的语义特征向量的平均值,即:
本发明的基于流形约束的跨模态嵌入的零样本分类方法,能够更好的挖掘不同模态之间的语义信息以及不同类别之间的判别信息,并且利用流形约束保持在模态转换过程中的局部结构。其优势主要体现在:
(1)新颖性:首次将流形约束应用在零样本分类中,并在此基础上设计了一种有效的跨模态嵌入方法,充分挖掘不同模态之间的语义信息及不同类别之间的判别信息,提出了适用于零样本分类的跨模态嵌入算法。
(2)多模态性:所提供的方法属于多模态学习算法。除了视觉特征外,零样本分类还需要类别语义特征。一方面,通过最大化不同模态数据之间的语义相关性,挖掘不同模态之间的语义信息。另一方面,根据标注样本类别,挖掘类别之间的判别信息,同时利用流形约束保持特征转换过程中的局部结构。两方面结合共同实现跨模态转换的目的。
(3)有效性:实验证明,与当前跨模态嵌入算法相比较,本发明设计的基于流形嵌入的跨模态嵌入模型在零样本分类实验中的性能有明显的优势,
(4)实用性:简单可行,复杂度低。可以用在零样本分类,多模态检索等相关领域。
附图说明
图1是基于流形约束的跨模态嵌入的零样本分类方法的流程图;
图2是本发明中基于流形约束的跨模态嵌入方法的流程图。
具体实施方式
下面结合实施例和附图对本发明的基于流形约束的跨模态嵌入的零样本分类方法做出详细说明。
本发明的基于流形约束的跨模态嵌入的零样本分类方法,是在跨模态嵌入框架的基础上,提出一种有效地解决零样本分类的方法。本发明对当前的跨模态嵌入方法进行了改进,在特征转换的过程中不仅充分挖掘不同模态之间的语义信息及类别之间的判别信息,而且利用流形约束保持特征转换前后的局部结构,从而达到有效利用数据信息,提高分类效果的目的。本发明还提供了利用本方法实现零样本分类的系统。本发明的方法不仅仅能挖掘不同模态之间的语义信息及类别之间的判别信息,而且利用流形约束保持特征转换前后的结构信息。
如图1所示,本发明的基于流形约束的跨模态嵌入的零样本分类方法,目标是学习一个转移矩阵W*将视觉空间中的特征向量映射到类别语义空间中。其目标函数主要有三部分组成:流形约束项语义对齐项和正则项流形约束项是用于保持特征转换前后的局部结构信息,语义对齐项是用于挖掘不同模态空间中的语义信息及类别之间的判别信息,正则项用于防止过拟合。
本发明的基于流形约束的跨模态嵌入的零样本分类方法,包括如下步骤:
1)如图2所示,利用如下流形约束的跨模态嵌入模型学习从视觉空间映射到类别语义空间的转换矩阵W
其中,xi表示来自训练数据集S的训练样本,是训练样本xi所属类别的类别语义特征,λ1和λ2是常数,表示所有的训练样本,L表示拉普拉斯矩阵,n表示训练数据集的样本个数,K表示训练样本的类别数;
所述的拉普拉斯矩阵L=D-S,其中,Dii=∑jSij表示第i个样本的度,S表示样本的相似度矩阵,Sij表示样本xi和xj之间的相似度,xi和xj是来自训练数据集S的训练样本。
所述的转换矩阵W学习过程是一个最小二乘优化问题,是利用流形约束的跨模态嵌入模型对转换矩阵W求导,得到转换矩阵W的W最优值:
其中I是单位矩阵,表示对应的类别语义特征矩阵,矩阵YS的每一列表示每一个样本对应的类别语义特征向量,矩阵的每一列表示所有训练类别的语义特征向量的平均值,即:
2)利用学习到的转换矩阵W,将测试样本从视觉空间映射到类别语义空间,得到测试样本在类别语义空间中的嵌入向量;
3)利用欧式距离计算测试样本在类别语义空间中的嵌入向量与测试类别的语义特征之间的关系,利用最近邻分类器实现对测试样本的分类。

Claims (3)

1.一种基于流形约束的跨模态嵌入的零样本分类方法,其特征在于,包括如下步骤:
1)利用如下流形约束的跨模态嵌入模型学习从视觉空间映射到类别语义空间的转换矩阵W
arg m i n w Σ i = 1 n Σ j = 1 K - ( x i T Wy l i - x i T Wy j ) + λ 1 2 | | W | | F 2 + λ 2 2 W T X S LX S T W s . t . X S T WW T X S T = 1 ,
其中,xi表示来自训练数据集S的训练样本,是训练样本xi所属类别的类别语义特征,λ1和λ2是常数,表示所有的训练样本,L表示拉普拉斯矩阵,n表示训练数据集的样本个数,K表示训练样本的类别数;
2)利用学习到的转换矩阵W,将测试样本从视觉空间映射到类别语义空间,得到测试样本在类别语义空间中的嵌入向量;
3)利用欧式距离计算测试样本在类别语义空间中的嵌入向量与测试类别的语义特征之间的关系,利用最近邻分类器实现对测试样本的分类。
2.根据权利要求1所述的基于流形约束的跨模态嵌入的零样本分类方法,其特征在于,步骤1)中所述的拉普拉斯矩阵L=D-S,其中,表示第i个样本的度,S表示样本的相似度矩阵,Sij表示样本xi和xj之间的相似度,xi和xj是来自训练数据集S的训练样本。
3.根据权利要求1所述的基于流形约束的跨模态嵌入的零样本分类方法,其特征在于,步骤1)中所述的转换矩阵W学习过程是一个最小二乘优化问题,是利用流形约束的跨模态嵌入模型对转换矩阵W求导,得到转换矩阵W的最优值:
W * = ( X S X S T + λ 1 I + λ 2 X S LX S T ) - 1 ( X S Y S T - X S Y ^ S T ) ,
其中I是单位矩阵,表示对应的类别语义特征矩阵,矩阵YS的每一列表示每一个样本对应的类别语义特征向量,矩阵的每一列表示所有训练类别的语义特征向量的平均值,即:
CN201610879328.4A 2016-09-30 2016-09-30 基于流形约束的跨模态嵌入的零样本分类方法 Pending CN106485272A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610879328.4A CN106485272A (zh) 2016-09-30 2016-09-30 基于流形约束的跨模态嵌入的零样本分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610879328.4A CN106485272A (zh) 2016-09-30 2016-09-30 基于流形约束的跨模态嵌入的零样本分类方法

Publications (1)

Publication Number Publication Date
CN106485272A true CN106485272A (zh) 2017-03-08

Family

ID=58268626

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610879328.4A Pending CN106485272A (zh) 2016-09-30 2016-09-30 基于流形约束的跨模态嵌入的零样本分类方法

Country Status (1)

Country Link
CN (1) CN106485272A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109325512A (zh) * 2018-08-01 2019-02-12 北京市商汤科技开发有限公司 图像分类方法及装置、电子设备、计算机程序及存储介质
CN109598279A (zh) * 2018-09-27 2019-04-09 天津大学 基于自编码对抗生成网络的零样本学习方法
CN110472652A (zh) * 2019-06-30 2019-11-19 天津大学 基于语义引导的少量样本分类方法
CN115424096A (zh) * 2022-11-08 2022-12-02 南京信息工程大学 一种多视角零样本图像识别方法
CN116595343A (zh) * 2023-07-17 2023-08-15 山东大学 基于流形排序学习的在线无监督跨模态检索方法及系统
CN117746075A (zh) * 2024-01-03 2024-03-22 上海交通大学 一种基于精细纹理特征的零样本图像检索方法、装置及计算机可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105512679A (zh) * 2015-12-02 2016-04-20 天津大学 一种基于极限学习机的零样本分类方法
CN105701514A (zh) * 2016-01-15 2016-06-22 天津大学 一种用于零样本分类的多模态典型相关分析的方法
CN105701504A (zh) * 2016-01-08 2016-06-22 天津大学 用于零样本学习的多模态流形嵌入方法
CN105740879A (zh) * 2016-01-15 2016-07-06 天津大学 基于多模态判别分析的零样本图像分类方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105512679A (zh) * 2015-12-02 2016-04-20 天津大学 一种基于极限学习机的零样本分类方法
CN105701504A (zh) * 2016-01-08 2016-06-22 天津大学 用于零样本学习的多模态流形嵌入方法
CN105701514A (zh) * 2016-01-15 2016-06-22 天津大学 一种用于零样本分类的多模态典型相关分析的方法
CN105740879A (zh) * 2016-01-15 2016-07-06 天津大学 基于多模态判别分析的零样本图像分类方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CHAOQUN HONG 等: "Multi-view ensemble manifold regularization for 3D object recognition", 《INFORMATION SCIENCES》 *
XUN XU 等: "Zero-Shot Action Recognition by Word-Vector Embedding", 《INTERNATIONAL JOURNAL OF COMPUTER VISION》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109325512A (zh) * 2018-08-01 2019-02-12 北京市商汤科技开发有限公司 图像分类方法及装置、电子设备、计算机程序及存储介质
CN109598279A (zh) * 2018-09-27 2019-04-09 天津大学 基于自编码对抗生成网络的零样本学习方法
CN109598279B (zh) * 2018-09-27 2023-04-25 天津大学 基于自编码对抗生成网络的零样本学习方法
CN110472652A (zh) * 2019-06-30 2019-11-19 天津大学 基于语义引导的少量样本分类方法
CN110472652B (zh) * 2019-06-30 2023-06-09 天津大学 基于语义引导的少量样本分类方法
CN115424096A (zh) * 2022-11-08 2022-12-02 南京信息工程大学 一种多视角零样本图像识别方法
CN115424096B (zh) * 2022-11-08 2023-01-31 南京信息工程大学 一种多视角零样本图像识别方法
CN116595343A (zh) * 2023-07-17 2023-08-15 山东大学 基于流形排序学习的在线无监督跨模态检索方法及系统
CN116595343B (zh) * 2023-07-17 2023-10-03 山东大学 基于流形排序学习的在线无监督跨模态检索方法及系统
CN117746075A (zh) * 2024-01-03 2024-03-22 上海交通大学 一种基于精细纹理特征的零样本图像检索方法、装置及计算机可读存储介质
CN117746075B (zh) * 2024-01-03 2024-05-14 上海交通大学 一种基于精细纹理特征的零样本图像检索方法、装置及计算机可读存储介质

Similar Documents

Publication Publication Date Title
CN110909820B (zh) 基于自监督学习的图像分类方法及系统
CN106485272A (zh) 基于流形约束的跨模态嵌入的零样本分类方法
CN109002834B (zh) 基于多模态表征的细粒度图像分类方法
CN107239731B (zh) 一种基于Faster R-CNN的手势检测和识别方法
CN106570505B (zh) 对组织病理图像进行分析的方法和系统
US20210406266A1 (en) Computerized information extraction from tables
CN104077447B (zh) 基于纸质平面数据的城市三维空间矢量建模方法
CN107437100A (zh) 一种基于跨模态关联学习的图像位置预测方法
CN110879961B (zh) 利用车道模型的车道检测方法和装置
CN110196945B (zh) 一种基于LSTM与LeNet融合的微博用户年龄预测方法
CN105701504B (zh) 用于零样本学习的多模态流形嵌入方法
CN103886020B (zh) 一种房地产信息快速搜索方法
CN113505670B (zh) 基于多尺度cam和超像素的遥感图像弱监督建筑提取方法
EP4170605A1 (en) Multi-level transferable region-based domain adaptive object detection apparatus and method
CN113051914A (zh) 一种基于多特征动态画像的企业隐藏标签抽取方法及装置
CN114998688B (zh) 一种基于YOLOv4改进算法的大视场目标检测方法
CN115546553A (zh) 一种基于动态特征抽取和属性修正的零样本分类方法
CN113762257B (zh) 一种美妆品牌图像中标志的识别方法及装置
CN109034213A (zh) 基于相关熵原则的高光谱图像分类方法和系统
CN105740879A (zh) 基于多模态判别分析的零样本图像分类方法
CN112418207B (zh) 一种基于自注意力蒸馏的弱监督文字检测方法
CN111144469B (zh) 基于多维关联时序分类神经网络的端到端多序列文本识别方法
CN107633259A (zh) 一种基于稀疏字典表示的跨模态学习方法
CN116091775A (zh) 基于多模态和多尺度亲和关系的点云弱监督语义分割方法
CN116310638A (zh) 用于遥感影像场景分类的方法以及模型训练方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20170308

WD01 Invention patent application deemed withdrawn after publication