CN105740888A - 一种用于零样本学习的联合嵌入模型 - Google Patents
一种用于零样本学习的联合嵌入模型 Download PDFInfo
- Publication number
- CN105740888A CN105740888A CN201610052504.7A CN201610052504A CN105740888A CN 105740888 A CN105740888 A CN 105740888A CN 201610052504 A CN201610052504 A CN 201610052504A CN 105740888 A CN105740888 A CN 105740888A
- Authority
- CN
- China
- Prior art keywords
- feature
- zero sample
- image
- sample learning
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
Abstract
一种用于零样本学习的联合嵌入模型,包括:1)输入训练样本的图像特征X,图像所对应的文本特征Y,以及权重参数α,β,λ;计算所有文本特征向量之和,然后通过如下公式计算特征转换矩阵M:,其中I是单位矩阵;输出特征转换矩阵M。本发明,采用不同模态之间相关关系来构建目标函数,使得属于同一类别两种模态特征在公共空间中的相关性最大,同时最小化属于不同类别的两种模态在公共空间中的相关性。本发明利用训练样本学习到一个转移矩阵使得属于不同模态的特征之间能够相互比较相似度。
Description
技术领域
本发明涉及一种联合嵌入模型。特别是涉及一种用于零样本学习的联合嵌入模型。
背景技术
伴随着互联网的发展,网络上的多模态数据不断的增长,多模态学习逐渐成为机器学习和数据挖掘的研究热点。多模态学习可是使不同模态的数据特征建立关系,理想情况下多模态学习能够将不同模态的特征信息融合到一个公共的表示空间,实现在同一个语义层次上的比较和检索。在多模态数据不断增长的大数据时代,伴随着用户对于面向多模态数据的挖掘技术的需求与日剧增,传统的面向单模态模型的数据挖掘技术已经不能满足人们的要求。如何挖掘出不同模态之间的有效信息是当前机器学习领域的一个重要任务。
当前的多模态特征融合方法可以分为两类:深层多模态特征融合和浅层多模态特征融合。深层多模态融合的层数一般要大于三层,这种模型大都从不同的模态的输入数据中提取输入的不同模态数据的中间表示再将其作为关联模块的输入,学习这些中间表示特征相互之间的关联关系。这类方法的缺点是:训练时间长,复杂度高,且容易陷入局部最优。浅层多模态模型大部分属于由一到两层结构组成模型,这种方法的优点是比较简单,复杂度低,但在一些复杂数据集上使用浅层模型对模态特征之间进行关联仍存在一些困难。
零样本分类是多模态特征融合的一个重要应用。随着现实应用的需要,零样本学习获得了大量的关注。其常用的方法是将已见过的类别的视觉模态特征和文本特征映射到能够关联不同模态关系的公共空间,并将未见过类别的视觉模态映射到已学习到的公共空间寻找其对应的文本模态,以此来判断其所属的类别。
发明内容
本发明所要解决的技术问题是,提供一种能够使不同模态的特征之间产生关联,从而实现不同模态特征之间转换的用于零样本学习的联合嵌入模型。
本发明所采用的技术方案是:一种用于零样本学习的联合嵌入模型,包括如下步骤:
1)输入训练样本的图像特征X=[X1,...,Xi,…,Xn],图像所对应的文本特征以及权重参数α,β,λ,
其中,Xi是第i类的训练样本的图像特征,yi是第i类的文本特征,q是文本特征向量的维度,n是文本特征向量的个数;
2)计算所有文本特征向量之和然后通过如下公式计算特征转换矩阵M:
其中I是单位矩阵;
3)输出特征转换矩阵M。
步骤1)中所述的α、β和λ是用于调节目标函数中不同目标之间的权重。
所述的α、β和λ是在实验中通过交叉验证的方法获得的。
本发明的一种用于零样本学习的联合嵌入模型,采用不同模态之间相关关系来构建目标函数,使得属于同一类别两种模态特征在公共空间中的相关性最大,同时最小化属于不同类别的两种模态在公共空间中的相关性。本发明利用训练样本学习到一个转移矩阵使得属于不同模态的特征之间能够相互比较相似度。其有益效果主要体现在:
1、本发明提出了一种适用于多模态特征转换的方法,可以有效的从一种模态的特征表示转换为另一种模态的特征表示,并最大可能的挖掘两种模态间的语义信息。
2、实验证明,与传统的典型相关分析和线性回归等方法相比,本发明设计的基于联合嵌入模型在零样本分类中的实验性能明显优于两者。能够充分的利用标注信息学习到不同模态之间的转换矩阵,因此更适用于跨模态之间的转换。
3、本发明简单可行,复杂度低,可以利用在多模态检索,数据挖掘,零样本分类等相关领域。
附图说明
图1是本发明的用于零样本学习的联合嵌入模型的流程图。
具体实施方式
下面结合实施例和附图对本发明的一种用于零样本学习的联合嵌入模型做出详细说明。
图1描述了本发明的一种用于零样本学习的联合嵌入模型的主要流程。在训练阶段,首先分别对图像和文本提取特征,对图像提取视觉特征并利用语言模型从语料库中提取出与图像对应的文本向量,然后利用本发明所提供的算法学习到能够关联不同模态特征的转换矩阵;在测试阶段,首先提取未见过类别的图像视觉特征,然后利用学习到的特征转换矩阵将视觉特征转换到文本特征空间中的特征描述,并将与转换特征最近的文本特征对应的类别作为测试图像的类别。
本发明的一种用于零样本学习的联合嵌入模型,如图1所示,包括如下步骤:
1)输入训练样本的图像特征X=[X1,...,Xi,…,Xn],图像所对应的文本特征以及权重参数α,β,λ,
其中,Xi是第i类的训练样本的图像特征,yi是第i类的文本特征,q是文本特征向量的维度,n是文本特征向量的个数;
所述的α、β和λ是用于调节目标函数中不同目标之间的权重,所述的α、β和λ是在实验中通过交叉验证的方法获得的。
2)计算所有文本特征向量之和然后通过如下公式计算特征转换矩阵M:
其中I是单位矩阵;
3)输出特征转换矩阵M。
Claims (3)
1.一种用于零样本学习的联合嵌入模型,其特征在于,包括如下步骤:
1)输入训练样本的图像特征X=[X1,...,Xi,…,Xn],图像所对应的文本特征以及权重参数α,β,λ,
其中,Xi是第i类的训练样本的图像特征,yi是第i类的文本特征,q是文本特征向量的维度,n是文本特征向量的个数;
2)计算所有文本特征向量之和然后通过如下公式计算特征转换矩阵M:
其中I是单位矩阵;
3)输出特征转换矩阵M。
2.根据权利要求1所述的用于零样本学习的联合嵌入模型,其特征在于,步骤1)中所述的α、β和λ是用于调节目标函数中不同目标之间的权重。
3.根据权利要求1或2所述的用于零样本学习的联合嵌入模型,其特征在于,所述的α、β和λ是在实验中通过交叉验证的方法获得的。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610052504.7A CN105740888A (zh) | 2016-01-26 | 2016-01-26 | 一种用于零样本学习的联合嵌入模型 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610052504.7A CN105740888A (zh) | 2016-01-26 | 2016-01-26 | 一种用于零样本学习的联合嵌入模型 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105740888A true CN105740888A (zh) | 2016-07-06 |
Family
ID=56247589
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610052504.7A Pending CN105740888A (zh) | 2016-01-26 | 2016-01-26 | 一种用于零样本学习的联合嵌入模型 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105740888A (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106485271A (zh) * | 2016-09-30 | 2017-03-08 | 天津大学 | 一种基于多模态字典学习的零样本分类方法 |
CN108376267A (zh) * | 2018-03-26 | 2018-08-07 | 天津大学 | 一种基于类别转移的零样本分类方法 |
WO2018161217A1 (en) * | 2017-03-06 | 2018-09-13 | Nokia Technologies Oy | A transductive and/or adaptive max margin zero-shot learning method and system |
CN110097010A (zh) * | 2019-05-06 | 2019-08-06 | 北京达佳互联信息技术有限公司 | 图文检测方法、装置、服务器及存储介质 |
CN110598759A (zh) * | 2019-08-23 | 2019-12-20 | 天津大学 | 一种基于多模态融合的生成对抗网络的零样本分类方法 |
CN112529772A (zh) * | 2020-12-18 | 2021-03-19 | 深圳龙岗智能视听研究院 | 一种零样本设置下的无监督图像转换方法 |
CN112651403A (zh) * | 2020-12-02 | 2021-04-13 | 浙江大学 | 基于语义嵌入的零样本视觉问答方法 |
CN112668671A (zh) * | 2021-03-15 | 2021-04-16 | 北京百度网讯科技有限公司 | 预训练模型的获取方法和装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102750347A (zh) * | 2012-06-08 | 2012-10-24 | 天津大学 | 一种用于图像或视频搜索重排序的方法 |
CN104156433A (zh) * | 2014-08-11 | 2014-11-19 | 合肥工业大学 | 一种基于语义映射空间构建的图像检索方法 |
CN104834757A (zh) * | 2015-06-05 | 2015-08-12 | 昆山国显光电有限公司 | 图像语义检索方法及其系统 |
CN105205096A (zh) * | 2015-08-18 | 2015-12-30 | 天津中科智能识别产业技术研究院有限公司 | 一种跨文本模态和图像模态的数据检索方法 |
-
2016
- 2016-01-26 CN CN201610052504.7A patent/CN105740888A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102750347A (zh) * | 2012-06-08 | 2012-10-24 | 天津大学 | 一种用于图像或视频搜索重排序的方法 |
CN104156433A (zh) * | 2014-08-11 | 2014-11-19 | 合肥工业大学 | 一种基于语义映射空间构建的图像检索方法 |
CN104834757A (zh) * | 2015-06-05 | 2015-08-12 | 昆山国显光电有限公司 | 图像语义检索方法及其系统 |
CN105205096A (zh) * | 2015-08-18 | 2015-12-30 | 天津中科智能识别产业技术研究院有限公司 | 一种跨文本模态和图像模态的数据检索方法 |
Non-Patent Citations (3)
Title |
---|
MARK PALATUCCI: "Zero-Shot Learning with Semantic Output Codes", 《NIPS"09 PROCEEDING OF THE 22ND INTERNATIONAL CONFERENCE ON NEURAL INFORMATION PROCESSING SYSTEMS》 * |
RICHARD SOCHER,ETAL: "Zero-Shot Learning Through Cross-Modal Transfer", 《ARXIV:1301.3666》 * |
赵才荣: "基于图嵌入与视觉注意的特征抽取", 《中国博士学位论文全文数据库》 * |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106485271B (zh) * | 2016-09-30 | 2019-11-15 | 天津大学 | 一种基于多模态字典学习的零样本分类方法 |
CN106485271A (zh) * | 2016-09-30 | 2017-03-08 | 天津大学 | 一种基于多模态字典学习的零样本分类方法 |
WO2018161217A1 (en) * | 2017-03-06 | 2018-09-13 | Nokia Technologies Oy | A transductive and/or adaptive max margin zero-shot learning method and system |
CN110431565A (zh) * | 2017-03-06 | 2019-11-08 | 诺基亚技术有限公司 | 直推式和/或自适应最大边界零样本学习方法和系统 |
CN108376267B (zh) * | 2018-03-26 | 2021-07-13 | 天津大学 | 一种基于类别转移的零样本分类方法 |
CN108376267A (zh) * | 2018-03-26 | 2018-08-07 | 天津大学 | 一种基于类别转移的零样本分类方法 |
CN110097010A (zh) * | 2019-05-06 | 2019-08-06 | 北京达佳互联信息技术有限公司 | 图文检测方法、装置、服务器及存储介质 |
CN110598759A (zh) * | 2019-08-23 | 2019-12-20 | 天津大学 | 一种基于多模态融合的生成对抗网络的零样本分类方法 |
CN112651403A (zh) * | 2020-12-02 | 2021-04-13 | 浙江大学 | 基于语义嵌入的零样本视觉问答方法 |
CN112651403B (zh) * | 2020-12-02 | 2022-09-06 | 浙江大学 | 基于语义嵌入的零样本视觉问答方法 |
CN112529772A (zh) * | 2020-12-18 | 2021-03-19 | 深圳龙岗智能视听研究院 | 一种零样本设置下的无监督图像转换方法 |
CN112529772B (zh) * | 2020-12-18 | 2024-05-28 | 深圳龙岗智能视听研究院 | 一种零样本设置下的无监督图像转换方法 |
CN112668671A (zh) * | 2021-03-15 | 2021-04-16 | 北京百度网讯科技有限公司 | 预训练模型的获取方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105740888A (zh) | 一种用于零样本学习的联合嵌入模型 | |
CN112347268B (zh) | 一种文本增强的知识图谱联合表示学习方法及装置 | |
CN112966127B (zh) | 一种基于多层语义对齐的跨模态检索方法 | |
CN108376267B (zh) | 一种基于类别转移的零样本分类方法 | |
CN110059217B (zh) | 一种两级网络的图像文本跨媒体检索方法 | |
CN103544242B (zh) | 面向微博的情感实体搜索系统 | |
CN109993197B (zh) | 一种基于深度端对端示例差异化的零样本多标签分类方法 | |
CN105205096B (zh) | 一种跨文本模态和图像模态的数据检索方法 | |
WO2022267976A1 (zh) | 多模态知识图谱的实体对齐方法、装置及存储介质 | |
CN107526799A (zh) | 一种基于深度学习的知识图谱构建方法 | |
CN110362660A (zh) | 一种基于知识图谱的电子产品质量自动检测方法 | |
CN107766873A (zh) | 基于排序学习的多标签零样本分类方法 | |
CN111985538A (zh) | 基于语义辅助注意力机制的小样本图片分类模型及方法 | |
CN113486190B (zh) | 一种融合实体图像信息和实体类别信息的多模态知识表示方法 | |
CN105701504A (zh) | 用于零样本学习的多模态流形嵌入方法 | |
CN113326378B (zh) | 一种基于参数迁移和注意力共享机制的跨领域文本情感分类方法 | |
CN110119449A (zh) | 一种基于序列增强胶囊网络的刑事案件罪名预测方法 | |
CN108985298B (zh) | 一种基于语义一致性的人体衣物分割方法 | |
CN105718940A (zh) | 基于多组间因子分析的零样本图像分类方法 | |
CN112115253A (zh) | 基于多视角注意力机制的深度文本排序方法 | |
Reddy et al. | Concept-based evidential reasoning for multimodal fusion in human–computer interaction | |
Gao et al. | Cross modal similarity learning with active queries | |
CN116737979A (zh) | 基于上下文引导多模态关联的图像文本检索方法及系统 | |
CN107633259B (zh) | 一种基于稀疏字典表示的跨模态学习方法 | |
Wu et al. | An active learning approach for multi-label image classification with sample noise |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20160706 |