CN115131613A - 一种基于多向知识迁移的小样本图像分类方法 - Google Patents

一种基于多向知识迁移的小样本图像分类方法 Download PDF

Info

Publication number
CN115131613A
CN115131613A CN202210775075.1A CN202210775075A CN115131613A CN 115131613 A CN115131613 A CN 115131613A CN 202210775075 A CN202210775075 A CN 202210775075A CN 115131613 A CN115131613 A CN 115131613A
Authority
CN
China
Prior art keywords
formula
novel
migration
knowledge
base
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210775075.1A
Other languages
English (en)
Other versions
CN115131613B (zh
Inventor
王硕
张新宇
何向南
郝艳宾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
Original Assignee
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC filed Critical University of Science and Technology of China USTC
Priority to CN202210775075.1A priority Critical patent/CN115131613B/zh
Publication of CN115131613A publication Critical patent/CN115131613A/zh
Application granted granted Critical
Publication of CN115131613B publication Critical patent/CN115131613B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • G06V10/765Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects using rules for classification or partitioning the feature space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Medical Informatics (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于多向知识迁移的小样本图像分类方法,包括以下步骤:1、视觉与文本特征提取;2、类别间语义关系计算;3、文本知识单向自迁移;4、视觉知识单向自迁移、模态间知识双向互迁移;5、模型训练与测试。本发明通过在文本端和视觉端分别进行的单向自迁移,以语义推理和视觉幻想的方式从基础类别中完善对新类别的描述,并通过跨模态互迁移交换来自不同模态的知识,使得不同模态间相互学习,共同训练,从而能减轻基础类别和新类别间样本数量差异的影响,缓解不同模态数据间的语义鸿沟,并能提高小样本图像分类的准确度。

Description

一种基于多向知识迁移的小样本图像分类方法
技术领域
本发明属于图像分类领域,具体的说是一种基于多向知识迁移的小样本图像分类方法。
背景技术
近年来,卷积神经网络(CNN)已在图像分类、目标检测等各类视觉任务中展现出强大的性能,但这往往需要依赖大规模的有标注训练数据作为保证。然而海量数据的收集与标注是一项昂贵且耗时的任务,其训练过程也需要耗费巨量的计算资源与时间成本。相反,在人类学习新事物的过程中,人们通过几个样本(甚至一个样本)就可以认识一个从未见过的新物体。这是因为他们已经有大量的知识积累,可以从许多其他相关物体或语义知识中推理学习,进而达到快速图像理解的目的。基于知识迁移的小样本学习(FSL)希望模仿人类的这种能力,通过各种先验知识使得CNN模型在训练样本极为稀缺的情况下也可以对新类别样本有较好的识别能力。
目前大多数基于知识迁移的小样本学习方法大多使用先验知识来辅助表示学习或分类器优化阶段的训练过程。其中,一类基于视觉知识迁移的方法使用在基础类别(与要识别的新类别不相交但每个类别中的样本数量充足)上训练的CNN来直接提取新类别的特征。他们的目的是通过转移基础类别的纹理结构来帮助描述一个新的类别。然而,由于基础类别的样本数量远远大于新类别的样本数量,在基础类别上训练的CNN更倾向于关注它所学习的物体的纹理和结构,而忽略了新样本的细节,导致分类性能较弱。
因此,另一类多模态的小样本学习方法尝试从文本信息中提取语义知识,并将其作为知识迁移过程中的额外监督信号,以获得更好的效果。这种方法缓解了仅在硬标签监督下训练的分类器存在的认知偏差。然而它忽略了不同模态数据间的语义鸿沟,并从外部知识中引入了与任务无关的噪声,反而误导了分类器的识别过程。
基于上述分析,如何减少基础类别和新类别间样本数量不平衡带来的偏差和引入额外语义知识带来的噪声,以及如何更好地结合不同模态之间的知识,使得不同模态间的知识互为补充,相辅相成,是基于知识迁移的小样本学习方法亟待解决的问题。
发明内容
本发明是为了解决上述现有技术存在的不足之处,提出一种基于多向知识迁移的小样本图像分类方法,以期能更充分地挖掘与迁移来自基础类别样本及额外文本的先验知识,从而能提高小样本图像分类的准确性。
本发明为达到上述发明目的,采用如下技术方案:
本发明一种基于多向知识迁移的小样本图像分类方法的特点是按以下步骤进行:
步骤1、视觉特征提取:
步骤1.1、利用预训练的CNN模型获取训练样本的视觉特征及其标签的集合
Figure BDA0003726585070000021
xi表示维度为dv的第i个训练样本的视觉特征,yi表示第i个训练样本的类别标签,且yi∈Cbase,Cbase表示基础类别集合,|Cbase|表示基础类别集合中的类别数量,Nbase表示每个基础类别中的训练样本数量;
步骤1.2、利用所述预训练的CNN模型获取支持样本的视觉特征及其标签的集合
Figure BDA0003726585070000022
x′i表示维度为dv的第i′个支持样本的视觉特征,y′i表示第i′个支持样本的类别标签,且y′i∈Cnovel,Cnovel表示新类别集合,且Cnovel与Cbase无交集,|Cnovel|表示新类别集合中的类别数量,Nnovel表示每个新类别中的支持样本数量;
步骤2:文本特征提取:
步骤2.1、利用预训练的词嵌入方法获取基础类别集合Cbase中|Cbase|个基础类别的文本特征
Figure BDA0003726585070000027
tk表示维度为dt的第k个基础类别的文本特征;
步骤2.2、利用所述预训练的词嵌入方法获取新类别集合Cnovel中|Cnovel|个新类别的文本特征
Figure BDA0003726585070000023
t′k′表示维度为dt的第k′个新类别的文本特征;
步骤3:计算类别间语义关系:
步骤3.1、利用式(1)计算第k′个新类别文本特征t′k′和第k个基本类别的文本特征tk之间的距离d(t′k′,tk):
Figure BDA0003726585070000024
步骤3.2、获取与第k′个新类别的文本特征t′k′距离最近的前M个基础类别的文本特征,从而得到第k′个新类别的最近邻集合
Figure BDA0003726585070000025
步骤3.3、利用式(2)计算关系矩阵A中第k′行第m列元素ak′,m,从而构建关系矩阵A:
Figure BDA0003726585070000026
式(2)中,tm为最近邻集合
Figure BDA0003726585070000031
中的任意一个基础类别的文本特征,tv为最近邻集合
Figure BDA0003726585070000032
中的任意一个基础类别的文本特征;
步骤4:文本知识单向自迁移:
步骤4.1、合并Tb与Tn得到|Cbase|+|Cnovel|个全体类别的文本特征,并进行L2范数归一化处理,得到(|Cbase|+|Cnovel|)×dt维的输入特征T;
步骤4.2、利用式(3)计算在关系矩阵A中存在邻接关系的新类别文本特征t′k′和文本特征tm之间的第h个注意力头中的注意力系数
Figure BDA0003726585070000033
从而得到维度为|Cnovel|×|Cbase|的注意力系数矩阵σh
Figure BDA0003726585070000034
式(3)中,
Figure BDA0003726585070000035
为dv×dt维的第h个学习参数,[·||·]表示拼接操作,LeakyReLU表示LeakyReLU激活函数;
步骤4.3、利用式(4)计算第h个注意力头中维度为|Cnovel|×dv的新类别集合Cnovel的迁移语义特征
Figure BDA0003726585070000036
Figure BDA0003726585070000037
式(4)中,⊙表示哈达玛积,Wh为dv×dt维的第h个学习参数;
步骤4.4、利用式(5)计算新类别集合Cnovel的迁移语义特征
Figure BDA0003726585070000038
Figure BDA0003726585070000039
式(5)中,H表示注意力头的数量;
步骤4.5、利用式(6)计算维度为(|Cbase|+|Cnovel|)×dv的直接语义特征
Figure BDA00037265850700000310
Figure BDA00037265850700000311
式(6)中,
Figure BDA00037265850700000312
为(|Cbase|+|Cnovel|)×dv维的学习参数,
Figure BDA00037265850700000313
为dv维的学习参数,ReLU表示ReLU激活函数;
步骤4.6、利用式(7)得到维度为(|Cbase|+|Cnovel|)×dv的语义分类器
Figure BDA00037265850700000314
Figure BDA0003726585070000041
式(7)中,Conv1D表示卷积核为1×1的卷积操作;
步骤4.7、利用式(8)定义文本端的交叉熵损失函数Lt
Figure BDA0003726585070000042
式(8)中,B为一个批量训练样本的数量,xl表示一批量中第l个训练样本的视觉特征,
Figure BDA0003726585070000043
表示xl的转置,yl表示样本特征xl对应的类别标签;
步骤5:视觉知识单向自迁移:
步骤5.1、初始化维度为(|Cbase|+|Cnovel|)×dv的视觉端原始分类器Wv
步骤5.2、利用式(9)计算视觉端新类别集合Cnovel的迁移分类器
Figure BDA0003726585070000044
Figure BDA0003726585070000045
步骤5.3、利用式(10)计算基于维度为(|Cbase|+|Cnovel|)×dv的视觉分类器
Figure BDA0003726585070000046
Figure BDA0003726585070000047
式(10)中,
Figure BDA0003726585070000048
表示按元素相加;
步骤5.4、利用式(11)定义视觉端的交叉熵损失函数Lv
Figure BDA0003726585070000049
步骤6:模态间知识双向互迁移:
步骤6.1、利用式(12)计算文本分类器和视觉分类器间的均方误差Lc
Figure BDA00037265850700000410
式(12)中,c表示|Cbase|+|Cnovel|个全体类别中的任意一个类别,
Figure BDA00037265850700000411
代表
Figure BDA00037265850700000412
中的第c行,
Figure BDA00037265850700000413
代表
Figure BDA00037265850700000414
中的第c行;
步骤6.2、利用式(13)定义融合交叉熵损失函数Lm
Figure BDA00037265850700000415
式(13)中,λ为融合权重因子,
Figure BDA00037265850700000416
为融合分类器;
步骤7:模型训练与测试:
步骤7.1、由所述文本知识单向自迁移模块、视觉知识单向自迁移模块、模态间知识双向互迁移模块构成多向知识迁移模型,并利用式(14)定义模型的总损失函数L:
L=Lv+Lt+Lm+μLc (14)
式(14)中,μ为权重因子;
步骤7.2、利用梯度下降算法对多向知识迁移模型进行训练,并计算总损失函数L以更新网络参数,当训练迭代次数达到设定的次数时,停止训练,从而得到第一次训练后的融合分类器;
步骤7.3、利用第一次训练后的多向知识迁移模型的融合分类器的基础类别部分替换Tb,新类别部分替换Tn,重新计算新的语义关系,得到新的关系矩阵
Figure BDA0003726585070000051
步骤7.4、根据
Figure BDA0003726585070000052
按照步骤4-步骤7.2的过程进行处理,从而得到第二次训练后的多向知识迁移模型;
步骤7.5、使用第二次训练后的多向知识迁移模型的融合分类器预测新类别集合Cnovel中测试样本的类别。
本发明一种电子设备,包括存储器以及处理器,其特点在于,所述存储器用于存储支持处理器执行所述基于多向知识迁移的小样本分类方法的程序,所述处理器被配置为用于执行所述存储器中存储的程序。
本发明一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,其特点在于,所述计算机程序被处理器运行时执行所述基于多向知识迁移的小样本分类方法的步骤。
与现有技术相比,本发明的有益效果在于:
1、本发明设计了一种基于多向知识迁移的小样本分类方法,能有效提取文本知识中蕴含的类别关系,通过模态内的知识自迁移利用基础类别的知识丰富新类别的表示,并通过模态间知识互迁移连接不同模态间的知识,提升了小样本分类方法的分类准确度,与以往的基于知识迁移的小样本分类方法相比,本发明更加充分利用并有效衔接了来自基础类别以及额外文本的先验知识,减少了多模态知识中的偏差与噪声,是一种有效的小样本分类方法。
2、本发明利用从文本知识中提取的类别关系指导知识迁移,文本知识在大规模语料库中训练而来,相较于从视觉样本中提取的类别关系更加准确;同时,所提出的二次训练策略可以有效减少文本知识中的原始噪声,大大提高了分类准确性。
3、本发明在文本端和视觉端分别进行知识单向自迁移,以语义推理和视觉幻想的方式从基础类别中完善对新类别的描述,减轻了新类别样本数量稀缺,以及基本类别和新类别样本数量不平衡的影响。
4、本发明在模态间进行知识双向互迁移,将来自不同模态的知识在线连接起来,使得不同模态间相互学习,共同训练,互为补充,相辅相成,与传统的融合方法相比,大大减少了不同模态间的语义鸿沟。
附图说明
图1为本发明的基于多向知识迁移的小样本分类方法流程图;
图2为本发明的文本知识单向自迁移方法的示意图;
图3为本发明的视觉知识单向自迁移方法的示意图;
图4为本发明的模态间知识双向互迁移方法的示意图;
图5为本发明的基于多向知识迁移的小样本分类模型框架图。
具体实施方式
本实施例中,一种基于多向知识迁移的小样本分类方法,是通过在文本端和视觉端分别进行的单向自迁移,以语义推理和视觉幻想的方式从基础类别中完善对新类别的描述,并通过跨模态互迁移交换来自不同模态的知识,使得不同模态间相互学习,共同训练,从而能减轻基础类别和新类别间样本数量差异的影响,缓解不同模态数据间的语义鸿沟,并能提高小样本图像分类的准确度。具体的说,如图1所示,是按以下步骤进行:
步骤1、视觉特征提取:
在迁移阶段之前,分别通过在基础类别上预训练的CNN模型和词嵌入方法将来自基础类别和新类别的视觉样本及其语义标签表示为视觉特征及文本特征形式。
步骤1.1、利用预训练的CNN模型获取训练样本的视觉特征及其标签的集合
Figure BDA0003726585070000061
xi表示维度为dv的第i个训练样本的视觉特征,yi表示第i个训练样本的类别标签,且yi∈Cbase,Cbase表示基础类别集合,|Cbase|表示基础类别集合中的类别数量,Nbase表示每个基础类别中的训练样本数量;
步骤1.2、利用预训练的CNN模型获取支持样本的视觉特征及其标签的集合
Figure BDA0003726585070000062
x′i表示维度为dv的第i′个支持样本的视觉特征,y′i表示第i′个支持样本的类别标签,且y′i∈Cnovel,Cnovel表示新类别集合,且Cnovel与Cbase无交集,|Cnovel|表示新类别集合中的类别数量,Nnovel表示每个新类别中的支持样本数量;
步骤2:文本特征提取:
步骤2.1、利用预训练的词嵌入方法获取基础类别集合Cbase中|Cbase|个基础类别的文本特征
Figure BDA0003726585070000071
tk表示维度为dt的第k个基础类别的文本特征;
步骤2.2、利用预训练的词嵌入方法获取新类别集合Cnovel中|Cnovel|个新类别的文本特征
Figure BDA0003726585070000072
t′k′表示维度为dt的第k′个新类别的文本特征;
步骤3:计算类别间语义关系:
为了实现由基础类别向新类别的知识迁移,需要计算新类别与每个基础类别间的语义关系。
步骤3.1、本实施例中,首先通过欧几里得距离函数的一种变体来计算不同类别语义之间的距离。利用式(1)计算第k′个新类别文本特征t′k′和第k个基本类别的文本特征tk之间的距离d(t′k′,tk):
Figure BDA0003726585070000073
步骤3.2、然后通过在两个步骤探索类别间语义关系来构建邻接矩阵A:(1)给定新类别的文本特征,选择与其距离最小的基础类别构成最近邻集合;(2)计算给定新类别与及其最近邻集合中元素的相关性来填充邻接矩阵的元素。获取与第k′个新类别的文本特征t′k′距离最近的前M个基础类别的文本特征,从而得到第k′个新类别的最近邻集合
Figure BDA0003726585070000074
本实施例中,M=5;
步骤3.3、利用式(2)计算关系矩阵A中第k′行第m列元素ak′,m,从而构建关系矩阵A:
Figure BDA0003726585070000075
式(2)中,tm为最近邻集合
Figure BDA0003726585070000076
中的任意一个基础类别的文本特征,tv为最近邻集合
Figure BDA0003726585070000077
中的任意一个基础类别的文本特征。ak′,m代表第k′个新类别与第m个基础类别间的相关性,A的每一行元素之和均为1;
步骤4:文本知识单向自迁移:
在文本空间中,不仅能从类别的文本特征自身获取语义知识,还可以通过从相邻类别的文本特征中推理出语义知识。因此,文本知识单向自迁移主要关注于基础类别文本特征和新类别文本特征之间的关系,并使用该关系来调整新类别之间的距离,称之为语义推理。文本知识单向自迁移的过程如图2所示。
步骤4.1、合并Tb与Tn得到|Cbase|+|Cnovel|个全体类别的文本特征,并进行L2范数归一化处理,得到(|Cbase|+|Cnovel|)×dt维的输入特征T;
步骤4.2、将来自文本空间的关系与图注意力网络(GAT)结合起来,将文本空间中的每个文本特征视作图网络中的一个节点,将文本空间中的每对关系视作图网络的一条边,从而实现将文本知识从基本类别迁移到新类别中的目的。与需要对称邻接矩阵的图神经网络(GNN)相比,GAT适用于非对称有向图,更适合从基础类别向新类别的单向知识迁移;同时,与需要预先固定边权重的GNN相比,GAT使用注意力机制来学习边权重并融合特征之间的相关性。本实施例中,采用注意力头数量H=8的多头图注意力网络实现。利用式(3)计算在关系矩阵A中存在邻接关系的新类别文本特征t′k′和文本特征tm之间,在第h个注意力头中的注意力系数
Figure BDA0003726585070000081
从而得到维度为|Cnovel|×|Cbase|的注意力系数矩阵σh
Figure BDA0003726585070000082
式(3)中,
Figure BDA0003726585070000083
为dv×dt维的第h个学习参数,[·||·]表示拼接操作,LeakyReLU表示LeakyReLU激活函数;
步骤4.3、利用式(4)计算第h个注意力头中维度为|Cnovel|×dv的新类别集合Cnovel的迁移语义特征
Figure BDA0003726585070000084
Figure BDA0003726585070000085
式(4)中,⊙表示哈达玛积,Wh为dv×dt维的第h个学习参数;
步骤4.4、利用式(5)计算新类别集合Cnovel的迁移语义特征
Figure BDA0003726585070000086
Figure BDA0003726585070000087
式(5)中,H表示注意力头的数量;
步骤4.5、通过多层感知器(MLP)对语义特征进行直接建模,利用式(6)计算维度为(|Cbase|+|Cnovel|)×dv的直接语义特征
Figure BDA0003726585070000088
Figure BDA0003726585070000091
式(6)中,
Figure BDA0003726585070000092
为(|Cbase|+|Cnovel|)×dv维的学习参数,
Figure BDA0003726585070000093
为dv维的学习参数,ReLU表示ReLU激活函数;
步骤4.6、将类别自身蕴含的直接语义特征与从相关类别中迁移得到的迁移语义特征结合起来,通过使用一维卷积进一步融合两个方面的知识。利用式(7)得到维度为(|Cbase|+|Cnovel|)×dv的语义分类器
Figure BDA0003726585070000094
Figure BDA0003726585070000095
式(7)中,Conv1D表示1×1卷积操作;
步骤4.7、利用式(8)定义文本端的交叉熵损失函数Lt,以提供硬监督信号训练语义分类器
Figure BDA0003726585070000096
Figure BDA0003726585070000097
式(8)中,B为一个批量训练样本的数量,xl表示一批量中第l个训练样本的视觉特征,
Figure BDA0003726585070000098
表示xl的转置,yl表示样本特征xl对应的类别标签;
步骤5:视觉知识单向自迁移:
在视觉空间中,视觉知识单向自迁移结合文本知识计算的类别间关系来幻想新样本的潜在原型,并使用这些原型来帮助训练分类器,以弥补新类别样本数量稀缺的不足,称之为视觉幻想。视觉知识单向自迁移的过程如图3所示。
步骤5.1、初始化维度为(|Cbase|+|Cnovel|)×dv的视觉端原始分类器Wv
步骤5.2、由于支持样本数量稀缺,如果仅通过原始分类器Wv进行分类,识别过程容易出现过拟合问题。训练样本有限的新类别。并且在没有其他辅助策略的硬标签监督下训练的分类器会使识别产生偏差。为了缓解这些问题,使用类别间语义关系来调整分类器的权重。利用式(9)计算视觉端新类别集合Cnovel的迁移分类器
Figure BDA0003726585070000099
Figure BDA00037265850700000910
步骤5.3、将视觉端的原始分类器与迁移分类器结合起来,利用式(10)计算基于维度为(|Cbase|+|Cnovel|)×dv的视觉分类器
Figure BDA00037265850700000911
Figure BDA00037265850700000912
式(10)中,
Figure BDA0003726585070000101
表示按元素相加;
步骤5.4、利用式(11)定义视觉端的交叉熵损失函数Lv,以提供硬监督信号训练视觉分类器
Figure BDA0003726585070000102
Figure BDA0003726585070000103
步骤6:模态间知识双向互迁移:
除了Lt与Lv提供硬监督信号分别训练语义分类器与视觉分类器以外,还可以通过相互学习的训练策略使得语义分类器与视觉分类器在整个训练过程中协作学习并相互指导,使它们相互补充。本实施例中,通过最大化不同模态分类器之间的一致性来连接不同的模态,在联合训练期间提供额外的软监督。模态间知识双向互迁移的过程如图4所示。
步骤6.1、本实例中,最大化不同模态分类器之间的一致性通过最小化不同模态分类器之间的均方误差实现。利用式(12)计算语义分类器和视觉分类器间的均方误差Lc
Figure BDA0003726585070000104
式(12)中,c表示|Cbase|+|Cnovel|个全体类别中的任意一个类别,
Figure BDA0003726585070000105
代表
Figure BDA0003726585070000106
中的第c行,
Figure BDA0003726585070000107
代表
Figure BDA0003726585070000108
中的第c行;
步骤6.2、在多向知识迁移方法中,基于语义的知识迁移和基于视觉的知识迁移是相辅相成的。因此通过一种在线融合策略,在训练和推理阶段整合它们,并通过硬监督优化参数。利用式(13)定义融合交叉熵损失函数Lm
Figure BDA0003726585070000109
式(13)中,λ为融合权重因子,
Figure BDA00037265850700001010
为融合分类器;
步骤7:模型训练与测试:
步骤7.1、由特征提取模块、类别间语义关系计算模块、文本知识单向自迁移模块、视觉知识单向自迁移模块、模态间知识双向互迁移模块构成多向知识迁移模型,如图5所示,并利用式(14)定义模型的总损失函数L:
L=Lv+Lt+Lm+μLc (14)
式(14)中,μ为权重因子,本实施例中μ=100;
步骤7.2、利用梯度下降算法对多向知识迁移模型进行训练,并计算总损失函数L以更新网络参数,当训练迭代次数达到设定的次数时,停止训练,从而得到第一次训练后的融合分类器;
步骤7.3、本实施例中,经过训练的网络可以更好地表达当前训练数据集的分布,以减少文本知识中的原始噪声。因此,利用第一次训练后的多向知识迁移模型的融合分类器的基础类别部分替换Tb,新类别部分替换Tn,重新计算新的语义关系,得到新的关系矩阵
Figure BDA0003726585070000111
步骤7.4、根据
Figure BDA0003726585070000112
按照步骤4-步骤7.2的过程进行处理,从而得到第二次训练后的多向知识迁移模型;
步骤7.5、使用第二次训练后的多向知识迁移模型的融合分类器预测新类别集合Cnovel中测试样本的类别。

Claims (3)

1.一种基于多向知识迁移的小样本图像分类方法,其特征是按以下步骤进行:
步骤1、视觉特征提取:
步骤1.1、利用预训练的CNN模型获取训练样本的视觉特征及其标签的集合
Figure FDA0003726585060000011
xi表示维度为dv的第i个训练样本的视觉特征,yi表示第i个训练样本的类别标签,且yi∈Cbase,Cbase表示基础类别集合,|Cbase|表示基础类别集合中的类别数量,Nbase表示每个基础类别中的训练样本数量;
步骤1.2、利用所述预训练的CNN模型获取支持样本的视觉特征及其标签的集合
Figure FDA0003726585060000012
x′i表示维度为dv的第i′个支持样本的视觉特征,y′i表示第i′个支持样本的类别标签,且y′i∈Cnovel,Cnovel表示新类别集合,且Cnovel与Cbase无交集,|Cnovel|表示新类别集合中的类别数量,Nnovel表示每个新类别中的支持样本数量;
步骤2:文本特征提取:
步骤2.1、利用预训练的词嵌入方法获取基础类别集合Cbase中|Cbase|个基础类别的文本特征
Figure FDA0003726585060000013
tk表示维度为dt的第k个基础类别的文本特征;
步骤2.2、利用所述预训练的词嵌入方法获取新类别集合Cnovel中|Cnovel|个新类别的文本特征
Figure FDA0003726585060000014
t′k′表示维度为dt的第k′个新类别的文本特征;
步骤3:计算类别间语义关系:
步骤3.1、利用式(1)计算第k′个新类别文本特征t′k′和第k个基本类别的文本特征tk之间的距离d(t′k′,tk):
Figure FDA0003726585060000015
步骤3.2、获取与第k′个新类别的文本特征t′k′距离最近的前M个基础类别的文本特征,从而得到第k′个新类别的最近邻集合
Figure FDA0003726585060000016
步骤3.3、利用式(2)计算关系矩阵A中第k′行第m列元素ak′,m,从而构建关系矩阵A:
Figure FDA0003726585060000017
式(2)中,tm为最近邻集合
Figure FDA0003726585060000021
中的任意一个基础类别的文本特征,tv为最近邻集合
Figure FDA0003726585060000022
中的任意一个基础类别的文本特征;
步骤4:文本知识单向自迁移:
步骤4.1、合并Tb与Tn得到|Cbase|+|Cnovel|个全体类别的文本特征,并进行L2范数归一化处理,得到(|Cbase|+|Cnovel|)×dt维的输入特征T;
步骤4.2、利用式(3)计算在关系矩阵A中存在邻接关系的新类别文本特征t′k′和文本特征tm之间的第h个注意力头中的注意力系数
Figure FDA0003726585060000023
从而得到维度为|Cnovel|×|Cbase|的注意力系数矩阵σh
Figure FDA0003726585060000024
式(3)中,
Figure FDA0003726585060000025
为dv×dt维的第h个学习参数,[·||·]表示拼接操作,LeakyReLU表示LeakyReLU激活函数;
步骤4.3、利用式(4)计算第h个注意力头中维度为|Cnovel|×dv的新类别集合Cnovel的迁移语义特征
Figure FDA0003726585060000026
Figure FDA0003726585060000027
式(4)中,⊙表示哈达玛积,Wh为dv×dt维的第h个学习参数;
步骤4.4、利用式(5)计算新类别集合Cnovel的迁移语义特征
Figure FDA0003726585060000028
Figure FDA0003726585060000029
式(5)中,H表示注意力头的数量;
步骤4.5、利用式(6)计算维度为(|Cbase|+|Cnovel|)×dv的直接语义特征
Figure FDA00037265850600000210
Figure FDA00037265850600000211
式(6)中,
Figure FDA00037265850600000212
为(|Cbase|+|Cnovel|)×dv维的学习参数,
Figure FDA00037265850600000213
为dv维的学习参数,ReLU表示ReLU激活函数;
步骤4.6、利用式(7)得到维度为(|Cbase|+|Cnovel|)×dv的语义分类器
Figure FDA00037265850600000214
Figure FDA0003726585060000031
式(7)中,Conv1D表示卷积核为1×1的卷积操作;
步骤4.7、利用式(8)定义文本端的交叉熵损失函数Lt
Figure FDA0003726585060000032
式(8)中,B为一个批量训练样本的数量,xl表示一批量中第l个训练样本的视觉特征,
Figure FDA0003726585060000033
表示xl的转置,yl表示样本特征xl对应的类别标签;
步骤5:视觉知识单向自迁移:
步骤5.1、初始化维度为(|Cbase|+|Cnovel|)×dv的视觉端原始分类器Wv
步骤5.2、利用式(9)计算视觉端新类别集合Cnovel的迁移分类器
Figure FDA0003726585060000034
Figure FDA0003726585060000035
步骤5.3、利用式(10)计算基于维度为(|Cbase|+|Cnovel|)×dv的视觉分类器
Figure FDA0003726585060000036
Figure FDA0003726585060000037
式(10)中,
Figure FDA0003726585060000038
表示按元素相加;
步骤5.4、利用式(11)定义视觉端的交叉熵损失函数Lv
Figure FDA0003726585060000039
步骤6:模态间知识双向互迁移:
步骤6.1、利用式(12)计算文本分类器和视觉分类器间的均方误差Lc
Figure FDA00037265850600000310
式(12)中,c表示|Cbase|+|Cnovel|个全体类别中的任意一个类别,
Figure FDA00037265850600000311
代表
Figure FDA00037265850600000312
中的第c行,
Figure FDA00037265850600000313
代表
Figure FDA00037265850600000314
中的第c行;
步骤6.2、利用式(13)定义融合交叉熵损失函数Lm
Figure FDA00037265850600000315
式(13)中,λ为融合权重因子,
Figure FDA00037265850600000316
为融合分类器;
步骤7:模型训练与测试:
步骤7.1、由所述文本知识单向自迁移模块、视觉知识单向自迁移模块、模态间知识双向互迁移模块构成多向知识迁移模型,并利用式(14)定义模型的总损失函数L:
L=Lv+Lt+Lm+μLc (14)
式(14)中,μ为权重因子;
步骤7.2、利用梯度下降算法对多向知识迁移模型进行训练,并计算总损失函数L以更新网络参数,当训练迭代次数达到设定的次数时,停止训练,从而得到第一次训练后的融合分类器;
步骤7.3、利用第一次训练后的多向知识迁移模型的融合分类器的基础类别部分替换Tb,新类别部分替换Tn,重新计算新的语义关系,得到新的关系矩阵
Figure FDA0003726585060000041
步骤7.4、根据
Figure FDA0003726585060000042
按照步骤4-步骤7.2的过程进行处理,从而得到第二次训练后的多向知识迁移模型;
步骤7.5、使用第二次训练后的多向知识迁移模型的融合分类器预测新类别集合Cnovel中测试样本的类别。
2.一种电子设备,包括存储器以及处理器,其特征在于,所述存储器用于存储支持处理器执行权利要求1所述方法的程序,所述处理器被配置为用于执行所述存储器中存储的程序。
3.一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器运行时执行权利要求1所述方法的步骤。
CN202210775075.1A 2022-07-01 2022-07-01 一种基于多向知识迁移的小样本图像分类方法 Active CN115131613B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210775075.1A CN115131613B (zh) 2022-07-01 2022-07-01 一种基于多向知识迁移的小样本图像分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210775075.1A CN115131613B (zh) 2022-07-01 2022-07-01 一种基于多向知识迁移的小样本图像分类方法

Publications (2)

Publication Number Publication Date
CN115131613A true CN115131613A (zh) 2022-09-30
CN115131613B CN115131613B (zh) 2024-04-02

Family

ID=83381832

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210775075.1A Active CN115131613B (zh) 2022-07-01 2022-07-01 一种基于多向知识迁移的小样本图像分类方法

Country Status (1)

Country Link
CN (1) CN115131613B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116452895A (zh) * 2023-06-13 2023-07-18 中国科学技术大学 基于多模态对称增强的小样本图像分类方法、装置及介质
CN116503674A (zh) * 2023-06-27 2023-07-28 中国科学技术大学 一种基于语义指导的小样本图像分类方法、装置及介质
CN116958904A (zh) * 2023-08-07 2023-10-27 济宁安泰矿山设备制造有限公司 一种基于小样本检测的井下异物识别方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108376267A (zh) * 2018-03-26 2018-08-07 天津大学 一种基于类别转移的零样本分类方法
WO2019148898A1 (zh) * 2018-02-01 2019-08-08 北京大学深圳研究生院 基于受限文本空间的对抗性跨媒体检索方法
WO2022037233A1 (zh) * 2020-08-18 2022-02-24 浙江大学 一种基于自监督知识迁移的小样本视觉目标识别方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019148898A1 (zh) * 2018-02-01 2019-08-08 北京大学深圳研究生院 基于受限文本空间的对抗性跨媒体检索方法
CN108376267A (zh) * 2018-03-26 2018-08-07 天津大学 一种基于类别转移的零样本分类方法
WO2022037233A1 (zh) * 2020-08-18 2022-02-24 浙江大学 一种基于自监督知识迁移的小样本视觉目标识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
吴丽娜;黄雅平;郑翔;: "基于词袋模型的迁移学习算法", 计算机科学, no. 12, 15 December 2014 (2014-12-15) *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116452895A (zh) * 2023-06-13 2023-07-18 中国科学技术大学 基于多模态对称增强的小样本图像分类方法、装置及介质
CN116452895B (zh) * 2023-06-13 2023-10-20 中国科学技术大学 基于多模态对称增强的小样本图像分类方法、装置及介质
CN116503674A (zh) * 2023-06-27 2023-07-28 中国科学技术大学 一种基于语义指导的小样本图像分类方法、装置及介质
CN116503674B (zh) * 2023-06-27 2023-10-20 中国科学技术大学 一种基于语义指导的小样本图像分类方法、装置及介质
CN116958904A (zh) * 2023-08-07 2023-10-27 济宁安泰矿山设备制造有限公司 一种基于小样本检测的井下异物识别方法
CN116958904B (zh) * 2023-08-07 2024-05-07 济宁安泰矿山设备制造有限公司 一种基于小样本检测的井下异物识别方法

Also Published As

Publication number Publication date
CN115131613B (zh) 2024-04-02

Similar Documents

Publication Publication Date Title
CN109902293B (zh) 一种基于局部与全局互注意力机制的文本分类方法
CN108399158B (zh) 基于依存树和注意力机制的属性情感分类方法
CN109086658B (zh) 一种基于生成对抗网络的传感器数据生成方法与系统
CN105701502B (zh) 一种基于蒙特卡罗数据均衡的图像自动标注方法
WO2021037113A1 (zh) 一种图像描述的方法及装置、计算设备和存储介质
CN111126482B (zh) 一种基于多分类器级联模型的遥感影像自动分类方法
US11816149B2 (en) Electronic device and control method thereof
CN115131613A (zh) 一种基于多向知识迁移的小样本图像分类方法
CN109670576B (zh) 一种多尺度视觉关注图像描述方法
Zhou et al. Joint image and text representation for aesthetics analysis
CN112800292B (zh) 一种基于模态特定和共享特征学习的跨模态检索方法
CN114841257B (zh) 一种基于自监督对比约束下的小样本目标检测方法
CN111475622A (zh) 一种文本分类方法、装置、终端及存储介质
CN110968692B (zh) 一种文本分类方法及系统
CN112487822A (zh) 一种基于深度学习的跨模态检索方法
Bawa et al. Emotional sentiment analysis for a group of people based on transfer learning with a multi-modal system
CN111666766A (zh) 数据处理方法、装置和设备
CN111898704B (zh) 对内容样本进行聚类的方法和装置
CN116610778A (zh) 基于跨模态全局与局部注意力机制的双向图文匹配方法
CN115130591A (zh) 一种基于交叉监督的多模态数据分类方法及装置
CN114048314A (zh) 一种自然语言隐写分析方法
CN113221523A (zh) 处理表格的方法、计算设备和计算机可读存储介质
CN116071544A (zh) 面向弱监督指向性视觉理解的图像描述预测方法
Zhang et al. Recognition of emotions in user-generated videos through frame-level adaptation and emotion intensity learning
Selvi et al. Topic categorization of Tamil news articles

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant