CN110097094B - 一种面向人物交互的多重语义融合少样本分类方法 - Google Patents

一种面向人物交互的多重语义融合少样本分类方法 Download PDF

Info

Publication number
CN110097094B
CN110097094B CN201910301393.2A CN201910301393A CN110097094B CN 110097094 B CN110097094 B CN 110097094B CN 201910301393 A CN201910301393 A CN 201910301393A CN 110097094 B CN110097094 B CN 110097094B
Authority
CN
China
Prior art keywords
fusion
information
multiple semantic
samples
semantic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910301393.2A
Other languages
English (en)
Other versions
CN110097094A (zh
Inventor
冀中
刘西瑶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN201910301393.2A priority Critical patent/CN110097094B/zh
Publication of CN110097094A publication Critical patent/CN110097094A/zh
Application granted granted Critical
Publication of CN110097094B publication Critical patent/CN110097094B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

一种面向人物交互的多重语义融合少样本分类方法,从元训练集的支持集中随机取得不同类别样本的视觉特征;将不同类别样本的视觉特征送到用于感知人物交互关系的第一多重语义融合网络中得到不同类别样本的多重语义融合后的特征向量;从元训练集的查询集取得样本的视觉特征,送到用于感知人物交互关系的第二多重语义融合网络中得到多重语义融合后的特征向量;依次将查询集和支持集的视觉特征输入到两个多重语义融合网络中,根据多重语义融合后的特征向量计算属于各个类别的概率;设定目标函数,进行训练和进行测试后计算属于各个类别的概率,将计算得到的概率中最大的概率所对应的类别,作为查询集视觉特征的类别。本发明实现了对复杂场景下人与物体关系的分类。

Description

一种面向人物交互的多重语义融合少样本分类方法
技术领域
本发明涉及一种多重语义融合少样本分类方法。特别是涉及一种基于元学习的面向人物交互的多重语义融合少样本分类方法。
背景技术
深度学习技术是在大量数据和大规模训练的基础上,模拟或实现人类的学习行为,以获取新的知识或技能。目前,深度学习技术已经在计算机视觉领域取得较大成功,具体任务如图像分类、目标检测和语义分割等。然而,在某些任务和领域上,存在数据获取困难,没有大量训练数据的问题。而人类在学习新知识时候能够利用已有知识经验进行转化从而快速学习。比如,给一个幼童看一张“长颈鹿”的图片,很大概率上,他会在第二次、第三次认出同类别图片属于“长颈鹿”。因此,人类天生具备归纳和总结的能力,往往经过非常少次数的“训练”就能记住物体的特征,在下一次见到的时候就能将其归为最为接近的一类,从而达到认知事物的目的。元学习(Meta Learning)的思想是利用已有的先验知识能够快速适应新的学习任务。近几年来,基于元学习的少样本学习引起了广泛关注。少样本学习(Few Shot Learning)的任务是面对仅有少量样本的测试类图像,对其进行类别识别。
在元学习中,将图像类别分为元训练集(Meta Train Set)和元测试集(Meta TestSet),其类别互不重合。在训练集中又分为支持集(Support Set)和查询集(Query Set),用来模拟一次训练和测试的过程。元学习将每一次训练当做一个任务来进行训练。通过对已有任务的学习,来提升对未见任务的分类准确率。通过对支持集和查询集的视觉特征进行匹配,完成分类。元学习在此框架下,学习一种视觉特征与视觉特征的匹配关系,以实现新任务的自动分类,常用的方法有匹配网络(Matching Network),关系网络(RelationNetwork)和原型网络(Prototypical Network)等。常用的训练参数是五个类别一起训练,每个类别使用不同的样本数,进行网络训练。训练类使用的样本个数越多,对于分类愈加有利,一般一张或者五张,来作为评价标准。一般情况下,随机在类内选取训练样本会带有一定的特异性,元学习则是提取某类样本的共性,忽视其特异性,来构建图像与图像视觉特征之间的关系模型。
现在基于元学习的少样本训练主要存在以下问题:
1、现阶段少样本训练的任务比较简单,用于少样本训练的测试集仅局限于手写字符数据集(Omniglot)和单标签分类数据集(miniImageNet)。这两个数据集中的图像尺寸较小,视觉场景单一,主要集中于图像中间的事物。现有的少样本学习的算法在这两个数据集上已经达到了比较高的水平,一定程度上限制了基于元学习的少样本训练的发展。
2、目前,少样本学习缺少对复杂场景下人物关系的探索。人物交互关系的正确识别是许多计算机视觉任务的先决条件,如图像描述、图像检索等。以人为主体的活动场景复杂多样,网络提取的视觉特征难以提供丰富的可判别信息。同时,人物交互中存在一些非常见的组合,导致类别间的样本极度不均衡。这些都对基于元学习的少样本训练提出了挑战。
发明内容
本发明所要解决的技术问题是,提供一种在仅有少量样本的情况下融合语义信息对图像中的人物关系进行分类的面向人物交互的多重语义融合少样本分类方法。
本发明所采用的技术方案是:一种面向人物交互的多重语义融合少样本分类方法,包括如下步骤:
1)从元训练集的支持集中随机取得不同类别样本的视觉特征,分别记为x1,x2,…,xi,…,xw,其中,w为类别数;
2)依次将不同类别样本的视觉特征送到用于感知人物交互关系的第一多重语义融合网络gθ中,分别对构成语义融合的名词部分和动词部分进行融合,最后得到不同类别样本的多重语义融合后的特征向量
Figure BDA0002028340030000021
3)从元训练集的查询集取得样本的视觉特征xQ,送到用于感知人物交互关系的第二多重语义融合网络fθ中,利用自身的特征进行融合,得到多重语义融合后的特征向量
Figure BDA0002028340030000022
4)依次将元训练集的查询集和支持集的视觉特征输入到第一多重语义融合网络gθ和第二多重语义融合网络fθ中,多重语义融合后的特征向量
Figure BDA0002028340030000023
和多重语义融合后的特征向量/>
Figure BDA0002028340030000024
按照如下公式计算属于各个类别的概率:
Figure BDA0002028340030000025
其中函数d为欧氏距离的度量函数;exp为自然常数e为底的指数函数。
5)设定目标函数公式如下:
Figure BDA0002028340030000026
其中yQ为查询集的视觉特征xQ的真实标签;
6)训练阶段,根据目标函数公式,使用Adam优化器训练第一多重语义融合网络gθ和第二多重语义融合网络fθ的内部参数,直至目标函数值趋于稳定;
7)测试阶段,依次将元测试集的查询集和支持集的视觉特征输入到训练好的第一多重语义融合网络gθ和第二多重语义融合网络fθ中,得到多重语义融合后的特征向量
Figure BDA0002028340030000027
和多重语义融合后的特征向量/>
Figure BDA0002028340030000028
按照公式(11)计算属于各个类别的概率,将计算得到的概率中最大的概率所对应的类别,作为查询集视觉特征的类别。
步骤2)所述的第一多重语义融合网络gθ的工作过程包括:
(2.1)在输入不同类别样本的视觉特征时,加入名词和动词的文本特征,分别使用编码器E1和E2,对第i类样本的动词和名词的语义信息ni,vi编码,分别得到第i类样本的名词编码信息Tni和动词编码信息Tvi
Tni=E1(ni) (1)
Tvi=E2(vi) (2);
(2.2)进行名词语义信息融合,即依次将不同类别样本的视觉特征分别得到第i类样本的名词编码信息Tni和动词编码信息Tvi和相对应的名词编码信息Tn1,Tn2,…,Tni,…,Tnw送入第一生成器G1中,生成同一语义空间的名词融合特征
Figure BDA0002028340030000031
/>
Figure BDA0002028340030000032
(2.3)为了防止名词融合特征对动词融合特征进行干扰,进行动词语义信息融合前,分别将不同类别样本的视觉特征xi减去对应的名词融合特征
Figure BDA0002028340030000033
得到不同类别样本的剩余特征信息x'i
Figure BDA0002028340030000034
(2.4)进行动词语义信息融合,即依次将不同类别样本的剩余特征信息x1,x2,…,xi,…,xw和相对应的动词编码信息Tv1,Tv2,…,Tvi,…,Tvw送入第二生成器G2中,生成同一语义空间的不同类别样本的动词融合特征
Figure BDA0002028340030000035
Figure BDA0002028340030000036
(2.5)将不同类别样本的名词融合特征
Figure BDA0002028340030000037
动词融合特征/>
Figure BDA0002028340030000038
和不同类别样本的剩余特征信息x'i相加,得到不同类别样本的多重语义融合后的特征向量/>
Figure BDA0002028340030000039
Figure BDA00020283400300000310
步骤3)所述的第二多重语义融合网络fθ的工作过程包括:
1)从元训练集的查询集取得样本的视觉特征xQ时,没有对应的语义信息,因而直接使用训练好的第一生成器G1,融合样本的视觉特征xQ本身,得到伪名词语义信息融合特征
Figure BDA00020283400300000311
Figure BDA00020283400300000312
2)在进行动词语义信息融合前,将样本的视觉特征xQ减去伪名词语义信息融合特征
Figure BDA00020283400300000313
得到剩余特征信息x'Q
Figure BDA00020283400300000314
3)使用训练好的第二生成器G2,在剩余特征信息x'Q上进行动词的语义信息融合,得到伪动词语义信息融合特征
Figure BDA00020283400300000315
Figure BDA00020283400300000316
4)将伪名词语义信息融合特征
Figure BDA00020283400300000317
伪动词语义信息融合特征/>
Figure BDA00020283400300000318
和剩余特征信息x'Q相加,得到多重语义融合后的特征向量/>
Figure BDA00020283400300000319
Figure BDA00020283400300000320
本发明的一种面向人物交互的多重语义融合少样本分类方法,通过引入标签的语义信息生成具有判别性的局部特征,从而获得更具有语义特性的视觉表达。通过引入语义信息引导视觉特征将重心分别集中于“物体”和“动作”。本发明能够在样本缺乏的情况下,实现对复杂场景下人与物体关系的分类。通过将名词和动词的语义信息和视觉特征的融合,体现人物动作和物体的相关细节特征,表达了以人物为中心的视觉特征特异性,能够对有接触的人物交互和非接触的人物交互分类中表现良好。
附图说明
图1是本发明一种面向人物交互的多重语义融合少样本分类方法的流程图;
图2是本发明中第一多重语义融合网络的工作流程图;
图3是本发明中第二多重语义融合网络的工作流程图。
具体实施方式
下面结合实施例和附图对本发明的一种面向人物交互的多重语义融合少样本分类方法做出详细说明。
本发明的一种面向人物交互的多重语义融合少样本分类方法,是对少样本图像中的人物关系进行分类,其具体模型如下:
人物交互的相关数据集中,每张图像对应的标签通常是“动词+名词”的组合。首先依据名词划分为元训练集和元测试集,两个集合针对名词而言为不相交的集合。假设在训练阶段从元训练集的支持集中随机选出w个类别,每个类别给出由一个四元组{xi,yi,ni,vi}定义的数据,其中xi是第i个类别的视觉特征,
Figure BDA0002028340030000041
是第i个类别的视觉特征的类别标签,ni是第i个类别的视觉特征名词的文本语义特征,vi是第i个类别的视觉特征动词的文本语义特征。训练阶段与支持集相对应类别的查询集给出一个二元组{xQ,yQ},其中xQ是元训练集中查询集随机选取的视觉特征,yQ是元训练集中查询集随机选取的视觉特征的类别标签。
如图1所示,本发明的一种面向人物交互的多重语义融合少样本分类方法,包括如下步骤:
1)从元训练集的支持集中随机取得不同类别样本的视觉特征,分别记为x1,x2,…,xi,…,xw,其中,w为类别数;
2)依次将不同类别样本的视觉特征送到用于感知人物交互关系的第一多重语义融合网络gθ中,分别对构成语义融合的名词部分和动词部分进行融合,最后得到不同类别样本的多重语义融合后的特征向量
Figure BDA0002028340030000042
如图2所示,所述的第一多重语义融合网络gθ的工作过程包括:
(2.1)人与物的相互关系(Human Object Interaction)的分类是比简单图像分类更为具有挑战性的一个任务。数据集中每张图像包含了“人物-动作-物体”的三元组。人物是人物交互图像分类的主要关注点,即三元组的主语,因此将分类的特异性锁定于“动词-名词”的组合。
由于标签文本的语义信息与视觉特征不在同一个空间,本发明在输入不同类别样本的视觉特征时,加入名词和动词的文本特征,分别使用编码器E1和E2,对第i类样本的动词和名词的语义信息ni,vi编码,分别得到第i类样本的名词编码信息Tni和动词编码信息Tvi
Tni=E1(ni) (1)
Tvi=E2(vi) (2);
(2.2)进行名词语义信息融合,即依次将不同类别样本的视觉特征分别得到第i类样本的名词编码信息Tni和动词编码信息Tvi和相对应的名词编码信息Tn1,Tn2,…,Tni,…,Tnw送入第一生成器G1中,生成同一语义空间的名词融合特征
Figure BDA0002028340030000051
/>
Figure BDA0002028340030000052
(2.3)为了防止名词融合特征对动词融合特征进行干扰,进行动词语义信息融合前,分别将不同类别样本的视觉特征xi减去对应的名词融合特征
Figure BDA00020283400300000520
得到不同类别样本的剩余特征信息x'i
Figure BDA0002028340030000053
(2.4)进行动词语义信息融合,即依次将不同类别样本的剩余特征信息x1,x2,…,xi,…,xw和相对应的动词编码信息Tv1,Tv2,…,Tvi,…,Tvw送入第二生成器G2中,生成同一语义空间的不同类别样本的动词融合特征
Figure BDA0002028340030000054
Figure BDA0002028340030000055
(2.5)将不同类别样本的名词融合特征
Figure BDA0002028340030000056
动词融合特征/>
Figure BDA0002028340030000057
和不同类别样本的剩余特征信息x'i相加,得到不同类别样本的多重语义融合后的特征向量/>
Figure BDA0002028340030000058
Figure BDA0002028340030000059
最终经过融合语义特征和视觉特征的不同类别样本的多重语义融合后的特征向量
Figure BDA00020283400300000510
既包含了该类别的语义信息也保留该类别样本的视觉信息,在元学习的网络框架下可以实现更为有效的分类。
3)从元训练集的查询集取得样本的视觉特征xQ,送到用于感知人物交互关系的第二多重语义融合网络fθ中,利用自身的特征进行融合,得到多重语义融合后的特征向量
Figure BDA00020283400300000511
如图3所示,所述的第二多重语义融合网络fθ的工作过程包括:
(3.1)从元训练集的查询集取得样本的视觉特征xQ时,没有对应的语义信息,因而直接使用训练好的第一生成器G1,融合样本的视觉特征xQ本身,得到伪名词语义信息融合特征
Figure BDA00020283400300000512
Figure BDA00020283400300000513
(3.2)在进行动词语义信息融合前,将样本的视觉特征xQ减去伪名词语义信息融合特征
Figure BDA00020283400300000514
得到剩余特征信息x'Q
Figure BDA00020283400300000515
(3.3)使用训练好的第二生成器G2,在剩余特征信息x'Q上进行动词的语义信息融合,得到伪动词语义信息融合特征
Figure BDA00020283400300000516
Figure BDA00020283400300000517
(3.4)将伪名词语义信息融合特征
Figure BDA00020283400300000518
伪动词语义信息融合特征/>
Figure BDA00020283400300000519
和剩余特征信息x'Q相加,得到多重语义融合后的特征向量/>
Figure BDA0002028340030000061
Figure BDA0002028340030000062
4)依次将元训练集的查询集和支持集的视觉特征输入到第一多重语义融合网络gθ和第二多重语义融合网络fθ中,多重语义融合后的特征向量
Figure BDA0002028340030000063
和多重语义融合后的特征向量/>
Figure BDA0002028340030000064
按照如下公式计算属于各个类别的概率:
Figure BDA0002028340030000065
其中函数d为欧氏距离的度量函数;exp为自然常数e为底的指数函数。
5)设定目标函数公式如下:
Figure BDA0002028340030000066
其中yQ为查询集的视觉特征xQ的真实标签;
6)训练阶段,根据目标函数公式,使用Adam优化器训练第一多重语义融合网络gθ和第二多重语义融合网络fθ的内部参数,直至目标函数值趋于稳定;
7)测试阶段,依次将元测试集的查询集和支持集的视觉特征输入到训练好的第一多重语义融合网络gθ和第二多重语义融合网络fθ中,得到多重语义融合后的特征向量
Figure BDA0002028340030000067
和多重语义融合后的特征向量/>
Figure BDA0002028340030000068
按照公式(11)计算属于各个类别的概率,将计算得到的概率中最大的概率所对应的类别,作为查询集视觉特征的类别。/>

Claims (1)

1.一种面向人物交互的多重语义融合少样本分类方法,其特征在于,包括如下步骤:
1)从元训练集的支持集中随机取得不同类别样本的视觉特征,分别记为x1,x2,…,xi,…,xw,其中,w为类别数;
2)依次将不同类别样本的视觉特征送到用于感知人物交互关系的第一多重语义融合网络gθ中,分别对构成语义融合的名词部分和动词部分进行融合,最后得到不同类别样本的多重语义融合后的特征向量
Figure QLYQS_1
所述的第一多重语义融合网络gθ的工作过程包括:
(2.1)在输入不同类别样本的视觉特征时,加入名词和动词的文本特征,分别使用编码器E1和E2,对第i类样本的动词和名词的语义信息ni,vi编码,分别得到第i类样本的名词编码信息Tni和动词编码信息Tvi
Tni=E1(ni) (1)
Tvi=E2(vi) (2);
(2.2)进行名词语义信息融合,即依次将不同类别样本的视觉特征分别得到第i类样本的名词编码信息Tni和动词编码信息Tvi和相对应的名词编码信息Tn1,Tn2,…,Tni,…,Tnw送入第一生成器G1中,生成同一语义空间的名词融合特征
Figure QLYQS_2
Figure QLYQS_3
(2.3)为了防止名词融合特征对动词融合特征进行干扰,进行动词语义信息融合前,分别将不同类别样本的视觉特征xi减去对应的名词融合特征
Figure QLYQS_4
得到不同类别样本的剩余特征信息x'i
Figure QLYQS_5
(2.4)进行动词语义信息融合,即依次将不同类别样本的剩余特征信息x1,x2,…,xi,…,xw和相对应的动词编码信息Tv1,Tv2,…,Tvi,…,Tvw送入第二生成器G2中,生成同一语义空间的不同类别样本的动词融合特征
Figure QLYQS_6
Figure QLYQS_7
(2.5)将不同类别样本的名词融合特征
Figure QLYQS_8
动词融合特征/>
Figure QLYQS_9
和不同类别样本的剩余特征信息x'i相加,得到不同类别样本的多重语义融合后的特征向量/>
Figure QLYQS_10
Figure QLYQS_11
3)从元训练集的查询集取得样本的视觉特征xQ,送到用于感知人物交互关系的第二多重语义融合网络fθ中,利用自身的特征进行融合,得到多重语义融合后的特征向量
Figure QLYQS_12
所述的第二多重语义融合网络fθ的工作过程包括:
(3.1)从元训练集的查询集取得样本的视觉特征xQ时,没有对应的语义信息,因而直接使用训练好的第一生成器G1,融合样本的视觉特征xQ本身,得到伪名词语义信息融合特征
Figure QLYQS_13
Figure QLYQS_14
(3.2)在进行动词语义信息融合前,将样本的视觉特征xQ减去伪名词语义信息融合特征
Figure QLYQS_15
得到剩余特征信息x'Q:/>
Figure QLYQS_16
(3.3)使用训练好的第二生成器G2,在剩余特征信息x'Q上进行动词的语义信息融合,得到伪动词语义信息融合特征
Figure QLYQS_17
Figure QLYQS_18
(3.4)将伪名词语义信息融合特征
Figure QLYQS_19
伪动词语义信息融合特征/>
Figure QLYQS_20
和剩余特征信息x'Q相加,得到多重语义融合后的特征向量/>
Figure QLYQS_21
Figure QLYQS_22
4)依次将元训练集的查询集和支持集的视觉特征输入到第一多重语义融合网络gθ和第二多重语义融合网络fθ中,多重语义融合后的特征向量
Figure QLYQS_23
和多重语义融合后的特征向量x~Q按照如下公式计算属于各个类别的概率:
Figure QLYQS_24
其中函数d为欧氏距离的度量函数;exp为自然常数e为底的指数函数;
5)设定目标函数公式如下:
Figure QLYQS_25
其中yQ为查询集的视觉特征xQ的真实标签;
6)训练阶段,根据目标函数公式,使用Adam优化器训练第一多重语义融合网络gθ和第二多重语义融合网络fθ的内部参数,直至目标函数值趋于稳定;
7)测试阶段,依次将元测试集的查询集和支持集的视觉特征输入到训练好的第一多重语义融合网络gθ和第二多重语义融合网络fθ中,得到多重语义融合后的特征向量
Figure QLYQS_26
和多重语义融合后的特征向量/>
Figure QLYQS_27
按照公式(11)计算属于各个类别的概率,将计算得到的概率中最大的概率所对应的类别,作为查询集视觉特征的类别。/>
CN201910301393.2A 2019-04-15 2019-04-15 一种面向人物交互的多重语义融合少样本分类方法 Active CN110097094B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910301393.2A CN110097094B (zh) 2019-04-15 2019-04-15 一种面向人物交互的多重语义融合少样本分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910301393.2A CN110097094B (zh) 2019-04-15 2019-04-15 一种面向人物交互的多重语义融合少样本分类方法

Publications (2)

Publication Number Publication Date
CN110097094A CN110097094A (zh) 2019-08-06
CN110097094B true CN110097094B (zh) 2023-06-13

Family

ID=67444984

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910301393.2A Active CN110097094B (zh) 2019-04-15 2019-04-15 一种面向人物交互的多重语义融合少样本分类方法

Country Status (1)

Country Link
CN (1) CN110097094B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110532911B (zh) * 2019-08-19 2021-11-26 南京邮电大学 协方差度量驱动小样本gif短视频情感识别方法及系统
CN110569886B (zh) * 2019-08-20 2023-02-28 天津大学 一种双向通道注意力元学习的图像分类方法
CN110580500B (zh) * 2019-08-20 2023-04-18 天津大学 一种面向人物交互的网络权重生成少样本图像分类方法
CN110555475A (zh) * 2019-08-29 2019-12-10 华南理工大学 一种基于语义信息融合的少样本目标检测方法
CN110553650B (zh) * 2019-08-29 2021-06-08 华南理工大学 一种基于小样本学习的移动机器人重定位方法
CN112270334B (zh) * 2020-08-07 2023-02-03 武汉理工大学 一种基于异常点暴露的少样本图像分类方法及系统
CN112613556B (zh) * 2020-09-01 2022-04-19 电子科技大学 基于元学习的少样本图像情感分类方法
CN112580362B (zh) * 2020-12-18 2024-02-20 西安电子科技大学 一种基于文本语义监督的视觉行为识别方法、系统及计算机可读介质
CN113505225B (zh) * 2021-07-08 2023-07-25 东北大学 一种基于多层注意力机制的小样本医疗关系分类方法
CN113610173B (zh) * 2021-08-13 2022-10-04 天津大学 一种基于知识蒸馏的多跨域少样本分类方法
CN115984635B (zh) * 2023-03-21 2023-07-07 自然资源部第一海洋研究所 多源遥感数据分类模型训练方法、分类方法和电子设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101373518A (zh) * 2008-06-28 2009-02-25 合肥工业大学 图像理解中基于语义信息原型向量构成及序参量重构方法
CN104036023A (zh) * 2014-06-26 2014-09-10 福州大学 一种融合上下文的树形视频语义索引建立方法
CN107924472A (zh) * 2015-06-03 2018-04-17 英乐爱有限公司 通过脑部计算机介面的图像分类
CN108595469A (zh) * 2018-03-06 2018-09-28 洛阳中科龙网创新科技有限公司 一种基于语义的农机监控视频图像节带化传输系统
CN108629367A (zh) * 2018-03-22 2018-10-09 中山大学 一种基于深度网络增强服装属性识别精度的方法
CN108733682A (zh) * 2017-04-14 2018-11-02 华为技术有限公司 一种生成多文档摘要的方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101373518A (zh) * 2008-06-28 2009-02-25 合肥工业大学 图像理解中基于语义信息原型向量构成及序参量重构方法
CN104036023A (zh) * 2014-06-26 2014-09-10 福州大学 一种融合上下文的树形视频语义索引建立方法
CN107924472A (zh) * 2015-06-03 2018-04-17 英乐爱有限公司 通过脑部计算机介面的图像分类
CN108733682A (zh) * 2017-04-14 2018-11-02 华为技术有限公司 一种生成多文档摘要的方法及装置
CN108595469A (zh) * 2018-03-06 2018-09-28 洛阳中科龙网创新科技有限公司 一种基于语义的农机监控视频图像节带化传输系统
CN108629367A (zh) * 2018-03-22 2018-10-09 中山大学 一种基于深度网络增强服装属性识别精度的方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
"CONDITIONAL NETWORKS FOR FEW-SHOT SEMANTIC SEGMENTATION";Kate Rakelly et al.;《International Conference on Learning Representations》;20181231;第1-4页 *
"低层特征与高层语义融合的人体行为识别方法";王忠民 等;《小型微型计算机系统》;20180430;第39卷(第4期);第694-699页 *
"基于动词名词和CHI特征选择的中文人物社会关系抽取";曾辉 等;《计算机应用研究》;20170630;第34卷(第6期);第1631-1635页 *

Also Published As

Publication number Publication date
CN110097094A (zh) 2019-08-06

Similar Documents

Publication Publication Date Title
CN110097094B (zh) 一种面向人物交互的多重语义融合少样本分类方法
CN111858954B (zh) 面向任务的文本生成图像网络模型
Kong et al. Interactive phrases: Semantic descriptionsfor human interaction recognition
CN109492662B (zh) 一种基于对抗自编码器模型的零样本图像分类方法
Zhang et al. Visual translation embedding network for visual relation detection
CN106328147B (zh) 语音识别方法和装置
CN113283551B (zh) 多模态预训练模型的训练方法、训练装置及电子设备
CN106354872B (zh) 文本聚类的方法及系统
Gupta Survey of visual question answering: Datasets and techniques
CN110580500A (zh) 一种面向人物交互的网络权重生成少样本图像分类方法
Taylor et al. Learning invariance through imitation
CN111046275B (zh) 基于人工智能的用户标签确定方法及装置、存储介质
Mahendru et al. The promise of premise: Harnessing question premises in visual question answering
Kong et al. Close human interaction recognition using patch-aware models
CN111209384A (zh) 基于人工智能的问答数据处理方法、装置及电子设备
CN109783666A (zh) 一种基于迭代精细化的图像场景图谱生成方法
CN111160452A (zh) 一种基于预训练语言模型的多模态网络谣言检测方法
CN111241291A (zh) 利用对抗生成网络生成对抗样本的方法及装置
Rahman et al. Deep0tag: Deep multiple instance learning for zero-shot image tagging
Tan et al. Drill-down: Interactive retrieval of complex scenes using natural language queries
Akhtar et al. Attack to fool and explain deep networks
Le et al. End-to-end multimodal dialog systems with hierarchical multimodal attention on video features
Tian et al. Aligned dynamic-preserving embedding for zero-shot action recognition
Zhou et al. Object relation detection based on one-shot learning
Zheng et al. A deep learning approach for expert identification in question answering communities

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant