CN110097094B - 一种面向人物交互的多重语义融合少样本分类方法 - Google Patents
一种面向人物交互的多重语义融合少样本分类方法 Download PDFInfo
- Publication number
- CN110097094B CN110097094B CN201910301393.2A CN201910301393A CN110097094B CN 110097094 B CN110097094 B CN 110097094B CN 201910301393 A CN201910301393 A CN 201910301393A CN 110097094 B CN110097094 B CN 110097094B
- Authority
- CN
- China
- Prior art keywords
- fusion
- information
- multiple semantic
- samples
- semantic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Abstract
一种面向人物交互的多重语义融合少样本分类方法,从元训练集的支持集中随机取得不同类别样本的视觉特征;将不同类别样本的视觉特征送到用于感知人物交互关系的第一多重语义融合网络中得到不同类别样本的多重语义融合后的特征向量;从元训练集的查询集取得样本的视觉特征,送到用于感知人物交互关系的第二多重语义融合网络中得到多重语义融合后的特征向量;依次将查询集和支持集的视觉特征输入到两个多重语义融合网络中,根据多重语义融合后的特征向量计算属于各个类别的概率;设定目标函数,进行训练和进行测试后计算属于各个类别的概率,将计算得到的概率中最大的概率所对应的类别,作为查询集视觉特征的类别。本发明实现了对复杂场景下人与物体关系的分类。
Description
技术领域
本发明涉及一种多重语义融合少样本分类方法。特别是涉及一种基于元学习的面向人物交互的多重语义融合少样本分类方法。
背景技术
深度学习技术是在大量数据和大规模训练的基础上,模拟或实现人类的学习行为,以获取新的知识或技能。目前,深度学习技术已经在计算机视觉领域取得较大成功,具体任务如图像分类、目标检测和语义分割等。然而,在某些任务和领域上,存在数据获取困难,没有大量训练数据的问题。而人类在学习新知识时候能够利用已有知识经验进行转化从而快速学习。比如,给一个幼童看一张“长颈鹿”的图片,很大概率上,他会在第二次、第三次认出同类别图片属于“长颈鹿”。因此,人类天生具备归纳和总结的能力,往往经过非常少次数的“训练”就能记住物体的特征,在下一次见到的时候就能将其归为最为接近的一类,从而达到认知事物的目的。元学习(Meta Learning)的思想是利用已有的先验知识能够快速适应新的学习任务。近几年来,基于元学习的少样本学习引起了广泛关注。少样本学习(Few Shot Learning)的任务是面对仅有少量样本的测试类图像,对其进行类别识别。
在元学习中,将图像类别分为元训练集(Meta Train Set)和元测试集(Meta TestSet),其类别互不重合。在训练集中又分为支持集(Support Set)和查询集(Query Set),用来模拟一次训练和测试的过程。元学习将每一次训练当做一个任务来进行训练。通过对已有任务的学习,来提升对未见任务的分类准确率。通过对支持集和查询集的视觉特征进行匹配,完成分类。元学习在此框架下,学习一种视觉特征与视觉特征的匹配关系,以实现新任务的自动分类,常用的方法有匹配网络(Matching Network),关系网络(RelationNetwork)和原型网络(Prototypical Network)等。常用的训练参数是五个类别一起训练,每个类别使用不同的样本数,进行网络训练。训练类使用的样本个数越多,对于分类愈加有利,一般一张或者五张,来作为评价标准。一般情况下,随机在类内选取训练样本会带有一定的特异性,元学习则是提取某类样本的共性,忽视其特异性,来构建图像与图像视觉特征之间的关系模型。
现在基于元学习的少样本训练主要存在以下问题:
1、现阶段少样本训练的任务比较简单,用于少样本训练的测试集仅局限于手写字符数据集(Omniglot)和单标签分类数据集(miniImageNet)。这两个数据集中的图像尺寸较小,视觉场景单一,主要集中于图像中间的事物。现有的少样本学习的算法在这两个数据集上已经达到了比较高的水平,一定程度上限制了基于元学习的少样本训练的发展。
2、目前,少样本学习缺少对复杂场景下人物关系的探索。人物交互关系的正确识别是许多计算机视觉任务的先决条件,如图像描述、图像检索等。以人为主体的活动场景复杂多样,网络提取的视觉特征难以提供丰富的可判别信息。同时,人物交互中存在一些非常见的组合,导致类别间的样本极度不均衡。这些都对基于元学习的少样本训练提出了挑战。
发明内容
本发明所要解决的技术问题是,提供一种在仅有少量样本的情况下融合语义信息对图像中的人物关系进行分类的面向人物交互的多重语义融合少样本分类方法。
本发明所采用的技术方案是:一种面向人物交互的多重语义融合少样本分类方法,包括如下步骤:
1)从元训练集的支持集中随机取得不同类别样本的视觉特征,分别记为x1,x2,…,xi,…,xw,其中,w为类别数;
其中函数d为欧氏距离的度量函数;exp为自然常数e为底的指数函数。
5)设定目标函数公式如下:
其中yQ为查询集的视觉特征xQ的真实标签;
6)训练阶段,根据目标函数公式,使用Adam优化器训练第一多重语义融合网络gθ和第二多重语义融合网络fθ的内部参数,直至目标函数值趋于稳定;
7)测试阶段,依次将元测试集的查询集和支持集的视觉特征输入到训练好的第一多重语义融合网络gθ和第二多重语义融合网络fθ中,得到多重语义融合后的特征向量和多重语义融合后的特征向量/>按照公式(11)计算属于各个类别的概率,将计算得到的概率中最大的概率所对应的类别,作为查询集视觉特征的类别。
步骤2)所述的第一多重语义融合网络gθ的工作过程包括:
(2.1)在输入不同类别样本的视觉特征时,加入名词和动词的文本特征,分别使用编码器E1和E2,对第i类样本的动词和名词的语义信息ni,vi编码,分别得到第i类样本的名词编码信息Tni和动词编码信息Tvi:
Tni=E1(ni) (1)
Tvi=E2(vi) (2);
(2.2)进行名词语义信息融合,即依次将不同类别样本的视觉特征分别得到第i类样本的名词编码信息Tni和动词编码信息Tvi和相对应的名词编码信息Tn1,Tn2,…,Tni,…,Tnw送入第一生成器G1中,生成同一语义空间的名词融合特征/>
(2.4)进行动词语义信息融合,即依次将不同类别样本的剩余特征信息x1,x2,…,xi,…,xw和相对应的动词编码信息Tv1,Tv2,…,Tvi,…,Tvw送入第二生成器G2中,生成同一语义空间的不同类别样本的动词融合特征
步骤3)所述的第二多重语义融合网络fθ的工作过程包括:
本发明的一种面向人物交互的多重语义融合少样本分类方法,通过引入标签的语义信息生成具有判别性的局部特征,从而获得更具有语义特性的视觉表达。通过引入语义信息引导视觉特征将重心分别集中于“物体”和“动作”。本发明能够在样本缺乏的情况下,实现对复杂场景下人与物体关系的分类。通过将名词和动词的语义信息和视觉特征的融合,体现人物动作和物体的相关细节特征,表达了以人物为中心的视觉特征特异性,能够对有接触的人物交互和非接触的人物交互分类中表现良好。
附图说明
图1是本发明一种面向人物交互的多重语义融合少样本分类方法的流程图;
图2是本发明中第一多重语义融合网络的工作流程图;
图3是本发明中第二多重语义融合网络的工作流程图。
具体实施方式
下面结合实施例和附图对本发明的一种面向人物交互的多重语义融合少样本分类方法做出详细说明。
本发明的一种面向人物交互的多重语义融合少样本分类方法,是对少样本图像中的人物关系进行分类,其具体模型如下:
人物交互的相关数据集中,每张图像对应的标签通常是“动词+名词”的组合。首先依据名词划分为元训练集和元测试集,两个集合针对名词而言为不相交的集合。假设在训练阶段从元训练集的支持集中随机选出w个类别,每个类别给出由一个四元组{xi,yi,ni,vi}定义的数据,其中xi是第i个类别的视觉特征,是第i个类别的视觉特征的类别标签,ni是第i个类别的视觉特征名词的文本语义特征,vi是第i个类别的视觉特征动词的文本语义特征。训练阶段与支持集相对应类别的查询集给出一个二元组{xQ,yQ},其中xQ是元训练集中查询集随机选取的视觉特征,yQ是元训练集中查询集随机选取的视觉特征的类别标签。
如图1所示,本发明的一种面向人物交互的多重语义融合少样本分类方法,包括如下步骤:
1)从元训练集的支持集中随机取得不同类别样本的视觉特征,分别记为x1,x2,…,xi,…,xw,其中,w为类别数;
如图2所示,所述的第一多重语义融合网络gθ的工作过程包括:
(2.1)人与物的相互关系(Human Object Interaction)的分类是比简单图像分类更为具有挑战性的一个任务。数据集中每张图像包含了“人物-动作-物体”的三元组。人物是人物交互图像分类的主要关注点,即三元组的主语,因此将分类的特异性锁定于“动词-名词”的组合。
由于标签文本的语义信息与视觉特征不在同一个空间,本发明在输入不同类别样本的视觉特征时,加入名词和动词的文本特征,分别使用编码器E1和E2,对第i类样本的动词和名词的语义信息ni,vi编码,分别得到第i类样本的名词编码信息Tni和动词编码信息Tvi:
Tni=E1(ni) (1)
Tvi=E2(vi) (2);
(2.2)进行名词语义信息融合,即依次将不同类别样本的视觉特征分别得到第i类样本的名词编码信息Tni和动词编码信息Tvi和相对应的名词编码信息Tn1,Tn2,…,Tni,…,Tnw送入第一生成器G1中,生成同一语义空间的名词融合特征/>
(2.4)进行动词语义信息融合,即依次将不同类别样本的剩余特征信息x1,x2,…,xi,…,xw和相对应的动词编码信息Tv1,Tv2,…,Tvi,…,Tvw送入第二生成器G2中,生成同一语义空间的不同类别样本的动词融合特征
如图3所示,所述的第二多重语义融合网络fθ的工作过程包括:
其中函数d为欧氏距离的度量函数;exp为自然常数e为底的指数函数。
5)设定目标函数公式如下:
其中yQ为查询集的视觉特征xQ的真实标签;
6)训练阶段,根据目标函数公式,使用Adam优化器训练第一多重语义融合网络gθ和第二多重语义融合网络fθ的内部参数,直至目标函数值趋于稳定;
Claims (1)
1.一种面向人物交互的多重语义融合少样本分类方法,其特征在于,包括如下步骤:
1)从元训练集的支持集中随机取得不同类别样本的视觉特征,分别记为x1,x2,…,xi,…,xw,其中,w为类别数;
所述的第一多重语义融合网络gθ的工作过程包括:
(2.1)在输入不同类别样本的视觉特征时,加入名词和动词的文本特征,分别使用编码器E1和E2,对第i类样本的动词和名词的语义信息ni,vi编码,分别得到第i类样本的名词编码信息Tni和动词编码信息Tvi:
Tni=E1(ni) (1)
Tvi=E2(vi) (2);
(2.2)进行名词语义信息融合,即依次将不同类别样本的视觉特征分别得到第i类样本的名词编码信息Tni和动词编码信息Tvi和相对应的名词编码信息Tn1,Tn2,…,Tni,…,Tnw送入第一生成器G1中,生成同一语义空间的名词融合特征
(2.4)进行动词语义信息融合,即依次将不同类别样本的剩余特征信息x1,x2,…,xi,…,xw和相对应的动词编码信息Tv1,Tv2,…,Tvi,…,Tvw送入第二生成器G2中,生成同一语义空间的不同类别样本的动词融合特征
所述的第二多重语义融合网络fθ的工作过程包括:
其中函数d为欧氏距离的度量函数;exp为自然常数e为底的指数函数;
5)设定目标函数公式如下:
其中yQ为查询集的视觉特征xQ的真实标签;
6)训练阶段,根据目标函数公式,使用Adam优化器训练第一多重语义融合网络gθ和第二多重语义融合网络fθ的内部参数,直至目标函数值趋于稳定;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910301393.2A CN110097094B (zh) | 2019-04-15 | 2019-04-15 | 一种面向人物交互的多重语义融合少样本分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910301393.2A CN110097094B (zh) | 2019-04-15 | 2019-04-15 | 一种面向人物交互的多重语义融合少样本分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110097094A CN110097094A (zh) | 2019-08-06 |
CN110097094B true CN110097094B (zh) | 2023-06-13 |
Family
ID=67444984
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910301393.2A Active CN110097094B (zh) | 2019-04-15 | 2019-04-15 | 一种面向人物交互的多重语义融合少样本分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110097094B (zh) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110532911B (zh) * | 2019-08-19 | 2021-11-26 | 南京邮电大学 | 协方差度量驱动小样本gif短视频情感识别方法及系统 |
CN110569886B (zh) * | 2019-08-20 | 2023-02-28 | 天津大学 | 一种双向通道注意力元学习的图像分类方法 |
CN110580500B (zh) * | 2019-08-20 | 2023-04-18 | 天津大学 | 一种面向人物交互的网络权重生成少样本图像分类方法 |
CN110555475A (zh) * | 2019-08-29 | 2019-12-10 | 华南理工大学 | 一种基于语义信息融合的少样本目标检测方法 |
CN110553650B (zh) * | 2019-08-29 | 2021-06-08 | 华南理工大学 | 一种基于小样本学习的移动机器人重定位方法 |
CN112270334B (zh) * | 2020-08-07 | 2023-02-03 | 武汉理工大学 | 一种基于异常点暴露的少样本图像分类方法及系统 |
CN112613556B (zh) * | 2020-09-01 | 2022-04-19 | 电子科技大学 | 基于元学习的少样本图像情感分类方法 |
CN112580362B (zh) * | 2020-12-18 | 2024-02-20 | 西安电子科技大学 | 一种基于文本语义监督的视觉行为识别方法、系统及计算机可读介质 |
CN113505225B (zh) * | 2021-07-08 | 2023-07-25 | 东北大学 | 一种基于多层注意力机制的小样本医疗关系分类方法 |
CN113610173B (zh) * | 2021-08-13 | 2022-10-04 | 天津大学 | 一种基于知识蒸馏的多跨域少样本分类方法 |
CN115984635B (zh) * | 2023-03-21 | 2023-07-07 | 自然资源部第一海洋研究所 | 多源遥感数据分类模型训练方法、分类方法和电子设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101373518A (zh) * | 2008-06-28 | 2009-02-25 | 合肥工业大学 | 图像理解中基于语义信息原型向量构成及序参量重构方法 |
CN104036023A (zh) * | 2014-06-26 | 2014-09-10 | 福州大学 | 一种融合上下文的树形视频语义索引建立方法 |
CN107924472A (zh) * | 2015-06-03 | 2018-04-17 | 英乐爱有限公司 | 通过脑部计算机介面的图像分类 |
CN108595469A (zh) * | 2018-03-06 | 2018-09-28 | 洛阳中科龙网创新科技有限公司 | 一种基于语义的农机监控视频图像节带化传输系统 |
CN108629367A (zh) * | 2018-03-22 | 2018-10-09 | 中山大学 | 一种基于深度网络增强服装属性识别精度的方法 |
CN108733682A (zh) * | 2017-04-14 | 2018-11-02 | 华为技术有限公司 | 一种生成多文档摘要的方法及装置 |
-
2019
- 2019-04-15 CN CN201910301393.2A patent/CN110097094B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101373518A (zh) * | 2008-06-28 | 2009-02-25 | 合肥工业大学 | 图像理解中基于语义信息原型向量构成及序参量重构方法 |
CN104036023A (zh) * | 2014-06-26 | 2014-09-10 | 福州大学 | 一种融合上下文的树形视频语义索引建立方法 |
CN107924472A (zh) * | 2015-06-03 | 2018-04-17 | 英乐爱有限公司 | 通过脑部计算机介面的图像分类 |
CN108733682A (zh) * | 2017-04-14 | 2018-11-02 | 华为技术有限公司 | 一种生成多文档摘要的方法及装置 |
CN108595469A (zh) * | 2018-03-06 | 2018-09-28 | 洛阳中科龙网创新科技有限公司 | 一种基于语义的农机监控视频图像节带化传输系统 |
CN108629367A (zh) * | 2018-03-22 | 2018-10-09 | 中山大学 | 一种基于深度网络增强服装属性识别精度的方法 |
Non-Patent Citations (3)
Title |
---|
"CONDITIONAL NETWORKS FOR FEW-SHOT SEMANTIC SEGMENTATION";Kate Rakelly et al.;《International Conference on Learning Representations》;20181231;第1-4页 * |
"低层特征与高层语义融合的人体行为识别方法";王忠民 等;《小型微型计算机系统》;20180430;第39卷(第4期);第694-699页 * |
"基于动词名词和CHI特征选择的中文人物社会关系抽取";曾辉 等;《计算机应用研究》;20170630;第34卷(第6期);第1631-1635页 * |
Also Published As
Publication number | Publication date |
---|---|
CN110097094A (zh) | 2019-08-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110097094B (zh) | 一种面向人物交互的多重语义融合少样本分类方法 | |
CN111858954B (zh) | 面向任务的文本生成图像网络模型 | |
Kong et al. | Interactive phrases: Semantic descriptionsfor human interaction recognition | |
CN109492662B (zh) | 一种基于对抗自编码器模型的零样本图像分类方法 | |
Zhang et al. | Visual translation embedding network for visual relation detection | |
CN106328147B (zh) | 语音识别方法和装置 | |
CN113283551B (zh) | 多模态预训练模型的训练方法、训练装置及电子设备 | |
CN106354872B (zh) | 文本聚类的方法及系统 | |
Gupta | Survey of visual question answering: Datasets and techniques | |
CN110580500A (zh) | 一种面向人物交互的网络权重生成少样本图像分类方法 | |
Taylor et al. | Learning invariance through imitation | |
CN111046275B (zh) | 基于人工智能的用户标签确定方法及装置、存储介质 | |
Mahendru et al. | The promise of premise: Harnessing question premises in visual question answering | |
Kong et al. | Close human interaction recognition using patch-aware models | |
CN111209384A (zh) | 基于人工智能的问答数据处理方法、装置及电子设备 | |
CN109783666A (zh) | 一种基于迭代精细化的图像场景图谱生成方法 | |
CN111160452A (zh) | 一种基于预训练语言模型的多模态网络谣言检测方法 | |
CN111241291A (zh) | 利用对抗生成网络生成对抗样本的方法及装置 | |
Rahman et al. | Deep0tag: Deep multiple instance learning for zero-shot image tagging | |
Tan et al. | Drill-down: Interactive retrieval of complex scenes using natural language queries | |
Akhtar et al. | Attack to fool and explain deep networks | |
Le et al. | End-to-end multimodal dialog systems with hierarchical multimodal attention on video features | |
Tian et al. | Aligned dynamic-preserving embedding for zero-shot action recognition | |
Zhou et al. | Object relation detection based on one-shot learning | |
Zheng et al. | A deep learning approach for expert identification in question answering communities |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |