CN110097094B

CN110097094B - 一种面向人物交互的多重语义融合少样本分类方法

Info

Publication number: CN110097094B
Application number: CN201910301393.2A
Authority: CN
Inventors: 冀中; 刘西瑶
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2019-04-15
Filing date: 2019-04-15
Publication date: 2023-06-13
Anticipated expiration: 2039-04-15
Also published as: CN110097094A

Abstract

一种面向人物交互的多重语义融合少样本分类方法，从元训练集的支持集中随机取得不同类别样本的视觉特征；将不同类别样本的视觉特征送到用于感知人物交互关系的第一多重语义融合网络中得到不同类别样本的多重语义融合后的特征向量；从元训练集的查询集取得样本的视觉特征，送到用于感知人物交互关系的第二多重语义融合网络中得到多重语义融合后的特征向量；依次将查询集和支持集的视觉特征输入到两个多重语义融合网络中，根据多重语义融合后的特征向量计算属于各个类别的概率；设定目标函数，进行训练和进行测试后计算属于各个类别的概率，将计算得到的概率中最大的概率所对应的类别，作为查询集视觉特征的类别。本发明实现了对复杂场景下人与物体关系的分类。

Description

一种面向人物交互的多重语义融合少样本分类方法

技术领域

本发明涉及一种多重语义融合少样本分类方法。特别是涉及一种基于元学习的面向人物交互的多重语义融合少样本分类方法。

背景技术

深度学习技术是在大量数据和大规模训练的基础上，模拟或实现人类的学习行为，以获取新的知识或技能。目前，深度学习技术已经在计算机视觉领域取得较大成功，具体任务如图像分类、目标检测和语义分割等。然而，在某些任务和领域上，存在数据获取困难，没有大量训练数据的问题。而人类在学习新知识时候能够利用已有知识经验进行转化从而快速学习。比如，给一个幼童看一张“长颈鹿”的图片，很大概率上，他会在第二次、第三次认出同类别图片属于“长颈鹿”。因此，人类天生具备归纳和总结的能力，往往经过非常少次数的“训练”就能记住物体的特征，在下一次见到的时候就能将其归为最为接近的一类，从而达到认知事物的目的。元学习(Meta Learning)的思想是利用已有的先验知识能够快速适应新的学习任务。近几年来，基于元学习的少样本学习引起了广泛关注。少样本学习(Few Shot Learning)的任务是面对仅有少量样本的测试类图像，对其进行类别识别。

在元学习中，将图像类别分为元训练集(Meta Train Set)和元测试集(Meta TestSet)，其类别互不重合。在训练集中又分为支持集(Support Set)和查询集(Query Set)，用来模拟一次训练和测试的过程。元学习将每一次训练当做一个任务来进行训练。通过对已有任务的学习，来提升对未见任务的分类准确率。通过对支持集和查询集的视觉特征进行匹配，完成分类。元学习在此框架下，学习一种视觉特征与视觉特征的匹配关系，以实现新任务的自动分类，常用的方法有匹配网络(Matching Network)，关系网络(RelationNetwork)和原型网络(Prototypical Network)等。常用的训练参数是五个类别一起训练，每个类别使用不同的样本数，进行网络训练。训练类使用的样本个数越多，对于分类愈加有利，一般一张或者五张，来作为评价标准。一般情况下，随机在类内选取训练样本会带有一定的特异性，元学习则是提取某类样本的共性，忽视其特异性，来构建图像与图像视觉特征之间的关系模型。

现在基于元学习的少样本训练主要存在以下问题：

1、现阶段少样本训练的任务比较简单，用于少样本训练的测试集仅局限于手写字符数据集(Omniglot)和单标签分类数据集(miniImageNet)。这两个数据集中的图像尺寸较小，视觉场景单一，主要集中于图像中间的事物。现有的少样本学习的算法在这两个数据集上已经达到了比较高的水平，一定程度上限制了基于元学习的少样本训练的发展。

2、目前，少样本学习缺少对复杂场景下人物关系的探索。人物交互关系的正确识别是许多计算机视觉任务的先决条件，如图像描述、图像检索等。以人为主体的活动场景复杂多样，网络提取的视觉特征难以提供丰富的可判别信息。同时，人物交互中存在一些非常见的组合，导致类别间的样本极度不均衡。这些都对基于元学习的少样本训练提出了挑战。

发明内容

本发明所要解决的技术问题是，提供一种在仅有少量样本的情况下融合语义信息对图像中的人物关系进行分类的面向人物交互的多重语义融合少样本分类方法。

本发明所采用的技术方案是：一种面向人物交互的多重语义融合少样本分类方法，包括如下步骤：

1)从元训练集的支持集中随机取得不同类别样本的视觉特征，分别记为x₁，x₂，…，x_i，…，x_w，其中，w为类别数；

2)依次将不同类别样本的视觉特征送到用于感知人物交互关系的第一多重语义融合网络g_θ中，分别对构成语义融合的名词部分和动词部分进行融合，最后得到不同类别样本的多重语义融合后的特征向量

3)从元训练集的查询集取得样本的视觉特征x_Q，送到用于感知人物交互关系的第二多重语义融合网络f_θ中，利用自身的特征进行融合，得到多重语义融合后的特征向量

4)依次将元训练集的查询集和支持集的视觉特征输入到第一多重语义融合网络g_θ和第二多重语义融合网络f_θ中，多重语义融合后的特征向量

和多重语义融合后的特征向量/>

按照如下公式计算属于各个类别的概率：

其中函数d为欧氏距离的度量函数；exp为自然常数e为底的指数函数。

5)设定目标函数公式如下：

其中y_Q为查询集的视觉特征x_Q的真实标签；

6)训练阶段，根据目标函数公式，使用Adam优化器训练第一多重语义融合网络g_θ和第二多重语义融合网络f_θ的内部参数，直至目标函数值趋于稳定；

7)测试阶段，依次将元测试集的查询集和支持集的视觉特征输入到训练好的第一多重语义融合网络g_θ和第二多重语义融合网络f_θ中，得到多重语义融合后的特征向量

和多重语义融合后的特征向量/>

按照公式(11)计算属于各个类别的概率，将计算得到的概率中最大的概率所对应的类别，作为查询集视觉特征的类别。

步骤2)所述的第一多重语义融合网络g_θ的工作过程包括：

(2.1)在输入不同类别样本的视觉特征时，加入名词和动词的文本特征，分别使用编码器E₁和E₂，对第i类样本的动词和名词的语义信息n_i,v_i编码，分别得到第i类样本的名词编码信息T_ni和动词编码信息T_vi：

T_ni＝E₁(n_i) (1)

T_vi＝E₂(v_i) (2)；

(2.2)进行名词语义信息融合，即依次将不同类别样本的视觉特征分别得到第i类样本的名词编码信息T_ni和动词编码信息T_vi和相对应的名词编码信息T_n1，T_n2，…，T_ni，…，T_nw送入第一生成器G₁中，生成同一语义空间的名词融合特征

/>

(2.3)为了防止名词融合特征对动词融合特征进行干扰，进行动词语义信息融合前，分别将不同类别样本的视觉特征x_i减去对应的名词融合特征

得到不同类别样本的剩余特征信息x'_i：

(2.4)进行动词语义信息融合，即依次将不同类别样本的剩余特征信息x₁，x₂，…，x_i，…，x_w和相对应的动词编码信息T_v1，T_v2，…，T_vi，…，T_vw送入第二生成器G₂中，生成同一语义空间的不同类别样本的动词融合特征

(2.5)将不同类别样本的名词融合特征

动词融合特征/>

和不同类别样本的剩余特征信息x'_i相加，得到不同类别样本的多重语义融合后的特征向量/>

步骤3)所述的第二多重语义融合网络f_θ的工作过程包括：

1)从元训练集的查询集取得样本的视觉特征x_Q时，没有对应的语义信息，因而直接使用训练好的第一生成器G₁，融合样本的视觉特征x_Q本身，得到伪名词语义信息融合特征

2)在进行动词语义信息融合前，将样本的视觉特征x_Q减去伪名词语义信息融合特征

得到剩余特征信息x'_Q：

3)使用训练好的第二生成器G₂，在剩余特征信息x'_Q上进行动词的语义信息融合，得到伪动词语义信息融合特征

4)将伪名词语义信息融合特征

伪动词语义信息融合特征/>

和剩余特征信息x'_Q相加，得到多重语义融合后的特征向量/>

本发明的一种面向人物交互的多重语义融合少样本分类方法，通过引入标签的语义信息生成具有判别性的局部特征，从而获得更具有语义特性的视觉表达。通过引入语义信息引导视觉特征将重心分别集中于“物体”和“动作”。本发明能够在样本缺乏的情况下，实现对复杂场景下人与物体关系的分类。通过将名词和动词的语义信息和视觉特征的融合，体现人物动作和物体的相关细节特征，表达了以人物为中心的视觉特征特异性，能够对有接触的人物交互和非接触的人物交互分类中表现良好。

附图说明

图1是本发明一种面向人物交互的多重语义融合少样本分类方法的流程图；

图2是本发明中第一多重语义融合网络的工作流程图；

图3是本发明中第二多重语义融合网络的工作流程图。

具体实施方式

下面结合实施例和附图对本发明的一种面向人物交互的多重语义融合少样本分类方法做出详细说明。

本发明的一种面向人物交互的多重语义融合少样本分类方法，是对少样本图像中的人物关系进行分类，其具体模型如下：

人物交互的相关数据集中，每张图像对应的标签通常是“动词+名词”的组合。首先依据名词划分为元训练集和元测试集，两个集合针对名词而言为不相交的集合。假设在训练阶段从元训练集的支持集中随机选出w个类别，每个类别给出由一个四元组{x_i,y_i,n_i,v_i}定义的数据，其中x_i是第i个类别的视觉特征，

是第i个类别的视觉特征的类别标签，n_i是第i个类别的视觉特征名词的文本语义特征，v_i是第i个类别的视觉特征动词的文本语义特征。训练阶段与支持集相对应类别的查询集给出一个二元组{x_Q,y_Q}，其中x_Q是元训练集中查询集随机选取的视觉特征，y_Q是元训练集中查询集随机选取的视觉特征的类别标签。

如图1所示，本发明的一种面向人物交互的多重语义融合少样本分类方法，包括如下步骤：

如图2所示，所述的第一多重语义融合网络g_θ的工作过程包括：

(2.1)人与物的相互关系(Human Object Interaction)的分类是比简单图像分类更为具有挑战性的一个任务。数据集中每张图像包含了“人物-动作-物体”的三元组。人物是人物交互图像分类的主要关注点，即三元组的主语，因此将分类的特异性锁定于“动词-名词”的组合。

由于标签文本的语义信息与视觉特征不在同一个空间，本发明在输入不同类别样本的视觉特征时，加入名词和动词的文本特征，分别使用编码器E₁和E₂，对第i类样本的动词和名词的语义信息n_i,v_i编码，分别得到第i类样本的名词编码信息T_ni和动词编码信息T_vi：

T_ni＝E₁(n_i) (1)

T_vi＝E₂(v_i) (2)；

/>

得到不同类别样本的剩余特征信息x'_i：

(2.5)将不同类别样本的名词融合特征

动词融合特征/>

最终经过融合语义特征和视觉特征的不同类别样本的多重语义融合后的特征向量

既包含了该类别的语义信息也保留该类别样本的视觉信息，在元学习的网络框架下可以实现更为有效的分类。

如图3所示，所述的第二多重语义融合网络f_θ的工作过程包括：

(3.1)从元训练集的查询集取得样本的视觉特征x_Q时，没有对应的语义信息，因而直接使用训练好的第一生成器G₁，融合样本的视觉特征x_Q本身，得到伪名词语义信息融合特征

(3.2)在进行动词语义信息融合前，将样本的视觉特征x_Q减去伪名词语义信息融合特征

得到剩余特征信息x'_Q：

(3.3)使用训练好的第二生成器G₂，在剩余特征信息x'_Q上进行动词的语义信息融合，得到伪动词语义信息融合特征

(3.4)将伪名词语义信息融合特征

伪动词语义信息融合特征/>

和剩余特征信息x'_Q相加，得到多重语义融合后的特征向量/>

和多重语义融合后的特征向量/>

按照如下公式计算属于各个类别的概率：

5)设定目标函数公式如下：

其中y_Q为查询集的视觉特征x_Q的真实标签；

和多重语义融合后的特征向量/>

按照公式(11)计算属于各个类别的概率，将计算得到的概率中最大的概率所对应的类别，作为查询集视觉特征的类别。/>