CN111881997B

CN111881997B - 一种基于显著性的多模态小样本学习方法

Info

Publication number: CN111881997B
Application number: CN202010768906.3A
Authority: CN
Inventors: 翁仲铭; 陶文源
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2020-08-03
Filing date: 2020-08-03
Publication date: 2022-04-19
Anticipated expiration: 2040-08-03
Also published as: CN111881997A

Abstract

本发明公开一种基于显著性的多模态小样本学习方法，包括多模态结合和标签传播两部分，具体如下：多模态结合过程中，首先通过预训练好的显著性检测网络对支持集的样本图像进行显著图提取，分离出样本图像的前景和背景；其次通过GloVe模型获取支持集样本图像前景、背景区域语义的单词嵌入，作为语义信息辅助视觉信息分类；最后对于所获取支持集样本图像的前景、背景与语义信息，分别通过模态混合机制进行自适应结合，得到具有多模态信息的样本特征表示；标签传播过程中，首先将模态结合后的支持集样本与查询集样本根据K近邻方法进行图构造；最终通过带有标签的支持集样本预测没有标签的查询集样本的类别。

Description

一种基于显著性的多模态小样本学习方法

技术领域

本发明涉及一种小样本图像分类的方法，具体涉及一种基于显著性多模态数据处理的小样本学习方法。

背景技术

随着卷积神经网络的提出，深度学习在图像分类，语音识别和物体检测等方面取得了突破进展，然而，这些研究通常都需要大量带有标签的数据进行训练，例如ImageNet等，但在现实生活中，想要获取到大量的数据是十分困难的，例如濒危物种的照片，医学图像等，严重限制了模型在现实世界中的适用性，图像的标注也会耗费大量的人力财力，而人类能够通过极少量的样本识别一个新物体，通过先前学习到的知识，来帮助快速学习新的内容，将新概念整合到现有的概念网络中来学习新概念。所以提出了小样本学习，训练少量带有标签的数据就可以适应于新的看不见的类。

目前对于小样本学习研究主要有以下三个方面：度量学习，对样本间距离分布进行建模，使得属于同类样本靠近，异类样本远离，通常采用欧氏距离，余弦距离计算。例如匹配网络给定支持集，计算查询集中样本与支持集中每一个样本点之间的余弦距离，使用注意力机制对数据样本进行相似性度量，进而对样本进行分类。原型网络则是通过将每个类的平均值作为其对应类的原型表示，通过计算查询集样本点与原型表示之间的欧氏距离来学习度量空间；元学习，也叫做学会学习，利用以往的知识经验来指导新任务的学习，使模型具有学会学习的能力，利用优化过的元学习分类器，达到仅用少量数据就能够快速适应新任务的目的。Model-Agnostic Meta-Learning(MAML)中所有任务共享初始参数θ，学习一个好的初始化参数，通过进行一次或多次的梯度调整，以进行小样本学习；数据增强，通过增加样本数量来进行学习。LaSO受到数学数据集交并补启发，将多标签图片进行对象之间的交并补操作，通过生成更多样本来进行小样本学习。

小样本学习在数据样本获取方面受到了限制，如果仍使用现有的深度学习网络很容易导致过拟合，且在视觉方面获取到的信息很少，通过其他模态信息的辅助，可以弥补视觉信息缺乏的问题。人其实是一个多模态学习的总和，人类学习识别物体时不仅仅是从单一的方面去获取信息，而是从多个信息源获取信息，例如视觉，听觉等，观察物体时也总会关注突出的部分。我们可以通过全身为亮丽的白色，下腹为白色，枕部有一绒黑色斑等语义信息从鸟中识别出黑枕王鹟，Linda等论文也证实了语言可以帮助婴幼儿学习新的视觉对象，这表明在少样本图像分类的情形下，文本语义可以提供强有力的信息。互联网上已广泛提供了多模式数据，例如语音，视频，图像，文本等，这是促进人工智能理解现实世界的基本组成部分，通过不同模态的信息结合可以缓解视觉信息受限的问题。人类视觉系统在观察自然场景时具有快速搜索和定位感兴趣目标的能力，如何从图像中获得重要信息，也是计算机视觉领域的关键问题。

发明内容

本发明的目的是为了克服现有技术中的不足，提供一种基于显著性的多模态小样本学习方法，通过视觉和语义两种模态相结合，模仿人类从不同信息源获取信息，在视觉信息受限制时，利用语义信息辅助分类。分离图像前景，背景部分，使得更加关注前景部分，获得图像中最丰富的信息，提高图像分类性能。在分类部分，利用标签传播代替简单的度量方式，利用数据流形结构将支持集和查询集样本进行图构造，利用构造后的图预测查询集样本类别，实现在数据样本短缺，形式单一的情况下能够很好的识别物体。

本发明的目的是通过以下技术方案实现的：

一种基于显著性的多模态小样本学习方法，包括多模态结合和标签传播两部分，具体如下：

多模态结合过程中，首先通过预训练好的显著性检测网络对支持集的样本图像进行显著图提取，分离出样本图像的前景和背景；

其次通过GloVe模型获取支持集样本图像前景、背景区域语义的单词嵌入，作为语义信息辅助视觉信息分类；

最后对于所获取支持集样本图像的前景、背景与语义信息，分别通过模态混合机制进行自适应结合，将前景部分与前景语义相结合，背景部分与背景语义相结合，实现视觉与语义模态的结合，得到具有多模态信息的样本特征表示；

标签传播过程中，首先将模态结合后的支持集样本与查询集样本根据K近邻方法进行图构造；最终通过带有标签的支持集样本预测没有标签的查询集样本的类别。

进一步的，所述显著性检测网络为F3Net。

与现有技术相比，本发明的技术方案所带来的有益效果是：

1.本发明面向多模态小样本学习，从人类视觉注意力角度入手，提出了基于显著性的多模态小样本学习，更关注于图像目标部分，符合人的视觉认知需求，通过多模态视觉与语义信息的结合，丰富图像的特征表示，语义信息的加成也能够帮助判别易混淆的数据。

2.本发明通过分离图像前景、背景，更侧重于前景部分，模拟人的视觉系统，采用多模态结合，图构造以及标签传播的方式，在少量样本数据的支持下，能够对新类别样本数据进行快速分类。

3.实现了将显著图提取应用到多模态的小样本学习中。现有的多模态小样本结合方法从整张图像入手进行处理，忽略了图像中信息最丰富的地方，关注到图像中的目标物体，是分类的关键步骤，本发明通过显著性检测获得显著图模拟人类对于图像中最感兴趣区域的关注，加强了图像信息的可用率，符合人的视觉认知需求。

4.图像不同区域进行语义和视觉的多模态信息结合，可以加强对图像的描述能力，增强网络的分类能力。视觉信息包含有丰富的信息，具有判别力，但视觉信息稀缺时或难以分辨时，语义信息通过先验知识和上下文能够很好的加以区分，通过语义信息与视觉信息的结合，可以形成一种语义与视觉之间的联系，进而可以判断图像的合理性，判别易混淆的图像。

5.实现了将标签传播应用于多模态小样本学习中，采用转导标签传播可以缓解数据量少的问题，利用数据的流形结构进行标签传播，提升分类效果。

6.有效解决了现实生活中数据量缺乏的问题，通过少量样本进行训练，也能够达到很好的分类效果，使模型在实际情况中应用更广泛。

附图说明

图1为本发明实施例中基于显著性的多模态小样本学习方法的网络框架示意图。

图2为本发明中显著性检测网络检测结果的对比图。

图3为本发明实施例中基于显著性的多模态小样本学习方法的流程示意图。

具体实施方式

以下结合附图和具体实施例对本发明作进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明提供的基于显著性的多模态小样本学习方法，主要是在传统的小样本分类基础上加入了显著性图像提取，多模态信息结合与标签传播操作。首先通过显著性检测网络获取图像的显著图从而得到图像的前景、背景区域，然后通过多模态混合模型将语义信息与视觉信息相结合，利用语义信息辅助视觉信息进行分类，最后利用数据之间的流形结构，对数据样本进行图构造，通过标签传播进行小样本数据下的学习分类。

关于显著性检测：人在面对一个场景或一张照片时，会自动的关注感兴趣区域，这些区域能够很好的展现出图像所要表达的重要内容，例如鱼在水中游，人会更关注于鱼，其次关注鱼在水中，而不是在天上，人们感兴趣区域被称为显著性区域。

将待处理的支持集数据作为输入，输入到显著性检测网络中，获得相对应原图的显著图，该图为每个像素分配范围为[0,1]之间的相关性分数，1表示白色，0表示黑色。如图2所示，白色部分为图像前景部分，为人类感兴趣区域，黑色部分为背景，为次要关注区域。图中共比较了四种显著性网络检测结果，本实施例中选取效果最好的F3Net作为本技术的显著性检测网络。

本实施例中多模态小样本学习方法具体步骤如下，见图3：

1.多模态结合

首先，将给定数据集D划分为训练集D_train和测试集D_test,D_train和D_test类集不相交。

本实施例中采用N-way K-shot方式选取小样本的训练数据，首先从D_train中选取N个类别，再从每个类别中抽取K个样本数据作为支持集S＝{(x₁,y₁),(x₂,y₂),…,(x_N×K,y_N×K)}，接下来从相同的N个类别中选取与支持集不同的T个样本数据做为查询集

将原始图像I输入显著性检测网络，通过显著性检测网络h得到对应的显著图h(I)，从而可以得到图像的前景，背景：

F_I＝I⊙h(I) (1)

B_I＝I⊙(1-h(I)) (2)

其中⊙为Hadamart product(哈达玛积，矩阵乘法，矩阵之间逐元素相乘)。F_I表示图像的前景部分，B_I表示图像的背景部分。

具体的，网络架构如图1所示，黑色实线方框表示模态混合网络，支持集样本通过一个显著性检测网络h分离图像前景、背景，之后分别与前景、背景相对应语义信息相结合，再将结合后的前景、背景多模态内容进行自适应混合以丰富图像信息，得到新的图像多模态信息表示。右下角黑色虚线方框将模态结合后的支持集样本与查询集样本进行图构造，利用标签传播预测查询集样本的类别，最后通过交叉熵损失函数计算loss值更新网络参数。f，g，u均为卷积神经网络。

通过卷积神经网络f提取前景、背景图像的特征，即f(F_I)，f(B_I)。该卷积神经网络f使用ResNet-12对图像进行特征提取，获得512维向量输出。

对于小样本学习在数据获取方面受到了限制，即可以捕获的视觉信息很少，通过语义信息的描述可以缓解这个问题。语义信息作为辅助信息帮助视觉信息进行小样本学习分类。本实施例通过GloVe模型获取图像语义信息的词嵌入，GloVe模型是一种基于大型文本语料库中单词与单词共现统计的无监督方法，它可以把一个单词表达成一个由实数组成的向量。通过对图像前景、背景分别进行语义表示，前景语义为图像所属类别的类别标签，例如狗，汽车等；背景语义为此类图像中目标物体所处的大体背景，如狗在地上，那么大地即为狗这一类的普遍背景语义表示。本实施例将前景语义、背景语义分别通过GloVe模型嵌入提取前景、背景的单词嵌入，记为e_f，e_b。具体采用在840B_300d上训练的Common Crawl版本，嵌入维度为300。

通过神经网络g提取前景、背景的语义特征，网络是包含有隐藏层的神经网络，将语义特征输出为512维的特征表示。

对于视觉信息和语义信息两种模态，通过凸组合的方式将两个模态进行结合，对于每一张图像新的前景、背景混合信息如下：

F_c＝λ_f·f(F_I)+(1-λ_f)·w_f (3)

B_c＝λ_b·f(B_I)+(1-λ_b)·w_b (4)

其中λ为自适应混合参数，λ_f和λ_b分别代表对于前景、背景的自适应参数，用来调节视觉与语义两种模态的权重。w_f＝g(e_f)为所获得的前景单词嵌入e_f经过神经网络g得到的前景嵌入特征，背景语义特征为w_b＝g(e_b)。λ自适应混合参数由以下公式计算：

其中u神经网络为一个包含300个隐藏单元的隐藏层，将输出变换为一个标量。

为了贴合人类视觉注意力习惯，本实施例更加侧重于对前景部分的学习，将混合模态的前景、背景信息进行自适应结合，公式如下：

P_c＝β·F_c+(1-β)·B_c (7)

其中β为自适应参数，同样由u神经网络获得，这样就获得了具有多模态信息的新图像表示。

2.标签传播

对于小样本学习而言，数据缺乏是基本的问题，本实施例采用转导标签传播方式通过将查询集全部输入网络与支持集样本进行图构造，缓解数据量少的问题。主要思想是从已标记的节点的标签信息来预测未标记的节点的标签信息。

通过模态混合网络获得了支持集样本的视觉和语义混合信息P_c，将查询集样本同样通过网络f提取样本特征Q_c，获得每一个样本的特征表示。

将支持集和查询集样本合并S∪Q，即C＝P_c∪Q_c。

采用高斯相似函数的变体计算任意两个样本之间的相似度W_i,j。公式如下：

其中，i，j表示不同的两个样本，i，j＝1，…，C.C＝N×K+T。σ表示逐点之间的比例参数。d是距离度量，表示两个样本之间的距离。(例如欧氏距离，余弦距离等)。

采用K近邻的方式选取顶点数进行图的构造，对所选得的W_i,j进行拉普拉斯归一化，S＝D^-1/2WD^-1/2，D为对角矩阵。

构造好图之后，标签信息就可以在图上面从有标注数据依次传播到无标注数据，推算查询集样本所在类别，迭代公式如下：

F_t+1＝αSF_t+(1-α)Y (9)

其中，F_t为时间t时的预测标签，S为归一化之后的图权重，α∈(0,1)，Y为初始标签，I为单位矩阵。等式右边的式子可以分为两个部分，第一个部分表示每个样本点从其邻域点中得到的标签信息，第二个部分表示每个样本需要保留其最原始的标签信息。

通过式(9)的推导，可以得到F^*的非迭代形式，这样不需要进行迭代就可以进行求解。公式如下：

F^*＝(I-αS)^-1Y (10)

其中，F^*为所求得的预测标签。

通过计算交叉熵损失函数(CrossEntropy Loss)来进行梯度更新，反向传播更新网络参数。首先通过softmax函数将F^*转化为概率分数：

其中，p_i表示第i个实例最终的预测标签。损失函数Loss计算公式如下：

其中，y_i为x_i的真实标签，δ(a)是一个指示函数，a为真则δ(a)＝1，否则为0。不断迭代，通过降低loss更新网络参数，来达到训练的目的。

综上，本发明将显著性检测，多模态融合与标签传播应用于小样本学习中，来解决现实生活中样本数量受限制时的图像识别问题。本发明以miniImagenet数据集为基础，获取原图的显著图，类别标签，背景语义。通过原图与显著图的计算得到前景与背景，f卷积神经网络采用ResNet-12对图像提取特征，语义特征提取网络采用包含有300个神经元的神经网络，通过模态混合网络进行语义信息和视觉信息的结合，之后通过标签传播对图像进行分类。最佳训练设备采用具有NVIDIA显卡的GPU处理器，能够加快训练速度，迭代30000次，批训练为2，得到优化稳定的模型。

本发明并不限于上文描述的实施方式。以上对具体实施方式的描述旨在描述和说明本发明的技术方案，上述的具体实施方式仅仅是示意性的，并不是限制性的。在不脱离本发明宗旨和权利要求所保护的范围情况下，本领域的普通技术人员在本发明的启示下还可做出很多形式的具体变换，这些均属于本发明的保护范围之内。

Claims

1.一种基于显著性的多模态小样本学习方法，其特征在于，包括多模态结合和标签传播两部分，具体如下：

具体的，对于视觉信息和语义信息两种模态，通过凸组合的方式将两个模态进行结合，对于每一张图像新的前景混合信息F_c、背景混合信息B_c如下：

F_c＝λ_f·f(F_I)+(1-λ_f)·w_f (3)

B_c＝λ_b·f(B_I)+(1-λ_b)·w_b (4)

其中，F_I表示图像的前景部分，B_I表示图像的背景部分；f为神经网络；λ为自适应混合参数，λ_f和λ_b分别代表对于前景、背景的自适应参数，用来调节视觉与语义两种模态的权重；w_f＝g(e_f)为所获得的前景单词嵌入e_f经过神经网络g得到的前景嵌入特征，背景语义特征为w_b＝g(e_b)；λ自适应混合参数由以下公式计算：

其中u神经网络为一个包含300个隐藏单元的隐藏层，将输出变换为一个标量；

将混合模态的前景、背景信息进行自适应结合，公式如下：

P_c＝β·F_c+(1-β)·B_c (7)

其中β为自适应参数，同样由u神经网络获得，最终获得具有多模态信息的新图像表示；

2.根据权利要求1所述一种基于显著性的多模态小样本学习方法，其特征在于，所述显著性检测网络为F3Net。