CN112016601B

CN112016601B - 基于知识图谱增强小样本视觉分类的网络模型构建方法

Info

Publication number: CN112016601B
Application number: CN202010823406.5A
Authority: CN
Inventors: 林欣; 朱泽阳; 叶加博; 李定邦
Original assignee: East China Normal University
Current assignee: East China Normal University
Priority date: 2020-08-17
Filing date: 2020-08-17
Publication date: 2022-08-05
Anticipated expiration: 2040-08-17
Also published as: CN112016601A

Abstract

本发明公开了一种基于知识图谱增强小样本视觉分类的网络模型构建方法，构建方法包括了知识图谱表示、特征提取、特征融合和图片分类。在给出类别的几张样例图片的情况下，从知识图谱中提取出该类别的语义特征，并将该语义特征与该类别图片的特征相结合来得到代表该类别的特征，最后采用余弦相似度来计算待分类图片与各个类别特征之间的相似度，相似度最高的类别即为待分类图片所属类别。本发明解决了人工智能技术无法被广泛应用于各个领域的问题；解决了应用人工智能技术的过程中依赖大型标注的数据的问题；实现了语义信息和图片信息相结合来提升视觉分类模型的性能。

Description

基于知识图谱增强小样本视觉分类的网络模型构建方法

技术领域

本发明涉及图片特征提取技术、知识图谱表示技术和特征融合技术，属于计算机视觉技术领域，尤其涉及一种基于知识图谱增强小样本视觉分类的网络模型构建方法。

背景技术

在互联网时代，人工智能已经被广泛应用于生活，比如自动驾驶、人脸识别、语音识别、Siri等等。人工智能促进了生产力提升，增加了系统的安全性并丰富了人类世界。当今人工智能的成功依赖于大量标注的数据集；在数据量大的情况下，人工智能可以通过统计的方法来得到大部分人的行为，进一步模仿人的行为进行操作。然而，对于某些领域来说，获取大型的标记数据集是昂贵的。因为它需要密集的人工劳动，甚至有时由于数据的稀缺性，想要构成大型数据集是不可能的。因此，对大数据的需求限制了人工智能的可使用性。然而，不难发现，人类能够通过极少的标注数据来学习新事物。比如大人给小朋友看一张“狗”的图片，并告知这张图片是“狗”，之后该小朋友便能从一堆图片中快速地找出所有“狗”的图片。这个例子暗示了当前人工智能还存在很大提升空间。为了解决这一问题，一项名为“小样本学习”的研究被提出。该项研究旨在模仿人类快速学习新东西的能力，需要人工智能模型在给出一张或者几张样例图片的条件下，便能从一堆待分类图片中分类出属于该图片类别的图片。具体而言，“小样本学习”任务包含两个数据集：样例集和待分类图片集。样例集包含了每个类别的标注图片。待分类图片集包含了待分类的图片。形式上，把包含N个样例的样例集表示为S＝{(x₁，y₁)，…，(x_N，y_N)}。其中，每个x_i表示的是一张图片，y_i表示图片x_i的所属类别。假设|{y₁，y₂，…，y_N}|＝K，如果每个类别给出了I个样例，那么这种“小样本学习”任务被称为K类别I样本学习。

目前存在两种主要的方法来解决“小样本学习”问题。一种是基于度量学习技术来实现的。该方法目的是在给出少量标注数据的情况下，对属于同一个类别的图片进行聚类。另一种方法是基于梯度的学习，侧重于学习如何通过几个梯度下降更新步骤快速学习新概念。这些方法都是在视觉模态的背景下进行的，在视觉模态中，用几幅图像甚至是一幅图像来学习新概念。然而，有些类别在视觉上是相似的。此外，由于缺乏数据，拍照角度和光度很容易导致模型不能准确地表示类和区分类别间的差异性。

发明内容

本发明的目的是针对现有人工智能技术的不足，而提供的一种基于知识图谱增强小样本视觉分类的网络模型构建方法，该方法通过残差网络来提取图片特征，并通过图卷积网络对知识图谱进行编码，得到类的语义特征。然后通过非参数化方法将图像特征与语义特征结合起来，形成类的表示。最后利用余弦函数计算每个融合特征与待分类图片特征之间的相似性，进一步对图像进行分类。

实现本发明目的的具体技术方案是：

一种基于知识图谱增强小样本视觉分类的网络模型构建方法，特点是该方法包括以下具体步骤：

步骤1：收集领域中所有标注图片的所属类别；

步骤2：提取知识图谱中的语义特征，具体包括：

2.1：采用有向图知识图谱Wordnet作为初始化的知识图谱；定义该知识图谱为g＝(V，R)，其中V和R分别表示图中节点的集合和边的集合；用三元组(v₁，r，v₂)的形式存储知识图谱，其中节点v₁和v₂间存在关系r，r表示上位词或下位词关系；

2.2：通过步骤1中收集到的类别，找到所述类别在知识图谱中对应的节点；

2.3：采用2-hop约束来对Wordnet进行裁剪，获取知识子图G；2-hop约束为：在子图中的任意两个节点间，若在两个节点间存在一条通路，那么这条通路上最多只能存在一个中间节点；

2.4：采用图卷积神经网络来获取经裁剪后的知识图谱中的语义信息；所述图卷积神经网络的卷积核为：

其中H^(l)表示第l层的输出，

是包含自循环的邻接矩阵，A表示邻接矩阵，I表示单位矩阵，

指的是节点度的对角矩阵，W^(l)表示第l层引入的可学习参数；采用预训练的GloVe模型来产生节点的初始化语义特征向量，即H⁽⁰⁾＝Vec，Vec表示节点的语义特征向量；通过迭代两次卷积核，得到子图中的语义特征

表示整个图卷积神经网络中需训练的参数W⁽⁰⁾和W⁽¹⁾，G表示经裁剪后的知识子图；

步骤3：将标注图片和待分类图片分别输入残差网络，输出标注图片和待分类图片的特征；

残差网络中包含4个残差模块，每个残差模块包括3层卷积层；残差模块中的激励函数采用RelU函数，卷积层采用3×3卷积层；输入残差网络中的图片维度为84×84；

步骤4：对属于同类别的所有标注图片，在经过步骤3后，将获得的图片特征进行求均值操作，得到的均值作为该类别的图片特征；设当前处理的类别为k，那么代表类别k的图片特征

S_k表示类别k中标注图片的集合，|S_k|表示标注图片集合中元素个数，(x_i，y_i)表示S_k中的某张标注图片x_i和对应的所属类别y_i，f_θ(·)表示步骤3中的残差网络，θ表示残差网络中可训练的参数；

步骤5：通过标注图片所属类别获得该类别在知识图谱中对应的语义特征；

步骤6：将类别的语义特征和类别的图片特征进行融合，得到该类别的融合特征；设当前处理的类别为k，那么类别k的融合特征

c_k表示类别k的图片特征，

表示类别k在知识图谱中的语义特征；

步骤7：计算待分类图片x_q的图片特征与每个类别的融合特征之间的余弦相似度，并进一步计算x_q在所有类别上的概率分布

d表示余弦相似度函数；

步骤8：取p(x_q)中最大概率对应的类别，作为待分类图片x_q的所属类别，实现对x_q进行分类。

本发明利用图片特征提取技术、知识图谱表示技术和多模态特征融合技术，做到模型简单易用并且性能卓越。解决了人工智能技术无法被广泛应用于各个领域的问题；解决了应用人工智能技术的过程中依赖大型标注的数据的问题；实现了语义信息和图片信息相结合来提升视觉分类模型的性能。

附图说明

图1为本发明构建基于知识图谱增强小样本视觉分类的网络模型的流程图；

图2为模型在图片分类任务中的流程图；

图3为残差网络的流程图；

图4为残差网络中残差模块的流程图。

具体实施方式

以下结合附图及实施例对本发明作进一步详细描述。

实施例

参阅图1，本发明提供了一种基于知识图谱增强小样本视觉分类的网络模型构建方法，具体构建步骤如下：

步骤一：收集并统计所有样例图片和对应的类别。假设当前需要对不同实体的图片进行分类，每种物品都有一张或者几张样例图片。当前总的类别有：鱼、狗、药瓶、屋顶和杯子。

步骤二：找到鱼、狗等类别在知识图谱中对应的节点，提取它们的语义特征。具内容包括：

2.1：采用语料库Wordnet作为初始化的知识图谱。定义该知识图谱为

其中V和R分别表示图中节点的集合和边的集合。知识图谱的存储形式为三元组(v₁，r，v₂)的形式，该三元组表示节点v₁和v₂间存在关系r，r表示上位词或下位词关系。例如(哺乳动物，下位词，狗)，(狗，上位词，哺乳动物)。

2.2：找到鱼、狗、药瓶、屋顶和杯子类别在知识图谱中对应的节点，将这些节点组成节点集合。基于节点集合，采用2-hop约束来对Wordnet进行裁剪，裁剪后的图称为知识子图G。1-hop约束为：收集与节点集合中节点存在边的节点，并将这些节点添加到节点集合中。2-hop约束的含义是重复操作两遍1-hop约束的步骤。最后，在Wordnet中，通过删除不在节点集合中的节点和连接被删除节点的所有边来实现裁剪。

2.3：采用图卷积神经网络来获取知识子图G中各个节点的语义特征。图卷积神经网络的卷积核为：

其中H^(l)表示图卷积神经网络第l层的输出，

指的是由节点度构成的对角矩阵，W^(l)表示在第l层中引入的可学习参数。对于H⁽⁰⁾，采用预训练的GloVe模型来产生初始化的语义特征向量，即H⁽⁰⁾＝Vec，Vec表示节点初始化的语义特征向量。通过迭代两次卷积核，得到知识子图G中的语义特征

表示整个图卷积神经网络中需训练的参数W⁽⁰⁾和W⁽¹⁾，G表示经裁剪后的知识图谱；

步骤三：样例图片通过残差网络得到图片特征。参阅图3，残差网络中包含4个残差模块和一个池化层。参阅图4，每个残差模块包括3层卷积层；残差模块中的激励函数采用Relu函数，卷积层采用3×3卷积层；输入残差网络中的图片维度为84×84。当表示一个类别的样例图片有多张时，需要对这些样例图片特征进行求均值操作，进一步得到表示该类别的图片特征。设当前处理的类别为k，那么代表类别k的图片特征

S_k表示类别k中样例图片的集合，|S_k|表示类别k中样例图片的张数，(x_i，y_i)表示S_k中的某张样例图片x_i和对应的所属类别y_i，f_θ(·)表示残差网络，θ表示残差网络中可训练的参数。

步骤四：由步骤2和步骤3，分别获得了类别的语义特征和图片特征。接下来对同类别的语义特征和图片特征进行融合，得到该类别的融合特征，即为类别的代表性特征。设当前处理的类别为k，那么类别k的融合特征

c_k表示类别k的图片特征，

表示类别k在知识图谱中的语义特征。

通过上述四个步骤，获得了能够代表每个类别的特征。参阅图2，通过计算待分类图片x_q的图片特征与代表每个类别的特征之间的余弦相似度，进一步通过Softmax函数计算x_q在所有类别上的概率分布。假设任意类别i，则x_q属于类别i的概率：

d表示余弦相似度函数。取p(x_q)中最大概率对应的类别，作为待分类图片x_q的所属类别，实现对x_q进行分类。