CN110222771B

CN110222771B - 一种零样本图片的类别识别方法

Info

Publication number: CN110222771B
Application number: CN201910496585.3A
Authority: CN
Inventors: 杨阳; 汪政; 位纪伟
Original assignee: Chengdu Aohaichuan Technology Co ltd
Current assignee: Chengdu Aohaichuan Technology Co ltd
Priority date: 2019-06-10
Filing date: 2019-06-10
Publication date: 2023-03-10
Anticipated expiration: 2039-06-10
Also published as: CN110222771A

Abstract

本发明公开了一种零样本图片的类别识别方法。依据人类的知识构建一个知识图谱来表示类别之间的显式关系，避免了在语义空间内学习隐式关系，类别之间的关系模糊、不确定的问题，同时，构造并训练一残差图卷积网络用于在类别之间迁移知识，采用内积值最大进行类别识别，这样提高了零样本图片的类别识别的准确度。

Description

一种零样本图片的类别识别方法

技术领域

本发明属于图片识别技术领域，更为具体地讲，涉及一种零样本图片的类别识别方法。

背景技术

传统的图片类别识别方法需要大量的标注数据来训练，而且训练得到的分类器只能识别参与训练图片的类别，对于新类别图片无能为力。但是，图片的标注过程是费时的，昂贵的，在现实中很难获取到大量的标注样本。

零样本图片的类别识别的目标是识别未在训练集中出现的图片的类别。现有零样本图片的类别识别方法主要分为两种类型。

第一种类型是学习一个公共的语义空间，在语义空间内将在训练集上获得的类别知识迁移到未参与训练的类别。通常基于语义信息来构造公共的语义空间。常用的语义信息有属性信息和词向量信息。基于语义信息的方法通过学习一个映射矩阵将图片的视觉特征和属性/词向量等信息映射到一个公共的空间内，使得相同类的视觉特征和属性/词向量等相互靠近，不同类相互远离。通过在可见类和不可见类之间共享映射矩阵，从而达到零样本图片的类别识别目的。

第二种类型是为新类学习一个分类器。这种方法首先借助于属性/词向量等信息来学习类别之间的隐式关系，基于学习到的类别关系，为新类生成一个分类器。

现有的零样本图片的类别识别方法大多基于语义信息(属性/词向量)来学习类别之间的隐式关系，基于学习到的隐式关系来迁移类别知识，这样存在以下不足：

(1)、属性的标注昂贵且费时，基于属性的方法不适用于大规模的零样本图片的类别识别；

(2)、词向量信息是从大型语料库中学习到的，具有很大的误差性，通过词向量信息来学习类别之间的关系通常不准确；

(3)、借助于语义空间来学习类别之间的隐式关系，然而，类别之间的关系是模糊的，不确定的，同时，在语义空间内学习类别之间的隐式关系是非常困难的，导致零样本图片的识别精度很低。

发明内容

本发明的目的在于克服现有技术的不足，提供一种零样本图片的类别识别方法，以新构建的知识图谱来表征图片类别之间的显式关系，避免了在语义空间内学习隐式关系，同时，以新构造的残差图卷积网络，用于类别之间迁移知识，从而提高了零样本图片的类别识别准确度。

为实现上述发明目的，本发明零样本图片的类别识别方法，其特征在于，包括以下步骤：

(1)、构建一知识图谱来表示图片类别之间的显式关系

1.1)、构造一个图，图中含有与WordNet中类别个数相同的节点，图中每个节点代表一个类别，若两个类别在WordNet中有关系，在图中将该对应的节点用边连接，所有边的权重为1；

每个类别行列放置，在图中，如两个类别的边的权重为1，则将对应的行列位置设置为1，否则，设置为0，这样得到邻接矩阵A；

1.2)、获取每一个类别名称的词向量，然后计算词向量之间的距离值，每个词向量按照步骤1.1)中各自类别对应的位置放置，将每个两个词向量之间的距离值置于该两个词向量对应的行列位置，得到距离矩阵；

在距离矩阵中，对每一行选取K个最小的距离值并记录下其对应的类别；

构造一K近邻图，K近邻图中每个节点代表一个类别，判断选取的K个最小的距离值是否小于给定的阈值，若某一最小距离值小于阈值且不为0，则在K近邻图中，将该最小距离值对应的类别与该行所对应的类别连接起来，若大于阈值则不连接；

每个类别行列放置，在K近邻图中，如两个类别的边的权重为1，则将对应的行列位置设置为1，否则，设置为0，这样得到K近邻图的邻接矩阵B；

1.3)、将步骤1.2)得到的K近邻图的邻接矩阵B和步骤1.1)构造的图的邻接矩阵A直接相加，得到一个知识图谱的邻接矩阵C＝A+B；

(2)、构造了一个类别之间迁移知识的残差图卷积网络

所述残差图卷积网络包含两个模块即恒等映射连接模块和映射连接模块，其中：

恒等映射连接模块将前面的图卷积层直接与后面的图卷积层逐元素相加，其公式可以定义如下：

在公式(1)中，X_in为所有类别名称的词向量按行放置构成的词向量输入特征矩阵(词向量为行向量)，X’_out为词向量输出特征矩阵，

为知识图谱的邻接矩阵C的正则化版本，

为恒等映射跳跃的图卷积层，通常为一到两层，

的维度与词向量输入特征矩阵X_in的维度相同即具有相同的行列数；

映射连接模块将恒等映射连接模块输出的词向量输出特征矩阵X’_out作为输入进行连接，得到词向量输出特征矩阵X_out，其公式可以定义如下：

在公式(2)，

为映射图卷积层，其维度不同于词向量输出特征矩阵X’_out，

为线性映射层，使词向量输出特征矩阵X’_out变换到映射图卷积层

相同的维度，W为需要学习的参数；

(3)、对残差图卷积网络进行半监督方式的训练

将残差图卷积网络的输出即词向量输出特征矩阵X_out的每一行作为与词向量输入特征矩阵X_in每一行对应类别的预测分类特征向量，训练集中图片的真实分类特征向量与该图片类别对应的预测分类特征向量进行比较，采用均方误差函数作为损失函数对对残差图卷积网络进行训练，其中，均方误差函数为：

其中，Loss表示损失值，M表示训练集中图片类别的个数，小于所有类别的个数N，f_j表示第j个类别预测的分类特征向量(分类器)，

表示第j个类别真实的分类特征向量(分类器)；

(4)、零样本图片的识别

4.1)、对一张给定的新图片，提取其视觉特征V，视觉特征V为一行向量；

4.2)、将视觉特征与残差图卷积网络输出的每一个预测特征向量计算内积值O_j：

O_j＝f_j·V^T,j＝1,2,....,N

其中，T表示转置；

4.3)、对内积值进行排序，内积值最大的预测特征向量所对应的类别即是该图片的类别。

本发明的目的是这样实现的。

为了更好的表征类别之间的关系，本发明零样本图片的类别识别方法依据人类的知识构建一个知识图谱来表示类别之间的显式关系，避免了在语义空间内学习隐式关系，类别之间的关系模糊、不确定的问题，同时，构造并训练一残差图卷积网络用于在类别之间迁移知识，采用内积值最大进行类别识别，这样提高了零样本图片的类别识别的准确度。

附图说明

图1是本发明零样本图片的类别识别方法一种具体实施方式流程图；

图2是基于WordNet词库构造图与构造的知识图谱一具体实例图；

图3是残差图卷积网络的结构示意图；

图4是零样本图片的类别识别示意图。

具体实施方式

下面结合附图对本发明的具体实施方式进行描述，以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是，在以下的描述中，当已知功能和设计的详细描述也许会淡化本发明的主要内容时，这些描述在这里将被忽略。

图1是本发明零样本图片的类别识别方法一种具体实施方式流程图。

在本实施例中，如图1所示，本发明零样本图片的类别识别方包括以下步骤：

步骤S1：构建一知识图谱来表示图片类别之间的显示关系

为了更好的表征图片类别之间的关系，本发明依据人类的知识构建一个知识图谱来表示图片类别之间的显式关系。在本实施例中，从WordNet词库中提取每一类别(总计32324类别，即N＝32324)的名称和连接关系来构造知识图谱。

步骤S1.1：构造一个图，图中含有与WordNet词库中类别个数相同的节点，图中每个节点代表一个类别，若两个类别有关系，在图中将该对应的节点用边连接，所有边的权重为1。

在本实施例中，根据WordNet词库构造的图如图2(a)所示。Domestic cat(家猫)包括Persian cat(波斯猫)以及Angora cat(安哥拉猫)，因此将Domestic cat与Persiancat、Angora cat连接，Wild cat包括Jungle cat(丛林猫)，因此，将Wild cat与Jungle cat连接起来。

每个类别行列放置，在图中，如两个类别的边的权重为1，则将对应的行列位置设置为1，否则，设置为0，这样得到邻接矩阵A。

步骤S1.2：通过GloVe模型获取每一个类别名称的词向量，然后计算词向量之间的距离值，每个词向量按照步骤步骤S1.1中各自类别对应的位置放置，将每个两个词向量之间的距离值置于该两个词向量对应的行列位置，得到距离矩阵。

在距离矩阵中，对每一行选取K个最小的距离值并记录下其对应的类别。

构造一K近邻图，K近邻图中每个节点代表一个类别，判断选取的K个最小的距离值是否小于给定的阈值α(0.5)，若某一最小距离值小于阈值α且不为0(为0的是该类别本身，不用连接)，则在K近邻图中，将该最小距离值对应的类别与该行所对应的类别连接起来，若大于阈值α则不连接。

对多个K值进行对比实验，本实施例中，选定K＝2，即将每一类别与除自身外最近的类别相连接。在本实施例中，将K近邻图与根据WordNet词库构造的图(图2(a))进行合并，得到新的知识图谱，如图2(b)所示，其中，虚线是根据K值得到的类别连接，即Tiger与Jungle cat，Cat与Domestic连接。

每个类别行列放置，在K近邻图中，如两个类别的边的权重为1，则将对应的行列位置设置为1，否则，设置为0，这样得到K近邻图的邻接矩阵B。

步骤S1.3：将步骤S1.2得到的K近邻图的邻接矩阵B和步骤S1.2构造的图的邻接矩阵A直接相加，得到一个知识图谱的邻接矩阵C＝A+B。

新的知识图谱不仅包含人类先验知识，而且包含类别之间的语义关系，从而能更准确的表示类别之间的关系。

其算法流程图如下：

步骤S2：构造了一个类别之间迁移知识的残差图卷积网络

在本实施例中，如图3所示，所述残差图卷积网络包含两个模块即恒等映射连接模块和映射连接模块，其中：

为知识图谱的邻接矩阵C的正则化版本，

为恒等映射跳跃的图卷积层，通常为一到两层，

的维度与词向量输入特征矩阵X_in的维度相同即具有相同的行列数。

图3中，为了简单起见，类别分为4类，所有类别名称的词向量x₁,x₂,x₃,x₄(维度为d₀)转换为d₁＝1024维度的特征向量，恒等映射跳跃的图卷积层为两层，其维度d₂、d₃均为1024。

在公式(2)，

相同的维度，W为需要学习的参数。

图3中，映射图卷积层为两层，其维度d₄、d₅分别为1024、512，这样需要线性映射层

将特征矩阵X’_out变换到映射图卷积层

相同的维度即d＝512。

步骤S3：对残差图卷积网络进行半监督方式的训练

将残差图卷积网络输出即词向量输出特征矩阵X_out的每一行作为词向量输入特征矩阵X_in每一行对应类别的预测分类特征向量，训练集中图片的真实分类特征向量与该图片类别对应的预测分类特征向量进行比较，采用均方误差函数作为损失函数对对残差图卷积网络进行训练，其中，均方误差函数为：

表示第j个类别真实的分类特征向量(分类器)。

在本实施例中，如图3所示，只有两个类别即第1、4类图片对应类别的真实分类特征向量。其他两个类别不进行训练，因此是半监督方式的训练。

步骤S4：零样本图片的类别识别

在本实施例中，如图4所示，零样本图片的类别识别包括以下步骤：

步骤S4.1：对一张给定的新图片，采用预训练的残差网络即计算类别的真实分类特征向量时提取图片视觉特征的残差网络，提取其视觉特征V，视觉特征V为一行向量；

步骤S4.2：将视觉特征与残差图卷积网络输出的每一个预测特征向量计算内积值O_j：

O_j＝f_j·V^T,j＝1,2,....,N

其中，T表示转置；

步骤S4.3：对内积值进行排序，内积值最大的预测特征向量所对应的类别即是该图片的类别。

实例

采用Hit@K指标来评估我们的模型。Hit@k指模型返回的前k个结果中有正确标签的图片所占的比例，是最常用的分类评估方法。在本实例中，k分别为1、2、5、10、20。

在大规模图片数据集ImageNet 2011 21K数据集上测试本发明。该数据集包含21841个类别，选取1000类为训练集(ImageNet 2012 1K)，其余的20841类为测试集。将测试集分为三个子集，两跳(2-hops)，三跳(3-hops)以及所有(All)。两跳表示测试集数据与训练集最多相隔两个节点，三跳表示测试集数据与训练集最多相隔三个节点，所有包含ImageNet 2011 21K数据集中所有的类别(20841类)。在测试时，分两种设定分别测试，第一种是候选类不包括训练类，第二种更广义的设定为候选类包含训练类。两种设定下的测试结果如表1、2所示。

表1

表2

从表1、表2可以看出，本发明在所有的测试集上均优于现有的方法。

在2-hops数据集上，本发明在Hit@1上比之前最优的方法提升了4.58％。本发明在2-hops数据集上Hit@20精度达到78.62。在所有度量方式上均优于现有方法即提高了零样本图片的类别识别准确度。

尽管上面对本发明说明性的具体实施方式进行了描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。