CN109492750B

CN109492750B - 基于卷积神经网络和因素空间的零样本图像分类方法

Info

Publication number: CN109492750B
Application number: CN201811280725.5A
Authority: CN
Inventors: 程奇峰; 代京; 李旗挺; 雍颖琼; 王振亚; 袁本立; 王琳娜; 宋盛菊; 阳佳; 张宏江; 刘冬; 杜立超; 康磊晶; 李一帆; 宁学
Original assignee: China Academy of Launch Vehicle Technology CALT
Current assignee: China Academy of Launch Vehicle Technology CALT
Priority date: 2018-10-30
Filing date: 2018-10-30
Publication date: 2020-11-20
Anticipated expiration: 2038-10-30
Also published as: CN109492750A

Abstract

本发明提出一种基于卷积神经网络和因素空间的零样本图像分类方法及系统，构建一个统一的零样本分类神经网络，首先利用一个经典卷积神经网络提取数据集中的图像特征，作为神经网络的输入；使用因素压减技术降低已知因素的维度，并将已知因素和潜在因素嵌入到网络中，作为中间层共同决定最终的分类结果；该网络实现了从图像输入到最终的类别输出。训练零样本分类网络，迭代确定网络模型参数。利用零样本分类神经网络对图像进行识别，完成零样本图像的分类。本发明用一个卷积神经网络模型统一处理了视觉空间、因素空间和类别空间之间的关系，解决了特定的线性或非线性函数表达泛化能力不强的问题，把作为辅助知识的因素嵌入到网络中，易于理解、训练和使用。

Description

基于卷积神经网络和因素空间的零样本图像分类方法

技术领域

本发明涉及一种基于卷积神经网络和因素空间的零样本图像分类方法及系统，属于图像识别技术领域。

背景技术

在大规模可用数据集的支撑下，计算机视觉中的物体识别算法近几年来取得了突破性的进展。但是人工收集和标注数据是一项十分耗时耗力的工作，特别是对于一些罕见物体的图像或者相似物体的分类中，需要专家来区分不同的类别。在没有训练数据的情况下，一般的方法很难进行正确识别，这时的视觉识别问题通常叫做零样本分类或者零样本学习。

零样本分类问题中，训练集中都是有类别标签标注的图像数据(又叫可见类)，测试集中有部分数据并未出现在训练集中(又叫不可见类)，但是却同样要进行这些不可见类物体的识别。例如，模型在“马”、“牛”等类别上训练过，因此模型能够识别“马”、“牛”的图片，当模型遇到“象”这个新类别时，零样本分类也要能够识别。在没有任何图像训练样本的情况下，零样本分类通常借助辅助知识空间来关联图像视觉空间和类别空间，这些辅助知识可以是词向量、文本描述、语义向量等。辅助知识空间作为一个视觉空间和类别空间的中间层、公共空间，分别与视觉空间和类别空间构成一个不同的映射，从而实现知识的共享和迁移。比如，通过语义向量标识的辅助知识实现类别描述，可以将可见类与不可见类联系起来，语义向量作为图像与类别标签之间的中间层。

在利用辅助知识获取合适的类别描述后，现有的零样本分类研究主要集中在：建立合适的模型，用来表达辅助知识空间与图像视觉空间、辅助知识空间与类别空间的关系。现有技术通常通过假定特定的线性或非线性函数来表达这些模型，这种特定线性或非线性函数的表达能力有限，泛化能力较弱，对于不同的零样本分类问题需要研究人员去尝试使用不同的线性或非线性函数。

发明内容

本发明的目的在于：克服现有技术的不足，提出一种基于卷积神经网络和因素空间的零样本图像分类方法及系统，建立了一个统一的卷积神经网络实现从图像输入到最终的类别输出，作为辅助知识的已知因素被嵌入在网络中间层、作为辅助分类器使用，而且还同时考虑了潜在因素。此时模型全部由神经网络来表达和训练，泛化能力很强。

为实现上述目的，本发明采用的具体方案为：

一种基于卷积神经网络和因素空间的零样本图像分类方法，步骤如下：

(1)构建零样本分类神经网络；

(2)对所述零样本分类神经网络进行训练，确定网络模型参数；

(3)通过所述零样本分类神经网络对零样本图像进行识别，完成零样本图像的分类。

所述零样本是指在神经网络训练中，部分待识别的图像没有样本。

所述步骤(1)构建零样本分类神经网络，具体为：

(1.1)将m类训练集trainX的图像输入经典卷积网络的特征提取层，对图像进行特征提取；

图像集包括训练集trainX和测试集testX，图像集包含m+n类，均有对应的类别标签，其中训练集trainX包含m类，测试集testX包含m+n类，其中，n类为在训练集中没有出现图像样本的类别；

(1.2)将提取出的特征θ(x)乘以权重矩阵W⁽¹¹⁾和W⁽¹²⁾作为Net1层的输入，经过激活函数之后得到Net1层的输出；Net1层是因素分类层，其输出分为已知因素和潜在因素；

其中，已知因素是指s维的语义向量特征，对于图像集中的m+n类，其s维的语义向量特征均已知；

潜在因素是指在训练过程中，除已知因素以外、对分类结果有影响的其他因素；

(1.3)将Net1层的输出乘以权重矩阵W⁽²¹⁾和W⁽²²⁾作为Net2层的输入，经过激活函数之后得到Net2层的输出；

(1.4)将Net2层的输出乘以权重矩阵W⁽³⁾作为Net3层的输入，经过softmax函数得到Net3层的输出，即分类结果，从而完成构建零样本分类神经网络。

对m类训练集trainX的图像进行预处理，将图像样本裁剪成统一大小。

Net1层分为上、下两部分，上部分从θ(x)中提取s维已知因素，这s维已知因素作为辅助分类器使用；下部分从θ(x)中提取v维潜在因素，作为分类时对已知因素的补充；上半部分的输入为

下半部分的输入为

辅助分类器的损失函数J_a为已知因素的分类误差

其中，其中φ_i(k)是第i个样本的第k个已知因素，ε_i(k)是第i个样本训练时Net1层的第k个输出，γ≥0为加权系数。

对应Net3层的损失函数J_c为交叉熵

其中，y_i(j)为对应的真实类别标签，

为Net3层的第j个输出。

零样本分类神经网络的总损失函数J为辅助分类器的损失函数和对应Net3层的损失函数之和：J＝J_a+J_c。

所述步骤(2)对零样本分类神经网络进行训练，确定网络模型参数，具体为：

(2.1)根据对应Net3层的损失函数对权重矩阵W⁽²¹⁾、W⁽²²⁾和W⁽³⁾进行更新；

(2.2)根据总损失函数对权重矩阵W⁽¹¹⁾和W⁽¹²⁾进行更新；

(2.3)根据n类样本对应的s维已知因素和类别标签，此时将v维潜在因素设置为零，对权重矩阵W⁽²¹⁾、W⁽²²⁾和W⁽³⁾进行再次更新；

(2.4)步骤(2.1)～(2.3)迭代进行，直至权重矩阵收敛。

一种基于所述零样本图像分类方法实现的基于卷积神经网络和因素空间的零样本图像分类系统，包括：

网络构建模块：用于构建零样本分类神经网络；

训练模块：用于对所述零样本分类神经网络进行训练，确定网络模型参数；

图像识别模块：用于通过所述零样本分类神经网络对零样本图像进行识别，完成零样本图像的分类。

本发明与现有技术相比带来的有益效果为：

(1)本发明将视觉空间、因素空间以及类别空间融入到一个统一的神经网络中，现有技术中常常用一个特定的线性函数或非线性函数表述不同空间之间的关系，本发明构建的神经网络表达能力、泛化能力更强；

(2)本发明同时考虑了已知因素与潜在因素，通过在网络中为其分别分配权重形成了两条通道，并最终作用于分类结果；

(3)本发明基于因素空间理论，在辅助分类器的设计中引入因素压减技术，去除掉冗余的因素，降低了网络的复杂度与计算量；

(4)本发明用已知m类图像样本集训练以后，再利用未知图像样本n类对应的s维已知因素，进行Net2层与Net3层网络参数的调整，使得网络能够通过因素空间来关联视觉空间和类别空间。

附图说明

图1为本发明的零样本图像分类方法及系统流程图；

图2为本发明的零样本分类神经网络总体结构图；

图3为本发明的零样本分类神经网络因素分类模块的参数设置图。

具体实施方式

下面结合具体实例和附图对本发明的一种基于网络架构设计的零样本图像分类方法做出详细说明。

如图1所示，本发明提出了一种基于卷积神经网络和因素空间的零样本图像分类方法，步骤如下：

(1)构建零样本分类神经网络；

具体为：

(1.1)对m类训练集trainX的图像进行预处理，将图像样本裁剪成统一大小。如图2所示，将m类训练集trainX的图像输入经典卷积网络，在特征提取层实现图像的特征提取；

图像集包括训练集trainX和测试集testX，图像集包含m+n类，均有对应的类别标签，其中训练集trainX包含m类，测试集testX包含m+n类，其中，n类为在训练集中没有出现过的图像类别个数；

经典卷积网络特征提取层可以是AlexNet、VGG-Net或者GoogleNet的特征提取层。经典卷积神经网络能够对图像进行较为准确的识别，丢掉最后一层全连接层(分类层)，所得到的节点向量可以被看成是对特征向量更加精简且有效的表达。

(1.2)如图2和图3所示，将提取出的特征θ(x)乘以权重矩阵W⁽¹¹⁾和W⁽¹²⁾，作为Net1层的输入，经过激活函数进行非线性变换，得到Net1层的输出；Net1层是因素分类层，其输出分为已知因素和潜在因素；

作为认知描述的元词，因素是分析事物的要素，是我们展开深入分析的根。因素构成了事物的本体，是事物描述和思维过程的最深层次的东西。一个简单的因素把事物抽象到一个单一的维度，并为其命名，划分出一串属性并命其串名，属性是因素的取值，比如，“颜色”可以视为一个因素，“颜色”对应的一串属性可以是“红，绿，蓝”等。因素空间就是由一个物体集合和描述这个物体集合的因素集合构成的映射空间。因素的合成技术可以把视角的维度加多，考虑了不同的因素，从而将划分进行叠加，能够使综合程度加大。而因素的压减技术可以对因素空间进行降维，去掉冗余的因素，降低网络的复杂度。网络中的s维已知因素就是从给出的因素特征中通过因素压减得到的，本发明是通过聚类算法实现因素压减，通过词义的相似度实现聚类，使得同一个簇中的因素相似度较大，不同簇间的因素相似度较小；

如图3所示，Net1层分为上、下两部分，上部分从θ(x)中提取s维已知因素，这s维已知因素作为辅助分类器使用；下部分从θ(x)中提取v维潜在因素，作为分类时对已知因素的补充；上半部分的输入为

下半部分的输入为

所以Net1层的输入为

Net1层的激活函数为f₁，则Net1层的输出为O⁽¹⁾＝f₁(I⁽¹⁾)。

(1.3)将Net1层的上、下部分的输出分别乘以权重矩阵W⁽²¹⁾和W⁽²²⁾，作为Net2层的输入，经过激活函数作用之后得到Net2层的输出；

Net2层的输入为

Net2层的激活函数为f₂，则Net2层的输出为O⁽²⁾＝f₂(I⁽²⁾)。

(1.4)将Net2层的输出乘以权重矩阵W⁽³⁾，作为Net3层的输入，经过softmax函数得到Net3层的输出，即分类结果，从而完成构建零样本分类神经网络；

Net3层的输入为Net2层的输出O⁽²⁾与权重矩阵之积

Net3层的输出为

即为输出图像的预测分类结果。

(2)如图2所示，对所述零样本分类神经网络进行训练，根据梯度下降法迭代更新，从而确定网络模型的参数；

具体为：

(2.1)根据对应Net3层的损失函数J_c对权重矩阵W⁽²¹⁾、W⁽²²⁾和W⁽³⁾进行更新；

(2.2)根据总损失函数J对权重矩阵W⁽¹¹⁾和W⁽¹²⁾进行更新；

本发明使用的辅助分类器的损失函数J_a为已知因素的分类误差：

其中，φ_i(k)是第i个样本的第k个已知因素，ε_i(k)是第i个样本训练时Net1层的第k个输出，γ≥0为加权系数；

对应Net3层的损失函数为交叉熵J_c：

其中，y_i(j)为第i个样本的真实类别标签在第j个节点上的取值，

为第i个样本在Net3层的第j个输出；

零样本分类神经网络的总损失函数J为辅助分类器的损失函数J_a和对应Net3层的损失函数J_c之和，即

(2.4)步骤(2.1)～(2.3)迭代进行，直至权重矩阵收敛。

(3)通过所述零样本分类神经网络对零样本图像进行识别，完成零样本图像的分类。所述零样本是指在神经网络训练过程中，部分待识别的图像目标没有样本。

基于上述图像分类方法，本发明还提出一种基于卷积神经网络和因素空间的零样本图像分类系统，包括：

网络构建模块：用于构建零样本分类神经网络；

本发明将视觉空间、因素空间以及类别空间融入到一个统一的神经网络中，现有技术中常常用一个特定的线性函数或非线性函数表述不同空间之间的关系，本发明构建的神经网络表达能力、泛化能力更强；同时考虑了已知因素与潜在因素，通过在网络中为其分别分配权重形成了两条通道，并最终作用于分类结果；本发明基于因素空间理论，在辅助分类器的设计中引入因素压减技术，去除掉冗余的因素，降低了网络的复杂度与计算量。