CN110717513A

CN110717513A - 一种基于多分类器的零样本深海生物图片分类方法

Info

Publication number: CN110717513A
Application number: CN201910836905.5A
Authority: CN
Inventors: 周智恒; 牛畅; 尚俊媛; 黄俊楚; 张鹏宇
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2019-09-05
Filing date: 2019-09-05
Publication date: 2020-01-21
Anticipated expiration: 2039-09-05
Also published as: CN110717513B

Abstract

本发明公开了一种基于多分类器的零样本深海生物图片分类方法，包括以下步骤：(1)图像特征数据导入，数据集由可见类别和不可见类别的视觉特征、语义及标签信息组成，以有标签的常见海洋生物种类为可见类别，以数据匮乏的深海生物种类为不可见类别；(2)类别具体分类器训练，利用可见类别数据训练，在保留流形结构的基础上，为不同类别建立不同的视觉语义映射，以提高可见类别的分类准确率；(3)不可见类别推断，通过将可见类别与不可见类别语义之间的权重进行迁移，使用可见类别的映射矩阵合成不可见类别的映射矩阵，根据距离得出不可见类别的标签。本发明在一定程度上降低了映射域漂移的影响，准确易行。

Description

一种基于多分类器的零样本深海生物图片分类方法

技术领域

本发明涉及零样本图像分类领域，具体涉及一种基于多分类器的零样本深海生物图片分类方法。

背景技术

深海生物是海洋系统的重要组成部分，从生物多样性与生态系统的角度来看，深海生物种类繁多，具有极高的研究价值，在工业、医药、环保等领域也有广泛的应用价值。这些生物生活的深海地区，常年黑暗，不见阳光，而且温度低，压力大，海水含盐量高。人类对深海生物的了解通常来自于遥控潜艇拍摄的数据。多数已知物种的出现频率不够高，数据匮乏，不足以收集和标记一组具有代表性的示例图像。而且随着人类对深海的不断探索，新物种不断出现，获取足够的用于训练可靠分类器的标签信息变得越来越有挑战性。

为了解决上述问题，零样本图像分类方法使用带标签的可见类别图像训练可见类别分类器，以语义为桥梁，将可见类别和不可见类别联系起来，以完成没有标签信息的不可见类别的分类。语义可以是视觉属性或者词向量等，视觉属性由人工标注而来，词向量可以通过网络爬虫等手段获得。人类在对某些常见类别有了一定认知之后，可以通过描述，辨别出从未见过的类别，零样本方法模拟的正是这种能力。本发明通过使用零样本分类方法，以有标签的常见海洋生物种类为可见类，训练分类器，利用对深海生物的描述，完成对数据匮乏的深海生物的分类问题。

在零样本问题中，对于复杂的图片信息，提取到的特征具有高维特性，存在冗余信息。如何高效利用这些信息，为可见类别学习一个性能优良的分类器，以及如何将标签空间和语义空间进行有效对齐，使得对可见类别训练的分类器能够成功应用于不可见类别的分类，将关系到整个系统最终对不可见类别的分类准确率。因此，提出一种能够实现深海生物良好分类的零样本图像分类方法是目前待解决的问题。

发明内容

本发明的目的是为了克服现有技术中的上述缺陷，提供一种基于多分类器的零样本深海生物图片分类方法。

本发明的目的可以通过采取如下技术方案达到：

一种基于多分类器的零样本深海生物图片分类方法，所述的零样本深海生物图片分类方法包括如下步骤：

利用已知公开数据集或者使用GoogleNet网络提取图片特征形成数据集，通过数据集导入每张图片的图像视觉特征数据、标签及语义描述，其中，所述的数据集由相互不重叠的可见类别数据和不可见类别数据组成，可见类别包含数据丰富的常见海洋生物种类，为模型需要学习的类别，不可见类别包含数据匮乏的深海海洋生物种类，为模型需要辨别的类别，所述的标签即图像的类别信息；

类别具体分类器训练，利用可见类别数据训练，在保留流形结构的基础上，为不同类别建立不同的视觉特征空间到语义空间的映射；

不可见类类别推断，通过将可见类别与不可见类别语义之间的权重进行迁移，使用可见类别的映射矩阵合成不可见类别的映射矩阵，根据距离得出不可见类别的标签，以达到分类目的。

进一步地，所述的通过数据集导入每张图片的图像特征数据之后，还包括：对图像特征数据进行归一化处理，归一化为[-1，1]之间。

进一步地，所述的可见类别共C_S个，视觉特征数据

其中d为视觉特征维度，n_S为可见类别样本数，语义

其中a为语义维度，每行为一个样本对应的语义向量下标S代表可见类别；

所述的不可见类别共C_U个，可见类别和不可见类别无交集，视觉特征数据其中n_U为不可见类别样本数，语义

每行为一个样本对应的语义向量

其中a为语义维度，下标U代表不可见类别。

进一步地，所述的类别具体分类器训练过程如下：

为每个不可见类别学习一个特定于类别C的映射矩阵d为视觉特征维度，a为语义维度，类别具体分类器模型如下：

上式中，表示矩阵

-范数的平方，x_S ^T表示X_S矩阵的转置。第一项通过映射矩阵W_C将数据映射到语义空间，

是由原始的语义矩阵

变换而来的，

对应第C个可见类别，对于中的第C类语义a_C不做变换，对于其他类的语义变换为-γa_C，γ为超参数，通过对每个类

的设置，使视觉特征映射后与自己所属类别的语义距离近，同时与其他类别语义远；第二项为

-正则项，约束W_C的复杂度，防止模型过拟合；第三项为流形正则项，用于保持本类数据的结构在映射前后不变，其中L_C为拉普拉斯矩阵，L_C＝D_C-R_C，R_C计算如下：

上式中，x_i和x_j分别表示样本数据

的第i行和第j行，即第i个样本和第j个样本，表示和x_i属于同一类且是x_i的k近邻的样本，而D_C是一个对角矩阵，其第m个对角元素为R_C第m行的和，即(D_C)_mm＝∑_l(R_C)_ml，λ和β是超参数，用于权衡各项权重。

进一步地，为对类别具体分类器模型进行求解，以迭代的方式进行W_C的更新，每次更新W_C时，固定其他的

不变，其中

得到类别具体分类器模型关于W_C的目标函数，令该目标函数对W_C的偏导数为零得到：

其中E为单位阵。

进一步地，所述的不可见类类别推断的过程如下：

将每个不可见类语义表示为可见类的加权组合，即

为不可见类语义

中第p类样本的语义向量，

为第q类可见类语义，α_q为加权系数，对应的映射矩阵有类似的权重对应关系，即

得到不可见类的类别具体的映射矩阵

对于不可见类别图片x，通过下式计算其投影后与各个类别语义的距离，找出其中距离的最小值，进而得到其对应标签：

经上述处理后可以推断出每一张不可见类别图片的标签，从而实现零样本图片分类。

本发明相对于现有技术具有如下的优点及效果：

(1)本发明利用可见类别数据训练多个类别具体的分类器，为不同类别建立不同的视觉语义映射，提高了分类准确率；

(2)本发明在视觉语义映射的基础上，添加了图正则项，可以在一定程度上保持映射前后数据近邻关系不变；

(3)本发明通过将可见类别与不可见类别语义之间的权重进行迁移，使用可见类别的映射矩阵合成不可见类别的映射矩阵，在一定程度上降低了域漂移的影响；

(4)本发明给出了模型的解析解，简单有效，可行性高。

附图说明

图1是本发明公开的一种基于多分类器的零样本深海生物图片分类方法的总体框架流程图；

图2是本发明公开的一种基于多分类器的零样本深海生物图片分类方法训练和推断阶段流程图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例

如图1所示，本实施例公开了一种基于多分类器的零样本深海生物图片分类方法，该方法依次包括：图像特征数据导入步骤、类别具体分类器训练步骤、不可见类类别推断步骤。

(1)图像特征数据导入步骤

图像特征数据导入，利用已知公开数据集，或者使用GoogleNet网络等提取图片特征，导入数据集。数据集由可见类别数据和不可见类别数据两部分组成，相互不重叠，可见类别为数据丰富的常见海洋生物种类，包含了模型需要学习的类别，不可见类别为数据匮乏的深海海洋生物种类，包含了模型需要辨别的类别。数据集包含每张图像的视觉特征数据、标签及语义描述。标签即图像的类别信息。对图像特征数据进行归一化处理，归一化为[-1，1]之间。除了图像特征数据外，还包括每张图片的标签及语义描述。

具体地，可见类别共C_S个，视觉特征数据

其中d为视觉特征维度，n_S为可见类别样本数，语义

其中a为语义维度，

每行为一个样本对应的语义向量

相应地，不可见类别共C_U个，可见类别和不可见类别无交集，视觉特征数据

其中d为视觉特征维度，n_U为不可见类别样本数，语义

每行为一个样本对应的语义向量其中a为语义维度。

(2)类别具体分类器训练步骤

由于不同类别的视觉语义映射差异很大，因此选择为每个不可见类别学习一个特定于类别的映射矩阵

(d为视觉特征维度，a为语义维度)，具体模型如下：

上式中，

表示矩阵-范数的平方，X_S ^T表示X_S矩阵的转置。第一项通过映射矩阵W_C将数据映射到语义空间。

是由原始的语义矩阵变换而来的，具体地，

对应第C个可见类别，对于

中的第C类语义a_C不做变换，其他类的语义变换为-γa_C，γ为超参数，通过对每个类

的设置，映射后与自己所属类别的语义距离近，同时与其他类别语义远。第二项为

-正则项，约束W_C的复杂度，防止模型过拟合，提高模型的泛化能力。第三项为流形正则项，用于使得本类数据的结构在映射前后保持不变，其中L_C为拉普拉斯矩阵，L_C＝D_C-R_C，R_C计算如下：

上式中，x_i和x_j分别表示样本数据

的第i行和第j行，即第i个样本和第j个样本。

表示和x_i属于同一类且是x_i的k近邻的样本，而D_C是一个对角矩阵，其第m个对角元素为R_C第m行的和，即

(D_C)_mm＝∑_l(R_C)_ml，λ和β是超参数，用于权衡各项权重。

本实施例取λ＝1，β＝0.1。

为对类别具体分类器模型进行求解，以迭代的方式进行W_C的更新，每次更新W_C时，固定其他的

不变，得到类别具体分类器模型关于W_C的目标函数，令该目标函数对W_C的偏导数为零得到：

其中E为单位阵。

(3)不可见类类别推断步骤

每个不可见类语义可以表示为可见类的加权组合，即

为不可见类语义

中第p类样本的语义向量，

为可见类语义，α_q为加权系数。对应的视觉语义映射矩阵有类似的权重对应关系，

即

由此借助类别具体分类器训练阶段的可见类别映射矩阵W_C，可以计算得到不可见类的类别具体的映射矩阵

对于不可见类别图片x，可以通过下式计算其投影后与语义的距离，进而取最小距离对应的类别作为其对应标签：

经上述处理后可以推断出每一张深海生物图片的标签，从而实现零样本图片分类。

综上所述，本实施例公开了一种基于多分类器的零样本深海生物图片分类方法。该方法利用可见类别数据训练多个类别具体的分类器，在保留流形结构的基础上，为不同类别建立不同的视觉语义映射，以提高可见类别的分类准确率。此外，通过将可见类别与不可见类别语义之间的权重进行迁移，使用可见类别的映射矩阵合成不可见类别的映射矩阵，在一定程度上降低了域漂移的影响，实现了不可见类别的良好分类，有效易行。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。