CN109376787B

CN109376787B - 流形学习网络及基于其的计算机视觉图像集分类方法

Info

Publication number: CN109376787B
Application number: CN201811289756.7A
Authority: CN
Inventors: 郑军; 王锐; 罗长志
Original assignee: Matrixtime Robotics Shanghai Co ltd
Current assignee: Matrixtime Robotics Shanghai Co ltd
Priority date: 2018-10-31
Filing date: 2018-10-31
Publication date: 2021-02-26
Anticipated expiration: 2038-10-31
Also published as: CN109376787A

Abstract

本发明涉及一种流形学习网络及基于其的计算机视觉图像集分类方法，所述流形学习网络包括输入层、全连接层、矫正层、黎曼池化层、第二对数映射层和输出层，主要用于对采集到的视频序列进行分类，通过在黎曼流形上搭建简单的学习网络，并利用双向二维主成分分析技术优化权值参数来完成对对称正定矩阵进行的非线性特征抽取和分类。与现有技术相比，本发明能够较为有效地提高复杂场景下的对象分类精度，同时训练用时较短。

Description

流形学习网络及基于其的计算机视觉图像集分类方法

技术领域

本发明涉及流形学习领域，尤其是涉及一种流形学习网络及基于其的计算机视觉图像集分类方法。

背景技术

在计算机视觉领域中，有关图像集的分类问题最近受到了研究人员们广泛的关注。主要是由于相对于传统的基于单图片的分类任务，图像集可以更加灵活和有效地进行特征表示。对于图像集分类任务，每个图像集中包含了多个属于同一类别的图片，并且它们在光照，姿态以及分辨率上具有一定的差异。在大数据时代，基于图像集的分类问题在基于视频的人脸识别、监控、身份认证以及生物信息识别等方面有着广泛且成功的应用，且在这些应用中，利用流形学习的方法去解决图像集分类问题是最为普遍和有效的。基于流形学习的图像集分类算法可以分为四类：核方法、流形降维方法、多阶统计特性建模方法以及深度学习方法。

对于核方法，它们通过利用黎曼核函数把流形上的点映射到一个高维的Hilbert空间，然后再通过学习一个映射将它们投影到一个低维的判别子空间。然而，构建核矩阵需要较大的计算量，同时该类方法没有充分考虑到数据的流形特性，从而导致所得结果是次优的。

对于流形上的降维方法，它们直接在流形上联合进行度量学习和投影映射学习，从而使得原始的高维流形被映射成一个维数相对较低同时判别性更加充分的新的流形。可以看出，该类方法相较于核方法较为充分的保持了数据的流形结构，但是其线性映射函数是在非线性的流形上学习得到的，从而导致结果是次优的。

前面提到的两类算法都是基于单模型的流形学习算法，为了获取互补的特征信息以提高在复杂图像集上的分类精度，一些学者提出了基于多阶统计特性建模的方法。这类方法对于给定的样本，分别利用一阶均值、二阶方差以及三阶张量或者高斯混合模型进行模型的建立，然后利用度量学习的方法对异构的特征进行融合。该类算法的主要缺点是计算时间较长。

由于深度学习技术具有强大的特征学习能力，因此一些学者尝试将其推广到黎曼流形上以进行非线性的流形特征学习。对于该类算法，其关键之处在于在流形上进行黎曼矩阵的反传播计算，可以看出这类算法在复杂的数据集上可以取得较高的分类结果，但是其反传播计算比较复杂，同时网络需要学习的参数较多。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种流形学习网络及基于其的计算机视觉图像集分类方法。

本发明的目的可以通过以下技术方案来实现：

一种流形学习网络，包括：

输入层，用于获取与待分类的图像集对应的对称正定流形；

全连接层，用于对输入层接收的数据进行特征抽取；

矫正层，用于对抽取的特征值进行调整，保持样本空间一致性；

黎曼池化层，用于对特征进行池化操作，降低网络复杂度；

第二对数映射层，用于将黎曼池化层输出的流形数据映射到欧式空间，获得欧式空间特征图谱；

输出层，用于将欧式空间特征图谱中的每一个特征图均转化成列向量，并按设定权重合并成输出列向量。

进一步地，所述全连接层的输出与输入的关系式表示为：

其中，

表示全连接层输出的第j个特征图，

为连接权重，X_i表示全连接层的输入。

进一步地，所述矫正层对特征值进行调整后，矫正层的输出与输入的关系式表示为：

其中，

表示矫正层的输出，

表示输入

的奇异值分解，ε表示设定阈值。

进一步地，所述黎曼池化层包括依次连接的第一对数映射层、池化层和指数映射层。

进一步地，输出层中，所述设定权重的计算公式为：

其中，

表示对对数映射层输出的第i个特征图

进行特征分解后所得到的第k个特征向量，l表示特征图总数。

本发明还提供一种基于所述的流形学习网络的计算机视觉图像集分类方法，包括以下步骤：

1)获取待分类图像集，计算与该待分类图像集对应的对称正定流形；

2)将所述对称正定流形输入训练好的所述流形学习网络中，获取输出列向量；

3)基于所述输出列向量，通过最近邻分类器获得各图像集所属类别。

进一步地，所述流形学习网络进行训练时输入的对称正定流形通过以下方式获得：

A)对采集到的视频序列进行图像帧提取，获得彩色图像；

B)将彩色图像灰度化并进行直方图均衡化操作，形成训练图像集，且每张图片以一个列向量表示；

C)计算训练图像集对应的协方差矩阵X_i：

其中，μ_i代表图像集S_i的均值，

n_i表示第i个训练图像集中所含有的图片个数；

D)添加扰动信息：

X_i＝X_i+trace(X_i)×I_d×λ

其中，trace()表示轨迹函数，I_d是一个d×d的单位矩阵，λ为扰动参数；

E)由步骤D)获得的一系列X_i所张成的空间即为对称正定流形。

进一步地，所述流形学习网络中的全连接层利用双向二维主成分分析进行无监督的权值优化学习。

进一步地，所述流形学习网络训练时，将网络获得的输出列向量传入到核辨别分析中进行特征学习得到投影矩阵。

与现有技术相比，本发明具有以如下有益效果：

1、本发明提出一种简单的用于对称正定矩阵非线性特征学习的流形学习网络，相较于现有的深度黎曼学习框架，其更容易实现和应用；

2、对于网络中关键参数的学习，本发明利用双向二维主成分分析进行无监督的优化学习，相较于黎曼矩阵的反传播计算，其避免了复杂的矩阵计算，从而使得网络的训练简单有效；

3、本发明将传统的池化操作扩展到了流形上，从而降低整个网络的复杂度，提高了计算速度。

4、本发明基于流形学习网络的分类方法，能够较为有效地提高复杂场景下的对象分类精度，同时训练用时较短。

附图说明

图1为本发明流形学习网络的框架图；

图2为黎曼池化操作的原理图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

如图1所示，本发明提供一种流形学习网络，包括：输入层，用于获取与待分类的图像集对应的对称正定流形；全连接层，用于对输入层接收的数据进行特征抽取；矫正层，用于对抽取的特征值进行调整，保持样本空间一致性；黎曼池化层，用于对特征进行池化操作，降低网络复杂度；第二对数映射层，用于将黎曼池化层输出的流形数据映射到欧式空间，获得欧式空间特征图谱；输出层，用于将欧式空间特征图谱中的每一个特征图均转化成列向量，并按设定权重合并成输出列向量。

上述流形学习网络可主要用于对采集到的视频序列进行分类，通过在黎曼流形上搭建简单的学习网络，并利用双向二维主成分分析技术优化权值参数来完成对对称正定矩阵进行的非线性特征抽取和分类。

利用上述流形学习网络进行图像集分类的具体实现步骤如下：

步骤1：数据采集和预处理。

a)灰度特征提取和去噪：对采集到的视频序列进行图像帧的提取，然后将彩色图像灰度化并进行直方图均衡化操作以消除光照带来的影响；

b)调整尺寸：将上述操作中得到的每一张图片的尺寸都调整为20×20；

c)数据阵的生成：把每张图片都拉成一个列向量，这样原始的视频序列就可以用一矩阵去表示，且该矩阵的每一列都对应于原视频序列的每一帧。

本发明的简单的流形学习网络是以“离线学习”的形式得到的。在实际应用中，视频数据的规模很大，需要尽可能多的包含各种情景下的图片，以达到准确高效的分类效果。本发明在实验测试阶段使用的是ETH-80、YTC、Virus以及MDSD数据集。

对于ETH-80数据集其包含8个类别，每个类别中包含10个数据集，其中在每个类别中随机选取5个用于训练，剩下的5个用于测试。对于YTC数据集，其是从YouTube上下载得到，由47个类别构成的，每个类别中含有的图像集的个数是不同的。本发明在每个类别中随机选取3个用于训练，6个用于测试。Virus数据集共包含15个不同类别的病毒图像，每个类别中含有的图片个数都为100张，本发明将每个类别都划分成5个图像集，其中随机选取3个用于训练，然后把剩下的2个用于测试。MDSD是一个动态的风景图像数据集，由13个不同的类别构成，每个类别包含10个视频序列。其中随机选取7个用于训练，3个用于测试。

步骤2：构建对称正定流形M。

此处需要补充说明的是，在图像集的分类任务中一个视频序列就是一个对应的图像集样本。训练样本T是由属于c个类别的共s个图像集构成的：T＝[S₁,S₂,...,S_s]∈R^d×N，其中d表示样本的维度，N代表T中总共含有的图片数量，也即

这里n_i表示第i个训练图像集中所含有的图片个数。第i个训练样本可以表示为：

其中

表示第i个图像集中的第j个图像。对于不同的数据集，上述参数值也有差异，对于ETH-80数据集c＝8，d＝400，N＝1640，而对于Virus数据集c＝15，d＝400，N＝900。

计算训练集中每一个图像集样本对应的协方差矩阵X_i表示为：

公式(1)中的μ_i代表S_i的均值。

为了使得由公式(1)计算得到的协方差矩阵满足正定性，也即其分布空间是对称正定流形，需要对其添加一定的扰动信息：

X_i＝X_i+trace(X_i)×I_d×λ (2)

这里，I_d是一个d×d的单位矩阵，λ为扰动参数，在实施例中其值被设置为10^-3。由一系列的上述X_i所张成的空间即为对称正定流形M。

步骤3：由流形学习网络的全连接层对公式(1)获得的协方差矩阵X_i进行特征抽取。

因为全连接层中全部的l个特征图具有相同的尺寸，所以其连接权重

可以定义为：

其中，ext_p()是一个以d_FC为步长将M分解成l个连续子部的函数(P＝l×d_FC)。

在此步骤中，本发明利用双向二维主成分分析对输入训练样本进行无监督的权值优化学习，具体操作流程为：

a)将步骤2中得到的每一个正定的协方差矩阵都看成d维样本，则所有训练数据的二维协方差矩阵可以表示为：

公式(4)中的

代表步骤2中所有X_i的均值。

通过分析可以发现公式(3)是在样本的行方向计算得到的，同理，其列方向的计算形式为：

b)由于公式(4)和公式(5)是等价的，因此从两个方向学习到的投影矩阵是一致的。对于双向二维主成分分析，其目标是最小化重构误差：

其中，I_P是一个P×P维的单位矩阵，实施例中在所用到的四个数据集上P的值都为400。

通过分析可知公式(6)具有解析解，且目标矩阵M的最优解是通过对C进行特征分解并抽取P个最大的特征值对应的特征向量构成的。

c)基于全连接层的连接权重，计算得到全连接层的输出结果，其可以表示为：

通过步骤3中的操作，所有输入到全连接层的高维对称正定流形数据都被投影成维数相对较低同时判别性更加充分的新的对称正定流形数据。

步骤4：将全连接层的输出输入矫正层，保持样本空间一致性。

矫正层的具体步骤如下：

a)对全连接层输出的每一个数据都进行奇异值分解：

b)按照如下的公式(9)对公式(8)中求解得到的特征值进行调整：

c)按照如下的公式(10)计算得到矫正层的输出结果：

步骤4：利用黎曼池化层实现池化。

所述黎曼池化层包括依次连接的第一对数映射层、池化层和指数映射层，具体包括如下三个步骤：

a)利用矩阵的对数映射将对称正定流形上的数据投影到一个平滑空间，也即一个近似的欧式空间：

b)在上述操作所得到的特征图的基础上，选取2×2的池化块，并利用均值池化方法以2为步长进行池化操作，将池化后所得到的结果表示为

c)通过矩阵的指数映射将

再映射回对称正定流形得到该层的输出数据：

步骤5：通过第二对数映射层将黎曼池化层输出的流形数据映射到欧式空间中，其实现方式为：

步骤6：输出最终列向量，共需要以下几个步骤：

a)按照公式(14)计算权重：

其中，

表示对对数-映射层输出的第i个特征图

进行特征分解后所得到的第k个特征向量。

b)将对数-映射层输出的每一个特征图都拉成一个列向量，然后将他们和对应的权值相乘，最后将它们合并成一个总的列向量，其维度为

步骤7：通过前面的操作，每一个输入到该网络中的对称正定矩阵最终都被转化为一个与之对应的列向量。然后将所有的这些列向量传入到KDA(Kernel DiscriminantAnalysis，核辨别分析)中进行特征学习得到投影矩阵。

步骤8：对于待分类的图像集，首先计算出与之对应的对称正定的协方差矩阵，然后将其输入到搭建好的网络中，最后通过最近邻分类器返回其所属的类别。

表1

表2

表3

表1是本发明方法以“分类精度”和“标准差”为度量标准，和现有方法在YTC和ETH-80两个视频数据集上的量化对比结果；表2是本发明方法以“分类精度”和“标准差”为度量标准，和现有方法在Virus和MDSD两个视频数据集上的量化对比结果；表3是本发明方法以“训练时间”和“测试时间”为度量标准，和现有方法在YTC视频数据集上的量化对比结果；其中RieMNet-KDA是本发明的图像集分类方法；CDL是基于协方差判别学习的图像集分类方法；GDA是基于Grassmann流形判别分析的图像集分类方法；PML、LEML以及SPDML都是基于度量学习的流形降维方法，它们的主要区别在于基于的流形种类不同同时选取的目标函数也不同。SPDNet是一种和本发明相似的图像集分类方法，主要区别在于SPDNet是以黎曼矩阵的反传播计算作为参数的优化方法，而本发明是通过双向二维主成分分析技术进行无监督的优化学习方式。这几种方法均在ETH-80、YTC、Virus以及MDSD数据集上进行测试，从表1和表2可以看出本发明方法均优于其他方法，同时从表3可以看出本发明方法的用时也相对较短，从而展现了本发明的优越性。

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此，凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由权利要求书所确定的保护范围内。