CN109978064A

CN109978064A - 基于图像集的李群字典学习分类方法

Info

Publication number: CN109978064A
Application number: CN201910248531.5A
Authority: CN
Inventors: 王邦军; 熊啸东; 李凡长; 张莉
Original assignee: Suzhou University
Current assignee: Suzhou University
Priority date: 2019-03-29
Filing date: 2019-03-29
Publication date: 2019-07-05

Abstract

本发明公开了一种基于图像集的李群字典学习分类方法。本发明一种基于图像集的李群字典学习分类方法，包括：用P＝[p₁,p₂,...,p_n]表示一个包含n样本的图像集；每个p_i是一个一维向量，代表该图像集中的一个图像；使用协方差矩阵S来表示图像集：是图像的平均值向量；由于图像集的样本数量通常小于图像的维数，因此矩阵在某些情况下有可能不是正定矩阵；添加一个扰动项λ来解决这个问题。本发明的有益效果：通过将图像集描述为SPD矩阵，使得每个图像集对应于SPD李群上的元素，不仅保留图像集的主要信息，还将基于图像集的分类问题转换为线性分类问题。

Description

基于图像集的李群字典学习分类方法

技术领域

本发明涉及图像分类领域，具体涉及一种基于图像集的李群字典学习分类方法。

背景技术

对于图像集分类，主流方法主要集中在如何表示和处理图像集以及如何测量它们的相似性的问题上。在现有文献中，如KLD度量(信息散度度量)或 DARG(基于高斯分布的黎曼流形的判别分析)，都使用了GMM(高斯混合模型)来获得整个图像集的概率模型。这种方法可以更有效地对图像集进行建模与分类，同时也具有很好的鲁棒性。然而，这些参数化建模方法高度依赖于参数来表示和处理原始数据。此外，解决参数估计问题非常困难，并且在不同情况下的参数设置标准和方法也都有很大的不同。

相比之下，非参数方法会放宽对数据分布的假设，往往具有广泛的应用。由于具有较强的表征变化能力，SPD矩阵(对称正定矩阵)已被证明可以很好的对进行图像集进建模。SPD矩阵的一个典型实例是协方差矩阵，使用协方差矩阵表示图像集是一个被广泛使用的方法。但是因为SPD矩阵集合所构成的不是一个欧几里得向量空间，而是一个特定的李群上。传统分类方法不再适用。

为了解决这些问题，仿射不变度量于2006年被提出，他的主要思路是在 SPD(非负正定矩阵)流形上提出了黎曼度量。AIM解决了在SPD矩阵直接使用欧几里得空间算法时的扩展效应。

此后，通过引入SPD矩阵的空间李群结构，引入了一种新的黎曼度量，称为LEM(对数欧几里得度量)。该度量可以将流形里的元素映射到流形的切空间中。在此线性空间中，可以应用经典的欧几里德计算。

LEM：对数欧几里得黎曼度量可以将SPD矩阵所在的李群映射到黎曼空间的平面上。在此线空间中，可以应用经典的欧几里德计算。LEM完全克服了非线性空间的局限性，同时保留了优异的理论性质。

MDS(多维度缩放)：是一种传统的线性降维方法，目标是找到嵌入样本中的子空间，并尽可能保持彼此之间的相似性。

FDDL模型(带费舍尔判别准则的字典学习模型)：FDDL模型是一种应用于单图像分类的算法。它通过创建一个结构化的字典来进行分类。因为对字典以及与其相关的系数矩阵进行判别式要求，所以不仅学习到的字典具有很好的分辨能力，而且相应的系数矩阵也具有较小的类内区分度和较大的类间区分度。

传统技术存在以下技术问题：

SPD矩阵构成的不是一个欧几里得向量空间，而是一个特定的李群。因此，先前的定义或基于欧几里德空间的算法不再适用，直接使用会导致诸如张量的膨胀效应和矩阵反转后的不对称性等，最终会影响算法结果。

虽然AIM解决了膨胀效应。但其成功需要付出高昂的计算成本。

LEM可以很好的衡量流形上的样本相似度。但是因为对于图像集而言，使用LEM后其维度依旧比较高。直接对其进行分类的计算代价也会相应的提高。

发明内容

本发明要解决的技术问题是提供一种基于图像集的李群字典学习分类方法，基于图像集的分类最近引起了对计算机视觉和模式识别社区的日益关注。与单个图像相比，一组图像提供了更多信息来描述主体。然而，图像集相对较大的类内和类间多变性对分类任务提出了很大的挑战。因此，们将图像集使用 SPD矩阵建模，并在SPD所处的特殊李群上的应用LEM来获得图像集在线性空间的表示。但在那之后，高维度的线性数据依旧很难处理。为了解决这个问题，们使用MDS(多维缩放)以获得低维表示。最后，通过FDDL模型对得到的低维表示进行分类。

为了解决上述技术问题，本发明提供了一种基于图像集的李群字典学习分类方法，包括：

用P＝[p₁,p₂,...,p_n]表示一个包含n样本的图像集；每个p_i是一个一维向量，代表该图像集中的一个图像；使用协方差矩阵S来表示图像集：

是图像的平均值向量；由于图像集的样本数量通常小于图像的维数，因此矩阵在某些情况下有可能不是正定矩阵；添加一个扰动项λ来解决这个问题：

S^*＝S+λI

得到log-Euclidean度量：

因此，使用对数运算将所有元素映射到切线空间

进行降维处理：

假设图像集数据中心化的低维表示为A；假定A的内积矩阵表示为Z，Z＝A^TA 因此：

将dist_i. ²dist_.j ²dist_.. ²假定为：

因此，有如下推论：

现在使用距离矩阵D来计算内积矩阵Z；

对Z进行特征值分解：Z＝VΛV^T，其中Λ＝diag(λ₁,λ₂,...,λ_d)是由特征值构造的对角矩阵，并且，λ₁≥λ₂≥...≥λ_d；V则是与Λ对应的特征向量矩阵；因此：

选择前d′个最大的特征值，构成新的特征值矩阵并且将与这d′个最大的特征值相关联的特征向量构成和新的特征向量矩阵然后得到：

在前一过程之后，获得图像集的低维表示，并保存了图像集的主要信息；然后应用FDDL模型对样本的低维表示进行分类；FDDL(带费舍尔判别准则的字典学习模型)通过创建一个结构化的字典来进行分类；

用A＝[A₁,A₂,...,A_c]表示为训练集，其中A_i是来自第i类的训练样本的子集；X是用字典D来表示训练集A的系数矩阵，也就是A≈DX；同样可以将D按照所属类别进行区分：其中X_i是X中用于表示数据A_i的子系数矩阵；所以，系数矩阵X 可以表示成：X＝[X₁,X₂,...,X_c]；

引用FDDL模型：

其中，r(A,D,X)是判别保真项，||X||₁是稀疏约束，f(X)是对系数矩阵X施加的判别约束，最后λ₁和λ₂是标量参数；

将A_i用字典D表示的系数矩阵写作X_i，将X_i写为其中是子字典D_j用于表示A_i的相关编码系数；定义

首先，字典D需要很好地表示A_i，因此有对约束D_i和X_i：第二，因为D_i与第i类相关联，所以A_i应该很好地被表示D_i而不是其他子字典D_j(j≠i)；这意味着应该很小；并且还应该对A_i的表示有几乎为零的影响，所以必须小；因此将判别保真度定义为：

另一方面，f(X)是判别系数项，基于Fisher判别标准；提高系数矩阵区分度可以通过最小化系数矩阵X的类内散布GAP_B(X)，表示和最大化系数矩阵X的类间散布GAP_B(X)来实现；并定义GAP_B(X)和GAP_B(X)为：

其中m_i和m分别为X_i和X的平均向量，并且n_i是A_i类中的样本数；

因此定义f(X)：

其中，是一个使f(X)稳定的弹性项，否则f(X)可能是非凸的，η是一个常数参数；

通过以上分析，可以得到FDDL模型的目标函数为：

现在式(7)可以分为两个问题：固定X更新D；固定D更新X；

首先假设D是固定的，现在问题变成了计算X，可以将等式(7)简化为：

并且：

其中M_k是X_i的平均向量构成的矩阵，M是X的平均向量构成的矩阵；设定η＝1；此时等式(8)是严格凸函数；然后使用迭代投影法(IPM)来更新X；

当X被固定时，按类更新D_i；更新D_i时，假定其他子字典D_j(j≠i)都是固定的；现在，等式(7)中的目标函数被简化为：

其中Xⁱ是指用D_i来表示A的相关部分的系数矩阵；

现若有属于第i类的测试样本y那么它与第i类样本的表示残差将会相对较小；同时，表示系数也会更加接近第i类平均稀疏系数；在对测试样本进行分类之前，首先要求得测试样本y在字典D上的稀疏系数：

这里的λ是一个常数。

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现任一项所述方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现任一项所述方法的步骤。

一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行任一项所述的方法。

本发明的有益效果：

通过将图像集描述为SPD矩阵，使得每个图像集对应于SPD李群上的元素，不仅保留图像集的主要信息，还将基于图像集的分类问题转换为线性分类问题。因为李群上的样本处于非线性黎曼空间，因此不可能直接使用欧几里德度量和欧几里德空间分类算法对样本进行分类。但结合对数映射，样本被映射到切线空间。然后应用MDS方法来减小维度并提高算法的效率和性能。最后，将基于欧几里德空间单幅图像的分类算法FDDL与李群组合，解决了图像集分类任务，在三个数据集上取得了较好的效果。

附图说明

图1是本发明基于图像集的李群字典学习分类方法中的LEM思路展示示意图。

图2是本发明基于图像集的李群字典学习分类方法中的部分ETH-80样本示意图。

图3是本发明基于图像集的李群字典学习分类方法中的部分TYC样本示意图。

图4是本发明基于图像集的李群字典学习分类方法中的部分病毒样本示意图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步说明，以使本领域的技术人员可以更好地理解本发明并能予以实施，但所举实施例不作为对本发明的限定。

们用P＝[p₁,p₂,...,p_n]表示一个包含n样本的图像集。每个p_i是一个一维向量，代表该图像集中的一个图像。现在们可以使用协方差矩阵S来表示图像集：

是图像的平均值向量。由于图像集的样本数量通常小于图像的维数，因此矩阵在某些情况下有可能不是正定矩阵。们添加一个扰动项λ来解决这个问题：

S^*＝S+λI

现在们可以得到log-Euclidean度量：

因此，使用对数运算将所有元素映射到切线空间

图1是LEM的思路展示。

在前面的步骤之后，图像集数据L＝[L₁,L₂,...,L_m]被很好地表示表示在欧几里得空间中，并且们还获得了距离矩阵D_ij＝||log(S_i)-log(S_j)||＝dist_ij。但是，因为切空间内的数据维度仍然很高，因此，需要进行降维处理。

们的第一步是假设图像集数据中心化的低维表示为A。假定A的内积矩阵表示为Z，Z＝A^TA因此：

将dist_i. ²dist_.j ²dist_.. ²假定为：

因此，们有如下推论：

现在们使用距离矩阵D来计算内积矩阵Z。

们对Z进行特征值分解：Z＝VΛV^T，其中Λ＝diag(λ₁,λ₂,...,λ_d)是由特征值构造的对角矩阵，并且，λ₁≥λ₂≥...≥λ_d。V则是与Λ对应的特征向量矩阵。因此：

在实践中，们通常选择前d′个最大的特征值，构成新的特征值矩阵并且将与这d′个最大的特征值相关联的特征向量

构成和新的特征向量矩阵然后们可以得到：

算法一的总结如下

在前一过程之后，们获得图像集的低维表示，并保存了图像集的主要信息。然后们应用FDDL模型对样本的低维表示进行分类。FDDL(带费舍尔判别准则的字典学习模型)通过创建一个结构化的字典来进行分类。因为对字典以及与其相关的系数矩阵进行判别式要求，所以不仅学习到的字典具有很好的区分度，而且相应的系数矩阵也具有较小的类内区分度。

用A＝[A₁,A₂,...,A_c]表示为训练集，其中A_i是来自第i类的训练样本的子集。X是用字典D来表示训练集A的系数矩阵，也就是A≈DX。们同样可以将D按照所属类别进行区分：其中X_i是X中用于表示数据A_i的子系数矩阵。所以，系数矩阵X 可以表示成：X＝[X₁,X₂,...,X_c]。们不但要求D可以很好的表示数据A，们还要求D 具有足够的区分性来对数据A进行分类。为此，引用FDDL模型：

其中，r(A,D,X)是判别保真项，||X||₁是稀疏约束，f(X)是对系数矩阵X施加的判别约束，最后λ₁和λ₂是标量参数。

将A_i用字典D表示的系数矩阵写作X_i，将X_i写为其中是子字典D_j用于表示A_i的相关编码系数。定义

首先，字典D需要很好地表示A_i，因此有对约束D_i和X_i：第二，因为D_i与第i类相关联，所以A_i应该很好地被表示D_i而不是其他子字典D_j(j≠i)。这意味着应该很小。并且还应该对A_i的表示有几乎为零的影响，所以必须小。因此们将判别保真度定义为：

另一方面，f(X)是判别系数项，基于Fisher判别标准。提高系数矩阵区分度可以通过最小化系数矩阵X的类内散布GAP_B(X)，表示和最大化系数矩阵X的类间散布GAP_B(X)来实现。并定义GAP_B(X)和GAP_B(X)为：

其中m_i和m分别为X_i和X的平均向量，并且n_i是A_i类中的样本数。

因此定义f(X)：

其中，是一个使f(X)稳定的弹性项，否则f(X)可能是非凸的，η是一个常数参数。

通过以上分析，们最终可以得到FDDL模型的目标函数为：

现在式(7)可以分为两个问题：固定X更新D；固定D更新X；

首先假设D是固定的，现在问题变成了计算X，们可以将等式(7)简化为：

并且：

其中M_k是X_i的平均向量构成的矩阵，M是X的平均向量构成的矩阵。们设定η＝1。此时等式(8)是严格凸函数。然后们使用迭代投影法(IPM)来更新X。

当X被固定时，们按类更新D_i。更新D_i时，假定其他子字典D_j(j≠i)都是固定的。现在，等式(7)中的目标函数被简化为：

其中Xⁱ是指用D_i来表示A的相关部分的系数矩阵。

算法二的总结如下

现若有属于第i类的测试样本y那么它与第i类样本的表示残差将会相对较小。同时，表示系数也会更加接近第i类平均稀疏系数。在对测试样本进行分类之前，首先要求得测试样本y在字典D上的稀疏系数：

这里的λ是一个常数。

对提出的总算法的总结如下

下面介绍本发明的一个具体应用场景：

为了验证本算法的泛化能力，测试了三个公开可用的数据集。ETH-80数据集，YTC(优兔名人脸)数据集，Virus病毒图像数据集，并且在每个数据集上，取10次迭代实验的平均识别率和标准差作为结果。

们还选择了一些其他方法来与们在本文中描述的方法进行比较，包括DCC (典型相关判别学习)，CDL(协方差判别学习)，PML(投影度量学习)，GDA (格拉斯曼流形判别分析)，LEML(对数欧几里得度量学习)，和LEML_NYSTROM。

DCC是一种通过训练样本学习判别函数并使用典型相关分析的分类方法。而PML和GDA是度量学习算法，其使用格拉斯曼流形来描述样本所在的线性子空间。CDL和LEML使用的建模方法与本文提出的相同，但运用了不同的降维方法。和LEML_NYSTROM则是使用流形来描述数据集的方法。们提出的方法使用LGDL_MDS表示。所有结果如下：

ETH-80数据集包含8类对象，每个对象包含10个图像集，每个图像集具有41个以不同角度拍摄的对象图像。们将每个图像的大小调整为20×20像素，在每类图像集里选择五个图像集作为训练样本，剩余的五个图像集用作测试样本。通过实验们得到了如下结果。图2展示了一些样品，表一展示了每种算法在ETH-80上的平均结果。

表一：算法在ETH-80数据集上的平均结果

算法	平均准确率/％±标准差
		DDC	90.75±4.42
CDL	93.75±3.43
		GDA	93.25±4.80
PML	90.00±3.07
		LEML	92.75±2.19
SPMDL<sub>AIRM</sub>	92.25±2.19
		SPMDL<sub>Stein</sub>	90.50±3.87
LEML<sub>NYSTROM</sub>	95.75±3.74
		LGDL<sub>MDS</sub>	95.75±3.54

YTC数据集包含47类。由于每类样本中包括的图像集的数量不同，因此从每类样本中选择9个图像集用于实验。在每个实验中，三个图像集用作训练样本，剩余的六个图像集用作测试样本。将图像集中每个图像的大小调整为20×20 像素。图3展示了一些样本，表二展示了每种算法在YTC数据集上的平均结果。

表二：算法在YTC数据集上的平均结果

病毒数据集包含15个类别，每个类别包含5个图像集，每个图像集具有从不同角度拍摄的20张照片，并且每个图像的大小被调整为20×20像素。并且在每种类型的图像集中，选择任何3个图像集作为训练样本，并且剩余的2个图像集用作测试样本。图4展示了部分病毒样本，表三展示了每个算法在Virus 数据集上的平均结果。

表三：算法在VIRUS数据集上的平均结果

从以上结果中可以看出，与其他几种基于图像集的分类算法相比，本文提出的方法的识别率得到了提高。

在ETH-80数据集中。们可以达到95.75％的准确度，高于其他所有方法。此外，们有一个合理的标准偏差。这表明该方法不仅对ETH-80数据集具有较高的识别率，而且具有良好的鲁棒性。

在YouTube名人数据集中，该方法的识别率为79.45％，比其他方法高出约10个百分点，表明该方法在YTC等人脸数据集中具有明显的优势。其标准差和其他算法比较也相对较小，所以本方法在TYC数据集仍然具有良好的鲁棒性。

在病毒数据集中，从识别率和标准差两个方面考虑。该方法具有良好的识别率，但鲁棒性不是很好。结果分析表明，缺乏鲁棒性的原因可能是图像集中的有效信息在降维过程中被误处理为噪声。而在Virus数据集中们还发现，由于使用单个协方差矩阵代表整个图像集，可能会忽略一些信息。

以上所述实施例仅是为充分说明本发明而所举的较佳的实施例，本发明的保护范围不限于此。本技术领域的技术人员在本发明基础上所作的等同替代或变换，均在本发明的保护范围之内。本发明的保护范围以权利要求书为准。

Claims

1.一种基于图像集的李群字典学习分类方法，其特征在于，包括：

S^*＝S+λI

得到log-Euclidean度量：

因此，使用对数运算将所有元素映射到切线空间

进行降维处理：

假设图像集数据中心化的低维表示为A；假定A的内积矩阵表示为Z，Z＝A^TA因此：

dist_ij ²＝||a_i||²+||a_j||²-2a_i ^Ta_j＝z_ii+z_jj-2z_ij

将dist_i. ²dist_.j ² dist_.. ²假定为：

因此，有如下推论：

现在使用距离矩阵D来计算内积矩阵Z；

用A＝[A₁,A₂,...,A_c]表示为训练集，其中A_i是来自第i类的训练样本的子集；X是用字典D来表示训练集A的系数矩阵，也就是A≈DX；同样可以将D按照所属类别进行区分：其中X_i是X中用于表示数据A_i的子系数矩阵；所以，系数矩阵X可以表示成：X＝[X₁,X₂,...,X_c]；

引用FDDL模型：

因此定义f(X)：

通过以上分析，可以得到FDDL模型的目标函数为：

现在式(7)可以分为两个问题：固定X更新D；固定D更新X；

并且：

其中Xⁱ是指用D_i来表示A的相关部分的系数矩阵；

这里的λ是一个常数。

2.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1所述方法的步骤。

3.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1所述方法的步骤。

4.一种处理器，其特征在于，所述处理器用于运行程序，其中，所述程序运行时执行权利要求1所述的方法。