CN114943862A

CN114943862A - 一种基于结构性解析字典学习的两阶段图像分类方法

Info

Publication number: CN114943862A
Application number: CN202210637417.3A
Authority: CN
Inventors: 董静; 杨柳; 梅雪; 成巍; 罗晓清
Original assignee: Nanjing Tech University
Current assignee: Nanjing Tech University
Priority date: 2022-06-07
Filing date: 2022-06-07
Publication date: 2022-08-26

Abstract

本发明公开了一种基于结构性解析字典学习的两阶段图像分类方法，该方法属于计算机视觉技术领域。该方法包括：(1)特征提取：对原始图像数据进行特征提取，构建训练集和测试集；(2)阶段1：基于训练集采用结构性解析字典学习模型训练解析字典及投影矩阵；(3)阶段2：基于训练样本的结构化稀疏表示系数，训练支持向量机(SVM)分类器；(4)分类测试：在测试集上利用训练好的解析字典和支持向量机，使用多元支持向量机分类算法实现分类功能，得到分类结果。本发明简化了结构性解析字典学习(SADL)模型，并将分类器学习过程和字典学习过程分离，使用支持向量机代替原本的线性分类器，从而提出了基于结构性解析字典学习两阶段图像分类方法。本发明方法适用于一般情况下的图像分类问题，在人脸识别、场景识别、物体识别上的分类准确率均能超过原算法。

Description

一种基于结构性解析字典学习的两阶段图像分类方法

技术领域：

本发明属于计算机视觉领域，具体涉及一种基于结构性解析字典学习的两阶段图像分类方法。

背景技术：

近年来，稀疏表示和字典学习在计算机视觉和图像处理领域得到了广泛的应用。由于图像信号具有稀疏性特征，稀疏表示和字典学习在图像分类、图像去噪、图像压缩、图像修复以及异常行为检测等方面均取得了不错的效果。

稀疏表示是指使用过完备的字典将信号表示为稀疏向量，字典学习的目的是从感兴趣的信号中学习自适应字典，经过学习的自适应字典能比预先定义的字典更好地表示信号，这种方法最初被用于图像去噪。根据稀疏表示模型的不同，字典学习可以划分成：基于稀疏综合模型的字典学习和基于稀疏解析模型的字典学习。

字典学习在图像去噪上的成功应用触发了其在图像分类领域的应用。通过向训练数据中添加标签信息，字典学习能够训练出具有判别性的字典。判别性字典学习也可以分为两大类：基于稀疏综合模型的判别式字典学习和基于稀疏解析模型的判别式字典学习。基于支持向量的字典学习(SVGDL)算法向稀疏综合模型引入系数平方距离的加权和，能取得较好的分类结果。然而稀疏综合模型在计算编码系数时会遭遇NP-hard问题，计算复杂度相对来说较高。稀疏解析模型的编码过程计算复杂度较低。费希尔判别词典学习(FDDL)学习结构化解析字典，并对编码系数施加费希尔准则以增强识别能力，然而识别准确率不够理想。为了提高分类准确度，缩短优化时间，结构性解析字典学习(SADL)算法向解析模型中引入了编码系数的结构性映射。然而SADL算法中采用的线性分类器对分类效果的提升并不理想，且SADL中训练参数过多，造成了不必要的时间开销和内存开销。

针对以上问题，本发明提出了一种基于结构性解析字典学习的两阶段图像分类方法，在第一阶段简化了SADL算法，省去原模型中在线性分类器下的最小化分类误差约束，为进一步缩小计算成本，用Frobenius范数取代原始的l₁范数来约束表示系数，在此基础上建立了新的结构性解析字典学习模型；在第二阶段的训练集是训练样本在解析字典上的结构性稀疏表示系数，学习支持向量分类器来代替原始的线性分类器，进而实现测试集上的图像分类任务。

发明内容：

本发明解决的问题为：克服现有技术的不足，提供一种基于结构性解析字典学习的两阶段图像分类方法，在简化原SADL算法的基础上，加快训练时间，进一步提高图像分类准确率。

本发明公开了一种基于结构性解析字典学习的两阶段图像分类方法，包括：

步骤1：对原始数据集进行特征提取，并构建训练集X和测试集

步骤2：阶段1，建立结构性解析字典学习模型；

步骤3：在训练集上对结构性解析字典学习模型进行优化求解，求得解析字典Ω和投影矩阵Q；

步骤4：阶段2，建立支持向量机学习模型，基于适应于训练集的解析字典Ω和投影矩阵Q，获取训练集的稀疏表示系数ΩX，基于训练集上的结构性稀疏表示系数，训练支持向量机分类器；

步骤5：使用训练得到的解析字典Ω和投影矩阵Q，获取测试集的结构性稀疏表示系数，以此作为测试集，采用适应于训练集的支持向量机(SVM)分类器对其进行分类。

在上述的基于结构性解析字典学习的两阶段图像分类方法中，所述的对原始数据集进行特征提取，并且构建训练集X和测试集

包括：

对原始数据集进行特征提取时，可以采取图像的随机特征或基于尺度不变特征变换(SIFT)的空间金字塔特征，两者都能实现数据的降维；随机特征使用随机矩阵将图像投影到固定维数的向量中，并将生成的特征向量化为长度为1的单位向量；基于SIFT的空间金字塔特征提取方式如下：在三个大小的网格上提取密集的SIFT描述符计算空间金字塔匹配特征，网格大小分别是1x1，2x2，4x4，接着使用基于矢量量化的编码方法提取中间层特征，并使用标准的最大池方法来构建高维池特征，最后通过主成分分析对数据降维。

将经过特征处理的数据划分为两部分，一部分作为训练集，另一部分作为测试集。

在上述的基于结构性解析字典学习的两阶段图像分类方法，阶段1，建立结构性解析字典学习模型，包括：

基于SADL模型提出了新的结构性字典学习模型，使用Frobenius范数替代l₁范数正则项，去掉了基于线性分类器的分类误差项约束，具体的模型如下：

式中，

是训练集，

是解析字典，

代表稀疏表示矩阵，

代表投影矩阵，

代表结构矩阵，ε为结构化约束松弛的容差，λ₁、λ₂和ρ是正则化参数；投影矩阵Q将稀疏表示矩阵U投影为结构矩阵H上。

结构矩阵H是根据训练集的标签预先定义的，用以保证类内表示的一致性，其定义如下所示：

其中，H的第i列向量

表示第i个样本关于其所属类别(第j类)的表示系数，H是由分块对角矩阵组成的方阵，H中每一个对角块均由全1的矩阵组成，第i个样本预先定义的列向量

中为1的元素应位于大矩阵H的第j个对角块里，这就意味着H中的每个对角块矩阵表示每个类的子空间，对角块结构是为了使得属于不同类的样本间的映射表示不同。

在上述的基于结构性解析字典学习的两阶段图像分类方法，在训练集上对结构性解析字典学习模型进行优化求解，求得解析字典Ω和投影矩阵Q，包括：

采用交替迭代的方法对模型求解，引入对偶变量Z，依次更新变量U，Q，Ω，ε，Z。更新其中任何一个变量时，需要固定其他变量，反复迭代①-⑤，当达到最大迭代次数或目标函数值收敛时，停止迭代，得到最优结果。

为了方便优化求解，首先采用增广拉格朗日函数改写原始模型，引入对偶变量Z，将有约束的优化问题转换成无约束的优化问题，改写后的模型如下：

更新过程中，为了保证算法的收敛性，引入关于学习率的参数η_U和η_Q，其中，η_U是经拉格朗日函数改后的模型关于变量U的学习率，η_Q是模型关于变量Q的学习率。

①固定Ω，Q，Z，ε，更新U：

当Ω，Q，Z，ε固定时，

和

属于优化过程中的无关项，可以被省略，采用梯度下降法更新U，具体过程如下：

②固定U，Ω，Z，ε，更新Q：

当变量U，Ω，Z，ε被固定时，

和

属于变量Q的无关项，可被省略，简化后的更新过程如下：

③固定U，Q，Z，ε，更新Ω：

当变量U，Q，Z，ε被固定后，省略目标函数中与Ω的更新无关的变量，更新Ω的过程可以被简化成：

通过将目标函数相对于Ω的梯度设置为零，可以得到Ω的解析解，即：

Ω^t+1＝U_t+1X^T(XX^T+λ₂I)^-1

④固定U，Q，Z，Ω，更新ε：

⑤固定U，Q，Ω，ε，更新Z：

Z_t+1＝Z_t+μ(H-Q_t+1U_t+1)

在上述的基于结构性解析字典学习的两阶段图像分类方法，阶段2，建立支持向量机学习模型，基于适应于训练集的解析字典Ω和投影矩阵Q，获取训练集的稀疏表示系数ΩX，基于训练集上的结构性稀疏表示系数，训练支持向量机分类器，包括：

使用支持向量机分类代替SADL中线性分类器，该支持向量机模型使用训练集上稀疏表示系数的投影完成训练，具体模型如下：

其中，QU＝QΩX是训练集上稀疏表示系数ΩX在投影矩阵Q的投影，c表示类别数，n表示样本数，D＝[d₁，d₂，...，d_k，...，d_c]和b＝[b₁，b₂，...，b_k，...，b_c]分别是支持向量机的超平面和偏差，d_k是D中的第k类超平面，b_k代表第k类偏差，用于分割训练集上属于第k类的编码系数的投影和不属于第k类的编码系数的投影，θ＞0是支持向量机中的固定参数，

是第k类数据的样本标签，

是平方铰链损失函数。

该平方铰链损失函数的定义如下：

平方铰链损失函数用于反映分类误差，当

时，平方铰链损失函数定义为

当

时，平方铰链损失函数

在阶段1更新完变量U，Q，Ω，ε，Z后，可以获取训练集上的结构性稀疏表示系数QΩX，关于SVM中<D，b>的更新可以视为c类一对多线性SVM分类，用已有的多元支持向量机算法实现对支持向量机参数<D，b>的更新。

在上述的基于结构性解析字典学习的两阶段图像分类方法中，使用训练得到的解析字典Ω和投影矩阵Q，获取测试集的结构性稀疏表示系数，以此作为测试集，采用适应于训练集的支持向量机(SVM)分类器对其进行分类，包括：

首先将训练集X作为结构性解析字典学习模型的输入，训练出适用于该训练集的解析字典Ω和投影矩阵Q；然后用上述的解析字典Ω，投影系数Q和训练集X训练支持向量机参数<D，b>；最后使用训练集上的解析字典Ω和投影系数Q对测试集

进行编码，编码后的结构性稀疏表示系数为

再将

输入到训练好的支持向量机中，计算

矩阵A的第i个列向量的第j个元素表示第i个测试样本a_i属于第j类的置信度，a_i分类结果判定为属于置信度最高的那一类。

本发明具有以下优点：

提出了新的用于图像分类的模型和方法，该方法分为两部分完成，在第一部分学习解析字典，使在该解析字典下的表示系数能投影到结构性子空间中，在第二部分训练SVM分类器，跟以往的线性分类器相比，SVM分类器能够提高分类精确度，该分类方法可以广泛用于物品识别，人脸识别和场景识别等；跟以往的算法相比，本发明提出的字典学习方法，能达到较高的准确度。

附图说明：

图1是本发明的流程图；

图2是AR数据集中部分人脸样本示意图；

图3是Scene15数据库中部分场景示意图；

图4是Caltech101数据库中部分物体示意图。

具体实施方式：

实施例1：

参照图1，该实例基于AR数据库进行人脸识别实验。如图2所示，AR数据集是一种应用广泛的人脸图像数据集，共有2600张人脸图像，这些照片来自50名男性和50名女性。每个图像的大小为165×120。该数据集涉及了很多方面的面部变化，例如不同的照明条件、表情和面部伪装。

在步骤1中采取图像的随机特征对AR数据集进行特征提，用一个随机矩阵将AR数据库中的所有图片投影成540维的向量，再将特征向量化为长度为1的单位向量。特征提取完毕后，每个个体随机选取20个特征向量作为训练集X，剩下的所有特征向量则作为测试集

训练集X作为字典学习模型的输入，得到适用于训练集的解析字典Ω，投影矩阵Q，SVM分类器参数。定义结构矩阵H每类含有5个列向量，解析字典Ω的子字典含有5个字典原子，解析字典总的原子数为500。参数设置如下：λ₁＝1e-4，λ₂＝1e-1，θ＝0.5。设置最大迭代次数为200。在训练集X上训练模型后，采用支持向量机(SVM)分类。在本例中，类别数为100类。

为了保证对比实验的公平性，将本发明方法和已有的基于字典学习的分类方法在相同实验设置下进行实验，其余参与比较的分类方法有FDDL、SVGDL、LC-KSVD、RBD-DPL、SADL。

表1不同方法在AR数据库上的分类结果

方法	准确率
		FDDL	96.9％
SVGDL	94.6％
		LC-KSVD	97.8％
RBD-DPL	97.6％
		SADL	97.2％
本发明方法	98.0％

该算法在AR数据库上识别准确率达到了98.0％，超过了与其对比的其他所有算法，比SADL算法的分类准确率提升了0.8％。

实施例2：

在Scene15数据集上进行场景分类实验，Scene15数据库内含来自15个自然场景类别的4485幅场景图像，每个类别包含200副图像，每个图像的大小约为250×300像素。如图3所示，该数据集场景包括厨房、郊区、客厅等等。

在本实施例中，操作步骤于实施例1的步骤类似，该实例使用基于SIFT的空间金字塔特征提取方式来提取图像特征，提取完成后通过主成分分析技术将特征的维数降低到3000维。分配训练集和测试集时，每类随机选取100张图像的特征作为训练集，其余图像的特征作为测试集。输入参数λ₁＝1e-1，λ₂＝3e-4，θ＝5，设置最大迭代次数为200。参与比较的分类方法有FDDL、SVGDL、LC-KSVD、RBD-DPL、SADL。

表2不同方法在Scene15数据库上的分类结果

方法	准确率
		FDDL	92.3％
SVGDL	96.8％
		LC-KSVD	92.9％
RBD-DPL	98.0％
		SADL	98.5％
本发明方法	98.8％

本论文发明方法在Scene15数据集上达到了98.8％的准确率，比其他算法的准确率都要高，比SADL算法的准确率提升了0.3％。

实施例3：

在Caltech101数据集上进行对象分类实验，Caltech101数据库包含来自101个对象类别的9144幅图像，对象类别包括动物、车辆、花卉等。如图4所示，这些图像在物体大小、姿势、位置和形状上都有很大的变化，因此分类难度较大。

操作步骤与实施例1和实施例2类似，该实例使用基于SIFT的空间金字塔特征提取方式来提取图像特征，提取完成后通过主成分分析技术将特征的维数降低到3000维。分配训练集和测试集时，每类随机选取30张图像的特征作为训练集，其余图像的特征作为测试集。输入参数λ₁＝1e-3，λ₂＝3，θ＝1，设置最大迭代次数为200。参与比较的分类方法有FDDL、SVGDL、LC-KSVD、RBD-DPL、SADL。

表3不同方法在Caltech101数据库上的分类结果

方法	准确率
		FDDL	73.1％
SVGDL	76.7％
		LC-KSVD	73.6％
RBD-DPL	72.8％
		SADL	74.5％
本发明方法	77.4％

从表中可知，本发明方法在Caltech101数据集上达到了77.4％的准确率，高于与之对比的其他算法，本发明方法比SADL方法的识别准确度提升了2.9％。

Claims

1.一种基于结构性解析字典学习的两阶段图像分类方法，其特征在于：

对原始数据集进行特征提取，构建训练集X和测试集

阶段1，建立结构性解析字典学习模型；

在训练集上对结构性解析字典学习模型进行优化求解，求得解析字典Ω和投影矩阵Q；

阶段2，建立支持向量机学习模型，基于适应于训练集的解析字典Ω和投影矩阵Q，获取训练集的稀疏表示系数ΩX，基于训练集上的结构性稀疏表示系数，训练支持向量机分类器；

使用训练得到的解析字典Ω和投影矩阵Q，获取测试集的结构性稀疏表示系数，以此作为测试集，采用适应于训练集的支持向量机(SVM)分类器对其进行分类。

2.根据权利要求1所述的基于结构性解析字典学习的两阶段图像分类方法，其特征在于所述的阶段1，建立结构性解析字典学习模型，包括：

基于SADL模型提出了新的结构性字典学习模型，使用Frobenius范数替代l₁范数正则项，去掉了基于线性分类器的分类误差项约束；具体的模型如下：

s.t.H＝QU+ε

式中，

是训练集，

是解析字典，

代表稀疏表示矩阵，

代表投影矩阵，

代表结构矩阵，ε为结构化约束松弛的容差，λ₁和λ₂和ρ是正则化参数；投影矩阵Q将稀疏表示矩阵U投影为结构矩阵H上，结构矩阵H是根据训练集的标签预先定义的，用以保证类内表示的一致性，其定义如下所示：

其中，H的第i列向量

3.根据权利要求1所述的基于结构性解析字典学习的两阶段图像分类方法，其特征在于所述的对结构性解析字典学习模型进行优化求解，求得解析字典Ω和投影矩阵Q，包括：

在优化求解时，采用交替迭代的方法对模型求解，引入对偶变量Z，依次更新变量U，Q，Ω，ε，Z，更新其中任何一个变量时，需要固定其他变量，反复迭代①-⑤，当达到最大迭代次数或目标函数值收敛时，停止迭代，得到最优结果：

①固定Ω，Q，Z，ε，更新U；

②固定U，Ω，Z，ε，更新Q；

③固定U，Q，Z，ε，更新Ω；

④固定U，Q，Z，Ω，更新ε；

⑤固定U，Q，Ω，ε，更新Z；

在目标函数值收敛或达到最大迭代次数时停止迭代，得到最优的输出结果。

4.根据权利要求1所述的基于结构性解析字典学习的两阶段图像分类方法，其特征在于所述的阶段2，建立支持向量机学习模型，基于适应于训练集的解析字典Ω和投影矩阵Q，获取训练集的稀疏表示系数ΩX，基于训练集上的结构性稀疏表示系数，训练支持向量机分类器，包括：

使用支持向量机分类器代替SADL中线性分类器，该支持向量机模型使用训练集上稀疏表示系数的投影完成训练，具体模型如下：

其中，QU＝QΩX是训练集上的结构性稀疏表示系数，c表示类别数，n表示样本数，D＝[d₁，d₂，...，d_k，...，d_c]和b＝[b₁，b₂，...，b_k，...，b_c]分别是支持向量机的超平面和偏差，d_k是D中的第k类超平面，b_k代表第k类偏差，用于分割训练集上属于第k类的编码系数的投影和不属于第k类的编码系数的投影，θ＞0是支持向量机中的固定参数，