CN114330535A

CN114330535A - 一种基于支持向量正则化字典对学习的模式分类方法

Info

Publication number: CN114330535A
Application number: CN202111603440.2A
Authority: CN
Inventors: 董静; 杨柳; 成巍; 刘厂; 罗晓清
Original assignee: Nanjing Tech University
Current assignee: Nanjing Tech University
Priority date: 2021-12-24
Filing date: 2021-12-24
Publication date: 2022-04-12

Abstract

本发明公开了一种基于支持向量正则化字典对学习的模式分类方法，属于计算机视觉技术领域。该方法包括：将训练图像和测试图像映射到低维空间，得到训练集和测试集；基于训练集采用支持向量正则化的字典对学习模型学习综合‑解析字典对和支持向量机分类器；利用训练好的字典对生成测试集编码系数；将测试集编码系数输入到支持向量机分类器中，得到测试集的类别标签，以类别标签作为分类结果。本发明基于字典对学习模型，提出融合支持向量的判别性分类模型并进行优化求解，适用于一般情况下的模式识别和图像分类问题，在人脸识别和场景识别上能达到较高的分类准确度。

Description

一种基于支持向量正则化字典对学习的模式分类方法

技术领域：

本发明属于计算机视觉领域，具体涉及一种基于支持向量正则化字典对学习的模式分类方法。

背景技术：

近年来，稀疏表示和字典学习被广泛应用于图像去噪、图像分类、图像压缩、图像修复、人脸识别和异常行为检测等领域，是机器学习、模式识别和计算机视觉领域中的一大热门问题。

对于图像分类问题，稀疏表示可以被视为特征提取过程：对于每个输入信号编码，得到其对应的稀疏表示系数，再将稀疏表示系数作为分类器的输入，得到分类结果。在这一过程中引入信号的分类误差，能提高分类的准确度。近年来，基于字典学习的模式分类的已有研究大致可以分为三种模型，基于综合模型的分类、基于解析模型的分类和基于综合-解析字典对的分类。其中，解析模型在稀疏编码时比综合模型更高效，基于综合模型的字典学习则取得了较好的分类效果，而综合-解析字典对学习模型则能兼顾两者的优点。

已有的基于字典学习的模式分类方法通常在字典学习中采用标签信息以提升分类效果：一类方法在模型中引入针对稀疏表示系数的分类器，如基于支持向量的字典学习(SVGDL)算法，另一类方法引入结构性字典以增强模型的判别力，如判别式字典对学习(DPL)算法。然而，前者只关注稀疏表示系数的判别性，而忽略了学习字典本身生成判别性系数的能力，在一定程度上影响了分类的准确度；后者关注字典本身的判别性，却忽视了稀疏表示系数的判别性。

针对以上问题，本发明提出一种基于支持向量正则化字典对学习的模式分类方法，将稀疏表示系数的判别性和结构性字典对的判别性融合为一个分类模型，构建字典对学习和分类器联合训练模型。

发明内容：

为了提高分类准确率，提出了一种基于支持向量正则化字典对学习的模式分类方法，在字典对学习框架中同时学习结构性字典对和针对稀疏表示系数的支持向量机分类器，以得到更好的分类结果。

为解决上述技术问题，本发明公开了一种基于支持向量正则化字典对学习的图像分类方法，包括：

步骤1：对训练图像和测试的图像进行特征提取，并构建训练集X和测试集

步骤2：建立基于支持向量正则化字典对学习模型；

步骤3：对模型进行优化求解，将训练集X输入到基于支持向量正则化字典对学习的模型中，得到解析字典P，综合字典D，编码系数A和支持向量机分类器<U，b>；

步骤4：使用步骤3训练得到的解析字典P对测试集

进行编码，得到测试集编码系数

步骤5：将步骤4得到的测试集编码系数

输入到步骤3中训练所得的支持向量机分类器中，获得分类结果。

在上述的基于支持向量正则化字典对学习的图像分类方法中，对训练图像和测试的图像进行特征提取，并构建训练集X和测试集

包括：

①提取训练图像和测试图像的随机特征，用一个随机矩阵将图像投影到固定维度的向量中，特征维数由随机矩阵决定，并将生成的特征向量进行归一化处理，化为长度为1的单位向量。

②从每一类中选出一定量的数据作为训练集X，剩下的数据作为测试集

在上述的基于支持向量正则化字典对学习的图像分类方法中，基于支持向量正则化字典对学习模型，包括：

其中，λ₁，λ₂，λ₃是固定标量，X＝[X₁，X₂，...，X_k]为训练集的特征，K表示样本数，D＝[D₁，D₂，...，D_k]表示结构性综合字典，P＝[P₁；P₂，...；P_k]表示结构性解析字典，A＝[A₁，A₂，...，A_k]表示编码系数，综合字典D_k和解析字典P_k表示第k类输入数据X_k所对应的字典对，

表示X中X_i的补集，U＝[u₁，u₂，...，u_k]表示超平面，b＝[b₁，b₂，...，b_k]^T表示偏差，

表示第k类所对应的标签向量，若x_i属于第k类样本，

x_j不属于第k类样本，

d_i表示D的第i列，

表示数据保真项，

f(A，y^k，u_k，b_k)表示判别项；

用以避免平凡解D_k＝0，使模型更加稳定；

是对解析字典的约束，它确保解析字典具有相对较小的Frobenius范数和单位行范数；具体的，判别项f(A，y^k，u_k，b_k)的定义如下：

其中，a_i是系数矩阵A的列向量，

是损失函数，

是正则项，当

时，损失函数

当

时，

在上述的基于支持向量正则化字典对学习的图像分类方法中，对所述的模型进行优化求解，将训练集X输入到基于支持向量正则化字典对学习的模型中，得到解析字典P，综合字典D，编码系数A和支持向量机分类器<U，b>，包括：

采用循环迭代的方法求解，依次更新变量A，P，D和<U，b>；更新某个变量时，需要固定其他的变量，反复迭代，在目标函数值收敛或达到最大迭代次数时停止迭代，得到最优的输出结果。

(a)固定P，D，<U，b>，更新A：

当P，D，<U，b>固定不变时，省略

和

因为它们对变量A的优化求解没有影响。A的优化可以简化成如下问题：

的近似可以用损失函数代替。损失函数的定义如下：

优化公式可以进一步写成：

通过对a_i求导并令导数等于0，可得到如下解析解：

当

时，a_i＝(D^TD+λ₁I)^-1(λ₁Px_i+D^Tx_i)；

当

时，

(b)固定A，D，<U，b>，更新P：

由于集合Γ的约束是具有相对较小的Frobenius范数和单位行范数的矩阵，因此每个解析子字典的优化问题可表述如下：

通过对P_k求导，并令导数为零，可以获得P_k的最优解为：

为了满足Γ中的对解析字典各行的单位范数约束，经上式得到的解析字典P_k的每一行需要进行行标准化。

(c)固定A，P，<U，b>，更新D：

当A，P，<U，b>固定不变时，

和f(A，y^k，u_k，b_k)位与优化变量D无关的项，可以被省略。关于D的优化问题可以被简化成：

通过引入对偶变量S，以上优化问题可以写成：

交替方向乘子法可以有效地求解该问题，更详细的求解步骤如下，r为迭代次数：

(d)固定A，P，D，更新<U，b>：

当A，P和D固定不变时，关于<U，b>的优化求解是多分类支持向量机问题，即求解一下优化问题：

由于函数

处处可导，可以用基于梯度下降的支持向量机学习算法来求解

在上述的基于支持向量正则化字典对学习的图像分类方法中，所述的用学习所得的解析字典P对测试集

编码得到测试集编码系数

包括：

将在训练集上训练得到的解析字典P和测试集

相乘，得到测试集编码系数

该编码系数将用于步骤5中。

在上述的基于支持向量正则化字典对学习的图像分类方法中，所述的将测试集编码系数

输入到训练好的支持向量机分类器中，获得分类结果，包括：

测试集编码系数

输入到步骤3中训练好的支持向量机分类器参数<U，b>中，计算

矩阵H的第i个列向量的第j个元素表示测试集的第i个样本

属于第j类的置信度，将

分类结果判定为所对应置信度最高的那一类。

本发明具有以下优点：

提出新的用于模式分类的模型和方法，同时学习结构性字典对和支持向量机分类器，能够在提高编码效率的同时提高分类精度。该分类方法在可以广泛用于人脸识别、物体识别和场景识别等模式识别问题。特别是针对人脸识别和场景识别的引用，本发明提出的字典学习方法，能达到较高的准确度。

附图说明：

图1是本发明的流程图；

图2是AR数据库中的人脸样本示意图；

图3是ExtendedYaleB数据库中人脸样本图；

图4是Scene15数据库中场景示意图；

图5是Caltech101数据库中物体示意图。

具体实施方式：

为使本发明的目的、技术方案和优点更加清晰，下面将结合附图和实施例对本发明公开的实施方法作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的保护范围。

实施例1：

该实例在AR数据库上进行人脸识别实验。AR数据库是一种应用广泛的人脸图像数据集，涉及到照明、表情、太阳镜和围巾遮挡等变化。这个数据库包含100个类别，50名男性和50名女性，每个类别包含不少于26个图像，每张图像的像素是165x120。AR数据库的部分样本图像如图2所示。

该基于支持向量正则化字典对学习的模式分类方法的具体实施步骤如下：

实例步骤1，对训练和测试图像进行特征提取并构建训练集和测试集

先对AR图像进行特征提取，用一个随机矩阵将AR数据库中的所有图片投影成540维的向量空间中，并进行归一化处理为单位向量，每类随机选取20张图像作为训练集，6张图像作为测试集。

实例步骤2，建立字典学习模型：

在本实施例中，X作为字典学习模型的输入，得到适用于训练集的解析字典P，综合字典D，编码系数A和支持向量机分类器参数<U，b>。每类字典选用6个字典原子，总体的解析字典P和综合字典D含有600个字典原子。在本实例中，λ₁＝1、λ₂＝1e-3、λ₃＝1e-5、

为了进行分类对比，在同样的实验设置下将本发明与现有的基于字典学习的分类方法：费希尔判别字典学习(FDDL)，标签一致奇异值分解字典学习算法(LC-KSVD1、LC-KSVD²)，投影字典对学习(DPL)和基于支持向量字典学习(SVGDL)进行分类正确率对比。

表1 不同方法在AR数据库上的分类结果

方法	本发明方法	FDDL	SVGDL
				分类正确率	98.7％	92.0％	94.6％
方法	LC-KSVD<sup>1</sup>	LC-KSVD<sup>2</sup>	DPL
				分类正确率	92.5％	93.7％	98.3％

该算法的精度高于以往的算法，在AR数据库上达到了最好的精度。本发明方法在AR数据库上的准确率达到98.7％，比DPL和SVGDL分别提高了0.4％和4.1％。

实施例2：

该实例在ExtendedYaleB数据集上进行人脸分类实验。Extended YaleB数据库是另一个广泛使用的人脸图像数据集，该数据集涉及到光照和表情的巨大变化。ExtendedYaleB数据库中有38个人的正面图像信息，每个人大约有64张图像，每张图像大小为168x192像素，总共有2414张图像。ExtendedYaleB数据库的部分样本图像如图3所示。

操作步骤与实施例1类似，在步骤一中每个类别随机选择32幅图像作为训练集，其余部分作为测试集。数据预处理中的特征提取方式同AR数据库类似，最终得到504维的图像特征，并对这些特征进行归一化处理。本实例的参数设置为λ₁＝2e-1、λ₂＝1e-2、λ₃＝1e-4、

表2 不同方法在ExtendedYaleB数据厍上的分类结果

方法	本发明方法	FDDL	SVGDL
				分类正确率	97.0％	91.9％	96.1％
方法	LC-KSVD<sup>1</sup>	LC-KSVD<sup>2</sup>	DPL
				分类正确率	94.5％	95.0％	97.5％

与FDDL、LC-KSVD1、LC-KSVD2和SVGDL相比，本发明方法具有优势，在ExtendedYaleB数据库上达到了97.0％的分类准确率。本发明方法采用结构化字典对学习支持向量，比SVGDL提高了0.9％。

实施例3：

该实例在Scene15数据集上进行场景分类实验。Scene15数据集中有15个自然场景类别共4485幅图像。每个目录至少包含200幅图像，平均图像大小约为250×300像素。该数据集包括厨房、郊区、生活、森林、海岸、工业、办公、公路、高层建筑、山区、城市内部、卧室、街道、房间、野外和商店场景类别，Scene15数据库的部分样本图像如图4所示。

操作步骤与实施例1和实施例2类似。该实例在每个类别中随机选择100张图像进行训练，并使用其余图像进行测试。为了提取图像的特征，该实例使用词袋模型和空间金字塔匹配框架来提取图像的特征，然后采用主成分分析技术将特征维数降低到3000。本实例的参数设置为λ₁＝1e-1、λ₂＝1e-4、λ₃＝1e-6、

为保证比较结果的公平性，在FDDL、LC-KSVD1、LC-KSVD2、DPL和SVGDL算法上与本发明方法采用相同的数据库和特征提取方法。

表3 不同方法在Scene15数据库上的分类结果

方法	本发明方法	FDDL	SVGDL
				分类正确率	97.3％	92.1％	96.1％
方法	LC-KSVD<sup>1</sup>	LC-KSVD<sup>2</sup>	DPL
				分类正确率	90.4％	92.9％	96.9％

可以看出本发明方法在Scene15数据集上取得了较高的分类准确率，比SVGDL提高了1.2％，比DPL提高了0.4％。

实施例4：

该实例在Caltech101数据集上进行场景分类实验。Caltech101数据集包含9144个图像和102个对象类别：101个对象类和一个背景类。图像包括动物、车辆、花卉、植物等。每个类别至少有31幅图像，部分样本图像如图5所示。此外，一个类别的图像在对象大小、姿势和位置上具有较大的形状变化，这增加了分类的难度。

操作步骤和实例1，实例2，实例3，实例4类似。在本实例中，随机选择每班30张图片进行训练，所有剩下的图片测试。基于词袋模型和空间金字塔匹配框架提取图像特征，并采用主成分分析将原始维特征缩减为3000维特征。本实例的参数设置为λ₁＝1e-1、λ₂＝5e-5、λ₃＝1e-5、

表4 不同方法在Caltech101数据库上的分类结果

方法	本发明方法	FDDL	SVGDL
				分类正确率	77.5％	73.2％	76.7％
方法	LC-KSVD<sup>1</sup>	LC-KSVD<sup>2</sup>	DPL
				分类正确率	73.4％	73.6％	73.9％

可以看出，本发明方法在Caltech101数据集上的识别率优于其他算法。该算法的识别率比DPL算法高0.8％，比SVGDL算法高3.6％。