CN114330535A - 一种基于支持向量正则化字典对学习的模式分类方法 - Google Patents
一种基于支持向量正则化字典对学习的模式分类方法 Download PDFInfo
- Publication number
- CN114330535A CN114330535A CN202111603440.2A CN202111603440A CN114330535A CN 114330535 A CN114330535 A CN 114330535A CN 202111603440 A CN202111603440 A CN 202111603440A CN 114330535 A CN114330535 A CN 114330535A
- Authority
- CN
- China
- Prior art keywords
- dictionary
- support vector
- test set
- learning
- classification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Image Analysis (AREA)
Abstract
本发明公开了一种基于支持向量正则化字典对学习的模式分类方法,属于计算机视觉技术领域。该方法包括:将训练图像和测试图像映射到低维空间,得到训练集和测试集;基于训练集采用支持向量正则化的字典对学习模型学习综合‑解析字典对和支持向量机分类器;利用训练好的字典对生成测试集编码系数;将测试集编码系数输入到支持向量机分类器中,得到测试集的类别标签,以类别标签作为分类结果。本发明基于字典对学习模型,提出融合支持向量的判别性分类模型并进行优化求解,适用于一般情况下的模式识别和图像分类问题,在人脸识别和场景识别上能达到较高的分类准确度。
Description
技术领域:
本发明属于计算机视觉领域,具体涉及一种基于支持向量正则化字典对学习的模式分类方法。
背景技术:
近年来,稀疏表示和字典学习被广泛应用于图像去噪、图像分类、图像压缩、图像修复、人脸识别和异常行为检测等领域,是机器学习、模式识别和计算机视觉领域中的一大热门问题。
对于图像分类问题,稀疏表示可以被视为特征提取过程:对于每个输入信号编码,得到其对应的稀疏表示系数,再将稀疏表示系数作为分类器的输入,得到分类结果。在这一过程中引入信号的分类误差,能提高分类的准确度。近年来,基于字典学习的模式分类的已有研究大致可以分为三种模型,基于综合模型的分类、基于解析模型的分类和基于综合-解析字典对的分类。其中,解析模型在稀疏编码时比综合模型更高效,基于综合模型的字典学习则取得了较好的分类效果,而综合-解析字典对学习模型则能兼顾两者的优点。
已有的基于字典学习的模式分类方法通常在字典学习中采用标签信息以提升分类效果:一类方法在模型中引入针对稀疏表示系数的分类器,如基于支持向量的字典学习(SVGDL)算法,另一类方法引入结构性字典以增强模型的判别力,如判别式字典对学习(DPL)算法。然而,前者只关注稀疏表示系数的判别性,而忽略了学习字典本身生成判别性系数的能力,在一定程度上影响了分类的准确度;后者关注字典本身的判别性,却忽视了稀疏表示系数的判别性。
针对以上问题,本发明提出一种基于支持向量正则化字典对学习的模式分类方法,将稀疏表示系数的判别性和结构性字典对的判别性融合为一个分类模型,构建字典对学习和分类器联合训练模型。
发明内容:
为了提高分类准确率,提出了一种基于支持向量正则化字典对学习的模式分类方法,在字典对学习框架中同时学习结构性字典对和针对稀疏表示系数的支持向量机分类器,以得到更好的分类结果。
为解决上述技术问题,本发明公开了一种基于支持向量正则化字典对学习的图像分类方法,包括:
步骤2:建立基于支持向量正则化字典对学习模型;
步骤3:对模型进行优化求解,将训练集X输入到基于支持向量正则化字典对学习的模型中,得到解析字典P,综合字典D,编码系数A和支持向量机分类器<U,b>;
①提取训练图像和测试图像的随机特征,用一个随机矩阵将图像投影到固定维度的向量中,特征维数由随机矩阵决定,并将生成的特征向量进行归一化处理,化为长度为1的单位向量。
在上述的基于支持向量正则化字典对学习的图像分类方法中,基于支持向量正则化字典对学习模型,包括:
其中,λ1,λ2,λ3是固定标量,X=[X1,X2,...,Xk]为训练集的特征,K表示样本数,D=[D1,D2,...,Dk]表示结构性综合字典,P=[P1;P2,...;Pk]表示结构性解析字典,A=[A1,A2,...,Ak]表示编码系数,综合字典Dk和解析字典Pk表示第k类输入数据Xk所对应的字典对,表示X中Xi的补集,U=[u1,u2,...,uk]表示超平面,b=[b1,b2,...,bk]T表示偏差,表示第k类所对应的标签向量,若xi属于第k类样本,xj不属于第k类样本,di表示D的第i列,表示数据保真项,f(A,yk,uk,bk)表示判别项;用以避免平凡解Dk=0,使模型更加稳定;是对解析字典的约束,它确保解析字典具有相对较小的Frobenius范数和单位行范数;具体的,判别项f(A,yk,uk,bk)的定义如下:
在上述的基于支持向量正则化字典对学习的图像分类方法中,对所述的模型进行优化求解,将训练集X输入到基于支持向量正则化字典对学习的模型中,得到解析字典P,综合字典D,编码系数A和支持向量机分类器<U,b>,包括:
采用循环迭代的方法求解,依次更新变量A,P,D和<U,b>;更新某个变量时,需要固定其他的变量,反复迭代,在目标函数值收敛或达到最大迭代次数时停止迭代,得到最优的输出结果。
(a)固定P,D,<U,b>,更新A:
优化公式可以进一步写成:
通过对ai求导并令导数等于0,可得到如下解析解:
(b)固定A,D,<U,b>,更新P:
由于集合Γ的约束是具有相对较小的Frobenius范数和单位行范数的矩阵,因此每个解析子字典的优化问题可表述如下:
通过对Pk求导,并令导数为零,可以获得Pk的最优解为:
为了满足Γ中的对解析字典各行的单位范数约束,经上式得到的解析字典Pk的每一行需要进行行标准化。
(c)固定A,P,<U,b>,更新D:
通过引入对偶变量S,以上优化问题可以写成:
交替方向乘子法可以有效地求解该问题,更详细的求解步骤如下,r为迭代次数:
(d)固定A,P,D,更新<U,b>:
当A,P和D固定不变时,关于<U,b>的优化求解是多分类支持向量机问题,即求解一下优化问题:
本发明具有以下优点:
提出新的用于模式分类的模型和方法,同时学习结构性字典对和支持向量机分类器,能够在提高编码效率的同时提高分类精度。该分类方法在可以广泛用于人脸识别、物体识别和场景识别等模式识别问题。特别是针对人脸识别和场景识别的引用,本发明提出的字典学习方法,能达到较高的准确度。
附图说明:
图1是本发明的流程图;
图2是AR数据库中的人脸样本示意图;
图3是ExtendedYaleB数据库中人脸样本图;
图4是Scene15数据库中场景示意图;
图5是Caltech101数据库中物体示意图。
具体实施方式:
为使本发明的目的、技术方案和优点更加清晰,下面将结合附图和实施例对本发明公开的实施方法作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的保护范围。
实施例1:
该实例在AR数据库上进行人脸识别实验。AR数据库是一种应用广泛的人脸图像数据集,涉及到照明、表情、太阳镜和围巾遮挡等变化。这个数据库包含100个类别,50名男性和50名女性,每个类别包含不少于26个图像,每张图像的像素是165x120。AR数据库的部分样本图像如图2所示。
该基于支持向量正则化字典对学习的模式分类方法的具体实施步骤如下:
实例步骤1,对训练和测试图像进行特征提取并构建训练集和测试集
先对AR图像进行特征提取,用一个随机矩阵将AR数据库中的所有图片投影成540维的向量空间中,并进行归一化处理为单位向量,每类随机选取20张图像作为训练集,6张图像作为测试集。
实例步骤2,建立字典学习模型:
在本实施例中,X作为字典学习模型的输入,得到适用于训练集的解析字典P,综合字典D,编码系数A和支持向量机分类器参数<U,b>。每类字典选用6个字典原子,总体的解析字典P和综合字典D含有600个字典原子。在本实例中,λ1=1、λ2=1e-3、λ3=1e-5、
为了进行分类对比,在同样的实验设置下将本发明与现有的基于字典学习的分类方法:费希尔判别字典学习(FDDL),标签一致奇异值分解字典学习算法(LC-KSVD1、LC-KSVD2),投影字典对学习(DPL)和基于支持向量字典学习(SVGDL)进行分类正确率对比。
表1 不同方法在AR数据库上的分类结果
方法 | 本发明方法 | FDDL | SVGDL |
分类正确率 | 98.7% | 92.0% | 94.6% |
方法 | LC-KSVD<sup>1</sup> | LC-KSVD<sup>2</sup> | DPL |
分类正确率 | 92.5% | 93.7% | 98.3% |
该算法的精度高于以往的算法,在AR数据库上达到了最好的精度。本发明方法在AR数据库上的准确率达到98.7%,比DPL和SVGDL分别提高了0.4%和4.1%。
实施例2:
该实例在ExtendedYaleB数据集上进行人脸分类实验。Extended YaleB数据库是另一个广泛使用的人脸图像数据集,该数据集涉及到光照和表情的巨大变化。ExtendedYaleB数据库中有38个人的正面图像信息,每个人大约有64张图像,每张图像大小为168x192像素,总共有2414张图像。ExtendedYaleB数据库的部分样本图像如图3所示。
操作步骤与实施例1类似,在步骤一中每个类别随机选择32幅图像作为训练集,其余部分作为测试集。数据预处理中的特征提取方式同AR数据库类似,最终得到504维的图像特征,并对这些特征进行归一化处理。本实例的参数设置为λ1=2e-1、λ2=1e-2、λ3=1e-4、
表2 不同方法在ExtendedYaleB数据厍上的分类结果
方法 | 本发明方法 | FDDL | SVGDL |
分类正确率 | 97.0% | 91.9% | 96.1% |
方法 | LC-KSVD<sup>1</sup> | LC-KSVD<sup>2</sup> | DPL |
分类正确率 | 94.5% | 95.0% | 97.5% |
与FDDL、LC-KSVD1、LC-KSVD2和SVGDL相比,本发明方法具有优势,在ExtendedYaleB数据库上达到了97.0%的分类准确率。本发明方法采用结构化字典对学习支持向量,比SVGDL提高了0.9%。
实施例3:
该实例在Scene15数据集上进行场景分类实验。Scene15数据集中有15个自然场景类别共4485幅图像。每个目录至少包含200幅图像,平均图像大小约为250×300像素。该数据集包括厨房、郊区、生活、森林、海岸、工业、办公、公路、高层建筑、山区、城市内部、卧室、街道、房间、野外和商店场景类别,Scene15数据库的部分样本图像如图4所示。
操作步骤与实施例1和实施例2类似。该实例在每个类别中随机选择100张图像进行训练,并使用其余图像进行测试。为了提取图像的特征,该实例使用词袋模型和空间金字塔匹配框架来提取图像的特征,然后采用主成分分析技术将特征维数降低到3000。本实例的参数设置为λ1=1e-1、λ2=1e-4、λ3=1e-6、为保证比较结果的公平性,在FDDL、LC-KSVD1、LC-KSVD2、DPL和SVGDL算法上与本发明方法采用相同的数据库和特征提取方法。
表3 不同方法在Scene15数据库上的分类结果
方法 | 本发明方法 | FDDL | SVGDL |
分类正确率 | 97.3% | 92.1% | 96.1% |
方法 | LC-KSVD<sup>1</sup> | LC-KSVD<sup>2</sup> | DPL |
分类正确率 | 90.4% | 92.9% | 96.9% |
可以看出本发明方法在Scene15数据集上取得了较高的分类准确率,比SVGDL提高了1.2%,比DPL提高了0.4%。
实施例4:
该实例在Caltech101数据集上进行场景分类实验。Caltech101数据集包含9144个图像和102个对象类别:101个对象类和一个背景类。图像包括动物、车辆、花卉、植物等。每个类别至少有31幅图像,部分样本图像如图5所示。此外,一个类别的图像在对象大小、姿势和位置上具有较大的形状变化,这增加了分类的难度。
操作步骤和实例1,实例2,实例3,实例4类似。在本实例中,随机选择每班30张图片进行训练,所有剩下的图片测试。基于词袋模型和空间金字塔匹配框架提取图像特征,并采用主成分分析将原始维特征缩减为3000维特征。本实例的参数设置为λ1=1e-1、λ2=5e-5、λ3=1e-5、
表4 不同方法在Caltech101数据库上的分类结果
方法 | 本发明方法 | FDDL | SVGDL |
分类正确率 | 77.5% | 73.2% | 76.7% |
方法 | LC-KSVD<sup>1</sup> | LC-KSVD<sup>2</sup> | DPL |
分类正确率 | 73.4% | 73.6% | 73.9% |
可以看出,本发明方法在Caltech101数据集上的识别率优于其他算法。该算法的识别率比DPL算法高0.8%,比SVGDL算法高3.6%。
Claims (5)
2.根据权利要求1所述的一种基于支持向量正则化字典对学习的模式分类方法,其特征在于所述的建立基于支持向量正则化字典对学习模型,包括:
其中,λ1,λ2,λ3是固定标量,X=[X1,X2,...,Xk]为训练集的特征,K表示样本数,D=[D1,D2,...,Dk]表示结构性综合字典,P=[P1;P2,...;Pk]表示结构性解析字典,A=[A1,A2,...,Ak]表示编码系数,综合字典Dk和解析字典Pk表示第k类输入数据Xk所对应的字典对,表示X中Xi的补集,U=[u1,u2,...,uk]表示超平面,b=[b1,b2,...,bk]T表示偏差,表示第k类所对应的标签向量,若xi属于第k类样本,xj不属于第k类样本,di表示D的第i列,表示数据保真项,f(A,yk,uk,bk)表示判别项;用以避免平凡解Dk=0,使模型更加稳定;Pk∈Γ,是对解析字典的约束,它确保解析字典具有相对较小的Frobenius范数和单位行范数;具体的,判别项f(A,yk,uk,bk)的定义如下:
3.根据权利要求1所述的一种支持向量正则化字典对学习的模式分类方法,其特征在于所述的将训练集X输入到支持向量正则化字典对学习的模型中,并对相应的目标函数进行优化求解,得到适用于该训练集的解析字典P,综合字典D,编码系数A及支持向量机分类器参数<U,b>,包括:
采用循环迭代的方法求解,依次更新变量A,P,D和<U,b>;更新某个变量时,需要固定其他的变量,反复迭代①~④,即:
①固定P,D,<U,b>,更新A;
②固定A,D,<U,b>,更新P;
③固定A,P,<U,b>,更新D;
④固定A,P,D,更新<U,b>;
在目标函数值收敛或达到最大迭代次数时停止迭代,得到最优的输出结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111603440.2A CN114330535A (zh) | 2021-12-24 | 2021-12-24 | 一种基于支持向量正则化字典对学习的模式分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111603440.2A CN114330535A (zh) | 2021-12-24 | 2021-12-24 | 一种基于支持向量正则化字典对学习的模式分类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114330535A true CN114330535A (zh) | 2022-04-12 |
Family
ID=81013842
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111603440.2A Pending CN114330535A (zh) | 2021-12-24 | 2021-12-24 | 一种基于支持向量正则化字典对学习的模式分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114330535A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116702018A (zh) * | 2023-04-19 | 2023-09-05 | 东南大学 | 基于ga-pdpl算法的跨被试脑电情感识别方法及装置 |
-
2021
- 2021-12-24 CN CN202111603440.2A patent/CN114330535A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116702018A (zh) * | 2023-04-19 | 2023-09-05 | 东南大学 | 基于ga-pdpl算法的跨被试脑电情感识别方法及装置 |
CN116702018B (zh) * | 2023-04-19 | 2024-03-01 | 东南大学 | 基于ga-pdpl算法的跨被试脑电情感识别方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110399821B (zh) | 基于人脸表情识别的顾客满意度获取方法 | |
CN108875459B (zh) | 一种基于稀疏系数相似的加权稀疏表示人脸识别方法及系统 | |
CN107169117B (zh) | 一种基于自动编码器和dtw的手绘图人体运动检索方法 | |
CN108509833B (zh) | 一种基于结构化分析字典的人脸识别方法、装置及设备 | |
CN109726725B (zh) | 一种基于大间隔类间互异性多核学习的油画作者识别方法 | |
CN108389189B (zh) | 基于字典学习的立体图像质量评价方法 | |
CN109255289A (zh) | 一种基于统一式生成模型的跨衰老人脸识别方法 | |
CN108460400A (zh) | 一种结合多种特征信息的高光谱图像分类方法 | |
CN110796022B (zh) | 一种基于多流形耦合映射的低分辨人脸识别方法 | |
CN111353447A (zh) | 一种基于图卷积网络的人体骨架行为识别方法 | |
CN109657704B (zh) | 一种基于稀疏融合的核化场景特征提取方法 | |
CN115147607A (zh) | 一种基于凸优化理论的抗噪声零样本图像分类方法 | |
CN110163156A (zh) | 一种基于卷积自编码模型的唇部特征提取方法 | |
CN111695455A (zh) | 一种基于耦合判别流形对齐的低分辨人脸识别方法 | |
CN110097499B (zh) | 基于谱混合核高斯过程回归的单帧图像超分辨率重建方法 | |
CN114330535A (zh) | 一种基于支持向量正则化字典对学习的模式分类方法 | |
CN111461067A (zh) | 基于先验知识映射及修正的零样本遥感影像场景识别方法 | |
CN111695507B (zh) | 一种基于改进VGGNet网络和PCA的静态手势识别方法 | |
CN116704208A (zh) | 基于特征关系的局部可解释方法 | |
CN115392474B (zh) | 一种基于迭代优化的局部感知图表示学习方法 | |
CN114943862A (zh) | 一种基于结构性解析字典学习的两阶段图像分类方法 | |
WO2023154192A1 (en) | Video synthesis via multimodal conditioning | |
CN109829377A (zh) | 一种基于深度余弦度量学习的行人重识别方法 | |
CN112560712B (zh) | 基于时间增强图卷积网络的行为识别方法、装置及介质 | |
CN112069978B (zh) | 基于互信息和字典学习的人脸识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |