CN106815599A

CN106815599A - 一种图像分类中通用的判别性稀疏编码字典学习方法

Info

Publication number: CN106815599A
Application number: CN201611163949.9A
Authority: CN
Inventors: 赵仲秋; 凌凝; 黄德双; 徐首韬
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2016-12-16
Filing date: 2016-12-16
Publication date: 2017-06-09
Anticipated expiration: 2036-12-16
Also published as: CN106815599B

Abstract

本发明公开了一种通用的判别性稀疏编码字典学习方法,该方法包括四个步骤：（1）从图像中抽取SIFT、HOG等局部特征；（2）设计一种图像分类中通用的判别性“字典”学习方法；（3）在求得字典的基础上，利用BP（Basis Pursuit），BPDN‑homotopy，等算法求解稀疏表示系数；（4）利用稀疏编码系数对局部特征进行量化。本发明用于图像分类的判别性表达，不仅独立于分类器学习，且对各种稀疏编码字典学习算法具有普适性。

Description

一种图像分类中通用的判别性稀疏编码字典学习方法

技术领域

本发明涉及稀疏编码字典学习方法，特别涉及一种图像分类中通用的判别性稀疏编码字典学习方法。

技术背景

人类大脑视觉系统高度发达，能快速准确完成图像处理任务；神经科学研究成果也表明，稀疏编码是人类大脑视觉系统中图像表示的主要方式，大脑主视皮层V1区神经元对视觉信息的反应具有稀疏性。基于此生理认知机理，视觉稀疏表示理论与算法近年来得到快速迅猛发展，是目前机器视觉领域的研究热点，已经在图像表征，图像识别、分类和标注，图像重构，视频检索，视觉跟踪，事件检测等方面得到广泛应用。

在图像表征方面，稀疏表示主要应用于BoF(Bag-of-Features)视觉表征模型的局部特征量化。BoF模型将图像描述为局部特征的分布或者统计，具有尺度、旋转或光照等不变性，相比较于全局特征，具有更强场景表达能力；基于BoF模型的空间“金字塔”匹配(Spatial Pyramid Matching)更是能对图像场景中目标间位置关系进行表达；所有这些优势保证BoF模型能够取得优异视觉表征性能，并在图像标注中得到很好应用。BoF视觉表征模型包含两个步骤：(a)局部区域特征选择和表达，(b)“字典”学习和特征量化；其中“字典”学习和特征量化尤为重要，很大程度地影响视觉表达的性能。所谓“字典”，是用以量化和重构视觉局部特征的一组基本模式(可称之为“基”)，最简单的“字典”学习方法是对局部特征进行聚类，“字典”由聚类中心得到；随后，特征量化则基于“字典”采用频次直方图方法，即用最近邻法将每个局部特征与距离最近的“基”相关联，为提高鲁棒性，也可用近邻法将每个局部特征与多个“基”相关联，然后计算与每个“基”相关联的局部特征频次；最后，由“字典”中所有“基”的频次构成图像特征表达。然而，基于近邻的方法仍显粗糙，存在无法定义局部特征与“基”的关联权重的缺点，从而导致较大量化误差。基于稀疏编(Sparse Coding)的局部特征量化模型中，稀疏表示系数被定义为局部特征赋给“基”的最优权重；该量化方法已被证实具有较强鲁棒性，能获得很好的图像视觉表征效果。同时，该方法中也采取了“字典”和稀疏表示系数交替学习这种稀疏编码常见优化方法。学习稀疏编码“字典”时，假设稀疏表示系数已知，使“字典”满足重构损失最小约束；而学习稀疏表示系数时，则假设“字典”已知，使稀疏表示系数满足稀疏约束和重构损失最小约束。

稀疏表示应用到图像表征和标注中存在的问题是：传统的无监督稀疏编码忽略了训练样本的类别信息，不是判别性表达，而对于信号分类而言，特征表示的模式判别能力起相当重要作用。解决这个问题的方法是学习具有判别性的“字典”，期望将“字典”的判别性传递至特征稀疏表示系数。已有相关工作假设一个线性分类器，将“字典”学习和分类器学习统一起来，从而提高稀疏表示判别能力，取得较好分类效果，然而，将这种方法扩展到许多更复杂分类器如人工神经网络(ANN)、非线性支持向量机(SVM)等，将使求解变得非常困难，而且，随着数据特征及其分布特性的变化，合适的分类器类型也会发生改变，因而，这种结合具体分类器的学习方法具有一定的应用和拓展局限，有必要设计独立于分类器学习的通用的判别性“字典”学习方法。本发明提出一种图像分类中通用的判别性稀疏编码字典学习方法。

发明内容

本发明提出一种图像分类中通用的判别性稀疏编码字典学习方法，将突破已有方法的局限性，它不仅独立于分类器学习，而且对各种“字典”学习算法具有普适性。

本发明采用的技术方案是：

一种图像分类中通用的判别性稀疏编码字典学习方法，其具体步骤如下：

(1)提取图像的SIFT、HOG等局部特征，作为图像特征集合，并依据图像的类别标签，获得图像集的正类特征集X⁺和负类特征集X^-：

(2)图像分类中通用的判别性“字典”学习方法：

单幅场景图像大都对应于多个“概念”标签，利用“one-vs-all”方法转化为两类问题来解决。假设“字典”U＝[U⁺,U^-]，判别性“字典”的特点是“字典”中的“基”与类别相关联，即正类字典U⁺中的“基”总是倾向表达正类特征，而负类字典U^-中的“基”总是倾向表达负类特征。因而，可依据正类特征集X⁺和负类特征集X^-的重构误差对U⁺和U^-分别进行学习；若稀疏表示系数矩阵V＝(v_ij)(i＝1,...,k，j＝1,...,n，k和n分别是字典U中“基”的个数和局部特征的个数)已知，要使稀疏表达的重构误差最小，可通过优化如下目标函数来分别更新U⁺和U^-：

公式(1)和(2)中的优化问题可通过共轭梯度法、Lagrange对偶法或K-SVD等算法求解，得到U＝[U⁺,U^-]；而其中的分别与“字典”U⁺和U^-相对应和匹配，它们可从V抽取子矩阵获得，子矩阵和应满足分类表征“损失”小的基本原则，即类间差异性大，而表征损失小。

其中，按照如下步骤求解稀疏表示系数矩阵V中的关键行向量作为公式(1)和(2)中的和

1)将V分解为V＝[V⁺,V^-]，和分别是X⁺和X^-对应的的稀疏表示系数矩阵，则可计算：

其中，它们分别表示U中第i个“基”被用来表征正类和负类特征的使用“频率”；显然，值越大表示第i个“基”更倾向于表达正类特征，对应的稀疏表示系数项在正类特征的表征中占更大的权重，应被选择到中，反之，则更倾向于表达负类特征，对应的稀疏表示系数项在负类特征的表征中占更大的权重，应被选择到

2)按照各个“基”对应的元素a_i值由大到小的顺序重新排列“基”，则前部分更倾向于表达正类特征，而后部分更倾向于表达负类特征，而按此顺序重新排列对应V的各行，得到

3)对进行分割，令

对于固定大小的特征集X⁺和X^-，的列分割位置的确定方法是：的列宽度大小分别和X⁺，X^-保持一致。而在不同的行位置分割，可得到不同的和查找最优分割行的方法是：在列分割位置不变的前提下，针对不同的分割行位置，将公式(4)中的对角矩阵和置换为0矩阵，得到矩阵然后计算中正负特征稀疏表示系数间的类间距或Fisher判别准则函数值，以及将和置换为0矩阵后正负特征的表征损失或重构误差。权衡类间距和表征损失，依据对不同的行分割位置的类间距和表征损失来确定最优分割行。

与已有技术相比，本发明有益效果体现在:

本发明不仅独立于分类器学习，而且对各种“字典”学习算法具有普适性。

附图说明

图1为本发明提出的具体的图像分类和标注中通用的判别性稀疏编码字典学习方法流程图。

具体实施方式

(1)提取图像的SIFT、HOG等局部特征，作为图像特征集合，并依据图像的类别标签，获得图像集的正类特征集X⁺和负类特征集X^-；

(2)图像分类中通用的判别性“字典”学习：

单幅场景图像大都对应于多个“概念”标签，利用“one-vs-all”方法转化为两类问题来解决。假设“字典”U＝[U⁺,U^-]，依据正类特征集X⁺和负类特征集X-的重构误差对U+和U-分别进行学习；若稀疏表示系数矩阵V＝(v_ij)(i＝1,...,k，j＝1,...,n，k和n分别是字典U中“基”的个数和局部特征的个数)已知，要使稀疏表达的重构误差最小，可通过优化如下目标函数来分别更新U⁺和U^-：

1)将V分解为V＝[V⁺,V^-]，和分别是X+和X-对应的的稀疏表示系数矩阵，则可计算：

3)对进行分割，令

将和置换为0矩阵，得到然后计算中正负特征稀疏表示系数间的类间距或Fisher判别准则函数值，以及将和置换为0矩阵后正负特征的表征损失或重构误差；权衡类间距和表征损失，依据对不同的行分割位置的类间距和表征损失来确定最优分割行；

(3)在求得字典U＝[U⁺,U^-]的基础上，利用BP(Basis Pursuit)，BPDN-homotopy等算法求解稀疏表示系数；返回到步骤(2)，如此循环预先设定的次数；

(4)利用稀疏编码系数对局部特征进行量化，获得图像的判别性表达。

Claims

1.一种图像分类中通用的判别性稀疏编码字典学习方法，其特征在于，包括以下步骤：

(1)设计一种图像分类中通用的判别性稀疏编码字典学习方法，它独立于分类器学习，并对各种“字典”求解算法具有普适性：

假设“字典”U＝[U⁺,U^-]，即字典U分为U⁺和U^-两部分，其中U⁺为正类字典，U^-为负类字典。判别性“字典”的特点是“字典”中的“基”与类别相关联，即U⁺中的“基”总是倾向表达正类特征，而U^-中的“基”总是倾向表达负类特征；因而，可依据正类样本的特征集X⁺和负类样本的特征集X^-的重构误差对U⁺和U^-分别进行学习；若V＝(v_ij)为稀疏表示系数矩阵，其中i＝1,...,k，j＝1,...,n，k和n分别是字典U中“基”的个数和局部特征的个数，要使稀疏表达的重构误差最小，可通过优化如下目标函数来分别更新U⁺和U^-：

\begin{matrix} \underset{U^{+}}{m i n} | | X^{+} - U^{+} {\overset{&OverBar;}{V}}^{+} | |_{F}^{2}, & s . t . & | | u_{m}^{+} | |^{2} \leq 1 \end{matrix} - - - (1)

\begin{matrix} \underset{U^{-}}{m i n} | | X^{-} - U^{-} {\overset{&OverBar;}{V}}^{-} | |_{F}^{2}, & s . t . & | | u_{m}^{-} | |^{2} \leq 1 \end{matrix} - - - (2)

公式(1)和(2)中的优化问题可通过共轭梯度法、Lagrange对偶法或K-SVD算法求解，得到U＝[U⁺,U^-]；而其中的是V的子矩阵，分别与“字典”U⁺和U^-相对应和匹配，通过步骤(2)求得，抽取子矩阵和应满足分类表征“损失”小的基本原则，即类间差异性大，而表征损失小；

(2)求解稀疏表示系数矩阵V中的关键行向量作为公式(1)和(2)中的和

1)将V分解为V＝[V⁺,V^-]，和分别是特征集X⁺和X^-对应的稀疏表示系数矩阵，则可计算：

a = {[a_{1}^{+} - a_{1}^{-}, a_{2}^{+} - a_{2}^{-}, ..., a_{k}^{+} - a_{k}^{-}]}^{T} - - - (3)

其中，它们分别表示字典U中第i个“基”被用来表征正类和负类特征的使用“频率”；显然，值越大表示第i个“基”更倾向于表达正类特征，对应的稀疏表示系数项在正类特征的表征中占更大的权重，应被选择到中，反之，则更倾向于表达负类特征，对应的稀疏表示系数项在负类特征的表征中占更大的权重，应被选择到

2)按照各个“基”对应的元素a_i值由大到小的顺序重新排列“基”，则前部分更倾向于表达正类特征，而后部分更倾向于表达负类特征，而按此顺序重新排列对应V的各行，得到矩阵

3)对进行分割，令

\tilde{V} = [\begin{matrix} {\overset{&OverBar;}{V}}^{+}, {\overset{\cdot\cdot\cdot}{V}}^{-} \\ {\overset{\cdot\cdot\cdot}{V}}^{+}, {\overset{&OverBar;}{V}}^{-} \end{matrix}], - - - (4)

对于固定大小的特征集X⁺和X^-，对的列分割位置总是不变的，即的列宽度大小分别和X⁺，X^-保持一致。而在不同的行位置分割，可得到不同的和因而，需要查找最优分割行，方法是：在列分割位置不变的前提下，针对不同的分割行位置，将公式(4)中的对角矩阵和置换为0矩阵，得到矩阵然后计算中正负特征稀疏表示系数间的类间距或Fisher判别准则函数值，以及将和置换为0矩阵后正负特征的表征损失或重构误差来确定最优分割行。