CN106815599A - 一种图像分类中通用的判别性稀疏编码字典学习方法 - Google Patents
一种图像分类中通用的判别性稀疏编码字典学习方法 Download PDFInfo
- Publication number
- CN106815599A CN106815599A CN201611163949.9A CN201611163949A CN106815599A CN 106815599 A CN106815599 A CN 106815599A CN 201611163949 A CN201611163949 A CN 201611163949A CN 106815599 A CN106815599 A CN 106815599A
- Authority
- CN
- China
- Prior art keywords
- dictionary
- feature
- base
- identification
- rarefaction representation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2136—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on sparsity criteria, e.g. with an overcomplete basis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
- Character Discrimination (AREA)
Abstract
本发明公开了一种通用的判别性稀疏编码字典学习方法,该方法包括四个步骤:(1)从图像中抽取SIFT、HOG等局部特征;(2)设计一种图像分类中通用的判别性“字典”学习方法;(3)在求得字典的基础上,利用BP(Basis Pursuit),BPDN‑homotopy,等算法求解稀疏表示系数;(4)利用稀疏编码系数对局部特征进行量化。本发明用于图像分类的判别性表达,不仅独立于分类器学习,且对各种稀疏编码字典学习算法具有普适性。
Description
技术领域
本发明涉及稀疏编码字典学习方法,特别涉及一种图像分类中通用的判别性稀疏编码字典学习方法。
技术背景
人类大脑视觉系统高度发达,能快速准确完成图像处理任务;神经科学研究成果也表明,稀疏编码是人类大脑视觉系统中图像表示的主要方式,大脑主视皮层V1区神经元对视觉信息的反应具有稀疏性。基于此生理认知机理,视觉稀疏表示理论与算法近年来得到快速迅猛发展,是目前机器视觉领域的研究热点,已经在图像表征,图像识别、分类和标注,图像重构,视频检索,视觉跟踪,事件检测等方面得到广泛应用。
在图像表征方面,稀疏表示主要应用于BoF(Bag-of-Features)视觉表征模型的局部特征量化。BoF模型将图像描述为局部特征的分布或者统计,具有尺度、旋转或光照等不变性,相比较于全局特征,具有更强场景表达能力;基于BoF模型的空间“金字塔”匹配(Spatial Pyramid Matching)更是能对图像场景中目标间位置关系进行表达;所有这些优势保证BoF模型能够取得优异视觉表征性能,并在图像标注中得到很好应用。BoF视觉表征模型包含两个步骤:(a)局部区域特征选择和表达,(b)“字典”学习和特征量化;其中“字典”学习和特征量化尤为重要,很大程度地影响视觉表达的性能。所谓“字典”,是用以量化和重构视觉局部特征的一组基本模式(可称之为“基”),最简单的“字典”学习方法是对局部特征进行聚类,“字典”由聚类中心得到;随后,特征量化则基于“字典”采用频次直方图方法,即用最近邻法将每个局部特征与距离最近的“基”相关联,为提高鲁棒性,也可用近邻法将每个局部特征与多个“基”相关联,然后计算与每个“基”相关联的局部特征频次;最后,由“字典”中所有“基”的频次构成图像特征表达。然而,基于近邻的方法仍显粗糙,存在无法定义局部特征与“基”的关联权重的缺点,从而导致较大量化误差。基于稀疏编(Sparse Coding)的局部特征量化模型中,稀疏表示系数被定义为局部特征赋给“基”的最优权重;该量化方法已被证实具有较强鲁棒性,能获得很好的图像视觉表征效果。同时,该方法中也采取了“字典”和稀疏表示系数交替学习这种稀疏编码常见优化方法。学习稀疏编码“字典”时,假设稀疏表示系数已知,使“字典”满足重构损失最小约束;而学习稀疏表示系数时,则假设“字典”已知,使稀疏表示系数满足稀疏约束和重构损失最小约束。
稀疏表示应用到图像表征和标注中存在的问题是:传统的无监督稀疏编码忽略了训练样本的类别信息,不是判别性表达,而对于信号分类而言,特征表示的模式判别能力起相当重要作用。解决这个问题的方法是学习具有判别性的“字典”,期望将“字典”的判别性传递至特征稀疏表示系数。已有相关工作假设一个线性分类器,将“字典”学习和分类器学习统一起来,从而提高稀疏表示判别能力,取得较好分类效果,然而,将这种方法扩展到许多更复杂分类器如人工神经网络(ANN)、非线性支持向量机(SVM)等,将使求解变得非常困难,而且,随着数据特征及其分布特性的变化,合适的分类器类型也会发生改变,因而,这种结合具体分类器的学习方法具有一定的应用和拓展局限,有必要设计独立于分类器学习的通用的判别性“字典”学习方法。本发明提出一种图像分类中通用的判别性稀疏编码字典学习方法。
发明内容
本发明提出一种图像分类中通用的判别性稀疏编码字典学习方法,将突破已有方法的局限性,它不仅独立于分类器学习,而且对各种“字典”学习算法具有普适性。
本发明采用的技术方案是:
一种图像分类中通用的判别性稀疏编码字典学习方法,其具体步骤如下:
(1)提取图像的SIFT、HOG等局部特征,作为图像特征集合,并依据图像的类别标签,获得图像集的正类特征集X+和负类特征集X-:
(2)图像分类中通用的判别性“字典”学习方法:
单幅场景图像大都对应于多个“概念”标签,利用“one-vs-all”方法转化为两类问题来解决。假设“字典”U=[U+,U-],判别性“字典”的特点是“字典”中的“基”与类别相关联,即正类字典U+中的“基”总是倾向表达正类特征,而负类字典U-中的“基”总是倾向表达负类特征。因而,可依据正类特征集X+和负类特征集X-的重构误差对U+和U-分别进行学习;若稀疏表示系数矩阵V=(vij)(i=1,...,k,j=1,...,n,k和n分别是字典U中“基”的个数和局部特征的个数)已知,要使稀疏表达的重构误差最小,可通过优化如下目标函数来分别更新U+和U-:
公式(1)和(2)中的优化问题可通过共轭梯度法、Lagrange对偶法或K-SVD等算法求解,得到U=[U+,U-];而其中的分别与“字典”U+和U-相对应和匹配,它们可从V抽取子矩阵获得,子矩阵和应满足分类表征“损失”小的基本原则,即类间差异性大,而表征损失小。
其中,按照如下步骤求解稀疏表示系数矩阵V中的关键行向量作为公式(1)和(2)中的和
1)将V分解为V=[V+,V-],和分别是X+和X-对应的的稀疏表示系数矩阵,则可计算:
其中,它们分别表示U中第i个“基”被用来表征正类和负类特征的使用“频率”;显然,值越大表示第i个“基”更倾向于表达正类特征,对应的稀疏表示系数项在正类特征的表征中占更大的权重,应被选择到中,反之,则更倾向于表达负类特征,对应的稀疏表示系数项在负类特征的表征中占更大的权重,应被选择到
2)按照各个“基”对应的元素ai值由大到小的顺序重新排列“基”,则前部分更倾向于表达正类特征,而后部分更倾向于表达负类特征,而按此顺序重新排列对应V的各行,得到
3)对进行分割,令
对于固定大小的特征集X+和X-,的列分割位置的确定方法是:的列宽度大小分别和X+,X-保持一致。而在不同的行位置分割,可得到不同的和查找最优分割行的方法是:在列分割位置不变的前提下,针对不同的分割行位置,将公式(4)中的对角矩阵和置换为0矩阵,得到矩阵然后计算中正负特征稀疏表示系数间的类间距或Fisher判别准则函数值,以及将和置换为0矩阵后正负特征的表征损失或重构误差。权衡类间距和表征损失,依据对不同的行分割位置的类间距和表征损失来确定最优分割行。
与已有技术相比,本发明有益效果体现在:
本发明不仅独立于分类器学习,而且对各种“字典”学习算法具有普适性。
附图说明
图1为本发明提出的具体的图像分类和标注中通用的判别性稀疏编码字典学习方法流程图。
具体实施方式
一种图像分类中通用的判别性稀疏编码字典学习方法,其具体步骤如下:
(1)提取图像的SIFT、HOG等局部特征,作为图像特征集合,并依据图像的类别标签,获得图像集的正类特征集X+和负类特征集X-;
(2)图像分类中通用的判别性“字典”学习:
单幅场景图像大都对应于多个“概念”标签,利用“one-vs-all”方法转化为两类问题来解决。假设“字典”U=[U+,U-],依据正类特征集X+和负类特征集X-的重构误差对U+和U-分别进行学习;若稀疏表示系数矩阵V=(vij)(i=1,...,k,j=1,...,n,k和n分别是字典U中“基”的个数和局部特征的个数)已知,要使稀疏表达的重构误差最小,可通过优化如下目标函数来分别更新U+和U-:
公式(1)和(2)中的优化问题可通过共轭梯度法、Lagrange对偶法或K-SVD等算法求解,得到U=[U+,U-];而其中的分别与“字典”U+和U-相对应和匹配,它们可从V抽取子矩阵获得,子矩阵和应满足分类表征“损失”小的基本原则,即类间差异性大,而表征损失小。
其中,按照如下步骤求解稀疏表示系数矩阵V中的关键行向量作为公式(1)和(2)中的和
1)将V分解为V=[V+,V-],和分别是X+和X-对应的的稀疏表示系数矩阵,则可计算:
其中,它们分别表示U中第i个“基”被用来表征正类和负类特征的使用“频率”;显然,值越大表示第i个“基”更倾向于表达正类特征,对应的稀疏表示系数项在正类特征的表征中占更大的权重,应被选择到中,反之,则更倾向于表达负类特征,对应的稀疏表示系数项在负类特征的表征中占更大的权重,应被选择到
2)按照各个“基”对应的元素ai值由大到小的顺序重新排列“基”,则前部分更倾向于表达正类特征,而后部分更倾向于表达负类特征,而按此顺序重新排列对应V的各行,得到
3)对进行分割,令
将和置换为0矩阵,得到然后计算中正负特征稀疏表示系数间的类间距或Fisher判别准则函数值,以及将和置换为0矩阵后正负特征的表征损失或重构误差;权衡类间距和表征损失,依据对不同的行分割位置的类间距和表征损失来确定最优分割行;
(3)在求得字典U=[U+,U-]的基础上,利用BP(Basis Pursuit),BPDN-homotopy等算法求解稀疏表示系数;返回到步骤(2),如此循环预先设定的次数;
(4)利用稀疏编码系数对局部特征进行量化,获得图像的判别性表达。
Claims (1)
1.一种图像分类中通用的判别性稀疏编码字典学习方法,其特征在于,包括以下步骤:
(1)设计一种图像分类中通用的判别性稀疏编码字典学习方法,它独立于分类器学习,并对各种“字典”求解算法具有普适性:
假设“字典”U=[U+,U-],即字典U分为U+和U-两部分,其中U+为正类字典,U-为负类字典。判别性“字典”的特点是“字典”中的“基”与类别相关联,即U+中的“基”总是倾向表达正类特征,而U-中的“基”总是倾向表达负类特征;因而,可依据正类样本的特征集X+和负类样本的特征集X-的重构误差对U+和U-分别进行学习;若V=(vij)为稀疏表示系数矩阵,其中i=1,...,k,j=1,...,n,k和n分别是字典U中“基”的个数和局部特征的个数,要使稀疏表达的重构误差最小,可通过优化如下目标函数来分别更新U+和U-:
公式(1)和(2)中的优化问题可通过共轭梯度法、Lagrange对偶法或K-SVD算法求解,得到U=[U+,U-];而其中的 是V的子矩阵,分别与“字典”U+和U-相对应和匹配,通过步骤(2)求得,抽取子矩阵和应满足分类表征“损失”小的基本原则,即类间差异性大,而表征损失小;
(2)求解稀疏表示系数矩阵V中的关键行向量作为公式(1)和(2)中的和
1)将V分解为V=[V+,V-],和分别是特征集X+和X-对应的稀疏表示系数矩阵,则可计算:
其中,它们分别表示字典U中第i个“基”被用来表征正类和负类特征的使用“频率”;显然,值越大表示第i个“基”更倾向于表达正类特征,对应的稀疏表示系数项在正类特征的表征中占更大的权重,应被选择到中,反之,则更倾向于表达负类特征,对应的稀疏表示系数项在负类特征的表征中占更大的权重,应被选择到
2)按照各个“基”对应的元素ai值由大到小的顺序重新排列“基”,则前部分更倾向于表达正类特征,而后部分更倾向于表达负类特征,而按此顺序重新排列对应V的各行,得到矩阵
3)对进行分割,令
对于固定大小的特征集X+和X-,对的列分割位置总是不变的,即 的列宽度大小分别和X+,X-保持一致。而在不同的行位置分割,可得到不同的和因而,需要查找最优分割行,方法是:在列分割位置不变的前提下,针对不同的分割行位置,将公式(4)中的对角矩阵和置换为0矩阵,得到矩阵然后计算中正负特征稀疏表示系数间的类间距或Fisher判别准则函数值,以及将和置换为0矩阵后正负特征的表征损失或重构误差来确定最优分割行。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611163949.9A CN106815599B (zh) | 2016-12-16 | 2016-12-16 | 一种图像分类中通用的判别性稀疏编码字典学习方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611163949.9A CN106815599B (zh) | 2016-12-16 | 2016-12-16 | 一种图像分类中通用的判别性稀疏编码字典学习方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106815599A true CN106815599A (zh) | 2017-06-09 |
CN106815599B CN106815599B (zh) | 2020-12-22 |
Family
ID=59109425
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611163949.9A Active CN106815599B (zh) | 2016-12-16 | 2016-12-16 | 一种图像分类中通用的判别性稀疏编码字典学习方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106815599B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107908999A (zh) * | 2017-06-23 | 2018-04-13 | 广东工业大学 | 一种结构特征层次化的疲劳表情识别方法 |
CN109615026A (zh) * | 2018-12-28 | 2019-04-12 | 中国电子科技集团公司信息科学研究院 | 一种基于稀疏规则化的判别投影方法以及图像识别装置 |
CN109919165A (zh) * | 2019-03-18 | 2019-06-21 | 广东工业大学 | 一种基于相似度的多示例字典学习分类方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101420614A (zh) * | 2008-11-28 | 2009-04-29 | 同济大学 | 一种混合编码与字典编码整合的图像压缩方法及装置 |
CN101719142A (zh) * | 2009-12-10 | 2010-06-02 | 湖南大学 | 基于分类字典的稀疏表示图片文字检测方法 |
CN106066992A (zh) * | 2016-05-13 | 2016-11-02 | 哈尔滨工业大学深圳研究生院 | 基于自适应局部约束的判别字典学习算法及人脸识别系统 |
CN106203495A (zh) * | 2016-07-01 | 2016-12-07 | 广东技术师范学院 | 一种基于稀疏判别学习的目标跟踪方法 |
-
2016
- 2016-12-16 CN CN201611163949.9A patent/CN106815599B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101420614A (zh) * | 2008-11-28 | 2009-04-29 | 同济大学 | 一种混合编码与字典编码整合的图像压缩方法及装置 |
CN101719142A (zh) * | 2009-12-10 | 2010-06-02 | 湖南大学 | 基于分类字典的稀疏表示图片文字检测方法 |
CN106066992A (zh) * | 2016-05-13 | 2016-11-02 | 哈尔滨工业大学深圳研究生院 | 基于自适应局部约束的判别字典学习算法及人脸识别系统 |
CN106203495A (zh) * | 2016-07-01 | 2016-12-07 | 广东技术师范学院 | 一种基于稀疏判别学习的目标跟踪方法 |
Non-Patent Citations (3)
Title |
---|
ZHONGQIU ZHAO: "Cooperative Sparse Representation in Two", 《IEEE TRANSACTIONS ON IMAGE PROCESSING》 * |
朱杰等: "基于字典学习的核稀疏表示人脸识别方法", 《模式识别与人工智能》 * |
毛兆华等: "应用非负字典学习的机织物瑕疵检测算法", 《纺织学报》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107908999A (zh) * | 2017-06-23 | 2018-04-13 | 广东工业大学 | 一种结构特征层次化的疲劳表情识别方法 |
CN109615026A (zh) * | 2018-12-28 | 2019-04-12 | 中国电子科技集团公司信息科学研究院 | 一种基于稀疏规则化的判别投影方法以及图像识别装置 |
CN109919165A (zh) * | 2019-03-18 | 2019-06-21 | 广东工业大学 | 一种基于相似度的多示例字典学习分类方法及装置 |
CN109919165B (zh) * | 2019-03-18 | 2021-07-06 | 广东工业大学 | 一种基于相似度的多示例字典学习分类方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN106815599B (zh) | 2020-12-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108182441B (zh) | 平行多通道卷积神经网络、构建方法及图像特征提取方法 | |
Yang et al. | Top-down visual saliency via joint CRF and dictionary learning | |
CN103514456B (zh) | 基于压缩感知多核学习的图像分类方法及其装置 | |
CN111639679B (zh) | 一种基于多尺度度量学习的小样本学习方法 | |
CN107103326B (zh) | 基于超像素聚类的协同显著性检测方法 | |
CN105740842B (zh) | 基于快速密度聚类算法的无监督人脸识别方法 | |
CN108304826A (zh) | 基于卷积神经网络的人脸表情识别方法 | |
Jiang et al. | A survey on artificial intelligence in Chinese sign language recognition | |
CN108875816A (zh) | 融合置信度准则和多样性准则的主动学习样本选择策略 | |
CN104809469A (zh) | 一种面向服务机器人的室内场景图像分类方法 | |
Al-Kharraz et al. | Automated system for chromosome karyotyping to recognize the most common numerical abnormalities using deep learning | |
CN105160400A (zh) | 基于l21范数的提升卷积神经网络泛化能力的方法 | |
CN109376796A (zh) | 基于主动半监督学习的图像分类方法 | |
CN107767416B (zh) | 一种低分辨率图像中行人朝向的识别方法 | |
CN110516095A (zh) | 基于语义迁移的弱监督深度哈希社交图像检索方法和系统 | |
CN108960260B (zh) | 一种分类模型生成方法、医学影像图像分类方法及装置 | |
CN109784405A (zh) | 基于伪标签学习和语义一致性的跨模态检索方法及系统 | |
CN113558603B (zh) | 一种基于深度学习的多模态认知障碍识别方法 | |
CN101799875B (zh) | 一种目标检测方法 | |
CN108681721A (zh) | 基于图像分割二维双向数据线性相关组合的人脸识别方法 | |
CN103065158A (zh) | 基于相对梯度的isa模型的行为识别方法 | |
CN109902564A (zh) | 一种基于结构相似性稀疏自编码网络的异常事件检测方法 | |
CN106815599A (zh) | 一种图像分类中通用的判别性稀疏编码字典学习方法 | |
Singh et al. | Indian Sign Language Recognition System for Dynamic Signs | |
CN104063721A (zh) | 一种基于语义特征自动学习与筛选的人类行为识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |