CN108805183A - 一种融合局部聚合描述符和局部线性编码的图像分类方法 - Google Patents

一种融合局部聚合描述符和局部线性编码的图像分类方法 Download PDF

Info

Publication number
CN108805183A
CN108805183A CN201810523705.XA CN201810523705A CN108805183A CN 108805183 A CN108805183 A CN 108805183A CN 201810523705 A CN201810523705 A CN 201810523705A CN 108805183 A CN108805183 A CN 108805183A
Authority
CN
China
Prior art keywords
image
vlad
local
feature
local feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810523705.XA
Other languages
English (en)
Other versions
CN108805183B (zh
Inventor
龙显忠
程成
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Post and Telecommunication University
Original Assignee
Nanjing Post and Telecommunication University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Post and Telecommunication University filed Critical Nanjing Post and Telecommunication University
Priority to CN201810523705.XA priority Critical patent/CN108805183B/zh
Publication of CN108805183A publication Critical patent/CN108805183A/zh
Application granted granted Critical
Publication of CN108805183B publication Critical patent/CN108805183B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种融合局部聚合描述符和局部线性编码的图像分类方法,包括以下步骤:提取数据集中每张图像显著区域的局部特征;对提取的局部特征进行聚类,得到聚类字典;对图像显著区域的局部特征进行重构,累加每张图像中局部特征的重构系数;利用局部特征和聚类字典进行VLAD编码;将每张图像中累加的重构系数向量与VLAD编码进行融合;利用分类器对测试图像的融合编码进行分类。本发明充分考虑到了特征的重构信息对图像的有效表示以及VLAD编码对于图像的准确表达性能,提高了图像分类中的准确率。

Description

一种融合局部聚合描述符和局部线性编码的图像分类方法
技术领域
本发明涉及一种融合局部聚合描述符(VLAD)和局部线性编码(LLC)的图像分类方法,属于模式识别与信息处理技术领域。
背景技术
图像分类是计算机视觉、模式识别领域非常热门的研究方向,并且被广泛运用到很多领域,包括安防领域中的人脸识别、行人检测,交通领域中的交通标记识别、车牌检测和识别等。随着大数据时代的来临,图像数量不断增加,这使得图像分类面临巨大的挑战,因此在图像分类、检索等任务中,如何有效的表示一张图像显得至关重要。
早期的图像分类研究主要采用图像的颜色、纹理和形状等全局特征来表示图像,但是由于全局特征缺乏图像的局部信息,并且对光照变化、比例缩放等现象表现出较差的鲁棒性,于是一些基于局部不变特征的编码算法被提出来,例如,词袋(bag of words,BoW)、fisher vector(FV)、局部聚合描述符(vector of locally aggregateddescriptors,VLAD)等。
BoW算法基于投票方式将特征量化到最近邻字典,信息损失较多,但是BOW算法会忽略有关特征空间布局的信息,因此它无法捕获形状或定位对象。空间金字塔匹配(SPM)方法可用于将图像划分为越来越精细的空间子区域,并计算每个子区域的局部特征的直方图,但是SPM是一个很难投票的过程,所以编码的量化损失非常高。基于稀疏编码的SPM(ScSPM)使用稀疏编码策略对每个局部描述符进行编码。然而,当字典比较完备时,稀疏编码过程可能会为相似特征选择完全不同的视觉单词,从而失去了编码之间的相关性。为了确保相似的特征有相似的编码,有人提出了局部约束线性编码(LLC),其引入了用于特征编码的局部约束。在LLC中,使用视觉字典中的多个视觉单词表示一个特征描述子的方式更加精确,且相似的特征描述子通过共享其局部的视觉单词,得到相似的编码,这使得ScSPM的不稳定性得到极大改善。
FV算法使用混合高斯模型(Gaussian mixturemodel,GMM)估计特征分布,能够较细致地描绘特征,但是计算量较大。VLAD作为FV的非概率版本,考虑了特征点每一维的值,对图像局部信息有更细致的刻画,并且计算量相对较小,已经被成功应用于图像分类和检索等任务中。但是,现有的VLAD编码对图像的表达不足。
发明内容
本发明的目的在于:针对现有技术存在的缺陷,考虑特征的重构信息对图像有效表示的性能,提出一种融合VLAD(局部聚合描述符)和LLC(局部线性编码)的图像分类方法,该方法能有效的提高图像分类的准确率。
为了达到以上目的,本发明提供了一种融合局部聚合描述符和局部线性编码的图像分类方法,包括以下步骤:
步骤1、建立包含一组测试图像的数据集,利用视觉显著性检测得到数据集中每张图像的显著区域,并提取每张图像显著区域的局部特征(SIFT特征);
步骤2、对步骤1中获得的所有图像的局部特征进行聚类,得到关于局部特征的一个字典,聚类的个数为字典的大小;
步骤3、由步骤2得到的字典对步骤1中每张图像显著区域的局部特征进行重构,并将每张图像得到的重构系数进行累加,得到每张图像的重构系数向量;
步骤4、将步骤1得到的每张图像显著区域的局部特征和步骤2得到的字典采用VLAD算法进行编码,得到每张图像的VLAD编码;
步骤5、将步骤4得到的每张图像的VLAD编码和步骤3得到的每张图像的重构系数向量进行融合,得到每张图像的融合编码;
步骤6、利用分类器对由步骤5得到的测试图像的融合编码进行分类。
本发明通过提取图像的显著区域的SIFT特征,利用近似LLC对提取的SIFT特征进行重构,将重构的权重信息和图像的VLAD编码融合为一个紧凑的全局表示,以解决大规模图像的分类问题。
优选地,在步骤1中,采用GBVS(graph-basedvisual saliency)算法得到每张图像的显著区域,在显著区域提取128维的局部特征。
优选地,在步骤2中,采用K-means算法对每张图像显著区域的局部特征进行聚类,得到大小为K的字典B,所述字典的表达式如下:B=[b1,b2,…,bk]∈R128×K,b表示视觉单词。
优选地,在步骤3中,采用近似LLC算法对提取的每张图像显著区域的局部特征进行重构,得到每张图像提取特征的重构系数,将上述重构系数进行累加,并每张图像与K维的累加系数相关联,得到每张图像的重构向量。
优选地,在步骤4中,采用VLAD算法对提取的每张图像显著区域的局部特征进行编码,得到每张图像的VLAD编码。
优选地,在VLAD编码时,先找到提取的局部特征在字典中的最近邻视觉单词,然后在局部特征及其最接近的视觉单词之间累积残差向量,对于每张图像得到一个K*128维的向量。
优选地,在步骤5中,对得到的VLAD描述符和近似LLC的重构系数的累加和向量进行融合,融合VLAD编码和近似LLC时,将得到的K维累加系数中的每一维放在原始VLAD编码的每128维的下一维,得到最终的K*(128+1)维来表示每张图像。
与现有技术相比,本发明的优点如下:
(1)本发明提取的局部特征是图像显著区域特征,而不是所有特征,它能够避免图像中非显著区域特征的干扰,以实现对图像更准确地表达;
(2)本发明采用K-means算法处理数据集的局部特征,能够快速实现对数据集局部特征空间的划分;
(3)利用近似LLC可以快速得到每张图像的重构信息,且每张图像的重构信息对于图像自身的描述很有效;
(4)利用VLAD描述符对图像描述的准确性结合重构信息的性能,融合为一个紧凑的全局表示,能够快速有效的得到图像新的表示,减少特征的存储空间,提高分类的准确率。
总之,本发明充分考虑到了局部特征的重构信息对图像的有效表示以及VLAD编码对于图像的准确表达性能,提高了图像分类中的准确率。
附图说明
下面结合附图对本发明作进一步的说明。
图1为本发明面向图像分类的融合VLAD和LLC编码方法的流程图。
图2为本发明与VLAD在15Scenes数据集中不同字典大小下比较的示意图。
图3为本发明与VLAD在15Scenes数据集中不同数量训练图像下比较的示意图。
图4为本发明与VLAD在UIUC SPORT数据集中不同字典大小下比较的示意图。
图5为本发明与VLAD在UIUC SPORT数据集中不同数量训练图像下比较的示意图。
具体实施方式
为了使本发明的目的、技术方案和有益效果更加清楚明白,以下结合具体案例,并参照附图,对本发明进行进一步详细说明。实施例1
本实施例提供一种融合VLAD(局部聚合描述符)和LLC(局部线性编码)的图像表达方法在图像分类中的应用,具体过程如下:
步骤1、建立包含一组测试图像的数据集,利用GBVS(graph-based visualsaliency)算法得到数据集中每张图像的显著区域,在每张图像的显著区域提取其局部特征,本实施例的局部特征采取的是经典SIFT特征。将提取的每张图像显著区域的SIFT特征表示为V=[V1,V2,…Vp]∈RD×P,其中,D为SIFT特征的维度,D取值128,P为集合中SIFT特征的个数,v表示SIFT特征。
步骤2、利用K-means算法对从数据集中提取的所有图像的SIFT特征进行聚类,得到关于SIFT特征的一个聚类字典B,聚类字典B包含K个视觉单词,其表达式为B=[b1,b2,...,bk]∈RD×K,由于D=128,则B=[b1,b2,...,bK]∈R128×K,其中b表示视觉单词。
步骤3、采用近似LLC算法对提取的SIFT特征进行重构,得到每张图像提取特征的重构系数,将这些重构系数进行累加,每张图像与K维的累加系数相关联。在LLC重构中,每个SIFT特征更准确的由多个视觉单词表示,并且LLC编码通过共享视觉单词来表示类似特征之间的相关性,LLC确保相似特征将具有相似编码。具体公式如下:
其中,e表示单元乘法;wi为每个SIFT特征的一组编码(即重构系数),约束对重构系数向量wi进行归一化;di被用来描述词典中vi(特征)与每个视觉词之间的距离,作为一个正则化项,它可对更接近特征的视觉单词施加更大的权重;i为SIFT特征集V中每个特征的编号。
事实上,近似LLC算法用于提高编码速度。可以选择N(N<<K)个局部最近邻视觉单词来重构特征,并求解一个更小的线性系统来得到代码。那么,基于公式(1)可得到如下公式:
从每张图像显著区域中提取的SIFT特征假设有P个,利用近似LLC可以得到重构系数矩阵。重构系数矩阵中,每列表示一个SIFT特征的重构系数。对每张图像SIFT特征的重构系数进行求和操作,即可得到其累加向量,累加向量记为Wsum=[ws1,ws2,...,wsK]T,则
其中,T表示向量转置,S1,S2,...,Sk表示向量中对应维度的下标索引。累加的重构系数向量中的每一项代表字典中特定视觉词对重构特征的重要性。
步骤4、采用VLAD算法对每张图像显著区域的SIFT特征和聚类字典进行编码,得到每张图像的VLAD编码。VLAD构建过程如下:
其中,C表示在SIFT特征及其最接近的视觉单词之间累积的残差向量,NN(vt)表示提取的SIFT特征聚类字典中最接近的视觉单词。
在VLAD编码时,要先找到提取的SIFT特征在聚类字典B中的最近邻视觉单词,然后在SIFT特征及其最接近的视觉单词之间累积残差向量,即可获得VLAD描述符。对于每张图像,得到一个K*D(128)维的向量。
步骤5、将得到的VLAD描述符和近似LLC的重构系数向量进行融合。融合VLAD编码和近似LLC时,将得到的K维累加系数中的每一维放在原始VLAD编码的每D(128)维的下一维,得到最终的K*(D+1)即K*(128+1)来表示每张图像,得到每张图像的融合编码。
步骤6、利用SVM对得到的每张图像的融合编码进行分类。
步骤1~5的详细过程可以通过下属表格进行描述:
除上述实施例外,本发明还可以有其他实施方式。凡采用等同替换或等效变换形成的技术方案,均落在本发明要求的保护范围。

Claims (7)

1.一种融合局部聚合描述符和局部线性编码的图像分类方法,其特征在于,包括以下步骤:
步骤1、建立包含一组测试图像的数据集,利用视觉显著性检测得到数据集中每张图像的显著区域,并提取每张图像显著区域的局部特征;
步骤2、对步骤1中获得的所有图像的局部特征进行聚类,得到关于局部特征的一个字典,聚类的个数为字典的大小;
步骤3、由步骤2得到的字典对步骤1中每张图像显著区域的局部特征进行重构,并将每张图像得到的重构系数进行累加,得到每张图像的重构系数向量;
步骤4、将步骤1得到的每张图像显著区域的局部特征和步骤2得到的字典采用VLAD算法进行编码,得到每张图像的VLAD编码;
步骤5、将步骤4得到的每张图像的VLAD编码和步骤3得到的每张图像的重构系数向量进行融合,得到每张图像的融合编码;
步骤6、利用分类器对由步骤5得到的测试图像的融合编码进行分类。
2.根据权利要求1所述一种融合局部聚合描述符和局部线性编码的图像分类方法,其特征在于,在步骤1中,采用GBVS算法得到每张图像的显著区域,在显著区域提取128维的局部特征。
3.根据权利要求2所述一种融合局部聚合描述符和局部线性编码的图像分类方法,其特征在于,在步骤2中,采用K-means算法对每张图像显著区域的局部特征进行聚类,得到大小为K的字典B,所述字典的表达式如下:B=[b1,b2,...,bK]∈K128×K,b表示视觉单词。
4.根据权利要求3所述一种融合局部聚合描述符和局部线性编码的图像分类方法,其特征在于,在步骤3中,采用近似LLC算法对提取的每张图像显著区域的局部特征进行重构,得到每张图像提取特征的重构系数,将上述重构系数进行累加,并每张图像与K维的累加系数相关联,得到每张图像的重构向量。
5.根据权利要求4所述一种融合局部聚合描述符和局部线性编码的图像分类方法,其特征在于,在步骤4中,采用VLAD算法对提取的每张图像显著区域的局部特征进行编码,得到每张图像的VLAD编码。
6.根据权利要求5所述一种融合局部聚合描述符和局部线性编码的图像分类方法,其特征在于,在VLAD编码时,先找到提取的局部特征在字典中的最近邻视觉单词,然后在局部特征及其最接近的视觉单词之间累积残差向量,对于每张图像得到一个K*128维的向量。
7.根据权利要求6所述一种融合局部聚合描述符和局部线性编码的图像分类方法,其特征在于,在步骤5中,对得到的VLAD描述符和近似LLC的重构系数的累加和向量进行融合,融合VLAD编码和近似LLC时,将得到的K维累加系数中的每一维放在原始VLAD编码的每128维的下一维,得到最终的K*(128+1)维来表示每张图像。
CN201810523705.XA 2018-05-28 2018-05-28 一种融合局部聚合描述符和局部线性编码的图像分类方法 Active CN108805183B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810523705.XA CN108805183B (zh) 2018-05-28 2018-05-28 一种融合局部聚合描述符和局部线性编码的图像分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810523705.XA CN108805183B (zh) 2018-05-28 2018-05-28 一种融合局部聚合描述符和局部线性编码的图像分类方法

Publications (2)

Publication Number Publication Date
CN108805183A true CN108805183A (zh) 2018-11-13
CN108805183B CN108805183B (zh) 2022-07-26

Family

ID=64090541

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810523705.XA Active CN108805183B (zh) 2018-05-28 2018-05-28 一种融合局部聚合描述符和局部线性编码的图像分类方法

Country Status (1)

Country Link
CN (1) CN108805183B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111783805A (zh) * 2019-04-04 2020-10-16 京东方科技集团股份有限公司 图像检索方法及装置、电子设备、可读存储介质
CN113642598A (zh) * 2021-06-25 2021-11-12 南京邮电大学 基于显著性编码和软分配的局部聚合描述子向量算法
CN113902930A (zh) * 2021-09-16 2022-01-07 燕山大学 一种优化词袋模型的图像分类方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105335757A (zh) * 2015-11-03 2016-02-17 电子科技大学 一种基于局部特征聚合描述符的车型识别方法
CN105930792A (zh) * 2016-04-19 2016-09-07 武汉大学 一种基于视频局部特征字典的人体动作分类方法
CN107085731A (zh) * 2017-05-11 2017-08-22 湘潭大学 一种基于rgb‑d融合特征与稀疏编码的图像分类方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105335757A (zh) * 2015-11-03 2016-02-17 电子科技大学 一种基于局部特征聚合描述符的车型识别方法
CN105930792A (zh) * 2016-04-19 2016-09-07 武汉大学 一种基于视频局部特征字典的人体动作分类方法
CN107085731A (zh) * 2017-05-11 2017-08-22 湘潭大学 一种基于rgb‑d融合特征与稀疏编码的图像分类方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111783805A (zh) * 2019-04-04 2020-10-16 京东方科技集团股份有限公司 图像检索方法及装置、电子设备、可读存储介质
CN113642598A (zh) * 2021-06-25 2021-11-12 南京邮电大学 基于显著性编码和软分配的局部聚合描述子向量算法
CN113642598B (zh) * 2021-06-25 2024-02-23 南京邮电大学 基于显著性编码和软分配的局部聚合描述子向量算法
CN113902930A (zh) * 2021-09-16 2022-01-07 燕山大学 一种优化词袋模型的图像分类方法
CN113902930B (zh) * 2021-09-16 2023-10-27 燕山大学 一种优化词袋模型的图像分类方法

Also Published As

Publication number Publication date
CN108805183B (zh) 2022-07-26

Similar Documents

Publication Publication Date Title
Yu et al. Scale match for tiny person detection
Zhu et al. Bag-of-visual-words scene classifier with local and global features for high spatial resolution remote sensing imagery
Shang et al. PRRNet: Pixel-Region relation network for face forgery detection
CN106778595B (zh) 基于高斯混合模型的人群中异常行为的检测方法
Aich et al. Global sum pooling: A generalization trick for object counting with small datasets of large images
CN108304808A (zh) 一种基于时空信息与深度网络的监控视频对象检测方法
CN103514456A (zh) 基于压缩感知多核学习的图像分类方法及其装置
CN109409384A (zh) 基于细粒度图像的图像识别方法、装置、介质及设备
CN111027377B (zh) 一种双流神经网络时序动作定位方法
CN103164856B (zh) 一种基于稠密sift流的视频复制粘贴盲检测方法
CN111046732A (zh) 一种基于多粒度语义解析的行人重识别方法及存储介质
Luo et al. Traffic analytics with low-frame-rate videos
CN108805183A (zh) 一种融合局部聚合描述符和局部线性编码的图像分类方法
CN106844785A (zh) 一种基于显著性分割的基于内容的图像检索方法
Yuan et al. Few-shot scene classification with multi-attention deepemd network in remote sensing
CN113850284B (zh) 一种基于多尺度特征融合和多分支预测的多操作检测方法
CN107357834A (zh) 一种基于视觉显著性融合的图像检索方法
Najibi et al. Towards the success rate of one: Real-time unconstrained salient object detection
CN110674334B (zh) 基于一致性区域深度学习特征的近重复图像检索方法
Xia et al. Abnormal event detection method in surveillance video based on temporal CNN and sparse optical flow
CN106570910B (zh) 基于自编码特征和近邻模型的图像自动标注方法
Cooray et al. Identifying person re-occurrences for personal photo management applications
Ernawati et al. Image Splicing Forgery Approachs: A Review and Future Direction
Said et al. Wavelet networks for facial emotion recognition
Jayanthi et al. Efficient fuzzy color and texture feature extraction technique for content based image retrieval system

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant