CN112329798A - 一种基于优化视觉词袋模型的图像场景分类方法 - Google Patents

一种基于优化视觉词袋模型的图像场景分类方法 Download PDF

Info

Publication number
CN112329798A
CN112329798A CN202011352621.8A CN202011352621A CN112329798A CN 112329798 A CN112329798 A CN 112329798A CN 202011352621 A CN202011352621 A CN 202011352621A CN 112329798 A CN112329798 A CN 112329798A
Authority
CN
China
Prior art keywords
image
word
scene
words
histogram
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011352621.8A
Other languages
English (en)
Other versions
CN112329798B (zh
Inventor
宋涛
赵明富
王瑜琳
罗彬彬
石胜辉
吴德操
巫涛江
邹雪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Technology
Chongqing Energy College
Original Assignee
Chongqing University of Technology
Chongqing Energy College
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Technology, Chongqing Energy College filed Critical Chongqing University of Technology
Priority to CN202011352621.8A priority Critical patent/CN112329798B/zh
Publication of CN112329798A publication Critical patent/CN112329798A/zh
Application granted granted Critical
Publication of CN112329798B publication Critical patent/CN112329798B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24147Distances to closest patterns, e.g. nearest neighbour classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/50Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Abstract

本发明公开了一种基于优化视觉词袋模型的图像场景分类方法,涉及图像场景分类技术领域,首先,对BOVW模型的单词库,根据单词在不同场景的分布构造单词对于场景分类的可信度,以衡量单词对场景分类的表征性;其次,采用直方图交叉核衡量图像特征相似性,并采用单词可信度度修正直方图交叉核函数,提高图像相似性度量的准确度;最后利用相似性系数采用k近邻分类器进行场景分类识别。实验表明,所提方法能有效衡量图像相似性,对于干扰图像有较强的鲁棒性,可提高场景分类准确率。

Description

一种基于优化视觉词袋模型的图像场景分类方法
技术领域
本发明涉及图像场景分类技术领域,特别涉及一种基于优化视觉词袋模型的图像场景分类方法。
背景技术
随着人类对生活品质追求的提高,人工智能技术的迅速发展,越来越多的智能设备如无人车、无人机、移动机器人等已逐渐走进人类生活,并协助完成各种任务,在农业、建筑、物流、家庭服务、军事、医疗领域得到广泛应用。图像由于信息量大、内容丰富成为智能装备的重要信息源,但同时由于图像数据爆发式的增长,依靠人工对海量图像进行分类和标注的管理方式己经远远无法满足应用的需求。依靠计算机技术和智能方法对图像包含的语义进行分析和理解显得十分有必要。
如近年来基于视觉信息的视觉slam(simultaneous localization and mapping)取得了极大的进展。图像场景识别是其中重要的研究方向之一。图像场景分类通常不需要具体了解场景中具体包含什么目标和细节,而侧重于对图像场景整体语义描述。其一般思路是建立高层场景语义描述与视觉特征之间的联系,而后通过模式识别方法进行场景分类。人类对于见过的场景有着及其精准的辨识能力,而基于计算机的段场景分类仍然面临着诸多困难,其主要原因有如下:(1)由于场景本身的复杂性和多样性,在同一类场景下拍摄到的图像内容本身差异很大;(2)由于采集图像的外部因素干扰,在同一场景下,不同视角、不同距离、不同光照条件会造成场景图像存在较大的视觉差异。这些因素给场景分类造成了极大困难,提高图像场景识别率对于人工智能环境感知十分重要。
图像场景分类问题的研究思路是采用颜色、纹理、形状等低层特征建立图像场景模型,再利用分类器对场景进行分类识别。然而这类方法低层特征不变性和泛化性较弱,对于复杂多变的场景适用性差。场景分类的关键是建立一种稳定的图像整体描述方法,该描述方法既能稳定的表达同类场景的结构信息,又能有效区分不同场景存在差异。为了达成这一目的,学者展开了大量的研究。在局部特征描述方面,先后提出了具有旋转缩放光照不变性的SIFT(Scale-invariant feature transform)特征、基于sift特征的快速方法SURF(Speed Up Robust Features)特征、基于快速特征定位和二进制描述的ORB(OrientedFAST and Rotated BRIEF)特征、基于图像局部梯度直方图统计的HOG(histograms oforiented gradients)特征,反映图像空间结构特性GIST特征等,其中sift特征因其良好的不变性而具有最好的图像局部特征描述稳定性,被大量应用于图像配准、图像拼接等算中。
而对于图像整体的描述,视觉词袋模型(BOVW,bag of visual words)逐渐成为研究的热点。BOVW来源于应用于文本分类的词袋模型(BOW,bag of words),该方法先通过离线建立常见的图像特征的单词库,对具体的场景图像,通过图像局部特征与词袋库的比较,得到视觉单词分布,继而得到视觉单词的统计信息,以此来表达图像场景内容。该方法已在图像场景识别中取得了巨大成功。本申请在局部特征描述上也采用sift特征,并采用BOVW模型研究图像描述方法,不同于其它方法,本申请对词袋模型中每个单词的场景表征能力进行计算,得到单词的可信度,在场景识别上,本申请提出基于单词可信度修正直方图核函数的相似度度量方法,表达测试图像与不同场景样本图像间的相似性。最后利用相似性系数采用k近邻分类器对图像进行场景识别,相比如支持向量机、神经网络等模式识别方法,可极大降低计算量。最后通过7类场景分类实验表明,本申请提供的一种基于优化视觉词袋模型的图像场景分类方法对不同场景具有较高的识别率,且对于图像中存在的干扰具有良好的鲁棒性。
发明内容
本发明的目的在于提供一种基于优化视觉词袋模型的图像场景分类方法,对不同场景具有较高的识别率,且对于图像中存在的干扰具有良好的鲁棒性。
本发明提供了一种基于优化视觉词袋模型的图像场景分类方法,包括以下步骤:
S1:确定图像中需要进行区分的场景类别数s,选定训练样本和测试样本,每一类场景分别采集kt张图像作为训练样本,并选定ks张图像作为测试样本;
S2:采用网格化均匀提取训练样本和测试样本的Sift特征点,设定网格图像块大小pt和块间隔dt,对训练样本和测试样本中每张图像进行均匀化网格划分,得到若干个图像块,计算每个图像块的中心点sift特征描述向量,得到每张图像的特征描述向量集合Fi
S3:设定Kmeans方法的聚类中心数c、迭代运算次数和收敛误差,对训练样本和测试样本中的所有特征描述向量Fi进行K均值聚类,获得聚类中心向量集合,即词袋库W;
S4:Kmeans聚类过程得出每个单词包含的特征描述向量集,进而获得每个单词中特征点来源分布SW,计算每个单词对场景类别的表征能力,得到单词可信度向量R;
S5:根据词袋模型方法分别获得训练样本和测试样本的全局描述,即计算每张图像的特征直方图;
S6:基于修正直方图交叉核函数的相似性度量方法计算每个测试样本图像与每个训练样本的相似性,得到相似性矩阵I;
S7:对相似性矩阵进行降序排序,设置k近邻分类中邻域大小d,基于近邻分类器分别计算每个测试样本所属的场景类别。
进一步地,所述步骤S2中特征点的sift特征描述向量集合为:
F={f1,f2,…,fp}∈Rp×128 (1)
其中,fi表示表示特征点i的sift描述向量,p表示一张图像提取的sift特征点数,特征点由sift方法关键点检测确定,或通过图像均匀网格划分确定,128表示sift特征维数。
进一步地,所述步骤S3词袋库W的生成方式为:
Figure BDA0002801763610000041
其中,W∈Rc×128表示词袋库,通过对所有训练样本的sift特征集合进行k均值聚类获得,wj表示词袋库中的一个单词,c表示词袋库的大小,即单词的个数,每个单词128维。
进一步地,所述步骤S4单词可信度向量Xk=hist(Dk)/p,其中:
Figure BDA0002801763610000042
其中,std(·)表示标准差,
Figure BDA0002801763610000043
表示聚类成单词i的所有特征点的个数。
进一步地,所述步骤S5中生成图像特征直方图的方法如下:
对于任一样本图像,假设其sift特征描述集合为Fk={fk 1,fk 2,…,fk p}∈Rp×128,其单词分布分布为Dk={c1,c2,…,cp}∈Rp,则
Figure BDA0002801763610000044
其中,dis(·)通常表示欧式距离,即计算sift描述向量与单词库中每个单词的距离,距离最近的单词的编号即为ci,则对该图像整体描述的特征直方图表示为:
Xk=hist(Dk)/p (5)
其中,hist(·)表示频次统计的直方图,Xk表示归一化后的概率直方图。
进一步地,假设训练样本特征直方图描述向量集合为Y={Y1;Y2;…;Yn},对应的类别标签为Lbl={l1;l2;…;ln},测试样本特征直方图描述向量集合为X={X1;X2;…;Xm},则基于SVM的模式识别可表示为:
Figure BDA0002801763610000051
进一步地,所述步骤S6基于单词可信度修正直方图交叉核函数的相似性度量函数定义如下:
Figure BDA0002801763610000052
进一步地,所述步骤S7对于测试样本图像Xi,其与所有训练样本的相似性序列用Ii表示,
Figure BDA0002801763610000053
对Ii进行降序排序,取其前d个值构成
Figure BDA0002801763610000054
Figure BDA0002801763610000055
表示测试样本图像Xi与训练样本YDj的相似性,用Bi={b1,b2,…,bd}表示与测试样本图像Xi最相似的前d个训练样本所属的场景分类,即训练样本YDj属于第bj类场景,统计与Xi最相似的d个训练样本所属的场景类别,即h=hist(Bi),hist(Bi)表示频次直方图,则Xi其所属的场景类别为:
ci={k|hk=max(h)} (8)
与现有技术相比,本发明具有如下显著优点:
本申请利用了BOW模型的基本原理对图像场景进行分类识别,并进行了如下两点改进:
(一)提出单词可信度计算方法,根据构成每个单词的特征向量集在不同场景的分布集中特征计算每个单词对不同场景区分的表征能力,以此作为单词的可信度计算方法。
(二)提出基于单词可信度修正直方图交叉核函数的图像相似性度量方法,在直方图交叉核函数相似性度量方法的基础上引入单词可信度,以可信度作为直方图交叉核分量的权重,提高相似性度量的准确性。
不同于其它场景识别方法根据支持向量机或者神经网络对测试图像进行分类,本申请在计算测试样本与训练样本相似性后直接采用最近邻方法对测试图像进行场景分类,计算量较小,分类效果良好。
附图说明
图1为本发明实施例提供的基于BOVW模型的图像分类图;
图2为本发明实施例提供的场景、sift特征描述子与单词的关系图;
图3为本发明实施例提供的场景识别流程图;
图4为本发明实施例提供的词袋库部分单词向量图;
图5为本发明实施例提供的训练样本特征直方图;
图6为本发明实施例提供的测试样本特征直方图;
图7为本发明实施例提供的干扰样本特征直方图;
图8为本发明实施例提供的测试样本与训练样本的最大相似系数图;
图9为本发明实施例提供的场景分类识别结果图。
具体实施方式
下面结合本发明中的附图,对本发明实施例的技术方案进行清楚、完整的描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都应属于本发明保护的范围。
在信息检索中,BOW假定对于一个文本,将其仅仅看做是一个单词的组合,文本中每个单词的出现都是独立的,不依赖于其他词是否出现,如果两个文本包含相同的单词组合,即认为两个文本相同,而忽略单词的词序、语法和句法。该方法当然存在一定的缺陷,但是在文本检索中具有较好的应用效果。同理BOVW是将BOW思想引入到图像信息检索中,然而,图像不同于文本,文本有固定的单词库,也就是词典,任何一个文本都是字典中若干单词的组合。而图像是一种更为抽象的二维像素组合,其信息千变万化,截至目前,也没有通用的图像词典可以囊括所有的图像信息。基于BOVW进行图像场景分类通常包含样本局部图像特征描述、Kmeans聚类构建特定的词典、图像特征直方图统计、直方图向量模式匹配几个环节。其中词典的生成和训练样本直方图向量一般离线生成,而测试样本直方图向量的生成和模式识别则在线完成。
参照图1-9,本发明提供了一种基于优化视觉词袋模型的图像场景分类方法,包括以下步骤:
S1:确定图像中需要进行区分的场景类别数s,选定训练样本和测试样本,每一类场景分别采集kt张图像作为训练样本,并选定ks张图像作为测试样本;
S2:采用网格化均匀提取训练样本和测试样本的Sift特征点,设定网格图像块大小pt和块间隔dt,对训练样本和测试样本中每张图像进行均匀化网格划分,得到若干个图像块,计算每个图像块的中心点sift特征描述向量,得到每张图像的特征描述向量集合Fi
S3:设定Kmeans方法的聚类中心数c(即单词库)、迭代运算次数和收敛误差,训练样本和测试样本中的所有特征描述向量Fi进行K均值聚类,获得聚类中心向量集合,即词袋库W;
S4:Kmeans聚类过程得出每个单词(kmeans聚类中心)包含的特征描述向量集,进而获得每个单词中特征点来源分布SW,计算每个单词对场景类别的表征能力,得到单词可信度向量R;
S5:根据词袋模型方法分别获得训练样本和测试样本的全局描述,即计算每张图像的特征直方图;
S6:基于修正直方图交叉核函数的相似性度量方法计算每个测试样本图像与每个训练样本的相似性,得到相似性矩阵I;
S7:对相似性矩阵进行降序排序,设置k近邻分类中邻域大小d,基于近邻分类器分别计算每个测试样本所属的场景类别。
实施例1
所述步骤S2中特征点的sift特征描述向量集合为:
F={f1,f2,…,fp}∈pp×128 (1)
其中,fi表示表示特征点i的sift描述向量,p表示一张图像提取的sift特征点数,特征点由sift方法关键点检测确定,或通过图像均匀网格划分确定,128表示sift特征维数。
实施例2
Kmeans聚类是将给定数据集划分为多个子集的过程,各子集内部具备高相似特性。该方法是常见而且运用广泛的聚类方法之一。Kmeans方法相较于其他聚类方法具有简单、快速的特点,利用K-means处理大数据集时具备高效率以及可伸缩性,Kmean方法运用在密集型结果簇、簇类区分明显场合下效果更加明显。K-means方法大量用于场景识别、场景分类等图像处理领域。
所述步骤S3词袋库W的生成方式为:
Figure BDA0002801763610000081
其中,W∈Rc×128表示词袋库,通过对所有训练样本的sift特征集合进行k均值聚类获得,wj表示词袋库中的一个单词,c表示词袋库的大小,即单词的个数,每个单词128维。
实施例3
根据k均值聚类,可确定每个sift特征点所属的中心w,同时也可确定每类图像与单词的对应关系。每种场景图像都有多个sift特征,这些sift特征可能属于分别属于不同单词,多种场景图像又可能包含相同的单词,场景和单词形成图2所示对应关系,图中scene表示场景,S表示场景的类别数,w表示单词,c表示单词数,SWi j表示场景j包含的单词i的个数。词袋模型通过单词直方图对不同的图像场景进行表征,虽然sift特征具有较强的不变性,能准确描述像素点特性,但是并非每个单词都对图像具有较强的类别表征特性,有些单词只来源于某种场景,如图中的单词W2只来源于场景Scene3,那么这个单词对于场景类别表征特性比较强,如果测试某张图像中包含W2,即可认为该图片属于Scene3的可能性极高。而某些单词每个场景中都包含,如图中的单词W3,每个场景中都包含有该单词,且该单词在每类场景出现的比例也相近,那么该单词对于场景类别的表征特性比较弱。如果某张测试图像中包含W3,则很难根据单词w3辨识该图像属于哪一类图像。所以每个单词对图像分类的贡献度不一样,为了定量描述每个单词的对场景区分的表征能力,因此,所述步骤S4单词可信度向量Xk=hist(Dk)/p,其中:
Figure BDA0002801763610000091
其中,std(·)表示标准差,
Figure BDA0002801763610000092
表示聚类成单词i的所有特征点的个数。
根据单词可信度的定义可以推断出以下两点:
(1)如果聚类为单词i的所有特征点均匀来源于s类场景,即SWi 1=SWi 2=…=SWi s,则std([SWi 1,SWi 2,…,SWi s])=0,ri=0,即该单词不具有表征特性,在场景分类中不可信。
(2)如果聚类为单词i的所有特征点均来自同一类场景j,即SWi j=Li,SWi k=0(k≠j),则
Figure BDA0002801763610000093
ri=1,即该单词具有最强表征能力,完全可信。
很显然,这两点推断与我们预期的单词对场景类别表征特性一致。
实施例4
所述步骤S5中生成图像特征直方图的方法如下:
对于任一样本图像,假设其sift特征描述集合为Fk={fk 1,fk 2,…,fk p}∈Rp×128,其单词分布分布为Dk={c1,c2,…,cp}∈Rp,则
Figure BDA0002801763610000101
其中,dis(·)通常表示欧式距离,即计算sift描述向量与单词库中每个单词的距离,距离最近的单词的编号即为ci,则对该图像整体描述的特征直方图表示为:
Xk=hist(Dk)/p (5)
其中,hist(·)表示频次统计的直方图,Xk表示归一化后的概率直方图。
根据上述可依次计算所有训练样本和测试样本的特征直方图,其中训练样本已知图像场景类别,对这一类问题最常用的是采用SVM分类器进行模式识别。假设训练样本特征直方图描述向量集合为Y={Y1;Y2;…;Yn},对应的类别标签为Lbl={l1;l2;…;ln},测试样本特征直方图描述向量集合为X={X1;X2;…;Xm},则基于SVM的模式识别可表示为:
Figure BDA0002801763610000102
基于SVM的模式识别包括训练和分类识别两步。
直方图交叉核(Histogram intersection kernel)是一种基于隐式对应关系的内核函数,解决了无序、可变长度的矢量集合的判别分类的问题。这个内核可以证明是正定的,并且还有诸多优势。
设测试样本图像Xi的归一化特征直方图为H(Xi)∈Rc,训练样本图像Yj的归一化特征直方图为H(Yj)∈Rc,即
Figure BDA0002801763610000111
引入交叉核函数:
Figure BDA0002801763610000112
根据直方图交叉核函数定义可知,如果测试样本图像Xi和训练样本图像Yj直方图完全一致,即H(Xi)=H(Yj),则
Figure BDA0002801763610000113
则两张图像完全相似,反之,如果两个直方图差异性很大,则I(H(Xi),H(Yj))接近于零,该函数值能很好的衡量两个直方图的相似性。
实施例5
图像特征直方图中每个bin代表一个单词在该图像中出现的概率,虽然原交集核函数虽然可以很好的衡量两个直方图的相似性,但是没有考虑每个单词的可信度,相当于每个单词平等对待,采用了相同的权重,不能体现每个单词对场景分类的表征特性具有的差异性。本申请改进的基于单词可信度修正直方图交叉核函数的相似性度量函数定义如下:
所述步骤S6基于单词可信度修正直方图交叉核函数的相似性度量函数定义如下:
Figure BDA0002801763610000114
即对直方图交叉核函数每个值分别乘以对应的单词的表征能力rk,进一步提高相似性度量的合理性。
实施例6
所述步骤S7对于测试样本图像Xi,其与所有训练样本的相似性序列用Ii表示,
Figure BDA0002801763610000121
对Ii进行降序排序,取其前d个值构成
Figure BDA0002801763610000122
Figure BDA0002801763610000123
表示测试样本图像Xi与训练样本YDj的相似性,用Bi={b1,b2,…,bd}表示与测试样本图像Xi最相似的前d个训练样本所属的场景分类,即训练样本YDj属于第bj类场景,统计与Xi最相似的d个训练样本所属的场景类别,即h=hist(Bi),hist(Bi)表示频次直方图,则Xi其所属的场景类别为:
ci={k|hk=max(h)} (8)。
实施例7
取7类场景,分别为门口(gateway)、办公室(office)、道路(pathway)、广场(square)、走廊(passage)、市区(ubran)和郊区(suburb),其中前5类场景是使用锐尔威视RER-720P2CAM双目摄像头对校园内室内外环境下自行采集的图像,图像分辨率为640×360。后两类场景分别来源于Málaga标准双目城市图像数据集、New College双目数据集。图像分辨率为640*480。实验中所采用的详细参数如表1所示。
表1实验参数设置
参数符号 参数名称 参数值
s 场景类别数 7
kt 每类训练样本数 10
ks 每类测试样本数 50
c 单词数 300
Pt 图像块大小 16*16
dt 图像块间隔 8
d K近邻大小 10
实验中每类场景样本图像都是同一种场景从不同位置不同角度的获取多张图像,其相似度非常高,采用本申请方法或BOVW常用方法识别率均可达到100%。为了验证方法在场景识别中的有效性,本申请选取office场景,从中替换10张具有干扰的图像,其中5张图像是对原图像进行人为篡改,包括色调改变,局部错位,降低曝光度,提高曝光度,图像旋转等。另外5张图像是相似的办公室场景,但并非原场景。
对每类场景分别取10张图像作为训练样本,取50张图像作为测试样本,每张图像进行均匀网格划分,图像块大小pt=16,图像间隔pd=8。提取训练样本和测试样本每个图像块的sift特征向量。对训练样本的特征描述向量进行kmeans聚类,词袋库大小设置c=300。部分单词向量波形如图4所示,单词之间具有较大的区分性。
对所有训练样本和测试样本生成特征直方图向量,其中office场景的10组训练样本特征直方图和局部放大如图5所示,10组正常测试样本特征直方图和局部放大如图6所示,10组人为干扰图像特征直方图和局部放大如图7所示。从局部直方图可以看出,office场景训练样本和正常测试样本直方图重叠度比较高,整体直方图形状和数据范围比较一致,即图像比较相似,而经过人为干扰的10组训练样本其直方图分布明显相对混乱,数据范围较训练样本也有一定的差异。可知,经过干扰图片的整体特征描述发生了较大的改变,这将给场景识别造成一定的困难。
对于这10张干扰图像,我们希望的分类结果均是第2类场景,但前5张篡改图像与场景2训练图像相似性较高,而后5张类似场景图像与场景2训练图像相似性相对较低,毕竟不是相同地点,只是在7类图像中更为相近。采用单词可信度修正直方图交叉核方法计算每张图像与训练样本最大相似度如图8所示。从图中可以看出,第二类场景office正常测试样本其与训练样本相似度为0.35左右,经过人为篡改的5张测试样本RL01-RL04与训练样本的相似度略有的降低,但在整体测试样本中其相似度还是比较高,而后5张场景类似不同地点的测试图像RL05-RL09与训练样本的相似度明显降低,相似性数据符合我们的预期效果。同时也可以看出,BOVW模型具有较强的稳健性,相同的场景即便图像色调、亮度、角度发生了很大改变,其特征直方图依然稳定,所谓真的假不了。而不同地点,即便很相似,在相似性系数上明显较相同场景低,具有较强的辨识度,所谓假的真不了。10张干扰图片与同类训练样本的最高相似度和与所有训练样本的最高相似度以及识别结果如表2所示,其中1~7分别表示7类场景。其中与RL05和RL07最为相似的图片不是同类场景的训练样本,最终的k近邻识别结果也是错误的。
表2干扰测试图像与训练样本相似性
Figure BDA0002801763610000141
采用本文方法整体识别结果如图9所示,第二类场景office有两张图片识别错误,识别率达到96%,其他场景识别结果均正确。
为了进一步验证本文方法的有效性,本申请选用了两种方法进行对比实验,第一种是BOVW和SVM分类器进行场景识别,第二种是BOVW和直方图交叉核在结合近邻分类器进行识别,识别结果如表3所示。另外6类场景识别结果均正确,而经过人为制造干扰的第二类场景常用另外两种方法均有6张图片识别错误,准确率均值达到88%,该结果表明本文方法在场景识别上具有更强的抗干扰能力。
表3不同方法场景分类识别结果比较
Figure BDA0002801763610000151
以上公开的仅为本发明的几个具体实施例,但是,本发明实施例并非局限于此,任何本领域的技术人员能思之的变化都应落入本发明的保护范围。

Claims (8)

1.一种基于优化视觉词袋模型的图像场景分类方法,其特征在于,包括以下步骤:
S1:确定图像中需要进行区分的场景类别数s,选定训练样本和测试样本,每一类场景分别采集kt张图像作为训练样本,并选定ks张图像作为测试样本;
S2:采用网格化均匀提取训练样本和测试样本的Sift特征点,设定网格图像块大小pt和块间隔dt,对训练样本和测试样本中每张图像进行均匀化网格划分,得到若干个图像块,计算每个图像块的中心点sift特征描述向量,得到每张图像的特征描述向量集合Fi
S3:设定Kmeans方法的聚类中心数c、迭代运算次数和收敛误差,对训练样本和测试样本中的所有特征描述向量Fi进行K均值聚类,获得聚类中心向量集合,即词袋库W;
S4:Kmeans聚类过程得出每个单词包含的特征描述向量集,进而获得每个单词中特征点来源分布SW,计算每个单词对场景类别的表征能力,得到单词可信度向量R;
S5:根据词袋模型方法分别获得训练样本和测试样本的全局描述,即计算每张图像的特征直方图;
S6:基于修正直方图交叉核函数的相似性度量方法计算每个测试样本图像与每个训练样本的相似性,得到相似性矩阵I;
S7:对相似性矩阵进行降序排序,设置k近邻分类中邻域大小d,基于近邻分类器分别计算每个测试样本所属的场景类别。
2.如权利要求1所述的一种基于优化视觉词袋模型的图像场景分类方法,其特征在于,所述步骤S2中特征点的sift特征描述向量集合为:
F={f1,f2,…,fp}∈Rp×128 (1)
其中,fi表示表示特征点i的sift描述向量,p表示一张图像提取的sift特征点数,特征点由sift方法关键点检测确定,或通过图像均匀网格划分确定,128表示sift特征维数。
3.如权利要求1所述的一种基于优化视觉词袋模型的图像场景分类方法,其特征在于,所述步骤S3词袋库W的生成方式为:
Figure FDA0002801763600000021
其中,W∈Rc×128表示词袋库,通过对所有训练样本的sift特征集合进行k均值聚类获得,wj表示词袋库中的一个单词,c表示词袋库的大小,即单词的个数,每个单词128维。
4.如权利要求1所述的一种基于优化视觉词袋模型的图像场景分类方法,其特征在于,所述步骤S4单词可信度向量R=[r1,r2,…,rc],其中:
Figure FDA0002801763600000022
其中,std(·)表示标准差,
Figure FDA0002801763600000023
表示聚类成单词i的所有特征点的个数。
5.如权利要求1所述的一种基于优化视觉词袋模型的图像场景分类方法,其特征在于,所述步骤S5中生成图像特征直方图的方法如下:
对于任一样本图像,假设其sift特征描述集合为Fk={fk 1,fk 2,…,fk p}∈Rp×128,其单词分布分布为Dk={c1,c2,…,cp}∈Rp,则
Figure FDA0002801763600000024
其中,dis(·)通常表示欧式距离,即计算sift描述向量与单词库中每个单词的距离,距离最近的单词的编号即为ci,则对该图像整体描述的特征直方图表示为:
Xk=hist(Dk)/p (5)
其中,hist(·)表示频次统计的直方图,Xk表示归一化后的概率直方图。
6.如权利要求5所述的一种基于优化视觉词袋模型的图像场景分类方法,其特征在于,假设训练样本特征直方图描述向量集合为Y={Y1;Y2;…;Yn},对应的类别标签为LDI={l1;l2;…;ln},测试样本特征直方图描述向量集合为X={X1;X2;…;Xm},则基于SVM的模式识别可表示为:
Figure FDA0002801763600000031
7.如权利要求1所述的一种基于优化视觉词袋模型的图像场景分类方法,其特征在于,所述步骤S6基于单词可信度修正直方图交叉核函数的相似性度量函数定义如下:
Figure FDA0002801763600000032
8.如权利要求1所述的一种基于优化视觉词袋模型的图像场景分类方法,其特征在于,所述步骤S7对于测试样本图像Xi,其与所有训练样本的相似性序列用Ii表示,
Figure FDA0002801763600000033
对Ii进行降序排序,取其前d个值构成
Figure FDA0002801763600000034
Figure FDA0002801763600000035
表示测试样本图像Xi与训练样本YDj的相似性,用Bi={b1,b2,…,bd}表示与测试样本图像Xi最相似的前d个训练样本所属的场景分类,即训练样本YDj属于第bj类场景,统计与Xi最相似的d个训练样本所属的场景类别,即h=hist(Bi),hist(Bi)表示频次直方图,则Xi其所属的场景类别为:
ci={k|hk=max(h)} (8)。
CN202011352621.8A 2020-11-27 2020-11-27 一种基于优化视觉词袋模型的图像场景分类方法 Active CN112329798B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011352621.8A CN112329798B (zh) 2020-11-27 2020-11-27 一种基于优化视觉词袋模型的图像场景分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011352621.8A CN112329798B (zh) 2020-11-27 2020-11-27 一种基于优化视觉词袋模型的图像场景分类方法

Publications (2)

Publication Number Publication Date
CN112329798A true CN112329798A (zh) 2021-02-05
CN112329798B CN112329798B (zh) 2023-07-25

Family

ID=74309111

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011352621.8A Active CN112329798B (zh) 2020-11-27 2020-11-27 一种基于优化视觉词袋模型的图像场景分类方法

Country Status (1)

Country Link
CN (1) CN112329798B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7466808B2 (ja) 2022-03-24 2024-04-12 三菱電機株式会社 二項分類装置及び二項分類装置のアノテーション補正方法

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102622607A (zh) * 2012-02-24 2012-08-01 河海大学 一种基于多特征融合的遥感图像分类方法
US20130148881A1 (en) * 2011-12-12 2013-06-13 Alibaba Group Holding Limited Image Classification
US20140254923A1 (en) * 2011-10-19 2014-09-11 The University Of Sydney Image processing and object classification
CN104778475A (zh) * 2015-03-30 2015-07-15 南京邮电大学 一种基于环形区域最大频繁视觉单词的图像分类方法
CN105005786A (zh) * 2015-06-19 2015-10-28 南京航空航天大学 一种基于BoF和多特征融合的纹理图像分类方法
CN105469096A (zh) * 2015-11-18 2016-04-06 南京大学 一种基于哈希二值编码的特征袋图像检索方法
CN105488502A (zh) * 2015-11-27 2016-04-13 北京航空航天大学 目标检测方法与装置
US20160148074A1 (en) * 2014-11-26 2016-05-26 Captricity, Inc. Analyzing content of digital images
CN106250909A (zh) * 2016-07-11 2016-12-21 南京邮电大学 一种基于改进视觉词袋模型的图像分类方法
CN109492652A (zh) * 2018-11-12 2019-03-19 重庆理工大学 一种基于有序视觉特征单词库模型的相似图像判断方法
CN109961089A (zh) * 2019-02-26 2019-07-02 中山大学 基于度量学习和元学习的小样本和零样本图像分类方法
CN111414958A (zh) * 2020-03-18 2020-07-14 燕山大学 一种视觉词袋金字塔的多特征图像分类方法及系统

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140254923A1 (en) * 2011-10-19 2014-09-11 The University Of Sydney Image processing and object classification
US20130148881A1 (en) * 2011-12-12 2013-06-13 Alibaba Group Holding Limited Image Classification
CN102622607A (zh) * 2012-02-24 2012-08-01 河海大学 一种基于多特征融合的遥感图像分类方法
US20160148074A1 (en) * 2014-11-26 2016-05-26 Captricity, Inc. Analyzing content of digital images
CN104778475A (zh) * 2015-03-30 2015-07-15 南京邮电大学 一种基于环形区域最大频繁视觉单词的图像分类方法
CN105005786A (zh) * 2015-06-19 2015-10-28 南京航空航天大学 一种基于BoF和多特征融合的纹理图像分类方法
CN105469096A (zh) * 2015-11-18 2016-04-06 南京大学 一种基于哈希二值编码的特征袋图像检索方法
CN105488502A (zh) * 2015-11-27 2016-04-13 北京航空航天大学 目标检测方法与装置
CN106250909A (zh) * 2016-07-11 2016-12-21 南京邮电大学 一种基于改进视觉词袋模型的图像分类方法
CN109492652A (zh) * 2018-11-12 2019-03-19 重庆理工大学 一种基于有序视觉特征单词库模型的相似图像判断方法
CN109961089A (zh) * 2019-02-26 2019-07-02 中山大学 基于度量学习和元学习的小样本和零样本图像分类方法
CN111414958A (zh) * 2020-03-18 2020-07-14 燕山大学 一种视觉词袋金字塔的多特征图像分类方法及系统

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
RONGGUIWANG 等: "A novel method for image classification based on bag of visual words", 《JOURNAL OF VISUAL COMMUNICATION AND IMAGE REPRESENTATION》 *
RONGGUIWANG 等: "A novel method for image classification based on bag of visual words", 《JOURNAL OF VISUAL COMMUNICATION AND IMAGE REPRESENTATION》, vol. 40, 4 June 2016 (2016-06-04), pages 24 - 33, XP029675139, DOI: 10.1016/j.jvcir.2016.05.022 *
刘帅;曹若文;: "利用SURF和PLSA的遥感图像场景分类", 信息技术, no. 03, pages 39 - 42 *
宋涛 等: "基于有序视觉词袋模型的图像相似性衡量", 《华中科技大学学报(自然科学版)》 *
宋涛 等: "基于有序视觉词袋模型的图像相似性衡量", 《华中科技大学学报(自然科学版)》, no. 2020, 26 May 2020 (2020-05-26), pages 67 - 72 *
许家乐: "基于词袋模型的图像分类技术研究", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 *
许家乐: "基于词袋模型的图像分类技术研究", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》, no. 2018, 15 April 2018 (2018-04-15), pages 138 - 2616 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7466808B2 (ja) 2022-03-24 2024-04-12 三菱電機株式会社 二項分類装置及び二項分類装置のアノテーション補正方法

Also Published As

Publication number Publication date
CN112329798B (zh) 2023-07-25

Similar Documents

Publication Publication Date Title
CN110443143B (zh) 多分支卷积神经网络融合的遥感图像场景分类方法
Pei et al. SAR automatic target recognition based on multiview deep learning framework
CN107609601B (zh) 一种基于多层卷积神经网络的舰船目标识别方法
CN113378632B (zh) 一种基于伪标签优化的无监督域适应行人重识别方法
US10061999B1 (en) System and method for using segmentation to identify object location in images
CN108108751B (zh) 一种基于卷积多特征和深度随机森林的场景识别方法
CN111126482B (zh) 一种基于多分类器级联模型的遥感影像自动分类方法
Kim et al. Color–texture segmentation using unsupervised graph cuts
CN112633382B (zh) 一种基于互近邻的少样本图像分类方法及系统
CN107330383A (zh) 一种基于深度卷积神经网络的人脸识别方法
Zhang et al. Road recognition from remote sensing imagery using incremental learning
CN111709313B (zh) 基于局部和通道组合特征的行人重识别方法
CN111709311A (zh) 一种基于多尺度卷积特征融合的行人重识别方法
CN112800980B (zh) 一种基于多层次特征的sar目标识别方法
CN110717554A (zh) 图像识别方法、电子设备及存储介质
CN106780639B (zh) 基于显著性特征稀疏嵌入和极限学习机的哈希编码方法
CN116385707A (zh) 基于多尺度特征与特征增强的深度学习场景识别方法
Wang et al. Remote sensing scene classification using heterogeneous feature extraction and multi-level fusion
CN113447771A (zh) 一种基于sift-lda特征的局部放电模式识别方法
CN115311502A (zh) 基于多尺度双流架构的遥感图像小样本场景分类方法
CN113808166B (zh) 基于聚类差分和深度孪生卷积神经网络的单目标跟踪方法
CN112329798B (zh) 一种基于优化视觉词袋模型的图像场景分类方法
CN113283371A (zh) 一种基于brisk特征的局部放电特征提取及分类方法
CN112270285A (zh) 一种基于稀疏表示和胶囊网络的sar图像变化检测方法
Li et al. A new algorithm of vehicle license plate location based on convolutional neural network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant