CN112329798A

CN112329798A - 一种基于优化视觉词袋模型的图像场景分类方法

Info

Publication number: CN112329798A
Application number: CN202011352621.8A
Authority: CN
Inventors: 宋涛; 赵明富; 王瑜琳; 罗彬彬; 石胜辉; 吴德操; 巫涛江; 邹雪
Original assignee: Chongqing University of Technology; Chongqing Energy College
Current assignee: Chongqing University of Technology; Chongqing Energy College
Priority date: 2020-11-27
Filing date: 2020-11-27
Publication date: 2021-02-05
Anticipated expiration: 2040-11-27
Also published as: CN112329798B

Abstract

本发明公开了一种基于优化视觉词袋模型的图像场景分类方法，涉及图像场景分类技术领域，首先，对BOVW模型的单词库，根据单词在不同场景的分布构造单词对于场景分类的可信度，以衡量单词对场景分类的表征性；其次，采用直方图交叉核衡量图像特征相似性，并采用单词可信度度修正直方图交叉核函数，提高图像相似性度量的准确度；最后利用相似性系数采用k近邻分类器进行场景分类识别。实验表明，所提方法能有效衡量图像相似性，对于干扰图像有较强的鲁棒性，可提高场景分类准确率。

Description

一种基于优化视觉词袋模型的图像场景分类方法

技术领域

本发明涉及图像场景分类技术领域，特别涉及一种基于优化视觉词袋模型的图像场景分类方法。

背景技术

随着人类对生活品质追求的提高，人工智能技术的迅速发展，越来越多的智能设备如无人车、无人机、移动机器人等已逐渐走进人类生活，并协助完成各种任务，在农业、建筑、物流、家庭服务、军事、医疗领域得到广泛应用。图像由于信息量大、内容丰富成为智能装备的重要信息源，但同时由于图像数据爆发式的增长，依靠人工对海量图像进行分类和标注的管理方式己经远远无法满足应用的需求。依靠计算机技术和智能方法对图像包含的语义进行分析和理解显得十分有必要。

如近年来基于视觉信息的视觉slam(simultaneous localization and mapping)取得了极大的进展。图像场景识别是其中重要的研究方向之一。图像场景分类通常不需要具体了解场景中具体包含什么目标和细节，而侧重于对图像场景整体语义描述。其一般思路是建立高层场景语义描述与视觉特征之间的联系，而后通过模式识别方法进行场景分类。人类对于见过的场景有着及其精准的辨识能力，而基于计算机的段场景分类仍然面临着诸多困难，其主要原因有如下：(1)由于场景本身的复杂性和多样性，在同一类场景下拍摄到的图像内容本身差异很大；(2)由于采集图像的外部因素干扰，在同一场景下，不同视角、不同距离、不同光照条件会造成场景图像存在较大的视觉差异。这些因素给场景分类造成了极大困难，提高图像场景识别率对于人工智能环境感知十分重要。

图像场景分类问题的研究思路是采用颜色、纹理、形状等低层特征建立图像场景模型，再利用分类器对场景进行分类识别。然而这类方法低层特征不变性和泛化性较弱，对于复杂多变的场景适用性差。场景分类的关键是建立一种稳定的图像整体描述方法，该描述方法既能稳定的表达同类场景的结构信息，又能有效区分不同场景存在差异。为了达成这一目的，学者展开了大量的研究。在局部特征描述方面，先后提出了具有旋转缩放光照不变性的SIFT(Scale-invariant feature transform)特征、基于sift特征的快速方法SURF(Speed Up Robust Features)特征、基于快速特征定位和二进制描述的ORB(OrientedFAST and Rotated BRIEF)特征、基于图像局部梯度直方图统计的HOG(histograms oforiented gradients)特征，反映图像空间结构特性GIST特征等，其中sift特征因其良好的不变性而具有最好的图像局部特征描述稳定性，被大量应用于图像配准、图像拼接等算中。

而对于图像整体的描述，视觉词袋模型(BOVW，bag of visual words)逐渐成为研究的热点。BOVW来源于应用于文本分类的词袋模型(BOW，bag of words)，该方法先通过离线建立常见的图像特征的单词库，对具体的场景图像，通过图像局部特征与词袋库的比较，得到视觉单词分布，继而得到视觉单词的统计信息，以此来表达图像场景内容。该方法已在图像场景识别中取得了巨大成功。本申请在局部特征描述上也采用sift特征，并采用BOVW模型研究图像描述方法，不同于其它方法，本申请对词袋模型中每个单词的场景表征能力进行计算，得到单词的可信度，在场景识别上，本申请提出基于单词可信度修正直方图核函数的相似度度量方法，表达测试图像与不同场景样本图像间的相似性。最后利用相似性系数采用k近邻分类器对图像进行场景识别，相比如支持向量机、神经网络等模式识别方法，可极大降低计算量。最后通过7类场景分类实验表明，本申请提供的一种基于优化视觉词袋模型的图像场景分类方法对不同场景具有较高的识别率，且对于图像中存在的干扰具有良好的鲁棒性。

发明内容

本发明的目的在于提供一种基于优化视觉词袋模型的图像场景分类方法，对不同场景具有较高的识别率，且对于图像中存在的干扰具有良好的鲁棒性。

本发明提供了一种基于优化视觉词袋模型的图像场景分类方法，包括以下步骤：

S1：确定图像中需要进行区分的场景类别数s，选定训练样本和测试样本，每一类场景分别采集kt张图像作为训练样本，并选定ks张图像作为测试样本；

S2：采用网格化均匀提取训练样本和测试样本的Sift特征点，设定网格图像块大小pt和块间隔dt，对训练样本和测试样本中每张图像进行均匀化网格划分，得到若干个图像块，计算每个图像块的中心点sift特征描述向量，得到每张图像的特征描述向量集合F_i；

S3：设定Kmeans方法的聚类中心数c、迭代运算次数和收敛误差，对训练样本和测试样本中的所有特征描述向量F_i进行K均值聚类，获得聚类中心向量集合，即词袋库W；

S4：Kmeans聚类过程得出每个单词包含的特征描述向量集，进而获得每个单词中特征点来源分布SW，计算每个单词对场景类别的表征能力，得到单词可信度向量R；

S5：根据词袋模型方法分别获得训练样本和测试样本的全局描述，即计算每张图像的特征直方图；

S6：基于修正直方图交叉核函数的相似性度量方法计算每个测试样本图像与每个训练样本的相似性，得到相似性矩阵I；

S7：对相似性矩阵进行降序排序，设置k近邻分类中邻域大小d，基于近邻分类器分别计算每个测试样本所属的场景类别。

进一步地，所述步骤S2中特征点的sift特征描述向量集合为：

F＝{f¹，f²，…，f^p}∈R^p×128 (1)

其中，fⁱ表示表示特征点i的sift描述向量，p表示一张图像提取的sift特征点数，特征点由sift方法关键点检测确定，或通过图像均匀网格划分确定，128表示sift特征维数。

进一步地，所述步骤S3词袋库W的生成方式为：

其中，W∈R^c×128表示词袋库，通过对所有训练样本的sift特征集合进行k均值聚类获得，w_j表示词袋库中的一个单词，c表示词袋库的大小，即单词的个数，每个单词128维。

进一步地，所述步骤S4单词可信度向量X_k＝hist(D_k)/p，其中：

其中，std(·)表示标准差，

表示聚类成单词i的所有特征点的个数。

进一步地，所述步骤S5中生成图像特征直方图的方法如下：

对于任一样本图像，假设其sift特征描述集合为F_k＝{f_k ¹，f_k ²，…，f_k ^p}∈R^p×128，其单词分布分布为D_k＝{c1，c2，…，cp}∈R^p，则

其中，dis(·)通常表示欧式距离，即计算sift描述向量与单词库中每个单词的距离，距离最近的单词的编号即为ci，则对该图像整体描述的特征直方图表示为:

X_k＝hist(D_k)/p (5)

其中，hist(·)表示频次统计的直方图，X_k表示归一化后的概率直方图。

进一步地，假设训练样本特征直方图描述向量集合为Y＝{Y₁；Y₂；…；Y_n}，对应的类别标签为Lbl＝{l₁；l₂；…；l_n}，测试样本特征直方图描述向量集合为X＝{X₁；X₂；…；X_m}，则基于SVM的模式识别可表示为：

进一步地，所述步骤S6基于单词可信度修正直方图交叉核函数的相似性度量函数定义如下：

进一步地，所述步骤S7对于测试样本图像X_i，其与所有训练样本的相似性序列用I_i表示，

对I_i进行降序排序，取其前d个值构成

表示测试样本图像X_i与训练样本Y_Dj的相似性，用B_i＝{b₁，b₂，…，b_d}表示与测试样本图像X_i最相似的前d个训练样本所属的场景分类，即训练样本Y_Dj属于第b_j类场景，统计与X_i最相似的d个训练样本所属的场景类别，即h＝hist(B_i)，hist(B_i)表示频次直方图，则X_i其所属的场景类别为：

c_i＝{k|h_k＝max(h)} (8)

与现有技术相比，本发明具有如下显著优点：

本申请利用了BOW模型的基本原理对图像场景进行分类识别，并进行了如下两点改进：

(一)提出单词可信度计算方法，根据构成每个单词的特征向量集在不同场景的分布集中特征计算每个单词对不同场景区分的表征能力，以此作为单词的可信度计算方法。

(二)提出基于单词可信度修正直方图交叉核函数的图像相似性度量方法，在直方图交叉核函数相似性度量方法的基础上引入单词可信度，以可信度作为直方图交叉核分量的权重，提高相似性度量的准确性。

不同于其它场景识别方法根据支持向量机或者神经网络对测试图像进行分类，本申请在计算测试样本与训练样本相似性后直接采用最近邻方法对测试图像进行场景分类，计算量较小，分类效果良好。

附图说明

图1为本发明实施例提供的基于BOVW模型的图像分类图；

图2为本发明实施例提供的场景、sift特征描述子与单词的关系图；

图3为本发明实施例提供的场景识别流程图；

图4为本发明实施例提供的词袋库部分单词向量图；

图5为本发明实施例提供的训练样本特征直方图；

图6为本发明实施例提供的测试样本特征直方图；

图7为本发明实施例提供的干扰样本特征直方图；

图8为本发明实施例提供的测试样本与训练样本的最大相似系数图；

图9为本发明实施例提供的场景分类识别结果图。

具体实施方式

下面结合本发明中的附图，对本发明实施例的技术方案进行清楚、完整的描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都应属于本发明保护的范围。

在信息检索中，BOW假定对于一个文本，将其仅仅看做是一个单词的组合，文本中每个单词的出现都是独立的，不依赖于其他词是否出现，如果两个文本包含相同的单词组合，即认为两个文本相同，而忽略单词的词序、语法和句法。该方法当然存在一定的缺陷，但是在文本检索中具有较好的应用效果。同理BOVW是将BOW思想引入到图像信息检索中,然而，图像不同于文本，文本有固定的单词库，也就是词典，任何一个文本都是字典中若干单词的组合。而图像是一种更为抽象的二维像素组合，其信息千变万化，截至目前，也没有通用的图像词典可以囊括所有的图像信息。基于BOVW进行图像场景分类通常包含样本局部图像特征描述、Kmeans聚类构建特定的词典、图像特征直方图统计、直方图向量模式匹配几个环节。其中词典的生成和训练样本直方图向量一般离线生成，而测试样本直方图向量的生成和模式识别则在线完成。

参照图1-9，本发明提供了一种基于优化视觉词袋模型的图像场景分类方法，包括以下步骤：

S3：设定Kmeans方法的聚类中心数c(即单词库)、迭代运算次数和收敛误差，训练样本和测试样本中的所有特征描述向量F_i进行K均值聚类，获得聚类中心向量集合，即词袋库W；

S4：Kmeans聚类过程得出每个单词(kmeans聚类中心)包含的特征描述向量集，进而获得每个单词中特征点来源分布SW，计算每个单词对场景类别的表征能力，得到单词可信度向量R；

实施例1

所述步骤S2中特征点的sift特征描述向量集合为：

F＝{f¹,f²,…,f^p}∈p^p×128 (1)

实施例2

Kmeans聚类是将给定数据集划分为多个子集的过程，各子集内部具备高相似特性。该方法是常见而且运用广泛的聚类方法之一。Kmeans方法相较于其他聚类方法具有简单、快速的特点，利用K-means处理大数据集时具备高效率以及可伸缩性，Kmean方法运用在密集型结果簇、簇类区分明显场合下效果更加明显。K-means方法大量用于场景识别、场景分类等图像处理领域。

所述步骤S3词袋库W的生成方式为：

实施例3

根据k均值聚类，可确定每个sift特征点所属的中心w，同时也可确定每类图像与单词的对应关系。每种场景图像都有多个sift特征，这些sift特征可能属于分别属于不同单词，多种场景图像又可能包含相同的单词，场景和单词形成图2所示对应关系，图中scene表示场景，S表示场景的类别数，w表示单词，c表示单词数，SW_i ^j表示场景j包含的单词i的个数。词袋模型通过单词直方图对不同的图像场景进行表征，虽然sift特征具有较强的不变性，能准确描述像素点特性，但是并非每个单词都对图像具有较强的类别表征特性，有些单词只来源于某种场景，如图中的单词W2只来源于场景Scene3，那么这个单词对于场景类别表征特性比较强，如果测试某张图像中包含W2，即可认为该图片属于Scene3的可能性极高。而某些单词每个场景中都包含，如图中的单词W3，每个场景中都包含有该单词，且该单词在每类场景出现的比例也相近，那么该单词对于场景类别的表征特性比较弱。如果某张测试图像中包含W3，则很难根据单词w3辨识该图像属于哪一类图像。所以每个单词对图像分类的贡献度不一样，为了定量描述每个单词的对场景区分的表征能力，因此，所述步骤S4单词可信度向量X_k＝hist(D_k)/p，其中：

其中，std(·)表示标准差，

表示聚类成单词i的所有特征点的个数。

根据单词可信度的定义可以推断出以下两点：

(1)如果聚类为单词i的所有特征点均匀来源于s类场景，即SW_i ¹＝SW_i ²＝…＝SW_i ^s，则std([SW_i ¹,SW_i ²,…,SW_i ^s])＝0，r_i＝0，即该单词不具有表征特性，在场景分类中不可信。

(2)如果聚类为单词i的所有特征点均来自同一类场景j，即SW_i ^j＝L_i，SW_i ^k＝0(k≠j)，则

r_i＝1，即该单词具有最强表征能力，完全可信。

很显然，这两点推断与我们预期的单词对场景类别表征特性一致。

实施例4

所述步骤S5中生成图像特征直方图的方法如下：

X_k＝hist(D_k)/p (5)

根据上述可依次计算所有训练样本和测试样本的特征直方图，其中训练样本已知图像场景类别，对这一类问题最常用的是采用SVM分类器进行模式识别。假设训练样本特征直方图描述向量集合为Y＝{Y₁；Y₂；…；Y_n}，对应的类别标签为Lbl＝{l₁；l₂；…；l_n}，测试样本特征直方图描述向量集合为X＝{X₁；X₂；…；X_m}，则基于SVM的模式识别可表示为：

基于SVM的模式识别包括训练和分类识别两步。

直方图交叉核(Histogram intersection kernel)是一种基于隐式对应关系的内核函数，解决了无序、可变长度的矢量集合的判别分类的问题。这个内核可以证明是正定的，并且还有诸多优势。

设测试样本图像X_i的归一化特征直方图为H(X_i)∈R^c，训练样本图像Y_j的归一化特征直方图为H(Y_j)∈R^c，即

引入交叉核函数：

根据直方图交叉核函数定义可知，如果测试样本图像X_i和训练样本图像Y_j直方图完全一致，即H(X_i)＝H(Y_j)，则

则两张图像完全相似，反之，如果两个直方图差异性很大，则I(H(X_i)，H(Y_j))接近于零，该函数值能很好的衡量两个直方图的相似性。

实施例5

图像特征直方图中每个bin代表一个单词在该图像中出现的概率，虽然原交集核函数虽然可以很好的衡量两个直方图的相似性，但是没有考虑每个单词的可信度，相当于每个单词平等对待，采用了相同的权重，不能体现每个单词对场景分类的表征特性具有的差异性。本申请改进的基于单词可信度修正直方图交叉核函数的相似性度量函数定义如下：

所述步骤S6基于单词可信度修正直方图交叉核函数的相似性度量函数定义如下：

即对直方图交叉核函数每个值分别乘以对应的单词的表征能力r_k,进一步提高相似性度量的合理性。

实施例6

所述步骤S7对于测试样本图像X_i，其与所有训练样本的相似性序列用I_i表示，

对I_i进行降序排序，取其前d个值构成

c_i＝{k|h_k＝max(h)} (8)。

实施例7

取7类场景，分别为门口(gateway)、办公室(office)、道路(pathway)、广场(square)、走廊(passage)、市区(ubran)和郊区(suburb)，其中前5类场景是使用锐尔威视RER-720P2CAM双目摄像头对校园内室内外环境下自行采集的图像，图像分辨率为640×360。后两类场景分别来源于Málaga标准双目城市图像数据集、New College双目数据集。图像分辨率为640*480。实验中所采用的详细参数如表1所示。

表1实验参数设置

参数符号	参数名称	参数值
			s	场景类别数	7
kt	每类训练样本数	10
			ks	每类测试样本数	50
c	单词数	300
			Pt	图像块大小	16*16
dt	图像块间隔	8
			d	K近邻大小	10

实验中每类场景样本图像都是同一种场景从不同位置不同角度的获取多张图像，其相似度非常高，采用本申请方法或BOVW常用方法识别率均可达到100％。为了验证方法在场景识别中的有效性，本申请选取office场景，从中替换10张具有干扰的图像，其中5张图像是对原图像进行人为篡改，包括色调改变，局部错位，降低曝光度，提高曝光度，图像旋转等。另外5张图像是相似的办公室场景，但并非原场景。

对每类场景分别取10张图像作为训练样本，取50张图像作为测试样本，每张图像进行均匀网格划分，图像块大小pt＝16，图像间隔pd＝8。提取训练样本和测试样本每个图像块的sift特征向量。对训练样本的特征描述向量进行kmeans聚类，词袋库大小设置c＝300。部分单词向量波形如图4所示，单词之间具有较大的区分性。

对所有训练样本和测试样本生成特征直方图向量，其中office场景的10组训练样本特征直方图和局部放大如图5所示，10组正常测试样本特征直方图和局部放大如图6所示，10组人为干扰图像特征直方图和局部放大如图7所示。从局部直方图可以看出，office场景训练样本和正常测试样本直方图重叠度比较高，整体直方图形状和数据范围比较一致，即图像比较相似，而经过人为干扰的10组训练样本其直方图分布明显相对混乱，数据范围较训练样本也有一定的差异。可知，经过干扰图片的整体特征描述发生了较大的改变，这将给场景识别造成一定的困难。

对于这10张干扰图像，我们希望的分类结果均是第2类场景，但前5张篡改图像与场景2训练图像相似性较高，而后5张类似场景图像与场景2训练图像相似性相对较低，毕竟不是相同地点，只是在7类图像中更为相近。采用单词可信度修正直方图交叉核方法计算每张图像与训练样本最大相似度如图8所示。从图中可以看出，第二类场景office正常测试样本其与训练样本相似度为0.35左右，经过人为篡改的5张测试样本RL01-RL04与训练样本的相似度略有的降低，但在整体测试样本中其相似度还是比较高，而后5张场景类似不同地点的测试图像RL05-RL09与训练样本的相似度明显降低，相似性数据符合我们的预期效果。同时也可以看出，BOVW模型具有较强的稳健性，相同的场景即便图像色调、亮度、角度发生了很大改变，其特征直方图依然稳定，所谓真的假不了。而不同地点，即便很相似，在相似性系数上明显较相同场景低，具有较强的辨识度，所谓假的真不了。10张干扰图片与同类训练样本的最高相似度和与所有训练样本的最高相似度以及识别结果如表2所示，其中1～7分别表示7类场景。其中与RL05和RL07最为相似的图片不是同类场景的训练样本，最终的k近邻识别结果也是错误的。

表2干扰测试图像与训练样本相似性

采用本文方法整体识别结果如图9所示，第二类场景office有两张图片识别错误，识别率达到96％，其他场景识别结果均正确。

为了进一步验证本文方法的有效性，本申请选用了两种方法进行对比实验，第一种是BOVW和SVM分类器进行场景识别，第二种是BOVW和直方图交叉核在结合近邻分类器进行识别，识别结果如表3所示。另外6类场景识别结果均正确，而经过人为制造干扰的第二类场景常用另外两种方法均有6张图片识别错误，准确率均值达到88％，该结果表明本文方法在场景识别上具有更强的抗干扰能力。

表3不同方法场景分类识别结果比较

以上公开的仅为本发明的几个具体实施例，但是，本发明实施例并非局限于此，任何本领域的技术人员能思之的变化都应落入本发明的保护范围。