CN104778475A

CN104778475A - 一种基于环形区域最大频繁视觉单词的图像分类方法

Info

Publication number: CN104778475A
Application number: CN201510145940.4A
Authority: CN
Inventors: 朱书眉; 王诚
Original assignee: Nanjing Post and Telecommunication University
Current assignee: Nanjing fortune Health Industry Co., Ltd.
Priority date: 2015-03-30
Filing date: 2015-03-30
Publication date: 2015-07-15
Anticipated expiration: 2035-03-30
Also published as: CN104778475B

Abstract

本发明公开了一种基于环形区域最大频繁视觉单词的图像分类方法，主要解决现有分类模型不能充分表达图像所属类别共有特征以及分类精确度较低的问题。该方法实现步骤是：(1)建立自然场景图像的训练集和测试集；(2)对训练集图像提取SIFT特征点并优化；(3)利用均值聚类方法聚类优化后的特征点集得到视觉词典；(4)基于环形区域提取视觉单词最大频繁项集；(5)生成加权视觉单词直方图；(6)训练支持向量机实现自然场景图像的分类。本发明相较其他利用视觉词袋特征进行图像分类的方法，能够提高同类别图像视觉词袋的相似程度，而使不同类别的差异更显著，在一定程度上提高分类的精确度，具有较强的实用价值。

Description

一种基于环形区域最大频繁视觉单词的图像分类方法

技术领域

本发明涉及一种基于环形区域最大频繁视觉单词的图像分类方法，使用此方法可以完成自然图像的场景分类任务,可用于图像智能化分类及互联网中的图像推送服务。

背景技术

近年来，多媒体与计算机网络技术不断迅猛发展，这给数字图像资源的日益增长带来契机。目前，人们浏览信息的途径越来越广泛，其中图像数据以其多样性和直观性成为不可或缺的信息载体。面对纷杂多样的图像资源，结合现有的机器学习知识，如何对图像进行有效地提取特征和分类，成为当前的研究热点。

在众多的图像分类方法中，由“词袋法”发展而来的视觉词袋模型(BOVW,Bag ofVisual Words)成为目前图像分类较主流的方法。常见的做法是首先提取出图像的局部基元特征，其次将这些特征矢量量化并构造视觉码本，特征矢量编码为视觉单词，从而每幅图像可以由不同频率的视觉单词表示。最后统计每幅图像的视觉单词直方图，通过训练分类器，检测出待判别的图像类型。

例如，发明专利“基于视觉词典的图像分类方法”(专利申请号：201110175101.9，公开号：CN102208038A)即通过BOVW模型构建视觉词典，并将图像用基于该视觉词典的直方图表示，建立模型对图像进行分类。该方法没有考虑图像特征点的空间位置信息，并且其实现的分类模型不能充分表达图像所属类别共有特征，而这些特征中可能包含了对分类产生重要作用的信息，则影响了图像的分类精确度；发明专利“基于空间局部聚合描述向量的图像分类方法”(专利申请号：201310180925.4，公开号：CN103295026A)中实现的方法考虑了特征点空间分布的信息，用基于带有特征点空间分布的局部描述聚合向量训练分类器，实现图像分类。其生成的图像描述向量的频率分量相对有序，但也没有突出图像所属类别的共有特征。

发明内容

本发明的目的在于针对上述现有技术的不足，提出一种基于环形区域最大频繁视觉单词项集的图像分类方法，可以充分表达图像类别间的鉴别特征，并综合考虑特征点在图像中的分布信息，提高图像分类的准确率。

本发明的技术方案如下：

一种基于环形区域最大频繁视觉单词的图像分类方法，包括以下主要步骤：

(1)将图像集划分为训练图像集和测试图像集；

(2)提取训练图像集的SIFT特征点并优化：

(2a)提取图像的SIFT特征点；

(2b)令μ＝(x,y)|(x,y)，计算特征点集合的质心其中其中μ是特征点集；

(2c)计算各特征点到质心的距离并将其从小到大依次排列，分别为r₁,r₂,…r_k，k表示特征点个数，选取最后m个值r_k-m+1,r_k-m+2…r_k，若出现i个特征点距离相同，则该距离值记录i次，使距离值与特征点一一对应；

(2d)令Δr_i＝r_k-m+i+r_k-m+i-1,i∈[1,m]，依次计算Δr₁/r_k,Δr₂/r_k,……Δr_m/r_k的值，若Δr_i/r_k>阈值p，将距离d≥r_k-m+i的特征点删除；

(3)利用均值聚类方法聚类优化后的特征点集，得到视觉词典D，聚类后得到的每一个聚类中心作为一个视觉单词，计算训练图像中SIFT特征点与视觉单词的欧式距离，将特征向量分配到距离最近的视觉单词；

(4)对于任意一幅训练图像，以其计算的特征点质心为圆心，划分为n个同心圆环，优化后的特征点集分布在各圆环中，对于不同种类的图像，采用挖掘最大频繁项集方法得到各环内出现的最大频繁视觉单词项集；

(5)对最大频繁视觉单词项集加权处理并得到图像视觉单词直方图：

(5a)将图像I{I₁,I₂…I_N}n个环的频繁项集记为A₁,A₂…A_n，设I_i(1)代表图像I_i的环1，若A₁中存在I_i(1)支持的最大频繁项集X₁，计算I_i直方图时将X₁中出现的各视觉单词加权；

(5b)设环1内有k₁个特征点，整幅图像有k个特征点，权值为w₁＝(1+k₁/k)；

(5c)根据环内实际出现的k₁个视觉单词结合其权值进行统计，分别对n个环进行处理，最后得到图像I_i的视觉单词直方图并对其归一化处理；

(6)针对图像分类中单特征多类别的分类问题，采用一对多规则，分别训练一组SVM分类器，对应图像库的多个类别，利用训练后的SVM分类器进行测试图像的图像分类。

优选的，在步骤(2a)中，所述的提取图像SIFT特征点，具体步骤如下：

(2a1)利用尺度可变的二维高斯核函数与原始图像做卷积，将相邻尺度的两个高斯图像相减建立DOG尺度空间金字塔模型：

L(x,y,σ)＝G(x,y,σ)*I(x,y)；

D(x,y,σ)＝(G(x,y,σ)-G(x,y,σ))*I(x,y)；

其中，I(x,y)表示图像函数，G(x,y,σ)为可变尺度的二维高斯函数，L(x,y,σ)为图像函数的尺度空间，D(x,y,σ)表示建立的DOG尺度空间金字塔模型；

(2a2)将每个像素点(x,y)通过逐个比较的方法，在DOG尺度空间中找到相邻位置和相邻尺度内的局部极值点，即为特征点，并记下特征点的位置和尺度；

(2a3)计算特征点(x,y)邻域内每个像素点的梯度幅值和方向，公式为：

m (x, y) = \sqrt{{(L (x + 1, y) - L (x - 1, y))}^{2} + {(L (x, y + 1) - L (x, y - 1))}^{2}}

θ (x, y) = \tan^{- 1} [\frac{L (x, y + 1) - L (x, y - 1)}{L (x + 1, y) - L (x - 1, y)}];

其中，m(x,y)代表特征点梯度的大小，θ(x,y)代表特征点的梯度方向；

(2a4)以特征点为中心，将其邻域分成4*4＝16子区域，计算每个子区域的8方向梯度直方图，最终获得的SIFT描述子是8*4*4＝128维的描述子。

优选的，在步骤(3)中，所述的生成视觉词典D以及将特征点映射到最近的视觉单

词上，具体步骤如下：

(3a)在训练集图像上随机选取k个特征点作为k个聚类中心，即为迭代初始值；

(3b)在第n个环次迭代中，求训练集中每一个图像特征点到k个聚类中心的欧式距离，将其分配到最近的聚类中心，并更新每个聚类中特征点的均值作为n+1次迭代的聚类中心的初始值；

(3c)若n+1次迭代的聚类中心与第n次的差值变化在设定阈值T＝10^-7范围内，则迭代结束，否则继续执行迭代更新，最终生成的聚类中心集合即为视觉词典；

(3d)聚类后得到的每一个聚类中心作为一个视觉单词，计算训练图像中SIFT特征点与视觉单词的欧式距离，将特征向量分配到距离最近的视觉单词。

优选的，在步骤(4)中，所述的挖掘最大频繁视觉单词项集，具体步骤如下：

对于某一类图像I{I₁,I₂…I_N}中包含N幅图像，给定图像I_i,i∈[1,N]，其中包含n个圆环I_i(1),I_i(2)…I_i(n)，图像I₁(1)中特征点对应的视觉单词构成第一条事务记录，依次类推I_N(1)中特征点构成第N条事务记录，以上N条记录构成环1的事务集重复出现的视觉单词只记录一次。

(4a)扫描事务数据集一次，给定支持度阈值Minsup产生频繁1-N项目集及其支持数，将每条事务记录中的各项按支持数降序重新排列，得到频繁项目列表L_F；

(4b)令最大频繁项目集MFS＝φ，候选最大频繁项目集MFCS＝L_F，记L_F＝{1,2,3,…,j}，j＝|L_F|，计算MFCS的支持度，若支持度大于Minsup，MFS＝MFCS，执行(4f)。否则，执行(4c)；

(4c)令MFCS＝{c|c∈L_F且|c|＝j-1}，对于所有m∈MFCS，若支持度大于Minsup，则MFS＝MFS∪m，若项目{e|e∈L_F且}＝φ，MFS为所求，执行(4f)，否则执行(4d)；

(4d)若MFS≠φ，MFCS＝{c|e∈c且|c|＝j-2}，若MFS＝φ，MFCS＝{c|c∈L_F且|c|＝j-2}，对于所有m∈MFCS，若支持度大于Minsup，则MFS＝MFS∪m，若项目{e|e∈L_F且}＝φ，MFS为所求，执行(4f)，否则执行(4e)；

(4e)重复(4d)，令变量j＝j-1，直至项目{e|e∈L_F且}＝φ，MFS为所求；

(4f)重复(4a)-(4e)，求得n个环的最大频繁视觉单词项集。

优选的，在步骤(4f)中，所述n取值6。

本发明采用以上技术方案与现有技术相比，具有以下技术效果：

1、通过对特征点进行环形区域划分，分别统计和计算各环内的最大频繁视觉单词项集，能体现出特征点在图像中的分布信息；

2、统计图像的视觉单词直方图时，将环内支持最大频繁项集的视觉单词赋予权值，且依据特征点的密集程度确定权值，能有效提高同类别图像视觉单词直方图的相似程度，而使不同类别的差异更为显著，从而提高图像的分类准确度。

附图说明

图1是本发明的实现流程图；

图2(a)是本发明仿真采用的COREL图像库中飞机的样例图像；

图2(b)是本发明仿真采用的COREL图像库中海底的样例图像；

图2(c)是本发明仿真采用的COREL图像库中花朵的样例图像；

图2(d)是本发明仿真采用的COREL图像库中赛车的样例图像；

图2(e)是本发明仿真采用的COREL图像库中鸟的样例图像；

图2(f)是本发明仿真采用的COREL图像库中日出的样例图像；

图2(g)是本发明仿真采用的COREL图像库中石雕的样例图像；

图2(h)是本发明仿真采用的COREL图像库中老虎的样例图像；

图3是本发明的仿真效果图。

具体实施方式

参照图1，本发明的具体技术实施步骤如下：

步骤1，将图像集划分为训练图像集和测试图像集。

首先根据图2中的8个图像类别，分别编号图(a)到图(h)；

其次在每个图像类别中随机选取50幅图像做为图像分类的训练集，剩下的图像组成分类的测试集。

步骤2，对训练集中的图像提取SIFT特征点并优化。

(2a)提取训练图像集的SIFT特征点：

D (x, y, σ) = \frac{1}{2 {πσ}^{2}} e^{\frac{- (x^{2} + y^{2})}{{2 σ}^{2}}};

L(x,y,σ)＝G(x,y,σ)*I(x,y)；

D(x,y,σ)＝(G(x,y,σ)-G(x,y,σ))*I(x,y)；

其中I(x,y)表示图像函数，G(x,y,σ)为可变尺度的二维高斯函数，L(x,y,σ)为图像函数的尺度空间，D(x,y,σ)表示建立的DOG尺度空间金字塔模型。

(2a2)将每个像素点(x,y)通过逐个比较的方法，找到相邻位置和相邻尺度内的局部极值点(最大值或最小值)，即为特征点，并记下特征点的位置和尺度；

m (x, y) = \sqrt{{(L (x + 1, y) - L (x - 1, y))}^{2} + {(L (x, y + 1) - L (x, y - 1))}^{2}}

θ (x, y) = \tan^{- 1} [\frac{L (x, y + 1) - L (x, y - 1)}{L (x + 1, y) - L (x - 1, y)}];

(2b)令μ＝(x,y)|(x,y)，计算特征点集合的质心其中其中μ是特征点集合；

(2c)计算各特征点到质心的距离并将其从小到大依次排列，分别为r₁,r₂,…r_k，k表示特征点个数。选取最后m个值r_k-m+1,r_k-m+2…r_k，若出现i个特征点距离相同，则该距离值记录i次，使距离值与特征点一一对应；

步骤3,利用均值聚类方法聚类优化后的特征点集得到视觉词典。

(3a)在训练集图像上随机选取k个特征点作为聚类中心，作为迭代初始值；

(3b)在第n次迭代中，求训练集中每一个图像特征点到k个聚类中心的欧式距离，将其分配到最近的聚类中心，并更新每个聚类中特征点的均值作为n+1次迭代的聚类中心的初始值；

步骤4,基于环形区域提取最大频繁视觉单词项集。

对于某一类图像I{I₁,I₂…I_N}中包含N幅图像，给定图像I_i,i∈[1,N]其中包含n个圆环I_i(1),I_i(2)…I_i(n)。图像I₁(1)中特征点对应的视觉单词构成第一条事务记录，依次类推I_N(1)中特征点构成第N条事务记录，以上N条记录构成环1的事务集重复出现的视觉单词只记录一次。

(4a)扫描事务数据集一次，给定支持度阈值Minsup产生频繁1-项目集及其支持数，将每条事务记录中的各项按支持数降序重新排列，得到频繁项目列表L_F；

(4d)若MFS≠φ，MFCS＝{c|e∈c且|c|＝j-2}，若MFS＝φ，MFCS＝{c|c∈L_F且|c|＝j-2}，对于所有m∈MFCS，若支持度大于Minsup，则MFS＝MFS∪m。若项目{e|e∈L_F且}＝φ，MFS为所求，执行(4f)，否则执行(4e)；

(4f)重复(4a)-(4e)，求得n个环的最大频繁视觉单词项集。

步骤5，对最大频繁项加权处理并得到图像视觉单词直方图。

(5a)将图像I{I₁,I₂…I_N}n个环的频繁项集记为A₁,A₂…A_n。以I_i(1)(代表图像I_i的环1)为例，若A₁中存在I_i(1)支持的最大频繁项集X₁，计算I_i直方图时将X₁中出现的各视觉单词加权；

(5b)由于图像中特征点密集的地方所包含的信息量较为丰富，据此使权值与环内特征点密度相关，设环1内有k₁个特征点，整幅图像有k个特征点，权值为w₁＝(1+k₁/k)；

步骤6，训练支持向量机实现自然场景图像的分类，并得到分类结果。

本发明的分类效果可通过如下仿真进一步说明：

1.仿真内容：

本发明从公用数据集COREL中选取了8个自然场景的类别，日出、海底、花朵、赛车、石雕、飞机、老虎和鸟进行图像分类，每类100张图像，每类选取其中50幅组成训练图像集，剩下的图像组成测试集。仿真1分析环数和视觉单词数对分类性能的影响，并采用精确度作为分类性能评价标准，分类结果如图3所示；仿真2比较了本发明的算法和传统BOVW模型算法的分类精确度，采用精确度/反馈率评估分类性能，分类结果如表1所示。

2.仿真结果：

图3显示当视觉单词数目较小时，分类性能并不乐观，可能原因是并不相近的特征点聚类到一个中心，影响分类精度；当达到一定数目时分类性能提高并不明显。结合环数而言，6环和7环视觉单词为400及以上达到最佳分类效果。考虑时间因素，最终确定视觉单词为400个，环数n取6。

从表1中可以看出，本发明实现方法在相同的反馈率下，平均精确度总体大于传统算法。在高反馈率时，平均精确度比传统BOVW算法增加约5个百分点。

表1 传统方法与本发明方法分类性能

Claims

1.一种基于环形区域最大频繁视觉单词的图像分类方法，其特征在于包括以下主要步骤：

(1)将图像集划分为训练图像集和测试图像集；

(2)提取训练图像集的SIFT特征点并优化：

(2a)提取图像的SIFT特征点；

(2b)令μ＝(x,y)|(x,y)，计算特征点集合的质心其中

\overset{&OverBar;}{y} = (1 / | μ |) Σy,

其中μ是特征点集；

2.根据权利要求1所述的基于环形区域最大频繁视觉单词的图像分类方法，其特征在于：在步骤(2a)中，所述的提取图像SIFT特征点，具体步骤如下：

L(x,y,σ)＝G(x,y,σ)*I(x,y)；

D(x,y,σ)＝(G(x,y,σ)-G(x,y,σ))*I(x,y)；

m (x, y) = \sqrt{{(L (x + 1, y) - L (x - 1, y))}^{2} + {(L (x, y + 1) - L (x, y - 1))}^{2}}

θ (x, y) = \tan^{- 1} [\frac{L (x, y + 1) - L (x, y - 1)}{L (x + 1, y) - L (x - 1, y)}];

3.根据权利要求1所述的基于环形区域最大频繁视觉单词的图像分类方法，其特征在于：在步骤(3)中，所述的生成视觉词典D以及将特征点映射到最近的视觉单词上，具体步骤如下：

4.根据权利要求1所述的基于环形区域最大频繁视觉单词的图像分类方法，其特征在于：在步骤(4)中，所述的挖掘最大频繁视觉单词项集，具体步骤如下：

(4b)令最大频繁项目集MFS＝φ，候选最大频繁项目集MFCS＝L_F，记L_F＝{1,2,3,…,j}，j＝L_F|，计算MFCS的支持度，若支持度大于Minsup，MFS＝MFCS，执行(4f)。否则，执行(4c)；

(4c)令MFCS＝{c|c∈L_F且c|＝j-1}，对于所有m∈MFCS，若支持度大于Minsup，则MFS＝MFS∪m，若项目MFS为所求，执行(4f)，否则执行(4d)；

(4d)若MFS≠φ，MFCS＝{c|e∈c且c|＝j-2}，若MFS＝φ，MFCS＝{c|c∈L_F且c|＝j-2}，对于所有m∈MFCS，若支持度大于Minsup，则MFS＝MFS∪m，若项目MFS为所求，执行(4f)，否则执行(4e)；

(4e)重复(4d)，令变量j＝j-1，直至项目MFS为所求；

(4f)重复(4a)-(4e)，求得n个环的最大频繁视觉单词项集。

5.根据权利要求4所述的基于环形区域最大频繁视觉单词的图像分类方法，其特征在于：在步骤(4f)中，所述n取值6。