CN105303195A

CN105303195A - 一种词袋图像分类方法

Info

Publication number: CN105303195A
Application number: CN201510683226.0A
Authority: CN
Inventors: 阎刚; 于洋; 郭迎春; 刘依; 师硕; 张亚娟; 杨悦强
Original assignee: Hebei University of Technology
Current assignee: Hebei University of Technology
Priority date: 2015-10-20
Filing date: 2015-10-20
Publication date: 2016-02-03
Anticipated expiration: 2035-10-20
Also published as: CN105303195B

Abstract

本发明一种词袋图像分类方法，涉及应用电子设备进行识别图形的方法，是一种基于距离次序的视觉单词权重分配的词袋图像分类方法，步骤是：对图像进行分块并提取特征；对获得的特征进行聚类生成“视觉单词词汇表”；计算待分配“视觉单词”的权重；结合空间金字塔理论获得每幅图像的最终直方图表示；利用支持向量机对待测图像进行分类，最后输出图像类别。本发明方法克服了现有图像分类技术存在单一的特征不能完全代表图像的信息和图像分类存在准确率不高的缺陷。

Description

一种词袋图像分类方法

技术领域

本发明的技术方案涉及应用电子设备进行识别图形的方法，具体地说是一种词袋图像分类方法。

背景技术

随着人类进入信息化社会，国际互联网的快速发展使得信息量以指数化的速度增长，互联网上大量未被分类的数字图像作为一个巨大的挑战摆在了人们面前，传统的人工手动标注和分类不仅在时间上而且在效率上都不再能够适应要求，这就需要自动的图像类别标注和分类方法来应对这一挑战。

近年来，词袋算法在图像分类领域取得了巨大的成就，现有的词袋算法首先对图像中的局部兴趣点(特征点)进行提取SIFT特征，根据聚类映射到“视觉单词词汇表”的某一个“视觉单词”中，统计“视觉单词”个数作为图像的统计直方图，经过训练学习，用分类器完成图像的分类。

现有方法中，提取SIFT特征需要构建尺度空间，运算耗时并且得到的兴趣点数目有限，研究人员在传统的词袋算法上进行了改进。2004年美国卡内基美隆大学的Ke针对SIFT维数较高的问题，利用主成分分析方法(PCA)和SIFT相结合提出基于PCA-SIFT方法的词袋算法，将局部兴趣点的特征维数从128维降低到36维，降低了时间复杂度，但是维数降低使得所用的训练图像需要具有较强的代表性才会得到较好的效果，且时间复杂度仍然较高。2008年Bay等人提出了SURF特征描述子，词袋算法利用SURF提取特征，大大的降低了时间复杂度，但是该描述子在图像尺度和旋转变化时表现不如SIFT描述子。法国里昂中央理工大学的Zhu等人在2011年提取图像特征时采用一种新的快速局部描述子DAISY，建模中仍然使用词袋算法，对于同样的识别率，DAISY的时间上要比SIFT快12倍，但是DAISY描述子的特征维数仍然很高，缺乏更紧凑和多信息的特征表示。

在获取图像的特征后需要把获得到的众多局部特征点分配到“视觉单词词汇表”中的某一个“视觉单词”，现有的主流方法是在特征空间中计算待分配的局部特征点即“视觉单词”与“视觉词汇表”中每个“视觉单词”间的欧几里得距离，计算“视觉单词”的出现频次。该词频-逆文档频率TF-IDF算法用来评估一个字词的重要程度，有较高的召回率，但是没有考虑特征项在类间、类内和不完全分类的分布信息这些情况，使得在权重分配阶段得到的直方图信息有一定局限性。

CN201210043064.0公开了一种基于多特征融合的遥感图像分类方法，应用遥感图像的SIFT特征、颜色直方图特征和纹理特征作为词袋模型的局部特征，得到三个分类器并对待测图像进行分类预测，将预测结果加权得到最终结果，该方法在待分配“视觉单词”的权值分配阶段采用TF-IDF方法，得到的图像直方图具有局限性，在表示信息时致使分类结果产生较大误差。

目前图像分类在特征提取上仍然存在单一的特征不能完全代表图像的信息的问题，在“视觉单词”的权值分配中硬分配的思想忽略了待分配“视觉单词”对其他词汇的贡献，加上词袋算法中图像直方图区分效果不佳，导致图像分类存在准确率不高的缺陷。

发明内容

本发明所要解决的技术问题是：提供一种词袋图像分类方法，是一种基于距离次序的视觉单词权重分配的词袋图像分类方法，克服了现有图像分类技术存在单一的特征不能完全代表图像的信息和图像分类存在准确率不高的缺陷。

本发明解决该技术问题所采用的技术方案是：一种词袋图像分类方法，是一种基于距离次序的视觉单词权重分配的词袋图像分类方法，步骤如下：

第一步，对图像进行分块并提取特征：

(1)图像采集与预处理：

用图像采集设备采集彩色图像，将其输入到计算机中，对获得的彩色图像从RGB空间转换到灰度空间，采用以下公式:

I＝0.299R+0.587G+0.114B(1)，

其中，R、G、B分别代表RGB彩色图像在R、G、B三个通道中的值，I代表灰度图像，由此完成图像采集与预处理；

(2)图像分块：

设上述(1)步中得到的图像的宽为W像素，高为V像素，对图像进行部分重叠分块，块大小为p×p像素，由于图像的尺寸各异，会存在图像块的边缘得不到p×p块的可能，故分别按照公式(2)和公式(3)计算图像块在图像的水平和垂直方向上的第一块图像的起始坐标w1和v1，

w 1 = f l o o r ((\frac{\mod (W - p, s)}{2}) + 1) - - - (2),

v 1 = f l o o r ((\frac{\mod (V - p, s)}{2}) + 1) - - - (3),

其中，mod代表取余运算，floor为向上取整运算，s为移动步长像素，根据获得的起始坐标按照先自上到下之后从左向右的顺序根据块的大小p×p像素和移动步长s像素对整幅图像进行部分重叠分块，即：在位置为上下关系的图像块中，上图像块的下半部分和下图像块中的上半部分重叠，在位置为左右关系的图像块中，左图像块的右半部分和右图像块中的左半部分重叠，得到的每一幅具体图像的块数记作Q，由此完成图像分块；

(3)提取特征并融合特征：

分别提取从上述(2)步中得到的每一个图像块的单尺度SIFT特征和方向梯度直方图特征，并对两种特征进行串联，其中SIFT特征维数为128维，方向梯度直方图特征设置为8方向，这样串联后的每一个图像块的最终特征向量维数为128+8＝136维；

第二步，对获得的特征进行聚类生成“视觉单词词汇表”：

把第一步获得的特征视为“视觉单词”，采用K-means均值聚类算法对其进行聚类，从而获得“视觉单词”数量为M的“视觉单词词汇表”，在聚类算法中迭代收敛的阈值设置为0.0093；

第三步，计算待分配“视觉单词”的权重：

计算上述第二步得到的“视觉单词词汇表”中的“视觉单词”和待分配的“视觉单词”之间的欧氏距离，取距离最近的前N个“视觉单词词汇表”中的“视觉单词”，N≤M，按照公式(4)计算这N个“视觉单词”中每个单词所占的权重，

{\overset{&OverBar;}{δ}}_{i} = δ_{i} / Σ_{i = 1}^{N} δ_{i} - - - (4),

其中δ_i＝1/2ⁱ，其中i＝1，2，...，N，代表序数为i的“视觉单词”在N个待分配的“视觉单词”中分配到的归一化的权重；

第四步，结合空间金字塔理论获得每幅图像的最终直方图表示：

利用空间金字塔模型对上述第一步图像采集到的一幅整幅图像进行不同层次的分层处理，统计每层中图像直方图表示信息，然后针对不同层的直方图表示信息分配不同的权值得到该层的最终直方图表示，最后把不同层的直方图表示按照层数顺序连接成该幅图像最终的表示信息，将其作为该幅图像的直方图表示，其具体的步骤如下：

(1)对第一步中得到的灰度图像进行分层处理：

确定第一步中一幅整幅灰度图像在I空间金字塔中的层次数目为L，并将该幅灰度图像进行分层处理，用l代表图像在空间金字塔中的具体层次，l＝0,1,…，L-1，其中l＝0表示原图像，在l层把该幅灰度图像均匀分为不重叠的2^l×2^l块子图像；

(2)统计不同层次图像中不同子块的图像直方图表示：

对第l＝0层图像即原图像，统计由第三步的方法获得的所在块图像的待分配“视觉单词”分配到“视觉单词词汇表”的权重，进而获得上述(1)中所述的整幅灰度图像的直方图表示，其中直方图的横坐标为M个视觉单词字典的序数，纵坐标为在所在图像中对应“视觉单词词汇表”中相应“视觉单词”出现的频次，最终得到一个1×M的向量来表征该幅图像的第0层特征，将其记作H₀，

对于上述(1)步中在l层把该幅灰度图像均匀分为不重叠的2^l×2^l块子的图像，从左上角的第一个小块图像开始，自上而下而后自左向右分别记作第k块，k＝1，...，2^l×2^l,逐块统计由第三步获得的所在块图像中待分配的“视觉单词”分配到“视觉单词词汇表”的权重，进而获得该层图像的直方图表示，其中直方图的横坐标为M个视觉单词字典的序数，纵坐标为在所在图像块中

对应“视觉单词词汇表”中相应“视觉单词”出现的频次，利用得到的2^l×2^l个1×M的向量来表征该幅图像的第l层特征,将2^l×2^l个向量按照顺序连接记作H_l，由此完成统计不同层次图像中不同子块的图像直方图表示；

(3)计算图像的直方图表示：

对不同层次的金字塔图像表示分配不同的权重，并且将不同层次的图像表征特征串联成一个直方图表示，对于不同层次的金字塔图像表示按照公式(5)分配权重：

ω_l＝1/2^(l+1)(5)，

式中ω_l代表第l层金字塔图像中直方图表示获得的未归一化权重，对所得权重按照公式(6)进行归一化处理：

{\overset{&OverBar;}{ω}}_{l} = ω_{l} / Σ_{l = 0}^{L - 1} ω_{l} - - - (6),

分别将不同层金字塔图像获得的权重归一化和对应层获得的图像直方图表征向量H_l相乘，得到每一层金字塔图像的最终直方图表示H′_l，并将不同层的H′_l连接成这幅图像在不同层金字塔最终的表示H，H的计算方法按照下式(7)和(8)计算：

H＝[H′₀H′₁…H′_l](7)，

即

H = [\begin{matrix} {\overset{&OverBar;}{ω}}_{0} * H_{0} & {\overset{&OverBar;}{ω}}_{1} * H_{1} & ... & {\overset{&OverBar;}{ω}}_{l} * H_{l} \end{matrix}] - - - (8),

由此完成结合空间金字塔理论获得每幅图像的最终直方图表示；

第五步，利用支持向量机对待测图像进行分类，最后输出图像类别：

使用支持向量机SVM对训练图像进行学习，采用直方图相交核函数HistogramIntersectionKernel，训练集和测试集均为随机选取，对于其他待分类图像同样进行前四个步骤的处理，获得待分类图像的直方图表示，在分类器学习完毕后对待分类图像进行分类处理，最后输出图像类别。

上述一种词袋图像分类方法，所述块大小为p×p像素中p＝16,移动步长s像素中s＝8。

上述一种词袋图像分类方法，所述取距离最近的前N个属于“视觉单词词汇表”中的“视觉单词”，其中N＝3。

上述一种词袋图像分类方法，所述确定第一步中一幅整幅灰度图像在I空间金字塔中的层次数目为L＝3。

上述一种词袋图像分类方法，所述采用直方图相交核函数HistogramIntersectionKernel，其中参数c的值设置为200，参数g的值设置为8。

本发明的有益效果是：与现有技术相比，本发明的突出的实质性特点和显著性如下：

(1)本发明方法是在提取图像的分块融合特征后，对其聚类形成“视觉单词词汇表”，在待分配的“视觉单词”的分配权重阶段采用一种与距离次序有关的权重分配方法并结合空间金字塔模型完成对图像的表示，将得到的图像表示数据输入到SVM训练分类器中完成对待测图像的分类，该方法由于采用了分块融合特征和新的权值分配技术，大大提升了图像分类的准确率。

(2)本发明方法提取单尺度特征，并将方向梯度直方图特征和SIFT特征融合在一起，更好地表征了图像信息；这就在特征提取上克服了现有技术的提取尺度不变特征需要构建尺度空间，浪费时间的缺陷。

(3)本发明方法在“视觉单词”分配权重阶段，不再单纯的把“视觉单词”全部的权重分配给“视觉单词词汇表”中的某一个“视觉单词”，而是根据距离的次序信息把一个“视觉单词”按照不同的权重分配到“视觉单词词汇表”中的N个单词中，从而避免了现有技术中采用近似同类的词汇被硬性分配到“视觉单词词汇表”中不同的“视觉单词”的方法所造成的缺陷。

(4)本发明方法在生成图像的表示阶段，采用基于距离次序的权重分配方法和空间金字塔模型相结合，并以直方图相交核函数的支持向量机对训练图像进行学习，提高了图像分类的效果。

附图说明

下面结合附图和实施例对本发明进一步说明。

图1是本发明一种词袋图像分类方法的流程示意框图。

图2(a)为现有词袋图像分类方法在“视觉单词”分配权重阶段的示意图。

图2(b)为本发明一种词袋图像分类方法在“视觉单词”分配权重阶段的示意图。

具体实施方式

图1所示实施例表明，本发明一种词袋图像分类方法的流程是：对图像进行分块并提取特征→对获得的特征进行聚类生成“视觉单词词汇表”→计算待分配“视觉单词”的权重→结合空间金字塔理论获得每幅图像的最终直方图表示→利用支持向量机对待测图像进行分类，最后输出图像类别。

图2(a)和图2(b)图中：A、B、C为“视觉单词词汇表”中的“视觉单词”，a、b、c、d为待分配到“视觉单词词汇表”中的“视觉单词”，m、n、l代表在特征空间中AB、AC、BC的中垂线。

图2(a)显示现有词袋图像分类方法在“视觉单词”分配权重阶段的情况。根据a、b、c、d距离A、B、C的欧几里得距离的远近，将a、b、c、d分别完全分配到其中的某一个单词中，即a分配给A，b和c分配给B，d分给配C，由此在图像的直方图表示中，A、B、C的出现频次分别增加1、2、1次，但是从图中可以看出在特征空间完全按照以上方法分配是不合理的，a距离A实际上只比距离B近一点，却被分配到了A中，忽略了a和B的相似性，这一过程忽视了a对B的贡献，同理b、c被分给了B，忽视了其和其他“视觉单词”的相似性，d被分到了C，也完全忽视了其和其他“视觉单词”的相似性。

图2(b)显示本发明一种词袋图像分类方法在“视觉单词”分配权重阶段的情况。图中的a、b、c、d不再单纯的只分配到A、B、C中的某一个，而是将其中每一个“视觉单词词汇表”中的“视觉单词”都按照不同的权重分到A、B、C中，用实线箭头和不同的虚线箭头表示分配到不同“视觉词汇”的过程，实线表示距离最近的“视觉词汇”，虚线表示次最近距离的“视觉词汇”，也就是说每个待分配的“视觉单词词汇表”中的“视觉单词”对于相似的“视觉单词”都是有贡献的。本发明一种词袋图像分类方法根据待分配的“视觉单词”和“视觉单词词汇表”中的“视觉单词”距离的远近把每个待分配的“视觉单词”分配给距离最近的前N个“视觉单词”，这样就克服了现有方法存在的缺陷。

实施例

本实施例的一种词袋图像分类方法，是一种基于距离次序的视觉单词权重分配的词袋图像分类方法，步骤如下：

第一步，对图像进行分块并提取特征：

(1)图像采集与预处理：

用图像采集设备采集彩色图像，将其输入到计算机中，对获得的彩色图像由RGB空间转换到灰度空间，采用以下公式:

I＝0.299R+0.587G+0.114B(1)，

(2)图像分块：

设上述(1)步中得到的图像的宽为W像素，高为V像素，对图像进行部分重叠分块，块大小为p×p像素，其中p＝16，由于图像的尺寸各异，会存在图像块的边缘得不到p×p块的可能，故分别按照公式(2)和公式(3)计算图像块在图像的水平和垂直方向上的第一块图像的起始坐标w1和v1，

w 1 = f l o o r ((\frac{\mod (W - p, s)}{2}) + 1) - - - (2),

v 1 = f l o o r ((\frac{\mod (V - p, s)}{2}) + 1) - - - (3),

其中，mod代表取余运算，floor为向上取整运算，s为移动步长像素，s＝8，根据获得的起始坐标按照先自上到下之后从左向右的顺序根据块的大小p×p像素和移动步长s像素对整幅图像进行部分重叠分块，即：在位置为上下关系的图像块中，上图像块的下半部分和下图像块中的上半部分重叠，在位置为左右关系的图像块中，左图像块的右半部分和右图像块中的左半部分重叠，得到的每一幅具体图像的块数记作Q，由此完成图像分块；

(3)提取特征并融合特征：

第二步，对获得的特征进行聚类生成“视觉单词词汇表”：

第三步，计算待分配“视觉单词”的权重：

计算上述第二步得到的“视觉单词词汇表”中的“视觉单词”和待分配的“视觉单词”之间的欧氏距离，取距离最近的前N个“视觉单词词汇表”中的“视觉单词”，N＝3，按照公式(4)计算这N个待分配的“视觉单词”中的权重，

{\overset{&OverBar;}{δ}}_{i} = δ_{i} / Σ_{i = 1}^{3} δ_{i}, i = 1, 2, 3 - - - (4),

其中δ_i＝1/2ⁱ，其中i＝1，2，3，代表序数为i的“视觉单词”在3个待分配的“视觉单词”中分配到的归一化的权重；

(1)对第一步中得到的灰度图像进行分层处理：

确定第一步中一幅整幅灰度图像在I空间金字塔中的层次数目为L＝3，并将该幅灰度图像进行分层处理，用l代表图像在空间金字塔中的具体层次，l＝0,1,…，L-1，其中l＝0表示原图像，在l层把该幅灰度图像均匀分为不重叠的2^l×2^l块子图像；

(2)统计不同层次图像中不同子块的图像直方图表示：

(3)计算图像的直方图表示：

ω_l＝1/2^(l+1)(5)，

{\overset{&OverBar;}{ω}}_{l} = ω_{l} / Σ_{l = 0}^{L - 1} ω_{l} - - - (6),

H＝[H′₀H′₁…H′_l](7)，

即

H = [\begin{matrix} {\overset{&OverBar;}{ω}}_{0} * H_{0} & {\overset{&OverBar;}{ω}}_{1} * H_{1} & ... & {\overset{&OverBar;}{ω}}_{l} * H_{l} \end{matrix}] - - - (8),

使用支持向量机SVM对训练图像进行学习，采用直方图相交核函数HistogramIntersectionKernel，其中参数c的值设置为200，参数g的值设置为8，训练集和测试集均为随机选取，对于其他待分类图像同样进行前四个步骤的处理，获得待分类图像的直方图表示，在分类器学习完毕后对待分类图像进行分类处理，最后输出图像类别。

Claims

1.一种词袋图像分类方法，其特征在于：是一种基于距离次序的视觉单词权重分配的词袋图像分类方法，步骤如下：

第一步，对图像进行分块并提取特征：

(1)图像采集与预处理：

I＝0.299R+0.587G+0.114B(1)，

(2)图像分块：

w 1 = f l o o r ((\frac{\mod (W - p, s)}{2}) + 1) - - - (2),

v 1 = f l o o r ((\frac{\mod (V - p, s)}{2}) + 1) - - - (3),

(3)提取特征并融合特征：

第二步，对获得的特征进行聚类生成“视觉单词词汇表”：

第三步，计算待分配“视觉单词”的权重：

{\overset{&OverBar;}{δ}}_{i} = δ_{i} / Σ_{i = 1}^{N} δ_{i} - - - (4),

(1)对第一步中得到的灰度图像进行分层处理：

(2)统计不同层次图像中不同子块的图像直方图表示：

(3)计算图像的直方图表示：

ω_l＝1/2^(l+1)(5)，

\bar{ω_{l}} = ω_{l} / Σ_{l = 0}^{L - 1} ω_{l} - - - (6),

H＝[H′₀H′₁…H′_l](7)，

即

H = [\begin{matrix} \bar{ω_{0}} * H_{0} & \bar{ω_{1}} * H_{1} & ... & \bar{ω_{l}} * H_{l} \end{matrix}] - - - (8),

2.根据权利要求1所述一种词袋图像分类方法，其特征在于：所述块大小为p×p像素中p＝16,移动步长s像素中s＝8。

3.根据权利要求1所述一种词袋图像分类方法，其特征在于：所述取距离最近的前N个属于“视觉单词词汇表”中的“视觉单词”，其中N＝3。

4.根据权利要求1所述一种词袋图像分类方法，其特征在于：所述确定第一步中一幅整幅灰度图像在I空间金字塔中的层次数目为L＝3。

5.根据权利要求1所述一种词袋图像分类方法，其特征在于：所述采用直方图相交核函数HistogramIntersectionKernel，其中参数c的值设置为200，参数g的值设置为8。