CN105550708B

CN105550708B - 基于改进surf特征的视觉词袋模型构建方法

Info

Publication number: CN105550708B
Application number: CN201510927757.XA
Authority: CN
Inventors: 汪友生; 金铭; 边航
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2015-12-14
Filing date: 2015-12-14
Publication date: 2018-12-07
Anticipated expiration: 2035-12-14
Also published as: CN105550708A

Abstract

基于改进SURF特征的视觉词袋模型构建方法，使用添加渐变信息的盒子滤波模板代替高斯滤波，该模板与高斯二阶微分模板更加接近；在SURF特征表达时，减少了时间上的开销，并在保证旋转不变性的同时将SURF描述子降为32维；构建词袋时，使用上述改进SURF算法提取图像库中所有改进SURF特征，采用k‑means聚类方法将所有SURF特征聚类成为视觉单词，这样每幅图像表示为各个视觉单词出现频率的高维向量。本方法包含了图像更丰富的渐变信息，并且省略了一次Haar小波计算步骤；与直接使用SURF特征相比，可以很好地解决不同图像提取出的特征数量不统一的问题，并且词袋模型能将多幅图像用一定量的视觉单词表示，节约空间，处理方便，可扩展性强。

Description

基于改进SURF特征的视觉词袋模型构建方法

技术领域

本发明涉及基于改进SURF特征的视觉词袋模型构建方法，属于计算机视觉技术领域。

背景技术

与图像的全局特征相比，图像的局部特征在面对复杂背景、噪声干扰较大、光照条件变化、存在多个事物和语义复杂等场景时都能更好地描述图像，近年来广泛用于图像配准、识别、检索、分类等领域中。直接使用局部特征进行图像分类、图像检索时，由于图像库中每一幅图像所检测到的特征点数目不统一，并且常用局部特征如SIFT、SURF、DAISY特征等都是高维特征，每幅图像都由不同数量的高维特征表示，导致计算相似性时效率很低。为了解决上述问题，斯坦福大学的LI.Fei-fei等学者首先将视觉词袋模型(BoVW,Bag ofVisual Words)运用到图像处理领域。视觉词袋模型将图像库中所有图像特征提取后聚类成为k个视觉单词，将每幅图像以各个单词出现频率表示为k维向量。这样的模型可以很好地解决不同图像提取出的局部特征不统一的问题，并且能将多幅图像用一定量的视觉单词表示，节约空间，处理方便，可扩展性强，可以很大程度上提高图像分类、图像检索的效率。

视觉词袋模型的好坏根本上在于图像特征的选取。常用构建词袋模型的图像特征有SIFT、SURF等。SIFT算法于1999年由David Lowe首先发表于计算机视觉国际会议(International Conference on Computer Vision，ICCV)，2004年再次经整理完善后发表于International journal ofcomputer vision(IJCV)。SIFT特征是基于物体上的一些局部外观的兴趣点提取出的高鲁棒性特征，与影像的大小和旋转无关，对于光线、噪声、微视角改变的容忍度也相当高，但是计算也比较复杂，效率相对较低。许多学者对SIFT算法进行了改进，SURF就是一种SIFT的改进算法，SURF中积分图像和盒子滤波器的使用大大提高了算法效率，处理速度比SIFT提高了三倍左右，然而SURF算法还是有一定缺点：用积分图像和盒子滤波代替高斯滤波，虽然提高了速度，但也不免损失了图像中的渐变信息；SURF描述子生成时，需要先计算一次圆形邻域的Haar小波响应得到特征点的主方向，再计算一次方形邻域的Haar小波响应以得到64维向量，这样的重复计算过程对SURF的效率有一定影响。针对以上两个问题，本方法对SURF算法进行改进，基于改进的SURF特征建立视觉词袋模型。该词袋模型建立速度比基于SURF的词袋模型快，并且保留了更多图像细节信息，鲁棒性较高，可以运用在图像检索、图像分类领域中。

发明内容

本发明的目的是要提供一种基于改进SURF特征的视觉词袋模型构建方法，该方法针对SURF算法的两个缺点，对SURF算法进行改进后，提取改进的SURF特征建立词袋模型。

具体的实现步骤如下：

Step 1：对图像库中所有图像，提取改进SURF特征：

Step 1.1：对图像I，计算积分图像I_Σ；

Step 1.2：使用添加了渐变信息的盒子滤波模板对积分图像I_Σ进行盒子滤波计算，构建尺度空间；

Step 1.3：在尺度空间中，在每个3×3×3的局部区域里，使用非最大值抑制(Non-maximum Suppression)检测极值点，并记下极值点的位置作为特征点；

Step 1.4：以特征点为圆心，以10S为半径作圆形邻域，其中S为样本所处空间的尺度值。在邻域内以尺寸为4S的Haar小波模板对图像进行处理，计算邻域内所有特征点在x，y方向的Haar小波响应，并赋给每个向量不同的高斯权重，越靠近圆心，贡献值越大，特征点赋值权重就越大；

Step 1.5：以一个圆心角为的扇形旋转遍历整个圆形邻域，共有8个窗口；每一次滑动到图3中的窗口内时，计算该窗口内Haar小波响应值的和。设d_x，d_y分别代表水平和垂直方向的Haar小波响应，m_ω为方向矢量，θ_ω为方向矢量的角度，则：

V_i＝(∑d_x,∑d_y,∑|d_x|,∑|d_y|),i＝1,2,...,8

Step 1.6：比较8个窗口的m_ω值，对8个m_ω按从大到小的顺序排序，以最大的m_ω的方向为特征点的主方向；

Step 1.7：按照m_ω值由大到小的顺序，将对应的8个V_i按顺序排列，得到8×4＝32维改进SURF特征描述子。

Step 2：对所有提取出的改进SURF特征，用k-means算法聚类成为k个视觉单词，表示为K＝(k₁,k₂,k₃,...,k_k)。其中聚类中心k的选择应依据不同图像库的特点而确定，k越大词袋模型对图像的代表能力越强，但同时k越大计算时间越长；

Step 3：将图像库中每一幅图像，按照每个视觉单词出现的频率表示为k维向量，在图像P中，视觉单词k₁出现1次，k₂出现2次，k_k-1出现k-1次，k_k出现k次，则将图像P表示为向量P＝(1,2,...,k-1,k)。每幅图像用词袋模型表示成的向量都不同，越相似的图像之间，向量距离肯定越小，依照这样的方式实现图像分类和图像检索。

在本方法中，改进的SURF特征提取时保留了图像更多的细节信息，且只计算一次Haar小波响应，使特征提取更快；改进后的SURF特征由64维降为32维，降低了计算复杂度。以改进的SURF特征构建的词袋模型对图像库有更好的代表性，且提取时间较短，可以有效地运用在图像检索和图像分类中。

附图说明

图1是基于改进SURF特征的视觉词袋模型构建框图；

图2是改进SURF特征尺度空间构建时使用的添加了渐变信息的盒子滤波模板；

图3是改进SURF特征描述子生成时的计算示意图。

具体实施方式

本发明是采用以下技术手段实现的：

基于改进SURF特征的视觉词袋模型构建方法。先提取改进SURF特征：先使用添加了渐变信息的盒子滤波器构建尺度空间，使用非最大值抑制(Non-maximum Suppression)检测极值点，并记下极值点的位置；再计算极值点圆形邻域的Haar小波响应，使用圆心角为的扇形旋转遍历极值点圆形邻域，得到8个扇形区域内Haar小波响应和，与SURF原算法相比只计算一次Haar小波响应，并在保证旋转不变性的同时将SURF描述子降为32维。再基于提取的改进SURF特征构建视觉词袋模型：先用k-means聚类算法将所有SURF特征聚类成为k个视觉单词；最后将每幅图像表示为各个视觉单词出现频率的k维向量。

上述基于改进SURF特征的视觉词袋模型构建方法，包括下述步骤：

Step 1：对图像库中所有图像，提取改进SURF特征：

Step 1.1：对图像I，计算积分图像I_Σ；

Step 1.3：在尺度空间中，在每个3×3×3的局部区域里，使用非最大值抑制(Non-maximumSuppression)检测极值点，并记下极值点的位置作为特征点；

Step 1.4：以特征点为圆心，以10S为半径作圆形邻域，其中S为样本空间的尺度值。在邻域内以尺寸为4S的Haar小波模板对图像进行处理，计算邻域内所有特征点在x，y方向的Haar小波响应，并赋给每个向量不同的高斯权重，越靠近圆心，贡献值越大，的特征点赋值权重就越大；

步骤1.5：以一个圆心角为的扇形旋转遍历整个圆形邻域，共有8个窗口；每一次滑动到图3中的窗口内时，计算该窗口内Haar小波响应值的和。设d_x，d_y分别代表水平和垂直方向的Haar小波响应，m_ω为方向矢量，θ_ω为方向矢量的角度，则：

V_i＝(∑d_x,∑d_y,∑|d_x|,∑|d_y|),i＝1,2,...,8

Claims

1.基于改进SURF特征的视觉词袋模型构建方法，其特征在于：该方法具体的实现步骤如下，

Step1：对图像库中所有图像，提取改进SURF特征：

Step1.1：对图像I，计算积分图像I_Σ；

Step1.2：使用添加了渐变信息的盒子滤波模板对积分图像I_Σ进行盒子滤波计算，构建尺度空间；

Step1.3：在尺度空间中，在每个3×3×3的局部区域里，使用非最大值抑制检测极值点，并记下极值点的位置作为特征点；

Step1.4：以特征点为圆心，以10S为半径作圆形邻域，S为样本所处空间的尺度值；在邻域内以尺寸为4S的Haar小波模板对图像进行处理，计算邻域内所有特征点在x，y方向的Haar小波响应，并赋给每个向量不同的高斯权重，越靠近圆心，贡献值越大，特征点赋值权重越大；

Step1.5：以一个圆心角为的扇形旋转遍历整个圆形邻域，共有8个窗口；每一次滑动到图3中的窗口内时，计算该窗口内Haar小波响应值的和；设d_x，d_y分别代表水平和垂直方向的Haar小波响应，m_ω为方向矢量，θ_ω为方向矢量的角度，则：

V_i＝(∑d_x,∑d_y,∑|d_x|,∑|d_y|),i＝1,2,...,8

Step1.6：比较8个窗口的m_ω值，对8个m_ω按从大到小的顺序排序，以最大的m_ω的方向为特征点的主方向；

Step1.7：按照m_ω值由大到小的顺序，将对应的8个V_i按顺序排列，得到8×4＝32维改进SURF特征描述子；

Step2：对所有提取出的改进SURF特征，用k-means算法聚类成为k个视觉单词，表示为K＝(k₁,k₂,k₃,...,k_k)；其中聚类中心k的选择应依据不同图像库的特点而确定，k越大词袋模型对图像的代表能力越强，但同时k越大计算时间越长；

Step3：将图像库中每一幅图像，按照每个视觉单词出现的频率表示为k维向量，在图像P中，视觉单词k₁出现1次，k₂出现2次，k_k-1出现k-1次，k_k出现k次，则将图像P表示为向量P＝(1,2,...,k-1,k)；每幅图像用词袋模型表示成的向量都不同，越相似的图像之间，向量距离肯定越小，依照这样的方式实现图像分类和图像检索。