CN102364497B

CN102364497B - 一种应用于电子导盲系统的图像语义提取方法

Info

Publication number: CN102364497B
Application number: CN 201110115716
Authority: CN
Inventors: 郭平; 胡汝坤; 杨栋
Original assignee: Beijing Normal University
Current assignee: Beijing Normal University
Priority date: 2011-05-06
Filing date: 2011-05-06
Publication date: 2013-06-05
Anticipated expiration: 2031-05-06
Also published as: CN102364497A

Abstract

本发明公开了一种应用于电子导盲系统的图像语义提取方法，该方法能快速准确地提取图像语义，可满足基于计算机视觉的电子导盲系统对图像理解的要求。本发明包括：1)训练阶段，建立训练图像库T，提取T中图像的尺度不变特征变换(SIFT)特征组成集合F；利用多级密切关系传播算法构建字典V；利用字典V和稀疏编码将F映射到F_v；利用F_v训练线性支持向量机(LSVM)；2)使用阶段，对于采集的图像I_q，等分为10个部分重叠的子块；利用上述特征提取方法提取各子块的特征；利用LSVM对各子块特征进行分类，得到对应的语义信息；根据子块语义信息确定图像I_q的语义标签，最后将语义标签转化为语音输出。

Description

一种应用于电子导盲系统的图像语义提取方法

技术领域

本发明属于计算机图像处理技术领域，涉及图像理解与模式识别，是一种应用于导盲系统的图像语义提取算法，算法具有较高的识别率，并且可满足导盲系统的实时性要求。

背景技术

一直以来，视力的损伤或丧失给患者的生活带来了重大的不便，其中行路问题是视障者生活中的一个重大难题。在日常生活中，他们需要借助拐杖或导盲犬等传统导盲方法才能独立地从一个地方走到另一个地方。虽然近年来有不少电子导盲系统的出现，但与传统的导盲方法相同，这些导盲设备大多依靠传感器，GPS等信息作为导盲依据，而这些信息只能简单地提醒用户前方是否有障碍物，对于周围环境的相关信息则无法感知，如周围是否有行人，房屋或是车辆等。将计算机图像语义提取技术与语音技术相结合应用到导盲领域，能更详细地将用户所处环境的信息传递给使用者，帮助他们了解自己所处的环境。

图像语义提取算法的准确率主要受图像视觉特征提取算法和分类判别算法的影响。目前常用的分类判别方法主要包括利用高斯混合模型模拟不同类别图像特征的分布，然后根据贝叶斯理论实现图像的语义提取；以及利用图像视觉特征训练支持向量机，用支持向量机描述的分界面确定图像的语义信息。其中高斯模型需要预先设定混合模型中的子高斯模型数目，并且模型的训练和使用过程都涉及复杂的计算，有较高的时间复杂度，无法满足导盲软件的实时性要求。相比而言，支持向量机的训练过程较为简单，且用训练好的支持向量机对图像进行语义提取十分迅速，完全可以满足实时性要求。常用的图像特征提取方法包括：1、提取图像的颜色特征，如颜色直方图，颜色矩等；2、提取图像的纹理特征，如马尔科夫模型或各种频域变换方法等。但这些特征往往适用于一些特定的图像对象，若将其应用到实际生活中，则会导致图像语义提取准确率低下。所以，需要一种高效的特征提取方法将图像内容信息转化为特征向量，再训练支持向量机对图像特征分类，将类别与语义标签对应，实现对图像的语义提取。

发明内容

本发明公开的图像语义提取算法，利用尺度不变特征变换(SIFT)方法提取图像特征描述子；借助仿射传播(AP)算法训练向量字典；然后用空间金字塔匹配模型和稀疏编码方法将图像的SIFT特征描述子集映射为一个向量；最后用线性支持向量机(LSVM)实现对图像内容的语义提取。

其中，图像的SIFT特征描述子具有旋转、缩放等不变性，是非常优秀的图像特征提取方法；仿射传播算法能针对向量特点，自适应地确定向量聚类数目，并且不受样本维度限制，计算速度快；而支持向量机能快速地对向量进行分类，能满足导盲系统的实时性要求。实施例结果表明，用该算法对现实生活中常见物体进行图像语义提取时，能得到较高的准确率，且语义提取过程可以满足导盲系统的实时性要求。

1、一种应用于电子导盲系统的图像语义提取方法，包括如下步骤：

a)建立训练图像库T＝{{I₁，I₂，...，I_m1}₁，...，{I₁，I₂，...，I_mk}_k}(k＝1，2，...；为训练图像类别数，mk＝1，2，...，为第k类图像的训练图像数)，对训练图像进行预处理，使得

i.第k类图像的训练图像I_kj主要包含第k类目标。

ii.第k类图像的训练图像集能较为全面地描述该类图像的类别特征；

b)从训练图像集的每类训练图像中选取L_k幅图像构成字典训练集T_c＝{T_c1，T_c2，...，T_ck}；提取T_c中各幅图像的尺度不变特征变换(SIFT)特征描述子，组成字典训练特征集F_c＝{F_c1，F_c2，...，F_ck}，并利用多级仿射传播算法(AP)对各个类的特征集F_ci中的特征向量进行自适应聚类，最后用所有类的聚类中心组成向量字典V；

c)对于训练图像集T的一幅图像I_i(i＝1，2，...)，先提取图像的SIFT特征描述子F_i，然后利用字典V和空间金字塔匹配模型对F_i中的特征向量进行稀疏编码，并映射为一个特征向量f_i；同理，将图像集T中的其它所有图像变换到特征空间，组成特征向量集F_T；

d)利用特征向量集FT以及其中的类别信息训练线性支持向量机(LSVM)；

e)对于待处理图像I_t，将图像分为部分重叠的、等大小的m(m＝1，2，...)个子块，对于图像子块b_i，先提取SIFT特征描述子，然后用字典V和空间金字塔模型将其映射为特征向量f_ti，并利用LSVM确定f_ti的语义标签；同理，提取图像中剩余子块的语义信息；根据图像子块的语义信息确定图像I_t的语义标签。

2、所述步骤(1)的子步骤a中的建立图像库T＝{{I₁，I₂，...，I_m1}₁，...，{I₁，I₂，...，I_mk}_k}过程包括：

a)选择包含同一类别中不同个体的图像以及包含同一个物体不同角度的图像作为初始训练集；

b)对选出的初始训练集中的各个图像进行裁减，使得图像包含一个主目标物体(约占图像像素的50％以上)。

3、所述步骤(1)的子步骤b，c和e中的图像SIFT特征描述子提取方法具体步骤如下：

a)定义一个n*n(n＝1，2，...)的高斯滤波模板G，计算模板x，y方向的梯度矩阵GX，GY；

b)对于待处理图像I，分别用GX，GY对图像进行滤波处理得到滤波后的图像I_x，I_y；

c)利用以下公式将图像I_x，I_y中的数据变化为极坐标形式：

I_{r} = \sqrt{I_{x}^{2} + I_{y}^{2}}

θ = a \tan (\frac{I_{y}}{I_{x}})

d)在极坐标平面中，以α为步进，将坐标轴进行旋转。在每个坐标系中，将图像向坐标轴上进行投影：

I_ri＝I_r*cos(θ-α)

其中，i＝1，2，...，，表示不同的极坐标系。

e)对于投影图像I_ri，定义大小为n_b*n_b(n_b＝1，2，...)像素的正方形窗口W；

i.将窗口W在图像I的水平与垂直方向上移动，其中水平方向步长为s_w，垂直方向上的步长为s_h，则每次移动，可从原始图像上截取大小为n_b*n_b像素的图像块I_rb。

ii.对于图像块I_rb，等距离选取n_p*n_p(n_p＜n_b；n_p＝1，2，...)个代表点P_ri；并根据图像块I_rb中的像素p_i与P_ri间的距离计算图像块中所有像素对代表点P_ri的加权贡献值：

h = Σ_{i = 1}^{n_{b} * n_{b}} I_{r} * f (| p_{ri} - P_{ri} |)

故对于一个图像块可以提取一个1*(n_p*n_p)的特征向量。

f)对于各幅投影图像I_ri按步骤(e)提取特征向量，并将所有投影图像中同一位置的图像子块中提取的特征向量合并，得到一个1*n_v维的SIFT特征描述子：

n_{v} = floor (\frac{2 π}{α}) * n_{p} * n_{p}

其中，floor(x)表示向下取整；

如上所述，对于一幅固定大小的图像I_i(I_w*I_h)及窗口W，可提取的SIFT特征描述子数目为：

B_{i} = (ceil (\frac{I_{w} - n_{b}}{s_{w}}) + 1) * (ceil (\frac{I_{h} - n_{b}}{s_{h}}) + 1)

4、所述步骤(1)的子步骤b所述的字典构建方法具体步骤如下：

a)从训练图像集的每类图像中随机选取tc_i(tc_i＝1，2，...)幅图像组成字典训练图像集T_c；

b)对于第C_i类的图像I_j，用权利要求3所述的特征提取方法提取图像中的SIFT特征描述子组成特征向量集VI_ij；

c)利用仿射传播算法对VI_ij中的特征向量进行自适应聚类，得到一个具有k_ij个特征向量的蔟中心集Vc_ij；其中，仿射传播算法中的相似度矩阵S和偏好度矩阵P定义如下：

S(m，n)＝-||x_m-x_n||²

P (i) = \frac{1}{N} Σ_{j = 1}^{N} S (i, j)

其中，x为待聚类的特征向量，N为x的数目；

d)对于C_i类中所有图像的聚类中心组成的向量集VC_i＝{Vc₁，Vc₂，...。Vc_n}，利用仿射传播算法对VC_i进行自适应聚类，得到C_i类的训练向量聚类中心集V_i；

e)将所有类别图像的聚类中心集组成的集合作为初始向量字典V＝{V₁，V₂，...，V_m}；

f)对于给定的阈值S_v，若V中向量数小于S_v，则将V作为字典；若V中向量数大于S_v，则将V中向量等分为子集，使得每个子集中的向量数小于S_v，利用仿射传播算法对各个向量子集中的向量进行聚类，并将所有子集的聚类中心组成的集合作为字典。

5、所述步骤(1)的子步骤c所述的将图像的SIFT特征描述子集合映射为一个特征向量的具体步骤如下：

a)对于图像I的SIFT特征描述子f_i，计算f_i在各个字典向量V_k上的投影向量fv_i：

fv = \frac{f * V}{V * V}

保留fv中较大的t_m(t_m＝1，2，...)个元素的值，其余元素置0；

b)对图像I中所有SIFT特征描述子f对应的稀疏编码FV_i＝{fv₁，fv₂，...，fv_n}，利用公式：

h₁(i)＝max(fv(i))

将FV_i向量集映射为向量h₁；

c)将图像t_s等分，对每个图像子块中的特征向量集进行步骤(5-b)所述特征映射，可以得到t_s个特征向量{h₂，...，h_ts+1}；

d)改变t_s；

e)循环步骤(5-c)，(5-d)，得到向量集{h_ts+2，...，h_ts+nts}(nts＞2)；

f)将向量h₁，h₂，...，h_ts+nts组合构造特征向量H，实现SIFT特征向量集到单一特征向量的映射。

附图说明

图1为本发明的流程图

图2为本发明的字典训练流程图

图3为本发明的空间金字塔匹配模型示意图

图4为电子导盲系统中图像分块示意图

图5为具体实施例的相关结果

具体实施方式

以下结合实施例对本发明进一步进行说明。

实验中分别使用生活中常见的20类物体的图像进行模型训练和图像语义提取，包括人、道路，汽车，房屋以及一些动物和室内物体。训练集中的图像经过预处理，每幅图像仅包含一个主要目标，而测试图像则是包含多类物体的多目标图像。

为了便于快速处理，如果图像的宽或高大于300像素，则将其进行缩小，以使得图像最长边不长于300像素。本发明的实施例流程图如图1所示；字典训练过程如图2所示；空间金字塔模型如图3所示；图像分块如图4所示；实验结果如图5所示，具体如下：

1、建立训练图像库T＝{{I₁，I₂，...，I_m1}₁，...，{I₁，I₂，...，I_mk}₂₀}(mk＝1，2，...，为第k类目标的训练图像数目)，对训练图像进行预处理：

i.如果图像中包含不止一个主目标，则将图像中主目标以外的部分删除，保证主目标物体占图像像素值的50％以上

ii.如果图像的宽或高大于300像素，则将其进行缩小，以使得图像最长边不长于300像素。

iii.选取训练图像集时，选取的图像应尽可能采自同一类物体的不同的个体，且包含物体的不同角度及拍摄距离的图像。

2、从训练图像集的每类训练图像中选取30幅图像构成字典训练集T_c＝{T_c1，T_c2，...，T₃₀}；提取T_c中各幅图像的尺度不变特征变换(SIFT)特征描述子，组成字典训练特征集F_c＝{F_c1，F_c2，...，F₃₀}，并利用多级仿射传播算法对各个类的特征集F_ci中的特征向量进行自适应聚类，最后用所有类的聚类中心组成向量字典V。其中，SIFT特征描述子提取方法如下：

i.定义一个5*5的高斯滤波模板G，计算模板x，y方向的梯度矩阵GX，GY；

ii.对于待处理图像I，分别用GX，GY对图像进行滤波处理得到滤波后的图像I_x，I_y；

iii.利用以下公式将图像I_x，I_y中的数据变化为极坐标形式：

I_{r} = \sqrt{I_{x}^{2} + I_{y}^{2}}

θ = a \tan (\frac{I_{y}}{I_{x}})

iv.在极坐标平面中，以π/4为步进，将坐标轴进行旋转。在每个坐标系中，将图像往坐标轴上进行投影：

I_{ri} = I_{r} * \cos (θ - \frac{π}{4})

其中，i＝1，2，...，8，表示不同的极坐标系。

v.对于投影图像I_ri(图像大小为I_w*I_h)，定义大小为16*16像素的正方形窗口W；

i.将窗口W在图像I的水平与垂直方向上移动，其中水平方向步长为6，垂直方向上的步长为6，则每次移动，可从原始图像上截取大小为16*16像素的图像块I_rb。

ii.对于图像块I_rb，等距离选取4*4个代表点P_ri；并根据图像块I_rb中的像素p_i与P_ri间的距离计算图像块中所有像素对代表点P_ri的加权贡献值：

h = Σ_{i = 1}^{16} I_{r} * f (| p_{ri} - P_{ri} |)

故对于一个图像块可以提取一个1*16的特征向量。

vi.对于各幅投影图像I_ri按步骤(e)提取特征向量，并将所有投影图像中同一位置的图像子块中提取的特征向量合并，得到一个1*128维的SIFT特征描述子：

对于一幅固定大小的图像I_i及窗口W，可提取的SIFT特征描述子数目为：

B_{i} = (ceil (\frac{I_{w} - 16}{6}) + 1) * (ceil (\frac{I_{h} - 16}{6}) + 1)

至于利用多级仿射传播算法对各个类的特征集F_ci中的特征向量进行自适应聚类的过程，在实施例中分别测试了用2，3层AP算法构建字典的模型，实施例结果表明，两种模型构建字典都能取得较好的图像语义提取结果，具体步骤如下：

i.从训练图像集的每类图像中随机选取30幅图像组成字典训练图像集T_c；

ii.对于第C_i类的图像I_j，用权利要求3所述的特征提取方法提取图像中的SIFT特征描述子组成特征向量集VI_ij；

iii.利用仿射传播算法对VI_ij中的特征向量进行自适应聚类，得到一个具有k_ij个特征向量的蔟中心集Vc_ij；其中，仿射传播算法中的相似度矩阵S和偏好度矩阵P定义如下：

S(m，n)＝-||x_m-x_n||²

P (i) = \frac{1}{N} Σ_{j = 1}^{N} S (i, j)

其中，x为待聚类的特征向量，N为x的数目；

iv.对于C_i类中所有图像的聚类中心组成的向量集VC_i＝{Vc₁，Vc₂，...。Vc₂₀}，利用仿射传播算法对VC_i进行自适应聚类，得到C_i类的训练向量聚类中心集V_i；

v.将所有类别的聚类中心集作为字典V＝{V₁，V₂，...，V₂₀}；利用2层AP构建向量字典的步骤至此结束。

vi.对于给定的阈值S_v，若V中向量数大于S_v，则可以利用3层AP算法构建向量字典模型，即对向量集V利用AP算法选取代表向量V_r作为最终的向量字典。

3、对于训练图像集T的一幅图像I_i(i＝1，2，...)，先提取图像的SIFT特征描述子F_i，然后利用字典V和空间金字塔匹配模型对F_i中的特征向量进行稀疏编码，并映射为一个特征向量f_i，具体步骤如下所示：

i.对于图像I的SIFT特征描述子f_i，计算f_i在各个字典向量V_k上的投影向量fv_i：

fv = \frac{f * V}{V * V}

保留fv中较大的200个元素的值，其余元素置0；

ii.对图像I中所有SIFT特征描述子f对应的稀疏编码FV_i＝{fv₁，fv₂，...，fv_n}，利用公式：

h₁(i)＝max(fv(i))

将FV_i向量集映射为向量h₁；

iii.将图像4等分，对每个图像子块中的特征向量集进行步骤(b)所述特征映射，可以得到t_s个特征向量{h₂，...，h₅}；

iv.将图像16等分，对每个图像子块中的特征向量集进行步骤(b)所述特征映射，可以得到t_s个特征向量{h₆，...，h₂₁}；

v.将向量h₁，h₂，...，h₂₁组合为特征向量H，实现SIFT特征向量集到单一特征向量的映射。

同理，将图像集T中的其它所有图像变换到特征空间，组成特征向量集F_T

4、利用特征向量集F_T以及其中的类别信息训练线性支持向量机(LSVM)；

5、对于待处理图像I_t，将图像分为部分重叠的、等大小的10个子块，对于图像子块b_i，先提取SIFT特征描述子，然后用字典V和空间金字塔模型将其映射为特征向量f_ti，并利用LSVM将f_ti分类；对于图像中剩余的子块进行以上语义提取过程，并根据各个子块的语义信息确定图像I_t的语义标签。

在实施例中，用本发明提出的图像语义提取算法对生活中常见的图像进行语义提取，结果表明，本发明提出的算法对图像进行语义提取能得到较高的正确率，且利用训练好的线性支持向量机对新图像进行语义提取过程耗时极短，完全可以满足在导盲系统中使用的实时性要求。其中，对于导盲系统而言，对实时采集的图像进行语义提取，最重要的是对图像的正中和中下部位的图像包含的语义进行分析。图像中下方的内容描述了使用者前进道路的情况，而图像正中部分的内容则包含了使用着正前方的环境信息。只要能正确提取这两个部分图像子块的语义信息，就能使系统基本满足导盲功能要求。

Claims

1.一种应用于电子导盲系统的图像语义提取方法，其特征在于包括如下步骤：

1-a)建立训练图像集T＝{{I₁，I₂，...，I_m1}₁，...，{I₁，I₂，...，I_mk}_k}，k＝1，2，...，n为训练图像类别数，mk＝1，2，...，q为第k类图像的训练图像数，对训练图像进行分割预处理，使得

1.ai)第k类图像的训练图像I_mk主要包含第k类目标；

1.a.ii)第k类图像的训练图像集能较为全面地描述该类图像的类别特征；

1-b)从训练图像集的每类训练图像中随机选取Lk幅图像构成字典训练集T_c＝{T_c1，T_c2，...，T_ck}，T_ci为第i类图像的训练图像子集，i＝1，2，...，k；提取T_c中各幅图像的尺度不变特征变换(SIFT)特征描述子，组成字典训练特征集F_c＝{F_c1，F_c2，...，F_ck}，F_ci为第i类图像的特征向量集，i＝1，2，...，k，并利用多级仿射传播算法(AP)对各个类的特征集F_ci中的特征向量进行自适应聚类，最后用所有类的聚类中心构建向量字典V；

1-c)对于训练图像集T的一幅图像I_i，先提取图像的SIFT特征描述子F_i，然后利用字典V和空间金字塔匹配模型对F_i中的特征向量进行稀疏编码，并映射为一个特征向量f_i；同理，将图像集T中的其它所有图像变换到特征空间，组成特征向量集F_T；

1-d)利用特征向量集F_T以及其中的类别信息训练线性支持向量机(LSVM)；

1-e)对于待处理图像I_t，将图像分为部分重叠的、等大小的m个子块，对于图像子块b_i，先提取SIFT特征描述子，然后用字典V和空间金字塔模型将其映射为特征向量f_ti，并利用LSVM确定f_ti的语义标签；同理，提取图像中剩余子块的语义信息；根据图像子块的语义信息确定图像I_t的语义标签。

2.根据权利要求1所述的图像语义提取方法，其中步骤1-b)，1-c)和1-e)中所述的图像SIFT特征描述子提取方法，其特征在于包含如下步骤；

2-a)定义一个n*n的高斯滤波模板G，计算模板x，y方向的梯度矩阵GX，GY；

2-b)对于待处理图像I，图像大小为I_w*I_h，分别用GX，GY对图像进行滤波处理得到滤波后的图像I_x，I_y；

2-c)利用以下公式将图像I_x，I_y中的数据变化为极坐标形式，α是步长因子：

I_{r} = \sqrt{I_{x}^{2} + I_{y}^{2}}

θ = a \tan (\frac{I_{y}}{I_{x}})

2-d)在极坐标平面中，以α为步进，将坐标轴进行旋转；在每个坐标系中，将图像向坐标轴上投影：

I_ri＝I_r*cos(θ-α)

其中，i＝1，2，...，，表示不同的极坐标系；

2-e)对于投影图像I_ri，定义大小为n_b*n_b(n_b＝1，2，...)像素的正方形窗口W；

2.e.i)将窗口W在图像I的水平与垂直方向上移动，其中水平方向步长为s_w，s_w＜I_w，垂直方向上的步长为s_h，s_h＜I_h，则每次移动，可从原始图像上截取大小为n_b*n_b像素的图像块I_rb；

2.e.ii)对于图像块I_rb，等距离选取n_p*n_p(n_p＜n_b；n_p＝1，2，...)个代表点P_ri；并根据图像块I_rb中的像素p_i与P_ri间的距离计算图像块中所有像素对代表点P_ri的加权贡献值：

h = Σ_{i = 1}^{n_{b} * n_{b}} I_{r} * f (| p_{i} - P_{ri} |)

故对于一个图像块可以提取一个1*(n_p*n_p)的向量；

2-f)对于各幅投影图像I_ri按步骤2-e)提取特征向量，并将所有投影图像中同一位置子图像块对应的向量进行合并，可以获得一个1*n_v维的SIFT特征描述子：

n_{v} = floor (\frac{2 π}{α}) * n_{p} * n_{p}

其中，floor(x)表示向下取整；

如上所述，对于一幅固定大小的图像I_i及窗口W，可提取的SIFT特征描述子数目为：

B_{i} = (ceil (\frac{I_{w} - n_{b}}{s_{w}}) + 1) * (ceil (\frac{I_{h} - n_{b}}{s_{h}}) + 1) .

3.根据权利要求1所述的图像语义提取方法，其中步骤1-b)所述的字典构建方法，其特征在于包含如下具体步骤：

3-a)从训练图像集的每类图像中随机选取tc_i幅图像组成字典训练图像集T_c；

3-b)对于第C_i类的图像I_j，用权利要求2所述的特征提取方法提取图像中的SIFT特征描述子组成特征向量集VI_ij；

3-c)利用仿射传播算法自适应地将VI_ij中的特征向量聚成k_ij个蔟，得到一个具有k_ij个特征向量的蔟中心集Vc_ij；其中，仿射传播算法中的相似度矩阵S和偏好度矩阵P定义如下：

S(m，n)＝-||x_m-x_n||²

P (i) = \frac{1}{N} Σ_{j = 1}^{N} S (i, j)

x为待聚类的特征向量，N为x的数目；

3-d)对于C_i类中所有图像的聚类中心组成的向量集VC_i＝{Vc₁，Vc₂，...，Vc_n}，利用仿射传播算法对其进行自适应聚类，得到C_i类的训练向量聚类中心集V_i；

3-e)将所有类别图像的聚类中心集组成的集合作为初始向量字典V＝{V₁，V₂，...，V_m}；

3-f)对于给定的阈值S_v，若V中向量数小于S_v，则将V作为字典；若V中向量数大于S_v，则将V中向量等分为子集，使得每个子集中的向量数小于S_v，利用仿射传播算法对各个向量子集中的向量进行聚类，并将所有子集的聚类中心组成的集合作为字典。

4.根据权利要求1所述的图像语义提取方法，其中步骤1-c)所述的将图像的SIFT特征描述子集合映射为一个特征向量的方法，其特征在于包含如下步骤：

4-a)对于图像I的SIFT特征描述子f_i，计算f_i在各个字典向量V_k上的投影向量fv_i：

fv = \frac{f * V}{V * V}

保留fv中较大的t_m个元素的值，其余元素置0；

4-b)对图像I中所有SIFT特征描述子f对应的稀疏编码FV_i＝{fv₁，fv₂，...，fv_n}，利用公式：

h₁(i)＝max(fv(i))

将FV_i向量集映射为向量h₁；

4-c)将图像t_s等分，对每个图像子块中的特征向量集进行步骤4-b)所述特征映射，可以得到t_s个特征向量{h₂，...，h_ts+1}；

4-d)改变t_s；

4-e)循环执行步骤4-c)，4-d)，得到向量集{h_ts+2，...，h_ts+nts}，nts＞2；

将向量h₁，h₂，...，h_ts+nts组合构造特征向量H，实现SIFT特征向量集到单一特征向量的映射。