CN103336830B

CN103336830B - 基于结构语义直方图的图像检索方法

Info

Publication number: CN103336830B
Application number: CN201310284272.4A
Authority: CN
Inventors: 刘广海
Original assignee: Individual
Current assignee: Individual
Priority date: 2013-07-08
Filing date: 2013-07-08
Publication date: 2017-02-08
Anticipated expiration: 2033-07-08
Also published as: CN103336830A

Abstract

本发明提出一种基于结构语义的图像检索方法，关注基于视觉感知机制和视觉词汇模型两者的优势来进行图像检索，提出结构语义直方图的新型图像特征表达方法；结构语义直方图可看作为主流的视觉词汇模型的升华，专门用于自然图像分析，并且比主流的视觉词汇方法具有更丰富信息。它整合了视觉词汇，语义特征和直方图的优点，它在一定程度上模拟了人类视觉感知机制，能够表达语义信息和视觉词汇的结构空间信息，视觉显著性信息和均匀颜色信息。

Description

基于结构语义直方图的图像检索方法

技术领域

本发明涉及图像检索领域，具体涉及一种基于结构语义直方图的图像检索方法。

背景技术

图形图像是人类交流的媒介并能够提供丰富信息来让人们认识和理解世界。随着数字图像技术和互联网的发展，越来越多的图像涌现。如何高效而快速地进行图像索引和检索成为日益迫切的需求，因此，图像检索成为模式识别和人工智能领域的研究热点之一。一般而言，图像检索主要包括：基于文本的图像检索、基于内容的图像检索和基于语义的图像检索,基于文本的图像检索已经不适合时代要求。鉴于目前人工智能和相关技术的局限性，基于语义的图像检索仍然是一个公开的难题。因此，基于内容的图像检索(CBIR)仍然是非常重要而高效的图像检索方法，并且CBIR系统仍然被广泛应用于学术和工业领域。众所周知，人类视觉系统通过感受野周边的神经元竞争机制而产生少量引起视觉注意的关注点并且抑制不相关对象。视觉注意机制和低层次视觉特征之间存在密切的关系，与此同时，人类更加趋向于用类似文字信息来描述物体属性，主流的Bag-of-visual word模型借鉴了文本信息处理模式，在一定程度上具备类似文字信息的功能，所以如何应用视觉感知机制和视觉词汇模型来进行图像检索是一个非常重要并且具有挑战性的问题。

为了充分利用视觉感知机制和视觉词汇模型的优势来进行图像检索，本发明提出了一种新颖的方法来描述图像特征，它被称之为结构语义直方图(structure semantichistogram)。结构语义根据视觉显著性词汇和感知颜色词汇的结构信息来定义，它在一定程度上模拟了人类视觉感知机制，能够表达语义信息和视觉词汇的结构空间信息，视觉显著性信息和均匀颜色信息。结构语义直方图所包含的信息量明显地高于主流的Bag-of-visual word模型，可以视为是Bag-of-visual word模型的升华。

发明内容

本发明所要解决的技术问题是：提供一种基于结构语义的图像检索方法，其能够利用直方图来表达语义信息，视觉显著性信息和均匀颜色信息，并且还能够表达视觉词汇所包含的空间结构属性。

为解决上述问题，本发明是通过以下方案实现的：

一种基于结构语义直方图的图像检索方法，包括如下步骤：

(1)将彩色图像从RGB颜色空间转换到HSV颜色空间；在HSV颜色空间中，H分量表示色彩信息，可用于表示不同颜色。在本发明中被称之为颜色分量。

(2)在HSV彩色空间中，将H,S和V三个分量用于构建高斯金字塔H(σ)，S(σ)和V(σ)，其中σ∈[0...5]表示尺度，然后通过跨尺度抽样并产生所谓的特征映射：

F(c，s，H)＝|H(c)θH(s)| (1)

F(c，s，S)＝|S(c)θS(s)| (2)

F(c，s，V)＝|V(c)θV(s)| (3)

式中，F(c,s,H)表示H分量的特征映射，F(c,s,S)表示S分量的特征映射，F(c,s,V)表示V分量的特征映射，H(c)表示H分量细尺度c的高斯金字塔，H(s)表示H分量粗尺度s的高斯金字塔，S(c)表示S分量细尺度c的高斯金字塔，S(s)表示S分量粗尺度s的高斯金字塔，V(c)表示V分量细尺度c的高斯金字塔，V(s)表示V分量粗尺度s的高斯金字塔，θ表示中心-周边差操作，它是在“中心”细尺度c和“周边”粗尺度之间进行，并产生特征映射图；

将每个特征映射图缩小到尺度5，然后进行逐点相加，最后得到3个独立显著性图像映射和

\overset{&OverBar;}{H} = {&CirclePlus;}_{c = 0}^{4} {&CirclePlus;}_{s = 5}^{5} N (F (c, s, H)) - - - (4)

\overset{&OverBar;}{S} = {&CirclePlus;}_{c = 0}^{4} {&CirclePlus;}_{s = 5}^{5} N (F (c, s, S)) - - - (5)

\overset{&OverBar;}{V} = {&CirclePlus;}_{c = 0}^{4} {&CirclePlus;}_{s = 5}^{5} N (F (c, s, V)) - - - (6)

式中，表示H分量的显著性图像映射，表示S分量的显著性图像映射，表示V分量的显著性图像映射，c表示细尺度，s表示粗尺度，表示映射图的跨尺度相加,N(.)表示标准化；

三个3个独立显著性图像映射和整合为一个显著图S_hsv。

S_{h s v} = \frac{1}{3} (N (\overset{&OverBar;}{H}) + N (\overset{&OverBar;}{S}) + N (\overset{&OverBar;}{V})) - - - (7)

式中，S_hsv表示显著图，N(.)表示标准化；

(3)在显著图S_hsv以及颜色分量H中，采用SIFT(尺度不变特征转换)算法来抽取和描述局部特征，得到显著图S_hsv的特征向量和颜色分量H的特征向量

首先对显著图S_hsv采用标准的K均值聚类来构建词典，词典大小设定为n’，则词典里面有n’个视觉词汇。词典构建就是将显著图S_hsv中所有的局部特征聚成n’个聚类中心，然后将每一个聚类中心当作是一个视觉词汇，则词典里的n’个视觉词汇可以表示为词典里面的n’个视觉词汇分别对应一个索引值I_S＝[0,1,2,...,n'-2,n'-1]；

词典构建完毕后，需要进行词典量化并且进行索引值分配。词典量化就是把从显著图S_hsv中提取的每一个局部特征映射到它最接近的视觉词汇上去，索引值分配就是给每一个局部特征所在的坐标点赋予一个对应的视觉词汇索引值v，最后经过词典量化的显著图S_hsv表示为M_S(x,y)＝v,

采用相同办法对颜色分量H进行处理，则经过词典量化后的颜色分量H表示为M_C(x,y)＝w,

(4)将HSV颜色空间图像从柱状坐标系变换为笛卡尔坐标系，假设(H,S,V)为柱状坐标系上的一个点，(H',S',V')为(H,S,V)在笛卡尔坐标系上的转换，其中H'＝S·cos(H),S'＝S·sin(H)和V'＝V；假设在HSV颜色空间图像中有一个像素点(x,y)，该像素点周边有8个点，分别表示为(x_i,y_i),i＝1,2,..,8,则标准刺激的强度I可以定义为：

在上述公式(8)中，周边每个点和中心点都可以计出一个均匀颜色差别值I_i,i＝1,2,...,8：

此时，代表刺激的最小可觉差ΔI＝min(I₁,I₂,...,I₈)，即ΔI取I₁～I₈中的最小值；

判断HSV颜色空间图像中的各像素点是否满足Weber原理，即ΔI/I＝K，其中ΔI代表刺激的最小可觉差，I代表标准刺激的强度，K是设定的特定感觉道的定值，则保留该像素点(x,y)处的视觉词汇，否则将像素点(x,y)处的视觉词汇删除；由此形成显著图S_hsv的视觉词汇图像W_s(x,y)和颜色分量H的视觉词汇图像W_c(x,y)；

(5)以视觉词汇图像W_s(x,y)和W_c(x,y)为基准，分别对它们进行视觉词汇的局部结构检测，可以得到基于显著图的局部结构模式和基于颜色的局部结构模式；视觉词汇的局部结构检测方法如下：

在W_s(x,y)中，将它划分为一系列2×2的，相互不重叠方格；然后判断2×2方格中是否为设定的局部结构模式中的一种，如果出现了其中一种局部结构模式，则该2×2方格中的视觉词汇保持不变，否则将2×2方格内的视觉词汇全部删除，最终可得到一个结构图像T_S(x,y)；采用相同办法，由W_c(x,y)可以得到W_c(x,y)的结构图像T_C(x,y)；

以某个结构词汇为中心，在设定距离d范围内，如果它的周边存在若干个具有相同局部结构模式的结构词汇，则这些结构词汇的组合称之为结构语义；

(6)分别统计结构图像T_S(x,y)和T_C(x,y)中视觉词汇出现的频率，并将若干个结构词汇之间的均匀颜色差别作为权重，最后综合频率和均匀颜色差别来描述图像内容，其中

在结构图像T_S(x,y)和T_C(x,y)中，视觉词汇出现的频率计算方法如下：

H_s(i)＝card{(x,y)|T_s(x,y)＝i}/(wid×hei) (10)

H_C(j)＝card{(x,y)|T_C(x,y)＝j}/(wid×hei) (11)

式中，H_s(i)表示T_S(x,y)中视觉词汇出现的频率，其中H_C(j)表示T_C(x,y)中视觉词汇出现的频率，其中card{.}表示统计词汇个数，分别是统计T_S(x,y)中的显著图词汇和T_C(x,y)中的颜色词汇，wid和hei分别表示图像宽和图像高；

计算均匀颜色差别的方法如下：

假设在结构图像T_S(x,y)和T_C(x,y)中有两个结构词汇，它们所在位置分别对应两个坐标点(x,y)和(x',y')，在笛卡尔坐标系中，这两个坐标点分别对应的HSV颜色值为(H'(x,y),S'(x,y),V'(x,y))和(H'(x',y'),S'(x',y'),V'(x',y')),则它们之间颜色差别Δcd计算方法如下：

CDS(i)表示显著图词汇的颜色差别直方图，CDC(j)表示颜色词汇的颜色差别直方图，它们分别定义如下:

式中，Δcd_s表示结构图像T_S(x,y)中，两个坐标点(x,y)和(x',y')之间的颜色差别；Δcd_c表示结构图像T_C(x,y)中，两个坐标点(x,y)和(x',y')之间的颜色差别；T_s(x,y)＝T_s(x',y')表示在结构图像T_S(x,y)中两个坐标点(x,y)和(x',y')所对应的视觉词汇具有相同索引值i，T_c(x,y)＝T_c(x',y')表示在结构图像T_C(x,y)中两个坐标点(x,y)和(x',y')所对应的视觉词汇具有相同索引值j，

显著图词汇的结构语义直方图SH(i)和颜色词汇的结构语义直方图CH(j)，它们分别定义如下：

SH(i)＝CDS(i)×H_s(i),i＝0,1,...,n-1 (15)

CH(j)＝CDC(j)×H_c(j),j＝0,1,2,..,n-1 (16)

SSH＝concac{SH(i),CH(j)} (17)

式中，concac{.}表示将上述两个直方图串联起来形成一个最终的直方图，即是结构语义直方图(SSH)；i和j用做直方图的下标；在CDS(i)和H_S(i)中，i＝0,1,2,...,n-1表示显著图词汇的索引值；在CDC(j)和CH(j)中，j＝0,1,2,...,n-1表示颜色词汇索引值；

(7)将结构语义直方图中的特征向量作为最终特征应用于图像检索，并且采用L1距离来进行图像匹配。

上述步骤(3)中，标准化N(.)由如下步骤组成：

(1)归一化映射图中像素值，将其固定到[0,1]之间的范围，以消除依赖于模态的幅值差异；

(2)计算出映射图中最大值M的位置和其它所有局部极大值的平均值

(3)整幅映射图乘以

上述步骤(2)中，所述词典大小n’的取值范围为n’＝[500,...,100000]。

上述步骤(3)中，所述词典大小n’的取值为5000。

上述步骤(4)中，设定的特定感觉道的定值K＝0.2。

上述步骤(5)中，设定的局部结构模式为11种。

上述步骤(5)中，设定距离d的取值范围介于2-5之间。

与现有技术相比，本发明关注基于视觉感知机制和视觉词汇模型两者的优势来进行图像检索，提出结构语义直方图的新型图像特征表达方法。结构语义直方图可看作为主流的视觉词汇(Bag-of-visual words)模型的升华，专门用于自然图像分析，并且比主流的视觉词汇方法具有更丰富信息。它整合了视觉词汇，语义特征和直方图的优点，它在一定程度上模拟了人类视觉感知机制，能够表达语义信息和视觉词汇的结构空间信息，视觉显著性信息和均匀颜色信息。

附图说明

图1为用于进行结构词汇检测的11种局部结构模式；

图2为结构语义检测示例。

具体实施方式

一种基于共生稀疏直方图的图像检索方法，包括如下步骤：

(1)将彩色图像从RGB颜色空间转换到HSV彩色空间。

(2)人类视觉系统具有非常突出的信息筛选能力，能够迅速找到相关的重要信息，忽略掉不相关信息，这就是视觉注意机制，因此研究视觉注意机制的计算模型，可以降低图像处理的复杂性，减少计算资源耗费，极大提高信息处理的效率。鉴于HSV颜色空间和人类颜色感知具有一定的相似性，因此本发明依据HSV颜色空间定义若干初级视觉特征来进行显著性检测。它由H,S和V分量图像构成。将H,S和V用于构建高斯金字塔H(σ)，S(σ)和V(σ)，其中σ∈[0...5]表示尺度，然后通过跨尺度抽样并产生所谓的特征映射：

F(c，s，H)＝|H(c)θH(s)| (1)

F(c，s，S)＝|S(c)θS(s)| (2)

F(c，s，V)＝|V(c)θV(s)| (3)

上述三式中，θ表示中心-周边差操作，它是在“中心”细尺度c和“周边”粗尺度s之间进行，并产生特征映射图。

\overset{&OverBar;}{H} = {&CirclePlus;}_{c = 0}^{4} {&CirclePlus;}_{s = 5}^{5} N (F (c, s, H)) - - - (4)

\overset{&OverBar;}{S} = {&CirclePlus;}_{c = 0}^{4} {&CirclePlus;}_{s = 5}^{5} N (F (c, s, S)) - - - (5)

\overset{&OverBar;}{V} = {&CirclePlus;}_{c = 0}^{4} {&CirclePlus;}_{s = 5}^{5} N (F (c, s, V)) - - - (6)

上述三式中，表示映射图的跨尺度相加，

将三个3个独立显著性图像映射和整合为一个显著图S_hsv。

S_{h s v} = \frac{1}{3} (N (\overset{&OverBar;}{H}) + N (\overset{&OverBar;}{S}) + N (\overset{&OverBar;}{V})) - - - (7)

上述式中，N(.)表示标准化，N(.)由如下步骤组成：(1)归一化映射图中像素值，将其固定到[0,1]之间的范围，以消除依赖于模态的幅值差异；(2)计算出映射图中最大值M的位置和其它所有局部极大值的平均值(3)整幅映射图乘以

(3)对于彩色图像而言，在HSV颜色空间中，H分量可以用于描述不同颜色。在显著图S以及H分量中，采用SIFT算法来抽取和描述局部特征，得到的特征向量分别表示为和鉴于SIFT算法是一种非常著名并且广泛应用的算法，本发明将不再赘述。

首先对显著图S_hsv采用标准的K均值聚类来构建词典，词典大小设定为n’，词典构建就是将显著图S_hsv中所有的局部特征聚成n’个聚类中心，然后将一个聚类中心当作是一个视觉词汇，则词典里的n’个视觉词汇可以表示为词典里面的n’个视觉词汇分别对应一个索引值I_S＝[0,1,2,...,n'-2,n'-1]；

词典构建完毕后，需要进行词典量化并且进行索引值分配。词典量化就是把从显著图S_hsv中提取的每一个局部特征映射到它最接近的视觉词汇上去，并且给每一个局部特征所在的坐标点赋予一个对应的索引值v，最后经过词典量化的显著图S_hsv表示为M_S(x,y)＝v,

采用相同办法对颜色分量H进行处理，则经过词典量化后的颜色分量H表示为M_C(x,y)＝w,鉴于K均值聚类算法是一种非常著名并且广泛应用的聚类算法，本发明也将不再赘述。

(4)在经典的文本检索技术中，需要删除停用词以提高索引效率。鉴于视觉词汇和文本词汇是有区别的，在本发明中，拟删除10％的频率太高和太低的视觉词汇。在颜色词汇以及显著图词汇中，如果某些词汇出现频率太高或者太低，很可能代表的是图像背景或者噪声，需要删除这些噪声词汇。为了尽量减少误删视觉词汇的现象，需要综合考虑视觉词汇之间的均匀颜色差别的对比度来考虑。如果某图像存在频率太高或者太低的视觉词汇，则将这些视觉词汇称为拟删除视觉词汇。在图像中，以拟删除的视觉词汇为中心，考虑它与周边视觉词汇之间的均匀颜色差别的对比度。如果满足Weber原理，则保留该词汇，否则就真正删除该词汇。本发明将最佳的噪声词汇删除比例确定为20％。

将HSV颜色空间图像从柱状坐标系变换为笛卡尔坐标系，假设(H,S,V)为柱状坐标系上的一个点，(H',S',V')为(H,S,V)在笛卡尔坐标系上的转换，其中H'＝S·cos(H),S'＝S·sin(H)和V'＝V；假设在HSV颜色空间图像中有一个像素点(x,y)，该像素点周边有8个点，分别表示为(x_i,y_i),i＝1,2,..,8,则标准刺激的强度I可以定义为：

(5)以视觉词汇图像W_s(x,y)和W_c(x,y)为基准，分别对它们进行视觉词汇的局部结构检测，可以得到基于显著图的局部结构模式和基于颜色的局部结构模式；视觉词汇的局部结构检测原理如下：

在W_s(x,y)中，将它划分为一系列2×2的，相互不重叠方格。然后判断2×2方格中是否出现图1所示的11种局部结构模式，如果出现了其中一种局部结构模式，则该2×2方格中的视觉词汇保持不变，否则将2×2方格内的视觉词汇删除，最终可得到一个结构图像T_S(x,y),其中2×2方格中的词汇集合称之为结构词汇。采用相同办法，可以得到W_c(x,y)的结构图像T_C(x,y)。

以某个结构词汇为中心，在设定距离d范围内，如果它的周边存在若干个具有相同模式的结构词汇，则这些结构词汇的组合称之为结构语义，例如图2所示。在本发明中，设定距离d的取值范围介于2-5之间。

(6)在设定的距离d范围内，分别统计T_S(x,y)和T_C(x,y)中词汇出现的频率，并将若干个局部结构模式之间的均匀颜色差别作为权重，最后综合频率和均匀颜色差别来描述图像内容，其中

在T_S(x,y)和T_C(x,y)中，视觉词汇出现的频率计算方法如下：

H_s(i)＝card{(x,y)|T_s(x,y)＝i}/(wid×hei) (10)

H_C(j)＝card{(x,y)|T_C(x,y)＝j}/(wid×hei) (11)

上述两式中，H_s(i)表示T_S(x,y)中视觉词汇出现的频率，其中H_C(j)表示T_C(x,y)中视觉词汇出现的频率，其中card{.}表示统计词汇个数，分别是统计T_S(x,y)中的显著图词汇和T_C(x,y)中的颜色词汇，wid和hei分别表示图像宽和图像高；

计算均匀颜色差别的方法如下：

上述两个公式中，Δcd_s表示结构图像T_S(x,y)中，两个坐标点(x,y)和(x',y')之间的颜色差别；Δcd_c表示结构图像T_C(x,y)中，两个坐标点(x,y)和(x',y')之间的颜色差别；T_s(x,y)＝T_s(x',y')表示在结构图像T_S(x,y)中两个坐标点(x,y)和(x',y')所对应的视觉词汇具有相同索引值i，T_c(x,y)＝T_c(x',y')表示在结构图像T_C(x,y)中两个坐标点(x,y)和(x',y')所对应的视觉词汇具有相同索引值j，

SH(i)＝CDS(i)×H_s(i),i＝0,1,...,n-1 (15)

CH(j)＝CDC(j)×H_c(j),j＝0,1,2,..,n-1 (16)

SSH＝concac{SH(i),CH(i)} (17)

上述三式中，concac{.}表示将上述两个直方图串联起来形成一个最终的直方图，即是结构语义直方图(SSH)；i和j用做直方图的下标；在CDS(i)和H_S(i)中，i＝0,1,2,...,n-1表示显著图词汇的索引值；在CDC(j)和CH(j)中，j＝0,1,2,...,n-1表示颜色词汇索引值；

结构语义直方图在词汇局部结构的基础上能够同时表达显著词汇和颜色词汇的空间关系，它将均匀颜色差别信息和直方图整合为一个描述子，并且采用直方图来描述两者属性。结构语义直方图借鉴了视觉注意机制和自然语言处理技术，非常容易实现，很适合于大规模的图像检索。视觉词汇的局部结构能够保留一定的几何信息，同时也包含了一种局部结构和局部结构之间的关系(空间关系以及几何关系)，在一定程度上，它体现了视觉词汇的几何上下文信息。结构语义直方图可看作是一种广义的视觉属性描述子，它在一定程度上模拟了人类视觉感知机制，能够表达语义信息和视觉词汇的结构空间信息，视觉显著性信息和均匀颜色信息，所以，结构语义直方图所包含的信息量明显地高于主流的Bag-of-visual word模型，可以视为是Bag-of-visual word模型的升华。本发明还具有非常强的扩展性，完全可以采用相同方式融合更多视觉信息。例如纹理特征，边缘特征等等。

(5)将结构语义直方图中的5000维特征向量作为最终特征应用于图像检索。传统的bag-of-visual words模型在图像匹配过程中一般采用Cos距离，本发明在检索过程中采用L1距离进行图像匹配。采用L1距离的主要原因是L1距离计算简单，计算量小，不要开方和开根号计算。

Claims

1.基于结构语义直方图的图像检索方法，其特征是包括如下步骤：

(1)将彩色图像从RGB颜色空间转换到HSV颜色空间；在HSV颜色空间中，H分量表示色彩信息，可用于表示不同颜色，称之为颜色分量；

(2)在HSV彩色空间中，将H，S和V三个分量用于构建高斯金字塔H(σ)，S(σ)和V(σ)，其中σ∈[0...5]表示尺度，然后通过跨尺度抽样并产生所谓的特征映射：

式中，F(c，s，H)表示H分量的特征映射，F(c，s，S)表示S分量的特征映射，F(c，s，V)表示V分量的特征映射，H(c)表示H分量细尺度c的高斯金字塔，H(s)表示H分量粗尺度s的高斯金字塔，S(c)表示S分量细尺度c的高斯金字塔，S(s)表示S分量粗尺度s的高斯金字塔，V(c)表示V分量细尺度c的高斯金字塔，V(s)表示V分量粗尺度s的高斯金字塔，表示中心-周边差操作，它是在“中心”细尺度c和“周边”粗尺度s之间进行，并产生特征映射图；

\overset{&OverBar;}{H} = {&CirclePlus;}_{c = 0}^{4} {&CirclePlus;}_{s = 5}^{5} N (F (c, s, H)) - - - (4)

\overset{&OverBar;}{S} = {&CirclePlus;}_{c = 0}^{4} {&CirclePlus;}_{s = 5}^{5} N (F (c, s, S)) - - - (5)

\overset{&OverBar;}{V} = {&CirclePlus;}_{c = 0}^{4} {&CirclePlus;}_{s = 5}^{5} N (F (c, s, V)) - - - (6)

上述三式中，表示H分量的显著性图像映射，表示S分量的显著性图像映射，表示V分量的显著性图像映射，c表示细尺度，s表示粗尺度，表示映射图的跨尺度相加，N(.)表示标准化；

将3个独立显著性图像映射和整合为一个显著图S_hsv；

S_{h s v} = \frac{1}{3} (N (\overset{&OverBar;}{H}) + N (\overset{&OverBar;}{S}) + N (\overset{&OverBar;}{V})) - - - (7)

式中，S_hsv表示显著图，N(.)表示标准化；

(3)在显著图S_hsv以及颜色分量H中，采用SIFT算法来抽取和描述局部特征，得到显著图S_hsv的特征向量和颜色分量H的特征向量

首先对显著图S_hsv采用标准的K均值聚类来构建词典，词典大小设定为n’，则词典里面有n’个视觉词汇；词典构建就是将显著图S_hsv中所有的局部特征聚成n’个聚类中心，然后将一个聚类中心当作是一个视觉词汇，则词典里的n’个视觉词汇可以表示为词典里面的n’个视觉词汇分别对应一个索引值I_S＝[0,1,2,...,n'-2,n'-1]；

词典构建完毕后，需要进行词典量化并且进行索引值分配；词典量化就是把从显著图S_hsv中提取的每一个局部特征映射到它最接近的视觉词汇上去，索引值分配就是给每一个局部特征所在的坐标点赋予一个对应的视觉词汇索引值v，最后经过词典量化的显著图S_hsv表示为M_S(x,y)＝v,

判断HSV颜色空间图像中的各像素点是否满足Weber原理，即ΔI/I＝K，其中ΔI代表刺激的最小可觉差，I代表标准刺激的强度，K是设定的特定感觉道的定值，是则保留该像素点(x,y)处的视觉词汇，否则将像素点(x,y)处的视觉词汇删除；由此形成显著图S_hsv的视觉词汇图像W_s(x,y)和颜色分量H的视觉词汇图像W_c(x,y)；

在W_s(x,y)中，将它划分为一系列2×2的，相互不重叠方格；然后判断2×2方格中是否为设定的局部结构模式中的一种，如果出现了其中一种局部结构模式，则该2×2方格中的视觉词汇保持不变，否则将2×2方格内的视觉词汇删除，最终可得到一个结构图像T_S(x,y)；采用相同办法，由W_c(x,y)可以得到W_c(x,y)的结构图像T_C(x,y)；

H_s(i)＝card{(x,y)|T_s(x,y)＝i}/(wid×hei) (10)

H_C(j)＝card{(x,y)|T_C(x,y)＝j}/(wid×hei) (11)

计算均匀颜色差别的方法如下：

上述两式中，Δcd_s表示结构图像T_S(x，y)中，两个坐标点(x，y)和(x′，y′)之间的颜色差别；Δcd_c表示结构图像T_C(x，y)中，两个坐标点(x，y)和(x′，y′)之间的颜色差别；T_s(x，y)＝T_s(x′，y′)表示在结构图像T_S(x，y)中两个坐标点(x，y)和(x′，y′)所对应的视觉词汇具有相同索引值i，T_c(x，y)＝T_c(x′，y′)表示在结构图像T_C(x，y)中两个坐标点(x，y)和(x′，y′)所对应的视觉词汇具有相同索引值j，

SH(i)＝CDS(i)×H_s(i)，i＝0，1，2，...，n-1 (15)

CH(j)＝CDC(j)×H_c(j)，j＝0，1，2，..，n-1 (16)

SSH＝concac{SH(i)，CH(j)} (17)

上述三式中，concac{.}表示将上述两个直方图串联起来形成一个最终的直方图，即是结构语义直方图SSH；i和j用做直方图的下标；在CDS(i)和H_S(i)中，i＝0，1，2，...，n-1表示显著图词汇的索引值；在CDC(j)和CH(j)中，j＝0，1，2，...，n-1表示颜色词汇索引值；

2.根据权利要求1所述的基于结构语义直方图的图像检索方法，其特征是：在步骤(2)中，标准化N(.)由如下步骤组成：

(1)归一化映射图中像素值，将其固定到[0，1]之间的范围，以消除依赖于模态的幅值差异；

(3)整幅映射图乘以

3.根据权利要求1所述的基于结构语义直方图的图像检索方法，其特征是：在步骤(3)中，所述词典大小n’的取值范围为n’＝[500，...，100000]。

4.根据权利要求3所述的基于结构语义直方图的图像检索方法，其特征是：在步骤(3)中，所述词典大小n’的取值为5000。

5.根据权利要求1所述的基于结构语义直方图的图像检索方法，其特征是：在步骤(4)中，设定的特定感觉道的定值K＝0.2。

6.根据权利要求1所述的基于结构语义直方图的图像检索方法，其特征是：在步骤(5)中，设定的局部结构模式为11种。

7.根据权利要求1所述的基于结构语义直方图的图像检索方法，其特征是：在步骤(5)中，设定距离d的取值范围介于2-5之间。