CN103207879A

CN103207879A - 图像索引的生成方法及设备

Info

Publication number: CN103207879A
Application number: CN2012100152908A
Authority: CN
Inventors: 邓宇; 陈克
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2012-01-17
Filing date: 2012-01-17
Publication date: 2013-07-17
Anticipated expiration: 2032-01-17
Also published as: WO2013109625A1; EP2805262B1; HK1183357A1; JP5916886B2; CN103207879B; EP2805262A1; TWI552007B; US20130195361A1; TW201331772A; JP2015506045A; US9330341B2

Abstract

本发明公开了一种图像索引的生成方法及设备，用以解决采用现有技术生成的图像索引的准确性较低的问题。该方法分别在图像库包含的图像中的目标区域图像内提取视觉特征，根据提取的视觉特征确定图像之间的相似度值，进而确定图像所属的图像类别，为属于同一图像类别的图像分配相同的类别标识，为属于不同图像类别的图像分配不同的类别标识，将为图像分配的类别标识作为生成的该图像库的图像索引。采用上述方法，由于生成的图像索引是基于在图像中提取的视觉特征而生成的，因此减小了人工生成图像索引时所带来的操作人员对图像的主观感受的影响，提高了生成的图像索引的准确性。

Description

图像索引的生成方法及设备

技术领域

本申请涉及数据检索技术领域，尤其涉及一种图像索引的生成方法及设备。

背景技术

在信息搜索领域中，传统的基于关键词的信息检索方式存在着很多弊端。首先，同一词语在不同环境中的含义不同，例如“苹果”一词在不同领域所代表的含义差别就很大，其有可能表示一种水果，也可能表示一种电子产品的品牌。若用户意图搜索一种水果并以“苹果”作为关键词输入搜索引擎，则返回的搜索结果中一般会同时出现水果和电子产品这两种截然不同的信息，而显然电子产品这样的信息与用户的搜索意图并不匹配。可见，基于关键词的信息检索方法可能会导致搜索结果与用户的搜索意图之间产生一定偏差。

针对目前网络上大部分数据信息都有对应的图像的情况，目前也有一些技术提出：用户在进行信息搜索时，可以以图像作为其输入的内容，从而基于用户输入的图像，通过获取该图像所包含的与图像相关的信息(以下简称图像信息)，就可以从图像库中搜索具备与获取的图像信息相匹配的图像信息的图像以克服基于关键词的信息检索方法存在的上述弊端。

与基于关键词的信息检索方法需要以生成信息索引为前提类似，上述基于图像的信息检索方法也需要针对图像库中海量的图像生成索引，从而为后续的检索流程提供数据支持。现有技术中，传统的基于图像的信息检索技术，针对图像库中的图像生成图像索引时主要采用的是依据图像的文件名(或其他针对图像的文字描述信息)的方式，该方式的实现前提是需要操作人员手工为图像添加相应的文字描述信息。基于手工添加文字描述信息的方式生成图像索引的缺陷在于：图像库中的图像数量往往非常庞大，基于手工添加文字描述信息的方式生成图像索引势必导致耗费较多的处理资源。并且，由于操作人员在添加文字描述信息时难免带入自身对于图像的一些主观感受，从而上述图像索引生成方式还可能存在生成的图像索引在一定程度上受到操作人员主观感受的影响从而准确性不高的问题。

发明内容

本申请实施例提供一种图像索引的生成方法及设备，用以解决采用现有技术生成的图像索引的准确性较低的问题。

本申请实施例提供的一种图像索引的生成方法，包括：

针对待生成图像索引的图像库所包含的图像，确定所述图像中的目标区域图像，并从确定出的目标区域图像中提取视觉特征；

根据从不同图像中提取的视觉特征，确定所述图像库中包含的图像之间的相似度值；

根据确定的图像之间的相似度值，确定图像库所包含的图像所属的图像类别；并

按照为同属同一图像类别的图像分配的类别标识相同，为属于不同图像类别的图像分配的类别标识互不相同的标识分配方式，为图像库所包含的图像分别分配类别标识。

本申请实施例提供的一种图像索引的生成设备，包括：

提取模块，用于针对待生成图像索引的图像库所包含的图像，确定所述图像中的目标区域图像，并从确定出的目标区域图像中提取视觉特征；

相似度确定模块，用于根据从不同图像中提取的视觉特征，确定所述图像库中包含的图像之间的相似度值；

类别确定模块，用于根据确定的图像之间的相似度值，确定图像库所包含的图像所属的图像类别；

分配模块，用于按照为同属同一图像类别的图像分配的类别标识相同，为属于不同图像类别的图像分配的类别标识互不相同的标识分配方式，为图像库所包含的图像分别分配类别标识。

本申请实施例提供一种图像索引的生成方法及设备，该方法分别在图像库包含的图像中的目标区域图像中提取视觉特征，并根据提取的视觉特征确定图像库中图像之间的相似度值，进而确定图像所属的图像类别，最后为属于同一图像类别的图像分配相同的类别标识，为属于不同图像类别的图像分配不同的类别标识，将为图像分配的类别标识作为生成的该图像库的图像索引。与现有技术相比，该方法可以由相应的设备自动运行实现，无需人工手工添加图像索引，提高了生成图像索引的效率，并且，由于生成的图像索引是基于在图像中提取的视觉特征，确定图像之间的相似度，进而确定图像所属的图像类别而生成的，因此减小了人工生成图像索引时所带来的操作人员对图像的主观感受的影响，提高了生成的图像索引的准确性。

附图说明

图1为本申请实施例提供的图像索引的生成过程；

图2a为本申请实施例提供的多特征融合的图像搜索过程；

图2b为本申请实施例提供的确定图像中的目标区域图像的过程；

图3为本申请实施例提供的图像索引的生成设备结构示意图。

具体实施方式

为了解决采用现有技术生成的图像索引的准确率较低的问题，本申请实施例提供了一种图像索引的生成方法以及一种图像索引的生成设备。

以下结合附图，详细说明本申请实施例提供的图像索引的生成方法及设备。

首先，本申请实施例提供一种图像索引的生成方法，该方法的具体流程示意图如图1所示，包括以下步骤：

S101：针对待生成图像索引的图像库所包含的图像，确定该图像中的目标区域图像，并从确定出的目标区域图像中提取视觉特征。

在本申请实施例中，考虑到一幅图像通常是由前景和背景组成，图像的前景一般反映了图像的主要内容，而用户一般也只注重于图像的前景，并不太关注图像的背景。因此本申请实施例中将图像的前景作为图像的目标区域图像，也即确定该图像库中的图像的前景，作为对应该图像的目标区域图像，并只在目标区域图像中提取视觉特征。

S102：根据从不同图像中提取的视觉特征，确定该图像库中包含的图像之间的相似度值。

在本申请实施例中，针对该图像库中的某个图像，在该图像中的目标区域图像中提取的视觉特征包括：颜色特征、形状特征、纹理特征、尺度不变特征转换(SIFT，Scale-Invariant Feature Transform)特征，当然，还可以包括其他特征。提取了图像的视觉特征后，即可以根据不同图像的视觉特征，确定不同图像之间的相似度值。

S103：根据确定的图像之间的相似度值，确定该图像库所包含的图像所属的图像类别。

其中，可以将相似度值较小的若干个图像确定为一个图像类别。

S104：按照为同属同一图像类别的图像分配的类别标识相同，为属于不同图像类别的图像分配的类别标识互不相同的标识分配方式，为该图像库所包含的图像分别分配类别标识。

也即，对于同一图像类别下的各个图像，每个图像的类别标识相同，对于不同图像类别下的图像，每个图像的类别标识不同。为图像分配的类别标识即为生成的图像索引，在后续的搜索过程中，就可以根据图像的图像索引，也即图像的类别标识，在图像库中进行搜索。

在上述过程中，分别在图像库包含的图像中的目标区域图像中提取视觉特征，并根据提取的视觉特征确定图像库中的不同图像之间的相似度值，进而确定图像所属的图像类别，最后为属于同一图像类别的图像分配相同的类别标识，为属于不同图像类别的图像分配不同的类别标识，将为图像分配的类别标识作为生成的该图像库的图像索引，与现有技术相比，上述过程完全可以由相应的设备自动运行实现，无需人工手工添加图像索引，提高了生成图像索引的效率，并且，由于生成的图像索引是基于在图像中提取的视觉特征，确定图像之间的相似度，进而确定图像所属的图像类别而生成的，因此减小了人工生成图像索引时所带来的操作人员对图像的主观感受的影响，提高了生成的图像索引的准确性。

以下以本申请实施例提供的图像索引的生成方法和图像搜索方法在实际中的应用流程为例，详细说明该方法的具体实现过程。

在实际应用中，图像索引的生成过程和图像搜索过程是相互独立的两个过程，但这两个过程也可以体现在一个流程中。为了便于描述，本申请实施例中将包含这两个过程的流程称为“多特征融合的图像搜索流程”，其具体示意图如图2a所示。由于图像索引的生成过程完全可以在系统离线时进行，而图像搜索过程则必须在系统在线时进行，因此为了在从名称上体现图像索引的生成过程和图像搜索过程在实施时机上的不同特点，本申请实施例中将图像索引的生成过程称为“离线处理过程”，而将图像搜索过程称为“在线搜索过程”。当然，本申请实施例并不是必然的把图像索引的生成限定于采用离线处理技术，对于本领域技术人员可以理解的是本申请实施例同样也可以采用在线方式生成图像索引。

以下对图2a包含的各步骤进行详细介绍。其中，步骤S201～S203属于离线处理过程，而步骤S204～S205则属于在线搜索过程。

S201：针对待生成图像索引的图像库所包含的图像，从该图像中提取目标区域图像。

本申请实施例中，可以采用图像分割和机器学习相结合的方式实现提取目标区域图像。以一种具体实现方式为例，步骤S201可以由如图2b所示的下述子步骤S2011～S2013实现：

S2011：基于均值漂移(Mean-shift)算法，执行对该图像进行图像平滑的操作；

Mean-shift算法是现有技术中一种应用于聚类、图像平滑、图像分割和跟踪领域的成熟的技术，这个概念最早是由Fukunaga等人于1975年在一篇关于概率密度梯度函数的估计(The Estimation of the Gradient of a Density Function，with Applications in Pattern Recognition)中提出来的。由于该技术是一种现有技术，因此，本申请实施例仅对其做下述简单介绍：

Mean-shift算法本质上是一个自适应的梯度上升搜索峰值的方法，该方法的基本思想在于：如果数据集{x_i，i＝1，2，…，n}服从概率密度函数f(x)，那么，若给定一个初始点x，并针对该初始点x执行Mean-shift算法，就会使得该点一步步的移动，最终收敛到一个峰值点。结合图像来说，若数据集{x_i，i＝1，2，…，n}表示一幅图像中的各个像素点，那么，将该数据集中的每一点作为初始点，并分别对其执行Mean-shift算法，则最终可以使数据集中的各个点收敛到相应的峰值点，从而实现对图像的平滑处理。

从Mean-shift算法的具体实现上看，一幅图像可以表示成一个二维网格点上的p维向量，每一个网格点代表一个像素。p＝1表示图像是一个灰度图像，p＝3表示图像是一个彩色图像，p＞3表示图像是一个多谱图。网格点的坐标一般被认为表示了图像的空间信息。统一考虑图像的空间信息和色彩(或灰度等)信息，可以组成一个p+2维的向量x＝(x^s，x^r)，其中，x^s表示网格点的坐标，x^r表示该网格上p维向量特征。

若以核函数

来估计x的分布，则

可以具有如下式[1]所示的形式：

K_{h_{s}, h_{r}} = \frac{C}{h_{s}^{2} h_{r}^{p}} k (| | \frac{x^{s}}{h_{s}} | |) k ({| | \frac{x^{r}}{h_{r}} | |}^{2}) - - - [1]

其中，h_s，h_r控制着平滑的解析度(解析度即图像的分辨率)，C是一个归一化常数，并且满足：

(1)k是非负的；

(2)k是非增的，即如果a＜b，那么k(a)≥k(b)；

(3)k是分段连续的，并且

{&Integral;}_{0}^{\infty} k (r) dr < \infty .

假设分别用x_i和z_i(i＝1，2，…，n)表示原始和平滑后的图像，那么，用Mean-shift算法进行图像平滑的具体步骤如下：

对每一个像素点，执行下述操作：

1、初始化j＝1，并且使y_i，1＝x_i；

2、运用Mean-shift算法计算y_i，j+1，直到收敛，记收敛后的值为y_i，c；

3、赋值

z_{i} = (x_{i}^{s}, y_{i, c}^{r}),

z_i即为平滑后的图像。

本申请实施例中，对图像进行图像平滑的目的主要在于消除图像中的噪声点，从而为后续的其他图像处理操作提供质量更高的图像。本领域技术人员可以理解，若能容忍图像中的噪声点对后续其他图像处理操作的不利影响，则本申请实施例中，也可以不对图像执行图像平滑操作。此外还需要说明的是，除上述Mean-shift算法外，本申请实施例中，还可以采用其他成熟的图像平滑算法实现对图像的平滑，如Crimmins去斑算法、三角形滤波器、顺序统计滤波器等。

S2012：分别以图像平滑后的图像的每个像素点为种子，进行区域生长(region growing)，得到一幅初步分割后的图像，该图像由分割得到的不同区域图像构成。

其中，为了对不同的区域图像进行区分，可以以区域图像中像素的灰度值作为区域图像的标识。

在子步骤S2012中，“区域生长”是指将成组的像素点或区域发展成更大区域的过程。而从种子开始进行的区域生长则具体是指将种子、以及与该种子具有相似属性(这里的属性可以是灰度、纹理颜色等)的相邻像素点合并到一个区域。对图像进行区域生长是一个迭代的过程，其针对每个种子进行区域生长，直到图像中的每个像素点都被合并到某个区域中，从而形成不同的区域。这些区域的边界往往通过闭合的多边形定义。此时，该图像就被分割为了不同的区域图像。

本申请实施例中，还可以采用其他图像分割算法实现对图像的分割，这些算法可以为阈值分割算法、区域分裂合并算法、基于边缘的分割算法等等。

S2013：采用支持向量机(SVM，Support Vector Machine)方法，分别对子步骤S2012中分割得到的每个区域图像进行背景置信度判断。

本申请实施例中，对区域图像进行背景置信度判断即为，判断该区域图像是该图像的背景还是前景，也即判断该区域图像是背景区域图像还是目标区域图像。

具体地，可以从图像库中选取一定数量的样本图像构成第一图像样本库，预先分别根据该第一图像样本库中的各样本图像所包含的由人工标记出的背景区域图像和目标区域图像进行训练，以获得背景区域图像判断模型。其中，由于第一图像样本库中图像的背景区域图像和目标区域图像是已知的，因此可以以第一图像样本库中的图像为训练样本，通过SVM方法拟合出背景区域图像判断模型，使得采用拟合出的该模型判断样本图像库中图像的背景区域图像和目标区域图像时，所得到的结果与已知的结果相比大多数是正确的，例如90％以上是正确的，即可认为拟合出的该模型可以应用于判断其他未知目标区域图像的各个图像。从而，根据该背景区域图像判断模型，对通过子步骤S2012得到的该图像的不同区域图像进行匹配与判断，进而从该图像所包含的区域图像中区分出背景区域图像和目标区域图像。

至此，该图像中的目标区域图像已经被确定出来，可以通过上述子步骤S2011～S2013，确定该图像库中包含的每个图像的目标区域图像。

S202：针对已经确定了目标区域图像的该图像，从确定的目标区域图像中提取视觉特征。

视觉特征一般包括全局视觉特征和局部视觉特征，本申请实施例中，可以只提取全局视觉特征，也可以只提取局部视觉特征，还可以既提取全局视觉特征又提取具备视觉特征。其中，全局视觉特征可以但不限于包括颜色特征、形状特征等；局部视觉特征可以但不限于包括纹理特征、SIFT特征等。

以下具体介绍本申请实施例中针对不同特征所采用的特征提取算法：

1、针对颜色特征的特征提取算法

本申请实施例中，可以将从图像的目标区域图像中统计得到的颜色直方图作为图像的颜色特征。为了统计颜色直方图，可以先对颜色进行量化处理。比如，可以借鉴稀疏编码(sparse coding)的思想实现颜色量化。

从具体实现上来说，颜色直方图可以设置为由24个块(bin)构成，其中，每个bin分别不重复地对应于由红、绿、蓝(RGB)三原色构成的常见的24种颜色(这里所述的常见的24种颜色可以但不限于根据对海量图片的统计而得到)中的一种颜色。这样，对于一幅图像中的每个像素点而言，与该像素点对应的由RGB三原色构成的颜色就可以对应一个bin。可见，对于任意一幅图像来说，颜色直方图中的bin实际上是反映该图像中具备相应颜色的像素点的个数。那么，针对该图像中的目标区域图像所包含的所有像素点，执行对上述24种颜色所分别对应的像素点的个数分别进行统计的操作，就可以得到该图像中的目标区域图像对应的颜色直方图，而该颜色直方图即为该图像中的目标区域图像的颜色特征。

并且，由于颜色直方图实际上就是对该图像的目标区域图像中的各个像素点对应24种颜色的统计个数值，因此可以将统计的这24种颜色所包含的像素点个数作为一个24维的颜色特征向量来表示，这个24维的颜色特征向量对应该颜色直方图，也可作为该图像中的目标区域图像的颜色特征。

2、针对形状特征的特征提取算法

本申请实施例中，针对形状特征的特征提取算法可以采用形状上下文(SC，Shape Context)算法。

对图像进行分析可知，若一幅图像(如目标区域图像)共包含m个像素点，则某像素点P_i与其余m-1个像素点均存在关系。基于P_i与其余m-1个像素点之间的关系可以产生m-1个向量，这m-1个向量描述了丰富的信息，决定了目标的形状特征。由于物体的轮廓线是物体形状最直接的描述，因而轮廓线上一定数量的离散点可以表示该物体的形状信息。因此，SC算法提出在从目标区域图像中提取出轮廓线后，从该轮廓线上选取分布均匀的像素点执行对数极坐标变换，从而求出相应的对数极坐标直方图。若在轮廓线上共选取了Q个像素点，则该对数极坐标直方图的维数为Q维。由于对数极坐标直方图代表轮廓线上的各个像素点之间的空间位置关系，其决定了目标的形状，因此，按照SC算法得出的该对数极坐标直方图可作为体现图像的形状的形状特征。进一步，则可以按照SC算法确定该图像中的目标区域图像的对数极坐标直方图，作为提取的该图像中的目标区域图像的形状特征。与颜色特征类似的，也可以用一个形状特征向量来表示这个对数极坐标直方图，该形状特征向量也可作为该图像中的目标区域图像的形状特征。

鉴于SC算法已是比较成熟的算法，本申请实施例仅对其进行上述简单介绍而不再赘述。

3、针对纹理特征的特征提取算法

本申请实施例中，可以采用局部二值模式(LBP，Local Binary Patterns)算法来提取目标区域图像的纹理特征。基于LBP算法所提取到的纹理特征从物理意义上来说是：某指定像素点的灰度值分别与其等距离的N个像素点的灰度值之间的定序测量特征的组合体，其中，这里的距离(为了便于描述，本申请实施例中用R表示所述距离)可以指定。形象地看，与该指定像素点之间的距离相等的N个像素点均匀分布在以该指定像素点为圆心且半径为R的圆周上。比如，以像素点(x_D，y_D)为中心像素点的8邻域为例，可以以中心像素点(x_D，y_D)的灰度值I_D作为阈值，并根据和(x_D，y_D)距离为R的8个相邻像素点的灰度值I_φ(φ分别为0，1，2，…，7)与该阈值的大小关系，将这8个像素点的灰度I₀，I₁，…，I₇分别编码为1或0，最终得到一个八位二进制数；然后，将该八位二进制数转化成一个十进制的整数，并以该整数作为以像素点(x_D，y_D)为中心的邻域内的纹理基元代码LBP_N，R(x_D，y_D)。LBP_N，R(x_D，y_D)即为该邻域的纹理特征，也就是前文所述的灰度值之间的定序测量特征的组合体，其具体计算公式如下式[2]：

{LBP}_{N, R} (x_{D}, y_{D}) = Σ_{φ = 0}^{N - 1} sgn (I_{φ} - I_{D}) 2^{φ} - - - [2]

其中，N为处于以像素点(x_D，y_D)为中心的邻域内且与像素点(x_D，y_D)之间的距离等于指定距离的像素点的个数(比如若以上文所述情况为例，则这里的个数可以为8)，sgn为重新定义的符号函数，sgn(I_φ-I_D)则代表了通过比较灰度值I_φ与灰度值I_D的大小关系实现对I_φ的编码。具体来说，当I_φ-I_D≥0时，有sgn(I_φ-I_D)＝1；而当I_φ-I_D＜0时，有sgn(I_φ-I_D)＝0。

本申请实施例中，为了以较高的效率实现对该图像的目标区域图像的纹理特征的提取，还可以先将确定出的目标区域图像划分为L×L个子区域，然后再执行从各子区域中并行地提取纹理特征的操作。其中，L的取值一般为4。划分得到的该些子区域的形状可以为矩形，这些子区域可以互不重叠也可以重叠，但一般不会出现子区域完全重叠的情况。

针对划分出的每个子区域，可以并行执行：针对该子区域中包含的每个像素点，确定以该像素点为中心的邻域内的纹理基元代码，这样，对于一个包含有N₁个像素点的子区域来说，一共可以确定出N₁个纹理基元代码。针对确定出的N₁个纹理基元代码，对其中的不同的纹理基元代码的出现次数进行统计，并以直方图来表示统计到的次数，就可以得到LBP特征直方图，该LBP特征直方图即可视为该子区域的纹理特征。在得到每个子区域所对应的LBP特征直方图后，就可以确定由所有的子区域构成的目标区域图像的纹理特征。比如，通过简单地合成各个LBP特征直方图，就可以确定目标区域图像的纹理特征。与颜色特征类似的，也可以用纹理特征向量来表示合成后的LBP特征直方图，该纹理特征向量也可作为该图像中的目标区域图像的纹理特征。

4、针对SIFT特征的特征提取算法

SIFT特征是一种利用电脑视觉的算法来侦测与描述图像的局部性特征，为了便于描述，针对SIFT特征的特征提取算法也可以简称为SIFT算法，此算法由David Lowe在1999年发表，2004年完善总结。该算法的基本思想是：在空间尺度中寻找极值点，并提取出其位置、尺度、旋转不变量。

本申请实施例中，针对通过执行步骤S201确定的该图像的目标区域图像，首先可以从目标区域图像中确定出具有旋转不变性和尺度不变性的像素点(通常，该些像素点可以称为SIFT特征点，也称为关键像素点)；然后，针对每个关键像素点，从目标区域图像所包含的像素点中，选取以该关键像素点为中心的一个邻域中分散在该关键像素点四周的64个像素点；按照将相邻的4个像素分配到同一像素组的分组方式对选取的64个像素点进行分组，从而一共将其分为16个像素组；最后，针对得到的16个像素组，对每个像素组所包含的4个像素点的方向做向量相加得到像素组的方向，再投射到每个关键像素点的上、下、左、右、左上、右上、左下、右下八个方向上，得到8个坐标值。则16个像素组最终会对应128个坐标值，这128个坐标值所构成的128维特征向量就是该关键像素点的SIFT特征。本申请实施例中，可以将分别针对该目标区域图像中的每个关键像素点确定的128个坐标值构成的向量，作为提取的该图像中的目标区域图像的SIFT特征。

但是，根据上述的SIFT算法原理可知，针对该目标区域图像中的一个关键像素点就需要确定一个128维特征向量，假设该目标区域图像中共有r个关键像素点，则最终确定的该目标区域图像的SIFT特征就是r*128维的特征向量，显然，这个特征向量的维数过于庞大，在后续的应用中显然会耗费较大的计算资源。为了节约计算资源，本申请实施例提供了一种改进型的SIFT算法。该算法的主要思想在于：用一个视觉单词(visual word，往往是一个数字或一个符号)来表示关键像素点的SIFT特征。算法的具体实现步骤分为两个部分，第一部分为模型训练部分，第二部分为确定SIFT特征部分。其中，第一部分具体包括下述步骤：

首先，针对由大量图像构成的第二图像样本库，采用与上述方法类似的技术，分别从第二图像样本库中的各个图像的目标区域图像中确定出关键像素点，从而得到大量的关键像素点。

然后，利用K-means聚类算法对得到的所有关键像素点构成的关键像素点集合进行训练，得到一棵l层、包含K个分支的视觉单词树，该视觉单词树的每个结点都对应一个关键像素点。其中，l和K的值是人工预设值。

需要说明的是，K-means聚类算法是一种比较成熟的用于进行聚类的技术，其目的在于针对s个数据对象(比如，上述得到的每个关键像素点即为数据对象)，根据输入量p将这s个数据对象划分为p个聚类，以便使得所获得的聚类满足“同一聚类中的数据对象的相似度值较高；而不同聚类中的数据对象相似度值较小”这一条件。其具体实现过程简单来说包含：步骤一：从s个数据对象中任意选择p个数据对象分别作为p个聚类所对应的各初始聚类中心，然后，对于未被选取的其它数据对象(即剩下的数据对象)，根据它们与各个初始聚类中心的相似度值(这里的相似度值可以用数据对象与初始聚类中心之间的距离来衡量，而距离则是指数据对象的SIFT特征(128维特征向量)与初始聚类中心的SIFT特征(128维特征向量)之间的距离(如欧式距离等))，分别将它们分配给与其最相似的聚类；步骤二：在将剩下的其他数据对象分配到聚类中后，重新计算每个聚类的聚类中心(即计算聚类中包含的所有数据对象的均值)，从而确定出新的聚类中心，并针对确定出新的聚类中心执行与步骤一类似的步骤。不断重复步骤一、二，直到标准测度函数(一般都采用均方差作为标准测度函数)开始收敛为止。

基于上述K-means聚类算法，本申请实施例中，为了得到一棵l层、包含K个分支的视觉单词树，首先可以通过K-means聚类算法对上述从第二图像样本库中的各个图像的目标区域图像中确定出的所有关键像素点进行聚类，得到K个聚类，得到的K个聚类即为第1层。然后，针对这K个聚类中的每一个聚类，继续使用K-means聚类算法将该聚类中包含的所有关键像素点再次进行聚类，得到该聚类下的K个子聚类。分别针对第1层的K个聚类得到的K*K个子聚类即为第2层，以此类推，共迭代l次，即可得到一棵l层、包含K个分支的视觉单词树，第l层共有K^l个聚类。该视觉单词树所包含的位于第l层的每个聚类则可以称为叶子结点。本申请实施例中，可以为每个叶子结点分别分配不同的编号，只要保证每个叶子节点的编号唯一即可，例如，为叶子结点分配编号的规则可以为：从左至右，从零开始，依次分别为每个叶子结点编号，编号范围为：0～K^l-1。

以上介绍的是“模型训练部分”包括的各个步骤，以下进一步介绍“确定SIFT特征部分”具体包括的各步骤：

首先，针对通过执行步骤S201而确定该图像的目标区域图像，从目标区域图像中确定出关键像素点。

然后，针对上述从目标区域图像中确定出的每个关键像素点，执行：按照传统的SIFT特征确定方式，确定与该关键像素点对应的128维特征向量；然后从视觉单词树的第1层的K个聚类开始比较，具体的，针对第1层的K个聚类，比较该关键像素点与该聚类的聚类中心的距离(即比较该关键像素点对应的128维特征向量，与该聚类的聚类中心对应的128维特征向量之间的距离)，在第1层的K个聚类中找到与该关键像素点距离最小的一个聚类，并继续在该聚类下的位于第2层的K个聚类中找到与该关键像素点距离最小的一个聚类，以此类推，也即找到与该关键像素点距离最小的视觉单词树的分支并遍历下去，直到遍历到某个叶子结点为止，该叶子节点对应的聚类的聚类中心与该关键像素点的距离为最小，将该叶子节点对应的聚类的聚类中心称为第一关键像素点；最后，将遍历到的叶子结点的编号，也即该第一关键像素点的编号确定为该关键像素点的编号，作为该关键像素点的视觉单词，而该视觉单词即为该关键像素点的SIFT特征。

采用上述方法，分别针对从目标区域图像中确定的每个关键像素点，确定视觉单词树中与该关键像素点距离最小的第一关键像素点，并确定该第一关键像素点的编号，将分别针对每个关键像素点确定的第一关键像素点的编号所构成的向量，作为提取的该图像中的目标区域图像的SIFT特征。

通过上述步骤，本申请实施例实现了以一个数(即叶子节点的编号，也即视觉单词)来表示关键像素点的SIFT特征，并将各关键像素点的SIFT特征构成的向量作为目标区域图像的SIFT特征。假设从目标区域图像提取到的关键像素点共有r个，则通过上述的SIFT特征确定方式，最终确定的目标区域图像的SIFT特征是一个r维向量，该向量中的每个元素分别代表了一个关键像素点对应的视觉单词。相比于直接将每个关键像素点对应的128维特征向量构成的r*128维特征向量作为目标区域图像的SIFT特征的方法，显然本申请实施例提供的提取SIFT特征的方法极大的降低了表示SIFT特征的特征向量的维数，在后续应用中可以明显较少消耗的计算资源。

至此，该图像的目标区域图像中的视觉特征已经被提取出来，提取的视觉特征包括颜色特征、形状特征、纹理特征、SIFT特征，当然也可以采用上述相应的方法只提取四种特征中的一种或几种，作为提取的视觉特征。

S203：基于通过执行步骤S202而提取到的视觉特征，执行对图像库中的图像的聚类操作，并为聚类后的图像分配类别标识。

本申请实施例中对图像进行聚类操作时所参考的参数可以包括图像的描述信息和提取的视觉特征，或者也可以仅包括提取的视觉特征。而聚类手段则可以为层次聚类和K-means相结合的算法。以下分别介绍在参考不同参数的情况下的图像聚类过程：

第一种情况为参考的参数同时包括图像的描述信息和提取的视觉特征的情况，该情况下实现对图像库中的图像聚类的操作可以包括下述步骤：

第一步：获得图像库中包含的不同图像的描述信息(图像的描述信息可以但不限于基于文字所描述的图像所属类目信息、图像的标题信息、关于图像内容的描述信息等)，并根据这些描述信息，分别确定对应于不同图像的文字标注信息。

也即，针对图像库中的图像，根据该图像的描述信息，确定用于描述该图像主要内容的关键字，作为该图像的文字标注信息。其中，各个图像的文字标注信息的大小固定。

第二步：根据确定出的不同图像的文字标注信息，使用层次聚类的方法对各图像进行聚类，将图像分配到多个图像集合。

其中，层次聚类是一种较成熟的基于距离的聚类技术，其含义在于：确定不同图像的文字标注信息之间的相关性，并将彼此之间相关性较大的文字标注信息所对应的图像划分到同一图像类别下。

具体地，按照层次聚类的方法，可以确定用于衡量不同图像的文字标注信息之间的相关性大小的相关性值，并将大于预定相关性阈值的相关性值所对应的图像划分到同一图像类别下。通过这样的处理，就可以把文字标注信息之间相关性很大的图像聚集到同一图像类别中，形成一个在语义层次上具有较高聚合度的图像集合。

第三步：针对层次聚类后得到的图像集合，根据从图像中提取到的视觉特征(包括颜色特征、形状特征、纹理特征和SIFT特征)，采用K-means聚类算法进一步进行基于视觉特征的图像聚类。

针对通过执行上述第二步而得到的图像集合来说，一般地，其包含的图像数目仍然很大，而且从视觉内容上来看，其包含的图像也是丰富多样的。由背景技术可知，与图像对应的文字描述信息往往容易受到操作人员主观感受影响，因此可以推断执行上述第二步得到的图像集合也会在一定程度上受到操作人员主观感受影响。为了克服该影响，本申请实施例在第三步中考虑进一步基于从图像中提取的视觉特征对得到的图像集合进行聚类。

具体来说，该聚类过程包括：针对层次聚类后得到的任意图像集合，针对该图像集合中的图像，首先，可以用一个视觉特征向量来表示从该图像中提取到的视觉特征，例如当提取的视觉特征包括颜色特征、形状特征、纹理特征和SIFT特征时，由于可以采用颜色特征向量作为提取到的颜色特征，采用形状特征向量作为提取到的形状特征，采用纹理特征向量作为提取到的纹理特征，采用该图像的目标区域图像中各关键像素点的视觉单词(与各关键像素点距离最小的每个第一关键像素点的编号)构成的向量作为提取到的SIFT特征，因此可以将这4个向量(颜色特征向量、形状特征向量、纹理特征向量，以及该图像的目标区域图像中各关键像素点的视觉单词构成的向量)按固定顺序排列所构成的向量作为该图像的视觉特征向量，该视觉特征向量即唯一表示了该图像的视觉内容；然后，根据确定的对应于不同图像的视觉特征向量，确定不同图像的视觉特征向量之间的相似度值，作为不同图像之间的相似度值，并按照K-means聚类算法，对该图像集合所包含的图像进行聚类操作，确定图像所属的图像类别。其中，可以根据不同图像的视觉特征向量之间的距离，来确定不同图像的视觉特征向量之间的相似度值。这样，就实现了对图像库中的图像的聚类。在确定不同图像的视觉特征向量之间的距离时，由于视觉特征向量中表征SIFT特征的向量的维数已经在提取SIFT特征时被减小，因此此时确定视觉特征向量之间的距离时可以明显减少消耗的计算资源。

最后，按照为同属同一图像类别的图像分配的类别标识相同，为属于不同图像类别的图像分配的类别标识互不相同的标识分配方式，为该图像集合包含的图像分别分配类别标识，并对图像和类别标识进行对应存储。

上述为以图像的描述信息和提取的视觉特征作为参考参数时的图像聚类过程。通过上述第一步～第三步，本申请实施例可以实现在基于图像的文字描述信息对图像进行聚类的基础上，根据从图像中提取的视觉特征对第一次聚类得到的图像集合中的图像进行进一步聚类。由于第二次聚类时所参考的参数是客观性非常强的视觉特征，从而可以削弱文字描述信息所带有的主观性对第一次聚类得到的图像集合的影响，使得最终得到的各个图像类别更加客观、更准确。

以下继续介绍第二种情况。该第二种情况中，实现对图像库中的图像聚类时所参考的参数仅包括提取的视觉特征。具体地，该情况下实现图像库中的图像聚类的方式与第一种情况下的第三步相似，主要实现思想为：根据从图像库包含的不同图像中分别提取到的视觉特征(包括颜色特征、形状特征、纹理特征、SIFT特征中的一种或几种)，采用K-means聚类算法进行基于视觉特征的图像聚类操作。

具体来说，该聚类过程包括下述步骤：

首先，针对图像库中的图像，可以用一个视觉特征向量来表示从该图像中提取到的视觉特征，该视觉特征向量即唯一表示了该图像的视觉内容；其中，视觉特征向量的确定方法与上述第一种情况下的第三步中确定视觉特征向量的方法基本相同。

然后，按照K-means聚类算法，根据不同图像的视觉特征向量之间的相似度值，对该图像库中所包含的图像进行聚类操作，确定图像所属的图像类别；当然，本申请实施例并不限定于采用K-means聚类算法，对本领域技术人员来说也可以采用其他的聚类算法。

最后，按照为同属同一图像类别的图像分配的类别标识相同，为属于不同图像类别的图像分配的类别标识互不相同的标识分配方式，为图像分别分配类别标识，并对图像和类别标识进行对应存储。

本申请实施例中，为各个图像分配的类别标识即为生成的图像索引。

至此，该待生成图像索引的图像库中的各图像已经完成了聚类，并已经为各图像分配了作为图像索引的类别标识。该类别标识具体可以为类ID。

本申请实施例中，上述步骤S201～S203属于离线处理过程，其实施目的在于针对图像库生成图像索引，以便为后续的在线搜索过程(包括步骤S204～S205)提供数据支持。以下结合附图，详细说明在线搜索过程所包含的步骤S204～S205的实施方式。

S204：实际在线搜索过程中，根据待搜索图像的类别标识，从图像库中确定与待搜索图像的类别标识匹配的类别标识所对应的所有图像。

在本申请实施例中，图像搜索的实际应用场景如下：用户先输入关键字进行搜索，例如输入“连衣裙”，得到的每个检索结果中会有对应的图像，这些图像就是上述图像库中已经生成了图像索引的图像，然后，用户可以通过点击相应的按钮，将某个检索结果对应的图像作为待搜索图像，也即基于采用关键字搜索到的搜索结果对应的图像，进行第二次搜索，第二次搜索即为基于图像的信息检索。

S205：针对确定的与待搜索图像具备相同类别标识的各个图像，分别确定用于衡量各个图像的视觉特征与待搜索图像相应的视觉特征之间相似性大小的相似度值，并在确定的与待搜索图像具备相同类别标识的各个图像中，选取大于预定相似度值阈值的相似度值所对应的图像作为搜索结果返回给用户终端，流程结束。

可选的，对于上述选取到的图像，可以按照其对应的相似度值由大至小的顺序与对图像进行排序的由先至后顺序，确定用于指示图像排列顺序的排序信息，并在将选取的图像作为搜索结果返回给用户终端的同时，将该排序信息也返回给用户终端，指示用户终端根据该排序信息对图像进行排序显示。其中，在确定具备与待搜索图像相同类别标识的各个图像，与待搜索图像的视觉特征之间的相似度值时，也可以根据该各个图像的视觉特征向量，与该待搜索图像的视觉特征向量之间的距离来确定，并且，由于视觉特征向量中表征SIFT特征的向量的维数，已经在离线处理过程的提取SIFT特征过程中被减小，因此此时确定视觉特征向量之间的距离可以明显减小消耗的计算资源。

需要重点说明的是，若是将图像作为一个不可细分整体来提取图像的视觉特征，那么这样就使得提取的视觉特征无法描述图像所包含的不同内容在空间上的差异，而只能反映图像全局的一些特点，从而难以从图像的不同内容层次出发实现对不同图像之间相似性的比较。由于在一般情况下，在进行图像搜索时往往并不太关心不同图像在整体上的相似性，反而更多关注的是仅包含前景的图像区域即目标区域图像的相似性。因此从这个角度而言，仅针对目标区域图像提取视觉特征更能满足实际需求。并且，由于不再针对背景区域图像提取视觉特征，因此还能够节省从用于实现从背景区域图像中提取视觉特征的这部分资源。

通过本申请实施例提供的方案，由于在生成图像索引时参考了图像所客观具备的视觉特征，因此大大提高了生成的图像索引的准确率。

对应于本申请实施例提供的图像索引的生成方法，本申请实施例还提供一种图像索引的生成设备，该设备的具体结构示意图如图3所示，具体包括：

提取模块301，用于针对待生成图像索引的图像库所包含的图像，确定所述图像中的目标区域图像，并从确定出的目标区域图像中提取视觉特征；

相似度确定模块302，用于根据从不同图像中提取的视觉特征，确定所述图像库中包含的图像之间的相似度值；

类别确定模块303，用于根据确定的图像之间的相似度值，确定图像库所包含的图像所属的图像类别；

分配模块304，用于按照为同属同一图像类别的图像分配的类别标识相同，为属于不同图像类别的图像分配的类别标识互不相同的标识分配方式，为图像库所包含的图像分别分配类别标识。

所述提取模块301具体用于，从确定出的目标区域图像中提取的视觉特征包括：颜色特征、形状特征、纹理特征、尺度不变特征转换SIFT特征中的一种或几种；当提取的视觉特征为SIFT特征时，针对确定的该图像中的目标区域图像，利用SIFT算法，从该目标区域图像中确定各个关键像素点，并分别确定对应于各个关键像素点的128维特征向量，针对每个关键像素点对应的128维特征向量，比较该关键像素点对应的128维特征向量与预设的图像样本库中各个关键像素点对应的128维特征向量之间的距离，确定所述图像样本库中与该关键像素点对应的128维特征向量距离最小的第一关键像素点，并确定预先为该第一关键像素点分配的编号，将分别针对每个关键像素点确定的第一关键像素点的编号构成的向量，作为从该目标区域图像中提取的SIFT特征。

所述相似度确定模块302具体用于，根据所述图像库中包含的不同图像的描述信息，分别确定对应于不同图像的文字标注信息，确定用于衡量对应于不同图像的文字标注信息之间相关性大小的相关性值，并根据确定的相关性值，利用层次聚类方法，将所述图像库中包含的图像分配到多个图像集合，针对任意图像集合，根据从该图像集合所包含的不同图像中提取到的视觉特征，确定对应于不同图像的视觉特征向量，根据确定的对应于不同图像的视觉特征向量，确定不同图像之间的相似度值。

所述相似度确定模块302具体用于，根据从所述图像库中包含的不同图像中提取到的视觉特征，确定对应于不同图像的视觉特征向量，根据确定的对应于不同图像的视觉特征向量，确定不同图像之间的相似度值。

所述提取模块301具体用于，对所述图像执行图像平滑操作，针对进行了图像平滑操作后的图像，以该进行了图像平滑操作后的图像中的每个像素点为种子进行区域生长操作，使得该进行了图像平湖操作后的图像被分割为若干个区域图像，并在分割的若干个区域图像中确定目标区域图像。

所述类别确定模块303具体用于，根据确定的图像之间的相似度值，按照K-means聚类算法，对图像库所包含的图像进行聚类操作，确定图像库所包含的图像所属的图像类别。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种图像索引的生成方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，从确定出的目标区域图像中提取的视觉特征包括：颜色特征、形状特征、纹理特征、尺度不变特征转换SIFT特征中的一种或几种；

当提取的视觉特征为SIFT特征时，从确定出的目标区域图像中提取视觉特征，具体包括：

针对确定的该图像中的目标区域图像，利用SIFT算法，从该目标区域图像中确定各个关键像素点，并分别确定对应于各个关键像素点的128维特征向量；并

针对每个关键像素点对应的128维特征向量，分别执行下述各个步骤：

比较该关键像素点对应的128维特征向量与预设的图像样本库中各个关键像素点对应的128维特征向量之间的距离，确定所述图像样本库中与该关键像素点对应的128维特征向量距离最小的第一关键像素点，并确定预先为该第一关键像素点分配的编号；并

将分别针对每个关键像素点确定的第一关键像素点的编号构成的向量，作为从该目标区域图像中提取的SIFT特征。

3.如权利要求1所述的方法，其特征在于，根据从不同图像中提取的视觉特征，确定所述图像库中包含的图像之间的相似度值，具体包括：

根据所述图像库中包含的不同图像的描述信息，分别确定对应于不同图像的文字标注信息；

确定用于衡量对应于不同图像的文字标注信息之间相关性大小的相关性值，并根据确定的相关性值，利用层次聚类方法，将所述图像库中包含的图像分配到多个图像集合；

针对任意图像集合，执行下述步骤：

根据从该图像集合所包含不同图像中提取到的视觉特征，确定对应于不同图像的视觉特征向量；

根据确定的对应于不同图像的视觉特征向量，确定不同图像之间的相似度值。

4.如权利要求1所述的方法，其特征在于，根据从不同图像中提取的视觉特征，确定所述图像库中包含的图像之间的相似度值，具体包括：

根据从所述图像库中包含的不同图像中提取到的视觉特征，确定对应于不同图像的视觉特征向量；

5.如权利要求1～4任一所述的方法，其特征在于，确定所述图像中的目标区域图像，具体包括：

对所述图像执行图像平滑操作；并

针对进行了图像平滑操作后的图像，以该进行了图像平滑操作后的图像中的每个像素点为种子进行区域生长操作，使得该进行了图像平滑操作后的图像被分割为若干个区域图像，并在分割的若干个区域图像中确定目标区域图像。

6.如权利要求1所述的方法，其特征在于，根据确定的图像之间的相似度值，确定图像库所包含的图像所属的图像类别，具体包括：

根据确定的图像之间的相似度值，按照聚类算法，对图像库所包含的图像进行聚类操作，确定图像库所包含的图像所属的图像类别。

7.一种图像索引的生成设备，其特征在于，包括：

8.如权利要求7所述的设备，其特征在于，所述提取模块具体用于，从确定出的目标区域图像中提取的视觉特征包括：颜色特征、形状特征、纹理特征、尺度不变特征转换SIFT特征中的一种或几种；当提取的视觉特征为SIFT特征时，针对确定的该图像中的目标区域图像，利用SIFT算法，从该目标区域图像中确定各个关键像素点，并分别确定对应于各个关键像素点的128维特征向量，针对每个关键像素点对应的128维特征向量，比较该关键像素点对应的128维特征向量与预设的图像样本库中各个关键像素点对应的128维特征向量之间的距离，确定所述图像样本库中与该关键像素点对应的128维特征向量距离最小的第一关键像素点，并确定预先为该第一关键像素点分配的编号，将分别针对每个关键像素点确定的第一关键像素点的编号构成的向量，作为从该目标区域图像中提取的SIFT特征。

9.如权利要求7所述的设备，其特征在于，所述相似度确定模块具体用于，根据所述图像库中包含的不同图像的描述信息，分别确定对应于不同图像的文字标注信息，确定用于衡量对应于不同图像的文字标注信息之间相关性大小的相关性值，并根据确定的相关性值，利用层次聚类方法，将所述图像库中包含的图像分配到多个图像集合，针对任意图像集合，根据从该图像集合所包含的不同图像中提取到的视觉特征，确定对应于不同图像的视觉特征向量，根据确定的对应于不同图像的视觉特征向量，确定不同图像之间的相似度值。

10.如权利要求7所述的设备，其特征在于，所述相似度确定模块具体用于，根据从所述图像库中包含的不同图像中提取到的视觉特征，确定对应于不同图像的视觉特征向量，根据确定的对应于不同图像的视觉特征向量，确定不同图像之间的相似度值。

11.如权利要求7～10任一所述的设备，其特征在于，所述提取模块具体用于，对所述图像执行图像平滑操作，针对进行了图像平滑操作后的图像，以该进行了图像平滑操作后的图像中的每个像素点为种子进行区域生长操作，使得该进行了图像平湖操作后的图像被分割为若干个区域图像，并在分割的若干个区域图像中确定目标区域图像。

12.如权利要求7所述的设备，其特征在于，所述类别确定模块具体用于，根据确定的图像之间的相似度值，按照聚类算法，对图像库所包含的图像进行聚类操作，确定图像库所包含的图像所属的图像类别。