CN104915673A

CN104915673A - 一种基于视觉词袋模型的目标分类方法和系统

Info

Publication number: CN104915673A
Application number: CN201410087579.XA
Authority: CN
Inventors: 李静雯; 贺娜; 师忠超; 刘殿超; 鲁耀杰
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2014-03-11
Filing date: 2014-03-11
Publication date: 2015-09-16
Anticipated expiration: 2034-03-11
Also published as: CN104915673B

Abstract

本发明提供一种基于视觉词袋模型的目标分类方法和系统，该方法包括：获得样本图片的特征点并得到各个特征点的位置信息和描述信息，所述样本图片包括第一分类图片和第二分类图片；聚类各个特征点的描述信息，以生成以描述信息作为视觉词条的视觉词典；基于各个特征点中的目标特征点的描述信息，找到与目标特征点的描述信息匹配的一个或多个视觉词条；基于各个特征点的位置信息，计算各个特征点的描述信息对目标特征点在该目标特征点匹配的视觉词条上的权重；结合所有目标特征点，基于所有目标特征点的位置信息，产生样本图片的带有空间信息的基于视觉词条的权重的特征模型。

Description

一种基于视觉词袋模型的目标分类方法和系统

技术领域

本公开一般涉及图像处理领域，且更具体地涉及基于视觉词袋模型的目标分类技术。

背景技术

视觉词袋模型是当前目标分类或目标识别领域的最好的方法之一。该模型能够很好的表达目标的特征力求获得更高的识别率。

视觉词袋模型的构建是基于特征点的特征的，因此对于位置、光照、旋转以及仿射变换有着不变性。同时，该模型对部分遮挡和偏移也有较好的鲁棒性。但是，由于传统的视觉词袋模型直接将目标中的所有特征点生成直方图特征，而不考虑目标中的特征点的空间信息，因此，不能获得更好的识别率。另外，传统的基于视觉词袋模型的目标分类或目标识别方式使用大量的重复计算，耗用了大量的计算资源。

参考文献：

Wang等人在2012年10月25日公开的美国专利申请公开号US2012269432(A1)，题为“IMAGE RETRIEVAL USING SPATIALBAG-OF-FEATURES”；

Lin等人2013年5月23日公开的美国专利申请公开号US2013132377(A1)，题为“Systems and Methods for Localized Bag-of-Features Retrieval”。

发明内容

所谓词袋，就是包含一组数据的打包或封装。在一个视觉词袋中往往包含了若干幅图的基本特征元素，例如若干幅图的特征，包括形状、结构、颜色、纹理等的特征。由于视觉词袋具有一类或多类图像的一些特征，故而当提取出视觉词袋中的元素时，就可以对相近类图像进行描述，同时也可以用作不同类别图像的分类。视觉词袋运用在某一个图片中，也可形象地称为视觉词典，其于包括一系列视觉词条，使得该图片的各种特征可以用视觉词典中的各个视觉词条来表示。

本技术除了考虑视觉词袋的技术，还考虑图片上的各个点之间的空间位置关系，来更准确地构造用于分类图片的分类模型，从而更准确地对图片进行分类。

根据本公开的一个方面，提供一种基于视觉词袋模型的目标分类方法，包括：获得样本图片的特征点并得到各个特征点的位置信息和描述信息，所述样本图片包括第一分类图片和第二分类图片；聚类各个特征点的描述信息，以生成以描述信息作为视觉词条的视觉词典；基于各个特征点中的目标特征点的描述信息，找到与目标特征点的描述信息匹配的一个或多个视觉词条；基于各个特征点的位置信息，计算各个特征点的描述信息对目标特征点在该目标特征点匹配的视觉词条上的权重；结合所有目标特征点，基于所有目标特征点的位置信息，产生样本图片的带有空间信息的基于视觉词条的权重的特征模型。

根据本公开的另一方面，提供一种基于视觉词袋模型的目标分类系统，包括：获得装置，被配置为获得样本图片的特征点并得到各个特征点的位置信息和描述信息，所述样本图片包括第一分类图片和第二分类图片；聚类装置，被配置为聚类各个特征点的描述信息，以生成以描述信息作为视觉词条的视觉词典；找到装置，被配置为基于各个特征点中的目标特征点的描述信息，找到与目标特征点的描述信息匹配的一个或多个视觉词条；计算装置，被配置为基于各个特征点的位置信息，计算各个特征点的描述信息对目标特征点在该目标特征点匹配的视觉词条上的权重；产生装置，被配置为结合所有目标特征点，产生样本图片的带有空间信息的基于视觉词条的权重的特征模型。

根据本公开的各个方面，提供更灵活且更准确的分类识别方式且消耗更少的计算资源、提供更快的处理速度。

附图说明

图1示出了应用本技术的示例硬件环境框图。

图2示出了根据本技术的一个实施例的基于视觉词袋模型的目标分类方法的示例流程图。

图3示出了根据本技术的另一个实施例的用于目标分类的示例大体流程图。

图4示出了根据本技术的另一个实施例的生成视觉词典和得到分类器的示例流程图。

图5示出了根据本技术的另一个实施例的基于视觉词典和分类器来进行目标分类的功能流程图。

图6示出了图4所示的特征点提取与描述的具体示例步骤。

图7示出图4所示的生成视觉词典的具体示例步骤。

图8示出了图4所示的空间视觉词典匹配的具体示例步骤。

图9示出了图8所示的投票过程的具体示例步骤。

图10示出了图8所示的空间编码过程的具体示例步骤。

图11A示出了图10所示的空间编码过程中计算特征点p对目标特征点R_i′,j′在该目标特征点R_i′,j′匹配的第k个视觉词条上的权重的示意图。

图11B示出了图10所示的空间编码过程中计算各个特征点对其他特征点在匹配的视觉词条上的权重的影响因子的示意图。

图12示出了产生用于输入分类器训练的样本图片的带有空间信息的基于视觉词条的权重的特征模型的示意图。

图13示出了根据本技术的另一实施例的基于视觉词典和分类器来进行目标分类的系统的方框图。

具体实施方式

现在将详细参照本发明的具体实施例，在附图中例示了本发明的例子。尽管将结合具体实施例描述本发明，但将理解，不是想要将本发明限于所述的实施例。相反，想要覆盖由所附权利要求限定的在本发明的精神和范围内包括的变更、修改和等价物。应注意，这里描述的方法步骤都可以由任何功能块或功能布置来实现，且任何功能块或功能布置可被实现为物理实体或逻辑实体、或者两者的组合。

为了使本领域技术人员更好地理解本发明，下面结合附图和具体实施方式对本发明作进一步详细说明。

图1示出了应用本技术的示例硬件环境框图。

一个通用的硬件系统包括随机存取存储器（RAM）（H1）、只读存储器（ROM）（H2）、数据总线（H3）、重要处理单元/数字信号处理器（CPU/DSP）（H4）、输入/输出总线（H5），显示屏（H6）以及输入/输出设备（H7）等。例如，本技术中的实施例的基于视觉词袋模型的目标分类方法可以在图1所示的CPU/DSP中执行，且执行结果、例如分类模型和/或分类结果可以被显示在显示屏（H6）上，或输出到输出设备（H7）。

图2所示的基于视觉词袋模型的目标分类方法包括：步骤S11，获得样本图片的特征点并得到各个特征点的位置信息和描述信息，所述样本图片包括第一分类图片和第二分类图片；步骤S12，聚类各个特征点的描述信息，以生成以描述信息作为视觉词条的视觉词典；步骤S13，基于各个特征点中的目标特征点的描述信息，找到与目标特征点的描述信息匹配的一个或多个视觉词条；步骤S14，基于各个特征点的位置信息，计算各个特征点的描述信息对目标特征点在该目标特征点匹配的视觉词条上的权重；步骤S15，结合所有目标特征点，基于所有目标特征点的位置信息，产生样本图片的带有空间信息的基于视觉词条的权重的特征模型。

如此，可以基于各个特征点的位置对目标特征点的位置的在视觉词条上的权重影响，来产生样本图片中的所有目标特征点的带有空间信息的基于视觉词条的权重的特征模型，从而在日后进行分类训练和实际分类操作中获得图片的基于空间位置的更准确的分类。该模型同样能够应用于基于该模型的其它应用领域，如图像检索、图像匹配等，而不限于图像分类和图像识别领域。

在一个实施例中，各个特征点的位置信息可以包括各个特征点之间的距离信息。距离越大，一个特征点的描述信息对另一个特征点在该另一特征点匹配的视觉词条上的权重的影响越小。

在一个实施例中，样本图片中的各个特征点都可以作为目标特征点，在一个特征作为目标特征点时，可以计算所有特征点（包括当前的目标特征点本身）对该目标特征点在位置上的影响。目标特征点对自己的影响最大，因为目标特征点与自己的距离最小。

在一个实施例中，所述基于各个特征点的位置信息，计算各个特征点的描述信息对目标特征点在该目标特征点匹配的视觉词条上的权重的步骤S14可以包括：计算各个特征点的描述信息与目标特征点的匹配的视觉词条的相似度；获得各个特征点与该目标特征点的距离，来得到各个特征点对该目标特征点在该匹配的视觉词条上的权重的影响因子；根据针对各个特征点计算的相似度和所述影响因子，得到以该目标特征点在各个匹配的视觉词条上的权重为特征的特征模型。

在一个实施例中，所述基于各个特征点的位置信息，计算各个特征点的描述信息对目标特征点在该目标特征点匹配的视觉词条上的权重的步骤S14可以通过如下公式来实现：

ω_{R_{i^{'}, j^{'}}}^{k} (p &RightArrow; R_{i^{'}, j^{'}}) = α_{Δi, Δj} e^{- βd (f_{q}, C_{k})}

公式1

是特征点p对目标特征点R_i′,j′在该目标特征点R_i′,j′匹配的第k个视觉词条上的权重。C_k是该目标特征点匹配的第k个视觉词条。d(f_p,C_k)是特征点p的描述信息f_p与第k个视觉词条的相似度。β是预定系数。α_Δi,Δj是特征点p对该目标特征点R_i′,j′在该匹配的第k个视觉词条C_k上的权重的影响因子。特征点p与目标特征点R_i′,j′的距离越大，所述影响因子α_Δi,Δj越小。

在一个实施例中，通过如下公式来计算α_Δi,Δj：

α_{Δi, Δj} = 1 - \frac{D_{Δi, Δj}}{D_{\max}}

公式2

其中，

\begin{matrix} D_{\max} = \sqrt{M^{2} + N^{2}} \\ D_{Δi, Δj} = \sqrt{{Δi}^{2} + {Δj}^{2}} \end{matrix},

且

\begin{matrix} Δi = | i - i^{'} | \\ Δj = | j - j^{'} | \end{matrix} .

即，D_max是样本图片中各个特征点与目标特征点的最大间隔距离，M和N是样本图片在高度和宽度下的特征点数目。D_Δi,Δj是与特征点p点的坐标差为Δi,Δj的目标特征点的间隔距离。特征点p到目标特征点R_i′,j′的距离D_Δi,Δj越远，影响因子越小。

当然上述公式仅是示例，实际上，可以根据各个特征点的位置信息来构思其他公式来获得各个特征点的描述信息对目标特征点在该目标特征点匹配的视觉词条上的权重。

在一个实施例中，根据针对各个特征点计算的相似度和所述影响因子，得到以该目标特征点在各个匹配的视觉词条上的权重为特征的特征模型的步骤可以包括：

计算

H_{R_{i, j}}^{k} = \frac{1}{M \times N} \underset{p}{Σ} ω_{R_{i, j}}^{k} (p &RightArrow; R_{i, j}),

公式3

表示对样本图片上的各个（M×N个）特征点计算的对目标特征点R_i，j在该匹配的第k个视觉词条C_k上的权重的平均值，作为该目标特征点R_i,j在第k个视觉词条C_k上的权重。

对各个匹配的视觉词条，可以进行的计算，得到样本图片的以视觉词条为维度、以权重为另一维度、基于目标特征点R_i,j的位置的特征模型。

在一个实施例中，所述目标特征点可以是包括多个特征点构成的目标区域。例如，所述目标区域可以是3×3特征点的一个小块的区域。在目标特征点是包括多个特征点的一个区域的情况下，计算各个特征点与目标区域之间的距离可以通过各个特征点与目标区域的质心、中心、顶点或其他点的距离来表示。

在一个实施例中，所述特征模型可以是以视觉词条为维度、以权重为另一维度、基于包括多个目标区域的更大区域（例如6×6特征点的一个大块）的位置的特征模型。

在一个实施例中，所述基于目标特征点的描述信息，找到与目标特征点的描述信息匹配的一个或多个视觉词条的步骤S13可以包括：通过计算所述目标特征点的描述信息与视觉词典中的各个视觉词条之间的相似度，来找到相似度最高的一个或多个视觉词条，作为匹配的一个或多个视觉词条。

该方法还可以包括：根据样本图片的带有空间信息的基于视觉词条的权重的特征模型，获得第一分类图片与第二分类图片的分类基准；基于所述分类基准，对于要分类的输入图片，判断其属于第一分类图片还是属于第二分类图片。

在一个实施例中，所述分类基准的获得可以通过以下中的至少一种：向量机、Adaboost分类器、Bayes分类器，BP神经网络分类器，决策树算法，支持向量机（SVM）算法等等。这些分类算法都是传统存在的，传统技术中，包括正样本（分类结果为正）和负样本（分类结果为负）的样本图片的特征模型可以经过基于上述算法的分类训练来得到上述分类器。

在一个实施例中，所述特征模型还可以包括其他参数来组成多于二维的模型。例如可以增加视差分量作为第三维度，或增加其他特征来作为特征模型的其他维度。如此，可以增加特征模型的准确性，使得能够更准确地对图片进行分类。

在一个实施例中，所述聚类步骤可以包括如下中的至少一种：划分法（Partitioning Methods）、层次法（Hierarchical Methods）、基于密度的方法（density-based methods）、基于网格的方法（grid-based methods）、基于模型的方法（Model-Based Methods）等。这些聚类步骤也是传统技术中存在的，一般以相似性为基础，使得在一个特征词条聚类中的特征点的描述信息之间比不在同一特征词条聚类中的特征点的描述信息之间具有更多的相似性。

如此，可以基于各个特征点的位置对目标特征点的位置的在视觉词条上的权重影响，来产生样本图片中的所有目标特征点的带有空间信息的基于视觉词条的权重的特征模型，从而在日后进行分类训练和实际分类操作中获得图片的基于空间位置的更准确的分类。

在图3的左侧的训练模块中，可以通过大量的正负样本训练得到待识别目标的视觉词典和分类器。其中，正样本是包含待识别目标（例如，人、动物、建筑物等）的图像，或第一分类的图像；负样本是不包含待识别目标的图像，或第二分类的图像。在图3右侧的实际应用模块中，系统通过训练得到的视觉词典和分类器输出待识别区域的分类结果。

图4所示的用于生成视觉词典和得到分类器的示例流程图可以包括：

步骤S21，接收输入，其是用于模型训练的正负样本。如上所述，例如，正样本是包含待识别目标的图像，负样本是不包含待识别目标的图像。

步骤S22，对每一个样本图像提取特征点的集合并获得特征点的位置和描述其特征的描述信息。

步骤S23，通过提取到的特征点及其描述信息来创建视觉词典。视觉词典中可以包含能够描述图像特征的大量的视觉词条。

步骤S24，给每一个特征点匹配一个或多个视觉词条。然后，通过空间视觉词典匹配算法，使得样本图片的描述方法由像素数据转换为带有空间信息的基于视觉词条的权重的特征模型。该匹配过程应用于所有训练样本。注意，视觉词条的匹配与视觉词典的匹配是不同的，视觉词条的匹配表示特征点的描述信息与视觉词条相似的情况，而视觉词典的匹配则是建立带有空间信息的基于视觉词条的权重的特征模型（以下还将详细描述）。

步骤S25，通过所有训练样本图片的所有采集到的特征模型进行训练以得到分类器。

分类器是基于训练数据来训练得到的，并且在实际应用中用来实现待识别目标的分类。训练数据为训练样本图片集中所有样本图片的基于视觉词袋模型的特征模型。分类器可以采用现有的算法：例如向量机、Adaboost分类器、Bayes分类器，BP神经网络分类器，决策树算法，支持向量机（SVM）算法等等，在此不一一赘述。

上述步骤是建立特征模型且通过学习得到分类器的步骤。以下结合图5描述输入待识别区域，通过上述步骤得到的视觉词典和分类器来进行识别或分类的步骤。

步骤S31，输入待识别区域（或待识别图片）。步骤S32，对待识别区域进行特征点提取和描述。步骤S33，根据图4得到的视觉词典对待识别区域进行空间视觉词典匹配、以得到待识别区域的特征模型。步骤S34，根据图4得到的分类器以及待识别区域的空间视觉词典匹配结果（即，待识别区域的特征模型）来对该待识别区域进行图像分类。

图6示出了图4所示的特征点提取与描述的具体示例步骤。

在步骤121，接收训练样本图片。在步骤122，检测训练样本图片的特征点。在此，特征点可以通过任何现有的提取算法得到，如密集采样、角点检测、尺度不变特征转换（Scale Invariant Feature Transform，SIFT）特征点提取等。在步骤123，每一个特征点都依据其特点得到相应的表达，以得到特征点的描述信息、例如形状、结构、颜色、纹理等。在步骤124，输出特征的位置信息和描述信息。

图7示出图4所示的生成视觉词典的具体示例步骤。

在步骤131，接收训练样本图片中的特征点。在此可以暂时不考虑特征点的位置信息。而在步骤132，根据特征点的描述信息，来对这些特征点进行聚类，以创建视觉词典。具体地，聚类步骤包括划分法（PartitioningMethods）、层次法（Hierarchical Methods）、基于密度的方法（density-basedmethods）、基于网格的方法（grid-based methods）、基于模型的方法（Model-Based Methods）等等。聚类算法可以包括K-MEANS算法、K-MEDOIDS算法、CLARANS算法、BIRCH算法、CURE算法、CHAMELEON算法、DBSCAN算法、OPTICS算法、DENCLUE算法、STING算法、CLIQUE算法、WAVE-CLUSTER算法等，这些都是现有技术中成熟的聚类算法，在此不一一举例。如此，通过对这些特征点的描述信息进行聚类，可以使得多个类似的描述信息被聚类到一个视觉词条中，并且从所有特征点的所有描述信息中聚类得到多个视觉词条，以在步骤133组成视觉词典。

简单地举例，例如，一个特征点a的描述信息包括例如圆形、大红色，另一个特征点b的描述信息包括例如圆形、蓝色，再一个特征点c的描述信息包括例如方形、深红色。则可以聚类所有的描述信息得到视觉词条：例如圆形、方形、红色、蓝色，组成视觉词典。当然在此举例的是两种不同类型的描述信息合并在一起的聚类示例，当然实际上也可以采用一种类型或多于两种类型的描述信息合并在一起的聚类。

图8示出了图4所示的空间视觉词典匹配的具体示例步骤。

空间视觉词典匹配的目的在于提取每一个样本图片的基于视觉词袋模型的特征模型。

具体地，在步骤S151，接收样本图片的特征点的位置信息和描述信息。在步骤152，进行投票过程。投票过程的目的在于从视觉词典中找到能够表征样本内每一个特征点的一个或多个视觉词条，作为匹配的视觉词条。例如，以上述例子为例，一个特征点a的匹配的视觉词条可以是例如圆形、红色，虽然该特征点a本身的描述信息是圆形、大红色。

在步骤S153，进行空间编码过程。空间编码过程的目的在于用投票过程选出的匹配的视觉词条来结合每一特征点的空间信息来表达每一个特征点。具体地，基于各个特征点的位置信息，计算各个特征点的描述信息对目标特征点在目标特征点匹配的视觉词条上的权重。

在步骤S154用这些权重、基于特征点的位置信息，生成该样本图片的基于视觉词袋模型的特征模型。该特征模型可以包括几个维度：视觉词条、各个特征点对目标特征点在视觉词条上的权重、样本图片的各个目标特征点的位置（还要结合图12进一步描述）。因此，该得到的特征模型可以利用空间信息来准确地描述该样本图片的基于视觉词袋的特征。

图9示出了图8所示的投票过程的具体示例步骤。

对每一个特征点均执行投票操作，该操作可以使得投票选出的视觉词条能够表征该特征点的信息。

具体地，在步骤1521，接收样本图片中的各个特征点的位置信息和描述信息。

在步骤1522，计算特征点的描述信息和视觉词典中的各个视觉词条之间的相似度。该相似度可以采用距离测量值d(f_p,C_k)表示，例如但不限于欧几里得距离。这里，f_p是特征点p的特征描述信息。C_k是视觉词典中的第k个视觉词条。距离测量值d(f_p,C_k)越小，特征点和对应的视觉词条相似度越高。

在步骤1523，为每一个特征点选择最相似的视觉词条。在得到当前特征点的描述信息和所有视觉词条的相似度之后，该步骤的目的是为空间编码过程选择匹配的一个或多个视觉词条。当为特征点只选择一个最相近的匹配的视觉词条时，可以称为硬投票。软投票是为每一个特征点选择多于一个的匹配的视觉词条。

在步骤1524，得到投票结果，可以包括相似度以及每一个特征点对应的最相似的一个或多个视觉词条、作为匹配的一个或多个视觉词条。

图10示出了图8所示的空间编码过程的具体示例步骤。图11A示出了图10所示的空间编码过程中计算特征点p对目标特征点R_i′,j′在该目标特征点R_i′,j′匹配的第k个视觉词条上的权重的示意图。图11B示出了图10所示的空间编码过程中计算各个特征点对其他特征点在匹配的视觉词条上的权重的影响因子的示意图。图12示出了产生用于输入分类器训练的样本图片的带有空间信息的基于视觉词条的权重的特征模型的示意图。

总的来说，空间编码过程的目的在于将基于特征点的特征表达（例如，描述信息）变换成一种新的更有用的具有空间信息的基于视觉词袋模型的特征表达（具体为特征矩阵、或特征模型）。对于每一个样本图片来说，输入的是每一个特征点的投票结果（例如，匹配的一个或多个视觉词条）。图10所示的空间编码过程包括但不限于如下六个步骤，每个步骤的细节如下：

1)在步骤1531：接收样本图片中的每一个特征点的编码结果，例如，匹配的一个或多个视觉词条。

2)在步骤1532：样本分块。在该具体示例中，为了表达目标的空间信息，并且减少计算量，可以依据待识别目标的性质，将样本图片分为一些目标小块。例如，行人的空间分块方案可以如图11A所示。若干个目标小块还可以组成一个目标大块。但是，分块仅是一种具体例子，实际上，可以对每个目标特征点或一些目标特征点包括的小块区域进行下述处理。

3)在步骤1533：生成距离模板以得到各个特征点到目标小块的距离，并通过距离模板来计算影响因子α_Δi,Δj以获得样本图片中不同位置的特征点对目标小块的影响（图11B是一个距离模板示例）。以下公式4显示了影响因子α_ΔiΔj的计算方法：

\begin{matrix} D_{\max} = \sqrt{M^{2} + N^{2}} \\ D_{Δi, Δj} = \sqrt{{Δi}^{2} + {Δj}^{2}} \\ α_{Δi, Δj} = 1 - \frac{D_{Δi, Δj}}{D_{\max}} \\ Δi = | i - i^{'} | \\ Δj = | j - j^{'} | \end{matrix}

公式4

这里，D_max是各个特征点与目标小块的最大间隔距离。M和N是目标模板在高度和宽度下的小块数目。D_Δi,Δj是与特征点的坐标差为Δi,Δj的目标小块的间隔距离（例如，直线距离）。在此，可以通过目标小块的中心、质心、顶点或任意点与特征点的距离来计算该D_Δi,Δj。特征点所在的位置到目标小块的距离D_Δi,Δj越远，影响因子α_Δi,Δj越小。

4)在步骤1534：计算特征点影响权重。为了得到不同目标小块的基于空间信息的视觉词袋模型中，可以首先计算样本图片内每一个特征点对该目标小块的匹配的视觉词条（即，目标小块中的所有特征点的匹配的时间词条）的影响权重。以下公式5表示了特征点p对目标小块Ri′,j′在第k个视觉词条上的权重的计算方法，如图11A所示：

ω_{R_{i^{'}, j^{'}}}^{k} (p &RightArrow; R_{i^{'}, j^{'}}) = α_{Δi, Δj} e^{- βd (f_{q}, C_{k})}

在这里，是特征点p对目标小块R_i′,j′在该目标小块R_i′,j′匹配的第k个视觉词条上的权重。C_k是该目标小块匹配的第k个视觉词条。d(f_p,C_k)是特征点p的描述信息f_p与第k个视觉词条的相似度。β是预定系数，调节该系数可以在d(f_p,C_k)值偏小的时候适当增大，或者反之亦然。α_Δi,Δj是特征点p对该目标小块R_i′,j′在该匹配的第k个视觉词条C_k上的权重的影响因子。特征点p与目标小块R_i′,j′的距离越大，所述影响因子α_Δi,Δj越小。且针对样本图片内每一个特征点对目标小块R_i′,j′匹配的视觉词条的仅计算一次，且在计算其对每一个小块的视觉词袋模型中视觉词条影响权重时，只需乘以影响因子α_Δi,Δj即可。

5)在步骤1535：产生每一个目标小块的基于视觉词袋模型的特征。对每一个目标小块R_i,j，通过以下公式6产生例如直方图特征是在直方图中第k维上的值：

H_{R_{i, j}}^{k} = \frac{1}{N} \underset{p}{Σ} ω_{R_{i, j}}^{k} (p &RightArrow; R_{i, j})

公式6

在这里，表示对样本图片上的所有特征点p计算的对目标小块R_i,j在该匹配的第k个视觉词条C_k上的权重的平均值，作为该目标小块R_i,j在第k个视觉词条C_k上的权重。特征点p代表样本中的所有特征点，且包括目标小块R_i，j中的特征点。在此，在该例子中，该直方图的横坐标为各个视觉词条，而纵坐标为在各个视觉词条上的权重特征当然利用直方图来得到权重特征仅是一种表达方式，本领域技术人员可以利用其他图表、例如矩阵、表格等来表征这种权重特征。如此，可以得到具有各个特征点的位置与目标小块的位置的空间关系的视觉词条上的权重特征。

6)在步骤1536：可选地，在得到目标小块的权重特征之后，还可以提取包括若干小块的每一个大块的基于视觉词袋模型的特征。在这里，如图11A所示，右下角的第一个大块可以包括右下角的4个小块；而第二个大块可以包括已经包括在第一个大块中的2个小块再加上这2个小块左边的另外2个小块，如此使得各个大块之间有重叠的小块。如此，可以通过给不同的目标小块以不同的权重，以此消除边缘区域的影响。大块的特征通过例如直接连接该大块所包含的各个小块的直方图特征HRi,j得到。当然，直接连接小块的直方图特征也仅是示例，本领域技术人员也可构思其他方式（例如，交错连接等等、加权连接）来得到大块的直方图特征。如此，通过使得这些大块之间有重叠区域（重叠的小块）以此降低特征对待识别目标平移的敏感度，从而在例如待识别目标位于样本图片中平移到不同位置处时，也能够使得目标识别或分类更有鲁棒性。

7)在步骤1537：产生基于视觉词袋模型的特征矩阵作为特征模型。在一个实施例中，该特征矩阵通过直接连接每一个大块的直方图特征得到（见图12）。如图12的右下所示，特征矩阵的横坐标是视觉词条，而纵坐标是按不同的大块的位置而放置的大块自己的视觉词条的权重。如前所述，利用大块来得到鲁棒的目标识别仅是例子，实际上，也可以仅利用之前的小块或者更小的每个特征点来得到视觉词条的权重的直方图，在此不赘述。

8)在步骤1538：输出最终的特征矩阵，作为该样本图片的特征模型。

在上述实施例中，仅采用视觉词条和对应的权重的直方图来作为二维的特征模型。但是本公开不限于此，特征模型还可以包括其他参数来组成多于二维的模型。例如可以增加视差分量作为第三维度，或增加其他特征来作为特征模型的其他维度。如此，可以增加特征模型的准确性，使得能够更准确地对图片进行分类。

在上述公开中，提出一种新的基于空间的视觉词典匹配算法，因此能够更好地表达物体的空间信息。本技术不仅能够描述图片的各个部分，同时能够描述不同部分之间的关系。这种空间关系有助于更准确的图片分类和表达。本技术能够在执行较少的计算处理的前提下表达更为复杂的空间关系，且在诸如图像识别或分类、视频监控等领域具备应用价值。

图13所示的系统包括一种基于视觉词袋模型的目标分类系统40，包括：获得装置41，被配置为获得样本图片的特征点并得到各个特征点的位置信息和描述信息，所述样本图片包括第一分类图片和第二分类图片；聚类装置42，被配置为聚类各个特征点的描述信息，以生成以描述信息作为视觉词条的视觉词典；找到装置43，被配置为基于各个特征点中的目标特征点的描述信息，找到与目标特征点的描述信息匹配的一个或多个视觉词条；计算装置44，被配置为基于各个特征点的位置信息，计算各个特征点的描述信息对目标特征点在该目标特征点匹配的视觉词条上的权重；产生装置45，被配置为结合所有目标特征点，产生样本图片的带有空间信息的基于视觉词条的权重的特征模型。

在一个实施例中，所述计算装置可以被配置为：计算各个特征点的描述信息与目标特征点的匹配的视觉词条的相似度；获得各个特征点与该目标特征点的距离，来得到各个特征点对该目标特征点在该匹配的视觉词条上的权重的影响因子；根据针对各个特征点计算的相似度和所述影响因子，得到以该目标特征点在各个匹配的视觉词条上的权重为特征的特征模型。

在一个实施例中，所述计算装置44可以通过如下公式来进行计算：

ω_{R_{i^{'}, j^{'}}}^{k} (p &RightArrow; R_{i^{'}, j^{'}}) = α_{Δi, Δj} e^{- βd (f_{q}, C_{k})}

公式7

在一个实施例中，通过如下公式来计算α_Δi,Δj：

α_{Δi, Δj} = 1 - \frac{D_{Δi, Δj}}{D_{\max}}

公式8

其中，

\begin{matrix} D_{\max} = \sqrt{M^{2} + N^{2}} \\ D_{Δi, Δj} = \sqrt{{Δi}^{2} + {Δj}^{2}} \end{matrix},

且

\begin{matrix} Δi = | i - i^{'} | \\ Δj = | j - j^{'} | \end{matrix} .

在一个实施例中，上述计算装置44还可以被配置为：

计算

H_{R_{i, j}}^{k} = \frac{1}{M \times N} \underset{p}{Σ} ω_{R_{i, j}}^{k} (p &RightArrow; R_{i, j}),

公式9

表示对样本图片上的各个（M×N个）特征点计算的对目标特征点R_i,j在该匹配的第k个视觉词条C_k上的权重的平均值，作为该目标特征点R_i,j在第k个视觉词条C_k上的权重。

在一个实施例中，所述找到装置43可以被配置为：通过计算所述目标特征点的描述信息与视觉词典中的各个视觉词条之间的相似度，来找到相似度最高的一个或多个视觉词条，作为匹配的一个或多个视觉词条。

该系统40还可以包括：训练分类器装置，被配置为根据样本图片的带有空间信息的基于视觉词条的权重的特征模型，获得第一分类图片与第二分类图片的分类基准；分类器，基于所述分类基准，对于要分类的输入图片，判断其属于第一分类图片还是属于第二分类图片。

在一个实施例中，所述聚类算法可以包括如下中的至少一种：划分法（Partitioning Methods）、层次法（Hierarchical Methods）、基于密度的方法（density-based methods）、基于网格的方法（grid-based methods）、基于模型的方法（Model-Based Methods）等。这些聚类步骤也是传统技术中存在的，一般以相似性为基础，使得在一个特征词条聚类中的特征点的描述信息之间比不在同一特征词条聚类中的特征点的描述信息之间具有更多的相似性。

注意，虽然本公开中提到的是图像、图片等，但是可以理解在视频的情况下，也可以将视频的帧作为上述图像、图片来进行上述目标分类方法。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本发明为必须采用上述具体的细节来实现。

注意，在本公开中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本发明的各个实施例必须具备的。

本公开中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

本公开中的步骤流程图以及以上方法描述仅作为例示性的例子并且不意图要求或暗示必须按照给出的顺序进行各个实施例的步骤。如本领域技术人员将认识到的，可以按任意顺序进行以上实施例中的步骤的顺序。诸如“其后”、“然后”、“接下来”等等的词语不意图限制步骤的顺序；这些词语仅用于引导读者通读这些方法的描述。此外，例如使用冠词“一个”、“一”或者“该”对于单数的要素的任何引用不被解释为将该要素限制为单数。

以上所述的方法的各个操作可以通过能够进行相应的功能的任何适当的手段而进行。该手段可以包括各种硬件和/或软件组件和/或模块，包括但不限于电路、专用集成电路（ASIC）或处理器。

可以利用被设计用于进行在此所述的功能的通用处理器、数字信号处理器（DSP）、ASIC、场可编程门阵列信号（FPGA）或其他可编程逻辑器件（PLD）、离散门或晶体管逻辑、离散的硬件组件或者其任意组合而实现或进行所述的各个例示的逻辑块、模块和电路。通用处理器可以是微处理器，但是作为替换，该处理器可以是任何商业上可获得的处理器、控制器、微控制器或状态机。处理器还可以实现为计算设备的组合，例如DSP和微处理器的组合，多个微处理器、与DSP核协作的一个或多个微处理器或任何其他这样的配置。

结合本公开描述的方法或算法的步骤可以直接嵌入在硬件中、处理器执行的软件模块中或者这两种的组合中。软件模块可以存在于任何形式的有形存储介质中。可以使用的存储介质的一些例子包括随机存取存储器（RAM）、只读存储器（ROM）、快闪存储器、EPROM存储器、EEPROM存储器、寄存器、硬碟、可移动碟、CD-ROM等。存储介质可以耦接到处理器以便该处理器可以从该存储介质读取信息以及向该存储介质写信息。在替换方式中，存储介质可以与处理器是整体的。软件模块可以是单个指令或者许多指令，并且可以分布在几个不同的代码段上、不同的程序之间以及跨过多个存储介质。

在此公开的方法包括用于实现所述的方法的一个或多个动作。方法和/或动作可以彼此互换而不脱离权利要求的范围。换句话说，除非指定了动作的具体顺序，否则可以修改具体动作的顺序和/或使用而不脱离权利要求的范围。

所述的功能可以按硬件、软件、固件或其任意组合而实现。如果以软件实现，功能可以作为一个或多个指令存储在切实的计算机可读介质上。存储介质可以是可以由计算机访问的任何可用的切实介质。通过例子而不是限制，这样的计算机可读介质可以包括RAM、ROM、EEPROM、CD-ROM或其他光碟存储、磁碟存储或其他磁存储器件或者可以用于携带或存储指令或数据结构形式的期望的程序代码并且可以由计算机访问的任何其他切实介质。如在此使用的，碟（disk）和盘（disc）包括紧凑盘（CD）、激光盘、光盘、数字通用盘（DVD）、软碟和蓝光盘，其中碟通常磁地再现数据，而盘利用激光光学地再现数据。

因此，计算机程序产品可以进行在此给出的操作。例如，这样的计算机程序产品可以是具有有形存储（和/或编码）在其上的指令的计算机可读的有形介质，该指令可由一个或多个处理器执行以进行在此所述的操作。计算机程序产品可以包括包装的材料。

软件或指令也可以通过传输介质而传输。例如，可以使用诸如同轴电缆、光纤光缆、双绞线、数字订户线（DSL）或诸如红外、无线电或微波的无线技术的传输介质从网站、服务器或者其他远程源传输软件。

此外，用于进行在此所述的方法和技术的模块和/或其他适当的手段可以在适当时由用户终端和/或基站下载和/或其他方式获得。例如，这样的设备可以耦接到服务器以促进用于进行在此所述的方法的手段的传送。或者，在此所述的各种方法可以经由存储部件（例如RAM、ROM、诸如CD或软碟等的物理存储介质）提供，以便用户终端和/或基站可以在耦接到该设备或者向该设备提供存储部件时获得各种方法。此外，可以利用用于将在此所述的方法和技术提供给设备的任何其他适当的技术。

其他例子和实现方式在本公开和所附权利要求的范围和精神内。例如，由于软件的本质，以上所述的功能可以使用由处理器、硬件、固件、硬连线或这些的任意的组合执行的软件实现。实现功能的特征也可以物理地位于各个位置，包括被分发以便功能的部分在不同的物理位置处实现。而且，如在此使用的，包括在权利要求中使用的，在以“至少一个”开始的项的列举中使用的“或”指示分离的列举，以便例如“A、B或C的至少一个”的列举意味着A或B或C，或AB或AC或BC，或ABC（即A和B和C）。此外，措辞“示例的”不意味着描述的例子是优选的或者比其他例子更好。

可以不脱离由所附权利要求定义的教导的技术而进行对在此所述的技术的各种改变、替换和更改。此外，本公开的权利要求的范围不限于以上所述的处理、机器、制造、事件的组成、手段、方法和动作的具体方面。可以利用与在此所述的相应方面进行基本相同的功能或者实现基本相同的结果的当前存在的或者稍后要开发的处理、机器、制造、事件的组成、手段、方法或动作。因而，所附权利要求包括在其范围内的这样的处理、机器、制造、事件的组成、手段、方法或动作。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本发明。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本发明的范围。因此，本发明不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本发明的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种基于视觉词袋模型的目标分类方法，包括：

获得样本图片的特征点并得到各个特征点的位置信息和描述信息，所述样本图片包括第一分类图片和第二分类图片；

聚类各个特征点的描述信息，以生成以描述信息作为视觉词条的视觉词典；

基于各个特征点中的目标特征点的描述信息，找到与目标特征点的描述信息匹配的一个或多个视觉词条；

基于各个特征点的位置信息，计算各个特征点的描述信息对目标特征点在该目标特征点匹配的视觉词条上的权重；

结合所有目标特征点，基于所有目标特征点的位置信息，产生样本图片的带有空间信息的基于视觉词条的权重的特征模型。

2.根据权利要求1所述的方法，其中，各个特征点的位置信息包括各个特征点之间的距离信息，其中，距离越大，一个特征点的描述信息对另一个特征点在该另一特征点匹配的视觉词条上的权重的影响越小。

3.根据权利要求1所述的方法，其中，所述基于各个特征点的位置信息，计算各个特征点的描述信息对目标特征点在该目标特征点匹配的视觉词条上的权重的步骤包括：

计算各个特征点的描述信息与目标特征点的匹配的视觉词条的相似度；

获得各个特征点与该目标特征点的距离，来得到各个特征点对该目标特征点在该匹配的视觉词条上的权重的影响因子；

根据针对各个特征点计算的相似度和所述影响因子，得到以该目标特征点在各个匹配的视觉词条上的权重为特征的特征模型。

4.根据权利要求1所述的方法，其中，所述基于各个特征点的位置信息，计算各个特征点的描述信息对目标特征点在该目标特征点匹配的视觉词条上的权重的步骤通过如下公式来实现：

ω_{R_{i^{'}, j^{'}}}^{k} (p &RightArrow; R_{i^{'}, j^{'}}) = α_{Δi, Δj} e^{- βd (f_{q}, C_{k})}

是特征点p对目标特征点R_i′,j′在该目标特征点R_i′,j′匹配的第k个视觉词条上的权重，C_k是该目标特征点匹配的第k个视觉词条，d(f_p,C_k)是特征点p的描述信息f_p与第k个视觉词条的相似度，β是预定系数，α_Δi,Δj是特征点p对该目标特征点R_i′,j′在该匹配的第k个视觉词条C_k上的权重的影响因子，其中，特征点p与目标特征点R_i′,j′的距离越大，所述影响因子α_Δi,Δj越小，

其中，根据针对各个特征点计算的相似度和所述影响因子，得到以该目标特征点在各个匹配的视觉词条上的权重为特征的特征模型的步骤包括：

计算

H_{R_{i, j}}^{k} = \frac{1}{N} \underset{i, j}{Σ} ω_{R_{i, j}}^{k} (p &RightArrow; R_{i, j}),

表示对样本图片上的各个特征点计算的对目标特征点R_i,j在该匹配的第k个视觉词条C_k上的权重的平均值，作为该目标特征点R_i,j在第k个视觉词条C_k上的权重，

对各个匹配的视觉词条，进行的计算，得到样本图片的以视觉词条为维度、以权重为另一维度、基于目标特征点R_i,j的位置的特征模型。

5.根据权利要求1所述的方法，其中，所述目标特征点是包括多个特征点构成的目标区域。

6.根据权利要求5所述的方法，其中，所述特征模型是以视觉词条为维度、以权重为另一维度、基于包括多个目标区域的更大区域的位置的特征模型。

7.根据权利要求1所述的方法，其中，所述基于目标特征点的描述信息，找到与目标特征点的描述信息匹配的一个或多个视觉词条的步骤包括：

通过计算所述目标特征点的描述信息与视觉词典中的各个视觉词条之间的相似度，来找到相似度最高的一个或多个视觉词条，作为匹配的一个或多个视觉词条。

8.根据权利要求1所述的方法，还包括：

根据样本图片的带有空间信息的基于视觉词条的权重的特征模型，获得第一分类图片与第二分类图片的分类基准；

基于所述分类基准，对于要分类的输入图片，判断其属于第一分类图片还是属于第二分类图片。

9.根据权利要求8所述的方法，其中，所述分类基准的获得通过以下中的至少一种：

向量机、Adaboost分类器、Bayes分类器，BP神经网络分类器，决策树算法，支持向量机（SVM）算法，

其中，所述特征模型还包括其他参数来组成多于二维的模型，

其中，所述聚类步骤包括如下中的至少一种：

划分法（Partitioning Methods）、层次法（Hierarchical Methods）、基于密度的方法（density-based methods）、基于网格的方法（grid-based methods）、基于模型的方法（Model-Based Methods）。

10.一种基于视觉词袋模型的目标分类系统，包括：

获得装置，被配置为获得样本图片的特征点并得到各个特征点的位置信息和描述信息，所述样本图片包括第一分类图片和第二分类图片；

聚类装置，被配置为聚类各个特征点的描述信息，以生成以描述信息作为视觉词条的视觉词典；

找到装置，被配置为基于各个特征点中的目标特征点的描述信息，找到与目标特征点的描述信息匹配的一个或多个视觉词条；

计算装置，被配置为基于各个特征点的位置信息，计算各个特征点的描述信息对目标特征点在该目标特征点匹配的视觉词条上的权重；

产生装置，被配置为结合所有目标特征点，产生样本图片的带有空间信息的基于视觉词条的权重的特征模型。