CN102567736A

CN102567736A - 图像识别设备及方法

Info

Publication number: CN102567736A
Application number: CN2010106051121A
Authority: CN
Inventors: 马赓宇; 程刚; 王强; 毛文涛; 金智渊
Original assignee: Beijing Samsung Telecommunications Technology Research Co Ltd; Samsung Electronics Co Ltd
Current assignee: Beijing Samsung Telecommunications Technology Research Co Ltd; Samsung Electronics Co Ltd
Priority date: 2010-12-14
Filing date: 2010-12-14
Publication date: 2012-07-11

Abstract

本发明提供一种图像识别设备及方法。该图像识别方法包括：从输入图像提取K种类型的特征，其中，K为大于1的自然数；分别对提取的K种类型的特征进行编码，以获得用于表示输入图像的与K种类型相应的K个直方图；利用用于对预设的M个类进行分类的分类器对获得的K个直方图进行分类，以获得预设的M个类的得分，其中，针对K种类型的每种类型，训练用于对预设的M个类进行分类的分类器，来对相应类型的直方图进行分类，其中，M为大于1的自然数；对获得的预设的M个类的得分进行融合。在本发明的图像识别中，利用了多种类型的特征，并对来自不同类型的特征的结果进行了融合，提高了识别精度和稳定性。

Description

图像识别设备及方法

技术领域

本发明涉及图像处理领域，更具体地讲，涉及一种图像识别设备及方法。

背景技术

随着互联网技术的发展，人们能够访问大量的信息，这包括文本信息、多媒体信息。因此，从互联网中找到希望的信息变为一个重要问题。基于文本的检索和搜索技术在搜索引擎中已经被广泛使用并取得了极大的成功。

然而，对于多媒体信息的搜索，特别是对于图像和视频内容的搜索较为困难。这主要是搜索引擎不能理解图像的含义或者不能将图像中的内容转换为文本的形式进行描述。当前，图像搜索引擎基本上仅是利用围绕图像的文本(例如，网页中图像周围的文本信息)作为搜索的依据，而不是直接从图像中搜索信息。换句话说，当前的图像搜索引擎实质上还是通过搜索网页上用于描述图像的文本来搜索图像。在这种情况下，如果没有用于描述图像的文本信息或者文本信息错误，则无法搜索到正确的结果。

为了解决上述问题，当前的主要解决方案是利用图像识别技术，从待搜索的图像中识别出其中存在的对象，来用于图像的搜索。

第2010/0124377号美国专利申请公开了一种图像分类方法，其中，首先将图像的预定位置上的点设置为关键点，基于关键点提取SIFT特征或者SURF特征；利用稀疏编码对提取的特征进行编码；使用最大汇聚方法对编码后的特征进行汇聚；最后利用SVM分类器从上述汇聚结果中识别图像中的对象。

在上述方案中，在图像的预定位置提取一种类型的特征来根据提取的特征识别图像中的对象。这种方式虽然简化了提取方式，然而需要大量的样本才能训练出效果较好的分类器，这导致识别结果的健壮性不是很高，受外部因素的影响较大。

因此，在图像识别中，需要一种能够具有较高的识别结果健壮性的识别设备和方法。

发明内容

本发明的目的在于提供一种图像识别方法和设备，其通过提取多种类型的特征来识别图像，并对来自不同类型的特征的识别结果进行融合。

为了实现上述目的，提供一种图像识别方法，包括：从输入图像提取K种类型的特征，其中，K为大于1的自然数；分别对提取的K种类型的特征进行编码，以获得用于表示输入图像的与K种类型相应的K个直方图；利用用于对预设的M个类进行分类的分类器对获得的K个直方图进行分类，以获得预设的M个类的得分，其中，针对K种类型的每种类型，训练用于对预设的M个类进行分类的分类器，来对相应类型的直方图进行分类，其中，M为大于1的自然数；对获得的预设的M个类的得分进行融合。

所述融合的步骤可包括：根据特征的类型将相同类的各个得分加权，将相同类的加权后的得分相加，得到与M个类相应的M个得分。

所述融合的步骤还可包括：选择M个类中的一个类作为主导类，根据主导类与M个类中的其他类之间的依存关系，对所述M个得分加权，将加权后的M个得分相加，以得到与主导类相应的一个得分，其中，依次选择M个类的每个类作为主导类，计算与每个主导类相应的得分。

所述融合的步骤可包括：选择M个类中的一个类作为主导类，根据主导类与M个类中的其他类之间的依存关系，对M个类中的每个类的得分加权，将加权后的得分相加，以得到与主导类相应的一个得分，其中，依次选择M个类的每个类作为主导类，计算与每个主导类相应的得分。

将相同类的得分加权的步骤可包括：训练用于加权的权重，以最大化平均精度。

训练用于加权的权重的步骤可包括：对权重向量e进行初始化，得到初始化的权重向量e₀，其中，向量e₀的各个元素的值相同；使用当前的向量e_p计算平均精度E_p＝AP(e_p)，其中，AP()为计算平均精度的函数，其中，在执行初始化之后，当前向量e_p＝e₀；获得步长向量б，通过将当前的向量e_p与步长向量б相加，得到新的向量e_new，其中，步长向量б的各个元素是预定数值范围内的随机数；使用新的向量e_new再次计算平均精度E_new＝AP(e_new)；如果E_new大于等于E_p，则e_p＝e_new，重复将当前的向量e_p改变步长б的步骤；如果E_new小于E_p，则确定随机函数rand(E_p，E_new)是否大于0；如果确定rand(E_p，E_new)大于0，则e_p＝e_new，重复将当前的向量e_p改变步长б的步骤；如果确定rand(E_p，E_new)不大于0，则e_p保持不变，重复将当前的向量e_p改变步长б的步骤，其中，随机函数rand(E_p，E_new)满足下面的条件：E_new越大，rand(E_p，E_new)＞0的概率越大；或者在E_new大于一阈值之后，E_new越大，rand(E_p，E_new)＞0的概率越大。

向量e₀的各个元素的值可等于向量e₀的元素的数量的倒数。

当改变步长预定次数之后或者当E_new达到预定值时，将此时的e_p作为最终训练得到的权重向量e。

根据主导类与M个类中的其他类之间的依存关系进行加权的步骤可包括：训练用于加权的权重，以最大化平均精度。

训练用于加权的权重的步骤可包括：对权重向量e进行初始化，得到初始化的权重向量e₀，其中，在向量e₀中，主导类的得分的权重被初始化为1，其他类的得分的权重被初始化为0；使用当前的向量e_p计算平均精度E_p＝AP(e_p)，其中，AP()为计算平均精度的函数，其中，在执行初始化之后，当前向量e_p＝e₀；获得步长向量б，通过将当前的向量e_p与步长向量б相加，得到新的向量e_new，其中，步长向量б的各个元素是预定数值范围内的随机数；使用新的向量e_new再次计算平均精度E_new＝AP(e_new)；如果E_new大于等于E_p，则e_p＝e_new，重复将当前的向量e_p改变步长б的步骤；如果E_new小于E_p，则确定随机函数rand(E_p，E_new)是否大于0；如果确定rand(E_p，E_new)大于0，则e_p＝e_new，重复将当前的向量e_p改变步长б的步骤；如果确定rand(E_p，E_new)不大于0，则e_p保持不变，重复将当前的向量e_p改变步长б的步骤，其中，随机函数rand(E_p，E_new)满足下面的条件：E_new越大，rand(E_p，E_new)＞0的概率越大；或者在E_new大于一阈值之后，E_new越大，rand(E_p，E_new)＞0的概率越大。

从输入图像提取K种类型的特征的步骤可包括：利用K种不同的提取特征的方法从输入图像来提取K种类型的特征。

利用K种不同的提取特征的方法从输入图像来提取K种类型的特征的步骤可包括：采用不同的特征点提取方法从输入图像提取特征点，利用至少一种特征描述方法对提取的特征点建立描述子，以提取K种类型的特征。

利用K种不同的提取特征的方法从输入图像来提取K种类型的特征的步骤可包括：采用不同的特征点提取方法从输入图像提取特征点，利用不同的特征描述方法对提取的特征点建立描述子，以提取K种类型的特征。

利用K种不同的提取特征的方法从输入图像来提取K种类型的特征的步骤可包括：采用不同的特征点提取方法从输入图像提取特征点，利用尺度不变特征变换SIFT针对提取的特征点建立SIFT描述子，以提取基于不同特征点提取方法的SIFT特征。

可利用支持向量机将各个分类器训练为一个线性分类器来实现对获得的预设的M类的得分的融合。

所述融合的步骤可包括：针对基于同一类型的特征训练的M个类的分类器的得分，从M个类中选择一个类作为主导类，根据主导类与M个类中的其他类之间的依存关系，对基于同一类型的特征训练的M个类的分类器的得分加权，将加权后的得分相加，以得到与主导类相应的一个得分，其中，依次选择M个类的每个类作为主导类，计算与每个主导类相应的得分，其中，对于每种类型的特征执行所述加权相加处理。

所述方法还包括：根据特征的类型，对所述融合的步骤的加权相加后的结果中相同类的各个得分加权，将相同类的加权后的得分相加，得到与M个类相应的M个得分。

本发明的另一方面提供一种图像识别设备，包括：特征提取单元，从输入图像提取K种类型的特征，其中，K为大于1的自然数；编码及汇聚单元，分别对提取的K种类型的特征进行编码，以获得用于表示输入图像的与K种类型相应的K个直方图；分类单元，利用用于对预设的M个类进行分类的分类器对获得的K个直方图进行分类，以获得预设的M个类的得分，其中，针对K种类型的每种类型，训练用于对预设的M个类进行分类的分类器，来对相应类型的直方图进行分类，其中，M为大于1的自然数；融合单元，对获得的预设的M个类的得分进行融合。

融合单元可包括：基于特征的融合单元，根据特征的类型将相同类的各个得分加权，将相同类的加权后的得分相加，得到与M个类相应的M个得分。

融合单元还可包括：基于类的融合单元，选择M个类中的一个类作为主导类，根据主导类与M个类中的其他类之间的依存关系，对所述M个得分加权，将加权后的M个得分相加，以得到与主导类相应的一个得分，其中，依次选择M个类的每个类作为主导类，计算与每个主导类相应的得分。

融合单元可包括：基于类的融合单元，选择M个类中的一个类作为主导类，根据主导类与M个类中的其他类之间的依存关系，对M个类中的每个类的得分加权，将加权后的得分相加，以得到与主导类相应的一个得分，其中，依次选择M个类的每个类作为主导类，计算与每个主导类相应的得分。

在将相同类的得分加权时，训练用于加权的权重，以最大化平均精度。

在训练用于加权的权重时：对权重向量e进行初始化，得到初始化的权重向量e₀，其中，向量e₀的各个元素的值相同；使用当前的向量e_p计算平均精度E_p＝AP(e_p)，其中，AP()为计算平均精度的函数，其中，在执行初始化之后，当前向量e_p＝e₀；获得步长向量б，通过将当前的向量e_p与步长向量б相加，得到新的向量e_new，其中，步长向量б的各个元素是预定数值范围内的随机数；使用新的向量e_new再次计算平均精度E_new＝AP(e_new)；如果E_new大于等于E_p，则e_p＝e_new，重复将当前的向量e_p改变步长б的步骤；如果E_new小于E_p，则确定随机函数rand(E_p，E_new)是否大于0；如果确定rand(E_p，E_new)大于0，则e_p＝e_new，重复将当前的向量e_p改变步长б的步骤；如果确定rand(E_p，E_new)不大于0，则e_p保持不变，重复将当前的向量e_p改变步长б的步骤，其中，随机函数rand(E_p，E_new)满足下面的条件：E_new越大，rand(E_p，E_new)＞0的概率越大；或者在E_new大于一阈值之后，E_new越大，rand(E_p，E_new)＞0的概率越大。

在根据主导类与M个类中的其他类之间的依存关系进行加权时，训练用于加权的权重，以最大化平均精度。

在训练用于加权的权重时：对权重向量e进行初始化，得到初始化的权重向量e₀，其中，在向量e₀中，主导类的得分的权重被初始化为1，其他类的得分的权重被初始化为0；使用当前的向量e_p计算平均精度E_p＝AP(e_p)，其中，AP()为计算平均精度的函数，其中，在执行初始化之后，当前向量e_p＝e₀；获得步长向量б，通过将当前的向量e_p与步长向量б相加，得到新的向量e_new，其中，步长向量б的各个元素是预定数值范围内的随机数；使用新的向量e_new再次计算平均精度E_new＝AP(e_new)；如果E_new大于等于E_p，则e_p＝e_new，重复将当前的向量e_p改变步长б的步骤；如果E_new小于E_p，则确定随机函数rand(E_p，E_new)是否大于0；如果确定rand(E_p，E_new)大于0，则e_p＝e_new，重复将当前的向量e_p改变步长б的步骤；如果确定rand(E_p，E_new)不大于0，则e_p保持不变，重复将当前的向量e_p改变步长б的步骤，其中，随机函数rand(E_p，E_new)满足下面的条件：E_new越大，rand(E_p，E_new)＞0的概率越大；或者在E_new大于一阈值之后，E_new越大，rand(E_p，E_new)＞0的概率越大。

从输入图像提取K种类型的特征时：采用不同的特征点提取方法从输入图像提取特征点，利用尺度不变特征变换SIFT针对提取的特征点建立SIFT描述子，以提取基于不同特征点提取方法的SIFT特征。

融合单元可包括：基于类的融合单元，针对基于同一类型的特征训练的M个类的分类器的得分，从M个类中选择一个类作为主导类，根据主导类与M个类中的其他类之间的依存关系，对基于同一类型的特征训练的M个类的分类器的得分加权，将加权后的得分相加，以得到与主导类相应的一个得分，其中，依次选择M个类的每个类作为主导类，计算与每个主导类相应的得分，其中，对于每种类型的特征执行所述加权相加处理。

可根据特征的类型，对基于类的融合单元的加权相加后的结果中相同类的各个得分加权，将相同类的加权后的得分相加，得到与M个类相应的M个得分。

本发明的另一方面提供一种提供图像搜索服务的系统，所述系统包括所述图像识别设备，其中，所述图像识别设备对从网络上抓取的图像中的对象进行识别，以利用识别的结果来建立对抓取的图像的描述。

本发明的另一方面提供一种在数字电视中投放广告的系统，所述系统包括所述图像识别设备，其中，所述图像识别设备对用户当前观看的视频中的对象进行识别，以投放与识别的对象相关的广告。

根据本发明的图像识别方法和设备，利用了多种类型的特征，并考虑不同类型的特征之间的关系以及不同类之间的依存关系，对来自不同类型的特征的识别结果进行了融合，提高了识别精度和稳定性。

附图说明

通过下面结合附图进行的详细描述，本发明的上述和其它目的、特点和优点将会变得更加清楚，其中：

图1示出根据本发明的实施例的图像识别设备的框图；

图2示出根据本发明的实施例的训练权重向量的方法的流程图；

图3示出根据本发明的实施例的图像识别方法的流程图。

具体实施方式

下面，参照附图详细描述根据本发明的实施例。

图1示出根据本发明的图像识别设备100的框图。

图像识别设备100包括：特征提取单元110、编码及汇聚(pool)单元120、分类单元130和融合(fusion)单元140。

特征提取单元110从输入的图像提取不同类型的特征。这里的不同类型是指特征的提取方式的不同。特征提取单元110可利用不同的提取特征的方式从输入图像来提取不同类型的特征，即，每种类型的特征对应于一种特征提取方法。

例如，可利用尺度不变特征变换(SIFT)从输入图像提取SIFT特征；利用Dense SIFT方法从输入图像提取Dense SIFT特征；利用CSIFT(ColorSIFT，颜色SIFT)方法从输入图像提取CSIFT特征；利用局部二值模式(LBP)方法从输入图像提取LBP特征。上述类型的特征仅是示例性的，也可利用其他特征提取方法来提取特征。

在本发明的另一个实施例中，仅采用SIFT方法提取不同类型的特征。具体地说，首先采用不同的特征点提取方法从输入图像提取特征点，然后利用SIFT方法针对提取的特征点建立SIFT描述子，从而提取到基于不同特征点提取方法的SIFT特征。提取的SIFT特征可基于特征点提取方法而被分为不同类型的特征。由于SIFT方法提取的特征匹配能力较强，并且对于旋转、尺度缩放、亮度变化保持不变，并且对视角变换、仿射变换、噪声也保持稳定性，因此采用这种方式提取的不同类型的特征整体上匹配能力以及稳定性也较强。例如，可利用DoG(Difference of Gaussian)、Harris(Harris Laplace)等各种特征点方法来提取特征点。

此外，除了使用SIFT方法建立描述子之外，也可使用不同的特征描述方法(例如，SIFT、DenseSIFT、CSIFT、LBP、MSER等特征描述算法)对特征点及其邻域进行描述，以建立描述子。

编码及汇聚单元120对特征提取单元110所提取的不同类型的特征分别进行编码，以获得用于表示输入图像的直方图。

提取的特征通常由描述子进行表示。利用训练得到的码本对用于描述特征的描述子进行编码以获得重构系数。输入图像可以被看作由以重构系数加权的码本中的码字构成。接着，对重构系数进行汇聚处理，以得到输入图像的直方图，用以描述输入图像。假设提取了K(K为大于1的自然数)种类型的特征，则可以得到K个码本和K个直方图。

在本发明的一个对特征进行编码的实施例中，使用向量量化来对提取的特征进行编码。向量量化是指首先随机选取一些点作为聚类中心，然后通过一系列训练，产生一些新的聚类中心，当该算法逐渐稳定以后，就认为这些聚类中心是用于构成码本所需要的码字。

常用的向量量化方法包括Vocabulary forest方法和k-means方法，这里将不再详述。

在本发明的另一个对特征进行编码的实施例中，使用稀疏编码来对提取的特征进行编码。在稀疏编码中，同样利用训练得到的码本来获得重构系数。

具体地说，假设X是D维特征的样本集合，X＝{x₁，x₂，...x_M}，x_i∈R^D。稀疏编码训练的目标是利用样本X训练一组基V，所述基V最小化一个目标函数。训练后的基V作为码本。

该目标函数可被表述如下：

\min_{U, V} Σ_{m = 1}^{M} {| | x_{m} - u_{m} V | |}^{2} + λ | u_{m} |

该函数的意义是使样本集合X在V上的编码尽量稀疏，且重构误差尽量小。其中，U＝{u₁，...，u_M}是使用码本V重构样本X时要用到的重构系数。目标函数中第一项的作用是使重构误差尽量小，即样本X与重构得到的向量UV尽量接近。公式中第二项的意义是使重构系数的和尽量小。λ是平衡两项要求的权重系数。

当码本V已经训练得到后，在稀疏编码过程中，需要对特征提取单元110提取的每个特征x求得最佳的重构系数u。这时的目标函数变为：

\min_{u} {| | x - uV | |}^{2} + λ | u |

稀疏编码和向量量化的不同在于对目标函数的约束不同。在向量量化中，仅能选择一个码。在稀疏编码中，可选择多个码，其线性组合被用作给定特征的重构。通过多个码，可减小重构错误，因此可增加最终分离的准确性。

此外，也可使用其他编码方法对提取的特征进行编码，将不再详述。

在对提取的特征编码之后，可使用最大汇聚(max pooling)方法利用编码的结果来重构直方图。应该理解，也可以使用其他的已知的汇聚方法来重构直方图，将不再详述。

分类单元130基于编码及汇聚单元120针对每种类型的特征所产生的直方图，利用分类器对输入图像中的对象进行分类。

由于针对不同类型的特征产生了多个直方图，因此需要针对每种类型的特征所产生的直方图来训练分类器。例如，提取了K种类型的特征，则产生K个直方图H₁，H₂，...H_K，需要分别针对每种特征来训练分类器，以对对应的直方图进行分类。

针对每种特征对于每个类可训练得到一个或多个分类器。

在训练分类器的第一实施例中，假设存在M个类(即，存在M类对象，M为大于1的自然数)，则针对M个类中的任意两类训练一个分类器，从而针对每种特征可得到M×(M-1)/2个分类器。

在训练分类器的第一实施例中，针对每种特征对于每个类训练一个分类器，从而针对每种特征可得到M个分类器。每个分类器可输出一个数值以表示属于该类的似然度。

在训练M个分类器中的每个分类器时，可选择属于与分类器相应的类的P个正样本，并且选择属于其他(M-1)个类的(M-1)×P个负样本。即，从每个类选择P个样本。

在上述选取样本的方式中，当M比较大时，会导致正样本和负样本的数量差别很大，导致训练时出现样本的不平衡。因此，也可以从其他(M-1)个类中随机选择P个负样本，以解决不平衡的问题。

在训练分类器的第二实施例中，针对每种特征对于每个类训练多个分类器。在上述第一实施例中，当选择P个负样本时，解决了M较大时样本不平衡的问题。然而，这样又会导致负样本数量不足的问题。为了解决该问题，在本实施例中，从其他(M-1)个类中随机选择多组负样本，每组负样本具有P个样本。利用P个正样本和每组负样本分别进行训练，可以得到多个分类器。假设选择Q组负样本，则每个特征下的每个类可以得到Q个分类器，每个特征下存在M×Q个分类器，系统中总共存在K×M×Q个分类器。

在训练分类器的第三实施例中，可在第二实施例的基础上，将得到的Q个分类器组合为一个分类器，这样，组合后的分类器的输出为这Q个类器的得分之和或者得分的平均值。此时，分类器的数量与第一实施例中得到的分类器的数量相同。

在训练好分类器之后，由于针对每种类型的特征对于每个类训练分类器，并且对于每个类可能训练多个分类器，这样一个类存在与之相应的多个得分。这样，很难直接使用这些得分来识别输入图像中的对象，需要对这些得分进行融合。

上面训练分类器的实施例仅是示例性的，也可以使用其他的训练方式来训练分类器，并且其得分同样可以使用下面将要介绍的融合单元140进行融合。

融合单元140对分类单元130的分类结果进行融合，从而得到最终的分类结果。

融合单元140包括基于特征的融合单元141和基于类的融合单元142。基于特征的融合单元141考虑特征的类型对分类结果进行融合。基于类的融合单元142考虑不同类之间的关系对分类结果进行融合。

下面首先描述基于特征的融合单元141。

由于利用不同的特征提取方式提取的特征在通过编码及汇聚单元120和分类单元130的处理后，对最终的分类结果的准确性有不同的影响，因此在对每个类的多个得分进行融合时，考虑提取的特征的类型来分别对该类的多个得分加权后融合。

对于M个类中的每个类，基于特征的融合单元141根据特征的类型确定每个类的各个得分的权值，将每个类的各个得分加权后相加，以得到每个类的得分的融合结果。

例如，在训练分类器的第一和第三实施例中总共有K×M个分类器，获得K×M个得分，融合之后存在M个得分；在训练分类器的第二实施例中总共有K×M×Q个分类器，获得K×M×Q个得分，融合之后存在M个得分。相对于训练分类器的第三实施例，由于训练分类器的第二实施例中的每个特征下的每个类的Q个分类器的结果通过融合过程也被进行了融合，因此训练分类器的第二实施例优于训练分类器的第三实施例。

在确定权重的一个实施例中，利用每个分类器的得分作为样本，通过支持向量机(SVM)将各个分类器训练成一个线性分类器。这样，该线性分类器的系数向量对应于多种类型的特征的得分空间的平面，从而获得不同的权重。

使用SVM获得线性分类器的方式直接优化了原有分类器的误差，然而该方式并没有优化平均精度(average precision，AP)。

在确定权重的另一实施例中，使用随机搜索系数的训练方式来确定与提取的特征的类型相关的权重。

整个训练处理的目标在于寻找合适的权重向量e，以实现最大的AP。在训练时权重向量e，可以同时训练所有M个类，也可以分别训练每个类。优选地，分别训练每个类，这样可以防止过训练的问题。

在训练过程中需要一个样本库来验证训练的权重所能达到的AP。可以构建一个样本库，该样本库包括N个样本。顺序执行上面描述的特征提取处理(由特征提取单元110执行)、编码和汇聚处理(由编码及汇聚(pool)单元120执行)、分类处理(由分类单元130执行)对N个样本进行处理，获得用于进行验证的验证集合S＝{S₁，S₂，...S_i，...S_M}，S_i＝{(x₁，y₁)，...(x_j，y_j)，...(x_N，Y_N)}，其中，S_i表示M个类中第i类的验证集合；N表示样本的数量；x_j＝(s₁，s₂，...，s_r)，表示利用第j个样本获得的r个得分，r表示第j类的得分的数量；y_j用于指示属于第i类的对象实际上是否存在于第j个样本中(例如，可令y_j∈{-1，1}，-1表示不存在，1表示存在)。

应该理解，在针对每种类型的特征对于每个类训练一个分类器的情况(例如，上述训练分类器的第一和第三实施例)，r等于特征的类型的数量K；在针对每种类型的特征对于每个类训练多个分类器的情况，r等于训练得到的全部用于对第i类进行分类的分类器的数量(例如，对于训练分类器的第二实施例，r＝K×Q)。

下面结合图2来详细描述通过随机搜索系数来训练权重向量e的流程。图2是示出根据本发明的实施例的训练权重向量的方法的流程图。

在步骤201，对向量e进行初始化，得到初始化的权重向量e₀。在初始化时，令向量e₀的各个元素的值具有某一预定值(例如，1/t，t为元素的数量，其中，当同时训练所有类时，t等于所有得分的数量；当分别训练每个类时，t＝r)。

在步骤202，使用当前的向量e_p(执行步骤201之后，当前的向量e_p＝e₀)利用验证集合S来计算AP，即，E_t＝AP(e_p)。这里，AP()为计算AP的函数。由于AP的算法是公知的，将不再详述。

在步骤203，获得步长向量б，通过将当前的向量e_p与步长向量б相加，得到新的向量e_new，其中，步长向量б的各个元素是预定数值范围内的随机数。即，每次获得的步长向量б的元素的值在一个预定数值范围内随机变化。

在步骤204，再次计算AP，即，E_new＝AP(e_new)。

在步骤205，确定E_new是否大于等于E_p。

如果在步骤205确定E_new大于等于E_p，则在步骤206，e_p＝e_new，重复进行步骤203。

如果在步骤205确定E_new小于E_p，则在步骤207确定rand(E_p，E_new)是否大于0。

如果在步骤207确定rand(E_p，E_new)大于0，则在步骤208，e_p＝e_new，重复进行步骤203。

如果在步骤207确定rand(E_p，E_new)不大于0，则在步骤209，e_p保持不变，重复进行步骤203。

在上述处理中，向量e随机遍历整个空间。如果步长б使AP增加，则接受该步长。如果步长б没有使AP增加，则仍具有一定可能性来接受该步长，该可能性在随机函数rand(E_p，E_new)中被控制。随机函数rand(E_p，E_new)满足下面的条件：E_new越大，rand(E_p，E_new)＞0的概率越大；或者在E_new大于一阈值之后，E_new越大，rand(E_p，E_new)＞0的概率越大。

在改变步长的步骤进行预定次数之后或者当E_new达到预定值时，将得到的e_p作为最后得到的权重向量e。

下面，详细描述基于类的融合单元142。

基于类的融合单元142对于每个类，通过将该类的得分与其他的类的得分进行融合来得到该类的融合得分。

不同类之间通常存在两种关系，即：

支持关系：在一副图像中，两类物体总是一起出现；

抵触关系，两类物体不能共存于一副图像中。

支持关系的示例是公共汽车和轿车。但是支持关系并不是对称的。公共汽车支持轿车，但轿车不会以相同的几率支持公共汽车。这是因为具有公共汽车的图像通常包括轿车，但是具有轿车的图像并不总是包括公共汽车。

抵触关系的示例是飞机和船，它们一般处于不同的背景中，因此它们通常不会共存。类似地，抵触关系也是不对称的。例如，在存在飞机的情况下存在船的概率比在存在船的情况下存在飞机的概率要小。

因此，可以基于一个类与其他类的依存关系，对该类的得分与其他类的得分进行融合而得到该类的新的得分。为了方便，该类在下文中被称为主导类。具体地说，M个类中的每个类轮流作为主导类，将主导类的得分和其他类的得分都进行加权后相加，得到主导类的新得分，即，得到每个类的新得分。

基于类的融合单元142可以在对基于特征的融合单元141的融合结果的基础上进行操作或对分类单元130的分类结果进行操作。

可以利用图2示出的训练流程来训练用于基于类的融合单元142所执行的融合的权重。在该训练处理中，在步骤201对权重向量e进行初始化时，需要将其中的主导类的权重初始化为1，而其他类的权重初始化为0。

当基于类的融合单元142在对基于特征的融合单元141的融合结果的基础上进行操作时，融合单元141的融合结果包括分别对应于M个类的M个得分{Sc₁，..Sc₂，...Sc_M}，当其中的第i类作为主导类时，第i类的融合后的新得分SSc_i＝e{Sc₁，Sc₂，...Sc_M}＝e₁Sc₁+e₂Sc₂+...+e_MSc_M。在对权重向量e进行初始化时，权重向量e中的e_i被初始化为1，向量e的其他元素被初始化为0。

应该理解，为了验证基于类的融合单元142所使用的权重向量e，需要顺序执行上面描述的特征提取处理(由特征提取单元110执行)、编码和汇聚处理(由编码及汇聚(pool)单元120执行)、分类处理(由分类单元130执行)、基于特征的融合(由基于特征的融合单元141执行)对N个样本进行处理，获得用于进行验证的验证集合SS＝{SS₁，SS₂，...SS_i，...SS_M}，SS_i＝{(x₁，y₁)，...(x_j，y_j)，...(x_L，y_N)}，其中，SS_i表示M个类中第i类的验证集合；x_j＝(s₁，s₂，...，s_M)表示利用第j个样本获得的来自M个类的得分；y_j用于指示属于第i类的对象实际上是否存在于第j个样本中。

在另一基于类的融合单元142的实施例中，基于类的融合单元142还可以直接对分类单元130的分类结果进行操作。当基于类的融合单元142直接对分类单元130的分类结果进行上述融合时，在分类单元130的分类结果中，每个类按特征的类型存在多个得分，并且在同一特征下也可能还存在多个得分(例如，上述训练分类器的第二实施例的情况)。因此，存在下面两种形式的融合：

(1)按特征的类型，对于每个类执行上述融合。

(2)不考虑特征的类型，对于每个类执行上述融合。

对于情况(1)，按特征的类型对每种类型下的M个类的每个类进行基于类的融合，最后得到M×K个得分。当对一个特征类型下的用于M个类的分类器的得分进行基于类的融合时，将主导类的在该特征类型下的所有得分和其他类的在该特征类型下的所有得分都进行加权后相加，从而得到融合后的新得分。在权重向量e被初始化时，属于主导类的得分的权重在步骤201中被初始化为1，属于其他类的得分的权重被初始化为0。

此时，为了验证基于类的融合单元142所使用的权重向量e时，需要顺序执行上面描述的特征提取处理(由特征提取单元110执行)、编码和汇聚处理(由编码及汇聚(pool)单元120执行)、分类处理(由分类单元130执行)对N个样本进行处理，获得用于进行验证的验证集合SS＝{SS₁，SS₂，...SS_i，...SS_M}，SS_i＝{(x₁，y₁)，...(x_j，y_j)，...(x_L，Y_N)}，其中，SS_i表示M个类中第i类的验证集合；x_j＝(s₁，s₂，...，s_a)表示利用第j个样本获得的来自M个分类的得分，a表示分类器的总数量；y_j用于指示属于第i类的对象实际上是否存在于第j个样本中。

得到的M×K个得分可以被基于特征的融合单元141进一步进行基于特征的融合，从而得到M个得分。应该理解，此时验证集合中的r表示第j类的经过基于类的融合后的得分的数量。

对于情况(2)，在对一个主导类的得分进行融合时，将该主导类的所有得分和其他类的所有得分都进行加权后相加，从而得到融合后的新得分。此时，在表示训练分类单元130的分类结果中的所有得分的权重的权重向量e被初始化时，属于主导类的得分的权重在步骤201中被初始化为1，属于其他类的得分的权重被初始化为0。这样，最后得到M个得分作为最终的结果，其中，每个得分对应于一个类。

这样，在该另一基于类的融合单元142的实施例中，在前一基于类的融合单元142的实施例的基础上，还可以提供一种或多种最终的融合结果。

在另外的实施例中，可省略基于类的融合单元142，仅以基于特征的融合单元141的融合结果作为最终结果。

下面，结合图1-3描述根据本发明的图像识别方法。图3示出根据本发明的图像识别方法的流程图。

在步骤301，特征提取单元110从输入的图像提取不同类型的特征。

在步骤302，编码及汇聚单元120对提取的不同类型的特征分别进行编码，以获得用于表示输入图像的直方图。

在步骤303，分类单元130基于编码及汇聚单元120针对每种类型的特征所产生的直方图，利用分类器对输入图像中的对象进行分类。

在步骤304，融合单元140对分类单元130的分类结果进行融合，从而得到最终的分类结果。

在执行融合的第一实施例中，在步骤304执行融合时，可通过基于特征的融合单元141对分类单元130的分类结果进行基于特征的融合，然后通过基于类的融合单元142对基于特征的融合单元141的融合结果进行基于类的融合。

在执行融合的第二实施例中，在步骤304执行融合时，基于类的融合单元142对分类单元130的分类结果按照特征的类型进行基于类的融合，然后通过基于特征的融合单元141对基于类的融合单元142的融合结构进行基于特征的融合。

在执行融合的第三实施例中，在步骤304执行融合时，基于类的融合单元142不考虑特征的类型对分类单元130的分类结果进行基于类的融合。

在执行融合的第四实施例中，在步骤304执行融合时，可通过基于特征的融合单元141对分类单元130的分类结果进行基于特征的融合。

可以同时利用执行融合的第一实施例、第二实施例、第三实施例和第四实施例中的至少一个来进行融合处理，以提供至少一个最终的分类结果。

本发明的图像识别方法和设备可应用于需要进行图像识别的各个领域。例如，在图像搜索中，图像搜索引擎(或系统)可应用本发明的图像识别方法和/或设备，对从网络上抓取的图像中的对象进行识别，从而能够对抓取的图像建立准确的描述，解决了现有的图像搜索技术中仅能利用图像所在的网页中的文字对图像建立描述所导致的描述不准确的问题；再例如，在数字电视的广告投放中，广播投放系统也可应用本发明的图像识别方法和/或设备，对用户当前观看的视频中的对象进行识别，从而投放与识别的对象相关的广告。

尽管已经参照其示例性实施例具体显示和描述了本发明，但是本领域的技术人员应该理解，在不脱离权利要求所限定的本发明的精神和范围的情况下，可以对其进行形式和细节上的各种改变。

Claims

1.一种图像识别方法，包括：

从输入图像提取K种类型的特征，其中，K为大于1的自然数；

分别对提取的K种类型的特征进行编码，以获得用于表示输入图像的与K种类型相应的K个直方图；

利用用于对预设的M个类进行分类的分类器对获得的K个直方图进行分类，以获得预设的M个类的得分，其中，针对K种类型的每种类型，训练用于对预设的M个类进行分类的分类器，来对相应类型的直方图进行分类，其中，M为大于1的自然数；

对获得的预设的M个类的得分进行融合。

2.如权利要求1所述的图像识别方法，其中，所述融合的步骤包括：根据特征的类型将相同类的各个得分加权，将相同类的加权后的得分相加，得到与M个类相应的M个得分。

3.如权利要求2所述的图像识别方法，其中，所述融合的步骤还包括：选择M个类中的一个类作为主导类，根据主导类与M个类中的其他类之间的依存关系，对所述M个得分加权，将加权后的M个得分相加，以得到与主导类相应的一个得分，其中，依次选择M个类的每个类作为主导类，计算与每个主导类相应的得分。

4.如权利要求1所述的图像识别方法，其中，所述融合的步骤包括：选择M个类中的一个类作为主导类，根据主导类与M个类中的其他类之间的依存关系，对M个类中的每个类的得分加权，将加权后的得分相加，以得到与主导类相应的一个得分，其中，依次选择M个类的每个类作为主导类，计算与每个主导类相应的得分。

5.如权利要求2所述的图像识别方法，其中，将相同类的得分加权的步骤包括：训练用于加权的权重，以最大化平均精度。

6.如权利要求5所述的图像识别方法，其中，训练用于加权的权重的步骤包括：

对权重向量e进行初始化，得到初始化的权重向量e₀，其中，向量e₀的各个元素的值相同；

使用当前的向量e_p计算平均精度E_p＝AP(e_p)，其中，AP()为计算平均精度的函数，其中，在执行初始化之后，当前向量e_p＝e₀；

获得步长向量б，通过将当前的向量e_p与步长向量б相加，得到新的向量e_new，其中，步长向量б的各个元素是预定数值范围内的随机数；

使用新的向量e_new再次计算平均精度E_new＝AP(e_new)；

如果E_new大于等于E_p，则e_p＝e_new，重复将当前的向量e_p改变步长б的步骤；

如果E_new小于E_p，则确定随机函数rand(E_p，E_new)是否大于0；

如果确定rand(E_p，E_new)大于0，则e_p＝e_new，重复将当前的向量e_p改变步长б的步骤；

如果确定rand(E_p，E_new)不大于0，则e_p保持不变，重复将当前的向量e_p改变步长б的步骤，

其中，随机函数rand(E_p，E_new)满足下面的条件：E_new越大，rand(E_p，E_new)＞0的概率越大；或者在E_new大于一阈值之后，E_new越大，rand(E_p，E_new)＞0的概率越大。

7.如权利要求6所述的图像识别方法，其中，当改变步长预定次数之后或者当E_new达到预定值时，将此时的e_p作为最终训练得到的权重向量e。

8.如权利要求3或4所述的图像识别方法，其中，根据主导类与M个类中的其他类之间的依存关系进行加权的步骤包括：训练用于加权的权重，以最大化平均精度。

9.如权利要求8所述的图像识别方法，其中，训练用于加权的权重的步骤包括：

对权重向量e进行初始化，得到初始化的权重向量e₀，其中，在向量e₀中，主导类的得分的权重被初始化为1，其他类的得分的权重被初始化为0；

使用新的向量e_new再次计算平均精度E_new＝AP(e_new)；

如果E_new小于E_p，则确定随机函数rand(E_p，E_new)是否大于0；

10.如权利要求9所述的图像识别方法，其中，当改变步长预定次数之后或者当E_new达到预定值时，将此时的e_p作为最终训练得到的权重向量e。

11.如权利要求1所述的图像识别方法，其中，从输入图像提取K种类型的特征的步骤包括：采用不同的特征点提取方法从输入图像提取特征点，利用至少一种特征描述方法对提取的特征点建立描述子，以提取K种类型的特征。

12.如权利要求1所述的图像识别方法，其中，利用支持向量机将各个分类器训练为一个线性分类器来实现对获得的预设的M类的得分的融合。

13.如权利要求1所述的图像识别方法，其中，所述融合的步骤包括：针对基于同一类型的特征训练的M个类的分类器的得分，从M个类中选择一个类作为主导类，根据主导类与M个类中的其他类之间的依存关系，对基于同一类型的特征训练的M个类的分类器的得分加权，将加权后的得分相加，以得到与主导类相应的一个得分，其中，依次选择M个类的每个类作为主导类，计算与每个主导类相应的得分，其中，对于每种类型的特征执行所述加权相加处理。

14.如权利要求14所述的图像识别方法，还包括：根据特征的类型，对所述融合的步骤的加权相加后的结果中相同类的各个得分加权，将相同类的加权后的得分相加，得到与M个类相应的M个得分。

15.一种图像识别设备，包括：

特征提取单元，从输入图像提取K种类型的特征，其中，K为大于1的自然数；

编码及汇聚单元，分别对提取的K种类型的特征进行编码，以获得用于表示输入图像的与K种类型相应的K个直方图；

分类单元，利用用于对预设的M个类进行分类的分类器对获得的K个直方图进行分类，以获得预设的M个类的得分，其中，针对K种类型的每种类型，训练用于对预设的M个类进行分类的分类器，来对相应类型的直方图进行分类，其中，M为大于1的自然数；

融合单元，对获得的预设的M个类的得分进行融合。

16.一种提供图像搜索服务的系统，所述系统包括权利要求15所述的图像识别设备，其中，所述图像识别设备对从网络上抓取的图像中的对象进行识别，以利用识别的结果来建立对抓取的图像的描述。

17.一种在数字电视中投放广告的系统，所述系统包括权利要求15所述的图像识别设备，其中，所述图像识别设备对用户当前观看的视频中的对象进行识别，以投放与识别的对象相关的广告。