CN103559504A

CN103559504A - 图像目标类别识别方法及装置

Info

Publication number: CN103559504A
Application number: CN201310537562.5A
Authority: CN
Inventors: 甘永洲; 邓正平
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Priority date: 2013-11-04
Filing date: 2013-11-04
Publication date: 2014-02-05
Anticipated expiration: 2033-11-04
Also published as: TW201523462A; RU2648946C2; RU2016122051A; AU2014344497B2; TWI537841B; CA2929180A1; US20160267359A1; WO2015062384A1; CA2929180C; CN103559504B; US10013636B2; AU2014344497A1

Abstract

本发明涉及图像目标类别识别方法及装置。该识别方法包括计算机离线自主学习的过程，主要包括如下步骤：图像特征的提取，聚类分析，以及获取目标类别平均量图像。此外，本发明的方法还包括在线自动类别识别过程。本发明可以明显减少识别过程中的计算量、减小计算误差、提高识别精确度。

Description

图像目标类别识别方法及装置

技术领域

本发明涉及计算机数字图像处理领域，尤其涉及一种新颖的图像目标类别识别方法及装置。

背景技术

随着数字媒体的发展，数字图像的数量呈指数增长；尤其在电子互联网中，借助待销售商品的图像来展示商品的各个细节，用具有丰富语义内容的图像来代替商品的细节描述，因此，图像的数量与日剧增。而如何将大规模的图像数据根据图像中所描述的商品进行自动分类成了亟待解决的问题。

现存的图像目标类别识别方法大多采用机器学习方法。在实际应用中，绝大多数学习模型中的参数是通过训练样本得到的，具有不确定性。同时分类模型因训练样本的差异会产生误差，对目标类别的归属存在误差和差错率。此外，部分目标识别框架采用了多层结构，虽然提高了识别的精度，但却需要大量的资源并耗费了大量的分类识别时间。

发明内容

本发明提供了一种新颖的图像目标类别识别方法和装置，旨在解决现有图像分类识别方法中存在的以下问题：1）现有的图像目标类别识别方法借助分类模型参数估计的方式，其参数是通过训练样本得到的，具有不确定性；2）分类模型因训练样本的差异会产生误差，对目标类别的归属存在误差和差错率，不能实现图像目标类别的精确识别；3）图像目标类别识别的精度低且速度慢。

本发明的方法和装置是从图像的底层视觉特征出发，所构建的学习模型能够寻找出每个目标类别图像中的普遍共性，同时也能将不同类别进行较大程度的区分，从而实现了图像目标类别的精确识别。同时还提升了图像目标类别识别的精度和速度。

本发明首先提取出所有样本图像的关键特征点，并借助聚类分析算法和搜索算法等手段，大大降低了计算量。进一步利用图像特征共性提取方法，在降低计算量的同时，又提高了图像识别精度。

本发明的技术解决方案如下。

本发明包括一种图像目标类别识别方法，包括如下步骤：

（S1）图像特征提取，利用特征点提取方法提取出已知N个类别中所有样本图像的特征点，其中N为大于1的自然数，每一类别都包含至少一幅样本图像，并建立已知类别-样本图像-特征点对应关系；

（S2）聚类分析，利用聚类算法对提取出的全部特征点进行聚类分析，并将这些特征点划分为N个子集；

（S3）确定目标类别，为每个所述子集确定目标类别C_n；

（S4）获取共性特征，利用搜索算法获取每个目标类别C_n中的各图像之间的共性特征，其中C_n为第n个目标类别，n为小于等于N的正整数。

在上述步骤S4之后还可以包括：在线图像识别和分类步骤S5，用于对待分类的图像进行识别和自动分类，所述在线图像识别和分类步骤S5包括：

S502：对待分类的图像执行如步骤S1同样的图像特征提取处理，提取出待分类图像的特征点；

S503：将所提取出的待分类图像中的特征点与所述n个目标类别中的所述每个目标类别C_n的每个所述共性特征进行比对，分别计算出待分类图像与每个目标类别之间的相似度；

S504：将待分类的图像归属于具有最大相似度的目标类别C_n。

本发明进一步包括一种图像目标类别识别装置，该装置包括：

图像特征提取单元，被构造为：利用特征点提取方法提取出已知N个类别中的所有样本图像的特征点，其中N为大于1的自然数，每一类别都包含至少一幅样本图像，并建立已知类别-样本图像-特征点对应关系；

聚类分析单元，被构造为：利用聚类算法对提取出的全部特征点进行聚类分析、并将这些特征点划分为N个子集；

确定单元，为每个所述子集确定目标类别C_n

获取单元，利用搜索算法搜获取每个目标类别C_n中包含各图像之间的共性特征，其中C_n为第n个目标类别，n为小于等于N的正整数。

本发明还涉及一种利用如权利要求1所述的图像目标类别识别方法对待分类图像进行自动分类的方法，包括如下步骤：

提取步骤，对待分类的图像经历与所述步骤S1相同的处理，提取出待分类图像的底层视觉特征；

比对计算步骤，利用图像相似度度量算法将所提取出的待分类图像中的各特征点与每个目标类别中的共用特征点集或与每个目标类别的平均量图像中的各特征点逐一进行比对，计算待分类图像中的特征点与每个目标类别中的特征点之间的相似度；

归类步骤，将待分类的图像归属于具有最大相似度的目标类别。

本发明又涉及一种图像识别系统，至少包括处理器，

所述处理器被构造为至少包括如下功能单元：

图像特征提取单元，被构造为利用特征点提取方法提取出已知N个类别中的所有样本图像的特征点，其中N为大于1的自然数，每一类别都包含至少一幅样本图像，并建立已知类别-样本图像-特征点对应关系；

聚类分析单元，被构造为利用聚类算法对提取出的全部特征点进行聚类分析，将这些特征点划分为N个子集；

确定单元，为每个所述子集确定目标类别C_n；

获取单元，利用搜索算法搜寻出每个目标类别C_n中包含各图像之间的共性特征，其中C_n为第n个目标类别，n为小于等于N的正整数。

本发明的实施例已经获得了如下有益效果：

1.计算机对样本图像的目标类别的特征进行自动提取和分析，自主学习和分类样本图像，并基于自主学习和分类的结果可以对待识别图像进行自动类别识别；

2.对目标类别代表图像的筛选，降低了目标类别中个别具有较大差异性的图像对整个目标类别识别的影响，同时也增强了对目标类别中共性图像的共性特征的提取。k叉树的构建思想，很大程度上保证了具有相似共性的目标类别之间的空间关联性；

3.通过学习目标类别平均量图像，不仅提高了识别的速度，同时在目标识别过程中，根据不同目标类别的特性来确定不同目标类别的阈值，很大程度上消除了采用统一的判定标准对部分目标类别的影响，减小了识别的误差，提高了识别的精度。

附图说明

图1为本发明的基于离线（第一部分）计算机自主学习模型的图像目标类别识别方法的主流程图；

图2为本发明执行图像预处理的流程图；

图3为本发明一实施例中图像底层视觉特征提取方法的详细流程图；

图4为本发明一实施例中聚类分析方法的详细流程图；

图5为本发明一实施例中步骤S3的详细流程图；

图6为本发明一实施例中步骤S4的详细流程图；

图7为本发明在线（第二部分）图像类别识别方法的主流程图；

图8为本发明图像目标类别识别装置的方框图；

图9为一具体的计算机离线自动图像识别的示例；

图10为包含本发明的图像目标类别识别装置的图像识别系统的方框图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及具体实施例，对本发明作进一步详细说明。附图中仅示出了本发明的典型实施方式，本发明可以不同的形式来实施，且不应理解为局限于这里示出或说明的各种具体实施方式。提供这些实施方式，只是使得该公开更加充分和全面。全文中，同样的附图标记对应同样的元件或要素。对于每个附图中相同的要素将不再重复说明。如在本文中所使用的“包含”和“包括”以及其变形的使用意味着包括其后列出的元素和其等同物以及额外的元素。

另外，应理解的是，本发明的实施例包括硬件、软件、固件和电子部件或模块等，它们为论述的目的可图示且描述为使部件的大部分唯一地实施在硬件内。然而，本领域普通技术人员基于在此的详细描述将认识到在至少一个实施例中，基于电子器件的本发明的某一方面可以以软件或固件的方式实施。也应注意的是，多个基于硬件、软件和固件的装置以及多个不同的结构部件可用于实施本发明。此外，如在随后的段落中所描述的，在附图中图示的特定的机械构造诣在例证本发明的实施例，且其他替代的构造也是可能的。

本领域技术人员使用在此提供的教导和编程语言及工具，诸如Java、Pascal、C++、C、数据库语言、API、SDK、汇编、固件、微码和/或其他语言及工具，能够容易地提供用于协助实现本发明的适当软件环境。

下面将具体结合图像处理的实施方式描述本发明的优选实施例。在实际应用中，本发明可以对彩色、黑白或灰度等各种图像进行处理。

本申请的方法可以分成两大部分。第一部分为计算机自主训练学习过程，第二部分为自动类别识别过程。这两部分都可以是离线或在线执行或实施的。这里所指的离线是指脱离网络系统，由计算机对图像进行目标类别的自主学习过程；而在线是指在实际应用中，特别是在网络应用环境中，对已经获得的待分类图像进行自动目标类别识别的过程。这两部分可以各自独立地分别执行。

在第一部分中，首先，从已经明确划分了已知类别（例如N个已知类别）的已知样本图像（产品或商品等）集中分别选取出针对每个类别具有代表性的样本图像集，每个样本图像集中都包括至少一幅包含有该已知类别典型特征的样本图像。通过让计算机分别对这些具有代表性的样本图像集进行解析，从中提取出每个已知类别样本图像集的特征共性，进而建立起已知类别-样本图像-特征共性这三者之间的对应关系，并依据这种对应关系，让计算机自主地搜寻（计算）出各个目标类别样本图像集的共性特征或其平均量图像。

在第二部分中，以第一部分中所获得的每个目标类别的共性特征或其平均量图像作为参与在线目标类别识别过程所使用的对照基准，从而对待分类图像进行自动类别识别。如果借助其他方法已经获得了每个目标类别样本图像集的共性特征，则可以省略第一部分，而直接执行第二部分的自动识别过程。

以下将详述每个部分的具体实施方式。

图1为本发明的图像目标类别识别方法中第一部分的主流程图。

在第一部分中，主要目的在于让计算机进行自主学习，从而自已知样本图像集中提取出每一类已知样本图像集的共性特征。该第一部分主要包括但不限于以下各步骤：图像特征提取步骤；聚类分析步骤；以及目标类别确定和共性特征点集搜索步骤等（参见图1）。

首先，已经借助人工或其他方式确定了N个（N为大于1的自然数）已知类别的图像集中的每个具体类别（例如电视、冰箱等），并且每个类别都有各自的图像集。每个图像集都包含至少一幅样本图像。由此可以构建出每个已知类别与各样本图像集乃至每幅图像之间的对应关系（后文称“已知类别-样本图像集对应关系表”）。

由于人眼对某一幅图像的主观判断和识别过程与计算机对同一幅图像的判断和识别原理完全不同，因此，两者的识别结果可能相去甚远。为了能够让计算机获得与人眼类似的识别效果，需要首先对计算机进行“训练”，让它能“学会”自主地对图像进行分类和识别。

为了训练计算机自主地学习每个已知类别图像集的共性特征，获得对每一已知类别图像的精确描述，本发明首先针对每一类样本图像集进行计算机分析，寻找（计算）出每一类已知样本图像集中每幅图像的特征描述。为此，本发明的第一部分可以包括但不限于如下步骤。

预处理步骤

在进行图像分析之前，为了减少计算量和/或去除图像中的噪声，往往需要先对图像进行必要的预处理。但预处理步骤并非是必须的，只要待分析的图像能够满足特征提取的要求，就可以省略该预处理步骤。请参见图2，以彩色图像为例，本实施例的图像预处理步骤包括但不限于：对图像进行等比缩放以减小计算量；利用滤波等手段去除部分或全部噪声；以及灰度化处理等。而在处理黑白图像时可以省略对图像的灰度化处理等步骤。

具体的预处理步骤可以采取如下子步骤来实现：

步骤S001：根据公式(1.1)完成彩色图像的等比缩放：

\{\begin{matrix} if (W > T) \\ scale = W / T, W^{'} = T, H^{'} = H / scale; \\ if (H > T) \\ scale = W / T, H^{'} = T, W^{'} = W / scale; \end{matrix} - - - (1.1)

其中W,H代表缩放前原图像的宽度和高度，W',H'代表等比缩放后图像的宽度和高度,scale代表缩放比例，T是进行等比缩放的阈值。在本发明中，当以像素为单位时，可以设置阈值T∈[500,800]。经过多次试验，发明人发现当阈值位于这个范围内时，其结果最优；特别是，当T＝600时，能够将图像缩放到合适的大小，且对进一步的图像处理和识别不会产生影响，同时还提高了计算的效率。

然后根据公式(1.2)对原图像进行x方向的线性插值，再根据公式(1.3)进行y方向的线性插值，得到等比缩放后的图像：

\begin{matrix} f (R_{1}) \approx \frac{x_{2} - x}{x_{2} - x_{1}} f (Q_{11}) + \frac{x - x_{1}}{x_{2} - x_{1}} f (Q_{21}), where R_{1} = (x, y_{1}); \\ f (R_{2}) \approx \frac{x_{2} - x}{x_{2} - x_{1}} f (Q_{12}) + \frac{x - x_{1}}{x_{2} - x_{1}} f (Q_{22}), where R_{2} = (x, y_{2}); \end{matrix} - - - (1.2)

f (P) \approx \frac{y_{2} - y}{y_{2} - y_{1}} f (R_{1}) + \frac{{y - y}_{1}}{y_{2} - y_{1}} f (R_{2}) - - - (1.3)

其中,R₁、R₂表示进行X方向线性插值后的像素点，x、y、x1、y1、x2、y2都表示图像中的像素点的坐标，f(*,*)表示像素的颜色值，Q₁₁＝(x₁,y₁)，Q₁₂＝(x₁,y₂)，Q₂₁＝(x₂,y₁)，Q₂₂＝(x₂,y₂)，它们表示参与缩放计算的原图像中的四个点，P表示经过Y方向线性插值后的点。在本实施例中，经过Y方向的线性插值之后即得到等比缩放后的图像。

步骤S002：对经过步骤S001等比缩放后的图像根据公式(1.4)进行如下的双边滤波处理：

h (x) = k^{- 1} (x) {&Integral;}_{- \infty}^{\infty} {&Integral;}_{- \infty}^{\infty} f (ξ) c (ξ, x) s (f (ξ), f (x)) dξ - - - (1.4)

其中f(x)为输入图像，h(x)为输出图像，c(ξ,x)度量临域中心x与其相邻点ξ的几何临近程度，s(f(ξ),f(x))度量了临域中心x与其相邻点ξ像素的光度相似性，k为归一化参数，在平滑的区域，双边滤波器表现为标准的网域滤波器，通过平滑处理过滤掉噪声，例如去除掉图像中显著的突变孤立像素点等。

然后根据公式(1.5)对彩色输入图像进行灰度化操作。该步骤在不使用SIFT算法时，可以省略。

Y＝0.299*R+0.587*G+0.114*B （1.5）

其中Y表示当前像素在转换后的像素值，R表示当前像素的红色值，G表示当前像素的绿色值，B表示当前像素的蓝色值。

可以采用现有技术中任何可以满足图像特征提取要求的预处理方法或装置来实现对图像的任何形式的预处理。

特征提取步骤S1

在选择性地对图像进行预处理之后，进入步骤S1（参见图1及图3）：提取出每一类已知样本图像集中每幅图像各自的特征描述。

具体到本发明的实施例，可以采用底层视觉特征提取的方法（参见图3），提取出(步骤S101)每个样本图像集的每幅图像中的每个关键特征点并计算出（获取）(步骤S102)每个关键特征点的向量描述——即描述子。在本实施例中，以SIFT算法为例描述了图像底层视觉特征的提取过程。

底层视觉特征提取步骤可以通过以下几个子步骤来实现：

步骤S101：对经预处理后的图像进行图像底层视觉特征的提取——例如，可以使用SIFT(Scale Invariant Feature Transform，尺度不变特性变换)算法进行底层视觉特征提取。SIFT算法是由D.G.Lowe1999年提出，2004年完善总结，论文发表在2004年的IJCV上：David G.Lowe,"Distinctive image features from scale-invariant keypoints",InternationalJournal of Computer Vision,60,2(2004),pp.91-110。在此通过引用和参考将其全部内容并入本文。

可以采用公知公用的方法来计算SIFT关键特征点以及关键特征点的描述子（即特征点的向量表达），而且步骤S101和S102可以在一个计算步骤或功能单元中一次完成。

通过底层视觉特征的提取，计算机借助相应的算法，例如SIFT算法，可以寻找（即计算）出每幅图像中具有显著特性的每个关键特征点以及与之相应的描述子。随后，基于先前已经建立的“已知类别-样本图像集”对应关系表，进一步建立(步骤S103)“已知类别-样本图像集-关键特征点（即描述子）”三者之间的对应关系（参见表1）。依据该对应关系（表），计算机可以确定每个类别乃至每幅样本图像中所包含的关键特征点及描述子的数量以及彼此之间的对应关系。该对应关系表也可以在计算每个关键特征点的同时或之后建立，因此，步骤S103也可以和步骤S101和/或步骤S102并行或顺次执行，并可以根据需要将该对应关系表存放在相应的存储器中。

表1

已知类别编号	样本图像集	关键特征点（描述子）
			C₁	I₁₁,I₁₂,I₁₃…	F₁₁₁,F₁₁₂,F₁₁₃…
C₂	I₂₁,I₂₂,I₂₃…	F₂₁₁,F₂₁₂,F₂₁₃…
			C₃	I₃₁,I₃₂,I₃₃…	F₃₁₁,F₃₁₂,F₃₁₃…
…	…	…
			C_n	I_n1,I_n2,I_n3…	F_n11,F_n12,F_n13…

其中，C_n表示第n个目标类别，C₁...C_n(n≤N)；

表示第n个目标类别中的第j幅图像（j是目标类别C_n中图像的数目）；F_nj1...F_njf表示每幅图像I_nj中第f个SIFT关键特征点，f为大于等于1的自然数。

在此，作为SIFT算法的替选方案，还可以使用其他的图像特征提取方法，例如SURF算法或PCA（Principal Component Analysis）-SIFT算法等，这些算法均可以适用于本发明。

聚类分析步骤S2

在提取出每幅样本图像的特征——底层视觉特征之后，进入步骤S2（参见图1）：聚类分析步骤。对已经从所有类别的全部样本图像集中提取出的所有的关键特征点（即描述子）进行聚类分析并构建树状结构。可以使用k叉树的结构来构建该树状结构。步骤S2可以通过如下具体方法来实现，参见图4。

借助聚类算法，将已经获得的所有目标类别的全部样本图像中包含的所有SIFT关键特征点聚类为预定数量的簇(步骤S201)。聚类的过程就是自适应地寻找出每个类别的普遍共性，同时也能将不同类别进行较大程度的区分。这里可以采用公知公用的聚类算法，例如k-means(k-均值)来实现。对于k-means聚类算法，可以参见以下文献：MacQueen,J.B.,Some methods for classification and analysis of multivariateobservations,in Proc.5th Berkeley Symp.Mathematical Statistics andProbability,1967,pp.281-297.。还可以参见以下各网址中的详细介绍，这些内容在此通过引用而并入本文。

1.http://www.cnblogs.com/jerrylead/archive/2011/04/06/2006910.html

2.http://wenku.baidu.com/view/179d21a4f524ccbff1218482.html

或者也可以采用其他聚类方法，只要能够在空间上将相邻的数据划分为同一类别的聚类方法都可以适用于本发明。可替选的聚类算法包括但不限于：k-modes算法，k-Prototype算法，分层次聚类法、最大距离样本法、蚁群聚类算法、模糊聚类算法等。

在此，本发明以k-means算法为例来描述聚类过程。k-means算法根据预先设定的k值，将n个数据对象划分为k个聚类，即k个簇，以便使得所获得的聚类满足：同一聚类中的对象相似度较高；而不同聚类中的对象相似度较低。聚类相似度是借助各聚类中数据对象的均值所获得的一个“中心对象”（引力中心）来进行计算的。例如，本发明中，已知并预先设定的目标类别数为N，则k的范围为k∈（1，N），或k小于参与聚类的总特征点数。在本实施例中选择k∈（1,10），通常不大于10。k的选取，可以根据实际需求通过经验或者试验调整获得的最佳值来确定。

k-means算法的工作过程如下：首先从x个数据对象任意选择k个对象作为初始聚类中心；而对剩下的其它数据对象，则根据它们与这些聚类中心的相似度（空间距离），分别将它们分配给与其最相似的（空间距离最接近的）聚类中心。

具体到本发明的实施例来说，对从所有图像中提取出的全部关键特征点的描述子的集合进行聚类分析。这里，在k-means聚类的起始阶段，可以先随机地确定聚类中心，例如当选取k=2时，随机地任意选择两个关键特征点的描述子作为初始的聚类中心。可以通过计算新近加入的关键特征点的描述子与预先选定的两个初始聚类中心之间的欧式距离，将新近加入的关键特征点的描述子归属到具有最小欧式距离的一类（即簇）中。如此，例如通过迭代的方法，遍历所有的特征点，直到所有的特征点或描述子都参与了聚类为止，最终将提取出的全部关键特征点分别以这两个初始的聚类中心聚类为两个簇。然后，分别对这两个簇重新计算各簇中所有描述子的均值（描述子向量的均值），从而获得新的聚类中心。进一步，将新获得的聚类中心与之前（相邻的前一次）的聚类中心进行比较，计算两者之间的差（例如方差），当差值为0或达到预定的阈值时，则可以终止聚类的过程。否则，可以以当前迭代过程所确定的新的聚类中心作为下一次迭代的初始聚类中心来不断地重新调整聚类中心。重复上述迭代或聚类过程，直到聚类中心不再变化或变化很小（即满足预设的阈值）为止。

具体地，可以使用标准测度函数来确定迭代过程是否满足收敛条件，来判断迭代过程是否可以终止。在本发明的实施例中，当k=2时，可以将标准测度函数定义为：对每个SIFT描述子分量与所得到的聚类中心描述子各对应分量之间差的绝对值求和，当总和大于某值或者聚类迭代次数大于预定的次数时，聚类迭代过程终止。

为了减少计算的时间复杂度，还可以选择标准测度函数为：计算每个类别当前的聚类中心与上一次聚类中心的差的绝对值，然后计算所有类别差的绝对值的和，当这个和小于某一阈值时，迭代终止。

可以在执行聚类算法的同时或之后构建关键特征点（或描述子）的树状结构(步骤S202)，即k叉树的构建。因此，可以在具体实施例中将步骤S201和S202合并在一个步骤或功能模块中来实现步骤S2的聚类分析功能。

具体到一实施例，以k=2（即二叉树）为例，将所有目标类别的样本图像的底层视觉特征——即上述实施例中的SIFT关键特征点构成为二叉树的根节点n1，并对n1中的所有关键特征点进行如上所述的聚类分析。

将聚类后节点n1中关键特征点数较多的聚类集合作为根节点n1的左孩子n2，而将该节点中关键特征点数较少的聚类集合作为n1的右孩子n3。以此类推，分别对n2和n3执行进一步的聚类分析，直到二叉树的叶子节点数等于已知且预先设定的目标类别的总数N，即，使得最终叶子节点的数目为N。换句话说，将所有目标类别中的所有图像的全部关键特征点划分为N个子集。

以k=2为例，最终所构建的二叉树结构图如下所示：

假定经过步骤S2所构建的k叉树的各节点的表达如下：

ni(C₁,I₁₁,F₁₁₁...F_11f,f₁₁,...,I_1j,F_1j1...F_1jf,f_1j;...;C_n,I_n1,F_n11...F_n1f,f_n1,...,I_nj,F_nj1...F_njf,f_nj)

其中ni表示k叉树的第i个叶子节点，节点中所存储的SIFT关键特征点所表示的目标类别为C₁...C_n(n≤N)，每个目标类别中的图像表示为I_n1...I_nj（j是目标类别C_n中图像的数目），每幅图像I_nj中聚类为节点ni的SIFT关键特征点为F_nj1...F_njf，f_nj为第n（1≤n≤N）个目标类别（即C_n）中第j幅图像中被聚类为第ni个叶子节点的SIFT关键特征点数。

如此，已经将所有样本图像中的全部关键特征点分配到或划分成这N个叶子节点或子集中。这N个叶子节点之间彼此不含重复的关键特征点，即两两叶子节点之间没有交集，但每一叶子节点中可能混杂或包含了其他类别图像的关键特征点。

目标类别确定和共性特征点集搜索步骤S3

为了能从各个节点ni中去除不属于该类别的图像，以便准确地限定样本图像的所属类别，本发明还包括了确定目标类别和搜索每个目标类别中所包含的各图像的共性特征的步骤S3（参见图1）。

以下将结合图5描述步骤S3的具体实现方法或步骤。

步骤S3（目标类别的确定）：结合在前面的步骤中已经获得的“已知类别-样本图像集-关键特征点及描述子”对应关系表，对前述步骤S2中所获得的树状结构的每个叶子节点或子集进行分析，确定每个叶子节点应当归属的类别，以便从中去除不属于该目标类别的那些图像。

具体实现过程如下：根据在先前的步骤中获得的“已知类别-样本图像集-关键特征点或描述子对应关系（表1）”，对每个叶子节点分别计算或统计出分配在第ni个叶子节点中分属于不同已知类别的SIFT关键特征点总数（S301）：

class_number_SIFT(C_n)＝f_n1+f_n2+...+f_nj

再次对照已知类别-样本图像集-关键特征点及描述子对应关系，获得每个叶子节点中SIFT关键特征点总数最多的类别为：

node_class_label(ni)＝max(class_number_SIFT(C_n))

用该叶子节点中关键特征点总数最多的类别标记或确定该目标类别C_n（S302）。若该类别之前已经被标记或已经分配给了其他的叶子节点，则选择SIFT关键特征点总数次多的类别进行标记。以此类推，分别对每个叶子节点进行类别的标记。例如，假定某一叶子节点中所涉及的已知类别编号为1.5.8.9，这些相应类别中所对应包含的图像SIFT特征点总数分别为10.25.15.35，则根据SIFT特征点总数排序后为9(35).5(25).8(15).1(10)。由此，将特征点数最多的类别编号(即“9”)分配给或标记该叶子节点。但是，如果类别编号9已经在之前分配给了其它的叶子节点，那么这里就顺次地将类别编号5（即关键特征点总数次多）分配给当前的叶子节点，假设编号5也已经被分配给了其它的叶子节点，则选择编号8标记该叶子节点。依此类推，直到对所有的叶子节点都进行了标记。

现在已经为每个目标类别C_n标记或确定了其所归属的类别，然而，在实际应用中，常常会出现目标类别的图像子集中包含了不止一幅图像，而且某幅样本图像包含了某些冗余的特征元素。例如，在已经训练获得的“电脑”类的样本图像集中，与其他“电脑”样本图像不同的是，在其中的一幅“电脑”样本图像中还包含了“音箱”的冗余特征元素。即，在经过聚类分析的过程中，在每个目标类别中都不可避免地混入了某些不能代表该目标类别主要特征的一些冗余的关键特征点或元素。此外，即使对于同一类别中的图像，由于拍摄角度、光线等因素的干扰，使得对相同特征点的描述也存在差异。而这些因素都会影响计算机对图像的正确分类和自动识别。

为此，计算机还必须明确每一类别图像的共性特征，以尽可能地消除这些干扰因素的影响。

为此，本发明进一步包括步骤S4：获取每个目标类别C_n中所包含的各图像之间的共性特征。

结合图6描述步骤S4。具体地，步骤S4至少包括：提取出每个目标类别C_n的各图像之间具有共性特征的共有特征点的集合（以下称共有特征点集）（步骤S401）、和/或进一步借助“已知类别-样本图像集-关键特征点及描述子”对应关系表映射出与这些共性特征相对应的具有代表性的典型图像（步骤S402），从而不仅能够使得计算机明确每个目标类别C_n的共性特征，为人工确认该目标类别C_n的计算机自主识别是否正确提供了依据，还能够为此后的在线目标类别的精确识别提供更准确且最优化的比对基准，同时大大减少了计算量。

首先，选择每个叶子节点中标记为类别C_n所对应的图像集，这个图像集的表达方式如下：

I(C_n)＝{I_n1,I_n2,...,I_nj}

步骤S401：寻找出每个目标类别C_n中的共性特征。当选用图像的底层视觉特征作为图像的描述时，可以通过选择每个目标类别C_n中各幅图像之间共有的关键特征点的集合来表达该目标类别的共性特征。为了减少计算或搜索量，可以通过如下步骤先确定每个目标类别C_n中需要搜寻的共有特征点的最少数量。

各图像对应的SIFT关键特征点以及特征点数的数量表示如下：

I(C_n)＝{I_n1,F_n11...F_n1f,f_n1,...,I_nj,F_nj1...F_njf,f_nj}

其中f_nj为图像I_nj中被标记为C_n的SIFT关键特征点的数量。

由于每一目标类别C_n中各幅图像之间的共有特征点的数量必然小于或等于具有最少特征点数的那副图像中所包含的特征点的数量，因此可以通过如下简化的方式来实现对共有特征点数量最小值K(C_n)的确定。例如，结合“已知类别-样本图像集-关键特征点及描述子对应关系”，统计出每个目标类别C_n中每幅图像被标记为类别C_n的SIFT关键特征点数的数量，然后取其中的最小值：

K(C_n)＝min(f_n1,f_n2,..,f_nj)

由此可以先从数量上确定该目标类别（或图像集I(C_n)）中具有共性特征的关键特征点的数量范围。然而，通过以上步骤仅仅能明确每个类别C_n中所包含的共有特征点的数量，还无法确定这些特征点以及它们各自所归属的图像。

可以借助搜索算法，例如可以采用KNN（k-Nearest Neighboralgorithm）最邻近搜索算法（Hastie,T.and Tibshirani,R.1996.DiscriminantAdaptive Nearest Neighbor Classification.IEEE Trans.Pattern Anal.Mach.Intell.(TPAMI).18,6(Jun.1996),607-616.，在此通过引用并入本文），寻找出每个目标类别C_n中所包含各图像之间具有共性特征的共有特征点集以及这些共有特征点所对应的图像集合。

以KNN搜索算法为例的具体实现步骤如下。假设，在上述步骤中所获得的代表图像集I(C_n)＝{I_n1,I_n2,...,I_nj}中已经标记为类别C_n中所包含的所有SIFT特征点集的矢量中心为centre(C_n)。可以通过计算代表图像集中被标记的所有SIFT特征点描述子的平均矢量来获得该矢量中心：

centre (C_{n}) = \frac{1}{(f_{n 1} + f_{n 2} + . . . + f_{nj})} (F_{n 11} + . . . + F_{n 1 f} + . . . + F_{nj 1} + . . . + F_{njf})

计算（步骤S401）目标类别的代表图像集中被标记的SIFT关键特征点的描述子与矢量中心centre(C_n)的欧式距离Dis(F_njf,centre(C_n))；

可以采用公知公用的KNN最邻近搜索算法、或其他常用的排序算法来获得距离矢量中心centre(C_n)最近的K(C_n)个SIFT关键特征点，记为KNN(F)，从而寻找出最靠近矢量中心centre(C_n)的K(C_n)个特征点。借助先前获得的“已知类别-样本图像集-关键特征点及描述子”对应关系，就可以确定并找到这K(C_n)个关键特征点以及它们分属的各样本图像。

至此，通过以上算法，就可以获得每个目标类别C_n中包含的各幅图像之间具有共性特征的共有特征点的集合（或称目标类别C_n的共有特征点集）。可以直接将这些集合作为后续步骤S5中的比对依据或基础。

然而，有时为了验证计算机自主学习的正确性，或者为了直观地比对图像等目的，需要找出对应于K(C_n)个关键特征点的各样本图像的集合或其最大子集。为此，本发明还包括步骤S402：基于已经在上述步骤中找出的K(C_n)个关键特征点和“已知类别-样本图像-特征点对应关系”，从所述目标类别C_n的样本图像集中进一步寻找出包含所述K(C_n)个特征点的图像的集合或其最大子集，从而将包含这K(C_n)个关键特征点最大子集的样本图像作为机器自主学习得到的该目标类别的平均量图像或图像集。

此外，但并非必要的是，还可以获取这K(C_n)个共有特征点中距离该目标类别的矢量中心centre(C_n)的最小距离（min_dis(C_n)），以该最小距离作为后续步骤S5中用于界定比对图像相似度阈值范围的依据。其中距离表示空间中各点之间的相近程度，而最小距离表示该图像最能描述该目标类别的普遍共性。该最小距离表示为：

min_dis(C_n)＝min(Dis(F_njf,centre(ni)))

通过以上第一部分的离线处理，借助对一定量的已知图像进行离线样本训练，计算机已经自主地完成了对目标类别的识别过程，并从所有样本图像中提取出了每个目标类别C_n中所包含的各图像之间具有共性特征的共有特征点的集合、以及相应的平均量图像或图像集。这些平均量图像或图像集将作为后面的在线目标类别识别（即第二部分）过程的基础和依据。

第二部分：在线图像识别和分类。图7示出了步骤S5的一种实施方式。

在已经获得了每个目标类别C_n中所包含的各图像之间的共有特征点集、或者相应的平均量图像或图像集之后，可以将该共有特征点集或平均量图像连接到相应的网络上或放在任何需要的平台或位置，来进一步实现对待分类图像的自动识别。

举例来说，假设通过网络或通过其他手段获得了一幅新的待分类图像，该新的图像还没有被分类或被识别出所应归属的类别，而希望将该待分类的图像自动归类为上述已知的N类图像（或N种商品）中。

为此，本发明首先对该新的待分类图像执行与上述第一部分处理中的预处理步骤和图像特征提取步骤S1相同的处理。具体来说，参见图7，可选地执行步骤S501：如果需要，则对该新的图像执行与前述步骤S001-S003相同的预处理。

步骤S502：利用与第一部分的步骤S1中使用的相同的图像特征提取方法从该待分类的图像中提取出底层视觉特征，即提取出待分类的图像的关键特征点及描述子。

步骤S503：将待分类图像与通过上述第一部分获得的每个目标类别的共性特征进行比对，分别确定（计算）它们之间的相似度。随后将待分类的图像分配给（归属于）具有最大相似度的目标类别（步骤S504）。

具体来说，可以将所提取出的待分类的图像的关键特征点及描述子与先前获得的各目标类别的共有特征点集直接比对、或与每个目标类别的平均量图像中的关键特征点进行比对，度量出待分类的图像与每个样本图像之间的相似度，并将该待分类的图像分配到具有最大相似度的类别中。

具体到本发明，如果使用的是SIFT算法并利用欧式距离来度量相似度，并且当选取各目标类别的共有特征点集作为比对的基础时，则将从待分类图像中提取出的所有SIFT关键特征点与各目标类别的共有特征点集中包含的每个SIFT关键特征点逐一地进行比对、计算它们之间的欧式距离Dis(F_Ri,F_Ai)，其中F_Ri是待识别图像中第i个SIFT关键特征点，F_Ai是目标类别的共有特征点集中的第i个SIFT关键特征点。

直接选取各目标类别的共有特征点集作为比对基础的优点在于，可以大大减少计算量，缩短计算时间。然而，问题在于，由于共有特征点集是对该目标类别共有特性的精炼化的描述，因此，很可能去除了大量本应当属于该类别的特征点。例如，由于拍摄角度、光线等因素的干扰，使得对图像中本属于相同特征的特征点的描述存在差异，而这些特征点并未纳入共有特征点集中，进而会影响到计算机对待分类图像的正确分类和识别。

因此，本发明优选的是将待分类图像与每个目标类别的平均量图像或图像集进行比较，而不是使用各目标类别的共有特征点集作为比对基础。这时将从待分类图像中提取出的所有SIFT关键特征点与各目标类别中的平均量图像中每幅图像中的全部SIFT关键特征点（即每幅图像中的关键特征点的全集）逐一进行比对、并计算它们之间的欧式距离Dis(F_Ri,F_Ai)，其中F_Ri是待识别图像中第i个SIFT关键特征点，F_Ai是目标类别的平均量图像中第i个SIFT关键特征点。

随后统计满足阈值条件的关键特征点的数目，满足预定条件的特征点数最多的类别即可以确定为该待分类图像所归属的类别。

具体实现过程可以表示如下：

（1）对于第n个目标类别C_n，若Dis(F_Ri,F_Ai)＜T1，其中T1为预设的阈值，则该类别的得分值score(C_n)加1，其中T1＝ε*min_dis(C_n)。在此，ε表示权重，该权重值主要是为了减少计算量而设定的，因此权重值ε并非是必要的，只要计算量不是很大，就可以省略ε；而min_dis(C_n)是先前在步骤S402之后获得的距离矢量中心centre(C_n)的最小距离。本发明中是根据实验获取权重ε的最佳值。实验的过程中发现当ε∈[1.5,2.3]时，达到的效果较好。在本发明的更优选实施例中，当选取ε＝1.8时，能得到较高的识别精度。

（2）而后对每个目标类别，若score(C_n)＞K(C_n)时，则该类别即作为待识别图像的候选识别类别。最后对score(C_n)进行降序排列，排在最前面的目标列别即为待识别图像中目标对象的类别。

还可以选用以其他方式预先设定或获取的其他最小距离来替换与矢量中心centre(C_n)的最小距离min_dis(C_n)，作为上述距离比较的基准。例如，可以选取待分类图像中的每个特征点与共有特征点集中的每个特征点或平均量图像中的每个特征点中欧式距离Dis(F_Ri,F_Ai)的最小值来替换min_dis(C_n)，该最小值可以为0或非零的值。

只要能够精确地度量出图像之间的相似度，也可以使用其他度量图像相似度的方法。例如，可以选择马氏距离、城市距离等来替换前面提及的欧氏距离计算方法。

图8示出了本发明相应的图像目标类别识别装置实施方式的一个实施例。该图像目标类别识别装置1包括：

图像特征提取单元2，被构造为利用特征点提取方法提取出已知N个类别中的所有样本图像的特征点，其中N为大于1的自然数，每一类别都包含至少一幅样本图像，并建立已知类别-样本图像-特征点对应关系；

聚类分析单元3，被构造为利用聚类算法对提取出的全部特征点进行聚类分析，并将这些特征点划分为N个子集；

确定单元4，被构造为为每个所述子集确定目标类别C_n；

获取单元5，利用搜索算法搜寻出每个目标类别C_n中所包含的各图像之间的共性特征，其中C_n为第n个目标类别，n为小于等于N的正整数。

此外，所述确定单元4被构造为至少包括以下模块：统计模块41，用于对所述N个子集的每个子集中分属于不同已知类别的特征点的数量进行统计；以及确定模块42，将包含特征点数最多的已知类别确定为该目标类别C_n。

获取单元5被构造为至少包括以下模块：搜索模块51，用于借助搜索算法寻找出每个目标类别C_n中所包含的各图像之间具有共性特征的所述共有特征点集，从而去除不属于该目标类别C_n的冗余特征点。

优选地，所述获取单元5还被构造为包括：映射模块52，用于借助所述已知类别-样本图像-特征点对应关系，从所述每个目标类别C_n中映射出包含所述共有特征点集中的共有特征点的数量最多的那些样本图像，将这些图像作为该目标类别C_n的平均量图像。

图9示出了一个具体的图像识别的示意性比对结果，其中包含了人工和计算机识别结果。本发明第一部分的图像目标类别识别过程与之类似。其中最上排从左至右的三个方框所代表的区域分别是：1.需要计算机自主进行目标类别识别的图像（包含背景的飞机），2.人工识别该图像的类别及特征（关键字）提取结果，3.通过计算机算法自主学习而识别出的目标类别及相应的特征（关键字）提取结果。

图10示出了包括本发明上述图像目标类别识别装置的图像识别系统100的一种示例性实施方式的框图。该系统100至少包括：图像特征提取单元200、聚类分析单元300、确定单元400、以及获取单元500，其中确定单元400可以包括至少如下功能模块：统计模块和确定模块。获取单元可以包括至少：搜索模块和/或映射模块等。这些单元或模块分别实现了如图8中所示的各单元的功能，在此不再重复说明。

此外，为了实现本发明第二部分的自动类别识别功能，上述图像识别系统100还可以包括：比对计算单元600，利用图像相似度度量算法将由所述图像特征提取单元200从待分类图像中提取出的特征点与每个目标类别中的共用特征点集或与每个目标类别的平均量图像中的各特征点逐一比对，计算待分类图像中的特征点与每个目标类别中的特征点之间的相似度；以及归类单元700，用于将待分类的图像归属于具有最大相似度的目标类别C_n。

所述系统100至少包括一处理器，所述处理器可以被编程用以执行上述所述的图像目标类别识别方法。或者所述处理器可以包含实现上述各功能模块和/或这些功能模块之间的组合的软件、固件或硬件和/或它们的组合。

本发明的实施例已经在Windows提供的visual studio2010编译平台完全实现。可以用于网络营销等目的的应用，或者其他需要对图像进行分类的应用中。

以上所述仅为本发明的优选实施例，并非用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种图像目标类别识别方法，包括如下步骤：

（S3）确定目标类别，为每个所述子集确定目标类别C_n；

2.如权利要求1所述的方法，其中，所述步骤S1至少包括如下子步骤：

S101，提取每幅样本图像的底层视觉特征中的所述特征点；

S102，获取每个所述特征点的向量描述；

S103，建立已知类别-样本图像-特征点对应关系。

3.如权利要求2所述的方法，其中，所述步骤S2至少包括如下子步骤：

S201：借助所述聚类算法将提取出的所有特征点聚类为预定数量的簇；

S202：将这些簇构建为k叉树结构，其中k为正整数，且k∈（1，N）。

4.如权利要求3所述的方法，其中，所述步骤S3至少包括如下子步骤：

S301：对所述N个子集的每个子集中分属于不同已知类别的特征点的数量进行统计；

S302：将包含特征点数最多的已知类别确定为该目标类别C_n。

5.如权利要求4所述的方法，其中，所述步骤S4至少包括如下子步骤：

S401：借助搜索算法搜寻出每个目标类别C_n中所包含的各图像之间具有共性特征的共有特征点集。

6.如权利要求5所述的方法，其中，在所述步骤S401之后还包括：

S402：借助所述已知类别-样本图像-特征点对应关系，根据搜寻出的所述共有特征点集，从所述每个目标类别C_n中进一步映射出包含所述共有特征点集中的共有特征点的数量最多的那些样本图像，将这些样本图像作为该目标类别C_n的平均量图像。

7.如权利要求5所述的方法，其中所述共有特征点集中的共有特征点的数量（K(C_n)）是根据该目标类别C_n中具有最少特征点数的图像的特征点数来确定的。

8.如权利要求1-7之一所述的方法，其中在步骤S4之后还包括：在线图像识别和分类步骤S5，用于对待分类的图像进行识别和自动分类，所述在线图像识别和分类步骤S5包括：

S504：将待分类的图像归属于具有最大相似度的目标类别C_n。

9.如权利要求1-7之一所述的方法，其中在所述步骤S4之后还包括：在线图像识别和分类步骤S5，用于对待分类的图像进行识别和自动分类，所述在线图像识别和分类步骤S5包括：

S503’：将所提取出的待分类图像中的各特征点与所述目标类别的平均量图像中的各特征点进行逐一比对，计算待分类图像与每个目标类别的平均量图像之间的相似度；

S504：将待分类的图像归属于具有最大相似度的目标类别C_n。

10.如权利要求1-7之一所述的方法，其中，在步骤S1之前还包括对每幅图像进行图像预处理的步骤，所述图像预处理步骤包括：

S001，对图像进行等比缩放；

S002，对等比缩放后的图像进行滤波处理，以去除噪声；

S003，对滤波处理后的图像进行灰度化处理。

11.如权利要求1-7之一所述的方法，其中，

所述特征点提取方法是SIFT算法，通过SIFT算法提取出每幅图像的SIFT关键特征点以及各个关键特征点的SIFT描述子；

所述聚类算法是k-means算法，并通过构建k叉树来将所述关键特征点划分为所述N个子集，其中k为正整数，且k∈（1，N）；

所述搜索算法是KNN最邻近搜索算法。

12.一种图像目标类别识别装置，包括：

确定单元，为每个所述子集确定目标类别C_n

13.如权利要求12所述的装置，其中，确定单元至少包括以下子模块：

统计模块，用于对所述N个子集的每个子集中分属于不同已知类别的特征点的数量进行统计；

确定模块，将包含特征点数最多的已知类别确定为该目标类别C_n。

14.如权利要求13所述的装置，其中，获取单元至少包括以下子模块：

搜索模块，用于借助搜索算法搜寻出每个目标类别C_n中所包含的各图像之间具有共性特征的共有特征点集。

15.如权利要求14所述的装置，其中，所述获取单元还包括：

映射模块，用于借助所述已知类别-样本图像-特征点对应关系，从所述每个目标类别C_n中映射出包含所述共有特征点集中的共有特征点的数量最多的那些样本图像，将这些图像作为该目标类别C_n的平均量图像。

16.一种利用如权利要求1所述的图像目标类别识别方法对待分类图像进行自动分类的方法，包括如下步骤：

17.一种图像识别系统，至少包括处理器，

所述处理器被构造为至少包括如下功能单元：

确定单元，为每个所述子集确定目标类别C_n；

18.如权利要求17所述的系统，其中，所述确定单元被构造为至少包括以下模块：

统计模块，用于对所述N个子集的每个子集中分属于不同目标类别C_n的特征点的数量进行统计；

确定模块，以包含特征点数最多的目标类别标记该目标类别C_n。

19.如权利要求18所述的系统，其中，所述获取单元被构造为至少包括以下模块：

搜索模块，用于借助搜索算法寻找出每个目标类别C_n中所包含的各图像之间具有共性特征的所述共有特征点集。

20.如权利要求19所述的系统，其中，所述获取单元还被构造为至少包括：

映射模块，借助所述已知类别-样本图像-特征点对应关系，根据搜索出的所述共有特征点集，从所述每个目标类别C_n中进一步映射出包含所述共有特征点集中的共有特征点的数量最多的那些样本图像，将这些样本图像作为该目标类别C_n的平均量图像。

21.如权利要求17-20之一所述的系统，

其中所述图像特征提取单元还用于提取待分类图像中的特征点；

所述处理器被构造为还包括：

比对计算单元，利用图像相似度度量算法将所提取出的待分类图像中的各特征点与每个目标类别中的共用特征点集或与每个目标类别的平均量图像中的各特征点逐一进行比对，计算待分类图像中的特征点与每个目标类别中的特征点之间的相似度；以及

归类单元：用于将待分类的图像归属于具有最大相似度的目标类别C_n。