CN104680123A

CN104680123A - 对象识别装置、对象识别方法和程序

Info

Publication number: CN104680123A
Application number: CN201310667202.7A
Authority: CN
Inventors: 刘伟; 范伟; 何源; 孙俊; 皆川明洋; 堀田悦伸
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2013-11-26
Filing date: 2013-11-26
Publication date: 2015-06-03

Abstract

本申请公开了一种识别输入图像中的对象的装置、方法和程序，该装置包括：图像特征提取单元，被配置为提取所述输入图像中的待识别对象的图像特征；主题获取单元，被配置为基于所述图像特征采用生成主题模型获得与所述待识别对象有关的主题；语义主题模型生成单元，被配置为基于图像特征和主题生成与待识别对象有关的语义主题模型，其中，语义主题模型包括图像特征的分布以及各个图像特征相对于各个主题的分布。

Description

对象识别装置、对象识别方法和程序

技术领域

本申请涉及图像处理领域，具体地涉及识别图像中的对象。更具体地，本申请涉及一种对象识别装置和方法以及程序。

背景技术

识别图像中的对象对于人机交互、自动控制等应用有着重要的意义。例如，可以通过识别图像或视频输入中的人的手势来进行各种控制或触发各种应用。在人机交互中，手势是一种重要的媒介，可以解除人们对于传统输入输出方式的束缚，提供扩展性的手段。

但是，在实际应用中，有些对象具有形态多变的特性，比如手势在不同的图像中可以具有任意的形状。在这种情况下，同为对象的个体差异较大，在识别时往往需要将对象分为若干大的类别而不完全局限于细节。因此，期望提供一种准确的识别装置和方法。

发明内容

在下文中给出了关于本发明的简要概述，以便提供关于本发明的某些方面的基本理解。应当理解，这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分，也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念，以此作为稍后论述的更详细描述的前序。

鉴于背景技术部分所述的需求，本发明关注于如何识别图像中的形状多变的对象。具体地，本发明提出了一种通过利用包括图像特征的分布和图像特征相对于隐主题的分布的语义主题模型进行分类的对象识别装置和方法，由于其有效利用了图像特征相对于隐主题的分布信息，因此可获得更好的分类效果。

根据本发明的一个方面，提供了一种识别输入图像中的对象的对象识别装置，包括：图像特征提取单元，被配置为提取输入图像中的待识别对象的图像特征；主题获取单元，被配置为基于图像特征采用生成主题模型获得与待识别对象有关的主题；语义主题模型生成单元，被配置为基于图像特征和主题生成与待识别对象有关的语义主题模型，其中，语义主题模型包括图像特征的分布以及各个图像特征相对于各个主题的分布；分类器，被配置为对语义主题模型进行分类，以便确定输入图像中是否存在待识别对象。

根据本发明的另一个方面，提供了一种识别输入图像中的对象的对象识别方法，包括：提取输入图像中的待识别对象的图像特征；基于图像特征采用生成主题模型获得与待识别对象有关的主题；基于图像特征和主题生成与待识别对象有关的语义主题模型，其中，语义主题模型包括图像特征的分布以及各个图像特征相对于各个主题的分布；采用预定的分类器对语义主题模型进行分类，以便确定输入图像中是否存在待识别对象。

依据本发明的其它方面，还提供了相应的计算机程序代码、计算机可读存储介质和计算机程序产品。

通过以下结合附图对本发明的优选实施例的详细说明，本发明的这些以及其他优点将更加明显。

附图说明

为了进一步阐述本申请的以上和其它优点和特征，下面结合附图对本申请的具体实施方式作进一步详细的说明。所述附图连同下面的详细说明一起包含在本说明书中并且形成本说明书的一部分。具有相同的功能和结构的元件用相同的参考标号表示。应当理解，这些附图仅描述本申请的典型示例，而不应看作是对本申请的范围的限定。在附图中：

图1是示出了根据本申请的一个实施例的对象识别装置的配置的图；

图2示出了潜在狄利克雷分配模型的示意图；

图3是示出了根据本申请的另一个实施例的对象识别装置的配置的图；

图4是根据本申请的一个实施例的对象识别装置获得的语义主题模型的矩阵表示的一个示例；

图5是示出了根据本申请的又一个实施例的对象识别装置的配置的图；

图6是示出了根据本申请的一个实施例的分割单元的配置的图；

图7是示出了输入图像以及对该输入图像进行分割的示例的图；

图8是示出了从图7的输入图像中分割获得的手的候选区域的示例的图；

图9是示出了基于二维高斯分布对图8的手的候选区域进行特征点采样的示意图；

图10是示出了根据本申请的一个实施例的对象识别方法的流程图；

图11是示出了根据本申请的另一个实施例的对象识别方法的流程图；

图12是示出了根据本申请的又一个实施例的对象识别方法的流程图；

图13是示出了根据本申请的一个实施例的分割步骤的流程图；以及

图14是其中可以实现根据本发明的实施例的方法和/或装置的通用个人计算机的示例性结构的框图。

具体实施方式

在下文中将结合附图对本发明的示范性实施例进行描述。为了清楚和简明起见，在说明书中并未描述实际实施方式的所有特征。然而，应该了解，在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定，以便实现开发人员的具体目标，例如，符合与系统及业务相关的那些限制条件，并且这些限制条件可能会随着实施方式的不同而有所改变。此外，还应该了解，虽然开发工作有可能是非常复杂和费时的，但对得益于本公开内容的本领域技术人员来说，这种开发工作仅仅是例行的任务。

在此，还需要说明的一点是，为了避免因不必要的细节而模糊了本发明，在附图中仅仅示出了与根据本发明的方案密切相关的设备结构和/或处理步骤，而省略了与本发明关系不大的其他细节。

下文中的描述按如下顺序进行：

1.对象识别装置

2.对象识别方法

3.用以实施本申请的装置和方法的计算设备

[1.对象识别装置]

首先参照图1描述根据本申请的一个实施例的对象识别装置100的结构和功能。如图1所示，对象识别装置100包括：图像特征提取单元101，被配置为提取输入图像中的待识别对象的图像特征；主题获取单元102，被配置为基于图像特征采用生成主题模型获得与待识别对象有关的主题；语义主题模型生成单元103，被配置为基于图像特征和主题生成与待识别对象有关的语义主题模型，其中，语义主题模型包括图像特征的分布以及各个图像特征相对于各个主题的分布；分类器104，被配置为对语义主题模型进行分类，以便确定输入图像中是否存在待识别对象。

具体地，对象识别装置100对输入的输入图像进行识别，以判断输入图像中是否存在待识别的对象。该输入图像可以是通过摄像装置获取的，也可以是从存储介质中读取的。摄像装置包括但不限于数码相机、数码摄像机、摄像头、红外成像装置等。存储介质包括但不限于各种软盘、磁盘、光盘、磁光盘、硬盘等计算机可读存储介质以及经由网络传输的计算机可读信号介质。

其中，输入图像可以是彩色图像或灰度图像。

在接收到输入图像之后，图像特征提取单元101提取输入图像中的待识别对象的图像特征。该图像特征例如可以是SIFT特征、SURF特征、HOG特征等，但是不限于所列出的这些示例，而是可以采用任何能体现图像的形状的特征。

在一个实施例中，图像特征提取单元101被配置为根据特定二维分布来选择输入图像中要提取其图像特征的位置，即根据特定二维分布来选择特征点。这是由于在具体图像中，图像的特征在图像中的分布可能呈现特定形式，例如，在中心部分的图像特征比较密集，边缘部分的图像特征比较稀疏，通过采用相应的二维分布来选择要采样的特征点，可以在节省计算量的同时获取尽可能多的图像特征，从而使得识别更为准确。当然，图像特征提取单元101也可以进行均匀采样。

图像特征提取单元101将所获得的图像特征提供给主题获取单元102。主题获取单元102基于该图像特征采用生成主题模型获得与待识别对象有关的主题，由于该主题一般没有明确表达，因此可以被称为隐主题。生成主题模型包括但不限于潜在狄利克雷分配（LDA）模型、LSA（潜在语义分析）模型、PLSA（概率潜在语义分析）模型等。

在此，以LDA模型为例进行描述。图2示出了LDA模型的示意图。其中，α和β分别表示狄利克雷先验参数,Z代表隐主题,W代表图像中出现的图像特征，θ表示主题相对图像的多项式分布，表示图像特征相对于主题的多项式分布。M、N和K分别表示图像的数量、图像特征的数量以及隐主题的数量。关于LDA模型的具体计算是已知的，在此不再赘述。通过该LDA模型，主题获取单元102可以获得输入图像中与待识别对象有关的通常为多个的主题。

然后，语义主题模型生成单元103基于上述图像特征和主题生成语义主题模型，该语义主题模型包括图像特征的分布以及各个图像特征相对于各个主题的分布，分类器104基于该语义主题模型进行分类从而识别输入图像中的对象。与仅使用图像特征的分布进行识别的方式以及仅使用主题的分布进行识别的方式相比，由于语义主题模型还利用了图像特征相对于主题的分布情况，因此分类结果更为准确。

分类器104可以使用已有的各种分类器，包括但不限于支持向量机、决策树等。

在另一个实施例中，提供了对象识别装置200，如图3所示，除了对象识别装置100中的各个单元之外，对象识别装置200还包括聚类单元201，被配置为对图像特征进行聚类，其中，主题获取单元102被配置为基于聚类单元201得到的聚类中心采用生成主题模型获得与待识别对象有关的主题，以及语义主题模型生成单元103被配置为基于聚类中心和主题生成语义主题模型，其中，语义主题模型包括聚类中心的分布以及各个聚类中心包括的图像特征相对于各个主题的分布。

如上所述，通过聚类获得多个聚类中心，每个聚类中心对应于一个或更多个图像特征。聚类的方法包括但不限于K-means、K-medoids、分层K-means方法等。

使用与参照图2描述的LDA模型相同的LDA模型，基于聚类中心来获得主题。需要注意的是，此时N仍表示图像特征的数量。通过该LDA模型，主题获取单元102可以获得输入图像中与待识别对象有关的多个主题。

如上所述，语义主题模型生成单元103获得的语义主题模型包括聚类中心的分布以及各个聚类中心中各个图像特征相对于各个主题的分布。例如，可以用图4所示的矩阵进行表示，其中，○□☆分别表示各个主题。因此，对于每一个图像而言，可以获知其中各个主题的分布情况、各个聚类中心的分布情况以及各个聚类中心中包括的图像特征的主题分布。换言之，可以获得各个聚类中心的类内差异的信息，从而实际上获得M×（K×V）的矩阵，其中V是聚类中心的数目。

对于每一幅图像，其矩阵维数为K×V，可以对其进行归一化并作为分类器的输入。由于语义主题模型考虑了聚类中心的类内差异，因此与仅使用聚类中心的分布进行分类的方式以及仅使用主题的分布进行分类的方式相比，分类结果更为准确。

此外，为了便于统计对应于每个主题的图像特征的数量，语义主题模型生成单元103还被配置为将各个聚类中心中包括的图像特征按照其所属于的主题的特定顺序进行排列。例如，将图像特征按照主题○□☆的顺序进行排列，则图4中所示的图像M中的聚类中心V对应的主题序列应变为“○○○..□”。

在一个实施例中，聚类中心用词袋（Bag of Words）方法表示，并且生成主题模型为LDA模型。具体地，在训练过程中，将所有图像中的图像特征经过聚类得到视觉词汇词典。然后，将图像特征指派到最近邻的视觉词汇、即聚类中心，这样，每一幅图像可以用视觉词汇的直方图来进行特征表示。与LDA模型以及语义主题模型相关的其他描述与上述参照图2和图4所述的相同，在此不再重复。

在很多情况下，图像除了包括待识别对象之外，还包括其他部分，因此，可能需要首先将可能包括待识别对象的图像区域划分出来，然后对于该可能区域中的图像进行判断。

因此，图5所示的对象识别装置300除了参照图1所述的对象识别装置100中的各个单元之外还包括：分割单元301，被配置为在图像特征提取单元101提取待识别对象的图像特征之前对输入图像进行分割以获取待识别对象的候选区域，其中，图像特征提取单元101被配置为针对该候选区域提取待识别对象的图像特征。此外，对象识别装置300还可以包括参照图2所述的聚类单元201，在图5中用虚线示出。

分割单元301通常基于输入图像中待识别对象区域和其他区域之间具有某一方面的区分度。例如，当输入图像为灰度图像比如红外图像时，灰度值随着目标距离摄像头的距离不同而变化。通常情况下，距离摄像头越近，灰度值越小，相应的图像区域看起来越亮，反之则看起来越暗，从而可以根据灰度值的大小来进行分割，例如可以设定阈值以使得将灰度高于或低于该阈值的图像区域作为候选区域。对于彩色图像，例如可以根据亮度来进行分割。

应该理解，这里虽然示出了灰度和亮度作为分割的依据，但是并不限于此，而是可以根据要识别的对象和输入图像的特征进行适当选择。

在一个实施例中，输入图像中包括人脸和手的区域且待识别对象为手，如图6所示，分割单元301包括：检测模块3001，被配置为检测人脸区域，并将输入图像中其余部分作为手的可能区域；阈值搜索模块3002，被配置为搜索确定第一分割阈值，在使用第一分割阈值分别对检测模块3001检测的人脸区域和手的可能区域进行分割时，所保留的人脸区域和手的可能区域的面积最大，且所保留的人脸区域和手的可能区域的面积大于检测的人脸区域的面积；以及分割模块3003，被配置为将预定的第一分割阈值应用于手的可能区域，并将比预定的第一分割阈值小的第二分割阈值应用于人脸区域以获得手的候选区域。

在手势识别中，例如使用红外摄像头来检测图像中的手势，通常情况下，手位于人脸前方以进行人机交互中的命令发送。因此，手的区域的灰度值被认为比人脸的灰度值要小，即看起来更亮，而图像中其余的亮度区域被认为是面部。

由于人脸较为容易检测，因此首先检测图像中的人脸区域，并将其余部分作为手的可能区域，这里可以使用任何人脸检测方法进行检测。如图7所示，上部为输入图像，其中，白框限定了检测到的人脸区域。

接下来，阈值搜索模块3002可以根据下式（1）来搜索确定第一分割阈值k。

k = \underset{t}{\arg \max} (H_{hand} (255) - H_{hand} (t) + H_{face} (0) - H_{face} (t)) - - - (1)

H_hand(255)-H_hand(t)+H_face(0)-H_face(t)＞H_face(0)*(1+ε)

(2)

其中，输入图像的灰度值为0-255。t是用于分别对人脸区域和手的可能区域进行分割的阈值。H_hand和H_face分别代表手的区域和人脸区域的累积灰度直方图。因为人脸区域包括相对多的暗像素，手的区域包括相对多的亮像素，因此，认为H_hand(255)-H_hand(t)可以表示手的区域的面积，而H_face(0)-H_face(t)可以表示人脸的区域的面积，式（1）的含义为改变分割阈值t以使得所保留的人脸区域和手的区域的面积最大并将此时的阈值t作为第一分割阈值k。同时，在进行分割时选取的t应该满足式（2）的条件，即所保留的人脸区域和手的可能区域的面积总和大于检测模块3001检测的人脸区域、即白框中的区域的面积，其中，ε是一个经验小值且ε为正值。

在确定了第一分割阈值k之后，分割模块3003使用该阈值k基于下式（3）对输入图像进行分割。

其中，d是根据经验确定的正值。通过使人脸区域的分割阈值thre小于手的区域的分割阈值k，可以保留人脸区域内的更多的与手相似的有效信息。

这样，就获得了分割后的手的候选区域。此外，还可以执行噪声去除以去除面积较小的连通区域而保留最大面积的连通区域作为最终的手的候选区域。图8示出了如上所述的分割单元301对图7中的输入图像进行分割后获得的手的候选区域的图。

然后，图像特征提取单元101、主题获取单元102、语义主题模型生成单元103、分类器104和聚类单元201可以针对该候选区域执行与参照图1至4描述的操作相同的操作，在此省略其描述。

此外，图像特征提取单元101还可以被配置为针对手的候选区域应用二维高斯分布来选择要提取手的图像特征的位置。由于手的候选区域是手的外接矩形框，如图8所示，特征点的分布可以被假设为以矩形框中心为中心的高斯分布。因此，可以采用一种基于高斯分布约束的密集特征采样方式来进行特征提取，如图9所示，其中的小圆圈代表采样位置。

应该理解，虽然以上示出了输入图像为红外图像且待识别对象为手的实施例，但是本申请可以应用的范围不限于此，而是也可以用于输入图像为彩色图像以及/或者待识别对象为其他类别的对象的情形。

综上所述，根据本申请的实施例的对象识别装置100、200和300通过基于包括图像特征的分布和图像特征相对于主题的分布的语义主题模型来进行分类，更全面地利用了各种信息，从而可以获得更加准确的分类结果。

[2.对象识别方法]

以上结合附图描述了根据本发明的对象识别装置的实施方式，在此过程中事实上也描述了一种对象识别方法。下面对所述方法结合附图10至13予以简要描述，其中的细节可参见前文对对象处理装置的描述。

如图10所示，根据本申请的一个实施例的识别输入图像中的对象的对象识别方法包括如下步骤：提取输入图像中的待识别对象的图像特征（S11）；基于图像特征采用生成主题模型获得与待识别对象有关的主题（S12）；基于图像特征和主题生成与待识别对象有关的语义主题模型（S13），其中，语义主题模型包括图像特征的分布以及各个图像特征相对于各个主题的分布；以及采用预定的分类器对语义主题模型进行分类，以便确定输入图像中是否存在待识别对象（S14）。

其中，输入图像可以为灰度图像。输入图像也可以为彩色图像，且图像特征为亮度特征。

在一个实施例中，在步骤S11中可以根据特定二维分布来选择输入图像中要提取其图像特征的位置。常用的二维分布例如包括高斯分布等，但是并不限于此，而是可以根据待识别对象的特征来选取。

所采用的分类器可以为支持向量机、决策树等，但是并不限于此，而是可以采用任何已有的分类器。

图11示出了对象识别方法的另一个实施例，该对象识别方法包括：提取输入图像中的待识别对象的图像特征（S11）；对图像特征进行聚类（S21）；基于所述聚类得到的聚类中心采用生成主题模型获得与所述待识别对象有关的主题（S22）；基于聚类中心和主题生成语义主题模型（S23），其中，语义主题模型包括聚类中心的分布以及各个聚类中心包括的图像特征相对于各个主题的分布；以及采用预定的分类器对语义主题模型进行分类，以便确定输入图像中是否存在待识别对象（S14）。

其中，步骤S11和步骤S14与参照图10描述的对象识别方法中的步骤S11和S14相同。步骤S22和步骤S23与步骤S12和步骤S13类似，只是用聚类中心代替了图像特征，这样可以获得更好的效果且显著减小计算量。

在一个实施例中，聚类中心用词袋方法表示，并且生成主题模型为LDA模型。但是，生成主题模型并不限于此，还可以是LSA、PLSA等。

在根据该方法获得的语义主题模型中，还可以将各个聚类中心中包括的各个图像特征按照其所属于的主题的特定顺序进行排列，以便于统计各个主题的图像特征的数量。

图12示出了根据本申请的另一个实施例的对象识别方法的流程图，该方法在图10或图11的方法的步骤S11之前还包括如下步骤：对输入图像进行分割以获取待识别对象的候选区域（S31），其中，在步骤S11中针对候选区域提取待识别对象的图像特征。步骤S21的框为虚线，表示如果执行图10所示的方法，则该步骤跳过。图12的其他步骤与图10和图11中的相应步骤相同，在此不再重复。

在一个实施例中，输入图像中包括人脸和手的区域且待识别对象为手，如图13所示，分割的步骤S31包括以下子步骤：检测人脸区域（S311），并将输入图像中其余部分作为手的可能区域；搜索确定第一分割阈值（S312），在使用该第一分割阈值分别对检测的人脸区域和手的可能区域进行分割时，所保留的人脸区域和手的可能区域的面积最大，且所保留的人脸区域和手的可能区域的面积大于检测的人脸区域的面积；以及将预定的第一分割阈值应用于手的可能区域，并将比预定的第一分割阈值小的第二分割阈值应用于人脸区域以获得手的候选区域（S313）。

在分割步骤S31完成后，在提取手的候选区域中的图像特征的步骤S11中应用二维高斯分布来选择要提取其图像特征的位置。

通过应用本申请的上述各种对象识别方法，可以获得更准确的识别结果。此外，虽然没有具体描述，但是，本领域的技术人员应该理解，在训练所使用的分类器时使用与以上参照图10-13所描述的相同的方法。

以上实施例中的相关细节已经在对对象识别装置的描述中详细给出，在此不再赘述。

[3.用以实施本申请的装置和方法的计算设备]

上述装置中各个组成模块、单元可通过软件、固件、硬件或其组合的方式进行配置。配置可使用的具体手段或方式为本领域技术人员所熟知，在此不再赘述。在通过软件或固件实现的情况下，从存储介质或网络向具有专用硬件结构的计算机（例如图14所示的通用计算机1400）安装构成该软件的程序，该计算机在安装有各种程序时，能够执行各种功能等。

在图14中，中央处理单元（CPU）1401根据只读存储器（ROM）1402中存储的程序或从存储部分1408加载到随机存取存储器（RAM）1403的程序执行各种处理。在RAM1403中，也根据需要存储当CPU1401执行各种处理等等时所需的数据。CPU1401、ROM1402和RAM1403经由总线1404彼此连接。输入/输出接口1405也连接到总线1404。

下述部件连接到输入/输出接口1405：输入部分1406（包括键盘、鼠标等等）、输出部分1407（包括显示器，比如阴极射线管（CRT）、液晶显示器（LCD）等，和扬声器等）、存储部分1408（包括硬盘等）、通信部分1409（包括网络接口卡比如LAN卡、调制解调器等）。通信部分1409经由网络比如因特网执行通信处理。根据需要，驱动器1410也可连接到输入/输出接口1405。可移除介质1411比如磁盘、光盘、磁光盘、半导体存储器等等根据需要被安装在驱动器1410上，使得从中读出的计算机程序根据需要被安装到存储部分1408中。

在通过软件实现上述系列处理的情况下，从网络比如因特网或存储介质比如可移除介质1411安装构成软件的程序。

本领域的技术人员应当理解，这种存储介质不局限于图14所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可移除介质1411。可移除介质1411的例子包含磁盘（包含软盘（注册商标））、光盘（包含光盘只读存储器（CD-ROM）和数字通用盘（DVD））、磁光盘（包含迷你盘（MD）（注册商标））和半导体存储器。或者，存储介质可以是ROM1402、存储部分1408中包含的硬盘等等，其中存有程序，并且与包含它们的设备一起被分发给用户。

本发明还提出一种存储有机器可读取的指令代码的程序产品。所述指令代码由机器读取并执行时，可执行上述根据本发明实施例的方法。

相应地，用于承载上述存储有机器可读取的指令代码的程序产品的存储介质也包括在本发明的公开中。所述存储介质包括但不限于软盘、光盘、磁光盘、存储卡、存储棒等等。

最后，还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。此外，在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上虽然结合附图详细描述了本发明的实施例，但是应当明白，上面所描述的实施方式只是用于说明本发明，而并不构成对本发明的限制。对于本领域的技术人员来说，可以对上述实施方式作出各种修改和变更而没有背离本发明的实质和范围。因此，本发明的范围仅由所附的权利要求及其等效含义来限定。

通过上述的描述，本发明的实施例提供了以下的技术方案，但不限于此。

附记1.一种识别输入图像中的对象的对象识别装置，包括：

图像特征提取单元，被配置为提取所述输入图像中的待识别对象的图像特征；

主题获取单元，被配置为基于所述图像特征采用生成主题模型获得与所述待识别对象有关的主题；

语义主题模型生成单元，被配置为基于所述图像特征和所述主题生成与所述待识别对象有关的语义主题模型，其中，所述语义主题模型包括所述图像特征的分布以及各个图像特征相对于各个主题的分布；

分类器，被配置为对所述语义主题模型进行分类，以便确定所述输入图像中是否存在待识别对象。

附记2.根据附记1所述的对象识别装置，还包括：聚类单元，被配置为对所述图像特征进行聚类，

其中，所述主题获取单元被配置为基于所述聚类单元得到的聚类中心采用生成主题模型获得与所述待识别对象有关的主题，以及所述语义主题模型生成单元被配置为基于所述聚类中心和所述主题生成所述语义主题模型，其中，所述语义主题模型包括所述聚类中心的分布以及各个聚类中心包括的图像特征相对于各个主题的分布。

附记3.根据附记2所述的对象识别装置，其中，所述语义主题模型生成单元还被配置为将各个聚类中心中包括的各个图像特征按照其所属于的主题的特定顺序进行排列。

附记4.根据附记1或2所述的对象识别装置，还包括：分割单元，被配置为在所述图像特征提取单元提取所述待识别对象的图像特征之前对所述输入图像进行分割以获取待识别对象的候选区域，

其中，所述图像特征提取单元被配置为针对所述候选区域提取所述待识别对象的图像特征。

附记5.根据附记1或2所述的对象识别装置，其中，所述图像特征提取单元被配置为根据特定二维分布来选择输入图像中要提取其图像特征的位置。

附记6.根据附记2所述的对象识别装置，其中，所述聚类中心用词袋方法表示，并且所述生成主题模型为潜在狄利克雷分配模型。

附记7.根据附记4所述的对象识别装置，其中，所述输入图像中包括人脸和手的区域且待识别对象为手，所述分割单元包括：

检测模块，被配置为检测人脸区域，并将输入图像中其余部分作为手的可能区域；

阈值搜索模块，被配置为搜索确定第一分割阈值，在使用所述第一分割阈值分别对所述检测模块检测的人脸区域和手的可能区域进行分割时，所保留的人脸区域和手的可能区域的面积最大，且所保留的人脸区域和手的可能区域的面积大于所述检测的人脸区域的面积；以及

分割模块，被配置为将所述第一分割阈值应用于所述手的可能区域，并将比所述第一分割阈值小的第二分割阈值应用于所述人脸区域以获得所述手的候选区域。

附记8.根据附记7所述的对象识别装置，其中，所述图像特征提取单元被配置为针对所述手的候选区域应用二维高斯分布来选择要提取手的图像特征的位置。

附记9.根据附记1或2所述的对象识别装置，其中，所述输入图像为灰度图像或彩色图像。

附记10.根据附记1或2所述的对象识别装置，其中，所述分类器为支持向量机或决策树。

附记11.一种识别输入图像中的对象的对象识别方法，包括：

提取所述输入图像中的待识别对象的图像特征；

基于所述图像特征采用生成主题模型获得与所述待识别对象有关的主题；

基于所述图像特征和所述主题生成与所述待识别对象有关的语义主题模型，其中，所述语义主题模型包括所述图像特征的分布以及各个图像特征相对于各个主题的分布；

采用预定的分类器对所述语义主题模型进行分类，以便确定所述输入图像中是否存在待识别对象。

附记12.根据附记11所述的对象识别方法，还包括：对所述图像特征进行聚类，

其中，基于所述聚类得到的聚类中心采用生成主题模型获得与所述待识别对象有关的主题，以及基于所述聚类中心和所述主题生成所述语义主题模型，其中，所述语义主题模型包括所述聚类中心的分布以及各个聚类中心包括的图像特征相对于各个主题的分布。

附记13.根据附记12所述的对象识别方法，还包括：在所述语义主题模型中，将各个聚类中心中包括的各个图像特征按照其所属于的主题的特定顺序进行排列。

附记14.根据附记11或12所述的对象识别方法，还包括：在提取所述待识别对象的图像特征之前对所述输入图像进行分割以获取待识别对象的候选区域，其中，针对所述候选区域提取所述待识别对象的图像特征。

附记15.根据附记11或12所述的对象识别方法，还包括：在提取所述待识别对象的图像特征时根据特定二维分布来选择输入图像中要提取其图像特征的位置。

附记16.根据附记11或12所述的对象识别方法，其中，所述聚类中心用词袋方法表示，并且所述生成主题模型为潜在狄利克雷分配模型。

附记17.根据附记14所述的对象识别方法，其中，所述输入图像中包括人脸和手的区域且待识别对象为手，所述分割的步骤包括：

检测人脸区域，并将输入图像中其余部分作为手的可能区域；

搜索确定第一分割阈值，在使用所述第一分割阈值分别对检测的人脸区域和手的可能区域进行分割时，所保留的人脸区域和手的可能区域的面积最大，且所保留的人脸区域和手的可能区域的面积大于所述检测的人脸区域的面积；以及

将所述第一分割阈值应用于所述手的可能区域，并将比所述第一分割阈值小的第二分割阈值应用于所述人脸区域以获得所述手的候选区域。

附记18.根据附记17所述的对象识别方法，还包括：在提取所述手的候选区域中的图像特征时应用二维高斯分布来选择要提取其图像特征的位置。

附记19.根据附记11或12所述的对象识别装置，其中，所述分类器为支持向量机或决策树。

附记20.一种训练用于识别输入图像中的对象的分类器的方法，包括：

针对训练图像集中的每一个样本图像，提取所述样本图像中的待识别对象的图像特征；

基于所述图像特征和所述主题生成与所述待识别对象有关的语义主题模型，其中，所述语义主题模型包括所述图像特征的分布以及各个图像特征相对于各个主题的分布；以及

基于所获得的针对各个样本图像的语义主题模型进行训练，以便获得能够确定所述训练图像集中的每一个样本图像中是否存在待识别对象的分类器。

Claims

1.一种识别输入图像中的对象的对象识别装置，包括：

2.根据权利要求1所述的对象识别装置，还包括：聚类单元，被配置为对所述图像特征进行聚类，

3.根据权利要求2所述的对象识别装置，其中，所述语义主题模型生成单元还被配置为将各个聚类中心中包括的各个图像特征按照其所属于的主题的特定顺序进行排列。

4.根据权利要求1或2所述的对象识别装置，还包括：分割单元，被配置为在所述图像特征提取单元提取所述待识别对象的图像特征之前对所述输入图像进行分割以获取待识别对象的候选区域，

5.根据权利要求1或2所述的对象识别装置，其中，所述图像特征提取单元被配置为根据特定二维分布来选择输入图像中要提取其图像特征的位置。

6.根据权利要求2所述的对象识别装置，其中，所述聚类中心用词袋方法表示，并且所述生成主题模型为潜在狄利克雷分配模型。

7.根据权利要求4所述的对象识别装置，其中，所述输入图像中包括人脸和手的区域且待识别对象为手，所述分割单元包括：

阈值搜索模块，被配置为搜索确定第一分割阈值，在使用所述第一分割阈值对所述检测模块检测的人脸区域和手的可能区域进行分割时，所保留的人脸区域和手的可能区域的面积最大，且所保留的人脸区域和手的可能区域的面积大于所述检测的人脸区域的面积；以及

8.根据权利要求7所述的对象识别装置，其中，所述图像特征提取单元被配置为针对所述手的候选区域应用二维高斯分布来选择要提取手的图像特征的位置。

9.根据权利要求1或2所述的对象识别装置，其中，所述输入图像为灰度图像或彩色图像。

10.一种识别输入图像中的对象的对象识别方法，包括：

提取所述输入图像中的待识别对象的图像特征；