CN103927510B

CN103927510B - 图像识别装置和图像识别方法

Info

Publication number: CN103927510B
Application number: CN201310397356.9A
Authority: CN
Inventors: 福井基文; 尾崎良太; 加藤典司
Original assignee: Fuji Xerox Co Ltd
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2013-01-11
Filing date: 2013-09-04
Publication date: 2018-08-07
Anticipated expiration: 2033-09-04
Also published as: US9218531B2; JP5880454B2; US20140198980A1; CN103927510A; JP2014135014A

Abstract

本发明提供了一种图像识别装置和图像识别方法。图像识别装置包括第一生成模型创建单元、分类单元以及第二生成模型创建单元。第一生成模型创建单元从属于识别对象类别的识别对象图像组提取特征信息，并且基于特征信息创建用于确定图像属于识别对象类别的概率的第一生成模型。分类单元将第一生成模型应用于属于非识别对象类别的各非识别对象图像组以确定非识别对象图像属于识别对象类别的概率，并且根据该概率将非识别对象图像分类到对应的非识别对象组。第二生成模型创建单元从属于对应的非识别对象组的各非识别对象图像组提取特征信息，并且基于对应的特征信息创建每个非识别对象组的用于确定图像属于对应的非识别对象组的概率的第二生成模型。

Description

图像识别装置和图像识别方法

技术领域

本发明涉及一种图像识别装置和图像识别方法。

背景技术

一些具有学习功能的图像标注系统被利用分类器（例如，支持向量机）来构造。当用作学习模型时，分类器要求很多用作正面示例和反面示例的图像。由于训练图像的自动收集等等导致的错误标注可能显著地降低分类器的识别能力。另一方面，学习图像特征的分布的生成模型不要求大量的训练图像并且允许一定量的噪声（即，错误标注），但是其识别能力常常低于分类器。

作为与图像识别相关的技术，例如，日本未审专利申请公开No.2005-149506公开了一种用于通过下述步骤识别图像中的对象的方法：对图像中的对象进行正规化以生成对象表示，从对象表示提取多个特征，并且将特征应用于添加概率模型以确定似然性。

而且，日本未审专利申请公开No.2009-295100公开下述装置。该装置从弱分类器中选择目标分类器并且将目标分类器应用于目标图像以输出识别结果。该装置然后将识别结果乘以目标分类器的权重以计算似然值。该装置利用似然值的累积似然值确定是否继续针对该目标图像的处理。

另外，日本未审专利申请公开No.2010-97610公开了一种用于通过将原始图像建模为多个参考图像的混合体来对图像进行分类的方法。

此外，日本未审专利申请公开No.2008-159056公开了一种系统，其利用用于对应的类别的类别条件概率分布来确定未分类的图像中出现特征的类别条件似然性，并且基于类别条件似然性将未分类的图像分类到类别之一中。

发明内容

用作学习模型的生成模型的图像识别能力会低于用作学习模型的分类器的图像识别能力。

因此，本发明的目的在于提供一种图像识别装置和图像识别方法，其能够改进用作学习模型的生成模型的图像识别能力。

根据本发明的第一方面，提供了一种图像识别装置，该图像识别装置包括第一生成模型创建单元、分类单元以及第二生成模型创建单元。第一生成模型创建单元从属于识别对象类别的识别对象图像组提取特征信息，并且基于特征信息创建第一生成模型。第一生成模型用于确定图像属于识别对象类别的概率。分类单元将第一生成模型应用于属于不同于识别对象类别的非识别对象类别的各非识别对象图像组以确定非识别对象图像属于识别对象类别的概率，并且根据该概率将非识别对象图像分类到多个非识别对象组中的对应的组。第二生成模型创建单元从属于多个非识别对象组中的对应的组的各非识别对象图像组提取特征信息，并且基于对应的特征信息创建多个非识别对象组中的每个组的第二生成模型。每个第二生成模型用于确定图像属于多个非识别对象组中的对应的组的概率。

根据本发明的第二方面，根据第一方面的图像识别装置进一步包括第三生成模型创建单元。第三生成模型创建单元从属于由分类单元执行分类之前的非识别对象类别的非识别对象图像组提取特征信息，并且基于该特征信息创建第三生成模型。第三生成模型用于确定图像属于非识别对象类别的概率。分类单元通过将第一生成模型和第三生成模型应用于属于非识别对象类别的各非识别对象图像组并且通过将属于非识别对象类别的非识别对象图像组中通过应用第一生成模型而获得的概率大于或等于通过应用第三生成模型而获得的概率的每个非识别对象图像分类到多个非识别对象组中的第一非识别对象组来将各非识别对象图像组分类到多个非识别对象组中的对应的组。

根据本发明的第三方面，第三生成模型创建单元从没有被分类到第一非识别对象组中的非识别对象图像组创建新的第三生成模型。分类单元将第一生成模型和新的第三生成模型应用于没有被分类到第一非识别对象组的各非识别对象图像组，并且将通过应用第一生成模型而获得的概率大于或等于通过应用新的第三生成模型而获得的概率的每个非识别对象图像分类到多个非识别对象组中的第二非识别对象组。

根据本发明的第四方面，识别对象类别包括多个识别对象类别。第一生成模型创建单元从属于多个识别对象类别中的对应的类别的识别对象图像的各组提取特征信息，并且基于识别对象类别的对应的特征信息创建多个识别对象类别中的每个识别对象类型的第一生成模型。分类单元将多个识别对象类别的第一生成模型应用于属于非识别对象类别的各非识别对象图像组以确定非识别对象图像属于各识别对象类别的概率，并且根据该概率将非识别对象图像分类到多个非识别对象组中的对应的组中。

根据本发明的第五方面，分类单元将从多个识别对象类别的第一生成模型中的同一第一生成模型获得了最大概率的非识别对象图像组分类到多个非识别对象组中的同一非识别对象组。

根据本发明的第六方面，根据第一方面的图像识别装置进一步包括识别单元。识别单元将第一生成模型和第二生成模型应用于未分类的图像，并且根据通过将第一生成模型和第二生成模型应用于未分类的图像而获得的结果将未分类的图像分类到识别对象类别或非识别对象类别。

根据本发明的第七方面，提供了一种图像识别方法，其包括下述步骤：从属于识别对象类别的识别对象图像组提取特征信息，并且基于特征信息创建第一生成模型，第一生成模型用于确定图像属于识别对象类别的概率；将第一生成模型应用于属于不同于识别对象类别的非识别对象类别的各非识别对象图像组以确定非识别对象图像属于识别对象类别的概率，并且根据该概率将非识别对象图像分类到多个非识别对象组中的对应的组；以及从属于多个非识别对象组中对应的组的各非识别对象图像组提取特征信息，并且基于对应的特征信息创建多个非识别对象组中的每个组的第二生成模型，每个第二生成模型用于确定图像属于多个非识别对象组中的对应的组的概率。

根据本发明的第一或第七方面，与没有使用第一或第七方面的构造的情况相比，改进了生成模型的图像识别能力。

根据本发明的第二方面，与没有使用第二方面的构造的情况相比，改进了用于非识别对象图像的生成模型的图像识别能力，并且因此改进了针对识别对象类别的检测精度。

根据本发明的第三方面，与没有使用第三方面的构造的情况相比，进一步改进了用于非识别对象图像的生成模型的图像识别能力，并且因此，进一步改进了针对识别对象类别的检测精度。

根据本发明的第四方面，与没有使用第四方面的构造的情况相比，改进了用于各类别的图像的生成模型的图像识别能力。

根据本发明的第五方面，与没有使用第五方面的构造的情况相比，改进了用于非识别对象图像的生成模型的图像识别能力，并且因此，改进了用于对应的类别的图像的生成模型的图像识别能力。

根据本发明的第六方面，与没有使用第六方面的构造的情况相比，可以以更高的精度对未分类的图像进行分类。

附图说明

将基于附图详细描述本发明的示例性实施方式，其中：

图1是示出根据本发明的示例性实施方式的图像识别装置的示例的框图；

图2是示出类别的示例的示意图；

图3是示出特征的分布的图；

图4是示出根据示例性实施方式的图像识别装置执行的操作的示例的流程图；

图5是示出根据第一示例的操作的示例的流程图；

图6A和图6B是示出根据第一示例的类别的分布的示例的示意图；

图7是示出根据第二示例的操作的示例的流程图；

图8是示出根据第二示例的类别的分布的示例的示意图；

图9是示出根据第二示例的特征的分布的图；

图10是示出根据第三示例的操作的示例的流程图；以及

图11是示出根据第三示例的类别的分布的示意图。

具体实施方式

图1示出了根据本发明的示例性实施方式的图像识别装置的示例。图像识别装置10包括训练图像收集单元12、学习模型创建单元14、测试评估单元16、分类单元18和识别单元20。图像识别装置10从属于特定识别对象类别的训练图像组创建生成模型。图像识别装置10然后将生成模型应用于属于非识别对象类别的各训练图像组以将属于非识别对象类别的训练图像分类到多个组中的对应的组中。之后，图像识别装置10从属于多个组中的对应的组的各训练图像组创建生成模型。

训练图像收集单元12收集属于作为识别对象的特定类别（下面，称为“识别对象类别”）的训练图像组和属于除了识别对象类别之外的类别（下面，称为“非识别对象类别”）的训练图像组。为了方便说明，属于识别对象类别的训练图像组可以被称为“识别对象图像组”，而属于非识别对象类别的训练图像组可以被称为“非识别对象图像组”。识别对象图像组包括属于特定识别对象类别的多个训练图像数据项目。非识别对象图像组包括是识别对象图像组的反面示例的多个训练图像数据项目。训练图像收集单元12可以收集分别属于多个识别对象类别中的对应的类别的识别对象图像组和作为多个识别对象类别的公共反面示例的非识别对象图像组。等效于反面示例的训练图像数据项目不属于识别对象类别，而是属于除了识别对象类别之外的类别“其它”（即，非识别对象类别）。而且，识别对象图像组也可以被称为正面示例训练图像组，并且识别对象类别也可以被称为正面示例类别。相反地，非识别对象图像组也可以被称为反面示例训练图像组，并且非识别对象类别也可以被称为反面示例类别。

例如，当构造对诸如静态图像或动态图像的图像给予与图像相关的标签信息的图像标注系统时，训练图像收集单元12收集分别属于将由图像标注系统识别的对应类别（识别对象类别）的训练图像数据项目组。例如，训练图像收集单元12对于每个类别收集成百上千个训练图像数据项目。可以利用图像检索系统自动地收集训练图像数据项目或者可以利用百科全书等等中包含的图像半自动地收集训练图像数据项目。训练图像收集单元12还收集是识别对象类别的公共的反面示例的训练图像数据项目（属于类别“其它”的训练图像数据项目）。为了抑制偏向的图像选择，训练图像收集单元12可以收集比识别对象训练图像数据项目的数目更多的数目的非识别对象训练图像数据项目。注意的是，属于类别“其它”的图像数据项目可以包含各种训练图像数据项目。例如，属于识别对象类别的训练图像数据项目可以属于类别“其它”。相反地，不属于识别对象类别的训练图像数据项目可能被错误地包含在识别对象类别中。以该方式，训练图像组可能包括噪声。

图2示出了类别的示例。借助于示例，将描述对四个类别进行识别的情况。每个收集的训练图像数据项目属于四个识别对象类别和非识别对象类别（类别“其它”）中的对应类别，其中非识别对象类别包括针对四个识别对象类别的公共反面示例。图2中所示的示例示出了类别“车”、“狗”、“大海”和“天空”作为识别对象类别。类别“其它”是非识别对象类别，其包括针对类别“车”、“狗”、“大海”和“天空”的公共反面示例。各区域的大小与属于对应的类别的训练图像数据项目的数目成比例。属于类别“其它”的训练图像数据项目的数目大于属于识别对象类别中的对应的类别的训练图像数据项目的数目。而且，各识别对象类别可以与类别“其它”共享某一区域。例如，包括车的图像可以属于类别“其它”，或者不包括“狗”的图像可以属于类别“狗”。为了说明的方便起见，在训练图像数据项目的收集期间创建的类别“其它”在下面可以被称为类别“初始其它”。

学习模型创建单元14从属于类别的各训练图像组创建各类别的学习模型。在本示例性实施方式中，学习模型是生成模型。学习模型创建单元14为每个类别创建生成模型。具体地，生成模型创建单元14从属于各识别对象类别的各识别对象图像组创建生成模型并且从属于非识别对象类别（类别“其它”）的非识别对象图像组创建生成模型。参考图2中所示的示例，学习模型创建单元14创建针对类别“车”、“狗”、“大海”、“天空”和“其它”的生成模型。某一类别的生成模型用于计算给定图像数据项目属于该类别的概率或者与该概率成比例的分数。例如，高斯混合模型、朴素贝叶斯模型等等是生成模型。注意的是，学习模型创建单元14等效于第一、第二和第三生成模型创建单元的示例。为了描述的方便起见，从属于识别对象类别的识别对象图像组创建的生成模型可以在下面称为“识别对象生成模型”，而从属于非识别对象类别（类别“其它”）的非识别对象图像组创建的生成模型可以在下面称为“非识别对象生成模型”。

现在，将描述生成模型的创建。学习模型创建单元14对于每个类别c创建生成模型。首先，学习模型创建单元14从各训练图像数据项目D提取特征向量F。特征向量F由图像的一般特征（例如，颜色和渐变）构成，并且是通过以特定间隔对整个图像执行采样获得的局部特征等等。当从各训练图像数据项目提取了n个特征时，特征向量由F={f₁,f₂,···,f_n}表示，其中，f_k表示在图像的特定位置提取的第k特征向量。学习模型学习对应的类别c的特征的分布。例如，当高斯混合模型执行学习时，分布P(f|c)由多个高斯分布的加权和表示。在本示例性实施方式中，对于类别“其它”创建生成模型。

图3示出了特征的分布的示例。例如，属于类别“车”的训练图像数据项目的特征的分布在特定位置处具有峰，而属于类别“其它”的训练图像数据项目的特征的分布在整个特征空间上基本上都是平坦的。由于类别“其它”的特征的分布以该方式基本上是平坦的（这表示对于任何特征都给出了较低的事后概率），因此，从特征的这样的分布获得的生成模型对于任何特征都给出了较小的分数。结果，这样的生成模型的图像识别能力趋于较低。

测试评估单元16使用不同于训练图像数据项目并且预先准备的评估图像数据项目来评估由学习模型创建单元14创建的各生成模型。评估图像数据项目均被分类到类别（识别对象类别和非识别对象类别）中的对应的类别中，与训练图像数据项目一样。基于评估图像数据项目的识别结果，计算再现率、精度等等。测试评估单元16从评估图像数据项目J提取与从训练图像数据项目提取的特征向量相同种类的特征向量。测试评估单元16例如使用下面的等式来对于给定的特征向量计算类别c的条件概率。下面的等式假定各特征向量的条件概率的独立性。

[等式1]

这里，通过利用诸如高斯混合模型或朴素贝叶斯模型的生成模型来计算右手侧的P(f_i|c)。而且，P（c）是类别c的事先概率并且因此被计算，而P(f₁,f₂,···,f_n)独立于类别c。确定等式两侧的对数并且所获得的对数用作分数。当给定某一图像的特征向量F时，根据分数的大小来识别该图像将被分类到的类别。例如，具有用于各个类别的分数中的最大分数的类别可以被识别为图像的类别。或者，具有大于或等于阈值的分数的所有类别可以被识别为图像的类别。在该情况下，一个图像可以被指派有多个类别或者可以没有指派到任何类别。在利用评估图像数据项目（例如，评估图像数据项目的平均再现率或平均精度）评估生成模型时，其调和平均数的F值等等可以用于评估生成模型。测试评估单元16输出评估结果。用户能够对生成模型进行改进直到用户对评估结果感到满意。

分类单元18将从属于对应的识别对象类别的识别对象图像组创建的各生成模型（即，识别对象生成模型）应用于属于类别“其它”的各非识别对象图像组，并且将非识别对象图像分类到多个非识别对象组中的对应的组。例如，分类单元18将识别对象生成模型和非识别对象生成模型应用于属于类别“其它”的各非识别对象图像组。分类单元18然后将通过应用识别对象生成模型而获得的分数大于等于通过应用非识别对象生成模型获得的分数的非识别对象图像分类到一个非识别对象组中。以该方式，非识别对象类别（类别“其它”）被划分为两个非识别对象组。或者，分类单元18可以重复地应用识别对象生成模型和非识别对象生成模型，并且可以将各非识别对象图像组分类到多个非识别对象组中的对应的组中。或者，分类单元18可以将识别对象类别的生成模型应用于各非识别对象图像，并且可以根据给出最大分数的生成模型将非识别对象图像分类到非识别对象类别的子类别中。

在由分类单元18将非识别对象图像组分类到多个非识别对象组中之后，学习模型创建单元14从属于非识别对象组的非识别对象图像组创建多个非识别对象组中的每个组的生成模型。以该方式，创建了用于识别属于非识别对象组中的对应的组的图像的各生成模型。

识别单元20接受未分类的图像数据项目，将识别对象生成模型和非识别对象生成模型应用于未分类的图像数据项目，并且将未分类的图像数据项目分类到给出最大分数的类别中。

现在将参考图4中所示的流程图描述图像识别装置10的操作。训练图像收集单元12收集属于识别对象类别的识别对象图像组和属于非识别对象类别（类别“其它”）的非识别对象图像组（S01）。学习模型创建单元14从属于对应类别的各训练图像数据项目中提取特征向量（S02）。然后，学习模型创建单元14基于从属于对应的识别对象类别的识别对象图像组提取的特征向量组创建各识别对象生成模型（S03）。学习模型创建单元14还基于从属于非识别对象类别的非识别对象图像组提取的特征向量组创建非识别对象生成模型（S04）。这时，学习模型创建单元14为每个类别创建生成模型。测试评估单元16通过利用评估图像数据项目评估各生成模型（S05）。如果用户对评估结果满意（S06中为是），则处理结束。相反地，如果用户对评估结果不满意（S06中为否），则分类单元18将识别对象生成模型应用于非识别对象图像的各组并且将非识别对象图像分类到多个非识别对象组中的对应的组中（S07）。重复步骤S02至S06的处理，直到用户对评估结果满意。

现在将描述用于将各组非识别对象图像分类到多个非识别对象组中的对应的组的具体示例。

第一示例

现在将首先参考图5中所示的流程图描述第一示例。分类单元18选择属于类别“初始其它”的训练图像数据项目Di（S10）。然后，分类单元18将从属于识别对象类别c的识别对象图像组创建的识别对象生成模型应用于训练图像数据项目Di，从而确定针对类别c的分数Sc（训练图像数据项目Di属于类别c的概率或者与该概率成比例的分数）（S11）。例如，分类单元18将类别“车”的生成模型应用于非识别对象训练图像数据项目Di，从而确定针对类别“车”的分数Sc（训练图像数据项目Di属于类别“车”的概率或者与该概率成比例的分数）。而且，分类单元18将从属于类别“初始其它”的非识别对象图像组创建的非识别对象生成模型应用于训练图像数据项目Di，从而确定针对类别“初始其它”的分数S0（训练图像数据项目Di属于类别“初始其它”的概率或与该概率成比例的分数）。

如果分数Sc大于或等于分数S0（S12中的是），则分类单元18从类别“初始其它”移除训练图像数据项目Di，并且将训练图像数据项目Di分类到另一非识别对象类别（S13）。具体地，其分数大于或等于分数S0的训练图像数据项目Di属于类别“初始其它”，但是与属于识别对象类别（例如，类别“车”）的图像数据项目类似。因此，分类单元18将训练图像数据项目Di从类别“初始其它”移除，并且将训练图像数据项目Di分类到另一非识别对象类别。为了方便起见，另一非识别对象类别被称为类别“其它1”。除了已经被分类到类别“其它1”的训练图像数据项目Di之外的训练图像数据项目保留在类别“其它”中。然后，索引i递增1（S14）。如果还没有处理属于类别“其它”的所有训练图像数据项目（S15中为否），则执行步骤S10至S14的处理。如果分数Sc小于分数S0（S12中为否），则从步骤S14开始执行处理。

图6A示出了对于类别“其它”执行的分组的结果。在仅提供了类别“车”作为识别对象类别的情况下，如图6A中所示，类别“初始其它”在分类之后被划分为新的类别“其它”和类别“其它1”。属于类别“其它1”的训练图像数据项目是属于类别“车”的训练图像数据项目的反面示例但是与属于类别“车”的图像数据项目类似。

在存在多个识别对象类别的情况下，属于类别“初始其它”的训练图像数据项目中的每一个被通过类似的处理分类到多个非识别对象组中的对应的组中。图6B示出了分类的结果。属于类别“其它1”的训练图像数据项目是通过应用类别“车”的生成模型而获得的分数Sc大于或等于分数S0的非识别对象训练图像数据项目，并且因此与属于类别“车”的图像数据项目类似。属于类别“其它2”的训练图像数据项目是通过应用类别“大海”的生成模型获得的分数Sc大于或等于分数S0的非识别对象训练图像数据项目，并且因此与属于类别“大海”的图像数据项目类似。属于类别“其它3”的训练图像数据项目是通过应用类别“狗”的生成模型获得的分数Sc大于或等于分数S0的非识别对象驯良图像数据项目，并且因此与属于类别“狗”的图像数据项目类似。属于类别“其它4”的训练图像数据项目是通过应用类别“天空”的生成模型获得的分数Sc大于或等于分数S0的非识别对象训练图像数据项目，并且因此与属于类别“天空”的图像数据项目类似。属于分类之后的类别“其它”的训练图像数据项目是在从属于类别“初始其它”的训练图像数据项目中移除了属于类别“其它1”至“其它4”的训练图像数据项目之后仍然剩余的图像数据项目。

如果属于类别“初始其它”的所有训练图像数据项目都已经被处理（S15中为是），则学习模型创建单元14从属于分类之后的类别“其它”的训练图像组创建非识别对象生成模型（类别“其它”的生成模型）。学习模型创建单元14还从属于类别“其它1”的训练图像组创建非识别对象生成模型（类别“其它1”的生成模型）。

在接受未分类的图像数据项目时，识别单元20将通过上述处理创建的各生成模型应用于未分类的图像数据项目，并且将未分类的图像数据项目分类到识别对象类别和非识别对象类别中的一个中。例如，在仅提供了类别“车”作为识别对象类别的情况下，识别单元20将类别“车”的生成模型、类别“其它1”的生成模型和分类后的类别“其它”的生成模型应用于未分类的图像数据项目。识别单元20然后将未分类的图像数据项目分类到对应于给出最大分数的生成模型的类别中。具体地，如果通过应用类别“车”的生成模型获得的分数最大，则未分类的图像数据项目被分类到类别“车”。如果通过应用类别“其它1”的生成模型获得的分数最大，则未分类的图像数据项目被分离到类别“其它1”。

通过利用以上述方式创建的类别“其它1”的生成模型分类图像数据项目，改进了针对识别对象类别（正面示例类别）的检测精度。具体地，对于属于类别“初始其它”并且可能被错误地确定为属于识别对象类别（类别“车”）的图像数据项目，通过应用类别“其它1”的生成模型获得的分数大于通过应用识别对象生成模型获得的分数。因此，该图像数据项目被分类到类别“其它1”，即，分类到非识别对象类别（反面示例类别）而不是被分类到类别“车”。结果，改进了生成模型识别非识别对象图像的能力并且减少了被错误地确定为属于识别对象类别的图像数据项目的数目。因此，改进了检测识别对象类别的精度。

属于类别“初始其它”的训练图像数据项目组的特征的分布大致是平坦的。从这样的特征分布获得的生成模型对于任何特征都给出较小的分数。结果，这样的生成模型的图像识别能力趋于较低。因此，在类别“初始其它”的生成模型和识别对象生成模型应用于属于非识别对象类别（反面示例类别）并且可能被错误地确定为属于识别对象类别的图像数据项目的情况下，通过应用识别对象生成模型获得的分数会大于通过应用类别“初始其它”的生成模型获得的分数。在该情况下，图像数据项目被错误地分类到识别对象类别。然而，根据本示例性实施方式，即使通过应用分类后的类别“其它”的生成模型获得的分数小于通过应用识别对象生成模型获得的分数，通过应用类别“其它1”的生成模型获得的分数也大于通过应用识别对象生成模型获得的分数。因此，图像数据项目被分类到类别“其它1”。以该方式，改进了生成模型识别非识别对象图像的能力，并且结果，改进了针对识别对象类别的检测精度。

在存在多个识别对象类别的情况下，学习模型创建单元14类似地从属于分类之后的类别“其它”的训练图像组创建分类后的类别“其它”的生成模型，从属于类别“其它1”的训练图像组创建类别“其它1”的生成模型，从属于类别“其它2”的训练图像组创建非识别对象生成模型（类别“其它2”的生成模型），从属于类别“其它3”的训练图像组创建非识别对象生成模型（类别“其它3”的生成模型），并且从属于类别“其它4”的训练图像组创建非识别对象生成模型（类别“其它4”的生成模型）。利用该构造，属于非识别对象类别（反面示例类别）并且可能被错误地确定为属于识别对象类别之一的图像数据项目被分类到非识别对象类别“其它1”至“其它4”中的一个。结果，改进了针对每个识别对象类别的检测精度。

第二示例

现在将参考图7中所示的流程图来描述第二示例。在第二示例中，通过多次执行第一示例的处理将属于类别“初始其它”的训练图像数据项目分类到多个非识别对象组。具体地，由于第一次分组而生成的组被定义为类别“其它1”，而由于第N次分组而生成的组被定义为类别“其它N”。即，通过执行第一示例的处理N次，类别“初始其它”被划分为类别“其它”、“其它1”、“其它2”、…、“其它N”。各非识别对象训练图像数据项目被分类到非识别对象类别中的一个中。下面描述第二示例的具体处理。假设已经对非识别对象图像进行了一次分类处理，类别“初始其它”已经被划分为类别“其它1”和分类后的类别“其它”，并且已经创建了类别“其它1”和分类后的类别“其它”的生成模型。

首先，分类单元18选择属于分类之后的类别“其它”的训练图像数据项目Di（S20）。然后，分类单元18将从属于识别对象类别c的识别对象图像组创建的识别对象生成模型应用于训练图像数据项目Di，从而确定针对类别c的分数Sc（S21）。例如，分类单元18将类别“车”的生成模型应用于非识别对象训练图像数据项目Di，从而确定针对类别“车”的分数Sc。注意的是，如果分数Sc已经被确定，则可以使用已经确定的值。类似地，分类单元18将从属于类别“其它1”的非识别对象图像组创建的类别“其它1”的生成模型应用于训练图像数据项目Di，从而确定针对类别“其它1”的分数T1（S22）。此外，分类单元18将从属于在分类到类别“其它1”之后获得的类别“其它”的非识别对象图像组创建的非识别对象生成模型应用于训练图像数据Di，从而确定针对类别“其它”的分数S0（S22）。

如果分数Sc在分数Sc、T1和S0当中最大（S23中为是），则分类单元18将训练图像数据项目Di从类别“其它”移除并且将训练图像数据项目Di分类到不同于类别“其它”和“其它1”的类别“其它2”（S24）。具体地，虽然具有在分数Sc、T1和S0当中最大的分数Sc的训练图像数据项目Di属于类别“其它”，但是训练图像数据项目Di与属于识别对象类别（例如，类别“车”）的图像数据项目比较类似，并且不属于类别“其它1”。因此，训练图像数据项目Di被分类到类别“其它2”中。除了已经被分类到类别“其它1”和“其它2”中的训练图像数据项目Di之外的训练图像数据项目留在类别“其它”中。然后，索引i递增1（S26）。如果还没有处理属于类别“其它”的所有训练图像数据项目（S27中为否），则执行步骤S20至S26的处理。如果分数Sc在分数Sc、T1和S0当中不是最大的（S23中为否），则训练图像数据项目Di留在类别“其它”中（S25）。索引i然后递增1（S26）。执行S27以及以下的处理。

如果已经处理了属于类别“其它”的所有训练图像数据项目（S27中为是），则学习模型创建单元14从属于分类之后的类别“其它”的训练图像组创建非识别对象生成模型（类别“其它”的生成模型）。学习模型创建单元14还从属于类别“其它2”的训练图像组创建非识别对象生成模型（类别“其它2”的生成模型）。注意的是，类别“其它1”的生成模型已经在从类别“其它”到类别“其它1”的分类之后创建了。

在将训练图像数据项目分类到类别“其它2”结束之后，通过类似的处理对属于类别“其它”的训练图像数据项目进行到类别“其它3”的分类。例如，在步骤S22。分类单元18将类别“其它1”的生成模型应用于训练图像数据项目Di，从而确定针对类别“其它1”的分数T1。分类单元18还将类别“其它2”的生成模型应用于训练图像数据项目Di，从而确定针对类别“其它2”的分数T2。另外，分类单元18将从属于分类到类别“其它2”之后的类别“其它”的非识别对象图像组创建的非识别对象生成模型应用于训练图像数据项目Di，从而确定针对类别“其它”的分数S0。如果分数Sc在分数Sc、T1、T2和S0当中最大（S23中为是），则分类单元18将训练图像数据项目Di从类别“其它”移除，并且将训练图像数据项目Di分类到非识别对象类别“其它3”。之后，通过类似的处理对属于类别“其它”的训练图像数据项目执行到类别“其它4”、“其它5”、…、“其它N”的分类。当不再发现属于类别“其它N”的训练图像数据项目时结束处理。作为上述处理的结果，由学习模型创建单元14创建了类别“其它”和“其它1”至“其它N”的生成模型。

图8示出了仅提供了类别“车”作为识别对象类别的情况下的分组结果。作为示例，执行分类处理四次（N=4）。结果，将类别“初始其它”划分为五个类别。具体地，类别“初始其它”被划分为作为在分类之后获得的新类别的类别“其它”、“其它1”、“其它2”、“其它3”和“其它4”。属于类别“其它1”的训练图像数据项目属于类别“初始其它”。当通过应用除了针对类别“其它1”的生成模型之外的生成模型（即，类别“车”、“其它2”、…、“其它4”的生成模型）确定针对这样的训练图像数据项目的分数时，从类别“车”的生成模型获得针对训练图像数据项目的最大分数。

如果分数Sc不是最大的（在S23中为否），则训练图像数据项目Di可以根据分数Sc被分类到除了类别“其它”之外的类别“其它j”中。例如，如果分数Sc大于或等于分数T2和S0，但是小于分数T1，则针对分数Sc的训练图像数据项目Di可以被分类到类别“其它2”中。

在存在多个识别对象类别的情况下，类别“其它”也通过以类似的方式执行分类处理多次来划分为多个非识别对象组。

图9示出了以上述方式创建的生成模型的特征的分布。类别“初始其它”的特征的分布在整个特征空间上是相对平坦的，而识别对象类别的特征的分布在特定位置处具有峰。类别“初始其它”被划分为各个类别，并且对于每个类别计算特征的分布。所获得的特征分布均在特定位置处具有峰。具体地，类别“其它1”、“其它2”、“其它3”、“其它4”和在分类之后获得的“其它”的特征分布彼此分离并且在特定位置处具有各自的峰。类别“其它1”的特征分布最接近识别对象类别（例如，类别“车”）的特征分布。

在接受到未分类的图像数据项目时，识别单元20将识别对象类别的生成模型（例如类别“车”的生成模型）和类别“其它1”至“其它4”以及在分类之后获得的“其它”的生成模型应用于未分类的图像数据项目，从而确定分数。识别单元20然后将未分类的图像数据项目分类到与给出最大分数的生成模型关联的类别。

通过使用以上述方式创建的非识别对象生成模型，改进了针对识别对象类别的检测精度。例如，将讨论对具有类别“其它1”的特征，属于类别“初始其它”并且可能被错误地确定为属于识别对象类别（类别“车”）的图像数据项目进行分类的情况。当类别“初始其它”、“其它1”至“其它4”以及分类之后获得的“其它”的生成模型应用于该图像数据项目时，通过应用类别“其它1”的生成模型获得的分数在所确定的分数当中为最大。因此，图像数据项目被分类到类别“其它1”（即，非识别对象类别（反面示例类别））中，而没有被分类到识别对象类别（类别“车”）中。结果，改进了生成模型识别非识别对象图像的能力并且减少了被错误地确定为属于识别对象类别的图像数据项目的数目。因此，改进了检测识别对象类别的精度。

类别“其它1”的特征分布接近于识别对象类别的特征分布。因此，当将类别“初始其它”的生成模型和识别对象生成模型应用于属于类别“其它1”的图像数据项目时，通过应用识别对象生成模型而获得的分数可以大于通过应用类别“初始其它”的生成模型而获得的分数。在这样的情况下，图像数据项目被错误地分类到识别对象类别中。然而，根据第二示例，如上所述，通过应用类别“其它1”的生成模型而获得的分数大于通过应用识别对象生成模型而获得的分数。因此，图像数据项目被分类到类别“其它1”（即，非识别对象类别）。

如上所述，当使用类别“初始其它”的生成模型时，属于非识别对象类别的图像数据项目可能会被错误地分类到识别对象类别。然而，根据第二示例，由于这样的图像数据项目被分类到非识别对象类别，因此，改进了对于识别对象类别的检测精度。

第三示例

现在将参考图10中所示的流程图描述第三示例。在第三示例中，在存在多个识别对象类别的情况下，将各识别对象类别的生成模型应用于属于类别“初始其它”的各训练图像数据项目以计算针对识别对象类别的分数。根据给出最大分数的生成模型，将属于类别“初始其它”的训练图像数据项目分类到对应的组中。例如，从识别对象生成模型中的同一生成模型获得最大分数的训练图像数据项目被分类到同一非识别对象组中。图2的示例示出了四个识别对象类别。这四个类别的生成模型应用于非识别对象训练图像数据项目，从而确定分数。根据给出最大分数的生成模型，对非识别对象训练图像数据项目进行分类。下面描述第三示例的具体处理。

首先，分类单元18选择属于类别“初始其它”的训练图像数据项目Di（S30）。然后，分类单元18将从属于对应的识别对象类别c的识别对象图像组创建的各识别对象生成模型应用于训练图像数据项目Di，从而确定针对类别c的分数Sc（S31）。例如，分类单元18将类别“车”、“狗”、“大海”和“天空”的生成模型应用于训练图像数据项目Di，从而确定针对对应类别的分数Sc。在该示例中，确定四个分数Sc。然后，分类单元18将四个分数Sc中最大的分数Sc定义为分数Sc’并且将作为分类目的地的非识别对象类别定义为类别c’（S32）。

如果分数Sc’大于或等于预定阈值Th（S33中为是），则分类单元18将训练图像数据项目Di从类别“初始其它”中移除并且将训练图像数据项目Di分类到不同于类别“其它”的非识别对象类别“其它：c’”中（S34）。将参考图11描述该分类处理。例如，假设通过应用类别“车”的生成模型而获得的分数Sc在四个分数Sc当中是最大的，并且大于或等于阈值Th。在该情况下，分类单元18将训练图像数据项目Di分类到非识别对象类别“其它：车”中。具体地，属于类别“初始其它”的训练图像数据项目当中与属于类别“车”的图像数据项目类似的训练图像数据项目被分类到类别“其它：车”中。类似地，在通过应用类别“狗”的生成模型而获得的分数Sc在四个分数Sc当中最大并且大于或等于阈值Th的情况下，分类单元18将训练图像数据项目Di分类到非识别对象类别“其他：狗”中。类似地，在通过应用类别“大海”或“天空”的生成模型而获得的分数Sc在四个分数Sc当中最大并且大于或等于阈值Th的情况下，分类单元18将训练图像数据项目Di分类到非识别对象类别“其它：大海”或“其它：天空”中。如果分数Sc’小于阈值Th（S33中为否），则分类单元18将训练图像数据项目Di分类到不同于类别“初始其它”和“其它：c’”的非识别对象类别“其它：其它”中（S35）。其分数Sc’小于阈值Th的训练图像数据项目Di没有与属于四个识别对象类别的图像数据项目类似。因此，训练图像数据项目Di被分类到类别“其它：其它”。

然后，索引i递增1（S36）。如果还没有处理了属于类别“初始其它”的所有训练图像数据项目（S37中为否），则执行步骤S30至S36的处理。

如果已经处理了属于类别“初始其它”的所有训练图像数据项目（S37中为是），则学习模型创建单元14从属于非识别对象类别的训练图像组创建各非识别对象类别的非识别对象生成模型。例如，学习模型创建单元14从属于类别“其它：车”的训练图像组创建非识别对象生成模型（类别“其它：车”的生成模型），从属于类别“其它：狗”的训练图像组创建非识别对象生成模型（类别“其它：狗”的生成模型），从属于类别“其它：大海”的训练图像组创建非识别对象生成模型（类别“其它：大海”的生成模型），并且从属于类别“其它：天空”的训练图像组创建非识别对象生成模型（类别“其它：天空”的生成模型）。结果，总共创建了八个分类器。另外，学习模型创建单元14可以从属于类别“其它：其它”的训练图像组创建非识别对象生成模型（类别“其它：其它”的生成模型）。在该情况下，总共创建了九个分类器。

在接受到未分类的图像数据项目时，识别单元20将各识别对象生成模型和各非识别对象生成模型应用于未分类的图像数据项目，从而确定分数。识别单元20然后将未分类的图像数据项目分类到对应于给出最大分数的生成模型的类别中。

被分类到类别“其它：车”中的非识别对象训练图像数据项目与属于识别对象类别“车”的识别对象训练图像数据项目类似并且可能被错误地识别为“车”的图像数据项目（其甚至不是“车”的图像数据项目）。因此，当将识别对象类别“车”和类别“初始其它”的生成模型应用于可能被错误地识别为“车”的图像数据项目的图像数据项目时，通过应用类别“车”的生成模型获得的分数会大于通过应用类别“初始其它”的生成模型而获得的分数。在这样的情况下，图像数据项目被错误地分类到识别对象类别“车”中。

另一方面，可能被错误地识别为“车”的图像数据项目的图像数据项目对于生成模型“其它：车”给出的分数大于通过应用除了“其它：车”的生成模型以外的生成模型而获得的分数。具体地，当将类别“其它：车”的生成模型以及类别“车”的生成模型应用于图像数据项目时，通过应用类别“其它：车”的生成模型而获得的分数大于通过应用类别“车”的生成模型而获得的分数。结果，可能被错误地识别为“车”的图像数据项目的图像数据项目被分类到是非识别对象类别的类别“其它：车”中而没有分类到类别“车”中。结果，改进了生成模型识别非识别对象图像的能力并且减少了被错误地确定为属于识别对象类别的图像数据项目的数目。因此，改进了检测识别对象类别的精度。

注意的是，类别“其它：车”、“其它：狗”、“其它：大海”和“其它：天空”可以被并入到一个类别中。在该情况下，类别“初始其它”被划分为两个非识别对象类别中。

而且，第二示例可以应用于第三示例。具体地，类别“其它：c’”可以进一步划分为多个非识别对象类别并且可以创建针对各非识别对象类别的生成模型。

在上述示例中的每一个中创建的生成模型可以用作图像识别工具的应用。例如，在自动或半自动收集的训练图像组包括噪声的情况下，从训练图像组创建的生成模型的识别能力在某些情况下降低。在本示例性实施方式中，非识别对象训练图像组被利用识别对象生成模型分类为多个组。由于这计时在训练图像组包括噪声的情况下也改进了非识别对象生成模型的识别能力，因此改进了识别对象类别的检测精度。

例如，上述图像识别装置10被实施为硬件资源和软件彼此协作地操作的结果。具体地，图像识别装置10包括诸如中央处理单元（CPU）的处理器（未示出）。处理器读出存储在存储装置（未示出）中的程序并且执行该程序，从而实施上述训练图像收集单元12、学习模型创建单元14、测试评估单元16、分类单元18和识别单元20的各功能。程序经由诸如压缩盘（CD）或数字通用盘（DVD）的记录介质或者经由诸如网络的通信介质存储在诸如硬盘驱动器（HDD）的存储装置中。或者，程序可以预先存储在诸如HDD的存储装置中。诸如HDD的存储装置中存储的程序被读取到诸如随机访问存储器（RAM）的存储器中，并且由处理器执行，从而实施上述单元的功能。

已经为了示出和描述的目的而提供了本发明的示例性实施方式的上述描述。该描述不意在是详尽的或者将本发明限制到所公开的精确形式。显而易见地，对于本领域技术人员来说，很多修改和变化将是明显的。对实施方式进行选择和描述以最好地解释本发明的原理及其实际应用，从而使得本领域技术人员能够理解本发明的各种实施方式及其适合于预期的特定使用的各种修改。想要的是，本发明的范围由所附权利要求及其等价物限定。

Claims

1.一种图像识别装置，所述图像识别装置包括：

第一生成模型创建单元，所述第一生成模型创建单元从属于识别对象类别的识别对象图像组提取特征信息，并且基于所述特征信息创建第一生成模型，所述第一生成模型用于确定图像属于所述识别对象类别的概率；

分类单元，所述分类单元将所述第一生成模型应用于属于不同于所述识别对象类别的非识别对象类别的各非识别对象图像组以确定非识别对象图像属于所述识别对象类别的概率，并且根据所述概率将所述非识别对象图像分类到多个非识别对象组中的对应的组；以及

第二生成模型创建单元，所述第二生成模型创建单元从属于所述多个非识别对象组中的对应组的各非识别对象图像组提取特征信息，并且基于对应的特征信息创建所述多个非识别对象组各自的第二生成模型，每个第二生成模型用于确定图像属于所述多个非识别对象组中的对应组的概率。

2.根据权利要求1所述的图像识别装置，所述图像识别装置进一步包括：

第三生成模型创建单元，所述第三生成模型创建单元从属于由所述分类单元执行分类之前的所述非识别对象类别的非识别对象图像组提取特征信息，并且基于所述特征信息创建第三生成模型，所述第三生成模型用于确定图像属于所述非识别对象类别的概率，

其中，所述分类单元通过下述步骤将各非识别对象图像组分类到所述多个非识别对象组中的对应组：

将所述第一生成模型和所述第三生成模型应用于属于所述非识别对象类别的各非识别对象图像组，并且

将属于所述非识别对象类别的非识别对象图像组中通过应用所述第一生成模型而获得的概率大于或等于通过应用所述第三生成模型而获得的概率的每个非识别对象图像分类到所述多个非识别对象组中的第一非识别对象组。

3.根据权利要求2所述的图像识别装置，

其中，所述第三生成模型创建单元由没有被分类到所述第一非识别对象组中的非识别对象图像组创建新的第三生成模型，并且

其中，所述分类单元将所述第一生成模型和所述新的第三生成模型应用于没有被分类到所述第一非识别对象组的各非识别对象图像组，并且将通过应用所述第一生成模型而获得的概率大于或等于通过应用所述新的第三生成模型而获得的概率的每个非识别对象图像分类到所述多个非识别对象组中的第二非识别对象组。

4.根据权利要求1至3中的任一项所述的图像识别装置，

其中，所述识别对象类别包括多个识别对象类别，

其中，所述第一生成模型创建单元从属于所述多个识别对象类别中的对应类别的各识别对象图像组提取特征信息，并且基于所述识别对象类别的对应的特征信息创建所述多个识别对象类别各自的所述第一生成模型，并且

其中，所述分类单元将所述多个识别对象类别的所述第一生成模型应用于属于所述非识别对象类别的各非识别对象图像组以确定所述非识别对象图像属于各识别对象类别的概率，并且根据所述概率将所述非识别对象图像分类到所述多个非识别对象组中的对应组。

5.根据权利要求4所述的图像识别装置，

其中，所述分类单元将从所述多个识别对象类别的所述第一生成模型中的同一第一生成模型获得了最大概率的非识别对象图像组分类到所述多个非识别对象组中的同一非识别对象组。

6.根据权利要求1至3中的任一项所述的图像识别装置，所述图像识别装置进一步包括：

识别单元，所述识别单元将所述第一生成模型和所述第二生成模型应用于未分类的图像，并且根据通过将所述第一生成模型和所述第二生成模型应用于所述未分类的图像而获得的结果将所述未分类的图像分类到所述识别对象类别或所述非识别对象类别。

7.根据权利要求4所述的图像识别装置，所述图像识别装置进一步包括：

8.根据权利要求5所述的图像识别装置，所述图像识别装置进一步包括：

9.一种图像识别方法，所述图像识别方法包括下述步骤：

从属于识别对象类别的识别对象图像组提取特征信息，并且基于所述特征信息创建第一生成模型，所述第一生成模型用于确定图像属于所述识别对象类别的概率；

将所述第一生成模型应用于属于不同于所述识别对象类别的非识别对象类别的各非识别对象图像组以确定非识别对象图像属于所述识别对象类别的概率，并且根据所述概率将所述非识别对象图像分类到多个非识别对象组中的对应组；以及

从属于所述多个非识别对象组中的对应组的各非识别对象图像组提取特征信息，并且基于对应的特征信息创建所述多个非识别对象组各自的第二生成模型，每个第二生成模型用于确定图像属于所述多个非识别对象组中的对应组的概率。