CN102667859A

CN102667859A - 由排他性分类器进行的一般物体的图像识别装置及方法

Info

Publication number: CN102667859A
Application number: CN2011800044894A
Authority: CN
Inventors: 华扬; 颜水成; 黄仲阳; 申省梅; 川西亮一
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Intellectual Property Corp of America
Priority date: 2010-09-10
Filing date: 2011-09-09
Publication date: 2012-09-12
Anticipated expiration: 2031-09-09
Also published as: WO2012032788A1; JPWO2012032788A1; US8687851B2; CN102667859B; US20120230546A1; JP5782037B2

Abstract

提供一种图像识别装置，能够提高一般物体的图像识别的性能和可靠性。图像识别装置（1）为，图像分类信息储存单元（20）存储有通过学习时处理得到的表示多种物体各自的图像特征的特征信息，在对输入图像进行分类时，图像特征量计算单元（18）从输入图像提取表示特征量的描述符，对于描述符对应的图像语句进行投票，分类单元（19）基于投票的结果，计算1个以上的物体的存在概率，基于所述存在概率，确定存在的物体的种类，在计算各物体的存在概率时，通过排他性分类器，使用排他性关系信息来调整存在概率，该排他性信息表示被估计为不共存于同一图像内的多个不同种物体（物体标签）的组合。

Description

由排他性分类器进行的一般物体的图像识别装置及方法

技术领域

本发明涉及图像处理及计算机视觉（vision），尤其涉及一般物体的图像识别及索引。

背景技术

近年来，广泛开展了图像分类/识别的研究，尤其是大量开发了使用关联(context)（即人的行动或对象的场所这样的、依存于现实世界的状況或状态的概念。例如，共现关系、相对位置关系、相对比例、背景和前景的关系等属于此类。）信息来提高一般物体的图像识别的性能及可靠性的方法（参照非专利文献1-4）。

在先技术文献

非专利文献

非专利文献1：Serhat S.Bucak et al，Efficient Multi-labelRanking for Multi-class Learning：Application to Object Recognition.，ICCV2009

非专利文献2：Chaitanya Desai et al，Discriminative Models forMulti-class Object Layout，ICCV2009

非专利文献3：H.Liu and S.Yan，Robust graph mode seeking bygraph shift．，ICML 2010

非专利文献4：P.Tseng，On accelerated proximal gradient methodsfor convex-concave optimization.，Submitted to SIAM Journal ofOptimization 2008

发明的概要

发明所要解决的技术课题

但是，图像识别的可靠性尚未达到人类的能力水平，还要求进一步的提高。

发明内容

本申请的目的在于，提供一种比以往更能够提高一般物体的图像识别的可靠性的一般物体的图像识别装置。

解决技术问题所采用的技术手段

为解决上述课题，本发明是进行一般物体识别的图像识别装置，其具备：种类确定单元，参照表示多种物体各自的图像特征性的特征信息，计算在输入图像中1个以上的物体的存在概率，基于所述存在概率，确定存在的物体的种类；以及信息储存单元，存储排他性关系信息，该排他性关系信息表示被估计为不共存于同一图像内的不同种物体的组合；所述种类确定单元使用所述排他性关系信息来调整各物体的存在概率。

发明的效果

本发明的图像识别装置通过具备上述结构，在各物体的存在概率的计算过程中，调整存在概率，以使错误的可能性较高的、被估计为不共存于同一图像内的物体不会成为共存的结果，所以对于各物体，计算出错误的存在概率的可能性降低，能够提高一般物体的识别的可靠性。

附图说明

图1是表示本发明的一实施方式的、对输入图像赋予物体标签的处理（分类时处理）的整体的流程图。

图2是表示本发明的一实施方式的、基于排他性分类器的一般物体的图像识别装置的结构的框图。

图3是表示本发明的一实施方式的排他性标签组的提取处理的图。

图4是表示本发明的一实施方式的、手动地赋予了标签的收集图像的一例的图。

图5是表示本发明的一实施方式的排他性标签组的集合的例的图。

图6是表示本发明的一实施方式的图像语句构筑处理的流程图。

图7是用于说明本发明的一实施方式的图像语句构筑的基本概念的图。

图8是本发明的一实施方式的图像直方图生成处理的一例的流程图。

图9是用于说明本发明的一实施方式的各收集图像的特征量的图。

图10是表示由排他性分类器进行的一般物体的图像识别的概念的图。

具体实施方式

1.实施的形态

以下说明用于实施本发明的形态。

本发明的一实施方式的图像识别装置对输入图像中出现的一般物体进行图像识别，将表示该识别的一般物体的标签（物体标签）附加在输入图像上。本图像识别装置在进行该图像识别时，利用图像中出现的物体的排他性关联信息（排他性关系信息），提高一般物体的图像识别的可靠性和性能。作为排他性关联信息的一例，对于几乎不会一起出现在同一图像中的物体，使用将表示这些物体的物体标签作为组的排他性标签组。

图1是表示对输入图像附加物体标签的处理（分类时处理）的整体的流程图。

首先，取得输入图像（S1），并将输入图像变换为标准尺寸（S2）。然后，对于输入图像提取多个描述符群（S3）。各描述符表示输入图像中的局部区域的特征量。接着，对与提取的描述符分别对应的图像语句进行投票，生成表现输入图像的直方图（输入图像的特征量）（S4）。在此，图像语句是代表特征量较近的多个描述符的描述符。该图像语句是在分类时处理之前进行的、对多个收集图像学习特征量的学习时处理中生成的。接着，通过排他性分类器，比较在S4中生成的输入图像的特征量和学习时处理的学习结果，或使用排他性标签组，计算与输入图像有关的可信性得分（输入图像中的各个物体的存在概率）（S5）。然后，基于与输入图像有关的可信性得分，分配1个以上的物体标签（S6）。

接着，详细说明图像识别装置。

图2是表示本发明的一实施方式的、基于排他性分类器的一般物体的图像识别装置1的结构的框图。

图像识别装置1包括：图像储存部11、学习图像输入单元12、图像特征量计算单元13、排他性标签组提取单元14、分类词表生成单元15、分类模型信息储存单元16、分类图像输入单元17、图像特征量计算单元18、分类单元19、及图像分类信息储存单元20。学习时处理由学习图像输入单元12、图像特征量计算单元13、排他性标签组提取单元14、分类词表生成单元15、及分类模型信息储存单元16执行，基于学习结果对输入图像中出现的物体进行实际分类的分类时处理由作为种类确定单元的分类图像输入单元17、图像特征量计算单元18、分类单元19、及图像分类信息储存单元20执行。

图像储存部11是储存在学习时处理中使用的作为学习用图像的收集图像、及实际作为物体识别的对象的输入图像的储存器件。

在本实施方式中，作为收集图像，使用包含在PASCAL Visual ObjectClasses Challenge 2010（VOC2010）学习用数据组中的带标签图像。

VOC2010学习用数据组由包含有属于20个类（class）的某一个的“物体”（人物、动物、车辆、家具）的多个（作为一例，1万张左右）图像构成。对各收集图像附加有表示在图像中出现的物体的类的标签。与20个类对应的标签，具体来说是“猫”、“飞机”、“自行车”、“鸟”、“船”、“瓶子”、“巴士”、“汽车”、“椅子”、“餐桌”、“狗”、“马”、“摩托车”、“人物”、“植物”、“羊”、“火车”、“TV组”、“牛”、“沙发”，但是当然不限于此。此外，对于类也不限于20个。1张收集图像中有时也包含有多个物体。此外，这些多个物体的类有时相同，有时不同。

图4是收集图像的一例，作为标签赋予了“椅子”、“餐桌”、“TV组”。

接着，说明与学习时处理的动作有关的学习图像输入单元12、图像特征量计算单元13、排他性标签组提取单元14、分类词表生成单元15、及分类模型信息储存单元16。

学习图像输入单元12从图像储存部11依次读出收集图像，并输出到排他性标签组提取单元14和图像特征量计算单元13。

图像特征量计算单元13从输入的图像计算特征量，并生成图像语句。

图6是表示图像特征量计算单元13的图像语句构筑处理的流程图。

图7是用于说明使用输入的图像构筑的图像语句的概念的图。

图像特征量计算单元13首先取得收集图像（作为一例，如图7的收集图像111）（S21），计算图像上的以一定间隔存在的栅格点（以下称为密点。作为一例，如图像112所示的配置为栅格状的点。）和特征性的离散点（以下称为离散点。作为一例，如图像113所示的点。）（S22）。特征性的离散点是亮度和形状急剧变化的特征性的点，例如表示猫的眼睛的一部分和耳朵的前端的点等属于此类。另外，以下有时将密点和离散点统称为特征点。接着，图像特征量计算单元13在特征点及其周边提取描述符（S23）。描述符的提取作为一例，使用已知的SIFT（Scale Invariant Feature Transform）算法。SIFT决定特征点的代表亮度坡度方向，以该方向为基准，制作其他方向的亮度坡度直方图，以多维矢量来记述特征量。由此，具有对旋转·比例变化·照明变化较灵敏的特征。

图7的图像114示意性地表示提取的描述符。在此，上述描述符是表示1张图像内的局部区域的特征的局部描述符，但是作为描述符，也可以使用表示图像整体区域的特征（例如图像整体的色相分布等）的整体描述符。此外，也可以将局部描述符和整体描述符的两者组合使用。

接着，图像特征量计算单元13将提取的描述符全部放入描述符池（pool）。图7的图像115是示意性地表示密点的描述符池的图，图像116是示意性地表示离散点的描述符池的图。

然后，图像特征量计算单元13从各描述符池随机地选择描述符并构筑图像语句。图像语句如前所述，是代表特征量较近的多个描述符的描述符。作为图像语句，可以使用将各描述符矢量量子化后的数据。

图像117示意性地表示对“猫”生成的图像语句，包括：包含从密点的描述符池选择的描述符的图像语句（图像118中示出一例）、以及包含从密点的描述符池选择的描述符的图像语句（图像119中示出一例）。

接着，图像特征量计算单元13对收集图像分别生成图像语句的直方图。

图8是表示图像直方图生成处理的流程图。

图像特征量计算单元13首先取得收集图像（S31），对于收集图像计算特征点（S32），提取特征点及其周边的描述符（S33）。到该S31～S33为止的处理是与作为上述S21～S23说明的处理相同的动作。

然后，通过对与收集图像的各描述符最近似的图像语句进行投票，导出表现各收集图像的直方图（S34）。以下将表现图像的直方图称为图像的特征量。

图9是用于说明各收集图像的特征量的图。

图9的特征量211示意性地表示基于向以图7说明的方法构筑的图像语句的投票结果计算的收集图像的特征量。在此，也可以在图像的特征量中追加图像中的空间信息。作为一例，也可以将图像在空间上4等分、3等分等，并分别生成直方图（图9的图像221等）。

另外，表现收集图像及输入图像的多个图像直方图可以通过bag-of-words模型来表现。

排他性标签组提取单元14进行排他性标签组的提取。

图5表示排他性标签组的集合的例。

如上所述，“火车”、“TV组”分别是标签，作为标签的集合的｛火车、TV组、船、餐桌｝是1个排他性标签组。1个排他性标签组表示在1个图像中不会同时出现的物体的组合。如果是排他性标签组｛火车、TV组、羊、船、餐桌｝的情况，在1图像中出现“火车”时，在该图像中不会出现TV组、羊、船、餐桌的任一个。

这样的排他性标签组可以手动地（根据人的经验导出）决定，也可以从收集图像等通过统计的方法来提取。在本实施方式中，排他性标签组提取单元14预先保持已知的排他性标签组。关于通过统计方法来提取的例，在后面作为变形例来说明。此外，排他性标签组越充实，则越能提高将物体分类的效果，所以可以手动地制作被推测为对分类有效的排他性标签组，或者制作仅关注了特别想要分类的项目的排他性标签组。

分类词表生成单元15将各收集图像的特征量和排他性标签组作为分类词表，储存在分类模型信息储存单元16中。

接着，说明与分类时处理有关的分类图像输入单元17、图像特征量计算单元18、分类单元19、及图像分类信息储存单元20。

分类图像输入单元17从图像储存部11读出作为物体标签赋予的对象的图像（输入图像），并供给至图像特征量计算单元18。

图像特征量计算单元18对于输入图像计算表现输入图像的特征量。该计算特征量的处理与使用图8及图9说明的图像特征量计算单元13的处理相同，所以省略说明。

分类单元19具有排他性分类器，由排他性分类器进行一般物体的图像识别处理。分类单元19基于由图像特征量计算单元18生成的输入图像的特征量和通过学习时处理计算出的各收集图像的特征量，计算输入图像中包含的各物体的可信性得分，基于可信性得分，确定输入图像中存在的物体的种类。本实施方式中的排他性分类器是使用排他性关联信息，并利用LASSO（Least Absolute Shrinkage and Selection Operator/最小绝对收缩和选择算子）估计的类型的分类器。以往，在LASSO框架中，最优化的对象由表示复原错误值及复原系数w的正则值这2个值的项目构成。复原错误值用于测定输入图像的特征量和根据全收集图像的特征量使用复原系数线性复原的特征量的差（复原的特征量的妥当性），妥当性越低则复原错误值越高。

对此，在本实施方式中，定义与使用了排他性标签组的复原系数对应的新的正则化条件。与使用了该新的正则化条件的、具有特征量y∈R^m的输入图像有关的标签排他性线性表现模型如下所示。

(\hat{w}, \hat{u}) = \arg \min_{w, u} \frac{1}{2} {| | y - Xw | |}_{2}^{2} + \frac{λ}{2} \underset{G_{i} &Element; G}{Σ} {| | u_{G_{i}} | |}_{1}^{2} - - - (1)

s.t.u＝Lw

在该新的公式中，X∈R^m×n（i．e．X＝［x₁，x₂，·…，x_n］，x_i∈R^m）表示各收集图像的特征量。这些各收集图像的特征量是如上所述由图像特征量计算单元13计算出的。在此，n是收集图像的数量。此外，m是描述符的维数，与构成图像语句的描述符的数量一致。w∈Rⁿ是对输入图像评价的、与所有物体类有关的线性复原系数。此外，u∈R^p是对输入图像评价的可信性得分。G表示从收集图像数据组通过统计方法得到的排他性标签组群，由各排他性标签组G_i规定的物体标签在同一图像内至多出现1个。特别地，u_Gi表示赋予了附加字G_i的u的排列，是在式（1）的运算过程中，在检测到排他性标签组的情况下设定的罚值。u_Gi中取L1范数，对Gi取得稀疏（sparse）性。在此，在各个G_i中，必须仅选择至多1个标签。此外，u_Gi中的L2范数将包含同一物体的所有可能成立的排他性组相互连结。换言之，这些排他性组表示同一事物可能重复。具体地说，排他性标签组G_i分别是具有p个要素的矢量，各要素与物体（“飞机”、“自行车”、“鸟”、“船”、“瓶子”、“巴士”、“汽车”、“猫”、“椅子”、“牛”、“餐桌”、“狗”、“马”、“摩托车”、“人物”、“植物”、“羊”、“沙发”、“火车”、“TV组”）分别对应，对于处于排他性关系的物体设定值1，对于其他物体设定值0。例，图5的表示包含有“火车、TV组、羊、船、餐桌”的排他性标签组的矢量是［0 0 01 0 0 0 0 0 0 1 0 0 0 0 0 1 0 1 1］。

在此，对于上述w、u，使用图10进行补充说明。

图10的w₁*x₁＋w₂*x₂·…w_n*x_n（＝Xw）示意性地表示根据全部收集图像的特征量x₁、x₂、···x_n将输入图像的特征量y线性复原的情况。并且，在该复原过程生成的w用于计算可信性得分。

可信性得分u∈R^p通过图10中的式u＝w₁*l₁+w₂*l₂···w_n*l_n来计算。P表示收集图像组中的物体类的总数。标签L∈R^p×n（i．e.L＝［l1、12、···、ln］）表示与标签对应的图像（图像1、图像2、…图像n）中包含的物体的标签。l1、12、···、ln分别是具有p个要素的矢量（标签矢量），各要素表示物体（“飞机”、“自行车”、“鸟”、“船”、“瓶子”、“巴士”、“汽车”、“猫”、“椅子”、“牛”、“餐桌”、“狗”、“马”、“摩托车”、“人物”、“植物”、“羊”、“沙发”、“火车”、“TV组”）的存在有无（存在的情况下为1、不存在的情况下为0）。例如，图4的椅子、餐桌、TV组所存在的图像的标签矢量为［00 0 0 0 0 0 1 0 1 0 0 0 0 0 0 0 0 0 1］。在图10中，对于l1、12、···、ln，将各要素为值“1”的情况示意性地用黑点表示，将各要素为值“0”的情况示意性地用白点表示。作为一例，对于猫的可信性得分可以通过将对猫的要素设定了“1”的各标签的w相加来计算。以上结束了对图10的补充说明，回到上述式（1）的说明。

式（1）的第1项如上述是复原错误值，具体地说，表示输入图像的特征量y和根据全部收集图像线性复原的特征量Xw之间的差的大小。复原错误值越小，则表示根据全部收集图像线性复原的特征量的妥当性、即w的妥当性越高。

此外，式（1）的第2项是罚项，在判断为在输入图像中同时出现了包含在排他性标签组中的2个以上的物体时，罚项的值变大。另外λ是正则化的比率，是表示如何考虑第2项的任意常数。

将该式（1）整体最小化的w∈Rⁿ是最佳的复原系数，该w能够通过求解式（1）的所谓最优化问题而导出。对于最优化问题，可以使用已知的算法（最急下降法、直线检索等）来求解。作为实际的处理，对w赋予初始点，进行式整体的值的计算和评价，然后通过最急下降法或直线检索等方法来重复临时w的决定、式整体的值的计算和评价，最终求出式（1）整体成为最小的最佳的w。

在该重复过程中，在决定临时w时，使用临时w来计算临时可信性得分，基于计算的临时可信性得分判断为存在2个以上物体的情况下，在该2个以上的物体属于排他性标签组Gi的情况下，对式（1）的第2项的u_Gi设定规定的罚值（例如“1”）。结果，式（1）的第2项的值变大，式（1）整体的值变大。由此，下次临时决定的w被调整为，包含在该排他性标签组中的2个以上的物体的各自的可信性得分降低。

使用如以上那样解决了最优化问题、并最终决定的w计算出的可信性得分反映了在输入图像中出现的物体是否对应于以排他性标签组表示的物体的组合，所以与以往相比，可信性得分的妥当性变高。此外，临时决定w时考虑了是否对应于排他性标签组，所以临时w的妥当性比以往提高，得到最终的妥当的结果w为止的时间变短。即，运算效率比以往提高。

另外，可以想到并用作为一般的分类器的GMM（Gauss ian mixturemodel/高斯混合模型）和SVM（Support Vector Machine/支持向量机）等，将由多个分类器计算的可信性得分合成并计算最终的可信性得分而利用，从而提高分类性能。

2．变形例

另外，基于上述实施方式说明了本发明，但本发明不限于上述实施方式，在不脱离本发明的主旨的范围内当然可以进行各种变更。

(A）为了求解上述式（1）的最优化问题，可以应用拉格朗日待定系数法。因此，也可以不求解式（1）所示的带制约的最优化问题，而求解式（2）所记载的缓和后的非制约最优化问题。

(\hat{w}, \hat{u}) = \arg \min_{w, u} \frac{1}{2} {| | y - Xw | |}_{2}^{2} + μ {| | u - Lw | |}_{2}^{2} + \frac{λ}{2} \underset{G_{i} &Element; G}{Σ} {| | u_{G_{i}} | |}_{1}^{2} - - - (2)

在此，μ是所谓拉格朗日系数，μ≥0。式（2）可以通过一般的二次计划（QP）解算机来求解。作为QP解算机的一种的、非专利文献4记载的APG（Accelerated Proximal Gradi ent：高速接近坡度）方法能够有效解出式（2），并且容易安装。

(B）排他性标签组提取单元14设为预先保持排他性标签组，但是不限于此，也可以从收集图像使用曲线平移法（参照非专利文献3）等来生成。曲线平移法原来是用于提取共现度的程度的方法，但是通过取得在图像内未共现物体的曲线，能够生成排他性标签组。

为了有效且高效地得到排他性标签组，曲线平移法作为将排他性标签组作为根据收集图像适当定义的排他性加权标签曲线中的密集的副曲线来学习的典型的方法来使用。

图3是表示排他性标签组的提取处理的图。

在本处理中，首先收集图像（S11），接着根据收集图像赋予附加了正解的信息（背景实况（ground truth）信息）（S12），基于背景实况信息求出排他性标签组（S13）。以下详细说明。

首先，排他性加权标签曲线G^＝＜V，E＞可以从收集图像使用背景实况信息来构成。在此，节点集合V的浓度为p（表示收集图像中的物体标签群的尺寸）。并且，边集合

表示排他性曲线拓扑。此外，对于G^，以排他性加权矩阵W＝｛w_ij｝∈R^p×p这样的形式来表现也是等价的。为了进行计算处理，排他性加权矩阵可以如下定义。即，在收集图像中包含的图像的任一个中，v_i及v_j都不同时出现的情况下，定义w_ij＝1，在此之外的情况下，定义w_ij＝0。在排他性曲线的构筑顺序中不存在自循环。

为了以排他性发现密集的副曲线，使用以下标准的二次最优化问题(QP）。

\hat{x} = \underset{x}{\arg \max} x^{T} Wx - - - (3)

在上式中，x表示排他性加权标签曲线G^中的1个密集的副曲线（即1个排他性图像组）。在此，按照排他性标签组的原则（在收集图像数据组的任一个图像中，排他性标签组中包含的标签至多只出现1个），x被限制条件x≥O，‖x‖₁＝1约束。‖x‖₁表示，为了表现在1张图像中只出现1个标签，而设定了值1的x的L1范数。

根据以上的曲线平移法，不只是统计性地提取未被观测的排他性标签组，而是为了加入排他性标签组的权重，而能够提取作为曲线而未共同出现的标签组合。并且，越是未出现的标签组合，越能作为较密集的副曲线取得，所以能够对排他性标签组赋予优先度的权重而提取。

(c）以下进一步说明作为本发明的一实施形态的图像识别装置和效果。

本发明的一实施方式的图像识别装置是进行一般物体识别的图像识别装置，具备：种类确定单元，参照表示多种物体各自的图像特征的特征信息，计算在输入图像中1个以上的物体的存在概率，基于所述存在概率，确定存在的物体的种类；以及信息储存单元，存储排他性关系信息，该排他性关系信息表示被估计为不共存于同一图像内的不同种物体的组合；所述种类确定单元使用所述排他性关系信息来调整各物体的存在概率。

此外，也可以是，所述调整使与通过所述排他性关系信息表示的组合相对应的物体的存在概率降低。

此外，也可以是，所述存在概率的计算使用LASSO估计，所述存在概率的降低通过对LASSO正则化项赋予罚值来进行。

此外，也可以是，所述排他性关系信息规定多个不同种物体的组合，将计算出所述规定概率以上的存在概率的各物体分别组合规定个数时，与通过所述排他性关系信息规定的组合相对应的数量越多，则所述罚值被赋予越大的值。

此外，也可以是，所述调整使用下式进行，

(\hat{w}, \hat{u}) = \arg \min_{w, u} \frac{1}{2} {| | y - Xw | |}_{2}^{2} + \frac{λ}{2} \underset{G_{i} &Element; G}{Σ} {| | u_{G_{i}} | |}_{1}^{2}

y∈R^m是输入图像的特征量，X∈R^m×n是各收集图像的特征量，n是学习用的图像即收集图像的数量，m是描述符的维数，w∈Rⁿ是对输入图像评价的、与所有物体类有关的线性复原系数，G_i是排他性标签组，u_Gi是使与G_i相对应的物体的存在概率降低的罚值。

此外，也可以是，使用统计方法，从图像内存在的物体为已知的学习用的图像群来决定所述排他性关系信息。

根据该结构，在各物体的存在概率的计算过程中，对存在概率进行调整，以使错误的可能性较高的、估计为不共存于同一图像内的物体不会成为共存的结果，所以对于各物体，计算出错误的存在概率的可能性降低，能够提高一般物体的识别的可靠性。

此外，也可以是，使用曲线平移法从图像内存在的物体为已知的学习用的图像群来决定所述排他性关系信息。

根据该结构，处于不共存的关系的物体标签作为密集的副曲线得到，所以能够生成赋予了优先度的权重的排他性关系信息。

此外，本发明的一实施方式的图像识别方法是在进行一般物体识别的图像识别装置中使用的图像识别方法，其包括：信息储存步骤，存储排他性关系信息，该排他性关系信息表示被估计为不共存于同一图像内的不同种物体的组合；以及种类确定步骤，参照表示多种物体各自的图像特征的特征信息，计算在输入图像中1个以上的物体的存在概率，基于所述存在概率，确定存在的物体的种类；在所述种类确定步骤中，在所述存在概率的计算时，使用所述排他性关系信息来调整各物体的存在概率。

此外，本发明的一实施方式的计算机程序是在进行一般物体识别的图像识别装置的计算机程序，使计算机执行：信息储存步骤，存储排他性关系信息，该排他性关系信息表示被估计为不共存于同一图像内的不同种物体的组合；以及种类确定步骤，参照表示多种物体各自的图像特征的特征信息，计算在输入图像中1个以上的物体的存在概率，基于所述存在概率，确定存在的物体的种类；在所述种类确定步骤中，在所述存在概率的计算时，使用所述排他性关系信息来调整各物体的存在概率。

此外，本发明的一实施方式的集成回路是在进行一般物体识别的图像识别装置中使用的集成回路，具备：种类确定单元，参照表示多种物体各自的图像特征的特征信息，计算在输入图像中1个以上的物体的存在概率，基于所述存在概率，确定存在的物体的种类；以及信息储存单元，存储排他性关系信息，该排他性关系信息表示被估计为不共存于同一图像内的不同种物体的组合；所述种类确定单元使用所述排他性关系信息来调整各物体的存在概率。

（D）对于构成上述各装置的结构要素的一部分或全部，可以将控制程序记录在记录介质中，或经由各种通信路来流通或颁布，该控制程序由机器语言或高级语言的程序代码构成，该程序代码使图像识别装置的处理器、及与该处理器连接的各种电路执行构成上述各装置的结构要素的一部分或全部。这样的记录介质有IC卡、硬盘、光盘、软盘、ROM、闪存器等。流通并颁布的控制程序通过保存在能够由处理器读取的存储器中来供利用，通过该处理器执行该控制程序来实现实施方式所示的各功能。另外，处理器除了直接执行控制程序以外，也可以编译而执行或通过编译器来执行。

（E）构成上述各装置的结构要素的一部分或全部可以由实现构成要素的功能的电路来构成，或由实现构成要素的功能的程序及执行该程序的处理器构成，或者由1个系统LSI（Large Scale Integration：大规模集成电路）构成。系统LSI是将多个结构部集成在1个芯片上而制造的超多功能LSI，具体地说，是包含微处理器、ROM、RAM等而构成的计算机系统。所述RAM中存储有计算机程序。所述微处理器按照所述计算机程序进行动作，从而系统LSI达成其功能。可以将这些结构单独地1芯片化，也可以包含一部分或全部地1芯片化。

此外，在此采用了系统LSI，但是根据集成度的不同，有时也称为IC，系统LSI、超级LSI、特特级LSI。

此外，集成电路化的方法不限于LSI，也可以通过专用电路或通用处理器来实现。LSI制造后，也可以利用可编程的FPGA（Field Programmable GateArray）或可以将LSI内部的电路连接和设定再构成的可重组处理器。

进而，如果通过半导体技术的进步或派生的其他技术而出现了能够替换LSI的集成电路化的技术，当然可以使用该技术来进行功能块的集成化。生物技术的应用也具有可能性。

（F）构成上述各装置的结构要素的一部分或全部也可以由在各装置上可拆装的IC卡或单体的模块构成。所述IC卡或所述模块是由微处理器、ROM、RAM等构成的计算机系统。所述IC卡或所述模块也可以包含上述超多功能LSI。微处理器按照计算机程序进行动作，从而所述IC卡或所述模块达成其功能。该IC卡或该模块也可以具有防篡改性。

(G）本发明也可以是上述所示的方法。此外，可以是由计算机实现这些方法的计算机程序，也可以是由所述计算机程序构成的数字信号。

此外，本发明也可以将所述计算机程序或所述数字信号记录在计算机可读取的记录介质中，例如软盘、硬盘、CD-ROM、MO、DVD、DVD-ROM、DVD-RAM、D（Blu-ray Disc）、半导体存储器等。此外，也可以是记录在这些中的所述计算机程序或所述数字信号。

此外，本发明也可以将所述计算机程序或所述数字信号经由电气通信线路、无线或有线通信线路、以因特网为代表的网络、数据广播等来传输。

此外，通过将所述程序或所述数字信号记录在所述记录介质中并转移，或将所述程序或所述数字信号经由所述网络等转移，能够通过独立的其他计算机系统来实施。

(H）也可以将上述实施方式及上述变形例分别组合。

产业上的可利用性

本发明优选为，在大量保存拍摄有一般物体的照片数据等时，编入对照片数据分别附加标签并管理的数据管理装置中而使用。

符号说明

1图像识别装置

11图像储存部

12学习图像输入单元

13图像特征量计算单元

14排他性标签组提取单元

15分类词表生成单元

16分类模型信息储存单元

17分类图像输入单元

18图像特征量计算单元

19分类单元

20图像分类信息储存单元

权利要求书(按照条约第19条的修改)

1.一种图像识别装置，进行一般物体识别，其特征在于，具备：

种类确定单元，参照表示多种物体各自的图像特征的特征信息，使用LASSO估计，计算在输入图像中1个以上的物体的存在概率，基于所述存在概率，确定存在的物体的种类；以及

信息储存单元，存储排他性关系信息，该排他性关系信息表示被估计为不共存于同一图像内的不同种物体的组合；

所述种类确定单元使用所述排他性关系信息来调整各物体的存在概率，

所述调整是通过对LASSO正则化项赋予罚值，使与通过所述排他性关系信息表示的组合相对应的物体的存在概率降低来进行的。

2.如权利要求1所述的图像识别装置，其特征在于，

所述排他性关系信息规定多个不同种物体的组合，

将计算出所述规定概率以上的存在概率的各物体分别组合规定个数时，与通过所述排他性关系信息规定的组合相对应的数量越多，所述罚值被赋予越大的值。

3.如权利要求1所述的图像识别装置，其特征在于，

所述调整使用下式进行，

(\hat{w}, \hat{u}) = \arg \min_{w, u} \frac{1}{2} {| | y - Xw | |}_{2}^{2} + \frac{λ}{2} \underset{G_{i} &Element; G}{Σ} {| | u_{G_{i}} | |}_{1}^{2}

4.如权利要求1所述的图像识别装置，其特征在于，

使用统计的方法，从图像内存在的物体为已知的学习用的图像群来决定所述排他性关系信息。

5.如权利要求1所述的图像识别装置，其特征在于，

使用曲线平移法从图像内存在的物体为已知的学习用的图像群来决定所述排他性关系信息。

6.一种图像识别方法，在进行一般物体识别的图像识别装置中使用，其特征在于，包括以下步骤：

信息储存步骤，存储排他性关系信息，该排他性关系信息表示被估计为不共存于同一图像内的不同种物体的组合；以及

种类确定步骤，参照表示多种物体各自的图像特征的特征信息，使用LASSO估计，计算在输入图像中1个以上的物体的存在概率，基于所述存在概率，确定存在的物体的种类；

在所述种类确定步骤中，在计算所述存在概率时，使用所述排他性关系信息来调整各物体的存在概率，

7.一种计算机程序，在进行一般物体识别的图像识别装置中使用，其特征在于，使计算机执行：

8.一种集成电路，在进行一般物体识别的图像识别装置中使用，其特征在于，具备：

Claims

种类确定单元，参照表示多种物体各自的图像特征的特征信息，计算在输入图像中1个以上的物体的存在概率，基于所述存在概率，确定存在的物体的种类；以及

所述种类确定单元使用所述排他性关系信息来调整各物体的存在概率。

2.如权利要求1所述的图像识别装置，其特征在于，

所述调整使与通过所述排他性关系信息表示的组合相对应的物体的存在概率降低。

3.如权利要求2所述的图像识别装置，其特征在于，

所述存在概率的计算使用LASSO来估计，

所述存在概率的降低通过对LASSO正则化项赋予罚值来进行。

4.如权利要求3所述的图像识别装置，其特征在于，

所述排他性关系信息规定多个不同种物体的组合，

5.如权利要求2所述的图像识别装置，其特征在于，

所述调整使用下式进行，

(\hat{w}, \hat{u}) = \arg \min_{w, u} \frac{1}{2} {| | y - Xw | |}_{2}^{2} + \frac{λ}{2} \underset{G_{i} &Element; G}{Σ} {| | u_{G_{i}} | |}_{1}^{2}

6.如权利要求1所述的图像识别装置，其特征在于，

7.如权利要求1所述的图像识别装置，其特征在于，

8.一种图像识别方法，在进行一般物体识别的图像识别装置中使用，其特征在于，包括以下步骤：

种类确定步骤，参照表示多种物体各自的图像特征的特征信息，计算在输入图像中1个以上的物体的存在概率，基于所述存在概率，确定存在的物体的种类；

在所述种类确定步骤中，在计算所述存在概率时，使用所述排他性关系信息来调整各物体的存在概率。

9.一种计算机程序，在进行一般物体识别的图像识别装置中使用，其特征在于，使计算机执行：

10.一种集成电路，在进行一般物体识别的图像识别装置中使用，其特征在于，具备：