CN102667859A - 由排他性分类器进行的一般物体的图像识别装置及方法 - Google Patents

由排他性分类器进行的一般物体的图像识别装置及方法 Download PDF

Info

Publication number
CN102667859A
CN102667859A CN2011800044894A CN201180004489A CN102667859A CN 102667859 A CN102667859 A CN 102667859A CN 2011800044894 A CN2011800044894 A CN 2011800044894A CN 201180004489 A CN201180004489 A CN 201180004489A CN 102667859 A CN102667859 A CN 102667859A
Authority
CN
China
Prior art keywords
image
probability
exclusiveness
relation information
exists
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2011800044894A
Other languages
English (en)
Other versions
CN102667859B (zh
Inventor
华扬
颜水成
黄仲阳
申省梅
川西亮一
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Intellectual Property Corp of America
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Publication of CN102667859A publication Critical patent/CN102667859A/zh
Application granted granted Critical
Publication of CN102667859B publication Critical patent/CN102667859B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/30Scenes; Scene-specific elements in albums, collections or shared content, e.g. social network photos or video
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/70Labelling scene content, e.g. deriving syntactic or semantic representations

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Image Analysis (AREA)

Abstract

提供一种图像识别装置,能够提高一般物体的图像识别的性能和可靠性。图像识别装置(1)为,图像分类信息储存单元(20)存储有通过学习时处理得到的表示多种物体各自的图像特征的特征信息,在对输入图像进行分类时,图像特征量计算单元(18)从输入图像提取表示特征量的描述符,对于描述符对应的图像语句进行投票,分类单元(19)基于投票的结果,计算1个以上的物体的存在概率,基于所述存在概率,确定存在的物体的种类,在计算各物体的存在概率时,通过排他性分类器,使用排他性关系信息来调整存在概率,该排他性信息表示被估计为不共存于同一图像内的多个不同种物体(物体标签)的组合。

Description

由排他性分类器进行的一般物体的图像识别装置及方法
技术领域
本发明涉及图像处理及计算机视觉(vision),尤其涉及一般物体的图像识别及索引。
背景技术
近年来,广泛开展了图像分类/识别的研究,尤其是大量开发了使用关联(context)(即人的行动或对象的场所这样的、依存于现实世界的状況或状态的概念。例如,共现关系、相对位置关系、相对比例、背景和前景的关系等属于此类。)信息来提高一般物体的图像识别的性能及可靠性的方法(参照非专利文献1-4)。
在先技术文献
非专利文献
非专利文献1:Serhat S.Bucak et al,Efficient Multi-labelRanking for Multi-class Learning:Application to Object Recognition.,ICCV2009
非专利文献2:Chaitanya Desai et al,Discriminative Models forMulti-class Object Layout,ICCV2009
非专利文献3:H.Liu and S.Yan,Robust graph mode seeking bygraph shift.,ICML 2010
非专利文献4:P.Tseng,On accelerated proximal gradient methodsfor convex-concave optimization.,Submitted to SIAM Journal ofOptimization 2008
发明的概要
发明所要解决的技术课题
但是,图像识别的可靠性尚未达到人类的能力水平,还要求进一步的提高。
发明内容
本申请的目的在于,提供一种比以往更能够提高一般物体的图像识别的可靠性的一般物体的图像识别装置。
解决技术问题所采用的技术手段
为解决上述课题,本发明是进行一般物体识别的图像识别装置,其具备:种类确定单元,参照表示多种物体各自的图像特征性的特征信息,计算在输入图像中1个以上的物体的存在概率,基于所述存在概率,确定存在的物体的种类;以及信息储存单元,存储排他性关系信息,该排他性关系信息表示被估计为不共存于同一图像内的不同种物体的组合;所述种类确定单元使用所述排他性关系信息来调整各物体的存在概率。
发明的效果
本发明的图像识别装置通过具备上述结构,在各物体的存在概率的计算过程中,调整存在概率,以使错误的可能性较高的、被估计为不共存于同一图像内的物体不会成为共存的结果,所以对于各物体,计算出错误的存在概率的可能性降低,能够提高一般物体的识别的可靠性。
附图说明
图1是表示本发明的一实施方式的、对输入图像赋予物体标签的处理(分类时处理)的整体的流程图。
图2是表示本发明的一实施方式的、基于排他性分类器的一般物体的图像识别装置的结构的框图。
图3是表示本发明的一实施方式的排他性标签组的提取处理的图。
图4是表示本发明的一实施方式的、手动地赋予了标签的收集图像的一例的图。
图5是表示本发明的一实施方式的排他性标签组的集合的例的图。
图6是表示本发明的一实施方式的图像语句构筑处理的流程图。
图7是用于说明本发明的一实施方式的图像语句构筑的基本概念的图。
图8是本发明的一实施方式的图像直方图生成处理的一例的流程图。
图9是用于说明本发明的一实施方式的各收集图像的特征量的图。
图10是表示由排他性分类器进行的一般物体的图像识别的概念的图。
具体实施方式
1.实施的形态
以下说明用于实施本发明的形态。
本发明的一实施方式的图像识别装置对输入图像中出现的一般物体进行图像识别,将表示该识别的一般物体的标签(物体标签)附加在输入图像上。本图像识别装置在进行该图像识别时,利用图像中出现的物体的排他性关联信息(排他性关系信息),提高一般物体的图像识别的可靠性和性能。作为排他性关联信息的一例,对于几乎不会一起出现在同一图像中的物体,使用将表示这些物体的物体标签作为组的排他性标签组。
图1是表示对输入图像附加物体标签的处理(分类时处理)的整体的流程图。
首先,取得输入图像(S1),并将输入图像变换为标准尺寸(S2)。然后,对于输入图像提取多个描述符群(S3)。各描述符表示输入图像中的局部区域的特征量。接着,对与提取的描述符分别对应的图像语句进行投票,生成表现输入图像的直方图(输入图像的特征量)(S4)。在此,图像语句是代表特征量较近的多个描述符的描述符。该图像语句是在分类时处理之前进行的、对多个收集图像学习特征量的学习时处理中生成的。接着,通过排他性分类器,比较在S4中生成的输入图像的特征量和学习时处理的学习结果,或使用排他性标签组,计算与输入图像有关的可信性得分(输入图像中的各个物体的存在概率)(S5)。然后,基于与输入图像有关的可信性得分,分配1个以上的物体标签(S6)。
接着,详细说明图像识别装置。
图2是表示本发明的一实施方式的、基于排他性分类器的一般物体的图像识别装置1的结构的框图。
图像识别装置1包括:图像储存部11、学习图像输入单元12、图像特征量计算单元13、排他性标签组提取单元14、分类词表生成单元15、分类模型信息储存单元16、分类图像输入单元17、图像特征量计算单元18、分类单元19、及图像分类信息储存单元20。学习时处理由学习图像输入单元12、图像特征量计算单元13、排他性标签组提取单元14、分类词表生成单元15、及分类模型信息储存单元16执行,基于学习结果对输入图像中出现的物体进行实际分类的分类时处理由作为种类确定单元的分类图像输入单元17、图像特征量计算单元18、分类单元19、及图像分类信息储存单元20执行。
图像储存部11是储存在学习时处理中使用的作为学习用图像的收集图像、及实际作为物体识别的对象的输入图像的储存器件。
在本实施方式中,作为收集图像,使用包含在PASCAL Visual ObjectClasses Challenge 2010(VOC2010)学习用数据组中的带标签图像。
VOC2010学习用数据组由包含有属于20个类(class)的某一个的“物体”(人物、动物、车辆、家具)的多个(作为一例,1万张左右)图像构成。对各收集图像附加有表示在图像中出现的物体的类的标签。与20个类对应的标签,具体来说是“猫”、“飞机”、“自行车”、“鸟”、“船”、“瓶子”、“巴士”、“汽车”、“椅子”、“餐桌”、“狗”、“马”、“摩托车”、“人物”、“植物”、“羊”、“火车”、“TV组”、“牛”、“沙发”,但是当然不限于此。此外,对于类也不限于20个。1张收集图像中有时也包含有多个物体。此外,这些多个物体的类有时相同,有时不同。
图4是收集图像的一例,作为标签赋予了“椅子”、“餐桌”、“TV组”。
接着,说明与学习时处理的动作有关的学习图像输入单元12、图像特征量计算单元13、排他性标签组提取单元14、分类词表生成单元15、及分类模型信息储存单元16。
学习图像输入单元12从图像储存部11依次读出收集图像,并输出到排他性标签组提取单元14和图像特征量计算单元13。
图像特征量计算单元13从输入的图像计算特征量,并生成图像语句。
图6是表示图像特征量计算单元13的图像语句构筑处理的流程图。
图7是用于说明使用输入的图像构筑的图像语句的概念的图。
图像特征量计算单元13首先取得收集图像(作为一例,如图7的收集图像111)(S21),计算图像上的以一定间隔存在的栅格点(以下称为密点。作为一例,如图像112所示的配置为栅格状的点。)和特征性的离散点(以下称为离散点。作为一例,如图像113所示的点。)(S22)。特征性的离散点是亮度和形状急剧变化的特征性的点,例如表示猫的眼睛的一部分和耳朵的前端的点等属于此类。另外,以下有时将密点和离散点统称为特征点。接着,图像特征量计算单元13在特征点及其周边提取描述符(S23)。描述符的提取作为一例,使用已知的SIFT(Scale Invariant Feature Transform)算法。SIFT决定特征点的代表亮度坡度方向,以该方向为基准,制作其他方向的亮度坡度直方图,以多维矢量来记述特征量。由此,具有对旋转·比例变化·照明变化较灵敏的特征。
图7的图像114示意性地表示提取的描述符。在此,上述描述符是表示1张图像内的局部区域的特征的局部描述符,但是作为描述符,也可以使用表示图像整体区域的特征(例如图像整体的色相分布等)的整体描述符。此外,也可以将局部描述符和整体描述符的两者组合使用。
接着,图像特征量计算单元13将提取的描述符全部放入描述符池(pool)。图7的图像115是示意性地表示密点的描述符池的图,图像116是示意性地表示离散点的描述符池的图。
然后,图像特征量计算单元13从各描述符池随机地选择描述符并构筑图像语句。图像语句如前所述,是代表特征量较近的多个描述符的描述符。作为图像语句,可以使用将各描述符矢量量子化后的数据。
图像117示意性地表示对“猫”生成的图像语句,包括:包含从密点的描述符池选择的描述符的图像语句(图像118中示出一例)、以及包含从密点的描述符池选择的描述符的图像语句(图像119中示出一例)。
接着,图像特征量计算单元13对收集图像分别生成图像语句的直方图。
图8是表示图像直方图生成处理的流程图。
图像特征量计算单元13首先取得收集图像(S31),对于收集图像计算特征点(S32),提取特征点及其周边的描述符(S33)。到该S31~S33为止的处理是与作为上述S21~S23说明的处理相同的动作。
然后,通过对与收集图像的各描述符最近似的图像语句进行投票,导出表现各收集图像的直方图(S34)。以下将表现图像的直方图称为图像的特征量。
图9是用于说明各收集图像的特征量的图。
图9的特征量211示意性地表示基于向以图7说明的方法构筑的图像语句的投票结果计算的收集图像的特征量。在此,也可以在图像的特征量中追加图像中的空间信息。作为一例,也可以将图像在空间上4等分、3等分等,并分别生成直方图(图9的图像221等)。
另外,表现收集图像及输入图像的多个图像直方图可以通过bag-of-words模型来表现。
排他性标签组提取单元14进行排他性标签组的提取。
图5表示排他性标签组的集合的例。
如上所述,“火车”、“TV组”分别是标签,作为标签的集合的{火车、TV组、船、餐桌}是1个排他性标签组。1个排他性标签组表示在1个图像中不会同时出现的物体的组合。如果是排他性标签组{火车、TV组、羊、船、餐桌}的情况,在1图像中出现“火车”时,在该图像中不会出现TV组、羊、船、餐桌的任一个。
这样的排他性标签组可以手动地(根据人的经验导出)决定,也可以从收集图像等通过统计的方法来提取。在本实施方式中,排他性标签组提取单元14预先保持已知的排他性标签组。关于通过统计方法来提取的例,在后面作为变形例来说明。此外,排他性标签组越充实,则越能提高将物体分类的效果,所以可以手动地制作被推测为对分类有效的排他性标签组,或者制作仅关注了特别想要分类的项目的排他性标签组。
分类词表生成单元15将各收集图像的特征量和排他性标签组作为分类词表,储存在分类模型信息储存单元16中。
接着,说明与分类时处理有关的分类图像输入单元17、图像特征量计算单元18、分类单元19、及图像分类信息储存单元20。
分类图像输入单元17从图像储存部11读出作为物体标签赋予的对象的图像(输入图像),并供给至图像特征量计算单元18。
图像特征量计算单元18对于输入图像计算表现输入图像的特征量。该计算特征量的处理与使用图8及图9说明的图像特征量计算单元13的处理相同,所以省略说明。
分类单元19具有排他性分类器,由排他性分类器进行一般物体的图像识别处理。分类单元19基于由图像特征量计算单元18生成的输入图像的特征量和通过学习时处理计算出的各收集图像的特征量,计算输入图像中包含的各物体的可信性得分,基于可信性得分,确定输入图像中存在的物体的种类。本实施方式中的排他性分类器是使用排他性关联信息,并利用LASSO(Least Absolute Shrinkage and Selection Operator/最小绝对收缩和选择算子)估计的类型的分类器。以往,在LASSO框架中,最优化的对象由表示复原错误值及复原系数w的正则值这2个值的项目构成。复原错误值用于测定输入图像的特征量和根据全收集图像的特征量使用复原系数线性复原的特征量的差(复原的特征量的妥当性),妥当性越低则复原错误值越高。
对此,在本实施方式中,定义与使用了排他性标签组的复原系数对应的新的正则化条件。与使用了该新的正则化条件的、具有特征量y∈Rm的输入图像有关的标签排他性线性表现模型如下所示。
( w ^ , u ^ ) = arg min w , u 1 2 | | y - Xw | | 2 2 + λ 2 Σ G i ∈ G | | u G i | | 1 2 - - - ( 1 )
s.t.u=Lw
在该新的公式中,X∈Rm×n(i.e.X=[x1,x2,·…,xn],xi∈Rm)表示各收集图像的特征量。这些各收集图像的特征量是如上所述由图像特征量计算单元13计算出的。在此,n是收集图像的数量。此外,m是描述符的维数,与构成图像语句的描述符的数量一致。w∈Rn是对输入图像评价的、与所有物体类有关的线性复原系数。此外,u∈Rp是对输入图像评价的可信性得分。G表示从收集图像数据组通过统计方法得到的排他性标签组群,由各排他性标签组Gi规定的物体标签在同一图像内至多出现1个。特别地,uGi表示赋予了附加字Gi的u的排列,是在式(1)的运算过程中,在检测到排他性标签组的情况下设定的罚值。uGi中取L1范数,对Gi取得稀疏(sparse)性。在此,在各个Gi中,必须仅选择至多1个标签。此外,uGi中的L2范数将包含同一物体的所有可能成立的排他性组相互连结。换言之,这些排他性组表示同一事物可能重复。具体地说,排他性标签组Gi分别是具有p个要素的矢量,各要素与物体(“飞机”、“自行车”、“鸟”、“船”、“瓶子”、“巴士”、“汽车”、“猫”、“椅子”、“牛”、“餐桌”、“狗”、“马”、“摩托车”、“人物”、“植物”、“羊”、“沙发”、“火车”、“TV组”)分别对应,对于处于排他性关系的物体设定值1,对于其他物体设定值0。例,图5的表示包含有“火车、TV组、羊、船、餐桌”的排他性标签组的矢量是[0 0 01 0 0 0 0 0 0 1 0 0 0 0 0 1 0 1 1]。
在此,对于上述w、u,使用图10进行补充说明。
图10是表示由排他性分类器进行的一般物体的图像识别的概念的图。
图10的w1*x1+w2*x2·…wn*xn(=Xw)示意性地表示根据全部收集图像的特征量x1、x2、···xn将输入图像的特征量y线性复原的情况。并且,在该复原过程生成的w用于计算可信性得分。
可信性得分u∈Rp通过图10中的式u=w1*l1+w2*l2···wn*ln来计算。P表示收集图像组中的物体类的总数。标签L∈Rp×n(i.e.L=[l1、12、···、ln])表示与标签对应的图像(图像1、图像2、…图像n)中包含的物体的标签。l1、12、···、ln分别是具有p个要素的矢量(标签矢量),各要素表示物体(“飞机”、“自行车”、“鸟”、“船”、“瓶子”、“巴士”、“汽车”、“猫”、“椅子”、“牛”、“餐桌”、“狗”、“马”、“摩托车”、“人物”、“植物”、“羊”、“沙发”、“火车”、“TV组”)的存在有无(存在的情况下为1、不存在的情况下为0)。例如,图4的椅子、餐桌、TV组所存在的图像的标签矢量为[00 0 0 0 0 0 1 0 1 0 0 0 0 0 0 0 0 0 1]。在图10中,对于l1、12、···、ln,将各要素为值“1”的情况示意性地用黑点表示,将各要素为值“0”的情况示意性地用白点表示。作为一例,对于猫的可信性得分可以通过将对猫的要素设定了“1”的各标签的w相加来计算。以上结束了对图10的补充说明,回到上述式(1)的说明。
式(1)的第1项如上述是复原错误值,具体地说,表示输入图像的特征量y和根据全部收集图像线性复原的特征量Xw之间的差的大小。复原错误值越小,则表示根据全部收集图像线性复原的特征量的妥当性、即w的妥当性越高。
此外,式(1)的第2项是罚项,在判断为在输入图像中同时出现了包含在排他性标签组中的2个以上的物体时,罚项的值变大。另外λ是正则化的比率,是表示如何考虑第2项的任意常数。
将该式(1)整体最小化的w∈Rn是最佳的复原系数,该w能够通过求解式(1)的所谓最优化问题而导出。对于最优化问题,可以使用已知的算法(最急下降法、直线检索等)来求解。作为实际的处理,对w赋予初始点,进行式整体的值的计算和评价,然后通过最急下降法或直线检索等方法来重复临时w的决定、式整体的值的计算和评价,最终求出式(1)整体成为最小的最佳的w。
在该重复过程中,在决定临时w时,使用临时w来计算临时可信性得分,基于计算的临时可信性得分判断为存在2个以上物体的情况下,在该2个以上的物体属于排他性标签组Gi的情况下,对式(1)的第2项的uGi设定规定的罚值(例如“1”)。结果,式(1)的第2项的值变大,式(1)整体的值变大。由此,下次临时决定的w被调整为,包含在该排他性标签组中的2个以上的物体的各自的可信性得分降低。
使用如以上那样解决了最优化问题、并最终决定的w计算出的可信性得分反映了在输入图像中出现的物体是否对应于以排他性标签组表示的物体的组合,所以与以往相比,可信性得分的妥当性变高。此外,临时决定w时考虑了是否对应于排他性标签组,所以临时w的妥当性比以往提高,得到最终的妥当的结果w为止的时间变短。即,运算效率比以往提高。
另外,可以想到并用作为一般的分类器的GMM(Gauss ian mixturemodel/高斯混合模型)和SVM(Support Vector Machine/支持向量机)等,将由多个分类器计算的可信性得分合成并计算最终的可信性得分而利用,从而提高分类性能。
2.变形例
另外,基于上述实施方式说明了本发明,但本发明不限于上述实施方式,在不脱离本发明的主旨的范围内当然可以进行各种变更。
(A)为了求解上述式(1)的最优化问题,可以应用拉格朗日待定系数法。因此,也可以不求解式(1)所示的带制约的最优化问题,而求解式(2)所记载的缓和后的非制约最优化问题。
( w ^ , u ^ ) = arg min w , u 1 2 | | y - Xw | | 2 2 + μ | | u - Lw | | 2 2 + λ 2 Σ G i ∈ G | | u G i | | 1 2 - - - ( 2 )
在此,μ是所谓拉格朗日系数,μ≥0。式(2)可以通过一般的二次计划(QP)解算机来求解。作为QP解算机的一种的、非专利文献4记载的APG(Accelerated Proximal Gradi ent:高速接近坡度)方法能够有效解出式(2),并且容易安装。
(B)排他性标签组提取单元14设为预先保持排他性标签组,但是不限于此,也可以从收集图像使用曲线平移法(参照非专利文献3)等来生成。曲线平移法原来是用于提取共现度的程度的方法,但是通过取得在图像内未共现物体的曲线,能够生成排他性标签组。
为了有效且高效地得到排他性标签组,曲线平移法作为将排他性标签组作为根据收集图像适当定义的排他性加权标签曲线中的密集的副曲线来学习的典型的方法来使用。
图3是表示排他性标签组的提取处理的图。
在本处理中,首先收集图像(S11),接着根据收集图像赋予附加了正解的信息(背景实况(ground truth)信息)(S12),基于背景实况信息求出排他性标签组(S13)。以下详细说明。
首先,排他性加权标签曲线G^=<V,E>可以从收集图像使用背景实况信息来构成。在此,节点集合V的浓度为p(表示收集图像中的物体标签群的尺寸)。并且,边集合
Figure BDA00001622156300101
表示排他性曲线拓扑。此外,对于G^,以排他性加权矩阵W={wij}∈Rp×p这样的形式来表现也是等价的。为了进行计算处理,排他性加权矩阵可以如下定义。即,在收集图像中包含的图像的任一个中,vi及vj都不同时出现的情况下,定义wij=1,在此之外的情况下,定义wij=0。在排他性曲线的构筑顺序中不存在自循环。
为了以排他性发现密集的副曲线,使用以下标准的二次最优化问题(QP)。
x ^ = arg max x x T Wx - - - ( 3 )
Figure BDA00001622156300103
在上式中,x表示排他性加权标签曲线G^中的1个密集的副曲线(即1个排他性图像组)。在此,按照排他性标签组的原则(在收集图像数据组的任一个图像中,排他性标签组中包含的标签至多只出现1个),x被限制条件x≥O,‖x‖1=1约束。‖x‖1表示,为了表现在1张图像中只出现1个标签,而设定了值1的x的L1范数。
根据以上的曲线平移法,不只是统计性地提取未被观测的排他性标签组,而是为了加入排他性标签组的权重,而能够提取作为曲线而未共同出现的标签组合。并且,越是未出现的标签组合,越能作为较密集的副曲线取得,所以能够对排他性标签组赋予优先度的权重而提取。
(c)以下进一步说明作为本发明的一实施形态的图像识别装置和效果。
本发明的一实施方式的图像识别装置是进行一般物体识别的图像识别装置,具备:种类确定单元,参照表示多种物体各自的图像特征的特征信息,计算在输入图像中1个以上的物体的存在概率,基于所述存在概率,确定存在的物体的种类;以及信息储存单元,存储排他性关系信息,该排他性关系信息表示被估计为不共存于同一图像内的不同种物体的组合;所述种类确定单元使用所述排他性关系信息来调整各物体的存在概率。
此外,也可以是,所述调整使与通过所述排他性关系信息表示的组合相对应的物体的存在概率降低。
此外,也可以是,所述存在概率的计算使用LASSO估计,所述存在概率的降低通过对LASSO正则化项赋予罚值来进行。
此外,也可以是,所述排他性关系信息规定多个不同种物体的组合,将计算出所述规定概率以上的存在概率的各物体分别组合规定个数时,与通过所述排他性关系信息规定的组合相对应的数量越多,则所述罚值被赋予越大的值。
此外,也可以是,所述调整使用下式进行,
( w ^ , u ^ ) = arg min w , u 1 2 | | y - Xw | | 2 2 + λ 2 Σ G i ∈ G | | u G i | | 1 2
y∈Rm是输入图像的特征量,X∈Rm×n是各收集图像的特征量,n是学习用的图像即收集图像的数量,m是描述符的维数,w∈Rn是对输入图像评价的、与所有物体类有关的线性复原系数,Gi是排他性标签组,uGi是使与Gi相对应的物体的存在概率降低的罚值。
此外,也可以是,使用统计方法,从图像内存在的物体为已知的学习用的图像群来决定所述排他性关系信息。
根据该结构,在各物体的存在概率的计算过程中,对存在概率进行调整,以使错误的可能性较高的、估计为不共存于同一图像内的物体不会成为共存的结果,所以对于各物体,计算出错误的存在概率的可能性降低,能够提高一般物体的识别的可靠性。
此外,也可以是,使用曲线平移法从图像内存在的物体为已知的学习用的图像群来决定所述排他性关系信息。
根据该结构,处于不共存的关系的物体标签作为密集的副曲线得到,所以能够生成赋予了优先度的权重的排他性关系信息。
此外,本发明的一实施方式的图像识别方法是在进行一般物体识别的图像识别装置中使用的图像识别方法,其包括:信息储存步骤,存储排他性关系信息,该排他性关系信息表示被估计为不共存于同一图像内的不同种物体的组合;以及种类确定步骤,参照表示多种物体各自的图像特征的特征信息,计算在输入图像中1个以上的物体的存在概率,基于所述存在概率,确定存在的物体的种类;在所述种类确定步骤中,在所述存在概率的计算时,使用所述排他性关系信息来调整各物体的存在概率。
此外,本发明的一实施方式的计算机程序是在进行一般物体识别的图像识别装置的计算机程序,使计算机执行:信息储存步骤,存储排他性关系信息,该排他性关系信息表示被估计为不共存于同一图像内的不同种物体的组合;以及种类确定步骤,参照表示多种物体各自的图像特征的特征信息,计算在输入图像中1个以上的物体的存在概率,基于所述存在概率,确定存在的物体的种类;在所述种类确定步骤中,在所述存在概率的计算时,使用所述排他性关系信息来调整各物体的存在概率。
此外,本发明的一实施方式的集成回路是在进行一般物体识别的图像识别装置中使用的集成回路,具备:种类确定单元,参照表示多种物体各自的图像特征的特征信息,计算在输入图像中1个以上的物体的存在概率,基于所述存在概率,确定存在的物体的种类;以及信息储存单元,存储排他性关系信息,该排他性关系信息表示被估计为不共存于同一图像内的不同种物体的组合;所述种类确定单元使用所述排他性关系信息来调整各物体的存在概率。
根据该结构,在各物体的存在概率的计算过程中,对存在概率进行调整,以使错误的可能性较高的、估计为不共存于同一图像内的物体不会成为共存的结果,所以对于各物体,计算出错误的存在概率的可能性降低,能够提高一般物体的识别的可靠性。
(D)对于构成上述各装置的结构要素的一部分或全部,可以将控制程序记录在记录介质中,或经由各种通信路来流通或颁布,该控制程序由机器语言或高级语言的程序代码构成,该程序代码使图像识别装置的处理器、及与该处理器连接的各种电路执行构成上述各装置的结构要素的一部分或全部。这样的记录介质有IC卡、硬盘、光盘、软盘、ROM、闪存器等。流通并颁布的控制程序通过保存在能够由处理器读取的存储器中来供利用,通过该处理器执行该控制程序来实现实施方式所示的各功能。另外,处理器除了直接执行控制程序以外,也可以编译而执行或通过编译器来执行。
(E)构成上述各装置的结构要素的一部分或全部可以由实现构成要素的功能的电路来构成,或由实现构成要素的功能的程序及执行该程序的处理器构成,或者由1个系统LSI(Large Scale Integration:大规模集成电路)构成。系统LSI是将多个结构部集成在1个芯片上而制造的超多功能LSI,具体地说,是包含微处理器、ROM、RAM等而构成的计算机系统。所述RAM中存储有计算机程序。所述微处理器按照所述计算机程序进行动作,从而系统LSI达成其功能。可以将这些结构单独地1芯片化,也可以包含一部分或全部地1芯片化。
此外,在此采用了系统LSI,但是根据集成度的不同,有时也称为IC,系统LSI、超级LSI、特特级LSI。
此外,集成电路化的方法不限于LSI,也可以通过专用电路或通用处理器来实现。LSI制造后,也可以利用可编程的FPGA(Field Programmable GateArray)或可以将LSI内部的电路连接和设定再构成的可重组处理器。
进而,如果通过半导体技术的进步或派生的其他技术而出现了能够替换LSI的集成电路化的技术,当然可以使用该技术来进行功能块的集成化。生物技术的应用也具有可能性。
(F)构成上述各装置的结构要素的一部分或全部也可以由在各装置上可拆装的IC卡或单体的模块构成。所述IC卡或所述模块是由微处理器、ROM、RAM等构成的计算机系统。所述IC卡或所述模块也可以包含上述超多功能LSI。微处理器按照计算机程序进行动作,从而所述IC卡或所述模块达成其功能。该IC卡或该模块也可以具有防篡改性。
(G)本发明也可以是上述所示的方法。此外,可以是由计算机实现这些方法的计算机程序,也可以是由所述计算机程序构成的数字信号。
此外,本发明也可以将所述计算机程序或所述数字信号记录在计算机可读取的记录介质中,例如软盘、硬盘、CD-ROM、MO、DVD、DVD-ROM、DVD-RAM、D(Blu-ray Disc)、半导体存储器等。此外,也可以是记录在这些中的所述计算机程序或所述数字信号。
此外,本发明也可以将所述计算机程序或所述数字信号经由电气通信线路、无线或有线通信线路、以因特网为代表的网络、数据广播等来传输。
此外,通过将所述程序或所述数字信号记录在所述记录介质中并转移,或将所述程序或所述数字信号经由所述网络等转移,能够通过独立的其他计算机系统来实施。
(H)也可以将上述实施方式及上述变形例分别组合。
产业上的可利用性
本发明优选为,在大量保存拍摄有一般物体的照片数据等时,编入对照片数据分别附加标签并管理的数据管理装置中而使用。
符号说明
1图像识别装置
11图像储存部
12学习图像输入单元
13图像特征量计算单元
14排他性标签组提取单元
15分类词表生成单元
16分类模型信息储存单元
17分类图像输入单元
18图像特征量计算单元
19分类单元
20图像分类信息储存单元
权利要求书(按照条约第19条的修改)
1.一种图像识别装置,进行一般物体识别,其特征在于,具备:
种类确定单元,参照表示多种物体各自的图像特征的特征信息,使用LASSO估计,计算在输入图像中1个以上的物体的存在概率,基于所述存在概率,确定存在的物体的种类;以及
信息储存单元,存储排他性关系信息,该排他性关系信息表示被估计为不共存于同一图像内的不同种物体的组合;
所述种类确定单元使用所述排他性关系信息来调整各物体的存在概率,
所述调整是通过对LASSO正则化项赋予罚值,使与通过所述排他性关系信息表示的组合相对应的物体的存在概率降低来进行的。
2.如权利要求1所述的图像识别装置,其特征在于,
所述排他性关系信息规定多个不同种物体的组合,
将计算出所述规定概率以上的存在概率的各物体分别组合规定个数时,与通过所述排他性关系信息规定的组合相对应的数量越多,所述罚值被赋予越大的值。
3.如权利要求1所述的图像识别装置,其特征在于,
所述调整使用下式进行,
( w ^ , u ^ ) = arg min w , u 1 2 | | y - Xw | | 2 2 + λ 2 Σ G i ∈ G | | u G i | | 1 2
y∈Rm是输入图像的特征量,X∈Rm×n是各收集图像的特征量,n是学习用的图像即收集图像的数量,m是描述符的维数,w∈Rn是对输入图像评价的、与所有物体类有关的线性复原系数,Gi是排他性标签组,uGi是使与Gi相对应的物体的存在概率降低的罚值。
4.如权利要求1所述的图像识别装置,其特征在于,
使用统计的方法,从图像内存在的物体为已知的学习用的图像群来决定所述排他性关系信息。
5.如权利要求1所述的图像识别装置,其特征在于,
使用曲线平移法从图像内存在的物体为已知的学习用的图像群来决定所述排他性关系信息。
6.一种图像识别方法,在进行一般物体识别的图像识别装置中使用,其特征在于,包括以下步骤:
信息储存步骤,存储排他性关系信息,该排他性关系信息表示被估计为不共存于同一图像内的不同种物体的组合;以及
种类确定步骤,参照表示多种物体各自的图像特征的特征信息,使用LASSO估计,计算在输入图像中1个以上的物体的存在概率,基于所述存在概率,确定存在的物体的种类;
在所述种类确定步骤中,在计算所述存在概率时,使用所述排他性关系信息来调整各物体的存在概率,
所述调整是通过对LASSO正则化项赋予罚值,使与通过所述排他性关系信息表示的组合相对应的物体的存在概率降低来进行的。
7.一种计算机程序,在进行一般物体识别的图像识别装置中使用,其特征在于,使计算机执行:
信息储存步骤,存储排他性关系信息,该排他性关系信息表示被估计为不共存于同一图像内的不同种物体的组合;以及
种类确定步骤,参照表示多种物体各自的图像特征的特征信息,使用LASSO估计,计算在输入图像中1个以上的物体的存在概率,基于所述存在概率,确定存在的物体的种类;
在所述种类确定步骤中,在计算所述存在概率时,使用所述排他性关系信息来调整各物体的存在概率,
所述调整是通过对LASSO正则化项赋予罚值,使与通过所述排他性关系信息表示的组合相对应的物体的存在概率降低来进行的。
8.一种集成电路,在进行一般物体识别的图像识别装置中使用,其特征在于,具备:
种类确定单元,参照表示多种物体各自的图像特征的特征信息,使用LASSO估计,计算在输入图像中1个以上的物体的存在概率,基于所述存在概率,确定存在的物体的种类;以及
信息储存单元,存储排他性关系信息,该排他性关系信息表示被估计为不共存于同一图像内的不同种物体的组合;
所述种类确定单元使用所述排他性关系信息来调整各物体的存在概率,
所述调整是通过对LASSO正则化项赋予罚值,使与通过所述排他性关系信息表示的组合相对应的物体的存在概率降低来进行的。

Claims (10)

1.一种图像识别装置,进行一般物体识别,其特征在于,具备:
种类确定单元,参照表示多种物体各自的图像特征的特征信息,计算在输入图像中1个以上的物体的存在概率,基于所述存在概率,确定存在的物体的种类;以及
信息储存单元,存储排他性关系信息,该排他性关系信息表示被估计为不共存于同一图像内的不同种物体的组合;
所述种类确定单元使用所述排他性关系信息来调整各物体的存在概率。
2.如权利要求1所述的图像识别装置,其特征在于,
所述调整使与通过所述排他性关系信息表示的组合相对应的物体的存在概率降低。
3.如权利要求2所述的图像识别装置,其特征在于,
所述存在概率的计算使用LASSO来估计,
所述存在概率的降低通过对LASSO正则化项赋予罚值来进行。
4.如权利要求3所述的图像识别装置,其特征在于,
所述排他性关系信息规定多个不同种物体的组合,
将计算出所述规定概率以上的存在概率的各物体分别组合规定个数时,与通过所述排他性关系信息规定的组合相对应的数量越多,所述罚值被赋予越大的值。
5.如权利要求2所述的图像识别装置,其特征在于,
所述调整使用下式进行,
( w ^ , u ^ ) = arg min w , u 1 2 | | y - Xw | | 2 2 + λ 2 Σ G i ∈ G | | u G i | | 1 2
y∈Rm是输入图像的特征量,X∈Rm×n是各收集图像的特征量,n是学习用的图像即收集图像的数量,m是描述符的维数,w∈Rn是对输入图像评价的、与所有物体类有关的线性复原系数,Gi是排他性标签组,uGi是使与Gi相对应的物体的存在概率降低的罚值。
6.如权利要求1所述的图像识别装置,其特征在于,
使用统计的方法,从图像内存在的物体为已知的学习用的图像群来决定所述排他性关系信息。
7.如权利要求1所述的图像识别装置,其特征在于,
使用曲线平移法从图像内存在的物体为已知的学习用的图像群来决定所述排他性关系信息。
8.一种图像识别方法,在进行一般物体识别的图像识别装置中使用,其特征在于,包括以下步骤:
信息储存步骤,存储排他性关系信息,该排他性关系信息表示被估计为不共存于同一图像内的不同种物体的组合;以及
种类确定步骤,参照表示多种物体各自的图像特征的特征信息,计算在输入图像中1个以上的物体的存在概率,基于所述存在概率,确定存在的物体的种类;
在所述种类确定步骤中,在计算所述存在概率时,使用所述排他性关系信息来调整各物体的存在概率。
9.一种计算机程序,在进行一般物体识别的图像识别装置中使用,其特征在于,使计算机执行:
信息储存步骤,存储排他性关系信息,该排他性关系信息表示被估计为不共存于同一图像内的不同种物体的组合;以及
种类确定步骤,参照表示多种物体各自的图像特征的特征信息,计算在输入图像中1个以上的物体的存在概率,基于所述存在概率,确定存在的物体的种类;
在所述种类确定步骤中,在计算所述存在概率时,使用所述排他性关系信息来调整各物体的存在概率。
10.一种集成电路,在进行一般物体识别的图像识别装置中使用,其特征在于,具备:
种类确定单元,参照表示多种物体各自的图像特征的特征信息,计算在输入图像中1个以上的物体的存在概率,基于所述存在概率,确定存在的物体的种类;以及
信息储存单元,存储排他性关系信息,该排他性关系信息表示被估计为不共存于同一图像内的不同种物体的组合;
所述种类确定单元使用所述排他性关系信息来调整各物体的存在概率。
CN201180004489.4A 2010-09-10 2011-09-09 由排他性分类器进行的一般物体的图像识别装置及方法 Active CN102667859B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US38160810P 2010-09-10 2010-09-10
US61/381,608 2010-09-10
PCT/JP2011/005081 WO2012032788A1 (ja) 2010-09-10 2011-09-09 排他的分類器による一般物体の画像認識装置及び方法

Publications (2)

Publication Number Publication Date
CN102667859A true CN102667859A (zh) 2012-09-12
CN102667859B CN102667859B (zh) 2016-01-20

Family

ID=45810398

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201180004489.4A Active CN102667859B (zh) 2010-09-10 2011-09-09 由排他性分类器进行的一般物体的图像识别装置及方法

Country Status (4)

Country Link
US (1) US8687851B2 (zh)
JP (1) JP5782037B2 (zh)
CN (1) CN102667859B (zh)
WO (1) WO2012032788A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104899820A (zh) * 2014-03-11 2015-09-09 腾讯科技(北京)有限公司 为图像添加标签的方法、系统和装置
CN105718937A (zh) * 2014-12-03 2016-06-29 财团法人资讯工业策进会 多类别对象分类方法及系统
CN107251045A (zh) * 2015-03-05 2017-10-13 欧姆龙株式会社 物体识别装置、物体识别方法及程序

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103164713B (zh) 2011-12-12 2016-04-06 阿里巴巴集团控股有限公司 图像分类方法和装置
US8489585B2 (en) * 2011-12-20 2013-07-16 Xerox Corporation Efficient document processing system and method
CN102867193B (zh) * 2012-09-14 2015-06-17 成都国科海博信息技术股份有限公司 一种生物检测方法、装置及生物检测器
DE102014113817A1 (de) * 2013-10-15 2015-04-16 Electronics And Telecommunications Research Institute Vorrichtung und Verfahren zur Erkennung eines Objekts in Einem Bild
US9842390B2 (en) * 2015-02-06 2017-12-12 International Business Machines Corporation Automatic ground truth generation for medical image collections
US9864931B2 (en) 2016-04-13 2018-01-09 Conduent Business Services, Llc Target domain characterization for data augmentation
US20180146624A1 (en) * 2016-11-28 2018-05-31 The Climate Corporation Determining intra-field yield variation data based on soil characteristics data and satellite images
US10733754B2 (en) * 2017-01-18 2020-08-04 Oracle International Corporation Generating a graphical user interface model from an image
US10838699B2 (en) 2017-01-18 2020-11-17 Oracle International Corporation Generating data mappings for user interface screens and screen components for an application
JP2019220163A (ja) * 2018-06-06 2019-12-26 コグネックス・コーポレイション ビジョンシステムでラインを検出するためのシステム及び方法
CN111738274B (zh) * 2020-05-08 2022-04-22 华南理工大学 基于局部光滑投影的抗对抗攻击相机源识别方法
CN112598648B (zh) * 2020-12-24 2022-08-26 重庆邮电大学 一种基于图像梯度方向的图像接缝裁剪篡改检测方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008217706A (ja) * 2007-03-07 2008-09-18 Tokyo Institute Of Technology ラベリング装置、ラベリング方法及びプログラム
CN101536035A (zh) * 2006-08-31 2009-09-16 公立大学法人大阪府立大学 图像识别方法、图像识别装置以及图像识别程序

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8320679B2 (en) * 2007-04-23 2012-11-27 Siemens Corporate Research, Inc. Method for detecting objects using flexible edge arrangements
US8538102B2 (en) * 2008-12-17 2013-09-17 Synarc Inc Optimised region of interest selection

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101536035A (zh) * 2006-08-31 2009-09-16 公立大学法人大阪府立大学 图像识别方法、图像识别装置以及图像识别程序
JP2008217706A (ja) * 2007-03-07 2008-09-18 Tokyo Institute Of Technology ラベリング装置、ラベリング方法及びプログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
HAIRONG LIU ET AL.: "Robust Graph Mode Seeking by Graph Shift", 《PROCEEDINGS OF THE 27TH INTERNATIONAL CONFERENCE ON MACHINE LEARNING》 *
近藤雄飛等: "カテゴリ共起を考慮した物体認識手法", 《社団法人情報処理学会研究報告》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104899820A (zh) * 2014-03-11 2015-09-09 腾讯科技(北京)有限公司 为图像添加标签的方法、系统和装置
CN104899820B (zh) * 2014-03-11 2018-11-20 腾讯科技(北京)有限公司 为图像添加标签的方法、系统和装置
CN105718937A (zh) * 2014-12-03 2016-06-29 财团法人资讯工业策进会 多类别对象分类方法及系统
CN105718937B (zh) * 2014-12-03 2019-04-05 财团法人资讯工业策进会 多类别对象分类方法及系统
CN107251045A (zh) * 2015-03-05 2017-10-13 欧姆龙株式会社 物体识别装置、物体识别方法及程序
CN107251045B (zh) * 2015-03-05 2020-11-24 欧姆龙株式会社 物体识别装置、物体识别方法及计算机可读存储介质

Also Published As

Publication number Publication date
WO2012032788A1 (ja) 2012-03-15
JPWO2012032788A1 (ja) 2014-01-20
US8687851B2 (en) 2014-04-01
CN102667859B (zh) 2016-01-20
US20120230546A1 (en) 2012-09-13
JP5782037B2 (ja) 2015-09-24

Similar Documents

Publication Publication Date Title
CN102667859A (zh) 由排他性分类器进行的一般物体的图像识别装置及方法
Wu et al. Harvesting discriminative meta objects with deep CNN features for scene classification
Zhang et al. Prototypical matching and open set rejection for zero-shot semantic segmentation
CN103299324B (zh) 使用潜在子标记来学习用于视频注释的标记
US20170220864A1 (en) Method for Implementing a High-Level Image Representation for Image Analysis
Deecke et al. Transfer-based semantic anomaly detection
CN108038498B (zh) 一种基于子图匹配的室内场景对象语义标注方法
JP2017168057A (ja) 画像分類装置、画像分類システム及び画像分類方法
KR102259207B1 (ko) 자동 태깅 시스템 및 그 방법
CN105046720B (zh) 基于人体运动捕捉数据字符串表示的行为分割方法
Fidler et al. A coarse-to-fine taxonomy of constellations for fast multi-class object detection
Long et al. Towards fine-grained open zero-shot learning: Inferring unseen visual features from attributes
Gao et al. Evaluation of regularized multi-task leaning algorithms for single/multi-view human action recognition
Stefanidis et al. Summarizing video datasets in the spatiotemporal domain
Marín-Jiménez et al. Human action recognition from simple feature pooling
CN111488400B (zh) 数据分类方法、装置和计算机可读存储介质
CN107169450A (zh) 一种高分辨率遥感图像的场景分类方法及系统
Morsillo et al. Youtube scale, large vocabulary video annotation
EP3751424A1 (en) Search system, search method, and program
Guo Deep learning for visual understanding
Zankl et al. Interactive labeling of image segmentation hierarchies
US20220222469A1 (en) Systems, devices and methods for distributed hierarchical video analysis
Rajappan et al. A composite framework of deep multiple view human joints feature extraction and selection strategy with hybrid adaptive sunflower optimization‐whale optimization algorithm for human action recognition in video sequences
Chiang et al. Learning component-level sparse representation for image and video categorization
Zen et al. Exploiting sparse representations for robust analysis of noisy complex video scenes

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
ASS Succession or assignment of patent right

Owner name: MATSUSHITA ELECTRIC (AMERICA) INTELLECTUAL PROPERT

Free format text: FORMER OWNER: MATSUSHITA ELECTRIC INDUSTRIAL CO, LTD.

Effective date: 20141016

C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20141016

Address after: Seaman Avenue Torrance in the United States of California No. 2000 room 200

Applicant after: PANASONIC INTELLECTUAL PROPERTY CORPORATION OF AMERICA

Address before: Osaka Japan

Applicant before: Matsushita Electric Industrial Co.,Ltd.

C53 Correction of patent of invention or patent application
CB02 Change of applicant information

Address after: Seaman Avenue Torrance in the United States of California No. 20000 room 200

Applicant after: PANASONIC INTELLECTUAL PROPERTY CORPORATION OF AMERICA

Address before: Seaman Avenue Torrance the American city of California, No. 2000, room 200, zip code 90503

Applicant before: PANASONIC INTELLECTUAL PROPERTY CORPORATION OF AMERICA

COR Change of bibliographic data

Free format text: CORRECT: ADDRESS; FROM:

C14 Grant of patent or utility model
GR01 Patent grant