CN107430776B - 模板制作装置和模板制作方法 - Google Patents
模板制作装置和模板制作方法 Download PDFInfo
- Publication number
- CN107430776B CN107430776B CN201680013793.8A CN201680013793A CN107430776B CN 107430776 B CN107430776 B CN 107430776B CN 201680013793 A CN201680013793 A CN 201680013793A CN 107430776 B CN107430776 B CN 107430776B
- Authority
- CN
- China
- Prior art keywords
- template
- templates
- resolution
- processing
- feature points
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/762—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
- G06V10/7635—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks based on graphs, e.g. graph cuts or spectral clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/28—Determining representative reference patterns, e.g. by averaging or distorting; Generating dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/513—Sparse representations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/75—Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
- G06V10/757—Matching configurations of points or features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/772—Determining representative reference patterns, e.g. averaging or distorting patterns; Generating dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/24—Character recognition characterised by the processing or recognition method
- G06V30/242—Division of the character sequences into groups prior to recognition; Selection of dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/24—Character recognition characterised by the processing or recognition method
- G06V30/248—Character recognition characterised by the processing or recognition method involving plural approaches, e.g. verification by template match; Resolving confusion among similar patterns, e.g. "O" versus "Q"
- G06V30/2504—Coarse or fine approaches, e.g. resolution of ambiguities or multiscale approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/52—Scale-space analysis, e.g. wavelet analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/06—Recognition of objects for industrial automation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Medical Informatics (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- General Engineering & Computer Science (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
一种模板制作装置,其具有:取得部,分别从针对一个物体的不同姿势的多个图像、或者针对多个物体的多个图像中取得多个模板;聚类部,进行如下的聚类处理:对从多个模板中选出的两个模板的组合,计算图像特征的相似度,基于相似度将上述多个模板分成多个组;以及整合部,对多个组中的每个组,进行将组内的全部模板整合为1个或者数目少于组内模板数的整合模板的整合处理,生成由与多个组分别对应的多个整合模板构成的新的模板集合。
Description
【技术领域】
本发明涉及制作在基于模板匹配的物体识别中使用的模板的技术。
【背景技术】
基于模板匹配的物体识别例如被用于FA(工厂自动化,Factory Automation)中的检査或分拣、机器人视觉(robot vision)、监控摄像机等各种用途中。在模板匹配的基本处理中,预先登记作为识别对象的物体的模型(模板),对于输入图像与模型之间的图像特征的一致度进行评价,由此检测出输入图像中包含的物体的二维位置和姿势。
近年来,将图像的模板匹配应用于三维下的物体的位置/姿势识别的技术引起了人们的关注。这是由于其不需要使用昂贵的距离传感器并且还能够沿用既有的图像拍摄用摄像机,因而成本优势大。但是,为了通过图像的模板匹配来识别任意姿势的物体,需要针对所要识别的每个姿势准备单独的模板,利用这些模板轮流进行匹配,因而存在处理时间增加的问题。
作为针对这样的问题的应对策略,在专利文献1中公开了下述方案:基于二维投影图像彼此的相似度,将构成相似的视觉表现的视图(视点)汇总,从而削减模板,进一步一边降低二维投影图像的分辨率一边反复进行该间疏(間引き),制作层级性的模板等。但是,在专利文献1的方法中,由于是间疏视点的方式,因而根据识别对象物体的形状,模板的削减可能未被适当地进行。例如,在为简单形状的物体或具有对称形状的物体时,即使视点位置之间离得远也可能构成相似的视觉表现。但是,在专利文献1的方法中,无法将离得远的视点彼此汇总,因而模板的削减有限,其结果是未能充分得到模板匹配的次数减少进而缩短处理时间的效果。
【现有技术文献】
【专利文献】
专利文献1:欧洲专利第2048599号说明书
【发明内容】
【发明所要解决的课题】
本发明是鉴于上述情况而进行的,其目的在于提供一种能够有效地进行物体识别中使用的模板的整合的技术,与以往的方法相比,该技术能够得到更大的模板削减效果。
【解决课题的手段】
为了达成上述目的,本发明提供一种模板制作装置,其是用于制作在通过模板匹配进行物体的识别的物体识别装置中使用的模板集合的模板制作装置,该装置的特征在于,其具有下述部分:取得部,其分别从针对一个物体的不同姿势的多个图像或者针对多个物体的多个图像中取得多个模板;聚类部,其进行如下的聚类处理:对从上述多个模板中选出的两个模板的组合,计算图像特征的相似度,基于上述相似度将上述多个模板分成多个组;以及整合部,其针对上述多个组中的每个组,进行将组内的全部模板整合为1个或者数目少于组内模板数的整合模板的整合处理,生成由与上述多个组分别对应的多个整合模板构成的新的模板集合。
利用该构成,图像特征相似的模板彼此(不论视点的近/远)被整合,因而与间疏视点方式的现有方法相比,能够期待更大的模板削减效果,能够有效地进行模板的整合。特别是在识别对象物体的形状为简单形状或具有对称性的情况下,该效果较大。
在该模板制作装置中,优选还具有分辨率转换部,该分辨率转换部对通过上述整合处理得到的多个整合模板分别实施低分辨率化处理,由此生成多个低分辨率模板;对于通过上述低分辨率化处理得到的上述多个低分辨率模板进行上述聚类部执行的上述聚类处理以及上述整合部执行的上述整合处理,由此生成低分辨率的新的模板集合。若进行低分辨率化,则模板的图像特征变得平滑,因而相似的模板的组合增多。从而,通过在低分辨率化后进行模板的聚类和整合,能够进一步削减模板的数目。
优选通过进行如下的反复处理而生成分辨率呈层级性降低的多个模板集合:针对上述低分辨率的新的模板集合,进行上述分辨率转换部执行的上述低分辨率化处理、上述聚类部执行的上述聚类处理以及上述整合部执行的上述整合处理,由此生成更低分辨率的新的模板集合。若准备这样的多个模板集合,则能够进行利用分辨率低的模板集合进行粗略识别,使用其结果利用分辨率高的模板集合进行详细识别这样的层级性搜索,能够谋求物体识别处理的高精度化和高速化。
优选上述模板是包含物体图像中的多个特征点的特征量的数据,通过上述低分辨率化处理使得低分辨率模板所含有的特征点的数目低于规定值时,停止上述反复处理。这是由于,若模板内的特征点的数目过少,则存在模板的识别能力下降、物体的识别精度降低的可能性。
优选上述模板是包含物体图像中的多个特征点的特征量的数据,两个模板之间的相似度是根据该两个模板之间的特征点的坐标和特征量的值均一致的特征点的数目计算的。利用这样的计算方法,能够简单且高速地计算出相似度,因而能够缩短模板的制作处理中所需要的时间。
优选上述模板是包含物体图像中的多个特征点的特征量的数据,上述整合部通过将组内的各模板中的相同坐标的特征点的特征量整合而生成上述整合模板。利用这样的整合方法,能够简单且高速地进行模板的整合,因而能够缩短模板的制作处理中所需要的时间。
需要说明的是,本发明可以被视为具有上述构成的至少一部分的模板制作装置、或者具有该模板制作装置的物体识别装置。另外,本发明还可被视为包含上述处理的至少一部分的模板制作方法、或者利用由该模板制作方法制作出的模板的物体识别方法、或者用于使计算机执行该方法的程序或非临时性存储该程序的计算机可读取记录介质。上述各构成和处理只要不会发生技术上的矛盾就能够相互组合构成本发明。
【发明效果】
根据本发明,与以往方法相比,能够进一步削减模板,能够期待较高的模板整合效果。
【附图说明】
图1是示出物体识别装置的整体结构的图。
图2是示出物体识别装置的硬件结构的图。
图3是示出物体识别装置的功能结构的图。
图4是示出任意姿势的物体共存的图像的一例的图。
图5是示意性示出对物体设定多个视点的示例的图。
图6是示出模板制作处理的流程的流程图。
图7是示出模板的数据结构的一例的图。
图8是示出模板的整合处理的一例的图。
图9是示出模板的低分辨率化处理的一例的图。
图10是概念性地示出聚类处理~整合处理~低分辨率化处理的流程的图。
图11是示意性示出层级性模板集合的一例的图。
图12是示出物体识别处理的流程的流程图。
【具体实施方式】
本发明涉及通过使用了图像的模板匹配来进行物体的三维位置/姿势识别的技术,更详细地说,本发明涉及制作用于有效地进行三维的物体识别的模板的技术。该技术能够应用于FA用图像传感器、计算机视觉、机器视觉等的物体识别等中。在以下所述的实施方式中,作为本发明的优选应用例之一,对于在判别利用传送带传送的物体的位置和姿势的FA用图像传感器中应用本发明的示例进行了说明。
(物体识别装置的整体结构)
参照图1对本发明的实施方式的物体识别装置的整体结构和应用情形进行说明。
物体识别装置1被设置于生产线等,是通过使用从摄像机11取入的图像进行传送带3上的物体2的识别的系统。在传送带3上,多个物体2以任意的姿势被传送。物体识别装置1按照规定的时间间隔从摄像机11取入图像,利用图像处理装置10执行对图像中包含的各物体2的种类/位置/姿势进行识别的处理,并将其结果输出。物体识别装置1的输出(识别结果)例如被用于分拣/机器人的控制、加工装置或印字装置的控制、物体2的检査/计测等。
(硬件结构)
参照图2对物体识别装置1的硬件结构进行说明。物体识别装置1粗略划分由摄像机11和图像处理装置10构成。
摄像机11是用于将物体2的数字图像取入到图像处理装置10中的摄像器件,例如可适当地使用CMOS(互补金属氧化物半导体,Complementary Metal-Oxide-Semiconductor)摄像机或CCD(电荷耦合器件,Charge-Coupled Device)摄像机。输入图像的形式(分辨率、彩色/单色、静态图像/动态图像、灰度、数据形式等)是任意的,可以根据物体2的种类或所感测的目的而适当地选择。在将可见光图像以外的特殊图像(X射线图像、热图像(thermal image)等)用于物体识别或检査的情况下,也可以使用与该图像对应的摄像机。
图像处理装置10包括CPU(中央运算处理装置)110、作为存储部的主存储器112和硬盘114、摄像机接口116、输入接口118、显示控制器120、PLC接口122、通信接口124、以及数据读写器126。上述各部分以可经由总线128相互进行数据通信的方式连接。
摄像机接口116是居中进行CPU110与摄像机11之间的数据传送的部分,该摄像机接口116具有用于暂时蓄积来自摄像机11的图像数据的图像缓冲器116a。输入接口118居中进行CPU110与输入部(鼠标13、键盘、触摸面板、点动控制器等)之间的数据传送。显示控制器120与液晶显示器等显示器12连接,用于控制该显示器12中的显示。PLC接口122居中进行CPU110与PLC4之间的数据传送。通信接口124居中进行CPU110与控制台(或个人计算机、服务器装置)等之间的数据传送。数据读写器126居中进行CPU110与作为存储介质的存储卡14之间的数据传送。
图像处理装置10能够由具有通用架构的计算机构成,通过CPU110读取并执行存储于硬盘114或存储卡14中的程序来提供各种功能。这样的程序以存储于存储卡14或光盘等计算机可读记录介质中的状态进行流通,或者通过互联网等提供(下载)。需要说明的是,本实施方式的程序可以作为单独的应用程序来提供,也可以作为编入到其他程序的一部分的模块来提供。另外,其功能的一部分或全部也可以利用ASIC等专用电路来代替。
(功能结构)
图3中示出了物体识别装置1的功能结构。图3所示的功能是通过图像处理装置10执行程序来实现的。物体识别装置1粗略划分具备作为模板制作装置20的功能部和作为物体识别处理装置30的功能部。模板制作装置20是制作物体识别处理中应用的模板的功能部,其具有取得部21、聚类部22、整合部23、存储部24和分辨率转换部25。利用模板制作装置20制作的模板被登记在物体识别处理装置30的模板DB(数据库)31中。物体识别处理装置30是通过对从摄像机11取入的图像执行模板匹配来识别图像中的物体的功能部。物体识别处理装置30具有模板DB31、图像取得部32、模板匹配部33和识别结果输出部34。关于它们的功能的详细情况将在下文叙述。
图4中示出了从摄像机11取入的图像的一例。如图4所示,在图像中包含多个物体2,且各物体2的位置(XYZ坐标)和姿势(绕XYZ这3轴的角度)是任意的。除了为完整球体的情况以外,物体相对于摄像机11的姿势(朝向)不同,则摄入在图像中的物体的形态(形状、颜色等)也不同。因此,为了在使用2D图像的一般的模板匹配中识别任意姿势的3D物体,需要针对物体的每个姿势准备单独的模板,利用这些模板轮流进行匹配。
如图5所示,假定在以物体2为中心的假想的半球面上均等地配置多个视点VP,准备与从各视点VP看到的物体的外观(姿势)相对应的模板。例如在设定了337个视点的情况下,为了识别1个物体2,需要337个模板。进而若还考虑在将视点VP固定的状态下的摄像机的旋转(物体绕摄像机光轴的旋转),例如在将360度分成80份的情况下,则需要337×80=26960个模板。假设每1个模板需要30毫秒的处理时间,则为了识别1个3D物体需要8秒以上的时间,这不具有实用性。另外,模板数目的增加不仅增加处理时间,而且还会导致增大存储容量的问题。例如,在假定1个模板的数据量为4KB时,为了存储26960个模板,需要约100MB的存储器。存储容量的增大会导致装置成本的增加,因而是不期望的。
因此,在本实施方式的物体识别装置1中,通过将图像特征相似的模板彼此整合来进行尽可能削减模板数目的设计。特别是FA领域中作为识别对象的物体(机械部件、工业制造品等)被设计成简单的几何图形的组合,形状大多可被视为具有对称性。因此,即使在完全不同的视点间,模板也多具有较高的相似性,能够期待模板的大幅削减。
下面,对利用模板制作装置20进行的模板的制作处理进行说明,其后对利用物体识别处理装置30进行的物体识别处理的流程进行说明。
(模板的制作处理)
对于按照图6的顺序利用模板制作装置20执行的模板制作处理的流程进行说明。需要说明的是,在本说明书中,将与某一物体的某一姿势对应的模板(即未与其他模板整合的模板)称为“原始模板”。另外,将多个模板的集合称为“模板集合”。
首先,取得部21取得关于作为识别对象的物体的原始模板集合(步骤S600)。原始模板集合由分别与该物体能够采取的多个姿势(或者需要进行识别的多个姿势)对应的原始模板构成。如上述示例所示,在识别337个视点和分成80份的摄像机的旋转的情况下,若对一个视点制作一个模板,则将取得26960个模板作为原始模板。
模板是在物体的图像中表示该物体的特征的数据。模板的形式可以为任意形式,但在本实施方式中,如图7所示,使用了记述图像中的多个特征点的特征量的形式的数据。图7右侧的模板的各行各表示1个特征点的信息,特征点的信息包括特征点的x、y坐标(以物体的中心为原点)和特征量的值val。
作为特征量,例如可以使用像素值(亮度)、亮度梯度方向、量化梯度方向、HoG(方向梯度直方图,Histogram of Oriented Gradients)、HAAR-like、SIFT(尺寸不变特征转换Scale-Invariant Feature Transform)等。所谓亮度梯度方向是以连续值表示以特征点为中心的局部区域的亮度梯度的方向(角度),所谓量化梯度方向是以离散值表示以特征点为中心的局部区域的亮度梯度的方向(例如,将8个方向以0~7的1字节信息来保持)。图7的特征量val表示以二进制表述量化梯度方向的示例。各位表示0度、45度、90度、135度、180度、225度、270度、315度的方向。
原始模板可以通过使用关于各姿势的图像进行特征点检测和特征量提取的处理来制作。关于特征点检测和特征量提取,可以利用公知的方法,因而此处省略详细的说明。关于各姿势的图像可以通过对实际的物体进行拍摄而得到。或者在能够得到物体的三维CAD数据的情况下,可以通过使用三维计算机图形进行渲染处理来得到所期望的姿势(视点、旋转角)和光源下的图像。在本实施方式中采取下述结构:取得部21受理识别对象物体的三维CAD数据,使用根据该CAD数据生成的各视点的图像自动生成原始的模板集合。
接着,聚类部22对模板间的相似度进行计算(步骤S601)。此时,对于从模板集合中选取的2个模板的全部组合(例如,模板的总数为26960个时,为(26960×26959)/2=363407320个)进行相似度计算。所谓相似度是表示一个模板所表示的图像特征与另一模板所表示的图像特征的一致程度的指标。在本实施方式中,对于2个模板间的坐标(x,y)和特征量val一致的特征点的数目进行统计,将一致的特征点的数目(或者一致的特征点的数目除以模板内的特征点的总数所得到的值)用作相似度。
聚类部22通过基于在步骤S601中计算出的相似度进行的聚类处理,将模板集合内的多个模板分成多个组(聚类)(步骤S602)。由此,能够将彼此相似的模板彼此归在同一组中。作为聚类方法,例如可以使用k-means、x-means、谱聚类等任意的算法。
接着进行整合处理,在该整合处理中,整合部23针对在步骤S602中得到的各组,将组内的全部模板整合为1个整合模板(步骤S603)。在本实施方式中,通过对组内的各模板中的相同坐标(x,y)的特征点的特征量val进行整合而生成整合模板。特征量的整合可以使用任何方法。例如,在像亮度这样由1个数值来表示的特征量的情况下,可以将平均值、众数值、合计值、最大值、最小值等作为整合后的特征量。另外,在HoG这样的特征量的情况下,可以将合成直方图后的特征量作为整合后的特征量。需要说明的是,在本实施方式的整合处理中,根据组内的全部模板生成了1个整合模板,但也可以是生成n个(n为大于1且小于组内的模板总数的数目)整合模板的结构。例如,如使用平均值作为整合后的特征量的整合模板和使用众数值作为整合后的特征量的整合模板那样,可以生成整合方法不同的整合模板。
图8中示出了将3个模板Ta~Tc的特征量(量化梯度方向)整合的示例。关于特征点(20,20),通过将模板Ta~Tc的特征量的值00100000、00000001、00000100整合,由此得到整合后的特征量的值00100101。同样地,关于特征点(32,25),通过将值00000100、00000100、00000010整合,得到整合后的特征量的值00000110。另外,在整合模板中记录有模板Ta~Tc的参照信息parent(父辈)。通过参照该参照信息parent,能够确定该整合模板的制作中使用的父模板Ta~Tc。
通过针对各组进行步骤S603的整合处理,可以得到多个整合模板。这些多个整合模板作为新的模板集合被存储在存储部24中(步骤S604)。该模板集合能够用于在物体识别处理中判定识别对象的物体2属于多个组中的哪个组。
另一方面,分辨率转换部25通过对在步骤S603中得到的多个整合模板分别实施低分辨率化处理,生成多个低分辨率模板(步骤S605)。低分辨率化处理是通过根据各特征点的位置关系对位于附近的多个特征点进行整合来降低模板的分辨率的处理。由于通过低分辨率化使模板的图像特征变得平滑,因而相似的模板的组合增多。因而,通过在低分辨率化后再次进行模板的聚类和整合,能够进一步削减模板的数目。
图9中示出了使模板的分辨率降为原分辨率的1/2的示例。在使分辨率降为原分辨率的1/2的情况下,2×2范围内的附近特征点被整合为1个特征点。在图9的示例中,对4个特征点(1,1)、(1,2)、(2,1)、(2,2)的特征量的值进行整合的结果为低分辨率模板的特征点(1,1)的特征量的值。另外,对3个特征点(1,3)、(1,4)、(2,4)的特征量的值进行整合的结果为低分辨率模板的特征点(1,2)的特征量的值。需要说明的是,这里为低分辨率化处理的一例,也可以利用其他方法进行模板的低分辨率化。
在步骤S606中,分辨率转换部25检查各低分辨率模板中包含的特征点的数目是否为规定值以上。在所有低分辨率模板均包含规定值以上的特征点时(步骤S606;NO),返回步骤S601。并且,对于步骤S605中得到的多个低分辨率模板,与前面同样地进行聚类处理(步骤S602)和整合处理(步骤S603),生成低分辨率的新的模板集合,存储在存储部24中(步骤S604)。
通过反复进行以上的处理,能够生成分辨率呈层级性降低的多个模板集合。需要说明的是,在低分辨率化后所有模板的特征点的数目均低于规定值时(步骤S606;YES),停止反复处理,结束模板的制作。将模板内的特征点的数目作为结束条件的原因在于,若特征点的数目过少,则模板的识别能力下降,物体的识别精度可能降低。
图10中概念性地示出聚类处理(步骤S602)~整合处理(步骤S603)~低分辨率化处理(步骤S605)的流程。在图10中,为了便于图示,以图像来表示模板(将不存在特征点的坐标以黑像素表示,将存在特征点的坐标以白像素表示)。图10的左端为由m0个模板构成的模板集合80。通过基于模板间的相似度进行模板集合80的聚类,得到m1个组(类)81(m0>m1)。并且,通过按照每组进行模板的整合,得到由m1个整合模板构成的新的模板集合82。其后,通过低分辨率化处理,制作m1个低分辨率模板83,对其再次进行聚类和整合处理。
图11中示意性示出了通过反复处理得到的层级性的模板集合的一例。例如,在对原始模板反复进行3次使组(聚类)数降为原要素的1/8的聚类处理和整合处理的情况下,原始(第0层)模板T0为26960个,与此相对,第1层模板T1为3370个,第2层模板T2为421个,第3层模板T3为53个。这些模板集合被存储在模板DB31中,被用于物体识别处理装置30的物体识别处理中。
(物体识别处理)
接着,按照图12的顺序对由物体识别处理装置30执行的物体识别处理的流程进行说明。
首先,图像取得部32从摄像机11取得图像(步骤S120)。设为该图像拍摄了任意姿势的物体2。
模板匹配部33从模板DB31读取最下位层的模板集合(步骤S121),进行使用了该模板集合的模板匹配(步骤S122)。在与任一模板匹配的情况下(步骤S123;是),模板匹配部33从上位层的模板集合读取该匹配的模板的父模板(步骤S125)。并且,模板匹配部33进行使用了新读取的模板集合的模板匹配(步骤S122),进一步缩小模板的范围。通过依次反复进行以上的操作直至达到最上位层的模板(步骤S124),最终能够确定与图像最匹配的最上位层的模板。在图11的示例中,按照第3层:T3,12→第2层:T2,83→第1层:T1,553→第0层:T0,200的顺序选择模板。由于第0层的模板T0,200与物体2的姿势一一对应,因而能够确定物体2的姿势。
物体2的姿势信息作为识别结果由利用识别结果输出部34进行输出(步骤S126)。该识别结果例如被用于分拣/机器人的控制、加工装置或印字装置的控制、物体2的检査/计测等。
(本实施方式的优点)
根据如上所述的本实施方式的模板制作方法,图像特征相似的模板彼此(不论视点的近/远)被整合,因而与间疏视点方式的现有方法相比,能够适当地进行模板的整合,能够期待更高的模板削减效果。特别是在识别对象物体的形状为简单形状或具有对称性的情况下,该效果较大。
另外,在本实施方式中,制作层级性的模板集合,进行基于分辨率低的模板集合的粗略识别,使用其结果进行基于分辨率高的模板集合的详细识别,由于进行这样的层级性搜索,因而能够谋求物体识别处理的高精度化和高速化。例如,在图11的示例中,在不进行层级性搜索的情况下,需要26960个原始模板的轮流匹配。与此相对,在进行层级性搜索的情况下,在第3层的匹配中使用53个模板,在第2层、第1层、第0层的匹配中分别使用8个模板,也仅进行了合计77次的匹配,能够谋求处理负荷的大幅度减轻。
(变形例)
上述的实施方式的构成只不过示出了本发明的一个具体示例,并非旨在限定本发明的范围。本发明可以在不脱离其技术思想的范围内采取各种具体构成。
例如,在上述实施方式中,作为原始模板集合,对一个物体的不同姿势给出了根据多个图像分别得到的模板集合,但也可以对多个物体(不同物体)给出根据多个图像分别得到的模板集合。这是由于,即使为不同的物体,只要外观形状相似、图像特征相似,即可应用共同的模板。在这种情况下,也能够利用与上述实施方式所述的相同的步骤制作层级性的模板集合。这样的模板集合能够优选应用于,例如在两种以上的物体在传送带上混在一起传输的生产线中对物体的种类和姿势这两者进行识别的用途。
另外,在上述实施方式中,即使对于相同视点,也对应于摄像机的旋转角度准备了单独的模板,但也可以对一个视点仅准备一个模板,在模板匹配的处理中使图像或模板旋转。由此,能够进一步削减模板的数目。
在上述实施方式中,列举出了设亮度为像素值的图像的示例,但也可以采用将与像素对应的距物体的距离作为像素值的图像(距离图像)。这种情况下,能够根据距离图像直接掌握物体的形状,通过将距离图像与根据三维CAD数据得到的模板进行匹配,能够更准确地进行三维的物体的位置/姿势的识别。
【标号说明】
1:物体识别装置、2:物体、3:传送带、10:图像处理装置、11:摄像机
20:模板制作装置、21:取得部、22:聚类部、23:整合部、24:存储部、25:分辨率转换部
30:物体识别处理装置、31:模板DB、32:图像取得部、33:模板匹配部、34:识别结果输出部。
Claims (8)
1.一种模板制作装置,其是制作在物体识别装置中使用的模板集合的模板制作装置,该物体识别装置通过模板匹配进行物体的识别,该模板制作装置的特征在于,其具有:
取得部,其分别从针对一个物体的不同姿势的多个图像或者针对多个物体的多个图像中取得多个模板;
聚类部,其进行如下的聚类处理:针对从所述多个模板中选出的两个模板的组合,计算图像特征的相似度,基于所述相似度将所述多个模板分成多个组;
整合部,其针对所述多个组中的每个组,进行将组内的全部模板整合为1个或者数目少于组内模板数的整合模板的整合处理,生成由与所述多个组分别对应的多个整合模板构成的新的模板集合;以及
分辨率转换部,其对通过所述整合处理得到的多个整合模板分别实施低分辨率化处理,由此生成多个低分辨率模板,
所述模板是包含物体图像中的多个特征点的特征量的数据,
所述低分辨率化处理是基于各特征点的位置关系对位于附近的多个特征点进行整合的处理。
2.如权利要求1所述的模板制作装置,其特征在于,
该模板制作装置对于通过所述低分辨率化处理得到的所述多个低分辨率模板,进行所述聚类部执行的所述聚类处理以及所述整合部执行的所述整合处理,由此生成低分辨率的新的模板集合。
3.如权利要求2所述的模板制作装置,其特征在于,
该模板制作装置通过进行如下的反复处理而生成分辨率呈层级性降低的多个模板集合:对所述低分辨率的新的模板集合进行所述分辨率转换部执行的所述低分辨率化处理、所述聚类部执行的所述聚类处理以及所述整合部执行的所述整合处理,由此生成更低分辨率的新的模板集合。
4.如权利要求3所述的模板制作装置,其特征在于,
该模板制作装置在通过所述低分辨率化处理使得低分辨率模板中包含的特征点的数目低于规定值时,停止所述反复处理。
5.如权利要求1~4中任一项所述的模板制作装置,其特征在于,
两个模板之间的相似度是根据该两个模板之间特征点的坐标和特征量的值均一致的特征点的数目计算的。
6.如权利要求1~4中任一项所述的模板制作装置,其特征在于,
所述整合部通过将组内的各模板中的相同坐标的特征点的特征量进行整合而生成所述整合模板。
7.一种模板制作方法,其是制作在物体识别装置中使用的模板集合的模板制作方法,该物体识别装置通过模板匹配进行物体的识别,其特征在于,该模板制作方法包括下述步骤:
计算机分别从针对一个物体的不同姿势的多个图像或者针对多个物体的多个图像中取得多个模板;
计算机进行如下的聚类处理:针对从所述多个模板中选出的两个模板的组合,计算图像特征的相似度,基于所述相似度将所述多个模板分成多个组;
计算机针对所述多个组中的每个组进行将组内的全部模板整合为1个或者数目少于组内模板数的整合模板的整合处理,生成与所述多个组分别对应的多个整合模板;
计算机将通过所述整合处理得到的所述多个整合模板作为在物体属于所述多个组中的哪个组的判定中使用的模板集合进行存储;以及
计算机对通过所述整合处理得到的多个整合模板分别实施低分辨率化处理,由此生成多个低分辨率模板,
所述模板是包含物体图像中的多个特征点的特征量的数据,
所述低分辨率化处理是基于各特征点的位置关系对位于附近的多个特征点进行整合的处理。
8.一种计算机可读取记录介质,其特征在于,其存储有使计算机执行权利要求7所述的模板制作方法的各步骤的程序。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015091639A JP6554900B2 (ja) | 2015-04-28 | 2015-04-28 | テンプレート作成装置及びテンプレート作成方法 |
JP2015-091639 | 2015-04-28 | ||
PCT/JP2016/062799 WO2016175150A1 (ja) | 2015-04-28 | 2016-04-22 | テンプレート作成装置及びテンプレート作成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107430776A CN107430776A (zh) | 2017-12-01 |
CN107430776B true CN107430776B (zh) | 2020-10-16 |
Family
ID=57199543
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201680013793.8A Active CN107430776B (zh) | 2015-04-28 | 2016-04-22 | 模板制作装置和模板制作方法 |
Country Status (5)
Country | Link |
---|---|
US (1) | US10515291B2 (zh) |
EP (1) | EP3258441B1 (zh) |
JP (1) | JP6554900B2 (zh) |
CN (1) | CN107430776B (zh) |
WO (1) | WO2016175150A1 (zh) |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6333871B2 (ja) * | 2016-02-25 | 2018-05-30 | ファナック株式会社 | 入力画像から検出した対象物を表示する画像処理装置 |
JP6732214B2 (ja) | 2017-03-10 | 2020-07-29 | オムロン株式会社 | 画像処理装置、画像処理方法、テンプレート作成装置、物体認識処理装置及びプログラム |
JP6684475B2 (ja) * | 2017-03-13 | 2020-04-22 | オムロン株式会社 | 画像処理装置、画像処理方法及びプログラム |
US11908122B2 (en) | 2017-04-26 | 2024-02-20 | Sensors Incorporated | System and method for performing production line product identification |
US10198653B2 (en) * | 2017-04-26 | 2019-02-05 | Sensors Incorporated | System and method for performing production line product identification |
JP6889865B2 (ja) * | 2017-09-22 | 2021-06-18 | オムロン株式会社 | テンプレート作成装置、物体認識処理装置、テンプレート作成方法及びプログラム |
JP6968342B2 (ja) * | 2017-12-25 | 2021-11-17 | オムロン株式会社 | 物体認識処理装置、物体認識処理方法及びプログラム |
JP7207396B2 (ja) | 2018-03-06 | 2023-01-18 | ソニーグループ株式会社 | 情報処理装置、情報処理方法、およびプログラム |
US10540554B2 (en) * | 2018-03-29 | 2020-01-21 | Toyota Jidosha Kabushiki Kaisha | Real-time detection of traffic situation |
CN108563767B (zh) * | 2018-04-19 | 2020-11-27 | 深圳市商汤科技有限公司 | 图像检索方法及装置 |
US11189050B2 (en) * | 2018-07-30 | 2021-11-30 | Google Llc | Learning template representation libraries |
CN110942081B (zh) * | 2018-09-25 | 2023-08-18 | 北京嘀嘀无限科技发展有限公司 | 图像处理方法、装置、电子设备及可读存储介质 |
JP2020201077A (ja) * | 2019-06-07 | 2020-12-17 | 株式会社ミツトヨ | アナログインジケータ読取装置、アナログインジケータ読取方法及びプログラム |
JP7417882B2 (ja) * | 2021-08-09 | 2024-01-19 | 株式会社Mujin | 計算システム、方法及び非一時的コンピュータ可読媒体 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011013818A (ja) * | 2009-06-30 | 2011-01-20 | Nippon Hoso Kyokai <Nhk> | 顔特徴点抽出装置及び顔特徴点抽出プログラム |
US9036898B1 (en) * | 2011-01-18 | 2015-05-19 | Disney Enterprises, Inc. | High-quality passive performance capture using anchor frames |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6603882B2 (en) * | 2001-04-12 | 2003-08-05 | Seho Oh | Automatic template generation and searching method |
JP3886471B2 (ja) * | 2003-05-20 | 2007-02-28 | ファナック株式会社 | 画像処理装置 |
JP4203648B2 (ja) * | 2003-09-01 | 2009-01-07 | パナソニック電工株式会社 | 画像処理装置 |
JP2006350730A (ja) * | 2005-06-16 | 2006-12-28 | Toshiba Corp | クラスタリング装置、クラスタリング方法およびプログラム |
US7720848B2 (en) * | 2006-03-29 | 2010-05-18 | Xerox Corporation | Hierarchical clustering with real-time updating |
DE602007003849D1 (de) | 2007-10-11 | 2010-01-28 | Mvtec Software Gmbh | System und Verfahren zur 3D-Objekterkennung |
JP2011034177A (ja) * | 2009-07-30 | 2011-02-17 | Sony Corp | 情報処理装置および情報処理方法、並びにプログラム |
JP5522790B2 (ja) * | 2010-07-16 | 2014-06-18 | 日本放送協会 | テンプレート画像生成装置およびテンプレート画像生成プログラム |
JP5911299B2 (ja) * | 2011-12-27 | 2016-04-27 | キヤノン株式会社 | 情報処理装置、情報処理装置の制御方法およびプログラム |
JP2014029664A (ja) * | 2012-06-28 | 2014-02-13 | Seiko Epson Corp | 比較画像範囲生成方法、位置姿勢検出方法、比較画像範囲生成装置、位置姿勢検出装置、ロボット、ロボットシステム、比較画像範囲生成プログラム及び位置姿勢検出プログラム |
EP2808828B1 (en) * | 2013-05-31 | 2020-08-05 | Omron Corporation | Image matching method, image matching device, model template generation method, model template generation device, and program |
JP6278108B2 (ja) * | 2014-03-14 | 2018-02-14 | オムロン株式会社 | 画像処理装置、画像センサ、画像処理方法 |
JP6493163B2 (ja) * | 2015-11-06 | 2019-04-03 | オムロン株式会社 | 粗密探索方法および画像処理装置 |
CN105741348B (zh) * | 2016-01-28 | 2018-06-12 | 北京航空航天大学 | 一种结构自适应的三维模型编辑方法 |
JP6732214B2 (ja) * | 2017-03-10 | 2020-07-29 | オムロン株式会社 | 画像処理装置、画像処理方法、テンプレート作成装置、物体認識処理装置及びプログラム |
JP6684475B2 (ja) * | 2017-03-13 | 2020-04-22 | オムロン株式会社 | 画像処理装置、画像処理方法及びプログラム |
-
2015
- 2015-04-28 JP JP2015091639A patent/JP6554900B2/ja active Active
-
2016
- 2016-04-22 CN CN201680013793.8A patent/CN107430776B/zh active Active
- 2016-04-22 WO PCT/JP2016/062799 patent/WO2016175150A1/ja active Application Filing
- 2016-04-22 EP EP16786427.1A patent/EP3258441B1/en active Active
-
2017
- 2017-09-22 US US15/712,826 patent/US10515291B2/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011013818A (ja) * | 2009-06-30 | 2011-01-20 | Nippon Hoso Kyokai <Nhk> | 顔特徴点抽出装置及び顔特徴点抽出プログラム |
US9036898B1 (en) * | 2011-01-18 | 2015-05-19 | Disney Enterprises, Inc. | High-quality passive performance capture using anchor frames |
Non-Patent Citations (3)
Title |
---|
Luke Cole等.Visual Object Recognition using Temple Matching.《Proceeding of Australian Conference on Robotics and Automation》.2004,第1-9页. * |
Multiple Resolution representation and probabilistic matching of 2-D gray-scale shape;James L. Crowley等;《IEEE Transactions on Pattern Analysis and Machine Intelligence》;19870131;第PAMI-9卷;第113-121页 * |
Visual Object Recognition using Temple Matching;Luke Cole等;《Proceeding of Australian Conference on Robotics and Automation》;20040501;第1-9页 * |
Also Published As
Publication number | Publication date |
---|---|
US20180025252A1 (en) | 2018-01-25 |
EP3258441B1 (en) | 2022-06-08 |
JP6554900B2 (ja) | 2019-08-07 |
CN107430776A (zh) | 2017-12-01 |
JP2016207147A (ja) | 2016-12-08 |
WO2016175150A1 (ja) | 2016-11-03 |
EP3258441A1 (en) | 2017-12-20 |
EP3258441A4 (en) | 2018-11-07 |
US10515291B2 (en) | 2019-12-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107430776B (zh) | 模板制作装置和模板制作方法 | |
CN108573273B (zh) | 图像处理装置、图像处理方法、模板作成装置、物体识别处理装置以及记录介质 | |
CN110458805B (zh) | 一种平面检测方法、计算设备以及电路系统 | |
CN111328396B (zh) | 用于图像中的对象的姿态估计和模型检索 | |
KR101991763B1 (ko) | 조밀 탐색 방법 및 화상 처리 장치 | |
EP3376433B1 (en) | Image processing apparatus, image processing method, and image processing program | |
JP6968342B2 (ja) | 物体認識処理装置、物体認識処理方法及びプログラム | |
EP3460715B1 (en) | Template creation apparatus, object recognition processing apparatus, template creation method, and program | |
Ward et al. | RGB-D image-based object detection: from traditional methods to deep learning techniques | |
US12094227B2 (en) | Object recognition device and object recognition method | |
US10706319B2 (en) | Template creation apparatus, object recognition processing apparatus, template creation method, and program | |
CN112016495A (zh) | 人脸识别的方法、装置和电子设备 | |
Hao et al. | Development of 3D feature detection and on board mapping algorithm from video camera for navigation | |
Ebrahimi | Perspective-independent point cloud processing: towards streamlining 3D computer vision workflows and enhancing 3D indoor scene perception | |
JP6796850B2 (ja) | 物体検出装置、物体検出方法および物体検出プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |