CN105426901B - 用于对摄像头视野中的已知物体进行分类的方法 - Google Patents
用于对摄像头视野中的已知物体进行分类的方法 Download PDFInfo
- Publication number
- CN105426901B CN105426901B CN201410645595.6A CN201410645595A CN105426901B CN 105426901 B CN105426901 B CN 105426901B CN 201410645595 A CN201410645595 A CN 201410645595A CN 105426901 B CN105426901 B CN 105426901B
- Authority
- CN
- China
- Prior art keywords
- posture
- known object
- image
- artifact
- feature vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/64—Three-dimensional objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three dimensional [3D] modelling, e.g. data description of 3D objects
- G06T17/10—Constructive solid geometry [CSG] using solid primitives, e.g. cylinders, cubes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T19/00—Manipulating 3D models or images for computer graphics
- G06T19/20—Editing of 3D images, e.g. changing shapes or colours, aligning objects or positioning parts
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
- G06T7/74—Determining position or orientation of objects or cameras using feature-based methods involving reference images or patches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/24—Aligning, centring, orientation detection or correction of the image
- G06V10/242—Aligning, centring, orientation detection or correction of the image by image rotation, e.g. by 90 degrees
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N13/00—Stereoscopic video systems; Multi-view video systems; Details thereof
- H04N13/20—Image signal generators
- H04N13/204—Image signal generators using stereoscopic image cameras
- H04N13/207—Image signal generators using stereoscopic image cameras using a single 2D image sensor
- H04N13/211—Image signal generators using stereoscopic image cameras using a single 2D image sensor using temporal multiplexing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N13/00—Stereoscopic video systems; Multi-view video systems; Details thereof
- H04N13/20—Image signal generators
- H04N13/204—Image signal generators using stereoscopic image cameras
- H04N13/207—Image signal generators using stereoscopic image cameras using a single 2D image sensor
- H04N13/218—Image signal generators using stereoscopic image cameras using a single 2D image sensor using spatial multiplexing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N13/00—Stereoscopic video systems; Multi-view video systems; Details thereof
- H04N13/20—Image signal generators
- H04N13/275—Image signal generators from 3D object models, e.g. computer-generated stereoscopic image signals
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2218/00—Aspects of pattern recognition specially adapted for signal processing
- G06F2218/12—Classification; Matching
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Signal Processing (AREA)
- Geometry (AREA)
- Computer Graphics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computer Hardware Design (AREA)
- Architecture (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
- Length Measuring Devices By Optical Means (AREA)
Abstract
一种用于对数字摄像头视野中的已知物体分类的方法,包括形成多个分类器特征向量,每一个分类器特征向量与已知物体的多个面观察角度中的一个相关联。数字摄像头捕捉包括已知物体的视野中的图像,并且图像特征向量基于所述捕捉图像而生成。将图像特征向量与多个分类器特征向量的每一个比较,并且选择多个分类器特征向量中最接近地对应于图像特征向量的一个。已知物体相对于数字摄像头的姿态基于所选择的分类器特征向量而确定。
Description
技术领域
本公开涉及成像系统,且涉及对视野中的物体进行分类的方法。
背景技术
该部分的陈述仅仅提供与本公开有关的背景信息,并且可能不构成现有技术。
数字摄像头可用于识别在视野中的物体。用于检测和识别在数字摄像头的视野中随机取向的物体的已知方法可能会花费较长的时间。相对慢的响应时间降低效率,并且从而降低将数字摄像头安装在机械臂的末端执行器上的满意度。
发明内容
本发明涉及一种用于对数字摄像头的视野中的已知物体进行分类的方法,该方法包括:
产生多个分类器特征向量,每一个分类器特征向量与已知物体的多个面观察角度中的一个相关联;
使用数字摄像头捕捉包括已知物体的视野中的图像;
基于所述捕捉的图像生成图像特征向量;
将所述图像特征向量与多个分类器特征向量中的每一个相比较,并且选择所述多个分类器特征向量中最接近地对应于所述图像特征向量的一个;以及
基于所选择的分类器特征向量而确定已知物体相对于所述数字摄像头的姿态。
如上面所述的方法,其中产生多个分类器特征向量包括:
将姿态伪影以已知空间关系固定地耦接到已知物体;并且
对于面观察角度的每一个:
生成包括已知物体和姿态伪影的图像;
识别图像中的已知物体和姿态伪影;
确定已知物体的特征向量;
确定姿态伪影的观察角度;
将姿态伪影的观察角度变换为与面观察角度相关联的多个类中的特定一个;和
将已知物体的特征向量和所述与面观察角度相关联的多个类中的特定一个建立联系。
如上面所述的方法,其中生成包括已知物体和姿态伪影的图像包括:采用计算机辅助设计环境以生成采用已知物体和姿态伪影的3D实体模型的合成图像。
如上面所述的方法,其中生成包括已知物体和姿态伪影的图像包括采用数字摄像头以捕捉包括已知物体和姿态伪影的位图图像文件形式的图像。
如上面所述的方法,其中姿态伪影包括姿态立方体;并且其中确定姿态伪影的观察角度包括识别所述姿态立方体的多个面中的一个以及确定所述姿态立方体的取向。
如上面所述的方法,其中所述姿态立方体包括六个面,且其中每一个面包括独特的识别符元素和独特定位的缩放取向元素。
如上面所述的方法,进一步包括基于所述选择的分类器特征向量确定已知物体相对于数字摄像头的姿态和范围。
如上面所述的方法,其中使用数字摄像头捕捉包括已知物体的视野中的图像包括:捕捉已知物体的二维(2D)图像。
如上面所述的方法,其中捕捉已知物体的2D图像包括捕捉包括已知物体的视野的8位灰度表现形式的位图图像文件。
如上面所述的方法,其中产生多个分类器特征向量包括:
对于每一个面观察角度:
生成包括已知物体和相对于已知物体以空间关系布置的姿态伪影的图像;
识别图像中的已知物体和姿态伪影;
确定已知物体的特征向量;
确定姿态伪影的观察角度;
将姿态伪影的观察角度变换为与面观察角度相关联的多个类中的特定一个;以及
将已知物体的特征向量和所述与面观察角度相关联的多个类中的特定一个建立联系。
如上面所述的方法,其中识别图像中的已知物体和姿态伪影包括:识别图像中已知物体和姿态伪影的轮廓,并且其中确定已知物体的特征向量包括确定已知物体轮廓的特征向量。
如上面所述的方法,其中生成包括已知物体和相对于已知物体以空间关系布置的姿态伪影的图像包括:使用数字摄像头捕捉包括已知物体和姿态伪影的视野中的图像。
如上面所述的方法,其中生成包括已知物体和相对于已知物体以空间关系布置的姿态伪影的图像包括:在采用3D实体模型的计算机辅助设计(CAD)环境中生成包括已知物体和相对于已知物体以空间关系布置的姿态伪影的图像。
本发明还涉及一种用于对数字摄像头的视野中的已知物体进行分类的方法,所述已知物体包括具有预定特征的三维(3D)装置,所述预定特征包括空间尺寸,该方法包括:
产生多个分类器特征向量,每一个分类器特征向量与已知物体的多个面观察角度中的一个相关联;
使用数字摄像头捕捉包括已知物体的视野的位图图像文件;
基于所述捕捉的位图图像文件生成图像特征向量;
将所述图像特征向量与多个分类器特征向量相比较;
选择所述多个分类器特征向量中最接近地对应于所述图像特征向量的一个;以及
基于与所选择的分类器特征向量相关联的已知物体的面观察角度而确定已知物体相对于数字摄像头的姿态。
如上面所述的方法,其中形成多个分类器特征向量包括:
将姿态伪影以已知空间关系固定地耦接到已知物体;并且
对于面观察角度的每一个:
生成包括已知物体和姿态伪影的图像;
识别图像中的已知物体和姿态伪影;
确定已知物体的特征向量;
确定姿态伪影的观察角度;
将姿态伪影的观察角度变换为与面观察角度相关联的多个类中的特定一个;和
将所述已知物体的特征向量和所述与面观察角度相关联的多个类中的特定一个建立联系。
如上面所述的方法,其中生成包括已知物体和姿态伪影的图像包括:采用计算机辅助设计环境以生成采用已知物体和姿态伪影的3D实体模型的合成图像。
如上面所述的方法,其中产生多个分类器特征向量包括:
对于每一个面观察角度:
生成包括已知物体和相对于所述已知物体以空间关系布置的姿态伪影的图像;
识别图像中的已知物体和姿态伪影;
确定已知物体的特征向量;
确定姿态伪影的观察角度;
将姿态伪影的观察角度变换为与面观察角度相关联的多个类中的特定一个;以及
将已知物体的特征向量和所述与面观察角度相关联的多个类中的特定一个建立联系。
一种用于对数字摄像头(digital camera)视野中的已知物体分类的方法,包括形成多个分类器特征向量(classifier feature vector),每一个分类器特征向量与已知物体的多个面观察角度(facet viewing angle)中的一个相关联。数字摄像头捕捉包括已知物体的视野中的图像,并且图像特征向量基于所述捕捉图像而生成。将图像特征向量与多个分类器特征向量的每一个比较,并且选择多个分类器特征向量中最接近地对应于图像特征向量的一个。已知物体相对于数字摄像头的姿态基于所选择的分类器特征向量而确定。
在下文结合附图进行的对用于实施如权利要求中限定的本公开的较佳模式和其他实施例的一些做出的详尽描述中能显而易见地得到本公开的上述特征和优点以及其他的特征和优点。
附图说明
参考附图通过例子描述一个或多个实施例,其中:
图1示意性地示出了根据本公开的用于捕捉、处理和存储2D视野(FOV)的二维(2D)图像的视觉系统,该视觉系统包括摄像头、已知物体和图像分类器;
图2示意性地示出了根据本公开的包括多个面的图像分类器的一个实施例的三维(3D)图像;
图3示意性地示出了根据本公开的用于捕捉、处理和存储视野(FOV)的二维(2D)图像的视觉系统的实施例,该视觉系统包括图像检测器、已知物体、图像分类器和姿态伪影(pose-artifact);
图4示意性地示出了根据本公开的姿态立方体(pose cube)的一个实施例,包括姿态立方体的等轴视图和显示了包括三个面的姿态立方体的所有六面的分解视图;以及
图5是根据本公开的已知物体分类例程。
具体实施方式
图或附图以及详细的描述对本公开是支持性和描述性的,但是本公开的范围仅通过权利要求而限定。尽管已经对实施本公开的较佳模式和其他实施例的一些进行了详尽的描述,但是还存在用于实践附加的权利要求所限定的本公开的多种替代设计和实施例。相同的附图标记在整个说明书中表示相同的元件。
现在参见附图,其中描述仅是用于图示某些示例性实施例的目的而不是为了对其进行限制,图1示意性地示出了用于捕捉、处理和存储视野(FOV)的二维(2D)图像的示例性视觉系统,包括通过信号连接到控制器50的图像检测器(摄像头)10、已知物体20和图像分类器30。摄像头10具有绕轴线13的取向19,且摄像头10和已知物体20之间的物理关系的特征在于范围17和观察角度。摄像头10可相对于已知物体20处于任何位置和取向。
在一个实施例中,2D图像是以图形显示的并且是FOV的8位灰度表现的视野的位图图像文件15,其是FOV的非限制性实施例。其他实施例可包括描绘了2D FOV的颜色表现的2D图像、3D FOV的3D图像、以及其他图像表现,而没有更多限制。摄像头10包括图像获取传感器,所述图像获取传感器通过信号连接到编码器,该编码器在2D图像上执行数字信号处理(DSP)。图像获取传感器以预定分辨率在2D FOV中捕捉像素,且编码器生成2D FOV的位图,例如8位像素位图,其代表被通信到信号处理器的2D FOV。信号处理器生成位图图像文件15,该文件被通信到控制器50。在一个实施例中,位图图像文件15是存储在非临时性数字数据存储介质中的编码数据文件。位图图像文件15包括多维视野图像的表现,所述视野包括已知物体20,该表现表示以摄像头的原始分辨率捕捉的FOV的原始图像,例如在一个实施例中包括2D FOV的8位灰度表现的数据文件。
控制器、控制模块、模块、控制装置、控制单元、处理器和相似的术语是指专用集成电路(一个或多个)(ASIC)、电子电路(一个或多个)、执行一个或多个软件或固件程序或例程的中央处理单元(一个或多个)(优选是微处理器(一个或多个))和相关联的内存和存储器(只读的、可编程只读的、随机存取的、硬驱动的等)、组合逻辑电路(一个或多个)、输入/输出电路(一个或多个)和器件、适当的信号调节和缓冲电路以及其他部件中的一个或多个的任何一种或多种组合,以提供所述的功能,包括数据存储和数据分析。软件、固件、程序、指令、例程、代码、算法和相似的术语是指任何控制器可执行的指令集,包括校准和查找表。
已知物体20是具有预定特征的已知三维装置,该预定的特征包括例如空间尺寸、材料和表示反射率的表面光洁度等。图像分类器30是用于评估由这里描述的摄像头10生成的位图图像文件15形式的图像的类生成(class generation)中采用的分析工具,并且不是视觉系统的物理部件。
由摄像头10捕捉的已知物体20的位图图像文件15形式的2D图像包含足够的信息以评估已知物体20关于摄像头10的位置。在与照明和反射率相关的影响已经被考虑且摄像头10已经被校准之后,已知物体20的形状取决于摄像头10和已知物体20之间的相对观察角度和距离。已知物体20的形状可通过使用图像分类器30而被描述。
已知物体20关于摄像头10的位置可以以向量等式的方式描述,所述向量等式考虑了位图图像文件15中通过摄像头10捕捉的已知物体20的取向和范围。从而,针对已知物体20捕捉的图像通过其相对于摄像头的经度、纬度、取向和范围的方式而描述,即图像(Image)=F1(经度,纬度,取向,范围)。该关系具有四个变量,即三个旋转变量和一个范围变量。通过考虑已知物体20关于摄像头10的范围和取向,向量中变量的数量可减小。位图图像文件15包括轮廓,该轮廓是包含表示已知物体20的信息的位图图像文件15的一部分。通过对轮廓的尺寸归一化或以其他方式缩放而将范围考虑在内,如在本文在参考图3和4所示的姿态伪影的背景中所述。通过得知摄像头10在其轴线上的角度且采用与旋转无关的特征而确定轮廓的特征,从而取向可被考虑在内。由此,当引入这种限制条件时,已知物体20相对于摄像头10的位置可以以纬度和经度的观察角度的形式来描述,即图像(Image)=F2(经度,纬度)。从而,捕捉在已知位置的已知物体的图像可被表示为物体的向量,例如包括在经度和纬度的背景下描述的位图图像文件。
如在本文所述的,数学分类器用于提取观察角度对位图图像文件和轮廓的影响并且评估这些观察角度的相应值。数学分类器是将观察资料(例如位图图像文件)进行分类的分析过程。数学分类器是通用的分类器,其允许在随机情况中的复杂的非线性特征定义,在该随机情况难以建立行为,但是在该随机情况中可采用训练以使得其专用于特定任务,诸如识别物体。数学分类器接收特征向量作为输入并且给出类作为输出。类生成包括限定类,其可以是一维的,即A、B、C或D。限定的类标识由分类器返回的可能值。当观察资料是通过摄像头生成的位图图像文件时,每一个位被分配到多个类中的一个。特征向量是代表物体的数值的n维向量,包括与由位图图像文件所表示的图像的像素相对应的特征值。
将数学分类器应用于特定的任务上包括:选择类、确定需要识别什么、并且根据被分类的元件的特点而确定特征向量。使用分类器过程中的不变点为特征向量的生成。其存在于训练、测试和使用的所有分类器阶段。对于观察角度评估,从图像中选择的轮廓生成特征向量,在一个实施例中所述图像由位图图像文件表示。特征向量是到数学分类器的输入数据且是在分类任务中分类器使用的唯一数据。
图2示意性地显示了图像分类器100的一个实施例的三维(3D)图像,包括在本文单独描述的多个面140。如所示的,图像分类器100包括26个面,显示了其中的12个。每一个面140特征在于以经度和纬度的形式表示的相关联的面观察角度,且对应于唯一的类。经度和纬度的间隙160插入在面140之间,以实现统计分离。如所示的,不同类代表观察角度。插入在面140之间的间隙160通过提供类之间的清晰区别而改善训练质量,由此有助于数学分类器在类之间进行区分。如所示的,面包括经度和纬度的观察角度,如表格1中所示。
表1
数学分类器可处理其类中的仅仅一个维度,且从而每一个经度-纬度对用于形成一类。如所示的,类对应于在经度和纬度上覆盖45度角度范围的面。由此,存在用于纬度的三个中断、用于经度的八个中断、和用于总共26个面和相应的26个类的顶部和底部部分。确定图像中的类可通过用户输入或自动地完成。自动处理是优选的以实现观察角度的系统性确定,这可通过采用参考图3和4所描述的姿态伪影而实现。通过已知的观察角度,相应类名可针对未来的使用而指定。
特征向量生成优选地包括识别特征向量元素,该特征向量元素在物体和摄像头之间是与旋转无关和与距离无关的。为了实现这一点,没有使用基于取向的特征,且所有长度和表面被归一化到轮廓区域,优选忽略任何孔。特征向量需求取决于分类器的类型,在一个实施例中,分类器的类型是可基于神经网络技术开发的多层感知器(MLP)分类器。这类分类器接受大的特征向量,在一个实施例中该特征向量可以是500+真值(real value)的量级。为了在准确地识别类的过程中提高分类器的性能,通常需要将特征向量的计算适应于被评估的已知物体。
图3示意性地示出了用于捕捉、处理和存储视野(FOV)的二维(2D)图像的视觉系统的实施例,且与参考图5所述的已知物体分类例程500所述的训练和测试相关联。视觉系统包括图像检测器(摄像头)10、已知物体20和姿态伪影40的实施例,所述姿态伪影在本文描述为姿态立方体40。姿态立方体40以已知的相对位置固定地耦接到已知物体20。姿态立方体40给出图像中的空间参考,包括指示其与已知物体20的空间关系。空间关系被示出且包括摄像头到立方体面姿态51、立方体面到立方体变换(transformation)53、立方体到已知物体变换55和摄像头到物体姿态57。当姿态立方体40和已知物体20之间的空间关系已知时,通过使用图像分类器30,已知物体20相对于摄像头10的相对姿态可在已知物体20的位置范围上被系统地评估。由此,姿态立方体40提供了已知物体20和摄像头10之间相对姿态的评估中的参考点。从图像处理的角度看,软件库提供了评估一些基本形状和元素(例如校准板、圆、和矩形)的相对姿态的工具。使用这些中的一个或多个测量相对姿态,而不必处理其复杂数学计算是方便的。所有这些元素易于集成进其平面表现中。姿态立方体40是具有六个面的3D立方体形状的装置,其中每一个面具有独特的设计。体形状优选用于训练图像分类器30,因为单个平面元素限制了姿态实际上可被评估的姿态范围。要制造的一种方便的体形状是立方体,具有适于精确印刷的平面和矩形面。姿态立方体40的每一个面的设计包括识别符元素和取向元素,取向元素优选包括缩放(scaled)元素。
姿态立方体40或另一姿态伪影可以是一种在训练过程中使用的物理装置的形式。替代地,姿态立方体可构造为在计算机辅助设计(CAD)环境中使用的使用3D实体模型生成表面的合成图像。CAD环境可用于与多种姿态中的姿态立方体40结合以生成已知物体20的表面,以自动化教导在多个面处对已知物体20分类,其中特征向量分类器以其将评估拍摄的已知物体20的实际图像相同的方式来评估已知物体20的3D表面模型的元素。以此方式,数百个CAD图像可被系统评估,以用于将基于与视图中已知物体20的原点(origins)和比例尺(scale)相关的公式而自动置于每一个图像中的正确的姿态伪影教导给系统。替代地,具有携带的摄像头的机器人用作平台,以在摄像头和机器人绕已知物体20在多个面处间断运动时捕捉数百图像。自动机器人教导机构(setup)可以是通过系统引导的同一系统,或替代地是用于教导所有类型的已知物体的通用机构。
图4示意性地示出了姿态立方体400的一个实施例,包括姿态立方体400的等轴视图和姿态立方体400的相应的分解视图。姿态立方体400的等轴视图包括三个面410、440和450。分解视图显示了姿态立方体的所有六个面,包括三个面410、440和450和三个额外面420、430和460。将面指定为第一、第二等是用于描述方便。每一个面包括空白背景,背景具有包括为独特量的圆形黑点414形式的识别符元素和为已知尺寸的黑色方形415形式的缩放取向元素的印刷物。为独特量的圆形黑点414形式的识别符元素和为已知尺寸的黑色方形415形式的缩放取向元素独特地定位在相关联的面上,以便将面的取向识别为右侧向上、放置于左侧上、放置于右侧上和上下颠倒中的一个。第一面410包括空白背景,该背景具有为单个圆形黑点形式的识别符元素和位于左下角的为已知尺寸的黑色方形形式的缩放取向元素,如图所示。第二面420包括空白背景,该背景具有为两个圆形黑点形式的识别符元素和位于右上角的为黑色方形形式的缩放取向元素,如图所示。第三面430包括空白背景,该背景具有为三个圆形黑点形式的识别符元素和位于右上角的为黑色方形形式的缩放取向元素,如图所示。第四面440包括空白背景,该背景具有为三个圆形黑点形式的识别符元素和位于右下角的为黑色方形形式的缩放取向元素,如图所示。第五面450包括空白背景,该背景具有为五个圆形黑点形式的识别符元素和位于左上角的为黑色方形形式的缩放取向元素。第六面460包括空白背景,该背景具有为六个圆形黑点形式的识别符元素和位于左下角的为黑色方形形式的缩放取向元素。间隙405形成在邻近的面的每一个之间。姿态立方体400是一个实施例的图示。可以有效地采用使用不同识别符元素和/或不同缩放取向元素的姿态立方体的其他实施例。此外,可有效地采用使用可见光谱上的其他颜色的其他实施例。此外,可有效地采用使用诸如快速响应(QR)码或条形码或其变型的其他构造的其他实施例。
再次参见图3,姿态立方体40的识别符元素和缩放取向元素的组合有助于通过图像分类器30在训练和测试期间对FOV中的姿态立方体40进行识别、确定取向和缩放。这包括基于识别符元素而识别姿态立方体40的多个面中的一个,以及基于缩放取向元素的位置确定姿态立方体40的取向以及确定姿态立方体40和摄像头之间的缩放比例和距离。姿态立方体40和已知物体20之间的空间关系与已知物体20的形状进行组合,有助于对已知物体进行识别、确定取向和缩放。
当姿态立方体40的姿态已知时,通过使用姿态立方体40和已知物体20之间的空间关系可容易地评估已知物体20的姿态。已知物体20的姿态通过捕捉位图图像文件形式的已知物体20和姿态立方体40的图像、和基于已知物体20和姿态立方体40的取向之间的关系对包括姿态立方体40和已知物体20的位图图像文件的部分(即在已知物体20的取向和姿态立方体40的多个面中所识别的一个面之间的关系的背景中的轮廓)进行评估而确定。评估过程包括评估姿态立方体的多个面中的一个相对于摄像头的姿态(这可基于姿态立方体40的被识别面相对于已知物体20的变换而确定)以确定取向,以及基于姿态立方体40的取向而确定已知物体20的姿态。
图5示意性地显示了已知物体分类例程500,其包括训练、测试和执行用于对数字摄像头视野中的已知物体进行分类的过程,该例程采用上文所述的系统的一个实施例。提供表2作为关键字,其中描述了数字标记框和相应功能如下,表2对应于已知物体分类例程500。
表2
已知物体分类例程500操作如下,且包括训练510、测试530和使用操作550。训练510在已知物体分类例程500的配置之前执行或在配置期间作为连续改进的一部分执行。训练510提供通过特征向量和类形成的对(couple)的形式的一定量的已知样本,以允许对每个类的变型的范围上进行类识别。通过该数据,分类器对特征向量元素和类之间的关系进行建模。在训练结束时,分类器识别并返回其确定的最适合特征向量特定值的类。训练510包括采用摄像头捕捉位图图像文件形式、包括已知物体和姿态立方体的图像(512)。图像中的轮廓被识别(513)且姿态立方体被识别,其包括识别姿态立方体的特定面和确定姿态立方体的取向(515)。对图像的轮廓执行特征计算(516),以确定特征向量(517),该特征向量被提供到分类器。姿态立方体的角度被读取(518),以确定其观察角度(519),且观察角度被变换为特定类521(520)。特定类521被提供到分类器(522),分类器将特征向量与测量的类建立联系。以这种方式,训练510产生多个分类器特征向量,其中每一个分类器特征向量对应于包括已知物体关于摄像头的观察角度的捕捉的图像的轮廓。在系统的教导过程中,在特征向量被评估时,有足够的信息来在范围和姿态角度类之间进行内插。这还给出了FOV中的已知物体的距离和取向的粗略估计。在给定通用抓持装置的近似特点的情况下,该信息本身足以为机器人装置提供引导以抓持已知物体。
测试530也在配置和实施(530)之前发生,且包括采用摄像头以捕捉包括已知物体和姿态立方体的位图图像文件形式的图像(532)。图像中的轮廓被识别(533)且姿态立方体被识别(535)。对图像的轮廓执行特征计算(536),以确定特征向量(537),该特征向量被提供到分类器(542)。姿态立方体的角度被读取(538),以确定其观察角度(539),且观察角度变换为特定类(540)。分类器(542)基于训练估计特定类544,且被估计的特定类544与特定类相比以验证结果(546)。
用于测试段530的基础涉及验证数学分类器的特征定义。基本验证过程包括通过训练组来测试分类器(542),以确保特征向量可确实将类分开。该测试目的是显示对于100%的训练样本来说,已知的类与估计的类相同。否则,需要额外训练和开发,以改善类之间的特征向量分离。在训练组验证成功时,分类器随后通过训练期间未使用的已知样本组而被测试。这指示了分类器分类的能力。理想地,这是100%的,但是取决于分类的复杂性而可能更低。
已知物体分类例程500被配置使用(550),以确定已知物体相对于数字摄像头的范围和姿态。这包括采用摄像头来捕捉包括已知物体的位图图像文件形式的图像(552)。图像中的轮廓被识别(553)且对图像的轮廓执行特征计算(556),以确定图像特征向量(557),该特征向量被提供到分类器(562)。分类器步骤(562)将图像特征向量与训练和测试部分(步骤510到546)期间产生的多个分类器特征向量的每一个比较,并且选择多个分类器特征向量中的最接近地对应于图像特征向量的一个(564)。这包括采用统计分析技术,以基于训练将分类器特征向量中的特定一个估计或以其它方式选择为对应于图像特征向量。所选择的分类器特征向量(564)可用于确定已知物体相对于数字摄像头的范围和姿态(566)。
分类器(562)的在线使用包括生成特征向量和通过分类器评估特征向量。在处理时间方面,特征向量生成花费最长时间执行。在一个实施例中,生成特征向量会花费10ms,且在用双核2.8GHz处理器评估时花费小于1ms。
使用具有26个类的MLP(数学分类器),已知物体的观察角度的评估达到95%的成功率。其优势在于是允许动态实时配置的处理速度。训练可通过姿态立方体而实现,以自动化确定用于与训练样本一起使用的实际的观察角度的过程。
系统允许已知物体的相对取向的迅速评估,以选择末端执行器和已知物体之间交互的适当的方法,包括使得能够快速估计已知物体相对于获得感兴趣的场景的图像的摄像头系统的相对取向和距离(按比例尺)。此外,在具有物体的场景中采用3D姿态伪影有助于对系统针对具体物体进行教导。
系统有助于物体相对于摄像头的姿态的初始粗略估计,采用快速低成本2D图像,以估计已知物体的6个自由度(DOF)。教导可包括使用在图像中位于已知物体附近的姿态立方体来进行教导,并且用于姿态立方体的姿态参考技术与来自于种子(seed)文件的合成图像一起使用,所述种子文件源于计算机辅助设计(CAD)环境。在使用中,系统允许快速估计,该快速估计可按原样使用,或用于“引发”和促进更精确的技术。这种操作提高作为处理使能器的机器人引导能力的速度和灵活性,且通过使用简单的2D传感器和照明来降低机器人引导应用的复杂性。
图或附图以及详细的描述对本公开是支持性和描述性的,但是本公开的范围仅通过权利要求而限定。尽管已经对实施本公开的较佳模式和其他实施例的一些进行了详尽的描述,但是还存在用于实践附加的权利要求所限定的本公开的多种替代设计和实施例。
Claims (9)
1.一种用于对数字摄像头的视野中的已知物体进行分类的方法,该方法包括:
产生多个分类器特征向量,每一个分类器特征向量与已知物体的多个面观察角度中的一个相关联,其中产生多个分类器特征向量包括:
将姿态伪影以已知空间关系固定地耦接到已知物体;并且
对于面观察角度的每一个:
生成包括已知物体和姿态伪影的图像;
识别图像中的已知物体和姿态伪影;
确定已知物体的特征向量;
确定姿态伪影的观察角度;
将姿态伪影的观察角度变换为与面观察角度相关联的多个类中的特定一个;和
将已知物体的特征向量和所述与面观察角度相关联的多个类中的特定一个建立联系;
使用数字摄像头捕捉包括已知物体的视野中的图像;
基于所述捕捉的图像生成图像特征向量;
将所述图像特征向量与多个分类器特征向量中的每一个相比较,并且选择所述多个分类器特征向量中最接近地对应于所述图像特征向量的一个;以及
基于所选择的分类器特征向量而确定已知物体相对于所述数字摄像头的姿态。
2.如权利要求1所述的方法,其中生成包括已知物体和姿态伪影的图像包括:采用计算机辅助设计环境以生成采用已知物体和姿态伪影的3D实体模型的合成图像。
3.如权利要求1所述的方法,其中生成包括已知物体和姿态伪影的图像包括采用数字摄像头以捕捉包括已知物体和姿态伪影的位图图像文件形式的图像。
4.如权利要求1所述的方法,其中姿态伪影包括姿态立方体;并且其中确定姿态伪影的观察角度包括识别所述姿态立方体的多个面中的一个以及确定所述姿态立方体的取向。
5.如权利要求4所述的方法,其中所述姿态立方体包括六个面,且其中每一个面包括独特的识别符元素和独特定位的缩放取向元素。
6.一种用于对数字摄像头的视野中的已知物体进行分类的方法,该方法包括:
产生多个分类器特征向量,每一个分类器特征向量与已知物体的多个面观察角度中的一个相关联,
使用数字摄像头捕捉包括已知物体的视野中的图像;
基于所述捕捉的图像生成图像特征向量;
将所述图像特征向量与多个分类器特征向量中的每一个相比较,并且选择所述多个分类器特征向量中最接近地对应于所述图像特征向量的一个;以及
基于所选择的分类器特征向量而确定已知物体相对于所述数字摄像头的姿态,
其中产生多个分类器特征向量包括:
对于每一个面观察角度:
生成包括已知物体和相对于已知物体以空间关系布置的姿态伪影的图像;
识别图像中的已知物体和姿态伪影;
确定已知物体的特征向量;
确定姿态伪影的观察角度;
将姿态伪影的观察角度变换为与面观察角度相关联的多个类中的特定一个;以及
将已知物体的特征向量和所述与面观察角度相关联的多个类中的特定一个建立联系。
7.如权利要求6所述的方法,其中识别图像中的已知物体和姿态伪影包括:识别图像中已知物体和姿态伪影的轮廓,并且其中确定已知物体的特征向量包括确定已知物体轮廓的特征向量。
8.如权利要求6所述的方法,其中生成包括已知物体和相对于已知物体以空间关系布置的姿态伪影的图像包括:使用数字摄像头捕捉包括已知物体和姿态伪影的视野中的图像。
9.如权利要求6所述的方法,其中生成包括已知物体和相对于已知物体以空间关系布置的姿态伪影的图像包括:在采用3D实体模型的计算机辅助设计(CAD)环境中生成包括已知物体和相对于已知物体以空间关系布置的姿态伪影的图像。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US14/493,951 US9710706B2 (en) | 2014-09-23 | 2014-09-23 | Method for classifying a known object in a field of view of a camera |
US14/493,951 | 2014-09-23 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105426901A CN105426901A (zh) | 2016-03-23 |
CN105426901B true CN105426901B (zh) | 2019-02-26 |
Family
ID=55444492
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410645595.6A Active CN105426901B (zh) | 2014-09-23 | 2014-11-12 | 用于对摄像头视野中的已知物体进行分类的方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US9710706B2 (zh) |
CN (1) | CN105426901B (zh) |
DE (1) | DE102014114440A1 (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10163033B2 (en) * | 2016-12-13 | 2018-12-25 | Caterpillar Inc. | Vehicle classification and vehicle pose estimation |
JP6635074B2 (ja) * | 2017-03-02 | 2020-01-22 | オムロン株式会社 | 見守り支援システム及びその制御方法 |
US11694072B2 (en) * | 2017-05-19 | 2023-07-04 | Nvidia Corporation | Machine learning technique for automatic modeling of multiple-valued outputs |
US20180374237A1 (en) * | 2017-06-23 | 2018-12-27 | Canon Kabushiki Kaisha | Method, system and apparatus for determining a pose for an object |
US11205296B2 (en) * | 2019-12-20 | 2021-12-21 | Sap Se | 3D data exploration using interactive cuboids |
USD959476S1 (en) | 2019-12-20 | 2022-08-02 | Sap Se | Display system or portion thereof with a virtual three-dimensional animated graphical user interface |
USD959447S1 (en) | 2019-12-20 | 2022-08-02 | Sap Se | Display system or portion thereof with a virtual three-dimensional animated graphical user interface |
USD959477S1 (en) | 2019-12-20 | 2022-08-02 | Sap Se | Display system or portion thereof with a virtual three-dimensional animated graphical user interface |
US11328170B2 (en) | 2020-02-19 | 2022-05-10 | Toyota Research Institute, Inc. | Unknown object identification for robotic device |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101408931A (zh) * | 2007-10-11 | 2009-04-15 | Mv科技软件有限责任公司 | 用于三维目标识别的系统和方法 |
CN102236794A (zh) * | 2010-05-07 | 2011-11-09 | Mv科技软件有限责任公司 | 3d场景中3d对象的识别和姿态确定 |
CN103984362A (zh) * | 2013-02-07 | 2014-08-13 | 佳能株式会社 | 位置和姿势测量装置、信息处理装置以及信息处理方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6825838B2 (en) * | 2002-10-11 | 2004-11-30 | Sonocine, Inc. | 3D modeling system |
JP2004361987A (ja) * | 2003-05-30 | 2004-12-24 | Seiko Epson Corp | 画像検索システム、画像分類システム、画像検索プログラム及び画像分類プログラム、並びに画像検索方法及び画像分類方法 |
US20100259537A1 (en) * | 2007-10-12 | 2010-10-14 | Mvtec Software Gmbh | Computer vision cad models |
WO2014015889A1 (en) | 2012-07-23 | 2014-01-30 | Metaio Gmbh | Method of providing image feature descriptors |
-
2014
- 2014-09-23 US US14/493,951 patent/US9710706B2/en active Active
- 2014-10-06 DE DE102014114440.6A patent/DE102014114440A1/de active Granted
- 2014-11-12 CN CN201410645595.6A patent/CN105426901B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101408931A (zh) * | 2007-10-11 | 2009-04-15 | Mv科技软件有限责任公司 | 用于三维目标识别的系统和方法 |
CN102236794A (zh) * | 2010-05-07 | 2011-11-09 | Mv科技软件有限责任公司 | 3d场景中3d对象的识别和姿态确定 |
CN103984362A (zh) * | 2013-02-07 | 2014-08-13 | 佳能株式会社 | 位置和姿势测量装置、信息处理装置以及信息处理方法 |
Also Published As
Publication number | Publication date |
---|---|
US20160086028A1 (en) | 2016-03-24 |
CN105426901A (zh) | 2016-03-23 |
DE102014114440A1 (de) | 2016-03-24 |
US9710706B2 (en) | 2017-07-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105426901B (zh) | 用于对摄像头视野中的已知物体进行分类的方法 | |
US9529945B2 (en) | Robot simulation system which simulates takeout process of workpieces | |
CN106407974B (zh) | 用于感兴趣目标的目标定位和姿态估计的方法 | |
JP5812599B2 (ja) | 情報処理方法及びその装置 | |
JP6740033B2 (ja) | 情報処理装置、計測システム、情報処理方法及びプログラム | |
US20180260669A1 (en) | Image processing apparatus, image processing method, template generation apparatus, object recognition processor, and object recognition processing program | |
KR20170053585A (ko) | 로봇 제어 장치 및 로봇 제어 방법 | |
CN107705293A (zh) | 一种基于ccd面阵相机视觉检测的五金零件尺寸测量方法 | |
CN103302666A (zh) | 信息处理设备和信息处理方法 | |
KR20170119496A (ko) | 3차원 객체 검출 및 자세추정 방법 | |
CN108120391A (zh) | 信息处理设备和方法、存储介质和物品制造方法 | |
Horak et al. | Image processing on raspberry pi for mobile robotics | |
WO2009085173A1 (en) | System and method for performing multi-image training for pattern recognition and registration | |
JP2021086432A (ja) | 情報処理装置、情報処理方法、コンピュータプログラム、計測装置、システムおよび物品の製造方法 | |
CA3061920A1 (en) | Methods and systems for evaluating a size of a garment | |
JP6425405B2 (ja) | 情報処理装置、方法、プログラム | |
JP2020042575A (ja) | 情報処理装置、位置合わせ方法、及びプログラム | |
JP5083715B2 (ja) | 三次元位置姿勢計測方法および装置 | |
US20230100238A1 (en) | Methods and systems for determining the 3d-locations, the local reference frames and the grasping patterns of grasping points of an object | |
CN111247559B (zh) | 用于处理图像和确定对象的视点的方法和系统 | |
Stefańczyk et al. | WUT visual perception dataset: a dataset for registration and recognition of objects | |
Fröhlig et al. | Three-dimensional pose estimation of deformable linear object tips based on a low-cost, two-dimensional sensor setup and AI-based evaluation | |
BARON et al. | APPLICATION OF AUGMENTED REALITY TOOLS TO THE DESIGN PREPARATION OF PRODUCTION. | |
Piérard et al. | Estimation of human orientation based on silhouettes and machine learning principles | |
JP7251631B2 (ja) | テンプレート作成装置、物体認識処理装置、テンプレート作成方法、物体認識処理方法及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |