CN106156778A

CN106156778A - 用于识别三维机器视觉系统的视野中的已知对象的装置和方法

Info

Publication number: CN106156778A
Application number: CN201510209282.0A
Authority: CN
Inventors: Z.陈
Original assignee: GM Global Technology Operations LLC
Current assignee: GM Global Technology Operations LLC
Priority date: 2015-02-04
Filing date: 2015-04-28
Publication date: 2016-11-23
Anticipated expiration: 2035-04-28
Also published as: US20160224858A1; US9483707B2; CN106156778B; DE102015103022A1

Abstract

一种用于识别三维(3D)视觉系统的视野中的已知对象的方法，包括捕获视野的位图图像文件以及执行第一特征提取以产生包括颜色直方图和边缘方向直方图的外观特征。基于包括颜色直方图和边缘方向直方图的外观特征，识别缩减的搜索空间。执行位图图像文件的第二特征提取，以辨识几何特征，所述几何特征包括视角特征直方图和形状函数的集合。将外观特征和几何特征与缩减的搜索空间的内容融合。将融合的外观特征、几何特征和缩减的搜索空间的内容与多个已知对象的多个预定的局部视图比较，以识别已知对象中的一个。

Description

用于识别三维机器视觉系统的视野中的已知对象的装置和方法

技术领域

本公开涉及机器视觉系统和用于识别感兴趣的对象的方法。

背景技术

计算机视觉是这样的科学学科，其制造能“看”的机器，从而机器可以从图像提取信息，并基于提取的信息执行某任务或解决某问题。图像数据可以采用多种形式，比如静态图像、视频、来自多个摄像头的视图、或来自医学扫描仪的多维度数据。

已知的机器人感知系统通过构建特定的光照条件、构造观察条件和开发过程配置而实现期望的性能和可靠性。在较窄的条件范围下(仅在实际条件的子集中工作)他们是灵活的，且可能由于周围环境中的微小改变而发生故障。另外，已知系统和相关技术的处理速度不足以进行有效率的实时处理。当引入更宽的灵活性且通过严酷地构造域(domain)而被使得强健地(robustly)工作时，Turnkey商业机器视觉系统可能很慢。例如，进行在大的视野(FOV)下搜索占据FOV的5-10％的未知取向的对象会花费若干秒或更多。当搜索正/后/侧视图以精确地发现对象位置和姿态时，更加复杂。此外，与构造用于机器人材料传输的已知自动化方案的环境相关的、以及与处理应用(handling applications)相关联的费用可以是与机器人装置相关的费用的三倍至十倍。在已知的自动化系统中，可被有效操作的产品的范围可被限制，且通常被局限为仅少数类型。此外，这样的系统笨重而难以重组，且重新配置以用于不同类别的产品是较慢的。由此，由于与投资、操作成本、灵活性以及可重构性相关联的问题，现有的自动化方案在涉及多种部件的组装操作方面不易于应用。

发明内容

本发明涉及一种用于识别机器视觉系统的视野中的已知对象的方法，包括：

采用机器视觉系统，捕获视野的位图图像文件；

执行位图图像文件的第一特征提取，以产生包括颜色直方图和边缘方向直方图的外观特征；

基于包括颜色直方图和边缘方向直方图的外观特征，识别缩减的搜索空间；

执行位图图像文件的第二特征提取，以辨识几何特征，所述几何特征包括视角特征直方图和与之相关联的形状函数的集合；

将外观特征和几何特征与缩减的搜索空间的内容融合；

将融合的外观特征、几何特征和缩减的搜索空间的内容与多个已知对象的多个预定的局部视图比较；和

通过控制器，基于所述比较而识别已知对象中的一个。

在上述方法中，其中将融合的外观特征、几何特征和缩减的搜索空间的内容与多个已知对象的多个预定的局部视图比较包括，执行自适应提高学习算法以实现该比较。

在上述方法中，其中执行位图图像文件的第一特征提取以产生包括颜色直方图的外观特征包括，产生针对位图图像文件的色调和颜色饱和度进行量化的直方图。

在上述方法中，其中执行位图图像文件的第一特征提取以产生包括边缘方向直方图的外观特征包括，产生表示位图图像文件中的被捕获对象的亮度变化的方向性和频率的直方图。

在上述方法中，其中执行位图图像文件的第二特征提取以辨识包括视角特征直方图的几何特征包括，通过积累与位图图像文件相关的输入点云的所有点对之间的几何关系而将其形状的统计数据编码。

本发明还涉及一种由机器执行的、基于视觉的对象识别过程，包括：

捕获针对多个已知对象的每一个的多个预定局部视图；

经由机器视觉系统，采用机器视觉系统，捕获包括视野的三维图像的位图图像文件，该视野包括已知对象的至少一个；

通过控制器，执行位图图像文件的二维(2D)特征提取，以产生包括颜色直方图和边缘方向直方图的二维外观特征；

基于包括颜色直方图和边缘方向直方图的二维外观特征，识别缩减的搜索空间；

执行位图图像文件的三维特征提取，以辨识几何特征，所述几何特征包括视角特征直方图和与之相关联的形状函数的集合；

将外观特征和几何特征与缩减的搜索空间的内容融合；

将融合的外观特征、几何特征和缩减的搜索空间的内容与所述多个已知对象的所述多个预定的局部视图比较；和

通过控制器，基于所述比较而识别已知对象中的一个。

在上述过程中，其中将融合的外观特征、几何特征和缩减的搜索空间的内容与多个已知对象的多个预定的局部视图比较包括，执行自适应提高学习算法以实现该比较。

在上述过程中，其中执行位图图像文件的二维特征提取以产生包括颜色直方图的外观特征包括，产生针对位图图像文件的色调和颜色饱和度进行量化的直方图。

在上述过程中，其中执行位图图像文件的二维特征提取以产生包括边缘方向直方图的外观特征包括，产生表示位图图像文件中的被捕获对象的亮度变化的方向性和频率的直方图。

在上述过程中，其中执行位图图像文件的三维特征提取以辨识包括视角特征直方图的几何特征包括，通过积累与位图图像文件相关的输入点云的所有点对之间的几何关系而将其形状的统计数据编码。

本发明还涉及一种机器视觉装置，包括：

图像检测器，信号连接到编码器，所述编码器信号连接到控制器；和

控制器，执行基于视觉的对象识别过程，包括以下步骤：

经由图像检测器和编码器，采用机器视觉系统捕获包括视野的三维图像的位图图像文件，该视野包括已知对象的至少一个；

执行位图图像文件的二维(2D)特征提取，以产生包括颜色直方图和边缘方向直方图的二维外观特征；

将外观特征和几何特征与缩减的搜索空间的内容融合；

基于所述比较而识别已知对象中的一个。

一种用于识别三维(3D)视觉系统的视野中的已知对象的方法，包括采用机器视觉系统捕获视野的位图图像文件以及执行位图图像文件的第一特征提取，以产生包括颜色直方图(histogram)和边缘方向直方图的外观特征(appearance feature)。基于包括颜色直方图和边缘方向直方图的外观特征，辨识缩减的搜索空间。执行位图图像文件的第二特征提取，以辨识几何特征，所述几何特征包括视角特征直方图和与之相关的形状函数的集合。将外观特征和几何特征与经缩减的搜索空间的内容融合。将经融合的外观特征、几何特征和缩减的搜索空间的内容与多个已知对象的多个预定的局部视图比较，以识别已知对象中的一个。

本教导的上述特征和优势及其他特征和优势将从用于实施如所附的权利要求中定义的本教导的一些最佳模式和其它实施例的以下详细描述连同附图时显而易见。

附图说明

现在将通过示例的方式参考附图来描述一个或多个实施例，其中：

图1示意性地示出了根据本公开的用于捕获、处理和存储视野(FOV)的图像的机器视觉系统，包括信号连接到编码器的图像检测器(摄像头)，所述编码器信号连接到控制器；

图2示出了根据本公开的通过结合2D局部特征和3D总体特征而实现摄像头的FOV中的一个或多个已知对象的机器识别的对象识别过程的示意性框图；

图3图示了根据本公开的从输入点云(point cloud)提取的经分割图像文件中的、用于单个点对Pt和Ps的向量和表示相邻点的相关联的点向量；

图4图示了根据本公开的视角分量直方图的示例，其收集视角方向与每个正交方向之间的角度；和

图5图示了根据本公开的形状函数的集合(ESF)的示例，其被应用于包括3D对象的点云。

具体实施方式

现在参考附图，其中图示仅出于图解一些示例性实施例的目的，而不是出于对其进行限制的目的，图1示意性地示出了示例性机器视觉系统100，其用于捕获、处理和存储视野(FOV)35的图像，包括信号连接到编码器20的图像检测器(摄像头)10，所述编码器20信号连接到控制器50。摄像头10优选地是能够捕获FOV 35的三维(3D)图像15的立体感装置。摄像头10可以处于相对于在FOV 35内的已知对象40的任何位置和取向，已知对象40在平面45上取向。已知对象40是具有预限定特征的结构实体，所述特征包括例如空间尺寸、材料、和指示反射性的表面处理等。贯穿说明书和附图，相同的术语和相同的数字指示相同的元件。

在一个实施例中，由摄像头10捕获的3D图像15为24位立体图像的形式，包括代表FOV 35的RGB(红-绿-蓝)值和深度值。3D图像15的其他实施例可以包括代表3D FOV的黑和白或灰度表现形式的3D图像，以及没有限制的其他图像表现形式。摄像头10包括图像获取传感器，其信号连接到编码器20，所述编码器20在3D图像15上执行数字信号处理(DSP)。图像获取传感器以预定的分辨率捕获3D图像15作为FOV 35中的多个像素，且编码器20将FOV 35中的像素编码，以产生FOV 35的位图图像文件25，例如以预定分辨率表示FOV 35的像素的8位位图。位图图像文件25被通信到控制器50。在一个实施例中，位图图像文件25是存储在非瞬时性数字数据存储介质中的编码的数据文件。位图图像文件25包括可包括一个或多个已知对象40的3D图像的数字表现形式，并表示以摄像头10的原始分辨率捕获的FOV 35的原始图像。多个已知对象40可以都为相同的设计，或可以为不相似的设计。由摄像头10捕获的已知对象40的3D图像15包含足够的信息以评估已知对象40关于摄像头10的位置，且还允许位图图像文件25中的数据的评估，以产生FOV 35的色调-饱和度-明度或亮度(Hue-Saturation-Value or Brightness)(HSV)模型和颜色直方图(CH)。在与照明和反射率相关联的影响已经被考虑在内且摄像头10已经被校准之后，每个已知对象40的形状取决于摄像头10与已知对象40之间的相对观察角度和距离。

“控制器”、“控制模块”、“模块”、“控制”、“控制单元”、“处理器”和类似术语意思是以下的一个或多个的组合:(一个或多个)专用集成电路(ASIC)、(一个或多个)电子电路、(一个或多个)中央处理单元(优选地为(一个或多个)微处理器)和执行一个或多个软件或固件程序或例程的相关存储器和储存器(只读、可编程只读、随机访问、硬盘驱动器等)、(一个或多个)组合的逻辑电路、(一个或多个)输入/输出电路和装置、适当的信号调制和缓冲电路、和其他部件以提供所描述的功能性，包括数据存储和数据分析。“软件”、“固件”、“程序”、“指令”、“例程”、“代码”、“算法”和类似术语意思是，包括校准和查找表的任何控制器可执行的指令集。

图2显示了框图形式的机器执行的基于视觉的对象识别过程200，其通过结合在FOV的位图图像文件中的2D局部特征和3D总体特征而识别一个或多个已知对象。FOV的位图图像文件为输入点云217的形式，所述点云可通过采用参考图1描述的机器视觉系统100的实施例而被捕获。目标识别过程200的步骤优选地以增大的复杂度按次序执行，以采用机器视觉系统100提取、比较和细化特征，以识别对象，所述机器视觉系统可被机器人系统采用而用于材料管理、抓持和其他操作。对象识别过程200采用对象分割(segmentation)和对象识别，其使用由机器视觉系统100捕获的可辨识的多模型(multimodal)特征。

在执行对象识别过程200之前先执行对象识别训练过程250，所述对象识别训练过程是这样的过程，其用于收集多个已知对象的每一个的多个局部视图，包括识别存储在局部视图数据库255中且可从其获取的3D总体特征和2D局部特征。优选地，对象识别训练过程250被离线执行，结果以可获取的方式被分析、验证和捕获。

对象识别过程200开始于低水平处理(其使用基于外观的标记)，且通过融合2D和3D标记二者而进行至高水平对象表现形式，以实现一个或多个已知对象的机器识别。

举例来描述对象识别过程200的操作，通过使用机器视觉系统100的实施例，已知对象211,212,213,214和215在平面表面216上的任意布置被捕获成为输入点云217形式的位图图像文件(210)。已知对象211,212,213,214和215包括开关211、收音机212、水壶213、喷洒瓶214、和把手215，其被任意选择以用于说明的目的。

输入点云217经受分割，以将表示平面表面216的数据从输入点云217去除(220)，得到经分割的图像数据文件225。这包括辨识输入点云217的表示平面表面216的部分，以及将它们去除或者使它们不起作用，并由此不被进行进一步分析。

经分割的图像数据文件225经受2D特征提取(230)和3D特征提取(240)。2D特征提取(230)包括基于2D外观特征而辨识经分割的图像数据文件225中的单独的项目。2D外观特征的提取通过从经分割的图像数据文件225开发颜色直方图(CH)和边缘方向直方图(EDH)237而实现。CH 235优选地基于颜色空间的色调-饱和度-明度或亮度(HSV)模型，其限定以色调、饱和度和数值的分量表示的颜色空间。色调指示可见光谱上的颜色类型，比如红、橘、黄等。色调优选地为范围为0至179的值，红为0，绿为60，蓝为120，等。饱和度指示颜色的纯度，用于颜色的饱和度的值下降指示“灰度”存在的增加以及颜色脱色的增加。颜色的饱和度的值范围是0至255，其中0表示黑-灰-白，255表示纯的光谱颜色。明度或亮度指示颜色的强度，且范围为从0至100％。HSV模型提供RGB颜色空间的非线性变换。

GH 235表示颜色在经分割的图像数据文件225中的分布，且包括具有在跨色谱的颜色范围列表的每一个中的颜色的像素的数值量。在一个实施例中，仅采用色调和饱和度值以最小化光照效应。色调从0变化到179，且饱和度从0(黑-灰-白)变化到255(纯光谱颜色)。在一个实施例中，色调被量化到15的水平，饱和度被量化到16的水平。CH 235提供颜色值的潜在连续分布的统计学近似。

EDH 237是多位(multi-bin)直方图，其捕获局部边缘分布，以表示捕获在经分割的图像数据文件225中的对象的亮度变化的频率和方向性。表示2D对象的经分割的图像数据文件225被分成4x4的不重叠的矩形区域。在每一个区域中，EDH 237计算四个方向性边缘(水平、垂直和两个斜对角线)以及一个非方向性边缘。

针对存储在局部视图数据库255中的已知对象的多个局部视图的每一个，将CH 235和EDH 237与2D外观特征进行比较(260)，以缩窄和缩减与一个或多个已知对象相关联的经分割的图像数据文件225中的搜索空间。局部视图数据库255中的这些局部视图(其相对于经分割的图像数据文件225具有外观上的总体类似性)基于由分别与CH 235和EDH237相关联的2D颜色和边缘方向分类符(classifier)给出的融合的结果而被选择。由此，辨识出经分割的图像数据文件225的缩减的搜索空间265。

经分割的图像数据文件225被经受3D特征提取(240)，其包括评估3D几何特征，所述3D几何特征包括用于经分割的图像数据文件225的数据点的视角特征直方图(VFH)245和形状函数的集合(ESF)247。VFH 245包括点特征直方图(PFH)以及视角分量直方图。

图3图示了用于单个点对Pt 320和Ps 310的向量，所述点对表示在从输入点云217提取的经分割的图像数据文件225和相关联的点向量305中的任何两个相邻或连续的点。在一个实施例中，k维或基于k-d树(k-dtree-based)的最近相邻搜索被采用，以比较特征。k-d树是空间-分区数据结构，用于组织k维空间中的点以用于实现涉及多维搜索关键的搜索，例如范围搜索和最近相邻搜索。基于k-d树的最近相邻搜索过程是已知的。单个点对Pt 320和Ps 310提供了构成VFH 245的点特征直方图(PFH)的元素的示例。点向量305是点Pt 320和Ps 310之间的直线。使用VFH 245的PFH的这种特征描述被执行，以便以允许机器识别的方式提供经分割的图像数据文件225中所包含的点的几何描述。点Ps 310在包括us 312,vs 314和ws 316的第一3D轴线的环境下被特征化，其中向量ns313表示点ps310的法线(normal)。点Pt 320在包括ut 322,vt 324和wt 326的第二3D轴线的环境下被特征化，其中向量nt 323的特征在于在轴线u 322和w 326所限定的第一平面中的第一角度θ325，以及在轴线u 322和v 324所限定的第二平面中的第二角度α321。

包括us 312,vs 314和ws 316的第一3D轴线分别对应于被沿点向量305平移的包括ut 322,vt 324和wt 326的第二3D轴线。向量ns 313表示点ps 310的法线，其平行于ut轴线322，并限定在向量ns 313和点向量305之间的第三角度向量nt 323表示用于点pt 320的表面法线，且特征在于在由轴线u 322和w 326所限定的第一平面中的第一角度θ325，以及在由轴线u322和v 324所限定的第二平面中的第二角度α321。

通过积累(accumulate)从输入点云217提取的经分割的图像数据文件225的所有点对之间的几何关系，PFH将点云(例如参考图2所描述的输入点云217)的形状的统计数据编码。给定相邻的一对点以及它们的法线，例如参考图3所描述的，PFH积累四维直方图，包括第二角度α321的余弦、第三角度的余弦、第一角度θ325以及被标准化到相邻点的点Pt 320和Ps 310之间的距离。PFH参数包括计算直方图所考虑的维度，以及用于每个维度的位(bin)数。

包括第一角度θ325、第二角度α321以及第三角度的角度表示成对的平移、倾斜和俯仰(pan,tilt,yaw)角度，其中前述角度针对每一对法线被确定，以用于经分割的图像数据文件225中的辨识的曲面补片(surfacepatch)。该特征不使用颜色信息。

图4图示了视角分量的示例，所述视角分量通过收集针对输入点云417的视角412、由线410指示的中心视角方向、以及多个表面法线ni 405的每一个之间的相对角度α421的直方图而被计算，其中输入点云417对应于参考图2所描述的输入点云217。表面法线ni 405是针对输入点云417的单个点的。输入点云417的每个点具有表面法线(未示出)。直线414提供视角方向，且直线410是中心视角方向，其平行于其中原点对应于输入点云417的中心点420的视角方向。相对角度α421被采用以构建视角分量，所述视角分量包括表面法线ni 405和中心视角方向410之间的相对角度α421的统计数据。视角分量通过收集由视角方向414与每个表面法线ni 405形成的角度的直方图而被计算，其包括被平移到每个表面法线ni 405的中心视角方向之间的角度。第二分量测量关于图3描述的表面上的法线405的每一个与在中心点420处的视角方向410之间测量的相对平移、倾斜和俯仰角度。

图5图示了被应用到输入点云的形状函数的集合(ESF)的示例，所述输入点云包括3D对象501，其也被示出。参考图2描述了一个经分割的图像数据文件225，其包括从输入点云提取的3D对象501。3D对象501作为3D对象的非限制性图示被示出。ESF包括与3D对象501相关的形状函数的直方图，其包括集合D2502和相关联的直方图503、集合A3504和相关联的直方图505、集合D3506和相关联的直方图507、以及集合比率(Ratio)508和相关联的直方图509。直方图503,505,507和509的每一个包括关于每个直线在垂直轴线上发生的频率。集合D2502和相关联的直方图503基于从代表3D对象501的输入点云选择的随机取样的点之间的距离而形成。集合A3504和相关联的直方图505基于从代表3D对象501的输入点云选择的两条随机直线之间的封闭角度而形成。集合D3506和相关联的直方图507基于从代表3D对象501的输入点云选择的三个随机取样的点所跨越的面积而形成。集合Ratio 508和相关联的直方图509基于从代表3D对象501的输入点云选择的、在3D对象501的表面上以及在该表面外的随机直线的比率而形成。

回头参考图2，将视角特征直方图(VFH)245和形状函数的集合(ESF)247和颜色直方图(CH)235以及边缘方向直方图(EDH)237与经分割的图像数据文件225的经缩减的搜索空间265的内容进行比较，以实现来自VFH245、ESF 247、CH 235、EDH 237以及经缩减的搜索空间265的内容的特征的融合(270)。前述特征的融合基于人类识别路径而被促成，其中人类识别从使用基于外观的标记的低水平处理开始，到通过融合多个几何标记的高水平对象表现形式。颜色和形状快速地传递信息，这在通过2D外观特征将来自局部视图数据库225的搜索空间缩窄之后，有助于物理世界中人类感知系统的视觉搜索。基于由2D颜色和边缘方向分类符给出的融合的决定，局部视图数据库255中相对于输入对象具有外观上的总体相似性的这些局部视图被选择。

与2D融合相关联的特征的融合包括，将对象的2D特征与存储在局部视图数据库255中的已知对象的局部视图的特征比较。这包括将CH 235和EDH 237与局部视图数据库255的内容进行比较。加权总和被用来结合两个匹配的存储：

S_2d＝ωS_ch+(1-ω)S_edh [1]

其中S_ch和S_edh分别是颜色和边缘方向中的测试和训练特征之间的欧氏(Euclidian)距离，且在CH 235和EDH 237中被量化。匹配存储使用最大标准化而被标准化。项ω是用于两个特征之一的权重，且在一个实施例中为0.6。

结合3D几何和2D外观特征的自适应提高(adaptive boosting,Adaboost)学习算法在缩减的搜索空间上被执行，以选择用于将经分割的图像数据文件225的每个部分与已知对象中的一个相关联的最终决定的最有效特征(280)。自适应提高(Adaboost)是一种机器学习方式，其通过结合多个相对弱且不准确的规则或分类符而产生高度准确的预测规则。只要每个弱的分类符以至少50％的成功率进行，且不同分类符的错误是独立的，则该算法能够通过优化地选择用于弱分类符的权重而改进错误率。在该情况下，四个弱分类符被采用，例如包括CH235和EDH 237的两个2D特征以及包括VFH 245和ESF247的两个3D特征。

举例来说，Adaboost过程的该部分的执行包括，令h_n为第n个弱分类符，且令y＝h_n(x)为到输入x的分类符的输出。在该情况下，x是输入对象，y是指示对象是否由弱分类符识别的二进制(binary)标签。强分类符通过弱分类符的加权总和而给出：

Ψ (x) = sign (Σ_{n = 1}^{N} α_{n} h_{n} (x)) - - - [2]

其中α_n是Adaboost发现的指示弱指示符h_n的重要性的标量权重，且N＝4。权重以迭代的方式根据如下计算：

α_{n} = \frac{1}{2} (\ln \frac{1 - ϵ_{n}}{ϵ_{n}}) - - - [3]

其中误差ε_n如下地确定：

ϵ_{n} = P_{r_{i} ~ D_{n}} [h_{n} (x_{i}) &NotEqual; y_{i}] = Σ_{i : h_{n} (x_{i}) &NotEqual; y_{i}} D_{n} (i) - - - [4]

在该方程中，输出yi∈{-1,+1}是用于训练集的实际值(ground truth)，且D_n(i)是在n次时分配到第i个训练示例的权重。

由此，对象分割和对象识别，通过将2D局部和3D总体特征结合成多模型优化而使用针对机器应用的来自任意视角的多模型特征而被优化，以实现高对象识别率和很低的故障警告。这允许以一致的方式，例如使用Adaboost融合几何和视觉特征，以及使用局部视图建模从任意视角分类具有特定结构(textured)和不具有特定结构的对象。局部视图匹配允许针对快速精确姿态对准的粗略姿态估计。这样的功能提高用于对象操纵的机器人自动化以及用于制造的人-机协作。

再次参考图2，以一致的方式(例如使用Adaboost)有效地融合几何和视觉特征，并从任意视角使用局部视图建模而分类具有特定结构和不具有特定结构二者的对象，其结果导致了对象识别过程200中实现将已知对象211,212,213,214和215分别识别为开关211、收音机212、喷洒瓶214和把手215的机器识别(290)。

这里所描述的基于视觉的方式自动地识别FOV中的已知对象。这样的能力使得装置，例如机器人手臂，能够针对较宽范围的对象以及条件、取向、光照、视角、封闭(occlusion)、背景、空间认知，通过提取关于对象在其周围环境的境况中的特质，以灵活的匹配局部化对象以用于抓持和/或操纵。这里所描述的方式平衡了外观和几何二者，以局部化和识别对象，能利用从深度传感器到姿态优化算法的范围信息来提高准确性。多传感感知的使用通过将多传感器感知注意机制并入和通过开发分类符分类法而用于快速剖析宽范围的对象而加速了分类和搜索。

这里描述的对象识别方法通过提供高水平的灵活性和可重构性而有利于自动化系统的调度。这里描述的概念允许灵活性和可变换性，其在组装操作中，如在提起箱子或材料操作中，以第一代人形机器人自动化程度使用最小化的基础构造。其还实现鲁棒且自治的组装能力，在较少结构环境中发现部件、任务的视觉确认、以及复杂且灵活部件的容易的操纵。这里所描述的系统使得机器人手臂能够在组装线上补偿人类手臂的角色，并降低工人花费在例行公事、非关键性、重复性组装过程上的时间，所述过程在灵巧的人形机器人近项能力内。这里所描述的系统使得机器人手臂能够处理各种形状和形式的半刚性、刚性、棱柱形部件，快速检测多个对象，且具有以半自动方式学习用于新对象的模型的能力。对于实现能使用同一过程基础构造与人类协作地工作的机器人而言，该能力是必要和关键的。

详细描述和附图或视图支持和描述本教导，但是本教导的范围仅由权利要求限定。尽管已详细描述了用于执行本教导的最佳模式和其他实施例，但存在各种替换设计和实施例用于实践限定在所附权利要求中的本教导。

Claims

1.一种用于识别机器视觉系统的视野中的已知对象的方法，包括：

采用机器视觉系统，捕获视野的位图图像文件；

将外观特征和几何特征与缩减的搜索空间的内容融合；

通过控制器，基于所述比较而识别已知对象中的一个。

2.如权利要求1所述的方法，其中将融合的外观特征、几何特征和缩减的搜索空间的内容与多个已知对象的多个预定的局部视图比较包括，执行自适应提高学习算法以实现该比较。

3.如权利要求1所述的方法，其中执行位图图像文件的第一特征提取以产生包括颜色直方图的外观特征包括，产生针对位图图像文件的色调和颜色饱和度进行量化的直方图。

4.如权利要求1所述的方法，其中执行位图图像文件的第一特征提取以产生包括边缘方向直方图的外观特征包括，产生表示位图图像文件中的被捕获对象的亮度变化的方向性和频率的直方图。

5.如权利要求1所述的方法，其中执行位图图像文件的第二特征提取以辨识包括视角特征直方图的几何特征包括，通过积累与位图图像文件相关的输入点云的所有点对之间的几何关系而将其形状的统计数据编码。

6.一种由机器执行的、基于视觉的对象识别过程，包括：

捕获针对多个已知对象的每一个的多个预定局部视图；

将外观特征和几何特征与缩减的搜索空间的内容融合；

通过控制器，基于所述比较而识别已知对象中的一个。

7.如权利要求6所述的过程，其中将融合的外观特征、几何特征和缩减的搜索空间的内容与多个已知对象的多个预定的局部视图比较包括，执行自适应提高学习算法以实现该比较。

8.如权利要求6所述的过程，其中执行位图图像文件的二维特征提取以产生包括颜色直方图的外观特征包括，产生针对位图图像文件的色调和颜色饱和度进行量化的直方图。

9.如权利要求6所述的过程，其中执行位图图像文件的二维特征提取以产生包括边缘方向直方图的外观特征包括，产生表示位图图像文件中的被捕获对象的亮度变化的方向性和频率的直方图。

10.如权利要求6所述的过程，其中执行位图图像文件的三维特征提取以辨识包括视角特征直方图的几何特征包括，通过积累与位图图像文件相关的输入点云的所有点对之间的几何关系而将其形状的统计数据编码。