CN106156778A - 用于识别三维机器视觉系统的视野中的已知对象的装置和方法 - Google Patents

用于识别三维机器视觉系统的视野中的已知对象的装置和方法 Download PDF

Info

Publication number
CN106156778A
CN106156778A CN201510209282.0A CN201510209282A CN106156778A CN 106156778 A CN106156778 A CN 106156778A CN 201510209282 A CN201510209282 A CN 201510209282A CN 106156778 A CN106156778 A CN 106156778A
Authority
CN
China
Prior art keywords
image file
bitmap image
histogram
external appearance
geometric properties
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510209282.0A
Other languages
English (en)
Other versions
CN106156778B (zh
Inventor
Z.陈
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
GM Global Technology Operations LLC
Original Assignee
GM Global Technology Operations LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by GM Global Technology Operations LLC filed Critical GM Global Technology Operations LLC
Publication of CN106156778A publication Critical patent/CN106156778A/zh
Application granted granted Critical
Publication of CN106156778B publication Critical patent/CN106156778B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/271Image signal generators wherein the generated image signals comprise depth maps or disparity maps
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/15Processing image signals for colour aspects of image signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/161Encoding, multiplexing or demultiplexing different image signal components
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/204Image signal generators using stereoscopic image cameras
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/204Image signal generators using stereoscopic image cameras
    • H04N13/239Image signal generators using stereoscopic image cameras using two 2D image sensors having a relative position equal to or related to the interocular distance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2148Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/06Recognition of objects for industrial automation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N2013/0074Stereoscopic image analysis
    • H04N2013/0077Colour aspects
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N2013/0074Stereoscopic image analysis
    • H04N2013/0092Image segmentation from stereoscopic image signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Image Analysis (AREA)

Abstract

一种用于识别三维(3D)视觉系统的视野中的已知对象的方法,包括捕获视野的位图图像文件以及执行第一特征提取以产生包括颜色直方图和边缘方向直方图的外观特征。基于包括颜色直方图和边缘方向直方图的外观特征,识别缩减的搜索空间。执行位图图像文件的第二特征提取,以辨识几何特征,所述几何特征包括视角特征直方图和形状函数的集合。将外观特征和几何特征与缩减的搜索空间的内容融合。将融合的外观特征、几何特征和缩减的搜索空间的内容与多个已知对象的多个预定的局部视图比较,以识别已知对象中的一个。

Description

用于识别三维机器视觉系统的视野中的已知对象的装置和方法
技术领域
本公开涉及机器视觉系统和用于识别感兴趣的对象的方法。
背景技术
计算机视觉是这样的科学学科,其制造能“看”的机器,从而机器可以从图像提取信息,并基于提取的信息执行某任务或解决某问题。图像数据可以采用多种形式,比如静态图像、视频、来自多个摄像头的视图、或来自医学扫描仪的多维度数据。
已知的机器人感知系统通过构建特定的光照条件、构造观察条件和开发过程配置而实现期望的性能和可靠性。在较窄的条件范围下(仅在实际条件的子集中工作)他们是灵活的,且可能由于周围环境中的微小改变而发生故障。另外,已知系统和相关技术的处理速度不足以进行有效率的实时处理。当引入更宽的灵活性且通过严酷地构造域(domain)而被使得强健地(robustly)工作时,Turnkey商业机器视觉系统可能很慢。例如,进行在大的视野(FOV)下搜索占据FOV的5-10%的未知取向的对象会花费若干秒或更多。当搜索正/后/侧视图以精确地发现对象位置和姿态时,更加复杂。此外,与构造用于机器人材料传输的已知自动化方案的环境相关的、以及与处理应用(handling applications)相关联的费用可以是与机器人装置相关的费用的三倍至十倍。在已知的自动化系统中,可被有效操作的产品的范围可被限制,且通常被局限为仅少数类型。此外,这样的系统笨重而难以重组,且重新配置以用于不同类别的产品是较慢的。由此,由于与投资、操作成本、灵活性以及可重构性相关联的问题,现有的自动化方案在涉及多种部件的组装操作方面不易于应用。
发明内容
本发明涉及一种用于识别机器视觉系统的视野中的已知对象的方法,包括:
采用机器视觉系统,捕获视野的位图图像文件;
执行位图图像文件的第一特征提取,以产生包括颜色直方图和边缘方向直方图的外观特征;
基于包括颜色直方图和边缘方向直方图的外观特征,识别缩减的搜索空间;
执行位图图像文件的第二特征提取,以辨识几何特征,所述几何特征包括视角特征直方图和与之相关联的形状函数的集合;
将外观特征和几何特征与缩减的搜索空间的内容融合;
将融合的外观特征、几何特征和缩减的搜索空间的内容与多个已知对象的多个预定的局部视图比较;和
通过控制器,基于所述比较而识别已知对象中的一个。
在上述方法中,其中将融合的外观特征、几何特征和缩减的搜索空间的内容与多个已知对象的多个预定的局部视图比较包括,执行自适应提高学习算法以实现该比较。
在上述方法中,其中执行位图图像文件的第一特征提取以产生包括颜色直方图的外观特征包括,产生针对位图图像文件的色调和颜色饱和度进行量化的直方图。
在上述方法中,其中执行位图图像文件的第一特征提取以产生包括边缘方向直方图的外观特征包括,产生表示位图图像文件中的被捕获对象的亮度变化的方向性和频率的直方图。
在上述方法中,其中执行位图图像文件的第二特征提取以辨识包括视角特征直方图的几何特征包括,通过积累与位图图像文件相关的输入点云的所有点对之间的几何关系而将其形状的统计数据编码。
本发明还涉及一种由机器执行的、基于视觉的对象识别过程,包括:
捕获针对多个已知对象的每一个的多个预定局部视图;
经由机器视觉系统,采用机器视觉系统,捕获包括视野的三维图像的位图图像文件,该视野包括已知对象的至少一个;
通过控制器,执行位图图像文件的二维(2D)特征提取,以产生包括颜色直方图和边缘方向直方图的二维外观特征;
基于包括颜色直方图和边缘方向直方图的二维外观特征,识别缩减的搜索空间;
执行位图图像文件的三维特征提取,以辨识几何特征,所述几何特征包括视角特征直方图和与之相关联的形状函数的集合;
将外观特征和几何特征与缩减的搜索空间的内容融合;
将融合的外观特征、几何特征和缩减的搜索空间的内容与所述多个已知对象的所述多个预定的局部视图比较;和
通过控制器,基于所述比较而识别已知对象中的一个。
在上述过程中,其中将融合的外观特征、几何特征和缩减的搜索空间的内容与多个已知对象的多个预定的局部视图比较包括,执行自适应提高学习算法以实现该比较。
在上述过程中,其中执行位图图像文件的二维特征提取以产生包括颜色直方图的外观特征包括,产生针对位图图像文件的色调和颜色饱和度进行量化的直方图。
在上述过程中,其中执行位图图像文件的二维特征提取以产生包括边缘方向直方图的外观特征包括,产生表示位图图像文件中的被捕获对象的亮度变化的方向性和频率的直方图。
在上述过程中,其中执行位图图像文件的三维特征提取以辨识包括视角特征直方图的几何特征包括,通过积累与位图图像文件相关的输入点云的所有点对之间的几何关系而将其形状的统计数据编码。
本发明还涉及一种机器视觉装置,包括:
图像检测器,信号连接到编码器,所述编码器信号连接到控制器;和
控制器,执行基于视觉的对象识别过程,包括以下步骤:
经由图像检测器和编码器,采用机器视觉系统捕获包括视野的三维图像的位图图像文件,该视野包括已知对象的至少一个;
执行位图图像文件的二维(2D)特征提取,以产生包括颜色直方图和边缘方向直方图的二维外观特征;
基于包括颜色直方图和边缘方向直方图的二维外观特征,识别缩减的搜索空间;
执行位图图像文件的三维特征提取,以辨识几何特征,所述几何特征包括视角特征直方图和与之相关联的形状函数的集合;
将外观特征和几何特征与缩减的搜索空间的内容融合;
将融合的外观特征、几何特征和缩减的搜索空间的内容与所述多个已知对象的所述多个预定的局部视图比较;和
基于所述比较而识别已知对象中的一个。
一种用于识别三维(3D)视觉系统的视野中的已知对象的方法,包括采用机器视觉系统捕获视野的位图图像文件以及执行位图图像文件的第一特征提取,以产生包括颜色直方图(histogram)和边缘方向直方图的外观特征(appearance feature)。基于包括颜色直方图和边缘方向直方图的外观特征,辨识缩减的搜索空间。执行位图图像文件的第二特征提取,以辨识几何特征,所述几何特征包括视角特征直方图和与之相关的形状函数的集合。将外观特征和几何特征与经缩减的搜索空间的内容融合。将经融合的外观特征、几何特征和缩减的搜索空间的内容与多个已知对象的多个预定的局部视图比较,以识别已知对象中的一个。
本教导的上述特征和优势及其他特征和优势将从用于实施如所附的权利要求中定义的本教导的一些最佳模式和其它实施例的以下详细描述连同附图时显而易见。
附图说明
现在将通过示例的方式参考附图来描述一个或多个实施例,其中:
图1示意性地示出了根据本公开的用于捕获、处理和存储视野(FOV)的图像的机器视觉系统,包括信号连接到编码器的图像检测器(摄像头),所述编码器信号连接到控制器;
图2示出了根据本公开的通过结合2D局部特征和3D总体特征而实现摄像头的FOV中的一个或多个已知对象的机器识别的对象识别过程的示意性框图;
图3图示了根据本公开的从输入点云(point cloud)提取的经分割图像文件中的、用于单个点对Pt和Ps的向量和表示相邻点的相关联的点向量;
图4图示了根据本公开的视角分量直方图的示例,其收集视角方向与每个正交方向之间的角度;和
图5图示了根据本公开的形状函数的集合(ESF)的示例,其被应用于包括3D对象的点云。
具体实施方式
现在参考附图,其中图示仅出于图解一些示例性实施例的目的,而不是出于对其进行限制的目的,图1示意性地示出了示例性机器视觉系统100,其用于捕获、处理和存储视野(FOV)35的图像,包括信号连接到编码器20的图像检测器(摄像头)10,所述编码器20信号连接到控制器50。摄像头10优选地是能够捕获FOV 35的三维(3D)图像15的立体感装置。摄像头10可以处于相对于在FOV 35内的已知对象40的任何位置和取向,已知对象40在平面45上取向。已知对象40是具有预限定特征的结构实体,所述特征包括例如空间尺寸、材料、和指示反射性的表面处理等。贯穿说明书和附图,相同的术语和相同的数字指示相同的元件。
在一个实施例中,由摄像头10捕获的3D图像15为24位立体图像的形式,包括代表FOV 35的RGB(红-绿-蓝)值和深度值。3D图像15的其他实施例可以包括代表3D FOV的黑和白或灰度表现形式的3D图像,以及没有限制的其他图像表现形式。摄像头10包括图像获取传感器,其信号连接到编码器20,所述编码器20在3D图像15上执行数字信号处理(DSP)。图像获取传感器以预定的分辨率捕获3D图像15作为FOV 35中的多个像素,且编码器20将FOV 35中的像素编码,以产生FOV 35的位图图像文件25,例如以预定分辨率表示FOV 35的像素的8位位图。位图图像文件25被通信到控制器50。在一个实施例中,位图图像文件25是存储在非瞬时性数字数据存储介质中的编码的数据文件。位图图像文件25包括可包括一个或多个已知对象40的3D图像的数字表现形式,并表示以摄像头10的原始分辨率捕获的FOV 35的原始图像。多个已知对象40可以都为相同的设计,或可以为不相似的设计。由摄像头10捕获的已知对象40的3D图像15包含足够的信息以评估已知对象40关于摄像头10的位置,且还允许位图图像文件25中的数据的评估,以产生FOV 35的色调-饱和度-明度或亮度(Hue-Saturation-Value or Brightness)(HSV)模型和颜色直方图(CH)。在与照明和反射率相关联的影响已经被考虑在内且摄像头10已经被校准之后,每个已知对象40的形状取决于摄像头10与已知对象40之间的相对观察角度和距离。
“控制器”、“控制模块”、“模块”、“控制”、“控制单元”、“处理器”和类似术语意思是以下的一个或多个的组合:(一个或多个)专用集成电路(ASIC)、(一个或多个)电子电路、(一个或多个)中央处理单元(优选地为(一个或多个)微处理器)和执行一个或多个软件或固件程序或例程的相关存储器和储存器(只读、可编程只读、随机访问、硬盘驱动器等)、(一个或多个)组合的逻辑电路、(一个或多个)输入/输出电路和装置、适当的信号调制和缓冲电路、和其他部件以提供所描述的功能性,包括数据存储和数据分析。“软件”、“固件”、“程序”、“指令”、“例程”、“代码”、“算法”和类似术语意思是,包括校准和查找表的任何控制器可执行的指令集。
图2显示了框图形式的机器执行的基于视觉的对象识别过程200,其通过结合在FOV的位图图像文件中的2D局部特征和3D总体特征而识别一个或多个已知对象。FOV的位图图像文件为输入点云217的形式,所述点云可通过采用参考图1描述的机器视觉系统100的实施例而被捕获。目标识别过程200的步骤优选地以增大的复杂度按次序执行,以采用机器视觉系统100提取、比较和细化特征,以识别对象,所述机器视觉系统可被机器人系统采用而用于材料管理、抓持和其他操作。对象识别过程200采用对象分割(segmentation)和对象识别,其使用由机器视觉系统100捕获的可辨识的多模型(multimodal)特征。
在执行对象识别过程200之前先执行对象识别训练过程250,所述对象识别训练过程是这样的过程,其用于收集多个已知对象的每一个的多个局部视图,包括识别存储在局部视图数据库255中且可从其获取的3D总体特征和2D局部特征。优选地,对象识别训练过程250被离线执行,结果以可获取的方式被分析、验证和捕获。
对象识别过程200开始于低水平处理(其使用基于外观的标记),且通过融合2D和3D标记二者而进行至高水平对象表现形式,以实现一个或多个已知对象的机器识别。
举例来描述对象识别过程200的操作,通过使用机器视觉系统100的实施例,已知对象211,212,213,214和215在平面表面216上的任意布置被捕获成为输入点云217形式的位图图像文件(210)。已知对象211,212,213,214和215包括开关211、收音机212、水壶213、喷洒瓶214、和把手215,其被任意选择以用于说明的目的。
输入点云217经受分割,以将表示平面表面216的数据从输入点云217去除(220),得到经分割的图像数据文件225。这包括辨识输入点云217的表示平面表面216的部分,以及将它们去除或者使它们不起作用,并由此不被进行进一步分析。
经分割的图像数据文件225经受2D特征提取(230)和3D特征提取(240)。2D特征提取(230)包括基于2D外观特征而辨识经分割的图像数据文件225中的单独的项目。2D外观特征的提取通过从经分割的图像数据文件225开发颜色直方图(CH)和边缘方向直方图(EDH)237而实现。CH 235优选地基于颜色空间的色调-饱和度-明度或亮度(HSV)模型,其限定以色调、饱和度和数值的分量表示的颜色空间。色调指示可见光谱上的颜色类型,比如红、橘、黄等。色调优选地为范围为0至179的值,红为0,绿为60,蓝为120,等。饱和度指示颜色的纯度,用于颜色的饱和度的值下降指示“灰度”存在的增加以及颜色脱色的增加。颜色的饱和度的值范围是0至255,其中0表示黑-灰-白,255表示纯的光谱颜色。明度或亮度指示颜色的强度,且范围为从0至100%。HSV模型提供RGB颜色空间的非线性变换。
GH 235表示颜色在经分割的图像数据文件225中的分布,且包括具有在跨色谱的颜色范围列表的每一个中的颜色的像素的数值量。在一个实施例中,仅采用色调和饱和度值以最小化光照效应。色调从0变化到179,且饱和度从0(黑-灰-白)变化到255(纯光谱颜色)。在一个实施例中,色调被量化到15的水平,饱和度被量化到16的水平。CH 235提供颜色值的潜在连续分布的统计学近似。
EDH 237是多位(multi-bin)直方图,其捕获局部边缘分布,以表示捕获在经分割的图像数据文件225中的对象的亮度变化的频率和方向性。表示2D对象的经分割的图像数据文件225被分成4x4的不重叠的矩形区域。在每一个区域中,EDH 237计算四个方向性边缘(水平、垂直和两个斜对角线)以及一个非方向性边缘。
针对存储在局部视图数据库255中的已知对象的多个局部视图的每一个,将CH 235和EDH 237与2D外观特征进行比较(260),以缩窄和缩减与一个或多个已知对象相关联的经分割的图像数据文件225中的搜索空间。局部视图数据库255中的这些局部视图(其相对于经分割的图像数据文件225具有外观上的总体类似性)基于由分别与CH 235和EDH237相关联的2D颜色和边缘方向分类符(classifier)给出的融合的结果而被选择。由此,辨识出经分割的图像数据文件225的缩减的搜索空间265。
经分割的图像数据文件225被经受3D特征提取(240),其包括评估3D几何特征,所述3D几何特征包括用于经分割的图像数据文件225的数据点的视角特征直方图(VFH)245和形状函数的集合(ESF)247。VFH 245包括点特征直方图(PFH)以及视角分量直方图。
图3图示了用于单个点对Pt 320和Ps 310的向量,所述点对表示在从输入点云217提取的经分割的图像数据文件225和相关联的点向量305中的任何两个相邻或连续的点。在一个实施例中,k维或基于k-d树(k-dtree-based)的最近相邻搜索被采用,以比较特征。k-d树是空间-分区数据结构,用于组织k维空间中的点以用于实现涉及多维搜索关键的搜索,例如范围搜索和最近相邻搜索。基于k-d树的最近相邻搜索过程是已知的。单个点对Pt 320和Ps 310提供了构成VFH 245的点特征直方图(PFH)的元素的示例。点向量305是点Pt 320和Ps 310之间的直线。使用VFH 245的PFH的这种特征描述被执行,以便以允许机器识别的方式提供经分割的图像数据文件225中所包含的点的几何描述。点Ps 310在包括us 312,vs 314和ws 316的第一3D轴线的环境下被特征化,其中向量ns313表示点ps310的法线(normal)。点Pt 320在包括ut 322,vt 324和wt 326的第二3D轴线的环境下被特征化,其中向量nt 323的特征在于在轴线u 322和w 326所限定的第一平面中的第一角度θ325,以及在轴线u 322和v 324所限定的第二平面中的第二角度α321。
包括us 312,vs 314和ws 316的第一3D轴线分别对应于被沿点向量305平移的包括ut 322,vt 324和wt 326的第二3D轴线。向量ns 313表示点ps 310的法线,其平行于ut轴线322,并限定在向量ns 313和点向量305之间的第三角度向量nt 323表示用于点pt 320的表面法线,且特征在于在由轴线u 322和w 326所限定的第一平面中的第一角度θ325,以及在由轴线u322和v 324所限定的第二平面中的第二角度α321。
通过积累(accumulate)从输入点云217提取的经分割的图像数据文件225的所有点对之间的几何关系,PFH将点云(例如参考图2所描述的输入点云217)的形状的统计数据编码。给定相邻的一对点以及它们的法线,例如参考图3所描述的,PFH积累四维直方图,包括第二角度α321的余弦、第三角度的余弦、第一角度θ325以及被标准化到相邻点的点Pt 320和Ps 310之间的距离。PFH参数包括计算直方图所考虑的维度,以及用于每个维度的位(bin)数。
包括第一角度θ325、第二角度α321以及第三角度的角度表示成对的平移、倾斜和俯仰(pan,tilt,yaw)角度,其中前述角度针对每一对法线被确定,以用于经分割的图像数据文件225中的辨识的曲面补片(surfacepatch)。该特征不使用颜色信息。
图4图示了视角分量的示例,所述视角分量通过收集针对输入点云417的视角412、由线410指示的中心视角方向、以及多个表面法线ni 405的每一个之间的相对角度α421的直方图而被计算,其中输入点云417对应于参考图2所描述的输入点云217。表面法线ni 405是针对输入点云417的单个点的。输入点云417的每个点具有表面法线(未示出)。直线414提供视角方向,且直线410是中心视角方向,其平行于其中原点对应于输入点云417的中心点420的视角方向。相对角度α421被采用以构建视角分量,所述视角分量包括表面法线ni 405和中心视角方向410之间的相对角度α421的统计数据。视角分量通过收集由视角方向414与每个表面法线ni 405形成的角度的直方图而被计算,其包括被平移到每个表面法线ni 405的中心视角方向之间的角度。第二分量测量关于图3描述的表面上的法线405的每一个与在中心点420处的视角方向410之间测量的相对平移、倾斜和俯仰角度。
图5图示了被应用到输入点云的形状函数的集合(ESF)的示例,所述输入点云包括3D对象501,其也被示出。参考图2描述了一个经分割的图像数据文件225,其包括从输入点云提取的3D对象501。3D对象501作为3D对象的非限制性图示被示出。ESF包括与3D对象501相关的形状函数的直方图,其包括集合D2502和相关联的直方图503、集合A3504和相关联的直方图505、集合D3506和相关联的直方图507、以及集合比率(Ratio)508和相关联的直方图509。直方图503,505,507和509的每一个包括关于每个直线在垂直轴线上发生的频率。集合D2502和相关联的直方图503基于从代表3D对象501的输入点云选择的随机取样的点之间的距离而形成。集合A3504和相关联的直方图505基于从代表3D对象501的输入点云选择的两条随机直线之间的封闭角度而形成。集合D3506和相关联的直方图507基于从代表3D对象501的输入点云选择的三个随机取样的点所跨越的面积而形成。集合Ratio 508和相关联的直方图509基于从代表3D对象501的输入点云选择的、在3D对象501的表面上以及在该表面外的随机直线的比率而形成。
回头参考图2,将视角特征直方图(VFH)245和形状函数的集合(ESF)247和颜色直方图(CH)235以及边缘方向直方图(EDH)237与经分割的图像数据文件225的经缩减的搜索空间265的内容进行比较,以实现来自VFH245、ESF 247、CH 235、EDH 237以及经缩减的搜索空间265的内容的特征的融合(270)。前述特征的融合基于人类识别路径而被促成,其中人类识别从使用基于外观的标记的低水平处理开始,到通过融合多个几何标记的高水平对象表现形式。颜色和形状快速地传递信息,这在通过2D外观特征将来自局部视图数据库225的搜索空间缩窄之后,有助于物理世界中人类感知系统的视觉搜索。基于由2D颜色和边缘方向分类符给出的融合的决定,局部视图数据库255中相对于输入对象具有外观上的总体相似性的这些局部视图被选择。
与2D融合相关联的特征的融合包括,将对象的2D特征与存储在局部视图数据库255中的已知对象的局部视图的特征比较。这包括将CH 235和EDH 237与局部视图数据库255的内容进行比较。加权总和被用来结合两个匹配的存储:
S2d=ωSch+(1-ω)Sedh [1]
其中Sch和Sedh分别是颜色和边缘方向中的测试和训练特征之间的欧氏(Euclidian)距离,且在CH 235和EDH 237中被量化。匹配存储使用最大标准化而被标准化。项ω是用于两个特征之一的权重,且在一个实施例中为0.6。
结合3D几何和2D外观特征的自适应提高(adaptive boosting,Adaboost)学习算法在缩减的搜索空间上被执行,以选择用于将经分割的图像数据文件225的每个部分与已知对象中的一个相关联的最终决定的最有效特征(280)。自适应提高(Adaboost)是一种机器学习方式,其通过结合多个相对弱且不准确的规则或分类符而产生高度准确的预测规则。只要每个弱的分类符以至少50%的成功率进行,且不同分类符的错误是独立的,则该算法能够通过优化地选择用于弱分类符的权重而改进错误率。在该情况下,四个弱分类符被采用,例如包括CH235和EDH 237的两个2D特征以及包括VFH 245和ESF247的两个3D特征。
举例来说,Adaboost过程的该部分的执行包括,令hn为第n个弱分类符,且令y=hn(x)为到输入x的分类符的输出。在该情况下,x是输入对象,y是指示对象是否由弱分类符识别的二进制(binary)标签。强分类符通过弱分类符的加权总和而给出:
Ψ ( x ) = sign ( Σ n = 1 N α n h n ( x ) ) - - - [ 2 ]
其中αn是Adaboost发现的指示弱指示符hn的重要性的标量权重,且N=4。权重以迭代的方式根据如下计算:
α n = 1 2 ( ln 1 - ϵ n ϵ n ) - - - [ 3 ]
其中误差εn如下地确定:
ϵ n = P r i ~ D n [ h n ( x i ) ≠ y i ] = Σ i : h n ( x i ) ≠ y i D n ( i ) - - - [ 4 ]
在该方程中,输出yi∈{-1,+1}是用于训练集的实际值(ground truth),且Dn(i)是在n次时分配到第i个训练示例的权重。
由此,对象分割和对象识别,通过将2D局部和3D总体特征结合成多模型优化而使用针对机器应用的来自任意视角的多模型特征而被优化,以实现高对象识别率和很低的故障警告。这允许以一致的方式,例如使用Adaboost融合几何和视觉特征,以及使用局部视图建模从任意视角分类具有特定结构(textured)和不具有特定结构的对象。局部视图匹配允许针对快速精确姿态对准的粗略姿态估计。这样的功能提高用于对象操纵的机器人自动化以及用于制造的人-机协作。
再次参考图2,以一致的方式(例如使用Adaboost)有效地融合几何和视觉特征,并从任意视角使用局部视图建模而分类具有特定结构和不具有特定结构二者的对象,其结果导致了对象识别过程200中实现将已知对象211,212,213,214和215分别识别为开关211、收音机212、喷洒瓶214和把手215的机器识别(290)。
这里所描述的基于视觉的方式自动地识别FOV中的已知对象。这样的能力使得装置,例如机器人手臂,能够针对较宽范围的对象以及条件、取向、光照、视角、封闭(occlusion)、背景、空间认知,通过提取关于对象在其周围环境的境况中的特质,以灵活的匹配局部化对象以用于抓持和/或操纵。这里所描述的方式平衡了外观和几何二者,以局部化和识别对象,能利用从深度传感器到姿态优化算法的范围信息来提高准确性。多传感感知的使用通过将多传感器感知注意机制并入和通过开发分类符分类法而用于快速剖析宽范围的对象而加速了分类和搜索。
这里描述的对象识别方法通过提供高水平的灵活性和可重构性而有利于自动化系统的调度。这里描述的概念允许灵活性和可变换性,其在组装操作中,如在提起箱子或材料操作中,以第一代人形机器人自动化程度使用最小化的基础构造。其还实现鲁棒且自治的组装能力,在较少结构环境中发现部件、任务的视觉确认、以及复杂且灵活部件的容易的操纵。这里所描述的系统使得机器人手臂能够在组装线上补偿人类手臂的角色,并降低工人花费在例行公事、非关键性、重复性组装过程上的时间,所述过程在灵巧的人形机器人近项能力内。这里所描述的系统使得机器人手臂能够处理各种形状和形式的半刚性、刚性、棱柱形部件,快速检测多个对象,且具有以半自动方式学习用于新对象的模型的能力。对于实现能使用同一过程基础构造与人类协作地工作的机器人而言,该能力是必要和关键的。
详细描述和附图或视图支持和描述本教导,但是本教导的范围仅由权利要求限定。尽管已详细描述了用于执行本教导的最佳模式和其他实施例,但存在各种替换设计和实施例用于实践限定在所附权利要求中的本教导。

Claims (10)

1.一种用于识别机器视觉系统的视野中的已知对象的方法,包括:
采用机器视觉系统,捕获视野的位图图像文件;
执行位图图像文件的第一特征提取,以产生包括颜色直方图和边缘方向直方图的外观特征;
基于包括颜色直方图和边缘方向直方图的外观特征,识别缩减的搜索空间;
执行位图图像文件的第二特征提取,以辨识几何特征,所述几何特征包括视角特征直方图和与之相关联的形状函数的集合;
将外观特征和几何特征与缩减的搜索空间的内容融合;
将融合的外观特征、几何特征和缩减的搜索空间的内容与多个已知对象的多个预定的局部视图比较;和
通过控制器,基于所述比较而识别已知对象中的一个。
2.如权利要求1所述的方法,其中将融合的外观特征、几何特征和缩减的搜索空间的内容与多个已知对象的多个预定的局部视图比较包括,执行自适应提高学习算法以实现该比较。
3.如权利要求1所述的方法,其中执行位图图像文件的第一特征提取以产生包括颜色直方图的外观特征包括,产生针对位图图像文件的色调和颜色饱和度进行量化的直方图。
4.如权利要求1所述的方法,其中执行位图图像文件的第一特征提取以产生包括边缘方向直方图的外观特征包括,产生表示位图图像文件中的被捕获对象的亮度变化的方向性和频率的直方图。
5.如权利要求1所述的方法,其中执行位图图像文件的第二特征提取以辨识包括视角特征直方图的几何特征包括,通过积累与位图图像文件相关的输入点云的所有点对之间的几何关系而将其形状的统计数据编码。
6.一种由机器执行的、基于视觉的对象识别过程,包括:
捕获针对多个已知对象的每一个的多个预定局部视图;
经由机器视觉系统,采用机器视觉系统,捕获包括视野的三维图像的位图图像文件,该视野包括已知对象的至少一个;
通过控制器,执行位图图像文件的二维(2D)特征提取,以产生包括颜色直方图和边缘方向直方图的二维外观特征;
基于包括颜色直方图和边缘方向直方图的二维外观特征,识别缩减的搜索空间;
执行位图图像文件的三维特征提取,以辨识几何特征,所述几何特征包括视角特征直方图和与之相关联的形状函数的集合;
将外观特征和几何特征与缩减的搜索空间的内容融合;
将融合的外观特征、几何特征和缩减的搜索空间的内容与所述多个已知对象的所述多个预定的局部视图比较;和
通过控制器,基于所述比较而识别已知对象中的一个。
7.如权利要求6所述的过程,其中将融合的外观特征、几何特征和缩减的搜索空间的内容与多个已知对象的多个预定的局部视图比较包括,执行自适应提高学习算法以实现该比较。
8.如权利要求6所述的过程,其中执行位图图像文件的二维特征提取以产生包括颜色直方图的外观特征包括,产生针对位图图像文件的色调和颜色饱和度进行量化的直方图。
9.如权利要求6所述的过程,其中执行位图图像文件的二维特征提取以产生包括边缘方向直方图的外观特征包括,产生表示位图图像文件中的被捕获对象的亮度变化的方向性和频率的直方图。
10.如权利要求6所述的过程,其中执行位图图像文件的三维特征提取以辨识包括视角特征直方图的几何特征包括,通过积累与位图图像文件相关的输入点云的所有点对之间的几何关系而将其形状的统计数据编码。
CN201510209282.0A 2015-02-04 2015-04-28 用于识别机器视觉系统的视野中的已知对象的方法 Active CN106156778B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US14/614,014 2015-02-04
US14/614,014 US9483707B2 (en) 2015-02-04 2015-02-04 Method and device for recognizing a known object in a field of view of a three-dimensional machine vision system

Publications (2)

Publication Number Publication Date
CN106156778A true CN106156778A (zh) 2016-11-23
CN106156778B CN106156778B (zh) 2019-10-15

Family

ID=56410004

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510209282.0A Active CN106156778B (zh) 2015-02-04 2015-04-28 用于识别机器视觉系统的视野中的已知对象的方法

Country Status (3)

Country Link
US (1) US9483707B2 (zh)
CN (1) CN106156778B (zh)
DE (1) DE102015103022A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110097598A (zh) * 2019-04-11 2019-08-06 暨南大学 一种基于pvfh特征的三维物体位姿估计方法
CN111310845A (zh) * 2020-02-26 2020-06-19 广东电网有限责任公司电力科学研究院 一种变电站设备识别方法、装置和设备

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10977481B2 (en) * 2016-06-24 2021-04-13 Skusub LLC System and method for object matching using 3D imaging
US11334836B2 (en) 2017-01-04 2022-05-17 MSM Holdings Pte Ltd System and method for analyzing media for talent discovery
US10496949B2 (en) 2017-01-04 2019-12-03 Christopher Zoumalan Compositions and methods for treating cutaneous conditions
CN106934372B (zh) * 2017-03-13 2020-05-26 哈尔滨工业大学 基于传统vfh描述子加入颜色信息的点云分类方法
EP3376503A1 (en) * 2017-03-14 2018-09-19 Microtekna S.r.l. Method and apparatus to calibrate a valve of a gas boiler
IT201700108941A1 (it) * 2017-09-28 2019-03-28 Microtekna Srl Metodo e apparecchiatura per tarare una valvola di una caldaia a gas
EP3616126A4 (en) 2017-04-27 2020-12-02 Hewlett-Packard Development Company, L.P. OBJECT RECOGNITION
DE102017210316A1 (de) 2017-06-20 2018-12-20 Volkswagen Aktiengesellschaft Verfahren und Vorrichtung zum Erfassen einer Nutzereingabe anhand einer Geste
DE102017210317A1 (de) 2017-06-20 2018-12-20 Volkswagen Aktiengesellschaft Verfahren und Vorrichtung zum Erfassen einer Nutzereingabe anhand einer Geste
US10388005B2 (en) 2017-08-11 2019-08-20 United Technologies Corporation Sensor system for data enhancement
US10387803B2 (en) 2017-08-11 2019-08-20 United Technologies Corporation Sensor system for transcoding data
US10679367B2 (en) 2018-08-13 2020-06-09 Hand Held Products, Inc. Methods, systems, and apparatuses for computing dimensions of an object using angular estimates
DE102018215538A1 (de) * 2018-09-12 2020-03-12 Trumpf Werkzeugmaschinen Gmbh + Co. Kg Verfahren und Vorrichtung zur Identifkation eines Gegenstands
CN110807810A (zh) * 2019-10-30 2020-02-18 武汉理工大学 基于三维点云的拆卸产品结构机器人视觉识别方法
KR20230049585A (ko) 2020-05-11 2023-04-13 코그넥스코오포레이션 포인트 클라우드 히스토그램을 생성하기 위한 방법 및 장치
CN113282088A (zh) * 2021-05-21 2021-08-20 潍柴动力股份有限公司 工程车的无人驾驶方法、装置、设备、存储介质及工程车
DE102022115997A1 (de) * 2022-06-28 2023-12-28 TRUMPF Werkzeugmaschinen SE + Co. KG Verfahren und System zur Unterstützung bei der Unterscheidung von Blech-Werkstücken
CN117726885B (zh) * 2024-02-18 2024-04-26 南京航空航天大学 一种基于三维几何自注意力机制的车身缝隙分类方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040136609A1 (en) * 2002-10-23 2004-07-15 Konica Minolta Business Technologies, Inc. Device and method for image processing as well as image processing computer program
CN102073864A (zh) * 2010-12-01 2011-05-25 北京邮电大学 四层结构的体育视频中足球项目检测系统及实现
WO2013049736A1 (en) * 2011-09-30 2013-04-04 Bhardwaj Anurag Image feature data extraction and use
CN103996046A (zh) * 2014-06-11 2014-08-20 北京邮电大学 基于多视觉特征融合的人员识别方法

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4928313A (en) * 1985-10-25 1990-05-22 Synthetic Vision Systems, Inc. Method and system for automatically visually inspecting an article
US5436981A (en) * 1992-06-24 1995-07-25 Canon Kabushiki Kaisha Image processing method, and apparatus therefor
US20020044689A1 (en) * 1992-10-02 2002-04-18 Alex Roustaei Apparatus and method for global and local feature extraction from digital images
JP3113827B2 (ja) * 1996-11-28 2000-12-04 インターナショナル・ビジネス・マシーンズ・コーポレ−ション 矩形オブジェクトの認識方法及び認識装置
US6111974A (en) * 1998-02-11 2000-08-29 Analogic Corporation Apparatus and method for detecting sheet objects in computed tomography data
US6671049B1 (en) * 1999-10-29 2003-12-30 Cognex Corporation Article of manufacture bearing a universal alignment target
US7039229B2 (en) * 2000-08-14 2006-05-02 National Instruments Corporation Locating regions in a target image using color match, luminance pattern match and hill-climbing techniques
US7227893B1 (en) * 2002-08-22 2007-06-05 Xlabs Holdings, Llc Application-specific object-based segmentation and recognition system
JP2008258994A (ja) * 2007-04-06 2008-10-23 Ricoh Co Ltd 画像処理装置
US8385971B2 (en) * 2008-08-19 2013-02-26 Digimarc Corporation Methods and systems for content processing
US8290253B1 (en) * 2009-10-30 2012-10-16 Adobe Systems Incorporated Method and apparatus for applying Gaussian Mixture Models to local image patches using an adaptive color lookup table
RU2445677C1 (ru) * 2010-09-13 2012-03-20 Корпорация "САМСУНГ ЭЛЕКТРОНИКС Ко., Лтд." Способ черновой печати посредством преобразования растровых изображений в эскизы (варианты)
US8897578B2 (en) * 2011-11-02 2014-11-25 Panasonic Intellectual Property Corporation Of America Image recognition device, image recognition method, and integrated circuit

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040136609A1 (en) * 2002-10-23 2004-07-15 Konica Minolta Business Technologies, Inc. Device and method for image processing as well as image processing computer program
CN102073864A (zh) * 2010-12-01 2011-05-25 北京邮电大学 四层结构的体育视频中足球项目检测系统及实现
WO2013049736A1 (en) * 2011-09-30 2013-04-04 Bhardwaj Anurag Image feature data extraction and use
CN103996046A (zh) * 2014-06-11 2014-08-20 北京邮电大学 基于多视觉特征融合的人员识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
W WANG,L CHEN,D CHEN,ET AL.: "Fast object recognition and 6D pose estimation using viewpoint oriented color-shape histogram", 《IEEE INTERNATIONAL CONFERENCE ON MULTIMEDIA & EXPO》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110097598A (zh) * 2019-04-11 2019-08-06 暨南大学 一种基于pvfh特征的三维物体位姿估计方法
CN110097598B (zh) * 2019-04-11 2021-09-07 暨南大学 一种基于pvfh特征的三维物体位姿估计方法
CN111310845A (zh) * 2020-02-26 2020-06-19 广东电网有限责任公司电力科学研究院 一种变电站设备识别方法、装置和设备

Also Published As

Publication number Publication date
US20160224858A1 (en) 2016-08-04
US9483707B2 (en) 2016-11-01
CN106156778B (zh) 2019-10-15
DE102015103022A1 (de) 2016-08-04

Similar Documents

Publication Publication Date Title
CN106156778A (zh) 用于识别三维机器视觉系统的视野中的已知对象的装置和方法
CN111328396B (zh) 用于图像中的对象的姿态估计和模型检索
Tao et al. Detection of power line insulator defects using aerial images analyzed with convolutional neural networks
US11205095B2 (en) Methods and systems for the fast estimation of three-dimensional bounding boxes and drivable surfaces using LIDAR point clouds
US11443133B2 (en) Computer vision system for industrial equipment gauge digitization and alarms
US8447114B2 (en) Method and apparatus for calculating pixel features of image data
CN110852182B (zh) 一种基于三维空间时序建模的深度视频人体行为识别方法
CN106919895A (zh) 用于运动目标的跟踪方法和系统
KR102188649B1 (ko) 영상 처리 장치 및 방법
Ruhnke et al. Unsupervised learning of 3d object models from partial views
CN104361573B (zh) 融合颜色信息和全局信息的sift特征匹配算法
Wang et al. GraspFusionNet: a two-stage multi-parameter grasp detection network based on RGB–XYZ fusion in dense clutter
Tombari et al. Online learning for automatic segmentation of 3D data
Ocegueda-Hernandez et al. A lightweight convolutional neural network for pose estimation of a planar model
Palmer et al. Scale proportionate histograms of oriented gradients for object detection in co-registered visual and range data
Thamer et al. A 3d-robot vision system for automatic unloading of containers
Stefańczyk et al. Mixing deep learning with classical vision for object recognition
Kiran et al. Support vector machine learning based traffic sign detection and shape classification using distance to borders and distance from center features
Strotov et al. Aerial object recognition algorithm based on contour descriptor
Saxena et al. Colour detection in objects using NIN implemented CNN
CN116958876B (zh) 一种基于多光谱双目立体视觉的视频异常行为检测方法和系统
Tang et al. Multi-scale analysis of color and texture for salient object detection
Hui et al. In-hand object material characterization with fast level set in log-polar domain and dynamic time warping
Gubbi et al. Visual change detection using multiscale super pixel
Gao et al. Object recognition and augmentation for wearable-assistive system using egocentric RGB-D sensor

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant