CN110546651A

CN110546651A - 对象识别

Info

Publication number: CN110546651A
Application number: CN201780090106.7A
Authority: CN
Inventors: 雷阳; 范健; J·刘
Original assignee: Hewlett Packard Development Co LP
Current assignee: Hewlett Packard Development Co LP
Priority date: 2017-04-27
Filing date: 2017-04-27
Publication date: 2019-12-06
Anticipated expiration: 2037-04-27
Also published as: EP3616126A4; CN110546651B; EP3616126A1; US20200125830A1; US11030436B2; WO2018199958A1

Abstract

一种识别对象的方法，包括将对象的三维点云与来自数据集的三维候选进行比较以确定第一置信度得分，并且将对象的二维图像的颜色度量与来自数据集的二维候选进行比较，以确定第二置信度得分。点云包括根据白平衡图像校准的颜色外观，并且将对象的颜色外观与三维候选进行比较。选择第一或第二置信度得分以确定三维候选或二维候选中的哪一个与对象相对应。

Description

对象识别

背景技术

对象识别和检索是计算机视觉和图像处理的一个领域。在一种应用中，物理对象可以转换成对象的数字表示，并且对象的数字表示可以转换成物理对象。可以经由使用彩色或单色调打印机对数据文件进行二维打印或经由使用三维打印机对数据文件进行三维打印或增材制造来实现数字到物理的变换。对象识别可以用于检索与对象相关联的数据文件和信息，以及用于其他内容交互。

附图说明

图1是图示了对象识别的方法的示例的框图。

图2是图示了用于应用图1的示例方法的示例系统的示意图。

图3是图示了图1的示例方法的示例实现的框图。

图4是图示了图1的示例方法的示例特征的框图。

图5是图示了图1的示例方法的另一示例特征的框图。

具体实施方式

对象识别是包括增强现实、人机交互、三维打印等的许多高级应用的基础。对象识别系统可以从训练数据集中学习不同的对象类或实例，其中训练信息包括要识别的对象的各种示例。在出现新的未标记查询的情况下，该系统可以返回对象类、或特定对象的名称、或未找到该对象的通知。

二维图像实例识别系统通常尝试从一组已知的二维图像中识别二维图像。在从不同视角观看的对象的图像上训练对象实例识别。对于单个三维对象，这些图像可能不同。此外，用于训练的对象的位置的数量取决于对象的形状，并且可能很大。二维对象识别的另一个限制在于，将对象映射或投影到二维图像会导致信息丢失。

用深度传感器收集的三维深度数据提供了诸如点云(point cloud)这样的以实时色深(color-depth)图像的形式的丰富的对象数据。然而，性能取决于数据的质量，包括噪声水平、分辨率和精度。与图像传感器相比，不同的色深传感器具有很大的特性差异。三维色深传感器在处理小的对象或者黑色或闪光的对象时有困难。此外，相对于处理二维图像，处理三维深度数据可能在计算上较为昂贵。

用于对象识别的示例系统包括二维图像流水线和三维点云流水线。在一个示例中，通常并行地执行流水线化的操作，并为每个结果分配置信度得分(confidence score)。在一个示例中，固定传感器系统执行几何校准和白平衡校正，包括基于深度的对象分割，以提供颜色表示。可以在两个流水线中都应用颜色表示。

图1图示了识别对象的方法100。在一个示例中，将对象与数据集中的候选进行比较以确定匹配候选。在该示例中，数据集可以包括多个候选，每个候选具有三维点云和二维图像。在102处，将对象的三维点云与来自数据集的候选的三维点云进行比较以确定第一置信度得分。对象的点云包括根据白平衡图像校准的颜色外观(color appearance)。在102处的三维比较包括将对象的三维点云的颜色外观与候选的三维点云进行比较。在104处，将对象的二维图像与来自数据集的候选的二维图像进行比较以确定第二置信度得分。在104处的二维比较包括将对象的二维图像的颜色度量与候选的二维图像进行比较。在一个示例中，通常并行地执行102处的比较和104处的比较，并且这两个比较包括颜色度量(colormetrics)的比较。如果来自104处的二维比较的最高得分候选与来自102处的三维比较的最高得分候选相匹配，则已辨识(identify)出该对象的可能性非常高。然而，如果来自104处的二维比较的最高得分候选与来自102处的三维比较的最高得分候选不匹配，则在106处选择第一和第二置信度得分中的一个来确定三维候选或二维候选中的哪一个对应于该对象。如果所选的置信度得分无法至少满足阈值，则尚未在候选集中找到对象。

示例方法100可以被实现为包括用来执行用于识别对象的方法100的一个或多个硬件设备和用于控制系统的计算机程序的组合，诸如具有处理器和存储器的计算系统。方法100可以被实现为具有用于控制处理器执行方法100的可运行指令集的计算机可读介质或计算机可读设备。计算机存储介质或非暂时性计算机可读介质包括RAM、ROM、EEPROM、闪存或其他存储技术、CD-ROM、数字万用盘(DVD)或其他光学存储装置、磁盒、磁带、磁盘存储装置或其他磁性存储设备、通用串行总线(USB)闪驱、闪存卡或其他闪存设备、或可以用于存储所需信息并可以由计算系统访问的任何其他存储介质。因此，传播信号本身不具有存储介质的资格。

图2图示了可以应用用来识别对象202的方法100的示例系统200。将对象202置于工作表面204上，并用彩色相机206和色深相机208对其进行成像。在一个示例中，工作表面204是具有诸如白色背景之类的纯色(solid)中性色的大致平坦的垫子(mat)。在一个示例中，彩色相机206可以包括具有红色、绿色和蓝色传感器的通常更高分辨率的相机，或RGB相机，其可以提供针对每个像素的颜色信息。彩色相机206可以生成对象202的相对高分辨率的二维彩色图像数据210。色深相机208可以包括颜色传感器和深度传感器，以生成对象的图像，合并所述对象的图像以形成对象的点云数据212。在一个示例中，色深相机208可以包括RGB-D相机，该示例具有红色、绿色、蓝色、红外传感器，以生成针对每个像素的颜色和深度数据。对象的点云数据212可以在色深相机208中形成或随后在处理中形成。色深相机208的颜色传感器可以比彩色相机206产生分辨率相对更低的彩色图像。在一个示例中，系统200可以包括多个色深相机208，这可以降低训练工作量并增强匹配置信度。在一个示例中，相机206、208和工作表面204可以相对于彼此具有固定位置，并且在成像期间，环境光照通常是稳定的或者通常不含有差异(variation)。

对象的彩色图像数据210和对象的点云数据212被提供给具有处理器222和存储器224的计算机系统220，所述处理器222和存储器224被配置成将本公开的示例方法(诸如方法100)实现为存储在存储器224中的计算机可读指令集，其用于控制处理器222执行诸如方法100之类的方法。在一个示例中，所述计算机可读指令集可以被实现为计算机程序226，所述计算机程序226可以包括被配置成在计算系统220上操作的硬件和编程的各种组合。计算机程序226可以存储在存储器224中并由处理器222执行，以将对象的彩色图像210和对象的点云212与数据集232中的候选230进行比较。在该示例中，每个候选230包括候选的三维点云234和候选的二维图像236。在一个示例中，每个候选230包括候选的一个三维点云234和候选的多个二维图像236。

图3图示了示例方法300，其可以是用系统200执行的方法100的示例实现。方法300包括接收二维图像302(诸如对象202的彩色图像数据210)以及三维图像或点云304(诸如对象202的色深点云数据212)，以用于在310处进行校准(calibration)。在312处用二维图像识别来处理二维图像302，并在314处用三维对象识别来处理经校准的三维图像304，312和314各自分别将相应的图像302、304与数据集306(诸如数据集232)中的候选进行比较。312、314处的每个识别过程返回其认为是被识别对象的候选以及对应的置信度得分。如果在316处，来自312和314处的各自识别过程的候选是同一个候选，则在318处将该候选作为被识别对象返回。如果在316处候选是不同的，则在320处比较置信度得分并选择占优的置信度得分。如果该占优的置信度得分在322处满足或超过阈值量，则在318处将与该占优的置信度得分相对应的候选作为被识别对象返回。然而，如果置信度得分达不到阈值量，则方法300在324处输出未识别出对象。

310处的校准可以包括332处的点云分割和334处的白平衡处理。可以用以下内容来初始化310处的校准：用工作表面204的参考三维平面参数336用于332处的点云分割(point cloud)，并且用工作表面204的参考二维彩色图像338用于334处的云白平衡处理(white cloud balance)。点云分割332包括从三维对象点云304减去参考工作表面336。应用参考二维图像338以对对象的二维图像302执行逐个像素的白平衡处理，以生成经白平衡校正的二维图像。在一个示例中，根据系统200成像校准，将经白平衡校正的二维图像映射到三维点云304，这可以包括RGB-D传感器的内部坐标之间的三维变换。将原始的二维彩色图像302提供为到二维识别312的输入，并且在一个示例中，将经白平衡校正的二维图像作为对象的经校准的二维图像提供为到二维图像识别过程312的输入。将经分割、经白平衡处理的点云作为对象的经校准的三维点云提供为到314处的三维对象识别过程的输入。

332处的从背景或工作表面分割对象可以降低三维识别312的计算时间。在系统200的示例中，色深相机208相对于工作表面204的位置和角度是固定的，并且工作表面204是大致平坦的垫子。在显影参考工作表面336的一个示例中，经由色深相机208来检测和记录垫子的角。将与垫子对应的三维点拟合到三维平面，并记录该平面的参数。从对象的三维点云304中减去沿着到色深相机的轴或z轴的平面的值，并将低于设定阈值的任何剩余z值标记为背景，并忽略它们。

在方法100的比较102、104中包括颜色外观。但是，对象的颜色外观可能会在不同的环境光照条件下发生变化。在一个示例中，工作表面204的垫子的颜色被提供为白色。经由彩色相机206捕获工作表面204的参考二维图像338以用于进行逐个像素的白平衡处理。参考二维图像338和参考工作表面336可以经由彩色相机206和色深相机208同时或分别捕获。在一个示例中，在国际照明委员会(CIE)的CIE XYZ颜色空间中执行白平衡，并且包括诸如经由CIE标准和条目进行的从RGB颜色空间到CIE XYZ颜色空间的变换。将经白平衡处理的二维图像映射到三维深度图像304上。在一个示例中，使用系统几何校准数据以包括色深相机208的视觉传感器的内部坐标之间的三维变换。

图4图示了使用例如系统200的二维识别312的示例方法400。方法400在402处接收对象的二维图像，并且在一些示例中，接收对象的经校准的二维图像。在一个示例中，方法400可以是基于局部尺度和取向不变的特征变换(SIFT)。在404处，处理所接收的二维图像以及在一个示例中的经白平衡校正的二维图像，以确定关键点和描述符。在406处，将所输入的二维图像的关键点和描述符与候选的二维图像236的关键点和描述符进行匹配。在一个示例中，从对象和候选的二维图像的灰度级版本中检测关键点，并且随后确定描述符。在408处，比较已匹配的点，并进行关于已匹配的关键点之间的颜色相似性的确定。在410处，为对应的候选提供关于几何距离和描述符距离的得分。可以针对数据集232或数据集232的子集中的候选的每个二维图像重复匹配406、颜色外观比较408和410处的评分，并在412处输出其对应的得分或置信度得分。

408处的颜色相似性确定提供了额外的鉴别力。在一个示例中，针对以其位置和圆形窗口来表征的每个关键点，计算平均RGB值，并且然后将其转换成CIELab(L*a*b*)值。使用色差或CIE Delta E(诸如CIE DE2000)来衡量一对关键点是否在颜色上相似。如果关键点对的Delta E超过所选阈值，则移除该匹配。

在410处的评分的一个示例中，可以在系统200上经由两个独立分量中的单应性(homography)来描述对象的二维图像与候选的二维图像之间的已匹配的关键点的几何关系。第一分量是透视变换，将其应用于由相机206捕获的所有图像。第二分量是根据已匹配的关键点确定的仿射变换(affine transform)，该仿射变换可以包括对仿射变换的缩放和剪切因子施加的约束。可以计算已匹配的关键点之间的几何距离并将其用于其他验证。最大距离阈值可以确定在给定的仿射变换下是否应拒绝匹配。例如，如果经几何验证的匹配关键点对的总数高于所选的值(该值是用来计算仿射变换的最小点对数量)，则可以计算图像对的得分。

图5图示了使用例如系统200的三维识别314的示例方法500。方法500在502处接收对象的经校准的三维点云。在一个示例中，在将每个候选的每个三维点云存储在数据集232中之前，先用移动最小二乘(moving least squares，MLS)滤波器对每个候选的每个三维点云进行平滑处理，并且在方法500期间，用MLS滤波器对对象的经校准的三维点云进行平滑处理。处理从310处的校准接收的对象的经校准的三维点云，以在504处提取所选特征。在一个示例中，特定的所选特征与数据集232中的候选的每个三维点云234包括在一起。在504处提取的所选特征可以包括对象颜色外观、三维关键点、三维特征和每个关键点的局部颜色外观。

在506处，将对象颜色外观与候选的颜色外观进行比较。506处的对象颜色外观比较可以改进方法500的吞吐量，因为它创建了用于三维比较的较小的候选子集。在一个示例中，可以在L*a*b*颜色空间中执行颜色比较，因为在L*a*b*颜色空间比起其他的(诸如色度饱和直方图、色度直方图和对经分割的对象点的a*-b*通道直方图)对光照变化的敏感性较低。丢弃亮度通道，并且将平均值(a*,b*)应用于经分割的对象点，并且应用欧几里德距离作为度量。

在508处，对对象的点云和候选的点云(如同对候选的子集)执行三维特征匹配和局部颜色验证。三维点特征可以分类为全局描述符或局部描述符。全局描述符可以用于已被良好分割的对象，并用一个描述符来表示整个对象点云。相反，局部描述符是在关键点周围局部地计算的，并且一个对象点云通常包括若干个关键点。在本方法500的示例中，其中502处的三维点云可能因对象相对于背景的取向和位置而有所变化，应用局部关键点检测器和特征描述符。

在一个示例中，使用ISS(Intrinsic Shape Signature，固有形状签名)局部关键点检测来从经过滤的对象点云中提取形状关键点。ISS通过使用点扩散矩阵的特征分析(eigenanalysis)来在具有支撑半径的基点处定义固有参考框架(intrinsic referenceframe)，并且ISS是对独立于视图的形状特征提取的经典表面法向参考的概括。可以在检测到的关键点上提取SHOT(Signature of Histogram OrientaTion，直方图方向签名)特征描述符。使用以关键点为中心然后从该网格结构的细分中构建的三维球形网格来计算描述符，并在三维直方图的仓中表示所述描述符。

在一个示例中，针对检测到的每个关键点，在其局部邻域中计算平均L*a*b*颜色向量，使用该向量来验证关键点匹配。为了确定两个点云之间的相似性，在SHOT特征空间中执行关键点之间的特征点匹配。与图像特征匹配相比，形状特征的区分度较低，尤其是在RGB-D传感器数据含噪声的情况下。使用局部平均L*a*b*颜色向量和CIE Delta E距离来验证匹配点具有足够的颜色相似性。

在510处确定候选与对象之间的匹配。例如，按照与对象的对应性对候选子集中的候选进行排序。对排序最高的候选进行进一步处理，以确定最佳匹配以及置信度得分。在一个示例中，可以应用RANSAC(Random Sample Consensus，随机样本一致性)方法来确定是否找到了较好的变换，并且基于支持该较好变换的关键点的数量来对候选子集进行排序。在一个示例中，应用迭代最近点(Iterative Closest Point，ICP)过程来进一步对齐候选的子集，并且选择选定数量的最高候选，诸如排序前五的候选。可以通过计算剩余候选的点云与对象点云之间的所有点的平均距离来确定最佳匹配。在512处输出具有最高得分的候选及其对应得分或置信度得分。

方法400和500可以分离地执行，并且优选地并行地执行。如果方法400、500均返回有效结果并且候选是不同的(诸如方法400返回了第一候选结果图像i_r1，而方法500返回了第二候选结果图像i_r2)，则计算对象的图像i_q与来自每种方法的结果图像之间的置信度SC(i_q,i_r)。在一个示例中，置信度得分SC(i_q,i_r)可以被确定为：

其中N_m是在方法400、500的二维和三维方案中通过了几何验证/一致性的图像i_q与i_r之间的已匹配的关键点的数量，并且K_q和K_r是图像i_q和i_r的关键点的数量。

在该示例中，由于N_m≤K_q并且N_m≤K_r，因此0≤SC(i_q,i_r)≤1，置信度得分大于或等于零且小于或等于一。

如果置信度得分SC(i_q,i_r1)大于置信度得分SC(i_q,i_r2)和所选阈值，则最终结果为第一候选结果图像i_r1，并且如果置信度得分SC(i_q,i_r2)大于置信度得分SC(i_q,i_r1)和所选阈值，则最终结果为第二候选结果图像i_r2。否则，可以比如在324处将输出设置为未找到。

尽管已在本文中图示和描述了具体示例，但是在不脱离本公开的范围的情况下，各种备选和/或等同实现可以取代所示出和描述的具体示例。意图使本申请覆盖本文中讨论的具体示例的任何修改或变型。因此，意图在于，本公开仅由权利要求及其等同物来限制。

Claims

1.一种识别对象的方法，包括：

将所述对象的三维点云与来自数据集的三维候选进行比较，以确定第一置信度得分，所述点云包括根据白平衡图像校准的颜色外观，并且所述比较包括比较所述对象的颜色外观与所述三维候选；

将所述对象的二维图像的颜色度量与来自所述数据集的二维候选进行比较，以确定第二置信度得分；以及

选择所述第一置信度得分和所述第二置信度得分中的一个，以确定所述三维候选或所述二维候选中的哪一个与所述对象相对应。

2.根据权利要求1所述的方法，其中，如果所述三维候选和所述二维候选都不与所述对象相对应，则所述选择包括选择所述第一置信度得分和所述第二置信度得分中的一个。

3.根据权利要求1所述的方法，其中，所述第一置信度得分和所述第二置信度得分中的所选的一个置信度得分至少满足阈值。

4.根据权利要求1所述的方法，其中，所述比较颜色度量包括比较局部颜色关键点。

5.根据权利要求4所述的方法，其中，所述第一置信度得分和所述第二置信度得分基于关键点。

6.根据权利要求1所述的方法，其中，并行地执行所述对象的三维点云的比较和所述对象的二维图像的颜色度量的比较。

7.一种用来存储计算机可执行指令的非暂时性计算机可读介质，所述计算机可执行指令用于控制处理器以：

生成针对表面的白平衡校准；

将要识别的对象的三维点云与三维候选进行比较，所述点云包括根据所述白平衡校准确定的颜色外观；

将所述对象的二维图像的颜色度量与二维候选进行比较；以及

选择所述三维候选和所述二维候选中的一个，以确定所述三维候选或所述二维候选中的哪一个与所述对象相对应。

8.根据权利要求7所述的计算机可读介质，其中，所述表面是平坦的垫子。

9.根据权利要求7所述的计算机可读介质，其中，所述三维候选和所述二维候选中的所选的一个候选基于置信度得分。

10.根据权利要求7所述的计算机可读介质，其中，所述点云包括针对所述表面的分割。

11.根据权利要求7所述的计算机可读介质，其中，根据颜色外观比较来生成候选的子集。

12.根据权利要求11所述的计算机可读介质，其中，按照与所述对象的对应性对所述候选的子集进行排序。

13.一种系统，包括：

存储器，用于存储指令集；以及

处理器，用于执行所述指令集以：

14.根据权利要求13所述的系统，还包括彩色相机和色深相机，其可操作地耦合到所述处理器。

15.根据权利要求14所述的系统，其中，所述彩色相机被配置成生成所述对象的二维图像，并且所述色深相机被配置成生成所述对象的三维点云。