CN112287746A

CN112287746A - 使用对象的几何模板的鲁棒的对象识别

Info

Publication number: CN112287746A
Application number: CN202010717382.5A
Authority: CN
Inventors: C·多莫科什; B·安德烈斯; E·莱文科夫; A·盖革; M·考依波
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2019-07-23
Filing date: 2020-07-23
Publication date: 2021-01-29
Also published as: EP3770811A1

Abstract

提供了一种系统和计算机实施的方法，所述系统和计算机实施的方法用于基于待被识别的对象(210)的几何模板且基于输入数据来执行对象识别，所述输入数据代表输入点(200)且在一些实施方案中通过从传感器数据中提取感兴趣点来获得。因此，所述对象识别在几何域中操作，所述几何域可以代表传感器数据的抽象化，从而可以较少地依赖于特定类型的传感器数据或特定类型的传感器，否则是直接在所述传感器数据上学习的基于机器学习的对象识别的情况。

Description

使用对象的几何模板的鲁棒的对象识别

技术领域

本发明涉及一种用于使用对象的几何模板进行对象识别的系统和计算机实施的方法。本发明还涉及一种计算机可读介质，所述计算机可读介质包括代表指令的数据，所述指令被布置为导致处理器系统执行所述计算机实施的方法。

背景技术

对象识别是多种技术应用领域(诸如，自主驾驶(autonomous driving))中的关键促成因素，在自主驾驶中，对象识别可以被用来在传感器数据中检测和识别对象，所述传感器数据通过集成在车辆内的一个或多个传感器获取。例如，可以在通过摄像机传感器所获取的图像数据中识别其他道路使用者(汽车、行人等)或交通信号。在一些情况下，对象识别的输出可以被用来控制致动器，诸如在车辆的转向和/或制动中所涉及的致动器，以例如自主地避免与其他道路使用者碰撞。

对象识别存在多种其他用途，例如在机器人技术中，对象识别可以启用机器人识别其环境中的对象且相应地动作，但是对象识别还用于启用字符识别、姿态识别、在图像中搜索等。

已知使用机器学习技术进行对象识别。此通常涉及用大组的训练数据来训练可学习模型(例如，神经网络等)，该大组的训练数据将传感器数据类型比作待应用该可学习模型的数据类型。不利地，这些训练数据典型地需要手动注释，这会是耗时且昂贵的。此外，如果传感器数据的特性在部署之后发生变化(例如，由于所使用的摄像机的类型不同)，则可能必须重新训练机器可学习模型。

发明内容

将期望的是，实现解决上面所描述的基于机器学习的方法的一个或多个劣势的对象识别。

下列措施通过基于待被识别的对象的几何模板且基于输入数据在几何域中执行对象识别来解决此一个或多个劣势，所述输入数据代表输入点且在一些实施方案中可以通过从传感器数据中提取感兴趣点来获得。

根据本发明的第一方面，提供了分别如由权利要求1和权利要求12所限定的用于对象识别的计算机实施的方法和系统。根据本发明的另一方面，提供了如由权利要求11所限定的计算机可读介质，所述计算机可读介质包括代表指令的数据，所述指令被布置为导致处理器系统执行所述计算机实施的方法。

上面的措施提供了用于在几何域中进行对象识别的计算机实施的方法和系统。也就是说，可以访问输入数据，所述输入数据包括输入点，所述输入点被限定为坐标系中的坐标(例如，被限定为3D欧几里得空间中的3D或2D坐标)。例如，可以通过处理传感器数据以从传感器数据中提取感兴趣点来获得这样的点。通过将结果比作3D空间中的云，该结果可能在别处被称为“输入点云(input point cloud)”。另外，可以访问模板数据(templatedata)，所述模板数据包括有限数目的模板点(template point)，且所述模板数据可以被限定为相同类型的坐标系中的坐标。这样的模板点可以代表对象的几何模板，因为每一点可以代表该对象的感兴趣的几何点，且这些模板点的相对位置可以指示该对象的总体几何形状。例如，所述模板点可以限定车辆外部的感兴趣点，诸如车辆的拐角。可以对所述模板点进行标注，以区分该对象的相应部分。这种标注可以但不必代表语义标注。在一些实施方案中，所述标注可以是坐标系内的模板点的连续编索引，例如1、2、3、4等。

然后，可以基于以下步骤在几何域中执行对象识别：可以构造一个无向加权图(undirected weighted graph)G＝(V，E)，所述无向加权图具有代表所述输入点的节点(node)V以及位于所述节点之间的边(edge)E。现在可以基于以下系统和方法来检测对象在所述输入数据中的出现(occurrence)或局部出现，所述系统和方法将边标签(edge label)赋予边E来限定所述图中的割边(cut)，以获得分解为代表(局部)对象的一个或多个簇(cluster)。这些边标签可以代表限定一对节点之间的连通(例如，1)或割边(例如，0)的二进制标签，且由此可以将所述图划分成代表节点簇(clusters of nodes)的不相交的子集合。这种类型的节点聚类本身在图论领域中是已知的。另外，可以将节点标签(node label)赋予节点V，以将相应节点标识为代表相应对象的相应部分。因此，对象识别可以通过以下方式来识别所述输入数据中的(局部)对象：通过边割边(edge cut)在所述图中形成节点簇，且根据所有模板点或一部分模板点的标签来对所述簇的节点进行标注。如果所述簇包含所述模板点的所有标签，则可能在所述输入数据中完整地检测到该对象，否则可能局部地检测到该对象。

因此，可以通过边标注和节点标注来执行对象识别，所述边标注和节点标注转而可能涉及以下内容。首先，可以提供成本函数(cost function)，所述成本函数可以表达所述输入点中的给定三角形与所述几何模板中的给定三角形之间的尺度不变相似度(scale-invariant similarity)。换句话说，成本函数可以以尺度不变的方式确定三个输入点和三个模板点这一对之间的相似度。在此，“尺度不变”可以指相似度度量对于相似度转换(诸如，平移、旋转、反射(reflection)和缩放)是不变的。可以以多种方式来限定相似度度量，但是通常可以限定对成本函数的负贡献(negative contribution)，因为最大相似度可能对应于成本函数中的局部最小值。另外，对于一对相应的三角形，仅在对所述节点的标注与对所述模板点的标注匹配且所述节点是同一簇的一部分时，相似度度量才对成本函数有贡献，否则没有贡献(即，提供零贡献)。因此，相似度度量可以代表成本函数的条件分量，且可以对如下的边标注和节点标注(edge and node labelling)进行奖励：通过这种边标注和节点标注创建了一个节点簇，所述节点簇的标签与所述模板点的标签匹配或者至少与所述模板点的子集合的标签匹配。

基于成本函数，可以将第一局部搜索算法应用至可以最大限度地划分的无向加权图的初始型式，因为每一边标签可以定义一个割边，该割边导致所有节点在分立的簇中聚类，且在这些分立的簇中，节点尚未被标注。第一局部搜索算法(可以是所谓的贪婪算法)可以被用来获得初始边标注和节点标注，根据成本函数，所述初始边标注和节点标注可以代表局部最小值，但是所述局部最小值不能保证或者实际上可能不代表全局最小值，但可以将所述局部最小值视为对象识别问题的“初始解”。在确定所述初始边标注和节点标注时，所述第一局部搜索算法可以在迭代过程中通过边标注来连通节点，以形成标签节点以及图中的簇，从而得到所述初始解。

已经获得了所述初始边标注和节点标注之后，可以应用第二局部搜索算法，该第二局部搜索算法可以寻求获得初始局部最小值的改进。与第一局部搜索算法相比，第二局部搜索算法可能能够通过对边进行重新标注(re-labelling)而在簇之间迭代地移动节点(而非仅能够连通节点)，且能够重新标注节点。因此，第二局部搜索算法可以得到最小值，该最小值通常代表相对于初始解的改进，或者如果不能实现改进，则至少得到相同的解。结果可以是经划分且经标注的图。然后，可以将所赋予的边标签和节点标签作为对象识别数据输出，从而可以代表对象识别的结果。如将在别处阐明的，所述对象识别数据之后可以用于多种目的，包括但不限于基于对象识别数据控制一个或多个致动器。

上面的措施使得能够基于待被识别的对象的几何模板且基于输入数据来实现对象识别，所述输入数据代表输入点且在一些实施方案中可以通过从传感器数据中提取感兴趣点来获得。因此，在几何域中操作所述对象识别，所述几何域可以代表传感器数据的抽象化，从而可以较少地依赖于特定类型的传感器数据或特定类型的传感器，否则可能是直接学习传感器数据的基于机器学习的对象识别的情况。特别地，通过使用尺度不变相似度度量，对象识别可能对于的输入数据之间的多种几何变形(包括立体投影(perspectiveprojection))不太敏感。此外，使用基于三角形的相似度度量还允许检测局部对象，因为被局部检测的对象也可能贡献于成本函数的局部最小值。这种局部检测在一个对象经常被另一对象局部遮挡的实际生活应用中非常重要。例如，汽车可能被告示牌局部地遮挡，然而，检测汽车还是很有价值的，因为它可能代表自主驾驶系统的障碍物。

上面的措施还通过顺序应用两种不同的局部搜索算法，进一步专门建立了用于几何域中的对象识别的两步法。此方面基于以下见解：能够在簇之间移动节点从而具有大的探索自由度(degree of exploratory freedom)的局部搜索算法的性能可能很大程度上依赖于初始化，因为差的初始化(例如，完全未被标注以及未连通的图或随机标注的边和节点)通常提供(非常)差的结果。因此，事先将局部搜索算法应用至图，目的是仅提供可接受的初始解。此“第一”局部搜索算法可以迭代地连通节点以及对节点进行标注，从而与第二局部搜索算法相比，“第一”局部搜索算法具有较低的探索自由度，从而即使是完全未被标注以及未连通的图，也可以提供可接受的结果。已经以所述初始边标注和节点标注的形式获得了初始解之后，第二局部搜索算法之后可以通过利用其更大的探索自由度来寻求获得初始局部最小值的改进。因此，两步法可以克服基于图的对象识别的初始化问题。

可选地，所述成本函数

将相应三角形之间的相似度表达为限定所述三角形的角度的函数。已经发现，限定相应三角形的角度非常适合用于尺度不变相似度度量。

可选地，该方法进一步包括：通过将三角形的角度作为3D坐标投影至2D单纯形(simplex)上且通过计算所述三角形在所述2D单纯形上所投影的坐标之间的距离，将所述相似度确定为限定相应的三角形的角度的函数。

假设角度限定了三角形，它们还定义了3D坐标系中的3D坐标(例如，(α，β，γ)代表角度α、β和γ)，则两个三角形之间的相似度可以表达为它们的3D坐标之间的距离。然而，由于3D坐标系中的3D坐标位于所述2D单纯形上且角度总和总是180°，因此可以通过确定2D单纯形上的距离(例如，通过使用马哈拉诺比斯距离(Mahalanobis-distance))来获得相似度度量。

可选地，所述第二局部搜索算法是Kernighan-Lin(KL)算法。已经发现，基于给定的成本函数，KL算法非常适合在图中提供节点标注和边标注，从而在输入数据中识别(局部)对象。然而，已经发现，当KL算法弱初始化时，KL算法表现不佳，从而根据上面的措施，在KL算法之前执行提供初始节点标注和边标注的第一局部搜索算法，这出乎意料地大大改进了总体对象识别。

可选地，第一局部搜索算法是贪婪加性边收缩(Greedy Additive EdgeContraction，GAEC)算法。已经发现，所述GAEC算法能够基于未被标注的图，为KL算法提供可接受的初始化。

可选地，几何模板数据包括模板点，所述模板点代表多个对象的复合几何模板(compound geometric template)，其中模板点被标注，以区分所述多个对象中的相应对象的相应部分。

可选地，该方法还包括访问由传感器所获取的传感器数据，以及通过从所述传感器数据中提取感兴趣点来生成输入点。可以经由来自任何类型的传感器的传感器数据接口来访问这种传感器数据，所述任何类型的传感器提供可以从中提取几何限定的感兴趣点的传感器数据。此不仅可以包括捕获图像数据的传感器，诸如摄像机传感器，而且可以包括深度传感器(飞行时间、范围)、激光雷达传感器、雷达传感器等。

可选地，所述传感器数据是由摄像机所获取的图像数据，且该方法包括通过从所述图像数据中提取感兴趣点作为关键点来生成所述输入点。这样的关键点可以例如代表拐角。

可选地，所述图像数据是2D图像数据，且该方法包括通过从所述2D图像数据中提取所述关键点且基于所述2D图像数据的深度信息将所述所提取的关键点反投影至3D坐标系中来生成所述输入点。实际上，通过将所述2D图像数据与深度信息(所述深度信息例如如从立体摄像机系统或附加深度传感器获得)进行组合，可以重建3D关键点且将所述3D关键点用作所述对象识别的输入。

可选地，通过为所述坐标系内的所述模板点连续编索引来对所述模板点进行标注。对于所述成本函数，可能不需要具有语义标注，但是简单的连续编索引可能足以确定对所述节点的标注是否与对所述模板点的标注匹配。

可选地，该系统还包括用于访问由传感器所获取的传感器数据的传感器接口，其中处理器子系统被配置为通过从所述传感器数据中提取感兴趣点来生成所述输入点。

可选地，该系统进一步包括用于将控制数据提供至致动器的致动器接口，其中所述处理器子系统被配置为基于所述对象识别数据来生成所述控制数据以控制所述致动器。

可选地，提供了一种包括该系统的车辆或机器人。例如，所述车辆或机器人可以使用所述对象识别来识别其环境中的对象。

本领域技术人员将理解，可以以认为有用的任何方式来组合本发明的上述实施方案、实施方式和/或可选方面中的两个或更多个。

本领域技术人员可以基于本说明书来执行任何系统、任何计算机实施的方法或任何计算机可读介质的改型和变体(对应于上述实体中的另一实体所描述的改型和变体)。

附图说明

通过参考以下描述中以实施例的方式所描述的实施方案以及参考附图，本发明的这些和其他方面将变得明显且被进一步阐明，在附图中：

图1示出了用于对象识别的系统，该系统包括用于从环境中的传感器接收传感器数据的传感器接口以及用于控制致动器在所述环境中动作的致动器接口；

图2示出了被集成于自主驾驶车辆中的系统；

图3A示出了代表恒星(star)的输入点云；

图3B例示了施加至输入点以基于限定星群(constellations)的几何模板来识别恒星的星群的对象识别；

图4示出了用于对象识别的计算机实施的方法；以及

图5示出了包括数据的计算机可读介质。

应注意，这些图仅是示意性的，且未按比例绘制。在附图中，与已经描述的元件相对应的元件可以具有相同的附图标记。

参考数字列表

以下参考数字列表被提供以便于解释附图，且不应当被理解为限制权利要求。

20 传感器

22 摄像机

40 致动器

42 电动马达

60 环境

80 自主驾驶车辆

100 系统

120 传感器接口

122 传感器数据

140 致动器接口

142 控制数据

160 处理器子系统

180 数据存储接口

190 数据存储

192 模板数据

194 输入数据

196 对象识别数据

200 代表恒星的输入点云

210 代表恒星星群(北斗七星)的对象

400 用于对象识别的方法

410 访问模板数据

420 访问输入数据

430 成本函数计算

440 贪婪加性边收缩(Greedy Additive Edge Contraction，GAEC)

450 Kernighan-Lin(KL)算法

460 输出聚类和节点标签

500 计算机可读介质

510 非暂时性数据

具体实施方式

图1示出了用于对象识别的系统100。系统100可以包括输入接口，该输入接口用于访问如在别处所描述的模板数据且用于访问输入数据以进行对象识别。例如，还如图1中所例示的，输入接口可以包括数据存储接口180，该数据存储接口180可以访问来自数据存储190的模板数据192和输入数据194。例如，数据存储接口180不仅可以是存储器接口或永久性存储接口(persistent storage interface)(例如，硬盘接口或SSD接口)，而且可以是个人网络接口、局域网接口或广域网接口(诸如，蓝牙接口、Zigbee接口或Wi-Fi接口或以太网接口或光纤接口)。数据存储190不仅可以是系统100的内部数据存储，诸如硬盘驱动器或SSD，而且可以是外部数据存储，例如，网络可访问的数据存储。在一些实施方案中，模板数据192和输入数据194各自可以例如经由数据存储接口180的不同的子系统从不同的数据存储访问。每一子系统可以是如上面所描述的数据存储接口180的类型。

模板数据192可以包括模板点，所述模板点被限定为坐标系中的坐标且代表对象的几何模板。可以在模板数据中标注模板点，以区分对象的相应部分。输入数据194可以包括输入点，所述输入点被限定为坐标系中的坐标。

系统100可以进一步包括处理器子系统160，该处理器子系统160可以被配置为在系统100的操作期间构造无向加权图(该无向加权图具有代表输入点的节点和位于节点之间的边)，且通过基于以下步骤寻找对象在输入数据中的一次或多次出现或局部出现来执行对象识别：i)将边标签赋予边，以限定图中的割边，从而获得分解为代表对象的一个或多个簇，以及ii)将来自一组标签的节点标签赋予节点，以将相应的节点标识为代表相应对象的相应部分。更具体地，边标注和节点标注(所述边标注和所述节点标注可以由处理器子系统160执行)可以包括：j)提供成本函数，该成本函数表达节点中的相应三角形与模板点中的相应三角形之间的尺度不变相似度，其中仅在对节点的标注与对模板点的标注匹配且节点是同一簇的一部分时，尺度不变相似度对成本函数有贡献；jj)将第一局部搜索算法应用至初始图，该初始图具有未被标注的每一节点以及已标注的每一边以限定一个割边，其中第一局部搜索算法被配置为通过边标注迭代地连通节点以在图中形成簇且通过迭代地标注节点，搜索成本函数中的初始局部最小值，从而获得初始边标注和节点标注；以及jjj)将第二局部搜索算法应用至所述初始边标注和节点标注，其中第二局部搜索算法被配置为通过对边进行重新标注以及对节点进行重新标注以在簇之间迭代地移动节点，寻找成本函数的初始局部最小值的改进。结果，处理器子系统160可以获得具有赋予节点和边的标签的图。

系统100还可以包括输出接口，该输出接口用于输出代表所赋予的边标签和所赋予的节点标签的对象识别数据。例如，还如图1中所例示的，输出接口可以包括数据存储接口180，其中所述接口在这些实施方案中是输入/输出(“IO”)接口，对象识别数据196可以经由所述接口存储在数据存储190中。替代地，输出接口可以与数据存储接口180分开，但是通常可以具有如上面所描述的数据存储接口180的类型。

图1还示出了系统100的多个可选部件。例如，在一些实施方案中，系统100可以包括传感器接口120，用于访问由环境60中的传感器20所获取的传感器数据122。在这样的实施方案中，处理器子系统160可以被配置为通过从传感器数据中提取感兴趣点来生成输入点。因此，在这些实施方案中，传感器接口120可以代表如上面所描述的输入接口。然而，在一些实施方案中，系统100还可以具有数据存储接口180，以存储所获取的传感器数据122和/或由处理器子系统160从数据存储190中的传感器数据所导出的输入数据194。通常，传感器数据接口120可以具有任何合适的形式，包括但不限于例如基于I2C或SPI数据通信的低级通信接口，或者如上面针对数据存储接口180所描述的类型的数据存储接口。

在一些实施方案中，系统100可以包括用于向环境60中的致动器40提供控制数据142的致动器接口140。这些控制数据142可以由处理器子系统160生成，以基于对象识别数据来控制致动器40。例如，致动器可以是电动致动器、液压致动器、气动致动器、热致动器、磁致动器和/或机械致动器。具体但非限制性的实施例包括电动马达、电活性聚合物、液压缸、压电致动器、气动致动器、伺服机构、螺线管、步进马达等。参考图2针对自主驾驶车辆描述了这种类型的控制。

在其他实施方案中(图1中未示出)，系统100可以包括至渲染设备的输出接口，所述渲染设备诸如为显示器、光源、扬声器、振动马达等，该渲染设备可以被用来生成可以基于对象识别数据所生成的感观可感知输出信号，例如以向用户标识所识别出的对象，或者通常提供所导出的任何其他类型的感观可感知输出信号，例如用于在制导、导航或其他类型的控制中使用。

通常，系统100可以具体化为单个设备或装置(诸如，工作站或服务器)或具体化在单个设备或装置中。服务器可以是嵌入式服务器。设备或装置可以包括一个或多个执行适当的软件的微处理器。例如，处理器子系统不仅可以由单个中央处理单元(CPU)具体化，而且可以由这种CPU和/或其他类型的处理单元的组合或系统具体化。软件可能已经被下载和/或存储在对应的存储器中，例如，易失性存储器(诸如，RAM)或非易失性存储器(诸如，Flash)。替代地，系统的处理器子系统可以被实施在可编程逻辑的形式的设备或装置(例如，作为现场可编程门阵列(FPGA))中。通常，系统100的每一功能单元可以以电路的形式实施。系统100还可以以分布式方式来实施，例如，涉及不同的设备或装置(诸如，分布式本地服务器或基于云的服务器)。在一些实施方案中，系统100可以是车辆、机器人或类似的物理实体的一部分，和/或可以代表被配置为控制物理实体的控制系统。

图2示出了上面的一个实施例，在该实施例中，系统100被示出为在环境60中操作的自主驾驶车辆80的控制系统。自主驾驶车辆80可以纳入系统100，以基于从集成于车辆80内的视频摄像机22所获得的传感器数据来控制自主驾驶车辆的转向和制动。例如，在预期自主驾驶车辆80与障碍物碰撞的情况下，系统100可以控制电动马达42执行(再生)制动。通过从传感器数据中提取关键点且对所提取的关键点应用对象识别(例如，以如在本说明书中的其他位置所描述的方式)，可以由系统100在传感器数据中识别出障碍物。

以下实施例更详细地描述了几何对象检测。然而，可以以多种其他方式(例如，基于类比(analogous)数学概念)来执行几何对象检测的实际实施方式。

通常，使用输入点的基于图的表示的对象检测可以被认为是关于图的加权相关性聚类问题，这本身在计算机科学中是已知的。在考虑解决该问题的措施之前，下面首先考虑此问题的形成。

具有节点标签的高阶加权相关性聚类问题可以以二进制多线性程序的形式严格表述。此问题的可行解可以限定给定图的聚类和节点标注这二者。可以根据以下数据限定多线性问题的一个实例：

·图G＝(V，E)，该图的内部聚类是相关的。

·有限非空集合L，称为节点标签集合。

·连通的节点子集合的族V∈2^V。

·对于此族中的任何集合U∈V以及此集合的任何标注λ^U：U→L，

被称为当且仅当U中的所有节点根据λ^U被标注且被赋予同一簇时，应支付的成本。

可以在图中用跨越不同簇的那些边的集合来标识聚类。这些边的集合通常被称为图的“多割边(multicut)”，且具有以下特性：在图中，没有循环与多割边在恰好一个边上相交。具体地，可以考虑具有标注为“0”的边的集合x^-1(0)的边的二进制标注x：E→{0，1}的集合X来限定一个多割边，从而限定图的聚类。对于任何边{v，w}∈E，x_vw＝0则可以指示事件节点(incident node)v和w在不同的簇中，或者x_vw＝1可以指示v和w在同一簇中。形式上：

可以进一步考虑函数y：V×L→{0，1}，对于任何节点v∈V和任何标签l∈L，该函数通过y_vl＝1指示节点v被赋予了标签l，或者通过y_vl＝0指示节点v没有被赋予标签l。为了确保为每一节点被精确地赋予一个标签，这些函数可以被约束至集合：

具有关于G、L、V和c的节点标签的高阶加权相关性聚类问题的实例可以被限定为二进制多线性程序：

注意，如果集合U中的所有节点都被赋予至同一簇，则第一乘积将采用值“1”，否则将采用值“0”。还应注意，如果根据λ^U标注集合U中的节点，则第二乘积将采用值“1”，否则将采用值“0”。因此，当且仅当集合U中的节点根据λ^U被标注且被赋予至同一簇时，才可以支付成本

可以使用局部搜索算法来获得等式(3)的可行解。特别地，可以使用贪婪加性边收缩算法和Kernighan-Lin算法的组合，该组合按照如下方式被归纳为高阶成本函数和标签。

解决的问题是对象识别的问题。作为输入，获得几何模板，该几何模板可以由

代表，其中L＝{1，...，l}是有限索引集合。通过模板点的连续编索引，可以很容易地限定标签集合

目的是寻找模板在输入点集合中的所有出现以及这些点的标注。假设模板可以进行相似度转换，例如平移、旋转、反射和缩放。

下面限定了一个对相似度转换具有鲁棒性的模型。出于此目的，在三个点(对应于三角形)上限定三元成本(ternary cost)，使得相似的三角形将被赋予相同的成本，即，该成本是尺度不变的。成本还取决于标签，所述标签从模板中标识出对应的三角形。

令

为将三角形的坐标投影至2D单纯形

的函数：

马哈拉诺比斯距离

可用在单纯形

上，其中

和

分别是均值向量和协方差矩阵。对于所有

可以限定

其中

和

是来自模板的对应三角形的协方差矩阵。然后，可以将三元成本限定为：

注意，通过将所有模板间成本设置为∞，以使得不同的标签被赋予至不同组中的点，模型可以处理多个模板。

下面首先分别介绍1)Kernighan-Lin算法、2)Kernighan-Lin算法中所使用的update(更新)函数、3)贪婪加性边收缩(GAEC)算法的伪代码，然后对伪代码进行注释。

Kernighan-Lin算法最初是针对集合划分问题提出的，之后被适配用于具有节点标签的多割边问题和高阶成本函数。本说明书中所描述的Kernighan-Lin算法的变体专门适配于高阶节点标注多割边问题。

KL算法接收无向图G(V，E)、标签集合L、连通的节点子集合的族V、成本c和初始(可行)解(x⁰，y⁰)，且在关于当前聚类x^t-1的相邻(连通的)分量的所有可能对(A，B)(即，存在e＝{v，w}∈E使得v∈A和w∈B)上迭代(第3行)。该算法解决了分量对之间的一系列2割边(2-cut)问题(第4行)。针对关于当前聚类x^t的每一分量(第5行)，可以通过针对空集合求解2割边问题来将新的分量引入到分解中(第6行)。该过程可以继续进行，最高至最大迭代次数，或者直至后续解中不再有差异为止(第2行)。第4行和第6行都依赖于仅在一对分量上操作的函数update，在下面描述了该函数update。

上面的函数通过仅对两个分量

(B可以是空集合)更新双向聚类来寻求较低的目标值。该算法计算所有步骤1≤i≤|A∪B|的累积总增益S_i。它还维持移动队列M，以保持更新步骤。在每次迭代中(第6行-第23行)，它挑选一个顶点，该顶点移动(可能地，重新标注)至另一集合将导致目标值的最大减小(第7行)。出于效率的目的，可以根据Kernighan-Lin算法关于当前解(x，y)预先计算这些值(第3行-第5行)。对于任何集合U∈V和任何标注λ^U，注释

可以关于当前(可行)解(x，y)限定成本，其中节点的标签u∈U被固定为l，即，

其中[·]是艾弗森括号(Iverson-bracket)，换言之：

任何

任何节点v∈V和标签l∈L的成本之和可以限定为

其中

对于所有v∈A∪B和l∈L，预先计算出的值可以被计算为：

在主循环(第6行-第23行)中，算法挑选一个顶点v*进行潜在地移动且选择它的新(可能地，相同的)标签(第7行)，计算实际累积增益(第8行)且记录此移动(第9行)，然后更新与v*共享成本的所有其他顶点的D_vl的预先计算值(第10行-第23行)。通过第12行-第23行捕获了不同的情况；在不失一般性的前提下，假设v*从A移动至B。注意，在每次迭代中仅考虑移动单个节点。注意，可以允许这种方式的次优(即，非递减)个体移动，以希望留下局部最小值且之后获得更好的局部最小值。我们搜索产生最大累积增益的步骤i*(第24行)。特殊操作计算在保持它们的节点标签y不变的情况下，将两个分量A和B联结的目标的减少(第25行)，如下：

Δ_join＝T_A+T_B-T_A∪B， (6)

其中，对于任何

这是重要的，因为个体局部移动不会导致将A和B联结，即使这是有益的。选择优化操作(第26行)：将两个分量A和B联结(第27行-第28行)，或者保持一些移动最高至i*(第30行-第36行)。然后，更新聚类(第32行-第33行)和标注(第34行-第36行)。

GAEC算法以将所有顶点v∈V初始分解为个体分量开始(第1行)。初始地，所有节点都未被标注(第2行)。该算法贪婪地收缩一对顶点或三个顶点，同时固定它们的节点标签。将剩余的成本(经收缩的顶点是剩余的成本的一部分)相加。最小优先级队列Q被用来保持跟踪最可能收缩的顶点子集合。我们通过为每对顶点和每三个顶点寻找最佳成本(包括节点标签)来初始化Q(第3行-第5行)。主循环一直进行，直至队列为空或队列不包含任何负成本元素为止(第6行)。在每次迭代中，可以挑选最佳子集合U及其标注λ^U(第7行)。在不失一般性的前提下，我们假设U的节点u保留在图中(第8行-第10行)，而U\{u}中的其他顶点也随着它收缩(第11行-第24行)。第15行-第23行更新所有成本，而第16行处理成本崩溃(collapse of cost)。目标值的新的预期改进将被推送到队列Q中。最后，基于一元成本，尚未被赋予节点标签的顶点采用最便宜的顶点(第25行-第28行)，且保留在个体簇中，一元成本可以被定义为

其中u表示单个节点。

图3A示出了代表恒星的输入点云200。特别地，输入点200代表四个“北斗七星”和四个仙后座恒星星群和52个离群值。通常，这样的输入点200可以被限定为欧几里得坐标系中的2D坐标，且可以通过该系统和方法直接作为2D坐标或通过检测夜空图像中的恒星来获得。

图3B例示了被应用至输入点200以基于限定星群的几何模板来识别恒星的星群的对象识别。在图3B的实施例中，多个恒星星群210被识别为点簇，其中每一簇的点通过对应图中的边相互连通。在图3B中，通过细线示出了这种边连通，而根据所获得的标注的星群的轮廓被示出为粗线。

在另一实施方案中，可以通过一个或多个关键点检测器在由车辆的车载摄像机所获取的图像数据中检测关键点。例如，拐角或类似拐角的点可以被检测为关键点。通过基于图像数据的深度信息而将所提取的关键点反投影至3D坐标系中，可以将这些关键点转换为输入数据，以用于几何对象识别，可以从例如立体摄像机系统或附加的深度传感器获得所述深度信息或者可以估计所述深度信息。然后，可以基于汽车的几何模板将几何对象检测应用至这些点，从而得出推断的关键点。这种汽车识别可能涉及获得多个汽车类型的CAD模型。可以通过利用摄像机矩阵以及所估计的或所测量的深度信息而将从2D数字图像中所提取的关键点反投影至3D坐标系中，获得3D欧几里得空间中的输入点。然后，对象识别可以在假设已经发生了相似度变换的情况下使用尺度不变相似度度量时，在输入点云中有效地搜索CAD模型。一个可能的应用领域是驾驶员辅助系统，所述驾驶员辅助系统在车辆于高速公路上行驶时操作。在此，汽车的方向具有相对低的变化，但是汽车的缩放比例由于汽车至摄像机的不同距离在操作期间显著变化。

上面所描述的几何域中的对象识别还可以被应用至多个其他应用领域，例如，应用至铰接对象检测(articulated object detection)。在此，可以使用具有任意结构E的图G＝(V，E)来对由可以围绕接合点移动的刚性部分组成的复合对象建模。此移动可以被建模为分段刚性变换。铰接对象的一个实施例是移动的机械臂。机械臂的几何形状是已知的，因此几何模板是容易获得的。通过在接合点上使用标记，可以以标记的位置的形式获得输入点。即使对于局部被遮盖的零件，也可以通过几何对象识别来确定机械臂的确切姿态。此应用可以被纳入需要识别危险情况的安全系统中。对于标记提取，可以根据给定条件使用IR摄像机或UV摄像机，以增大系统的鲁棒性。类似的应用领域是可以使用几何对象识别检查零件(例如，活塞、阀门)。

应用领域的另一实施例是交通标志识别。在此，可以获得限定多个交通标志的平面几何数据或图像数据。为了由这种类型的数据对交通标志建模，可以从数据中提取一种或几种类型的感兴趣点，诸如拐角。通过从传感器数据中提取相同类型的感兴趣点，可以从传感器数据(诸如，由车辆的车载摄像机所获取的图像数据)中获得输入点云。

应用领域的又一实施例是字符识别。在此，可以获得平面几何数据或图像数据，所述平面几何数据或图像数据限定了有限的字符集合，从而限定了一组2D对象。为了由这种类型的数据对字符建模，可以从数据中提取一种或几种类型的感兴趣点，诸如拐角。通过从传感器数据中提取相同类型的感兴趣点，可以从传感器数据(诸如，由扫描仪或数字摄像机所获取的文档页面的图像数据)中获得输入点云。在数码摄像机的情况下，如果摄像机的方向不垂直于文档页面的平面，则该转换是立体投影，该立体投影可以由尺度不变相似度度量来解释。

应用领域的又一实施例是检测和标识具有已知几何形状的小对象。例如，此可能与可以被配置为寻找且抓取对象的机器人有关。这种机器人还可以被配置为对对象计数。通过能够识别对象，对对象的计数变得无关紧要。

图4示出了用于对象识别的计算机实施的方法400，所述计算机实施的方法400是本说明书中所描述的一些实施方案的高级表现形式。方法400可以包括在题为“访问模板数据”的步骤中访问410代表几何模板的模板数据，在题为“访问输入数据”的步骤中访问420用于对象识别的输入数据，在题为“提供成本函数”的步骤中提供430成本函数，在题为“贪婪加性边收缩(GAEC)”的步骤中执行440贪婪加性边收缩(GAEC)，在题为“KERNIGHAN-LIN(KL)算法”的步骤中执行450使用Kernighan-Lin(KL)算法，且在题为“输出聚类和节点标签”的步骤中输出460代表节点的聚类和标注的对象识别数据。

本说明书中所描述的此方法400和任何其他方法、算法或伪代码可以在计算机上作为计算机实施的方法、作为专用硬件或作为这二者的组合来实施。还如图5中所例示的，用于计算机的指令(例如，可执行代码)可以例如以一连串的机器可读物理标记510的形式和/或作为一连串具有不同电(例如，磁或光学)特性或值的元件存储在计算机可读介质500上。可执行代码可以以暂时性或非暂时性的方式存储。计算机可读介质的实施例包括存储器设备、光学存储设备、集成电路、服务器、在线软件等。图5示出了光盘500。

实施例、实施方案或可选特征，无论是否指示为非限制性的，均不应理解为限制要求保护的本发明。

应注意，上述实施方案例示而非限制本发明，且在不背离所附权利要求的范围的情况下，本领域技术人员将能够设计许多替代实施方案。在权利要求中，置于括号之间的任何附图标记不应被解释为对权利要求的限制。动词“包括”及其词形变化的使用不排除除了权利要求中所述的元件或阶段之外的元件或阶段的存在。元件之前的冠词“一(a)”或“一个(an)”不排除存在多个这种元件。诸如在元件的列表或组之前的“至少一个”的措辞代表从列表或组中选择元件的全部或任何子集合。例如，措辞“A、B和C中的至少一个”应理解为包括：仅A；仅B；仅C；A和B这二者；A和C这二者；B和C这二者；或，全部A、B和C。本发明可以通过包括几个不同元件的硬件以及通过适当编程的计算机来实施。在列举几个装置的设备权利要求中，这些装置中的几个装置可以由同一硬件项来体现。某些措施被记载在互不相同的从属权利要求中的这一纯粹事实并不指示这些措施的组合不能被用于获得优势。

Claims

1.一种用于对象识别的计算机实施的方法(400)，包括：

-访问(410)包括模板点的模板数据，所述模板点被限定为坐标系中的坐标，其中所述模板点代表对象的几何模板，其中所述模板点被标注，以区分所述对象的相应部分；

-访问(420)用于所述对象识别的输入数据，所述输入数据包括输入点(200)，所述输入点(200)被限定为所述坐标系中的坐标；

-构造一个无向加权图(G＝(V，E))，所述无向加权图具有代表所述输入点的节点(V)和位于所述节点之间的边(E)；

-通过基于以下步骤寻找所述对象(210)在所述输入数据中的一次或多次出现或局部出现来执行对象识别：

-将边标签(x：E→{0,1})赋予所述边来限定所述图中的割边，以获得分解成代表对象的一个或多个簇，以及

-将来自一个标签集合(L)的节点标签(y：V×L→{0,1})赋予所述节点，以将相应节点标识为代表相应对象的相应部分，

其中边标注和节点标注包括：

-提供(430)成本函数

所述成本函数表达所述节点中的相应三角形与所述模板点中的相应三角形之间的尺度不变相似度，其中如果对所述节点的标注与对所述模板点的标注匹配且所述节点是同一簇的一部分，则所述尺度不变相似度对所述成本函数有贡献；

-将第一局部搜索算法(GAEC)应用(440)至初始图，所述初始图具有未被标注的每一节点和已标注的每一边以限定一个割边，其中所述第一局部搜索算法被配置为通过边标注以在所述图中形成簇来迭代地连通节点且通过迭代地标注节点，搜索所述成本函数中的初始局部最小值，从而获得初始边标注和初始节点标注；

-将第二局部搜索算法(KL)应用(450)至所述初始边标注和初始节点标注，其中所述第二局部搜索算法被配置为通过边重新标注以及节点重新标注以在簇之间迭代地移动节点，寻找所述成本函数的初始局部最小值的改进；

-生成(460)对象识别数据作为输出，所述对象识别数据代表所赋予的边标签和所赋予的节点标签。

2.根据权利要求1所述的计算机实施的方法(400)，其中所述成本函数

将相应三角形之间的相似度表达为限定所述三角形的角度的函数。

3.根据权利要求2所述的计算机实施的方法(400)，进一步包括通过将三角形的角度作为3D坐标投影至2D单纯形上且通过计算所述三角形在所述2D单纯形上所投影的坐标之间的距离，将所述相似度确定为限定相应三角形的角度的函数。

4.根据权利要求1至3中的任一项所述的计算机实施的方法(400)，其中所述第一局部搜索算法是贪婪加性边收缩(GAEC)算法。

5.根据权利要求1至3中的任一项所述的计算机实施的方法(400)，其中所述第二局部搜索算法是Kernighan-Lin(KL)算法。

6.根据权利要求1至3中的任一项所述的计算机实施的方法(400)，其中几何模板数据包括代表多个对象的复合几何模板的模板点，其中所述模板点被标注，以区分多个对象中的相应对象的相应部分。

7.根据权利要求1至3中的任一项所述的计算机实施的方法(400)，还包括访问由传感器所获取的传感器数据，以及通过从所述传感器数据中提取感兴趣点来生成所述输入点。

8.根据权利要求7所述的计算机实施的方法(400)，其中所述传感器数据是由摄像机所获取的图像数据，且所述方法包括通过从所述图像数据中提取所述感兴趣点作为关键点来生成所述输入点。

9.根据权利要求8所述的计算机实施的方法(400)，其中所述图像数据是2D图像数据，且所述方法包括通过从所述2D图像数据中提取所述关键点且基于所述2D图像数据的深度信息将所提取的关键点反投影至3D坐标系中来生成所述输入点。

10.根据权利要求1至3中的任一项所述的计算机实施的方法(400)，其中通过为所述坐标系内的所述模板点连续编索引来标注所述模板点。

11.一种计算机可读介质(500)，包括代表指令的暂时性或非暂时性数据(510)，所述指令被布置为导致处理器系统执行根据权利要求1至10中的任一项所述的计算机实施的方法。

12.一种用于对象识别的系统(100)，包括：

-一个输入接口(180)，被配置用于：

访问模板数据(192)，所述模板数据包括模板点，所述模板点被限定为坐标系中的坐标，其中所述模板点代表对象的几何模板，其中所述模板点被标注，以区分所述对象的相应部分；

访问用于所述对象识别的输入数据(194)，所述输入数据包括输入点，所述输入点被限定为所述坐标系中的坐标；

-处理器子系统(160)，被配置用于：

构造一个无向加权图(G＝(V，E))，所述无向加权图具有代表所述输入点的节点(V)以及位于所述节点之间的边(E)；

通过基于以下步骤寻找所述对象在所述输入数据中的一次或多次出现或局部出现来执行对象识别：

-将边标签(x：E→{0,1})赋予所述边，以限定所述图中的割边，从而获得分解为代表对象的一个或多个簇，以及

-将来自一个标签集合(L)的节点标签(y：V×L→{0,1})赋予所述节点，以将相应的节点标识为代表相应对象的相应部分，

其中边标注和节点标注包括：

-提供成本函数

所述成本函数表达所述节点中的相应三角形与所述模板点中的相应三角形之间的尺度不变相似度，其中如果对所述节点的标注与对所述模板点的标注匹配且所述节点是同一簇的一部分时，则所述尺度不变相似度对所述成本函数有贡献；

-将第一局部搜索算法(GAEC)应用至初始图，所述初始图具有未被标注的每一节点以及已标注的每一边以定义一个割边，其中所述第一局部搜索算法被配置为通过边标注以在所述图中形成簇来迭代地连通节点且通过迭代地标注节点，搜索所述成本函数中的初始局部最小值，从而获得初始边标注和初始节点标注；

-将第二局部搜索算法(KL)应用至所述初始边标注和初始节点标注，其中所述第二局部搜索算法被配置为通过边重新标注以及节点重新标注以在簇之间迭代地移动节点，寻找所述成本函数的初始局部最小值的改进；

-用于输出对象识别数据(196)的输出接口(180)，所述对象识别数据代表所赋予的边标签和所赋予的节点标签。

13.根据权利要求12所述的系统(100)，还包括用于访问由传感器(20)所获取的传感器数据(122)的传感器接口(120)，其中所述处理器子系统(160)被配置为通过从所述传感器数据中提取感兴趣点来生成所述输入点。

14.根据权利要求12或13所述的系统(100)，还包括用于将控制数据(142)提供至致动器(40)的致动器接口(140)，其中所述处理器子系统(160)被配置为基于所述对象识别数据来生成所述控制数据以控制所述致动器。

15.一种车辆(80)或机器人，包括根据权利要求12至13中任一项所述的系统(100)。