CN111149108A

CN111149108A - 识别对象实例和/或对象的定向的方法

Info

Publication number: CN111149108A
Application number: CN201880060873.8A
Authority: CN
Inventors: S.伊利克; S.扎哈洛夫
Original assignee: Siemens AG
Current assignee: Siemens AG
Priority date: 2017-09-22
Filing date: 2018-08-15
Publication date: 2020-05-12
Also published as: US20200211220A1; EP3685303A1; WO2019057402A1; DE102017216821A1

Abstract

本发明涉及一种借助人工神经网络(CNN)在有干扰的环境(14)中识别已定位的对象(10)的对象实例的方法，具有步骤：为了获得包含图像数据(x)、对象身份(c)和定向(q)的多个样本(s)，记录至少一个对象(10)的多个图像(x)；由样本生成训练集合(S_train)和模板集合(S_db)；借助训练集合(S_train)和损失函数(L)，对人工神经网络(CNN)进行训练；通过借助人工神经网络分析模板集合(S_db)来确定对象实例和/或对象(10)的定向。根据本发明，提出了进行训练使用的损失函数具有动态余量。

Description

识别对象实例和/或对象的定向的方法

技术领域

本发明涉及一种在有干扰的环境中识别对象实例并且确定已经定位的对象的定向的方法。

背景技术

对象实例识别和3D定向估计是计算机视觉(Computer Vision)领域众所周知的问题。在机器人技术和增强现实(Augmented Reality)中存在大量应用。

当前的方法经常在干扰数据和掩蔽(Verdeckung)方面存在问题。此外，当前的方法对背景和照明变化很敏感。最常用的定向估计器对于每个对象使用单个分类器，使得复杂度随着对象的数量线性增加。然而，出于工业目的，期望与大量不同的对象一起工作的可伸缩的方法。可以在3D对象识别领域中找到对象实例识别中的最新的进展，其中，目的是从大型数据库中提取相似的对象。

尤其是参考以下文件：

[1]P.Wohlhart和V.Lepetit,“Learning Descriptors for Object Recognitionand 3D Pose Estimation,”presented at the Proceedings of the IEEE Conferenceon Computer Vision and Pattern Recognition,2015,pp.3109-3118.

[2]A.Singh,J.Sha,K.S.Narayan,T.Achim和P.Abbeel,“BigBIRD:A large-scale3D database of object instances,”in 2014IEEE International Conference onRobotics and Automation(ICRA),2014,pp.509-516.

[3]Z.Wu等人的,“3D ShapeNets:A Deep Representation for VolumetricShapes,”presented at the Proceedings of the IEEE Conference on ComputerVision and Pattern Recognition,2015,pp.1912-1920.

[4]D.Maturana和S.Scherer,“VoxNet:A 3D Convolutional Neural Networkfor real-time object recognition,”in 2015IEEE/RSJ International Conference onIntelligent Robots and Systems(IROS),2015,pp.922-928.

[5]H.Su,S.Maji,E.Kalogerakis和E.Learned-Miller,“Multi-ViewConvolutional Neural Networks for 3D Shape Recognition,”presented at theProceedings of the IEEE International Conference on Computer Vision,2015,pp.945-953.

[6]R.Pless和R.Souvenir,“A Survey of Manifold Learning for Images,”IPSJ Trans.Comput.Vis.Appl.,vol.1,pp.83-94,2009.

[7]R.Hadsell,S.Chopra和Y.LeCun,“Dimensionality Reduction by Learningan Invariant Mapping,”in 2006IEEE Computer Society Conference on ComputerVision and Pattern Recognition(CVPR'06),2006,vol.2,pp.1735-1742.

[8]J.Masci,M.M.Bronstein,A.M.Bronstein和J.Schmidhuber,“MultimodalSimilarity-Preserving Hashing,”IEEE Trans.Pattern Anal.Mach.Intell.,vol.36,no.4,pp.824-830,Apr.2014.

[9]E.Hoffer和N.Ailon,“Deep Metric Learning Using Triplet Network,”inSimilarity-Based Pattern Recognition,2015,pp.84-92.

[10]H.Guo,J.Wang,Y.Gao,J.Li和H.Lu,“Multi-View 3D Object RetrievalWith Deep Embedding Network,”IEEE Trans.Image Process.,vol.25,no.12,pp.5526-5537,Dec.2016.

[11]Stefan Hinterstoisser,Cedric Cagniart,Slobodan Ilic,Peter Sturm,Nassir Navab,Pascal Fua和Vincent Lepetit.Gradient response maps for real-timedetection of textureless objects.IEEE Transactions on Pattern Analysis andMachine Intelligence,34(5),2012.

[12]Ken Perlin.Noise hardware.Real-Time Shading SIGGRAPH CourseNotes,2001.

[13]Hao Su,Charles R Qi,Yangyan Li和Leonidas J Guibas.Render for cnn:Viewpoint estimation in images using cnns trained with rendered 3d modelviews.In Proceedings of the IEEE International Conference on Computer Vision,2015.

可免费使用的3D模型的数量的快速增长，催生了使得能够在大型3D对象数据库中进行搜索的方法。这些方法称为3D检索方法(英语：“3D retrieval methods”或者“3Dcontent retrieval methods(3D内容检索方法)”)，因为这些方法的目的是，搜索与3D查询对象相似的对象。

这里提出的方法与3D检索方法紧密相关，并且可以视为是3D检索方法的代表。然而，在已知方法中，查询是从真实场景的情境中取出的，因此没有干扰数据和掩蔽。附加地，通常不需要确定对象的定向、姿势或者姿态，而这对于进一步的应用(例如机器人技术中的抓握)是重要的。最后，已知的3D检索标准的目的在于，仅确定对象类别，而不确定对象的实例(Instanz)，由此应用局限于用于进行对象实例识别的数据组。

由于这里提出的方法遵循“流形学习(manifold learning)”的不同的方法，因此同样将同时考虑该领域的大多数与此相关的工作。3D检索方法主要分为两类：基于模型和基于视图。基于模型的方法直接借助3D模型来工作，并且尝试通过不同类型的特征来表示这些3D模型。

反之，基于视图的方法利用对象的2D视图来工作。因此，这些方法不明确地需要3D对象模型，这使得这种类型看起来适合实际应用。此外，基于视图的方法得益于2D图像的使用，这使得能够使用图像处理领域中的数十种有效方法。

过去，有大量的文献致力于适合用于该任务的特征的设计。最近，这些方法借助深度神经网络(英语：deep neural networks)、通常借助卷积神经网络CNN(英语：convolutional neural networks,CNN)来学习特征。其原因是，与手动进行相比，通过借助CNN进行特定于任务的监视而学习的特征，显示出更好的性能。流行的基于模型的方法中的一些，例如ShapeNet[3]和VoxNet[4]，使用用于3D-CNN的二进制3D体素网格作为输入，并且输出对象的类别。

这些方法显示出出色的性能，并且被视为高度现代化的基于模型的方法。然而，已经证明，即使最新的基于体积模型的方法，也被利用多个视图的基于CNN的方法、例如按照Hang Su等人的方法[5]超越。

这里提出的方法属于基于视图的方法一组，然而作为输出，代替对象类别，输出(对象的)特定的实例。此外，由于使用真实的场景，因此需要相对于背景干扰数据具有一定的鲁棒性。

与本申请密切相关的另一个方面是所谓的“流形学习”[6]。流形学习是一种进行非线性降维的方法，其受如下想法启发，即，可以在具有低维度的空间中有效地显示高维数据、例如图像。在[7]的第20页中，对使用CNN的这种设计进行了很好的研究。

为了学习映射，使用所谓的孪生网络(Siamese-Netzwerk)，孪生网络使用两个输入，而不是一个输入，并且使用特定的成本函数(英语：cost function)。定义成本函数，使得对于相似的对象，使相似的对象之间的欧几里德距离的平方最小，而对于不相似的对象，应用“铰链损失函数(hinge loss function)”，铰链损失函数借助差项强制对象分开。在文章中，这种设计被应用于定向估计。

论文[8]进一步扩展了这种想法。其中，提出了一种用于多模式相似性保持哈希(Hashing)的系统，在该系统中，将由一个或多个实施方式产生的对象(例如文本和图像)映射到另一个空间中，在该空间中，将相似的对象映射为尽可能靠近在一起，并且将不相似的对象映射为尽可能远离。

最新的流形学习(Manifold Learning)方法使用最近引入的三元组网络(英语：“triplet networks”)，在产生分离良好的流形时，这些三元组网络优于孪生网络[9，第20页]。顾名思义，三元组网络使用三个图像作为输入(而不是孪生网络的情况下的两个)，其中，两个图像属于同一类别，并且第三图像属于另一个类别。与另一个类别的图像相比，成本函数尝试将同一类别的图像的输出描述符，映射为相对于彼此更靠近。这使得能够进行更快速并且更鲁棒的流形学习，因为在单个运行时期间，不仅考虑正面的例子，而且还考虑负面的例子。

受这些最新的进展启发，Paul Wohlhart和Vincent Lepetit[1]提出的方法，借助具有以特定方式设计的损失函数的三元组CNN，将输入图像数据直接映射到相似性保持描述符空间中。损失函数提出了两个约束条件：不相似的对象的视图之间的欧几里得距离大，而同一类别的对象的视图之间的距离是相对于其定向的相对距离。因此，这种方法学习将对象视图嵌入具有较低维度的描述符空间中。然后，通过应用有效的可伸缩的方法在描述符空间上搜索最近的邻居，以找到最近的邻居，来对对象实例识别进行解析。此外，除对象的定向之外，这种方法还找到对象的身份，由此同时解决两个独立的问题，这进一步提高了这种方法的价值。

[10]的方法将分类损失添加到三元组损失中，并且学习将输入图像空间嵌入到判别特征空间(英语：discriminative feature space)中。这种方法适用于任务“对象类别搜索”，并且仅根据真实图像、而不根据渲染的3D对象模型进行训练。

发明内容

本发明要解决的技术问题是，改进用于在有干扰的环境中识别对象实例的方法。

上述技术问题通过独立权利要求的主题来解决。本发明的优选设计方案是从属权利要求的主题。

本发明提供一种借助人工神经网络或者CNN在有干扰的环境中识别对象实例并且确定(已经)定位的对象的定向的方法，具有步骤：

-为了获得包含图像数据、对象身份和定向的多个样本，记录至少一个对象的多个图像；

-由样本生成训练集合和模板集合；

-借助训练集合和损失函数，来训练人工神经网络或者CNN；

-通过借助人工神经网络对模板集合进行分析，来确定对象实例和/或对象的定向，

其中，进行训练使用的损失函数具有动态余量(m)。

优选以如下方式由三个样本形成三元组，即，第一样本和第二样本来自相似的定向下的相同的对象，其中，选择第三样本，使得第三样本来自与第一样本不同的对象，或者如果第三样本来自与第一样本相同的对象，则第三样本具有与第一样本不相似的定向。

优选损失函数具有以下形式的三元组损失函数：

其中，表示相应的样本的图像，f(x)表示人工神经网络的输出，并且m表示动态余量。

优选以如下方式由两个样本形成一对，即，两个样本来自同一对象并且具有相似或者相同的定向，其中，两个样本在不同的图像记录条件下获得。

优选损失函数具有以下形式的对损失函数：

其中，表示相应的样本的图像，并且f(x)表示人工神经网络的输出。

优选对象的记录从多个视点开始进行。

优选以如下方式进行对象的记录，即，从至少一个视点开始进行多次记录，其中，使照相机绕其记录轴转动，以获得具有例如四元数形式的转动信息的另外的样本。

优选借助相似性度量来确定两个样本之间的定向的相似性，其中，依据相似性来确定动态余量。

优选以四元数的形式确定转动信息，其中，相似性度量具有以下形式：

θ(q_i，q_j)＝2arccos(q_i，q_j)，

其中，q表示作为四元数的相应的样本的定向。

优选动态余量具有以下形式：

其中，q表示作为四元数的相应的样本的定向，其中，c表示对象身份。

下面更详细地说明本发明的有利效果。其它优点和技术效果也从本公开的其余部分中得到。

在此，改进了[1]中的方法；首先，通过在损失函数中引入动态余量，由此能够实现更快的训练和更短的描述符，并且随后通过借助对平面内的旋转进行学习，来产生旋转不变性，包括作为强大的并且与RGB-D数据互补的实施方式的表面法线。

提出了一种将动态余量引入流形学习三元组损失函数中的方法。这种损失函数被设计为，将不同的对象的图像和其定向，映射到具有较低维度的描述符空间中，其中，可以在描述符空间上应用有效的最近邻居搜索方法。动态余量的引入能够实现产生的低维流形的更快的训练时间和更好的精度。

附加地，平面内的旋转(其被基线方法忽略)对于训练做出贡献，并且作为附加的强大的图像实施方式，来添加表面法线，表面法线表示对象表面，并且与仅使用深度所允许的相比，产生更好的性能。

为了论证这里设想的贡献的效果，已经执行了详尽的评估。附加地，为了证明数据通道(Pipeline)在模型数量方面良好的可伸缩性，我们在大型BigBIRD数据组[2]上对所述方法的性能进行了评估。

应当指出，方法步骤的序列不暗示顺序。仅仅为了能够更好地进行引用，而对这些步骤设置了字母。因此，也可以以任意其它可实施的组合来执行这些步骤，只要实现期望的结果即可。

附图说明

根据所附的示意性附图来更详细地说明本发明的实施例。其中：

图1示出了不同的采样类型的示例；

图2示出了真实场景的示例性图示；

图3示出了训练集合和测试集合的示例；

图4示出了CNN三元组和CNN对的示例；

图5示出了在平面内旋转的情况下的采样的示例；

图6示出了利用动态余量来确定三元组损耗的示例；

图7示出了不同的测试设置的表I；

图8示出了用于说明动态余量的作用的曲线图；

图9示出了用于说明动态余量的作用的曲线图；

图10示出了用于说明噪声的作用的曲线图；

图11示出了用于说明不同的实施方式的作用的曲线图；以及

图12示出了针对三个经不同训练的网络的分类率和定向误差曲线图。

具体实施方式

所使用的数据组包含以下数据：真实环境14中的多个对象10的3D网格模型和/或对象10的RGB-D图像12与其相对于照相机的定向。利用这些数据，产生三个集合：训练集合S_train、模板集合S_db和测试集合S_test。训练集合S_train仅仅用于训练CNN。测试集合S_test仅在测试阶段中用于进行评估。模板集合S_db不仅在培训阶段使用，而且在测试阶段使用。

这些集合S_train、S_db、S_test中的每一个包括多个样本16。每个样本16特别是具有图像x、对象的身份c和/或定向q，即s＝(x；c；q)。

在第一步骤中，为了准备数据，生成集合S_train、S_db、S_test的样本16。在此，由两种类型的图像数据18产生集合S_train、S_db、S_test：真实图像20和合成图像22。真实图像20表示真实环境14中的对象10，并且利用在市场上可以获得的RGB-D传感器、例如Kinect或者Primesense来产生。可以利用数据组来提供真实图像20。

最初不能获得合成图像22，而是通过渲染带纹理的3D网格模型来产生合成图像22。

下面参考图1。利用对象10的给定的3D模型，从覆盖对象10的上部的不同的视点24开始，来渲染给定的3D模型，以生成合成图像22。为了定义视点24，将假想的二十面体放置在对象10上，其中，每个顶点26定义一个照相机位置28或者一个视点24。为了获得更精细的采样，将每个三角形递归地划分为四个三角形。由此，定义两种不同的采样类型：粗采样(其在图1左侧示出，并且可以通过二十面体的两次划分来实现)和/或细采样(其在图1右侧示出，并且可以通过三次连续的划分来实现)。使用粗采样来生成模板集合S_db，同时特别是对于训练集合S_train，使用细采样。

对于每个照相机位置28或者每个顶点26，优选在空白背景30上例如用黑色渲染对象10。优选不仅存储RGB，而且存储深度通道(Tiefenkanal)。

特别是参考图2。一旦产生了所有的合成图像22，并且真实图像20也存在，就可以生成样本16。对于每个图像20、22，提取一个小的区域32，区域32覆盖对象10，并且以对象10为中心。这例如通过虚拟地放置立方体34来实现，立方体34特别是以对象10的重心36为中心，并且例如具有40cm³的尺寸。

一旦提取了所有区域32，则优选对区域32进行归一化。优选将RGB通道归一化为平均值0和标准偏差1。优选将深度通道映射到区间[-1；1]上，其中，特别是，所有超出此范围的部分被截断。最后，除了对象10的身份以及其定向q之外，还将每个区域32作为图像x存储在样本16中。

在接下来的步骤中，优选在训练集合S_train、模板集合S_db和测试集合S_test之间对应地划分样本16。特别是，模板集合S_db仅包含优选基于粗采样的合成图像22。

优选在训练阶段(以便形成三元组38)和测试阶段(作为用于搜索最近的邻居的数据库)都使用粗采样。模板集合S_db的样本16定义搜索数据库，稍后在该数据库上对最近的邻居执行搜索。

使用粗采样的原因之一恰恰是，为了使数据库的大小最小，以进行更快速的搜索。然而，用于模板集合S_db的粗采样也直接限制了定向估计的准确性。

特别是参考图3。训练集合S_train包括真实图像20和合成图像22的混合。合成图像22表示来自细采样的样本16。优选将约50％的真实图像20添加到训练集合S_train。通过使用在定向方面位于模板集合S_db的样本16附近的真实图像20，来选择该50％。将其余真实图像20存储在测试集合S_test中，测试集合S_test用于估算所述方法的效率。

一旦生成了训练集合S_train和模板集合S_db，则存在足够的数据来训练CNN。此外，优选确定CNN的输入格式，CNN的输入格式由CNN的损失函数来定义。在此，损失函数是两个单独的损失项之和：

L＝L_triplets+L_pairs· (1)

特别是参考图4。第一被加数L_triplets是经由三元组(Triplett)38的集合T定义的损失项，其中，三元组38是这样一组样本16(s_i；sj；sk)：s_i和s_j始终来自具有相似的定向的同一个对象10，并且s_k来自另一个对象10，或者来自同一个对象10，然而具有不太相似的定向。换言之，单个三元组38包括一对相似的样本s_i、s_j和一对不相似的样本s_i、s_k。

如在此所使用的，样本s_i也称为“锚(Anker)”，样本s_j称为正样本或者“拉具(puller)”，并且样本s_k称为负样本或者“推具(pusher)”。三元组损失分量L_triplets具有以下形式：

其中，x是特定样本的输入图像，f(x)是将输入图像x输入时神经网络的输出，m是余量，并且N是堆栈中的三元组38的数量。

余量项引入用于分类的余量，并且设置样本16的相似和不相似的对的欧几里得距离的最小比例。

通过使L_triplets最小，可以实现应当实现的两个特性，即：一方面，使两个不同的对象的描述符之间的欧几里得距离最大，另一方面，设置同一对象10的描述符之间的欧几里得距离，使得其代表其定向的相似性。

第二被加数L_pairs是成对的项。第二被加数经由样本对(s_i；s_j)的集合P来定义。单个对内的样本来自于具有不同的图像记录条件的具有相同的定向或者非常相似的定向的相同的对象10。不同的图像记录条件包括、但不限于：照明变化、不同的背景和干扰数据。也可以想到，一个样本来自真实图像20，而另一个样本来自合成图像22。此项的目的是，将两个样本映射为相对于彼此尽可能靠近：

通过使L_pairs或者描述符之间的欧几里得距离最小化，通过将对象10映射到基本上同一个点上，CNN学习在不同的图像记录条件下相同地处理同一对象。此外，最小化可以确保在描述符空间中将具有相似的定向的样本设置为相对于彼此靠近，这又是三元组项L_triplets的重要标准。

迄今为止的方法不使用平面内的旋转，或者使得不考虑附加的自由度。然而，这在应用中、例如在机器人技术中几乎不能不考虑。

特别是参考图5。为了一起包括平面内的旋转，优选生成在平面内具有旋转的附加的样本40。此外，可以定义度量(Metrik)，以比较样本16、40之间的相似性，并且构建三元组38。

为了生成样本，使每个视点24处的照相机的视场围绕记录轴42旋转，并且以特定的频率记录样本。例如，特别是在-45°与+45°之间的范围内，以15°的步距角，对于每个顶点26，生成七个样本40。

借助四元数来示出对象10或者模型的转动Q，其中，经过比较的样本的四元数之间的角度用作定向比较度量：

θ(q_i，q_j)＝2arccos(q_i·q_j)。

例如在[1]中使用的已知的三元组损失函数具有恒定的余量项，因此对于不同类型的负样本始终是相同的。由此，对相同和不同类别的对象施加恰好相同的余量项，而目的是，将来自不同类别的对象10映射为相对于彼此相距更远。由此，关于分类的训练减慢，并且产生的流形具有较差的分离。

因此提出，如果负样本与锚属于同一类别，则将余量项设置为这些样本之间的角距离。然而，如果负样本属于另一个类别，则将距离设置为恒定值，该恒定值大于可能的最大角度差。在图6中示出了该动态余量的作用。

如下定义改善的损失函数：

其中，

优选可以使用表面法线作为进一步的实施方式(Ausführungsart)，该实施方式表示对象10的图像，更确切地说，除了已经考虑的RGB和深度通道之外。将点p处的表面法线定义为与点p中的模型表面处的切平面正交的3D向量。如果应用于对象模型的多个点，则表面法线产生性能强的实施方式，该实施方式描述对象模型的曲率(Krümmung)。

在此，优选基于深度图图像来生成表面法线，从而不需要其它传感器数据。例如可以使用从[11]中已知的方法，来获得快速并且鲁棒的估计。利用这种设计方案，可以对表面噪声进行平滑，因此也可以对深度不连续(Tiefenunstetigkeit)附近的表面法线进行更好的估计。

一个具有挑战性的问题是，对图像中的不同的背景和干扰数据进行处理。由于我们的样本16、40最初没有背景，因此CNN可能难以与前景和背景中充满噪声和干扰数据的真实数据相匹配。

一种方法是使用真实图像20来进行训练。如果没有或者仅有很少的真实图像20可用，则必须教导CNN以其它方式忽略和/或模拟背景。

在此，从包含以下内容的组中选择至少一个噪声：白噪声、随机形状、梯度噪声和真实背景。

对于白噪声，根据均匀的分布，针对每个像素生成0与1之间的浮点数，并且与其相加。在RGB的情况下，针对每个颜色重复该过程，即总共重复3次。

对于第二种噪声，想法是，以具有相似的深度值和颜色值的方式来显示背景对象。又根据0与1之间的均匀分布，来对对象的颜色进行采样，其中，根据0与样本图像的宽度之间的均匀分布，来对位置进行采样。通过将随机形状放置到实际的模型上，也可以使用这种方法来显示前景干扰。

第三种噪声是分形噪声(Fraktalrauschen)，分形噪声经常在计算机图形学中用于纹理或者景观生成。如在[12]中所描述的，可以产生分形噪声。分形噪声产生伪随机数的均匀序列，并且避免例如在白噪声的情况下出现的剧烈的强度变化。总的来说，这更接近于真实场景。

另一种噪声是真实的背景。代替产生噪声，以与在[13]中类似的方式产生真实的背景的RGB-D图像。从真实图像20中，以所需要的大小对区域32进行采样，并且将其用作以合成的方式生成的模型的背景。如果事先已知对象布置在哪种环境类型中，则这种实施方式是特别有用的。

基线方法(Baselineverfahren)的缺点是，在实施之前产生并且存储堆栈(Stapel)。这意味着，对于每个时期，一再使用相同的背景，由此限制易变性。建议在线生成堆栈。在每个迭代中，用可使用的实施方式中的一个，来填充所选择的正样本的背景。

为了分析新引入的修改、例如平面内的旋转、表面法线，背景噪声类型的作用，执行了一系列测试。此外，在较大的数据组(BigBIRD)上，并且在有足够说服力的、真实的所需要的数据的集合上，对所述方法的效率进行了测试。应当注意，除非另外给出，否则利用与在[1]中相同的网络架构以及动态余量，来执行所有测试。结果在图7的表I中。

如已经描述的，[1]不考虑平面内的旋转。然而，平面内的旋转对于真实场景中的应用很重要。在此，比较以下网络的性能：在训练中考虑平面内的旋转的CNN，和在训练中未考虑平面内的旋转的CNN。

结果：在这种设置(Setup)下，对上面提到的两个CNN进行比较，其中，将没有平面内的旋转的CNN称为基线，而将另一个称为基线+(参见表II)。

表II：在具有旋转的情况下经过训练的CNN(基线+)与在没有旋转的情况下经过训练的CNN(基线)的比较

仅对最近的邻居进行分析。如从表II中可以看到的，与已知的实施例的结果相比，发生了显著的改善。结果还表明了与附加的自由度的成功匹配。

特别是参考图8。为了分析具有动态余量DM的新的损失函数，执行了一系列测试，以与迄今为止的损失函数SM进行比较。特别是，借助针对3维和32维输出描述的最高性能的训练配置，针对五个LineMOD对象执行了两个测试。

结果：图8针对具有带有静态余量(SM)和动态余量(DM)的损失函数的两个实施，即CNN，在一组训练时期上(训练集合S_train的一次遍历)，针对正确地分类的样本，对分类率和平均角度误差进行比较。

如从结果中可以清楚地看到的，新的损失函数在最终结果上产生巨大的区别。这使得CNN能够与最初相比快得多地进行更好的分类。在具有动态余量的情况下，明显更快地实现几乎100％的分类精度，而已知的实现方案保持在大约80％。此外，从图8中可以看出，对于大约20％更正确的分类，可以获得相同的角度误差。

图9示出了借助描述符网络、即CNN经过训练的测试样本，该描述符网络利用旧的损失函数(左)和新的损失函数(右)经过了训练。可以清楚地看到对象的分离程度的区别：右边的图，对象被完全分离，并且获得最小的余量距离，这通向完美的分类评分；左边的图还总是显示明显可区分的对象结构，然而这些对象结构放置得彼此很近并且部分重叠，这导致分类混乱，在图8中对这种分类混乱进行了定量估计。

然而，实践中，使用更高维度的描述符空间，这使分类精度和角度精度提高。图10示出了与图8相同的曲线图，但是针对具有更高维度的描述符空间，例如32D。这对于两个实施方式，产生显著的质量飞跃。然而，趋势保持相同：根据本发明的方法明显更快地学习分类，并且使得对于更大数量的正确地进行了分类的测试样本能够实现相同的角度精度。

由于在实际应用中，经常无法使用真实的RGB-D图像，而仅存在3D模型，因此在训练过程中使用真实数据是有益的。这种测试的目的还在于，显示CNN多好地匹配于真实数据，并且在此仅使用具有人工填充的背景的合成样本。特别是，对上面描述的噪声类型进行比较。

结果：图11示出了针对不同的噪声类型的分类精度和定向精度。白噪声总体上显示最差的结果，仅具有26％的分类精度。由于在从均匀分布中对对象进行随机采样时，已经达到10％的精度，因此不涉及大的改进。

在实施方式“随机形状”的情况下，获得更好的结果，该结果围绕38％的分类精度波动。在合成背景噪声类型的情况下，分形噪声显示最好的结果；分形噪声实现高达54％的识别率。在分类方面，利用真实图像20的实施方式超过分形噪声，此外，对于大量正确地进行了分类的样本，进一步显示更好的定向精度。其结果是，由此，最好的选项是，利用具有与在测试集合S_test的情况下相似的环境的真实图像20来填充背景。分形噪声可以视为第二个优选选项。

参考图12。在该测试中，示出了新引入的表面法线通道的作用。为了进行比较，使用三个输入图像通道，即，深度、法线及其组合。更准确地说，优选使用仅由上面提到的通道表示的区域32来进行训练。

结果：图12示出了针对三个经不同训练的网络的分类率和定向误差曲线图：深度(d)、法线(nor)以及深度和法线(nord)。可以看到，利用表面法线的网络CNN仅获得好于利用深度图的CNN的结果。表面法线完全基于深度图(depth map)来产生。不需要附加的传感器数据。此外，如果同时使用深度图和表面法线，则结果进一步更好。

在大型数据组上进行测试的目的是，可以多好地将所述方法普遍化到更大数量的模型上。特别是，对模型的增大的集合在训练时如何影整体性能进行了研究。

结果：在BigBIRD数据组的50个模型上，对CNN进行了训练。在训练结束之后，实现了表III中的结果：

表III：针对单个最近的邻居，利用测试集合的样本，来计算角度误差直方图

表III针对一些容许的角度误差，示出了经过分类的测试样本的直方图。如可以看到的，对于50个模型(其中，大约300个测试样本表示每个模型)，得到98.7％的分类精度和非常好的角度精度。其结果是，由此，所述方法可伸缩，从而所述方法适合于工业应用。

这里描述的方法具有改善的学习速度、相对于干扰数据的鲁棒性和工业上的可用性。具有动态余量的新的损失函数能够实现CNN的更快速的学习以及更高的分类精度。此外，所述方法使用平面内的旋转和新的背景噪声类型。可以附加地使用表面法线作为进一步的性能强大的图像实施方式。还提出了一种用于生成堆栈的有效的方法，该方法在训练时允许更大的可变性。

Claims

1.一种借助人工神经网络(CNN)在有干扰的环境(14)中识别对象实例并且确定已定位的对象(10)的定向的方法，具有步骤：

-为了获得多个样本(s)，记录至少一个对象(10)的多个图像(x)，所述样本包含图像数据(x)、对象身份(c)和定向(q)；

-由所述样本生成训练集合(S_train)和模板集合(S_db)；

-借助所述训练集合(S_train)和损失函数(L)，对所述人工神经网络(CNN)进行训练；

-通过借助所述人工神经网络分析所述模板集合(S_db)，来确定对象实例和/或对象(10)的定向，

其特征在于，

进行训练使用的损失函数(L)具有动态余量(m)。

2.根据权利要求1所述的方法，其特征在于，以如下方式由三个样本(s_i,s_j,s_k)形成三元组(38)，即，第一样本(s_i)和第二样本(s_j)来自相似的定向(q)下的相同的对象(10)，其中，选择第三样本(s_k)，使得所述第三样本(s_k)来自与所述第一样本(s_i)不同的对象(10)，或者如果所述第三样本来自与所述第一样本(s_i)相同的对象(10)，则所述第三样本具有与所述第一样本(s_i)不相似的定向(q)。

3.根据权利要求2所述的方法，其特征在于，损失函数(L)具有以下形式的三元组损失函数(L_triplets)：

其中，x表示相应的样本(s_i,s_j,s_k)的图像，f(x)表示所述人工神经网络的输出，并且m表示动态余量。

4.根据上述权利要求中任一项所述的方法，其特征在于，以如下方式由两个样本(s_i,s_j)形成一个对，即，所述两个样本(s_i,s_j)来自相同的对象(10)并且具有相似或者相同的定向(q)，其中，所述两个样本(s_i,s_j)在不同的图像记录条件下获得。

5.根据权利要求4所述的方法，其特征在于，损失函数(L)具有以下形式的对损失函数(L_pairs)：

其中，x表示相应的样本(s_i,s_j)的图像，并且f(x)表示人工神经的输出。

6.根据上述权利要求中任一项所述的方法，其特征在于，对象(10)的记录从多个视点(24)开始进行。

7.根据上述权利要求中任一项所述的方法，其特征在于，以如下方式进行对象(10)的记录，即，从至少一个视点(24)开始进行多次记录，其中，使照相机绕其记录轴(42)转动，以获得具有特别是四元数形式的转动信息的另外的样本(40)。

8.根据权利要求7所述的方法，其特征在于，借助相似性度量来确定两个样本之间的定向的相似性，其中，依据相似性来确定动态余量。

9.根据权利要求8所述的方法，其特征在于，以四元数的形式确定转动信息，其中，所述相似性度量具有以下形式：

θ(q_i，q_j)＝2arccos(q_i，q_j)，

其中，q表示作为四元数的相应的样本的定向。

10.根据权利要求9所述的方法，其特征在于，动态余量具有以下形式：