CN111149108A - 识别对象实例和/或对象的定向的方法 - Google Patents
识别对象实例和/或对象的定向的方法 Download PDFInfo
- Publication number
- CN111149108A CN111149108A CN201880060873.8A CN201880060873A CN111149108A CN 111149108 A CN111149108 A CN 111149108A CN 201880060873 A CN201880060873 A CN 201880060873A CN 111149108 A CN111149108 A CN 111149108A
- Authority
- CN
- China
- Prior art keywords
- samples
- orientation
- sample
- training
- loss function
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 69
- 238000012549 training Methods 0.000 claims abstract description 38
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 36
- 238000013528 artificial neural network Methods 0.000 claims abstract description 15
- 230000002452 interceptive effect Effects 0.000 claims abstract 2
- 230000006870 function Effects 0.000 claims description 34
- 238000011524 similarity measure Methods 0.000 claims description 4
- 210000005036 nerve Anatomy 0.000 claims 1
- 238000002360 preparation method Methods 0.000 claims 1
- 238000012360 testing method Methods 0.000 description 32
- 238000005070 sampling Methods 0.000 description 12
- 230000000694 effects Effects 0.000 description 10
- 238000013459 approach Methods 0.000 description 8
- 239000002131 composite material Substances 0.000 description 8
- 238000013461 design Methods 0.000 description 4
- 238000009827 uniform distribution Methods 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000003190 augmentative effect Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000005286 illumination Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000000873 masking effect Effects 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 238000003909 pattern recognition Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 239000002184 metal Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
- G06T7/74—Determining position or orientation of objects or cameras using feature-based methods involving reference images or patches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/11—Complex mathematical operations for solving equations, e.g. nonlinear equations, general mathematical optimization problems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/64—Three-dimensional objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10028—Range image; Depth image; 3D point clouds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Computational Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Medical Informatics (AREA)
- Operations Research (AREA)
- Algebra (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种借助人工神经网络(CNN)在有干扰的环境(14)中识别已定位的对象(10)的对象实例的方法,具有步骤:为了获得包含图像数据(x)、对象身份(c)和定向(q)的多个样本(s),记录至少一个对象(10)的多个图像(x);由样本生成训练集合(Strain)和模板集合(Sdb);借助训练集合(Strain)和损失函数(L),对人工神经网络(CNN)进行训练;通过借助人工神经网络分析模板集合(Sdb)来确定对象实例和/或对象(10)的定向。根据本发明,提出了进行训练使用的损失函数具有动态余量。
Description
技术领域
本发明涉及一种在有干扰的环境中识别对象实例并且确定已经定位的对象的定向的方法。
背景技术
对象实例识别和3D定向估计是计算机视觉(Computer Vision)领域众所周知的问题。在机器人技术和增强现实(Augmented Reality)中存在大量应用。
当前的方法经常在干扰数据和掩蔽(Verdeckung)方面存在问题。此外,当前的方法对背景和照明变化很敏感。最常用的定向估计器对于每个对象使用单个分类器,使得复杂度随着对象的数量线性增加。然而,出于工业目的,期望与大量不同的对象一起工作的可伸缩的方法。可以在3D对象识别领域中找到对象实例识别中的最新的进展,其中,目的是从大型数据库中提取相似的对象。
尤其是参考以下文件:
[1]P.Wohlhart和V.Lepetit,“Learning Descriptors for Object Recognitionand 3D Pose Estimation,”presented at the Proceedings of the IEEE Conferenceon Computer Vision and Pattern Recognition,2015,pp.3109-3118.
[2]A.Singh,J.Sha,K.S.Narayan,T.Achim和P.Abbeel,“BigBIRD:A large-scale3D database of object instances,”in 2014IEEE International Conference onRobotics and Automation(ICRA),2014,pp.509-516.
[3]Z.Wu等人的,“3D ShapeNets:A Deep Representation for VolumetricShapes,”presented at the Proceedings of the IEEE Conference on ComputerVision and Pattern Recognition,2015,pp.1912-1920.
[4]D.Maturana和S.Scherer,“VoxNet:A 3D Convolutional Neural Networkfor real-time object recognition,”in 2015IEEE/RSJ International Conference onIntelligent Robots and Systems(IROS),2015,pp.922-928.
[5]H.Su,S.Maji,E.Kalogerakis和E.Learned-Miller,“Multi-ViewConvolutional Neural Networks for 3D Shape Recognition,”presented at theProceedings of the IEEE International Conference on Computer Vision,2015,pp.945-953.
[6]R.Pless和R.Souvenir,“A Survey of Manifold Learning for Images,”IPSJ Trans.Comput.Vis.Appl.,vol.1,pp.83-94,2009.
[7]R.Hadsell,S.Chopra和Y.LeCun,“Dimensionality Reduction by Learningan Invariant Mapping,”in 2006IEEE Computer Society Conference on ComputerVision and Pattern Recognition(CVPR'06),2006,vol.2,pp.1735-1742.
[8]J.Masci,M.M.Bronstein,A.M.Bronstein和J.Schmidhuber,“MultimodalSimilarity-Preserving Hashing,”IEEE Trans.Pattern Anal.Mach.Intell.,vol.36,no.4,pp.824-830,Apr.2014.
[9]E.Hoffer和N.Ailon,“Deep Metric Learning Using Triplet Network,”inSimilarity-Based Pattern Recognition,2015,pp.84-92.
[10]H.Guo,J.Wang,Y.Gao,J.Li和H.Lu,“Multi-View 3D Object RetrievalWith Deep Embedding Network,”IEEE Trans.Image Process.,vol.25,no.12,pp.5526-5537,Dec.2016.
[11]Stefan Hinterstoisser,Cedric Cagniart,Slobodan Ilic,Peter Sturm,Nassir Navab,Pascal Fua和Vincent Lepetit.Gradient response maps for real-timedetection of textureless objects.IEEE Transactions on Pattern Analysis andMachine Intelligence,34(5),2012.
[12]Ken Perlin.Noise hardware.Real-Time Shading SIGGRAPH CourseNotes,2001.
[13]Hao Su,Charles R Qi,Yangyan Li和Leonidas J Guibas.Render for cnn:Viewpoint estimation in images using cnns trained with rendered 3d modelviews.In Proceedings of the IEEE International Conference on Computer Vision,2015.
可免费使用的3D模型的数量的快速增长,催生了使得能够在大型3D对象数据库中进行搜索的方法。这些方法称为3D检索方法(英语:“3D retrieval methods”或者“3Dcontent retrieval methods(3D内容检索方法)”),因为这些方法的目的是,搜索与3D查询对象相似的对象。
这里提出的方法与3D检索方法紧密相关,并且可以视为是3D检索方法的代表。然而,在已知方法中,查询是从真实场景的情境中取出的,因此没有干扰数据和掩蔽。附加地,通常不需要确定对象的定向、姿势或者姿态,而这对于进一步的应用(例如机器人技术中的抓握)是重要的。最后,已知的3D检索标准的目的在于,仅确定对象类别,而不确定对象的实例(Instanz),由此应用局限于用于进行对象实例识别的数据组。
由于这里提出的方法遵循“流形学习(manifold learning)”的不同的方法,因此同样将同时考虑该领域的大多数与此相关的工作。3D检索方法主要分为两类:基于模型和基于视图。基于模型的方法直接借助3D模型来工作,并且尝试通过不同类型的特征来表示这些3D模型。
反之,基于视图的方法利用对象的2D视图来工作。因此,这些方法不明确地需要3D对象模型,这使得这种类型看起来适合实际应用。此外,基于视图的方法得益于2D图像的使用,这使得能够使用图像处理领域中的数十种有效方法。
过去,有大量的文献致力于适合用于该任务的特征的设计。最近,这些方法借助深度神经网络(英语:deep neural networks)、通常借助卷积神经网络CNN(英语:convolutional neural networks,CNN)来学习特征。其原因是,与手动进行相比,通过借助CNN进行特定于任务的监视而学习的特征,显示出更好的性能。流行的基于模型的方法中的一些,例如ShapeNet[3]和VoxNet[4],使用用于3D-CNN的二进制3D体素网格作为输入,并且输出对象的类别。
这些方法显示出出色的性能,并且被视为高度现代化的基于模型的方法。然而,已经证明,即使最新的基于体积模型的方法,也被利用多个视图的基于CNN的方法、例如按照Hang Su等人的方法[5]超越。
这里提出的方法属于基于视图的方法一组,然而作为输出,代替对象类别,输出(对象的)特定的实例。此外,由于使用真实的场景,因此需要相对于背景干扰数据具有一定的鲁棒性。
与本申请密切相关的另一个方面是所谓的“流形学习”[6]。流形学习是一种进行非线性降维的方法,其受如下想法启发,即,可以在具有低维度的空间中有效地显示高维数据、例如图像。在[7]的第20页中,对使用CNN的这种设计进行了很好的研究。
为了学习映射,使用所谓的孪生网络(Siamese-Netzwerk),孪生网络使用两个输入,而不是一个输入,并且使用特定的成本函数(英语:cost function)。定义成本函数,使得对于相似的对象,使相似的对象之间的欧几里德距离的平方最小,而对于不相似的对象,应用“铰链损失函数(hinge loss function)”,铰链损失函数借助差项强制对象分开。在文章中,这种设计被应用于定向估计。
论文[8]进一步扩展了这种想法。其中,提出了一种用于多模式相似性保持哈希(Hashing)的系统,在该系统中,将由一个或多个实施方式产生的对象(例如文本和图像)映射到另一个空间中,在该空间中,将相似的对象映射为尽可能靠近在一起,并且将不相似的对象映射为尽可能远离。
最新的流形学习(Manifold Learning)方法使用最近引入的三元组网络(英语:“triplet networks”),在产生分离良好的流形时,这些三元组网络优于孪生网络[9,第20页]。顾名思义,三元组网络使用三个图像作为输入(而不是孪生网络的情况下的两个),其中,两个图像属于同一类别,并且第三图像属于另一个类别。与另一个类别的图像相比,成本函数尝试将同一类别的图像的输出描述符,映射为相对于彼此更靠近。这使得能够进行更快速并且更鲁棒的流形学习,因为在单个运行时期间,不仅考虑正面的例子,而且还考虑负面的例子。
受这些最新的进展启发,Paul Wohlhart和Vincent Lepetit[1]提出的方法,借助具有以特定方式设计的损失函数的三元组CNN,将输入图像数据直接映射到相似性保持描述符空间中。损失函数提出了两个约束条件:不相似的对象的视图之间的欧几里得距离大,而同一类别的对象的视图之间的距离是相对于其定向的相对距离。因此,这种方法学习将对象视图嵌入具有较低维度的描述符空间中。然后,通过应用有效的可伸缩的方法在描述符空间上搜索最近的邻居,以找到最近的邻居,来对对象实例识别进行解析。此外,除对象的定向之外,这种方法还找到对象的身份,由此同时解决两个独立的问题,这进一步提高了这种方法的价值。
[10]的方法将分类损失添加到三元组损失中,并且学习将输入图像空间嵌入到判别特征空间(英语:discriminative feature space)中。这种方法适用于任务“对象类别搜索”,并且仅根据真实图像、而不根据渲染的3D对象模型进行训练。
发明内容
本发明要解决的技术问题是,改进用于在有干扰的环境中识别对象实例的方法。
上述技术问题通过独立权利要求的主题来解决。本发明的优选设计方案是从属权利要求的主题。
本发明提供一种借助人工神经网络或者CNN在有干扰的环境中识别对象实例并且确定(已经)定位的对象的定向的方法,具有步骤:
-为了获得包含图像数据、对象身份和定向的多个样本,记录至少一个对象的多个图像;
-由样本生成训练集合和模板集合;
-借助训练集合和损失函数,来训练人工神经网络或者CNN;
-通过借助人工神经网络对模板集合进行分析,来确定对象实例和/或对象的定向,
其中,进行训练使用的损失函数具有动态余量(m)。
优选以如下方式由三个样本形成三元组,即,第一样本和第二样本来自相似的定向下的相同的对象,其中,选择第三样本,使得第三样本来自与第一样本不同的对象,或者如果第三样本来自与第一样本相同的对象,则第三样本具有与第一样本不相似的定向。
优选损失函数具有以下形式的三元组损失函数:
其中,表示相应的样本的图像,f(x)表示人工神经网络的输出,并且m表示动态余量。
优选以如下方式由两个样本形成一对,即,两个样本来自同一对象并且具有相似或者相同的定向,其中,两个样本在不同的图像记录条件下获得。
优选损失函数具有以下形式的对损失函数:
其中,表示相应的样本的图像,并且f(x)表示人工神经网络的输出。
优选对象的记录从多个视点开始进行。
优选以如下方式进行对象的记录,即,从至少一个视点开始进行多次记录,其中,使照相机绕其记录轴转动,以获得具有例如四元数形式的转动信息的另外的样本。
优选借助相似性度量来确定两个样本之间的定向的相似性,其中,依据相似性来确定动态余量。
优选以四元数的形式确定转动信息,其中,相似性度量具有以下形式:
θ(qi,qj)=2arccos(qi,qj),
其中,q表示作为四元数的相应的样本的定向。
优选动态余量具有以下形式:
其中,q表示作为四元数的相应的样本的定向,其中,c表示对象身份。
下面更详细地说明本发明的有利效果。其它优点和技术效果也从本公开的其余部分中得到。
在此,改进了[1]中的方法;首先,通过在损失函数中引入动态余量,由此能够实现更快的训练和更短的描述符,并且随后通过借助对平面内的旋转进行学习,来产生旋转不变性,包括作为强大的并且与RGB-D数据互补的实施方式的表面法线。
提出了一种将动态余量引入流形学习三元组损失函数中的方法。这种损失函数被设计为,将不同的对象的图像和其定向,映射到具有较低维度的描述符空间中,其中,可以在描述符空间上应用有效的最近邻居搜索方法。动态余量的引入能够实现产生的低维流形的更快的训练时间和更好的精度。
附加地,平面内的旋转(其被基线方法忽略)对于训练做出贡献,并且作为附加的强大的图像实施方式,来添加表面法线,表面法线表示对象表面,并且与仅使用深度所允许的相比,产生更好的性能。
为了论证这里设想的贡献的效果,已经执行了详尽的评估。附加地,为了证明数据通道(Pipeline)在模型数量方面良好的可伸缩性,我们在大型BigBIRD数据组[2]上对所述方法的性能进行了评估。
应当指出,方法步骤的序列不暗示顺序。仅仅为了能够更好地进行引用,而对这些步骤设置了字母。因此,也可以以任意其它可实施的组合来执行这些步骤,只要实现期望的结果即可。
附图说明
根据所附的示意性附图来更详细地说明本发明的实施例。其中:
图1示出了不同的采样类型的示例;
图2示出了真实场景的示例性图示;
图3示出了训练集合和测试集合的示例;
图4示出了CNN三元组和CNN对的示例;
图5示出了在平面内旋转的情况下的采样的示例;
图6示出了利用动态余量来确定三元组损耗的示例;
图7示出了不同的测试设置的表I;
图8示出了用于说明动态余量的作用的曲线图;
图9示出了用于说明动态余量的作用的曲线图;
图10示出了用于说明噪声的作用的曲线图;
图11示出了用于说明不同的实施方式的作用的曲线图;以及
图12示出了针对三个经不同训练的网络的分类率和定向误差曲线图。
具体实施方式
所使用的数据组包含以下数据:真实环境14中的多个对象10的3D网格模型和/或对象10的RGB-D图像12与其相对于照相机的定向。利用这些数据,产生三个集合:训练集合Strain、模板集合Sdb和测试集合Stest。训练集合Strain仅仅用于训练CNN。测试集合Stest仅在测试阶段中用于进行评估。模板集合Sdb不仅在培训阶段使用,而且在测试阶段使用。
这些集合Strain、Sdb、Stest中的每一个包括多个样本16。每个样本16特别是具有图像x、对象的身份c和/或定向q,即s=(x;c;q)。
在第一步骤中,为了准备数据,生成集合Strain、Sdb、Stest的样本16。在此,由两种类型的图像数据18产生集合Strain、Sdb、Stest:真实图像20和合成图像22。真实图像20表示真实环境14中的对象10,并且利用在市场上可以获得的RGB-D传感器、例如Kinect或者Primesense来产生。可以利用数据组来提供真实图像20。
最初不能获得合成图像22,而是通过渲染带纹理的3D网格模型来产生合成图像22。
下面参考图1。利用对象10的给定的3D模型,从覆盖对象10的上部的不同的视点24开始,来渲染给定的3D模型,以生成合成图像22。为了定义视点24,将假想的二十面体放置在对象10上,其中,每个顶点26定义一个照相机位置28或者一个视点24。为了获得更精细的采样,将每个三角形递归地划分为四个三角形。由此,定义两种不同的采样类型:粗采样(其在图1左侧示出,并且可以通过二十面体的两次划分来实现)和/或细采样(其在图1右侧示出,并且可以通过三次连续的划分来实现)。使用粗采样来生成模板集合Sdb,同时特别是对于训练集合Strain,使用细采样。
对于每个照相机位置28或者每个顶点26,优选在空白背景30上例如用黑色渲染对象10。优选不仅存储RGB,而且存储深度通道(Tiefenkanal)。
特别是参考图2。一旦产生了所有的合成图像22,并且真实图像20也存在,就可以生成样本16。对于每个图像20、22,提取一个小的区域32,区域32覆盖对象10,并且以对象10为中心。这例如通过虚拟地放置立方体34来实现,立方体34特别是以对象10的重心36为中心,并且例如具有40cm3的尺寸。
一旦提取了所有区域32,则优选对区域32进行归一化。优选将RGB通道归一化为平均值0和标准偏差1。优选将深度通道映射到区间[-1;1]上,其中,特别是,所有超出此范围的部分被截断。最后,除了对象10的身份以及其定向q之外,还将每个区域32作为图像x存储在样本16中。
在接下来的步骤中,优选在训练集合Strain、模板集合Sdb和测试集合Stest之间对应地划分样本16。特别是,模板集合Sdb仅包含优选基于粗采样的合成图像22。
优选在训练阶段(以便形成三元组38)和测试阶段(作为用于搜索最近的邻居的数据库)都使用粗采样。模板集合Sdb的样本16定义搜索数据库,稍后在该数据库上对最近的邻居执行搜索。
使用粗采样的原因之一恰恰是,为了使数据库的大小最小,以进行更快速的搜索。然而,用于模板集合Sdb的粗采样也直接限制了定向估计的准确性。
特别是参考图3。训练集合Strain包括真实图像20和合成图像22的混合。合成图像22表示来自细采样的样本16。优选将约50%的真实图像20添加到训练集合Strain。通过使用在定向方面位于模板集合Sdb的样本16附近的真实图像20,来选择该50%。将其余真实图像20存储在测试集合Stest中,测试集合Stest用于估算所述方法的效率。
一旦生成了训练集合Strain和模板集合Sdb,则存在足够的数据来训练CNN。此外,优选确定CNN的输入格式,CNN的输入格式由CNN的损失函数来定义。在此,损失函数是两个单独的损失项之和:
L=Ltriplets+Lpairs· (1)
特别是参考图4。第一被加数Ltriplets是经由三元组(Triplett)38的集合T定义的损失项,其中,三元组38是这样一组样本16(si;sj;sk):si和sj始终来自具有相似的定向的同一个对象10,并且sk来自另一个对象10,或者来自同一个对象10,然而具有不太相似的定向。换言之,单个三元组38包括一对相似的样本si、sj和一对不相似的样本si、sk。
如在此所使用的,样本si也称为“锚(Anker)”,样本sj称为正样本或者“拉具(puller)”,并且样本sk称为负样本或者“推具(pusher)”。三元组损失分量Ltriplets具有以下形式:
其中,x是特定样本的输入图像,f(x)是将输入图像x输入时神经网络的输出,m是余量,并且N是堆栈中的三元组38的数量。
余量项引入用于分类的余量,并且设置样本16的相似和不相似的对的欧几里得距离的最小比例。
通过使Ltriplets最小,可以实现应当实现的两个特性,即:一方面,使两个不同的对象的描述符之间的欧几里得距离最大,另一方面,设置同一对象10的描述符之间的欧几里得距离,使得其代表其定向的相似性。
第二被加数Lpairs是成对的项。第二被加数经由样本对(si;sj)的集合P来定义。单个对内的样本来自于具有不同的图像记录条件的具有相同的定向或者非常相似的定向的相同的对象10。不同的图像记录条件包括、但不限于:照明变化、不同的背景和干扰数据。也可以想到,一个样本来自真实图像20,而另一个样本来自合成图像22。此项的目的是,将两个样本映射为相对于彼此尽可能靠近:
通过使Lpairs或者描述符之间的欧几里得距离最小化,通过将对象10映射到基本上同一个点上,CNN学习在不同的图像记录条件下相同地处理同一对象。此外,最小化可以确保在描述符空间中将具有相似的定向的样本设置为相对于彼此靠近,这又是三元组项Ltriplets的重要标准。
迄今为止的方法不使用平面内的旋转,或者使得不考虑附加的自由度。然而,这在应用中、例如在机器人技术中几乎不能不考虑。
特别是参考图5。为了一起包括平面内的旋转,优选生成在平面内具有旋转的附加的样本40。此外,可以定义度量(Metrik),以比较样本16、40之间的相似性,并且构建三元组38。
为了生成样本,使每个视点24处的照相机的视场围绕记录轴42旋转,并且以特定的频率记录样本。例如,特别是在-45°与+45°之间的范围内,以15°的步距角,对于每个顶点26,生成七个样本40。
借助四元数来示出对象10或者模型的转动Q,其中,经过比较的样本的四元数之间的角度用作定向比较度量:
θ(qi,qj)=2arccos(qi·qj)。
例如在[1]中使用的已知的三元组损失函数具有恒定的余量项,因此对于不同类型的负样本始终是相同的。由此,对相同和不同类别的对象施加恰好相同的余量项,而目的是,将来自不同类别的对象10映射为相对于彼此相距更远。由此,关于分类的训练减慢,并且产生的流形具有较差的分离。
因此提出,如果负样本与锚属于同一类别,则将余量项设置为这些样本之间的角距离。然而,如果负样本属于另一个类别,则将距离设置为恒定值,该恒定值大于可能的最大角度差。在图6中示出了该动态余量的作用。
如下定义改善的损失函数:
优选可以使用表面法线作为进一步的实施方式(Ausführungsart),该实施方式表示对象10的图像,更确切地说,除了已经考虑的RGB和深度通道之外。将点p处的表面法线定义为与点p中的模型表面处的切平面正交的3D向量。如果应用于对象模型的多个点,则表面法线产生性能强的实施方式,该实施方式描述对象模型的曲率(Krümmung)。
在此,优选基于深度图图像来生成表面法线,从而不需要其它传感器数据。例如可以使用从[11]中已知的方法,来获得快速并且鲁棒的估计。利用这种设计方案,可以对表面噪声进行平滑,因此也可以对深度不连续(Tiefenunstetigkeit)附近的表面法线进行更好的估计。
一个具有挑战性的问题是,对图像中的不同的背景和干扰数据进行处理。由于我们的样本16、40最初没有背景,因此CNN可能难以与前景和背景中充满噪声和干扰数据的真实数据相匹配。
一种方法是使用真实图像20来进行训练。如果没有或者仅有很少的真实图像20可用,则必须教导CNN以其它方式忽略和/或模拟背景。
在此,从包含以下内容的组中选择至少一个噪声:白噪声、随机形状、梯度噪声和真实背景。
对于白噪声,根据均匀的分布,针对每个像素生成0与1之间的浮点数,并且与其相加。在RGB的情况下,针对每个颜色重复该过程,即总共重复3次。
对于第二种噪声,想法是,以具有相似的深度值和颜色值的方式来显示背景对象。又根据0与1之间的均匀分布,来对对象的颜色进行采样,其中,根据0与样本图像的宽度之间的均匀分布,来对位置进行采样。通过将随机形状放置到实际的模型上,也可以使用这种方法来显示前景干扰。
第三种噪声是分形噪声(Fraktalrauschen),分形噪声经常在计算机图形学中用于纹理或者景观生成。如在[12]中所描述的,可以产生分形噪声。分形噪声产生伪随机数的均匀序列,并且避免例如在白噪声的情况下出现的剧烈的强度变化。总的来说,这更接近于真实场景。
另一种噪声是真实的背景。代替产生噪声,以与在[13]中类似的方式产生真实的背景的RGB-D图像。从真实图像20中,以所需要的大小对区域32进行采样,并且将其用作以合成的方式生成的模型的背景。如果事先已知对象布置在哪种环境类型中,则这种实施方式是特别有用的。
基线方法(Baselineverfahren)的缺点是,在实施之前产生并且存储堆栈(Stapel)。这意味着,对于每个时期,一再使用相同的背景,由此限制易变性。建议在线生成堆栈。在每个迭代中,用可使用的实施方式中的一个,来填充所选择的正样本的背景。
为了分析新引入的修改、例如平面内的旋转、表面法线,背景噪声类型的作用,执行了一系列测试。此外,在较大的数据组(BigBIRD)上,并且在有足够说服力的、真实的所需要的数据的集合上,对所述方法的效率进行了测试。应当注意,除非另外给出,否则利用与在[1]中相同的网络架构以及动态余量,来执行所有测试。结果在图7的表I中。
如已经描述的,[1]不考虑平面内的旋转。然而,平面内的旋转对于真实场景中的应用很重要。在此,比较以下网络的性能:在训练中考虑平面内的旋转的CNN,和在训练中未考虑平面内的旋转的CNN。
结果:在这种设置(Setup)下,对上面提到的两个CNN进行比较,其中,将没有平面内的旋转的CNN称为基线,而将另一个称为基线+(参见表II)。
表II:在具有旋转的情况下经过训练的CNN(基线+)与在没有旋转的情况下经过训练的CNN(基线)的比较
仅对最近的邻居进行分析。如从表II中可以看到的,与已知的实施例的结果相比,发生了显著的改善。结果还表明了与附加的自由度的成功匹配。
特别是参考图8。为了分析具有动态余量DM的新的损失函数,执行了一系列测试,以与迄今为止的损失函数SM进行比较。特别是,借助针对3维和32维输出描述的最高性能的训练配置,针对五个LineMOD对象执行了两个测试。
结果:图8针对具有带有静态余量(SM)和动态余量(DM)的损失函数的两个实施,即CNN,在一组训练时期上(训练集合Strain的一次遍历),针对正确地分类的样本,对分类率和平均角度误差进行比较。
如从结果中可以清楚地看到的,新的损失函数在最终结果上产生巨大的区别。这使得CNN能够与最初相比快得多地进行更好的分类。在具有动态余量的情况下,明显更快地实现几乎100%的分类精度,而已知的实现方案保持在大约80%。此外,从图8中可以看出,对于大约20%更正确的分类,可以获得相同的角度误差。
图9示出了借助描述符网络、即CNN经过训练的测试样本,该描述符网络利用旧的损失函数(左)和新的损失函数(右)经过了训练。可以清楚地看到对象的分离程度的区别:右边的图,对象被完全分离,并且获得最小的余量距离,这通向完美的分类评分;左边的图还总是显示明显可区分的对象结构,然而这些对象结构放置得彼此很近并且部分重叠,这导致分类混乱,在图8中对这种分类混乱进行了定量估计。
然而,实践中,使用更高维度的描述符空间,这使分类精度和角度精度提高。图10示出了与图8相同的曲线图,但是针对具有更高维度的描述符空间,例如32D。这对于两个实施方式,产生显著的质量飞跃。然而,趋势保持相同:根据本发明的方法明显更快地学习分类,并且使得对于更大数量的正确地进行了分类的测试样本能够实现相同的角度精度。
由于在实际应用中,经常无法使用真实的RGB-D图像,而仅存在3D模型,因此在训练过程中使用真实数据是有益的。这种测试的目的还在于,显示CNN多好地匹配于真实数据,并且在此仅使用具有人工填充的背景的合成样本。特别是,对上面描述的噪声类型进行比较。
结果:图11示出了针对不同的噪声类型的分类精度和定向精度。白噪声总体上显示最差的结果,仅具有26%的分类精度。由于在从均匀分布中对对象进行随机采样时,已经达到10%的精度,因此不涉及大的改进。
在实施方式“随机形状”的情况下,获得更好的结果,该结果围绕38%的分类精度波动。在合成背景噪声类型的情况下,分形噪声显示最好的结果;分形噪声实现高达54%的识别率。在分类方面,利用真实图像20的实施方式超过分形噪声,此外,对于大量正确地进行了分类的样本,进一步显示更好的定向精度。其结果是,由此,最好的选项是,利用具有与在测试集合Stest的情况下相似的环境的真实图像20来填充背景。分形噪声可以视为第二个优选选项。
参考图12。在该测试中,示出了新引入的表面法线通道的作用。为了进行比较,使用三个输入图像通道,即,深度、法线及其组合。更准确地说,优选使用仅由上面提到的通道表示的区域32来进行训练。
结果:图12示出了针对三个经不同训练的网络的分类率和定向误差曲线图:深度(d)、法线(nor)以及深度和法线(nord)。可以看到,利用表面法线的网络CNN仅获得好于利用深度图的CNN的结果。表面法线完全基于深度图(depth map)来产生。不需要附加的传感器数据。此外,如果同时使用深度图和表面法线,则结果进一步更好。
在大型数据组上进行测试的目的是,可以多好地将所述方法普遍化到更大数量的模型上。特别是,对模型的增大的集合在训练时如何影整体性能进行了研究。
结果:在BigBIRD数据组的50个模型上,对CNN进行了训练。在训练结束之后,实现了表III中的结果:
表III:针对单个最近的邻居,利用测试集合的样本,来计算角度误差直方图
表III针对一些容许的角度误差,示出了经过分类的测试样本的直方图。如可以看到的,对于50个模型(其中,大约300个测试样本表示每个模型),得到98.7%的分类精度和非常好的角度精度。其结果是,由此,所述方法可伸缩,从而所述方法适合于工业应用。
这里描述的方法具有改善的学习速度、相对于干扰数据的鲁棒性和工业上的可用性。具有动态余量的新的损失函数能够实现CNN的更快速的学习以及更高的分类精度。此外,所述方法使用平面内的旋转和新的背景噪声类型。可以附加地使用表面法线作为进一步的性能强大的图像实施方式。还提出了一种用于生成堆栈的有效的方法,该方法在训练时允许更大的可变性。
Claims (10)
1.一种借助人工神经网络(CNN)在有干扰的环境(14)中识别对象实例并且确定已定位的对象(10)的定向的方法,具有步骤:
-为了获得多个样本(s),记录至少一个对象(10)的多个图像(x),所述样本包含图像数据(x)、对象身份(c)和定向(q);
-由所述样本生成训练集合(Strain)和模板集合(Sdb);
-借助所述训练集合(Strain)和损失函数(L),对所述人工神经网络(CNN)进行训练;
-通过借助所述人工神经网络分析所述模板集合(Sdb),来确定对象实例和/或对象(10)的定向,
其特征在于,
进行训练使用的损失函数(L)具有动态余量(m)。
2.根据权利要求1所述的方法,其特征在于,以如下方式由三个样本(si,sj,sk)形成三元组(38),即,第一样本(si)和第二样本(sj)来自相似的定向(q)下的相同的对象(10),其中,选择第三样本(sk),使得所述第三样本(sk)来自与所述第一样本(si)不同的对象(10),或者如果所述第三样本来自与所述第一样本(si)相同的对象(10),则所述第三样本具有与所述第一样本(si)不相似的定向(q)。
4.根据上述权利要求中任一项所述的方法,其特征在于,以如下方式由两个样本(si,sj)形成一个对,即,所述两个样本(si,sj)来自相同的对象(10)并且具有相似或者相同的定向(q),其中,所述两个样本(si,sj)在不同的图像记录条件下获得。
6.根据上述权利要求中任一项所述的方法,其特征在于,对象(10)的记录从多个视点(24)开始进行。
7.根据上述权利要求中任一项所述的方法,其特征在于,以如下方式进行对象(10)的记录,即,从至少一个视点(24)开始进行多次记录,其中,使照相机绕其记录轴(42)转动,以获得具有特别是四元数形式的转动信息的另外的样本(40)。
8.根据权利要求7所述的方法,其特征在于,借助相似性度量来确定两个样本之间的定向的相似性,其中,依据相似性来确定动态余量。
9.根据权利要求8所述的方法,其特征在于,以四元数的形式确定转动信息,其中,所述相似性度量具有以下形式:
θ(qi,qj)=2arccos(qi,qj),
其中,q表示作为四元数的相应的样本的定向。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE102017216821.8 | 2017-09-22 | ||
DE102017216821.8A DE102017216821A1 (de) | 2017-09-22 | 2017-09-22 | Verfahren zur Erkennung einer Objektinstanz und/oder Orientierung eines Objekts |
PCT/EP2018/072085 WO2019057402A1 (de) | 2017-09-22 | 2018-08-15 | Verfahren zur erkennung einer objektinstanz und/oder orientierung eines objekts |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111149108A true CN111149108A (zh) | 2020-05-12 |
Family
ID=63405177
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201880060873.8A Pending CN111149108A (zh) | 2017-09-22 | 2018-08-15 | 识别对象实例和/或对象的定向的方法 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20200211220A1 (zh) |
EP (1) | EP3685303A1 (zh) |
CN (1) | CN111149108A (zh) |
DE (1) | DE102017216821A1 (zh) |
WO (1) | WO2019057402A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210216777A1 (en) * | 2020-01-15 | 2021-07-15 | Drishti Technologies, Inc. | Almost unsupervised cycle and action detection |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3759649B1 (en) * | 2018-04-06 | 2022-04-20 | Siemens Aktiengesellschaft | Object recognition from images using cad models as prior |
CN110084161B (zh) * | 2019-04-17 | 2023-04-18 | 中山大学 | 一种人体骨骼关键点的快速检测方法及系统 |
US11467668B2 (en) * | 2019-10-21 | 2022-10-11 | Neosensory, Inc. | System and method for representing virtual object information with haptic stimulation |
US11416065B1 (en) * | 2019-11-08 | 2022-08-16 | Meta Platforms Technologies, Llc | Synthesizing haptic and sonic feedback for textured materials in interactive virtual environments |
CN111179440B (zh) * | 2020-01-02 | 2023-04-14 | 哈尔滨工业大学 | 一种面向自然场景的三维物体模型检索方法 |
CN112950414B (zh) * | 2021-02-25 | 2023-04-18 | 华东师范大学 | 一种基于解耦法律要素的法律文本表示方法 |
US20220335679A1 (en) * | 2021-04-15 | 2022-10-20 | The Boeing Company | Computing device and method for generating realistic synthetic image data |
US11995240B2 (en) | 2021-11-16 | 2024-05-28 | Neosensory, Inc. | Method and system for conveying digital texture information to a user |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101027695A (zh) * | 2004-09-22 | 2007-08-29 | 科乐美数码娱乐株式会社 | 图像处理装置、图像处理方法、信息记录介质、以及程序 |
US20110311142A1 (en) * | 2010-06-18 | 2011-12-22 | National Ict Australia Limited | Descriptor of a hyperspectral or multispectral image |
EP3171297A1 (en) * | 2015-11-18 | 2017-05-24 | CentraleSupélec | Joint boundary detection image segmentation and object recognition using deep learning |
WO2017156243A1 (en) * | 2016-03-11 | 2017-09-14 | Siemens Aktiengesellschaft | Deep-learning based feature mining for 2.5d sensing image search |
-
2017
- 2017-09-22 DE DE102017216821.8A patent/DE102017216821A1/de not_active Withdrawn
-
2018
- 2018-08-15 WO PCT/EP2018/072085 patent/WO2019057402A1/de unknown
- 2018-08-15 EP EP18759883.4A patent/EP3685303A1/de not_active Withdrawn
- 2018-08-15 US US16/646,456 patent/US20200211220A1/en not_active Abandoned
- 2018-08-15 CN CN201880060873.8A patent/CN111149108A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101027695A (zh) * | 2004-09-22 | 2007-08-29 | 科乐美数码娱乐株式会社 | 图像处理装置、图像处理方法、信息记录介质、以及程序 |
US20110311142A1 (en) * | 2010-06-18 | 2011-12-22 | National Ict Australia Limited | Descriptor of a hyperspectral or multispectral image |
EP3171297A1 (en) * | 2015-11-18 | 2017-05-24 | CentraleSupélec | Joint boundary detection image segmentation and object recognition using deep learning |
WO2017156243A1 (en) * | 2016-03-11 | 2017-09-14 | Siemens Aktiengesellschaft | Deep-learning based feature mining for 2.5d sensing image search |
Non-Patent Citations (5)
Title |
---|
G.MORI,ET: "Pose embeddings: A deep architecture for learning to match human poses" * |
HAO SU,ET: "Render for CNN: Viewpoint Estimation in Images Using CNNs Trained With Rendered 3D Model Views" * |
P.WOHLHART,ET: "Learning Descriptors for Object Recognition and 3D Pose Estimation" * |
S.ZAKHAROV,ET: "3D object instance recognition and pose estimation using triplet loss with dynamic margin" * |
刘博: "子空间学习及其在图像集分类中的应用研究" * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210216777A1 (en) * | 2020-01-15 | 2021-07-15 | Drishti Technologies, Inc. | Almost unsupervised cycle and action detection |
US11875264B2 (en) * | 2020-01-15 | 2024-01-16 | R4N63R Capital Llc | Almost unsupervised cycle and action detection |
Also Published As
Publication number | Publication date |
---|---|
US20200211220A1 (en) | 2020-07-02 |
EP3685303A1 (de) | 2020-07-29 |
WO2019057402A1 (de) | 2019-03-28 |
DE102017216821A1 (de) | 2019-03-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111149108A (zh) | 识别对象实例和/或对象的定向的方法 | |
Huang et al. | A coarse-to-fine algorithm for matching and registration in 3D cross-source point clouds | |
Bayraktar et al. | Analysis of feature detector and descriptor combinations with a localization experiment for various performance metrics | |
Zakharov et al. | 3d object instance recognition and pose estimation using triplet loss with dynamic margin | |
Toshev et al. | Shape-based object recognition in videos using 3D synthetic object models | |
Cong et al. | Speedup 3-D texture-less object recognition against self-occlusion for intelligent manufacturing | |
EP2720171A1 (en) | Recognition and pose determination of 3D objects in multimodal scenes | |
Tsai et al. | Simultaneous 3D object recognition and pose estimation based on RGB-D images | |
Bui et al. | When regression meets manifold learning for object recognition and pose estimation | |
Buch et al. | Local Point Pair Feature Histogram for Accurate 3D Matching. | |
Ciaccio et al. | Face recognition robust to head pose changes based on the RGB-D sensor | |
CN112836566A (zh) | 针对边缘设备的多任务神经网络人脸关键点检测方法 | |
Morago et al. | An ensemble approach to image matching using contextual features | |
Wang et al. | Joint head pose and facial landmark regression from depth images | |
Fehr et al. | Rgb-d object classification using covariance descriptors | |
Sugimura et al. | Three-dimensional point cloud object detection using scene appearance consistency among multi-view projection directions | |
CN108564043B (zh) | 一种基于时空分布图的人体行为识别方法 | |
Fawwad Hussain et al. | Gray level face recognition using spatial features | |
JP6016242B2 (ja) | 視点推定装置及びその分類器学習方法 | |
Zou et al. | An improved method for model-based training, detection and pose estimation of texture-less 3D objects in occlusion scenes | |
Khuspe et al. | Robust image forgery localization and recognition in copy-move using bag of features and SVM | |
Janik et al. | Zero in on shape: A generic 2D-3D instance similarity metric learned from synthetic data | |
Li et al. | Learning weighted sparse representation of encoded facial normal information for expression-robust 3D face recognition | |
Guo et al. | A hybrid framework based on warped hierarchical tree for pose estimation of texture-less objects | |
Bogacz et al. | Feature descriptors for spotting 3D characters on triangular meshes |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20200512 |