CN113614735A - 稠密6-DoF姿态对象检测器 - Google Patents

稠密6-DoF姿态对象检测器 Download PDF

Info

Publication number
CN113614735A
CN113614735A CN202080024971.3A CN202080024971A CN113614735A CN 113614735 A CN113614735 A CN 113614735A CN 202080024971 A CN202080024971 A CN 202080024971A CN 113614735 A CN113614735 A CN 113614735A
Authority
CN
China
Prior art keywords
correspondence
color channel
mask
input image
decoder
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202080024971.3A
Other languages
English (en)
Inventor
S·扎卡罗夫
S·伊利克
I·舒古罗夫
A·胡特
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Siemens AG
Original Assignee
Siemens AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens AG filed Critical Siemens AG
Publication of CN113614735A publication Critical patent/CN113614735A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • G06T7/75Determining position or orientation of objects or cameras using feature-based methods involving models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • G06T17/10Constructive solid geometry [CSG] using solid primitives, e.g. cylinders, cubes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/90Determination of colour characteristics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • G06V20/647Three-dimensional objects by matching two-dimensional images to three-dimensional objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Geometry (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Computer Graphics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种用于输入图像(1)内的对象检测和姿态估计的方法和系统,以及若干种相关的方法和系统。使用经训练的编码器‑解码器卷积人工神经网络(20)执行6自由度对象检测和姿态估计,该经训练的编码器‑解码器卷积人工神经网络(20)包括编码器头(22)、ID掩码解码器头(24)、第一对应性颜色通道解码器头(26)和第二对应性颜色通道解码器头(28)。ID掩码解码器头(24)创建用于标识对象的ID掩码,并且颜色通道解码器头(26,28)用于创建2D到3D对应性图(31)。对于由ID掩码(34)标识的至少一个对象(11,12,13),基于所生成的2D到3D对应性图(31)以及基于对象的点与第一和第二对应性颜色通道(36,38)中的唯一值组合的预生成双射关联,来生成姿态估计(51,52,53)。

Description

稠密6-DoF姿态对象检测器
本发明涉及一种用于输入图像内的对象检测和姿态估计的计算机实现的方法、一种用于输入图像内的对象检测和姿态估计的系统、一种用于提供训练数据以用于训练供在所述方法和/或所述系统中使用的人工智能实体的方法、以及一种对应的计算机程序和数据存储介质。
姿态估计特别是6自由度、6-DoF姿态估计,其中6个自由度涉及三维主体具有的六个移动自由度:沿着正交坐标系的轴的三个线性运动方向,以及三个旋转运动——通常被指定为滚动、俯仰和偏航。
对象检测一直是计算机视觉中的一个重要问题,并且过去有大量的研究致力于此。随着深度学习的到来,新技术变得可行。
典型地,对象检测器依据围绕所述感兴趣对象的紧密边界框定位图像中的感兴趣对象。然而,在例如增强现实、机器人、机器视觉等的许多应用中,这是不够的,并且需要全6DoF姿态(有时也称为6D姿态)。
虽然在深度图像中解决该问题相当简单,但是挑战转移到利用相当少的努力取得足够质量的深度图像。使用深度相机创建深度图像。然而,可靠的深度相机通常昂贵且耗电。另一方面,可用的低质量深度传感器容易出现许多由技术本身以及由传感器设计造成的伪影。此外,深度相机通常相当不精确,具有有限视野范围,并且不适用于室外环境中。
除了深度图像之外,更常规的RGB图像原则上也可以用于对象检测和姿态估计。RGB颜色模型是一种加色模型,其中红色、绿色和蓝色以各种方式添加在一起,以再现各类的颜色。
与深度图像的问题形成对照,高质量的RGB图像更容易获得得多,这是由于以成本相当低的RGB传感器(相机)的相当高的质量,以及RGB传感器的相当低的功耗。然而,在RGB图像中,检测全6DoF姿态是一个挑战,这是由于透视模糊性和当从不同视点看时对象的显著外观改变。
最近以RGB图像为基础的基于深度学习的方法包括如下工作:
“W. Kehl, F. Manhardt, F. Tombari, S. Ilic,和N. Navab. SSD-6D: MakingRGB—based 3D detection and 6D pose estimation great again. 在Proceedings ofthe International Conference on Computer Vision (ICCV 2017), Venice, Italy,22-29页中”,下文称为“SSD6D”代表“单次多盒探测器6D”,或:
“B. Tekin, S. N. Sinha, 和P. Fua . Real-Time Seamless Single Shot 6DObject Pose Prediction. 在 arXiv: 1711.08848v5可获得”,下文称为“YOLO6D”,代表“你只看一次6D”。然而,当没有提供附加信息时,这些工作中的姿态估计相对不精确。
在检测图像中的人和他们的姿态的领域中,可获得如“R. A. Giiler, N.Neverova,和I. Kokkinos. DensePose: Dense human pose estimation in the wild.在arXiv: 1802.00434vl可获得”,下文称为“DensePose(稠密姿态)”的工作。“DensePose”方法估计人体模型的顶点与图像中的人类之间的稠密对应性。然而,“DensePose”方法需要非常复杂的注释工具和巨大的注释努力,这使得该方法采用起来是昂贵的。
US 2018/137644 A1描述了执行对象姿态估计的方法和系统,其中获得包括对象的图像,并且确定图像中对象的三维边界框的多个二维投影。然后,使用三维边界框的二维投影来估计对象的三维姿态。
科学出版物Feng Y., Wu F., Shao X., Wang Y., Zhou X. (2018), “Joint 3DFace Reconstruction and Dense Alignment with Position Map Regression Network”(在: Ferrari V. , Hebert M., Sminchisescu C., Weiss Y. (eds) Computer Vision- ECCV 2018, ECCV 2018, Lecture Notes in Computer Science, vol 11218,Springer, Cham中)描述了通过使用UV定位图基于脸部的2D图像的3D脸部重建,该UV定位图是记录所谓UV空间中所有点的3D定位的2D图像。当涉及姿态估计时,应用权重矩阵,该权重矩阵对面部的某些特征的权重高于其他特征。
因此,本发明的目的之一是提供方法和系统以及用于提供这样的方法和系统的方法,用于以增加的准确度进行准确的对象和姿态确定。
该目的通过独立权利要求的主题来解决。
根据第一方面,提供了一种用于输入图像内的对象检测和姿态估计的计算机实现的方法,所述方法包括以下步骤:
接收输入图像;
将接收到的输入图像输入人工智能实体、特别是经训练的编码器-解码器(优选:卷积)人工神经网络中,其包括编码器头、ID掩码解码器头、第一对应性颜色通道解码器头和第二对应性颜色通道解码器头;
使用ID掩码解码器头,从接收到的输入图像生成标识接收到的输入图像中的对象和背景的ID掩码;
使用第一对应性颜色通道解码器头,从接收到的输入图像为接收到的输入图像内的对象生成(鲁棒稠密的)2D到3D对应性图的第一对应性颜色通道;
使用(或基于)第二对应性颜色通道解码器头,从接收到的输入图像生成2D到3D对应性图的第二对应性颜色通道;
使用所生成的第一对应性颜色通道和所生成的第二对应性颜色通道来生成2D到3D对应性图;以及
基于生成的2D到3D对应性图和对象的预生成的对应性模型,针对由ID掩码标识的至少一个对象确定(例如,使用姿态确定模块)姿态估计(特别是6-DoF姿态估计),其中预生成的对应性模型将对象的点与第一和第二对应性颜色通道中的唯一值组合双射关联。
具体地,第一对应性颜色通道可以是RGB颜色方案的第一颜色通道,和/或第二对应性颜色通道可以是不同于第一颜色通道的RGB颜色方案的第二颜色通道。
应当理解,对应性颜色通道不指示输入图像的像素在相应颜色中的颜色值;对应性颜色通道根据预生成的点与对应性颜色通道中的唯一值组合的双射关联,通过不同的颜色强度水平来标示对象上不同点之间的空间对应性。例如,在RGB输入图像中完全为红色的像素在2D到3D对应性图中仍然可以具有100%的蓝色水平,这指示了与例如具有99%蓝色水平的点等的空间接近性。
发明人已经发现,将颜色回归问题公式化为离散颜色分类问题导致2D-3D匹配的快得多的收敛和优异质量。
本文描述的方法不依赖于回归边界框和使用感兴趣区域(ROI)层,而是使用ID掩码来提供对输入图像中的对象的更深入理解。发明人已经发现,本方法优于现有的RGB对象检测和6DoF姿态估计方法(也指定为“流水线(pipeline)”)。
2D到3D对应性图特别地可以是稠密对应性图,如例如在上面引用的“DensePose”中以每个对象的对应性图以预定最小分辨率覆盖所有点(表面点和/或线模型顶点)的意义所描述的。
注意到,其他工作通常仅计算有限数量的2D-3D对应性,例如对于YOLO6D为9个。因此,这些方法可以称为“粗糙”。相比之下,在目前的情况下,获得了远多于九个的对应性,因此术语“稠密”。结果,利用本方法,可以更鲁棒地计算最终对象姿态:如果一些对应性缺失,仍然有其他对应性。
输入图像特别地可以是RGB图像,例如由H×W×3维张量表示,其中H以像素为单位标记输入图像的高度,W以像素为单位标记输入图像的宽度(使得H×W是输入图像的像素总数),并且3源于三个颜色通道——红色、绿色和蓝色。
有利地,ID掩码可以标识输入图像内的多个对象中的每一个。
ID掩码可以由H×W×No+i维张量表示,其中No+i是(已知且经训练的)可标识对象的数量加上代表背景的1,使得对于每个像素,可获得指定像素以什么概率属于可标识对象中的每一个或属于背景的特征(或:类)。
例如,当仅三个对象是已知且经训练的时(No+i=4),那么高度定位100处和宽度定位120处的特定像素可以例如具有0.15的概率属于第一对象、0.35的概率属于第二对象、0.4的概率属于第三对象以及0.1的概率属于背景。然后,在H=100和W=120的条目处的向量可以例如读为[0.15,0.35,0.4,0.1]。在一些实施例中,当检测输入图像中的对象时,然后可以最终判定每个像素属于具有最高概率的类(即对象或背景)。在本示例中,然后将判定在H=100和W=120处的像素属于第三对象(40%的概率)。
有利地,第一和第二对应性颜色通道U、V每个被提供有数量Nu、Nv个可能的类或特征,每个类或特征指示该像素属于2D到3D对应性图的相应对应性颜色通道中的某个颜色值的概率。然后,2D到3D对应性图可以由H×W×Nu×Nv维张量来表示。以这种方式,输入图像的每个像素(由H和W标示)被提供有Nu×Nv个特征,每个特征指示该像素以什么概率属于特定颜色组合(两种颜色的强度水平的组合)。
例如,2D到3D对应性图可以被设计成使得它在第一对应性颜色通道的256个不同值(蓝色强度水平)之间和第二对应性颜色通道的256个不同值(绿色强度水平)之间进行区分。因此,2D到3D对应性图将包括256×256=65536个唯一确定的像素,每个像素具有其自己的蓝色和/或绿色的组合阴影。
在一些实施例中,然后可以最终判定对于每个对应性颜色通道,每个像素具有带有最高概率的值。例如,上面提及的在H=100和W=120处的像素可以具有最高概率(例如0.12或12%)在第一对应性颜色通道中具有255当中245的强度水平,以及具有最高概率(例如0.16或16%)在第二对应性颜色通道中具有255当中136的强度水平。然后可以最终判定在H=100和W=120处的像素具有值组合245(第一对应性颜色通道)/ 136(第二对应性颜色通道)。
对应性图将对象的点与第一和第二对应性颜色通道中的唯一值组合双射关联,即颜色的每个组合阴影唯一地对应于对象的点,并且反之亦然。这意味着,因此,判定在H=100和W=120处的像素对应于第三对象上与颜色组合阴影245/136相关联的点。
在一些有利的实施例中,第一对应性颜色通道是蓝色通道和/或第二对应性颜色通道是绿色通道。已经发现,该颜色组合尤其容易被人工智能实体辨别。
在一些有利的实施例中,至少一个姿态估计的确定使用n点透视(PnP)算法。PnP算法可以如例如在“Z. Zhang. ,A flexible new technique for camera calibration.IEEE Transactions on Pattern Analysis and Machine Intelligence 22(11) :1330 -1334. 2000年12月”中描述的那样提供。
在一些有利的实施例中,PnP算法与随机抽样一致性(RANSAC)算法一起使用。
在一些有利的实施例中,至少一个姿态估计的确定使用经训练的人工神经网络实体,该人工神经网络实体被配置和训练成从ID掩码和2D到3D对应性图为所述至少一个对象的多个3D姿态中的每一个、并且优选地为由ID掩码标识的所有对象生成概率。此后,姿态确定模块可以确定对于其已经确定了最高概率的该姿态是正确的。
在一些有利的实施例中,根据第一方面的方法进一步包括为至少一个对象生成双射关联的步骤,所述双射关联是通过使用由多个像素组成的2D对应性纹理来对对象的3D表示进行纹理化而生成的,每个像素在第一和第二对应性颜色通道中具有唯一值组合。然后,模型的每个点,例如线模型或CAD模型的顶点,与它被纹理化所利用的唯一值组合(或:颜色阴影组合)相关联。
在一些有利的实施例中,使用球面投影来执行对象的3D表示的纹理化。球面投影使用完整的球面从全部侧面对对象进行纹理化。
根据另外的方面,一种计算机程序包括可执行程序代码,所述可执行程序代码被配置为当被执行(例如由计算设备执行)时执行根据本发明第一方面的方法。
根据另一方面,一种非暂时性计算机可读数据存储介质包括可执行程序代码,所述可执行程序代码被配置为当被执行(例如由计算设备执行)时执行根据本发明第一方面的方法。
根据又一方面,一种数据流包括(或被配置为生成)可执行程序代码,该可执行程序代码被配置为当被执行(例如由计算设备执行)时执行根据本发明第一方面的方法。
根据第二方面,提供了一种用于输入图像内的对象检测和姿态估计的系统,所述系统包括:
用于接收输入图像的输入接口;
计算设备,被配置为实现经训练的编码器-解码器(优选地:卷积)人工神经网络,包括编码器头、ID掩码解码器头、第一对应性颜色通道解码器头和第二对应性颜色通道解码器头;
其中ID掩码解码器头被配置和训练成生成标识接收到的输入图像中的对象和背景的ID掩码;
其中,第一对应性颜色通道解码器头被配置和训练成为接收到的输入图像内的对象生成稠密的2D到3D对应性图的第一对应性颜色通道;
其中,第二对应性颜色通道解码器头被配置和训练成生成稠密的2D到3D对应性图的第二对应性颜色通道;
其中计算设备进一步被配置为实现组合模块和姿态确定模块;
其中,组合模块被配置为使用所生成的第一对应性颜色通道和所生成的第二对应性颜色通道来生成稠密的2D到3D对应性图;并且
其中,姿态确定模块被配置为基于所生成的2D到3D对应性图以及对象的点以及基于第一和第二对应性颜色通道中的唯一值组合的预生成的双射关联,为由ID掩码标识的至少一个对象(并且优选地为由ID掩码标识的所有对象)确定姿态估计(特别是6DoF姿态估计)。
计算设备可以被实现为用于计算、特别是用于执行软件、app或算法的任何设备或任何部件。例如,计算设备可以包括中央处理单元(CPU)和可操作地连接到CPU的存储器。计算设备还可以包括CPU阵列、图形处理单元(GPU)阵列、至少一个专用集成电路(ASIC)、至少一个现场可编程门阵列或上述的任何组合。
所述系统的一些或甚至全部模块可以由云计算平台实现。
根据第三方面,提供了一种用于提供训练数据的方法,所述训练数据用于训练供在根据第一方面的实施例的方法中使用的编码器-解码器(优选地:卷积)人工神经网络,所述方法包括:
为多个对象中的每一个提供对应于该对象的多个姿态中的每一个的相应RGB图像2D贴片(patch);
为所述多个对象中的每一个和所述多个姿态中的每一个提供对应的基准真值ID掩码贴片;
为所述多个对象中的每一个和所述多个姿态中的每一个提供对应的基准真值2D到3D对应性图贴片;
提供多个背景图像;
将所提供的RGB图像2D贴片中的至少一个布置到所述多个背景图像中的至少一个上,以便生成样本输入图像,
将对应的基准真值2D到3D对应性图贴片对应布置到黑色背景上,来为所生成的样本输入图像提供2D到3D对应性图的基准真值,以及
将对应的基准真值ID掩码贴片对应地布置到黑色背景上,来为所生成的样本输入图像提供ID掩码的基准真值。
该方法允许容易地提供大量训练数据,用于将编码器-解码器卷积人工神经网络训练到期望的准确程度。
在根据第三方面的方法的一些有利实施例中,提供了至少一个对象的3D表示(或:3D模型),例如CAD模型。3D表示可以以多个姿态中的每一个渲染在黑色背景上,或者换句话说,可以从多个虚拟相机视点中的每一个来渲染。该方法使得有可能使用已知的工具和软件——例如使用运行在图形处理单元(GPU)阵列上的图形引擎——来用于从不同的视点渲染对象的3D表示。
显然等同的是,当对象能够采取不同的姿态时,是否选择将(虚拟)相机视角定义为固定的(如在推断阶段期间可能如此,其中产生输入图像的实际相机是固定的,例如固定到墙),或者当(虚拟)相机能够采取不同的视点时,是否选择将对象定义为固定的。当然,在推断阶段中,(一个或多个)对象和产生输入图像的相机均可以是能够相对于彼此移动的。
由渲染得到的图像中的每一个都可以被裁剪,特别是以便裁掉不包括单个对象的所有像素。基于每个经裁剪的所得图像(或者,如果没有执行裁剪,则在未裁剪的所得图像上),生成对应的RGB图像2D贴片和对应的基准真值ID掩码贴片。对应的RGB图像2D贴片示出了对象在对应姿态下——即从对应的视点——的实际外观。对应的基准真值ID掩码贴片将RGB图像2D贴片与黑色背景分离,即它将RGB图像2D贴片形状内的像素标识为属于特定类(已知对象类或背景类之一)。
在一些有利的实施例中,当渲染3D表示时,使用对应的深度通道来为对应姿态中的对应对象生成深度图。深度图然后可以用于生成边界框,该边界框用于分别裁剪每个所得图像。与对象的点的深度相对应的像素一般将具有低于特定阈值的有限深度值,而对应于背景的像素可以具有无限深度值或者至少大于特定阈值的深度值。然后可以通过裁掉具有大于特定阈值的深度值的所有像素来执行裁剪。
根据第四方面,提供了一种用于提供训练数据的系统,包括:输入接口,用于接收多个背景图像(并且可选地,用于接收附加数据,诸如对象的3D表示,或者基于其可以生成对象的这样的3D表示的数据);计算设备,被配置为执行依据根据第三方面的方法的实施例的方法;以及输出接口,用于输出样本输入图像连同其基准真值ID掩码和其基准真值2D到3D对应性图作为训练数据集。
优选地,计算设备可以被实现为运行在多个CPU线程上的在线数据生成器,所述在线数据生成器不断地将准备好的批(batch)放入队列中,它们从所述队列中被挑选,作为去往被训练的编码器-解码器架构的输入。换句话说,计算设备可以被配置为连续地向被训练的编码器-解码器架构提供训练数据。
本发明还提供了一种包括可执行程序代码的计算机程序,所述可执行程序代码被配置为当被执行(例如由计算设备执行)时执行根据本发明第三方面的方法。
本发明还提供了一种包括可执行程序代码的非暂时性计算机可读数据存储介质,所述可执行程序代码被配置为当被执行(例如由计算设备执行)时执行根据本发明第三方面的方法。
本发明还提供了一种包括(或被配置为生成)可执行程序代码的数据流,所述可执行程序代码被配置为当被执行(例如由计算设备执行)时执行根据本发明第三方面的方法。
根据第五方面,提供了一种用于训练编码器-解码器(优选地:卷积)人工神经网络的方法,所述方法包括:
提供(优选地使用根据第三方面的实施例的方法)对应的样本输入图像、基准真值ID掩码和基准真值2D到3D对应性图的多个元组;以及
训练编码器-解码器(优选地:卷积)人工神经网络,其被配置为接收样本输入图像作为输入,并且输出ID掩码和2D到3D对应性图这两者作为输出,所述训练使用损失函数来执行,所述损失函数惩罚输出与基准真值ID掩码和基准真值2D到3D对应性图的偏差。
在一些有利的实施例中,在训练期间连续提供多个元组。换句话说,元组可以在执行训练方法期间动态或在线生成。这省去了在执行训练之前生成和存储大量数据的需要。
可以在训练期间例如通过由运行在多个CPU线程上的在线数据生成器执行根据第三方面的方法来连续地提供所述多个元组,所述在线数据生成器不断地将准备好的批放入队列中,它们从所述队列中被挑选作为去往被训练的编码器-解码器架构的输入。
根据另一方面,提供了一种用于训练编码器-解码器卷积人工神经网络的系统,所述系统包括:
输入接口,被配置为接收对应的样本输入图像、基准真值ID掩码和基准真值2D到3D对应性图的多个元组(优选地使用根据第三方面的实施例的方法提供);以及
计算设备,被配置为训练编码器-解码器卷积人工神经网络,所述编码器-解码器卷积人工神经网络被配置为接收样本输入图像作为输入,并且输出ID掩码和2D到3D对应性图这两者作为输出,所述训练使用损失函数来执行,所述损失函数惩罚输出与基准真值ID掩码和基准真值2D到3D对应性图的偏差。
本发明还提供了一种包括可执行程序代码的计算机程序,所述可执行程序代码被配置为当被执行(例如由计算设备执行)时执行根据本发明第五方面的方法。
本发明还提供了一种包括可执行程序代码的非暂时性计算机可读数据存储介质,所述可执行程序代码被配置为当被执行(例如由计算设备执行)时执行根据本发明第五方面的方法。
本发明还提供了一种数据流,所述数据流包括(或被配置为生成)可执行程序代码,所述可执行程序代码被配置为当被执行(例如由计算设备执行)时执行根据本发明第五方面的方法。
在从属权利要求中以及结合附图的以下描述中描述并且包括了进一步的有利变型和实施例。
附图说明
将参考附图中描绘的示例性实施例更详细地解释本发明。
随附附图被包括在内以提供对本发明的进一步理解,并且被并入本说明书中并构成本说明书的一部分。附图图示了本发明的实施例,并且与描述一起用于解释本发明的原理。
通过参考以下详细描述,本发明的其他实施例和本发明的许多预期优点将因为它们变得更好理解而容易领会。同样的参考标号指定对应的相似部分。应理解,方法步骤被编号是为了更容易参考,但是所述编号不一定暗示步骤以该顺序执行,除非另外明确或隐含地描述。特别地,步骤也可以以不同于它们的编号所指示的顺序来执行。一些步骤可以同时或以重叠的方式执行。
图1示意性地示出了图示根据第二方面的实施例的系统的框图;
图2示意性地图示了根据第三方面的实施例的方法;
图3示意性地图示了根据第五方面的实施例的方法;
图4示意性地图示了根据实施例的计算机程序产品;和
图5示意性地图示了根据实施例的数据存储介质。
具体实施方式
图1示意性地图示了根据第一方面的实施例的用于输入图像内的对象检测和姿态估计的计算机实现的方法,以及根据第二方面的实施例的用于输入图像内的对象检测和姿态估计的系统1000。
应当理解的是,本文和前面关于根据第一方面的方法的实施例描述的所有有利的选项、变型和修改可以同等地应用于根据第二方面的系统的实施例或在其中提供,并且反之亦然。
在下文中,将参考图1并特别是结合系统1000的特征来解释该方法。然而,应当理解,该方法不限于利用系统1000执行,并且反之亦然。
系统1000包括输入接口10、计算设备100和输出接口50。
在该方法的第一步骤S10中,例如通过系统1000的输入接口10接收输入图像1。输入接口10可以由如下各项组成或者包括如下各项:连接到例如工厂或医院的总线系统的本地接口,和/或用于远程连接的接口,诸如用于连接到无线LAN或WAN连接、特别是连接到云计算系统和/或互联网的接口。
输入图像1优选地是RGB图像,例如,输入图像1优选地由H×W×3维张量表示,其中H以像素为单位标记输入图像1的高度,W以像素为单位标记输入图像1的宽度(使得H×W是输入图像的像素总数),并且3源于三个RGB颜色通道——红、绿和蓝(RGB)。
输入图像优选地包括该方法或系统旨在检测(或:标识)并且针对其需要6-DoF姿态信息的一个或多个对象11。
在步骤S20中,接收到的输入图像1被输入到经训练的人工智能实体、特别是经训练的编码器-解码器卷积人工神经网络20中。经训练的编码器-解码器卷积人工神经网络20被实现为包括编码器头22、ID掩码解码器头24、第一对应性颜色通道解码器头26和第二对应性颜色通道解码器头28。应当理解,可以提供与附加颜色相关联的附加颜色解码器头,用于附加的可靠性和/或冗余性。特别地,可以可选地提供第三颜色解码器头。
经训练的编码器-解码器卷积人工神经网络20被配置和训练用于特定的、先前已知的对象的检测和姿态确定。例如,在工厂环境中,这样的对象可以包括机器人、工件、车辆、可移动装备、源材料和/或诸如此类。作为对象的示例,在图1中,输入图像1被示出为在背景14之前包括泰迪熊11、鸡蛋盒12和相机13。
编码器头22例如可以通过以允许更快收敛的残差层为特征的12层ResNet状架构来实现。例如,ResNet架构在“K. He, X. Zhang, S. Ren和J. Sun,Deep ResidualLearning for Image Recognition,2016 IEEE Conference on Computer Vision andPattern Recognition (CVPR) , 第770-778页,IEEE”中有描述。
然而,原则上,所提出的方法对于已知种类繁多的编码器-解码器架构的特定选择是不可知的。也可以使用任何其他主干架构,而没有任何改变该方法的概念原理的需要。
在系统1000中,经训练的编码器-解码器卷积人工神经网络20可以由计算设备100实现。
计算设备100可以被实现为用于计算、特别是用于执行软件、app或算法的任何设备或任何部件。例如,计算设备可以包括中央处理单元(CPU)和可操作地连接到CPU的存储器。计算设备100还可以包括CPU阵列、图形处理单元(GPU)阵列、至少一个专用集成电路(ASIC)、至少一个现场可编程门阵列或上述的任何组合。系统1000的一些或者甚至所有模块(特别是解码器和/或编码器头)可以由作为计算设备100的云计算平台来实现。
在步骤S22中,接收到的输入图像1由编码器头22编码成具有潜在特征的潜在(或:隐藏)表示。
在步骤S24中,ID掩码解码器头24生成标识对象11、12、13和背景14的ID掩码34。换句话说,ID掩码解码器头24被配置和训练成从接收到的输入图像1生成ID掩码34。
有利地,ID掩码解码器头24被配置和训练成通过为输入图像的每个像素和每个已知对象提供该像素属于该对象的概率,来在相同的数据结构中同时为经训练的编码器-解码器卷积人工神经网络20已知的所有对象11、12、13生成ID掩码34。因此,已知对象由预定义的类来表示,并且ID掩码34包括每个类的特征(对象类加上背景类)。
ID掩码34可以例如由H×W×No+i维张量表示,其中No+i是(已知且经训练的)可标识对象11、12、13的数量加上代表背景14的1,使得对于每个像素,可获得指定该像素以什么概率属于可标识对象11、12、13中的每个或属于背景14的特征。
在可选的步骤S35中,可以为每个像素确定(例如,通过由计算设备100实现的对象标识器模块35)它属于哪个对象11、12、13或背景14,优选地通过为每个像素确定具有最高概率值的ID掩码34的特征。该确定的结果可以存储在最终化的ID掩码中。
例如,当仅上述三个对象11、12、13是已知并经训练的时(No+i=4),那么高度定位100处和宽度定位120处的特定像素可以例如具有0.15的概率属于第一对象(泰迪熊11)、0.35的概率属于第二对象(鸡蛋盒12)、0.4的概率属于第三对象(相机13)以及0.1的概率属于背景14。然后,在H=100和W=120的条目处的特征向量可以例如读为[0.15,0.35,0.4,0.1]。
在步骤S26中,第一对应性颜色通道解码器头26为接收到的输入图像1中的对象11、12、13生成2D到3D对应性图31的第一对应性颜色通道36。换句话说,第一对应性颜色通道解码器头26被配置和训练(和实现)为从作为其输入的接收到的输入图像1生成接收到的输入图像1内的对象11、12、13的2D到3D对应性图31的第一对应性颜色通道36。在本示例中,第一对应性颜色通道36是RGB颜色方案的蓝色通道。
在步骤S28中,第二对应性颜色通道解码器头28为接收到的输入图像1内的对象11、12、13生成2D到3D对应性图31的第二对应性颜色通道38。换句话说,第二对应性颜色通道解码器头28被配置和训练(和实现)为从作为其输入的接收到的输入图像1生成接收到的输入图像1内的对象11、12、13的2D到3D对应性图31的第二对应性颜色通道38。在本示例中,第二对应性颜色通道38是RGB颜色方案的绿色通道。显然,其他颜色通道也可以用于第一和第二对应性颜色通道38,或者甚至可以使用三个颜色通道,从而以计算资源为代价得到附加的可靠性和冗余性。
第一对应性颜色通道36和第二对应性颜色通道38(其可以分别被指定为U和V)各自有利地被提供有数量Nu、Nv个特征(或:类),每个特征指示该像素属于2D到3D对应性图的相应对应性颜色通道36、38中的某个颜色值的概率。然后,2D到3D对应性图可以由H×W×Nu×Nv维张量来表示。以这种方式,输入图像的每个像素(由其H和W值标识)被提供有Nu×Nv个特征,每个特征指示该像素以什么概率属于特定颜色组合(两种颜色的强度水平的组合)。
例如,2D到3D对应性图31可以被设计成使得它在第一对应性颜色通道的256个不同值(蓝色强度水平)之间和第二对应性颜色通道38的256个不同值(绿色强度水平)之间进行区分。因此,2D到3D对应性图将包括256×256=65536个唯一确定的像素,每个像素具有其自己的蓝色和/或绿色的组合阴影。
ID掩码解码器头24以及第一对应性颜色通道解码器头26和第二对应性颜色通道解码器头28使用双线性内插、继之以卷积层的堆叠,来将由编码器头22生成的潜在特征上采样直到其原始大小。然而,应当理解的是,再次,所提出的方法对于编码器-解码器架构的特定选择是不可知的,使得任何已知的编码器-解码器架构都可以用于编码器-解码器卷积人工神经网络20。
在步骤S32中,2D到3D对应性图31是使用所生成的第一对应性颜色通道36和所生成的第二对应性颜色通道38而生成的图,特别是其中每个像素被分配了颜色阴影组合,该颜色阴影组合由来自第一对应性颜色通道36的具有最高概率的特征(或:表示颜色强度水平的类)以及来自第二对应性颜色通道38的具有最高概率的特征(或:表示强度水平的类)给出。
例如,上面提及的在H=100和W=120处的像素可以具有最高概率(例如0.12或12%)在第一对应性颜色通道36中具有255当中245的强度水平,以及具有最高概率(例如0.16或16%)在第二对应性颜色通道38中具有255当中136的强度水平。然后可以最终判定在H=100且W=120处的像素具有值组合245(第一对应性颜色通道36)/136(第二对应性颜色通道38)。然后,2D到3D对应性图31将用颜色或阴影组合245/136来标记该像素。
可替代地,已经分别在步骤S26和S28中,可以生成相应的单个对应性颜色通道图像,其中每个像素以针对其已经确定了最高概率的相应颜色存储类(即颜色强度水平)。在上面的示例中,第一颜色(蓝色)单一对应性颜色通道图像将使H=100且W120处的像素具有值245,并且第二颜色(绿色)单一对应性颜色通道图像将使相同的像素具有值136。
步骤S32可以通过由系统1000的计算设备100实现的组合模块32来执行。
在步骤S40中,基于所生成的2D到3D对应性图31以及基于至少一个对象的点与第一对应性颜色通道36和第二对应性颜色通道38中的唯一值组合的对应预生成双射关联,来为输入图像1内的至少一个对象11、12、13、优选地为所有对象11、12、13生成姿态估计51、52、53。优选地,对于由ID掩码34标识的每个对象11、12、13,生成(或:确定或提供)对应的姿态估计51、52、53。
至少一个对象的点可以是对象表面上的点或对象的线模型或近似对象11、12、13的线模型的顶点。
步骤S40可以通过由系统1000的计算设备100实现的姿态确定模块40来执行。换句话说,姿态确定模块40被配置为基于所生成的2D到3D对应性图31以及基于至少一个对象的点与第一对应性颜色通道36和第二对应性颜色通道38中的唯一值组合的对应预生成双射关联,来为输入图像1内的至少一个对象、优选地为所有对象生成姿态估计。
步骤S40可以利用诸如已知的n点透视(PnP)算法的算法42,可选地与随机抽样一致性(RANSAC)算法组合。在给定相机的对应性和固有参数的情况下,PnP算法估计姿态(即,每个对象相对于从其拍摄输入图像1的视点——例如相机的位置——的相对定向)。在给定许多对应性的情况下,利用RANSAC算法细化的PnP算法对可能的异常值更加鲁棒。PnP算法可以如例如在“Z. Zhang.,A flexible new technique for camera calibration, IEEETransactions on Pattern Analysis and Machine Intelligence 22(11):1330–1334,2000年12月”中描述的那样提供。
可替代地或附加地,如前文中所述,经训练的人工智能实体44(诸如经训练的人工神经网络)可以被用来从2D到3D对应性图31以及从包含在ID掩码34中或最终化ID掩码中的关于对象11、12、13和背景14的信息生成姿态确定。
然后,例如由系统1000的输出接口50输出步骤S40的结果或者相应地姿态确定模块40的结果。输出接口50可以由如下各项组成或者包括如下各项:连接到例如工厂或医院的总线系统的本地接口,和/或用于远程连接的接口,诸如用于连接到无线LAN或WAN连接、特别是连接到云计算系统和/或互联网的接口。所确定的姿态估计51、52、53可以例如由十二个值输出:形成用于描述每个对象11、12、13的定向的旋转矩阵的九个旋转值Rij,以及形成描述每个对象11、12、13的质心或空间点的向量的三个位置值Tx、Ty、Tz。
对象11、12、13的点与第一对应性颜色通道36和第二对应性颜色通道38中的唯一值组合的双射关联可以通过如下文中参考图2描述的步骤来生成。应当理解,这些步骤可以作为根据第一方面的方法的一部分来执行,特别是针对经训练的编码器-解码器卷积人工神经网络20应已知的、或者换句话说应针对其训练编码器-解码器卷积人工神经网络20的每个对象11、12、13来执行。
然而,如参考图2描述的步骤也可以是根据第三方面的方法的步骤,即用于提供训练数据以用于训练编码器-解码器卷积人工神经网络的方法的步骤。
在步骤S110中,对于多个对象11、12、13中的每一个,提供、特别是生成了对应于该对象的多个姿态中的每一个的相应RGB图像2D贴片。
在步骤S120中,对于多个对象中的每一个和多个姿态中的每一个,提供、特别是生成对应的基准真值ID掩码贴片。
例如,至少一个对象11、12、13或所有对象11、12、13的3D表示(或:模型,例如,CAD模型)可以被提供并渲染为来自不同视点的在黑色背景前的RGB图像,每个视点对应于对象11、12、13相对于该视点的一个姿态。为了生成相应的RGB图像2D贴片,渲染的RGB图像可以被裁剪成除了一个单一对象11、12、13之外包括尽可能少的像素,并且背景可以被裁掉。结果是在对应的姿态中(即,从对应的视点)精准地覆盖对应的对象11、12、13的RGB图像2D贴片。
根据一个变型,对于感兴趣的对象11、12、13的给定3D表示,第一子步骤是在不同的姿态中渲染它们。姿态例如相应地由围绕每个对象的3D表示放置的二十面体的顶点(“采样顶点”)来定义。为了实现更精细的采样,可以将每个二十面体的三角形递归地细分为四个更小的三角形,直到获得3D表示的采样顶点的期望密度,每个采样顶点对应于一个姿态。例如,使用了4个细分。
附加地,虚拟视图相机可以在每个采样顶点处围绕其查看方向在两个极限之间以固定步幅(例如从-30度到30度,以5度的步幅)旋转,以对导致又一附加姿态的平面内旋转进行建模。
然后,对于每个姿态,每个对象被渲染在黑色背景上,并且存储RGB和深度通道这两者。使用深度通道,可以为每个姿态生成深度图。在手头具有渲染的情况下,生成的深度图可以被用作掩码来为每个生成的渲染限定紧密的边界框,即除了渲染中感兴趣的对象11、12、13之外包括尽可能少的像素的边界框。
然后可以利用该边界框裁剪图像。从背景中裁出RGB贴片,并且将其存储为RGB图像2D贴片。将这些贴片与背景分离的掩码被存储为基准真值ID掩码贴片,并且对应的姿态(即,虚拟相机定位或对象相对于虚拟相机的相对定向)被存储为基准真值姿态。
当然,也可以通过检测和标注真实世界图像中的真实世界对象来提供成对的RGB图像2D贴片和对应基准真值ID掩码贴片。
在步骤S130中,对于多个对象11、12、13中的每一个以及对于多个姿态中的每一个,提供、特别是生成对应的基准真值2D到3D对应性图贴片。
例如,步骤S130可以包括为每个对象11、12、13提供或生成对应性模型,其中通过使用由多个像素组成的2D对应性纹理对对象11、12、13的3D表示进行纹理化来生成对应性模型,每个像素在第一对应性颜色通道36和第二对应性颜色通道38中具有唯一值组合。可以使用2D对应性纹理到对象11、12、13的3D表示上的球面投影来执行3D表示的纹理化。2D对应性纹理可以是例如对于蓝色(第一维度)和绿色(第二维度)这两者具有从例如1到255的范围的颜色强度水平的2D图像。
以与上面针对步骤S110和S120描述的相同的方式,使用相同的姿态和相同的黑色背景,然后可以生成基准真值2D到3D对应性图贴片,即覆盖相应姿态中的对象但不示出真实的RGB颜色值而是示出2D对应性纹理的颜色组合阴影的贴片,该对应性纹理指示像素相对于彼此的空间布置。
在执行步骤S110、S120和S130之后,准备用于单个姿态中的单个对象11、12、13的ID掩码和2D到3D对应性图这两者的基准真值,以及对应的RGB图像2D贴片。
在步骤S140中,提供至少一个背景,优选地提供多个背景图像,例如来自微软(商标)上下文中常见对象(MSCOCO)数据集的图像。在大量背景图像之间变化背景图像具有如下的优点,即在训练期间,编码器-解码器架构不会与背景过拟合。换句话说,这确保了编码器-解码器架构一般化到不同的背景,并防止它与训练期间看到的背景过拟合。此外,它迫使编码器-解码器架构学习对于姿态估计所需的模型的特征,而不是学习当场景改变时图像中可能不存在的上下文特征。
然后,在步骤S150中,将所提供的RGB图像2D贴片(理想地包括所有姿态中的所有对象)中的至少一个布置到多个背景图像中的至少一个上,以便生成样本输入图像。可选地,该样本输入图像还例如通过亮度、饱和度和/或对比度值方面的随机改变和/或通过添加高斯噪声被增强。
对应地,在步骤S160中,将对应的基准真值2D到3D对应性图贴片(以与所选背景图像上的RGB图像2D页面相同的定位和定向)布置到黑色背景上(具有与所选背景图像相同的尺寸),来为所生成的样本输入图像提供2D到3D对应性图的基准真值。
对应地,在步骤S170中,黑色背景上的对应基准真值ID掩码贴片(以与所选背景图像上的RGB图像2D页面相同的定位和定向)被布置,来为所生成的样本输入图像提供ID掩码的基准真值。
所有步骤S110至S170,或者至少特别是步骤S150至S170可以以在线方式执行,即,在训练编码器-解码器架构时每当需要另一个训练集时动态地执行。
可以提供一种用于提供训练数据的系统,该系统具有:输入接口,用于接收多个背景图像(并且可选地,用于接收附加数据,诸如对象的3D表示,或者可以基于其生成对象的这样的3D表示的数据);计算设备,被配置为执行步骤S110至S170;以及输出接口,用于输出样本输入图像连同其基准真值ID掩码和其基准真值2D到3D对应性图作为训练数据集。
优选地,计算设备可以被实现为运行在多个CPU线程上的在线数据生成器,所述在线数据生成器不断地将准备好的批放入队列中,它们从所述队列中被挑选作为去往被训练的编码器-解码器架构的输入。
本发明还提供了一种包括可执行程序代码的计算机程序,所述可执行程序代码被配置为当被执行(例如由计算设备执行)时执行特别是如参考图2描述的根据本发明第三方面的方法。
本发明还提供了一种包括可执行程序代码的非暂时性计算机可读数据存储介质,所述可执行程序代码被配置为当被执行(例如由计算设备执行)时执行特别是如参考图2描述的根据本发明第三方面的方法。
本发明还提供了一种包括(或被配置为生成)可执行程序代码的数据流,所述可执行程序代码被配置为当被执行(例如由计算设备执行)时执行特别是如参考图2描述的根据本发明第三方面的方法。
图3示意性地图示了根据第五方面的实施例的方法,该方法用于训练编码器-解码器架构以供在根据第一方面的方法的实施例中使用和/或以供在根据第二方面的系统的实施例中使用。
在步骤S210中,提供对应的样本输入图像、基准真值ID掩码和基准真值2D到3D对应性图的多个元组。这可以包括执行特别是如参考图2描述的根据第三方面的方法。
有利地,步骤S210以在线方式执行,即元组被连续生成,可能在多个并行的CPU线程上。
元组,特别是当它们基于真实世界数据生成因此它们在数量方面有限得多时,可以被划分成不重叠的训练子集和测试子集。优选地,10%与20%之间的元组(优选15%)可以用于训练子集,并且其余部分用于测试子集。
优选地,选择相同对象的元组,使得它们之间的姿态的相对定向大于预定阈值。这保证了,对于对应的最小数量的姿态,所选择的元组从全部侧面覆盖每个对象。
在步骤S220中,训练编码器-解码器卷积人工神经网络20,其被配置为接收样本输入图像作为输入,并且输出ID掩码和2D到3D对应性图这两者作为输出,所述训练使用损失函数来执行,所述损失函数惩罚输出与基准真值ID掩码和基准真值2D到3D对应性图的偏差。
例如,可以使用由掩码损失Lm、第一对应性颜色通道损失LU和第二对应性颜色通道损失LV的各个损失函数之和给出的复合损失函数Lcomp:
Figure DEST_PATH_IMAGE001
其中×通常标示乘法,并且a、b和c可以是也可以设置为1的权重因子。掩码损失Lm指示和惩罚由编码器-解码器架构针对ID掩码的结果与基准真值ID掩码的偏差引起的损失。第一/第二对应性颜色通道损失LU,LV指示并惩罚由编码器-解码器架构针对2D到3D对应性图的结果与基准真值2D到3D对应性图的偏差引起的损失。
LU和LV可以被定义为多类交叉熵函数。Lm可以是多类交叉熵函数的加权版本,例如由下式给出:
Figure DEST_PATH_IMAGE003
其中yc是类c的输出分数,w设置每个类(第1对象/第2对象/.../背景)的重新缩放权重,其中
Figure DEST_PATH_IMAGE005
是e的yj(对于从1到No+i的j)次幂之上的和,其中No+i是类的总数(即对象类或不同对象的数量,加上代表背景类的1)。重新缩放权重优选地对于背景类设置为0.01并且对于每个对象类设置为1。
在前面的详细描述中,出于简化本公开的目的,各种特征被组合在一个或多个示例中。要理解,以上描述旨在是说明性的而非限制性的。它旨在涵盖所有替代、修改和等同物。在查阅了以上说明书后,许多其他示例对于本领域技术人员来说应当是显而易见的。
图4示意了包括可执行程序代码350的计算机程序产品300。可执行程序代码350可以被配置为当被执行(例如由计算设备执行)时执行根据第一方面的方法。可替代地,可执行程序代码350可以被配置为当被执行(例如由计算设备执行)时执行根据第三方面的方法或者根据第五方面的方法。
图5示意性地图示了包括可执行程序代码450的非暂时性计算机可读数据存储介质400,该可执行程序代码450被配置为当被执行(例如由计算设备执行)时执行根据第一方面的方法。可替代地,可执行程序代码450可以被配置为当被执行(例如由计算设备执行)时执行根据第三方面的方法或根据第五方面的方法。
参考符号
1 输入图像
10 输入接口
11 第一对象(泰迪熊)
12 第二对象(鸡蛋盒)
13 第三对象(相机)
14 背景
20 编码器-解码器人工神经网络
22 编码器头
24 ID掩码解码器头
26 第一对应性颜色通道解码器头
28 第二对应性颜色通道解码器头
31 2D到3D对应性图
32 组合模块
34 ID掩码
35 对象标识器模块
36 第一对应性颜色通道
38 第二对应性颜色通道
40 姿态确定模块
42 算法
44 人工智能实体
50 输出接口
51 第一对象的姿态估计
52 第二对象的姿态估计
53 第三对象的姿态估计
100 计算设备
1000 系统
350 程序代码
450 数据存储介质
450 程序代码
S110至S170
方法步骤
S210至S220
方法步骤
300 计算机程序产品。

Claims (15)

1.一种用于输入图像(1)内的对象检测和姿态估计的计算机实现的方法,包括如下步骤:
接收(S10)输入图像(1);
将接收到的输入图像(1)输入(S20)到经训练的编码器-解码器卷积人工神经网络(20)中,所述经训练的编码器-解码器卷积人工神经网络(20)包括编码器头(22)、ID掩码解码器头(24)、第一对应性颜色通道解码器头(26)和第二对应性颜色通道解码器头(28);
使用ID掩码解码器头(24)生成(S24)标识接收到的输入图像(10)中的对象(11,12,13)和背景(14)的ID掩码(34);
使用第一对应性颜色通道解码器头(24)为接收到的输入图像(1)内的对象(11,12,13)生成(S26)2D到3D对应性图(31)的第一对应性颜色通道(36);
使用第二对应性颜色通道解码器头(26)生成(S28)2D到3D对应性图(31)的第二对应性颜色通道(38);
使用所生成的第一对应性颜色通道(36)和所生成的第二对应性颜色通道(38)生成(S32)2D到3D对应性图(31);以及
基于所生成的2D到3D对应性图(31)以及基于对象的点与第一和第二对应性颜色通道(36,38)中的唯一值组合的预生成双射关联,来为由ID掩码(34)标识的至少一个对象(11,12,13)确定(S40)姿态估计(51,52,53)。
2.根据权利要求1所述的方法,其中第一对应性颜色通道(36)是蓝色通道和/或其中第二对应性颜色通道(38)是绿色通道。
3.根据权利要求1或2所述的方法,其中姿态估计(51,52,53)的确定(S40)使用n点透视PnP算法(42)。
4.根据权利要求3所述的方法,其中所述PnP算法(42)与随机抽样一致性算法RANSAC一起使用。
5.根据权利要求1至4中任一项所述的方法,其中姿态估计(51,52,53)的确定(S40)使用经训练的人工神经网络实体(44),所述经训练的人工神经网络实体(44)被配置和训练成从ID掩码(34)和2D到3D对应性图(31)生成至少一个对象(11,12,13)的多个3D姿态中的每一个的概率。
6.根据权利要求1至5中任一项所述的方法,
进一步包括为至少一个对象(11,12,13)生成双射关联的步骤,所述双射关联是通过使用由多个像素组成的2D对应性纹理来对对象的3D表示进行纹理化而生成的,每个像素在第一和第二对应性颜色通道(36,38)中具有唯一值组合。
7.根据权利要求6所述的方法,
其中使用球面投影来执行所述至少一个对象(11,12,13)的3D表示的纹理化。
8.一种用于提供训练数据的方法,所述训练数据用于训练编码器-解码器卷积人工神经网络(20)以供在根据权利要求1至7中任一项所述的方法中使用,所述方法包括:
为多个对象(11,12,13)中的每一个提供(S110)对应于该对象(11,12,13)的多个姿态中的每一个的相应RGB图像2D贴片;
为所述多个对象(11,12,13)中的每一个以及为所述多个姿态中的每一个提供(S120)对应的基准真值ID掩码贴片;
为所述多个对象(11,12,13)中的每一个以及为所述多个姿态中的每一个提供(S130)对应的基准真值2D到3D对应性图贴片;
提供(S140)多个背景图像;
将所提供的RGB图像2D贴片中的至少一个布置(S150)到所述多个背景图像中的至少一个上,以便生成样本输入图像,
将对应的基准真值2D到3D对应性图贴片对应地布置(S160)到黑色背景上,来为所生成的样本输入图像提供2D到3D对应性图的基准真值,以及
将对应的基准真值ID掩码贴片对应地布置(S170)到黑色背景上,来为所生成的样本输入图像提供基准真值ID掩码。
9.根据权利要求8所述的方法,
其中提供了至少一个对象的3D表示,并且其中在黑色背景上以所述多个姿态中的每一个来渲染3D表示;
其中所得图像中的每一个被裁剪;并且其中基于经裁剪的所得图像中的每一个,生成对应的RGB图像2D贴片和将RGB图像2D贴片与黑色背景分离的对应基准真值ID掩码贴片。
10.根据权利要求9所述的方法,
其中,当渲染3D表示时,对应的深度通道用于生成深度图,并且其中深度图用于生成边界框,所述边界框用于分别裁剪每个所得图像。
11.一种用于训练编码器-解码器卷积人工神经网络(20)的方法,包括:
提供对应的样本输入图像、基准真值ID掩码和基准真值2D到3D对应性图的多个元组;和
训练编码器-解码器卷积人工神经网络(20),所述编码器-解码器卷积人工神经网络(20)被配置为接收样本输入图像作为输入,并且输出2D到3D对应性图(31)和标识样本输入图像内的对象的ID掩码(34)这两者作为输出,所述训练使用损失函数来执行,所述损失函数惩罚输出与基准真值ID掩码和基准真值2D到3D对应性图的偏差。
12.根据权利要求11所述的方法,其中在训练期间连续提供所述多个元组。
13.用于输入图像(1)内的对象检测和姿态估计的系统(1000),包括:
用于接收输入图像(l)的输入接口(10);
计算设备(100),被配置为实现经训练的编码器-解码器卷积人工神经网络(20),所述经训练的编码器-解码器卷积人工神经网络(20)包括编码器头(28)、ID掩码解码器头(22)、第一对应性颜色通道解码器头(24)和第二对应性颜色通道解码器头(26);
其中ID掩码解码器头(24)被配置和训练成生成(S24)标识接收到的输入图像(10)中的对象(11,12,13)和背景(14)的ID掩码(34);
其中,第一对应性颜色通道解码器头(26)被配置和训练成为接收到的输入图像(1)内的对象(11,12,13)生成(S26)2D到3D对应性图(31)的第一对应性颜色通道(36);
其中,第二对应性颜色通道解码器头(28)被配置和训练成生成(S28)2D到3D对应性图(31)的第二对应性颜色通道(38);
其中,计算设备进一步被配置为实现组合模块(32)和姿态确定模块(40);
其中,组合模块(32)被配置为使用所生成的第一对应性颜色通道(36)和所生成的第二对应性颜色通道(38)来生成(S32)2D到3D对应性图(31);并且
其中,姿态确定模块(40)被配置为基于所生成的2D到3D对应性图(31)以及基于对象的点与第一和第二对应性颜色通道(36,38)中的唯一值组合的预生成双射关联,来为由ID掩码(34)标识的对象(11,12,13)确定(S40)姿态估计(51,52,53)。
14.包括可执行程序代码(350)的计算机程序产品(300),所述可执行程序代码(350)被配置为当由计算设备(100)执行时,执行根据权利要求1至7中任一项的方法。
15.包括可执行程序代码(450)的非暂时性计算机可读数据存储介质(400),所述可执行程序代码(450)被配置为当由计算设备(100)执行时,执行根据权利要求1至7中任一项的方法。
CN202080024971.3A 2019-02-01 2020-01-17 稠密6-DoF姿态对象检测器 Pending CN113614735A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP19155034.2 2019-02-01
EP19155034 2019-02-01
PCT/EP2020/051136 WO2020156836A1 (en) 2019-02-01 2020-01-17 Dense 6-dof pose object detector

Publications (1)

Publication Number Publication Date
CN113614735A true CN113614735A (zh) 2021-11-05

Family

ID=65279418

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202080024971.3A Pending CN113614735A (zh) 2019-02-01 2020-01-17 稠密6-DoF姿态对象检测器

Country Status (4)

Country Link
US (1) US11915451B2 (zh)
EP (1) EP3903226A1 (zh)
CN (1) CN113614735A (zh)
WO (1) WO2020156836A1 (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP4064125A1 (en) 2021-03-22 2022-09-28 Siemens Aktiengesellschaft Multi-dimensional object pose regression
CN113393522B (zh) * 2021-05-27 2022-05-06 湖南大学 一种基于单目rgb相机回归深度信息的6d位姿估计方法
US20220414928A1 (en) * 2021-06-25 2022-12-29 Intrinsic Innovation Llc Systems and methods for generating and using visual datasets for training computer vision models
EP4242981A1 (en) 2022-03-11 2023-09-13 Siemens Aktiengesellschaft Multi-stage object pose estimation
CN116894907B (zh) * 2023-09-11 2023-11-21 菲特(天津)检测技术有限公司 一种rgbd相机纹理贴图优化方法及系统

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10235771B2 (en) 2016-11-11 2019-03-19 Qualcomm Incorporated Methods and systems of performing object pose estimation
US10733755B2 (en) * 2017-07-18 2020-08-04 Qualcomm Incorporated Learning geometric differentials for matching 3D models to objects in a 2D image
US10769411B2 (en) * 2017-11-15 2020-09-08 Qualcomm Technologies, Inc. Pose estimation and model retrieval for objects in images
US10695911B2 (en) * 2018-01-12 2020-06-30 Futurewei Technologies, Inc. Robot navigation and object tracking

Also Published As

Publication number Publication date
US20220101639A1 (en) 2022-03-31
US11915451B2 (en) 2024-02-27
EP3903226A1 (en) 2021-11-03
WO2020156836A1 (en) 2020-08-06

Similar Documents

Publication Publication Date Title
CN111328396B (zh) 用于图像中的对象的姿态估计和模型检索
JP7250709B2 (ja) 畳み込み画像変換を使用して同時位置特定およびマッピングを実施する方法およびシステム
JP7403700B2 (ja) ホモグラフィ適合を介した完全畳み込み着目点検出および記述
Billings et al. Silhonet: An rgb method for 6d object pose estimation
Park et al. Pix2pose: Pixel-wise coordinate regression of objects for 6d pose estimation
CN113614735A (zh) 稠密6-DoF姿态对象检测器
CN109003325B (zh) 一种三维重建的方法、介质、装置和计算设备
JP7178396B2 (ja) 入力映像に含まれた客体の3次元ポーズの推定のためのデータを生成する方法およびコンピュータシステム
JP4999717B2 (ja) レンジ画像から物体の姿勢を求める方法及びシステム
US20180137644A1 (en) Methods and systems of performing object pose estimation
Romero-Ramire et al. Fractal Markers: a new approach for long-range marker pose estimation under occlusion
KR100974900B1 (ko) 동적 임계값을 이용한 마커 인식 장치 및 방법
CN112258618A (zh) 基于先验激光点云与深度图融合的语义建图与定位方法
JP7357676B2 (ja) 自己改良ビジュアルオドメトリを実施するためのシステムおよび方法
CN111401266B (zh) 绘本角点定位的方法、设备、计算机设备和可读存储介质
Watanabe et al. Extended dot cluster marker for high-speed 3d tracking in dynamic projection mapping
Zhang et al. A practical robotic grasping method by using 6-D pose estimation with protective correction
Zhang et al. Vehicle global 6-DoF pose estimation under traffic surveillance camera
GB2571953A (en) Single view tracking of cylindrical objects
WO2021167586A1 (en) Systems and methods for object detection including pose and size estimation
KR20230150867A (ko) 얼굴 표정, 신체 자세 형상 및 의류 퍼포먼스 캡처를 위해 암시적 구별가능 렌더러를 사용하는 멀티뷰 신경 사람 예측
US20240037788A1 (en) 3d pose estimation in robotics
Kang et al. Yolo-6d+: single shot 6d pose estimation using privileged silhouette information
CN108694348B (zh) 一种基于自然特征的跟踪注册方法及装置
CN111915632B (zh) 一种基于机器学习的贫纹理目标物体真值数据库构建方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination