CN113994376A

CN113994376A - 多个彼此相对运动的刚性对象的检测、三维重建和跟踪

Info

Publication number: CN113994376A
Application number: CN202080043551.XA
Authority: CN
Inventors: A·罗斯
Original assignee: Conti Temic Microelectronic GmbH
Current assignee: Continental Zhixing Germany Co ltd
Priority date: 2019-06-05
Filing date: 2020-05-28
Publication date: 2022-01-28
Also published as: WO2020244717A1; US20220319042A1; EP3980968B1; EP3980968A1; DE102019208216A1; DE112020002663A5; JP2022532792A; US12008785B2; JP7209115B2; KR20210141668A

Abstract

本发明涉及一种用于从至少一台摄像机的图像序列中检测、三维重建以及跟踪多个彼此相对运动的刚性对象(11、13、15、16、17；19)的方法和系统，并尤其能够在基于摄像机的环境检测系统范围内用于辅助驾驶或自动驾驶。所述(计算机实施)方法包括下列步骤：a)从至少一台摄像机的图像序列中选择出特定拍摄时间点(＝关键循环)的图像，b)基于关键循环中稀疏选择的像素，根据关键循环的图像，对用于描述刚性对象(11、13、15、16、17；19)的模型的所有参数进行联合优化，其中，模型包括用于描述关键循环中刚性对象(11、13、15、16、17；19)的姿势、数量、三维结构的参数，以及用于描述所选像素与刚性对象(11、13、15、16、17；19)的对应关系的参数，为此，c)使误差函数最小化(S20)，其中，误差函数包括与多个关键循环的图像的强度相关的光度测量误差E_photo，以及与刚性对象(11、13、15、16、17；19)的数量相关的第一先验能量项E_comp，以及，d)输出从图像序列中检测到的刚性对象(11、13、15、16、17；19)的数量、三维结构和轨迹。虽然基于多个时间点的图像数据对所有参数进行了联合优化，但该方法适合用于(在线)数据采集期间的同时使用。

Description

多个彼此相对运动的刚性对象的检测、三维重建和跟踪

本发明涉及一种从至少一台摄像机的图像序列中对多个彼此相对运动的刚性对象进行检测、三维重建以及跟踪的方法和装置，尤其可以在基于摄像机的环境检测系统框架中用于辅助驾驶或自动驾驶。

用于从(单一)摄像机的图像数据中检测、三维重建和跟踪对象的下列方法是已知的：

运动重构(SFM)：

从视频数据中提取三维结构的常用方式使用的是间接方法：作为预处理步骤，识别多个摄像机图像的图像对应关系。只有在后续步骤中才对极线几何、三维结构以及摄像机相对运动的确定进行检测。术语间接方法描述了先计算光流，然后从光流(运动重构(SFM))计算三维结构的两个阶段。

光束法平差：

光束法平差(德语：

)用于借助多幅图像优化结构参数和运动参数。例如反投影误差等点或线对应中的几何误差被最小化。

光度测量的光束法平差：

光度测量的光束法平差(德语：Photometrischer

)基于概率光度测量误差模型借助图像强度和图像梯度对结构和运动进行优化：

Alismail(阿里斯迈)等人2016年8月5日在arXiv上发表的、编号为1608.02026v1[cs.CV]的文章(Alismail et al.,Photometric Bündle Adjustment for Vision-BasedSLAM,arXiv:1608.02026v1[cs.CV],5.August 2016)”。

光度测量的光束法平差应用于单个对象问题(例如移动摄像机+刚性、静止的环境)，这与视觉里程计(VO)或自定位和映射(SLAM)的问题相对应。

Engel(恩格尔)等人2016年10月7日在arXiv上发表的、编号为1607.02565v2[cs.CV]的直接稀疏里程计(DSO)(Alismail et al.,Photometric Bündle Adjustmentfor Vision-Based SLAM,arXiv:1608.02026v1[cs.CV],5.August 2016)是一种将直接概率模型(光度测量误差最小化)与所有模型参数一致的联合优化相结合的方法，包括将结构几何形状作为参考图像中点的反深度、摄像机轨迹以及每幅图像的仿射传感器特征曲线、焦距和主点。借助直接三维图像对齐/图像配准的追踪和光度测量的光束法平差用于实现视觉里程计，其中，假设的是静态场景。对一次性初始化，基于两台摄像机图像使用从粗到细的光束法平差。DSO不使用关键点对应，而是使用单一摄像机或立体摄像机系统。

带有多个对象的SFM：

用于多个对象的三维重建的已知方法例如是基于关键点的方法，其中，预先计算一稀疏流场，并且基于预先计算得到密集光流场的方法也是已知的。

Ranftl(兰夫特尔)等人在DOI：10.1109/CVPR.2016.440的“Dense MonocularDepth Estimation in Complex Dynamic Scenes(Ranftl et al.Dense Monocular DepthEstimation in Complex Dynamic Scenes,DOI:10.1109/CVPR.2016.440)中展示的是运动对象与其环境的一起重建。为此，基于预先计算的密集光流，通过将每个像素指配给不同运动模型执行运动分割(英语：Motion Segmentation)。

本发明的任务是，根据一台摄像机的图像或根据多个刚性连接的摄像机的图像为多个彼此相对运动的对象提供改进的对象检测、三维重建和跟踪。

以下考虑是出发点：

在某些领域和场景中，间接方法在准确性和鲁棒性方面不如直接光度方法。在多对象SFM方法中，测量精度的降低会导致模糊区域的增加，进而导致不正确的对象集群。例如，仅略微不同地运动的对象不能被识别为两个对象。最终，对象集群质量/运动对象的识别受到与先前确定光流误差分布的间接方法相关的不确定性限制，稀疏光流也受到关键点集的低密度限制。这会导致：

1.每个运动模型的受限的最小立体角(→对象最小尺寸大/对象最大距离小)，

2.增加了通过所述方法可检测到的最小运动方向偏差，以及

3.在关键点很少的情形下适用性有限。

首先，对本发明的观点及其设计方案变型作以下描述：

1.借助作为在线方法的直接三维图像对齐和光度测量的多对象光束法平差，基于关键循环的选择和像素选择(稀疏)，对多个刚性对象进行检测和跟踪

本发明对特别是针对直接稀疏里程计(DSO)所应用的方法加以扩展，从而将用于对象集群的方法、用于在摄像机视频中识别所有不同的运动的刚性对象(整个刚性静态环境在此可被称为一个对象)的方法以适配的形式与经扩展的光度测量的光束法平差相结合。结果不仅包括对本身运动的对象的轨迹和结构的确定，还包括对摄像机系统相对于静止环境的运动的确定，以及静止环境的结构的确定。

在线方法：

尽管所有参数都基于多个时间点的图像数据进行联合优化，但所述方法适于在数据检测期间同时应用(与数据采集后使用光束法平差作为批处理方法相反)。所述方法也适用于检测仅暂时可见的对象。

稀疏，无正则化：

为减少光度测量的光束法平差的计算工作量，仅选择那些预计对求解所有对象轨迹估计有相关贡献或相关约束的像素。通常，这些像素比输入图像中的像素少几个数量级。不需要正则化项对深度估计进行正则化，并由此避免了随之而来的潜在系统误差。

所述方法的核心是以下参数的联合优化(最大后验概率估计)：

-多个所选图像的多个所选点的深度，将多个对象通过反深度表示(每个点和对象1个参数)

-可选：多个对象的每个所选点的法向量(每个点和对象2个参数)

-运动模型数量

-每个运动模型的轨迹(每个关键循环的姿势或三维位置和三维旋转)

-将所选点分配给运动模型(每个点和运动模型1个参数，借助软指配或硬指配实施)

-每个图像的(例如仿射)传感器特征曲线的估计(为了保证可读性在下文中未注明；参见例如Engel(恩格尔)等人提出的DSO第2.1章“校准”(Engel et al.DSO Kapitel2.1 Calibration))，以及

-估计焦距和主点(为了保证可读性在下文中未注明；参见例如Engel(恩格尔)等人提出的DSO第2.1章“校准”(Engel et al.DSO Kapitel 2.1 Calibration))。

使误差函数最小化

E：＝Ephoto+Ecomp+Egeo

其中，Ephoto为所选未覆盖像素集合的光度测量误差,Ecomp为先验项，假设多个运动模型场景的合成，以及Egeo为对各个对象几何形状的先验假设。

光度测量误差项定义为

点p或运动模型m的图像j中的观测结果的光度测量误差

在此，m是运动模型的集合，g^m是基于摄像机模型几何误差的先验模型的可选加权，它根据对象大小尺寸有不同程度的影响，F是动态光束法平差窗口中所有图像的集合，P_i是图像i所有活动点的集合，obs(p)是所有其它图像与点p观测结果的集合。w_n是模式点n的加权(p周围的邻域N_p)，I_i和I_j表示两个图像的灰度值，

借助运动模型m将一个点n投影到摄像机图像j中并分配反深度

表示点与运动模型m相关联的概率，其中：

||.||_γ表示Huber范数。

由于运动模型的数量通常不可观察，因此应优选最小数量。为此，必要时根据参数定义先验项E_comp，并假设对象数量的概率分布。例如，E_comp可以是对象数量严格的单调递增函数，也可以最小描述长度的标准为依据。

先验项E_geo可表示几何假设，例如对象的紧凑性要求，以解决集群中的歧义/模糊性。这例如是在观测每对相邻点时用于彼此不同的对象对应关系(即对象边界)的建模概率。由此，优选用尽可能少的对象边界实施对象的分割。所述项例如在很少歧义的应用场景中也可省略。

为了确定可观察性或数量obs(p)，首先去除图像边缘外或具有负深度(在目标摄像机中)的投影。为了确定由其他结构造成的覆盖，对例如每个投影的光度测量误差进行分析评估，或使用覆盖分析(参见“覆盖”)。

优化

为优化误差函数，在固定对象分配时将莱文贝格-马夸特(Levenberg–Marquardt)方法交替用于轨迹参数和结构参数(这对应于每个对象的光度测量的光束法平差)，然后在固定几何形状和固定对象数量的情况下使用例如内点法(在使用软指配时)，或使用例如图像切割以对对应关系进行优化。为此，对于外部对象需要每个所选点的深度参数；如果未在光束法平差期间对所述深度参数进行优化，则所述深度参数可提前进行优化。

在上级优化循环中，首先按照所描述的交替和重复来对结构、轨迹和对象分配进优化，直至实现收敛，然后，为优化运动模型数量，(对象及其点分配)新配置假设的构成方式是，预期会减少总误差。根据初始化方法对新配置假设进行分析评估。[另见图4]

关键循环管理

从图像数据流中对光束法平差图像的优化选择可以是根据对象特定的。一个示例性策略是：一对象几乎处于静止状态，→选择非常低的关键循环频率，另一对象快速运动，→则选择高关键循环频率。

可能的问题：

集群参数无法被优化，因为对所有关键循环的并集，无法为所有对象测定光度测量误差项，这是因为光束法平差中的对象姿势仅在对象特定的关键循环中被测定。

可能的解决方案：

对所有的对象，借助直接图像对齐来为所有外部(各个非对象特定的)关键循环测定姿势。在此，仅测定这些时间点的姿势，而无需优化结构。可测定每个自身和外部关键循环的各点和各运动模型的光度测量误差项，这些误差项是优化点到运动模型的分配所必需的。

如果在循环中对象的关键循环的选择未变化，则不会为后续优化形成新的数据。在此情况下，循环被简化为借助直接图像对齐对对象的姿势进行纯粹的跟踪或估计。

假设的构成(1)：另一运动模型的检测

通过下列方法检测另一运动模型或另外的其他运动对象：对象配置的假设(假设H是所有模型参数值的一种具体集合或假设)可基于对额外的、具有优化深度的密集散射点的(光度)误差分析构成(这些附加点不参与光度测量的光束法平差)。测定充分优化假设H_old(例如最后一次迭代的配置)的高误差的地点和时间累积，并在必要时定义新假设H_new，其中，新假设包含在所测定的误差累积区域中的其他对象。加建和评估新假设的标准可定义如下：

E_comp(H_new)+E_geo(H_new)+C_photo(H_new)<E(H_old)

其中，C_photo(H_new)是例如基于先验假设和所测定误差累积，对新假设预期光度测量误差的一种启发式估计。首先，仅使用启发式估计C_photo(H_new)，因为新对象的结构和轨迹尚未准确知道。在初始化的优化期间进行对假设的评估(并由此测定E_photo(H_new)和E(H_new))。如果与另一充分优化的假设(例如最后一次迭代的配置)的总误差相比，总误差变得更大，则在从粗到精的初始化期间丢弃所述假设。未被丢弃的最终假设成为当前循环的新配置。

下面描述的覆盖建模在形成假设时非常重要，以避免由于覆盖造成假阳性检测。

假设的构成(2)：剔除运动模型

如果确定假设的对象过多，即一些运动模型的存在会增加整体误差，则这些运动模型及其相关参数将被从误差函数中剔除。用于确定运动模型的存在是否会增加整体误差的方法步骤如下：

对每个对象，基于此前的配置假设H_old定期构建新的、不再包含所述对象的配置假设H_new。对H_new进行优化，并同时确定整体误差。总的来说，通常对远距离对象的假设，预期是计E_comp(H_new)<E_comp(H_old)和计E_photo(H_new)<E_photo(H_old)。然后检查是否计E(H_new)<E(H_old)，即新假设的整体误差是否小于原假设的整体误差。如果小于原假设的整体误差，则采用新假设，即剔除该运动模型。

代替对新假设的全面优化(即所有模型参数的联合优化)，可进行测定整体误差上限的以下简化：仅对分配给已剔除对象的点的点分配进行优化并保留所有结构参数和轨迹参数。这个过程非常快。

已知运动模型中新的点深度的初始化

可使用有关离散化深度值的一维蛮力检索和随后的莱文贝格-马夸特(Levenberg-Marquard)优化方法对新的点深度进行优化。离散化距离的调整方式是，使其与优化的预期收敛半径相匹配(大约以投影的1个像素间距)。作为替代选择，可使用从粗到细方法与蛮力检索的组合，来减少运行时间：

可为图像生成图像金字塔，其中例如金字塔层级0对应于原图(带有完整的像素分辨率)，金字塔层级1对应于带有半像素分辨率的图像(沿各图像轴)，金字塔层级2对应于带有四分之一像素分辨率的图像等等。

从粗金字塔层级(降低的像素分辨率)开始，在进行蛮力检索后，使用(适配金字塔分辨率的)离散深度值在高误差值情况下排除点深度区域。更改为更精细的金字塔层级后，仅通过蛮力检索重新评估尚未排除的点深度区域。之后，在完成最精细的金字塔层级后，借助莱文贝格-马夸特(Levenberg-Marquard)优化方法对最佳深度假设进行细化。可对其他剩余的假设加以标记，以指示各相应点深度的歧义。

在初始化期间，必须考虑覆盖和其他非建模影响，例如通过章节“覆盖”中的方法，通过删除异常值投影和/或加权投影，例如根据先验假设，覆盖的概率取决于时间间隔。

新运动模型的初始化及其点深度

新运动模型的结构参数和轨迹参数最初是未知的，必须在非凸优化问题的收敛半径内进行初始化。

在图像序列(稀疏或密集光流)中对应关系的生成是计算密集型的，并容易出错。本发明还解决初始化局部运动模型的问题，而不必明确计算关键循环之间的光流。

可能的问题：

1.光度测量的光束法平差的收敛区域可用参数空间中的区域粗略估计，其中，所有图像中的所有投影距离正确投影不超过约1个像素。因此，轨迹的所有参数(多幅图像！)以及点深度的初始化必须足够良好，以便在进行莱文贝格-马夸特(Levenberg–Marquardt)方法优化前，尽可能多的点投影已与正确解的距离相差最多1个像素。

2.对生成初始运动估计没有可用的对应关系或光流

可能的解决方案是：代替DSO的全局2帧粗到细方法，使用新的局部“多帧近到远/粗到细方法”：

所有关键循环的局部结构参数用1，轨迹参数用0进行初始化。(作为替代选择，可如下所列，将先验假设和上级蛮力检索纳入初始值)。

首先

a)仅是粗略选择的金字塔层级上的点，以及

b)仅是在时间/地点上与各相应所有者图像接近的观测结果被评估(例如针对第五幅图像的一个点，首先仅在第四幅和第六幅图像中评估观测结果)。

在光束法平差优化过程中，随着评估的观测结果越来越远，分辨率现在逐渐增加。最迟在最后的迭代中，使用最大解析金字塔层级和所有的观测结果。

a)和b)的组合致力于在参数空间中明显扩展收敛区域：由此，仅评估如下的项，即，针对该项，当前状态(通常)处于线性化最小值是实际最小值的良好近似的区域中。

在局部多帧近到远/粗到细初始化过程中，结构+轨迹以及点对应关系被交替地优化。随着分辨率的增加，对象集群更为准确。

由于借助所描述方法也并不总能确保收敛到全局最小值，因此也可以使用粗到细蛮力检索，类似于上述方法进行点深度的初始化：不同的初始值假设从使用粗金字塔层级优化开始，并通过误差检查不断进行选择，从而理想情况下，只有正确配置的假设才能充分优化到最精细的金字塔层级。

粗到细蛮力检索所需的离散化起始值可从先验对象模型中推导出来，该模型提出典型对象轨迹的近似区域和凸面形状的深度，其中，可“减去”摄像机相对于刚性背景的本身运动。新运动模型的初始点深度也可从具有较少运动模型的旧对象集群的优化深度导出。

优点：

除了需要初始化多个帧的所有参数，相对于DSO的2帧粗到细方法的优点是，在第一次迭代中隐性使用了三线性约束(>＝3帧)，它首先使得线状要素类点显现约束。由此，在第一迭代中就已更加可靠地将错误分配的点识别为“模型陌生的”。此外，为降低收敛到局部最小值的风险，补充了从粗到细的蛮力检索(光度测量的光束法平差问题是严重非凸的，即它包括局部最小值)。

覆盖

可能的问题：

覆盖没有在光束法平差误差中建模，并导致潜在的错误对象集群或错误假设。

由于“稀疏”方法，覆盖的建模困难。

可能的解决方案：

用于构成假设的非常密集的点分布可用于几何预测点的相互覆盖。如果测定到观测结果的覆盖，则从误差函数中删除这些观测结果。

在多对象情况下，必须知道对象之间覆盖建模的近似相对缩放，例如，如果没有立体信息，则可使用特定的域模型假设对所述近似相对缩放进行估计。不同对象的所述相对缩放也可以借助附加的覆盖检测或对象深度顺序的确定进行测定。这例如可以通过以下方式实现：在两对象的两个点存在预测的碰撞或重叠时根据它们的光度测量误差确定：哪个点或哪个对象在前景中。

点的选择

用于(稀疏)光束法平差选择的点，其选择方式是，即使对小对象，也尽可能使用所有图像中存在的约束。例如，为每个对象选择固定数量的点。这使得能够对极小对象进行非常密集的点选择，并由此有效地使用映射对象图像部分的几乎所有可用的相关图像信息。

由此，在观察摄像机图像的整个立体角时，得出异质/非均匀的点密度，而对单独对象得出均匀的密度分布。

2.将所述方法扩展到多摄像机系统

本发明将多对象方法从第1点进行多摄像机系统的扩展：对来自(一台或)多台刚性联接的同步摄像机的视频用潜在不同固有特性(例如焦距/失真)和检测区域在联合优化过程中进行处理。

在多摄像机系统的语境中，术语“关键循环(英语：key cycle)"包括在摄像机循环或拍摄时间点采集的所有摄像机图像集合。

误差函数被加以调整，从而使

a)不同摄像机型号以及(先前已知的)的摄像机相对位置由不同的投影函数π_j ^m建模

b)对于每个时间周期和运动模型，对相对于摄像机系统参考点(而不是相对于摄像机中心)的位置参数(旋转和平移)进行估计，以及

c)F表示所选关键循环的所有摄像机的所有图像的集合，以及obs(p)表示所有摄像机和关键循环中对点p加以观测的所有图像集合(可选地，可去除冗余的观测结果，以节省计算时间)。点可在F中的所有图像中加以选择。

该公式或该方法使用所有摄像机的所有图像间所有可用的约束，并不对摄像机系统配置做出假设。因此，它可用于任何基线、摄像机方向、任何重叠或非重叠检测区域，以及高度异质固有特性(如长焦光学器件和鱼眼光学器件)。一个可能的应用是带有沿所有(天空)方向校准的广角摄像机和一些在关键空间方向上校准的长焦摄像机(或立体摄像机)的摄像机系统。

借助直接图像对齐的跟踪被扩展到多摄像机的直接图像对齐。由此得出与多摄像机光度测量的光束法平差相同的变化：

执行关于摄像机系统参考点(而不是关于摄像机中心)的轨迹优化，同时对所有摄像机中的光度测量误差总和进行最小化。在此，还使用所有可用的约束，包括摄像机之间投影的光度测量误差。在此，还必须对投影函数进行特定调整，使其适配于各相应摄像机型号和摄像机系统中的相对位置。

初始化：

由于新误差函数的最小化也是配置假设初始化的一部分，因此，所有摄像机的所有可用的约束也用于初始化阶段。例如，由此自动确定重叠区域中对象的缩放。如果所估计的缩放与正确值有明显偏差，则在必要时必须对在一台摄像机中初始化的、然后进入第二台摄像机视场的对象重新进行初始化。

3.具有更高精度和更强缩放功能的视觉里程计

无论是刚性背景的分割还是多摄像机优化的使用，相对于DSO，都提高了视觉里程计的精度和鲁棒性，尤其在图像大部分有运动对象的困难场景中，或在有一台摄像机中具有很少结构的场景中。

在具有静态或动态重叠区域的摄像机系统中，可基于在摄像机相对位置比例已知时对点的摄像机之间观测结果的评估测定视觉里程计的绝对缩放。

4.固有光度参数、固有几何参数和外部参数的自动校准

渐晕可参数化地近似或建模。这同样适用于传感器特征曲线的模型。可在上述直接多对象光束法平差中对希望得出的每台摄像机的参数进行优化。由于结构估计和轨迹估计的高精度，以及由于对本身运动的对象的建模，例如与纯视觉里程计的组合相比，模型优化的准确性预计会提高。

失真建模和固有几何参数的确定：可在上述直接多对象光束法平差中对希望得出的每台摄像机的参数进行优化。由于结构估计和轨迹估计的高精度，以及由于本身运动的对象的建模，例如与纯视觉里程计的组合相比，模型优化的准确性预计会提高。

外部参数的估计：摄像机彼此之间的相对位置可在上述直接多对象光束法平差中被优化。由于结构估计和轨迹估计的高精度，以及由于本身运动对象的建模，例如与纯视觉多摄像机里程计的组合相比，模型优化的精度预计会提高。

在此要注意的是：如果应进行度量重建，则必须确定两台摄像机间的至少一个间距作为绝对度量参考，以避免缩放的漂移。

摄像机校准的所有参数的初始值必须提前测定，并提供给指定方法。在此必须确保，通过初始值的足够精度使参数矢量处于最粗金字塔层级的误差函数收敛范围之内。初始值也可与先验分布一起纳入误差函数，以防止取决于应用的歧义。此外，用于在丢弃/更换关键循环时删除的校准参数的约束，可借助在DSO中使用的边缘化方法以线性化形式加以保留。

5.与其他传感器及方法的融合

a.与其他对象识别方法(例如模式识别(深度神经网络等))的融合具有很高的潜力，因为两种方法的误差分布在很大程度上是不相关的。

示例性应用情况是对象检测、三维重建和跟踪，其用于与在具有立体摄像机和全景环视摄像系统的自动车辆中基于模式识别的系统相融合。

b.与惯性传感器系统和车辆里程计的融合有望在临界场景中获得解决本身运动估计(＝＝“对象”静态环境的三维重建)的高潜力，并可确定绝对缩放。

c.与其他环境检测传感器，尤其是雷达和/或激光雷达的融合。

6.应用

从第1点到第5点的应用，用于检测和跟踪运动的交通参与者、刚性静止车辆环境的重建，以及通过驾驶员辅助(ADAS)系统或自动驾驶(缩写：AD，全称：automated driving)的系统对车辆本身运动的估计。

第1点到第5点的应用，用于环境检测并支持如机器人或无人机等自主系统中的自定位，支持虚拟现实(VR)眼镜或智能手机的自定位，在(例如交通监控用的固定摄像机等)监控中对运动对象的三维重建。

本发明的优点及其设计方案的变型

1.所提出的方法不需要将局部对应检索作为预处理步骤，该步骤是较复杂的、容易出错并耗费大量运行时间的任务。

2.所提出的方法与间接方法相比，有时能在临界情形下明显提高所有估计的准确性。在多对象集群中，运动估计准确性的提高可消除歧义，例如分离/识别摄像机图像中几乎相同运动或其运动方向几乎相同的两个对象。

3.直接光度测定方法的锁定行为有利于在同时具有多个运动模型情况下，将单一对象问题的解决方案收敛到主要运动模型(与收敛到错误的“妥协”解决方案相反)，然后，第二运动模型可作为同时存在的模型被加以识别。这种行为对区分运动模型具有有益的影响，并改善多对象问题向正确整体解决方案的收敛性。

该特性在常用的间接方法中是不存在的。

4.通过识别运动对象对视觉里程计进行了改进：运动对象是传统方法(例如DSO)中的干扰性因素。在新方法中，运动对象会被自动识别，并根据静态环境将其从本身运动估计中剔除。

5.所描述的方法允许从受对比度影响的区域对像素进行几乎任意密度的采样。连同相对较高的运动和结构估计准确度，这使得能够检测并特别是跟踪具有相对较小立体角和相对较低分辨率的对象。

常用间接方法中也同样没有该特性。

6.通过使用多摄像机扩展，可在一定角度范围内扩大检测区域和/或提高分辨率，这分别会相应提高整体解决方案的鲁棒性和准确性。此外：

a.通过使用组合检测立体角尽可能大的摄像机(例如水平覆盖整个360度的多摄像机系统)，实现本身运动估计的高度准确性和鲁棒性。

b.由a)附加地与一个或多个具有较高覆盖范围/较高分辨率的摄像机(长焦摄像机)的组合还能更精确地测量远距离对象的轨迹，这些被与由a)实现的鲁棒、准确的本身运动估计(或被静态环境的相对运动)区分开。

c.如果两台摄像机彼此相对位置是已知的，则出现两台摄像机视场区域的重叠区域，其中，可观察到结构的绝对缩放。通过使用a)和b)的理念，也可根据例如长焦摄像机和鱼眼摄像机等高度异质摄像机的重叠区域进行绝对距离估计。

d.通过存在于重叠区域中的立体深度信息明显简化了运动对象的识别，也可在对于单目情况歧义的情形下使用，例如可用于对象具有相同运动方向但速度不同的情形，这种情形在道路交通中并不少见。

7.相关摄像机参数的动态估计：与一次性校准相比，固有光度测量参数、固有几何参数和外部参数的自动校准明显提高所校准参数的准确性。

根据本发明所述的(由计算机执行的)、用于从至少一台摄像机的图像序列中检测、三维重建以及跟踪多个彼此相对运动对象的方法包括下列步骤：

a)从所述至少一台摄像机的图像序列中选择出特定的拍摄时间点(＝关键循环)的图像，

b)基于关键循环中稀疏选择的像素，根据关键循环的图像，对用于描述彼此相对运动的刚性对象的模型的所有参数进行联合优化，其中，模型包括用于描述关键循环中刚性对象的姿势、数量、三维结构的参数，以及用于描述所选像素与刚性对象的对应关系的参数，为此

c)误差函数的最小化(S20)，其中，误差函数包括与多个关键循环的图像强度相关的光度测量误差E_photo，以及与刚性对象的数量相关的第一先验能量项E_comp，以及

d)循环地输出(当前)由图像序列中检测到的刚性对象的数量、三维结构和轨迹。

至少一台摄像机可是单个的单目摄像机或多摄像机系统。所述摄像机或多摄像机系统尤其可设置在车辆中，用于在车辆驾驶期间检测车辆环境。在车载多摄像机系统情况下，所述系统尤其可以是立体摄像机系统或全景环视摄像系统(Surround View CameraSystem)，其中，例如四台卫星摄像机安装在车辆的四面，并具有大张角，确保车辆环境的360度检测，或者也可以是立体摄像机系统和全景环视摄像系统这两种摄像机系统的组合。

通常，整个静止背景被选为多个彼此相对运动的刚性对象之一。除了刚性的静止的环境外，还对至少一个另外的、本身运动的刚性对象进行检测、三维重建以及跟踪(追踪)。由此，本身运动的刚性对象相对于静止的“背景对象”运动。如果至少一台摄像机在拍摄图像序列期间也进行了运动，则静止背景对象相对于摄像机运动，通常本身运动的刚性对象也相对于摄像机运动。

步骤a)中的优化基于稀疏(英语：sparse)选择的像素或基于稀疏集合的像素进行，即，不基于图像或图像部分的所有像素(“密集”)，也不基于部分密集(“半密集”)选择图像区域。例如，J.Engel(杰·恩格尔)等人在2014年9月在欧洲计算机视觉会议(ECCV)上发表的题为“LSD-SLAM:Large-Scale Direct Monocular SLAM(LSD-SLAM:基于直接法的大范围单目即时定位和地图构建方法)”的论文中提出一种具有“半密集”的深度图方法。尤其是，可选择对运动的重建做出自己的贡献的各相应像素，例如通过与其他点的最小间距，并以特征方式从它们的直接环境中脱颖而出，由此使它们可在下图中能被良好识别。(假设)对象的三维结构对应于对象的空间几何形状。对象的姿势对应于对象在三维空间中的位置和方向。对象姿势的时间过程对应于该对象的轨迹。确定对象数量、三维结构和轨迹的参数输出优选可周期性循环进行，尤其可“在线”进行，意味着在从至少一台摄像机接收新图像的同时实时或连续进行。图像可“与新图像的出现同样快”地被加以处理。

根据所述方法一种优选的其他实施方式，误差函数包括第二先验能量项E_geo，所述第二先验能量项与刚性对象的三维结构相关。

所述误差函数优选包括以下(模型)参数：

每单个运动模型中每个所选像素的反深度；

运动模型的数量，其中，为每个当前假设的刚性对象都分配有运动模型；

每单个运动模型和激活的关键循环的姿势(三维位置和三维旋转，即6个参数)；以及

每个所选像素与每个运动模型的对应关系概率。优化后，对运动模型而言，所选像素的分配概率等于1，对其他运动模型等于0。

可选地，每个运动模型的每个所选像素的法向量被考虑为附加参数。

所述误差函数优选包括以下附加(模型)参数：

每个图像的传感器特征曲线，以及

每台摄像机的焦距和主点(参见例如Engel(恩格尔)等人提出的DSO第2.1章“校准”)，从而所有参数的联合优化促成所述至少一台摄像机的自动校准。

优选地，利用一个或多个图像金字塔层级执行直接图像对齐，以对各个对象进行跟踪。在此，可基于其他循环的图像和深度估计借助三维图像配准和可选地借助从粗到细的方法对在循环中可见对象的相对三维位置和三维旋转(姿势)进行估计。

在一种有益的方式中，为优化误差函数，使借助光度测量的光束法平差根据对象特定的关键循环(每个运动模型和关键循环的姿势)对轨迹参数和结构参数的优化、以及对像素与运动模型的对应关系的优化交替地进行。从图像序列中选择的用于使用在光度测量的光束法平差中的关键循环的选择可以针对运动模型特定地进行。例如，可以使(所选图像的)频率匹配于对象的相对运动。

优选地，随后对运动模型数量进行优化，其中，在将运动模型添加到误差函数或从误差函数中去除运动模型情况下，重新将所选像素分配给运动模型，并重新开始误差函数的优化。

优选地，所述至少一台摄像机相对于与静止的刚性的背景相对应的对象进行运动。

在所述方法一优选实施方式中，借助包括多个同步(车载)摄像机的摄像机系统拍摄多个图像序列，并将所述图像序列作为输入数据提供给方法。对所有参数进行联合优化以使所产生的误差函数最小化。模型参数包括每个对象相对于摄像机系统(而不是相对于一台摄像机)的姿势。像素可从所有摄像机的图像中选择出。像素从至少一台摄像机关键循环的图像中选择。

对所选像素，至少一台摄像机和至少一个关键循环中的观测结果被接受为光度测量误差的能量项。在此，优选对个性化的几何摄像机模型和光度测量的摄像机模型以及摄像机彼此之间的相对位置加以考虑。

此外，优选用一个或多个金字塔层级对单一对象的跟踪执行多摄像机直接图像对齐。为此，优选使用以下图像：

a)所有循环的所有如下的图像：其姿势已知并且所选择的点具有已知深度。这些图像被反复组合，并在此扭曲(在检索姿势的循环中为每台摄像机建立预期图像的预测)。

b)其中检索了姿势的循环的所有图像。这些图像都分别相应与源于a)的、为该摄像机组合的预测图像分别进行反复比较。

模型参数优选包括至少一台摄像机的其他固有光度参数、其他固有几何参数和/或外在摄像机参数，从而使所有参数的联合优化作用于至少一台摄像机的自动校准。换句话说，摄像机固有光度(例如渐晕和传感器特征曲线)、固有几何参数(例如焦距、主点和失真)和/或外在模型参数(例如摄像机彼此之间的相对位置)实施自动校准/自动优化。渐晕、传感器特征曲线和失真优选被参数化近似。由此，可在误差函数(在一过程中)最小化时一起确定所有新的模型参数。

本发明另一主题涉及一种装置，该装置用于从至少一台(车载)摄像机的由输入单元接收的图像序列中检测、三维重建和跟踪多个彼此相对运动的刚性对象。所述装置包括输入单元、选择单元、优化单元和输出单元。

选择单元配置用于，从图像序列中选择多个拍摄时间点(＝关键循环)(由选择单元确定)的图像。

优化单元配置用于，

a)基于关键循环中稀疏选择的像素，根据关键循环的图像，对用于描述彼此相对运动的刚性对象的模型的所有模型参数进行联合优化，其中，模型包括用于描述关键循环中刚性对象的姿势、数量、三维结构的参数、以及用于描述所选像素与刚性对象的对应关系的参数，为此

b)使误差函数最小化，其中，误差函数包括光度测量误差E_photo和与刚性对象数量相关的第一先验能量项E_comp。

输出单元配置用于，循环输出通过优化单元从图像序列中检测到的彼此相对运动的刚性对象的数量、三维结构(几何形状)和轨迹。

所述装置尤其可包括微控制器或微处理器、中央处理器(CPU)、图形处理器(GPU)、数字信号处理器(DSP)、ASIC(专用集成电路)、FPGA(现场可编程门阵列)等更多类似部件、接口(输入单元和输出单元)、以及用于执行相应方法步骤的软件。

因此，本发明可在数字电子电路、计算机硬件、固件或软件中实现。

下面对实施例和附图进行更详细的描述。其中：

图1a示出本车左侧摄像机的五幅图像的系列；

图1b示出本车环境的三维重建；

图1c示出第一(本身运动的)刚性对象的三维重建；

图1d示出对应于静止背景的第二(静止)刚性对象的三维重建；

图2示出本车全景(环视)系统的四个示意性摄像机图像(下)和本车环境的三维点重建(上)；

图3示出用于多摄像机系统的方法流程示意图；

图4示出用于数据选择和各个图像循环误差函数最小化的方法流程示意图；以及

图5示出带环视摄像机系统、前置长焦摄像机和用于检测、三维重建和跟踪多个彼此相对运动的刚性对象的装置的本车。

图1a展示出五幅图像(L0、L1、......、L4)的系列，这些图像是在本车行驶期间由本车左侧摄像机在拍摄时间点t0、......、t4拍摄的。在图像L0、......、L4中可看到在本车左侧超车道中行驶的车辆19。左行车道边缘由墙11限定。在其后面于图像的三分之一处可以瞥见行车道旁的树木。墙11、树木、行车道和车道标记是本车静止环境的组成部分。本车的整个静止环境被视为刚性对象。成像的车辆19是相对(静止环境的)第一对象运动的本身运动的刚性对象。成像的车辆19比本车行驶得更快，也就是说正在超越本车。

如果应仅基于一台摄像机实施该方法，则每一幅图像对应一个(拍摄)循环。假设这五幅图像是成像车辆(＝分配有运动模型的对象)的五个关键循环，那么这些关键循环被称为运动模型特定的关键循环。

图1b展示出根据所述方法一实施方式所实现的场景的三维重建。然而，对这种三维重建，不仅用到了图1中摘要显示的、左侧摄像机拍摄的关键循环，而且用到了通过摄像机系统同步的后置摄像机、前置摄像机以及右侧摄像机在相同拍摄时间点t0、......、t4所拍摄的关键循环。这将在后面结合图2进一步解释。在图1b中，可看到不完全反映三维关系但可大致识别(稀疏)的点。与图1a的摄像机方向不同，所述三维重建是从大约可从上方观察的视角实施的。在空间形式上可被良好估计的(其他)车辆被成像，刚性环境的一些方面，尤其是墙被作为车辆后面或上方的两条平行线。行车道上存在各个的点。

图1c仅展示源于图1b的其他车辆29的三维重建。所述车辆29涉及运动的刚性对象。该方法能从图像系列L0、......、L4中对车辆19进行可靠追踪(跟踪)。除了三维位置和规格尺寸外，车辆19的轨迹也可以从追踪中予以确定，即尤其在所有三个空间方向上确定速度和旋转。

图1d展示出仅对源于图1b的本车的静止的(不动的)刚性环境的三维重建。本车静止的刚性环境也被视为(相对)运动的刚性对象。在此，本车在该环境中的定位是直接给出的。用该方法测定的重建环境的相对运动与本车的逆向本身运动是相同的。源于图1a的墙11的三维重建被识别为两条平行线29。

图2在下面展示出本车全景(环视)系统的四幅示意性摄像机图像L10、F10、R10、H10，上面展示的是本车环境的三维点重建。

左下方可看到向左观察车载摄像机的校正图像L10。旁边还展示了观察方向向前、向右和向后的车载摄像机校正图像F10、R10、H10。可以看出的是，所有四幅图像L10、F10、R10、H10都分别在各视场区域中都具有带白色行车道标记12、13、15、16的黑色行车道路面。其他辆车19在本车前斜向左驶。其他车辆19的后部被左置摄像机的图像L10检测到，前部被前置摄像机的图像F10检测到。成像的车辆19是本身运动的刚性对象。在左侧摄像机的图像L10中，墙11又可被识别为行车道和行车道周围景观(树木、山坡)之间的行车道边缘界限。墙11下方，成像的是实线的车道界限标记(线)12，它界定了三车道行车道的左车道边缘。全景系统前置摄像机的图像F10中，成像的是左侧13和右侧15的虚线车道标记，它们界定了本车当前行驶的中间车道的左右边缘。行车道右边缘由另一实线的车道界限标记16识别。在右侧摄像机的图像R10中，护栏17被成像为行车道边缘界限，在其下面可识别到右侧车道界限标记16。从后置摄像机的图像H10同样可识别到，本车在三车道的中间车道行驶，这里在两个实心车道界限标记(在图R10中未编号)之间，也可将图中左边的本车右车道标记15和图中右边的本车左车道标记13识别为虚线。在所有四幅图的上部，可看到是天空。墙11、行车道标记12、13、15、16以及护栏17是本车静止环境的组成部分。本车的整个静止环境被视为刚性对象。

在本车行驶过程中，四台摄像机中的每一台都拍摄图像(视频)系列。从该图像系列中，根据具有多个(同步)摄像机的方法实施方式实现场景的三维重建。在图2上面可看到表示三维关系的点。可视化显示是从鸟瞰角度(俯视图)实现的。本车迄今为止的轨迹以实线24表示。该线不是三维结构的组成部分，而是用于可视化显示本车摄像系统的重建轨迹。线24的右端28对应于本车的当前位置，它在图2中没有显示。在本车前面左侧(或在上面图2中右上方)可看到其他车辆29的轮廓。运动对象可以鲁棒和非常精确地被跟踪，从而可为本车的辅助驾驶系统或自动驾驶系统测定其特性。三维重建可将下列部分作为静止背景的组成部分(从上到下)：作为稍密集和稍扩展的线21(其由点构成)的标记墙(左车道边缘界限)、左侧实线车道界限标记22、本车的左侧虚线车道标记23、本车的右侧虚线车道标记25、右侧的实线车道界限标记26以及带有各个护栏桩的再次稍密集和更为扩展的线27。行车道的紧急车道位于右侧的实线车道分界标记26和护栏“线”27之间。

图3示例性展示出用于多摄像机系统的方法的实施例流程。类似的方法也可用于在单目摄像机系统上的各个变型方案。

在第一步骤S12中，误差函数的参数被初始化。所述误差函数用于根据参数计算循环各个图像的误差。由此，误差函数的最小化提供了模型最佳匹配各个图像的参数。参数包括：

-多个对象的多幅图像的多个点的深度参数

-可选：每个所选点的法向量(每点2个参数)

-运动模型的数量

-多个运动模型(每个时间步长分别各有用于位置和旋转的3+3参数)，其中，运动模型被分配给对象。刚性的背景(即，真实空间中静止的环境)也同样被视为对象。背景对象也分配有运动模型。

-将点分配给运动模型(每个点和运动模型1个参数，借助软指配或可选地的硬指配实施)

-估计传感器特征曲线，以及

-估计焦距和主点。

可通过将运动模型的数量选择为1来进行参数的初始化，并用0对轨迹初始化，用1对反深度初始化，并由此实施由粗到精的初始化。

在步骤S14中，从多个同步摄像机获得循环的新的各个图像。循环描述同步摄像机在拍摄循环(对应于拍摄时间点)中建立的图像集合。新的各个图像例如由摄像机、存储器或类似产品提供给方法或系统。

在接下来的步骤S16中，对每个当前存在的运动模型(对应于当前假设的对象或当前的对象假定)实施多摄像机的直接图像对齐，以用于确定当前循环中的运动参数(以及新的各个图像)。例如，可假设运动的刚性对象当前相对于静止的刚性背景运动。由于静止的背景也同样被视为运动的刚性对象，所以这是针对多个，即两个以不同的方式运动的刚性对象最简单的情况。相对于静止的背景，摄像机可实施运动，从而在各个图像序列中，背景在摄像机系统坐标系中不是静止的，而是实施相对运动。每个当前假设的对象都由运动模型加以描述。新的(即当前)循环的每个对象的(姿势)参数借助多摄像机的直接图像对齐来确定。

直接图像对齐与光束法平差不同，但它与光度测量的光束法平差具有共同点：即要最小化的光度测量误差函数是相同的。在直接图像对齐时，深度未被优化，而是假定已知，而在光度测量误差(灰度值差异)最小化期间，仅对新姿势进行估计。在此，借助图像扭转或类似的三维渲染(基于旧图像、已知结构、轨迹)迭代地生成新循环图像的预测，并对最新的对象姿势进行匹配，直至预测与新图像最为相似。有关基于全息摄影的单摄像机直接图像对齐的更多信息，例如请参阅：https://sites.google.com/site/imagealignment/ tutorials/feature-based-vs-direct-image-alignment(调用时间：2019年3月12日)。

然后，在步骤S20中，选择数据(关键循环、像素)，并对误差函数进行最小化。下面将更详细地解释这方面的细节。以此方式获得的参数在接下来的步骤S22中输出。然后可继续步骤14，即，获得新循环的新的各个图像。

图4展示出一方法流程的示意图，其用于针对各个图像的循环进行数据选择和误差函数最小化(图3中的S20)以及用于随后参数输出(S22)。

在第一步骤S200中，从所有摄像机循环的集合中选择每个运动模型(其对应于对象)的关键循环。

在步骤S201中，在所有运动模型的关键循环的图像中选择点。

在步骤S202中，对用于描述其他的点深度和点对应关系的、误差函数的新参数进行初始化。

在步骤S203中，借助光度测量的光束法平差，根据针对对象特定的关键循环对每个对象的运动参数和结构参数进行优化。

在步骤S204中，对于对象外部的关键循环进行多摄像机直接图像对齐。

在步骤S205中，对像素与对象或运动模型的对应关系进行优化。

在随后的步骤S206中，检查是否已实现(充分)收敛。如果由于点对应关系被改变而(还)没有实现充分收敛，则继续步骤S200。

如果已实现收敛，则在随后的步骤S207中优化运动模型(对象)数量和像素与运动模型的对应关系。

在随后的步骤S208中，检查是否已实现相关的(充分)收敛。

如果数量不匹配，则在随后的步骤S209中检查运动模型的数量。

如果数量太高，则在步骤S210中除去运动模型及其相关参数，并用步骤S200继续该方法。为此可以按以下方式实施：

针对每个对象，都定期评估不再包含该对象的、新的配置假设。检查是否由此减少了总误差。如果减少了总误差，则接受配置或删除指定对象。

该新的总误差上限可通过仅优化相关点的点分配和保留所有结构参数和轨迹参数的方式加以测定。(与具有缺失对象的这类新假设的完整优化相比)该方法非常迅捷。为此也请参见上面章节“假设的构成(2)：剔除运动模型”。

如果数量太少，则在步骤S211中对用于描述误差函数其他运动模型(对象)的新参数进行初始化(参见上文：“假设的构成(1)：其他运动模型的检测”)，并用步骤S200继续该方法。

只要数量匹配，即在步骤S208中已达到收敛，则在步骤S22中输出参数。

图5展示本车1，该车具有全景环视摄像机系统、前置长焦摄像机和装置2，用于检测、三维重建和跟踪多个彼此相对运动的刚性对象。全景环视系统的四台单摄像机的检测区域通过本车1周围的四个三角区域(L、F、R、H)来说明。本车左侧(前面、右侧或后面)的三角区域L(F、R或H)对应于全景环视摄像机系统左侧(前面、右侧或后面)摄像机的检测区域。在车辆1的挡风玻璃区域内，设置有长焦摄像机，其检测区域T用虚线三角形表示。长焦摄像机例如可以是立体摄像机。所述摄像机与装置2相连接，并将拍摄到的图像或图像系列传输到装置2。

Claims

1.一种用于从至少一台摄像机的图像序列中检测、三维重建以及跟踪多个彼此相对运动的刚性对象(11、13、15、16、17；19)的方法，所述方法包括下列步骤：

b)基于关键循环中稀疏选择的像素，根据关键循环的图像，对用于描述刚性对象(11、13、15、16、17；19)的模型的所有参数进行联合优化，其中，模型包括用于描述关键循环中刚性对象(11、13、15、16、17；19)的姿势、数量、三维结构的参数，以及用于描述所选像素与刚性对象(11、13、15、16、17；19)的对应关系的参数，为此

c)使误差函数最小化(S20)，其中，误差函数包括与多个关键循环的图像的强度相关的光度测量误差E_photo，以及与刚性对象(11、13、15、16、17；19)的数量相关的第一先验能量项E_comp，以及

d)输出从图像序列中检测到的刚性对象(11、13、15、16、17；19)的数量、三维结构和轨迹。

2.根据权利要求1所述的方法，其特征在于，误差函数包括第二先验能量项E_geo，所述第二先验能量项与刚性对象(11、13、15、16、17；19)的三维结构相关。

3.根据权利要求1或2所述的方法，其特征在于，所述误差函数包括下列模型参数：

每单个运动模型中每个所选像素的反深度；

运动模型的数量，其中，为每个当前假设的刚性对象(11、13、15、16、17；19)都分配有运动模型；

每单个运动模型和激活的关键循环的姿势；以及

每个所选像素与每个运动模型的对应关系概率。

4.根据权利要求3所述的方法，其特征在于，所述误差函数还包括下列模型参数：

每幅图像的传感器特征曲线，和

每台摄像机的焦距和主点，从而所有参数的联合优化促成所述至少一台摄像机的自动校准。

5.根据上述权利要求中任一项所述的方法，其特征在于，利用一个或多个图像金字塔层级执行直接图像对齐，以跟踪各个对象(11、13、15、16、17；19)。

6.根据上述权利要求中任一项所述的方法，其特征在于，为优化误差函数，使借助光度测量的光束法平差根据对象特定的关键循环对轨迹参数和结构参数的优化(S203)、以及对像素与运动模型的对应关系的优化交替地进行(S205)。

7.根据权利要求6所述的方法，其特征在于，随后对运动模型数量进行优化(S207)，其中，在将运动模型添加到误差函数或从误差函数中去除运动模型情况下，重新将所选像素分配给运动模型，并重新开始误差函数的优化。

8.根据上述权利要求中任一项所述的方法，其特征在于，所述至少一台摄像机相对于与静止的刚性的背景相对应的对象(11、13、15、16、17)进行运动。

9.根据上述权利要求中任一项所述的方法，其特征在于，借助包括多台同步的摄像机的摄像机系统拍摄多个图像序列，其中，模型参数包括每个对象(11、13、15、16、17；19)相对于摄像机系统的姿势，其中，能够从所有摄像机中选择出像素，其中，从至少一台摄像机的关键循环的图像中选择出像素，其中，针对所选像素，将在至少一台摄像机和至少一个关键循环中的观测结果作为光度测量误差的能量项，执行所有参数的联合优化以使所产生的误差函数最小化。

10.根据权利要求9所述的方法，其特征在于，为跟踪各个对象(11、13、15、16、17；19)，利用一个或多个图像金字塔层级实施多摄像机的直接图像对齐，其中，实施所有模型参数的联合优化以使所产生的误差函数最小化，其中，模型参数包括每个对象(11、13、15、16、17；19)相对于摄像机系统的姿势，其中，针对所选像素，将在要优化的循环的至少一台摄像机中的观测结果作为光度测量误差的能量项。

11.根据权利要求4到10中任一项所述的方法，其特征在于，模型参数还包括所述至少一台摄像机的其他固有光度测定参数、其他固有几何摄像机参数和/或外在摄像机参数，从而所有参数的联合优化引起所述至少一台摄像机的自动校准。

12.一种用于从由输入单元接收的、至少一台摄像机的图像序列中检测、三维重建以及跟踪多个彼此相对运动的刚性对象(11、13、15、16、17；19)的装置(2)，所述装置包括所述输入单元、选择单元、优化单元以及输出单元，其中，

选择单元配置用于，

a)从至少一台摄像机的图像序列中选择出特定拍摄时间点(＝关键循环)的图像；

优化单元配置用于

b)基于关键循环中稀疏选择的像素，根据关键循环的图像，对用于描述彼此相对运动的刚性对象(11、13、15、16、17；19)的模型的所有模型参数进行联合优化，其中，模型包括用于描述关键循环中刚性对象(11、13、15、16、17；19)的姿势、数量、三维结构的参数、以及用于描述所选像素与刚性对象(11、13、15、16、17；19)的对应关系的参数，为此

c)使误差函数最小化，其中，误差函数包括光度测量误差E_photo和与刚性对象(11、13、15、16、17；19)数量相关的第一先验能量项E_comp，

输出单元配置用于