CN1179224A - 用于深度建模并提供运动物体的深度信息的方法和设备 - Google Patents

用于深度建模并提供运动物体的深度信息的方法和设备 Download PDF

Info

Publication number
CN1179224A
CN1179224A CN96192725A CN96192725A CN1179224A CN 1179224 A CN1179224 A CN 1179224A CN 96192725 A CN96192725 A CN 96192725A CN 96192725 A CN96192725 A CN 96192725A CN 1179224 A CN1179224 A CN 1179224A
Authority
CN
China
Prior art keywords
frame
blocking
depth
point
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN96192725A
Other languages
English (en)
Inventor
哈拉尔德·奥高·马滕斯
简·奥托·雷伯格
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
IDT International Digital Technologies Deutschland GmbH
Original Assignee
IDT International Digital Technologies Deutschland GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by IDT International Digital Technologies Deutschland GmbH filed Critical IDT International Digital Technologies Deutschland GmbH
Priority to CN96192725A priority Critical patent/CN1179224A/zh
Publication of CN1179224A publication Critical patent/CN1179224A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • G06T7/579Depth or shape recovery from multiple images from motion

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

揭示了一种用于在不能直接获得深度信息但能获得遮断信息的信号流中间接定量评估或决定并建立运动物体的深度方向的模型的方法和装置。对于这种用于估计在至少包括两个帧的图象序列中的深度的方法,包括下列步骤:(1)选择并表述可辨认点的特性,(2)检测在每个帧中的每一点是可见的还是被遮断的,将这个遮断数据收集在遮断表中,从而每个帧与在表中的一行相对应而每个点与在表中的一列相对应,从而赋予在表中与可见点相应的元素以大值而赋予在表中与遮断点相应的元素以小值,(3)进行关于遮断表的主分量分析,结果导致称为得分矢量的列矢量和称为输入矢量的行矢量,带有每一帧的值的一个得分矢量和带有每一点的值的一个输入矢量的集合称为因数,和(4)将第一因数的输入矢量的每个元素的数字值作为关于相应点的深度信息输出,其中大的数字值表示点在摄像机或观测者的附近,而小的数字值表示点在远方。

Description

用于深度建模并提供运动物体的深度信息的方法和设备
技术领域
本发明涉及当不能直接得到深度信息但可得到遮断信息时,用于间接定量估计或决定并对在信号流中的运动物体的深度方向建模的方法和设备。这种数据的例子是来自1D或2D摄像机的运动物体的数字视频序列。
背景技术
与诸如雷达的测距仪器相反,视频摄像机不直接提供从测量设备到观测目的物的深度或距离。只有直接观测垂直和水平位置及位移。当光学上稠密物体一个移动在另一个的后面时,观测到作为来自隐蔽物信息损失的由此引起的遮断。
然而,对于一些视频建模和压缩方案而言,具有深度方向的紧凑表示是十分重要的。这里,将深度定义为沿着从摄像机或观察者的视线的位置。
在多数基于对象的视频压缩系统中需要深度信息。一种用法就是有效地对重迭对象处理。编码器可以运用深度次序信息把图象各部分指定给正确的各对象,而且编码器可以运用这种信息,从而在重叠的情况下只显示出最前面的物体。这种深度建模称为顺序的或定性的深度建模。
另一组深度是十分重要的视频建模系统是自动地图构造系统,其中基于从不同位置,例如,从通过在地域上空飞行的飞机而摄制的地域照片自动制作地图。这里,根据立体图原理可以计算每一地域点的具有数字值的深度或高度模型。当在该地域中存在陡峭山脉时,这可以引起对于序列中一些帧的遮断。这种遮断对于一些存在的方法会引起问题,而根据本发明它们将成为系统中的信息源。可将这种的深度建模称为定量深度建模。
对于基于对象的视频建模系统的另一个例子,考虑一个包括摄像机和安装在传输带附近的机器人手臂的垃极分检系统。一些型号的摄像机,特别是工作在近红外光谱部分的摄像机,善于识别不同类型的材料,例如塑料,因而可运用由这种分析产生的结果来控制机器人手臂使之可以从传输带抓取物体并将它们释放在分类箱中。机器人手臂只是试图抓取没有部分位于其它物体后面的物体,这是十分重要的。可以执行对于根据本发明的摄像机的分析,从而获得提供关于物体遮断其它物体的信息的深度图。可将这种深度建模称为深度图建模。
对于基于对象的视频建模系统的又一个例子,考虑用于自动驾驶正在行驶的汽车的基于视频的系统。其它汽车,以及周围的地物,可能相互遮断。于是,有兴趣知道的不仅是哪些物体相互遮断,还有它们移动得多快、它们加速有多快、和紧接着它们将怎样相互遮断。可以根据本发明将这些信息概括成包括一个空间部分和一个时间部分的双线型模型。
在一些视频建模技术中,能够决定并沿着深度方向表示时间变化也是有利的。现在的视频编码解码器(编码器/解码器)系统不提供沿着深度方向系统的时间变化的充分的描述。
本发明只取决于遮断,即,关于可以通过哪些帧跟随哪些点或区域的信息。不需要要求了解场景的深度线索。这些线索可能是看来象是蓝色的山脉(由摄像机或观察者)通常比看来象是绿色的山脉离得远,靠近地平线的物体通常比远离地平线的物体离得远,看上去小的脸通常比看上去大的脸离得远,看上去移动快物体通常比看上去静止不动的物体离得近,或者在摄像机焦点中的物体比在摄像机焦点外的物体多一个深度。也不用立体视觉或其它类型视差。然而,如果获得任何这样的副信息,那么可将它包括进去以进一步稳定判断。
相应地,本发明的一个目的在于提供一种用于通常从具有空间分辨信号(输入信号),特别从来自1D或来自2D摄像机的视频序列图象数据获得顺序的或定性的深度信息的方法和设备。
本发明还有一个目的是检测在深度次序中时间或空间的不一致性,而且或者解决这些不一致性或者紧凑地模拟它们。
又一个目的是提供对于不同的图象部分定量的深度信息,并以任何形式输出该深度信息。
又一个目的是提供关于在帧的不同部分中深度是如何随着时间变化的定量信息并以任何形式输出信息。
又一个目的是将深度信息表示成紧凑模型的表示法。
又一个目的是促使基于这种紧凑模型表示法的时间和空间内插法或外推法。
又一个目的是用一序列的充分的定量细节估计深度,从而可以很好地解码或重建序列中的帧,而不必找到“真的”深度。
又一个目的是将在标称的或次序测量层次的定性遮断数据转换成在比例或间隔层次上的深度预测。
发明概述
深度分析主要分二阶段进行:第一,几个简单的局部遮断被检测并被表述其特征。第二,对这些遮断作稳健的联合以获得共同的深度模型。
运用特性点搜寻、逆运动估计、假设检验、或产生关于图象的哪些部分被遮断或正遮断其它部分的信息的其它技术可以找到局部遮断。
运用专家们熟悉的诸如稳健的多元建模、稳健的拓扑分类、或两者的组合的技术可以进行遮断的联合分析。对于改变深度次序,多元建模效果更好,而且它还可以运用图象几何数据,而拓扑分类产生在许多应用中都十分有用的深度图象。可将拓扑分类用作多元建模。
在联合分析中,可以找到主深度模型,并可以检测到在局部遮断之间的不一致性。可将这个信息反馈到用于重复局部遮断分析的局部遮断检测。可以制造新的深度模型,而且可以重复这个步骤直至收敛。
结果引起的共同深度模型可以有四种类型:第一,它可以是对于图象的有关部分的一个顺序的深度次序。第二,它可以是对于图象的有关部分的定量深度。第三,它可以是双线性模型,包括表示空间深度改变样式的低数目的称为“输入(loading)”的一个空间部分,和表示每个空间深度改变样式中有多少是对于一个帧的称为“得分(score)”的时间部分。第四,它可以是表示图象的哪些部分遮断其它部分的遮断图(还称为“深度图”)。可以组合四种类型。特别是,可以找到定量的深度和可兼容遮断图的组合。
多元深度模型具有空间和时间参数,从中可以预定图片元素的深度和在它们被遮断时的点,没有获得遮断信息时的点。这些内插和外推可以基于关于局部空间或时间平滑度的假设,而且可以给出有用的范围信息。
如果在观测的场景中物体互相改变相对的深度,或者如果物体旋转,那么这可以引起系统地变化局部遮断样式。可将多元深度模型制成可以容纳这种系统的深度变化,而模型复杂度的增加是有限的。
如果在对于图象可见部分的图象平面中可获得运动的可靠估计,那么可将这个信息用于稳定并增强深度建模。此外,可将深度的估计或与图象平面垂直的运动估计用于稳定并增强深度建模。
附图概述
图1示出本发明的两个主要操作装置,局部遮断检测器和全局深度模型生成器;
图2示出用于1D摄像机数据的一个物体在另一个物体的后面移动的简单情况;
图3示出可以如何包括时间模型;
图4是根据图3的数据的结果图;
图5示出用于1D摄像机的一个运动模式的例子,即旋转体,最好用双因素双线型深度模型建模。
图6从a到f示出如何用图象几何数据增强深度的建模,从而提供较好的定量数据;这些数字还示出该方法对于输入数据中的小误差是稳健的;
图7是从图6所得的结果图;
图8示出施于物体而不是单个点的本发明的原理,集中来自物体重叠区域的遮断阵列;
图9示出当三个或更多物体重叠时,如何收集遮断信息;
图10示出怎样将该方法应用到新息区域而不是遮断区域;
图11示出如何将遮断阵列看作是具有可能回路的图,如何强制将这些图成为无回路图,和当分别将图转换成深度次序和深度对关系时结果怎样;和
图12示出遮断阵列的预测。
第一较佳实施例
图1示出在第一实施例中对于本发明的概要,包括深度建模器100。其中,深度建模器100包括局部遮断检测器110、通用深度模型生成器120、遮断预测器140、和深度模型130。局部遮断检测器110接收视频输入150并对视频输入帧作局部遮断模式方面的分析,而通用深度模型生成器120将关于局部遮断模式的信息组合成深度模型130。基于深度模型130,输出估计深度160。还将深度模型130用于预报在遮断预报器140中的遮断。可将结果作为深度预报190输出。也可以反馈它们,以改进局部遮断检测器110的操作。
在WO95/34127中,解释了来自用于解码(重构帧)的深度建模器110的输出的运用,该文包括在这里以供参考。
参照图2,解释局部遮断检测器110和全局深度模型生成器120之间的合作。
接着,将给出用于如水平线摄像机产生出的简单1D(单维)情况的本发明的图解说明。虽然,本领域的专家看出该方法能直接推广到2D摄像机数据,但是,在某些点还将给出如何将数据应用于2D数据的明确的指示。
图2的最左面一列205示出点的结构,其中包括它们的真正深度。它表明两个物体ab210和cd212。相应于一个视频帧,图2的每一行与遮断的一个观测相对应。物体ab210具有两个可识别点,a214和b216,而物体cd212具有两个可识别点c218和d220。从上面看到带有点的物体,同时表示了在前面的摄像机位置222。
第二列225图解表明摄像机222所观测到的东西。在第一帧中,可以完全看到两个物体210、212。
局部遮断检测器110以特性点检测器为基础。局部遮断检测器110工作是保持一个以序列出现的一系列特性点的列表并当每一特性点可见时作检测。
特性点可以是图象的任何可识别部分。一个可能性是将特性点以诸如角那样的几何要素为基础,如S.Tabbone的“运用高斯算法的拉普拉斯变换的角检测”,“关于图象分析的第八届Scandinavian会议的进程”,1993(通过引用包括于此)中所述。
可用下列伪代码概括局部遮断检测器110的功能:
  Initialize FeaturePointList to empty

  For each Frame:

  Repeat so long as a new FeaturePoint can be found in Frame:

    Search for an entry in FeaturePointList that matches FeaturePoint

    If the match was not successful:

    Include the new FeaturePoint in the FeaturePointList

    Mark the FeaturePoint as Found for this Frame

  For each frame:

    For each FeaturePoint in the FeaturePointList:

        Output FeaturePoint index

    If the FeaturePoint was Found for this Frme:

      Output Found

  else

  Output NotFound
根据这个代码,系统将列一个关于特性点的表。必须将每一点特征化,以便以后它是唯一可识别的。一种方法是用类似尺寸或方向性的特性。第二种方法是包括与其它特性点的关系,从而当在特性点表中寻找在帧中找到的特性点时,在接受与特性点表中的特性点匹配之前,它必须具有相对于其它特性点的可接受的位置。第三个方法是存储从一个基准收集的特性点周围的象素帧的区域,可以组合这三种方法。这种特性描述是特性点表的一部分。
于是,来自局部遮断检测器110的输出将是特性点索引表,同时还有用于每一特性点的找到或未找到标记。
在该较佳实施例中,将未找到的特性点看作是被遮断的。然而,有两种其它情况可以考虑。
第一是由于在帧中物体的变化,特性点可能将状态从找到改变成未找到,或者反之亦然。作为一个例子,考虑在脸部的皱纹:首先皱纹是可以看见的,因此将它作为特性点收集起来。其次,可将皮肤拉紧,因而,即使没有遮断它,也不能看见皱纹。克服这种困难的一种方法是,假设遮断通常是突然事件,而以皱纹作为例子的特性点的出现或消失通常要有一段发生时间。因此,可以计算对于特性点的置信度的估计,当十分确定特性点是存在时具有高值,当十分确定特性点是不存在时具有低值,而且只有当置信度估计突然变化并具有显著量值时,才将特性点标记成找到或未找到。在其它情况下,可将它标记成未定。
第二种情况是,特性点可能移出帧或移进帧。对于深度估计来说,区分由于被遮蔽而变成看不见的特性点和由于将摄像机朝向另一方向而变成看不见的特性点是最重要的。为了将这两种情况区别开来,运用运动估计的局部遮断检测器110是实际可行的。下面将叙述这种局部遮断检测器,现在假设应用的性质对此是没有问题的。
根据上述的伪代码,根据关于帧的两个不同的For循环语句序列要经过两次遍历。另一个可能是将这些结合成一个,在这一情况下当找到新的特性点或对新的特性点作其他方式分析时,特性点表可能扩大,或甚至收缩。于是,全局深度生成器120必须可以处理这样动态的、更新的数据结构,或者局部遮断检测器110必须格式化它的数据,从而大小的变化对于全局深度模型生成器120是看不见的。对于后者的一个简单的例子是预先分配特性点表的大小以容纳最大固定数量的特性点,并且在给定时刻在没有定义的特性点的相应位置上填上零。另一方面,丢失的值可以被使用;下面将叙述丢失值的使用。
上述类型的表示包括,作为特殊情况,作为层次的视频表示法,如在J.Y.A.Wang和E.H.Aedlson的“用于图象序列代码的分层表示法”第五卷,第221-224页,IEEE ICAS SP,Minneapolis,Minnesota,1993,(通过引用包括于此)中所述。在该文中,特性点是可辨认的象素,而特性点表是层次的集合。
在第一较佳实施例中,将局部遮断数据每帧作为一个表项目存储在遮断表230中,如第三列235所示。对于每一点遮断表230就有一列。对于每一帧,每一点在遮断表230中具有一个相应的表项,并在该第一较佳实施例中表项是+1代表在给定帧中可视的点,而-1代表在给定帧中看不见的点。对于第一帧,所有的点都是可视的,所以在遮断表230中值+1出现4次。可将标记为未定的点给定为值0。
值+1和-1的选择不是严格的。所用的值必须表示一种排列次序,但除了这一限定外,许多值的选择都是可能的。一种可能是使统计上确定的观测值具有大的正或者负值,而赋予不确定的观测值以较小值。
对于可视点+1和看不见点-1的选择意味着深度标度,如在后面可见大的正值对应于观测者附近的点。
对于第二帧,第二列代表物体ab214、216部分地移动在物体cd218,220的后面,从而摄像机无法看见点b216。
与局部遮断数据相应的其它视频帧如列3至5所示。
遮断表230是全局深度模型生成器120的基础。在第一较佳实施例中,全局深度模型生成器的实现是基于非中心的主分量分析(PCA)的双线性模型。在Martens & Naes(1998):多元定标.J.Wiley & Sons Ltd.,ChicheSter英国(通过引用包括于此)中描叙了PCA。运用Barry M.Wise(1994)的“与Matlab一起运用的PLS工具箱”,Eigenvector技术,4145Laurel Drive,West Richland.WA88352美国(通过引用包括于此)的功能“mdpca”,获得在例子中用到的所有数字的PCA结果。
关于如遮断表230所示数据集,所有帧的平均值是平均深度=[0.2 0.211]。这是通过几个帧而估计深度的最简单的方法,并且对于现有简单情况是充分的。假设,对于所有帧,深度是一样的。
运用主分量分析,可获得更灵活的深度估计,其中不假设对于所有帧,深度是相同的。在第一实施例中,主分量模型运用一个主分量产生合理地良好的拟合。该主分量的“输入”240代表空间信息,而“得分”代表时间信息。将用于每一帧的带有值的一个得分矢量和用于每一点的带有值的一个输入矢量的集合称为“因数”。因数具有分别对于点a、b、c和d的输入[0.27 0.27.65.65],表示关于深度点a和b相似,而点c和d相似,从而获得的遮断数据没有给出任何关于a和b或c和d之间深度不同的线索。用输入乘得分,可以估计每一帧的深度,如估计的深度表中所示。对于每一帧,点c和d具有比a和b高的估计深度值,它表示点c和d离摄像机或观察者较近。虽然,并不必须同“真的”物理深度相同。但是值的确反映与摄像机所观测到的一致的一组深度。
在图3中,将图2的例子变得更复杂,其中物体ab310不仅侧移,而且还改变它的深度(到摄像机的距离),从而在一些帧中它在物体cd312的后面,在一些帧中在它的前面。
还假设另一种类型的局部遮断检测器110。当点被遮断时,局部遮断检测器110还可以指出哪一点遮断它,而不仅仅区别可视和看不见点,如图2所描述的解释那样。采用运动估计量可以制造出这样的局部遮断检测器。一个例子是跟随跨过几个帧的图象区域,如“Wang & Adelson”所述。当由根据时间、空间或两者外推的运动判断遮断发生时,通过假设检验找到的最前面点或遮断点,而其它点必定是被遮断点。当根据外推运动估计一个点将移到摄像机视线的外面时,将它标记为未定,并在遮断表中表示为丢失值。
这种基于运动估计的局部遮断检测器的另一个例子是在D.P.Elias的“获得用于基于运动分割的相干运动场”和K.KPang的“国际图片代码专题研讨会的进展”,1996,Melboume,澳地利(通过引用包括于此)中给出的方法。
在遮断表中,将遮断点表示为+1,被遮断点表示为-1,而且将不包括在遮断中的点标记为丢失值,如图3中的问号所示。
在图3中,第三列列出了哪些局部遮断可以从帧得以估计,而遮断表330直接反映了这些遮断点,其中记号“A>B”用于表示A在B的前面。
在遮断表330中给出一行表示每一遮断观测。例如,对于第三帧,可将局部遮断c>a表示为[-1?1?]而将d>b表示为[?-1 ?1]。
另一方面,可将一帧的遮断组合起来,从而用在遮断表330中用一个表项表示c>a和d>b,即[-1-111]。
由于将获得的遮断数据更直接地表示在遮断表中,所以用一行表示每一遮断观测具有通常会产生较佳结果的有利之处。用一行共同表示一帧的所有遮断观测值具有在帧和双线性模型之间较简单关系的有利之处。为了简化叙述,这里只说明后一种方法。
在这种情况下,对所有帧求得的遮断表的均值不能给出有意义的深度估计。
现在,用于计算主分量的方法必须可以处理包括丢失值的输入数据组。前面提到的功能,“mdpca”的确具有这种能力,如上面提出的Barry M.Wise(1994)的“与Matlab一起使用的PLS_工具箱”手册中所述。处理丢失值的一种方法如下:运用对丢失值加权重零的方式计算主分量模型,而且替代与该模型最不一致的丢失值。于是,计算新的主分量模型,并重复该过程直到丢失值的估计收敛。
在模型中用尽量少的双线性因数进行丢失值估计和深度建模,并对观测的局部简单遮断数据给出可接受的一致性。通过标准方法,例如通过交叉确认法,可以决定双线性模型的维数。
对于第一和最后帧,由于不能获得这些帧的局部遮断,所以不能找到得分。由于它意味着对于这些帧任何深度次序都是允许的,所以对于一些运用来说这是有价值的输出。对于其它帧,不出现得分变化,它表示在序列中深度没有变化。
还发现一个因数双线性模型给出了与简单遮断假设充分的拟合。具有值[-0.5-0.5 0.5 0.5]的找到的输入340还具有点a不能与点b区分开来的特性,正如点c不能和点d区分开来。然而,现在它的得分从帧到帧地变化,它表示深度从帧到帧的变化:它的得分对帧2、3和4是-2,而对于帧6和7是+2。
在该例子中,假设通过一段时间有系统的变化。这意味着对于那些不能获得遮断的帧,可以运用基于附近帧的瞬时内插或外推。这在图4中图解说明。在图4中,将运用图2所解释的方法找到并如图3中的列所示的得分作为帧数的函数,绘制成圆圈。观察到对于帧1、5和8没有给出圆圈。基于这些数据,可以计算最小二乘法回归如带有十字形直线所示,这里,现在包括了1、5和8帧。
将如图4所示的分析结果包括在图3中用于预报得分的列中。当用输入340乘以这些预报得分时,找到预报深度350。再者,虽然不直接与物理深度相对应,结果产生的预报深度与摄像机观测到的数据是一致的。
于是,在该例子中,将变化的深度定量模拟。改为运用时间连续假设预报对于不能获得遮断信息的帧深度信息。
代替最小二乘法回归,其它类型的时间内插或外推可用于填入丢失的得分值。特别是,可用附近帧的平均值、中值、或得分的加权平均值替代丢失得分。可用低通滤波、中值滤波、自回归移动平均(ARMA)滤波器、分段多项式(样条)等处理该结果。
虽然没有图示,但是还可将丢失值的填充用于输入。当观测到对于输入元素的丢失值时,它意味着没有观测到对于相应点的遮断。对于许多应用,基于附近值而填充元素是合理的。对于线摄像机应用,可以通过与上述用于得分的技术相同的技术执行。对于普通的产生两维图象的摄像机,例如可以用邻近值的加权和执行。
在某些情况下,仅基于一个因数的主分量表示法不能充分地表示正在变化的深度。这在图5中显示,其中刚体在旋转。遮断数据如图5中的列1-3所示。一个因数的双线性模型没有给出与这些数据充分的拟合,而两个因数模型给出了;于是将模型选为两维的。在列8和9中给出用于两个因数的帧的得分,而且最末两行显示对于点a、b和c相应的输入。
用输入与两个因数中的每一个的得分相乘并将乘积相加,提供估计的深度数据,如对于点a、b和c的列10-12所示。对于没有观测到遮断信息的那些点,它们被估计为中间深度(0)。
这说明了具有多于一个因数维度的双线性运动模型可以处理由旋转引起的深度变化。
通过允许在模型中有多于一个的因数,由于双线性模型的级数展开近似法的特性,所以可将它用于建立诸如非刚体运动的更加复杂的深度变化的模型。如上所述,可以精确地进行。只是对于最后结果进行的人为解释可以改变。因此,这里不对非刚体建模和其它更加复杂的变化进行说明。
除了遮断可以运用其它数据以增强深度模型。在一个较佳实施例中对于与深度方向垂直的运动的估计是同简单局部遮断一起,被分析。这在图6a-f中显示。
在图6a中,一个轮子朝着摄像机转动。在轮子上有八个可分辨的点,点a、b、c、d、e、f、g和h在轮子的圆周上相互隔开45度角。在七个时刻观测它们的遮断样式(为简单起见),其中每个相邻时刻之间旋转相差45度角。
图6b列出在每帧中看到的点。
图6C显示遮断表,已用辅助信息增广。
在该例子中,水平运动信息代表可获得的附加信息。为了简单起见,假设为平行投影的摄像机模型,与之相对的则是较普通的小孔摄像机模型。任意地将轮子的半径设为100,于是图6c的最右的部分表示在每一帧中每点的水平位置。图6c的列9-16给出可见点的水平位置。这些水平位置数据隐含地反映当轮子转动时的水平运动。
注意,与图6a中的数字不一致的一些数据已插入图6c中。在帧3中应该可视的点d在该帧中已被标记为看不见。在帧7中应看不见的点e已被标记为在该帧中可视。最后,将点a的水平位置表示为50而不是100。插入这个在局部遮断检测器中代表错误的数据,以表示系统对于合理的错误量和在输入数据中的噪声是稳健的。
这里选择两个因数用于双线性模型,与图5中的旋转体类似。在图6d中给出输入,在图6e中给出得分,并将得分和输入相乘以在图6f中给出深度的重构。
在多元深度模型生成器中,建立了定性遮断数据和定量辅助水平位置数据的模型。为了确定水平位置数据适当地影响整个多元最小二乘法(联合主分量)模型,把它们按因数100的比例减小。另一方面,这里已用到PLS2回归(上面Martens & Naes 1989所述)。
图7示出从图6f的左面的预报深度对从对于帧1的图6f的右面的预报水平位置的图。图示出相当规则的圆形对于深度的定量估计。不管输入的深度信息仅仅包括在定性的局部成对遮断数据中的这一事实,和水平位置一起就观测到都能达到这个结果。而且假设在遮断表中有一些错误,也观测到达到这个结果。
作为遮断,在得到附加、相关信息的情况下,可将它包括在深度建模中以补偿噪音或在遮断数据中的不充分,或者增加定量深度估计的精确性。
直接可将该方法扩展到来自2D摄像机的数据。对于这个的一种方法是在2D而非1D中进行局部运动和遮断分析。可用与图6c中所述相似的矢量表示各点的结果表,而且它还可以增广遮断表的垂直位置,而非仅仅增广与图6c的右面部分相似的遮断表的水平位置。
应注意,在本发明中可以运用除了主分量分析以外的其它方法。例如,一个人可以运用诸如用相似迭代丢失值估计的PLS2回归的不同的因数分析方法,而非联合主分量分析方法。在H.Marens的“多元定标”,第146-165页,和T.Naes,John Wiley&Son,1991中(通过引用包括于此)叙述了PLS2复原。另一种方法是多维标度变化(A.Gifi(1990):非线性多元分析.J.Wiley & Sons,Chichester,英国,第八章,通过引用包括于此)。
A.Gifi(1990):非线性多元分析.J.Wiley & Sons,Chichester英国,第2.4、3、4和8章,和在Lingoes,J.C.,Roskam,E.E.和Borg,I.(1979)中的关系数据的几何表示法,Mathesis出版社,Ann Arbor,Michigan,美国,和在Martens和Naes(1989,上面已提到过了)中第158页(通过引用包括于此)给出用于处理在双线性建模的丢失值的另一种方法。在上面所提到的A.Gifi(1990),Ligoes et al(1979)中,和在Young F.w.,Takane.Y.和De Leeuw.J.的“混合测量电平多元数据的主分量:具有最佳比例特性的交错最小二乘法(alternating least squares method)”,1979.Psychometrika 43(2)第279-281页(通过引用包括于此)中叙述了双线性建模的最佳标度方式。在Takane,Y.和Young,F.W.的“非度量公共因数分析:具有最佳比例特性的交错最小二乘法(alternating least squares method)”,1979,Behaviormetrica 6,第45-56页(通过引用包括于此)中找到稍有不同的技术。
从本发明的观点看,由于所有这些方法具有相同的提供描述深度次序的因数的功能,所以下面将它们共同地称为主分量分析或PCA。
可将来自深度模型生成器的深度和遮断信息反锁到局部遮断检测器用于检验或增强。
因此,可以减少遮断的虚假的错误解释的影响。例如,在某一帧中,假设帧n,在基于帧1.2.…n-1预定遮断的位置附近预计遮断。因此,把在预定的遮断附近的不确定的遮断信息解释为表示有遮断,把远离预定的遮断的不确定遮断信息解释为不表示有遮断。第二较佳实施例
在第一较佳实施例中,将根据本发明的系统应用于单个图象点,也可将第一较佳实施例的方法应用于图象物体,其中物体是由象素或其它要素构成,并且可将每个象素或要素用作“点”。但在对于每个物体仅仅要求一个深度值的情况下,与在每个物体中的每个象素的一个深度值相对,于是通过将大多操作施于低数量的物体而不是高数量的象素的方式,可以大大简化对于该处理过程的计算要求。
有多种将一图象序列划分成物体的方法。在上述的Wang & Adelson中描述了一种这样的方法。在那里,一个物体,称为一层,是由从一个或多个帧收集的一批象素值,以及表示每个象素有多少不透明性的所谓alpha映象一起而定义的。于是,对于每帧和每个物体,计算仿射变换,表明为了在给定的帧中重构给定的物体的象素,在alpha映象的非零部分内的象素应如何移动。由于对物体采用“刚性”仿射变换模型,并由于运用稳健的运动估计和回归方法,所以当在一些帧中的物体之间存在一些重叠时,也可以估计物体的运动。
参照图8,叙述在第二较佳实施例中本发明的原理的例子。给出作为输入的包括4个帧810、815、820、825的原始序列。三个物体811、812、813朝着互相移动直到它们大量地重叠826、827、828。
在下面,为了简单起见,不考虑在三个物体后的背景,但可以将它作为另一个物体考虑在本例子中。
在本例子中,物体在它们开始重叠前具有中间位置816、817、818,从而获得对于运动估计的足够的信息和分割,它意味着一个最佳系统可以很好地分割物体,所得的物体可以被提取并被表示为隔开的图象831、832、833。这些抽取物体图象的强度可以是直接从一帧收集的直接强度,或者它们可以是例如对几帧的平均或经中值滤波那样稳健运算的结果,如上面已经叙述的Wang &Adelson所做的。另一方面,可由如在WO9508240(通过引用包括于此)中的多因数模型表示强度。
用例如上面说叙述的Wang & Adelson所述的一些稳健的方法可以执行对于物体的可视部分的运动估计。具有这样的估计,可进行轮廓841、842、843、846、847、848、851、852、853、861、862、863的重建。为了进行这样的重建,根据它们的移动估计和它们的参照轮廓,必须移去物体的强度。对于运动物体的方法,见“数字图象扭曲”,第三版,G.Wolberg,IEEE计算机社会出版社,1994(通过引用包括于此)。
计算这些轮廓重叠854、855、856、864、865、866的区域。现在,可将初始帧810、815、820、825的相应部分的强度与这些重叠区域相应的抽取物体831、832、833的部分的强度相比较。
在参考位置可以比较物体,即,可将与重叠区域相应的初始图象的部分移回到物体的参考位置坐标,然后例如通过计算对于象素的差的绝对值的和、差的平方和、或一些其它相似性量度,可以比较强度。
另一方面,在帧位置中,可以比较物体,即,运用它的估计运动可以重建物体,然后可以计算在初始帧和重建之间的强度差。
当物体A和B移动从而它们重叠时,假设A在B的前面,在重叠区域中的A和初始之间的差可视为剩余值。同样地,假设B在A的前面,则B与原始之间的差可视为剩余值。
将记号“ResA>B”用来指假设A在B的前面的剩余值,并将“ResB>A”用来指假设B在A的前面的剩余值。
现在,给出两种方法以总计这种剩余值。
可以将总计剩余值的第一种方法看作直接将第一较佳实施例的方法用于物体而不是点。对于每一物体遮断表870将具有一列。对于在物体A和B之间的重叠区,这将导致遮断表的一个表项的取值对于最小剩余值的物体取值为+1、对于最大剩余值的物体取值为-1、以及根据剩余值之间的差计算的权重。这个权重可以直接是剩余值之间的差,或者它可以是相对于最小或最大剩余值的剩余值之间的差,或者它可以是基于F检验或类似检验的统计概率。
除了考虑物体而不是点之外,例如关联矩阵的每一列指一个物体,用于估计所有物体的深度次序的过程与第一较佳实施例相同。
用于总计剩余值的第二种方法是基于拓扑排序。可将一个物体看作图中的一个节点。可将具有相应概率P的物体A在物体B前面的假设看作具有相应强度P的从A到B的边缘。可将该结构表示为关联矩阵,如在“线性代数入门”,G.Strang,第339-348页,Wellesley-Cambridge出版社,1993(通过引用包括于此)中定义的。
图11a-e显示怎样将重叠的各种情况表示为深度图。虽然可进一步将用于三个物体的所有原理应用于背景,但是在该例子中不考虑背景。
图11a显示在给出的帧1110中不重叠的两个物体A1111和B1112。物体的深度图1115只包括两个孤立节点1116,1117。对于许多应用,它是有价值的信息。例如,在图象解码器中,可以独立地对物体解码,而没有诸如对于重叠的Z缓冲的额外处理。
图11b显示在帧1120中两个重叠物体A1121和B1122的基本情况。它们在一个区域中重叠,可以发现A在B前面(A>B)。深度图1126实现物体A1125在物体B1127的前面。
图11c显示在帧1130中,一个物体A1131遮断另一个物体B1132,而B1132又遮断第三个物体C1133。A1131只是间接地遮断C1133,这在深度图1136中反映了从A1135到C1138没有直接边缘(箭头)。
图11d显示可能存在间接重叠(如在图11c中)和直接重叠的组合。
图11e显示在不与一个具体深度序列一致的样式中,互相遮断的三个物体A1151,B1152,C1153。在深度图1156中,这由环反映。在许多真实序列中,一些找到的遮断将与物理“正确”重叠相对应,而其它找到的遮断将来自摄像机噪声,它在运动估计中不完善或其它类型的错误。事先,不知道哪些遮断是“正确的”,哪些是“虚假的”。在许多真的例子中,“虚假”遮断将具有在深度次序中创造不一致的倾向,该不一致对应于深度图中的回路。另一方面,与这些错误遮断相应的遮断比起“正确”的重叠来,通常具有对于时间的较少的系统性、或包括较少象素、或引起较弱强度差的倾向。因此,收集所有可获得的关于遮断的数据,并找出必须忽略的遮断以便于获得一个一致的深度次序,是有利的。
图11f显示具有四个物体的帧1160。物体B1162遮断物体A1161和D1164,而物体A1161和D1164还遮断物体C1163。这与深度次序B>A>D>C和B>D>A>C一致。虽然必须考虑来自在A1161和C1163上的最前面的物体B1162的影响,但是由于与对于图11a所解释的相同原因,在A和D之间的这种独立是有价值的。
拓扑排序的任务是寻找整个次序,在这种情况下,整个次序是在遮断的情况下与部分次序一致的深度次序。这种拓扑排序在UNIX操作系统中是作为程序“tsort”而实现的。“tsort”的说明在UNIX-version solaris中的man-page(通过引用包括于此)中有所描述。
当在输入数据中存在回路(在tsort man-page中称作“周期”)时,诸如“tsrot”的基本拓扑排序系统不工作。由摄像机噪声或其它错误数据源,由对于其中深度次序变化的帧序列的累计遮断,由来自运动估计或基本遮断检测的其它部分的次优结果、或者由真正互相遮断的物体,可以导致在输入数据中的回路。
在任何情况下,为了许多应用,必须解决这种回路。在一个较佳实施例中,通过在遮断图中移去低强度的边直到找到无回路图为止的方式解决。可将移去回路和拓扑排序的组合称为稳健的拓扑排序。
在一个较佳实施例中,根据下列伪代码可以进行环的移去:
While a Loop can be found in the graph:
  Find the Edge in the Loop with smallest strength
  Set the strength of the Edge to zero
通过几种标准方法,例如宽度优先搜索或者通过对于相应连接矩阵取幂可以在图中进行寻找回路。
可将边的这种移去与在边上的门限相结合:根据上述伪代码,在边移动之前、之间、或者之后可将比给出的门限小的强度设为零。
对于一个帧,可以给出代表这种图的关联矩阵。换句话说,通过简单地串接若干帧的关联矩阵的方式,可以总计这几个帧的关联矩阵。当对于相互遮断的物体的组合进行了几个观测时,可将它们组合成关联矩阵中的一行,例如在强度表示为与剩余值成正比的情况下就把它们的强度相加,或者在强度表示为概率的情况下就相乘。
当噪声或来自其它子系统的寄生虚假结果导致在遮断数据中的回路时,并且这些影响使它们自己在比“正确”的遮断有较少的确定性的遮断中显示出来,于是上述过程将具有移去噪声的效果。
当通过在序列中改变深度次序、或者由真正互相遮断的物体引起环路时,于是上述过程将具有尽可能轻地中断这种回路的效果。
在允许深度次序在序列期间改变,但对于任何给出的帧深度序列必须是无回路的应用中,对于每一帧可以执行回路的移去。
考虑下列例子:序列编码器分析序列并发现存在改变的深度次序,只有用深度的多因数双线性模型才可以较好地模拟它。它运用关于遮断的确定性的较低门限试着用上述方法移去回路,从而在处理中,只忽略无意义的遮断。通常,它将降低在双线性深度模型中必须的因数数目。随后,将双线性模型发送到解码器。
在图中的非零边缘现在代表深度图。可将它们作为关联图、表、或其它合适格式输出。
可将上述对于包括两个物体的重叠区域的用于计算引起遮断矩阵的剩余值的原理推扩展到适用于任何较高数量的重叠物体。在图8中,存在包括三个物体的这种区域867。
在图9a至9c中,更详细地显示它。三个物体910、912、914重叠,从而它们的重建轮廓920、922、924在区域928中一致。
图9c显示在三个物体A910、920、B912、922和C914、924重叠(如图9a和9b所示)的区域中的一个象素位置928的值。与来自原图象帧的象素相应的强度936一起,显示在强度标度930上的是由在给出的象素位置中的三个不同物体的分别解码引起的重建的象素值A931、B932和C933。重建的象素值也有不确定性,比如对于象素A931,对于该象素的强度值可以假设存在上限934和下限935。可从许多来源估计这种不确定性:它可由摄像机特性给出,如热噪声电平。它可以基于图象系统中的其它限制,如数字化所需的量化、存储、压缩、或其它处理。它可以基于对象的或较早帧的象素位置的统计量。或者可由在具有作为一个部分的深度估计的处理中的松弛参数,与例如运动估计和分割一起定义它,而且运用在用于深度估计的它的模块中的松弛参数以便首先集中在主要的、确定的信息上,然后集中在细节上。
在图9c中给出的例子中,原象素值936对于重建象素值C是处于不确定性极限934、935中,而对于B932和C933则处于不确定性外。因此,可以推断出重建象素值C符合给出的数据,而A和B不适合。由于A、B和C在帧中对应于同一象素位置但对应于三个不同物体,它意味着该观测支持可见象素是C的一部分的假设,而进一步意味着C在A的前面而且C也在B的前面。然而,注意考虑B和C的顺序,该观测具有较小信息值。因此,对于这个例子的结论是C>A和C>B,同时就象在上面讨论的那样具有基于差值的相应的强度。因此,可将ResC>A、ResC>B、ResA>C、和ResB>C用于更新遮断表。
在图9d中给出的例子中,象素值940位于两个不同物体A和B的不确定性中,而它在第三物体C的不确定性外。因此,该象素支持A或B、或者两者在C的前面:A>C或B>C。在该较佳实施例中,与前一段中的与关系类似地处理这种或关系,其中可将ResA>C、ResC>A、ResB>C和ResC>B用于更新遮断表。
图9e显示又一种情况,其中观测到的象素强度950在所有物体象素的允许的范围外。在这种情况下,不能找到关于遮断的结论。
在下列伪代码中,可以概括上述处理:
  For each pixel position in the overlap zone:

     For each object involved in th overlap:

      Reconstruct pixel value correponding to the pixel,together
 
       with allowed range

       If the observed pixel fits inside the allowed range:

          Mark the object as Allowed

       else

         Mark the object as NotAllowed

  For each Allowed object:

    For each NotAllowed obj ect:

      Accumulate ResAllowed>NotAllowed in the occlusion matrix

      according to difference between

      observed and reconstructed pixel values
这种方法采用对于每个象素的较硬的yes/no型决定,其中每个象素或者是允许的或者是不允许的。对于许多运用,这足够了,例如当象素量是如此之大以致于整个输出仿佛是连续运动的函数,上述方法不充分时,改良是可行的。宁可将它们用于产生允许性的不同程度,而不将不确定性用作允许或不允许的门限。在图9c中,这可意味着由于观测到的象素值936与重建的象素值a931很接近,所以象素a可以有非常接近于1的允许性。在图9e中,对于每个物体,观测到的象素值950可以有零允许性,而在图9d中观测到的值可以为中间值。在将剩余值累计到遮断矩阵中之前,将它与这个允许性相乘。这与模糊逻辑相对应。
在前面,将遮断用作深度信息源。只在时间轴的范围,可将新息看作是与遮断相同的现象,只要改为时间轴便因此可以直接应用给出的所有原理。
另一方面,对于时间方向是十分重要的应用,在图10中提到。在序列中的三个帧1001、1002、1003包括三个物体1005、1006、1007,它们开始互相遮断,但后来移开,从而有物体的新的面积,称为新息变成可见。
假设对物体的划分是以第一帧为基础的,结果由于遮断起先找到的物体1015、1016、1017并不完整。而且,通过帧可以跟随找到的物体,结果物体的初始位置是1030、1031、1032、1035、1036、1037。例如通过基于下列原理的方法,可将重建1021、1022、1023没有覆盖的原始帧1001、1002、1003的部分分配给找到的物体1015、1016、1017:
    While there are uncovered pixels in some frame of the sequenc:

      Select a reference frame,e.g.The one with largest amount

    of yet uncoverec pixels

    For each uncoverec pixel in the reference frame:

      For each object that is close in the reference frame:

       For each other frame of the sequence:
 
          Find which pixel of the other frame corresponds to the

          poxel of the reference frame,using motion extrpolated

          from the object

      Collect statistics,like mean and standard deviation

      of pixel values

    Assign the pixel to the object that had best

    statistics,e.g.Smallest standard deviation
由这种步骤分配给物体的新息引起遮断,并因此可将它用于估计深度。为了做到这一点,在它们的对于每一帧的估计的运动的基础上重建最后物体的轮廓、找到它们的重叠区域1060、1061、1062、1065、1066,并如图8所解释地处理。
可以预报入关联阵,如图12a-c所示。当已知序列中的一些帧的关联矩阵时,例如如图12a所示序列的第一两个帧1210、1215,于是例如当帧处在关联矩阵已知的两个帧之间时,运用线性内插,或者当帧跟着关联矩阵已知的一个或更多帧时,运用外推,可以制造另一个、相关帧例如在12a中的序列的第三帧1220的关联矩阵。在图12b中,给出它的一个例子。首先,必须为遮断表选择一个共同的结构,从而从几个帧得出的结果可以是兼容的。在共同遮断表1230中选择的一组遮断包括在第一行中A>B的表项,在第二行中A>C,和在第三行中B>C。在该例子中,将剩余值用于计算遮断的权重:权重是以上述剩余值为基础的。所以,通过内插或外推的方式,可将最前两个帧1210、1215的权重1235、1240用于预报下一个帧的权重。所以这些可以是找到并解决不一致性的基础。
图12c显示了一种等效的数据结构,它不是对于每个物体有一列和对于每一观测或一个遮断样式的观测总计有一行的遮断表,而是对于每个物体具有一行和一列的遮断矩阵1250。于是,在遮断矩阵中的位置i,j中的值x意味着物体i以强度x遮断物体j,其中强度可以如如上所述是权重、剩余值的差、概率、置信度等。可从其它遮断矩阵1250、1255的相应元素预报在一个遮断矩阵1260中的一个元素。
运用多元技术还可以作出根据图12b或12c的预报。双线性模型可以模拟图12b的权重1235。1240,所以存在对于每一帧的一组得分、可以预报这个或这些得分,并通过将得分与输入相乘的方式可以找到对于权重的预报。除了在双线性建模前必须将强度格式化成行矢量并且必须将重建逆格式化为矩阵之外,该方法对图12c描述的遮断矩阵是一样的。
双线性建模和不一致性解决的另一个组合如下:
编码器可以收集与几个帧相应的关联矩阵。可以对齐这些矩阵,使得在两个给出的物体之间的遮断总是发生在相同的位置。于是,执行这些矩阵的双线性建模是可行的,结果形成时间得分和空间输入。双线性模型对每一帧不必是无不一致性的。可将该双线性模型从编码器发送到解码器。于是,可以在解码器侧找到并为每一个别帧解决在通过将得分与输入相乘的方式找到的每一帧的重建的遮断表表项中的不一致性。
当参照本发明的较佳实施例特别显示并叙述本发明时,熟悉本技术的人将了解为可以进行形式上和细节上的各种变化而不偏离本发明的构思和范围。于是,还可以在“一个或多个”的某种意义上解释术语“许多”。

Claims (25)

1.一种用于在至少包括两个帧的图象序列中估计深度的方法,其特征在于,所述方法包括所述步骤:
(1)选择并表述可辨认点的特性,
(2)对于在每个帧中的每个点检查它是可见的还是遮断的,将这种遮断数据收集在遮断表中,从而每个帧与在所述表中的每行相对应而每个点与在所述表中的列相对应,因此把大的值赋予在与可见点相应的所述表中的元素,而把小的值赋予在与遮断点相应的所述表中的元素。
(3)执行关于所述遮断表的主分量分析,结果导致称为得分矢量的列矢量和称为输入矢量的行矢量,带有每个帧的值的一个得分矢量和带有每个点的值的一个输入矢量的集合称为因数,和
(4)将所述第一因数的所述输入矢量的每个元素的所述数字值作为关于所述相应点的深度信息输出,其中大的数字值表示点在所述摄像机或观测值的附近,而小的数字值表示点在远方。
2.一种用于在至少包括两个帧的图象序列中估计深度的方法,其特征在于,所述方法包括所述步骤:
(1)选择并表述可辨认点的特性,
(2)对于在每个帧中的每个点检查它是可见的还是遮断的,将这种遮断数据收集在遮断表中,从而遮断的每个观测与所述表中的一行对应而每个点与所述表中的列对应,并因此赋予被遮断点小的值,赋予遮断点大的值,而且将所述剩余点标记为丢失值,
(3)运用可以处理丢失值的方法执行关于所述遮断表的主分量分析,结果导致称为得分矢量的列矢量和称为输入矢量的行矢量,和
(4)将所述第一因数的所述输入矢量的每个元素的所述数字值作为关于所述相应点的深度信息输出,其中大的数字值表示点在所述摄像机或观测者的附近,小的数字值表示点在远方,而且丢失值表示可以具有任何深度的点。
3.一种用于在至少包括两个帧的图象序列中估计深度的方法,其特征在于,所述方法包括所述步骤:
(1)选择并表述可辨认点的特性,
(2)对于在每个帧中的每个点检查它是可见的还是遮断的,将这种遮断数据收集在遮断表中,从而每个帧与在所述表中的每行相对应而每个点与在所述表中的一组列相对应,因此对于每个点,存在代表遮断的一列和对于所述图象的每个所述坐标方向的一列,并因此对于每个帧的每个点,如果它是可见的那么赋予在所述第一列中的所述元素大的值,而如果它是不可见的那么赋予它小的值,而且对于点是可见的情况,根据所述图象方向的所述点的所述图象坐标赋予在每个所述剩余列中的元素一个值,或者对于所述点是不可见的情况,将它标记为丢失值,
(3)运用可以处理丢失值的方法执行主分量分析,结果导致称为得分矢量的列矢量和称为输入矢量的行矢量,带有每个帧的值的一个得分矢量和带有每个点的值的一个输入矢量的集合称为因数,
其中所述第一因数的所述输入矢量包括与每个点相应的一组值,和
(4)将在所述组中的第一数字值作为关于所述点的深度信息输出。
4.一种用于在至少包括两个帧的图象序列中估计深度的方法,所述方法包括所述步骤:
(1)-(3)如权利要求1、2或3的任一权利要求所述的步骤(1)-(3),
其特征在于,所述方法还包括所述步骤:
(4)选择相关因数的数目,从而所述数目大于或等于1,但小于或等于在所述序列中的帧的数目,
(5)对于每个帧,将与所述帧相应的所述得分和所述相关因数的所述输入矢量相乘,因此获得对于所述帧的所述数据的重建,
其中对于每个点,所述遮断数据的所述重建的所述相应因数代表对于所述相应帧的所述点的所述深度。
5.一种用于在至少包括两个帧的图象序列中估计深度的方法,所述方法包括所述步骤:
(1)-(3)对于除了所述帧之外的所述序列的每个帧执行如权利要求1、2或3的任一权利要求所述的步骤(1)-(3)或权利要求4所述的步骤(1)-(4),
其特征在于,所述方法还包括所述步骤:
(4)在与所述其它帧相应的得分的基础上,内插或外推与所述帧相应的得分,
(5)将根据步骤(4)内插或外推的得分与所述找到的输入矢量相乘,因此获得在所述帧中的所述遮断数据预报,
其中对于每个点,所述遮断数据的所述预报的所述相应元素代表对于所述帧的所述点的所述深度。
6.一种用于在至少包括两个帧的图象序列中估计深度的方法,所述方法包括所述步骤:
(1)选择并表述可辨认点的特性,
(2)对于在每个帧中的每个点检查它被其物体遮断它还是它遮断其它物体,将这种遮断数据收集在遮断表中,从而遮断的每个观测与所述表中的一行相应而每个物体与所述表中的列相应,并因此赋予被遮断物体小的值,赋予遮断物体大的值,而且将所述剩余物体标记为丢失值,
(3)运用可以处理丢失值的方法执行关于所述遮断表的主分量分析,结果导致称为得分矢量的列矢量和称为输入矢量的行矢量,带有每个帧的值的一个得分矢量和带有每个点的值的一个输入矢量的集合称为因数,和
(4)将所述第一因数的所述输入矢量的每个元素的所述数字值作为关于所述相应物体的深度信息输出,其中大的数字值表示物体在所述摄像机或观测者的附近,小的数字值表示物体在远方,而且丢失值表示可以具有任何深度的物体。
7.一种用于在至少包括两个帧的图象序列中估计深度的方法,其特征在于,所述方法包括所述步骤:
(1)根据如权利要求1至5的任一权利要求所述的步骤(1)-(3),估计对于点的深度,
(2)在对于每个在所述物体内的所述点的所述深度值的基础上,找到对于物体的代表性的深度值。
8.一种用于在至少包括两个帧的图象序列中估计深度的方法,其特征在于,所述方法包括所述步骤:
(1)定义并表述可辨认物体的特性,
(2)估计对于在每个帧中的每个物体的运动,
(3)将遮断数据集中在具有对于每个物体的一行和对于每个物体的一列的遮断矩阵中,从而当带有数字A的第一物体和带有数字B的第二物体具有它们在帧中重叠的运动,于是对于所述帧重建物体A,计算重建和原始之间的差的指示符,而且将所述结果收集在所述遮断矩阵中的位置(A,B),于是对于所述帧重建物体B,计算重建和原始之间的差的指示符,而且将所述结果收集在所述遮断矩阵中的位置(B,A),
(4)将所述遮断矩阵变换成图,其中将每个物体变换成一个节点,而将所述遮断矩阵的每个非零元素变换成从与所述元素的所述行相连的所述节点到与所述元素的所述列相连的所述节点的边,同时来自所述遮断矩阵的所述数字值作为边的强度,
(5)检测并解决在所述图中的任何回路,从而移去所述最弱的边,
其中在所述图中的所述剩余边代表在所述序列中的所述物体之间的深度从属性。
9.如权利要求8所述的方法,其特征在于,步骤(3),运用从带有物体A和B之间重叠的帧回到不带有重叠的帧的运动估计计算所述遮断矩阵的所述元素(A,B)和(B,A),从而累积到(A,B)和(B,A)的所述值依赖于在所述重叠区域中的所述运动估计是否指向在非重叠帧中的物体A或B。
10.用于对于成为至少三个帧的序列部分的帧的预报深度依赖性的方法,其特征在于,所述方法包括所述步骤:
(1)根据权利要求8的步骤(3),对于在所述序列中的除了所述帧之外的每个所述帧计算遮断矩阵,
(2)通过内插或外推,预报对于所述所要帧的所述遮断矩阵的所述个别元素,
(3)运用权利要求8所述步骤(4)-(5),在所述预报的遮断矩阵的基础上计算深度依赖性,
其中在所述图中的所述剩余边代表在所述帧中的所述物体之间的深度依赖性。
11.用于估计在至少包括两个帧的序列中的深度依赖性,其特征在于,所述方法包括所述步骤:
(1)定义并表述在每个帧中的可辨认物体的特性,
(2)估计在每个帧中的每个物体的运动,
(3)对于每个帧,通过将被重建的帧初始化为空的方式,重建所述帧,并对所有物体,根据它的估计的运动移动每个物体的所述强度,在所述重建帧中收集所述结果,
(4)将没有被步骤(3)中的所述重建覆盖的所述帧的部分分配给步骤(1)的一些所述物体,
(5)对于在步骤(4)中分配的所述部分,根据权利要求1至3,6和7的任一权利要求估计深度。
12.如权利要求10或11的任一权利要求所述的方法,在特征在于,回路的所述检测和解决以根据权利要求8或9的任一权利要求所估计的深度次序为基础。
13.用于估计在至少包括两个帧的图象序列中的深度的装置,其特征在于,所述装置包括:
(1)用于选择并表述可辨认识点的装置,
(2)用于对于在每个帧中的每个点检查它是可见的还是被遮断的装置,将这个遮断数据收集在遮断表中,从而每个帧与在所述表中的一行相应,而每个点与在所述表中的列相应,因此赋予在与可见点相应的所述表中的元素大的值,而赋予在与遮断点相应的所述表中的元素小的值,
(3)用于执行关于所述遮断表的主分量分析的装置,结果导致称为得分矢量的列矢量和称为输入矢量的行矢量,带有每个帧的值的一个得分矢量和带有每个点的值的一个输入矢量的所述集合称为因数,和
(4)用于将所述第一因数的所述输入矢量的每个元素的所述数字值作为关于相应点的深度信息输出的装置,其中大的数字值表示点在所述摄像机或观测值的附近,而小的数字值表示点在远方。
14.如权利要求13所述的装置,其特征在于,它适用于根据权利要求2至12的任一权利要求所述的方法。
15.用于表示在包括帧的图象序列中的深度的数据结构,每个所述图象帧包括按排成一种空间样式的多个数据采样,所述数据结构存在于由所述数据处理系统执行的应用程序存取的数据处理系统的存储器中,所述数据结构包括存在于由所述应用程序运用的数据库中的信息,其特征在于,包括:
(1)称为深度输入矢量的多个空间改变样式,每个输入的每个元素对应于所述参考图象的一个部分,
(2)多个深度得分矢量,每个深度得分矢量与一个深度输入矢量相对应,每个所述得分矢量具有与每个帧对应的一个深度得分。
其中,通过将与所述帧相对应的深度得分与所述深度输入矢量相乘的方式可以计算一个帧的所述图象的每个部分的深度值。
16.用于表示在包括帧的图象序列中的遮断规定的数据结构,每个所述图象帧包括排列成一种空间样式的多个数据采样,所述数据结构存在于由所述数据处理系统执行的应用程序存取的数据处理系统的存储器中,所述数据结构包括存在于由所述应用程序运用的数据库中的信息,其特征在于,包括:
(1)称为遮断输入矢量的多个改变样式,每个输入的每个元素对应于所述参考图象的部分的一个组合,
(2)多个遮断得分矢量,每个遮断得分矢量与一个遮断输入矢量相对应,每个所述得分矢量具有与每个帧对应的一个遮断得分。
其中,通过将与所述帧对应的遮断得分与所述遮断输入矢量相乘的方式可以计算一个帧的所述参考图象的部分的每个所述组合之间的遮断程度的近似值。
17.数据载体包括根据权利要求15或16的任一权利要求的所述数据结构。
18.数据载体包括由如权利要求2至12的任一权利要求所述的方法产生的所述数据结构。
19.装置适用于读取如权利要求15或16的任一权利要求所述的数据结构。
20.装置适用于发送如权利要求15或16的任一权利要求所述的数据根据。
21.装置适于解码包括由权利要求2至12的任一权利要求所述的方法产生的所述信息的信号。
22.装置适于发送包括由权利要求2至12的任一权利要求所述的方法产生的所述信息的信号。
23.系统包括读取装置和包括如权利要求15或16的任一权利要求所述的数据结构的数据载体。
24.系统包括发送设备和包括如权利要求15或16的任一权利要求所述的数据结构的数据载体。
25.运用如权利要求15或16的任一权利要求所述的数据结构,用于在通信或数据处理系统中输入、存储、存取、处理、发送、估计、表示或输出。
CN96192725A 1995-03-22 1996-03-22 用于深度建模并提供运动物体的深度信息的方法和设备 Pending CN1179224A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN96192725A CN1179224A (zh) 1995-03-22 1996-03-22 用于深度建模并提供运动物体的深度信息的方法和设备

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP95104227.4 1995-03-22
CN96192725A CN1179224A (zh) 1995-03-22 1996-03-22 用于深度建模并提供运动物体的深度信息的方法和设备

Publications (1)

Publication Number Publication Date
CN1179224A true CN1179224A (zh) 1998-04-15

Family

ID=5128428

Family Applications (1)

Application Number Title Priority Date Filing Date
CN96192725A Pending CN1179224A (zh) 1995-03-22 1996-03-22 用于深度建模并提供运动物体的深度信息的方法和设备

Country Status (1)

Country Link
CN (1) CN1179224A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102439971B (zh) * 2009-04-15 2015-08-05 三星电子株式会社 用于无线系统中的无压缩视频通信的累进速率适配的方法和系统
CN105559886A (zh) * 2014-10-31 2016-05-11 西门子公司 自动监测套管针的进入行为的方法和监测系统

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102439971B (zh) * 2009-04-15 2015-08-05 三星电子株式会社 用于无线系统中的无压缩视频通信的累进速率适配的方法和系统
CN105559886A (zh) * 2014-10-31 2016-05-11 西门子公司 自动监测套管针的进入行为的方法和监测系统
US9936972B2 (en) 2014-10-31 2018-04-10 Siemens Aktiengesellschaft Method of automatically monitoring the penetration behavior of a trocar held by a robotic arm and monitoring system
CN105559886B (zh) * 2014-10-31 2019-06-07 西门子公司 自动监测套管针的进入行为的监测系统

Similar Documents

Publication Publication Date Title
CN108038905B (zh) 一种基于超像素的目标重建方法
US11373339B2 (en) Projection-based mesh compression
US7035451B2 (en) Image conversion and encoding techniques
Becker Generation and application of rules for quality dependent façade reconstruction
CN101689299B (zh) 用于图像的立体匹配的系统和方法
Zhang et al. A sparsity‐inducing optimization‐based algorithm for planar patches extraction from noisy point‐cloud data
CN1186746C (zh) 通过分析图像序列构建三维景物模型的方法
Mordohai et al. Stereo using monocular cues within the tensor voting framework
Stefanoski et al. Automatic view synthesis by image-domain-warping
CN101479765A (zh) 对2d电影进行转换用于立体3d显示的方法和系统
JP2006091011A (ja) マルチビュー視差表示
CN101288100A (zh) 立体成像中的遮蔽处理
CN101223552A (zh) 用于深度提取的视频处理方法和装置
CN102652319B (zh) 用于改进图像匹配的方法和设备
Poiesi et al. Cloud-based collaborative 3D reconstruction using smartphones
CN103606151A (zh) 基于影像点云的大范围虚拟地理场景自动构建方法
CN105409207A (zh) 基于特征的图像集合压缩
CN1433640A (zh) 用于子画面生成的全局运动估计
EP3274964A1 (en) Automatic connection of images using visual features
CN117274510B (zh) 一种基于三维建模和结构尺寸测量的车体故障检测方法
KR20230060534A (ko) 2차원 정규화 평면 투사에 기초한 포인트 클라우드 인코딩 및 디코딩 방법과 장치
Liedtke et al. Use of explicit knowledge for the reconstruction of 3-D object geometry
CN1179224A (zh) 用于深度建模并提供运动物体的深度信息的方法和设备
CN1577399A (zh) 对数字图像进行编码的设备、系统和方法
Bassier et al. BIM reconstruction: Automated procedural modeling from point cloud data

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C01 Deemed withdrawal of patent application (patent law 1993)
WD01 Invention patent application deemed withdrawn after publication