CN113614791A - 动态三维成像方法 - Google Patents

动态三维成像方法 Download PDF

Info

Publication number
CN113614791A
CN113614791A CN202080023405.0A CN202080023405A CN113614791A CN 113614791 A CN113614791 A CN 113614791A CN 202080023405 A CN202080023405 A CN 202080023405A CN 113614791 A CN113614791 A CN 113614791A
Authority
CN
China
Prior art keywords
dimensional
numerical model
dimensional numerical
model
scene
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202080023405.0A
Other languages
English (en)
Inventor
O·酷睿柏斯
V·酷睿柏斯-杜兰特
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
V Kuruibaisi Dulante
O Kuruibaisi
Original Assignee
V Kuruibaisi Dulante
O Kuruibaisi
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by V Kuruibaisi Dulante, O Kuruibaisi filed Critical V Kuruibaisi Dulante
Publication of CN113614791A publication Critical patent/CN113614791A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • G06T7/593Depth or shape recovery from multiple images from stereo images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/90Determination of colour characteristics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)
  • Processing Or Creating Images (AREA)
  • Image Processing (AREA)

Abstract

本文公开了一种允许生成呈现被观察的三维场景的三维数值模型的动态三维成像方法。生成的模型最优地结合(404)来自两个中间三维数值模型的数据,两个中间三维数值模型分别通过立体三维重构计算方法(402)和通过学习的三维重构计算方法(403)获得。此外,生成的每个新模型帮助提高通过学习的三维重构计算方法的整体性能。

Description

动态三维成像方法
技术领域
本发明总体上涉及三维成像。更具体而言,其涉及一种三维成像方法,该方法允许从给定三维场景的多个二维数字图像动态重构三维数值模型。
背景技术
目前,存在多种能够生成三维数值模型以呈现三维场景的方法。在这些方法中,所谓的立体重构方法和所谓的学习重构方法对于针对公众的工业应用来说是特别有吸引力的,因为它们使用来自无源图像传感器的二维数字图像流来重构场景的三维数值模型。
图1是以简化的方式示出上述两种方法共用的步骤的步骤视图,这些步骤允许由二维数字图像生成三维数值模型。这些方法以迭代的方式执行,其中每次迭代能够生成恰当地丰富和完成在之前的迭代过程中建立的三维模型的三维数值模型。
在接收呈现给定的三维场景的一个或多个二维数字图像的步骤101之后,分别由所谓的位置估计阶段和所谓的三维信息估计阶段构成步骤102和103。一方面,位置估计阶段包括在给定时刻t确定用于获取二维数字图像的图像传感器相对于在该时刻t已经建立的三维数值模型的位置。以本身已知的方式,该确定通过考虑二维图像和三维模型两者优化标准而执行(例如,通过二维或三维切除或者通过优化光度标准)。另一方面,三维信息估计阶段包括通过从在相同时刻t接收到的二维图像通过两种方法中每种方法所特有的计算式来计算三维数值模型。
最终,在步骤104期间,将在三维重构计算结束时得到的三维信息在考虑图像传感器的实际位置的情况下添加到已经建立的三维数值模型。该信息可恰当地改变已经建立的模型的某些特征,以便改善其精度。
在两种方法共用的这些方面之外,每种方法具有其自身的优点和缺点。
一方面,立体三维重构计算方法不需要在其应用之前的任何信息,并且能够适用于很多种三维场景。然而,其性能取决于观察到的特定类型的场景。具体而言,当观察到的场景的区域没有纹理或存在反射或遮挡时,该方法的重构性能显著下降。此外,该方法的一个重要限制在于需要使用至少两个分开的二维图像才能够生成呈现任何三维场景的三维模型。
另一方面,通过学习的三维重构计算方法依赖于特定的算法(例如基于深度神经网络的算法)来从单个或多个二维数字图像生成三维数值模型。这些算法可以训练,也就是说,它们可以由于学习过程而改进性能,在学习过程期间,算法面对与确定的三维模型相关联的大量变化的二维图像组。有利地,该方法因此可以无差别地应用到任何类型的场景。其性能实质上仅取决于之前执行的学习的质量以及在该学习期间使用的数据。然而,没有集成到该学习过程中的目标或场景将仅被不完全地重构,如果有的话。此外,总体上,由该方法生成的三维模型的精度目前还低于由立体三维重构计算方法生成的模型的精度。
文档WO2018/039269A1公开了一种在增强现实眼镜上使用多个图像传感器的装置。该装置使用获取的二维图像来经由学习计算方法确定装置在其环境中的位置,并执行观察到的场景的动态三维重构。然而,重构三维模型的准确度在该应用中不是问题。还应注意,该装置使用上述两种方法的仅一种。
发明内容
本发明的目标在于消除或至少减轻现有技术的全部或部分上述缺点。
为此,本发明的第一方面提出了一种动态三维成像方法,该方法包括由计算单元执行的下列步骤:
-接收呈现被观察的三维场景的至少两个二维数字图像,所述至少两个二维数字图像由至少一个确定的图像传感器从空间中至少两个相应位置获取;
-基于立体三维重构计算方法,从所述二维数字图像生成与所述被观察的三维场景相关联的第一中间三维数值模型;
-基于通过学习的三维重构计算方法,从所述二维数字图像生成与所述被观察的三维场景相关联的第二中间三维数值模型;
-通过所述第一中间三维数值模型和第二中间三维数值模型的结合生成最终三维数值模型,所述生成包括:针对所述最终三维数值模型的确定部分,基于针对所述部分的所述第一中间三维数值模型和第二中间三维数值模型的至少一个特征参数的比较,选择所述第一中间三维数值模型和第二中间三维数值模型的确定部分的相应部分,最大化所述被观察的三维场景的呈现质量标准,所述特征参数代表所述被观察的三维场景的呈现质量;
-在存储器中存储数字信息,所述数字信息包括至少一个接收到的二维数字图像、与所述二维数字图像相关联的最终三维数值模型、以及代表所述被观察的三维场景的呈现质量的所述最终三维数值模型的特征参数;以及
-使用存储的数字信息作为训练数据,以训练和再训练所述计算单元执行通过学习的三维重构计算方法。
由于本发明,能够最优地结合两种不同的三维重构计算方法,以便生成尽可能真实的最终三维数值模型。该结合远远超出在生成3D模型的可能已知为彼此等同替换的两种方法之间进行简单的选择。其允许真正的协同,特别是在生成的第二中间三维数值模型可用作通过立体三维重构计算方法生成第一中间三维数值模型的先验(priori)的实施例的情况下,即使该实施例保持非强制的选项。实际上,在一些实施例中,不仅立体方法补给学习,动态学习方法也提供用于执行立体方法的先验。
此外,该方法自我丰富,使得每个新生成的模型能够通过至少部分地使用由立体方法获得的结果在无监管学习的框架内训练或再训练学习算法。立体方法即使对于不包括在初始学习中的3D场景也能够生成三维模型。因此,这些新生成的模型可构成新的子集,该新的子集可添加到初始学习数据以进行再学习。这将比初始学习更加丰富,因为新的三维模型尚未被考虑。这能够改善方法在自丰富过程中的整体性能,在自丰富过程中,学习或再学习引导立体视效而不是对立体视效必不可少,且立体视效在其被使用时提供新的数据以进行再学习。
单独或结合的实施例进一步如下设置:
-方法进一步包括通过至少一个确定的图像传感器,优选CMOS型或CCD型的无源视频传感器,获取呈现所述被观察的三维场景的二维数字图像。
-方法进一步包括通过显示装置显示所述最终三维数值模型,所述显示装置诸如为二维扫描或LED显示屏、虚拟或增强现实眼镜、或三维显示屏。
-通过结合所述第一和第二中间三维数值模型生成所述最终三维数值模型包括:
如果仅第一中间三维数值模型或第二中间三维数值型模具有用于为所述被观察的三维场景的呈现的给定部分建模的三维像素的值,则该值被分派到所述最终三维数值模型;
如果第一中间三维数值模型或第二中间三维数值模型两者都具有用于为所述被观察的三维场景的呈现的给定部分建模的三维像素的值,则分派到所述最终三维数值模型的值基于所述三维数值模型的至少一个特征参数的比较从这两个相应的值中选择,所述特征参数与该三维像素的值相关联;以及
如果没有三维数值模型具有用于为所述被观察的三维场景的呈现的给定部分建模的三维像素的值,则没有值被分派到该三维像素,或者被分派到该三维像素的值根据平滑计算方法确定。
-所述第二中间三维数值模型的生成在所述第一中间三维数值模型的生成之间执行,并且生成的第二中间三维数值模型被用作通过立体三维重构计算方法生成所述第一中间三维数值模型的先验;
-所述三维数值模型的特征参数是与所述三维数值模型的每个值相关联的不确定性。
-由所述计算单元用来训练和再训练通过学习的三维重构计算方法的学习数据包括:
来自共享或不共享的数据库的数据,包括二维数字图像和相关联的三维数值模型;和/或
包括二维数字图像和相关联的三维数值模型的数据,其由另一计算单元执行所述方法而产生;和/或
包括二维数字图像和相关联的三维数值模型的数据,其由计算单元执行另一方法而产生。
-每个中间三维数值模型是深度图或三维点云。
-在生成中间三维数值模型的一个或多个步骤期间,第二远程计算单元与所述计算单元配合以生成所述一个或多个中间三维数值模型。
-接收到的二维数字图像是彩色数字图像,并且其中,生成的最终三维数值模型包括基于所述二维数字图像的颜色确定的纹理。
-在生成中间三维数值模型的一个或多个步骤期间,所执行的三维重构计算使用中央凹成像式计算模型来得到中间三维数值模型,该中间三维数值模型在所述模型的投影到图像中央上的部分上相对更精确而在所述模型的投影到图像边缘上的部分上相对较不精确。
在第二方面中,本发明还涉及一种计算单元,其包括用于执行根据前一方面的方法的全部步骤的硬件和软件装置。
本发明的最后一个方面涉及一种三维成像装置,其包括至少一个数字图像传感器、存储器和根据前一方面的计算单元。
附图说明
本发明的其他特征和优点将在阅读下文描述时更加清楚。其为纯例示性的并且应结合附图进行阅读,附图中:
图1是以简化的方式示出多种已知的用于生成场景的三维数值模型的三维重构计算方法共用的步骤的步骤图。
图2是可以执行根据本发明的方法的一个实施例的系统的示意图。
图3是用于执行根据本发明的方法的装置的功能图。
图4是以简化的方式示出根据本发明的方法的实施例的步骤的步骤图。
图5是立体三维重构计算方法的迭代过程的示意图。
图6是通过学习的三维重构计算的方法的示意图。
图7是以简化的方式示出根据本发明的方法的另一实施例的步骤的步骤图。
具体实施方式
在下面的实施例描述和附图中,相同或相似的元件在附图中具有相同的附图标记。
下面结合图2、图3和图4描述根据本发明的动态三维成像方法的实施例。
在本发明的实施例的上下文中,术语“动态”表示可通过计算单元例如以迭代方式连续地执行所述方法。具体而言,呈现给定的三维场景的图像或二维数字图像的每次新的获取可导致方法步骤的执行。方法的每次执行(即,每次迭代)导致呈现三维场景的三维数值模型的生成。换言之,在给定的方法迭代期间生成的三维数值模型适当地构成在之前的方法迭代期间(例如在之前的迭代期间)生成的三维数值模型的更新。
此外,本领域技术人员将理解表述“三维场景”尽可能广泛地表示来自真实世界的能够通过由一个或多个数字图像传感器获取的一个或多个二维数字图像观察到的任何元素或元素组合。这些元素包括但不限于一个或多个(在大的或小的目标中)图片或动物、景色、场所、从外面看的建筑、建筑中的房间或空间,等等。
在步骤401期间,计算单元203接收由图像传感器202a、202b和202c获取的对应于二维数字图像的数据。所有这些二维数字图像表示来自空间中相应位置(即彼此不同)的相同的被观察三维场景,在此情况下是三维场景201。换言之,每个传感器从特定视角获取呈现三维场景201的二维数字图像,该特定视角与能够得到的场景的其他二维数字图像的视角不同。
在图2和图3所示的示例中,三个图像传感器202a、202b、202c形成获取单元202,该获取单元从不同视点(即,从不同视角)反复获取呈现三维场景201的数字图像的三合一。然而本领域技术人员将理解所用的图像传感器的数量不限于三个,仅必须大于或等于一个。实际上,为了操作,在该方法的其余部分执行的各种三维重构计算方法可需要仅一个二维图像,或使用相同场景的多个二维图像,所述多个二维图像由单个图像传感器在不同时刻从不同视角获取,或者由朝向所述场景的不同取向的多个传感器获取。
总体上,用于获取二维数字图像的图像传感器可以为传统上用于这种获取的任何数字传感器。例如,它们可以是CMOS(互补金属氧化物半导体)类型或CCD(电荷耦合器件)类型的无源视频传感器。此外,这些传感器可集成到公众可访问的图像获取装置中,例如视频摄像机、智能手机或甚至增强现实眼镜。最终,在本发明的某些实施例中,这些传感器获取彩色的数字图像,所述彩色使其能够在通过执行所述方法生成的三维数值模型中整合纹理。以此方式,获取的最终渲染比观察到的三维场景更加真实。
计算单元203包括硬件和软件装置,其允许计算单元执行方法的各步骤。典型地,该计算单元包括主板、处理器和至少一个存储器。此外,在特定实施例中,图像传感器和计算单元可集成到相同装置或设备中。例如,该装置可为智能手机,该智能手机获取直接被其计算单元处理的二维数字图像。有利地,与图像有关的数据的传输因此是简单且安全的。
在未示出的一个方法变型中,可以通过与计算单元203合作的第二远程计算单元全部或部分地执行某些步骤,特别是下文描述的步骤。例如,计算单元203可与远程计算器交换数据(特别是图像数据)。有利地,这能够提高可获得的计算能力,并因此提高所述方法步骤的执行速度。此外,这种数据能够根据适用于这种通信的协议(例如HTTP协议)被传输。
在步骤402期间,计算单元203从其已经接收到的二维数字图像生成第一中间三维数值模型。该第一中间三维数值模型是观察到的三维场景的3D呈现。在一非限制性实施例的示例中,该中间三维数值模型可以是深度图或三维点云。在所有情况下,其通过所谓的立体三维重构计算方法生成。具体而言,计算单元203集成称为立体重构子单元203a的子单元,该子单元特别地专用于根据该计算方法的三维数值模型的重构。
如前文所述,这种方法本身对于本领域技术人员是已知的。其特别地基于从至少两个不同角度观察同一个三维场景,以便能够重构场景的三维模型。使用该方法的一个示例在2011年Geiger等的文章《StereoScan:Dense 3D Reconstruction in Real-time》中进行了描述。此外,有许多免费使用且在资料库中成组的应用该方法的算法,例如可在http://www.cvlibs.net/software/libviso/找到的资料库。
这种计算方法不需要先验就能够从二维数字图像重构三维数值模型。换言之,三维模型可仅基于二维图像获得,无需任何之前知晓且由计算方法使用的数据。
然而,先验的恰当使用,即用作立体重构计算的起始点的数据的使用,允许计算时间的增益并提高该方法的精度。实际上,这种计算方法通过逐渐减小计算的感兴趣的区域(即,体积)的尺寸而迭代地进行,在感兴趣的区域中,构成被观察的三维场景的各种元素的三维表面被重构。因此,使用先验能够更准确且更快速地瞄准所关注的区域。
图5是立体三维重构计算方法的迭代过程的示意性描述。
在示出的示例中,二维图像传感器501和502获取呈现同一个三维表面508(其自身包括在更大的被观察的三维场景中)的二维数字图像。
为了最好地估计表面508的形状,在给计算的感兴趣区域划界的搜索体积503中执行计算。该形状的第一估计505(即,计算的第一次迭代)在该体积中执行。具体而言,在该体积503内,计算方法应用于三维像素504a中(即,集成场景的三维空间的体积子区)。对于这些三维像素504a的每个,计算光度定量指数,例如NCC(归一化互相关)类型的指数。第二估计506仅在光度定量指数大于确定值的三维像素中进行。具体而言,所选择的三维像素504a被再分为多个更小的三维像素504b,在每个更小的三维像素中完成新的估计。
最终的估计507发生在确定的迭代次数之后,该确定的迭代次数在三维表面的形状估计中足以实现期望的精度水平。具体而言,获得的精度直接来自于在最终估计期间使用的三维像素504c的尺寸。然后从该最终估计生成呈现出三维表面和其他元素的三维数值模型。
现在参考图4,步骤403包括通过计算单元203从已经接收到的二维数字图像生成第二中间三维数值模型。该第二中间三维数值模型也呈现观察到的三维场景。此外,在通过学习计算方法生成的三维数值模型的情况下,该模型仅可为深度图。然而,后者可容易地随后根据本领域技术人员已知的方法被转换为三维点云。
然而,与上文所述的第一中间三维数值模型不同,该模型借助于通过学习的三维重构计算方法生成。具体而言,计算单元203集成称为学习重构子单元203b的子单元,该子单元具体专用于根据该计算方法的三维数值模型的重构。
再次,如上文所述,这种方法对于本领域技术人员来说是已知的,使得对其进行详细描述会超出本说明书的范围。本领域技术人员将理解,该方法的执行特别基于在先学习(所谓的训练)。在该学习期间,方法的执行使用大数据库,在该数据库中,许多二维数字图像已经与三维数值模型相关联。该方法的使用示例在例如2016年Laina等的文章“Deeperdepth prediction with fully convolutional residual networks”中进行了表述。此外,还有许多应用该方法的算法,这些算法是免费使用的且在资料库中分组,资料库例如可在https://github.com/iro-cp/FCRN-DepthPrediction找到。
本领域技术人员将理解步骤402和403的顺序是无关紧要的,并且不限于本文中参照图4的步骤图描述的示例。
图6是通过学习的三维重构计算的方法的训练过程的示例的示意性描述。
在图6所示的示例中,计算方法基于深度学习神经网络或DNN(深度神经网络)602以从单个二维数字图像601重构三维数值模型604。该网络可从将每个确定的二维数字图像与给定的三维数值模型耦合起来的训练集(即,从数据库)学习待赋予每个学习层的权重,以从相关联的二维数字图像尽可能精确地预测三维数值模型。一旦神经网络被训练,其可以被预测性地使用。因此,有利地,该方法仅需要被观察场景的一个图像来生成所关注的场景的三维数值模型。
学习这种DNN的过程对于本领域技术人员来说是已知的。图6以简化的方式示出该过程的示例。学习的第一阶段接连执行三个卷积层603a、603b、603c。在第一次之后每次执行这些卷积层时,与它们分别相关联的卷积矩阵(也称为核心)的尺寸与之前执行的层相比减小。第二阶段包括执行两层完全相连的神经网络603d和603e。最终的层603e完全连接到最终的深度图。
返回图4的描述,在步骤404中,计算单元203访问决策单元203c来通过第一和第二中间三维数值模型的结合生成最终的三维数值模型。具体而言,计算单元203适用于根据被观察的三维场景的呈现的质量标准基于所述第一和第二中间三维数值模型的至少一个特征参数的比较来选择待生成的最终的三维数值模型在第一中间三维数值模型或第二中间二维数值模型中的每个部分。所述特征参数代表被观察的三维场景的呈现的质量。换言之,计算单元选择第一和第二中间三维数值模型(分别通过立体计算方法和学习计算方法生成)的相应部分,基于所述第一和第二中间三维数值模型的特征参数的比较针对所述部分最大化了被观察的三维场景的呈现质量的标准。
被观察的场景的呈现的质量标准使得每次(也就是说对于待生成的最终的三维数值模型的每个部分)能够选择最精确呈现被观察的三维场景的中间三维数值模型。在两种中间三维数值模型中,这是相应部分最大化该质量标准的模型。在一些实施例中,该结果可通过比较两个模型共用的特征参数来获得,基于该特征参数,所述中间模型中的一种的一部分与所述中间模型中的另一种的一部分分别根据比较结果被选择,这些部分对应于待形成的最终模型的被考虑的部分,即,为被观察的场景的相同部分建模的部分。
例如,在方法的特定实施例中,中间三维数值模型的特征参数可以是与对于每个三维数值模型已经确定(即,在方法步骤402和403期间确定)的每个值相关联的不确定性。更准确地说,决策单元适于针对分别与被观察的三维场景的空间中相同的确定点相关联的中间模型的每个三维像素比较两个模型之间已知的不确定性。
在该实施例中,可以如下设置:
-如果仅第一或第二中间三维数值模型具有用于被观察的三维场景的给定三维像素的值,则该值被分派到所述最终三维数值模型;
-如果第一或第二中间三维数值模型两者都具有用于被观察的三维场景的给定三维像素的值,则分派到所述最终三维数值模型的值基于与该三维像素的值相关联的两个三维数值模型的相应不确定性的比较从这两个相应的值中选择;以及最终
-如果没有中间三维数值模型具有用于被观察的三维场景的给定三维像素的值,则没有值被分派到该三维像素,或者在变型中被分派到该三维像素的值根据所谓的平滑计算方法确定。一个这种方法包括基于被观察的三维场景中相邻三维像素的值对元素值进行插值。
总之,该方法能够通过结合两个不同过程的相应质量来优化获得的最终三维数值模型的精度。该模型由此尽可能忠实于实际被观察的三维场景。
本领域技术人员将理解,本发明能够被推广到多于两个中间三维数值模型,且推广到多于两个被观察的三维场景的二维图像。例如,以上考虑的任一类型的多个中间三维数值模型可从相应的二维数字图像p元组生成,其中p是大于或等于1的整数。此外,基于每个应用的特定特征,也可想到除上文描述的两种类型之外的中间三维数值模型的类型。
此外,在方法的特定实施例中,最终三维数值模型可通过显示装置返回到使用者。例如,模型可投射到二维扫描或LED显示屏上、虚拟或增强现实眼镜上、或甚至三维显示屏上。
最终,为了减小在生成三维数值模型的步骤期间执行的计算的持续时间,计算方法固有的计算可根据中央凹成像类型的计算模型执行。术语“中央凹”以人类视觉类比,指的是计算模型,该计算模型致力于获得在图像或计算的中央处更加精确且在边缘处较不精确的结果。由此,计算能力在边缘处减小且导致资源节约,由此减少整个计算时间。
除了已经描述的优点之外,根据本发明的其他优点来自于以下因素:两种不同计算方法的结合还能够使得两种方法彼此配合以改善它们各自的性能。
例如,首先,能够在存储器中存储在方法的迭代结束时获得的数字信息,以便用其改善之后迭代过程中方法的性能,即,生成例如从另一观察点考虑的相同被观察场景或另一被观察场景的另一最终三维数值模型。更准确地说,计算单元203可向存储器205传输包括其已经接收到的二维数字图像、与所述二维数字图像相关联的最终三维数值模型和该模型的一个或多个参数特征的一组数据。以此方式,这样存储的数字信息可被计算单元作为学习数据而重复使用,该学习数据在必要时允许其训练或再训练用于该通过学习的三维重构计算方法的计算单元。因此,有利地,除了初始用于训练计算单元的数据库,方法的每次新的迭代完成和丰富了用于连续执行该方法计算单元的学习,因而完成和丰富了其性能水平。
此外,在该方法的特定实施例中,上文所述的数据和/或其他额外数据可帮助改进被称为再学习阶段的阶段期间的计算单元的学习。例如,其可以是来自汽车制造商的提供一组呈现车辆的数字图像的数据,该组数字图像与基于所述图像被预定义的所述车辆的三维数值模型相关。其也可以是由另一相当的计算单元(例如,通过另一个装置或通过另一使用者)执行相同方法产生的数据,或者甚至是与本发明无关但仍然导致从二维数字图像生成三维数值模型的另一方法(例如,三维场景的激光获取)的执行所产生的数据。此外,该数据还可来自能够合成来自多个源的这类数据的学习数据共享平台。在所有情况下,三维重构计算方法可被规则地再训练以提高其性能水平。特别参照方法的自丰富性。实际上,有利地,方法的每次迭代能够改善其性能。
其次,如上文已经描述,立体三维重构计算方法可得益于在其计算过程中使用先验。因此,只要通过学习的三维重构计算方法在该方法的任何具体实现(迭代)之前被训练,由于使用称为学习数据库的具体数据库,后者就能够在恰当时提供能够用作立体三维重构计算方法的先验的三维数值模型。
图7是使用该能力的方法的特定实施例的步骤图。
在该实施例中,已经参照图4描述的步骤401至404中的每个被复制。然而,展开这些步骤的顺序是特定的。具体而言,用于生成第二中间三维数值模型的步骤403在用于生成第一中间三维数值模型的步骤402之前进行。以此方式,生成的第二中间三维数值模型被立体三维重构计算方法用作先验来更精确且更快地生成其三维数值模型。例如,参照图5中所示立体三维重构计算方法的迭代过程,这种先验的使用使得能够直接在比估计步骤505更精确的估计步骤506和随后的任何其他估计步骤时开始。此外,方法的步骤404保持不变,最终三维数值模型保持两个中间模型的结合,在所有情况下,对于最终模型的每个部分,两个中间模型的结合利用最精确(即,最忠实于被观察的三维场景)的中间模型。
已经在详细描述和附图中以可能的实施例对本发明进行了表述和例示。然而,本发明不限于所呈现的实施例。通过阅读说明书和附图,本领域技术人员能够推导和执行其他变型和实施例。
在权利要求中,术语“包括”和“具有”不排除其他元素或其他步骤。单个处理器或多个其他单元可用于执行本发明。所呈现和/或要求保护的各个特征能够有利地结合。它们在说明书或不同独立权利要求中的出现不排除这种可能性。附图标记不能被理解为限制本发明的范围。

Claims (13)

1.一种动态三维成像方法,包括由计算单元执行的下列步骤:
接收呈现被观察的三维场景的至少两个二维数字图像,所述至少两个二维数字图像由至少一个确定的图像传感器从空间中的至少两个相应位置获取;
基于立体三维重构计算方法,从所述二维数字图像生成与所述被观察的三维场景相关联的第一中间三维数值模型;
基于通过学习的三维重构计算方法,从所述二维数字图像生成与所述被观察的三维场景相关联的第二中间三维数值模型;
通过所述第一中间三维数值模型和第二中间三维数值模型的结合生成最终三维数值模型,所述生成包括:针对所述最终三维数值模型的确定部分,基于针对所述部分的所述第一中间三维数值模型和第二中间三维数值模型的至少一个特征参数的比较,选择所述第一中间三维数值模型和第二中间三维数值模型的确定部分的相应部分,最大化所述被观察的三维场景的呈现质量标准,所述特征参数代表所述被观察的三维场景的呈现质量;
在存储器中存储数字信息,所述数字信息包括至少一个接收到的二维数字图像、与所述二维数字图像相关联的最终三维数值模型、以及代表所述被观察的三维场景的呈现质量的所述最终三维数值模型的特征参数;以及
使用存储的数字信息作为学习数据,以训练和再训练所述计算单元执行通过学习的三维重构计算方法。
2.根据权利要求1所述的方法,进一步包括通过至少一个确定的图像传感器,优选CMOS型或CCD型的无源视频传感器,获取呈现所述被观察的三维场景的二维数字图像。
3.根据权利要求1或2所述的方法,进一步包括通过显示装置显示所述最终三维数值模型,所述显示装置诸如为二维扫描或LED显示屏、虚拟或增强现实眼镜、或三维显示屏。
4.根据权利要求1至3中的一项所述的方法,其中,通过结合所述第一中间三维数值模型和第二中间三维数值模型生成所述最终三维数值模型包括:
如果仅第一中间三维数值模型或第二中间三维数值型模具有用于为所述被观察的三维场景的呈现的给定部分建模的三维像素的值,则该值被分派到所述最终三维数值模型;
如果第一中间三维数值模型或第二中间三维数值模型两者都具有用于为所述被观察的三维场景的呈现的给定部分建模的三维像素的值,则分派到所述最终三维数值模型的值基于所述三维数值模型的至少一个特征参数的比较从这两个相应的值中选择,所述特征参数与该三维像素的值相关联;以及
如果没有三维数值模型具有用于为所述被观察的三维场景的呈现的给定部分建模的三维像素的值,则没有值被分派到该三维像素,或者被分派到该三维像素的值根据平滑计算方法确定。
5.根据权利要求1至4中的一项所述的方法,其中,所述第二中间三维数值模型的生成在所述第一中间三维数值模型的生成之间执行,并且其中,生成的第二中间三维数值模型被用作通过立体三维重构计算方法生成所述第一中间三维数值模型的先验。
6.根据权利要求1至5中的一项所述的方法,其中,所述三维数值模型的特征参数是与所述三维数值模型的每个值相关联的不确定性。
7.根据权利要求1至6中的一项所述的方法,其中,由所述计算单元用来训练和再训练通过学习的三维重构计算方法的学习数据包括:
来自共享或不共享的数据库的数据,包括二维数字图像和相关联的三维数值模型;和/或
包括二维数字图像和相关联的三维数值模型的数据,该数据由另一计算单元执行所述方法而产生;和/或
包括二维数字图像和相关联的三维数值模型的数据,该数据由计算单元执行另一方法而产生。
8.根据权利要求1至7中的一项所述的方法,其中,每个中间三维数值模型是深度图或三维点云。
9.根据权利要求1至8中的一项所述的方法,其中,在生成中间三维数值模型的一个或多个步骤期间,第二远程计算单元与所述计算单元配合以生成所述一个或多个中间三维数值模型。
10.根据权利要求1至9中的一项所述的方法,其中,接收到的二维数字图像是彩色数字图像,并且其中,生成的最终三维数值模型包括基于所述二维数字图像的颜色确定的纹理。
11.根据权利要求1至10中的一项所述的方法,其中,在生成中间三维数值模型的一个或多个步骤期间,所执行的三维重构计算使用中央凹成像式计算模型来得到中间三维数值模型,该中间三维数值模型在所述模型的投影到图像中央上的部分上相对更精确而在所述模型的投影到图像边缘上的部分上相对较不精确。
12.一种计算单元,其包括用于执行根据权利要求1至11中的一项所述的方法的全部步骤的硬件和软件装置。
13.一种三维成像装置,其包括至少一个数字图像传感器、存储器和根据权利要求12所述的计算单元。
CN202080023405.0A 2019-02-01 2020-02-03 动态三维成像方法 Pending CN113614791A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
FRFR1901013 2019-02-01
FR1901013A FR3092426B1 (fr) 2019-02-01 2019-02-01 Procédé dynamique d’imagerie tridimensionnelle
PCT/IB2020/050838 WO2020157733A1 (fr) 2019-02-01 2020-02-03 Procédé dynamique d'imagerie tridimensionnelle

Publications (1)

Publication Number Publication Date
CN113614791A true CN113614791A (zh) 2021-11-05

Family

ID=67001984

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202080023405.0A Pending CN113614791A (zh) 2019-02-01 2020-02-03 动态三维成像方法

Country Status (5)

Country Link
US (1) US11908070B2 (zh)
EP (1) EP3918576A1 (zh)
CN (1) CN113614791A (zh)
FR (1) FR3092426B1 (zh)
WO (1) WO2020157733A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR3111067A1 (fr) * 2020-06-06 2021-12-10 Olivier Querbes Prise d'empreinte optique de l’arcade dentaire d’un patient

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103988226A (zh) * 2011-08-31 2014-08-13 Metaio有限公司 用于估计摄像机运动以及用于确定实境三维模型的方法
CN105913485A (zh) * 2016-04-06 2016-08-31 北京小小牛创意科技有限公司 一种三维虚拟场景的生成方法及装置
US20180124371A1 (en) * 2016-10-31 2018-05-03 Verizon Patent And Licensing Inc. Methods and Systems for Generating Depth Data by Converging Independently-Captured Depth Maps
CN108510573A (zh) * 2018-04-03 2018-09-07 南京大学 一种基于深度学习的多视点人脸三维模型重建的方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9646410B2 (en) * 2015-06-30 2017-05-09 Microsoft Technology Licensing, Llc Mixed three dimensional scene reconstruction from plural surface models
IL281241B (en) 2016-08-22 2022-08-01 Magic Leap Inc An augmented reality display device with deep learning sensors

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103988226A (zh) * 2011-08-31 2014-08-13 Metaio有限公司 用于估计摄像机运动以及用于确定实境三维模型的方法
CN105913485A (zh) * 2016-04-06 2016-08-31 北京小小牛创意科技有限公司 一种三维虚拟场景的生成方法及装置
US20180124371A1 (en) * 2016-10-31 2018-05-03 Verizon Patent And Licensing Inc. Methods and Systems for Generating Depth Data by Converging Independently-Captured Depth Maps
CN108510573A (zh) * 2018-04-03 2018-09-07 南京大学 一种基于深度学习的多视点人脸三维模型重建的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
LA I NA IRO ET AL: "Deeper Depth Prediction with Fully Convolutional Residual Networks", 2016 FOURTH INTERNATIONAL CONFERENCE ON 3D VISION (3DV), IEEE,, vol. 2016, 15 October 2016 (2016-10-15), pages 239 - 248, XP033027630, DOI: 10.1109/3DV.2016.32 *

Also Published As

Publication number Publication date
WO2020157733A1 (fr) 2020-08-06
EP3918576A1 (fr) 2021-12-08
US20220122318A1 (en) 2022-04-21
US11908070B2 (en) 2024-02-20
FR3092426A1 (fr) 2020-08-07
FR3092426B1 (fr) 2021-09-24

Similar Documents

Publication Publication Date Title
CN109255831B (zh) 基于多任务学习的单视图人脸三维重建及纹理生成的方法
JP7403528B2 (ja) シーンの色及び深度の情報を再構成するための方法及びシステム
KR20210119438A (ko) 얼굴 재연을 위한 시스템 및 방법
CN107484428B (zh) 用于显示对象的方法
WO2022205760A1 (zh) 三维人体重建方法、装置、设备及存储介质
CN113272870A (zh) 用于逼真的实时人像动画的系统和方法
JP2004502249A (ja) 深度マップのメジアン値融合のためのシステムおよび方法
CN110298916B (zh) 一种基于合成深度数据的三维人体重建方法
CN112233212A (zh) 人像编辑与合成
CN113723317B (zh) 3d人脸的重建方法、装置、电子设备和存储介质
CN109191554A (zh) 一种超分辨图像重建方法、装置、终端和存储介质
CN113628327A (zh) 一种头部三维重建方法及设备
CN110443874B (zh) 基于卷积神经网络的视点数据生成方法和装置
JP2018124939A (ja) 画像合成装置、画像合成方法、及び画像合成プログラム
CN113657357B (zh) 图像处理方法、装置、电子设备及存储介质
CN115239861A (zh) 人脸数据增强方法、装置、计算机设备和存储介质
CN115239857B (zh) 图像生成方法以及电子设备
CN115222889A (zh) 基于多视图图像的3d重建方法、装置及相关设备
CN117274501B (zh) 一种可驱动数字人建模方法、装置、设备及介质
JP2019016164A (ja) 学習データ生成装置、推定装置、推定方法及びコンピュータプログラム
CN111742352B (zh) 对三维对象进行建模的方法和电子设备
CN113614791A (zh) 动态三维成像方法
KR20220151306A (ko) 3차원 콘텐츠 생성 방법 및 장치
CN115082636B (zh) 基于混合高斯网络的单图像三维重建方法及设备
CN116630508A (zh) 3d模型处理方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40059065

Country of ref document: HK