CN104040593A - 用于3d模型变形的方法和装置 - Google Patents

用于3d模型变形的方法和装置 Download PDF

Info

Publication number
CN104040593A
CN104040593A CN201380005380.1A CN201380005380A CN104040593A CN 104040593 A CN104040593 A CN 104040593A CN 201380005380 A CN201380005380 A CN 201380005380A CN 104040593 A CN104040593 A CN 104040593A
Authority
CN
China
Prior art keywords
model
standard
light stream
distortion
previous
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201380005380.1A
Other languages
English (en)
Other versions
CN104040593B (zh
Inventor
萨米·利芬斯
唐尼·媞加替
马滕·阿兹
欧文·塞克斯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alcatel Optical Networks Israel Ltd
Original Assignee
Alcatel Optical Networks Israel Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alcatel Optical Networks Israel Ltd filed Critical Alcatel Optical Networks Israel Ltd
Publication of CN104040593A publication Critical patent/CN104040593A/zh
Application granted granted Critical
Publication of CN104040593B publication Critical patent/CN104040593B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • G06T19/20Editing of 3D images, e.g. changing shapes or colours, aligning objects or positioning parts
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • G06T7/251Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/97Determining parameters from multiple pictures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/755Deformable models or variational models, e.g. snakes or active contours
    • G06V10/7557Deformable models or variational models, e.g. snakes or active contours based on appearance, e.g. active appearance models [AAM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • G06V20/647Three-dimensional objects by matching two-dimensional images to three-dimensional objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/171Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • G06V40/176Dynamic expression
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20036Morphological image processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20112Image segmentation details
    • G06T2207/20121Active appearance model [AAM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2210/00Indexing scheme for image generation or computer graphics
    • G06T2210/44Morphing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2219/00Indexing scheme for manipulating 3D models or images for computer graphics
    • G06T2219/20Indexing scheme for editing of 3D models
    • G06T2219/2021Shape modification

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Software Systems (AREA)
  • Human Computer Interaction (AREA)
  • Computer Graphics (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Geometry (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Architecture (AREA)
  • Processing Or Creating Images (AREA)
  • Image Processing (AREA)

Abstract

一种用于基于2D图像数据输入对标准3D模型进行变形的方法,其包括以下步骤:-利用检测模型和变形模型对所述标准3D模型执行初始变形(100),从而获得经过变形的标准3D模型;-确定(200)该2D图像数据输入与该经过变形的标准3D模型之间的光流;-将所述光流(300)应用(300)于所述经过变形的标准3D模型,从而提供经过微调的3D标准模型。

Description

用于3D模型变形的方法和装置
技术领域
本发明涉及一种用于三维模型变形的方法。
背景技术
当前,基于现实动态场景或者甚至由廉价摄影机拍摄的图像的模型的变形可以是一个难题。三维,在本文的其余部分中将被简称作3D,模型艺术家可能例如要花费大量时间和努力来创建具有高度细节并且逼真的3D内容和3D动画。但是这种情况在下一代通信系统中不合期望并且甚至是行不通的,因为可能必须要即时创建例如会议参与者的3D可视化。
发明内容
因此,本发明的实施例的一个目的是给出一种用于图像模型变形的方法和装置,其能够基于来自甚至较低质量的现实生活图片采集的二维,后文中简称作2D,视频场景来生成高质量3D图像模型,并且与此同时提供一种廉价、简单并且自动化的解决方案。
根据本发明的实施例,这一目的是通过一种基于2D图像数据输入对标准3D模型进行变形的方法而实现的,所述方法包括以下步骤:
-利用检测模型和变形模型对所述标准3D模型执行初始变形,从而获得经过变形的标准3D模型;
-确定2D图像数据输入与经过变形的标准3D模型之间的光流;
-将所述光流应用于所述经过变形的标准3D模型,从而提供经过微调变形的3D标准模型。
这样就通过光流变形增强了传统的基于检测的变形。这样做得到了仍然可以被实时实现的真实感高得多的模型。
在一个实施例中,2D图像数据输入与经过变形的标准3D模型之间的光流是基于在先前的2D图像帧上确定的先前的经过微调变形的3D标准模型而确定的。
在一种变体中,2D图像数据输入与经过变形的标准3D模型之间的光流的确定可以包括:
-确定该经过变形的标准3D模型的2D投影与该先前的经过微调的3D标准模型的2D投影之间的第一光流;
-确定实际的2D帧与该先前的经过微调变形的3D标准模型的2D投影之间的第二光流;
-组合所述第一和第二光流以获得该实际的2D帧与该经过变形的标准3D模型的2D投影之间的第三光流;
-基于在所述经过变形的标准3D模型的2D投影期间所获得的深度信息对所述第三光流进行适配,以获得该2D图像数据输入与该经过变形的标准3D模型之间的光流。
这样就允许一种高质并且仍然时间高效的方法。
在另一个实施例中,基于该2D图像数据输入与该经过变形的标准3D模型之间的光流对用于所述初始变形步骤中的变形模型进行适配。这样将进一步提高所得到的模型的质量,以及其与该输入视频对象的对应性。
在另一个实施例中,还基于在该2D图像帧与先前的2D图像帧之间所确定的光流信息对用于所述初始变形步骤中的该检测模型进行适配。
这同样加强了对应于该输入2D图像的该3D标准模型的更加快速并且更加真实的成形/变形。
在另一种变体中,应用该光流的步骤包括能量最小化过程。
这样可以甚至进一步增强所得到的经过微调变形的模型的质量。
本发明还涉及一种用于执行所述方法的装置的实施例,涉及合并这样的装置用于图像或视频处理的设备的实施例,以及涉及一种包括当在数据处理装置上执行时,适于执行前面所提到或者所要求保护的方法步骤的软件的计算机程序产品。
应注意的是,在权利要求中所使用的术语“耦合”不应当被解释成仅限于直接连接。因此,“设备A耦合到设备B”这一表达方式的范围不应当被限制于其中设备A的输出直接连接到设备B的输入的设备或系统。所述表达方式意味着在A的输出与B的输入之间存在着路径,其可以是包括其他设备或装置的路径。
应注意的是,在权利要求中所使用的术语“包括”不应当被解释成限于随后所列出的装置。因此,“设备包括装置A和B”这一表达方式的范围不应当被限制于仅由组件A和B构成的设备。所述表达方式意味着关于本发明,所述设备的相关组件仅为A和B。
如前所述,在全文中二维将被简称作2D,并且三维则将被简称作3D。
附图说明
通过参照后面结合附图对实施例所进行的描述,本发明的前述和其他目的和特征将会变得更加显而易见,并且本发明本身将会得到最好的理解,其中:
图1示出了所述方法的第一高级实施例;
图2和3示出了图1中所示出的实施例的一些模块的更加详细的实施例;
图4示出了所述方法的另一个实施例的高级示意图;
图5和6示出了图4中所示出的实施例的一些模块的进一步的细节;
图7-8示出了两个更加详细的实施例;
图9示出了所述方法的另一个高级实施例;
图10-11示出了两个更加详细的替换实施例。
具体实施方式
本领域技术人员应理解,这里的任何框图代表实现本发明的原理的说明性电路的概念图。类似地,应理解,任何流程图、流图、状态转换图、伪码等等代表可以基本上被表示在计算机可读介质中并且从而由计算机或处理器,不管这样的计算机或处理器是否被明确地示出,所执行的各种处理。
图1示出了用于从输入2D视频生成高质量实时3D模型的装置和相应的方法的第一实施例的高级示意图。该实施例取得视频序列的连续各帧作为输入。在图1中,各个步骤被解释为对于特定帧,即时间T处的2D视频帧,来执行。
第一操作模块100涉及被事先选择或存储在如存储器中的可用的标准3D模型的变形。根据时间T处的输入2D视频帧,在模块100中对该标准3D模型进行变形。将参照图2描述关于这一变形过程的详细实施例。因此模块100的输出是时间T处的经过变形的标准3D模型。
与变形步骤100部分地并行,确定时间T处的2D视频帧朝向时间T处的经过变形的标准3D模型的光流。这在模块200中发生,其具有时间T处的2D视频帧、由模块100提供的经过变形的标准3D模型,以及在先前的时间步骤中所确定的所述装置的输出作为输入。这一先前所确定的输出涉及在先前的时间步骤,在图1所示出的实施例中为时间T-1,处所确定的经过微调变形的3D标准模型,并且其经由反馈连接被从所述装置的输出提供至该模块200。在图1中,所述反馈环路被示出为合并有延迟元素D,从而允许先前所确定的输出的提供。当然,基于简单的存储器存储可以设想许多其他实现方式,从而免除专用的延迟元素。还应当提到的是,可以使用在另一个先前的时间步骤中确定的输出,从而不仅是使用对应于先前的视频帧T-1的输出。在这些实施例中必须相应地对延迟进行适配。
图1的实施例还包含另一个模块300,其目的是把在模块200中所确定的光流应用于由模块100所提供的经过变形的标准3D模型。因此,基本的想法是把使用相对简单的3D模型的模块100的基于模型的方法与模块300的更加详细的基于流的变形相组合,据此所述光流本身是在模块200中导出的。事实上,当例如被应用于面部建模时,来自模块100的基于模型的变形通常可能会得到看起来有点人造感的面部,随后利用模块300的基于流的变形对其进行进一步增强/校正,其中光流本身由模块200确定。
如前所述,所得到的经过微调变形的3D标准模型被使用在用于光流确定的反馈环路中。
后面将参照面部特征的建模来描述更加详细的实施例。本领域技术人员知道如何将本文的教导应用于视频中的其他可变形对象,例如动物等等,的变形。
图2示出了图1的标准3D变形块100的一个更加详细的实施例。该模块包括例如AAM,主动外观模型(Active Appearance Model)的简写,检测模块之类的检测模块。但是也存在利用例如ASM,主动形状模型(Active Shape Model)的简写,之类的其他检测模块的其他实施例。
该检测模块110使能够根据如AAM检测模型的检测模型来检测时间T处的视频帧中的面部特征。AAM模型和AAM检测是用于检测非刚性对象上的特征点的计算机视觉中的众所周知的技术。在3D视频被输入到系统的情况下,AAM变形还可以被扩展到3D局部化,并且AAM检测模块也可以检测除了面部之外的其他对象上的特征点。对其执行检测的对象类别可以与AAM模型检测模块的训练阶段有关,所述训练可以离线发生或者在早前的训练过程中发生。在所描述的实施例中,AAM检测模块110被训练成检测人类面部的例如鼻子、嘴、眼睛、眼眉和脸颊之类的面部特征点,其为在2D视频帧中被检测到的非刚性对象。在AAM检测模块110自身中所使用的AAM检测模型从而可以从一个模型集合中来选择,或者可以被预先编程或离线训练成一般地适用于所有人类面部。
在如对例如猫之类的动物模型进行变形的情况下,所述训练过程于是将被适配成检测关于这只猫的形态/潜在表情的其他重要特征点。这些技术也是本领域技术人员所熟知的。
在人类面部建模的实例中,AAM检测块110一般地将包括检测视频帧中的人类面部的粗略移动,同时或随后检测与人类情绪有关的一些更加详细的面部表情。整个面部在现场视频帧中的相对或绝对位置在图1上被标示为“位置”信息。该位置信息将被用来移动和/或旋转面部的3D标准模型,其在模块120中被标示为“标准3D模型”。此外,在模块110中还借助于鼻子、眉毛、嘴等等的位置的某些粗略指示检测出有限数量的面部表情。这一输出在图1中被标示为“特征”,并且这些特征被使用在变形模块130中,以便对由模块120输出的经过位置适配的标准模型的相应的面部特征进行适配。
输入到模块120的3D标准模型通常也从标准数据库可得/可选。这样的标准数据库可以包括人类面部,以及几种例如猫、狗类动物的3D标准模型。因此将根据来自模块110的位置信息对该标准3D进行平移、旋转和/或缩放。
在人类面部建模的情况下,这一位置适配步骤将得到反映出与现场视频馈送中的面部相同的姿态的3D标准模型。为了进一步将3D模型适配到2D帧的正确面部表情,在步骤130中将来自模块110的所检测到的特征应用到经过部分调节的3D标准模型。该变形模块130还使用特定适配模型,其在图2中被标示为“变形模型”,其可以包括关于响应于来自检测模块的面部特征的配置,如何在标准3D模型上对该等面部特征进行适配的指令。在使用AAM检测模型的情况下,所述变形模型通常将是AAM变形模型。在使用例如前面提到的ASM变形之类的其他模型的情况下,类似的考虑同样成立。
因此,其结果是由模块130提供的经过变形的标准3D模型。
这一基于模型的变形的一种示例性实现方式可以包括基于现场视频馈送的面部特征检测结果,对面部特征有关的标准模型3D的顶点进行重新定位。还可以通过简单的线性插值来填充面部特征之间的3D内容,或者在使用包括面部弹性的更加复杂的更高阶AAM变形模型的情况下,则使用更高阶插值或者甚至其他更加复杂的函数。顶点如何位移以及其间的数据如何填入都被包括在变形模型中。
可能被评论的是,不管可用的(AAM)检测和变形模型的质量如何,仍然可能获得看起来是人造感的结果,因为一般适用的检测模型仅被用来检测现场视频馈送中的面部特征的位置,其随后被用来基于其在视频馈送中的位置对经过3D位置适配的模型中的面部特征进行位移。随后利用(AAM)变形模型对该3D标准模型中的面部特征之间的区域进行插值。但是所述(AAM)变形模型不具有或者仅有很少的关于各个面部特征的位移可能会如何影响相邻面部区域的知识。可以将关于面部表情及其对面部区域的影响的一些一般信息,其可能涉及弹性,置入到该变形模型中,但是这样仍然将导致看起来有人造感的变形结果,只因为每个人都是不同的,并且无法在涵盖所有人类面部的一个非常一般性的模型中涵盖所有面部表情。
类似的考虑对于基于3D标准模型进行其他可变形对象,比如在视频中检测到的动物,的变形同样有效。
为了进一步改进所述经过变形的标准3D模型,可以利用步骤300中的基于流的变形来增强由模块100提供的该看起来有人造感的变形模型,正如前面参照图1所讨论的那样。
在执行这一基于流的变形步骤之前,必须确定光流本身。光流在这里被定义为视觉场景中的对象、表面和边缘从一帧到另一帧或者从一帧到2D或3D模型的位移或表观运动模式。在这里所描述的实施例中,所述用于确定光流的方法的目的是在像素级计算在不同时间,例如T和T-1,所取得的两幅图像之间的运动,或者,替代地其目的是计算时间T的某像素与时间T的3D模型中的相应体素之间的位移,或者反之亦然。
由于必须基于2D视频帧在模块300中将光流应用于经过变形的标准3D模型,因此须从该帧到该3D模型计算光流。但是一般来说,光流计算是从一个2D帧到另一个2D帧来执行的,因此一些额外的步骤被添加以确定从2D帧到经过3D变形的模型的光流。该额外步骤可以涉及使用参考3D输入,即例如在T-1处所确定的先前确定的经过微调的3D模型。因此该信息被从所述装置的输出提供至模块200。
图3示出用于实现模块200的一个详细实施例。在该实施例中,第一模块250适用于确定经过变形的标准3D模型的2D投影与先前的经过微调变形的3D标准模型的2D投影之间的第一光流。第二模块290适用于确定时间T处的实际2D帧与先前的经过微调变形的3D标准模型的2D投影之间的第二光流。组合模块270从所述第一和第二光流计算第三光流。该第三光流是时间T处的实际2D帧与时间T处的经过变形的标准3D模型的2D投影之间的光流。模块280随后将对该第三光流进一步进行适配,以获得时间T处的2D图像数据输入与时间T处的经过变形的标准3D模型之间的所期望的光流。现在将描述进一步的细节。
为了确定经过变形的标准3D模型的2D投影与先前的经过微调变形的3D标准模型的2D投影之间的第一光流,在被提供到模块200的各自的3D模型上执行这些2D投影。为此,模块230适用于在由模块100提供的经过变形的标准3D模型上执行2D渲染或投影,而模块240则适用于对先前的经过微调变形的3D标准模型,其在图3的实施例中是在时间T-1处所确定的,执行类似的2D投影。在这些投影中所使用的投影参数优选地对应于用于录制所述2D视频帧的视频摄影机的投影参数。其与视频摄影机的校准参数有关。
在图3示出的实施例中,模块290包括3个进一步的子模块。在其模块220中,确定时间T处的当前视频帧与先前的一个视频帧,在本例中是T-1处的那个,之间的光流。先前的2D帧的时序与先前的经过微调变形的3D标准模型的时序相同。
因此,模块290的延迟元素210引入与用在图1中的完整装置的反馈环路中的延迟相同的延迟。当然再一次,用于提供2D视频的该先前值的其他实施例也是可能的,其因此也可以仅是被存储在内部存储器中,免除了对附加的延迟块的需要。
因此在模块220中确定在连续视频帧T与T-1之间所计算的光流,所述光流还被用于模块260中以便确定从时间T-1处的经过3D微调的输出的2D投影到时间T处的2D视频帧的光流。因此在模块240中执行所述投影本身。所述投影参数为例如映射到在用以录制2D视频帧的2D摄影机中所使用的那些参数。
步骤260中对于该第二光流的确定考虑到所述标准模型和现场视频馈送有时可能代表不同的人,但是仍然应当将其对准。在一些实施例中,模块260可以包括两个步骤:第一面部配准步骤,其中将先前帧T-1处的现场视频馈送的面部形状映射到(时间T-1处的)先前的经过微调变形的3D内容的2D投影的面部形状。这一配准步骤同样可以利用AAM检测器。接下来,对准在时间T处的现场视频馈送上所计算的光流,例如通过对时间T-1处的经过2D投影的3D内容的面部形状的插值而实现的。在图7和8中更加详细地示出了这些实施例。
随后将由模块250所确定的时间T处的经过变形的标准模型与时间T-1处的先前微调的标准模型的2D投影之间的第一光流与在模块260中所确定的第二光流相组合,以得到从时间T处的2D视频到时间T处的经过变形的标准模型的2D投影的第三光流。这在2D中是实际所期望的光流信息。由于这一组合涉及减去中间的共同元素,即先前所确定的经过微调的模型的2D投影,因此这一组合在模块270中通过“-”符号示出。
然而由于所确定的该第三光流仍然涉及2D中的两幅图像之间的光流,因此需要附加的步骤280用于该第三光流的从时间T处的2D视频帧到时间T处的经过变形的标准3D模型的3D内容的转换。这可以涉及反投影,其利用如在2D投影期间所使用的处理的逆处理。为此,使用从2D投影所得到的深度来重新计算从2D到3D的顶点。
应当提到的是,取代使用时间T和T-1处的连续帧和被连续确定的经过微调变形的3D模型,新的一帧与先前的一帧之间的时间间隙可以长于帧延迟。在这种情况下,使用相应的先前所确定的输出的经过变形的模型,从而使得用于模块200中的实际帧与先前帧之间的时间差异对应于将要确定的新的输出与用于确定光流的先前输出之间的定间差异。在一个实施例中,这例如可以通过在图1的反馈环路和图3的模块210中使用类似的延迟元素D来实现。
图1的模块300随后把如此计算的光流应用于所述经过变形的标准3D模型,从而生成经过微调变形的3D标准模型。
在图4中所示出的所述装置的第一变体实施例中,在计算时间T处的2D视频与该时间T处的经过变形的标准3D模型之间的光流的模块200的输出与用于执行标准3D模型的初始变形的经过适配的模块1000之间存在附加的反馈环路。在图5中进一步详细地示出了该经过适配的模块1000。与图2相比,该模块1000接收由光流计算模块200的输出所提供的被标示为“光流”的额外输入信号,该信息被用于对用在变形模块130自身中的变形模型进行适配。因此,变形模块1000中的附加模块140基于该光流信息对变形模型的先前版本进行更新。在图5所示出的实施例中同样示出了对于延迟元素的使用,但是只存储先前值的其他实施例也是可能的。
利用光流反馈对于变形模型的这一更新可能是有用的,因为标准通用变形模型不具有关于各个面部特征的位移会如何影响其相邻面部区域的知识。这是因为在该基本变形模型中不存在或者没有足够的关于弹性的概念。因此,光流信息的提供可以允许对于更加复杂的更高阶变形模型的学习。这里的想法是,完美的变形模型对3D标准模型进行变形这样其与现场视频馈送完美地相似,在这种情况下,模块200的“光流组合”块270最终将导致不须应用额外的光流,并因此将是多余的。
在图6所示出的另一个变体实施例中存在另一个反馈环路,用于把来自光流计算模块200的内部信号反馈到标准3D变形模块100。图7示出这方面的一个详细实施例:所述反馈实际上是从在2D级的,时间T和T-1处的视频帧之间的光流被提供到额外的AAM或其他检测模型适配模块自身。可以假定在现场视频馈送中的帧T-1与T之间所计算的光流把在帧T-1中所检测到的面部特征映射到在帧T中所检测到的面部特征。由于该检测模型可能不会涵盖所有这样的面部表情,因此现场视频馈送中的面部特征检测有时可能会失败。这种情况可以通过对用于检测面部特征的检测模型进行适配这样其将包括该面部表情,从而将会检测到未来的发生并且相应地将其应用于3D标准模型来解决。
图8示出了其中合并有至此所描述的所有反馈环路的一个实施例。
图9示出了对于基于模型和基于流的变形二者的组合,实施了更加概率性的方法的另一个高级实施例。基于模型的模块100提供3D模型的特征点的有限稀疏集的精确位移,而基于流的模型提供了精确度较低的二维位移估计,但用于所述模型上的密集得多的点集。通过概率性方法组合这些具有不同精确度的不同种类的观察,对于经过微调变形的3D标准模型可以获得甚至更加精确的结果。这样的概率性方法是通过图9的实施例的能量最小化模块400实现的。
在面部建模的情况下,这样的概率性方法直观地允许面部的底层弹性模型填充未被观察到的间隙。面部只能以特定方式移动。关于所述移动存在约束。举例来说,模型上的相邻点将按照类似方式移动。而且,面部上的对称点是相关联的。这意味着如果你看到你的面部的左侧部分微笑,则右侧同样微笑的概率很高,尽管可能并没有观察到该部分。
这在数学上可以被公式化成能量最小化问题,其由两个数据项和一个平滑项构成
E=S+DFLOW+DMODEL
DFLOW是为最终的经过微调变形的3D模型所提议的的候选方案与通过仅看到2D输入图像的光流人们所能预期的之间的某个距离度量。在给定所观察的光流映射图的观察密度的情况下,所提议的候选方案与概率分布的匹配得越好,这一距离就越小。与光流估计的精确度成反比对所述度量进行加权。
DMODEL是类似的度量,但是代表根据在候选方案与所观察到的基于AAM变形的3D模型之间的匹配的距离。同样与AAM算法的精确度成反比对其进行加权。
S惩罚面部的不太可能的运动。其包括两种类型的子项:绝对和相对惩罚。简而言之,绝对惩罚与面部的某点在所提议的方向上移动的不可能性成比例地进行惩罚。相对惩罚按照相同的方式进行惩罚,但是是在考虑相邻点(或者其他相关点,例如对称点)的位移的情况下进行惩罚。
可以通过许多技术来解决能量最小化问题。这方面的实例有:梯度下降方法,随机方法(模拟退火、基因算法、随机游走),图形切割,置信传播,Kalman滤波器,等等。其目的总是相同的:找到所提议的经过变形的3D模型从而使得前面的等式中的能量是最小的。
在图10中示出了图9的实施例的一个更加详细的实施例。
在图11中示出了第二概率性实施例。在该实施例中,对准的光流随着时间累积。通过在能量最小化问题中把所累积的对准光流与AAM检测/变形结果相组合允许3D数据库内容的简单的并且看起来有真实感的变形。通过包括AAM变形结果处理了由于随着时间累积光流而引发的潜在漂移。并且通过包括光流变形结果消除了看起来有人造感的变形结果。
应注意的是,所描述的所有实施例并不仅限于人类面部的变形。可以建立用于任何非刚性对象的模型并且在基于模型的方法中将其用于变形。此外,各个实施例并不限于使用AAM模型。在初始变形模块100期间可以使用例如ASM(主动形状模型)之类的其他模型。
虽然前面结合特定装置描述了本发明的原理,但是应当清楚理解的是,本说明书是以仅为举例的方式给出的,而不是作为针对如在所附权利要求书中限定的本发明的范围的限制。在本权利要求书中,被表达为用于执行具体功能的装置的任何元素意图涵盖执行该功能的任何方式。这可以包括例如执行该功能的电的或机械的元件的组合,或者采取任何形式并且因此包括固件、微代码等等的软件与用于执行该软件以执行所述功能的适当电路的组合,以及耦合到被软件控制的电路的机械元件,如果存在的话。由这样的权利要求所定义的本发明存在于这样的事实,即由所引用的各种装置提供的功能按照权利要求所要求的方式被组合并且被集合在一起,并且除非明确地另行定义,否则任何物理结构对于所要求保护的本发明的新颖性仅有很低或不具有重要性。因此,申请人认为可以提供那些功能的任何装置为等同于这里所示出的那些装置。

Claims (13)

1.用于基于2D图像数据输入对标准3D模型进行变形的方法,所述方法包括以下步骤:
-利用检测模型和变形模型对所述标准3D模型执行初始变形(100),从而获得经过变形的标准3D模型
-确定(200)该2D图像数据输入与该经过变形的标准3D模型之间的光流,
-将所述光流应用(300)于所述经过变形的标准3D模型,从而提供经过微调变形的3D标准模型。
2.根据权利要求1的方法,其中,该2D图像数据输入与该经过变形的标准3D模型之间的所述光流是基于在先前的2D图像帧上所确定的先前的经过微调变形的3D标准模型而确定的。
3.根据权利要求2的方法,其中,该2D图像数据输入与该经过变形的标准3D模型之间的所述光流的确定(200)包括:
-确定(250)该经过变形的标准3D模型的2D投影与该先前的经过微调变形的3D标准模型的2D投影之间的第一光流,
-确定(290)实际2D帧与该先前的经过微调变形的3D标准模型的2D投影之间的第二光流,
-组合(270)所述第一和第二光流以获得实际2D帧与该经过变形的标准3D模型的2D投影之间的第三光流,
-基于在所述经过变形的标准3D模型的2D投影期间所获得的深度信息对所述第三光流进行适配(280),以获得该2D图像数据输入与该经过变形的标准3D模型之间的所述光流。
4.根据在前权利要求1-3中任一项的方法,其还包括基于该2D图像数据输入与该经过变形的标准3D模型之间的所述光流对用于所述初始变形步骤(1000)中的变形模型进行适配(140)的步骤。
5.根据在前权利要求1-4中任一项的方法,其还包括基于在该2D图像帧与先前的2D图像帧之间所确定的光流信息对用于所述初始变形步骤中的该检测模型进行适配的步骤。
6.根据在前权利要求1-3中任一项的方法,其中,所述应用所述光流的步骤包括能量最小化过程(400)。
7.用于基于2D图像数据输入对标准3D模型进行变形的装置,所述装置适用于:
-利用检测模型和变形模型对所述标准3D模型执行初始变形(100),从而获得经过变形的标准3D模型,
-确定(200)该2D图像数据输入与该经过变形的标准3D模型之间的光流,
-将所述光流应用(300)于所述经过变形的标准3D模型,从而将经过微调变形的3D标准模型提供至所述装置的输出。
8.根据权利要求7的装置,其还适用于基于由先前的2D图像帧上所确定的先前的经过微调变形的3D标准模型来确定该2D图像数据输入与该经过变形的标准3D模型之间的所述光流。
9.根据权利要求8的装置,其还适用于通过以下步骤确定该2D图像数据输入与该经过变形的标准3D模型之间的所述光流:
-确定(250)该经过变形的标准3D模型的该2D投影与该先前的经过微调变形的3D标准模型的2D投影之间的第一光流,
-确定(290)该实际2D帧与该先前的经过微调变形的3D标准模型的2D投影之间的第二光流,
-组合(270)所述第一和第二光流以获得实际2D帧与该经过变形的标准3D模型的2D投影之间的第三光流,
-基于在所述经过变形的标准3D模型的2D投影期间所获得的深度信息对所述第三光流进行适配(280),以获得该2D图像数据输入与该经过变形的标准3D模型之间的所述光流。
10.根据在前权利要求7-9中任一项的装置,其还能够基于该2D图像数据输入与该经过变形的标准3D模型之间的所述光流对用于所述初始变形步骤(1000)中的该变形模型进行适配(140)。
11.根据在前权利要求7-10中任一项的装置,其还能够基于在该2D图像帧与先前的2D图像帧之间所确定的光流信息对于在所述初始变形步骤中的该检测模型进行适配。
12.图像处理装置,其包括在前权利要求7到11当中的任一项所述的装置。
13.一种计算机程序产品,其包括适用于当在数据处理装置上被执行时,执行根据权利要求1到6当中的任一项的方法步骤的软件。
CN201380005380.1A 2012-01-12 2013-01-08 用于3d模型变形的方法和装置 Expired - Fee Related CN104040593B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP12305040.3 2012-01-12
EP12305040.3A EP2615583B1 (en) 2012-01-12 2012-01-12 Method and arrangement for 3D model morphing
PCT/EP2013/050173 WO2013104592A1 (en) 2012-01-12 2013-01-08 Method and arrangement for 3d model morphing

Publications (2)

Publication Number Publication Date
CN104040593A true CN104040593A (zh) 2014-09-10
CN104040593B CN104040593B (zh) 2016-09-28

Family

ID=47563442

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201380005380.1A Expired - Fee Related CN104040593B (zh) 2012-01-12 2013-01-08 用于3d模型变形的方法和装置

Country Status (6)

Country Link
US (1) US20140340397A1 (zh)
EP (1) EP2615583B1 (zh)
JP (1) JP5893166B2 (zh)
KR (1) KR101602593B1 (zh)
CN (1) CN104040593B (zh)
WO (1) WO2013104592A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109740664A (zh) * 2018-12-28 2019-05-10 东莞中国科学院云计算产业技术创新与育成中心 柔性物体分类方法、装置、计算机设备和存储介质
CN110517340A (zh) * 2019-08-30 2019-11-29 腾讯科技(深圳)有限公司 一种基于人工智能的脸部模型确定方法和装置

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9311746B2 (en) * 2012-05-23 2016-04-12 Glasses.Com Inc. Systems and methods for generating a 3-D model of a virtual try-on product
CN103942833B (zh) * 2014-04-14 2017-03-15 成都数象科技有限公司 数字人体的精确控制方法
US9900583B2 (en) * 2014-12-04 2018-02-20 Futurewei Technologies, Inc. System and method for generalized view morphing over a multi-camera mesh
US10398867B2 (en) * 2015-11-10 2019-09-03 Koninklijke Philips N.V. Determining information about a patients face
CN107657649A (zh) * 2017-09-13 2018-02-02 成都尤维克科技有限公司 一种机器视觉检测图像库的构建方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070091085A1 (en) * 2005-10-13 2007-04-26 Microsoft Corporation Automatic 3D Face-Modeling From Video

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6492986B1 (en) * 1997-06-02 2002-12-10 The Trustees Of The University Of Pennsylvania Method for human face shape and motion estimation based on integrating optical flow and deformable models
US7133048B2 (en) * 2004-06-30 2006-11-07 Mitsubishi Electric Research Laboratories, Inc. Variable multilinear models for facial synthesis
JP2007141107A (ja) * 2005-11-21 2007-06-07 Canon Inc 画像処理装置およびその方法
JP2010517427A (ja) * 2007-01-23 2010-05-20 ユークリッド・ディスカバリーズ・エルエルシー 個人向けのビデオサービスを提供するシステムおよび方法
JP2009003656A (ja) * 2007-06-20 2009-01-08 Monolith Co Ltd 画像処理装置および画像処理方法
US8384714B2 (en) * 2008-05-13 2013-02-26 The Board Of Trustees Of The Leland Stanford Junior University Systems, methods and devices for motion capture using video imaging
US8208717B2 (en) * 2009-02-25 2012-06-26 Seiko Epson Corporation Combining subcomponent models for object image modeling

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070091085A1 (en) * 2005-10-13 2007-04-26 Microsoft Corporation Automatic 3D Face-Modeling From Video

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
REINHARD KOCH: "Dynamic 3-D Scene Analysis through Synthesis Feedback Control", 《IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE》 *
桂祖宏: "三维人脸重建及其关键技术研究", 《中国优秀硕士学位论文全文数据库信息科技辑(月刊)》 *
胡永利等: "基于形变模型的三维人脸重建方法及其改进", 《计算机学报 》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109740664A (zh) * 2018-12-28 2019-05-10 东莞中国科学院云计算产业技术创新与育成中心 柔性物体分类方法、装置、计算机设备和存储介质
CN109740664B (zh) * 2018-12-28 2023-01-10 东莞中国科学院云计算产业技术创新与育成中心 柔性物体分类方法、装置、计算机设备和存储介质
CN110517340A (zh) * 2019-08-30 2019-11-29 腾讯科技(深圳)有限公司 一种基于人工智能的脸部模型确定方法和装置
CN110517340B (zh) * 2019-08-30 2020-10-23 腾讯科技(深圳)有限公司 一种基于人工智能的脸部模型确定方法和装置

Also Published As

Publication number Publication date
EP2615583B1 (en) 2016-04-20
EP2615583A1 (en) 2013-07-17
KR101602593B1 (ko) 2016-03-10
US20140340397A1 (en) 2014-11-20
CN104040593B (zh) 2016-09-28
JP5893166B2 (ja) 2016-03-23
JP2015507272A (ja) 2015-03-05
KR20140109496A (ko) 2014-09-15
WO2013104592A1 (en) 2013-07-18

Similar Documents

Publication Publication Date Title
US10444021B2 (en) Methods for simultaneous localization and mapping (SLAM) and related apparatus and systems
CN104040593A (zh) 用于3d模型变形的方法和装置
US11210804B2 (en) Methods, devices and computer program products for global bundle adjustment of 3D images
EP3698323A1 (en) Depth from motion for augmented reality for handheld user devices
JP2021535466A (ja) シーンの色及び深度の情報を再構成するための方法及びシステム
US11315313B2 (en) Methods, devices and computer program products for generating 3D models
Riegler et al. Connecting the dots: Learning representations for active monocular depth estimation
CN112561978B (zh) 深度估计网络的训练方法、图像的深度估计方法、设备
Kazemi et al. Real-time face reconstruction from a single depth image
KR20200000106A (ko) 객체의 3차원 모델을 복원하는 방법 및 장치
Saxena et al. 3-d reconstruction from sparse views using monocular vision
Mulligan et al. Stereo-based environment scanning for immersive telepresence
CN112233148A (zh) 目标运动的估计方法、设备及计算机存储介质
JP2015197374A (ja) 3次元形状推定装置及び3次元形状推定方法
Thomas et al. Parametric surface representation with bump image for dense 3d modeling using an rbg-d camera
Nadar et al. Sensor simulation for monocular depth estimation using deep neural networks
KR101269022B1 (ko) 광흐름 기법을 이용한 스테레오 매칭 방법
Beveridge Consistent Depth Estimation in Data-Driven Simulation for Autonomous Driving
KR20220071935A (ko) 광학 흐름을 이용한 고해상도 깊이 영상 추정 방법 및 장치
Loo Sparse and Dense Visual SLAM with Single-Image Depth Prediction
Farnoosh et al. Indoor GeoNet: Weakly Supervised Hybrid Learning for Depth and Pose Estimation
Fallqvist Automatic Volume Estimation Using Structure-from-Motion Fused with a Cellphone's Inertial Sensors
CN117197401A (zh) 针对点云构建的测试方法、装置、电子设备及存储介质
KR20230072170A (ko) 3차원 지도에 대한 모델링 데이터의 경량화 방법
Falquez Towards Robust Dense Visual Simultaneous Localization and Mapping (SLAM)

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20160928

Termination date: 20180108