CN113906473A - 用于学习可组合的三维(3d)对象的高阶函数网络及其操作方法 - Google Patents

用于学习可组合的三维(3d)对象的高阶函数网络及其操作方法 Download PDF

Info

Publication number
CN113906473A
CN113906473A CN202080040967.6A CN202080040967A CN113906473A CN 113906473 A CN113906473 A CN 113906473A CN 202080040967 A CN202080040967 A CN 202080040967A CN 113906473 A CN113906473 A CN 113906473A
Authority
CN
China
Prior art keywords
neural network
image
mapping function
cnn
samples
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202080040967.6A
Other languages
English (en)
Inventor
E.米歇尔
S.恩吉恩
V.伊斯勒
D.李
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Publication of CN113906473A publication Critical patent/CN113906473A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/10Geometric effects
    • G06T15/20Perspective computation
    • G06T15/205Image-based rendering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • G06T2207/10012Stereo images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2210/00Indexing scheme for image generation or computer graphics
    • G06T2210/56Particle system, point based geometry or rendering

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

一种用于表示三维(3D)对象的装置,该装置包括:存储指令的存储器;以及处理器,该处理器被配置为执行指令以:将二维2D图像发送到外部设备;在发送了2D图像的基础上,从外部设备接收使用第一神经网络获得的映射函数参数;基于接收到的映射函数参数,设置第二神经网络的映射函数;以及基于3D样本,使用其映射函数被设置的第二神经网络来获得与2D图像相对应的3D对象。

Description

用于学习可组合的三维(3D)对象的高阶函数网络及其操作 方法
技术领域
本公开涉及表示三维(3D)对象,并且更具体地,涉及用于学习可组合的(composable)3D对象的高阶函数网络及其操作方法。
背景技术
在纯几何项中,3D对象O是
Figure BDA0003389118220000011
的子集。然而,在存储器中直接地表示该无穷的点的集合并不简单。
基于体素的方法使用该集合的均匀离散化来将基于卷积神经网络(convolutional neural network,CNN)的方法扩展到3D世界。然而,3D表面的固有稀疏性使得体素化在内存和计算时间两者方面都是低效的。
基于分割的方法(诸如八叉树)解决了体素化的空间效率缺点,但是其实现起来繁琐并且查询效率低。
点集表示(O的离散和有限子集)也由于以下事实而得到了普及:其保留了基于体素的方法的简单性,同时消除了基于体素的方法的存储和计算负担。尽管点云比体素更灵活,但是仍然不清楚如何使其适应产生任意分辨率或变化的分辨率预测的任务。
发明内容
技术问题的解决方案
根据实施例,一种用于表示三维(3D)对象的装置,包括:存储指令的存储器,以及处理器,该处理器被配置为执行指令以:将二维(2D)图像发送到外部设备;在发送了2D图像的基础上,从外部设备接收使用第一神经网络获得的映射函数参数;基于接收到的映射函数参数,设置第二神经网络的映射函数;以及基于3D样本,使用其映射函数被设置的第二神经网络来获得与2D图像相对应的3D对象。
3D样本可以是3D标准域(canonical domain)的表面或内部。
3D标准域可以是单位球体或单位立方体。
3D对象可以是包括在2D图像中的对象的表面或内部。
第一神经网络可以是被训练为基于在CNN中输入的2D图像来输出映射函数参数的卷积神经网络(CNN),并且可以结合第二神经网络来训练。
第二神经网络可以是被训练为基于在CNN中输入的3D样本来输出3D对象的卷积神经网络(CNN),并且可以结合第一神经网络来训练。
装置可以是与外部设备分离并在外部设备外部的客户端设备。
外部设备可以是与装置分离并且在装置外部的服务器设备。
根据实施例,一种表示三维(3D)对象的方法,该方法由装置执行,并且包括:将二维(2D)图像发送到外部设备;在发送了2D图像的基础上,从外部设备接收使用第一神经网络获得的映射函数参数;基于接收到的映射函数参数,设置第二神经网络的映射函数;以及基于3D样本,使用其映射函数被设置的第二神经网络来获得与2D图像相对应的3D对象。
3D样本可以是3D标准域的表面或内部。
3D标准域可以是单位球体或单位立方体。
3D对象可以是包括在2D图像中的对象的表面或内部。
第一神经网络可以是被训练为基于在CNN中输入的2D图像来输出映射函数参数的卷积神经网络(CNN),并且可以结合第二神经网络来训练。
第二神经网络可以是被训练为基于在CNN中输入的3D样本来输出3D对象的卷积神经网络(CNN),并且可以结合第一神经网络来训练。
装置可以是与外部设备分离并在外部设备外部的客户端设备。
外部设备可以是与装置分离并且在装置外部的服务器设备。
根据实施例,一种非暂时性计算机可读存储介质存储指令,该指令被配置为使处理器:将二维(2D)图像发送到外部设备;在发送了2D图像的基础上,从外部设备接收使用第一神经网络获得的映射函数参数;基于接收到的映射函数参数,设置第二神经网络的映射函数;以及基于3D样本,使用其映射函数被设置的第二神经网络来获得与2D图像相对应的3D对象。
3D样本可以是3D标准域的表面或内部。
3D标准域可以是单位球体或单位立方体。
3D对象可以是包括在2D图像中的对象的表面或内部。
附加的方面将在下面的描述中被部分地被阐述,并且将部分地根据描述变得清楚、或者可以通过对本公开所呈现的实施例的实践来获知。
附图说明
根据以下结合附图的描述,本公开的实施例的以上和其他方面、特征以及方面将更加清楚,其中:
图1是根据实施例的用于表示3D对象的装置的框图;
图2A是实现图1中所示的装置的客户端设备的框图;
图2B是实现图1中所示的装置的系统的框图;
图3是根据实施例的分别被输入到用于表示3D对象的装置以及从用于表示3D对象的装置输出的二维(2D)图像和3D对象的图;
图4是根据实施例的使用表示映射函数的神经网络对3D标准域的不同子集进行采样来获得3D对象的方法的图;
图5是根据实施例的分别与3D标准域的3D样本相对应的3D对象的图;
图6是根据实施例的表示3D对象的方法的流程图,该方法由客户端设备来实现;
图7是根据实施例的表示3D对象的方法的流程图,该方法由系统来实现;
图8A是根据实施例的用于表示第一3D对象和第二3D对象的装置的框图;
图8B是根据实施例的通过函数复合来在第一3D对象和第二3D对象之间进行插值的方法的图;
图8C是根据实施例的利用高阶k映射在第一3D对象和第二3D对象之间进行插值的方法的图;
图8D是图8A中所示的装置的使用情况的图;
图9是图2B中所示的系统的使用情况的图,其中,机器人实现包括在系统中的客户端设备;
图10是图2B中示出的系统的使用情况的图,其中,增强现实(augmented reality,AR)眼镜实现包括在系统中的客户端设备;以及
图11是根据实施例的实现用于表示3D对象的装置的电子设备的框图。
具体实施方式
本公开的实施例提供了用于学习可组合的3D对象的高阶函数网络及其操作方法。也就是说,3D对象可以使用高阶函数(即,小神经网络的权重和偏置)来表示。这种表示可以用于通过从标准空间映射点以定义3D对象来重构3D对象。经重构的3D对象可以比通过现有技术重构方法产生的那些3D对象更准确。此外,当与将感兴趣对象编码为潜在向量码字的对象表示相比较时,将3D对象直接编码为神经网络是高度参数高效的。
实施例还提供了一种在潜在函数空间中的对象插值的方法,其中,为各种对象复合重构函数的根来生成新的、相干的对象。
由于本公开允许各种变化和多种示例,所以将在附图中示出并在书面描述中详细描述实施例。然而,这并非意图将本公开限于实践的模式,并且将理解,不脱离本公开的精神和范围的所有改变、等同和替换都涵盖在本公开中。
在对实施例的描述中,当对相关技术的详细说明被认为会不必要地模糊本公开的重点时,省略对相关技术的详细说明。此外,在本说明书的描述中使用的数字(例如,第一、第二等)是用于区分一个元件与另一个元件的标识符码。
此外,在本说明书中,将理解,当元件彼此“连接”或“耦合”时,元件可以彼此直接连接或耦合,但是也可以通过其间的中间元件彼此交替地连接或耦合,除非另有指示。
在本说明书中,关于被表示为“单元”或“模块”的元件,根据细分的功能,两个或更多个元件可以被组合为一个元件或者一个元件可以被划分为两个或更多个元件。此外,下文中描述的每个元件除了其自身的主要功能之外,还可以执行由另一个元件执行的功能中的一些或全部,并且每个元件的主要功能中的一些可以完全由另一个组件来执行。
此外,在本说明书中,“图像”或“图片”可以表示静止图像、包括多个连续静止图像(或帧)的移动图像、或者视频。
此外,在本说明书中,深度神经网络(deep neural network,DNN)或CNN是模拟脑神经的人工神经网络模型的代表性示例,并且不限于使用算法的人工神经网络模型。
此外,在本说明书中,“参数”是在形成神经网络的每个层的操作过程中使用的值,例如可以包括当输入值被应用于操作表达式时所使用的权重。这里,参数可以以矩阵形式来表示。参数是被设置为训练的结果的值,并且可以在需要时通过单独的训练数据来更新。
贯穿本公开,表述“a、b或c中的至少一个”指示仅a、仅b、仅c、a和b两者、a和c两者、b和c两者、a、b和c全部、或其变型。
图1是根据实施例的用于表示3D对象的装置100的框图。
如图1所示,装置100包括第一神经网络105、处理器110和第二神经网络115。
第一神经网络105获得单个2D图像,并且基于所获得的2D图像来获得映射函数参数。2D图像可以是包括对象或对象的部分的RGB图像。第一神经网络105可以是用于将2D图像映射到映射函数参数的预训练的DNN或CNN。映射函数参数将用于设置可以是预训练的DNN或CNN的第二神经网络115,该预训练的DNN或CNN表示用于将3D标准域的3D样本映射到3D对象的映射函数或高阶函数。第一神经网络105和第二神经网络115可以同时一起并且彼此结合地来预训练。
2D图像可以从包括磁介质(诸如硬盘、软盘或磁带)、光学记录介质(诸如CD-ROM或DVD)或者磁光介质(诸如软光盘)的数据存储介质获得。2D图像还可以从相机获得以及经由处理器110获得。
处理器110从第一神经网络105获得映射函数参数,并且使用所获得的映射函数参数来设置第二神经网络115的映射函数。
基于所设置的第二神经网络115的映射函数,第二神经网络115获得或采样3D样本,并且基于所获得的3D样本来获得与2D图像相对应的3D对象。3D样本可以是任何预定标准域或空间(例如,单位球体和单位立方体(例如,512维单位超立方体))的表面或内部。3D对象可以是包括在2D图像中的对象的3D表示(例如,表面或内部),即使2D图像仅包括对象的部分。
3D样本可以从包括磁介质(诸如硬盘、软盘或磁带)、光学记录介质(诸如CD-ROM或DVD)或者磁光介质(诸如软光盘)的数据存储介质获得。3D样本还可以经由处理器110获得。
具体地,对于可以是64x64 RGB图像的2D图像I,映射网络(即,第二神经网络115)的映射函数参数θI可以以下面的等式1来表示:
Figure BDA0003389118220000051
其中,编码器
Figure BDA0003389118220000061
(即,第一神经网络105)使用参数
Figure BDA0003389118220000062
训练,以根据输入2D图像I输出映射函数
Figure BDA0003389118220000063
的映射函数参数θI
3D对象O表示为映射函数
Figure BDA0003389118220000064
其中映射函数参数θI对于3D对象O是唯一的。映射函数
Figure BDA0003389118220000065
被表示为多层感知机(multilayer perceptron,MLP)并且将3D样本从标准空间X(诸如单位球体)的表面或内部映射到定义经重构的3D对象
Figure BDA0003389118220000066
的表面或内部的点的集合,如以下等式2中表示的:
Figure BDA0003389118220000067
这种构造允许通过按照需要从标准空间X对3D样本进行连续采样来以在线方式对经重构的3D对象
Figure BDA0003389118220000068
进行较高分辨率或较低分辨率的采样,这些3D样本可以对应于单位球体X={x:||x||2≤1}内的点。
通过将3D对象表示为第二神经网络115的权重和偏置并且使得3D对象能够通过仅改变第二神经网络115的连接强度来调制,装置100能够减小在传统方法中用于表示3D对象的神经网络的尺寸,从而使得用于从2D图像重构3D对象的处理时间更短。此外,装置100通过产生输入2D图像和输出3D对象之间的更多相似性而优于常规方法。装置100还可以通过调整输入的3D样本的密度来获得任意分辨率的3D对象。
在实施例中,装置100可以被配置为获得部分点云而不是2D图像,并且获得与该部分点云相对应的3D对象。
在对第一神经网络105和第二神经网络115的训练期间,对图像I和相应的参考标准(ground truth)点云模型
Figure BDA0003389118220000069
进行采样。
Figure BDA00033891182200000610
可以包含从真实对象O的表面采样的10000个点。获得映射函数
Figure BDA00033891182200000611
并且如等式2中那样产生对象O的估计重构。然而,仅针对X(其是不可数无穷的)中的1000个点的样本来计算
Figure BDA00033891182200000612
这个样本是从集合上的均匀分布中抽取的。使用可微分集合相似性度量(诸如倒角距离(Chamfer distance)或陆地移动距离(Earth Movers Distance)来计算模型
Figure BDA00033891182200000613
的预测的损失。例如,不对称倒角距离C(X,Y)是用于量化两个点集X和Y的相似性的拟度量(quasimetric),如以下等式3所示:
Figure BDA00033891182200000614
编码器
Figure BDA0003389118220000071
(第一神经网络105)被训练为最小化对称目标函数
Figure BDA0003389118220000072
此外,处理器110可以通过复合重构映射函数的根来在输入图像之间进行插值。具体地,可以在以下等式4中扩展等式2,其中,图像I中的对象O被表示为映射函数
Figure BDA0003389118220000073
的k次幂:
Figure BDA0003389118220000074
其中,fk被定义为f与其自身(k-1)次幂的复合:
fk(x)=f(f(k-1)(x))。
其k次幂重构图像I中的对象O的映射函数
Figure BDA0003389118220000075
可以被称为对象O的k映射。
对等式2的这种修正对映射添加附加的限制:定义域和上域(codomain)必须相同。然而,评估f的幂利用了神经网络架构中权重共享的幂;对于具有l个层的MLP映射架构,评估其k次幂等效于具有共享的权重的l x k-1个层的MLP,其等效于时间上权重共享的循环神经网络(recurrent neural network,RNN)。
当获取两个对象OI和OJ的RGB图像I和J,并且将以上讨论的编码器应用于这些图像时,获得分别具有参数
Figure BDA0003389118220000076
Figure BDA0003389118220000077
Figure BDA0003389118220000078
Figure BDA0003389118220000079
通过评估2k个可能函数中的任一个来在对象OI和OJ之间进行插值可以以下面的等式5来表示:
Figure BDA00033891182200000710
其中,每个映射函数
Figure BDA00033891182200000711
的参数是k映射
Figure BDA00033891182200000712
的参数或者是k映射
Figure BDA00033891182200000713
的参数。
k映射
Figure BDA00033891182200000714
Figure BDA00033891182200000715
对关于底层结构的语义上有意义的信息进行编码。参考下图8A-图8D对此进行进一步描述。
图2A是实现图1中所示的装置100的客户端设备205A的框图。
如图2A所示,客户端设备205包括图1所示的装置100,即第一神经网络105、处理器110和第二神经网络115。因此,客户端设备205使用第一神经网络105、处理器110和第二神经网络115来获得单个2D图像,并且获得与所获得的2D图像相对应的3D对象,如参考图1所描述的。
客户端设备205A可以包括任何类型的电子设备,例如智能手机、膝上型计算机、个人计算机(PC)、智能电视等。
图2B是实现图1中所示的装置100的系统200的框图。
如图2B所示,系统200包括客户端设备205B和服务器设备210。客户端设备205B包括处理器110和第二神经网络115,如参考图1所描述的,并且还包括通信接口207。服务器设备210包括第一神经网络105,如参考图1所描述的,并且还包括通信接口212和处理器214。
客户端设备205B可以包括任何类型的电子设备,例如智能手机、膝上型计算机、个人计算机(PC)、智能电视等。
如参考图1所描述的,客户端设备205B使用处理器110来获得单个2D图像。客户端设备205B进一步经由通信接口207来将所获得的2D图像发送到服务器设备210。
服务器设备210经由通信接口212从客户端设备205B接收2D图像。服务器设备210进一步使用处理器214来将接收到的2D图像输入到第一神经网络105中。
第一神经网络105基于输入的2D图像来获得映射函数参数,如参考图1所描述的。服务器设备210进一步经由通信接口212来将所获得的映射函数参数发送到客户端设备205B。
客户端设备205B经由通信接口207从服务器设备210接收映射函数参数。客户端设备205B使用接收到的映射函数参数、进一步使用处理器110来设置第二神经网络115的映射函数,如参考图1所描述的。
如参考图1所描述的,基于所设置的第二神经网络115的映射函数,第二神经网络115获得或采样3D样本,并且基于所获得的3D样本来获得与2D图像相对应的3D对象。
用于将2D图像映射到映射函数参数的第一神经网络105在尺寸上可以大于用于将3D样本映射到3D对象的第二神经网络115。因此,通过在服务器设备210上实现第一神经网络105以及在客户端设备205B上实现第二神经网络115,用于将2D图像映射到3D对象的客户端设备205B的处理效率相比于图2A中示出的客户端设备205A的处理效率可以提高。
在图1至图2B中,处理器110和处理器214中的每一个可以通过专用处理器或通过软件和通用处理器(诸如应用处理器(application processor,AP)、中央处理单元(central processing unit,CPU)或图形处理单元(graphic processing unit,GPU))的组合来实现。专用处理器可以通过包括用于实现本公开的实施例的存储器或者通过包括用于使用外部存储器的存储器处理器来实现。
此外,处理器110和处理器214中的每一个可以由多个处理器来配置。在这种情况下,处理器110和处理器214中的每一个可以通过专用处理器的组合或者通过软件和通用处理器(诸如AP、CPU或GPU)的组合来实现。
在图2B中,通信接口207和通信接口212中的每一个可以包括一个或多个组件,其使得通信经由局域网(local area network,LAN)、广域网(wide area network,WAN)、增值网(value added network,VAN)、移动无线电通信网络、卫星通信网络或其的组合来执行。
在图1至图2B中,装置100、客户端设备205A、客户端设备205B和服务器设备210中的每一个可以包括CPU、存储器以及包括指令的计算机程序。计算机程序存储在存储器中。装置100、客户端设备205A、客户端设备205B以及服务器设备210可以根据CPU对计算机程序的执行来分别执行参考图1至图2B所描述的功能。参考图1至图2B所描述的功能由专用硬件芯片和/或CPU来执行。
图3是根据实施例的分别被输入到用于表示3D对象的装置以及从用于表示3D对象的装置被输出的2D图像和3D对象的图。
图3的部分(a)是对象(在此情况下,飞机)的2D图像。图1中所示的装置100可以将2D图像变换为与2D图像相对应的3D对象,如图3的部分(b)所示。在这种情况下,3D对象是包括在2D图像中的飞机的3D表示。
图4是根据实施例的使用表示映射函数的神经网络对3D标准域的不同子集进行采样来获得3D对象的方法的图。
图4的部分(a)-(d)分别示出了由例如图1中所示的第二神经网络115采样的球体的点的不同的高亮部分。图4的部分(a)-(d)还示出了在分别对球面的点的不同的部分进行采样时,由例如第二神经网络115重构的3D对象(例如,飞机)的不同的高亮部分。具体地,映射函数fθ可以由球体的不同的高亮部分
Figure BDA0003389118220000091
以及它们在整个经重构的3D对象中相应的不同的高亮部分{fθ(xi),xi∈X}来可视化。
图5是根据实施例的分别与3D形状点相对应的3D对象的图。
图5的部分(a)-(c)分别示出了可以由例如图1中所示的第二神经网络115重构的3D对象(桌子、椅子和飞机)。分别使用被采样以获得3D对象的球体的点来示出3D对象。
图6是根据实施例的表示3D对象的方法600的流程图,该方法由客户端设备来实现。
参考图6,方法600可以由图2A的客户端设备205A来执行。
在操作605中,方法600包括,基于2D图像,使用第一神经网络来获得映射函数参数。
在操作610中,方法600包括,基于所获得的映射函数参数,设置第二神经网络的映射函数。
在操作615中,方法600包括,基于3D样本,使用其映射函数被设置的第二神经网络来获得与2D图像相对应的3D对象。
分别参考图1和图2A中示出的装置100和客户端设备205A描述了对方法600的详细描述,因此将在本文中省略对方法600的详细描述。
图7是根据实施例的表示3D对象的方法700的流程图,该方法由系统来实现。
参考图7,该方法可以由包括在图2B所示的系统中的客户端设备205B来执行。
在操作705中,方法700包括将2D图像发送到外部设备。
在操作710中,方法700包括,在发送了2D图像的基础上,从外部设备接收使用第一神经网络获得的映射函数参数。
在操作715中,方法700包括基于接收到的映射函数参数,设置第二神经网络的映射函数。
在操作720中,方法700包括,基于3D样本,使用其映射函数被设置的第二神经网络来获得与2D图像相对应的3D对象。
参考图2B中示出的系统200描述了对方法700的详细描述,因此将在本文中省略对方法700的详细描述。
图8A是根据实施例的用于表示第一3D对象和第二3D对象的装置100’的框图。
如图8A所示,装置100’包括第一神经网络105、处理器110和第二神经网络115,如参考图1所描述的。装置100’还包括第三神经网络120。
除了图1以外,参考图8A,第一神经网络105获得除了第一2D图像(即,图1的2D图像)之外的第二2D图像。2D图像可以是包括对象或对象的部分的RGB图像。
除了第一映射函数参数(即,图1的映射函数参数)之外,第一神经网络105基于所获得的第二2D图像来获得第二映射函数参数。第二映射函数参数将用于设置可以是预训练的DNN或CNN的第三神经网络120,该预训练的DNN或CNN表示用于将3D标准域的3D样本映射到除了第一3D对象(即,图1的3D对象)之外的第二3D对象的映射函数或高阶函数。第一神经网络105、第二神经网络115和第三神经网络120可以同时一起并且彼此结合地来预训练。
第二2D图像可以从包括磁介质(诸如硬盘、软盘或磁带)、光学记录介质(诸如CD-ROM或DVD)或者磁光介质(诸如软光盘)的数据存储介质获得。第二2D图像还可以从相机获得以及经由处理器110获得。
处理器110从第一神经网络105获得第二映射函数参数,并且使用所获得的第二映射函数参数来设置第三神经网络120的映射函数。
基于所设置的第三神经网络120的映射函数,第三神经网络120获得或采样3D样本,并且基于所获得的3D样本来获得与第二2D图像相对应的第二3D对象。3D样本对应于参考图1所描述的3D样本。第二3D对象可以是包括在第二2D图像中的对象的3D表示(例如,表面或内部),即使第二2D图像仅包括对象的部分。
除了图1之外,参考图8A,基于所设置的第二神经网络115的映射函数,第二神经网络115可以经由处理器110来获得或采样所获得的第一3D对象和/或所获得的第二3D对象,并且基于所获得的第一3D对象和/或所获得的第二3D对象来重新获得第一3D对象。所重新获得的第一3D对象可以是所获得的第一3D对象和/或所获得的第二3D对象之间的插值或混合的3D表示(例如,表面或内部)。这种对第一3D对象的重新获得可以在处理器110的控制下重复任意多次。
类似地,基于所设置的第三神经网络120的映射函数,第三神经网络120可以经由处理器110来获得或采样所获得的第一3D对象和/或所获得的第二3D对象,并且基于所获得的第一3D对象和/或所获得的第二3D对象来重新获得第二3D对象。所重新获得的第二3D对象可以是所获得的第一3D对象和/或所获得的第二3D对象之间的插值或混合的3D表示(例如,表面或内部)。这种对第二3D对象的重新获得可以在处理器110的控制下重复任意多次。
图8B是根据实施例的通过函数复合在第一3D对象fA(X)与第二3D对象fB(X)之间进行插值的方法的图。
如图8B所示,第一2D图像的第一对象OA是载客飞机,并且第二2D图像的第二对象OB是螺旋桨飞机。
参考图8A和图8B,第一神经网络105基于第一对象OA的第一2D图像来获得第一函数fA的映射函数参数,并且基于第二对象OB的第二2D图像来获得第二函数fB的映射函数参数。
基于所设置的第二神经网络115的第一映射函数fA,第二神经网络115获得或采样3D样本X,并且基于所获得的3D样本X来获得与第一对象OA相对应的第一3D对象fA(X)。基于所设置的第三神经网络120的第二映射函数fB,第三神经网络120获得或采样3D样本X,并且基于所获得的3D样本X来获得与第二对象OB相对应的第二3D对象fB(X)。
此外,第二神经网络115获得或采样所获得的第一3D对象fA(X),并且基于所获得的第一3D对象fA(X)来重新获得第一3D对象fA(fA(X))。所重新获得的第一3D对象fA(fA(X))是所获得的第一3D对象fA(X)的插值的3D表示,并且与所获得的第一3D对象fA(X)相比更类似于第一对象OA。
第三神经网络120获得或采样所获得的第一3D对象fA(X),并且基于所获得的第一3D对象fA(X)来重新获得第二3D对象fB(fA(X))。所重新获得的第二3D对象fB(fA(X))是所获得的第一3D对象fA(X)和所获得的第二3D对象fB(X)之间的插值或混合的3D表示,并且对应于具有比类似于螺旋桨飞机(第二对象OB)的机翼那样的机翼更宽的载客飞机(第一对象OA)。
第二神经网络115获得或采样所获得的第二3D对象fB(X),并且基于所获得的第二3D对象fB(X)来重新获得第一3D对象fA(fB(X))。所重新获得的第一3D对象fA(fB(X))是所获得的第一3D对象fA(X)和所获得的第二3D对象fB(X)之间的插值或混合的3D表示,并且对应于具有比类似于载客飞机(第一对象OA)的机翼那样的机翼更直的螺旋桨飞机(第二对象OB)。
第三神经网络120获得或采样所获得的第二3D对象fB(X),并且基于所获得的第二3D对象fB(X)来重新获得第二3D对象fB(fB(X))。所重新获得的第二3D对象fB(fB(X))是所获得的第二3D对象fB(X)的插值的3D表示,并且与所获得的第二3D对象fB(X)相比更类似于第二对象OB。
如上所述,通过在第一3D对象fA(X)和第二3D对象fB(X)之间进行插值,可以获得新的3D对象,诸如所重新获得的第二3D对象fB(fA(X))和所重新获得的第一3D对象fA(fB(X))。
图8C是根据实施例的利用高阶k映射在第一3D对象和第二3D对象之间进行插值的方法的图。
如图8C所示,第一2D图像的第一对象OA是战斗机,并且第二2D图像的第二对象OB是载客飞机。
可以通过使用第一神经网络的第一映射函数fA和第二神经网络的第二映射函数fB中的任意一个或任意组合来对3D样本X进行采样,从而获得新的3D对象。例如,可以通过使用第一映射函数fA两次,然后使用第二映射函数fB两次来对3D样本X进行采样,从而获得中间3D对象
Figure BDA0003389118220000131
中间3D对象
Figure BDA0003389118220000132
是第一对象OA和第二对象OB之间的插值或混合的3D表示,而中间3D对象
Figure BDA0003389118220000133
左侧的3D对象更类似于第一对象OA,且中间3D对象
Figure BDA0003389118220000134
右侧的3D对象更类似于第二对象OB。
图8D是图8A中所示的装置100’的使用情况的图。
如图8D所示,实现装置100’的智能手机800可以显示滑块805。在部分(a)中,基于将滑块805拖拽到最左侧位置的拖拽输入,智能手机800可以显示包括最类似于第一对象(图8C的OA)的3D对象(图8C的
Figure BDA0003389118220000135
的图像810。
在部分(b)中,基于将滑块805拖拽到中间位置的拖拽输入,智能手机800可显示包括类似于第一对象和第二对象(图8C的OB)两者的3D对象(图8C的
Figure BDA0003389118220000136
)的图像815。
在部分(c)中,基于将滑块805拖拽到最右侧位置的拖拽输入,智能手机800可以显示包括最类似于第二对象的3D对象(图8C的
Figure BDA0003389118220000137
)的图像820。
图9是图2B中所示的系统200的使用情况的图,其中,机器人900实现包括在系统200中的客户端设备205B。
如图9的部分(a)中所示,实现客户端设备205B的机器人900在包括鞋910的多个对象905附近,并且想要用其手臂和手来拾取鞋910。机器人900包括获得多个对象905的2D图像915的相机,在该2D图像915中,鞋910被多个对象905中的至少一个部分地阻挡。
为了准确地拾取鞋910,机器人900可能需要不被多个对象905中的任一个部分地阻挡的鞋910的3D模型。利用这样的3D模型,机器人900可以旋转该3D模型来学习拾取鞋910的最佳位置。因此,机器人900将所获得的2D图像发送到图2B中所述的服务器设备210。
在部分(b)中,在发送了2D图像的基础上,机器人900从服务器设备210接收映射函数参数,并且使用所获得的映射函数参数来设置包括在机器人900中的神经网络(图2B的第二神经网络115)的映射函数。基于所设置的神经网络的映射函数,机器人获得与视图920中的鞋910相对应的3D对象910’,该3D对象910’可以用于在多个对象905之中准确地拾取鞋910,如部分(b)中所示。
为了适当地获得映射函数参数和3D对象910’,机器人900还可以包括包含在红外相机或RGB-D相机中的深度传感器,其基于所获得的2D图像来估计鞋910的真实尺寸。机器人900可以将鞋910的估计尺寸连同所获得的2D图像一起发送到服务器设备210。服务器设备210可以基于鞋910的估计尺寸来将所获得的2D图像调整到固定的、预定的比例,从而适当且准确地获得映射函数参数。
图10是图2B中所示的系统200的使用情况的图,其中AR眼镜1000实现包括在系统200中的客户端设备205B。
如图10的部分(a)中所示,穿戴实现客户端设备205B的AR眼镜1000的用户可能在商店中购买鞋1005,通过AR眼镜1000看到商店货架上的鞋1005,并且想要更多地了解鞋1005。AR眼镜1000包括获得商店和鞋1005的2D图像的相机。为了更多地了解鞋1005,AR眼镜1000将所获得的2D图像发送到图2B中所述的服务器设备210。
在部分(b)中,在发送了2D图像的基础上,AR眼镜1000从服务器设备210接收映射函数参数,并且使用所获得的映射函数参数来设置包括在AR眼镜1000中的神经网络(图2B的第二神经网络115)的映射函数。基于所设置的神经网络的映射函数,AR眼镜1000获得并显示与商店的AR环境中的鞋1005相对应的3D对象1005’。3D对象1005’可以用于更多地了解鞋1005。例如,穿戴AR眼镜1000的用户可以在不与现实的鞋1005交互的情况下指示AR眼镜1000旋转和检查3D对象1005’。
图11是根据实施例的实现用于表示3D对象的装置的电子设备1100的框图。
参考图11,电子设备1100包括存储器1105、处理器1110、输入接口1115、显示器1120和通信接口1125。电子设备1100可以在图1至图2B中分别示出的装置100、客户端设备205A和205B以及服务器设备210中的每一个中实现。
处理器1110总体上控制电子设备1100。处理器1110执行存储在存储器1105中的一个或多个程序。
存储器1105存储用于驱动和控制电子设备1100的各种数据、程序或应用。存储在存储器1105中的程序包括一个或多个指令。存储在存储器1105中的程序(一个或多个指令)或应用可以由处理器1110来执行。
处理器1110可以执行装置100、客户端设备205A和系统200的操作中的任意一个或任意组合,分别在图1至图2B中示出并且已经参考图1至图2B、图6和图7描述了这些操作。
输入接口1115可以接收用户输入和/或数据(诸如2D图像)。输入接口1115可以包括例如触摸屏、相机、麦克风、键盘、鼠标或其任意组合。
显示器1120可以从例如处理器1110获得数据,并且可以显示所获得的数据。显示器1120可以包括例如触摸屏、电视、计算机监视器等。
通信接口1125向其他电子设备发送数据并且从其他电子设备接收数据,并且可以包括使得通信经由局域网(LAN)、广域网(WAN)、增值网(VAN)、移动无线电通信网络、卫星通信网络或其的组合来执行的一个或多个组件。
电子设备1100的框图作为示例被提供。取决于实际实现的电子设备1100的规格,框图中的每个组件可以被集成、添加或省略。也就是说,根据需要,两个或更多个组件可以被集成到一个组件中或者一个组件可以被划分为两个或更多个组件。此外,提供由各个块执行的功能来说明本公开的实施例,并且各个块的操作或设备不限制本公开的范围。
上述本公开的实施例可以被写为可以存储在介质中的计算机可执行程序或指令。
介质可以连续地存储计算机可执行程序或指令、或者临时地存储用于执行或下载的计算机可执行程序或指令。此外,介质可以是其中单件或多件硬件被组合的各种记录介质或存储介质中的任一种,并且介质不限于直接连接到计算机系统的介质,而是可以分布在网络上。介质的示例包括被配置为存储程序指令的磁介质(诸如硬盘、软盘和磁带)、光学记录介质(诸如CD-ROM和DVD)、磁光介质(诸如软光盘)以及ROM、RAM和闪存。介质的其他示例包括由分发应用的应用商店或者由供应或分发其他各种类型的软件的网站、服务器等管理的记录介质和存储介质。
与上述DNN或CNN相关的模型可以经由软件模块来实现。当DNN或CNN模型经由软件模块(例如,包括指令的程序模块)来实现时,DNN或CNN模型可以存储在计算机可读记录介质中。
此外,DNN或CNN模型可以是通过以硬件芯片的形式被集成的上述装置100的部分。例如,DNN或CNN模型可以以用于AI的专用硬件芯片的形式来制造、或者可以被制造为现有通用处理器(例如,CPU或应用处理器)或图形专用处理器(例如,GPU)的部分。
此外,DNN或CNN模型可以以可下载软件的形式来提供。计算机程序产品可以包括通过制造商或电子市场的、电子分发的软件程序的形式的产品(例如,可下载应用)。对于电子分发,软件程序的至少部分可以存储在存储介质中或者可以被临时生成。在这种情况下,存储介质可以是制造商或电子市场的服务器、或者中继服务器的存储介质。
尽管已参考附图描述了本公开的实施例,但本领域普通技术人员将会理解,在不脱离由所附权利要求限定的精神和范围的情况下,可以在形式和细节上对本公开的实施例做出各种改变。

Claims (15)

1.一种用于表示三维3D对象的装置,所述装置包括:
存储指令的存储器;以及
处理器,被配置为执行所述指令以:
将二维2D图像发送到外部设备;
在发送了2D图像的基础上,从外部设备接收使用第一神经网络获得的映射函数参数;
基于接收到的映射函数参数,设置第二神经网络的映射函数;以及
基于3D样本,使用其映射函数被设置的第二神经网络来获得与2D图像相对应的3D对象。
2.根据权利要求1所述的装置,其中,所述3D样本是3D标准域的表面或内部。
3.根据权利要求2所述的装置,其中,所述3D标准域是单位球体或单位立方体。
4.根据权利要求1所述的装置,其中,所述3D对象是包括在2D图像中的对象的表面或内部。
5.根据权利要求1所述的装置,其中,所述第一神经网络是卷积神经网络CNN并且结合第二神经网络来训练,所述CNN被训练为基于在CNN中输入的2D图像来输出映射函数参数。
6.根据权利要求1所述的装置,其中,所述第二神经网络是卷积神经网络CNN并且结合第一神经网络来训练,所述CNN被训练为基于在CNN中输入的3D样本来输出3D对象。
7.根据权利要求1所述的装置,其中,所述装置是与所述外部设备分离并在所述外部设备外部的客户端设备。
8.根据权利要求1所述的装置,其中,所述外部设备是与所述装置分离并且在所述装置外部的服务器设备。
9.一种表示三维3D对象的方法,所述方法由装置来执行,并且所述方法包括:
将二维2D图像发送到外部设备;
在发送了2D图像的基础上,从外部设备接收使用第一神经网络获得的映射函数参数;
基于接收到的映射函数参数,设置第二神经网络的映射函数;以及
基于3D样本,使用其映射函数被设置的第二神经网络来获得与2D图像相对应的3D对象。
10.根据权利要求9所述的方法,其中,所述3D样本是3D标准域的表面或内部。
11.根据权利要求10所述的方法,其中,所述3D标准域是单位球体或单位立方体。
12.根据权利要求9所述的方法,其中,所述3D对象是包括在2D图像中的对象的表面或内部。
13.根据权利要求9所述的方法,其中,所述第一神经网络是卷积神经网络CNN并且结合第二神经网络来训练,所述CNN被训练为基于在CNN中输入的2D图像来输出映射函数参数。
14.根据权利要求9所述的方法,其中,所述第二神经网络是卷积神经网络CNN并且结合第一神经网络来训练,所述CNN被训练为基于在CNN中输入的3D样本来输出3D对象。
15.一种存储指令的计算机可读存储介质,被配置为使处理器执行根据权利要求9至14中任一项所述的方法。
CN202080040967.6A 2019-07-01 2020-06-02 用于学习可组合的三维(3d)对象的高阶函数网络及其操作方法 Pending CN113906473A (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201962869473P 2019-07-01 2019-07-01
US62/869,473 2019-07-01
US16/811,755 2020-03-06
US16/811,755 US10922877B2 (en) 2019-07-01 2020-03-06 Higher-order function networks for learning composable three-dimensional (3D) object and operating method thereof
PCT/KR2020/007152 WO2021002596A1 (en) 2019-07-01 2020-06-02 Higher-order function networks for learning composable three-dimensional (3d) object and operating method thereof

Publications (1)

Publication Number Publication Date
CN113906473A true CN113906473A (zh) 2022-01-07

Family

ID=74065779

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202080040967.6A Pending CN113906473A (zh) 2019-07-01 2020-06-02 用于学习可组合的三维(3d)对象的高阶函数网络及其操作方法

Country Status (4)

Country Link
US (2) US10922877B2 (zh)
EP (1) EP3953894A4 (zh)
CN (1) CN113906473A (zh)
WO (1) WO2021002596A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114820905A (zh) * 2022-06-24 2022-07-29 北京百度网讯科技有限公司 虚拟形象生成方法、装置、电子设备及可读存储介质

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3671660A1 (en) * 2018-12-20 2020-06-24 Dassault Systèmes Designing a 3d modeled object via user-interaction
WO2020242047A1 (en) * 2019-05-30 2020-12-03 Samsung Electronics Co., Ltd. Method and apparatus for acquiring virtual object data in augmented reality
US11587291B2 (en) * 2021-06-30 2023-02-21 Tencent America LLC Systems and methods of contrastive point completion with fine-to-coarse refinement

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8717412B2 (en) 2007-07-18 2014-05-06 Samsung Electronics Co., Ltd. Panoramic image production
JP5339934B2 (ja) 2009-01-22 2013-11-13 キヤノン株式会社 光断層撮像装置および光断層撮像方法
US9471988B2 (en) 2011-11-02 2016-10-18 Google Inc. Depth-map generation for an input image using an example approximate depth-map associated with an example similar image
US11094137B2 (en) * 2012-02-24 2021-08-17 Matterport, Inc. Employing three-dimensional (3D) data predicted from two-dimensional (2D) images using neural networks for 3D modeling applications and other applications
JP5936159B1 (ja) 2015-01-09 2016-06-15 Necプラットフォームズ株式会社 パターン認識装置とその学習方法、及びパターン認識学習用プログラム
WO2017056484A1 (ja) 2015-09-28 2017-04-06 京セラ株式会社 画像処理装置、ステレオカメラ装置、車両及び画像処理方法
US10068385B2 (en) 2015-12-15 2018-09-04 Intel Corporation Generation of synthetic 3-dimensional object images for recognition systems
KR101799700B1 (ko) 2016-11-29 2017-12-20 고려대학교 산학협력단 뉴로모픽 신경망 모델 기반 내비게이션 장치 및 그 방법
CN107330439B (zh) * 2017-07-14 2022-11-04 腾讯科技(深圳)有限公司 一种图像中物体姿态的确定方法、客户端及服务器
US10733755B2 (en) 2017-07-18 2020-08-04 Qualcomm Incorporated Learning geometric differentials for matching 3D models to objects in a 2D image
WO2019027924A1 (en) * 2017-07-30 2019-02-07 Icahn School Of Medicine At Mount Sinai DEEP PLANNING RADIATION THERAPY SYSTEM AND METHOD
US10762425B2 (en) 2017-09-26 2020-09-01 Nvidia Corporation Learning affinity via a spatial propagation neural network
US10824862B2 (en) 2017-11-14 2020-11-03 Nuro, Inc. Three-dimensional object detection for autonomous robotic systems using image proposals
KR102192899B1 (ko) * 2018-08-16 2020-12-18 주식회사 날비컴퍼니 이미지에 보케 효과를 적용하는 방법 및 기록매체
CN109389671B (zh) * 2018-09-25 2020-09-22 南京大学 一种基于多阶段神经网络的单图像三维重建方法
US11295532B2 (en) * 2018-11-15 2022-04-05 Samsung Electronics Co., Ltd. Method and apparatus for aligning 3D model
US10726543B2 (en) * 2018-11-27 2020-07-28 General Electric Company Fluorescent penetrant inspection system and method
US10529113B1 (en) * 2019-01-04 2020-01-07 Facebook Technologies, Llc Generating graphical representation of facial expressions of a user wearing a head mounted display accounting for previously captured images of the user's facial expressions
US11276216B2 (en) * 2019-03-27 2022-03-15 Electronic Arts Inc. Virtual animal character generation from image or video data

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114820905A (zh) * 2022-06-24 2022-07-29 北京百度网讯科技有限公司 虚拟形象生成方法、装置、电子设备及可读存储介质
CN114820905B (zh) * 2022-06-24 2022-09-20 北京百度网讯科技有限公司 虚拟形象生成方法、装置、电子设备及可读存储介质

Also Published As

Publication number Publication date
US20210166470A1 (en) 2021-06-03
US11145114B2 (en) 2021-10-12
WO2021002596A1 (en) 2021-01-07
EP3953894A1 (en) 2022-02-16
US10922877B2 (en) 2021-02-16
EP3953894A4 (en) 2022-07-20
US20210005013A1 (en) 2021-01-07

Similar Documents

Publication Publication Date Title
Bautista et al. Gaudi: A neural architect for immersive 3d scene generation
He et al. InSituNet: Deep image synthesis for parameter space exploration of ensemble simulations
Xie et al. Neural fields in visual computing and beyond
US10304244B2 (en) Motion capture and character synthesis
CN113906473A (zh) 用于学习可组合的三维(3d)对象的高阶函数网络及其操作方法
JP7373554B2 (ja) クロスドメイン画像変換
US20240005590A1 (en) Deformable neural radiance fields
US9747668B2 (en) Reconstruction of articulated objects from a moving camera
Senushkin et al. Decoder modulation for indoor depth completion
Ran et al. Neurar: Neural uncertainty for autonomous 3d reconstruction with implicit neural representations
CN114339409B (zh) 视频处理方法、装置、计算机设备及存储介质
Xiong et al. Sparse-to-dense depth completion revisited: Sampling strategy and graph construction
CN112614213A (zh) 人脸表情确定方法、表情参数确定模型、介质及设备
US11983815B2 (en) Synthesizing high resolution 3D shapes from lower resolution representations for synthetic data generation systems and applications
Shi et al. 3d-aware indoor scene synthesis with depth priors
Tretschk et al. State of the Art in Dense Monocular Non‐Rigid 3D Reconstruction
Zhou et al. Image2GIF: Generating cinemagraphs using recurrent deep q-networks
CN111862278B (zh) 一种动画获得方法、装置、电子设备及存储介质
Dong et al. A time-critical adaptive approach for visualizing natural scenes on different devices
Andrade et al. Improving the Estimation of Object mass from images
CN116452715A (zh) 动态人手渲染方法、装置及存储介质
Marcu et al. Towards automatic annotation for semantic segmentation in drone videos
Davis et al. 3d modeling of cities for virtual environments
CN115359508A (zh) 通过专家的神经元优化以提高的效率执行复杂优化任务
Anupama et al. Extrapolating z-axis data for a 2d image on a single board computer

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination