CN115735230A - 对无约束图像数据具有鲁棒性的视图合成 - Google Patents

对无约束图像数据具有鲁棒性的视图合成 Download PDF

Info

Publication number
CN115735230A
CN115735230A CN202180046527.6A CN202180046527A CN115735230A CN 115735230 A CN115735230 A CN 115735230A CN 202180046527 A CN202180046527 A CN 202180046527A CN 115735230 A CN115735230 A CN 115735230A
Authority
CN
China
Prior art keywords
computing system
color
generate
learned
opacity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202180046527.6A
Other languages
English (en)
Inventor
丹尼尔·克里斯托弗·杜克沃特
里卡多·马丁·布鲁瓦利亚
诺哈·瓦希德·艾哈迈德·拉德温
赛义德·穆罕默德·迈赫迪·萨贾迪
乔纳森·蒂尔顿·巴龙
阿列克谢·多索维斯基
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google LLC filed Critical Google LLC
Publication of CN115735230A publication Critical patent/CN115735230A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/08Volume rendering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/001Texturing; Colouring; Generation of texture or colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/10Geometric effects
    • G06T15/20Perspective computation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • G06T19/20Editing of 3D images, e.g. changing shapes or colours, aligning objects or positioning parts
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/90Determination of colour characteristics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Graphics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computer Hardware Design (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Geometry (AREA)
  • Architecture (AREA)
  • Image Processing (AREA)
  • Image Analysis (AREA)
  • Image Generation (AREA)

Abstract

本文提供了用于合成复杂场景(例如室外场景)的新颖视图的系统和方法。在一些实施方式中,所述系统和方法可以包括或使用能够从非结构化和/或无约束的图像集合(例如“野外”照片)进行学习的机器学习模型。特别地,本公开的示例实施方式可以学习由机器学习模型(例如一个或多个多层感知器(MLP))表示的体积场景密度和辐射度。

Description

对无约束图像数据具有鲁棒性的视图合成
相关申请
本申请要求2020年7月31日提交的美国临时专利申请第63/059,322号的优先权和权益。美国临时专利申请第63/059,322号特此以全文引用的方式并入。
技术领域
本公开一般来说涉及用于对场景进行建模的系统和方法,以促进例如执行场景的视图合成。更具体地说,本公开涉及机器学习模型,其提供了对不受控的图像中普遍存在的真实世界现象(例如可变照明和瞬态遮挡物)的改进的鲁棒性。
背景技术
视图合成任务旨在从给定视点拍摄的大量图片开始,创建特定环境(例如场景、对象或主题)的新视图。作为示例,给定从具有特定相机设置和定向的特定点拍摄的特定对象的多个图像,视图合成系统尝试生成从放置在不同点的虚拟相机拍摄的具有给定设置的合成图像。
虽然一些视图合成方法利用神经辐射场来从受控环境中捕获的图像中有效地学习体积场景密度和辐射度,但这些方法无法对不受控图像中的许多普遍存在的真实世界现象进行建模,例如可变照明和瞬态遮挡物。
发明内容
本公开的实施例的方面和优点将在以下描述中部分阐述,或者可以从描述中学习,或者可以通过实施例的实践来学习。
本公开的一个示例方面涉及一种用于生成场景的合成图像的计算系统。所述计算系统包括:一个或多个处理器;以及一个或多个非暂时性计算机可读介质,所述一个或多个非暂时性计算机可读介质共同存储:机器学习视图合成模型,包括基础部分、对场景内的静态内容进行建模的静态内容部分和对场景内的瞬态内容进行建模的瞬态内容部分;以及指令,当由所述一个或多个处理器执行时,所述指令使计算系统执行操作。所述操作包括:获得三维空间内的位置;用机器学习视图合成模型的基础部分处理描述位置的数据,以生成静态不透明度和潜在表示;用机器学习视图合成模型的静态内容部分处理潜在表示,以生成静态颜色;用机器学习视图合成模型的瞬态内容部分处理潜在表示,以生成瞬态不透明度和瞬态颜色;以及执行体积渲染,以根据静态不透明度、静态颜色、瞬态不透明度和瞬态颜色生成合成图像的合成像素的合成像素颜色。
本公开的另一示例方面涉及一种用于具有用户可指定特性的视图合成的计算机实施方法。所述方法包括:由包括一个或多个计算设备的计算系统获得三维空间内的期望位置和用户指定的生成嵌入,其中所述生成嵌入编码要生成的合成图像的一个或多个视觉特性。所述方法包括:由所述计算系统用机器学习视图合成模型的基础部分处理描述位置的数据,以生成不透明度和潜在表示。所述方法包括:由所述计算系统用所述机器学习视图合成模型的内容部分处理所述潜在表示和所述生成嵌入,以生成颜色。所述方法包括:由所述计算系统执行体积渲染,以根据不透明度和颜色生成合成图像的合成像素的合成像素颜色,其中所述合成图像呈现由所述生成嵌入编码的所述一个或多个视觉特性。
本公开的另一示例方面涉及一个或多个非暂时性计算机可读介质,所述一个或多个非暂时性计算机可读介质共同存储指令,当由一个或多个处理器执行时,所述指令使计算系统执行操作。所述操作包括:由所述计算系统获得三维空间内的位置和与现有训练图像相关联的一个或多个相机参数。所述操作包括:由所述计算系统用机器学习视图合成模型的基础部分处理描述所述位置的数据和所述一个或多个相机参数,以生成不透明度和潜在表示。所述操作包括:由所述计算系统用所述机器学习视图合成模型的内容部分处理潜在表示,以生成颜色。所述操作包括:由所述计算系统执行体积渲染,以根据所述不透明度和颜色生成合成图像的合成像素的合成像素颜色。所述操作包括:评估损失函数,所述损失函数将合成像素颜色与包括在所述现有训练图像中的训练像素的真实值像素颜色进行比较。所述操作包括:至少部分地基于所述损失函数来修改相机参数的一个或多个值。
本公开的另一示例方面涉及一种用于生成场景的合成图像的计算系统。所述计算系统包括:一个或多个处理器;以及一个或多个非暂时性计算机可读介质,所述一个或多个非暂时性计算机可读介质共同存储:机器学习视图合成模型,包括基础部分和对所述场景内的静态内容进行建模的静态内容部分,其中所述基础部分和所述静态部分已经与对所述场景内的瞬态内容进行建模的瞬态内容部分联合训练;以及指令,当由一个或多个处理器执行时,所述指令使所述计算系统执行操作。所述操作包括:获得三维空间内的位置;用所述机器学习视图合成模型的基础部分处理描述所述位置的数据,以生成静态不透明度和潜在表示;用所述机器学习视图合成模型的静态内容部分处理潜在表示,以生成静态颜色;以及执行体积渲染,以根据所述静态不透明度和所述静态颜色生成合成图像的合成像素的合成像素颜色。
本公开的其它方面涉及各种系统、设备、非暂时性计算机可读介质、用户界面和电子设备。
参考以下描述和所附权利要求,将更好地理解本公开的各种实施例的这些和其它特征、方面和优点。并入本说明书中并构成本说明书一部分的附图说明了本公开的示例实施例,并与说明书一起用于解释相关原理。
附图说明
在说明书中阐述针对本领域普通技术人员的实施例的详细讨论,说明书参考附图,其中:
图1描绘了根据本公开的示例实施例的用于训练机器学习视图合成模型然后使用该机器学习视图合成模型执行视图合成的示例过程的框图。
图2描绘了根据本公开的示例实施例的训练机器学习视图合成模型的示例过程的框图。
图3描绘了根据本公开的示例实施例的使用机器学习视图合成模型的示例过程的框图。
图4描绘了根据本公开的示例实施例的示例机器学习视图合成模型的框图。
图5A描绘了根据本公开的示例实施例的示例计算系统的框图。
图5B描绘了根据本公开的示例实施例的示例计算设备的框图。
图5C描绘了根据本公开的示例实施例的示例计算设备的框图。
在多个图中重复的附图标号旨在标识不同实施方式中的相同特征。
具体实施方式
概述
一般来说,本公开涉及用于合成复杂场景(例如室外场景)的新颖视图的系统和方法。在一些实施方式中,系统和方法可以包括或使用能够从非结构化和/或无约束的图像集合(例如“野外”照片)学习的机器学习模型。特别地,本公开的示例实施方式可以学习由机器学习模型(例如一个或多个多层感知器(MLP))或其它神经网络或其它机器学习模型表示的体积场景密度和辐射度。
更具体地说,虽然某些技术(例如Mildenhall等人的“NeRF:Representing Scenesas Neural Radiance Fields for View Synthesis(NeRF:将场景表示为用于视图合成的神经辐射场)”(arXiv:2003.08934v1)(以下简称“NeRF”)中描述的技术)对于在受控环境中捕获的图像是有效的,但其无法在不受控的图像中建模许多普遍存在的真实世界现象,例如可变照明和瞬态遮挡物。
具体地,NeRF基于三维一致性的假设——其假设同一场景中拍摄的两幅图像应彼此一致。然而,在不受控的环境(例如,“野外”摄影)中,同一场景的两幅图像往往不一致,包括照明特性或其它视觉特性发明的不一致和/或瞬态内容/项目的存在/不存在(例如,地标的两张照片中的每一张可能具有位于地标前方的一组不同的瞬态游客)。
NeRF学习由(学习的)函数描述的每个场景模型。此函数获取位置(x,y,z)和取景方向(theta,phi),并且生成RGB颜色和不透明度(sigma)。为了生成渲染,人们通过相机中的每个像素跟踪光线,沿着光线的长度对通过累积的不透明度进行加权的颜色进行积分。训练NeRF模型以最小化预测的RGB值与真实值图像之间的平方误差。因此,为了训练NeRF,人们需要照片和相机参数。前者表示每个像素应该是什么颜色,后者表示从该像素发出的光线在三维空间中的位置。
本公开提供了许多改进NeRF模型或类似模型的技术。这些添加使所提出模型更能适应杂乱的真实世界摄影。
特别地,根据本公开的一个方面,在用一组训练图像训练机器学习视图合成模型期间,可以为每个训练图像分配生成嵌入。生成嵌入可以用于编码图像的视觉特性,例如照明特性(例如白平衡)、内容特性(例如一天中的时间、天气、一年中的季节)、风格特性(例如照片编辑软件设置)等。
因此,在一些实施方式中,对于每个训练图像,可以分配一个小的生成嵌入(例如,8~32个浮点数的向量)(例如,通过图像ID索引)。这种生成嵌入的使用使模型能够补偿单个图像的变化,例如白平衡和风格后处理。
可以将这些生成嵌入作为模型的一部分进行学习/更新。例如,可以将生成嵌入视为模型参数,并且在模型训练期间(例如,在损失函数的反向传播期间或作为其结果)进行更新。通过该过程,具有类似特性的图像的生成嵌入可以被移动成彼此接近。
接下来,在视图合成期间,用户可以指定并向模型提供编码期望特性(例如,期望的照明特性、内容特性、风格特性等)的期望生成嵌入。作为响应,该模型可以生成具有由期望生成嵌入编码的期望特性的合成图像。在一个示例中,可以通过内插为已由用户选择的两个或更多个训练图像(例如,因为其呈现/代表期望的特性)学习的两个或更多个生成嵌入来获得期望的生成嵌入。
因此,模型可以使用生成嵌入来补偿图像特性的差异,这些差异不反映底层场景中的实际差异。例如,地标图像后处理设置的差异实际上并不反映地标本身的差异。这使得经过训练的模型能够更好地处理训练图像之间的不一致性,这使得模型对训练图像的无约束集合更为鲁棒。
根据另一示例方面,本公开的一些实施方式将不确定性直接并入到模型的体积渲染管道中。例如,除了静态不透明度和静态颜色外,该模型还可以预测不确定性值‘β’和瞬态不透明度和瞬态颜色。可以对瞬态数据进行积分,类似于对静态数据进行的积分,以获得每条射线的学习权重乘数。直观地,这允许模型降低重建图像中与其它照片不一致的“困难”部分(例如,在许多情况下,图像中的瞬态和不一致的遮挡物)的优先级。
因此,本公开的示例实施方式具有新颖的模型架构,其包括基础部分、对场景内的静态内容进行建模的静态内容部分和对场景内的瞬态内容进行建模的瞬态内容部分。在一些实施方式中,对模型进行训练的损失函数可以为预测的合成颜色与真实值颜色之间的差异是由视图合成模型建模的瞬态内容产生的情况提供减少的损失量。因此,在真实值图像描绘了瞬时内容或另外与高不确定性相关联的情况下,模型能够偏离真实值图像。这使得经过训练的模型能够更好地处理训练图像之间的不一致性,这使得模型对训练图像的无约束集合更为鲁棒。
根据另一示例方面,本公开的一些实施方式可以直接在模型本身内微调每个训练图像的相机参数。示例相机参数包括定向、位所、焦距、主点、偏斜、径向失真、切向失真和/或各种相机固有特性。这允许模型调整相机参数(例如,在某一阈值或公差范围内),以完全匹配正在重建的场景,并且不依赖于通常用于三维配准的稀疏图像特征。换句话说,通过修改每个训练图像的相机参数,可以从数据集中去除训练数据集中存在的一些噪声。这使得经过训练的模型能够更好地处理训练图像之间的不一致性,这使得模型对训练图像的无约束集合更为鲁棒。
本公开的系统和方法提供了许多技术效果和益处。作为一个示例,本文所描述的系统和方法使模型能够对不受控的图像更加鲁棒。当基于不受控的训练数据集合成场景视图时,这会提高模型性能。因此,本公开的系统和方法提高了视图合成系统的真实性、一致性和用户可控性。
作为另一示例技术效果和益处,通过为模型提供明确的机制来补偿和/或纠正训练数据集内的不一致性,该模型将能够以更快的方式收敛到优化的解决方案(例如,具有更少的训练回合和/或需要更少的训练图像)。更快的收敛可以节省计算资源,例如减少处理器使用、内存使用和/或带宽使用。
因此,本公开提供了解决与无约束图像相关联的问题和/或提供额外用户可控性的系统和方法。美国临时专利申请第63/059,322号中包含的示例实验数据通过综合合成和真实世界实验证明了所提出技术的有效性。示例实验将本文描述的系统的示例实施方式应用于多个地标,既使用高分辨率捕获也使用互联网照片,从而实现了照片般的真实感重建,并显著优于先前的工作。
尽管本公开的示例实施方式是参考图像的单帧来描述的,但本公开的系统和方法同样可以应用于视频或其它多帧数据集。例如,可以合成显示“飞越”模拟场景的视频。视频的帧可以在时间和风格上是一致的(例如,通过对视频的所有合成帧一致地使用相同的期望生成嵌入)。
另外,合成图像帧的分辨率可以与训练模型的训练图像相同或不同。例如,可以在低分辨率图像上训练模型,然后用于生成高分辨率合成图像。
本公开的系统和方法使用和/或生成的颜色数据(例如,输入数据颜色、静态颜色、瞬态颜色、合成颜色等)可以在任何颜色空间中表示,例如,包括RGB空间(例如RGB、RGBA)、CIE空间、HSV和HSL空间、CMYK空间、灰度和/或其它颜色空间。
现在参考附图,将进一步详细讨论本公开的示例实施例。
示例技术
本节描述了所提出方法的示例实施方式,在一些实施方式中,可将其称为NeRF-W。所描述的模型是精心设计的,以用于从“野外”照片集重建三维场景,并在Mildenhall等人所描述的NeRF模型基础上发展。
NeRF的核心在于多视图一致性:三维空间中的每个点在所有(无障碍)视图中都应相同。这一条件随取决于取景方向而放宽,但NeRF无法捕获到颜色的显著变化。特别地,NeRF通常通过将这些变化与视角相关联来处理颜色变化。因此,虽然单个图像可能看起来正常,但来自不同视角的验证视图或多个图像集(例如飞越视频)将不一致。
当照片由一个人在受控环境中拍摄时,满足了NeRF的假设,能够实现照片真实感重建。然而,无约束的照片集(例如著名地标的业余照片)带来了许多NeRF无法补偿的挑战。
作为一个示例,无约束图像可以描绘相同的场景,但具有不同的天气。照片是在不同的时间在不同的照明条件下拍摄的。在户外摄影中,一天中的时间和天气直接影响场景中所有对象的颜色。此外,天空本身也随时间而变化。
作为另一示例,无约束图像可以描绘相同的场景,但具有不同的后处理。照片后处理(包括曝光和白平衡的调整)完全不受限制,并且进一步影响场景中所有对象的颜色。
作为又另一示例,无约束图像可以描绘相同的场景,但具有不同的瞬态对象。由于照片不是在一个时间点拍摄的,因此包括人、横幅和树叶在内的瞬态对象因图像而异。
在以下描述中(以及在上述概述中),本公开提出了直接设计用于解决这些现象的许多增强。
图1描绘了根据本公开的示例实施例的用于训练机器学习视图合成模型然后使用机器学习视图合成模型执行视图合成的示例过程的框图。
参考图1,训练数据集12可以包括描绘场景的现有训练图像。如本文所描述,训练图像可能是不受约束的,并且可能呈现彼此之间的各种不一致性。如14所示,计算系统可以对训练数据集12执行模型优化或训练过程,以生成机器学习视图合成模型16(例如,见图2)。在训练后,可以向模型16提供期望合成图像18的位置。作为响应,模型16可以生成合成图像20,该图像描绘了位置18处的场景(例如,见图3)。
图2描绘了根据本公开的示例实施例的训练机器学习视图合成模型的示例过程的框图。在一些实施方式中,可以对每个训练图像的每个像素执行图2中所示的过程。
参考图2,可以向机器学习视图合成模型24提供现有训练图像的训练位置22。位置22可以包括拍摄训练图像的相机的位所和定向。另外,根据本公开的一方面,在一些实施方式中,可以向机器学习视图合成模型24提供训练图像的一个或多个相机参数25和/或训练图像的训练图像嵌入26。作为示例,附加相机参数25可以包括焦距、主点、偏斜、径向失真、切向失真和/或各种相机固有特性。训练图像嵌入26可以是已分配给训练图像的生成嵌入。
特别地,“野外”图像带来的挑战的核心是每幅图像颜色变化的概念:虽然假设场景的三维几何图形在所有图像之间是相同的,但由于照明和相机设置(例如曝光)的变化,预计颜色的一致性会降低。
为了解决这个问题,在一些实施方式中,可以为训练集中的每个图像分配一个唯一的嵌入ei (g)26。这些嵌入
Figure BDA0004024964970000102
可以在训练过程中与模型参数一起优化。
仍然参考图2,机器学习视图合成模型24可以处理输入数据以生成不透明度和颜色数据27。例如,在一些实施方式中,机器学习视图合成模型24可以仅生成单一组不透明度和颜色数据27,或者在其它实施方式中,可以为场景的静态内容生成一组静态不透明度和颜色数据,并且为场景的瞬态内容生成一组瞬态颜色和不透明度数据27。
作为一个示例,在给定三维位所r(t)和取景方向d的情况下,可以通过多层感知器(MLP)或其它模型(例如某种其它形式的神经网络或其它机器学习模型)来预测差分不透明度σ(r)和颜色c(r,d)27。该MLP或其它模型可以明确设计,以确保取景方向d不会影响差分不透明度σ。例如,模型的基础部分只能从位所预测不透明度,而颜色可以从位所和视角/方向预测。同样,在一些实施方式中,该MLP的输入可以通过嵌入e(g)来增强。
(c,σ)=MLP(r(t),d,e(g))
其中e(g)是对应于所渲染图像的生成嵌入。类似于取景方向d,一些示例实施方式可以确保生成嵌入e(g)不影响差分不透明度σ。通过使用嵌入ei (g)来增强MLP的输入,所提出的模型能够基于图像的身份直接改变场景的颜色和照明,而无需修改其三维几何图形。
在28处,可以执行体积渲染技术,以根据不透明度和颜色数据27生成合成像素颜色。例如,对于单一组不透明度和颜色数据27,合成像素的颜色可以通过沿着相机发出的射线进行积分来获得:
Figure BDA0004024964970000112
其中
Figure BDA0004024964970000113
根据另一示例方面,虽然GLO能够捕获可变照明和后处理,但其无法对三维几何图形中的变化进行建模。因此,本公开的一些实施方式具有双头模型,该双头模型包括对静态内容进行建模的静态部分和对瞬态内容进行建模的瞬态部分。与为三维空间中的位置生成单个元组(σ,c)的实施方式不同,所提出的具有静态和瞬态头部的模型生成两个:一个用于所有图像(σs,cs)所共有的‘静态’对象,另一个用于特定图像(σt,ct)所特有的‘瞬态’对象。这些量可以与方程1中所示的体积渲染方程的修改版本相结合。此外,所提出的模型输出不确定性估计β,该不确定性估计β用于调制每个像素的损失函数。图4提供了所提出的模型架构图。
具体地,现参考图4,提供了根据本公开的示例实施例的示例机器学习视图合成模型的框图。模型可以包括基础部分34、静态部分36和瞬态部分38。
给定三维点r(t)34、GLO嵌入e(g)48和不确定性嵌入e(u)52,图4所示的模型产生差分不透明度σs,σt 44、54、颜色cs,ct 45、56和差分不确定性β58。为了清楚起见,省略了位置嵌入、取景方向和非线性。如所描述,也可以可选地提供附加的相机参数42。
在一些实施方式中,所提出的示例模型的基础部分34包括应用于三维位置r(t)40的MLP。也可以使用其它模型。该MLP输出差分不透明度σs 44和潜在表示z46。后者有两种使用方式。首先,静态部分36(例如,其可以包括4层MLP或其它模型)到z46和取景方向d,以产生类似于NeRF的MLP的颜色cs 45。其次,瞬态部分38(例如,其可以包括第二个4层MLP或其它模型)到z46,用每个图像嵌入e(u)52来增强,以产生三个量:瞬态差分不透明度σt 54、瞬态颜色ct 56和下面描述的不确定性值β58。在一些实施方式中,l1正则化可以应用于σt以鼓励稀疏性。
同时参考图2和图4,为了在28处从静态和瞬态数据27中产生单个像素的颜色,可以使用以下体积渲染方程的变化:
Figure BDA0004024964970000121
其中
Figure BDA0004024964970000122
注意,公式1中的颜色c被σscstct的线性组合代替,累积不透明度σ被σst的总和代替。
在一些实施方式中,例如图4所示的示例,允许模型发出不确定性估计β58。在训练时,累积的不透明度方程可以用于获得对应预测颜色C(r)的不确定性:
Figure BDA0004024964970000131
如示例所示,具有真实值颜色y的单个像素的损失可以由下式给出:
Figure BDA0004024964970000132
直观地说,较大的β值允许模型降低异常值——通常是瞬态的或移动的物体,例如人、草或云。对数项防止β无界增长,并且可以直接从正态分布的似然性导出。在一些实施方式中,超参数βmin≥0可以用于防止模型将大部分损失集中在少量像素上。
更一般来说,再次参考图2,损失函数30可以评估在28处生成的合成像素颜色与现有训练图像的真实值像素颜色32之间的差异。例如,可以使用RGB或某一其它颜色方案表示的像素颜色之间的平方误差。
可以将损失函数30反向传播以训练机器学习视图合成模型24。另外,在一些实施方式中,也可以基于损失函数30(例如,通过继续通过模型24并越过模型24对损失进行反向传播)来更新训练图像嵌入26、训练位置22和/或相机参数25。
在测试时,模型24可以用于渲染训练集中所有照片的静态几何图形。在一些实施方式中,可以通过完全省略σt、ct和β来渲染图像。
作为一个示例,图3示出了训练后机器学习视图合成模型的示例使用。具体地,提供了场景的合成图像的期望位置40(例如位所和定向)。可选地,还可以提供期望的相机参数42和/或期望的生成嵌入44。
机器学习视图合成模型24可以处理输入以生成不透明度和颜色数据27(例如,单一组不透明度和彩色数据或静态和瞬态不透明度和颜色数据,或仅静态不透明度和颜色数据)。可以对不透明度和颜色数据(例如,仅静态数据)执行体积渲染28,以生成合成图像的像素的合成像素颜色。
可以对合成图像的每个像素执行图3所示的过程。
示例设备和系统
图5A描绘了根据本公开的示例实施例的示例计算系统100的框图。系统100包括通过网络180通信耦合的用户计算设备102、服务器计算系统130和训练计算系统150。
用户计算设备102可以是任何类型的计算设备,例如,个人计算设备(例如笔记本电脑或台式机)、移动计算设备(例如智能手机或平板电脑)、游戏控制台或控制器、可穿戴计算设备、嵌入式计算设备或任何其它类型的计算设备。
用户计算设备102包括一个或多个处理器112和存储器114。一个或多个处理器112可以是任何合适的处理设备(例如,处理器核心、微处理器、ASIC、FPGA、控制器、微控制器等),并且可以是一个处理器或可操作地连接的多个处理器。存储器114可以包括一个或多个非暂时性计算机可读存储介质,例如RAM、ROM、EEPROM、EPROM、闪存设备、磁盘等以及它们的组合。存储器114可以存储由处理器112执行的数据116和指令118,以使用户计算设备102执行操作。
在一些实施方式中,用户计算设备102可以存储或包括一个或多个机器学习模型120。例如,机器学习模型120可以是或可以另外包括各种机器学习模型,例如神经网络(例如深度神经网络)或其它类型的机器学习模型(包括非线性模型和/或线性模型)。神经网络可以包括前馈神经网络、递归神经网络(例如,长短期记忆递归神经网络)、卷积神经网络或其它形式的神经网络。参考图1至图4讨论了示例机器学习模型120。
在一些实施方式中,所述一个或多个机器学习模型120可以通过网络180从服务器计算系统130接收,存储在用户计算设备存储器114中,然后由所述一个或多个处理器112使用或以其它方式实施。在一些实施方式中,用户计算设备102可以实施单个机器学习模型120的多个并行实例(例如,跨相同或不同场景的多个实例来执行并行视图合成)。
另外或备选地,可以将所述一个或多个机器学习模型140包括在服务器计算系统130中,或者以其它方式由该服务器计算系统存储和实施,该服务器计算系统根据客户端-服务器关系与用户计算设备102通信。例如,机器学习模型140可以由服务器计算系统140实施为web服务(例如视图合成服务)的一部分。因此,一个或多个模型120可以在用户计算设备102处存储和实施,和/或一个或多个模型140可以在服务器计算系统130处存储和实施。
用户计算设备102还可以包括接收用户输入的一个或多个用户输入组件122。例如,用户输入组件122可以是对用户输入对象(例如手指或触笔)的触摸敏感的触敏组件(例如触敏显示屏或触摸板)。触敏组件可以用于实施虚拟键盘。其它示例用户输入组件包括麦克风、传统键盘或用户可以提供用户输入的其它构件。
服务器计算系统130包括一个或多个处理器132和存储器134。所述一个或多个处理器132可以是任何合适的处理设备(例如,处理器核心、微处理器、ASIC、FPGA、控制器、微控制器等),并且可以是一个处理器或可操作地连接的多个处理器。存储器134可以包括一个或多个非暂时性计算机可读存储介质,例如RAM、ROM、EEPROM、EPROM、闪存设备、磁盘等以及它们的组合。存储器134可以存储由处理器132执行的数据136和指令138,以使服务器计算系统130执行操作。
在一些实施方式中,服务器计算系统130包括一个或多个服务器计算设备或由一个或多个服务器计算设备实施。在服务器计算系统130包括多个服务器计算设备的情况下,此类服务器计算设备可以根据顺序计算架构、并行计算架构或其某些组合进行操作。
如上文所描述,服务器计算系统130可以存储或以其它方式包括一个或多个机器学习模型140。例如,模型140可以是或可以另外包括各种机器学习模型。示例机器学习模型包括神经网络或其它多层非线性模型。示例神经网络包括前馈神经网络、深度神经网络、递归神经网络和卷积神经网络。参考图1至图4讨论了示例模型140。
用户计算设备102和/或服务器计算系统130可以通过与通过网络180通信耦合的训练计算系统150的交互来训练模型120和/或140。训练计算系统150可以与服务器计算系统130分离,或者可以是服务器计算系统130的一部分。
训练计算系统150包括一个或多个处理器152和存储器154。所述一个或多个处理器152可以是任何合适的处理设备(例如,处理器核心、微处理器、ASIC、FPGA、控制器、微控制器等),并且可以是一个处理器或可操作地连接的多个处理器。存储器154可以包括一个或多个非暂时性计算机可读存储介质,例如RAM、ROM、EEPROM、EPROM、闪存设备、磁盘等以及它们的组合。存储器154可以存储由处理器152执行的数据156和指令158,以使训练计算系统150执行操作。在一些实施方式中,训练计算系统150包括一个或多个服务器计算设备或由一个或多个服务器计算设备实施。
训练计算系统150可以包括模型训练器160,其使用各种训练或学习技术(例如,错误的反向传播)来训练存储在用户计算设备102和/或服务器计算系统130处的机器学习模型120和/或140。例如,可以通过模型反向传播损失函数,用以(例如基于损失函数的梯度)更新模型的一个或多个参数。可以使用各种损失函数,例如均方误差、似然损失、交叉熵损失、铰链损失和/或各种其它损失函数。梯度下降技术可以用于在多次训练迭代中迭代更新参数。
在一些实施方式中,执行错误的反向传播可以包括通过时间执行截断的反向传播。模型训练器160可以执行许多泛化技术(例如体重衰减、暂退(dropouts)等),以提高正在训练的模型的泛化能力。
特别地,模型训练器160可以基于一组训练数据162来训练机器学习模型120和/或140。训练数据162可以包括例如无约束图像数据,例如“野外”照片。
在一些实施方式中,如果用户提供了同意,则可以由用户计算设备102提供训练示例。因此,在此类实施方式中,向用户计算设备102提供的模型120可以由训练计算系统150根据从用户计算设备102接收的用户特定数据进行训练。在一些情况下,该过程可以称为个性化模型。
模型训练器160包括用于提供期望功能性的计算机逻辑。模型训练器160可以在控制通用处理器的硬件、固件和/或软件中实施。例如,在一些实施方式中,模型训练器160包括存储在存储设备上、加载到存储器中并由一个或多个处理器执行的程序文件。在其它实施方式中,模型训练器160包括一组或多组计算机可执行指令,这些指令存储在有形计算机可读存储介质(例如RAM硬盘或光学或磁介质)中。
网络180可以是任何类型的通信网络,例如局域网(例如内联网)、广域网(例如因特网)或它们的组合,并且可以包括任何数量的有线或无线链路。通常,网络180上的通信可以通过任何类型的有线和/或无线连接进行,使用各种通信协议(例如,TCP/IP、HTTP、SMTP、FTP)、编码或格式(例如,HTML、XML)和/或保护方案(例如,VPN、安全HTTP、SSL)。
图5A说明了可以用于实施本公开的一个示例计算系统。也可以使用其它计算系统。例如,在一些实施方式中,用户计算设备102可以包括模型训练器160和训练数据集162。在此类实施方式中,模型120可以在用户计算设备102本地训练和使用。在一些此类实施方式中,用户计算设备102可以实施模型训练器160,以基于用户特定数据个性化模型120。
图5B描绘了根据本公开的示例实施例执行的示例计算设备10的框图。计算设备10可以是用户计算设备或服务器计算设备。
计算设备10包括多个应用(例如应用1到N)。每个应用都包含自己的机器学习库和机器学习模型。例如,每个应用可以包括机器学习模型。示例应用包括文本消息应用、电子邮件应用、听写应用、虚拟键盘应用、浏览器应用等。
如图5B所示,每个应用可以与计算设备的许多其它组件通信,例如,一个或多个传感器、场境管理器、设备状态组件和/或附加组件。在一些实施方式中,每个应用可以使用API(例如公共API)与每个设备组件通信。在一些实施方式中,每个应用使用的API都是特定于该应用的。
图5C描绘了根据本公开的示例实施例执行的示例计算设备50的框图。计算设备50可以是用户计算设备或服务器计算设备。
计算设备50包括多个应用(例如应用1到N)。每个应用都与中央智能层通信。示例应用包括文本消息应用、电子邮件应用、听写应用、虚拟键盘应用、浏览器应用等。在一些实施方式中,每个应用可以使用API(例如,所有应用的通用API)与中央智能层(以及存储在其中的模型)通信。
中央智能层包括许多机器学习模型。例如,如图5C所示,可以为每个应用提供相应的机器学习模型(例如模型),并且由中央智能层管理。在其它实施方式中,两个或更多个应用可以共享单个机器学习模型。例如,在一些实施方式中,中央智能层可以为所有应用提供单个模型(例如单个模型)。在一些实施方式中,中央智能层包括在计算设备50的操作系统内或以其它方式由计算设备50的操作系统实施。
中央智能层可以与中央设备数据层通信。中央设备数据层可以是计算设备50的数据集中存储库。如图5C所示,中央设备数据层可以与计算设备的许多其它组件通信,例如,一个或多个传感器、场境管理器、设备状态组件和/或附加组件。在一些实施方式中,中央设备数据层可以使用API(例如公共API)与每个设备组件通信。
附加公开内容
本文讨论的技术参考了服务器、数据库、软件应用和其它基于计算机的系统,以及所采取的行动和从这些系统发送的信息。基于计算机的系统的固有灵活性允许各种可能的配置、组合以及组件之间的任务和功能性划分。例如,本文讨论的过程可以使用单个设备或组件或组合工作的多个设备或组件来实施。数据库和应用可以在单个系统上实施,也可以分布在多个系统上。分布式组件可以顺序或并行运行。
虽然本发明主题已经关于其各种具体示例实施例进行了详细描述,但每个示例都是通过解释而非限制本公开的方式提供的。本领域技术人员在理解上述内容后,可以容易地对此类实施例进行修改、变化和等效。因此,主题公开不排除对本发明主题的修改、变化和/或添加,这对于本领域普通技术人员来说是显而易见的。例如,作为一个实施例的一部分说明或描述的特征可以与另一实施例一起使用,以产生另一个实施例。因此,本公开旨在涵盖此类变更、变化和等效内容。

Claims (21)

1.一种用于生成场景的合成图像的计算系统,所述计算系统包括:
一个或多个处理器;以及
一个或多个非暂时性计算机可读介质,所述一个或多个非暂时性计算机可读介质共同存储:
机器学习视图合成模型,所述机器学习视图合成模型包括基础部分、对所述场景内的静态内容进行建模的静态内容部分和对所述场景内的瞬态内容进行建模的瞬态内容部分;以及
指令,所述指令当由所述一个或多个处理器执行时使所述计算系统执行操作,所述操作包括:
获得三维空间内的位置;
用所述机器学习视图合成模型的基础部分处理描述所述位置的数据,以生成静态不透明度和潜在表示;
用所述机器学习视图合成模型的静态内容部分处理所述潜在表示,以生成静态颜色;
用所述机器学习视图合成模型的瞬态内容部分处理所述潜在表示,以生成瞬态不透明度和瞬态颜色;以及
执行体积渲染,以根据所述静态不透明度、所述静态颜色、所述瞬态不透明度和所述瞬态颜色来生成合成图像的合成像素的合成像素颜色。
2.根据前述权利要求中的任一项所述的计算系统,其中:
三维空间内的所述位置包括与现有训练图像相关联的捕获位置;以及
所述操作还包括:
评估损失函数,所述损失函数将所述合成像素颜色与包括在所述现有训练图像中的训练像素的真实值像素颜色进行比较;以及
至少部分地基于所述损失函数来修改所述机器学习视图合成模型的一个或多个参数的一个或多个参数值。
3.根据权利要求2所述的计算系统,其中:
所述用所述机器学习视图合成模型的瞬态内容部分处理所述潜在表示进一步生成不确定性值;并且
所述损失函数包括像素损失项,所述像素损失项影响在损失幅度与所述不确定性值之间的负相关性。
4.根据前述权利要求中的任一项所述的计算系统,其中,所述操作还包括:
将不确定性嵌入与所述潜在表示一起输入到所述机器学习视图合成模型的瞬态内容部分中,以生成所述瞬态不透明度和所述瞬态颜色。
5.根据权利要求2、3或4所述的计算系统,其中,所述操作还包括:
将生成嵌入与所述潜在表示一起输入到所述机器学习视图合成模型的静态内容部分中,以生成所述静态颜色。
6.根据权利要求5所述的计算系统,其中:
所述生成嵌入与所述现有训练图像相关联;并且
所述操作还包括:至少部分地基于所述损失函数来修改所述生成嵌入的一个或多个值。
7.根据权利要求2至6中的任一项所述的计算系统,其中,所述操作还包括:
将一个或多个相机参数与所述位置一起输入到所述机器学习视图合成模型的基础部分中,以生成所述静态不透明度和所述潜在表示;以及
至少部分地基于所述损失函数来修改所述相机参数中的一个或多个。
8.根据前述权利要求中的任一项所述的计算系统,其中,所述计算系统针对所述合成图像中的每个相应像素执行每个所述操作。
9.根据前述权利要求中的任一项所述的计算系统,其中,所述位置包括位所和定向。
10.根据权利要求1、8或9所述的计算系统,其中,所述位置包括新位置,所述新位置没有被包括在所述机器学习视图合成模型已经训练的训练集中。
11.根据前述权利要求中的任一项所述的计算系统,其中,所述机器学习视图合成模型的基础部分、静态内容部分和瞬态内容部分中的每一个包括相应多层感知器。
12.一种用于具有用户可指定特性的视图合成的计算机实施的方法,所述方法包括:
由包括一个或多个计算设备的计算系统获得三维空间内的期望位置和用户指定的生成嵌入,其中,所述生成嵌入将要生成的合成图像的一个或多个视觉特性编码;
由所述计算系统用机器学习视图合成模型的基础部分处理描述所述位置的数据,以生成不透明度和潜在表示;
由所述计算系统用所述机器学习视图合成模型的内容部分处理所述潜在表示和所述生成嵌入,以生成颜色;以及
由所述计算系统执行体积渲染,以根据所述不透明度和所述颜色来生成所述合成图像的合成像素的合成像素颜色,其中,所述合成图像呈现由所述生成嵌入所编码的所述一个或多个视觉特性。
13.根据权利要求12所述的计算机实施的方法,其中:
由所述基础部分所生成的所述不透明度包括静态不透明度;并且
由所述计算系统用所述机器学习视图合成模型的内容部分处理所述潜在表示和所述生成嵌入以生成所述颜色包括:
由所述计算系统用所述机器学习视图合成模型的静态内容部分处理所述潜在表示和所述生成嵌入,以生成静态颜色;以及
由所述计算系统用所述机器学习视图合成模型的瞬态内容部分处理所述潜在表示,以生成瞬态不透明度和瞬态颜色;以及由所述计算系统执行体积渲染以根据所述不透明度和所述颜色来生成所述合成图像的合成像素的合成像素颜色包括:由所述计算系统执行体积渲染,以根据所述静态不透明度、所述静态颜色、所述瞬态不透明度和所述瞬态颜色来生成所述合成图像的合成像素的合成像素颜色。
14.根据权利要求13所述的计算机实施的方法,还包括:
由所述计算系统将不确定性嵌入与所述潜在表示一起输入到所述机器学习视图合成模型的瞬态内容部分中,以生成所述瞬态不透明度和所述瞬态颜色。
15.根据权利要求12至14中的任一项所述的计算机实施的方法,其中,所述生成嵌入包括内插嵌入,所述内插嵌入是通过内插与用户选择的两个或更多个现有图像相关联的相应图像嵌入而生成的。
16.共同存储指令的一个或多个非暂时性计算机可读介质,所述指令当由一个或多个处理器执行时使计算系统执行操作,所述操作包括:
由所述计算系统获得三维空间内的位置和与现有训练图像相关联的训练嵌入,其中,所述训练嵌入将所述现有训练图像的一个或多个视觉特性编码;
由所述计算系统用机器学习视图合成模型的基础部分处理描述所述位置的数据,以生成不透明度和潜在表示;
由所述计算系统用所述机器学习视图合成模型的内容部分处理所述潜在表示和所述训练嵌入,以生成颜色;以及
由所述计算系统执行体积渲染,以根据所述不透明度和所述颜色来生成合成图像的合成像素的合成像素颜色;
评估损失函数,所述损失函数将所述合成像素颜色与包括在所述现有训练图像中的训练像素的真实值像素颜色进行比较;以及
至少部分地基于所述损失函数来修改所述训练嵌入的一个或多个值。
17.根据权利要求16所述的一个或多个非暂时性计算机可读介质,其中:
由所述基础部分所生成的所述不透明度包括静态不透明度;并且
由所述计算系统用所述机器学习视图合成模型的内容部分处理所述潜在表示和所述训练嵌入以生成所述颜色包括:
由所述计算系统用所述机器学习视图合成模型的静态内容部分处理所述潜在表示和所述训练嵌入,以生成静态颜色;以及
由所述计算系统用所述机器学习视图合成模型的瞬态内容部分处理所述潜在表示,以生成瞬态不透明度和瞬态颜色;以及由所述计算系统执行体积渲染以根据所述不透明度和所述颜色来生成所述合成图像的合成像素的合成像素颜色包括:由所述计算系统执行体积渲染,以根据所述静态不透明度、所述静态颜色、所述瞬态不透明度和所述瞬态颜色来生成所述合成图像的合成像素的合成像素颜色。
18.根据权利要求17所述的一个或多个非暂时性计算机可读介质,其中:
所述用所述机器学习视图合成模型的瞬态内容部分处理所述潜在表示进一步生成不确定性值;并且
所述损失函数包括像素损失项,所述像素损失项影响在损失幅度与所述不确定性值之间的负相关性。
19.根据权利要求16至18中的任一项所述的一个或多个非暂时性计算机可读介质,其中,所述操作还包括:
将与捕获所述现有训练图像的相机相关联的一个或多个相机参数与所述位置一起输入到所述机器学习视图合成模型的基础部分中,以生成所述不透明度和所述潜在表示;以及
至少部分地基于所述损失函数来修改所述相机参数中的一个或多个。
20.共同存储指令的一个或多个非暂时性计算机可读介质,所述指令当由一个或多个处理器执行时使计算系统执行操作,所述操作包括:
由所述计算系统获得三维空间内的位置和与现有训练图像相关联的一个或多个相机参数;
由所述计算系统用机器学习视图合成模型的基础部分处理描述所述位置的数据和所述一个或多个相机参数,以生成不透明度和潜在表示;
由所述计算系统用所述机器学习视图合成模型的内容部分处理所述潜在表示,以生成颜色;以及
由所述计算系统执行体积渲染,以根据所述不透明度和所述颜色来生成合成图像的合成像素的合成像素颜色;
评估损失函数,所述损失函数将所述合成像素颜色与包括在所述现有训练图像中的训练像素的真实值像素颜色进行比较;以及
至少部分地基于所述损失函数来修改所述相机参数的一个或多个值。
21.一种用于生成场景的合成图像的计算系统,所述计算系统包括:
一个或多个处理器;以及
一个或多个非暂时性计算机可读介质,所述一个或多个非暂时性计算机可读介质共同存储:
机器学习视图合成模型,所述机器学习视图合成模型包括基础部分和对所述场景内的静态内容进行建模的静态内容部分,其中,所述基础部分和所述静态部分已经与对所述场景内的瞬态内容进行建模的瞬态内容部分联合训练;以及
指令,所述指令当由所述一个或多个处理器执行时使所述计算系统执行操作,所述操作包括:
获得三维空间内的位置;
用所述机器学习视图合成模型的基础部分处理描述所述位置的数据,以生成静态不透明度和潜在表示;
用所述机器学习视图合成模型的静态内容部分处理所述潜在表示,以生成静态颜色;以及
执行体积渲染,以根据所述静态不透明度和所述静态颜色来生成合成图像的合成像素的合成像素颜色。
CN202180046527.6A 2020-07-31 2021-07-29 对无约束图像数据具有鲁棒性的视图合成 Pending CN115735230A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US202063059322P 2020-07-31 2020-07-31
US63/059,322 2020-07-31
PCT/US2021/043680 WO2022026692A1 (en) 2020-07-31 2021-07-29 View synthesis robust to unconstrained image data

Publications (1)

Publication Number Publication Date
CN115735230A true CN115735230A (zh) 2023-03-03

Family

ID=77448063

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202180046527.6A Pending CN115735230A (zh) 2020-07-31 2021-07-29 对无约束图像数据具有鲁棒性的视图合成

Country Status (6)

Country Link
US (3) US11308659B2 (zh)
EP (1) EP4154220A1 (zh)
JP (1) JP2023543538A (zh)
KR (1) KR20230044148A (zh)
CN (1) CN115735230A (zh)
WO (1) WO2022026692A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116129030A (zh) * 2023-04-18 2023-05-16 湖南马栏山视频先进技术研究院有限公司 一种基于神经辐射场的场景物体融合方法及装置

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022026692A1 (en) * 2020-07-31 2022-02-03 Google Llc View synthesis robust to unconstrained image data
US20220239844A1 (en) * 2021-01-27 2022-07-28 Facebook Technologies, Llc Neural 3D Video Synthesis
US12039657B2 (en) * 2021-03-17 2024-07-16 Adobe Inc. View synthesis of a dynamic scene
US20220335636A1 (en) * 2021-04-15 2022-10-20 Adobe Inc. Scene reconstruction using geometry and reflectance volume representation of scene
US20230410339A1 (en) * 2022-06-13 2023-12-21 Koninklijke Philips N.V. Generating views of skin lesions for improved remote evaluation
CN115082639B (zh) * 2022-06-15 2023-06-27 北京百度网讯科技有限公司 图像生成方法、装置、电子设备和存储介质
WO2024007182A1 (zh) * 2022-07-06 2024-01-11 北京原创力科技有限公司 静态NeRF模型与动态NeRF模型融合的视频渲染方法及系统
CN116385643B (zh) * 2023-04-03 2024-02-13 北京百度网讯科技有限公司 虚拟形象生成、模型的训练方法、装置及电子设备

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10706890B2 (en) * 2017-08-24 2020-07-07 Intel Corporation Cinematic space-time view synthesis for enhanced viewing experiences in computing environments
US10547823B2 (en) * 2018-09-25 2020-01-28 Intel Corporation View interpolation of multi-camera array images with flow estimation and image super resolution using deep learning
US11252392B2 (en) * 2019-02-22 2022-02-15 Avalon Holographies Inc. Layered scene decomposition CODEC with layered depth imaging
US11017586B2 (en) * 2019-04-18 2021-05-25 Adobe Inc. 3D motion effect from a 2D image
US11030772B2 (en) * 2019-06-03 2021-06-08 Microsoft Technology Licensing, Llc Pose synthesis
GB202009058D0 (en) * 2020-06-15 2020-07-29 Microsoft Technology Licensing Llc Computing images of dynamic scenes
WO2022026692A1 (en) * 2020-07-31 2022-02-03 Google Llc View synthesis robust to unconstrained image data
US20210004969A1 (en) * 2020-09-23 2021-01-07 Intel Corporation Multi-level optical flow estimation framework for stereo pairs of images based on spatial partitioning
KR20240131368A (ko) * 2022-01-03 2024-08-30 스냅 인코포레이티드 이미지 재렌더링을 위한 객체-중심 뉴럴 분해

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116129030A (zh) * 2023-04-18 2023-05-16 湖南马栏山视频先进技术研究院有限公司 一种基于神经辐射场的场景物体融合方法及装置

Also Published As

Publication number Publication date
KR20230044148A (ko) 2023-04-03
US20220237834A1 (en) 2022-07-28
US11704844B2 (en) 2023-07-18
JP2023543538A (ja) 2023-10-17
US11308659B2 (en) 2022-04-19
WO2022026692A1 (en) 2022-02-03
US12100074B2 (en) 2024-09-24
US20220036602A1 (en) 2022-02-03
US20230306655A1 (en) 2023-09-28
EP4154220A1 (en) 2023-03-29

Similar Documents

Publication Publication Date Title
CN115735230A (zh) 对无约束图像数据具有鲁棒性的视图合成
CN110084874B (zh) 对于三维模型的图像风格迁移
US11328523B2 (en) Image composites using a generative neural network
US11335120B2 (en) Face reconstruction from a learned embedding
CN110140147B (zh) 具有深度学习的视频帧合成
US10936909B2 (en) Learning to estimate high-dynamic range outdoor lighting parameters
US20180260668A1 (en) Harmonizing composite images using deep learning
CN115735227A (zh) 反转用于姿态估计的神经辐射场
TW202336694A (zh) 用於影像濾波器的整合式機器學習演算法
US11688109B2 (en) Generating differentiable procedural materials
US11734888B2 (en) Real-time 3D facial animation from binocular video
US20230360181A1 (en) Machine Learning for High Quality Image Processing
US20230342890A1 (en) High Resolution Inpainting with a Machine-learned Augmentation Model and Texture Transfer
EP4298592A1 (en) Photo relighting and background replacement based on machine learning models
KR102722710B1 (ko) 개선된 3d 모델 생성을 위한 딥러닝 모델 생성 방법, 서버 및 컴퓨터 프로그램
Mirbauer et al. SkyGAN: Realistic Cloud Imagery for Image‐based Lighting
US20240320912A1 (en) Optimizing Generative Machine-Learned Models for Subject-Driven Text-to-3D Generation
US20230394734A1 (en) Generating Machine-Learned Inverse Rig Models
US20240362815A1 (en) Generating modified two-dimensional images by customizing focal points via three-dimensional representations of the two-dimensional images
WO2024080984A1 (en) Text-driven color manipulation of real images
EP4292047A1 (en) Systems and methods for identifying and extracting object-related effects in videos
Yu et al. Staged Transformer Network with Color Harmonization for Image Outpainting
WO2024123989A1 (en) Neural radiance field models with improved robustness against distractor objects

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination