CN118247415A

CN118247415A - 图像处理方法和装置

Info

Publication number: CN118247415A
Application number: CN202311647833.2A
Authority: CN
Inventors: 河仁友; 姜纳硖; 俞贤升
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2022-12-23
Filing date: 2023-12-04
Publication date: 2024-06-25
Also published as: US20240212089A1; EP4394712A1; KR20240101117A

Abstract

提供了一种图像处理方法和装置。处理器实现的方法包括：通过基于第一变化数据变形第一时间点的第一重建图像帧，生成变形图像帧，其中第一变化数据对应于第一时间点的第一渲染图像帧与不同于第一时间点的第二时间点的第二渲染图像帧之间的变化；基于第二渲染图像帧和变形图像帧使用神经重建模型，生成对第二时间点的第二重建图像帧和第二重建图像帧的像素的置信分数加以表示的置信图；以及通过基于置信图对第三时间点的第三渲染图像帧的多个像素中的每个像素进行光线追踪，生成第三渲染图像帧，其中第三时间点不同于第一时间点和第二时间点。

Description

图像处理方法和装置

相关申请的交叉引用

本申请要求2022年12月23日在韩国知识产权局递交的韩国专利申请No.10-2022-0183446的权益，其全部公开内容通过引用合并于此以用于所有目的。

技术领域

以下描述涉及图像处理的方法和装置。

背景技术

三维(3D)渲染在图像处理中将3D场景渲染成二维(2D)图像。可以在这样的图像处理中训练和使用神经网络。

发明内容

提供本发明内容以用简化形式介绍对下面在具体实施方式中进一步描述的构思的选择。本发明内容不意在标识所请求保护的主题的关键特征或基本特征，也不意在帮助确定所请求保护的主题的范围。

在一个总体方面，一种处理器实现的方法包括：通过基于第一变化数据变形第一时间点的第一重建图像帧，生成变形图像帧，其中第一变化数据对应于第一时间点的第一渲染图像帧与不同于第一时间点的第二时间点的第二渲染图像帧之间的变化；基于第二渲染图像帧和变形图像帧使用神经重建模型，生成对第二时间点的第二重建图像帧和第二重建图像帧的像素的置信分数加以表示的置信图；以及通过基于置信图对第三时间点的第三渲染图像帧的多个像素中的每个像素进行光线追踪，生成第三渲染图像帧，其中第三时间点不同于第一时间点和第二时间点。

生成第三渲染图像帧可以包括：通过基于第二变化数据变形置信图来生成变形图，第二变化数据表示第二渲染图像帧与第三渲染图像帧之间的变化；基于变形图使用神经采样图生成模型来生成采样图，该采样图指定第三渲染图像帧的每个像素的相应采样数；以及通过根据采样图的相应采样数执行光线追踪以生成第三渲染图像帧的每个像素，来渲染第三渲染图像帧。

变形图可以包括第三渲染图像帧的每个像素的相应置信分数。

神经采样图生成模型可以基于变形图的相应置信分数来指定第三渲染图像帧的每个像素的相应采样数。

变形图可以包括与第三渲染图像帧的第一像素相对应的第一置信分数以及与第三渲染图像帧的第二像素相对应的第二置信分数，并且其中使用神经采样图生成模型可以包括：在第一置信分数小于第二置信分数的情况下，神经采样图生成模型为第一像素分配相应采样数中的第一采样数，第一采样数大于相应采样数中的由神经采样图生成模型为第二像素分配的第二采样数。

例如，相应采样数的最大值或平均值可以受到预设阈值的限制。

使用神经采样图生成模型生成采样图可以包括：向神经采样图生成模型输入与第三渲染图像帧相对应的附加信息，附加信息包括深度图、法线图和反照率图中的至少一部分。

第一变化数据可以包括第一渲染图像帧与第二渲染图像帧之间的对应像素的运动矢量。

神经重建模型可以包括神经自动编码器，该神经自动编码器包括神经编码器和神经解码器。

神经重建模型通过以下操作来确定与输入到神经重建模型的图像帧相比具有更少伪影和更高分辨率的输出图像帧：基于针对所输入的图像帧的去噪和超采样，重建图像帧。

第一重建图像帧可以是通过基于第一渲染图像帧使用神经重建模型来生成的。

例如，一种存储指令的非暂时性计算机可读存储介质，该指令在由处理器执行时使处理器执行上述方法。

在另一个总体方面，一种计算装置包括：处理器，被配置为执行指令；以及存储器，存储指令，其中，所述处理器对所述指令的执行将所述处理器配置为：通过基于第一变化数据变形第一时间点的第一重建图像帧，生成变形图像帧，其中第一变化数据表示第一时间点的第一渲染图像帧与不同于第一时间点的第二时间点的第二渲染图像帧之间的变化；基于第二渲染图像帧和变形图像帧使用神经重建模型，生成对第二时间点的第二重建图像帧和第二重建图像帧的像素的置信分数加以表示的置信图；以及通过基于置信图对第三时间点的第三渲染图像帧的多个像素中的每个像素进行光线追踪，生成第三渲染图像帧，其中第三时间点不同于第一时间点和第二时间点。

为了生成第三渲染图像帧，处理器可以被配置为：通过基于第二变化数据变形置信图来生成变形图，第二变化数据表示第二渲染图像帧与第三渲染图像帧之间的变化；基于变形图使用神经采样图生成模型来生成采样图，该采样图指定第三渲染图像帧的每个像素的相应采样数；以及通过根据采样图的相应采样数针对第三渲染图像帧的每个像素执行光线追踪，来渲染第三渲染图像帧。

变形图可以包括与第三渲染图像帧的每个像素相对应的相应置信分数，并且其中，神经采样图生成模型可以基于变形图的相应置信分数来指定第三渲染图像帧的每个像素的相应采样数。

变形图可以包括与第三渲染图像帧的第一像素相对应的第一置信分数以及与第三渲染图像帧的第二像素相对应的第二置信分数，并且使用神经采样图生成模型可以包括：在第一置信分数小于第二置信分数的情况下，神经采样图生成模型为第一像素分配相应采样数中的第一采样数，第一采样数大于相应采样数中的由神经采样图生成模型为第二像素分配的第二采样数。

在该装置中，相应采样数的最大值或平均值可以受到预设阈值的限制。

在另一个总体方面，一种电子设备包括：处理器，被配置为：通过基于第一变化数据变形第一时间点的第一重建图像帧，生成变形图像帧，其中第一变化数据表示第一时间点的第一渲染图像帧与不同于第一时间点的第二时间点的第二渲染图像帧之间的变化；基于第二渲染图像帧和变形图像帧使用神经重建模型，生成对第二时间点的第二重建图像帧和第二重建图像帧的像素的置信分数加以表示的置信图；通过基于第二变化数据变形置信图来生成变形图，第二变化数据对应于第二渲染图像帧与第三时间点的第三渲染图像帧之间的变化，第三时间点不同于第一时间点和第二时间点；基于变形图使用神经采样图生成模型来生成采样图，采样图指定第三渲染图像帧的多个像素的每个像素的相应采样数；以及根据采样图的相应采样数对第三渲染图像帧的多个像素中的每个像素执行相应的一个或多个光线追踪，来渲染第三渲染图像帧。

变形图可以包括与第三渲染图像帧的多个像素的每个像素相对应的相应置信分数，并且其中，神经采样图生成模型基于变形图的相应置信分数来指定相应采样数。

该电子设备还可以包括：显示器，被配置为根据第一重建图像帧和第二重建图像帧显示输出图像，其中，变形图可以包括与第三渲染图像帧的第一像素相对应的第一置信分数以及与第三渲染图像帧的第二像素相对应的第二置信分数，并且其中使用神经采样图生成模型可以包括：在第一置信分数小于第二置信分数的情况下，神经采样图生成模型为第一像素分配相应采样数中的第一采样数，第一采样数大于相应采样数中的由神经采样图生成模型为第二像素分配的第二采样数。

其他特征和方面将通过以下详细描述、附图和权利要求变得清楚明白。

附图说明

图1示出了现有的基于光线追踪的渲染过程的示例。

图2示出了根据一个或多个实施例的使用神经采样图生成模型和神经重建模型的示例图像处理过程。

图3A至图3D分别示出了根据一个或多个实施例的针对每个时间点的神经采样图生成模型和神经重建模型的示例操作。

图4示出了根据一个或多个实施例的置信图、采样图和渲染图像的示例。

图5示出了根据一个或多个实施例的神经采样图生成模型和神经重建模型的示例训练过程。

图6A和图6B分别示出了根据一个或多个实施例的图像处理的示例方法。

图7示出了根据一个或多个实施例的具有图像处理功能的示例装置。

图8示出了根据一个或多个实施例的示例电子设备。

在整个附图和详细描述中，除非另有描述或提供，否则相同的附图标记可以被理解为指代相同或类似的元件、特征以及结构。附图可以不按比例绘制，并且为了清楚、说明和方便，可以扩大附图中元件的相对尺寸、比例和描绘。

具体实施方式

提供以下详细描述以帮助读者获得对本文描述的方法、装置和/或系统的全面理解。然而，在理解了本申请的公开之后，本文中描述的方法、装置和/或系统的各种改变、修改和等同物将是显而易见的。例如，本文中描述的操作顺序仅仅是示例，并且不限于在本文中阐述的那些操作顺序，而是可以在理解本申请的公开之后明显改变，除了必须以一定顺序进行的操作之外。此外，在理解了本申请的公开内容之后，为了更加清晰和简洁，可以省略对已知特征的描述。

本文描述的特征可以以不同形式来实施，并且不应被解释为限于本文描述的示例。相反，提供本文中描述的示例仅仅是为了说明实现本文中描述的方法、装置和/或系统的许多可行方式中的一些，在理解本申请的公开之后这些方式将显而易见。此处关于示例或实施例使用术语“可以”(例如，关于示例或实施例可以包括或实现什么)意味着存在至少一个示例或实施例，其中包括或实现了这样的特征，但是所有示例不限于此。

本文中使用的术语仅用于描述各种示例，而不用于限制本公开。除非上下文另外明确指示，否则冠词“一”、“一个”和“该”也意在包括复数形式。作为非限制性示例，术语“包括”或“包含”和“具有”表示存在所阐述的特征、数量、操作、构件、元件和/或其组合，但不排除一个或多个其他特征、数量、操作、构件、元件和/或其组合的存在或添加，或者替代性陈述的特征、数量、操作、构件、元件和/或其组合的替代存在。此外，虽然一个实施例可以阐述这样的术语“包括”或“包含”以及“具有”指定所陈述的特征、数字、操作、构件、元件和/或其组合的存在，但是还可以存在其他实施例，在这些实施例中所陈述的特征、数字、操作、构件、元件和/或其组合中的一个或多个并不存在。

如本文中所使用的，术语“和/或”包括关联列出的项目中的任何一个和任何两个或更多个的任何组合。短语“A、B和C中的至少一个”、“A、B或C中的至少一个”等意在具有分离含义，并且这些短语“A、B和C中的至少一个、“A、B或C中的至少一个”等还包括如下示例，即，除非对应的描述和实施例需要将这种列表(例如，“A、B和C中的至少一个”)解释为具有联合含义，否则可以存在A、B和/或C中的每一个的一个或多个(例如，A、B和C中的每一个的一个或多个的任意组合)。

贯穿说明书，当组件或元件被描述为“连接到”、“耦接到”、或“接合到”另一组件或元件时，它可以直接地“连接到”、“耦接到”、或“接合到”其他组件或元件，或者可以合理地存在介于其间的一个或多个其他组件或元件。当组件或元件被描述为“直接连接到”、“直接耦接到”、或“直接接合到”另一组件或元件时，可以不存在介于其间的其他元件。同样地，例如，也可以如前所述来解释“在...之间”和“直接在......之间”、以及“与......相邻”和“与......紧邻”。应当理解，如果提及组件(无论是否使用了术语“可操作地”或“通信地”)“与...耦接”、“耦接到”、“与...连接”或“连接到”另一组件(例如，第二组件),这意味着该组件可以直接(例如，有线)、无线或通过第三组件与该另一组件耦接。

尽管本文中可以使用诸如“第一”、“第二”和“第三”、或者A、B、(a)、(b)之类的术语来描述各种构件、组件、区域、层或部分，但是这些构件、组件、区域、层或部分不受这些术语的限制。例如，这些术语中的每一个都不用于限定对应的构件、组件、区域、层或部分的本质、顺序或序列，而是仅用于将对应的构件、组件、区域、层或部分与其他构件、组件、区域、层或部分区分开。因此，在不脱离示例的教导的情况下，本文中描述的示例中提及的第一构件、组件、区域、层或部分也可以被称为第二构件、组件、区域、层或部分。

除非另外定义，否则本文使用的所有术语(包括技术术语和科学术语)具有与本公开所属领域的普通技术人员通常所理解的、以及基于对本申请的公开的理解所理解的含义相同的含义。诸如在常用词典中定义的术语应被解释为其含义与在相关技术和/或本申请的公开的上下文中的含义相同，而不应将被解释为理想的或过于正式的含义，除非本文明确如此定义。

在一个或多个实施例中，对于图像处理，神经网络可以基于深度学习被训练以例如映射彼此呈非线性关系的输入数据和输出数据，然后可以用于执行推理操作以达到期望的目的。训练后的执行这种映射的能力可以被称为神经网络的学习能力。

图1示出了现有的基于光线追踪的渲染过程的示例。参照图1，现有的图像处理装置可以基于相机110的视点在三维(3D)空间中对场景对象130执行典型的渲染处理。渲染图像120可以对应于这种渲染过程的渲染结果。3D渲染可以是计算机图形学的一个领域，其对诸如场景对象130的3D场景执行渲染过程，将其转换成诸如渲染图像120的二维(2D)图像。根据典型的渲染过程，场景对象130可以被投影为渲染图像120上的渲染对象121。现有的图像处理装置可以基于使用光线111的光线追踪来表现与渲染对象121相关的光的效果。例如，光的效果可以包括渲染对象121的光反射、渲染对象121与另一对象之间的光反射、以及渲染对象121的阴影。

典型的光线追踪是通过使用从视点到场景对象130的光线111来追踪光路的渲染技术。例如，当通过光线111检测到影响场景对象130的光源140时，可以计算光源140对场景对象130的影响以表现渲染图像120的渲染对象121。渲染对象121的真实感可以根据光线111的多样性而提高。当光线111的数量不足时，渲染图像120中可能会出现伪影。然而，随着光线111的数量增加，典型的光线追踪所需的计算量也可能增加。

根据一个或多个实施例，计算装置可以使用第一机器学习模型(例如，神经采样图生成模型)和第二机器学习模型(例如，神经重建模型)，基于给定数量的光线111来执行期望的或最佳的渲染过程。神经重建模型可以被配置为通过对输入渲染图像执行重建(诸如去噪)来从输入渲染图像中去除伪影。神经采样图生成模型可以被配置为通过使用神经重建模型的输出数据的变形结果来生成采样图。下面还将详细描述使用神经采样图生成模型和神经重建模型进行图像处理的处理器实现的方法。

图2示出了根据一个或多个实施例的使用神经采样图生成模型和神经重建模型进行图像处理的示例方法。参照图2，示例方法可以通过神经采样图生成模型210和神经重建模型230执行图像处理，其中神经采样图生成模型210基于所执行的变形240的变形结果生成采样图211，神经重建模型230基于渲染图像221和所执行的变形250的变形结果生成输出数据231。作为非限制性示例，渲染图像221可以基于采样图211通过渲染220来生成，并且被提供给神经重建模型230。

输出数据231可以包括重建图像和置信图，重建图像和置信图可以通过由神经重建模型230执行的神经重建过程基于渲染图像221来生成。神经重建过程可以包括去噪和/或超采样，并且因此，重建图像可以具有比渲染图像221更少的伪影和/或更高的分辨率。可以通过不同实施例的各种显示设备向用户提供重建图像。

置信图可以表示重建图像的像素的置信分数。重建图像的像素可以包括高置信分数，并且其指的是接近真实(GT)重建的像素。置信图可以包括与置信图的分辨率相对应的置信分数。置信图的分辨率可以与重建图像的分辨率相同或不同。作为非限制性示例，当置信图具有比重建图像低的分辨率时，置信图的一个置信分数可以对应于包括重建图像的多个像素在内的特定区域。

渲染图像221和重建图像各自可以包括多个图像帧。渲染图像221和重建图像的多个相应的图像帧可以利用时间点t来分类。例如，渲染图像221可以包括第一时间点的渲染图像帧、第二时间点的渲染图像帧和第三时间点的渲染图像帧。重建图像可以包括第一时间点的对应重建图像帧、对应第二时间点的重建图像帧和第三时间点的对应重建图像帧。

可以基于变化数据分别执行变形240和变形250。例如，变形240或变形250可以包括基于时间点t-1的图像帧与时间点t的图像帧之间的变化数据的时间点t-1的目标数据的相应映射。变化数据可以包括时间点t-1的图像帧与时间点t的图像帧之间的对应像素的运动矢量。例如，变形240或变形250的变形结果可以被用作时间点t的伪目标数据。作为非限制性示例，伪目标数据可能与目标数据不匹配，但是能够部分地作为目标数据。

例如，变形250可以包括：基于表示第一时间点的渲染图像帧与第二时间点的渲染图像帧之间的变化的第一变化数据来变形第一时间点的重建图像帧。变形250的变形结果可以被称为变形图像帧。神经重建模型230可以基于第二时间点的渲染图像帧和变形图像帧，生成对第二时间点的重建图像帧以及第二时间点的重建图像帧的像素的置信分数加以指示的置信图。

例如，变形240可以包括：基于表示第二时间点的渲染图像帧与第三时间点的渲染图像帧之间的变化的第二变化数据来变形置信图。变形240的变形结果可以被称为变形图。神经采样图生成模型210可以基于变形图生成采样图211。采样图211可以指定第三时间点的渲染图像帧的每个像素的采样数。作为非限制性示例，采样图211可以具有与渲染图像221相同的分辨率。

渲染220可以基于采样图211执行渲染操作/过程。例如，渲染220可以根据采样图211的采样数对第三时间点的渲染图像帧的每个像素进行光线追踪。渲染220可以生成第三时间点的渲染图像帧。作为非限制性示例，渲染220可以对应于包括光线追踪的渲染管线。

然后，可以继续执行基于第三时间点的渲染图像帧的操作。例如，变形250可以包括：基于表示第二时间点的渲染图像帧与第三时间点的渲染图像帧之间的变化的第二变化数据变形第二时间点的重建图像帧，以生成变形图像帧。神经重建模型230可以基于第三时间点的渲染图像帧和变形图像帧，生成对第三时间点的重建图像帧以及第三时间点的重建图像帧的像素的置信分数加以指示的置信图。

作为非限制性示例，神经采样图生成模型210和神经重建模型230各自可以包括神经网络。神经网络可以包括具有多个层的深度神经网络(DNN)。DNN可以包括全连接网络(FCN)、卷积神经网络(CNN)和循环神经网络(RNN)中的任意一种或任意组合。例如，包括在神经网络中的层的至少一部分可以对应于CNN，而该层的另一部分可以对应于FCN。CNN可以称为卷积层，并且FCN可以称为全连接层。作为非限制性示例，神经重建模型230可以配置有包括神经编码器和神经解码器的神经自动编码器。

神经网络可以基于深度学习来训练，然后通过映射彼此呈非线性关系的输入数据和输出数据来执行适合于训练目的的推理操作。深度学习是一种用于解决问题的机器学习技术，诸如从大数据集中进行图像或语音识别。深度学习可以理解为在基于准备好的训练数据训练神经网络时优化问题解决方案以找到能量最小化点的过程。通过深度学习的有监督或无监督学习，可以获得神经网络的结构或与模型相对应的权重，并且输入数据和输出数据可以通过权重彼此映射。当神经网络的宽度和深度足够大时，神经网络可以具有足够的能力来实现预定功能。当通过适当的训练过程来学习足够大量的训练数据时，神经网络可以达到优化的性能。

神经网络可以被表达为被提前训练，其中“提前”意味着在神经网络“启动”之前。神经网络“启动”可以指示神经网络已经准备好进行推理操作。例如，神经网络“启动”可以包括：将神经网络加载到存储器中，和/或在将神经网络加载到存储器中之后将用于推理操作的输入数据提供给或输入到神经网络中。

图3A至图3D分别示出了根据一个或多个实施例的针对每个时间点的神经采样图生成模型和神经重建模型的示例操作。参照图3A，可以基于第一时间点t0的置信图303和变化数据302来执行变形340，例如基于变化数据302来变形第一时间点t0的置信图303，其中变化数据302表示第一时间点t0的渲染图像帧与第二时间点t1的渲染图像帧321之间的变化。因此可以通过变形340来生成变形图341。置信图303可以指示第一时间点t0的重建图像帧304的像素的置信分数。变形图341可以对应于第二时间点t1的伪置信图。

神经采样图生成模型310可以基于变形图341生成第二时间点tl的采样图311。神经采样图生成模型310还可以使用第二时间点t1的附加信息301来生成采样图311。例如，附加信息301可以包括深度图、法线图和反照率图中的至少一部分。因此，可以基于采样图311执行渲染320以生成第二时间点t1的渲染图像帧321。

可以基于第一时间点t0的重建图像帧304和变化数据302来执行变形350，例如基于变化数据302对第一时间点t0的重建图像帧304进行变形，其中变化数据302表示第一时间点t0的渲染图像帧与第二时间点t1的渲染图像帧321之间的变化。因此可以通过变形350来生成第二时间点t1的变形图像帧351。渲染图像帧321和变形图像帧351可以被输入到神经重建模型330。参照图3B，神经重建模型330可以被配置为基于渲染图像帧321和变形图像帧351生成第二时间点t1的置信图331和第二时间点t1的重建图像帧332。

参照图3C，可以基于第二时间点t1的置信图331和变化数据306来执行变形340，其中变化数据306表示第二时间点t1的渲染图像帧与第三时间点t2的渲染图像帧322之间的变化。因此可以通过变形340来生成变形图342。置信图331可以表示第二时间点t1的重建图像帧332的像素的置信分数。变形图342可以对应于第三时间点t2的伪置信图。

神经采样图生成模型310可以被配置为基于变形图342生成第三时间点t2的采样图312。神经采样图生成模型310还可以使用第三时间点t2的附加信息305来生成采样图312。因此，渲染320可以基于采样图312生成第三时间点t2的渲染图像帧322。

可以基于第二时间点t1的重建图像帧332和变化数据306来执行变形350，其中变化数据306表示第二时间点t1的渲染图像帧与第三时间点t2的渲染图像帧322之间的变化。因此，可以通过变形350来生成第三时间点t2的变形图像帧352。渲染图像帧322和变形图像帧352可以被输入到神经重建模型330。参照图3D，神经重建模型330可以被配置为基于渲染图像帧322和变形图像帧352生成第三时间点t2的置信图333和第三时间点t2的重建图像帧334。

图4示出了根据一个或多个实施例的置信图、采样图和渲染图像的示例。参照图4，作为非限制性示例，置信图410的置信分数411可以用于确定采样图420的采样数421。下面对置信图410的描述也可以应用于作为置信图410的变形的变形结果的变形图。作为非限制性示例，置信图410可以具有与采样图420相同的分辨率。具体地，置信图410的分辨率和采样图420的分辨率可以是i×j。例如，置信分数411可以被表达为s_ij，并且采样数421可以被表达为n_ij。

n_ij的值可以根据s_ij的值来确定。例如，s_ij的值可以随着n_ij的值减小而增大。例如，当s₁₁的值小于s₁₂的值时，神经采样图生成模型可以向n₁₁分配大于s₁₂的值。置信分数可以指示由置信分数表示的像素的重建水平。例如，作为非限制性示例，所确定的像素的高置信分数可以指接近GT重建的对应像素。作为非限制性示例，所确定的像素的低置信分数可以指在执行光线追踪以生成渲染图像430时，对应像素需要通过增加该对应像素的光线数量来增加其重建水平。

采样图420的采样数421可以用于确定渲染图像430的像素431的采样点432。采样图420可以具有与渲染图像430相同的分辨率。例如，渲染图像430的分辨率可以是i×j。在这种情况下，渲染图像430的像素431可以被表达为p_ij。可以根据n_ij的值对p_ij进行采样，并且根据该采样确定采样点432。例如，图4的渲染图像430可以对应于其中n₁₁是1、n₁₂是1、n₂₁是0且n₂₂是2的示例。作为非限制性示例，p_ij的采样点432的位置可以被随机确定。

例如，根据采样图420的采样数421的最大值或平均值可以受到预设阈值的限制。像素431的采样数421之和的最大值、像素431的每个采样数421的最大值、或者像素431的采样数421的平均值可以有相应的限制。作为非限制性示例，光线数量越多，光线追踪所需的计算量就越多。可以通过限制与光线数量相对应的采样数421来调整计算量。

例如，可以在这样的限制下训练神经采样图生成模型(例如，图3A至3D中的神经采样图生成模型310)。当不存在这样的限制时，可以将神经采样图生成模型训练为用于增加所有像素431的采样数421。在存在这样的限制的情况下，神经采样图生成模型可以通过如下方式确定采样数421：当置信图410中的对应像素分数具有高置信分数时，可以执行较少的采样操作来对渲染图像430的像素进行渲染，而当置信图410中的对应像素分数在置信图410中具有低置信分数时，可以执行较多的采样操作来对渲染图像430的其他像素进行渲染。例如，当置信图410中存在具有极高置信分数的要渲染的像素时，神经采样图生成模型可以向该像素分配为0(诸如n₂₁)的采样数421。考虑到采样数421之和或采样数421的平均值的最大值的限制，当将采样数0分配给某个像素时，可以分配给剩余像素的采样数可以增加。这种平衡可以在采样数421有限的情况下优化采样数421。

图5示出了根据一个或多个实施例的神经采样图生成模型和神经重建模型的示例训练过程。参照图5，训练中的神经采样图生成模型510可以被配置为基于变形540的结果生成采样图，并且渲染520可以基于训练采样图生成渲染结果。神经重建模型530可以被配置为基于渲染520的渲染结果和变形550的变形结果来生成训练置信图531和训练重建图像帧532。训练中的神经采样图生成模型510和训练中的神经重建模型530可以被训练为用于减少训练重建图像帧532与真实(GT)501之间的差异。例如，训练重建图像帧532与GT 501之间的差异可以用作用来调整训练中的神经采样图生成模型510的参数和/或训练中的神经重建模型530的参数的损失。由于训练中的神经重建模型530的输出除了训练重建图像帧532之外还提供训练中的置信图531，所以训练中的神经采样图生成模型510和训练重建图像帧532都可以通过训练以平衡的方式提高它们各自的性能。

图6A示出了根据一个或多个实施例的图像处理的示例方法。参照图6A，示例方法可以是包括操作610、620和630的处理器实现的方法。这些操作可以由计算装置(图7中)或电子设备(图8中)执行。

在操作610中，计算装置可以通过基于表示第一时间点的渲染图像帧与第二时间点的渲染图像帧之间的变化的第一变化数据变形第一时间点的重建图像帧，生成变形图像帧。在操作620中，计算装置可以通过基于第二时间点的渲染图像帧和变形图像帧执行神经重建模型(例如，神经重建模型230、330或530)，生成对第二时间点的重建图像帧和第二时间点的重建图像帧的像素的置信分数加以指示的置信图。在操作630中，计算装置可以通过基于置信图对第三时间点的渲染图像帧的每个像素执行光线追踪来渲染第三时间点的渲染图像帧。

神经重建模型可以配置有包括神经编码器和神经解码器的神经自动编码器。

例如，神经重建模型可以基于针对输入图像帧的去噪和超采样，生成具有比输入图像帧更少的伪影和更高的分辨率的输出图像帧。

例如，神经重建模型可以基于第一时间点的渲染图像帧生成第一时间点的重建图像帧。

另外，参照图1至图5、图6B、图7和图8提供的描述可以应用于图6A的图像处理方法。

图6B示出了根据一个或多个实施例的图像处理的示例方法。参照图6B，示例方法可以是包括操作631、632和633的处理器实现的方法。示例方法的这些操作可以由计算装置(图7中)或电子设备(图8中)执行。

在操作631中，计算装置可以通过基于表示第二时间点的渲染图像帧与第三时间点的渲染图像帧之间的变化的第二变化数据变形置信图，来生成变形图。在操作632中，计算装置可以通过基于变形图执行神经采样图生成模型(例如，神经采样图生成模型210、310或510)，生成指定第三时间点的渲染图像帧的每个像素的采样数的采样图。在操作633中，计算装置可以通过根据采样图的采样数对第三时间点的渲染图像帧的每个像素执行光线追踪，来渲染第三时间点的渲染图像帧。例如，图6A的操作630可以包括操作631、632和633。

变形图可以包括与第三时间点的渲染图像帧的每个像素相对应的置信分数。

例如，神经采样图生成模型可以基于变形图的置信分数来指定第三时间点的渲染图像帧的每个像素的采样数。

例如，当与第三时间点的渲染图像帧的第一像素相对应的变形图的第一置信分数小于与第三时间点的渲染图像帧的第二像素相对应的变形图的第二置信分数时，神经采样图生成模型可以为第一像素分配大于第二像素的采样数。

根据采样图对第三时间点的渲染图像帧的每个像素的采样数的最大值或平均值可以受到预设阈值的限制。

第一变化数据可以包括第一时间点的渲染图像帧与第二时间点的渲染图像帧之间的适用像素的运动矢量。

例如，操作632可以包括将与第三时间点的渲染图像帧相对应的附加信息输入到神经采样图生成模型，该附加信息包括深度图、法线图和反照率图中的至少一部分。

参照图1至图5、图6A、图7和/或图8提供的描述可以应用于图6B的渲染方法。

图7示出了根据一个或多个实施例的具有图像处理功能的示例装置。参照图7，示例装置可以是计算装置700，其可以包括处理器710和存储器720。例如，计算装置700还可以是图8的电子设备800。存储器720可以连接到处理器710，并且存储可由处理器710执行的指令、要由处理器710计算的数据、或者由处理器710处理过的数据。存储器720可以包括非暂时性计算机可读介质，例如高速随机存取存储器(RAM)、和/或非易失性计算机可读存储介质(例如，一个或多个磁盘存储设备、闪存设备或其他非易失性固态存储器件)。

处理器710可以被配置为执行指令以执行本文描述的操作或方法(包括图1至图6B和图8的操作或方法)中的任何一个或任何组合。例如，处理器710可以通过基于表示第一时间点的渲染图像帧与第二时间点的渲染图像帧之间的变化的第一变化数据变形第一时间点的重建图像帧，来生成变形图像帧。处理器710可以通过基于第二时间点的渲染图像帧和变形图像帧执行神经重建模型，生成对第二时间点的重建图像帧以及第二时间点的重建图像帧的像素的置信分数加以指示的置信图。处理器710可以通过基于置信图对第三时间点的渲染图像帧的每个像素执行光线追踪来渲染第三时间点的渲染图像帧。另外，参照图1至图6B和图8提供的描述可以适用于计算装置700。

图8示出了根据一个或多个实施例的具有图像处理的示例电子设备。参照图8，电子设备800可以包括能够通过通信总线880彼此通信的处理器810、存储器820、相机830、存储设备840、输入设备850、输出设备860、以及网络接口870。作为非限制性示例，电子设备800可以被实现为例如以下中的至少一部分：移动设备，例如移动电话、智能电话、个人数字助理(PDA)、上网本、平板计算机、笔记本电脑等；可穿戴设备，例如智能手表、智能手环、智能眼镜等；家用电器，例如电视机(TV)、智能电视、冰箱等；安全设备，诸如门锁；车辆，诸如自动驾驶车辆、智能车辆等；以及游戏设备，诸如控制台游戏设备、移动游戏设备、虚拟现实(VR)游戏设备、增强现实(AR)游戏设备等。电子设备800可以在结构上和/或功能上包括图7的计算装置700。

处理器810执行用于在电子设备800中执行的功能和指令。例如，处理器810可以处理存储在存储器820或存储设备840中的指令。处理器810可以执行本文描述的操作或方法(包括图1至图7的操作或方法)中的任何一个或任何组合。存储器820可以包括计算机可读存储介质或计算机可读存储设备。存储器820可以存储将由处理器810执行的指令，并且可以在电子设备800执行软件和/或应用程序时存储相关信息。

相机830可以捕获目标对象的照片和/或视频。存储设备840包括计算机可读存储介质或计算机可读存储设备。存储设备840可以比存储器820更长时间地存储更多信息。例如，存储设备840可以包括磁硬盘、光盘、闪存、软盘或本领域已知的其他类型的非易失性存储器。

输入设备850可以以传统的输入方式(通过键盘和鼠标)以及以新的输入方式(诸如触摸输入、语音输入和图像输入)接收来自用户的输入数据。例如，输入设备850可以包括键盘、鼠标、触摸屏、麦克风或检测来自用户的输入数据并将检测到的输入数据发送到电子设备800的任何其他设备。网络接口870可以通过有线或无线网络与外部设备通信。

输出设备860可以基于重建的图像帧显示输出图像。输出设备860可以通过视觉、听觉或触觉通道向用户提供电子设备800的输出图像。输出设备860可以包括例如显示器、触摸屏、扬声器、振动发生器或向用户提供输出图像的任何其他设备。例如，输出设备860可以包括显示设备、3D显示设备、AR显示设备、VR显示设备等。

本文关于图1至图8描述的处理器、存储器、计算装置、电子设备、模型和其他装置、设备和组件由硬件组件实现或代表硬件组件。在适当的情况下可以用于执行本申请中所描述的操作的硬件组件的示例包括控制器、传感器、生成器、驱动器、存储器、比较器、算术逻辑单元、加法器、减法器、乘法器、除法器、积分器、以及被配置为执行本申请中所描述的操作的任何其他电子组件。在其他示例中，用于执行本申请中所描述的操作的一个或多个硬件组件由计算硬件(例如，由一个或多个处理器或计算机)实现。处理器或计算机可以由一个或多个处理元件(例如，逻辑门阵列、控制器和算术逻辑单元、数字信号处理器、微计算机、可编程逻辑控制器、现场可编程门阵列、可编程逻辑阵列、微处理器、或被配置为以定义的方式响应并执行指令以实现期望的结果的任何其他设备或设备的组合)来实现。在一个示例中，处理器或计算机包括(或连接到)存储由处理器或计算机执行的指令或软件的一个或多个存储器。由处理器或计算机实现的硬件组件可以执行指令或软件，例如，操作系统(OS)和在OS上运行的一个或多个软件应用，以执行本申请中描述的操作。硬件组件还可以响应于指令或软件的执行来访问、操纵、处理、创建和存储数据。为了简洁起见，在本申请中描述的示例的描述中可以使用单数术语“处理器”或“计算机”，但是在其他示例中可以使用多个处理器或计算机，或者处理器或计算机可以包括多个处理元件、或多种类型的处理元件、或两者兼有。例如，单个硬件组件或者两个或更多个硬件组件可以由单个处理器、或两个或更多个处理器、或者处理器和控制器来实现。一个或多个硬件组件可以由一个或多个处理器、或处理器和控制器来实现，并且一个或多个其他硬件组件可以由一个或多个其他处理器或另一处理器和另一控制器来实现。一个或多个处理器或者处理器和控制器可以实现单个硬件组件、或者两个或更多个硬件组件。硬件组件可以具有不同的处理配置中的任一种或多种，所述处理配置的示例包括单处理器、独立处理器、并行处理器、单指令单数据(SISD)多处理、单指令多数据(SIMD)多处理、多指令单数据(MISD)多处理、和多指令多数据(MIMD)多处理。

执行本申请描述的操作的图1至图8中示出的方法是由计算硬件来执行的，例如，是由如以上描述而实现的、实施指令或软件以执行本申请所述的操作(通过所述方法实现的操作)的一个或多个处理器或计算机来执行的。例如，单个操作或者两个或更多个操作可以由单个处理器、或者两个或更多个处理器、或者处理器和控制器执行。一个或多个操作可以由一个或多个处理器或者处理器和控制器执行，并且一个或多个其他操作可以由一个或多个其它处理器或者另一处理器和另一控制器执行。一个或多个处理器或者处理器和控制器可以执行单个操作或者两个或更多个操作。

用于控制计算硬件(例如，一个或多个处理器或计算机)以实现硬件组件并执行如上所述的方法的指令或软件可以被编写为计算机程序、代码段、指令或其任何组合，用于单独或共同指示或配置一个或多个处理器或计算机以作为机器或专用计算机操作从而执行由上述硬件组件和方法执行的操作。在一个示例中，指令或软件包括由一个或多个处理器或计算机直接执行的机器代码，例如由编译器产生的机器代码。在另一示例中，指令或软件包括由一个或多个处理器或计算机使用解释器执行的更高级的代码。可以基于附图中所示出的框图和流程图以及本文中使用的对应描述(其公开了用于执行由硬件组件执行的运算和如上所述的方法的算法)，使用任何编程语言来编写指令或软件。

用于控制计算硬件(例如，一个或多个处理器或计算机)实现硬件组件并执行如上所述的方法的指令或软件以及任何相关联的数据、数据文件和数据结构可以被记录、存储或固定在一个或多个非暂时性计算机可读存储介质中或其上。非暂时性计算机可读存储介质的示例包括：只读存储器(ROM)、可编程只读存储器(PROM)、电可擦除可编程只读存储器(EEPROM)、随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、闪存、非易失性存储器、CD-ROM、CD-R、CD+R、CD-RW、CD+RW、DVD-ROM、DVD-R、DVD+R、DVD-RW、DVD+RW、DVD-RAM、BD-ROM、BD-R、BD-R LTH、BD-RE、蓝光或光盘存储器、硬盘驱动器(HDD)、固态驱动器(SSD)、闪存、卡类型的存储器(比如，多媒体卡或微型卡(例如，安全数字(SD)或极限数字(XD)))、磁带、软盘、磁光数据存储设备、光学数据存储设备、硬盘、固态盘以及任何其他设备，所述任何其他设备被配置为以非暂时性方式存储指令或软件以及任何相关数据、数据文件和数据结构，并且向一个或多个处理器或计算机提供指令或软件以及任何相关数据、数据文件和数据结构，使得一个或多个处理器或计算机可以执行所述指令。在一个示例中，指令或软件以及任何相关联的数据、数据文件和数据结构分布在联网的计算机系统上，使得一个或多个处理器或计算机以分布方式存储、访问和执行所述指令和软件以及任何相关联的数据、数据文件和数据结构。

尽管本公开包括特定示例，但是在理解了本申请的公开内容之后将显而易见的是，在不脱离权利要求及其等同物的精神和范围的情况下，可以对这些示例进行形式和细节上的各种改变。本文描述的示例应仅被认为是描述性的，而不是为了限制的目的。每个示例中的特征或方面的描述被认为适用于其他示例中的类似特征或方面。如果所描述的技术以不同的顺序执行和/或如果所描述的系统、架构、设备或电路中的组件以不同的方式组合和/或被其他组件或其等同物替换或补充，也可以实现合适的结果。

因此，除上述公开内容外，本公开内容的范围还可以由权利要求及其等同物来限定，并且在权利书要求及其等同物的范围内的所有变化都被解读为包括在本公开中。

Claims

1.一种处理器实现的方法，包括：

通过基于第一变化数据变形第一时间点的第一重建图像帧，生成变形图像帧，其中所述第一变化数据对应于所述第一时间点的第一渲染图像帧与不同于所述第一时间点的第二时间点的第二渲染图像帧之间的变化；

基于所述第二渲染图像帧和所述变形图像帧使用神经重建模型，生成对所述第二时间点的第二重建图像帧和所述第二重建图像帧的像素的置信分数加以表示的置信图；以及

通过基于所述置信图对第三时间点的第三渲染图像帧的多个像素中的每个像素进行光线追踪，生成所述第三渲染图像帧，其中所述第三时间点不同于所述第一时间点和所述第二时间点。

2.根据权利要求1所述的方法，其中，生成所述第三渲染图像帧包括：

通过基于第二变化数据变形所述置信图来生成变形图，所述第二变化数据表示所述第二渲染图像帧与所述第三渲染图像帧之间的变化；

基于所述变形图使用神经采样图生成模型来生成采样图，所述采样图指定所述第三渲染图像帧的每个像素的相应采样数；以及

通过根据所述采样图的所述相应采样数执行所述光线追踪以生成所述第三渲染图像帧的每个像素，来渲染所述第三渲染图像帧。

3.根据权利要求2所述的方法，其中，所述变形图包括所述第三渲染图像帧的每个像素的相应置信分数。

4.根据权利要求3所述的方法，其中，所述神经采样图生成模型基于所述变形图的所述相应置信分数来指定所述第三渲染图像帧的每个像素的所述相应采样数。

5.根据权利要求3所述的方法，

其中，所述变形图包括与所述第三渲染图像帧的第一像素相对应的第一置信分数以及与所述第三渲染图像帧的第二像素相对应的第二置信分数，并且

使用所述神经采样图生成模型包括：在所述第一置信分数小于所述第二置信分数的情况下，所述神经采样图生成模型为所述第一像素分配所述相应采样数中的第一采样数，所述第一采样数大于所述相应采样数中的由所述神经采样图生成模型为所述第二像素分配的第二采样数。

6.根据权利要求2所述的方法，其中，所述相应采样数的最大值或平均值受到预设阈值的限制。

7.根据权利要求2所述的方法，其中，使用所述神经采样图生成模型生成所述采样图包括：

向所述神经采样图生成模型输入与所述第三渲染图像帧相对应的附加信息，所述附加信息包括深度图、法线图和反照率图中的至少一部分。

8.根据权利要求1所述的方法，其中，所述第一变化数据包括所述第一渲染图像帧与所述第二渲染图像帧之间的对应像素的运动矢量。

9.根据权利要求1所述的方法，其中，所述神经重建模型包括神经自动编码器，所述神经自动编码器包括神经编码器和神经解码器。

10.根据权利要求1所述的方法，其中，所述神经重建模型通过以下操作来确定与输入到所述神经重建模型的图像帧相比具有更少伪影和更高分辨率的输出图像帧：基于针对所输入的图像帧的去噪和超采样，重建所述图像帧。

11.根据权利要求1所述的方法，其中，所述第一重建图像帧是通过基于所述第一渲染图像帧使用所述神经重建模型来生成的。

12.一种存储指令的非暂时性计算机可读存储介质，所述指令在由处理器执行时使所述处理器执行权利要求1所述的方法。

13.一种计算装置，包括：

处理器，被配置为执行指令；以及

存储器，存储所述指令，

其中，所述处理器对所述指令的执行将所述处理器配置为：

通过基于第一变化数据变形第一时间点的第一重建图像帧，生成变形图像帧，其中所述第一变化数据表示所述第一时间点的第一渲染图像帧与不同于所述第一时间点的第二时间点的第二渲染图像帧之间的变化；

14.根据权利要求13所述的计算装置，其中，为了生成所述第三渲染图像帧，所述处理器被配置为：

通过根据所述采样图的所述相应采样数针对所述第三渲染图像帧的每个像素执行光线追踪，来渲染所述第三渲染图像帧。

15.根据权利要求14所述的计算装置，

其中，所述变形图包括与所述第三渲染图像帧的每个像素相对应的相应置信分数，并且

其中，所述神经采样图生成模型基于所述变形图的所述相应置信分数来指定所述第三渲染图像帧的每个像素的所述相应采样数。

16.根据权利要求15所述的计算装置，

17.根据权利要求14所述的计算装置，其中，所述相应采样数的最大值或平均值受到预设阈值的限制。

18.一种电子设备，包括：

处理器，被配置为：

基于所述第二渲染图像帧和所述变形图像帧使用神经重建模型，生成对所述第二时间点的第二重建图像帧和所述第二重建图像帧的像素的置信分数加以表示的置信图；

通过基于第二变化数据变形所述置信图来生成变形图，所述第二变化数据对应于所述第二渲染图像帧与第三时间点的第三渲染图像帧之间的变化，所述第三时间点不同于所述第一时间点和所述第二时间点；

基于所述变形图使用神经采样图生成模型来生成采样图，所述采样图指定所述第三渲染图像帧的多个像素中的每个像素的相应采样数；以及

根据所述采样图的所述相应采样数对所述第三渲染图像帧的所述多个像素中的每个像素执行相应的一个或多个光线追踪，来渲染所述第三渲染图像帧。

19.根据权利要求18所述的电子设备，

其中，所述变形图包括与所述第三渲染图像帧的所述多个像素中的每个像素相对应的相应置信分数，并且

其中，所述神经采样图生成模型基于所述变形图的所述相应置信分数来指定所述相应采样数。

20.根据权利要求19所述的电子设备，还包括显示器，所述显示器被配置为根据所述第一重建图像帧和所述第二重建图像帧显示输出图像，

其中使用所述神经采样图生成模型包括：在所述第一置信分数小于所述第二置信分数的情况下，所述神经采样图生成模型为所述第一像素分配所述相应采样数中的第一采样数，所述第一采样数大于所述相应采样数中的由所述神经采样图生成模型为所述第二像素分配的第二采样数。