CN116996654A

CN116996654A - 新视点图像生成方法、新视点生成模型的训练方法与装置

Info

Publication number: CN116996654A
Application number: CN202310913040.4A
Authority: CN
Inventors: 李文宇; 陈丽莉
Original assignee: BOE Technology Group Co Ltd; Beijing BOE Technology Development Co Ltd
Current assignee: BOE Technology Group Co Ltd; Beijing BOE Technology Development Co Ltd
Priority date: 2023-07-24
Filing date: 2023-07-24
Publication date: 2023-11-03

Abstract

一种新视点图像生成方法、新视点生成模型的训练方法与装置，新视点图像生成方法包括：获取多张第一初始图像，多张第一初始图像由多个分散分布且图像采集区域包括重叠区域的图像采集装置采集得到；获取人眼坐标信息；将第一初始图像与人眼坐标信息输入新视点生成模型，得到与人眼坐标信息相对应的新视点图像，新视点生成模型包括深度计算模块、投影预测模块、拉伸模块和超分辨率模块，深度计算模块配置为根据多张第一初始图像得到深度图像，投影预测模块配置为使深度图像向新视点位置投影，得到预测的新视点图像，拉伸模块配置为对预测的新视点图像进行拉伸，超分辨率模块配置为对拉伸后的新视点图像进行分辨率提升，得到最终的新视点图像。

Description

新视点图像生成方法、新视点生成模型的训练方法与装置

技术领域

本公开实施例涉及但不限于图像处理技术领域，尤其涉及一种新视点图像生成方法、新视点生成模型的训练方法与装置。

背景技术

3D显示器一直被公认为是显示技术发展的终极梦想，经过多年技术发展，目前市场上存在眼镜式和裸眼式两大立体显示技术体系。其中，裸眼式3D显示技术也称为自动立体显示技术，该技术是3D显示技术未来的发展趋势。

发明内容

以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。

本公开实施例提供了一种新视点图像生成方法，包括：

获取多张第一初始图像，所述多张第一初始图像由多个分散分布的图像采集装置同时采集得到，所述多个图像采集装置的图像采集区域包括重叠区域；

获取显示端用户的人眼坐标信息；

将所述第一初始图像与人眼坐标信息输入新视点生成模型，得到与所述人眼坐标信息相对应的新视点图像，所述新视点生成模型包括深度计算模块、投影预测模块、拉伸模块和超分辨率模块，其中，所述深度计算模块被配置为根据多张所述第一初始图像计算深度信息，得到深度图像，所述投影预测模块被配置为使所述深度图像向新视点位置投影，得到预测的新视点图像，所述拉伸模块被配置为对预测的新视点图像进行拉伸，所述超分辨率模块被配置为对拉伸后的新视点图像进行分辨率提升，得到最终的新视点图像。

本公开实施例还提供了一种新视点生成装置，包括存储器；和连接至所述存储器的处理器，所述存储器用于存储指令，所述处理器被配置为基于存储在所述存储器中的指令，执行如本公开任一实施例所述的新视点图像生成方法的步骤。

本公开实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本公开任一实施例所述的新视点图像生成方法。

本公开实施例还提供了一种新视点生成模型的训练方法，包括：

构建三维重建模型和第一训练数据集；

使用所述第一训练数据集训练所述三维重建模型，得到训练好的所述三维重建模型；

获取多个图像采集装置采集的第二初始图像，将所述第二初始图像输入训练好的所述三维重建模型，得到三维模型；

通过虚拟相机拍摄所述三维模型在多个不同角度下的二维图像，使用所述二维图像构建第二训练数据集；

使用所述第二训练数据集训练所述新视点生成模型。

本公开实施例还提供了一种新视点生成模型的训练装置，包括存储器；和连接至所述存储器的处理器，所述存储器用于存储指令，所述处理器被配置为基于存储在所述存储器中的指令，执行如本公开任一实施例所述的新视点生成模型的训练方法的步骤。

本公开实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本公开任一实施例所述的新视点生成模型的训练方法。

在阅读并理解了附图和详细描述后，可以明白其他方面。

附图说明

附图用来提供对本公开技术方案的进一步理解，并且构成说明书的一部分，与本公开的实施例一起用于解释本公开的技术方案，并不构成对本公开的技术方案的限制。附图中一个或多个部件的形状和大小不反映真实比例，目的只是示意说明本公开内容。

图1为本公开示例性实施例一种新视点图像生成方法的流程示意图；

图2为本公开示例性实施例一种新视点图像生成方法的应用场景示意图；

图3为图2所示应用场景的数据传输过程示意图；

图4为本公开示例性实施例一种神经网络建模过程示意图；

图5为本公开示例性实施例一种三维重建模型的三维重建过程示意图；

图6为本公开示例性实施例一种新视点生成模型的新视点图像生成过程示意图；

图7为本公开示例性实施例一种新视点生成模型的训练方法的流程示意图；

图8为本公开示例性实施例一种新视点图像生成装置的结构示意图；

图9为本公开示例性实施例一种新视点生成模型的训练装置的结构示意图。

具体实施方式

下面将结合附图对本公开的实施例进行详细说明。实施方式可以以多个不同形式来实施。所属技术领域的普通技术人员可以很容易地理解一个事实，就是方式和内容可以在不脱离本公开的宗旨及其范围的条件下被变换为其他形式。因此，本公开不应该被解释为仅限定在下面的实施方式所记载的内容中。在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互任意组合。

在附图中，有时为了明确起见，夸大表示了一个或多个构成要素的大小、层的厚度或区。因此，本公开的一个方式并不一定限定于该尺寸，附图中一个或多个部件的形状和大小不反映真实比例。此外，附图示意性地示出了理想的例子，本公开的一个方式不局限于附图所示的形状或数值等。

本说明书中的“第一”、“第二”、“第三”等序数词是为了避免构成要素的混同而设置，而不是为了在数量方面上进行限定的。本公开中的“多个”表示两个及以上的数量。

全息视频会议是3D显示中一种比较重要的应用场景，且是比较容易落地的应用，在全息视频会议中，新视点图像生成已成为重要研究问题之一。该问题旨在提供一张或多张同一场景的图像，生成该场景在某个视点下的图像。

如图1所示，本公开实施例提供了一种新视点图像生成方法，包括：

步骤101、获取多张第一初始图像，多张第一初始图像由多个分散分布的图像采集装置同时采集得到，多个图像采集装置的图像采集区域包括重叠区域；

步骤102、获取显示端用户的人眼坐标信息；

步骤103、将多张第一初始图像与人眼坐标信息输入新视点生成模型，得到与人眼坐标信息相对应的新视点图像，新视点生成模型包括深度计算模块、投影预测模块、拉伸模块和超分辨率模块，其中，深度计算模块被配置为根据多张第一初始图像计算深度信息，得到深度图像，投影预测模块被配置为使深度图像向新视点位置投影，得到预测的新视点图像，拉伸模块被配置为对预测的新视点图像进行拉伸，超分辨率模块被配置为对拉伸后的新视点图像进行分辨率提升，得到最终的新视点图像。

本公开实施例通过建立新视点生成模型，将多张第一初始图像(该多张第一初始图像构成一帧图像)与人眼坐标信息输入新视点生成模型，得到与人眼坐标信息相对应的新视点图像，借助高性能图形处理器(Graphics Processing Unit，GPU)的通用并行计算能力与神经网络的表示能力，可以达到非常好的新视点图像生成效果。

在一些示例性实施方式中，图像采集装置位于采集端，采集端与显示端通过网络相连接。

图2为本公开实施例的新视点图像生成方法的一种应用场景示意图。如图2所示，该系统为端到端单人聊天系统，用户坐在显示器前方，每一端的系统均运行新视点生成模型，一端为采集端(和显示端)，另一端为显示端(和采集端)，采集端的图像采集装置采集初始图像后，通过网络发送至显示端，显示端系统通过运行新视点生成模型，生成与显示端用户的人眼坐标信息相对应的新视点图像。

在一些示例性实施方式中，图像采集装置可以为相机或其他任意的图像采集装置。

图3为图2所示应用场景的数据传输过程示意图。如图3所示，采集端相机采集到真实场景图像后，首先传输给采集端中央处理器(Central Processing Unit，CPU)，采集端CPU将数据通过总线系统传输给采集端GPU，采集端GPU对原始拍摄数据进行图像预处理，图像预处理可以包括图像信号处理(Image Signal Processing，ISP)、色彩校正、插帧成RGB数据等，然后直接利用GPU硬件编码芯片对RGB数据进行编码，将编码后的数据上传到网络；显示端处理器从网络拉取视频流，通过GPU硬件解码芯片解码得到采集端相机采集的源数据，该源数据作为人眼定位算法和视点生成算法的输入。

在一些示例性实施方式中，图像采集装置可以包括四个，四个图像采集装置分别设置在采集端显示器的左侧区域、右侧区域、上侧区域和下侧区域，四个图像采集装置的图像采集区域均朝向采集端显示器的前方区域。

本公开实施例中，图像采集装置的数量不是固定的，可以是四个，也可以是六个，甚至更多，理论上，图像采集装置的数量越多，效果越好，但是产生的数据和成本就越大，不利于产品化和推广，因此，本公开实施例的新视点生成方法，采用稀疏数量的图像采集装置。图像采集装置的摆放位置不固定，尽量围绕采集端显示器四周放置即可，镜头朝向采集端显示器正中间拍摄，尽量保证每个图像采集装置都能拍摄到采集端显示器前方坐着的用户。

全息视频通信技术在视频会议中的应用会越来越普及，本公开主要针对这种应用场景进行技术优化。这种系统附带多个摄像头，并采用神经网络建模技术来生成光场显示器所需要的多视点图像。从技术角度讲，若想要通过仅仅输入几个相机拍摄的图像，得到显示器前方任意视角人的图像数据，该神经网络之前必须见过足够多的任意角度的图像数据，因此，一套成熟的神经网络系统，首先必须经过大量的数据训练来进行学习，才有可能获取最优的网络权重参数。我们在训练新视点生成模型的时候，要尽量让新视点生成模型见识到显示器正面任意角度的丰富的图像数据，这样，当我们只输入稀疏数量的相机图像时，该新视点生成模型也能输出任意视角的图像。

但是，我们的系统只有稀疏数量的相机，不可能采集到足够多的任意视角的丰富的图像数据，因此，如图4所示，本公开构建了两个神经网络模型：三维重建模型和新视点生成模型，第一个神经网络模型(即三维重建模型)根据输入的一帧图像数据(每帧图像数据包括多个图像采集装置同时采集的图像)，生成一个三维模型，根据该三维模型可以生成任意视角的丰富的图像数据，再将该丰富的图像数据用于第二个神经网络模型(即新视点生成模型)的学习训练，这样就可以为新视点生成模型提供足够多的训练数据，这是一种以时间换空间的方法，为的是第二个神经网络模型可以尽量满足视频聊天场景下的实时特性，第二个神经网络模型是系统实时运行时的网络模型。图4中，三维重建模型与新视点生成模型的训练网络包括损失计算与反向传播模块，三维重建模型与新视点生成模型的推断网络不包括损失计算与反向传播模块；此外，新视点生成模型的训练网络中通过老师模型和学生模型进行知识蒸馏，在新视点生成模型的推断网络中只包括相应的学生模型，从而在保证模型效果的前提下实现模型加速。

理论上，只有三维重建模型也可以生成任意视角的图像数据，但是依据三维重建模型生成视点图的方法比较耗时，难以满足系统实时性要求。三维重建模型是新视点生成模型的训练网络。如图4所示，对于我们的系统来说，前三个阶段都属于准备阶段，是为最后一个阶段服务的，最后一个阶段的新视点生成模型推断网络才是系统使用时实时运行的算法模块。该算法模块只需要输入稀疏数量的相机拍摄的图像，就可以输出显示器正面任意视角的图像。即系统应用时，图2中两端的处理器(电脑)上都只部署了新视点生成模型，将采集端稀疏数量的相机采集的图像输入新视点生成模型就可以输出显示器正面任意视角的图像。

在一些示例性实施方式中，该新视点生成模型通过如下方法进行训练：

构建三维重建模型和第一训练数据集；

使用第一训练数据集训练三维重建模型，得到训练好的三维重建模型；

获取多个图像采集装置采集的第二初始图像，将第二初始图像输入训练好的三维重建模型，得到三维模型；

通过虚拟相机拍摄三维模型在多个不同角度下的二维图像，使用二维图像构建第二训练数据集；

使用第二训练数据集训练新视点生成模型。

全息视频会议应用场景理论上需要大量的相机采集实际图像，但是相机太多对成本和功耗都产生了巨大影响。本公开实施例的新视点图像生成方法，通构建两套神经网络算法：三维重建模型与新视点生成模型，其中，三维重建模型用时间换空间，生成足够多的任意视角的图像给新视点生成模型训练使用，新视点生成模型用于实时系统运行，这样的方法满足了我们系统稀疏相机特性和实时特性需求。

在一些示例性实施方式中，第一训练数据集包括系统采集数据集和虚拟数据集，系统采集数据集包括多个图像采集装置采集得到的图像，虚拟数据集包括网上下载的不同人进行不同动作的图像。

三维重建模型的建模过程包括：

1)构建如图5所示的三维重建模型(训练网络)；

2)数据集准备：构建虚拟数据集，其中，虚拟数据集包括：网上下载专业的包含各种不同穿着的人做着各种不同动作的图像数据；构建系统采集数据集，其中，系统采集数据集包括：使用我们的系统拍摄多个不同人的数据；将两种数据集合并在一起，形成第一训练数据集；

3)训练过程：将第一训练数据集分为第一训练集和第一测试集，使用第一训练集训练三维重建模型。在训练过程中，使用反向传播算法来计算模型参数，调整模型的权重和偏置，以达到最佳的模型表现；

4)使用第一测试集对训练好的模型进行验证，查看数据集是否具备泛化能力，如果第一测试集输入模型中效果较好，则说明模型训练比较成功，如果效果不好，则需要根据经验调整训练策略。

5)使用训练好的三维重建模型的网络模型参数输入给图4中的三维重建模型推断网络(即去除图5中的损失计算与反向传播模块)，这个网络作用：输入稀疏数量的相机采集的图像，三维重建模型推断网络根据输入的相机图像进行三维建模，输出一个包含深度和颜色的三维模型。将虚拟相机放置在三维模型所在空间内，在某一些视角下拍摄三维模型，生成很多不同视角下的2D图像，这些2D图像可以用于训练新视点生成模型。

在一些示例性实施方式中，三维重建模型包括特征提取模块、有向距离场网络模块、颜色提取模块、权重计算模块和加权求和模块，其中：

特征提取模块，被配置为选取N1条光线，在每条光线上设置N2个采样点，提取输入图像的特征图，并根据拍摄参数将N1*N2个采样点投影到特征图上，得到每个采样点的颜色特征，N1大于1，N2大于1；

有向距离场网络模块，被配置为根据每个采样点的颜色特征，生成目标几何模型，目标几何模型包括每个采样点的距离场值与第二特征值；

颜色提取模块，被配置为根据每个采样点的第二特征值和光线方向，得到每个采样点的颜色值；

权重计算模块，被配置为根据每个采样点的距离场值计算每个采样点的权重；

加权求和模块，被配置为根据每个采样点的颜色值和每个采样点的权重进行加权求和，得到每条光线在图像上对应的像素点的颜色值。

示例性的，N1可以等于1024*1024，N2可以等于128，然而，本公开实施例对此不作限制。

在一些示例性实施方式中，采样点的权重与采样点的距离场值呈指数对应关系。

在一些示例性实施方式中，在使用第一训练数据集训练三维重建模型时，建立损失函数，损失函数包括各个像素点初始采样的颜色值与各个像素点加权求和得到的颜色值之间的差异。

图5为三维重建模型的三维重建过程示意图，三维重建模型利用有限且稀疏视点(示例性的，4个视点)下的连续彩色图像恢复出人体的三维模型与颜色信息，为新视点生成模型提供高质量且充足的训练数据。

本公开实施例中，三维重建模型包括以下模块：

特征提取模块(图中未示出)：主要被配置为提取输入图像的特征图；

有向距离场网络模块(SDFNetwork)：涵盖连续视频帧的四维表达、特征向量的投影分解以及MVS的引导收敛等核心思想，主要作用为预测人体模型的几何信息；

颜色提取模块(ColorNetwork)：主要被配置为预测指定位置拍摄到的人体模型的颜色信息(颜色与透明度，神经辐射场)；

权重计算模块(SingleVarianceNetwork，单方差网络)：被配置为建立神经辐射场和SDF场的联系，以便于利用图像信息作为几何模型的监督；

加权求和模块(图5中的Σ)：被配置为根据每个采样点的颜色值和每个采样点的权重进行加权求和，得到各个像素点的颜色值。

对于每一张输入图像，根据其掩码mask(常用于抠图，得到人的轮廓)获取图像中的有效点范围，图像上的每个像素点都对应空间中一条从相机光心出发的一条射线。在训练时，随机选取N1条光线，在每条光线上采样N2个采样点，可获取空间中N1*N2个采样点(points，pts)。通过特征提取模块(图中未示出，可以为卷积网络)对四张输入图像进行卷积，提取得到四张特征图。利用相机内参外参，将N1*N2个采样点分别投影到这四张特征图上，就可以获取每个采样点的颜色特征Projs。N1*N2个采样点pts、每个采样点的颜色特征Projs以及这组图像所在的视频帧号Time，共同构成SDFNetWork的输入。SDFNetWork可以由一系列卷积等网络结构构成，目的是获取目标(人)的几何模型(用距离场sdf表示)，SDFNetWork的输出包含2部分内容，一个是每个采样点对应的距离场值，一个是第二特征值features(该第二特征值包含颜色信息)，每个采样点的第二特征值再加上这个点当时对应的光线方向(view dirs)，共同构成ColorNetwork的输入，ColorNetwork的作用是为了得到神经辐射场里的颜色，也就是这个采样点对应的颜色值，SingleVarianceNetwork是一个单参数网络，我们认为每个采样点pt对应的距离场值和它的神经辐射场里的透明度或者说权重存在指数关系，这个单参数网络就是为了求得这个指数关系里的那个指数参数sigma_f，也就是说，距离场值通过sigma_f这个指数关系就能得到这个采样点对应的透明度或者说权重，对N条光线上所有的采样点的颜色和透明度加权求和就能得到这条光线在图像上对应的像素点的颜色值，这个颜色值跟我们最开始采样的时候，那个像素位置对应的颜色值去求差异(这个差异不一定是简单的差的绝对值)就是损失(Loss)，用这个Loss去监督各个模块的反向传播，就是一次训练过程。

在一些示例性实施方式中，第二训练数据集包括第一三维模型数据集和第二人像模型数据集，第一三维模型数据集包括通过虚拟相机拍摄三维模型在多个不同角度下的二维图像，第二人像模型数据集包括通过虚拟相机拍摄网上下载的三维人像模型在多个不同角度下的二维图像。

新视点生成模型的建模过程包括：

1)构建如图6所示的新视点生成模型；

2)使用三维重建模型生成的大量的多视角图像，构建第一三维模型数据集，使用网上下载的人像模型构建第二人像模型数据集，将两个数据集合并，构建最终用来训练新视点生成模型的第二训练数据集；

3)训练过程：将第二训练数据集分为第二训练集和第二测试集，使用第二训练集训练新视点生成模型。在训练过程中，使用反向传播算法来计算模型参数，调整模型的权重和偏置，以达到最佳的模型表现；

4)使用第二测试集对训练好的模型进行验证，查看数据集是否具备泛化能力，如果第二测试集输入模型中效果较好，则说明模型训练比较成功，如果效果不好，则需要根据经验调整训练策略；

5)使用训练好的网络模型参数输入给图4中的新视点生成模型推断网络。这个网络作用是输入稀疏数量的相机采集的图像，可以渲染输出任意视角的2D图像。

由于最后输出的图像是显示在3D显示器上的，因此，具体渲染哪些视场角的图像，可以跟人眼定位结合，将人眼定位算法计算出的人眼坐标传输至新视点生成模型推断网络中，实时渲染人左右眼对应的视点图像即可(与3D显示器显示原理结合)。

图6是新视点生成模型的新视点图像生成过程示意图，如图6所示，输入左右上三视点彩色图像，计算左上两视角图像和右上两视角图像的视差图进而获取左右两视角的深度图，预测新视点的彩色图像(512*512)，再利用超分辨模块输出1K、2K等分辨率高清图像。

本公开实施例中，新视点生成模型包括以下模块：

深度计算模块(MVS)：该模块可以为非训练网络模块，利用开源RMVS算法及权重文件，主要作用为基于多视点彩色图像计算深度信息；

投影预测模块(ColorNet)：基于左右两视点彩色图像根据深度图向新视点位置进行投影，预测出准确的新视点图像(512*512)；

拉伸模块(Resize)：被配置为对预测的新视点图像进行拉伸；

超分辨率模块(ColorHrNet)：被配置为对拉伸后的新视点图像进行分辨率提升，得到最终的新视点图像。超分辨率模块可以将512*512的新视点图像超分至1K*1K以上。

如图6所示，输入左边相机和上边相机拍摄的图像，通过MVS得到左相机位置的深度图像，同理，输入右边相机和上边相机拍摄的图像，通过MVS得到右相机位置的深度图像；根据获得的左右两个相机位置拍摄的彩色图像以及计算得到的深度图像，通过ColorNet网络，向新视点位置投影(Projection)，预测出准确的新视点图像(大小：512*512)；将上述得到的新视点图像，拉伸到1024*1024大小，然后经过超分辨模块，提升输出的新视点图像的清晰度。

如图6所示，在对新视点生成模型进行训练时，该新视点生成模型还包括扩散模型(Diffusion Model)，其中，ColorHrNet是学生模型，Diffusion Model是老师模型，两者共同构成超分辨模块。Diffusion Model被配置为生成与训练数据相似的数据。从根本上说，Diffusion Model的工作原理是通过连续添加高斯噪声来破坏训练数据，然后通过学习反转的去噪过程来恢复数据。训练后，我们可以使用Diffusion Model将随机采样的噪声传入模型中，通过学到的去噪过程来生成数据。Diffusion Model是大型复杂模型，ColorHrNet是小型简单模型。训练时Diffusion Model监督ColorHrNet进行训练，使用时仅运用ColorHrNet，由于ColorHrNet是简单的小模型，也是整套算法实际运行的网络模型，这样在保证模型效果的前提下实现了模型加速。

在一些示例性实施方式中，在使用第二训练数据集训练新视点生成模型时，新视点生成模型还包括扩散模型，其中，扩散模型为老师模型，超分辨率模块为学生模型。

在一些示例性实施方式中，深度计算模块具体被配置为：

根据每两个图像采集装置采集的第一初始图像计算深度信息，每两个图像采集装置包括设置在第一显示器的左侧区域和上侧区域的两个图像采集装置、设置在第一显示器的右侧区域和上侧区域的两个图像采集装置。

本公开实施例中，深度计算模块也可以根据其他位置的图像采集装置计算深度信息，本公开实施例对此不作限制。

如图7所示，本公开实施例还提供了一种新视点生成模型的训练方法，包括：

步骤701、构建三维重建模型和第一训练数据集；

步骤702、使用所述第一训练数据集训练所述三维重建模型，得到训练好的所述三维重建模型；

步骤703、获取多个图像采集装置采集的第二初始图像，将所述第二初始图像输入训练好的所述三维重建模型，得到三维模型；

步骤704、通过虚拟相机拍摄所述三维模型在多个不同角度下的二维图像，使用所述二维图像构建第二训练数据集；

步骤705、使用所述第二训练数据集训练所述新视点生成模型。

在一些示例性实施方式中，所述第一训练数据集包括系统采集数据集和虚拟数据集，所述系统采集数据集包括所述多个图像采集装置采集得到的图像，所述虚拟数据集包括网上下载的不同人进行不同动作的图像。

在一些示例性实施方式中，所述第二训练数据集包括第一三维模型数据集和第二人像模型数据集，所述第一三维模型数据集包括通过虚拟相机拍摄所述三维模型在多个不同角度下的二维图像，所述第二人像模型数据集包括通过虚拟相机拍摄网上下载的三维人像模型在多个不同角度下的二维图像。

在一些示例性实施方式中，所述新视点生成模型包括深度计算模块、投影预测模块、拉伸模块和超分辨率模块，其中：

所述深度计算模块，被配置为根据多张第一初始图像计算深度信息，得到深度图像；

所述投影预测模块，被配置为使所述深度图像向新视点位置投影，得到预测的新视点图像；

所述拉伸模块，被配置为对预测的新视点图像进行拉伸；

所述超分辨率模块，被配置为对拉伸后的新视点图像进行分辨率提升，得到最终的新视点图像。

在一些示例性实施方式中，所述图像采集装置位于采集端，所述采集端与所述显示端通过网络相连接。

在一些示例性实施方式中，所述图像采集装置包括四个，四个所述图像采集装置分别设置在第一显示器的左侧区域、右侧区域、上侧区域和下侧区域，四个所述图像采集装置的图像采集区域朝向所述第一显示器的前方区域。

在一些示例性实施方式中，所述深度计算模块具体被配置为：

根据每两个所述图像采集装置采集的所述第一初始图像计算深度信息，每两个所述图像采集装置包括设置在所述第一显示器的左侧区域和上侧区域的两个所述图像采集装置、设置在所述第一显示器的右侧区域和上侧区域的两个所述图像采集装置。

在一些示例性实施方式中，在使用所述第二训练数据集训练所述新视点生成模型时，所述新视点生成模型还包括扩散模型，所述扩散模型为老师模型，所述超分辨率模块为学生模型。

在一些示例性实施方式中，所述三维重建模型包括特征提取模块、有向距离场网络模块、颜色提取模块、权重计算模块和加权求和模块，其中：

所述特征提取模块，被配置为选取N1条光线，在每条光线上设置N2个采样点，提取输入图像的特征图，并根据拍摄参数将N1*N2个采样点投影到所述特征图上，得到每个采样点的颜色特征，N1大于1，N2大于1；

所述有向距离场网络模块，被配置为根据每个采样点的颜色特征，生成目标几何模型，所述目标几何模型包括每个采样点的距离场值与第二特征值；

所述颜色提取模块，被配置为根据每个采样点的第二特征值和光线方向，得到每个采样点的颜色值；

所述权重计算模块，被配置为根据每个采样点的距离场值计算每个采样点的权重；

所述加权求和模块，被配置为根据每个采样点的颜色值和每个采样点的权重进行加权求和，得到每条光线在图像上对应的像素点的颜色值。

在一些示例性实施方式中，采样点的权重与所述采样点的距离场值呈指数对应关系。

在一些示例性实施方式中，在使用所述第一训练数据集训练所述三维重建模型时，建立损失函数，所述损失函数包括各个像素点初始采样的颜色值与各个像素点加权求和得到的颜色值之间的差异。

如图8所示，在一个示例中，新视点生成装置可包括：第一处理器810、第一存储器820、第一总线系统830和第一收发器840，其中，第一处理器810、第一存储器820和第一收发器840通过第一总线系统830相连，第一存储器820用于存储指令，第一处理器810用于执行第一存储器820存储的指令，以控制第一收发器840收发信号。具体地，第一收发器840可在第一处理器810的控制下获取多张第一初始图像，所述多张第一初始图像由多个分散分布的图像采集装置同时采集得到，所述多个图像采集装置的图像采集区域包括重叠区域，第一处理器810获取显示端用户的人眼坐标信息；将所述第一初始图像与人眼坐标信息输入新视点生成模型，得到与所述人眼坐标信息相对应的新视点图像，所述新视点生成模型包括深度计算模块、投影预测模块、拉伸模块和超分辨率模块，其中，所述深度计算模块被配置为根据多张所述第一初始图像计算深度信息，得到深度图像，所述投影预测模块被配置为使所述深度图像向新视点位置投影，得到预测的新视点图像，所述拉伸模块被配置为对预测的新视点图像进行拉伸，所述超分辨率模块被配置为对拉伸后的新视点图像进行分辨率提升，得到最终的新视点图像；通过第一收发器840将最终的新视点图像输出至显示端显示界面。

应理解，第一处理器810可以是中央处理单元(Central Processing Unit，CPU)，第一处理器810还可以是其他通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

第一存储器820可以包括只读存储器和随机存取存储器，并向第一处理器810提供指令和数据。第一存储器820的一部分还可以包括非易失性随机存取存储器。例如，第一存储器820还可以存储设备类型的信息。

第一总线系统830除包括数据总线之外，还可以包括电源总线、控制总线和状态信号总线等。但是为了清楚说明起见，在图8中将各种总线都标为第一总线系统830。

在实现过程中，处理设备所执行的处理可以通过第一处理器810中的硬件的集成逻辑电路或者软件形式的指令完成。即本公开实施例的方法步骤可以体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等存储介质中。该存储介质位于第一存储器820，第一处理器810读取第一存储器820中的信息，结合其硬件完成上述方法的步骤。为避免重复，这里不再详细描述。

本公开实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本公开任一实施例所述的新视点图像生成方法。通过执行可执行指令驱动新视点图像生成的方法与本公开上述实施例提供的新视点图像生成方法基本相同，在此不做赘述。

在一些可能的实施方式中，本申请提供的新视点图像生成方法的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在计算机设备上运行时，所述程序代码用于使所述计算机设备执行本说明书上述描述的根据本申请各种示例性实施方式的新视点图像生成方法中的步骤，例如，所述计算机设备可以执行本申请实施例所记载的新视点图像生成方法。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是但不限于：电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

如图9所示，在一个示例中，新视点生成模型的训练装置可包括：第二处理器910、第二存储器920、第二总线系统930和第二收发器940，其中，第二处理器910、第二存储器920和第二收发器940通过第二总线系统930相连，第二存储器920用于存储指令，第二处理器910用于执行第二存储器920存储的指令，以控制第二收发器940收发信号。具体地，第二收发器940可在第二处理器910的控制下获取多个图像采集装置采集的第二初始图像，第二处理器910构建三维重建模型和第一训练数据集；使用所述第一训练数据集训练所述三维重建模型，得到训练好的所述三维重建模型；将所述第二初始图像输入训练好的所述三维重建模型，得到三维模型；通过虚拟相机拍摄所述三维模型在多个不同角度下的二维图像，使用所述二维图像构建第二训练数据集；使用所述第二训练数据集训练所述新视点生成模型。

应理解，第二处理器910可以是中央处理单元(Central Processing Unit，CPU)，第二处理器910还可以是其他通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

第二存储器920可以包括只读存储器和随机存取存储器，并向第二处理器910提供指令和数据。第二存储器920的一部分还可以包括非易失性随机存取存储器。例如，第二存储器920还可以存储设备类型的信息。

第二总线系统930除包括数据总线之外，还可以包括电源总线、控制总线和状态信号总线等。但是为了清楚说明起见，在图9中将各种总线都标为第二总线系统930。

在实现过程中，处理设备所执行的处理可以通过第二处理器910中的硬件的集成逻辑电路或者软件形式的指令完成。即本公开实施例的方法步骤可以体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等存储介质中。该存储介质位于第二存储器920，第二处理器910读取第二存储器920中的信息，结合其硬件完成上述方法的步骤。为避免重复，这里不再详细描述。

在一些可能的实施方式中，本申请提供的新视点生成模型的训练方法的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在计算机设备上运行时，所述程序代码用于使所述计算机设备执行本说明书上述描述的根据本申请各种示例性实施方式的新视点生成模型的训练方法中的步骤，例如，所述计算机设备可以执行本申请实施例所记载的新视点生成模型的训练方法。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中，在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分；例如，一个物理组件可以具有多个功能，或者一个功能或步骤可以由若干物理组件合作执行。某些组件或所有组件可以被实施为由处理器，如数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

虽然本公开所揭露的实施方式如上，但所述的内容仅为便于理解本公开而采用的实施方式，并非用以限定本发明。任何所属领域内的技术人员，在不脱离本公开所揭露的精神和范围的前提下，可以在实施的形式及细节上进行任何的修改与变化，但本发明的专利保护范围，仍须以所附的权利要求书所界定的范围为准。

本公开实施例附图只涉及本公开实施例涉及到的结构，其他结构可参考通常设计。

为了清晰起见，在用于描述本公开的实施例的附图中，层或微结构的厚度和尺寸被放大。可以理解，当诸如层、膜、区域或基板之类的元件被称作位于另一元件“上”或“下”时，该元件可以“直接”位于另一元件“上”或“下”，或者可以存在中间元件。

虽然本公开所揭露的实施方式如上，但所述的内容仅为便于理解本公开而采用的实施方式，并非用以限定本公开。任何本公开所属领域内的技术人员，在不脱离本公开所揭露的精神和范围的前提下，可以在实施的形式及细节上进行任何的修改与变化，但本公开的专利保护范围，仍须以所附的权利要求书所界定的范围为准。

Claims

1.一种新视点图像生成方法，其特征在于，包括：

获取显示端用户的人眼坐标信息；

2.根据权利要求1所述的新视点图像生成方法，其特征在于，所述新视点生成模型通过如下方法进行训练：

构建三维重建模型和第一训练数据集；

使用所述第二训练数据集训练所述新视点生成模型。

3.根据权利要求2所述的新视点图像生成方法，其特征在于，所述三维重建模型包括特征提取模块、有向距离场网络模块、颜色提取模块、权重计算模块和加权求和模块，其中：

4.根据权利要求3所述的新视点图像生成方法，其特征在于，所述采样点的权重与所述采样点的距离场值呈指数对应关系。

5.根据权利要求3所述的新视点图像生成方法，其特征在于，在使用所述第一训练数据集训练所述三维重建模型时，建立损失函数，所述损失函数包括输入图像中各个像素点初始采样的颜色值与所述各个像素点加权求和得到的颜色值之间的差异。

6.根据权利要求2所述的新视点图像生成方法，其特征在于，在使用所述第二训练数据集训练所述新视点生成模型时，所述新视点生成模型还包括扩散模型，所述扩散模型为老师模型，所述超分辨率模块为学生模型。

7.根据权利要求2所述的新视点图像生成方法，其特征在于，所述第一训练数据集包括系统采集数据集和虚拟数据集，所述系统采集数据集包括所述多个图像采集装置采集得到的图像，所述虚拟数据集包括网上下载的不同人进行不同动作的图像。

8.根据权利要求2所述的新视点图像生成方法，其特征在于，所述第二训练数据集包括第一三维模型数据集和第二人像模型数据集，所述第一三维模型数据集包括通过虚拟相机拍摄所述三维模型在多个不同角度下的二维图像，所述第二人像模型数据集包括通过虚拟相机拍摄网上下载的三维人像模型在多个不同角度下的二维图像。

9.根据权利要求1所述的新视点图像生成方法，其特征在于，所述图像采集装置位于采集端，所述采集端与所述显示端通过网络相连接。

10.根据权利要求1所述的新视点图像生成方法，其特征在于，所述图像采集装置包括四个，四个所述图像采集装置分别设置在第一显示器的左侧区域、右侧区域、上侧区域和下侧区域，四个所述图像采集装置的图像采集区域均朝向所述第一显示器的前方区域，所述第一显示器位于所述采集端。

11.根据权利要求10所述的新视点图像生成方法，其特征在于，所述深度计算模块具体被配置为：

12.一种新视点生成装置，其特征在于，包括存储器；和连接至所述存储器的处理器，所述存储器用于存储指令，所述处理器被配置为基于存储在所述存储器中的指令，执行如权利要求1至11中任一项所述的新视点图像生成方法的步骤。

13.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，该程序被处理器执行时实现如权利要求1至11中任一项所述的新视点图像生成方法。

14.一种新视点生成模型的训练方法，其特征在于，包括：

构建三维重建模型和第一训练数据集；

使用所述第二训练数据集训练所述新视点生成模型。

15.根据权利要求14所述的新视点生成模型的训练方法，其特征在于，所述新视点生成模型包括深度计算模块、投影预测模块、拉伸模块和超分辨率模块，其中：

所述深度计算模块被配置为根据多张第一初始图像计算深度信息，得到深度图像；

所述投影预测模块被配置为使所述深度图像向新视点位置投影，得到预测的新视点图像；

所述拉伸模块被配置为对预测的新视点图像进行拉伸；

16.根据权利要求15所述的新视点生成模型的训练方法，其特征在于，在使用所述第二训练数据集训练所述新视点生成模型时，所述新视点生成模型还包括扩散模型，所述扩散模型为老师模型，所述超分辨率模块为学生模型。

17.根据权利要求14所述的新视点生成模型的训练方法，其特征在于，所述三维重建模型包括特征提取模块、有向距离场网络模块、颜色提取模块、权重计算模块和加权求和模块，其中：

18.根据权利要求17所述的新视点生成模型的训练方法，其特征在于，所述采样点的权重与所述采样点的距离场值呈指数对应关系。

19.一种新视点生成模型的训练装置，其特征在于，包括存储器；和连接至所述存储器的处理器，所述存储器用于存储指令，所述处理器被配置为基于存储在所述存储器中的指令，执行如权利要求14至18中任一项所述的新视点生成模型的训练方法的步骤。

20.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，该程序被处理器执行时实现如权利要求14至18中任一项所述的新视点生成模型的训练方法。