CN113096144A

CN113096144A - 基于神经网络的动态人体自由视点视频的生成方法和装置

Info

Publication number: CN113096144A
Application number: CN202110310140.9A
Authority: CN
Inventors: 刘烨斌; 李哲; 于涛
Original assignee: Tsinghua University
Current assignee: Hangzhou Xinchangyuan Technology Co ltd
Priority date: 2021-03-23
Filing date: 2021-03-23
Publication date: 2021-07-09
Anticipated expiration: 2041-03-23
Also published as: CN113096144B

Abstract

本申请提出一种基于神经网络的动态人体自由视点视频的生成方法和装置，涉及计算机视觉与计算机图形学技术领域，其中，方法包括：重建单个人体的预扫描模型；通过多个RGB相机对所述单个人体拍摄，获取RGB图像序列；对预扫描模型使进行变形，使得变形后的预扫描模型与每帧RGB图像匹配；对预扫描模型采样，并在每一个采样点处定义一个隐码，并基于神经网络联合优化隐码与网络参数；获取任意渲染视角，基于任意渲染视角生成自由视点视频。由此，基于多个RGB相机捕获RGB图像序列，并根据此序列生成时域连续、动态的自由视点视频，生成更真实、动态的渲染结果。

Description

基于神经网络的动态人体自由视点视频的生成方法和装置

技术领域

本申请涉及计算机视觉与计算机图形学技术领域，尤其涉及一种基于神经网络的动态人体自由视点视频的生成方法和装置。

背景技术

动态人体自由视点视频生成是计算机图形学和计算机视觉领域的重点问题。高质量的人体自由视点视频在影视娱乐、人体数字化等领域有着广泛的应用前景和重要的应用价值。但是高质量、高拟真度的人体自由视点视频获取通常依靠价格昂贵的激光扫描仪或者多相机阵列系统对人体建模来实现，虽然效果较为真实，但是也显著存在着一些缺点：第一，设备复杂，这些方法往往需要多相机阵列的搭建；第二，速度慢，往往重建一个三维人体模型需要至少10分钟到数小时的时间，而重建序列便更慢。

发明内容

本申请旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本申请的第一个目的在于提出一种基于神经网络的动态人体自由视点视频的生成方法，仅需要多个RGB相机，方便快速的生成动态、真实的人体自由视点视频，可以为用户提供良好的交互式三维重建体验。

本申请的第二个目的在于提出一种基于神经网络的动态人体自由视点视频的生成装置。

为达上述目的，本申请第一方面实施例提出了一种基于神经网络的动态人体自由视点视频的生成方法，包括：

重建单个人体的预扫描模型；

通过多个RGB相机对所述单个人体拍摄，获取RGB图像序列；

对所述预扫描模型使进行变形，使得变形后的所述预扫描模型与每帧RGB图像匹配；

对所述预扫描模型采样，并在每一个采样点处定义一个隐码，并基于神经网络联合优化隐码与网络参数；

获取任意渲染视角，基于所述任意渲染视角生成自由视点视频。

本申请实施例的基于神经网络的动态人体自由视点视频的生成方法，通过重建单个人体的预扫描模型；通过多个RGB相机对所述单个人体拍摄，获取RGB图像序列；对预扫描模型使进行变形，使得变形后的所述预扫描模型与每帧RGB图像匹配；对所述预扫描模型采样，并在每一个采样点处定义一个隐码，并基于神经网络联合优化隐码与网络参数；获取任意渲染视角，基于所述任意渲染视角生成自由视点视频。由此，基于多个RGB相机捕获RGB图像序列，并根据此序列生成时域连续、动态的自由视点视频，生成更真实、动态的渲染结果。

可选地，在本申请的一个实施例中，所述重建单个人体的预扫描模型，包括：使用多相机系统或扫描仪重建出所述单个人体的预扫描模型。

可选地，在本申请的一个实施例中，所述对所述预扫描模型使进行变形，使得变形后的所述预扫描模型与每帧RGB图像匹配，包括：

基于所述预扫描模型对所述每帧RGB图像进行运动跟踪，获取所述每帧RGB图像对应的同拓扑模型：

建立能量函数(1)，通过最优化求解出所述预扫描模型的非刚性变形参数；

E＝E_color+E_silhouette+λ_smoothE_smooth (1)

其中，

是颜色项，其中，M是所述预扫描模型的顶点集合，v是其中一个顶点，

是经过非刚性变形后的顶点位置，c_v是顶点颜色，π(·)表示投影函数，ColorImg(·)代表在彩色图像上采样获得相应的RGB值；

是轮廓项，其中，Boundary(M)表示M中靠近图像轮廓的顶点集合，DtImg是对输入轮廓做距离变换得到的图像；E_smooth为正则项；

获取所有帧RGB图像下同拓扑的所述预扫描模型。

可选地，在本申请的一个实施例中，所述对所述预扫描模型采样，并在每一个采样点处定义一个隐码，并基于神经网络联合优化隐码与网络参数，包括：

对所述预扫描模型进行采样，获取系列采样点

对于每个采样点定义一个隐码

定义f_d(·)和f_c(·)为设计好的神经网络，对于所述每帧RGB图像的所有空间点，对于任意空间点

体密度公式为:σ＝f_d(z)；颜色公式为:c＝f_c(z,x,d)；其中，z表示x所在位置的隐码，由

插值得到，

表示渲染视角；

输入多相机采集视角，通过体渲染获取渲染图像

与真实采集图像

构建误差函数

基于公式(2)联合训练隐码与网络参数。

可选地，在本申请的一个实施例中，所述基于所述任意渲染视角生成自由视点视频，包括：

获取所述任意渲染视角对应的输入网络参数；

基于所述输入网络参数生成所述自由视点视频。

为达上述目的，本申请第二方面实施例提出了一种基于神经网络的动态人体自由视点视频的生成装置，包括：

重建模块，用于重建单个人体的预扫描模型；

获取模块，用于通过多个RGB相机对所述单个人体拍摄，获取RGB图像序列；

变形模块，用于对所述预扫描模型使进行变形，使得变形后的所述预扫描模型与每帧RGB图像匹配；

采样训练模块，用于对所述预扫描模型采样，并在每一个采样点处定义一个隐码，并基于神经网络联合优化隐码与网络参数；

生成模块，用于获取任意渲染视角，基于所述任意渲染视角生成自由视点视频。

本申请实施例的基于神经网络的动态人体自由视点视频的生成装置，通过重建单个人体的预扫描模型；通过多个RGB相机对所述单个人体拍摄，获取RGB图像序列；对预扫描模型使进行变形，使得变形后的所述预扫描模型与每帧RGB图像匹配；对所述预扫描模型采样，并在每一个采样点处定义一个隐码，并基于神经网络联合优化隐码与网络参数；获取任意渲染视角，基于所述任意渲染视角生成自由视点视频。由此，基于多个RGB相机捕获RGB图像序列，并根据此序列生成时域连续、动态的自由视点视频，生成更真实、动态的渲染结果。

可选地，在本申请的一个实施例中，所述重建模块，具体用于：使用多相机系统或扫描仪重建出所述单个人体的预扫描模型。

可选地，在本申请的一个实施例中，所述变形模块，具体用于：

E＝E_color+E_silhouette+λ_smoothE_smooth (1)

其中，

是轮廓项，其中，Boundary(M)表示M中靠近图像轮廓的顶点集合，DtImg是对输入轮廓做距离变换得到的图像；E_smooth为正则项；获取所有帧RGB图像下同拓扑的所述预扫描模型。

可选地，在本申请的一个实施例中，所述采样训练模块，具体用于：

对所述预扫描模型进行采样，获取系列采样点

对于每个采样点定义一个隐码

插值得到，

表示渲染视角；

输入多相机采集视角，通过体渲染获取渲染图像

与真实采集图像

构建误差函数

基于公式(2)联合训练隐码与网络参数。

可选地，在本申请的一个实施例中，所述生成模块，具体用于：

获取所述任意渲染视角对应的输入网络参数；

基于所述输入网络参数生成所述自由视点视频。

本申请附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本申请实施例所提供的一种基于神经网络的动态人体自由视点视频的生成方法的流程示意图；

图2为本申请实施例所提供的一种基于神经网络的动态人体自由视点视频的生成装置的结构示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本申请，而不能理解为对本申请的限制。

下面参考附图描述本申请实施例的基于神经网络的动态人体自由视点视频的生成方法和装置。

图1为本申请实施例所提供的一种基于神经网络的动态人体自由视点视频的生成方法的流程示意图。

具体地，本申请提出一种基于神经网络的动态人体自由视点视频的生成方法，相较于其他重建渲染分离的方法，能够生成更真实、动态的渲染结果。该方法基于多个RGB相机捕获RGB图像序列，并根据此序列生成时域连续、动态的自由视点视频。该方法主要包括以下步骤：首先，使用多相机系统或扫描仪等设备重建出人体预扫描模型；然后变形预扫描模型使之与每帧多RGB图像相匹配；对预扫描模型采样，并在每一个采样点处定义一个隐码，并基于神经网络联合优化隐码与网络参数；改变网络输入参数，生成自由视点视频。

如图1所示，该基于神经网络的动态人体自由视点视频的生成方法包括以下步骤：

步骤101，重建单个人体的预扫描模型。

在本申请实施例中，使用多相机系统或扫描仪重建出单个人体的预扫描模型。

步骤102，通过多个RGB相机对所述单个人体拍摄，获取RGB图像序列。

步骤103，对预扫描模型使进行变形，使得变形后的预扫描模型与每帧RGB图像匹配。

在本申请实施例中，基于预扫描模型对所述每帧RGB图像进行运动跟踪，获取每帧RGB图像对应的同拓扑模型：建立能量函数(1)，通过最优化求解出所述预扫描模型的非刚性变形参数；E＝E_color+E_silhouette+λ_smoothE_smooth (1)。

其中，

是颜色项，其中，M是预扫描模型的顶点集合，v是其中一个顶点，

是轮廓项，其中，Boundary(M)表示M中靠近图像轮廓的顶点集合，DtImg是对输入轮廓做距离变换得到的图像；E_smooth为正则项；获取所有帧RGB图像下同拓扑的预扫描模型。

具体地，颜色项，保证了经过非刚性运动后预扫描模型能够与彩色图像的颜色对齐，轮廓项，保证了经过非刚性运动后预扫描模型能够与人体轮廓图像保持一致，正则项，约束非刚性变形尽可能的局部刚性，随后，可以获得在所有帧下同拓扑的预扫描模型。

步骤104，对预扫描模型采样，并在每一个采样点处定义一个隐码，并基于神经网络联合优化隐码与网络参数。

在本申请实施例中，对所述预扫描模型进行采样，获取系列采样点

对于每个采样点定义一个隐码

定义f_d(·)和f_c(·)为设计好的神经网络，对于所述每帧RGB图像的所有空间点，对于每一帧的所有空间点，要获得其体密度以及相应的颜色值，对于任意空间点

插值得到，

表示渲染视角；输入多相机采集视角，通过体渲染获取渲染图像

与真实采集图像

构建误差函数

基于公式(2)联合训练隐码与网络参数。

步骤105，获取任意渲染视角，基于任意渲染视角生成自由视点视频。

具体地，训练完成后，输入任意渲染视角，生成自由视点视频。

在本申请实施例中，获取任意渲染视角对应的输入网络参数；基于输入网络参数生成自由视点视频。

本申请实施例的基于神经网络的动态人体自由视点视频的生成方法，通过重建单个人体的预扫描模型；通过多个RGB相机对所述单个人体拍摄，获取RGB图像序列；对预扫描模型使进行变形，使得变形后的预扫描模型与每帧RGB图像匹配；对预扫描模型采样，并在每一个采样点处定义一个隐码，并基于神经网络联合优化隐码与网络参数；获取任意渲染视角，基于任意渲染视角生成自由视点视频。由此，基于多个RGB相机捕获RGB图像序列，并根据此序列生成时域连续、动态的自由视点视频，生成更真实、动态的渲染结果。

为了实现上述实施例，本申请还提出一种基于神经网络的动态人体自由视点视频的生成装置。

图2为本申请实施例提供的一种基于神经网络的动态人体自由视点视频的生成装置的结构示意图。

如图2所示，该基于神经网络的动态人体自由视点视频的生成装置包括：重建模块210、获取模块220、变形模块230、采样训练模块240和生成模块250。

重建模块210，用于重建单个人体的预扫描模型。

获取模块220，用于通过多个RGB相机对所述单个人体拍摄，获取RGB图像序列。

变形模块230，用于对所述预扫描模型使进行变形，使得变形后的所述预扫描模型与每帧RGB图像匹配。

采样训练模块240，用于对所述预扫描模型采样，并在每一个采样点处定义一个隐码，并基于神经网络联合优化隐码与网络参数。

生成模块250，用于获取任意渲染视角，基于所述任意渲染视角生成自由视点视频。

在本申请实施例中，重建模块210，具体用于：使用多相机系统或扫描仪重建出所述单个人体的预扫描模型。

在本申请实施例中，变形模块230，具体用于：

E＝E_color+E_silhouette+λ_smoothE_smooth (1)

其中，

在本申请实施例中，采样训练模块240，具体用于：

对所述预扫描模型进行采样，获取系列采样点

对于每个采样点定义一个隐码

插值得到，

表示渲染视角；

输入多相机采集视角，通过体渲染获取渲染图像

与真实采集图像

构建误差函数

基于公式(2)联合训练隐码与网络参数。

在本申请的一个实施例中，生成模块250，具体用于：获取所述任意渲染视角对应的输入网络参数；基于所述输入网络参数生成所述自由视点视频。

本申请实施例的基于神经网络的动态人体自由视点视频的生成装置，通过重建单个人体的预扫描模型；通过多个RGB相机对所述单个人体拍摄，获取RGB图像序列；对预扫描模型使进行变形，使得变形后的预扫描模型与每帧RGB图像匹配；对预扫描模型采样，并在每一个采样点处定义一个隐码，并基于神经网络联合优化隐码与网络参数；获取任意渲染视角，基于任意渲染视角生成自由视点视频。由此，基于多个RGB相机捕获RGB图像序列，并根据此序列生成时域连续、动态的自由视点视频，生成更真实、动态的渲染结果。

需要说明的是，前述对基于神经网络的动态人体自由视点视频的生成方法实施例的解释说明也适用于该实施例的基于神经网络的动态人体自由视点视频的生成装置，此处不再赘述。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如，如果用硬件来实现和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本申请各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。