CN113096144A - 基于神经网络的动态人体自由视点视频的生成方法和装置 - Google Patents

基于神经网络的动态人体自由视点视频的生成方法和装置 Download PDF

Info

Publication number
CN113096144A
CN113096144A CN202110310140.9A CN202110310140A CN113096144A CN 113096144 A CN113096144 A CN 113096144A CN 202110310140 A CN202110310140 A CN 202110310140A CN 113096144 A CN113096144 A CN 113096144A
Authority
CN
China
Prior art keywords
human body
model
sampling
rgb
viewpoint video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110310140.9A
Other languages
English (en)
Other versions
CN113096144B (zh
Inventor
刘烨斌
李哲
于涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Xinchangyuan Technology Co ltd
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN202110310140.9A priority Critical patent/CN113096144B/zh
Publication of CN113096144A publication Critical patent/CN113096144A/zh
Application granted granted Critical
Publication of CN113096144B publication Critical patent/CN113096144B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/13Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/181Segmentation; Edge detection involving edge growing; involving edge linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/90Determination of colour characteristics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Processing Or Creating Images (AREA)
  • Image Processing (AREA)

Abstract

本申请提出一种基于神经网络的动态人体自由视点视频的生成方法和装置,涉及计算机视觉与计算机图形学技术领域,其中,方法包括:重建单个人体的预扫描模型;通过多个RGB相机对所述单个人体拍摄,获取RGB图像序列;对预扫描模型使进行变形,使得变形后的预扫描模型与每帧RGB图像匹配;对预扫描模型采样,并在每一个采样点处定义一个隐码,并基于神经网络联合优化隐码与网络参数;获取任意渲染视角,基于任意渲染视角生成自由视点视频。由此,基于多个RGB相机捕获RGB图像序列,并根据此序列生成时域连续、动态的自由视点视频,生成更真实、动态的渲染结果。

Description

基于神经网络的动态人体自由视点视频的生成方法和装置
技术领域
本申请涉及计算机视觉与计算机图形学技术领域,尤其涉及一种基于神经网络的动态人体自由视点视频的生成方法和装置。
背景技术
动态人体自由视点视频生成是计算机图形学和计算机视觉领域的重点问题。高质量的人体自由视点视频在影视娱乐、人体数字化等领域有着广泛的应用前景和重要的应用价值。但是高质量、高拟真度的人体自由视点视频获取通常依靠价格昂贵的激光扫描仪或者多相机阵列系统对人体建模来实现,虽然效果较为真实,但是也显著存在着一些缺点:第一,设备复杂,这些方法往往需要多相机阵列的搭建;第二,速度慢,往往重建一个三维人体模型需要至少10分钟到数小时的时间,而重建序列便更慢。
发明内容
本申请旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本申请的第一个目的在于提出一种基于神经网络的动态人体自由视点视频的生成方法,仅需要多个RGB相机,方便快速的生成动态、真实的人体自由视点视频,可以为用户提供良好的交互式三维重建体验。
本申请的第二个目的在于提出一种基于神经网络的动态人体自由视点视频的生成装置。
为达上述目的,本申请第一方面实施例提出了一种基于神经网络的动态人体自由视点视频的生成方法,包括:
重建单个人体的预扫描模型;
通过多个RGB相机对所述单个人体拍摄,获取RGB图像序列;
对所述预扫描模型使进行变形,使得变形后的所述预扫描模型与每帧RGB图像匹配;
对所述预扫描模型采样,并在每一个采样点处定义一个隐码,并基于神经网络联合优化隐码与网络参数;
获取任意渲染视角,基于所述任意渲染视角生成自由视点视频。
本申请实施例的基于神经网络的动态人体自由视点视频的生成方法,通过重建单个人体的预扫描模型;通过多个RGB相机对所述单个人体拍摄,获取RGB图像序列;对预扫描模型使进行变形,使得变形后的所述预扫描模型与每帧RGB图像匹配;对所述预扫描模型采样,并在每一个采样点处定义一个隐码,并基于神经网络联合优化隐码与网络参数;获取任意渲染视角,基于所述任意渲染视角生成自由视点视频。由此,基于多个RGB相机捕获RGB图像序列,并根据此序列生成时域连续、动态的自由视点视频,生成更真实、动态的渲染结果。
可选地,在本申请的一个实施例中,所述重建单个人体的预扫描模型,包括:使用多相机系统或扫描仪重建出所述单个人体的预扫描模型。
可选地,在本申请的一个实施例中,所述对所述预扫描模型使进行变形,使得变形后的所述预扫描模型与每帧RGB图像匹配,包括:
基于所述预扫描模型对所述每帧RGB图像进行运动跟踪,获取所述每帧RGB图像对应的同拓扑模型:
建立能量函数(1),通过最优化求解出所述预扫描模型的非刚性变形参数;
E=Ecolor+EsilhouettesmoothEsmooth (1)
其中,
Figure BDA0002989368570000021
是颜色项,其中,M是所述预扫描模型的顶点集合,v是其中一个顶点,
Figure BDA0002989368570000022
是经过非刚性变形后的顶点位置,cv是顶点颜色,π(·)表示投影函数,ColorImg(·)代表在彩色图像上采样获得相应的RGB值;
Figure BDA0002989368570000023
是轮廓项,其中,Boundary(M)表示M中靠近图像轮廓的顶点集合,DtImg是对输入轮廓做距离变换得到的图像;Esmooth为正则项;
获取所有帧RGB图像下同拓扑的所述预扫描模型。
可选地,在本申请的一个实施例中,所述对所述预扫描模型采样,并在每一个采样点处定义一个隐码,并基于神经网络联合优化隐码与网络参数,包括:
对所述预扫描模型进行采样,获取系列采样点
Figure BDA0002989368570000024
对于每个采样点定义一个隐码
Figure BDA0002989368570000025
定义fd(·)和fc(·)为设计好的神经网络,对于所述每帧RGB图像的所有空间点,对于任意空间点
Figure BDA0002989368570000026
体密度公式为:σ=fd(z);颜色公式为:c=fc(z,x,d);其中,z表示x所在位置的隐码,由
Figure BDA0002989368570000027
插值得到,
Figure BDA0002989368570000028
表示渲染视角;
输入多相机采集视角,通过体渲染获取渲染图像
Figure BDA0002989368570000029
与真实采集图像
Figure BDA00029893685700000210
构建误差函数
Figure BDA00029893685700000211
基于公式(2)联合训练隐码与网络参数。
可选地,在本申请的一个实施例中,所述基于所述任意渲染视角生成自由视点视频,包括:
获取所述任意渲染视角对应的输入网络参数;
基于所述输入网络参数生成所述自由视点视频。
为达上述目的,本申请第二方面实施例提出了一种基于神经网络的动态人体自由视点视频的生成装置,包括:
重建模块,用于重建单个人体的预扫描模型;
获取模块,用于通过多个RGB相机对所述单个人体拍摄,获取RGB图像序列;
变形模块,用于对所述预扫描模型使进行变形,使得变形后的所述预扫描模型与每帧RGB图像匹配;
采样训练模块,用于对所述预扫描模型采样,并在每一个采样点处定义一个隐码,并基于神经网络联合优化隐码与网络参数;
生成模块,用于获取任意渲染视角,基于所述任意渲染视角生成自由视点视频。
本申请实施例的基于神经网络的动态人体自由视点视频的生成装置,通过重建单个人体的预扫描模型;通过多个RGB相机对所述单个人体拍摄,获取RGB图像序列;对预扫描模型使进行变形,使得变形后的所述预扫描模型与每帧RGB图像匹配;对所述预扫描模型采样,并在每一个采样点处定义一个隐码,并基于神经网络联合优化隐码与网络参数;获取任意渲染视角,基于所述任意渲染视角生成自由视点视频。由此,基于多个RGB相机捕获RGB图像序列,并根据此序列生成时域连续、动态的自由视点视频,生成更真实、动态的渲染结果。
可选地,在本申请的一个实施例中,所述重建模块,具体用于:使用多相机系统或扫描仪重建出所述单个人体的预扫描模型。
可选地,在本申请的一个实施例中,所述变形模块,具体用于:
基于所述预扫描模型对所述每帧RGB图像进行运动跟踪,获取所述每帧RGB图像对应的同拓扑模型:
建立能量函数(1),通过最优化求解出所述预扫描模型的非刚性变形参数;
E=Ecolor+EsilhouettesmoothEsmooth (1)
其中,
Figure BDA0002989368570000031
是颜色项,其中,M是所述预扫描模型的顶点集合,v是其中一个顶点,
Figure BDA0002989368570000032
是经过非刚性变形后的顶点位置,cv是顶点颜色,π(·)表示投影函数,ColorImg(·)代表在彩色图像上采样获得相应的RGB值;
Figure BDA0002989368570000033
Figure BDA0002989368570000034
是轮廓项,其中,Boundary(M)表示M中靠近图像轮廓的顶点集合,DtImg是对输入轮廓做距离变换得到的图像;Esmooth为正则项;获取所有帧RGB图像下同拓扑的所述预扫描模型。
可选地,在本申请的一个实施例中,所述采样训练模块,具体用于:
对所述预扫描模型进行采样,获取系列采样点
Figure BDA0002989368570000035
对于每个采样点定义一个隐码
Figure BDA0002989368570000041
定义fd(·)和fc(·)为设计好的神经网络,对于所述每帧RGB图像的所有空间点,对于任意空间点
Figure BDA0002989368570000042
体密度公式为:σ=fd(z);颜色公式为:c=fc(z,x,d);其中,z表示x所在位置的隐码,由
Figure BDA0002989368570000043
插值得到,
Figure BDA0002989368570000044
表示渲染视角;
输入多相机采集视角,通过体渲染获取渲染图像
Figure BDA0002989368570000045
与真实采集图像
Figure BDA0002989368570000046
构建误差函数
Figure BDA0002989368570000047
基于公式(2)联合训练隐码与网络参数。
可选地,在本申请的一个实施例中,所述生成模块,具体用于:
获取所述任意渲染视角对应的输入网络参数;
基于所述输入网络参数生成所述自由视点视频。
本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本申请实施例所提供的一种基于神经网络的动态人体自由视点视频的生成方法的流程示意图;
图2为本申请实施例所提供的一种基于神经网络的动态人体自由视点视频的生成装置的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。
下面参考附图描述本申请实施例的基于神经网络的动态人体自由视点视频的生成方法和装置。
图1为本申请实施例所提供的一种基于神经网络的动态人体自由视点视频的生成方法的流程示意图。
具体地,本申请提出一种基于神经网络的动态人体自由视点视频的生成方法,相较于其他重建渲染分离的方法,能够生成更真实、动态的渲染结果。该方法基于多个RGB相机捕获RGB图像序列,并根据此序列生成时域连续、动态的自由视点视频。该方法主要包括以下步骤:首先,使用多相机系统或扫描仪等设备重建出人体预扫描模型;然后变形预扫描模型使之与每帧多RGB图像相匹配;对预扫描模型采样,并在每一个采样点处定义一个隐码,并基于神经网络联合优化隐码与网络参数;改变网络输入参数,生成自由视点视频。
如图1所示,该基于神经网络的动态人体自由视点视频的生成方法包括以下步骤:
步骤101,重建单个人体的预扫描模型。
在本申请实施例中,使用多相机系统或扫描仪重建出单个人体的预扫描模型。
步骤102,通过多个RGB相机对所述单个人体拍摄,获取RGB图像序列。
步骤103,对预扫描模型使进行变形,使得变形后的预扫描模型与每帧RGB图像匹配。
在本申请实施例中,基于预扫描模型对所述每帧RGB图像进行运动跟踪,获取每帧RGB图像对应的同拓扑模型:建立能量函数(1),通过最优化求解出所述预扫描模型的非刚性变形参数;E=Ecolor+EsilhouettesmoothEsmooth (1)。
其中,
Figure BDA0002989368570000051
是颜色项,其中,M是预扫描模型的顶点集合,v是其中一个顶点,
Figure BDA0002989368570000052
是经过非刚性变形后的顶点位置,cv是顶点颜色,π(·)表示投影函数,ColorImg(·)代表在彩色图像上采样获得相应的RGB值;
Figure BDA0002989368570000053
是轮廓项,其中,Boundary(M)表示M中靠近图像轮廓的顶点集合,DtImg是对输入轮廓做距离变换得到的图像;Esmooth为正则项;获取所有帧RGB图像下同拓扑的预扫描模型。
具体地,颜色项,保证了经过非刚性运动后预扫描模型能够与彩色图像的颜色对齐,轮廓项,保证了经过非刚性运动后预扫描模型能够与人体轮廓图像保持一致,正则项,约束非刚性变形尽可能的局部刚性,随后,可以获得在所有帧下同拓扑的预扫描模型。
步骤104,对预扫描模型采样,并在每一个采样点处定义一个隐码,并基于神经网络联合优化隐码与网络参数。
在本申请实施例中,对所述预扫描模型进行采样,获取系列采样点
Figure BDA0002989368570000054
对于每个采样点定义一个隐码
Figure BDA0002989368570000055
定义fd(·)和fc(·)为设计好的神经网络,对于所述每帧RGB图像的所有空间点,对于每一帧的所有空间点,要获得其体密度以及相应的颜色值,对于任意空间点
Figure BDA0002989368570000056
体密度公式为:σ=fd(z);颜色公式为:c=fc(z,x,d);其中,z表示x所在位置的隐码,由
Figure BDA0002989368570000057
插值得到,
Figure BDA0002989368570000058
表示渲染视角;输入多相机采集视角,通过体渲染获取渲染图像
Figure BDA0002989368570000059
与真实采集图像
Figure BDA00029893685700000510
构建误差函数
Figure BDA00029893685700000511
基于公式(2)联合训练隐码与网络参数。
步骤105,获取任意渲染视角,基于任意渲染视角生成自由视点视频。
具体地,训练完成后,输入任意渲染视角,生成自由视点视频。
在本申请实施例中,获取任意渲染视角对应的输入网络参数;基于输入网络参数生成自由视点视频。
本申请实施例的基于神经网络的动态人体自由视点视频的生成方法,通过重建单个人体的预扫描模型;通过多个RGB相机对所述单个人体拍摄,获取RGB图像序列;对预扫描模型使进行变形,使得变形后的预扫描模型与每帧RGB图像匹配;对预扫描模型采样,并在每一个采样点处定义一个隐码,并基于神经网络联合优化隐码与网络参数;获取任意渲染视角,基于任意渲染视角生成自由视点视频。由此,基于多个RGB相机捕获RGB图像序列,并根据此序列生成时域连续、动态的自由视点视频,生成更真实、动态的渲染结果。
为了实现上述实施例,本申请还提出一种基于神经网络的动态人体自由视点视频的生成装置。
图2为本申请实施例提供的一种基于神经网络的动态人体自由视点视频的生成装置的结构示意图。
如图2所示,该基于神经网络的动态人体自由视点视频的生成装置包括:重建模块210、获取模块220、变形模块230、采样训练模块240和生成模块250。
重建模块210,用于重建单个人体的预扫描模型。
获取模块220,用于通过多个RGB相机对所述单个人体拍摄,获取RGB图像序列。
变形模块230,用于对所述预扫描模型使进行变形,使得变形后的所述预扫描模型与每帧RGB图像匹配。
采样训练模块240,用于对所述预扫描模型采样,并在每一个采样点处定义一个隐码,并基于神经网络联合优化隐码与网络参数。
生成模块250,用于获取任意渲染视角,基于所述任意渲染视角生成自由视点视频。
在本申请实施例中,重建模块210,具体用于:使用多相机系统或扫描仪重建出所述单个人体的预扫描模型。
在本申请实施例中,变形模块230,具体用于:
基于所述预扫描模型对所述每帧RGB图像进行运动跟踪,获取所述每帧RGB图像对应的同拓扑模型:
建立能量函数(1),通过最优化求解出所述预扫描模型的非刚性变形参数;
E=Ecolor+EsilhouettesmoothEsmooth (1)
其中,
Figure BDA0002989368570000061
是颜色项,其中,M是所述预扫描模型的顶点集合,v是其中一个顶点,
Figure BDA0002989368570000062
是经过非刚性变形后的顶点位置,cv是顶点颜色,π(·)表示投影函数,ColorImg(·)代表在彩色图像上采样获得相应的RGB值;
Figure BDA0002989368570000071
是轮廓项,其中,Boundary(M)表示M中靠近图像轮廓的顶点集合,DtImg是对输入轮廓做距离变换得到的图像;Esmooth为正则项;获取所有帧RGB图像下同拓扑的所述预扫描模型。
在本申请实施例中,采样训练模块240,具体用于:
对所述预扫描模型进行采样,获取系列采样点
Figure BDA0002989368570000072
对于每个采样点定义一个隐码
Figure BDA0002989368570000073
定义fd(·)和fc(·)为设计好的神经网络,对于所述每帧RGB图像的所有空间点,对于任意空间点
Figure BDA0002989368570000074
体密度公式为:σ=fd(z);颜色公式为:c=fc(z,x,d);其中,z表示x所在位置的隐码,由
Figure BDA0002989368570000075
插值得到,
Figure BDA0002989368570000076
表示渲染视角;
输入多相机采集视角,通过体渲染获取渲染图像
Figure BDA0002989368570000077
与真实采集图像
Figure BDA0002989368570000078
构建误差函数
Figure BDA0002989368570000079
基于公式(2)联合训练隐码与网络参数。
在本申请的一个实施例中,生成模块250,具体用于:获取所述任意渲染视角对应的输入网络参数;基于所述输入网络参数生成所述自由视点视频。
本申请实施例的基于神经网络的动态人体自由视点视频的生成装置,通过重建单个人体的预扫描模型;通过多个RGB相机对所述单个人体拍摄,获取RGB图像序列;对预扫描模型使进行变形,使得变形后的预扫描模型与每帧RGB图像匹配;对预扫描模型采样,并在每一个采样点处定义一个隐码,并基于神经网络联合优化隐码与网络参数;获取任意渲染视角,基于任意渲染视角生成自由视点视频。由此,基于多个RGB相机捕获RGB图像序列,并根据此序列生成时域连续、动态的自由视点视频,生成更真实、动态的渲染结果。
需要说明的是,前述对基于神经网络的动态人体自由视点视频的生成方法实施例的解释说明也适用于该实施例的基于神经网络的动态人体自由视点视频的生成装置,此处不再赘述。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (10)

1.一种基于神经网络的动态人体自由视点视频的生成方法,其特征在于,包括:
重建单个人体的预扫描模型;
通过多个RGB相机对所述单个人体拍摄,获取RGB图像序列;
对所述预扫描模型使进行变形,使得变形后的所述预扫描模型与每帧RGB图像匹配;
对所述预扫描模型采样,并在每一个采样点处定义一个隐码,并基于神经网络联合优化隐码与网络参数;
获取任意渲染视角,基于所述任意渲染视角生成自由视点视频。
2.如权利要求1所述的方法,其特征在于,所述重建单个人体的预扫描模型,包括:
使用多相机系统或扫描仪重建出所述单个人体的预扫描模型。
3.如权利要求1所述的方法,其特征在于,所述对所述预扫描模型使进行变形,使得变形后的所述预扫描模型与每帧RGB图像匹配,包括:
基于所述预扫描模型对所述每帧RGB图像进行运动跟踪,获取所述每帧RGB图像对应的同拓扑模型:
建立能量函数(1),通过最优化求解出所述预扫描模型的非刚性变形参数;
E=Ecolor+EsilhouettesmoothEsmooth (1)
其中,
Figure FDA0002989368560000011
是颜色项,其中,M是所述预扫描模型的顶点集合,v是其中一个顶点,
Figure FDA0002989368560000012
是经过非刚性变形后的顶点位置,cv是顶点颜色,π(·)表示投影函数,ColorImg(·)代表在彩色图像上采样获得相应的RGB值;
Figure FDA0002989368560000013
是轮廓项,其中,Boundary(M)表示M中靠近图像轮廓的顶点集合,DtImg是对输入轮廓做距离变换得到的图像;Esmooth为正则项;
获取所有帧RGB图像下同拓扑的所述预扫描模型。
4.如权利要求3所述的方法,其特征在于,所述对所述预扫描模型采样,并在每一个采样点处定义一个隐码,并基于神经网络联合优化隐码与网络参数,包括:
对所述预扫描模型进行采样,获取系列采样点
Figure FDA0002989368560000014
对于每个采样点定义一个隐码
Figure FDA0002989368560000015
定义fd(·)和fc(·)为设计好的神经网络,对于所述每帧RGB图像的所有空间点,对于任意空间点
Figure FDA0002989368560000016
体密度公式为:σ=fd(z);颜色公式为:c=fc(z,x,d);其中,z表示x所在位置的隐码,由
Figure FDA0002989368560000021
插值得到,
Figure FDA0002989368560000022
表示渲染视角;
输入多相机采集视角,通过体渲染获取渲染图像
Figure FDA0002989368560000023
与真实采集图像
Figure FDA0002989368560000024
构建误差函数
Figure FDA0002989368560000025
基于公式(2)联合训练隐码与网络参数。
5.如权利要求1所述的方法,其特征在于,所述基于所述任意渲染视角生成自由视点视频,包括:
获取所述任意渲染视角对应的输入网络参数;
基于所述输入网络参数生成所述自由视点视频。
6.一种基于神经网络的动态人体自由视点视频的生成装置,其特征在于,包括:
重建模块,用于重建单个人体的预扫描模型;
获取模块,用于通过多个RGB相机对所述单个人体拍摄,获取RGB图像序列;
变形模块,用于对所述预扫描模型使进行变形,使得变形后的所述预扫描模型与每帧RGB图像匹配;
采样训练模块,用于对所述预扫描模型采样,并在每一个采样点处定义一个隐码,并基于神经网络联合优化隐码与网络参数;
生成模块,用于获取任意渲染视角,基于所述任意渲染视角生成自由视点视频。
7.如权利要求6所述的装置,其特征在于,所述重建模块,具体用于:
使用多相机系统或扫描仪重建出所述单个人体的预扫描模型。
8.如权利要求6所述的装置,其特征在于,所述变形模块,具体用于:
基于所述预扫描模型对所述每帧RGB图像进行运动跟踪,获取所述每帧RGB图像对应的同拓扑模型:
建立能量函数(1),通过最优化求解出所述预扫描模型的非刚性变形参数;
E=Ecolor+EsilhouettesmoothEsmooth (1)
其中,
Figure FDA0002989368560000026
是颜色项,其中,M是所述预扫描模型的顶点集合,v是其中一个顶点,
Figure FDA0002989368560000027
是经过非刚性变形后的顶点位置,cv是顶点颜色,π(·)表示投影函数,ColorImg(·)代表在彩色图像上采样获得相应的RGB值;
Figure FDA0002989368560000028
是轮廓项,其中,Boundary(M)表示M中靠近图像轮廓的顶点集合,DtImg是对输入轮廓做距离变换得到的图像;Esmooth为正则项;获取所有帧RGB图像下同拓扑的所述预扫描模型。
9.如权利要求8所述的装置,其特征在于,所述采样训练模块,具体用于:
对所述预扫描模型进行采样,获取系列采样点
Figure FDA0002989368560000031
对于每个采样点定义一个隐码
Figure FDA0002989368560000032
定义fd(·)和fc(·)为设计好的神经网络,对于所述每帧RGB图像的所有空间点,对于任意空间点
Figure FDA0002989368560000033
体密度公式为:σ=fd(z);颜色公式为:c=fc(z,x,d);其中,z表示x所在位置的隐码,由
Figure FDA0002989368560000034
插值得到,
Figure FDA0002989368560000035
表示渲染视角;
输入多相机采集视角,通过体渲染获取渲染图像
Figure FDA0002989368560000036
与真实采集图像
Figure FDA0002989368560000037
构建误差函数
Figure FDA0002989368560000038
基于公式(2)联合训练隐码与网络参数。
10.如权利要求6所述的装置,其特征在于,所述生成模块,具体用于:
获取所述任意渲染视角对应的输入网络参数;
基于所述输入网络参数生成所述自由视点视频。
CN202110310140.9A 2021-03-23 2021-03-23 基于神经网络的动态人体自由视点视频的生成方法和装置 Active CN113096144B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110310140.9A CN113096144B (zh) 2021-03-23 2021-03-23 基于神经网络的动态人体自由视点视频的生成方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110310140.9A CN113096144B (zh) 2021-03-23 2021-03-23 基于神经网络的动态人体自由视点视频的生成方法和装置

Publications (2)

Publication Number Publication Date
CN113096144A true CN113096144A (zh) 2021-07-09
CN113096144B CN113096144B (zh) 2022-07-29

Family

ID=76669115

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110310140.9A Active CN113096144B (zh) 2021-03-23 2021-03-23 基于神经网络的动态人体自由视点视频的生成方法和装置

Country Status (1)

Country Link
CN (1) CN113096144B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114648613A (zh) * 2022-05-18 2022-06-21 杭州像衍科技有限公司 基于可变形神经辐射场的三维头部模型重建方法及装置
CN115937374A (zh) * 2022-12-27 2023-04-07 北京元起点信息科技有限公司 一种数字人体建模方法、装置、设备及介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108171791A (zh) * 2017-12-27 2018-06-15 清华大学 基于多深度摄像机的动态场景实时三维重建方法及装置
CN108335353A (zh) * 2018-02-23 2018-07-27 清华-伯克利深圳学院筹备办公室 动态场景的三维重建方法、装置和系统、服务器、介质
CN111127536A (zh) * 2019-12-11 2020-05-08 清华大学 基于神经网络的光场多平面表示重建方法及装置
WO2020254448A1 (en) * 2019-06-17 2020-12-24 Ariel Ai Inc. Scene reconstruction in three-dimensions from two-dimensional images
CN112401369A (zh) * 2020-11-23 2021-02-26 叠境数字科技(上海)有限公司 基于人体重建的身体参数测量方法、系统、设备、芯片及介质
CN112465955A (zh) * 2020-12-10 2021-03-09 浙江大学 一种动态人体三维重建和视角合成方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108171791A (zh) * 2017-12-27 2018-06-15 清华大学 基于多深度摄像机的动态场景实时三维重建方法及装置
CN108335353A (zh) * 2018-02-23 2018-07-27 清华-伯克利深圳学院筹备办公室 动态场景的三维重建方法、装置和系统、服务器、介质
WO2020254448A1 (en) * 2019-06-17 2020-12-24 Ariel Ai Inc. Scene reconstruction in three-dimensions from two-dimensional images
CN111127536A (zh) * 2019-12-11 2020-05-08 清华大学 基于神经网络的光场多平面表示重建方法及装置
CN112401369A (zh) * 2020-11-23 2021-02-26 叠境数字科技(上海)有限公司 基于人体重建的身体参数测量方法、系统、设备、芯片及介质
CN112465955A (zh) * 2020-12-10 2021-03-09 浙江大学 一种动态人体三维重建和视角合成方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JONATHAN BOISVERT 等: "Three-Dimensional Human Shape Inference from Silhouettes : Reconstruction and Validation", 《MACHINE VISION AND APPLICATIONS》, 21 July 2011 (2011-07-21) *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114648613A (zh) * 2022-05-18 2022-06-21 杭州像衍科技有限公司 基于可变形神经辐射场的三维头部模型重建方法及装置
CN115937374A (zh) * 2022-12-27 2023-04-07 北京元起点信息科技有限公司 一种数字人体建模方法、装置、设备及介质
CN115937374B (zh) * 2022-12-27 2023-11-07 北京元起点信息科技有限公司 一种数字人体建模方法、装置、设备及介质

Also Published As

Publication number Publication date
CN113096144B (zh) 2022-07-29

Similar Documents

Publication Publication Date Title
CN113706714B (zh) 基于深度图像和神经辐射场的新视角合成方法
CN113099208B (zh) 基于神经辐射场的动态人体自由视点视频生成方法和装置
Olszewski et al. Transformable bottleneck networks
Lertrattanapanich et al. High resolution image formation from low resolution frames using Delaunay triangulation
CN112465955B (zh) 一种动态人体三维重建和视角合成方法
JP6214562B2 (ja) 適応型多次元データ分解
US8749556B2 (en) Data compression for real-time streaming of deformable 3D models for 3D animation
CN113096144B (zh) 基于神经网络的动态人体自由视点视频的生成方法和装置
CN111340944B (zh) 基于隐式函数和人体模板的单图像人体三维重建方法
US20150022521A1 (en) Sparse GPU Voxelization for 3D Surface Reconstruction
JP2007265396A (ja) 顔モデルを生成する方法およびシステム
US6317139B1 (en) Method and apparatus for rendering 3-D surfaces from 2-D filtered silhouettes
CN112862901A (zh) 基于多视视频与时空神经辐射场的实验动物视场模拟方法
CN113033442B (zh) 基于StyleGAN的高自由度人脸驱动方法和装置
CN113240622A (zh) 人体场景图像本征分解与重光照方法和装置
CN114863038A (zh) 基于显式几何形变的实时动态自由视角合成方法及装置
CN112907737A (zh) 基于隐函数融合的动态人体三维重建方法和装置
CN110430416B (zh) 自由视点图像生成方法和装置
CN112614229A (zh) 基于深度学习的人脸重建方法和装置
CN115375839A (zh) 一种基于深度学习的多视角头发建模方法及系统
WO2022248042A1 (en) Neural radiance field rig for human 3d shape and appearance modelling
CN115116468A (zh) 一种视频生成方法、装置、存储介质及电子设备
Ganeeva et al. The impact of intermediate video frames reconstruction step on the result of 3D reconstruction of objects
CN111932670A (zh) 基于单个rgbd相机的三维人体自画像重建方法及系统
CN112907733A (zh) 重建三维模型的方法及装置和三维模型采集及重建系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20221222

Address after: Room 3346, Floor 3, International Innovation Expo Center, No. 267, Kejiyuan Road, Baiyang Street, Qiantang District, Hangzhou, Zhejiang 310020

Patentee after: Hangzhou Xinchangyuan Technology Co.,Ltd.

Address before: 100084 Tsinghua Yuan, Beijing, Haidian District

Patentee before: TSINGHUA University