CN113099208B - 基于神经辐射场的动态人体自由视点视频生成方法和装置 - Google Patents

基于神经辐射场的动态人体自由视点视频生成方法和装置 Download PDF

Info

Publication number
CN113099208B
CN113099208B CN202110348745.7A CN202110348745A CN113099208B CN 113099208 B CN113099208 B CN 113099208B CN 202110348745 A CN202110348745 A CN 202110348745A CN 113099208 B CN113099208 B CN 113099208B
Authority
CN
China
Prior art keywords
human body
image
dimensional
radiation field
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110348745.7A
Other languages
English (en)
Other versions
CN113099208A (zh
Inventor
刘烨斌
郑泽荣
于涛
戴琼海
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Xinchangyuan Technology Co ltd
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN202110348745.7A priority Critical patent/CN113099208B/zh
Publication of CN113099208A publication Critical patent/CN113099208A/zh
Application granted granted Critical
Publication of CN113099208B publication Critical patent/CN113099208B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/261Image signal generators with monoscopic-to-stereoscopic image conversion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/275Image signal generators from 3D object models, e.g. computer-generated stereoscopic image signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/282Image signal generators for generating image signals corresponding to three or more geometrical viewpoints, e.g. multi-view systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明提出一种基于神经辐射场的动态人体自由视点视频生成方法和装置,其中,方法包括:采集动态单人体图像序列;利用卷积神经网络,对图像序列的每一帧提取人体关节点在图像上的位置;利用人体关节点位置信息,对整个图像序列拟合对应的人体模板动态序列;构建神经辐射场网络;利用人体模板姿态序列和所有图像训练神经辐射场网络;训练完成后,给定任意观察视点,即可对训练好的神经辐射场做体渲染,得到该新视点下的图像。由此,能够自动地实现从单视点动态人体视频到自由视点动态人体视频的转换,得到逼真的自由视点渲染结果。

Description

基于神经辐射场的动态人体自由视点视频生成方法和装置
技术领域
本发明涉及计算机视觉和计算机图形学技术领域,尤其涉及一种基于神经辐射场的动态人体自由视点视频生成方法和装置。
背景技术
动态人体的自由视点视频生成是计算机图形学和计算机视觉领域的重点问题。高质量的自由视点视频生成在影视娱乐、全息通信等领域有着广泛的应用前景和重要的应用价值。然而,当前高质量的动态人体自由视点视频的获取通常依靠价格昂贵的多相机阵列系统来实现,虽然精度较高,但是也显著存在着一些缺点:第一,造假昂贵,很难普及到普通民众日常生活中;第二,速度慢,往往重建一帧的自由视点视频就需要至少10分钟到数小时的时间。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的第一个目的在于提出一种基于神经辐射场的动态人体自由视点视频生成方法,以实现针对动态人体的自由视点视频生成。
本发明的第二个目的在于提出一种基于神经辐射场的动态人体自由视点视频生成装置。
本发明的第三个目的在于提出一种计算机设备。
为达上述目的,本发明第一方面实施例提出了一种基于神经辐射场的动态人体自由视点视频生成方法,包括:采集动态单人体的图像序列;通过预设的卷积神经网络,对所述图像序列中的每一帧图像提取人体关节点的位置信息;根据所述位置信息对所述图像序列拟合生成对应的三维人体模板动态序列;构建初始神经辐射场网络,并根据预设的损失函数、所述三维人体模板动态序列和所述图像序列训练所述初始神经辐射场网络获取目标神经辐射场网络;通过所述目标神经辐射场网络和所述图像序列,渲染指定视点下的图像。
为达上述目的,本发明第二方面实施例提出了一种基于神经辐射场的动态人体自由视点视频生成装置,包括:采集模块,用于采集动态单人体的图像序列;提取模块,用于通过预设的卷积神经网络,对所述图像序列中的每一帧图像提取人体关节点的位置信息;生成模块,用于根据所述位置信息对所述图像序列拟合生成对应的三维人体模板动态序列;训练模块,用于构建初始神经辐射场网络,并根据预设的损失函数、所述三维人体模板动态序列和所述图像序列训练所述初始神经辐射场网络获取目标神经辐射场网络;渲染模块,用于通过所述目标神经辐射场网络和所述图像序列,渲染指定视点下的图像。
为达上述目的,本发明第三方面实施例提出了一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如上述第一方面实施例所述的基于神经辐射场的动态人体自由视点视频生成方法。
本发明的实施例,至少具有如下的技术效果:
采集动态单人体图像序列;利用卷积神经网络,对图像序列的每一帧提取人体关节点在图像上的位置;利用人体关节点位置信息,对整个图像序列拟合对应的人体模板动态序列;构建神经辐射场网络;利用人体模板姿态序列和所有图像训练神经辐射场网络;训练完成后,给定任意观察视点,即可对训练好的神经辐射场做体渲染,得到该新视点下的图像。根据本发明实施例的动态人体自由视点视频生成方法,能够自动地实现从单视点动态人体视频到自由视点动态人体视频的转换,得到逼真的自由视点渲染结果。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本发明实施例所提供的一种基于神经辐射场的动态人体自由视点视频生成方法的流程示意图;
图2为本发明实施例所提供的另一种基于神经辐射场的动态人体自由视点视频生成方法的流程示意图;以及
图3为本发明实施例所提供的一种基于神经辐射场的动态人体自由视点视频生成装置的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参考附图描述本发明实施例的基于神经辐射场的动态人体自由视点视频生成方法和装置。
图1为本发明实施例所提供的一种基于神经辐射场的动态人体自由视点视频生成方法的流程示意图。
如图1所示,该方法包括以下步骤:
步骤101,采集动态单人体的图像序列。
本实施例中,采集动态单人体图像序列,记作
Figure BDA0003001704120000031
其中N为序列长度,即图像数目,i表示第i张图像,即第i帧。
步骤102,通过预设的卷积神经网络,对图像序列中的每一帧图像提取人体关节点的位置信息。
在本实施例中,利用卷积神经网络,对图像序列的每一帧Ii提取人体关节点在图像上的位置
Figure BDA0003001704120000032
其中j表示第j个关节点,J为关节点总数目,关节点包括但不限于髋关节、膝关节、踝关节、脚尖、肘关节、腕关节、肩关节、头部等。
在本发明的一个实施例中,所使用的三维人体模板,为一个线性函数M(·),该函数的输入是人体的姿态参数,即骨架关节的旋转量θ,输出是三维人体模板的顶点坐标
Figure BDA0003001704120000033
即V=M(θ),其中S为三维人体模板的顶点总数。从输出的三维人体模板顶点坐标中,可以回归出人体模板的关节点坐标:K=RKV,其中
Figure BDA0003001704120000034
为回归矩阵。
步骤103,根据位置信息对图像序列拟合生成对应的三维人体模板动态序列。
在本实施例中,利用人体关节点位置信息,对整个序列拟合对应的三维人体模板动态序列
Figure BDA0003001704120000035
拟合三维人体模板动态序列的方法为,最小化如下的能量函数E为下述公式(1)所示:
Figure BDA0003001704120000036
其中,π(·)为相机投影函数,用于将空间中的三维点根据相机内外参投影至图像二维平面,K(i)为第i帧的三维人体模板的关节点坐标,即K(i)=RKV(i)=RKM(θ(i)),
Figure BDA0003001704120000037
Figure BDA0003001704120000038
堆叠而成的矩阵,θ(i)为第i帧的人体模板姿态参数。
步骤104,构建初始神经辐射场网络,并根据预设的损失函数、三维人体模板动态序列和图像序列训练初始神经辐射场网络获取目标神经辐射场网络。
在本实施例中,构建神经辐射场网络f(·),利用人体模板姿态序列和所有图像构建损失函数L,训练神经辐射场网络。
在本发明的一个实施例中,用于训练神经辐射场网络f(·)的损失函数为:
Figure BDA0003001704120000041
Figure BDA0003001704120000042
其中c(i)(r)为第i帧的射线r利用f(·)进行体渲染,所得到的颜色值,
Figure BDA0003001704120000043
是其真实值,即采集得到的图像像素颜色值。
步骤105,通过目标神经辐射场网络和图像序列,渲染指定视点下的图像。
在本实施例中,神经辐射场为一个以五维向量为输入的函数f(·),其中五维中的三维对应一个空间中三维点的坐标(x,y,z),另外二维为观察方向(φ,ψ),函数的输出为RGB颜色值c=(R,G,B)和体密度σ,即
Figure BDA0003001704120000044
表示三维空间中各个点的颜色值和密度分布。对该函数的输出做体渲染,可以将其渲染为二维图像。具体来说,给定任意相机内外参数,对于任意以相机光心o为起点,d为方向的相机射线r(t)=o+td,该射线在图像上的像素颜色为该射线上采样点的颜色值的加权求和,具体公式为公式(2):
Figure BDA0003001704120000045
其中,
Figure BDA0003001704120000046
δ为采样间隔,下标p/q表示第p/q个采样点。
在本实施例中,训练完成后,给定任意观察视点合帧序号,即可对训练好的神经辐射场做体渲染,得到该新视点下的图像。
在本发明的一个实施例中,训练完成后,给定任意观察视点,即可对第i帧的神经辐射场进行体渲染,渲染方法遍历图像上所有像素,确定对应的相机射线,在射线上进行采样后计算采样点的加权求和,计算方法参照上述实施例,神经辐射场输入第i帧空间中三维点的坐标x=(x,y,z)之后,会根据第i帧的人体模板姿态信息,将其转换到关节坐标系下,转换方式为,利用拟合得到的人体姿态参数θ(i),计算各个关节点的三维位置
Figure BDA0003001704120000047
及旋转矩阵
Figure BDA0003001704120000048
然后将三维点坐标转换到该关节坐标系下:
Figure BDA0003001704120000049
转换完成后,利用全连接网络对其做特征提取,并最终回归出当前帧该点的RGB颜色值c=(R,G,B)和体密度σ,即参照公式(3),其中,在公式(3)中,其中g()为一个全连接网络,,包含8个全连接层,全连接层采用线性整流函数为激活函数,每个全连接层的神经元数目为256:
Figure BDA00030017041200000410
也可以理解,训练完成后,给定任意观察视点,即可对第i帧的神经辐射场进行体渲染,渲染方法遍历图像上所有像素,确定对应的相机射线,在射线上进行采样后计算采样点的加权求和,计算方法与训练时所述的方法相同。
为了使得本领域的技术人员更加清楚的了解,如何基于神经辐射场的动态人体自由视点视频生成,下面结合具体的应用场景进行说明:
如图2所示,在该场景中,根据本发明一个实施例的基于神经辐射场的动态人体自由视点视频生成方法,其步骤包括:
步骤201,采集动态单人体图像序列。采集时需要采集对象做某段动作序列,可以更换朝向重复多次,使得相机能够看到人体的正面和背面。
步骤202,利用卷积神经网络,对图像序列的每一帧Ii提取人体关节点在图像上的位置
Figure BDA0003001704120000051
其中j表示第j个关节点,J为关节点总数目,所提取的关节包括髋关节、膝关节、踝关节、脚尖、肘关节、腕关节、肩关节、头部等。
步骤203,构建满足预设条件的图像特征提取网络。利用人体关节点位置信息,对整个序列拟合对应的三维人体模板动态序列
Figure BDA0003001704120000052
所使用的三维人体模板,为一个线性函数M(·),该函数的输入是人体的姿态参数,即骨架关节的旋转量θ,输出是三维人体模板的顶点坐标
Figure BDA0003001704120000053
即V=M(θ),其中S为三维人体模板的顶点总数。从输出的三维人体模板顶点坐标中,可以回归出人体模板的关节点坐标:K=RKV,同样包括包括髋关节、膝关节、踝关节、脚尖、肘关节、腕关节、肩关节、头部,其中
Figure BDA0003001704120000054
为回归矩阵。拟合三维人体模板动态序列的方法为,最小化如下的能量函数E:
Figure BDA0003001704120000055
其中,π(·)为相机投影函数,用于将空间中的三维点根据相机内外参投影至图像二维平面,K(i)为第i帧的三维人体模板的关节点坐标,即K(i)=RKV(i)=RKM(θ(i)),
Figure BDA0003001704120000056
Figure BDA0003001704120000057
堆叠而成的矩阵,θ(i)为第i帧的人体模板姿态参数。
步骤204,构建神经辐射场网络f(·)。神经辐射场为一个以五维向量为输入的函数f(·),其中五维中的三维对应一个空间中三维点的坐标(x,y,z),另外二维为观察方向(φ,ψ),函数的输出为RGB颜色值c=(R,G,B)和体密度σ,即
Figure BDA0003001704120000058
表示三维空间中各个点的颜色值和密度分布。
训练时,对该函数的输出做体渲染,可以将其渲染为二维图像。具体来说,给定任意相机内外参数,对于任意以相机光心o为起点,d为方向的相机射线r(t)=o+td,该射线在图像上的像素颜色为该射线上采样点的颜色值的加权求和,具体公式为:
Figure BDA0003001704120000061
其中,
Figure BDA0003001704120000062
其中,δ为采样间隔,下标p/q表示第p/q个采样点。神经辐射场输入第i帧空间中三维点的坐标x=(x,y,z)之后,会根据第i帧的人体模板姿态信息,将其转换到关节坐标系下,转换方式为,利用拟合得到的人体姿态参数θ(i),计算各个关节点的三维位置
Figure BDA0003001704120000063
及旋转矩阵
Figure BDA0003001704120000064
然后将三维点坐标转换到该关节坐标系下:
Figure BDA0003001704120000065
转换完成后,利用全连接网络对其做特征提取,并最终回归出当前帧该点的RGB颜色值c=(R,G,B)和体密度σ,即
Figure BDA0003001704120000066
其中g()为一个全连接网络,包含8个全连接层,全连接层采用线性整流函数为激活函数,每个全连接层的神经元数目为256。
步骤205,利用人体模板姿态序列和所有图像构建损失函数L,训练神经辐射场网络。用于训练神经辐射场网络f(·)的损失函数为:
Figure BDA0003001704120000067
其中c(i)(r)为第i帧的射线r利用f(·)进行体渲染,所得到的颜色值,
Figure BDA0003001704120000068
是其真实值,即采集得到的图像像素颜色值。
步骤206,训练完成后,给定任意观察视点,即可对第i帧的神经辐射场进行体渲染,渲染方法遍历图像上所有像素,确定对应的相机射线,在射线上进行采样后计算采样点的加权求和,计算方法与训练时所述的方法相同。
综上,本发明实施例的基于神经辐射场的动态人体自由视点视频生成方法,通过对所有输入图像拟合人体模板来建立帧与帧之间的联系,并通过协同训练来实现多帧信息的融合,从而实现单视点视频到自由视点视频的转换,具有很强的使用性。
为了实现上述实施例,本发明还提出一种基于神经辐射场的动态人体自由视点视频生成装置。
图3为本发明实施例提供的一种基于神经辐射场的动态人体自由视点视频生成装置的结构示意图。
如图3所示,该基于神经辐射场的动态人体自由视点视频生成装置包括:采集模块301、提取模块302、生成模块303、训练模块304和渲染模块305。
其中,采集模块301,用于采集动态单人体的图像序列;
提取模块302,用于通过预设的卷积神经网络,对所述图像序列中的每一帧图像提取人体关节点的位置信息;
生成模块303,用于根据所述位置信息对所述图像序列拟合生成对应的三维人体模板动态序列;
训练模块304,用于构建初始神经辐射场网络,并根据预设的损失函数、所述三维人体模板动态序列和所述图像序列训练所述初始神经辐射场网络获取目标神经辐射场网络;
渲染模块305,用于通过所述目标神经辐射场网络和所述图像序列,渲染指定视点下的图像。
需要说明的是,前述对基于神经辐射场的动态人体自由视点视频生成方法实施例的解释说明也适用于该实施例的基于神经辐射场的动态人体自由视点视频生成装置,此处不再赘述。
为了实现上述实施例,本发明还提出一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如上述实施例所描述的基于神经辐射场的动态人体自由视点视频生成方法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (8)

1.一种基于神经辐射场的动态人体自由视点视频生成方法,其特征在于,包括以下步骤:
采集动态单人体的图像序列;
通过预设的卷积神经网络,对所述图像序列中的每一帧图像提取人体关节点的位置信息;
根据所述位置信息对所述图像序列拟合生成对应的三维人体模板动态序列,其中,所述根据所述位置信息对所述图像序列拟合生成对应的三维人体模板动态序列,包括:根据预设的能量函数对所述图像序列拟合生成对应的三维人体模板动态序列,所述预设的能量函数为:
Figure FDA0003605848000000011
其中,π(·)为相机投影函数,用于将空间中的三维点根据相机内外参投影至图像二维平面,K(i)为第i帧的三维人体模板的关节点坐标,即K(i)=RKV(i)=RKM(θ(i)),
Figure FDA0003605848000000012
Figure FDA0003605848000000013
堆叠而成的矩阵,θ(i)为第i帧的图像的姿态参数,
Figure FDA0003605848000000014
为回归矩阵,其中,
Figure FDA0003605848000000015
为三维人体模板的顶点坐标,S为三维人体模板的顶点总数,J表示第J个关节点;
构建初始神经辐射场网络,并根据预设的损失函数、所述三维人体模板动态序列和所述图像序列训练所述初始神经辐射场网络获取目标神经辐射场网络;
通过所述目标神经辐射场网络和所述图像序列,渲染指定视点下的图像。
2.如权利要求1所述的方法,其特征在于,所述通过预设的卷积神经网络,对所述图像序列中的每一帧图像提取人体关节点的位置信息,包括:
获取所述预设的卷积神经网络对应的线性函数;
提取所述每一帧图像中的人体姿态参数,将所述人体姿态参数输入所述线性函数,获取三维人体模板的顶点坐标;
根据所述三维人体模板的顶点坐标和回归矩阵回归出所述人体关节点的位置信息。
3.如权利要求2所述的方法,其特征在于,所述人体姿态参数包括:
骨架关节的旋转量θ。
4.如权利要求1所述的方法,其特征在于,所述目标神经辐射场网络为:
一个以五维向量为输入的函数f(·),其中,所述五维向量中的三维对应一个空间中三维点的坐标(x,y,z),所述五维向量中的另外二维为观察方向(φ,ψ),所述函数f(·)的输出为RGB颜色值c=(R,G,B)和体密度σ,即f:
Figure FDA0003605848000000021
表示三维空间中各个点的颜色值和密度分布。
5.如权利要求4所述的方法,其特征在于,所述预设的损失函数,包括:
Figure FDA0003605848000000022
其中,c(i)(r)为第i帧的图像的射线r利用f(·)进行体渲染,所得到的颜色值,
Figure FDA0003605848000000023
是第i帧的图像的真实颜色值。
6.如权利要求5所述的方法,其特征在于,所述通过所述目标神经辐射场网络和所述图像序列,渲染指定视点下的图像,包括:
遍历第i帧的神经辐射场对应的图像中所有的像素,确定与所述指定视点对应的相机射线;
在所述相机射线上进行采样后计算采样点的加权求和,以实现渲染指定视点下的图像。
7.一种基于神经辐射场的动态人体自由视点视频生成装置,其特征在于,包括:
采集模块,用于采集动态单人体的图像序列;
提取模块,用于通过预设的卷积神经网络,对所述图像序列中的每一帧图像提取人体关节点的位置信息;
生成模块,用于根据所述位置信息对所述图像序列拟合生成对应的三维人体模板动态序列,其中,所述根据所述位置信息对所述图像序列拟合生成对应的三维人体模板动态序列,包括:根据预设的能量函数对所述图像序列拟合生成对应的三维人体模板动态序列,所述预设的能量函数为:
Figure FDA0003605848000000024
其中,π(·)为相机投影函数,用于将空间中的三维点根据相机内外参投影至图像二维平面,K(i)为第i帧的三维人体模板的关节点坐标,即K(i)=RKV(i)=RKM(θ(i)),
Figure FDA0003605848000000025
Figure FDA0003605848000000026
堆叠而成的矩阵,θ(i)为第i帧的图像的姿态参数,
Figure FDA0003605848000000027
为回归矩阵,其中,
Figure FDA0003605848000000028
为三维人体模板的顶点坐标,S为三维人体模板的顶点总数,J表示第J个关节点;
训练模块,用于构建初始神经辐射场网络,并根据预设的损失函数、所述三维人体模板动态序列和所述图像序列训练所述初始神经辐射场网络获取目标神经辐射场网络;
渲染模块,用于通过所述目标神经辐射场网络和所述图像序列,渲染指定视点下的图像。
8.一种计算机设备,其特征在于,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如权利要求1-6中任一所述的方法。
CN202110348745.7A 2021-03-31 2021-03-31 基于神经辐射场的动态人体自由视点视频生成方法和装置 Active CN113099208B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110348745.7A CN113099208B (zh) 2021-03-31 2021-03-31 基于神经辐射场的动态人体自由视点视频生成方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110348745.7A CN113099208B (zh) 2021-03-31 2021-03-31 基于神经辐射场的动态人体自由视点视频生成方法和装置

Publications (2)

Publication Number Publication Date
CN113099208A CN113099208A (zh) 2021-07-09
CN113099208B true CN113099208B (zh) 2022-07-29

Family

ID=76671744

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110348745.7A Active CN113099208B (zh) 2021-03-31 2021-03-31 基于神经辐射场的动态人体自由视点视频生成方法和装置

Country Status (1)

Country Link
CN (1) CN113099208B (zh)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113689540B (zh) * 2021-07-22 2024-04-23 清华大学 基于rgb视频的物体重建方法和装置
WO2023004558A1 (en) * 2021-07-26 2023-02-02 Shanghaitech University Neural implicit function for end-to-end reconstruction of dynamic cryo-em structures
CN118076977A (zh) * 2021-07-26 2024-05-24 上海科技大学 使用分层神经表示的可编辑自由视点视频
CN113592991B (zh) * 2021-08-03 2023-09-05 北京奇艺世纪科技有限公司 一种基于神经辐射场的图像渲染方法、装置及电子设备
CN113688907B (zh) * 2021-08-25 2023-07-21 北京百度网讯科技有限公司 模型训练、视频处理方法,装置,设备以及存储介质
CN113793408B (zh) * 2021-09-15 2023-05-30 宿迁硅基智能科技有限公司 一种实时音频驱动人脸生成方法、装置及服务器
CN113822969B (zh) * 2021-09-15 2023-06-09 宿迁硅基智能科技有限公司 训练神经辐射场模型和人脸生成方法、装置及服务器
CN113971719B (zh) * 2021-10-26 2024-04-12 上海脉衍人工智能科技有限公司 一种神经辐射场采样与重建的系统、方法及设备
CN114049434B (zh) * 2021-11-05 2024-08-23 成都艾特能电气科技有限责任公司 一种基于全卷积神经网络的3d建模方法及系统
CN114004941B (zh) * 2022-01-04 2022-08-16 苏州浪潮智能科技有限公司 一种基于神经辐射场的室内场景三维重建系统及方法
CN114119839B (zh) * 2022-01-24 2022-07-01 阿里巴巴(中国)有限公司 三维模型重建与图像生成方法、设备以及存储介质
CN114529679B (zh) * 2022-04-19 2022-09-16 清华大学 基于神经辐射场的计算全息场生成方法及装置
CN114758081A (zh) * 2022-06-15 2022-07-15 之江实验室 基于神经辐射场的行人重识别三维数据集构建方法和装置
WO2024007182A1 (zh) * 2022-07-06 2024-01-11 北京原创力科技有限公司 静态NeRF模型与动态NeRF模型融合的视频渲染方法及系统
CN115714888B (zh) * 2022-10-09 2023-08-29 名之梦(上海)科技有限公司 视频生成方法、装置、设备与计算机可读存储介质
CN116703995B (zh) * 2022-10-31 2024-05-14 荣耀终端有限公司 视频虚化处理方法和装置
CN115937374B (zh) * 2022-12-27 2023-11-07 北京元起点信息科技有限公司 一种数字人体建模方法、装置、设备及介质
CN116309983B (zh) * 2023-01-09 2024-04-09 北京百度网讯科技有限公司 虚拟人物模型的训练方法、生成方法、装置和电子设备
CN116030167B (zh) * 2023-02-24 2023-06-30 北京红棉小冰科技有限公司 虚拟人物的驱动方法、装置、电子设备及可读存储介质
CN117274501B (zh) * 2023-11-16 2024-02-09 杭州新畅元科技有限公司 一种可驱动数字人建模方法、装置、设备及介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106504190A (zh) * 2016-12-29 2017-03-15 浙江工商大学 一种基于3d卷积神经网络的立体视频生成方法
CN110378250A (zh) * 2019-06-28 2019-10-25 深圳先进技术研究院 用于场景认知的神经网络的训练方法、装置及终端设备
CN110428493A (zh) * 2019-07-12 2019-11-08 清华大学 基于网格形变的单图像人体三维重建方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9641799B2 (en) * 2013-03-15 2017-05-02 James Paul Smurro Multimodal cognitive communications and collaborative knowledge exchange with visual neural networking and packetized augmented intelligence

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106504190A (zh) * 2016-12-29 2017-03-15 浙江工商大学 一种基于3d卷积神经网络的立体视频生成方法
CN110378250A (zh) * 2019-06-28 2019-10-25 深圳先进技术研究院 用于场景认知的神经网络的训练方法、装置及终端设备
CN110428493A (zh) * 2019-07-12 2019-11-08 清华大学 基于网格形变的单图像人体三维重建方法及系统

Also Published As

Publication number Publication date
CN113099208A (zh) 2021-07-09

Similar Documents

Publication Publication Date Title
CN113099208B (zh) 基于神经辐射场的动态人体自由视点视频生成方法和装置
CN109285215B (zh) 一种人体三维模型重建方法、装置和存储介质
Saito et al. Pifuhd: Multi-level pixel-aligned implicit function for high-resolution 3d human digitization
CN109255831B (zh) 基于多任务学习的单视图人脸三维重建及纹理生成的方法
CN112330729B (zh) 图像深度预测方法、装置、终端设备及可读存储介质
CN108665537B (zh) 联合优化人体体态与外观模型的三维重建方法及系统
Wang et al. Laplacian pyramid adversarial network for face completion
CN111340944B (zh) 基于隐式函数和人体模板的单图像人体三维重建方法
US20170278302A1 (en) Method and device for registering an image to a model
CN113421328B (zh) 一种三维人体虚拟化重建方法及装置
CN114863035B (zh) 一种基于隐式表征的三维人体运动捕捉和生成方法
CN113762147B (zh) 人脸表情迁移方法、装置、电子设备及存储介质
CN113033442B (zh) 基于StyleGAN的高自由度人脸驱动方法和装置
CN109949349A (zh) 一种多模态三维图像的配准及融合显示方法
CN112488971A (zh) 基于空间注意力机制和深度卷积生成对抗网络的医学图像融合方法
CN112907737A (zh) 基于隐函数融合的动态人体三维重建方法和装置
CN106934824A (zh) 可变形物体的全局非刚性配准与重建方法
CN116740290B (zh) 基于可变形注意力的三维交互双手重建方法及系统
CN114782596A (zh) 语音驱动的人脸动画生成方法、装置、设备及存储介质
CN117994480A (zh) 一种轻量化手部重建与驱动的方法
CN114863061A (zh) 一种远程监护医学图像处理的三维重建方法及系统
CN114972634A (zh) 基于特征体素融合的多视角三维可变形人脸重建方法
Sebastian et al. Fusion of multimodality medical images-A review
CN109961435A (zh) 脑图像获取方法、装置、设备及存储介质
CN113570699A (zh) 三维指纹重建的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20221228

Address after: Room 3346, Floor 3, International Innovation Expo Center, No. 267, Kejiyuan Road, Baiyang Street, Qiantang District, Hangzhou, Zhejiang 310020

Patentee after: Hangzhou Xinchangyuan Technology Co.,Ltd.

Address before: 100084 Tsinghua Yuan, Beijing, Haidian District

Patentee before: TSINGHUA University

TR01 Transfer of patent right