CN116012509A - 一种虚拟形象的驱动方法、系统、设备及存储介质 - Google Patents
一种虚拟形象的驱动方法、系统、设备及存储介质 Download PDFInfo
- Publication number
- CN116012509A CN116012509A CN202310073604.8A CN202310073604A CN116012509A CN 116012509 A CN116012509 A CN 116012509A CN 202310073604 A CN202310073604 A CN 202310073604A CN 116012509 A CN116012509 A CN 116012509A
- Authority
- CN
- China
- Prior art keywords
- driving
- target
- image
- avatar
- virtual
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 59
- 238000009877 rendering Methods 0.000 claims abstract description 44
- 230000005855 radiation Effects 0.000 claims abstract description 22
- 210000005036 nerve Anatomy 0.000 claims abstract description 19
- 230000000007 visual effect Effects 0.000 claims abstract description 16
- 238000005286 illumination Methods 0.000 claims description 36
- 239000000463 material Substances 0.000 claims description 36
- 238000001514 detection method Methods 0.000 claims description 30
- 230000006870 function Effects 0.000 claims description 18
- 239000011159 matrix material Substances 0.000 claims description 7
- 239000013598 vector Substances 0.000 claims description 7
- 238000012549 training Methods 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 4
- 230000000694 effects Effects 0.000 abstract description 17
- 230000002452 interceptive effect Effects 0.000 abstract description 5
- 230000009471 action Effects 0.000 description 16
- 230000008569 process Effects 0.000 description 11
- 230000014509 gene expression Effects 0.000 description 8
- 238000010276 construction Methods 0.000 description 7
- 238000005457 optimization Methods 0.000 description 5
- 230000003993 interaction Effects 0.000 description 4
- 230000009466 transformation Effects 0.000 description 4
- 238000013507 mapping Methods 0.000 description 3
- 230000001537 neural effect Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 210000000697 sensory organ Anatomy 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 210000000689 upper leg Anatomy 0.000 description 1
Images
Landscapes
- Processing Or Creating Images (AREA)
Abstract
本申请实施例公开了一种虚拟形象的驱动方法、系统、设备及存储介质。本申请实施例提供的技术方案,通过获取驱动目标多个不同视角下的目标图像,将目标图像输入预构建的神经辐射场模型,输出初始虚拟形象;对初始虚拟形象进行可微分渲染,生成虚拟目标形象;获取驱动目标的三维关键点信息,基于三维关键点信息驱动虚拟目标形象。采用上述技术手段,通过神经辐射场构建初始的虚拟形象,并通过可微分渲染优化初始虚拟形象,得到更精细的虚拟目标形象,并对该虚拟目标形象进行驱动。以此可以实现不同用户个性化、精细化的虚拟形象驱动,提升虚拟形象展示的多样性和灵活性,提升虚拟形象驱动效果,优化用户与虚拟形象的互动体验。
Description
技术领域
本申请实施例涉及计算机视觉技术领域,尤其涉及一种虚拟形象的驱动方法、系统、设备及存储介质。
背景技术
目前,在娱乐、直播等领域,虚拟形象的应用已经越来越广泛。以虚拟人物形象为例,在虚拟人物应用时,通过真人佩戴动捕传感器进行动作表情信息的采集,虚拟人物会根据捕捉到的动作表情信号进行相同的变换,从而实现虚拟人物形象表演节目或者和观众互动的效果。
但是,传统的虚拟形象只是将用户实际的动作表情展示在虚拟形象上,虚拟形象本身没有用户本身的特色。不同的用户都会通过同一虚拟形象展示动作和表情,其展示效果较为单调,缺乏灵活性。
发明内容
本申请实施例提供一种虚拟形象的驱动方法、系统、设备及存储介质,能够提升虚拟形象展示的多样性和灵活性,解决虚拟形象展示存在的形象单一、刻板的技术问题。
在第一方面,本申请实施例提供了一种虚拟形象的驱动方法,包括:
获取驱动目标多个不同视角下的目标图像,将目标图像输入预构建的神经辐射场模型,输出初始虚拟形象;
对初始虚拟形象进行可微分渲染,生成虚拟目标形象;
获取驱动目标的三维关键点信息,基于三维关键点信息驱动虚拟目标形象。
在第二方面,本申请实施例提供了一种虚拟形象的驱动系统,包括:
获取模块,配置为获取驱动目标多个不同视角下的目标图像,将目标图像输入预构建的神经辐射场模型,输出初始虚拟形象;
生成模块,配置为对初始虚拟形象进行可微分渲染,生成虚拟目标形象;
驱动模块,配置为获取驱动目标的三维关键点信息,基于三维关键点信息驱动虚拟目标形象。
在第三方面,本申请实施例提供了一种虚拟形象的驱动设备,包括:
存储器以及一个或多个处理器;
所述存储器,配置为存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如第一方面所述的虚拟形象的驱动方法。
在第四方面,本申请实施例提供了一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时配置为执行如第一方面所述的虚拟形象的驱动方法。
在第五方面,本申请实施例提供了一种计算机程序产品,所述计算机程序产品中包含有指令,当指令在计算机或处理器上运行时,使得计算机或处理器执行如第一方面所述的虚拟形象的驱动方法
本申请实施例通过获取驱动目标多个不同视角下的目标图像,将目标图像输入预构建的神经辐射场模型,输出初始虚拟形象;对初始虚拟形象进行可微分渲染,生成虚拟目标形象;获取驱动目标的三维关键点信息,基于三维关键点信息驱动虚拟目标形象。采用上述技术手段,通过神经辐射场构建初始的虚拟形象,并通过可微分渲染优化初始虚拟形象,得到更精细的虚拟目标形象,并对该虚拟目标形象进行驱动。以此可以实现不同用户个性化、精细化的虚拟形象驱动,提升虚拟形象展示的多样性和灵活性,提升虚拟形象驱动效果,优化用户与虚拟形象的互动体验。
附图说明
图1是本申请实施例提供的一种虚拟形象的驱动方法的流程图;
图2是本申请实施例中虚拟目标形象构建示意图;
图3是本申请实施例中虚拟目标形象的构建流程图;
图4是本申请实施例中三维关键点信息的生成流程图;
图5是本申请实施例提供的一种虚拟形象的驱动系统的结构示意图;
图6是本申请实施例提供的一种虚拟形象的驱动设备的结构示意图。
具体实施方式
为了使本申请的目的、技术方案和优点更加清楚,下面结合附图对本申请具体实施例作进一步的详细描述。可以理解的是,此处所描述的具体实施例仅仅用于解释本申请,而非对本申请的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本申请相关的部分而非全部内容。在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理,但是其中的许多操作可以被并行地、并发地或者同时实施。此外,各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。
本申请提供的虚拟形象的驱动方法,旨在通过神经辐射场构建初始的虚拟形象,并通过可微分渲染优化初始虚拟形象,得到更精细的虚拟目标形象。通过该虚拟目标形象进行驱动,以实现更精细化、个性化的虚拟形象展示。
对于传统的虚拟形象应用场景,其通常采用预构建虚拟形象,将用户动作表情展示在虚拟形象上,以实现虚拟人物形象表演节目或者和观众互动的效果。虚拟形象仅用于展示用户的动作表情,其本身与用户不相关联。这样的虚拟形象展示效果相对单调,用户与虚拟形象的互动效果相对较差。基于此,提供本申请实施例的虚拟形象的驱动方法,以解决现有虚拟形象展示存在的形象单一、刻板的技术问题。
实施例:
图1给出了本申请实施例提供的一种虚拟形象的驱动方法的流程图,本实施例中提供的虚拟形象的驱动方法可以由虚拟形象的驱动设备执行,该虚拟形象的驱动设备可以通过软件和/或硬件的方式实现,该虚拟形象的驱动设备可以是两个或多个物理实体构成,也可以是一个物理实体构成。一般而言,该虚拟形象的驱动设备可以是服务器、电脑,手机,平板等计算设备。
下述以虚拟形象的驱动设备为执行虚拟形象的驱动方法的主体为例,进行描述。参照图1,该虚拟形象的驱动方法具体包括:
S110、获取驱动目标多个不同视角下的目标图像,将目标图像输入预构建的神经辐射场模型,输出初始虚拟形象;
S120、对初始虚拟形象进行可微分渲染,生成虚拟目标形象;
S130、获取驱动目标的三维关键点信息,基于三维关键点信息驱动虚拟目标形象。
本申请实施例在驱动虚拟形象进行展示时,通过神经辐射场构建一个初始的虚拟形象,并采用可微分渲染对虚拟信息进行优化,以此得到一个与驱动目标相符合的虚拟目标形象。另一方面通过获取驱动目标的三维关键点信息,即可对虚拟目标形象进行驱动展示。以此来实现个性化、精细化的虚拟形象展示。
具体地,对于一个目标进行虚拟形象驱动展示时,定义该目标为驱动目标,该驱动目标可以是人、动物等需要进行虚拟形象展示的目标。要实现驱动目标虚拟形象的展示,首先需要构建驱动目标对应的三维虚拟形象。以人物虚拟形象为例,需要输入多张不同视角下的人物图像,定义为目标图像。目标图像可以是从网上下载某个动漫人物不同视角的图片,也可以是对手办进行多个视角的拍照来获取。如果用户想自行创造新的人物形象,也可以自行手绘出不同视角的人物形象作为目标图像。此外,人物形象也不局限于二次元动漫人物,也可以是现实生活中的人物形象,比如用户可以上传自己不同视角的图片,为自己生成一个虚拟人物形象。在获取不同视角的目标图像之后,通过从目标图像中分解出驱动目标的几何结构、材质和光照信息,以进行驱动目标的虚拟目标形象的构建。基于该构建的虚拟形象,就可以用于后续的虚拟目标形象的驱动了。
其中,在构建虚拟目标形象时,首先采用神经辐射场模型构建一个初始的虚拟形象。进而利用可微分渲染模型,对初始的虚拟形象进行优化,以此得到最终的虚拟目标形象。可微分渲染模型可以精细化处理目标图像的材质和光照信息,以此来优化虚拟形象,达到构建精细化虚拟形象的效果。
进一步地,基于该虚拟目标形象,通过信号输入端获取驱动目标的三维关键点信息,以利用三维关键点信息对虚拟目标形象进行驱动。信号输入可以是离线的视频文件或者视频直播流的地址,通过提供本地视频或者在线视频流,以从中的图像信息进行三维关键点信息采集。基于该视频输入,首先会对视频进行解码获取图像数据,对图像数据使用检测模型对人体的位置进行检测。然后将人体所处的位置进行裁剪送入到关键点模型中,预测人体的三维关键点坐标,即该三维关键点信息。三维关键点信息通常包括眼睛、鼻子等五官位置信息,以及手肘,大腿,肩部等主要关节的位置信息。
最终,通过视频中三维关键点信息的变换,驱动虚拟目标形象做出相应的变换,以此来实现虚拟目标形象的驱动展示。设备通过将虚拟目标形象的动作序列渲染成图片帧进行本地保存或者推流到相应的直播地址,即可将虚拟目标形象的动作展示在相应的画面上,实现对应场景的虚拟目标形象展示和互动效果。
以此进行虚拟目标形象的驱动展示,不需要借助动作捕捉设备采集驱动目标的动作,通过关键点检测的方式即可准确驱动虚拟目标形象做出一致的动作或者表情,降低虚拟形象的构建和驱动成本。并且,虚拟目标形象利用驱动目标不同视角的图像进行虚拟形象构建,可以使得虚拟形象的构建更符合用户个性化需求,提升虚拟形象构建的灵活性。基于该虚拟形象驱动方法,不管是直播场景还是健身驱动场景,都可以使用该方法进行虚拟形象的构建和展示,提升对应场景的互动效果,增加产品的用户黏性。
具体地,在构建虚拟目标形象时,参照图2,本申请实施例采用神经辐射场结合可微分渲染技术的方式,以构建精细化的虚拟目标形象。通过给定多张不同视角的目标图像,利用神经辐射场模型构建一个初始虚拟形象。进而借助可微分渲染技术进行神经网络优化,网络优化好之后,通过网络的输出就能得到目标的几何信息、材质信息和光照信息,从而完成虚拟目标的重建。
其中,参照图3,虚拟目标形象构建流程包括:
S1201、以初始虚拟形象的几何结构作为虚拟目标形象的初始几何结构;
S1202、基于初始几何结构进行可微分渲染,得到虚拟目标形象的目标几何结构、材质信息和光照信息,基于目标几何结构、材质信息和光照信息构建虚拟目标形象。
基于不同视角下的目标图像,通过使用神经辐射场模型对整个场景进行建模,在建模的过程中获取场景的体密度信息,然后通过等值面提取算法(Marching Cube)可以获取驱动目标的几何形状,以该几何形状作为初始虚拟形象。不过该初始虚拟形象相对粗糙,因此本申请实施例将神经辐射场的输出结果作为可微分渲染中的几何结构,然后固定住该部分,以进行材质和光照的优化。完成材质和光照的优化后,再固定住材质和光照的相关参数,去除掉神经辐射场得到的初始几何结构,使用之前几何结构的网络来进行优化,最终对几何,材质以及光照等所有参数进行端到端的整体优化,得到最终的结果。
其中,可微分渲染模型以初始几何结构作为模型输入,基于预训练的可微分渲染模型进行模型运算,得到虚拟目标形象的材质信息和光照信息;以虚拟目标信息的材质信息和光照信息作为模型输入,基于预训练的可微分渲染模型进行模型运算,得到虚拟目标形象的目标几何结构。
可微分渲染模型中,首先利用神经网络进行材质和光照的学习,获取初始的材质信息和光照信息。由于本申请实施例采用纹理渲染方案,因此驱动目标的材质可以通过漫反射贴图,高光贴图以及法线贴图来描述。材质的学习采用了Encoder-Decoder(编码-解码)结构的全卷积网络,将真实场景的目标图像送入卷积网络中,通过Encoder网络提取图片的特征并对图片进行下采样。然后通过Decoder网络对图片进行逐步上采样,在每个Decoder模块中,会和具有相同尺寸的Encoder特征进行融合,从而获得更加鲁棒的特征。最后网络输出漫反射贴图、高光贴图和法线贴图,即初始的材质信息。另一方面,由于渲染过程中需要提供光照信息,因此本申请实施例直接将光照参数设置为可学习的参数,通过设置一个初始的光照信息,以在整个过程中进行优化。
基于初始的材质信息和光照信息,结合该初始几何结构作为模型输入,通过纹理渲染得到一张二维的渲染图像。然后通过计算渲染图像与真实目标图像之间的损失函数,根据损失函数不断地对材质信息和光照信息的学习参数进行修改,生成新的光照信息和材质信息,并保持初始几何结构固定,再作为模型输入得到新的渲染图像。利用新的渲染图像计算损失函数迭代调整学习参数,通过模型迭代调整,最终得到优化后的材质信息和光照信息。
进一步地,基于优化后的材质信息和光照信息,对几何结构进行优化。几何结构不采用该初始几何结构,通过先初始化一个几何拓扑结构,比如一个包含n个顶点组成的立方体。然后将顶点的位置信息送入一个全连接网络中,输出顶点的偏移值offset,以及预测的每个顶点到物体边界的距离,通过这两个网络输出结果,可以计算出物体的边界,即可以得到物体的几何拓扑结构。以该几何拓补结构作为初始的模型输入,结合上述优化后的材质信息和光照信息,同样通过纹理渲染得到一张二维的渲染图像。然后通过计算渲染图像与真实目标图像之间的损失函数,根据损失函数不断地对几何结构学习网络进行调整,生成新的几何结构作为模型输入。参照上述模型迭代调整的方式,固定优化后的材质信息和光照信息,并不断调整几何结构,以此作为模型输入生成渲染图像,又利用新的渲染图像计算损失函数迭代调整学习参数,通过模型迭代调整,最终得到优化后的目标几何结构。至此,完成虚拟目标形象的目标几何结构、材质信息和光照信息的优化。基于优化好的目标几何结构、材质信息和光照信息,通过相应的三维建模网络即可得到该虚拟目标形象。
另一方面,通过获取驱动目标的三维关键点信息,以进行虚拟目标形象的驱动。其中,通过获取驱动目标的驱动图像,去除驱动图像的图像背景得到图像主体,将图像主体输入预构建的关键点检测模型,输出驱动目标的三维关键点信息。需要说明的是,该驱动图像通过相关目标的动作视频解码得到。以虚拟人物形象为例,则该驱动图像应当从人物动作视频解码得到。并且,驱动图像可以是包含驱动目标自身动作信息的图像,也可以是包含其他人物目标动作信息的图像。本申请实施例对具体的图像来源不做固定限制,在此不多赘述。
具体地,对于一张驱动图像,首先通过人体检测模型获取人体的位置。使用人体检测模型的目的是为了获取驱动图像中的大体位置,去除无关的背景,得到图像主体,将图像主体送入三维关键点检测模型中。以此可使得送入到关键点检测模型的图片中,人体位于中心,可以获得更好的检测效果。为了进一步减少模型的漏检,提高图像主体定位精度,人体检测模型可以预先搜集一批人体在各种环境下的数据集对模型进行训练,使得模型在各类场景下的检测效果更好。
进一步地,利用三维关键点检测模型检测图像主体的三维关键点信息。其中,参照图4,关键点检测模型检测三维关键点信息的流程包括:
S1301、基于关键点检测模型得到图像主体的二维关键点信息和多维向量;
S1302、基于二维关键点信息和多维向量进行特征提取,输出驱动目标的三维关键点信息。
关键点检测模型整体采用Encoder-Decoder(编码-解码)的结构,在将驱动图像送入模型网络后。首先通过Encoder网络提取图片的特征并对图片进行下采样。然后通过Decoder网络对图片进行逐步上采样,在每个Decoder模块中,会和具有相同尺寸的Encoder特征进行融合,从而获得更加鲁棒的特征,最终Decoder输出二维关键点的热力图,从而得到预测的二维关键点。对于最后一层Decoder输出的特征图,对其进行全局的池化,得到一个n维的向量。将其与预测的所有二维关键点坐标进行组合,送入一个2层的全连接网络中,第一层全连接层对其进行特征提取,第二层全连接层输出预测的三维关键点坐标,即该三维关键点信息。
在此之前,关键点检测模型预先以多个人体图像作为训练样本进行模型训练,并基于模型输出与人体图像的实际关键点信息计算损失函数,根据损失函数调整关键点检测模型。通过计算预测的二维关键点和三维关键点和真实图像的关键点之间的损失函数,根据损失函数调整模型参数,对整个网络进行优化。以此得到的关键点检测模型,可以实现更精准的三维关键点检测。
之后,基于三维关键点信息构建关键点旋转矩阵,基于关键点旋转矩阵驱动虚拟目标形象。在进行虚拟目标形象驱动时,需要的是驱动目标各个关节之间的相关旋转关系。因此对于关键点检测模型输出的三维关键点信息,首先将其转化为关节点的旋转矩阵,然后将旋转信息用于虚拟目标形象驱动,以此实现虚拟目标形象的驱动展示。
借助三维虚拟形象重建技术,用户可以比较方便地创建自己的虚拟形象,并且无需借助外部动作捕捉设备。直接通过深度学习模型来对人体的三维关键点进行估计,然后利用三维关键点对虚拟目标形象进行驱动。整个过程具备高度的灵活性和实时性,并且构建精度较高,可以提供较好的虚拟形象互动体验。
示例性地,在直播或者趣味健身场景中,通过用户不同视角的图像构建虚拟形象,通过镜头捕捉到用户的一举一动,将用户的动作迁移到虚拟形象上,最终呈现给观众的是虚拟形象在屏幕上进行表情姿势变换的效果,以此来提升对应场景的互动效果。
其中,对于直播类场景,基于该虚拟形象驱动方法,用户可以选择想要使用的虚拟形象,选定好虚拟形象后,用户需要将自己置于镜头前,露出自己的五官和主干躯体。然后用户在镜头下运动,比如跳舞。此时通过虚拟形象驱动方法,可以将跳舞动作通过虚拟形象进行展示。那么在观众端一侧,看到的就是一个虚拟人物在屏幕上跳舞。相比于传统的直播形式,这种虚拟人物直播会给观众带来更趣味的体验,优化直播效果。
另一方面,对于趣味健身类场景,用户可以直接将摄像头捕获的自身动作投到电视上,也可以选择在屏幕展示的虚拟人物形象上展示实时跟做的情况。并且,由于本申请实施例可以获取到人体关节的旋转信息,因此可以进一步去判断用户做的动作是否标准,进而给出相应的打分。对于不对的动作给予显示纠正,从而提高用户的参与度。
上述,通过获取驱动目标多个不同视角下的目标图像,将目标图像输入预构建的神经辐射场模型,输出初始虚拟形象;对初始虚拟形象进行可微分渲染,生成虚拟目标形象;获取驱动目标的三维关键点信息,基于三维关键点信息驱动虚拟目标形象。采用上述技术手段,通过神经辐射场构建初始的虚拟形象,并通过可微分渲染优化初始虚拟形象,得到更精细的虚拟目标形象,并对该虚拟目标形象进行驱动。以此可以实现不同用户个性化、精细化的虚拟形象驱动,提升虚拟形象展示的多样性和灵活性,提升虚拟形象驱动效果,优化用户与虚拟形象的互动体验。
在上述实施例的基础上,图5为本申请提供的一种虚拟形象的驱动系统的结构示意图。参考图5,本实施例提供的虚拟形象的驱动系统具体包括:获取模块21、生成模块22和驱动模块23。
其中,获取模块21配置为获取驱动目标多个不同视角下的目标图像,将目标图像输入预构建的神经辐射场模型,输出初始虚拟形象;
生成模块22配置为对初始虚拟形象进行可微分渲染,生成虚拟目标形象;
驱动模块23配置为获取驱动目标的三维关键点信息,基于三维关键点信息驱动虚拟目标形象。
具体地,对初始虚拟形象进行可微分渲染,生成虚拟目标形象,包括:
以初始虚拟形象的几何结构作为虚拟目标形象的初始几何结构;
基于初始几何结构进行可微分渲染,得到虚拟目标形象的目标几何结构、材质信息和光照信息,基于目标几何结构、材质信息和光照信息构建虚拟目标形象。
具体地,基于初始几何结构进行可微分渲染,得到虚拟目标形象的目标几何结构、材质信息和光照信息,包括:
以初始几何结构作为模型输入,基于预训练的可微分渲染模型进行模型运算,得到虚拟目标形象的材质信息和光照信息;
以虚拟目标信息的材质信息和光照信息作为模型输入,基于预训练的可微分渲染模型进行模型运算,得到虚拟目标形象的目标几何结构。
具体地,获取驱动目标的三维关键点信息,包括:
获取驱动目标的驱动图像,去除驱动图像的图像背景得到图像主体,将图像主体输入预构建的关键点检测模型,输出驱动目标的三维关键点信息。
具体地,将图像主体输入预构建的关键点检测模型,输出驱动目标的三维关键点信息,包括:
基于关键点检测模型得到图像主体的二维关键点信息和多维向量;
基于二维关键点信息和多维向量进行特征提取,输出驱动目标的三维关键点信息。
具体地,关键点检测模型预先以多个人体图像作为训练样本进行模型训练,并基于模型输出与人体图像的实际关键点信息计算损失函数,根据损失函数调整关键点检测模型。
具体地,基于三维关键点信息驱动虚拟目标形象,包括:
基于三维关键点信息构建关键点旋转矩阵,基于关键点旋转矩阵驱动虚拟目标形象。
上述,通过获取驱动目标多个不同视角下的目标图像,将目标图像输入预构建的神经辐射场模型,输出初始虚拟形象;对初始虚拟形象进行可微分渲染,生成虚拟目标形象;获取驱动目标的三维关键点信息,基于三维关键点信息驱动虚拟目标形象。采用上述技术手段,通过神经辐射场构建初始的虚拟形象,并通过可微分渲染优化初始虚拟形象,得到更精细的虚拟目标形象,并对该虚拟目标形象进行驱动。以此可以实现不同用户个性化、精细化的虚拟形象驱动,提升虚拟形象展示的多样性和灵活性,提升虚拟形象驱动效果,优化用户与虚拟形象的互动体验。
本申请实施例提供的虚拟形象的驱动系统可以配置为执行上述实施例提供的虚拟形象的驱动方法,具备相应的功能和有益效果。
在上述实际上例的基础上,本申请实施例还提供了一种虚拟形象的驱动设备,参照图6,该虚拟形象的驱动设备包括:处理器31、存储器32、通信模块33、输入装置34及输出装置35。存储器32作为一种计算机可读存储介质,可配置为存储软件程序、计算机可执行程序以及模块,如本申请任意实施例所述的虚拟形象的驱动方法对应的程序指令/模块(例如,虚拟形象的驱动系统中的获取模块、生成模块和驱动模块)。通信模块33配置为进行数据传输。处理器31通过运行存储在存储器中的软件程序、指令以及模块,从而执行设备的各种功能应用以及数据处理,即实现上述的虚拟形象的驱动方法。输入装置34可配置为接收输入的数字或字符信息,以及产生与设备的用户设置以及功能控制有关的键信号输入。输出装置35可包括显示屏等显示设备。上述提供的虚拟形象的驱动设备可配置为执行上述实施例提供的虚拟形象的驱动方法,具备相应的功能和有益效果。
在上述实施例的基础上,本申请实施例还提供一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时配置为执行一种虚拟形象的驱动方法,存储介质可以是任何的各种类型的存储器设备或存储设备。当然,本申请实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的虚拟形象的驱动方法,还可以执行本申请任意实施例所提供的虚拟形象的驱动方法中的相关操作。
在上述实施例的基础上,本申请实施例还提供一种计算机程序产品,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机程序产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备、移动终端或其中的处理器执行本申请各个实施例所述虚拟形象的驱动方法的全部或部分步骤。
Claims (11)
1.一种虚拟形象的驱动方法,其特征在于,包括:
获取驱动目标多个不同视角下的目标图像,将所述目标图像输入预构建的神经辐射场模型,输出初始虚拟形象;
对所述初始虚拟形象进行可微分渲染,生成虚拟目标形象;
获取驱动目标的三维关键点信息,基于所述三维关键点信息驱动所述虚拟目标形象。
2.根据权利要求1所述的虚拟形象的驱动方法,其特征在于,所述对所述初始虚拟形象进行可微分渲染,生成虚拟目标形象,包括:
以所述初始虚拟形象的几何结构作为所述虚拟目标形象的初始几何结构;
基于所述初始几何结构进行可微分渲染,得到所述虚拟目标形象的目标几何结构、材质信息和光照信息,基于所述目标几何结构、所述材质信息和所述光照信息构建所述虚拟目标形象。
3.根据权利要求2所述的虚拟形象的驱动方法,其特征在于,基于所述初始几何结构进行可微分渲染,得到所述虚拟目标形象的目标几何结构、材质信息和光照信息,包括:
以所述初始几何结构作为模型输入,基于预训练的可微分渲染模型进行模型运算,得到所述虚拟目标形象的材质信息和光照信息;
以所述虚拟目标信息的材质信息和光照信息作为模型输入,基于预训练的可微分渲染模型进行模型运算,得到所述虚拟目标形象的目标几何结构。
4.根据权利要求1所述的虚拟形象的驱动方法,其特征在于,所述基于所述三维关键点信息驱动所述虚拟目标形象,包括:
基于所述三维关键点信息构建关键点旋转矩阵,基于所述关键点旋转矩阵驱动所述虚拟目标形象。
5.根据权利要求1所述的虚拟形象的驱动方法,其特征在于,所述获取驱动目标的三维关键点信息,包括:
获取驱动目标的驱动图像,去除所述驱动图像的图像背景得到图像主体,将所述图像主体输入预构建的关键点检测模型,输出驱动目标的三维关键点信息。
6.根据权利要求5所述的虚拟形象的驱动方法,其特征在于,所述将所述图像主体输入预构建的关键点检测模型,输出驱动目标的三维关键点信息,包括:
基于所述关键点检测模型得到所述图像主体的二维关键点信息和多维向量;
基于所述二维关键点信息和所述多维向量进行特征提取,输出驱动目标的三维关键点信息。
7.根据权利要求5所述的虚拟形象的驱动方法,其特征在于,所述关键点检测模型预先以多个人体图像作为训练样本进行模型训练,并基于模型输出与所述人体图像的实际关键点信息计算损失函数,根据所述损失函数调整所述关键点检测模型。
8.一种虚拟形象的驱动系统,其特征在于,包括:
获取模块,配置为获取驱动目标多个不同视角下的目标图像,将所述目标图像输入预构建的神经辐射场模型,输出初始虚拟形象;
生成模块,配置为对所述初始虚拟形象进行可微分渲染,生成虚拟目标形象;
驱动模块,配置为获取驱动目标的三维关键点信息,基于所述三维关键点信息驱动所述虚拟目标形象。
9.一种虚拟形象的驱动设备,其特征在于,包括:
存储器以及一个或多个处理器;
所述存储器,配置为存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7任一所述的虚拟形象的驱动方法。
10.一种包含计算机可执行指令的存储介质,其特征在于,所述计算机可执行指令在由计算机处理器执行时配置为执行如权利要求1-7任一所述的虚拟形象的驱动方法。
11.一种计算机程序产品,其特征在于,所述计算机程序产品中包含有指令,当所述指令在计算机或处理器上运行时,使得所述计算机或处理器执行如权利要求1-7任一所述的虚拟形象的驱动方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310073604.8A CN116012509A (zh) | 2023-01-16 | 2023-01-16 | 一种虚拟形象的驱动方法、系统、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310073604.8A CN116012509A (zh) | 2023-01-16 | 2023-01-16 | 一种虚拟形象的驱动方法、系统、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116012509A true CN116012509A (zh) | 2023-04-25 |
Family
ID=86035466
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310073604.8A Pending CN116012509A (zh) | 2023-01-16 | 2023-01-16 | 一种虚拟形象的驱动方法、系统、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116012509A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116452787A (zh) * | 2023-06-13 | 2023-07-18 | 北京中科闻歌科技股份有限公司 | 一种视觉驱动的虚拟角色处理系统 |
-
2023
- 2023-01-16 CN CN202310073604.8A patent/CN116012509A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116452787A (zh) * | 2023-06-13 | 2023-07-18 | 北京中科闻歌科技股份有限公司 | 一种视觉驱动的虚拟角色处理系统 |
CN116452787B (zh) * | 2023-06-13 | 2023-10-10 | 北京中科闻歌科技股份有限公司 | 一种视觉驱动的虚拟角色处理系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zioulis et al. | Omnidepth: Dense depth estimation for indoors spherical panoramas | |
US10460512B2 (en) | 3D skeletonization using truncated epipolar lines | |
WO2019041351A1 (zh) | 一种3d vr视频与虚拟三维场景实时混叠渲染的方法 | |
EP3429195A1 (en) | Method and system for image processing in video conferencing for gaze correction | |
CN114401414B (zh) | 沉浸式直播的信息显示方法及系统、信息推送方法 | |
JP2024012657A (ja) | クロスリアリティシステムにおけるスケーラブル3次元オブジェクト認識 | |
CN113313818B (zh) | 一种三维重建方法、装置及系统 | |
WO2024022065A1 (zh) | 虚拟表情生成方法、装置、电子设备和存储介质 | |
CN112927362A (zh) | 地图重建方法及装置、计算机可读介质和电子设备 | |
US10484599B2 (en) | Simulating depth of field | |
KR100560464B1 (ko) | 관찰자의 시점에 적응적인 다시점 영상 디스플레이 시스템을 구성하는 방법 | |
CN113781613A (zh) | 表情驱动方法、系统及计算机设备 | |
WO2017029679A1 (en) | Interactive 3d map with vibrant street view | |
CN112598780A (zh) | 实例对象模型构建方法及装置、可读介质和电子设备 | |
CN116012509A (zh) | 一种虚拟形象的驱动方法、系统、设备及存储介质 | |
CN117274501B (zh) | 一种可驱动数字人建模方法、装置、设备及介质 | |
CN116168076A (zh) | 一种图像处理方法、装置、设备及存储介质 | |
WO2024022070A1 (zh) | 画面显示方法、装置、设备及介质 | |
CN112288876A (zh) | 远距离ar识别服务器及系统 | |
Jin et al. | From capture to display: A survey on volumetric video | |
CN116708862A (zh) | 直播间的虚拟背景生成方法、计算机设备及存储介质 | |
CN116109974A (zh) | 体积视频展示方法以及相关设备 | |
CN114998514A (zh) | 一种虚拟角色的生成方法及设备 | |
CN112257653A (zh) | 空间装饰效果图确定方法、装置、存储介质与电子设备 | |
Shen et al. | Virtual mirror by fusing multiple RGB-D cameras |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |