CN116030167A - 虚拟人物的驱动方法、装置、电子设备及可读存储介质 - Google Patents

虚拟人物的驱动方法、装置、电子设备及可读存储介质 Download PDF

Info

Publication number
CN116030167A
CN116030167A CN202310160671.3A CN202310160671A CN116030167A CN 116030167 A CN116030167 A CN 116030167A CN 202310160671 A CN202310160671 A CN 202310160671A CN 116030167 A CN116030167 A CN 116030167A
Authority
CN
China
Prior art keywords
target
driving
video
virtual person
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310160671.3A
Other languages
English (en)
Other versions
CN116030167B (zh
Inventor
余镇滔
任逍航
王宝元
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Hongmian Xiaoice Technology Co Ltd
Original Assignee
Beijing Hongmian Xiaoice Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Hongmian Xiaoice Technology Co Ltd filed Critical Beijing Hongmian Xiaoice Technology Co Ltd
Priority to CN202310160671.3A priority Critical patent/CN116030167B/zh
Publication of CN116030167A publication Critical patent/CN116030167A/zh
Application granted granted Critical
Publication of CN116030167B publication Critical patent/CN116030167B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Processing Or Creating Images (AREA)

Abstract

本申请提供一种虚拟人物的驱动方法、装置、电子设备及可读存储介质,涉及计算机技术领域,该方法包括:将包含目标虚拟人的视觉特征的隐向量输入到生成器模型中,得到包含目标虚拟人的目标特征空间;基于目标特征空间、根据驱动源得到的目标驱动信息以及多层感知机模型,构建目标动态神经辐射场;通过多层感知机模型在目标动态神经辐射场内根据目标驱动信息驱动目标虚拟人,并生成目标视频。本申请提供的虚拟人物的驱动方法、装置、电子设备及可读存储介质,通过从驱动视频中提取人物的表情,姿态,动作等作为驱动信息,以信息流的方式将其导入到神经辐射场中,从而渲染出自由视角下的虚拟人的驱动视频。

Description

虚拟人物的驱动方法、装置、电子设备及可读存储介质
技术领域
本申请涉及计算机技术领域,尤其涉及一种虚拟人物的驱动方法、装置、电子设备及可读存储介质。
背景技术
数字虚拟人是人工智能概念的具象化表现,直观地展现了人工智能与外界的交互能力。虚拟人在线上视频会议,聊天机器人,视频直播的发展中都占有重要的地位。
在相关技术中,可以通过2D-GAN模型生成和驱动虚拟人,该方法生成的虚拟人具有较强的真实感,被广泛应用于虚拟人的生成和驱动环节。
然而,上述方法驱动的虚拟人缺少三维信息,当驱动虚拟人进行视角转换或者动作表情变化时,很容易出现前后特征不一致的问题,导致虚拟人形象失真。
发明内容
本申请的目的是提供一种虚拟人物的驱动方法、装置、电子设备及可读存储介质,通过从驱动视频中提取人物的表情,姿态,动作等作为驱动信息,以信息流的方式将其导入到神经辐射场中,从而渲染出自由视角下的虚拟人的驱动视频。
本申请提供一种虚拟人物的驱动方法,包括:
将包含目标虚拟人的视觉特征的隐向量输入到生成器模型中,得到包含所述目标虚拟人的目标特征空间;基于所述目标特征空间、根据驱动源得到的目标驱动信息以及多层感知机模型,构建目标动态神经辐射场;通过所述多层感知机模型在所述目标动态神经辐射场内根据所述目标驱动信息驱动所述目标虚拟人,并生成目标视频。
可选地,所述基于所述目标特征空间、根据驱动源得到的目标驱动信息以及多层感知机模型,构建目标动态神经辐射场之前,所述方法还包括:使用注意力机制模型从所述驱动源中提取出所述目标驱动信息;其中,所述驱动源为包含第一虚拟人的视频;所述目标驱动信息包括以下至少一项:所述第一虚拟人的面部表情,所述第一虚拟人的动作,所述第一虚拟人的姿态。
可选地,所述通过所述多层感知机模型在所述目标动态神经辐射场内根据所述目标驱动信息驱动所述目标虚拟人,并生成目标视频,包括:所述多层感知机模型基于所述目标驱动信息将所述目标虚拟人映射到多个三维空间中;一个三维空间对应一个视频帧;对所述多个三维空间进行体渲染,得到多个视频帧,并基于所述多个视频帧生成所述目标视频;其中,所述多个视频帧包含所述目标虚拟人的连续动作。
可选地,所述生成器模型、所述多层感知机模型以及所述注意力机制模型的训练方法包括:通过所述注意力机制模型从目标样本视频中提取出长度为N的第一驱动信息,并将包含第二虚拟人的视觉特征的隐向量输入到所述生成器模型中,得到包含所述第二虚拟人的第一特征空间;基于所述第一特征空间、所述第一驱动信息以及所述多层感知机模型,构建第一动态神经辐射场;通过所述多层感知机模型在所述第一动态神经辐射场内根据所述第一驱动信息驱动所述第二虚拟人,生成包含多个视频帧的第一帧集合;通过判别器对所述第一帧集合中的每个视频帧进行判断,并根据判断结果调整所述生成器模型、所述多层感知机模型以及所述注意力机制模型的模型参数。
可选地,所述通过所述注意力机制模型从目标样本视频中提取出长度为N的第一驱动信息,包括:从训练集中筛选出所述目标样本视频,并从所述目标样本视频中提取出N个视频帧;所述目标样本视频为所述训练集中的任一样本视频;通过所述注意力机制模型从所述N个视频帧中提取出长度为N的驱动信息流,并根据所述驱动信息流得到所述第一驱动信息。
可选地,所述判别器包括:第一判别器和第二判别器;所述通过判别器对所述第一帧集合中的每个视频帧进行判断,包括:通过所述第一判别器判断所述第一帧集合中的每个视频帧是否为真实图像,并通过所述第二判别器判断所述第一帧集合中的每个视频帧中所包含的所述第二虚拟人的面部表情、动作、姿态是否与所述第一驱动信息一致。
可选地,所述通过所述多层感知机模型在所述第一动态神经辐射场内根据所述第一驱动信息驱动所述第二虚拟人,生成包含多个视频帧的第一帧集合之后,所述方法还包括:通过第一损失函数判断所述第一帧集合中任一两个相邻的视频帧所包含的虚拟人的人脸身份特征是否一致,并通过第二损失函数判断所述第一帧集合中任一两个相邻的视频帧所包含的虚拟人的动作变化是否连续。
本申请还提供一种虚拟人物的驱动装置,包括:
生成模块,用于将包含目标虚拟人的视觉特征的隐向量输入到生成器模型中,得到包含所述目标虚拟人的目标特征空间;构建模块,用于基于所述目标特征空间、根据驱动源得到的目标驱动信息以及多层感知机模型,构建目标动态神经辐射场;输出模块,用于通过所述多层感知机模型在所述目标动态神经辐射场内根据所述目标驱动信息驱动所述目标虚拟人,并生成目标视频。
可选地,所述装置还包括:信息提取模块;所述信息提取模块,用于使用注意力机制模型从所述驱动源中提取出所述目标驱动信息;其中,所述驱动源为包含第一虚拟人的视频;所述目标驱动信息包括以下至少一项:所述第一虚拟人的面部表情,所述第一虚拟人的动作,所述第一虚拟人的姿态。
可选地,所述生成模块,还用于所述多层感知机模型基于所述目标驱动信息将所述目标虚拟人映射到多个三维空间中;一个三维空间对应一个视频帧;所述输出模块,具体用于对所述多个三维空间进行体渲染,得到多个视频帧,并基于所述多个视频帧生成所述目标视频;其中,所述多个视频帧包含所述目标虚拟人的连续动作。
可选地,所述装置还包括:训练模块;所述信息提取模块,还用于通过所述注意力机制模型从目标样本视频中提取出长度为N的第一驱动信息;所述生成模块,还用于将包含第二虚拟人的视觉特征的隐向量输入到所述生成器模型中,得到包含所述第二虚拟人的第一特征空间;所述构建模块,还用于基于所述第一特征空间、所述第一驱动信息以及所述多层感知机模型,构建第一动态神经辐射场;所述输出模块,还用于通过所述多层感知机模型在所述第一动态神经辐射场内根据所述第一驱动信息驱动所述第二虚拟人,生成包含多个视频帧的第一帧集合;所述训练模块,用于通过判别器对所述第一帧集合中的每个视频帧进行判断,并根据判断结果调整所述生成器模型、所述多层感知机模型以及所述注意力机制模型的模型参数。
可选地,所述信息提取模块,具体用于从训练集中筛选出所述目标样本视频,并从所述目标样本视频中提取出N个视频帧;所述目标样本视频为所述训练集中的任一样本视频;所述信息提取模块,具体还用于通过所述注意力机制模型从所述N个视频帧中提取出长度为N的驱动信息流,并根据所述驱动信息流得到所述第一驱动信息。
可选地,所述判别器包括:第一判别器和第二判别器;所述训练模块,具体用于通过所述第一判别器判断所述第一帧集合中的每个视频帧是否为真实图像,并通过所述第二判别器判断所述第一帧集合中的每个视频帧中所包含的所述第二虚拟人的面部表情、动作、姿态是否与所述第一驱动信息一致。
可选地,所述训练模块,还用于通过第一损失函数判断所述第一帧集合中任一两个相邻的视频帧所包含的虚拟人的人脸身份特征是否一致,并通过第二损失函数判断所述第一帧集合中任一两个相邻的视频帧所包含的虚拟人的动作变化是否连续。
本申请还提供一种计算机程序产品,包括计算机程序/指令,该计算机程序/指令被处理器执行时实现如上述任一种所述虚拟人物的驱动方法的步骤。
本申请还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述虚拟人物的驱动方法的步骤。
本申请还提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述虚拟人物的驱动方法的步骤。
本申请提供的虚拟人物的驱动方法、装置、电子设备及可读存储介质,首先,将包含目标虚拟人的视觉特征的隐向量输入到生成器模型中,得到包含所述目标虚拟人的目标特征空间。之后,基于所述目标特征空间、根据驱动源得到的目标驱动信息以及多层感知机模型,构建目标动态神经辐射场。最后,通过所述多层感知机模型在所述目标动态神经辐射场内根据所述目标驱动信息驱动所述目标虚拟人,并生成目标视频。如此,在视频层面对虚拟人进行渲染,通过从驱动视频中提取人物的表情,姿态,动作等驱动信息,以信息流的方式将其导入到神经辐射场中,从而渲染出自由视角下的虚拟人的驱动视频。
附图说明
为了更清楚地说明本申请或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请提供的虚拟人物的驱动方法的流程示意图;
图2是本申请提供的4D-GAN网络的应用流程示意图;
图3是本申请提供的4D-GAN网络的训练流程示意图;
图4是本申请提供的虚拟人物的驱动装置的结构示意图;
图5是本申请提供的电子设备的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请中的附图,对本申请中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施,且“第一”、“第二”等所区分的对象通常为一类,并不限定对象的个数,例如第一对象可以是一个,也可以是多个。此外,说明书以及权利要求中“和/或”表示所连接对象的至少其中之一,字符“/”,一般表示前后关联对象是一种“或”的关系。
针对相关技术中存在的上述技术问题,本申请实施例提供了一种基于4D-GAN的虚拟人物的驱动方法,该方法在3D-GAN的基础上增加了时间维度。在保持三维一致性的同时,本申请实施例提供的4D-GAN能够在时间维度上对虚拟人进行姿态,表情,动作等的驱动控制。
3D-GAN是神经辐射场(Neural Radiance Field,NeRF)与对抗生成网络(Generative Adversarial Network,GAN)的结合产物。通过将神经辐射场引入到对抗生成网络中,3D-GAN既保持了2D-GAN超强的写实感,又解决了其存在的三维一致性问题。只要构建的神经辐射场的几何空间合理,理论上3D-GAN可以渲染出任意视角的虚拟人形象。但是3D-GAN渲染出的虚拟人只是静态的三维形象,不能够直接对其就行驱动控制。而本申请实施例提供的4D-GAN则可以直接在视频层面对虚拟人进行渲染,通过从驱动视频中提取人物的表情,姿态,动作等驱动信息,以信息流的方式将其导入到神经辐射场中,从而渲染出自由视角下的虚拟人的驱动视频。
下面结合附图,通过具体的实施例及其应用场景对本申请实施例提供的虚拟人物的驱动方法进行详细地说明。
如图1所示,本申请实施例提供的一种虚拟人物的驱动方法,该方法可以包括下述步骤101至步骤103:
步骤101、将包含目标虚拟人的视觉特征的隐向量输入到生成器模型中,得到包含所述目标虚拟人的目标特征空间。
示例性地,上述生成器模型为本申请实施例提供的4D-GAN中的生成器模型(generative model)经过训练后得到的。该生成器模型的输入为包含有虚拟人视觉特征的隐向量,输出为特征空间。该特征空间包含有虚拟人的外观信息和三维信息;该特征空间用于后续步骤中动态神经辐射场的构建。
示例性地,如图2所示,包含有目标虚拟人的视觉特征的隐向量可以通过以下任一种方式得到:从高斯分布中随机采样一个噪声作为隐向量;通过编码器从虚拟人图像中提取隐向量;指定特定的风格参数并由多层感知机生成隐向量。
步骤102、基于所述目标特征空间、根据驱动源得到的目标驱动信息以及多层感知机模型,构建目标动态神经辐射场。
示例性地,神经辐射场够通过多层感知机模型(Multilayer Perceptron,MLP)图像中拟合重建场景的几何和外观。区别于相关技术中的神经辐射场,本申请实施例中,在上述神经辐射场的表达基础上,增加了时间属性以及驱动信息,将静态的神经辐射场转变为动态神经辐射场。
示例性地,在得到上述目标特征空间后,便可以基于该目标特征空间、根据驱动源得到的目标驱动信息以及多层感知机模型,构建目标动态神经辐射场。上述目标驱动信息是从驱动源中提取得到的。
需要说明的是,上述多层感知机模型为上述4D-GAN中多层感知机模型经过训练后得到的。在上述4D-GAN的训练过程中,每个迭代周期都需要利用多层感知机重新构建一个动态神经辐射场。在训练完成后的实际应用过程中,每次基于驱动源对虚拟人进行驱动时,也需要基于训练后的上述多层感知机模型重新构建一个动态神经辐射场。
示例性地,在得到上述目标特征空间以及目标驱动信息后,便可以基于上述多层感知机构建目标动态神经辐射场。
在一种可能的实现方式中,上述驱动信息可以通过注意力机制模型从驱动源中提取到。
示例性地,上述步骤102之前,本申请实施例提供的虚拟人物的驱动方法,还可以包括以下步骤S1:
步骤S1、使用注意力机制模型从所述驱动源中提取出所述目标驱动信息。
其中,所述驱动源为包含第一虚拟人的视频;所述目标驱动信息包括以下至少一项:所述第一虚拟人的面部表情,所述第一虚拟人的动作,所述第一虚拟人的姿态。
步骤103、通过所述多层感知机模型在所述目标动态神经辐射场内根据所述目标驱动信息驱动所述目标虚拟人,并生成目标视频。
示例性地,上述多层感知机模型在动态神经辐射场中的作用是基于驱动信息将虚拟人的外观投影到三维空间中对应的点,同时对三维空间中对应的点的密度和颜色进行调整。
具体地,上述步骤103,可以包括以下步骤103a和步骤103b:
步骤103a、所述多层感知机模型基于所述目标驱动信息将所述目标虚拟人映射到多个三维空间中;一个三维空间对应一个视频帧。
步骤103b、对所述多个三维空间进行体渲染,得到多个视频帧,并基于所述多个视频帧生成所述目标视频。
其中,所述多个视频帧包含所述目标虚拟人的连续动作。
需要说明的是,上述多个三维空间可以是不同的三维空间,即每次生成一个视频帧后都需要重新创建一个三维空间;上述多个三维空间还可以是同一个三维空间在不同时间点的不同表达,即多层感知机基于驱动信息将虚拟人在不同时间点的动作、表情、姿态等的变化映射到三维空间中。
需要说明的是,相关技术中的神经辐射场仅用于单个图像的渲染,而本申请实施例中的动态神经辐射场,由于增加时间属性,可以在驱动信息的辅助下生成多个图像,并进一步合成视频。
举例说明,如图2所示,在通过生成器网络得到特征空间,以及通过注意力机制模型从驱动源中提取出驱动信息后,便可以基于该特征空间和驱动信息构建动态神经辐射场。之后,动态神经辐射场根据驱动信息将特征空间映射到三维空间中的点,最终通过体渲染得到虚拟人被驱动后的连续帧。在生成的连续帧中,每一帧的虚拟人外型特征都要保持一致,且动作、表情等属性也与驱动信息中的相同。即上述目标虚拟人的动作、表情、姿态等与上述第一虚拟人的动作、表情、姿态等相同,区别在于虚拟人物的不同。
可选地,在本申请实施例中,上述生成器模型、注意力机制模型以及构建动态神经辐射场所需的多层感知机模型(即上述4D-GAN)可以通过以下训练方法得到。
示例性地,上述步骤101之前,本申请实施例提供的虚拟人的驱动方法,还可以包括以下步骤201至步骤204:
步骤201、通过所述注意力机制模型从目标样本视频中提取出长度为N的第一驱动信息,并将包含第二虚拟人的视觉特征的隐向量输入到所述生成器模型中,得到包含所述第二虚拟人的第一特征空间。
具体地,上述步骤201可以包括以下步骤201a1和步骤201a2:
步骤201a1、从训练集中筛选出所述目标样本视频,并从所述目标样本视频中提取出N个视频帧。
其中,所述目标样本视频为所述训练集中的任一样本视频。
步骤201a2、通过所述注意力机制模型从所述N个视频帧中提取出长度为N的驱动信息流,并根据所述驱动信息流得到所述第一驱动信息。
示例性地,上述训练集中包括多个样本视频,在每轮迭代时都会从中筛选出一个样本视频,并从筛选出的样本视频中提取出N个视频帧。之后,通过注意力机制模型从N个视频帧中提取出长度为N的驱动信息流,并进一步得到上述第一驱动信息。
需要说明的是,每次迭代时使用的N个视频帧还可以为同一个样本视频中筛选出的视频帧。上述长度为N的驱动信息流可以包含N的驱动信息,一个视频帧对应一个驱动信息。
步骤202、基于所述第一特征空间、所述第一驱动信息以及所述多层感知机模型,构建第一动态神经辐射场。
示例性地,上述步骤201以及步骤202中相关技术特征的描述,还可以参照上述步骤101以及步骤102中对应技术特征的描述。即在训练过程中,构建动态神经辐射场的步骤与实际应用过程中构建动态神经辐射场的步骤相似,区别在于驱动源的获取方式不同。
需要说明的是,上述第一动态神经辐射场为当前迭代周期内构建的动态神经辐射场,每次迭代时都需要重新构建动态神经辐射场。
步骤203、通过所述多层感知机模型在所述第一动态神经辐射场内根据所述第一驱动信息驱动所述第二虚拟人,生成包含多个视频帧的第一帧集合。
示例性地,在静态神经辐射场中,多层感知机模型可以基于以下公式一将虚拟人的外观映射到三维空间中:
(公式一)
其中,x=( x, y, z)为三维空间中点的三维坐标;d=(dx,dy,dz)为相机射线的方向;σ为点x的体密度估计;c=(r,g,b)为点x由d方向观测到的颜色;θ为多层感知机模型的参数。
示例性地,在动态神经辐射场中,由于增加了时间属性t和驱动信息v,多层感知机模型可以基于以下公式二将虚拟人的外观映射到三维空间中:
(公式二)
示例性地,由于动态神经辐射场仍然预测的是三维空间的密度和颜色,渲染的方式基本保持不变,可以基于以下公式三进行图像的渲染:
(公式三)
其中,r(t)为相机发射的射线;tf和tn分别为射线的上界和下界;T(t)为累积的透明度;该公式计算的是相机发射的射线在tf到tn之间,所有点的密度σ与颜色c的乘积的积分,即为目标点在图像上的像素值。
步骤204、通过判别器对所述第一帧集合中的每个视频帧进行判断,并根据判断结果调整所述生成器模型、所述多层感知机模型以及所述注意力机制模型的模型参数。
示例性地,上述判别器为GAN网络中与上述生成器模型相对应的判别器模型(discriminative model)。生成器模型的任务是生成看起来自然真实的、和原始数据相似的实例。判别器模型的任务是判断给定的实例是自然真实的还是人为伪造的。该判别器模型仅在训练过程中存在。
进一步地,上述判别器可以包括第一判别器和第二判别器,上述步骤204可以包括以下步骤204a:
步骤204a、通过所述第一判别器判断所述第一帧集合中的每个视频帧是否为真实图像,并通过所述第二判别器判断所述第一帧集合中的每个视频帧中所包含的所述第二虚拟人的面部表情、动作、姿态是否与所述第一驱动信息一致。
示例性地,基于图2,如图3所示,判别器1(即上述第一判别器)是真假判别器,用来判断生成的图像是否为真实图像,是监督模型生成出超真实图像的关键。判别器2(即上述第二判别器)是驱动判别器,用来判断生成的图像的动作,表情,姿态等是否与驱动视频中的信息一致。实际训练时,判别器2通常会采用多个属性判别器进行串联,分别用来监督模型对不同属性的控制,即上述第二判别器可以包括多个子判别器,每个子判别器分别用于对不同属性进行判断。
可选地,在本申请实施例中,4D-GAN网络的训练过程中,出了判别器之外,还可以添加额外的损失函数,以辅助模型的训练。
示例性地,上述步骤203之后,本申请实施例提供的虚拟人物的驱动方法,还可以包括以下步骤205:
步骤205、通过第一损失函数判断所述第一帧集合中任一两个相邻的视频帧所包含的虚拟人的人脸身份特征是否一致,并通过第二损失函数判断所述第一帧集合中任一两个相邻的视频帧所包含的虚拟人的动作变化是否连续。
示例性地,上述第一损失函数可以为身份标识(Identity document,ID)损失函数,上述第二损失函数可以为连续性损失函数。ID损失使用了人脸识别模型,作用在生成的连续帧之间,监督每一帧的虚拟人的人脸身份特征保持一致。连续性损失同样作用在生成的连续帧之间,监督虚拟人的动作变化的连续性。
需要说明的是,上述步骤201至步骤204为4D-GAN网络的一个迭代周期所需要执行的步骤,该4D-GAN网络需要多个迭代周期来完成该网络模型的训练。
进一步可选地,在本申请实施例中,为了能够使得生成的视频更加真实,还可以在视频中添加指定的场景。
具体地,上述步骤103之前,本申请实施例提供的虚拟人物的驱动方法,还可以包括以下步骤104:
步骤104、获取虚拟背景的特征信息,并基于所述特征信息构建包含虚拟背景的目标静态神经辐射场。
步骤105、将所述目标静态神经辐射场与所述目标动态神经辐射场进行场景融合,得到包含虚拟背景的目标动态神经辐射场。
示例性地,基于上述步骤105中得到的包含虚拟背景的目标静态神经辐射场,在多层感知机模型在所述目标动态神经辐射场内根据所述目标驱动信息驱动所述目标虚拟人,并生成目标视频时,能够生成包含虚拟场景的目标视频。
具体地,上述步骤103,可以包括以下步骤103c:
步骤103c、在根据所述目标驱动信息驱动所述目标虚拟人的过程中,基于选定的相机视角以及所述目标动态神经辐射场的渲染方式,对所述目标动态神经辐射场的虚拟背景与所述目标虚拟人进行体渲染,生成所述目标视频。
示例性地,基于上述步骤103c中的视频渲染方法,上述步骤103b,还可以包括以下步骤103b1:
步骤103b1、对所述多个三维空间中所包含的驱动后的目标虚拟人以及所述虚拟背景进行体渲染,得到多个视频帧,并基于所述多个视频帧生成所述目标视频。
示例性地,由于渲染方式基本不变,很容易将背景的静态神经辐射场和虚拟人的动态神经辐射场进行融合,然后通过统一的体渲染公式渲染成最终的视频。
本申请实施例提供的虚拟人物的驱动方法,首先,将包含目标虚拟人的视觉特征的隐向量输入到生成器模型中,得到包含所述目标虚拟人的目标特征空间。之后,基于所述目标特征空间、根据驱动源得到的目标驱动信息以及多层感知机模型,构建目标动态神经辐射场。最后,通过所述多层感知机模型在所述目标动态神经辐射场内根据所述目标驱动信息驱动所述目标虚拟人,并生成目标视频。如此,在视频层面对虚拟人进行渲染,通过从驱动视频中提取人物的表情,姿态,动作等驱动信息,以信息流的方式将其导入到神经辐射场中,从而渲染出自由视角下的虚拟人的驱动视频。
需要说明的是,本申请实施例提供的虚拟人物的驱动方法,执行主体可以为虚拟人物的驱动装置,或者该虚拟人物的驱动装置中的用于执行虚拟人物的驱动方法的控制模块。本申请实施例中以虚拟人物的驱动装置执行虚拟人物的驱动方法为例,说明本申请实施例提供的虚拟人物的驱动装置。
需要说明的是,本申请实施例中,上述各个方法附图所示的。虚拟人物的驱动方法均是以结合本申请实施例中的一个附图为例示例性的说明的。具体实现时,上述各个方法附图所示的虚拟人物的驱动方法还可以结合上述实施例中示意的其它可以结合的任意附图实现,此处不再赘述。
下面对本申请提供的虚拟人物的驱动装置进行描述,下文描述的与上文描述的虚拟人物的驱动方法可相互对应参照。
图4为本申请实施例提供的虚拟人物的驱动装置的结构示意图,如图4所示,具体包括:
生成模块401,用于将包含目标虚拟人的视觉特征的隐向量输入到生成器模型中,得到包含所述目标虚拟人的目标特征空间;构建模块402,用于基于所述目标特征空间、根据驱动源得到的目标驱动信息以及多层感知机模型,构建目标动态神经辐射场;输出模块403,用于通过所述多层感知机模型在所述目标动态神经辐射场内根据所述目标驱动信息驱动所述目标虚拟人,并生成目标视频。
可选地,所述装置还包括:信息提取模块;所述信息提取模块,用于使用注意力机制模型从所述驱动源中提取出所述目标驱动信息;其中,所述驱动源为包含第一虚拟人的视频;所述目标驱动信息包括以下至少一项:所述第一虚拟人的面部表情,所述第一虚拟人的动作,所述第一虚拟人的姿态。
可选地,所述生成模块401,还用于所述多层感知机模型基于所述目标驱动信息将所述目标虚拟人映射到多个三维空间中;一个三维空间对应一个视频帧;所述输出模块403,具体用于对所述多个三维空间进行体渲染,得到多个视频帧,并基于所述多个视频帧生成所述目标视频;其中,所述多个视频帧包含所述目标虚拟人的连续动作。
可选地,所述装置还包括:训练模块;所述信息提取模块,还用于通过所述注意力机制模型从目标样本视频中提取出长度为N的第一驱动信息;所述生成模块401,还用于将包含第二虚拟人的视觉特征的隐向量输入到所述生成器模型中,得到包含所述第二虚拟人的第一特征空间;所述构建模块402,还用于基于所述第一特征空间、所述第一驱动信息以及所述多层感知机模型,构建第一动态神经辐射场;所述输出模块403,还用于通过所述多层感知机模型在所述第一动态神经辐射场内根据所述第一驱动信息驱动所述第二虚拟人,生成包含多个视频帧的第一帧集合;所述训练模块,用于通过判别器对所述第一帧集合中的每个视频帧进行判断,并根据判断结果调整所述生成器模型、所述多层感知机模型以及所述注意力机制模型的模型参数。
可选地,所述信息提取模块,具体用于从训练集中筛选出所述目标样本视频,并从所述目标样本视频中提取出N个视频帧;所述目标样本视频为所述训练集中的任一样本视频;所述信息提取模块,具体还用于通过所述注意力机制模型从所述N个视频帧中提取出长度为N的驱动信息流,并根据所述驱动信息流得到所述第一驱动信息。
可选地,所述判别器包括:第一判别器和第二判别器;所述训练模块,具体用于通过所述第一判别器判断所述第一帧集合中的每个视频帧是否为真实图像,并通过所述第二判别器判断所述第一帧集合中的每个视频帧中所包含的所述第二虚拟人的面部表情、动作、姿态是否与所述第一驱动信息一致。
可选地,所述训练模块,还用于通过第一损失函数判断所述第一帧集合中任一两个相邻的视频帧所包含的虚拟人的人脸身份特征是否一致,并通过第二损失函数判断所述第一帧集合中任一两个相邻的视频帧所包含的虚拟人的动作变化是否连续。
本申请提供的虚拟人物的驱动装置,首先,将包含目标虚拟人的视觉特征的隐向量输入到生成器模型中,得到包含所述目标虚拟人的目标特征空间。之后,基于所述目标特征空间、根据驱动源得到的目标驱动信息以及多层感知机模型,构建目标动态神经辐射场。最后,通过所述多层感知机模型在所述目标动态神经辐射场内根据所述目标驱动信息驱动所述目标虚拟人,并生成目标视频。如此,在视频层面对虚拟人进行渲染,通过从驱动视频中提取人物的表情,姿态,动作等驱动信息,以信息流的方式将其导入到神经辐射场中,从而渲染出自由视角下的虚拟人的驱动视频。
图5示例了一种电子设备的实体结构示意图,如图5所示,该电子设备可以包括:处理器(processor)510、通信接口(Communications Interface)520、存储器(memory)530和通信总线540,其中,处理器510,通信接口520,存储器530通过通信总线540完成相互间的通信。处理器510可以调用存储器530中的逻辑指令,以执行虚拟人物的驱动方法,该方法包括:
此外,上述的存储器530中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本申请还提供一种计算机程序产品,所述计算机程序产品包括存储在计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的虚拟人物的驱动方法,该方法包括:将包含目标虚拟人的视觉特征的隐向量输入到生成器模型中,得到包含所述目标虚拟人的目标特征空间;基于所述目标特征空间、根据驱动源得到的目标驱动信息以及多层感知机模型,构建目标动态神经辐射场;通过所述多层感知机模型在所述目标动态神经辐射场内根据所述目标驱动信息驱动所述目标虚拟人,并生成目标视频。
又一方面,本申请还提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各提供的虚拟人物的驱动方法,该方法包括:将包含目标虚拟人的视觉特征的隐向量输入到生成器模型中,得到包含所述目标虚拟人的目标特征空间;基于所述目标特征空间、根据驱动源得到的目标驱动信息以及多层感知机模型,构建目标动态神经辐射场;通过所述多层感知机模型在所述目标动态神经辐射场内根据所述目标驱动信息驱动所述目标虚拟人,并生成目标视频。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (10)

1.一种虚拟人物的驱动方法,其特征在于,包括:
将包含目标虚拟人的视觉特征的隐向量输入到生成器模型中,得到包含所述目标虚拟人的目标特征空间;
基于所述目标特征空间、根据驱动源得到的目标驱动信息以及多层感知机模型,构建目标动态神经辐射场;
通过所述多层感知机模型在所述目标动态神经辐射场内根据所述目标驱动信息驱动所述目标虚拟人,并生成目标视频。
2.根据权利要求1所述的方法,其特征在于,所述基于所述目标特征空间、根据驱动源得到的目标驱动信息以及多层感知机模型,构建目标动态神经辐射场之前,所述方法还包括:
使用注意力机制模型从所述驱动源中提取出所述目标驱动信息;
其中,所述驱动源为包含第一虚拟人的视频;所述目标驱动信息包括以下至少一项:所述第一虚拟人的面部表情,所述第一虚拟人的动作,所述第一虚拟人的姿态。
3.根据权利要求1所述的方法,其特征在于,所述通过所述多层感知机模型在所述目标动态神经辐射场内根据所述目标驱动信息驱动所述目标虚拟人,并生成目标视频,包括:
所述多层感知机模型基于所述目标驱动信息将所述目标虚拟人映射到多个三维空间中;一个三维空间对应一个视频帧;
对所述多个三维空间进行体渲染,得到多个视频帧,并基于所述多个视频帧生成所述目标视频;
其中,所述多个视频帧包含所述目标虚拟人的连续动作。
4.根据权利要求2所述的方法,其特征在于,所述生成器模型、所述多层感知机模型以及所述注意力机制模型的训练方法包括:
通过所述注意力机制模型从目标样本视频中提取出长度为N的第一驱动信息,并将包含第二虚拟人的视觉特征的隐向量输入到所述生成器模型中,得到包含所述第二虚拟人的第一特征空间;
基于所述第一特征空间、所述第一驱动信息以及所述多层感知机模型,构建第一动态神经辐射场;
通过所述多层感知机模型在所述第一动态神经辐射场内根据所述第一驱动信息驱动所述第二虚拟人,生成包含多个视频帧的第一帧集合;
通过判别器对所述第一帧集合中的每个视频帧进行判断,并根据判断结果调整所述生成器模型、所述多层感知机模型以及所述注意力机制模型的模型参数。
5.根据权利要求4所述的方法,其特征在于,所述通过所述注意力机制模型从目标样本视频中提取出长度为N的第一驱动信息,包括:
从训练集中筛选出所述目标样本视频,并从所述目标样本视频中提取出N个视频帧;所述目标样本视频为所述训练集中的任一样本视频;
通过所述注意力机制模型从所述N个视频帧中提取出长度为N的驱动信息流,并根据所述驱动信息流得到所述第一驱动信息。
6.根据权利要求4所述的方法,其特征在于,所述判别器包括:第一判别器和第二判别器;
所述通过判别器对所述第一帧集合中的每个视频帧进行判断,包括:
通过所述第一判别器判断所述第一帧集合中的每个视频帧是否为真实图像,并通过所述第二判别器判断所述第一帧集合中的每个视频帧中所包含的所述第二虚拟人的面部表情、动作、姿态是否与所述第一驱动信息一致。
7.根据权利要求4所述的方法,其特征在于,所述通过所述多层感知机模型在所述第一动态神经辐射场内根据所述第一驱动信息驱动所述第二虚拟人,生成包含多个视频帧的第一帧集合之后,所述方法还包括:
通过第一损失函数判断所述第一帧集合中任一两个相邻的视频帧所包含的虚拟人的人脸身份特征是否一致,并通过第二损失函数判断所述第一帧集合中任一两个相邻的视频帧所包含的虚拟人的动作变化是否连续。
8.一种虚拟人物的驱动装置,其特征在于,所述装置包括:
生成模块,用于将包含目标虚拟人的视觉特征的隐向量输入到生成器模型中,得到包含所述目标虚拟人的目标特征空间;
构建模块,用于基于所述目标特征空间、根据驱动源得到的目标驱动信息以及多层感知机模型,构建目标动态神经辐射场;
输出模块,用于通过所述多层感知机模型在所述目标动态神经辐射场内根据所述目标驱动信息驱动所述目标虚拟人,并生成目标视频。
9.一种电子设备,其特征在于,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现如权利要求1至7任一项所述虚拟人物的驱动方法的步骤。
10.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述虚拟人物的驱动方法的步骤。
CN202310160671.3A 2023-02-24 2023-02-24 虚拟人物的驱动方法、装置、电子设备及可读存储介质 Active CN116030167B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310160671.3A CN116030167B (zh) 2023-02-24 2023-02-24 虚拟人物的驱动方法、装置、电子设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310160671.3A CN116030167B (zh) 2023-02-24 2023-02-24 虚拟人物的驱动方法、装置、电子设备及可读存储介质

Publications (2)

Publication Number Publication Date
CN116030167A true CN116030167A (zh) 2023-04-28
CN116030167B CN116030167B (zh) 2023-06-30

Family

ID=86081296

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310160671.3A Active CN116030167B (zh) 2023-02-24 2023-02-24 虚拟人物的驱动方法、装置、电子设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN116030167B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112887698A (zh) * 2021-02-04 2021-06-01 中国科学技术大学 基于神经辐射场的高质量人脸语音驱动方法
CN113099208A (zh) * 2021-03-31 2021-07-09 清华大学 基于神经辐射场的动态人体自由视点视频生成方法和装置
CN113793408A (zh) * 2021-09-15 2021-12-14 宿迁硅基智能科技有限公司 一种实时音频驱动人脸生成方法、装置及服务器
CN113822969A (zh) * 2021-09-15 2021-12-21 宿迁硅基智能科技有限公司 训练神经辐射场模型和人脸生成方法、装置及服务器
EP4092636A2 (en) * 2021-10-29 2022-11-23 Beijing Baidu Netcom Science Technology Co., Ltd. Method and apparatus of generating virtual idol, and electronic device

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112887698A (zh) * 2021-02-04 2021-06-01 中国科学技术大学 基于神经辐射场的高质量人脸语音驱动方法
CN113099208A (zh) * 2021-03-31 2021-07-09 清华大学 基于神经辐射场的动态人体自由视点视频生成方法和装置
CN113793408A (zh) * 2021-09-15 2021-12-14 宿迁硅基智能科技有限公司 一种实时音频驱动人脸生成方法、装置及服务器
CN113822969A (zh) * 2021-09-15 2021-12-21 宿迁硅基智能科技有限公司 训练神经辐射场模型和人脸生成方法、装置及服务器
EP4092636A2 (en) * 2021-10-29 2022-11-23 Beijing Baidu Netcom Science Technology Co., Ltd. Method and apparatus of generating virtual idol, and electronic device

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
GUY GAFNI: "Dynamic Neural Radiance Fields for Monocular 4D Facial Avatar Reconstruction", 《HTTPS://ARXIV.ORG/ABS/2012.03065》 *

Also Published As

Publication number Publication date
CN116030167B (zh) 2023-06-30

Similar Documents

Publication Publication Date Title
Liu et al. Generative adversarial networks for image and video synthesis: Algorithms and applications
Tang et al. Attention-guided generative adversarial networks for unsupervised image-to-image translation
Zhou et al. Photorealistic facial expression synthesis by the conditional difference adversarial autoencoder
Yang et al. Weakly-supervised disentangling with recurrent transformations for 3d view synthesis
JP2023548921A (ja) 画像の視線補正方法、装置、電子機器、コンピュータ可読記憶媒体及びコンピュータプログラム
CN109886216B (zh) 基于vr情景人脸图像复原的表情识别方法、设备及介质
CN111832745A (zh) 数据增广的方法、装置及电子设备
CN115914505B (zh) 基于语音驱动数字人模型的视频生成方法及系统
WO2020014294A1 (en) Learning to segment via cut-and-paste
Chen et al. Long-term video prediction via criticization and retrospection
Wang et al. Learning how to smile: Expression video generation with conditional adversarial recurrent nets
CN110516736B (zh) 多维可视化的多源异构数据多层drnn深度融合方法
CN117218246A (zh) 图像生成模型的训练方法、装置、电子设备及存储介质
CN115100707A (zh) 模型的训练方法、视频信息生成方法、设备以及存储介质
CN117315211B (zh) 数字人合成及其模型训练方法、装置、设备及存储介质
JP7446566B2 (ja) ボリュメトリックキャプチャ及びメッシュ追跡ベースの機械学習
US20230290132A1 (en) Object recognition neural network training using multiple data sources
CN112562045B (zh) 生成模型和生成3d动画的方法、装置、设备和存储介质
CN113538254A (zh) 图像恢复方法、装置、电子设备及计算机可读存储介质
CN116030167B (zh) 虚拟人物的驱动方法、装置、电子设备及可读存储介质
CN116863044A (zh) 人脸模型的生成方法、装置、电子设备及可读存储介质
Wang et al. A cyclic consistency motion style transfer method combined with kinematic constraints
Ladwig et al. Unmasking Communication Partners: A Low-Cost AI Solution for Digitally Removing Head-Mounted Displays in VR-Based Telepresence
CN115035219A (zh) 表情生成方法、装置和表情生成模型的训练方法、装置
Sun et al. Robust pose transfer with dynamic details using neural video rendering

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant