CN116193093A

CN116193093A - 视频制作方法、装置、电子设备及可读存储介质

Info

Publication number: CN116193093A
Application number: CN202211610310.6A
Authority: CN
Inventors: 张煜; 王兆龙; 孙伟; 邵志兢
Original assignee: Zhuhai Prometheus Vision Technology Co ltd
Current assignee: Zhuhai Prometheus Vision Technology Co ltd
Priority date: 2022-12-14
Filing date: 2022-12-14
Publication date: 2023-05-30

Abstract

本申请公开了一种视频制作方法、装置、电子设备及可读存储介质，包括：综上所述，本申请实施例提供的视频制作方法包括：获取待处理的原始视频，以及所述原始视频对应的背景图像；基于所述背景图像，以及所述背景图像对应的相机姿态信息，对所述初始三维模型进行光照重建，得到所述初始三维模型对应的干扰光照信息；以真实光照信息替换所述干扰光照信息，得到目标三维模型，以及包含所述目标三维模型的目标视频。可见，本方法可以得到三维模型的纹理视觉效果更加真实的目标视频。并且，本方法可以在原始视频的基础上进行修改，无需重新拍摄视频，因此对于存在不同光照需求的场景，仅需要拍摄一个原始视频即可，降低了视频制作的成本。

Description

视频制作方法、装置、电子设备及可读存储介质

技术领域

本申请涉及视频制作技术领域，具体涉及一种视频制作方法、装置、电子设备及可读存储介质。

背景技术

体积视频是一种新兴的视频模式，可以在播放时由用户对画面进行旋转，以从不同的角度观察视频中的三维模型。

在拍摄体积视频时，通常需要被拍摄者进入专业的摄影棚，并通过摄影棚中的设备进行拍摄和重建，以得到体积视频。但是摄影棚中的打光容易造成拍摄的体积视频真实感较低。

发明内容

本申请提供一种视频制作方法、装置、电子设备及可读存储介质，旨在解决现有的视频制作方法得到的视频真实感较低的技术问题。

第一方面，本申请提供一种视频制作方法，包括：

获取待处理的原始视频，以及所述原始视频对应的背景图像，其中，所述原始视频中至少包含一初始三维模型；

基于所述背景图像，以及所述背景图像对应的相机姿态信息，对所述初始三维模型进行光照重建，得到所述初始三维模型对应的干扰光照信息；

以真实光照信息替换所述干扰光照信息，得到目标三维模型，以及包含所述目标三维模型的目标视频。

在本申请的一种可能的实现方式中，所述以真实光照信息替换所述干扰光照信息，得到目标三维模型，以及包含所述目标三维模型的目标视频，包括：

基于预设的渲染方程，所述初始三维模型对应的第一纹理图和所述干扰光照信息，确定所述初始三维模型的模型材质信息；

获取真实光照信息；

将所述真实光照信息和所述模型材质信息输入所述渲染方程，得到第二纹理图，所述第二纹理图对应的目标三维模型，以及包含所述目标三维模型的目标视频。

在本申请的一种可能的实现方式中，所述基于预设的渲染方程，所述初始三维模型对应的第一纹理图和所述干扰光照信息，确定所述初始三维模型的模型材质信息，包括：

从所述初始三维模型对应的第一纹理图的纹理中，去除所述初始三维模型对应的预设的自发光纹理图中的纹理，得到反射光纹理图；

将所述反射光纹理图和所述干扰光照信息输入预设的渲染方程，得到所述初始三维模型的模型材质信息。

在本申请的一种可能的实现方式中，所述获取真实光照信息，包括：

接收用户的光照信息输入指令，获取所述光照信息输入指令对应的真实光照信息。

在本申请的一种可能的实现方式中，所述基于预设的渲染方程，所述初始三维模型对应的第一纹理图和所述干扰光照信息，确定所述初始三维模型的模型材质信息之后，还包括：

提取所述模型材质信息的第一材质特征图；

对所述第一材质特征图进行放大，得到放大后的目标材质特征图；

融合所述第一材质特征图和所述目标材质特征图，得到融合特征图；

基于所述融合特征图，预测得到第二纹理图；

以所述第二纹理图替换所述第一纹理图，得到目标三维模型，以及包含所述目标三维模型的目标视频。

在本申请的一种可能的实现方式中，所述对所述第一材质特征图进行放大，得到放大后的目标材质特征图，包括：

对所述第一材质特征图进行下采样，得到所述第一材质特征图下采样后的第二材质特征图；

对所述第二材质特征图进行上采样，得到对所述第一材质特征图放大后的目标材质特征图。

在本申请的一种可能的实现方式中，所述基于所述背景图像，以及所述背景图像对应的相机姿态信息，对所述初始三维模型进行光照重建，得到所述初始三维模型对应的干扰光照信息，包括：

基于所述背景图像和所述背景图像对应的相机姿态信息，重建三维场景表示；

根据所述三维场景表示中的体素信息进行积分计算，得到所述初始三维模型对应的干扰光照信息。

在本申请的一种可能的实现方式中，所述体素信息包括体素密度和体素颜色值。

在本申请的一种可能的实现方式中，所述三维场景表示为神经隐式表示。

在本申请的一种可能的实现方式中，所述获取待处理的原始视频，包括：

将待评分的媒体视频输入预设的评分模型，得到所述媒体视频中评分低于预设分数阈值的媒体视频帧，以及由各所述媒体视频帧构成的原始视频，其中，所述媒体视频中至少包含一三维模型，所述预设的评分模型用于对视频中三维模型对应的光照信息进行评分。

在本申请的一种可能的实现方式中，所述原始视频和所述目标视频均为体积视频。

第二方面，本申请提供一种视频制作装置，包括：

获取单元，用于获取待处理的原始视频，以及所述原始视频对应的背景图像，其中，所述原始视频中至少包含一初始三维模型；

重建单元，用于基于所述背景图像，以及所述背景图像对应的相机姿态信息，对所述初始三维模型进行光照重建，得到所述初始三维模型对应的干扰光照信息；

替换单元，用于以真实光照信息替换所述干扰光照信息，得到目标三维模型，以及包含所述目标三维模型的目标视频。

在本申请的一种可能的实现方式中，替换单元还用于：

获取真实光照信息；

在本申请的一种可能的实现方式中，替换单元还用于：

提取所述模型材质信息的第一材质特征图；

基于所述融合特征图，预测得到第二纹理图；

在本申请的一种可能的实现方式中，替换单元还用于：

在本申请的一种可能的实现方式中，获取单元还用于：

第三方面，本申请还提供一种电子设备，电子设备包括处理器、存储器以及存储于存储器中并可在处理器上运行的计算机程序，处理器调用存储器中的计算机程序时执行本申请提供的任一种视频制作方法中的步骤。

第四方面，本申请还提供一种可读存储介质，可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现本申请提供的任一种视频制作方法中的步骤。

综上所述，本申请实施例提供的视频制作方法包括：获取待处理的原始视频，以及所述原始视频对应的背景图像，其中，所述原始视频中至少包含一初始三维模型；基于所述背景图像，以及所述背景图像对应的相机姿态信息，对所述初始三维模型进行光照重建，得到所述初始三维模型对应的干扰光照信息；以真实光照信息替换所述干扰光照信息，得到目标三维模型，以及包含所述目标三维模型的目标视频。

可见，本申请实施例提供的视频制作方法，可以替换原始视频中的光照信息，得到三维模型的纹理视觉效果更加真实的目标视频，避免摄影棚中的干扰光照信息降低原始视频的真实感。并且，本申请实施例提供的视频制作方法可以在原始视频的基础上进行修改，无需重新拍摄视频，因此对于存在不同光照需求的场景，仅需要拍摄一个原始视频即可，降低了视频制作的成本。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的视频制作方法的应用场景示意图；

图2是本申请实施例中提供的视频制作方法的一种流程示意图；

图3是本申请实施例中提供的原始视频的一种示意图；

图4是本申请实施例中提供的获取目标视频的一种流程示意图；

图5是本申请实施例中提供的获取原始视频的一种流程示意图；

图6是本申请实施例中提供的视频制作装置的一个实施例结构示意图；

图7是本申请实施例中提供的电子设备的一个实施例结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

体积视频(Volumetric Video，又称容积视频、空间视频、体三维视频或6自由度视频等)是一种通过捕获三维空间中信息(如深度信息和色彩信息等)并生成三维模型序列的技术。相对于传统的视频，体积视频将空间的概念加入到视频中，用三维模型来更好的还原真实三维世界，而不是以二维的平面视频加上运镜来模拟真实三维世界的空间感。由于体积视频实质为三维模型序列，使得用户可以随自己喜好调整到任意视角进行观看，较二维平面视频具有更高的还原度和沉浸感。

可选地，在本申请中，用于构成体积视频的三维模型可以按照如下方式重建得到：

先获取拍摄对象的不同视角的彩色图像和深度图像，以及彩色图像对应的相机参数；然后根据获取到的彩色图像及其对应的深度图像和相机参数，训练隐式表达拍摄对象三维模型的神经网络模型，并基于训练的神经网络模型进行等值面提取，实现对拍摄对象的三维重建，得到拍摄对象的三维模型。

应当说明的是，本申请实施例中对采用何种架构的神经网络模型不作具体限制，可由本领域技术人员根据实际需要选取。比如，可以选取不带归一化层的多层感知机(Multilayer Perceptron，MLP)作为模型训练的基础模型。

下面将对本申请提供的三维模型重建方法进行详细描述。

首先，可以同步采用多个彩色相机和深度相机对需要进行三维重建的目标物体(该目标物体即为拍摄对象)进行多视角的拍摄，得到目标物体在多个不同视角的彩色图像及对应的深度图像，即在同一拍摄时刻(实际拍摄时刻的差值小于或等于时间阈值即认为拍摄时刻相同)，各视角的彩色相机将拍摄得到目标物体在对应视角的彩色图像，相应的，各视角的深度相机将拍摄得到目标物体在对应视角的深度图像。需要说明的是，目标物体可以是任意物体，包括但不限于人物、动物以及植物等生命物体，或者机械、家具、玩偶等非生命物体。

以此，目标物体在不同视角的彩色图像均具备对应的深度图像，即在拍摄时，彩色相机和深度相机可以采用相机组的配置，同一视角的彩色相机配合深度相机同步对同一目标物体进行拍摄。比如，可以搭建一摄影棚，该摄影棚中心区域为拍摄区域，环绕该拍摄区域，在水平方向和垂直方向每间隔一定角度配对设置有多组彩色相机和深度相机。当目标物体处于这些彩色相机和深度相机所环绕的拍摄区域时，即可通过这些彩色相机和深度相机拍摄得到该目标物体在不同视角的彩色图像及对应的深度图像。

此外，进一步获取每一彩色图像对应的彩色相机的相机参数。其中，相机参数包括彩色相机的内外参，可以通过标定确定，相机内参为与彩色相机自身特性相关的参数，包括但不限于彩色相机的焦距、像素等数据，相机外参为彩色相机在世界坐标系中的参数，包括但不限于彩色相机的位置(坐标)和相机的旋转方向等数据。

如上，在获取到目标物体在同一拍摄时刻的多个不同视角的彩色图像及其对应的深度图像之后，即可根据这些彩色图像及其对应深度图像对目标物体进行三维重建。区别于相关技术中将深度信息转换为点云进行三维重建的方式，本申请训练一神经网络模型用以实现对目标物体的三维模型的隐式表达，从而基于该神经网络模型实现对目标物体的三维重建。

可选地，本申请选用一不包括归一化层的多层感知机(Multilayer Perceptron，MLP)作为基础模型，按照如下方式进行训练：

基于对应的相机参数将每一彩色图像中的像素点转化为射线；

在射线上采样多个采样点，并确定每一采样点的第一坐标信息以及每一采样点距离像素点的SDF值；

将采样点的第一坐标信息输入基础模型，得到基础模型输出的每一采样点的预测SDF值以及预测RGB颜色值；

基于预测SDF值与SDF值之间的第一差异，以及预测RGB颜色值与像素点的RGB颜色值之间的第二差异，对基础模型的参数进行调整，直至满足预设停止条件；

将满足预设停止条件的基础模型作为隐式表达目标物体的三维模型的神经网络模型。

首先，基于彩色图像对应的相机参数将彩色图像中的一像素点转化为一条射线，该射线可以为经过像素点且垂直于彩色图像面的射线；然后，在该射线上采样多个采样点，采样点的采样过程可以分两步执行，可以先均匀采样部分采样点，然后再在基于像素点的深度值在关键处进一步采样多个采样点，以保证在模型表面附近可以采样到尽量多的采样点；然后，根据相机参数和像素点的深度值计算出采样得到的每一采样点在世界坐标系中的第一坐标信息以及每一采样点的有向距离(Signed Distance Field，SDF)值，其中，SDF值可以为像素点的深度值与采样点距离相机成像面的距离之间的差值，该差值为有符号的值，当差值为正值时，表示采样点在三维模型的外部，当差值为负值时，表示采样点在三维模型的内部，当差值为零时，表示采样点在三维模型的表面；然后，在完成采样点的采样并计算得到每一采样点对应的SDF值之后，进一步将采样点在世界坐标系的第一坐标信息输入基础模型(该基础模型被配置为将输入的坐标信息映射为SDF值和RGB颜色值后输出)，将基础模型输出的SDF值记为预测SDF值，将基础模型输出的RGB颜色值记为预测RGB颜色值；然后，基于预测SDF值与采样点对应的SDF值之间的第一差异，以及预测RGB颜色值与采样点所对应像素点的RGB颜色值之间的第二差异，对基础模型的参数进行调整。

此外，对于彩色图像中的其它像素点，同样按照上述方式进行采样点采样，然后将采样点在世界坐标系的坐标信息输入至基础模型以得到对应的预测SDF值和预测RGB颜色值，用于对基础模型的参数进行调整，直至满足预设停止条件，比如，可以配置预设停止条件为对基础模型的迭代次数达到预设次数，或者配置预设停止条件为基础模型收敛。在对基础模型的迭代满足预设停止条件时，即得到能够对拍摄对象的三维模型进行准确地隐式表达的神经网络模型。最后，可以采用等值面提取算法对该神经网络模型进行三维模型表面的提取，从而得到拍摄对象的三维模型。

可选地，在一些实施例中，根据相机参数确定彩色图像的成像面；确定经过彩色图像中像素点且垂直于成像面的射线为像素点对应的射线。

其中，可以根据彩色图像对应的彩色相机的相机参数，确定该彩色图像在世界坐标系中的坐标信息，即确定成像面。然后，可以确定经过彩色图像中像素点且垂直于该成像面的射线为该像素点对应的射线。

可选地，在一些实施例中，根据相机参数确定彩色相机在世界坐标系中的第二坐标信息及旋转角度；根据第二坐标信息和旋转角度确定彩色图像的成像面。

可选地，在一些实施例中，在射线上等间距采样第一数量个第一采样点；根据像素点的深度值确定多个关键采样点，并根据关键采样点采样第二数量个第二采样点；将第一数量个的第一采样点与第二数量个的第二采样点确定为在射线上采样得到的多个采样点。

其中，先在射线上均匀采样n(即第一数量)个第一采样点，n为大于2的正整数；然后，再根据前述像素点的深度值，从n个第一采样点中确定出距离前述像素点最近的预设数量个关键采样点，或者从n个第一采样点中确定出距离前述像素点小于距离阈值的关键采样点；然后，根据确定出的关键采样点再采样m个第二采样点，m为大于1的正整数；最后，将采样得到的n+m个采样点确定为在射线上采样得到的多个采样点。其中，在关键采样点处再多采样m个采样点，可以使得模型的训练效果在三维模型表面处更为精确，从而提升三维模型的重建精度。

可选地，在一些实施例中，根据彩色图像对应的深度图像确定像素点对应的深度值；基于深度值计算每一采样点距离像素点的SDF值；根据相机参数与深度值计算每一采样点的坐标信息。

其中，在每一像素点对应的射线上采样了多个采样点后，对于每一采样点，根据相机参数、像素点的深度值确定彩色相机的拍摄位置与目标物体上对应点之间的距离，然后基于该距离逐一计算每一采样点的SDF值以及计算出每一采样点的坐标信息。

需要说明的是，在完成对基础模型的训练之后，对于给定的任意一个点的坐标信息，即可由完成训练的基础模型预测其对应的SDF值，该预测的SDF值即表示了该点与目标物体的三维模型的位置关系(内部、外部或者表面)，实现对目标物体的三维模型的隐式表达，得到用于隐式表达目标物体的三维模型的神经网络模型。

最后，对以上神经网络模型进行等值面提取，比如可以采用等值面提取算法(Marching cubes，MC)绘制出三维模型的表面，得到三维模型表面，进而根据该三维模型表面得到目标物体的三维模型。

本申请提供的三维重建方案，通过神经网络去隐式建模目标物体的三维模型，并加入深度信息提高模型训练的速度和精度。采用本申请提供的三维重建方案，在时序上持续的对拍摄对象进行三维重建，即可得到拍摄对象在不同时刻的三维模型，这些不同时刻的三维模型按时序构成的三维模型序列即为对拍摄对象所拍摄得到的体积视频。以此，可以针对任意拍摄对象进行“体积视频拍摄”，得到特定内容呈现的体积视频。比如，可以对跳舞的拍摄对象进行体积视频拍摄，得到可以在任意角度观看拍摄对象舞蹈的体积视频，可以对教学的拍摄对象进行体积视频拍摄，得到可以在任意角度观看拍摄对象教学的体积视频，等等。

需要说明的是，本申请以下实施例涉及的体积视频可采用以上体积视频拍摄方式所拍摄得到。

在本申请实施例的描述中，需要理解的是，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个所述特征。在本申请实施例的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

为了使本领域任何技术人员能够实现和使用本申请，给出了以下描述。在以下描述中，为了解释的目的而列出了细节。应当明白的是，本领域普通技术人员可以认识到，在不使用这些特定细节的情况下也可以实现本申请。在其它实例中，不会对公知的过程进行详细阐述，以避免不必要的细节使本申请实施例的描述变得晦涩。因此，本申请并非旨在限于所示的实施例，而是与符合本申请实施例所公开的原理和特征的最广范围相一致。

本申请实施例提供一种视频制作方法、装置、电子设备和可读存储介质。其中，该视频制作装置可以集成在电子设备中，该电子设备可以是服务器，也可以是终端等设备。

本申请实施例视频制作方法的执行主体可以为本申请实施例提供的视频制作装置，或者集成了该视频制作装置的服务器设备、物理主机或者特效制作人员设备(UserEquipment，UE)等不同类型的电子设备，其中，视频制作装置可以采用硬件或者软件的方式实现，UE具体可以为智能手机、平板电脑、笔记本电脑、掌上电脑、台式电脑或者个人数字助理(Personal Digital Assistant，PDA)等终端设备。

该电子设备可以采用单独运行的工作方式，或者也可以采用设备集群的工作方式。

参见图1，图1是本申请实施例所提供的视频制作系统的场景示意图。其中，该视频制作系统可以包括电子设备100，电子设备100中集成有视频制作装置。

另外，如图1所示，该视频制作系统还可以包括存储器200，用于存储数据，如存储文本数据。

需要说明的是，图1所示的视频制作系统的场景示意图仅仅是一个示例，本申请实施例描述的视频制作系统以及场景是为了更加清楚的说明本申请实施例的技术方案，并不构成对于本申请实施例提供的技术方案的限定，本领域普通技术人员可知，随着视频制作系统的演变和新业务场景的出现，本发明实施例提供的技术方案对于类似的技术问题，同样适用。

下面，开始介绍本申请实施例提供的视频制作方法，本申请实施例中以电子设备作为执行主体，为了简化与便于描述，后续方法实施例中将省略该执行主体，该视频制作方法包括：获取待处理的原始视频，以及所述原始视频对应的背景图像，其中，所述原始视频中至少包含一初始三维模型；基于所述背景图像，以及所述背景图像对应的相机姿态信息，对所述初始三维模型进行光照重建，得到所述初始三维模型对应的干扰光照信息；以真实光照信息替换所述干扰光照信息，得到目标三维模型，以及包含所述目标三维模型的目标视频。

参照图2，图2是本申请实施例提供的视频制作方法的一种流程示意图。需要说明的是，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。该视频制作方法具体可以包括以下步骤201-步骤203，其中：

201、获取待处理的原始视频，以及所述原始视频对应的背景图像，其中，所述原始视频中至少包含一初始三维模型。

在本申请实施例中，原始视频可以是指体积视频，在原始视频中至少包含一初始三维模型。例如可以参考图3，图3中提供了原始视频的一种示意图300，可见原始视频300中包含了初始三维模型301，以及背景部分，在图3中，背景部分包括了原始视频300中的竹子。

原始视频对应的背景图像是指包含原始视频中背景部分的图像。例如在图3中，原始视频300对应的背景图像可以是指从原始视频300的视频帧中去掉初始三维模型301后得到的视频帧。示例性地，在用户已经进入的摄影棚中拍摄原始视频300后或在摄影棚中拍摄原始视频300之前，对用户未进入的摄影棚进行同样的拍摄，得到背景视频，并将背景视频中的视频帧作为背景图像。

获取背景图像的目的是获取摄影棚中的环境光情况，以重建初始三维模型表面的光照信息，具体可见下文的说明。

202、基于所述背景图像，以及所述背景图像对应的相机姿态信息，对所述初始三维模型进行光照重建，得到所述初始三维模型对应的干扰光照信息。

背景图像对应的相机姿态信息是指拍摄背景图像时，相机的内外参数。例如在背景图像是背景视频中的视频帧时，对于每个视频帧，背景图像对应的相机姿态信息是指摄影棚中设置的相机在拍摄背景视频中的每个视频帧时，所采用的内外参数。

初始三维模型对应的干扰光照信息可以是指摄影棚中的环境光信息。其中，本申请实施例中的环境光是指摄影棚中的打光，可以理解的，摄影棚中由于拍摄清晰度等技术方面的原因，通常打光会与自然光线不同，例如打光通常会比自然光线亮度更高，并且光线的照射范围更加集中，因此会导致原始视频中初始三维模型呈现视觉上与周围环境，以及与视频主题不匹配的纹理信息，因此摄影棚中的打光可以认为是一种影响初始三维模型的视觉效果的干扰光照信息。例如对于原始视频300，其希望呈现的视频内容是在自然界的竹林中站立的用户，但是如果摄影棚中的打光亮度过高，和/或光线的照射范围过于集中在用户附近，则会导致初始三维模型301表面过亮，与自然光线的视觉效果不同，使原始视频的真实感降低。

示例性地，可以基于背景图像和背景图像对应的相机姿态信息，重建摄影棚中的三维场景，得到三维场景表示(Scene Representation)，并基于该三维场景表示，得到干扰光照信息。此时，步骤“基于所述背景图像，以及所述背景图像对应的相机姿态信息，对所述初始三维模型进行光照重建，得到所述初始三维模型对应的干扰光照信息”，包括：

(1.1)基于所述背景图像和所述背景图像对应的相机姿态信息，重建三维场景表示。

本申请实施例中的三维场景表示可以是指基于神经辐射场(Neural RadianceFields，NeRF)重建得到摄影棚的神经隐式表示(Implicit Neural Representation，INR)。

神经隐式表示将摄影棚中的每个空间点表征为一个体素，在神经隐式表示中，包含了这些体素的体素信息，其中可以包括体素密度(Volume Density)和体素颜色值。

(1.2)根据所述三维场景表示中的体素信息进行积分计算，得到所述初始三维模型对应的干扰光照信息。

对体素信息进行积分计算后，即可得到摄影棚中的打光在初始三维模型上形成的光照的信息。其中，积分计算的公式可以为公式(1)：

其中，t是指体素，C(r)是指打光光线的光照颜色值，T(t)示沿打光光线从t_n到t的累积透射率，也就是打光光线从t_n传播到t而没有碰到任何其他粒子(仍存活)的概率，可以根据体素密度计算得到，r(t)是具有近边界t_n、远边界t_f的打光光线，c是指体素颜色值，σ是指体素密度。

通过公式(1)，即可得到摄影棚中的打光信息。

203、以真实光照信息替换所述干扰光照信息，得到目标三维模型，以及包含所述目标三维模型的目标视频。

真实光照信息是指用于替换干扰光照信息，以改变视频中三维模型的纹理图，使视频中三维模型显示的纹理视觉效果更加真实的光照信息。

目标三维模型是指由真实光照信息替换干扰光照信息，以改变初始三维模型的纹理图后得到的三维模型。

目标视频是指替换光照信息后，得到的体积视频。可以理解的，目标视频中的背景部分与原始视频中的背景部分相同。

重建出摄影棚内的打光信息后即可以真实光照信息替换干扰光照信息，以得到真实感更高的目标视频，以及在真实光照信息的作用下呈现更加真实的纹理视觉效果的目标三维模型。

由于在模型渲染得到初始三维模型时，采用的是：将干扰光照信息作为光源，对赋予了模型材质信息的初始三维模型进行光照后，得到原始视频中初始三维模型表面渲染的纹理贴图的方法，因此为了以真实光照信息替换干扰光照信息，可以基于渲染时的方程反向计算出模型材质信息，再以真实光照信息作为光源，渲染得到目标三维模型。此时，参考步骤“以真实光照信息替换所述干扰光照信息，得到目标三维模型，以及包含所述目标三维模型的目标视频”，包括：

(2.1)基于预设的渲染方程，所述初始三维模型对应的第一纹理图和所述干扰光照信息，确定所述初始三维模型的模型材质信息。

其中，模型材质信息包含了初始三维模型中各点对光线的反射能力。例如，模型材质信息中可以包含初始三维模型对应的双向反射分布函数(Bidirectional ReflectanceDistribution Function，BRDF)。

其中，渲染方程(Rendering Equation)是一种用于根据光源产生的光照，生成三维模型表面的纹理信息的方法。公式(2)示出了渲染方程的具体形式，而公式(3)示出了渲染方程的另一种形式，具体见下文说明：

其中，

是指观察者以/>

的角度，观察到的初始三维模型表面X点的纹理信息，可以理解为以/>

的角度，原始视频中为初始三维模型渲染的纹理贴图，/>

可以根据拍摄原始视频的各视频帧时的相机姿态信息，以及体素的位置确定。/>

是指初始三维模型自发光所产生的纹理信息，可以由视频制作人员预先设置，通常可以设置为零，此时，渲染公式可以简化为公式(3)。/>

是指步骤(1.2)计算的C(r)中，在X点以/>

入射的光线(干扰光照信息)。/>

是指初始三维模型上X点的模型材质信息。/>

是指朗伯(lambert)偏移项。ξ²是指初始三维模型的各方向。需要说明的是，除了/>

和

之外，其他公式(2)中的值均可以通过初始三维模型自身的模型数据计算得到，或者由视频制作人员预先设置，例如/>

可以根据初始三维模型的法线贴图得到，本申请实施例对此不进行赘述。

可见将步骤(1.2)计算的C(r)和

输入渲染公式后，即可计算得到初始三维模型的模型材质信息/>

而当/>

并未设置为零时，步骤“基于预设的渲染方程，所述初始三维模型对应的第一纹理图和所述干扰光照信息，确定所述初始三维模型的模型材质信息”可以包括：

(2.11)从所述初始三维模型对应的第一纹理图的纹理中，去除所述初始三维模型对应的预设的自发光纹理图中的纹理，得到反射光纹理图。

自发光纹理图即为上述的

可以由制作人员预先设置。

反射光纹理图即为公式(2)和公式(3)中的

用于表征光线在初始三维模型表面反射时产生的纹理视觉效果。

(2.12)将所述反射光纹理图和所述干扰光照信息输入预设的渲染方程，得到所述初始三维模型的模型材质信息。

在执行步骤(2.12)，可以将反射光纹理图和干扰光照信息输入公式(3)，以得到模型材质信息

(2.2)获取真实光照信息。

其中，真实光照信息可以由视频制作人员输入。即步骤“获取真实光照信息”，包括：

(2.3)将所述真实光照信息和所述模型材质信息输入所述渲染方程，得到第二纹理图，所述第二纹理图对应的目标三维模型，以及包含所述目标三维模型的目标视频。

步骤(2.3)的说明可以参考公式(2)，真实光照信息可以用于替换

将

和真实光照信息输入渲染方程后，即可得到新的/>

新的/>

即为替换光照信息后，为初始三维模型重新渲染的纹理图，在渲染后，即可得到目标三维模型，以及包含目标三维模型的目标视频。

可见，步骤201-步骤203的方法，一方面可以通过替换光照信息的方法，得到真实感更高的目标视频，并且由于该方法基于原始视频进行光照替换，因此可以基于原始视频制作不同光照需求的目标视频，对于多个不同光照需求的应用场景，仅需要制作一个原始视频再进行光照替换即可，可以降低视频制作的成本。例如视频制作人员需要分别制作上午用户站在竹林里的第一视频和下午用户站在竹林里的第二视频，或者需要分别制作阴天用户站在竹林里的第一视频，以及晴天用户站在竹林里的第二视频时，视频制作人员可以基于原始视频300进行光照替换，以得到第一视频和第二视频，而无需拍摄两次以得到第一视频和第二视频。

在一些实施例中，本方法还可以在得到模型材质信息后，通过模型预测的方法得到第二纹理图，通过该方法则无需再由视频制作人员输入真实光照信息，可以进一步降低视频制作的成本。参考图4，此时，步骤“基于预设的渲染方程，所述初始三维模型对应的第一纹理图和所述干扰光照信息，确定所述初始三维模型的模型材质信息”之后，还包括：

401、提取所述模型材质信息的第一材质特征图。

第一材质特征图中包含了模型材质信息中的颜色，光亮程度，自发光度及不透明度等材质特征。

示例性地，可以通过开源的语义分割模型提取得到模型材质信息中的第一材质特征图。例如，可以通过预设的样本数据集对初始的U-NET进行训练后，得到训练好的U-NET，并通过训练好的U-NET提取第一材质特征图。

402、对所述第一材质特征图进行放大，得到放大后的目标材质特征图。

对第一材质特征图进行放大的目的是提取第一材质特征图中更加深层的材质特征，以提高预测的准确率。

示例性地，可以对第一材质特征图进行下采样之后，再进行上采样的方法，对第一材质特征图进行放大。此时，步骤对所述第一材质特征图进行放大，得到放大后的目标材质特征图”，包括：

(3.1)对所述第一材质特征图进行下采样，得到所述第一材质特征图下采样后的第二材质特征图。

第二材质特征图是对第一材质特征图下采样后得到的材质特征图。

本申请实施例对于下采样的方法不进行限制，示例性地，可以基于预设尺寸的卷积核和预设的步长，通过卷积的方法对第一材质特征图进行下采样，得到第二材质特征图。

(3.2)对所述第二材质特征图进行上采样，得到对所述第一材质特征图放大后的目标材质特征图。

目标材质特征图是对第二材质特征图进行上采样后得到的材质特征图，其中包含了放大后更加深层的材质特征。

本申请实施例对于上采样的方法不进行限制，示例性地，可以通过插值、反卷积等方法对第二材质特征图进行上采样，得到目标材质特征图。

示例性地，可以通过上文中训练好的U-NET对第一材质特征图进行放大，具体不进行赘述。

403、融合所述第一材质特征图和所述目标材质特征图，得到融合特征图。

将第一材质特征图和目标材质特征图融合后，即可融合浅层的材质特征和深层的材质特征，得到更加丰富的融合特征，以及包含融合特征的融合特征图。

其中，融合的方法可以是指拼接。

需要说明的是，若采用反卷积的方法进行上采样，由于反卷积只能扩大特征图而不能还原特征图，因此为了减少数据丢失，可以对第一材质特征图进行裁剪，得到尺寸与目标材质特征图相同的第三材质特征图，并融合第三材质特征图和目标材质特征图。

示例性地，可以通过上文中训练好的U-NET对第一材质特征图和目标材质特征图进行融合，具体不进行赘述。

404、基于所述融合特征图，预测得到第二纹理图。

示例性地，可以通过上文中训练好的U-NET预测得到第二纹理图，具体不进行赘述。

405、以所述第二纹理图替换所述第一纹理图，得到目标三维模型，以及包含所述目标三维模型的目标视频。

在执行步骤405时，可以通过第二纹理图重新渲染初始三维模型，以得到目标三维模型，以及包含目标三维模型的目标视频。

在一些实施例中，原始视频可以为媒体视频中的部分视频片段，电子设备可以通过识别媒体视频中美学评分较低的视频帧，以筛选得到原始视频。参考图5，此时，步骤“获取待处理的原始视频”，包括：

501、将待评分的媒体视频输入预设的评分模型，得到所述媒体视频中评分低于预设分数阈值的媒体视频帧，以及由各所述媒体视频帧构成的原始视频，其中，所述媒体视频中至少包含一三维模型，所述预设的评分模型用于对视频中三维模型对应的光照信息进行评分。

其中，预设的评分模型可以是指训练好的图片美学评估(Aesthetic VisualAnalysis)模型，可以通过训练后，用于对视频中三维模型对应的光照信息进行评分。示例性地，可以采用训练好的ASM-Net等开源的图片美学评估模型作为预设的评分模型。

媒体视频可以是指电影视频、广告视频等等，本申请实施例对此不进行限制。

若媒体视频中存在评分低于预设分数阈值的媒体视频帧，则说明该媒体视频帧中三维模型对应的光照信息需要进行替换，因此可以抽取这些媒体视频帧，按照顺序排列后，得到原始视频。

其中，预设分数阈值的具体数值可以根据实际场景需求进行设置。

为了更好实施本申请实施例中视频制作方法，在视频制作方法基础之上，本申请实施例中还提供一种视频制作装置，如图6所示，为本申请实施例中视频制作装置的一个实施例结构示意图，该视频制作装置600包括：

获取单元601，用于获取待处理的原始视频，以及所述原始视频对应的背景图像，其中，所述原始视频中至少包含一初始三维模型；

重建单元602，用于基于所述背景图像，以及所述背景图像对应的相机姿态信息，对所述初始三维模型进行光照重建，得到所述初始三维模型对应的干扰光照信息；

替换单元603，用于以真实光照信息替换所述干扰光照信息，得到目标三维模型，以及包含所述目标三维模型的目标视频。

在本申请的一种可能的实现方式中，替换单元603还用于：

获取真实光照信息；

在本申请的一种可能的实现方式中，替换单元603还用于：

提取所述模型材质信息的第一材质特征图；

基于所述融合特征图，预测得到第二纹理图；

在本申请的一种可能的实现方式中，替换单元603还用于：

在本申请的一种可能的实现方式中，获取单元601还用于：

具体实施时，以上各个模块可以作为独立的实体来实现，也可以进行任意组合，作为同一或若干个实体来实现，以上各个模块的具体实施可参见前面的方法实施例，在此不再赘述。

由于该视频制作装置可以执行任意实施例中视频制作方法中的步骤，因此，可以实现本申请任意实施例中视频制作方法所能实现的有益效果，详见前面的说明，在此不再赘述。

此外，为了更好实施本申请实施例中视频制作方法，在视频制作方法基础之上，本申请实施例还提供一种电子设备，参阅图7，图7示出了本申请实施例电子设备的一种结构示意图，具体的，本申请实施例提供的电子设备包括处理器701，处理器701用于执行存储器702中存储的计算机程序时实现任意实施例中视频制作方法的各步骤；或者，处理器701用于执行存储器702中存储的计算机程序时实现如图6对应实施例中各模块的功能。

示例性的，计算机程序可以被分割成一个或多个模块/单元，一个或者多个模块/单元被存储在存储器702中，并由处理器701执行，以完成本申请实施例。一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述计算机程序在计算机装置中的执行过程。

电子设备可包括，但不仅限于处理器701、存储器702。本领域技术人员可以理解，示意仅仅是电子设备的示例，并不构成对电子设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件。

处理器701可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circ界面t，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，处理器是电子设备的控制中心，利用各种接口和线路连接整个电子设备的各个部分。

存储器702可用于存储计算机程序和/或模块，处理器701通过运行或执行存储在存储器702内的计算机程序和/或模块，以及调用存储在存储器702内的数据，实现计算机装置的各种功能。存储器702可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据电子设备的使用所创建的数据(比如音频数据、视频数据等)等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的视频制作装置、电子设备及其相应模块的具体工作过程，可以参考任意实施例中视频制作方法的说明，具体在此不再赘述。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一可读存储介质中，并由处理器进行加载和执行。

为此，本申请实施例提供一种可读存储介质，可读存储介质上存储有计算机程序，该计算机程序被处理器执行时执行本申请任意实施例中视频制作方法中的步骤，具体操作可参考任意实施例中视频制作方法的说明，在此不再赘述。

其中，该可读存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁盘或光盘等。

由于该可读存储介质中所存储的指令，可以执行本申请任意实施例中视频制作方法中的步骤，因此，可以实现本申请任意实施例中视频制作方法所能实现的有益效果，详见前面的说明，在此不再赘述。

以上对本申请实施例所提供的一种视频制作方法、装置、存储介质及电子设备进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种视频制作方法，其特征在于，包括：

2.根据权利要求1所述的视频制作方法，其特征在于，所述以真实光照信息替换所述干扰光照信息，得到目标三维模型，以及包含所述目标三维模型的目标视频，包括：

获取真实光照信息；

3.根据权利要求2所述的视频制作方法，其特征在于，所述基于预设的渲染方程，所述初始三维模型对应的第一纹理图和所述干扰光照信息，确定所述初始三维模型的模型材质信息，包括：

4.根据权利要求2所述的视频制作方法，其特征在于，所述获取真实光照信息，包括：

5.根据权利要求2所述的视频制作方法，其特征在于，所述基于预设的渲染方程，所述初始三维模型对应的第一纹理图和所述干扰光照信息，确定所述初始三维模型的模型材质信息之后，还包括：

提取所述模型材质信息的第一材质特征图；

基于所述融合特征图，预测得到第二纹理图；

6.根据权利要求5所述的视频制作方法，其特征在于，所述对所述第一材质特征图进行放大，得到放大后的目标材质特征图，包括：

7.根据权利要求1所述的视频制作方法，其特征在于，所述基于所述背景图像，以及所述背景图像对应的相机姿态信息，对所述初始三维模型进行光照重建，得到所述初始三维模型对应的干扰光照信息，包括：

8.根据权利要求7所述的视频制作方法，其特征在于，所述体素信息包括体素密度和体素颜色值。

9.根据权利要求7所述的视频制作方法，其特征在于，所述三维场景表示为神经隐式表示。

10.根据权利要求1所述的视频制作方法，其特征在于，所述获取待处理的原始视频，包括：

11.根据权利要求1-10任一项所述的视频制作方法，其特征在于，所述原始视频和所述目标视频均为体积视频。

12.一种视频制作装置，其特征在于，包括：

13.一种电子设备，其特征在于，所述电子设备包括处理器、存储器以及存储于所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至11任一项所述的视频制作方法中的步骤。

14.一种可读存储介质，其特征在于，所述可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1至11任一项所述的视频制作方法中的步骤。