CN115174963A

CN115174963A - 视频生成方法、视频帧生成方法、装置及电子设备

Info

Publication number: CN115174963A
Application number: CN202211093179.0A
Authority: CN
Inventors: 张骏飞
Original assignee: Alibaba China Co Ltd
Current assignee: Alibaba China Co Ltd
Priority date: 2022-09-08
Filing date: 2022-09-08
Publication date: 2022-10-11
Anticipated expiration: 2042-09-08
Also published as: CN115174963B

Abstract

本申请公开了一种视频生成方法、视频帧生成方法、装置及电子设备，该方法包括获得多组场景数据，针对多组场景数据中的第一类型场景数据，按照第一类型场景数据生成第一类型场景辅助图和第一类型视频帧；针对多组场景数据中的第二类型场景数据，按照第二类型场景数据生成第二类型场景辅助图，并根据第一类型场景辅助图、第一类型视频帧和第二类型场景辅助图，生成第二类型视频帧；根据第一类型视频帧和第二类型视频帧，生成对应于多组场景数据的视频；该方法中，并不需要将上述多组场景数据中的每组场景数据全部进行渲染处理，可降低视频生成过程的渲染成本。

Description

视频生成方法、视频帧生成方法、装置及电子设备

技术领域

本申请涉及计算机视觉技术领域，具体涉及一种视频生成方法、视频帧生成方法、装置、电子设备以及计算机可读取存储介质。

背景技术

在计算机视觉技术领域，针对用户日益增长的视觉体验需求，视频作为用户视觉体验的主流载体具有举足轻重的地位。渲染处理作为视频生成过程中必不可少的环节，可为用户提升视频体验感，增加视频动画的真实性与可观赏性。

当前的视频生成技术中，通常采用渲染引擎直接对复杂的场景数据进行逐一渲染，然而，由于场景数据的复杂性以及视频渲染本身耗费时间的特点，在处理过程中需要消耗较多的运算资源、耗费较长的时间，并且为了获取高度真实感的视频，往往需要以很高的渲染成本为代价。因此，现有的视频生成技术存在渲染成本高的缺陷。

发明内容

本申请实施例提供一种视频生成方法、视频帧生成方法、装置、电子设备、计算机可读存储介质，以解决现有技术存在的上述问题。

本申请实施例提供一种视频生成方法，该方法包括：

获得多组场景数据，所述多组场景数据中的一组场景数据用于表示一个场景的布局状态，所述一个场景为针对一个物理空间的布局设计的一个展示角度场景，所述多组场景数据为每个展示角度场景所需的展示数据；针对所述多组场景数据中的第一类型场景数据，按照所述第一类型场景数据生成第一类型场景辅助图和第一类型视频帧；针对所述多组场景数据中的第二类型场景数据，按照所述第二类型场景数据生成第二类型场景辅助图，并根据所述第一类型场景辅助图、所述第一类型视频帧和所述第二类型场景辅助图，生成第二类型视频帧；根据所述第一类型视频帧和所述第二类型视频帧，生成对应于所述多组场景数据的视频。

可选的，所述方法应用于服务端，所述获得多组场景数据，包括：获得客户端提供的针对所述物理空间的布局参数，根据所述布局参数生成所述每个展示角度场景所需的展示数据；或者，所述方法应用于服务端，所述获得多组场景数据，包括：获得客户端提供的所述每个展示角度场景所需的展示数据；或者，所述方法应用于客户端，所述获得多组场景数据，包括：响应于检测到用户针对所述物理空间的设计操作，获得针对所述物理空间的布局参数，根据所述布局参数生成所述每个展示角度场景所需的展示数据。

可选的，所述方法还包括：从所述多组场景数据中获得任意一组场景数据，作为待处理场景数据；判断所述待处理场景数据所属的类型；所述针对所述多组场景数据中的第一类型场景数据，按照所述第一类型场景数据生成第一类型场景辅助图和待生成视频中的第一类型视频帧，包括：如果所述待处理场景数据为第一类型场景数据，则按照所述待处理场景数据生成所述待处理场景数据的辅助图和对应所述待处理场景数据的视频帧；所述针对所述多组场景数据中的第二类型场景数据，按照所述第二类型场景数据生成第二类型场景辅助图，包括：如果所述待处理场景数据为第二类型场景数据，则按照所述待处理场景数据生成所述待处理场景数据的辅助图。

可选的，所述判断所述待处理场景数据所属的类型，包括：获得所述待处理场景数据在所述多组场景数据中的组序号；如果所述组序号是偶数，则确定所述待处理场景数据为第一类型场景数据；如果所述组序号是奇数，则确定所述待处理场景数据为第二类型场景数据；其中，对应所述待处理场景数据的视频帧在所述视频中的帧序号与所述待处理场景数据在所述多组场景数据中的组序号相同。

可选的，所述如果所述待处理场景数据为第一类型场景数据，则按照所述待处理场景数据生成所述待处理场景数据的辅助图和对应所述待处理场景数据的视频帧，包括：如果所述待处理场景数据为第一类型场景数据，则按照所述待处理场景数据生成所述待处理场景数据的法向量图、深度图、纹理图和效果图，将所述法向量图、所述深度图、所述纹理图作为所述待处理场景数据的辅助图，将所述效果图作为对应所述待处理场景数据的视频帧。

可选的，如果所述待处理场景数据为第二类型场景数据，则按照所述待处理场景数据生成所述待处理场景数据的法向量图、深度图、纹理图和运动向量图，将所述法向量图、所述深度图、所述纹理图和所述运动向量图作为所述待处理场景数据的辅助图。

可选的，所述根据所述第一类型场景辅助图、所述第一类型视频帧和所述第二类型场景辅助图，生成第二类型视频帧，包括：将在所述多组场景数据中与所述第二类型场景数据相邻的第一类型场景数据的第一类型场景辅助图和第一类型视频帧，确定为相邻第一类型场景辅助图和相邻第一类型视频帧；根据所述第二类型场景辅助图中的运动向量图和所述相邻第一类型视频帧，将所述相邻第一类型视频帧中的像素点映射到待生成的第二类型视频帧中的像素点，获得映射后的相邻第一类型视频帧，并根据所述相邻第一类型视频帧和所述映射后的相邻第一类型视频帧，将所述相邻第一类型场景辅助图中的像素点特征映射到所述待生成的第二类型视频帧中的像素点特征，获得映射后的相邻第一类型场景辅助图；根据所述第二类型场景辅助图、所述映射后的相邻第一类型视频帧和所述映射后的相邻第一类型场景辅助图，获得所述映射后的相邻第一类型视频帧的权重；根据所述映射后的相邻第一类型视频帧的权重和所述映射后的相邻第一类型视频帧，生成所述第二类型视频帧。

可选的，所述根据所述第二类型场景辅助图中的运动向量图和所述相邻第一类型视频帧，将所述相邻第一类型视频帧中的像素点映射到待生成的第二类型视频帧中的像素点中，获得映射后的相邻第一类型视频帧，包括：针对所述相邻第一类型视频帧中的待映射像素点，根据所述第二类型场景辅助图中的运动向量图，确定所述待映射像素点在所述待生成的第二类型视频帧中的位置，按照在所述待生成的第二类型视频帧中已确定位置的所有待映射像素点生成初始第二类型视频，作为映射后的相邻第一类型视频帧。

可选的，所述根据所述相邻第一类型视频帧和所述映射后的相邻第一类型视频帧，将所述相邻第一类型场景辅助图中的像素点特征映射到所述待生成的第二类型视频帧中的像素点特征中，获得映射后的相邻第一类型场景辅助图，包括：针对所述相邻第一类型场景辅助图中的待映射像素点特征，确定所述待映射像素点特征在所述相邻第一类型视频帧所对应的第一像素点，根据所述相邻第一类型视频帧和所述映射后的相邻第一类型视频帧之间的像素点映射关系，确定所述第一像素点在所述映射后的相邻第一类型视频帧中对应的第二像素点，将所述待映射像素点特征确定为所述第二像素点的像素点特征，根据所述映射后的相邻第一类型视频帧中已确定像素点特征的像素点的像素点特征，生成映射后的相邻第一类型场景辅助图。

可选的，所述相邻第一类型场景辅助图包括所述相邻第一类型视频帧对应的法向量图，所述相邻第一类型场景辅助图中的像素点特征包括所述相邻第一类型视频帧中的像素点的朝向数据；或者，所述相邻第一类型场景辅助图包括所述相邻第一类型视频帧对应的深度图，所述相邻第一类型场景辅助图中的像素点特征包括所述相邻第一类型视频帧中的像素点的深度数据，所述深度数据用于表示所述相邻第一类型视频帧中的像素点与成像点之间的距离；或者，所述相邻第一类型场景辅助图包括所述相邻第一类型视频帧对应的纹理图，所述相邻第一类型场景辅助图中的像素点特征包括所述相邻第一类型视频帧中的像素点的贴图颜色数据。

可选的，所述根据所述第二类型场景辅助图、所述映射后的相邻第一类型视频帧和所述映射后的相邻第一类型场景辅助图，获得所述映射后的相邻第一类型视频帧的权重，包括：将所述第二类型场景辅助图、所述映射后的相邻第一类型视频帧和所述映射后的相邻第一类型场景辅助图输入到权重处理模型中，获得所述映射后的相邻第一类型视频帧的权重，所述权重处理模型是用于根据待生成视频帧对应的场景辅助图、映射后的相邻视频帧和映射后的相邻视频帧对应的场景辅助图、获得所述映射后的相邻视频帧在生成所述待生成视频帧时的权重。

可选的，所述权重处理模型是按照下述方式训练得到的：获得第一视频帧样本、第一视频帧样本对应的场景辅助图、第二视频帧样本、第二视频帧样本对应的场景辅助图，其中，所述第一视频帧样本与所述第二视频帧样本在同一个视频样本中是相邻的视频帧；根据所述第二视频帧样本对应的场景辅助图中的运动向量图和所述第一视频帧样本，将所述第一视频帧样本中的像素点映射到待生成的第二视频帧样本中的像素点，获得映射后的第一视频帧样本，并根据所述第一视频帧样本和所述映射后的第一视频帧样本，将所述第一视频帧样本对应的场景辅助图中的像素点特征映射到所述待生成的第二视频帧样本中的像素点特征，获得映射后的第一视频帧样本对应的场景辅助图；将所述第二视频帧样本对应的场景辅助图、所述映射后的第一视频帧样本和所述映射后的第一视频帧样本对应的场景辅助图输入到初始权重处理模型中，获得映射后的第一视频帧样本的权重；根据所述映射后的第一视频帧样本的权重和映射后的第一视频帧样本，生成第二视频帧样本；如果生成的第二视频帧样本与已获得的第二视频帧样本之间的差异数据满足预设的差异条件，则将所述初始权重处理模型确定为所述权重处理模型，否则，调整所述初始权重处理模型，直至利用调整后的权重处理模型获得的所述映射后的第一视频帧样本的权重使得生成的第二视频帧样本与已获得的第二视频帧样本之间的差异数据满足预设的差异条件为止，将生成的第二视频帧样本与已获得的第二视频帧样本之间的差异数据满足预设的差异条件时的权重处理模型确定为所述权重处理模型。

可选的，相邻第一类型视频帧包括在时序上位于所述待生成的第二类型视频帧之前、并与所述待生成的第二类型视频帧相邻的前序相邻第一类型视频帧，以及在时序上位于所述待生成的第二类型视频帧之后、并与所述待生成的第二类型视频帧相邻的后序相邻第一类型视频帧；所述根据所述映射后的相邻第一类型视频帧的权重和所述映射后的相邻第一类型视频帧，生成所述第二类型视频帧，包括：根据所述映射后的前序相邻第一类型视频帧的第一权重、所述映射后的前序相邻第一类型视频帧、所述映射后的后序相邻第一类型视频帧的第二权重、所述映射后的后序相邻第一类型视频帧，生成所述第二类型视频帧。

可选的，所述根据所述第一类型视频帧和所述第二类型视频帧，生成对应于所述多组场景数据的视频，包括：按照所述第一类型视频帧的帧序号和所述第二类型视频帧的帧序号，生成对应于所述多组场景数据的视频。

可选的，所述第二类型场景辅助图是根据从成像点模拟发出一条光线、所述光线与第二类型场景数据对应的场景中的对象第一次交会时所产生的像素点特征生成的。

可选的，所述物理空间为一个房屋内部的空间。

可选的，所述方法应用于服务端，所述方法还包括：将对应于所述多组场景数据的视频发送给客户端；或者，所述方法应用于客户端，所述方法还包括：响应于检测到针对对应于所述多组场景数据的视频的播放操作，播放对应于所述多组场景数据的视频。

本申请实施例还提供一种视频帧生成方法，所述方法包括：

获得多组场景数据，所述多组场景数据中的一组场景数据用于表示一个场景的布局状态，所述一个场景为针对一个物理空间的布局设计的一个展示角度场景，所述多组场景数据为每个展示角度场景所需的展示数据；针对所述多组场景数据中的第一类型场景数据，按照所述第一类型场景数据生成第一类型场景辅助图和第一类型视频帧；针对所述多组场景数据中的第二类型场景数据，按照所述第二类型场景数据生成第二类型场景辅助图，并根据所述第一类型场景辅助图、所述第一类型视频帧和所述第二类型场景辅助图，生成第二类型视频帧。

可选的，所述方法应用于视频帧处理端，所述方法还包括：将所述第二类型视频帧发送至视频帧生成端。

本申请实施例还提供一种视频生成装置，包括：

获取单元，被配置为获得多组场景数据，所述多组场景数据中的一组场景数据用于表示一个场景的布局状态，所述一个场景为针对一个物理空间的布局设计的一个展示角度场景，所述多组场景数据为每个展示角度场景所需的展示数据；

渲染单元，被配置为针对所述多组场景数据中的第一类型场景数据，按照所述第一类型场景数据生成第一类型场景辅助图和第一类型视频帧；

处理单元，被配置为针对所述多组场景数据中的第二类型场景数据，按照所述第二类型场景数据生成第二类型场景辅助图，并根据所述第一类型场景辅助图、所述第一类型视频帧和所述第二类型场景辅助图，生成第二类型视频帧；

合成单元，被配置为根据所述第一类型视频帧和所述第二类型视频帧，生成对应于所述多组场景数据的视频。

本申请实施例还提供一种视频帧生成装置，包括：

输出单元，被配置为针对所述多组场景数据中的第二类型场景数据，按照所述第二类型场景数据生成第二类型场景辅助图，并根据所述第一类型场景辅助图、所述第一类型视频帧和所述第二类型场景辅助图，生成第二类型视频帧。

本申请实施例还提供一种电子设备，包括处理器和存储器；其中，所述存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器执行以实现上述方法。

本申请实施例还提供一种计算机可读存储介质，其上存储有一条或多条计算机指令，该指令被处理器执行以实现上述方法。

与现有技术相比，本申请实施例具有以下优点：

本申请实施例提供的视频生成方法、视频帧生成方法，在视频生成过程中，对于获得的多组场景数据，并不需要将上述多组场景数据中的每组场景数据全部进行渲染处理，只需将第一类型场景数据进行渲染处理，生成第一类型视频帧；对于多组场景数据中的第二类型场景数据，先按照第二类型场景数据生成第二类型场景辅助图，再根据第一类型场景辅助图、第一类型视频帧和第二类型场景辅助图生成对应的第二类型视频帧；最后，根据第一类型视频帧和第二类型视频帧生成对应于上述多组场景数据的视频。本申请的视频生成方法，相较于现有的视频生成过程中对多组场景数据全部进行渲染处理，可降低视频生成过程的渲染成本。

附图说明

图1是本申请实施例提供的应用场景示意图。

图2是本申请实施例提供的另一应用场景示意图。

图3是本申请实施例提供的一种视频生成方法流程图。

图4是本申请实施例提供的一种视频帧生成方法流程图。

图5是本申请实施例提供的一种视频生成装置的单元框图。

图6是本申请实施例提供的一种视频帧生成装置的单元框图。

图7是本申请实施例提供的电子设备的逻辑结构示意图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本申请内涵的情况下做类似推广，因此本申请不受下面公开的具体实施的限制。

首先，对本申请涉及的部分技术术语进行解释说明：

渲染（Render），是指把模型或者场景输出成图像文件、视频信号或者电影胶片的程序；也可理解为将三维模型或场景绘制转化为二维图片的成像过程。

离线渲染，是指在计算出画面时并不显示画面，计算机根据预先定义好的光线、轨迹渲染图片，渲染完成后再将图片连续播放，实现动画效果的技术；离线渲染主要依托于处理器（CPU）的计算能力。

视频插帧技术，又称帧速率转换技术，其工作原理是通过在原始视频的每两帧画面中增加一帧或多帧，缩短了帧与帧之间的显示时间，从而提升视频的流畅度，达到更好的视觉感官效果；通过视频插帧技术可以修正人眼视觉暂留形成的错觉，有效提高画面稳定性。

帧率（Frame rate），是以帧称为单位的位图图像连续出现在显示器上的频率。帧率（每秒的帧数）表示图形处理器处理场时每秒钟能够更新的次数；视频的帧率越高，所得到的动画更逼真；每秒钟帧数越多，所显示的动作也会越流畅。

神经网络（NNs），又称人工神经网络或连接模型，是一种通过模仿动物神经网络行为特征，进行分布式并行信息处理的数学算法模型。这种神经网络通过调整内部大量节点之间的相互连接关系，从而达到处理信息的目的，其自身具有自学习和自适应的能力。

法向量图，用于表征像素点在场景中对应位置的朝向信息。

深度图，用于表征被拍摄物体与相机之间的距离信息。

纹理图，用于表征像素点在场景中对应位置的贴图颜色信息。运动向量图，用于表征当前帧像素点和相邻帧对应像素点之间位置的偏差。

效果图，是指通过计算机仿真软件模拟真实环境获得的高仿真虚拟图片，其模拟效果越逼真，越能将真实环境中的各个细节表达地淋漓尽致。

为了便于理解本申请实施例提供的方法，在介绍本申请实施例之前，先对本申请实施例的背景进行介绍。

伴随着计算机技术的飞速发展，人们对于视频体验感的要求越来越高，视频帧率会直接影响到视频的观看效果，在计算机视觉技术领域，为了获得高真实感、优良体验感的视频，现有技术通常采用逐帧渲染的处理方式对需要渲染的场景或者模型进行处理；然而，由于渲染处理过程的特殊性，其花费的时间长、对执行渲染处理的硬件和软件设备要求较高，为了获取高真实度的视频，往往需要较高渲染成本为代价。

针对现有技术存在的上述问题，本申请提供的视频生成方法，在视频生成过程中，对于获得的多组场景数据，并不需要将上述多组场景数据中的每组场景数据全部进行渲染处理，只需将第一类型场景数据进行渲染处理，生成第一类型视频帧；对于多组场景数据中的第二类型场景数据，先按照第二类型场景数据生成第二类型场景辅助图，再根据第一类型场景辅助图、第一类型视频帧和第二类型场景辅助图生成对应的第二类型视频帧；最后，根据第一类型视频帧和第二类型视频帧生成对应于上述多组场景数据的视频。本申请的视频生成方法，相较于现有的视频生成过程中对多组场景数据全部进行渲染处理，可降低视频生成过程的渲染成本。

经过上述内容的背景介绍，本领域技术人员可以了解现有技术存在的问题，接下来对本申请视频生成方法的应用场景进行详细说明。本申请实施例提供的视频生成方法可以应用于建筑家装设计领域，或者其他具有视频生成需求的相关技术领域。

以下，首先对本申请实施例视频生成方法的应用场景进行示例说明。

图1为本申请第一实施例提供的视频生成方法的应用场景示意图。

如图1所示，本应用场景中，包括服务端101、客户端102；其中，服务端101与客户端102通过网络通信连接。

以图1为例进行详细说明，在建筑家装设计的应用背景下，位于服务端101的服务器获取到客户端102发送的多组场景数据，该多组场景数据中的每组场景数据用于表示每个场景的布局状态，服务端101将上述获取到的多组场景数据进行处理后，生成对应于上述多组场景数据的视频；服务端101与客户端102通过网络通信连接，服务端101将生成的多组场景数据的视频通过网络通信传输给客户端102，客户端102将接收到的上述视频进行播放展示。

需要说明的是，图1是本申请实施例提供的一种视频生成方法的应用场景示意图，本申请实施例不对图1中包括的设备进行限定，不对服务端101及客户端102的数量进行限定。例如，满足图1所示的应用场景中，还可以包括数据存储设备，该数据存储设备相对服务端101、客户端102可以是外部存储器，也可以是集成在服务端101、客户端102的内部存储器。服务端101可以是一个服务器或若干服务器组成的集群，也可以是一个云计算服务中心；客户端102可以为智能手机、智能手环、平板电脑、可穿戴设备、多媒体播放器、电子阅读器等多种具备通信功能的设备，并且该设备上对应安装有视频播放功能的应用程序（Application，APP）。

在本申请的实施例中，图1中的服务端101、客户端102的设备数量可以有所变化。上述应用场景具体的实现过程可以参见以下各实施例的方案描述。

本申请第一实施例还提供另外一种视频生成方法的应用场景示意图。如图2所示，本应用场景中，包括：视频帧生成端101、客户端102、视频帧处理端103；其中，视频帧生成端101与客户端102通过网络通信连接，视频帧生成端101与视频帧处理端103通过网络通信连接。上述视频帧生成端101、视频帧处理端103均由服务器所组成。

需要理解的是，在该应用场景中，视频帧处理端103的服务器作为视频帧生成端101的第三方服务设备，用于承担第二类型视频帧的生成工作，视频帧处理端103接收来自视频帧生成端101的第一类型场景辅助图、第一类型视频帧、第二类型场景辅助图，并生成相应的第二类型视频帧，视频帧处理端103将上述生成的第二类型视频帧通过网络通信发送给视频帧生成端101，该第二类型视频帧用于在视频帧生成端101进行多组场景数据的视频的生成。视频帧生成端101与视频帧处理端102的服务器的相关细节，请参考上述应用场景的描述，在此不再赘述。

在介绍完本申请实施例的应用场景，本申请还提供了一种视频生成方法，以及与上述方法相对应的装置、电子设备以及计算机可读存储介质。以下提供实施例对上述方法、装置、电子设备计算机可读存储介质以及系统进行详细说明。

本申请第二实施例提供一种视频生成方法。图3为本申请实施例提供的一种视频生成方法的流程图，以下结合图3对本实施例提供的方法进行详细描述。以下描述所涉及的实施例是用来解释说明方法原理，不是实际使用的限定。

如图3所示，本实施例提供的视频生成方法包括如下步骤：

S301，获得多组场景数据，所述多组场景数据中的一组场景数据用于表示一个场景的布局状态，所述一个场景为针对一个物理空间的布局设计的一个展示角度场景，所述多组场景数据为每个展示角度场景所需的展示数据；本步骤的作用在于，获取用于生成视频的多组场景数据；

在该步骤中，应用于服务端，所述获得多组场景数据，包括：获得客户端提供的针对所述物理空间的布局参数，根据所述布局参数生成所述每个展示角度场景所需的展示数据；

本实施例中，在家装设计的应用背景下，该物理空间可以为三维空间，该三维空间可以为开放空间，也可以为密闭空间，例如一个房间内部的空间，多组场景数据中的每组场景数据的来源为三维空间。三维空间中的布局参数用于表明该场景的空间布局，例如房间内部中存在的每种物品的布局，以及与该物品相关的形态数据；对应于上述的布局参数，服务端可根据布局参数生成对应的展示数据；需要理解的是，展示数据是指用于在客户端的显示界面进行物理空间显示的数据，并且由于场景在不同观察角度的变化性（观察者的视角或者相机的视角），每个展示角度场景所需的展示数据存在差异性，因此多组场景数据为每个展示角度所需的展示数据，多组场景数据中的一组场景数据对应一个场景的布局状态，针对同一物理空间的布局设计，一个场景对应一个展示角度，场景与展示角度之间存在一一对应关系。

或者，应用于服务端，所述获得多组场景数据，包括：获得客户端提供的所述每个展示角度场景所需的展示数据；在本实施例中，客户端也可直接将包括上述展示数据的多组场景数据发送至服务端。

或者，应用于客户端，所述获得多组场景数据，包括：响应于检测到用户针对所述物理空间的设计操作，获得针对所述物理空间的布局参数，根据所述布局参数生成所述每个展示角度场景所需的展示数据。

需要理解的是，应用在家装家居设计的背景下，物理空间以为一个房间内部的空间为例，在家装家居设计应用软件中，用户在客户端针对一个房间内部的空间进行设计，例如，完成所选择类型瓷砖的铺贴、所选择墙面乳胶漆的粉刷、所选择类型家具的空间布置等。用户在客户端完成设计项目的确认后，针对该设计后的房间内部，服务端获得了针对该房间内部空间的瓷砖布局参数、墙面乳胶漆的布局参数、家具布置等布局参数等，上述参数可对应生成用于不同角度场景进行展示的展示数据，并且展示参数与布局参数之间存在对应关系。根据本申请第一实施例的应用场景示意，用户的客户端与服务端之间可以进行数据交互。因此，在客户端获取到上述房间内部空间的多组场景数据后通过网络通信传输给服务端，服务端接收到多组场景数据中的该每个展示角度场景所需的展示数据后，进行相应处理。

在本实施例的上述步骤中，还包括：从所述多组场景数据中获得任意一组场景数据，作为待处理场景数据；判断所述待处理场景数据所属的类型；

应用在家装设计的背景下，由于观察视角的变化，上述物理空间的场景数据有多组，例如，一个房屋内部的空间，所具有的场景数据有N组，并且每组场景数据均按顺序进行编号，各自对应有匹配的组序号，第一组场景数据对应的组序号为1、第二组场景数据对应的组序号为2、…、第N组场景数据对应的组序号为N，本实施例中，上述N的取值范围可以为自然数。

因此，在本实施例中，获取其中任意一组场景数据作为待处理场景数据，并且在处理之前，需要对所获取的待处理场景数据的类型进行判断。

其中，判断所述待处理场景数据所属的类型，包括如下步骤：获得所述待处理场景数据在所述多组场景数据中的组序号；

在本实施例中，不同类型的场景数据的处理方式存在差异，为了便于对应待处理场景数据的处理方式，本实施例先对获得的待处理场景数据进行类别判断。

如果所述组序号是偶数，则确定所述待处理场景数据为第一类型场景数据；例如，N组场景数据中，组序号满足2、4、…、的所有待处理场景数据为第一类型场景数据，对于获取的该待处理场景数据，其组序号满足为偶数条件，将其确定为第一类型场景数据。在本实施例中，组序号为偶数作为一种示意的分类方式，并不排除其他可能的分类方式，其目的是便于后续不同类型场景数据的区别处理。

如果所述组序号是奇数，则确定所述待处理场景数据为第二类型场景数据；例如，N组场景数据中，组序号满足1、3、…的待处理场景数据为第一类型场景数据。

其中，对应所述待处理场景数据的视频帧在所述视频中的帧序号与所述待处理场景数据在所述多组场景数据中的组序号相同。在本申请实施例中，为了便于多组场景数据与其对应视频帧的匹配，采样待处理场景数据的视频帧的帧序号与多组场景数据的组序号进行相同编号。例如，待处理场景数据的组序号为100，则根据该100号待处理场景数据生成的视频帧帧序号为100。通过上述的步骤，将获取的多组场景数据进行分类，获得分类后的第一类型场景数据和第二类型场景数据以用于后续步骤的处理。

S302，针对所述多组场景数据中的第一类型场景数据，按照所述第一类型场景数据生成第一类型场景辅助图和第一类型视频帧；

本步骤的作用在于，根据多组场景中的第一类型场景数据，生成相应的第一类型视频帧。

在该步骤中，针对多组场景数据中的第一类型场景数据，按照第一类型场景数据生成第一类型场景辅助图和待生成视频中的第一类型视频帧，包括以下步骤：

如果所述待处理场景数据为第一类型场景数据，则按照所述待处理场景数据生成所述待处理场景数据的辅助图和对应所述待处理场景数据的视频帧；

其中，如果所述待处理场景数据为第一类型场景数据，则按照所述待处理场景数据生成所述待处理场景数据的法向量图、深度图、纹理图和效果图，将所述法向量图、所述深度图、所述纹理图作为所述待处理场景数据的辅助图，将所述效果图作为对应所述待处理场景数据的视频帧。

在该步骤中，第一类型场景数据通过渲染处理，渲染引擎进行完整的流程处理，生成了第一类型场景数据对应的法向量图、深度图、纹理图和效果图。应用在家装设计的背景中，上述渲染引擎为离线渲染引擎，离线引擎进行渲染处理常用的方法为光线追踪技术，即用于追踪的光线在场景中多次弹射到达相机的过程。在实际应用过程中，离线引擎通常会模拟一条从相机位置发射的光线，这条光线与场景中的物体交会后根据光学原理进行反射，发生反射的光线又与场景中的其他物体进行交会，如此多次反射后到达光源，离线渲染引擎会根据这一整条光线路径上的物体信息和光源信息计算出光线到达像相机处所表现出的颜色。

关于法向量图、深度图、纹理图和效果图的如前所述，法向量图用于表征像素点在场景中对应位置的朝向信息。深度图用于表征被拍摄物体与相机之间的距离信息。纹理图用于表征像素点在场景中对应位置的贴图颜色信息。效果图用于展示仿真模拟软件对真实环境的模拟仿真效果。

将上述法向量图、深度图、纹理图作为第一类型场景辅助图，将上述效果图作为第一类型视频帧。例如，对组序号为100的第一类型场景数据进行渲染处理，生成了帧序号为第100号第一类型视频帧和帧序号为第100号第一类型场景辅助图。

通过上述的步骤，将获取的多组场景数据进行分类，根据分类后的第一类型场景数据生成了第一类型场景辅助图和第一类型视频帧，以用于后续步骤的处理。

S303，针对所述多组场景数据中的第二类型场景数据，按照所述第二类型场景数据生成第二类型场景辅助图，并根据所述第一类型场景辅助图、所述第一类型视频帧和所述第二类型场景辅助图，生成第二类型视频帧；

本步骤的作用在于，根据第二类型场景数据生成第二类型场景辅助图，并且根据前述步骤生成的第一类型场景辅助图、第一类型视频帧和上述第二类型场景辅助图生成相应的第二类型视频帧。所述针对所述多组场景数据中的第二类型场景数据，按照所述第二类型场景数据生成第二类型场景辅助图，包括：如果所述待处理场景数据为第二类型场景数据，则按照所述待处理场景数据生成所述待处理场景数据的辅助图。

其中，如果所述待处理场景数据为第二类型场景数据，则按照所述待处理场景数据生成所述待处理场景数据的法向量图、深度图、纹理图和运动向量图，将所述法向量图、所述深度图、所述纹理图和所述运动向量图作为所述待处理场景数据的辅助图。

在该步骤中，第二类型场景数据同样用于渲染处理，区别于上述第一类型场景数据的渲染处理方式，第二类型场景数据的渲染处理在渲染程序中为不完全处理，并不需要渲染引擎进行完整渲染流程处理，即在第二类型场景数据的渲染处理过程中，不需要光线在场景中发生反复的多次反射，通常只需要这条相机位置发出的光线与场景做第一次交会就可以获得法向量、深度等信息，此时就可以终止渲染。因此，第二类型场景数据经过渲染处理生成的为第二类型场景辅助图。

上述第二类型场景辅助图包括：法向量图、深度图、纹理图和运动向量图；法向量图、深度图、纹理图请参照前述的解释，此处不再赘述。上述运动向量图，用于表征当前帧像素点和相邻帧对应像素点之间位置的偏差。对该步骤进行举例，如对组序号为121的第二类型场景数据进行渲染处理，生成了帧序号为第121号第二类型场景辅助图。

在本实施例中，通过将第二类型场景数据生成第二类型场景辅助图，再将该第二类型场景辅助图以及前述步骤生成的第一类型视频帧、第一类型场景辅助图，用于生成第二类型视频帧。

所述根据所述第一类型场景辅助图、所述第一类型视频帧和所述第二类型场景辅助图，生成第二类型视频帧，包括：

将在所述多组场景数据中与所述第二类型场景数据相邻的第一类型场景数据的第一类型场景辅助图和第一类型视频帧，确定为相邻第一类型场景辅助图和相邻第一类型视频帧。

例如，以组序号为121的第二类型场景数据进行说明，其相邻的第一类型场景数据的组序号为120和122，组序号为120的第一类型场景数据的第一类型场景辅助图和第一类型视频帧，确定为前序相邻第一类型场景辅助图和前序相邻第一类型视频帧；组序号为122的第一类型场景数据的第一类型场景辅助图和第一类型视频帧，确定为组序号121第二类型场景数据的后序相邻第一类型场景辅助图和后序相邻第一类型视频帧。

根据所述第二类型场景辅助图中的运动向量图和所述相邻第一类型视频帧，将所述相邻第一类型视频帧中的像素点映射到待生成的第二类型视频帧中的像素点，获得映射后的相邻第一类型视频帧，并根据所述相邻第一类型视频帧和所述映射后的相邻第一类型视频帧，将所述相邻第一类型场景辅助图中的像素点特征映射到所述待生成的第二类型视频帧中的像素点特征，获得映射后的相邻第一类型场景辅助图。

为了便于理解，进行举例说明，在插帧处理过程中，由于第二类型场景辅助图中的运动向量图用于表示当前帧像素点和相邻帧对应像素点之间位置的偏差；因此，根据帧序号121的第二类型场景辅助图中的运动向量图，在帧序号为120的前序相邻第一类型视频帧和帧序号为122的后序相邻第一类型视频帧的基础上，可对帧序号为122的第二类型视频帧进行预估。

在本方案中，需要理解的是，在多帧视频中，由于视频帧内的多个图像之间具有动画连续性，当前帧与其相邻帧之间存在像素点的关联；例如，第120帧的视频帧中，像素点A出现在图像坐标（100，100）的位置，在第121帧的视频帧中，像素点A出现在对应第121帧图像的（101，98）的位置，那么在第121帧视频帧中像素点A的前序运动相量值为（-1，2）。该前序运动向量（-1，2），用以表明第121帧视频帧与第120帧视频帧的像素点的对应关系。

在本实施例中，所述根据所述第二类型场景辅助图中的运动向量图和所述相邻第一类型视频帧，将所述相邻第一类型视频帧中的像素点映射到待生成的第二类型视频帧中的像素点中，获得映射后的相邻第一类型视频帧，包括：

针对所述相邻第一类型视频帧中的待映射像素点，根据所述第二类型场景辅助图中的运动向量图，确定所述待映射像素点在所述待生成的第二类型视频帧中的位置，按照在所述待生成的第二类型视频帧中已确定位置的所有待映射像素点生成初始第二类型视频，作为映射后的相邻第一类型视频帧。

例如，将第120帧前序相邻第一类型视频帧的待映射像素点A，根据第121帧第二类型场景中坐标（100，100）处的像素点A’，其辅助图中的运动向量图内前序运动向量信息为（-1，2），进而确定该像素点A’在第120帧前序相邻第一类型视频帧对应的待映射像素点A的坐标为（99，102），由此将待映射像素点A在第120帧前序相邻第一类型视频帧（第121帧待生成的第二类型视频帧）中的位置确定。在推断待映射像素点A在第121帧待生成的第二类型视频帧中的颜色的时候，就可以用第120帧前序相邻第一类型视频帧的待映射像素点A的颜色作为参考。

由于在第120帧前序相邻第一类型视频帧中，待映射像素点的数量较多，因此，根据第120帧前序相邻第一类型视频帧中的诸多待映射像素点，可生成第121帧初始第二类型视频帧，该视频帧也可称之为映射后的第120帧的相邻第一类型视频帧。

在本实施例中，所述根据所述相邻第一类型视频帧和所述映射后的相邻第一类型视频帧，将所述相邻第一类型场景辅助图中的像素点特征映射到所述待生成的第二类型视频帧中的像素点特征中，获得映射后的相邻第一类型场景辅助图，包括：

针对所述相邻第一类型场景辅助图中的待映射像素点特征，确定所述待映射像素点特征在所述相邻第一类型视频帧所对应的第一像素点，根据所述相邻第一类型视频帧和所述映射后的相邻第一类型视频帧之间的像素点映射关系，确定所述第一像素点在所述映射后的相邻第一类型视频帧中对应的第二像素点，将所述待映射像素点特征确定为所述第二像素点的像素点特征，根据所述映射后的相邻第一类型视频帧中已确定像素点特征的像素点的像素点特征，生成映射后的相邻第一类型场景辅助图。

本步骤用于获取映射后的相邻第一类型场景辅助图；映射后的相邻第一类型视频帧根据相邻第一类型视频帧，进而获得映射后的相邻第一类型场景辅助图；

为了便于理解，进行举例说明，第120帧相邻第一类型视频帧内的第一像素点A，该像素点A出的像素点特征的法向量图中的朝向数据为（2、9、-13），由于第120帧相邻第一类型视频帧与第120帧映射后的相邻第一类型视频帧之间存在像素点的映射关系，即在第120帧相邻第一类型视频帧的像素点A，在第120帧映射后的相邻第一类型视频帧中映射关系对应为像素点A’，该像素点A’为第二像素点，那么，将像素点A的像素点特征“朝向数据为（2、9、-13）”确定为第二像素点A’的像素点特征的朝向数据。并且由于视频帧内的像素点的数量众多，可根据映射后的相邻第一类型视频帧中已确定像素点特征的像素点的像素点特征，生成第120帧映射后的相邻第一类型场景辅助图。

对应于上述的举例说明，本实施例还存在下述几种情况：

第一种情况，第120帧相邻第一类型视频帧内的第一像素点A，根据映射关系在第120帧映射后的相邻第一类型视频帧中，无法找到对应的第二像素点A’，那么在该情况下，不能将第一像素点A的朝向数据为（2、9、-13）用于确定第120映射后的相邻第一类型视频帧中像素点的像素点特征。

第二种情况，第120帧映射后的相邻第一类型视频帧中第二像素点A’，根据映射关系在第120帧相邻第一类型视频帧内，无法找到与之对应的第一像素点A，那么可根据第121帧第二类型场景辅助图内的像素点，依据第121帧第二类型场景辅助图内的前序运动向量，将第二像素点A’与第121帧第二类型场景辅助图内的第三像素点A’’’进行对应，并将第三像素点A’’’的像素点特征确定为第二像素点A’的像素点特征。

在本实施例中，所述相邻第一类型场景辅助图包括所述相邻第一类型视频帧对应的法向量图，所述相邻第一类型场景辅助图中的像素点特征包括所述相邻第一类型视频帧中的像素点的朝向数据；

或者，所述相邻第一类型场景辅助图包括所述相邻第一类型视频帧对应的深度图，所述相邻第一类型场景辅助图中的像素点特征包括所述相邻第一类型视频帧中的像素点的深度数据，所述深度数据用于表示所述相邻第一类型视频帧中的像素点与成像点之间的距离；

或者，所述相邻第一类型场景辅助图包括所述相邻第一类型视频帧对应的纹理图，所述相邻第一类型场景辅助图中的像素点特征包括所述相邻第一类型视频帧中的像素点的贴图颜色数据。

为了便于理解，进行举例说明，以相邻第一类型场景辅助图包括相邻第一类型视频帧对应的法向量图为例，第120帧前序相邻第一类型视频帧对应的第一像素点A处的法向量数据为（2，67，9），该法向量用于表明像素点A在视频帧中的朝向，由于第120帧前序相邻第一类型视频帧存在多个像素点，因此，在映射过程中，根据第120帧前序相邻第一类型视频帧对应的第一像素点A与第121帧第二类型视频帧内第二像素点A’之间的对应关系，将上述第120帧前序相邻第一类型视频帧的法向量图的法向量数据映射至上述第120帧映射后的相邻第一类型视频帧，获得第120帧映射后的相邻第一类型场景辅助图。

在本实施例中，还可根据所述第二类型场景辅助图、所述映射后的相邻第一类型视频帧和所述映射后的相邻第一类型场景辅助图，获得所述映射后的相邻第一类型视频帧的权重。

第二类型视频帧是通过计算获得的，相对于第二类型场景辅助图，通过将映射后的相邻第一类型视频帧和映射后的相邻第一类型场景辅助图与上述第二类型场景辅助图进行比较，以获得用于计算生成该第二类型视频帧的权重。具体过程如下：

所述根据所述第二类型场景辅助图、所述映射后的相邻第一类型视频帧和所述映射后的相邻第一类型场景辅助图，获得所述映射后的相邻第一类型视频帧的权重，包括：

将所述第二类型场景辅助图、所述映射后的相邻第一类型视频帧和所述映射后的相邻第一类型场景辅助图输入到权重处理模型中，获得所述映射后的相邻第一类型视频帧的权重，所述权重处理模型是用于根据待生成视频帧对应的场景辅助图、映射后的相邻视频帧和映射后的相邻视频帧对应的场景辅助图、获得所述映射后的相邻视频帧在生成所述待生成视频帧时的权重。

在本实施例中，上述权重处理模型是由卷积层、激活层等构成的数学算法模型，是一种具有自学习和自适应能力是神经网络模型；上述权重处理模型具有权重计算单元，权重计算单元用于输出映射后的相邻第一类型视频帧的权重计算结果。

需要理解的是，第二类型场景辅助图包括与其对应的法向量图、深度图、纹理图和运动向量图；映射后的相邻第一类型场景辅助图包括与该辅助图对应的法向量图、深度图、纹理图。

权重处理模型在处理过程中，根据第二类型场景辅助图的法向量与映射后的相邻第一类型场景辅助图的法向量，计算出两者的法向量差值；并将上述差值与第二类型场景辅助图的法向量进行比值计算，获得映射后的相邻第一类型场景辅助图的法向量的权重计算结果。

根据第二类型场景辅助图的深度图与映射后的相邻第一类型场景辅助图的深度图，计算出两者的深度图差值；并将上述差值与第二类型场景辅助图的深度图进行比值计算，获得映射后的相邻第一类型场景辅助图的深度图的权重计算结果。

根据第二类型场景辅助图的纹理图与映射后的相邻第一类型场景辅助图的纹理图，计算出两者纹理图差值；并将上述差值与第二类型场景辅助图的纹理图进行比值计算，获得映射后的相邻第一类型场景辅助图的纹理图的权重计算结果。

将上述获得的映射后的相邻第一类型场景辅助图的法向量的权重计算结果、深度图的权重计算结果、纹理图的权重计算结果通过权重处理模型的统一计算，映射后的相邻第一类型视频帧作为统计计算过程中参照对象，进而获得映射后的相邻第一类型视频帧的权重。

在本实施例中，用于计算映射后的相邻第一类型视频帧权重的权重处理模型是按照下述方式训练得到的：

获得第一视频帧样本、第一视频帧样本对应的场景辅助图、第二视频帧样本、第二视频帧样本对应的场景辅助图，其中，所述第一视频帧样本与所述第二视频帧样本在同一个视频样本中是相邻的视频帧。

根据所述第二视频帧样本对应的场景辅助图中的运动向量图和所述第一视频帧样本，将所述第一视频帧样本中的像素点映射到待生成的第二视频帧样本中的像素点，获得映射后的第一视频帧样本，并根据所述第一视频帧样本和所述映射后的第一视频帧样本，将所述第一视频帧样本对应的场景辅助图中的像素点特征映射到所述待生成的第二视频帧样本中的像素点特征，获得映射后的第一视频帧样本对应的场景辅助图；在本实施例中，第一视频帧样本中的像素点映射到待生成的第二视频帧样本中的像素点，获得映射后的第一视频帧样本，如前所述，此处不再赘述。

其中，第一视频帧样本对应的场景辅助图包括第一视频帧样本的场景辅助图对应的法向量图，第一视频帧样本的场景辅助图中的像素点特征包括第一视频帧样本中的像素点的朝向数据。

或者，第一视频帧样本对应的场景辅助图包括第一视频帧样本的场景辅助图对应的深度图，第一视频帧样本的场景辅助图中的像素点特征包括第一视频帧样本中的像素点的深度数据，深度数据用于表示第一视频帧样本中的像素点与成像点之间的距离。

或者，第一视频帧样本对应的场景辅助图包括第一视频帧样本的场景辅助图对应的纹理图，第一视频帧样本场景辅助图中的像素点特征包括第一视频帧样本中的像素点的贴图颜色数据。

将所述第二视频帧样本对应的场景辅助图、所述映射后的第一视频帧样本和所述映射后的第一视频帧样本对应的场景辅助图输入到初始权重处理模型中，获得映射后的第一视频帧样本的权重；上述初始权重处理模型为待训练的权重处理模型。

根据所述映射后的第一视频帧样本的权重和映射后的第一视频帧样本，生成第二视频帧样本；在初始权重处理模型的训练过程中，模型的参数可根据生成的第二视频帧样本与已获得的第二视频帧样本之间的差异，进行参数的调整。

如果生成的第二视频帧样本与已获得的第二视频帧样本之间的差异数据满足预设的差异条件，则将所述初始权重处理模型确定为所述权重处理模型，否则，调整所述初始权重处理模型，直至利用调整后的权重处理模型获得的所述映射后的第一视频帧样本的权重使得生成的第二视频帧样本与已获得的第二视频帧样本之间的差异数据满足预设的差异条件为止，将生成的第二视频帧样本与已获得的第二视频帧样本之间的差异数据满足预设的差异条件时的权重处理模型确定为所述权重处理模型。

通过上述步骤，完成初始权重模型到用于视频生成方法的权重处理模型的训练。

在本实施例中，根据所述映射后的相邻第一类型视频帧的权重和所述映射后的相邻第一类型视频帧，生成所述第二类型视频帧。

相邻第一类型视频帧包括在时序上位于所述待生成的第二类型视频帧之前、并与所述待生成的第二类型视频帧相邻的前序相邻第一类型视频帧，以及在时序上位于所述待生成的第二类型视频帧之后、并与所述待生成的第二类型视频帧相邻的后序相邻第一类型视频帧；

为了便于理解，本实施例中，将待生成的第二类型视频帧用C_T进行表示、将在时序上位于待生成的第二类型视频帧C_T之前、并与待生成的第二类型视频帧C_T相邻的前序相邻第一类型视频帧用C_T-1进行表示、将在时序上位于待生成的第二类型视频帧C_T之后、并与待生成的第二类型视频帧C_T相邻的后序相邻第一类型视频帧用C_T+1进行表示。

所述根据所述映射后的相邻第一类型视频帧的权重和所述映射后的相邻第一类型视频帧，生成所述第二类型视频帧，包括：根据所述映射后的前序相邻第一类型视频帧的第一权重、所述映射后的前序相邻第一类型视频帧、所述映射后的后序相邻第一类型视频帧的第二权重、所述映射后的后序相邻第一类型视频帧，生成所述第二类型视频帧。

为了便于理解，在本实施例中，将映射后的前序相邻第一类型视频帧的第一权重用weight_T-1进行表示、映射后的后序相邻第一类型视频帧的第二权重用weight_T+1进行表示。

在获得了上述映射后的相邻第一类型视频帧的权重和映射后的相邻第一类型视频帧后，根据下面的合成计算公式，进行第二类型视频帧的合成计算；合成第二类型视频帧的计算公式为：

其中，C_T表示第二类型视频帧，C_T-1表示映射后的前序相邻第一类型视频帧，C_T+1表示映射后的后序相邻第一类型视频帧，weight_T-1表示映射后的前序相邻第一类型视频帧的权重，weight_T+1表示映射后的后序相邻第一类型视频帧的权重，res表示残差。

上述公式中的视频帧其本质为RGB图像，RGB代表了红、绿、蓝三个通道的颜色，RGB图像是指用RGB颜色模式来显示的图像，是通过对红（R）、绿（G）、蓝（B）三个颜色通道的变化以及它们相互之间的叠加来得到各式各样的颜色的图像，该图像几乎包括了人类视力所能感知的所有颜色。

由于上述公式中的视频帧的RGB图像，其图像内的每个像素点均存储有对应的R、G、B数据值，因此，上述公式的各视频帧直接进行计算的对象为RGB数据值。例如，帧序号为第11帧第100个像素点处的R数据值=帧序号第10帧第100个像素点处的R值* weight₁₀+帧序号第12帧第100个像素点处的R值* weight₁₂+res-R;其中，res-R代表在计算R值时所产生的计算误差；对应的G值、B值的计算，也会产生相应的res-G、res-B的计算误差，通过res-R、res-G、res-B进行权重计算，获得上述公式内的res；通过将视频帧RGB图像内各个像素点处的RGB值进行计算，由此可以获得相应的第二类型视频帧。

通过上述步骤，本实施例通过根据第一类型场景辅助图、第一类型视频帧和第二类型场景辅助图，生成第二类型视频帧，降低了渲染处理成本。

S304，根据所述第一类型视频帧和所述第二类型视频帧，生成对应于所述多组场景数据的视频。

本步骤的作用在于，根据前述步骤生成的第一类型视频帧和第二类型视频帧，生成与多组场景数据对应的视频。

在本实施例中，所述根据所述第一类型视频帧和所述第二类型视频帧，生成对应于所述多组场景数据的视频，包括：按照所述第一类型视频帧的帧序号和所述第二类型视频帧的帧序号，生成对应于所述多组场景数据的视频。

例如，将帧序号为110的第一类型视频帧，帧序号为111的第二类型视频帧，帧序号为112的第一类型视频帧按照序号的顺序进行排列，获得了对应于多组场景数据的视频。

在本实施例中，所述方法应用于服务端，所述方法还包括：将对应于所述多组场景数据的视频发送给客户端；根据应用场景实施例的示意，服务端与客户端之间通过网络通信连接，服务端将生成的多组场景数据的视频发送给客户端。

或者，所述方法应用于客户端，所述方法还包括：响应于检测到针对对应于所述多组场景数据的视频的播放操作，播放对应于所述多组场景数据的视频。用户在客户端进行播放操作，上述多组场景数据在客户端进行播放。

现有的视频生成方法中，主要采样逐帧处理的方式对需要渲染处理的模型或多组场景数据进行处理，其缺点在于渲染处理时间长对于硬件及软件的设备要求高，由此导致渲染成本高。

本申请实施例提供的视频生成方法，通过将获取的多组场景数据进行分类处理，针对多组场景数据中的第一类型场景数据进行渲染处理，生成第一类型场景辅助图和第一类型视频帧；针对多组场景数据中的第二类型场景数据，获得相对应于第二类型场景数据的辅助图；再通过第一类型场景辅助图、第一类型视频帧和第二类型场景辅助图生成第二类型视频帧；最终将上述第一类型视频帧和第二类型视频帧按顺序排列，生成对应于多组场景数据的视频；上述视频生成的方法，并不需要将上述多组场景数据中的每组场景数据全部进行渲染处理，降低了视频生成过程的渲染成本。

与上述实施例相对应，本申请第三实施例另外提供一种视频帧生成方法。图4为本申请实施例提供的视频帧生成方法的流程图，以下结合图4对本实施例提供的方法进行描述，本申请第三实施例与第二实施例的相同描述，请参考实施例二，本实施例不再赘述。

以下描述所涉及的实施例是用来解释说明方法原理，不是实际使用的限定。

如图4所示，本实施例提供的视频帧生成方法包括如下步骤：

S401，获得多组场景数据，所述多组场景数据中的一组场景数据用于表示一个场景的布局状态，所述一个场景为针对一个物理空间的布局设计的一个展示角度场景，所述多组场景数据为每个展示角度场景所需的展示数据。

S402，针对所述多组场景数据中的第一类型场景数据，按照所述第一类型场景数据生成第一类型场景辅助图和第一类型视频帧。

S403，针对所述多组场景数据中的第二类型场景数据，按照所述第二类型场景数据生成第二类型场景辅助图，并根据所述第一类型场景辅助图、所述第一类型视频帧和所述第二类型场景辅助图，生成第二类型视频帧。

在本实施例中，应用于视频帧处理端，视频帧处理端将所述第二类型视频帧发送至视频帧生成端。本实施例的应用场景可参考第一实施例应用场景的具体描述，此处不再赘述。

本实施例提供的视频帧生成方法，在第二类型视频帧生成过程中，通过将第二类型场景辅助图中的运动向量图和相邻第一类型视频帧进行映射，获得映射后的相邻第一类型视频帧以用于生成第二类型视频帧，该过程生成的第二类型视频帧与第一类型视频帧的衔接紧密性更强，第二类型视频帧可具有更好的插帧效果。

上述第二实施例提供了一种视频生成方法，与之相对应的，本申请一实施例还提供了一种视频生成装置，由于装置实施例基本相似于方法实施例，所以描述得比较简单，相关的技术特征的细节部分请参见上述提供的方法实施例的对应说明即可，下述对装置实施例的描述仅仅是示意性的。如图5所示，为本实施例提供的视频生成装置的单元框图，包括：

获取单元501，被配置为获得多组场景数据，所述多组场景数据中的一组场景数据用于表示一个场景的布局状态，所述一个场景为针对一个物理空间的布局设计的一个展示角度场景，所述多组场景数据为每个展示角度场景所需的展示数据。

渲染单元502，被配置为针对所述多组场景数据中的第一类型场景数据，按照所述第一类型场景数据生成第一类型场景辅助图和第一类型视频帧。

处理单元503，被配置为针对所述多组场景数据中的第二类型场景数据，按照所述第二类型场景数据生成第二类型场景辅助图，并根据所述第一类型场景辅助图、所述第一类型视频帧和所述第二类型场景辅助图，生成第二类型视频帧。

合成单元504，被配置为根据所述第一类型视频帧和所述第二类型视频帧，生成对应于所述多组场景数据的视频。

本申请实施例还提供一种视频生成装置，请参考图6理解该实施例，图6为本实施例提供的视频帧生成装置的单元框图，如图6所示，本实施例提供的视频帧生成装置包括：

获取单元601，被配置为获得多组场景数据，所述多组场景数据中的一组场景数据用于表示一个场景的布局状态，所述一个场景为针对一个物理空间的布局设计的一个展示角度场景，所述多组场景数据为每个展示角度场景所需的展示数据。

渲染单元602，被配置为针对所述多组场景数据中的第一类型场景数据，按照所述第一类型场景数据生成第一类型场景辅助图和第一类型视频帧。

输出单元603，被配置为针对所述多组场景数据中的第二类型场景数据，按照所述第二类型场景数据生成第二类型场景辅助图，并根据所述第一类型场景辅助图、所述第一类型视频帧和所述第二类型场景辅助图，生成第二类型视频帧。

上述实施例提供了视频生成装置及视频帧生成装置，此外，本申请实施例还提供电子设备，由于电子设备实施例基本相似于方法实施例，所以描述得比较简单，相关的技术特征的细节部分请参见上述提供的方法实施例的对应说明即可，下述对电子设备实施例的描述仅仅是示意性的。该电子设备实施例如下：请参考图7理解本实施例，图7为本实施例提供的电子设备的示意图。

如图7所示，本实施例提供的电子设备包括：处理器701和存储器702、通信接口703和通信总线704。所述存储器702用于存储数据处理的一条或多条计算机指令。所述处理器701，用于执行所述一条或多条计算机指令，以实现上述各方法实施例的各步骤。所述通信接口703，用于为存储器702、处理器701提供连接接口。所述通信总线704，用于连接挂载在其上的存储器702、处理器701。

在上述各实施例中，提供了视频生成方法、视频帧生成方法以及上述方法对应的装置和电子设备，此外，本申请实施例还提供了用于实现上述视频生成方法的计算机可读存储介质。本申请提供的计算机可读存储介质实施例描述得比较简单，相关部分请参见上述方法实施例的对应说明即可，下述描述的实施例仅仅是示意性的。

本实施例提供的计算机可读存储介质上存储有计算机指令，该指令被处理器执行时实现上述各方法实施例的各步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器 (RAM) 和/或非易失性内存等形式，如只读存储器 (ROM) 或闪存(flash RAM)。内存是计算机可读介质的示例。

1、计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存 (PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器 (DRAM)、其他类型的随机存取存储器 (RAM)、只读存储器(ROM)、电可擦除可编程只读存储器 (EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器 (CD-ROM)、数字多功能光盘 (DVD) 或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括非暂存电脑可读媒体 (transitory media)，如调制的数据信号和载波。

2、本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本申请虽然以较佳实施例公开如上，但其并不是用来限定本申请，任何本领域技术人员在不脱离本申请的精神和范围内，都可以做出可能的变动和修改，因此本申请的保护范围应当以本申请权利要求所界定的范围为准。

Claims

1.一种视频生成方法，其特征在于，包括：

获得多组场景数据，所述多组场景数据中的一组场景数据用于表示一个场景的布局状态，所述一个场景为针对一个物理空间的布局设计的一个展示角度场景，所述多组场景数据为每个展示角度场景所需的展示数据；

针对所述多组场景数据中的第一类型场景数据，按照所述第一类型场景数据生成第一类型场景辅助图和第一类型视频帧；

针对所述多组场景数据中的第二类型场景数据，按照所述第二类型场景数据生成第二类型场景辅助图，并根据所述第一类型场景辅助图、所述第一类型视频帧和所述第二类型场景辅助图，生成第二类型视频帧；

根据所述第一类型视频帧和所述第二类型视频帧，生成对应于所述多组场景数据的视频。

2.根据权利要求1所述的视频生成方法，其特征在于，所述方法应用于服务端，所述获得多组场景数据，包括：获得客户端提供的针对所述物理空间的布局参数，根据所述布局参数生成所述每个展示角度场景所需的展示数据；

或者，所述方法应用于服务端，所述获得多组场景数据，包括：获得客户端提供的所述每个展示角度场景所需的展示数据；

或者，所述方法应用于客户端，所述获得多组场景数据，包括：响应于检测到用户针对所述物理空间的设计操作，获得针对所述物理空间的布局参数，根据所述布局参数生成所述每个展示角度场景所需的展示数据。

3.根据权利要求1所述的视频生成方法，其特征在于，还包括：

从所述多组场景数据中获得任意一组场景数据，作为待处理场景数据；

判断所述待处理场景数据所属的类型；

所述针对所述多组场景数据中的第一类型场景数据，按照所述第一类型场景数据生成第一类型场景辅助图和待生成视频中的第一类型视频帧，包括：如果所述待处理场景数据为第一类型场景数据，则按照所述待处理场景数据生成所述待处理场景数据的辅助图和对应所述待处理场景数据的视频帧；

所述针对所述多组场景数据中的第二类型场景数据，按照所述第二类型场景数据生成第二类型场景辅助图，包括：如果所述待处理场景数据为第二类型场景数据，则按照所述待处理场景数据生成所述待处理场景数据的辅助图。

4.根据权利要求3所述的视频生成方法，其特征在于，所述如果所述待处理场景数据为第一类型场景数据，则按照所述待处理场景数据生成所述待处理场景数据的辅助图和对应所述待处理场景数据的视频帧，包括：如果所述待处理场景数据为第一类型场景数据，则按照所述待处理场景数据生成所述待处理场景数据的法向量图、深度图、纹理图和效果图，将所述法向量图、所述深度图、所述纹理图作为所述待处理场景数据的辅助图，将所述效果图作为对应所述待处理场景数据的视频帧。

5.根据权利要求3所述的视频生成方法，其特征在于，如果所述待处理场景数据为第二类型场景数据，则按照所述待处理场景数据生成所述待处理场景数据的法向量图、深度图、纹理图和运动向量图，将所述法向量图、所述深度图、所述纹理图和所述运动向量图作为所述待处理场景数据的辅助图。

6.根据权利要求1所述的视频生成方法，其特征在于，所述根据所述第一类型场景辅助图、所述第一类型视频帧和所述第二类型场景辅助图，生成第二类型视频帧，包括：

将在所述多组场景数据中与所述第二类型场景数据相邻的第一类型场景数据的第一类型场景辅助图和第一类型视频帧，确定为相邻第一类型场景辅助图和相邻第一类型视频帧；

根据所述第二类型场景辅助图中的运动向量图和所述相邻第一类型视频帧，将所述相邻第一类型视频帧中的像素点映射到待生成的第二类型视频帧中的像素点，获得映射后的相邻第一类型视频帧，并根据所述相邻第一类型视频帧和所述映射后的相邻第一类型视频帧，将所述相邻第一类型场景辅助图中的像素点特征映射到所述待生成的第二类型视频帧中的像素点特征，获得映射后的相邻第一类型场景辅助图；

根据所述第二类型场景辅助图、所述映射后的相邻第一类型视频帧和所述映射后的相邻第一类型场景辅助图，获得所述映射后的相邻第一类型视频帧的权重；

根据所述映射后的相邻第一类型视频帧的权重和所述映射后的相邻第一类型视频帧，生成所述第二类型视频帧。

7.根据权利要求6所述的视频生成方法，其特征在于，所述根据所述第二类型场景辅助图中的运动向量图和所述相邻第一类型视频帧，将所述相邻第一类型视频帧中的像素点映射到待生成的第二类型视频帧中的像素点中，获得映射后的相邻第一类型视频帧，包括：

8.根据权利要求6所述的视频生成方法，其特征在于，所述根据所述相邻第一类型视频帧和所述映射后的相邻第一类型视频帧，将所述相邻第一类型场景辅助图中的像素点特征映射到所述待生成的第二类型视频帧中的像素点特征中，获得映射后的相邻第一类型场景辅助图，包括：

9.根据权利要求6所述的视频生成方法，其特征在于，所述根据所述第二类型场景辅助图、所述映射后的相邻第一类型视频帧和所述映射后的相邻第一类型场景辅助图，获得所述映射后的相邻第一类型视频帧的权重，包括：

10.根据权利要求9所述的视频生成方法，其特征在于，所述权重处理模型是按照下述方式训练得到的：

获得第一视频帧样本、第一视频帧样本对应的场景辅助图、第二视频帧样本、第二视频帧样本对应的场景辅助图，其中，所述第一视频帧样本与所述第二视频帧样本在同一个视频样本中是相邻的视频帧；

根据所述第二视频帧样本对应的场景辅助图中的运动向量图和所述第一视频帧样本，将所述第一视频帧样本中的像素点映射到待生成的第二视频帧样本中的像素点，获得映射后的第一视频帧样本，并根据所述第一视频帧样本和所述映射后的第一视频帧样本，将所述第一视频帧样本对应的场景辅助图中的像素点特征映射到所述待生成的第二视频帧样本中的像素点特征，获得映射后的第一视频帧样本对应的场景辅助图；

将所述第二视频帧样本对应的场景辅助图、所述映射后的第一视频帧样本和所述映射后的第一视频帧样本对应的场景辅助图输入到初始权重处理模型中，获得映射后的第一视频帧样本的权重；

根据所述映射后的第一视频帧样本的权重和映射后的第一视频帧样本，生成第二视频帧样本；

11.根据权利要求6所述的视频生成方法，其特征在于，相邻第一类型视频帧包括在时序上位于所述待生成的第二类型视频帧之前、并与所述待生成的第二类型视频帧相邻的前序相邻第一类型视频帧，以及在时序上位于所述待生成的第二类型视频帧之后、并与所述待生成的第二类型视频帧相邻的后序相邻第一类型视频帧；

12.根据权利要求1所述的视频生成方法，其特征在于，所述根据所述第一类型视频帧和所述第二类型视频帧，生成对应于所述多组场景数据的视频，包括：按照所述第一类型视频帧的帧序号和所述第二类型视频帧的帧序号，生成对应于所述多组场景数据的视频。

13.一种视频帧生成方法，其特征在于，包括：

针对所述多组场景数据中的第二类型场景数据，按照所述第二类型场景数据生成第二类型场景辅助图，并根据所述第一类型场景辅助图、所述第一类型视频帧和所述第二类型场景辅助图，生成第二类型视频帧。

14.根据权利要求13所述的视频帧生成方法，其特征在于，所述方法应用于视频帧处理端，所述方法还包括：

将所述第二类型视频帧发送至视频帧生成端。

15.一种视频生成装置，其特征在于，包括：

16.一种视频帧生成装置，其特征在于，包括：

17.一种电子设备，其特征在于，包括处理器和存储器；其中，

所述存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器执行以实现如权利要求1-14中任一项所述的方法。

18.一种计算机可读存储介质，其上存储有一条或多条计算机指令，其特征在于，该指令被处理器执行以实现如权利要求1-14中任一项所述的方法。