CN115761114A

CN115761114A - 视频生成方法、装置及计算机可读存储介质

Info

Publication number: CN115761114A
Application number: CN202211335999.6A
Authority: CN
Inventors: 李臻; 王灵丽; 黄晓艺; 潘慈辉
Original assignee: You Can See Beijing Technology Co ltd AS
Current assignee: You Can See Beijing Technology Co ltd AS
Priority date: 2022-10-28
Filing date: 2022-10-28
Publication date: 2023-03-07
Anticipated expiration: 2042-10-28
Also published as: CN115761114B

Abstract

本公开的实施例公开了一种视频生成方法、装置及计算机可读存储介质。该方法包括：为虚拟物体确定位姿序列，位姿序列包括N个位姿；对位姿序列进行位姿的间隔抽取处理，以得到位姿序列中的M个位姿；分别将虚拟物体以M个位姿融合至静态背景图像中，以得到M个位姿对应的M帧第一融合效果图；基于M帧第一融合效果图，进行插帧处理，以生成位姿序列中的剩余N‑M个位姿对应的N‑M帧第二融合效果图；合并M帧第一融合效果图和N‑M帧第二融合效果图，以生成包含运动的虚拟物体的目标视频。本公开的实施例能够提高动态虚拟物体合成效率，从而较好地满足实际需求。

Description

视频生成方法、装置及计算机可读存储介质

技术领域

本公开涉及混合现实(Mixed Reality，MR)技术领域，尤其涉及一种视频生成方法、装置及计算机可读存储介质。

背景技术

虚拟物体合成技术在混合现实领域发挥着重要作用，虚拟物体合成技术是指：通过计算机技术将虚拟物体叠加到真实场景中，实现内容、空间几何、时间等多个层面的融合，从而完成逼真的虚实融合。需要说明的是，一些情况下，存在合成动态虚拟物体的需求，然而，采用目前的虚拟物体合成技术，需要耗费非常长的时间才能实现动态虚拟物体合成，难以满足实际需求。

发明内容

为了解决上述技术问题，提出了本公开。本公开的实施例提供了一种视频生成方法、装置及计算机可读存储介质。

根据本公开实施例的一个方面，提供了一种视频生成方法，包括：

为虚拟物体确定位姿序列，所述位姿序列包括N个位姿；

对所述位姿序列进行位姿的间隔抽取处理，以得到所述位姿序列中的M个位姿；

分别将所述虚拟物体以所述M个位姿融合至静态背景图像中，以得到所述M个位姿对应的M帧第一融合效果图；

基于所述M帧第一融合效果图，进行插帧处理，以生成所述位姿序列中的剩余N-M个位姿对应的N-M帧第二融合效果图；

合并所述M帧第一融合效果图和所述N-M帧第二融合效果图，以生成包含运动的所述虚拟物体的目标视频。

在一个可选示例中，所述基于所述M帧第一融合效果图，进行插帧处理，以生成所述位姿序列中的剩余N-M个位姿对应的N-M帧第二融合效果图，包括：

确定所述虚拟物体在所述M帧第一融合效果图中的M个边界框；

基于所述M个边界框，确定所述虚拟物体对应的最大动态区域；

分别截取所述M帧第一融合效果图中的所述最大动态区域，以得到所述M帧第一融合效果图对应的M帧截取图像；

对所述M帧截取图像进行插帧处理，以生成所述位姿序列中的剩余N-M个位姿对应的N-M帧插帧图像；

分别将所述N-M帧插帧图像填充至所述静态背景图像的所述最大动态区域，以生成所述剩余N-M个位姿对应的N-M帧第二融合效果图。

在一个可选示例中，所述对所述M帧截取图像进行插帧处理，以生成所述位姿序列中的剩余N-M个位姿对应的N-M帧插帧图像，包括：

确定所述M帧截取图像中相邻的两帧截取图像，所述相邻的两帧截取图像中的一者所在的第一融合效果图对应的位姿为第一位姿，另一者所在的第一融合效果图对应的位姿为第二位姿；

将所述相邻的两帧截取图像输入神经网络模型，经由所述神经网络模型生成第三位姿对应的插帧图像；其中，所述第三位姿为所述位姿序列中位于所述第一位姿和所述第二位姿之间的位姿。

在一个可选示例中，所述方法还包括：

将所述虚拟物体以所述第三位姿融合至所述静态背景图像中，以得到第三融合效果图；

基于所述第三融合效果图，以及所述N-M帧第二融合效果图中所述第三位姿对应的第二融合效果图的比对结果，确定模型损失值；

基于所述模型损失值，对所述神经网络模型进行训练。

在一个可选示例中，

所述分别将所述虚拟物体以所述M个位姿融合至静态背景图像中，以得到所述M个位姿对应的M帧第一融合效果图之前，所述方法还包括：

利用针对真实房屋采集的多个点云数据和多帧高动态范围图像，生成三维房屋模型和房屋纹理贴图；

基于所述多帧高动态范围图像，生成静态背景图像；

所述分别将所述虚拟物体以所述M个位姿融合至静态背景图像中，以得到所述M个位姿对应的M帧第一融合效果图，包括：

基于所述三维房屋模型和所述房屋纹理贴图，分别将所述虚拟物体以所述M个位姿融合至静态背景图像中，以得到所述M个位姿对应的M帧第一融合效果图。

在一个可选示例中，所述基于所述三维房屋模型和所述房屋纹理贴图，分别将所述虚拟物体以所述M个位姿融合至静态背景图像中，以得到所述M个位姿对应的M帧第一融合效果图，包括：

基于第四位姿，确定所述虚拟物体的三维物体模型在所述三维房屋模型中的待放置位置；其中，所述第四位姿为所述M个位姿中的任一位姿；

基于所述三维房屋模型和所述房屋纹理贴图，确定所述待放置位置对应的全景光照信息；

基于所述静态背景图像、所述三维房屋模型、所述三维物体模型、所述全景光照信息，以及所述第四位姿，生成包括所述虚拟物体和所述真实房屋的融合效果图，并将所生成的融合效果图作为所述第四位姿对应的第一融合效果图。

在一个可选示例中，所述基于所述三维房屋模型和所述房屋纹理贴图，确定所述待放置位置对应的全景光照信息，包括：

确定从所述待放置位置发射的多条射线，所述多条射线的发射角度互异；

确定所述多条射线与所述三维房屋模型的多个相交点；

基于所述多个相交点和所述房屋纹理贴图，确定所述待放置位置对应于所述多个发射角度的多个光照信息；

确定所述待放置位置对应的全景光照信息；其中，所述全景光照信息包括：所述待放置位置对应于所述多个发射角度的多个光照信息。

在一个可选示例中，所述为虚拟物体确定位姿序列，包括：

获取虚拟物体的预设运动轨迹信息和预设旋转规律信息；

获取预设视频帧率；

基于所述预设运动轨迹信息、所述预设旋转规律信息，以及所述预设视频帧率，为所述虚拟物体确定位姿序列；

其中，所述目标视频的视频帧率为所述预设视频帧率。

根据本公开实施例的另一个方面，提供了一种视频生成装置，包括：

第一确定模块，用于为虚拟物体确定位姿序列，所述位姿序列包括N个位姿；

位姿抽取模块，用于对所述位姿序列进行位姿的间隔抽取处理，以得到所述位姿序列中的M个位姿；

第一融合模块，用于分别将所述虚拟物体以所述M个位姿融合至静态背景图像中，以得到所述M个位姿对应的M帧第一融合效果图；

第一生成模块，用于基于所述M帧第一融合效果图，进行插帧处理，以生成所述位姿序列中的剩余N-M个位姿对应的N-M帧第二融合效果图；

第二生成模块，用于合并所述M帧第一融合效果图和所述N-M帧第二融合效果图，以生成包含运动的所述虚拟物体的目标视频。

在一个可选示例中，所述第一生成模块，包括：

第一确定子模块，用于确定所述虚拟物体在所述M帧第一融合效果图中的M个边界框；

第二确定子模块，用于基于所述M个边界框，确定所述虚拟物体对应的最大动态区域；

截取子模块，用于分别截取所述M帧第一融合效果图中的所述最大动态区域，以得到所述M帧第一融合效果图对应的M帧截取图像；

第一生成子模块，用于对所述M帧截取图像进行插帧处理，以生成所述位姿序列中的剩余N-M个位姿对应的N-M帧插帧图像；

第二生成子模块，用于分别将所述N-M帧插帧图像填充至所述静态背景图像的所述最大动态区域，以生成所述剩余N-M个位姿对应的N-M帧第二融合效果图。

在一个可选示例中，所述第一生成子模块，包括：

第一确定单元，用于确定所述M帧截取图像中相邻的两帧截取图像，所述相邻的两帧截取图像中的一者所在的第一融合效果图对应的位姿为第一位姿，另一者所在的第一融合效果图对应的位姿为第二位姿；

生成单元，用于将所述相邻的两帧截取图像输入神经网络模型，经由所述神经网络模型生成第三位姿对应的插帧图像；其中，所述第三位姿为所述位姿序列中位于所述第一位姿和所述第二位姿之间的位姿。

在一个可选示例中，所述装置还包括：

第二融合模块，用于将所述虚拟物体以所述第三位姿融合至所述静态背景图像中，以得到第三融合效果图；

第二确定模块，用于基于所述第三融合效果图，以及所述N-M帧第二融合效果图中所述第三位姿对应的第二融合效果图的比对结果，确定模型损失值；

训练模块，用于基于所述模型损失值，对所述神经网络模型进行训练。

在一个可选示例中，

所述装置还包括：

第三生成模块，用于在分别将所述虚拟物体以所述M个位姿融合至静态背景图像中，以得到所述M个位姿对应的M帧第一融合效果图之前，利用针对真实房屋采集的多个点云数据和多帧高动态范围图像，生成三维房屋模型和房屋纹理贴图；

第四生成模块，用于基于所述多帧高动态范围图像，生成静态背景图像；

所述第一融合模块，具体用于：

在一个可选示例中，所述第一融合模块，包括：

第三确定子模块，用于基于第四位姿，确定所述虚拟物体的三维物体模型在所述三维房屋模型中的待放置位置；其中，所述第四位姿为所述M个位姿中的任一位姿；

第四确定子模块，用于基于所述三维房屋模型和所述房屋纹理贴图，确定所述待放置位置对应的全景光照信息；

融合子模块，用于基于所述静态背景图像、所述三维房屋模型、所述三维物体模型、所述全景光照信息，以及所述第四位姿，生成包括所述虚拟物体和所述真实房屋的融合效果图，并将所生成的融合效果图作为所述第四位姿对应的第一融合效果图。

在一个可选示例中，所述第四确定子模块，包括：

第二确定单元，用于确定从所述待放置位置发射的多条射线，所述多条射线的发射角度互异；

第三确定单元，用于确定所述多条射线与所述三维房屋模型的多个相交点；

第四确定单元，用于基于所述多个相交点和所述房屋纹理贴图，确定所述待放置位置对应于所述多个发射角度的多个光照信息；

第五确定单元，用于确定所述待放置位置对应的全景光照信息；其中，所述全景光照信息包括：所述待放置位置对应于所述多个发射角度的多个光照信息。

在一个可选示例中，所述第一确定模块，包括：

第一获取子模块，用于获取虚拟物体的预设运动轨迹信息和预设旋转规律信息；

第二获取子模块，用于获取预设视频帧率；

第五确定子模块，用于基于所述预设运动轨迹信息、所述预设旋转规律信息，以及所述预设视频帧率，为所述虚拟物体确定位姿序列；

其中，所述目标视频的视频帧率为所述预设视频帧率。

根据本公开实施例的再一个方面，提供了一种电子设备，包括：

存储器，用于存储计算机程序产品；

处理器，用于执行所述存储器中存储的计算机程序产品，且所述计算机程序产品被执行时，实现上述视频生成方法。

根据本公开实施例的又一个方面，提供了一种计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令被处理器执行时，实现上述视频生成方法。

根据本公开实施例的又一个方面，提供了一种计算机程序产品，包括计算机程序指令，所述计算机程序指令被处理器执行时实现上述视频生成方法。

本公开的实施例中，可以从为虚拟物体确定的位姿序列中选择部分位姿(即M个位姿)，并分别将虚拟物体以M个位姿融合至静态背景图像中，以得到M个位姿对应的M帧第一融合效果图，接下来可以基于M帧第一融合效果图，进行插帧处理，以生成位姿序列中的剩余N-M个位姿对应的N-M帧第二融合效果图，再之后可以通过合并M帧第一融合效果图和N-M帧第二融合效果图，生成包含运动的虚拟物体的目标视频，由此可以实现动态虚拟物体合成。本公开的实施例中，通过从位姿序列中筛选部分位姿，并仅针对部分位姿进行虚拟物体合成，且在这部分位姿进行虚拟物体合成得到的融合效果图的基础上进行插帧处理，能够高效可靠地生成包含运动的虚拟物体的目标视频，并且，由于无需针对所有位姿均进行虚拟物体合成，能够有效地缩短动态虚拟物体合成所需的时长，提高动态虚拟物体合成效率，从而较好地满足实际需求。

附图说明

图1是本公开一示例性实施例提供的视频生成方法的流程示意图。

图2是本公开一示例性实施例中静态背景图像的示意图。

图3是本公开另一示例性实施例提供的视频生成方法的流程示意图。

图4-1是本公开一示例性实施例中M帧截取图像中的某一截取图像的示意图。

图4-2是本公开一示例性实施例中M帧截取图像中的另一截取图像的示意图。

图5-1是本公开一示例性实施例中M帧截取图像中的第k帧截取图像的示意图。

图5-2是本公开一示例性实施例中M帧截取图像中的第k+1帧截取图像的示意图。

图5-3是本公开一示例性实施例中将M帧截取图像中的第k帧截取图像和第k+1帧截取图像作为神经网络模型的输入得到的插帧图像的示意图。

图6-1是本公开一示例性实施例中M帧截取图像中的第k帧截取图像所在的第一融合效果图的示意图。

图6-2是本公开一示例性实施例中M帧截取图像中的第k+1帧截取图像所在的第一融合效果图的示意图。

图6-3是本公开一示例性实施例中将M帧截取图像中的第k帧截取图像和第k+1帧截取图像作为神经网络模型的输入得到的插帧图像填充至静态背景图像的最大动态区域得到的第二融合效果图的示意图。

图6-4是本公开一示例性实施例中将虚拟物体以第三位姿融合至静态背景图像中得到的第三融合效果图的示意图。

图6-5是本公开另一示例性实施例中第二融合效果的示意图。

图7是本公开再一示例性实施例提供的视频生成方法的流程示意图。

图8是本公开一示例性实施例中第一三角形网格的示意图。

图9是本公开一示例性实施例提供的视频生成装置的结构示意图。

图10是本公开另一示例性实施例提供的视频生成装置的结构示意图。

图11是本公开一示例性实施例提供的电子设备的结构图。

具体实施方式

下面将参考附图详细描述根据本公开的示例实施例。所描述的实施例仅是本公开的一部分实施例，而非全部实施例，本公开不受描述的示例实施例的限制。

应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。

本领域技术人员可以理解，本公开实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等，不代表任何特定技术含义和必然逻辑顺序。

还应理解，在本公开实施例中，“多个”可以指两个或两个以上，“至少一个”可以指一个、两个或两个以上。

还应理解，对于本公开实施例中提及的任一部件、数据或结构，在没有明确限定或者在前后文给出相反启示的情况下，一般可以理解为一个或多个。

本公开中术语“和/或”，仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。本公开中字符“/”，一般表示前后关联对象是一种“或”的关系。

本公开对各个实施例的描述着重强调各个实施例之间的不同之处，相同或相似之处可相互参考。附图中示出的各个部分的尺寸并非按照实际比例关系绘制。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本公开及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

本公开实施例可以应用于终端设备、计算机系统、服务器等电子设备，其可与众多其它通用或专用计算系统环境或配置一起操作。适于与终端设备、计算机系统、服务器等电子设备一起使用的众所周知的终端设备、计算系统、环境和/或配置的例子包括但不限于：个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统、大型计算机系统等等。

终端设备、计算机系统、服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等，它们执行特定任务或者实现特定抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施，分布式云计算环境中，任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中，程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。

示例性方法

图1是本公开一示例性实施例提供的视频生成方法的流程示意图。图1所示的方法包括步骤110、步骤120、步骤130、步骤140和步骤150，下面对各步骤分别进行说明。

步骤110，为虚拟物体确定位姿序列，位姿序列包括N个位姿。

可选地，本公开的实施例中的真实场景可以为室内场景，那么，虚拟物体包括但不限于家具(例如床、床头柜)、家电(例如灯具、冰箱、扫地机器人)等。

需要说明的是，虚拟物体可以具有对应的几何信息，虚拟物体对应的几何信息可以由虚拟物体的三维物体模型承载，虚拟物体还可以具有对应的材质描述文件，这样，可以认为虚拟物体＝三维物体模型承载的几何信息+材质描述文件。

需要说明的是，位姿序列包括的N个位姿中的每个位姿均可以包括位置和姿态；其中，N可以为8、10、20、30、50或者其他取值；每个位姿中的位置均可以是空间位置，每个位姿中的姿态均可以是相对视图坐标系(例如下文中的静态背景图像的视图坐标系)的旋转朝向。

步骤120，对位姿序列进行位姿的间隔抽取处理，以得到位姿序列中的M个位姿。

这里，M可以为大于或等于2且小于N的整数。

可选地，可以按照预设抽取规则，对位姿序列进行位姿的间隔抽取处理，预设抽取规则可以为：从首个位姿开始抽取，每间隔1个位姿进行一次抽取。这样，如果位姿序列包括20个位姿，按照预设抽取规则总共可以抽取出10个位姿，这10个位姿即可作为步骤120中的M个位姿。

需要指出的是，预设抽取规则并不局限于上段中的例子，例如，预设抽取规则还可以为：从首个位姿开始抽取，每间隔2个位姿进行一次抽取，再例如，预设抽取规则还可以为：从首个位姿开始抽取，下一次抽取时间隔1个位姿，再下一次抽取时间隔2个位姿，又下一次抽取时间隔1个位姿，后续抽取间隔在1个位姿和2个位姿之间循环切换。

步骤130，分别将虚拟物体以M个位姿融合至静态背景图像中，以得到M个位姿对应的M帧第一融合效果图。

可选地，静态背景图像可以参见图2所示的室内场景图像。

在步骤130中，可以针对M个位姿中的每个位姿，利用虚拟物体合成技术，将虚拟物体以该位姿融合至静态背景图像，以得到该位姿对应的第一融合效果图，由此可以得到与M个位姿一一对应的M帧第一融合效果图；其中，任一位姿对应的第一融合效果图可以用于体现虚拟物体与室内场景的融合效果，并且，该位姿对应的第一融合效果图中的虚拟物体符合该位姿。

步骤140，基于M帧第一融合效果图，进行插帧处理，以生成位姿序列中的剩余N-M个位姿对应的N-M帧第二融合效果图。

在步骤140中，在M帧第一融合效果图的基础上，可以通过视频插帧算法进行中间帧的生成，由此得到与剩余N-M个位姿一一对应的N-M帧第二融合效果图。可选地，视频插帧算法可以为光流法或者其它类型的插帧算法，为了布局清楚，后续再对视频插帧算法进行举例介绍。

步骤150，合并M帧第一融合效果图和N-M帧第二融合效果图，以生成包含运动的虚拟物体的目标视频。

由于M帧第一融合效果图与位姿序列中的M个位姿对应，N-M帧第二融合效果图与位姿序列中的剩余N-M个位姿，M帧第一融合效果图和N-M帧第二融合效果图可以组成融合效果图序列，融合效果图序列中的N帧融合效果图与位姿序列中的N个位姿一一对应，并且，融合效果图序列中的N帧融合效果图均可以包括虚拟物体，虚拟物体在N帧融合效果图中的位姿可以互不相同。这样，通过将融合效果图序列转换为视频，即可得到包括运动的虚拟物体的目标视频。

本公开的实施例中，可以从为虚拟物体确定的位姿序列中抽取出部分位姿(即M个位姿)，并分别将虚拟物体以M个位姿融合至静态背景图像中，以得到M个位姿对应的M帧第一融合效果图，接下来可以基于M帧第一融合效果图，进行插帧处理，以生成位姿序列中的剩余N-M个位姿对应的N-M帧第二融合效果图，再之后可以通过合并M帧第一融合效果图和N-M帧第二融合效果图，生成包含运动的虚拟物体的目标视频，由此可以实现动态虚拟物体合成。本公开的实施例中，通过从位姿序列中抽取部分位姿，并仅针对部分位姿进行虚拟物体合成，且在这部分位姿进行虚拟物体合成得到的融合效果图的基础上进行插帧处理，能够高效可靠地生成包含运动的虚拟物体的目标视频，并且，由于无需针对所有位姿均进行虚拟物体合成，能够有效地缩短动态虚拟物体合成所需的时长，提高动态虚拟物体合成效率，从而较好地满足实际需求。

在图1所示实施例的基础上，如图3所示，步骤130，包括步骤1301、步骤1303、步骤1305、步骤1307和步骤1309。

步骤1301，确定虚拟物体在M帧第一融合效果图中的M个边界框。

可选地，M帧第一融合效果图与M个边界框可以为一一对应的关系，任一第一融合效果图对应的边界框可以是能够围设该第一融合效果图中的虚拟物体的最小矩形框。

由于M帧第一融合效果图是通过将虚拟物体以M个位姿融合至静态背景图像中得到的，虚拟物体在M帧第一融合效果图中的位置均可以认为是已知的，在此基础上，步骤1301中可以非常便捷地确定出与M帧第一融合效果图一一对应的M个边界框。

步骤1303，基于M个边界框，确定虚拟物体对应的最大动态区域。

其中，虚拟物体对应的最大动态区域可以是指：将M个边界框放在同一图像(例如融合效果图序列中的任一图像或者静态背景图像)中时，M个边界框的并集。这样，虚拟物体对应的最大动态区域可以认为是虚拟物体的最大活动范围。

步骤1305，分别截取M帧第一融合效果图中的最大动态区域，以得到M帧第一融合效果图对应的M帧截取图像。

在步骤1305中，针对M帧第一融合效果图中的每帧第一融合效果图，可以截取该第一融合效果图中的最大动态区域，以得到该第一融合效果图对应的截取图像，由此可以得到与M帧第一融合效果图一一对应的M帧截取图像。可选地，M帧截取图像中的某一帧截取图像可以参见图4-1，M帧截取图像中的另一帧截取图像可以参见图4-2。

步骤1307，对M帧截取图像进行插帧处理，以生成位姿序列中的剩余N-M个位姿对应的N-M帧插帧图像。

在一种具体实施方式中，步骤1307，包括：

确定M帧截取图像中相邻的两帧截取图像，相邻的两帧截取图像中的一者所在的第一融合效果图对应的位姿为第一位姿，另一者所在的第一融合效果图对应的位姿为第二位姿；

将相邻的两帧截取图像输入神经网络模型，经由神经网络模型生成第三位姿对应的插帧图像；其中，第三位姿为位姿序列中位于第一位姿和第二位姿之间的位姿。

需要说明的是，神经网络模型可以为预先训练的，用于根据已知图像帧生成中间帧的模型。这样，只需要将相邻的两帧截取图像作为输入提供给神经网络模型，神经网络模型即可自行进行运算，从而生成作为相邻的两帧截取图像的中间帧的插帧图像。

在一个例子中，相邻的两帧截取图像为M帧截取图像中的第k帧截取图像和第k+1帧截取图像，第k帧截取图像可以参见图5-1，第k+1帧截取图像可以参见图5-2，将第k帧截取图像和第k+1帧截取图像作为神经网络模型的输入得到的插帧图像可以参见图5-3。

这种实施方式中，通过利用耗时较少的神经网络模型进行中间帧的预测，能够较好地保证插帧图像的生成效果，由此可以提高动态虚拟物体合成效率。

步骤1309，分别将N-M帧插帧图像填充至静态背景图像的最大动态区域，以生成剩余N-M个位姿对应的N-M帧第二融合效果图。

在步骤1309中，针对剩余N-M个位姿对应的N-M帧插帧图像中的每帧插帧插帧图像，可以将该插帧图像填充回静态背景图像的最大动态区域，以得到该位姿对应的第二融合效果图，由此得到剩余N-M个位姿一一对应的N-M帧第二融合效果图；其中，任一位姿对应的第二融合效果图中的最大动态区域呈现的是该位姿对应的插帧图像的内容，而不是静态背景图像的最大动态区域的原有内容。

本公开的实施例中，可以基于虚拟物体在M帧第一融合效果图中的M个边界框，确定虚拟物体对应的最大动态区域，并基于最大动态区域，通过图像截取处理，得到M帧第一融合效果图对应的M帧截取图像，后续可以直接针对M帧截取图像进行插帧处理，最后只需将经插帧处理得到的N-M帧插帧图像填充回静态背景图像的最大动态区域，即可实现N-M帧第二融合效果图的生成。这样，本公开的实施例中无需针对M帧第一融合效果图整体进行插帧处理，而仅需要针对去除了冗余背景后得到的M帧截取图像进行插帧处理，由此能够有效地保证N-M帧第二融合效果图的生成效率，从而能够进一步提高动态虚拟物体合成效率。

当然，具体实现时，也可以直接针对M帧第一融合效果图整体进行插帧处理，以生成位姿序列中的剩余N-M个位姿对应的N-M帧第二融合效果图。

在一个可选示例中，该方法还包括：

将虚拟物体以第三位姿融合至静态背景图像中，以得到第三融合效果图；

基于第三融合效果图，以及N-M帧第二融合效果图中第三位姿对应的第二融合效果图的比对结果，确定模型损失值；

基于模型损失值，对神经网络模型进行训练。

可选地，可以利用虚拟物体合成技术，将虚拟物体以第三位姿融合至静态背景图像中，以得到第三融合效果图，第三融合效果图可以认为是真实的中间帧。另外，由于第三位姿对应的第二融合效果图是通过将第三位姿对应的插帧图像填充至静态背景图像的最大动态区域得到的，第三位姿对应的插帧图像是神经网络模型通过预测得到的，第三位姿对应的第二融合效果图可以认为是预测的中间帧。

在一个例子中，M帧截取图像中的第k帧截取图像所在的第一融合效果图可以参见图6-1，M帧截取图像中的第k+1帧截取图像所在的第一融合效果图可以参见图6-2，将第k帧截取图像和第k+1帧截取图像作为神经网络模型的输入得到的插帧图像(即第三位姿对应的插帧图像)填充至静态背景图像的最大动态区域得到的第二融合效果图(即预测的中间帧)可以参见图6-3，将虚拟物体以第三位姿融合至静态背景图像中得到的第三融合效果图(即真实的中间帧)可以参见图6-4。在另一个例子中，第三位姿对应的插帧图像填充至静态背景图像的最大动态区域得到的第二融合效果图(即预测的中间帧)可以参见图6-5。

在得到预测的中间帧和真实的中间帧之后，通过将预测的中间帧与真实的中间帧进行比对，再结合损失计算函数，可以高效可靠地确定出模型损失值。可选地，损失计算函数包括但不限于平均绝对误差(Mean Abs Error，MAE)损失函数、平均平方误差(MeanSquare Error，MSE)损失函数等，在此不再一一列举。

在得到模型损失值之后，可以基于模型损失值，按照随机梯度下降法，调整神经网络模型的模型参数，以实现神经网络模型的训练。

本公开的实施例中，可以参考预测的中间帧和真实的中间帧的差异，对神经网络模型进行训练，从而保证神经网络模型的预测准确性，这样，在将神经网络模型的预测结果用于第二融合效果图的生成时，能够较好地保证生成的第二融合效果图的可靠性，从而有利于提高动态虚拟物体合成效果。

在一个可选示例中，为虚拟物体确定位姿序列，包括：

获取虚拟物体的预设运动轨迹信息和预设旋转规律信息；

获取预设视频帧率；

基于预设运动轨迹信息、预设旋转规律信息，以及预设视频帧率，为虚拟物体确定位姿序列；

其中，目标视频的视频帧率为预设视频帧率。

可选地，预设运动轨迹信息可以包括运动轨迹的线型(例如直线或者抛物线)，运动起始位置、运动结束位置等；预设旋转规律信息可以包括旋转方向、旋转角速度等；预设视频帧率用于表征每帧显示帧数。

在一个例子中，预设运动轨迹信息包括的运动轨迹的线型为直线，运动起始位置为位置1，运动结束位置为位置2，位置1与位置2之间的距离为10厘米，预设视频帧率为每秒5帧，则可以确定：某1秒的起始时刻，虚拟物体的位置为位置1；这1秒内的第0.2秒，虚拟物体的位置为位置1与位置2的连线上距离位置1为2厘米的位置；这1秒内的第0.4秒，虚拟物体的位置为位置1与位置2的连线上距离位置1为4厘米的位置；这1秒内的第0.6秒，虚拟物体的位置为位置1与位置2的连线上距离位置1为6厘米的位置；这1秒内的第0.8秒，虚拟物体的位置为位置1与位置2的连线上距离位置1为8厘米的位置；这1秒的结束时刻，虚拟物体的位置为位置2。按照类似的方式，可以分别确定这1秒的起始时刻，这1秒内的第0.2秒、第0.4秒、第0.6秒、第0.8秒，以及这1秒的结束时刻，虚拟物体的各个姿态，由此可以得到虚拟物体在这1秒内的位姿序列，将虚拟物体在这1秒内的位姿序列用于视频生成，生成的目标视频的视频帧率可以为每秒5帧。

本公开的实施例中，基于预设运动轨迹信息、预设旋转规律信息，以及预设视频帧率进行运算，能够高效可靠地确定出虚拟物体的位姿随时间变化的规律，从而高效可靠地为虚拟物体确定位姿序列。

在图1所示实施例的基础上，如图7所示，步骤130之前，该方法还包括步骤121和步骤123。

步骤121，利用针对真实房屋采集的多个点云数据和多帧高动态范围(HighDynamic Range，HDR)图像，生成三维房屋模型和房屋纹理贴图。

在步骤121之前，可以确定真实房屋中的多个点位，利用三维扫描设备分别在多个点位进行点云数据的采集，以得到与多个点位一一对应的多个点云数据，并利用图像采集设备分别在多个点位进行高动态范围图像的采集，以得到与多个点位一一对应的多帧高动态范围图像；其中，每帧高动态范围图像存储的均可以是线性的光照信息，每帧高动态范围图像均可以存储为float32(32位浮点型)的格式。

在步骤121中，基于与多个点位一一对应的多个点云数据，以及与多个点位一一对应的多帧高动态范围图像，可以通过三维重建实现三维房屋模型的生成，并通过图像纹理信息的利用，实现房屋纹理贴图的生成。

可选地，多帧高动态范围图像承载的信息(例如点特征、线特征等信息)可以为三维重建过程中多个点云数据的拼接提供参考，以保证拼接效果；多个点云数据承载的信息可以为图像纹理信息的利用提供参考，以保证房屋纹理贴图的准确性和可靠性。

可选地，三维房屋模型可以按照三角形网格(也可以称为三角面片)的形式进行存储，这样，可以认为三维房屋模型包括多个三角形网格。

步骤123，基于多帧高动态范围图像，生成静态背景图像。

在一种具体实施方式中，步骤123，包括：

将多帧高动态范围图像拼接为全景高动态范围图像；

将全景高动态范围图像转换为全景低动态范围图像(Low Dynamic Range，LDR)；

将全景低动态范围图像作为静态背景图像。

这里，可以先利用图像拼接算法，对多帧高动态范围图像，以得到全景高动态范围图像，接下来，可以对全景高动态范围图像进行曝光融合(Exposure fusion，EF)处理，以得到全景低动态范围图像，全景低动态范围图像可以存储为uint的格式，之后，可以直接将全景低动态范围图像作为静态背景图像，由此可以高效可靠地实现静态背景图像的生成。

步骤130，包括步骤1301。

步骤1301，基于三维房屋模型和房屋纹理贴图，分别将虚拟物体以M个位姿融合至静态背景图像中，以得到M个位姿对应的M帧第一融合效果图。

在一个可选示例中，步骤1301，包括：

基于第四位姿，确定虚拟物体的三维物体模型在三维房屋模型中的待放置位置；其中，第四位姿为M个位姿中的任一位姿；

基于三维房屋模型和房屋纹理贴图，确定待放置位置对应的全景光照信息；

基于静态背景图像、三维房屋模型、三维物体模型、全景光照信息，以及第四位姿，生成包括虚拟物体和真实房屋的融合效果图，并将所生成的融合效果图作为第四位姿对应的第一融合效果图。

可选地，可以提取第四位姿中的位置，并将所提取的位置映射至三维房屋模型中，映射得到的位置即可作为待放置位置。接下来，可以基于三维房屋模型和房屋纹理贴图，确定待放置位置对应的全景光照信息。

在一种具体实施方式中，基于三维房屋模型和房屋纹理贴图，确定待放置位置对应的全景光照信息，包括：

确定从待放置位置发射的多条射线，多条射线的发射角度互异；

确定多条射线与三维房屋模型的多个相交点；

基于多个相交点和房屋纹理贴图，确定待放置位置对应于多个发射角度的多个光照信息；

确定待放置位置对应的全景光照信息；其中，全景光照信息包括：待放置位置对应于多个发射角度的多个光照信息。

在确定从待放置位置发射的多条射线之后，针对多条射线中的每条射线，可以确定该射线与三维房屋模型的相交点，由此可以得到与多条射线一一对应的多个相交点，并将多个相交点和房屋纹理贴图用于待放置位置对应于多个发射角度的多个光照信息的确定。

假设多条射线中的任一射线为第一射线，第一射线的发射角度为第一发射角度，第一射线与三维房屋模型的相交点为第一相交点，基于多个相交点和房屋纹理贴图，确定待放置位置对应于多个发射角度的多个光照信息，可以包括：

从三维房屋模型包括的多个三角形网格中，确定第一相交点所在的第一三角形网格；

将第一三角形网格的三个顶点映射至房屋纹理贴图，以确定房屋纹理贴图上的三个映射点；

基于三个映射点的三个位置信息，确定房屋纹理贴图上的目标位置；

将目标位置的光照信息作为待放置位置对应于第一发射角度的光照信息。

由于三维房屋模型与房屋纹理贴图均是基于多个点云数据和多个高动态范围图像生成的，且均对应真实房屋，三维房屋模型与房屋纹理贴图之间存在位置映射关系，基于三维房屋模型与房屋纹理贴图之间的位置映射关系，可以分别将第一三角形网格的三个顶点映射至房屋纹理贴图，以确定房屋纹理贴图上的三个映射点，三个映射点与三个顶点之间可以为一一对应的关系。

接下来，可以基于三个映射点的三个位置信息，确定房屋纹理贴图上的目标位置，具体确定方式可以为：确定第一相交点将第一三角形网格分割为的三个网格区域的三个面积；基于三个面积，确定三个顶点对应的三个权重；利用三个权重，对三个映射点的三个位置信息进行加权，以得到加权位置信息；将房屋纹理贴图上加权位置信息对应的位置作为目标位置。

在一个例子中，第一三角形网格可以参见图8中的三角形ABC，也即，第一三角形网格的三个顶点分别是点A、点B、点C，假设第一相交点为点D，很明显，点D能够将三角形ABC分割为三个网格区域，这三个网格区域分别对应三角形ABD、三角形ACD、三角形BCD。基于点A、点B、点C、点D四者的位置坐标，能够高效可靠地计算出三角形ABD、三角形ACD、三角形BCD各自的面积，由此得到三个面积，此外，还可以计算三角形ABC的总面积。

可选地，可以将三角形BCD的面积与三角形ABC的总面积的比值作为点A对应的权重，将三角形ACD的面积与三角形ABC的总面积的比值作为点B对应的权重，将角形ABD的面积与三角形ABC的总面积的比值作为点C对应的权重。

假设将点A映射至房屋纹理贴图上时，对应的映射点为点E，将点B映射至房屋纹理贴图上时，对应的映射点为点F，将点C映射至房屋纹理贴图上时，对应的映射点为点G，则可以获取点E的坐标(x1，y1)，点F的坐标(x2，y2)，以及点G的坐标(x3，y3)；其中，x1，y1可以分别表示点E在房屋纹理贴图上的行号和列号，x2，y2可以分别表示点F在房屋纹理贴图上的行号和列号，x3，y3可以分别表示点G在房屋纹理贴图上的行号和列号。

假设点A对应的权重为q1，点B对应的权重为q2，点C对应的权重为q3，则可以利用如下公式计算x4和y4：

x4＝q1·x1+q2·x2+q3·x3

y4＝q1·y1+q2·y2+q3·y3

采用上述公式计算出的x4和y4可以共同组成加权位置信息，基于加权位置信息，后续可以将房屋纹理贴图上行号为x4，列号为y4的位置作为目标位置，目标位置的光照信息可以作为待放置位置对应于第一发射角度的光照信息。

假设多条射线中还包括第二射线，第二射线的发射角度为第二发射角度，则可以参照上文中确定待放置位置对应于第一发射角度的光照信息的确定方式，确定出待放置位置对应于第二发射角度的光照信息，由此可以得到待放置位置对应于多个发射角度的多个光照信息。

这种实施方式中，通过确定从待放置位置发射的发射角度互异的多条射线，结合多条射线与三维房屋模型的多个相交点，以及房屋纹理贴图，能够高效可靠地确定出待放置位置对应于多个发射角度的多个光照信息，并据此确定待放置位置对应的全景光照信息，这样，全景光照信息能够有效地表征待放置位置向各个方向的光照强度。

之后，可以先将三维房屋模型、三维物体模型、三维物体模型的模型参数，全景光照信息，以及第四位姿作为输入提供给渲染引擎，渲染引擎可以根据这些输入进行渲染处理，以实现虚拟物体的渲染结果、虚拟物体的掩膜，以及虚拟物体产生的阴影的渲染结果的生成，然后基于虚拟物体的渲染结果、虚拟物体的掩膜、虚拟物体产生的阴影的渲染结果，以及静态背景图像，生成包括虚拟物体和真实房屋的融合效果图，由此完成第四位姿对应的第一融合效果图的生成。

本公开的实施例中，通过对三维房屋模型承载的几何信息的利用，能够较好地保证虚拟物体与真实场景的几何一致性，通过对基于三维房屋模型和房屋纹理贴图得到的全景光照信息的利用，能够较好地保证虚拟物体与真实场景的光照一致性，由此能够较好地保证动态虚拟物体合成结果的视觉效果。

综上，本公开的实施例中，通过设定虚拟物体的位姿序列，针对位姿序列进行位姿的间隔抽取处理，并进一步得到抽取出的若个位姿对应的若干离散帧的合成结果(相当于上文中的M帧第一融合效果图)，之后通过视频插帧技术(具体通过上文中的神经网络模型实现)进行插帧处理，可以得到连续帧的合成结果(相当于上文中的N-M帧第二融合效果图)，最终可以生成动态视频(相当于上文中的目标视频)，与直接渲染得到所有帧的合成结果再生成动态视频的情况相比，本本公开的实施例只需渲染合成少量帧(相当于上文中的M帧第一融合效果图)，通过减少渲染合成这一耗时极高的操作，再利用耗时较少的神经网络模型预测中间帧，能够在保证动态虚拟物体合成效果的同时提升动态虚拟物体合成效率。另外，本公开的实施例中还利用了最大动态区域，由此可以在进行插帧处理时，尽量减少无关背景造成的开销，从而减少神经网络模型的开销，提升神经网络模型的预测稳定性。

本公开的实施例提供的任一种视频生成方法可以由任意适当的具有数据处理能力的设备执行，包括但不限于：终端设备和服务器等。或者，本公开实施例提供的任一种视频生成方法可以由处理器执行，如处理器通过调用存储器存储的相应指令来执行本公开实施例提及的任一种视频生成方法。下文不再赘述。

示例性装置

图9是本公开一示例性实施例提供的视频生成装置的结构示意图，图9所示的装置包括第一确定模块910、位姿抽取模块920、第一融合模块930、第一生成模块940和第二生成模块950。

第一确定模块910，用于为虚拟物体确定位姿序列，位姿序列包括N个位姿；

位姿抽取模块920，用于对位姿序列进行位姿的间隔抽取处理，以得到位姿序列中的M个位姿；

第一融合模块930，用于分别将虚拟物体以M个位姿融合至静态背景图像中，以得到M个位姿对应的M帧第一融合效果图；

第一生成模块940，用于基于M帧第一融合效果图，进行插帧处理，以生成位姿序列中的剩余N-M个位姿对应的N-M帧第二融合效果图；

第二生成模块950，用于合并M帧第一融合效果图和N-M帧第二融合效果图，以生成包含运动的虚拟物体的目标视频。

在一个可选示例中，如图10所示，第一生成模块940，包括：

第一确定子模块9401，用于确定虚拟物体在M帧第一融合效果图中的M个边界框；

第二确定子模块9403，用于基于M个边界框，确定虚拟物体对应的最大动态区域；

截取子模块9405，用于分别截取M帧第一融合效果图中的最大动态区域，以得到M帧第一融合效果图对应的M帧截取图像；

第一生成子模块9407，用于对M帧截取图像进行插帧处理，以生成位姿序列中的剩余N-M个位姿对应的N-M帧插帧图像；

第二生成子模块9409，用于分别将N-M帧插帧图像填充至静态背景图像的最大动态区域，以生成剩余N-M个位姿对应的N-M帧第二融合效果图。

在一个可选示例中，第一生成子模块9407，包括：

第一确定单元，用于确定M帧截取图像中相邻的两帧截取图像，相邻的两帧截取图像中的一者所在的第一融合效果图对应的位姿为第一位姿，另一者所在的第一融合效果图对应的位姿为第二位姿；

生成单元，用于将相邻的两帧截取图像输入神经网络模型，经由神经网络模型生成第三位姿对应的插帧图像；其中，第三位姿为位姿序列中位于第一位姿和第二位姿之间的位姿。

在一个可选示例中，该装置还包括：

第二融合模块，用于将虚拟物体以第三位姿融合至静态背景图像中，以得到第三融合效果图；

第二确定模块，用于基于第三融合效果图，以及N-M帧第二融合效果图中第三位姿对应的第二融合效果图的比对结果，确定模型损失值；

训练模块，用于基于模型损失值，对神经网络模型进行训练。

在一个可选示例中，如图10所示，

该装置还包括：

第三生成模块921，用于在分别将虚拟物体以M个位姿融合至静态背景图像中，以得到M个位姿对应的M帧第一融合效果图之前，利用针对真实房屋采集的多个点云数据和多帧高动态范围图像，生成三维房屋模型和房屋纹理贴图；

第四生成模块923，用于基于多帧高动态范围图像，生成静态背景图像；

第一融合模块930，具体用于：

基于三维房屋模型和房屋纹理贴图，分别将虚拟物体以M个位姿融合至静态背景图像中，以得到M个位姿对应的M帧第一融合效果图。

在一个可选示例中，第一融合模块930，包括：

第三确定子模块，用于基于第四位姿，确定虚拟物体的三维物体模型在三维房屋模型中的待放置位置；其中，第四位姿为M个位姿中的任一位姿；

第四确定子模块，用于基于三维房屋模型和房屋纹理贴图，确定待放置位置对应的全景光照信息；

融合子模块，用于基于静态背景图像、三维房屋模型、三维物体模型、全景光照信息，以及第四位姿，生成包括虚拟物体和真实房屋的融合效果图，并将所生成的融合效果图作为第四位姿对应的第一融合效果图。

在一个可选示例中，第四确定子模块，包括：

第二确定单元，用于确定从待放置位置发射的多条射线，多条射线的发射角度互异；

第三确定单元，用于确定多条射线与三维房屋模型的多个相交点；

第四确定单元，用于基于多个相交点和房屋纹理贴图，确定待放置位置对应于多个发射角度的多个光照信息；

第五确定单元，用于确定待放置位置对应的全景光照信息；其中，全景光照信息包括：待放置位置对应于多个发射角度的多个光照信息。

在一个可选示例中，第一确定模块910，包括：

第二获取子模块，用于获取预设视频帧率；

第五确定子模块，用于基于预设运动轨迹信息、预设旋转规律信息，以及预设视频帧率，为虚拟物体确定位姿序列；

其中，目标视频的视频帧率为预设视频帧率。

示例性电子设备

下面，参考图11来描述根据本公开实施例的电子设备。该电子设备可以是第一设备和第二设备中的任一个或两者、或与它们独立的单机设备，该单机设备可以与第一设备和第二设备进行通信，以从它们接收所采集到的输入信号。

图11图示了根据本公开实施例的电子设备1100的框图。

如图11所示，电子设备1100包括一个或多个处理器1110和存储器1120。

处理器1110可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备1100中的其他组件以执行期望的功能。

存储器1120可以存储一个或多个计算机程序产品，所述存储器1120可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序产品，处理器1110可以运行所述计算机程序产品，以实现上文所述的本公开的各个实施例的视频生成方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。

在一个示例中，电子设备1100还可以包括：输入装置1130和输出装置1140，这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。

若电子设备1100是第一设备或第二设备，输入装置1130可以是麦克风或麦克风阵列。若电子设备1100是单机设备，输入装置1130可以是通信网络连接器，用于从第一设备和第二设备接收所采集的输入信号。输入装置1130还可以包括键盘、鼠标等。输出装置1140可以向外部输出各种信息。输出装置1140可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出装置等。

当然，为了简化，图11中仅示出了该电子设备1100中与本公开有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备1100还可以包括任何其他适当的组件。

示例性计算机程序产品和计算机可读存储介质

除上述方法和设备外，本公开的实施例还可以是计算机程序产品，其包括计算机程序指令，计算机程序指令在被处理器运行时使得处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的视频生成方法中的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本公开的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的视频生成方法中的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本公开的基本原理，但是，在本公开中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。上述公开的具体细节仅是为了示例和便于理解的作用，而非限制，上述细节并不限制本公开为必须采用上述具体的细节来实现。

本说明书中各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言，由于其与方法实施例基本对应，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本公开中涉及的器件、装置、设备的方框图仅作为例示性的例子且不意图要求或暗示必须按照方框图示出的方式进行连接、布置等。如本领域技术人员将认识到的，可按任意方式连接、布置这些器件、装置、设备。诸如“包括”、“包含”、“具有”等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

可能以许多方式来实现本公开的方法和装置。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明，本公开的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本公开实施为记录在记录介质中的程序，这些程序包括用于实现根据本公开的方法的机器可读指令。因而，本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。

还需要指出的是，在本公开的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。

提供所公开的方面的以上描述以使本领域任何技术人员能做出或使用本公开。对这些方面的各种修改对本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本公开的范围。本公开不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本公开的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种视频生成方法，其特征在于，包括：

为虚拟物体确定位姿序列，所述位姿序列包括N个位姿；

2.根据权利要求1所述的方法，其特征在于，所述基于所述M帧第一融合效果图，进行插帧处理，以生成所述位姿序列中的剩余N-M个位姿对应的N-M帧第二融合效果图，包括：

3.根据权利要求2所述的方法，其特征在于，所述对所述M帧截取图像进行插帧处理，以生成所述位姿序列中的剩余N-M个位姿对应的N-M帧插帧图像，包括：

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

基于所述模型损失值，对所述神经网络模型进行训练。

5.根据权利要求1-4中任一所述的方法，其特征在于，

基于所述多帧高动态范围图像，生成静态背景图像；

6.根据权利要求5所述的方法，其中，所述基于所述三维房屋模型和所述房屋纹理贴图，分别将所述虚拟物体以所述M个位姿融合至静态背景图像中，以得到所述M个位姿对应的M帧第一融合效果图，包括：

7.根据权利要求6所述的方法，其中，所述基于所述三维房屋模型和所述房屋纹理贴图，确定所述待放置位置对应的全景光照信息，包括：

确定所述多条射线与所述三维房屋模型的多个相交点；

8.根据权利要求1-4中任一所述的方法，其特征在于，所述为虚拟物体确定位姿序列，包括：

获取虚拟物体的预设运动轨迹信息和预设旋转规律信息；

获取预设视频帧率；

其中，所述目标视频的视频帧率为所述预设视频帧率。

9.一种视频生成装置，其特征在于，包括：

位姿抽取处理，用于对所述位姿序列进行位姿的间隔抽取处理，以得到所述位姿序列中的M个位姿；

10.一种计算机可读存储介质，其上存储有计算机程序指令，其特征在于，所述计算机程序指令被处理器执行时，实现上述权利要求1至8中任一项所述的视频生成方法。