CN116193098A

CN116193098A - 一种三维视频生成方法、装置、设备及存储介质

Info

Publication number: CN116193098A
Application number: CN202310438076.1A
Authority: CN
Inventors: 李志�; 伍琦; 李志刚; 谭龙; 陈宇
Original assignee: Zihai Technology Chengdu Co ltd
Current assignee: Zihai Technology Chengdu Co ltd
Priority date: 2023-04-23
Filing date: 2023-04-23
Publication date: 2023-05-30
Anticipated expiration: 2043-04-23
Also published as: CN116193098B

Abstract

本发明公开了一种三维视频生成方法、装置、设备及存储介质，所述方法包括：拆解接收到的三维视频需求，获得包括目标场景信息、目标对象信息和目标事件信息的结构化需求信息；根据目标场景信息，在模型库中匹配对应的场景资源数据，并基于场景资源数据，生成三维视频场景；根据目标对象信息，在模型库中匹配对应的对象模型；根据目标事件信息，控制对应的对象模型在三维视频场景中执行对应的动作，生成目标三维视频。本发明将三维视频需求拆解为目标场景信息、目标对象信息和目标事件信息，并通过控制目标对象信息在目标场景信息中执行目标事件信息对应的动作来生成三维视频，提高了三维视频生成效率和三维视频质量。

Description

一种三维视频生成方法、装置、设备及存储介质

技术领域

本发明涉及三维视频生成技术领域，尤其涉及到一种三维视频生成方法、装置、设备及存储介质。

背景技术

三维视频是利用三维软件根据现实需求，在计算机中建立一个虚拟的世界，技术人员在这个虚拟的三维世界中按照要表现物体的真实尺寸，搭建场景以及建立模型，制作逼真的材质、灯光，配置摄像机运动效果，这些完成以后让计算机运算生产，后期合成编辑输出完整视频。一段优质的三维视频融合了美学、计算机技术、音乐、营销策划。

现有技术中提出了一种三维视频生成方法，例如CN202011158135.2，将已有的图像或者视频信息内容作为输入源，利用人工智能技术，预测下一个时刻画面可能呈现的内容，重复进行上述步骤已生成完整视频。

现有技术中还提出了另一种三维视频生成方法，动画师通过在时间轴上设置关键帧来定义物体或角色的运动和形变。在两个关键帧之间的时间内，软件会自动计算和生成中间帧，实现平滑过渡。这种技术在各种三维动画制作软件中都得到了广泛应用，如Blender、Maya、3ds Max等，

然而，上述三维视频生成方法具有如下缺点：

缺点一：没有生成三维视频内容的中间文件，任何一些小的修改都是会导致全部重新生成。缺点二：无法在生成过程中，加入人工修正干预。缺点三：视频帧之间不存在三维存续关系，因此会导致生成视频出现跳帧、抖动等问题。缺点四：所有的计算过程均在二维中呈现，无法扩展到三维环境。因此，如何提高三维视频生成效率，提升三维视频质量，是一个亟需解决的技术问题。

上述内容仅用于辅助理解本发明的技术方案，并不代表承认上述内容是现有技术。

发明内容

本发明的主要目的在于提供一种三维视频生成方法、装置、设备及存储介质，旨在解决目前三维视频生成工作量大、效率不高、三维视频质量不高的技术问题。

为实现上述目的，本发明提供一种三维视频生成方法，所述方法包括以下步骤：

在接收到三维视频需求时，拆解所述三维视频需求，获得对应的结构化需求信息；其中，所述结构化需求信息包括目标场景信息、目标对象信息和目标事件信息；

根据所述目标场景信息，在模型库中匹配对应的场景资源数据，并基于所述场景资源数据，生成三维视频场景；

根据所述目标对象信息，在模型库中匹配对应的对象模型；

根据所述目标事件信息，控制对应的所述对象模型在所述三维视频场景中执行对应的动作；

基于所述对象模型在所述三维视频场景中执行的动作，生成目标三维视频。

可选的，所述三维视频需求为描述目标三维视频的自然语言；所述在接收到三维视频需求时，拆解所述三维视频需求步骤，具体包括：在接收到三维视频需求时，采用自然语言处理工具对所述三维视频需求进行处理，拆解获得所述三维视频需求中的结构化需求信息。

可选的，所述方法还包括：

获取标准需求信息，采用结构化Json格式对所述标准需求信息进行存储，生成标准需求信息库，建立所述标准需求信息库和所述自然语言处理工具的调用路径关系；

在接收到三维视频需求时，所述自然语言处理工具在所述标准需求信息库中匹配所述三维视频需求对应的结构化需求信息。

其中，所述标准需求信息库中存储有若干个标准场景信息、若干个标准对象信息和若干个标准事件信息；所述结构化需求信息为所述标准需求信息库中与三维视频需求匹配度最高的标准场景信息、标准对象信息和标准事件信息。

可选的，所述方法还包括：

根据获取的场景资源数据和对象模型，建立模型库；

其中，所述模型库中的场景资源数据与标准需求信息库中的标准场景信息具有对应关系，所述模型库中的对象模型与标准需求信息库中的标准对象信息具有对应关系。

可选的，基于所述场景资源数据，生成三维视频场景步骤，具体包括：调用场景生成脚本，利用所述目标场景信息对应的场景资源数据，生成三维视频场景。

可选的，根据所述目标事件信息，控制对应的所述对象模型在所述三维视频场景中执行对应的动作步骤，具体包括：

根据所述目标事件信息，在预建立的模型驱动指令库中提取所述目标事件信息对应的模型驱动指令，生成模型驱动指令列表；

调用模型驱动脚本，遍历所述模型驱动指令列表，根据所述模型驱动指令列表中的每一条模型驱动指令，驱动对应的对象模型执行对应的动作。

可选的，所述方法还包括：

获取人机交互输入的补充需求信息，利用所述补充需求信息对所述结构化需求信息进行调整；和/或

获取人机交互输入的人工驱动信息，根据所述人工驱动信息和所述目标事件信息，控制对应的所述对象模型在所述三维视频场景中执行对应的动作。

此外，为了实现上述目的，本发明还提供了一种三维视频生成装置，所述三维视频生成装置包括：

拆解模块，用于在接收到三维视频需求时，拆解所述三维视频需求，获得对应的结构化需求信息；其中，所述结构化需求信息包括目标场景信息、目标对象信息和目标事件信息；

第一匹配模块，用于根据所述目标场景信息，在模型库中匹配对应的场景资源数据，并基于所述场景资源数据，生成三维视频场景；

第二匹配模块，用于根据所述目标对象信息，在模型库中匹配对应的对象模型；

控制模块，用于根据所述目标事件信息，控制对应的所述对象模型在所述三维视频场景中执行对应的动作；

生成模块，用于基于所述对象模型在所述三维视频场景中执行的动作，生成目标三维视频。

此外，为了实现上述目的，本发明还提供了一种三维视频生成设备，所述设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的三维视频生成程序，所述三维视频生成程序被所述处理器执行时实现上述的三维视频生成方法的步骤。

此外，为了实现上述目的，本发明还提供了一种存储介质，所述存储介质上存储有三维视频生成程序，所述三维视频生成程序被处理器执行时实现上述的三维视频生成方法的步骤。

基于上述技术方案，本发明实施例至少可以产生如下技术效果：

本发明实施例提出的一种三维视频生成方法、装置、设备及存储介质，所述方法包括：在接收到三维视频需求时，拆解所述三维视频需求，获得对应的结构化需求信息；其中，所述结构化需求信息包括目标场景信息、目标对象信息和目标事件信息；根据所述目标场景信息，在模型库中匹配对应的场景资源数据，并基于所述场景资源数据，生成三维视频场景；根据所述目标对象信息，在模型库中匹配对应的对象模型；根据所述目标事件信息，控制对应的所述对象模型在所述三维视频场景中执行对应的动作，生成目标三维视频。本发明将三维视频需求拆解为目标场景信息、目标对象信息和目标事件信息，并通过控制目标对象信息在目标场景信息中执行目标事件信息对应的动作来生成三维视频，提高了三维视频生成效率和三维视频质量。具体来说，本方法具有如下优点：

（1）全流程自动化：本方法可在基于自然语言处理工具、UnrealEngine等平台支持的技术基础上，实现从模糊需求到三维视频生成的全流程自动化处理；

（2）高自由度人工修订：本方法将传统三维视频制作工序拆解，在每个步骤上分别结合应用自动化处理、人工智能处理等技术，能够使人工在任意阶段参与对自动化处理结果进行修订，最大限度减少重复工作量；

（3）全流程数据保持：本方法会保留自动生成过程中所有过程数据，在之后的修改或使用中可直接二次利用。同时也可将过程数据直接进行人为二次加工，得到更加丰富多样的视频结果；

（4）高维元数据：本方法在生成视频过程中，首先构建了一个三维的虚拟环境作为基础元数据，后续可拓展性引用到诸多三维领域，如元宇宙、虚拟现实、游戏等；

（5）不存在抖动帧：本方法首先构建了一个虚拟三维环境，之后在该环境中进行虚拟视景拍摄，每一帧图像均是有三维环境平滑渲染而来，因此不存在抖动帧的问题。

附图说明

图1为本发明实施例方案涉及的硬件运行环境的装置结构示意图；

图2为本发明三维视频生成方法的实施例的流程示意图；

图3为本发明实施例中一种三维视频生成装置的结构框图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如图1所示，图1是本发明实施例方案涉及的硬件运行环境的装置结构示意图。

如图1所示，该装置可以包括：处理器1001，例如CPU，通信总线1002，用户接口1003，网络接口1004，存储器1005。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选的用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的装置的结构并不构成对装置的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及三维视频生成程序。

在图1所示的终端中，网络接口1004主要用于连接后台服务器，与后台服务器进行数据通信；用户接口1003主要用于连接客户端(用户端)，与客户端进行数据通信；而处理器1001可以用于调用存储器1005中存储的三维视频生成程序，并执行以下操作：

根据所述目标对象信息，在模型库中匹配对应的对象模型；

本发明应用于装置的具体实施例与下述应用三维视频生成方法的各实施例基本相同，在此不作赘述。

需要说明的是，现有时间轴基于关键帧的动画制作技术的主要步骤如下：

（1）创建模型：首先需要为动画创建一个三维模型，可以是角色、场景物体或其他需要动画的对象。这个模型需要建立一个网格（mesh）结构，用于描述物体的形状和细节。

（2）绑定骨骼：对于角色动画，通常需要为模型绑定一个骨骼系统。这个骨骼系统是由多个关节（joints）和骨骼（bones）组成，用于驱动角色的运动和形变。在这个过程中，需要对骨骼和模型进行权重绑定，以确保骨骼的运动可以正确地影响模型的形状。

（3）设置关键帧：在时间轴上为物体或角色的属性（如位置、旋转、缩放等）设置关键帧。关键帧是动画过程中的重要时刻，通常代表物体或角色状态的明显变化。在关键帧之间，软件会自动插值生成中间帧，实现平滑过渡。

（4）调整动画曲线：在设置关键帧之后，可以进一步调整动画曲线，以更好地控制物体或角色的运动。动画曲线用于描述属性随时间的变化，可以通过修改曲线的形状和切线来实现不同的运动效果。

（5）添加细节和特效：在完成基本动画之后，可以进一步为动画添加细节和特效。这可能包括表情动画、布料模拟、粒子系统、光影效果等。这些细节和特效可以提升动画的真实感和视觉表现力。

（6）渲染和输出：在动画制作完成后，需要通过渲染将三维场景转换为二维图像或视频。渲染过程可能涉及纹理、光照、阴影等细节的计算。渲染完成后，可以将动画输出为常见的图像或视频格式，以便进行播放和分享。

然而，现有的时间轴基于关键帧的动画制作技术，没有生成三维视频内容的中间文件，任何一些小的修改都是会导致全部重新生成；无法在生成过程中，加入人工修正干预；同时，视频帧之间不存在三维存续关系，因此会导致生成视频出现跳帧、抖动等问题；并且，所有的计算过程均在二维中呈现，无法扩展到三维环境。

因此，本发明实施例提供了一种三维视频生成方法，参照图2，图2为本发明三维视频生成方法的实施例的流程示意图。

本实施例中，所述三维视频生成方法包括以下步骤：

步骤S100：在接收到三维视频需求时，拆解所述三维视频需求，获得对应的结构化需求信息；其中，所述结构化需求信息包括目标场景信息、目标对象信息和目标事件信息；

步骤S200：根据所述目标场景信息，在模型库中匹配对应的场景资源数据，并基于所述场景资源数据，生成三维视频场景；

步骤S300：根据所述目标对象信息，在模型库中匹配对应的对象模型；

步骤S400：根据所述目标事件信息，控制对应的所述对象模型在所述三维视频场景中执行对应的动作；

步骤S500：基于所述对象模型在所述三维视频场景中执行的动作，生成目标三维视频。

需要说明的是，所述三维视频需求为描述目标三维视频的自然语言。

在此基础上，在接收到三维视频需求时，拆解所述三维视频需求步骤，具体包括：在接收到三维视频需求时，采用自然语言处理工具对所述三维视频需求进行处理，拆解获得所述三维视频需求中的结构化需求信息。

在优选的实施例中，所述方法还包括：获取标准需求信息，采用结构化Json格式对所述标准需求信息进行存储，生成标准需求信息库，建立所述标准需求信息库和所述自然语言处理工具的调用路径关系；在接收到三维视频需求时，所述自然语言处理工具在所述标准需求信息库中匹配所述三维视频需求对应的结构化需求信息。

容易理解的，本实施例中，所述标准需求信息库中存储有若干个标准场景信息、若干个标准对象信息和若干个标准事件信息；所述结构化需求信息为所述标准需求信息库中与三维视频需求匹配度最高的标准场景信息、标准对象信息和标准事件信息。

需要说明的是，在获得自然语言处理工具输出的结构化需求信息时，还可通过获取人机交互输入的补充需求信息，利用所述补充需求信息对所述结构化需求信息进行调整，进而采用人工的方式针对实际需求信息进行进一步完善补充。

在优选的实施例中，所述方法还包括：根据获取的场景资源数据和对象模型，建立模型库。

需要说明的是，所述模型库中的场景资源数据与标准需求信息库中的标准场景信息具有对应关系，所述模型库中的对象模型与标准需求信息库中的标准对象信息具有对应关系。

在此基础上，基于所述场景资源数据，生成三维视频场景步骤，具体包括：调用场景生成脚本，利用所述目标场景信息对应的场景资源数据，生成三维视频场景。需要说明的是，本实施例中，可通过在UnrealEngine或其他任意三维引擎中实现三维视频场景的生成。

同时，根据所述目标事件信息，控制对应的所述对象模型在所述三维视频场景中执行对应的动作步骤，具体包括：根据所述目标事件信息，在预建立的模型驱动指令库中提取所述目标事件信息对应的模型驱动指令，生成模型驱动指令列表；调用模型驱动脚本，遍历所述模型驱动指令列表，根据所述模型驱动指令列表中的每一条模型驱动指令，驱动对应的对象模型执行对应的动作。

需要说明的是，在又一优选的实施例中，在驱动对象模型执行对应的动作时，还可通过获取人机交互输入的人工驱动信息，根据所述人工驱动信息和所述目标事件信息，共同控制对应的所述对象模型在所述三维视频场景中执行对应的动作。由此，通过加入人机交互内容，进行进一步事件驱动。

在优选的实施例中，在基于所述对象模型在所述三维视频场景中执行的动作，生成目标三维视频时，可通过调用自动化相机视角，控制相机位置及姿态，渲染生成对应视频。

在本实施例中，提供了一种三维视频生成方法，通过将三维视频需求拆解为目标场景信息、目标对象信息和目标事件信息，并通过控制目标对象信息在目标场景信息中执行目标事件信息对应的动作来生成三维视频，提高了三维视频生成效率和三维视频质量。

参照图3，图3为本发明三维视频生成装置实施例的结构框图。

如图3所示，本发明实施例提出的三维视频生成装置包括：

拆解模块10，用于在接收到三维视频需求时，拆解所述三维视频需求，获得对应的结构化需求信息；其中，所述结构化需求信息包括目标场景信息、目标对象信息和目标事件信息；

第一匹配模块20，用于根据所述目标场景信息，在模型库中匹配对应的场景资源数据，并基于所述场景资源数据，生成三维视频场景；

第二匹配模块30，用于根据所述目标对象信息，在模型库中匹配对应的对象模型；

控制模块40，用于根据所述目标事件信息，控制对应的所述对象模型在所述三维视频场景中执行对应的动作；

生成模块50，用于基于所述对象模型在所述三维视频场景中执行的动作，生成目标三维视频。

本发明三维视频生成装置的其他实施例或具体实现方式可参照上述各方法实施例，此处不再赘述。

此外，本发明还提出一种三维视频生成设备，所述三维视频生成设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的三维视频生成程序，其中：所述三维视频生成程序被所述处理器执行时实现本发明各个实施例所述的三维视频生成方法。

本申请三维视频生成设备的具体实施方式与上述三维视频生成方法各实施例基本相同，在此不再赘述。

此外，本发明还提出一种可读存储介质，所述可读存储介质包括计算机可读存储介质，其上存储有三维视频生成程序。所述可读存储介质可以是图1的终端中的存储器1005，也可以是如ROM(Read-Only Memory，只读存储器)/RAM(Random Access Memory，随机存取存储器)、磁碟、光盘中的至少一种，所述可读存储介质包括若干指令用以使得一台具有处理器的三维视频生成设备执行本发明各个实施例所述的三维视频生成方法。

本申请可读存储介质中三维视频生成程序的具体实施方式与上述三维视频生成方法各实施例基本相同，在此不再赘述。

可以理解的是，在本说明书的描述中，参考术语“一实施例”、“另一实施例”、“其他实施例”、或“第一实施例～第N实施例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种三维视频生成方法，其特征在于，所述方法包括以下步骤：

根据所述目标对象信息，在模型库中匹配对应的对象模型；

2.如权利要求1所述的三维视频生成方法，其特征在于，所述三维视频需求为描述目标三维视频的自然语言；所述在接收到三维视频需求时，拆解所述三维视频需求步骤，具体包括：在接收到三维视频需求时，采用自然语言处理工具对所述三维视频需求进行处理，拆解获得所述三维视频需求中的结构化需求信息。

3.如权利要求2所述的三维视频生成方法，其特征在于，所述方法还包括：

在接收到三维视频需求时，所述自然语言处理工具在所述标准需求信息库中匹配所述三维视频需求对应的结构化需求信息；

4.如权利要求1所述的三维视频生成方法，其特征在于，所述方法还包括：

根据获取的场景资源数据和对象模型，建立模型库；

5.如权利要求4所述的三维视频生成方法，其特征在于，基于所述场景资源数据，生成三维视频场景步骤，具体包括：调用场景生成脚本，利用所述目标场景信息对应的场景资源数据，生成三维视频场景。

6.如权利要求4所述的三维视频生成方法，其特征在于，根据所述目标事件信息，控制对应的所述对象模型在所述三维视频场景中执行对应的动作步骤，具体包括：

7.如权利要求1所述的三维视频生成方法，其特征在于，所述方法还包括：

8.一种三维视频生成装置，其特征在于，所述三维视频生成装置包括：

9.一种三维视频生成设备，其特征在于，所述三维视频生成设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的三维视频生成程序，所述三维视频生成程序被所述处理器执行时实现如权利要求1至7中任一项所述的三维视频生成方法的步骤。

10.一种存储介质，其特征在于，所述存储介质上存储有三维视频生成程序，所述三维视频生成程序被处理器执行时实现如权利要求1至7中任一项所述的三维视频生成方法的步骤。