CN117082304A

CN117082304A - 视频生成方法、装置、计算机设备及存储介质

Info

Publication number: CN117082304A
Application number: CN202311034608.1A
Authority: CN
Inventors: 洪嘉慧
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2023-08-16
Filing date: 2023-08-16
Publication date: 2023-11-17

Abstract

本申请提供了一种视频生成方法、装置、终端及存储介质，属于视频处理技术领域。本申请实施例提供的方法，通过基于脚本中的关键信息，从知识库中获取与该关键信息匹配的视频片段，基于该关键信息对视频片段进行剪辑，得到该待生成视频，并通过显示供用户进行预览并修改的界面的方式，为用户提供辅助生成功能，实现了基于AI(Artificial Intelligence，人工智能)技术的视频自动生成，提高了视频生成的自动化程度和效率，提供了更优的用户体验。

Description

视频生成方法、装置、计算机设备及存储介质

技术领域

本申请涉及视频处理领域，特别涉及一种视频生成方法、装置、计算机设备及存储介质。

背景技术

随着视频平台的普及，越来越多的用户在网上进行创作和上传视频。用户上传视频前需要先生成视频，因此，如何提高视频生成效率是本领域研究的重点。

目前，通常采用的视频生成方式是运用视频生成软件，一般的视频生成软件以手工操作为主，用户可以上传原始视频，并基于自己的创作想法，通过各种操作，来为原始视频添加文本、图片、音乐等元素生成视频。

但是，上述技术方案依赖于用户基于自身的需求通过多种类型的操作，来生成视频，生成视频的效率较低。

发明内容

本申请实施例提供了一种视频生成方法、装置、终端及存储介质，用于可以实现基于AI技术的视频自动生成，提升了视频生成的自动化程度和效率，提供了更优的用户体验，所述技术方案如下：

一方面，提供了一种视频生成方法，所述方法包括：

从输入的脚本中提取出待生成视频的关键信息，所述关键信息指示所述视频的框架结构和情感特征，所述框架结构包括所述视频的多个拍摄场景、每个拍摄场景中的拍摄对象以及运镜方式；

基于所述关键信息，从知识库中获取多个与所述关键信息匹配的视频片段，所述知识库包括多个视频片段模板，用于获取所述多个视频片段；

基于所述关键信息，对所述多个视频片段进行剪辑，得到所述待生成视频。

在一些实施例中，所述从输入的脚本中提取出待生成视频的关键信息包括：

对所述脚本中的场景列进行识别，得到所述场景列所包含的多个拍摄场景；

针对识别到的所述拍摄场景，提取与所述拍摄场景位于同一行内的拍摄对象和对应的运镜方式；

对所述脚本进行识别，得到所述脚本的主题和所述视频的叙述逻辑。

在一些实施例中，所述基于所述关键信息，从知识库中获取多个与所述关键信息匹配的视频片段包括：

基于所述多个拍摄场景和知识库中的视频片段模板，获取多个第一视频片段，所述第一视频片段属于所述多个拍摄场景；

从所述多个第一视频片段中识别出多个第二视频片段，所述第二视频片段包括所述视频场景中拍摄对象；

从所述多个第二视频片段中识别出与所述运镜方式匹配的多个第三视频片段。

在一些实施例中，所述基于所述关键信息，对所述多个视频片段进行剪辑，得到所述待生成视频包括：

基于所述框架结构，对所述多个视频片段执行片段剪辑任务，得到初始视频，所述片段剪辑任务包括对所述多个视频片段进行裁剪、拼接、调整；

基于所述关键信息，生成视频包装素材，所述视频包装素材用于对所述多个视频片段进行包装；

基于所述视频包装素材对所述初始视频进行包装，得到所述待生成视频。

在一些实施例中，所述基于所述框架结构，对所述多个视频片段执行片段剪辑任务，得到初始视频包括：

基于所述情感特征，确定所述多个视频片段的风格，基于所述多个视频片段的风格以及所述关键信息，裁剪所述多个视频片段；

基于所述框架结构，确定所述多个视频片段对应于所述待生成视频的叙事逻辑，基于所述多个视频片段对应于所述待生成视频的叙事逻辑，拼接所述多个视频片段。

在一些实施例中，所述基于所述关键信息，生成视频包装素材包括：

基于所述关键信息中的情感特征，生成视频包装素材，所述视频包装素材用于对所述多个视频片段进行包装。

在一些实施例中，所述基于所述关键信息中的情感特征，生成视频包装素材包括下述至少一项：

基于所述脚本，获取字幕，基于所述字幕以及所述情感特征，获取语音配音；

基于所述情感特征，确定所述多个视频片段的主题和调性，基于所述多个视频片段的主题和调性，获取与所述多个视频片段的主题和调性匹配的背景音乐、标签、标题、滤镜中的至少一种。

在一些实施例中，基于所述脚本，获取字幕，基于所述字幕以及所述情感特征，获取语音配音，包括：

基于所述脚本中的语义信息，获取所述多个视频片段的字幕；

基于所述字幕，获取语音配音。

在一些实施例中，所述基于所述脚本中的语义信息，获取所述多个视频片段的字幕包括：

基于所述脚本中的语义信息，获取与所述多个视频片段匹配的文字片段，所述文字片段按照时间进行切分，得到所述多个视频片段的字幕。

基于所述多个视频片段之间的转换点，为所述多个视频片段添加转场特效。

一方面，提供了一种视频生成装置，所述装置包括：

关键信息提取模块，被配置为从输入的脚本中提取出待生成视频的关键信息，所述关键信息指示所述视频的框架结构和情感特征，所述框架结构包括所述视频的多个拍摄场景、每个拍摄场景中的拍摄对象以及运镜方式；

视频片段获取模块，被配置为基于所述关键信息，从知识库中获取多个与所述关键信息匹配的视频片段，所述知识库包括多个视频片段模板，用于获取所述多个视频片段；

剪辑模块，被配置为基于所述关键信息，对所述多个视频片段进行剪辑，得到所述待生成视频。

在一些实施例中，所述关键信息提取模块被配置为执行：

在一些实施例中，所述视频片段获取模块被配置为执行：

在一些实施例中，所述剪辑模块包括下述至少一项：

剪辑单元，被配置为基于所述框架结构，对所述多个视频片段执行片段剪辑任务，得到初始视频，所述片段剪辑任务包括对所述多个视频片段进行裁剪、拼接、调整；

包装素材生成单元，被配置为基于所述关键信息，生成视频包装素材，所述视频包装素材用于对所述多个视频片段进行包装；

包装单元，被配置为基于所述视频包装素材对所述初始视频进行包装，得到所述待生成视频。

在一些实施例中，所述剪辑单元包括下述至少一项：

裁剪子单元，被配置为基于所述情感特征，确定所述多个视频片段的风格，基于所述多个视频片段的风格以及所述关键信息，裁剪所述多个视频片段。

拼接子单元，被配置为基于所述框架结构，确定所述多个视频片段对应于所述待生成视频的叙事逻辑，基于所述多个视频片段对应于所述待生成视频的叙事逻辑，拼接所述多个视频片段；

在一些实施例中，所述包装素材生成单元被配置为执行：

在一些实施例中，所述包装素材生成单元包括下述至少一项：

语音配音获取子单元，被配置为基于所述脚本，获取字幕，基于所述字幕以及所述情感特征，获取语音配音；

其他素材获取子单元，被配置为基于所述情感特征，确定所述多个视频片段的主题和调性，基于所述多个视频片段的主题和调性，获取与所述多个视频片段的主题和调性匹配的背景音乐、标签、标题、滤镜中的至少一种。

在一些实施例中，所述语音配音获取子单元包括：

字幕获取子单元，被配置为基于所述脚本中的语义信息，获取所述多个视频片段的字幕；

字幕到配音子单元，被配置为基于所述字幕，获取语音配音。

在一些实施例中，所述字幕获取子单元被配置为执行：

在一些实施例中，所述包装素材生成单元还被配置为执行：

另一方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器用于存储至少一段计算机程序，所述至少一段计算机程序由所述处理器加载并执行以实现本申请实施例中的视频生成方法所执行的操作。

另一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一段计算机程序，所述至少一段计算机程序由处理器加载并执行以实现如本申请实施例中视频生成方法所执行的操作。

另一方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机程序代码，该计算机程序代码存储在计算机可读存储介质中，计算机设备的处理器从计算机可读存储介质读取该计算机程序代码，处理器执行该计算机程序代码，使得该计算机设备执行上述任一方面的各种可选实现方式中提供的视频生成方法。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本申请实施例提供的一种视频生成方法的实施环境示意图；

图2是根据本申请实施例提供的一种视频生成方法流程图；

图3是根据本申请实施例提供的一种视频生成方法流程图；

图4是根据本申请实施例提供的一种视频生成方法的流程示意图；

图5是根据本申请实施例提供的一种视频生成装置的框图；

图6是根据本申请实施例提供的一种计算机设备的结构示意图；

图7是根据本申请实施例提供的一种服务器的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

本申请中术语“第一”“第二”等字样用于对作用和功能基本相同的相同项或相似项进行区分，应理解，“第一”、“第二”、“第n”之间不具有逻辑或时序上的依赖关系，也不对数量和执行顺序进行限定。

本申请中术语“至少一个”是指一个或多个，“多个”的含义是指两个或两个以上。

需要说明的是，本申请所涉及的信息(包括但不限于用户设备信息、用户个人信息等)、数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)以及信号，均为经用户授权或者经过各方充分授权的，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。例如，本申请中涉及到的视频都是在充分授权的情况下获取的。

为了便于理解，以下，对本申请涉及的术语进行解释。

语义理解技术：利用自然语言处理和知识图谱，分析文本或语音的语义，理解其中的概念、事件和逻辑，是人工智能的核心技术之一。

计算机视觉：利用计算机软硬件自动分析和理解数字图像和视频，识别其中的物体、人脸、场景等要素，可以用于内容理解、检测、跟踪等，是实现智能视频分析的技术基石。

自然语言处理：自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学和数学于一体的科学。自然语言处理并不是一般地研究自然语言，而在于研制能有效地实现自然语言通信的计算机系统，特别是其中的软件系统。因而它是计算机科学的一部分。自然语言处理主要应用于机器翻译、舆情监测、自动摘要、观点提取、文本分类、问题回答、文本语义对比和语音识别等方面。

图1是根据本申请实施例提供的一种视频生成方法的实施环境示意图。参见图1，该实施环境包括终端101和服务器102。

终端101和服务器102能够通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

在一些实施例中，终端101是智能手机、平板电脑、笔记本电脑、台式计算机、智能手表、智能语音交互设备等，但并不局限于此。终端101安装和运行有支持视频生成的应用程序。该应用程序为视频应用、视频剪辑应用、视频应用中的任意一种。示意性的，终端101是用户使用的终端，用户使用终端101触发视频生成功能，以实现对视频的生成。

在一些实施例中，服务器102是独立的物理服务器，也能够是多个物理服务器构成的服务器集群或者分布式系统，还能够是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network，内容分发网络)、大数据和人工智能平台等基础云计算服务的云服务器。服务器102用于为支持视频生成的应用程序提供后台服务。在一些实施例中，服务器102承担主要视频生成工作，终端101承担次要视频生成工作；或者，服务器102承担次要视频生成工作，终端101承担主要视频生成工作；或者，服务器102和终端101二者之间采用分布式计算架构进行协同视频生成。

本领域技术人员可以知晓，上述终端的数量可以更多或更少。比如上述终端可以仅为一个，或者上述终端为几十个或几百个，或者更多数量。本申请实施例对终端的数量和设备类型不加以限定。

在一些实施例中，上述的无线网络或有线网络使用标准通信技术和/或协议。网络通常为因特网、但也能够是任何网络，包括但不限于局域网(Local Area Network，LAN)、城域网(Metropolitan Area Network，MAN)、广域网(Wide Area Network，WAN)、移动、有线或者无线网络、专用网络或者虚拟专用网络的任何组合。在一些实施例中，使用包括超文本标记语言(Hyper Text Mark-up Language，HTML)、可扩展标记语言(Extensible MarkupLanguage，XML)等的技术和/或格式来代表通过网络交换的数据。此外还能够使用诸如安全套接字层(Secure Socket Layer，SSL)、传输层安全(Transport Layer Security，TLS)、虚拟专用网络(Virtual Private Network，VPN)、网际协议安全(Internet ProtocolSecurity，IPsec)等常规加密技术来加密所有或者一些链路。在另一些实施例中，还能够使用定制和/或专用数据通信技术取代或者补充上述数据通信技术。

图2是根据本申请实施例提供的一种视频生成方法流程图，如图2所示，在本申请实施例中以服务器为例进行说明。该方法包括以下步骤：

在步骤201中，从输入的脚本中提取出待生成视频的关键信息，该关键信息指示该视频的框架结构和情感特征，该框架结构包括该视频的多个拍摄场景、每个拍摄场景中的拍摄对象以及运镜方式。

其中，脚本能够体现视频的风格、主题、视频剪辑要求和叙事逻辑等方面的相关信息，通过基于自然语言处理等技术，从脚本中提取出关键信息，能够获得生成视频所需的框架结构和情感特征，从而得到更符合脚本要求的视频。

其中，拍摄场景用于表示视频所包括的多个不同环境，可以按照不同地点、同一地点的不同时间段、不同地点的同一时间段进行划分，例如，办公室、会议室等；该拍摄场景中的拍摄对象是指被拍摄的对象，例如，在办公室场景下的员工与老板；运镜方式是指镜头的拍摄角度，例如，近景拍摄或是先从某个角度拍摄再切换为某个角度。

其中，情感特征用于表示脚本所生成视频对应的情感倾向，例如，快乐、悲伤用于描述脚本整体情感氛围的特征等，基于对该情感特征的分析，还能得到脚本对应的风格，如具有快乐情感特征的脚本风格为欢快、轻松和正能量，具有悲伤情感特征的脚本风格为沉重。

在步骤202中，基于该关键信息，从知识库中获取多个与该关键信息匹配的视频片段，该知识库包括多个视频片段模板。

其中，该知识库包括大量视频片段模板，该大量视频片段模板包括用户已有的视频素材、网络上可获取的视频素材和知识库系统生成或推荐的视频素材，该大量视频片段模板用于生成该视频，基于脚本的关键信息，得到关键词，该关键词用于检索知识库中的该大量视频素材，通过在知识库中检索，获取到符合脚本的多个视频片段。

该知识库中每个模板对应于拍摄场景、拍摄对象以及运镜方式，在一些实施例中，一个模板对应多个关键词，该关键词包括模板所展示的拍摄场景、模板中存在的拍摄对象，还有的关键字包括模板中对应拍摄场景运用的运镜方式，因此，基于该关键词在知识库中进行检索，以获取符合关键信息的该多个视频片段。

在步骤203中，基于该关键信息，对该多个视频片段进行剪辑，得到该待生成视频。

其中，该关键信息包括框架结构，基于该框架结构，对得到的该多个视频片段进行进一步地剪辑，使得最终待生成视频更加符合脚本的主题、风格，该剪辑包括对该多个视频片段进行拼接、裁剪以及包装，以便实现调整时长、提取高亮片段、添加背景音乐、添加滤镜、添加语音配音、添加字幕和标签等操作。

该拼接、裁剪操作用于实现该多个视频片段的组织，也即是，用于从检索得到的该多个视频片段中筛选出符合关键信息的用于进一步剪辑的视频片段，并对筛选出的视频片段进行排序，该排序体现为视频片段在该待生成视频中的播放顺序；该包装操作用于基于视频包装素材对该多个视频片段进行包装，该视频包装素材是指能够对视频的视听效果进行包装的素材，例如，能够体现视频画面以及场景的滤镜、背景音乐、字幕和标签等。

本申请实施例提供的方法，通过基于脚本中的关键信息，从知识库中获取与该关键信息匹配的视频片段，基于该关键信息对视频片段进行剪辑，得到该待生成视频，并通过显示供用户进行预览并修改的界面的方式，为用户提供辅助生成功能，实现了基于AI技术的视频自动生成，提高了视频生成的自动化程度和效率，提供了更优的用户体验。

图3是根据本申请实施例提供的一种视频生成方法流程图，如图3所示，在本申请实施例中以服务器为例进行说明。该方法包括以下步骤：

在步骤301中，获取输入的脚本。

其中，该脚本是以文字形式表达。在一些实施例中，用户输入脚本的具体内容，应用程序通过显示用户输入脚本的方式，为用户提供反馈，其中，用户启动应用程序后，该应用程序向用户展示输入脚本界面，该界面主体为输入文字的文本框，用户在该文本框中输入文字，终端检测到用户输入的文字，获取输入的文字，再对用户输入的文字进行进一步分析。

在一些实施例中，该脚本可以基于语音形式得到，用户启动应用程序后，输入语音内容，终端检测到用户输入的语音内容，得到该语音内容对应的语音文本，该语音文本即为该脚本。

在一些实施例中，用户启动应用程序后输入图像和/或视频，终端基于该图像和/或视频的语义信息、画面信息以及音频信息中至少一种，得到该图像和/或视频对应的文本，该文本也即为脚本。

在步骤302中，基于输入的脚本，提取出待生成视频的关键信息，该关键信息指示该视频的框架结构和情感特征，该框架结构包括该视频的多个拍摄场景、每个拍摄场景中的拍摄对象以及运镜方式。

其中，该框架结构可以基于表格的形式展示，表格的列用来表示框架结构中不同的脚本属性，也即是，框架结构中包括的拍摄场景、拍摄对象、以及运镜方式，在一些实施例中，该脚本属性还可以包括对话内容和场景音效等，表格的行表示基于一个拍摄场景拍摄包括的素材，也即是，在某一拍摄场景下，对应的拍摄对象以及运镜方式，还有对话内容和音效等。其中，一个拍摄场景可以对应多个拍摄对象，不同的拍摄对象可以对应于不同的对话内容以及运镜方式，本实施例对此不做限定。

在一些实施例中，拍摄场景用于表示视频所包括的多个不同环境，可以按照不同地点、同一地点的不同时间段、不同地点的同一时间段进行划分，例如，办公室、会议室等；该拍摄场景中的拍摄对象是指被拍摄的对象，例如，在办公室场景下的员工与老板；运镜方式是指镜头的拍摄角度，例如，近景拍摄或是先从某个角度拍摄再切换为某个角度。

在一些实施例中，情感特征用于表示脚本所生成视频对应的情感倾向，例如，快乐、悲伤用于描述脚本整体情感氛围的特征等。

在一些实施例中，该步骤302包括下述步骤302A-302C：

302A：对该脚本中的场景列进行识别，得到该场景列所包含的多个拍摄场景。

脚本包括多行多列，其中，每列对应于框架结构中的一个脚本属性，基于框架结构中脚本属性的拍摄场景属性，对拍摄场景属性中的具体内容进行语义分析，识别出该拍摄场景属性所包括的具体内容，该拍摄场景属性即为脚本中的场景列，例如，在一个主题为“旅游”的脚本中，其拍摄场景属性具体内容可以包括游乐场、海边和草原等，也即是，该场景列有上述三个拍摄场景，基于该三个拍摄场景，可以对应的配置拍摄对象以及运镜方式。

302B：针对识别到的该拍摄场景，提取与该拍摄场景位于同一行内的拍摄对象和对应的运镜方式。

基于识别出的不同拍摄场景，针对每一个拍摄场景，横向识别，确定与每一个拍摄场景对应的拍摄对象以及运镜方式，例如，在“办公室”拍摄场景中，拍摄对象可以包括公司老板、程序员和市场专员等，而对应的该拍摄场景的运镜方式可以为：办公室内景，镜头从公司老板的角度拍摄，切换到其他人的脸部特写，再切换到办公桌上的文物等物品。

其中，该多个不同的拍摄对象可以有对应的对话内容，该拍摄场景可以有对应的音效，如“办公室内的环境声音”，该拍摄场景可以有一个或多个拍摄对象，也可以有一个或多个运镜方式，拍摄对象的对话内容以及拍摄场景的音效可自由设定，本申请实施例对拍摄场景拍摄包括的素材不做限定。

302C：对该脚本进行识别，得到该脚本的主题和该视频的叙述逻辑。

针对步骤302识别得到的脚本的关键信息，可得到脚本对应的情感特征，基于该情感特征，得到脚本对应的风格，例如欢快、轻松、沉重等，该风格可用于指示脚本的主题，并且基于该关键信息中的框架结构，得到待生成视频的叙述逻辑，其中，叙事逻辑可表示事件发生的顺序。

在一些实施例中，框架结构以表格的形式展示，通过表格中拍摄场景属性中依次排列的多个不同拍摄场景，可以确定待生成视频中不同拍摄场景的出现顺序，每一个拍摄场景中的拍摄对象也有顺序排列，该顺序排列用于指示在同一个拍摄场景中不同拍摄对象出场顺序，针对该不同拍摄场景的出现顺序以及在同一场景中不同拍摄对象的出场顺序，可以确定该待生成视频的叙事逻辑，如视频的开头为老板和员工在办公室中开会，公司老板先发言提出问题，然后程序员回答老板的问题，开会结束后程序员回到工位上工作发现问题并解决。

在一些实施例中，上述步骤302A和302B还可以通过下述过程302D和302E实现：

302D：对该脚本框架结构表格中的行进行识别，得到脚本框架中不同行结构。

其中，框架结构以表格的形式展示，基于横向识别，得到框架结构中的不同行，每行对应一个拍摄场景，例如，框架结构表格中可以分为对应拍摄场景为办公室、会议室等的不同行，每行包括该拍摄场景对应的具体内容。

302E：针对识别到的该不同行结构，提取该行所包括的脚本属性，该脚本属性包括与对应拍摄场景在同一行的拍摄对象属性以及运镜方式属性。

其中，每行对应一个拍摄场景，该拍摄场景对应其他脚本属性，该脚本属性即为该行所包括的具体内容，包括拍摄对象属性、运镜方式属性，在一些实施例中，该行还包括拍摄对象的对话内容属性以及该拍摄场景对应的音效属性。例如，在拍摄场景为客户接待室的一行中，拍摄对象属性有客户、市场专员等，客户和市场专员有其对应的对话内容，运镜方式属性为客户接待室内景，镜头从市场专员的角度拍摄，切换到客户的脸部特写，在切换到接待室内的装饰品等物品，音效属性为客户接待室内的环境声音。

在上述步骤302中，对于任一框架结构的识别，都对应一个界面显示给用户，用户可查看框架结构的具体显示内容，并且对于任一识别结果，用户可进行选择，用于确定进一步识别的操作。

在步骤303中，基于该关键信息，从知识库中获取多个与该关键信息匹配的视频片段，该知识库包括多个视频片段模板。

在一些实施例中，该步骤303包括下述步骤303A-303C：

303A：基于该多个拍摄场景和知识库中的视频片段模板，获取多个第一视频片段，该第一视频片段属于该多个拍摄场景。

其中，基于获得脚本的框架结构，提取该框架结构中的拍摄场景关键词，基于该关键词，在知识库中进行检索，检索出与该关键词匹配的第一视频片段，该第一视频片段的内容都是基于该拍摄场景建立的，例如，框架结构中拍摄场景的关键词为会议室，则基于会议室这个关键词，在知识库中进行检索，知识库会在界面中显示检索得到的在会议室内进行活动的视频片段，用户可以对视频片段进行选择，确定可以进一步识别的视频片段。

303B：从该多个第一视频片段中识别出多个第二视频片段，该第二视频片段包括该视频场景中拍摄对象。

基于该第一视频片段，以拍摄对象为目标，识别出同一拍摄场景下不同拍摄对象对应的多个不同视频片段。

在一些实施例中，把框架结构中的拍摄对象作为关键词，在原来拍摄场景的关键词后添加该拍摄对象的关键词，基于该多个关键词在知识库中进行检索，得到该拍摄场景下对应于该拍摄对象的第二视频片段，例如，拍摄场景为会议室中的拍摄对象关键词为公司老板，在上述会议室内进行活动的视频片段中进一步检索，知识库会在界面上显示公司老板在会议室内进行活动的视频片段。用户可以选择相应第一视频片段，确定可以进一步识别的第一视频片段。

303C：从该多个第二视频片段中识别出与该运镜方式匹配的多个第三视频片段。

基于该第二视频片段，以运镜方式为目标，识别出同一场景下对应的不同运镜方式的多个视频片段。

在一些实施例中，把框架结构中的运镜方式作为关键词，在原来拍摄场景和拍摄对象关键词后添加该运镜方式的关键词，基于该多个关键词在知识库中进行检索，得到该拍摄场景下对应于该拍摄对象所用运镜方式的第三视频片段，例如，对应运镜方式的关键词为固定镜头，在上述公司老板在会议室内进行活动的视频片段中进一步检索，知识库在界面中显示某一视角下固定不动的拍摄会议室内公司老板的视频片段。用户同样可以对该视频片段进行选择，确定可以进一步剪辑的视频片段。

在一些实施例中，该运镜方式复杂且对应性不高，无法检索到与运镜方式关键词完全匹配的视频片段，则基于不同第二视频片段运镜方式的相似度，选择相似度最高的第二视频片段，对该第二视频片段的运镜方式进行修改，使其运镜方式与关键词对应运镜方式趋于相同，也即是，得到与关键词对应运镜方式相同的视频片段，其中，该相似度可用镜头切换的时间点的差值、同一运镜方式运用时长的差值表示，其中，该差值越大，第二视频片段之间的相似度越低，差值越小，该时间点或运镜时长越接近，第二视频片段之间的相似度越高。

在一些实施例中，修改视频片段的运镜方式也即是对视频片段进行剪辑，在对第二视频片段进行修改时，还可以选择将剪辑路径最短的视频片段进行修改，得到与关键词对应运镜方式相同的视频片段，其中，该剪辑路径即是将某一视频片段的运镜方式修改为另一个运镜方式所需要的剪辑操作，该剪辑操作步骤越少，剪辑路径越短，剪辑操作步骤越多，剪辑路径越长。

其中，在任一识别并显示的界面或者修改界面中，用户都可以进行选择，用来确认可以进行下一步剪辑操作的视频片段。

在步骤304中，基于该关键信息，对该多个视频片段进行拼接以及裁剪，得到初始视频。

其中，该关键信息包括情感特征及框架结构，还有脚本的主题和该待生成视频的叙事逻辑，基于上述内容，对识别出的该多个视频片段进行进一步地剪辑，使得该初始视频更加符合脚本的主题、风格。

在一些实施例中，该步骤304包括下述步骤304A和304B至少一项：

304A：基于该情感特征，确定该多个视频片段的风格，基于该多个视频片段的风格，裁剪该多个视频片段。

其中，该情感特征用于表示该待生成视频的整体氛围基调，基于该情感特征，可以确定该待生成视频的主体风格，基于该主体风格以及脚本中的该关键信息，对该多个视频片段进行裁剪，例如，经过分析后得到该脚本的主体风格为欢乐，则把那些经分析后得到主体风格为悲伤的视频片段裁剪掉。

对于视频片段，从该视频片段中剪裁出包括对应的拍摄对象的视频片段。

在一些实施例中，该关键信息还包括对待生成视频的剪辑要求，基于该剪辑要求对该多个视频片段进行裁剪操作，该剪辑要求包括该待生成视频的时长要求，例如，经过筛选后的视频片段仍存在时长过长或过短的问题，基于该剪辑要求中提供的时长要求区间，将时长过长的视频片段基于上述筛选原则再进一步裁剪，将时长过短的视频片段基于上述拼接原则进行两两拼接，再对拼接后的视频片段进行处理，直至符合该剪辑要求。

304B：基于该关键信息，对该多个视频片段进行拼接。

其中，该多个视频片段经过排序，依次显示在脚本的对应结构中，基于该对应结构中的排列，前后依次拼接，得到视频，该排序基于关键信息中的叙述逻辑确定，可选地，排列之前还要对该多个视频片段进行筛选，使得该多个视频片段更匹配脚本中的关键信息，当然，该筛选过程也可以在裁剪操作之前完成。

在一些实施例中，该关键信息包括对待生成视频的画面呈现效果的要求，基于该对待生成视频的画面呈现效果的要求，对该多个视频片段进行筛选，其中，该多个视频片段的画面信息能够体现画面效果以及画面所体现的画面内容的相关信息，通过基于画面信息的筛选，能够将一些不符合条件的视频片段筛选掉，从而得到符合该关键信息中要求的视频片段。

在一些实施例中，该步骤包括下述304B1-304B4中至少一项：

304B1：获取该多个视频片段的亮度，筛选掉亮度不符合该关键信息中要求的预设亮度条件的视频片段。

亮度是影响视觉效果的重要条件，亮度过高或者过低都会造成不良的视觉效果，为了避免视频的视觉效果太差，在一些实施例中，基于上述亮度来筛选出属于预设亮度区间的视频片段。其中，该筛选出属于预设亮度区间的视频片段是指删除亮度不符合预设亮度区间的视频画面。

304B2：获取该多个视频片段的清晰度，筛选掉清晰度不符合该关键信息中要求的预设清晰度条件的视频片段。

清晰度也是影响视觉效果的重要条件，清晰度过低会造成不良的视觉效果，为了避免视频的视觉效果太差，在一些实施例中，基于上述清晰度来筛选出清晰度大于或等于预设清晰度的视频片段。其中，该筛选出属于清晰度大于或等于预设清晰度的视频片段是指删除清晰度小于预设清晰度的视频画面。其中，上述清晰度可以通过画面中的黑点或噪点数量确定。

304B3：基于该多个视频片段的画面信息，检测出该多个视频片段中的黑屏片段，筛选掉该黑屏片段，该黑屏片段是指存在黑屏的视频片段。

对于一些视频片段来说，其中可能包含一定黑屏的画面，这类画面对于视频整体效果会造成不良影响，因此，删除这类画面，能够大大提升视频的视觉效果。其中，黑屏片段可以是指黑屏画面。

304B4：基于该多个视频片段的画面信息，检测出该多个视频片段中的画面静止片段，筛选掉该画面静止片段，该画面静止片段是指包括连续多个相同画面的视频片段。

基于对画面信息的检测，可以确定该多个视频片段中是否包含连续多个相同画面，若包含，在保留该连续多个相同画面中的任一画面，删除该多个相同画面中的其余画面，从而使得该多个视频片段中不会出现冗余画面。

对于筛选后得到的该多个视频片段，基于该关键信息中的该待生成视频的叙事逻辑，按照该叙事逻辑对不同关联关系的排序要求，对该多个视频片段进行排序，基于排序好的该多个视频片段的顺序，拼接该识别出的多个视频片段，其中，该关联关系包括时空关联、情感关联和事件关联中至少一种。

通过上述排序，可以使得排序后的视频片段能够更符合该多个视频片段对应待生成视频的叙事方式。该关联关系可以指示视频片段之间的排序顺序，例如，对于时空关联来说，具有时空关联的多个视频片段，可以基于其所对应的时间先后来进行排序，具有事件关联的多个视频片段，可以基于其语义信息确定事件的发展顺序，从而基于发展顺序进行排序，而对于情感关联的多个视频片段，可以将情感递进的多个视频片段按照递进顺序进行排序，本申请实施例对上述过程不做限定。

在一些实施例中，上述步骤304A和304B还可以通过下述操作实现：

基于该关键信息，对该多个视频片段进行筛选，将未被筛选掉的视频片段基于该关键信息中的叙事逻辑进行排序，基于该排序顺序对该多个视频片段进行拼接，得到视频。基于该视频以及关键信息，对该视频进行裁剪，得到初始视频。

在上述步骤304中，任一个剪辑操作都对应该操作的剪辑界面显示，用户可以查看视频片段的剪辑过程以及剪辑效果，并可以基于每一个剪辑操作进行剪辑成果的选择，用于确定进行下一步剪辑的视频片段。

在步骤305中，基于该关键信息，生成视频包装素材，基于该视频包装素材，对该视频进行包装，生成该待生成视频。

其中，基于该关键信息中的情感特征，获取该待生成视频的视频包装素材，该包装素材包括字幕、标签、标题、滤镜以及背景音乐等，其中，基于该多个视频片段之间的转换点，还能够为该多个视频片段添加特效，该特效能够包装该多个视频片段，提供更好的视觉效果。

在一些实施例中，该步骤包括下述步骤305A-305C：

305A：基于该脚本，获取字幕，基于该字幕以及该情感特征，获取语音配音。

在一些实施例中，通过基于脚本的语义信息，生成一段用于描述该待生成视频的文字片段，也即是与该待生成视频匹配的文字片段，并基于该用于描述整体视频的文字片段进行切分，得到该多个视频片段的字幕，通过这种处理得到的字幕，更能够体现视频的整体内容，与视频内容高度相关，且，由于结合了语义信息，其文字信息量丰富，丰富了视频信息的表达。

在一些实施例中，还可以自动生成与脚本情感特征表达的语言风格相同的字幕，该情感特征对应的语言风格是指在该情感特征内热门视频的语言风格，通过对热门视频进行分析得到。相应地，基于该关键信息的语义信息，结合该情感特征对应的语言风格信息，获取与该情感特征匹配且符合该语言风格信息的文字片段。其中，在基于情感特征对应的语言风格信息进行处理时，可以通过语言模型处理得到，将上述文字片段输入对应语言风格的语言模型，以得到与情感特征对应的语言风格相同的文字片段。上述语言模型基于该情感特征内热门视频训练得到。

基于文本到语音技术，将该多个视频片段的字幕转换成语音配音，基于该情感特征，调整该语音配音的节奏、语调和重音特征，使得该语音配音的上述特征符合该脚本的风格。

305B：基于该情感特征，确定该多个视频片段的主题和调性，基于该多个视频片段的主题和调性，获取与该多个视频片段的主题和调性匹配的背景音乐、标签、标题、滤镜中的至少一种。

在一些实施例中，基于音乐生成技术，分析该情感特征，生成与该多个视频片段匹配的背景音乐，该背景音乐的风格符合该多个视频片段的主题和调性，基于上述字幕生成过程，同理也能够生成与该情感特征对应的标题和标签，基于该情感特征生成情感关键词，基于该情感关键词，在素材库中检索与该情感关键词匹配的滤镜，该素材库包括滤镜、贴纸等视频包装素材。

其中，通过基于脚本中关键信息的语义信息，得到该待生成视频的情感特征，基于该情感特征，来获取相应的视频包装素材，更能够体现视频的整体内容，与视频内容高度相关，且，由于结合了语义信息，其文字信息量丰富，丰富了视频信息的表达。

305C：基于该视频包装素材对该初始视频进行包装，得到该待生成视频。

其中，该视频包装素材结合了整个视频的逻辑和视频片段的细节，丰富了视频内容，也提升了视频的视听效果。

在上述步骤305A和步骤305B中，对于任一个视频包装素材的生成，都有一个对应界面的显示，用户可以查看视频包装素材生成的效果，并且进行选择，用于确定最终合成时运用的视频包装素材。

本申请实施例提供的方法，基于获取的脚本，得到脚本中的关键信息，基于该关键信息，从知识库中获取与该关键信息匹配的视频片段，基于该关键信息对视频片段进行拼接、裁剪以及包装，得到该待生成视频，并通过显示供用户进行预览并修改的界面的方式，为用户提供辅助生成功能，实现了基于AI技术的视频自动生成，提高了视频生成的自动化程度和效率，提供了更优的用户体验。

图4是根据本申请实施例提供的一种视频生成方法的流程示意图，如图所示，用户输入脚本后，基于AI技术，能够自动实现脚本内容的理解分析，提取出关键信息，基于自动选择或生成操作得到合适视频片段，再对视频片段进行视频粗剪操作得到初始视频，该视频粗剪操作包括对视频片段进行拼接、裁剪以及调整，可选地，基于关键信息，自动生成视频包装素材，该视频包装素材包括字幕、语音配音、背景音乐和特效，将视频包装素材添加到初始视频得到视频初稿。

其中，对于任一自动实现任务，都为用户提供对应的预览界面，基于用户对该预览界面中任务的选择或修改，重新执行该自动实现任务，该过程可由上述步骤301-305体现。

图5是根据本申请实施例提供的一种视频生成装置的框图。该装置用于执行上述视频生成方法执行时的步骤，参见图5，装置包括：

关键信息提取模块501，被配置为从输入的脚本中提取出待生成视频的关键信息，该关键信息指示该视频的框架结构和情感特征，该框架结构包括该视频的多个拍摄场景、每个拍摄场景中的拍摄对象以及运镜方式；

视频片段获取模块502，被配置为基于该关键信息，从知识库中获取多个与该关键信息匹配的视频片段，该知识库包括多个视频片段模板，用于获取该多个视频片段；

剪辑模块503，被配置为基于该关键信息，对该多个视频片段进行剪辑，得到该待生成视频。

在一些实施例中，该关键信息提取模块501被配置为执行：

对该脚本中的场景列进行识别，得到该场景列所包含的多个拍摄场景；

针对识别到的该拍摄场景，提取与该拍摄场景位于同一行内的拍摄对象和对应的运镜方式；

对该脚本进行识别，得到该脚本的主题和该视频的叙述逻辑。

在一些实施例中，该视频片段获取模块502被配置为执行：

基于该多个拍摄场景和知识库中的视频片段模板，获取多个第一视频片段，该第一视频片段属于该多个拍摄场景；

从该多个第一视频片段中识别出多个第二视频片段，该第二视频片段包括该视频场景中拍摄对象；

从该多个第二视频片段中识别出与该运镜方式匹配的多个第三视频片段。

在一些实施例中，该剪辑模块503包括下述至少一项：

剪辑单元，被配置为基于该框架结构，对该多个视频片段执行片段剪辑任务，该片段剪辑任务包括对该多个视频片段进行裁剪、拼接、调整；

包装单元，被配置为基于该关键信息，生成视频包装素材，该视频包装素材用于对该多个视频片段进行包装。

在一些实施例中，该剪辑单元包括下述至少一项：

拼接子单元，被配置为基于该框架结构，确定该多个视频片段对应于该待生成视频的叙事逻辑，基于该多个视频片段对应于该待生成视频的叙事逻辑，拼接该多个视频片段；

裁剪子单元，被配置为基于该情感特征，确定该多个视频片段的风格，基于该多个视频片段的风格以及该关键信息，裁剪该多个视频片段。

在一些实施例中，该包装单元被配置为执行：

基于该关键信息中的情感特征，生成视频包装素材，该视频包装素材用于对该多个视频片段进行包装。

在一些实施例中，该包装单元包括下述至少一项：

语音配音获取子单元，被配置为基于该脚本，获取字幕，基于该字幕以及该情感特征，获取语音配音；

其他素材获取子单元，被配置为基于该情感特征，确定该多个视频片段的主题和调性，基于该多个视频片段的主题和调性，获取与该多个视频片段的主题和调性匹配的背景音乐、标签、标题、滤镜中的至少一种。

在一些实施例中，该语音配音获取子单元包括：

字幕获取子单元，被配置为基于该脚本中的语义信息，获取该多个视频片段的字幕；

字幕到配音子单元，被配置为基于该字幕，获取语音配音。

在一些实施例中，该字幕获取子单元被配置为执行：

基于该脚本中的语义信息，获取与该多个视频片段匹配的文字片段，该文字片段按照时间进行切分，得到该多个视频片段的字幕。

在一些实施例中，该包装单元还被配置为执行：

基于该多个视频片段之间的转换点，为该多个视频片段添加转场特效。

需要说明的是：上述实施例提供的视频生成装置在生成视频时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的视频生成装置与视频生成方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

在本申请实施例中，计算机设备能够被配置为终端或者服务器，当计算机设备被配置为终端时，可以由终端作为执行主体来实施本申请实施例提供的技术方案，当计算机设备被配置为服务器时，可以由服务器作为执行主体来实施本申请实施例提供的技术方案，也可以通过终端和服务器之间的交互来实施本申请提供的技术方案，本申请实施例对此不作限定。

图6是根据本申请实施例提供的一种计算机设备600的结构示意图。该计算机设备600可以是便携式移动终端，比如：智能手机、平板电脑、MP3播放器(Moving PictureExperts Group Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(MovingPicture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。计算机设备600还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，计算机设备600包括有：处理器601和存储器602。

处理器601可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器601可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器601也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器601可以集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器601还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器602可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器602还可包括高速随机存取存储器以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器602中的非暂态的计算机可读存储介质用于存储至少一个计算机程序，该至少一个计算机程序用于被处理器601所执行以实现本申请中方法实施例提供的视频生成方法。

在一些实施例中，计算机设备600还可选包括有：外围设备接口603和至少一个外围设备。处理器601、存储器602和外围设备接口603之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口603相连。具体地，外围设备包括：射频电路604、显示屏605、摄像头组件606、音频电路607、定位组件608和电源609中的至少一种。

外围设备接口603可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器601和存储器602。在一些实施例中，处理器601、存储器602和外围设备接口603被集成在同一芯片或电路板上；在一些其他实施例中，处理器601、存储器602和外围设备接口603中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路604用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路604通过电磁信号与通信网络以及其他通信设备进行通信。射频电路604将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。在一些实施例中，射频电路604包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路604可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路604还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏605用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏605是触摸显示屏时，显示屏605还具有采集在显示屏605的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器601进行处理。此时，显示屏605还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏605可以为一个，设置在计算机设备600的前面板；在另一些实施例中，显示屏605可以为至少两个，分别设置在计算机设备600的不同表面或呈折叠设计；在另一些实施例中，显示屏605可以是柔性显示屏，设置在计算机设备600的弯曲表面上或折叠面上。甚至，显示屏605还可以设置成非矩形的不规则图形，也即异形屏。显示屏605可以采用LCD(Liquid Crystal Display，液晶显示屏)、OLED(Organic Light-EmittingDiode，有机发光二极管)等材质制备。

摄像头组件606用于采集图像或视频。在一些实施例中，摄像头组件606包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件606还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路607可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器601进行处理，或者输入至射频电路604以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在计算机设备600的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器601或射频电路604的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路607还可以包括耳机插孔。

电源609用于为计算机设备600中的各个组件进行供电。电源609可以是交流电、直流电、一次性电池或可充电电池。当电源609包括可充电电池时，该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池，无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。

在一些实施例中，计算机设备600还包括有一个或多个传感器610。该一个或多个传感器610包括但不限于：加速度传感器611、陀螺仪传感器612、压力传感器613、光学传感器614以及接近传感器615。

加速度传感器611可以检测以计算机设备600建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器611可以用于检测重力加速度在三个坐标轴上的分量。处理器601可以根据加速度传感器611采集的重力加速度信号，控制显示屏605以横向视图或纵向视图进行用户界面的显示。加速度传感器611还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器612可以检测计算机设备600的机体方向及转动角度，陀螺仪传感器612可以与加速度传感器611协同采集用户对计算机设备600的3D动作。处理器601根据陀螺仪传感器612采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器613可以设置在计算机设备600的侧边框和/或显示屏605的下层。当压力传感器613设置在计算机设备600的侧边框时，可以检测用户对计算机设备600的握持信号，由处理器601根据压力传感器613采集的握持信号进行左右手识别或快捷操作。当压力传感器613设置在显示屏605的下层时，由处理器601根据用户对显示屏605的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

光学传感器614用于采集环境光强度。在一个实施例中，处理器601可以根据光学传感器614采集的环境光强度，控制显示屏605的显示亮度。具体地，当环境光强度较高时，调高显示屏605的显示亮度；当环境光强度较低时，调低显示屏605的显示亮度。在另一个实施例中，处理器601还可以根据光学传感器614采集的环境光强度，动态调整摄像头组件605的拍摄参数。

接近传感器615，也称距离传感器，通常设置在计算机设备600的前面板。接近传感器615用于采集用户与计算机设备600的正面之间的距离。在一个实施例中，当接近传感器615检测到用户与计算机设备600的正面之间的距离逐渐变小时，由处理器601控制显示屏605从亮屏状态切换为息屏状态；当接近传感器615检测到用户与计算机设备600的正面之间的距离逐渐变大时，由处理器601控制显示屏605从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图6中示出的结构并不构成对计算机设备600的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

图7是根据本申请实施例提供的一种服务器的结构示意图，该服务器700可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(Central ProcessingUnits，CPU)601和一个或一个以上的存储器702，其中，该存储器702中存储有至少一条计算机程序，该至少一条计算机程序由该处理器701加载并执行以实现上述各个方法实施例提供的视频生成方法。当然，该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器还可以包括其他用于实现设备功能的部件，在此不做赘述。

本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有至少一段计算机程序，该至少一段计算机程序由终端的处理器加载并执行以实现上述实施例的视频生成方法中计算机设备所执行的操作。例如，所述计算机可读存储介质可以是只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、光盘只读存储器(Compact Disc Read-Only Memory，CD-ROM)、磁带、软盘和光数据存储设备等。

在一些实施例中，本申请实施例所涉及的计算机程序可被部署在一个计算机设备上执行，或者在位于一个地点的多个计算机设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算机设备上执行，分布在多个地点且通过通信网络互连的多个计算机设备可以组成区块链系统。

本申请实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机程序代码，该计算机程序代码存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机程序代码，处理器执行该计算机程序代码，使得该计算机设备执行上述各种可选实现方式中提供的视频生成方法。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种视频生成方法，其特征在于，所述方法包括：

基于所述关键信息，从知识库中获取多个与所述关键信息匹配的视频片段，所述知识库包括多个视频片段模板；

2.根据权利要求1所述的视频生成方法，其特征在于，所述从输入的脚本中提取出待生成视频的关键信息包括：

3.根据权利要求1所述的视频生成方法，其特征在于，所述基于所述关键信息，从知识库中获取多个与所述关键信息匹配的视频片段包括：

4.根据权利要求1所述的视频生成方法，其特征在于，所述基于所述关键信息，对所述多个视频片段进行剪辑，得到所述待生成视频包括：

基于所述关键信息，生成视频包装素材，所述视频包装素材用于对视频进行包装；

5.根据权利要求4所述的视频生成方法，其特征在于，所述基于所述框架结构，对所述多个视频片段执行片段剪辑任务，得到初始视频包括：

6.根据权利要求4所述的视频生成方法，其特征在于，所述基于所述关键信息，生成视频包装素材包括：

7.根据权利要求6所述的视频生成方法，其特征在于，所述基于所述关键信息中的情感特征，生成视频包装素材包括下述至少一项：

8.根据权利要求7所述的视频生成方法，其特征在于，基于所述脚本，获取字幕，基于所述字幕以及所述情感特征，获取语音配音，包括：

基于所述字幕，获取语音配音。

9.根据权利要求8所述的视频生成方法，其特征在于，所述基于所述脚本中的语义信息，获取所述多个视频片段的字幕包括：

10.根据权利要求4所述的视频生成方法，其特征在于，所述基于所述关键信息，生成视频包装素材包括：

11.一种视频生成装置，其特征在于，所述装置包括：

12.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器用于存储至少一段计算机程序，所述至少一段计算机程序由所述处理器加载并执行权利要求1至10任一项权利要求所述的视频生成方法。

13.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储至少一段计算机程序，所述至少一段计算机程序用于执行权利要求1至10任一项权利要求所述的视频生成方法。

14.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至10任一项权利要求所述的视频生成方法。