CN114827752B

CN114827752B - 视频生成方法、视频生成系统、电子设备及存储介质

Info

Publication number: CN114827752B
Application number: CN202210441238.2A
Authority: CN
Inventors: 涂必超
Original assignee: Ping An Life Insurance Company of China Ltd
Current assignee: Ping An Life Insurance Company of China Ltd
Priority date: 2022-04-25
Filing date: 2022-04-25
Publication date: 2023-07-25
Anticipated expiration: 2042-04-25
Also published as: CN114827752A

Abstract

本申请涉及人工智能技术领域，尤其涉及视频生成方法、视频生成系统、电子设备及存储介质。该方法包括：通过对目标剧本进行文本解析，得到多个行文本信息；从预设的模板视频库中确定每个行文本信息对应的背景模板视频；提取每个行文本信息的关键词句信息；从预设的素材库中确定每个行文本信息对应的素材图片；对每个行文本信息进行语音生成，得到句音频信息；在背景模板视频中插入对应的素材图片，得到每个行文本信息的第一视频；对每个视频帧图像进行图像动效处理得到第二视频；将多个第二视频和其对应的句音频信息进行音视频合成，得到目标动画视频。本申请实施例的技术方案，能够降低视频制作的成本，提高生产高质量动画视频的效率。

Description

视频生成方法、视频生成系统、电子设备及存储介质

技术领域

本申请涉及人工智能技术领域，尤其涉及视频生成方法、视频生成系统、电子设备及存储介质。

背景技术

目前，企业为了吸引客户的关注，需要给客户快速传递相关的知识，而主要采用的纯文字形式的讲解方式比较单一，且对客户的吸引性较低。相关技术中，通过将需要传递的相关知识制作成视频来提高对客户的吸引性，然而，这种人工制作视频的方式成本较高、效率低，且应用的场景会收到限制。

发明内容

本公开实施例的主要目的在于提出视频生成方法、视频生成系统、电子设备及存储介质，能够降低视频制作的成本，提高生产高质量动画视频的效率。

为实现上述目的，本公开实施例的第一方面提出了视频生成方法，所述方法包括：

获取目标剧本，通过对所述目标剧本进行文本解析，得到所述目标剧本的多个行文本信息；

从预设的模板视频库中确定每个行文本信息对应的背景模板视频；

提取所述每个行文本信息的关键词句信息；

根据所述关键词句信息从预设的素材库中确定所述每个行文本信息对应的素材图片；

对所述每个行文本信息进行语音生成，得到所述每个行文本信息对应的句音频信息；

根据所述句音频信息的时长，在所述背景模板视频中插入对应的所述素材图片，得到所述每个行文本信息的第一视频，所述第一视频包括多个视频帧图像，所述第一视频的时长与所述句音频信息的时长相等；

根据所述背景模板视频的背景模板属性配置信息和所述关键词句信息对每个视频帧图像进行图像动效处理，得到所述每个行文本信息的第二视频；

根据预设的视频配置信息将多个第二视频和每个第二视频对应的所述句音频信息进行音视频合成，得到目标动画视频。

在一些实施例中，所述从预设的模板视频库中确定每个行文本信息对应的背景模板视频，包括：

对每个行文本信息进行文本标注，确定所述每个行文本信息对应的文本语法关系；

根据所述文本语法关系从预设的模板视频库中确定所述每个行文本信息对应的背景模板视频编号；

根据所述背景模板视频编号确定所述每个行文本信息对应的背景模板视频。

在一些实施例中，所述模板视频库通过如下方法得到：

获取历史剧本，通过对所述历史剧本进行文本解析，得到所述历史剧本的多个历史行文本信息；

对每个历史行文本信息进行文本标注，确定所述每个历史行文本信息对应的文本语法关系；

根据所述文本语法关系设计对应的背景模板视频，其中，所述背景模板视频的所述背景模板属性配置信息包括文字属性配置信息和图片属性配置信息；

根据所述背景模板视频和背景模板视频编号生成模板视频库，其中，所述背景模板视频编号唯一对应于所述背景模板视频。

在一些实施例中，所述根据所述背景模板视频的背景模板属性配置信息和所述关键词句信息对每个视频帧图像进行图像动效处理，得到所述每个行文本信息的第二视频，包括：

获取所述背景模板视频的背景模板属性配置信息，其中，所述背景模板属性配置信息包括图片属性配置信息；

根据所述图片属性配置信息对插入到每个视频帧图像的所述素材图片进行素材图片动效处理，得到第一视频帧图像；

对多个所述第一视频帧图像进行图像合成，得到所述每个行文本信息的第二视频。

在一些实施例中，所述根据所述背景模板视频的背景模板属性配置信息和所述关键词句信息对每个视频帧图像进行图像动效处理，得到所述每个行文本信息的第二视频，还包括：

获取所述背景模板视频的背景模板属性配置信息，其中，所述背景模板属性配置信息包括文字属性配置信息；

根据所述文字属性配置信息对每个视频帧图像进行文字显示动效处理，得到第二视频帧图像；

对多个所述第二视频帧图像进行图像合成，得到所述每个行文本信息的第二视频。

在一些实施例中，所述根据预设的视频配置信息将多个第二视频和所述第二视频对应的所述句音频信息进行音视频合成，得到目标动画视频，包括：

根据所述关键词句信息对所述第二视频进行字幕添加，得到带字幕的第二视频；

根据预设的视频配置信息将多个带字幕的第二视频和其对应的所述句音频信息进行音视频合成，得到目标动画视频。

在一些实施例中，所述方法还包括：

从预设的人物库中获取初始人物形象；

根据所述每个行文本信息对所述初始人物形象进行形象编辑，得到所述每个行文本信息对应的目标人物形象；

将所述目标人物形象添加到所述每个行文本信息对应的所述背景模板视频。

为实现上述目的，本公开实施例的第二方面提出了视频生成系统，所述系统包括：

文本解析模块，用于获取目标剧本，通过对所述目标剧本进行文本解析，得到所述目标剧本的多个行文本信息；

背景模板匹配模块，用于从预设的模板视频库中确定每个行文本信息对应的背景模板视频；

关键词句信息提取模块，用于提取所述每个行文本信息对应的关键词句信息；

素材图片匹配模块，用于根据所述关键词句信息从预设的素材库中确定所述每个行文本信息对应的素材图片；

语音生成模块，用于对所述每个行文本信息进行语音生成，得到所述每个行文本信息对应的句音频信息；

第一视频生成模块，用于根据所述句音频信息的时长，在所述背景模板视频中插入对应的所述素材图片，得到所述每个行文本信息的第一视频，所述第一视频包括多个视频帧图像，所述第一视频的时长与所述句音频信息的时长相等；

第二视频生成模块，用于根据所述背景模板视频的背景模板属性配置信息和所述关键词句信息对每个视频帧图像进行图像动效处理，得到所述每个行文本信息的第二视频；

音视频合成模块，用于根据预设的视频配置信息将多个第二视频和所述第二视频对应的所述句音频信息进行音视频合成，得到目标动画视频。

为实现上述目的，本公开实施例的第三方面提出了电子设备，包括：

至少一个存储器；

至少一个处理器；

至少一个计算机程序；

所述计算机程序被存储在所述存储器中，处理器执行所述至少一个计算机程序以实现如本公开实施例的第一方面提出的任一项所述的视频生成方法。

为实现上述目的，本公开实施例的第四方面还提出计算机可读存储介质，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行如本公开实施例的第一方面提出的任一项所述的视频生成方法。

本公开实施例提出的视频生成方法、视频生成系统、电子设备及存储介质，通过获取目标剧本，对该目标剧本进行文本解析，得到目标剧本的多个行文本信息。为了提高生成的目标动画视频的质量和背景风格的特色性，增强生成的目标动画视频的丰富度，从预设的模板视频库中确定每个行文本信息对应的背景模板视频，并通过提取每个行文本信息的关键词句信息，根据关键词句信息从预设的素材库中确定每个行文本信息对应的素材图片。为了能够生成与剧本内容强相关的目标动画视频，对每个行文本信息进行语音生成，得到每个行文本信息对应的句音频信息，根据句音频信息的时长，在背景模板视频中插入对应的素材图片，得到每个行文本信息的第一视频，第一视频包括多个视频帧图像，第一视频的时长与句音频信息的时长相等。根据背景模板视频的背景模板属性配置信息和关键词句信息对每个视频帧图像进行图像动效处理，得到每个行文本信息的第二视频，并根据预设的视频配置信息将多个第二视频和每个第二视频对应的句音频信息进行音视频合成，得到目标动画视频。本申请能够降低视频制作的成本，提高生产高质量动画视频的效率，且适用于更多的应用场景。

附图说明

图1是本申请实施例提供的视频生成方法的流程图；

图2是图1中步骤S120的具体方法的流程图；

图3是本申请实施例提供的构建模板视频库的方法流程图；

图4是图1中步骤S170的具体方法的第一流程图；

图5是图1中步骤S170的具体方法的第二流程图；

图6是图1中步骤S180的具体方法的流程图；

图7是本申请另一实施例提供的视频生成方法的流程图；

图8是本申请实施例提供的视频生成系统的模块结构框图；

图9是本申请实施例提供的电子设备的硬件结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。

需要说明的是，虽然在装置示意图中进行了功能模块划分，在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于装置中的模块划分，或流程图中的顺序执行所示出或描述的步骤。说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

首先，对本申请中涉及的若干名词进行解析：

人工智能(Artificial Intelligence，AI)：是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学；人工智能是计算机科学的一个分支，人工智能企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器，该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。人工智能可以对人的意识、思维的信息过程的模拟。人工智能还是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。

自然语言处理(Natural language processing，NLP)：NLP用计算机来处理、理解以及运用人类语言(如中文、英文等)，NLP属于人工智能的一个分支，是计算机科学与语言学的交叉学科，又常被称为计算语言学。自然语言处理包括语法分析、语义分析、篇章理解等。自然语言处理常用于机器翻译、手写体和印刷体字符识别、语音识别及文语转换、信息检索、信息抽取与过滤、文本分类与聚类、舆情分析和观点挖掘等技术领域，它涉及与语言处理相关的数据挖掘、机器学习、知识获取、知识工程、人工智能研究和与语言计算相关的语言学研究等。

语音合成(Text-To-Speech，TTS)：TTS是一种从文本到语音的一种技术，TTS一般包括两个步骤：第一步是文本处理，主要是将文本转化成音素序列，并标出每个音素的起止时间、频率变化等信息；第二步是语音合成，主要是根据音素序列(以及标注好的起止时间、频率变化等信息)生成语音。

基于此，本公开实施例提供视频生成方法、视频生成系统、电子设备及存储介质，能够降低视频制作的成本，提高生产高质量动画视频的效率。

本申请实施例提供视频生成方法、视频生成系统、电子设备及存储介质，具体通过如下实施例进行说明，首先描述本公开实施例中的视频生成方法。

本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中，人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。

人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

本申请实施例提供的视频生成方法，涉及人工智能技术领域，尤其涉及动画处理技术领域。本申请实施例提供的视频生成方法可应用于终端中，也可应用于服务器端中，还可以是运行于终端或服务器端中的软件。在一些实施例中，终端可以是智能手机、平板电脑、笔记本电脑、台式计算机或者智能手表等；服务器可以是独立的服务器，也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器；软件可以是实现视频生成方法的应用等，但并不局限于以上形式。

本申请可用于众多通用或专用的计算机系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

第一方面，请参照图1，图1是本申请一些实施例提供的视频生成方法的一个可选的流程图，本申请实施例的视频生成方法包括但不限于步骤S110至步骤S180，下面结合图1对这八个步骤进行详细介绍。

步骤S110，获取目标剧本，通过对目标剧本进行文本解析，得到目标剧本的多个行文本信息；

步骤S120，从预设的模板视频库中确定每个行文本信息对应的背景模板视频；

步骤S130，提取每个行文本信息的关键词句信息；

步骤S140，根据关键词句信息从预设的素材库中确定每个行文本信息对应的素材图片；

步骤S150，对每个行文本信息进行语音生成，得到每个行文本信息对应的句音频信息；

步骤S160，根据句音频信息的时长，在背景模板视频中插入对应的素材图片，得到每个行文本信息的第一视频，第一视频包括多个视频帧图像，第一视频的时长与句音频信息的时长相等；

步骤S170，根据背景模板视频的背景模板属性配置信息和关键词句信息对每个视频帧图像进行图像动效处理，得到每个行文本信息的第二视频；

步骤S180，根据预设的视频配置信息将多个第二视频和每个第二视频对应的句音频信息进行音视频合成，得到目标动画视频。

具体地，在一些实施例的步骤S110中，目标剧本可以是Word格式、PPT格式、PDF格式、Excel格式等等，对此，本申请不作具体限制。目标剧本的剧本内容可以是关于医疗产品介绍、服装理念介绍、保险产品介绍、生活科普讲解等不同产品领域的内容介绍，即本申请可以适用于多个应用场景，对此，本申请不作具体限制。通过对目标剧本进行文本解析，得到目标剧本的多个行文本信息，根据行文本信息定制出该目标剧本对应的目标动画视频，其中，对目标剧本以行划分标准进行文本解析，行划分标准可以根据常用的结束符，如句号、感叹号、问号等进行目标剧本的划分，同时，可以结合人工检查，提高目标剧本划分出的行文本信息的准确性和完整性。

具体地，在一些实施例的步骤S120中，为了提高生成的目标动画视频的质量和背景风格的特色性，从预设的模板视频库中确定每个行文本信息对应的背景模板视频，根据行文本信息匹配符合相应内容的背景模板视频，即通过分析每个行文本信息对应的文本语法关系匹配模板视频库中的文本语法关系，进而确定该行文本信息对应的背景模板视频。

具体地，在一些实施例的步骤S130和步骤S140中，为了增强生成的目标动画视频的丰富度，本申请采用自然语言处理的方法对目标剧本的文本进行理解，通过提取每个行文本信息的关键词句信息，并根据关键词句信息从预设的素材库中确定每个行文本信息对应的素材图片。其中，提取得到的关键词句信息包括关键词或关键句，预设的素材库为历史积累的本地图片素材库，能够根据关键词句信息从本地图片素材库中快速的标注出与该行文本信息相关的素材图片名称，即确定了每个行文本信息对应的素材图片。需要说明的是，标出的素材图片的数量并不作具体限定，可以根据实际的需求选择多个素材图片。

具体地，在一些实施例的步骤S150中，为了增强目标动画视频与目标剧本之间的相关性，对每个行文本信息进行语音生成，得到每个行文本信息对应的句音频信息，即得到每个行文本信息包括对应的多个句音频信息。其中，利用TTS技术对每个行文本信息进行语音生成，得到每个行文本信息对应的多个句音频信息，并记录每个句音频信息的时长。

具体地，在一些实施例的步骤S160中，根据句音频信息的时长在背景模板视频中插入对应的素材图片，得到每个行文本信息的第一视频，第一视频的时长与句音频信息的时长相等，根据第一视频的时长得到该第一视频包括的多个视频帧图像。

具体地，在一些实施例的步骤S170中，为了增强生成的目标动画视频的特色，更好地实现对客户吸引的目的，根据背景模板视频的背景模板属性配置信息和关键词句信息对每个视频帧图像进行图像动效处理，得到每个行文本信息的第二视频。需要说明的是，根据每个行文本信息可以得到对应的结构化剧本，该结构化剧本能够将目标剧本展示成模块化的形式，包括句音频信息的时长、行文本信息、背景模板视频编号、背景模板视频中显示的文本信息、视频切换镜头编号、与该行文本信息相关的素材图片名称、句音频信息的名称，其中，视频切换镜头编号用于对生成的第二视频按照顺序进行音视频合成，得到目标动画视频。背景模板视频中显示的文本信息用于表示背景模板视频中是否有预留用于显示关键词句信息的文本框，当结构化剧本中没有标记出与该行文本信息对应的关键词句信息，即表明对应的背景模板视频中不会显示该行文本信息对应的关键词句信息。

具体地，在一些实施例的步骤S180中，根据预设的视频配置信息将多个第二视频和每个第二视频对应的句音频信息进行音视频合成，得到目标动画视频，其中，预设的视频配置信息包括在进行音视频合成时是否生成片头、片尾、背景音乐等。当选择添加片头和/或片尾，在将多个第二视频和每个第二视频对应的句音频信息进行音视频合成时，增加设定的片头和/或片尾，其中，该片头和/或片尾中的文字和图片信息可以根据实际的需求进行设定，当未进行设定时，则本申请的视频生成系统将自动选择默认的文字和图片内容，本申请能够降低视频制作的成本，提高自动化生产出高质量动画视频的效率，且能够适用于更多的应用场景。

需要说明的是，本申请中的句音频信息可以是MP3格式、CDA格式、WAV格式、WMA格式、RA格式、MIDI格式、OGG格式、APE格式或AAC格式等，本申请不加以限定。本申请中的背景模板视频、第一视频、第二视频和目标动画视频，可以是MPEG(Moving Picture ExpertsGroup，运动图像专家组)、AVI(Audio Video Interleaved，音频视频交错)或WMV(WindowsMedia Video，微软流媒体)格式的文件等，本发明不加以限定。

请参照图2，图2是本申请一些实施例的步骤S120的具体方法的流程图。在本申请的一些实施例中，步骤S120包括但不限于步骤S210、步骤S220和步骤S230，下面结合图2对这三个步骤进行详细介绍。

步骤S210，对每个行文本信息进行文本标注，确定每个行文本信息对应的文本语法关系；

步骤S220，根据文本语法关系从预设的模板视频库中确定每个行文本信息对应的背景模板视频编号；

步骤S230，根据背景模板视频编号确定每个行文本信息对应的背景模板视频。

具体地，在一些实施例的步骤S210中，对输入的目标剧本进行文本解析后，得到目标剧本的多个行文本信息，通过对每个行文本信息进行文本标注，确定每个行文本信息对应的文本语法关系。其中，文本语法关系包括并列关系、讲解关系等，并列关系表示该行文本信息中的内容满足并列条件，例如：满足并列关系的行文本信息为“富含蛋白质、糖类、胡萝卜素、维生素C、氨基酸等”，则其中的并列条件为该行文本信息中的词以顿号分隔；讲解关系为对应的行文本信息满足A是B的句式，例如：满足讲解关系的行文本信息为“秋天是呼吸道感染疾病多发的季节”。

具体地，在一些实施例的步骤S220和步骤S230中，根据文本语法关系从预设的模板视频库中确定每个行文本信息对应的背景模板视频编号，即标记出每个行文本信息与其对应的背景模板视频编号，进而根据背景模板视频编号确定每个行文本信息对应的背景模板视频。

需要说明的是，当根据文本语法关系从预设的模板视频库中未匹配到与行文本信息对应的背景模板视频编号，则需要重新设计该行文本信息对应的背景模板视频，然后将设计出的该行文本信息的背景模板视频入库存储到模板视频库中，则该新入库的背景模板视频的编号就对应了当前的行文本信息。

请参照图3，图3是本申请的一些实施例提供的构建模板视频库的具体方法的流程图。在本申请的一些实施例中，视频生成方法还包括：构建模板视频库，具体包括但不限于步骤S310、步骤S320、步骤S330和步骤S340。下面结合图3对这四个进行详细介绍。

步骤S310，获取历史剧本，通过对历史剧本进行文本解析，得到历史剧本的多个历史行文本信息；

步骤S320，对每个历史行文本信息进行文本标注，确定每个历史行文本信息对应的文本语法关系；

步骤S330，根据文本语法关系设计对应的背景模板视频，其中，背景模板视频的背景模板属性配置信息包括文字属性配置信息和图片属性配置信息；

步骤S340，根据背景模板视频和背景模板视频编号生成模板视频库，其中，背景模板视频编号唯一对应于背景模板视频。

具体地，在一些实施例中，模板视频库的构建是通过获取历史剧本，并通过对历史剧本进行文本解析，得到历史剧本的多个历史行文本信息。通过对每个历史行文本信息进行文本标注，确定每个历史行文本信息对应的文本语法关系，进而总结出历史剧本中的各种文本语法关系，例如并列关系、讲解关系等，对于并列关系和讲解关系的详细介绍与上述实施例中的介绍相同，在此不再赘述。为了提高生成的目标动画视频的质量和背景风格的特色性，根据文本语法关系设计对应的背景模板视频，其中，背景模板视频的背景模板属性配置信息包括文字属性配置信息和图片属性配置信息。最后，根据背景模板视频和背景模板视频编号生成模板视频库，其中，背景模板视频编号唯一对应于背景模板视频。

需要说明的是，文字属性配置信息包括显示文本框、显示索引范围、字体、文字大小、文字颜色等，为了灵活地实现对背景模板视频的视频编辑，显示索引范围用于标记背景模板视频中有效视频帧图像的索引范围，即包括标记背景模板视频中的开始视频帧图像和结束视频帧图像。图片属性配置信息包括图片显示区域、图片显示范围、图片特效类型等，用于对添加到背景模板视频中的素材图片进行灵活地配置。

请参照图4，图4是本申请一些实施例提供的步骤S170的具体方法的流程图，在一些实施例中，步骤S170包括但不限于步骤S410、步骤S420和步骤S430，下面结合图4对这三个步骤进行详细介绍。

步骤S410，获取背景模板视频的背景模板属性配置信息，其中，背景模板属性配置信息包括图片属性配置信息；

步骤S420，根据图片属性配置信息对插入到每个视频帧图像的素材图片进行素材图片动效处理，得到第一视频帧图像；

步骤S430，对多个第一视频帧图像进行图像合成，得到每个行文本信息的第二视频。

具体地，在一些实施例中，获取背景模板视频的背景模板属性配置信息，其中，背景模板属性配置信息包括图片属性配置信息，根据图片属性配置信息对插入到每个视频帧图像的素材图片进行素材图片动效处理，得到第一视频帧图像。首先根据背景模板视频中对图片显示区域和图片显示范围的配置信息，对需要插入的素材图片进行预处理，然后根据图片属性配置信息对素材图片进行素材图片动效处理，即根据设置的视频配置信息对素材图片进行处理，得到由多个第一视频帧图像构成的动效图片集，并计算其中的每个第一视频帧图像在背景模板视频中出现的范围序号。

需要说明的是，素材图片动效处理即将需要处理的素材图片配置对应的图片动效编号，素材图片动效处理包括图片旋转，图文放大，图片渐入等，则对应的图片动效编号对应的图片特效类型可以具体包括，如图片旋转、图片渐入渐出、图片闪出、图片从上到下出现、图片从下到上出现等。

请参照图5，图5是本申请另一些实施例提供的步骤S170的具体实现方法的流程图。在一些实施例中，步骤S170包括但不限于步骤S510、步骤S520和步骤S530，下面结合图5对这三个步骤进行详细介绍。

步骤S510，获取背景模板视频的背景模板属性配置信息，其中，背景模板属性配置信息包括文字属性配置信息；

步骤S520，根据文字属性配置信息对每个视频帧图像进行文字显示动效处理，得到第二视频帧图像；

步骤S530，对多个第二视频帧图像进行图像合成，得到每个行文本信息的第二视频。

具体地，在一些实施例中，获取背景模板视频的背景模板属性配置信息，其中，背景模板属性配置信息包括文字属性配置信息，根据文字属性配置信息对每个视频帧图像进行文字显示动效处理，得到第二视频帧图像。首先根据背景模板视频中对显示文本框和显示索引范围的配置信息，对需要显示在背景模板视频中的文字计算其对应的文字显示速度、文字显示范围和对应的文字布局信息，然后根据文字属性配置信息对每个视频帧图像进行文字显示动效处理，得到第二视频帧图像，得到由多个第二视频帧图像构成的动效图片集，并计算其中的每个第二视频帧图像在背景模板视频中出现的范围序号。

请参照图6，图6是本申请的一些实施例提供的步骤S180的具体实现方法的流程图。在一些实施例中，步骤S180包括但不限于步骤S610和步骤S620，下面结合图6对这两个步骤进行详细介绍。

步骤S610，根据关键词句信息对第二视频进行字幕添加，得到带字幕的第二视频；

步骤S620，根据预设的视频配置信息将多个带字幕的第二视频和其对应的句音频信息进行音视频合成，得到目标动画视频。

具体地，在一些实施例中，为了能够生成与剧本内容强相关的目标动画视频，根据关键词句信息对第二视频进行字幕添加，得到带字幕的第二视频，并根据预设的视频配置信息将多个带字幕的第二视频和其对应的句音频信息进行音视频合成，得到目标动画视频。其中，预设的视频配置信息包括定义输出的目标动画视频的存储大小、目标动画视频的视频帧率、片头、片尾、背景音乐等，当选择添加片头和/或片尾，在将多个带字幕的第二视频和每个第二视频对应的句音频信息进行音视频合成时，增加设定的片头和/或片尾，其中，该片头和/或片尾中的文字和图片信息可以根据实际的需求进行设定，当未进行设定时，则本申请的视频生成系统将自动选择默认的文字和图片内容。本申请根据实际的需求灵活地生成与目标剧本强相关的目标动画视频，能够降低视频制作的成本，提高自动化生产出高质量动画视频的效率，且能够适用于更多的应用场景。

需要说明的是，在一些实施例中，本申请可以采用机器学习算法对得到的句音频信息进行声音特效变换，并根据预设的视频配置信息将多个带字幕的第二视频和其变换后的句音频信息进行音视频合成，得到目标动画视频。

请参照图7，图7是本申请的另一些实施例提供的视频生成方法的流程图。在一些实施例中，视频生成方法还包括但不限于步骤S710、步骤S720和步骤S730，下面结合图7对这三个步骤进行详细介绍。

步骤S710，从预设的人物库中获取初始人物形象；

步骤S720，根据每个行文本信息对初始人物形象进行形象编辑，得到每个行文本信息对应的目标人物形象；

步骤S730，将目标人物形象添加到每个行文本信息对应的背景模板视频。

具体地，在一些实施例中，为了增强生成的目标动画视频的丰富度，本申请可以从预设的人物库中获取初始人物形象，并利用人物编辑算法根据每个行文本信息对初始人物形象进行形象编辑，比如年龄编辑、表情编辑和姿态编辑等，以得到每个行文本信息对应的目标人物形象，即形成这个初始人物形象对应的一系列人物素材，将目标人物形象添加到每个行文本信息对应的背景模板视频，进而增强生成的目标动画视频的丰富度。

请参照图8，图8是本申请一些实施例提供的视频生成系统的模块结构框图。在一些实施例中，视频生成系统包括文本解析模块810、背景模板匹配模块820、关键词句信息提取模块830、素材图片匹配模块840、语音生成模块850、第一视频生成模块860、第二视频生成模块870和音视频合成模块880。

文本解析模块810，用于获取目标剧本，通过对目标剧本进行文本解析，得到目标剧本的多个行文本信息。

背景模板匹配模块820，用于从预设的模板视频库中确定每个行文本信息对应的背景模板视频。

关键词句信息提取模块830，用于提取每个行文本信息对应的关键词句信息。

素材图片匹配模块840，用于根据关键词句信息从预设的素材库中确定每个行文本信息对应的素材图片。

语音生成模块850，用于对每个行文本信息进行语音生成，得到每个行文本信息对应的句音频信息。

第一视频生成模块860，用于根据句音频信息的时长，在背景模板视频中插入对应的素材图片，得到每个行文本信息的第一视频，第一视频包括多个视频帧图像，第一视频的时长与句音频信息的时长相等。

第二视频生成模块870，用于根据背景模板视频的背景模板属性配置信息和关键词句信息对每个视频帧图像进行图像动效处理，得到每个行文本信息的第二视频；

音视频合成模块880，用于根据预设的视频配置信息将多个第二视频和第二视频对应的所述句音频信息进行音视频合成，得到目标动画视频。

本申请实施例的视频生成系统，用于执行上述视频生成方法,通过获取目标剧本，对该目标剧本进行文本解析，得到目标剧本的多个行文本信息。为了提高生成的目标动画视频的质量和背景风格的特色性，增强生成的目标动画视频的丰富度，从预设的模板视频库中确定每个行文本信息对应的背景模板视频，并通过提取每个行文本信息的关键词句信息，根据关键词句信息从预设的素材库中确定每个行文本信息对应的素材图片。为了能够生成与剧本内容强相关的目标动画视频，对每个行文本信息进行语音生成，得到每个行文本信息对应的句音频信息，根据句音频信息的时长，在背景模板视频中插入对应的素材图片，得到每个行文本信息的第一视频，第一视频包括多个视频帧图像，第一视频的时长与句音频信息的时长相等。根据背景模板视频的背景模板属性配置信息和关键词句信息对每个视频帧图像进行图像动效处理，得到每个行文本信息的第二视频，并根据预设的视频配置信息将多个第二视频和每个第二视频对应的句音频信息进行音视频合成，得到目标动画视频。本申请能够降低视频制作的成本，提高生产高质量动画视频的效率，且适用于更多的应用场景。

需要说明的是，本申请实施例的视频生成系统与前述的视频生成方法相对应，具体的训练过程请参照前述的视频生成方法，在此不一一赘述。

本申请实施例还提供了电子设备，包括：

至少一个存储器；

至少一个处理器；

至少一个计算机程序；

计算机程序被存储在存储器中，处理器执行至少一个计算机程序以实现本公开实施上述的视频生成方法。该电子设备可以为包括手机、平板电脑、个人数字助理(PersonalDigital Assistant，PDA)、车载电脑等任意智能终端。

本申请实施例的电子设备，用于执行上述视频生成方法，通过获取目标剧本，对该目标剧本进行文本解析，得到目标剧本的多个行文本信息。为了提高生成的目标动画视频的质量和背景风格的特色性，增强生成的目标动画视频的丰富度，从预设的模板视频库中确定每个行文本信息对应的背景模板视频，并通过提取每个行文本信息的关键词句信息，根据关键词句信息从预设的素材库中确定每个行文本信息对应的素材图片。为了能够生成与剧本内容强相关的目标动画视频，对每个行文本信息进行语音生成，得到每个行文本信息对应的句音频信息，根据句音频信息的时长，在背景模板视频中插入对应的素材图片，得到每个行文本信息的第一视频，第一视频包括多个视频帧图像，第一视频的时长与句音频信息的时长相等。根据背景模板视频的背景模板属性配置信息和关键词句信息对每个视频帧图像进行图像动效处理，得到每个行文本信息的第二视频，并根据预设的视频配置信息将多个第二视频和每个第二视频对应的句音频信息进行音视频合成，得到目标动画视频。本申请能够降低视频制作的成本，提高生产高质量动画视频的效率，且适用于更多的应用场景。

下面结合图9对本申请实施例的电子设备进行详细介绍。

请参照图9，图9示意了另一实施例的电子设备的硬件结构，电子设备包括：

处理器910，可以采用通用的中央处理器(Central Processing Unit，CPU)、微处理器、应用专用集成电路(Application Specific Integrated Circuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本公开实施例所提供的技术方案；

存储器920，可以采用只读存储器(Read Only Memory，ROM)、静态存储设备、动态存储设备或者随机存取存储器(Random Access Memory，RAM)等形式实现。存储器920可以存储操作系统和其他应用程序，在通过软件或者固件来实现本说明书实施例所提供的技术方案时，相关的程序代码保存在存储器920中，并由处理器910来调用执行本公开实施例的视频生成方法；

输入/输出接口930，用于实现信息输入及输出；

通信接口940，用于实现本设备与其他设备的通信交互，可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信；

总线950，在设备的各个组件(例如处理器910、存储器920、输入/输出接口930和通信接口940)之间传输信息；

其中处理器910、存储器920、输入/输出接口930和通信接口940通过总线950实现彼此之间在设备内部的通信连接。

本公开实施例还提供了计算机可读存储介质，该计算机可读存储介质存储有计算机可执行指令，该计算机可执行指令用于使计算机执行上述本公开实施例的视频生成方法。

本申请实施例的计算机可读存储介质，用于执行上述视频生成方法，通过获取目标剧本，对该目标剧本进行文本解析，得到目标剧本的多个行文本信息。为了提高生成的目标动画视频的质量和背景风格的特色性，增强生成的目标动画视频的丰富度，从预设的模板视频库中确定每个行文本信息对应的背景模板视频，并通过提取每个行文本信息的关键词句信息，根据关键词句信息从预设的素材库中确定每个行文本信息对应的素材图片。为了能够生成与剧本内容强相关的目标动画视频，对每个行文本信息进行语音生成，得到每个行文本信息对应的句音频信息，根据句音频信息的时长，在背景模板视频中插入对应的素材图片，得到每个行文本信息的第一视频，第一视频包括多个视频帧图像，第一视频的时长与句音频信息的时长相等。根据背景模板视频的背景模板属性配置信息和关键词句信息对每个视频帧图像进行图像动效处理，得到每个行文本信息的第二视频，并根据预设的视频配置信息将多个第二视频和每个第二视频对应的句音频信息进行音视频合成，得到目标动画视频。本申请能够降低视频制作的成本，提高生产高质量动画视频的效率，且适用于更多的应用场景。

存储器作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外，存储器可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中，存储器可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至该处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本公开实施例描述的实施例是为了更加清楚的说明本公开实施例的技术方案，并不构成对于本公开实施例提供的技术方案的限定，本领域技术人员可知，随着技术的演变和新应用场景的出现，本公开实施例提供的技术方案对于类似的技术问题，同样适用。

本领域技术人员可以理解的是，图中示出的技术方案并不构成对本公开实施例的限定，可以包括比图示更多或更少的步骤，或者组合某些步骤，或者不同的步骤。

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统、设备中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。

本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应当理解，在本申请中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：只存在A，只存在B以及同时存在A和B三种情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括多指令用以使得一台电子设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序的介质。

以上参照附图说明了本公开实施例的优选实施例，并非因此局限本公开实施例的权利范围。本领域技术人员不脱离本公开实施例的范围和实质内所作的任何修改、等同替换和改进，均应在本公开实施例的权利范围之内。

Claims

1.视频生成方法，其特征在于，所述方法包括：

提取所述每个行文本信息的关键词句信息；

根据预设的视频配置信息将多个第二视频和每个第二视频对应的所述句音频信息进行音视频合成，得到目标动画视频；

其中，所述根据所述背景模板视频的背景模板属性配置信息和所述关键词句信息对每个视频帧图像进行图像动效处理，得到所述每个行文本信息的第二视频，包括：

获取所述背景模板视频的背景模板属性配置信息，其中，所述背景模板属性配置信息包括图片属性配置信息和文字属性配置信息；

对多个所述第一视频帧图像进行图像合成，得到所述每个行文本信息的第二视频；

2.根据权利要求1所述的视频生成方法，其特征在于，所述从预设的模板视频库中确定每个行文本信息对应的背景模板视频，包括：

3.根据权利要求1所述的视频生成方法，其特征在于，所述方法还包括：构建所述模板视频库，具体包括：

4.根据权利要求1至3任一项所述的视频生成方法，其特征在于，所述根据预设的视频配置信息将多个第二视频和所述第二视频对应的所述句音频信息进行音视频合成，得到目标动画视频，包括：

5.根据权利要求1至3任一项所述的视频生成方法，其特征在于，所述方法还包括：

从预设的人物库中获取初始人物形象；

6.视频生成系统，其特征在于，所述系统包括：

第二视频生成模块，用于根据所述背景模板视频的背景模板属性配置信息和所述关键词句信息对每个视频帧图像进行图像动效处理，得到所述每个行文本信息的第二视频；其中，所述根据所述背景模板视频的背景模板属性配置信息和所述关键词句信息对每个视频帧图像进行图像动效处理，得到所述每个行文本信息的第二视频，包括：获取所述背景模板视频的背景模板属性配置信息，其中，所述背景模板属性配置信息包括图片属性配置信息和文字属性配置信息；根据所述图片属性配置信息对插入到每个视频帧图像的所述素材图片进行素材图片动效处理，得到第一视频帧图像；根据所述文字属性配置信息对每个视频帧图像进行文字显示动效处理，得到第二视频帧图像；对多个所述第一视频帧图像进行图像合成，得到所述每个行文本信息的第二视频；对多个所述第二视频帧图像进行图像合成，得到所述每个行文本信息的第二视频；

7.电子设备，其特征在于，包括：

至少一个存储器；

至少一个处理器；

至少一个计算机程序；

所述计算机程序被存储在所述存储器中，处理器执行所述至少一个计算机程序以实现：

如权利要求1至5任一项所述的视频生成方法。

8.计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行：

如权利要求1至5任一项所述的视频生成方法。