CN114390220A

CN114390220A - 一种动画视频生成方法及相关装置

Info

Publication number: CN114390220A
Application number: CN202210062036.7A
Authority: CN
Inventors: 涂必超
Original assignee: Ping An Life Insurance Company of China Ltd
Current assignee: Ping An Life Insurance Company of China Ltd
Priority date: 2022-01-19
Filing date: 2022-01-19
Publication date: 2022-04-22
Anticipated expiration: 2042-01-19
Also published as: CN114390220B

Abstract

本申请实施例公开了一种动画视频生成方法及相关装置，所述方法包括：获取目标文档的字段，并基于所述字段生成语音音频；基于所述语音音频的时长选择与之匹配的预先储存的视频模块；将所述语音音频合并到所述视频模板中，其中，所述语音音频的起始时间点与所述视频模板的起始时间点对齐，所述语音音频的结束时间点与所述视频模板的结束时间点对齐；解码合并后的视频模板得到多个视频帧，所述视频帧具有可插入图像的图像框；基于所述字段从数据库中挑选图像，将所述图像插入到至少部分视频帧中，以形成动画视频。所述动画视频可展示与所述字段相关的图像，方便观众理解目标文档的内容。

Description

一种动画视频生成方法及相关装置

技术领域

本发明涉及数据转换技术领域，特别是涉及一种动画视频生成方法及相关装置。

背景技术

在产品展示讲解、会议等场景下，演讲人事先将报告内容或者演讲内容编辑在文档中，通过展示文档的内容以供场下观众理解，场下观众在阅读文档时容易走神，而达不到让观众理解文档内容的效果，同时，演讲人逐页放映并且演讲人需要在放映过程中讲话，十分繁琐，耗费时间和精力。

发明内容

本发明实施例所要解决的技术问题在于，提供一种动画视频生成方法及相关装置，将目标文档自动生成视频，方便观众理解目标文档的内容。

第一方面，本申请实施例提供一种动画视频生成方法，其包括：

获取目标文档的字段，并基于所述字段生成语音音频；

基于所述语音音频的时长选择与之匹配的预先储存的视频模块；

将所述语音音频合并到所述视频模板中，其中，所述语音音频的起始时间点与所述视频模板的起始时间点对齐，所述语音音频的结束时间点与所述视频模板的结束时间点对齐；

解码合并后的视频模板得到多个视频帧，所述视频帧具有可插入图像的图像框；

基于所述字段从数据库中挑选图像，将所述图像插入到至少部分视频帧中，以形成动画视频。

可选的，所述字段包括多个文字，所述基于所述字段生成语音音频，包括：

解析所述字段，以确定所述字段的内容意义；

基于所述内容意义确定所述字段中各个文字的读音；

基于各个文字的读音生成所述语音音频。

可选的，所述基于各个文字的读音生成所述语音音频，包括：

基于所述内容意义将所述字段拆分为多个子字段，每个子字段至少对应一个视频帧；

基于所述多个子字段分别生成多个子语音音频，所述多个子语音音频组成所述语音音频，每个所述子语音音频至少对应一个视频帧。

可选的，所述基于所述字段从数据库中挑选图像，包括：

基于所述字段提取至少一个关键词；

基于所述关键词从数据库中查询得到与所述关键词相符的图像。

可选的，所述将所述图像插入到至少部分视频帧中，包括：

识别所述图像的内容含义，以确定与所述图像的内容含义相关联的子字段；

基于所述子字段与所述视频帧的对应关系，确定所述图像与视频帧的对应关系；

将所述图像插入到与之对应的视频帧的图像框中。

可选的，所述视频帧具有字幕框，所述方法还包括：

基于所述子字段与所述视频帧的对应关系，将各个所述子字段插入到与之对应的视频帧的字幕框中。

可选的，所述字幕框具有字符数量限制，所述将各个所述子字段插入至与之对应的视频帧的字幕框中，包括：

获取各个所述子字段的字符数量；

当存在有子字段的字符数量大于预设数量时，将所述子字段拆分为至少两个分子字段，并确定所述分子字段所对应的视频帧，其中，所述分子字段的字符数量小于等于预设数量；

将所述分子字段插入至与所述分子字段对应的视频帧的字幕框中。

第二方面，本申请实施例提供一种动画视频生成装置，其包括：

语音生成模块，用于获取目标文档的字段，并基于所述字段生成语音音频；

选择模块，用于基于所述语音音频的时长选择与之匹配的预先储存的视频模块；

合并模块，用于将所述语音音频合并到所述视频模板中，其中，所述语音音频的起始时间点与所述视频模板的起始时间点对齐，所述语音音频的结束时间点与所述视频模板的结束时间点对齐；

解码模块，用于解码合并后的视频模板得到多个视频帧，所述视频帧具有可插入图像的图像框；

插入模块，用于基于所述字段从数据库中挑选图像，将所述图像插入到至少部分视频帧中，以形成动画视频。

第三方面，本申请实施例提供一种电子设备，所述电子设备包括储存器和处理器，所述储存器用于储存计算机指令，所述处理器用于调用所述计算机指令以执行如上所述的方法。

第四方面，本申请实施例提供一种计算机储存介质，所述计算机储存介质存储有计算机指令，所述计算机指令被处理器执行时实现如上所述的方法。

通过本申请实施例，基于目标文档的字段生成语音音频，将语音音频与视频模板合并，并基于目标文档的字段从数据库中挑选图像，将挑选出的图像插入到视频模板的视频帧中，以形成动画视频，所述动画视频可展示与所述字段相关的图像，方便观众理解目标文档的内容。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的动画视频生成方法的流程示意图；

图2是本申请实施例提供的动画视频生成装置的结构示意图；

图3是本申请实施例提供的电子设备的结构示意图。

具体实施方式

下面结合本申请实施例中的附图对本申请的实施例进行描述。

本申请的说明书和权利要求书及上述附图中的术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选的还包括没有列出的步骤或单元，或可选的还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

请参见图1，本申请实施例公开一种动画视频生成方法，所述方法包括但不限于S1-S5。

S1，获取目标文档的字段，并基于所述字段生成语音音频。

所述目标文档具有文字内容，所述目标文档的格式可以是图像、ppt、pdf、word等格式。

在本申请提供的实施中，所述方法的执行主体可以是动画视频生成装置100，具体地，所述装置可以电脑、手机、扫描仪等智能设备，所述装置可以识别目标文档中的字段，同时可以提取所述目标文档中字段，所述装置可以将提取的字段进行保存。

所述语音音频包括起始时间点和结束时间点，在本申请提供的实施例中，所述字段具体可以由文字组成和标点符号组成，示例性地，若字段由汉字和标点符号组成，在基于所述字段生成语音音频时，根据字段中的汉字发音生成汉语语音音频，其中，标点符号不发音；若字段中含有英语单词、汉字和标点符号，在生成语音音频时，汉语以汉语进行发音，英语单词以英语进行发音，标点符号不发音。

在本申请提供的实施例中，所述语音音频的第一个发音对应语音音频的起始时间点，所述语音音频的最后一个发音对应语音音频的结束时间点。

S2，基于所述语音音频的时长选择与之匹配的预先储存的视频模块。

在本申请提供的实施例中，基于所述字段生成的语音音频具有一定的时长，在数据库中选择视频模块时，一般要求视频模板的时长大于等于所述语音音频的时长。

在本申请提供的实施例中，所述视频模板可以是用户根据目标文档而设计的视频模块，用户将根据目标而设计的视频模板保存在数据库中，所述视频模板还可以通用视频模板，所述通用视频模板保存在数据库中。

所述装置可以对目标文档中的字段进行分析，获取字段的主题，在获取预存在数据库中的视频模板，根据字段的主题从数据库中获取与所述主题相关联的通用视频模板。

S3，将所述语音音频合并到所述视频模板中，其中，所述语音音频的起始时间点与所述视频模板的起始时间点对齐，所述语音音频的结束时间点与所述视频模板的结束时间点对齐。

所述视频模板由多个视频帧组成，在从数据库中获取视频模板后，对合并后的视频模板进行解码，进而得到组成所述视频模板的视频帧，在本申请提供的实施例中，所述视频帧可以被编辑，所述视频帧中可以插入字段和图像。

在本申请实施例中，当从数据库中选择的视频模板与语音音频的时长相同时，可以使视频模板的起始时间点与所述语音音频的起始时间点对齐，同时使视频模板的结束时间点与语音音频的结束时间点对齐。

当从数据库选择的视频模板大于所述语音音频的时长时，可以对视频模板进行剪辑，使得视频模板的时长与所述语音音频的时长相同，然后使剪辑后的视频模块的起始时间点与所述语音音频的起始时间点对齐，同时使所述剪辑后的视频模板与所述语音音频的结束时间点对齐。

S4，解码合并后的视频模板得到多个视频帧，所述视频帧具有可插入图像的图像框。

在一种可能的实现方式中，在所述语音音频与所述视频模板合并时，对视频模板中的视频帧进行编号，根据语音音频的起始时间点和结束时间点设定所述视频模板的起始视频帧和结束视频帧。

在本申请提供的实施例中，通过设定视频模板的起始视频帧和结束视频帧，使得所述语音音频的时长与所述视频模板的时长相同，在将所述语音音频与所述视频模板合并后，可使得所述语音音频与所述视频模板同步。

S5，基于所述字段从数据库中挑选图像，将所述图像插入到至少部分视频帧中，以形成动画视频。

在本申请提供的实施例中，为了更形象表达目标文档中的文字内容，基于所述字段从数据库中挑选待插入的图像，其中，挑选出的图像与所述字段内容相关联，将所述图像插入到视频模板中，以合成动画视频，在播放视频时，动画视频可播放与所述字段相关联的图像，示例性地，当目标文档的字段描述的是关于“高血压”的内容，所述图像中内容为关于高血压的内容介绍，若目标文档中字段描述的是关于“腰腿疼”的内容，所述图像中内容为腰腿疼的内容介绍。

在本申请提供的实施例中，基于目标文档的字段生成语音音频，将语音音频与视频模板合并，之后将目标文档的字段插入到视频模板的视频帧中，并基于目标文档的字段从数据库中挑选图像，将挑选出的图像插入到视频模板的视频帧中，以形成动画视频。

所述字段包括多个文字，所述基于所述字段生成语音音频，包括：

解析所述字段，以确定所述字段的内容意义；

基于所述内容意义确定所述字段中各个文字的读音；

基于各个文字的读音生成所述语音音频。

在本申请提供的实施例中，在生成语音音频时，具体根据字段的类型进行发声，若字段为汉字，可以用汉语发声，若字段为英文，可以用英语发声。

以字段的类型为汉语为例，字段中文字可能会存在多音字，具体在生成所述子语音音频时，要根据所述多音字所在字段的整体意思进行判断，通过识别字段的内容意义，进而可确定字段中各个文字的读音。

在确定字段中各个文字读音的情况下，将各个所述文字的读音串联起来，形成所述语音音频。

所述基于各个文字的读音生成所述语音音频，包括：

在本申请提供的实施例中，所述字段包括多个子字段，所述字段中的所述多个子字段通过标点符号进行分隔，在生成所述语音音频时，一个子字段对应生成一个子语音音频。

在本申请提供的实施例中，所述目标文档中的字段可能存在多个标点符号，在将所述字段拆分为多个子字段时，可以通过识别标点符号将所述字段拆分为多个子字段。

通过识别标点符号将所述字段拆分为多个子字段时，拆分后的子字段的字符数量仍然可能比较长，本申请实施例可以通过识别子字段的内容意义，将字符数量较多的子字段拆分为多个字符数量较少的子字段。

在本申请提供的实施中，通过理解各个子字段的内容意义，可确定各个子字段中各文字的读音，在基于子字段生成子语音音频时，可避免子字段中因存在多音文字而导致子语音音频出错。

在本申请提供的实施例中，基于多个所述子字段分别生成多个子语音音频，子语音音频具有时长，各个子语音音频至少对应视频模板中的一个视频帧，相应地，各个子字段分别至少对应视频模板中的一个视频帧。

一般来说，一个子字段对应多个视频帧，示例性的，各个子字段分别对应子语音音频，在播放视频动画时，子语音音频所在的时长内，视频动画会播放出多个视频帧。

在本申请提供的实施例中，一般来说，一个子字段可能具有多个文字，基于所述子字段生成的子语音音频具有一定的时长，示例性地，若子字段的具体内容为“腰腿痛是以腰部和腿部疼痛为主要症状的病症”，基于该子字段生成的子语音音频的时长大约为8秒，在播放动画视频时，在该8秒时间内，多少动画视频会播放出多个视频帧，所述子语音音频与所述播放出的多个视频帧对应，其中，在确定所述子语音音频与所述播放出的多个视频帧的对应关系后，由于子字段与所述子语音音频存在对应关系，所述子字段也与所述播放出的多个视频帧对应。

所述基于所述字段从数据库中挑选图像，包括：

基于所述字段提取至少一个关键词；

在本申请提供的实施例中，每个子字段都具有相应的内容意义，示例性地，当字段中内容为“腰腿痛是以腰部和腿部疼痛为主要症状的病症”，通过解析所述字段，提取到“腰腿痛”的关键词，然后根据“腰腿痛”的关键词从数据查询获得与“腰腿痛”相关的图像。

在本申请提供的实施例中，数据库中预先储存各种各样的图像，储存在所述数据库中图像可以具有标签，通过关键词在数据库中查询图像时，通过使图像的标签与所述关键词进行对比，以便于通过关键词获取与所述关键词相符的图像。

所述将所述图像插入到至少部分视频帧中，包括：

将所述图像插入到与之对应的视频帧的图像框中。

在一种可能的实现方式中，通过关键词可以在数据库中查询得到多个图像，对个多个图像进行逐个分析，以识别出各个图像的内容含义，确定各个所述图像与各个子字段的关联关系。

示例性，当图像的内容含义为治疗“腰腿痛”的方式，而子字段的内容为“支持性治疗、康复治疗、手术治疗”，可确定所述图像与所述子字段对应，进一步可确定所述图像与视频模板中视频帧的对应关系(子字段对应至少一个视频帧)，然后将所述图像插入到与所述图像对应的视频帧的图像框中，进而形成视频动画。

所述视频帧具有字幕框，所述方法还包括：

在本申请提供的实施例中，各个视频帧的字幕框可插入对应子的子字段，使所述子字段显示在与所述子字段对应的字幕框中。

所述字幕框具有字符数量限制，所述将各个所述子字段插入至与之对应的视频帧的字幕框中，包括：

获取各个所述子字段的字符数量；

在本申请提供的实施例中，各个子字段具体可包括第一子字段、第二子字段，对应地，各个子语音音频可包括第一子语音音频和第二子语音音频，所述第一子字段与所述第一子语音音频对应，所述第二子字段与所述第二子语音音频对应，示例性地，若第一子语音音频具有起始时间点，所述第二子语音音频具有结束时间点，所述第一子语音音频的起始时间点与视频模板的起始视频帧对齐，所述第二子语音音频的结束时间点与所述视频模板的结束视频帧对齐，在播放视频动画时，所述第一子语音音频会对应多个视频帧，所述第二子语音音频会对应多个视频帧，所述第一子语音音频对应的多个视频帧的字幕框中都插入第一子字段，所述第二子语音音频对应的多个视频帧的字幕框中都插入第二子字段。

在本申请提供的实施例中，各个视频帧的字幕框的尺寸可以预先设定，子字段中的文字大小可以通过人为设定，预先设定的字幕框在插入子字段时，所述字幕框中可插入的子字段的字符的数量为有限的，示例性地，当第一子字段的字符数量为20个，而所述第一子字段所对应的视频帧的字幕框的字符数量限制为15时，所述装置可以将第一子字段拆分为第一分子字段和第二分子字段，具体地，所述第一分子字段的字符数量可以为10个，所述第二分子字段的字符数量可以为10个。

在本申请提供的实施例中，在将所述第一子字段拆分为第一分子字段和第二分子字段时，所述装置可以获取第一子字段的内容意义，在将所述第一子字段拆分为第一分子字段和第二分子字段时，不改变所述第一子字段的原本内容意义。

请参见图2，本申请实施例还提供一种动画视频生成装置100，所述动画视频生成装置100包括：

语音生成模块110，用于获取目标文档的字段，并基于所述字段生成语音音频；

选择模块120，用于基于所述语音音频的时长选择与之匹配的预先储存的视频模块；

合并模块130，用于将所述语音音频合并到所述视频模板中，其中，所述语音音频的起始时间点与所述视频模板的起始时间点对齐，所述语音音频的结束时间点与所述视频模板的结束时间点对齐；

解码模块140，用于解码合并后的视频模板得到多个视频帧，所述视频帧具有可插入图像的图像框以及可插入字段的字幕框；

插入模块150，用于基于所述字段从数据库中挑选图像，将所述图像插入到至少部分视频帧中，以形成动画视频。

所述动画视频生成装置100所涉及的与本申请实施例提供的技术方案相关的概念，解释和详细说明及其他步骤请参见前述方法或其他实施例中关于动画视频生成装置100执行的方法步骤的内容的描述，此处不做赘述。

请参见图3，为本申请实施例提供的一种电子设备200，所述电子设备200可包括处理器210、储存器220和通信接口230。处理器210、储存器220和通信接口230通过总线240连接，该储存器220用于存储指令，该处理器210用于执行该储存器220存储的指令。

处理器210用于执行该储存器220存储的指令，以控制通信接口230接收和发送信号，完成上述方法中的步骤。其中，所述储存器220可以集成在所述处理器210中，也可以与所述处理器210分开设置。

在一种可能的实现方式中，通信接口230的功能可以考虑通过收发电路或者收发的专用芯片实现。处理器210可以考虑通过专用处理芯片、处理电路、处理器210或者通用芯片实现。

在另一种可能的实现方式中，可以考虑使用通用计算机的方式来实现本申请实施例提供的电子设备200。即将实现处理器210，通信接口230功能的程序代码存储在储存器220中，通用处理器210通过执行储存器220中的代码来实现处理器210，通信接口230的功能。

所述电子设备200所涉及的与本申请实施例提供的技术方案相关的概念，解释和详细说明及其他步骤请参见前述方法或其他实施例中关于装置执行的方法步骤的内容的描述，此处不做赘述。

作为本实施例的另一种实现方式，提供一种计算机可读存储介质，用于存储计算机程序，计算机可读存储介质中存储有指令，当所述指令在计算机上运行时，执行上述实施例中的方法。

作为本实施例的另一种实现方式，提供一种包含指令的计算机程序产品，该指令被执行时执行上述方法实施例中的方法。

本领域技术人员可以理解，在实际的终端或服务器中，可以存在多个处理器210和储存器220。储存器220也可以称为存储介质或者存储设备等，本申请实施例对此不做限制。

应理解，在本申请实施例中，处理器210可以是中央处理单元(CentralProcessing Unit，简称CPU)，该处理器210还可以是其他通用处理器210、数字信号处理器210(Digital Signal Processing，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现成可编程门阵列(Field－Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。

还应理解，本申请实施例中提及的储存器220可以是易失性储存器或非易失性储存器，或可包括易失性和非易失性储存器两者。其中，非易失性储存器可以是只读储存器(Read-Only Memory，简称ROM)、可编程只读储存器(Programmable ROM，简称PROM)、可擦除可编程只读储存器(Erasable PROM，简称EPROM)、电可擦除可编程只读储存器(Electrically EPROM，简称EEPROM)或闪存。易失性储存器可以是随机存取储存器(RandomAccess Memory，简称RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取储存器(Static RAM，简称SRAM)、动态随机存取储存器(Dynamic RAM，简称DRAM)、同步动态随机存取储存器(Synchronous DRAM，简称SDRAM)、双倍数据速率同步动态随机存取储存器(Double Data Rate SDRAM，简称DDR SDRAM)、增强型同步动态随机存取储存器(Enhanced SDRAM，简称ESDRAM)、同步连接动态随机存取储存器(Synchlink DRAM，简称SLDRAM)和直接内存总线随机存取储存器(Direct Rambus RAM，简称DR RAM)。

需要说明的是，当处理器210为通用处理器、DSP、ASIC、FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件时，储存器220(存储模块)集成在处理器210中。

应注意，本文描述的储存器220旨在包括但不限于这些和任意其它适合类型的储存器。

该总线240除包括数据总线240之外，还可以包括电源总线、控制总线和状态信号总线等。但是为了清楚说明起见，在图中将各种总线240都标为总线240。

还应理解，本文中涉及的第一、第二、第三、第四以及各种数字编号仅为描述方便进行的区分，并不用来限制本申请的范围。

应理解，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

在实现过程中，上述方法的各步骤可以通过处理器210中的硬件的集成逻辑电路或者软件形式的指令完成。结合本申请实施例所公开的方法的步骤可以直接体现为硬件处理器210执行完成，或者用处理器210中的硬件及软件模块组合执行完成。软件模块可以位于随机储存器，闪存、只读储存器，可编程只读储存器或者电可擦写可编程储存器、寄存器等本领域成熟的存储介质中。该存储介质位于储存器220，处理器210读取储存器220中的信息，结合其硬件完成上述方法的步骤。为避免重复，这里不再详细描述。

在本申请的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各种说明性逻辑块(illustrative logical block，简称ILB)和步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘)等。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种动画视频生成方法，其特征在于，包括：

获取目标文档的字段，并基于所述字段生成语音音频；

2.如权利要求1所述的动画视频生成方法，其特征在于，所述字段包括多个文字，所述基于所述字段生成语音音频，包括：

解析所述字段，以确定所述字段的内容意义；

基于所述内容意义确定所述字段中各个文字的读音；

基于各个文字的读音生成所述语音音频。

3.如权利要求2所述的动画视频生成方法，其特征在于，所述基于各个文字的读音生成所述语音音频，包括：

4.如权利要求1或2所述的动画视频生成方法，其特征在于，所述基于所述字段从数据库中挑选图像，包括：

基于所述字段提取至少一个关键词；

5.如权利要求3所述的动画视频生成方法，其特征在于，所述将所述图像插入到至少部分视频帧中，包括：

将所述图像插入到与之对应的视频帧的图像框中。

6.如权利要求3所述的动画视频生成方法，其特征在于，所述视频帧具有字幕框，所述方法还包括：

7.如权利要求6所述的动画视频生成方法，其特征在于，所述字幕框具有字符数量限制，所述将各个所述子字段插入至与之对应的视频帧的字幕框中，包括：

获取各个所述子字段的字符数量；

8.一种动画视频生成装置，其特征在于，包括：

9.一种电子设备，其特征在于，所述电子设备包括储存器和处理器，所述储存器用于储存计算机指令，所述处理器用于调用所述计算机指令以执行如权利要求1-7任一项所述的方法。

10.一种计算机储存介质，其特征在于，所述计算机储存介质存储有计算机指令，所述计算机指令被处理器执行时实现上述权利要求1-7任意一项所述的方法。