CN109195007A

CN109195007A - 视频生成方法、装置、服务器及计算机可读存储介质

Info

Publication number: CN109195007A
Application number: CN201811221193.8A
Authority: CN
Inventors: 刘均; 刘新; 郭朝晖; 兰飞; 黄璐
Original assignee: Shenzhen Tyre Automobile Maintenance Technology Co Ltd
Current assignee: Shenzhen Tyre Automobile Maintenance Technology Co Ltd
Priority date: 2018-10-19
Filing date: 2018-10-19
Publication date: 2019-01-11
Anticipated expiration: 2038-10-19
Also published as: CN109195007B

Abstract

本申请实施例适用于视频技术领域，公开了一种视频生成方法、装置、服务器及存储介质，其中，方法包括：获取目标音频和与目标音频对应的目标文档；根据预设图片参数，按照页码将目标文档输出为图片序列；根据目标音频的音频文件信息、图片序列以及预先设置的视频参数，生成初始视频。本申请实施例可以提高视频生成的便捷性和效率。

Description

视频生成方法、装置、服务器及计算机可读存储介质

技术领域

本申请属于视频技术领域，尤其涉及一种视频生成方法、装置、服务器及计算机可读存储介质。

背景技术

随着互联网的发展，网络教学视频资源越来越丰富。

目前，网络教学视频资源一般是以音视频的方式进行展示，网络上的教学视频资源一般是预先制作好教学音频、教学视频图像等，再在线下手动处理，生成相应的教学视频，然后再上传至网络平台上。这种视频生成方式十分繁琐，效率、便捷性十分低下。

发明内容

有鉴于此，本申请实施例提供一种视频生成方法、装置、服务器及计算机可读存储介质，以解决现有技术中手动生成视频导致效率、便捷性低下的问题。

本申请实施例的第一方面提供一种视频生成方法，包括：

获取目标音频和与所述目标音频对应的目标文档；

根据预先设置的图片参数，按照页码将所述目标文档输出为图片序列；

根据所述目标音频的音频文件信息、所述图片序列以及预先设置的视频参数，生成初始视频。

结合第一方面，在一种可行的实现中，所述根据所述目标音频的音频文件信息、所述图片序列以及预先设置的视频参数，生成初始视频，包括：

根据所述音频文件信息和所述视频参数，生成目标初始视频；

将所述目标初始视频的每一帧设置为所述图片序列的第一张图片，并将所述目标音频导入所述目标初始视频的音轨，得到所述初始视频。

结合第一方面，在一种可行的实现中，在所述根据所述目标音频的音频文件信息、所述图片序列以及预先设置的视频参数，生成初始视频之后，还包括：

通过对所述目标文档进行识别，得到各页的第一文字信息，通过对所述目标音频进行语音识别，得到第二文字信息，并标识每段语音文字的起始时间；

根据所述第二文字信息和所述第一文字信息，确定每段所述语音文字对应的图片；

根据所述起始时间、所述初始视频、所述图片序列和所述视频参数，生成目标视频。

结合第一方面，在一种可行的实现中，所述通过对所述目标文档进行识别，得到各页的第一文字信息，包括：

识别所述目标文档中的文字内容，得到第三文字信息；

识别所述目标文档中的图片，得到图片应用场景信息和图片文字信息。

结合第一方面，在一种可行的实现中，所述根据所述起始时间、所述初始视频、所述图片序列和所述视频参数，生成目标视频，包括：

基于每段所述语音文字的所述起始时间和视频帧频，在所述初始视频的对应帧插入所述图片序列中对应的图片，生成目标视频。

结合第一方面，在一种可行的实现中，所述根据所述第二文字信息和所述第一文字信息，确定每段所述语音文字对应的图片，包括：

利用相似度算法，根据所述第二文字信息，将各段所述语音文字分别与各页内的所述第一文字信息进行匹配，确定每段所述语音文字对应的图片。

结合第一方面，在一种可行的实现中，所述利用相似度算法，根据所述第二文字信息，将各段所述语音文字分别与各页内的所述第一文字信息进行匹配，确定每段所述语音文字对应的图片，包括：

从所述各段所述语音文字中提取相应的第一关键词；

从各页的所述第一文字信息中提取相应的第二关键词；

利用所述相似度算法，将各个所述第一关键词分别与各页的第二关键词进行匹配，确定每段所述语音文字对应的图片。

本申请实施例的第二方面提供一种视频生成装置，包括：

获取模块，用于获取目标音频和与所述目标音频对应的目标文档；

输出模块，用于根据预先设置的图片参数，按照页码将所述目标文档输出为图片序列；

初始视频生成模块，用于根据所述目标音频的音频文件信息、所述图片序列以及预先设置的视频参数，生成初始视频。

结合第二方面，在一种可行的实现中，所述初始视频生成模块包括：

第一生成单元，用于根据所述音频文件信息和所述视频参数，生成目标初始视频；

设置单元，用于将所述目标初始视频的每一帧设置为所述图片序列的第一张图片，并将所述目标音频导入所述目标初始视频的音轨，得到所述初始视频。

结合第二方面，在一种可行的实现中，还包括：

识别模块，用于通过对所述目标文档进行识别，得到各页的第一文字信息，通过对所述目标音频进行语音识别，得到第二文字信息，并标识每段语音文字的起始时间；

确定模块，用于根据所述第二文字信息和所述第一文字信息，确定每段所述语音文字对应的图片；

目标视频生成模块，用于根据所述起始时间、所述初始视频、所述图片序列和所述视频参数，生成目标视频。

结合第二方面，在一种可行的实现中，所述识别模块包括：

第一识别单元，用于识别所述目标文档中的文字内容，得到第三文字信息；

第二识别单元，用于识别所述目标文档中的图片，得到图片应用场景信息和图片文字信息。

结合第二方面，在一种可行的实现中，所述目标视频生成模块包括：

第二生成单元，用于基于每段所述语音文字的所述起始时间和视频帧频，在所述初始视频的对应帧插入所述图片序列中对应的图片，生成目标视频。

结合第二方面，在一种可行的实现中，所述确定模块包括：

确定单元，用于利用相似度算法，根据所述第二文字信息，将各段所述语音文字分别与各页内的所述第一文字信息进行匹配，确定每段所述语音文字对应的图片。

结合第二方面，在一种可行的实现中，所述确定单元包括：

第一提取子单元，用于从所述各段所述语音文字中提取相应的第一关键词；

第二提取子单元，用于从各页的所述第一文字信息中提取相应的第二关键词；

匹配子单元，用于利用所述相似度算法，将各个所述第一关键词分别与各页的第二关键词进行匹配，确定每段所述语音文字对应的图片。

本申请实施例的第三方面提供一种服务器，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述第一方面任一项所述方法的步骤。

本申请实施例的第四方面提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如上述第一方面任一项所述方法的步骤。

本申请实施例与现有技术相比存在的有益效果是：

本申请实施例通过识别目标音频和目标文档，得到相应的文字信息；然后按页码将目标文档输出为图片序列，根据图片序列、视频参数、音频文件信息，生成初始视频，实现了根据音频和文档自动生成视频，不用手动处理生成视频，提高了视频生成的便捷性和效率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例一提供的一种视频生成方法的流程示意框图；

图2为本申请实施例二提供的一种视频生成方法的另一种流程示意框图；

图3为本申请实施例三提供的一种视频生成方法的又一种流程示意框图；

图4为本申请实施例五提供的一种视频生成装置的结构示意框图；

图5为本申请实施例六提供的服务器的示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

为了说明本申请所述的技术方案，下面通过具体实施例来进行说明。

实施例一

请参见图1，为本申请实施例提供的一种视频生成方法的流程示意框图，该方法可以包括以下步骤：

步骤S101、获取目标音频和与目标音频对应的目标文档。

需要说明的是，上述目标文档与目标音频是相互对应的，即，目标音频的内容和目标文档的内容是相关联或者是一致的。例如，目标文档是关于如何维修汽车的文档，则该目标音频是针对目标文档的内容进行讲解或描述的音频。

一般情况下，目标音频是由用户通过根据目标文档的内容进行录音生成的文件。当然，也可以根据目标音频的内容来制作生成相应的目标文档，例如，在汽车维修时，维修技师一边维修一边录制教学音频，录制完成后，可以根据教学音频的相应内容制作生成目标文档。简而言之，只要目标音频和目标文档的内容相对应、相一致或相关联即可。

目标音频和目标文档内的内容可以是任意的，一般为教学类的音频和文档，也可以为其它类别的音频和文档，在此不作限定。

具体地，用户可以将目标音频和目标文档通过客户端上传至服务器端，服务器端获取到目标音频和目标文档之后，则可以识别目标音频和目标文档，获取到相应的信息。

步骤S102、根据预先设置的图片参数，按照页码将目标文档输出为图片序列。

可以理解的是，上述图片参数可以包括但不限于图片尺寸和图片格式。根据该图片参数，按照文档的页码先后顺序，将目标文档的各页输出为相应的图片。根据文档类型、浏览软件的不同，可以通过虚拟打印机方式，将目标文档输出为相应的图片序列。

例如，当目标文档为PPT文档时，该文档共50页，设定的图片质量输出分辨率为1920*1080，图片格式为JPG格式。则根据该分辨率、图片格式，利用虚拟打印机，输出图片序列1.jpg、2.jpg…50.jpg。

步骤S103、根据目标音频的音频文件信息、图片序列以及预先设置的视频参数，生成初始视频。

需要说明的是，上述音频文字信息可以包括音频时长信息、音频比特率信息等。视频参数可以包括视频格式、视频帧频、分辨率等参数。

例如，当音频时长为30分钟，比特率为96kbps，则设定视频的时长为30分钟，比特率为96kbps。预先设置的帧频为24，分辨率为1080P，格式为MP4。根据此，生成的相应的视频文件。然后可以将视频的每一帧均设置为文档的第一张图片，以避免视频出现空白帧，并且可以在该视频文件的音轨中导入目标音频文件，生成了有声音、图像为文档第一页的初始视频文件。

实施例二

请参见图2，为本发明实施例提供的一种视频生成方法的另一流程示意框图，该方法可以包括以下步骤：

步骤S201、获取目标音频和与目标音频对应的目标文档。

步骤S202、根据预先设置的图片参数，按照页码将目标文档输出为图片序列。

步骤S203、根据目标音频的音频文件信息、图片序列以及预先设置的视频参数，生成初始视频。

需要说明的是，步骤S201～步骤S203与上述实施例一中的步骤S101～步骤S103相同，相关介绍请参见上文相应部分，在此不再赘述。

步骤S204、通过对目标文档进行识别，得到各页的第一文字信息，通过对目标音频进行语音识别，得到第二文字信息，并标识每段语音文字的起始时间。

需要说明的是，目标文档的表现形式可以是任意的，其可以具体为PPT文档，也可以为word文档，亦或者是其它类型的文档。该目标文档内的某一页内可能存在有图片，此时，上述第一文字信息可以包括各页的文字内容对应的文字信息和应用场景文字信息，该应用文字场景信息是通过识别图片的应用场景、图片内的文字得出的文字信息。当然，该目标文档的各页内可能都不存在图片，此时，上述第一文字信息包括该文档的文字内容对应的文字信息。

其中，识别图片中的文字和根据图片识别该图片的应用场景的具体过程均被本领域技术人员所熟知。具体地，图像识别服务(Image Recognition)基于大数据和深度学习实现，可精准识别图像中的视觉内容，包括上千种物体标签、数十种常见场景等，包含图像打标、场景分类、鉴黄等在线API服务模块，应用于智能相册管理、图片分类和检索、图片安全监控等场景。

对于目标音频，可以通过语音识别技术进行语音转换，得到转换后的文字信息。而语音识别技术已被本领域技术人员所熟知，例如，讯飞语音识别等，在此不再赘述。

上述标识每段语音文字的起始时间是指某段语音文字的开始时间和结束时间，例如，识别出的某段文字，其对应的时间段为00:01—00:11。

步骤S205、根据第二文字信息和所述第一文字信息，确定每段语音文字对应的图片。

可以理解的是，视频可看成是图片的集合，如标准电影是24帧频，那就是每秒由24张图组成，每一帧设置为第一张图片就是，每秒钟的这24张图片，都设置成一样的，视频在播放时，看上去是一张静止的图片。

在一实施例中，本步骤可以具体为：利用相似度算法，根据所述第二文字信息，将各段所述语音文字分别与各页内的所述第一文字信息进行匹配，确定每段所述语音文字对应的图片。

上述相似度算法可以具体为余弦相似度算法、欧式距离相似度算法等，这些算法的具体过程已经被本领域技术人员所熟知，在此不再赘述。

基于相似度算法，定义当相似度达到某个阈值时，则匹配成功。将语音识别出来的各段语音文字，与目标文档中各页的文字进行相互匹配，以确定出每段语音文字对应哪一页图片。

具体应用中，可以通过分别提取各段语音文字和目标文档各页的关键词，利用关键词进行匹配，确定各段语音文字对应的图片。

例如，音频的文字“今天带给大家带来的是咱们这个汽车动力电池原理讲解”，提取的关键词是“汽车动力”、“电池”以及“原理”。而识别出的文档文字内容是“目录：丰田汽车动力电池、镍氢动力电池、接触器、预充电路示意图”从中提取的关键词是“丰田”、“汽车动力”以及“电池”、“镍氢动力电池”。这两者的关键词达到一定相同量后，可以认为是匹配成功，确定出该段语音文字对应的图片，这样，在播放该段语音期间，播放该图片。

步骤S206、根据起始时间、初始视频、图片序列和视频参数，生成目标视频。

可以理解的是，上述视频参数可以具体为帧频。根据各段语音的文字的起始时间，在初始视频的对应帧上插入各段语音对应的图片，即可生成最终的目标视频。

本实施例中，通过识别目标音频和目标文档，得到相应的文字信息；然后按页码将目标文档输出为图片序列，根据图片序列、视频参数、音频文件信息，生成初始视频；再确定每段语音文字对应的图片，基于初始视频，生成目标视频，实现了根据音频和文档自动生成视频，不用手动处理生成视频，提高了视频生成的便捷性和效率。

实施例三

请参见图3，为本申请实施例提供的一种视频生成方法的又一种流程示意框图，该方法可以包括以下步骤：

步骤S301、获取目标音频和与目标音频对应的目标文档。

步骤S302、通过对目标文档进行识别，得到各页的第一文字信息，通过对目标音频进行语音识别，得到第二文字信息，并标识每段语音文字的起始时间。

其中，在一些实施例中，上述通过对目标文档进行识别，得到各页的第一文字信息的具体过程可以包括：识别目标文档中的文字内容，得到第三文字信息；识别目标文档中的图片，得到图片应用场景信息和图片文字信息。即，当目标文档中包括有图片时，除了识别文档中的文字内容外，还可以识别图片的应用场景，识别图片中的文字。

步骤S303、根据预先设置的图片参数，按照页码将目标文档输出为图片序列。

步骤S304、根据音频文件信息和视频参数，生成目标初始视频。

步骤S305、将目标初始视频的每一帧设置为图片序列的第一张图片，并将所述目标音频导入所述目标初始视频的音轨，得到初始视频。

步骤S306、从各段语音文字中提取相应的第一关键词，从各页的第一文字信息中提取相应的第二关键词。

其中，关键词的提取可以通过分词技术(如由副词进行分割)实现；也可以自建关键词库，进行匹配；也可以利用第三方提供服务的AI技术，进行智能语义识别。分别从各段语音文字中提取各段对应的第一关键词，分别从目标文档的各页的文字信息中提取各页对应的第二关键词。

步骤S307、利用相似度算法，将各个第一关键词分别与各页的第二关键词进行匹配，确定每段语音文字对应的图片。

步骤S308、基于每段语音文字的起始时间和视频帧频，在初始视频的对应帧插入图片序列中对应的图片，生成目标视频。

需要说明的是，本实施例与上述实施例一的相同或相似之处，可参见上文相应内容，在此不再赘述。

本实施例中，基于目标音频和目标文档，自动生成视频，不用手动处理生成视频，提高了视频生成的便捷性和效率。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

实施例四

本申请实施例提供的视频生成方法可以应用于汽车维修教学、课程教学以及其它应用场景。本实施例将以汽车维修教学场景为例，介绍本申请实施例的视频生成方法的相应过程。

在该应用场景下，系统可以包括服务器端和用户端。用户可以通过用户端上传音频文件，例如，mp3、avi等格式的音频文件。服务器接收到用户上传的音频文件之后，可以利用语音识别技术，将音频识别成相应的文字，并标识每段语音文字的起始时间段。例如，对某一音频文件进行识别得到如下表1所示的内容。

表1

其中，表1中的时间段可以看作是音频文件对应的时间段。

用户通过用户端也可以将与音频文件对应的文档上传至服务器。服务器接收到该文档之后，对文档内的文字内容、图片应用场景、图片文字等进行识别，得到相应的识别结果。例如，对某一文档进行识别可以得到如下表2所示的内容。

表2

其中，表2中页码是指目标文档中的页码。

接收到用户上传的文档后，除了可以对文档进行识别之外，还可以按照文档页码，通过虚拟打印机的方式，根据设定的图片尺寸、图片格式，将文档输出为相应的图片序列。一般情况下，一页文档输出为一张图片。

然后，可以根据音频时长、音频比特率等信息，生成相应时长、相应比特率的视频文件，然后根据设定的视频格式、视频帧率、分辨率等视频参数，相应地设置该视频文件的参数。为了避免视频中出现空白帧，可以预先设置该视频文件的每一帧为上述生成的图片序列中的第一张图片。然后，在该视频的音轨中导入用户上传的对应的音频，生成有声音、图像为文档第一页的初始视频文件。

接着，可以确定每段语音文字对应的图片，在初始视频文件中的对应帧插入对应的图片，以生成最终的汽车维修教学视频文件。

可以看出，本实施例可以通过用户上传的音频和文档，自动生成视频文件，效率和便捷性较高。

实施例五

请参见图4，为本申请实施例提供的一种视频生成装置的结构示意框图，该装置可以包括：

获取模块41，用于获取目标音频和与目标音频对应的目标文档；

输出模块42，用于根据预先设置的图片参数，按照页码将目标文档输出为图片序列；

初始视频生成模块43，用于根据目标音频的音频文件信息、图片序列以及预先设置的视频参数，生成初始视频。

在一种可行的实现中，上述初始视频生成模块可以包括：

第一生成单元，用于根据音频文件信息和视频参数，生成目标初始视频；

设置单元，用于将目标初始视频的每一帧设置为图片序列的第一张图片，并将目标音频导入目标初始视频的音轨，得到初始视频。

在一种可行的实现中，上述装置还可以包括：

识别模块，用于通过对目标文档进行识别，得到各页的第一文字信息，通过对目标音频进行语音识别，得到第二文字信息，并标识每段语音文字的起始时间；

确定模块，用于根据第二文字信息和第一文字信息，确定每段语音文字对应的图片；

目标视频生成模块，用于根据起始时间、初始视频、图片序列和视频参数，生成目标视频。

在一种可行的实现中，上述识别模块可以包括：

第一识别单元，用于识别目标文档中的文字内容，得到第三文字信息；

第二识别单元，用于识别目标文档中的图片，得到图片应用场景信息和图片文字信息。

在一种可行的实现中，上述目标视频生成模块可以包括：

第二生成单元，用于基于每段语音文字的起始时间和视频帧频，在初始视频的对应帧插入图片序列中对应的图片，生成目标视频。

在一种可行的实现中，上述确定模块可以包括：

确定单元，用于利用相似度算法，根据第二文字信息，将各段语音文字分别与各页内的第一文字信息进行匹配，确定每段语音文字对应的图片。

在一种可行的实现中，上述确定单元可以包括：

第一提取子单元，用于从各段语音文字中提取相应的第一关键词；

第二提取子单元，用于从各页的第一文字信息中提取相应的第二关键词；

匹配子单元，用于利用相似度算法，将各个第一关键词分别与各页的第二关键词进行匹配，确定每段语音文字对应的图片。

实施例六

图5是本申请一实施例提供的服务器的示意图。如图5所示，该实施例的服务器5包括：处理器50、存储器51以及存储在所述存储器51中并可在所述处理器50上运行的计算机程序52。所述处理器50执行所述计算机程序52时实现上述各个视频生成方法实施例中的步骤，例如图1所示的步骤S101至S103。或者，所述处理器50执行所述计算机程序52时实现上述各装置实施例中各模块或单元的功能，例如图4所示模块41至43的功能。

示例性的，所述计算机程序52可以被分割成一个或多个模块或单元，所述一个或者多个模块或单元被存储在所述存储器51中，并由所述处理器50执行，以完成本申请。所述一个或多个模块或单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序52在所述服务器5中的执行过程。例如，所述计算机程序52可以被分割成获取模块、输出模块以及初始视频生成模块，各模块具体功能如下：

获取模块，用于获取目标音频和与目标音频对应的目标文档；输出模块，用于根据预先设置的图片参数，按照页码将目标文档输出为图片序列；初始视频生成模块，用于根据目标音频的音频文件信息、图片序列以及预先设置的视频参数，生成初始视频。

所述服务器可包括，但不仅限于，处理器50、存储器51。本领域技术人员可以理解，图5仅仅是服务器5的示例，并不构成对服务器5的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述服务器还可以包括输入输出设备、网络接入设备、总线等。

所称处理器50可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器51可以是所述服务器5的内部存储单元，例如服务器5的硬盘或内存。所述存储器51也可以是所述服务器5的外部存储设备，例如所述服务器5上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，所述存储器51还可以既包括所述服务器5的内部存储单元也包括外部存储设备。所述存储器51用于存储所述计算机程序以及所述服务器所需的其他程序和数据。所述存储器51还可以用于暂时地存储已经输出或者将要输出的数据。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的实施例中，应该理解到，所揭露的装置/终端设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/终端设备实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的模块或单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.一种视频生成方法，其特征在于，包括：

获取目标音频和与所述目标音频对应的目标文档；

2.根据权利要求1所述的视频生成方法，其特征在于，所述根据所述目标音频的音频文件信息、所述图片序列以及预先设置的视频参数，生成初始视频，包括：

3.根据权利要求1或2所述的视频生成方法，其特征在于，在所述根据所述目标音频的音频文件信息、所述图片序列以及预先设置的视频参数，生成初始视频之后，还包括：

4.根据权利要求3所述的视频生成方法，其特征在于，所述通过对所述目标文档进行识别，得到各页的第一文字信息，包括：

识别所述目标文档中的文字内容，得到第三文字信息；

5.根据权利要求3所述的视频生成方法，其特征在于，所述根据所述起始时间、所述初始视频、所述图片序列和所述视频参数，生成目标视频，包括：

6.根据权利要求3所述的视频生成方法，其特征在于，所述根据所述第二文字信息和所述第一文字信息，确定每段所述语音文字对应的图片，包括：

7.根据权利要求6所述的视频生成方法，其特征在于，所述利用相似度算法，根据所述第二文字信息，将各段所述语音文字分别与各页内的所述第一文字信息进行匹配，确定每段所述语音文字对应的图片，包括：

从所述各段所述语音文字中提取相应的第一关键词；

从各页的所述第一文字信息中提取相应的第二关键词；

8.一种视频生成装置，其特征在于，包括：

9.一种服务器，其特征在于，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述方法的步骤。