CN113905254B

CN113905254B - 视频合成方法、装置、系统与可读存储介质

Info

Publication number: CN113905254B
Application number: CN202111036064.3A
Authority: CN
Inventors: 陈俣作; 朱健英; 杨佩
Original assignee: Qianhai Life Insurance Co ltd
Current assignee: Qianhai Life Insurance Co ltd
Priority date: 2021-09-03
Filing date: 2021-09-03
Publication date: 2024-03-29
Anticipated expiration: 2041-09-03
Also published as: CN113905254A

Abstract

本发明公开了一种视频合成方法、装置、系统和可读存储介质，该方法包括：在检测到合成指令时，获取所述合成指令中的音频数据和视频数据；根据所述音频数据，生成对应的音频文件，并根据所述视频数据，生成对应的无声视频片段集合；基于所述音频文件和所述无声视频片段集合，合成目标视频；本发明根据合成指令中的音频数据生成音频文件，根据视频数据生成无声视频片段集合，并基于音频文件和无声视频片段集合，合成目标视频，实现在无法获取视频图像的场景下生成视频。

Description

视频合成方法、装置、系统与可读存储介质

技术领域

本发明涉及视频制作技术领域，尤其涉及视频合成方法、装置、系统与可读存储介质。

背景技术

目前生成短视频一般是通过硬件设备比如摄像头采集图像数据，以及麦克风采集音频数据的方式得到音视频数据。

通过硬件采集数据是基于当前现实实时采集，比如我们需要拍摄当前的风景，通过硬件拍摄是符合需求的，但是某些场景下，需要的视频图像内容在现实中是不存在的，无法通过硬件实时采集得到视频，因此，如何在无法获取视频图像的场景下生成视频，是急需解决的问题。

发明内容

本发明的主要目的在于提出一种视频合成方法、装置、系统与可读存储介质，旨在解决如何在无法获取视频图像的场景下生成视频的问题。

为实现上述目的，本发明提供一种视频合成方法，所述视频合成方法包括如下步骤：

在检测到合成指令时，获取所述合成指令中的音频数据和视频数据；

根据所述音频数据，生成对应的音频文件，并根据所述视频数据，生成对应的无声视频片段集合；

基于所述音频文件和所述无声视频片段集合，合成目标视频。

优选地，在接收到合成指令时，获取所述合成指令中的音频数据和视频数据的步骤之前，所述视频合成方法还包括：

在接收到用户需求时，根据所述用户需求，生成构建数据，所述构建数据包括音频数据和视频数据；

基于所述构建数据，生成合成指令。

优选地，根据所述音频数据，生成对应的音频文件，并根据所述视频数据，生成对应的无声视频文件的步骤包括：

根据所述音频数据，生成对应的音频文件，并确定所述音频文件的时长；

根据所述视频数据，获取对应的网址页面集合，并基于所述网址页面集合，生成对应的图片集合；

根据所述音频文件的时长、所述图片集合和预设合成规则，生成对应的无声视频片段集合。

优选地，根据所述视频数据，获取对应的网址页面集合，并基于所述网址页面集合，生成对应的图片集合的步骤包括：

根据所述视频数据，确定对应的渲染模板，并根据所述视频数据，获取对应的网址页面集合；

基于所述渲染模板对所述网址页面集合进行渲染，得到对应的静态页面集合；

基于所述静态页面集合，得到对应的图片集合。

优选地，根据所述视频数据，确定对应的渲染模板，并根据所述视频数据，获取对应的网址页面集合的步骤之前，所述视频合成方法还包括：

根据所述音频文件的时长和预设帧率，确定所述网址页面集合中网址页面的数量。

优选地，基于所述音频文件和所述无声视频片段集合，合成目标视频的步骤包括：

对所述无声视频片段集合进行排序，并将排序后的无声视频片段集合合成无声视频；

根据所述音频文件和所述无声视频，合成目标视频。

优选地，根据所述音频文件和所述无声视频，合成目标视频的步骤包括：

根据预设编码规则，对所述音频文件和所述无声视频进行编码；

根据编码后的音频文件和无声视频，合成目标视频。

此外，为实现上述目的，本发明还提供一种视频合成装置，所述视频生成装置包括：

获取模块，用于在检测到合成指令时，获取所述合成指令中的音频数据和视频数据；

生成模块，用于根据所述音频数据，生成对应的音频文件，并根据所述视频数据，生成对应的无声视频片段集合；

合成模块，用于基于所述音频文件和所述无声视频片段集合，合成目标视频。

进一步地，所述获取模块还包括接收模块，所述接收模块用于：

基于所述构建数据，生成合成指令。

进一步地，所述生成模块还用于：

基于所述静态页面集合，得到对应的图片集合。

进一步地，所述生成模块还用于：

进一步地，所述合成模块还用于：

根据所述音频文件和所述无声视频，合成目标视频。

进一步地，所述合成模块还包括编码模块，所述编码模块用于：

根据编码后的音频文件和无声视频，合成目标视频。

此外，为实现上述目的，本发明还提供一种视频合成系统，所述视频合成系统包括：存储器、处理器及储存在所述存储器上并可在所述处理器上运行的视频合成程序，所述视频合成程序被所述处理器执行时实现如上所述的视频合成方法的步骤。

此外，为实现上述目的，本发明还提供一种可读存储介质，所述可读储存介质为计算机可读存储介质，所述可读储存介质上储存有视频合成程序，所述视频合成程序被处理器执行时实现如上所述的视频合成方法的步骤。

本发明提出的视频合成方法，在检测到合成指令时，获取所述合成指令中的音频数据和视频数据；根据所述音频数据，生成对应的音频文件，并根据所述视频数据，生成对应的无声视频片段集合；基于所述音频文件和所述无声视频片段集合，合成目标视频；本发明根据合成指令中的音频数据生成音频文件，根据视频数据生成无声视频片段集合，并基于音频文件和无声视频片段集合，合成目标视频，实现在无法获取视频图像的场景下生成视频。

附图说明

图1是本发明实施例方案涉及的硬件运行环境的设备结构示意图；

图2为本发明视频合成方法第一实施例的流程示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如图1所示，图1是本发明实施例方案涉及的硬件运行环境的设备结构示意图。

本发明实施例设备可以是PC机或服务器设备。

如图1所示，该设备可以包括：处理器1001，例如CPU，网络接口1004，用户接口1003，存储器1005，通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的储存装置。

本领域技术人员可以理解，图1中示出的设备结构并不构成对设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机储存介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及视频合成程序。

其中，操作系统是管理和控制便携储存设备与软件资源的程序，支持网络通信模块、用户接口模块、视频合成程序以及其他程序或软件的运行；网络通信模块用于管理和控制网络接口1004；用户接口模块用于管理和控制用户接口1003。

在图1所示的储存设备中，所述储存设备通过处理器1001调用存储器1005中储存的视频合成程序，并执行下述视频合成方法各个实施例中的操作。

基于上述硬件结构，提出本发明视频合成方法实施例。

参照图2，图2为本发明视频合成方法第一实施例的流程示意图，所述方法包括：

步骤S10，在检测到合成指令时，获取所述合成指令中的音频数据和视频数据；

步骤S20，根据所述音频数据，生成对应的音频文件，并根据所述视频数据，生成对应的无声视频片段集合；

步骤S30，基于所述音频文件和所述无声视频片段集合，合成目标视频。

本实施例视频合成方法运用于视频合成设备中，该视频合成设备可以PC、手机或移动终端等；为描述方便，以视频合成设备为例进行描述，该视频合成设备包括但不限于操作系统和储存设备；视频合成设备在检测到合成指令时，获取合成指令中的音频数据和视频数据，根据音频数据生成对应的音频文件，并记录音频文件的时长，并根据视频数据获取对应的网址页面集合，再基于网址页面集合，生成对应的图片集合；视频合成设备根据音频文件的时长、图片集合和预设合成规则，生成对应的无声视频片段集合；视频生成设备对无声视频片段集合中的无声视频片段进行排序，并基于音频文件和排序后的无声视频片段集合，合成目标视频。需要说明的是，音频数据并不是以音频格式存在的数据，而是以文本形式存在的数据，文本内容是需要被转化成音频文件的内容，是由相关用户设定的；视频数据并不是以视频格式存在的数据，可以是以文本、标签等形式存在的数据，视频合成设备需要根据文本或标签等形式的数据，获取对应的图片作为视频的图像。

本实施例的视频合成方法，在检测到合成指令时，获取所述合成指令中的音频数据和视频数据；根据音频数据，生成对应的音频文件，并根据视频数据和音频文件，生成对应的无声视频片段集合；基于音频文件和无声视频片段集合，合成目标视频；本发明根据合成指令中的音频数据生成音频文件，根据视频数据生成无声视频片段集合，并基于音频文件和无声视频片段集合，合成目标视频，实现在无法获取视频图像的场景下生成视频。

以下将对各个步骤进行详细说明：

在本实施例中，视频合成设备在检测到合成指令时，获取合成指令中的音频数据和视频数据，在一实施例中，视频合成设备根据用户的需求，生成合成指令，其中用户的需求包括音频时长、音频内容、视频内容等，视频合成设备获取合成指令中的音频数据和视频数据，并分析音频数据和视频数据中的信息，以便于下一步生成音频文件和无声视频片段集合。

在本实施例中，视频合成设备根据音频数据，生成对应的音频文件，并确定音频文件的时长，并根据视频数据，获取对应的网址页面集合，并基于网址页面集合，生成对应的图片集合，根据音频文件的时长、图片集合和预设合成规则，生成对应的无声视频片段集合。需要说明的是，网址页面可包括不同网址中的视频页面、图片页面和文字页面等，记载有对应信息的网址页面；预设合成规则是由相关研发人员在视频合成设备中提前设定的，预设合成规则可包括多个合成规则，视频合成设备可自行根据需要生成的视频选择使用具体的合成规则，以提高视频合成效率以及减少对计算资源的浪费。

具体地，步骤S20还包括：

步骤a，根据所述音频数据，生成对应的音频文件，并确定所述音频文件的时长；

在该步骤中，视频合成设备根据音频数据，确定需要被转换成音频文件的内容，并根据音频数据确定音频文件的音量、语速等参数，生成对应的音频文件，并确定音频文件的时长；如：音频数据中包括文本“大家好，我是某某”、音量参数、语速参数等，视频合成设备通过对文本“大家好，我是某某”进行识别，通过对文本进行截图，通过对截图进行识别，确定文本中的具体内容，并根据音量参数和语速参数，将文本内容转换为格式为wav的音频，可选地，用户还能设定使用男声、女声或童声等声音读出音频，或视频合成设备根据文本的具体内容，智能地选择使用男声、女声或童声等声音读出音频；需要说明的是，将文本转换成音频的过程还可以使用其他方法，在此不一一赘述。

步骤b，根据所述视频数据，获取对应的网址页面集合，并基于所述网址页面集合，生成对应的图片集合；

在该步骤中，视频合成设备根据视频数据，确定需要生成的视频的关键词，如业务类型、用途等，并根据关键词获取对应的网址页面集合，并根据网址页面集合生成对应的图片集合；如：视频合成设备根据视频数据，确定需要生成的视频的关键词为保险业务和活动推广，视频合成设备根据保险业务和活动推广，可选地，还能具体到保险业务具体的种类，如重疾保险、人寿保险等，视频合成设备通过浏览器搜索对应的网址页面，网址页面包括例如购买保险的好处、购买保险的过程、保险的由来等与保险相关的网址页面，网址页面中可能包括有视频、图片、文字等信息，视频合成设备根据获取得到的网址页面集合，生成对应的图片集合。

进一步地，步骤b还包括：

在该步骤中，视频合成设备根据视频数据，确定对应的渲染模板，并根据视频数据，通过浏览器搜索对应的网址页面集合，如：视频合成设备根据视频数据确定关键词为保险业务，根据保险业务确定对应的渲染模板，再通过根据视频数据的关键词保险业务，通过浏览器搜索对应的网址页面，以获取与保险业务相关的网址页面集合。

在该步骤中，视频合成设备基于渲染模板，对获得的网址页面集合中的每个网址页面进行渲染，得到对应的静态页面集合，如：视频合成设备获得的与保险业务相关的网址页面集合中，可能包括有包含视频的网址页面、包含动态图片的网址页面、包含滚动显示文字信息的网址页面，此时动态的网址页面无法直接进行截图生成图片，需要通过确定的渲染模板，对网址页面集合中每个网址页面进行渲染，得到对应的静态页面集合，可以理解的是，例如网址页面中有视频在播放，通过渲染模板，对该页面进行渲染，得到视频的每一帧对应的静态页面，以便于进行截图，得到生成视频必须的图片集合。

基于所述静态页面集合，得到对应的图片集合。

在该步骤中，视频合成设备对静态页面集合中的每个静态页面进行截图，得到静态页面对应的图片，将静态页集合中每个静态页面进行截图后，得到图片集合，需要说明的是，静态页面中并不是所有的内容都是必须的，例如网页中的广告、网址等内容，此时，需要对渲染得到的静态页面进行截图，截取静态页面中有用的信息，得到对应的图片，使得后续合成的视频能突出视频数据设定的需要生成的视频内容。

步骤c，根据所述音频文件的时长、所述图片集合和预设合成规则，生成对应的无声视频片段集合。

在该步骤中，视频合成设备根据音频文件的时长和图片集合，确定无声视频片段集合的帧率；根据音频文件的时长、图片集合、无声视频文件的帧率和预设合成规则，生成无声视频片段集合。需要说明的是，因为音频和视频需要匹配，文本转音频后，音频文件的时长可以确定，所以视频的时间只能根据音频时间决定。需要说明的是，预设合成规则为：图片合成无声视频包括两种合成模式：

A、复制视频模式：当一个片段只有一张图片时，采用复制视频模式，比如该片段是5秒，但是因为5秒呈现的都是同一个画面，所以采用生成1秒的视频，然后复制5份，这样可以大大减少无声视频生成过程图片编码数量，关键性能提升也在这一点，按该模式合成计算如下：

this.numberSeconds＝(int)(audioTime/1000)；

this.endVideoFrameNumber＝needImageNumber-numberSeconds*VideoUtils.FRA ME_RATE；

其中numberSeconds得到的是整秒的视频，也就是多少个1秒的视频。endVideoFrameNumber得到的是剩余多少帧，音频的时长为非整数时，比如，音频的时长为5.2秒，那么需要5200*25/1000＝130张图，5个1秒视频5*25＝125张图，剩余5张，每张图40毫秒，也就是0.2秒，所以该模式下，我们是可能录制两个视频，一个是1秒的整秒视频，另外一个是剩余的帧数合成的视频，将这两个视频加上循环多次1秒视频合成整个片段的无声视频。

B、按帧合成模式：该模式是普通模式，针对所有业务场景通用，但也意味着性能相对较差，要消耗大量资源进行图片编码，小于2秒的视频片段或者当单个视频片段大于1张图的片段会采用该模式，按该模式合成计算如下：

this.repeatNumber＝(needImageNumber/imageSize)；

this.endFrameNumber＝(needImageNumber-(repeatNumber*imageSize))；repeatNumber表示每张图片循环多少帧，endFrameNumber表示剩余多少帧，needImageNumber表示图片的总数量，imageSize表示图片尺寸，在计算出每个图片循环的帧数以及剩余的帧数后，利用最后一张图片完成剩余帧数的图片编码，也即可以理解为最后一张图片循环的帧数为每张图片循环的帧数加上剩余的帧数，以合成无声视频。

进一步地，在获取对应的网址页面集合的步骤之前包括：

根据所述音频文件的时长和预设帧率，确定所述网址页面集合中网址页面的数量；

在该步骤中，视频合成设备根据音频文件的时长和预设帧率，确定网址页面集合中网址页面的数量，进而确定合成视频所需要的图片集合中的图片数量，如：视频合成设备得到的音频文件的时长为5000毫秒，预设帧率为25，根据以下公式：

int needImageNumber＝(int)audioTime*FRAME_RATE/1000；

其中audioTime为音频文件的时长，单位为毫秒，FRAME_RATE为预设帧率，表示视频需要每秒播放25张图片，needImageNumber表示网址页面集合中网址页面的数量，可计算出网址页面集合中网址页面的数量为125，进而确定合成视频所需要的图片集合中的图片数量也为125；需要说明的是，预设帧率可以由相关研发人员设定的，也可以是视频合成设备根据视频数据中对应需要合成的视频的内容，智能地自行确定的，如：普通的视频一般确定预设帧率为25，当视频的内容为游戏等需要流畅衔接的内容时，预设帧率可能为30、40、或50等。

在本实施例中，视频合成设备基于音频文件和无声视频片段集合，合成目标视频，如：视频合成设备通过构建一个格式为mp4的容器，将无声视频片段集合中的每个无声视频片段对应的音频文件中的音频轨道抽取并进行合并，将无声视频片段集合中的所有视频轨道抽取并进行合并，最终得到一个含有音视频的视频文件，也就是目标视频。

具体地，步骤S30还包括：

步骤d，对所述无声视频片段集合进行排序，并将排序后的无声视频片段集合合成无声视频；

在该步骤中，视频合成设备对无声视频片段集合中的每个无声视频片段进行排序，并将排序后的无声视频片段集合合成无声视频，如：视频合成设备将无声视频片段集合中的每个无声视频片段对应的视频轨道抽取，根据每个无声视频片段的前后顺序，将对应的视频轨道进行排序，并将排序后的视频轨道合并在一起，以合成无声视频。

步骤e，根据所述音频文件和所述无声视频，合成目标视频。

在该步骤中，视频合成设备将音频文件和无声视频合并，以得到目标视频，该目标视频在具有音频的轨道和视频的轨道，播放时有音频和视频。

进一步地，步骤e包括：

在该步骤中，视频合成设备根据预设编码规则，对得到的音频文件和无声视频进行编码，以便于音频文件和无声视频进行合并；如：视频合成设备将无声视频通过预设标准编码，编码成格式为mp4的无声视频文件，将前面步骤中得到的wav格式的音频文件按照预设标准编码成格式为aac的音频文件。需要说明的是，预设编码规则是由相关研发人员设定的，根据用户的需求，可将无声视频和音频文件编码成不同格式的无声视频和音频文件。

根据编码后的音频文件和无声视频，合成目标视频。

在该步骤中，视频合成设备将编码后的音频文件和无声视频，合成目标视频，如：视频合成设备将编码后的无声视频的视频轨道抽取，并将编码后的音频文件的音频轨道抽取，将视频轨道和音频轨道对齐，并合并在一起，以得到目标视频。

本实施例的视频合成设备在检测到合成指令时，获取合成指令中的音频数据和视频数据，根据音频数据生成对应的音频文件，并记录音频文件的时长，并根据视频数据获取对应的网址页面集合，再基于网址页面集合，生成对应的图片集合；视频合成设备根据音频文件的时长、图片集合和预设合成规则，生成对应的无声视频片段集合；视频生成设备对无声视频片段集合中的无声视频片段进行排序，并基于音频文件和排序后的无声视频片段集合，合成目标视频，实现在无法获取视频图像的场景下生成视频。

进一步地，基于本发明视频合成方法第一实施例，提出本发明视频合成方法第二实施例。

视频合成方法的第二实施例与视频合成方法的第一实施例的区别在于，在步骤S10之前，视频合成方法还包括：

步骤f，在接收到用户需求时，根据所述用户需求，生成构建数据，所述构建数据包括音频数据和视频数据；

步骤g，基于所述构建数据，生成合成指令。

本实施例中，视频合成设备在接收到用户需求时，根据用户需求，生成构建数据，该构建数据中包括音频数据和视频数据，并基于构建数据生成合成指令；例如：视频合成设备接收到用户需求时，通过视频构建服务，智能地根据用户需求生成构建数据，可选地，通过识别用户需求中的关键词，例如“音频”、“视频”、“时长”等，根据关键词理解用户需求，并生成构建数据，该构建数据中包括但不限于音频数据和视频数据，还可包括用户指定的图片数据、文字数据等，视频合成设备在得到构建数据后，将构建数据与指令融合，最终生成合成指令，以便于视频合成设备获取对应的数据，以免遗漏。

需要说明的是，用户需求是用户主动输入的，用户可通过在PC端的界面直接输入需求，也可以通过手机或其他移动终端中对应的应用程序的界面输入需求，用户需求可以是视频的类型、音频的文本、指定的图片等内容。

本实施例的视频合成设备在接收到用户需求时，根据用户需求，生成构建数据，该构建数据中包括音频数据和视频数据，并基于构建数据生成合成指令，有助于使得合成的目标视频满足用户需求，以提高用户体验。

本发明还提供一种视频合成装置，本发明视频合成装置包括：

基于所述构建数据，生成合成指令。

进一步地，所述生成模块还用于：

基于所述静态页面集合，得到对应的图片集合。

进一步地，所述生成模块还用于：

进一步地，所述合成模块还用于：

根据所述音频文件和所述无声视频，合成目标视频。

根据编码后的音频文件和无声视频，合成目标视频。

本发明还提供一种视频合成系统。

视频合成系统包括：存储器、处理器及储存在所述存储器上并可在所述处理器上运行的视频合成程序，所述视频合成程序被所述处理器执行时实现如上所述的视频合成方法的步骤。

其中，在所述处理器上运行的视频合成程序被执行时所实现的方法可参照本发明视频合成方法各个实施例，此处不再赘述。

本发明还提供一种可读存储介质。

该可读储存介质为计算机可读储存介质，可读存储介质上储存有视频合成程序，所述视频合成程序被处理器执行时实现如上所述的视频合成方法的步骤。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品储存在如上所述的一个储存介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书与附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种视频合成方法，其特征在于，所述视频合成方法包括如下步骤：

其中，所述根据所述音频数据，生成对应的音频文件，并根据所述视频数据，生成对应的无声视频文件的步骤包括：

根据所述音频文件的时长、所述图片集合和预设合成规则，生成对应的无声视频片段集合；

其中，所述根据所述视频数据，获取对应的网址页面集合，并基于所述网址页面集合，生成对应的图片集合的步骤包括：

基于所述静态页面集合，得到对应的图片集合；

2.如权利要求1所述的视频合成方法，其特征在于，所述在检测到合成指令时，获取所述合成指令中的音频数据和视频数据的步骤之前，所述视频合成方法还包括：

基于所述构建数据，生成合成指令。

3.如权利要求1所述的视频合成方法，其特征在于，所述根据所述视频数据，确定对应的渲染模板，并根据所述视频数据，获取对应的网址页面集合的步骤之前，所述视频合成方法还包括：

4.如权利要求1所述的视频合成方法，其特征在于，所述基于所述音频文件和所述无声视频片段集合，合成目标视频的步骤包括：

根据所述音频文件和所述无声视频，合成目标视频。

5.如权利要求4所述的视频合成方法，其特征在于，所述根据所述音频文件和所述无声视频，合成目标视频的步骤包括：

根据编码后的音频文件和无声视频，合成目标视频。

6.一种视频合成装置，其特征在于，所述视频合成装置包括：

其中，所述生成模块还用于：

基于所述静态页面集合，得到对应的图片集合；

7.一种视频合成系统，其特征在于，所述视频合成系统包括：存储器、处理器及储存在所述存储器上并可在所述处理器上运行的视频合成程序，所述视频合成程序被所述处理器执行时实现如权利要求1至5中任一项所述的视频合成方法的步骤。

8.一种可读存储介质，其特征在于，所述可读存储介质为计算机可读储存介质，所述可读存储介质上储存有视频合成程序，所述视频合成程序被处理器执行时实现如权利要求1至5中任一项所述的视频合成方法的步骤。