CN117440116A

CN117440116A - 视频的生成方法、装置、终端设备和可读存储介质

Info

Publication number: CN117440116A
Application number: CN202311684142.XA
Authority: CN
Inventors: 陈胜华; 黄德安; 陈子文
Original assignee: Shenzhen Imyfone Technology Co ltd
Current assignee: Shenzhen Imyfone Technology Co ltd
Priority date: 2023-12-11
Filing date: 2023-12-11
Publication date: 2024-01-23
Anticipated expiration: 2043-12-11
Also published as: CN117440116B

Abstract

本申请适用于字幕生成技术领域，提供了一种视频的生成方法、装置、终端设备和可读存储介质。上述视频的生成方法包括：获取字幕文本，并对字幕文本进行分段，得到多段分段文本；对每段分段文本执行并发生成操作，得到每段分段文本对应的分段音频；将每段分段音频合成为音频文件；确定每段分段文本的插入时间；根据每段分段文本以及每段分段文本对应的插入时间，生成SRT文件；获取原始视频，并利用SRT文件以及音频文件为原始视频添加字幕以及音频，得到目标视频。本申请实施例提高了字幕和音频的添加效率，减少了为视频添加字幕和音频的时间，从而提升了用户的使用体验。

Description

视频的生成方法、装置、终端设备和可读存储介质

技术领域

本申请属于字幕生成技术领域，尤其涉及一种视频的生成方法、装置、终端设备和可读存储介质。

背景技术

随着移动终端的不断发展，越来越多的用户选择在移动终端上编辑视频，例如为视频添加字幕、音频等。在一些场景中，用户需要同时为原始视频添加音频和字幕。相关技术中，用户在添加音频和字幕时，需要根据字幕文本生成音频文件，耗时较长。还需要将字幕文本添加至原始视频中，此时用户需要输入一段段字幕文本，并确定每段字幕文本的出现时间（即该段字幕什么时候出现，什么时候消失），同样需要耗费较多时间。也即在相关技术中，用户需要花费大量时间才能在一段视频中添加音频和字幕。

发明内容

本申请实施例提供一种视频的生成方法、装置、终端设备和可读存储介质，可以解决相关技术中在为视频添加音频和字幕时，耗时较久的问题。

第一方面，本申请实施例提供了一种视频的生成方法，包括：

获取字幕文本，并对字幕文本进行分段，得到多段分段文本；

对每段分段文本执行并发生成操作，得到每段分段文本对应的分段音频；

将每段分段音频合成为音频文件；

确定每段分段文本的插入时间；

根据每段分段文本以及每段分段文本对应的插入时间，生成SRT文件；

获取原始视频，并利用SRT文件以及音频文件为原始视频添加字幕以及音频，得到目标视频。

第二方面，本申请实施例提供了一种视频的生成装置，包括：

分段模块，用于获取字幕文本，并对字幕文本进行分段，得到多段分段文本；

第一生成模块，用于对每段分段文本执行并发生成操作，得到每段分段文本对应的分段音频；

合成模块，用于将每段分段音频合成为音频文件；

确定模块，用于确定每段分段文本的插入时间；

第二生成模块，用于根据每段分段文本以及每段分段文本对应的插入时间，生成SRT文件；

添加模块，用于获取原始视频，并利用SRT文件以及音频文件为原始视频添加字幕以及音频，得到目标视频。

第三方面，本申请实施例提供了一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述视频的生成方法的步骤。

第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述视频的生成方法的步骤。

第五方面，本申请实施例提供了一种计算机程序产品，当计算机程序产品在终端设备上运行时，使得终端设备执行上述视频的生成方法。

本申请实施例与现有技术相比的有益效果是：本申请实施例通过获取字幕文本，并对字幕文本进行分段，得到多段分段文本，再对每段分段文本执行并发生成操作，得到每段分段文本对应的分段音频，并将每段分段音频合成为音频文件，再确定每段分段文本的插入时间，并根据每段分段文本以及每段分段文本对应的插入时间，生成SRT文件，接着获取原始视频，并利用SRT文件以及音频文件为原始视频添加字幕以及音频，得到目标视频。本申请实施例通过对每段分段文本执行并发生成操作，得到每段分段文本对应的分段音频，大大减少了生成音频的时间，同时自动对字幕文本进行分段，并得到分段文本以及对应的插入时间，大大减少了制作SRT文件的时间。综上，本申请实施例提高了字幕和音频的添加效率，减少了为视频添加字幕和音频的时间，从而提升了用户的使用体验。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种视频的生成方法的实现流程示意图；

图2是本申请实施例提供的生成SRT文件的实现流程示意图；

图3是本申请实施例提供的确定插入时间的实现流程示意图；

图4是本申请实施例提供的得到目标视频的实现流程示意图；

图5是本申请实施例提供的一种视频的生成装置的结构示意图；

图6是本申请实施例提供的终端设备的结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“包括”、“包含”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、终端、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。在本申请的权利要求书、说明书以及说明书附图中的术语，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体/操作/对象与另一个实体/操作/对象区分开来，而不一定要求或者暗示这些实体/操作/对象之间存在任何这种实时的关系或者顺序。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其他实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其他实施例相结合。

有鉴于此，本申请实施例提供了一种视频的生成方法，提高了字幕和音频的添加效率，减少了为视频添加字幕和音频的时间，从而提升了用户的使用体验。

为了说明本申请的技术方案，下面通过具体实施例来进行说明。

为便于理解，特对本申请实施例所应用的场景进行简单说明。在一些视频编辑场景中，用户需要为一段原始视频添加字幕以及与字幕对应的音频，以得到自己想要的视频。例如，在创作动画视频时，用户可以先创造好一段动画，这段动画视频没有声音和字幕，用户需要为这段动画添加字幕和音频，以得到一个完整的动画视频。

图1示出了本申请实施例提供的一种视频的生成方法的实现流程示意图，该方法可以应用于终端设备上。终端设备可以是手机、平板电脑、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本等。特别的，在一些实施方式中，上述终端设备为移动终端，包括手机、平板电脑等。

具体的，上述视频的生成方法可以包括以下步骤S101至步骤S106。

步骤S101，获取字幕文本，并对字幕文本进行分段，得到多段分段文本。

其中，字幕文本是等待添加至原始视频的字幕的文本内容，其通常是一大段文字。

在本申请的实施方式中，终端设备可以接收用户输入的字幕文本，并自动按照字幕文本的语义或标点符号对字幕文本进行分段，从而得到多段分段文本。

具体的，在本申请的一些实施方式中，上述对字幕文本进行分段，得到多段分段文本，具体可以包括以下步骤：

将字幕文本输入分段模型，得到多段分段文本以及每段分段文本的分段编号。

其中，分段模型可以是一种自然语言处理模型，该自然语言处理模型具备分段功能，其可以用于对输入的文本进行分段。分段编号可以是每段分段文本在字幕文本中的出现顺序对应的编号。

在本申请的实施方式中，终端设备可以将字幕文本输入其自带的自然语言处理模型，并对该自然语言处理模型进行设置，使得该自然语言处理模型执行分段功能，对输入的字幕文本进行分段，得到多段分段文本。该自然语言处理模型并可以根据每段分段文本在字幕文本中的出现顺序，确定每段分段文本的分段编号。

可以理解的是，终端设备可以对分段模型进行训练、优化等处理，从而得到满足要求的分段模型。

本申请实施方式通过自动对输入的字幕文本进行分段，得到多段分段文本，不需要用户自己进行分段，减少了对字幕文本进行分段的操作时间。

步骤S102，对每段分段文本执行并发生成操作，得到每段分段文本对应的分段音频。

其中，并发生成可以是指同时生成多个音频。

具体的，在本申请的一些实施方式中，上述对每段分段文本执行并发生成操作，得到每段分段文本对应的分段音频，具体可以包括以下步骤：

同时根据每段分段文本生成对应的分段音频。

在本申请的实施方式中，终端设备可以将每段分段文本同时发送至音频生成程序（音频生成程序可以设置在终端设备上，也可以设置在服务器上），由音频生成程序根据每段分段文本，同时生成对应的分段音频。

本申请实施方式通过对每段分段文本执行并发生成操作，从而得到每段分段文本对应的分段音频，相较于根据完整字幕文本生成对应音频的相关技术，可以大大减少音频的生成时间，从而提升用户的使用体验。

步骤S103，将每段分段音频合成为音频文件。

其中，音频文件可以是待添加至原始视频的完整音频文件。

具体的，在本申请的一些实施方式中，上述将每段分段音频合成为音频文件，具体可以包括以下步骤：

将每段分段音频按照分段编号进行合成，得到音频文件。

在本申请的实施方式中，在上述步骤S101的具体实施方式中得到每段分段文本的分段编号后，终端设备可以将每段分段音频按照其对应的分段文本的分段编号，也即按照分段编号，依次将分段音频进行合成，最终得到完整的音频文件。

步骤S104，确定每段分段文本的插入时间。

其中，插入时间是指对应的分段文本在视频中出现的时间，也即表示对应的分段文本何时出现在视频中，以及何时在视频中消失。应了解，插入时间可以是一段时间。

在本申请的实施方式中，终端设备可以根据分段文本中的字符在字幕文本中的比例，来确定每段分段文本的插入时间。

步骤S105，根据每段分段文本以及每段分段文本对应的插入时间，生成SRT文件。

其中，SRT文件是DVDRIP文本格式字幕文件，其内记录了每段文本的插入时间以及具体的文本内容。

在本申请的实施方式中，终端设备可以将每段分段文本以及对应的插入时间，填入SRT文件的对应位置，即可得到SRT文件。

本申请实施方式可以自动根据每段分段文本以及每段分段文本对应的插入时间，生成SRT文件，不需要用户自行输入对应的数据，从而减少了生成SRT文件的时间。

步骤S106，获取原始视频，并利用SRT文件以及音频文件为原始视频添加字幕以及音频，得到目标视频。

其中，原始视频是待添加字幕以及音频的视频。目标视频是添加了字幕以及音频的视频。

在本申请的实施方式中，得到SRT文件和音频文件后，终端设备可以将SRT文件以及音频文件添加至原始视频中，从而得到目标视频。

如图2所示，在本申请的一些具体实施方式中，上述根据每段分段文本以及每段分段文本对应的插入时间，生成SRT文件，具体可以包括步骤S201及步骤S202。

步骤S201，创建空白SRT文件。

在本申请的实施方式中，终端设备可以使用文本编辑器来创建一个新的空白SRT文件。

步骤S202，将每段分段文本以及对应的插入时间，按照分段编号依次填入空白SRT文件的对应位置，得到SRT文件。

在本申请的实施方式中，在上述步骤S101的具体实施方式中得到每段分段文本的分段编号后，终端设备可以按照分段编号，将每段分段文本以及对应的插入时间，依次填入SRT文件中与分段编号对应的位置，将所有分段文本以及对应的插入时间填入后，即可得到完整的SRT文件。

如图3所示，在本申请的一些具体实施方式中，上述确定每段分段文本的插入时间，具体可以包括步骤S301至步骤S304。

步骤S301，获取音频文件的总时长。

在本申请的实施方式中，在生成音频文件后，终端设备可以直接读取出音频文件的总时长。

步骤S302，获取字幕文本的总长度。

在本申请的实施方式中，在获取音频文件后，终端设备可以直接读取字幕文本的总长度。

步骤S303，根据音频文件的总时长以及字幕文本的长度，计算字幕文本中每个字符的出现时长。

其中，每个字符的出现时长可以用于表征字幕文本中每个字符在视频中出现的平均时长。

在本申请的实施方式中，终端设备可以将音频文件的总时长与字幕文本的长度相除，即可得到字幕文本中每个字符的出现时长。

步骤S304，获取分段文本的长度，并根据分段文本的长度以及出现时长确定每段分段文本的插入时间。

在本申请的实施方式中，终端设备可以直接读取每段分段文本的字符长度。在得到每个字符的出现时长后，终端设备可以将每段分段文本的长度与出现时长相乘，即可得到每段分段时间在视频中出现的时长，再根据每段分段时间的分段编号，即可得到每段分段文本的插入时间。

如图4所示，在本申请的一些具体实施方式中，上述利用SRT文件以及音频文件为原始视频添加字幕以及音频，得到目标视频，具体可以包括步骤S401及步骤S402。

步骤S401，将SRT文件中的每段分段文本，按照插入时间插入原始视频，得到插入字幕视频。

其中，插入字幕视频是指在原始视频中插入字幕后得到的视频。

在本申请的实施方式中，终端设备可以将SRT文件中的每段分段文本，按照其对应的插入时间，在原始视频中与插入时间对应的时间依次将每段分段文本插入到原始视频中，得到完整的插入字幕视频。

步骤S402，将音频文件，按照第一段分段文本对应的插入时间，插入插入字幕视频，得到目标视频。

其中，目标视频是指插入了字幕和音频的视频。

在本申请的实施方式中，终端设备可以将音频文件，按照第一段分段文本对应的插入时间（也即字幕第一次出现的时间），插入至插入字幕视频中，从而得到目标视频。可以理解的是，目标视频中字幕第一次出现的时间应与音频第一次出现的时间一致，才能使字幕与音频匹配。

图5示出了本申请实施例提供的一种视频的生成装置的结构示意图，上述视频的生成装置5可以配置于终端设备上，具体的，上述视频的生成装置5，可以包括：

分段模块501，用于获取字幕文本，并对字幕文本进行分段，得到多段分段文本；

第一生成模块502，用于对每段分段文本执行并发生成操作，得到每段分段文本对应的分段音频；

合成模块503，用于将每段分段音频合成为音频文件；

确定模块504，用于确定每段分段文本的插入时间；

第二生成模块505，用于根据每段分段文本以及每段分段文本对应的插入时间，生成SRT文件；

添加模块506，用于获取原始视频，并利用SRT文件以及音频文件为原始视频添加字幕以及音频，得到目标视频。

在本申请的一些实施方式中，上述分段模块501还可以用于：将字幕文本输入分段模型，得到多段分段文本以及每段分段文本的分段编号。

在本申请的一些实施方式中，上述合成模块503还可以用于：将每段分段音频按照分段编号进行合成，得到音频文件。

在本申请的一些实施方式中，上述第二生成模块505还可以用于：创建空白SRT文件；将每段分段文本以及对应的所述插入时间，按照分段编号依次填入空白SRT文件的对应位置，得到SRT文件。

在本申请的一些实施方式中，上述第一生成模块502还可以用于：同时根据每段分段文本生成对应的分段音频。

在本申请的一些实施方式中，上述确定模块504还可以用于：获取音频文件的总时长；获取字幕文本的总长度；根据音频文件的总时长以及字幕文本的长度，计算字幕文本中每个字符的出现时长；获取分段文本的长度，并根据分段文本的长度以及出现时长确定每段分段文本的插入时间。

在本申请的一些实施方式中，上述添加模块506还可以用于：将SRT文件中的每段分段文本，按照插入时间插入原始视频，得到插入字幕视频；将音频文件，按照第一段分段文本对应的插入时间，插入插入字幕视频，得到目标视频。

如图6所示，为本申请实施例提供的一种终端设备的示意图。该终端设备6可以包括：处理器601、存储器602以及存储在所述存储器602中并可在所述处理器601上运行的计算机程序603，例如视频的生成程序。所述处理器601执行所述计算机程序603时实现上述各个视频的生成方法实施例中的步骤，例如图1所示的步骤S101至步骤S106。或者，所述处理器601执行所述计算机程序603时实现上述各装置实施例中各模块/单元的功能，例如图5所示的分段模块501、第一生成模块502、合成模块503、确定模块504、第二生成模块505、添加模块506。

所述计算机程序可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器602中，并由所述处理器601执行，以完成本申请。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序在所述终端设备中的执行过程。

所述终端设备可包括，但不仅限于，处理器601、存储器602。本领域技术人员可以理解，图6仅仅是终端设备的示例，并不构成对终端设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述终端设备还可以包括输入输出设备、网络接入设备、总线等。

所称处理器601可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器602可以是所述终端设备的内部存储单元，例如终端设备的硬盘或内存。所述存储器602也可以是所述终端设备的外部存储设备，例如所述终端设备上配备的插接式硬盘，智能存储卡（Smart Media Card，SMC），安全数字（Secure Digital，SD）卡，闪存卡（Flash Card）等。进一步地，所述存储器602还可以既包括所述终端设备的内部存储单元也包括外部存储设备。所述存储器602用于存储所述计算机程序以及所述终端设备所需的其他程序和数据。所述存储器602还可以用于暂时地存储已经输出或者将要输出的数据。

需要说明的是，为描述的方便和简洁，上述终端设备的结构还可以参考方法实施例中对结构的具体描述，在此不再赘述。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时可实现上述视频的生成方法中的步骤。

本申请实施例提供了一种计算机程序产品，当计算机程序产品在移动终端上运行时，使得移动终端执行时可实现上述视频的生成方法中的步骤。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对各个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的实施例中，应该理解到，所揭露的装置/终端设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/终端设备实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器（Read-Only Memory，ROM）、随机存取存储器（RandomAccess Memory，RAM）、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.一种视频的生成方法，其特征在于，包括：

获取字幕文本，并对所述字幕文本进行分段，得到多段分段文本；

对每段所述分段文本执行并发生成操作，得到每段所述分段文本对应的分段音频；

将每段所述分段音频合成为音频文件；

确定每段所述分段文本的插入时间；

根据每段所述分段文本以及每段所述分段文本对应的插入时间，生成SRT文件；

获取原始视频，并利用所述SRT文件以及所述音频文件为所述原始视频添加字幕以及音频，得到目标视频。

2.如权利要求1所述的视频的生成方法，其特征在于，所述对所述字幕文本进行分段，得到多段分段文本，包括：

将所述字幕文本输入分段模型，得到多段所述分段文本以及每段所述分段文本的分段编号。

3.如权利要求2所述的视频的生成方法，其特征在于，所述将每段所述分段音频合成为音频文件，包括：

将每段所述分段音频按照所述分段编号进行合成，得到所述音频文件。

4.如权利要求2所述的视频的生成方法，其特征在于，所述根据每段所述分段文本以及每段所述分段文本对应的插入时间，生成SRT文件，包括：

创建空白SRT文件；

将每段所述分段文本以及对应的所述插入时间，按照所述分段编号依次填入所述空白SRT文件的对应位置，得到所述SRT文件。

5.如权利要求1所述的视频的生成方法，其特征在于，所述对每段所述分段文本执行并发生成操作，得到每段所述分段文本对应的分段音频，包括：

同时根据每段所述分段文本生成对应的所述分段音频。

6.如权利要求1所述的视频的生成方法，其特征在于，所述确定每段所述分段文本的插入时间，包括：

获取所述音频文件的总时长；

获取所述字幕文本的总长度；

根据所述音频文件的总时长以及所述字幕文本的长度，计算所述字幕文本中每个字符的出现时长；

获取所述分段文本的长度，并根据所述分段文本的长度以及所述出现时长确定每段所述分段文本的插入时间。

7.如权利要求1所述的视频的生成方法，其特征在于，所述利用所述SRT文件以及所述音频文件为所述原始视频添加字幕以及音频，得到目标视频，包括：

将所述SRT文件中的每段所述分段文本，按照所述插入时间插入所述原始视频，得到插入字幕视频；

将所述音频文件，按照第一段所述分段文本对应的插入时间，插入所述插入字幕视频，得到所述目标视频。

8.一种视频的生成装置，其特征在于，包括：

分段模块，用于获取字幕文本，并对所述字幕文本进行分段，得到多段分段文本；

第一生成模块，用于对每段所述分段文本执行并发生成操作，得到每段所述分段文本对应的分段音频；

合成模块，用于将每段所述分段音频合成为音频文件；

确定模块，用于确定每段所述分段文本的插入时间；

第二生成模块，用于根据每段所述分段文本以及每段所述分段文本对应的插入时间，生成SRT文件；

添加模块，用于获取原始视频，并利用所述SRT文件以及所述音频文件为所述原始视频添加字幕以及音频，得到目标视频。

9.一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述视频的生成方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述视频的生成方法的步骤。