CN110312161A

CN110312161A - 一种视频配音方法、装置及终端设备

Info

Publication number: CN110312161A
Application number: CN201810231485.3A
Authority: CN
Inventors: 康辉; 吕华
Original assignee: TCL Corp
Current assignee: TCL Corp
Priority date: 2018-03-20
Filing date: 2018-03-20
Publication date: 2019-10-08
Anticipated expiration: 2038-03-20
Also published as: CN110312161B

Abstract

本发明提供了一种视频配音方法、装置及终端设备，包括：提取视频数据中的音频数据，得到音频片段并获取所述音频片段的时间戳；将所述音频片段转换为文本信息，并将所述文本信息与剧本中的角色对白进行匹配，获取所述文本信息对应的角色对白文本、所述角色对白文本所属的角色和所述角色的情感属性；根据所述音频片段对应的角色对白文本、角色对白文本所属的角色和角色的情感属性，合成配音数据并在所述配音数据中写入所述音频片段的时间戳；按照时间顺序将所有所述配音数据与所述视频数据进行合成。结合角色的情感属性自动进行配音，无需再通过后期进行人工配音，有效地解决了现有的视频配音存在效率低且成本高的问题。

Description

一种视频配音方法、装置及终端设备

技术领域

本发明属于视频编辑技术领域，尤其涉及一种视频配音方法、装置及终端设备。

背景技术

演员在现场拍摄录制时所讲的台词对白由于拍摄现场存在众多噪音和杂音，没有办法达到视频播放的要求，需要通过降噪优化的方式，优化现场视频语音效，然而现场语音降噪优化处理也无法达到完全无杂音的配音效果。因此，通常是通过后期进行人工配音，再将录制的配音与视频进行合成。然而后期人工配音工作量大、效率低且成本高。

综上所述，现有的视频配音存在效率低且成本高的问题。

发明内容

有鉴于此，本发明实施例提供了一种视频配音方法、装置及终端设备，以解决现有的视频配音存在效率低且成本高的问题。

本发明实施例的第一方面提供了视频配音方法，所述视频配音方法，包括：

提取视频数据中的音频数据，得到音频片段并获取所述音频片段的时间戳；

将所述音频片段转换为文本信息，并将所述文本信息与剧本中的角色对白进行匹配，获取所述文本信息对应的角色对白文本、所述角色对白文本所属的角色和所述角色的情感属性；

根据所述音频片段对应的角色对白文本、角色对白文本所属的角色和角色的情感属性，合成配音数据并在所述配音数据中写入所述音频片段的时间戳；

根据所述音频片段的时间戳将所述配音数据与所述视频数据进行合成。

本发明实施例的第二方面提供了一种视频配音装置，所述视频配音装置，包括：

提取模块，用于提取视频数据中的音频数据，得到音频片段并获取所述音频片段的时间戳；

匹配模块，用于将所述音频片段转换为文本信息，并将所述文本信息与剧本中的角色对白进行匹配，获取所述文本信息对应的角色对白文本、所述角色对白文本所属的角色和所述角色的情感属性；

配音合成模块，用于根据所述音频片段对应的角色对白文本、角色对白文本所属的角色和角色的情感属性，合成配音数据并在所述配音数据中写入所述音频片段的时间戳；

视频合成模块，用于根据所述音频片段的时间戳将所述配音数据与所述视频数据进行合成。

本发明实施例的第三方面提供了一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

本发明实施例的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

本发明提供的视频配音方法、系统及终端设备，通过分段获取视频数据中语音数据，根据音频片段匹配角色对白文本，分析角色的情感属性，根据角色和情感属性结合角色对白文本自动合成配音数据，再根据时间顺序将配音数据与视频数据进行合成，完成自动配音，且结合角色的情感属性进行配音，无需再通过后期进行人工配音，有效地解决了现有的视频配音存在效率低且成本高的问题。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例一提供的一种视频配音方法的实现流程示意图；

图2是本发明实施例二提供的对应实施例一步骤S102的实现流程示意图；

图3是本发明实施例三提供的对应实施例一步骤S103的实现流程示意图；

图4是本发明实施例四提供的一种视频配音系统的结构示意图；

图5是本发明实施例五提供的对应实施例四中匹配模块102的结构示意图；

图6是本发明实施例六提供的对应实施例四中配音合成模块103的结构示意图；

图7是本发明实施例七提供的终端设备的示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本发明实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本发明的描述。

本发明实施例为了解决现有的视频配音存在效率低且成本高的问题，提供了一种视频配音方法、系统及终端设备，通过分段获取视频数据中语音数据，根据音频片段匹配角色对白文本，分析角色的情感属性，根据角色和情感属性结合角色对白文本自动合成配音数据，再根据时间顺序将配音数据与视频数据进行合成，完成自动配音，且结合角色的情感属性进行配音，无需再通过后期进行人工配音，有效地解决了现有的视频配音存在效率低且成本高的问题。

为了说明本发明所述的技术方案，下面通过具体实施例来进行说明。

实施例一：

如图1所示，本实施例提供了一种视频配音方法，其具体包括：

步骤S101：提取视频数据中的音频数据，得到音频片段并获取音频片段的时间戳。

在具体应用中，视频数据包含音频数据，对视频数据进行处理，提取音频片段，为了便于后续将根据音频片段合成的配音数据同步到视频数据中，同时记录该音频片段的时间戳。

在具体应用中，上述步骤S101具体为：分段提取视频数据中的音频数据，得到至少一个音频片段并获取所述音频片段的时间戳。由于视频数据中包含多段音频数据，因此在对视频数据进行处理后，能够提取到至少一个音频片段，获取并记录每段音频片段的时间戳，以便合成的配音数据与视频数据进行同步。

步骤S102：将音频片段转换为文本信息，并将文本信息与剧本中的角色对白进行匹配，获取文本信息对应的角色对白文本、角色对白文本所属的角色和角色的情感属性。

在具体应用中，通过对提取得到的音频片段进行解码，转换成文本信息，再与剧本中的角色对白进行匹配，获取与该音频片段转换得到的文本信息对应的角色对白文本，再根据角色对白文本获取到该角色对白文本所属的角色和该角色的情感属性。

在具体应用中，通过音频片段转换的文本信息，搜索查找匹配的角色对白文本。将每条角色对白文本的格式定义为：角色：(情感属性1开始)对白内容(情感属性1结束)，(情感属性2开始)，对白内容(情感属性2结束)……

示例性的：角色1：(愤怒开始)对白内容(愤怒结束)，(厌恶开始)对白内容(厌恶结束)。

角色2：(悲伤开始)对白内容(悲伤结束)。

因此将上述文本信息与剧本中的对白内容进行搜索，匹配到对应的角色对白文本。进而获取到该角色对白文本所属的角色以及该角色的情感属性。

步骤S103：根据音频片段对应的角色对白文本、角色对白文本所属的角色和角色的情感属性，合成配音数据并在配音数据中写入音频片段的时间戳。

在具体应用中，通过剧本获取音频片段对应的角色对白文本，根据角色对白文本所述的角色和该角色的情感属性，进行自动化语音合成，合成配音数据，并且将原先获取到的该音频片段的时间戳写入该配音数据中。

在具体应用中，对应不同的角色可以根据配音演员的语音训练对应的语音特征库，根据该角色的情感属性采用对应的语气特征参数，根据该语音特征库和该语气特征参数自动进行语音合成。需要说明的是，上述训练语音特征库以及语音合成的过程可以采用现有的语音合成工具完成。

步骤S104：根据所述音频片段的时间戳将配音数据与视频数据进行合成。

在具体应用中，为了实现配音数据与视频数据的同步，根据该时间戳将写入音频片段的时间戳的配音数据与视频数据进行合成，实现视频数据和配音数据的同步，得到满足视频播放的要求的视频。在具体应用中，在获取了多段音频片段后，获取与多段音频片段相对应的配音数据，并在各个配音数据中写入相应的时间戳，按照所述音频片段的时间戳的时间顺序将所有所述配音数据与所述视频数据进行合成。

示例性的，在时长为10秒的视频数据中，获取10秒的音频数据，将10秒的音频数据作为一个音频片段，并记录时间戳(开始时间和结束时间)。将该音频片段转换为文本信息，并根据文本信息与剧本的角色对白进行匹配，获取匹配到的角色对白文本，角色对白文本所属的角色和角色的情感属性，根据对应的角色对白文本、角色对白文本所属的角色和角色的情感属性，合成配音数据，再根据时间戳(开始时间和结束时间)，将配音数据与视频数据进行合成。

示例性的，在时长为1分种的视频数据中，分段获取每段时长为10秒的音频数据，将10秒的音频数据作为一个音频片段，获取至少一个音频片段，并记录每个音频片段的时间戳(开始时间和结束时间)。如第一音频片段开始时间为0秒，结束时间为10秒；第二音频片段开始时间为15秒，结束时间为25秒。将每一段音频片段转换为文本信息，并根据文本信息与剧本的角色对白进行匹配，获取匹配到的角色对白文本，角色对白文本所属的角色和角色的情感属性，根据对应的角色对白文本、角色对白文本所属的角色和角色的情感属性，合成配音数据，并在每一个配音数据中写入该音频片段对应的时间戳，再时间顺序将配音数据与视频数据进行合成。

在一个实施例中，上述视频配音方法还包括：

步骤S105：对音频片段进行情感分析，获取音频片段中角色的情感属性。

在具体应用中，视频数据中获取到的音频片段中也能体现该音频片段中的角色的情感属性。不同的情感属性对应不同的语气，不同的语气又会对应不同的语音特点，如在高兴时，说话的语速会比较快，音质中也有共鸣音和欢呼声。恐惧时，说话的语速会很快，音质不规律。因此可以根据音频片段中角色的语气获取角色的情感属性。结合语速、声音强度、声音质量以及清晰度分析该角色的语气进而获取角色的情感属性。

在一个实施例中，上述步骤S105包括：

S1051：通过音频片段的时长及转换的文本信息中的字数计算语速。

S1052：获取语音片段中角色的声音强度、声音质量以及清晰度。

S1053：根据语速、声音强度、声音质量以及清晰度分析音频片段中情感属性。

在具体应用中，根据计算得到的语速和获取到的声音强度、声音质量以及清晰度就能获取到该音频片段中角色的情感属性。具体的，可以通过对大量的音频片段进行分析，获取每个情感属性对应的语速、声音强度、声音质量以及清晰度的特点。表1示出了根据大量音频片段分析获得的各个情感属性对应的语速、声音强度、声音质量以及清晰度的特点。

表1：

本实施例提供的视频配音方法，通过分段获取视频数据中语音数据，根据音频片段匹配角色对白文本，分析角色的情感属性，根据角色和情感属性结合角色对白文本自动合成配音数据，再根据时间顺序将配音数据与视频数据进行合成，完成自动配音，且结合角色的情感属性进行配音，无需再通过后期进行人工配音，有效地解决了现有的视频配音存在效率低且成本高的问题。

实施例二：

如图2所示，在本实施例中，实施例一中的步骤S102具体包括：

步骤S201：将文本信息与角色对白文本进行搜索匹配，获取匹配度超过匹配阈值的角色对白文本作为角色对白文本。

在具体应用中，为了避免将音频片段转换成文本信息时存在误差，在进行角色的角色对白文本搜索匹配时，只需一定比例的文本信息匹配成功即可，即只需剧本中的角色对白文本与该文本信息的匹配度超过匹配阈值即可表明匹配成功，即该角色对白文本作为该音频片段对应的角色对白文本。

步骤S202：根据角色对白文本获取角色对白文本所属的角色和角色的情感属性。

在具体应用中，在角色对白文本中记录有该对白所属的角色以及该对白对应的角色的情感属性。因此在匹配获取到角色对白文本后，就能够根据角色对白文本获取角色对白文本所属的角色和角色的情感属性。

实施例三：

如图3所示，在本实施例中，实施例一中的步骤S103具体包括：

步骤S301：根据角色对白文本和角色建立角色的语音特征库。

在具体应用中，根据角色建立语音特征库，通过训练并建立与该角色对应的语音特征库，得到该角色的语音特征。需要说明的是，训练并建立语音特征库可以通过现有的语音处理工具实现。

步骤S302：根据角色的情感属性获取语气特征参数。

在具体应用中，预先根据角色的情感属性的语气特点，制定情感数据的语气特征参数。在获取到角色的情感属性后，就能根据该情感属性获取相应的语气特征参数。

步骤S303：通过语音特征库结合语气特征参数进行语音合成。

在具体应用中，根据语音特征库获取对应角色的语音并结合语气特征参数进行语音合成，生成带有感情色彩的配音数据，使得配音数据更加接近角色在不同语气下的自然语言，达到采用自动语音合成替代人工配音的目的。

实施例四：

如图4所示，本实施例提供视频配音装置100，用于执行实施例一中的方法步骤，其包括：提取模块101、匹配模块102、配音合成模块103以及视频合成模块104。

提取模块101用于分段提取视频数据中的音频数据，得到至少一个音频片段并获取音频片段的时间戳。

匹配模块102用于将音频片段转换为文本信息，并将文本信息与剧本中的角色对白进行匹配，获取文本信息对应的角色对白文本、角色对白文本所属的角色和角色的情感属性。

配音合成模块103用于根据音频片段对应的角色对白文本、角色对白文本所属的角色和角色的情感属性，合成配音数据并在配音数据中写入音频片段的时间戳。

视频合成模块104用于按照时间顺序将所有配音数据与视频数据进行合成。

在一个实施例中，上述视频配音装置100还包括情感分析模块。

情感分析模块用于对音频片段进行情感分析，获取音频片段中角色的情感属性。

在一个实施例中，上述情感分析模块包括：语速计算单元、参数获取单元以及分析单元。

语速计算单元用于通过音频片段的时长及转换的文本信息中的字数计算语速。

参数获取单元用于获取语音片段中角色的声音强度、声音质量以及清晰度。

分析单元用于根据语速、声音强度、声音质量以及清晰度分析音频片段中角色的情感属性。

需要说明的是，本发明实施例提供的视频配音装置，由于与本发明图1所示方法实施例基于同一构思，其带来的技术效果与本发明图1所示方法实施例相同，具体内容可参见本发明图1所示方法实施例中的叙述，此处不再赘述。

因此，本实施例提供的视频配音装置，同样能够通过分段获取视频数据中语音数据，根据音频片段匹配角色对白文本，分析角色的情感属性，根据角色和情感属性结合角色对白文本自动合成配音数据，再根据时间顺序将配音数据与视频数据进行合成，完成自动配音，且结合角色的情感属性进行配音，无需再通过后期进行人工配音，有效地解决了现有的视频配音存在效率低且成本高的问题。

实施例五：

如图5所示，在本实施例中，实施例四中的匹配模块102包括用于执行图2所对应的实施例中的方法步骤的结构，其包括：搜索匹配单元201和获取单元202。

搜索匹配单元201用于将文本信息与角色对白文本进行搜索匹配，获取匹配度超过匹配阈值的角色对白文本作为角色对白文本。

获取单元202用于根据角色对白文本获取角色对白文本所属的角色和角色的情感属性。

实施例六：

如图6所示，在本实施例中，实施例四中的配音合成模块103包括用于执行图3所对应的实施例中的方法步骤的结构，其包括：特征库建立单元301、特征参数获取单元302以及语音合成单元303。

特征库建立单元301用于根据角色对白文本和角色建立角色的语音特征库。

特征参数获取单元302用于根据角色的情感属性获取语气特征参数。

语音合成单元303用于通过语音特征库结合语气特征参数进行语音合成。

实施例七：

图7是本发明实施例七提供的终端设备的示意图。如图7所示，该实施例的终端设备7包括：处理器70、存储器71以及存储在所述存储器71中并可在所述处理器70上运行的计算机程序72，例如程序。所述处理器70执行所述计算机程序72时实现上述各个视频配音方法实施例中的步骤，例如图1所示的步骤S101至S104。或者，所述处理器70执行所述计算机程序72时实现上述装置实施例中各模块/单元的功能，例如图4所示模块101至104的功能。

示例性的，所述计算机程序72可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器71中，并由所述处理器70执行，以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序72在所述终端设备7中的执行过程。例如，所述计算机程序72可以被分割成提取模块、匹配模块、配音合成模块以及视频合成模块，各模块具体功能如下：

提取模块，用于分段提取视频数据中的音频数据，得到至少一个音频片段并获取所述音频片段的时间戳；

视频合成模块，用于按照时间顺序将所有所述配音数据与所述视频数据进行合成。

所述终端设备7可以是桌上型计算机、笔记本、掌上电脑及云端管理服务器等计算设备。所述终端设备可包括，但不仅限于，处理器70、存储器71。本领域技术人员可以理解，图7仅仅是终端设备7的示例，并不构成对终端设备7的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述终端设备还可以包括输入输出设备、网络接入设备、总线等。

所称处理器70可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器71可以是所述终端设备7的内部存储单元，例如终端设备7的硬盘或内存。所述存储器71也可以是所述终端设备7的外部存储设备，例如所述终端设备7上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，所述存储器71还可以既包括所述终端设备7的内部存储单元也包括外部存储设备。所述存储器71用于存储所述计算机程序以及所述终端设备所需的其他程序和数据。所述存储器71还可以用于暂时地存储已经输出或者将要输出的数据。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述无线终端中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的实施例中，应该理解到，所揭露的装置/终端设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/终端设备实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括是电载波信号和电信信号。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种视频配音方法，其特征在于，所述视频配音方法包括：

2.根据权利要求1所述的视频配音方法，其特征在于，将所述音频片段转换为文本信息，并将所述文本信息与剧本中的角色对白进行匹配，获取所述文本信息对应的角色对白文本、所述角色对白文本所属的角色和所述角色的情感属性，具体包括：

将所述文本信息与所述角色对白文本进行搜索匹配，获取匹配度超过匹配阈值的角色对白文本作为角色对白文本；

根据角色对白文本获取角色对白文本所属的角色和所述角色的情感属性。

3.根据权利要求1所述的视频配音方法，其特征在于，根据所述音频片段对应的角色对白文本、角色对白文本所属的角色和角色的情感属性，合成配音数据并在所述配音数据中写入所述音频片段的时间戳，包括：

根据所述角色对白文本和所述角色建立所述角色的语音特征库；

根据所述角色的情感属性获取语气特征参数；

通过所述语音特征库结合所述语气特征参数进行语音合成。

4.根据权利要求1所述的视频配音方法，其特征在于，所述视频配音方法还包括：

对所述音频片段进行情感分析，获取音频片段中角色的情感属性。

5.根据权利要求4所述的视频配音方法，其特征在于，所述对所述音频片段进行情感分析，获取音频片段中角色的情感属性，具体包括：

通过所述音频片段的时长及转换的文本信息中的字数计算语速；

获取所述语音片段中角色的声音强度、声音质量以及清晰度；

根据所述语速、所述声音强度、所述声音质量以及所述清晰度分析所述音频片段中角色的情感属性。

6.根据权利要求1所述的视频配音方法，其特征在于，

所述提取视频数据中的音频数据，得到音频片段并获取所述音频片段的时间戳具体为：分段提取视频数据中的音频数据，得到至少一个音频片段并获取所述音频片段的时间戳；

所述根据所述音频片段的时间戳将所述配音数据与所述视频数据进行合成具体为：按照所述音频片段的时间戳的时间顺序将所有所述配音数据与所述视频数据进行合成。

7.一种视频配音装置，其特征在于，所述视频配音装置包括：

匹配模块，用于将所述音频片段转换为文本信息，并将所述文本信息与剧本中的角色对白进行匹配，获取所述文本信息对应的角色对白文本、所述角色对白文本所属的角色和所述角色的情感属性角色对白文本角色对白文本；

配音合成模块，用于根据所述音频片段对应的角色对白文本、角色对白文本所属的角色和角色的情感属性，合成配音数据并在所述配音数据中写入所述音频片段的时间戳角色对白文本角色对白文本；

8.根据权利要求7所述的视频配音装置，其特征在于，所述匹配模块包括：

搜索匹配单元，用于将所述文本信息与所述角色对白文本进行搜索匹配，获取匹配度超过匹配阈值的角色对白文本作为角色对白文本；

获取单元，用于根据角色对白文本获取角色对白文本所属的角色和所述角色的情感属性。

9.一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述方法的步骤。