CN114363691A

CN114363691A - 语音字幕合成方法、装置、计算机设备及存储介质

Info

Publication number: CN114363691A
Application number: CN202110440175.4A
Authority: CN
Inventors: 雷天音
Original assignee: Nanjing Yiming Technology Co ltd
Current assignee: Nanjing Yiming Technology Co ltd
Priority date: 2021-04-22
Filing date: 2021-04-22
Publication date: 2022-04-15

Abstract

本申请提供一种语音字幕合成方法、装置、计算机设备及存储介质，涉及播放资源处理技术领域。该方法包括：通过获取输入文本，创建并在可视化界面中显示每个句子的字幕块，字幕块中显示有每个句子的文本；对每个句子进行语音合成，得到每个句子的语音；将每个句子的语音填充至每个句子的字幕块中，形成每个句子的语音字幕块，语音字幕块中显示有每个句子的文本以及每个句子对应的语音的波形图。通过本申请可使字幕与配音实时同步，提高视频创作或后期制作的效率。

Description

语音字幕合成方法、装置、计算机设备及存储介质

技术领域

本发明涉及播放资源处理技术领域，具体而言，涉及一种语音字幕合成方法、装置、计算机设备及存储介质。

背景技术

目前，在视频创作或后期制作过程中，需要对视频内容进行配音及添加字幕，现有的视频配音及字幕添加往往是两个独立的不相关的过程，需要分别对视频配音，并添加字幕。

由于视频配音及字幕是两个独立的过程，当字幕内容更改时，需要同步对配音进行更改。且由于配音及字幕添加之间没有关联，导致字幕与配音不同步，需要不断手动对字幕或配音在视频中的时间进行调整，以保证字幕和配音的同步性。

但手动调整的字幕时间和配音时间不能完全保持一致，导致字幕与配音无法完全同步，使视频创作或后期制作的效率低，创作内容质量低。

发明内容

本发明的目的在于，针对上述现有技术中的不足，提供一种语音字幕合成方法、装置、计算机设备及存储介质，以便使字幕与配音实时同步，提高视频创作或后期制作的效率。

为实现上述目的，本申请实施例采用的技术方案如下：

第一方面，本申请实施例提供了一种语音字幕合成方法，包括：

获取输入文本，所述输入文本包括：多个句子；

创建并在可视化界面中显示每个句子的字幕块，所述字幕块中显示有所述每个句子的文本；

对所述每个句子进行语音合成，得到所述每个句子的语音；

将所述每个句子的语音填充至所述每个句子的字幕块中，形成所述每个句子的语音字幕块；所述语音字幕块中显示有：所述每个句子的文本，以及所述每个句子对应的语音的波形图。

可选的，所述对所述每个句子进行语音合成，得到所述每个句子的语音之前，所述方法还包括：

响应输入的发音人选择操作，从预设的发音列表中确定目标发音人；

所述对所述每个句子进行语音合成，得到所述每个句子的语音，包括：

根据所述目标发音人的发音语速，对所述每个句子进行语音合成，得到所述每个句子的语音。

可选的，所述创建并在可视化界面中显示每个句子的字幕块，包括：

根据所述每个句子对应的预设字幕块长度，创建并在所述可视化界面中显示所述每个句子的字幕块。

可选的，所述将所述每个句子的语音填充至所述每个句子的字幕块中，形成所述每个句子的语音字幕块之前，所述方法还包括：

根据输入针对所述目标发音人的发音语速的确认操作，将所述每个句子的字幕块的长度调节为所述每个句子的语音的长度；

所述将所述每个句子的语音填充至所述每个句子的字幕块中，形成所述每个句子的语音字幕块，包括：

将每个句子的语音填充至长度调节后的所述每个句子的字幕块中，形成所述每个句子的语音字幕块。

若接收到输入针对所述目标发音人的发音语速的非确认操作，则对所述每个句子的语音进行变速；

将变速后的所述每个句子的语音填充至所述每个句子的字幕块中，形成所述每个句子的语音字幕块。

可选的，所述对所述每个句子的语音进行变速，包括：

若还接收到输入的加减速变速选择操作，则对所述每个句子的语音进行变速，使得变速后所述每个句子的语音的长度等于所述每个句子的字幕块的长度。

可选的，所述对所述每个句子的语音进行变速，包括：

若还接收到输入的加速变速选择操作，则判断所述每个句子的语音的长度是否大于所述每个句子的字幕块的长度；

若所述每个句子的语音的长度大于所述每个句子的字幕块的长度，则对所述每个句子的语音进行加速，使得加速后所述每个句子的语音的长度等于所述每个句子的字幕块的长度。

第二方面，本申请实施例还提供一种语音字幕合成装置，所述装置包括：

文本获取模块，用于获取输入文本，所述输入文本包括：多个句子；

字幕块创建模块，用于创建并在可视化界面中显示每个句子的字幕块，所述字幕块中显示有所述每个句子的文本；

句子语音合成模块，用于对所述每个句子进行语音合成，得到所述每个句子的语音；

填充模块，用于将所述每个句子的语音填充至所述每个句子的字幕块中，形成所述每个句子的语音字幕块；所述语音字幕块中显示有：所述每个句子的文本，以及所述每个句子对应的语音的波形图。

可选的，在所述句子语音合成模块之前，所述装置还包括：

发音人选择模块，用于响应输入的发音人选择操作，从预设的发音列表中确定目标发音人；

所述句子语音合成模块用于根据所述目标发音人的发音语速，对所述每个句子进行语音合成，得到所述每个句子的语音。

可选的，所述字幕块创建模块用于根据所述每个句子对应的预设字幕块长度，创建并在所述可视化界面中显示所述每个句子的字幕块。

可选的，在所述填充模块之前，所述装置还包括：

字幕块长度调节模块，用于根据输入针对所述目标发音人的发音语速的确认操作，将所述每个句子的字幕块的长度调节为所述每个句子的语音的长度；

所述填充模块用于将所述每个句子的语音填充至长度调节后的所述每个句子的字幕块中，形成所述每个句子的语音字幕块。

可选的，在所述填充模块之前，所述装置还包括：

语音变速模块，用于若接收到输入针对所述目标发音人的发音语速的非确认操作，则对所述每个句子的语音进行变速；

所述填充模块用于将变速后的所述每个句子的语音填充至所述每个句子的字幕块中，形成所述每个句子的语音字幕块。

可选的，所述语音变速模块包括：

语音加减速变速单元，用于若还接收到输入的加减速变速选择操作，则对所述每个句子的语音进行变速，使得变速后所述每个句子的语音的长度等于所述每个句子的字幕块的长度。

可选的，所述语音变速模块包括：

判断单元，用于若还接收到输入的加速变速选择操作，则判断所述每个句子的语音的长度是否大于所述每个句子的字幕块的长度；

语音加速单元，用于若所述每个句子的语音的长度大于所述每个句子的字幕块的长度，则对所述每个句子的语音进行加速，使得加速后所述每个句子的语音的长度等于所述每个句子的字幕块的长度。

第三方面，本申请实施例还提供一种计算机设备，包括：处理器、存储介质和总线，所述存储介质存储有所述处理器可执行的程序指令，当计算机设备运行时，所述处理器与所述存储介质之间通过总线通信，所述处理器执行所述程序指令，以执行如上述实施例任一所述的语音字幕合成方法的步骤。

第四方面，本申请实施例还提供一种计算机可读存储介质，所述存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如上述实施例任一所述的语音字幕合成方法的步骤。

本申请的有益效果是：

本申请提供的一种语音字幕合成方法、装置、计算机设备及存储介质，通过获取输入文本，创建并在可视化界面中显示每个句子的字幕块，字幕块中显示有每个句子的文本；对每个句子进行语音合成，得到每个句子的语音；将每个句子的语音填充至每个句子的字幕块中，形成每个句子的语音字幕块，语音字幕块中显示有每个句子的文本以及每个句子对应的语音的波形图。通过本申请提供的方案，可针对每个字幕块中的句子进行语音合成，并将合成的语音填充至字幕块形成语音字幕块，可通过调整语音字幕块的长度使语音同步变速，使字幕块的展示时长同步调节，使得语音和字幕实时绑定为一个整体，确保字幕和语音之间的关联性，提高视频创作或后期制作的效率，且字幕与语音同步使得视频创作或后期制作的质量提高。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的可视化界面的示意图；

图2为本申请实施例提供的语音合成界面的示意图；

图3为本申请实施例提供的第一种语音字幕合成方法的流程示意图；

图4为本申请实施例提供的第二种语音字幕合成方法的流程示意图；

图5为本申请实施例提供的第三种语音字幕合成方法的流程示意图；

图6为本申请实施例提供的第四种语音字幕合成方法的流程示意图；

图7为本申请实施例提供的第五种语音字幕合成方法的流程示意图；

图8为本申请实施例提供的一种语音字幕合成装置的结构示意图；

图9为本申请实施例提供的计算机设备的示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。

因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在本申请的描述中，需要说明的是，若出现术语“上”、“下”、等指示的方位或位置关系为基于附图所示的方位或位置关系，或者是该申请产品使用时惯常摆放的方位或位置关系，仅是为了便于描述本申请和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本申请的限制。

此外，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

需要说明的是，在不冲突的情况下，本申请的实施例中的特征可以相互结合。

本申请实施例提供的语音字幕合成方法，应用于具有语音字幕合成功能的计算机设备，该计算机设备上安装有可实现本申请实施例提供的语音字幕合成方法的应用软件，该应用软件可以为视频剪辑软件，通过在视频剪辑软件上执行本申请实施例提供的语音字幕合成方法，可为视频进行配音及添加字幕的创作，该应用软件还可以为配音软件，通过该配音软件为视频配音并添加字幕。该应用软件的执行主体为计算机设备，在计算机设备上运行该应用软件，并在计算机设备的显示设备上显示该引用软件的语音合成界面和可视化界面。

图1为本申请实施例提供的可视化界面的示意图；如图1所示，可视化界面10包括：文本编辑区11、字幕预览区12、时间轴13、字幕块14或语音字幕块15。

字幕预览区12用于对语音字幕块15中播放的字幕进行展示，若导入了视频文件，则字幕预览区12用于将语音字幕块15中播放的字幕在视频界面中进行展示。

时间轴13包括时间标尺131和时间指针132，语音字幕块15在时间标尺131上的横坐标表示语音字幕块的开始时间，语音字幕块15在时间标尺131上的宽度表示语音字幕块15的时长。时间指针132在时间标尺131上的位置表示语音字幕块15当前播放位置。

字幕块14中显示有：每个句子的文本，语音字幕块15中显示有：每个句子的文本151，以及每个句子对应的语音的波形图152。用户可通过调整语音字幕块15在时间标尺313上的横坐标，以修改语音字幕块15播放的开始时间，通过调整语音字幕块15的宽度，以修改语音字幕块15的播放时长，语音字幕块15的宽度调整，会改变语音字幕块15的语音速度和字幕在字幕预览区12的展示时长。

字幕块14和语音字幕块15不会同时出现在可视化界面10中，字幕块14为用户基于输入文本的多个句子创建的，语音字幕块15是通过对字幕块14中的每个句子合成为语音后将每个句子的语音填充至字幕块14形成的，在未合成语音前，可视化界面10中显示字幕块14，在合成语音后，可视化界面10中显示语音字幕块15。

图2为本申请实施例提供的语音合成界面的示意图；如图2所示，语音合成界面20包括：处理对象选择框21、合成语言选择框22、发音人列表23、音频速度选择框24。

处理对象选择框21可选择对用户选定字幕块单独进行语音字幕合成操作，或者，对所有句子的字幕块统一进行语音字幕合成操作。

合成语音选择框22可选择需要合成的语言，例如：中文、英文等，发音人列表23中存在多种可供用户选择的发音，可供用户选择男声或女声，并选择男声或女声的发音类型，每种发音类型均对应多种语言，如中文-男声-稳重、英文-男声-稳重等。

音频速度选择框24提供自然语速或匹配字幕块语速，若选择自然语速，则将字幕块14的长度调整为与合成的语音长度一致。若选择匹配字幕块语速，则为用户提供“仅加速”选项，若用户选择匹配字幕块语速，但未勾选“仅加速”，则将每个句子合成的语音长度调整为与用户创建的字幕块长度一致；若用户选择匹配字幕块语速，且勾选“仅加速”，则对合成的语音长度大于对应的字幕块长度的句子进行加速，使语音长度大于对应的字幕块长度的句子的语音长度与对应的字幕块长度一致。

在上述实施例提供的可视化界面和语音合成界面的基础上，本申请实施例提供一种语音字幕合成方法，图3为本申请实施例提供的第一种语音字幕合成方法的流程示意图，如图3所示，该方法可包括：

S11：获取输入文本。

具体的，在可视化界面10的文本编辑区11输入需要进行语音字幕合成的输入文本，输入文本包括：多个句子。

在一种可选实施方式中，输入文本的多个句子在文本编辑区11中最好以一句一行的方式输入，若输入文本以整段输入至文本编辑区11，则可通过文本编辑区11中的高级文本编辑器对整段的输入文本进行优化，以将整段的输入文本转换为一句一行的形式。

S12：创建并在可视化界面中显示每个句子的字幕块。

具体的，在可视化界面10的时间标尺131下创建字幕块14，每创建一个字幕块14，按照多个句子的顺序，依次将每个句子的文本填充至字幕块14中，字幕块中显示有每个句子的文本。

示例的，可以通过鼠标在时间标尺131拖动创建字幕块14，或通过预先设置的快捷键，每点击一次快捷键，则创建一个字幕块14，上一个字幕块14的结束为下一个字幕块14的开始。

在一种可选实施方式中，根据每个句子对应的预设字幕块长度，创建并在可视化界面中显示每个句子的字幕块。

具体的，预设字幕块长度可以为预设设置好的统一长度，也可以为根据每个句子的长度或字数计算得到的，还可以为用户自行确定的长度。若预设字幕块长度为统一长度，则在时间标尺131上创建的每个字幕块14的长度一致；若预设字幕块长度为根据每个句子的长度或字数计算得到的，则在时间标尺131上创建的每个字幕块14的长度自动调整为根据每个句子的长度或字数计算得到的字幕块长度；若预设字幕块长度为用户自行确定的长度，则用户可在时间标尺131上创建任意长度的字幕块14。字幕块14在时间标尺131上的起始时间和终止时间用于表示字幕块14的展示时间，字幕块14在时间标尺131上的长度用于表示字幕块14的展示时长。

S13：对每个句子进行语音合成，得到每个句子的语音。

具体的，选定需要进行语音合成的字幕块，选择语音合成功能，打开语音合成界面20，如图2所示，语音合成界面20中包括处理对象选择框21，可供用户选择对选定字幕块单独进行语音合成，还是选择全部字幕块统一进行语音合成，选择完成后，利用语音合成引擎对所选字幕块对应的句子进行语音合成，得到每个句子的语音。

S14：将每个句子的语音填充至每个句子的字幕块中，形成每个句子的语音字幕块。

具体的，将合成的每个句子的语音填充至每个句子的字幕块14中，形成每个句子的语音字幕块15，语音字幕块15中显示有：每个句子的文本151，以及每个句子对应的语音的波形图152。将语音填充至字幕块14形成语音字幕块15后，可视化界面10中不再显示字幕块14，而显示的是语音字幕块15，通过播放语音字幕块15，可通过计算机设备的播放器播放每个句子对应的语音，并在字幕预览区12显示每个句子的文本。

在一种可选实施方式中，语音字幕块可由独立的语音块和字幕块构成，语音块和字幕块保持同步，当对语音块的长度或位置进行调整时，字幕块的长度或位置同步发生变化；反之，当对字幕块的长度或位置进行调整时，语音块的长度或位置同步发生变化。

本申请实施例提供的一种语音字幕合成方法，通过获取输入文本，创建并在可视化界面中显示每个句子的字幕块，字幕块中显示有每个句子的文本；对每个句子进行语音合成，得到每个句子的语音；将每个句子的语音填充至每个句子的字幕块中，形成每个句子的语音字幕块，语音字幕块中显示有每个句子的文本以及每个句子对应的语音的波形图。通过本申请实施例提供的方法，可针对每个字幕块中的句子进行语音合成，并将合成的语音填充至字幕块形成语音字幕块，可通过调整语音字幕块的长度使语音同步变速，使字幕块的展示时长同步调节，使得语音和字幕实时绑定为一个整体，确保字幕和语音之间的关联性，提高视频创作或后期制作的效率，且字幕与语音同步使得视频创作或后期制作的质量提高。

在上述实施例的基础上，本申请实施例还提供一种语音字幕合成方法，图4为本申请实施例提供的第二种语音字幕合成方法的流程示意图，如图4所示，在上述S13之前，该方法还可包括：

S130：响应输入的发音人选择操作，从预设的发音列表中确定目标发音人。

具体的，如图2所示，语音合成界面20中为用户提供了包括多种发音类型的发音人列表23，以及包括多种合成语言的合成语言选择框22，用户可根据合成语言选择框22的合成语言的描述信息，和发音人列表23中的发音类型的描述信息，进行发音人选择操作，基于用户输入的发音人选择操作，确定目标发音人。

上述S13包括：

S131：根据目标发音人的发音语速，对每个句子进行语音合成，得到每个句子的语音。

具体的，发明人列表23中的每种发音类型对应的发音人具有特定的发音语速和声音特征，语音合成引擎通过学习目标发音人的声音特征，并根据目标发音人的发音语速，对每个句子进行语音合成，得到每个句子的语音。每个句子的语音的声音特征与目标发音人的声音特征一致，每个句子的语音的音速也与目标发音人的发音语速一致。

在一种可选实施方法中，在上述S130之前，该方法还可包括：

响应输入的试听语音选择操作，播放试听语音选择操作所选择的目标试听语音。

具体的，虽然发音类型的描述信息对发音人性别、发音类型都进行了简单的概括描述，但用户还是不能通过描述信息确定该发音人的发音特点是否满足自身需求或喜好，因此，可通过进行试听以确保用户选择满足自身需求或喜好的目标发音人。每种发音类型的描述信息均具有一个唯一对应的试听语音，用户可通过对发音类型进行试听语音选择操作，以播放所选择的目标试听语音。示例的，试听语音选择操作可以是针对发音人列表23中的发音类型的单击操作、双击操作或右键选择播放操作，本申请对此不做限制。

本申请实施例提供的语音字幕合成方法，通过响应输入的发音人选择操作，从预设的发音列表中确定目标发音人，根据目标发音人的发音语速，对每个句子进行语音合成，得到每个句子的语音。通过本申请实施例提供的方法，可为用户提供给多种发音类型，使得用户可自行选择满足自身需求或喜好的发音类型，且本申请可针对每个句子单独进行语音合成，使得输入文本的多个句子可以选择不同的目标发音人，为用户进行创作提供多样化选择，满足用户需求，以实现用户创作内容的多样性。

在上述实施例的基础上，本申请实施例还提供一种语音字幕合成方法，图5为本申请实施例提供的第三种语音字幕合成方法的流程示意图，如图5所示，在上述S14之前，该方法还可包括：

S140a：根据输入针对目标发音人的发音语速的确认操作，将每个句子的字幕块的长度调节为每个句子的语音的长度。

具体的，语音合成界面20中为用户提供了音频速度选择框24，用户可选择是否直接输出目标发音人的发音语速对应的语音。音频速度选择框24中的“自然”选择框用于指示用户针对目标发音人的发音语速的确认操作，若接收到针对目标发音人的发音语速的确认操作，则每个句子的语音的长度不变，但是为了保证语音和字幕的同步性，需要对每个句子的字幕块14的长度进行调节，使每个句子的字幕块14的长度与每个句子的语音的长度一致。

上述S14包括：

S141a：将每个句子的语音填充至长度调节后的每个句子的字幕块中，形成每个句子的语音字幕块。

具体的，根据上述S140a对每个句子的字幕块14的长度进行调节，使每个句子的字幕块14的长度与每个句子的语音的长度一致后，将每个句子的语音填充至长度调节后的每个句子的字幕块14中，形成每个句子的语音字幕块15。

本申请实施例提供的语音字幕合成方法，根据输入针对目标发音人的发音语速的确认操作，将每个句子的字幕块的长度调节为每个句子的语音的长度，将每个句子的语音填充至长度调节后的每个句子的字幕块中，形成每个句子的语音字幕块。通过本申请实施例提供的方法，可根据每个句子的语音的长度自动调节每个句子的字幕块的长度，以保证语音和字幕的同步性，避免语音和字幕不同步不对应的问题，提高视频创作或后期制作的质量。

在上述实施例的基础上，本申请实施例还提供一种语音字幕合成方法，图6为本申请实施例提供的第四种语音字幕合成方法的流程示意图，如图6所示，在上述S14之前，该方法还可包括：

S140b：若接收到输入针对目标发音人的发音语速的非确认操作，则对每个句子的语音进行变速。

具体的，在语音合成界面20的音频速度选择框24中，除了“自然”选择框外，还具有“匹配字幕块”选择框，“匹配字幕块”选择框也可以称为“非自然”选择框，在此不做限制。若用户选择了“匹配字幕块”选择框，而没有选择“自然”选择框，则确认接收到输入针对目标发音人的发音语速的非确认操作，根据非确认操作，对每个句子的语音进行变速。

上述S14包括：

S141b：将变速后的每个句子的语音填充至每个句子的字幕块中，形成每个句子的语音字幕块。

具体的，根据上述S140b对每个句子的语音进行变速，使每个句子的语音长度发生变化，将变速后的每个句子的语音填充至每个句子的字幕块14中，形成每个句子的语音字幕块15。

本申请实施例提供的语音字幕合成方法，若接收到输入针对目标发音人的发音语速的非确认操作，则对每个句子的语音进行变速，将变速后的每个句子的语音填充至每个句子的字幕块中，形成每个句子的语音字幕块。通过本申请实施例提供的方法，可对每个句子进行变速，使得每个句子的语速满足需求，以实现用户创作内容的多样性。

在一种可选实施方式中，对每个句子的语音进行变速，包括：

若还接收到输入的加减速变速选择操作，则对每个句子的语音进行变速，使得变速后每个句子的语音的长度等于每个句子的字幕块的长度。

具体的，在语音合成界面20的音频速度选择框24中，若用户选择了“配置字幕块”，则基于触发的“配置字幕块”操作，为用户提供“加减速”选择框和“仅加速”选择框。若用户选择了“加减速”选择框，或者仅选择了“配置字幕块”也默认用户选择了“加减速”选择框，则根据接收到的输入的加减速变速选择操作，若句子的语音的长度大于对应句子的字幕块的长度，则对句子进行加速，使加速后每个句子的语音的长度等于每个句子的字幕块的长度。若句子的语音的长度小于对应句子的字幕块的长度，则对句子进行减速，使减速后每个句子的语音的长度等于每个句子的字幕块的长度。

在另一种可选实施方式中，图7为本申请实施例提供的第五种语音字幕合成方法的流程示意图，如图7所示，对每个句子的语音进行变速，包括：

S142：若还接收到输入的加速变速选择操作，则判断每个句子的语音的长度是否大于每个句子的字幕块的长度。

具体的，若用户选择框“仅加速”选择框，表明用户不需要对语音进行减速操作，加速所针对的是语音长度大于字幕块长度的句子，因此，根据接收到输入的加速变速选择操作，则判断每个句子的语音的长度是否大于每个句子的字幕块的长度。

S143：若每个句子的语音的长度大于每个句子的字幕块的长度，则对每个句子的语音进行加速，使得加速后每个句子的语音的长度等于每个句子的字幕块的长度。

具体的，若句子的语音的长度大于对应句子的字幕块的长度，则对句子进行加速，使加速后每个句子的语音的长度等于每个句子的字幕块的长度。若句子的语音的长度小于或等于对应句子的字幕块的长度，则句子的语音的长度保持不变。

本申请实施例提供的语音字幕合成方法，若还接收到输入的加减速变速选择操作，则对每个句子的语音进行变速，使得变速后每个句子的语音的长度等于每个句子的字幕块的长度；若还接收到输入的加速变速选择操作，则判断每个句子的语音的长度是否大于每个句子的字幕块的长度，若每个句子的语音的长度大于每个句子的字幕块的长度，则对每个句子的语音进行加速，使得加速后每个句子的语音的长度等于每个句子的字幕块的长度。通过本申请实施例提供的方法，可对句子的语音的长度进行调整，使得句子的语音的长度与字幕块的长度相等，以保证语音和字幕的同步性，避免语音和字幕不同步不对应的问题，提高视频创作或后期制作的质量。

在上述任一实施例的基础上，本申请实施例还提供一种语音字幕合成装置，图8为本申请实施例提供的一种语音字幕合成装置的结构示意图，如图8所示，该装置包括：

文本获取模块100，用于获取输入文本，输入文本包括：多个句子；

字幕块创建模块200，用于创建并在可视化界面中显示每个句子的字幕块，字幕块中显示有每个句子的文本；

句子语音合成模块300，用于对每个句子进行语音合成，得到每个句子的语音；

填充模块400，用于将每个句子的语音填充至每个句子的字幕块中，形成每个句子的语音字幕块；语音字幕块中显示有：每个句子的文本，以及每个句子对应的语音的波形图。

可选的，在句子语音合成模块300之前，该装置还包括：

句子语音合成模块用于根据目标发音人的发音语速，对每个句子进行语音合成，得到每个句子的语音。

可选的，字幕块创建模块200用于根据每个句子对应的预设字幕块长度，创建并在可视化界面中显示每个句子的字幕块。

可选的，在填充模块400之前，该装置还包括：

字幕块长度调节模块，用于根据输入针对目标发音人的发音语速的确认操作，将每个句子的字幕块的长度调节为每个句子的语音的长度；

填充模块用于将每个句子的语音填充至长度调节后的每个句子的字幕块中，形成每个句子的语音字幕块。

可选的，在填充模块400之前，该装置还包括：

语音变速模块，用于若接收到输入针对目标发音人的发音语速的非确认操作，则对每个句子的语音进行变速；

填充模块用于将变速后的每个句子的语音填充至每个句子的字幕块中，形成每个句子的语音字幕块。

可选的，语音变速模块包括：

语音加减速变速单元，用于若还接收到输入的加减速变速选择操作，则对每个句子的语音进行变速，使得变速后每个句子的语音的长度等于每个句子的字幕块的长度。

可选的，语音变速模块包括：

判断单元，用于若还接收到输入的加速变速选择操作，则判断每个句子的语音的长度是否大于每个句子的字幕块的长度；

语音加速单元，用于若每个句子的语音的长度大于每个句子的字幕块的长度，则对每个句子的语音进行加速，使得加速后每个句子的语音的长度等于每个句子的字幕块的长度。

上述装置用于执行前述实施例提供的方法，其实现原理和技术效果类似，在此不再赘述。

以上这些模块可以是被配置成实施以上方法的一个或多个集成电路，例如：一个或多个特定集成电路(Application Specific Integrated Circuit，简称ASIC)，或，一个或多个微处理器(digital singnal processor，简称DSP)，或，一个或者多个现场可编程门阵列(Field Programmable Gate Array，简称FPGA)等。再如，当以上某个模块通过处理元件调度程序代码的形式实现时，该处理元件可以是通用处理器，例如中央处理器(CentralProcessing Unit，简称CPU)或其它可以调用程序代码的处理器。再如，这些模块可以集成在一起，以片上系统(system-on-a-chip，简称SOC)的形式实现。

图9为本申请实施例提供的计算机设备的示意图，该计算机设备500包括：处理器501、存储介质502和总线，存储介质502存储有处理器501可执行的程序指令，当计算机设备500运行时，处理器501与存储介质502之间通过总线通信，处理器501执行程序指令，以执行上述方法实施例。具体实现方式和技术效果类似，这里不再赘述。

可选地，本发明还提供一种程序产品，例如计算机可读存储介质，包括程序，该程序在被处理器执行时用于执行上述方法实施例。

在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(英文：processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(英文：Read-Only Memory，简称：ROM)、随机存取存储器(英文：Random Access Memory，简称：RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

上仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种语音字幕合成方法，其特征在于，包括：

获取输入文本，所述输入文本包括：多个句子；

对所述每个句子进行语音合成，得到所述每个句子的语音；

2.如权利要求1所述的方法，其特征在于，所述对所述每个句子进行语音合成，得到所述每个句子的语音之前，所述方法还包括：

3.如权利要求1所述的方法，其特征在于，所述创建并在可视化界面中显示每个句子的字幕块，包括：

4.如权利要求1所述的方法，其特征在于，所述将所述每个句子的语音填充至所述每个句子的字幕块中，形成所述每个句子的语音字幕块之前，所述方法还包括：

将所述每个句子的语音填充至长度调节后的所述每个句子的字幕块中，形成所述每个句子的语音字幕块。

5.如权利要求1所述的方法，其特征在于，所述将所述每个句子的语音填充至所述每个句子的字幕块中，形成所述每个句子的语音字幕块之前，所述方法还包括：

6.如权利要求5所述的方法，其特征在于，所述对所述每个句子的语音进行变速，包括：

7.如权利要求5所述的方法，其特征在于，所述对所述每个句子的语音进行变速，包括：

8.一种语音字幕合成装置，其特征在于，所述装置包括：

9.一种计算机设备，其特征在于，包括：处理器、存储介质和总线，所述存储介质存储有所述处理器可执行的程序指令，当计算机设备运行时，所述处理器与所述存储介质之间通过总线通信，所述处理器执行所述程序指令，以执行如权利要求1至7任一所述的语音字幕合成方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如权利要求1至7任一所述的语音字幕合成方法的步骤。