CN112995736A

CN112995736A - 语音字幕合成方法、装置、计算机设备及存储介质

Info

Publication number: CN112995736A
Application number: CN202110438787.XA
Authority: CN
Inventors: 雷天音
Original assignee: Nanjing Yiming Technology Co ltd
Current assignee: Nanjing Yiming Technology Co ltd
Priority date: 2021-04-22
Filing date: 2021-04-22
Publication date: 2021-06-18

Abstract

本申请提供一种语音字幕合成方法、装置、计算机设备及存储介质，涉及播放资源处理技术领域。该方法包括：获取输入文本，输入文本包括：多个句子；对输入文本进行语音合成，得到输入文本对应的目标音频；获取目标音频中每个句子对应音频段落的时间戳信息；根据时间戳信息对目标音频进行拆分，得到每个句子对应的音频段落；根据每个句子对应的音频段落和每个句子，生成并在可视化界面上显示每个句子的语音字幕块；语音字幕块中显示有：每个句子的文本，以及每个句子对应音频段落的波形图。通过本申请可对音频和字幕进行统一调整，确保音频和字幕实时同步。

Description

语音字幕合成方法、装置、计算机设备及存储介质

技术领域

本发明涉及播放资源处理技术领域，具体而言，涉及一种语音字幕合成方法、装置、计算机设备及存储介质。

背景技术

随着互联网在线视频的快速发展，越来越多的创作者开始进行视频创作，现有的视频创作过程中，如何保证音频和字幕统一对视频创作尤为重要。

现有的视频剪辑软件中，通常由用户输入一句话或者一段话作为字幕，软件可将这句话合成为语音。

但现有的视频剪辑软件只能单句合成语音，或者整段合成语音，无法将整段文本进行适当拆分，生成多句语音及字幕，且语音和字幕之间不具备关联性，当对语音进行调速后，字幕不能同步变速，导致语音和字幕不同步。

发明内容

本发明的目的在于，针对上述现有技术中的不足，提供一种语音字幕合成方法、装置、计算机设备及存储介质，以便对音频和字幕进行统一调整，确保音频和字幕实时同步。

为实现上述目的，本申请实施例采用的技术方案如下：

第一方面，本申请实施例提供了一种语音字幕合成方法，包括：

获取输入文本，所述输入文本包括：多个句子；

对所述输入文本进行语音合成，得到所述输入文本对应的目标音频；

获取所述目标音频中每个句子对应音频段落的时间戳信息；

根据所述时间戳信息对所述目标音频进行拆分，得到所述每个句子对应的音频段落；

根据所述每个句子对应的音频段落和所述每个句子，生成并在可视化界面上显示所述每个句子的语音字幕块；所述语音字幕块中显示有：所述每个句子的文本，以及所述每个句子对应音频段落的波形图。

可选的，所述对所述输入文本进行语音合成，得到所述输入文本对应的目标音频之前，所述方法还包括：

响应输入的发音人选择操作，从预设的发音列表中确定目标发音人；

所述对所述输入文本进行语音合成，得到所述输入文本对应的目标音频，包括：

根据所述目标发音人的发音语速，对所述输入文本进行语音合成，得到所述输入文本对应的目标音频。

可选的，所述响应输入的发音人选择操作，从预设的发音列表中确定目标发音人之前，所述方法还包括：

响应输入的试听样音选择操作，播放所述试听样音选择操作所选择的目标样音。

可选的，所述方法还包括：

根据所述输入文本的字数和所述发音语速，计算所述输入文本对应的音频时长；

若所述音频时长满足预设音频时长条件，则确定无需对所述目标音频进行变速。

可选的，所述方法还包括：

若所述音频时长不满足所述预设音频时长条件，则根据预设的音频开始时间和预设的音频结束时间，对所述每个句子对应的音频段落进行变速，使得变速后所述多个句子对应的音频段落的时间在所述音频开始时间和所述音频结束时间的时间范围内。

可选的，所述方法还包括：

对变速前所述多个句子对应的音频段落，和变速后所述多个句子对应的音频段落分别进行存储。

可选的，所述在可视化界面上显示所述每个句子的语音字幕块，包括：

根据所述多个句子对应音频的时间戳信息，以及预设的音频开始时间，在所述可视化界面中的时间轴上依次显示所述多个句子的语音字幕块。

第二方法，本申请实施例还提供一种语音字幕合成装置，所述装置包括：

输入模块，用于获取输入文本，所述输入文本包括：多个句子；

语音合成模块，用于对所述输入文本进行语音合成，得到所述输入文本对应的目标音频；

时间戳信息获取模块，用于获取所述目标音频中每个句子对应音频段落的时间戳信息；

音频拆分模块，用于根据所述时间戳信息对所述目标音频进行拆分，得到所述每个句子对应的音频段落；

显示模块，用于根据所述每个句子对应的音频段落和所述每个句子，生成并在可视化界面上显示所述每个句子的语音字幕块；所述语音字幕块中显示有：所述每个句子的文本，以及所述每个句子对应音频段落的波形图。

可选的，在所述语音合成模块之前，所述装置还包括：

发音人选择模块，用于响应输入的发音人选择操作，从预设的发音列表中确定目标发音人；

所述语音合成模块用于根据所述目标发音人的发音语速，对所述输入文本进行语音合成，得到所述输入文本对应的目标音频。

可选的，在所述发音人选择模块之前，所述装置还包括：

试听模块，用于响应输入的试听样音选择操作，播放所述试听样音选择操作所选择的目标样音。

可选的，所述装置还包括：

音频时长计算模块，用于根据所述输入文本的字数和所述发音语速，计算所述输入文本对应的音频时长；

变速确定模块，用于若所述音频时长满足预设音频时长条件，则确定无需对所述目标音频进行变速。

可选的，所述装置还包括：

变速模块，用于若所述音频时长不满足所述预设音频时长条件，则根据预设的音频开始时间和预设的音频结束时间，对所述每个句子对应的音频段落进行变速，使得变速后所述多个句子对应的音频段落的时间在所述音频开始时间和所述音频结束时间的时间范围内。

可选的，所述装置还包括：

存储模块，用于对变速前所述多个句子对应的音频段落，和变速后所述多个句子对应的音频段落分别进行存储。

第三方面，本申请实施例还提供一种计算机设备，包括：处理器、存储介质和总线，所述存储介质存储有所述处理器可执行的程序指令，当所述计算机设备运行时，所述处理器与所述存储介质之间通过总线通信，所述处理器执行所述程序指令，以执行如上述实施例任一所述的语音字幕合成方法的步骤。

第四方面，本申请实施例还提供一种计算机可读存储介质，所述存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如上述实施例任一所述的语音字幕合成方法的步骤。

本申请的有益效果是：

本申请提供一种语音字幕合成方法、装置、计算机设备及存储介质，通过获取输入文本，对输入文本进行语音合成，得到输入文本对应的目标音频，获取目标音频中每个句子对应音频段落的时间戳信息，根据时间戳信息对目标音频进行拆分，得到每个句子对应的音频段落，根据每个句子对应的音频段落和每个句子，生成并在可视化界面上显示每个句子的语音字幕块，语音字幕块中显示有：每个句子的文本，以及每个句子对应音频段落的波形图。通过本申请提供的方案，可对整段输入文本合成的目标音频进行拆分，并通过将每个句子的音频段落和每个句子合成每个句子的语音字幕块，可以通过语音字幕块对每个语句为字幕长度和音频长度进行统一调整，也可以通过修改字幕以自动更新音频，确保音频和字幕实时同步，避免反复修改导致创作效率降低。在对视频进行配音及字幕添加创作时，确保语音和字幕高度贴合视频画面节奏，降低了视频配音及字幕添加的难度，提高创作效率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的配置界面的示意图；

图2为本申请实施例提供的第一种语音字幕合成方法的流程示意图；

图3为本申请实施例提供的可视化界面的示意图；

图4为本申请实施例提供的第二种语音字幕合成方法的流程示意图；

图5为本申请实施例提供的第三种语音字幕合成方法的流程示意图；

图6为本申请实施例提供的一种语音字幕合成装置的结构示意图；

图7为本申请实施例提供的计算机设备的示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。

因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在本申请的描述中，需要说明的是，若出现术语“上”、“下”、等指示的方位或位置关系为基于附图所示的方位或位置关系，或者是该申请产品使用时惯常摆放的方位或位置关系，仅是为了便于描述本申请和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本申请的限制。

此外，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

需要说明的是，在不冲突的情况下，本申请的实施例中的特征可以相互结合。

本申请实施例提供的语音字幕合成方法，其执行主体为具有语音字幕合成功能的计算机设备，该计算机设备上安装有可实现本申请实施例提供的语音字幕合成方法的软件，该软件可以为语音字幕合成软件，也可以为视频剪辑软件。该软件在计算机设备上运行，并在计算机设备的显示设备上显示该软件的配置界面和可视化界面。

图1为本申请实施例提供的配置界面的示意图；如图1所示，配置界面10包括：文本输入框11、发音人列表12、开始时间设置框13、音频速度选择框14、音频时长显示框15。

具体的，文本输入框11用于输入待合成语音的文本内容，发音人列表12为用户提供了多种可供选择的发音描述信息，发音描述信息可以包括：发音人性别、发音人ID如发音人姓名、发音类型、可支持语言等，每种发音描述信息均具有一个样音的音频，以供用户进行试听。开始时间设置框13用于设置将输入文本转换为目标音频后在时间轴上的开始时间。音频速度选择框14用于选择使用发音人的自然语速对输入文本进行语音合成，还是选择对发音人的变速语速对输入文本进行语音合成，变速语速是通过对自然语速变速得到的。音频时长显示框15用于显示根据发音人的自然语速对输入文本进行语音合成得到的目标音频的音频时长。

若用户对目标音频的音频时长不满意，则可以在音频速度选择框14中选择变速操作，基于变速操作，在配置界面中显示结束时间选择框16，以供用户设置目标音频在时间轴上的结束时间，根据调整开始时间和结束时间，以改变音频速度。

在上述实施例的基础上，本申请实施例提供一种语音字幕合成方法，图2为本申请实施例提供的第一种语音字幕合成方法的流程示意图，如图2所示，该方法可包括：

S11：获取输入文本。

具体的，获取用户在文本输入框11中输入的输入文本，输入文本为用户需要进行语音合成并作为字幕进行展示的内容，输入文本包括：多个句子。

S12：对输入文本进行语音合成，得到输入文本对应的目标音频。

具体的，利用语音合成引擎对输入文本进行语音合成，将输入文本中的文字信息转换为可听的声音信息，得到输入文本对应的目标音频。语音合成引擎可以基于用户选择的声音类型将输入文本转换为用户选择的声音类型的目标音频。

在一种可选实施方式中，还可以由用户导入目标音频或通过录音设备对用户的语音进行录制得到目标音频，若采用这种方式获取目标音频，则需要通过音频识别模块对目标音频中文本进行识别，得到输入文本。

S13：获取目标音频中每个句子对应音频段落的时间戳信息。

具体的，采用预设的时间戳信息获取方法，获取每个句子对应音频段落在目标音频中的时间戳信息，时间戳信息用于指示每个句子对应音频段落在目标音频中的段落开始时间和段落结束时间。

在一种可选实施方式中，预设的时间戳信息获取方法为：语音合成引擎在对输入文本进行语音合成得到目标音频的过程中，语音合成引擎对输入文本进行自动断句，在对每个句子进行语音合成时记录每个句子对应音频段落的段落开始时间和段落结束时间，从而得到每个句子对应音频段落在目标音频中的时间戳信息。

在另一种可选实施方式中，若由用户导入目标音频或通过录音设备对用户的语音进行录制得到目标音频，则可以利用自动打轴技术，将输入文件自动匹配到目标音频并生成时间轴，从而确定输入文件的每个句子对应音频段落的时间戳信息。

S14：根据时间戳信息对目标音频进行拆分，得到每个句子对应的音频段落。

具体的，利用语音合成引擎得到输入文本的目标音频后，根据每个句子对应音频段落在目标音频中的段落开始时间和段落结束时间，对目标音频记性拆分，得到每个句子对应的音频段落。

S15：根据每个句子对应的音频段落和每个句子，生成并在可视化界面上显示每个句子的语音字幕块。

具体的，将每个句子和每个句子对应的音频段落一一对应，生成每个句子的语音字幕块，并将语音字幕块在可视化界面中进行显示，语音字幕块中显示有：每个句子的文本，以及每个句子对应音频段落的波形图。

在一种可选实施方法中，在可视化界面上显示每个句子的语音字幕块包括：

根据多个句子对应音频的时间戳信息，以及预设的音频开始时间，在可视化界面中的时间轴上依次显示多个句子的语音字幕块。

具体的，可视化界面中具有时间轴，根据预设的音频开始时间，以及每个句子对应音频段落在目标音频中的段落开始时间和段落结束时间，从时间轴上的音频开始时间作为起点，将每个句子的语音字幕块在时间轴上依次排列。

在一种可选实施方式中，语音字幕块可由独立的语音块和字幕块构成，语音块和字幕块保持同步，当对语音块的长度或位置进行调整时，字幕块的长度或位置同步发生变化；反之，当对字幕块的长度或位置进行调整时，语音块的长度或位置同步发生变化。

图3为本申请实施例提供的可视化界面的示意图；如图3所示，可视化界面20中包括：字幕预览区21、语音字幕块22和时间轴23。

字幕预览区21用于对语音字幕块22中播放的字幕进行展示，若导入了视频文件，则字幕预览区21用于对语音字幕块22中播放的字幕在视频界面中进行展示。

语音字幕块22中显示有：每个句子的文本221，以及每个句子对应音频段落的波形图222。用户可通过调整语音字幕块22在时间标尺231上的横坐标及宽度，以修改语音字幕块22播放的开始时间和时长，语音字幕块22的宽度调整，会改变语音子模块22的音频速度和字幕在字幕预览区21的展示时长。

时间轴23包括时间标尺231和时间指针232，语音字幕块22在时间标尺231上的横坐标表示语音字幕块的开始时间，语音字幕块22在时间标尺231上的宽度表示语音字幕块的时长。时间指针232在时间标尺231上的位置表示语音字幕块22当前播放位置。

在一种可选实施方式中，语音字幕块22在时间轴23上还可以语音块和字幕块的方式进行展示，语音块中显示有每个句子对应音频段落的波形图，字幕块中显示有：每个句子的文本。每个句子对应音频段落的语音块和每个句子的字幕块保持同步。

本申请实施例提供的语音字幕合成方法，通过获取输入文本，对输入文本进行语音合成，得到输入文本对应的目标音频，获取目标音频中每个句子对应音频段落的时间戳信息，根据时间戳信息对目标音频进行拆分，得到每个句子对应的音频段落，根据每个句子对应的音频段落和每个句子，生成并在可视化界面上显示每个句子的语音字幕块，语音字幕块中显示有：每个句子的文本，以及每个句子对应音频段落的波形图。通过本申请实施例提供的方法，可对整段输入文本合成的目标音频进行拆分，并通过将每个句子的音频段落和每个句子合成每个句子的语音字幕块，可以通过语音字幕块对每个语句为字幕长度和音频长度进行统一调整，也可以通过修改字幕以自动更新音频，确保音频和字幕实时同步，避免反复修改导致创作效率降低。在对视频进行配音及字幕添加创作时，确保语音和字幕高度贴合视频画面节奏，降低了视频配音及字幕添加的难度，提高创作效率。

在上述实施例的基础上，本申请实施例还提供一种语音字幕合成方法，图4为本申请实施例提供的第二种语音字幕合成方法的流程示意图，如图4所示，在上述S12之前，该方法还可包括：

S120：响应输入的发音人选择操作，从预设的发音列表中确定目标发音人。

具体的，如图1所示，配置界面10中为用户提供了包括多种发音描述信息的发音人列表12，用户可根据发音人列表12中的发音描述信息，进行发音人选择操作，基于用户输入的发音人选择操作，确定目标发音人。

上述S12包括：

S121：根据目标发音人的发音语速，对输入文本进行语音合成，得到输入文本对应的目标音频。

具体的，发明人列表12中的每种发音描述信息对应的发音人具有特定的发音语速，语音合成引擎通过学习目标发音人的声音特征，并根据目标发音人的发音语速，对输入文本进行语音合成，得到输入文本对应的目标音频。目标音频的声音特征与目标发音人的声音特征一致，目标音频的音速也与目标发音人的发音语速一致。

在一种可选实施方法中，在上述S120之前，该方法还可包括：

响应输入的试听样音选择操作，播放试听样音选择操作所选择的目标样音。

具体的，虽然发音描述信息对发音人性别、发音类型都进行了简单的概括描述，但用户还是不能通过发音描述信息确定该发音人的发音特点是否满足自身需求或喜好，因此，可通过进行试听以确保用户选择满足自身需求或喜好的目标发音人。每种发音描述信息均具有一个唯一对应的试听样音，用户可通过对发音描述信息进行试听样音选择操作，以播放所选择的目标样音。示例的，试听样音选择操作可以是针对发音人列表12中的发音描述信息的单击操作、双击操作或右键选择播放操作，本申请对此不做限制。

本申请实施例提供的语音字幕合成方法，通过响应输入的发音人选择操作，从预设的发音列表中确定目标发音人，根据目标发音人的发音语速，对输入文本进行语音合成，得到输入文本对应的目标音频。通过本申请实施例提供的方法，可为用户提供给多种发音类型，使得用户可自行选择满足自身需求或喜好的发音类型，为用户进行创作提供多样化选择，满足用户需求，也实现了用户创作内容的多样性。

在上述实施例的基础上，本申请实施例还提供一种语音字幕合成方法，图5为本申请实施例提供的第三种语音字幕合成方法的流程示意图，如图5所示，该方法还可包括：

S16：根据输入文本的字数和发音语速，计算输入文本对应的音频时长。

具体的，语音合成引擎在对输入文本进行语音合成时，根据输入文本的字数和选择的目标发音人的发音语速，计算输入文本对应的音频时长。

S17：若音频时长满足预设音频时长条件，则确定无需对目标音频进行变速。

具体的，预设音频时长条件可以为：目标音频的音频时长与预设音频时长的时长之差在预设时差范围内，还可以是用户自主判断音频时长是否满足自身需求。预设音频时长可以为：用户自行设置的音频时长，也可以为：用户导入的需要添加字幕和音频的视频时长。

若音频时长满足预设音频时长条件，则无需对目标音频进行变速，可直接根据时间戳信息对目标音频进行拆分，得到每个句子对应的音频段落，并将每个句子对应的音频段落和每个句子生成每个句子的语音字幕块22，并在可视化界面20中显示。

在一种可选实施方式中，如图4所示，该方法还可包括：

S18：若音频时长不满足预设音频时长条件，则根据预设的音频开始时间和预设的音频结束时间，对每个句子对应的音频段落进行变速，使得变速后多个句子对应的音频段落的时间在音频开始时间和音频结束时间的时间范围内。

具体的，若目标音频的音频时长与预设音频时长的时长之差大于预设时差范围，或者目标音频的音频时长超过用户自身需求的视频时长，音频时长不满足预设音频时长条件，根据目标音频的音频时长、预设音频时长和每个句子对应的音频段落的音频段落时长，计算每个句子对应的音频段落的加速时长，以对每个句子对应的音频段落进行加速，使得加速后的多个句子对应的音频段落的时间在音频开始时间和音频结束时间的时间范围内。

若目标音频的音频时长与预设音频时长的时长之差小于预设时差范围，或者目标音频的音频时长短于用户自身需求的视频时长，音频时长不满足预设音频时长条件，根据目标音频的音频时长、预设音频时长和每个句子对应的音频段落的音频段落时长，计算每个句子对应的音频段落的减速时长，以对每个句子对应的音频段落进行减速，使得减速后的多个句子对应的音频段落的时间在音频开始时间和音频结束时间的时间范围内。

对变速后每个句子对应的音频段落和每个句子生成每个句子的语音字幕块22，并在可视化界面上显示。

需要说明的是，预设视频时长为根据预设的音频开始时间和预设的音频结束时间计算得到的，预设的音频开始时间和预设的音频结束时间可以为用户在配置界面10的开始时间设置框13和结束时间设置框16中自行设置的，也可以为用户导入的需要添加字幕和音频的视频的视频开始时间和视频结束时间。每个句子对应的音频段落的音频段落时长是根据每个句子对应的音频段落的时间戳信息，即段落开始时间和段落结束时间计算得到的。

本申请实施例提供的语音字幕合成方法，根据输入文本的字数和发音语速，计算输入文本对应的音频时长，若音频时长满足预设音频时长条件，则确定无需对目标音频进行变速；若音频时长不满足预设音频时长条件，则根据预设的音频开始时间和预设的音频结束时间，对每个句子对应的音频段落进行变速，使得变速后多个句子对应的音频段落的时间在音频开始时间和音频结束时间的时间范围内。本申请实施例提供的方法，在进行语音字幕合成时，可通过指定目标音频的开始时间和结束时间以精确控制语音字幕块的时长，根据该时间范围对每个句子对应的音频段落进行统一变速，使多个句子自动批量统一变速至该时间范围内，保证每个句子对应的音频段落和每个句子生成的语音字幕块中的音频和字幕同步，避免出现音频和字幕不同步的问题，保证用户的创作质量。

在上述任一实施例的基础上，本申请实施例还提供一种语音字幕合成方法，该方法还可包括：

对变速前多个句子对应的音频段落，和变速后多个句子对应的音频段落分别进行存储。

具体的，在上述S14根据时间戳信息对目标音频进行拆分，得到变速前的多个句子对应的音频段落，在上述S18若音频时长不满足预设音频时长条件，对每个句子对应的音频段落进行变速，得到变速后多个句子对应的音频段落，对变速前多个句子对应的音频段落，和变速后多个句子对应的音频段落分别进行存储。当用户在可视化界面20中对语音字幕块22进行演示后认为语音字幕块的演示结果不满意时，可对语音字幕块22的开始时间和宽度(音速)进行调整，该调整是在变速前多个句子对应的音频段落的基础上进行调整的，使得即时对多个句子对应的音频段落进行变速也不会导致音频的质量劣化，且用户可以随时将指定的语音字幕块的音频恢复为变速前的音速。

在上述任一实施例的基础上，本申请实施例还提供一种语音字幕合成装置，图6为本申请实施例提供的一种语音字幕合成装置的结构示意图，如图6所示，该装置可包括：

输入模块100，用于获取输入文本，输入文本包括：多个句子；

语音合成模块200，用于对输入文本进行语音合成，得到输入文本对应的目标音频；

时间戳信息获取模块300，用于获取目标音频中每个句子对应音频段落的时间戳信息；

音频拆分模块400，用于根据时间戳信息对目标音频进行拆分，得到每个句子对应的音频段落；

显示模块500，用于根据每个句子对应的音频段落和每个句子，生成并在可视化界面上显示每个句子的语音字幕块；语音字幕块中显示有：每个句子的文本，以及每个句子对应音频段落的波形图。

可选的，在语音合成模块200之前，该装置还可包括：

语音合成模块200用于根据目标发音人的发音语速，对输入文本进行语音合成，得到输入文本对应的目标音频。

可选的，在发音人选择模块之前，该装置还可包括：

试听模块，用于响应输入的试听样音选择操作，播放试听样音选择操作所选择的目标样音。

可选的，该装置还可包括：

音频时长计算模块，用于根据输入文本的字数和发音语速，计算输入文本对应的音频时长；

变速确定模块，用于若音频时长满足预设音频时长条件，则确定无需对目标音频进行变速。

可选的，该装置还可包括：

变速模块，用于若音频时长不满足预设音频时长条件，则根据预设的音频开始时间和预设的音频结束时间，对每个句子对应的音频段落进行变速，使得变速后多个句子对应的音频段落的时间在音频开始时间和音频结束时间的时间范围内。

可选的，该装置还可包括：

存储模块，用于对变速前多个句子对应的音频段落，和变速后多个句子对应的音频段落分别进行存储。

上述装置用于执行前述实施例提供的方法，其实现原理和技术效果类似，在此不再赘述。

以上这些模块可以是被配置成实施以上方法的一个或多个集成电路，例如：一个或多个特定集成电路(Application Specific Integrated Circuit，简称ASIC)，或，一个或多个微处理器(digital singnal processor，简称DSP)，或，一个或者多个现场可编程门阵列(Field Programmable Gate Array，简称FPGA)等。再如，当以上某个模块通过处理元件调度程序代码的形式实现时，该处理元件可以是通用处理器，例如中央处理器(CentralProcessing Unit，简称CPU)或其它可以调用程序代码的处理器。再如，这些模块可以集成在一起，以片上系统(system-on-a-chip，简称SOC)的形式实现。

图7为本申请实施例提供的计算机设备的示意图，该计算机设备600包括：处理器601、存储介质602和总线，存储介质602存储有处理器601可执行的程序指令，当计算机设备600运行时，处理器601与存储介质602之间通过总线通信，处理器601执行程序指令，以执行上述方法实施例。具体实现方式和技术效果类似，这里不再赘述。

可选地，本发明还提供一种程序产品，例如计算机可读存储介质，存储介质上存储有计算机程序，计算机程序被处理器运行时用于执行上述方法实施例。

在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(英文：processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(英文：Read-Only Memory，简称：ROM)、随机存取存储器(英文：Random Access Memory，简称：RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

上仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种语音字幕合成方法，其特征在于，包括：

获取输入文本，所述输入文本包括：多个句子；

获取所述目标音频中每个句子对应音频段落的时间戳信息；

2.如权利要求1所述的方法，其特征在于，所述对所述输入文本进行语音合成，得到所述输入文本对应的目标音频之前，所述方法还包括：

3.如权利要求2所述的方法，其特征在于，所述响应输入的发音人选择操作，从预设的发音列表中确定目标发音人之前，所述方法还包括：

4.如权利要求2所述的方法，其特征在于，所述方法还包括：

5.如权利要求4所述的方法，其特征在于，所述方法还包括：

6.如权利要求5所述的方法，其特征在于，所述方法还包括：

7.如权利要求1-5中任一所述的方法，其特征在于，所述在可视化界面上显示所述每个句子的语音字幕块，包括：

8.一种语音字幕合成装置，其特征在于，所述装置包括：

9.一种计算机设备，其特征在于，包括：处理器、存储介质和总线，所述存储介质存储有所述处理器可执行的程序指令，当所述计算机设备运行时，所述处理器与所述存储介质之间通过总线通信，所述处理器执行所述程序指令，以执行如权利要求1至7任一所述的语音字幕合成方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如权利要求1至7任一所述的语音字幕合成方法的步骤。