CN111901538B

CN111901538B - 一种字幕生成方法、装置、设备及存储介质

Info

Publication number: CN111901538B
Application number: CN202010719394.1A
Authority: CN
Inventors: 曾衍; 常为益; 付平非; 郑起凡; 林兆钦
Original assignee: Beijing ByteDance Network Technology Co Ltd
Current assignee: Beijing ByteDance Network Technology Co Ltd
Priority date: 2020-07-23
Filing date: 2020-07-23
Publication date: 2023-02-17
Anticipated expiration: 2040-07-23
Also published as: CN111901538A; US11837234B2; WO2022017459A1; EP4171018A1; US20230128946A1; EP4171018A4

Abstract

本公开提供了一种字幕生成方法、装置、设备及存储介质，所述方法包括：在接收到针对目标音视频文件中至少一个音频轨道的字幕生成触发操作时，分别对该至少一个音频轨道中的每个音频轨道上的音频数据进行语音识别，得到每个音频轨道对应的文字片段。然后，基于每个音频轨道对应的文字片段，生成目标音视频文件的字幕。与针对所有音频轨道上的音频数据进行整体语音识别相比，本公开实施例针对每个音频轨道上的音频数据分别进行独立的语音识别，避免了音频轨道彼此之间的影响，能够得到更准确的语音识别结果，进而提高了基于语音识别结果生成的字幕的准确性。

Description

一种字幕生成方法、装置、设备及存储介质

技术领域

本公开涉及数据处理领域，尤其涉及一种字幕生成方法、装置、设备及存储介质。

背景技术

为音视频文件生成字幕，是指对音视频文件进行语音识别，并将识别结果作为该音视频文件的字幕。

目前，音视频文件的字幕是针对音视频文件中所有音频轨道上的音频数据进行整体语音识别后得到的识别结果。由于每个音频轨道上的音频数据彼此之间可能存在影响，例如在同一时间段，多个音频轨道上可能均存在音频数据，从听觉感受角度而言，可能存在听不清楚的问题，而如果针对该时间段的所有音频轨道上的音频数据进行整体识别，则可能存在识别不准确的问题，进而导致为音视频文件生成的字幕也存在不准确的问题。

因此，如何提高为音视频文件生成的字幕的准确性，是目前亟需解决的技术问题。

发明内容

为了解决上述技术问题或者至少部分地解决上述技术问题，本公开提供了一种字幕生成方法、装置、设备及存储介质，能够提高为音视频文件生成的字幕的准确性。

第一方面，本公开提供了一种字幕生成方法，所述方法包括：

响应于针对目标音视频文件中至少一个音频轨道的字幕生成触发操作，分别对所述至少一个音频轨道中每个音频轨道上的音频数据进行语音识别，得到每个音频轨道对应的文字片段；

基于每个音频轨道对应的文字片段，生成所述目标音视频文件的字幕。

一种可选的实施方式中，所述文字片段具有开始显示时间和结束显示时间；基于每个音频轨道对应的文字片段，生成所述目标音视频文件的字幕，包括：

基于每个文字片段的所述开始显示时间，对每个音频轨道对应的文字片段进行综合排序；

判断综合排序后的相邻文字片段中前一个文字片段的结束显示时间是否晚于后一个文字片段的开始显示时间；

如果所述前一个文字片段的结束显示时间晚于所述后一个文字片段的开始显示时间，则对所述前一个文字片段进行显示时间压缩，以使所述前一个文字片段的结束显示时间不晚于所述后一个文字片段的开始显示时间；

基于时间轴对各个文字片段进行合并，生成所述目标音视频文件的字幕。

一种可选的实施方式中，所述在所述基于时间轴对每个文字片段进行合并，生成所述目标音视频文件的字幕之前，还包括：

确定所述开始显示时间相同的文字片段中，所述结束显示时间最晚的文字片段；

将所述开始显示时间相同的文字片段中，除所述结束显示时间最晚的文字片段之外的其他文字片段删除。

一种可选的实施方式中，所述方法还包括：

响应于针对所述字幕的调整操作，对所述字幕进行更新；其中，所述调整操作包括增加操作、删除操作或修改操作。

一种可选的实施方式中，所述基于每个音频轨道对应的文字片段，生成所述目标音视频文件的字幕之后，还包括：

基于所述目标音视频文件的变速播放倍数，对所述目标音视频文件的字幕进行显示时间压缩。

第二方面，本公开提供了一种字幕生成装置，所述装置包括：

识别模块，用于响应于针对目标音视频文件中至少一个音频轨道的字幕生成触发操作，分别对所述至少一个音频轨道中每个音频轨道上的音频数据进行语音识别，得到每个音频轨道对应的文字片段；

生成模块，用于基于每个音频轨道对应的文字片段，生成所述目标音视频文件的字幕。

一种可选的实施方式中，所述文字片段具有开始显示时间和结束显示时间；

所述生成模块，包括：

排序子模块，用于基于每个文字片段的所述开始显示时间，对每个音频轨道对应的文字片段进行综合排序；

判断子模块，用于判断综合排序后的相邻文字片段中前一个文字片段的结束显示时间是否晚于后一个文字片段的开始显示时间；

压缩子模块，用于在所述前一个文字片段的结束显示时间晚于所述后一个文字片段的开始显示时间时，对所述前一个文字片段进行显示时间压缩，以使所述前一个文字片段的结束显示时间不晚于所述后一个文字片段的开始显示时间；

生成子模块，用于基于时间轴对各个文字片段进行合并，生成所述目标音视频文件的字幕。

一种可选的实施方式中，所述装置还包括：

确定模块，用于确定所述开始显示时间相同的文字片段中，所述结束显示时间最晚的文字片段；

删除模块，用于将所述开始显示时间相同的文字片段中，除所述结束显示时间最晚的文字片段之外的其他文字片段删除。

第三方面，本公开提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在终端设备上运行时，使得所述终端设备实现上述的方法。

第四方面，本公开提供了一种设备，包括：存储器，处理器，及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现上述的方法。

本公开实施例提供的技术方案与现有技术相比具有如下优点：

本公开实施例提供了一种字幕生成方法，在接收到针对目标音视频文件中至少一个音频轨道的字幕生成触发操作时，分别对该至少一个音频轨道中的每个音频轨道上的音频数据进行语音识别，得到每个音频轨道对应的文字片段。然后，基于每个音频轨道对应的文字片段，生成目标音视频文件的字幕。与针对所有音频轨道上的音频数据进行整体语音识别相比，本公开实施例针对每个音频轨道上的音频数据分别进行独立的语音识别，避免了音频轨道彼此之间的影响，能够得到更准确的语音识别结果，进而提高了基于语音识别结果生成的字幕的准确性。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本公开实施例提供的一种字幕生成方法的流程图；

图2为本公开实施例提供的一种字幕生成界面的示意图；

图3为本公开实施例提供的一种对文字片段进行处理的示意图；

图4为本公开实施例提供的一种字幕显示界面的示意图；

图5为本公开实施例提供的另一种字幕显示界面的示意图；

图6为本公开实施例提供的一种字幕生成装置结构框图；

图7为本公开实施例提供的一种字幕生成设备结构框图。

具体实施方式

为了能够更清楚地理解本公开的上述目的、特征和优点，下面将对本公开的方案进行进一步描述。需要说明的是，在不冲突的情况下，本公开的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本公开，但本公开还可以采用其他不同于在此描述的方式来实施；显然，说明书中的实施例只是本公开的一部分实施例，而不是全部的实施例。

目前，音视频文件的字幕是针对音视频文件中所有音频轨道上的音频数据进行整体语音识别后得到的识别结果，但是，每个音频轨道上的音频数据彼此之间可能存在影响，导致对音视频文件进行整体语音识别可能存在不准确的问题。

因此，本公开实施例提供了一种字幕生成方法，能够针对每个音频轨道上的音频数据分别进行独立的语音识别，避免了音频轨道彼此之间的影响，提高了语音识别结果的准确性，进而基于准确性更高的语音识别结果，能够生成准确性更高的音视频文件的字幕。

具体的，本公开实施例提供的字幕生成方法中，在接收到针对目标音视频文件中至少一个音频轨道的字幕生成触发操作时，分别对该至少一个音频轨道中的每个音频轨道上的音频数据进行语音识别，得到每个音频轨道对应的文字片段。然后，基于每个音频轨道对应的文字片段，生成目标音视频文件的字幕。

基于此，本公开实施例提供了一种字幕生成方法，参考图1，为本公开实施例提供的一种字幕生成方法的流程图，该方法包括：

S101：响应于针对目标音视频文件中至少一个音频轨道的字幕生成触发操作，分别对所述至少一个音频轨道中每个音频轨道上的音频数据进行语音识别，得到每个音频轨道对应的文字片段。

本公开实施例中的目标音视频文件可以为音频文件，也可以为视频文件。

实际应用中，目标音视频文件通常包括多个音频轨道，本公开实施例可以针对一个或多个音频轨道触发对目标音视频文件的字幕生成。

一种可选的实施方式中，如图2所示，为本公开实施例提供的一种字幕生成界面的示意图，其中，用户可以通过选中界面中展示的一个或多个音频轨道，然后点击“生成字幕”按钮触发针对选中的一个或多个音频轨道为目标音视频文件生成字幕的操作。

本公开实施例中，在接收到针对目标音视频文件中至少一个音频轨道的字幕生成触发操作时，确定该至少一个音频轨道中每个音频轨道上的音频数据，然后对每个音频轨道上的音频数据进行语音识别，得到每个音频轨道对应的文字片段。具体的语音识别方式本公开实施例不再赘述。

一种可选的实施方式中，由于一条音频轨道上的音频数据通常包括多个音频片段，针对每个音频片段进行语音识别后得到对应的文字片段，由属于同一条音频轨道的音频片段分别对应的文字片段构成该音频轨道对应的文字片段。在针对被选中的至少一个音频轨道中的每条音频轨道上的音频数据均完成语音识别后，得到每条音频轨道对应的文字片段。

S102：基于每个音频轨道对应的文字片段，生成所述目标音视频文件的字幕。

本公开实施例中，在获得目标音视频文件中每个音频轨道对应的文字片段之后，基于时间轴对各个文字片段进行合并，生成目标音视频文件的字幕。

实际应用中，由于音频轨道上的每个音频片段具有开始时间和结束时间，相应的，音频片段对应的文字片段具有开始显示时间和结束显示时间，具体的，音频片段的开始时间作为该音频片段对应的文字片段的开始显示时间，同时，音频片段的结束时间作为该音频片段对应的文字片段的结束显示时间。

由于各个文字片段的显示时间(即从开始显示时间到结束显示时间的时间段)可能存在重合，因此，本公开实施例在对各个文字片段进行合并之前，首先对各个文字片段进行预处理，以便于后续对各个文字片段的合并。

一种可选的实施方式中，为了便于对各个文字片段的处理，在对各个文字片段进行合并之前，首先基于每个文字片段的开始显示时间，对每个音频轨道对应的文字片段进行综合排序。通常开始显示时间越早的文字片段位于综合排序的位置越靠前。

由于综合排序后相邻的文字片段之间可能存在显示时间的重合，因此，针对综合排序后相邻的文字片段，本公开实施例需要判断前一个文字片段的结束显示时间是否晚于后一个文字片段的开始显示时间，如果前一个文字片段的结束显示时间不晚于后一个文字片段的开始显示时间，则说明前一个文字片段与后一个文字片段的显示时间不存在重合。相反的，如果前一个文字片段的结束显示时间晚于后一个文字片段的开始显示时间，则说明前一个文字片段与后一个文字片段的显示时间存在重合，此时，需要对前一个文字片段进行显示时间压缩，以使前一个文字片段的结束显示时间不晚于后一个文字片段的开始显示时间，避免前一个文字片段与后一个文字片段的显示时间存在重合。

如图3所述，为本公开实施例提供的一种对文字片段进行处理的示意图。其中，目标音视频文件中被选中的音频轨道包括轨道A、轨道B和轨道C，针对轨道A、轨道B和轨道C分别对应的文字片段，基于每个文字片段的开始显示时间进行排序，如图3所示，轨道A对应的文字片段1的开始显示时间最早，其次是轨道B对应的文字片段2，以此类推，基于开始显示时间对轨道A、轨道B和轨道C分别对应的文字片段进行综合排序。

针对综合排序后相邻的文字片段，判断前一个文字片段的结束显示时间是否不晚于后一个文字片段的开始显示时间，如图3所示，文字片段1和文字片段2为综合排序后相邻的文字片段，显然，文字片段1的结束显示时间晚于文字片段2的开始显示时间，导致文字片段1与文字片段2的显示时间存在重合，因此，本公开实施例对文字片段1进行显示时间压缩，将文字片段1的结束显示时间更新为文字片段2的开始显示时间，以避免文字片段1与文字片段2的显示时间存在重合。其中，显示时间压缩是指在更短的显示时间内完成对相同文字片段的显示。例如，图3中的文字片段1“这句话这么长”需要在显示时间压缩后的时间段内进行显示。

本公开实施例中，在对文字片段进行上述预处理后，基于时间轴对各个文字片段进行合并，生成目标音视频文件的字幕。如图3所示，轨道A对应的文字片段1“这句话这么长”与轨道B对应的文字片段2“一二三四五”进行合并后，生成最终选取位置的字幕。

另一种可选的实施方式中，在对各个文字片段进行合并之前，确定开始显示时间相同的文字片段，如果开始显示时间相同的文字片段的结束显示时间不同，则确定结束显示时间最晚的文字片段，用于生成目标音视频文件的字幕，而针对开始显示时间相同的文字片段中除该结束显示时间最晚的文字片段之外的其他文字片段删除即可。本公开实施例基于开始显示时间相同的文字片段中结束显示时间最晚的文字片段生成字幕，即基于显示时间较长的文字片段生成字幕，能够尽量避免字幕内容的丢失。

另一种可选的实施方式中，在删除开始显示时间相同的文字片段中除结束显示时间最晚的文字片段之外的其他文字片段之后，继续执行基于每个文字片段的所述开始显示时间，对每个音频轨道对应的文字片段进行综合排序的步骤，经过对各个文字片段的上述预处理操作后，生成目标音视频文件的字幕。

可以理解的是，如果目标音视频文件中仅一条音频轨道被选中用于为目标音视频文件生成字幕，则各个文字片段不存在显示时间重复的问题，因此不需要对各个文字片段进行合并，直接将该音频轨道对应的文字片段作为该目标音视频文件的字幕即可。

本公开实施例提供的字幕生成方法中，在接收到针对目标音视频文件中至少一个音频轨道的字幕生成触发操作时，分别对该至少一个音频轨道中的每个音频轨道上的音频数据进行语音识别，得到每个音频轨道对应的文字片段。然后，基于每个音频轨道对应的文字片段，生成目标音视频文件的字幕。与针对所有音频轨道上的音频数据进行整体语音识别相比，本公开实施例针对每个音频轨道上的音频数据分别进行独立的语音识别，避免了音频轨道彼此之间的影响，能够得到更准确的语音识别结果，进而提高了基于语音识别结果生成的字幕的准确性。

一种应用场景中，在生成目标音视频文件的字幕之后，可以按照预设字幕显示方式，基于时间轴对目标音视频文件的字幕进行显示。参考图4，为本公开实施例提供的一种字幕显示界面的示意图，其中，图4中的音频轨道的上方基于时间轴显示有字幕。另外，字幕显示界面上的三个区域分别同步显示字幕，对于目标音视频文件的字幕中的文字，可以以默认的字体、颜色、字号等进行显示，以提高字幕的展示效果，进而提高用户的体验。

另外，本公开实施例中还可以针对字幕进行调整，具体的，在接收到针对字幕的调整操作后，对字幕进行显示更新。其中，调整操作包括增加操作、删除操作或修改操作。

参考图5，为本公开实施例提供的另一种字幕显示界面的示意图，其中，用户可以通过点击显示的字幕中的任一段文字，触发对该段文字的修改、删除操作等，另外，用户还可以通过点击字幕显示区域中的空白位置，触发输入框的显示，在输入框中输入增加的字幕内容后，触发字幕的增加操作，实现对字幕内容的增加。

实际应用中，用户可以根据需求对生成的字幕进行修正，以得到更准确的字幕。

另外，一种应用场景中，如果针对目标音视频文件存在变速处理，则基于目标音视频文件的变速播放倍数，对目标音视频文件的字幕进行显示时间压缩，然后跟随变速处理后的目标音视频文件的播放，对显示时间压缩后的字幕进行展示。

例如，假设目标音视频文件的变速播放倍数为2倍，则将目标音视频文件的字幕的显示时间等比例压缩至原显示时间的二分之一。

与上述方法实施例属于同一个发明构思，本公开还提供了一种字幕生成装置，参考图6，为本公开实施例提供的一种字幕生成装置，所述装置包括：

识别模块601，用于响应于针对目标音视频文件中至少一个音频轨道的字幕生成触发操作，分别对所述至少一个音频轨道中每个音频轨道上的音频数据进行语音识别，得到每个音频轨道对应的文字片段；

生成模块602，用于基于每个音频轨道对应的文字片段，生成所述目标音视频文件的字幕。

所述生成模块602，包括：

一种可选的实施方式中，所述装置还包括：

更新模块，用于响应于针对所述字幕的调整操作，对所述字幕进行更新；其中，所述调整操作包括增加操作、删除操作或修改操作。

一种可选的实施方式中，所述装置还包括：

时间压缩模块，用于基于所述目标音视频文件的变速播放倍数，对所述目标音视频文件的字幕进行显示时间压缩。

本公开实施例提供的字幕生成装置，在接收到针对目标音视频文件中至少一个音频轨道的字幕生成触发操作时，分别对该至少一个音频轨道中的每个音频轨道上的音频数据进行语音识别，得到每个音频轨道对应的文字片段。然后，基于每个音频轨道对应的文字片段，生成目标音视频文件的字幕。与针对所有音频轨道上的音频数据进行整体语音识别相比，本公开实施例针对每个音频轨道上的音频数据分别进行独立的语音识别，避免了音频轨道彼此之间的影响，能够得到更准确的语音识别结果，进而提高了基于语音识别结果生成的字幕的准确性。

另外，本公开实施例还提供了一种字幕生成设备，参见图7所示，可以包括：

处理器701、存储器702、输入装置703和输出装置704。字幕生成设备中的处理器701的数量可以一个或多个，图7中以一个处理器为例。在本发明的一些实施例中，处理器701、存储器702、输入装置703和输出装置704可通过总线或其它方式连接，其中，图7中以通过总线连接为例。

存储器702可用于存储软件程序以及模块，处理器701通过运行存储在存储器702的软件程序以及模块，从而执行字幕生成设备的各种功能应用以及数据处理。存储器702可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序等。此外，存储器702可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。输入装置703可用于接收输入的数字或字符信息，以及产生与字幕生成设备的用户设置以及功能控制有关的信号输入。

具体在本实施例中，处理器701会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器702中，并由处理器701来运行存储在存储器702中的应用程序，从而实现上述字幕生成设备的各种功能。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本公开的具体实施方式，使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下，在其它实施例中实现。因此，本公开将不会被限制于本文所述的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种字幕生成方法，其特征在于，所述方法包括：

响应于针对目标音视频文件中至少一个音频轨道的字幕生成触发操作，分别对所述至少一个音频轨道中每个音频轨道上的音频数据进行语音识别，得到每个音频轨道对应的文字片段，其中，所述文字片段具有开始显示时间和结束显示时间；

如果所述前一个文字片段的结束显示时间晚于所述后一个文字片段的开始显示时间，则将所述前一个文字片段的结束显示时间更新为所述后一个文字片段的开始显示时间，以使所述前一个文字片段的结束显示时间不晚于所述后一个文字片段的开始显示时间；

2.根据权利要求1所述的方法，其特征在于，在所述基于时间轴对每个文字片段进行合并，生成所述目标音视频文件的字幕之前，还包括：

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

4.根据权利要求1所述的方法，其特征在于，所述基于每个音频轨道对应的文字片段，生成所述目标音视频文件的字幕之后，还包括：

5.一种字幕生成装置，其特征在于，所述装置包括：

识别模块，用于响应于针对目标音视频文件中至少一个音频轨道的字幕生成触发操作，分别对所述至少一个音频轨道中每个音频轨道上的音频数据进行语音识别，得到每个音频轨道对应的文字片段，其中，所述文字片段具有开始显示时间和结束显示时间；

生成模块，用于基于每个音频轨道对应的文字片段，生成所述目标音视频文件的字幕；所述生成模块，包括：

压缩子模块，用于在所述前一个文字片段的结束显示时间晚于所述后一个文字片段的开始显示时间时，将所述前一个文字片段的结束显示时间更新为所述后一个文字片段的开始显示时间，以使所述前一个文字片段的结束显示时间不晚于所述后一个文字片段的开始显示时间；

6.根据权利要求5所述的装置，其特征在于，所述装置还包括：

7.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有指令，当所述指令在终端设备上运行时，使得所述终端设备实现如权利要求1-4任一项所述的方法。

8.一种设备，其特征在于，包括：存储器，处理器，及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现如权利要求1-4任一项所述的方法。