CN112954434B

CN112954434B - 字幕处理方法、系统、电子设备和存储介质

Info

Publication number: CN112954434B
Application number: CN202110221077.1A
Authority: CN
Inventors: 邵峰; 曹荣
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2021-02-26
Filing date: 2021-02-26
Publication date: 2023-07-04
Anticipated expiration: 2041-02-26
Also published as: CN112954434A

Abstract

本申请提供了一种字幕处理方法、系统、电子设备和存储介质。所述方法包括：获取第一视频对应的文本集合；对于任意一个字幕文本，基于第一时间信息，确定第二视频中与字幕文本所对应的目标视频区间；基于目标视频区间与第一视频之间的映射关系、第一时间信息，确定字幕文本的目标时间信息；将字幕文本携带的第一时间信息，修改为目标时间信息。本申请实施例可以基于字幕文本所携带的时间信息，在第二视频中确定该字幕文本所对应的目标视频区间，并基于目标视频区间与第一视频之间的映射关系，确定字幕文本对应的目标时间信息，从而修改字幕文本所携带的时间信息，实现字幕文本与第一视频之间的时间戳匹配与关联。

Description

字幕处理方法、系统、电子设备和存储介质

技术领域

本发明涉及网络技术领域，特别是涉及一种字幕处理方法、系统、电子设备和存储介质。

背景技术

随着互联网技术的发展，越来越多的用户使用电子设备观看影视作品和视频，为了使用户更加了解视频内容，需要对视频中的字幕进行翻译。例如，在原始视频为中文视频的情况下，对原始视频进行翻译，得到原始视频对应的英文字幕；或者，在原始视频为英文视频的情况下，对原始视频进行翻译，得到原始视频对应的中文字幕。

目前，对于字幕翻译的前后期处理，大多由操作人员手动进行。翻译人员依据原始视频的原音，或者原始视频的原始字幕，对原始视频进行翻译得到字幕文件，这要求翻译人员将原始视频逐帧进行内容确定，导致对视频的翻译需要消耗大量时间。在获取到原始视频对应的字幕文件后，仍然需要操作人员进行手动操作，以将字幕文件中各字幕内容的时间戳与原始视频的时间戳，进行逐个校对与关联更正。

显然，由人工进行字幕翻译工作的后期处理，影响处理效率与处理成本，更重要的是，由人工进行字幕与原始视频的时间戳匹配，存在字幕和原始视频匹配的准确度较低的问题。

发明内容

本发明实施例的目的在于提供一种字幕处理方法、系统、电子设备和存储介质，解决字幕与原始视频匹配的准确度较低的技术问题。具体技术方案如下：

在本发明实施例的第一方面，首先提供了一种字幕处理方法，包括以下步骤：

获取第一视频对应的文本集合，所述文本集合包括N个字幕文本，每个字幕文本携带第一时间信息；所述文本集合与第二视频相关联，所述第二视频为所述第一视频中包含人声的部分视频，N为正整数；

对于任意一个所述字幕文本，基于所述第一时间信息，确定第二视频中与所述字幕文本所对应的目标视频区间；

基于所述目标视频区间与所述第一视频之间的映射关系、所述第一时间信息，确定所述字幕文本的目标时间信息，所述目标时间信息用于指示在所述第一视频播放过程中，所述字幕文本的显示时间段；

将所述字幕文本携带的所述第一时间信息，修改为所述目标时间信息。

在本发明实施例的第二方面，还提供了一种字幕处理系统，所述字幕处理系统包括：

第一获取模块，用于获取第一视频对应的文本集合，所述文本集合包括N个字幕文本，每个字幕文本携带第一时间信息；所述文本集合与第二视频相关联，所述第二视频为所述第一视频中包含人声的部分视频，N为正整数；

第一确定模块，用于对于任意一个所述字幕文本，基于所述第一时间信息，确定第二视频中与所述字幕文本所对应的目标视频区间；

第二确定模块，用于基于所述目标视频区间与所述第一视频之间的映射关系、所述第一时间信息，确定所述字幕文本的目标时间信息，所述目标时间信息用于指示在所述第一视频播放过程中，所述字幕文本的显示时间段；

第一修改模块，用于将所述字幕文本携带的所述第一时间信息，修改为所述目标时间信息。

在本发明实施例的第三方面，还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述任一实施例所述的字幕处理方法。

在本发明实施的第四方面，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述任一实施例所述的字幕处理方法。

本发明实施例中，第一视频可以视为原始视频，第二视频则为第一视频中包含人声的部分视频，而第一视频对应的文本集合实际关联于第二视频，换言之，字幕文本的文本集合实际是对第二视频进行字幕处理得到的。基于此，本发明实施例可以基于字幕文本所携带的时间信息，在第二视频中确定该字幕文本所对应的目标视频区间，并基于目标视频区间与第一视频之间的映射关系，来确定字幕文本所对应的目标时间信息，从而修改字幕文本所携带的时间信息，自动实现了字幕文本与第一视频之间的时间戳匹配与关联。换言之，通过前述处理，能够自动实现字幕文本到第一视频的反向映射，得到与第一视频完整适配的字幕文件，提高了字幕和原始视频的匹配准确度，有利于为用户提高较好的字幕观看体验；并且，该过程无需人工进行手动处理，能够避免人工处理所带来的对处理效率、处理成本与反向映射准确度方面带来的不利影响，提高了字幕处理效率，并能够降低字幕处理过程的时间成本与人工成本。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。

图1为本发明实施例中字幕处理方法的流程图；

图2为本发明实施例中确定目标时间信息的应用场景示意图；

图3为本发明实施例中对目标时间信息进行修正的应用场景示意图；

图4为本发明实施例中确定目标截取区间的一应用场景示意图；

图5为本发明实施例中确定目标截取区间的另一应用场景示意图；

图6为本发明实施例中字幕处理方法的应用场景图；

图7为本发明实施例中字幕处理系统的结构示意图；

图8为本发明实施例中一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行描述。

现有技术中，当需要对视频字幕进行翻译时，将原始视频提供给翻译人员进行字幕翻译。然后，获取翻译人员对原始视频进行翻译后得到的字幕文件。容易理解的是，由于字幕文件是翻译人员人工对原始视频进行翻译后得到的，因此上述字幕文件的时间戳与原始视频的时间戳不匹配，这就需要人工将每个翻译字幕文件的时间戳与原始视频的时间戳，进行逐个的匹配校正，工作量庞大且处理过程繁杂，且存在字幕与原始视频的匹配准确度较低的问题。

基于上述可能存在的技术问题，本发明实施例提出以下技术构思：

本发明实施例基于字幕文本携带的时间信息，在拼接视频中确定该字幕文本所对应的目标视频区间，并基于目标视频区间与原始视频之间的映射关系，确定字幕文本所对应的目标时间信息，其中，上述目标时间信息表征字幕文本在原始视频中的显示时间，从而修改字幕文本所携带的时间信息，实现字幕文本与原始视频之间的时间戳匹配与关联。

请参阅图1，图1为本发明实施例中字幕处理方法的流程图。本实施例提供的字幕处理方法包括以下步骤：

S101，获取第一视频对应的文本集合。

本步骤中，上述第一视频包括但不限于电影、电视剧、短视频或综艺中的至少一种。具体而言，第一视频也可以理解为原始视频，即待翻译的视频，获取原始视频对应的文本集合。具体而言，可以具体为对的第一视频中的原始字幕进行二次处理后得到的字幕文本集合。本发明实施例所涉及到的对原始字幕进行的二次处理，可以包括但不限于：翻译、加密或个性化编辑中的至少一种；其中，翻译可以包括但不限于：任意两种语言的翻译；加密可以包括但不限于以下至少一种：利用密钥加密文本、添加加密水印、将文本转换为预设的密语文本等；个性化编辑可以包括但不限于针对字幕的任意二次编辑功能，此处不作穷举。示例性的一种实施例中，该文本集合可以是翻译人员对拼接视频进行字幕翻译后得到的字幕文本的集合。

为便于说明，本文后续将第一视频中包含人声的部分视频称为第二视频。上述对第一视频中包含人声的视频帧进行裁剪，得到至少一个视频区间，将上述视频区间进行拼接得到的拼接视频，可以理解为第二视频。或者，任意一个视频区间，也可以理解为一个第二视频。或者，在一些实施例中，可以剪切第一视频的头部，和/或，尾部的部分视频帧，执行上述剪切操作后的第一视频也可以理解为第二视频。

文本集合包括N个字幕文本，每个字幕文本携带第一时间信息；文本集合与第二视频相关联，第二视频为第一视频中包含人声的部分视频，N为正整数。换言之，文本集合是对第二视频中的字幕文本进行处理得到的，而第二视频又属于第一视频，故而，该文本集合也对应于第一视频。

其中，当N等于1时，表示文本集合中只包含1个字幕文本，也就是说，第二视频只包括1个视频区间。一种可能存在的情况为，整个第一视频可以视为1个视频区间，这种情况下，第一视频与第二视频的实质相同。另一种可能存在的情况为，在对第一视频不包含人声的视频帧进行裁剪后，只得到1个视频区间，则将该视频区间确定为第二视频。

S102，对于任意一个字幕文本，基于第一时间信息，确定第二视频中与所述字幕文本所对应的目标视频区间。

如上所述，第二视频由至少一个视频区间组成，视频区间之间在第一视频中可以不连续，例如，任意相邻的视频区间所对应的第一视频的时间戳可以不同。但是，对于任意一个视频区间而言，该视频区间中的视频帧是连续的，也就是说，该视频区间中任意相邻的两帧视频帧所对应的第一视频的时间戳也是连续的，换言之，任意一个视频区间都是连续的，未经过剪辑修改的。

每个视频区间对应有起始时刻和终止时刻，本步骤中，对于任意一个字幕文本而言，可以基于该字幕文本携带的第一时间信息，确定第二视频中与该字幕文本对应的视频区间的起始时刻和终止时刻，这里，为便于说明，后续说明以一个字幕文本为例，将第二视频中与该字幕文本对应的视频区间称为目标视频区间。

本步骤中，一种可能存在的情况为，上述目标视频区间的时长可以是固定的，这里，可以采用编号，或者，时间点的形式对目标视频区间进行标识，以表征该目标视频区间在第二视频中所处的位置。这种情况下，可以基于第二视频的时长、各视频区间的标识，来确定各视频区间在第二视频中的起始时间戳与终止时间戳，从而，基于各视频区间的起始时间戳与终止时间戳、第一时间信息，来确定字幕文本所属的目标视频区间。

或者，另一种可能存在的情况为，上述视频区间的时长不是固定的，即不同的视频区间对应的时长不同，这种情况下，还需要维护各视频区间在第二视频中的起始时间戳与终止时间戳，从而，基于各视频区间的起始时间戳与终止时间戳、第一时间信息，来确定字幕文本所属的目标视频区间。

应当理解，若一字幕文本对应的起始时刻和终止时刻所表征的区间，属于一视频区间对应的起始时刻和终止时刻所表征的区间，则表示该字幕文本所对应的视频帧属于该视频区间中的视频帧，该字幕文本与其对应视频帧所属的视频区间对应，可以将该视频区间称为目标视频区间。

例如，第二视频由2个视频区间组成，其中第一个视频区间对应的起始时刻为00:00，终止时刻为00:10；第二个视频区间对应的起始时刻为00:10，对应的终止时刻为00:15。若一字幕文本对应的起始时刻为00:03，终止时刻为00:04，则确定该字幕文本对应第一个视频区间，第一个视频区间又称为与该字幕文本对应的目标视频区间。

需要说明的是，由于字幕文件是翻译人员对第二视频中的字幕进行翻译得到的，因此字幕文件的时间戳与第二视频的时间戳是匹配的，换言之，字幕文件的时间戳可以视作为该字幕文本在第二视频中的时间戳。

在整个第一视频可以视为1个视频区间，即第一视频与第二视频的实质相同的情况下，第二视频的时间戳与第一视频的时间戳相匹配；这样，字幕文件的时间戳也与第一视频的时间戳匹配。

在第二视频包括第一视频的部分视频帧的情况下，由于第二视频是由第一视频中的部分视频帧组成的，因此第二视频的时间戳不同于第二视频的时间戳；这样字幕文件的时间戳与第一视频的时间戳不匹配。

例如，请参阅图2。如图所示，第二视频由n个视频区间拼接而成，按照视频区间的时间戳排序，第二视频的第一个视频区间为T^’ ₁，第二视频的第二个视频区间为T’₂，第二视频中的最后一个视频区间为T’_n。

第二视频区间中的每一个视频区间与第一视频中的部分视频区间对应，如图所示，第二视频中的第一个视频区间T’₁，对应第一视频中的视频区间T₁，第二视频中的最后一个视频区间T’_n，对应第一视频中的视频区间T_n。应理解，第一视频由n个视频区间，或者，n个以上视频区间组成。如图2所示，第一视频中除包括第二视频所包含的各视频区间之外，还包括部分被剪切掉的视频区间。

示例性的，图2示出了字幕文本与第二视频、第一视频之间的对应情况。对于一个字幕文本而言，例如图2中的T^p这一时间戳表示的字幕文本，该字幕文本T^p是第二视频中的字幕文本，具体而言，基于其时间戳，该字幕文本T^p对应第二视频中的目标视频区间为T’_m，目标标视频区间T’_m与第一视频中的视频区间T_m对应。

字幕文本T^p的时间戳区间为[t_m,t_n]，其中，t_m为该字幕文本的起始时刻，t_n为该字幕文本的终止时刻。T’_m表示字幕文本对应的目标视频区间。该字幕文本对应的目标视频区间的时间戳为[t′_m1,t′_m2|(图中未标识)，其中，t′_m1为该视频区间的起始时刻，t′_m2为该视频区间的终止时刻。

应理解，字幕文本的时间戳区间是固定的，因此，对于一个字幕文本而言，该字幕文本仅对应于一个目标视频区间。但是，对于一个目标视频区间而言，该目标视频区间可能包括一个或多个字幕文本，因此，该字幕文本的时间戳区间包含于该目标视频区间的时间戳，即字幕文本对应的起始时刻和终止时刻，以及目标视频文件对应的起始时刻和终止时刻满足以下关系：t_m≥t′_m1，并且t_n≤t′_m2。

S103，基于所述目标视频区间与所述第一视频之间的映射关系、所述第一时间信息，确定所述字幕文本的目标时间信息。

本步骤中，如上所述，目标视频区间为第二视频中与字幕文本对应的视频区间，第二视频为第一视频中包括人声的部分视频，目标视频区间属于第二视频；那么，目标视频区间也属于第一视频中的部分视频片段。

上述映射关系，可以包括但不限于：时间映射关系，具体而言，目标视频区间在第二视频中的时间戳与目标视频区间在第一视频中的时间戳的映射关系，其中，上述时间戳包括但不限于起始时刻、终止时刻、或者其他自定义时刻中的至少一种的直接映射。例如，任意一个目标视频区间与第一视频之间的映射关系可以具体为：该目标视频区间在第二视频中的起始时间戳，与该目标视频区间在第一视频中的起始时间戳之间的映射关系。

此外，上述映射关系还可以为时间与标识之间的映射关系，具体而言，可以为目标视频区间在第二视频中的标识，与目标视频区间在第一视频中的时间戳的映射关系。时间戳的情况同前，不再重复。而目标视频在第二视频区间中的标识可以自定义设置，例如，包括但不限于：编号、时间戳(此时可同前一实施例)等。

本步骤中，基于映射关系和字幕文本的第一时间信息，可以确定该字幕文本在第一视频中的目标时间信息。其中，目标时间信息用于指示在所述第一视频播放过程中，字幕文本的显示时间段。

需要说明的是，第一视频与每一视频区间之间的映射关系，是基于第二视频的获取方式确定的，当从第一视频中获取第二视频时，即可记录二者之间的映射关系，此处不展开详述。

S104，将所述字幕文本携带的所述第一时间信息，修改为所述目标时间信息。

本步骤中，在得到字幕文本对应的目标时间信息后，将字幕文本携带的第一时间信息，修改为目标时间信息，以使得字幕文本与第一视频的时间戳关联匹配，实现字幕文本到第一视频的反向映射，得到与第一视频完整适配的字幕文件。

以下，具体说明如何基于所述目标视频区间与所述第一视频之间的映射关系、所述第一时间信息，确定所述字幕文本的目标时间信息。

可选地，所述目标时间信息包括第一目标端点时刻，所述基于所述目标视频区间与所述第一视频之间的映射关系、所述第一时间信息，确定所述字幕文本的目标时间信息，包括：

基于所述第一时间信息，确定所述字幕文本的第一端点时刻与所述目标视频区间的第二端点时刻之间的差值；基于所述目标视频区间与所述第一视频之间的映射关系，确定所述第二端点时刻对应的第一视频的第三端点时刻；基于所述第三端点时刻与所述差值，确定所述字幕文本的所述第一目标端点时刻。

实施例中，目标时间信息包括但不限于第一目标端点时刻，该第一目标端点时刻可以理解为目标起始时刻，这种情况下，可以确定字幕文本对应的第一时间信息中的第一端点时刻与目标视频区间的第二端点时刻之间的差值。其中，上述第一端点时刻可以理解为字幕文本对应的第一时间信息中的起始时刻；上述第二端点时刻可以理解为字幕文本在目标视频区间的起始时刻。那么，基于目标视频区间与第一视频之间的映射关系，确定该目标视频区间在第一视频中的起始时刻，即第三端点时刻；基于第三端点时刻与上述差值，确定字幕文本在第一视频中的起始时刻，即第一目标端点时刻。

示例性的一种实施例中，请参阅图2，图2中T^p这一时间戳表示字幕文本，该字幕文本T^p对应第二视频中的目标视频区间为T’_m，字幕文本对应第一视频中的视频区间为T_m，且该字幕文本的起始时刻为t_m，终止时刻为t_n。视频区间T_m的起始时刻为t_m1，终止时刻为t_m2。

此时，可以将字幕文本T^p的起始时刻为t_m作为第一端点时刻，从而，第一目标端点时刻为该字幕文本T^p在第一视频中的起始时刻；此时，可以将目标视频区间T’_m的起始时刻为t′_m1作为第二端点时刻，以及，将视频区间T_m的起始时刻为t_m1作为第三端点时刻。如此，可以得到t′_m1(第二端点时刻)与t_m(第一端点时刻)之间的差值为l^p，图中的T^p’表示字幕文本反向映射在第一视频中时间戳，从而，可以将第一目标端点时刻确定为第三端点时刻t_m1与上述差值l^p的和，即字幕文本T^p在第一视频中的起始时刻为t_m1+l^p。

应当理解，前述实施方式仅为一种可能的实现情况，实际应用场景中，第一端点时刻可以为：字幕文本的起始时刻和/或终止时刻，此外，第二端点时刻可以为目标视频区间的起始时刻和/或终止时刻。第二端点时刻与第三端点时刻相关联，当第二端点时刻为目标视频区间的起始时刻时，第三端点时刻可以直接利用该目标视频区间在第一视频中的映射起始时刻。当然，不考虑方案复杂度的情况下，基于目标视频区间的时长与前述映射关系，将第三端点时刻确定为该目标视频区间在第一视频中的映射终止时刻亦可。

应理解，当第一端点时刻为字幕文本的起始时刻时，第一目标端点时刻为该字幕文本在第一视频中的起始时刻；反之，当第一端点时刻为字幕文本的终止时刻时，第一目标端点时刻为该字幕文本在第一视频中的终止时刻。

如此，通过前述方式，可以获取得到字幕文本在第一视频中的起始时刻和/或终止时刻。

实际实现场景中，可以基于前述方式得到字幕文本在第一视频中的两个端点；或者，也可以基于前述方式确定字幕文本在第一视频中的一个端点，再基于该端点与字幕文本的时间戳区间，确定该字幕文本在第一视频中的另一个端点。

此时，示例性的一种实施例中，所述目标时间信息包括第二目标端点时刻，所述基于所述目标视频区间与所述第一视频之间的映射关系、所述第一时间信息，确定所述字幕文本的目标时间信息，还包括：

基于所述第一时间信息，确定所述字幕文本的持续时长；基于所述持续时长和所述第一目标端点时刻，确定所述字幕文本的所述第二目标端点时刻。

本实施例中，目标时间信息包括但不限于有目标终止时刻，这种情况下，可以基于字幕文本对应的第一时间信息中的第二端点时刻与第一端点时刻的差，确定字幕文本的持续时长，该持续时长表示该字幕文本的显示时长；将上述第一目标端点时刻与持续时长的和，确定为字幕文本在第一视频中的第二目标端点时刻。

示例性的，请继续参阅图2，可以确定字幕文件的第一端点时刻与第二端点时刻的差为t_n-t_m，将上述差值用d^p替代，即d^p为字幕文本的持续时长。将第二目标端点时刻确定为第一目标端点时刻t_m1+l^p与差值d^p的和，即第二目标端点时刻为t_m1+l^p+d^p。

上述实施例中，在字幕文本的目标时间信息包括第一目标端点时刻和第二目标端点时刻的情况下，需要先计算字幕文本的第一目标端点时刻，基于第一目标端点时刻的数值，计算第二目标端点时刻。

应理解，在一些实施例中，可以计算字幕文本的第二端点时刻与字幕文本对应的目标视频区间的终止时刻之间的差值，并将字幕文本对应的第一视频的终止时刻减去上述差值，得到字幕文本对应的第二目标端点时刻。将第二目标端点时刻减去字幕文本的持续时长，可以得到该字幕文本对应的第一目标端点时刻。

应理解，在一些实施例中，可以计算目标视频区间的终止时刻与字幕文本的第一端点时刻之间的差值，并将字幕文本对应的第一视频的终止时刻减去上述差值，得到字幕文本对应的第一目标端点时刻。将第一目标端点时刻加上字幕文本的持续时长，可以得到该字幕文本对应的第二目标端点时刻。

应理解，在一些实施例中，可以计算字幕文本的第二端点时刻与字幕文本对应的目标视频区间的起始时刻之间的差值，并将字幕文本对应的第一视频的起始时刻加上上述差值，得到字幕文本对应的第二目标端点时刻。将第二目标端点时刻减去字幕文本的持续时长，可以得到该字幕文本对应的第一目标端点时刻。

需要理解的是，对于字幕文本对应的第一目标端点时刻和第二目标端点时刻的计算方式，也可以使用其他计算方法得到，在此不做过多阐述。

应理解，在对第一视频进行剪切得到多个视频区间，将多个视频区间拼接为第二视频的过程中，若视频区间终止时刻处对应的视频帧不为关键帧，在视频区间的拼接过程中，会将最接近终止时刻的关键帧补帧至该视频区间尾部，进而导致对多个视频区间进行拼接得到的第二视频的实际时长大于理想时长。但是，若所有视频区间终止时刻处对应的视频帧均为关键帧，则不会对视频区间补帧，这种情况下，由视频区间拼接而成的第二视频的实际时长与理想时长相等。

其中，理想时长是指：在所有视频区间终止时刻处对应的视频帧均为关键帧的情况下，对视频区间进行拼接得到的第二视频的时长。

应当理解，在第二视频的实际时长与理想时长不相同的情况下，出于准确率的考虑，可以对第二视频的实际时长进行修正，以确保第一视频在播放过程中，字幕与视频的同步播放。

为了解决上述技术问题，本发明实施例还包括以下内容：

可选地，所述方法还包括：

获取所述第二视频的实际时长与理想时长之间的时长比例；利用所述时长比例，对所述目标时间信息进行修正。

本实施例中，在对第一视频进行剪切，得到多个视频区间之后，可以将多个视频区间的时长的和，确定为第二视频的理想时长。

本实施例中，在对第一视频进行剪切得到多个视频区间，将多个视频区间拼接为第二视频后，可以直接对第二视频的时长进行读取，将第二视频的时长作为第二视频的实际时长。

将实际时长除以理想时长得到时长比例，再利用该时长比例，对目标时间信息进行修正。其中，由于对视频的关键帧进行补帧，导致实际时长大于理想时长，因此上述时长比例的数值大于1。

以下，具体说明如何利用时长比例，对目标时间信息进行修正。

可选地，所述利用所述时长比例，对所述目标时间信息进行修正，包括：当所述目标时间信息包括第一目标端点时刻时，获取所述第一目标端点时刻的数值与所述时长比例之间的第一乘积，得到修正后的第一目标端点时刻；和/或，当所述目标时间信息包括第二目标端点时刻时，获取所述第二目标端点时刻的数值与所述时长比例之间的第二乘积，得到修正后的第二目标端点时刻。

若基于前述步骤中的目标时间信息包括第一目标端点时刻和第二目标端点时刻，则将第一目标端点时刻的数值与时长比例相乘得到的第一乘积的数值，确定为修正后的第一目标端点时刻；将第二目标端点时刻的数值与时长比例相乘得到的第二乘积的数值，确定为修正后的第二目标端点时刻。

请参阅图3，如图3所示，修正前的第一目标端点时刻记为T₁，修正后的第一目标端点时刻为T₁₁，由于时长比例的数值大于1，又T₁₁为T₁与时长比例的乘积，因此，修正后的第一目标端点时刻T₁₁的数值，大于修正前的第一目标端点时刻T₁的数值，换言之，修正后的第一目标端点时刻T₁₁位于修正前的第一目标端点时刻为T₁之后。

其中，第一目标端点时刻T₁的数值可以理解为这一时刻对应的秒数位的数值，例如，第一目标端点时刻为[00.01.02]，表示0时1分2秒，则可以将2确定为第一目标端点时刻T₁的数值。

应理解，在其他可能的实施方式中，第一目标端点时刻的数值也可以设定为该时刻对应的分数位的数值，或者，该时刻对应的时数位的数值，在此不做具体限定。

示例性的，在比例时长为1.1，修正前的第一目标端点时刻T₁的数值为2；则比例时长与修正前的第一目标端点时刻的乘积为2.2，那么，确定修正后的第一目标端点时刻T₁₁的数值为2.2。

基于上述相同的原理，修正前的第二目标端点时刻为T₂，修正后的第一目标端点时刻为T₂₂，修正后的第二目标端点时刻T₂₂位于修正前的第二目标端点时刻为T₂之后，且修正后的第二目标端点时刻T₂₂的数值，大于修正前的第二目标端点时刻T₂的数值。

另外，可以理解的是，同样由于修正系数大于1，则修正后的目标视频区间的时长，大于，修正前的目标视频区间的时长。换言之，T₂₂-T₁₁大于T₂-T₁。

综上，通过对目标时间信息进行修正，能够避免关键帧补帧对视频时长的影响，有利于提高字幕文本与第一视频的匹配程度，有利于第一视频中字幕和视频内容的同步播放，提供更优质的视频字幕体验。

以下，具体说明如何对第一视频进行剪切处理，并对剪切视频进行拼接，得到第二视频。

对于第二视频的获取方式，可以包括但不限于下述这一种实施方式：提取所述第一视频中的音频数据；提取所述音频数据中的人声数据；基于所述人声数据，截取所述第一视频中包含人声的各视频区间；将所述包含人声的各视频区间进行拼接，得到所述第二视频。

本实施例中，可以提取第一视频中的音频数据，例如，可以使用多媒体处理工具，例如ffmpeg，提取第一视频的音频数据，其中，使用ffmpeg提取的音频数据的数据格式可以包括但不限于wav格式，除此之外，还可以为mp3格式等，本发明实施例对音频数据的格式无特别限制。

在得到音频数据后，提取音频数据中包含的人声数据。

示例性的一种实施例中，可以使用音轨分离软件，例如Spleeter，提取人声数据。使用Spleeter提取音频数据中的人声数据的过程为：将音频数据划分为多个预设时长的音频子数据，例如，音频数据的时长为20分钟，可以将音频数据划分为4个时长为5分钟的音频子数据。使用Spleeter依次剔除上述4个音频子数据中不包含人声的部分，得到4个只包含人声数据的音频子数据，拼接上述4个音频子数据，得到人声数据。

在得到人声数据后，可以基于人声数据，截取第一视频中包含人声的各视频区间，应理解，若一视频区间不包含有人声，则并不会对第一视频中的该视频区间进行截取。具体的基于人声数据，截取第一视频中包含人声的各视频区间的技术方案，请参阅后续实施例。

一种可能存在的情况为，可以从第一视频中截取一个视频区间，将该视频区间作为第二视频。

另一种可能存在的情况为，可以从第一视频中截取多个视频区间，并拼接得到第二视频。示例性的，可以按照各个视频区间的时间顺序，将多个视频区间进行拼接得到第二视频；或者，按照自定义顺序对各个视频区间进行拼接得到第二视频；或者，对多个视频区间进行乱序拼接，得到第二视频。

基于第二视频的前述获取方式，对于所述第二视频中的任意一个所述视频区间，基于所述视频区间在所述第一视频中的时间信息，构建所述视频区间与所述第一视频之间的映射关系。

如前所述，映射关系可以是时间映射关系，也可以是时间与标识的映射关系。基于第二视频的前述获取方式，第二视频中的任意一个视频区间都能够包含在第一视频中，而视频区间在第一视频中对应的时间戳，与该视频区间在第二视频中对应的时间戳是不同的。

示例性的，若第一视频的时间戳为[00:00,00:20]，第一视频存在2个包含人声的视频区间，第一视频区间和第二视频区间，其中，第一视频区间在第一视频中对应的时间戳为[00:05,00:08]；第二视频区间在第一视频中对应的时间戳为[00:10,00:15]。

一种可选的实施方式为，将第一视频裁剪为2个视频区间，并将上述2个视频区间拼接为第二视频。

另一种可选的实施方式为，对第一视频进行重新编码，增加第一视频中关键帧的数量，再将第一视频裁剪为2个视频区间，并将上述2个视频区间拼接为第二视频。

仍以前述举例为例。将上述2个视频区间拼接为第二视频，可以得到第二视频的时间戳为[00:00,00:08]，其中，第一视频区间在第二视频中对应的时间戳为[00:00,00:03]；第二视频区间在第二视频中对应的时间戳为[00:03,00:08]。

那么，对于第二视频中的任意一个视频区间而言，可以基于该视频区间在第一视频中的时间信息，该时间信息可以为时间戳，构建视频区间与第一视频之间的映射关系，该映射关系表征视频区间在第一视频中的显示时间段。如上举例，第一视频区间在第二视频中的时间戳为[00:00,00:08]，第一视频区间在第一视频中的时间戳为[00:05,00:08]，将这2个时间戳的映射关系确定为视频区间与第一视频之间的映射关系。

此外，在另一些实施例中，各视频区间对应的时长相同，这种情况下，可以对第二视频中各视频区间进行编码标识，并基于视频区间的编码标识，构建视频区间与第一视频的映射关系。

例如，第一视频的时间戳为[00:00,00:20]，第一视频存在2个包含人声的视频区间，第三视频区间和第四视频区间，其中，第三视频区间在第一视频中对应的时间戳为[00:05,00:10]；第四视频区间在第一视频中对应的时间戳为[00:10,00:15]，将第三视频区间的编码标识设置为1，将第四视频区间的编码标识设置为2。

将上述2个视频区间拼接为第二视频，可以得到第二视频的时间戳为[00:00,00:10]，其中第三视频区间在第二视频中对应的时间戳为[00:00,00:05]；第四视频区间在第二视频中对应的时间戳为[00:05,00:10]。

那么，对于第二视频中的任意一个视频区间而言，可以基于该视频区间的编码标识，构建视频区间与第一视频之间的映射关系，该映射关系表征视频区间在第一视频中的显示时间段。

例如，一视频区间的编码标识为2，标识该视频区间在第一视频中对应的时间戳为[00:10,00:15]。

以下，具体说明如何基于人声数据，截取第一视频中包含人声的各视频区间：

可选地，所述基于所述人声数据，截取所述第一视频中包含人声的各目标视频区间，包括：

基于所述人声数据确定目标截取区间；根据所述目标截取区间，对所述第一视频进行截取，得到包含人声的各视频区间。

本实施例中，人声数据的时间戳与第一视频的时间戳一致。根据人声的声音强弱，将人声数据中人声音量超过预设阈值的部分数据确定为目标数据，并确定目标数据对应的起始时刻和终止时刻，上述起始时刻和终止时刻构成的区间又称目标截取区间；对第一视频中与上述起始时刻和终止时刻对应的视频帧进行截取，得到包含人声的视频区间。

本实施例中，上述根据人声的声音强弱，将人声数据中人声音量超过预设阈值的部分数据确定为目标数据的处理过程的一种具体实施方式可以是：

将人声数据划分为多个人声子数据，每个人声子数据对应的时长均为预处理时长，其中，该预处理时长可以为视频区间的时长，或者，该预处理时长也可以自定义设置。

检测每个人声子数据中的人声音量，将人声音量大于第一阈值的人声子数据确定为目标数据，并基于目标数据的起始时刻和终止时刻，确定目标截取区间。

可选地实施方式为，使用音频处理库对人声数据进行处理，确定目标截取区间，其中上述音频处理库可以是pydub，使用pydub对人声数据进行处理，确定目标截取区间的原理，简要说明如下：

Pydub中预先设置有预处理时长，该预处理时长表示Pydub每次处理的部分人声数据的时长，例如，该预处理时长为3秒。在人声数据的起始时刻为00:00，终止时刻为00:10的情况下，计算Pydub的第一个处理周期，即人声数据前3秒对应的人声音量，上述人声数据前3秒对应的人声音量可以是人声数据前3秒对应的人声音量的平均值，或者，人声数据前3秒对应的人声音量的最大值，或者，人声数据前3秒对应的人声音量的最小值。

Pydub中还预设有第一阈值，若前3秒的人声数据对应的人声音量大于第一阈值，表示前3秒的人声数据可以被用户识别，则确定一目标截取区间的起始时刻为00:00，终止时刻为00:03。

若在Pydub的第二个处理周期，即人声数据对应的第3秒至第6秒，这部分的人声数据对应的人声音量不大于第一阈值，表示这3秒的人声数据表征的声音可能为静音，或难以被人耳识别，则确定第3秒至第6秒这一区间，并不是目标截取区间。

本实施例中，Pydub中还预设滑动时长，若Pydub的上一个处理周期对应的部分人声数据对应的人声音量小于第一阈值，为了减少计算量，可以基于预设的滑动时长确定Pydub下一个处理周期的起始时刻，将该部分人声数据的终止时刻与滑动时长的和，确定为Pydub在下一个处理周期对应的部分人声数据的起始时刻。

例如，滑动时长为1秒，如上举例，可以设置Pydub的第三个处理周期为人声数据的第7秒至第10秒。

若人声数据的第7秒至第10秒对于的人声音量大于第一阈值，则确定对应的目标截取区间的起始时刻为00:07，终止时刻为00:10。

应理解，一种可选的实施方式为，可以设置上述滑动时长与待处理时长相同。应理解，在待处理时长与滑动时长不改动的情况下，第一预设阈值越小，目标截取区间的数量越多。应理解，在第一预设阈值与滑动时长不改动的情况下，待处理时长越大，目标截取区间的数量越多。

需要说明的是，将人声数据中人声音量超过预设阈值的部分数据确定为目标数据的处理过程，并不局限于上述实施方式。

通过前述处理，截取区间对应的起始时刻和终止时刻可以精确到毫秒位，而基于上述截取区间得到的视频区间也可以精确到毫秒位，这样，能够精准的剪切出仅包含人声部分的视频区间。但是，这种精确剪切对于第二视频的二次处理不太友好。例如，翻译人员对剪切并拼接后的第二视频进行字幕翻译时，第二视频中仅包含人声部分的视频帧，翻译人员无法将字幕文本控制在如此精准的时间上，对翻译人员不太友好，影响翻译效率。

基于这种情况，在本发明的一个实施例中，还可以在前文所述的实施例基础上，对截取区间(人声音量大于第一阈值的人声数据所对应的视频区间)进行容限处理，也就是：对于每一视频区间，需要设置一定的预留时间，得到目标截取区间。

示例性的，基于所述人声数据，确定所述第一视频对应的多个候选截取区间；对所述候选截取区间的至少一个区间端点向外扩张，得到所述目标截取区间。

基于人声数据，确定第一视频对应的多个候选截取区间，其中，任意一个候选截取区间对应的人声音量大于第一预设阈值。该候选截取区间可以是上述实施例中基于Pydub对人声数据进行处理，进而得到的多个截取区间，具体的内容可以参阅上述实施例，在此不作重复阐述。

对于任意一个候选截取区间而言，该候选截取区间包括2个区间端点，其中，一个区间端点表征该区间的起始时刻，另一个区间端点表征该区间的终止时刻。

示例性的，在一实施例中，可以将候选截取区间中表征该区间起始时刻的端点往前移动，确定目标截取区间。

或者，在另一实施例中，将候选截取区间中表征该区间起始时刻的端点减去或除以预设数值，得到新的表征起始时刻的端点，以此确定目标截取区间。

或者，在另一实施例中，将候选截取区间中表征该区间终止时刻的端点往后移动，确定目标截取区间。

或者，在另一实施例中，将候选截取区间中表征该区间终止时刻的端点加上或乘以预设数值，得到新的表征终止时刻的端点，以此确定目标截取区间。

或者，在另一实施例中，将候选截取区间中表征该区间起始时刻的端点往前移动，并将候选截取区间中表征该区间终止时刻的端点往后移动，确定目标截取区间。

或者，在另一实施例中，将候选截取区间中表征该区间起始时刻的端点减去或除以预设数值，得到新的表征起始时刻的端点，以及将候选截取区间中表征该区间终止时刻的端点加上或乘以预设数值，得到新的表征终止时刻的端点，基于新的表征起始时刻的端点和新的表征终止时刻的端点，确定目标截取区间。

例如，请参阅图4，图4中候选截取区间第一端点对应的起始时刻为T1’，第二端点对应的终止时刻为T2’，这种情况下，T1’至T2’表示包含人声的视频段。可以将在起始时刻T1’之前，填充1秒的空白语音段，使得起始时刻在该语音段对应的端点向外扩张，得到T1，T1表征目标截取区间的起始时刻。同时，可以在终止时刻T2’之后，填充2秒的空白语音段，使得终止时刻在该语音段对应的端点向外扩张，得到T2，T2表征目标截取区间的终止时刻。这样，确定目标截取区间的起始时刻为T1，终止时刻为T2。

本实施例中，通过对候选截取区间进行容限处理，将候选截取区间的至少一个区间端点向外扩张，为候选截取区间设置了一定的预留时间，以此得到目标截取区间。

在对第一视频进行剪切的过程中，可能会存在相邻的截取区间之间，只存在非常短暂的间隔时长。基于这种情况，本发明实施例中，还涉及对相邻的截取区间的平滑处理，以将存在上述情况的相邻的截取区间进行合并，从而，避免拼接视频中存在多处断点，方便翻译人员对拼接视频关联字幕的翻译。

对于上述技术构思，可以对截取区间进行平滑处理，得到目标截取区间：基于所述人声数据，确定所述第一视频对应的多个候选截取区间；基于第一候选截取区间与第二候选截取区间的时序数据，确定所述第一候选截取区间与所述第二候选截取区间是否连续；当确定所述第一候选截取区间与所述第二候选截取区间连续时，将所述第一候选截取区间与第二候选截取区间进行合并，得到所述目标截取区间。

本实施例中，对于多个候选截取区间中任意两个时序相邻的区间而言，可以基于第一候选截取区间与第二候选截取区间的时序数据，确定第一候选截取区间与所述第二候选截取区间是否连续，其中，上述时序数据与候选截取区间的时间戳相关，时序数据包括对应的候选截取区间的起始时刻和终止时刻。

当第一候选截取区间与第二候选截取区间连续时，将第一候选截取区间与第二候选截取区间进行合并，得到目标截取区间。

本实施例中，可以基于第二候选截取区间的起始时刻与第一候选截取区间的终止时刻之间的差值，确定第一候选截取区间与第二候选截取区间是否连续。

示例性的，请参阅图5，如图5所示，第一候选截取区间的起始时刻为T1，终止时刻为T2；第二候选截取区间的起始时刻为T3，终止时刻为T4。

一种可选的实施方式为，可以确定T3与T2的差值，是否小于第二预设阈值，若T3与T2的差值小于第二预设阈值，则确定第一候选截取区间与第二候选截取区间连续，将这2个候选截取区间合并，得到目标截取区间，这样可以确定目标截取区间的起始时刻为T1，终止时刻为T4。其中，第二预设阈值为一个经验阈值，优选地，将第二预设阈值设置为1秒。

若T3与T2的差值不小于第二预设阈值，则将第一候选截取区间确定为一个目标截取区间，第二候选截取区间确定为另一个目标截取区间。

应理解，一种可选的实施方式为，可以先对候选截取区间进行容限处理，再对容限处理后的候选截取区间进行平滑处理，得到目标截取区间。其中，这种实施方式中，平滑处理操作对应的候选截取区间为进行容限处理后的候选截取区间。

本实施例中，通过对相邻的候选截取区间进行平滑处理，即将连续的相邻候选截取区间进行合并，避免拼接视频存在多处断点，进而影响翻译人员对拼接视频关联字幕的翻译。

为便于理解，示例说明如下：

请参阅图6，如图6所示，在本发明实施例的技术方案中，使用第一提取模块对第一视频进行处理，得到第一视频的音频数据；使用第二提取模块对音频数据进行处理，提取音频数据中的人声数据；使用Spleeter工具，基于人声数据，得到多个候选截取区间，对候选截取区间进行容限处理以及平滑处理，得到目标截取区间；使用ffmpeg，基于目标截取区间，将第一视频剪切为多个视频区间，将多个视频区间拼接为第二视频，并向翻译人员发送该第二视频。

通过第一获取模块，获取翻译人员基于第二视频发送的文本集合，该文本集合包括至少一个字幕文本，该字幕文本包括第一时间信息；对于任意一个字幕文本，通过第一确定模块确定第二视频中该字幕文本对应的目标视频区间；使用第二确定模块，基于该目标视频区间与第一视频的映射关系，以及第一时间信息，确定字幕文本的目标时间信息；使用第一修改模块，将字幕文本的第一时间信息，修改为目标时间信息，实现字幕文本与第一视频之间的时间戳匹配与关联。

本发明实施例提供的字幕处理方法可以应用于服务器，或者，应用于视频服务场景中，其中，在上述视频服务场景中，一个服务器可以为多个终端提供服务。

在一个实施例中，该字幕处理方法可以应用于电子设备本地播放目标视频的场景。此时，该方法可应用于服务器或客户端等任意电子设备，该方法还可以包括如下步骤：

响应于接收到针对第一视频的视频播放请求，播放所述第一视频，并按照各字幕文本的目标时间信息，显示当前视频帧对应的字幕文本。

本实施例中，在接收到用户端发送的视频播放请求的情况下，响应视频播放请求，播放第一视频，并且在播放第一视频的同时，按照第一视频对应的各字幕文本的目标时间信息，显示当前视频帧对应的字幕文本。也就是说，服务器在接收到视频播放情况的情况下，将同时播放第一视频和第一视频的当前视频帧对应的字幕文本。

在另一个实施例中，该字幕处理方法可以应用于电子设备接收其他设备的请求，以由其他设备播放该目标视频的情况。

示例性的一种场景中，该字幕处理方法可以应用于服务器，该目标视频可以在客户端播放，此时，服务器侧所执行的字幕处理方法还可以包括如下步骤：响应于接收到来自客户端的视频播放请求；向所述客户端输出所述第一视频与所述文本集合，其中，文本集合包括第一视频对应的字幕文本。相应地，客户端播放第一视频，并在第一视频播放的过程中，显示当前视频帧对应的字幕文本。也就是说，服务器在接收到视频播放情况的情况下，输出第一视频与该第一视频对应的文本集合至客户端。

综上，提取原始视频中的音频数据和人声数据，基于原始视频中的人声数据，将原始视频进行裁剪得到多个包含人声的视频区间，在对每个视频区间进行容限操作和平滑处理之后，将多个视频区间进行拼接，得到第二视频，随后，翻译人员对第二视频的字幕进行翻译，得到第一视频对应的文本集合。

对任意一个字幕文本而言，基于该字幕文本所携带的时间信息，在第二视频中确定该字幕文本所对应的目标视频区间，并基于目标视频区间与第一视频之间的映射关系，来确定字幕文本所对应的目标时间信息，从而修改字幕文本所携带的时间信息，实现字幕文本与第一视频之间的时间戳匹配与关联；并且幕文本与第一视频之间的时间戳匹配过程无需人工处理，提高了字幕处理效率，并能够降低字幕处理过程的时间成本与人工成本。

如图7所示，本发明实施例还提供了一种字幕处理装置200，包括：

第一获取模块201，用于获取第一视频对应的文本集合；

第一确定模块202，用于对于任意一个字幕文本，基于第一时间信息，确定第二视频中与所述字幕文本所对应的目标视频区间；

第二确定模块203，用于基于所述目标视频区间与所述第一视频之间的映射关系、所述第一时间信息，确定所述字幕文本的目标时间信息；

第一修改模块204，用于将所述字幕文本携带的所述第一时间信息，修改为所述目标时间信息。

可选地，所述第二确定模块203，还用于：

基于所述第一时间信息，确定所述字幕文本的第一端点时刻与所述目标视频区间的第二端点时刻之间的差值；

基于所述目标视频区间与所述第一视频之间的映射关系，确定所述第二端点时刻对应的第一视频的第三端点时刻；

基于所述第三端点时刻与所述差值，确定所述字幕文本的所述第一目标端点时刻。

可选地，所述第二确定模块203，还用于：

基于所述第一时间信息，确定所述字幕文本的持续时长；

基于所述持续时长和所述第一目标端点时刻，确定所述字幕文本的所述第二目标端点时刻。

可选地，所述字幕处理装置200，还包括：

第二获取模块，用于获取所述第二视频的实际时长与理想时长之间的时长比例；

第二修正模块，用于利用所述时长比例，对所述目标时间信息进行修正。

可选地，所述第二修正模块，还用于：

当所述目标时间信息包括第一目标端点时刻时，获取所述第一目标端点时刻的数值与所述时长比例之间的第一乘积，得到修正后的第一目标端点时刻；和/或，

当所述目标时间信息包括第二目标端点时刻时，获取所述第二目标端点时刻的数值与所述时长比例之间的第二乘积，得到修正后的第二目标端点时刻。

可选地，所述字幕处理装置200，还包括：

第一提取模块，用于提取所述第一视频中的音频数据；

第二提取模块，用于提取所述音频数据中的人声数据；

截取模块，用于基于所述人声数据，截取所述第一视频中包含人声的各视频区间；

拼接模块，用于将所述包含人声的各视频区间进行拼接，得到所述第二视频。

可选地，所述字幕处理装置200，还包括：

构建模块，用于对于所述第二视频中的任意一个所述视频区间，基于所述视频区间在所述第一视频中的时间信息，构建所述视频区间与所述第一视频之间的映射关系。

可选地，所述截取模块，包括：

确定单元，用于基于所述人声数据确定目标截取区间；

截取单元，用于根据所述目标截取区间，对所述第一视频进行截取，得到包含人声的各视频区间。

可选地，所述确定单元，还用于：

基于所述人声数据，确定所述第一视频对应的多个候选截取区间；

对所述候选截取区间的至少一个区间端点向外扩张，得到所述目标截取区间。

可选地，所述确定单元，还用于：

基于第一候选截取区间与第二候选截取区间的时序数据，确定所述第一候选截取区间与所述第二候选截取区间是否连续；

当确定所述第一候选截取区间与所述第二候选截取区间连续时，将所述第一候选截取区间与第二候选截取区间进行合并，得到所述目标截取区间。

可选地，所述字幕处理装置200，还用于：

响应于接收到来自用户端的视频播放请求；

向所述用户端输出所述第一视频与所述文本集合。

本发明实施例还提供了一种电子设备，如图8所示，包括处理器301、通信接口302、存储器303和通信总线304，其中，处理器301，通信接口302，存储器303通过通信总线304完成相互间的通信。

存储器303，用于存放计算机程序；

处理器301，用于执行存储器303上所存放的程序时，所述计算机程序被所述处理器301执行上述实施例中任一实施例所述的字幕处理方法。

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述终端与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，简称RAM)，也可以包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processing，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field－Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述实施例中任一实施例所述的字幕处理方法。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一实施例所述的字幕处理方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种字幕处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述目标时间信息包括第一目标端点时刻，所述基于所述目标视频区间与所述第一视频之间的映射关系、所述第一时间信息，确定所述字幕文本的目标时间信息，包括：

3.根据权利要求2所述的方法，其特征在于，所述目标时间信息包括第二目标端点时刻，所述基于所述目标视频区间与所述第一视频之间的映射关系、所述第一时间信息，确定所述字幕文本的目标时间信息，还包括：

基于所述第一时间信息，确定所述字幕文本的持续时长；

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取所述第二视频的实际时长与理想时长之间的时长比例；

利用所述时长比例，对所述目标时间信息进行修正。

5.根据权利要求4所述的方法，其特征在于，所述利用所述时长比例，对所述目标时间信息进行修正，包括：

6.根据权利要求1-5任一项所述的方法，其特征在于，所述方法还包括：

提取所述第一视频中的音频数据；

提取所述音频数据中的人声数据；

基于所述人声数据，截取所述第一视频中包含人声的各视频区间；

将所述包含人声的各视频区间进行拼接，得到所述第二视频。

7.根据权利要求6所述的方法，其特征在于，所述方法还包括：

对于所述第二视频中的任意一个所述视频区间，基于所述视频区间在所述第一视频中的时间信息，构建所述视频区间与所述第一视频之间的映射关系。

8.根据权利要求6所述的方法，其特征在于，所述基于所述人声数据，截取所述第一视频中包含人声的各视频区间，包括：

基于所述人声数据确定目标截取区间，所述目标截取区间对应的人声音量大于预设的第一预设阈值；所述人声音量基于所述人声数据确定；

根据所述目标截取区间，对所述第一视频进行截取，得到包含人声的各视频区间。

9.根据权利要求8所述的方法，其特征在于，所述基于所述人声数据确定目标截取区间，包括：

基于所述人声数据，确定所述第一视频对应的多个候选截取区间；任意一个所述候选截取区间对应的人声音量大于所述第一预设阈值；

10.根据权利要求8所述的方法，其特征在于，所述基于所述人声数据确定目标截取区间，包括：

基于第一候选截取区间与第二候选截取区间的时序数据，确定所述第一候选截取区间与所述第二候选截取区间是否连续，所述第一候选截取区间与所述第二候选截取区间，为所述多个候选截取区间中任意两个时序相邻的区间；

11.根据权利要求1-5任一项所述的方法，其特征在于，所述方法还包括：

12.根据权利要求1-5任一项所述的方法，其特征在于，所述方法还包括：

响应于接收到来自用户端的视频播放请求，所述视频播放请求用于请求播放所述第一视频；

向所述用户端输出所述第一视频与所述文本集合，以使得所述用户端在播放所述第一视频时，按照各字幕文本的目标时间信息，显示当前视频帧对应的字幕文本。

13.一种字幕处理装置，其特征在于，包括：

14.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-12中任一项所述的方法。

15.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时，实现如权利要求1-12中任一项所述的方法。