CN114501159B

CN114501159B - 一种字幕编辑方法、装置、电子设备及存储介质

Info

Publication number: CN114501159B
Application number: CN202210080237.XA
Authority: CN
Inventors: 李雅旖
Original assignee: Transn Beijing Information Technology Co ltd
Current assignee: Transn Beijing Information Technology Co ltd
Priority date: 2022-01-24
Filing date: 2022-01-24
Publication date: 2023-12-22
Anticipated expiration: 2042-01-24
Also published as: CN114501159A

Abstract

本发明提供一种字幕编辑方法、装置、电子设备及存储介质，包括：接收用户对目标视频对应的字幕编辑界面的第一输入，字幕编辑界面包括至少一条字幕片段，至少一条字幕片段是基于目标视频的音频信息确定的，第一输入用于根据预设拆分位置拆分至少一条字幕片段中的第一目标字幕片段；响应于第一输入，将字幕编辑界面中的第一目标字幕片段拆分为多条目标字幕子片段，并基于每条目标字幕子片段的字符数、第一目标字幕片段的起止时间和字符数，确定每条目标字幕子片段的起止时间；基于每条目标字幕子片段的起止时间，确定每条目标字幕子片段对应的目标视频中的第一目标视频片段。本发明方法有效提高了字幕编辑效率以及字幕与视频匹配显示的精准度。

Description

一种字幕编辑方法、装置、电子设备及存储介质

技术领域

本发明涉及信息处理技术领域，尤其涉及一种字幕编辑方法、装置、电子设备及存储介质。

背景技术

相关技术中，由于视频进行语音播放的语速、语调多变等原因，导致人工智能语音识别生成的字幕信息不准，容易出现字幕信息断句不准确、时间信息不准确等问题，通常需要作进一步校正编辑处理。

现有技术中，在遇到字幕信息断句不准确时，通常都是人工参照视频播放的内容，对字幕信息的片段和时间分别进行逐个手动编辑和调整，使得编辑效率较为低下，且编辑后的字幕信息与视频匹配显示的精准度也并不高。

因此，如何更好地对视频字幕信息进行校正编辑已经成为业界关注的重点。

发明内容

本发明提供一种字幕编辑方法、装置、电子设备及存储介质，用以更好地对视频字幕信息进行校正编辑。

本发明提供一种字幕编辑方法，包括：

接收用户对目标视频对应的字幕编辑界面的第一输入，其中，所述字幕编辑界面包括至少一条字幕片段，所述至少一条字幕片段是基于所述目标视频的音频信息确定的，所述第一输入用于根据预设拆分位置拆分所述至少一条字幕片段中的第一目标字幕片段；

响应于所述第一输入，将所述字幕编辑界面中的所述第一目标字幕片段拆分为多条目标字幕子片段，并基于每条所述目标字幕子片段的字符数、所述第一目标字幕片段的起止时间和字符数，确定每条所述目标字幕子片段的起止时间；

基于每条所述目标字幕子片段的起止时间，确定每条所述目标字幕子片段对应的所述目标视频中的第一目标视频片段。

根据本发明实施例提供的一种字幕编辑方法，所述基于每条所述目标字幕子片段的字符数、所述第一目标字幕片段的起止时间和字符数，确定每条所述目标字幕子片段的起止时间，包括：

基于所述第一目标字幕片段的起止时间和字符数，计算所述第一目标字幕片段中每个字符的平均耗时信息；

基于所述每个字符的平均耗时信息和每条所述目标字幕子片段的字符数，得到每条所述目标字幕子片段的时长；

基于所述第一目标字幕片段的起止时间、预设间隔时间和每条所述目标字幕子片段的时长，确定每条所述目标字幕子片段的起止时间。

根据本发明实施例提供的一种字幕编辑方法，所述多条目标字幕子片段包括第一目标字幕子片段和第二目标字幕子片段，所述基于所述第一目标字幕片段的起止时间、预设间隔时间和每条所述目标字幕子片段的时长，确定每条所述目标字幕子片段的起止时间，包括：

基于所述第一目标字幕片段的起始时间，得到所述第一目标字幕子片段的起始时间，并基于所述第一目标字幕子片段的起始时间和所述第一目标字幕子片段的时长，确定所述第一目标字幕子片段的结束时间；

基于所述第一目标字幕子片段的结束时间和预设间隔时间，得到所述第二目标字幕子片段的起始时间，并基于所述第一目标字幕片段的结束时间，得到所述第二目标字幕子片段的结束时间。

根据本发明实施例提供的一种字幕编辑方法，所述方法还包括：

接收用户对所述至少一条字幕片段中的至少一条第二目标字幕片段的第二输入；

响应于所述第二输入，选中所述至少一条第二目标字幕片段；

接收用户对所述至少一条第二目标字幕片段的第三输入；

响应于所述第三输入，基于目标调整范围和预设调整时间，计算所述目标调整范围内的字幕片段的校正起止时间，其中，所述目标调整范围是基于选中的所述至少一条第二目标字幕片段确定的；

在所述目标调整范围内的字幕片段的校正起止时间满足目标时间调整条件的情况下，基于所述目标调整范围内的字幕片段的校正起止时间，确定所述目标调整范围内的字幕片段对应的所述目标视频中的第二目标视频片段；

其中，所述目标时间调整条件包括所述目标调整范围内的字幕片段的校正起止时间不与除所述目标调整范围内的字幕片段之外的其他字幕片段的起止时间重叠。

接收用户对所述至少一条字幕片段中的多条时间连续的第三目标字幕片段的第四输入；

响应于所述第四输入，选中所述多条时间连续的第三目标字幕片段；

接收用户对多条所述第三目标字幕片段的第五输入；

响应于所述第五输入，对多条所述第三目标字幕片段按时序进行拼接，得到拼接后的第一校正字幕片段；

基于各条所述第三目标字幕片段的起止时间，确定最小起始时间和最大结束时间，并基于所述最小起始时间和所述最大结束时间，确定所述第一校正字幕片段的起止时间；

基于所述第一校正字幕片段的起止时间，确定所述第一校正字幕片段对应的所述目标视频中的第三目标视频片段。

接收用户对所述至少一条字幕片段中的第四目标字幕片段的第六输入；

响应于所述第六输入，在所述第四目标字幕片段与所述第四目标字幕片段的上一条字幕片段之间的间隔时间大于目标时间阈值的情况下，将预设字幕插入到所述第四目标字幕中的预设插入位置处，得到第二校正字幕片段；

基于所述预设字幕的字符数、所述第四目标字幕片段的字符数和起止时间，计算所述第二校正字幕片段的起止时间；

在所述第二校正字幕片段的起止时间满足目标插入条件的情况下，基于所述第二校正字幕片段的起止时间，确定所述第二校正字幕片段对应的所述目标视频中的第四目标视频片段；

其中，所述目标插入条件包括所述第二校正字幕片段的起始时间大于所述上一条字幕片段的结束时间，所述第二校正字幕片段的结束时间小于所述第四目标字幕片段的下一条字幕片段的起始时间。

本发明实施例提供一种字幕编辑装置，包括：

第一输入模块，用于接收用户对目标视频对应的字幕编辑界面的第一输入，其中，所述字幕编辑界面包括至少一条字幕片段，所述至少一条字幕片段是基于所述目标视频的音频信息确定的，所述第一输入用于根据预设拆分位置拆分所述至少一条字幕片段中的第一目标字幕片段；

第一拆分模块，用于响应于所述第一输入，将所述字幕编辑界面中的所述第一目标字幕片段拆分为多条目标字幕子片段，并基于每条所述目标字幕子片段的字符数、所述第一目标字幕片段的起止时间和字符数，确定每条所述目标字幕子片段的起止时间；

第一处理模块，用于基于每条所述目标字幕子片段的起止时间，确定每条所述目标字幕子片段对应的所述目标视频中的第一目标视频片段。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述字幕编辑方法的步骤。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述字幕编辑方法的步骤。

本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述字幕编辑方法的步骤。

本发明提供的一种字幕编辑方法、装置、电子设备及存储介质，通过接收用户对目标视频对应的字幕编辑界面的第一输入，第一输入用于根据预设拆分位置，拆分字幕编辑界面中至少一条字幕片段里的第一目标字幕片段，响应于第一输入，将第一目标字幕片段快速拆分为多条目标字幕子片段，操作方便简单，并可以基于每条目标字幕子片段的字符数、第一目标字幕片段的起止时间和字符数，自动更新每条目标字幕子片段的起止时间，无需人为手动调整，同时，还可以根据每条目标字幕子片段的起止时间，自动同步更新每条目标字幕子片段对应在目标视频中的第一目标视频片段，从而实现字幕编辑与对应的视频片段进行同步校正和更新，有效提高了字幕编辑的效率以及字幕与视频匹配显示的精准度。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的字幕编辑方法的流程示意图；

图2是本发明实施例提供的字幕编辑方法的字幕编辑界面示意图之一；

图3是本发明实施例提供的字幕编辑方法的字幕编辑界面示意图之二；

图4是本发明实施例提供的字幕编辑装置的结构示意图；

图5是本发明实施例提供的电子设备的实体结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合图1-图5描述本发明的一种字幕编辑方法、装置、电子设备及存储介质。

图1是本发明实施例提供的字幕编辑方法的流程示意图，如图1所示，该方法的执行主体可以是电子设备，该方法包括：步骤101、步骤102和步骤103。

步骤101，接收用户对目标视频对应的字幕编辑界面的第一输入，其中，字幕编辑界面包括至少一条字幕片段，至少一条字幕片段是基于目标视频的音频信息确定的，第一输入用于根据预设拆分位置拆分至少一条字幕片段中的第一目标字幕片段；

需要说明的是，本发明实施例的方法可以采用一些计算机语言实现，例如，面向对象的程序设计语言Java和直译式脚本语言JavaScript等。

在本实施例中，电子设备可以是带有显示屏的终端设备，如手机、平板电脑、笔记本电脑、掌上电脑等。

在本步骤中，本发明实施例所描述的目标视频指的是需要进行字幕编辑和校正的视频，其可以是短视频、电影等各种带有音频信息的影像视频。

本发明实施例所描述至少一条字幕片段是基于目标视频的音频信息确定的，具体是通过对目标视频的音频信息进行语音识别，基于目标视频中各个语音句子片段所对应生成的一条或多条字幕片段，其可以表现为文本语句的形式，由多个字符组成，其具体可以包括中文字符及对应的外文翻译字符等。

本发明实施例所描述的字幕编辑界面为进行字幕编辑的功能界面，其可以包括目标视频的播放区域及显示有至少一条字幕片段的字幕编辑区域。

在本实施例中，获取到对目标视频进行语音识别后的字幕文件，在字幕编辑区域的文本域中将字幕文件中的字幕内容进行逐句显示，即以逐条字幕片段的形式进行显示。

在本发明的实施例中，通过将视频播放区域及字幕编辑区域同时进行显示，可以方便用户实时查看校正后的字幕信息与目标视频播放内容的匹配情况，从而可以进行更加精准的编辑和校正，有利于提高用户字幕编辑的效率和校正结果的准确性。

本发明实施例所描述的第一目标字幕片段指的是至少一条字幕片段中选中的一条字幕片段，其为存在如断句不准确的语音识别缺陷的字幕片段，是需要进行编辑校正的字幕片段。

本发明实施例所描述的预设拆分位置指的是用户预先在第一目标字幕片段中选定的拆分位置，其可以是一处拆分位置，也可以是设定好的多处拆分位置，也就是说，可以对第一目标字幕片段拆分为至少两条字幕子片段。

在本步骤中，第一输入用于根据预设拆分位置，对至少一条字幕片段中的第一目标字幕片段进行拆分。

其中，第一输入可以表现为如下至少一种方式：

其一，第一输入可以表现为实体按键输入。

在该实施方式中，终端的机身上设有字段拆分的实体按键，比如音量键，接收用户的第一输入，可以表现为，接收用户按压对应的实体按键的第一输入；第一输入还可以为同时按压多个实体按键的组合操作。

其二，第一输入可以表现为触控操作，包括但不限于点击操作、滑动操作和按压操作等。

在该实施方式中，接收用户的第一输入，可以表现为，接收用户在终端显示屏的显示区域的触控操作。

其三，第一输入可以表现为语音输入。

在该实施方式中，目标语音可以拆分第一目标字幕片段，比如终端可以在接收到语音如“拆分字幕”时，触发对第一目标字幕片段的拆分操作。

当然，在其他实施例中，第一输入也可以表现为其他形式，具体可根据实际需要决定，本申请实施例对此不作限定。

步骤102，响应于第一输入，将字幕编辑界面中的第一目标字幕片段拆分为多条目标字幕子片段，并基于每条目标字幕子片段的字符数、第一目标字幕片段的起止时间和字符数，确定每条目标字幕子片段的起止时间；

本发明实施例所描述的目标字幕子片段指的是基于预设拆分位置对第一目标字幕片段拆分得到的字幕子片段。

可以理解的是，当预设拆分位置为一处，则可以将第一目标字幕片段拆分为两条目标字幕子片段；当预设拆分位置设置为多处，则可以将第一目标字幕片段拆分为多条目标字幕子片段。

进一步地，响应于第一输入，遍历预设拆分位置前后的目标字幕子片段，可以将字幕编辑界面中的第一目标字幕片段拆分为多条目标字幕子片段。

在本发明的实施例中，预设拆分位置可以通过用户使用光标指示的形式确定，具体地，后台程序可以通过遍历各条字幕片段，给每条字幕片段添加身份标识(ID)，其中，ID的内容具体可以是字符与数字组合的形式确定，由此，用户移动光标到第一目标字幕片段中时，后台可以根据各条字幕片段的ID，通过语法document.getElementById获取到第一目标字幕片段的位置，进而，采用selectionStart方法计算出光标在第一目标字幕片段中的定位，从而确定预设拆分位置，由此，还可以通过设置在第一目标字幕片段中插入多个光标，确定出多个预设拆分位置。

进一步地，根据光标定位，通过遍历光标前后的字符串，可以有效确定出拆分后的目标字幕子片段，进而响应于第一输入，将第一目标字幕片段拆分为多条目标字幕子片段。

本实施例中，通过对每条字幕片段添加ID，采用计算机语言实现光标自动定位及获取光标前后的字符串，有利于实现对字幕片段进行自动快速拆分。

进一步地，在确定每条目标字幕子片段之后，基于每条目标字幕子片段的字符数、第一目标字幕片段的起止时间和字符数，确定每条目标字幕子片段的起止时间；

本发明实施例所描述的起止时间指的是字幕片段对应的起始时间和结束时间，其可以表现为时间轴的形式，其是基于时间格式转换为时间戳信息来计算的，可以精确到毫秒量级，有利于提高字幕时间调整的精准性。由此，通过校正起止时间，可以更加精准地匹配目标视频与字幕片段的显示。

在一些实施例中，步骤102中，基于每条目标字幕子片段的字符数、第一目标字幕片段的起止时间和字符数，确定每条目标字幕子片段的起止时间，包括：

基于第一目标字幕片段的起止时间和字符数，计算第一目标字幕片段中每个字符的平均耗时信息；

基于每个字符的平均耗时信息和每条目标字幕子片段的字符数，得到每条目标字幕子片段的时长；

基于第一目标字幕片段的起止时间、预设间隔时间和每条目标字幕子片段的时长，确定每条目标字幕子片段的起止时间。

具体地，本发明实施例所描述的预设间隔时间指的是预先设置的相邻字幕片段的调整时间间隔，其可以是程系统序默认的时间间隔，如100毫秒。

在本实施例中，根据第一目标字幕片段的起止时间，可以确定第一目标字幕片段所耗的时长，将该时长换算成时间戳，由此，根据第一目标字幕片段的字符数，就可以精确地计算出第一目标字幕片段中每个字符的平均耗时信息；

进一步地，基于每个字符的平均耗时信息与每条目标字幕子片段的字符数进行相乘，就可以直接得到每条目标字幕子片段的时长。

在本实施例中，由于预设拆分位置可以为一处，也可以为多处，这里，确定每条目标字幕子片段的起止时间存在两种不同的场景。

第一种场景为，在拆分得到的目标字幕子片段为两条时，在获得两条目标字幕子片段的时长后，基于第一目标字幕片段的起止时间、预设间隔时间和每条目标字幕子片段的时长进行计算，可以理解的是，拆分时序上的第一条目标字幕子片段的起始时间与第一目标字幕片段的起始时间一致，由此，根据该第一条目标字幕子片段的时长，即可以计算出其结束时间，从而可以得到该第一条目标字幕子片段的起止时间；

进一步地，将该第一条目标字幕子片段的结束时间和预设间隔时间，可以确定拆分时序上的第二条目标字幕子片段的起始时间，将第一目标字幕片段的结束时间作为该第二条目标字幕子片段的结束时间，由此，可以确定两条目标字幕子片段的起止时间。

在一个具体实施例中，按照时间顺序，多条目标字幕子片段可以包括第一目标字幕子片段和第二目标字幕子片段两条字幕子片段，其中，基于第一目标字幕片段的起止时间、预设间隔时间和每条目标字幕子片段的时长，确定每条目标字幕子片段的起止时间，包括：

基于第一目标字幕片段的起始时间，得到第一目标字幕子片段的起始时间，并基于第一目标字幕子片段的起始时间和第一目标字幕子片段的时长，确定第一目标字幕子片段的结束时间；

基于第一目标字幕子片段的结束时间和预设间隔时间，得到第二目标字幕子片段的起始时间，并基于第一目标字幕片段的结束时间，得到第二目标字幕子片段的结束时间。

可以理解的是，本发明实施例所描述的第一目标字幕子片段和第二目标字幕子片段指的是对第一目标字幕片段进行拆分后得到的两条字幕片段，例如，第一目标字幕片段为“你觉得怎样？我觉得很好！”，响应于第一输入，可以将“你觉得怎样？我觉得很好！”拆分为第一目标字幕子片段“你觉得怎样？”及第二目标字幕子片段“我觉得很好！”。

进一步地，将第一目标字幕片段的起始时间作为第一目标字幕子片段的起始时间，并基于第一目标字幕子片段的起始时间加上第一目标字幕子片段的时长，即可以得到第一目标字幕子片段的结束时间；

在本实施例中，将第一目标字幕子片段的结束时间加上预设间隔时间，如100毫秒，就可以得到第二目标字幕子片段的起始时间，并将第一目标字幕片段的结束时间作为第二目标字幕子片段的结束时间，由此确定出第二目标字幕子片段的起止时间。

本发明实施例的方法，在第一目标字幕片段拆分为第一目标字幕子片段和第二目标字幕子片段后，可以基于相邻字幕片段时间的连续性，通过将第一目标字幕片段的起止时间换算成时间戳，精确计算各条目标字幕子片段的起止时间，有利于提高编辑后的字幕与目标视频匹配显示的精准度。

第二种场景为，在拆分得到的目标字幕子片段超过两条时，在获得每条目标字幕子片段的时长后，基于第一目标字幕片段的起止时间、预设间隔时间和每条目标字幕子片段的时长，可以理解的是，拆分时序上的第一条目标字幕子片段的起始时间为第一目标字幕片段的起始时间，由此，根据该第一条目标字幕子片段的时长，即可以计算出其结束时间，从而可以得到该第一条目标字幕子片段的起止时间；

进一步地，将该第一条目标字幕子片段的结束时间和预设间隔时间，可以确定拆分时序上的第二条目标字幕子片段的起始时间，进而根据第二条目标字幕子片段的时长，可以计算出其结束时间，由此，按照上述计算方式，并将第一目标字幕片段的结束时间作为拆分时序上的最后一条目标字幕子片段的结束时间，由此，依次可以计算出每条目标字幕子片段的起止时间，从而更新拆分后的目标字幕子片段各自在字幕编辑区域中的显示时间轴。

本发明实施例的方法，通过对第一目标字幕片段进行拆分，可以有效地对第一目标字幕片段进行校正，并通过计算第一目标字幕片段中每个字符的平均耗时时间戳信息，来计算拆分后的各个目标字幕子片段的起止时间，可以更加精确地确定字幕片段对应的时间段，有利于提高字幕与目标视频匹配显示的精准度。

步骤103，基于每条目标字幕子片段的起止时间，确定每条目标字幕子片段对应的目标视频中的第一目标视频片段。

具体地，本发明实施例所描述的第一目标视频片段指的是各条目标字幕子片段所对应在目标视频中的视频片段，其具体可以根据每条目标字幕子片段的起止时间，与目标视频播放的时间轴进行匹配得到。

在本发明的实施例中，在拆分得到每条目标字幕子片段，并自动更新每条目标字幕子片段的起止时间，同时，可以在目标视频的播放区域播放第一目标视频片段中的任一视频帧画面，该视频帧画面中的字幕一栏中显示对应的目标字幕子片段的内容，从而实现字幕编辑与对应的视频片段进行同步校正和更新，有利于提高字幕与视频匹配显示的精准度。

在本发明的一个具体实施例中，可以通过在字幕编辑区域设置拆分按钮标识，在用户选中第一目标字幕片段后，利用光标指示，确定好第一目标字幕片段中的预设拆分位置，通过用户点击界面中的拆分按钮标识，接收用户的第一输入，响应于第一输入，后台根据光标所处的预设拆分位置，截取光标后面的字符串作为目标字幕子片段插入到下一条字幕片段区域中，从而实现对第一目标字幕片段的拆分。

图2是本发明实施例提供的字幕编辑方法的字幕编辑界面示意图之一，如图2所示，图2中处于上端的图示为进行字幕拆分前的字幕编辑界面，字幕编辑界面中包括目标视频的播放区域200及显示有多条字幕片段的字幕编辑区域100，字幕编辑区域100中定位到目标片段显示框110中的第一目标字幕片段“你觉得怎样？我觉得很好！”，第一目标字幕片段起止时间为“00:00:02.029～00:00:06.250”，目标视频的播放区域200播放显示框210中的视频帧画面与第一目标字幕片段对应，并显示第一目标字幕片段的内容，字幕编辑区域设置有拆分按钮标识120，光标已定位在第一目标字幕片段之中，通过用户按压拆分按钮标识120，接收用户的第一输入，响应于第一输入，可以将第一目标字幕片段拆分为多条目标字幕子片段。

图2中处于下端的图示为对第一目标字幕片段进行字幕拆分后的字幕编辑界面，得到的目标字幕子片段包括第一目标字幕子片段1101和第二目标字幕子片段1102，即第一目标字幕片段“你觉得怎样？我觉得很好！”被拆分为第一目标字幕子片段1101“你觉得怎样？”和第二目标字幕子片段1102“我觉得很好！”，第一目标字幕子片段1101的起止时间自动更新为“00:00:02.029～00:00:04.139”，第二目标字幕子片段的起止时间自动更新为“00:00:04.239～00:00:06.250”；同时，目标视频的播放区域200播放显示框210中同步显示目标视频片段中的视频帧画面，该画面中的字幕信息更新为第一目标字幕子片段1101的内容。

在经过对至少一条字幕片段中的第一目标字幕片段进行字幕拆分校正操作，确定每条目标字幕子片段及目标字幕子片段的起止时间，并可以实时将每条目标字幕子片段及目标字幕子片段的起止时间显示在字幕编辑区域，实现对第一目标字幕片段的实时修改和编辑。

同时，在本实施例中，通过在目标视频的播放区域显示目标视频片段中的视频帧画面，可以实现字幕编辑到视频显示的同步校正与更新，使用户可以实时查看生成的目标字幕子片段在对应的视频帧画面中的字幕显示效果，有利于提高字幕编辑效率。

本发明实施例的方法，接收用户对目标视频对应的字幕编辑界面的第一输入，第一输入用于根据预设拆分位置，拆分字幕编辑界面中至少一条字幕片段里的第一目标字幕片段，响应于第一输入，将第一目标字幕片段快速拆分为多条目标字幕子片段，操作方便简单，并可以基于每条目标字幕子片段的字符数、第一目标字幕片段的起止时间和字符数，自动更新每条目标字幕子片段的起止时间，无需人为手动调整，同时，还可以根据每条目标字幕子片段的起止时间，自动同步更新每条目标字幕子片段对应在目标视频中的第一目标视频片段，从而实现字幕编辑与对应的视频片段进行同步校正和更新，有效提高了字幕编辑的效率以及字幕与视频匹配显示的精准度。

在一些实施例中，该方法还包括：

接收用户对至少一条字幕片段中的至少一条第二目标字幕片段的第二输入；

响应于第二输入，选中至少一条第二目标字幕片段；

接收用户对至少一条第二目标字幕片段的第三输入；

响应于第三输入，基于目标调整范围和预设调整时间，计算目标调整范围内的字幕片段的校正起止时间，其中，目标调整范围是基于选中的至少一条第二目标字幕片段确定的；

在目标调整范围内的字幕片段的校正起止时间满足目标时间调整条件的情况下，基于目标调整范围内的字幕片段的校正起止时间，确定目标调整范围内的字幕片段对应的目标视频中的第二目标视频片段；

其中，目标时间调整条件包括目标调整范围内的字幕片段的校正起止时间不与除目标调整范围内的字幕片段之外的其他字幕片段的起止时间重叠。

具体地，本发明实施例所描述的第二目标字幕片段指的是至少一条字幕片段中选中的至少一条字幕片段，其为存在如时间段不准确、顺序不准确的字幕片段。

本发明实施例所描述的第二输入为选中第二目标字幕片段的操作，其具体可以是在字幕编辑界面中点选、框选或勾选第二目标字幕片段的操作。

本发明实施例所描述的目标调整范围指的是调整字幕片段的范围，其基于选中的至少一条第二目标字幕片段确定的，其具体可以包括当前句、选中的多句、当前及后续所有句、全部，其中，当前句指的是当前选中的第二目标字幕片段，选中的多句指的是选中的多条第二目标字幕片段，当前及后续所有句指的是当前选中的第二目标字幕片段及其后续的所有字幕片段，全部指的是字幕编辑区域中的所有字幕片段。

在本步骤中，第三输入用于对目标调整范围内的所有字幕片段进行起止时间调整。

需要说明的是，同第一输入一样，第二输入和第三输入也可以表现为第一输入所述的三种方式中的至少一种方式，在此不做赘述。

在本实施例中，在进行字幕片段时间调整的操作之前，可以选择需要使用的目标调整范围，可以实现对单条第二目标字幕片段的操作和同时对多条第二目标字幕片段及后续所有字幕片段等的整体操作，操作简单、灵活，有利于提高字幕编辑效率。

本发明实施例所描述的预设调整时间指的是预先设置的调整时间间隔，其可以是程序默认的时间间隔，如100毫秒；也可以通过用户设置得到，如可以设置1秒、2秒，具体可根据实际编辑需求进行自由设定。

本实施例中，如图2所示，还可以手动设定预设调整时间，或者按照程序默认时间间隔，如以100ms为单位，通过点击“+”键和“-”键，“-”键就是往前调整，“+”键则是往后调整。

本发明实施例所描述的目标时间调整条件包括目标调整范围内的字幕片段的校正起止时间不与除目标调整范围内的字幕片段之外的其他字幕片段的起止时间重叠。具体来说，在本发明的实施例中，可以切换调整状态，将勾选的单条或多条连续的第二目标字幕片段往前或者往后进行调整，还可以切换目标调整范围，如当前句、选中的多句、当前及后续所有句、全部；

在本实施例中，当目标调整范围为当前句时，当前选中的第二目标字幕片段的起始时间不得小于其上一字幕片段的结束时间，当前选中的第二目标字幕片段的结束时间不能大于其下一字幕片段的起始时间；

当目标调整范围为选中的多句时，如果是往前调整，需先判断选中的第一条第二目标字幕片段是否为所有字幕片段中的第一条字幕片段，若不是，则需要计算选中的第一条第二目标字幕片段的起始时间减去设置的预设调整时间后的时间，是否会与其上一条字幕片段的时间轴即起止时间重叠，在没有重叠的情况下，遍历选中的所有第二目标字幕片段的起止时间，按照预设调整时间，对选中的多条第二目标字幕片段进行整体时间往前调整；

如果是往后调整，需要判断选中的最后一条第二目标字幕片段是否为所有字幕片段中的最后一条字幕片段，若不是，则需要计算选中的最后一条第二目标字幕片段的结束时间加上预设调整时间后的时间，是否会与其后一条字幕片段的起始时间重叠，在没有重叠的情况下，按照预设调整时间，对选中的多条第二目标字幕片段进行整体时间往后调整；

当目标调整范围为当前及后续所有句时，只需判断往前调整时选中第一条第二目标字幕片段是否为所有字幕片段中的第一条字幕片段，若不是，则按照前述往前调整的判断计算方式，进行时间调整操作；

当目标调整范围为全部时，往前调整时，遍历全部字幕片段，整体时间轴减去设置的预设调整时间进行整体调整；而往后调整时，遍历全部字幕片段，整体时间轴累加设置的预设调整时间进行整体调整。

需要说明的是，在不满足上述目标时间调整条件中的各种情况时，会显示有相应的文字提示，以提醒用户进行重新检查和校对设置的参数是否准确，提高用户编辑的效率。

本发明实施例所描述的第二目标视频片段指的是目标调整范围内的各条字幕子片段所对应在目标视频中的视频片段，其具体可以根据目标调整范围内的各条字幕子片段的起止时间，与目标视频播放的时间轴进行匹配得到。

进一步地，在目标调整范围内的字幕片段的校正起止时间满足目标时间调整条件的情况下，根据目标调整范围内的各条字幕片段的校正起止时间，确定对应的目标视频中的第二目标视频片段，并同步更新显示在字幕编辑界面中。

图3是本发明实施例提供的字幕编辑方法的字幕编辑界面示意图之二，如图3所示，字幕编辑界面中包括目标视频的播放区域200及显示有多条字幕片段的字幕编辑区域100，在接收用户的第二输入后，每条字幕片段后方均显示有勾选框，用于用户选中想要调整的第二目标字幕片段，当响应于第二输入，选中多条第二目标字幕片段后，目标视频的播放区域200播放显示框210中的视频帧会同步更新，视频帧中的字幕显示为选中的最后一条第二目标字幕片段“你那里天气怎样？”；进而通过用户点击平移标识150，可以调出时间调整设置界面，在时间调整设置界面中可以设置预设调整时间和目标调整范围，在确认设置好预设调整时间和目标调整范围后，完成接收用户的第三输入，响应于第三输入，即可按照前述的方式进行目标时间调整条件的判断，在满足目标时间调整条件后自动对目标调整范围内的所有字幕片段进行时间轴调整。

本发明实施例的方法，通过设置字幕片段的时间调整的编辑功能，根据目标调整范围、预设调整时间和目标字幕片段的起止时间，可以对一条或多条字幕片段进行时间轴调整操作，操作简单，可以有效提高在字幕片段出现时间轴不准确或顺序不准确的场景下的字幕编辑效率和准确性。

在一些实施例中，该方法还包括：

接收用户对至少一条字幕片段中的多条时间连续的第三目标字幕片段的第四输入；

响应于第四输入，选中多条时间连续的第三目标字幕片段；

接收用户对多条第三目标字幕片段的第五输入；

响应于第五输入，对多条第三目标字幕片段按时序进行拼接，得到拼接后的第一校正字幕片段；

基于各条第三目标字幕片段的起止时间，确定最小起始时间和最大结束时间，并基于最小起始时间和最大结束时间，确定第一校正字幕片段的起止时间；

基于第一校正字幕片段的起止时间，确定第一校正字幕片段对应的目标视频中的第三目标视频片段。

在本实施例中，本发明实施例所描述的第三目标字幕片段指的是至少一条字幕片段中选中的多条字幕片段，其为存在如断句不准确的字幕片段。

本发明实施例所描述的第四输入用于选中多条时间连续的第三目标字幕片段的操作，第五输入指的是用于对多条第三目标字幕片段按时序进行拼接的操作。

需要说明的是，同第一输入一样，第四输入和第五输入也可以表现为第一输入所述的三种方式中的至少一种方式，在此不做赘述。

本发明实施例所描述的第一校正字幕片段指的是对多条第三目标字幕片段按时序进行拼接的操作后，组合成的新的字幕片段。

本发明实施例所描述的最小起始时间指的是按照时间轴顺序，选中的多条时间连续的第三目标字幕片段中的第一条目标字幕片段的起始时间。

本发明实施例所描述的最大结束时间指的是按照时间轴顺序，选中的多条时间连续的第三目标字幕片段中的最后一条目标字幕片段的结束时间。

本发明实施例所描述的第三目标视频片段指的是第一校正字幕子片段所对应在目标视频中的视频片段，其具体可以根据第一校正字幕子片段的起止时间，与目标视频播放的时间轴进行匹配得到。

在本发明的实施例中，如图2所示，可以通过设置合并按钮标识140，通过用户点击合并按钮标识140，界面进入字幕合并模式，在字幕合并模式下，可以使每条字幕片段后出现勾选框，通过勾选多条连续的第三目标字幕片段，完成接收用户的第四输入的操作，响应于第四输入，选中多条连续的第三目标字幕片段，并循环遍历每条第三目标字幕片段，获取所有第三目标字幕片段的内容；

通过用户确认合并的操作，接收用户的第五输入，响应于第五输入，对多条选中的时间连续的第三目标字幕片段进行拼接，形成新的字符串，得到第一校正字幕片段；

进一步地，基于各条时间连续的第三目标字幕片段的起止时间，确定最小起始时间和最大结束时间，并基于最小起始时间和最大结束时间，即将选中的第一条第三目标字幕片段的起始时间作为第一校正字幕片段的起始时间，选中的最后一条第三目标字幕片段的结束时间作为第一校正字幕片段的结束时间，从而得到第一校正字幕片段的起止时间，形成新的时间轴；同时，将原始的多条第三目标字幕片段进行删除。

由此，可以基于第一校正字幕片段的起止时间，确定第一校正字幕片段对应的目标视频中的第三目标视频片段，并同步更新显示在字幕编辑界面中。

本发明实施例的方法，通过设置字幕合并编辑功能，可以同时对多条时间连续的第三目标字幕片段进行拼接，得到第一校正字幕片段，并自动更新第一校正字幕片段的起止时间，实现了字幕合并校正的快速操作，有效提高了在字幕片段出现断句不准确场景下的字幕编辑效率和质量，用户体检佳。

在一些实施例中，该方法还包括：

接收用户对至少一条字幕片段中的第四目标字幕片段的第六输入；

响应于第六输入，在第四目标字幕片段与第四目标字幕片段的上一条字幕片段之间的间隔时间大于目标时间阈值的情况下，将预设字幕插入到第四目标字幕中的预设插入位置处，得到第二校正字幕片段；

基于预设字幕的字符数、第四目标字幕片段的字符数和起止时间，计算第二校正字幕片段的起止时间；

在第二校正字幕片段的起止时间满足目标插入条件的情况下，基于第二校正字幕片段的起止时间，确定第二校正字幕片段对应的目标视频中的第四目标视频片段；

其中，目标插入条件包括第二校正字幕片段的起始时间大于上一条字幕片段的结束时间，第二校正字幕片段的结束时间小于第四目标字幕片段的下一条字幕片段的起始时间。

具体地，本发明实施例所描述的第四目标字幕片段指的是至少一条字幕片段中选中的一条字幕片段，其为存在如漏字或漏句等内容缺失缺陷的字幕片段。

本发明实施例所描述的预设字幕指的是第四目标字幕片段中遗漏的字幕，其可以包括至少一个字符组成，其可以为用户预先输入字符或字符串。

本发明实施例所描述的预设插入位置指的是第四目标字幕片段中出现漏字或漏句的具体位置，其也可以通过光标指示的方式确定。

本发明实施例所描述的第六输入用于将预设字幕插入到第四目标字幕中的预设插入位置处，实现字幕插入编辑的功能。

需要说明的是，同第一输入一样，第六输入也可以表现为第一输入所述的三种方式中的至少一种方式，在此不做赘述。

本实施例中，通过获取目标字幕片段的身份标识，可以计算光标在目标字幕片段中的位置，从而定位到预设插入位置。

本发明实施例所描述的目标时间阈值指的是判断第四目标字幕片段与第四目标字幕片段的上一条字幕片段之间是否可以插入预设字幕的时间阈值，其可以取值为2秒、3秒等，具体可以根据实际场景进行自由设定。

在本发明的实施例中，目标插入条件包括第二校正字幕片段的起始时间大于上一条字幕片段的结束时间，第二校正字幕片段的结束时间小于第四目标字幕片段的下一条字幕片段的起始时间，也就是说，如要在第四目标字幕片段中插入预设字幕，则第四目标字幕片段与其上一条字幕片段的间隔时间要大，且插入预设字幕后得到的第二校正字幕片段的起止时间不能与其他字幕片段的时间轴有重叠。

本发明实施例所描述的第四目标视频片段指的是第二校正字幕子片段所对应在目标视频中的视频片段，其具体可以根据第二校正字幕子片段的起止时间，与目标视频播放的时间轴进行匹配得到。

进一步地，接收用户对第四目标字幕片段的第六输入，响应于第六输入，在第四目标字幕片段与第四目标字幕片段的上一条字幕片段之间的间隔时间大于目标时间阈值的情况下，将预设字幕插入到第四目标字幕中的预设插入位置处，得到第二校正字幕片段。

同时，基于预设字幕的字符数、第四目标字幕片段的字符数和起止时间，将第四目标字幕片段的起止时间换算成时间戳信息，计算第四目标字幕片段中每一个字符的平均耗时信息，由此，根据第二校正字幕片段的字符数，计算得到第二校正字幕片段的起止时间。

进一步地，在第二校正字幕片段的起止时间满足目标插入条件的情况下，根据第二校正字幕片段的起止时间，根据目标视频的时间轴信息，确定第二校正字幕片段对应的目标视频中的第四目标视频片段，并同步更新显示在字幕编辑界面中。

需要说明的是，如果第四目标字幕片段与其上一条字幕片段之间的间隔时间较短，小于目标时间阈值而无法插入时，可以先对第四目标字幕片段进行时间调整操作，对第四目标字幕片段的起止时间进行时间调整，确保满足目标插入条件后，再对第四目标字幕片段进行字幕插入的上述操作。

在本发明的实施例中，如图2所示，可以通过设置字幕插入按钮标识130，在用户在第四目标字幕片段中编辑好预设字幕后，点击字幕插入按钮标识130，接收用户的第六输入，响应于第六输入，在第四目标字幕片段与第四目标字幕片段的上一条字幕片段之间的间隔时间大于目标时间阈值的情况下，生成第二校正字幕片段，并自动更新第二校正字幕片段的起止时间；

进一步地，判断第二校正字幕片段的起止时间是否满足目标插入条件，如满足，则根据第二校正字幕片段的起止时间，确定第二校正字幕片段对应的目标视频中的第四目标视频片段，并同步更新显示在字幕编辑界面中。

本发明实施例的方法，通过设置字幕插入编辑功能，在满足目标插入条件的情况下，可以准确有效地在第四目标字幕片段中插入预设字幕，得到第二校正字幕片段，并自动更新第二校正字幕片段的起止时间，有效提高了在字幕片段出现漏字或漏句的场景下的字幕编辑效率和准确性。

本发明实施例提供的字幕编辑方法，除了可以方便地对字幕文件进行人工编辑修改和校正，还可以进行失焦实时保存，并且在字幕片段较多的情况下没有卡顿情况，同时通过时间轴进行编辑，能更加精准地匹配视频与字幕片段的显示。

下面对本发明提供的字幕编辑装置进行描述，下文描述的字幕编辑装置与上文描述的字幕编辑方法可相互对应参照。

图4是本发明实施例提供的字幕编辑装置的结构示意图，如图4所示，包括：

第一输入模块410，用于接收用户对目标视频对应的字幕编辑界面的第一输入，其中，所述字幕编辑界面包括至少一条字幕片段，所述至少一条字幕片段是基于所述目标视频的音频信息确定的，所述第一输入用于根据预设拆分位置拆分所述至少一条字幕片段中的第一目标字幕片段；

第一拆分模块420，用于响应于所述第一输入，将所述字幕编辑界面中的所述第一目标字幕片段拆分为多条目标字幕子片段，并基于每条所述目标字幕子片段的字符数、所述第一目标字幕片段的起止时间和字符数，确定每条所述目标字幕子片段的起止时间；

第一处理模块430，用于基于每条所述目标字幕子片段的起止时间，确定每条所述目标字幕子片段对应的所述目标视频中的第一目标视频片段。

本实施例所述的字幕编辑装置可以用于执行上述字幕编辑方法实施例，其原理和技术效果类似，此处不再赘述。

本发明实施例的装置，接收用户对目标视频对应的字幕编辑界面的第一输入，第一输入用于根据预设拆分位置，拆分字幕编辑界面中至少一条字幕片段里的第一目标字幕片段，响应于第一输入，将第一目标字幕片段快速拆分为多条目标字幕子片段，操作方便简单，并可以基于每条目标字幕子片段的字符数、第一目标字幕片段的起止时间和字符数，自动更新每条目标字幕子片段的起止时间，无需人为手动调整，同时，还可以根据每条目标字幕子片段的起止时间，自动同步更新每条目标字幕子片段对应在目标视频中的第一目标视频片段，从而实现字幕编辑与对应的视频片段进行同步校正和更新，有效提高了字幕编辑的效率以及字幕与视频匹配显示的精准度。

图5是本发明实施例提供的电子设备的实体结构示意图，如图5所示，该电子设备可以包括：处理器(processor)510、通信接口(Communications Interface)520、存储器(memory)530和通信总线540，其中，处理器510，通信接口520，存储器530通过通信总线540完成相互间的通信。处理器510可以调用存储器530中的逻辑指令，以执行上述各方法所提供的字幕编辑方法，该方法包括：接收用户对目标视频对应的字幕编辑界面的第一输入，其中，所述字幕编辑界面包括至少一条字幕片段，所述至少一条字幕片段是基于所述目标视频的音频信息确定的，所述第一输入用于根据预设拆分位置拆分所述至少一条字幕片段中的第一目标字幕片段；响应于所述第一输入，将所述字幕编辑界面中的所述第一目标字幕片段拆分为多条目标字幕子片段，并基于每条所述目标字幕子片段的字符数、所述第一目标字幕片段的起止时间和字符数，确定每条所述目标字幕子片段的起止时间；基于每条所述目标字幕子片段的起止时间，确定每条所述目标字幕子片段对应的所述目标视频中的第一目标视频片段。

此外，上述的存储器530中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的字幕编辑方法，该方法包括：接收用户对目标视频对应的字幕编辑界面的第一输入，其中，所述字幕编辑界面包括至少一条字幕片段，所述至少一条字幕片段是基于所述目标视频的音频信息确定的，所述第一输入用于根据预设拆分位置拆分所述至少一条字幕片段中的第一目标字幕片段；响应于所述第一输入，将所述字幕编辑界面中的所述第一目标字幕片段拆分为多条目标字幕子片段，并基于每条所述目标字幕子片段的字符数、所述第一目标字幕片段的起止时间和字符数，确定每条所述目标字幕子片段的起止时间；基于每条所述目标字幕子片段的起止时间，确定每条所述目标字幕子片段对应的所述目标视频中的第一目标视频片段。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法所提供的字幕编辑方法，该方法包括：接收用户对目标视频对应的字幕编辑界面的第一输入，其中，所述字幕编辑界面包括至少一条字幕片段，所述至少一条字幕片段是基于所述目标视频的音频信息确定的，所述第一输入用于根据预设拆分位置拆分所述至少一条字幕片段中的第一目标字幕片段；响应于所述第一输入，将所述字幕编辑界面中的所述第一目标字幕片段拆分为多条目标字幕子片段，并基于每条所述目标字幕子片段的字符数、所述第一目标字幕片段的起止时间和字符数，确定每条所述目标字幕子片段的起止时间；基于每条所述目标字幕子片段的起止时间，确定每条所述目标字幕子片段对应的所述目标视频中的第一目标视频片段。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种字幕编辑方法，其特征在于，包括：

基于每条所述目标字幕子片段的起止时间，确定每条所述目标字幕子片段对应的所述目标视频中的第一目标视频片段；

其中，所述预设拆分位置通过如下步骤得到：

遍历各条字幕片段，给每条字幕片段添加身份标识ID；

当用户移动光标到第一目标字幕片段中时，根据各条字幕片段的ID，通过语法document.getElementById获取到第一目标字幕片段的位置；

采用selectionStart方法计算出光标在第一目标字幕片段中的定位，确定所述预设拆分位置。

2.根据权利要求1所述的字幕编辑方法，其特征在于，所述基于每条所述目标字幕子片段的字符数、所述第一目标字幕片段的起止时间和字符数，确定每条所述目标字幕子片段的起止时间，包括：

3.根据权利要求2所述的字幕编辑方法，其特征在于，所述多条目标字幕子片段包括第一目标字幕子片段和第二目标字幕子片段，所述基于所述第一目标字幕片段的起止时间、预设间隔时间和每条所述目标字幕子片段的时长，确定每条所述目标字幕子片段的起止时间，包括：

4.根据权利要求1所述的字幕编辑方法，其特征在于，所述方法还包括：

接收用户对所述至少一条第二目标字幕片段的第三输入；

5.根据权利要求1所述的字幕编辑方法，其特征在于，所述方法还包括：

接收用户对多条所述第三目标字幕片段的第五输入；

6.根据权利要求1所述的字幕编辑方法，其特征在于，所述方法还包括：

7.一种字幕编辑装置，其特征在于，包括：

第一处理模块，用于基于每条所述目标字幕子片段的起止时间，确定每条所述目标字幕子片段对应的所述目标视频中的第一目标视频片段；

第二处理模块，具体用于：

遍历各条字幕片段，给每条字幕片段添加身份标识ID；

8.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至6任一项所述字幕编辑方法的步骤。

9.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述字幕编辑方法的步骤。