CN112738563A

CN112738563A - 自动添加字幕片段的方法、装置及计算机设备

Info

Publication number: CN112738563A
Application number: CN202011579773.1A
Authority: CN
Inventors: 邢鹏远; 张春志
Original assignee: Shenzhen Wondershare Software Co Ltd
Current assignee: Shenzhen Wondershare Software Co Ltd
Priority date: 2020-12-28
Filing date: 2020-12-28
Publication date: 2021-04-30

Abstract

本发明实施例公开了一种自动添加字幕片段的方法、系统、计算机设备及存储介质，本申请涉及多媒体技术领域。该方法通过在音频轨道上获取待匹配语音片段的位置和长度来确定待插入的字幕片段的位置和长度，并判断系统中的视频轨道是否存在可插入字幕片段的目标位置，若视频轨道无插入待插入的字幕片段的位置，建立视频轨道的上层视频轨道，于上层视频轨道生成字幕片段。本申请实施例实现了对多个待匹配语音片段自动匹配相对应的字幕片段，且实现了待匹配语音片段与相对应的字幕片段的自动对齐，提高效率且提高用户体验。

Description

自动添加字幕片段的方法、装置及计算机设备

技术领域

本发明实施例涉及多媒体技术领域，尤其涉及一种自动添加字幕片段的方法、装置、计算机设备及存储介质。

背景技术

随着互联网技术和多媒体技术的不断发展，富有表现力及观赏性的视频作为信息的载体之一，受到众多用户的青睐。为了更好地展示视频内容，在对所拍摄的视频进行后期制作时，常会添加与视频中的语音信息同步的字幕信息，以方便用户在观看视频的时候便于理解视频内容，提升用户观看视频的体验。然而现有的为视频添加字幕的方式为手动添加，效率较低。

发明内容

本发明实施例提供了一种自动添加字幕片段的方法、装置、计算机设备及存储介质，旨在解决现有于视频中添加字幕效率低下的问题。

第一方面，本发明实施例提供了一种自动添加字幕片段的方法，其包括：获取生成单元，用于获取用户启动插入字幕片段的指令，生成与所述系统中的音频轨道上的各语音片段相对应的文本文件并存储于所述系统中的素材区；获取音频轨道上的语音片段作为待匹配语音片段；若所述待匹配语音片段未存在预设异常情况，则于音频轨道上获取待匹配语音片段的位置和长度；根据所述待匹配语音片段的位置和长度确定与所述待匹配语音片段相对应的待插入的字幕片段的位置和长度，其中待插入的字幕片段的位置和长度与所述待匹配语音片段的位置和长度一致；判断所述系统中的视频轨道是否存在可插入所述字幕片段的目标位置；若所述视频轨道不存在可插入所述字幕片段的目标位置，则建立所述视频轨道的上层视频轨道；于所述素材区中调用与所述待匹配语音片段相对应的文本素材；于所述上层视频轨道上与所述待匹配语音片段相对应的位置插入所述文本素材以添加所述字幕片段。

第二方面，本发明实施例还提供了一种自动添加字幕片段的系统，其包括：获取生成单元，用于获取用户启动插入字幕片段的指令，生成与所述系统中的音频轨道上的各语音片段相对应的文本文件并存储于所述系统中的素材区；第一获取单元，用于获取音频轨道上的语音片段作为待匹配语音片段；第二获取单元，用于若所述待匹配语音片段未存在预设异常情况，则于音频轨道上获取待匹配语音片段的位置和长度；确定单元，用于根据所述待匹配语音片段的位置和长度确定与所述待匹配语音片段相对应的待插入的字幕片段的位置和长度；第一判断单元，用于判断所述系统中的视频轨道是否存在可插入所述字幕片段的目标位置；建立单元，用于若所述视频轨道不存在可插入所述字幕片段的目标位置，则建立所述视频轨道的上层视频轨道；调用单元，用于于所述素材区中调用与所述待匹配语音片段相对应的文本素材；第一插入添加单元，用于于所述上层视频轨道上与所述待匹配语音片段相对应的位置插入所述文本素材以添加所述字幕片段。

第三方面，本发明实施例还提供了一种计算机设备，其包括存储器及处理器，所述存储器上存储有计算机程序，所述处理器执行所述计算机程序时实现上述方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序当被处理器执行时可实现上述方法。

本发明实施例提供了一种自动添加字幕片段的方法、系统、计算机设备及存储介质。本发明实施例的所述方法，通过获取所述音频轨道上获取所述待匹配语音片段的位置和长度来获取待插入的字幕片段的位置和长度，并判断所述系统中的视频轨道是否存在可插入所述字幕片段的目标位置，若所述视频轨道无插入待插入的字幕片段的位置，建立所述视频轨道的上层视频轨道，于所述上层视频轨道生成所述字幕片段，可实现对多个待匹配语音片段自动匹配相对应的所述字幕片段，且实现了待匹配语音片段与所述相对应的所述字幕片段的自动对齐，提高效率且提高用户体验。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种自动添加字幕片段的方法的流程示意图；

图2为本发明实施例提供的一种自动添加字幕片段的方法的另一流程示意图；

图3为本发明实施例提供的一种自动添加字幕片段的方法的子流程示意图；

图4为本发明实施例提供的一种自动添加字幕片段的方法的又一子流程示意图；

图5为本发明实施例提供的一种自动添加字幕片段的方法的另一子流程示意图；

图6为本发明实施例提供的一种自动添加字幕片段的方法的又一子流程示意图；

图7为本发明实施例提供的一种自动添加字幕片段的系统的示意性框图；

图8为本发明实施例提供的自动添加字幕片段的系统的另一示意性框图；

图9为本发明实施例提供的一种自动添加字幕片段的系统的第一调用单元的子示意性框图；

图10为本发明实施例提供的一种自动添加字幕片段的系统的又一示意性框图；

图11为本发明实施例提供的一种自动添加字幕片段的系统的另一示意性框图；

图12为本发明实施例提供的一种自动添加字幕片段的系统的又一示意性框图；以及，

图13为本发明实施例提供的一种计算机设备的示意性框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

如在本说明书和所附权利要求书中所使用的那样，术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地，短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。

请参阅图1，图1是本发明实施例提供的自动添加字幕片段的方法的流程示意图。本发明实施例的自动添加字幕片段的方法可应用于终端上，例如手提电脑、平板电脑台式电脑等智能终端设备，通过安装于所述终端上的软件例如命名为视频编辑的应用程序来实现所述自动添加字幕片段的方法，从而解决现有对视频进行编辑时为视频中的语音片段添加字幕片段过程的问题，提高为视频中的语音片段添加字幕片段的效率。下面对所述自动添加字幕片段的方法进行详细说明。如图1所示，该方法包括以下步骤S110-S180。

S110、获取用户启动插入字幕片段的指令，生成与所述系统中的音频轨道上的各语音片段相对应的文本文件。

在本发明实施例中，对视频中的语音片段添加字幕片段的过程于视频编辑软件中进行，视频编辑软件设有自动添加字幕片段的系统，所述系统包括素材区、编辑区以及预览区，所述编辑区设有时间线、放置字幕片段的视频轨道以及用于存放语音片段的音频轨道，所述视频轨道、所述音频轨道与所述时间线同步，所述音频轨道仅用于放置语音片段，所述视频轨道用于放置除了所述语音片段以外的其他素材，例如与所述语音片段相对应的字幕片段、文字、特效、贴纸、分屏片段等，所述视频轨道为所述音频轨道的上层轨道。当打开所述视频编辑软件进入所述自动添加字幕片段的系统，所述编辑区设有初始视频轨道以及初始音频轨道，所述初始视频轨道为编号1号的视频轨道，所述初始音频轨道为编号为0号的音频轨道，所述音频轨道上的各语音片段已放置于所述初始音频轨道。获取用户启动插入字幕片段的指令，生成与所述系统中的音频轨道上的各语音片段相对应的文本文件并存储于所述系统中的素材区以供调用，例如所述文本素材为srt文件。另外将音频轨道上的语音划分为多个语音片段的方法为本领域技术人员所熟知，在此不再赘述。

S120、获取音频轨道上的语音片段作为待匹配语音片段。

在本发明实施例中，在所述编辑区获取音频轨道上的语音片段作为待匹配语音片段以进行添加字幕片段。可以理解的是，在所述编辑区可对多个所述语音片段进行自动匹配所述字幕片段，可依时间顺序依次获取音频轨道上的语音片段作为待匹配语音片段，并分别获取各个待匹配语音片段所对应的字幕片段。

S130、若所述待匹配语音片段未存在预设异常情况，则于所述音频轨道上获取所述待匹配语音片段的位置和长度。

在本发明实施例中，获取到待匹配语音片段之后，需判断所获取的待匹配语音片段是否存在预设异常情况，其中，在本实施例中，所述预设异常情况可包括所述语音片段存在冻结帧、变速或者倒放等情况。若判断的结果为所述待匹配语音片段未存在预设异常情况，则于所述音频轨道上获取所述待匹配语音片段的位置和长度。

S140、根据所述待匹配语音片段的位置和长度确定与所述待匹配语音片段相对应的待插入的字幕片段的位置和长度。

在本发明实施例中，当已获取所述待匹配语音片段的位置和长度，由于插入与所述待匹配语音片段同步显示的字幕片段才能为用户带来更好的观看体验，待插入的字幕片段的位置和长度应与所述待匹配语音片段的位置和长度一致，依据所述待匹配语音片段的位置和长度来预设与所述待匹配语音片段相对应的待插入的字幕片段的位置和长度，以判断所述视频轨道是否存在可插入待插入的字幕片段的位置。

S150、判断所述系统中的视频轨道是否存在可插入所述字幕片段的目标位置；若所述视频轨道不存在可插入所述字幕片段的目标位置，则执行步骤S160，若所述视频轨道存在可插入所述字幕片段的目标位置，则执行步骤S190。

在本发明实施例中，由于所述视频轨道不仅可以插入与所述语音片段相对应的字幕片段，还可以插入文字、特效、贴纸以及分屏片段等素材，在插入待插入的字幕片段先判断所述系统中的视频轨道是否存在可插入所述字幕片段的目标位置，当所述视频轨道与所述待匹配语音片段的位置和长度相对应的位置已插入所述文字、特效、贴纸以及分屏片段等素材，则该所述视频轨道无插入待插入的字幕片段的位置，当所述视频轨道与所述待匹配语音片段的位置和长度相对应的位置未插入所述文字、特效、贴纸以及分屏片段等素材，则所述视频轨道存在可插入所述字幕片段的目标位置。

S160、若所述视频轨道不存在可插入所述字幕片段的目标位置，则建立所述视频轨道的上层视频轨道。

在本发明实施例中，当所述视频轨道与所述待匹配语音片段的位置和长度相对应的位置已插入所述文字、特效、贴纸以及分屏片段等素材，则该所述视频轨道无插入待插入的字幕片段的目标位置，为了提供更好的观看效果，建立所述视频轨道的上层视频轨道以插入待插入的字幕片段的所述文本素材以生成所述字幕片段。一般地，所述视频轨道可添加至100条，视频轨道编号为1到100，编号最大的视频轨道为最上层视频轨道。

S170、于所述素材区中调用与所述待匹配语音片段相对应的文本素材；

在本发明实施例中，由于所有所述语音片段的文本素材以存储于所述素材区中，于所述素材区中调用与所述待匹配语音片段相对应的文本素材。

S180、于所述上层视频轨道上与所述待匹配语音片段相对应的位置插入所述文本素材以添加所述字幕片段的所述文本素材以生成所述字幕片段。

在本发明实施例中，由于在预览区，编号大的视频轨道上的素材于编号小的视频轨道上的素材的上层显示，当于所述上层视频轨道上与所述待匹配语音片段相对应的位置插入所述文本素材以添加所述字幕片段的所述文本素材以生成所述字幕片段，则在预览区，由于所述字幕片段插入于所述上层视频轨道，避免了所述字幕片段被其他素材遮挡，为用户提供更好的观看体验。

与现有技术相比，本发明提供的技术方案通过获取所述音频轨道上获取所述待匹配语音片段的位置和长度来获取待插入的字幕片段的位置和长度，并判断所述系统中的视频轨道是否存在可插入所述字幕片段的目标位置，若所述视频轨道无插入待插入的字幕片段的位置，建立所述视频轨道的上层视频轨道，与所述上层视频轨道生成所述字幕片段，可实现对多个待匹配语音片段自动匹配相对应的所述字幕片段，且实现了待匹配语音片段与所述相对应的所述字幕片段的自动对齐，提高效率且提高用户体验。

请参阅图2，所述方法还包括步骤S190-S191。

S190、若所述视频轨道存在可插入所述字幕片段的目标位置，则于所述素材区中调用与所述待匹配语音片段相对应的文本素材；

在本发明实施例中，若所述视频轨道存在可插入所述字幕片段的目标位置，则于素材区于所述素材区中调用与所述待匹配语音片段相对应的文本素材，当将所述文本素材插入至所述视频轨道上，则所述文本素材形成所述字幕片段。

S191、于所述视频轨道的所述目标位置插入所述文本素材以添加所述字幕片段。

在本发明实施例中，于素材区于所述素材区中调用与所述待匹配语音片段相对应的文本素材并于所述视频轨道插入待插入的字幕片段的所述文本素材，生成所述字幕片段。当于视频轨道上生成所述字幕片段，自动添加字幕片段的系统的预览区显示与所述待匹配语音片段同步的字幕片段。

在一实施例中，例如，在本发明实施例中，所述方法还包括步骤：所述语音片段携带有全局唯一标识符，所述文本素材对应携带有所述全局唯一标识符。

在本发明实施例中，所述全局唯一标识符(GUID，Globally Unique Identifier)，是一种由算法生成的二进制长度为128位的数字标识符，所述语音片段携带全局唯一标识符，全局唯一标识符可用于区分不同的语音片段，保证语音片段的唯一性，所述语音片段转化为所述文本素材，所述文本素材对应携带有所述语音片段所携带全局唯一标识符。

如图3所示，步骤S170具体包括步骤S171-S172。

S171、获取所述待匹配语音片段的全局唯一标识符；

S172、根据所述全局唯一标识符，于所述素材区中调用与所述待匹配语音片段相对应的文本素材。

在本发明实施例中，获取所述待匹配语音片段的全局唯一标识符，由于全局唯一标识符的唯一性以及所述文本素材也获得与相对应的所述语音片段一致的全局唯一标识符，根据所述全局唯一标识符，于所述素材区中调用与所述待匹配语音片段相对应的文本素材。

如图4所示，步骤S180之前的还包括步骤S181-S182。

S181、获取所述待匹配语音片段对应于时间线上的起始帧和终止帧的时间；

S182、设置待插入的字幕片段于所述上层视频轨道上的起始帧和终止帧与所述待匹配语音片段的起始帧和终止帧一致。

在本发明实施例中，为使得待插入的字幕片段与所述待匹配语音片段相对应，获取所述待匹配语音片段对应于时间线上的起始帧和终止帧的时间，设置待插入的字幕片段于视频轨道上的起始帧和终止帧与所述待匹配语音片段的起始帧和终止帧一致。若待插入的字幕片段于视频轨道上的起始帧和终止帧与所述待匹配语音片段的起始帧和终止帧不一致，则自动调整待插入的字幕片段的长度使得待插入的字幕片段于视频轨道上的起始帧和终止帧与所述待匹配语音片段的起始帧和终止帧一致。

如图5所示，步骤S120之后包括步骤S121-S122：

S121、判断所述待匹配语音片段是否存在预设异常情况；若所述待匹配语音片段存在预设异常情况，则执行步骤S122，若所述待匹配语音片段未存在预设异常情况，则执行步骤S130。

S122、若所述待匹配语音片段存在预设异常情况，则发出异常提醒。

在本发明实施例中，当获取音频轨道上的待匹配语音片段之后，判断所述待匹配语音片段是否存在预设异常情况，若所述待匹配语音片段存在冻结帧、变速或者倒放等情况，则发出异常提醒。若所述待匹配语音片段未存在预设异常情况，则执行步骤S130。

如图6所示，步骤S180之后的步骤还包括S183-S184：

S183、判断是否所有所述语音片段相应的字幕片段已添加完毕；若并非所有所述语音片段已匹配所述字幕片段，则继续执行，直到所有所述语音片段已匹配所述字幕片段，若所有所述语音片段相应的字幕片段已添加完毕，则执行步骤S184。

S184、若所有所述语音片段相应的字幕片段已添加完毕，则生成具有完整字幕的视频文件。

在本发明实施例中，由于在所述编辑区，可依时间顺序依次对音频轨道上的多个所述待匹配语音片段进行自动匹配所述字幕片段，判断所有所述语音片段是否已匹配所述字幕片段，若并非所有所述语音片段已匹配所述字幕片段，则继续执行，直到所有所述语音片段相应的字幕片段已添加完毕，若所有所述语音片段相应的字幕片段已添加完毕，则生成具有完整字幕的视频文件。

图7是本发明实施例提供的一种自动添加字幕片段的系统200的示意性框图。如图7所示，对应于以上自动添加字幕片段的方法，本发明还提供一种自动添加字幕片段的系统200。该自动添加字幕片段的系统200包括用于执行上述自动添加字幕片段的方法的单元，该系统可以被配置于终端中。具体地，请参阅图7，该自动添加字幕片段的系统200包括所述系统包括素材区、编辑区以及预览区，所述编辑区设有时间线、放置字幕片段的视频轨道以及用于存放语音片段的音频轨道，所述视频轨道、所述音频轨道与所述时间线同步，所述视频轨道为所述音频轨道的上层轨道。所述编辑区包括获取生成单元210、第一获取单元220、第二获取单元230、确定单元240、第一判断单元250、建立单元260第一调用单元270以及第一插入添加单元280。

所述获取生成单元210，用于获取生成单元，用于获取用户启动插入字幕片段的指令，生成与所述系统中的音频轨道上的各语音片段相对应的文本文件；

所述第一获取单元220，用于依次获取音频轨道上的语音片段作为待匹配语音片段；

所述第二获取单元230，用于若所述待匹配语音片段未存在预设异常情况，则于音频轨道上获取待匹配语音片段的位置和长度；

所述确定单元240，用于根据所述待匹配语音片段的位置和长度确定与所述待匹配语音片段相对应的待插入的字幕片段的位置和长度，其中待插入的字幕片段的位置和长度与所述待匹配语音片段的位置和长度一致；

所述第一判断单元250，用于判断所述系统中的视频轨道是否存在可插入所述字幕片段的目标位置；

所述建立单元260，用于若所述视频轨道不存在可插入所述字幕片段的目标位置，则建立所述视频轨道的上层视频轨道；

所述第一调用单元270，用于于所述素材区中调用与所述待匹配语音片段相对应的文本素材；

第一插入添加单元280，用于于所述上层视频轨道上与所述待匹配语音片段相对应的位置插入所述文本素材以添加所述字幕片段。

在某些实施例，例如本实施例中，如图8所示，所述方法200还包括第第二调用单元290以及插入添加单元291。

所述第二调用单元290，用于若所述视频轨道存在可插入所述字幕片段的目标位置，则于所述素材区中调用与所述待匹配语音片段相对应的文本素材；

所述插入添加单元291，用于于所述视频轨道的所述目标位置插入所述文本素材以添加所述字幕片段。

在某些实施例，例如本实施例中，所述系统还包括第三获取单元，所述第三获取单元用于所述语音片段携带全局唯一标识符，所述文本素材获取所述语音片段所携带全局唯一标识符。

在某些实施例，例如本实施例中，如图9所示，所述第一调用单元270还包括第四获取单元271以及第五获取单元272。

所述第四获取单元271，用于获取所述待匹配语音片段的全局唯一标识符；

所述第五获取单元272，用于根据所述全局唯一标识符，于所述素材区中调用与所述待匹配语音片段相对应的文本素材。

在某些实施例，例如本实施例中，如图10所示，所述系统还包括第六获取单元281以及设置单元282。

所述第六获取单元281，用于，获取所述待匹配语音片段对应于时间线上的起始帧和终止帧的时间；

所述设置单元282，用于设置待插入的字幕片段于所述上层视频轨道上的起始帧和终止帧与所述待匹配语音片段的起始帧和终止帧一致。

在某些实施例，例如本实施例中，如图11所示，所述系统还包括第二判断单元221以及发出单元222。

所述第二判断单元221，用于判断所述待匹配语音片段是否存在预设异常情况；

所述发出单元222，用于若所述待匹配语音片段存在预设异常情况，则发出异常提醒。

在某些实施例，例如本实施例中，如图12所示，所述系统还包括第三判断单元283以及生成单元284。

所述第三判断单元283，用于判断是否所有所述语音片段相应的字幕片段已添加完毕；

所述生成单元284，用于若所有所述语音片段相应的字幕片段已添加完毕，则生成具有完整字幕的视频文件。

需要说明的是，所属领域的技术人员可以清楚地了解到，上述自动添加字幕片段的系统200和各单元的具体实现过程，可以参考前述方法实施例中的相应描述，为了描述的方便和简洁，在此不再赘述。

上述自动添加字幕片段的系统可以实现为一种计算机程序的形式，该计算机程序可以在如图13所示的计算机设备上运行。

请参阅图13，图13是本申请实施例提供的一种计算机设备的示意性框图。该计算机设备300为终端，终端可以是台式电脑、手提电脑、平板电脑等具有通信功能的电子设备。

参阅图13，该计算机设备300包括通过系统总线301连接的处理器302、存储器和网络接口305，其中，存储器可以包括非易失性存储介质503和内存储器304。

该非易失性存储介质303可存储操作系统3031和计算机程序3032。该计算机程序3032被执行时，可使得处理器302执行一种自动添加字幕片段的方法。

该处理器302用于提供计算和控制能力，以支撑整个计算机设备300的运行。

该内存储器304为非易失性存储介质303中的计算机程序3032的运行提供环境，该计算机程序3032被处理器302执行时，可使得处理器302执行一种自动添加字幕片段的方法。

该网络接口305用于与其它设备进行网络通信。本领域技术人员可以理解，图13中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备300的限定，具体的计算机设备300可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

其中，所述处理器302用于运行存储在存储器中的计算机程序3032，以实现如下步骤：获取用户启动插入字幕片段的指令，生成与所述系统中的音频轨道上的各语音片段相对应的文本文件；获取音频轨道上的语音片段作为待匹配语音片段；若所述待匹配语音片段未存在预设异常情况，则于音频轨道上获取待匹配语音片段的位置和长度；根据所述待匹配语音片段的位置和长度确定与所述待匹配语音片段相对应的待插入的字幕片段的位置和长度，其中待插入的字幕片段的位置和长度与所述待匹配语音片段的位置和长度一致；判断所述系统中的视频轨道是否存在可插入所述字幕片段的目标位置；若所述视频轨道不存在可插入所述字幕片段的目标位置，则建立所述视频轨道的上层视频轨道；于所述素材区中调用与所述待匹配语音片段相对应的文本素材；于所述上层视频轨道上与所述待匹配语音片段相对应的位置插入所述文本素材以添加所述字幕片段。

在某些实施例，例如本实施例中，处理器302在实现所述判断所述系统中的视频轨道是否存在可插入所述字幕片段的目标位置的步骤之后，具体实现包括如下步骤：若所述视频轨道存在可插入所述字幕片段的目标位置，则于所述素材区中调用与所述待匹配语音片段相对应的文本素材；于所述视频轨道的所述目标位置插入所述文本素材以添加所述字幕片段。

在某些实施例，例如本实施例中，处理器302在实现于所述于所述上层视频轨道上与所述待匹配语音片段相对应的位置插入所述文本素材以添加所述字幕片段的步骤之前，具体实现包括如下步骤：获取所述待匹配语音片段对应于时间线上的起始帧和终止帧的时间；设置待插入的所述字幕片段于所述上层视频轨道上的起始帧和终止帧与所述待匹配语音片段的起始帧和终止帧一致。

在某些实施例，例如本实施例中，处理器302还实现如下步骤：所述语音片段携带有全局唯一标识符，所述文本素材对应携带有所述全局唯一标识符。

在某些实施例，例如本实施例中，处理器302在所述于所述素材区中调用与所述待匹配语音片段相对应的文本素材的步骤，具体实现还包括如下步骤：获取所述待匹配语音片段的全局唯一标识符；根据所述全局唯一标识符，于所述素材区中调用与所述待匹配语音片段相对应的文本素材。

在某些实施例，例如本实施例中，处理器302在实现所述获取音频轨道上的语音片段作为待匹配语音片段的步骤之后，具体实现如下步骤：判断所述待匹配语音片段是否存在预设异常情况；若所述待匹配语音片段存在预设异常情况，则发出异常提醒。

在某些实施例，例如本实施例中，处理器302在实现所述于所述上层视频轨道上与所述待匹配语音片段相对应的位置插入所述文本素材以添加所述字幕片段的步骤之后，具体实现还包括如下步骤：判断是否所有所述语音片段相应的字幕片段已添加完毕；若所有所述语音片段相应的字幕片段已添加完毕，则生成具有完整字幕的视频文件。

应当理解，在本申请实施例中，处理器302可以是中央处理单元(CentralProcessing Unit，CPU)，该处理器302还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable GateArray，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

本领域普通技术人员可以理解的是实现上述实施例的方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成。该计算机程序可存储于一存储介质中，该存储介质为计算机可读存储介质。该计算机程序被该计算机系统中的至少一个处理器执行，以实现上述方法的实施例的流程步骤。

因此，本发明还提供一种存储介质。该存储介质可以为计算机可读存储介质。该存储介质存储有多个计算机程序，所述多个计算机程序当分别被至少一个处理器执行时可实现上述的步骤的自动添加字幕片段的方法的各种实施例。

所述存储介质可以是U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、磁碟或者光盘等各种可以存储程序代码的计算机可读存储介质。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅是示意性的。例如，各个单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。

本发明实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。本发明实施例装置中的单元可以根据实际需要进行合并、划分和删减。另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。

该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，终端，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种自动添加字幕片段的方法，应用于自动添加字幕片段的系统，其特征在于，所述方法包括：

获取用户启动插入字幕片段的指令，生成与所述系统中的音频轨道上的各语音片段相对应的文本文件并存储于所述系统中的素材区；

获取音频轨道上的语音片段作为待匹配语音片段；

若所述待匹配语音片段未存在预设异常情况，则于音频轨道上获取待匹配语音片段的位置和长度；

根据所述待匹配语音片段的位置和长度确定与所述待匹配语音片段相对应的待插入的字幕片段的位置和长度；

判断所述系统中的视频轨道是否存在可插入所述字幕片段的目标位置；

若所述视频轨道不存在可插入所述字幕片段的目标位置，则建立所述视频轨道的上层视频轨道；

于所述素材区中调用与所述待匹配语音片段相对应的文本素材；

于所述上层视频轨道上与所述待匹配语音片段相对应的位置插入所述文本素材以添加所述字幕片段。

2.根据权利要求1所述的方法，其特征在于，所述判断所述系统中的视频轨道是否存在可插入所述字幕片段的目标位置的步骤之后，包括：

若所述视频轨道存在可插入所述字幕片段的目标位置，则于所述素材区中调用与所述待匹配语音片段相对应的文本素材；

于所述视频轨道的所述目标位置插入所述文本素材以添加所述字幕片段。

3.根据权利要求1所述的方法，其特征在于，所述于所述上层视频轨道上与所述待匹配语音片段相对应的位置插入所述文本素材以添加所述字幕片段的步骤之前，还包括：

获取所述待匹配语音片段对应于时间线上的起始帧和终止帧的时间；

设置待插入的字幕片段于所述上层视频轨道上的起始帧和终止帧与所述待匹配语音片段的起始帧和终止帧一致。

4.根据权利要求1或2所述的方法，其特征在于，所述方法还包括：

所述语音片段携带有全局唯一标识符，所述文本素材对应携带有所述全局唯一标识符。

5.根据权利要求4所述的方法，其特征在于，所述于所述素材区中调用与所述待匹配语音片段相对应的文本素材的步骤，包括：

获取所述待匹配语音片段的全局唯一标识符；

根据所述全局唯一标识符，于所述素材区中调用与所述待匹配语音片段相对应的文本素材。

6.根据权利要求1所述的方法，其特征在于，所述获取音频轨道上的语音片段作为待匹配语音片段的步骤之后，包括：

判断所述待匹配语音片段是否存在预设异常情况；

若所述待匹配语音片段存在预设异常情况，则发出异常提醒。

7.根据权利要求1所述的方法，其特征在于，所述于所述上层视频轨道上与所述待匹配语音片段相对应的位置插入所述文本素材以添加所述字幕片段的步骤之后，还包括：

判断是否所有所述语音片段相应的字幕片段已添加完毕；

若所有所述语音片段相应的字幕片段已添加完毕，则生成具有完整字幕的视频文件。

8.一种自动添加字幕片段的系统，其特征在于，包括：

获取生成单元，用于获取用户启动插入字幕片段的指令，生成与所述系统中的音频轨道上的各语音片段相对应的文本文件并存储于所述系统中的素材区；

第一获取单元，用于获取音频轨道上的语音片段作为待匹配语音片段；

第二获取单元，用于若所述待匹配语音片段未存在预设异常情况，则于音频轨道上获取待匹配语音片段的位置和长度；

确定单元，用于根据所述待匹配语音片段的位置和长度确定与所述待匹配语音片段相对应的待插入的字幕片段的位置和长度；

第一判断单元，用于判断所述系统中的视频轨道是否存在可插入所述字幕片段的目标位置；

建立单元，用于若所述视频轨道不存在可插入所述字幕片段的目标位置，则建立所述视频轨道的上层视频轨道；

第一调用单元，用于于所述素材区中调用与所述待匹配语音片段相对应的文本素材；

第一插入添加单元，用于于所述上层视频轨道上与所述待匹配语音片段相对应的位置插入所述文本素材以添加所述字幕片段。

9.一种计算机设备，其特征在于，所述计算机设备包括存储器及处理器，所述存储器上存储有计算机程序，所述处理器执行所述计算机程序时实现如权利要求1-7中任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序当被处理器执行时可实现如权利要求1-7中任一项所述的方法。