CN110781649A

CN110781649A - 一种字幕编辑方法、装置及计算机存储介质、电子设备

Info

Publication number: CN110781649A
Application number: CN201911046035.8A
Authority: CN
Inventors: 蔡贺; 崔建伟; 黄建新; 张歆; 黄伟峰; 朱米春; 杜伟; 王一韩; 闫磊; 钱岳
Original assignee: Central Platform
Current assignee: Central Platform
Priority date: 2019-10-30
Filing date: 2019-10-30
Publication date: 2020-02-11
Anticipated expiration: 2039-10-30
Also published as: CN110781649B

Abstract

一种字幕编辑方法、装置及计算机存储介质、电子设备，包括：确定用户对字幕文件的编辑请求；所述字幕文件为根据音频文件以及音频文件对应的文稿生成的包括每个词语的时间戳的字幕文件，所述编辑请求包括所述字幕文件中需要编辑的位置以及编辑类型；根据所述需要编辑的位置以及编辑类型对所述位置前后的短句进行编辑，并生成编辑后的句子的时间码；所述短句包括一个或多个词语。采用本申请中的方案，通过对音频做语音识别，实现对语音识别结果进行词语级的标识，使得音频与文本时间码同步，字幕文件具有词语的时码信息，从而实现对字幕文件进行词语级的自动编辑。

Description

一种字幕编辑方法、装置及计算机存储介质、电子设备

技术领域

本申请涉及节目制作技术，具体地，涉及一种字幕编辑方法、装置及计算机存储介质、电子设备。

背景技术

目前，在节目后期制作过程中，需要对节目上字幕。字幕生产过程需要对节目素材进行扒词、核对，再根据视频内容上字幕并调整，过程繁琐，存在大量重复劳动。

一般的字幕编辑工具，比如SrtEdit，Subtitle Edit，Aegisub等都可以编辑字幕内容和调整字幕时间。但是字幕时间的调整都是纯手工调整，且只能以句子为单位进行字幕编辑，在需要对某句话进行编辑时则无法自动编辑、只能人工调整并且在调整当前位置的词语之后需要人工将后续所有字幕的词语重新调整，比如：当需要将一句字幕拆分为两句、或者因为多字或者漏字的情况需要对字幕文字进行调整，调整后的字幕句子的开始和结束时间都会发生变化，由于每个节目的字幕量很庞大、节目的数量也很庞大，如此人工调整的工作量巨大。

现有技术中存在的问题：

目前只能以句子为单位编辑字幕，无法实现精确到词语级别的字幕编辑。

发明内容

本申请实施例中提供了一种字幕编辑方法、装置及计算机存储介质、电子设备，以解决现有技术存在的问题。

根据本申请实施例的第一个方面，提供了一种字幕编辑方法，包括：

确定用户对字幕文件的编辑请求；所述字幕文件为根据音频文件以及音频文件对应的文稿生成的包括每个词语的时间戳的字幕文件，所述编辑请求包括所述字幕文件中需要编辑的位置以及编辑类型；

根据所述需要编辑的位置以及编辑类型对所述位置前后的短句进行编辑，并生成编辑后的句子的时间码；所述短句包括一个或多个词语。

根据本申请实施例的第二个方面，提供了一种字幕编辑装置，包括：

请求模块，用于确定用户对字幕文件的编辑请求；所述字幕文件为根据音频文件以及音频文件对应的文稿生成的包括每个词语的时间戳的字幕文件，所述编辑请求包括所述字幕文件中需要编辑的位置以及编辑类型；

编辑模块，用于根据所述需要编辑的位置以及编辑类型对所述位置前后的短句进行编辑，并生成编辑后的句子的时间码；所述短句包括一个或多个词语。

根据本申请实施例的第三个方面，提供了一种计算机存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上所述字幕编辑方法的步骤。

根据本申请实施例的第四个方面，提供了电子设备，包括存储器、以及一个或多个处理器，所述存储器用于存储一个或多个程序；所述一个或多个程序被所述一个或多个处理器执行时，实现如上所述的字幕编辑方法。

采用本申请实施例中提供的字幕编辑方法、装置及计算机存储介质、电子设备，通过对音频做语音识别，实现对语音识别结果进行词语级的标识，使得音频与文本时间码同步，字幕文件具有词语的时码信息，从而实现对字幕文件进行词语级的自动编辑。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1示出了本申请实施例一中字幕编辑方法实施的流程示意图；

图2示出了本申请实施例二中字幕编辑装置的结构示意图；

图3示出了本申请实施例四中电子设备的结构示意图。

具体实施方式

针对现有技术存在的技术问题，本申请实施例中提供了一种字幕编辑方法、装置及计算机存储介质、电子设备，通过对音频做语音识别，实现电视节目字幕和语音内容自动匹配，使得音频与文本时间码同步，字幕文本具有时码信息，并实现对语音识别结果进行词语级的标识，从而实现对字幕时间码的自动调整。

本申请实施例中的方案可以采用各种计算机语言实现，例如，面向对象的程序设计语言Java和直译式脚本语言JavaScript等。

为了使本申请实施例中的技术方案及优点更加清楚明白，以下结合附图对本申请的示例性实施例进行进一步详细的说明，显然，所描述的实施例仅是本申请的一部分实施例，而不是所有实施例的穷举。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

实施例一

图1示出了本申请实施例一中字幕编辑方法实施的流程示意图。

如图所示，所述字幕编辑方法包括：

步骤101、确定用户对字幕文件的编辑请求；所述字幕文件为根据音频文件以及音频文件对应的文稿生成的包括每个词语的时间戳的字幕文件，所述编辑请求包括所述字幕文件中需要编辑的位置以及编辑类型；

步骤102、根据所述需要编辑的位置以及编辑类型对所述位置前后的短句进行编辑，并生成编辑后的句子的时间码；所述短句包括一个或多个词语。

在一种实施方式中，所述确定用户对字幕文件的编辑请求，根据用户在显示屏幕上对字幕文件的手势确定编辑请求。例如：用户在触摸显示屏幕上通过手指点击确定光标在字幕文件中的位置，通过长按该位置在显示屏幕上出现选择菜单，所述选择菜单中包括有编辑类型，用户可以通过点击选择确定对该需要编辑的位置的编辑类型。

在一种实施方式中，所述确定用户对字幕文件的编辑请求，根据用户通过鼠标等移动显示屏幕上的光标以及通过键盘等控制输入部件的按键确定编辑请求。例如：计算机接收鼠标的滚轮移动方向和速度，并根据鼠标滚轮的移动方向和速度确定鼠标在显示屏幕上的位置，在确定鼠标的被触动或按压时将光标置于当前所述鼠标所在位置，作为该需要编辑的位置，在键盘上的按键被触动或按压时根据被触动或按压的按键值确定编辑类型。

其中，本申请实施例中所述字幕文件为根据音频文件以及音频文件对应的文稿生成的包括每个词语的时间戳的字幕文件，即，在根据所述需要编辑的位置以及编辑类型对所述位置前后的短句进行编辑之前，本申请实施例预先根据节目的音频文件以及该节目的文稿生成了带有时间码信息的字幕文件，所述时间码信息包括每个词语的时间戳。每个词语的时间戳可以包括每个词语的起始位置时间戳、和/或每个词语的结束位置时间戳，例如：我爱祖国，爱这一词语的时间戳可以为发出ai这一音频片段前的时间、和/或发出ai这一音频片段之后的时间。

通常对字幕进行编辑时，所述需要编辑的位置处于所述字幕文件的中间位置，所述中间位置可以指除所述字幕文件首字符所在位置和尾字符所在位置之外的位置。由于所述需要编辑的位置处于所述字幕文件的中间位置，在所述需要编辑的位置之前、以及在所述需要编辑的位置之后，均包括一个或多个词语，本申请实施例中将所述一个或多个词语称为短句，包括：在所述需要编辑的位置之前的短句、以及在所述需要编辑的位置之后的短句。例如：对于字幕文件“我爱祖国”，假设所述需要编辑的位置是“我”之后，那么所述需要编辑的位置之前的短句为“我”、所述需要编辑的位置之后的短句为“爱祖国”；又如：假设所述需要编辑的位置是“爱”之后，那么所述需要编辑的位置之前的短句为“我爱”、所述需要编辑的位置之后的短句为“祖国”。

编辑后的句子可以是一个句子，也可以是两个句子，所述编辑后的句子的数量根据编辑类型确定。

采用本申请实施例中提供的字幕编辑方法，通过对音频做语音识别，实现对语音识别结果进行词语级的标识，使得音频与文本时间码同步，字幕文件具有词语的时码信息，从而实现对字幕文件进行词语级的自动编辑。

在一种实施方式中，所述字幕文件的生成过程，包括：

确定音频文件以及所述音频文件对应的文稿；

将所述音频文件以及所述音频文件对应的文稿输入至预先训练得到的语音识别深度神经网络模型；所述语音识别深度神经网络模型输出带有所述音频文件对应的文稿中每个词语的时间戳的字幕文件。

通常，在节目录制前会有所述节目的文稿，所述文稿通常可以包括节目名称、表演形式、表演者、以及按照时间先后顺序组织的具体节目内容。本申请实施例具体实施时，对于“节目名称”、“表演形式”、“表演者”等信息可能不会被录制声音，所以本申请实施例所述的音频文件可以仅对应于所述按照时间先后顺序组织的具体节目内容。

具体实施时，本申请实施例可以预先搜集大量样本，通过对大量样本进行训练，得到语音识别深度神经网络模型，在具体生成字幕文件时只需要将音频文件和该音频文件对应的文稿输入到该预先训练得到的语音识别深度神经网络模型，由所述语音识别深度神经网络模型自动输出带有所述音频文件对应的文稿中每个词语的时间戳的字幕文件。

采用预先训练语音识别深度神经网络模型并利用该语音识别深度神经网络模型来输出带有所述音频文件对应的文稿中每个词语的时间戳的字幕文件的方式，可以极大的加快字幕文件的生成效率，并且可复制性强，可以重复利用。

在一种实施方式中，所述语音识别深度神经网络模型输出带有所述音频文件对应的文稿中每个词语的时间戳的字幕文件，包括：

所述语音识别深度神经网络模型将所述音频文件的每帧语音识别成状态序列；

根据所述音频文件中每帧语音的状态序列得到多个音素；

根据所述多个音素生成一个或多个单词；

将所述一个或多个单词与每帧语音内容匹配，得到每个词语对应的语音片段在时间轴上的相对时间位置；

根据所述每个词语对应的语音片段在时间轴上的相对时间位置确定每个词语的时间戳。

具体实施时，本申请实施例可以将语音的每帧识别成状态，再将每帧语音对应的状态组合成音素，接着，再将多个音素组合成单词。

由于语音是一个连续的音频流，通常由大部分的稳定态和部分动态改变的状态混合构成。所述将音频文件的每帧语音识别成状态，可以利用现有技术中的维特比解码等技术对该音频文件进行解码，得到状态序列，所述状态序列可以对应有多个音素。

人类的语言通常包括语音、词汇和语法三部分要素，基本词汇和语法构造决定了每一种语言的基本面貌，本申请实施例侧重于语音的处理。语音可以理解为语言用声音表达出来的形式，即人说话时发出的声音。而声音包括响度、音调和音色三个基本属性，本申请实施例所述的音素可以理解为从音色的角度划分出来的最小的语音单位。

音素又可以根据在发音过程中气流是否受到阻碍被分为元音音素和辅音音素，例如：a、o、e等元音；b、p、f等辅音。

通常在汉语中，2～4个音素可以构成一个音节(例如：mei)，一个音节对应一个汉字(例如：美)，即，2～4个音素可以组成一个词语/单词(例如：m、e、i三个音素组成一个词语/单词“美”)。

音频文件通常是按照一个时间轴播放的，在得到所述一个或多个单词之后，可以将所述一个或多个单词与每帧语音内容匹配，得到每个词语对应的语音片段在所述音频文件的时间轴上的相对时间位置，从而根据所述每个词语对应的语音片段在时间轴上的相对时间位置确定每个词语的时间戳。

在一种实施方式中，所述编辑类型为断开，所述根据所述需要编辑的位置以及编辑类型对所述位置之前的第一短句以及所述位置之后的第二短句进行编辑，并生成编辑后的时间码，包括：

根据所述需要编辑的位置，确定所述位置前一词语对应的时间码以及所述位置后一词语对应的时间码，并将所述位置所在的句子拆分生成第一短句和第二短句；

根据所述位置前一词语对应的时间码生成所述第一短句的时间码，根据所述位置后一词语对应的时间码生成所述第二短句的时间码。

具体实施时，可以根据接收到的用户在键盘上触动或按压的按键的属性值确定编辑类型，具体的，当用户在确定需要编辑的位置后，在键盘上按下回车Enter键，回车Enter键的属性值为换行，因此，可以确定用户想要编辑的编辑类型为断开，即断开该位置前后的词语。

在确定编辑类型为断开时，可以首先根据所述需要编辑的位置，确定所述位置前一词语对应的时间码以及所述位置后一词语对应的时间码，并将所述位置所在的句子拆分生成第一短句和第二短句；然后，根据所述位置前一词语对应的时间码生成所述第一短句的时间码，根据所述位置后一词语对应的时间码生成所述第二短句的时间码。

其中，所述第一短句可以包括所述需要编辑的位置之前的多个词语，所述第一短句的时间码可以为所述需要编辑的位置之前的多个词语的时间码；所述第二短句可以包括所述需要编辑的位置之后的多个词语，所述第二短句的时间码可以为所述需要编辑的位置之后的多个词语的时间码。

具体实施时，所述第一短句的结束时间码可以和所述第二短句的起始时间码相同。

考虑到在每句话说完、或者需要重点强调等场景下，需要在断句之后进行停顿，本申请实施例还可以采用如下方式实施。

在一种实施方式中，所述根据所述位置后一词语对应的时间码生成所述第二短句的时间码，包括：

根据所述位置后一词语对应的时间码以及预设停顿时间，确定所述第二短句的起始时间以及所述第二短句内其他词语的时间码；

根据所述第二短句的起始时间以及所述第二短句内其他词语对应的时间码，确定所述第二短句的结束时间。

具体实施时，本申请实施例可以预先设置每个断句之后需要停顿的时间，在进行断句时，自动根据所述需要编辑位置的后一词语对应的时间码以及预设停顿时间，确定后面的第二短句的起始时间。

具体的，可以将所述需要编辑位置的后一词语对应的时间码与预设停顿时间进行求和，得到的时间值作为后面的第二短句的起始时间。

然后再根据确定的所述第二短句的起始时间以及所述第二短句内其他词语对应的时间码，确定所述第二短句的结束时间，即，同步调整第二短句的后续词语的时间码。

在一种实施方式中，所述编辑类型为合并，所述根据所述需要编辑的位置以及编辑类型对所述位置之前的第一短句以及所述位置之后的第二短句进行编辑，并生成编辑后的时间码，包括：

根据所述需要编辑的位置，确定所述位置前一词语所在的第一短句对应的时间码以及所述位置后一词语所在的第二短句对应的时间码，将所述第一短句和第二短句合并；

根据所述第一短句的起始时间码和所述第二短句的结束时间码生成所述合并后的句子的时间码。

具体实施时，可以根据接收到的用户在键盘上触动或按压的按键的属性值确定编辑类型，具体的，当用户在确定需要编辑的位置后，在键盘上按下backspace键或者delete键，backspace键的属性值为删除前一字符串，delete键的属性值为删除后一字符串，因此，可以确定用户想要编辑的编辑类型为合并，即将该位置前后的短句合并。

假设字幕文件如下：

00:08:01,340 00:08:01,680我们

00:08:01,680 00:08:03,052热爱自己的祖国

具体实施时，可以将需要编辑的位置确定为“们”后面，例如：

00:08:01,340 00:08:01,680我们|

00:08:01,680 00:08:03,052热爱自己的祖国

在需要合并上下两个短句时，可以用delete键将第一短句“我们”和第二短句“热爱自己的祖国”合并；

还可以将需要编辑的位置确定为“热”前面，例如：

00:08:01,340 00:08:01,680我们

00:08:01,680 00:08:03,052|热爱自己的祖国

在需要合并上下两个短句时，可以用Backspace键将第一短句“我们”和第二短句“热爱自己的祖国”合并。

在确定编辑类型为合并时，可以首先确定根据所述需要编辑的位置，确定所述位置前一词语所在的第一短句对应的时间码以及所述位置后一词语所在的第二短句对应的时间码，将所述第一短句和第二短句合并；然后根据所述第一短句的起始时间码和所述第二短句的结束时间码生成所述合并后的句子的时间码。

其中，所述第一短句可以包括所述需要编辑的位置之前的多个词语，所述第二短句可以包括所述需要编辑的位置之后的多个词语，所述合并后的句子的时间码的起始时间码可以为所述第一短句的起始时间码，所述合并后的句子的时间码的结束时间码可以为所述第二短句的结束时间码。

考虑到在每句话说完、或者需要重点强调等场景下，可能在第一短句和第二短句之间有停顿，本申请实施例还可以采用如下方式实施。

在一种实施方式中，所述根据所述第一短句的起始时间码和所述第二短句的结束时间码生成所述合并后的句子的时间码，包括：

将所述第一短句的起始时间码作为合并后的句子的起始时间码；

根据预设停顿时间调整所述第二短句内每个词语对应的时间码，并将调整后的所述第二短句的最后一个词语的时间码作为合并后的句子的结束时间码。

具体实施时，本申请实施例可以预先确定每个短句之间的停顿时间，在进行合并时，自动根据所述需要编辑位置的前一词语所在的第一短句的起始时间码作为合并后的句子的起始时间码；根据预先确定的停顿时间调整第二短句内每个词语对应的时间码，并将调整后的所述第二短句的最后一个词语的时间码作为合并后的句子的结束时间码。

具体的，可以将所述需要编辑位置的后一词语所在的第二短句的起始时间码与预设停顿时间进行求差，得到的时间值作为后面的第二短句的起始时间，并将所述第二短句内所有词语与预设停顿时间进行求差，得到调整后的第二短句的每个词语的时间码。

然后再根据确定的所述第二短句的起始时间以及调整后所述第二短句内各个词语对应的时间码，确定所述第二短句的结束时间，即，同步调整第二短句内所有词语的时间码。

在一种实施方式中，所述方法进一步包括：

在编辑完所述字幕文件之后，按照所述编辑后的字幕文件中每个短句对应的时间码输出所述编辑后的字幕文件中的短句。

具体实施时，在编辑完所述字幕文件后，可以按照该编辑后的字幕文件中每个短句对应的时间码，在计算机的显示屏幕上播出所述编辑后的字幕文件中的短句。

实施例二

基于同一发明构思，本申请实施例提供了一种字幕编辑装置，该装置解决技术问题的原理与一种字幕编辑方法相似，重复之处不再赘述。

图2示出了本申请实施例二中字幕编辑装置的结构示意图。

如图所示，所述字幕编辑装置包括：

请求模块201，用于确定用户对字幕文件的编辑请求；所述字幕文件为根据音频文件以及音频文件对应的文稿生成的包括每个词语的时间戳的字幕文件，所述编辑请求包括所述字幕文件中需要编辑的位置以及编辑类型；

编辑模块202，用于根据所述需要编辑的位置以及编辑类型对所述位置前后的短句进行编辑，并生成编辑后的句子的时间码；所述短句包括一个或多个词语。

采用本申请实施例中提供的字幕编辑装置，通过对音频做语音识别，实现对语音识别结果进行词语级的标识，使得音频与文本时间码同步，字幕文件具有词语的时码信息，从而实现对字幕文件进行词语级的自动编辑。

在一种实施方式中，所述装置进一步包括：

文件生成模块，用于确定音频文件以及所述音频文件对应的文稿；将所述音频文件以及所述音频文件对应的文稿输入至预先训练得到的语音识别深度神经网络模型；所述语音识别深度神经网络模型输出带有所述音频文件对应的文稿中每个词语的时间戳的字幕文件。

在一种实施方式中，所述文件生成模块，包括：

文件确定单元，用于确定音频文件以及所述音频文件对应的文稿；

状态识别单元，用于将所述音频文件的每帧语音识别成状态序列；

音素识别单元，用于根据所述音频文件中每帧语音的状态序列得到多个音素；

词语识别单元，用于根据所述多个音素生成一个或多个单词；

匹配单元，用于将所述一个或多个单词与每帧语音内容匹配，得到每个词语对应的语音片段在时间轴上的相对时间位置；

时间确定单元，用于根据所述每个词语对应的语音片段在时间轴上的相对时间位置确定每个词语的时间戳。

在一种实施方式中，所述编辑类型为断开，所述编辑模块，包括：

第一处理单元，用于根据所述需要编辑的位置，确定所述位置前一词语对应的时间码以及所述位置后一词语对应的时间码，并将所述位置所在的句子拆分生成第一短句和第二短句；

第一生成单元，用于根据所述位置前一词语对应的时间码生成所述第一短句的时间码，根据所述位置后一词语对应的时间码生成所述第二短句的时间码。

在一种实施方式中，所述第一生成单元，包括：

第一起始子单元，用于根据所述位置后一词语对应的时间码以及预设停顿时间，确定所述第二短句的起始时间以及所述第二短句内其他词语的时间码；

第一结束子单元，用于根据所述第二短句的起始时间以及所述第二短句内其他词语对应的时间码，确定所述第二短句的结束时间。

在一种实施方式中，所述编辑类型为合并，所述编辑模块，包括：

第二处理单元，用于根据所述需要编辑的位置，确定所述位置前一词语所在的第一短句对应的时间码以及所述位置后一词语所在的第二短句对应的时间码，将所述第一短句和第二短句合并；

第二生成单元，用于根据所述第一短句的起始时间码和所述第二短句的结束时间码生成所述合并后的句子的时间码。

在一种实施方式中，所述第二生成单元，包括：

第二起始子单元，用于将所述第一短句的起始时间码作为合并后的句子的起始时间码；

第二结束子单元，用于根据预设停顿时间调整所述第二短句内每个词语对应的时间码，并将调整后的所述第二短句的最后一个词语的时间码作为合并后的句子的结束时间码。

在一种实施方式中，所述装置进一步包括：

字幕输出模块，用于在编辑完所述字幕文件之后，按照所述编辑后的字幕文件中每个短句对应的时间码输出所述编辑后的字幕文件中的短句。

实施例三

基于同一发明构思，本申请实施例还提供一种计算机存储介质，下面进行说明。

所述计算机存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如实施例一所述字幕编辑方法的步骤。

采用本申请实施例中提供的计算机存储介质，通过对音频做语音识别，实现对语音识别结果进行词语级的标识，使得音频与文本时间码同步，字幕文件具有词语的时码信息，从而实现对字幕文件进行词语级的自动编辑。

实施例四

基于同一发明构思，本申请实施例还提供一种电子设备，下面进行说明。

图3示出了本申请实施例四中电子设备的结构示意图。

如图所示，所述电子设备包括存储器301、以及一个或多个处理器302，所述存储器用于存储一个或多个程序；所述一个或多个程序被所述一个或多个处理器执行时，实现如实施例一所述的字幕编辑方法。

采用本申请实施例中提供的电子设备，通过对音频做语音识别，实现对语音识别结果进行词语级的标识，使得音频与文本时间码同步，字幕文件具有词语的时码信息，从而实现对字幕文件进行词语级的自动编辑。

实施例五

为了便于本申请的实施，本申请实施例以一具体实例进行说明。

假设文稿内容为“应对国内外各种风险和考验”，音频文件对应的字幕内容为：

00:01:01,930 00:01:06,080应对国内外各种风险和考验

本申请实施例首先将上述文稿及音频文件经语音识别深度神经网络模型输出，得到以下带有每个词语时间戳的字幕文件(时码/时间码以毫秒为单位)：

文字内容：|应对|国内外|各种|风险|和|考验|

时码：1930 2695 3860 4492 5126 5443 6080

在进行断句调整操作时，本申请实施例可以根据字幕编辑人员的断句调整自动调整字幕的时码，具体如下：

假设调整前：

00:01:01,930 00:01:06,080应对国内外各种风险和考验

字幕编辑人员可以将光标放在想要断开的位置，例如“外”字之后，按下回车Enter键，本申请实施例自动断句，调整后如下：

00:01:01,930 00:01:03,860应对国内外

00:01:03,860 00:01:06,080各种风险和考验

假设根据电视显示长度，经上述调整后的短句长度仍然不满足电视显示字幕的长度要求，可以继续断句，例如字幕编辑人员可以将光标放在“对”字后面，按下回车Enter键，本申请实施例自动断句，继续调整后：

00:01:01,930 00:01:02,295应对

00:01:02,295 00:01:03,860国内外

00:01:03,860 00:01:06,080各种风险和考验

在进行合并调整操作时，本申请实施例可以根据字幕编辑人员的调整自动调整字幕的时码，具体如下：

假设调整前：

00:01:01,930 00:01:02,295应对国内外

00:01:03,860 00:01:06,080各种风险和考验

字幕编辑人员想让上下两个短句置于同一行显示，可以将光标放在“外”字之后，按下回车Delete键，本申请实施例自动将下一短句“各种风险和考验”上移至“外”字之后，或者，将光标放在“各”字之前，按下Backespace键，本申请实施例自动将下一短句“各种风险和考验”上移至“外”字之后。调整后如下所示：

00:01:01,930 00:01:06,080应对国内外各种风险和考验

最后，本申请实施例可以根据调整后的结果输出srt+txt字幕文件。

本申请实施例为了解决字幕文本调整的过程中，能够高效的实现每句字幕文本对应的时码自动调整，在对音频做语音识别的过程中，对语音的时码信息进行词语时码标注。也就是时间信息精确到字幕文本的每一个词，在对字幕文本句子进行拆分、合并等操作时，可以实现字幕文本时间码的自动调整，极大的提高了字幕编辑调整的效率。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种字幕编辑方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述字幕文件的生成过程，包括：

确定音频文件以及所述音频文件对应的文稿；

3.根据权利要求2所述的方法，其特征在于，所述语音识别深度神经网络模型输出带有所述音频文件对应的文稿中每个词语的时间戳的字幕文件，包括：

根据所述音频文件中每帧语音的状态序列得到多个音素；

根据所述多个音素生成一个或多个单词；

4.根据权利要求1所述的方法，其特征在于，所述编辑类型为断开，所述根据所述需要编辑的位置以及编辑类型对所述位置之前的第一短句以及所述位置之后的第二短句进行编辑，并生成编辑后的时间码，包括：

5.根据权利要求4所述的方法，其特征在于，所述根据所述位置后一词语对应的时间码生成所述第二短句的时间码，包括：

6.根据权利要求1所述的方法，其特征在于，所述编辑类型为合并，所述根据所述需要编辑的位置以及编辑类型对所述位置之前的第一短句以及所述位置之后的第二短句进行编辑，并生成编辑后的时间码，包括：

7.根据权利要求6所述的方法，其特征在于，所述根据所述第一短句的起始时间码和所述第二短句的结束时间码生成所述合并后的句子的时间码，包括：

8.根据权利要求1所述的方法，其特征在于，进一步包括：

9.一种字幕编辑装置，其特征在于，包括：

10.根据权利要求9所述的装置，其特征在于，进一步包括：

11.根据权利要求10所述的装置，其特征在于，所述文件生成模块，包括：

12.根据权利要求9所述的装置，其特征在于，所述编辑类型为断开，所述编辑模块，包括：

13.根据权利要求12所述的装置，其特征在于，所述第一生成单元，包括：

第一起始子单元，用于根据所述位置后一词语对应的时间码以及预设停顿时间，确定所述第二短句的起始时间；

14.根据权利要求9所述的装置，其特征在于，所述编辑类型为合并，所述编辑模块，包括：

15.根据权利要求14所述的装置，其特征在于，所述第二生成单元，包括：

16.根据权利要求9所述的装置，其特征在于，进一步包括：

17.一种计算机存储介质，其特征在于，其上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至8任一所述方法的步骤。

18.一种电子设备，其特征在于，包括存储器、以及一个或多个处理器，所述存储器用于存储一个或多个程序；所述一个或多个程序被所述一个或多个处理器执行时，实现如权利要求1至8任一所述的方法。