CN110740275A

CN110740275A - 一种非线性编辑系统

Info

Publication number: CN110740275A
Application number: CN201911046030.5A
Authority: CN
Inventors: 张歆; 崔建伟; 蔡贺; 黄建新; 黄伟峰; 朱米春; 杜伟; 王一韩; 闫磊; 钱岳
Original assignee: Central Platform
Current assignee: Central Platform
Priority date: 2019-10-30
Filing date: 2019-10-30
Publication date: 2020-01-31
Anticipated expiration: 2039-10-30
Also published as: CN110740275B

Abstract

一种非线性编辑系统，包括：非线性编辑主机和显示器，所述非线性编辑主机包括：资源管理器，用于确定需要编辑的音频文件；素材管理模块，用于发起所述音频文件的语音转写任务；语音转写模块，用于将所述音频文件转写为带有时间码信息的字幕文件；显示器，用于将所述带有时间码信息的字幕文件显示于所述显示器的屏幕上；时间线编辑模块，用于响应于用户对所述显示器屏幕的操作对所述字幕文件进行编辑。采用本申请中的方案，通过将智能语音技术与传统非线性编辑系统的功能进行融合，可以实现在非线性编辑系统中自动化生产节目字幕的一系列操作，字幕生产效率极大提升，简化了视频节目制作流程、提高了节目制作效率。

Description

一种非线性编辑系统

技术领域

本申请涉及节目制作技术，具体地，涉及一种非线性编辑系统。

背景技术

目前电视台节目的后期制作过程中，需要对节目生成相应的字幕，字幕的生产过程中需要对节目进行扒词、核对，再根据视频内容上字幕并调整，过程繁琐并存在大量重复劳动。

使用传统的非线性编辑系统(或简称非编系统)，字幕生产流程为如下步骤：

步骤1：对节目内容进行人工听写，记录字幕文字；

步骤2：人工对文件内容进行校稿，和语音内容重新核对，生成字幕文件，导入非编；

步骤3：人工在非线性编辑系统中按照时间拍唱词，将字幕文字与语音的时间对齐；

步骤4：人工在非线性编辑系统中对唱词人工检查，确认最终版本。

在上述过程中，人工听写、校稿、拍唱词等环节，要求人的精神高度集中，工作强度很大。一般来说数倍于节目的时间才完成字幕生产工作。

现有技术中存在的问题：

现有的非线性编辑系统无法自动生成字幕文件。

发明内容

本申请实施例中提供了一种非线性编辑系统，以解决上述技术问题。

本申请实施例提高了一种非线性编辑系统，包括：非线性编辑主机和显示器，其中，所述非线性编辑主机包括：

资源管理器，用于确定需要编辑的音频文件；

素材管理模块，用于发起所述音频文件的语音转写任务；

语音转写模块，用于将所述音频文件转写为带有时间码信息的字幕文件；

显示器，用于将所述带有时间码信息的字幕文件显示于所述显示器的屏幕上；

时间线编辑模块，用于响应于用户对所述显示器屏幕的操作对所述字幕文件进行编辑。

采用本申请实施例中提供的非线性编辑系统，通过将智能语音技术与传统非线性编辑系统的功能进行融合，可以实现在非线性编辑系统中自动化生产节目字幕的一系列操作，字幕生产效率极大提升，简化了视频节目制作流程、提高了节目制作效率。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1示出了本申请实施例一中非线性编辑系统的结构示意图。

具体实施方式

在实现本申请的过程中，发明人发现：

传统的非线性编辑系统仅包括素材的管理、时间线编辑、播放器、特技处理、打包渲染等模块，无法实现自动生产字幕，需要人工生成字幕文件后再导入非编系统中进行人工剪辑、时间线处理等操作，制作效率极低。

针对上述问题，本申请实施例中提供了一种非线性编辑系统，通过研究智能语音技术，将智能语音技术与传统的非线性编辑系统的功能进行融合，在传统非线性编辑系统的基础上，增加了后台的语音转写模块，对现有的素材管理模块进行了改造，使得素材管理模块可以发起语音转写任务以及支持打入出点的转写，此外，对现有的时间线编辑模块也进行了改造，使其支持自动获取语音转写后的字幕结果并显示到时间线上且支持人工编辑调整，通过这些改进实现了自动化的节目字幕生产的非线性编辑系统，简化了视频节目制作的流程，提高了节目制作的效率。

本申请实施例中的方案可以采用各种计算机语言实现，例如，面向对象的程序设计语言Java和直译式脚本语言JavaScript等。

为了使本申请实施例中的技术方案及优点更加清楚明白，以下结合附图对本申请的示例性实施例进行进一步详细的说明，显然，所描述的实施例仅是本申请的一部分实施例，而不是所有实施例的穷举。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

实施例一

图1示出了本申请实施例一中非线性编辑系统的结构示意图。

如图所示，所述非线性编辑系统包括：非线性编辑主机10和显示器20，所述非线性编辑主机包括：资源管理器101、素材管理模块102、语音转写模块103和时间线编辑模块104，其中，

资源管理器101，用于确定需要编辑的音频文件；

素材管理模块102，用于发起所述音频文件的语音转写任务；

语音转写模块103，用于将所述音频文件转写为带有时间码信息的字幕文件；

显示器20，用于将所述带有时间码信息的字幕文件显示于所述显示器的屏幕上；

时间线编辑模块104，用于响应于用户对所述显示器屏幕的操作对所述字幕文件进行编辑。

具体实施时，所述的主机可以为计算机除输入输出设备之外的机体部分，通常可以包括CPU、内存、硬盘、电源等部件。本申请实施例所述非线性编辑主机可以包括资源管理器、素材管理模块、语音转写模块和时间线编辑模块，这些模块可以为由CPU控制执行的虚拟模块，也可以为单独硬件实现的功能模块。

资源管理器可以用来查看所述非线性编辑主机中存储的所有资源，包括文件和文件夹等，本申请实施例可以通过资源管理器确定需要编辑的音频文件，具体的，节目制作人员可以从所述非线性编辑主机中存储的若干文件中挑选出节目制作所需要进行编辑的节目对应的音频文件。

该音频文件可以包括有音频文件的编号ID、名称、若干音频帧等。所述音频文件的格式可以包括Wave(例如后缀为.WAV)、Audio(例如后缀为.AU)、mpeg(例如后缀为.MP1)等。

本申请实施例对传统的非线性编辑系统中的素材管理模块进行了改进，使得所述素材管理模块具备发起语音转写任务的功能。所述素材管理模块在资源管理器确定需要编辑的音频文件后可以被触发，生成所述音频文件的语音转写任务。具体的，所述语音转写任务可以包括所述语音转写的音频文件标识、所述音频文件的语音转写任务标识、语音转写的任务内容以及语音转写任务的执行模块等。

本申请实施例在传统的非线性编辑系统的基础上增加了后台的语音转写模块，在所述素材管理模块发起语音转写任务之后，所述语音转写模块可以执行对所述音频文件进行语音转写的操作，具体的，将所述音频文件转写为带有时间码信息的字幕文件。

显示器可以将生成的带有时间码信息的字幕文件显示于所述显示器的屏幕上，本申请实施例对传统的非线性编辑系统中的时间线编辑模块进行了改进，本申请实施例中的时间线编辑模块可以自动获取语音转写后的字幕文件，并将其显示到时间线上，并支持人工编辑调整。具体的，可以响应于用户对所述显示器屏幕的操作对所述字幕文件进行编辑。例如：节目制作人员通过手指触摸屏幕或者通过输入设备对所述显示器屏幕上的字幕文件进行操作，时间线编辑模块响应于用户的这些操作可以对所述字幕文件进行相应的编辑。

在一种实施方式中，所述素材管理模块，包括：

打点单元，用于响应于用户对时间线或故事板上素材的操作对所述音频文件进行打点；

确定单元，用于根据打点情况确定所述音频文件的部分片段；

发起任务单元，用于对所述音频文件的部分片段发起语音转写任务。

具体实施时，本申请实施例的打点单元用于响应于用户对时间线或故事板上素材的操作对所述音频文件进行打点，所述打点可以指在时间线上打上标记点(或称时间点)，确定单元可以根据打点情况确定所述音频文件的部分音频片段。例如：节目的音频文件的音频时间很长，制作人员可能仅需要其中的一段音频进行编辑，此时，制作人员可以在音频文件的想要进行编辑的音频片段的时间点位置进行标记(即打点)，具体的，假设在00,00,04,21处和00,00,09,38处进行打点后，本申请实施例即可确定对00,00,04,21～00,00,09,38这一时间段内的音频片段发起语音转写任务。

本申请实施例可以通过在非线性编辑系统中对音频文件进行打点的功能实现对音频文件的部分片段发起语音转写任务，从而使得节目制作或字幕编辑工作更加灵活，提升了用户体验。

在一种实施方式中，所述语音转写模块，包括：

输入单元，用于将所述音频文件输入至预先训练得到的语音识别深度神经网络模型；

转写单元，用于利用所述语音识别深度神经网络模型输出带有所述音频文件对应的文稿中每个词语的时间戳的字幕文件。

具体实施时，本申请实施例可以预先搜集大量样本，通过对大量样本进行训练，得到语音识别深度神经网络模型，在具体生成字幕文件时只需要将音频文件输入到该预先训练得到的语音识别深度神经网络模型，由所述语音识别深度神经网络模型自动输出带有所述音频文件对应的文稿中每个词语的时间戳的字幕文件。

采用预先训练语音识别深度神经网络模型并利用该语音识别深度神经网络模型来输出带有所述音频文件对应的文稿中每个词语的时间戳的字幕文件的方式，可以极大的加快字幕文件的生成效率，并且可复制性强，可以重复利用。

在一种实施方式中，所述转写单元，包括：

第一处理子单元，用于利用预先训练得到的语音识别深度神经网络模型将所述音频文件的每帧语音识别成状态序列；

第二处理子单元，用于根据所述音频文件中每帧语音的状态序列得到多个音素；

第三处理子单元，用于根据所述多个音素生成一个或多个单词；

第四处理子单元，用于将所述一个或多个单词与每帧语音内容匹配，得到每个词语对应的语音片段在时间轴上的相对时间位置；

第五处理子单元，用于根据所述每个词语对应的语音片段在时间轴上的相对时间位置确定每个词语的时间戳。

具体实施时，本申请实施例可以将语音的每帧识别成状态(或称状态序列)，再将每帧语音对应的状态组合成音素，接着，再将多个音素组合成单词。

由于语音是一个连续的音频流，通常由大部分的稳定态和部分动态改变的状态混合构成。所述将音频文件的每帧语音识别成状态(或状态序列)，可以利用现有技术中的维特比解码等技术对该音频文件进行解码，得到状态序列，所述状态序列可以对应有多个音素。

人类的语言通常包括语音、词汇和语法三部分要素，基本词汇和语法构造决定了每一种语言的基本面貌，本申请实施例侧重于语音的处理。语音可以理解为语言用声音表达出来的形式，即人说话时发出的声音。而声音包括响度、音调和音色三个基本属性，本申请实施例所述的音素可以理解为从音色的角度划分出来的最小的语音单位。

音素又可以根据在发音过程中气流是否受到阻碍被分为元音音素和辅音音素，例如：a、o、e等元音；b、p、f等辅音。

通常在汉语中，2～4个音素可以构成一个音节(例如：mei)，一个音节对应一个汉字(例如：美)，即，2～4个音素可以组成一个词语/单词(例如：m、e、i三个音素组成一个词语/单词“美”)。

音频文件通常是按照一个时间轴播放的，在得到所述一个或多个单词之后，可以将所述一个或多个单词与每帧语音内容匹配，得到每个词语对应的语音片段在所述音频文件的时间轴上的相对时间位置，从而根据所述每个词语对应的语音片段在时间轴上的相对时间位置确定每个词语的时间戳。

为了进一步提高语音转写或语音识别的准确度，本申请实施例还可以采用如下方式实施。

在一种实施方式中，所述预先训练得到的语音识别深度神经网络模型包括根据不同的节目类型划分的音频文件进行分别训练得到的多个语音识别子模型；所述转写单元进一步包括：

节目类型确定子单元，用于在所述将音频文件输入至预先训练得到的语音识别深度神经网络模型之前，确定所述音频文件对应的节目类型；

模型匹配子单元，用于根据所述音频文件对应的节目类型确定所述语音识别深度神经网络模型中用于对所述音频文件进行处理的语音识别子模型。

具体实施时，由于不同的节目类型可能因为相应的专业术语不同等原因的存在导致语音识别的效果较差，例如：假设语音识别深度神经网络模型在训练时采用的样本多为经济类型的节目数据，那么在具体语音转写时若所述音频文件为军事类型的节目，那么语音转写的效果将会不理想，转写得到的结果可能存在错误较多等问题。

本申请实施例为了解决上述技术问题，根据节目类型不同将所有节目的音频文件、视频文件等进行了归类，按照节目类型的不同划分为多个类型，将每个类型下的音视频文件作为样本进行单独的训练，从而得到针对每个节目类型的语音识别子模型，在具体实施时，可以先确定所述音频文件的节目类型，然后将所述音频文件输入至该节目类型对应的语音识别深度神经网络模型中，从而可以确保输出的识别结果准确度较高。

在一种实施方式中，所述非线性编辑主机进一步包括：

断句模块，用于对所述带有时间码信息的字幕文件进行断句，得到包括多个断开的短句的字幕文件；每个短句带有该短句对应的时间码信息。

具体实施时，本申请实施例所述的断句模块可以自动对输出的带有时间码信息的字幕文件进行断句，不需要人工编辑或请求断句，得到包括多个断开的短句的字幕文件。

具体的，每个短句带有该短句对应的时间码信息。例如：

假设输出的字幕文件为：00,00,22,03 00,00,23,01“啊大海啊”；

本申请实施例断句模块自动将其断句，得到：

00,00,22,03 00,00,22,05“啊”；

00,00,22,05 00,00,23,01“大海啊”。

由上可以看出，本申请实施例不仅可以实现自动断句，还可以实现断句后自动生成每个短句的时间码信息。

在一种实施方式中，所述断句模块，包括：

字数限定单元，用于确定电视屏幕每行字幕的字数限制要求；

语义特征确定单元，用于根据音频文件确定所述音频文件中每个音频片段的语义特征；

断句单元，用于根据所述字数限制要求和所述语义特征确定所述字幕文件中需要断开的位置。

具体实施时，本申请实施例所述的断句模块包括字数限定单元和语义特征确定单元，分别用来确定电视屏幕每行字幕的字数限制要求、以及确定所述音频文件中每个音频片段的语义特征，所述断句单元将所述字数限制要求和所述语义特征结合起来，进而确定所述字幕文件中需要断开的位置。

例如：假设输出的字幕文件为：

00,00,22,50 00,00,26,08“只要努力学习，没有人会嘲笑一个为工作而拼尽全力的人”；

假设根据语义特征可以将该字幕文件进行断句，得到：

00,00,22,50 00,00,23,16“只要努力学习”；

00,00,23,16 00,00,26,08“没有人会嘲笑一个为工作而拼尽全力的人”；

假设电视屏幕每行字幕的字数限制要求为12个字，那么，结合语义特征，进一步断句，确定断开位置为“笑”之后，最终可以得到：

00,00,22,50 00,00,23,16“只要努力学习”；

00,00,23,16 00,00,24,09“没有人会嘲笑”；

00,00,24,09 00,00,26,08“一个为工作而拼尽全力的人”；

可以看出，本申请实施例综合考虑了语义特征和字数限制，将“没有人会嘲笑一个为工作而拼尽全力的人”断句为“没有人会嘲笑”和“一个为工作而拼尽全力的人”两个短句，并自动携带每个短句相应的时间码信息。

在一种实施方式中，所述时间线编辑模块，包括：

请求单元，用于确定用户对字幕文件的编辑请求；所述字幕文件为根据音频文件以及音频文件对应的文稿生成的包括每个词语的时间戳的字幕文件，所述编辑请求包括所述字幕文件中需要编辑的位置以及编辑类型；

编辑单元，用于根据所述需要编辑的位置以及编辑类型对所述位置前后的短句进行编辑，并生成编辑后的句子的时间码；所述短句包括一个或多个词语。

在一种实施方式中，所述确定用户对字幕文件的编辑请求，根据用户在显示屏幕上对字幕文件的手势确定编辑请求。例如：用户在触摸显示屏幕上通过手指点击确定光标在字幕文件中的位置，通过长按该位置在显示屏幕上出现选择菜单，所述选择菜单中包括有编辑类型，用户可以通过点击选择确定对该需要编辑的位置的编辑类型。

在一种实施方式中，所述确定用户对字幕文件的编辑请求，根据用户通过鼠标等移动显示屏幕上的光标以及通过键盘等控制输入部件的按键确定编辑请求。例如：计算机接收鼠标的滚轮移动方向和速度，并根据鼠标滚轮的移动方向和速度确定鼠标在显示屏幕上的位置，在确定鼠标的被触动或按压时将光标置于当前所述鼠标所在位置，作为该需要编辑的位置，在键盘上的按键被触动或按压时根据被触动或按压的按键值确定编辑类型。

其中，本申请实施例中所述字幕文件为根据音频文件以及音频文件对应的文稿生成的包括每个词语的时间戳的字幕文件，即，在根据所述需要编辑的位置以及编辑类型对所述位置前后的短句进行编辑之前，本申请实施例预先根据节目的音频文件以及该节目的文稿生成了带有时间码信息的字幕文件，所述时间码信息包括每个词语的时间戳。每个词语的时间戳可以包括每个词语的起始位置时间戳、和/或每个词语的结束位置时间戳，例如：我爱祖国，爱这一词语的时间戳可以为发出ai这一音频片段前的时间、和/或发出ai这一音频片段之后的时间。

通常对字幕进行编辑时，所述需要编辑的位置处于所述字幕文件的中间位置，所述中间位置可以指除所述字幕文件首字符所在位置和尾字符所在位置之外的位置。由于所述需要编辑的位置处于所述字幕文件的中间位置，在所述需要编辑的位置之前、以及在所述需要编辑的位置之后，均包括一个或多个词语，本申请实施例中将所述一个或多个词语称为短句，包括：在所述需要编辑的位置之前的短句、以及在所述需要编辑的位置之后的短句。例如：对于字幕文件“我爱祖国”，假设所述需要编辑的位置是“我”之后，那么所述需要编辑的位置之前的短句为“我”、所述需要编辑的位置之后的短句为“爱祖国”；又如：假设所述需要编辑的位置是“爱”之后，那么所述需要编辑的位置之前的短句为“我爱”、所述需要编辑的位置之后的短句为“祖国”。

编辑后的句子可以是一个句子，也可以是两个句子，所述编辑后的句子的数量根据编辑类型确定。

采用本申请实施例中提供的编辑方法，通过对音频做语音识别，实现对语音识别结果进行词语级的标识，使得音频与文本时间码同步，字幕文件具有词语的时码信息，从而实现对字幕文件进行词语级的自动编辑。

在一种实施方式中，所述编辑类型为断开，所述编辑单元，包括：

第一处理子单元，用于根据所述需要编辑的位置，确定所述位置前一词语对应的时间码以及所述位置后一词语对应的时间码，并将所述位置所在的句子拆分生成第一短句和第二短句；

第一生成子单元，用于根据所述位置前一词语对应的时间码生成所述第一短句的时间码，根据所述位置后一词语对应的时间码生成所述第二短句的时间码。

具体实施时，可以根据接收到的用户在键盘上触动或按压的按键的属性值确定编辑类型，具体的，当用户在确定需要编辑的位置后，在键盘上按下回车Enter键，回车Enter键的属性值为换行，因此，可以确定用户想要编辑的编辑类型为断开，即断开该位置前后的词语。

在确定编辑类型为断开时，可以首先根据所述需要编辑的位置，确定所述位置前一词语对应的时间码以及所述位置后一词语对应的时间码，并将所述位置所在的句子拆分生成第一短句和第二短句；然后，根据所述位置前一词语对应的时间码生成所述第一短句的时间码，根据所述位置后一词语对应的时间码生成所述第二短句的时间码。

其中，所述第一短句可以包括所述需要编辑的位置之前的多个词语，所述第一短句的时间码可以为所述需要编辑的位置之前的多个词语的时间码；所述第二短句可以包括所述需要编辑的位置之后的多个词语，所述第二短句的时间码可以为所述需要编辑的位置之后的多个词语的时间码。

具体实施时，所述第一短句的结束时间码可以和所述第二短句的起始时间码相同。

考虑到在每句话说完、或者需要重点强调等场景下，需要在断句之后进行停顿，本申请实施例还可以采用如下方式实施。

在一种实施方式中，所述根据所述位置后一词语对应的时间码生成所述第二短句的时间码，包括：

根据所述位置后一词语对应的时间码以及预设停顿时间，确定所述第二短句的起始时间以及所述第二短句内其他词语的时间码；

根据所述第二短句的起始时间以及所述第二短句内其他词语对应的时间码，确定所述第二短句的结束时间。

具体实施时，本申请实施例可以预先设置每个断句之后需要停顿的时间，在进行断句时，自动根据所述需要编辑位置的后一词语对应的时间码以及预设停顿时间，确定后面的第二短句的起始时间。

具体的，可以将所述需要编辑位置的后一词语对应的时间码与预设停顿时间进行求和，得到的时间值作为后面的第二短句的起始时间。

然后再根据确定的所述第二短句的起始时间以及所述第二短句内其他词语对应的时间码，确定所述第二短句的结束时间，即，同步调整第二短句的后续词语的时间码。

在一种实施方式中，所述编辑类型为合并，所述编辑单元，包括：

第二处理子单元，用于根据所述需要编辑的位置，确定所述位置前一词语所在的第一短句对应的时间码以及所述位置后一词语所在的第二短句对应的时间码，将所述第一短句和第二短句合并；

第二生成子单元，用于根据所述第一短句的起始时间码和所述第二短句的结束时间码生成所述合并后的句子的时间码。

具体实施时，可以根据接收到的用户在键盘上触动或按压的按键的属性值确定编辑类型，具体的，当用户在确定需要编辑的位置后，在键盘上按下backspace键或者delete键，backspace键的属性值为删除前一字符串，delete键的属性值为删除后一字符串，因此，可以确定用户想要编辑的编辑类型为合并，即将该位置前后的短句合并。

假设字幕文件如下：

00:08:01,340 00:08:01,680我们

00:08:01,680 00:08:03,052热爱自己的祖国

具体实施时，可以将需要编辑的位置确定为“们”后面，例如：

00:08:01,340 00:08:01,680我们|

00:08:01,680 00:08:03,052热爱自己的祖国

在需要合并上下两个短句时，可以用delete键将第一短句“我们”和第二短句“热爱自己的祖国”合并；

还可以将需要编辑的位置确定为“热”前面，例如：

00:08:01,340 00:08:01,680我们

00:08:01,680 00:08:03,052|热爱自己的祖国

在需要合并上下两个短句时，可以用Backspace键将第一短句“我们”和第二短句“热爱自己的祖国”合并。

在确定编辑类型为合并时，可以首先确定根据所述需要编辑的位置，确定所述位置前一词语所在的第一短句对应的时间码以及所述位置后一词语所在的第二短句对应的时间码，将所述第一短句和第二短句合并；然后根据所述第一短句的起始时间码和所述第二短句的结束时间码生成所述合并后的句子的时间码。

其中，所述第一短句可以包括所述需要编辑的位置之前的多个词语，所述第二短句可以包括所述需要编辑的位置之后的多个词语，所述合并后的句子的时间码的起始时间码可以为所述第一短句的起始时间码，所述合并后的句子的时间码的结束时间码可以为所述第二短句的结束时间码。

考虑到在每句话说完、或者需要重点强调等场景下，可能在第一短句和第二短句之间有停顿，本申请实施例还可以采用如下方式实施。

在一种实施方式中，所述根据所述第一短句的起始时间码和所述第二短句的结束时间码生成所述合并后的句子的时间码，包括：

将所述第一短句的起始时间码作为合并后的句子的起始时间码；

根据预设停顿时间调整所述第二短句内每个词语对应的时间码，并将调整后的所述第二短句的最后一个词语的时间码作为合并后的句子的结束时间码。

具体实施时，本申请实施例可以预先确定每个短句之间的停顿时间，在进行合并时，自动根据所述需要编辑位置的前一词语所在的第一短句的起始时间码作为合并后的句子的起始时间码；根据预先确定的停顿时间调整第二短句内每个词语对应的时间码，并将调整后的所述第二短句的最后一个词语的时间码作为合并后的句子的结束时间码。

具体的，可以将所述需要编辑位置的后一词语所在的第二短句的起始时间码与预设停顿时间进行求差，得到的时间值作为后面的第二短句的起始时间，并将所述第二短句内所有词语与预设停顿时间进行求差，得到调整后的第二短句的每个词语的时间码。

然后再根据确定的所述第二短句的起始时间以及调整后所述第二短句内各个词语对应的时间码，确定所述第二短句的结束时间，即，同步调整第二短句内所有词语的时间码。

在一种实施方式中，所述非线性编辑系统进一步包括：

音箱，用于在编辑完所述字幕文件之后，按照所述编辑后的字幕文件中每个短句对应的时间码输出所述编辑后的字幕文件中的短句的音频片段。

具体实施时，在编辑完所述字幕文件后，可以按照该编辑后的字幕文件中每个短句对应的时间码，通过音箱播出所述编辑后的字幕文件中的每个短句对应的音频片段。

实施例二

为了便于本申请的实施，本申请实施例以一具体实例进行说明。

本申请实施例提供了一种非线性编辑系统，包括主机、两个显示器、键盘、鼠标、音频卡、视频卡、硬件编解码器、硬件合成器等部件。

步骤1、在非线性编辑系统中，节目制作人员可以发起对节目的音频文件进行智能语音转写，自动生成带时码的字幕文件。

具体的，节目制作人员可以通过非线性编辑系统的资源管理器选择需要进行语音转写的素材(音频文件)，发起提交语音转写，也可以通过素材所在的时间线或故事板发起语音转写，还可以在时间线或者故事板上对素材进行打点，只对某个片段发起语音转写。

节目制作人员还可以选择不同的节目类型，从而提高语音转写或语音识别的准确率。例如：本申请实施例所述的非线性编辑系统可以支持娱乐、体育、军事、经济等节目类型，预先对各个节目类型的数据进行了训练，分别训练得到的多个语音识别子模型，再通过对各个语音识别子模型进行多轮迭代训练，使得优化调整后的模型适合更多的特定场景类型的音频，从而提高模型在这些场景上的识别效果。

本申请实施例通过后台语音引擎的语音转写技术，可以直接将语音转写为字幕文件，字幕文件自动带有时码信息，通过提取音频段的频谱特征，并根据特征训练对应的发音状态，最终结合语言模型生成对应的文字。

在语音转写得到文字的过程中可以自动进行了断句。考虑到广电字幕上屏有字数限制(一般不超过14～16个字)，本申请实施例将语义特征以及字数限制要求进行结合实现短句。语义特征具体可以通过现有的模型训练的方法实现，具体的，可以利用标注好的数据中的断句信息(包括断句的具体位置、分词类型等)，通过标注的断句位置获取每个词后判断是否适合断句，并将该信息输入断句训练引擎作为训练数据，训练引擎输出结合了语义特征的断句模型。

这个步骤替代了传统流程中人工听写的环节。如果采用人工听写则需要几倍于节目的时长，而使用本申请实施例的语音转写技术可以达到几十倍速的效率。这个步骤还替代了传统流程中的人工拍唱词环节，人工拍唱词是为了给字幕中的每句文字赋予时间码信息，而本申请实施例通过语音转写技术，自动为每句话都加上了时码信息。

步骤2、在非线性编辑系统中对字幕文字进行校稿，修改识别错误的文字、或者进行断句调整。

由于语音转写是通过训练神经网络识别模型，识别准确性可能会受到一些因素的影响、无法做到完全准确，所以可能还需要进行一定的校对和调整工作。

通过非编系统中的校稿界面，就可以对字幕文件进行校对和修改。使用离线引擎转写得出该音频对应的带时码的字幕文件(或称识别结果)，取出每一段语音片段和对应的识别结果，送入已经训练好的语音识别深度神经网络模型，模型会根据每一帧语音生成对应的音素状态，根据音素状态将识别结果和每一帧的语音内容对齐，获得每一个词对应的语音片段的相对位置，从而得到每一个词的时间戳。在修改文本时，由于每一个词都带有时间戳，故可以实现时间戳的自动调整。

具体的调整过程举例如下：

假设文稿内容为“应对国内外各种风险和考验”，音频文件对应的字幕内容为：

00:01:01,930 00:01:06,080应对国内外各种风险和考验

本申请实施例首先将上述文稿及音频文件经语音识别深度神经网络模型输出，得到以下带有每个词语时间戳的字幕文件(时码/时间码以毫秒为单位)：

文字内容：|应对|国内外|各种|风险|和|考验|

时码：1930 2695 3860 4492 5126 5443 6080

在进行断句调整操作时，本申请实施例可以根据字幕编辑人员的断句调整自动调整字幕的时码，具体如下：

假设调整前：

00:01:01,930 00:01:06,080应对国内外各种风险和考验

字幕编辑人员可以将光标放在想要断开的位置，例如“外”字之后，按下回车Enter键，本申请实施例自动断句，调整后如下：

00:01:01,930 00:01:03,860应对国内外

00:01:03,860 00:01:06,080各种风险和考验

假设根据电视显示长度，经上述调整后的短句长度仍然不满足电视显示字幕的长度要求，可以继续断句，例如字幕编辑人员可以将光标放在“对”字后面，按下回车Enter键，本申请实施例自动断句，继续调整后：

00:01:01,930 00:01:02,295应对

00:01:02,295 00:01:03,860国内外

00:01:03,860 00:01:06,080各种风险和考验

在进行合并调整操作时，本申请实施例可以根据字幕编辑人员的调整自动调整字幕的时码，具体如下：

假设调整前：

00:01:01,930 00:01:02,295应对国内外

00:01:03,860 00:01:06,080各种风险和考验

字幕编辑人员想让上下两个短句置于同一行显示，可以将光标放在“外”字之后，按下回车Delete键，本申请实施例自动将下一短句“各种风险和考验”上移至“外”字之后，或者，将光标放在“各”字之前，按下Backespace键，本申请实施例自动将下一短句“各种风险和考验”上移至“外”字之后。调整后如下所示：

00:01:01,930 00:01:06,080应对国内外各种风险和考验

最后，本申请实施例可以根据调整后的结果输出srt+txt字幕文件。

本申请实施例为了解决字幕文本调整的过程中，能够高效的实现每句字幕文本对应的时码自动调整，在对音频做语音识别的过程中，对语音的时码信息进行词语时码标注。也就是时间信息精确到字幕文本的每一个词，在对字幕文本句子进行拆分、合并等操作时，可以实现字幕文本时间码的自动调整，极大的提高了字幕编辑调整的效率。

步骤3、在非线性编辑系统中对唱词进行检查，确认得到字幕文件的最终版本。

在非线性编辑系统中，可以将编辑后的字幕文件结合视频内容进行再次校对，确认最新版本。

经步骤2编辑调整后的字幕文本可以提交到非线性编辑系统，所述非线性编辑系统中的语音识别引擎，可以在以后的语音引擎识别过程中，将在识别之前修改过的词(例如：经其他语音识别或人工识别确认为错误并调整修改为正确的词)的权重加大，从而更倾向于匹配修改后的的文本。例如：匹配的结果中有词语被识别为“美好的佳期”，但正确的为“美好的假期”，经人工修改后，系统存储有该词语的修改记录，待提交到语音识别引擎以后，“美好的假期”这一词的权重增大(假设原本该词权重为3，现在将该词权重改为5)，在后续再次进行语音识别时，就更倾向识别为“美好的假期”这个词。

本申请实施例提供了支持视频节目字幕自动化生产的非编系统，因为减少了非常耗时的人工听写环节、拍唱词环节，生产效率比传统流程效率获得很大提升，通过对比测试平均提高了60％以上。采用本申请实施例所提供的非线性编辑系统，不但字幕生产效率提升，而且可以大幅度降低劳动强度。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种非线性编辑系统，其特征在于，包括：非线性编辑主机和显示器，所述非线性编辑主机包括：资源管理器、素材管理模块、语音转写模块和时间线编辑模块，其中，

资源管理器，用于确定需要编辑的音频文件；

素材管理模块，用于发起所述音频文件的语音转写任务；

时间线编辑模块，用于响应于用户对所述显示器的屏幕的操作对所述字幕文件进行编辑。

2.根据权利要求1所述的非线性编辑系统，其特征在于，所述素材管理模块，包括：

3.根据权利要求1所述的非线性编辑系统，其特征在于，所述语音转写模块，包括：

4.根据权利要求3所述的非线性编辑系统，其特征在于，所述转写单元，包括：

5.根据权利要求3或4所述的非线性编辑系统，其特征在于，所述预先训练得到的语音识别深度神经网络模型包括根据不同的节目类型划分的音频文件进行分别训练得到的多个语音识别子模型；所述转写单元进一步包括：

6.根据权利要求1所述的非线性编辑系统，其特征在于，所述非线性编辑主机进一步包括：

7.根据权利要求6所述的非线性编辑系统，其特征在于，所述断句模块，包括：

8.根据权利要求1所述的非线性编辑系统，其特征在于，所述时间线编辑模块，包括：

9.根据权利要求8所述的非线性编辑系统，其特征在于，所述编辑类型为断开，所述编辑单元，包括：

10.根据权利要求8所述的非线性编辑系统，其特征在于，所述编辑类型为合并，所述编辑单元，包括：