CN110781649A - 一种字幕编辑方法、装置及计算机存储介质、电子设备 - Google Patents

一种字幕编辑方法、装置及计算机存储介质、电子设备 Download PDF

Info

Publication number
CN110781649A
CN110781649A CN201911046035.8A CN201911046035A CN110781649A CN 110781649 A CN110781649 A CN 110781649A CN 201911046035 A CN201911046035 A CN 201911046035A CN 110781649 A CN110781649 A CN 110781649A
Authority
CN
China
Prior art keywords
time code
word
time
short sentence
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911046035.8A
Other languages
English (en)
Other versions
CN110781649B (zh
Inventor
蔡贺
崔建伟
黄建新
张歆
黄伟峰
朱米春
杜伟
王一韩
闫磊
钱岳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Central Platform
Original Assignee
Central Platform
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Central Platform filed Critical Central Platform
Priority to CN201911046035.8A priority Critical patent/CN110781649B/zh
Publication of CN110781649A publication Critical patent/CN110781649A/zh
Application granted granted Critical
Publication of CN110781649B publication Critical patent/CN110781649B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Document Processing Apparatus (AREA)
  • Studio Circuits (AREA)

Abstract

一种字幕编辑方法、装置及计算机存储介质、电子设备,包括:确定用户对字幕文件的编辑请求;所述字幕文件为根据音频文件以及音频文件对应的文稿生成的包括每个词语的时间戳的字幕文件,所述编辑请求包括所述字幕文件中需要编辑的位置以及编辑类型;根据所述需要编辑的位置以及编辑类型对所述位置前后的短句进行编辑,并生成编辑后的句子的时间码;所述短句包括一个或多个词语。采用本申请中的方案,通过对音频做语音识别,实现对语音识别结果进行词语级的标识,使得音频与文本时间码同步,字幕文件具有词语的时码信息,从而实现对字幕文件进行词语级的自动编辑。

Description

一种字幕编辑方法、装置及计算机存储介质、电子设备
技术领域
本申请涉及节目制作技术,具体地,涉及一种字幕编辑方法、装置及计算机存储介质、电子设备。
背景技术
目前,在节目后期制作过程中,需要对节目上字幕。字幕生产过程需要对节目素材进行扒词、核对,再根据视频内容上字幕并调整,过程繁琐,存在大量重复劳动。
一般的字幕编辑工具,比如SrtEdit,Subtitle Edit,Aegisub等都可以编辑字幕内容和调整字幕时间。但是字幕时间的调整都是纯手工调整,且只能以句子为单位进行字幕编辑,在需要对某句话进行编辑时则无法自动编辑、只能人工调整并且在调整当前位置的词语之后需要人工将后续所有字幕的词语重新调整,比如:当需要将一句字幕拆分为两句、或者因为多字或者漏字的情况需要对字幕文字进行调整,调整后的字幕句子的开始和结束时间都会发生变化,由于每个节目的字幕量很庞大、节目的数量也很庞大,如此人工调整的工作量巨大。
现有技术中存在的问题:
目前只能以句子为单位编辑字幕,无法实现精确到词语级别的字幕编辑。
发明内容
本申请实施例中提供了一种字幕编辑方法、装置及计算机存储介质、电子设备,以解决现有技术存在的问题。
根据本申请实施例的第一个方面,提供了一种字幕编辑方法,包括:
确定用户对字幕文件的编辑请求;所述字幕文件为根据音频文件以及音频文件对应的文稿生成的包括每个词语的时间戳的字幕文件,所述编辑请求包括所述字幕文件中需要编辑的位置以及编辑类型;
根据所述需要编辑的位置以及编辑类型对所述位置前后的短句进行编辑,并生成编辑后的句子的时间码;所述短句包括一个或多个词语。
根据本申请实施例的第二个方面,提供了一种字幕编辑装置,包括:
请求模块,用于确定用户对字幕文件的编辑请求;所述字幕文件为根据音频文件以及音频文件对应的文稿生成的包括每个词语的时间戳的字幕文件,所述编辑请求包括所述字幕文件中需要编辑的位置以及编辑类型;
编辑模块,用于根据所述需要编辑的位置以及编辑类型对所述位置前后的短句进行编辑,并生成编辑后的句子的时间码;所述短句包括一个或多个词语。
根据本申请实施例的第三个方面,提供了一种计算机存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述字幕编辑方法的步骤。
根据本申请实施例的第四个方面,提供了电子设备,包括存储器、以及一个或多个处理器,所述存储器用于存储一个或多个程序;所述一个或多个程序被所述一个或多个处理器执行时,实现如上所述的字幕编辑方法。
采用本申请实施例中提供的字幕编辑方法、装置及计算机存储介质、电子设备,通过对音频做语音识别,实现对语音识别结果进行词语级的标识,使得音频与文本时间码同步,字幕文件具有词语的时码信息,从而实现对字幕文件进行词语级的自动编辑。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1示出了本申请实施例一中字幕编辑方法实施的流程示意图;
图2示出了本申请实施例二中字幕编辑装置的结构示意图;
图3示出了本申请实施例四中电子设备的结构示意图。
具体实施方式
针对现有技术存在的技术问题,本申请实施例中提供了一种字幕编辑方法、装置及计算机存储介质、电子设备,通过对音频做语音识别,实现电视节目字幕和语音内容自动匹配,使得音频与文本时间码同步,字幕文本具有时码信息,并实现对语音识别结果进行词语级的标识,从而实现对字幕时间码的自动调整。
本申请实施例中的方案可以采用各种计算机语言实现,例如,面向对象的程序设计语言Java和直译式脚本语言JavaScript等。
为了使本申请实施例中的技术方案及优点更加清楚明白,以下结合附图对本申请的示例性实施例进行进一步详细的说明,显然,所描述的实施例仅是本申请的一部分实施例,而不是所有实施例的穷举。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
实施例一
图1示出了本申请实施例一中字幕编辑方法实施的流程示意图。
如图所示,所述字幕编辑方法包括:
步骤101、确定用户对字幕文件的编辑请求;所述字幕文件为根据音频文件以及音频文件对应的文稿生成的包括每个词语的时间戳的字幕文件,所述编辑请求包括所述字幕文件中需要编辑的位置以及编辑类型;
步骤102、根据所述需要编辑的位置以及编辑类型对所述位置前后的短句进行编辑,并生成编辑后的句子的时间码;所述短句包括一个或多个词语。
在一种实施方式中,所述确定用户对字幕文件的编辑请求,根据用户在显示屏幕上对字幕文件的手势确定编辑请求。例如:用户在触摸显示屏幕上通过手指点击确定光标在字幕文件中的位置,通过长按该位置在显示屏幕上出现选择菜单,所述选择菜单中包括有编辑类型,用户可以通过点击选择确定对该需要编辑的位置的编辑类型。
在一种实施方式中,所述确定用户对字幕文件的编辑请求,根据用户通过鼠标等移动显示屏幕上的光标以及通过键盘等控制输入部件的按键确定编辑请求。例如:计算机接收鼠标的滚轮移动方向和速度,并根据鼠标滚轮的移动方向和速度确定鼠标在显示屏幕上的位置,在确定鼠标的被触动或按压时将光标置于当前所述鼠标所在位置,作为该需要编辑的位置,在键盘上的按键被触动或按压时根据被触动或按压的按键值确定编辑类型。
其中,本申请实施例中所述字幕文件为根据音频文件以及音频文件对应的文稿生成的包括每个词语的时间戳的字幕文件,即,在根据所述需要编辑的位置以及编辑类型对所述位置前后的短句进行编辑之前,本申请实施例预先根据节目的音频文件以及该节目的文稿生成了带有时间码信息的字幕文件,所述时间码信息包括每个词语的时间戳。每个词语的时间戳可以包括每个词语的起始位置时间戳、和/或每个词语的结束位置时间戳,例如:我爱祖国,爱这一词语的时间戳可以为发出ai这一音频片段前的时间、和/或发出ai这一音频片段之后的时间。
通常对字幕进行编辑时,所述需要编辑的位置处于所述字幕文件的中间位置,所述中间位置可以指除所述字幕文件首字符所在位置和尾字符所在位置之外的位置。由于所述需要编辑的位置处于所述字幕文件的中间位置,在所述需要编辑的位置之前、以及在所述需要编辑的位置之后,均包括一个或多个词语,本申请实施例中将所述一个或多个词语称为短句,包括:在所述需要编辑的位置之前的短句、以及在所述需要编辑的位置之后的短句。例如:对于字幕文件“我爱祖国”,假设所述需要编辑的位置是“我”之后,那么所述需要编辑的位置之前的短句为“我”、所述需要编辑的位置之后的短句为“爱祖国”;又如:假设所述需要编辑的位置是“爱”之后,那么所述需要编辑的位置之前的短句为“我爱”、所述需要编辑的位置之后的短句为“祖国”。
编辑后的句子可以是一个句子,也可以是两个句子,所述编辑后的句子的数量根据编辑类型确定。
采用本申请实施例中提供的字幕编辑方法,通过对音频做语音识别,实现对语音识别结果进行词语级的标识,使得音频与文本时间码同步,字幕文件具有词语的时码信息,从而实现对字幕文件进行词语级的自动编辑。
在一种实施方式中,所述字幕文件的生成过程,包括:
确定音频文件以及所述音频文件对应的文稿;
将所述音频文件以及所述音频文件对应的文稿输入至预先训练得到的语音识别深度神经网络模型;所述语音识别深度神经网络模型输出带有所述音频文件对应的文稿中每个词语的时间戳的字幕文件。
通常,在节目录制前会有所述节目的文稿,所述文稿通常可以包括节目名称、表演形式、表演者、以及按照时间先后顺序组织的具体节目内容。本申请实施例具体实施时,对于“节目名称”、“表演形式”、“表演者”等信息可能不会被录制声音,所以本申请实施例所述的音频文件可以仅对应于所述按照时间先后顺序组织的具体节目内容。
具体实施时,本申请实施例可以预先搜集大量样本,通过对大量样本进行训练,得到语音识别深度神经网络模型,在具体生成字幕文件时只需要将音频文件和该音频文件对应的文稿输入到该预先训练得到的语音识别深度神经网络模型,由所述语音识别深度神经网络模型自动输出带有所述音频文件对应的文稿中每个词语的时间戳的字幕文件。
采用预先训练语音识别深度神经网络模型并利用该语音识别深度神经网络模型来输出带有所述音频文件对应的文稿中每个词语的时间戳的字幕文件的方式,可以极大的加快字幕文件的生成效率,并且可复制性强,可以重复利用。
在一种实施方式中,所述语音识别深度神经网络模型输出带有所述音频文件对应的文稿中每个词语的时间戳的字幕文件,包括:
所述语音识别深度神经网络模型将所述音频文件的每帧语音识别成状态序列;
根据所述音频文件中每帧语音的状态序列得到多个音素;
根据所述多个音素生成一个或多个单词;
将所述一个或多个单词与每帧语音内容匹配,得到每个词语对应的语音片段在时间轴上的相对时间位置;
根据所述每个词语对应的语音片段在时间轴上的相对时间位置确定每个词语的时间戳。
具体实施时,本申请实施例可以将语音的每帧识别成状态,再将每帧语音对应的状态组合成音素,接着,再将多个音素组合成单词。
由于语音是一个连续的音频流,通常由大部分的稳定态和部分动态改变的状态混合构成。所述将音频文件的每帧语音识别成状态,可以利用现有技术中的维特比解码等技术对该音频文件进行解码,得到状态序列,所述状态序列可以对应有多个音素。
人类的语言通常包括语音、词汇和语法三部分要素,基本词汇和语法构造决定了每一种语言的基本面貌,本申请实施例侧重于语音的处理。语音可以理解为语言用声音表达出来的形式,即人说话时发出的声音。而声音包括响度、音调和音色三个基本属性,本申请实施例所述的音素可以理解为从音色的角度划分出来的最小的语音单位。
音素又可以根据在发音过程中气流是否受到阻碍被分为元音音素和辅音音素,例如:a、o、e等元音;b、p、f等辅音。
通常在汉语中,2~4个音素可以构成一个音节(例如:mei),一个音节对应一个汉字(例如:美),即,2~4个音素可以组成一个词语/单词(例如:m、e、i三个音素组成一个词语/单词“美”)。
音频文件通常是按照一个时间轴播放的,在得到所述一个或多个单词之后,可以将所述一个或多个单词与每帧语音内容匹配,得到每个词语对应的语音片段在所述音频文件的时间轴上的相对时间位置,从而根据所述每个词语对应的语音片段在时间轴上的相对时间位置确定每个词语的时间戳。
在一种实施方式中,所述编辑类型为断开,所述根据所述需要编辑的位置以及编辑类型对所述位置之前的第一短句以及所述位置之后的第二短句进行编辑,并生成编辑后的时间码,包括:
根据所述需要编辑的位置,确定所述位置前一词语对应的时间码以及所述位置后一词语对应的时间码,并将所述位置所在的句子拆分生成第一短句和第二短句;
根据所述位置前一词语对应的时间码生成所述第一短句的时间码,根据所述位置后一词语对应的时间码生成所述第二短句的时间码。
具体实施时,可以根据接收到的用户在键盘上触动或按压的按键的属性值确定编辑类型,具体的,当用户在确定需要编辑的位置后,在键盘上按下回车Enter键,回车Enter键的属性值为换行,因此,可以确定用户想要编辑的编辑类型为断开,即断开该位置前后的词语。
在确定编辑类型为断开时,可以首先根据所述需要编辑的位置,确定所述位置前一词语对应的时间码以及所述位置后一词语对应的时间码,并将所述位置所在的句子拆分生成第一短句和第二短句;然后,根据所述位置前一词语对应的时间码生成所述第一短句的时间码,根据所述位置后一词语对应的时间码生成所述第二短句的时间码。
其中,所述第一短句可以包括所述需要编辑的位置之前的多个词语,所述第一短句的时间码可以为所述需要编辑的位置之前的多个词语的时间码;所述第二短句可以包括所述需要编辑的位置之后的多个词语,所述第二短句的时间码可以为所述需要编辑的位置之后的多个词语的时间码。
具体实施时,所述第一短句的结束时间码可以和所述第二短句的起始时间码相同。
考虑到在每句话说完、或者需要重点强调等场景下,需要在断句之后进行停顿,本申请实施例还可以采用如下方式实施。
在一种实施方式中,所述根据所述位置后一词语对应的时间码生成所述第二短句的时间码,包括:
根据所述位置后一词语对应的时间码以及预设停顿时间,确定所述第二短句的起始时间以及所述第二短句内其他词语的时间码;
根据所述第二短句的起始时间以及所述第二短句内其他词语对应的时间码,确定所述第二短句的结束时间。
具体实施时,本申请实施例可以预先设置每个断句之后需要停顿的时间,在进行断句时,自动根据所述需要编辑位置的后一词语对应的时间码以及预设停顿时间,确定后面的第二短句的起始时间。
具体的,可以将所述需要编辑位置的后一词语对应的时间码与预设停顿时间进行求和,得到的时间值作为后面的第二短句的起始时间。
然后再根据确定的所述第二短句的起始时间以及所述第二短句内其他词语对应的时间码,确定所述第二短句的结束时间,即,同步调整第二短句的后续词语的时间码。
在一种实施方式中,所述编辑类型为合并,所述根据所述需要编辑的位置以及编辑类型对所述位置之前的第一短句以及所述位置之后的第二短句进行编辑,并生成编辑后的时间码,包括:
根据所述需要编辑的位置,确定所述位置前一词语所在的第一短句对应的时间码以及所述位置后一词语所在的第二短句对应的时间码,将所述第一短句和第二短句合并;
根据所述第一短句的起始时间码和所述第二短句的结束时间码生成所述合并后的句子的时间码。
具体实施时,可以根据接收到的用户在键盘上触动或按压的按键的属性值确定编辑类型,具体的,当用户在确定需要编辑的位置后,在键盘上按下backspace键或者delete键,backspace键的属性值为删除前一字符串,delete键的属性值为删除后一字符串,因此,可以确定用户想要编辑的编辑类型为合并,即将该位置前后的短句合并。
假设字幕文件如下:
00:08:01,340 00:08:01,680我们
00:08:01,680 00:08:03,052热爱自己的祖国
具体实施时,可以将需要编辑的位置确定为“们”后面,例如:
00:08:01,340 00:08:01,680我们|
00:08:01,680 00:08:03,052热爱自己的祖国
在需要合并上下两个短句时,可以用delete键将第一短句“我们”和第二短句“热爱自己的祖国”合并;
还可以将需要编辑的位置确定为“热”前面,例如:
00:08:01,340 00:08:01,680我们
00:08:01,680 00:08:03,052|热爱自己的祖国
在需要合并上下两个短句时,可以用Backspace键将第一短句“我们”和第二短句“热爱自己的祖国”合并。
在确定编辑类型为合并时,可以首先确定根据所述需要编辑的位置,确定所述位置前一词语所在的第一短句对应的时间码以及所述位置后一词语所在的第二短句对应的时间码,将所述第一短句和第二短句合并;然后根据所述第一短句的起始时间码和所述第二短句的结束时间码生成所述合并后的句子的时间码。
其中,所述第一短句可以包括所述需要编辑的位置之前的多个词语,所述第二短句可以包括所述需要编辑的位置之后的多个词语,所述合并后的句子的时间码的起始时间码可以为所述第一短句的起始时间码,所述合并后的句子的时间码的结束时间码可以为所述第二短句的结束时间码。
具体实施时,所述第一短句的结束时间码可以和所述第二短句的起始时间码相同。
考虑到在每句话说完、或者需要重点强调等场景下,可能在第一短句和第二短句之间有停顿,本申请实施例还可以采用如下方式实施。
在一种实施方式中,所述根据所述第一短句的起始时间码和所述第二短句的结束时间码生成所述合并后的句子的时间码,包括:
将所述第一短句的起始时间码作为合并后的句子的起始时间码;
根据预设停顿时间调整所述第二短句内每个词语对应的时间码,并将调整后的所述第二短句的最后一个词语的时间码作为合并后的句子的结束时间码。
具体实施时,本申请实施例可以预先确定每个短句之间的停顿时间,在进行合并时,自动根据所述需要编辑位置的前一词语所在的第一短句的起始时间码作为合并后的句子的起始时间码;根据预先确定的停顿时间调整第二短句内每个词语对应的时间码,并将调整后的所述第二短句的最后一个词语的时间码作为合并后的句子的结束时间码。
具体的,可以将所述需要编辑位置的后一词语所在的第二短句的起始时间码与预设停顿时间进行求差,得到的时间值作为后面的第二短句的起始时间,并将所述第二短句内所有词语与预设停顿时间进行求差,得到调整后的第二短句的每个词语的时间码。
然后再根据确定的所述第二短句的起始时间以及调整后所述第二短句内各个词语对应的时间码,确定所述第二短句的结束时间,即,同步调整第二短句内所有词语的时间码。
在一种实施方式中,所述方法进一步包括:
在编辑完所述字幕文件之后,按照所述编辑后的字幕文件中每个短句对应的时间码输出所述编辑后的字幕文件中的短句。
具体实施时,在编辑完所述字幕文件后,可以按照该编辑后的字幕文件中每个短句对应的时间码,在计算机的显示屏幕上播出所述编辑后的字幕文件中的短句。
实施例二
基于同一发明构思,本申请实施例提供了一种字幕编辑装置,该装置解决技术问题的原理与一种字幕编辑方法相似,重复之处不再赘述。
图2示出了本申请实施例二中字幕编辑装置的结构示意图。
如图所示,所述字幕编辑装置包括:
请求模块201,用于确定用户对字幕文件的编辑请求;所述字幕文件为根据音频文件以及音频文件对应的文稿生成的包括每个词语的时间戳的字幕文件,所述编辑请求包括所述字幕文件中需要编辑的位置以及编辑类型;
编辑模块202,用于根据所述需要编辑的位置以及编辑类型对所述位置前后的短句进行编辑,并生成编辑后的句子的时间码;所述短句包括一个或多个词语。
采用本申请实施例中提供的字幕编辑装置,通过对音频做语音识别,实现对语音识别结果进行词语级的标识,使得音频与文本时间码同步,字幕文件具有词语的时码信息,从而实现对字幕文件进行词语级的自动编辑。
在一种实施方式中,所述装置进一步包括:
文件生成模块,用于确定音频文件以及所述音频文件对应的文稿;将所述音频文件以及所述音频文件对应的文稿输入至预先训练得到的语音识别深度神经网络模型;所述语音识别深度神经网络模型输出带有所述音频文件对应的文稿中每个词语的时间戳的字幕文件。
在一种实施方式中,所述文件生成模块,包括:
文件确定单元,用于确定音频文件以及所述音频文件对应的文稿;
状态识别单元,用于将所述音频文件的每帧语音识别成状态序列;
音素识别单元,用于根据所述音频文件中每帧语音的状态序列得到多个音素;
词语识别单元,用于根据所述多个音素生成一个或多个单词;
匹配单元,用于将所述一个或多个单词与每帧语音内容匹配,得到每个词语对应的语音片段在时间轴上的相对时间位置;
时间确定单元,用于根据所述每个词语对应的语音片段在时间轴上的相对时间位置确定每个词语的时间戳。
在一种实施方式中,所述编辑类型为断开,所述编辑模块,包括:
第一处理单元,用于根据所述需要编辑的位置,确定所述位置前一词语对应的时间码以及所述位置后一词语对应的时间码,并将所述位置所在的句子拆分生成第一短句和第二短句;
第一生成单元,用于根据所述位置前一词语对应的时间码生成所述第一短句的时间码,根据所述位置后一词语对应的时间码生成所述第二短句的时间码。
在一种实施方式中,所述第一生成单元,包括:
第一起始子单元,用于根据所述位置后一词语对应的时间码以及预设停顿时间,确定所述第二短句的起始时间以及所述第二短句内其他词语的时间码;
第一结束子单元,用于根据所述第二短句的起始时间以及所述第二短句内其他词语对应的时间码,确定所述第二短句的结束时间。
在一种实施方式中,所述编辑类型为合并,所述编辑模块,包括:
第二处理单元,用于根据所述需要编辑的位置,确定所述位置前一词语所在的第一短句对应的时间码以及所述位置后一词语所在的第二短句对应的时间码,将所述第一短句和第二短句合并;
第二生成单元,用于根据所述第一短句的起始时间码和所述第二短句的结束时间码生成所述合并后的句子的时间码。
在一种实施方式中,所述第二生成单元,包括:
第二起始子单元,用于将所述第一短句的起始时间码作为合并后的句子的起始时间码;
第二结束子单元,用于根据预设停顿时间调整所述第二短句内每个词语对应的时间码,并将调整后的所述第二短句的最后一个词语的时间码作为合并后的句子的结束时间码。
在一种实施方式中,所述装置进一步包括:
字幕输出模块,用于在编辑完所述字幕文件之后,按照所述编辑后的字幕文件中每个短句对应的时间码输出所述编辑后的字幕文件中的短句。
实施例三
基于同一发明构思,本申请实施例还提供一种计算机存储介质,下面进行说明。
所述计算机存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如实施例一所述字幕编辑方法的步骤。
采用本申请实施例中提供的计算机存储介质,通过对音频做语音识别,实现对语音识别结果进行词语级的标识,使得音频与文本时间码同步,字幕文件具有词语的时码信息,从而实现对字幕文件进行词语级的自动编辑。
实施例四
基于同一发明构思,本申请实施例还提供一种电子设备,下面进行说明。
图3示出了本申请实施例四中电子设备的结构示意图。
如图所示,所述电子设备包括存储器301、以及一个或多个处理器302,所述存储器用于存储一个或多个程序;所述一个或多个程序被所述一个或多个处理器执行时,实现如实施例一所述的字幕编辑方法。
采用本申请实施例中提供的电子设备,通过对音频做语音识别,实现对语音识别结果进行词语级的标识,使得音频与文本时间码同步,字幕文件具有词语的时码信息,从而实现对字幕文件进行词语级的自动编辑。
实施例五
为了便于本申请的实施,本申请实施例以一具体实例进行说明。
假设文稿内容为“应对国内外各种风险和考验”,音频文件对应的字幕内容为:
00:01:01,930 00:01:06,080应对国内外各种风险和考验
本申请实施例首先将上述文稿及音频文件经语音识别深度神经网络模型输出,得到以下带有每个词语时间戳的字幕文件(时码/时间码以毫秒为单位):
文字内容:|应对|国内外|各种|风险|和|考验|
时码:1930 2695 3860 4492 5126 5443 6080
在进行断句调整操作时,本申请实施例可以根据字幕编辑人员的断句调整自动调整字幕的时码,具体如下:
假设调整前:
00:01:01,930 00:01:06,080应对国内外各种风险和考验
字幕编辑人员可以将光标放在想要断开的位置,例如“外”字之后,按下回车Enter键,本申请实施例自动断句,调整后如下:
00:01:01,930 00:01:03,860应对国内外
00:01:03,860 00:01:06,080各种风险和考验
假设根据电视显示长度,经上述调整后的短句长度仍然不满足电视显示字幕的长度要求,可以继续断句,例如字幕编辑人员可以将光标放在“对”字后面,按下回车Enter键,本申请实施例自动断句,继续调整后:
00:01:01,930 00:01:02,295应对
00:01:02,295 00:01:03,860国内外
00:01:03,860 00:01:06,080各种风险和考验
在进行合并调整操作时,本申请实施例可以根据字幕编辑人员的调整自动调整字幕的时码,具体如下:
假设调整前:
00:01:01,930 00:01:02,295应对国内外
00:01:03,860 00:01:06,080各种风险和考验
字幕编辑人员想让上下两个短句置于同一行显示,可以将光标放在“外”字之后,按下回车Delete键,本申请实施例自动将下一短句“各种风险和考验”上移至“外”字之后,或者,将光标放在“各”字之前,按下Backespace键,本申请实施例自动将下一短句“各种风险和考验”上移至“外”字之后。调整后如下所示:
00:01:01,930 00:01:06,080应对国内外各种风险和考验
最后,本申请实施例可以根据调整后的结果输出srt+txt字幕文件。
本申请实施例为了解决字幕文本调整的过程中,能够高效的实现每句字幕文本对应的时码自动调整,在对音频做语音识别的过程中,对语音的时码信息进行词语时码标注。也就是时间信息精确到字幕文本的每一个词,在对字幕文本句子进行拆分、合并等操作时,可以实现字幕文本时间码的自动调整,极大的提高了字幕编辑调整的效率。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (18)

1.一种字幕编辑方法,其特征在于,包括:
确定用户对字幕文件的编辑请求;所述字幕文件为根据音频文件以及音频文件对应的文稿生成的包括每个词语的时间戳的字幕文件,所述编辑请求包括所述字幕文件中需要编辑的位置以及编辑类型;
根据所述需要编辑的位置以及编辑类型对所述位置前后的短句进行编辑,并生成编辑后的句子的时间码;所述短句包括一个或多个词语。
2.根据权利要求1所述的方法,其特征在于,所述字幕文件的生成过程,包括:
确定音频文件以及所述音频文件对应的文稿;
将所述音频文件以及所述音频文件对应的文稿输入至预先训练得到的语音识别深度神经网络模型;所述语音识别深度神经网络模型输出带有所述音频文件对应的文稿中每个词语的时间戳的字幕文件。
3.根据权利要求2所述的方法,其特征在于,所述语音识别深度神经网络模型输出带有所述音频文件对应的文稿中每个词语的时间戳的字幕文件,包括:
所述语音识别深度神经网络模型将所述音频文件的每帧语音识别成状态序列;
根据所述音频文件中每帧语音的状态序列得到多个音素;
根据所述多个音素生成一个或多个单词;
将所述一个或多个单词与每帧语音内容匹配,得到每个词语对应的语音片段在时间轴上的相对时间位置;
根据所述每个词语对应的语音片段在时间轴上的相对时间位置确定每个词语的时间戳。
4.根据权利要求1所述的方法,其特征在于,所述编辑类型为断开,所述根据所述需要编辑的位置以及编辑类型对所述位置之前的第一短句以及所述位置之后的第二短句进行编辑,并生成编辑后的时间码,包括:
根据所述需要编辑的位置,确定所述位置前一词语对应的时间码以及所述位置后一词语对应的时间码,并将所述位置所在的句子拆分生成第一短句和第二短句;
根据所述位置前一词语对应的时间码生成所述第一短句的时间码,根据所述位置后一词语对应的时间码生成所述第二短句的时间码。
5.根据权利要求4所述的方法,其特征在于,所述根据所述位置后一词语对应的时间码生成所述第二短句的时间码,包括:
根据所述位置后一词语对应的时间码以及预设停顿时间,确定所述第二短句的起始时间以及所述第二短句内其他词语的时间码;
根据所述第二短句的起始时间以及所述第二短句内其他词语对应的时间码,确定所述第二短句的结束时间。
6.根据权利要求1所述的方法,其特征在于,所述编辑类型为合并,所述根据所述需要编辑的位置以及编辑类型对所述位置之前的第一短句以及所述位置之后的第二短句进行编辑,并生成编辑后的时间码,包括:
根据所述需要编辑的位置,确定所述位置前一词语所在的第一短句对应的时间码以及所述位置后一词语所在的第二短句对应的时间码,将所述第一短句和第二短句合并;
根据所述第一短句的起始时间码和所述第二短句的结束时间码生成所述合并后的句子的时间码。
7.根据权利要求6所述的方法,其特征在于,所述根据所述第一短句的起始时间码和所述第二短句的结束时间码生成所述合并后的句子的时间码,包括:
将所述第一短句的起始时间码作为合并后的句子的起始时间码;
根据预设停顿时间调整所述第二短句内每个词语对应的时间码,并将调整后的所述第二短句的最后一个词语的时间码作为合并后的句子的结束时间码。
8.根据权利要求1所述的方法,其特征在于,进一步包括:
在编辑完所述字幕文件之后,按照所述编辑后的字幕文件中每个短句对应的时间码输出所述编辑后的字幕文件中的短句。
9.一种字幕编辑装置,其特征在于,包括:
请求模块,用于确定用户对字幕文件的编辑请求;所述字幕文件为根据音频文件以及音频文件对应的文稿生成的包括每个词语的时间戳的字幕文件,所述编辑请求包括所述字幕文件中需要编辑的位置以及编辑类型;
编辑模块,用于根据所述需要编辑的位置以及编辑类型对所述位置前后的短句进行编辑,并生成编辑后的句子的时间码;所述短句包括一个或多个词语。
10.根据权利要求9所述的装置,其特征在于,进一步包括:
文件生成模块,用于确定音频文件以及所述音频文件对应的文稿;将所述音频文件以及所述音频文件对应的文稿输入至预先训练得到的语音识别深度神经网络模型;所述语音识别深度神经网络模型输出带有所述音频文件对应的文稿中每个词语的时间戳的字幕文件。
11.根据权利要求10所述的装置,其特征在于,所述文件生成模块,包括:
文件确定单元,用于确定音频文件以及所述音频文件对应的文稿;
状态识别单元,用于将所述音频文件的每帧语音识别成状态序列;
音素识别单元,用于根据所述音频文件中每帧语音的状态序列得到多个音素;
词语识别单元,用于根据所述多个音素生成一个或多个单词;
匹配单元,用于将所述一个或多个单词与每帧语音内容匹配,得到每个词语对应的语音片段在时间轴上的相对时间位置;
时间确定单元,用于根据所述每个词语对应的语音片段在时间轴上的相对时间位置确定每个词语的时间戳。
12.根据权利要求9所述的装置,其特征在于,所述编辑类型为断开,所述编辑模块,包括:
第一处理单元,用于根据所述需要编辑的位置,确定所述位置前一词语对应的时间码以及所述位置后一词语对应的时间码,并将所述位置所在的句子拆分生成第一短句和第二短句;
第一生成单元,用于根据所述位置前一词语对应的时间码生成所述第一短句的时间码,根据所述位置后一词语对应的时间码生成所述第二短句的时间码。
13.根据权利要求12所述的装置,其特征在于,所述第一生成单元,包括:
第一起始子单元,用于根据所述位置后一词语对应的时间码以及预设停顿时间,确定所述第二短句的起始时间;
第一结束子单元,用于根据所述第二短句的起始时间以及所述第二短句内其他词语对应的时间码,确定所述第二短句的结束时间。
14.根据权利要求9所述的装置,其特征在于,所述编辑类型为合并,所述编辑模块,包括:
第二处理单元,用于根据所述需要编辑的位置,确定所述位置前一词语所在的第一短句对应的时间码以及所述位置后一词语所在的第二短句对应的时间码,将所述第一短句和第二短句合并;
第二生成单元,用于根据所述第一短句的起始时间码和所述第二短句的结束时间码生成所述合并后的句子的时间码。
15.根据权利要求14所述的装置,其特征在于,所述第二生成单元,包括:
第二起始子单元,用于将所述第一短句的起始时间码作为合并后的句子的起始时间码;
第二结束子单元,用于根据预设停顿时间调整所述第二短句内每个词语对应的时间码,并将调整后的所述第二短句的最后一个词语的时间码作为合并后的句子的结束时间码。
16.根据权利要求9所述的装置,其特征在于,进一步包括:
字幕输出模块,用于在编辑完所述字幕文件之后,按照所述编辑后的字幕文件中每个短句对应的时间码输出所述编辑后的字幕文件中的短句。
17.一种计算机存储介质,其特征在于,其上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至8任一所述方法的步骤。
18.一种电子设备,其特征在于,包括存储器、以及一个或多个处理器,所述存储器用于存储一个或多个程序;所述一个或多个程序被所述一个或多个处理器执行时,实现如权利要求1至8任一所述的方法。
CN201911046035.8A 2019-10-30 2019-10-30 一种字幕编辑方法、装置及计算机存储介质、电子设备 Active CN110781649B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911046035.8A CN110781649B (zh) 2019-10-30 2019-10-30 一种字幕编辑方法、装置及计算机存储介质、电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911046035.8A CN110781649B (zh) 2019-10-30 2019-10-30 一种字幕编辑方法、装置及计算机存储介质、电子设备

Publications (2)

Publication Number Publication Date
CN110781649A true CN110781649A (zh) 2020-02-11
CN110781649B CN110781649B (zh) 2023-09-15

Family

ID=69387744

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911046035.8A Active CN110781649B (zh) 2019-10-30 2019-10-30 一种字幕编辑方法、装置及计算机存储介质、电子设备

Country Status (1)

Country Link
CN (1) CN110781649B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111970577A (zh) * 2020-08-25 2020-11-20 北京字节跳动网络技术有限公司 字幕编辑方法、装置和电子设备
CN113343675A (zh) * 2021-06-30 2021-09-03 北京搜狗科技发展有限公司 一种字幕生成方法、装置和用于生成字幕的装置
CN113422996A (zh) * 2021-05-10 2021-09-21 北京达佳互联信息技术有限公司 字幕信息编辑方法、装置及存储介质
CN114501159A (zh) * 2022-01-24 2022-05-13 传神联合(北京)信息技术有限公司 一种字幕编辑方法、装置、电子设备及存储介质
WO2023015416A1 (zh) * 2021-08-09 2023-02-16 深圳Tcl新技术有限公司 字幕处理方法、装置及存储介质
CN117544826A (zh) * 2024-01-09 2024-02-09 杭州菲助科技有限公司 一种字幕文件编辑方法及加载应用的字幕编辑器

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070011012A1 (en) * 2005-07-11 2007-01-11 Steve Yurick Method, system, and apparatus for facilitating captioning of multi-media content
CN1997138A (zh) * 2006-01-05 2007-07-11 君尊科技股份有限公司 可同时显示多个句子的dvd播放系统及其字幕产生的方法
CN101540847A (zh) * 2008-03-21 2009-09-23 株式会社康巴思 字幕制作系统及字幕制作方法
CN102348071A (zh) * 2011-06-02 2012-02-08 上海东方传媒集团有限公司 一种实现节目的字幕制作方法及系统
CN102724441A (zh) * 2011-05-11 2012-10-10 新奥特(北京)视频技术有限公司 一种字幕插件中唱词时码的处理方法
CN103559214A (zh) * 2013-10-11 2014-02-05 中国农业大学 视频自动生成方法及装置
KR101488613B1 (ko) * 2013-08-16 2015-02-06 한국방송공사 동영상 장면 검색 시스템 및 방법
CN104837074A (zh) * 2015-05-14 2015-08-12 无锡天脉聚源传媒科技有限公司 一种显示时间的设置方法及装置
CN105245917A (zh) * 2015-09-28 2016-01-13 徐信 一种多媒体语音字幕生成的系统和方法
CN105898556A (zh) * 2015-12-30 2016-08-24 乐视致新电子科技(天津)有限公司 一种外挂字幕的自动同步方法及装置
CN105931641A (zh) * 2016-05-25 2016-09-07 腾讯科技(深圳)有限公司 字幕数据生成方法和装置
WO2016146978A1 (en) * 2015-03-13 2016-09-22 Trint Limited Media generating and editing system
CN108259971A (zh) * 2018-01-31 2018-07-06 百度在线网络技术(北京)有限公司 字幕添加方法、装置、服务器及存储介质
CN109614604A (zh) * 2018-12-17 2019-04-12 北京百度网讯科技有限公司 字幕处理方法、装置及存储介质
US10423660B1 (en) * 2017-12-07 2019-09-24 Amazon Technologies, Inc. System for detecting non-synchronization between audio and subtitle

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070011012A1 (en) * 2005-07-11 2007-01-11 Steve Yurick Method, system, and apparatus for facilitating captioning of multi-media content
CN1997138A (zh) * 2006-01-05 2007-07-11 君尊科技股份有限公司 可同时显示多个句子的dvd播放系统及其字幕产生的方法
CN101540847A (zh) * 2008-03-21 2009-09-23 株式会社康巴思 字幕制作系统及字幕制作方法
CN102724441A (zh) * 2011-05-11 2012-10-10 新奥特(北京)视频技术有限公司 一种字幕插件中唱词时码的处理方法
CN102348071A (zh) * 2011-06-02 2012-02-08 上海东方传媒集团有限公司 一种实现节目的字幕制作方法及系统
KR101488613B1 (ko) * 2013-08-16 2015-02-06 한국방송공사 동영상 장면 검색 시스템 및 방법
CN103559214A (zh) * 2013-10-11 2014-02-05 中国农业大学 视频自动生成方法及装置
WO2016146978A1 (en) * 2015-03-13 2016-09-22 Trint Limited Media generating and editing system
CN104837074A (zh) * 2015-05-14 2015-08-12 无锡天脉聚源传媒科技有限公司 一种显示时间的设置方法及装置
CN105245917A (zh) * 2015-09-28 2016-01-13 徐信 一种多媒体语音字幕生成的系统和方法
CN105898556A (zh) * 2015-12-30 2016-08-24 乐视致新电子科技(天津)有限公司 一种外挂字幕的自动同步方法及装置
CN105931641A (zh) * 2016-05-25 2016-09-07 腾讯科技(深圳)有限公司 字幕数据生成方法和装置
US10423660B1 (en) * 2017-12-07 2019-09-24 Amazon Technologies, Inc. System for detecting non-synchronization between audio and subtitle
CN108259971A (zh) * 2018-01-31 2018-07-06 百度在线网络技术(北京)有限公司 字幕添加方法、装置、服务器及存储介质
CN109614604A (zh) * 2018-12-17 2019-04-12 北京百度网讯科技有限公司 字幕处理方法、装置及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
佚名: "《字幕编辑工具srtEdit刚够用而已的教程》" *
牛嵩峰;唐炜;: "基于人工智能的中文语音文本智能编辑系统设计", 广播与电视技术, no. 04 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111970577A (zh) * 2020-08-25 2020-11-20 北京字节跳动网络技术有限公司 字幕编辑方法、装置和电子设备
CN111970577B (zh) * 2020-08-25 2023-07-25 北京字节跳动网络技术有限公司 字幕编辑方法、装置和电子设备
CN113422996A (zh) * 2021-05-10 2021-09-21 北京达佳互联信息技术有限公司 字幕信息编辑方法、装置及存储介质
CN113422996B (zh) * 2021-05-10 2023-01-20 北京达佳互联信息技术有限公司 字幕信息编辑方法、装置及存储介质
CN113343675A (zh) * 2021-06-30 2021-09-03 北京搜狗科技发展有限公司 一种字幕生成方法、装置和用于生成字幕的装置
WO2023015416A1 (zh) * 2021-08-09 2023-02-16 深圳Tcl新技术有限公司 字幕处理方法、装置及存储介质
CN114501159A (zh) * 2022-01-24 2022-05-13 传神联合(北京)信息技术有限公司 一种字幕编辑方法、装置、电子设备及存储介质
CN114501159B (zh) * 2022-01-24 2023-12-22 传神联合(北京)信息技术有限公司 一种字幕编辑方法、装置、电子设备及存储介质
CN117544826A (zh) * 2024-01-09 2024-02-09 杭州菲助科技有限公司 一种字幕文件编辑方法及加载应用的字幕编辑器
CN117544826B (zh) * 2024-01-09 2024-03-29 杭州菲助科技有限公司 一种字幕文件编辑方法及加载应用的字幕编辑器

Also Published As

Publication number Publication date
CN110781649B (zh) 2023-09-15

Similar Documents

Publication Publication Date Title
CN110740275B (zh) 一种非线性编辑系统
CN110781649B (zh) 一种字幕编辑方法、装置及计算机存储介质、电子设备
KR101990023B1 (ko) 외국어학습을 위한 청크단위 분리 규칙과 핵심어 자동 강세 표시 구현 방법 및 시스템
JP4987623B2 (ja) ユーザと音声により対話する装置および方法
US20120016671A1 (en) Tool and method for enhanced human machine collaboration for rapid and accurate transcriptions
JP5756555B1 (ja) 発話評価装置、発話評価方法及びプログラム
JP7506092B2 (ja) 対象言語のコンテンツを二つの形態で同時表現させ、対象言語の聴解力を向上させるためのシステムと方法
KR20160111275A (ko) 외국어 학습 시스템 및 외국어 학습 방법
US20150098018A1 (en) Techniques for live-writing and editing closed captions
CN112219214A (zh) 用于面试训练的具有时间匹配反馈的系统及方法
US20150170648A1 (en) Ebook interaction using speech recognition
US20200211565A1 (en) System and method for simultaneous multilingual dubbing of video-audio programs
KR101819459B1 (ko) 음성 인식 오류 수정을 지원하는 음성 인식 시스템 및 장치
CN108133632A (zh) 英语听力的训练方法及系统
CN110691258A (zh) 一种节目素材制作方法、装置及计算机存储介质、电子设备
JP2012181358A (ja) テキスト表示時間決定装置、テキスト表示システム、方法およびプログラム
JP2011504624A (ja) 自動同時通訳システム
Ciobanu et al. Speech recognition and synthesis technologies in the translation workflow
CN113225612A (zh) 字幕生成方法、装置、计算机可读存储介质及电子设备
JP2015158582A (ja) 音声認識装置、及びプログラム
US20220139256A1 (en) Conversation-based foreign language learning method using reciprocal speech transmission through speech recognition function and tts function of terminal
Pražák et al. Live TV subtitling through respeaking with remote cutting-edge technology
US20190088258A1 (en) Voice recognition device, voice recognition method, and computer program product
KR102185387B1 (ko) 음성인식 자막 생성 시스템 및 방법
KR101920653B1 (ko) 비교음 생성을 통한 어학학습방법 및 어학학습프로그램

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant