CN112002328B - 一种字幕生成方法、装置及计算机存储介质、电子设备 - Google Patents
一种字幕生成方法、装置及计算机存储介质、电子设备 Download PDFInfo
- Publication number
- CN112002328B CN112002328B CN202010794808.7A CN202010794808A CN112002328B CN 112002328 B CN112002328 B CN 112002328B CN 202010794808 A CN202010794808 A CN 202010794808A CN 112002328 B CN112002328 B CN 112002328B
- Authority
- CN
- China
- Prior art keywords
- text
- unit data
- breaking
- sentence
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 238000003860 storage Methods 0.000 title claims abstract description 14
- 230000008569 process Effects 0.000 claims description 20
- 238000012549 training Methods 0.000 claims description 19
- 238000000605 extraction Methods 0.000 claims description 17
- 230000011218 segmentation Effects 0.000 claims description 15
- 238000004590 computer program Methods 0.000 claims description 10
- 238000013528 artificial neural network Methods 0.000 claims description 7
- 230000008859 change Effects 0.000 claims description 7
- 238000009826 distribution Methods 0.000 claims description 6
- 238000010276 construction Methods 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 12
- 238000012545 processing Methods 0.000 description 11
- 239000013598 vector Substances 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 238000010009 beating Methods 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 5
- 238000005520 cutting process Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 230000007547 defect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012805 post-processing Methods 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000001915 proofreading effect Effects 0.000 description 1
- 230000000452 restraining effect Effects 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/488—Data services, e.g. news ticker
- H04N21/4884—Data services, e.g. news ticker for displaying subtitles
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Studio Circuits (AREA)
Abstract
一种字幕生成方法、装置及计算机存储介质、电子设备,包括:确定待添加字幕的视频文件;提取所述视频文件中对应的音频信息;根据所述音频信息得到对应的文本;提取所述文本对应的辅助特征;根据所述文本对应的辅助特征以及预先构建的字幕断句模型,生成断句后的字幕。采用本申请的方案,减少了工作环节,媒体工作者不再需要边听边敲打字幕、边听边断句以及反复核对字幕等,提升了工作效率,大幅度降低了劳动强度。
Description
技术领域
本申请涉及广电行业视频字幕技术领域,尤其涉及一种字幕生成方法及装置、计算机存储介质、电子设备。
背景技术
传媒行业,特别是广电行业,需要播出海量的音视频节目,每一档节目都需要工作人员进行“纯手工”的后期字幕制作。工作人员在进行手工断句时,需要视频、音频、字幕三方同时兼顾,并且需要反复听写、反复校对,过程繁琐且效率低下。如果工作人员进行音视频整套字幕校对时,发现其中一句断句错误,则需要重新修改该句断句位置并修改后面受关联影响的断句以及错误断句的关联时间码。
现有技术不足在于:
目前音视频节目的字幕制作效率低下。
发明内容
本申请实施例提出了一种字幕生成方法、装置及计算机存储介质、电子设备,以解决上述技术问题。
第一方面,本申请实施例提供了一种字幕生成方法,包括:
确定待添加字幕的视频文件;
提取所述视频文件中对应的音频信息;
根据所述音频信息得到对应的文本;
提取所述文本对应的辅助特征;
根据所述文本对应的辅助特征以及预先构建的字幕断句模型,生成断句后的字幕。
第二方面,本申请实施例提供了一种字幕生成装置,包括:
文件确定模块,用于确定待添加字幕的视频文件;
音频提取模块,用于提取所述视频文件中对应的音频信息;
文本识别模块,用于根据所述音频信息得到对应的文本;
特征提取模块,用于提取所述文本对应的辅助特征;
字幕生成模块,用于根据所述文本对应的辅助特征以及预先构建的字幕断句模型,生成断句后的字幕。
第三方面,本申请实施例提供了一种计算机存储介质,其特征在于,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的字幕生成方法的步骤。
第四方面,本申请实施例提供了一种电子设备,其特征在于,包括存储器、以及一个或多个处理器,所述存储器用于存储一个或多个程序;所述一个或多个程序被所述一个或多个处理器执行时,实现如上所述的字幕生成方法。
有益效果如下:
本申请实施例所提供的字幕生成方案,通过对待添加字幕的视频文件进行音频提取、文本转换,然后进一步提取文本中的辅助特征,再结合预先构建的字幕断句模型,最终生成断句后的字幕,减少了工作环节,媒体工作者不再需要边听边敲打字幕、边听边断句以及反复核对字幕等,提升了工作效率,大幅度降低了劳动强度。
附图说明
下面将参照附图描述本申请的具体实施例,其中:
图1示出了本申请实施例中字幕生成方法实施的流程示意图;
图2示出了本申请实施例中字幕生成装置的结构示意图;
图3示出了本申请实施例四中电子设备的结构示意图;
图4示出了本申请实施例中Self-Attention结构的断句模型示意图。
具体实施方式
为了使本申请的技术方案及优点更加清楚明白,以下结合附图对本申请的示例性实施例进行进一步详细的说明,显然,所描述的实施例仅是本申请的一部分实施例,而不是所有实施例的穷举。并且在不冲突的情况下,本说明中的实施例及实施例中的特征可以互相结合。
发明人在发明过程中注意到:
此外,对于全国的广电,各个广播、电视台都有自己的字幕规范,工作人员需要掌握不同的字幕断句规则和规范,对工作人员要求高,且处理非常繁琐。
针对上述不足,本申请实施例提出了字幕生成方法、装置及计算机存储介质、电子设备,通过训练神经网络断句模型,对文本信息中的句法、搭配关系以及结构信息进行挖掘,实时判断每个字后面是否需要断句,而且进一步结合语义特征获得候选断句结果来满足广电行业特有的对字幕上屏的要求,下面进行说明。
实施例一
图1示出了本申请实施例一中字幕生成方法实施的流程示意图。
如图所示,所述字幕生成方法,包括:
步骤101、确定待添加字幕的视频文件;
步骤102、提取所述视频文件中对应的音频信息;
步骤103、根据所述音频信息得到对应的文本;
步骤104、提取所述文本对应的辅助特征;
步骤105、根据所述文本对应的辅助特征以及预先构建的字幕断句模型,生成断句后的字幕。
采用本申请实施例所提供的字幕生成方法,通过对待添加字幕的视频文件进行音频提取、文本转换,然后进一步提取文本中的辅助特征,再结合预先构建的字幕断句模型,最终生成断句后的字幕,减少了工作环节,媒体工作者不再需要边听边敲打字幕、边听边断句以及反复核对字幕等,提升了工作效率,大幅度降低了劳动强度。
在一种实施方式中,所述根据所述音频信息得到对应的文本,包括:
根据音频信息中的停顿信息对所述音频信息进行切片化处理;
将切片化处理后的音频信息识别为文本,得到片段化的文本。
在一种实施方式中,所述字幕断句模型的构建过程,包括:
将样本字幕文件中的文本拆分为若干单字;
利用拆分后的单字构建输入输出对并提取辅助特征,输入为拆分得到的单字,输出目标为该字之后是否需要断句处理的标识信息;
根据所述输入输出对以及辅助特征对神经网络进行训练,得到字幕断句模型。
在一种实施方式中,所述辅助特征的提取过程,包括以下一种或多种:
根据文本中的当前单元数据是否处于词尾,确定该单元数据的分词特征;
根据文本中的单元数据与断句位置的共现情况,确定该单元数据的词共现特征;
根据文本中的单元数据的结束位置与后一单元数据的开始位置之间的时间长度,确定该单元数据的停顿时长特征;
根据截至文本中的当前单元数据的数据总数以及总时长,确定该单元数据的语速特征;
根据文本中的当前单元数据的结束位置以及该单元数据前多帧语音数据的基频值,确定该单元数据的基频走势;
根据文本中的当前单元数据的结束位置以及该单元数据前多帧语音数据的能量值确定该单元数据的能量变化。
在一种实施方式中,在训练过程中进一步包括:
将文本中的当前单元数据的前M个单元数据对应的输出目标进行拼接,拼接后得到全局标签特征;
利用所述全局标签特征对目标进行预测。
在一种实施方式中,所述根据所述文本对应的辅助特征以及预先构建的字幕断句模型,生成断句后的字幕,包括:
将所述文本对应的辅助特征进行拼接后输入预先构建的字幕断句模型;
计算所述文本中每个单元数据对应的输出层概率分布,搜索得到K个候选断句结果;
从1到K逐渐遍历每个候选断句结果,输出每个单元数据的字数均满足预设字数限制条件的候选断句结果;
对于不满足预设字数限制条件的候选断句结果,根据断句概率最大的单元数据对应的位置进行断句。
其中,所述K为大于1的整数。
在一种实施方式中,所述方法进一步包括:
将断句后的字幕与音视频文件进行时码匹配,得到该断句后的字幕在音视频文件中的起止时间。
实施例二
基于同一发明构思,本申请实施例中还提供了一种字幕生成装置,由于这些设备解决问题的原理与一种字幕生成方法相似,因此这些设备的实施可以参见方法的实施,重复之处不再赘述。
图2示出了本申请实施例二中字幕生成装置的结构示意图。
如图所示,所述字幕生成装置可以包括:
文件确定模块201,用于确定待添加字幕的视频文件;
音频提取模块202,用于提取所述视频文件中对应的音频信息;
文本识别模块203,用于根据所述音频信息得到对应的文本;
特征提取模块204,用于提取所述文本对应的辅助特征;
字幕生成模块205,用于根据所述文本对应的辅助特征以及预先构建的字幕断句模型,生成断句后的字幕。
采用本申请实施例所提供的字幕生成装置,通过对待添加字幕的视频文件进行音频提取、文本转换,然后进一步提取文本中的辅助特征,再结合预先构建的字幕断句模型,最终生成断句后的字幕,减少了工作环节,媒体工作者不再需要边听边敲打字幕、边听边断句以及反复核对字幕等,提升了工作效率,大幅度降低了劳动强度。
在一种实施方式中,所述文本识别模块,包括:
切片单元,用于根据音频信息中的停顿信息对所述音频信息进行切片化处理;
识别单元,用于将切片化处理后的音频信息识别为文本,得到片段化的文本。
在一种实施方式中,所述装置进一步包括:模型构建模块,所述模型构建模块,包括:
拆分单元,用于将样本字幕文件中的文本拆分为若干单字;
处理单元,用于利用拆分后的单字构建输入输出对并提取辅助特征,输入为拆分得到的单字,输出目标为该字之后是否需要断句处理的标识信息;
训练单元,用于根据所述输入输出对以及辅助特征对神经网络进行训练,得到字幕断句模型。
在一种实施方式中,所述辅助特征的提取过程,包括以下一种或多种:
根据文本中的当前单元数据是否处于词尾,确定该单元数据的分词特征;
根据文本中的单元数据与断句位置的共现情况,确定该单元数据的词共现特征;
根据文本中的单元数据的结束位置与后一单元数据的开始位置之间的时间长度,确定该单元数据的停顿时长特征;
根据截至文本中的当前单元数据的数据总数以及总时长,确定该单元数据的语速特征;
根据文本中的当前单元数据的结束位置以及该单元数据前多帧语音数据的基频值,确定该单元数据的基频走势;
根据文本中的当前单元数据的结束位置以及该单元数据前多帧语音数据的能量值确定该单元数据的能量变化。
在一种实施方式中,在训练过程中进一步包括:
将文本中的当前单元数据的前M个单元数据对应的输出目标进行拼接,拼接后得到全局标签特征;
利用所述全局标签特征对目标进行预测。
在一种实施方式中,所述字幕生成模块,包括:
拼接单元,用于将所述文本对应的辅助特征进行拼接后输入预先构建的字幕断句模型;
计算单元,用于计算所述文本中每个单元数据对应的输出层概率分布,搜索得到K个候选断句结果;
遍历单元,用于从1到K逐渐遍历每个候选断句结果,输出每个单元数据的字数均满足预设字数限制条件的候选断句结果;
断句单元,用于对于不满足预设字数限制条件的候选断句结果,根据断句概率最大的单元数据对应的位置进行断句。
在一种实施方式中,所述装置进一步包括:
匹配单元,用于将断句后的字幕与音视频文件进行时码匹配,得到该断句后的字幕在音视频文件中的起止时间。
上述实施例中,均可以采用现有的功能元器件模块来实施。例如,文本识别模块可以采用现有的文本识别元器件,至少,现有语音消息发送技术中便具备实现该功能元器件;至于其他的模块,例如:特征提取模块等,本领域技术人员经过相应的设计开发即可实现。
为了描述的方便,以上所述装置的各部分以功能分为各种模块或单元分别描述。当然,在实施本申请时可以把各模块或单元的功能在同一个或多个软件或硬件中实现。
实施例三
基于同一发明构思,本申请实施例还提供一种计算机存储介质,下面进行说明。
所述计算机存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如实施例一所述方法的步骤。
采用本申请实施例中提供的计算机存储介质,通过对待添加字幕的视频文件进行音频提取、文本转换,然后进一步提取文本中的辅助特征,再结合预先构建的字幕断句模型,最终生成断句后的字幕,减少了工作环节,媒体工作者不再需要边听边敲打字幕、边听边断句以及反复核对字幕等,提升了工作效率,大幅度降低了劳动强度。
实施例四
基于同一发明构思,本申请实施例还提供一种电子设备,下面进行说明。
图3示出了本申请实施例四中电子设备的结构示意图。
如图所示,所述电子设备包括存储器301、以及一个或多个处理器302,所述存储器用于存储一个或多个程序;所述一个或多个程序被所述一个或多个处理器执行时,实现如实施例一所述的方法。
采用本申请实施例中提供的电子设备,通过对待添加字幕的视频文件进行音频提取、文本转换,然后进一步提取文本中的辅助特征,再结合预先构建的字幕断句模型,最终生成断句后的字幕,减少了工作环节,媒体工作者不再需要边听边敲打字幕、边听边断句以及反复核对字幕等,提升了工作效率,大幅度降低了劳动强度。
实施例五
为了便于本申请的实施,下面以一具体实例进行说明。
本申请实施例所提供的技术方案,自动将视频中的音频转写成对应的文本序列,然后利用智能断句方案对转写的文本序列进行断句,使之符合节目字幕要求,最后利用强制对齐技术得到转写文本断句后序列对应的原视频位置时间戳,从而形成最终的字幕文件。
具体方案如下:
第一步,预先收集大量人工标注字幕断句数据,构建字幕断句模型。
具体的,可以包括以下几个部分:
1、数据收集和预处理
采集大量的广电行业的音视频断句素材,组成训练集和测试集。
具体实施时,如果该数据已经是人工检查过的视频字幕数据,无需对该数据进行人工检查。
数据预处理过程如下:
a.对收集的文本数据进行分字;
所谓分字可以指将文本拆分成一个个独立的汉字,本申请实施例考虑到字幕文件对单句的字数要求,故以字为预测单元。
b.构建任务预测目标;
利用拆分好的字以及字幕文件的本身断句信息,构建输入输出对,输入即拆分后的每个独立的单字,输出目标为该字之后是否需要进行断句处理,如果需要断句则输出目标为1,否则输出目标为0。
例如:
“观众朋友们大家晚上好,这里是中央人民电视台”这一待添加字幕的音视频文件,分字之后的结果为:
观众朋友们大家晚上好这里是中央人民电视台;
分字之后的输出目标为:
0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 1。
c.提取相关特征;
所述相关特征包括每个字的向量特征,字向量可以采用word2vec/Glove方案初始化,也可以随机初始化,在模型训练过程中实时更新。
辅助特征是在训练数据预先统计好的泛化特征,训练过程中固定不动。辅助特征具体包括以下一种或多种特征:
(1)分词特征
所述分词特征可以指采用离散值表征文本分词信息的特征。
例如:对于给定文本“唱词断句”,本申请实施例将其拆分为四个单字作为模型输入,分别为“唱”、“词”、“断”、“句”,为了引入分词信息到单字中,本申请实施例采用两位离散值表示分词信息,用“0 0”表示分词后是单字的字对应的特征,利用“1 0”表示分词后不处于词尾的字对应的特征,利用“0 1”表示词尾的字对应的特征,在上面的例子中,“唱”、“词”、“断”的分词特征均为“1 0”,“句”的分词特征为“0 1”。
(2)词共现特征
所述词共现特征可以用于表征当前字Wi与断句位置的共现情况。
具体地,采用点级互信息(PMI)公式分别计算当前字前、后为断句位置的特征值:
上述公式分别表示字后断句及字前断句的特征值,上述断句即为前文所述输出目标为1的位置信息,上述公式表示词Wi和断句共同出现的情况。
(3)停顿时长特征
所述词间停顿时长可以指当前词对应语音数据与后一个词对应语音数据之间的时间间隔。
具体提取时,可以直接获取当前字结束位置与后一个字开始位置的时间长度即可。本申请实施例利用字幕文件和对应音视频文件进行边界对齐,获取到对应停顿时长;停顿习惯一定程度上与语义断句有一定的相关性,合理利用停顿时长特征能够较大改善断句效果。
(4)语速特征
所述语速特征可以指截止到当前词对应语音数据中说话人的平均说话速度。
具体计算时,直接统计截止到当前字的字总数以及截止到当前字的语音数据总时长,计算所述字总数与总时长的比值得到说话人历史平均语速。语速特征与停顿时长特征具有一定的互补性,可以一定程度上避免由于说话人平均语速较慢而带来的语义切分过碎的现象。
(5)字尾基频走势
所述字尾基频走势可以指当前词的字尾处连续基频值。
具体提取时,本申请实施例在语音数据上找到当前字的结束位置,从该结束位置依次向前取多帧语音数据的基频值作为当前字字尾的基频走势。
例如:可以使用1×n的向量表示,其中n表示向量的帧数,具体向前取多少帧,根据应用需求或实验结果确定,如取前10帧的基频值,得到的一个10维的基频走势向量。
(6)字尾能量变化
所述字尾能量变化可以指当前的字尾对应语音数据的能量变化。
具体提取时,本申请实施例在语音数据上找到当前字的结束位置,从该结束位置依次向前计算多帧语音数据的能量值、一阶差分、二阶差分。
例如:使用大小为m×3的矩阵表示,其中m表示向前取的帧数,具体可以根据应用需求或实验结果确定,3维分别对应表示能量值、一阶差分值、二阶差分值。
2、断句模型训练
构建好上述输入输出对以及辅助特征以后,本申请实施例利用序列标注框架对每个字进行标签预测,判断每个字之后是否需要断句处理。
具体的,输入特征为字对应的向量以及辅助特征,模型结构可以采用常见的LSTM、BLSTM、Self-Attention结构等,具体结构本申请实施例不再赘述。输出类别可以分为断句或不断句两类,分别利用1和0表示。
图4示出了本申请实施例中Self-Attention结构的断句模型示意图。
如图所示,word-Embedding表示字Embedding拼接上述泛化特征,训练过程中模型参数采用随机梯度下降算法进行更新,本申请对该算法的具体方案不再赘述。
由上可见,本申请实施例采用的神经网络结构可以为通用网络技术,改进点之一在于多种泛化特征融合作为辅助特征进行断句模型的优化。
此外,为了进一步对断句字数进行约束,在训练过程中,本申请实施例创新性的提出了全局标签特征的概念,即,将当前字前M个字对应的输出目标作为特征拼接到一起,作为特征辅助当前字进行目标预测。具体的,将前M个字对应的特征向量与Softmax之前的隐层表达拼接到一起,进行目标预测,可以较好的起到约束断句字数的作用。这里M不大于预设要求的单句最大字数。全集标签特征可以模拟数据的先验分布,用该分布约束模型预测的结果。
例如:
“观众朋友们大家晚上好这里是中央人民电视台”;
“0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 1”
取M=2,则“晚上好这里是”几个字对应的全局标签特征分别为:“00”(“晚”的前两个字对应的特征拼接为00)、“00”(“上”的前两个字对应的特征拼接为00)、“00”(“好”的前两个字对应的特征拼接为00)、“01”(“这”的前两个字对应的特征拼接为01)、“10”(“里”的前两个字对应的特征拼接为10)、“00”(“是”的前两个字对应的特征拼接为00)。
第二步,使用断句模型及语义,对字幕进行智能断句。
本申请实施例既可以应用于非实时的离线场景,也可以用于实时的在线场景。
在非实时场景中,本申请实施例可以接收待添加字幕的视频文件,然后提取出对应的音频信息,最后将音频信息送至语音识别系统得到对应的文本内容。在识别过程中,识别系统可以根据停顿信息对音频进行切片化处理,得到片段化文本。
在实时场景中,本申请实施例可以实时处理端点检测后的语音片段,将音频信息送至语音识别系统识别得到对应的片段化文本。
上述过程中采用的识别系统可以采用深度神经网络实现,具体的网络结构本申请不做限定。
利用预先构建的字幕断句模型进行断句处理的过程,具体如下:
1、将当前片段文本进行预处理,包括分字、提取辅助特征等,其中,词共现PMI特征可以从训练时统计好的查询表中查询得到,停顿及语速特征、字尾基频走势、字尾能量变化等可以结合音频获取得到,具体方法和上述训练过程中辅助特征提取方法类似,本申请在此不做赘述。
2、将上述步骤1中各种特征拼接后输入至字幕断句模型中,利用前向算法计算每个字对应的输出层概率分布,然后利用Beam-Search算法搜索得到K个候选断句结果,其中K为Beam大小。
3、从1到K逐渐遍历每个产生的候选断句结果,判断该结果中每个子句字数是否均不大于最大限制字数(例如:14个字)。如果满足条件,则返回该结果为最终结果并输出;否则,继续执行步骤4。
4、对步骤2中得到的K个候选结果中的第一个结果进行分析,找出其中不满足字数的子句Si(Wi1…Wij…Win),其中n为该子句的总字数,根据Si中断句概率最大的字对应位置进行断句,并对断句后的子句进行规范性检查并不断重复步骤4,直至所有子句字数满足要求。
第三步,对断句后的结果进行后处理,得到对应的输出。
本申请实施例中对断句后的文本的后处理过程包括时码匹配,具体实施时可以利用强制对齐算法将断句后的文本与音视频进行对齐,得到文本在视频中的起止时间边界,具体的对齐算法本申请在此不做赘述。
本申请实施例提供了一种基于广电行业视频字幕自动断句的方法,工作人员直接上传音视频便可一键满足用户端的字幕断句需求,减少了边听边写的环节和人工自动断句的环节。此外,针对广电行业字幕上屏的字数要求,提出了在字数限制的条件下,进行语义特征和模型训练的方法,使得断句结果有更好的效果。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
Claims (7)
1.一种字幕生成方法,其特征在于,包括如下步骤:
确定待添加字幕的视频文件;
提取所述视频文件中对应的音频信息;
根据所述音频信息得到对应的文本;
提取所述文本对应的辅助特征;
根据所述文本对应的辅助特征以及预先构建的字幕断句模型,生成断句后的字幕;
所述字幕断句模型的构建过程,包括:
将样本字幕文件中的文本拆分为若干单字;
利用拆分后的单字构建输入输出对并提取辅助特征,输入为拆分得到的单字,输出目标为该字之后是否需要断句处理的标识信息;
根据所述输入输出对以及辅助特征对神经网络进行训练,得到字幕断句模型;
所述辅助特征的提取过程,包括以下多种:
根据文本中的当前单元数据是否处于词尾,确定该单元数据的分词特征;
根据文本中的单元数据与断句位置的共现情况,确定该单元数据的词共现特征;
根据文本中的单元数据的结束位置与后一单元数据的开始位置之间的时间长度,确定该单元数据的停顿时长特征;
根据截至文本中的当前单元数据的数据总数以及总时长,确定该单元数据的语速特征;
根据文本中的当前单元数据的结束位置以及该单元数据前多帧语音数据的基频值,确定该单元数据的基频走势;
根据文本中的当前单元数据的结束位置以及该单元数据前多帧语音数据的能量值确定该单元数据的能量变化;
在训练过程中进一步包括:
将文本中的当前单元数据的前M个单元数据对应的输出目标进行拼接,拼接后得到全局标签特征;
利用所述全局标签特征对目标进行预测。
2.如权利要求1所述的方法,其特征在于,所述根据所述音频信息得到对应的文本,包括:
根据音频信息中的停顿信息对所述音频信息进行切片化处理;
将切片化处理后的音频信息识别为文本,得到片段化的文本。
3.如权利要求1所述的方法,其特征在于,所述根据所述文本对应的辅助特征以及预先构建的字幕断句模型,生成断句后的字幕,包括:
将所述文本对应的辅助特征进行拼接后输入预先构建的字幕断句模型;
计算所述文本中每个单元数据对应的输出层概率分布,搜索得到K个候选断句结果;
从1到K逐渐遍历每个候选断句结果,输出每个单元数据的字数均满足预设字数限制条件的候选断句结果;
对于不满足预设字数限制条件的候选断句结果,根据断句概率最大的单元数据对应的位置进行断句。
4.如权利要求1所述的方法,其特征在于,进一步包括:
将断句后的字幕与音视频文件进行时码匹配,得到该断句后的字幕在音视频文件中的起止时间。
5.一种字幕生成装置,其特征在于,包括:
文件确定模块,用于确定待添加字幕的视频文件;
音频提取模块,用于提取所述视频文件中对应的音频信息;
文本识别模块,用于根据所述音频信息得到对应的文本;
特征提取模块,用于提取所述文本对应的辅助特征;
字幕生成模块,用于根据所述文本对应的辅助特征以及预先构建的字幕断句模型,生成断句后的字幕;
所述字幕生成模块局提供用于:
将样本字幕文件中的文本拆分为若干单字;
利用拆分后的单字构建输入输出对并提取辅助特征,输入为拆分得到的单字,输出目标为该字之后是否需要断句处理的标识信息;
根据所述输入输出对以及辅助特征对神经网络进行训练,得到字幕断句模型;
所述辅助特征的提取过程,包括以下多种:
根据文本中的当前单元数据是否处于词尾,确定该单元数据的分词特征;
根据文本中的单元数据与断句位置的共现情况,确定该单元数据的词共现特征;
根据文本中的单元数据的结束位置与后一单元数据的开始位置之间的时间长度,确定该单元数据的停顿时长特征;
根据截至文本中的当前单元数据的数据总数以及总时长,确定该单元数据的语速特征;
根据文本中的当前单元数据的结束位置以及该单元数据前多帧语音数据的基频值,确定该单元数据的基频走势;
根据文本中的当前单元数据的结束位置以及该单元数据前多帧语音数据的能量值确定该单元数据的能量变化;
在训练过程中进一步包括:
将文本中的当前单元数据的前M个单元数据对应的输出目标进行拼接,拼接后得到全局标签特征;
利用所述全局标签特征对目标进行预测。
6.一种计算机存储介质,其特征在于,其上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至4任一所述方法的步骤。
7.一种电子设备,其特征在于,包括存储器、以及一个或多个处理器,所述存储器用于存储一个或多个程序;所述一个或多个程序被所述一个或多个处理器执行时,实现如权利要求1至4任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010794808.7A CN112002328B (zh) | 2020-08-10 | 2020-08-10 | 一种字幕生成方法、装置及计算机存储介质、电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010794808.7A CN112002328B (zh) | 2020-08-10 | 2020-08-10 | 一种字幕生成方法、装置及计算机存储介质、电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112002328A CN112002328A (zh) | 2020-11-27 |
CN112002328B true CN112002328B (zh) | 2024-04-16 |
Family
ID=73462915
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010794808.7A Active CN112002328B (zh) | 2020-08-10 | 2020-08-10 | 一种字幕生成方法、装置及计算机存储介质、电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112002328B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112887779B (zh) * | 2021-01-20 | 2022-11-18 | 杭州小众圈科技有限公司 | 基于语音节奏进行自动滚动字幕的方法、系统及装置 |
CN114023308A (zh) * | 2021-12-17 | 2022-02-08 | 广州讯飞易听说网络科技有限公司 | 一种语音语句断句处理方法及系统 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106331893A (zh) * | 2016-08-31 | 2017-01-11 | 科大讯飞股份有限公司 | 实时字幕显示方法及系统 |
JP2017117149A (ja) * | 2015-12-24 | 2017-06-29 | シナノケンシ株式会社 | 電子図書表示装置 |
CN107247706A (zh) * | 2017-06-16 | 2017-10-13 | 中国电子技术标准化研究院 | 文本断句模型建立方法、断句方法、装置及计算机设备 |
CN108090038A (zh) * | 2016-11-11 | 2018-05-29 | 科大讯飞股份有限公司 | 文本断句方法及系统 |
CN109145282A (zh) * | 2017-06-16 | 2019-01-04 | 贵州小爱机器人科技有限公司 | 断句模型训练方法、断句方法、装置及计算机设备 |
CN110705254A (zh) * | 2019-09-27 | 2020-01-17 | 科大讯飞股份有限公司 | 文本断句方法、装置、电子设备和存储介质 |
CN110909549A (zh) * | 2019-10-11 | 2020-03-24 | 北京师范大学 | 对古汉语进行断句的方法、装置以及存储介质 |
CN111160003A (zh) * | 2018-11-07 | 2020-05-15 | 北京猎户星空科技有限公司 | 一种断句方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10606950B2 (en) * | 2016-03-16 | 2020-03-31 | Sony Mobile Communications, Inc. | Controlling playback of speech-containing audio data |
-
2020
- 2020-08-10 CN CN202010794808.7A patent/CN112002328B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017117149A (ja) * | 2015-12-24 | 2017-06-29 | シナノケンシ株式会社 | 電子図書表示装置 |
CN106331893A (zh) * | 2016-08-31 | 2017-01-11 | 科大讯飞股份有限公司 | 实时字幕显示方法及系统 |
CN108090038A (zh) * | 2016-11-11 | 2018-05-29 | 科大讯飞股份有限公司 | 文本断句方法及系统 |
CN107247706A (zh) * | 2017-06-16 | 2017-10-13 | 中国电子技术标准化研究院 | 文本断句模型建立方法、断句方法、装置及计算机设备 |
CN109145282A (zh) * | 2017-06-16 | 2019-01-04 | 贵州小爱机器人科技有限公司 | 断句模型训练方法、断句方法、装置及计算机设备 |
CN111160003A (zh) * | 2018-11-07 | 2020-05-15 | 北京猎户星空科技有限公司 | 一种断句方法及装置 |
CN110705254A (zh) * | 2019-09-27 | 2020-01-17 | 科大讯飞股份有限公司 | 文本断句方法、装置、电子设备和存储介质 |
CN110909549A (zh) * | 2019-10-11 | 2020-03-24 | 北京师范大学 | 对古汉语进行断句的方法、装置以及存储介质 |
Non-Patent Citations (2)
Title |
---|
A Construction Engineering Domain New Word Detection Method with the Combination of BiLSTM-CRF and Information Entropy;Ling Sun;《2019 IEEE 14th International Conference on Intelligent Systems and Knowledge Engineering (ISKE)》;20191231;全文 * |
面向问答式评论文本的属性类别分类方法研究;刘木沐;《中国优秀硕士学位论文全文数据库信息科技辑》;20200615;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112002328A (zh) | 2020-11-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11132518B2 (en) | Method and apparatus for translating speech | |
CN106331893B (zh) | 实时字幕显示方法及系统 | |
CN110704682B (zh) | 一种基于视频多维特征智能推荐背景音乐的方法及系统 | |
CN110705254B (zh) | 文本断句方法、装置、电子设备和存储介质 | |
CN110781668B (zh) | 文本信息的类型识别方法及装置 | |
CN110362819B (zh) | 基于卷积神经网络的文本情感分析方法 | |
CN105893478A (zh) | 一种标签提取方法及设备 | |
CN109710916B (zh) | 一种标签提取方法、装置、电子设备及存储介质 | |
CN112002328B (zh) | 一种字幕生成方法、装置及计算机存储介质、电子设备 | |
CN106227719B (zh) | 中文分词歧义消除方法和系统 | |
CN107665188B (zh) | 一种语义理解方法及装置 | |
CN108009297B (zh) | 基于自然语言处理的文本情感分析方法与系统 | |
CN112399269B (zh) | 视频分割方法、装置、设备及存储介质 | |
CN112149386A (zh) | 一种事件抽取方法、存储介质及服务器 | |
CN111651566B (zh) | 基于多任务的小样本学习的裁判文书争议焦点提取方法 | |
Xu et al. | Text-to-audio grounding: Building correspondence between captions and sound events | |
CN103885924A (zh) | 一种领域自适应的公开课字幕自动生成系统及方法 | |
CN111813923A (zh) | 文本摘要方法、电子设备及存储介质 | |
CN106550268B (zh) | 视频处理方法和视频处理装置 | |
CN114996506A (zh) | 语料生成方法、装置、电子设备和计算机可读存储介质 | |
CN106372083B (zh) | 一种有争议性新闻线索自动发现的方法及系统 | |
CN112949284B (zh) | 一种基于Transformer模型的文本语义相似度预测方法 | |
CN112506405B (zh) | 一种基于互联网监管领域的人工智能语音大屏指挥方法 | |
CN115169293A (zh) | 一种文本隐写分析方法、系统、装置及存储介质 | |
Wang et al. | Video Captioning Based on Joint Image–Audio Deep Learning Techniques |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |