CN109614604B - 字幕处理方法、装置及存储介质 - Google Patents

字幕处理方法、装置及存储介质 Download PDF

Info

Publication number
CN109614604B
CN109614604B CN201811541753.8A CN201811541753A CN109614604B CN 109614604 B CN109614604 B CN 109614604B CN 201811541753 A CN201811541753 A CN 201811541753A CN 109614604 B CN109614604 B CN 109614604B
Authority
CN
China
Prior art keywords
text
subtitle
segmenting
caption
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811541753.8A
Other languages
English (en)
Other versions
CN109614604A (zh
Inventor
蒋帅
陈思姣
梁海金
罗雨
卞东海
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201811541753.8A priority Critical patent/CN109614604B/zh
Publication of CN109614604A publication Critical patent/CN109614604A/zh
Application granted granted Critical
Publication of CN109614604B publication Critical patent/CN109614604B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/635Overlay text, e.g. embedded captions in a TV program

Abstract

本发明实施例提出一种字幕处理方法、装置及计算机可读存储介质。其中字幕处理方法包括:从视频的各帧图像中提取第一字幕文本;在所述第一字幕文本中添加标点,以通过所述标点对所述第一字幕文本进行连接,得到第二字幕文本;对所述第二字幕文本进行分段,以生成所述视频转写的文章。本发明实施例对字幕中的句子追加标点以对字幕进行连接,并对连接后的字幕进行分段,最后生成语义连贯、通顺、信息更丰富的文章。该方法编辑的准确性高且可以避免人工方式的主观性偏差;同时该方法具有更高的时效性,节省了人力成本和时间成本。

Description

字幕处理方法、装置及存储介质
技术领域
本发明涉及信息技术领域,尤其涉及一种字幕处理方法、装置及计算机可读存储介质。
背景技术
在根据多媒体内容进行文章转写时,通常情况下所用到的视频源中往往只有不包含标点且没有分段信息的字幕。如果在文章自动生成时,只是简单地把字幕连接起来,读起来会晦涩难懂,而且没有语义分段,这样非常影响用户的阅读体验。
目前,在多媒体转写的过程中,更多的是完全使用人工编辑的方式来对原始文本数据进行句子连接并分段,但这样人工的方式主要存在以下缺陷:(1)偏主观性,对于人工的方式,不同的主观偏见往往会影响文本连接和分段的最终效果。(2)局限性,由于人力有限,往往不能对所有的文本进行连接和分段。(3)复杂低效,人工复述文本,成本高且效能低。(4)准确性差,人工编辑的方式容易出错,无法保证准确性。
发明内容
本发明实施例提供一种字幕处理方法、装置及计算机可读存储介质,以至少解决现有技术中的一个或多个技术问题。
第一方面,本发明实施例提供了一种字幕处理方法,包括:
从视频的各帧图像中提取第一字幕文本;
在所述第一字幕文本中添加标点,以通过所述标点对所述第一字幕文本进行连接,得到第二字幕文本;
对所述第二字幕文本进行分段,以生成所述视频转写的文章。
在一种实施方式中,从视频的各帧图像中提取第一字幕文本,包括:利用字幕热度图从视频的各帧图像中提取所述第一字幕文本。
在一种实施方式中,利用字幕热度图从视频的各帧图像中提取所述第一字幕文本,包括:
通过光学字符识别对所述视频的各帧图像进行识别,生成所述字幕热度图;
对所述字幕热度图进行过滤处理,得到所述第一字幕文本所在的区域;
从所述第一字幕文本所在的区域中提取所述第一字幕文本。
在一种实施方式中,通过光学字符识别对所述视频的各帧图像进行识别,生成所述字幕热度图,包括:
通过光学字符识别对所述视频的各帧图像进行识别,得到各帧图像中的字符所在区域;
根据各帧图像中的字符所在区域,生成像素矩阵,其中,视频图像中的每个像素对应所述像素矩阵中的一个元素,若视频图像中的某个像素属于某帧图像中的字符所在区域,则将该像素对应的所述像素矩阵中的元素的值进行累加;
根据所述像素矩阵中的每个元素的值,生成所述字幕热度图。
在一种实施方式中,对所述字幕热度图进行过滤处理,包括:
将文字置信度小于预设的置信度阈值的字符所在区域从所述字幕热度图中过滤掉;
将不在指定区域内的字符所在区域从所述字幕热度图中过滤掉。
在一种实施方式中,对所述字幕热度图进行过滤处理,包括:
将长次比不在预设的长次比阈值范围内的字符所在区域从所述字幕热度图中过滤掉,其中,所述长次比是字符所在区域的字符长度与字符出现次数的比。
在一种实施方式中,在所述第一字幕文本中添加标点,以通过所述标点对所述第一字幕文本进行连接,得到第二字幕文本,包括:
使用第一特征训练贝叶斯模型;
利用训练好的所述贝叶斯模型对所述第一字幕文本进行标点预测。
在一种实施方式中,使用第一特征训练贝叶斯模型,还包括:
对所述第一字幕文本进行分句和切词处理,提取用于训练所述贝叶斯模型的所述第一特征,所述第一特征包括当前短句中的至少一个特征词及其对应的词性、当前短句的后一短句中的至少一个特征词及其对应的词性、当前短句包括的词的数量;
提取所述特征词的词频和逆文本频率指数,并将所述特征词的词频和逆文本频率指数作为训练所述贝叶斯模型的第一特征;
将标点映射成数字,并将所述数字作为训练所述贝叶斯模型的第一标签;
使用所述第一特征和所述第一标签,训练所述贝叶斯模型。
在一种实施方式中,对所述第二字幕文本进行分段,包括以下方式的任意一种:
利用语音识别对所述第二字幕文本进行分段;
利用快速文本分类器对所述第二字幕文本进行分段;
利用快速文本分类器和语音识别对所述第二字幕文本进行分段。
在一种实施方式中,利用语音识别对所述第二字幕文本进行分段,包括:
通过语音识别获取所述视频的语音分段时间区域;
通过光学字符识别获取所述视频的字幕时间区域;
根据所述语音分段时间区域对应的所述字幕时间区域,将所述第二字幕文本进行分段。
在一种实施方式中,利用快速文本分类器对所述第二字幕文本进行分段之前,还包括:
将所述第二字幕文本进行切句处理;
将所述切句处理得到的句子中的长句作为所述快速文本分类器的训练样本;
将所述长句切词,作为训练所述快速文本分类器的第二特征;
将在所述长句后是否分段作为训练所述快速文本分类器的第二标签;
使用所述训练样本、所述第二特征和所述第二标签,训练所述快速文本分类器。
在一种实施方式中,利用快速文本分类器对所述第二字幕文本进行分段,包括:
在所述快速文本分类器中加入序列因子,以通过所述序列因子对所述第二字幕文本中的序列文档进行分段。
在一种实施方式中,利用快速文本分类器和语音识别对所述第二字幕文本进行分段,包括:
通过光学字符识别,识别所述第二字幕文本中是否存在所述序列因子;
将所述第二字幕文本中存在所述序列因子的部分文档,确定为所述第二字幕文本中的序列文档;
利用快速文本分类器对所述序列文档进行分段;
利用语音识别对所述第二字幕文本中除所述序列文档之外的其他部分文档进行分段。
在一种实施方式中,对所述第二字幕文本进行分段,包括:
通过光学字符识别,识别所述第二字幕文本中是否存在所述序列因子;
若所述第二字幕文本中不存在所述序列因子,则利用语音识别对所述第二字幕文本进行分段。
在一种实施方式中,利用快速文本分类器和语音识别对所述第二字幕文本进行分段,包括:
利用语音识别对所述第二字幕文本进行分段;
若利用语音识别进行分段的结果中包括的段落个数小于等于预设的段落个数阈值,或者利用语音识别进行分段的结果中包括的至少一个段落的长度大于等于预设的段落长度阈值,则利用快速文本分类器对所述第二字幕文本进行分段。
第二方面,本发明实施例提供了一种字幕处理装置,包括:
提取单元,用于从视频的各帧图像中提取第一字幕文本;
连接单元,用于在所述第一字幕文本中添加标点,以通过所述标点对所述第一字幕文本进行连接,得到第二字幕文本;
分段单元,用于对所述第二字幕文本进行分段,以生成所述视频转写的文章。
在一种实施方式中,所述提取单元还用于:利用字幕热度图从视频的各帧图像中提取所述第一字幕文本。
在一种实施方式中,所述提取单元包括:
热度图生成子单元,用于通过光学字符识别对所述视频的各帧图像进行识别,生成所述字幕热度图;
过滤处理子单元,用于对所述字幕热度图进行过滤处理,得到所述第一字幕文本所在的区域;
文本提取子单元,用于从所述第一字幕文本所在的区域中提取所述第一字幕文本。
在一种实施方式中,所述热度图生成子单元还用于:
通过光学字符识别对所述视频的各帧图像进行识别,得到各帧图像中的字符所在区域;
根据各帧图像中的字符所在区域,生成像素矩阵,其中,视频图像中的每个像素对应所述像素矩阵中的一个元素,若视频图像中的某个像素属于某帧图像中的字符所在区域,则将该像素对应的所述像素矩阵中的元素的值进行累加;
根据所述像素矩阵中的每个元素的值,生成所述字幕热度图。
在一种实施方式中,所述过滤处理子单元还用于:
将文字置信度小于预设的置信度阈值的字符所在区域从所述字幕热度图中过滤掉;
将不在指定区域内的字符所在区域从所述字幕热度图中过滤掉。
在一种实施方式中,所述过滤处理子单元还用于:
将长次比不在预设的长次比阈值范围内的字符所在区域从所述字幕热度图中过滤掉,其中,所述长次比是字符所在区域的字符长度与字符出现次数的比。
在一种实施方式中,所述连接单元包括:
模型训练子单元,用于使用第一特征训练贝叶斯模型;
标点预测子单元,用于利用训练好的所述贝叶斯模型对所述第一字幕文本进行标点预测。
在一种实施方式中,所述模型训练子单元还用于:
对所述第一字幕文本进行分句和切词处理,提取用于训练所述贝叶斯模型的所述第一特征,所述第一特征包括当前短句中的至少一个特征词及其对应的词性、当前短句的后一短句中的至少一个特征词及其对应的词性、当前短句包括的词的数量;
提取所述特征词的词频和逆文本频率指数,并将所述特征词的词频和逆文本频率指数作为训练所述贝叶斯模型的第一特征;
将标点映射成数字,并将所述数字作为训练所述贝叶斯模型的第一标签;
使用所述第一特征和所述第一标签,训练所述贝叶斯模型。
在一种实施方式中,所述分段单元包括以下任意一种子单元:
语音分段子单元,用于利用语音识别对所述第二字幕文本进行分段;
文本分段子单元,用于利用快速文本分类器对所述第二字幕文本进行分段;
互补分段子单元,用于利用快速文本分类器和语音识别对所述第二字幕文本进行分段。
在一种实施方式中,所述语音分段子单元还用于:
通过语音识别获取所述视频的语音分段时间区域;
通过光学字符识别获取所述视频的字幕时间区域;
根据所述语音分段时间区域对应的所述字幕时间区域,将所述第二字幕文本进行分段。
在一种实施方式中,所述分段单元还包括分类器训练子单元,用于:
将所述第二字幕文本进行切句处理;
将所述切句处理得到的句子中的长句作为所述快速文本分类器的训练样本;
将所述长句切词,作为训练所述快速文本分类器的第二特征;
将在所述长句后是否分段作为训练所述快速文本分类器的第二标签;
使用所述训练样本、所述第二特征和所述第二标签,训练所述快速文本分类器。
在一种实施方式中,所述文本分段子单元还用于:
在所述快速文本分类器中加入序列因子,以通过所述序列因子对所述第二字幕文本中的序列文档进行分段。
在一种实施方式中,所述互补分段子单元还用于:
通过光学字符识别,识别所述第二字幕文本中是否存在所述序列因子;
将所述第二字幕文本中存在所述序列因子的部分文档,确定为所述第二字幕文本中的序列文档;
利用快速文本分类器对所述序列文档进行分段;
利用语音识别对所述第二字幕文本中除所述序列文档之外的其他部分文档进行分段。
在一种实施方式中,所述语音分段子单元还用于:
通过光学字符识别,识别所述第二字幕文本中是否存在所述序列因子;
若所述第二字幕文本中不存在所述序列因子,则利用语音识别对所述第二字幕文本进行分段。
在一种实施方式中,所述互补分段子单元还用于:
利用语音识别对所述第二字幕文本进行分段;
若利用语音识别进行分段的结果中包括的段落个数小于等于预设的段落个数阈值,或者利用语音识别进行分段的结果中包括的至少一个段落的长度大于等于预设的段落长度阈值,则利用快速文本分类器对所述第二字幕文本进行分段。
在一个可能的设计中,字幕处理装置的结构中包括处理器和存储器,所述存储器用于存储支持字幕处理装置执行上述第一方面中字幕处理方法的程序,所述处理器被配置为用于执行所述存储器中存储的程序。所述字幕处理装置还可以包括通信接口,字幕处理装置与其他设备或通信网络通信。
第三方面,本发明实施例提供了一种字幕处理装置,包括:一个或多个处理器;存储装置,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如上述第一方面中任一所述的方法。
第四方面,本发明实施例提供了一种计算机可读存储介质,其存储有计算机程序,该程序被处理器执行时实现上述第一方面中任一所述的方法。
上述技术方案具有如下优点或有益效果:对字幕中的句子追加标点以对字幕进行连接,并对连接后的字幕进行分段,最后生成语义连贯、通顺、信息更丰富的文章。该方法编辑的准确性高且可以避免人工方式的主观性偏差,同时该方法具有更高的时效性,节省了人力成本和时间成本。
上述概述仅仅是为了说明书的目的,并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外,通过参考附图和以下的详细描述,本发明进一步的方面、实施方式和特征将会是容易明白的。
附图说明
在附图中,除非另外规定,否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解,这些附图仅描绘了根据本发明公开的一些实施方式,而不应将其视为是对本发明范围的限制。
图1为本发明实施例提供的字幕处理方法的流程图。
图2为本发明实施例提供的字幕处理方法的字幕提取的流程图。
图3为本发明实施例提供的字幕处理方法的生成字幕热度图的流程图。
图4为本发明实施例提供的字幕处理方法的字幕热度图的示意图。
图5为本发明实施例提供的字幕处理方法的字幕热度图的示意图。
图6a为本发明实施例提供的字幕处理方法的与图5的字幕热度图对应的像素矩阵的Y轴映射图。
图6b为本发明实施例提供的字幕处理方法的与图5的字幕热度图对应的像素矩阵的X轴映射图。
图7为本发明实施例提供的字幕处理方法的字幕热度图的示意图。
图8a为本发明实施例提供的字幕处理方法的与图7的字幕热度图对应的像素矩阵的Y轴映射图。
图8b为本发明实施例提供的字幕处理方法的与图7的字幕热度图对应的像素矩阵的X轴映射图。
图9为本发明实施例提供的字幕处理方法的训练贝叶斯模型的流程图。
图10为本发明实施例提供的字幕处理方法的对字幕进行分段的流程图。
图11为本发明实施例提供的字幕处理方法的训练所述快速文本分类器的流程图。
图12为本发明实施例提供的字幕处理方法的对字幕进行分段的流程图。
图13为本发明实施例提供的字幕处理方法的对字幕进行分段的流程图。
图14为本发明实施例提供的字幕处理方法的对字幕进行分段的流程图。
图15为本发明实施例提供的字幕处理装置的结构框图。
图16为本发明实施例提供的字幕处理装置的提取单元的结构框图。
图17为本发明实施例提供的字幕处理装置的连接单元的结构框图。
图18为本发明实施例提供的字幕处理装置的分段单元的结构框图。
图19为本发明实施例提供的字幕处理装置的分段单元的结构框图。
图20为本发明实施例提供的字幕处理装置的结构框图。
具体实施方式
在下文中,仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样,在不脱离本发明的精神或范围的情况下,可通过各种不同方式修改所描述的实施例。因此,附图和描述被认为本质上是示例性的而非限制性的。
图1为本发明实施例提供的字幕处理方法的流程图。如图1所示,本发明实施例的字幕处理方法包括:
步骤S110,从视频的各帧图像中提取第一字幕文本;
步骤S120,在所述第一字幕文本中添加标点,以通过所述标点对所述第一字幕文本进行连接,得到第二字幕文本;
步骤S130,对所述第二字幕文本进行分段,以生成所述视频转写的文章。
在多媒体转写的过程中,通常情况下所用到的视频源中往往只有不包含标点且没有分段信息的字幕。
在步骤S110中,从视频中提取出第一字幕文本,第一字幕文本包括有效的字幕数据。例如,媒体号的LOGO(LOGOtype,商标/徽标)、APP(Application,应用程序)的LOGO、小标题字幕和滚动新闻字幕都是无效的字幕数据。在提取第一字幕文本的过程中,需要把这些无效的字幕数据过滤掉,从而得到有效的字幕数据。
在步骤S120中,提取出第一字幕文本之后,对第一字幕文本中的句子追加标点,将各个单句用标点连接起来,组成由一个或多个完整的句子构成的连贯、通顺的文本,也就是第二字幕文本。其中,用于连接句子的标点可包括逗号、句号、叹号或分号等。在一种实施方式中,可基于bayes(贝叶斯)模型对第一字幕文本进行标点预测,以将第一字幕文本进行连接,得到第二字幕文本。
在步骤S130中,将整条视频的第二字幕文本的全部句子进行分段,得到语义分明的文章。在一种实施方式中,可基于fasttext(快速文本分类器)和/或ASR(AutomaticSpeech Recognition,语音识别)对字幕进行分段,最后生成语义连贯、通顺、信息更丰富的文章。
在一种实施方式中,步骤S110,从视频的各帧图像中提取第一字幕文本,包括:利用字幕热度图从视频的各帧图像中提取所述第一字幕文本。例如,可利用VCA(VideoContent Analysis,视频内容分析)视频解析数据。应用视频内容分析,首先将场景中背景和目标分离,识别出真正的目标,去除背景干扰(如噪音等),进而分析在视频场景内出现的目标。其中,字幕热度图中每个像素的亮度可以表示出该像素所在位置在字符所在区域内的可能性的大小。在另一种表示方式中,也可以用字幕热度图中每个像素的颜色表示该像素所在位置在字符所在区域内的可能性的大小。根据上述可能性的大小,可确定有效的字幕数据所在的位置,也就是第一字幕文本所在的位置,进而从视频的各帧图像中提取所述第一字幕文本。
图2为本发明实施例提供的字幕处理方法的字幕提取的流程图。如图2所示,在一种实施方式中,利用字幕热度图从视频的各帧图像中提取所述第一字幕文本,包括:
步骤S210,通过光学字符识别对所述视频的各帧图像进行识别,生成所述字幕热度图;
步骤S220,对所述字幕热度图进行过滤处理,得到所述第一字幕文本所在的区域;
步骤S230,从所述第一字幕文本所在的区域中提取所述第一字幕文本。
具体地,在步骤S210中,可利用OCR(Optical Character Recognition,光学字符识别)对第一字幕文本进行识别,根据OCR返回的结果生成所述字幕热度图。在步骤S220中,对所述字幕热度图进行过滤处理,把这些无效的字幕数据过滤掉,得到所述第一字幕文本所在的区域。在步骤S230中,根据OCR返回的结果从第一字幕文本所在的区域中提取第一字幕文本。
图3为本发明实施例提供的字幕处理方法的生成字幕热度图的流程图。如图3所示,在一种实施方式中,图2中的步骤S210,通过光学字符识别对所述视频的各帧图像进行识别,生成所述字幕热度图,具体可包括步骤S310、步骤S320和步骤S330。
步骤S310,通过光学字符识别对所述视频的各帧图像进行识别,得到各帧图像中的字符所在区域。OCR(光学字符识别)的过程包括检查视频中各帧图像中的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程。例如,针对图像中的印刷体字符,采用光学的方式将视频中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,以便后续进一步编辑加工。通过OCR对第一字幕文本进行识别返回的结果中包括从各帧图像中识别出的字符文本以及各帧图像中的字符所在区域。
步骤S320,根据各帧图像中的字符所在区域,生成像素矩阵,其中,视频图像中的每个像素对应所述像素矩阵中的一个元素,若视频图像中的某个像素属于某帧图像中的字符所在区域,则将该像素对应的所述像素矩阵中的元素的值进行累加。
在这一步骤中,采用像素统计的方法,将视频中的各帧图像转化为像素的二维矩阵,其中图像中的每个像素对应矩阵中的一个元素。矩阵中的每个元素的初始值为0。通过OCR识别出字符所在区域,也就是识别出有文字的区域。例如,字符所在区域通常情况下是一个矩形区域。针对有文字的区域,对区域内的每个像素对应的矩阵元素进行线性加权,最终得到根据视频中的所有的帧转化而成的像素矩阵。
具体地,利用OCR对视频中的每一帧进行识别,在每一帧图像中得到有文字的矩形区域。若在某一帧图像上识别到某个像素在有文字的矩形区域内,则将该像素对应的矩阵元素的值加1,或者加某一常数。因此,如果某个像素的所在位置,其在多个帧中被识别为在有文字的矩形区域内,则该像素对应的矩阵元素的值就会被多次累加。因此,像素矩阵中的每个元素的值越大,表示该像素所在位置在字符所在区域内的可能性越大。
步骤S330,根据所述像素矩阵中的每个元素的值,生成所述字幕热度图。具体地,根据像素矩阵中的每个元素的值构成文字热度图。热度图中亮度高的像素对应的矩阵元素的值相应大。另一种表现方式中,也可以用不同的颜色表现文字热度图。
图4为本发明实施例提供的字幕处理方法的字幕热度图的示意图。在图4中,横坐标和纵坐标的单位都是像素。图4表示一个还没有经过任何过滤的视频文字热度图。从图4中可以看出,有4个大区域是有文字的,也就是图4中亮度比较大的区域,位置分别是左上区域、右上区域、正中区域、下区域。但这些区域中,有一部分区域是噪音,并不是真正想用的字幕。如左上区域可能是媒体号的LOGO、右上区域可能是APP的LOGO、正中区域可能是视频信息附带的一些噪音,这些LOGO都需要过滤掉,下区域中的内容才是真正的字幕。
在一种实施方式中,图2中的步骤S220,对所述字幕热度图进行过滤处理,具体可包括:
将文字置信度小于预设的置信度阈值的字符所在区域从所述字幕热度图中过滤掉;
将不在指定区域内的字符所在区域从所述字幕热度图中过滤掉。
在这种实施方式中,基于空间特征对字幕热度图进行过滤处理。字幕一般集中于视频下方的一个固定区域,所以可以根据字幕的坐标位置得到字幕的大致区域。
例如,可预先设置字符所在区域的置信度阈值。其中,利用OCR得到文字置信度,文字置信度是指OCR返回的矩形区域的准确程度。文字置信度越高,表示该矩形区域内存在字幕的可能性越大,而其属于噪音的可能性越小。还可以预先设置至少一个指定区域。例如将视频图像下方的一个字幕集中的长矩形区域设置为指定区域。使用文字置信度及区域限定特征,得到字幕的大致区域。
在一个示例中,在清洗非字幕噪音时,可使用文字置信度及区域限定特征:
A)对于文字置信度:只使用置信度大于等于0.97的句子,其中设置置信度阈值为0.97;
B)区域限定:只使用视频下方1/3处的句子,其中设置指定区域为视频图像最下方占总图像面积1/3的矩形区域。
图5为本发明实施例提供的字幕处理方法的字幕热度图的示意图。在图5中,横坐标和纵坐标的单位都是像素。图5表示基于以上这两个特征限定得到字幕热度图。由图5可以看出大多数的噪音都已经过滤掉。如左上区域的媒体号的LOGO、右上区域的APP的LOGO、正中区域的视频信息附带的一些噪音都已经过滤掉。
图6a为本发明实施例提供的字幕处理方法的与图5的字幕热度图对应的像素矩阵的Y轴映射图。图6b为本发明实施例提供的字幕处理方法的与图5的字幕热度图对应的像素矩阵的X轴映射图。在图6a和图6b中,横坐标的单位是像素;纵坐标表示像素对应的矩阵元素的值。图6a和图6b中的像素矩阵折线图更直观地反馈了相关的字幕位置信息。
图6a是像素矩阵的Y轴映射,可以看出,在Y轴的325-350像素区间是字幕集中出现的区域。也就是说,在Y轴的325-350坐标处出现的字幕次数最多。
图6b是像素矩阵的X轴映射,可以看出,在X轴的0-125、300-550像素区域是字幕集中出现的区域。也就是说,在X轴的0-125、300-550坐标处出现的字幕次数最多。
在一种实施方式中,图2中的步骤S220,对所述字幕热度图进行过滤处理,还可包括:
将长次比不在预设的长次比阈值范围内的字符所在区域从所述字幕热度图中过滤掉,其中,所述长次比是字符所在区域的字符长度与字符出现次数的比。
在这种实施方式中,基于时间特征对字幕热度图进行过滤处理,进一步识别出字幕位置。基于时间特征的字幕位置识别方法主要包括过滤掉小标题字幕及滚动新闻字幕。其中,小标题字幕是在字幕区域中的某个固定区域持续展现的文字,如示例视频中的“本期人物:李XX”。滚动新闻字幕一般是在静态字幕稍偏下方出现的动态滑动的文字,如在新闻视频中下方的滚动新闻字幕可能是天气预报的内容。这两种字幕都是噪音,会影响真实字幕的识别,都需要过滤处理。
针对以上两种噪音字幕,利用时间特征,分别计算每个句子的“长次比”。长次比就句子字符长度和句子出现次数的比例。
小标题字幕一般是固定的短句且连续出现非常多次,所以其“长次比”非常小。
滚动新闻字幕的特点是字符位置集中。滚动新闻字幕的长度是OCR返回的矩形区域的长度,也就是矩形区域的x轴方向的边长。由于是滚动字幕,所以每一帧的字符基本上都不一样,每个句子最多出现一次。因此其“长次比”非常大。
综上所述,只需设置一个合适的“长次比”,即可过滤掉上述两种噪音字幕。也就是将“长次比”非常小的小标题字幕和“长次比”非常大的滚动新闻字幕过滤掉。
图7为本发明实施例提供的字幕处理方法的字幕热度图的示意图。在图7中,横坐标和纵坐标的单位都是像素。图7展示了经过基于时间特征对字幕热度图进行过滤处理后的过滤效果。与图5相对比,可以看到,左边的字幕小标题已经过滤掉,图7中保留的是真实的字幕位置信息。
图8a为本发明实施例提供的字幕处理方法的与图7的字幕热度图对应的像素矩阵的Y轴映射图。图8b为本发明实施例提供的字幕处理方法的与图7的字幕热度图对应的像素矩阵的X轴映射图。在图8a和图8b中,横坐标的单位是像素;纵坐标表示像素对应的矩阵元素的值。
上述方法中,首先基于空间特征对字幕热度图进行过滤处理,然后再基于时间特征对字幕热度图进行过滤处理。这两个步骤也执行次序也可以互换,最终将左上区域的媒体号的LOGO、右上区域的APP的LOGO、正中区域的视频信息附带的一些噪音,以及小标题字幕和滚动新闻字幕都过滤掉。
在一种实施方式中,图1中的步骤S120,在所述第一字幕文本中添加标点,以通过所述标点对所述第一字幕文本进行连接,得到第二字幕文本,包括:
使用第一特征训练贝叶斯模型;
利用训练好的所述贝叶斯模型对所述第一字幕文本进行标点预测。
通常情况下,视频的每帧图像中的字幕是一条连贯的短句。因此,在获取第一字幕文本后,利用贝叶斯模型对第一字幕文本进行标点预测时,模型不需要针对细粒度的词与词进行连接,只需要将重点放在短句之间的连接即可。这种方式不仅降低了模型的复杂度和成本,也对提高模型的准确率和召回率有一定的帮助。
在概率论和统计学中,Bayes’theorem(贝叶斯定理)根据事件的先验知识描述事件的概率。贝叶斯定理表达式的示例如下所示:
P(A|B)=P(B|A)*P(A)/P(B)
其中,P(A|B)表示在事件B下事件A发生的条件概率;
P(B|A)表示在事件A下事件B发生的条件概率;
P(A)和P(B)分别表示独立事件A和独立事件B的边缘概率。
贝叶斯分类器是各种分类器中分类错误概率最小或者在预先给定代价的情况下平均风险最小的分类器。它的设计方法是一种最基本的统计分类方法。其分类原理是通过某对象的先验概率,利用贝叶斯定理表达式计算出其后验概率,即该对象属于某一类的概率,选择具有最大后验概率的类作为该对象所属的类。
朴素贝叶斯分类器是一个基于贝叶斯定理的比较简单的概率分类器,“朴素”是指对于模型中各个特征有强独立性的假设,并未将特征间的相关性纳入模型分类的考虑中。
本发明实施例中,可使用贝叶斯分类器或朴素贝叶斯分类器对字幕进行连接。其中,使用朴素贝叶斯分类器可实现较高的准确率和召回率。
图9为本发明实施例提供的字幕处理方法的训练贝叶斯模型的流程图。如图9所示,在一种实施方式中,使用第一特征训练贝叶斯模型,还包括:
步骤S410,对所述第一字幕文本进行分句和切词处理,提取用于训练所述贝叶斯模型的所述第一特征,所述第一特征包括当前短句中的至少一个特征词及其对应的词性、当前短句的后一短句中的至少一个特征词及其对应的词性、当前短句包括的词的数量;
步骤S420,提取所述特征词的词频和逆文本频率指数,并将所述特征词的词频和逆文本频率指数作为训练所述贝叶斯模型的第一特征;
步骤S430,将标点映射成数字,并将所述数字作为训练所述贝叶斯模型的第一标签;
步骤S440,使用所述第一特征和所述第一标签,训练所述贝叶斯模型。
在训练贝叶斯模型的过程中,可试验不同的特征,如当前短句若干词及其对应的词性、当前短句的后一短句若干词及其对应的词性、当前短句包括的词的数量等,基于以上特征计算当前分句标点的概率。
使用不同的特征分别对模型进行训练,主要可包括如下步骤:
在步骤S410中,将第一字幕文本进行分句、切词,根据需求提取不同的特征,作为训练贝叶斯模型的第一特征。
例如,利用标点进行分句。利用NLPC(NLP Cloud,NLP技术云服务)进行切词。其中NLP技术(Natural Language Processing,自然语言处理)是人工智能的一个子领域。可以分别尝试将一个句子可以分成例如5个词、3个词或1个词的模式。选取效果最好的模式进行分词。
在步骤S420中,对特征词提取TF-IDF(term frequency-inverse documentfrequency)。
TF-IDF是一种用于信息检索与数据挖掘的常用加权技术。TF(Term Frequency)意思是词频,IDF(Inverse Document Frequency)意思是逆文本频率指数。TF-IDF是一种统计方法,用以评估字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被应用,作为文件与用户查询之间相关程度的度量或评级。将特征词的TF-IDF也作为训练贝叶斯模型的第一特征。
在步骤S430中,将标点映射成数字,并作为训练所述贝叶斯模型的第一标签。例如,将分号映射为0,句号映射为1,叹号映射为2等。将标点映射成数字,便于模型的识别。
在步骤S440中,对贝叶斯模型训练,并计算不同特征对应的准确率和召回率。特征是数据中抽取出来的对结果预测有用的信息,基于准确率和召回率,选择有意义的特征输入贝叶斯模型进行训练。
在一种实施方式中,对所述第二字幕文本进行分段,包括以下方式的任意一种:
利用ASR(语音识别)对所述第二字幕文本进行分段;
利用fasttext(快速文本分类器)对所述第二字幕文本进行分段;
利用快速文本分类器和语音识别对所述第二字幕文本进行分段。
根据视频内容转写的文章,通过步骤S120对第一字幕文本进行连接,可以得到带有标点信息的一大段文本,也就是第二字幕文本。由汉语语法可知,通常情况下只有在长句的后面的文本,才有可能会另分为一段。也就是说,一个段落的末尾通常是一个长句。例如,以句号、叹号或问号等标点结尾的长句,其后面的文本有可能会另分为一段,这种长句可能是一个段落的最后一个句子。因此可以对长句进行分类,识别出哪些长句是段落的最后一个句子,从而对第二字幕文本进行分段。具体地,可采用以下两种方式进行分段:
(1)利用ASR从语音的维度对视频进行分析。通常情况下在不同段落之间,语音会停顿更久。利用ASR识别结果中的语音停顿时间,并结合视频中字幕的显示时间进行分段。
(2)利用fasttext从文本的维度对视频进行分析。在fasttext中,可根据语义的区别来划分段落。
另外也可以将以上两种方式结合起来对第二字幕文本进行分段,使两种方式互补,以达到理想的效果。
图10为本发明实施例提供的字幕处理方法的对字幕进行分段的流程图。如图10所示,在一种实施方式中,利用语音识别对所述第二字幕文本进行分段,包括:
步骤S510,通过ASR(语音识别)获取所述视频的语音分段时间区域;
步骤S520,通过OCR(光学字符识别)获取所述视频的字幕时间区域;
步骤S530,根据所述语音分段时间区域对应的所述字幕时间区域,将所述第二字幕文本进行分段。
由于视频的声音中可能存在背景音乐,使用ASR识别文字,会导致准确率降低。因此,可在步骤S510中获取ASR的语音分段时间区域,如语音停顿时间超过预设时间阈值时,可认为停顿时间较长,则将这段停顿时间确定为与段落的结尾相对应。另一方面,在步骤S520中,通过OCR获取视频的字幕时间区域,也就是视频显示的字幕中各个句子对应的显示时间。由于ASR的语音分段时间区域与OCR的字幕时间区域是对应的,因此在步骤S530中,根据ASR的语音分段时间区域,可得到对应的OCR的字幕时间区域,再利用OCR从字幕中提取文字。也就是说,将OCR识别出的字幕根据ASR语音分段时间区域进行切分,最终得到整个视频的分段信息。
具体地,可以使用在ASR中表示时间信息的时间线。根据ASR语音的时间线,可以知道语音在某段时间内是均匀、连续的,在均匀、连续的这一段时间之后可能有较长的停顿,这些信息可以作为分段的一个特征。可将较长停顿的前面一段均匀、连续的时间内的语音确定为一个段落。再结合OCR识别的表示时间信息的字幕时间线,就得到了整个视频的字幕时间分布,从而对齐进行分段。
图11为本发明实施例提供的字幕处理方法的训练所述快速文本分类器的流程图。如图11所示,在一种实施方式中,利用快速文本分类器对所述第二字幕文本进行分段之前,还包括:
步骤S610,将所述第二字幕文本进行切句处理;
步骤S620,将所述切句处理得到的句子中的长句作为所述快速文本分类器的训练样本;
步骤S630,将所述长句切词,作为训练所述快速文本分类器的第二特征;
步骤S640,将在所述长句后是否分段作为训练所述快速文本分类器的第二标签;
步骤S650,使用所述训练样本、所述第二特征和所述第二标签,训练所述快速文本分类器。
在这种实施方式中,基于fasttext模型,将整篇文章切句,每个长句可作为训练数据的一个样本。例如以句号、问号或叹号结尾的句子可作为训练数据的样本。然后再将长句切词,作为训练快速文本分类器的第二特征。将是否分段作为训练快速文本分类器的第二标签。
在一种实施方式中,利用快速文本分类器对所述第二字幕文本进行分段,包括:
在所述快速文本分类器中加入序列因子,以通过所述序列因子对所述第二字幕文本中的序列文档进行分段。
在这种实施方式中,可在fasttext中引入序列因子,以对具有序列型结构的序列文档有更好的分段效果。序列文档中通常含有明显的序列型结构,例如在文档中有如下类似表述:“内容具体包括以下几点:第一、……第二、……第三、……。”再如在文档中有如下类似表述:“通过以下方式解决:1、……2、……3、……。”从以上示例可以看出,序列文档中有明显的标号、序号或项目符号等表示序列的文本,这类表示序列的文本就是序列因子。其中的标号、序号或项目符号包括但不限于大写数字、小写数字(阿拉伯数字)、罗马数字和以图形形式表现的项目符号和标号等。具体格式又可包括带括号的字符和带圈的字符等。在fasttext中引入序列因子,可在处理序列文档的过程中增大序列因子对分段的影响。可使用语料训练得到最终的fasttext模型。
图12为本发明实施例提供的字幕处理方法的对字幕进行分段的流程图。如图12所示,在一种实施方式中,利用快速文本分类器和语音识别对所述第二字幕文本进行分段,包括:
步骤S710,通过OCR(光学字符识别),识别所述第二字幕文本中是否存在所述序列因子;
步骤S720,将所述第二字幕文本中存在所述序列因子的部分文档,确定为所述第二字幕文本中的序列文档;
步骤S730,利用快速文本分类器对所述序列文档进行分段;
步骤S740,利用ASR(语音识别)对所述第二字幕文本中除所述序列文档之外的其他部分文档进行分段。
在这种实施方式中,将ASR和fasttext两种方式结合起来对第二字幕文本进行分段,使两种方式互补,其中一个示例性的互补方式可包括:
利用OCR识别文档中是否有序列因子,如第一、第二等。对于存在序列因子的那部分文档,利用快速文本分类器采用文本维度的方式进行分段。对于文档的其他部分,利用ASR采用语音维度的方式进行分段。例如,在存在序列因子的那部分文档之前可能还有相关内容简介,之后可能还有结束语。则对于相关内容简介和结束语这两部分内容,可利用ASR采用语音维度的方式进行分段。
图13为本发明实施例提供的字幕处理方法的对字幕进行分段的流程图。如图13所示,在一种实施方式中,对所述第二字幕文本进行分段,包括:
步骤S810,通过OCR(光学字符识别),识别所述第二字幕文本中是否存在所述序列因子;
步骤S820,若所述第二字幕文本中不存在所述序列因子,则利用ASR(语音识别)对所述第二字幕文本进行分段。
通常情况下,对于存在序列因子的文档,采用fasttext对文档分段的效果比较好。而对于不存在序列因子的文档,采用ASR对文档分段的效果比较好。因此利用OCR识别文档中是否有序列因子,若文档中没有序列因子,则利用ASR采用语音维度的方式进行分段。
图14为本发明实施例提供的字幕处理方法的对字幕进行分段的流程图。如图14所示,在一种实施方式中,利用快速文本分类器和语音识别对所述第二字幕文本进行分段,包括:
步骤S910,利用ASR(语音识别)对所述第二字幕文本进行分段;
步骤S920,若利用语音识别进行分段的结果中包括的段落个数小于等于预设的段落个数阈值,或者利用语音识别进行分段的结果中包括的至少一个段落的长度大于等于预设的段落长度阈值,则利用fasttext(快速文本分类器)对所述第二字幕文本进行分段。
视频中的语音可能在段落间隔处有停顿时间较少的情况,在这种情况下通过ASR不能进行准确分段。因此,将ASR和fasttext两种方式结合起来对第二字幕文本进行分段,使两种方式互补,其中一个示例性的互补方式可包括:若利用ASR采用语音维度的方式进行分段,分段的结果发现段落太长或者只有一个段落,则利用fasttext采用文本维度的方式进行分段。
上述技术方案具有如下优点或有益效果:对字幕中的句子追加标点以对字幕进行连接,并对连接后的字幕进行分段,最后生成语义连贯、通顺、信息更丰富的文章。该方法编辑的准确性高且可以避免人工方式的主观性偏差,同时该方法具有更高的时效性,节省了人力成本和时间成本。
图15为本发明实施例提供的字幕处理装置的结构框图。如图15所示,本发明实施例的字幕处理装置包括:
提取单元100,用于从视频的各帧图像中提取第一字幕文本;
连接单元200,用于在所述第一字幕文本中添加标点,以通过所述标点对所述第一字幕文本进行连接,得到第二字幕文本;
分段单元300,用于对所述第二字幕文本进行分段,以生成所述视频转写的文章。
在一种实施方式中,所述提取单元100还用于:利用字幕热度图从视频的各帧图像中提取所述第一字幕文本。
图16为本发明实施例提供的字幕处理装置的提取单元的结构框图。如图16所示,在一种实施方式中,所述提取单元100包括:
热度图生成子单元110,用于通过光学字符识别对所述视频的各帧图像进行识别,生成所述字幕热度图;
过滤处理子单元120,用于对所述字幕热度图进行过滤处理,得到所述第一字幕文本所在的区域;
文本提取子单元130,用于从所述第一字幕文本所在的区域中提取所述第一字幕文本。
在一种实施方式中,所述热度图生成子单元110还用于:
通过光学字符识别对所述视频的各帧图像进行识别,得到各帧图像中的字符所在区域;
根据各帧图像中的字符所在区域,生成像素矩阵,其中,视频图像中的每个像素对应所述像素矩阵中的一个元素,若视频图像中的某个像素属于某帧图像中的字符所在区域,则将该像素对应的所述像素矩阵中的元素的值进行累加;
根据所述像素矩阵中的每个元素的值,生成所述字幕热度图。
在一种实施方式中,所述过滤处理子单元120还用于:
将文字置信度小于预设的置信度阈值的字符所在区域从所述字幕热度图中过滤掉;
将不在指定区域内的字符所在区域从所述字幕热度图中过滤掉。
在一种实施方式中,所述过滤处理子单元120还用于:
将长次比不在预设的长次比阈值范围内的字符所在区域从所述字幕热度图中过滤掉,其中,所述长次比是字符所在区域的字符长度与字符出现次数的比。
图17为本发明实施例提供的字幕处理装置的连接单元的结构框图。如图17所示,在一种实施方式中,所述连接单元200包括:
模型训练子单元210,用于使用第一特征训练贝叶斯模型;
标点预测子单元220,用于利用训练好的所述贝叶斯模型对所述第一字幕文本进行标点预测。
在一种实施方式中,所述模型训练子单元210还用于:
对所述第一字幕文本进行分句和切词处理,提取用于训练所述贝叶斯模型的所述第一特征,所述第一特征包括当前短句中的至少一个特征词及其对应的词性、当前短句的后一短句中的至少一个特征词及其对应的词性、当前短句包括的词的数量;
提取所述特征词的词频和逆文本频率指数,并将所述特征词的词频和逆文本频率指数作为训练所述贝叶斯模型的第一特征;
将标点映射成数字,并将所述数字作为训练所述贝叶斯模型的第一标签;
使用所述第一特征和所述第一标签,训练所述贝叶斯模型。
图18为本发明实施例提供的字幕处理装置的分段单元的结构框图。如图18所示,在一种实施方式中,所述分段单元300包括以下任意一种子单元:
语音分段子单元310,用于利用语音识别对所述第二字幕文本进行分段;
文本分段子单元320,用于利用快速文本分类器对所述第二字幕文本进行分段;
互补分段子单元330,用于利用快速文本分类器和语音识别对所述第二字幕文本进行分段。
在一种实施方式中,所述语音分段子单元310还用于:
通过语音识别获取所述视频的语音分段时间区域;
通过光学字符识别获取所述视频的字幕时间区域;
根据所述语音分段时间区域对应的所述字幕时间区域,将所述第二字幕文本进行分段。
图19为本发明实施例提供的字幕处理装置的分段单元的结构框图。如图19所示,在一种实施方式中,所述分段单元300还包括分类器训练子单元340,用于:
将所述第二字幕文本进行切句处理;
将所述切句处理得到的句子中的长句作为所述快速文本分类器的训练样本;
将所述长句切词,作为训练所述快速文本分类器的第二特征;
将在所述长句后是否分段作为训练所述快速文本分类器的第二标签;
使用所述训练样本、所述第二特征和所述第二标签,训练所述快速文本分类器。
在一种实施方式中,所述文本分段子单元320还用于:
在所述快速文本分类器中加入序列因子,以通过所述序列因子对所述第二字幕文本中的序列文档进行分段。
在一种实施方式中,所述互补分段子单元330还用于:
通过光学字符识别,识别所述第二字幕文本中是否存在所述序列因子;
将所述第二字幕文本中存在所述序列因子的部分文档,确定为所述第二字幕文本中的序列文档;
利用快速文本分类器对所述序列文档进行分段;
利用语音识别对所述第二字幕文本中除所述序列文档之外的其他部分文档进行分段。
在一种实施方式中,所述语音分段子单元310还用于:
通过光学字符识别,识别所述第二字幕文本中是否存在所述序列因子;
若所述第二字幕文本中不存在所述序列因子,则利用语音识别对所述第二字幕文本进行分段。
在一种实施方式中,所述互补分段子单元330还用于:
利用语音识别对所述第二字幕文本进行分段;
若利用语音识别进行分段的结果中包括的段落个数小于等于预设的段落个数阈值,或者利用语音识别进行分段的结果中包括的至少一个段落的长度大于等于预设的段落长度阈值,则利用快速文本分类器对所述第二字幕文本进行分段。
本发明实施例的字幕处理装置中各单元的功能可以参见上述方法的相关描述,在此不再赘述。
在一个可能的设计中,字幕处理装置的结构中包括处理器和存储器,所述存储器用于存储支持字幕处理装置执行上述字幕处理方法的程序,所述处理器被配置为用于执行所述存储器中存储的程序。所述字幕处理装置还可以包括通信接口,字幕处理装置与其他设备或通信网络通信。
图20为本发明实施例提供的字幕处理装置的结构框图。如图20所示,该装置包括:存储器101和处理器102,存储器101内存储有可在处理器102上运行的计算机程序。所述处理器102执行所述计算机程序时实现上述实施例中的字幕处理方法。所述存储器101和处理器102的数量可以为一个或多个。
该装置还包括:
通信接口103,用于与外界设备进行通信,进行数据交互传输。
存储器101可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
如果存储器101、处理器102和通信接口103独立实现,则存储器101、处理器102和通信接口103可以通过总线相互连接并完成相互间的通信。所述总线可以是工业标准体系结构(ISA,Industry Standard Architecture)总线、外部设备互连(PCI,PeripheralComponent)总线或扩展工业标准体系结构(EISA,Extended Industry StandardComponent)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图20中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
可选的,在具体实现上,如果存储器101、处理器102及通信接口103集成在一块芯片上,则存储器101、处理器102及通信接口103可以通过内部接口完成相互间的通信。
又一方面,本发明实施例提供了一种计算机可读存储介质,其存储有计算机程序,该程序被处理器执行时实现上述字幕处理方法中任一所述的方法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读存储介质中。所述存储介质可以是只读存储器,磁盘或光盘等。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到其各种变化或替换,这些都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (30)

1.一种字幕处理方法,其特征在于,包括:
利用字幕热度图从视频的各帧图像中提取第一字幕文本;所述字幕热度图具有对应的像素矩阵,所述像素矩阵包括赋值后的多个元素,所述元素的值基于各所述帧图像中与所述元素对应的像素的识别结果累加得到,所述识别结果用于表征所述对应的像素的所在位置在字符所在区域内,且所述元素的值与所述字幕热度图中与所述元素对应的像素的亮度或颜色相关联;
在所述第一字幕文本中添加标点,以通过所述标点对所述第一字幕文本进行连接,得到第二字幕文本;
对所述第二字幕文本进行分段,以生成所述视频转写的文章。
2.根据权利要求1所述的方法,其特征在于,利用字幕热度图从视频的各帧图像中提取所述第一字幕文本,包括:
通过光学字符识别对所述视频的各帧图像进行识别,生成所述字幕热度图;
对所述字幕热度图进行过滤处理,得到所述第一字幕文本所在的区域;
从所述第一字幕文本所在的区域中提取所述第一字幕文本。
3.根据权利要求2所述的方法,其特征在于,通过光学字符识别对所述视频的各帧图像进行识别,生成所述字幕热度图,包括:
通过光学字符识别对所述视频的各帧图像进行识别,得到各帧图像中的字符所在区域;
根据各帧图像中的字符所在区域,生成像素矩阵,其中,视频图像中的每个像素对应所述像素矩阵中的一个元素,若视频图像中的某个像素属于某帧图像中的字符所在区域,则将该像素对应的所述像素矩阵中的元素的值进行累加;
根据所述像素矩阵中的每个元素的值,生成所述字幕热度图。
4.根据权利要求2所述的方法,其特征在于,对所述字幕热度图进行过滤处理,包括:
将文字置信度小于预设的置信度阈值的字符所在区域从所述字幕热度图中过滤掉;
将不在指定区域内的字符所在区域从所述字幕热度图中过滤掉。
5.根据权利要求2所述的方法,其特征在于,对所述字幕热度图进行过滤处理,包括:
将长次比不在预设的长次比阈值范围内的字符所在区域从所述字幕热度图中过滤掉,其中,所述长次比是字符所在区域的字符长度与字符出现次数的比。
6.根据权利要求1-5中任一项所述的方法,其特征在于,在所述第一字幕文本中添加标点,以通过所述标点对所述第一字幕文本进行连接,得到第二字幕文本,包括:
使用第一特征训练贝叶斯模型;
利用训练好的所述贝叶斯模型对所述第一字幕文本进行标点预测。
7.根据权利要求6所述的方法,其特征在于,使用第一特征训练贝叶斯模型,还包括:
对所述第一字幕文本进行分句和切词处理,提取用于训练所述贝叶斯模型的所述第一特征,所述第一特征包括当前短句中的至少一个特征词及其对应的词性、当前短句的后一短句中的至少一个特征词及其对应的词性、当前短句包括的词的数量;
提取所述特征词的词频和逆文本频率指数,并将所述特征词的词频和逆文本频率指数作为训练所述贝叶斯模型的第一特征;
将标点映射成数字,并将所述数字作为训练所述贝叶斯模型的第一标签;
使用所述第一特征和所述第一标签,训练所述贝叶斯模型。
8.根据权利要求1-5中任一项所述的方法,其特征在于,对所述第二字幕文本进行分段,包括以下方式的任意一种:
利用语音识别对所述第二字幕文本进行分段;
利用快速文本分类器对所述第二字幕文本进行分段;
利用快速文本分类器和语音识别对所述第二字幕文本进行分段。
9.根据权利要求8所述的方法,其特征在于,利用语音识别对所述第二字幕文本进行分段,包括:
通过语音识别获取所述视频的语音分段时间区域;
通过光学字符识别获取所述视频的字幕时间区域;
根据所述语音分段时间区域对应的所述字幕时间区域,将所述第二字幕文本进行分段。
10.根据权利要求8所述的方法,其特征在于,利用快速文本分类器对所述第二字幕文本进行分段之前,还包括:
将所述第二字幕文本进行切句处理;
将所述切句处理得到的句子中的长句作为所述快速文本分类器的训练样本;
将所述长句切词,作为训练所述快速文本分类器的第二特征;
将在所述长句后是否分段作为训练所述快速文本分类器的第二标签;
使用所述训练样本、所述第二特征和所述第二标签,训练所述快速文本分类器。
11.根据权利要求8所述的方法,其特征在于,利用快速文本分类器对所述第二字幕文本进行分段,包括:
在所述快速文本分类器中加入序列因子,以通过所述序列因子对所述第二字幕文本中的序列文档进行分段。
12.根据权利要求11所述的方法,其特征在于,利用快速文本分类器和语音识别对所述第二字幕文本进行分段,包括:
通过光学字符识别,识别所述第二字幕文本中是否存在所述序列因子;
将所述第二字幕文本中存在所述序列因子的部分文档,确定为所述第二字幕文本中的序列文档;
利用快速文本分类器对所述序列文档进行分段;
利用语音识别对所述第二字幕文本中除所述序列文档之外的其他部分文档进行分段。
13.根据权利要求11所述的方法,其特征在于,利用语音识别对所述第二字幕文本进行分段,包括:
通过光学字符识别,识别所述第二字幕文本中是否存在所述序列因子;
若所述第二字幕文本中不存在所述序列因子,则利用语音识别对所述第二字幕文本进行分段。
14.根据权利要求8所述的方法,其特征在于,利用快速文本分类器和语音识别对所述第二字幕文本进行分段,包括:
利用语音识别对所述第二字幕文本进行分段;
若利用语音识别进行分段的结果中包括的段落个数小于等于预设的段落个数阈值,或者利用语音识别进行分段的结果中包括的至少一个段落的长度大于等于预设的段落长度阈值,则利用快速文本分类器对所述第二字幕文本进行分段。
15.一种字幕处理装置,其特征在于,包括:
提取单元,用于利用字幕热度图从视频的各帧图像中提取第一字幕文本;所述字幕热度图具有对应的像素矩阵,所述像素矩阵包括赋值后的多个元素,所述元素的值基于各所述帧图像中与所述元素对应的像素的识别结果累加得到,所述识别结果用于表征所述对应的像素的所在位置在字符所在区域内,且所述元素的值与所述字幕热度图中与所述元素对应的像素的亮度或颜色相关联;
连接单元,用于在所述第一字幕文本中添加标点,以通过所述标点对所述第一字幕文本进行连接,得到第二字幕文本;
分段单元,用于对所述第二字幕文本进行分段,以生成所述视频转写的文章。
16.根据权利要求15所述的装置,其特征在于,所述提取单元包括:
热度图生成子单元,用于通过光学字符识别对所述视频的各帧图像进行识别,生成所述字幕热度图;
过滤处理子单元,用于对所述字幕热度图进行过滤处理,得到所述第一字幕文本所在的区域;
文本提取子单元,用于从所述第一字幕文本所在的区域中提取所述第一字幕文本。
17.根据权利要求16所述的装置,其特征在于,所述热度图生成子单元还用于:
通过光学字符识别对所述视频的各帧图像进行识别,得到各帧图像中的字符所在区域;
根据各帧图像中的字符所在区域,生成像素矩阵,其中,视频图像中的每个像素对应所述像素矩阵中的一个元素,若视频图像中的某个像素属于某帧图像中的字符所在区域,则将该像素对应的所述像素矩阵中的元素的值进行累加;
根据所述像素矩阵中的每个元素的值,生成所述字幕热度图。
18.根据权利要求16所述的装置,其特征在于,所述过滤处理子单元还用于:
将文字置信度小于预设的置信度阈值的字符所在区域从所述字幕热度图中过滤掉;
将不在指定区域内的字符所在区域从所述字幕热度图中过滤掉。
19.根据权利要求16所述的装置,其特征在于,所述过滤处理子单元还用于:
将长次比不在预设的长次比阈值范围内的字符所在区域从所述字幕热度图中过滤掉,其中,所述长次比是字符所在区域的字符长度与字符出现次数的比。
20.根据权利要求15-19中任一项所述的装置,其特征在于,所述连接单元包括:
模型训练子单元,用于使用第一特征训练贝叶斯模型;
标点预测子单元,用于利用训练好的所述贝叶斯模型对所述第一字幕文本进行标点预测。
21.根据权利要求20所述的装置,其特征在于,所述模型训练子单元还用于:
对所述第一字幕文本进行分句和切词处理,提取用于训练所述贝叶斯模型的所述第一特征,所述第一特征包括当前短句中的至少一个特征词及其对应的词性、当前短句的后一短句中的至少一个特征词及其对应的词性、当前短句包括的词的数量;
提取所述特征词的词频和逆文本频率指数,并将所述特征词的词频和逆文本频率指数作为训练所述贝叶斯模型的第一特征;
将标点映射成数字,并将所述数字作为训练所述贝叶斯模型的第一标签;
使用所述第一特征和所述第一标签,训练所述贝叶斯模型。
22.根据权利要求15-19中任一项所述的装置,其特征在于,所述分段单元包括以下任意一种子单元:
语音分段子单元,用于利用语音识别对所述第二字幕文本进行分段;
文本分段子单元,用于利用快速文本分类器对所述第二字幕文本进行分段;
互补分段子单元,用于利用快速文本分类器和语音识别对所述第二字幕文本进行分段。
23.根据权利要求22所述的装置,其特征在于,所述语音分段子单元还用于:
通过语音识别获取所述视频的语音分段时间区域;
通过光学字符识别获取所述视频的字幕时间区域;
根据所述语音分段时间区域对应的所述字幕时间区域,将所述第二字幕文本进行分段。
24.根据权利要求22所述的装置,其特征在于,所述分段单元还包括分类器训练子单元,用于:
将所述第二字幕文本进行切句处理;
将所述切句处理得到的句子中的长句作为所述快速文本分类器的训练样本;
将所述长句切词,作为训练所述快速文本分类器的第二特征;
将在所述长句后是否分段作为训练所述快速文本分类器的第二标签;
使用所述训练样本、所述第二特征和所述第二标签,训练所述快速文本分类器。
25.根据权利要求22所述的装置,其特征在于,所述文本分段子单元还用于:
在所述快速文本分类器中加入序列因子,以通过所述序列因子对所述第二字幕文本中的序列文档进行分段。
26.根据权利要求25所述的装置,其特征在于,所述互补分段子单元还用于:
通过光学字符识别,识别所述第二字幕文本中是否存在所述序列因子;
将所述第二字幕文本中存在所述序列因子的部分文档,确定为所述第二字幕文本中的序列文档;
利用快速文本分类器对所述序列文档进行分段;
利用语音识别对所述第二字幕文本中除所述序列文档之外的其他部分文档进行分段。
27.根据权利要求25所述的装置,其特征在于,所述语音分段子单元还用于:
通过光学字符识别,识别所述第二字幕文本中是否存在所述序列因子;
若所述第二字幕文本中不存在所述序列因子,则利用语音识别对所述第二字幕文本进行分段。
28.根据权利要求22所述的装置,其特征在于,所述互补分段子单元还用于:
利用语音识别对所述第二字幕文本进行分段;
若利用语音识别进行分段的结果中包括的段落个数小于等于预设的段落个数阈值,或者利用语音识别进行分段的结果中包括的至少一个段落的长度大于等于预设的段落长度阈值,则利用快速文本分类器对所述第二字幕文本进行分段。
29.一种字幕处理装置,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1-14中任一所述的方法。
30.一种计算机可读存储介质,其存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-14中任一所述的方法。
CN201811541753.8A 2018-12-17 2018-12-17 字幕处理方法、装置及存储介质 Active CN109614604B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811541753.8A CN109614604B (zh) 2018-12-17 2018-12-17 字幕处理方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811541753.8A CN109614604B (zh) 2018-12-17 2018-12-17 字幕处理方法、装置及存储介质

Publications (2)

Publication Number Publication Date
CN109614604A CN109614604A (zh) 2019-04-12
CN109614604B true CN109614604B (zh) 2022-05-13

Family

ID=66010265

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811541753.8A Active CN109614604B (zh) 2018-12-17 2018-12-17 字幕处理方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN109614604B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110135429A (zh) * 2019-04-18 2019-08-16 深圳壹账通智能科技有限公司 扫描文字分段方法、装置、计算机设备和存储介质
CN110781649B (zh) * 2019-10-30 2023-09-15 中央电视台 一种字幕编辑方法、装置及计算机存储介质、电子设备
CN110929098B (zh) * 2019-11-14 2023-04-07 腾讯科技(深圳)有限公司 视频数据的处理方法、装置、电子设备及存储介质
CN110889267A (zh) * 2019-11-29 2020-03-17 北京金山安全软件有限公司 一种图片中的字符编辑方法、装置、电子设备及存储介质
CN111652002B (zh) * 2020-06-16 2023-04-18 抖音视界有限公司 文本划分方法、装置、设备和计算机可读介质
CN113343720A (zh) * 2021-06-30 2021-09-03 北京搜狗科技发展有限公司 一种字幕翻译方法、装置和用于字幕翻译的装置
CN113920507B (zh) * 2021-12-13 2022-04-12 成都索贝数码科技股份有限公司 一种针对新闻场景的滚动字幕提取方法
US11770590B1 (en) 2022-04-27 2023-09-26 VoyagerX, Inc. Providing subtitle for video content in spoken language

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101021903A (zh) * 2006-10-10 2007-08-22 鲍东山 视频字幕内容分析系统
CN101267518A (zh) * 2007-02-28 2008-09-17 三星电子株式会社 从内容元数据提取相关信息的方法和装置
CN105516802A (zh) * 2015-11-19 2016-04-20 上海交通大学 多特征融合的新闻视频摘要提取方法
CN106331893A (zh) * 2016-08-31 2017-01-11 科大讯飞股份有限公司 实时字幕显示方法及系统
CN106921891A (zh) * 2015-12-24 2017-07-04 北京奇虎科技有限公司 一种视频特征信息的展示方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101021903A (zh) * 2006-10-10 2007-08-22 鲍东山 视频字幕内容分析系统
CN101267518A (zh) * 2007-02-28 2008-09-17 三星电子株式会社 从内容元数据提取相关信息的方法和装置
CN105516802A (zh) * 2015-11-19 2016-04-20 上海交通大学 多特征融合的新闻视频摘要提取方法
CN106921891A (zh) * 2015-12-24 2017-07-04 北京奇虎科技有限公司 一种视频特征信息的展示方法和装置
CN106331893A (zh) * 2016-08-31 2017-01-11 科大讯飞股份有限公司 实时字幕显示方法及系统

Also Published As

Publication number Publication date
CN109614604A (zh) 2019-04-12

Similar Documents

Publication Publication Date Title
CN109614604B (zh) 字幕处理方法、装置及存储介质
CN111582241B (zh) 视频字幕识别方法、装置、设备及存储介质
CN109145152B (zh) 一种基于查询词的自适应智能生成图文视频缩略图方法
CN110020437B (zh) 一种视频和弹幕相结合的情感分析及可视化方法
US10304458B1 (en) Systems and methods for transcribing videos using speaker identification
CN112527992B (zh) 长文本处理方法、相关设备及可读存储介质
Albanie et al. Bbc-oxford british sign language dataset
KR20210104571A (ko) 멀티 모달리티를 기반으로 하는 주제 분류 방법, 장치, 기기 및 저장 매체
CN110232340B (zh) 建立视频分类模型以及视频分类的方法、装置
CN111078943A (zh) 一种视频文本摘要生成方法及装置
US11031003B2 (en) Dynamic extraction of contextually-coherent text blocks
CN111797820B (zh) 一种视频数据处理方法、装置、电子设备及存储介质
CN112733654B (zh) 一种视频拆条的方法和装置
CN110543637B (zh) 一种中文分词方法及装置
CN112633241B (zh) 一种基于多特征融合和随机森林模型的新闻故事分割方法
US20240064383A1 (en) Method and Apparatus for Generating Video Corpus, and Related Device
CN110738033B (zh) 报告模板生成方法、装置及存储介质
US20240070389A1 (en) Language labeling method and computer device, and non-volatile storage medium
CN114357206A (zh) 基于语义分析的教育类视频彩色字幕生成方法及系统
CN114880496A (zh) 多媒体信息话题分析方法、装置、设备及存储介质
CN112925905B (zh) 提取视频字幕的方法、装置、电子设备和存储介质
CN114722837A (zh) 一种多轮对话意图识别方法、装置及计算机可读存储介质
CN113761377A (zh) 基于注意力机制多特征融合的虚假信息检测方法、装置、电子设备及存储介质
Rasheed et al. A deep learning-based method for Turkish text detection from videos
CN109800326B (zh) 一种视频处理方法、装置、设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant