CN110796140B

CN110796140B - 一种字幕检测方法和装置

Info

Publication number: CN110796140B
Application number: CN201910988833.6A
Authority: CN
Inventors: 张晴晴; 罗磊; 杨金富; 段由; 马光谦; 汪洋
Original assignee: Beijing Aishu Wisdom Technology Co ltd
Current assignee: Beijing Qingshu Intelligent Technology Co ltd
Priority date: 2019-10-17
Filing date: 2019-10-17
Publication date: 2022-08-26
Anticipated expiration: 2039-10-17
Also published as: CN110796140A

Abstract

本发明公开一种字幕检测方法和装置，该方法包括以下步骤：抽取视频文件中的语音，并定位出所述语音对应的时间段；根据所述时间段，从所述视频文件中确定具有字幕的目标视频帧；从所述目标视频帧中识别出多个字符串，并通过语音模型分别获取所述多个字符串的置信度，将所述多个字符串中置信度最高的字符串作为所述视频文件的字幕。本发明根在图像和音频两个维度识别字幕，能够在保证时效性的前提下，提升识别结果的精确度。

Description

一种字幕检测方法和装置

技术领域

本发明涉及视频技术领域，特别涉及一种字幕检测方法和装置。

背景技术

随着视频技术的发展，从视频文件中获取字幕的需求越来越大。然而，在一些中文视频中，存在有大量的硬字幕，即无法通过爬取字幕文件获取的字幕，若想获取此类字幕，必须依靠人工标注，非常耗费资源。

现有技术中，许多公司尝试使用OCR(Optical Character Recognition，光学字符识别)来获取视频中的字幕，但识别结果受视频背景的复杂度影响较大，而且，若对视频文件逐帧进行OCR，会消耗大量的时间；若对视频文件跳帧进行OCR，则有可能会遗漏关键信息。

发明内容

本发明提供了一种字幕检测方法和装置，以解决现有技术中字幕检测方法无法兼顾准确性和时效性的缺陷。

本发明提供了一种字幕检测方法，包括以下步骤：

抽取视频文件中的语音，并定位出所述语音对应的时间段；

根据所述时间段，从所述视频文件中确定具有字幕的目标视频帧；

从所述目标视频帧中识别出多个字符串，并通过语音模型分别获取所述多个字符串的置信度，将所述多个字符串中置信度最高的字符串作为所述视频文件的字幕。

可选地，所述根据所述时间段，从所述视频文件中确定具有字幕的目标视频帧，包括：

确定所述时间段对应的视频帧；

对所述视频帧进行均匀抽帧，得到具有字幕的目标视频帧。

可选地，所述从所述目标视频帧中识别出多个字符串，包括：

从所述目标视频帧中识别出字幕区域，并对所述字幕区域进行分割，得到多个图片，其中，每个所述图片对应一个字符；

分别对所述多个图片进行识别，得到每个所述图片对应的字符的多个识别结果；

根据每个所述图片在所述字幕区域的位置，对所述多个图片对应的字符的识别结果进行排列组合，得到多个字符串。

可选地，所述根据每个所述图片在所述字幕区域的位置，对所述多个图片对应的字符的识别结果进行排列组合，得到多个字符串，包括：

根据所述每个所述图片对应的字符的多个识别结果的置信度，从所述多个识别结果中选择置信度最高的预设数量的多个候选字符；

根据每个所述图片在所述字幕区域的位置，对所述多个图片对应的候选字符进行排列组合，得到多个字符串。

可选地，所述通过语音模型分别获取所述多个字符串的置信度，将所述多个字符串中置信度最高的字符串作为所述视频文件的字幕，包括：

将所述多个字符串输入到所述语音模型；

通过所述语音模型输出所述多个字符串中置信度最高的字符串作为所述视频文件的字幕。

本发明还提供了一种字幕检测装置，包括：

定位模块，用于抽取视频文件中的语音，并定位出所述语音对应的时间段；

确定模块，用于根据所述时间段，从所述视频文件中确定具有字幕的目标视频帧；

检测模块，用于从所述目标视频帧中识别出多个字符串，并通过语音模型分别获取所述多个字符串的置信度，将所述多个字符串中置信度最高的字符串作为所述视频文件的字幕。

可选地，所述确定模块，具体用于确定所述时间段对应的视频帧；对所述视频帧进行均匀抽帧，得到具有字幕的目标视频帧。

可选地，所述检测模块，具体用于从所述目标视频帧中识别出字幕区域，并对所述字幕区域进行分割，得到多个图片，其中，每个所述图片对应一个字符；分别对所述多个图片进行识别，得到每个所述图片对应的字符的多个识别结果；根据每个所述图片在所述字幕区域的位置，对所述多个图片对应的字符的识别结果进行排列组合，得到多个字符串。

可选地，所述检测模块，具体用于根据所述每个所述图片对应的字符的多个识别结果的置信度，从所述多个识别结果中选择置信度最高的预设数量的多个候选字符；根据每个所述图片在所述字幕区域的位置，对所述多个图片对应的候选字符进行排列组合，得到多个字符串。

可选地，所述检测模块，具体用于将所述多个字符串输入到所述语音模型；通过所述语音模型输出所述多个字符串中置信度最高的字符串作为所述视频文件的字幕。

本发明根据视频文件中的语音对应的时间段，确定具有字幕的目标视频帧，并从目标视频帧中识别出置信度最高的字符串作为视频文件的字幕，从而实现在图像和音频两个维度识别字幕，能够在保证时效性的前提下，提升识别结果的精确度。

附图说明

图1为本发明实施例中的一种字幕检测方法流程图；

图2为本发明实施例中的视频文件中的语音及其对应的时间段的示意图；

图3为本发明实施例中的目标视频帧中的字幕区域的示意图；

图4为本发明实施例中的字符区域的分割结果的示意图；

图5为本发明实施例中的语音模型的示意图；

图6为本发明实施例中的一种字幕检测装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供了一种字幕检测方法，如图1所示，包括以下步骤：

步骤101，抽取视频文件中的语音，并定位出所述语音对应的时间段。

具体地，在从视频文件中抽取出语音后，可以对语音进行VAD(Voice ActivityDetection，语音端点检测)，从带有噪声的语音中定位出语音的开始点和结束点，即，语音对应的时间段。例如，如图2所示，可以从视频文件中抽取出语音，即，音频文件abc.wav，从该音频文件abc.wav中定位出语音对应的时间段000080-0000278以及0.80和2.78，均表示0.8秒到2.78秒有音频。

步骤102，根据所述时间段，从所述视频文件中确定具有字幕的目标视频帧；

具体地，可以确定所述时间段对应的视频帧；对所述视频帧进行均匀抽帧，得到具有字幕的目标视频帧。

例如，若视频文件的帧率为25帧/秒，则时间段0.8秒到2.78秒对应的视频帧为第20帧～第70帧，包含51帧；从上述51帧中均匀抽出若干帧，即得到的目标视频帧为第20帧、第30帧、第40帧、第50帧、第60帧和第70帧。

步骤103，从所述目标视频帧中识别出多个字符串，并通过语音模型分别获取所述多个字符串的置信度，将所述多个字符串中置信度最高的字符串作为所述视频文件的字幕。

具体地，可以从所述目标视频帧中识别出字幕区域，并对所述字幕区域进行分割，得到多个图片，其中，每个所述图片对应一个字符；分别对所述多个图片进行识别，得到每个所述图片对应的字符的多个识别结果；根据每个所述图片在所述字幕区域的位置，对所述多个图片对应的字符的识别结果进行排列组合，得到多个字符串。

例如，使用CTPN(Connectionist Text Proposal Network，连接文本提议网络)算法做字幕区域识别，得到目标视频帧中表示字幕区域的矩形框，如图3所示。对上述矩形框进行分割，得到多个图片，如图4所示。每个图片可以对应的字符可以具有多个识别结果，即，具有多个字符。

本实施例中，可以根据所述每个所述图片对应的字符的多个识别结果的置信度，从所述多个识别结果中选择置信度最高的预设数量的多个候选字符；根据每个所述图片在所述字幕区域的位置，对所述多个图片对应的候选字符进行排列组合，得到多个字符串。

优选地，可以将所述多个字符串输入到所述语音模型；通过所述语音模型输出所述多个字符串中置信度最高的字符串作为所述视频文件的字幕。

以图4为例，字幕区域被分给为6个图片(我来中国之前)，每个图片输出置信度前四的字符(例如，第1个图片输出：我，哦，饿，俄)，则输出的字符串有4⁶＝4096种可能性，将这些字符串输入到语音模型，可以得到一个置信度(表征的是该句话在语音模型中的合理程度)，输出最高置信度的话，即为识别结果：我来中国之前。

本实施例中，可以先训练语音模型，在使用该语音模型进行OCR识别，该模型可以为Tesseract模型，如图5所示，每一竖列表示置信度前四的字符，0.97表示识别为该字符的置信度；每横排表示一种组合搭配的方式，每个箭头组合表示这六张图片识别结果的组合。

本发明实施例根据视频文件中的语音对应的时间段，确定具有字幕的目标视频帧，并从目标视频帧中识别出置信度最高的字符串作为视频文件的字幕，从而实现在图像和音频两个维度识别字幕，能够在保证时效性的前提下，提升识别结果的精确度。

基于上述方法，本发明实施例还提供了一种字幕检测装置，如图6所示，包括：

定位模块601，用于抽取视频文件中的语音，并定位出所述语音对应的时间段；

确定模块602，用于根据所述时间段，从所述视频文件中确定具有字幕的目标视频帧；

具体地，上述确定模块602，具体用于确定所述时间段对应的视频帧；对所述视频帧进行均匀抽帧，得到具有字幕的目标视频帧。

检测模块603，用于从所述目标视频帧中识别出多个字符串，并通过语音模型分别获取所述多个字符串的置信度，将所述多个字符串中置信度最高的字符串作为所述视频文件的字幕。

具体地，上述检测模块603，具体用于从所述目标视频帧中识别出字幕区域，并对所述字幕区域进行分割，得到多个图片，其中，每个所述图片对应一个字符；分别对所述多个图片进行识别，得到每个所述图片对应的字符的多个识别结果；根据每个所述图片在所述字幕区域的位置，对所述多个图片对应的字符的识别结果进行排列组合，得到多个字符串。

此外，上述检测模块603，还具体用于根据所述每个所述图片对应的字符的多个识别结果的置信度，从所述多个识别结果中选择置信度最高的预设数量的多个候选字符；根据每个所述图片在所述字幕区域的位置，对所述多个图片对应的候选字符进行排列组合，得到多个字符串。

此外，上述检测模块603，还具体用于将所述多个字符串输入到所述语音模型；通过所述语音模型输出所述多个字符串中置信度最高的字符串作为所述视频文件的字幕。

结合本文中所公开的实施例描述的方法中的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种字幕检测方法，其特征在于，包括以下步骤：

抽取视频文件中的语音，并定位出所述语音对应的时间段；

从所述目标视频帧中识别出多个字符串，并通过语音模型分别获取所述多个字符串的置信度，将所述多个字符串中置信度最高的字符串作为所述视频文件的字幕；

所述从所述目标视频帧中识别出多个字符串，包括：

根据每个所述图片在所述字幕区域的位置，对所述多个图片对应的字符的识别结果进行排列组合，得到多个字符串；

所述根据每个所述图片在所述字幕区域的位置，对所述多个图片对应的字符的识别结果进行排列组合，得到多个字符串，包括：

根据每个所述图片在所述字幕区域的位置，对所述多个图片对应的候选字符进行排列组合，得到多个字符串；

所述通过语音模型分别获取所述多个字符串的置信度，将所述多个字符串中置信度最高的字符串作为所述视频文件的字幕，包括：

将所述多个字符串输入到所述语音模型；

2.如权利要求1所述的方法，其特征在于，所述根据所述时间段，从所述视频文件中确定具有字幕的目标视频帧，包括：

确定所述时间段对应的视频帧；

对所述视频帧进行均匀抽帧，得到具有字幕的目标视频帧。

3.一种字幕检测装置，其特征在于，包括：

检测模块，用于从所述目标视频帧中识别出多个字符串，并通过语音模型分别获取所述多个字符串的置信度，将所述多个字符串中置信度最高的字符串作为所述视频文件的字幕；

所述检测模块，具体用于从所述目标视频帧中识别出字幕区域，并对所述字幕区域进行分割，得到多个图片，其中，每个所述图片对应一个字符；分别对所述多个图片进行识别，得到每个所述图片对应的字符的多个识别结果；根据每个所述图片在所述字幕区域的位置，对所述多个图片对应的字符的识别结果进行排列组合，得到多个字符串；

所述检测模块，具体用于根据所述每个所述图片对应的字符的多个识别结果的置信度，从所述多个识别结果中选择置信度最高的预设数量的多个候选字符；根据每个所述图片在所述字幕区域的位置，对所述多个图片对应的候选字符进行排列组合，得到多个字符串；

所述检测模块，具体用于将所述多个字符串输入到所述语音模型；通过所述语音模型输出所述多个字符串中置信度最高的字符串作为所述视频文件的字幕。

4.如权利要求3所述的装置，其特征在于，

所述确定模块，具体用于确定所述时间段对应的视频帧；对所述视频帧进行均匀抽帧，得到具有字幕的目标视频帧。