CN112101353A

CN112101353A - 文本信息提取方法、装置、电子设备及存储介质

Info

Publication number: CN112101353A
Application number: CN202011009652.3A
Authority: CN
Inventors: 华路延
Original assignee: Guangzhou Huya Technology Co Ltd
Current assignee: Guangzhou Huya Technology Co Ltd
Priority date: 2020-09-23
Filing date: 2020-09-23
Publication date: 2020-12-18

Abstract

本发明提供了一种文本信息提取方法、装置、电子设备及存储介质，方法包括：获取待检测视频的N个帧图像，根据N个帧图像，确定目标帧图像集，目标帧图像集包含的每个目标帧图像均包含目标文本，根据目标帧图像集，提取目标文本，目标文本的起始时间戳与结束时间戳为目标帧图像集中起始位置的目标帧图像对应的时间戳，结束时间戳为目标帧图像集中结束位置的目标帧图像对应的时间戳。本发明在进行文本提取的过程中，能够识别完整提取同一个目标文本，并根据包含同一个目标文件的所有目标帧图像对应时间戳提取该同一个目标文本的时间信息，无需人工标记时间，提高了文本信息提取的准确度和效率。

Description

文本信息提取方法、装置、电子设备及存储介质

技术领域

本发明涉及数据处理技术领域，具体而言，涉及文本信息提取方法、装置、电子设备及存储介质。

背景技术

目前，终端设备上的视频客户端已经成为用户观看视频的重要工具，各类视频可以通过字幕翻译或者字幕再编辑，可以将来自不同国家、不同地区、不同语种的视频信息转换为用户能够理解的视频信息。如果能将字幕从视频中提取出来，转化为能够编辑的文本文件，将为字幕翻译和字幕处理工作减轻很大的负担。

在实际的应用中，出于某种使用需要，需要对视频中的字幕进行提取。但是，在进行视频字幕提取的过程中，现有的字幕提取方法存在以下缺点：准确度低，无法完整提取同一个句子，文本的时间戳多为后期人工标注，耗时较多，效率低。

发明内容

有鉴于此，本发明提供一种文本信息提取方法、装置、电子设备及存储介质，用以提高文本信息提取的准确度和效率。为了实现上述有益效果，本发明技术方案如下：

第一方面，本发明提供一种文本信息提取方法，所述方法包括：获取待检测视频的N个帧图像，所述N大于零；根据所述N个帧图像，确定目标帧图像集，所述目标帧图像集包含的每个目标帧图像均包含目标文本，所述目标帧图像属于所述N个帧图像；根据所述目标帧图像集，确定目标文本、所述目标文本的起始时间戳与结束时间戳，其中，所述起始时间戳为所述目标帧图像集中起始位置的目标帧图像对应的时间戳；所述结束时间戳为所述目标帧图像集中结束位置的目标帧图像对应的时间戳。

可选地，所述根据所述N个帧图像，确定目标帧图像集，包括：判断所述N个帧图像中任意相邻的帧图像是否具有相同的目标文本；当在第n个帧图像中具有所述目标文本，且第n-1个帧图像中不具有所述目标文本，将所述第n个帧图像作为所述目标帧图像集中起始位置的目标帧图像；当在第n+m个帧图像中不具有所述目标文本，且第n+m-1个帧图像中具有所述目标文本，将所述第n+m-1个帧图像作为所述目标帧图像集中结束位置的目标帧图像。

可选地，所述判断所述N个帧图像中任意相邻的帧图像是否具有相同的目标文本，包括：当在第n个帧图像中具有第一目标文本，且所述n-1个帧图像中具有第二目标文本，判断所述第一目标文本与所述第二目标文本的重复率是否大于或等于重复阈值；若所述重复率大于或等于重复阈值，则判定所述第n个帧图像与所述n-1个帧图像具有相同的目标文本。

可选地，所述获取待检测视频的N个帧图像，包括：获取所述待检测视频的起始文本坐标；根据所述起始文本坐标确定文本检测区域；所述文本检测区域为对所述起始文本所在区域进行扩展后的区域；根据所述文本检测区域获得所述N个帧图像；所述N个帧图像为所述待检测视频的每一帧图像中包含所述文本检测区域的截图。

可选地，在所述获取所述待检测视频的起始文本坐标之前，所述方法还包括：提取所述待检测视频的全部文本信息；所述全部文本信息中包含所述起始文本坐标。

可选地，在所述提取所述待检测视频的全部文本信息之后，所述方法还包括：当任意一帧图像中具有至少两个文本，将所述任意一帧图像对应的全部文本进行拼接，并将拼接后的文本作为所述任意一帧图像的文本。

可选地，所述方法还包括：获取所述目标文本的每个字符位置对应的字符集；所述字符集中包含至少一种字体格式的字符；对每个所述字符位置对应的字符集，将最大概率值对应的字符作为所述字符位置的目标字符；所述目标文本为所述每个字符位置的目标字符组成的文本。

第二方面，本发明提供一种文本信息提取装置，包括：获取模块，用于获取待检测视频的N个帧图像，所述N大于等于零；确定模块，用于根据所述N个帧图像，确定目标帧图像集，所述目标帧图像集包含的每个目标帧图像均包含目标文本，所述目标帧图像属于所述N个帧图像；提取模块，用于根据所述目标帧图像集，提取目标文本、所述目标文本的起始时间戳与结束时间戳，其中，所述起始时间戳为所述目标帧图像集中起始位置的目标帧图像对应的时间戳；所述结束时间戳为所述目标帧图像集中结束位置的目标帧图像对应的时间戳。

第三方面，本发明提供一种电子设备，所述电子设备包括机器可读存储介质及处理器，所述机器可读存储介质存储有机器可执行指令，所述处理器在执行所述机器可执行指令时，该电子设备实现第一方面所述的文本信息提取方法。

第四方面，本发明提供一种存储介质，所述存储介质中存储有机器可执行指令，所述机器可执行指令被执行时实现第一方面所述的文本信息提取方法。

本发明提供了一种文本信息提取方法、装置、电子设备及存储介质，方法包括：获取待检测视频的N个帧图像，所述N大于等于零；根据所述N个帧图像，确定目标帧图像集，所述目标帧图像集包含的每个目标帧图像均包含目标文本，所述目标帧图像属于所述N个帧图像；根据所述目标帧图像集，确定目标文本、所述目标文本的起始时间戳与结束时间戳，其中，所述起始时间戳为所述目标帧图像集中起始位置的目标帧图像对应的时间戳；所述结束时间戳为所述目标帧图像集中结束位置的目标帧图像对应的时间戳。本发明在进行文本提取的过程中，能够识别完整提取同一个目标文本，并根据包含同一个目标文件的所有目标帧图像对应时间戳提取该同一个目标文本的时间信息，无需人工标记时间，提高了文本信息提取的准确度和效率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明实施例提供的一种文本信息提取方法的示意性流程图；

图2为本发明实施例提供的文本信息提取方法的结果示意图；

图3为本发明提供的步骤S101的一种实现方式的示意性流程图；

图4为本发明实施例提供一种文本检测区域的示意图；

图5为本发明实施例提供的步骤S101的另一种实现方式的示意性流程图；

图6为本发明实施例提供的步骤S101的另一种实现方式的示意性流程图；

图7为本发明实施例提供一种文本拼接的场景示意图；

图8为本发明实施例提供的步骤S102的一种实现方式的示意性流程图；

图9为本发明实施例提供的连续帧图像的文本示例图；

图10为本发明实施例提供的步骤S102-1的实现方式的示意性流程图；

图11为本发明实施例提供的另一种文本信息提取方法的示意性流程图；

图12为本发明实施例提供的一种文本信息提取装置的功能模块图；

图13为本发明实施例提电子设备结构框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

在本发明的描述中，需要说明的是，若出现术语“上”、“下”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，或者是该发明产品使用时惯常摆放的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

此外，若出现术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

需要说明的是，在不冲突的情况下，本发明的实施例中的特征可以相互结合。

目前，随着网络视频技术的发展，各类视频包括电视剧、电影、音乐舞台剧中的对话和独白等影视作品，通过后期添加和编辑进文字形成字幕，便能让用户足不出户掌握和学习来自不同国家、不同地区、不同语种的信息，用户还可以将字幕从视频中提取出来，转化为能够编辑的文本文件，添加到自己喜爱的视频作品中，因此，字幕提取将为字幕翻译和字幕处理工作减轻很大的负担。

在实际的应用中，相关技术在进行视频字幕提取的过程中，只能针对其中一帧视频图像进行字幕提取，无法识别视频中的同一个句子，且提取到的字幕对应的时间信息往往是后期人工添加的，耗时多。

举个例子，相邻两个帧图像中具有同一句话“今天吃饭了吗”，相关技术的文本提取结果[文本][起始时间，终止时间]可能为：[今天吃饭了吗][500,1000],[今天吃饭了吗][1200,1700],很显然，在进行文本提取的过程中，文本“今天吃饭了吗”在文本文件中出现两次，这显然不符合用户的实际，相邻帧中同一个文本理应最终是一个完整句子出现，例如[今天吃饭了吗][500,1700]，且上述的时间信息是通过后期人工方式添加的，这显然降低了文本信息提取的准确度和效率。

为了解决上述技术问题，发明人经过一系列研究，提出了本发明实施例提供的一种文本信息提取方法。

一方面，本发明实施例的文本信息提取方法在对视频图像进行文本提取的过程中，可以获得包含同一个句子的所有帧图像，并将所有目标帧图像中起始位置的目标帧图像对应的起始时间戳；将所有目标帧图像中终止位置的目标帧图像对应的起始时间戳，这样既能完成识别同一个文本，还能准确提取该文本对应的时间信息。

另一方面，本发明实施例提供的文本信息提取方法的执行主体可以是本发明实施例提供的文本提取装置，或者集成了该文本提取装置的电子设备，其中文本提取装置可以采用硬件或者软件的方式实现。其中，电子设备可以是智能手机、平板电脑、掌上电脑、笔记本电脑、或者台式电脑等设备。也就是说，本发明实施例能够实现完全自动化的文本提取过程，提高了文本信息提取的效率。

下面将结合图1至图11对本发明实施例提供的文本信息提取方法进行介绍。

首先参见图1，图1为本发明实施例提供的一种文本信息提取方法的示意性流程图，其中包括以下步骤：

S101、获取待检测视频的N个帧图像，N大于零。

S102、根据N个帧图像，确定每个目标帧图像均包含目标文本的目标帧图像集。

可以理解的是，该目标帧图像属于上述N个帧图像。

S103、根据目标帧图像集，提取目标文本以及该目标文本的起始时间戳与结束时间戳。

可以理解的是，上述的起始时间戳为目标帧图像集中起始位置的目标帧图像对应的时间戳；结束时间戳为目标帧图像集中结束位置的目标帧图像对应的时间戳。

为了展示上述文本信息提取方法的提取结果，请参见图2，图2为本发明实施例提供的文本信息提取方法的结果示意图。

如图2所示，对于一个待检测视频，通过本发明实施例提供的文本信息提取方法，提取的文本信息包括“文本内容(text)：…,起始时间(bg)：…，终止时间(ed)：…”，即：

“text：我今天的如果为了爱情”,bg：560，ed：1880”；

“text：选择了你”,bg：1920，ed：3240”；

“text：那么有一天”,bg：3360，ed:3920”；

“text：我一定会”,bg：3960，ed:4760”；

“text：为了爱情抛弃你”,bg：4800，ed：5640”。

根据上述获得的文本信息可以生成文本文件，也可以应用在视频配音，字幕翻译或者字幕编辑等场景中。

由此可知，本发明提供了一种文本信息提取方法，通过获取待检测视频的N个帧图像，确定包含同一个目标文本的目标帧图像集，由于每个帧图像均对应有一个时间戳，根据并根据包含同一个目标文件的所有目标帧图像对应时间戳提取该同一个目标文本的时间信息，无需人工标记时间戳信息，提高了文本信息提取的准确度和效率。

可选地，上述的获取N个帧图像的方式可以是待检测视频每一帧对应的完整的一张视频图像，通过这种方式获得的整体在文本检测过程中势必会增加检测耗时，降低后续文本提取的效率，为了解决这种问题，本发明实施例提供一种获取N个帧图像的方式，即上述N个帧图像可以为每一帧完整图像的截图，且截取的区域为每一帧完整图像中文本出现的区域，为了方便理解这种获得N个帧图像的实现方式，下面在图1的基础上给出一种可能的实现方式，参见图3，图3为本发明提供的步骤S101的一种实现方式的示意性流程图。

S101-2、获取待检测视频的起始文本坐标。

在本发明实施例中，这里的起始文本指得是整个待检测视频中第一次出现的文本。

S101-3、根据起始文本坐标确定文本检测区域。

可以理解的是，上述的起始文本是整个待检测视频中第一次出现的文本，实际的场景中，后续出现的文本在图像中的区域高度或宽度与该起始文本所在区域的长度或者高度存在差异，因此，为了能够获得全部文本，降低文本漏提的风险，本发明实施例以该起始文本所在的区域为基准，对起始文本所在区域进行扩展，使得扩展后得到的区域最大可能的包含所有文本。

基于上述原理，在一种可能的实现方式中，本发明实施例在起始文本的区域的高度的基础上，将该区域的高度分别朝图像顶部和图像底部的方向扩展预设倍数(例如1倍)，并将该区域的宽度扩展至与整张图像的宽度一致，获得文本检测区域，该区域可以包含所有文本，能够降低文本漏提的风险。

S101-4、根据文本检测区域获得N个帧图像，该N个帧图像为待检测视频的每一帧图像中包含文本检测区域的截图。

为了方便理解，本发明实施例提供一种文本检测区域的示意图，请参见图4，图4为本发明实施例提供一种文本检测区域的示意图。

如图4所示，该图像为一张完整的视频图像，“今天是什么日子”为第一次出现字幕的文本，也就是整个待检测视频的第一个文本，其中黑色实线矩形框为该起始文本所在区域，在该黑色实线矩形框的基础上，将该矩形框的高度分别朝图像顶部和图像底部的方向扩展预设倍数(例如1倍)，获得的如图4所示的黑色虚线矩形框，该黑色虚线矩形框所在区域即为上述的文本检测区域，然后将每一帧视频图像进行截图，截取区域即为该矩形框所在的区域。

利用上述方式获得的N个帧图像进行文本检测和文本坐标提取，由于检测区域是文本可能存在的区域，文本提取软件不用对整张图像进行文本检测，提高了文本检测和提取的速度。

可选地，上述获得起始文本坐标的方式可以为：从待检测视频的起始帧图像进行文本检测，将第一次检测到的文本则停止检测，将该文本作为起始文本，提取该文本的坐标，但这种方式每次处理都得从视频的第一帧开始检测，处理速度慢，浪费时间，本发明实施例提供一种方式：将待检测视频输入文本识别网络，提取全部文本预先存储为文本数据库，然后从该文本数据库中直接提取起始文本，因此，下面在图3的基础上，给出一种可能的实现方式，参见图5，图5为本发明实施例提供的步骤S101的另一种实现方式的示意性流程图，步骤S101还可包括：

S101-0、提取待检测视频包含起始文本坐标的全部文本信息。

可以理解的是，在实际的实施过程中，可以将待检测视频通过文本提取器或者文本提取软件提取所有帧图像中的文本，组成文本集，该文本提取软件可以是接文本提案网络CTPN(connectionisttextproposalnetwork，简称CTPN)模型。提取到的全部文本信息可以作为文本数据库，当需要起始文本坐标时，直接从该文本数据库中读取即可，提高了数据获取的效率。

可选地，在一个实施例中，通过步骤S101-0提取全部文本信息时，由于每一帧图像中的文本可能分布较开散、零碎，导致在提取的过程中可能出现同一帧图像中提取到两个文本，这种情况会导致在存储时同一帧图像中的文本出现混乱、不准确的问题，因此，为了解决这种问题，本发明实施例提供了一种解决方式，即在图5的基础上，请参见图6，图6为本发明实施例提供的步骤S101的另一种实现方式的示意性流程图，步骤S101还可包括：

S101-1、当任意一帧图像中具有至少两个文本，将该任意一帧图像对应的全部文本进行拼接，并将拼接后的文本作为任意一帧图像的文本。

可以理解的是，在步骤S101-0中提取的全部文本信息包含每个文本对应的坐标信息，那么当任意一帧图像中检测到两个文本坐标时，可以将每个文本坐标框的角点最外边缘的点，做矩形的拼接融合，提高识别准确率及句子判断。

为了方便理解，这里举个例子进行说明，首先参见图7，图7为本发明实施例提供一种文本拼接的场景示意图。

如图7(a)所示，“张三、李四”出现在同一帧图像中，应该作为一个文本，但在实际的文本提取过程中，可能将“张三”和“李四”作为两个文本返回给用户(如图7(a)所示的实际提取的文本坐标)，这时则需要根据“张三”和“李四”的坐标框角点坐标进行拼接，获得一个目标文本坐标(如图7(a)所示的虚线框)；再例如，如图7(b)所示将同一个文本分成上下两行进行显示，在进行文本提取时也可能返回“请你们不要再说”和““今天是什么日子”这样的话了”两个文本，此时这时则需要根据“请你们不要再说”和““今天是什么日子”这样的话了”的坐标框角点坐标进行拼接，获得一个目标文本坐标(如图7(b)所示的虚线框)。

可选地，在确定每帧图像中目标文本之后，发明人在研究中发现，现有的确定包含同一个句子的帧图像集的方式往往是通过人工方式标记包含同一个句子的帧图像，这种方式准确度和效率低，因此，本发明实施例将在获得准确文本信息的基础上，给出获得每个目标文本集目标文本时间信息的实施方式，下面在图1的基础上给出一种可能的事项方式，请参见图8，图8为本发明实施例提供的步骤S102的一种实现方式的示意性流程图，其中步骤S102可以包括以下几个步骤：

S102-1、判断N个帧图像中任意相邻的帧图像是否具有相同的目标文本。

S102-2、当在第n个帧图像中具有目标文本，且第n-1个帧图像中不具有目标文本，将第n个帧图像作为目标帧图像集中起始位置的目标帧图像。

S102-3、当在第n+m个帧图像中不具有目标文本，且第n+m-1个帧图像中具有目标文本，将所述第n+m-1个帧图像作为目标帧图像集中结束位置的目标帧图像。

对于上述子步骤，可以这样理解：对上述N个帧图像，每一帧的文本检测结果都与前一帧的检测结果作对比，前一帧(第n-1帧)没有检测到文本，当前帧(第n帧)检测到文本，表明当前帧(第n帧)为该文本的起始帧，此时提取该文本作为目标文本，将当前帧(第n帧)对应的时间戳为作为该文本的起始时间；继续逐帧检测，检测到前一帧(第n+m-1帧)有上述文本，当前帧(第n+m帧)没有检测到上述文本，表明前一帧(第n+m-1帧)为该文本的终止帧，此时将前一帧(第n+m-1帧)对应的时间戳作为上述文本结束时间。

可以理解的是，上述“不具有目标文本”可以结合图9进行理解，请参见图9，图9为本发明实施例提供的连续帧图像的文本示例图。

如图9所示的第一种情形，在第n帧图像至第n+m-1帧图像中存在同一个目标文本“我看看你在哪里”，但第n-1帧和第n+m帧图像中不存在任何文本，这种情况即对应视频图像中文本显示有停顿的情形；在图9所示的第二种情形中，在第n帧图像至第n+m-1帧图像中存在同一个目标文本“我看看你在哪里”，但第n帧图像中文本为“好的”，第n+m帧图像中文本为“在这儿”，显然，第n帧图像和第n+m帧图像不具有第n帧图像至第n+m-1帧图像中的同一个文本，这种情况是由于不停顿文本显示造成的。

可以理解的是，对与上述两种情形而言，目标帧图像集即为具有同一个文本的所有帧图像，即图中第n帧图像至第n+m-1帧图像，第n帧图像为目标帧图像集中起始位置的目标帧图像，第n+m-1个帧图像为目标帧图像集中结束位置的目标帧图像。

可选地，针对图9中所示的第一种情形，由于相邻两帧存在不具有文本的情况，所以可以直接提取各个帧图像中的同一个文本以及起始位置图像和终止位置图像的时间信息，但是，对于图9所示的第二种情形，由于相邻两帧均具有文本，此时为了准确提取到的目标文本，本发明实施例给出一种根据重复率判断是否为同一个文本的实现方式，下面在图8的基础上，给出一种实现方式，参见图10，图10为本发明实施例提供的步骤S102-1的实现方式的示意性流程图，其中步骤S102-1包括以下子步骤：

S102-1-1、当在第n个帧图像中具有第一目标文本，且第n-1个帧图像中具有第二目标文本，判断第一目标文本与第二目标文本的重复率是否大于或等于重复阈值。

S102-1-2、若重复率大于或等于重复阈值，则判定第n个帧图像与n-1个帧图像具有相同的目标文本。

在实际的实施方式中，可以将第n个帧图像中的第一目标文本和第n-1个帧图像中具有第二目标文本输入识别文字网络，识别出文字意思，然后基于文字意思计算两个文本的重复率，当重复率大于或等于重复阈值(例如，重复阈值为20％)，则认为第n个帧图像与n-1个帧图像具有相同的目标文本，也就是第一目标文本和第二目标文本为同一个目标文本。

通过上述是实现方式可以更加精准的确定目标文本，进而可以确定目标文本的时间信息，提高了文本提取的准确率。

可选地，在实际的场景中，对于同一个句子，可能出现以下情况：同一个字符位置上出现语义相同但字体格式不同的字符，举个例子，请回看图9，第n帧图像至第n+m-2帧图像中的文本均为“我看看你在哪里”，但在第n+m-1帧图像中文本为“我看看伱在哪里”，显然，第n帧图像至第n+m-1帧图像中实质为同一个句子，但在这同一个句子的第四个字符位置上出现语义相同但字体格式不同的字符：“你”和“伱”，针对这种情况，确定最终的目标文本，为了提高目标文本准确度，本发明实施例在图1的基础上给出一种可能的实现方式，参见图11，图11为本发明实施例提供的另一种文本信息提取方法的示意性流程图，还包括：

S104、获取目标文本的每个字符位置对应的字符集。

可以理解的是，上述的字符集中包含至少一种字体格式的字符；举个例子，请继续参见图9，目标文本具有6个字符位置，那么将获得这6个字符位置各自对应的字符集，例如，第一个字符位置对应的字符集为[我，我…我]，其中只包含一种字体格式的字符“我”，对于每个字符集，其中可能存在语义相同但字体格式不同的字符，例如，第四个字符位置，其字符集中包含语义相同但字体格式不同的字符：“你”和“伱”。

S105、对每个字符位置对应的字符集，将最大概率值对应的字符作为该字符位置的目标字符，该目标文本为每个字符位置的目标字符组成的文本。

可以继续参见在图9，显然，字符“你”出现的概率最大，因此可以将字符“你”作为该字符位置上的目标字符，最终获得的目标文本为“我看看你在哪里”。如此一来，可以获得准确的目标文本，降低同一文本的重复率。

为了实现上述文本信息提取方法的实施例中的各个步骤，以达到对应的技术效果，下面给出一种文本信息提取装置的实现方式，参见图12，图12为本发明实施例提供的一种文本信息提取装置的功能模块图，其中，该文本信息提取装置12包括：获取模块121、定模块122和提取模块123。

获取模块121，用于获取待检测视频的N个帧图像，所述N大于零；

确定模块122，用于根据N个帧图像，确定目标帧图像集，目标帧图像集包含的每个目标帧图像均包含目标文本，目标帧图像属于N个帧图像；

提取模块123，用于根据目标帧图像集，提取目标文本、目标文本的起始时间戳与结束时间戳，其中，起始时间戳为目标帧图像集中起始位置的目标帧图像对应的时间戳；结束时间戳为目标帧图像集中结束位置的目标帧图像对应的时间戳。

可以理解的是，获取模块121、消除模块122和提取模块123还可以用来协同执行图1、3、5、6、8、10、11中的各个步骤以实现相应的技术效果。

本发明实施例还提供一种电子设备，如图13，图13为本发明实施例提电子设备结构框图。该电子设备13包括通信接口131、处理器132和存储器133。该处理器132、存储器133和通信接口131相互之间直接或间接地电性连接，以实现数据的传输或交互。例如，这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。存储器133可用于存储软件程序及模块，如本发明实施例所提供的文本信息提取方法对应的程序指令/模块，处理器132通过执行存储在存储器133内的软件程序及模块，从而执行各种功能应用以及数据处理。该通信接口131可用于与其他节点设备进行信令或数据的通信。在本发明中该电子设备13可以具有多个通信接口131。

其中，存储器133可以是但不限于，随机存取存储器(RandomAccessMemory，RAM)，只读存储器(ReadOnlyMemory，ROM)，可编程只读存储器(ProgrammableRead-OnlyMemory，PROM)，可擦除只读存储器(ErasableProgrammableRead-OnlyMemory，EPROM)，电可擦除只读存储器(ElectricErasableProgrammableRead-OnlyMemory，EEPROM)等。

处理器132可以是一种集成电路芯片，具有信号处理能力。该处理器可以是通用处理器，包括中央处理器(CentralProcessingUnit，CPU)、网络处理器(NetworkProcessor，NP)等；还可以是数字信号处理器(DigitalSignalProcessing，DSP)、专用集成电路(ApplicationSpecificIntegratedCircuit，ASIC)、现场可编程门阵列(Field－ProgrammableGateArray，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。

可以理解的是，上述的文本信息提取装置12的各个模块可以软件或固件(Firmware)的形式存储于电子设备13的存储器133中，并由处理器132执行，同时，执行上述模块所需的数据、程序的代码等可以存储在存储器133中。

本发明实施例提供一种存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如前述实施方式中任一项的文本信息提取方法。该计算机可读存储介质可以是，但不限于，U盘、移动硬盘、ROM、RAM、PROM、EPROM、EEPROM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，各种熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种文本信息提取方法，其特征在于，所述方法包括：

获取待检测视频的N个帧图像，所述N大于零；

根据所述N个帧图像，确定目标帧图像集，所述目标帧图像集包含的每个目标帧图像均包含目标文本，所述目标帧图像属于所述N个帧图像；

根据所述目标帧图像集，确定目标文本、所述目标文本的起始时间戳与结束时间戳，其中，所述起始时间戳为所述目标帧图像集中起始位置的目标帧图像对应的时间戳；所述结束时间戳为所述目标帧图像集中结束位置的目标帧图像对应的时间戳。

2.根据权利要求1所述的文本信息提取方法，其特征在于，所述根据所述N个帧图像，确定目标帧图像集，包括：

判断所述N个帧图像中任意相邻的帧图像是否具有相同的目标文本；

当在第n个帧图像中具有所述目标文本，且第n-1个帧图像中不具有所述目标文本，将所述第n个帧图像作为所述目标帧图像集中起始位置的目标帧图像；

当在第n+m个帧图像中不具有所述目标文本，且第n+m-1个帧图像中具有所述目标文本，将所述第n+m-1个帧图像作为所述目标帧图像集中结束位置的目标帧图像。

3.根据权利要求2所述的文本信息提取方法，其特征在于，所述判断所述N个帧图像中任意相邻的帧图像是否具有相同的目标文本，包括：

当在第n个帧图像中具有第一目标文本，且所述n-1个帧图像中具有第二目标文本，判断所述第一目标文本与所述第二目标文本的重复率是否大于或等于重复阈值；

若所述重复率大于或等于重复阈值，则判定所述第n个帧图像与所述n-1个帧图像具有相同的目标文本。

4.根据权利要求1所述的文本信息提取方法，其特征在于，所述获取待检测视频的N个帧图像，包括：

获取所述待检测视频的起始文本坐标；

根据所述起始文本坐标确定文本检测区域；所述文本检测区域为对所述起始文本所在区域进行扩展后的区域；

根据所述文本检测区域获得所述N个帧图像；所述N个帧图像为所述待检测视频的每一帧图像中包含所述文本检测区域的截图。

5.根据权利要求4所述的文本信息提取方法，其特征在于，在所述获取所述待检测视频的起始文本坐标之前，所述方法还包括：

提取所述待检测视频的全部文本信息；所述全部文本信息中包含所述起始文本坐标。

6.根据权利要求5所述的文本信息提取方法，其特征在于，在所述提取所述待检测视频的全部文本信息之后，所述方法还包括：

当任意一帧图像中具有至少两个文本，将所述任意一帧图像对应的全部文本进行拼接，并将拼接后的文本作为所述任意一帧图像的文本。

7.根据权利要求1所述的文本信息提取方法，其特征在于，所述方法还包括：

获取所述目标文本的每个字符位置对应的字符集；所述字符集中包含至少一种字体格式的字符；

对每个所述字符位置对应的字符集，将最大概率值对应的字符作为所述字符位置的目标字符；所述目标文本为所述每个字符位置的目标字符组成的文本。

8.一种文本信息提取装置，其特征在于，包括：

获取模块，用于获取待检测视频的N个帧图像，所述N大于零；

确定模块，用于根据所述N个帧图像，确定目标帧图像集，所述目标帧图像集包含的每个目标帧图像均包含目标文本，所述目标帧图像属于所述N个帧图像；

提取模块，用于根据所述目标帧图像集，提取目标文本、所述目标文本的起始时间戳与结束时间戳，其中，所述起始时间戳为所述目标帧图像集中起始位置的目标帧图像对应的时间戳；所述结束时间戳为所述目标帧图像集中结束位置的目标帧图像对应的时间戳。

9.一种电子设备，其特征在于，所述电子设备包括机器可读存储介质及处理器，所述机器可读存储介质存储有机器可执行指令，所述处理器在执行所述机器可执行指令时，该电子设备实现权利要求1-7中任意一项所述的文本信息提取方法。

10.一种存储介质，其特征在于，所述存储介质中存储有机器可执行指令，所述机器可执行指令被执行时实现权利要求1-7中任意一项所述的文本信息提取方法。