CN110163051A

CN110163051A - 文本提取方法、装置及存储介质

Info

Publication number: CN110163051A
Application number: CN201810857110.8A
Authority: CN
Inventors: 李洋
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2018-07-31
Filing date: 2018-07-31
Publication date: 2019-08-23
Anticipated expiration: 2038-07-31
Also published as: CN110163051B

Abstract

本发明实施例公开了一种文本提取方法、装置及存储介质；本发明实施例在确定需要进行文本提取的视频之后，解析视频，以获得视频所包含的视频帧，然后对视频帧进行文本提取，生成视频的初始文本集，之后根据文本相似度，对初始文本集中的文本进行优化处理生成有效文本集，最后对有效文本集中的有效文本进行合并生成视频的视频文本；在该过程中，以视频帧为文本识别对象，不需要用户进行手动截图并进行人工识别等操作，与现有技术相比，操作简单，识别效率高，实现难度小，解决了现有视频文本提取技术存在的文本识别效率低的技术问题。

Description

文本提取方法、装置及存储介质

技术领域

本发明涉及文本识别领域，具体涉及一种文本提取方法、装置及存储介质。

背景技术

随着视频技术发展，用户越来越多的通过视频获取外界信息，例如通过视频进行远程学习、观看电子书等；在日常使用中，用户往往会希望能够获取视频内的文本进行保存或者记录等。

为了获取视频内的文本，用户往往需要对视频进行手动截图，然后人工识别截图内的文本之后进行组合，这种方式操作复杂，识别效率低，不便于推广。

即现有视频文本提取技术需要用户手动操作多次截屏并人工识别文本，操作复杂，识别效率低，实现难度大。

发明内容

本发明实施例提供一种文本提取方法、装置及存储介质，以解决现有视频文本提取技术存在的文本识别效率低的技术问题。

为解决上述技术问题，本发明实施例提供以下技术方案：

本发明实施例提供了一种文本提取方法，其包括：

对视频进行解析，得到所述视频所包含的视频帧；

对所述视频帧进行文本提取处理，得到所述视频的初始文本集；所述初始文本集包括至少一个视频帧对应的初始文本；

获取所述初始文本集中初始文本之间的文本相似度；

根据所述文本相似度，对所述初始文本集中的初始文本进行优化处理，得到有效文本集；所述有效文本集包括至少一个有效文本；

对所述有效文本集中的有效文本进行合并，生成所述视频的视频文本。

本发明实施例提供了一种文本提取装置，其包括：

解析模块，用于对视频进行解析，得到所述视频所包含的视频帧；

提取模块，用于对所述视频帧进行文本提取处理，得到所述视频的初始文本集；所述初始文本集包括至少一个视频帧对应的初始文本；

获取模块，用于获取所述初始文本集中初始文本之间的文本相似度；

优化模块，用于根据所述文本相似度，对所述初始文本集中的初始文本进行优化处理，得到有效文本集；所述有效文本集包括至少一个有效文本；

合并模块，用于对所述有效文本集中的有效文本进行合并，生成所述视频的视频文本。

本发明实施例提供了一种存储介质，所述存储介质存储有多条指令，所述指令适于处理器进行加载，以执行上述文本提取方法中的步骤。

本发明实施例在确定需要进行文本提取的视频之后，解析视频，以获得视频所包含的视频帧，然后对视频帧进行文本提取，生成视频的初始文本集，之后根据文本相似度，对初始文本集中的文本进行优化处理，生成有效文本集，最后对有效文本集中的有效文本进行合并，生成视频的视频文本；在该过程中，以视频帧为文本识别对象，不需要用户进行手动截图并进行人工识别等操作，与现有技术相比，操作简单，识别效率高，实现难度小，解决了现有视频文本提取技术存在的文本识别效率低的技术问题，增强了用户的使用体验。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的通信系统的组网示意图；

图2是本发明实施例提供的文本提取方法的第一种流程示意图；

图3是本发明实施例提供的文本提取装置的结构示意图；

图4是本发明实施例提供的文本提取方法的第二种流程示意图；

图5是本发明实施例提供的拍摄对象的示意图；

图6是本发明实施例提供的拍摄对象的示意图；

图7是本发明实施例提供的视频组成示意图；

图8是本发明实施例提供的文本修正示意图；

图9是本发明实施例提供的文本去重示意图；

图10是本发明实施例提供的有效文本集的示意图；

图11是本发明实施例提供的文本合并示意图；

图12是本发明实施例提供的用户界面的示意图；

图13是本发明实施例提供的文本内容的展示示意图；

图14是本发明实施例提供的终端的结构示意图；

图15是本发明实施例提供的服务器的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，图1为本发明实施例所提供的通信系统的场景示意图，该通信系统可以包括用户终端11、网关12以及提供各种数据以及业务支持的服务器13；其中：

用户终端11包括但不局限于手机、平板等便携终端，以及电脑等固定终端，用于为用户提供业务访问接口，并根据用户各种操作，生成对应的操作信息，并通过网关12传输至服务器13，如用户使用终端看视频选择文本提取等操作时，生成对应的操作请求；

网关12是连接服务器13与用户终端11的枢纽，主要进行数据请求以及响应的交互；

服务器13用于为用户提供各种业务服务，如视频文本提取等。在本发明中，服务器13至少用于在确定需要进行文本提取的视频之后，对视频进行解析，得到所述视频所包含的视频帧；对所述视频帧进行文本提取处理，得到所述视频的初始文本集；所述初始文本集包括至少一个视频帧对应的初始文本；获取所述初始文本集中初始文本之间的文本相似度；根据所述文本相似度，对所述初始文本集中的初始文本进行优化处理，得到有效文本集；所述有效文本集包括至少一个有效文本；对所述有效文本集中的有效文本进行合并，生成所述视频的视频文本。在该过程中，不需要用户进行手动截图等操作，即可实现对视频内文本的提取，大大降低了视频文本提取技术的实现难度。

在本发明中，将视频帧都视为一个图片，其内包括的文本记为一个文本，例如一个视频帧包括“中国”这个文本，其对应的文本为“中国”。

在本发明中，初始文本是指直接对视频帧进行文本提取处理得到的文本；而有效文本则是参与后期合并的文本，其文本可以是初始文本，也可以是对初始文本进行修正处理后得到的文本。

在本发明中，修正处理是为了克服文本提取技术存在的提取错误，例如将视频帧内的文本处理成相近文本，通过修正处理可以解决这些问题。

在本发明中，文本合并是指计算文本的并集的过程，例如一个文本为“我爱”、另外一个文本为“爱你”，那么这两个文本合并之后的文本为“我爱你”。由于文本涉及文字顺序，因此在进行多个文本合并需要根据各文本对应视频帧的先后顺序进行合并，还是以一个文本为“我爱”、另外一个文本为“爱你”为例，若文本“我爱”对应的视频帧出现在文本“爱你”对应的视频帧之前，合并得到的文本为“我爱你”，若文本“我爱”对应的视频帧出现在文本“爱你”对应的视频帧之后前，合并得到的文本为“爱你我爱”。

在本发明中，一个视频可能包括多个场景的文本，例如视频是对教科书的第一页和第二页等多页依次拍摄形成的，那么该视频涉及的场景文本组就包括第一页对应的场景文本组、第二页对应的场景文本组等多个场景文本组，针对这种情况，可以在该视频对应的文本中进行标记，例如将第一页对应的场景文本组的场景文本标记为第一页等。同时，在进行场景切换时，对应位置的视频帧会出现不存在文本或者文本无法识别的情况，因此，针对这些因为场景切换导致无文本或者文本无法识别的视频帧，本发明记为切换视频帧，针对这些切换视频帧则无需进行文本提取的处理。

在本发明中，在拍摄视频时，可以出现抖动，这将会导致部分视频帧的内容无法识别，针对这些因为抖动导致无文本或者文本无法识别的视频帧，本发明记为抖动视频帧，针对这些抖动视频帧则无需进行文本提取的处理。

需要说明的是，图1所示的系统场景示意图仅仅是一个示例，本发明实施例描述的服务器以及场景是为了更加清楚的说明本发明实施例的技术方案，并不构成对于本发明实施例提供的技术方案的限定，本领域普通技术人员可知，随着系统的演变和新业务场景的出现，本发明实施例提供的技术方案对于类似的技术问题，例如文本提取方式仅由用户终端11来实现，同样适用。

以下分别针对文本提取方法以及装置进行详细说明。

图2是本发明实施例提供的文本提取方法的第一种流程示意图，请参阅图2，该文本提取方法包括以下步骤：

S201：对视频进行解析，得到所述视频所包含的视频帧。

视频就是由视频帧按序播放形成的，本步骤仅仅是将视频进行简单的拆解。

例如，视频的拍摄对象是如图5所示的长方体柱子，在该柱子的至少两个表面上写有文本，例如第一个面写有1至9这9个数字、第二面写有9至1这9个数字，为了保证拍摄效果，采景框一次拍摄4个数字，用户按照从上到下、从第一面到第二面的顺序进行拍摄，得到一个2分钟长度的视频，中间发送了抖动，形成如图6所示的视频。拍摄得到的视频包括10000个视频帧，图6示意性的给出了视频中某一位置(视频第15秒)的10个连续视频帧的示意图。在本步骤中，将这个视频进行解析，获得其包含的10000个视频帧，这些视频帧的编号依次为0000-9999。

S202：对所述视频帧进行文本提取处理，得到所述视频的初始文本集。

在本步骤中，初始文本集包括至少一个视频帧对应的初始文本。

在实际应用中，并非所有视频帧都存在文本，因此在本步骤中仅需要对有效视频帧进行文本提取即可，因此，本步骤可以包括：

对所述视频所包含的视频帧进行筛选，得到有效视频帧；

对所述有效视频帧进行文本提取，生成所述视频的初始文本集。

在一些实施例中，对所述视频所包含的视频帧进行筛选，得到有效视频帧的步骤，包括：

检测拍摄所述视频时是否存在拍摄场景的切换操作；

若存在切换操作，则确定切换操作对应的切换视频帧；

将所述视频所包含的视频帧，剔除所述切换视频帧后，记为所述有效视频帧。

在一些实施例中，对所述视频所包含的视频帧进行筛选，得到有效视频帧的步骤包括：

检测拍摄所述视频时是否存在抖动操作；

若存在抖动作，则确定抖动操作对应的抖动视频帧；

将所述视频所包含的视频帧，剔除所述抖动视频帧后，记为所述有效视频帧。

判断所述视频所包含的各视频帧是否存在文本；

将所述视频所包含的、存在文本的视频帧，记为所述有效视频帧。

例如，该视频在开始没有对准数字，即视频帧0000-0099这100个视频帧内没有文本，然后对准了第一个面进行拍摄，得到视频帧0100-4999这4900个视频帧，其中在2100-2199这100个视频帧发生了抖动，在对第一个面的拍摄完成之后，切换到第二个面进行拍摄，切换过程涉及视频帧5000-5999这1000个视频帧，视频帧6000-9999这4000个视频帧是对第二个面拍摄形成的视频帧。

针对这个视频对应的视频帧，通过本步骤的筛选之后，去除切换视频帧、抖动视频帧之后，得到存在文本的视频帧为视频帧0100-2100、视频帧2199-4999、视频帧6000-9999这8800个视频帧。

然后对这8800个视频帧进行文本提取，得到8800个初始文本，即如图6所示，初始文本集包括8800个初始文本，并重新进行了编号，分别记为文本0001-8800。

本发明不考虑视频帧仅拍摄了半个文本的情况，例如在移动拍摄过程中，某些视频帧仅包括数字“1”、“4”、“3”、“6”等的一半，在实际应用中，这类视频帧往往占据了视频内所有视频帧的大部分数量。

S203：获取所述初始文本集中初始文本之间的文本相似度。

在本步骤中，文本相似度是指两个文本中所有字段的字段属性相似度，字段属性包括所有字段的内容以及各字段的位置，例如图7所示的文本4400和文本4401，文本4400的字段属性为{5(1，2)、6(2，2)、8(1，1)、9(2，1)}，文本4401的字段属性为{9(1，2)、8(2，2)、6(1，1)、5(2，1)}，文本4400与文本4401不存在字段属性相同的字段，因此文本相似度为0。字段5(1，2)中的“5”表示字段的内容，“(1，2)”表示字段在各自文本中的位置，下文其他字段的结构与其相同。

在本步骤中，若两个视频帧对应的文本不同，是由2个方面的因素导致的：

因素1、采景框发生移动，导致视频帧实际对应的文本不相同，以用户快速移动为例，不同采景框对应不同内容，识别得到的文本也就不同，例如图7所示的文本1100、文本1101、文本3300、文本3301、文本4401等，这类文本之间的文本相似度一般是固定值，例如文本1100与文本1101的文本相似度为50％(仅同时包括2个字段属性相同的字段)，文本1100与文本3301的文本相似度为25％(仅同时包括1个字段属性相同的字段)，文本1100与文本4401的文本相似度为0％(没有包括1个字段属性相同的字段)。

因素2、对视频帧进行文本提取时，文本提取错误，例如文本4000，出现这个文本的原因是将数字“8”识别成了“3”，这类文本与其他文本之间的文本相似度不固定，但是由于现有文本提取技术的成熟，文本识别错误率大大降低，这类文本很少出现。针对文本4000，其与邻近的文本3999和文本4001之间的文本相似度为75％(同时包括3个字段属性相同的字段)，与文本3300的文本相似度为25％(仅同时包括1个字段属性相同的字段)等。

基于上述分析，本发明可以配置文本相似度的多个不同阈值，来对导致文本不同的因素进行区别，进而可以对文本提取错误导致出现的文本进行修正。

S204：根据所述文本相似度，对所述初始文本集中的初始文本进行优化处理，得到有效文本集。

本步骤包括：对文本相似度不低于第一阈值的初始文本，进行去重处理；对文本相似度大于第二阈值、且小于第一阈值的初始文本，进行修正处理。

其中，所述对文本相似度大于第二阈值、且小于第一阈值的初始文本，进行修正处理的步骤包括：

将文本相似度大于第二阈值、且小于第一阈值的初始文本，作为待修正文本组；

获取待修正文本组中各字段的出现概率；

根据各字段的出现概率，确定所述待修正文本组对应的修正文本；

使用所述修正文本，替换所述待修正文本组内的初始文本。

可选的，针对图7所示的初始文本集，本步骤配置第一阈值为100％，第二阈值为50％。

如图8所示，针对文本3301-文本4400这些文本，由于文本4000与文本3301-文本4400中的其他文本的文本相似度为75％，需要将这些文本(总共1100个文本)作为一个待修正文本组，然后获取待修正文本组中所有的字段{5(1，2)、6(2，2)、8(1，1)、9(2，1)、3(1，1)}。字段5(1，2)出现1100次，字段6(2，2)出现1100次，字段8(1，1)出现1099次，字段9(2，1)出现1100次，字段3(1，1)出现1次，那么字段5(1，2)的出现概率为1100/1100＝100％，字段6(2，2)的出现概率为1100/1100＝100％，字段8(1，1)的出现概率为1099/1100＝99.9％，字段3(1，1)的出现概率为1/1100＝0.1％，由于视频帧对应的文本包含4个字段，因此可以根据各字段的出现概率，选择4个出现概率最大的字段{5(1，2)、6(2，2)、8(1，1)、9(2，1)}，作为这个待修正文本组对应的修正文本，并将待修正文本组内的所有初始文本，替换为修正文本。这个过程会改变初始文本集中的初始文本。

那么，如图9所示，针对文本0001-文本1100这些文本相似度为100％的文本组，需要进行去重处理，仅保留文本0001-文本1100中的任意一个文本作为有效文本即可；同理，针对文本1101-文本2200、文本2201-文本3300、修正后的文本3301-文本4400、文本4401-文本5500、文本5501-文本6600、文本6601-文本7700、文本7701-文本8800这些文本相似度为100％的文本组，需要进行去重处理，仅保留一个文本作为有效文本即可。

经过本步骤的处理，得如图10所示的有效文本集，其包括8个有效文本，分别记为有效文本1至有效文本8。

S205：对所述有效文本集中的有效文本进行合并，生成所述视频的视频文本。

在一些实施例中，本步骤包括：

对各有效文本进行并集运算有效文本进行并集运算，得到所述有效文本集对应的文本；

将所述有效文本集对应的文本，作为所述视频对应的视频文本。

在一些实施例中，对各有效文本进行并集运算有效文本进行并集运算，得到所述有效文本集对应的文本的步骤，包括：

按序将所述有效文本集中的有效文本，两两组合为文本对；

判断所述文本对中是否包括分割文本对；所述分割文本对内的有效文本之间不存在相同字段；

若存在，则基于所述分割文本对，将所述有效文本集划分为至少两个场景文本组；所述场景文本组内有效文本组成的文本对连续、且不包括分割文本对；

将各场景文本组中所有有效文本进行并集运算，得到各场景文本组对应的场景文本；

将所有场景文本组对应的场景文本，组合得到所述有效文本集对应的文本。

在一些实施例中，在将所有场景文本组对应的场景文本，组合得到所述有效文本集对应的文本的步骤之后，还包括：

获取各场景文本组中指定位置的有效文本所对应的视频帧在所述视频中的位置属性；

根据位置属性，确定所述场景文本组对应的标记符；

使用场景文本组对应的标记符，在所述有效文本集对应的文本中，对场景文本进行标记。

本步骤主要是对有效文本进行合并，即计算有效文本的并集，如图11所示，将所有的有效文本1与有效文本2行并集，得到视频文本。

在本步骤中，如图11所示，按序将所述有效文本集中的有效文本，两两组合为文本对后，将组成7个文本对，分别记为文本对1至7，其中文本对4内的有效文本(有效文本4和有效文本5)之间不存在相同字段，这是一个分割文本对，表征需要将有效文本集划分为两个场景文本组，此时，第一场景文本组包括有效文本1至4，这4个有效文本组成的3个文本对连续、且不包括分割文本对，第二场景文本组包括有效文本5至8，这4个有效文本组成的3个文本对连续、且不包括分割文本对。

在分割之后，将第一场景文本组包括的有效文本1至4进行并集运算，得到第一场景文本组对应的场景文本1，同样处理得到第二场景文本组对应的场景文本2，然后将场景文本1与场景文本2进行并集运算，得到最终的视频文本。

同时，第一场景文本组中第一个有效文本所对应的视频帧，在所述视频中的位置属性为视频帧0100，第二场景文本组中第一个有效文本所对应的视频帧，在所述视频中的位置属性为视频帧6000；那么，第一场景文本组对应的标记符为M1，第二场景文本组对应的标记符为M2，然后在所述有效文本集对应的文本中，对场景文本进行标记并且在该视频文本中。

本实施例以视频帧为文本识别对象，不需要用户进行手动截图并进行人工识别等操作，与现有技术相比，操作简单，识别效率高，实现难度小，解决了现有视频文本提取技术存在的文本识别效率低的技术问题，增强了用户的使用体验。

相应的，图3是本发明实施例提供的文本提取装置的结构示意图，请参阅图3，该文本提取装置包括以下模块：

解析模块31，用于对视频进行解析，得到所述视频所包含的视频帧；

提取模块32，用于对所述视频帧进行文本提取处理，得到所述视频的初始文本集；所述初始文本集包括至少一个视频帧对应的初始文本；

获取模块33，用于获取所述初始文本集中初始文本之间的文本相似度；

优化模块34，用于根据所述文本相似度，对所述初始文本集中的初始文本进行优化处理，得到有效文本集；所述有效文本集包括至少一个有效文本；

合并模块35，用于对所述有效文本集中的有效文本进行合并，生成所述视频的视频文本。

在一实施例中，优化模块34可以具体用于：对文本相似度不低于第一阈值的初始文本，进行去重处理；对文本相似度大于第二阈值、且小于第一阈值的初始文本，进行修正处理。

在一实施例中，优化模块34可以具体用于：将文本相似度大于第二阈值、且小于第一阈值的初始文本，作为待修正文本组；获取待修正文本组中各字段的出现概率；根据各字段的出现概率，确定所述待修正文本组对应的修正文本；使用所述修正文本，替换所述待修正文本组内的初始文本。

在一实施例中，合并模块35可以具体用于：对各有效文本进行并集运算，得到所述有效文本集对应的文本；将所述有效文本集对应的文本，作为所述视频对应的视频文本。

在一实施例中，合并模块35可以具体用于：按序将所述有效文本集中的有效文本，两两组合为文本对；判断所述文本对中是否包括分割文本对；所述分割文本对内的有效文本之间不存在相同字段；若存在，则基于所述分割文本对，将所述有效文本集划分为至少两个场景文本组；所述场景文本组内有效文本组成的文本对连续、且不包括分割文本对；将各场景文本组中所有有效文本进行并集运算，得到各场景文本组对应的场景文本；将所有场景文本组对应的场景文本，组合得到所述有效文本集对应的文本。

在一实施例中，合并模块35可以具体用于：获取各场景文本组中指定位置的有效文本所对应的视频帧在所述视频中的位置属性；根据位置属性，确定所述场景文本组对应的标记符；使用场景文本组对应的标记符，在所述有效文本集对应的文本中，对场景文本进行标记。

在一实施例中，提取模块32可以具体用于：对所述视频所包含的视频帧进行筛选，得到有效视频帧；对所述有效视频帧进行文本提取，生成所述视频的初始文本集。

在一实施例中，提取模块32可以具体用于：检测拍摄所述视频时是否存在拍摄场景的切换操作；若存在切换操作，则确定切换操作对应的切换视频帧；将所述视频所包含的视频帧，剔除所述切换视频帧后，记为所述有效视频帧。

在一实施例中，提取模块32可以具体用于：检测拍摄所述视频时是否存在抖动操作；若存在抖动作，则确定抖动操作对应的抖动视频帧；将所述视频所包含的视频帧，剔除所述抖动视频帧后，记为所述有效视频帧。

在一实施例中，提取模块32可以具体用于：判断所述视频所包含的各视频帧是否存在文本；将所述视频所包含的、存在文本的视频帧，记为所述有效视频帧。

本发明提供的文本提取方法以及装置可以仅由服务器实现，也可以仅由手机等用户终端实现，还可以由用户终端与服务器配合实现。

本发明提供的文本提取方法中的各个步骤可以顺序运行，也可以多线程同时运行，现以多线程同时运行为例进行说明。

如图4所示，本实施例提供的文本提取方法包括以下步骤：

S401：将视频解析为视频帧。

其他用户将视频网址发送给当前用户，然后当前用户选择播放如图6所示的视频。此时，服务器根据用户选择操作，确定需要进行文本提取处理的视频。用户通过用户终端与服务器进行正常的视频业务，服务器向用户展示的视频窗口。

具体的如图12所示，服务器向用户展示的视频窗口包括一个文本提取控件，如“文本提取”，用户点击这个控件之后，服务器将当前正在播放的视频作为需要进行文本提取处理的视频。

在图12中，用户界面所展示的视频框内仅显示了这个视频的一个有文本内容的视频帧，用户也就仅能看着这个视频帧的文本内容。

在确定需要进行文本提取处理的视频，服务器将其解析为视频帧。

S402：对视频帧进行文本提取，并判断是否得到初始文本。

本步骤对视频的视频帧n进行文本提取处理，以得到初始文本，若得到初始文本，则执行下一步骤，否则返回并对视频帧n+1进行文本提取处理。

针对上述实施例描述的视频，视频帧0000-视频帧0099等将提取不到视频帧，仅视频帧0100-2100、视频帧2199-4999、视频帧6000-9999这8800个视频帧可以提取到初始文本。

S403：判断初始文本是否存在于有效文本集中。

本步骤通过判断初始文本是与有效文本集中的任意一个有效文本的文本相似度为100％，若是，则已经存在于有效文本集中，直接丢弃，并返回处理下一个初始文本；若没有存在于有效文本集中，则将其作为有效文本，添加至有效文本集。

例如，针对视频帧0100对应的初始文本0001，将其增加到有效文本集中，则针对视频帧0101对应的初始文本0002，则直接丢弃。

S404：对有效文本集中的文本进行合并，生成对应视频的视频文本。

具体的合并过程，参照上文描述，本步骤不再赘述。

S405：服务器展示视频文本。

如图13所示，服务器调用终端展示视频文本，用户可以对视频文本进行保存修改等操作。

在图13中，用户界面所展示的内容不仅包括一个有文本内容的视频帧，也包括该视频对应的视频文本，用户不需要看完所有的视频内容，就可以基于这个视频文本知道视频内容。

相应的，本发明实施例还提供一种终端，如图14所示，该终端可以包括射频(RF，Radio Frequency)电路1401、包括有一个或一个以上计算机可读存储介质的存储器1402、输入单元1403、显示单元1404、传感器1405、音频电路1406、无线保真(WiFi，WirelessFidelity)模块1407、包括有一个或者一个以上处理核心的处理器1408、以及电源1409等部件。本领域技术人员可以理解，图14中示出的终端结构并不构成对终端的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

RF电路1401可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，交由一个或者一个以上处理器1408处理；另外，将涉及上行的数据发送给基站。通常，RF电路1401包括但不限于天线、至少一个放大器、调谐器、一个或多个振荡器、用户身份模块(SIM，Subscriber Identity Module)卡、收发信机、耦合器、低噪声放大器(LNA，Low Noise Amplifier)、双工器等。此外，RF电路1401还可以通过无线通信与网络和其他设备通信。所述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(GSM，Global System of Mobile communication)、通用分组无线服务(GPRS，GeneralPacket Radio Service)、码分多址(CDMA，Code Division Multiple Access)、宽带码分多址(WCDMA，Wideband Code Division Multiple Access)、长期演进(LTE，Long TermEvolution)、电子邮件、短消息服务(SMS，Short Messaging Service)等。

存储器1402可用于存储软件程序以及模块，处理器1408通过运行存储在存储器1402的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器1402可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据终端的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器1402可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器1402还可以包括存储器控制器，以提供处理器1408和输入单元1403对存储器1402的访问。

输入单元1403可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地，在一个具体的实施例中，输入单元1403可包括触敏表面以及其他输入设备。触敏表面，也称为触摸显示屏或者触控板，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触敏表面上或在触敏表面附近的操作)，并根据预先设定的程式驱动相应的连接装置。在一实施例中，触敏表面可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器1408，并能接收处理器1408发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触敏表面。除了触敏表面，输入单元1403还可以包括其他输入设备。具体地，其他输入设备可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元1404可用于显示由用户输入的信息或提供给用户的信息以及终端的各种图形用户接口，这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元1404可包括显示面板，在一实施例中，可以采用液晶显示器(LCD，Liquid CrystalDisplay)、有机发光二极管(OLED，Organic Light-Emitting Diode)等形式来配置显示面板。进一步的，触敏表面可覆盖显示面板，当触敏表面检测到在其上或附近的触摸操作后，传送给处理器1408以确定触摸事件的类型，随后处理器1408根据触摸事件的类型在显示面板上提供相应的视觉输出。虽然在图14中，触敏表面与显示面板是作为两个独立的部件来实现输入和输入功能，但是在某些实施例中，可以将触敏表面与显示面板集成而实现输入和输出功能。

终端还可包括至少一种传感器1405，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板的亮度，接近传感器可在终端移动到耳边时，关闭显示面板和/或背光。作为运动传感器的一种，重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于终端还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路1406、扬声器，传声器可提供用户与终端之间的音频接口。音频电路1406可将接收到的音频数据转换后的电信号，传输到扬声器，由扬声器转换为声音信号输出；另一方面，传声器将收集的声音信号转换为电信号，由音频电路1406接收后转换为音频数据，再将音频数据输出处理器1408处理后，经RF电路1401以发送给比如另一终端，或者将音频数据输出至存储器1402以便进一步处理。音频电路1406还可能包括耳塞插孔，以提供外设耳机与终端的通信。

WiFi属于短距离无线传输技术，终端通过WiFi模块1407可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图14示出了WiFi模块1407，但是可以理解的是，其并不属于终端的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器1408是终端的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器1402内的软件程序和/或模块，以及调用存储在存储器1402内的数据，执行终端的各种功能和处理数据，从而对手机进行整体监控。在一实施例中，处理器1408可包括一个或多个处理核心；优选的，处理器1408可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器1408中。

终端还包括给各个部件供电的电源1409(比如电池)，优选的，电源可以通过电源管理系统与处理器1408逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源1409还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

尽管未示出，终端还可以包括摄像头、蓝牙模块等，在此不再赘述。具体在本实施例中，终端中的处理器1408会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器1402中，并由处理器1408来运行存储在存储器1402中的应用程序，从而实现各种功能：

对视频进行解析，得到所述视频所包含的视频帧；

获取所述初始文本集中初始文本之间的文本相似度；

在一实施例中，实现功能：对文本相似度不低于第一阈值的初始文本，进行去重处理；对文本相似度大于第二阈值、且小于第一阈值的初始文本，进行修正处理。

在一实施例中，实现功能：将文本相似度大于第二阈值、且小于第一阈值的初始文本，作为待修正文本组；获取待修正文本组中各字段的出现概率；根据各字段的出现概率，确定所述待修正文本组对应的修正文本；使用所述修正文本，替换所述待修正文本组内的初始文本。

在一实施例中，实现功能：对各有效文本进行并集运算，得到所述有效文本集对应的文本；将所述有效文本集对应的文本，作为所述视频对应的视频文本。

在一实施例中，实现功能：按序将所述有效文本集中的有效文本，两两组合为文本对；判断所述文本对中是否包括分割文本对；所述分割文本对内的有效文本之间不存在相同字段；若存在，则基于所述分割文本对，将所述有效文本集划分为至少两个场景文本组；所述场景文本组内有效文本组成的文本对连续、且不包括分割文本对；将各场景文本组中所有有效文本进行并集运算，得到各场景文本组对应的场景文本；将所有场景文本组对应的场景文本，组合得到所述有效文本集对应的文本。

在一实施例中，实现功能：获取各场景文本组中指定位置的有效文本所对应的视频帧在所述视频中的位置属性；根据位置属性，确定所述场景文本组对应的标记符；使用场景文本组对应的标记符，在所述有效文本集对应的文本中，对场景文本进行标记。

在一实施例中，实现功能：对所述视频所包含的视频帧进行筛选，得到有效视频帧；对所述有效视频帧进行文本提取，生成所述视频的初始文本集。

在一实施例中，实现功能：检测拍摄所述视频时是否存在拍摄场景的切换操作；若存在切换操作，则确定切换操作对应的切换视频帧；将所述视频所包含的视频帧，剔除所述切换视频帧后，记为所述有效视频帧。

在一实施例中，实现功能：检测拍摄所述视频时是否存在抖动操作；若存在抖动作，则确定抖动操作对应的抖动视频帧；将所述视频所包含的视频帧，剔除所述抖动视频帧后，记为所述有效视频帧。

在一实施例中，实现功能：判断所述视频所包含的各视频帧是否存在文本；将所述视频所包含的、存在文本的视频帧，记为所述有效视频帧。

相应的，本发明实施例还提供一种服务器，如图15所示，该服务器可以包括有一个或一个以上计算机可读存储介质的存储器1501、、包括有一个或者一个以上处理核心的处理器1502等部件。本领域技术人员可以理解，图15中示出的结构并不构成对服务器的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

存储器1501可用于存储软件程序以及模块，处理器1502通过运行存储在存储器1501的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器1501可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据终端的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器1501可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器1501还可以包括存储器控制器，以提供处理器1502对存储器1501的访问。

具体在本实施例中，服务器中的处理器1502会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器1501中，并由处理器1502来运行存储在存储器1501中的应用程序，从而实现各种功能：

对视频进行解析，得到所述视频所包含的视频帧；

获取所述初始文本集中初始文本之间的文本相似度；

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见上文针对资源管理方法的详细描述，此处不再赘述。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本发明实施例提供一种存储介质，其中存储有多条指令，该指令能够被处理器进行加载，以执行本发明实施例所提供的任一种方法中的步骤。例如，该指令可以执行如下步骤：

对视频进行解析，得到所述视频所包含的视频帧；

获取所述初始文本集中初始文本之间的文本相似度；

在一实施例中，实现功能：获取各场景文本组中指定位置的有效文本所对应的视频帧，在所述视频中的位置属性；根据位置属性，确定所述场景文本组对应的标记符；使用场景文本组对应的标记符，在所述有效文本集对应的文本中，对场景文本进行标记。

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

其中，该存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、磁盘或光盘等。

由于该存储介质中所存储的指令，可以执行本发明实施例所提供的任一种方法中的步骤，因此，可以实现本发明实施例所提供的任一种方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

以上对本发明实施例所提供的一种文本提取方法、装置、服务器及存储介质进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种文本提取方法，其特征在于，包括：

对视频进行解析，得到所述视频所包含的视频帧；

获取所述初始文本集中初始文本之间的文本相似度；

2.根据权利要求1所述的文本提取方法，其特征在于，所述根据所述文本相似度，对所述初始文本集中的初始文本进行优化处理，得到有效文本集的步骤包括：

对文本相似度不低于第一阈值的初始文本，进行去重处理；

对文本相似度大于第二阈值、且小于第一阈值的初始文本，进行修正处理。

3.根据权利要求2所述的文本提取方法，其特征在于，所述对文本相似度大于第二阈值、且小于第一阈值的初始文本，进行修正处理的步骤包括：

获取待修正文本组中各字段的出现概率；

使用所述修正文本，替换所述待修正文本组内的初始文本。

4.根据权利要求1所述的文本提取方法，其特征在于，所述对所述有效文本集中的有效文本进行合并，生成所述视频的视频文本的步骤包括：

对各有效文本进行并集运算，得到所述有效文本集对应的文本；

5.根据权利要求4所述的文本提取方法，其特征在于，所述对各有效文本进行并集运算，得到所述有效文本集对应的文本的步骤，包括：

按序将所述有效文本集中的有效文本，两两组合为文本对；

6.根据权利要求5所述的文本提取方法，其特征在于，在将所有场景文本组对应的场景文本，组合得到所述有效文本集对应的文本的步骤之后，还包括：

根据位置属性，确定所述场景文本组对应的标记符；

7.根据权利要求1至6任一项所述的文本提取方法，其特征在于，所述对所述视频帧进行文本提取处理，得到所述视频的初始文本集的步骤包括：

对所述视频所包含的视频帧进行筛选，得到有效视频帧；

8.根据权利要求7所述的文本提取方法，其特征在于，所述对所述视频所包含的视频帧进行筛选，得到有效视频帧的步骤包括：

检测拍摄所述视频时是否存在拍摄场景的切换操作；

若存在切换操作，则确定切换操作对应的切换视频帧；

9.根据权利要求7所述的文本提取方法，其特征在于，所述对所述视频所包含的视频帧进行筛选，得到有效视频帧的步骤包括：

检测拍摄所述视频时是否存在抖动操作；

若存在抖动作，则确定抖动操作对应的抖动视频帧；

10.根据权利要求7所述的文本提取方法，其特征在于，所述对所述视频所包含的视频帧进行筛选，得到有效视频帧的步骤包括：

判断所述视频所包含的各视频帧是否存在文本；

11.一种文本提取装置，其特征在于，包括：

12.一种存储介质，其特征在于，所述存储介质存储有多条指令，所述指令适于处理器进行加载，以执行权利要求1至10任一项所述的文本提取方法中的步骤。