CN106874443A

CN106874443A - 基于视频文本信息提取的信息查询方法以及装置

Info

Publication number: CN106874443A
Application number: CN201710071177.4A
Authority: CN
Inventors: 王琳; 李闯
Original assignee: Beijing One Hundred Internet Technology Co Ltd
Current assignee: Beijing One Hundred Internet Technology Co Ltd
Priority date: 2017-02-09
Filing date: 2017-02-09
Publication date: 2017-06-20

Abstract

本发明涉及一种基于视频文本信息提取的信息查询方法以及装置。该方法包括：从视频文件中提取文本信息；提取所述文本信息中的领域特征词；建立所述领域特征词与文本信息之间的关联；当接收到查询指令时，根据所述查询指令中所携带的关键词，获取与所述关键词对应的领域特征词所关联的文本信息。能够将视频文件中的所有或者大部分文本信息都提取出来，并利用领域特征词与文本信息之间的关联，使得检索结果的召回率高，检索结果更加的准确。

Description

基于视频文本信息提取的信息查询方法以及装置

技术领域

本发明涉及信息提取技术领域，具体而言，涉及一种基于视频文本信息提取的信息查询方法以及装置。

背景技术

在教育行业，自动知识问答作为普遍需求越来越被人们重视。目前的自动问答系统的数据库的构建主要是基于传统的文本检索引擎。这种基于文本标注建立数据库的方式，导致后续的检索也是基于文本检索的。但是随着互联网教育行业的兴起，在线直播、视频课程等形式逐渐替代传统的课堂教学成为主流，大量的音视频都是非文本内容，或者附带的文本内容很少，这导致大量有价值的内容并没有被涵盖在内，数据量的不足，最终导致检索结果的召回率低，检索结果不准确。

发明内容

有鉴于此，本发明实施例的目的在于提供一种音视频信息查询方法以及装置，能够将视频文件中的所有或者大部分文本信息都提取出来，并利用领域特征词与文本信息之间的关联，使得检索结果的召回率高，检索结果更加的准确。

第一方面，本发明实施例提供了一种基于视频文本信息提取的信息查询方法，包括：

从视频文件中提取文本信息；

提取所述文本信息中的领域特征词；

建立所述领域特征词与文本信息之间的关联；

当接收到查询指令时，根据所述查询指令中所携带的关键词，获取与所述关键词对应的领域特征词所关联的文本信息。

结合第一方面，本发明实施例提供了第一方面的第一种可能的实施方式，其中：所述从视频文件中提取文本信息，具体包括：

从所述视频文件中提取关键帧图像；

对关键帧图像进行去噪处理；

对关键帧图像中的文字进行定位，获取文字定位图像；

识别所述文字定位图像中的所述文本信息。

结合第一方面，本发明实施例提供了第一方面的第二种可能的实施方式，其中：所述提取所述文本信息中的领域特征词，具体包括：

对所述文本信息进行切词处理，形成由词汇构成的视频语料集合；

根据所述视频语料集合以及外源语料集合，对所述视频语料集合中的词汇进行筛选，获取领域特征词。

结合第一方面，本发明实施例提供了第一方面的第三种可能的实施方式，其中：所述根据所述视频语料集合以及外源语料集合，对所述视频语料集合中的词汇进行筛选，获取领域特征词具体包括：

对所述视频语料集合中的词汇进行频率统计，获得不同词汇的使用频率；

将词汇在视频语料集合中的使用频率与其在外源语料集合中的使用频率进行比对；

如果该词汇在视频语料集合中的使用频率较之其在外源语料集合中的使用频率高出预设的阈值，那么就将该词汇作为领域特征词。

结合第一方面，本发明实施例提供了第一方面的第四种可能的实施方式，其中：还包括：

获取文本信息的属性信息；

根据所述属性信息，对所述文本信息进行分级，并按照所述分级对所述文本信息进行分级存储。

第二方面，本发明实施例还提供一种基于视频文本信息提取的信息查询装置，包括：

文本信息提取单元，用于从视频文件中提取文本信息；

领域特征词提取单元，用于提取所述文本信息中的领域特征词；

关联建立单元，用于建立所述领域特征词与文本信息之间的关联；

查询单元，用于当接收到查询指令时，根据所述查询指令中所携带的关键词，获取与所述关键词对应的领域特征词所关联的文本信息。

结合第二方面，本发明实施例提供了第二方面的第一种可能的实施方式，其中：所述文本信息提取单元包括：

从关键帧图像提取模块，用于从所述视频文件中提取关键帧图像；

去噪模块，用于对关键帧图像进行去噪处理；

文字定位模块，用于对关键帧图像中的文字进行定位，获取文字定位图像；

文本信息识别模块，用于识别所述文字定位图像中的所述文本信息。

结合第二方面，本发明实施例提供了第二方面的第二种可能的实施方式，其中：所述领域特征词提取单元包括：

切词模块，用于对所述文本信息进行切词处理，形成由词汇构成的视频语料集合；

词汇筛选模块，用于根据所述视频语料集合以及外源语料集合，对所述视频语料集合中的词汇进行筛选，获取领域特征词。

结合第二方面，本发明实施例提供了第二方面的第三种可能的实施方式，其中：所述词汇筛选模块包括：

频率统计子模块，用于对所述视频语料集合中的词汇进行频率统计，获得不同词汇的使用频率；

比对模块，用于将词汇在视频语料集合中的使用频率与其在外源语料集合中的使用频率进行比对；如果该词汇在视频语料集合中的使用频率较之其在外源语料集合中的使用频率高出预设的阈值，那么就将该词汇作为领域特征词。

结合第二方面，本发明实施例提供了第二方面的第四种可能的实施方式，其中：还包括：

属性信息获取单元，用于获取文本信息的属性信息；

分级单元，用于根据所述属性信息，对所述文本信息进行分级，并按照所述分级对所述文本信息进行分级存储。

本发明实施例所提供的基于视频文本信息提取的信息查询方法以及装置，先从视频文件中提取文本信息，再从文本信息中提取领域特征词，建立领域特征词之间的关联关系，当用户进行查询的时候，可以直接获得与其所输入的关键词对应的领域特征词所关联的文本信息，其在从视频文件中提取文本信息的时候，就已经将视频文件中的所有或者大部分文本信息都提取出来，并利用领域特征词与文本信息之间的关联，使得检索结果的召回率高，检索结果更加的准确。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本发明实施例所提供的一种基于视频文本信息提取的信息查询方法的流程图；

图2示出了本发明实施例所提供的基于视频文本信息提取的信息查询方法中，从视频文件中提取文本信息具体方法的流程图；

图3示出了本发明实施例所提供的基于视频文本信息提取的信息查询方法中，提取所述文本信息中的领域特征词具体方法的流程图；

图4示出了本发明实施例所提供的另一种基于视频文本信息提取的信息查询方法的流程图；

图5示出了本发明实施例所提供的一种基于视频文本信息提取的信息查询装置的结构示意图；

图6示出了本发明实施例所提供的基于视频文本信息提取的信息查询装置中，文本信息提取单元的具体结构示意图；

图7示出了本发明实施例所提供的基于视频文本信息提取的信息查询装置中，领域特征词提取单元的具体结构示意图；

图8示出了本发明实施例所提供的另一种基于视频文本信息提取的信息查询装置的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

随着互联网教育行业的兴起，在线直播、视频课程等形式逐渐替代传统的课堂教学称为主流，大量的音视频都是非文本内容。但是目前自动问答系统中的信息查询方法一般是基于传统的文本搜索引擎技术，因此想要在自动问答系统中实现对视频内容的检索，需要先对视频内容进行大量文本标注，形成视频的标签，再基于标签对视频内容进行检索。这就导致如下几个问题：现有技术基于文本检索，数据量不足会导致召回率偏低。对于教育场景而言，大量的音视频是非文本内容，附带的文本内容较少，因此基于文本检索存在不足，大量有价值的内容无法被利用。基于此，本申请提供的一种基于视频文本信息提取的信息查询方法，可以解决上述问题。

为便于对本实施例进行理解，首先对本发明实施例所公开的一种基于视频文本信息提取的信息查询方法进行详细介绍，该方法不仅可以用于教学领域，还可以应用于其他自动知识问答或者信息检索领域。

参见图1所示，本发明实施例所提供的基于视频文本信息提取的信息查询方法包括：

S101：从视频文件中提取文本信息。

在具体实现的时候，由于视频文件本身是由图像构成的，而图像具有连贯性，不同的场景都会拍摄多张图片，尤其是针对教学领域，教学录音视频文件多以播放PPT课件为主，PPT可见展示内容一般是成体系的标准文本信息，因此，能够从图像中将PPT中的文本信息提取出来。

具体地，参见图2所示，本发明实施例还提供一种从视频文件中提取文本信息的方法，包括：

S201：从所述视频文件中提取关键帧图像。

在具体实现的时候，关键帧图像实际上是指每张PPT图像所对应的图像。每张PPT播放持续时间不等，但是同一张PPT在播放的时候具有很强的相似性和连续性，因此，可以基于视频的全图像序列，找到每张PPT的一帧图像，将之作为关键帧图像。在具体提取的时候，可以对视频中的图像进行灰度级像素频率统计，获得每一帧图像的像素频率统计直方图，然后根据通过该像素频率统计直方图，以图像为样本做聚类处理，得到图像的分类，其中每一个分类所包括的图像都能够形成一个连续的视频片段，而每一个分类都对应一个关键帧图像，并将每个分类中的其中一张图像确定为关键帧图像。

同时，在获得关键帧图像之后，还可以对该关键帧以及该关键帧所属分类对应的音视频片段的位置(例如分类的起始帧以及终点帧)进行记录，以供用户查询时，向其进行展示时使用。

S202：对关键帧图像进行去噪处理。

在具体实现的时候，由于是教学视频，而授课老师为了更加清晰的讲述，可能会在教授的时候在PPT中加入手写板书等；同时，PPT制作的时候，除了文本信息之外，还可能会存在复杂背景、标注用符号、水印、广告等，而最终想要获取的文本信息是不包含这些内容的，因此将这部分内容视作图像的噪声，需要对这部分内容进行识别和剔除。这些噪声分为两种：一种是固定噪声，也就是在一个分类里的图像噪声是基本不会改变的，例如复杂背景、标注用符号、水印、广告等，这部分噪声可以通过噪声采样和噪声消除结合的方式来剔除；另一种是随机噪声，比如手写板书内容，而由于板书在显示的时候一般都使用固定颜色通道，同时为了清楚说明，手写板书的颜色和PPT中的文字颜色也是不同的，因此可以分颜色通道统计像素点分布的均方误差，并将均方误差大于预设阈值的通道对应的像素点作为噪声剔除掉。

S203：对关键帧图像中的文字进行定位，获取文字定位图像。

在具体实现的时候，PPT上文字的特点是格式规范，噪声较小，因此可以采用基于区域的文字定位方法将文字的位置进行定位，获取文字定位图像。需要注意的是，文字定位图像，可以是从关键帧图像中将含有文字部分的图像截取出来，而形成的文字定位图像，也可以是在关键帧图像中对文字的位置进行标注而形成的文字定位图像。

S204：识别所述文字定位图像中的所述文本信息。

具体实现的时候，可以将现有文字的多种不同字体生成样本，并利用卷积神经网络训练方式做文字识别，获得文本信息。

通过上述方式，就能将视频文件中的文本信息提取出来。

S102：提取所述文本信息中的领域特征词。

在具体实现的时候，由于提取处理的文本信息是对应于每帧关键帧图像中的文本信息，如果直接用于用户查询以及展示，会导致最终的展示内容过多。而大多数信息在单独出现的时候很可能是无意义的，在展示的时候，也需要有知识的连贯性，因此，需要提取文本信息中的领域特征词，每一个领域特征词可能都会对应于一组连贯的文本信息，在用户查询的时候，直接使用用户所输入的查询语句和领域特征词进行匹配，进而向用户返回与领域特征次对应的文本信息，提高检索的效率以及准确度。

参见图3所示，本发明实施例提供一种提取所述文本信息中的领域特征词的具体方法，包括：

S301：对所述文本信息进行切词处理，形成由词汇构成的视频语料集合。

在具体实现的时候，要基于预先建立的切词词表和预先建立的歧义切分的句法构词知识库，对前述S101所获取的文本信息进行切词处理，即将文本信息由连贯的文章切分成一个一个的词汇。这些词汇构成视频语料集合。

S202：根据所述视频语料集合以及外源语料集合，对所述视频语料集合中的词汇进行筛选，获取领域特征词。

在具体实现的时候，外源语料集合可以是一个基于大数据统计而预先建立的语料数据库，在建立语料数据库的时候，需要通过各种途径，例如网络等抓取无领域限制的文档，并对文档进行切词处理，所得到的所有词汇构成的集合，即为外源语料集合。在获得外源语料集合之后，还需要统计在该外源与俩集合中每一个词汇的使用频率。

在得到视频语料集合之后，要对视频语料集合中的所有词汇进行频率统计，获得每一个词汇在视频语料集合中的使用频率。

再将视频语料集合中的每一个词汇的使用频率，与该词汇在外源语料集合中的使用频率进行比对。

具体地，由于外源语料集合实际上是基于大数据统计而预先得到，其所得到的数据应当基本等同于词汇所使用的普遍频率。例如常用词“的”、“了”、“你”等常用词汇，由于在各个领域都会出现，因此出现的频率高，而一些专有领域的词汇，例如“三角函数”、“等差队列”等词汇只有在某些领域才会应用，因此其出现的概率普遍较低。而在视频语料集合中，由于其文本信息本身是比较有限的，尤其是对于一个基于大数据统计而得到的信息来说，视频也是针对某一个特别领域的，因此在获得的视频语料数据中，要作为领域特征词的词汇的使用概率应当是高于该词汇在外源语料集合中的使用概率的，因此，要将外源语料中的每一个词汇的使用频率，与该词汇在外源语料集合中的使用频率进行对比，如果该词汇在视频语料集合中的使用频率高于其在外源语料集合中的使用频率，且达到一定的阈值，那么就认为该词汇为本领域特征词。

S103：建立所述领域特征词与文本信息之间的关联。

S104：当接收到查询指令时，根据所述查询指令中所携带的关键词，获取与所述关键词对应的领域特征词所关联的文本信息。

在具体实现的时候，建立领域特征词与文本信息之间的关联的过程，实际上是知识库索引建库的过程。在获取了领域特征词之后，建立领域特征词与文本信息之间的关联，并将文本信息、领域特征词以及两者之间的关联关系进行存储，当用户需要对获得某个问题的答案时，会直接发起查询指令，该查询指令中携带了检索的关键词，根据关键词，可以获取与之对应的领域特征词(关键词和特征词一致、含义相同、或者文字相同)，最终能够获取与关键词对应的领域特征词所关联的文本信息。

本发明实施例所提供的基于视频文本信息提取的信息查询方法，先从视频文件中提取文本信息，再从文本信息中提取领域特征词，建立领域特征词之间的关联关系，当用户进行查询的时候，可以直接获得与其所输入的关键词对应的领域特征词所关联的文本信息，其在从视频文件中提取文本信息的时候，就已经将视频文件中的所有或者大部分文本信息都提取出来，并利用领域特征词与文本信息之间的关联，使得检索结果的召回率高，检索结果更加的准确。

参见图4所示，本发明实施例所提供的基于视频文字提取的信息查询方法中，还包括：

S401：获取文本信息的属性信息；

S402：根据所述属性信息，对所述文本信息进行分级，并按照所述分级对所述文本信息进行分级存储。

在具体实现的时候，还需要基于图像提取文本信息的属性信息，如包文字的字体、字号、格式、是否是标题等。

具体地，包括：

识别关键帧图像中文本信息的文字边界：采用不同大小的矩阵进行卷积运算，相减后可得出文字边界。

获取边界的尺寸信息，并根据尺寸信息进行分级，并根据该分级判断文本信息的属性。

在按照分级文本信息进行分级存储的时候，文本内部根据字号、格式等信息形成多级存储，多级存储的信息一方面用于最终的展示，另一方面在后面构建索引时赋予不同的权重。基于构建好的知识库做倒排索引用于检索的准备。基于开源索引库实现，对于不同级别的文本信息赋予不同的权重，文本相关的领域特征词也建成索引的一部分并赋予较高的权重。

本发明又一实施例还提供一种基于视频文本信息提取的信息查询装置，参见图5所示，本发明实施例所提供的基于视频文本信息提取的信息查询装置包括：

文本信息提取单元，用于从视频文件中提取文本信息；

本实施例中，文本信息提取单元、领域特征词提取单元、关联建立单元和查询单元的具体功能和交互方式，可参见图1对应的实施例的记载，在此不再赘述。

本发明实施例所提供的基于视频文本信息提取的信息查询装置，使用文本信息提取单元先从视频文件中提取文本信息，再使用领域特征词提取单元从文本信息中提取领域特征词，并使用关联建立单元建立领域特征词之间的关联关系，当用户进行查询的时候，查询单元可以直接获得与其所输入的关键词对应的领域特征词所关联的文本信息，其在从视频文件中提取文本信息的时候，就已经将视频文件中的所有或者大部分文本信息都提取出来，并利用领域特征词与文本信息之间的关联，使得检索结果的召回率高，检索结果更加的准确。

参见图6所示，本发明又一实施例还提供了基于视频文本信息提取的信息查询装置中，文本信息提取单元的具体结构，包括：

关键帧图像提取模块，用于从所述视频文件中提取关键帧图像；

去噪模块，用于对关键帧图像进行去噪处理；

本实施例中，关键帧图像提取模块、去噪模块和文字定位模块的具体功能和交互方式，可参见图2对应的实施例的记载，在此不再赘述。

参见图7所示，本发明又一实施例还提供了基于视频文本信息提取的信息查询装置中，领域特征词提取单元的具体结构，包括：

所述词汇筛选模块包括：

本实施例中，切词模块、词汇筛选模块、频率统计子模块和比对模块的具体功能和交互方式，可参见图3对应的实施例的记载，在此不再赘述。

参见图8所示，本发明又一实施例还提供了另一种基于视频文本信息提取的信息查询装置，在上述实施例的基础上，还包括：

属性信息获取单元，用于获取文本信息的属性信息；

本实施例中，属性信息获取单元和分级单元的具体功能和交互方式，可参见图4对应的实施例的记载，在此不再赘述。

本发明实施例所提供的基于视频文本信息提取的信息查询方法以及装置的计算机程序产品，包括存储了程序代码的计算机可读存储介质，所述程序代码包括的指令可用于执行前面方法实施例中所述的方法，具体实现可参见方法实施例，在此不再赘述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统和装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种基于视频文本信息提取的信息查询方法，其特征在于，包括：

从视频文件中提取文本信息；

提取所述文本信息中的领域特征词；

建立所述领域特征词与文本信息之间的关联；

2.根据权利要求1所述的方法，其特征在于，所述从视频文件中提取文本信息，具体包括：

从所述视频文件中提取关键帧图像；

对关键帧图像进行去噪处理；

对关键帧图像中的文字进行定位，获取文字定位图像；

识别所述文字定位图像中的所述文本信息。

3.根据权利要求1所述的方法，其特征在于，所述提取所述文本信息中的领域特征词，具体包括：

4.根据权利要求3所述的方法，其特征在于，所述根据所述视频语料集合以及外源语料集合，对所述视频语料集合中的词汇进行筛选，获取领域特征词具体包括：

5.根据权利要求1-4任意一项所述的方法，其特征在于，还包括：

获取文本信息的属性信息；

6.一种基于视频文本信息提取的信息查询装置，其特征在于，包括：

文本信息提取单元，用于从视频文件中提取文本信息；

7.根据权利要求6所述的装置，其特征在于，所述文本信息提取单元包括：

去噪模块，用于对关键帧图像进行去噪处理；

8.根据权利要求6所述的装置，其特征在于，所述领域特征词提取单元包括：

9.根据权利要求8所述的装置，其特征在于，所述词汇筛选模块包括：

10.根据权利要求6-9任意一项所述的装置，其特征在于，还包括：

属性信息获取单元，用于获取文本信息的属性信息；