CN115617957A

CN115617957A - 基于大数据的文档智能检索方法

Info

Publication number: CN115617957A
Application number: CN202211632842.XA
Authority: CN
Inventors: 常智山; 孟超越; 程建文; 周志扬; 肖丽; 王海霞; 王伟
Original assignee: Mingtai Beijing Technology Co ltd
Current assignee: Mingtai Beijing Technology Co ltd
Priority date: 2022-12-19
Filing date: 2022-12-19
Publication date: 2023-01-17
Anticipated expiration: 2042-12-19
Also published as: CN115617957B

Abstract

本发明提供了一种基于大数据的文档智能检索方法，涉及文档检索技术领域。本发明通过本发明的方法，用户在输入检索语句后，系统会根据检索语句与PPT文档各页的描述文本相似程度智能地从数据库中检索出若干PPT文档，且在获取PPT文档各页的描述文本时，本申请并非对所有页面中所有的图像都进行描述，过多的描述文本会造成相互干扰，进而使得检索结果不理想，而是根据用户习惯以及图像特性，对其进行筛选后得到目标图像，再对目标图像进行描述作为该页的描述文本，进而与PPT进行关联，能够得到较好的检索结果。

Description

基于大数据的文档智能检索方法

技术领域

本发明涉及文档检索技术领域，具体涉及一种基于大数据的文档智能检索方法。

背景技术

文档检索是指从某一数据库中查找达到所需要的信息资料过程。目前的智能检索主要是针对文字为主的文档进行关键字检索。这种方式针对大多数word、PDF文件有着较好的检索效果。

但针对PPT文档这种文字占比相对较少，其很多内容与图片具有较强关联的文档，普通的关键字检索并不能起到很好的效果，针对上述问题，目前亟需一种能够适用于PPT文档的智能检索方法。

发明内容

（一）解决的技术问题

针对现有技术的不足，本发明提供了一种基于大数据的文档智能检索方法，解决了现有的智能检索方法针对PPT文档检索效果不理想的问题。

（二）技术方案

为实现以上目的，本发明通过以下技术方案予以实现：

一种基于大数据的文档智能检索方法，该方法包括：

在PPT文档导入数据库时，获取该PPT文档中各页的对象信息；所述对象信息包括每页包含的对象文件，以及对象属性，且所述对象属性包括：尺寸信息、位置信息、图层信息；对象包括图像对象、文本框对象、形状对象；

利用大数据训练图像描述模型，得到训练好的图像描述模型；

将PPT文档中的图像对象划分为内容图像和装饰图像；

基于PPT文档的对象信息，获取各页中各个内容图像的未遮挡面积，并基于未遮挡面积的排序确定该页的目标图像；

利用训练好的图像描述模型获取目标图像的描述文本，并将描述文本与对应的PPT文档进行关联；

获取用户输入的检索语句，并获取各个描述文本与检索语句的相似度，基于相似度排序生成检索结果。

进一步的，所述图像描述模型采用基于CNN和LSTM的网络模型，且采用Flickr_30K数据集对图像描述模型进行训练。

进一步的，所述将PPT文档中的图像对象划分为内容图像和装饰图像，包括：

获取各个图像对象在对应PPT文档中出现的次数和分布的页数；

若满足该图像对象出现的次数超过第一阈值或该图像对象分布的页数数量超过第二阈值，则将其标记为装饰图像；否则，标记为内容图像。

进一步的，所述第一阈值为3次，第二阈值为该PPT文档总页数的50%。

进一步的，所述获取各页中各个内容图像的未遮挡面积，包括：

基于PPT文档的页面构建参考坐标系；

将各个对象的尺寸信息、位置信息转换为在参考坐标系下的坐标区间；

获取该对象与位于其图层上方的所有对象的重合区域，将所有重合区域取并集后，得到内容图像的未遮挡区域；

计算未遮挡区域的面积。

进一步的，所述检索结果包括相似度排名前10的PPT文档以及检索语句在各个PPT文档中对应的页数。

进一步的，所述基于余弦相似度计算得到描述文本与检索语句的相似度。

（三）有益效果

本发明提供了一种基于大数据的文档智能检索方法。与现有技术相比，具备以下有益效果：

本发明通过本发明的方法，用户在输入检索语句后，系统会根据检索语句与PPT文档各页的描述文本相似程度智能地从数据库中检索出若干PPT文档，且在获取PPT文档各页的描述文本时，本申请并非对所有页面中所有的图像都进行描述，过多的描述文本会造成相互干扰，进而使得检索结果不理想，而是根据用户习惯以及图像特性，对其进行筛选后得到目标图像，再对目标图像进行描述作为该页的描述文本，进而与PPT进行关联，能够得到较好的检索结果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例的流程图；

图2为本发明实施例提取的尺寸信息、位置信息示意图；

图3为本发明实施例提取的图层信息示意图；

图4为计算未遮挡区域的面积的示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请实施例通过提供一种基于大数据的文档智能检索方法，解决了现有的智能检索方法针对PPT文档检索效果不理想的问题。

为了更好的理解上述技术方案，下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。

实施例1：

如图1所示，本发明提供了一种基于大数据的文档智能检索方法，该方法包括：

一种基于大数据的文档智能检索方法，该方法包括：

将PPT文档中的图像对象划分为内容图像和装饰图像；

本实施例的有益效果为：

通过本发明的方法，用户在输入检索语句后，系统会根据检索语句与PPT文档各页的描述文本相似程度智能地从数据库中检索出若干PPT文档，且在获取PPT文档各页的描述文本时，本申请并非对所有页面中所有的图像都进行描述，过多的描述文本会造成相互干扰，进而使得检索结果不理想，而是根据用户习惯以及图像特性，对其进行筛选后得到目标图像，再对目标图像进行描述作为该页的描述文本，进而与PPT进行关联，能够得到较好的检索结果。

下面对本发明实施例的实现过程进行详细说明：

S1、在PPT文档导入数据库时，获取该PPT文档中各页的对象信息。

在具体实施时，PPT文档的各页中的对象包括图像对象、文本框对象、形状对象这三种对象类型，其中，文本框对象为用户输入的文本数据，形状对象为用户构建的多边形（一般为纯色或是渐变色），图像对象为用户插入的图像数据。

具体的，对象信息包括每页包含的对象文件，以及对象属性，即在保存PPT文档的同时，在保存一份包含所有对象及对象属性的数据。

所述对象属性包括：尺寸信息、位置信息、图层信息等；且对象信息可以由用户与PPT文档同步导入，也可从PPT文档中进行提取，对于尺寸、位置等信息，如图2所示，可以直接从PPT中的对象属性中提取，而对于图层信息，在用户操作规范的前提下（即按从底层至顶层依次插入图像），如图3所示，可从选择窗格中获取该页中所有对象的列表（即图中的图片2~7），从上至下即对应图层的从顶层至底层（即图片7在顶层，图片2在底层）。

S2、利用大数据训练图像描述模型，得到训练好的图像描述模型；

在具体实施时，所述图像描述模型用于输入给模型一张图像，模型输出是一句能够描述图像场景的文本句子。图像描述模型可采用基于CNN和LSTM的网络模型，且为了获得更优的描述，采用目前已有的大型数据集作为大数据对该网络模型进行训练，例如数据集采用Flickr_30K和MSCOCO数据集进行训练。

S3、将PPT文档中的图像对象划分为内容图像和装饰图像。

在具体实施时，考虑到用户在检索时，主要是针对PPT中用户编辑的内容进行搜索，而如果对所有图像都进行图像描述，则会增加复杂度，由于一页PPT中的图像主要是是由起装饰作用的装饰图像以及表达用户思想的内容图像构成，装饰图像主要为PPT中的背景、符号、标签等构成，其特点为一般会在同一个PPT中多次出现，因此，可以首先将装饰图像剔除，以降低后续处理的数据量。

具体的，图像对象的划分方法包括如下步骤：

获取各个图像对象在一个PPT文档中出现的次数和分布的页数，若出现的次数超过第一阈值或分布的页数数量超过第二阈值，则将其标记为装饰图像，否则，标记为内容图像。例如可将第一阈值设定为3~5之间的数，而第二阈值可以设定为该PPT文档总页数的50%~80%。

S4、基于PPT文档的对象信息，获取各页中各个内容图像的未遮挡面积，并基于未遮挡面积的排序确定该页的目标图像。

在具体实施时，考虑到用户习惯，未遮挡面积最大的内容图像通常是该页PPT主要内容或主要记忆点，因此可以将未遮挡面积最大的内容图像作为目标图像，此外也可根据需要，将未遮挡面积前N大的内容图像作为多个目标图像。

而获取各页中各个内容图像的未遮挡面积包括如下步骤：

基于PPT文档的页面构建参考坐标系；

将各个对象的尺寸信息、位置信息转换为在参考坐标系下的坐标区间XOY；

获取该对象与位于其图层上方的所有对象的重合区域（若形状对象为无颜色填充，则重合区域定义为0），将所有重合区域取并集后，得到内容图像的未遮挡区域；

计算未遮挡区域的面积。

具体的，以图3中的图片5为例，其图层上方只有图片6、7可能会对其造成遮挡，假设图片5、6、7的位置关系如图4所示，虚线表示被遮挡区域，则根据其大小和位置数据，可得到存在重合区域1、2，进而确定图片5的未遮挡区域的面积为：

图片5所在区域-（重合区域1+重合区域2）。

S5、利用训练好的图像描述模型获取目标图像的描述文本，并将描述文本与该页进行关联。

在具体实施时，描述文本对应一个PPT文档中的某一页的一个内容图片，根据此关系，可以构建三元组（描述文本，对应的PPT，对应的页，对应的图像对象），即可实现相互关联。

为了进一步降低存储压力，可在将描述文本与该页关联后删除获取的对象，仅存储描述文本及其关联信息，这样即可降低存储占用。

S6、获取用户输入的检索语句，并获取各个描述文本与检索语句的相似度，基于相似度排序生成检索结果。

在具体实施时，检索语句为用户输入的对某一张图内容的描述，且可采用现有的相似度计算方法获取描述文本与检索语句的相似度，例如余弦相似度计算、TFIDF计算、Word2Vec计算等，可根据实际需要进行选择。且在生成检索结果时，可以仅将相似度超过第三阈值（例如第三阈值为相似度前10）的描述文本对应的PPT文档作为检索结果进行展示。进一步的，在检索结果中还可展示检索语句对应的页数。

通过上述步骤，用户在输入检索语句后，系统会根据检索语句与PPT文档各页的描述文本相似程度智能地从数据库中检索出若干PPT文档，且在获取PPT文档各页的描述文本时，本申请并非对所有页面中所有的图像都进行描述，过多的描述文本会造成相互干扰，进而使得检索结果不理想，而是根据用户习惯以及图像特性，对其进行筛选后得到目标图像，再对目标图像进行描述作为该页的描述文本，进而与PPT进行关联，能够得到较好的检索结果。

需要说明的是，通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分所述的方法。在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于大数据的文档智能检索方法，其特征在于，该方法包括：

将PPT文档中的图像对象划分为内容图像和装饰图像；

2.如权利要求1所述的一种基于大数据的文档智能检索方法，其特征在于，所述图像描述模型采用基于CNN和LSTM的网络模型，且采用Flickr_30K数据集对图像描述模型进行训练。

3.如权利要求1所述的一种基于大数据的文档智能检索方法，其特征在于，所述将PPT文档中的图像对象划分为内容图像和装饰图像，包括：

4.如权利要求3所述的一种基于大数据的文档智能检索方法，其特征在于，所述第一阈值为3次，第二阈值为该PPT文档总页数的50%。

5.如权利要求1所述的一种基于大数据的文档智能检索方法，其特征在于，所述获取各页中各个内容图像的未遮挡面积，包括：

基于PPT文档的页面构建参考坐标系；

计算未遮挡区域的面积。

6.如权利要求1所述的一种基于大数据的文档智能检索方法，其特征在于，所述检索结果包括相似度排名前10的PPT文档以及检索语句在各个PPT文档中对应的页数。

7.如权利要求1所述的一种基于大数据的文档智能检索方法，其特征在于，所述基于余弦相似度计算得到描述文本与检索语句的相似度。