CN112784004A

CN112784004A - Pdf文档的检索方法、系统、电子设备、存储介质

Info

Publication number: CN112784004A
Application number: CN201911088866.1A
Authority: CN
Inventors: 卢洪志
Original assignee: Zhejiang Dasou Vehicle Software Technology Co Ltd
Current assignee: Zhejiang Dasou Vehicle Software Technology Co Ltd
Priority date: 2019-11-08
Filing date: 2019-11-08
Publication date: 2021-05-11

Abstract

本发明公开了PDF文档的检索方法、系统、电子设备、存储介质。所述PDF文档的检索方法包括：获取查询请求，所述查询请求携带关键词；从对PDF文档进行文本转换后的若干文本内容中查询包含有所述关键词的第一目标文本内容；在未查找到所述第一目标文本内容的情况下，反馈与所述关键词的相似度大于阈值的第二目标文本内容。本发明中，在未查找到包含用户输入的关键词的文本内容的情况，则反馈与关键词相似的文本内容或相匹配的文本图片，从而即便在将PDF文档转换成文本的过程中出现错误或文档部分区域未能转换成文本，也能将用户所需的文本内容反馈给用户，提高了文本查找的效率和准确率。

Description

PDF文档的检索方法、系统、电子设备、存储介质

技术领域

本发明涉及文档处理技术领域，特别涉及PDF文档的检索方法、系统、电子设备、存储介质。

背景技术

PDF(便携式文档格式)的文件格式与操作系统的平台无关，PDF文件不管是在Windows，Unix，还是在苹果公司的Mac OS(Windows、Unix和Mac OS均是操作系统)中都是通用的。这一特点使它成为在Internet(因特网)上进行电子文档发行和数字化信息传播的理想文档格式。越来越多的电子图书、产品说明、公司文告、网络资料、电子邮件在开始使用PDF格式文件。

目前，对于PDF文档内容的查找，需要先将PDF转换成文本格式，然后手动输入关键词查找所需的内容。这样的方式对于单个PDF还好，但是从成批量的 PDF中去查找参数内容会消耗很长的人力和物力。且在文本转换出错的情况下，难以根据输入关键词查找到所需的内容，效率和准确率都较低。

发明内容

本发明提供PDF文档的检索方法、系统、电子设备、存储介质，以克服现有技术中对PDF文档进行文本转换时出错的情况下，难以根据输入关键词查找到所需的文本内容的缺陷。

具体地，本发明是通过如下技术方案实现的：

第一方面，提供一种PDF文档的检索方法，所述PDF文档的检索方法包括：

获取查询请求，所述查询请求携带关键词；

从对PDF文档进行文本转换后的若干文本内容中查询包含有所述关键词的第一目标文本内容；

在未查找到所述第一目标文本内容的情况下，反馈与所述关键词的相似度大于阈值的第二目标文本内容。

可选地，所述文本内容标注有进行分词标注后的分词标识；

反馈与所述关键词的相似度大于阈值的第二目标文本内容，包括：

确定所述关键词与所述分词标识的相似度；

将包含有与所述关键词的相似度大于阈值的分词标识的文本内容确定为第二目标文本内容。

可选地，确定所述关键词与所述分词标识的相似度，包括：

将所述关键词拆分为文字或字符，统计所述分词标识中包括所述文字或字符的数量，根据所述数量确定所述相似度。

可选地，在未查找到所述第一目标文本内容的情况下，所述PDF文档的检索方法还包括：

根据文本图片的图片描述查找与所述关键词相匹配的目标文本图片，其中，将对所述PDF文档进行文本转换后未转换成文本的区域截取为所述文本图片，所述图片描述根据所述文本图片的周围的文本内容确定；

反馈所述目标文本图片。

可选地，根据所述文本图片的周围的文本内容确定所述图片描述，包括：

对所述文本图片的周围的文本内容进行分词标注，根据分词标注结果确定所述图片描述。

可选地，对PDF文档进行文本转换，包括：

基于OCR(光学字符识别)对所述PDF文档进行文本转换。

第二方面，提供另一种PDF文档的检索方法，所述PDF文档的检索方法包括：

获取查询请求，所述查询请求携带关键词；

从对PDF文档进行文本转换后的若干文本内容中查询包含有所述关键词的目标文本内容；

在未查找到所述目标文本内容的情况下，根据文本图片的图片描述反馈与所述关键词相匹配的目标文本图片，其中，将对所述PDF文档进行文本转换后未转换成文本的区域截取为所述文本图片，所述图片描述根据所述文本图片的周围的文本内容确定。

第三方面，提供一种PDF文档的检索系统，所述PDF文档的检索系统包括：

获取模块，用于获取查询请求，所述查询请求携带关键词；

文本查找模块，用于从对PDF文档进行文本转换后的若干文本内容中查询包含有所述关键词的第一目标文本内容；

所述文本查找模块，还用于在未查找到所述第一目标文本内容的情况下，查找与所述关键词的相似度大于阈值的第二目标文本内容；

反馈模块，用于反馈所述第二目标文本内容。

可选地，所述文本内容标注有进行分词标注后的分词标识；

在查找与所述关键词的相似度大于阈值的第二目标文本内容时，所述文本查找模块具体用于：

确定所述关键词与所述分词标识的相似度；

可选地，在确定所述关键词与所述分词标识的相似度时，所述文本查找模块具体用于：

可选地，所述PDF文档的检索系统还包括：图片查找模块；

在未查找到所述第一目标文本内容的情况下，所述图片查找模块用于：

所述反馈模块，还用于反馈所述目标文本图片。

可选地，所述检索系统还包括：

确定模块，用于对所述文本图片的周围的文本内容进行分词标注，根据分词标注结果确定所述图片描述。

第四方面，提供另一种PDF文档的检索系统，所述PDF文档的检索系统包括：

获取模块，用于获取查询请求，所述查询请求携带关键词；

文本查找模块，用于从对PDF文档进行文本转换后的若干文本内容中查询包含有所述关键词的目标文本内容；

图片查找模块，用于在未查找到所述目标文本内容的情况下，根据文本图片的图片描述反馈与所述关键词相匹配的目标文本图片，其中，将对所述 PDF文档进行文本转换后未转换成文本的区域截取为所述文本图片，所述图片描述根据所述文本图片的周围的文本内容确定。

第五方面，提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述任一项所述的PDF文档的检索方法。

第六方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项所述的PDF文档的检索方法的步骤。

本发明的实施例提供的技术方案可以包括以下有益效果：

在PDF文档中进行关键词检索时，若未查找到包含用户输入的关键词的文本内容的情况，则反馈与关键词相似的文本内容或相匹配的文本图片，从而即便在将PDF文档转换成文本的过程中出现错误或文档部分区域未能转换成文本，也能将用户所需的文本内容反馈给用户，提高了文本查找的效率和准确率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1是本发明一示例性实施例示出的对PDF文档进行文本转换的结果示意图；

图2是本发明一示例性实施例示出的一种PDF文档的检索方法的流程图；

图3是图2中步骤204b的步骤流程图；

图4是本发明一示例性实施例示出的另一种PDF文档的检索方法的流程图；

图5是本发明一示例性实施例示出的另一种PDF文档的检索方法的流程图；

图6是本发明一示例性实施例示出的另一种PDF文档的检索方法的流程图；

图7是本发明一示例性实施例示出的一种PDF文档的检索系统的模块示意图；

图8是本发明一示例性实施例示出的另一种PDF文档的检索系统的模块示意图；

图9是本发明一示例性实施例示出的一种电子设备的结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

在本发明使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本发明可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本发明范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

本发明实施例提供一种PDF文档的检索方法，用于实现从PDF文档中查找出用户所需的目标文本内容。在进行检索之前，需要对PDF文档进行文本转换。本实施例中，可对多份PDF文档进行文本转换，并统一存储文本转换的结果。转换结果包括文本内容及其位置信息、文本图片及其位置信息。

图1示出了对一份PDF文档进行文本转化的结果，图中文本框A1～文本框 A16内的文字内为转换得到的文本内容，每个文本框中的文本作为一条文本内容，可以但不限于存储于txt文件中，使用json文档存储该条文本内容的位置信息。位置信息可以使用文本框的两个对角顶点的坐标表示，例如，可以表示如下：{x₁:1195,y₁:3365,x₂:1290,y₂:3403}，x₁、x₂为文本框的两个顶点的横坐标，y₁、 y₂为文本框的两个顶点的纵坐标。

在对PDF文档转换过程中，将未成功转换为文本的区域截取为文本图片，假设文本框B中的文字内容未被转换为文本，则将该区域截取为文本图片。与文本内容类似的，文本图片的位置信息可以但不限于使用json文档存储，位置信息可以使用文本框的两个对角顶点的坐标表示。

图2是本发明一示例性实施例示出的一种PDF文档的检索方法的流程图，该PDF文档的检索方法包括以下步骤：

步骤201、获取查询请求，查询请求携带关键词。

步骤201中，该查询请求根据用户输入关键词的生成，以查询用户所需的文本内容。需要说明的是，此处的关键词可以但不限于是一个词组或一个句子。

步骤202、从对PDF文档进行文本转换后的若干文本内容中查询包含有关键词的第一目标文本内容。

一份PDF文档包含多个文本内容，查找目标文本内容时，可以先根据文本内容在该份PDF文档中的从左到右、从上到下顺序，对存储文本内容的txt 文件进行排序，然后依次查找txt文件的文本内容中是否包含关键词。以图1 示出的PDF为例，查找顺序为依次对存储文本框A1、文本框A2、文本框 A3、文本框A4、文本框A5、文本框A6、文本框A7、文本框A8、文本框 A9、文本框A14、文本框A10、文本框A11、文本框A15、文本框A12、文本框A16、文本框A13中的文本内容的txt文件进行查询，依据该顺序进行目标文本内容查询可以提高查询的效率和准确率。

步骤203、判断是否查找到第一目标文本内容。

步骤203中，若判断为是，说明从PDF文档中查找到用户所需的第一目标文本，则执行步骤204a。

步骤204a、将第一目标文本内容反馈给用户。

步骤203中，若判断为否，说明未从PDF文档中查找到用户所需的第一目标文本，有以下可能的情况：(1)PDF文档中不存在用户所需的第一目标文本；(2)因为文本转换出现错误，例如将“用于”转换成“用千”，所以未能匹配出目标文本内容。对于上述情况需要进一步判断，则执行步骤204b。

204b、判断是否存在与关键词的相似度大于阈值的第二目标文本内容。

步骤204b中，若判断为是，说明存在于关键词的相似度大于阈值的第二目标文本内容，则执行步骤205a。

205a、将第二目标文本内容反馈给用户。

步骤204b中，若判断为否，说明即不存在包含关键词的第一目标文本内容，也不存在与关键词的相似度大于阈值的第二目标文本内容，则执行步骤205a。

205b、提示未找到匹配的文本内容。

本实施例中，在未检索到包含用户输入的关键词的文本内容的情况下，反馈与关键词相似的文本内容，从而即便在将PDF文档转换成文本的过程中出现错误，也能将用户所需的文本内容反馈给用户，提高了文本查找的效率和准确率。

参见图3提供了204b中判断是否存在与关键词的相似度大于阈值的第二目标文本内容的一种可能的实现方式，步骤204b具体包括以下步骤：

步骤204b-1、确定关键词与文本内容的分词标识的相似度。

本实施例中，在对PDF文档进行文本转换之后，进一步对文本内容进行分词标注，得到文本内容的至少一个分词标识。以文本内容“成像模块，用于基于变形后的所述图像传感器获取所述待摄对象的图像”为例，对上述文本内容进行分词处理并去除停用词后，将得到的“成像模块”、“变形”、“图像传感器”、“获取”作为上述文本内容的分词标识。

步骤204b-1中，确定关键词与文本内容的分词标识的相似度，也即确定关键词与文本内容的每个分词标识的相似度。具体的，可以但不限于采用以下实现方式：将关键词拆分为文字或字符，统计分词标识中包含文字或字符的数量，根据数量确定相似度。以关键词为“变量”为例，分词标识“成像模块”、“变形”、“图像传感器”、“获取”中包含“变”或“量”的数量为[0,1,0,0]。若某一分词标识包含与关键词的文字(和/或字符)的数量与分词标识的文字(和/或字符)总数之比大于阈值，说明该分词标识与关键词较相似。

步骤204b-2、将与关键词的相似度大于阈值的分词标识确定为目标分词标识。

步骤204b-3、将包含有目标分词标识的文本内容确定为第二目标文本内容。

若步骤204b-3中，某一txt文件中的文本内容不存在包含与关键词的相似度大于阈值的分词标识，说明该文本内容与关键词不存在相似性，则计算关键词与下一txt文件中的文本内容的相似度。重复上述过程，直至遍历所有txt文件，确定出第二目标文本内容。此处的所有txt文件可以是对一份PDF 文件进行文本转换得到的所有txt文件；也可以是对多份PDF文件进行文本转换得到的所有txt文件，从而无需用户手动一份一份打开PDF文档，可即实现对PDF文档内容的批量检索。

以下提供确定第二目标文本内容的另一种实现方式：对文本内容进行分词标注后，根据分词标识在句子中的成分对分词标识赋予对应的权重，例如，将主语、谓语、宾语赋予较高的权重，定语、状语赋予较低的权重。统计文本内容中每个分词标识包含与关键词的文字(或字符)的数量，对每个分词标识的统计结果进行加权求和，即可得到关键词与文本内容的相似度，将相似度大于阈值的文本内容确定为第二目标文本内容。

在图2示出的PDF文档的检索方法的流程图的基础上，图4示出了本发明一示例性实施例的另一种PDF文档的检索方法的流程图，本实施例的步骤流程与图2基本相同，不同之处在于，本实施例中，步骤403中，若判断为否，还执行步骤404c。

步骤404c、根据预先获得的文本图片的图片描述查找与关键词相匹配的目标文本图片，并反馈目标文本图片。以供用户查看目标文本图片中是否存在其所需的文本内容。

其中，图片描述根据文本图片的周围的文本内容确定。

以图1示出的PDF文档为例，文本图片周围的文本内容也即文本框A6、文本框A7和文本框A8。图片描述可根据文本框A6、文本框A7和文本框 A8中文本内容的分词标识确定，例如，将三个文本框内的文本内容的所有分词标识均作为图片描述的内容，或从中选择若干分词标识作为图片描述内容。步骤204c中，查找与关键词相匹配的目标文本图片的具体实现方式与确定关键词与文本内容的分词标识的相似度的具体实现方式类似，此处不再赘述。

需要说明的是，步骤404c可以与步骤404b同步执行，也可在步骤404b中判断为否时执行。

本实施例中，在未查找到包含用户输入的关键词的文本内容的情况下，会反馈与关键词相似的文本内容或相匹配的文本图片，从而即便在将PDF文档转换成文本的过程中出现错误或文档部分区域未能转换成文本，也能将用户所需的文本内容反馈给用户，提高了文本查找的效率和准确率。

图5是本发明一示例性实施例示出的另一种PDF文档的检索方法的流程图，该PDF文档的检索方法包括以下步骤：

步骤501、获取查询请求，查询请求携带关键词。

步骤501中，该查询请求根据用户输入关键词的生成，以查询用户所需的文本内容。需要说明的是，此处的关键词可以但不限于是一个词组或一个句子。

步骤502、从对PDF文档进行文本转换后的若干文本内容中查询包含有关键词的第一目标文本内容。

步骤503、在未查找到第一目标文本内容的情况下，根据文本图片的图片描述反馈与关键词相匹配的目标文本图片。

本实施例中，在未查找到包含用户输入的关键词的文本内容的情况下，则反馈与关键词相匹配的文本图片，供用户从图片中查找是否存在其所需的文本内容，从而即便在将PDF文档转换成文本的过程中文档部分区域未能转换成文本，也能将用户所需的文本内容反馈给用户，提高了文本查找的效率和准确率。

在图5示出的PDF文档的检索方法的流程图的基础上，图6示出了本发明一示例性实施例的另一种PDF文档的检索方法的流程图，本实施例的步骤流程与图5基本相同，不同之处在于，本实施例中，在未查找到目标文本内容的情况下，方法还包括以下步骤604。

步骤604、反馈与关键词的相似度大于阈值的第二目标文本内容。

其中，步骤604的具体实现方式与步骤204b、步骤205a、步骤205b类似，此处不再赘述。

需要说明的是，步骤604的执行顺序不限于在步骤603执行完毕后再执行，步骤604可以与步骤603同步执行。

与前述PDF文档的检索方法实施例相对应，本发明还提供了PDF文档的检索系统的实施例。

图7示出了本发明一示例性实施例的一种PDF文档的检索系统，该PDF文档的检索系统包括：获取模块71、文本查找模块72、反馈模块73。

获取模块71用于获取查询请求，所述查询请求携带关键词；

文本查找模块72用于从对PDF文档进行文本转换后的若干文本内容中查询包含有所述关键词的第一目标文本内容；

反馈模块73用于反馈所述第二目标文本内容。

可选地，所述文本内容标注有进行分词标注后的分词标识；

确定所述关键词与所述分词标识的相似度；

可选地，所述PDF文档的检索系统还包括：图片查找模块；

所述反馈模块，还用于反馈所述目标文本图片。

可选地，所述检索系统还包括：

图8示出了本发明一示例性实施例的另一种PDF文档的检索系统，该PDF 文档的检索系统包括：获取模块81、文本查找模块82和图片查找模块83。

获取模块81用于获取查询请求，所述查询请求携带关键词；

文本查找模块82用于从对PDF文档进行文本转换后的若干文本内容中查询包含有所述关键词的目标文本内容；

图片查找模块83用于在未查找到所述目标文本内容的情况下，根据文本图片的图片描述反馈与所述关键词相匹配的目标文本图片，其中，将对所述PDF 文档进行文本转换后未转换成文本的区域截取为所述文本图片，所述图片描述根据所述文本图片的周围的文本内容确定。

图9为本发明一示例性实施例的一种电子设备的结构示意图，示出了适于用来实现本发明实施方式的示例性电子设备90的框图。图9显示的电子设备90 仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图9所示，电子设备90可以以通用计算设备的形式表现，例如其可以为服务器设备。电子设备90的组件可以包括但不限于：上述至少一个处理器91、上述至少一个存储器92、连接不同系统组件(包括存储器92和处理器91)的总线 93。

总线93包括数据总线、地址总线和控制总线。

存储器92可以包括易失性存储器，例如随机存取存储器(RAM)921和/或高速缓存存储器922，还可以进一步包括只读存储器(ROM)923。

存储器92还可以包括具有一组(至少一个)程序模块924的程序工具925(或实用工具)，这样的程序模块924包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

处理器91通过运行存储在存储器92中的计算机程序，从而执行各种功能应用以及数据处理，例如上述任一实施例提供的PDF文档的检索方法。

电子设备90也可以与一个或多个外部设备94(例如键盘、指向设备等)通信。这种通信可以通过输入/输出(I/O)接口95进行。并且，模型生成的电子设备90 还可以通过网络适配器96与一个或者多个网络(例如局域网(LAN)，广域网(WAN) 和/或公共网络，例如因特网)通信。如图所示，网络适配器96通过总线93与模型生成的电子设备90的其它模块通信。应当明白，尽管图中未示出，可以结合模型生成的电子设备90使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID(磁盘阵列)系统、磁带驱动器以及数据备份存储系统等。

本发明实施例还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一实施例所述的PDF文档的检索方法的步骤。

应当注意，尽管在上文详细描述中提及了电子设备的若干单元/模块或子单元/模块，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之，上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种PDF文档的检索方法，其特征在于，所述PDF文档的检索方法包括：

获取查询请求，所述查询请求携带关键词；

2.如权利要求1所述的PDF文档的检索方法，其特征在于，所述文本内容标注有进行分词标注后的分词标识；

确定所述关键词与所述分词标识的相似度；

3.如权利要求2所述的PDF文档的检索方法，其特征在于，确定所述关键词与所述分词标识的相似度，包括：

4.如权利要求1所述的PDF文档的检索方法，其特征在于，在未查找到所述第一目标文本内容的情况下，所述PDF文档的检索方法还包括：

反馈所述目标文本图片。

5.如权利要求4所述的PDF文档的检索方法，其特征在于，根据所述文本图片的周围的文本内容确定所述图片描述，包括：

6.如权利要求1所述的PDF文档的检索方法，其特征在于，对PDF文档进行文本转换，包括：

基于光学字符识别OCR对所述PDF文档进行文本转换。

7.一种PDF文档的检索方法，其特征在于，所述PDF文档的检索方法包括：

获取查询请求，所述查询请求携带关键词；

8.一种PDF文档的检索系统，其特征在于，所述PDF文档的检索系统包括：

获取模块，用于获取查询请求，所述查询请求携带关键词；

反馈模块，用于反馈所述第二目标文本内容。

9.如权利要求8所述的PDF文档的检索系统，其特征在于，所述文本内容标注有进行分词标注后的分词标识；

确定所述关键词与所述分词标识的相似度；

10.如权利要求9所述的PDF文档的检索系统，其特征在于，在确定所述关键词与所述分词标识的相似度时，所述文本查找模块具体用于：

11.如权利要求8所述的PDF文档的检索系统，其特征在于，所述PDF文档的检索系统还包括：图片查找模块；

所述反馈模块，还用于反馈所述目标文本图片。

12.如权利要求11所述的PDF文档的检索系统，其特征在于，所述检索系统还包括：

13.一种PDF文档的检索系统，其特征在于，所述PDF文档的检索系统包括：

获取模块，用于获取查询请求，所述查询请求携带关键词；

图片查找模块，用于在未查找到所述目标文本内容的情况下，根据文本图片的图片描述反馈与所述关键词相匹配的目标文本图片，其中，将对所述PDF文档进行文本转换后未转换成文本的区域截取为所述文本图片，所述图片描述根据所述文本图片的周围的文本内容确定。

14.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7任一项所述的PDF文档的检索方法。

15.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7任一项所述的PDF文档的检索方法的步骤。