CN114218347A

CN114218347A - 多个文件内容的快速索引查找方法

Info

Publication number: CN114218347A
Application number: CN202111431540.1A
Authority: CN
Inventors: 张坚
Original assignee: Jiangsu Tax Software Technology Co ltd
Current assignee: Jiangsu Tax Software Technology Co ltd
Priority date: 2021-11-29
Filing date: 2021-11-29
Publication date: 2022-03-22

Abstract

本发明涉及一种多个文件内容的快速索引查找方法。其包括如下步骤：步骤1、得到目标方案文档集；步骤2、利用Python文档内容提取处理工具对目标方案文档集内的所有文档进行文档内容提取以及文档目录信息提取，并将所提取的文档内容以及文档目录信息关联存储于一目标方案文档数据库内；步骤3、接收索引查找关键字，并在目标方案文档数据库内搜索与所述索引查找关键字相对应的内容；当在目标方案文档数据库内搜索到与索引查找关键字相对应的内容后，跳转至步骤4，否则，跳转至步骤5；步骤4、得到所需的文档目录集；步骤5、结束索引查找。本发明能快速实现对文件内容的索引查找，提高索引查找效率，满足对文件内容快速查找的需求。

Description

多个文件内容的快速索引查找方法

技术领域

本发明涉及一种索引查找方法，尤其是一种多个文件内容的快速索引查找方法。

背景技术

在税务等多个领域中，均存在多大量文件内容进行索引查找的需求。目前，在对多种文件内容查找时，需要将每个文件直接打开读取，以便确定文件中是否存在需要索引查找的内容。将每个文件直接打开读取的方式，导致整个文件内容索引查找方式较为繁琐，索引查找效率低，难以满足目前对文件内容快速索引查找的需求。

发明内容

本发明的目的是克服现有技术中存在的不足，提供一种多个文件内容的快速索引查找方法，其能快速实现对文件内容的索引查找，提高索引查找效率，满足对文件内容快速查找的需求。

按照本发明提供的技术方案，一种多个文件内容的快速索引查找方法，所述快速索引查找方法包括如下步骤：

步骤1、根据索引查找需求建立索引查找目标方案，遍历查找与所述索引查找目标方案相关联的文档，以得到目标方案文档集；

步骤2、对上述得到的目标方案文档集，利用Python文档内容提取处理工具对目标方案文档集内的所有文档进行文档内容提取以及文档目录信息提取，并将所提取的文档内容以及文档目录信息关联存储于一目标方案文档数据库内；

步骤3、接收索引查找关键字，并在目标方案文档数据库内搜索与所述索引查找关键字相对应的内容；当在目标方案文档数据库内搜索到与索引查找关键字相对应的内容后，跳转至步骤4，否则，跳转至步骤5；

步骤4、在目标方案文档数据库内，获取与所述索引查找关键字相对应文档目录，并将获取的文档目录输出，以能得到所需的文档目录集；

步骤5、结束索引查找。

步骤1中，与索引查找目标方案相关联的文档分布在不同设备中时，将所有遍历的文档信息复制到所述索引查找目标方案的下，并保留每个文档所在设备的设备号、盘符以及相对应的目录结构。

步骤2中，目标方案文档数据库中的文档目录信息为复制到索引查找目标方案下文档相对应的目录信息。

步骤2中，利用Python文档内容提取处理工具对文档进行内容提取时，利用opencsvreader插件提取CSV格式文档以及TXT格式文档相对应的内容，利用xlwt xlrd插件提取EXCEL文档格式相对应的内容，利用docx win32插件提取DOCX格式文档相对应的内容，利用pdfminner插件提取PDF格式相对应文档的内容；

在提取文档的内容后，利用Python环境将相应的文档数据解析成标准的数据库表存储格式，并存储在所述目标方案文档数据库内；在目标方案文档数据库内，一文档解析成标准的数据库表存储格式后，包括文档的文件名、文档的类型、文档的存储路径以及文档中的所有的内容。

步骤3中，通过分词引擎在目标方案文档数据库内搜索索引查找关键字，所述分词引擎采用ES引擎。

本发明的优点：用Python文档内容提取处理工具对目标方案文档集内的所有文档进行文档内容提取以及文档目录信息提取，并将所提取的文档内容以及文档目录信息关联存储于一目标方案文档数据库内，在确定索引查找关键字后，利用分词搜索方式在目标方案文档数据库进行文档内容的索引查找，从而能快速得到文档目录集，提高索引查找效率，满足对文件内容快速查找的需求。

附图说明

图1为本发明得到目标方案文档数据库一种实施例的流程图。

图2为本发明得到目标方案文档数据库另一种实施例的流程图。

图3为本发明得到文档目录集的示意图。

图4为本发明利用Python文档内容提取处理工具进行具体处理的示意图。

具体实施方式

下面结合具体附图和实施例对本发明作进一步说明。

为了能快速实现对文件内容的索引查找，提高索引查找效率，满足对文件内容快速查找的需求，本发明的快速索引查找方法包括如下步骤：

具体地，建立索引查找目标方案时，可以以企业名称、企业的统一社会信用代码等能够唯一标识企业信息的内容建立索引查找目标方案，建立索引查找目标方案的目的主要将所有相关的文档归集到所述索引查找目标方案下，以形成目标方案文档集。目标方案文档集中的文档类型可为常见的类型，如EXCEL表格文件、WORD文件、PDF文件等，具体类型可以根据实际情况确定得到，此处不再赘述。

如图4所示，利用Python文档内容提取处理工具对文档进行内容提取时，利用opencsvreader插件提取CSV格式文档以及TXT格式文档相对应的内容，利用xlwt xlrd插件提取EXCEL文档格式相对应的内容，利用docx win32插件提取DOCX格式文档相对应的内容，利用pdfminner插件提取PDF格式相对应文档的内容；

在提取文档的内容后，利用Python环境将相应的文档数据解析成标准的数据库表存储格式，并存储在所述标方案文档数据库内；在标方案文档数据库内，一文档解析成标准的数据库表存储格式，包括文档的文件名、文档的类型、文档的存储路径以及文档中的所有的内容。

具体实施时，通过open csvreader插件可以实现对CSV格式文件、TXT格式文件的快速读取，将文件内容读取到程序的内存当中，并且CSV文件结构简单，基本上和文本的差别不大，由于CSV文件简单的存储方式，一方面可以减少存储信息的容量，这样有利于网络传输以及客户端的再处理，python可以按照任意当前的存储思路来进行文件的存储以及关键词的提取。

对于doc格式的文件以及docx格式的文件，通过使用python的win32将doc转换为docx文件后缀类型，然后再使用docx第三方库进行文件的内容读取，高效快速。

对于PDF格式的文件，使用python处理pdf等各种类型的文件就得益于程序的第三方库非常丰富，并且可以很友好的安装并且达到所需要求，pdfminner就是其中之一，这个第三方插件属于轻量级，安装方便，功能强大，可以按照自定义的方式提取任何在pdf文件中你想要的内容，无论是根据标题、行、列等，还可以自己指定对应的行、标题等固定的位置进行内容提取。

使用python内置的xlwt、xlrd对EXCEL进行文件读取，由于是python的内置库，读取的速度和txt是一样的，大概需要秒级为单位，并使用内置库中的判断属性的特殊方法可以快速地对每一个的单元格的类型做一个快速判断，根据单元格类型，将数值以及日期等信息快速提取出来。

对于上述提取CSV格式、TXT格式、DOCX格式以及PDF格式的文件内容，均存储于postgresql数据库的文件内容表内。其中，postgresql数据库为完全免费的数据库，且是采用BSD协议。与postgresql数据库配合的开源软件很多，有很多分布式集群软件，如pgpool、pgcluster、slony、plploxy等等，很容易做读写分离、负载均衡、数据水平拆分等方案。PostgreSQL源代码写的很清晰，易读性强太多。

把从EXCEL文档格式中提取出来的数值、日期等关键数据存储在postgresql数据库的数值表、日期表内，以便后期将数据都导入到es搜索引擎中，两者的关联性很强。

对elasticsearch搜索引擎，elasticsearch搜索引擎是实时的分布式搜索和分析引擎。它可以帮助你用前所未有的速度去处理大规模数据。它可以用于全文搜索，结构化搜索以及分析，当然你也可以将这三者进行组合。elasticsearch搜索引擎是一个建立在全文搜索引擎Apache LuceneTM基础上的搜索引擎，elasticsearch搜索引擎除了做全索引外，还可以做如下工作：分布式实时文件存储，并将每一个字段都编入索引，使其可以被搜索。实时分析的分布式搜索引擎。可以扩展到上百台服务器，处理PB级别的结构化或非结构化数据，能够满足对于文本检索的需求，并且可以按照任意字段等进行快速检索，它的分词还可以自定义话，可以按照后期想要的分词逻辑进行添加，使得分词越来越丰富。

本发明实施例中，open csvreader插件、xlwt xlrd插件、docx win32插件以及pdfminner插件均为现有常用的插件，具体利用相应插件实现对文档内容的提取过程及方式均与现有相一致，具体为本技术领域人员所熟知，此处不再赘述。

在提取文档的内容后，利用Python环境将相应的文档数据解析成标准的数据库表存储格式，即能写入目标方案文档数据库内。对任一文档，在解析得到标准的数据库表存储格式时，所解析存储的内容包括文档的文件名、文档的类型、文档的存储路径以及文档中的所有的内容。

因此，由上述说明可知，在目标方案文档数据库内具有文档内容以及与文档内容相对应的文档目录信息，且文档内容与文档目录信息需要关联存储。

如图1所示，为本发明得到目标方案文档数据库的一种实施流程，其中，图1中的文档位于同一设备中。在利用Python文档内容提取处理工具提取文档内容后，先将提取的文档内容写入目标方案文档数据库内，以便后续对文档内容进行全文索引；然后，在将文档目录信息关联写入目标方案文档数据库内，以便后续对文档目录索引。

如图2所示，为本发明得到目标方案文档数据库的另一种实施流程，其中，与图1中的情况不同，图2中的文档可以位于多个不同设备中，此时，将所有遍历的文档信息复制到所述索引查找目标方案的下，并保留每个文档所在设备的设备号、盘符以及相对应的目录结构。为了避免错误，具体实施时，目标方案文档数据库中的文档目录信息为复制到索引查找目标方案下文档相对应的目录信息。

图1和图2中，建立方案即为索引查找目标方案；文档内容信息入库以及文档目录信息入库即将文档内容、文档目录写入目标方案文档数据库内，所述文档内容与文档目录在目标方案文档数据库内关联存储，具体是指一文档内容与所述文档正对应的文档目录在目标方案文档数据内的一个项内，具体关联存储的方式可以根据需要选择，此处不再赘述。

如图3所示，为具体根据索引查找关键字索引查找的流程图，其中，索引查找关键字的具体内容根据实际需要选择，具体为本技术领域人员所熟知，此处不再赘述。在得到或确定索引查找关键字后，需要在目标方案文档数据库内搜索与所述索引查找关键字相对应的内容，具体地，通过分词引擎在目标方案文档数据库内搜索索引查找关键字，所述分词引擎采用ES引擎。

当在目标方案文档数据库内搜索到与索引查找关键字相对应的内容后，获取所述内容相对应的文档目录，所述目录可以为存储路径等，具体能唯一确定文档内容的信息。当存在多个文档时，则输出文档目录集。

步骤5、结束索引查找。

本发明实施例中，当在目标方案文档数据库内未搜索到与索引查找关键字相对应的内容，或输出文档目录集后，均结束当前的索引查找。

Claims

1.一种多个文件内容的快速索引查找方法，其特征是，所述快速索引查找方法包括如下步骤：

步骤5、结束索引查找。

2.根据权利要求1所述的多个文件内容的快速索引查找方法，其特征是：步骤1中，与索引查找目标方案相关联的文档分布在不同设备中时，将所有遍历的文档信息复制到所述索引查找目标方案的下，并保留每个文档所在设备的设备号、盘符以及相对应的目录结构。

3.根据权利要求2所述的多个文件内容的快速索引查找方法，其特征是：步骤2中，目标方案文档数据库中的文档目录信息为复制到索引查找目标方案下文档相对应的目录信息。

4.根据权利要求1至3任一项所述的多个文件内容的快速索引查找方法，其特征是：步骤2中，利用Python文档内容提取处理工具对文档进行内容提取时，利用open csvreader插件提取CSV格式文档以及TXT格式文档相对应的内容，利用xlwt xlrd插件提取EXCEL文档格式相对应的内容，利用docx win32插件提取DOCX格式文档相对应的内容，利用pdfminner插件提取PDF格式相对应文档的内容；

在提取文档的内容后，利用Python环境将相应的文档数据解析成标准的数据库表存储格式，并存储在所述目标方案文档数据库内；在目标方案文档数据库内，一文档解析成标准的数据库表存储格式，包括文档的文件名、文档的类型、文档的存储路径以及文档中的所有的内容。

5.根据权利要求1至3任一项所述的多个文件内容的快速索引查找方法，其特征是：步骤3中，通过分词引擎在目标方案文档数据库内搜索索引查找关键字，所述分词引擎采用ES引擎。