CN109871473A

CN109871473A - 一种对工程文件和数据库建立全文检索文档的方法

Info

Publication number: CN109871473A
Application number: CN201910104875.9A
Authority: CN
Inventors: 申屠军; 郑明光; 方舟
Original assignee: Shanghai Nuclear Engineering Research and Design Institute Co Ltd
Current assignee: Shanghai Nuclear Engineering Research and Design Institute Co Ltd
Priority date: 2019-02-01
Filing date: 2019-02-01
Publication date: 2019-06-11

Abstract

本发明的目的在于公开一种对工程文件和数据库建立全文检索文档的方法，自动地将企业数据资产中的工程文件和数据库转换为计算机可识别的文本文件，并建立全文检索的索引，针对的工程文件，涵盖了大部分的OFFICE文件、图纸、图片或PDF文档、和三维模型等，将数据库中的数据还原成“内容完整”的键值对格式的文本文件，把外键信息用完整的记录替代，同时每个数据值都有对应的数据名，全文检索的效率更高，准确性更好，实现本发明的目的。

Description

一种对工程文件和数据库建立全文检索文档的方法

技术领域

本发明涉及一种全文检索文档的方法，特别涉及一种用于软件开发的对工程文件和数据库建立全文检索文档的方法。

背景技术

数据搜索有两种，一种是条件查询(criteria query)，另一种是全文搜索(fulltext search)。

条件查询是在明确查询条件之后的搜索，如通过物项编码查找物项，通过文件名查找文件，通过数据值范围查找数据值等等。这种查询机制，只需要分别对每种搜索规则确定对应的数据库搜索语句即可。

而全文检索，则复杂得多。原理上，简单的说，全文检索先扫描所有的文档，建立一个索引文件。索引文件中每条信息是这样的：左边是一个单词，右边是包含该单词的所有文件的文件链表，所有的单词称为词典，这样当用户键入关键词时，只需在词典中找到对应的单词，即能快速确定所要查找的文档，最后从文档中提取出上下文内容反馈给用户即可。

全文检索技术已经非常成熟，包括百度、谷歌等都采用全文检索技术给用户提供关键词相关的信息。目前，对于软件开发来说，也有成熟的开源的全文检索组件，如Lucene。软件开发者只需将Lucene作为组件引入其软件中，令其扫描要搜索的所有文档，建立一个索引文件，即可再利用Lucene向用户返回其关键词的上下文内容。

对于软件开发者来说，其关键是准备好要搜索的所有文档，这些文档必须是计算机可以读取的(不是图片、三维模型等)，且信息是完整的(无需像数据库那样通过外键跨表查询)。

但是对于一个企业来说，其数据资产往往不能直接实现全文检索，原因是这些数据资产要么是计算机不能直接读取内容的工程文件，要么是包含大量符号的数据库。

一般工程文件中包括OFFICE文档(word文档、excel文档等、PDF文档、以及TXT文档)，各种设计软件形成的图纸(如AutoCAD图纸、工艺系统的系统流程图、电仪控系统的原理图等)、以及各种设计软件形成的三维模型(如PDMS形成的工厂布置模型，SOLIDWORKS形成的设备结构模型等)。这种工程文件中蕴藏着很多信息，但不能被计算机直接读取，从而无法建立全文检索的索引。

而数据库中，每张数据表的信息往往不是相对完整的，数据表里有大量的主键和外键(都是ID)，而且每个数据只有值没有名(数据名是数据表的字段)，因此如果只读取数据表中的信息而不做任何“还原”处理的话，那么即使对数据表的内容建立了索引，也是无意义的。

因此，特别需要一种对工程文件和数据库建立全文检索文档的方法，以解决上述现有存在的问题。

发明内容

本发明的目的在于提供一种对工程文件和数据库建立全文检索文档的方法，针对现有技术的不足，对工程文件和数据库进行处理，生成对应的可检索的文件，从而满足全文检索的要求，解决了企业数据资产中工程文件和数据库无法服务于全文检索的问题。

本发明所解决的技术问题可以采用以下技术方案来实现：

一种对工程文件和数据库建立全文检索文档的方法，其特征在于，它包括如下步骤：

S1、建立OFFICE文档转换模块，该模块能根据OFFICE文档的文件名，自动打开相应的OFFICE软件，然后进行文档另存操作和数据处理，并生成相应的文本文件；

S2、建立图纸信息提取模块，该模块能够识别AutoCAD和其他格式的图纸文件，自动打开相应的设计软件，然后进行文档另存操作和数据处理，并生成相应的文本文件；

S3、建立OCR模块，该模块配备了OCR(optical character recognition)组件，能够识别图片或PDF中的文本信息，并将识别的文本内容写入后缀为“txt”的文件；

S4、建立三维模型数据读取模块，该模块能够读取PDS/PDMS/SP3D的底层数据库内容，并将三维模型中物项的尺寸、材料、和连接关系等的数据写入后缀为“txt”的文件；

S5、建立数据库内容还原模块，该模块连接企业的数据库，读取数据库中的每张数据表中的数据，进行处理后，将每张数据表中的数据写入一个后缀为“txt”的文件；

S6、建立文档存储和索引模块，该模块能够对工程文件的目录进行管理，对目录中的文件逐一识别其格式，然后启动上述步骤S1至步骤S5中建立的模块，生成对应的文本文件，存入新的文件夹中；然后对所有转换后的文本文件，调用全文检索组件，建立索引文件，通过全文检索组件对外提供全文检索服务。

在本发明的一个实施例中，所述OFFICE文档转换模块将WORD文档另存(save as)为同名的后缀为“odt”的文件；将EXCEL文档另存(save as)为同名的后缀为“csv”的文件；将VISIO文档另存(save as)为同名的后缀为“vdx”的文件，且同时只保留vdx文件中的<text></text>之间的内容。

在本发明的一个实施例中，所述图纸信息提取模块将AutoCAD的图纸另存(saveas)为同名的后缀为“csv”的文件。

在本发明的一个实施例中，所述数据库内容还原模块将数据表中的外键数据，通过跨表查询后，外键数据(一般是ID)用跨表查询得到的关联表中的数据记录(即关系型数据库的一行)来代替。

在本发明的一个实施例中，所述数据库内容还原模块写入txt文件时，采用嵌套的“键-值对”的JSON格式，即对于每条记录，形式如“{字段1:数据1,字段2:{字段21:数据21,字段22:数据22,……},……}”。

在本发明的一个实施例中，所述文档存储和索引模块能够分门别类地存放上述转换前的工程文件和转换后的文本文件，同时能够对上述转换后的文本文件建立全文检索的索引，同时提供对外全文检索的服务。

在本发明的一个实施例中，所述文档存储和索引模块能够实时识别工程文件的更新或增删情况，并根据更新增删情况，启动前述5个模块，重新对更新或增删的工程文件，重新生成对应的文本文件，并更新全文检索的索引。

本发明的对工程文件和数据库建立全文检索文档的方法，与现有技术相比，自动地将企业数据资产中的工程文件和数据库转换为计算机可识别的文本文件，并建立全文检索的索引，针对的工程文件，涵盖了大部分的OFFICE文件、图纸、图片或PDF文档、和三维模型等，将数据库中的数据还原成“内容完整”的键值对格式的文本文件，把外键信息用完整的记录替代，同时每个数据值都有对应的数据名，全文检索的效率更高，准确性更好，实现本发明的目的。

本发明的特点可参阅本案图式及以下较好实施方式的详细说明而获得清楚地了解。

附图说明

图1为本发明的5个内容转换模块和1个文档存储和索引模块的结构示意图；

图2为本发明的数据库内容还原的示意图。

具体实施方式

为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解，下面结合具体图示，进一步阐述本发明。

实施例

如图1和图2所示，本发明的对工程文件和数据库建立全文检索文档的方法，包括文档存储和索引模块1、OFFICE文档转换模块2、图纸信息提取模块3、OCR模块4、三维模型数据读取模块5、数据库内容还原模块6。

本发明的对工程文件和数据库建立全文检索文档的方法，它包括步骤如下：

S1、建立OFFICE文档转换模块2。OFFICE软件允许用户开发插件，因此可以在word、excel、visio中编写文档转换的插件。其中，在WORD中编写的插件，其功能是将WORD文档另存为同名的后缀为“odt”的文件。在EXCEL中编写的插件，其功能是将EXCEL文档另存为同名的后缀为“csv”的文件；将VISIO中编写的插件，其功能是将VISIO文档另存为同名的后缀为“vdx”的文件，且同时只保留vdx文件中的<text></text>之间的内容。如果在OFFICE软件中编写插件困难，也可以采用S2的“窗口控制”的方法。

S2、建立图纸信息提取模块3。无论是AutoCAD还是其他二维图形软件，一般都提供了图纸数据导出的功能按钮，比如AutoCAD的按钮名称是“data extraction”。因此在软件开发时，可以在打开AutoCAD软件或其他图形文件(如利用java的Runtime类提供的exec()方法)之后，控制鼠标和键盘(如利用java的Robot类提供的方法)，模拟按键行为，然后将图纸中的数据导出成csv或xml文本。当然实际情况要复杂，比如要设置导出范围等，处理窗口突发情况等。

S3、建立OCR模块4。目前有成熟的商业化的OCR组件或模块，软件开发时将其嵌入在软件之中，同时允许S6建立的“文档存储和索引模块”进行调用即可。

S4、建立三维模型数据读取模块5。PDS/PDMS/SP3D的数据库都是开发给用户的，因此编写的该模块，连接其中的数据表，将数据表中的内容读取出来并写入txt文件即可。当然实际情况要略微复杂，主要是要考虑数据表之间的关系，可以参考S5的数据库内容还原的操作，这样生成的数据文件内容更为完整和充实。

S5、建立数据库内容还原模块6。编写的该模块连接企业的数据库，将数据表中的内容读取出来，如果其中有外键数据，则将外键数据用跨表查询得到的记录进行替代，最后每行记录用键值对的格式写入txt文件中。

S6、建立文档存储和索引模块1。该模块能够对工程文件的目录进行管理，对目录中的文件逐一识别其格式，然后启动上述S1-S5建立的内容转换模块，生成对应的文本文件，存入新的文件夹中。然后对所有转换后的文本文件，调用全文检索组件(如Lucene)，建立索引文件，最有通过全文检索组件对外提供全文检索服务。另外，该模块能够实时发现文件的更新和增删情况，并根据更新增删情况，启动前述5个内容转化模块，重新对更新或增删的工程文件，重新生成对应的文本文件，并更新全文检索的索引。

从上可以看出，本方法解决了大多数工程文件和数据库不能被用于全文检索的问题。

以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内，本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种对工程文件和数据库建立全文检索文档的方法，其特征在于，它包括如下步骤：

2.如权利要求1所述的对工程文件和数据库建立全文检索文档的方法，其特征在于，所述OFFICE文档转换模块将WORD文档另存(save as)为同名的后缀为“odt”的文件；将EXCEL文档另存(save as)为同名的后缀为“csv”的文件；将VISIO文档另存(save as)为同名的后缀为“vdx”的文件，且同时只保留vdx文件中的<text></text>之间的内容。

3.如权利要求1所述的对工程文件和数据库建立全文检索文档的方法，其特征在于，所述图纸信息提取模块将AutoCAD的图纸另存(save as)为同名的后缀为“csv”的文件。

4.如权利要求1所述的对工程文件和数据库建立全文检索文档的方法，其特征在于，所述数据库内容还原模块将数据表中的外键数据，通过跨表查询后，外键数据(一般是ID)用跨表查询得到的关联表中的数据记录(即关系型数据库的一行)来代替。

5.如权利要求1所述的对工程文件和数据库建立全文检索文档的方法，其特征在于，所述数据库内容还原模块写入txt文件时，采用嵌套的“键-值对”的JSON格式，即对于每条记录，形式如“{字段1:数据1,字段2:{字段21:数据21,字段22:数据22,……},……}”。

6.如权利要求1所述的对工程文件和数据库建立全文检索文档的方法，其特征在于，所述文档存储和索引模块能够分门别类地存放上述转换前的工程文件和转换后的文本文件，同时能够对上述转换后的文本文件建立全文检索的索引，同时提供对外全文检索的服务。

7.如权利要求1所述的对工程文件和数据库建立全文检索文档的方法，其特征在于，所述文档存储和索引模块能够实时识别工程文件的更新或增删情况，并根据更新增删情况，启动前述5个模块，重新对更新或增删的工程文件，重新生成对应的文本文件，并更新全文检索的索引。