CN109871473A - 一种对工程文件和数据库建立全文检索文档的方法 - Google Patents
一种对工程文件和数据库建立全文检索文档的方法 Download PDFInfo
- Publication number
- CN109871473A CN109871473A CN201910104875.9A CN201910104875A CN109871473A CN 109871473 A CN109871473 A CN 109871473A CN 201910104875 A CN201910104875 A CN 201910104875A CN 109871473 A CN109871473 A CN 109871473A
- Authority
- CN
- China
- Prior art keywords
- file
- text
- data
- document
- full
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 24
- 238000006243 chemical reaction Methods 0.000 claims description 15
- 238000012015 optical character recognition Methods 0.000 claims description 9
- 238000007792 addition Methods 0.000 claims description 8
- 238000012217 deletion Methods 0.000 claims description 8
- 230000037430 deletion Effects 0.000 claims description 8
- 238000011084 recovery Methods 0.000 claims description 8
- 238000000605 extraction Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 5
- 239000004205 dimethyl polysiloxane Substances 0.000 claims description 4
- 235000013870 dimethyl polysiloxane Nutrition 0.000 claims description 4
- CXQXSVUQTKDNFP-UHFFFAOYSA-N octamethyltrisiloxane Chemical compound C[Si](C)(C)O[Si](C)(C)O[Si](C)(C)C CXQXSVUQTKDNFP-UHFFFAOYSA-N 0.000 claims description 4
- 238000004987 plasma desorption mass spectroscopy Methods 0.000 claims description 4
- 229920000435 poly(dimethylsiloxane) Polymers 0.000 claims description 4
- 239000000463 material Substances 0.000 claims description 2
- 238000006467 substitution reaction Methods 0.000 abstract description 2
- 238000005516 engineering process Methods 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 238000013461 design Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 238000013075 data extraction Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000004064 recycling Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Document Processing Apparatus (AREA)
Abstract
本发明的目的在于公开一种对工程文件和数据库建立全文检索文档的方法,自动地将企业数据资产中的工程文件和数据库转换为计算机可识别的文本文件,并建立全文检索的索引,针对的工程文件,涵盖了大部分的OFFICE文件、图纸、图片或PDF文档、和三维模型等,将数据库中的数据还原成“内容完整”的键值对格式的文本文件,把外键信息用完整的记录替代,同时每个数据值都有对应的数据名,全文检索的效率更高,准确性更好,实现本发明的目的。
Description
技术领域
本发明涉及一种全文检索文档的方法,特别涉及一种用于软件开发的对工程文件和数据库建立全文检索文档的方法。
背景技术
数据搜索有两种,一种是条件查询(criteria query),另一种是全文搜索(fulltext search)。
条件查询是在明确查询条件之后的搜索,如通过物项编码查找物项,通过文件名查找文件,通过数据值范围查找数据值等等。这种查询机制,只需要分别对每种搜索规则确定对应的数据库搜索语句即可。
而全文检索,则复杂得多。原理上,简单的说,全文检索先扫描所有的文档,建立一个索引文件。索引文件中每条信息是这样的:左边是一个单词,右边是包含该单词的所有文件的文件链表,所有的单词称为词典,这样当用户键入关键词时,只需在词典中找到对应的单词,即能快速确定所要查找的文档,最后从文档中提取出上下文内容反馈给用户即可。
全文检索技术已经非常成熟,包括百度、谷歌等都采用全文检索技术给用户提供关键词相关的信息。目前,对于软件开发来说,也有成熟的开源的全文检索组件,如Lucene。软件开发者只需将Lucene作为组件引入其软件中,令其扫描要搜索的所有文档,建立一个索引文件,即可再利用Lucene向用户返回其关键词的上下文内容。
对于软件开发者来说,其关键是准备好要搜索的所有文档,这些文档必须是计算机可以读取的(不是图片、三维模型等),且信息是完整的(无需像数据库那样通过外键跨表查询)。
但是对于一个企业来说,其数据资产往往不能直接实现全文检索,原因是这些数据资产要么是计算机不能直接读取内容的工程文件,要么是包含大量符号的数据库。
一般工程文件中包括OFFICE文档(word文档、excel文档等、PDF文档、以及TXT文档),各种设计软件形成的图纸(如AutoCAD图纸、工艺系统的系统流程图、电仪控系统的原理图等)、以及各种设计软件形成的三维模型(如PDMS形成的工厂布置模型,SOLIDWORKS形成的设备结构模型等)。这种工程文件中蕴藏着很多信息,但不能被计算机直接读取,从而无法建立全文检索的索引。
而数据库中,每张数据表的信息往往不是相对完整的,数据表里有大量的主键和外键(都是ID),而且每个数据只有值没有名(数据名是数据表的字段),因此如果只读取数据表中的信息而不做任何“还原”处理的话,那么即使对数据表的内容建立了索引,也是无意义的。
因此,特别需要一种对工程文件和数据库建立全文检索文档的方法,以解决上述现有存在的问题。
发明内容
本发明的目的在于提供一种对工程文件和数据库建立全文检索文档的方法,针对现有技术的不足,对工程文件和数据库进行处理,生成对应的可检索的文件,从而满足全文检索的要求,解决了企业数据资产中工程文件和数据库无法服务于全文检索的问题。
本发明所解决的技术问题可以采用以下技术方案来实现:
一种对工程文件和数据库建立全文检索文档的方法,其特征在于,它包括如下步骤:
S1、建立OFFICE文档转换模块,该模块能根据OFFICE文档的文件名,自动打开相应的OFFICE软件,然后进行文档另存操作和数据处理,并生成相应的文本文件;
S2、建立图纸信息提取模块,该模块能够识别AutoCAD和其他格式的图纸文件,自动打开相应的设计软件,然后进行文档另存操作和数据处理,并生成相应的文本文件;
S3、建立OCR模块,该模块配备了OCR(optical character recognition)组件,能够识别图片或PDF中的文本信息,并将识别的文本内容写入后缀为“txt”的文件;
S4、建立三维模型数据读取模块,该模块能够读取PDS/PDMS/SP3D的底层数据库内容,并将三维模型中物项的尺寸、材料、和连接关系等的数据写入后缀为“txt”的文件;
S5、建立数据库内容还原模块,该模块连接企业的数据库,读取数据库中的每张数据表中的数据,进行处理后,将每张数据表中的数据写入一个后缀为“txt”的文件;
S6、建立文档存储和索引模块,该模块能够对工程文件的目录进行管理,对目录中的文件逐一识别其格式,然后启动上述步骤S1至步骤S5中建立的模块,生成对应的文本文件,存入新的文件夹中;然后对所有转换后的文本文件,调用全文检索组件,建立索引文件,通过全文检索组件对外提供全文检索服务。
在本发明的一个实施例中,所述OFFICE文档转换模块将WORD文档另存(save as)为同名的后缀为“odt”的文件;将EXCEL文档另存(save as)为同名的后缀为“csv”的文件;将VISIO文档另存(save as)为同名的后缀为“vdx”的文件,且同时只保留vdx文件中的<text></text>之间的内容。
在本发明的一个实施例中,所述图纸信息提取模块将AutoCAD的图纸另存(saveas)为同名的后缀为“csv”的文件。
在本发明的一个实施例中,所述数据库内容还原模块将数据表中的外键数据,通过跨表查询后,外键数据(一般是ID)用跨表查询得到的关联表中的数据记录(即关系型数据库的一行)来代替。
在本发明的一个实施例中,所述数据库内容还原模块写入txt文件时,采用嵌套的“键-值对”的JSON格式,即对于每条记录,形式如“{字段1:数据1,字段2:{字段21:数据21,字段22:数据22,……},……}”。
在本发明的一个实施例中,所述文档存储和索引模块能够分门别类地存放上述转换前的工程文件和转换后的文本文件,同时能够对上述转换后的文本文件建立全文检索的索引,同时提供对外全文检索的服务。
在本发明的一个实施例中,所述文档存储和索引模块能够实时识别工程文件的更新或增删情况,并根据更新增删情况,启动前述5个模块,重新对更新或增删的工程文件,重新生成对应的文本文件,并更新全文检索的索引。
本发明的对工程文件和数据库建立全文检索文档的方法,与现有技术相比,自动地将企业数据资产中的工程文件和数据库转换为计算机可识别的文本文件,并建立全文检索的索引,针对的工程文件,涵盖了大部分的OFFICE文件、图纸、图片或PDF文档、和三维模型等,将数据库中的数据还原成“内容完整”的键值对格式的文本文件,把外键信息用完整的记录替代,同时每个数据值都有对应的数据名,全文检索的效率更高,准确性更好,实现本发明的目的。
本发明的特点可参阅本案图式及以下较好实施方式的详细说明而获得清楚地了解。
附图说明
图1为本发明的5个内容转换模块和1个文档存储和索引模块的结构示意图;
图2为本发明的数据库内容还原的示意图。
具体实施方式
为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,下面结合具体图示,进一步阐述本发明。
实施例
如图1和图2所示,本发明的对工程文件和数据库建立全文检索文档的方法,包括文档存储和索引模块1、OFFICE文档转换模块2、图纸信息提取模块3、OCR模块4、三维模型数据读取模块5、数据库内容还原模块6。
本发明的对工程文件和数据库建立全文检索文档的方法,它包括步骤如下:
S1、建立OFFICE文档转换模块2。OFFICE软件允许用户开发插件,因此可以在word、excel、visio中编写文档转换的插件。其中,在WORD中编写的插件,其功能是将WORD文档另存为同名的后缀为“odt”的文件。在EXCEL中编写的插件,其功能是将EXCEL文档另存为同名的后缀为“csv”的文件;将VISIO中编写的插件,其功能是将VISIO文档另存为同名的后缀为“vdx”的文件,且同时只保留vdx文件中的<text></text>之间的内容。如果在OFFICE软件中编写插件困难,也可以采用S2的“窗口控制”的方法。
S2、建立图纸信息提取模块3。无论是AutoCAD还是其他二维图形软件,一般都提供了图纸数据导出的功能按钮,比如AutoCAD的按钮名称是“data extraction”。因此在软件开发时,可以在打开AutoCAD软件或其他图形文件(如利用java的Runtime类提供的exec()方法)之后,控制鼠标和键盘(如利用java的Robot类提供的方法),模拟按键行为,然后将图纸中的数据导出成csv或xml文本。当然实际情况要复杂,比如要设置导出范围等,处理窗口突发情况等。
S3、建立OCR模块4。目前有成熟的商业化的OCR组件或模块,软件开发时将其嵌入在软件之中,同时允许S6建立的“文档存储和索引模块”进行调用即可。
S4、建立三维模型数据读取模块5。PDS/PDMS/SP3D的数据库都是开发给用户的,因此编写的该模块,连接其中的数据表,将数据表中的内容读取出来并写入txt文件即可。当然实际情况要略微复杂,主要是要考虑数据表之间的关系,可以参考S5的数据库内容还原的操作,这样生成的数据文件内容更为完整和充实。
S5、建立数据库内容还原模块6。编写的该模块连接企业的数据库,将数据表中的内容读取出来,如果其中有外键数据,则将外键数据用跨表查询得到的记录进行替代,最后每行记录用键值对的格式写入txt文件中。
S6、建立文档存储和索引模块1。该模块能够对工程文件的目录进行管理,对目录中的文件逐一识别其格式,然后启动上述S1-S5建立的内容转换模块,生成对应的文本文件,存入新的文件夹中。然后对所有转换后的文本文件,调用全文检索组件(如Lucene),建立索引文件,最有通过全文检索组件对外提供全文检索服务。另外,该模块能够实时发现文件的更新和增删情况,并根据更新增删情况,启动前述5个内容转化模块,重新对更新或增删的工程文件,重新生成对应的文本文件,并更新全文检索的索引。
从上可以看出,本方法解决了大多数工程文件和数据库不能被用于全文检索的问题。
以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内,本发明要求保护范围由所附的权利要求书及其等效物界定。
Claims (7)
1.一种对工程文件和数据库建立全文检索文档的方法,其特征在于,它包括如下步骤:
S1、建立OFFICE文档转换模块,该模块能根据OFFICE文档的文件名,自动打开相应的OFFICE软件,然后进行文档另存操作和数据处理,并生成相应的文本文件;
S2、建立图纸信息提取模块,该模块能够识别AutoCAD和其他格式的图纸文件,自动打开相应的设计软件,然后进行文档另存操作和数据处理,并生成相应的文本文件;
S3、建立OCR模块,该模块配备了OCR(optical character recognition)组件,能够识别图片或PDF中的文本信息,并将识别的文本内容写入后缀为“txt”的文件;
S4、建立三维模型数据读取模块,该模块能够读取PDS/PDMS/SP3D的底层数据库内容,并将三维模型中物项的尺寸、材料、和连接关系等的数据写入后缀为“txt”的文件;
S5、建立数据库内容还原模块,该模块连接企业的数据库,读取数据库中的每张数据表中的数据,进行处理后,将每张数据表中的数据写入一个后缀为“txt”的文件;
S6、建立文档存储和索引模块,该模块能够对工程文件的目录进行管理,对目录中的文件逐一识别其格式,然后启动上述步骤S1至步骤S5中建立的模块,生成对应的文本文件,存入新的文件夹中;然后对所有转换后的文本文件,调用全文检索组件,建立索引文件,通过全文检索组件对外提供全文检索服务。
2.如权利要求1所述的对工程文件和数据库建立全文检索文档的方法,其特征在于,所述OFFICE文档转换模块将WORD文档另存(save as)为同名的后缀为“odt”的文件;将EXCEL文档另存(save as)为同名的后缀为“csv”的文件;将VISIO文档另存(save as)为同名的后缀为“vdx”的文件,且同时只保留vdx文件中的<text></text>之间的内容。
3.如权利要求1所述的对工程文件和数据库建立全文检索文档的方法,其特征在于,所述图纸信息提取模块将AutoCAD的图纸另存(save as)为同名的后缀为“csv”的文件。
4.如权利要求1所述的对工程文件和数据库建立全文检索文档的方法,其特征在于,所述数据库内容还原模块将数据表中的外键数据,通过跨表查询后,外键数据(一般是ID)用跨表查询得到的关联表中的数据记录(即关系型数据库的一行)来代替。
5.如权利要求1所述的对工程文件和数据库建立全文检索文档的方法,其特征在于,所述数据库内容还原模块写入txt文件时,采用嵌套的“键-值对”的JSON格式,即对于每条记录,形式如“{字段1:数据1,字段2:{字段21:数据21,字段22:数据22,……},……}”。
6.如权利要求1所述的对工程文件和数据库建立全文检索文档的方法,其特征在于,所述文档存储和索引模块能够分门别类地存放上述转换前的工程文件和转换后的文本文件,同时能够对上述转换后的文本文件建立全文检索的索引,同时提供对外全文检索的服务。
7.如权利要求1所述的对工程文件和数据库建立全文检索文档的方法,其特征在于,所述文档存储和索引模块能够实时识别工程文件的更新或增删情况,并根据更新增删情况,启动前述5个模块,重新对更新或增删的工程文件,重新生成对应的文本文件,并更新全文检索的索引。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910104875.9A CN109871473A (zh) | 2019-02-01 | 2019-02-01 | 一种对工程文件和数据库建立全文检索文档的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910104875.9A CN109871473A (zh) | 2019-02-01 | 2019-02-01 | 一种对工程文件和数据库建立全文检索文档的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109871473A true CN109871473A (zh) | 2019-06-11 |
Family
ID=66918578
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910104875.9A Pending CN109871473A (zh) | 2019-02-01 | 2019-02-01 | 一种对工程文件和数据库建立全文检索文档的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109871473A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110908998A (zh) * | 2019-11-13 | 2020-03-24 | 广联达科技股份有限公司 | 数据存储和搜索方法、系统和计算机可读存储介质 |
CN111008268A (zh) * | 2019-10-31 | 2020-04-14 | 支付宝(杭州)信息技术有限公司 | 基于对话系统获取与用户问句对应的反问句的方法和装置 |
CN111913910A (zh) * | 2020-06-23 | 2020-11-10 | 复旦大学附属中山医院厦门医院 | 一种随访文件数据提取方法及系统 |
CN113779349A (zh) * | 2021-08-11 | 2021-12-10 | 中央广播电视总台 | 数据检索系统、装置、电子设备和可读存储介质 |
CN115934880A (zh) * | 2022-10-31 | 2023-04-07 | 永道工程咨询有限公司 | 一种工程造价文档数据库构建和工程造价文档检索方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110184933A1 (en) * | 2010-01-28 | 2011-07-28 | International Business Machines Corporation | Join algorithms over full text indexes |
CN102262640A (zh) * | 2010-05-31 | 2011-11-30 | 中国移动通信集团贵州有限公司 | 一种全文检索文档数据库的方法及装置 |
CN103853832A (zh) * | 2014-03-11 | 2014-06-11 | 上海爱数软件有限公司 | 一种全文检索系统中可定制的数据抓取方法 |
-
2019
- 2019-02-01 CN CN201910104875.9A patent/CN109871473A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110184933A1 (en) * | 2010-01-28 | 2011-07-28 | International Business Machines Corporation | Join algorithms over full text indexes |
CN102262640A (zh) * | 2010-05-31 | 2011-11-30 | 中国移动通信集团贵州有限公司 | 一种全文检索文档数据库的方法及装置 |
CN103853832A (zh) * | 2014-03-11 | 2014-06-11 | 上海爱数软件有限公司 | 一种全文检索系统中可定制的数据抓取方法 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111008268A (zh) * | 2019-10-31 | 2020-04-14 | 支付宝(杭州)信息技术有限公司 | 基于对话系统获取与用户问句对应的反问句的方法和装置 |
CN110908998A (zh) * | 2019-11-13 | 2020-03-24 | 广联达科技股份有限公司 | 数据存储和搜索方法、系统和计算机可读存储介质 |
CN111913910A (zh) * | 2020-06-23 | 2020-11-10 | 复旦大学附属中山医院厦门医院 | 一种随访文件数据提取方法及系统 |
CN111913910B (zh) * | 2020-06-23 | 2022-10-11 | 复旦大学附属中山医院厦门医院 | 一种随访文件数据提取方法及系统 |
CN113779349A (zh) * | 2021-08-11 | 2021-12-10 | 中央广播电视总台 | 数据检索系统、装置、电子设备和可读存储介质 |
CN115934880A (zh) * | 2022-10-31 | 2023-04-07 | 永道工程咨询有限公司 | 一种工程造价文档数据库构建和工程造价文档检索方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109992645B (zh) | 一种基于文本数据的资料管理系统及方法 | |
CN109871473A (zh) | 一种对工程文件和数据库建立全文检索文档的方法 | |
US11126647B2 (en) | System and method for hierarchically organizing documents based on document portions | |
US9626623B2 (en) | Method of automated discovery of new topics | |
CN107787491B (zh) | 用于重新使用文档中的内容的文档存储 | |
Elliott | Survey of author name disambiguation: 2004 to 2010 | |
Candela et al. | Migration of a library catalogue into RDA linked open data | |
US10706030B2 (en) | Utilizing artificial intelligence to integrate data from multiple diverse sources into a data structure | |
Bellare et al. | Woo: A scalable and multi-tenant platform for continuous knowledge base synthesis | |
CN114817481A (zh) | 基于大数据的智慧供应链可视化方法及装置 | |
CN113190687A (zh) | 知识图谱的确定方法、装置、计算机设备及存储介质 | |
CN112000929A (zh) | 一种跨平台数据分析方法、系统、设备及可读存储介质 | |
Maynard et al. | Change management for metadata evolution | |
Romanello et al. | The impresso system architecture in a nutshell | |
Truică et al. | A scalable document-based architecture for text analysis | |
Babur et al. | Towards Distributed Model Analytics with Apache Spark. | |
Paradies et al. | Entity matching for semistructured data in the Cloud | |
CN103488639B (zh) | 一种xml数据的查询方法 | |
Gatenby et al. | Collected work clustering in WorldCat | |
Aljarallah | Comparative study of database modeling approaches | |
Liu et al. | Research on knowledge full-text retrieval engine technology based on Elasticsearch | |
Kong et al. | Word File Parsing Based On Python | |
Toke et al. | Enhancing text mining using side information | |
Gaoyu et al. | Storage design and implementation of information reconstruction system | |
Bayomy et al. | Adopting Quality Attributes Based Quantitatively Methodology Using Deep Learning to NoSQL Databases |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: No. 29 Hong Cao Road, Xuhui District, Shanghai Applicant after: Shanghai Nuclear Engineering Research and Design Institute Co.,Ltd. Address before: No. 29 Hong Cao Road, Xuhui District, Shanghai Applicant before: SHANGHAI NUCLEAR ENGINEERING RESEARCH & DESIGN INSTITUTE Co.,Ltd. |
|
CB02 | Change of applicant information | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190611 |
|
RJ01 | Rejection of invention patent application after publication |