CN105488062A - 一种精准信息系统数据搜索方法 - Google Patents
一种精准信息系统数据搜索方法 Download PDFInfo
- Publication number
- CN105488062A CN105488062A CN201410480157.9A CN201410480157A CN105488062A CN 105488062 A CN105488062 A CN 105488062A CN 201410480157 A CN201410480157 A CN 201410480157A CN 105488062 A CN105488062 A CN 105488062A
- Authority
- CN
- China
- Prior art keywords
- information
- search
- database table
- data
- retrieval
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 58
- 230000008569 process Effects 0.000 claims abstract description 35
- 238000012545 processing Methods 0.000 claims abstract description 9
- 230000010365 information processing Effects 0.000 claims abstract description 7
- 238000000605 extraction Methods 0.000 claims description 10
- 238000006243 chemical reaction Methods 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 abstract description 5
- 238000010586 diagram Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 241001269238 Data Species 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Storage Device Security (AREA)
Abstract
一种精准信息系统数据搜索方法,由搜索专用数据库表预处理及精准管理信息系统数据搜索两部分组成,搜索专用数据库表处理包括已有信息处理和新建信息处理,已有信息采用手动运行搜索专用数据库表预处理的存储过程进行处理,新建信息采用触发器启动搜索专用数据库表预处理的存储过程进行处理。搜索专用数据库表预处理存储过程,根据文本不同分别写入专用检索数据库表的“检索文本”字段及专用检索数据库表的“来源表”、“来源ID”、“权限”字段,采用doc2txt、pdf2txt、xls2txt三个子过程分别提取*.doc、*.pdf、*.xls文件中的文本信息,进行精准管理信息系统数据搜索。本发明可极大提高信息检索的速度、精准度和安全性,是内部信息系统必备的检索手段。
Description
技术领域
本发明属于网络自动化领域,具体涉及一种用于内部精准信息系统的数据搜索方法。
背景技术
信息检索系统是指根据特定的信息需求而建立起来的一种有关信息搜集、加工、存储和检索的程序化系统,其主要目的是为人们提供信息服务。所谓的信息检索系统是指为满足信息用户的信息需求而建立的、存贮经过加工了的信息集合,拥有特定的存贮、检索与传送的技术装备,提供一定存贮与检索方法及检索服务功能的一种相对独立的服务实体(包括人和检索工作单位),统称为信息检索系统。信息检索则是指为了个人或他人的需要,去发现适当的信息资源或信息对象。
专利申请号02111893.0提供了一种基于信息抽取技术的搜索引擎,其利用机器学习的方法,对含有同类信息且布局基本一致的HTML页面样本集进行学习,从而得出对此类HTML页面进行信息抽取的规则;应用这些规则,结合一个特定领域的搜索引擎,对网络上的相关信息进行大量地获取,并从半自由的HTML文本中获取结构化的信息。通过训练和学习,调整规则数目和抽象程度,使其满足精度要求,然后基于学习提炼后的规则集对样本集以外的文本进行信息提取。对用搜索引擎获取的特定内容的页面,利用规则进行信息提取。其有益效果是:将信息抽取技术与搜索引擎技术有机地结合在一起,是一个非常有效、准确的信息获取工具,能够较大范围地提高人们的工作效率。
专利申请号99104149.6公开了一种信息检索装置和方法,其包括多个搜索引擎,从而可迅速得到文献目录的信息检索装置。该装置包括:传送经客户单元接收的检索请求的通信单元,多个根据要求的检索条件检索数据并分类检索的数据的搜索引擎,分类全部搜索引擎检索的数据的总分类单元。用上述构成,通过部分取出各搜索引擎检索的数据,即可迅速制订期望的文献目录。
专利申请号200610127043.1公开了一种搜索邮件的方法及系统,用以解决现有搜索邮件的速度较慢的问题。该方法包括:将邮件客户端收到的邮件的内容拆分为关键词,并将各关键词与邮件的对应关系录入邮件搜索引擎;以及当用户搜索邮件中的关键词时,所述邮件搜索引擎根据该关键词与邮件的对应关系调出相关邮件,以完成邮件搜索。其搜索系统包括邮件客户端,拆分单元,用于将邮件客户端收到的邮件的内容拆分为关键词;录入单元,用于将拆分单元拆分出的各关键词与邮件的对应关系录入邮件搜索引擎;邮件搜索引擎,用于当用户搜索邮件中的关键词时,根据录入单元录入的对应关系调出相关邮件,以完成邮件搜索。其特点是搜索邮件的速度较快。
发明内容
本发明旨在提供一种包括doc、pdf、xls文件中的全部文本信息,且可提高信息检索的速度、精准度和安全性的内部精准信息系统数据搜索方法。
为达此目的,本发明采取了如下技术解决方案:
一种精准信息系统数据搜索方法,其特征在于,由搜索专用数据库表预处理及精准信息系统数据搜索两部分组成,其数据搜索方法和步骤为:
1、搜索专用数据库表预处理
将需要检索的数据信息处理后写入搜索专用数据库表,以供精准检索用;搜索专用数据库表处理包括已有信息处理和新建信息处理两部分,已有信息采用手动运行搜索专用数据库表预处理的存储过程进行处理;新建信息采用触发器启动搜索专用数据库表预处理的存储过程进行处理。
(1)搜索专用数据库表预处理存储过程
a、首先提取标题、关键字、分类、上传人员、上传时间信息,再与数据字典关联取得中文意思,并合并为文本。
b、提取文件位置信息,根据文件类型进行不同的数据转换,获得文件中的文本信息。
c、提取来源表名称、来源表信息ID的基本信息。
d、处理来源表的权限信息
将a、b中的文本合并写入专用检索数据库表的“检索文本”字段;c、d提取的信息写入专用检索数据库表的“来源表”、“来源ID”、“权限”字段。
(2)文件数据的转换
采用doc2txt、pdf2txt、xls2txt三个子过程分别提取*.doc、*.pdf、*.xls文件中的文本信息,子过程通过调用相应公司提供的接口程序进行,其他文件类型作为文本类型对待。
2、精准信息系统数据搜索
用户登录系统,通过主页的检索入口输入检索关键字,关键字之间用空格隔开;精准信息系统数据搜索系统先将关键字分离,采用关键字间为“与”的关系产生检索条件;然后在专用检索数据库表中的“检索文本”字段中检索,符合条件的信息集中显示;点击某一检索到的信息,精准信息系统数据搜索系统判断检索人是否具有该信息的查看权限,如果有权限,直接打开检索文件;若没有权限,则提醒没有权限;检索人可以申请查看权限,如果管理部门批准,此文件和附带的基本信息通过邮件系统发送到检索人的邮箱中;如果管理部门拒绝,则将拒绝理由发送到检索人邮箱中。
本发明的有益效果为:
本发明提出了一种由搜索专用数据库表预处理及精准信息系统数据搜索两部分组成的精准信息系统数据搜索方法,在信息系统录入各种信息的同时,通过搜索专用数据库表预处理手段将事后检索所需的各种信息录入搜索专用数据库表,检索数据字段包括了全部能够得到文本信息,包括doc、pdf、xls等文件中的文本信息,方便用户事后得到精准的授权检索结果。本发明可极大提高信息检索的速度、精准度和安全性,是内部管理信息系统必备的检索手段,用于内部信息化系统,取得非常满意的效果。
附图说明
图1是检索专用数据库表处理流程图;
图2是检索数据预处理的存储过程流程图;
图3是信息数据检索流程图。
具体实施方式
本发明精准信息系统数据搜索系统系由搜索专用数据库表预处理及精准信息系统数据搜索两部分组成。以研发单位为例,对本发明的数据搜索方法和步骤具体说明如下:
首先,建立搜索专用数据库表(采用SQLServer数据库)
ID | 检索文本 | 文件位置 | 来源表 | 来源ID | 处理日期 | 权限 |
int | btext | nvarchar | nvarchar | int | datetime | nvarchar |
1.搜索专用数据库表预处理
将需要检索的数据信息事先经过处理,写入搜索专用数据库表,以供精准检索。搜索专用数据库表处理包括已有信息和新建信息处理两部分。已有信息包括历史数据及通过集中操作处理的数据。新建信息包括由各种管理系统录入的数据。图1是检索专用数据库表处理流程图。
本系统涉及到研发单位的管理信息,包括科研项目管理、科研资料、专利、专有技术、论文、软件著作权、专著、成果鉴定、报奖等涉及绩效及知识产权方面的管理文件、政发、委发、纪发、工发及团发的文件。公文流转系统的各种审批文件。基层及管理部门发布的文件、动态、通知、公告及会议、出差报告、临时任务、各种档案、化检验报告、实验试验分析报告及信息调研材料。
已有信息采用手动运行搜索专用数据库表预处理的存储过程进行处理;新建信息采用触发器启动搜索专用数据库表预处理的存储过程进行处理。上述涉及到的各种数据库表都建立相应的触发器。
1.1搜索专用数据库表预处理存储过程
专用数据库表预处理存储过程分四部分完成处理过程:
(1)首先提取标题、关键字、分类、上传人员、上传时间等信息并和数据字典关联取得中文意思并合并为文本;
(2)提取文件位置信息,根据文件类型进行不同的数据转换,获得文件中的文本信息;
(3)提取来源表名称(例如专利表、专有技术表、论文表等)、来源表信息ID(以专利表为例,就是专利表中的ID)等原始表的基本信息。
(4)处理来源表的权限信息。
将(1)、(2)中的文本合并写入专用检索数据库表的“检索文本”字段;(3)、(4)提取的信息写入专用检索数据库表的“来源表”、“来源ID”、“权限”字段。
1.2文件数据的转换
采用doc2txt、pdf2txt、xls2txt三个子过程分别提取*.doc、*.pdf、*.xls文件中的文本信息。子过程都是通过调用相应公司提供的接口程序进行的。此三个过程分别将*.doc、*.pdf、*.xls文件中的文本提出,其中涉及到的图片只能提取图片说明的文字信息。将除此三类文件外其他文件类型作为文本类型对待。例如html文件本身就是文本格式的。其他文件格式在管理系统中已禁止使用的。实际上检索文本包括文件中的文本、分类、标题、关键字、上传人员、上传时间等内容。包括了全部的可检索信息。图2是检索数据预处理的存储过程流程图。
2.精准信息系统数据搜索
用户登录系统,通过主页的检索入口输入检索关键字,关键字之间用空格隔开。精准信息系统数据搜索系统先将关键字分离。采用关键字间为与的关系产生检索条件。然后在专用检索数据库表中的检索文本中检索。符合条件的信息集中显示。点击某一检索到的信息,精准信息系统数据搜索系统判断检索人是否具有该信息的查看权限。如果有权限,直接打开检索文件。如果没有权限,提醒没有权限。检索人还可以申请查看权限,如果管理部门批准,此文件和附带的基本信息通过邮件系统发送到检索人的邮箱中。如果管理部门拒绝将拒绝理由发送到检索人邮箱中。图3是信息检索流程图。
Claims (1)
1.一种精准信息系统数据搜索方法,其特征在于,由搜索专用数据库表预处理及精准信息系统数据搜索两部分组成,其数据搜索方法和步骤为:
(1)搜索专用数据库表预处理
将需要检索的数据信息处理后写入搜索专用数据库表,以供精准检索用;搜索专用数据库表处理包括已有信息处理和新建信息处理两部分,已有信息采用手动运行搜索专用数据库表预处理的存储过程进行处理;新建信息采用触发器启动搜索专用数据库表预处理的存储过程进行处理;
1)搜索专用数据库表预处理存储过程
a、首先提取标题、关键字、分类、上传人员、上传时间信息,再与数据字典关联取得中文意思,并合并为文本;
b、提取文件位置信息,根据文件类型进行不同的数据转换,获得文件中的文本信息;
c、提取来源表名称、来源表信息ID的基本信息;
d、处理来源表的权限信息:
将a、b中的文本合并写入专用检索数据库表的“检索文本”字段;c、d提取的信息写入专用检索数据库表的“来源表”、“来源ID”、“权限”字段;
2)文件数据的转换
采用doc2txt、pdf2txt、xls2txt三个子过程分别提取*.doc、*.pdf、*.xls文件中的文本信息,其他文件类型作为文本类型对待;
(2)精准信息系统数据搜索
用户登录系统,通过主页的检索入口输入检索关键字,关键字之间用空格隔开;精准信息系统数据搜索系统先将关键字分离,采用关键字间为“与”的关系产生检索条件;然后在专用检索数据库表中的“检索文本”字段中检索,符合条件的信息集中显示;点击某一检索到的信息,精准信息系统数据搜索系统判断检索人是否具有该信息的查看权限,如果有权限,直接打开检索文件;若没有权限,则提醒没有权限;检索人可以申请查看权限,如果管理部门批准,此文件和附带的基本信息通过邮件系统发送到检索人的邮箱中;如果管理部门拒绝,则将拒绝理由发送到检索人邮箱中。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410480157.9A CN105488062B (zh) | 2014-09-19 | 2014-09-19 | 一种精准信息系统数据搜索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410480157.9A CN105488062B (zh) | 2014-09-19 | 2014-09-19 | 一种精准信息系统数据搜索方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105488062A true CN105488062A (zh) | 2016-04-13 |
CN105488062B CN105488062B (zh) | 2018-08-31 |
Family
ID=55675042
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410480157.9A Active CN105488062B (zh) | 2014-09-19 | 2014-09-19 | 一种精准信息系统数据搜索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105488062B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018006217A1 (zh) * | 2016-07-04 | 2018-01-11 | 马岩 | 基于网络邮件数据的抓取方法及系统 |
CN110069537A (zh) * | 2019-02-27 | 2019-07-30 | 山东开创云软件有限公司 | 一种内部数据搜索的方法及装置 |
CN111966816A (zh) * | 2020-07-09 | 2020-11-20 | 福建亿榕信息技术有限公司 | 一种公文的智能关联方法和系统 |
CN112287660A (zh) * | 2019-12-04 | 2021-01-29 | 上海柯林布瑞信息技术有限公司 | Pdf文件中的表格解析方法及装置、计算设备、存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101320373A (zh) * | 2008-06-13 | 2008-12-10 | 华中科技大学 | 网站支撑数据库安全搜索引擎系统 |
US7672934B1 (en) * | 2006-10-19 | 2010-03-02 | Symantec Operting Corporation | Method for restoring documents from a database file |
CN102117318A (zh) * | 2011-01-04 | 2011-07-06 | 江苏科技大学 | 一种企业信息化系统的数据处理方法 |
CN102262640A (zh) * | 2010-05-31 | 2011-11-30 | 中国移动通信集团贵州有限公司 | 一种全文检索文档数据库的方法及装置 |
CN103092847A (zh) * | 2011-10-27 | 2013-05-08 | 镇江金软计算机科技有限责任公司 | 基于二维条码的电子文档集检索的实现 |
-
2014
- 2014-09-19 CN CN201410480157.9A patent/CN105488062B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7672934B1 (en) * | 2006-10-19 | 2010-03-02 | Symantec Operting Corporation | Method for restoring documents from a database file |
CN101320373A (zh) * | 2008-06-13 | 2008-12-10 | 华中科技大学 | 网站支撑数据库安全搜索引擎系统 |
CN102262640A (zh) * | 2010-05-31 | 2011-11-30 | 中国移动通信集团贵州有限公司 | 一种全文检索文档数据库的方法及装置 |
CN102117318A (zh) * | 2011-01-04 | 2011-07-06 | 江苏科技大学 | 一种企业信息化系统的数据处理方法 |
CN103092847A (zh) * | 2011-10-27 | 2013-05-08 | 镇江金软计算机科技有限责任公司 | 基于二维条码的电子文档集检索的实现 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018006217A1 (zh) * | 2016-07-04 | 2018-01-11 | 马岩 | 基于网络邮件数据的抓取方法及系统 |
CN110069537A (zh) * | 2019-02-27 | 2019-07-30 | 山东开创云软件有限公司 | 一种内部数据搜索的方法及装置 |
CN112287660A (zh) * | 2019-12-04 | 2021-01-29 | 上海柯林布瑞信息技术有限公司 | Pdf文件中的表格解析方法及装置、计算设备、存储介质 |
CN112287660B (zh) * | 2019-12-04 | 2024-05-31 | 上海柯林布瑞信息技术有限公司 | Pdf文件中的表格解析方法及装置、计算设备、存储介质 |
CN111966816A (zh) * | 2020-07-09 | 2020-11-20 | 福建亿榕信息技术有限公司 | 一种公文的智能关联方法和系统 |
CN111966816B (zh) * | 2020-07-09 | 2022-07-12 | 福建亿榕信息技术有限公司 | 一种公文的智能关联方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
CN105488062B (zh) | 2018-08-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110147436B (zh) | 一种基于教育知识图谱与文本的混合自动问答方法 | |
CN108038091B (zh) | 一种基于图的裁判文书案件相似计算与检索方法及系统 | |
CN108932294B (zh) | 基于索引的简历数据处理方法、装置、设备及存储介质 | |
CN102314519B (zh) | 一种基于公安领域知识本体模型的信息搜索方法 | |
CN109446513A (zh) | 一种基于自然语言理解的文本中事件的抽取方法 | |
CN109947952A (zh) | 基于英语知识图谱的检索方法、装置、设备及存储介质 | |
CN107967290A (zh) | 一种基于海量科研资料的知识图谱网络构建方法及系统、介质 | |
CN102004775A (zh) | 一种基于智能搜索的福富企业搜索引擎技术 | |
CN105488062A (zh) | 一种精准信息系统数据搜索方法 | |
CN113157860A (zh) | 一种基于小规模数据的电力设备检修知识图谱构建方法 | |
Sasikumar et al. | A survey of natural language question answering system | |
CN109635272A (zh) | 一种空中交通管理领域的本体交互模型构建方法 | |
Wormell | Critical aspects of the Danish welfare state—as revealed by issue tracking | |
CN114842982B (zh) | 一种面向医疗信息系统的知识表达方法、装置及系统 | |
Chala et al. | A Framework for Enriching Job Vacancies and Job Descriptions Through Bidirectional Matching. | |
Sharma et al. | Tourview: Sentiment based analysis on tourist domain | |
CN107818091B (zh) | 文档处理方法及装置 | |
Stein et al. | Retrieving customary web language to assist writers | |
Villanueva | Classification and indexing of Philippine Indigenous materials with emphasis on the Cordillera | |
Attoe | Digital forensics in an eDiscovery world | |
Nguyen et al. | Py_ape: Text Data Acquiring, Extracting, Cleaning and Schema Matching in Python | |
Ho et al. | Data warehouse designing for Vietnamese textual document-based plagiarism detection system | |
Timonin et al. | Research of filtration methods for reference social profile data | |
Shannaq | Adapt clustering methods for arabic documents | |
Wang et al. | Personalized employment recommendation method based on semantic matching of requirements |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |