CN105488062A

CN105488062A - 一种精准信息系统数据搜索方法

Info

Publication number: CN105488062A
Application number: CN201410480157.9A
Authority: CN
Inventors: 李连成; 王军; 李向荣; 孙艺娜; 柴明亮; 宋宝宇
Original assignee: Angang Steel Co Ltd
Current assignee: Angang Steel Co Ltd
Priority date: 2014-09-19
Filing date: 2014-09-19
Publication date: 2016-04-13
Anticipated expiration: 2034-09-19
Also published as: CN105488062B

Abstract

一种精准信息系统数据搜索方法，由搜索专用数据库表预处理及精准管理信息系统数据搜索两部分组成，搜索专用数据库表处理包括已有信息处理和新建信息处理，已有信息采用手动运行搜索专用数据库表预处理的存储过程进行处理，新建信息采用触发器启动搜索专用数据库表预处理的存储过程进行处理。搜索专用数据库表预处理存储过程，根据文本不同分别写入专用检索数据库表的“检索文本”字段及专用检索数据库表的“来源表”、“来源ID”、“权限”字段，采用doc2txt、pdf2txt、xls2txt三个子过程分别提取*.doc、*.pdf、*.xls文件中的文本信息，进行精准管理信息系统数据搜索。本发明可极大提高信息检索的速度、精准度和安全性，是内部信息系统必备的检索手段。

Description

一种精准信息系统数据搜索方法

技术领域

本发明属于网络自动化领域，具体涉及一种用于内部精准信息系统的数据搜索方法。

背景技术

信息检索系统是指根据特定的信息需求而建立起来的一种有关信息搜集、加工、存储和检索的程序化系统，其主要目的是为人们提供信息服务。所谓的信息检索系统是指为满足信息用户的信息需求而建立的、存贮经过加工了的信息集合，拥有特定的存贮、检索与传送的技术装备，提供一定存贮与检索方法及检索服务功能的一种相对独立的服务实体(包括人和检索工作单位)，统称为信息检索系统。信息检索则是指为了个人或他人的需要，去发现适当的信息资源或信息对象。

专利申请号02111893.0提供了一种基于信息抽取技术的搜索引擎，其利用机器学习的方法，对含有同类信息且布局基本一致的HTML页面样本集进行学习，从而得出对此类HTML页面进行信息抽取的规则；应用这些规则，结合一个特定领域的搜索引擎，对网络上的相关信息进行大量地获取，并从半自由的HTML文本中获取结构化的信息。通过训练和学习，调整规则数目和抽象程度，使其满足精度要求，然后基于学习提炼后的规则集对样本集以外的文本进行信息提取。对用搜索引擎获取的特定内容的页面，利用规则进行信息提取。其有益效果是：将信息抽取技术与搜索引擎技术有机地结合在一起，是一个非常有效、准确的信息获取工具，能够较大范围地提高人们的工作效率。

专利申请号99104149.6公开了一种信息检索装置和方法，其包括多个搜索引擎，从而可迅速得到文献目录的信息检索装置。该装置包括：传送经客户单元接收的检索请求的通信单元，多个根据要求的检索条件检索数据并分类检索的数据的搜索引擎，分类全部搜索引擎检索的数据的总分类单元。用上述构成，通过部分取出各搜索引擎检索的数据，即可迅速制订期望的文献目录。

专利申请号200610127043.1公开了一种搜索邮件的方法及系统，用以解决现有搜索邮件的速度较慢的问题。该方法包括：将邮件客户端收到的邮件的内容拆分为关键词，并将各关键词与邮件的对应关系录入邮件搜索引擎；以及当用户搜索邮件中的关键词时，所述邮件搜索引擎根据该关键词与邮件的对应关系调出相关邮件，以完成邮件搜索。其搜索系统包括邮件客户端，拆分单元，用于将邮件客户端收到的邮件的内容拆分为关键词；录入单元，用于将拆分单元拆分出的各关键词与邮件的对应关系录入邮件搜索引擎；邮件搜索引擎，用于当用户搜索邮件中的关键词时，根据录入单元录入的对应关系调出相关邮件，以完成邮件搜索。其特点是搜索邮件的速度较快。

发明内容

本发明旨在提供一种包括doc、pdf、xls文件中的全部文本信息，且可提高信息检索的速度、精准度和安全性的内部精准信息系统数据搜索方法。

为达此目的，本发明采取了如下技术解决方案：

一种精准信息系统数据搜索方法，其特征在于，由搜索专用数据库表预处理及精准信息系统数据搜索两部分组成，其数据搜索方法和步骤为：

1、搜索专用数据库表预处理

将需要检索的数据信息处理后写入搜索专用数据库表，以供精准检索用；搜索专用数据库表处理包括已有信息处理和新建信息处理两部分，已有信息采用手动运行搜索专用数据库表预处理的存储过程进行处理；新建信息采用触发器启动搜索专用数据库表预处理的存储过程进行处理。

(1)搜索专用数据库表预处理存储过程

a、首先提取标题、关键字、分类、上传人员、上传时间信息，再与数据字典关联取得中文意思，并合并为文本。

b、提取文件位置信息，根据文件类型进行不同的数据转换，获得文件中的文本信息。

c、提取来源表名称、来源表信息ID的基本信息。

d、处理来源表的权限信息

将a、b中的文本合并写入专用检索数据库表的“检索文本”字段；c、d提取的信息写入专用检索数据库表的“来源表”、“来源ID”、“权限”字段。

(2)文件数据的转换

采用doc2txt、pdf2txt、xls2txt三个子过程分别提取*.doc、*.pdf、*.xls文件中的文本信息，子过程通过调用相应公司提供的接口程序进行，其他文件类型作为文本类型对待。

2、精准信息系统数据搜索

用户登录系统，通过主页的检索入口输入检索关键字，关键字之间用空格隔开；精准信息系统数据搜索系统先将关键字分离，采用关键字间为“与”的关系产生检索条件；然后在专用检索数据库表中的“检索文本”字段中检索，符合条件的信息集中显示；点击某一检索到的信息，精准信息系统数据搜索系统判断检索人是否具有该信息的查看权限，如果有权限，直接打开检索文件；若没有权限，则提醒没有权限；检索人可以申请查看权限，如果管理部门批准，此文件和附带的基本信息通过邮件系统发送到检索人的邮箱中；如果管理部门拒绝，则将拒绝理由发送到检索人邮箱中。

本发明的有益效果为：

本发明提出了一种由搜索专用数据库表预处理及精准信息系统数据搜索两部分组成的精准信息系统数据搜索方法，在信息系统录入各种信息的同时，通过搜索专用数据库表预处理手段将事后检索所需的各种信息录入搜索专用数据库表，检索数据字段包括了全部能够得到文本信息，包括doc、pdf、xls等文件中的文本信息，方便用户事后得到精准的授权检索结果。本发明可极大提高信息检索的速度、精准度和安全性，是内部管理信息系统必备的检索手段，用于内部信息化系统，取得非常满意的效果。

附图说明

图1是检索专用数据库表处理流程图；

图2是检索数据预处理的存储过程流程图；

图3是信息数据检索流程图。

具体实施方式

本发明精准信息系统数据搜索系统系由搜索专用数据库表预处理及精准信息系统数据搜索两部分组成。以研发单位为例，对本发明的数据搜索方法和步骤具体说明如下：

首先，建立搜索专用数据库表(采用SQLServer数据库)

ID

检索文本

文件位置

来源表

来源ID

处理日期

权限

int

btext

nvarchar

int

datetime

nvarchar

1.搜索专用数据库表预处理

将需要检索的数据信息事先经过处理，写入搜索专用数据库表，以供精准检索。搜索专用数据库表处理包括已有信息和新建信息处理两部分。已有信息包括历史数据及通过集中操作处理的数据。新建信息包括由各种管理系统录入的数据。图1是检索专用数据库表处理流程图。

本系统涉及到研发单位的管理信息，包括科研项目管理、科研资料、专利、专有技术、论文、软件著作权、专著、成果鉴定、报奖等涉及绩效及知识产权方面的管理文件、政发、委发、纪发、工发及团发的文件。公文流转系统的各种审批文件。基层及管理部门发布的文件、动态、通知、公告及会议、出差报告、临时任务、各种档案、化检验报告、实验试验分析报告及信息调研材料。

已有信息采用手动运行搜索专用数据库表预处理的存储过程进行处理；新建信息采用触发器启动搜索专用数据库表预处理的存储过程进行处理。上述涉及到的各种数据库表都建立相应的触发器。

1.1搜索专用数据库表预处理存储过程

专用数据库表预处理存储过程分四部分完成处理过程：

(1)首先提取标题、关键字、分类、上传人员、上传时间等信息并和数据字典关联取得中文意思并合并为文本；

(2)提取文件位置信息，根据文件类型进行不同的数据转换，获得文件中的文本信息；

(3)提取来源表名称(例如专利表、专有技术表、论文表等)、来源表信息ID(以专利表为例，就是专利表中的ID)等原始表的基本信息。

(4)处理来源表的权限信息。

将(1)、(2)中的文本合并写入专用检索数据库表的“检索文本”字段；(3)、(4)提取的信息写入专用检索数据库表的“来源表”、“来源ID”、“权限”字段。

1.2文件数据的转换

采用doc2txt、pdf2txt、xls2txt三个子过程分别提取*.doc、*.pdf、*.xls文件中的文本信息。子过程都是通过调用相应公司提供的接口程序进行的。此三个过程分别将*.doc、*.pdf、*.xls文件中的文本提出，其中涉及到的图片只能提取图片说明的文字信息。将除此三类文件外其他文件类型作为文本类型对待。例如html文件本身就是文本格式的。其他文件格式在管理系统中已禁止使用的。实际上检索文本包括文件中的文本、分类、标题、关键字、上传人员、上传时间等内容。包括了全部的可检索信息。图2是检索数据预处理的存储过程流程图。

2.精准信息系统数据搜索

用户登录系统，通过主页的检索入口输入检索关键字，关键字之间用空格隔开。精准信息系统数据搜索系统先将关键字分离。采用关键字间为与的关系产生检索条件。然后在专用检索数据库表中的检索文本中检索。符合条件的信息集中显示。点击某一检索到的信息，精准信息系统数据搜索系统判断检索人是否具有该信息的查看权限。如果有权限，直接打开检索文件。如果没有权限，提醒没有权限。检索人还可以申请查看权限，如果管理部门批准，此文件和附带的基本信息通过邮件系统发送到检索人的邮箱中。如果管理部门拒绝将拒绝理由发送到检索人邮箱中。图3是信息检索流程图。

Claims

1.一种精准信息系统数据搜索方法，其特征在于，由搜索专用数据库表预处理及精准信息系统数据搜索两部分组成，其数据搜索方法和步骤为：

(1)搜索专用数据库表预处理

将需要检索的数据信息处理后写入搜索专用数据库表，以供精准检索用；搜索专用数据库表处理包括已有信息处理和新建信息处理两部分，已有信息采用手动运行搜索专用数据库表预处理的存储过程进行处理；新建信息采用触发器启动搜索专用数据库表预处理的存储过程进行处理；

1)搜索专用数据库表预处理存储过程

a、首先提取标题、关键字、分类、上传人员、上传时间信息，再与数据字典关联取得中文意思，并合并为文本；

b、提取文件位置信息，根据文件类型进行不同的数据转换，获得文件中的文本信息；

c、提取来源表名称、来源表信息ID的基本信息；

d、处理来源表的权限信息：

将a、b中的文本合并写入专用检索数据库表的“检索文本”字段；c、d提取的信息写入专用检索数据库表的“来源表”、“来源ID”、“权限”字段；

2)文件数据的转换

采用doc2txt、pdf2txt、xls2txt三个子过程分别提取*.doc、*.pdf、*.xls文件中的文本信息，其他文件类型作为文本类型对待；

(2)精准信息系统数据搜索