CN108509547A

CN108509547A - 一种信息管理方法、信息管理系统及电子设备

Info

Publication number: CN108509547A
Application number: CN201810229430.9A
Authority: CN
Inventors: 熊文; 陈小军; 丁紫惠
Original assignee: China Great Wall Science And Technology Group Ltd By Share Ltd
Current assignee: China Great Wall Science And Technology Group Ltd By Share Ltd
Priority date: 2018-03-20
Filing date: 2018-03-20
Publication date: 2018-09-07
Anticipated expiration: 2038-03-20
Also published as: CN108509547B

Abstract

本申请公开了一种信息管理方法及系统，其中，该信息管理方法包括：获取待存储文件的结构化文本信息及非结构化文本信息；将所述结构化文本信息加入关系数据库中，将所述非结构化文本信息加入搜索引擎的索引中；当接收到输入的查询请求时，获取查询请求所携带的查询文本信息；基于预设的分解方案将所述查询文本信息分解为第一关键词、第二关键词及第三关键词，其中，第一关键词用于进行模糊查询，第二关键词用于进行精确查询，第三关键词用于同时进行模糊查询及精确查询；分别根据所述第一关键词、第二关键词及第三关键词在所述关系数据库和/或搜索引擎的索引中进行查询；返回查询的结果。本申请方案可以提高对非结构化数据的处理效率。

Description

一种信息管理方法、信息管理系统及电子设备

技术领域

本申请属于信息技术领域，尤其涉及一种信息管理方法、信息管理系统、电子设备及计算机可读存储介质。

背景技术

信息管理系统一般均具备增加、删除、更新、查询相关信息等常用功能。通常来说，信息管理系统采用关系数据库作为后台信息的存储，以便于快速、可靠地处理用户的信息管理请求。然而，关系数据库虽然能够对结构化数据进行快速及可靠地处理，但在面对非结构化数据时，模糊查询仍存在着处理效率低下等问题。由于在实际应用中，信息管理系统通常被应用来处理包括结构化数据及非结构化数据在内的各种数据，这将导致信息管理系统无法满足用户的使用需求。

发明内容

有鉴于此，本申请提供了一种信息管理方法、信息管理系统、电子设备及计算机可读存储介质，可提高对非结构化数据的处理效率。

本申请的第一方面提供了一种信息管理方法，上述信息管理方法包括：

获取待存储文件的结构化文本信息及非结构化文本信息；

将上述结构化文本信息加入关系数据库中，将上述非结构化文本信息加入搜索引擎的索引中；

当接收到输入的查询请求时，获取上述查询请求所携带的查询文本信息；

基于预设的分解方案将上述查询文本信息分解为第一关键词、第二关键词及第三关键词，其中，上述第一关键词用于进行模糊查询，上述第二关键词用于进行精确查询，上述第三关键词用于同时进行模糊查询及精确查询；

分别根据上述第一关键词、第二关键词及第三关键词在上述关系数据库和/或上述搜索引擎的索引中进行查询；

返回查询的结果。

本申请的第二方面提供了一种信息管理系统，上述信息管理系统包括：

第一获取模块，用于获取待存储文件的结构化文本信息及非结构化文本信息；

加入模块，用于将上述结构化文本信息加入关系数据库中，将上述非结构化文本信息加入搜索引擎的索引中；

第二获取模块，用于当接收到输入的查询请求时，获取上述查询请求所携带的查询文本信息；

分解模块，用于基于预设的分解方案将上述查询文本信息分解为第一关键词、第二关键词及第三关键词，其中，上述第一关键词用于进行模糊查询，上述第二关键词用于进行精确查询，上述第三关键词用于同时进行模糊查询及精确查询；

查询模块，用于分别根据上述第一关键词、第二关键词及第三关键词在上述关系数据库和/或上述搜索引擎的索引中进行查询；

返回模块，用于返回查询的结果。

本申请的第三方面提供了一种电子设备，上述电子设备包括存储器、处理器以及存储在上述存储器中并可在上述处理器上运行的计算机程序，上述处理器执行上述计算机程序时实现如上第一方面的方法的步骤。

本申请的第四方面提供了一种计算机可读存储介质，上述计算机可读存储介质存储有计算机程序，上述计算机程序被处理器执行时实现如上第一方面的方法的步骤。

由上可见，通过本申请方案，在处理待存储文件时，首先获取待存储文件的结构化文本信息及非结构化文本信息，然后将上述结构化文本信息加入关系数据库中，将上述非结构化文本信息加入搜索引擎的索引中；在已存储的文件中进行查询时，若接收到输入的查询请求，则获取上述查询请求所携带的查询文本信息，并基于预设的分解方案将上述查询文本信息分解为第一关键词、第二关键词及第三关键词，其中，上述第一关键词用于进行模糊查询，上述第二关键词用于进行精确查询，上述第三关键词用于同时进行模糊查询及精确查询，然后分别根据上述第一关键词、第二关键词及第三关键词在上述关系数据库和/或上述搜索引擎的索引中进行查询，最终返回查询的结果。虽然关系数据库能够对结构化文本信息进行模糊查询，但其对非结构化文本信息进行模糊查询的效率非常低下，因而，本申请方案将关系数据库及搜索引擎松散耦合在一起，将待存储文件的数据进行分布式存储，并在需要查询时通过关系数据库进行精确查询，通过搜索引擎进行模糊查询。搜索引擎在面对非结构化文本信息时能够执行“快速的全文检索”式功能，弥补了关系数据库对非结构化信息进行模糊查询或基于关系数据库进行全文检索效率较低的缺陷，使得查询文本包括非结构化文本信息时，能够提升查询的速度及效率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的第一种信息管理方法的实现流程示意图；

图2是本申请实施例提供的第二种信息管理方法的实现流程示意图；

图3是本申请实施例提供的第三种信息管理方法的实现流程示意图；

图4是本申请实施例提供的信息管理系统的结构示意图；

图5是本申请实施例提供的电子设备的示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

为了说明本申请上述的技术方案，下面通过具体实施例来进行说明。

实施例一

下面对本申请实施例提供的一种信息管理方法进行描述，请参阅图1，本申请实施例中的信息管理方法包括：

在步骤101中，获取待存储文件的结构化文本信息及非结构化文本信息；

在本申请实施例中，当存在有待存储文件时，可以首先获取上述待存储文件的结构化文本信息及非结构化文本信息。其中，上述结构化信息中包括结构化数据，指的是能够用统一的结构加以表示的数据，包括但不限于数字及符号。例如，传统的关系数据模型及行数据等可存储于关系数据库中，用二维表结构表示；上述非结构化文本信息包括非结构化数据，指的是字段长短可变，且每个字段的记录又可以由可重复或不可重复的子字段构成的数据，包括但不限于各类办公电子文档，例如Microsoft Office生成的Word文档、PowerPoint文档、Excel文档、Access文档、Visio文档、Adobe生成的PDF文档及金山办公软件生成的WPS文档等。可选地，还可以获取上述待存储文档的半结构化文本信息，上述半结构化文本信息包括半结构化数据，其指的是介于结构化数据及非结构化数据之间的数据，例如XML、HTML文档就属于半结构化数据。上述半结构化数据通常是自描述的，其数据的结构和内容混杂在一起，没有明显的区分。

具体地，关系数据库相比其他模型的数据库而言，有着如下优点：

易于理解：关系数据库通常采用二维表结构，该二维表结构较为贴近逻辑世界的概念，其使用的关系模型相对网状、层次等其他模型来说更容易被用户所理解；

使用方便：通用的结构化查询语言(Structured Query Language，SQL)使得操作关系数据库非常方便，专业人员(例如程序员或数据管理员等)可以方便地在逻辑层面操作关系数据库，而完全不必理解其底层实现；

易于维护：丰富的完整性(实体完整性、参照完整性和用户定义的完整性)大大降低了数据冗余和数据不一致的概率；

数据的灵活性：关系数据库的管理系统不是把数据简单堆积，而是在记录数据信息的基础上新增了很多的管理功能，如输入、输出、查询、编辑修改等；

数据的安全性：根据用户的职责，不同级别的人对关系数据库具有不同的权限，关系数据库的管理系统应该确保数据的安全性；

易于访问：提供了诸如视图，存储过程，触发器，索引等对象；

记录详细：关系数据库的引擎能够存储由顶层联机事务处理(On-LineTransaction Processing，OLTP)系统生成的所有事务的详细记录。

在步骤102中，将上述结构化文本信息加入关系数据库中，将上述非结构化文本信息加入搜索引擎的索引中；

在本申请实施例中，将获取到的上述待存储文件的结构化文本信息加入关系数据库中，可以由关系数据库直接建立关系数据库的索引，按B树或者散列函数(Hash)的方式进行存储；将获取到的上述非结构化文本信息加入搜索引擎的索引中，可以由搜索引擎使用索引器(indexer)对非结构化文本信息建立倒排文档，以文件系统的方式进行存储。如果在步骤101中还获取到了上述待存储文件的半结构化文本信息，则将上述半结构化文本信息同时加入上述关系数据库及搜索引擎的索引中。需要注意的是，如果某一文本信息同时存储于关系数据库中或者搜索引擎的索引中，则需要保持关系数据库表名与搜索引擎核心集名一致，也即在关系数据库中记录的主键与搜索引种核心集中的唯一ID保持一致。

在步骤103中，当接收到输入的查询请求时，获取上述查询请求所携带的查询文本信息；

在本申请实施例中，当接收到登录信息管理系统的用户所输入的查询请求时，可以获取上述查询请求所携带的查询文本信息。通常情况下，在用户需要进行文档查询时，会输入与目标文档，即待查询的文档相关的文本信息，主要用于描述该目标文本，该描述信息可以是若干句子、短语或词语，此处不作限定。

在步骤104中，基于预设的分解方案将上述查询文本信息分解为第一关键词、第二关键词及第三关键词；

在本申请实施例中，可以基于预设的分解方案将上述查询文本信息分解为第一关键词、第二关键词及第三关键词，其中，上述第一关键词用于进行模糊查询，上述第二关键词用于进行精确查询，上述第三关键词用于同时进行模糊查询及精确查询。具体地，可以基于预设的文字数量的阈值及文本信息的类型，将上述查询文本信息分解为第一关键词、第二关键词及第三关键词。对于上述第一关键词来说，其指的是仅能通过模糊匹配的方式进行文本匹配的文本信息，具体为文本长度长于预设的第一长度的纯文本信息，例如某一可行性研究报告的正文，带文本的办公文档等。对于上述第二关键词来说，其可以是非常短的、容易记忆的可变文本，具体为文本长度不长于预设的第二长度的文本信息，例如：姓名、学历、学校等。对于上述第三关键词来说，其指的是既能采取精确匹配的方式又能采取模糊匹配的方式进行文本匹配的文本信息，其可以是较为短小但不容易记全的可变文本，具体为文本长度不长于预设的第三长度的文本信息，用户通常记得其中的一部分关键词，例如项目名称等。基于上述第一关键词、第二关键词及第三关键词，可以增加或减少相应的查询元素，不同关键词之间可以具有“与”关系或者“或”关系。

在步骤105中，分别根据上述第一关键词、第二关键词及第三关键词在上述关系数据库和/或上述搜索引擎的索引中进行查询；

在本申请实施例中，可以分别根据上述第一关键词、第二关键词及第三关键词，在上述关系数据库或者搜索引擎的索引中进行查询，具体地，通过上述第一关键词在搜索引擎的索引中进行查询及匹配，通过上述第二关键词在关系数据库中进行查询及匹配，通过上述第三关键词同时在搜索引擎的索引中及关系数据库中进行查询及匹配。可选地，上述信息管理系统可以具备有三种查询方式，第一种为通过关系数据库的精确查询方式，即通过SQL语句中的“＝”操作符实现的查询操作；第二种为通过关系数据库的模糊查询方式，即通过SQL语句中的“like”操作符实现的查询操作；第三种为通过搜索引擎的索引实现的模糊查询方式，即通过搜索引擎的indexer模块以倒排文档的方式实现对非结构化文本信息进行“全文检索”的查询操作。也即是说，上述第一关键词在进行模糊查询时，不仅可以在搜索引擎的索引中进行查询及匹配，也可以在关系数据库中通过SQL语句中的“like”操作符进行查询及匹配，此处不作限定。通过搜索引擎，可以在处理非结构化文本信息时进行快速的全文检索，弥补了关系数据库对非结构化信息进行模糊查询或基于关系数据库进行全文检索效率较低的缺陷。

在步骤106中，返回查询的结果。

在本申请实施例中，当在上述关系数据库和/或上述搜索引擎的索引中获得了查询的结果时，向用户返回上述查询的结果，以供用户查阅。

由上可见，通过本申请实施例所提供的信息管理方法，使得信息管理系统可以根据用户输入的查询请求，分别对第一关键词、第二关键词及第三关键词在相应的关系数据库及搜索引擎的索引中进行查找，能够有效提升查询速度及检索效率，提升用户体验。上述信息管理方法还能够将关系数据库及搜索引擎松散耦合在一起，将待存储文件的数据进行分布式存储，并在需要查询时通过关系数据库进行精确查询，通过搜索引擎进行模糊查询。搜索引擎在面对非结构化文本信息时能够执行“快速的全文检索”式功能，弥补了关系数据库对非结构化信息进行模糊查询或基于关系数据库进行全文检索效率较低的缺陷，使得查询文本包括非结构化文本信息时，能够提升查询的速度及效率。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

实施例二

在上述实施例一的基础上，图二示出了本申请实施例二提出的另一种信息管理方法的实现流程图，详述如下：

在步骤201中，获取待存储文件的结构化文本信息及非结构化文本信息；

在步骤202中，将上述结构化文本信息加入关系数据库中，将上述非结构化文本信息加入搜索引擎的索引中；

在步骤203中，当接收到输入的查询请求时，获取上述查询请求所携带的查询文本信息；

在步骤204中，基于预设的分解方案将上述查询文本信息分解为第一关键词、第二关键词及第三关键词；

在本申请实施例中，上述步骤201至204分别与上述步骤101至104相同或相似，此处不作限定。

在步骤205中，调取上述关系数据库及上述搜索引擎；

在本申请实施例中，若根据步骤204得到了第一关键词或第三关键词，则调取上述搜索引擎；若根据步骤204得到了第二关键词或第三关键词，则调取上述关系数据库。

在步骤206中，在上述关系数据库中根据上述第二关键词及第三关键词进行查询，获得精确查询结果；

在本申请实施例中，若得到了第二关键词及第三关键词，则将上述第二关键词及第三关键词分派到关系数据库接口，基于上述第二关键词及第三关键词通过关系数据库进行精确查询。上述关系数据库可以生成与自身对应的第一记录集。

在步骤207中，在上述搜索引擎的索引中根据上述第一关键词及第三关键词进行查询，获得模糊查询结果；

在本申请实施例中，若得到了第一关键词及第三关键词，则将上述第一关键词及第三关键词分派到搜索引擎接口，基于上述第一关键词及第三关键词通过搜索引擎的索引进行模糊查询。上述搜索引擎可以生成与自身对应的第二记录集。

在步骤208中，返回上述精确查询结果及模糊查询结果。

在本申请实施例中，返回上述步骤206中获得的精确查询结果及上述步骤207中获得的模糊查询结果。

可选地，由于第三关键词将同时在关系数据库及搜索引擎的索引中同时进行查询，因而可能查询获得相同的内容，基于此，上述步骤208之前，上述信息管理方法还可以包括：

对上述精确查询结果及模糊查询结果进行去重操作，以获得最终查询结果；

上述步骤208可表现为：返回最终查询结果。

其中，对于同一个关系数据库表名和搜索引擎核心集合名相同的记录，即第一记录集合第二记录集，可以根据上述查询请求中的逻辑关系，对精确查询结果和模糊查询结果按照数据的唯一ID进行并集或交集运算，以实现对精确查询结果及模糊查询结果的去重操作，获得最终查询结果，并将最终查询结果返回给用户，呈现于用户界面中。

由上可见，通过本申请实施例所提供的信息管理方法，使得信息管理系统可以根据用户输入的查询请求，分别对第一关键词、第二关键词及第三关键词在相应的关系数据库及搜索引擎的索引中进行查找，能够有效提升查询速度及检索效率，提升用户体验。上述信息管理方法还能够将关系数据库及搜索引擎松散耦合在一起，将待存储文件的数据进行分布式存储，并在需要查询时通过关系数据库进行精确查询，通过搜索引擎进行模糊查询。搜索引擎在面对非结构化文本信息时能够执行“快速的全文检索”式功能，弥补了关系数据库对非结构化信息进行模糊查询或基于关系数据库进行全文检索效率较低的缺陷，使得查询文本包括非结构化文本信息时，能够提升查询的速度及效率。在通过搜索引擎及关系数据库同时进行查询时，对查询结果进行去重操作，避免查询结果的重复及冗余给用户带来额外的负担。

实施例三

在上述实施例一的基础上，图三示出了本申请实施例三提出的第三种信息管理方法的实现流程图，详述如下：

在步骤301中，获取待存储文件的结构化文本信息及非结构化文本信息；

在步骤302中，将上述结构化文本信息加入关系数据库中，将上述非结构化文本信息加入搜索引擎的索引中；

在本申请实施例中，上述步骤301及302分别与上述步骤101及102相同或相似，此处不作限定。

在步骤303中，获取当前登录的用户身份信息；

在本申请实施例中，获取信息管理系统当前已登录用户的用户身份信息。如果当前信息管理系统未登录有用户，则在上述信息管理系统的前台呈现用户登录界面，并弹出提示框提示用户进行登录。可选地，在未登录有用户的情况下，上述信息管理系统可以选择不执行查询操作。可选地，上述信息管理系统还可以设有新增、查询、更新等虚拟按键，用以对在上述信息管理系统的页面上显示的关键词进行修改。

在步骤304中，根据上述当前登录的用户身份信息，获取当前用户的历史查询记录中，各个关键词的词频；

在本申请实施例中，根据上述当前登录的用户身份信息，获取当前用户的历史查询记录中各个关键词的词频。也即在当前用户曾经进行过的查询操作中，获取用户输入的各个关键词的次数，作为用户进行查询操作时各个关键词的词频，并更新存放于后台的用户使用习惯表中，以用户ID作为主键。

在步骤305中，当接收到输入的查询请求时，获取上述查询请求所携带的查询文本信息；

在步骤306中，基于预设的分解方案将上述查询文本信息分解为第一关键词、第二关键词及第三关键词，其中，上述第一关键词用于进行模糊查询，上述第二关键词用于进行精确查询，上述第三关键词用于同时进行模糊查询及精确查询；

在本申请实施例中，上述步骤305及306分别与上述步骤103及104相同或相似，此处不作限定。

在步骤307中，若上述第一关键词、第二关键词及第三关键词中，存在目标关键词，则基于上述目标关键词的词频，对查询的结果进行排序；

在本申请实施例中，上述目标关键词为存在于上述当前用户的历史查询记录中的关键词。可以认为，在初始情况下，即当前用户第一次进行查询操作时，所获得的第一关键词，第二关键词及第三关键词的权重一样；当上述第一关键词、第二关键词及第三关键词中，存在目标关键词时，即当前用户并非第一次进行查询操作时，可以根据目标关键词的词频对上述目标关键词相应增加其权重，并基于权重大至小的顺序对查询结果进行排序，以使得上述目标关键词的权重较大时，与上述目标关键词相关联的查询结果能够相对排序靠前。并且该权重可以在每次用户进行了一次查询操作之后就进行更新，使得排序结果能够更加符合不同用户的需要。

在步骤308中，返回排序后的查询的结果。

由上可见，通过本申请实施例所提供的信息管理方法，使得信息管理系统可以根据用户输入的查询请求，分别对第一关键词、第二关键词及第三关键词在相应的关系数据库及搜索引擎的索引中进行查找，能够有效提升查询速度及检索效率，提升用户体验。上述信息管理方法还能够将关系数据库及搜索引擎松散耦合在一起，将待存储文件的数据进行分布式存储，并在需要查询时通过关系数据库进行精确查询，通过搜索引擎进行模糊查询。搜索引擎在面对非结构化文本信息时能够执行“快速的全文检索”式功能，弥补了关系数据库对非结构化信息进行模糊查询或基于关系数据库进行全文检索效率较低的缺陷，使得查询文本包括非结构化文本信息时，能够提升查询的速度及效率。并且还能够根据不同用户的习惯和偏好，在系统中进行差异化处理，向不同的用户返回不同的查询结果，提高上述信息管理系统对用户的适应性。

实施例四

本申请实施例还提供一种信息管理系统，如图4所示，本申请实施例中的信息管理系统400包括：

第一获取模块401，用于获取待存储文件的结构化文本信息及非结构化文本信息；

加入模块402，用于将上述结构化文本信息加入关系数据库中，将上述非结构化文本信息加入搜索引擎的索引中；

第二获取模块403，用于当接收到输入的查询请求时，获取上述查询请求所携带的查询文本信息；

分解模块404，用于基于预设的分解方案将上述查询文本信息分解为第一关键词、第二关键词及第三关键词，其中，上述第一关键词用于进行模糊查询，上述第二关键词用于进行精确查询，上述第三关键词用于同时进行模糊查询及精确查询；

查询模块405，用于分别根据上述第一关键词、第二关键词及第三关键词在上述关系数据库和/或上述搜索引擎的索引中进行查询；

返回模块406，用于返回查询的结果。

可选地，上述分解模块404，具体用于基于预设的文字数量的阈值及文本信息的类型，将上述查询文本信息分解为第一关键词、第二关键词及第三关键词。

可选地，上述查询模块405包括：

调取单元，用于调取上述关系数据库及上述搜索引擎；

数据库查询单元，用于在上述关系数据库中根据上述第二关键词及第三关键词进行查询，获得精确查询结果；

搜索引擎查询单元，用于在上述搜索引擎的索引中根据上述第一关键词及第三关键词进行查询，获得模糊查询结果；

上述返回模块406，具体用于返回上述精确查询结果及模糊查询结果。

可选地，上述信息管理系统400还包括：

去重模块，用于对上述精确查询结果及模糊查询结果进行去重操作，以获得最终查询结果；

上述返回模块406，具体用于返回最终查询结果。

可选地，上述信息管理系统400还包括：

第三获取模块，用于获取当前登录的用户身份信息；

第四获取模块，用于根据上述当前登录的用户身份信息，获取当前用户的历史查询记录中，各个关键词的词频；

上述查询模块405，具体用于当上述第一关键词、第二关键词及第三关键词中，存在目标关键词时，基于上述目标关键词的词频，对查询的结果进行排序，其中，上述目标关键词为存在于上述当前用户的历史查询记录中的关键词；

上述返回模块406，具体用于返回排序后的查询的结果。

以企业中采用的信息管理系统的具体实例对上述信息管理系统进行解释及说明，上述信息管理系统分为前台系统及后台系统两个部分，其中，前台系统由超级文本标记语言(HyperText Markup Language，HTML)和JAVA服务器页面(Java Server Pages，JSP)页面组成，利用Javascript完成前台用户的交互处理，异步JavaScript和XML(AsynchronousJavascript And XML，Ajax)完成前台用户对后台功能的访问、文件的上传和下载。上述前台系统可以让企业上传如下信息：科技人员信息情况、项目申报情况、项目跟踪情况、知识产权情况、联系人情况、提醒内容情况。

若某一企业A需要对企业内外部专家、中级及以上职称人员等科技人员信息情况进行登记，则可以参照下表1，在上述信息管理系统中以科技人员信息情况管理表的形式对上述科技人员信息情况进行登记：

表1

若该企业A还需要对企业申报的项目进行跟踪管理，则在项目申报后由各部门及时在系统中填写项目申报情况、获批情况、绩效评价情况和项目验收情况，可以实现附件上传功能。具体地，各部门所需要在上述前台系统中填写的信息如下：项目主管部门、项目申报专项名称、项目申报名称、项目申报单位、申报日期、项目批复日期、项目批复金额、项目到账日期、项目到账金额、项目执行期，项目主要内容(可限制字数在200-500字以内)、项目负责人(对应于科技人员信息情况管理表中“序号”)、项目组成员(对应科技人员信息情况管理表中“序号”)。填写完成后由该部门上传可行性研究报告材料。

若该企业A还需要对各部门的科技政策对指定联系人进行发布，则上述信息管理系统中还需要完善下表2联系人表及下表3提醒内容表：

联系人表：

表2

提醒内容表：

序号	内容类别	内容网址	内容关键词	抓取日期	具体内容

表3

通过上述表2及表3，上述信息管理系统可具备提醒功能；通过该提醒功能，定时从上述表2即联系人表中获取相关的内容类别、接收提醒的联系人邮件地址，然后从上述表3即提醒内容表中获取内容网址(Uniform Resource Locator，URL)，从网络抓取相关内容文档，向联系人邮件地址推送相关内容文档，简化了人工操作，提高了信息管理系统的可用性。

若该企业A还需要对其知识产权情况进行管理，则还需要完善下表4知识产权表：

表4

其中，上述摘要、主权利要求、说明书三个栏位都由文本组成，特别是后二者文本内容可以包含很多内容，为明显的非结构化数据，需要高效地存储和处理。

可见，通过上述前台系统，用户可以上传各类结构化及非结构化数据。

后台系统还包括关系数据库子系统及搜索引擎子系统。其中，上述关系数据库系统采用Servlet实现前台调用的管理功能，可实现关系数据库所记录内容的增加、删除、修改和查询；上述搜索引擎子系统采用企业级搜索应用服务器(Solr)实现的全文检索及结果相似度排序，实现文本内容的自然语言检索处理和使用逻辑表达式的关键词检索处理。后台系统中的Servlet通过搜索引擎提供的SolrJ应用程序接口(Application ProgrammingInterface，API)访问Solr，高效完成文本数据的索引和查询处理。同时，后台系统还包括有后台日志，可以对用户的操作进行记录，并提供浏览界面供用户查阅其历史操作。

具体地，搜索引擎子系统还能使用自然语言的句子进行全文检索，通过搜索引擎内建的查询模块自动调用内嵌和外置的自然语言处理模块，完成自然语言句子的分析和词切分，进一步完成相似度计算。搜索引擎还可以调用自然语言语义分析模块，对查询请求进行语义分析和关键词语义扩展，自动形成语义扩展后的查询请求，得到更好的查全率和查准率。其原理是基于语义词典和语义分析模块，计算词的上下位、同义、反义、近义、词的领域等语义信息。

由于上述后台系统采用了搜索引擎子系统，因而上述信息管理系统能够支持更加灵活的检索方式，其中，各检索运算符示例如下表5所示：

表5

同时，Solr还具备分组Facet功能，主要可用于导航(Guided Navigation)及参数化查询(Paramatic Search)。分组Facet可使得后台系统在进行查询操作的同时按照Facet条件进行分析组统计，给出导航信息，改善搜索体验。通过Solr，使得上述信息管理系统具备强大的全文检索功能，可以高亮显示检索结果，进行动态集群、数据库接口等处理；而且Solr具有高度的可扩展，支持分布搜索和索引的复制。与上述关系数据库子系统一起，满足用户的多种信息管理需求。

由上可见，通过本申请实施例，信息管理系统可以根据用户输入的查询请求，分别对第一关键词、第二关键词及第三关键词在相应的关系数据库及搜索引擎的索引中进行查找，能够有效提升查询速度及检索效率，提升用户体验。上述信息管理方法还能够将关系数据库及搜索引擎松散耦合在一起，将待存储文件的数据进行分布式存储，并在需要查询时通过关系数据库进行精确查询，通过搜索引擎进行模糊查询。搜索引擎在面对非结构化文本信息时能够进行“快速的全文检索”式功能，弥补了关系数据库对非结构化信息进行模糊查询或基于关系数据库进行全文检索效率较低的缺陷，使得查询文本包括非结构化文本信息时，能够提升查询的速度及效率。在通过搜索引擎及关系数据库同时进行查询时，对查询结果进行去重操作，避免查询结果的重复及冗余给用户带来额外的负担；并且还能够根据不同用户的习惯和偏好，在系统中进行差异化处理，向不同的用户返回不同的查询结果，提高上述信息管理系统对用户的适应性。

实施例五

图5是本申请一实施例提供的电子设备的示意图。如图5所示，该实施例的电子设备5包括：处理器50、存储器51以及存储在上述存储器51中并可在上述处理器50上运行的计算机程序52，例如信息管理程序。上述处理器50执行上述计算机程序52时实现上述各个应用程序管理方法实施例中的步骤，例如图1所示的步骤101至106。或者，上述处理器50执行上述计算机程序52时实现上述各装置实施例中各单元的功能，例如图4所示单元401至406的功能。

示例性的，上述计算机程序52可以被分割成一个或多个单元，上述一个或者多个单元被存储在上述存储器51中，并由上述处理器50执行，以完成本申请。上述一个或多个单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述上述计算机程序52在上述电子设备5中的执行过程。例如，上述计算机程序52可以被分割成第一获取模块，加入模块，第二获取模块，分解模块，查询模块，返回模块，各模块具体功能如下：

返回模块，用于返回查询的结果。

上述电子设备5可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。上述电子设备可包括，但不仅限于，处理器50、存储器51。本领域技术人员可以理解，图5仅仅是电子设备5的示例，并不构成对电子设备5的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如上述电子设备还可以包括输入输出设备、网络接入设备、总线等。

所称处理器50可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

上述存储器51可以是上述电子设备5的内部存储单元，例如电子设备5的硬盘或内存。上述存储器51也可以是上述电子设备5的外部存储设备，例如上述电子设备5上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，上述存储器51还可以既包括上述电子设备5的内部存储单元也包括外部存储设备。上述存储器51用于存储上述计算机程序以及上述电子设备所需的其他程序和数据。上述存储器51还可以用于暂时地存储已经输出或者将要输出的数据。

由上可见，通过本申请实施例，上述电子设备可以根据用户输入的查询请求，分别对第一关键词、第二关键词及第三关键词在相应的关系数据库及搜索引擎的索引中进行查找，能够有效提升查询速度及检索效率，提升用户体验。上述信息管理方法还能够将关系数据库及搜索引擎松散耦合在一起，将待存储文件的数据进行分布式存储，并在需要查询时通过关系数据库进行精确查询，通过搜索引擎进行模糊查询。搜索引擎在面对非结构化文本信息时能够执行“快速的全文检索”式功能，弥补了关系数据库对非结构化信息进行模糊查询或基于关系数据库进行全文检索效率较低的缺陷，使得查询文本包括非结构化文本信息时，能够提升查询的速度及效率。在通过搜索引擎及关系数据库同时进行查询时，对查询结果进行去重操作，避免查询结果的重复及冗余给用户带来额外的负担；并且还能够根据不同用户的习惯和偏好，在系统中进行差异化处理，向不同的用户返回不同的查询结果，提高上述信息管理系统对用户的适应性。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将上述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的实施例中，应该理解到，所揭露的装置/终端设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/终端设备实施例仅仅是示意性的，例如，上述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

上述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

上述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，上述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。。其中，上述计算机程序包括计算机程序代码，上述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。上述计算机可读介质可以包括：能够携带上述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，上述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括是电载波信号和电信信号。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.一种信息管理方法，其特征在于，包括：

获取待存储文件的结构化文本信息及非结构化文本信息；

将所述结构化文本信息加入关系数据库中，将所述非结构化文本信息加入搜索引擎的索引中；

当接收到输入的查询请求时，获取所述查询请求所携带的查询文本信息；

基于预设的分解方案将所述查询文本信息分解为第一关键词、第二关键词及第三关键词，其中，所述第一关键词用于进行模糊查询，所述第二关键词用于进行精确查询，所述第三关键词用于同时进行模糊查询及精确查询；

分别根据所述第一关键词、第二关键词及第三关键词在所述关系数据库和/或所述搜索引擎的索引中进行查询；

返回查询的结果。

2.如权利要求1所述的信息管理方法，其特征在于，所述基于预设的分解方案将所述查询文本信息分解为第一关键词、第二关键词及第三关键词，包括：

基于预设的文字数量的阈值及文本信息的类型，将所述查询文本信息分解为第一关键词、第二关键词及第三关键词。

3.如权利要求1所述的信息管理方法，其特征在于，所述分别根据所述第一关键词、第二关键词及第三关键词在所述关系数据库和/或所述搜索引擎的索引中进行查询，包括：

调取所述关系数据库及所述搜索引擎；

在所述关系数据库中根据所述第二关键词及第三关键词进行查询，获得精确查询结果；

在所述搜索引擎的索引中根据所述第一关键词及第三关键词进行查询，获得模糊查询结果；

所述返回查询的结果，包括：

返回所述精确查询结果及模糊查询结果。

4.如权利要求3所述的信息管理方法，其特征在于，所述返回查询的结果之前，所述信息管理方法还包括：

对所述精确查询结果及模糊查询结果进行去重操作，以获得最终查询结果；

所述返回查询的结果，包括：

返回最终查询结果。

5.如权利要求1至4任一项所述的信息管理方法，其特征在于，在接收到输入的查询请求之前，所述信息管理方法还包括：

获取当前登录的用户身份信息；

根据所述当前登录的用户身份信息，获取当前用户的历史查询记录中，各个关键词的词频；

所述分别根据所述第一关键词、第二关键词及第三关键词在所述关系数据库和/或所述搜索引擎的索引中进行查询，包括：

若所述第一关键词、第二关键词及第三关键词中，存在目标关键词，则基于所述目标关键词的词频，对查询的结果进行排序，其中，所述目标关键词为存在于所述当前用户的历史查询记录中的关键词；

所述返回查询的结果，包括:

返回排序后的查询的结果。

6.一种信息管理系统，其特征在于，所述信息管理系统包括：

加入模块，用于将所述结构化文本信息加入关系数据库中，将所述非结构化文本信息加入搜索引擎的索引中；

第二获取模块，用于当接收到输入的查询请求时，获取所述查询请求所携带的查询文本信息；

分解模块，用于基于预设的分解方案将所述查询文本信息分解为第一关键词、第二关键词及第三关键词，其中，所述第一关键词用于进行模糊查询，所述第二关键词用于进行精确查询，所述第三关键词用于同时进行模糊查询及精确查询；

查询模块，用于分别根据所述第一关键词、第二关键词及第三关键词在所述关系数据库和/或所述搜索引擎的索引中进行查询；

返回模块，用于返回查询的结果。

7.如权利要求6所述的信息管理系统，其特征在于，所述分解模块，具体用于基于预设的文字数量的阈值及文本信息的类型，将所述查询文本信息分解为第一关键词、第二关键词及第三关键词。

8.如权利要求6所述的信息管理系统，其特征在于，所述查询模块包括：

调取单元，用于调取所述关系数据库及所述搜索引擎；

数据库查询单元，用于在所述关系数据库中根据所述第二关键词及第三关键词进行查询，获得精确查询结果；

搜索引擎查询单元，用于在所述搜索引擎的索引中根据所述第一关键词及第三关键词进行查询，获得模糊查询结果；

所述返回模块，具体用于返回所述精确查询结果及模糊查询结果。

9.一种电子设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述方法的步骤。