CN111625539A

CN111625539A - 一种应用于信息资源共享平台的索引创建及数据检索方法

Info

Publication number: CN111625539A
Application number: CN202010347055.5A
Authority: CN
Inventors: 温敏; 程维杰; 叶青; 冉先进; 甘戈; 高宇
Original assignee: Sichuan Jinkecheng Geographic Information Technology Co ltd
Current assignee: Sichuan Jinkecheng Geographic Information Technology Co ltd
Priority date: 2020-04-28
Filing date: 2020-04-28
Publication date: 2020-09-04

Abstract

本发明公开了一种应用于信息资源共享平台的索引创建及数据检索方法，通过搭建Lucene服务器，利用Quertz服务从来源数据库中读取数据生成索引文件，外部的Web网站通过WCF技术，利用Http协议与Lucene服务器进行通讯，实现数据检索和检索结果展示。本发明提高了应用于信息资源共享平台的基于Lucene的索引系统的构建效率以及查询效率，可实现海量数据记录的快速数据处理以及检索展示。

Description

一种应用于信息资源共享平台的索引创建及数据检索方法

技术领域

本发明涉及数据库查询分析技术，特别涉及一种应用于信息资源共享平台的索引创建及数据检索方法。

背景技术

信息资源的有效利用是信息化建设的核心问题，现有的数据资源分散于委机关、区县建设局以及直属单位，且企业、人员、工程等数据往往只保留了当前的最新情况，缺乏历史数据的沉淀，业务与业务之间的数据也缺乏有效关联，难以实现跨地区、跨部门信息资源共享。此外，还有大量的隐性信息资源没有得到有效的利用，一些基础服务存在重复建设的情况。因此打造一个数据标准规范统一，信息共享程度高的政务信息资源共享平台是现实非常迫切的需要。

而该平台当中，了避免有用的数据信息流失，就需要建立相应的数据库作为载体来存储这些数据。但由于数据库时间与空间的复杂性过高，使数据查询产生了困难，除了要考虑网络传播时的安全性外，还要考虑数据的查询延时，导致检索和查询效率较低。

Lucene是一个开放源代码的全文检索引擎工具包，但它不是一个完整的全文检索引擎，而是一个全文检索引擎的架构，提供了完整的查询引擎和索引引擎，部分文本分析引擎。Lucene是一套用于全文检索和搜寻的开源程式库，为软件开发人员提供一个简单易用的工具包，以方便的在目标系统中实现全文检索的功能，或者是以此为基础建立起完整的全文检索引擎。Lucene索引的具体形式是本身独立的，它和具体的使用平台没干系。Lucene的基本表示单位为8个字节，如果系统是相互兼容的，则它们能够利用相同的索引资源。

如果能够设计出一种利用Lucene技术，能够快捷有效地实现信息资源共享平台的索引创建及数据检索，必将使信息资源共享平台在功能上更为完善。

发明内容

有鉴于此，本发明的第一方面的目的是提供一种应用于信息资源共享平台的索引创建及数据检索方法。能够提高构建索引系统的效率和数据处理速度。

本发明的第一方面的目的是通过以下技术方案实现的：

该种应用于信息资源共享平台的索引创建及数据检索方法，通过搭建Lucene服务器，利用Quertz服务从来源数据库中读取数据生成索引文件，外部的Web网站通过WCF技术，用 Http协议与Lucene服务器进行通讯，实现数据检索和检索结果展示。

特别地，从来源数据库中读取数据生成索引文件的步骤如下：

步骤101，读取索引配置信息；

步骤102，确定索引文件的更新方式；若采用增量更新，进入步骤103,若采用全量更新，则进入步骤104；

步骤103，读取增量表数据，确定索引文件是否存在，若存在则进入步骤1031，若不存在，则创建索引文件，进入步骤105；

步骤1301，打开索引文件，删除索引文件的增量记录，插入增量记录到索引文件，进入步骤105；

步骤104，读取全量表数据，删除索引文件，创建索引文件，进入步骤106；

步骤105，结束。

特别地，实现数据检索和检索结果展示的步骤如下：

步骤201，Web服务器的页面前端选择查询范围，输入查询关键字，向Lucene服务器发出检索请求；

步骤202，Lucene服务器接收查询信息，加载索引文件，执行查询；

步骤203，页面前端收到查询结果，在页面上进行呈现，结束。

本发明的第二方面的目的是提供一种计算机装置，包括存储器、处理器及储存在存储器上并能够在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如前所述的方法。

本发明的第三方面的目的是提供一种计算机可读存储介质，其上储存有计算机程序，所述计算机程序被处理器执行时实现如前所述的方法。

本发明的有益效果是：本发明提高了应用于信息资源共享平台的基于Lucene的索引系统的构建效率以及查询效率，可实现海量数据记录的快速数据处理以及检索展示。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书和权利要求书来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步的详细描述，其中：

图1为本发明的架构示意图；

图2为采用Lucene技术进行检索生成的原理示意图；

图3为利用Lucene进行数据检索的原理示意图；

图4为从来源数据库中读取数据生成索引文件的方法流程图；

图5为实现数据检索和检索结果展示的方法流程图。

具体实施方式

以下将参照附图，对本发明的优选实施例进行详细的描述。应当理解，优选实施例仅为了说明本发明，而不是为了限制本发明的保护范围。

本发明的一种应用于信息资源共享平台的索引创建及数据检索方法，如图1所示，其是搭建Lucene服务器，利用Quertz服务从来源数据库中读取数据生成索引文件，外部的Web 网站通过WCF技术，用Http协议与Lucene服务器进行通讯，实现数据检索和检索结果展示。

Lucene本身具有一套成型的搜索工具，查询者能够根据这个搜索工具去完成自身的检索需求。查询者能够实现按需求建立特定的搜寻规定，例如模糊检索、范围检索等。搜寻索引部分主要内容包括，利用查询者所提供的检索条件去取得查询语句，接着分析处理这些查询语句，之后自索引资源库内查询，将最终的检索结果返回给查询者。本发明采用Lucene.net，该版本是Lucene的.net移植版本，Lucene.net是一个开源的全文检索引擎开发包，即它不是一个完整的全文检索引擎，而是一个全文检索引擎的架构，提供了完整的查询引擎和索引引擎。开发人员可以基于Lucene.net实现全文检索的功能。

图2公开了采用Lucene技术进行检索生成的原理，包括先采集文档数据，然后进行分词处理(分词处理包括将文档分成单独的单词，去除标点符号，去除停词)，接下来利用语言处理组件(Lingustic Processor)进行处理，获得“词”以后，通过索引组件(indexer)完成链表(Posting list)，索引写入存储元件，完成。

图3公开了利用Lucene进行数据检索的原理，包括：输入查询语句，进行词法分析(识别单词和关键字)；进行语法分析(形成一棵语法树)；通过语言处理组件进行处理；搜索索引，得到符合语法树的文档；根据文档和查询语句的相关性，对结果进行排序。

Lucene索引是按照一定的结构组织的，因此去进行搜索时可以立刻在索引资源内找到，而无须去之前的资源内执行顺序的搜寻工作，能够把检索的区域缩小很多，极大提高了检索效率。Lucene的数据来源并非是一种确切的格式，仅仅为一种文件的层次，查询者去创建索引的数据源能够为各种格式，可以是xml文档、字符串、txt文档，或者是数据库内的数据资源。

如图4所示，本发明中，从来源数据库中读取数据生成索引文件的步骤如下：

步骤101，读取索引配置信息；

步骤105，结束。

如图5所示，实现数据检索和检索结果展示的步骤如下：

为便于进一步理解本发明的设计思想及意图，下面将以一个用于成果档案管理系统硬盘信息表检索的具体实施例，其运行的相关环境参数如下：

一、运行系统配置：1.Windows server 2012；2.CPU：i5-8265U；3.RAM：16GB；

二、运行环境：1.JAVA 8；2.JDK 1.8.0_151；3.npm 6.13.4；4.node.js 12.14.1；5.Eclipse 2019-12；6.VS code 2019；

三、相关框架及插件：1.tomcat 9.0.30；2.spring-boot 2.2.3；3.Lucene 4.10.2(core、 queryparser、queries、sandbox、analyzers、highlighter、memory)；4.搜狗分词核心 mmseg4j-core-1.10.0；5.搜狗分词器mmseg4j-analysis-1.9.1；6.ant-design。

具体运行过程如下：

一、索引的创建：

1、首先获取信息资源：

(1)连接目标数据库，如下表所示：

(2)打开结果集，如下表所示：

Statement stmt＝conn.createStatement()；

ResultSet rs＝stmt.executeQuery(sql)；

2、信息资源过滤：

(3)通过字典进行分词优化及过滤：

a.字典的使用，如下表所示：

Dictionary dic＝Dictionary.getInstance(″..\\data\\word.dic″)；

Analyzer analyzer＝new ComplexAnalyzer(dic)；

b.字典words.dic内部(部分节选)，如图4：

通过字典可以根据需要设定分词逻辑、自定义分词等。

c.未使用字典情况下的分词效果，如图5：

d.使用字典情况下的分词效果：

3、分词处理：

(4)使用MMseg分词器，如下表所示：

Analyzer analyzer＝new ComplexAnalyzer()；

四、创建索引：

(1)索引配置，如下表所示：

IndexWriterConfig iwConfig＝new IndexWriterConfig(Ver5ion.LUCENF_4_10_2，analyzer)；

iwConfig.set0penMode(IndexWriterConfig.OpenMode.CREATE_OR_APPEND)；

(2)保存，如下表所示：

(3)索引文件，如下表所示：

10000行数据占用空间大小5.24MB

通过索引进行搜索：

1、从前端得到搜索关键词，如下表所示：

2、创建分词器Analyzer，如下表所示：

Analyzer analyzer＝new(omplexAnalyzer(dic)；

3、创建查询分析器QueryParser，如下表所示：

//使用QueryParser查询分析器构造Query对象

QueryParser qp＝new QueryParser(″Content″，analyzer)；

4、搜索耗时，如下表所示：

5、创建相似度最高记录TopDocs，如下表所示：

//搜索相似度最高的20条记录

TopDocs topDocs＝isearcher.search(query，20)；

7、向前端返回结果集合，如下表所示：

{

″id″：0.

″title″：null，

″content″：null，

″time″：null，

″yjdm″：″\\\10.51.51.125\\e\\四川省地理信息公共平台建设项目最终成果\r\n\r\n06提升1： 1万基础地理信息数据覆盖率分项目成果\r\n07四川省地质灾害防治专用图测制与应急保障专项成果\r\n\r\n1/10.51.51.14\\成果档案部3\\四川省地理信息公共平台建设项目最终成果 1107四川省地质灾害防治专用图测制与应急保障专项成果113、全省地质灾害应急专题数据库建设″

}，

{

″id″：1，

″title″：null，

″content″：null，

″time″：null，

″yjdm″：″\\\10.51.51.125\\e\\四川省地理信息公共平台建设项目最终成果\\05地理信息服务体系建设分项目成果\r\n\r\n2、公共平台数据库建设\r\n\r\n1110.51.51.14\\成果档案部 3\1四/10.51.51.14\\成果档案部3\\四川省地理信息公共平台建设项目最终成果1107四川省地质灾害防治专用图测制与应急保障专项成果113、全省地质灾害应急专题数据库建设″

}，

{

″id″：2.

″title″：nu11，

″content″：null，

″time″：null，

″yjdm″：″\\\10.51.51.125\\e\\四川省地理信息公共平台建设项目最终成果\r\n\r\n06提升1：

1万基础地理信息数据覆盖率分项目成果\r\n07马尔康县壤塘县r\n 3ma_p(s)\r\nh：

1YP00567\\四川省地理信息公共平台建设项目最终成果1107四川省地质灾害四川省地质灾害防治专用图测制与应急保障专项成果\r\n\r\n1/10.51.51.14\\成果档案部3\\四川省地理信息公共平台建设项目最终成果1107四川省地质灾害防治专用图测制与应急保障专项成果113、全省地质灾害应急专题数据库建设″

}

应当认识到，流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

本发明的实施例可以由计算机硬件、硬件和软件的组合、或者通过存储在非暂时性计算机可读存储器中的计算机指令来实现或实施。所述方法可以使用标准编程技术-包括配置有计算机程序的非暂时性计算机可读存储介质在计算机程序中实现，其中如此配置的存储介质使得计算机以特定和预定义的方式操作——根据在具体实施例中描述的方法和附图。每个程序可以以高级过程或面向对象的编程语言来实现以与计算机系统通信。然而，若需要，该程序可以以汇编或机器语言实现。在任何情况下，该语言可以是编译或解释的语言。此外，为此目的该程序能够在编程的专用集成电路上运行。

此外，可按任何合适的顺序来执行本文描述的过程的操作，除非本文另外指示或以其他方式明显地与上下文矛盾。本文描述的过程(或变型和/或其组合)可在配置有可执行指令的一个或多个计算机系统的控制下执行，并且可作为共同地在一个或多个处理器上执行的代码(例如，可执行指令、一个或多个计算机程序或一个或多个应用)、由硬件或其组合来实现。所述计算机程序包括可由一个或多个处理器执行的多个指令。

进一步，所述方法可以在可操作地连接至合适的任何类型的计算平台中实现，包括但不限于个人电脑、迷你计算机、主框架、工作站、网络或分布式计算环境、单独的或集成的计算机平台、或者与带电粒子工具或其它成像装置通信等等。本发明的各方面可以以存储在非暂时性存储介质或设备上的机器可读代码来实现，无论是可移动的还是集成至计算平台，如硬盘、光学读取和/或写入存储介质、RAM、ROM等，使得其可由可编程计算机读取，当存储介质或设备由计算机读取时可用于配置和操作计算机以执行在此所描述的过程。此外，机器可读代码，或其部分可以通过有线或无线网络传输。当此类媒体包括结合微处理器或其他数据处理器实现上文所述步骤的指令或程序时，本文所述的发明包括这些和其他不同类型的非暂时性计算机可读存储介质。当根据本发明所述的方法和技术编程时，本发明还包括计算机本身。

计算机程序能够应用于输入数据以执行本文所述的功能，从而转换输入数据以生成存储至非易失性存储器的输出数据。输出信息还可以应用于一个或多个输出设备如显示器。在本发明优选的实施例中，转换的数据表示物理和有形的对象，包括显示器上产生的物理和有形对象的特定视觉描绘。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种应用于信息资源共享平台的索引创建及数据检索方法，其特征在于：所述方法是搭建Lucene服务器，利用Quertz服务从来源数据库中读取数据生成索引文件，外部的Web网站通过WCF技术，利用Http协议与Lucene服务器进行通讯，实现数据检索和检索结果展示。

2.根据权利要求1所述的一种应用于信息资源共享平台的索引创建及数据检索方法，其特征在于：从来源数据库中读取数据生成索引文件的步骤如下：

步骤101，读取索引配置信息；

步骤105，结束。

3.根据权利要求1或2所述的一种应用于信息资源共享平台的索引创建及数据检索方法，其特征在于：实现数据检索和检索结果展示的步骤如下：

4.一种计算机装置，包括存储器、处理器及储存在存储器上并能够在处理器上运行的计算机程序，其特征在于：所述处理器执行所述计算机程序时实现如权利要求1-3任一项所述的方法。

5.一种计算机可读存储介质，其上储存有计算机程序，其特征在于：所述计算机程序被处理器执行时实现如权利要求1-3任一项所述的方法。