CN109145077A - 一种基于开源架构的便捷化全文检索方法 - Google Patents

一种基于开源架构的便捷化全文检索方法 Download PDF

Info

Publication number
CN109145077A
CN109145077A CN201710462817.4A CN201710462817A CN109145077A CN 109145077 A CN109145077 A CN 109145077A CN 201710462817 A CN201710462817 A CN 201710462817A CN 109145077 A CN109145077 A CN 109145077A
Authority
CN
China
Prior art keywords
full
text retrieval
open source
data
method based
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710462817.4A
Other languages
English (en)
Inventor
王鹏
黄树桃
赵永安
余靖毅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Research Institute of Uranium Geology
Original Assignee
Beijing Research Institute of Uranium Geology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Research Institute of Uranium Geology filed Critical Beijing Research Institute of Uranium Geology
Priority to CN201710462817.4A priority Critical patent/CN109145077A/zh
Publication of CN109145077A publication Critical patent/CN109145077A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于信息技术数据检索技术领域,具体涉及一种基于开源架构的便捷化全文检索方法。本发明的方法包括以下步骤:针对用户实际使用需求,设计实现全文检索系统平台的物理拓扑架构和技术开发方案架构;结合数据资源自身特征,完成全文检索功能流程设计,其关键在于索引构建与维护策略和全过程数据流的功能设计实现;充分考虑数据资源当前与将来应用的扩展性和适用性,确定了系统实现的技术框架,同时采用全配置式部署支持快速灵活的实现系统扩展,最终完成系统实现架构的设计和开发。本发明解决了现有方法难以满足数据快速检索实际应用需求的技术问题,能够利用较低的技术成本和经济成本,实现高效快捷、有针对性的全文检索。

Description

一种基于开源架构的便捷化全文检索方法
技术领域
本发明属于信息技术数据检索技术领域,具体涉及一种基于开源架构的便捷化全文检索方法。
背景技术
数据检索或信息检索,尤其是全文检索,是信息技术领域的重要研究内容之一。21世纪初,谷歌和百度等以信息检索为主要发展引擎的IT公司发展迅猛,已经建立了复杂的信息检索平台,形成了强大的信息检索能力。同时,随着信息技术的发展和实际业务需求的增多,越来越多的企业需要建立自己的信息平台和检索系统。但是,由于技术和经济成本的限制,不可能每个企业内部都花巨大成本去建立类似于谷歌、百度这样的大型信息检索引擎。因此,基于开源架构探索便捷化的全文检索方法成为小企业节省成本、加快发展的重要基础支撑工作。
目前基于开源架构自主开发的全文检索方法,其数据检索读取方法更多是通过直接查询和读取底层数据库的存储字段来实现的,但是随着信息技术和用户使用需求的发展,这种方法越来越不能满足实现数据快速检索的实际应用需求。
发明内容
本发明需要解决的技术问题为:现有基于开源架构的全文检索方法通过直接查询和读取底层数据库的存储字段实现数据检索读取,难以满足数据快速检索的实际应用需求。
本发明的技术方案如下所述:
一种基于开源架构的便捷化全文检索方法,包括以下步骤:
步骤S1全文检索系统平台物理拓扑架构和技术开发方案架构设计;
步骤S2全文检索功能流程设计;
步骤S3全文检索系统平台开发实现。
作为优选方案:步骤S1中,所述物理拓扑架构的部署思路为:根据数据流向,按照数据存储层-应用服务层-缓存层-负载均衡层的分层方式进行设置。步骤S1中,所述技术开发方案架构的具体技术实现是以开源数据库为数据存储容器,采用B/S架构,基于Eclipse编程开发平台,采用面向对象的JAVA编程语言,进行全文检索系统详细功能设计以及开发实现。所述开源数据库可以为PostgreSQL数据库或MySQL数据库。
作为优选方案:步骤S2包括以下步骤:
步骤S21索引构建与索引维护策略设计;
步骤S22全过程数据流设计。
步骤S21所述索引构建是在系统功能对象交互的基础上,根据用户交互的请求参数,启动构建文档索引的实例;随后依次遍历数据集合中的所有文档,对文档记录以及属性内容进行分词处理,构建倒排索引;最后,将倒排索引及其相关辅助信息持久化地存储到服务器磁盘,生成索引文件。
步骤S21所述索引维护依靠人工或者命令脚本,在后续数据更新的基础上,实现定期的索引重新构建。
步骤S22所述全过程数据流的设计如下所述:索引文件生成之后,用户通过系统界面发送进行全文检索的请求,首先由文档全文检索请求分析器进行请求的捕获和预处理;然后将查询参数中的查询语句根据特征词库,进行分词,得到词项数组;接下来根据已经生成好的索引文件,进行关键词匹配,得到候选文档集合,计算候选文档集合中文档与查询语句的相似度,得到文档评分并进行排序,最后返回查询结果至浏览器页面进行发布展示。
步骤S22中,用户还可以发送数据下载请求,系统解析相关用户请求,并访问数据资源的存储服务器,根据数据资源存储位置,获取相应数据资源的字节流,最终实现数据资源的本地下载。
作为优选方案:步骤S3中,在全文检索功能流程解决基础上,充分考虑数据资源当前与将来应用的扩展性和适用性,确定系统实现的技术框架,同时采用全配置式部署支持快速灵活的实现系统扩展,为后续系统功能升级和用户拓展提供有力应用支持。所述全文检索系统优选兼容支持移动浏览器的表现技术。
本发明的有益效果为:
(1)本发明的一种基于开源架构的便捷化全文检索方法,待检索数据源的自身特征,能够实现高效快捷、有针对性的全文检索;
(2)本发明的一种基于开源架构的便捷化全文检索方法,能够节约技术成本和经济成本,对中小型企业建立信息平台和检索系统具有促进作用;
(3)本发明的一种基于开源架构的便捷化全文检索方法,可以利用免费得开源软件为基础,快速、经济地实现物理拓扑架构和技术开发方案架构的设计和建设;
(4)本发明的一种基于开源架构的便捷化全文检索方法,可以根据数据源的实际特征,生成有针对性的索引文件,这样构建的全文检索关键技术能够实现专业的关键词查询,检索过程和结果更加快速并且结果排序更加合理;
(5)利用本发明的一种基于开源架构的便捷化全文检索方法实现的全文检索系统,可以适用于各种类型的终端电子设备,能够提供更好的用户体验。
附图说明
图1为本发明的一种基于开源架构的便捷化全文检索方法流程图;
图2为全文检索系统平台物理架构拓扑图;
图3为全文检索索引构建与索引维护策略图;
图4为全文检索全过程数据流图;
图5为全文检索系统实现架构图。
具体实施方式
下面结合附图和实施例对本发明的一种基于开源架构的便捷化全文检索方法进行详细说明。
如图1所示,本发明的一种基于开源架构的便捷化全文检索方法,包括以下步骤:针对用户实际使用需求,设计实现全文检索系统平台的物理拓扑架构和技术开发方案架构;结合数据资源自身特征,完成全文检索功能流程设计,其关键在于索引构建与维护策略和全过程数据流的功能设计实现;充分考虑数据资源当前与将来应用的扩展性和适用性,确定了系统实现的技术框架,同时采用全配置式部署支持快速灵活的实现系统扩展,最终完成系统实现架构的设计和开发。
具体而言,本发明的方法包括以下步骤:
步骤S1全文检索系统平台物理拓扑架构和技术开发方案架构设计
针对用户实际使用需求,设计实现全文检索系统平台的物理拓扑架构和技术开发方案架构。
如图2所示,所述物理拓扑架构的部署思路为:根据数据流向,按照数据存储层-应用服务层-缓存层-负载均衡层的分层方式进行设置。
所述技术开发方案架构的具体技术实现是以开源数据库为数据存储容器,采用B/S架构(Browser/Server),基于Eclipse编程开发平台,采用面向对象的JAVA编程语言,进行全文检索系统详细功能设计以及开发实现。所述开源数据库可以为PostgreSQL、MySQL等数据库。
步骤S2全文检索功能流程设计
全文检索功能实现的关键在于索引构建与索引维护策略和全过程数据流的设计实现。此处以名为“地学信息库”的数据库中的文档数据资源的全文检索实现过程为例,介绍全文检索功能流程。其它类型数据信息检索技术实现参照此方法进行。
步骤S21索引构建与索引维护策略设计
所述索引构建是在系统功能对象交互的基础上,根据用户交互的请求参数,启动构建文档索引的实例;随后依次遍历数据集合中的所有文档,对文档记录以及属性内容进行分词处理,构建倒排索引;最后,将倒排索引及其相关辅助信息持久化地存储到服务器磁盘,生成索引文件。所述索引维护主要依靠人工或者命令脚本,在后续数据更新的基础上,实现定期的索引重新构建。索引构建和索引维护详细策略如图3所示。
步骤S22全过程数据流设计
全过程数据流的设计如下所述:索引文件构建生成是系统检索功能实现的重要基础。索引文件生成之后,用户通过系统界面发送进行全文检索的请求,首先由文档全文检索请求分析器进行请求的捕获和预处理;然后将查询参数中的查询语句根据特征词库,进行分词,得到词项数组;接下来根据已经生成好的索引文件,进行关键词匹配,得到候选文档集合,计算候选文档集合中文档与查询语句的相似度,得到文档评分并进行排序,最后返回查询结果至浏览器页面进行发布展示。另外,用户还可以发送数据下载请求,系统解析相关用户请求,并访问数据资源的存储服务器,根据数据资源存储位置,获取相应数据资源的字节流,最终实现数据资源的本地下载。具体流程如图4所示。
步骤S3全文检索系统平台开发实现
在全文检索功能流程解决基础上,充分考虑数据资源当前与将来应用的扩展性和适用性,确定系统实现的技术框架,同时采用全配置式部署支持快速灵活的实现系统扩展,为后续系统功能升级和用户拓展提供有力应用支持。系统实现架构具体是采用目前主流、先进、开源的全文检索技术框架(如Lucene),借助该框架的多层模块化设计基础,在底层数据库基础上开发实现了数据资源检索组织模块、数据检索服务管理模块、动态全文索引构建模块、瓦片地图服务模块以及图文一体的地学信息数据检索表现模块等。上述模块设计均针对数据源的专业数据特点,构建可动态扩展的专业词库,确保了在数据资源对象的专业领域实现检索结果的专业精准性。同时考虑到将来日益丰富的移动端应用,全文检索系统采用兼容支持移动浏览器的表现技术,实现了智能手机、平板电脑和PC的多屏兼容和流畅显示,使图文一体全文检索能够实现良好用户体验。系统实现架构框架图如图5所示。

Claims (10)

1.一种基于开源架构的便捷化全文检索方法,其特征在于:包括以下步骤:
步骤S1全文检索系统平台物理拓扑架构和技术开发方案架构设计;
步骤S2全文检索功能流程设计;
步骤S3全文检索系统平台开发实现。
2.根据权利要求1所述的一种基于开源架构的便捷化全文检索方法,其特征在于:步骤S1中,所述物理拓扑架构的部署思路为:根据数据流向,按照数据存储层-应用服务层-缓存层-负载均衡层的分层方式进行设置。
3.根据权利要求2所述的一种基于开源架构的便捷化全文检索方法,其特征在于:步骤S1中,所述技术开发方案架构的具体技术实现是以开源数据库为数据存储容器,采用B/S架构,基于Eclipse编程开发平台,采用面向对象的JAVA编程语言,进行全文检索系统详细功能设计以及开发实现。
4.根据权利要求3所述的一种基于开源架构的便捷化全文检索方法,其特征在于:步骤S1中,所述开源数据库为PostgreSQL数据库或MySQL数据库。
5.根据权利要求1所述的一种基于开源架构的便捷化全文检索方法,其特征在于:步骤S2包括以下步骤:
步骤S21索引构建与索引维护策略设计;
步骤S22全过程数据流设计。
6.根据权利要求5所述的一种基于开源架构的便捷化全文检索方法,其特征在于:
步骤S21所述索引构建是在系统功能对象交互的基础上,根据用户交互的请求参数,启动构建文档索引的实例;随后依次遍历数据集合中的所有文档,对文档记录以及属性内容进行分词处理,构建倒排索引;最后,将倒排索引及其相关辅助信息持久化地存储到服务器磁盘,生成索引文件;
步骤S21所述索引维护依靠人工或者命令脚本,在后续数据更新的基础上,实现定期的索引重新构建。
7.根据权利要求6所述的一种基于开源架构的便捷化全文检索方法,其特征在于:步骤S22所述全过程数据流的设计如下所述:索引文件生成之后,用户通过系统界面发送进行全文检索的请求,首先由文档全文检索请求分析器进行请求的捕获和预处理;然后将查询参数中的查询语句根据特征词库,进行分词,得到词项数组;接下来根据已经生成好的索引文件,进行关键词匹配,得到候选文档集合,计算候选文档集合中文档与查询语句的相似度,得到文档评分并进行排序,最后返回查询结果至浏览器页面进行发布展示。
8.根据权利要求7所述的一种基于开源架构的便捷化全文检索方法,其特征在于:步骤S22中,用户发送数据下载请求,系统解析相关用户请求,并访问数据资源的存储服务器,根据数据资源存储位置,获取相应数据资源的字节流,最终实现数据资源的本地下载。
9.根据权利要求1所述的一种基于开源架构的便捷化全文检索方法,其特征在于:步骤S3中,在全文检索功能流程解决基础上,充分考虑数据资源当前与将来应用的扩展性和适用性,确定系统实现的技术框架,同时采用全配置式部署支持快速灵活的实现系统扩展,为后续系统功能升级和用户拓展提供有力应用支持。
10.根据权利要求1或9所述的一种基于开源架构的便捷化全文检索方法,其特征在于:步骤S3中,所述全文检索系统采用兼容支持移动浏览器的表现技术。
CN201710462817.4A 2017-06-19 2017-06-19 一种基于开源架构的便捷化全文检索方法 Pending CN109145077A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710462817.4A CN109145077A (zh) 2017-06-19 2017-06-19 一种基于开源架构的便捷化全文检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710462817.4A CN109145077A (zh) 2017-06-19 2017-06-19 一种基于开源架构的便捷化全文检索方法

Publications (1)

Publication Number Publication Date
CN109145077A true CN109145077A (zh) 2019-01-04

Family

ID=64804020

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710462817.4A Pending CN109145077A (zh) 2017-06-19 2017-06-19 一种基于开源架构的便捷化全文检索方法

Country Status (1)

Country Link
CN (1) CN109145077A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN119025522A (zh) * 2024-07-25 2024-11-26 北京地林伟业科技股份有限公司 一种多级行政区划要素的快速检索与展示方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101853288A (zh) * 2010-05-19 2010-10-06 马晓普 基于文档实时监控可配置的全文检索服务系统
CN102096845A (zh) * 2009-12-10 2011-06-15 黑龙江省森林工程与环境研究所 森林分类经营知识库全文搜索引擎系统
CN104463410A (zh) * 2014-10-27 2015-03-25 长春嘉诚网络工程有限公司 一种基于精细化管理的协同办公平台

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102096845A (zh) * 2009-12-10 2011-06-15 黑龙江省森林工程与环境研究所 森林分类经营知识库全文搜索引擎系统
CN101853288A (zh) * 2010-05-19 2010-10-06 马晓普 基于文档实时监控可配置的全文检索服务系统
CN104463410A (zh) * 2014-10-27 2015-03-25 长春嘉诚网络工程有限公司 一种基于精细化管理的协同办公平台

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN119025522A (zh) * 2024-07-25 2024-11-26 北京地林伟业科技股份有限公司 一种多级行政区划要素的快速检索与展示方法及系统

Similar Documents

Publication Publication Date Title
US11899681B2 (en) Knowledge graph building method, electronic apparatus and non-transitory computer readable storage medium
CN112131449B (zh) 一种基于ElasticSearch的文化资源级联查询接口的实现方法
Guo et al. An effective and economical architecture for semantic-based heterogeneous multimedia big data retrieval
CN107103016A (zh) 基于关键词表示使图像与内容匹配的方法
Lehmann et al. Deqa: deep web extraction for question answering
JP2017157192A (ja) キーワードに基づいて画像とコンテンツアイテムをマッチングする方法
CN102214208A (zh) 一种基于非结构化文本生成结构化信息实体的方法与设备
CN109948044A (zh) 基于向量最近邻搜索的文档查询
CN101393565A (zh) 基于本体的面向虚拟博物馆的搜索方法
JP2017157193A (ja) 画像とコンテンツのメタデータに基づいてコンテンツとマッチングする画像を選択する方法
US11745093B2 (en) Developing implicit metadata for data stores
Kollia et al. A systemic approach for effective semantic access to cultural content
CN105007314A (zh) 面向海量读者阅读数据的大数据处理系统
Faridoon et al. Big Data Storage Tools Using NoSQL Databases and Their Applications in Various Domains: A Systematic Review.
CN115098755A (zh) 一种科技信息服务平台构建方法及科技信息服务平台
CN119226289A (zh) 一种语料库管理方法、电子设备、存储介质及程序产品
CN111090668B (zh) 数据检索方法及装置、电子设备和计算机可读存储介质
CN117034946B (zh) 一种中文文本语义解析与重构系统
CN109145077A (zh) 一种基于开源架构的便捷化全文检索方法
Castellano et al. A web text mining flexible architecture
CN116594628A (zh) 数据溯源方法、装置和计算机设备
Li et al. RGL: A Graph-Centric, Modular Framework for Efficient Retrieval-Augmented Generation on Graphs
US9530094B2 (en) Jabba-type contextual tagger
Muroň et al. User-driven toponym disambiguation using dialogue
Yang et al. Design and implementation of intelligent warehouse platform based on elasticsearch

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190104

RJ01 Rejection of invention patent application after publication