CN102831253B - 一种分布式全文检索系统 - Google Patents

一种分布式全文检索系统 Download PDF

Info

Publication number
CN102831253B
CN102831253B CN201210362934.0A CN201210362934A CN102831253B CN 102831253 B CN102831253 B CN 102831253B CN 201210362934 A CN201210362934 A CN 201210362934A CN 102831253 B CN102831253 B CN 102831253B
Authority
CN
China
Prior art keywords
server
file
distributed
node server
dictionary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201210362934.0A
Other languages
English (en)
Other versions
CN102831253A (zh
Inventor
何蕾
李勇
曹宇
喻宏元
苏迤
庞传军
聂春元
杨笑宇
徐家慧
武毅
林海峰
方伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Kedong Electric Power Control System Co Ltd
Central China Grid Co Ltd
Original Assignee
Beijing Kedong Electric Power Control System Co Ltd
Central China Grid Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Kedong Electric Power Control System Co Ltd, Central China Grid Co Ltd filed Critical Beijing Kedong Electric Power Control System Co Ltd
Priority to CN201210362934.0A priority Critical patent/CN102831253B/zh
Publication of CN102831253A publication Critical patent/CN102831253A/zh
Application granted granted Critical
Publication of CN102831253B publication Critical patent/CN102831253B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明属于数据处理领域,特别是涉及一种分布式全文检索系统。所述系统由设置在各网络节点上的全文检索服务器组成,包括分布式节点服务器及系统中心服务器;所述分布式节点服务器包括文件信息检索模块及服务器间通讯模块;所述文件信息检索模块对本节点服务器上文件定时进行全文信息的检索,按照定义好的词库进行切词,提取关键词信息并建立索引文件;所述服务器间通讯模块实现分布式节点服务器与系统中心服务器与之间的信息交换,所述系统中心服务器对各节点服务器传送的索引文件进行合并,向用户提供查询接口,将符合的文件作为查询结果展示给用户。

Description

一种分布式全文检索系统
技术领域
    本发明属于数据处理领域,特别是涉及一种分布式全文检索系统的。
背景技术
文档检索系统主要实现对调度管理应用中的各类文档、资料和知识库的索引提取及资料搜索功能。
a) 编制索引:对doc、txt、pdf等常用文档文件的文字信息进行文字索引提取。
b) 资料搜索:根据文字索引模糊搜索定位文档、资料。
分布式查询主要实现调度机构之间、调度管理类应用中各模块标准化的数据库信息分布式查询。基于平台的远程服务代理和数据公共服务实现远程数据查询。分布式查询应包含但不限于以下功能:
c) 跨调度机构的数据查询;
d) 按照数据分类进行查询;
e) 数据展示功能。
由于电力行业相关文件,电子信息材料,新闻应用比较多,很多系统都有自己的管理文档的功能,但是面对大量的信息资源,很难定位想要找的文件在那个系统中,存储在哪个服务器上,如何方便快捷、准确地从各个分布式的服务器上上获取所需文件信息,成为至关重要的问题。现有技术中的文档检索系统存在着检索速度慢、占用系统资源过多等的缺陷。
发明内容
本发明的目的,是提供一种分布式全文检索系统,从而实现提升检索速度,达到优化目的。
本发明的具体技术方案如下: 1、一种分布式全文检索系统,所述系统由设置在各网络节点上的全文检索服务器组成,包括分布式节点服务器及系统中心服务器;
所述分布式节点服务器包括文件信息检索模块及服务器间通讯模块;
所述文件信息检索模块对本节点服务器上文件定时进行全文信息的检索,按照定义好的词库进行切词,提取关键词信息并建立索引文件;
所述服务器间通讯模块实现分布式节点服务器与系统中心服务器与之间的信息交换,将本节点的索引文件发送到系统中心服务器;
所述系统中心服务器对各节点服务器传送的索引文件进行合并,生成新的索引文件并更新已有索引信息,增加新的文件信息;向用户提供查询接口,响应用户查询文件的请求、分析用户请求,将查询关键词在新的索引文件中进行检索比对,将符合的文件作为查询结果展示给用户。
进一步的,所述分布式节点服务器上生成的索引文件包括文件名称、关键词条、文件分类、所在服务器的IP地址、服务器信息、文件大小、文件作者等相关信息。
进一步的,所述系统中心服务器进一步包括:各个分布式节点服务器状态查询模块及系统重启服务模块;并具有文件在线浏览与下载模块,即系统中心服务器接收下载文件请求,并根据该文件在索引文件中的描述,将请求转发给相应的节点服务器,将读取文件的字节流返给用户实现下载。
进一步的,所述分布式节点服务器还包括:词库管理模块,所述词库管理模块在遍历文件全文内容时根据已有词库进行切词划分,将文件内容切成不同的关键词,然后统计关键词出现的频度和关键词的分类,一同写入到索引文件中。
进一步的,所述词库管理模块按照电网相关技术知识进行统计划分,包括电网文件类、技术论文类、电网设备类、新闻类等;对普通的助词、语气词或普通描述性的词进行过滤。
进一步的,所述分布式节点服务器上安装词库管理客户端,所述客户端对在文件中出现频度较高的词,通过用户手动维护的关键词等添加到索引文件中更新词库。
本发明的有益效果是:
(1)在查询效率上,由于使用了依据电力行业知识的词库管理,在生成索引文件时就会过滤一些不明感的、不关心词汇,减小生成的索引文件,提高检索速度。
(2)提供了各节点管理的界面,可以维护各节点相关文件配置,索引生成、词库管理以及与服务器通信等功能,加强了分布式系统的稳定性。
(3)索引文件格式独立于应用平台,定义了一套以8位字节为基础的索引文件格式,使得兼容系统或者不同平台的应用能够共享建立的索引文件。
(4)在传统全文检索引擎的倒排索引的基础上,实现了分块索引,能够针对新的文件建立小文件索引,提升索引速度。然后通过与原有索引的合并,达到优化的目的。
(5)实现了一套强大的查询引擎,默认实现了布尔操作、模糊查询、分组查询等等。
附图说明
图1是本发明的系统结构框图。
具体实施方式
下面具体阐述本发明的技术方案。
本发明针对于常规分布式策略,如果在一个机器上没有找到匹配的文件,则将用户请求转发到其他机器上继续检索索引文件。这样每次请求都会遍历所有机器的索引文件,效率以及负载较大,该系统采用将各节点索引文件统一到一个中心服务器机器上,减少转发请求的时间,同时只在中心服务器上进行检索,减轻其他节点机器的负载如图1所示承担一种分布式全文检索系统,由设置在各网络节点上的全文检索服务器组成,按照功能划分又分为分布式节点服务器及系统中心服务器,图1中包括一系统中心服务器及4个分布式节点服务器。其中,每个节点服务器包括文件信息检索模块及服务器间通讯模块;文件信息检索模块对本节点服务器上文件定时进行全文信息的检索,并且频率可设置,按照定义好的词库进行切词,提取关键词信息并建立索引文件。生成的索引文件包括文件名称、关键词条、文件分类、所在服务器的IP地址、服务器信息、文件大小、文件作者等相关信息。服务器间通讯模块则实现分布式节点服务器与系统中心服务器与之间的信息交换,包括将本节点的索引文件发送到系统中心服务器,或者相应来自系统中心服务器的用户请求等。
系统中心服务器对各节点服务器传送的索引文件进行合并,生成新的索引文件,并且在此基础上不断更新已有索引信息,增加新的文件信息。向用户提供查询接口,响应用户查询文件的请求、分析用户请求,将查询关键词在新的索引文件中进行检索比对,将符合的文件作为查询结果展示给用户。
进一步的,本发明的系统中心服务器进一步包括:包括各个节点索引文件信息,管理节点与中心服务器通信,配置各个节点文件索引信息等,并提供重启服务等功能模块;并具有文件在线浏览与下载模块,即系统中心服务器接收下载文件请求,并根据该文件在索引文件中的描述,将请求转发给相应的节点服务器,将读取文件的字节流返给用户实现下载。
本发明为了进一步提供查询的效率,在分布式节点服务器还包括词库管理模块,该词库管理模块在遍历文件全文内容时根据已有词库进行切词划分,将文件内容切成不同的关键词,然后统计关键词出现的频度和关键词的分类,一同写入到索引文件中。词库管理模块按照电网相关技术知识进行统计划分,包括电网文件类、技术论文类、电网设备类、新闻类等;对普通的助词、语气词或普通描述性的词进行过滤。
在本系统的分布式节点服务器上还安装词库管理客户端,客户端对在文件中出现频度较高的词,通过用户手动维护的关键词等添加到索引文件中更新词库。更进一步提高了查询的效率,更具有针对性。
该分布式全文检索系统的使用,大大提高了用户查找所需文件的效率。而且,针对现有的搜索引擎在搜索效率、信息维护、分布式节点管理、负载压力等方面存在的问题有了提高与优化。

Claims (2)

1.一种分布式全文检索系统,所述系统由设置在各网络节点上的全文检索服务器组成,包括分布式节点服务器及系统中心服务器;其特征在于:
所述分布式节点服务器包括文件信息检索模块及服务器间通讯模块;
所述文件信息检索模块对本节点服务器上文件定时进行全文信息的检索,按照定义好的词库进行切词,提取关键词信息并建立索引文件;所述索引文件包括文件名称、关键词条、文件分类、所在服务器信息、文件大小、文件作者相关信息,所述服务器信息包括服务器的IP地址;
所述服务器间通讯模块实现分布式节点服务器与系统中心服务器之间的信息交换,将本节点的索引文件发送到系统中心服务器;
所述系统中心服务器对各节点服务器传送的索引文件进行合并,生成新的索引文件并更新已有索引信息,增加新的文件信息;向用户提供查询接口,响应用户查询文件的请求、分析用户请求,将查询关键词在新的索引文件中进行检索比对,将符合的文件作为查询结果展示给用户;
所述分布式节点服务器还包括:词库管理模块,所述词库管理模块在遍历文件全文内容时根据已有词库进行切词划分,将文件内容切成不同的关键词,然后统计关键词出现的频度和关键词的分类,一同写入到索引文件中;所述词库管理模块按照电网相关技术知识进行统计划分,包括电网文件类、技术论文类、电网设备类、新闻类;对普通的助词、语气词或普通描述性的词进行过滤;所述分布式节点服务器上安装词库管理客户端,所述客户端对在文件中出现频度较高的词,通过用户手动维护添加到索引文件中更新词库。
2.根据权利要求1所述的一种分布式全文检索系统,其特征在于,所述系统中心服务器进一步包括:
各个分布式节点服务器状态查询模块及系统重启服务模块;并具有文件在线浏览与下载模块,即系统中心服务器接收下载文件请求,并根据该文件在索引文件中的描述,将请求转发给相应的节点服务器,将读取文件的字节流返给用户实现下载。
CN201210362934.0A 2012-09-25 2012-09-25 一种分布式全文检索系统 Expired - Fee Related CN102831253B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210362934.0A CN102831253B (zh) 2012-09-25 2012-09-25 一种分布式全文检索系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210362934.0A CN102831253B (zh) 2012-09-25 2012-09-25 一种分布式全文检索系统

Publications (2)

Publication Number Publication Date
CN102831253A CN102831253A (zh) 2012-12-19
CN102831253B true CN102831253B (zh) 2015-01-21

Family

ID=47334388

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210362934.0A Expired - Fee Related CN102831253B (zh) 2012-09-25 2012-09-25 一种分布式全文检索系统

Country Status (1)

Country Link
CN (1) CN102831253B (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103246726B (zh) * 2013-05-09 2017-04-12 北京奇付通科技有限公司 一种网络信息的搜索方法、装置和系统
CN105630966B (zh) * 2015-12-24 2019-04-16 上海爱数信息技术股份有限公司 一种基于文档分享索引的文档快速查找装置及方法
CN105740472A (zh) * 2016-03-14 2016-07-06 中国科学院计算技术研究所 一种分布式实时全文检索方法及系统
CN105787097A (zh) * 2016-03-16 2016-07-20 中山大学 一种基于文本聚类的分布式索引构建方法及系统
CN106021527B (zh) * 2016-05-24 2019-06-28 努比亚技术有限公司 一种数据处理方法及搜索服务器、同步服务器
CN107665203A (zh) * 2016-07-27 2018-02-06 北京京东尚科信息技术有限公司 用于多应用检索的方法、装置及系统
CN106547869A (zh) * 2016-10-25 2017-03-29 广东亿迅科技有限公司 多服务器索引的构建方法及装置
CN109982105A (zh) * 2017-12-27 2019-07-05 上海文广互动电视有限公司 用于广播平台的内容检索系统及方法
CN110019096A (zh) * 2017-12-29 2019-07-16 上海全土豆文化传播有限公司 索引文件的生成方法及装置
CN110287255A (zh) * 2019-05-23 2019-09-27 深圳壹账通智能科技有限公司 基于用户行为的数据共享方法、装置及计算机设备
CN112395255A (zh) * 2019-08-13 2021-02-23 神讯电脑(昆山)有限公司 一种测试文件管理系统
CN113590884A (zh) * 2020-04-30 2021-11-02 华为技术有限公司 一种分布式数据搜索方法和索引文件的共享方法
CN111899885A (zh) * 2020-06-28 2020-11-06 万达信息股份有限公司 一种分布式人员事件索引实现方法和系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007079303A3 (en) * 2005-12-29 2007-08-23 Patrick W Ransil Method and apparatus for a distributed file storage and indexing service
CN101561815A (zh) * 2009-05-19 2009-10-21 华中科技大学 分布式密文全文检索系统
CN101789006A (zh) * 2010-01-29 2010-07-28 华东电网有限公司 基于智能搜索的电网企业信息集成系统的快速检索方法
CN101853288A (zh) * 2010-05-19 2010-10-06 马晓普 基于文档实时监控可配置的全文检索服务系统
CN102054009A (zh) * 2009-11-03 2011-05-11 武汉大学 分布式异构栅格空间数据无缝集成方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007079303A3 (en) * 2005-12-29 2007-08-23 Patrick W Ransil Method and apparatus for a distributed file storage and indexing service
CN101561815A (zh) * 2009-05-19 2009-10-21 华中科技大学 分布式密文全文检索系统
CN102054009A (zh) * 2009-11-03 2011-05-11 武汉大学 分布式异构栅格空间数据无缝集成方法
CN101789006A (zh) * 2010-01-29 2010-07-28 华东电网有限公司 基于智能搜索的电网企业信息集成系统的快速检索方法
CN101853288A (zh) * 2010-05-19 2010-10-06 马晓普 基于文档实时监控可配置的全文检索服务系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于Lucene的分布式并行索引;唐华姣等;《计算机技术与发展》;20110228;第2卷(第2期);第125页左栏,图1 *
基于云计算的分布式企业搜索引擎研究;林乐然等;《电脑知识与技术》;20091130;第5卷(第33期);第9430页 *

Also Published As

Publication number Publication date
CN102831253A (zh) 2012-12-19

Similar Documents

Publication Publication Date Title
CN102831253B (zh) 一种分布式全文检索系统
CN102164186B (zh) 一种实现云搜索服务的方法及系统
CN100426300C (zh) 一种管理日志的方法及系统
Suel et al. ODISSEA: A Peer-to-Peer Architecture for Scalable Web Search and Information Retrieval.
Elgazzar et al. Clustering wsdl documents to bootstrap the discovery of web services
CN101833561B (zh) 面向自然语言处理的语义Web服务智能代理
CN105404693B (zh) 一种基于需求语义的服务聚类方法
WO2008069125A1 (ja) データ管理装置
CN102436513A (zh) 分布式检索方法和系统
CN110471995B (zh) 一种跨领域信息共享交换数据模型建模方法
CN103729463A (zh) 基于Lucene和Solr实现全文检索的方法
CN103064842B (zh) 信息订阅处理装置和信息订阅处理方法
CN102571420A (zh) 一种网元数据管理方法及系统
CN102291460B (zh) 基于Web Service的信息资源访问方法
CN103092943A (zh) 一种广告调度的方法和广告调度服务器
CN106648917B (zh) 一种差异更新缓存数据的方法及系统
CN109542930A (zh) 一种基于ElasticSearch的数据高效检索方法
CN102325143B (zh) 一种基于云平台的信息收集存储和加密检索系统
CN103034738A (zh) 用于管理异构非结构化数据的关系型数据库及其创建和查询非结构化数据描述信息的方法
CN103955461A (zh) 一种基于本体集合概念相似度的语义匹配方法
CN103942249A (zh) 一种基于本体集合语义匹配的信息服务调度系统
CN101853307A (zh) 一种笔记的创建方法及其相应的网络搜索系统及方法
CN104239346A (zh) 一种基于搜索引擎的网站优化建设系统
CN102291469B (zh) 个性化定向采集云服务系统
CN104537078A (zh) 一种基于滑块的目录索引优化方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20150121

Termination date: 20210925