CN103136286A - 一种分布式搜索的架构 - Google Patents

一种分布式搜索的架构 Download PDF

Info

Publication number
CN103136286A
CN103136286A CN2011103984244A CN201110398424A CN103136286A CN 103136286 A CN103136286 A CN 103136286A CN 2011103984244 A CN2011103984244 A CN 2011103984244A CN 201110398424 A CN201110398424 A CN 201110398424A CN 103136286 A CN103136286 A CN 103136286A
Authority
CN
China
Prior art keywords
index
katta
burst
database
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2011103984244A
Other languages
English (en)
Other versions
CN103136286B (zh
Inventor
严纬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SHANGHAI TOPEASE INFORMATION TECHNOLOGY Co Ltd
Original Assignee
SHANGHAI TOPEASE INFORMATION TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SHANGHAI TOPEASE INFORMATION TECHNOLOGY Co Ltd filed Critical SHANGHAI TOPEASE INFORMATION TECHNOLOGY Co Ltd
Priority to CN201110398424.4A priority Critical patent/CN103136286B/zh
Priority claimed from CN201110398424.4A external-priority patent/CN103136286B/zh
Publication of CN103136286A publication Critical patent/CN103136286A/zh
Application granted granted Critical
Publication of CN103136286B publication Critical patent/CN103136286B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于搜索领域,公开了一种分布式搜索的架构,一种基于文件系统的全文检索,把全文检索的功能独立出来,成为一个单独的服务,这样可以和数据库分开部署,从而减轻数据库的压力,同时增强检索服务的性能,数据库压力降低,整体性能得到提升,同时可扩展性强。

Description

一种分布式搜索的架构
技术领域
本发明涉及搜索领域, 尤其涉及一种分布式搜索的架构。
背景技术
目前,基于数据库的全文检索,是在数据库上增加了一个全文检索的模块,该模块功能和数据库集成在一起,占用数据库服务器的资源。在查询压力比较大的情形下,经常导致数据库服务器负载过高,不能向应用提供正常服务。
发明内容
为了解决上述技术问题,本发明的目的在于提供一种基于文件系统的全文检索,把全文检索的功能独立出来,成为一个单独的服务,这样可以和数据库分开部署,从而减轻数据库的压力,同时增强检索服务的性能的分布式搜索的架构。
本发明的完整技术方案是,一种分布式搜索的架构,包括一个搜索引擎集群,所述搜索引擎集群位于数据库之前、应用之后,所述搜索引擎集群采用Zookeeper、Katta、HDFS、Solr为基础架构;
Solr用于创建索引:通过连接到数据库,获取数据行,创建索引分片;
HDFS用于存储索引:通过其中的Hadoop控制台,存储分片到HDFS上;
Katta用于部署、更新以及查询索引:通过Katta控制台,发布索引分片,Katta自动部署分片到索引节点;未满的分片需要继续填充索引文档,然后更新到已发布的节点上;应用发出的查询,由Katta客户端处理:首先向索引节点发出获取索引ID的请求,进行排序等处理,然后根据ID发出获取具体的文档;
Zookeeper作为分布式协调器的一部分。
所述第个索引的大小小于等于10G或小于等于1500万行。
由上可见,本发明与现在技术相比有如下有益效果:本发明提供一种基于文件系统的全文检索,把全文检索的功能独立出来,成为一个单独的服务,这样可以和数据库分开部署,从而减轻数据库的压力,同时增强检索服务的性能,数据库压力降低,整体性能得到提升,同时可扩展性强。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,并不构成对本发明的不当限定,在附图中:
图1为本发明逻辑原理图;
图2为本发明的创建索引的示意图;
图3为本发明的查询处理的示意图;
图4为本发明的实施例1原理示意图。
具体实施方式
下面将结合附图以及具体实施例来详细说明本发明,在此本发明的示意性实施例以及说明用来解释本发明,但并不作为对本发明的限定。
实施例1:
本实施例一种分布式搜索的架构,如图所示,在数据库之前,应用之后,增加三台服务器,作为搜索引擎集群。包括一个搜索引擎集群,所述搜索引擎集群采用Zookeeper、Katta、HDFS、Solr为基础架构;
Solr用于创建索引:通过连接到数据库,获取数据行,创建索引分片;
HDFS用于存储索引:通过其中的Hadoop控制台,存储分片到HDFS上;
Katta用于部署、更新以及查询索引:通过Katta控制台,发布索引分片,Katta自动部署分片到索引节点;未满的分片需要继续填充索引文档,然后更新到已发布的节点上;应用发出的查询,由Katta客户端处理:首先向索引节点发出获取索引ID的请求,进行排序等处理,然后根据ID发出获取具体的文档;
Zookeeper作为分布式协调器的一部分。
每台服务器至少充当三种角色:
1.    HDFS服务器,作为分布式存储系统的一部分
2.    ZkServer服务器,作为分布式协调器的一部分
3.    Katta查询处理服务器,作为分布式搜索服务的一部分
其中Master Node服务器作为主控服务器,处理创建索引的工作,同时作为查询服务器,接收所有的查询请求,并且转发给后续的Slave Node服务器;
Slave Node服务器主要作为查询处理服务器,真正处理查询请求,返回查询结果。 
由上可见,本发明提供一种基于文件系统的全文检索,把全文检索的功能独立出来,成为一个单独的服务,这样可以和数据库分开部署,从而减轻数据库的压力,同时增强检索服务的性能,数据库压力降低,整体性能得到提升,同时可扩展性强。
以上对本发明实施例所提供的技术方案进行了详细介绍,本文中应用了具体个例对本发明实施例的原理以及实施方式进行了阐述,以上实施例的说明只适用于帮助理解本发明实施例的原理;同时,对于本领域的一般技术人员,依据本发明实施例,在具体实施方式以及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (2)

1.一种分布式搜索架构,其特征在于,包括一个搜索引擎集群,所述搜索引擎集群位于数据库之前、应用之后,所述搜索引擎集群采用Zookeeper、Katta、HDFS、Solr为基础架构;
Solr用于创建索引:通过连接到数据库,获取数据行,创建索引分片;
HDFS用于存储索引:通过其中的Hadoop控制台,存储分片到HDFS上;
Katta用于部署、更新以及查询索引:通过Katta控制台,发布索引分片,Katta自动部署分片到索引节点;未满的分片需要继续填充索引文档,然后更新到已发布的节点上;应用发出的查询,由Katta客户端处理:首先向索引节点发出获取索引ID的请求,进行排序等处理,然后根据ID发出获取具体的文档;
Zookeeper作为分布式协调器的一部分。
2.根据权利要求1所述的一种分布式搜索架构,其特征在于,所述第个索引的大小小于等于10G或小于等于1500万行。
CN201110398424.4A 2011-12-05 一种分布式搜索方法 Active CN103136286B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110398424.4A CN103136286B (zh) 2011-12-05 一种分布式搜索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110398424.4A CN103136286B (zh) 2011-12-05 一种分布式搜索方法

Publications (2)

Publication Number Publication Date
CN103136286A true CN103136286A (zh) 2013-06-05
CN103136286B CN103136286B (zh) 2016-12-14

Family

ID=

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103577604A (zh) * 2013-11-20 2014-02-12 电子科技大学 一种用于Hadoop分布式环境的图像索引结构
CN104298692A (zh) * 2013-07-19 2015-01-21 深圳中兴网信科技有限公司 一种分布式搜索的方法及系统
CN104503891A (zh) * 2014-12-10 2015-04-08 北京京东尚科信息技术有限公司 对jvm线程进行在线监控的方法和装置
CN105335472A (zh) * 2015-09-30 2016-02-17 北京京东尚科信息技术有限公司 一种更新数据查询引擎配置列表的方法及装置
CN105493081A (zh) * 2013-07-04 2016-04-13 瓦罗尼斯系统控股公司 企业中的分布式索引
CN106776810A (zh) * 2016-11-24 2017-05-31 广东数果科技有限公司 一种大数据的数据处理系统及方法
CN106844700A (zh) * 2017-02-03 2017-06-13 山东浪潮商用系统有限公司 一种基于Sorl的问税系统
CN106844686A (zh) * 2017-01-26 2017-06-13 武汉奇米网络科技有限公司 基于solr的智能客服问答机器人及其实现方法
CN107273515A (zh) * 2017-06-21 2017-10-20 国网内蒙古东部电力有限公司信息通信分公司 基于多形态数据索引技术的电网数据资产资源检索及展示

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
吴宝贵等: "基于Map/Reduce的分布式搜索引擎研究", 《现代图书情报技术》 *
唐华姣等: "基于Lucene的分布式并行索引", 《计算机技术与发展》 *
王俊生等: "基于Hadoop的分布式搜索引擎关键技术", 《北京信息科技大学学报》 *
陈旭春等: "分布式多搜索引擎系统的研究与实现", 《微计算机信息》 *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105493081A (zh) * 2013-07-04 2016-04-13 瓦罗尼斯系统控股公司 企业中的分布式索引
CN105493081B (zh) * 2013-07-04 2020-12-22 瓦罗尼斯系统控股公司 企业中的分布式索引
CN104298692B (zh) * 2013-07-19 2017-11-24 深圳中兴网信科技有限公司 一种分布式搜索的方法及系统
CN104298692A (zh) * 2013-07-19 2015-01-21 深圳中兴网信科技有限公司 一种分布式搜索的方法及系统
CN103577604A (zh) * 2013-11-20 2014-02-12 电子科技大学 一种用于Hadoop分布式环境的图像索引结构
CN103577604B (zh) * 2013-11-20 2018-07-06 电子科技大学 一种用于Hadoop分布式环境的图像索引结构
CN104503891A (zh) * 2014-12-10 2015-04-08 北京京东尚科信息技术有限公司 对jvm线程进行在线监控的方法和装置
CN105335472A (zh) * 2015-09-30 2016-02-17 北京京东尚科信息技术有限公司 一种更新数据查询引擎配置列表的方法及装置
CN105335472B (zh) * 2015-09-30 2019-03-26 北京京东尚科信息技术有限公司 一种更新数据查询引擎配置列表的方法及装置
CN106776810B (zh) * 2016-11-24 2020-10-16 广东数果科技有限公司 一种大数据的数据处理系统及方法
CN106776810A (zh) * 2016-11-24 2017-05-31 广东数果科技有限公司 一种大数据的数据处理系统及方法
CN106844686A (zh) * 2017-01-26 2017-06-13 武汉奇米网络科技有限公司 基于solr的智能客服问答机器人及其实现方法
CN106844700A (zh) * 2017-02-03 2017-06-13 山东浪潮商用系统有限公司 一种基于Sorl的问税系统
CN107273515A (zh) * 2017-06-21 2017-10-20 国网内蒙古东部电力有限公司信息通信分公司 基于多形态数据索引技术的电网数据资产资源检索及展示

Similar Documents

Publication Publication Date Title
CN107229639B (zh) 分布式实时数据库的存储系统
CN103106249B (zh) 一种基于Cassandra的数据并行处理系统
WO2017092384A1 (zh) 一种集群数据库分布式存储的方法和装置
CN106777311B (zh) 航班舱位状态缓存方法和系统
CN103312791A (zh) 物联网异构数据存储方法及系统
CN103399894A (zh) 一种基于共享存储池的分布式事务处理方法
CN103823846A (zh) 一种基于图论的大数据存储及查询方法
CN111597160A (zh) 分布式数据库系统、分布式数据处理方法和装置
CN106953910A (zh) 一种Hadoop计算存储分离方法
CN102567378A (zh) 基于异构数据的信息检索系统
CN103279386A (zh) 一种计算机作业调度系统高可用的方法
CN105354250A (zh) 一种面向云存储的数据存储方法及装置
CN104268298A (zh) 一种创建数据库索引及其查询的方法
CN104142968A (zh) 一种基于solr技术的分布式搜索方法及系统
CN106055678A (zh) 一种基于hadoop的全景大数据分布式存储方法
CN104008199A (zh) 一种数据查询方法
CN105740248A (zh) 一种数据同步方法、装置及系统
CN103986783A (zh) 云计算系统
CN103179009B (zh) 一种分布式管理系统的动态自适应调用方法
CN102984188B (zh) 一种cdn网络中内容副本放置方法及系统
CN117056303A (zh) 适用于军事行动大数据的数据存储方法及装置
CN103577469A (zh) 数据库连接复用方法和装置
CN113190528A (zh) 一种并行分布式大数据架构构建方法及系统
CN102760137A (zh) 分布式全文检索方法以及系统
CN105302817A (zh) 分布式文件系统管理方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant