CN110109870A - 一种基于Solr的海量数据快速检索系统 - Google Patents
一种基于Solr的海量数据快速检索系统 Download PDFInfo
- Publication number
- CN110109870A CN110109870A CN201810086508.6A CN201810086508A CN110109870A CN 110109870 A CN110109870 A CN 110109870A CN 201810086508 A CN201810086508 A CN 201810086508A CN 110109870 A CN110109870 A CN 110109870A
- Authority
- CN
- China
- Prior art keywords
- solr
- mass data
- search
- web
- server
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000011218 segmentation Effects 0.000 claims description 5
- 238000013507 mapping Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 abstract description 13
- 238000013500 data storage Methods 0.000 abstract description 3
- 238000000034 method Methods 0.000 description 4
- 239000003086 colorant Substances 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 239000012634 fragment Substances 0.000 description 2
- 238000013461 design Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/13—File access structures, e.g. distributed indices
- G06F16/134—Distributed indices
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/18—File system types
- G06F16/182—Distributed file systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种基于Solr的海量数据快速检索系统,包括:Web客户端,其用于提供Web网页供用户输入关键词进行检索;搜索条件过滤器,其用于将从关键词形成搜索条件;Web搜索服务器,其用于将搜索条件发送到Solr核心服务器请求检索;多个Solr核心服务器,其用于接收搜索条件,对其进行分析,搜索到符合条件的数据,并将结果返回给Web搜索服务器;Zookeeper资源协调管理器,其用于将多个Solr核心服务器协同起来,进行海量数据的存储与检索、备份与容错;多个Solr核心服务器中还包括Hadoop分布式文件系统(HDFS),其用于将海量数据分割为块,存储于多个Solr核心服务器中,并将块的健值对映射到内存中。本发明实现了海量数据的快速索引功能。
Description
技术领域
本发明涉及海量数据检索领域,尤其是一种基于Solr的海量数据快速检索系统。
背景技术
随着互联网、物联网以及各种移动终端设备的快速发展,数据正以前所未有的速度迅猛的增长,如何存储并快速检索这庞大的数据是每个行业正面临的问题。目前的技术还是采用传统的关系型数据库,利用分布式关系型数据库的方式可以提升查询速度,但是这种方式的核心技术并没有改变,依然不能满足庞大数据的快速检索需要。
Solr作为高性能的搜索服务器,能够提供快速、强大的全文检索功能。Solr提供了针对大规模文档数据进行检索的查询语言,查询功能丰富,包括匹配单一字符、匹配0或多个字符、基于编辑距离的模糊查询、邻近查询(查找相隔一定距离的单词)、范围查询等等。Solr查询语法还支持多个查询条件的组合,以及查询的字段筛选、分页等特征。
针对现有技术无法实现的海量数据实时快速检索问题,本发明提出一种基于Solr的海量数据快速检索系统。
发明内容
本发明的目的在于提供一种基于Solr的海量数据快速检索系统。
本发明的技术方案如下:
一种基于Solr的海量数据快速检索系统,其特征在于,包括Web客户端、搜索条件过滤器、Web搜索服务器、多个Solr核心服务器和Zookeeper资源协调管理器,其中:
所述Web客户端,其用于提供Web网页供用户输入关键词进行检索;
所述搜索条件过滤器,其用于将从所述关键词形成搜索条件;
所述Web搜索服务器,其用于将所述搜索条件发送到所述Solr核心服务器请求检索;
所述多个Solr核心服务器,其用于接收所述搜索条件,对其进行分析,搜索到符合条件的数据,并将结果返回给所述Web搜索服务器;
所述Zookeeper资源协调管理器,其用于将所述多个Solr核心服务器协同起来,进行所述海量数据的存储与检索、备份与容错;其中,
所述多个Solr核心服务器中还包括Hadoop分布式文件系统(HDFS),其用于将海量数据分割为块,存储于所述多个Solr核心服务器中,并将块的健值对映射到内存中。
Web客户端可以为多个。
海量数据可以为海量交通数据。
SOLR核心服务器用于将车辆车牌、颜色、品牌等车辆信息,以及路口名称等路口信息形成的索引文件,利用SOLR的分词组件进行解析。
SOLR核心服务器用于接收所述web客户端的查询内容,对其进行词法、语法、语言分析,然后搜索索引文件,搜索符合条件的数据,并将结果通过特定格式返回给用户。
特定格式可以为xml或json格式。
本发明的技术效果在于利用zookeeper和hdfs的分布式存储功能,利用多个Solr核心服务器实现了海量数据的存储,利用zookeeper和solr建立的全文分布式索引功能,实现了快速索引的功能。
附图说明
图1为本发明的基于Solr的海量数据快速检索系统的示意图。
具体实施方式
本发明提供了一种基于Solr的海量数据快速检索系统,如图1所示,包括Web客户端、搜索条件过滤器、Web搜索服务器、多个Solr核心服务器和Zookeeper资源协调管理器,其中:
Web客户端,其用于提供Web网页供用户输入关键词进行检索;
搜索条件过滤器,其用于将从关键词形成搜索条件;
Web搜索服务器,其用于将搜索条件发送到Solr核心服务器请求检索;
多个Solr核心服务器,其用于接收搜索条件,对其进行分析,搜索到符合条件的数据,并将结果返回给Web搜索服务器;
Zookeeper资源协调管理器,其用于将多个Solr核心服务器协同起来,进行所述海量数据的存储与检索、备份与容错;其中,
多个Solr核心服务器中还包括Hadoop分布式文件系统(HDFS),其用于将海量数据分割为块,存储于多个Solr核心服务器中,并将块的健值对映射到内存中。
通过WEB客户端,用户可以通过Web网页根据不同的条件组合进行数据的快速检索。本系统主要是提供用户所需查询数据的过滤关键字。同时将用户输入的关键字形成的搜索条件向SOLR服务请求检索,最终将solr检索出的结果直观的展示给用户。
SOLR核心服务器提供了本系统最核心的搜索功能,能够实时的进行索引、全文检索、动态聚类、分面搜索等;在本系统中主要是:(1)将车辆车牌、颜色、品牌等车辆信息以及路口名称等路口信息形成的索引文件利用SOLR的分词组件进行解析,SOLR分词组件支持对中文文本类型的分词;(2)接收web客户端的查询内容,对其进行词法、语法、语言分析,然后搜索索引文件,搜索符合条件的数据,并将结果通过特定格式(xml或json格式)返回给请求者(用户)。
通过该Zookeeper资源协调管理器,所有的SOLR服务器能够一起协同起来,实现海量数据的存储与检索、备份与容错,让所有的SOLR服务器能够实现任务的并行处理;在本系统中主要是存储索引配置文件、监控集群状态的改变。同时管理SOLR以及HDFS文件系统。
本发明是以海量的交通数据,以及solr搜索引擎为基础,需要实现存储数据、搜索的功能。存储数据主要是将交通数据根据配置好的solr索引解析为索引文档数据存储于索引库中,通常作为hdfs文件存储(hdfs由zookeeper管理,解决了海量数据存储空间的问题)。搜索功能是提供web网页供用户输入关键字的查询,并将关键字的搜索条件与solr服务器进行交互,并且能够接收solr检索出的数据。
为了实现该发明的具体功能,首先需要搭建solr服务平台,包括solr核心服务、zookeeper管理器、hdfs文件存储系统的环境搭建。其中在solr服务搭建中需要以交通数据为基础根据具体需求,确定哪些字段需要被索引,配置solr索引文件。同时需要对索引数据进行分片,每个分片由多台服务器来共同完成,solr会确立每个分片的leader,形成分布式的索引,来大大降低索引的时间。其次需要实现搜索功能,需要提供网页查询功能。网页查询功能使用springMVC的设计模式,通过tomcat来进行发布。其中需要进行html网页的开发,以及运用java接收用户填写的关键字搜索条件,将其解析为solr服务所需要的检索语言。
最后应当说明的是,以上实施例仅用以说明本发明的技术方案而非对其限制;尽管参照较佳实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解,依然可对本发明的具体实施方式进行修改或者对部分技术特征进行等同替换而不脱离本发明技术方案的精神,其均应当涵盖本发明请求保护的技术方案范围当中。
Claims (6)
1.一种基于Solr的海量数据快速检索系统,其特征在于,包括Web客户端、搜索条件过滤器、Web搜索服务器、多个Solr核心服务器和Zookeeper资源协调管理器,其中:
所述Web客户端,其用于提供Web网页供用户输入关键词进行检索;
所述搜索条件过滤器,其用于将从所述关键词形成搜索条件;
所述Web搜索服务器,其用于将所述搜索条件发送到所述Solr核心服务器请求检索;
所述多个Solr核心服务器,其用于接收所述搜索条件,对其进行分析,搜索到符合条件的数据,并将结果返回给所述Web搜索服务器;
所述Zookeeper资源协调管理器,其用于将所述多个Solr核心服务器协同起来,进行所述海量数据的存储与检索、备份与容错;其中,
所述多个Solr核心服务器中还包括Hadoop分布式文件系统(HDFS),其用于将海量数据分割为块,存储于所述多个Solr核心服务器中,并将块的健值对映射到内存中。
2.如权利要求1所述的基于Solr的海量数据快速检索系统,其中所述Web客户端为多个。
3.如权利要求1所述的基于Solr的海量数据快速检索系统,其中所述海量数据为海量交通数据。
4.如权利要求3所述的基于Solr的海量数据快速检索系统,其中所述SOLR核心服务器用于将车辆车牌、颜色、品牌等车辆信息,以及路口名称等路口信息形成的索引文件,利用SOLR的分词组件进行解析。
5.如权利要求3或4所述的基于Solr的海量数据快速检索系统,其中所述SOLR核心服务器用于接收所述web客户端的查询内容,对其进行词法、语法、语言分析,然后搜索索引文件,搜索符合条件的数据,并将结果通过特定格式返回给用户。
6.如权利要求5所述的基于Solr的海量数据快速检索系统,其中所述特定格式为xml或json格式。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810086508.6A CN110109870A (zh) | 2018-01-24 | 2018-01-24 | 一种基于Solr的海量数据快速检索系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810086508.6A CN110109870A (zh) | 2018-01-24 | 2018-01-24 | 一种基于Solr的海量数据快速检索系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110109870A true CN110109870A (zh) | 2019-08-09 |
Family
ID=67483532
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810086508.6A Pending CN110109870A (zh) | 2018-01-24 | 2018-01-24 | 一种基于Solr的海量数据快速检索系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110109870A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111223533A (zh) * | 2019-12-24 | 2020-06-02 | 深圳市联影医疗数据服务有限公司 | 一种医疗数据检索方法及系统 |
CN111813801A (zh) * | 2020-09-10 | 2020-10-23 | 天云融创数据科技(北京)有限公司 | 一种数据检索方法及装置 |
CN113656350A (zh) * | 2021-08-11 | 2021-11-16 | 杭州安恒信息技术股份有限公司 | 日志检索系统的构建方法、装置、计算机设备和介质 |
CN115295093A (zh) * | 2022-07-04 | 2022-11-04 | 广东省大湾区华南理工大学聚集诱导发光高等研究院 | 一种聚集体材料功能信息的数据交互系统和方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102436513A (zh) * | 2012-01-18 | 2012-05-02 | 中国电子科技集团公司第十五研究所 | 分布式检索方法和系统 |
CN103838824A (zh) * | 2014-01-23 | 2014-06-04 | 北京东方泰坦科技股份有限公司 | 一种用于空间信息分析的云计算中间件技术 |
CN105138592A (zh) * | 2015-07-31 | 2015-12-09 | 武汉虹信技术服务有限责任公司 | 一种基于分布式架构的日志数据存储和检索方法 |
CN106326429A (zh) * | 2016-08-25 | 2017-01-11 | 武汉光谷信息技术股份有限公司 | 一种基于solr的Hbase秒级查询方案 |
CN106528649A (zh) * | 2016-10-14 | 2017-03-22 | 宁波华太车载技术有限公司 | 一种新能源汽车的海量数据存储检索系统和方法 |
CN106682147A (zh) * | 2016-12-22 | 2017-05-17 | 北京锐安科技有限公司 | 一种基于海量数据的查询方法及装置 |
-
2018
- 2018-01-24 CN CN201810086508.6A patent/CN110109870A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102436513A (zh) * | 2012-01-18 | 2012-05-02 | 中国电子科技集团公司第十五研究所 | 分布式检索方法和系统 |
CN103838824A (zh) * | 2014-01-23 | 2014-06-04 | 北京东方泰坦科技股份有限公司 | 一种用于空间信息分析的云计算中间件技术 |
CN105138592A (zh) * | 2015-07-31 | 2015-12-09 | 武汉虹信技术服务有限责任公司 | 一种基于分布式架构的日志数据存储和检索方法 |
CN106326429A (zh) * | 2016-08-25 | 2017-01-11 | 武汉光谷信息技术股份有限公司 | 一种基于solr的Hbase秒级查询方案 |
CN106528649A (zh) * | 2016-10-14 | 2017-03-22 | 宁波华太车载技术有限公司 | 一种新能源汽车的海量数据存储检索系统和方法 |
CN106682147A (zh) * | 2016-12-22 | 2017-05-17 | 北京锐安科技有限公司 | 一种基于海量数据的查询方法及装置 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111223533A (zh) * | 2019-12-24 | 2020-06-02 | 深圳市联影医疗数据服务有限公司 | 一种医疗数据检索方法及系统 |
CN111223533B (zh) * | 2019-12-24 | 2024-02-13 | 深圳市联影医疗数据服务有限公司 | 一种医疗数据检索方法及系统 |
CN111813801A (zh) * | 2020-09-10 | 2020-10-23 | 天云融创数据科技(北京)有限公司 | 一种数据检索方法及装置 |
CN113656350A (zh) * | 2021-08-11 | 2021-11-16 | 杭州安恒信息技术股份有限公司 | 日志检索系统的构建方法、装置、计算机设备和介质 |
CN115295093A (zh) * | 2022-07-04 | 2022-11-04 | 广东省大湾区华南理工大学聚集诱导发光高等研究院 | 一种聚集体材料功能信息的数据交互系统和方法 |
CN115295093B (zh) * | 2022-07-04 | 2024-05-17 | 广东省大湾区华南理工大学聚集诱导发光高等研究院 | 一种聚集体材料功能信息的数据交互系统和方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107341215B (zh) | 一种基于分布式计算平台的多源垂直知识图谱分类集成查询系统 | |
CN1845104B (zh) | 信息智能检索加工的系统和方法 | |
US6505191B1 (en) | Distributed computer database system and method employing hypertext linkage analysis | |
CN104850601B (zh) | 基于图数据库的警务实时分析应用平台及其构建方法 | |
CN106294695A (zh) | 一种面向实时大数据搜索引擎的实现方法 | |
CN104133858B (zh) | 基于列存储的智能双引擎分析系统及方法 | |
CN110109870A (zh) | 一种基于Solr的海量数据快速检索系统 | |
CN106682147A (zh) | 一种基于海量数据的查询方法及装置 | |
Machado et al. | DIGO: An open data architecture for e-government | |
CN110941612A (zh) | 基于关联数据的自治数据湖构建系统及方法 | |
CN101916294B (zh) | 一种利用语义分析实现精确搜索的方法 | |
CN101655862A (zh) | 信息对象搜索的方法和装置 | |
CN106326429A (zh) | 一种基于solr的Hbase秒级查询方案 | |
CN114461603A (zh) | 多源异构数据融合方法及装置 | |
US10078624B2 (en) | Method of generating hierarchical data structure | |
US10810181B2 (en) | Refining structured data indexes | |
CN107025298A (zh) | 一种大数据实时计算处理系统及方法 | |
US20110022629A1 (en) | Data access | |
US20160203224A1 (en) | System for analyzing social media data and method of analyzing social media data using the same | |
US11334592B2 (en) | Self-orchestrated system for extraction, analysis, and presentation of entity data | |
Shakhovska et al. | Big Data Model" Entity and Features" | |
CN115495478A (zh) | 数据查询方法、装置、电子设备以及存储介质 | |
El-gayar et al. | Efficient proposed framework for semantic search engine using new semantic ranking algorithm | |
Knap | Towards Odalic, a Semantic Table Interpretation Tool in the ADEQUATe Project. | |
CN111611222A (zh) | 一种基于分布式存储的数据动态处理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20190809 |