CN107679091A - 一种基于大数据的搜索系统及方法 - Google Patents

一种基于大数据的搜索系统及方法 Download PDF

Info

Publication number
CN107679091A
CN107679091A CN201710799147.5A CN201710799147A CN107679091A CN 107679091 A CN107679091 A CN 107679091A CN 201710799147 A CN201710799147 A CN 201710799147A CN 107679091 A CN107679091 A CN 107679091A
Authority
CN
China
Prior art keywords
data
module
search
big
big data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710799147.5A
Other languages
English (en)
Inventor
白云飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Rong Tong Xing Tong Information Safe Technology Ltd
Original Assignee
Beijing Rong Tong Xing Tong Information Safe Technology Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Rong Tong Xing Tong Information Safe Technology Ltd filed Critical Beijing Rong Tong Xing Tong Information Safe Technology Ltd
Priority to CN201710799147.5A priority Critical patent/CN107679091A/zh
Publication of CN107679091A publication Critical patent/CN107679091A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2453Query optimisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于大数据的搜索系统及方法,包括:系统管理模块、大数据服务器、安全认证模块、搜索模块、数据索引存储模块、数据采集模块、数据索引模块和数据存储模块;本发明所述的基于大数据的搜索系统,建立了专门的索引存储,并将历史搜索结果进行缓存利用,避免了重复搜索的工作量,提高了搜索的精准度和速度,可以从大量的数据中搜索到有价值的信息,很容易地解决了大数据时代对数据搜索的问题。

Description

一种基于大数据的搜索系统及方法
技术领域
本发明涉及数据搜索技术领域,具体而言,涉及一种基于大数据的搜索系统及方法。
背景技术
随着计算机和网络的发展,搜索功能已经成为最常用的功能,用户通过搜索操作方便快捷地获取目的信息。但是,随着业务的发展,可搜索的数据量也越来越大,目前将不断增大的数据量称之为大数据,对其的搜索操作称之为对大数据的搜索。
大数据的影响渗透到了各个行业,对未来的科技和经济发展带来了深远影响,然而,大数据带来便利的同时,越来越多的人类活动每个月都会产生PB级的数据,同时越来越多的需求也需要每天处理几十PB、几百PB甚至EB级的数据,由于其数据量极其巨大,通过搜索系统,需要要处理的信息量越来越大,导致出现搜索效率变低,极大地影响了搜索效率,增加了大数据中心的工作负荷、时间消耗和设备损耗。
虽然现有已经有各种各样的数据搜索系统,但是面对如此庞大的数据,如何从海量数据中快速获取需要的数据,并挖掘需要的知识,是当今面临的一个挑战。
发明内容
针对现有技术中存在的缺陷,本发明的目的在于提供一种基于大数据的搜索系统,有助于提升搜索速度,可以从大量的数据中搜索到有价值的信息。
为达到以上目的,本发明采取的技术方案是:
一种基于大数据的搜索系统,包括:系统管理模块、大数据服务器、安全认证模块、搜索模块、数据索引存储模块、数据采集模块、数据索引模块和数据存储模块;
所述系统管理模块用于为其他模块提供接口服务;
所述搜索模块用于将用户的搜索请求提交给大数据服务器,并将搜索结果反馈给用户;
所述大数据服务器用于接收搜索模块的搜索请求,并从数据索引存储模块中进行搜索,然后将搜索结果与数据存储模块中的数据进行匹配,最后将匹配好的结果返回给搜索模块;
所述安全认证模块用于对大数据服务器接收的搜索请求进行安全认证;若通过认证,则将继续处理该搜索请求,若未通过认证,则向用户发送包含拒绝信息的搜索响应;
所述数据索引模块用于将数据采集模块采集到的数据信息按照数据属性对数据建立索引,并将建立的索引发送到数据索引存储模块进行存储;
所述数据索引存储模块用于存储数据索引模块建立的数据索引信息;
所述数据采集模块用于采集所需的数据,并对采集到的数据进行处理,处理成便于建立索引并搜索的数据格式;
所述数据存储模块用于存储数据采集模块采集到的各类数据。
在上述方案的基础上,所述搜索模块包括搜索优化模块,所述搜索优化模块用于获取用户的历史搜索结果,如搜索请求已有搜索结果,则不再响应用户提出的相同搜索请求,并将已有的搜索结果反馈给用户。
在上述方案的基础上,所述数据采集模块包括数据分解单元,用于将采集到的数据分解成至少一个关键数据。
在上述方案的基础上,所述数据采集模块采集的数据包括结构化数据和非结构化数据。
在上述方案的基础上,所述非结构化数据包括Word文档、Excel表格、PDF文件、图片、网页和视频。
在上述方案的基础上,所述数据属性包括类型、标题和日期。
一种基于大数据的搜索方法,应用上述基于大数据的搜索系统,包括如下步骤:
(1)利用数据采集模块采集数据;
(2)将采集的数据存储至数据存储模块;
(3)同时数据索引模块对采集的数据建立索引;
(4)将建立的索引数据存储至数据索引存储模块;
(5)用户通过搜索模块向大数据服务器提出搜索请求;
(6)安全认证模块对搜索请求进行安全认证,如认证通过,则执行搜索过程,否则拒绝搜索,并反馈给用户;
(7)通过安全认证后的搜索请求,如与搜索优化模块获取的历史搜索请求相同,则将相应的历史搜索结果返回给搜索模块,执行第(10)步,否则执行第(8)步;
(8)大数据服务器接收搜索请求,从数据索引存储模块中进行搜索;
(9)大数据服务器将数据索引搜索结果与数据存储模块中的数据进行匹配,将匹配好的数据搜索结果返回给搜索模块;
(10)搜索模块将搜索结果反馈给用户。
本发明所述的基于大数据的搜索系统及方法,建立了专门的索引存储,并将历史搜索结果进行缓存利用,避免了重复搜索的工作量,提高了搜索的精准度和速度,可以从大量的数据中搜索到有价值的信息,很容易地解决了大数据时代对数据搜索的问题。
附图说明
本发明有如下附图:
图1本发明所述的基于大数据的搜索系统结构示意图。
图2本发明所述的基于大数据的搜索方法流程示意图。
具体实施方式
以下结合附图对本发明作进一步详细说明。
如图1所示,本发明所述的基于大数据的搜索系统,包括:系统管理模块、大数据服务器、安全认证模块、搜索模块、数据索引存储模块、数据采集模块、数据索引模块和数据存储模块;
所述系统管理模块用于为其他模块提供接口服务;
所述搜索模块用于将用户的搜索请求提交给大数据服务器,并将搜索结果反馈给用户;
所述大数据服务器用于接收搜索模块的搜索请求,并从数据索引存储模块中进行搜索,然后将搜索结果与数据存储模块中的数据进行匹配,最后将匹配好的结果返回给搜索模块;
所述安全认证模块用于对大数据服务器接收的搜索请求进行安全认证;若通过认证,则将继续处理该搜索请求,若未通过认证,则向用户发送包含拒绝信息的搜索响应;
所述数据索引模块用于将数据采集模块采集到的数据信息按照数据属性对数据建立索引,并将建立的索引发送到数据索引存储模块进行存储;
所述数据索引存储模块用于存储数据索引模块建立的数据索引信息;
所述数据采集模块用于采集所需的数据,并对采集到的数据进行处理,处理成便于建立索引并搜索的数据格式;
所述数据存储模块用于存储数据采集模块采集到的各类数据。
在上述方案的基础上,所述搜索模块包括搜索优化模块,所述搜索优化模块用于获取用户的历史搜索结果,如搜索请求已有搜索结果,则不再响应用户提出的相同搜索请求,并将已有的搜索结果反馈给用户。
在上述方案的基础上,所述数据采集模块包括数据分解单元,用于将采集到的数据分解成至少一个关键数据。
在上述方案的基础上,所述数据采集模块采集的数据包括结构化数据和非结构化数据。
在上述方案的基础上,所述非结构化数据包括Word文档、Excel表格、PDF文件、图片、网页和视频。
在上述方案的基础上,所述数据属性包括类型、标题和日期。
如图2所示,一种基于大数据的搜索方法,应用上述基于大数据的搜索系统,包括如下步骤:
(1)利用数据采集模块采集数据;
(2)将采集的数据存储至数据存储模块;
(3)同时数据索引模块对采集的数据建立索引;
(4)将建立的索引数据存储至数据索引存储模块;
(5)用户通过搜索模块向大数据服务器提出搜索请求;
(6)安全认证模块对搜索请求进行安全认证,如认证通过,则执行搜索过程,否则拒绝搜索,并反馈给用户;
(7)通过安全认证后的搜索请求,如与搜索优化模块获取的历史搜索请求相同,则将相应的历史搜索结果返回给搜索模块,执行第(10)步,否则执行第(8)步;
(8)大数据服务器接收搜索请求,从数据索引存储模块中进行搜索;
(9)大数据服务器将数据索引搜索结果与数据存储模块中的数据进行匹配,将匹配好的数据搜索结果返回给搜索模块;
(10)搜索模块将搜索结果反馈给用户。
本发明所述的基于大数据的搜索系统及方法,提高了搜索的精准度和速度,可以从大量的数据中搜索到有价值的信息,解决了大数据时代对数据搜索的问题。
本说明书中未做详细描述的内容属于本领域专业技术人员公知的现有技术。

Claims (7)

1.一种基于大数据的搜索系统,其特征在于,包括:系统管理模块、大数据服务器、安全认证模块、搜索模块、数据索引存储模块、数据采集模块、数据索引模块和数据存储模块;
所述系统管理模块用于为其他模块提供接口服务;
所述搜索模块用于将用户的搜索请求提交给大数据服务器,并将搜索结果反馈给用户;
所述大数据服务器用于接收搜索模块的搜索请求,并从数据索引存储模块中进行搜索,然后将搜索结果与数据存储模块中的数据进行匹配,最后将匹配好的结果返回给搜索模块;
所述安全认证模块用于对大数据服务器接收的搜索请求进行安全认证;若通过认证,则将继续处理该搜索请求,若未通过认证,则向用户发送包含拒绝信息的搜索响应;
所述数据索引模块用于将数据采集模块采集到的数据信息按照数据属性对数据建立索引,并将建立的索引发送到数据索引存储模块进行存储;
所述数据索引存储模块用于存储数据索引模块建立的数据索引信息;
所述数据采集模块用于采集所需的数据,并对采集到的数据进行处理,处理成便于建立索引并搜索的数据格式;
所述数据存储模块用于存储数据采集模块采集到的各类数据。
2.如权利要求1所述的基于大数据的搜索系统,其特征在于,所述搜索模块包括搜索优化模块,所述搜索优化模块用于获取用户的历史搜索结果,如搜索请求已有搜索结果,则不再响应用户提出的相同搜索请求,并将已有的搜索结果反馈给用户。
3.如权利要求1所述的基于大数据的搜索系统,其特征在于,所述数据采集模块包括数据分解单元,用于将采集到的数据分解成至少一个关键数据。
4.如权利要求1所述的基于大数据的搜索系统,其特征在于,所述数据采集模块采集的数据包括结构化数据和非结构化数据。
5.如权利要求4所述的基于大数据的搜索系统,其特征在于,所述非结构化数据包括Word文档、Excel表格、PDF文件、图片、网页和视频。
6.如权利要求1所述的基于大数据的搜索系统,其特征在于,所述数据属性包括类型、标题和日期。
7.一种基于大数据的搜索方法,应用上述权利要求1-6任一权利要求所述的基于大数据的搜索系统,其特征在于,包括如下步骤:
(1)利用数据采集模块采集数据;
(2)将采集的数据存储至数据存储模块;
(3)同时数据索引模块对采集的数据建立索引;
(4)将建立的索引数据存储至数据索引存储模块;
(5)用户通过搜索模块向大数据服务器提出搜索请求;
(6)安全认证模块对搜索请求进行安全认证,如认证通过,则执行搜索过程,否则拒绝搜索,并反馈给用户;
(7)通过安全认证后的搜索请求,如与搜索优化模块获取的历史搜索请求相同,则将相应的历史搜索结果返回给搜索模块,执行第(10)步,否则执行第(8)步;
(8)大数据服务器接收搜索请求,从数据索引存储模块中进行搜索;
(9)大数据服务器将数据索引搜索结果与数据存储模块中的数据进行匹配,将匹配好的数据搜索结果返回给搜索模块;
(10)搜索模块将搜索结果反馈给用户。
CN201710799147.5A 2017-09-07 2017-09-07 一种基于大数据的搜索系统及方法 Pending CN107679091A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710799147.5A CN107679091A (zh) 2017-09-07 2017-09-07 一种基于大数据的搜索系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710799147.5A CN107679091A (zh) 2017-09-07 2017-09-07 一种基于大数据的搜索系统及方法

Publications (1)

Publication Number Publication Date
CN107679091A true CN107679091A (zh) 2018-02-09

Family

ID=61135134

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710799147.5A Pending CN107679091A (zh) 2017-09-07 2017-09-07 一种基于大数据的搜索系统及方法

Country Status (1)

Country Link
CN (1) CN107679091A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110795626A (zh) * 2019-10-28 2020-02-14 南京弹跳力信息技术有限公司 大数据处理方法及系统
CN111026951A (zh) * 2019-12-05 2020-04-17 武汉国贸通大数据有限公司 一种国际贸易智能商务信息搜索系统
CN111161706A (zh) * 2018-10-22 2020-05-15 阿里巴巴集团控股有限公司 交互方法、装置、设备和系统
CN111667347A (zh) * 2020-06-12 2020-09-15 吉林吉大通信设计院股份有限公司 一种基于5g通信技术的大数据式搜索系统及其搜索方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102790789A (zh) * 2011-05-18 2012-11-21 北京千橡网景科技发展有限公司 搜索联系信息的方法和装置
CN104462557A (zh) * 2014-12-25 2015-03-25 北京奇虎科技有限公司 基于搜索历史记录的即时搜索方法及装置
CN104881431A (zh) * 2015-04-23 2015-09-02 百度在线网络技术(北京)有限公司 一种用于在计算机设备中获得搜索结果页的方法和装置
CN105117383A (zh) * 2015-08-14 2015-12-02 百度在线网络技术(北京)有限公司 一种提供搜索结果的方法与装置
CN105183884A (zh) * 2015-09-24 2015-12-23 西安未来国际信息股份有限公司 一种基于大数据技术的搜索引擎系统及搜索引擎方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102790789A (zh) * 2011-05-18 2012-11-21 北京千橡网景科技发展有限公司 搜索联系信息的方法和装置
CN104462557A (zh) * 2014-12-25 2015-03-25 北京奇虎科技有限公司 基于搜索历史记录的即时搜索方法及装置
CN104881431A (zh) * 2015-04-23 2015-09-02 百度在线网络技术(北京)有限公司 一种用于在计算机设备中获得搜索结果页的方法和装置
CN105117383A (zh) * 2015-08-14 2015-12-02 百度在线网络技术(北京)有限公司 一种提供搜索结果的方法与装置
CN105183884A (zh) * 2015-09-24 2015-12-23 西安未来国际信息股份有限公司 一种基于大数据技术的搜索引擎系统及搜索引擎方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111161706A (zh) * 2018-10-22 2020-05-15 阿里巴巴集团控股有限公司 交互方法、装置、设备和系统
CN110795626A (zh) * 2019-10-28 2020-02-14 南京弹跳力信息技术有限公司 大数据处理方法及系统
CN111026951A (zh) * 2019-12-05 2020-04-17 武汉国贸通大数据有限公司 一种国际贸易智能商务信息搜索系统
CN111667347A (zh) * 2020-06-12 2020-09-15 吉林吉大通信设计院股份有限公司 一种基于5g通信技术的大数据式搜索系统及其搜索方法
CN111667347B (zh) * 2020-06-12 2023-11-07 吉林吉大通信设计院股份有限公司 一种基于5g通信技术的大数据式搜索系统及其搜索方法

Similar Documents

Publication Publication Date Title
CN107679091A (zh) 一种基于大数据的搜索系统及方法
CN103020281B (zh) 一种基于空间数据数值索引的数据存储与检索方法
CN105787089A (zh) 一种配电网规划基础数据集成方法
CN105868075A (zh) 一种实时监控分析大量日志的系统及方法
CN105045905B (zh) 一种基于全文检索的日志维护方法及系统
CN107679146A (zh) 电网数据质量的校验方法和系统
CN106202232A (zh) 一种停电事件的分析方法及装置
CN102253939A (zh) 一种基于云计算技术的搜索方法及系统
CN102375813A (zh) 搜索引擎排重系统及方法
CN102279891A (zh) 一种并行搜索it日志的检索方法、装置及系统
CN111159152B (zh) 基于大数据处理技术的二次运维数据融合方法
CN103679557B (zh) 基于c/s架构的电网运行方式数据管理系统及其实现方法
CN103235976A (zh) 一种用于10kV用户巡视的巡视优化管理平台
CN104615734A (zh) 一种社区管理服务大数据处理系统及其处理方法
CN108153741A (zh) 基于多语言高效数据采集方法、计算机程序
CN114756567A (zh) 基于大数据技术的智慧政务服务分析平台
CN103186772A (zh) 集群构架下的人脸识别系统及方法
CN103455662A (zh) 电网污区图分布式绘制系统及方法
CN109585013A (zh) 一种分布式医学诊断分析方法及系统
CN104239346A (zh) 一种基于搜索引擎的网站优化建设系统
CN114356051A (zh) 一种基于云计算及云服务器的电子信息储存技术方法研究
CN114818635A (zh) 数据报表生成方法、装置、电子设备及存储介质
CN110278281A (zh) 一种电子信息的发布方法以及装置
CN102291469B (zh) 个性化定向采集云服务系统
CN110738586A (zh) 一种基于cimiss和综合库数据的气象综合业务系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20180209

RJ01 Rejection of invention patent application after publication