CN104765800A - 一种基于大数据的高效搜索方法 - Google Patents

一种基于大数据的高效搜索方法 Download PDF

Info

Publication number
CN104765800A
CN104765800A CN201510142893.8A CN201510142893A CN104765800A CN 104765800 A CN104765800 A CN 104765800A CN 201510142893 A CN201510142893 A CN 201510142893A CN 104765800 A CN104765800 A CN 104765800A
Authority
CN
China
Prior art keywords
inquiry request
new
user
query
historical
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510142893.8A
Other languages
English (en)
Inventor
马辰
聂品
于治楼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Group Co Ltd
Original Assignee
Inspur Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Group Co Ltd filed Critical Inspur Group Co Ltd
Priority to CN201510142893.8A priority Critical patent/CN104765800A/zh
Publication of CN104765800A publication Critical patent/CN104765800A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于大数据的高效搜索方法,所述方法根据来自用户的新的查询请求,首先判断历史记录上是否有针对该查询或者部分查询的先例,若有,则共享历史查询的结果集合。本发明方法针对大数据搜索效率低下的问题,减少了大量的对历史查询的重复计算,节省了搜索时间,提高了查询效率。

Description

一种基于大数据的高效搜索方法
技术领域
本发明涉及计算机大数据领域,具体涉及一种基于大数据的高效搜索方法。
背景技术
随着云计算技术的飞速发展,尤其是物联网技术和移动技术的发展,越来越多的数据被人、各种传感设备或者机器所产生。越来越多的应用每个月都会产生TB级别甚至PB级别的数据,与此同时,越来越多的需求也需要每天处理几十PB、几百PB甚至EB级的数据。
虽然针对大数据的处理已经有许多新的技术或者方法,但是如何从PB级这样的大数据中取出满足用户查询需求的一条记录或者合适的网页,仍然需要花费很长的时间,这对于交互式的查询,尤其是即时查询来说,仍然是一个巨大的挑战。
虽然现在已经有各种各样的搜索方法出现,但是仍然很难满足这种针对大数据搜索的需求。针对这种情况,本发明提出了一种新的基于大数据的高效搜索方法。这种新的搜索方法将为大数据的查询,尤其是针对大数据的即时查询提供一种新的思路和方法,对实现交互式的查询具有重要的意义。
发明内容
本发明要解决的技术问题是:针对大数据搜索效率低下的问题,本发明提出了一种高效的搜索方法。将共享的历史查询结果作为中间结果集,在新的查询请求到达时,首先与历史查询进行匹配,若能实现匹配,则直接将匹配部分的历史查询结果直接作为新查询请求结果的一部分。这减少了大量的对历史查询的重复计算,节省了搜索时间,提高了查询效率。
本发明所采用的技术方案为:
一种基于大数据的高效搜索方法,所述方法根据来自用户的新的查询请求,首先判断历史记录上是否有针对该查询或者部分查询的先例,若有,则共享历史查询的结果集合,以减少重新针对大数据的集合进行全部查询带来的时间消耗。
所述方法实现步骤如下:
步骤一:用户首先提出新的查询请求;
步骤二:对来自用户新的查询请求和历史查询网进行匹配,
步骤三:将用户查询所需的结果反馈给用户;
步骤四:实现对历史查询网的更新。
所述匹配有如下3种情况:
1)完全共享:若为完全共享,则表明用户新来的查询请求以前同样出现过,这样以前同样的查询所得到的查询结果可以直接为本次查询所利用;
2)部分共享:若为部分共享,则表明用户新来的查询请求以前部分出现过,这样以前同样的查询部分所得到的查询结果可以直接为本次查询所利用;
3)不共享:若为完全不共享,则表明用户新来的查询请求没有任何历史查询记录可供共享,需要重新执行查询。
所述新的查询请求与历史查询网匹配的算法,实现步骤如下:
步骤一:找到与新的查询请求的数据源相同的云数据库;
步骤二:查找云数据库下的S1节点,找到后做一标记,并跳到步骤三;若没有找到,则退出程序;
步骤三:继续在步骤二的基础上往下找节点S7,找到后做一标记,并跳到步骤三,若没有找到,则退出程序;
步骤四:重复步骤三,直到退出程序。
所述历史查询网的更新算法,实现步骤如下:
步骤一:找到与新的查询请求的数据源相同的云数据库;
步骤二:查找云数据库下的S1节点,找到后做一标记,并跳到步骤三,若没有找到,则将新的查询节点连接到该云数据库;
步骤三:重复步骤二,直到所有的新节点均已经更新。
本发明的有益效果为:本发明方法针对大数据搜索效率低下的问题,将共享的历史查询结果作为中间结果集,在新的查询请求到达时,首先与历史查询进行匹配,若能实现匹配,则直接将匹配部分的历史查询结果直接作为新查询请求结果的一部分,减少了大量的对历史查询的重复计算,节省了搜索时间,提高了查询效率。
附图说明
图1 为本发明方法大数据的搜索框架图;
图2为新的查询请求与历史查询网匹配示意图;
图3为更新后的历史查询网示意图。
具体实施方式
下面通过具体实施方式对本发明进一步说明:
实施例1:
一种基于大数据的高效搜索方法,所述方法根据来自用户的新的查询请求,首先判断历史记录上是否有针对该查询或者部分查询的先例,若有,则共享历史查询的结果集合,以减少重新针对大数据的集合进行全部查询带来的时间消耗。
实施例2:
在实施例1的基础上,本实施例所述方法实现步骤如下:
步骤一:用户首先提出新的查询请求;
步骤二:对来自用户新的查询请求和历史查询网进行匹配,
步骤三:将用户查询所需的结果反馈给用户;
步骤四:实现对历史查询网的更新。
实施例3:
如图1所示,在实施例2的基础上,本实施例所述匹配有如下3种情况:
1)完全共享:若为完全共享,则表明用户新来的查询请求以前同样出现过,这样以前同样的查询所得到的查询结果可以直接为本次查询所利用;
其需要执行如下处理即可:
a. 共享历史同样查询的查询结果;
b. 由于历史查询只是对某段时间以前的数据进行的查询,有可能在该历史查询后又有新的数据记录产生,因此对新增的数据仍然需要执行查询,并得出相关结果;
c. 将a和b的结果进行合并,得到用户所需的最终结果;
2)部分共享:若为部分共享,则表明用户新来的查询请求以前部分出现过,这样以前同样的查询部分所得到的查询结果可以直接为本次查询所利用;
其需要执行如下处理即可:
a. 共享历史同样的部分查询的查询结果;
b.由于历史查询只是对某段时间以前的数据进行的查询,有可能在该历史查询后又有新的数据记录产生,因此对新增的数据仍然需要执行查询,并得出相关结果;
c. 其中a和b只是得到了查询相同部分的共享结果,对于查询不相同部分仍然需要执行查询,并得到相应的结果;
d. 将a、b和c的结果进行合并,得到用户所需的最终结果;
3)不共享:若为完全不共享,则表明用户新来的查询请求没有任何历史查询记录可供共享,需要重新执行查询;
其需要执行如下处理即可:
a.执行全部的查询,并得到相应结果;
b.其中a所得到的结果即为用户所需的最终结果。
实施例4:
在实施例2的基础上,本实施例所述新的查询请求与历史查询网匹配的算法,如附图2所示,输入:新的查询请求,历史查询网;输出:新的查询请求和历史查询网的匹配情况,即哪些节点匹配成功,匹配不成功的节点为新的查询请求节点,实现步骤如下:
步骤一:找到与新的查询请求的数据源相同的云数据库;
步骤二:查找云数据库下的S1节点,找到后做一标记,并跳到步骤三;若没有找到,则退出程序;
步骤三:继续在步骤二的基础上往下找节点S7,找到后做一标记,并跳到步骤三,若没有找到,则退出程序;
步骤四:重复步骤三,直到退出程序。
实施例5:
在实施例2的基础上,本实施例所述历史查询网的更新算法,如附图3所示,输入:查询请求、历史查询网;输出:更新后的查询网,实现步骤如下:
步骤一:找到与新的查询请求的数据源相同的云数据库;
步骤二:查找云数据库下的S1节点,找到后做一标记,并跳到步骤三,若没有找到,则将新的查询节点连接到该云数据库;
步骤三:重复步骤二,直到所有的新节点均已经更新。
以上实施方式仅用于说明本发明,而并非对本发明的限制,有关技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变型,因此所有等同的技术方案也属于本发明的范畴,本发明的专利保护范围应由权利要求限定。

Claims (5)

1.一种基于大数据的高效搜索方法,其特征在于:所述方法根据来自用户的新的查询请求,首先判断历史记录上是否有针对该查询或者部分查询的先例,若有,则共享历史查询的结果集合。
2.根据权利要求1所述的一种基于大数据的高效搜索方法,其特征在于,所述方法实现步骤如下:
步骤一:用户首先提出新的查询请求;
步骤二:对来自用户新的查询请求和历史查询网进行匹配,
步骤三:将用户查询所需的结果反馈给用户;
步骤四:实现对历史查询网的更新。
3.根据权利要求2所述的一种基于大数据的高效搜索方法,其特征在于,所述匹配有如下3种情况:
1)完全共享:若为完全共享,则表明用户新来的查询请求以前同样出现过,这样以前同样的查询所得到的查询结果可以直接为本次查询所利用;
2)部分共享:若为部分共享,则表明用户新来的查询请求以前部分出现过,这样以前同样的查询部分所得到的查询结果可以直接为本次查询所利用;
3)不共享:若为完全不共享,则表明用户新来的查询请求没有任何历史查询记录可供共享,需要重新执行查询。
4.根据权利要求2所述的一种基于大数据的高效搜索方法,其特征在于:所述新的查询请求与历史查询网匹配的算法,实现步骤如下: 
步骤一:找到与新的查询请求的数据源相同的云数据库;
步骤二:查找云数据库下的S1节点,找到后做一标记,并跳到步骤三;若没有找到,则退出程序;
步骤三:继续在步骤二的基础上往下找节点S7,找到后做一标记,并跳到步骤三,若没有找到,则退出程序;
步骤四:重复步骤三,直到退出程序。
5.根据权利要求2所述的一种基于大数据的高效搜索方法,其特征在于:所述历史查询网的更新算法,实现步骤如下:
步骤一:找到与新的查询请求的数据源相同的云数据库;
步骤二:查找云数据库下的S1节点,找到后做一标记,并跳到步骤三,若没有找到,则将新的查询节点连接到该云数据库;
步骤三:重复步骤二,直到所有的新节点均已经更新。
CN201510142893.8A 2015-03-30 2015-03-30 一种基于大数据的高效搜索方法 Pending CN104765800A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510142893.8A CN104765800A (zh) 2015-03-30 2015-03-30 一种基于大数据的高效搜索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510142893.8A CN104765800A (zh) 2015-03-30 2015-03-30 一种基于大数据的高效搜索方法

Publications (1)

Publication Number Publication Date
CN104765800A true CN104765800A (zh) 2015-07-08

Family

ID=53647631

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510142893.8A Pending CN104765800A (zh) 2015-03-30 2015-03-30 一种基于大数据的高效搜索方法

Country Status (1)

Country Link
CN (1) CN104765800A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106649770A (zh) * 2016-12-27 2017-05-10 北京启明星辰信息安全技术有限公司 一种大数据查询方法及系统
CN109542930A (zh) * 2018-11-16 2019-03-29 重庆邮电大学 一种基于ElasticSearch的数据高效检索方法
CN112100138A (zh) * 2020-09-16 2020-12-18 北京天融信网络安全技术有限公司 一种日志查询方法、装置、存储介质和电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130060751A1 (en) * 2008-09-23 2013-03-07 Sage Inventions, Llc System and method for managing web search information in navigational hierarchy
WO2013136442A1 (ja) * 2012-03-13 2013-09-19 株式会社野村総合研究所 データ利用システム、時限データの履歴管理システム及びデータ処理システム
CN104281698A (zh) * 2014-10-15 2015-01-14 国云科技股份有限公司 一种高效的大数据查询方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130060751A1 (en) * 2008-09-23 2013-03-07 Sage Inventions, Llc System and method for managing web search information in navigational hierarchy
WO2013136442A1 (ja) * 2012-03-13 2013-09-19 株式会社野村総合研究所 データ利用システム、時限データの履歴管理システム及びデータ処理システム
CN104281698A (zh) * 2014-10-15 2015-01-14 国云科技股份有限公司 一种高效的大数据查询方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106649770A (zh) * 2016-12-27 2017-05-10 北京启明星辰信息安全技术有限公司 一种大数据查询方法及系统
CN106649770B (zh) * 2016-12-27 2020-05-05 北京启明星辰信息安全技术有限公司 一种大数据查询方法及系统
CN109542930A (zh) * 2018-11-16 2019-03-29 重庆邮电大学 一种基于ElasticSearch的数据高效检索方法
CN112100138A (zh) * 2020-09-16 2020-12-18 北京天融信网络安全技术有限公司 一种日志查询方法、装置、存储介质和电子设备

Similar Documents

Publication Publication Date Title
CN103577474B (zh) 一种数据库的更新方法及系统
CN103761236B (zh) 一种增量式频繁模式增长数据挖掘方法
CN110750650A (zh) 企业知识图谱的构建方法及装置
WO2012151149A4 (en) Managing data queries
CN107239468B (zh) 任务节点管理方法及装置
CN103514201A (zh) 一种非关系型数据库的数据查询方法和装置
CN103605662A (zh) 一种分布式计算框架参数优化方法、装置及系统
CN104268216A (zh) 一种基于互联网信息的数据清洗系统
CN105302803A (zh) 一种产品bom差异分析与同步更新方法
CN105159783A (zh) 一种系统任务分配方法
CN104765800A (zh) 一种基于大数据的高效搜索方法
CN105975489A (zh) 一种基于元数据的在线sql代码补全方法
CN104778236A (zh) 一种基于元数据的etl实现方法及系统
CN104408192B (zh) 字符串类型列的压缩处理方法及装置
CN102306177B (zh) 一种多策略组合的本体或实例匹配方法
CN104834754A (zh) 一种基于连接代价的sparql语义数据查询优化方法
CN103699696A (zh) 一种云计算环境下的数据在线聚集方法
CN103309801A (zh) 一种确定回归测试范围的方法和装置
JP2018521391A (ja) ビッグデータの計算方法及びシステム、プログラムならびに記録媒体
CN103473364A (zh) 一种服务推荐方法及装置
CN104794244B (zh) 一种基于MongoDB实现图转换的方法和装置
CN103336765B (zh) 一种文本关键词的马尔可夫矩阵离线修正方法
CN104794130A (zh) 一种表间关联查询方法和装置
CN106648839A (zh) 数据处理的方法和装置
CN105447105A (zh) 基于NoSQL的分布式物联网数据的单字段区间索引查询方式

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
EXSB Decision made by sipo to initiate substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20150708

RJ01 Rejection of invention patent application after publication