CN105787119A - 基于混合引擎的大数据处理方法及系统 - Google Patents

基于混合引擎的大数据处理方法及系统 Download PDF

Info

Publication number
CN105787119A
CN105787119A CN201610178716.XA CN201610178716A CN105787119A CN 105787119 A CN105787119 A CN 105787119A CN 201610178716 A CN201610178716 A CN 201610178716A CN 105787119 A CN105787119 A CN 105787119A
Authority
CN
China
Prior art keywords
engine
task
data
user
query
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610178716.XA
Other languages
English (en)
Other versions
CN105787119B (zh
Inventor
周晟
张龙
魏亚楠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SHENGQU INFORMATION TECHNOLOGY (SHANGHAI) Co Ltd
Original Assignee
SHENGQU INFORMATION TECHNOLOGY (SHANGHAI) Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SHENGQU INFORMATION TECHNOLOGY (SHANGHAI) Co Ltd filed Critical SHENGQU INFORMATION TECHNOLOGY (SHANGHAI) Co Ltd
Priority to CN201610178716.XA priority Critical patent/CN105787119B/zh
Publication of CN105787119A publication Critical patent/CN105787119A/zh
Application granted granted Critical
Publication of CN105787119B publication Critical patent/CN105787119B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种基于混合引擎的大数据处理方法及系统,本发明基于HIVE和PRESTO混合引擎以HTTP标准协议与调用者交互,使用者用类SQL查询和处理大数据。根据提交任务的方式不同后台选择HIVE或者PRESTO引擎来执行数据查询任务,并将查询的结果基于HTTP协议以JSON格式返回给用户。本发明主要基于HIVE和PRESTO混合引擎,综合查询助手系统根据用户的需求,可以灵活自主地选择慢速查询hive和快速查询quick,对于数据量不是特别大时间跨度为最近2个月的对执行时间要求比较高的查询任务,这种任务由PRESTO引擎执行,对数据量比较大时间跨度比较长对执行时间要求不高的查询任务,这种任务由HIVE引擎执行,满足了用户个性化数据查询需要。

Description

基于混合引擎的大数据处理方法及系统
技术领域
本发明涉及一种基于混合引擎的大数据处理方法及系统。
背景技术
目前对于大数据的处理一般采用Hive/Hadoop的模式,综合查询助手综合了这两种方案的优点,采用HIVE和PRESTO混合引擎。
Hive建立在Hadoop上,是一种SQLOnHadoop,使用MapReduce作为底层计算框架,将数据查询或处理翻译成多阶段的MapReduce任务,一个接一个的执行,每一个任务从磁盘上读取输入数据并且将中间结果输出到磁盘上,基于HIVE的实现原理,随着数据越来越多,使用Hive进行一个简单的数据查询可能要花费几分到几小时,对于有延时比较低要求的数据任务采用HIVE显然是不可取的。
Presto是facebook开发的一个分布式SQL查询引擎,它被设计为用来专门进行高速、实时的数据分析,Presto引擎没有采用MapReduce,它使用了一个定制的查询和执行引擎和响应的操作符来支持类似SQL的语法。除了改进的调度算法之外,所有的数据处理都是在内存中进行的,这样会避免不必要的磁盘读写和额外的延迟,因此Presto的执行效率比HIVE高出很多,大概是HIVE的10多倍。
发明内容
本发明的目的在于提供一种基于混合引擎的大数据处理方法及系统,能够满足用户个性化数据查询需求。
为解决上述问题,本发明提供一种基于混合引擎的大数据处理方法,包括:
以HTTP协议的方式与用户交互,获取用户根据自己需求选择的以快速查询或者慢速查询的方式提交的数据查询任务;
根据提交任务的方式在后台选择HIVE或者PRESTO引擎来执行所述数据查询任务,并将查询的结果基于HTTP协议以JSON格式的方式返回给用户。
进一步的,在上述方法中,所述快速查询针对的是数据量较小、时间跨度较短、且对执行时间要求比较高的查询任务,所述快速查询方式提交的任务由PRESTO引擎来执行。
进一步的,在上述方法中,供所述快速查询的数据用ORC数据存储格式存储,并用SNAPPY压缩算法压缩。
进一步的,在上述方法中,所述慢速查询针对数据量较大、时间跨度比较长、且对执行时间要求不高的查询任务,以慢速查询方式提交的任务由HIVE引擎来执行。
进一步的,在上述方法中,将查询的结果以HTTP协议的方式返回给用户的步骤之后,还包括:
保存最近用户提交的数据查询任务并缓存其查询的结果。
根据本发明的另一面,提供一种基于混合引擎的大数据处理系统,包括:
获取模块,用于以HTTP协议的方式与用户交互,获取用户根据自己需求选择的以快速查询或者慢速查询的方式提交的数据查询任务;
执行模块,用于根据提交任务的方式在后台选择HIVE或者PRESTO引擎来执行所述数据查询任务,并将查询的结果基于HTTP协议以JSON格式的方式返回给用户。
进一步的,在上述系统中,所述快速查询针对的是数据量较小、时间跨度较短、且对执行时间要求比较高的查询任务,所述快速查询方式提交的任务由PRESTO引擎来执行。
进一步的,在上述系统中,供所述快速查询的数据用ORC数据存储格式存储,并用SNAPPY压缩算法压缩。
进一步的,在上述系统中,所述慢速查询针对数据量较大、时间跨度比较长、且对执行时间要求不高的查询任务,以慢速查询方式提交的任务由HIVE引擎来执行。
进一步的,在上述系统中,所述系统还包括保存模块,用于保存最近用户提交的数据查询任务并缓存其查询的结果。
与现有技术相比,本发明通过以HTTP协议的方式与用户交互,获取用户根据自己需求选择的以快速查询或者慢速查询的方式提交的数据查询任务;根据提交任务的方式在后台选择HIVE或者PRESTO引擎来执行所述数据查询任务,并将查询的结果以HTTP协议的方式返回给用户,本发明主要基于HIVE和PRESTO引擎,以HTTP协议的形式与用户交互的综合查询系统,方便用户提交查询任务和查看查询结果,综合查询助手根据用户任务的需求,主要分为慢速查询和快速查询,以满足用户个性化数据查询需求。
附图说明
图1是本发明一实施例的基于混合引擎的大数据处理方法的原理图;
图2是本发明一实施例的综合查询助手查询界面图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
实施例一
如图1所示,本发明提供一种基于混合引擎的大数据处理方法,包括:
综合查询助手,以HTTP协议的方式与用户交互,获取用户根据自己需求选择的以快速查询或者慢速查询的方式提交的数据查询任务;
综合查询助手,根据提交任务的方式在后台选择HIVE或者PRESTO引擎来执行所述数据查询任务,并将查询的结果基于HTTP协议以JSON格式的方式返回给用户。本发明主要基于HIVE和PRESTO引擎,以HTTP协议的形式与用户交互的综合查询系统,方便用户提交查询任务和查看查询结果,综合查询助手根据用户任务的需求,主要分为慢速查询和快速查询,以满足用户个性化数据查询需求。本发明的综合查询助手界面参见图2。
优选的,所述快速查询针对的是数据量较小、时间跨度较短、且对执行时间要求比较高的查询任务,所述快速查询方式提交的任务由PRESTO引擎来执行。例如,快速查询针对的是数据量不是特别大(GB级)时间跨度为最近2个月的对执行时间要求比较高的查询任务,这种任务由PRESTO引擎执行。
优选的,供所述快速查询的数据用ORC数据存储格式存储,并用SNAPPY压缩算法压缩。在此,为了优化快速查询的效果,将数据转换成ORC数据格式(一种基于列的高效的数据存储格式),并采用SNAPPY算法压缩,以节省存储空间和I/O。例如,如图1所示,存储供快速查询的数据,简称HIVE-B,然后配置PRESTO,将PRESTO的HIVE连接器指向HIVE-B。
优选的,所述慢速查询针对数据量较大、时间跨度比较长、且对执行时间要求不高的查询任务,以慢速查询方式提交的任务由HIVE引擎来执行。例如,如图1所示,慢速查询主要针对数据量比较大(TB级-几百TB级)时间跨度比较长(数月甚至数年的数据)对执行时间要求不高的查询任务,这种任务由HIVE引擎执行。存储供慢速查询的数据,简称HIVE-A。
优选的,将查询的结果以HTTP协议的方式返回给用户的步骤之后,还包括:
保存最近用户提交的数据查询任务并缓存其查询的结果,以方便用户查看历史查询任务和查询结果。
详细的,本实施例的具体实现方式如下表:
实施例二
本发明还提供另一种基于混合引擎的大数据处理系统,提供一种基于混合引擎的大数据处理系统,包括:
获取模块,用于以HTTP协议的方式与用户交互,获取用户根据自己需求选择的以快速查询或者慢速查询的方式提交的数据查询任务;
执行模块,用于根据提交任务的方式在后台选择HIVE或者PRESTO引擎来执行所述数据查询任务,并将查询的结果基于HTTP协议以JSON格式的方式返回给用户。
进一步的,在上述系统中,所述快速查询针对的是数据量较小、时间跨度较短、且对执行时间要求比较高的查询任务,所述快速查询方式提交的任务由PRESTO引擎来执行。
进一步的,在上述系统中,供所述快速查询的数据用ORC数据存储格式存储,并用SNAPPY压缩算法压缩。
进一步的,在上述系统中,所述慢速查询针对数据量较大、时间跨度比较长、且对执行时间要求不高的查询任务,以慢速查询方式提交的任务由HIVE引擎来执行。
进一步的,在上述系统中,所述系统还包括保存模块,用于保存最近用户提交的数据查询任务并缓存其查询的结果。
实施例二的其它详细内容,具体可参见实施例一的对应部分,在此,不再赘述。
本发明通过以HTTP协议的方式与用户交互,获取用户根据自己需求选择的以快速查询或者慢速查询的方式提交的数据查询任务;根据提交任务的方式在后台选择HIVE或者PRESTO引擎来执行所述数据查询任务,并将查询的结果以HTTP协议的方式返回给用户,本发明主要基于HIVE和PRESTO引擎,以HTTP协议的形式与用户交互的综合查询系统,方便用户提交查询任务和查看查询结果,综合查询助手根据用户任务的需求,主要分为慢速查询和快速查询,以满足用户个性化数据查询需求。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
显然,本领域的技术人员可以对发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包括这些改动和变型在内。

Claims (10)

1.一种基于混合引擎的大数据处理方法,其特征在于,包括:
以HTTP协议的方式与用户交互,获取用户根据自己需求选择的以快速查询或者慢速查询的方式提交的数据查询任务;
根据提交任务的方式在后台选择HIVE或者PRESTO引擎来执行所述数据查询任务,并将查询的结果基于HTTP协议以JSON格式的方式返回给用户。
2.如权利要求1所述的基于混合引擎的大数据处理方法,其特征在于,所述快速查询针对的是数据量较小、时间跨度较短、且对执行时间要求比较高的查询任务,所述快速查询方式提交的任务由PRESTO引擎来执行。
3.如权利要求2所述的基于混合引擎的大数据处理方法,其特征在于,供所述快速查询的数据用ORC数据存储格式存储,并用SNAPPY压缩算法压缩。
4.如权利要求1所述的基于混合引擎的大数据处理方法,其特征在于,所述慢速查询针对数据量较大、时间跨度比较长、且对执行时间要求不高的查询任务,以慢速查询方式提交的任务由HIVE引擎来执行。
5.如权利要求1所述的基于混合引擎的大数据处理方法,其特征在于,将查询的结果以HTTP协议的方式返回给用户的步骤之后,还包括:
保存最近用户提交的数据查询任务并缓存其查询的结果。
6.一种基于混合引擎的大数据处理系统,其特征在于,包括:
获取模块,用于以HTTP协议的方式与用户交互,获取用户根据自己需求选择的以快速查询或者慢速查询的方式提交的数据查询任务;
执行模块,用于根据提交任务的方式在后台选择HIVE或者PRESTO引擎来执行所述数据查询任务,并将查询的结果基于HTTP协议以JSON格式的方式返回给用户。
7.如权利要求6所述的基于混合引擎的大数据处理系统,其特征在于,所述快速查询针对的是数据量较小、时间跨度较短、且对执行时间要求比较高的查询任务,所述快速查询方式提交的任务由PRESTO引擎来执行。
8.如权利要求7所述的基于混合引擎的大数据处理系统,其特征在于,供所述快速查询的数据用ORC数据存储格式存储,并用SNAPPY压缩算法压缩。
9.如权利要求6所述的基于混合引擎的大数据处理系统,其特征在于,所述慢速查询针对数据量较大、时间跨度比较长、且对执行时间要求不高的查询任务,以慢速查询方式提交的任务由HIVE引擎来执行。
10.如权利要求6所述的基于混合引擎的大数据处理系统,其特征在于,所述系统还包括保存模块,用于保存最近用户提交的数据查询任务并缓存其查询的结果。
CN201610178716.XA 2016-03-25 2016-03-25 基于混合引擎的大数据处理方法及系统 Active CN105787119B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610178716.XA CN105787119B (zh) 2016-03-25 2016-03-25 基于混合引擎的大数据处理方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610178716.XA CN105787119B (zh) 2016-03-25 2016-03-25 基于混合引擎的大数据处理方法及系统

Publications (2)

Publication Number Publication Date
CN105787119A true CN105787119A (zh) 2016-07-20
CN105787119B CN105787119B (zh) 2020-06-16

Family

ID=56392011

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610178716.XA Active CN105787119B (zh) 2016-03-25 2016-03-25 基于混合引擎的大数据处理方法及系统

Country Status (1)

Country Link
CN (1) CN105787119B (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106649503A (zh) * 2016-10-11 2017-05-10 北京集奥聚合科技有限公司 一种基于sql的查询方法及系统
CN107256206A (zh) * 2017-05-24 2017-10-17 北京京东尚科信息技术有限公司 字符流格式转换的方法和装置
CN107491553A (zh) * 2017-08-31 2017-12-19 武汉光谷信息技术股份有限公司 一种数据挖掘方法及系统
CN107688659A (zh) * 2017-09-08 2018-02-13 北京奇艺世纪科技有限公司 一种数据处理方法及装置
CN109033123A (zh) * 2018-05-31 2018-12-18 康键信息技术(深圳)有限公司 基于大数据的查询方法、装置、计算机设备和存储介质
CN109634989A (zh) * 2018-11-16 2019-04-16 百度在线网络技术(北京)有限公司 一种hive任务执行引擎选择方法和系统
CN109960701A (zh) * 2019-04-02 2019-07-02 福建奇点时空数字科技有限公司 一种基于混合引擎的大数据处理方法及系统
CN110232050A (zh) * 2019-04-24 2019-09-13 深圳点猫科技有限公司 一种基于编程语言对文件进行压缩的方法和电子设备
CN110807145A (zh) * 2018-07-20 2020-02-18 中兴通讯股份有限公司 查询引擎获取方法、设备和计算机可读存储介质
CN111125207A (zh) * 2018-10-30 2020-05-08 亿度慧达教育科技(北京)有限公司 一种数据获取方法、装置、连接器及presto引擎
CN111125178A (zh) * 2018-10-30 2020-05-08 亿度慧达教育科技(北京)有限公司 一种数据查询方法、装置、终端、presto查询引擎及存储介质
CN112487036A (zh) * 2020-12-04 2021-03-12 国泰新点软件股份有限公司 数据处理方法及装置
CN113204589A (zh) * 2021-05-28 2021-08-03 平安科技(深圳)有限公司 存储对象处理系统、请求处理方法、网关和存储介质
CN113568931A (zh) * 2020-04-29 2021-10-29 盛趣信息技术(上海)有限公司 一种数据访问请求的路由解析系统及方法
US11755579B2 (en) 2021-08-04 2023-09-12 Cysiv, Inc. Database system with run-time query mode selection

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100495394C (zh) * 2002-06-06 2009-06-03 株式会社理光 管理数据库的数据库管理系统
CN102750384A (zh) * 2012-06-28 2012-10-24 用友软件股份有限公司 从多数据库引擎获取数据的装置和方法
CN104133858A (zh) * 2014-07-15 2014-11-05 武汉邮电科学研究院 基于列存储的智能双引擎分析系统及方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100495394C (zh) * 2002-06-06 2009-06-03 株式会社理光 管理数据库的数据库管理系统
CN102750384A (zh) * 2012-06-28 2012-10-24 用友软件股份有限公司 从多数据库引擎获取数据的装置和方法
CN104133858A (zh) * 2014-07-15 2014-11-05 武汉邮电科学研究院 基于列存储的智能双引擎分析系统及方法

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106649503A (zh) * 2016-10-11 2017-05-10 北京集奥聚合科技有限公司 一种基于sql的查询方法及系统
CN107256206A (zh) * 2017-05-24 2017-10-17 北京京东尚科信息技术有限公司 字符流格式转换的方法和装置
CN107491553A (zh) * 2017-08-31 2017-12-19 武汉光谷信息技术股份有限公司 一种数据挖掘方法及系统
CN107688659A (zh) * 2017-09-08 2018-02-13 北京奇艺世纪科技有限公司 一种数据处理方法及装置
CN109033123A (zh) * 2018-05-31 2018-12-18 康键信息技术(深圳)有限公司 基于大数据的查询方法、装置、计算机设备和存储介质
CN109033123B (zh) * 2018-05-31 2023-09-22 康键信息技术(深圳)有限公司 基于大数据的查询方法、装置、计算机设备和存储介质
CN110807145A (zh) * 2018-07-20 2020-02-18 中兴通讯股份有限公司 查询引擎获取方法、设备和计算机可读存储介质
CN111125207B (zh) * 2018-10-30 2021-03-12 亿度慧达教育科技(北京)有限公司 一种数据获取方法、装置、连接器及presto引擎
CN111125178B (zh) * 2018-10-30 2021-05-28 亿度慧达教育科技(北京)有限公司 一种数据查询方法、装置、终端、presto查询引擎及存储介质
CN111125207A (zh) * 2018-10-30 2020-05-08 亿度慧达教育科技(北京)有限公司 一种数据获取方法、装置、连接器及presto引擎
CN111125178A (zh) * 2018-10-30 2020-05-08 亿度慧达教育科技(北京)有限公司 一种数据查询方法、装置、终端、presto查询引擎及存储介质
CN109634989A (zh) * 2018-11-16 2019-04-16 百度在线网络技术(北京)有限公司 一种hive任务执行引擎选择方法和系统
CN109634989B (zh) * 2018-11-16 2022-03-25 百度在线网络技术(北京)有限公司 一种hive任务执行引擎选择方法和系统
CN109960701A (zh) * 2019-04-02 2019-07-02 福建奇点时空数字科技有限公司 一种基于混合引擎的大数据处理方法及系统
CN110232050A (zh) * 2019-04-24 2019-09-13 深圳点猫科技有限公司 一种基于编程语言对文件进行压缩的方法和电子设备
CN113568931A (zh) * 2020-04-29 2021-10-29 盛趣信息技术(上海)有限公司 一种数据访问请求的路由解析系统及方法
CN112487036A (zh) * 2020-12-04 2021-03-12 国泰新点软件股份有限公司 数据处理方法及装置
CN113204589A (zh) * 2021-05-28 2021-08-03 平安科技(深圳)有限公司 存储对象处理系统、请求处理方法、网关和存储介质
WO2022247316A1 (zh) * 2021-05-28 2022-12-01 平安科技(深圳)有限公司 存储对象处理系统、请求处理方法、网关和存储介质
US11755579B2 (en) 2021-08-04 2023-09-12 Cysiv, Inc. Database system with run-time query mode selection

Also Published As

Publication number Publication date
CN105787119B (zh) 2020-06-16

Similar Documents

Publication Publication Date Title
CN105787119A (zh) 基于混合引擎的大数据处理方法及系统
CN103106249B (zh) 一种基于Cassandra的数据并行处理系统
CN105404665B (zh) 一种json格式数据的查询管理系统
US9460188B2 (en) Data warehouse compatibility
EP3238101A1 (en) Graph operations
CN104516979B (zh) 一种基于二次检索的数据查询方法及系统
US9753960B1 (en) System, method, and computer program for dynamically generating a visual representation of a subset of a graph for display, based on search criteria
US20160283479A1 (en) Method and system for manipulating data
JP2017188137A (ja) 異種データソース混在環境におけるフィールド間の関係性の自動的発見のための方法、プログラム、および、システム
CN104331421A (zh) 一种大数据的高效处理方法及系统
CN107784026A (zh) 一种etl数据处理方法及装置
WO2020215689A1 (zh) 一种列存储文件的查询方法及查询装置
CN106471501A (zh) 数据查询的方法、数据对象的存储方法和数据系统
WO2015143910A1 (zh) 自定义搜索结果页的方法及装置
CN109471893B (zh) 网络数据的查询方法、设备及计算机可读存储介质
US20140095253A1 (en) Business process global searching
CN104598570A (zh) 资源的抓取方法及装置
CN111723161A (zh) 一种数据处理方法、装置及设备
CN105069101A (zh) 分布式索引构建及检索方法
Ghotiya et al. Migration from relational to NoSQL database
CN110442635A (zh) 一种数据处理方法、装置、设备及存储介质
CN112800091B (zh) 一种流批一体式计算控制系统及方法
AU2019241002A1 (en) Transaction processing method and system, and server
CN106682047B (zh) 一种数据导入方法以及相关装置
CN105224319B (zh) 基于dom4j实现XBRL实例文档预览的方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant