CN105787119B - 基于混合引擎的大数据处理方法及系统 - Google Patents

基于混合引擎的大数据处理方法及系统 Download PDF

Info

Publication number
CN105787119B
CN105787119B CN201610178716.XA CN201610178716A CN105787119B CN 105787119 B CN105787119 B CN 105787119B CN 201610178716 A CN201610178716 A CN 201610178716A CN 105787119 B CN105787119 B CN 105787119B
Authority
CN
China
Prior art keywords
query
engine
data
mode
presto
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610178716.XA
Other languages
English (en)
Other versions
CN105787119A (zh
Inventor
周晟
张龙
魏亚楠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shengqu Information Technology Shanghai Co Ltd
Original Assignee
Shengqu Information Technology Shanghai Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shengqu Information Technology Shanghai Co Ltd filed Critical Shengqu Information Technology Shanghai Co Ltd
Priority to CN201610178716.XA priority Critical patent/CN105787119B/zh
Publication of CN105787119A publication Critical patent/CN105787119A/zh
Application granted granted Critical
Publication of CN105787119B publication Critical patent/CN105787119B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种基于混合引擎的大数据处理方法及系统,本发明基于HIVE和PRESTO混合引擎以HTTP标准协议与调用者交互,使用者用类SQL查询和处理大数据。根据提交任务的方式不同后台选择HIVE或者PRESTO引擎来执行数据查询任务,并将查询的结果基于HTTP协议以JSON格式返回给用户。本发明主要基于HIVE和PRESTO混合引擎,综合查询助手系统根据用户的需求,可以灵活自主地选择慢速查询hive和快速查询quick,对于数据量不是特别大时间跨度为最近2个月的对执行时间要求比较高的查询任务,这种任务由PRESTO引擎执行,对数据量比较大时间跨度比较长对执行时间要求不高的查询任务,这种任务由HIVE引擎执行,满足了用户个性化数据查询需要。

Description

基于混合引擎的大数据处理方法及系统
技术领域
本发明涉及一种基于混合引擎的大数据处理方法及系统。
背景技术
目前对于大数据的处理一般采用Hive/Hadoop的模式,综合查询助手综合了这两种方案的优点,采用HIVE和PRESTO混合引擎。
Hive建立在Hadoop上,是一种SQL On Hadoop,使用MapReduce作为底层计算框架,将数据查询或处理翻译成多阶段的MapReduce任务,一个接一个的执行,每一个任务从磁盘上读取输入数据并且将中间结果输出到磁盘上,基于HIVE的实现原理,随着数据越来越多,使用Hive进行一个简单的数据查询可能要花费几分到几小时,对于有延时比较低要求的数据任务采用HIVE显然是不可取的。
Presto是facebook开发的一个分布式SQL查询引擎,它被设计为用来专门进行高速、实时的数据分析,Presto引擎没有采用MapReduce,它使用了一个定制的查询和执行引擎和响应的操作符来支持类似SQL的语法。除了改进的调度算法之外,所有的数据处理都是在内存中进行的,这样会避免不必要的磁盘读写和额外的延迟,因此Presto的执行效率比HIVE高出很多,大概是HIVE的10多倍。
发明内容
本发明的目的在于提供一种基于混合引擎的大数据处理方法及系统,能够满足用户个性化数据查询需求。
为解决上述问题,本发明提供一种基于混合引擎的大数据处理方法,包括:
以HTTP协议的方式与用户交互,获取用户根据自己需求选择的以快速查询或者慢速查询的方式提交的数据查询任务;
根据提交任务的方式在后台选择HIVE或者PRESTO引擎来执行所述数据查询任务,并将查询的结果基于HTTP协议以JSON格式的方式返回给用户。
进一步的,在上述方法中,所述快速查询针对的是数据量较小、时间跨度较短、且对执行时间要求比较高的查询任务,所述快速查询方式提交的任务由PRESTO引擎来执行。
进一步的,在上述方法中,供所述快速查询的数据用ORC数据存储格式存储,并用SNAPPY压缩算法压缩。
进一步的,在上述方法中,所述慢速查询针对数据量较大、时间跨度比较长、且对执行时间要求不高的查询任务,以慢速查询方式提交的任务由HIVE引擎来执行。
进一步的,在上述方法中,将查询的结果以HTTP协议的方式返回给用户的步骤之后,还包括:
保存最近用户提交的数据查询任务并缓存其查询的结果。
根据本发明的另一面,提供一种基于混合引擎的大数据处理系统,包括:
获取模块,用于以HTTP协议的方式与用户交互,获取用户根据自己需求选择的以快速查询或者慢速查询的方式提交的数据查询任务;
执行模块,用于根据提交任务的方式在后台选择HIVE或者PRESTO引擎来执行所述数据查询任务,并将查询的结果基于HTTP协议以JSON格式的方式返回给用户。
进一步的,在上述系统中,所述快速查询针对的是数据量较小、时间跨度较短、且对执行时间要求比较高的查询任务,所述快速查询方式提交的任务由PRESTO引擎来执行。
进一步的,在上述系统中,供所述快速查询的数据用ORC数据存储格式存储,并用SNAPPY压缩算法压缩。
进一步的,在上述系统中,所述慢速查询针对数据量较大、时间跨度比较长、且对执行时间要求不高的查询任务,以慢速查询方式提交的任务由HIVE引擎来执行。
进一步的,在上述系统中,所述系统还包括保存模块,用于保存最近用户提交的数据查询任务并缓存其查询的结果。
与现有技术相比,本发明通过以HTTP协议的方式与用户交互,获取用户根据自己需求选择的以快速查询或者慢速查询的方式提交的数据查询任务;根据提交任务的方式在后台选择HIVE或者PRESTO引擎来执行所述数据查询任务,并将查询的结果以HTTP协议的方式返回给用户,本发明主要基于HIVE和PRESTO引擎,以HTTP协议的形式与用户交互的综合查询系统,方便用户提交查询任务和查看查询结果,综合查询助手根据用户任务的需求,主要分为慢速查询和快速查询,以满足用户个性化数据查询需求。
附图说明
图1是本发明一实施例的基于混合引擎的大数据处理方法的原理图;
图2是本发明一实施例的综合查询助手查询界面图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
实施例一
如图1所示,本发明提供一种基于混合引擎的大数据处理方法,包括:
综合查询助手,以HTTP协议的方式与用户交互,获取用户根据自己需求选择的以快速查询或者慢速查询的方式提交的数据查询任务;
综合查询助手,根据提交任务的方式在后台选择HIVE或者PRESTO引擎来执行所述数据查询任务,并将查询的结果基于HTTP协议以JSON格式的方式返回给用户。本发明主要基于HIVE和PRESTO引擎,以HTTP协议的形式与用户交互的综合查询系统,方便用户提交查询任务和查看查询结果,综合查询助手根据用户任务的需求,主要分为慢速查询和快速查询,以满足用户个性化数据查询需求。本发明的综合查询助手界面参见图2。
优选的,所述快速查询针对的是数据量较小、时间跨度较短、且对执行时间要求比较高的查询任务,所述快速查询方式提交的任务由PRESTO引擎来执行。例如,快速查询针对的是数据量不是特别大(GB级)时间跨度为最近2个月的对执行时间要求比较高的查询任务,这种任务由PRESTO引擎执行。
优选的,供所述快速查询的数据用ORC数据存储格式存储,并用SNAPPY压缩算法压缩。在此,为了优化快速查询的效果,将数据转换成ORC数据格式(一种基于列的高效的数据存储格式),并采用SNAPPY算法压缩,以节省存储空间和I/O。例如,如图1所示,存储供快速查询的数据,简称HIVE-B,然后配置PRESTO,将PRESTO的HIVE连接器指向HIVE-B。
优选的,所述慢速查询针对数据量较大、时间跨度比较长、且对执行时间要求不高的查询任务,以慢速查询方式提交的任务由HIVE引擎来执行。例如,如图1所示,慢速查询主要针对数据量比较大(TB级-几百TB级)时间跨度比较长(数月甚至数年的数据)对执行时间要求不高的查询任务,这种任务由HIVE引擎执行。存储供慢速查询的数据,简称HIVE-A。
优选的,将查询的结果以HTTP协议的方式返回给用户的步骤之后,还包括:
保存最近用户提交的数据查询任务并缓存其查询的结果,以方便用户查看历史查询任务和查询结果。
详细的,本实施例的具体实现方式如下表:
Figure BDA0000950628890000041
Figure BDA0000950628890000051
Figure BDA0000950628890000061
实施例二
本发明还提供另一种基于混合引擎的大数据处理系统,提供一种基于混合引擎的大数据处理系统,包括:
获取模块,用于以HTTP协议的方式与用户交互,获取用户根据自己需求选择的以快速查询或者慢速查询的方式提交的数据查询任务;
执行模块,用于根据提交任务的方式在后台选择HIVE或者PRESTO引擎来执行所述数据查询任务,并将查询的结果基于HTTP协议以JSON格式的方式返回给用户。
进一步的,在上述系统中,所述快速查询针对的是数据量较小、时间跨度较短、且对执行时间要求比较高的查询任务,所述快速查询方式提交的任务由PRESTO引擎来执行。
进一步的,在上述系统中,供所述快速查询的数据用ORC数据存储格式存储,并用SNAPPY压缩算法压缩。
进一步的,在上述系统中,所述慢速查询针对数据量较大、时间跨度比较长、且对执行时间要求不高的查询任务,以慢速查询方式提交的任务由HIVE引擎来执行。
进一步的,在上述系统中,所述系统还包括保存模块,用于保存最近用户提交的数据查询任务并缓存其查询的结果。
实施例二的其它详细内容,具体可参见实施例一的对应部分,在此,不再赘述。
本发明通过以HTTP协议的方式与用户交互,获取用户根据自己需求选择的以快速查询或者慢速查询的方式提交的数据查询任务;根据提交任务的方式在后台选择HIVE或者PRESTO引擎来执行所述数据查询任务,并将查询的结果以HTTP协议的方式返回给用户,本发明主要基于HIVE和PRESTO引擎,以HTTP协议的形式与用户交互的综合查询系统,方便用户提交查询任务和查看查询结果,综合查询助手根据用户任务的需求,主要分为慢速查询和快速查询,以满足用户个性化数据查询需求。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
显然,本领域的技术人员可以对发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包括这些改动和变型在内。

Claims (10)

1.一种基于混合引擎的大数据处理方法,其特征在于,包括:
以HTTP协议的方式与用户交互,获取用户根据自己需求用类似SQL的方式选择的以快速查询或者慢速查询的方式提交的数据查询任务;
根据提交任务的方式在后台选择HIVE或者PRESTO引擎来执行所述数据查询任务,并将查询的结果基于HTTP协议以JSON格式的方式返回给用户;
其中,以快速查询的方式提交的数据查询任务由PRESTO引擎在内存中进行处理;其中配置PRESTO,将PRESTO的HIVE的连接器指向转换为ORC数据格式并用SNAPPY算法压缩的快速查询的数据。
2.如权利要求1所述的基于混合引擎的大数据处理方法,其特征在于,所述快速查询针对的是数据量较小、时间跨度较短、且对执行时间要求比较高的查询任务,所述快速查询方式提交的任务由PRESTO引擎来执行。
3.如权利要求2所述的基于混合引擎的大数据处理方法,其特征在于,供所述快速查询的数据用ORC数据存储格式存储,并用SNAPPY压缩算法压缩。
4.如权利要求1所述的基于混合引擎的大数据处理方法,其特征在于,所述慢速查询针对数据量较大、时间跨度比较长、且对执行时间要求不高的查询任务,以慢速查询方式提交的任务由HIVE引擎来执行。
5.如权利要求1所述的基于混合引擎的大数据处理方法,其特征在于,将查询的结果以HTTP协议的方式返回给用户的步骤之后,还包括:
保存最近用户提交的数据查询任务并缓存其查询的结果。
6.一种基于混合引擎的大数据处理系统,其特征在于,包括:
获取模块,用于以HTTP协议的方式与用户交互,获取用户根据自己需求用类似SQL的方式选择的以快速查询或者慢速查询的方式提交的数据查询任务;
执行模块,用于根据提交任务的方式在后台选择HIVE或者PRESTO引擎来执行所述数据查询任务,并将查询的结果基于HTTP协议以JSON格式的方式返回给用户;
其中,以快速查询的方式提交的数据查询任务由PRESTO引擎在内存中进行处理;其中配置PRESTO,将PRESTO的HIVE的连接器指向转换为ORC数据格式并用SNAPPY算法压缩的快速查询的数据。
7.如权利要求6所述的基于混合引擎的大数据处理系统,其特征在于,所述快速查询针对的是数据量较小、时间跨度较短、且对执行时间要求比较高的查询任务,所述快速查询方式提交的任务由PRESTO引擎来执行。
8.如权利要求7所述的基于混合引擎的大数据处理系统,其特征在于,供所述快速查询的数据用ORC数据存储格式存储,并用SNAPPY压缩算法压缩。
9.如权利要求6所述的基于混合引擎的大数据处理系统,其特征在于,所述慢速查询针对数据量较大、时间跨度比较长、且对执行时间要求不高的查询任务,以慢速查询方式提交的任务由HIVE引擎来执行。
10.如权利要求6所述的基于混合引擎的大数据处理系统,其特征在于,所述系统还包括保存模块,用于保存最近用户提交的数据查询任务并缓存其查询的结果。
CN201610178716.XA 2016-03-25 2016-03-25 基于混合引擎的大数据处理方法及系统 Active CN105787119B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610178716.XA CN105787119B (zh) 2016-03-25 2016-03-25 基于混合引擎的大数据处理方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610178716.XA CN105787119B (zh) 2016-03-25 2016-03-25 基于混合引擎的大数据处理方法及系统

Publications (2)

Publication Number Publication Date
CN105787119A CN105787119A (zh) 2016-07-20
CN105787119B true CN105787119B (zh) 2020-06-16

Family

ID=56392011

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610178716.XA Active CN105787119B (zh) 2016-03-25 2016-03-25 基于混合引擎的大数据处理方法及系统

Country Status (1)

Country Link
CN (1) CN105787119B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023012534A1 (en) * 2021-08-04 2023-02-09 Cysiv, Inc. Database system with run-time query mode selection

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106649503A (zh) * 2016-10-11 2017-05-10 北京集奥聚合科技有限公司 一种基于sql的查询方法及系统
CN107256206B (zh) * 2017-05-24 2021-04-30 北京京东尚科信息技术有限公司 字符流格式转换的方法和装置
CN107491553A (zh) * 2017-08-31 2017-12-19 武汉光谷信息技术股份有限公司 一种数据挖掘方法及系统
CN107688659A (zh) * 2017-09-08 2018-02-13 北京奇艺世纪科技有限公司 一种数据处理方法及装置
CN109033123B (zh) * 2018-05-31 2023-09-22 康键信息技术(深圳)有限公司 基于大数据的查询方法、装置、计算机设备和存储介质
CN110807145A (zh) * 2018-07-20 2020-02-18 中兴通讯股份有限公司 查询引擎获取方法、设备和计算机可读存储介质
CN111125207B (zh) * 2018-10-30 2021-03-12 亿度慧达教育科技(北京)有限公司 一种数据获取方法、装置、连接器及presto引擎
CN111125178B (zh) * 2018-10-30 2021-05-28 亿度慧达教育科技(北京)有限公司 一种数据查询方法、装置、终端、presto查询引擎及存储介质
CN109634989B (zh) * 2018-11-16 2022-03-25 百度在线网络技术(北京)有限公司 一种hive任务执行引擎选择方法和系统
CN109960701A (zh) * 2019-04-02 2019-07-02 福建奇点时空数字科技有限公司 一种基于混合引擎的大数据处理方法及系统
CN110232050A (zh) * 2019-04-24 2019-09-13 深圳点猫科技有限公司 一种基于编程语言对文件进行压缩的方法和电子设备
CN113568931A (zh) * 2020-04-29 2021-10-29 盛趣信息技术(上海)有限公司 一种数据访问请求的路由解析系统及方法
CN112487036A (zh) * 2020-12-04 2021-03-12 国泰新点软件股份有限公司 数据处理方法及装置
CN113204589A (zh) * 2021-05-28 2021-08-03 平安科技(深圳)有限公司 存储对象处理系统、请求处理方法、网关和存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100495394C (zh) * 2002-06-06 2009-06-03 株式会社理光 管理数据库的数据库管理系统
CN102750384A (zh) * 2012-06-28 2012-10-24 用友软件股份有限公司 从多数据库引擎获取数据的装置和方法
CN104133858A (zh) * 2014-07-15 2014-11-05 武汉邮电科学研究院 基于列存储的智能双引擎分析系统及方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100495394C (zh) * 2002-06-06 2009-06-03 株式会社理光 管理数据库的数据库管理系统
CN102750384A (zh) * 2012-06-28 2012-10-24 用友软件股份有限公司 从多数据库引擎获取数据的装置和方法
CN104133858A (zh) * 2014-07-15 2014-11-05 武汉邮电科学研究院 基于列存储的智能双引擎分析系统及方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023012534A1 (en) * 2021-08-04 2023-02-09 Cysiv, Inc. Database system with run-time query mode selection

Also Published As

Publication number Publication date
CN105787119A (zh) 2016-07-20

Similar Documents

Publication Publication Date Title
CN105787119B (zh) 基于混合引擎的大数据处理方法及系统
CN106649630A (zh) 数据查询方法及装置
US20130311454A1 (en) Data source analytics
US8548986B2 (en) Adaptive row-batch processing of database data
CN109145020A (zh) 信息查询方法、从服务器、客户端及计算机可读存储介质
US10685024B2 (en) Tuple extraction using dynamically generated extractor classes
US20200125540A1 (en) Self-correcting pipeline flows for schema drift
CN108073625B (zh) 用于元数据信息管理的系统及方法
US8078628B2 (en) Streaming faceted search
CN114357276B (zh) 数据查询方法、装置、电子设备以及存储介质
US20160103702A1 (en) Low latency architecture with directory service for integration of transactional data system with analytical data structures
CN104123374A (zh) 分布式数据库中聚合查询的方法及装置
CN104516979A (zh) 一种基于二次检索的数据查询方法及系统
WO2018035799A1 (zh) 数据查询方法、应用和数据库服务器、中间件及系统
CN102393858A (zh) 一种基于客户端实时聚合的元搜索引擎系统
US11132362B2 (en) Method and system of optimizing database system, electronic device and storage medium
CN115686850A (zh) 基于Spark的目标任务的处理方法、装置和电子设备
CN113704291A (zh) 数据查询方法、装置、存储介质及电子设备
CN106126731B (zh) 一种获取Elasticsearch分页数据的方法及装置
US20190258736A1 (en) Dynamic Execution of ETL Jobs Without Metadata Repository
WO2020211717A1 (zh) 一种数据处理方法、装置及设备
EP3232339A1 (en) Method and device for determining sql execution plan
CN107636655B (zh) 实时提供数据即服务(DaaS)的系统和方法
US20190213188A1 (en) Distributed computing framework and distributed computing method
WO2018165420A1 (en) Enterprise integration processing for mainframe cobol programs

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant