CN105787119B

CN105787119B - 基于混合引擎的大数据处理方法及系统

Info

Publication number: CN105787119B
Application number: CN201610178716.XA
Authority: CN
Inventors: 周晟; 张龙; 魏亚楠
Original assignee: Shengqu Information Technology Shanghai Co Ltd
Current assignee: Shengqu Information Technology Shanghai Co Ltd
Priority date: 2016-03-25
Filing date: 2016-03-25
Publication date: 2020-06-16
Anticipated expiration: 2036-03-25
Also published as: CN105787119A

Abstract

本发明提供了一种基于混合引擎的大数据处理方法及系统，本发明基于HIVE和PRESTO混合引擎以HTTP标准协议与调用者交互，使用者用类SQL查询和处理大数据。根据提交任务的方式不同后台选择HIVE或者PRESTO引擎来执行数据查询任务，并将查询的结果基于HTTP协议以JSON格式返回给用户。本发明主要基于HIVE和PRESTO混合引擎，综合查询助手系统根据用户的需求，可以灵活自主地选择慢速查询hive和快速查询quick，对于数据量不是特别大时间跨度为最近2个月的对执行时间要求比较高的查询任务，这种任务由PRESTO引擎执行，对数据量比较大时间跨度比较长对执行时间要求不高的查询任务，这种任务由HIVE引擎执行，满足了用户个性化数据查询需要。

Description

基于混合引擎的大数据处理方法及系统

技术领域

本发明涉及一种基于混合引擎的大数据处理方法及系统。

背景技术

目前对于大数据的处理一般采用Hive/Hadoop的模式，综合查询助手综合了这两种方案的优点，采用HIVE和PRESTO混合引擎。

Hive建立在Hadoop上，是一种SQL On Hadoop,使用MapReduce作为底层计算框架，将数据查询或处理翻译成多阶段的MapReduce任务，一个接一个的执行，每一个任务从磁盘上读取输入数据并且将中间结果输出到磁盘上，基于HIVE的实现原理，随着数据越来越多，使用Hive进行一个简单的数据查询可能要花费几分到几小时，对于有延时比较低要求的数据任务采用HIVE显然是不可取的。

Presto是facebook开发的一个分布式SQL查询引擎，它被设计为用来专门进行高速、实时的数据分析，Presto引擎没有采用MapReduce,它使用了一个定制的查询和执行引擎和响应的操作符来支持类似SQL的语法。除了改进的调度算法之外，所有的数据处理都是在内存中进行的,这样会避免不必要的磁盘读写和额外的延迟，因此Presto的执行效率比HIVE高出很多，大概是HIVE的10多倍。

发明内容

本发明的目的在于提供一种基于混合引擎的大数据处理方法及系统，能够满足用户个性化数据查询需求。

为解决上述问题，本发明提供一种基于混合引擎的大数据处理方法，包括：

以HTTP协议的方式与用户交互，获取用户根据自己需求选择的以快速查询或者慢速查询的方式提交的数据查询任务；

根据提交任务的方式在后台选择HIVE或者PRESTO引擎来执行所述数据查询任务，并将查询的结果基于HTTP协议以JSON格式的方式返回给用户。

进一步的，在上述方法中，所述快速查询针对的是数据量较小、时间跨度较短、且对执行时间要求比较高的查询任务，所述快速查询方式提交的任务由PRESTO引擎来执行。

进一步的，在上述方法中，供所述快速查询的数据用ORC数据存储格式存储，并用SNAPPY压缩算法压缩。

进一步的，在上述方法中，所述慢速查询针对数据量较大、时间跨度比较长、且对执行时间要求不高的查询任务，以慢速查询方式提交的任务由HIVE引擎来执行。

进一步的，在上述方法中，将查询的结果以HTTP协议的方式返回给用户的步骤之后，还包括：

保存最近用户提交的数据查询任务并缓存其查询的结果。

根据本发明的另一面，提供一种基于混合引擎的大数据处理系统，包括：

获取模块，用于以HTTP协议的方式与用户交互，获取用户根据自己需求选择的以快速查询或者慢速查询的方式提交的数据查询任务；

执行模块，用于根据提交任务的方式在后台选择HIVE或者PRESTO引擎来执行所述数据查询任务，并将查询的结果基于HTTP协议以JSON格式的方式返回给用户。

进一步的，在上述系统中，所述快速查询针对的是数据量较小、时间跨度较短、且对执行时间要求比较高的查询任务，所述快速查询方式提交的任务由PRESTO引擎来执行。

进一步的，在上述系统中，供所述快速查询的数据用ORC数据存储格式存储，并用SNAPPY压缩算法压缩。

进一步的，在上述系统中，所述慢速查询针对数据量较大、时间跨度比较长、且对执行时间要求不高的查询任务，以慢速查询方式提交的任务由HIVE引擎来执行。

进一步的，在上述系统中，所述系统还包括保存模块，用于保存最近用户提交的数据查询任务并缓存其查询的结果。

与现有技术相比，本发明通过以HTTP协议的方式与用户交互，获取用户根据自己需求选择的以快速查询或者慢速查询的方式提交的数据查询任务；根据提交任务的方式在后台选择HIVE或者PRESTO引擎来执行所述数据查询任务，并将查询的结果以HTTP协议的方式返回给用户，本发明主要基于HIVE和PRESTO引擎，以HTTP协议的形式与用户交互的综合查询系统，方便用户提交查询任务和查看查询结果，综合查询助手根据用户任务的需求，主要分为慢速查询和快速查询，以满足用户个性化数据查询需求。

附图说明

图1是本发明一实施例的基于混合引擎的大数据处理方法的原理图；

图2是本发明一实施例的综合查询助手查询界面图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

实施例一

如图1所示，本发明提供一种基于混合引擎的大数据处理方法，包括：

综合查询助手，以HTTP协议的方式与用户交互，获取用户根据自己需求选择的以快速查询或者慢速查询的方式提交的数据查询任务；

综合查询助手，根据提交任务的方式在后台选择HIVE或者PRESTO引擎来执行所述数据查询任务，并将查询的结果基于HTTP协议以JSON格式的方式返回给用户。本发明主要基于HIVE和PRESTO引擎，以HTTP协议的形式与用户交互的综合查询系统，方便用户提交查询任务和查看查询结果，综合查询助手根据用户任务的需求，主要分为慢速查询和快速查询，以满足用户个性化数据查询需求。本发明的综合查询助手界面参见图2。

优选的，所述快速查询针对的是数据量较小、时间跨度较短、且对执行时间要求比较高的查询任务，所述快速查询方式提交的任务由PRESTO引擎来执行。例如，快速查询针对的是数据量不是特别大(GB级)时间跨度为最近2个月的对执行时间要求比较高的查询任务，这种任务由PRESTO引擎执行。

优选的，供所述快速查询的数据用ORC数据存储格式存储，并用SNAPPY压缩算法压缩。在此，为了优化快速查询的效果，将数据转换成ORC数据格式(一种基于列的高效的数据存储格式)，并采用SNAPPY算法压缩，以节省存储空间和I/O。例如，如图1所示，存储供快速查询的数据，简称HIVE-B，然后配置PRESTO,将PRESTO的HIVE连接器指向HIVE-B。

优选的，所述慢速查询针对数据量较大、时间跨度比较长、且对执行时间要求不高的查询任务，以慢速查询方式提交的任务由HIVE引擎来执行。例如，如图1所示，慢速查询主要针对数据量比较大(TB级-几百TB级)时间跨度比较长(数月甚至数年的数据)对执行时间要求不高的查询任务，这种任务由HIVE引擎执行。存储供慢速查询的数据，简称HIVE-A。

优选的，将查询的结果以HTTP协议的方式返回给用户的步骤之后，还包括：

保存最近用户提交的数据查询任务并缓存其查询的结果，以方便用户查看历史查询任务和查询结果。

详细的，本实施例的具体实现方式如下表：

实施例二

本发明还提供另一种基于混合引擎的大数据处理系统，提供一种基于混合引擎的大数据处理系统，包括：

实施例二的其它详细内容，具体可参见实施例一的对应部分，在此，不再赘述。

本发明通过以HTTP协议的方式与用户交互，获取用户根据自己需求选择的以快速查询或者慢速查询的方式提交的数据查询任务；根据提交任务的方式在后台选择HIVE或者PRESTO引擎来执行所述数据查询任务，并将查询的结果以HTTP协议的方式返回给用户，本发明主要基于HIVE和PRESTO引擎，以HTTP协议的形式与用户交互的综合查询系统，方便用户提交查询任务和查看查询结果，综合查询助手根据用户任务的需求，主要分为慢速查询和快速查询，以满足用户个性化数据查询需求。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

显然，本领域的技术人员可以对发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包括这些改动和变型在内。

Claims

1.一种基于混合引擎的大数据处理方法，其特征在于，包括：

以HTTP协议的方式与用户交互，获取用户根据自己需求用类似SQL的方式选择的以快速查询或者慢速查询的方式提交的数据查询任务；

根据提交任务的方式在后台选择HIVE或者PRESTO引擎来执行所述数据查询任务，并将查询的结果基于HTTP协议以JSON格式的方式返回给用户；

其中，以快速查询的方式提交的数据查询任务由PRESTO引擎在内存中进行处理；其中配置PRESTO，将PRESTO的HIVE的连接器指向转换为ORC数据格式并用SNAPPY算法压缩的快速查询的数据。

2.如权利要求1所述的基于混合引擎的大数据处理方法，其特征在于，所述快速查询针对的是数据量较小、时间跨度较短、且对执行时间要求比较高的查询任务，所述快速查询方式提交的任务由PRESTO引擎来执行。

3.如权利要求2所述的基于混合引擎的大数据处理方法，其特征在于，供所述快速查询的数据用ORC数据存储格式存储，并用SNAPPY压缩算法压缩。

4.如权利要求1所述的基于混合引擎的大数据处理方法，其特征在于，所述慢速查询针对数据量较大、时间跨度比较长、且对执行时间要求不高的查询任务，以慢速查询方式提交的任务由HIVE引擎来执行。

5.如权利要求1所述的基于混合引擎的大数据处理方法，其特征在于，将查询的结果以HTTP协议的方式返回给用户的步骤之后，还包括：

保存最近用户提交的数据查询任务并缓存其查询的结果。

6.一种基于混合引擎的大数据处理系统，其特征在于，包括：

获取模块，用于以HTTP协议的方式与用户交互，获取用户根据自己需求用类似SQL的方式选择的以快速查询或者慢速查询的方式提交的数据查询任务；

执行模块，用于根据提交任务的方式在后台选择HIVE或者PRESTO引擎来执行所述数据查询任务，并将查询的结果基于HTTP协议以JSON格式的方式返回给用户；

7.如权利要求6所述的基于混合引擎的大数据处理系统，其特征在于，所述快速查询针对的是数据量较小、时间跨度较短、且对执行时间要求比较高的查询任务，所述快速查询方式提交的任务由PRESTO引擎来执行。

8.如权利要求7所述的基于混合引擎的大数据处理系统，其特征在于，供所述快速查询的数据用ORC数据存储格式存储，并用SNAPPY压缩算法压缩。

9.如权利要求6所述的基于混合引擎的大数据处理系统，其特征在于，所述慢速查询针对数据量较大、时间跨度比较长、且对执行时间要求不高的查询任务，以慢速查询方式提交的任务由HIVE引擎来执行。

10.如权利要求6所述的基于混合引擎的大数据处理系统，其特征在于，所述系统还包括保存模块，用于保存最近用户提交的数据查询任务并缓存其查询的结果。