CN114254051A - 一种大数据计算方法、装置及大数据平台 - Google Patents

一种大数据计算方法、装置及大数据平台 Download PDF

Info

Publication number
CN114254051A
CN114254051A CN202011005233.2A CN202011005233A CN114254051A CN 114254051 A CN114254051 A CN 114254051A CN 202011005233 A CN202011005233 A CN 202011005233A CN 114254051 A CN114254051 A CN 114254051A
Authority
CN
China
Prior art keywords
computing
engine
data
calculation
big data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011005233.2A
Other languages
English (en)
Inventor
杨泽森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jingdong Technology Holding Co Ltd
Original Assignee
Jingdong Technology Holding Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jingdong Technology Holding Co Ltd filed Critical Jingdong Technology Holding Co Ltd
Priority to CN202011005233.2A priority Critical patent/CN114254051A/zh
Publication of CN114254051A publication Critical patent/CN114254051A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/258Data format conversion from or to a database
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及一种大数据计算方法、装置及大数据平台,该方法包括:获取计算任务;在大数据平台中确定所述计算任务对应的计算引擎,所述大数据平台中部署至少两个计算引擎;将所述计算任务路由到所述计算引擎,由所述计算引擎根据所述计算任务在所述大数据平台中获取待计算数据,根据所述计算任务执行对所述待计算数据的计算;输出所述计算引擎得到的计算结果。该技术方案对于用户多种计算需求,都可在一个大数据平台上完成,用户无需学习和使用多个平台。并且,用户仅需把计算所需数据授权给一个大数据平台,就可以进行不同类型的计算,降低数据存储成本及网络传输成本。另外,对同一计算环境的运维资源消耗较低,降低了运维成本。

Description

一种大数据计算方法、装置及大数据平台
技术领域
本申请涉及计算机技术领域,尤其涉及一种大数据计算方法、装置及大数据平台。
背景技术
目前企业普遍存在海量的各种文件数据、视频音频等流媒体数据、物联网数据、生产系统的各类数据库数据等,包含结构化、半结构化及非结构化数据。在企业决策分析过程中,需要对这些数据进行数据加工和计算,经过数据分析和数据挖掘总结萃取出对企业营销、企业运营、企业服务能够提供高价值的决策信息。对于企业的海量大数据,在决策分析过程中需要经过各类数据计算,很多企业构建了不同的数据计算平台环境,来支持企业的不同计算业务场景,如:批处理计算平台、实时计算平台环境、实时数据仓库环境等。
但是,现有各类计算服务分布在不同平台环境,各平台的用户操作方式、UI风格、使用流程等存在很大差异,用户学习和使用成本高昂;用户在使用过程中,需要把所需数据拷贝或授权给不同的计算服务系统,然后再进行计算,造成数据存储成本和网络传输成本高昂;不同的计算环境需要不同人员、机器、运维系统等资源,造成运维成本高昂。
发明内容
为了解决上述技术问题或者至少部分地解决上述技术问题,本申请实施例提供了一种大数据计算方法、装置及大数据平台。
根据本申请实施例的一个方面,提供了一种大数据计算方法,包括:
获取计算任务;
在大数据平台中确定所述计算任务对应的计算引擎,所述大数据平台中部署至少两个计算引擎;
将所述计算任务路由到所述计算引擎,由所述计算引擎根据所述计算任务在所述大数据平台中获取待计算数据,根据所述计算任务执行对所述待计算数据的计算;
输出所述计算引擎得到的计算结果。
可选的,所述方法还包括:
从数据源采集原始数据;
将所述原始数据转换为预设文件格式,得到待存储数据;
将所述待存储数据存储到所述大数据平台的第一Hadoop集群中,所述待存储数据自动分布到所述第一Hadoop集群的各存储节点中。
可选的,所述方法还包括:
在第二Hadoop集群中部署至少两个所述计算引擎;
根据所述第二Hadoop集群中部署的所述计算引擎构建路由表;
所述在大数据平台中确定所述计算任务对应的计算引擎,包括:
根据所述路由表将所述计算任务路由到所述计算引擎。
可选的,所述第一Hadoop集群与所述第二Hadoop集群为同一集群。
可选的,所述至少两个所述计算引擎为不同类型和/或不同计算框架;
所述计算引擎的类型包括以下至少一种:实时计算引擎、批处理引擎、即席查询引擎、联邦查询引擎和实时数据仓库服务引擎;
所述计算引擎的计算框架包括以下至少一种:Tez、Spark、MR、Flink、SparkStream、Storm、Kafka、Presto、Dryad、Druid、Kylin和Impala。
可选的,所述在大数据平台中确定所述计算任务对应的计算引擎,包括:
将选定的计算引擎确定为所述计算任务对应的计算引擎;
所述方法还包括:
当检测到所述计算引擎根据所述计算任务进行计算出现运行错误时,确定对所述计算任务的推荐计算引擎,所述推荐计算引擎与所述选定的计算引擎不同;
将所述计算任务路由到所述推荐计算引擎,由所述推荐计算引擎根据所述计算任务执行对所述待计算数据的计算。
根据本申请实施例的另一个方面,提供了一种大数据计算装置,包括:
获取模块,用于获取计算任务;
确定模块,用于在大数据平台中确定所述计算任务对应的计算引擎,所述大数据平台中部署至少两个计算引擎;
路由模块,用于将所述计算任务路由到所述计算引擎,由所述计算引擎根据所述计算任务在所述大数据平台中获取待计算数据,根据所述计算任务执行对所述待计算数据的计算;
输出模块,用于输出所述计算引擎得到的计算结果。
根据本申请实施例的另一个方面,提供了一种大数据平台,包括:引擎路由及与所述引擎路由连接的至少两个计算引擎;
所述引擎路由,用于确定计算任务对应的计算引擎,将所述计算任务路由到所述计算引擎;
所述计算引擎,用于根据所述计算任务在所述大数据平台中获取待计算数据,根据所述计算任务执行对所述待计算数据的计算,将得到的计算结果输出。
可选的,该大数据平台还包括:
采集工具,用于从数据源采集原始数据;
第一Hadoop集群,用于将所述原始数据转换为预设文件格式,将得到的待存储数据分布存储到各存储节点;
所述计算引擎,用于根据所述计算任务从所述第一Hadoop集群获取待计算数据。
可选的,该大数据平台还包括:
第二Hadoop集群,用于部署至少两个所述计算引擎;
所述引擎路由,还用于根据所述第二Hadoop集群中部署的所述计算引擎构建路由表,根据所述路由表将所述计算任务路由到所述计算引擎。
根据本申请实施例的另一方面,还提供了一种存储介质,该存储介质包括存储的程序,程序运行时执行上述的步骤。
根据本申请实施例的另一个方面,提供了一种电子设备,包括:处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
所述存储器,用于存放计算机程序;
所述处理器,用于执行计算机程序时,实现上述方法步骤。
根据本申请实施例的另一个方面,提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述方法步骤。
本申请实施例提供的上述技术方案与现有技术相比具有如下优点:
本实施例中,在同一大数据平台上部署多个计算引擎,可采用已部署的计算引擎调取计算任务对应的数据来完成计算,这样,对于用户多种计算需求,都可在一个大数据平台上完成,用户无需学习和使用多个平台。并且,用户仅需把计算所需数据授权给一个大数据平台,就可以进行不同类型的计算,降低数据存储成本及网络传输成本。另外,对同一计算环境的运维资源消耗较低,降低了运维成本。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种大数据计算方法的流程图;
图2为本申请实施例提供的大数据平台UI界面的示意图;
图3为本申请另一实施例提供的一种大数据计算方法的流程图;
图4为本申请另一实施例提供的一种大数据计算方法的流程图;
图5为本申请实施例提供的一种大数据计算装置的框图;
图6为本申请实施例提供的一种大数据平台的框图;
图7为本申请另一实施例提供的一种大数据平台的框图;
图8为本申请另一实施例提供的一种大数据平台的框图;
图9为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
大数据(Big Data)是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
本申请实施例提供一种大数据计算技术,在同一个平台上实现批处理计算、实时计算、实时数据仓库、即席查询、联邦查询等各类大数据业务计算服务。
下面首先对本发明实施例所提供的一种大数据计算方法进行介绍。
图1为本申请实施例提供的一种大数据计算方法的流程图。如图1所示,该方法包括以下步骤:
步骤S11,获取计算任务;
步骤S12,在大数据平台中确定计算任务对应的计算引擎,大数据平台中部署至少两个计算引擎;
步骤S13,将计算任务路由到计算引擎,由计算引擎根据计算任务在大数据平台中获取待计算数据,根据计算任务执行对待计算数据的计算;
步骤S14,输出计算引擎得到的计算结果。
本实施例中,在同一大数据平台上部署多个计算引擎,可采用已部署的计算引擎调取计算任务对应的数据来完成计算,这样,对于用户多种计算需求,都可在一个大数据平台上完成,用户无需学习和使用多个平台。并且,用户仅需把计算所需数据授权给一个大数据平台,就可以进行不同类型的计算,降低数据存储成本及网络传输成本。另外,对同一计算环境的运维资源消耗较低,降低了运维成本。
可选的,如图2所示,本实施例提供UI界面,在该页面上提供脚本编写、任务提交、计算引擎选择、脚本保存、运行记录查询等功能。
在上述步骤S11中,用户可在UI界面上输入、导入或选择计算任务。如图2所示,在UI界面上提供脚本编写输入框21,用户可以在脚本编写输入框中写入计算任务的程序代码;或者,在UI界面上提供计算任务导入选项,用户点击后可以从本地或网络上导入计算任务的代码;或者,大数据平台可保存用户常用的或历史使用过的计算任务,用户可从以保存记录中查询所需的计算任务。
上述步骤S12中,在大数据平台中确定计算任务对应的计算引擎,包括:将选定的计算引擎确定为计算任务对应的计算引擎。
该方法还包括:
当检测到计算引擎根据计算任务进行计算出现运行错误时,确定对计算任务的推荐计算引擎,推荐计算引擎与选定的计算引擎不同;
将计算任务路由到推荐计算引擎,由推荐计算引擎根据计算任务执行对待计算数据的计算。
在UI界面上提供各种计算引擎对应的引擎选项,用户可以通过点击选项来选择所需的计算引擎。如图2所示,引擎选项22为一个下拉菜单选择框,下拉菜单中包括四个计算引擎对应的引擎选项:Tez、MR、Spark、Presto。用户点击“Presto”后,即选择计算引擎Presto。
在UI界面上的下拉菜单中,可以直接显示计算引擎的计算框架名称,如Tez、MR、Spark、Presto等等,还可以直接显示计算引擎的类型,如批处理、实时计算、即席查询、联邦查询、实时数据仓库等等。
本实施例中,在根据用户选定的计算引擎进行计算的过程中,可能会出现运行错误的情况,该选定的计算引擎无法正确执行的计算任务,此时,可以将计算任务路由到大数据平台默认或推荐的计算引擎,来完成用户所需的计算。这样,可以提高对于大数据计算的准确性和有效性。
在大数据平台上,存在一个或多个Hadoop集群。Hadoop是一个由Apache基金会所开发的分布式系统基础架构。Hadoop的框架最核心的设计就是HDFS和MapReduce。HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算。
图3为本申请另一实施例提供的一种大数据计算方法的流程图。如图3所示,该方法还包括以下步骤:
步骤S21,从数据源采集原始数据;
步骤S22,将原始数据转换为预设文件格式,得到待存储数据;
步骤S23,将待存储数据存储到大数据平台的第一Hadoop集群中,待存储数据自动分布到第一Hadoop集群的各存储节点中。
本实施例中,计算引擎进行计算所需的数据均来源于大数据平台,大数据平台中的数据是来源企业的业务生产系统、采购的第三方数据以及政府公开数据。通过大数据平台的数据采集工具,如开源数据采集工具Sqoop,将上述各类数据采集到大数据平台中的同一个Hadoop集群存储,数据会自动分布到该hadoop集群的不同的存储节点中。
Sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(MySQL、PostgreSQL...)间进行数据的传递,可以将一个关系型数据库(例如MySQL,Oracle,PostgreSQL等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。
在数据采集时,可以对所有类型文件格式的数据进行采集,如文本、SequenceFile、MapFile、Avro Datafile、Parquet、RCFile、ORCFile等。为了在同一个hadoop集群中同时支持各类计算引擎,如同时支持即席查询引擎、联邦查询引擎和批处理引擎等等,在将采集到数据存储到hadoop集群之前,可以将数据统一转换为ORCFile文件格式。
通过上述步骤S21至步骤S23,计算所需的数据均存储于大数据平台的一个Hadoop集群中,这样计算引擎仅从该集群中调取数据进行计算即可,无需从其他平台或其他Hadoop集群调取数据,减少传输数据量,节约网络传输成本。另外,由于将数据采用统一的格式进行存储,使得同时支持各类计算引擎的计算处理。
图4为本申请另一实施例提供的一种大数据计算方法的流程图。如图4所示,该方法还包括以下步骤:
步骤S31,在第二Hadoop集群中部署至少两个计算引擎;
步骤S32,根据第二Hadoop集群中部署的计算引擎构建路由表。
本实施例中,在同一Hadoop集群中部署计算引擎,即由同一Hadoop集群提供不同的大数据计算服务。通过Java程序,可以根据Hadoop集群中部署的计算引擎在引擎路由服务层构建路由表,当确定计算任务对应的计算引擎后,引擎路由服务层根据路由表将计算任务路由到该计算引擎。
可选的,大数据平台中可以有一个或多个Hadoop集群。数据存储和计算引擎可以部署在不同Hadoop集群,也可部署在同一Hadoop集群。将数据存储和计算引擎部署在同一Hadoop集群,即上述第一Hadoop集群和第二Hadoop集群为同一集群,这样不同计算引擎访问的数据范围相同,无需跨集群调取数据,且节约集群的存储空间。
可选的,至少两个计算引擎为不同类型和/或不同计算框架。计算引擎的类型包括以下至少一种:实时计算引擎、批处理引擎、即席查询引擎、联邦查询引擎和实时数据仓库服务引擎。计算引擎的计算框架包括以下至少一种:Tez、Spark、MR、Flink、Spark Stream、Storm、Kafka、Presto、Dryad、Druid、Kylin和Impala。
下面对本实施例中涉及到计算引擎的类型进行介绍。
(1)实时计算(Realtime Computation)引擎
在企业高速发展情况下,实时的数据统计分析需求不断增多,对于企业及时发现企业经营风险和实时决策分析越来越重要。支持实时计算引擎的计算框架有spark、storm、Flink等。
(2)批处理(Batch)引擎
在大数据分析的业务场景中,约70%以上是批处理的计算需求。处理就是对某对象进行批量的处理,通常被认为是一种简化的脚本语言,它应用于DOS和Windows、linux、大数据、云计算等系统中。批处理引擎主要操作大容量静态数据集,并在计算过程完成后返回结果。目前支持批处理引擎的计算框架有Tez、Spark、MR等。
(3)即席查询(Ad Hoc)引擎
即席查询是用户根据自己的需求,灵活的选择查询条件,系统能够根据用户的选择生成相应的统计报表。即席查询与普通应用查询最大的不同是普通的应用查询是定制开发的,而即席查询是由用户自定义查询条件的。即席查询引擎可以快速高效地支持企业数据分析人员通过SQL对企业大数据信息进行查询和计算,同时在计算时效上比批处理计算速度要快很多。常用的即席查询引擎计算框架有Presto、Impala等。
(4)联邦查询(Query Federation)引擎
联邦查询能够跨异构数据源(如:MySQL、SQLServer、Oracle、Hive等)进行数据关联查询,如一部分数据在MySQL,一部分数据在大数据环境Hive数据仓库,这两部分数据可通过联邦查询引擎进行读取和计算。常见可用于联邦查询引擎的计算框架有Presto、Spark等。
Presto联邦查询引擎的多数据源配置方法如下:在Presto的安装目录etc/catalog文件夹,该文件夹相当于一个数据库实例,所有的数据库连接都在该文件夹下进行配置。配置文件命名格式dbname.properties,如:MySQL连接配置:mysql.properties,Hive连接:hive.properties,等。其他Greenplum、SQL Server、Oracle等数据库连接与此类似。各类数据源连接配置文件中的信息按照Presto官方标准进行配置。当进行多数据源查询时,表全名是:文件名.连接池名.表名,比如查表tbl:dbname.properties.connectorname.tbl。
(5)实时数据仓库(Realtime Data Warehouse)服务引擎
实时数据仓库是大数据的实时计算平台通过一系列的技术框架组合,实现秒级或分钟延迟的实时数据模型(实时数据模型由维度和指标信息组成)。常见可用于实时数据仓库服务引擎的计算框架有Presto、Spark等。实时数据仓库服务引擎可以提供实时数据模型的查询服务,其他计算引擎可以向实时数据仓库服务引擎来查询统一集群上存在的实时数据模型。
下面对上述计算框架进行说明。
MR:MapReduce,一种编程模型,面向大数据并行处理的计算模型、框架和平台。借助于函数式程序设计语言Lisp的设计思想,提用Map和Reduce两个函数编程实现基本的并行计算任务,提供了抽象的操作和并行编程接口,以简单方便地完成大规模数据的编程和计算处理。
Tez:是基于Hadoop Yarn之上的有向无环图(Directed Acyclic Graph,DAG)计算框架。它把MapReduce过程拆分成若干个子过程,同时可以把多个MapReduce任务组合成一个较大的DAG任务,减少了MapReduce之间的文件存储。同时合理组合其子过程,也可以减少任务的运行时间。
Spark:基于MapReduce算法实现的分布式计算,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出和结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的map reduce的算法。
Storm:是一个免费开源、分布式、高容错的实时计算系统。适用于在实时分析、在线机器学习、持续计算、分布式远程调用等领域。
Presto:是一个开源的分布式SQL查询引擎,适用于交互式分析查询,数据量支持GB到PB字节。
Hive:是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。
Impala:是Cloudera公司主导开发的新型查询系统,它提供SQL语义,能查询存储在Hadoop的HDFS和HBase中的PB级大数据。
Spark Stream:是流式处理框架,是Spark API的扩展,支持可扩展、高吞吐量、容错的实时数据流处理,实时数据的来源可以是:Kafka,Flume,Twitter,ZeroMQ或者TCPsockets,并且可以使用高级功能的复杂算子来处理流数据。是流式处理框架,是Spark API的扩展,支持可扩展、高吞吐量、容错的实时数据流处理,实时数据的来源可以是:Kafka,Flume,Twitter,ZeroMQ或者TCP sockets,并且可以使用高级功能的复杂算子来处理流数据。
Kafka:是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者在网站中的所有动作流数据。具有高性能、持久化、多副本备份、横向扩展能力。生产者往队列里写消息,消费者从队列里取消息进行业务逻辑。一般在架构设计中起到解耦、削峰、异步处理的作用。
Dryad:是一款微软并行软件平台。微软的Dryad项目主要研究用于编写并行和分布式程序的编程模型。
Druid:是一个高效的数据查询系统,主要解决的是对于大量的基于时序的数据进行聚合查询。数据可以实时摄入,进入到Druid后立即可查,同时数据是几乎是不可变。通常是基于时序的事实事件,事实发生后进入Druid,外部系统就可以对该事实进行查询。
Kylin:是一个开源的分布式分析引擎,提供Hadoop之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据,通过预计算实现低延迟,即针对一个星型拓扑结构的数据立方体,预计算多个维度组合的度量,然后将结果保存在Hbase中,对外暴露JDBC、ODBC、Rest API的查询接口,即可实现实时查询。
下述为本申请装置实施例,可以用于执行本申请方法实施例。
图5为本申请实施例提供的一种大数据计算装置的框图,该装置可以通过软件、硬件或者两者的结合实现成为电子设备的部分或者全部。如图5所示,该大数据计算装置包括:
获取模块41,用于获取计算任务;
确定模块42,用于在大数据平台中确定计算任务对应的计算引擎,大数据平台中部署至少两个计算引擎;
路由模块43,用于将计算任务路由到计算引擎,由计算引擎根据计算任务在大数据平台中获取待计算数据,根据计算任务执行对待计算数据的计算;
输出模块44,用于输出计算引擎得到的计算结果。
图6为本申请实施例提供的一种大数据平台的框图,如图6所示,该大数据平台包括:引擎路由51及与该引擎路由51连接的至少两个计算引擎52。
引擎路由51,用于确定计算任务对应的计算引擎,将计算任务路由到计算引擎52;
计算引擎52,用于根据计算任务在大数据平台中获取待计算数据,根据计算任务执行对待计算数据的计算,将得到的计算结果输出。
图7为本申请另一实施例提供的一种大数据平台的框图,如图7所示,该大数据平台还包括:
采集工具53,用于从数据源采集原始数据;
第一Hadoop集群54,用于将原始数据转换为预设文件格式,将得到的待存储数据分布存储到各存储节点;
计算引擎52,用于根据计算任务从第一Hadoop集群54获取待计算数据。
图8为本申请另一实施例提供的一种大数据平台的框图,如图8所示,该大数据平台还包括:
第二Hadoop集群55,用于部署至少两个计算引擎;
引擎路由51,还用于根据第二Hadoop集群55中部署的计算引擎构建路由表,根据路由表将计算任务路由到计算引擎52。
本申请实施例还提供一种电子设备,如图9所示,电子设备可以包括:处理器1501、通信接口1502、存储器1503和通信总线1504,其中,处理器1501,通信接口1502,存储器1503通过通信总线1504完成相互间的通信。
存储器1503,用于存放计算机程序;
处理器1501,用于执行存储器1503上所存放的计算机程序时,实现以下上述方法实施例的步骤。
上述电子设备提到的通信总线可以是外设部件互连标准(PeripheralComponentInterconnect,P C I)总线或扩展工业标准结构(Extended IndustryStandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(DigitalSignalProcessing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
本申请还提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以下上述方法实施例的步骤。
需要说明的是,对于上述装置、电子设备及计算机可读存储介质实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
进一步需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本发明的具体实施方式,使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

Claims (12)

1.一种大数据计算方法,其特征在于,包括:
获取计算任务;
在大数据平台中确定所述计算任务对应的计算引擎,所述大数据平台中部署至少两个计算引擎;
将所述计算任务路由到所述计算引擎,由所述计算引擎根据所述计算任务在所述大数据平台中获取待计算数据,根据所述计算任务执行对所述待计算数据的计算;
输出所述计算引擎得到的计算结果。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
从数据源采集原始数据;
将所述原始数据转换为预设文件格式,得到待存储数据;
将所述待存储数据存储到所述大数据平台的第一Hadoop集群中,所述待存储数据自动分布到所述第一Hadoop集群的各存储节点中。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
在第二Hadoop集群中部署至少两个所述计算引擎;
根据所述第二Hadoop集群中部署的所述计算引擎构建路由表;
所述在大数据平台中确定所述计算任务对应的计算引擎,包括:
根据所述路由表将所述计算任务路由到所述计算引擎。
4.根据权利要求3所述的方法,其特征在于,所述第一Hadoop集群与所述第二Hadoop集群为同一集群。
5.根据权利要求3所述的方法,其特征在于,所述至少两个所述计算引擎为不同类型和/或不同计算框架;
所述计算引擎的类型包括以下至少一种:实时计算引擎、批处理引擎、即席查询引擎、联邦查询引擎和实时数据仓库服务引擎;
所述计算引擎的计算框架包括以下至少一种:Tez、Spark、MR、Flink、Spark Stream、Storm、Kafka、Presto、Dryad、Druid、Kylin和Impala。
6.根据权利要求1所述的方法,其特征在于,所述在大数据平台中确定所述计算任务对应的计算引擎,包括:
将选定的计算引擎确定为所述计算任务对应的计算引擎;
所述方法还包括:
当检测到所述计算引擎根据所述计算任务进行计算出现运行错误时,确定对所述计算任务的推荐计算引擎,所述推荐计算引擎与所述选定的计算引擎不同;
将所述计算任务路由到所述推荐计算引擎,由所述推荐计算引擎根据所述计算任务执行对所述待计算数据的计算。
7.一种大数据计算装置,其特征在于,包括:
获取模块,用于获取计算任务;
确定模块,用于在大数据平台中确定所述计算任务对应的计算引擎,所述大数据平台中部署至少两个计算引擎;
路由模块,用于将所述计算任务路由到所述计算引擎,由所述计算引擎根据所述计算任务在所述大数据平台中获取待计算数据,根据所述计算任务执行对所述待计算数据的计算;
输出模块,用于输出所述计算引擎得到的计算结果。
8.一种大数据平台,其特征在于,包括:引擎路由及与所述引擎路由连接的至少两个计算引擎;
所述引擎路由,用于确定计算任务对应的计算引擎,将所述计算任务路由到所述计算引擎;
所述计算引擎,用于根据所述计算任务在所述大数据平台中获取待计算数据,根据所述计算任务执行对所述待计算数据的计算,将得到的计算结果输出。
9.根据权利要求8所述的大数据平台,其特征在于,还包括:
采集工具,用于从数据源采集原始数据;
第一Hadoop集群,用于将所述原始数据转换为预设文件格式,将得到的待存储数据分布存储到各存储节点;
所述计算引擎,用于根据所述计算任务从所述第一Hadoop集群获取待计算数据。
10.根据权利要求9所述的大数据平台,其特征在于,还包括:
第二Hadoop集群,用于部署至少两个所述计算引擎;
所述引擎路由,还用于根据所述第二Hadoop集群中部署的所述计算引擎构建路由表,根据所述路由表将所述计算任务路由到所述计算引擎。
11.一种电子设备,其特征在于,包括:处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
所述存储器,用于存放计算机程序;
所述处理器,用于执行所述计算机程序时,实现权利要求1-6任一项所述的方法步骤。
12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1-6任一项所述的方法步骤。
CN202011005233.2A 2020-09-22 2020-09-22 一种大数据计算方法、装置及大数据平台 Pending CN114254051A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011005233.2A CN114254051A (zh) 2020-09-22 2020-09-22 一种大数据计算方法、装置及大数据平台

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011005233.2A CN114254051A (zh) 2020-09-22 2020-09-22 一种大数据计算方法、装置及大数据平台

Publications (1)

Publication Number Publication Date
CN114254051A true CN114254051A (zh) 2022-03-29

Family

ID=80788497

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011005233.2A Pending CN114254051A (zh) 2020-09-22 2020-09-22 一种大数据计算方法、装置及大数据平台

Country Status (1)

Country Link
CN (1) CN114254051A (zh)

Similar Documents

Publication Publication Date Title
CN107861859B (zh) 一种基于微服务架构的日志管理方法及系统
US10447772B2 (en) Managed function execution for processing data streams in real time
US10620923B2 (en) System and method for dynamic, incremental recommendations within real-time visual simulation
Zheng et al. Service-generated big data and big data-as-a-service: an overview
US10218808B2 (en) Scripting distributed, parallel programs
CN107145489B (zh) 一种基于云平台的客户端应用的信息统计方法和装置
CN107908672B (zh) 基于Hadoop平台的应用报表实现方法、设备及存储介质
Bordin et al. Dspbench: A suite of benchmark applications for distributed data stream processing systems
CN108039959B (zh) 一种数据的态势感知方法、系统及相关装置
CN110908641B (zh) 基于可视化的流计算平台、方法、设备和存储介质
CN111339073A (zh) 实时数据处理方法、装置、电子设备及可读存储介质
CN110675194A (zh) 一种漏斗分析方法、装置、设备及可读介质
US10657099B1 (en) Systems and methods for transformation and analysis of logfile data
WO2022083436A1 (zh) 数据处理方法、装置、设备及可读存储介质
CN110147470B (zh) 一种跨机房数据比对系统及方法
CN111177237B (zh) 一种数据处理系统、方法及装置
CN111400288A (zh) 数据质量检查方法及系统
CN112148578A (zh) 基于机器学习的it故障缺陷预测方法
CN114297173A (zh) 一种面向大规模海量数据的知识图谱构建方法和系统
CN110555038A (zh) 一种数据处理系统、方法及装置
Hesse et al. Senska–towards an enterprise streaming benchmark
CN112800058A (zh) 一种HBase二级索引的实现方法
CN113760677A (zh) 异常链路分析方法、装置、设备及存储介质
CN113810234B (zh) 微服务链路拓扑处理方法、装置及可读存储介质
CN113220530B (zh) 数据质量监控方法及平台

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination