CN107861804A

CN107861804A - 大数据计算方法、计算系统、计算机设备及可读存储介质

Info

Publication number: CN107861804A
Application number: CN201711048689.5A
Authority: CN
Inventors: 金锋; 李长山
Original assignee: Uf Financial Information Technology Ltd By Share Ltd
Current assignee: Uf Financial Information Technology Ltd By Share Ltd
Priority date: 2017-10-31
Filing date: 2017-10-31
Publication date: 2018-03-30

Abstract

本发明提出了一种大数据计算方法、大数据计算系统、计算机设备、计算机可读存储介质。其中，大数据计算方法包括：获取待处理任务，根据待处理任务提交计算作业至Spark计算引擎；将计算作业提交至作业列队中；判断Spark计算引擎中是否具有调度计算作业所需的物理资源；在Spark计算引擎中具有物理资源时，调度计算作业；控制计算作业加载计算数据，并对计算数据进行计算，以生成计算结果；存储计算结果。本发明基于大数据Spark的分摊计算引擎，充分利用了Spark强大的分布式并行处理和内存计算能力、快速查询的优势，提高了计算任务的并发数量，提升了多维度分析计算的效率。

Description

大数据计算方法、计算系统、计算机设备及可读存储介质

技术领域

本发明涉及大数据计算技术领域，具体而言，涉及一种大数据计算方法、大数据计算系统、计算机设备、计算机可读存储介质。

背景技术

随着金融机构精细化管理的深入，已经从对机构和部门的盈利，对业务线和产品的关注，发展到对客户经理，客户，渠道，项目等多维度经营数据的关注。经营成本分摊已从机构，产品维度细化到账户，交易级维度的分摊。

同时随着原始凭证数据的细化，分摊规则多样化，相对于原始数据，分摊结果往往呈几何倍数的增长，结果数据已经达到亿级，甚至几十亿的数据量。这对计算的消耗时间，分摊结果核对和查询效率都提出了非常高的要求，即便在应用某国外高性能内存数据库的场景下，也需要十个小时甚至更多时间完成一次分摊计算。传统的应用架构已经不能满足这样大数据量，高密度计算的应用需求。

因此，如何解决针对分摊的业务场景深度优化，实现卓越的计算性能和查询效率提升，让企业的内部管理更深入、更高效成为亟待解决的问题。

发明内容

本发明旨在至少解决现有技术或相关技术中存在的技术问题之一。

为此，本发明第一个方面在于提出一种大数据计算方法。

本发明的第二个方面在于提出一种大数据计算系统。

本发明的第三个方面在于提出一种计算机设备。

本发明的第四个方面在于提出一种计算机可读存储介质。

有鉴于此，根据本发明的一个方面，提出了一种大数据计算方法，包括：获取待处理任务，根据待处理任务提交计算作业至Spark计算引擎；将计算作业提交至作业列队中；判断Spark计算引擎中是否具有调度计算作业所需的物理资源；在Spark计算引擎中具有物理资源时，调度计算作业；控制计算作业加载计算数据，并对计算数据进行计算，以生成计算结果；存储计算结果。

本发明提供的大数据计算方法，获取待处理任务，根据待处理任务提交计算作业至Spark计算引擎，实现了自动向Spark计算引擎提交计算作业，Spark计算引擎是可以独立部署的大数据计算引擎，从架构上，把分析计算任务从业务系统中剥离出来，从而减轻了业务系统的负载。将计算作业提交至作业列队中，判断Spark计算引擎中是否具有调度计算作业所需的物理资源，在Spark计算引擎中具有物理资源时，调度计算作业，控制计算作业加载计算数据，并对计算数据进行计算，生成计算结果充分利用了Spark大数据集群资源以及强大的分布式并行处理和内存计算能力、快速查询的优势，提高了计算任务的并发数量，提升了多维度分析计算的效率。存储对数据进行计算的计算结果，新的存储系统，兼顾顺序与随机读写的效率。

根据本发明的上述大数据计算方法，还可以具有以下技术特征：

在上述技术方案中，优选地，在Spark计算引擎中不具有物理资源时，控制计算作业继续保持在作业列队中。

在该技术方案中，在资源调度模块不具备调度作业所需的资源时，不进行作业调度，控制计算作业继续保持在作业列队中，等待分配到相关可用资源，当已被调度执行的计算作业任务结束后，释放相关资源时，再进行调度，进一步进行数据加载以及计算。

在上述任一技术方案中，优选地，控制计算作业加载计算数据，并对计算数据进行计算，以生成计算结果的过程，具体包括：将计算作业的原始数据转换为弹性分布式数据集；对弹性分布式数据集上进行转换和操作，以生成计算结果弹性分布式数据集；将计算结果弹性分布式数据集转换为预设文本结果，并输出预设文本结果。

在该技术方案中，控制计算作业加载计算数据，并对计算数据进行计算，以生成计算结果的过程，因为原始数据的格式不一定适用Spark计算引擎，那么将计算作业的原始数据转换为Spark中弹性分布式数据集(RDD)，然后Spark计算引擎对弹性分布式数据集上进行转换(Transformation)和操作(Action)，就会生成计算结果弹性分布式数据集，最后将计算结果弹性分布式数据集转换为预设文本结果，并输出预设文本结果。如此，充分利用了RDD分布式内存的计算能力，实现了计算任务在Spark计算引擎中快速、可靠的计算，提高了计算任务的并发数量，提升了计算效率。

在上述任一技术方案中，优选地，获取待处理任务，根据待处理任务提交计算作业至Spark计算引擎的过程，具体包括：将获取的计算作业以RESTful的方式提交至Spark计算引擎。

在该技术方案中，获取待处理任务，根据待处理任务提交计算作业至Spark计算引擎过程中，具体是以RESTful的方式提交至Spark计算引擎，基于RESTful这种软件架构风格，设计的软件可以更加简洁、更有层次，且更易于实现缓存等机制。

在上述任一技术方案中，优选地，存储计算结果的过程，具体包括：以多副本的形式存储计算结果。

在该技术方案中，存储对数据进行计算的计算结果的过程具体是以多副本的形式存储计算结果，保证了数据的安全可靠存储，同时提供了快速扫描能力，方便Spark计算引擎将存储数据快速下载到缓存中，进一步提升了分析计算的整体速度。

根据本发明的第二个方面，提出了一种大数据计算系统，包括：第一提交单元，用于获取待处理任务，根据待处理任务提交计算作业至Spark计算引擎；第二提交单元，用于将计算作业提交至作业列队中；判断单元，用于判断Spark计算引擎中是否具有调度计算作业所需的物理资源；调度单元，用于在Spark计算引擎中具有物理资源时，调度计算作业；第一控制单元，用于控制计算作业加载计算数据，并对计算数据进行计算，以生成计算结果；存储单元，用于存储计算结果。

本发明提供的大数据计算系统，第一提交单元获取待处理任务，根据待处理任务提交计算作业至Spark计算引擎，实现了自动向Spark计算引擎提交计算作业，Spark计算引擎是可以独立部署的大数据计算引擎，从架构上，把分析计算任务从业务系统中剥离出来，从而减轻了业务系统的负载。第二提交单元将计算作业提交至作业列队中，判断单元判断Spark计算引擎中是否具有调度计算作业所需的物理资源，调度单元在Spark计算引擎中具有物理资源时，调度计算作业，第一控制单元控制计算作业加载计算数据，并对计算数据进行计算，生成计算结果，充分利用了Spark大数据集群资源以及强大的分布式并行处理和内存计算能力、快速查询的优势，提高了计算任务的并发数量，提升了多维度分析计算的效率。存储单元存储对数据进行计算的计算结果，新的存储系统，兼顾顺序与随机读写的效率。

根据本发明的上述大数据计算系统，还可以具有以下技术特征：

在上述技术方案中，优选地，第二控制单元，用于在Spark计算引擎中不具有物理资源时，控制计算作业继续保持在作业列队中。

在该技术方案中，在资源调度模块不具备调度作业所需的资源时，不进行作业调度，第二控制单元控制计算作业继续保持在作业列队中，等待分配到相关可用资源，当已被调度执行的计算作业任务结束后，释放相关资源时，再进行调度，进一步进行数据加载以及计算。

在上述任一技术方案中，优选地，第一控制单元具体包括：转换单元，用于将计算作业的原始数据转换为弹性分布式数据集；计算单元，用于对弹性分布式数据集上进行转换和操作，以生成计算结果弹性分布式数据集；输出单元，用于将计算结果弹性分布式数据集转化为预设文本结果，并输出预设文本结果。

在该技术方案中，第一控制单元控制计算作业加载计算数据，并对计算数据进行计算，以生成计算结果的过程，因为原始数据的格式不一定适用Spark计算引擎，那么转换单元将计算作业的原始数据转换为Spark中弹性分布式数据集(RDD)，然后计算单元对弹性分布式数据集上进行转换(Transformation)和操作(Action)，就会生成计算结果弹性分布式数据集，最后输出单元将计算结果弹性分布式数据集转换为预设文本结果，并输出预设文本结果。如此，充分利用了RDD分布式内存的计算能力，实现了计算任务在Spark计算引擎中快速、可靠的计算，提高了计算任务的并发数量，提升了计算效率。

在上述任一技术方案中，优选地，第一提交单元具体包括：提交子单元，用于将计算作业以RESTful的方式提交至Spark计算引擎。

在该技术方案中，第一提交单元获取待处理任务，根据待处理任务提交计算作业至Spark计算引擎过程中，具体是提交子单元以RESTful的方式提交至Spark计算引擎，基于RESTful这种软件架构风格，设计的软件可以更加简洁、更有层次，且更易于实现缓存等机制。

在上述任一技术方案中，优选地，存储单元具体包括：存储子单元，用于以多副本的形式存储计算结果。

在该技术方案中，存储单元存储对数据进行计算的计算结果的过程具体是存储子单元以多副本的形式存储计算结果，保证了数据的安全可靠存储，同时提供了快速扫描能力，方便Spark计算引擎将存储数据快速下载到缓存中，进一步提升了分析计算的整体速度。

根据本发明的第三个方面，本发明提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现以下步骤：获取待处理任务，根据待处理任务提交计算作业至Spark计算引擎；将计算作业提交至作业列队中；判断Spark计算引擎中是否具有调度计算作业所需的物理资源；在Spark计算引擎中具有物理资源时，调度计算作业；控制计算作业加载计算数据，并对计算数据进行计算，以生成计算结果；存储对计算结果；存储计算结果。

本发明提供的一种计算机设备，处理器执行计算机程序时实现：获取待处理任务，根据待处理任务提交计算作业至Spark计算引擎，实现了自动向Spark计算引擎提交计算作业，Spark计算引擎是可以独立部署的大数据计算引擎，从架构上，把分析计算任务从业务系统中剥离出来，从而减轻了业务系统的负载。将计算作业提交至作业列队中，判断Spark计算引擎中是否具有调度计算作业所需的物理资源，在Spark计算引擎中具有物理资源时，调度计算作业，控制计算作业加载计算数据，并对计算数据进行计算，生成计算结果充分利用了Spark大数据集群资源以及强大的分布式并行处理和内存计算能力、快速查询的优势，提高了计算任务的并发数量，提升了多维度分析计算的效率。存储对数据进行计算的计算结果，新的存储系统，兼顾顺序与随机读写的效率。

根据本发明的第四个方面，本发明提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：获取待处理任务，根据待处理任务提交计算作业至Spark计算引擎；将计算作业提交至作业列队中；判断Spark计算引擎中是否具有调度计算作业所需的物理资源；在Spark计算引擎中具有物理资源时，调度计算作业；控制计算作业加载计算数据，并对计算数据进行计算，以生成计算结果；存储对计算结果；存储计算结果。

本发明提供的一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现：获取待处理任务，根据待处理任务提交计算作业至Spark计算引擎，实现了自动向Spark计算引擎提交计算作业，Spark计算引擎是可以独立部署的大数据计算引擎，从架构上，把分析计算任务从业务系统中剥离出来，从而减轻了业务系统的负载。将计算作业提交至作业列队中，判断Spark计算引擎中是否具有调度计算作业所需的物理资源，在Spark计算引擎中具有物理资源时，调度计算作业，控制计算作业加载计算数据，并对计算数据进行计算，生成计算结果充分利用了Spark大数据集群资源以及强大的分布式并行处理和内存计算能力、快速查询的优势，提高了计算任务的并发数量，提升了多维度分析计算的效率。存储对数据进行计算的计算结果，新的存储系统，兼顾顺序与随机读写的效率。

本发明的附加方面和优点将在下面的描述部分中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1示出了本发明的一个实施例的大数据计算方法的流程示意图；

图2示出了本发明的另一个实施例的大数据计算方法的流程示意图；

图3示出了本发明的一个实施例的大数据Spark分摊计算引擎构建的产品架构示意图；

图4示出了本发明的一个具体实施例的大数据计算方法的流程示意图；

图5示出了本发明的一个实施例的大数据计算系统的示意框图；

图6示出了本发明的另一个实施例的大数据计算系统的示意框图；

图7示出了本发明的一个实施例的计算机设备的示意框图。

具体实施方式

为了能够更清楚地理解本发明的上述方面、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述的其他方式来实施，因此，本发明的保护范围并不限于下面公开的具体实施例的限制。

本发明第一方面的实施例，提出一种大数据计算方法，图1示出了本发明的一个实施例的大数据计算方法的流程示意图：

步骤102，获取待处理任务，根据待处理任务提交计算作业至Spark计算引擎；

步骤104，将计算作业提交至作业列队中；

步骤106，判断Spark计算引擎中是否具有调度计算作业所需的物理资源；

步骤108，在Spark计算引擎中具有物理资源时，调度计算作业；

步骤110，控制计算作业加载计算数据，并对计算数据进行计算，以生成计算结果；

步骤112，存储计算结果。

本发明提供的大数据计算方法，获取待处理任务，根据待处理任务提交计算作业至Spark计算引擎，实现了自动向Spark计算引擎提交计算作业，Spark计算引擎是可以独立部署的大数据计算引擎，从架构上，把分析计算任务从业务系统中剥离出来，从而减轻了业务系统的负载。将计算作业提交至作业列队中，判断Spark计算引擎中是否具有调度计算作业所需的物理资源，在Spark计算引擎中具有物理资源时，调度计算作业，控制计算作业加载计算数据，并对计算数据进行计算，生成计算结果，充分利用了Spark大数据集群资源以及强大的分布式并行处理和内存计算能力、快速查询的优势，提高了计算任务的并发数量，提升了多维度分析计算的效率。存储对数据进行计算的计算结果，新的存储系统，兼顾顺序与随机读写的效率。

图2示出了本发明的另一个实施例的大数据计算方法的流程示意图。其中，该方法包括：

步骤202，将获取的计算作业以RESTful的方式提交至Spark计算引擎；

步骤204，将计算作业添加至作业列队中；

步骤206，判断Spark计算引擎中是否具有调度计算作业所需的物理资源，是则进入步骤208，否则进入步骤216；

步骤208，调度计算作业；

步骤210，将计算作业的原始数据转换为弹性分布式数据集；

步骤212，对弹性分布式数据集上进行转换和操作，以生成计算结果弹性分布式数据集；

步骤214，将计算结果弹性分布式数据集转换为预设文本结果，并输出预设文本结果；

步骤216，控制计算作业继续保持在作业列队中，之后，进入步骤206；

步骤218，以多副本的形式存储计算结果。

在本发明的一个实施例中，优选地，在Spark计算引擎中不具有物理资源时，控制计算作业继续保持在作业列队中。

在该实施例中，在资源调度模块不具备调度作业所需的资源时，不进行作业调度，控制计算作业继续保持在作业列队中，等待分配到相关可用资源，当已被调度执行的计算作业任务结束后，释放相关资源时，再进行调度，进一步进行数据加载以及计算。

在本发明的一个实施例中，优选地，控制计算作业加载计算数据，并对计算数据进行计算，以生成计算结果的过程，具体包括：将计算作业的原始数据转换为弹性分布式数据集；对弹性分布式数据集上进行转换和操作，以生成计算结果弹性分布式数据集；将计算结果弹性分布式数据集转换为预设文本结果，并输出预设文本结果。

在该实施例中，控制计算作业加载计算数据，并对计算数据进行计算，以生成计算结果的过程，因为原始数据的格式不一定适用Spark计算引擎，那么将计算作业的原始数据转换为Spark中弹性分布式数据集(RDD)，然后Spark计算引擎对弹性分布式数据集上进行转换(Transformation)和操作(Action)，就会生成计算结果弹性分布式数据集，最后将计算结果弹性分布式数据集转换为预设文本结果，并输出预设文本结果。如此，充分利用了RDD分布式内存的计算能力，实现了计算任务在Spark计算引擎中快速、可靠的计算，提高了计算任务的并发数量，提升了计算效率。

在本发明的一个实施例中，优选地，获取待处理任务，根据待处理任务提交计算作业至Spark计算引擎的过程，具体包括：将获取的计算作业以RESTful的方式提交至Spark计算引擎。

在该实施例中，获取待处理任务，根据待处理任务提交计算作业至Spark计算引擎过程中，具体是以RESTful的方式提交至Spark计算引擎，基于RESTful这种软件架构风格，设计的软件可以更加简洁、更有层次，且更易于实现缓存等机制。

在本发明的一个实施例中，优选地，存储计算结果的过程，具体包括：以多副本的形式存储计算结果。

在该实施例中，存储对数据进行计算的计算结果的过程具体是以多副本的形式存储计算结果，保证了数据的安全可靠存储，同时提供了快速扫描能力，方便Spark计算引擎将存储数据快速下载到缓存中，进一步提升了分析计算的整体速度。

下面结合图3和图4说明本发明一个具体实施例。如图3所示，大数据Spark分摊计算引擎构建的产品架构：

1)计算作业服务：计算作业服务是负责向Spark集群提交、管理作业的Server服务，该服务负责创建一个向Spark提交作业的进程，即SparkContext。计算作业服务解决需要手动向Spark集群提交Job的问题。

2)Spark集群：提交到Spark集群中的作业将原始数据转换成RDD，在RDD上经过Transformation和Action之后在将结果RDD输出到存储模块。

3)资源调度模块：每个提交到Spark集群中的作业都会向资源调度管理模块申请物理资源，当没有可用的资源时，作业会加入到执行队列中等待分配相关资源，当申请到物理资源时作业会加载数据并进行计算。该具体实施例中的资源调度模块：(1)支持先进先出(FIFO)调度和公平调度两种调度策略；(2)管理大数据计算集群各节点的物理资源，支持节点的动态加入；(3)调度计算任务并提交到Spark计算引擎进行RDD计算，对于计算失败的任务支持再次调度；(4)实现了资源的充分利用，CPU和内存资源的全部利用，提高计算效率。

4)存储模块：数据存储模块利用多副本保证数据的安全可靠存储，同时提供了快速的数据扫描能力，方便Spark将存储模块中的数据快速load到缓存。该具体实施例中的存储模块：(1)多副本存储保证数据可靠性；(2)分布式的存储模块支持高并发读写；(3)数据以分区的方式进行存储，Spark计算引擎在加载数据的时候可以直接将分区数据映射成RDD，提交数据的加载效率。

该具体实施例中，从架构上，把多维度盈利分析计算任务从业务系统中剥离，通过Restful方式提交到大数据计算引擎上，从而在减轻业务系统负载的同时，能够充分利用大数据集群资源加速计算性能。

基于图3所示的大数据Spark分摊计算引擎构建的产品架构，如图4所示，该具体实施例的大数据计算方法的流程包括：

步骤402，提交多维度盈利分析计算任务至计算作业服务；

步骤404，计算作业服务将计算任务加入到Spark集群作业队列；

步骤406，判断资源调度模块是否有物理资源，是则进入步骤418，否则重复步骤406；

步骤408，获取物理资源及缓存数据；

步骤410，执行计算任务；

步骤412，将计算结果写入存储模块。

在该具体实施例中，一次完整的多维度盈利分析计算任务提交的流程中，提交请求首先到达计算作业服务中，计算作业服务将接收到的计算任务实时推送到SparkCluster，如果集群没有可用的物理资源，则计算任务加入到任务队列中，否则使用分配的物力资源进行计算。该具体实施例充分利用Spark强大的分布式并行处理和内存计算能力、快速查询的优势，通过解析多维度盈利分析规则，完成了动因表ETL数据处理、多维度盈利分析计算、数据的即席查询工作。具有如下优点：

(1)待分摊数据极速加载，使用新的存储系统，兼顾顺序与随机读写的效率；

(2)通过作业管理，提升计算的并行度以及分布式可扩展性；

(3)利用计算引擎的加速分析能力，从计算引擎取数，提升浏览效率。

本发明第二方面的实施例，提出一种大数据计算系统500，图5示出了本发明的一个实施例的大数据计算系统500的示意框图：

第一提交单元502，用于获取待处理任务，根据待处理任务提交计算作业至Spark计算引擎；

第二提交单元504，用于将计算作业提交至作业列队中；

判断单元506，用于判断Spark计算引擎中是否具有调度计算作业所需的物理资源；

调度单元508，用于在Spark计算引擎中具有物理资源时，调度计算作业；

第一控制单元510，用于控制计算作业加载计算数据，并对计算数据进行计算，以生成计算结果；

存储单元512，用于存储计算结果。

本发明提供的大数据计算系统500，第一提交单元502获取待处理任务，根据待处理任务提交计算作业至Spark计算引擎，实现了自动向Spark计算引擎提交计算作业，Spark计算引擎是可以独立部署的大数据计算引擎，从架构上，把分析计算任务从业务系统中剥离出来，从而减轻了业务系统的负载。第二提交单元504将计算作业提交至作业列队中，判断单元506判断Spark计算引擎中是否具有调度计算作业所需的物理资源，调度单元508在Spark计算引擎中具有物理资源时，调度计算作业，第一控制单元510控制计算作业加载计算数据，并对计算数据进行计算，生成计算结果，充分利用了Spark大数据集群资源以及强大的分布式并行处理和内存计算能力、快速查询的优势，提高了计算任务的并发数量，提升了多维度分析计算的效率。存储单元512存储对数据进行计算的计算结果，新的存储系统，兼顾顺序与随机读写的效率。

图6示出了本发明的另一个实施例的大数据计算系统600的示意框图。其中，大数据计算系统600包括：

第一提交单元602，用于获取待处理任务，根据待处理任务提交计算作业至Spark计算引擎；

第二提交单元604，用于将计算作业提交至作业列队中；

判断单元606，用于判断Spark计算引擎中是否具有调度计算作业所需的物理资源；

调度单元608，用于在Spark计算引擎中具有物理资源时，调度计算作业；

第一控制单元610，用于控制计算作业加载计算数据，并对计算数据进行计算，以生成计算结果；

存储单元612，用于存储计算结果；

第二控制单元614，用于在Spark计算引擎中不具有物理资源时，控制计算作业继续保持在作业列队中。

其中，第一提交单元602具体为：

提交子单元6022，用于将计算作业以RESTful的方式提交至Spark计算引擎。

第一控制单元610具体包括：

转换单元6102，用于将计算作业的原始数据转换为弹性分布式数据集；

计算单元6104，用于对弹性分布式数据集上进行转换和操作，以生成计算结果弹性分布式数据集；

输出单元6106，用于将计算结果弹性分布式数据集转化为预设文本结果，并输出预设文本结果。

存储单元612具体为：

存储子单元6122，用于以多副本的形式存储计算结果。

在本发明的一个实施例中，优选地，第二控制单元614，用于在Spark计算引擎中不具有物理资源时，控制计算作业继续保持在作业列队中。

在该实施例中，在资源调度模块不具备调度作业所需的资源时，不进行作业调度，第二控制单元614控制计算作业继续保持在作业列队中，等待分配到相关可用资源，当已被调度执行的计算作业任务结束后，释放相关资源时，再进行调度，进一步进行数据加载以及计算。

在本发明的一个实施例中，优选地，第一提交单元602具体包括：提交子单元6022，用于将计算作业以RESTful的方式提交至Spark计算引擎。

在该实施例中，第一提交单元602获取待处理任务，根据待处理任务提交计算作业至Spark计算引擎过程中，具体是提交子单元6022以RESTful的方式提交至Spark计算引擎，基于RESTful这种软件架构风格，设计的软件可以更加简洁、更有层次，且更易于实现缓存等机制。

在本发明的一个实施例中，优选地，第一控制单元610具体包括：转换单元6102，用于将计算作业的原始数据转换为弹性分布式数据集；计算单元6104，用于对弹性分布式数据集上进行转换和操作，以生成计算结果弹性分布式数据集；输出单元6106，用于将计算结果弹性分布式数据集转化为预设文本结果，并输出预设文本结果。

在该实施例中，第一控制单元610控制计算作业加载计算数据，并对计算数据进行计算，以生成计算结果的过程，因为原始数据的格式不一定适用Spark计算引擎，那么转换单元6102将计算作业的原始数据转换为Spark中弹性分布式数据集(RDD)，然后计算单元6104对弹性分布式数据集上进行转换(Transformation)和操作(Action)，就会生成计算结果弹性分布式数据集，最后输出单元6106将计算结果弹性分布式数据集转换为预设文本结果，并输出预设文本结果。如此，充分利用了RDD分布式内存的计算能力，实现了计算任务在Spark计算引擎中快速、可靠的计算，提高了计算任务的并发数量，提升了计算效率。

在本发明的一个实施例中，优选地，存储单元612具体包括：存储子单元6122，用于以多副本的形式存储计算结果。

在该实施例中，存储单元612存储对数据进行计算的计算结果的过程具体是存储子单元6122以多副本的形式存储计算结果，保证了数据的安全可靠存储，同时提供了快速扫描能力，方便Spark计算引擎将存储数据快速下载到缓存中，进一步提升了分析计算的整体速度。

本发明第三方面的实施例，提出一种计算机设备，图7示出了本发明的一个实施例的计算机设备700的示意框图。其中，该计算机设备700包括：

存储器702、处理器704及存储在存储器702上并可在处理器704上运行的计算机程序，处理器704执行计算机程序时实现以下步骤：获取待处理任务，根据待处理任务提交计算作业至Spark计算引擎；将计算作业提交至作业列队中；判断Spark计算引擎中是否具有调度计算作业所需的物理资源；在Spark计算引擎中具有物理资源时，调度计算作业；控制计算作业加载计算数据，并对计算数据进行计算，以生成计算结果；存储对计算结果；存储计算结果。

本发明提供的一种计算机设备700，处理器704执行计算机程序时实现：获取待处理任务，根据待处理任务提交计算作业至Spark计算引擎，实现了自动向Spark计算引擎提交计算作业，Spark计算引擎是可以独立部署的大数据计算引擎，从架构上，把分析计算任务从业务系统中剥离出来，从而减轻了业务系统的负载。将计算作业提交至作业列队中，判断Spark计算引擎中是否具有调度计算作业所需的物理资源，在Spark计算引擎中具有物理资源时，调度计算作业，控制计算作业加载计算数据，并对计算数据进行计算，生成计算结果充分利用了Spark大数据集群资源以及强大的分布式并行处理和内存计算能力、快速查询的优势，提高了计算任务的并发数量，提升了多维度分析计算的效率。存储对数据进行计算的计算结果，新的存储系统，兼顾顺序与随机读写的效率。

本发明第四方面的实施例，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：获取待处理任务，根据待处理任务提交计算作业至Spark计算引擎；将计算作业提交至作业列队中；判断Spark计算引擎中是否具有调度计算作业所需的物理资源；在Spark计算引擎中具有物理资源时，调度计算作业；控制计算作业加载计算数据，并对计算数据进行计算，以生成计算结果；存储对计算结果；存储计算结果。

在本说明书的描述中，术语“一个实施例”、“一些实施例”、“具体实施例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或实例。而且，描述的具体特征、结构、材料或特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种大数据计算方法，其特征在于，包括：

获取待处理任务，根据所述待处理任务提交计算作业至Spark计算引擎；

将所述计算作业提交至作业列队中；

判断所述Spark计算引擎中是否具有调度所述计算作业所需的物理资源；

在所述Spark计算引擎中具有所述物理资源时，调度所述计算作业；

控制所述计算作业加载计算数据，并对所述计算数据进行计算，以生成计算结果；

存储所述计算结果。

2.根据权利要求1所述的大数据计算方法，其特征在于，还包括：

在所述Spark计算引擎中不具有所述物理资源时，控制所述计算作业继续保持在所述作业列队中。

3.根据权利要求1所述的大数据计算方法，其特征在于，所述控制所述计算作业加载计算数据，并对所述计算数据进行计算，以生成计算结果的过程，具体包括：

将所述计算作业的原始数据转换为弹性分布式数据集；

对所述弹性分布式数据集进行转换和操作，以生成计算结果弹性分布式数据集；

将所述计算结果弹性分布式数据集转换为预设文本结果，并输出所述预设文本结果。

4.根据权利要求1所述的大数据计算方法，其特征在于，获取待处理任务，根据所述待处理任务提交计算作业至Spark计算引擎的过程，具体包括：

将获取的所述计算作业以RESTful的方式提交至所述Spark计算引擎。

5.根据权利要求1至4中任一项所述的大数据计算方法，其特征在于，存储所述计算结果的过程，具体包括：

以多副本的形式存储所述计算结果。

6.一种大数据计算系统，其特征在于，包括：

第一提交单元，用于获取待处理任务，根据所述待处理任务提交计算作业至Spark计算引擎；

第二提交单元，用于将所述计算作业提交至作业列队中；

判断单元，用于判断所述Spark计算引擎中是否具有调度所述计算作业所需的物理资源；

调度单元，用于在所述Spark计算引擎中具有所述物理资源时，调度所述计算作业；

第一控制单元，用于控制所述计算作业加载计算数据，并对所述计算数据进行计算，以生成计算结果；

存储单元，用于存储所述计算结果。

7.根据权利要求6所述的大数据计算系统，其特征在于，还包括：

第二控制单元，用于在所述Spark计算引擎中不具有所述物理资源时，控制所述计算作业继续保持在所述作业列队中。

8.根据权利要求6所述的大数据计算系统，其特征在于，所述第一控制单元具体包括：

转换单元，用于将所述计算作业的原始数据转换为弹性分布式数据集；

计算单元，用于对所述弹性分布式数据集进行转换和操作，以生成计算结果弹性分布式数据集；

输出单元，用于将所述计算结果弹性分布式数据集转化为预设文本结果，并输出所述预设文本结果。

9.根据权利要求6所述的大数据计算系统，其特征在于，所述第一提交单元具体包括：

提交子单元，用于将所述计算作业以RESTful的方式提交至所述Spark计算引擎。

10.根据权利要求6至9中任一项所述的大数据计算系统，其特征在于，所述存储单元具体包括：

存储子单元，用于以多副本的形式存储所述计算结果。

11.一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至5中任一项所述大数据计算方法的步骤。

12.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5中任一项所述大数据计算方法的步骤。