CN107861804A - 大数据计算方法、计算系统、计算机设备及可读存储介质 - Google Patents

大数据计算方法、计算系统、计算机设备及可读存储介质 Download PDF

Info

Publication number
CN107861804A
CN107861804A CN201711048689.5A CN201711048689A CN107861804A CN 107861804 A CN107861804 A CN 107861804A CN 201711048689 A CN201711048689 A CN 201711048689A CN 107861804 A CN107861804 A CN 107861804A
Authority
CN
China
Prior art keywords
spark
data
result
calculating
calculation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711048689.5A
Other languages
English (en)
Inventor
金锋
李长山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Uf Financial Information Technology Ltd By Share Ltd
Original Assignee
Uf Financial Information Technology Ltd By Share Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Uf Financial Information Technology Ltd By Share Ltd filed Critical Uf Financial Information Technology Ltd By Share Ltd
Priority to CN201711048689.5A priority Critical patent/CN107861804A/zh
Publication of CN107861804A publication Critical patent/CN107861804A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出了一种大数据计算方法、大数据计算系统、计算机设备、计算机可读存储介质。其中,大数据计算方法包括:获取待处理任务,根据待处理任务提交计算作业至Spark计算引擎;将计算作业提交至作业列队中;判断Spark计算引擎中是否具有调度计算作业所需的物理资源;在Spark计算引擎中具有物理资源时,调度计算作业;控制计算作业加载计算数据,并对计算数据进行计算,以生成计算结果;存储计算结果。本发明基于大数据Spark的分摊计算引擎,充分利用了Spark强大的分布式并行处理和内存计算能力、快速查询的优势,提高了计算任务的并发数量,提升了多维度分析计算的效率。

Description

大数据计算方法、计算系统、计算机设备及可读存储介质
技术领域
本发明涉及大数据计算技术领域,具体而言,涉及一种大数据计算方法、大数据计算系统、计算机设备、计算机可读存储介质。
背景技术
随着金融机构精细化管理的深入,已经从对机构和部门的盈利,对业务线和产品的关注,发展到对客户经理,客户,渠道,项目等多维度经营数据的关注。经营成本分摊已从机构,产品维度细化到账户,交易级维度的分摊。
同时随着原始凭证数据的细化,分摊规则多样化,相对于原始数据,分摊结果往往呈几何倍数的增长,结果数据已经达到亿级,甚至几十亿的数据量。这对计算的消耗时间,分摊结果核对和查询效率都提出了非常高的要求,即便在应用某国外高性能内存数据库的场景下,也需要十个小时甚至更多时间完成一次分摊计算。传统的应用架构已经不能满足这样大数据量,高密度计算的应用需求。
因此,如何解决针对分摊的业务场景深度优化,实现卓越的计算性能和查询效率提升,让企业的内部管理更深入、更高效成为亟待解决的问题。
发明内容
本发明旨在至少解决现有技术或相关技术中存在的技术问题之一。
为此,本发明第一个方面在于提出一种大数据计算方法。
本发明的第二个方面在于提出一种大数据计算系统。
本发明的第三个方面在于提出一种计算机设备。
本发明的第四个方面在于提出一种计算机可读存储介质。
有鉴于此,根据本发明的一个方面,提出了一种大数据计算方法,包括:获取待处理任务,根据待处理任务提交计算作业至Spark计算引擎;将计算作业提交至作业列队中;判断Spark计算引擎中是否具有调度计算作业所需的物理资源;在Spark计算引擎中具有物理资源时,调度计算作业;控制计算作业加载计算数据,并对计算数据进行计算,以生成计算结果;存储计算结果。
本发明提供的大数据计算方法,获取待处理任务,根据待处理任务提交计算作业至Spark计算引擎,实现了自动向Spark计算引擎提交计算作业,Spark计算引擎是可以独立部署的大数据计算引擎,从架构上,把分析计算任务从业务系统中剥离出来,从而减轻了业务系统的负载。将计算作业提交至作业列队中,判断Spark计算引擎中是否具有调度计算作业所需的物理资源,在Spark计算引擎中具有物理资源时,调度计算作业,控制计算作业加载计算数据,并对计算数据进行计算,生成计算结果充分利用了Spark大数据集群资源以及强大的分布式并行处理和内存计算能力、快速查询的优势,提高了计算任务的并发数量,提升了多维度分析计算的效率。存储对数据进行计算的计算结果,新的存储系统,兼顾顺序与随机读写的效率。
根据本发明的上述大数据计算方法,还可以具有以下技术特征:
在上述技术方案中,优选地,在Spark计算引擎中不具有物理资源时,控制计算作业继续保持在作业列队中。
在该技术方案中,在资源调度模块不具备调度作业所需的资源时,不进行作业调度,控制计算作业继续保持在作业列队中,等待分配到相关可用资源,当已被调度执行的计算作业任务结束后,释放相关资源时,再进行调度,进一步进行数据加载以及计算。
在上述任一技术方案中,优选地,控制计算作业加载计算数据,并对计算数据进行计算,以生成计算结果的过程,具体包括:将计算作业的原始数据转换为弹性分布式数据集;对弹性分布式数据集上进行转换和操作,以生成计算结果弹性分布式数据集;将计算结果弹性分布式数据集转换为预设文本结果,并输出预设文本结果。
在该技术方案中,控制计算作业加载计算数据,并对计算数据进行计算,以生成计算结果的过程,因为原始数据的格式不一定适用Spark计算引擎,那么将计算作业的原始数据转换为Spark中弹性分布式数据集(RDD),然后Spark计算引擎对弹性分布式数据集上进行转换(Transformation)和操作(Action),就会生成计算结果弹性分布式数据集,最后将计算结果弹性分布式数据集转换为预设文本结果,并输出预设文本结果。如此,充分利用了RDD分布式内存的计算能力,实现了计算任务在Spark计算引擎中快速、可靠的计算,提高了计算任务的并发数量,提升了计算效率。
在上述任一技术方案中,优选地,获取待处理任务,根据待处理任务提交计算作业至Spark计算引擎的过程,具体包括:将获取的计算作业以RESTful的方式提交至Spark计算引擎。
在该技术方案中,获取待处理任务,根据待处理任务提交计算作业至Spark计算引擎过程中,具体是以RESTful的方式提交至Spark计算引擎,基于RESTful这种软件架构风格,设计的软件可以更加简洁、更有层次,且更易于实现缓存等机制。
在上述任一技术方案中,优选地,存储计算结果的过程,具体包括:以多副本的形式存储计算结果。
在该技术方案中,存储对数据进行计算的计算结果的过程具体是以多副本的形式存储计算结果,保证了数据的安全可靠存储,同时提供了快速扫描能力,方便Spark计算引擎将存储数据快速下载到缓存中,进一步提升了分析计算的整体速度。
根据本发明的第二个方面,提出了一种大数据计算系统,包括:第一提交单元,用于获取待处理任务,根据待处理任务提交计算作业至Spark计算引擎;第二提交单元,用于将计算作业提交至作业列队中;判断单元,用于判断Spark计算引擎中是否具有调度计算作业所需的物理资源;调度单元,用于在Spark计算引擎中具有物理资源时,调度计算作业;第一控制单元,用于控制计算作业加载计算数据,并对计算数据进行计算,以生成计算结果;存储单元,用于存储计算结果。
本发明提供的大数据计算系统,第一提交单元获取待处理任务,根据待处理任务提交计算作业至Spark计算引擎,实现了自动向Spark计算引擎提交计算作业,Spark计算引擎是可以独立部署的大数据计算引擎,从架构上,把分析计算任务从业务系统中剥离出来,从而减轻了业务系统的负载。第二提交单元将计算作业提交至作业列队中,判断单元判断Spark计算引擎中是否具有调度计算作业所需的物理资源,调度单元在Spark计算引擎中具有物理资源时,调度计算作业,第一控制单元控制计算作业加载计算数据,并对计算数据进行计算,生成计算结果,充分利用了Spark大数据集群资源以及强大的分布式并行处理和内存计算能力、快速查询的优势,提高了计算任务的并发数量,提升了多维度分析计算的效率。存储单元存储对数据进行计算的计算结果,新的存储系统,兼顾顺序与随机读写的效率。
根据本发明的上述大数据计算系统,还可以具有以下技术特征:
在上述技术方案中,优选地,第二控制单元,用于在Spark计算引擎中不具有物理资源时,控制计算作业继续保持在作业列队中。
在该技术方案中,在资源调度模块不具备调度作业所需的资源时,不进行作业调度,第二控制单元控制计算作业继续保持在作业列队中,等待分配到相关可用资源,当已被调度执行的计算作业任务结束后,释放相关资源时,再进行调度,进一步进行数据加载以及计算。
在上述任一技术方案中,优选地,第一控制单元具体包括:转换单元,用于将计算作业的原始数据转换为弹性分布式数据集;计算单元,用于对弹性分布式数据集上进行转换和操作,以生成计算结果弹性分布式数据集;输出单元,用于将计算结果弹性分布式数据集转化为预设文本结果,并输出预设文本结果。
在该技术方案中,第一控制单元控制计算作业加载计算数据,并对计算数据进行计算,以生成计算结果的过程,因为原始数据的格式不一定适用Spark计算引擎,那么转换单元将计算作业的原始数据转换为Spark中弹性分布式数据集(RDD),然后计算单元对弹性分布式数据集上进行转换(Transformation)和操作(Action),就会生成计算结果弹性分布式数据集,最后输出单元将计算结果弹性分布式数据集转换为预设文本结果,并输出预设文本结果。如此,充分利用了RDD分布式内存的计算能力,实现了计算任务在Spark计算引擎中快速、可靠的计算,提高了计算任务的并发数量,提升了计算效率。
在上述任一技术方案中,优选地,第一提交单元具体包括:提交子单元,用于将计算作业以RESTful的方式提交至Spark计算引擎。
在该技术方案中,第一提交单元获取待处理任务,根据待处理任务提交计算作业至Spark计算引擎过程中,具体是提交子单元以RESTful的方式提交至Spark计算引擎,基于RESTful这种软件架构风格,设计的软件可以更加简洁、更有层次,且更易于实现缓存等机制。
在上述任一技术方案中,优选地,存储单元具体包括:存储子单元,用于以多副本的形式存储计算结果。
在该技术方案中,存储单元存储对数据进行计算的计算结果的过程具体是存储子单元以多副本的形式存储计算结果,保证了数据的安全可靠存储,同时提供了快速扫描能力,方便Spark计算引擎将存储数据快速下载到缓存中,进一步提升了分析计算的整体速度。
根据本发明的第三个方面,本发明提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:获取待处理任务,根据待处理任务提交计算作业至Spark计算引擎;将计算作业提交至作业列队中;判断Spark计算引擎中是否具有调度计算作业所需的物理资源;在Spark计算引擎中具有物理资源时,调度计算作业;控制计算作业加载计算数据,并对计算数据进行计算,以生成计算结果;存储对计算结果;存储计算结果。
本发明提供的一种计算机设备,处理器执行计算机程序时实现:获取待处理任务,根据待处理任务提交计算作业至Spark计算引擎,实现了自动向Spark计算引擎提交计算作业,Spark计算引擎是可以独立部署的大数据计算引擎,从架构上,把分析计算任务从业务系统中剥离出来,从而减轻了业务系统的负载。将计算作业提交至作业列队中,判断Spark计算引擎中是否具有调度计算作业所需的物理资源,在Spark计算引擎中具有物理资源时,调度计算作业,控制计算作业加载计算数据,并对计算数据进行计算,生成计算结果充分利用了Spark大数据集群资源以及强大的分布式并行处理和内存计算能力、快速查询的优势,提高了计算任务的并发数量,提升了多维度分析计算的效率。存储对数据进行计算的计算结果,新的存储系统,兼顾顺序与随机读写的效率。
根据本发明的第四个方面,本发明提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:获取待处理任务,根据待处理任务提交计算作业至Spark计算引擎;将计算作业提交至作业列队中;判断Spark计算引擎中是否具有调度计算作业所需的物理资源;在Spark计算引擎中具有物理资源时,调度计算作业;控制计算作业加载计算数据,并对计算数据进行计算,以生成计算结果;存储对计算结果;存储计算结果。
本发明提供的一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现:获取待处理任务,根据待处理任务提交计算作业至Spark计算引擎,实现了自动向Spark计算引擎提交计算作业,Spark计算引擎是可以独立部署的大数据计算引擎,从架构上,把分析计算任务从业务系统中剥离出来,从而减轻了业务系统的负载。将计算作业提交至作业列队中,判断Spark计算引擎中是否具有调度计算作业所需的物理资源,在Spark计算引擎中具有物理资源时,调度计算作业,控制计算作业加载计算数据,并对计算数据进行计算,生成计算结果充分利用了Spark大数据集群资源以及强大的分布式并行处理和内存计算能力、快速查询的优势,提高了计算任务的并发数量,提升了多维度分析计算的效率。存储对数据进行计算的计算结果,新的存储系统,兼顾顺序与随机读写的效率。
本发明的附加方面和优点将在下面的描述部分中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1示出了本发明的一个实施例的大数据计算方法的流程示意图;
图2示出了本发明的另一个实施例的大数据计算方法的流程示意图;
图3示出了本发明的一个实施例的大数据Spark分摊计算引擎构建的产品架构示意图;
图4示出了本发明的一个具体实施例的大数据计算方法的流程示意图;
图5示出了本发明的一个实施例的大数据计算系统的示意框图;
图6示出了本发明的另一个实施例的大数据计算系统的示意框图;
图7示出了本发明的一个实施例的计算机设备的示意框图。
具体实施方式
为了能够更清楚地理解本发明的上述方面、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不限于下面公开的具体实施例的限制。
本发明第一方面的实施例,提出一种大数据计算方法,图1示出了本发明的一个实施例的大数据计算方法的流程示意图:
步骤102,获取待处理任务,根据待处理任务提交计算作业至Spark计算引擎;
步骤104,将计算作业提交至作业列队中;
步骤106,判断Spark计算引擎中是否具有调度计算作业所需的物理资源;
步骤108,在Spark计算引擎中具有物理资源时,调度计算作业;
步骤110,控制计算作业加载计算数据,并对计算数据进行计算,以生成计算结果;
步骤112,存储计算结果。
本发明提供的大数据计算方法,获取待处理任务,根据待处理任务提交计算作业至Spark计算引擎,实现了自动向Spark计算引擎提交计算作业,Spark计算引擎是可以独立部署的大数据计算引擎,从架构上,把分析计算任务从业务系统中剥离出来,从而减轻了业务系统的负载。将计算作业提交至作业列队中,判断Spark计算引擎中是否具有调度计算作业所需的物理资源,在Spark计算引擎中具有物理资源时,调度计算作业,控制计算作业加载计算数据,并对计算数据进行计算,生成计算结果,充分利用了Spark大数据集群资源以及强大的分布式并行处理和内存计算能力、快速查询的优势,提高了计算任务的并发数量,提升了多维度分析计算的效率。存储对数据进行计算的计算结果,新的存储系统,兼顾顺序与随机读写的效率。
图2示出了本发明的另一个实施例的大数据计算方法的流程示意图。其中,该方法包括:
步骤202,将获取的计算作业以RESTful的方式提交至Spark计算引擎;
步骤204,将计算作业添加至作业列队中;
步骤206,判断Spark计算引擎中是否具有调度计算作业所需的物理资源,是则进入步骤208,否则进入步骤216;
步骤208,调度计算作业;
步骤210,将计算作业的原始数据转换为弹性分布式数据集;
步骤212,对弹性分布式数据集上进行转换和操作,以生成计算结果弹性分布式数据集;
步骤214,将计算结果弹性分布式数据集转换为预设文本结果,并输出预设文本结果;
步骤216,控制计算作业继续保持在作业列队中,之后,进入步骤206;
步骤218,以多副本的形式存储计算结果。
在本发明的一个实施例中,优选地,在Spark计算引擎中不具有物理资源时,控制计算作业继续保持在作业列队中。
在该实施例中,在资源调度模块不具备调度作业所需的资源时,不进行作业调度,控制计算作业继续保持在作业列队中,等待分配到相关可用资源,当已被调度执行的计算作业任务结束后,释放相关资源时,再进行调度,进一步进行数据加载以及计算。
在本发明的一个实施例中,优选地,控制计算作业加载计算数据,并对计算数据进行计算,以生成计算结果的过程,具体包括:将计算作业的原始数据转换为弹性分布式数据集;对弹性分布式数据集上进行转换和操作,以生成计算结果弹性分布式数据集;将计算结果弹性分布式数据集转换为预设文本结果,并输出预设文本结果。
在该实施例中,控制计算作业加载计算数据,并对计算数据进行计算,以生成计算结果的过程,因为原始数据的格式不一定适用Spark计算引擎,那么将计算作业的原始数据转换为Spark中弹性分布式数据集(RDD),然后Spark计算引擎对弹性分布式数据集上进行转换(Transformation)和操作(Action),就会生成计算结果弹性分布式数据集,最后将计算结果弹性分布式数据集转换为预设文本结果,并输出预设文本结果。如此,充分利用了RDD分布式内存的计算能力,实现了计算任务在Spark计算引擎中快速、可靠的计算,提高了计算任务的并发数量,提升了计算效率。
在本发明的一个实施例中,优选地,获取待处理任务,根据待处理任务提交计算作业至Spark计算引擎的过程,具体包括:将获取的计算作业以RESTful的方式提交至Spark计算引擎。
在该实施例中,获取待处理任务,根据待处理任务提交计算作业至Spark计算引擎过程中,具体是以RESTful的方式提交至Spark计算引擎,基于RESTful这种软件架构风格,设计的软件可以更加简洁、更有层次,且更易于实现缓存等机制。
在本发明的一个实施例中,优选地,存储计算结果的过程,具体包括:以多副本的形式存储计算结果。
在该实施例中,存储对数据进行计算的计算结果的过程具体是以多副本的形式存储计算结果,保证了数据的安全可靠存储,同时提供了快速扫描能力,方便Spark计算引擎将存储数据快速下载到缓存中,进一步提升了分析计算的整体速度。
下面结合图3和图4说明本发明一个具体实施例。如图3所示,大数据Spark分摊计算引擎构建的产品架构:
1)计算作业服务:计算作业服务是负责向Spark集群提交、管理作业的Server服务,该服务负责创建一个向Spark提交作业的进程,即SparkContext。计算作业服务解决需要手动向Spark集群提交Job的问题。
2)Spark集群:提交到Spark集群中的作业将原始数据转换成RDD,在RDD上经过Transformation和Action之后在将结果RDD输出到存储模块。
3)资源调度模块:每个提交到Spark集群中的作业都会向资源调度管理模块申请物理资源,当没有可用的资源时,作业会加入到执行队列中等待分配相关资源,当申请到物理资源时作业会加载数据并进行计算。该具体实施例中的资源调度模块:(1)支持先进先出(FIFO)调度和公平调度两种调度策略;(2)管理大数据计算集群各节点的物理资源,支持节点的动态加入;(3)调度计算任务并提交到Spark计算引擎进行RDD计算,对于计算失败的任务支持再次调度;(4)实现了资源的充分利用,CPU和内存资源的全部利用,提高计算效率。
4)存储模块:数据存储模块利用多副本保证数据的安全可靠存储,同时提供了快速的数据扫描能力,方便Spark将存储模块中的数据快速load到缓存。该具体实施例中的存储模块:(1)多副本存储保证数据可靠性;(2)分布式的存储模块支持高并发读写;(3)数据以分区的方式进行存储,Spark计算引擎在加载数据的时候可以直接将分区数据映射成RDD,提交数据的加载效率。
该具体实施例中,从架构上,把多维度盈利分析计算任务从业务系统中剥离,通过Restful方式提交到大数据计算引擎上,从而在减轻业务系统负载的同时,能够充分利用大数据集群资源加速计算性能。
基于图3所示的大数据Spark分摊计算引擎构建的产品架构,如图4所示,该具体实施例的大数据计算方法的流程包括:
步骤402,提交多维度盈利分析计算任务至计算作业服务;
步骤404,计算作业服务将计算任务加入到Spark集群作业队列;
步骤406,判断资源调度模块是否有物理资源,是则进入步骤418,否则重复步骤406;
步骤408,获取物理资源及缓存数据;
步骤410,执行计算任务;
步骤412,将计算结果写入存储模块。
在该具体实施例中,一次完整的多维度盈利分析计算任务提交的流程中,提交请求首先到达计算作业服务中,计算作业服务将接收到的计算任务实时推送到SparkCluster,如果集群没有可用的物理资源,则计算任务加入到任务队列中,否则使用分配的物力资源进行计算。该具体实施例充分利用Spark强大的分布式并行处理和内存计算能力、快速查询的优势,通过解析多维度盈利分析规则,完成了动因表ETL数据处理、多维度盈利分析计算、数据的即席查询工作。具有如下优点:
(1)待分摊数据极速加载,使用新的存储系统,兼顾顺序与随机读写的效率;
(2)通过作业管理,提升计算的并行度以及分布式可扩展性;
(3)利用计算引擎的加速分析能力,从计算引擎取数,提升浏览效率。
本发明第二方面的实施例,提出一种大数据计算系统500,图5示出了本发明的一个实施例的大数据计算系统500的示意框图:
第一提交单元502,用于获取待处理任务,根据待处理任务提交计算作业至Spark计算引擎;
第二提交单元504,用于将计算作业提交至作业列队中;
判断单元506,用于判断Spark计算引擎中是否具有调度计算作业所需的物理资源;
调度单元508,用于在Spark计算引擎中具有物理资源时,调度计算作业;
第一控制单元510,用于控制计算作业加载计算数据,并对计算数据进行计算,以生成计算结果;
存储单元512,用于存储计算结果。
本发明提供的大数据计算系统500,第一提交单元502获取待处理任务,根据待处理任务提交计算作业至Spark计算引擎,实现了自动向Spark计算引擎提交计算作业,Spark计算引擎是可以独立部署的大数据计算引擎,从架构上,把分析计算任务从业务系统中剥离出来,从而减轻了业务系统的负载。第二提交单元504将计算作业提交至作业列队中,判断单元506判断Spark计算引擎中是否具有调度计算作业所需的物理资源,调度单元508在Spark计算引擎中具有物理资源时,调度计算作业,第一控制单元510控制计算作业加载计算数据,并对计算数据进行计算,生成计算结果,充分利用了Spark大数据集群资源以及强大的分布式并行处理和内存计算能力、快速查询的优势,提高了计算任务的并发数量,提升了多维度分析计算的效率。存储单元512存储对数据进行计算的计算结果,新的存储系统,兼顾顺序与随机读写的效率。
图6示出了本发明的另一个实施例的大数据计算系统600的示意框图。其中,大数据计算系统600包括:
第一提交单元602,用于获取待处理任务,根据待处理任务提交计算作业至Spark计算引擎;
第二提交单元604,用于将计算作业提交至作业列队中;
判断单元606,用于判断Spark计算引擎中是否具有调度计算作业所需的物理资源;
调度单元608,用于在Spark计算引擎中具有物理资源时,调度计算作业;
第一控制单元610,用于控制计算作业加载计算数据,并对计算数据进行计算,以生成计算结果;
存储单元612,用于存储计算结果;
第二控制单元614,用于在Spark计算引擎中不具有物理资源时,控制计算作业继续保持在作业列队中。
其中,第一提交单元602具体为:
提交子单元6022,用于将计算作业以RESTful的方式提交至Spark计算引擎。
第一控制单元610具体包括:
转换单元6102,用于将计算作业的原始数据转换为弹性分布式数据集;
计算单元6104,用于对弹性分布式数据集上进行转换和操作,以生成计算结果弹性分布式数据集;
输出单元6106,用于将计算结果弹性分布式数据集转化为预设文本结果,并输出预设文本结果。
存储单元612具体为:
存储子单元6122,用于以多副本的形式存储计算结果。
在本发明的一个实施例中,优选地,第二控制单元614,用于在Spark计算引擎中不具有物理资源时,控制计算作业继续保持在作业列队中。
在该实施例中,在资源调度模块不具备调度作业所需的资源时,不进行作业调度,第二控制单元614控制计算作业继续保持在作业列队中,等待分配到相关可用资源,当已被调度执行的计算作业任务结束后,释放相关资源时,再进行调度,进一步进行数据加载以及计算。
在本发明的一个实施例中,优选地,第一提交单元602具体包括:提交子单元6022,用于将计算作业以RESTful的方式提交至Spark计算引擎。
在该实施例中,第一提交单元602获取待处理任务,根据待处理任务提交计算作业至Spark计算引擎过程中,具体是提交子单元6022以RESTful的方式提交至Spark计算引擎,基于RESTful这种软件架构风格,设计的软件可以更加简洁、更有层次,且更易于实现缓存等机制。
在本发明的一个实施例中,优选地,第一控制单元610具体包括:转换单元6102,用于将计算作业的原始数据转换为弹性分布式数据集;计算单元6104,用于对弹性分布式数据集上进行转换和操作,以生成计算结果弹性分布式数据集;输出单元6106,用于将计算结果弹性分布式数据集转化为预设文本结果,并输出预设文本结果。
在该实施例中,第一控制单元610控制计算作业加载计算数据,并对计算数据进行计算,以生成计算结果的过程,因为原始数据的格式不一定适用Spark计算引擎,那么转换单元6102将计算作业的原始数据转换为Spark中弹性分布式数据集(RDD),然后计算单元6104对弹性分布式数据集上进行转换(Transformation)和操作(Action),就会生成计算结果弹性分布式数据集,最后输出单元6106将计算结果弹性分布式数据集转换为预设文本结果,并输出预设文本结果。如此,充分利用了RDD分布式内存的计算能力,实现了计算任务在Spark计算引擎中快速、可靠的计算,提高了计算任务的并发数量,提升了计算效率。
在本发明的一个实施例中,优选地,存储单元612具体包括:存储子单元6122,用于以多副本的形式存储计算结果。
在该实施例中,存储单元612存储对数据进行计算的计算结果的过程具体是存储子单元6122以多副本的形式存储计算结果,保证了数据的安全可靠存储,同时提供了快速扫描能力,方便Spark计算引擎将存储数据快速下载到缓存中,进一步提升了分析计算的整体速度。
本发明第三方面的实施例,提出一种计算机设备,图7示出了本发明的一个实施例的计算机设备700的示意框图。其中,该计算机设备700包括:
存储器702、处理器704及存储在存储器702上并可在处理器704上运行的计算机程序,处理器704执行计算机程序时实现以下步骤:获取待处理任务,根据待处理任务提交计算作业至Spark计算引擎;将计算作业提交至作业列队中;判断Spark计算引擎中是否具有调度计算作业所需的物理资源;在Spark计算引擎中具有物理资源时,调度计算作业;控制计算作业加载计算数据,并对计算数据进行计算,以生成计算结果;存储对计算结果;存储计算结果。
本发明提供的一种计算机设备700,处理器704执行计算机程序时实现:获取待处理任务,根据待处理任务提交计算作业至Spark计算引擎,实现了自动向Spark计算引擎提交计算作业,Spark计算引擎是可以独立部署的大数据计算引擎,从架构上,把分析计算任务从业务系统中剥离出来,从而减轻了业务系统的负载。将计算作业提交至作业列队中,判断Spark计算引擎中是否具有调度计算作业所需的物理资源,在Spark计算引擎中具有物理资源时,调度计算作业,控制计算作业加载计算数据,并对计算数据进行计算,生成计算结果充分利用了Spark大数据集群资源以及强大的分布式并行处理和内存计算能力、快速查询的优势,提高了计算任务的并发数量,提升了多维度分析计算的效率。存储对数据进行计算的计算结果,新的存储系统,兼顾顺序与随机读写的效率。
本发明第四方面的实施例,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:获取待处理任务,根据待处理任务提交计算作业至Spark计算引擎;将计算作业提交至作业列队中;判断Spark计算引擎中是否具有调度计算作业所需的物理资源;在Spark计算引擎中具有物理资源时,调度计算作业;控制计算作业加载计算数据,并对计算数据进行计算,以生成计算结果;存储对计算结果;存储计算结果。
本发明提供的一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现:获取待处理任务,根据待处理任务提交计算作业至Spark计算引擎,实现了自动向Spark计算引擎提交计算作业,Spark计算引擎是可以独立部署的大数据计算引擎,从架构上,把分析计算任务从业务系统中剥离出来,从而减轻了业务系统的负载。将计算作业提交至作业列队中,判断Spark计算引擎中是否具有调度计算作业所需的物理资源,在Spark计算引擎中具有物理资源时,调度计算作业,控制计算作业加载计算数据,并对计算数据进行计算,生成计算结果充分利用了Spark大数据集群资源以及强大的分布式并行处理和内存计算能力、快速查询的优势,提高了计算任务的并发数量,提升了多维度分析计算的效率。存储对数据进行计算的计算结果,新的存储系统,兼顾顺序与随机读写的效率。
在本说明书的描述中,术语“一个实施例”、“一些实施例”、“具体实施例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或实例。而且,描述的具体特征、结构、材料或特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (12)

1.一种大数据计算方法,其特征在于,包括:
获取待处理任务,根据所述待处理任务提交计算作业至Spark计算引擎;
将所述计算作业提交至作业列队中;
判断所述Spark计算引擎中是否具有调度所述计算作业所需的物理资源;
在所述Spark计算引擎中具有所述物理资源时,调度所述计算作业;
控制所述计算作业加载计算数据,并对所述计算数据进行计算,以生成计算结果;
存储所述计算结果。
2.根据权利要求1所述的大数据计算方法,其特征在于,还包括:
在所述Spark计算引擎中不具有所述物理资源时,控制所述计算作业继续保持在所述作业列队中。
3.根据权利要求1所述的大数据计算方法,其特征在于,所述控制所述计算作业加载计算数据,并对所述计算数据进行计算,以生成计算结果的过程,具体包括:
将所述计算作业的原始数据转换为弹性分布式数据集;
对所述弹性分布式数据集进行转换和操作,以生成计算结果弹性分布式数据集;
将所述计算结果弹性分布式数据集转换为预设文本结果,并输出所述预设文本结果。
4.根据权利要求1所述的大数据计算方法,其特征在于,获取待处理任务,根据所述待处理任务提交计算作业至Spark计算引擎的过程,具体包括:
将获取的所述计算作业以RESTful的方式提交至所述Spark计算引擎。
5.根据权利要求1至4中任一项所述的大数据计算方法,其特征在于,存储所述计算结果的过程,具体包括:
以多副本的形式存储所述计算结果。
6.一种大数据计算系统,其特征在于,包括:
第一提交单元,用于获取待处理任务,根据所述待处理任务提交计算作业至Spark计算引擎;
第二提交单元,用于将所述计算作业提交至作业列队中;
判断单元,用于判断所述Spark计算引擎中是否具有调度所述计算作业所需的物理资源;
调度单元,用于在所述Spark计算引擎中具有所述物理资源时,调度所述计算作业;
第一控制单元,用于控制所述计算作业加载计算数据,并对所述计算数据进行计算,以生成计算结果;
存储单元,用于存储所述计算结果。
7.根据权利要求6所述的大数据计算系统,其特征在于,还包括:
第二控制单元,用于在所述Spark计算引擎中不具有所述物理资源时,控制所述计算作业继续保持在所述作业列队中。
8.根据权利要求6所述的大数据计算系统,其特征在于,所述第一控制单元具体包括:
转换单元,用于将所述计算作业的原始数据转换为弹性分布式数据集;
计算单元,用于对所述弹性分布式数据集进行转换和操作,以生成计算结果弹性分布式数据集;
输出单元,用于将所述计算结果弹性分布式数据集转化为预设文本结果,并输出所述预设文本结果。
9.根据权利要求6所述的大数据计算系统,其特征在于,所述第一提交单元具体包括:
提交子单元,用于将所述计算作业以RESTful的方式提交至所述Spark计算引擎。
10.根据权利要求6至9中任一项所述的大数据计算系统,其特征在于,所述存储单元具体包括:
存储子单元,用于以多副本的形式存储所述计算结果。
11.一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至5中任一项所述大数据计算方法的步骤。
12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5中任一项所述大数据计算方法的步骤。
CN201711048689.5A 2017-10-31 2017-10-31 大数据计算方法、计算系统、计算机设备及可读存储介质 Pending CN107861804A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711048689.5A CN107861804A (zh) 2017-10-31 2017-10-31 大数据计算方法、计算系统、计算机设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711048689.5A CN107861804A (zh) 2017-10-31 2017-10-31 大数据计算方法、计算系统、计算机设备及可读存储介质

Publications (1)

Publication Number Publication Date
CN107861804A true CN107861804A (zh) 2018-03-30

Family

ID=61697958

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711048689.5A Pending CN107861804A (zh) 2017-10-31 2017-10-31 大数据计算方法、计算系统、计算机设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN107861804A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110381143A (zh) * 2019-07-19 2019-10-25 深圳前海微众银行股份有限公司 作业提交执行方法、装置、设备及计算机存储介质
CN110955500A (zh) * 2018-09-26 2020-04-03 北京忆恒创源科技有限公司 大规模并发任务的调度方法与装置
CN111611221A (zh) * 2019-02-26 2020-09-01 北京京东尚科信息技术有限公司 混合计算系统、数据处理方法及装置
CN112116463A (zh) * 2020-05-20 2020-12-22 上海金融期货信息技术有限公司 一种基于Spark引擎的智能分析系统
CN112130976A (zh) * 2020-09-21 2020-12-25 厦门南讯股份有限公司 一种基于rest的多引擎大数据任务管理方法
CN113051064A (zh) * 2019-12-26 2021-06-29 中移(上海)信息通信科技有限公司 任务调度方法、装置、设备及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101288049A (zh) * 2005-05-04 2008-10-15 Arm有限公司 数据处理装置中的数据引擎的使用
CN104239501A (zh) * 2014-09-10 2014-12-24 中国电子科技集团公司第二十八研究所 一种基于Spark的海量视频语义标注方法
CN105022670A (zh) * 2015-07-17 2015-11-04 中国海洋大学 一种云计算平台中的异构分布式任务处理系统及其处理方法
CN105718315A (zh) * 2016-02-17 2016-06-29 中国农业银行股份有限公司 一种任务处理方法及服务器
CN106569887A (zh) * 2016-11-04 2017-04-19 东南大学 一种云环境下细粒度任务调度方法
US20170272458A1 (en) * 2015-08-31 2017-09-21 Splunk Inc. Network Security System with Real-Time and Batch Paths
US20170277772A1 (en) * 2016-03-15 2017-09-28 International Business Machines Corporation Providing global metadata in a cluster computing environment
US20170286252A1 (en) * 2016-04-01 2017-10-05 Intel Corporation Workload Behavior Modeling and Prediction for Data Center Adaptation

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101288049A (zh) * 2005-05-04 2008-10-15 Arm有限公司 数据处理装置中的数据引擎的使用
CN104239501A (zh) * 2014-09-10 2014-12-24 中国电子科技集团公司第二十八研究所 一种基于Spark的海量视频语义标注方法
CN105022670A (zh) * 2015-07-17 2015-11-04 中国海洋大学 一种云计算平台中的异构分布式任务处理系统及其处理方法
US20170272458A1 (en) * 2015-08-31 2017-09-21 Splunk Inc. Network Security System with Real-Time and Batch Paths
CN105718315A (zh) * 2016-02-17 2016-06-29 中国农业银行股份有限公司 一种任务处理方法及服务器
US20170277772A1 (en) * 2016-03-15 2017-09-28 International Business Machines Corporation Providing global metadata in a cluster computing environment
US20170286252A1 (en) * 2016-04-01 2017-10-05 Intel Corporation Workload Behavior Modeling and Prediction for Data Center Adaptation
CN106569887A (zh) * 2016-11-04 2017-04-19 东南大学 一种云环境下细粒度任务调度方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
俞俊生: "《从云到终端提升移动流媒体性能技术研究》", 30 September 2015, 电子科技大学出版社 *
袁景凌: "《Spark案例与实验教程》", 28 April 2017, 武汉大学出版社 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110955500A (zh) * 2018-09-26 2020-04-03 北京忆恒创源科技有限公司 大规模并发任务的调度方法与装置
CN111611221A (zh) * 2019-02-26 2020-09-01 北京京东尚科信息技术有限公司 混合计算系统、数据处理方法及装置
CN110381143A (zh) * 2019-07-19 2019-10-25 深圳前海微众银行股份有限公司 作业提交执行方法、装置、设备及计算机存储介质
CN110381143B (zh) * 2019-07-19 2023-09-12 深圳前海微众银行股份有限公司 作业提交执行方法、装置、设备及计算机存储介质
CN113051064A (zh) * 2019-12-26 2021-06-29 中移(上海)信息通信科技有限公司 任务调度方法、装置、设备及存储介质
CN113051064B (zh) * 2019-12-26 2024-05-24 中移(上海)信息通信科技有限公司 任务调度方法、装置、设备及存储介质
CN112116463A (zh) * 2020-05-20 2020-12-22 上海金融期货信息技术有限公司 一种基于Spark引擎的智能分析系统
CN112130976A (zh) * 2020-09-21 2020-12-25 厦门南讯股份有限公司 一种基于rest的多引擎大数据任务管理方法

Similar Documents

Publication Publication Date Title
CN107861804A (zh) 大数据计算方法、计算系统、计算机设备及可读存储介质
CN108351805B (zh) 计算图的基于流的加速器处理
CN104036451B (zh) 基于多图形处理器的模型并行处理方法及装置
Dominic et al. Efficient dispatching rules for dynamic job shop scheduling
CN110163474A (zh) 一种任务分配的方法及设备
CN103927225B (zh) 一种多核心架构的互联网信息处理优化方法
CN106020933B (zh) 基于超轻量虚拟机的云计算动态资源调度系统及方法
Seyedalizadeh Ganji et al. Analysis of the continuous berth allocation problem in container ports using a genetic algorithm
CN106371888A (zh) 支持虚拟机的存储设备,包括其的存储系统和其操作方法
CN109426553A (zh) 任务切分装置及方法、任务处理装置及方法、多核处理器
US20140059054A1 (en) Parallel generation of topics from documents
CN103699441B (zh) 基于任务粒度的MapReduce报表任务执行方法
CN111611062B (zh) 云边协同分层计算方法及云边协同分层计算系统
CN105373432B (zh) 一种基于虚拟资源状态预测的云计算资源调度方法
CN110347489A (zh) 一种基于Spark的多中心数据协同计算的流处理方法
CN104156505B (zh) 一种基于用户行为分析的Hadoop集群作业调度方法及装置
CN101968876B (zh) 一种地面系统遥感图像的自适应实时处理方法
US20210326683A1 (en) Hardware circuit for accelerating neural network computations
Perwej The ambient scrutinize of scheduling algorithms in big data territory
CN104156316B (zh) 一种Hadoop集群批处理作业的方法及系统
Mirsoleimani et al. A parallel memetic algorithm on GPU to solve the task scheduling problem in heterogeneous environments
Su et al. Single workgroup scheduling problem with variable processing personnel
CN106897199A (zh) 一种基于大数据处理框架共有特征的批作业执行时间预测方法
CN108446165A (zh) 一种云计算中的任务预取方法
Ke The optimal control in batch arrival queue with server vacations, startup and breakdowns

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20180330

RJ01 Rejection of invention patent application after publication