CN117076559A - 一种基于多计算引擎的大数据离线处理方法及其系统 - Google Patents

一种基于多计算引擎的大数据离线处理方法及其系统 Download PDF

Info

Publication number
CN117076559A
CN117076559A CN202310875339.5A CN202310875339A CN117076559A CN 117076559 A CN117076559 A CN 117076559A CN 202310875339 A CN202310875339 A CN 202310875339A CN 117076559 A CN117076559 A CN 117076559A
Authority
CN
China
Prior art keywords
job
engine
executor
information
jci
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310875339.5A
Other languages
English (en)
Inventor
甘朗杰
卢居辉
朱海勇
魏超
林至贤
陈子沣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen Meiya Pico Information Co Ltd
Original Assignee
Xiamen Meiya Pico Information Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen Meiya Pico Information Co Ltd filed Critical Xiamen Meiya Pico Information Co Ltd
Priority to CN202310875339.5A priority Critical patent/CN117076559A/zh
Publication of CN117076559A publication Critical patent/CN117076559A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/252Integrating or interfacing systems involving database management systems between a Database Management System and a front-end application
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/54Interprogram communication
    • G06F9/546Message passing systems or structures, e.g. queues

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Stored Programmes (AREA)

Abstract

本发明提出了一种基于多计算引擎的大数据离线处理方法及其系统,该方法包括如下步骤:响应于第三方应用通过Web端发起的作业请求,所述作业请求调用引擎执行器控制层接口EECI;引擎作业提交执行器EJSR会轮询独立引擎作业队列,并取出作业信息JCI提交给离线计算引擎WebActor‑WSActor;启动离线计算引擎Actor‑SJEActor,发送启动信息至离线计算引擎WebActor‑WSActor实例;同时启动作业执行器JER,所述作业执行器JER不断轮询作业队列,查看作业队列中是否存在作业信息JCI,轮询到作业信息JCI时创建并提交所述作业信息JCI给作业执行者JERA,作业执行者JERA调用具体引擎进行处理。通过在实际建模过程中通过调用基于多计算引擎的大数据离线处理系统接口能够高效、可靠的解决大数据离线计算的业务场景。

Description

一种基于多计算引擎的大数据离线处理方法及其系统
技术领域
本发明属于大数据技术领域,具体涉及一种基于多计算引擎的大数据离线处理方法及其系统。
背景技术
随着互联网技术的飞速发展和普及,各行各业都在积极探索新的数据处理和分析方法。而大数据时代的到来,则将这种需求推向了一个全新的高度。在大数据应用场景下,如何高效地对海量的数据进行处理和分析,成为了各家公司和机构争相研究的焦点问题。离线计算作为一种传统的数据处理方式,在大数据应用场景下也得到了广泛的应用。分布式计算框架是大数据离线计算的核心技术之一,目前最为流行的开源分布式计算框架包括Hadoop、Spark等,这些框架能够有效地提升大数据处理的效率和可靠性。虽然大数据离线计算已经取得了一系列的成果,但是在实际应用中还存在一些技术挑战,其中一个比较凸出的难点就是计算效率问题。尽管目前已有多种分布式计算框架可供选择,但是如何进一步提升大数据离线计算的计算效率仍然是一个重要问题。
Akka是一个优秀的分布式计算框架,具有高可伸缩性、高并发性、高可靠性、分布式计算和响应式编程等多重优势。通过基于Actor模型的设计,Akka可以将应用程序划分为独立的运算单元,这些单元之间可以异步接收和发送消息,并在必要时创建更多的Actor,从而轻松地扩展到多个节点,实现高度可伸缩的应用程序。同时,Akka还可以实现高效的并发编程,提高应用程序的性能和吞吐量;通过监视和恢复机制来保证应用程序的高可靠性,避免系统崩溃或数据丢失等问题;支持在不同的节点上部署Actor,构建复杂的分布式应用程序;并且支持响应式编程模型,实现非阻塞IO操作,提高应用程序的反应速度和可伸缩性。因此,采用Akka来构建离线计算架构体系可以提高数据的处理效率、以及计算的可靠性,系统的灵活性和可扩展性,同时也有利于降低系统维护成本。
Akka本身并不是一个专门用于离线计算的框架,但是可以通过Akka实现一些离线计算的功能。在Akka中,Actor可以看作是一个独立的计算单元,可以处理任务、保存状态和发送消息等操作。因此,可以使用Akka分布式Actor来实现对大数据的离线计算。
有鉴于此,提出一种基于多计算引擎的大数据离线处理方法及其系统是非常具有意义的。
发明内容
为了解决现有大数据离线计算的计算效率不高的问题,本发明提供一种基于多计算引擎的大数据离线处理方法及其系统,以解决上述存在的技术缺陷问题。
第一方面,本发明提出了一种基于多计算引擎的大数据离线处理方法,该方法包括如下步骤:
响应于第三方应用通过Web端发起的作业请求,所述作业请求调用引擎执行器控制层接口EECI;
引擎作业提交执行器EJSR会轮询独立引擎作业队列,并取出作业信息JCI提交给离线计算引擎WebActor-WSActor;
启动离线计算引擎Actor-SJEActor,发送启动信息至离线计算引擎WebActor-WSActor实例;
同时启动作业执行器JER,所述作业执行器JER不断轮询作业队列,查看作业队列中是否存在作业信息JCI,轮询到作业信息JCI时创建并提交所述作业信息JCI给作业执行者JERA,作业执行者JERA调用具体引擎进行处理。
优选的,还包括:
SJEActor实例启动后会给WSActor实例发送启动信息,并创建一个第一计时器,WSActor实例在接收到SJEActor实例启动信息后,创建一个第二计时器;
然后把作业信息JCI发送给SJEActor实例,SJEActor实例在接收到作业信息JCI后关闭第二计时器,同时将作业信息JCI存放到作业队列中,并发送一个确认收到JCI的信息给WSActor实例,WSActor实例在收到确认信息后关闭第一计时器。
进一步优选的,还包括:
引擎执行器控制层接口EECI接口在接收到作业请求后,会调用一个引擎执行器服务类接口EESI;
对传参进行参数校验,如果作业ID为空,则会抛出异常,如果作业ID不为空,则会根据引擎的运行模式把作业信息JCI提交给Web端独立引擎作业队列。
进一步优选的,还包括:
根据请求传参获取对应的作业ID,并启动一个名为此作业ID的离线计算引擎WebActor实例-WSActor,然后传入作业信息JCI;
离线计算引擎WebActor-WSActor接收到作业信息之后,调用引擎管理服务构建一个离线计算引擎Actor-SJEActor启动命令;
然后启动带有WSActor实例的IP地址与作业ID的作业程序命令,该程序通过IP地址与作业ID与WSActor实例建立连接通道。
进一步优选的,还包括:
若第一计时器或第二计时器等待超时会抛出异常,统一持久化到分布式存储数据库,第三方应用会定时拉取分布式存储数据库对应的持久化表,以获取相关请求结果信息。
进一步优选的,作业执行者JERA调用具体引擎进行处理具体包括:
作业执行者JERA会调用初始化引擎方法,然后在执行作业前调用一下作业执行之前的预处理方法;
完成之后调用开始作业的执行方法,作业结束后调用清理操作方法,并将结果持久化到分布式存储数据库;
如果作业执行过程中报错,则调用对应的异常处理方法,并将异常信息持久化到分布式存储数据库;
最后,第三方应用会计时拉取分布式存储数据库对应的持久化表,获取相关请求结果信息。
第二方面,本发明实施例还提供一种基于多计算引擎的大数据离线处理系统,该系统包括:
作业请求模块,配置用于响应于第三方应用通过Web端发起的作业请求,所述作业请求调用引擎执行器控制层接口EECI;
引擎作业提交执行器EJSR模块,配置用于轮询独立引擎作业队列,并取出作业信息JCI提交给离线计算引擎WebActor-WSActor;
离线计算引擎WebActor模块,配置用于启动离线计算引擎Actor-SJEActor,发送启动信息至离线计算引擎WebActor-WSActor实例;
作业执行器JER模块,配置用于启动作业执行器JER,所述作业执行器JER不断轮询作业队列,查看作业队列中是否存在作业信息JCI,轮询到作业信息JCI时创建并提交所述作业信息JCI给作业执行者JERA,作业执行者JERA调用具体引擎进行处理。
进一步优选的,还包括:
离线计算引擎Actor模块,配置用于启动带有WSActor实例的IP地址与作业ID的作业程序命令,该程序通过IP地址与作业ID与WSActor实例建立连接通道;
计时器模块,配置用于接收确认信息;
传参校验模块,配置用于对传参进行参数校验。
第三方面,本发明实施例提供了一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如第一方面中任一实现方式描述的方法。
第四方面,本发明实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面中任一实现方式描述的方法。
与现有技术相比,本发明的有益成果在于:
本发明通过在实际建模过程中通过调用基于多计算引擎的大数据离线处理系统接口能够高效、可靠的解决大数据离线计算的业务场景;本方法通过合理的设计和优化,充分利用Akka的分布式计算能力,构建出一套专门用于离线计算的引擎系统。
附图说明
包括附图以提供对实施例的进一步理解并且附图被并入本说明书中并且构成本说明书的一部分。附图图示了实施例并且与描述一起用于解释本发明的原理。将容易认识到其它实施例和实施例的很多预期优点,因为通过引用以下详细描述,它们变得被更好地理解。附图的元件不一定是相互按照比例的。同样的附图标记指代对应的类似部件。
图1是本发明的实施例基于多计算引擎的大数据离线处理方法流程示意图;
图2为本发明的实施例的基于多计算引擎的大数据离线处理方法整体架构示意图;
图3为本发明的实施例的基于多计算引擎的大数据离线处理系统示意图;
图4是适于用来实现本发明实施例的电子设备的计算机装置的结构示意图。
具体实施方式
在以下详细描述中,参考附图,该附图形成详细描述的一部分,并且通过其中可实践本发明的说明性具体实施例来示出。对此,参考描述的图的取向来使用方向术语,例如“顶”、“底”、“左”、“右”、“上”、“下”等。因为实施例的部件可被定位于若干不同取向中,为了图示的目的使用方向术语并且方向术语绝非限制。应当理解的是,可以利用其他实施例或可以做出逻辑改变,而不背离本发明的范围。因此以下详细描述不应当在限制的意义上被采用,并且本发明的范围由所附权利要求来限定。
图1示出了本发明的实施例公开了一种基于多计算引擎的大数据离线处理方法,如图1所示,该方法包括如下步骤:
S1、响应于第三方应用通过Web端发起的作业请求,所述作业请求调用引擎执行器控制层接口EECI;
S2、引擎作业提交执行器EJSR会轮询独立引擎作业队列,并取出作业信息JCI提交给离线计算引擎WebActor-WSActor;
S3、启动离线计算引擎Actor-SJEActor,发送启动信息至离线计算引擎WebActor-WSActor实例;
S4、同时启动作业执行器JER,所述作业执行器JER不断轮询作业队列,查看作业队列中是否存在作业信息JCI,轮询到作业信息JCI时创建并提交所述作业信息JCI给作业执行者JERA,作业执行者JERA调用具体引擎进行处理。
具体的,图2示出本发明的整体框架示意图,如图2所示。根据图2的架构图,本发明方法实现主要分为两个阶段,其中又包含核心交互与作业队列模块,其具体方法说明如下:
第1步,第三方应用通过Web端发起一个作业请求,该请求会调用引擎执行器控制层接口(EECI);
第2步,引擎执行器控制层接口(EECI)接口在接收到作业请求后,会调用一个引擎执行器服务类接口(EESI);
第3步,对传参进行参数校验,如果作业ID为空,则会抛出异常;
第4步,如果作业ID不为空,则会根据引擎的运行模式把作业信息(JCI)提交给Web端独立引擎作业队列;
第5步,引擎作业提交执行器(EJSR)会轮询独立引擎作业队列,并取出作业信息(JCI)提交给离线计算引擎WebActor(WSActor);
第6步,根据请求传参获取对应的作业ID,并启动一个名为此作业ID的离线计算引擎WebActor实例(WSActor),然后传入作业信息(JCI),离线计算引擎WebActor(WSActor)接收到作业信息之后,调用引擎管理服务构建一个离线计算引擎Actor(SJEActor)启动命令,然后启动这个带有WSActor实例的IP地址与作业ID的作业程序命令,该程序通过IP地址与作业ID与WSActor实例建立连接通道;
第7步,SJEActor实例启动后会给WSActor实例发送启动信息(如图2中7.1发送启动信息),并创建一个计时器(如图2中7.2创建),WSActor实例在接收到SJEActor实例启动信息后,创建一个计时器(如图2中7.3创建),然后把作业信息(JCI)发送给SJEActor实例(如图2中7.4发送JCI),SJEActor实例在接收到作业信息(JCI)后关闭计时器(如图2中7.5关闭),同时将作业信息(JCI)存放到作业队列中(如图2中7.6发送JCI),并发送一个确认收到JCI的信息给WSActor实例(如图2中7.7发送确认收到JCI信息),WSActor实例在收到确认信息后关闭计时器(如图2中7.8关闭)。
这期间计时器等待超时的异常会抛出来,统一持久化到分布式存储数据库,第三方应用会计时拉取分布式存储数据库对应的持久化表,获取相关请求结果信息。
第8步,Web服务在启动的时候,就会启动作业执行器(JER),作业执行器(JER)启动之后会不断的轮询作业队列,查看作业队列中是否存在作业信息(JCI),一旦轮询到作业信息(JCI),则创建并提交作业信息(JCI)给作业执行者(JERA);
第9步,作业执行者(JERA)会调用初始化引擎方法,然后在执行作业前调用一下作业执行之前的预处理方法;完成之后调用开始作业的执行方法;作业结束后调用清理操作方法,并将结果持久化到分布式存储数据库;如果作业执行过程中报错,则调用对应的异常处理方法,并将异常信息持久化到分布式存储数据库。最后,第三方应用会计时拉取分布式存储数据库对应的持久化表,获取相关请求结果信息。
本方法落地在乾坤大数据操作系统的天算应用中,在近年智慧城市、公共卫生事件防控、反诈等部、省级实战建模工作中多次得到验证。在实际建模过程中通过调用基于多计算引擎的大数据离线处理方法的接口能够高效、可靠的解决大数据离线计算的业务场景。
第二方面,本发明实施例还公开一种基于多计算引擎的大数据离线处理系统,如图3所示,该系统包括:作业请求模块31,引擎作业提交执行器EJSR模块32,离线计算引擎WebActor模块33,作业执行器JER模块34,离线计算引擎Actor模块35,计时器模块36以及传参校验模块37。
在一个具体实施例中,作业请求模块31,配置用于响应于第三方应用通过Web端发起的作业请求,所述作业请求调用引擎执行器控制层接口EECI;引擎作业提交执行器EJSR模块32,配置用于轮询独立引擎作业队列,并取出作业信息JCI提交给离线计算引擎WebActor-WSActor;离线计算引擎WebActor模块33,配置用于启动离线计算引擎Actor-SJEActor,发送启动信息至离线计算引擎WebActor-WSActor实例。
作业执行器JER模块34,配置用于启动作业执行器JER,所述作业执行器JER不断轮询作业队列,查看作业队列中是否存在作业信息JCI,轮询到作业信息JCI时创建并提交所述作业信息JCI给作业执行者JERA,作业执行者JERA调用具体引擎进行处理;离线计算引擎Actor模块35,配置用于启动带有WSActor实例的IP地址与作业ID的作业程序命令,该程序通过IP地址与作业ID与WSActor实例建立连接通道;计时器模块36,配置用于接收确认信息;传参校验模块37,配置用于对传参进行参数校验。
下面参考图4,其示出了适于用来实现本发明实施例的电子设备(例如图1所示的服务器或终端设备)的计算机装置600的结构示意图。图4示出的电子设备仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图4所示,计算机装置600包括中央处理单元(CPU)601和图形处理器(GPU)602,其可以根据存储在只读存储器(ROM)603中的程序或者从存储部分609加载到随机访问存储器(RAM)606中的程序而执行各种适当的动作和处理。在RAM 604中,还存储有装置600操作所需的各种程序和数据。CPU 601、GPU602、ROM 603以及RAM 604通过总线605彼此相连。输入/输出(I/O)接口606也连接至总线605。
以下部件连接至I/O接口606:包括键盘、鼠标等的输入部分607;包括诸如、液晶显示器(LCD)等以及扬声器等的输出部分608;包括硬盘等的存储部分609;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分610。通信部分610经由诸如因特网的网络执行通信处理。驱动器611也可以根据需要连接至I/O接口606。可拆卸介质612,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器611上,以便于从其上读出的计算机程序根据需要被安装入存储部分609。
特别地,根据本发明公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分610从网络上被下载和安装,和/或从可拆卸介质612被安装。在该计算机程序被中央处理单元(CPU)601和图形处理器(GPU)602执行时,执行本发明的方法中限定的上述功能。
需要说明的是,本发明所述的计算机可读介质可以是计算机可读信号介质或者计算机可读介质或者是上述两者的任意组合。计算机可读介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的装置、装置或器件,或者任意以上的组合。计算机可读介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行装置、装置或者器件使用或者与其结合使用。而在本发明中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行装置、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明的操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本发明各种实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的装置来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本发明实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中。
作为另一方面,本发明还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:响应于第三方应用通过Web端发起的作业请求,所述作业请求调用引擎执行器控制层接口EECI;引擎作业提交执行器EJSR会轮询独立引擎作业队列,并取出作业信息JCI提交给离线计算引擎WebActor-WSActor;启动离线计算引擎Actor-SJEActor,发送启动信息至离线计算引擎WebActor-WSActor实例;同时启动作业执行器JER,所述作业执行器JER不断轮询作业队列,查看作业队列中是否存在作业信息JCI,轮询到作业信息JCI时创建并提交所述作业信息JCI给作业执行者JERA,作业执行者JERA调用具体引擎进行处理。
以上描述仅为本发明的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本发明中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本发明中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (10)

1.一种基于多计算引擎的大数据离线处理方法,其特征在于,该方法包括如下步骤:
响应于第三方应用通过Web端发起的作业请求,所述作业请求调用引擎执行器控制层接口EECI;
引擎作业提交执行器EJSR会轮询独立引擎作业队列,并取出作业信息JCI提交给离线计算引擎WebActor-WSActor;
启动离线计算引擎Actor-SJEActor,发送启动信息至离线计算引擎WebActor-WSActor实例;
同时启动作业执行器JER,所述作业执行器JER不断轮询作业队列,查看作业队列中是否存在作业信息JCI,轮询到作业信息JCI时创建并提交所述作业信息JCI给作业执行者JERA,作业执行者JERA调用具体引擎进行处理。
2.根据权利要求1所述的基于多计算引擎的大数据离线处理方法,其特征在于,还包括:
SJEActor实例启动后会给WSActor实例发送启动信息,并创建一个第一计时器,WSActor实例在接收到SJEActor实例启动信息后,创建一个第二计时器;
然后把作业信息JCI发送给SJEActor实例,SJEActor实例在接收到作业信息JCI后关闭第二计时器,同时将作业信息JCI存放到作业队列中,并发送一个确认收到JCI的信息给WSActor实例,WSActor实例在收到确认信息后关闭第一计时器。
3.根据权利要求2所述的基于多计算引擎的大数据离线处理方法,其特征在于,还包括:
引擎执行器控制层接口EECI接口在接收到作业请求后,会调用一个引擎执行器服务类接口EESI;
对传参进行参数校验,如果作业ID为空,则会抛出异常,如果作业ID不为空,则会根据引擎的运行模式把作业信息JCI提交给Web端独立引擎作业队列。
4.根据权利要求3所述的基于多计算引擎的大数据离线处理方法,其特征在于,还包括:
根据请求传参获取对应的作业ID,并启动一个名为此作业ID的离线计算引擎WebActor实例-WSActor,然后传入作业信息JCI;
离线计算引擎WebActor-WSActor接收到作业信息之后,调用引擎管理服务构建一个离线计算引擎Actor-SJEActor启动命令;
然后启动带有WSActor实例的IP地址与作业ID的作业程序命令,该程序通过IP地址与作业ID与WSActor实例建立连接通道。
5.根据权利要求4所述的基于多计算引擎的大数据离线处理方法,其特征在于,还包括:
若第一计时器或第二计时器等待超时会抛出异常,统一持久化到分布式存储数据库,第三方应用会定时拉取分布式存储数据库对应的持久化表,以获取相关请求结果信息。
6.根据权利要求5所述的基于多计算引擎的大数据离线处理方法,其特征在于,作业执行者JERA调用具体引擎进行处理具体包括:
作业执行者JERA会调用初始化引擎方法,然后在执行作业前调用一下作业执行之前的预处理方法;
完成之后调用开始作业的执行方法,作业结束后调用清理操作方法,并将结果持久化到分布式存储数据库;
如果作业执行过程中报错,则调用对应的异常处理方法,并将异常信息持久化到分布式存储数据库;
最后,第三方应用会计时拉取分布式存储数据库对应的持久化表,获取相关请求结果信息。
7.一种基于多计算引擎的大数据离线处理系统,其特征在于,该系统包括:
作业请求模块,配置用于响应于第三方应用通过Web端发起的作业请求,所述作业请求调用引擎执行器控制层接口EECI;
引擎作业提交执行器EJSR模块,配置用于轮询独立引擎作业队列,并取出作业信息JCI提交给离线计算引擎WebActor-WSActor;
离线计算引擎WebActor模块,配置用于启动离线计算引擎Actor-SJEActor,发送启动信息至离线计算引擎WebActor-WSActor实例;
作业执行器JER模块,配置用于启动作业执行器JER,所述作业执行器JER不断轮询作业队列,查看作业队列中是否存在作业信息JCI,轮询到作业信息JCI时创建并提交所述作业信息JCI给作业执行者JERA,作业执行者JERA调用具体引擎进行处理。
8.根据权利要求7所述的基于多计算引擎的大数据离线处理方法,其特征在于,还包括:
离线计算引擎Actor模块,配置用于启动带有WSActor实例的IP地址与作业ID的作业程序命令,该程序通过IP地址与作业ID与WSActor实例建立连接通道;
计时器模块,配置用于接收确认信息;
传参校验模块,配置用于对传参进行参数校验。
9.一种电子设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1至6中任一所述的方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至6中任一所述的方法。
CN202310875339.5A 2023-07-17 2023-07-17 一种基于多计算引擎的大数据离线处理方法及其系统 Pending CN117076559A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310875339.5A CN117076559A (zh) 2023-07-17 2023-07-17 一种基于多计算引擎的大数据离线处理方法及其系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310875339.5A CN117076559A (zh) 2023-07-17 2023-07-17 一种基于多计算引擎的大数据离线处理方法及其系统

Publications (1)

Publication Number Publication Date
CN117076559A true CN117076559A (zh) 2023-11-17

Family

ID=88701313

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310875339.5A Pending CN117076559A (zh) 2023-07-17 2023-07-17 一种基于多计算引擎的大数据离线处理方法及其系统

Country Status (1)

Country Link
CN (1) CN117076559A (zh)

Similar Documents

Publication Publication Date Title
US11188380B2 (en) Method and apparatus for processing task in smart device
US20200410031A1 (en) Systems and methods for cloud computing
CN110413822B (zh) 离线图像结构化分析方法、装置、系统和存储介质
CN113254445B (zh) 实时数据存储方法、装置、计算机设备及存储介质
EP3869324A2 (en) Voice data processing method, apparatus, storage medium and computer program product
CN109634764A (zh) 工作流控制方法、装置、设备、存储介质和系统
CN112395736A (zh) 一种分布交互仿真系统的并行仿真作业调度方法
CN116431878A (zh) 向量检索服务方法、装置、设备及其存储介质
CN111831461A (zh) 一种处理业务流程的方法和装置
CN113658351B (zh) 一种产品生产的方法、装置、电子设备及存储介质
CN110868324A (zh) 一种业务配置方法、装置、设备和存储介质
CN106911784B (zh) 一种执行异步事件的方法和装置
CN106909368B (zh) 一种实现快速业务开发的服务端业务层逻辑架构
CN117271121A (zh) 一种任务处理进度控制方法、装置、设备及其存储介质
CN117076559A (zh) 一种基于多计算引擎的大数据离线处理方法及其系统
CN115378937B (zh) 任务的分布式并发方法、装置、设备和可读存储介质
CN116483425A (zh) 微服务灰度发版方法、装置、设备及其存储介质
CN109688174A (zh) 一种基于多代理商服务的虚拟业务实现方法和装置
CN109840073B (zh) 业务流程的实现方法和装置
CN117076558A (zh) 一种基于多计算引擎的海量数据在线分析方法及其系统
CN116860847A (zh) 一种面向多源异构数据源的统一健康检测方法及其系统
CN115378991B (zh) 消息的处理方法、装置、设备及计算机存储介质
CN114202046B (zh) 基于sap系统生成二维码的方法、装置、设备及介质
CN115361162A (zh) 系统登录方法及其相关设备
WO2021238914A1 (zh) 模型管理装置、方法、数据管理装置、方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination