CN112925619A - 大数据实时计算方法及平台 - Google Patents
大数据实时计算方法及平台 Download PDFInfo
- Publication number
- CN112925619A CN112925619A CN202110206555.1A CN202110206555A CN112925619A CN 112925619 A CN112925619 A CN 112925619A CN 202110206555 A CN202110206555 A CN 202110206555A CN 112925619 A CN112925619 A CN 112925619A
- Authority
- CN
- China
- Prior art keywords
- real
- task
- computing
- data
- time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004364 calculation method Methods 0.000 title claims abstract description 55
- 238000004458 analytical method Methods 0.000 claims abstract description 41
- 238000000034 method Methods 0.000 claims abstract description 27
- 238000013500 data storage Methods 0.000 claims abstract description 23
- 125000002015 acyclic group Chemical group 0.000 claims abstract description 14
- 238000013499 data model Methods 0.000 claims abstract description 13
- 230000002159 abnormal effect Effects 0.000 claims abstract description 12
- 238000007726 management method Methods 0.000 claims description 17
- 238000004891 communication Methods 0.000 claims description 8
- 230000008569 process Effects 0.000 description 16
- 230000006870 function Effects 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 238000011161 development Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 238000007405 data analysis Methods 0.000 description 4
- 230000015654 memory Effects 0.000 description 4
- 238000012544 monitoring process Methods 0.000 description 4
- 238000007418 data mining Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000010223 real-time analysis Methods 0.000 description 3
- 238000013468 resource allocation Methods 0.000 description 3
- 238000006467 substitution reaction Methods 0.000 description 3
- 230000002776 aggregation Effects 0.000 description 2
- 238000004220 aggregation Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000010205 computational analysis Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000011084 recovery Methods 0.000 description 2
- 230000005856 abnormality Effects 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000013075 data extraction Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000011112 process operation Methods 0.000 description 1
- ZLIBICFPKPWGIZ-UHFFFAOYSA-N pyrimethanil Chemical compound CC1=CC(C)=NC(NC=2C=CC=CC=2)=N1 ZLIBICFPKPWGIZ-UHFFFAOYSA-N 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/48—Program initiating; Program switching, e.g. by interrupt
- G06F9/4806—Task transfer initiation or dispatching
- G06F9/4843—Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
- G06F9/4881—Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5083—Techniques for rebalancing the load in a distributed system
Landscapes
- Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种大数据实时计算方法及平台,该方法包括创建实时计算任务,并配置实时计算任务的任务信息,任务信息包括集群信息、数据源信息和数据存储信息;根据集群信息分配实时计算任务到对应的计算集群;将实时计算任务解析生成有向无环DAG图,根据有向无环图生成计算程序;计算集群申请资源并根据计算程序从数据源信息获取数据执行计算分析实时计算任务,并建立实时数据模型;根据存储信息保存计算分析结果,并且分析结果可多次复用。本申请在创建任务时配置数据源以获取精准数据,并根据业务需求配置计算集群执行分析实时计算任务,通过数据建模,以使分析结果更加精准,并且分析结果可多次复用,以恢复节点数据,异常时不必再从头开始计算。
Description
技术领域
本发明涉及大数据领域,具体涉及大数据实时计算分析领域,特别是涉及一种大数据实时计算方法以及实时计算平台。
背景技术
随着大数据的应用场景越来越广泛,离线的大数据分析和挖掘难以满足用户对各类业务实时反馈的诉求,在一些场景下,需要对不断发生变化的数据进行各种逻辑计算,以在较短的时间内完成数据的统计、监控和分析功能。大数据实时分析平台应运而生,通过开发相应的实时计算程序,开发实时分析平台以满足低延迟的数据分析和挖掘,从而支撑各类实时业务场景和系统。
常见的实时程序都是使用底层程序设计语言进行开发,如C++语言、Java语言,主要是通过事先编写好的实时分析程序去完成计算过程,也有部分采用SQL的方式去执行一些简单的分析任务,所有的任务都是通过加载配置好的数据源进行分析,并将最终结果存入数据存储以提供给业务端使用,其无法对实时数据做到更复杂的计算逻辑,并且计算分析过程的中间结果不能复用。
发明内容
为了解决上述问题,本发明的目的是提供一种大数据实时计算方法及平台,该方法在创建任务时配置数据源以获取精准数据,并根据业务需求配置计算集群执行分析实时计算任务,并对实时数据建模,应用多种算法进行业务计算,以使分析结果更加精准,并且分析结果可多次复用,以恢复节点数据,异常时不必再从头开始计算。
基于此,本发明提供了一种大数据实时计算方法,所述大数据实时计算方法包括以下步骤:
创建实时计算任务,并配置实时计算任务的任务信息,所述任务信息包括集群信息、数据源信息和数据存储信息;
根据所述集群信息分配所述实时计算任务到对应的计算集群;
将所述实时计算任务解析生成有向无环DAG图,并根据所述有向无环图生成计算程序;
所述计算集群申请资源并根据所述计算程序从所述数据源信息获取数据执行计算分析所述实时计算任务,并建立实时数据模型;
根据所述存储信息保存计算分析结果,并且所述分析结果可多次复用。
其中,所述创建实时计算任务,并配置实时计算任务的任务信息的步骤,包括:
所创建的所述实时计算任务可跨集群提交任务。
其中,所创建的所述实时计算任务是基于结构化查询语言SQL创建的。
其中,所述计算集群为多计算集群,每个所述计算集群根据按照业务逻辑分成独立的集群。
其中,所述数据源信息和数据存储信息包括至少一个数据源及至少一个存储端信息。
其中,根据所述实时数据模型,对所述实时计算任务进行指向性恢复。
其中,所述方法还包括:
采集并分析所述实时计算任务日志,提前预警任务异常状态。
本发明还提供了一种大数据实时计算平台,包括:任务创建模块、计算集群、任务管理器、语法解析模块、程序生成模块和数据仓库,所述实时计算平台中各模块间通信连接,其中
所述任务创建模块,用于创建实时计算任务,并配置实时计算任务的任务信息,所述任务信息包括集群信息、数据源信息和数据存储信息;
所述任务管理器,用于根据所述集群信息分配所述实时计算任务到对应的计算集群;
所述语法解析模块解析生成所述实时计算任务的有向无环DAG图,所述程序生成模块根据所述有向无环图生成计算程序;
所述计算集群申请资源并根据所述计算程序从所述数据源信息获取数据执行计算分析所述实时计算任务,并建立实时数据模型;
所述数据仓库,用于根据所述存储信息保存计算分析结果,并且所述分析结果可多次复用。
其中,所述计算集群为多集群管理系统。
其中,所述大实时计算平台还包括日志管理模块和预警模块,所述日志管理模块和预警模块通信连接,所述日志管理模块实时采集并挖掘分析所述实时计算平台的各类日志,所述预警模块对所述实时计算平台的各类异常状态提前预警。
有益效果:
在本发明中,所述大数据实时计算方法包括:创建实时计算任务,并配置实时计算任务的任务信息,所述任务信息包括集群信息、数据源信息和数据存储信息,通过配置数据源以获取精准数据,将所述实时计算任务根据业务需求配置合适的计算集群。所述计算集群为多计算集群,根据所配置的所述集群信息分配所述实时计算任务到对应的计算集群中启动实时计算任务。将所述实时计算任务解析生成有向无环DAG图,并根据所述有向无环图生成计算程序;所述计算集群申请资源并根据所述计算程序从所述数据源信息获取数据执行计算分析所述实时计算任务,并建立实时数据模型,应用多种算法进行业务计算,以使分析结果更加精准;根据所述存储信息保存计算分析结果,其中分析结果可多次复用,以恢复节点数据,在计算分析过程中发生异常时不必再从头开始计算。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例可以应用于其中的示例性系统架构图;
图2是本发明实施例提供的大数据实时计算方法的示意图;
图3是本发明实施例提供的大数据实时计算平台的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等,实现所述实时计算分析开发中的各个步骤间的交互或操作以及所述大数据实时计算方法的业务及应用。终端设备101、102、103上可以安装有各种通讯客户端应用,例如集成软件应用、网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。数据源采集信息从各所述应用端采集,包括数据的提取(Extract)、转换(Transform)和加载(Load)。在转换的过程中,需要针对具体的业务场景对数据进行治理,例如进行非法数据监测与过滤、格式转换与数据规范化、数据替换、保证数据完整性等。
终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于用户设备、网络设备或用户设备与网络设备通过网络相集成所构成的设备。所述用户设备其包括但不限于任何一种可与用户通过触摸板进行人机交互的移动电子产品,例如智能手机、平板电脑等,所述移动电子产品可以采用任意操作系统,如android操作系统、IOS操作系统等。其中,所述网络设备包括一种能够按照事先设定或存储的指令,自动进行数值计算和信息处理的电子设备,其硬件包括但不限于微处理器、专用集成电路(ASIC)、可编程门阵列(FPGA)、数字处理器(DSP)、嵌入式设备等。所述网络设备其包括但不限于计算机、网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云;在此,云由基于云计算(Cloud Computing)的大量计算机或网络服务器构成,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个虚拟超级计算机。所述网络包括但不限于互联网、广域网、城域网、局域网、VPN网络、无线自组织网络(Ad Hoc网络)等。当然,本领域技术人员应能理解上述终端设备仅为举例,其他现有的或今后可能出现的终端设备如可适用于本申请,也应包含在本申请保护范围以内,并在此以引用方式包含于此。
服务器105可以是一台服务器,或者由若干台服务器组成的服务器集群,或者是一个云计算服务中心。其也可以是提供各种服务的服务器,例如对终端设备101、102、103上显示的所述软件开发过程的页面或操作界面提供支持的后台服务器。需要说明的是,本申请实施例计算集群是有多个服务器的集成,可用于执行所述实时计算任务。进一步的,所述计算集群为多集群,支持多个数据中心,应用终端可以访问多个站点的用户活动信息。
需要说明的是,本申请实施例所提供的大数据实时计算方法一般由终端设备执行。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
图2是本发明实施例提供的大数据实时计算方法的示意图,所述方法包括:
201、创建实时计算任务,并配置实时计算任务的任务信息,所述任务信息包括集群信息、数据源信息和数据存储信息。
在本实施例中,所述实时计算任务是基SQL(Structured Query Language,结构化查询语言)创建的,SQL语言是一种数据库查询和程序设计语言。具体地,用户可通过在WEB页面、应用程序终端等客户端编辑SQL语句定义所述实时计算任务,或者输入定义所述实时计算任务的SQL文件,SQL文件中包括执行环境及全局变量定义语法、数据源定义语法、数据查询操作语法等。
需要说明的是,所述实时计算任务创建程序开发集成执行程序进行实时计算分析程序的开发,本实施例采用SQL化的方式进行实时分析,降低开发程度,不需要建立代码工程,工作人员仅需要使用SQL语言,根据定义的实时SQL语法即可快速编写出所需要的实时计算程序。
进一步的,本实施例单独设计配置执行所述实时计算任务的任务信息。其中,所述任务信息包括提供数据来源的数据源、处理数据流向的数据存储端以及执行所述实时计算任务的集群信息等。具体地,所述数据源中存储了所有建立数据库连接的信息,通过提供正确的数据源名称,即可找到相应的数据库连接,在执行所述实时计算任务时,根据数据源信息加载所述数据源获取数据进行分析。所述数据端包括临时缓存和数据存储端,分别存储执行所述实时计算任务过程中的中间结果及最终结果。所述任务信息打成包并在配置任务的时候关联到对应的执行包。
需要说明的是,所配置的所述任务信息可通过后端服务器存储入元数据系统中,在执行所述实时计算任务时,任务调度系统可通过元数据系统获取所有任务信息。通过所述元数据系统提供所述任务信息的数据元组织以及提供描述数据元的元数据,以使所述数据源、存储端信息等任务信息更准确而高效。用户在使用数据时可以首先查看其元数据以便能够获取自己所需的信息。
进一步地,所述任务信息一经存储于所述元数据系统中便可共享。
需要说明的是,在创建所述实时计算任务及配置实时计算任务的任务信息时可通过WEB网页、客户端首页可视化地编辑,降低工作人员开发门槛,工程人员不需要建立代码工程便可轻松完成整个实时任务的开发。
202:根据所述集群信息分配所述实时计算任务到对应的计算集群。
在本申请实施例中,根据任务信息中所配置的集群信息将实时计算任务分配到相应的计算集群中。具体的,所述计算集群为多集群,在步骤201配置所述任务信息分配执行所述实时计算任务的集群信息,将所述实时计算任务部署分配到指定计算集群中。
在一些实施例中,所述计算集群可按照业务逻辑分成独立的计算集群,各自运行着相对独立的业务,并对实时性、资源需求、优先级等有不同要求。本实施例可根据所述实时计算任务的业务及资源需求、用户权限等,自动配置执行所述实时计算任务的计算集群,将所述实时计算任务分配到相应的计算集群中。
在其他实施例中,所述多计算集群可合并成一个,并由多集群资源管理器统一负责资源管理和任务分配。多集群资源管理器通常将集群用户分成若干个计算集群,并给每个集群分配一定比例的资源,多集群资源管理器中包含资源分配逻辑,能够按照一定的策略将资源分配计算集群,并灵活实现资源按需分配,以达到资源最高利用。或者,由一个资源管理系统对所有的计算资源,包括CPU、内存、硬盘、端口号等,进行统一管理和调度,根据集群业务需求、用户权限、任务优先级等对资源分配、资源隔离、资源划分等。
进一步的,每个所述计算集群由一组或多组松散集成的计算机软件或硬件连接以高度紧密地协作完成计算工作,计算集群中的单个计算机通常称为节点,通常通过局域网连接,在其他实施例中所述节点可能由其它的可能的方式连接。
需要说明的是,在多计算集群系统中,步骤201所创建的所述实时计算任务可跨集群提交任务。用户可根据各计算集群的资源分配,动态给予资源建议,多集群资源管理器根据所述实时计算任务需求统一负责资源管理和配任务分。
203:将所述实时计算任务解析生成有向无环DAG图,并根据所述有向无环图生成计算程序。
所述实时计算任务是由多个任务组成的任务组,所述任务之间存在依赖关系,如当前任务的执行必须是在其前置任务已经执行成功(或者没有前置任务),才可以执行当前任务,任务间的依赖关系形成有向无环图,基于有向无环图可实现集群任务的资源调度。
本实施例中,所述计算集群根据所述实时计算任务的SQL文件,对其中SQL语句进行语法解析,将所述实时计算任务抽象成语法抽象树,对所述实时计算任务进行拓扑排序,分析出一个或多个所述实时计算任务的拓扑排序序列,对所述实时计算任务间的任务的依赖关系形成DAG(Direct Acyclic Graph)有向无环图,根据所述有向无环DAG图,获取其中每个节点任务的运行参数和执行资源信息等,根据所述实时计算任务的依赖关系、计算逻辑和运行参数及执行资源等信息生成所述实时计算任务的计算程序,形成执行程序包。
204:所述计算集群申请资源并根据所述计算程序从所述数据源信息获取数据执行计算分析所述实时计算任务,并建立实时数据模型。
在本申请实施例中,根据步骤203生成的计算程序,计算集群申请资源,包括计算资源和执行资源,如CPU、内存、硬盘、端口号等资源,按照步骤203解析生成的计算程序对从数据源获取数据按照所述有向无环DAG图执行计算分析所述实时计算任务。
具体的,本实施例可从所述元数据系统获取任务信息,根据元数据信息加载所配置的所述数据源。所述多集群资源管理器根据所述计算集群资源申请调度和分配CPU、内存、硬盘、端口号等计算资源和执行资源根据所述有向无环DAG图从所述数据源中读取数据信息,并将所述数据信息在所述有向无环DAG图计算路径中的各个节点间传递,每个节点根据计算逻辑对数据信息进行过滤、拆分和聚合计算等处理后,再传递到下一节点,直至传递到所述有向无环DAG图的最后一个节点处理后完成所述实时计算任务。
进一步地,所配置的数据源包括多个数据源,指定存储位置包括多个数据存储端,所述实时计算任务支持多源和多终端的输入和输出。在执行所述实时计算任务时可从多个所述数据源中获取数据信息,支持多流、流维操作。所述计算分析结果可存储到多个指定存储位置中,支持多段输出。所述数据源和所述数据存储端包括但不限于各种数据队列、行式存储引擎、列式存储引擎等存储机制。在接入所述数据源时,若格式复杂或需求个性化,可以自定义sink前置解析程序。
需要说明的是,所述计算程序可采用Flink或Spark Streaming流式计算框架处理实时数据流,其支持从多种数据源获取数据,包括但不限于Kafka(由Scala和Java编写的一种高吞吐量的分布式发布订阅消息系统,可以处理消费者在网站中的所有动作流数据。)、Flume(是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力)、Twitter(推特)、ZeroMQ(分布式系统的消息通信工具,可在多个线程、内核和主机盒之间弹性伸缩)以及TCP Sockets(端口传输数据)等类型数据源。从数据源获取数据之后,可以使用诸如map、reduce、join和window等高级函数进行复杂算法的处理,最后将处理结果存储到文件系统、数据库或现场仪表盘等数据存储端中。
在一些实施例中,对于一些复杂的SQL实时计算,还支持自定义udf函数,udf函数可以直接应用于select语句,对查询结构做格式化处理之后输出内容,以及扩展实时计算分析任务功能。
进一步的,对于自定义或机器学习的场景,也支持用户自定义Flink jar包或spark jar包,根据所述实时计算任务需求应用所述Flink jar包或spark jar包中自定义的UDF函数。
具体示例性地,本实施例所述数据源采集数据包括但不限于业务数据、仓库数据、文本数据、网页数据、填报数据、数据交换平台获取的数据以及非结构化数据。所述大数据实时计算方法可迅速、可靠地管理大量数据,提供实时的业务智能以进行先进的大数据分析,满足低延迟的数据分析和挖掘,支撑各类实时业务场景和系统,以及快速获取查询结果等。
需要说明的是,在计算分析过程中,对实时数据进行挖掘及数据建模,深入理解业务和数据,利用统计分析、决策树、回归算法、机器学习或时间序列等技术建立实时数据模型,发现数据中的相关关系,创建业务模型并筛选变量,深度挖掘有价值的业务规律。并且根据所述实时数据模型,实现数据的复用,在计算分析发生异常时,可对所述实时计算任务进行指向性恢复,不用每次都从源头开始进行数据计算。
205:根据所述存储信息保存计算分析结果,其中,所述分析结果可多次复用。
在本申请实施例中,步骤204所计算分析的结果包括中间分析过程的数据及最终分析结果,其中所述中间结果存储在临时缓存中,最终结果存储在所配置的数据存储端中。
进一步的,本申请实施例可根据所述实时数据模型获取所述实时计算任务的中间态和中间结果,并可多次复用所述中间态和中间结果,以便所述实时计算任务在计算分析过程中不用每次从头开始数据计算。根据所述任务中间态和中间结果,还可对所述实时计算任务进行执行性恢复,在当计算分析发生异常时,可自动从异常处进行数据和状态的恢复。
进一步的,根据所述实时数据模型,支持对所述实时计算任务热更新,实现无缝变更业务逻辑。
具体地,执行所述实时计算任务时,所述有向无环图每个节点的计算分析的中间结果保存到临时缓存中,如高速缓冲存储器Cache,Redis缓存等临时存储中,最终计算结果存储到所配置的数据存储端中。
206:采集并分析所述实时计算任务日志,提前预警任务异常状态。
在本申请实施例中,在执行实时计算任务过程中,所述计算集群监控重要计算节点和服务节点,实时采集所述实时计算任务的计算分析系统的各类日志,按照不同的实时计算任务聚合操作日志至给定的日志数据库中,每条日志记录输入和输出的量级与大小,并对日志进行分析和挖掘,监控数据的流转信息,对所述实时计算任务的各类异常状态提前预警。如若超过用户定义的报警规则,客户端可通过微信、短信、钉钉等工具报告紧急情况,或每天提供数据简报、邮件等方式向指定用户告警,实现自动检测任务异常并告警。其中,告警规则包括但不限于告警用户、告警信息模板、告警时间段、告警次数限制、监控指标以及对应阈值等信息。
为解决上述技术问题,本申请实施例还提供大数据实时计算平台300。具体请参阅图3,图3是本发明实施例提供的大数据实时计算平台300的示意图,所述实时计算平台300包括:任务创建模块310、计算集群311、任务管理器312、语法解析模块313、程序生成模块314、元数据库315、数据仓库316、日志管理模块317和预警模块318,所述实时计算平台300中各模块间通信连接,实现各模块间的数据传递。
其中,所述任务创建模块310用于创建实时计算任务,并配置实时计算任务的任务信息。具体地,所述任务信息包括集群信息、数据源信息和数据存储信息。
示例性地,所述任务创建模块310包括客户端319,所述客户端可通过WEB端或应用程序端创建SQL实时任务,并配置执行所述实时计算任务的任务信息,所述任务信息包括提供数据来源的数据源、处理数据流向的数据存储端以及执行所述实时计算任务的集群信息等,且所述任务信息通过后端服务器存储入元数据库315中,在执行所述实时计算任务时,所述任务管理器312从所述通过元数据315获取所有任务信息,分配任务到对应计算集群中。
在其他实施例中,也可配置数据同步任务的数据来源(Reader)、数据去向(Writer)、字段映射、通道控制信息等SQL实时计算任务的任务信息。所配置的SQL实时任务根据所述任务信息提交到指定计算集群中。在执行所述SQL实时计算任务时根据所述数据来源(Reader)加载数据源并将计算结果存储到执行数据去向(Writer)。
所述计算集群311为多集群管理系统,不同计算集群运行着不同的业务线,并对实时性、资源需求、优先级等有不同要求。进一步的,所述大数据实时计算平台300可跨集群提交实时计算任务,根据业务逻辑和资源需求,动态分配资源。
所述任务管理器312统一负责资源管理和任务分配,将所述任务创建模块310创建的实时计算任务按照所配置的集群信息分配到对应计算集群中。所述任务管理器312还按照一定的策略将资源分配各计算集群,灵活实现资源按需分配,启动所述实时计算任务,以达到资源最高利用。
所述语法解析模块313连接所述计算集群,对所述SQL实时任务解析生成有向无环DAG图,所述程序生成模块314根据所述有向无环DAG图生成所述实时计算任务的计算程序包,所述计算集群申请资源根据计算程序执行所述实时计算分析任务,加载所配置的所述数据源,获取数据进行分析,计算过程的中间结果存入临时缓存介质中,以便后续继续使用,可多次复用;计算的最终结果存入所配置的数据存储端中。
所述数据仓库316包括临时缓存层3161和数据存储层3162,所述临时存储层3161为接口数据的临时存储区域,用于存储当前需要加载的数以及处理完后的历史数据,为后一步的数据处理做准备。所述数据存储层3162存储计算分析后汇总的数据。
所述日志管理模块317实时采集所述实时计算平台300的计算分析系统的各类日志,按照不同的实时计算任务聚合操作日志至给定的日志数据库中,每条日志记录输入和输出的量级与大小,并对日志进行分析和挖掘。所述预警模块318对所述实时计算任务的各类异常状态提前预警,上报告警信息,并对异常进行处理。实施例地,本申请实施例设置报警规则,若超过用户定义的报警规则,客户端会以短信或者邮件等方式向指定用户告警,其中,告警规则包括告警用户、告警信息模板、告警时间段、告警次数限制、监控指标以及对应阈值等信息。
所述大数据实时计算平台300还包括显示模块(图未示),所述显示模块与所述计算集群、元数据库、数据仓库、临时缓存、日志管理模块和预警模块相连,所述显示模块用于显示所大数据实时计算平台310的软件开发过程及操作页面,终端用户可视化创建所述实时计算任务,以及配置所述实时计算任务的资源信息,输出计算结果、日志信息及预警信息可视化输出到用户终端。
所述大数据实时计算平台300还可以包括输入模块(图未示),所述输入模块与所述显示模块相连,所述输入模块可包括按键,可用于输入用户id的账号、密码、名称等信息,所述软件开发过程操作页面可以在所述软件开发装置中的显示模块中显示,并且所述显示模块还可以显示所述用户的其他信息,并将此信息存储起来,方便用户随时进行查看。
需要说明的是,本实施例的实时计算平台300,与方法实施例的属于同一构思,其具体实现过程详细见方法实施例,且方法实施例中的技术特征在本实施例中均对应适用,此处不再赘述。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和替换,这些改进和替换也应视为本发明的保护范围。
Claims (10)
1.一种大数据实时计算方法,其特征在于,包括以下步骤:
创建实时计算任务,并配置实时计算任务的任务信息,所述任务信息包括集群信息、数据源信息和数据存储信息;
根据所述集群信息分配所述实时计算任务到对应的计算集群;
将所述实时计算任务解析生成有向无环DAG图,并根据所述有向无环图生成计算程序;
所述计算集群申请资源并根据所述计算程序从所述数据源信息获取数据执行计算分析所述实时计算任务,并建立实时数据模型;
根据所述存储信息保存计算分析结果,并且所述分析结果可多次复用。
2.根据权利要求1所述的大数据实时计算方法,其特征在于,所述创建实时计算任务,并配置实时计算任务的任务信息的步骤,包括:
所创建的所述实时计算任务可跨集群提交任务。
3.根据权利要求2所述的大数据实时计算方法,其特征在于,所创建的所述实时计算任务是基于结构化查询语言SQL创建的。
4.根据权利要求1所述的大数据实时计算方法,其特征在于,所述计算集群为多计算集群,每个所述计算集群根据按照业务逻辑分成独立的集群。
5.根据权利要求1所述的大数据实时计算方法,其特征在于,所述数据源信息和数据存储信息包括至少一个数据源及至少一个存储端信息。
6.根据权利要求1所述的大数据实时计算方法,其特征在于,根据所述实时数据模型,对所述实时计算任务进行指向性恢复。
7.根据权利要求1所述的大数据实时计算方法,其特征在于,所述方法还包括:
采集并分析所述实时计算任务日志,提前预警任务异常状态。
8.一种大数据实时计算平台,其特征在于,包括:任务创建模块、计算集群、任务管理器、语法解析模块、程序生成模块和数据仓库,所述实时计算平台中各模块间通信连接,其中
所述任务创建模块,用于创建实时计算任务,并配置实时计算任务的任务信息,所述任务信息包括集群信息、数据源信息和数据存储信息;
所述任务管理器,用于根据所述集群信息分配所述实时计算任务到对应的计算集群;
所述语法解析模块解析生成所述实时计算任务的有向无环DAG图,所述程序生成模块根据所述有向无环图生成计算程序;
所述计算集群申请资源并根据所述计算程序从所述数据源信息获取数据执行计算分析所述实时计算任务,并建立实时数据模型;
所述数据仓库,用于根据所述存储信息保存计算分析结果,并且所述分析结果可多次复用。
9.根据权利要求8所述的大数据实时计算平台,其特征在于,所述计算集群为多集群管理系统。
10.根据权利要求8或9所述的大数据实时计算平台,其特征在于,所述实时计算平台还包括日志管理模块和预警模块,所述日志管理模块和预警模块通信连接,所述日志管理模块实时采集并挖掘分析所述实时计算平台的各类日志,所述预警模块对所述实时计算平台的各类异常状态提前预警。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110206555.1A CN112925619A (zh) | 2021-02-24 | 2021-02-24 | 大数据实时计算方法及平台 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110206555.1A CN112925619A (zh) | 2021-02-24 | 2021-02-24 | 大数据实时计算方法及平台 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112925619A true CN112925619A (zh) | 2021-06-08 |
Family
ID=76171550
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110206555.1A Pending CN112925619A (zh) | 2021-02-24 | 2021-02-24 | 大数据实时计算方法及平台 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112925619A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113504912A (zh) * | 2021-07-22 | 2021-10-15 | 浙江大华技术股份有限公司 | 实时任务的处理方法和装置、存储介质及电子装置 |
CN113641739A (zh) * | 2021-07-05 | 2021-11-12 | 南京联创信息科技有限公司 | 一种基于Spark的智能数据转换方法 |
CN113821320A (zh) * | 2021-08-28 | 2021-12-21 | 云智联网络科技(北京)有限公司 | 一种分布式的数据仓库工作流调度方法 |
CN115334152A (zh) * | 2022-09-16 | 2022-11-11 | 北京向量栈科技有限公司 | 提交结构化机器学习计算任务到计算集群的方法 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003016046A (ja) * | 2001-06-29 | 2003-01-17 | Hitachi Eng Co Ltd | クラスタサーバシステム |
CN104021194A (zh) * | 2014-06-13 | 2014-09-03 | 浪潮(北京)电子信息产业有限公司 | 一种面向行业大数据多样性应用的混合型处理系统及处理方法 |
CN107451654A (zh) * | 2017-07-05 | 2017-12-08 | 深圳市自行科技有限公司 | 卷积神经网络的加速运算方法、服务器及存储介质 |
CN107621973A (zh) * | 2016-07-13 | 2018-01-23 | 阿里巴巴集团控股有限公司 | 一种跨集群的任务调度方法及装置 |
CN108196797A (zh) * | 2018-01-26 | 2018-06-22 | 江苏财会职业学院 | 一种基于云计算的数据处理系统 |
CN109740037A (zh) * | 2019-01-02 | 2019-05-10 | 山东省科学院情报研究所 | 多源、异构流态大数据分布式在线实时处理方法及系统 |
CN110262901A (zh) * | 2019-06-27 | 2019-09-20 | 深圳前海微众银行股份有限公司 | 一种数据处理方法及数据处理系统 |
CN110333941A (zh) * | 2019-06-28 | 2019-10-15 | 苏宁消费金融有限公司 | 一种基于sql的大数据实时计算平台及方法 |
US20200034459A1 (en) * | 2018-07-30 | 2020-01-30 | Hewlett Packard Enterprise Development Lp | Centralized configuration database cache |
CN110888721A (zh) * | 2019-10-15 | 2020-03-17 | 平安科技(深圳)有限公司 | 一种任务调度的方法及相关装置 |
CN111209352A (zh) * | 2020-04-20 | 2020-05-29 | 北京聪明核桃教育科技有限公司 | 一种数据处理方法、装置、电子设备及存储介质 |
-
2021
- 2021-02-24 CN CN202110206555.1A patent/CN112925619A/zh active Pending
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003016046A (ja) * | 2001-06-29 | 2003-01-17 | Hitachi Eng Co Ltd | クラスタサーバシステム |
CN104021194A (zh) * | 2014-06-13 | 2014-09-03 | 浪潮(北京)电子信息产业有限公司 | 一种面向行业大数据多样性应用的混合型处理系统及处理方法 |
CN107621973A (zh) * | 2016-07-13 | 2018-01-23 | 阿里巴巴集团控股有限公司 | 一种跨集群的任务调度方法及装置 |
CN107451654A (zh) * | 2017-07-05 | 2017-12-08 | 深圳市自行科技有限公司 | 卷积神经网络的加速运算方法、服务器及存储介质 |
CN108196797A (zh) * | 2018-01-26 | 2018-06-22 | 江苏财会职业学院 | 一种基于云计算的数据处理系统 |
US20200034459A1 (en) * | 2018-07-30 | 2020-01-30 | Hewlett Packard Enterprise Development Lp | Centralized configuration database cache |
CN109740037A (zh) * | 2019-01-02 | 2019-05-10 | 山东省科学院情报研究所 | 多源、异构流态大数据分布式在线实时处理方法及系统 |
CN110262901A (zh) * | 2019-06-27 | 2019-09-20 | 深圳前海微众银行股份有限公司 | 一种数据处理方法及数据处理系统 |
CN110333941A (zh) * | 2019-06-28 | 2019-10-15 | 苏宁消费金融有限公司 | 一种基于sql的大数据实时计算平台及方法 |
CN110888721A (zh) * | 2019-10-15 | 2020-03-17 | 平安科技(深圳)有限公司 | 一种任务调度的方法及相关装置 |
CN111209352A (zh) * | 2020-04-20 | 2020-05-29 | 北京聪明核桃教育科技有限公司 | 一种数据处理方法、装置、电子设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
张景;刘为;张文学;: "D2D技术在多媒体集群通信中的应用", 移动通信, no. 16 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113641739A (zh) * | 2021-07-05 | 2021-11-12 | 南京联创信息科技有限公司 | 一种基于Spark的智能数据转换方法 |
CN113504912A (zh) * | 2021-07-22 | 2021-10-15 | 浙江大华技术股份有限公司 | 实时任务的处理方法和装置、存储介质及电子装置 |
CN113821320A (zh) * | 2021-08-28 | 2021-12-21 | 云智联网络科技(北京)有限公司 | 一种分布式的数据仓库工作流调度方法 |
CN115334152A (zh) * | 2022-09-16 | 2022-11-11 | 北京向量栈科技有限公司 | 提交结构化机器学习计算任务到计算集群的方法 |
CN115334152B (zh) * | 2022-09-16 | 2023-03-28 | 北京向量栈科技有限公司 | 提交结构化机器学习计算任务到计算集群的方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107577805B (zh) | 一种面向日志大数据分析的业务服务系统 | |
CN112925619A (zh) | 大数据实时计算方法及平台 | |
El-Seoud et al. | Big Data and Cloud Computing: Trends and Challenges. | |
CN107948254B (zh) | 混合云平台的大数据处理框架编排系统及方法 | |
CN109074377B (zh) | 用于实时处理数据流的受管理功能执行 | |
CN107317724B (zh) | 基于云计算技术的数据采集系统及方法 | |
US9477511B2 (en) | Task-based modeling for parallel data integration | |
US20150222696A1 (en) | Method and apparatus for processing exploding data stream | |
CN106210124B (zh) | 一种统一的云数据中心监控系统 | |
CN101719852B (zh) | 一种中间件性能的监控方法和设备 | |
US10628766B2 (en) | Method and system for enabling dynamic capacity planning | |
CN109614227A (zh) | 任务资源调配方法、装置、电子设备及计算机可读介质 | |
Lovas et al. | Orchestrated Platform for Cyber‐Physical Systems | |
CN104166701A (zh) | 机器学习方法及系统 | |
US10331484B2 (en) | Distributed data platform resource allocator | |
KR20210034558A (ko) | 인공 지능 개발 플랫폼의 관리 방법 및 장치, 매체 | |
CN108268355A (zh) | 用于数据中心的监控系统及方法 | |
CN115392501A (zh) | 数据采集方法、装置、电子设备及存储介质 | |
CN112052011A (zh) | 小程序的合包方法、装置、电子设备及介质 | |
US20120311594A1 (en) | Program, device, and method for building and managing web services | |
Sarnovský et al. | Cloud computing as a platform for distributed fuzzy FCA approach in data analysis | |
Sridhar et al. | A study of big data analytics in clouds with a security perspective | |
JP7082195B2 (ja) | 擬似システムとしてのクラウド・コンピューティング・データの表現および解析 | |
US20200210245A1 (en) | Method and device for aiding decision-making for the allocation of computing means on a high performance computing infrastructure | |
Aziz et al. | Big data optimisation among RDDs persistence in apache spark |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |