CN105550268B - 大数据流程建模分析引擎 - Google Patents
大数据流程建模分析引擎 Download PDFInfo
- Publication number
- CN105550268B CN105550268B CN201510907357.2A CN201510907357A CN105550268B CN 105550268 B CN105550268 B CN 105550268B CN 201510907357 A CN201510907357 A CN 201510907357A CN 105550268 B CN105550268 B CN 105550268B
- Authority
- CN
- China
- Prior art keywords
- data analysis
- task
- data
- parsing module
- analysis engine
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/254—Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种大数据流程建模分析引擎,包括界面层、应用逻辑层、数据分析算法层和平台层;对海量数据进行分析处理时通过界面层进行数据分析建模操作,生产数据分析模型,通过任务调度层对数据分析模型进行解析并调取对应的算法包形成可执行的数据分析任务,最终通过平台层的计算和存储资源执行任务得到结果;本发明基于spark的设计理念,在用户进行流程化数据建模分析操作,来解析用户的数据分析操作步骤及流程,最终通过流程调用spark,将用户的数据分析操作步骤全部进行内存处理后,最终输出结果,从而达到高效的一体化流程。
Description
技术领域
本发明属于大数据快速分析领域,具体涉及一种大数据流程建模分析引擎。
背景技术
现有技术中的大数据分析工具软件,基本都是基于本地化处理,将数据存在本地硬盘中,采用关系型数据库对于少量的数据进行处理分析,但对于海量数据,则无法进行有效的处理分析。
并且现有技术中的数据分析工具的前端页面展示过于繁琐,需要很专业的数据管理员才能操作,普通用户则望尘莫及,所以针对的用户群体比较狭隘,另外现在的数据处理分析采用关系型数据进行海量数据处理时效率低下,难以满足应用需求。
发明内容
发明目的:针对现有技术存在的问题,本发明提供一种可高效、快速处理大量数据的大数据流程建模分析引擎。
技术方案:一种大数据流程建模分析引擎,包括界面层、任务调度层和平台层;
所述平台层完成资源调度、分配工作;
所述任务调度层包括校验模块、解析模块、任务调度模块和算法包;其中,所述校验模块提供数据分析流程是否符合流程设计规则的校验功能,符合校验规则的部分,可以进入解析模块;所述解析模块提供将界面层生成的数据分析流程的转换为可执行的数据分析流程任务的解析功能;所述任务调度模块根据解析模块生成的完整的数据分析流程,调度所述算法包中的各类数据分析算法接口,组成完整的可运行的分析流程任务程序,并调度底层资源进行数据分析程序的执行;
所述界面层:提供数据分析建模操作的平台界面,每一个数据分析的算法包均在界面上以唯一标识的可拖拽式组件存在,用户通过界面操作各算法组件,并以有向线条连接,表示数据分析流程方向和步骤,组合成完整的业务数据分析算法模型,通过界面的启动功能运行后台任务调度模块和算法包,调度资源完成数据的快速分析和处理。
具体地,所述的数据分析流程建模均通过web页面的建模操作台进行,通过可拖拽的算法包与又向连接线的组合形成有向无环的数据分析模型。
具体地,所述解析模块将整个界面层生产的数据分析流程模型转化为一个DAG有向无环图,由解析模块解析这个DAG图,生成完整的spark数据分析流程。
具体地,所述解析模块读入整个前台页面生成的xml文档,构建一个驻留内存的树结构,使用 DOM 接口来操作这个树结构。
具体地,所述解析验证是根据xml,将各步骤解析成有向无环图,end表示终结流程。
具体地,所述任务调度时使用深度优先搜索算法,其步骤如下:
(1)获取任务队列;
(2)递归拿到任务动作节点;
(3)调用ETL工厂类执行任务节点,返回为RDD,直到执行到end动作,表示节点运行成功。
具体地,所述平台层以Hadoop平台为主;所述底层资源包括Hadoop平台中的spark、yarn和hdfs。
具体地,所述解析模块中采用dom4j解析文件。
解释说明:1、spark设计理念是基于内存,多次计算,尽量避免文件输出到硬盘,以达到减少频繁IO操作的问题。
2、深度优先搜索是一种在开发爬虫早期使用较多的方法,它的目的是要达到被搜索结构的叶结点(即那些不包含任何超链的HTML文件) ,在一个HTML文件中,当一个超链被选择后,被链接的HTML文件将执行深度优先搜索,即在搜索其余的超链结果之前必须先完整地搜索单独的一条链;深度优先搜索沿着HTML文件上的超链走到不能再深入为止,然后返回到某一个HTML文件,再继续选择该HTM的其他超链接;当不再有其他超链接,表示节点结束。
有益效果:与现有技术相比,本发明的优点在于:基于spark的设计理念,在用户进行流程化数据建模分析操作,来解析用户的数据分析操作步骤及流程,最终通过流程调用spark,将用户的数据分析操作步骤全部进行内存处理后,最终输出结果,从而达到高效的一体化流程。
附图说明
图1是本发明的系统图;
图2是本发明的流程解析校验图;
图3是本发明的解析树示意图;
图4是单流程示意图;
图5是分支流程示意图;
图6是单输出流程示意图;
图7是流程映射示意图。
具体实施方式
下面结合附图和具体实施方式,进一步阐明本发明。
如图1所示,一种大数据流程建模分析引擎,包括界面层、任务调度层、平台层;
平台层:主要以Hadoop平台为主,本发明主要用到Hadoop平台中的yarn、spark和hdfs作为发明的基础功能支撑;每一个基于本发明的数据分析流程任务的运行均需三者配合完成资源调度、分配等工作, yarn 是一种通用的资源管理系统,可提供统一的资源管理和调度,spark是一个通用的并行计算框架,hdfs是一个高度容错性的系统;hdfs非常适合大规模数据集上的应用,实现流式读取文件系统数据的目的。
任务调度层:为本发明的主体部分,包好校验模块、解析模块、任务调度模块和算法包;其中,校验模块提供数据分析流程的是否符合流程设计规则的校验功能,符合校验规则的部分,可以进入解析模块;解析模块提供将界面层生成的数据分析流程的转换为可执行的数据分析流程任务的解析功能,将整个界面层生产的数据分析流程模型转化为一个DAG有向无环图,由解析模块解析这个DAG图,生成完整的spark数据分析流程,解析模块读入整个前台页面生成的xml文档,构建一个驻留内存的树结构,使用 DOM 接口来操作这个树结构;解析验证是根据xml,将各步骤解析成有向无环图,end表示终结流程,解析模块中采用dom4j解析文件;任务调度模块根据解析模块生成的完整的spark数据分析流程,调度算法包中的各类数据分析算法接口,组成完整的可运行的spark分析流程任务程序,并调度底层spark、yarn和hdfs资源进行数据分析程序的执行。
界面层:提供数据分析建模操作的平台界面,每一个数据分析的算法包均在界面上以唯一标识的可拖拽式组件存在,用户通过界面操作各算法组件,并以有向线条连接,表示数据分析流程方向和步骤,组合成完整的业务数据分析算法模型,通过界面的启动功能运行后台任务调度模块和算法包,调度资源完成数据的快速分析和处理。
上述任务调度时使用深度优先搜索算法,其步骤如下:
(1)获取任务队列;
(2)递归拿到任务动作节点;
(3)调用ETL工厂类执行任务节点,返回为RDD,直到执行到end动作,表示节点运行成功。
如图2所示,dom4j解析是将解析器读入整个文档,然后构建一个驻留内存的树结构,使用 DOM 接口来操作这个树结构,由于流程的xml文件大小普通为几KB左右,故采用dom4j解析文件;其优点在于:整个文档树在内存中,便于操作;支持删除、修改、重新排列等多种功能;访问效率高。
如图3所示,流程节点表示任务可以并行执行,直到执行到end动作,表示节点运行成功;当运行时并未出现end动作,一直是节点时,表示错误的解析节点,如图4-6表示不同流程下运行到end动作的示意图。
如图7所示的一个非有向无环图,因为A点出发向B经C可回到A,形成一个环,将从C到A的边方向改为从A到C,则变成有向无环图。
有向无环图:在图论中,如果一个有向图无法从某个顶点出发经过若干条边回到该点,则这个图是一个有向无环图(DAG图)。
有向图中一个点经过两种路线到达另一个点未必形成环,因此有向无环图未必能转化成树,但任何有向树均为有向无环图。如图7,不为有向树,但为有向无环图。
由于业务的流程分支也存在多样性及流程输出固定性,可以将流程xml文件解析为有向无环图。每一种最终指向end标签的路线,都可划分为一个流程。图的每个节点可定义为一个需要运行的作业。
使用本发明对海量数据进行分析处理时通过界面层进行数据分析建模操作,生产数据分析模型,通过任务调度层对数据分析模型进行解析并调取对应的算法包形成可执行的数据分析任务,最终通过平台层的计算和存储资源执行任务得到结果。
基于内存计算框架spark进行大数据流程建模处理,spark框架的特点是高效,快速处理大量数据;而前端的展示页面则变得更人性化,简单的拖拽式的建模平台,完全适用于普通用户,用户完全可以随意搭配,快速得出想要的数据。
Claims (8)
1.一种大数据流程建模分析引擎,其特征在于:包括平台层、任务调度层和界面层;
所述平台层完成资源调度、分配工作;
所述任务调度层包括校验模块、解析模块、任务调度模块和算法包;其中,所述校验模块提供数据分析流程是否符合流程设计规则的校验功能,符合校验规则的部分,可以进入解析模块;所述解析模块提供将界面层生成的数据分析流程转换为可执行的数据分析流程任务的解析功能;所述任务调度模块根据解析模块生成的完整的数据分析流程,调度所述算法包中的各类数据分析算法接口,组成完整的可运行的分析流程任务程序,并调度底层资源进行数据分析程序的执行;
所述界面层:提供数据分析建模操作的平台界面,每一个数据分析的算法包均在界面上以唯一标识的可拖拽式组件存在,用户通过界面操作各算法组件,并以有向线条连接,表示数据分析流程方向和步骤,组合成完整的业务数据分析算法模型,通过界面的启动功能运行后台任务调度模块和算法包,调度资源完成数据的快速分析和处理。
2.根据权利要求1所述的大数据流程建模分析引擎,其特征在于:所述的数据分析流程均通过web页面的建模操作台进行建模,通过可拖拽的算法包与有向连接线的组合形成有向无环的数据分析模型。
3.根据权利要求1所述的大数据流程建模分析引擎,其特征在于:所述解析模块将整个界面层生产的数据分析流程模型转化为一个DAG有向无环图,由解析模块解析这个DAG图,生成完整的spark数据分析流程。
4.根据权利要求1所述的大数据流程建模分析引擎,其特征在于:所述解析模块读入整个前台页面生成的xml文档,构建一个驻留内存的树结构,使用DOM接口来操作这个树结构。
5.根据权利要求1所述的大数据流程建模分析引擎,其特征在于:所述解析模块是根据xml,将各步骤解析成有向无环图,end表示终结流程。
6.根据权利要求1所述的大数据流程建模分析引擎,其特征在于:所述任务调度模块调度底层资源使用深度优先搜索算法,其步骤如下:
(1)获取任务队列;
(2)递归拿到任务动作节点;
(3)调用ETL工厂类执行任务节点,返回为RDD,直到执行到end动作,表示节点运行成功。
7.根据权利要求1所述的大数据流程建模分析引擎,其特征在于:所述平台层以Hadoop平台为主;所述底层资源包括Hadoop平台中的spark、yarn和hdfs。
8.根据权利要求1所述的大数据流程建模分析引擎,其特征在于:所述解析模块中采用dom4j解析文件。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510907357.2A CN105550268B (zh) | 2015-12-10 | 2015-12-10 | 大数据流程建模分析引擎 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510907357.2A CN105550268B (zh) | 2015-12-10 | 2015-12-10 | 大数据流程建模分析引擎 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105550268A CN105550268A (zh) | 2016-05-04 |
CN105550268B true CN105550268B (zh) | 2017-01-11 |
Family
ID=55829457
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510907357.2A Active CN105550268B (zh) | 2015-12-10 | 2015-12-10 | 大数据流程建模分析引擎 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105550268B (zh) |
Families Citing this family (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107818112B (zh) * | 2016-09-13 | 2021-12-14 | 腾讯科技(深圳)有限公司 | 一种大数据分析作业系统及任务提交方法 |
US10261806B2 (en) | 2017-04-28 | 2019-04-16 | International Business Machines Corporation | Adaptive hardware configuration for data analytics |
CN108170696A (zh) * | 2017-06-08 | 2018-06-15 | 国云科技股份有限公司 | 一种数据挖掘的方法 |
CN107341697A (zh) * | 2017-07-18 | 2017-11-10 | 江苏仲博敬陈信息科技有限公司 | 一种基于大数据的需求与供给预测方法 |
CN107526832A (zh) * | 2017-09-05 | 2017-12-29 | 江苏电力信息技术有限公司 | 一种构建基于页面拖拽技术的大数据业务模型的方法 |
CN108121773A (zh) * | 2017-12-05 | 2018-06-05 | 广东京信软件科技有限公司 | 一种基于可视化拖拽式的大数据分析任务构建方法 |
CN107944762A (zh) * | 2017-12-18 | 2018-04-20 | 北京搜狐新媒体信息技术有限公司 | 一种任务调度方法及装置 |
CN108804710A (zh) * | 2018-06-25 | 2018-11-13 | 浪潮软件集团有限公司 | 基于业务规则通过模型工具提炼标签的方法及装置 |
CN110727729A (zh) * | 2018-06-29 | 2020-01-24 | 贵州白山云科技股份有限公司 | 一种实现智能运算的方法及装置 |
CN109800069B (zh) * | 2018-12-25 | 2021-04-30 | 北京明略软件系统有限公司 | 一种实现数据治理的方法及装置 |
CN110232085B (zh) * | 2019-04-30 | 2021-09-24 | 中国科学院计算机网络信息中心 | 一种大数据etl任务的编排方法与系统 |
CN110209486A (zh) * | 2019-06-06 | 2019-09-06 | 南威软件股份有限公司 | 基于界面的spark任务流程构建方法和计算机可读存储介质 |
CN110865804A (zh) * | 2019-09-30 | 2020-03-06 | 天阳宏业科技股份有限公司 | 一种规则引擎的优化方法、装置、系统及存储介质 |
CN111538494A (zh) * | 2020-07-09 | 2020-08-14 | 南京红松信息技术有限公司 | 一种大数据自动建模及验证引擎系统及方法 |
CN112130812B (zh) * | 2020-08-04 | 2022-04-15 | 中科天玑数据科技股份有限公司 | 一种基于数据流混合编排的分析模型构建方法及系统 |
CN113010483A (zh) * | 2020-11-20 | 2021-06-22 | 云智慧(北京)科技有限公司 | 一种海量日志管理方法和系统 |
CN112667375A (zh) * | 2020-12-22 | 2021-04-16 | 杭州东信北邮信息技术有限公司 | 一种基于大数据业务的任务调度方法及系统 |
CN112948353B (zh) * | 2021-03-01 | 2023-02-03 | 北京寄云鼎城科技有限公司 | 一种应用于DAstudio的数据分析方法、系统及存储介质 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080209392A1 (en) * | 2007-02-26 | 2008-08-28 | Able Steve L | Systems and Methods for Definition and Execution of Batch Processing Services |
CN102650953B (zh) * | 2011-02-28 | 2014-05-07 | 北京航空航天大学 | 并发优化的bpmn组合服务执行引擎及方法 |
CN104573063A (zh) * | 2015-01-23 | 2015-04-29 | 四川中科腾信科技有限公司 | 一种基于大数据的数据分析方法 |
-
2015
- 2015-12-10 CN CN201510907357.2A patent/CN105550268B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN105550268A (zh) | 2016-05-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105550268B (zh) | 大数据流程建模分析引擎 | |
CN102479252B (zh) | 查询语句转换装置及查询语句转换方法 | |
CN103631882B (zh) | 基于图挖掘技术的语义化业务生成系统和方法 | |
CN104885078B (zh) | 用于大规模并行处理数据库集群中的两阶段查询优化的方法 | |
CN102609451B (zh) | 面向流式数据处理的sql查询计划生成方法 | |
CN104050202B (zh) | 用于搜索数据库的方法和装置 | |
CN103605662B (zh) | 一种分布式计算框架参数优化方法、装置及系统 | |
Yan et al. | Quegel: A general-purpose query-centric framework for querying big graphs | |
CN106662986B (zh) | 优化的浏览器渲染过程 | |
CN105243528A (zh) | 大数据环境下金融it系统中图形化集中对账系统与方法 | |
CN106610999A (zh) | 查询处理方法和装置 | |
CN104699698A (zh) | 基于海量数据的图查询处理方法 | |
CN112199086A (zh) | 自动编程控制系统、方法、装置、电子设备及存储介质 | |
CN110019384A (zh) | 一种血缘数据的获取方法、提供血缘数据的方法及装置 | |
CN114416855A (zh) | 一种基于电力大数据的可视化平台及方法 | |
CN107133257A (zh) | 一种基于中心连通子图的相似实体识别方法及系统 | |
CN111444220A (zh) | 规则驱动和数据驱动相结合的跨平台sql查询优化方法 | |
CN110222124A (zh) | 基于olap的多维数据处理方法及系统 | |
US20190182324A1 (en) | Irc-infoid data standardization for use in a plurality of mobile applications | |
CN107704235A (zh) | 图形化建模中数据流程图的解析方法、系统及存储介质 | |
CN108710662A (zh) | 语言转换方法和装置、存储介质、数据查询系统和方法 | |
CN113806429A (zh) | 基于大数据流处理框架的画布式日志分析方法 | |
CN107818181A (zh) | 基于Plcient交互式引擎的索引方法及其系统 | |
CN103823881B (zh) | 分布式数据库的性能优化的方法及装置 | |
US20150081672A1 (en) | Automatic conversion of units of measure during data stream processing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP01 | Change in the name or title of a patent holder |
Address after: Jiangning district general road in Nanjing city Jiangsu province 211100 No. 37 Ping Branch Park Building No. three building Patentee after: Zhongke dawning Nanjing Research Institute Co., Ltd. Address before: Jiangning district general road in Nanjing city Jiangsu province 211100 No. 37 Ping Branch Park Building No. three building Patentee before: JIANGSU DAWN INFORMATION TECHNOLOGY CO., LTD. |
|
CP01 | Change in the name or title of a patent holder |