CN106202192A - 一种基于工作流的大数据分析方法 - Google Patents

一种基于工作流的大数据分析方法 Download PDF

Info

Publication number
CN106202192A
CN106202192A CN201610483216.7A CN201610483216A CN106202192A CN 106202192 A CN106202192 A CN 106202192A CN 201610483216 A CN201610483216 A CN 201610483216A CN 106202192 A CN106202192 A CN 106202192A
Authority
CN
China
Prior art keywords
data
data analysis
workflow
flow process
big data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610483216.7A
Other languages
English (en)
Inventor
于晓晨
王莹
邵兵
刘永
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Software Group Co Ltd
Original Assignee
Inspur Software Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Software Group Co Ltd filed Critical Inspur Software Group Co Ltd
Priority to CN201610483216.7A priority Critical patent/CN106202192A/zh
Publication of CN106202192A publication Critical patent/CN106202192A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Fuzzy Systems (AREA)
  • Debugging And Monitoring (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于工作流的大数据分析方法,属于数据处理算法技术领域,包括可视化流程式数据分析处理,基于有向无环图的流程编辑规范,生成可在内存分布式计算框架下运行的规范代码,可将流程化数据分析处理方法以服务的形式对外发布;能够接收流式数据,提供并行处理服务请求能力;以内存分布式计算框架作为数据分析过程的执行环境,向执行环境提交执行请求,采用分布式内存计算方式对数据进行挖掘分析;大数据分析系统提供工作流调试功能;提供对数据的可视化展示功能;提供对多种数据源的支持,进而实现一站式大数据分析系统。本发明使得用户可以完全不了解代码实现,只关注数据分析的流程调整以及结果。

Description

一种基于工作流的大数据分析方法
技术领域
本发明涉及数据处理算法技术领域,具体地说是一种基于工作流的大数据分析方法。
背景技术
随着信息时代的到来,数据的积累成几何倍增长。为了从已有的海量数据中挖掘有效信息,出现了各种不同的数据挖掘算法。
在数据挖掘中,无法立即确定最合适的算法,需要通过不断的尝试不同的算法,或者算法组合来获得不同的计算模型。根据模型评估,获得最佳的处理方案、以及最优的分析模型。
如果数据分析人员需要既懂算法的原理,又要懂算法的具体代码实现,那对技术人员要求较高,并且在实现不同的算法组合分析数据时,需要不断调整编码,较为繁琐。
发明内容
本发明的技术任务是针对以上不足之处,提供一种基于工作流的大数据分析方法,使得用户可以完全不了解代码实现,只关注数据分析的流程调整以及结果。
本发明解决其技术问题所采用的技术方案是:
一种基于工作流的大数据分析方法,包括可视化流程式数据分析处理,基于有向无环图的流程编辑规范,生成可在内存分布式计算框架下运行的规范代码,可将流程化数据分析处理方法以服务的形式对外发布;能够接收流式数据,提供并行处理服务请求能力,具有毫秒级响应能力;
以内存分布式计算框架作为数据分析过程的执行环境,向执行环境提交执行请求,采用分布式内存计算方式对数据进行挖掘分析;
大数据分析系统提供工作流调试功能,方便用户调整算法或参数;提供对数据的可视化展示功能;提供对多种数据源的支持,进而实现一站式大数据分析系统。
优选的,采用b/s架构,用户可以通过浏览器对流程进行绘制,包括流程编辑与调优,流程执行,模型评估与数据展示,服务发布。
进一步的,流程编辑与调优,首先增加流程节点,建立与其他节点的关系,编辑节点参数,直到流程编辑完成,通过调试模式对流程进行调试,调试过程中根据错误信息、计算结果、模型评估结果等,对流程进行调优。
进一步的,流程执行,大数据分析系统根据流程节点关系,对流程进行排序,排序后根据流程节点属性生成满足内存分布式框架的代码,将代码编译打包,将代码包提交到内存分布式框架进行运算,并实时监控计算过程。
进一步的,模型评估与数据展示,对分析后的结果进行评估,选择最优结果,使用可视化图形手段进行展示。
进一步的,服务发布,将流程进行服务发布,服务能够并行处理请求,能够接收流式数据,能够响应及时。为实现响应及时的功能,系统采用了缓存机制以及条件响应机制。
进一步的,流程的运行环境采用分布式内存计算框架。
基于工作流的大数据分析方法目的在于:
提供分布式算法,之前数据挖掘分析的门槛较高,科研人员既需要研究计算模型,又需要编码实现,这样对科研人员的要求太高。为了降低数据挖掘分析的门槛,使得数据挖掘分析比较大众化,就需要提供对已有算法的实现;
提供可编辑的流程化数据分析方法,目的是很方便的调整数据分析流程、流程节点参数,从而达到计算模型的最优,能够很大程度的提高工作效率;
提供分布式内存计算环境,为了适应对大数据的处理,当前手段是必须采取内存分布式计算,提高运算速度,提高分析效率;
作为数据分析平台,系统提供了算法开发规范、算法调试、流程调试、流程发布功能,开发者可以依托本系统进行有针对性的业务开发。
本发明的一种基于工作流的大数据分析方法和现有技术相比,具有以下有益效果:
凭借算法开发规范、算法调试、流程调试,能够使用户将本系统作为算法分析的开发平台,节省开发、部署、运营麻烦;
通过绘制算法流程,降低了数据挖掘分析的门槛,为数据挖掘分析提供了便利;
提供分布式内存计算环境,省去用户部署分布式计算环境的麻烦;
提供服务能力,能够作为服务中心对第三方提供数据挖掘分析支持服务;
系统胜任数据挖掘分析各个阶段的工作,作为一站式数据挖掘分析平台,提高分析挖掘的效率;
本发明将各种算法(如分类、聚类、关联、回归等)作为流程节点,可以随机的组合节点绘制成流程图,并根据流程图的算法节点关系,自动生成规范化代码,提交代码到内存分布式计算系统上执行,实现数据挖掘的分布式内存计算。这就使得用户可以完全不了解代码实现,只关注数据分析的流程调整以及结果。
附图说明
图1是数据分析流程的创建以及执行的过程图。
具体实施方式
下面结合附图及具体实施例对本发明作进一步说明。
一种基于工作流的大数据分析方法,包括可视化流程式数据分析处理,基于有向无环图的流程编辑规范,生成可在内存分布式计算框架下运行的规范代码,可将流程化数据分析处理方法以服务的形式对外发布;能够接收流式数据,提供并行处理服务请求能力,具有毫秒级响应能力;
以内存分布式计算框架作为数据分析过程的执行环境,向执行环境提交执行请求,采用分布式内存计算方式对数据进行挖掘分析;
大数据分析系统提供工作流调试功能,方便用户调整算法或参数;提供对数据的可视化展示功能;提供对多种数据源的支持,进而实现一站式大数据分析系统。
采用b/s架构,用户可以通过浏览器对流程进行绘制,包括流程编辑与调优,流程执行,模型评估与数据展示,服务发布。
流程编辑与调优,首先增加流程节点,建立与其他节点的关系,编辑节点参数,直到流程编辑完成,通过调试模式对流程进行调试,调试过程中根据错误信息、计算结果、模型评估结果等,对流程进行调优。
流程执行,大数据分析系统根据流程节点关系,对流程进行排序,排序后根据流程节点属性生成满足内存分布式框架的代码,将代码编译打包,将代码包提交到内存分布式框架进行运算,并实时监控计算过程。
模型评估与数据展示,对分析后的结果进行评估,选择最优结果,使用可视化图形手段进行展示。
服务发布,将流程进行服务发布,服务能够并行处理请求,能够接收流式数据,能够响应及时。为实现响应及时的功能,系统采用了缓存机制以及条件响应机制。
流程的运行环境采用分布式内存计算框架。
如图1所示,首先是新建流程,创建流程以后,可以向流程里拖放算法节点。已有算法可以直接添加到流程中。未有算法,根据算法开发规范,增加新的算法后,可以将新增加的算法加入到流程中。增加算法到流程后,可以修改算法中所用到的属性。编排完成后,提交到内存分布式框架上进行运算,并对运行结果进行评估。
通过分布式架构设计,构建全生命周期的数据挖掘管理,采用流程化设计,提供错误诊断机制,内嵌多种常用数据挖掘算法,为用户提供可视化自定义数据挖掘解决方案;
具有完备的数据准备、模型构建、模型评估、模型管理和结果展示等挖掘步骤,可为用户提供全生命周期的数据挖掘管理;
采用便利的数据流程化、可视化建模方式,使数据挖掘过程更加符合用户的业务分析过程,使操作过程流畅自然;
配备完善的帮助及错误诊断机制,提高了流程创建效率和结果准确性;
在囊括数据挖掘模型的基础上,内嵌多种国际常用算法,为用户提供可视化自定义数据挖掘解决方案。
通过上面具体实施方式,所述技术领域的技术人员可容易的实现本发明。但是应当理解,本发明并不限于上述的具体实施方式。在公开的实施方式的基础上,所述技术领域的技术人员可任意组合不同的技术特征,从而实现不同的技术方案。
除说明书所述的技术特征外,均为本专业技术人员的已知技术。

Claims (7)

1.一种基于工作流的大数据分析方法,其特征在于包括可视化流程式数据分析处理,基于有向无环图的流程编辑规范,生成可在内存分布式计算框架下运行的规范代码,可将流程化数据分析处理方法以服务的形式对外发布;能够接收流式数据,提供并行处理服务请求能力,具有毫秒级响应能力;
以内存分布式计算框架作为数据分析过程的执行环境,向执行环境提交执行请求,采用分布式内存计算方式对数据进行挖掘分析;
大数据分析系统提供工作流调试功能,方便用户调整算法或参数;提供对数据的可视化展示功能;提供对多种数据源的支持,进而实现一站式大数据分析系统。
2.根据权利要求1所述的一种基于工作流的大数据分析方法,其特征在于采用b/s架构,用户可以通过浏览器对流程进行绘制,包括流程编辑与调优,流程执行,模型评估与数据展示,服务发布。
3.根据权利要求2所述的一种基于工作流的大数据分析方法,其特征在于流程编辑与调优,首先增加流程节点,建立与其他节点的关系,编辑节点参数,直到流程编辑完成,通过调试模式对流程进行调试,调试过程中根据错误信息、计算结果、模型评估结果等,对流程进行调优。
4.根据权利要求2所述的一种基于工作流的大数据分析方法,其特征在于流程执行,大数据分析系统根据流程节点关系,对流程进行排序,排序后根据流程节点属性生成满足内存分布式框架的代码,将代码编译打包,将代码包提交到内存分布式框架进行运算,并实时监控计算过程。
5.根据权利要求2所述的一种基于工作流的大数据分析方法,其特征在于模型评估与数据展示,对分析后的结果进行评估,选择最优结果,使用可视化图形手段进行展示。
6.根据权利要求2所述的一种基于工作流的大数据分析方法,其特征在于服务发布,将流程进行服务发布,服务能够并行处理请求,能够接收流式数据,能够响应及时;为实现响应及时的功能,系统采用了缓存机制以及条件响应机制。
7.根据权利要求1-6中任意一项所述的一种基于工作流的大数据分析方法,其特征在于流程的运行环境采用分布式内存计算框架。
CN201610483216.7A 2016-06-28 2016-06-28 一种基于工作流的大数据分析方法 Pending CN106202192A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610483216.7A CN106202192A (zh) 2016-06-28 2016-06-28 一种基于工作流的大数据分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610483216.7A CN106202192A (zh) 2016-06-28 2016-06-28 一种基于工作流的大数据分析方法

Publications (1)

Publication Number Publication Date
CN106202192A true CN106202192A (zh) 2016-12-07

Family

ID=57461972

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610483216.7A Pending CN106202192A (zh) 2016-06-28 2016-06-28 一种基于工作流的大数据分析方法

Country Status (1)

Country Link
CN (1) CN106202192A (zh)

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106599230A (zh) * 2016-12-19 2017-04-26 北京天元创新科技有限公司 一种分布式数据挖掘模型评估的方法与系统
CN106971011A (zh) * 2017-05-19 2017-07-21 肇庆市智高电机有限公司 一种基于云平台的大数据分析方法
CN107016083A (zh) * 2017-03-31 2017-08-04 清华大学 一种支持处理单元在线切换的流数据处理方法
CN107563731A (zh) * 2017-09-01 2018-01-09 上海诺悦智能科技有限公司 一种基于数据分析的工程流搭建系统
CN107577805A (zh) * 2017-09-26 2018-01-12 华南理工大学 一种面向日志大数据分析的业务服务系统
CN107707659A (zh) * 2017-10-11 2018-02-16 郑州云海信息技术有限公司 一种大数据分析方法和系统
CN108037919A (zh) * 2017-12-01 2018-05-15 北京博宇通达科技有限公司 一种基于web的可视化大数据工作流配置方法及系统
CN108182063A (zh) * 2017-12-29 2018-06-19 福建南威软件有限公司 一种大数据分析可视化配置的实现方法
CN108733358A (zh) * 2018-05-21 2018-11-02 浪潮软件集团有限公司 一种基于Spark的机器学习工作流构建方法及装置
CN108874487A (zh) * 2018-06-13 2018-11-23 北京九章云极科技有限公司 基于工作流的数据分析处理方法及系统
WO2019042200A1 (zh) * 2017-08-30 2019-03-07 第四范式(北京)技术有限公司 执行机器学习的分布式系统及其方法
CN109725013A (zh) * 2018-12-20 2019-05-07 深圳晶泰科技有限公司 X射线衍射数据分析系统
CN110018951A (zh) * 2018-01-10 2019-07-16 武汉斗鱼网络科技有限公司 一种js代码的测试方法、存储介质、设备和系统
CN110287020A (zh) * 2019-05-10 2019-09-27 中国船舶重工集团公司第七一五研究所 一种实时操作系统平台下的高效并行计算方法
CN110363280A (zh) * 2019-09-02 2019-10-22 国家气象信息中心 算法模型训练分析系统
CN110489344A (zh) * 2019-08-02 2019-11-22 Oppo广东移动通信有限公司 引擎测试方法及相关产品
CN110727729A (zh) * 2018-06-29 2020-01-24 贵州白山云科技股份有限公司 一种实现智能运算的方法及装置
CN110865806A (zh) * 2019-11-20 2020-03-06 腾讯科技(深圳)有限公司 代码处理方法、装置、服务器及存储介质
CN110909039A (zh) * 2019-10-25 2020-03-24 北京华如科技股份有限公司 一种基于拖拽式流程的大数据挖掘工具及方法
CN111078094A (zh) * 2019-12-04 2020-04-28 北京邮电大学 分布式机器学习可视化装置
CN111208993A (zh) * 2019-12-20 2020-05-29 北京航天测控技术有限公司 一种流程化数据分析处理系统
CN111259064A (zh) * 2020-01-10 2020-06-09 同方知网(北京)技术有限公司 一种可视化的自然语言分析挖掘系统及其建模方法
CN113626116A (zh) * 2021-07-20 2021-11-09 中国电子科技集团公司电子科学研究院 智能学习系统及数据分析方法
CN117473257A (zh) * 2023-10-30 2024-01-30 成都康胜思科技有限公司 一种监测数据分析方法、系统、电子设备及存储介质

Cited By (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106599230A (zh) * 2016-12-19 2017-04-26 北京天元创新科技有限公司 一种分布式数据挖掘模型评估的方法与系统
CN107016083A (zh) * 2017-03-31 2017-08-04 清华大学 一种支持处理单元在线切换的流数据处理方法
CN107016083B (zh) * 2017-03-31 2020-02-07 清华大学 一种支持处理单元在线切换的流数据处理方法
CN106971011A (zh) * 2017-05-19 2017-07-21 肇庆市智高电机有限公司 一种基于云平台的大数据分析方法
WO2019042200A1 (zh) * 2017-08-30 2019-03-07 第四范式(北京)技术有限公司 执行机器学习的分布式系统及其方法
CN107563731A (zh) * 2017-09-01 2018-01-09 上海诺悦智能科技有限公司 一种基于数据分析的工程流搭建系统
CN107577805B (zh) * 2017-09-26 2020-08-18 华南理工大学 一种面向日志大数据分析的业务服务系统
CN107577805A (zh) * 2017-09-26 2018-01-12 华南理工大学 一种面向日志大数据分析的业务服务系统
CN107707659A (zh) * 2017-10-11 2018-02-16 郑州云海信息技术有限公司 一种大数据分析方法和系统
CN108037919A (zh) * 2017-12-01 2018-05-15 北京博宇通达科技有限公司 一种基于web的可视化大数据工作流配置方法及系统
CN108182063A (zh) * 2017-12-29 2018-06-19 福建南威软件有限公司 一种大数据分析可视化配置的实现方法
CN110018951A (zh) * 2018-01-10 2019-07-16 武汉斗鱼网络科技有限公司 一种js代码的测试方法、存储介质、设备和系统
CN108733358A (zh) * 2018-05-21 2018-11-02 浪潮软件集团有限公司 一种基于Spark的机器学习工作流构建方法及装置
CN108874487A (zh) * 2018-06-13 2018-11-23 北京九章云极科技有限公司 基于工作流的数据分析处理方法及系统
CN110727729A (zh) * 2018-06-29 2020-01-24 贵州白山云科技股份有限公司 一种实现智能运算的方法及装置
CN109725013A (zh) * 2018-12-20 2019-05-07 深圳晶泰科技有限公司 X射线衍射数据分析系统
CN110287020A (zh) * 2019-05-10 2019-09-27 中国船舶重工集团公司第七一五研究所 一种实时操作系统平台下的高效并行计算方法
CN110489344A (zh) * 2019-08-02 2019-11-22 Oppo广东移动通信有限公司 引擎测试方法及相关产品
CN110363280A (zh) * 2019-09-02 2019-10-22 国家气象信息中心 算法模型训练分析系统
CN110909039A (zh) * 2019-10-25 2020-03-24 北京华如科技股份有限公司 一种基于拖拽式流程的大数据挖掘工具及方法
CN110865806A (zh) * 2019-11-20 2020-03-06 腾讯科技(深圳)有限公司 代码处理方法、装置、服务器及存储介质
CN110865806B (zh) * 2019-11-20 2023-08-18 腾讯科技(深圳)有限公司 代码处理方法、装置、服务器及存储介质
CN111078094A (zh) * 2019-12-04 2020-04-28 北京邮电大学 分布式机器学习可视化装置
CN111078094B (zh) * 2019-12-04 2021-12-07 北京邮电大学 分布式机器学习可视化装置
CN111208993A (zh) * 2019-12-20 2020-05-29 北京航天测控技术有限公司 一种流程化数据分析处理系统
CN111208993B (zh) * 2019-12-20 2024-04-02 北京航天测控技术有限公司 一种流程化数据分析处理系统
CN111259064A (zh) * 2020-01-10 2020-06-09 同方知网(北京)技术有限公司 一种可视化的自然语言分析挖掘系统及其建模方法
CN113626116A (zh) * 2021-07-20 2021-11-09 中国电子科技集团公司电子科学研究院 智能学习系统及数据分析方法
CN113626116B (zh) * 2021-07-20 2023-12-15 中国电子科技集团公司电子科学研究院 智能学习系统及数据分析方法
CN117473257A (zh) * 2023-10-30 2024-01-30 成都康胜思科技有限公司 一种监测数据分析方法、系统、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN106202192A (zh) 一种基于工作流的大数据分析方法
CN108306756A (zh) 一种基于电力数据网全息评估系统及其故障定位方法
CN107678790A (zh) 流计算方法、装置及系统
CN105069025A (zh) 一种大数据的智能聚合可视化与管控系统
CN104134121A (zh) 一种电网信息系统业务数据可视化的实现方法
CN107562953A (zh) 一种基于gis地理信息技术的河流信息系统
CN106169165A (zh) 面向诊疗数据的症状层次关联及预测方法
Ni et al. Blockchain-based BIM digital project management mechanism research
CN105808244A (zh) 一种基于工作流的动态数据可视化分析工具
CN105117588A (zh) 一种基于医院海量业务数据的医疗质量分析方法
CN109088747A (zh) 云计算系统中资源的管理方法和装置
Bocciarelli et al. BPMN-based business process modeling and simulation
CN103077330B (zh) 存在垂向水量交换情况下的地下水全局流线可视化方法
CN110727670B (zh) 基于流程图的数据结构预测传递及自动化数据处理方法
CN101872302B (zh) 一种基于bpel的控制信息流图的建模方法
Han et al. Technical comparisons of simulation-based productivity prediction methodologies by means of estimation tools focusing on conventional earthmovings
CN105956077A (zh) 基于语义需求匹配的流程挖掘系统
CN105608160A (zh) 一种分布式大数据分析方法
CN104484230B (zh) 基于近数据计算原则的多卫星数据中心工作流调度算法
Yuan et al. Construction schedule early warning from the perspective of probability and visualization
Kiran et al. Distributed computing and big data techniques for efficient fault detection and data management in wireless networks
CN109508412A (zh) 一种时间序列处理的计算流图构建方法和装置
CN114327392A (zh) 一种数据处理方法、装置及电子设备
Helfert Perspectives of big data quality in smart service ecosystems (quality of design and quality of conformance)
CN109558995A (zh) 一种展现关联交易路径的方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20161207

WD01 Invention patent application deemed withdrawn after publication