CN105608160A - 一种分布式大数据分析方法 - Google Patents

一种分布式大数据分析方法 Download PDF

Info

Publication number
CN105608160A
CN105608160A CN201510960157.3A CN201510960157A CN105608160A CN 105608160 A CN105608160 A CN 105608160A CN 201510960157 A CN201510960157 A CN 201510960157A CN 105608160 A CN105608160 A CN 105608160A
Authority
CN
China
Prior art keywords
algorithm
node
data analysis
large data
standard
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510960157.3A
Other languages
English (en)
Inventor
于晓晨
邵兵
刘永
王宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Software Co Ltd
Original Assignee
Inspur Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Software Co Ltd filed Critical Inspur Software Co Ltd
Priority to CN201510960157.3A priority Critical patent/CN105608160A/zh
Publication of CN105608160A publication Critical patent/CN105608160A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种分布式大数据分析方法,属于数据分析领域。该方法以大数据为基础,将不同算法制定统一的服务标准,根据服务标准实现的算法随机组合绘制成流程图,并根据流程图的算法节点关系,自动在spark分布式系统上执行,实现数据分析的云计算。与现有技术相比,本发明方法通过自定义数据分析流程,即可实现完整的数据分析设计,并根据算法节点关系,自动顺序在spark分布式系统上运算。本发明提供算法开发服务和标准,用户可以根据自己的业务需求实现特定的算法。根据标准增加的算法可以很好的与其他算法进行组合并在spark上运算。最终实现通过云计算挖掘数据的目的。

Description

一种分布式大数据分析方法
技术领域
本发明涉及数据分析领域,具体地说是一种分布式大数据分析方法。
背景技术
随着信息时代的到来,数据的积累成几何倍增长。为了从已有的海量数据中挖掘有效信息,出现了各种不同的数据分析算法。
在数据分析的实际操作过程中,无法立即确定最合适的算法,需要通过不断的尝试不同的算法,或者算法组合来获得不同的计算结果。根据对不同的计算结果进行对比,从而获得最佳的算法方案、以及最优的分析结果,以获得最效的数据反馈信息。
数据分析人员需要既懂算法的原理,又要懂算法的具体代码实现。对技术人员要求较高,同时实现不同的算法组合分析数据时候,需要不断调整编码,较为繁琐。
发明内容
本发明的技术任务是针对上述现有技术的不足,提供一种分布式大数据分析方法。该方法通过统一算法接口标准,使算法与算法之间可以随机组合。仅通过算法即可实现完整的数据分析过程。而且,根据本发明的算法接口标准实现的算法,可以与工具原有算法无缝组合,对整个数据分析的流程无任何影响,方便用户扩充算法种类、以及增加个性化算法。
本发明的技术任务是按以下方式实现的:一种分布式大数据分析方法,其特点是以大数据为基础,将不同算法制定统一的服务标准,根据服务标准实现的算法随机组合绘制成流程图,并根据流程图的算法节点关系,自动在spark分布式系统上执行,实现数据分析的云计算。户可以完全不了解代码实现,只关注于数据分析所需要使用的算法、如何绘制数据分析流程、以及数据分析结果准确性。同时用户可以根据工具的算法服务标准,灵活添加自己的算法。根据工具的算法服务标准增加的算法,可以很好的与工具已有其他算法进行随机组合,并能流畅运算,增加了算法实现的可扩充性。
作为优选,本发明所述方法可采用b/s架构,用户通过浏览器来实现对算法流程的绘制。
所述流程图中包含算法实例节点、以及算法实例节点的关系,算法实例节点的关系通过算法之间的连线来确定。
每一个算法都对应有已经编写好算法的jar包,通过统一算法的输入输出参数信息,保证算法节点之间的数据流转。
作为优选,可通过算法节点与算法节点之间的箭头来表示算法节点之间的关系,根据算法节点关系的描述,自动查找到算法节点的起始位置,开始执行算法处理数据;当执行完一个算法节点的时候,再根据算法节点的描述自动执行下一个节点的算法。
进一步的,可以以工具提供算法的服务与标准,根据算法接口与标准增加新的算法。
以工具提供流程的检测功能,检查流程的完整性、正确性。
与现有技术相比,本发明的分布式大数据分析方法具有以下有益效果:
(一)通过统一算法的接口和标准,能够让用户自由实现自己的算法,并与工具的其他算法无缝组合。
(二)通过绘制算法流程图,实现对算法的不同顺序组合来分析处理数据,分析流程多样化。
(三)流程图会自动解析运行在spark的群集上,省去了人工将算法运行在spark群集上的工作。
(四)算法所运行的spark分布式系统是主流的云计算框架之一,运行速度较快。
(五)通过绘制数据分析完整流程图,使得分析数据无需编码实现。数据分析人员只需要懂算法即可。减少了技术人员的要求,以及节省了一般数据分析中,因算法顺序改变而编码调整的时间。同时图形化的数据分析界面,更容易查找整个数据分析流程中不适合的算法节点。
附图说明
附图1是本发明分布式大数据分析方法的流程图。
具体实施方式
参照说明书附图以具体实施例对本发明的分布式大数据分析方法作以下详细地说明。
实施例:
本发明分布式消息转发方法本发明采用b/s架构,使用户可以通过浏览器来实现对算法流程的绘制。在一个完整的流程图中包含:算法实例节点、以及算法实例节点的关系。算法实例节点的关系是通过算法之间的连线来确定。算法的运行环境是spark分布式计算系统中,大量缩短计算时间。
在流程图绘制界面,增加一个算法实例节点后,可以通过算法实例节点的属性值界面,来修改算法用到的属性。每一个算法都会对应已经编写好算法的jar包。在算法中统一了算法的输入输出的参数信息,以保证算法节点之间的数据流转。
算法节点添加完成后,需要确定算法节点之间的关系,即:通过算法节点与算法节点之间的箭头来表示算法节点之间的关系。根据算法节点关系的描述,会自动查找到算法节点的起始位置,开始执行算法处理数据。当执行完一个算法节点的时候,会根据算法节点的描述自动执行下一个节点的算法。
工具提供算法的服务与标准。根据算法接口与标准,用户可以自由增加新的算法,使算法库变得可扩充性。根据标准规范实现的算法可以在算法流程图中与其他算法随机组合,流畅的进行数据分析。
工具中,具备流程的检测功能,检查流程的完整性、正确性。例如:避免出现回路的流程等。工具通过测试功能,来验证整个流程的完整与可执行。
算法的运行环境采用spark分布式计算系统。Spark分布式计算系统是主流的云计算框架之一。采用云计算的方式,大幅度提高数据分析的速度与效率。
如附图1所示,数据分析流程的创建以及执行的完整过程如下:
首先是新建流程,创建流程以后,往流程里排放算法。已有算法可以直接添加到流程中。未有算法,根据算法统一接口标准,增加新的算法后,再将新增加的算法加入到流程中。增加算法到流程后,可以修改算法中所用到的属性。编排完的流程,会在spark群集上进行运算,最终获得分析结果。
以上述方法实现的大数据分析系统具有以下特点:
1、通过分布式架构设计,构建全生命周期的数据分析管理,采用流程化设计,提供错误诊断机制,内嵌多种常用算法,为用户提供可视化自定义数据分析解决方案;
2、具有完备的数据准备、模型构建、模型评估、模型管理和结果展示等挖掘步骤,可为用户提供全生命周期的数据分析管理。
3、采用先进的数据流程化、可视化建模方式,使数据分析过程更加贴近用户的业务分析过程,使操作过程流畅自然。
4、配备完善的帮助及错误诊断机制,提高了流程创建效率和结果准确性。
5、在囊括数据分析模型的基础上,内嵌多种国际常用算法,为用户提供可视化自定义数据分析解决方案。

Claims (7)

1.一种分布式大数据分析方法,其特征在于以大数据为基础,将不同算法制定统一的服务标准,根据服务标准实现的算法随机组合绘制成流程图,并根据流程图的算法节点关系,自动在spark分布式系统上执行,实现数据分析的云计算。
2.根据权利要求1所述的分布式大数据分析方法,其特征在于:采用b/s架构,用户通过浏览器来实现对算法流程的绘制。
3.根据权利要求1所述的分布式大数据分析方法,其特征在于:流程图中包含算法实例节点、以及算法实例节点的关系,算法实例节点的关系通过算法之间的连线来确定。
4.根据权利要求3所述的分布式大数据分析方法,其特征在于:每一个算法都对应有已经编写好算法的jar包,通过统一算法的输入输出参数信息,保证算法节点之间的数据流转。
5.根据权利要求1所述的分布式大数据分析方法,其特征在于:通过算法节点与算法节点之间的箭头来表示算法节点之间的关系,根据算法节点关系的描述,自动查找到算法节点的起始位置,开始执行算法处理数据;当执行完一个算法节点的时候,再根据算法节点的描述自动执行下一个节点的算法。
6.根据权利要求1所述的分布式大数据分析方法,其特征在于:以工具提供算法的服务与标准,根据算法接口与标准增加新的算法。
7.根据权利要求6所述的分布式大数据分析方法,其特征在于,以工具提供流程的检测功能,检查流程的完整性、正确性。
CN201510960157.3A 2015-12-21 2015-12-21 一种分布式大数据分析方法 Pending CN105608160A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510960157.3A CN105608160A (zh) 2015-12-21 2015-12-21 一种分布式大数据分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510960157.3A CN105608160A (zh) 2015-12-21 2015-12-21 一种分布式大数据分析方法

Publications (1)

Publication Number Publication Date
CN105608160A true CN105608160A (zh) 2016-05-25

Family

ID=55988100

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510960157.3A Pending CN105608160A (zh) 2015-12-21 2015-12-21 一种分布式大数据分析方法

Country Status (1)

Country Link
CN (1) CN105608160A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106407413A (zh) * 2016-09-23 2017-02-15 浪潮软件集团有限公司 一种适用于分布式算法的运行容器及流程图创建方法
CN106599230A (zh) * 2016-12-19 2017-04-26 北京天元创新科技有限公司 一种分布式数据挖掘模型评估的方法与系统
CN106657099A (zh) * 2016-12-29 2017-05-10 北京天元创新科技有限公司 一种Spark数据分析服务发布系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103440244A (zh) * 2013-07-12 2013-12-11 广东电子工业研究院有限公司 一种大数据存储优化方法
CN104346376A (zh) * 2013-07-31 2015-02-11 克拉玛依红有软件有限责任公司 数据挖掘算法动态插入到数据挖掘平台的方法及系统
CN104954453A (zh) * 2015-06-02 2015-09-30 浙江工业大学 基于云计算的数据挖掘rest服务平台

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103440244A (zh) * 2013-07-12 2013-12-11 广东电子工业研究院有限公司 一种大数据存储优化方法
CN104346376A (zh) * 2013-07-31 2015-02-11 克拉玛依红有软件有限责任公司 数据挖掘算法动态插入到数据挖掘平台的方法及系统
CN104954453A (zh) * 2015-06-02 2015-09-30 浙江工业大学 基于云计算的数据挖掘rest服务平台

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
郑宗涵等: "实时数据库算法引擎的设计与应用", 《自动化仪表》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106407413A (zh) * 2016-09-23 2017-02-15 浪潮软件集团有限公司 一种适用于分布式算法的运行容器及流程图创建方法
CN106599230A (zh) * 2016-12-19 2017-04-26 北京天元创新科技有限公司 一种分布式数据挖掘模型评估的方法与系统
CN106657099A (zh) * 2016-12-29 2017-05-10 北京天元创新科技有限公司 一种Spark数据分析服务发布系统

Similar Documents

Publication Publication Date Title
CN104915378B (zh) 一种适用于大数据的统计任务快速生成系统及方法
CN103338135B (zh) 一种集群存储容量的实时监控方法
CN106202192A (zh) 一种基于工作流的大数据分析方法
US20130229416A1 (en) Transformation Function Insertion for Dynamically Displayed Tracer Data
CN106164867A (zh) 数据的增量并行处理
CN111078094B (zh) 分布式机器学习可视化装置
CN113835701B (zh) 一种基于组件化的代码生成方法和装置
CN110347708A (zh) 一种数据处理方法以及相关设备
CN105608160A (zh) 一种分布式大数据分析方法
CN109492059A (zh) 一种多源异构数据融合与模型修正过程管控方法
CN105574032A (zh) 规则匹配运算方法及装置
CN105138650A (zh) 一种基于孤立点挖掘的Hadoop数据清洗方法及系统
CN104679493B (zh) 一种流程化的事件处理机制的改进方法
CN113821538B (zh) 一种基于元数据的流式数据处理系统
CN110334001A (zh) 一种批量自动生成回声测试的方法和装置
CN106096159A (zh) 一种云平台下的分布式系统行为仿真分析系统的实现方法
CN110750582A (zh) 数据处理方法、装置和系统
CN116627609A (zh) 基于Hive批处理的调度方法及装置
US9075670B1 (en) Stream processing with context data affinity
CN112363774B (zh) Storm实时任务的配置方法及装置
CN104572835B (zh) 一种过程元模型构建方法及装置
CN112130849B (zh) 代码自动生成方法及装置
US20190065006A1 (en) Structured hierarchical templates for modeling asset instances
CN105653523A (zh) 能耗监管物联网络基础平台的系统构建方法
CN104572834B (zh) 一种过程元模型构建方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20160525

WD01 Invention patent application deemed withdrawn after publication