CN105608160A

CN105608160A - 一种分布式大数据分析方法

Info

Publication number: CN105608160A
Application number: CN201510960157.3A
Authority: CN
Inventors: 于晓晨; 邵兵; 刘永; 王宁
Original assignee: Inspur Software Co Ltd
Current assignee: Inspur Software Co Ltd
Priority date: 2015-12-21
Filing date: 2015-12-21
Publication date: 2016-05-25

Abstract

本发明公开了一种分布式大数据分析方法，属于数据分析领域。该方法以大数据为基础，将不同算法制定统一的服务标准，根据服务标准实现的算法随机组合绘制成流程图，并根据流程图的算法节点关系，自动在spark分布式系统上执行，实现数据分析的云计算。与现有技术相比，本发明方法通过自定义数据分析流程，即可实现完整的数据分析设计，并根据算法节点关系，自动顺序在spark分布式系统上运算。本发明提供算法开发服务和标准，用户可以根据自己的业务需求实现特定的算法。根据标准增加的算法可以很好的与其他算法进行组合并在spark上运算。最终实现通过云计算挖掘数据的目的。

Description

一种分布式大数据分析方法

技术领域

本发明涉及数据分析领域，具体地说是一种分布式大数据分析方法。

背景技术

随着信息时代的到来，数据的积累成几何倍增长。为了从已有的海量数据中挖掘有效信息，出现了各种不同的数据分析算法。

在数据分析的实际操作过程中，无法立即确定最合适的算法，需要通过不断的尝试不同的算法，或者算法组合来获得不同的计算结果。根据对不同的计算结果进行对比，从而获得最佳的算法方案、以及最优的分析结果，以获得最效的数据反馈信息。

数据分析人员需要既懂算法的原理，又要懂算法的具体代码实现。对技术人员要求较高，同时实现不同的算法组合分析数据时候，需要不断调整编码，较为繁琐。

发明内容

本发明的技术任务是针对上述现有技术的不足，提供一种分布式大数据分析方法。该方法通过统一算法接口标准，使算法与算法之间可以随机组合。仅通过算法即可实现完整的数据分析过程。而且，根据本发明的算法接口标准实现的算法，可以与工具原有算法无缝组合，对整个数据分析的流程无任何影响，方便用户扩充算法种类、以及增加个性化算法。

本发明的技术任务是按以下方式实现的：一种分布式大数据分析方法，其特点是以大数据为基础，将不同算法制定统一的服务标准，根据服务标准实现的算法随机组合绘制成流程图，并根据流程图的算法节点关系，自动在spark分布式系统上执行，实现数据分析的云计算。户可以完全不了解代码实现，只关注于数据分析所需要使用的算法、如何绘制数据分析流程、以及数据分析结果准确性。同时用户可以根据工具的算法服务标准，灵活添加自己的算法。根据工具的算法服务标准增加的算法，可以很好的与工具已有其他算法进行随机组合，并能流畅运算，增加了算法实现的可扩充性。

作为优选，本发明所述方法可采用b/s架构，用户通过浏览器来实现对算法流程的绘制。

所述流程图中包含算法实例节点、以及算法实例节点的关系，算法实例节点的关系通过算法之间的连线来确定。

每一个算法都对应有已经编写好算法的jar包，通过统一算法的输入输出参数信息，保证算法节点之间的数据流转。

作为优选，可通过算法节点与算法节点之间的箭头来表示算法节点之间的关系，根据算法节点关系的描述，自动查找到算法节点的起始位置，开始执行算法处理数据；当执行完一个算法节点的时候，再根据算法节点的描述自动执行下一个节点的算法。

进一步的，可以以工具提供算法的服务与标准，根据算法接口与标准增加新的算法。

以工具提供流程的检测功能，检查流程的完整性、正确性。

与现有技术相比，本发明的分布式大数据分析方法具有以下有益效果：

（一）通过统一算法的接口和标准，能够让用户自由实现自己的算法，并与工具的其他算法无缝组合。

（二）通过绘制算法流程图，实现对算法的不同顺序组合来分析处理数据，分析流程多样化。

（三）流程图会自动解析运行在spark的群集上，省去了人工将算法运行在spark群集上的工作。

（四）算法所运行的spark分布式系统是主流的云计算框架之一，运行速度较快。

（五）通过绘制数据分析完整流程图，使得分析数据无需编码实现。数据分析人员只需要懂算法即可。减少了技术人员的要求，以及节省了一般数据分析中，因算法顺序改变而编码调整的时间。同时图形化的数据分析界面，更容易查找整个数据分析流程中不适合的算法节点。

附图说明

附图1是本发明分布式大数据分析方法的流程图。

具体实施方式

参照说明书附图以具体实施例对本发明的分布式大数据分析方法作以下详细地说明。

实施例：

本发明分布式消息转发方法本发明采用b/s架构，使用户可以通过浏览器来实现对算法流程的绘制。在一个完整的流程图中包含：算法实例节点、以及算法实例节点的关系。算法实例节点的关系是通过算法之间的连线来确定。算法的运行环境是spark分布式计算系统中，大量缩短计算时间。

在流程图绘制界面，增加一个算法实例节点后，可以通过算法实例节点的属性值界面，来修改算法用到的属性。每一个算法都会对应已经编写好算法的jar包。在算法中统一了算法的输入输出的参数信息，以保证算法节点之间的数据流转。

算法节点添加完成后，需要确定算法节点之间的关系，即：通过算法节点与算法节点之间的箭头来表示算法节点之间的关系。根据算法节点关系的描述，会自动查找到算法节点的起始位置，开始执行算法处理数据。当执行完一个算法节点的时候，会根据算法节点的描述自动执行下一个节点的算法。

工具提供算法的服务与标准。根据算法接口与标准，用户可以自由增加新的算法，使算法库变得可扩充性。根据标准规范实现的算法可以在算法流程图中与其他算法随机组合，流畅的进行数据分析。

工具中，具备流程的检测功能，检查流程的完整性、正确性。例如：避免出现回路的流程等。工具通过测试功能，来验证整个流程的完整与可执行。

算法的运行环境采用spark分布式计算系统。Spark分布式计算系统是主流的云计算框架之一。采用云计算的方式，大幅度提高数据分析的速度与效率。

如附图1所示，数据分析流程的创建以及执行的完整过程如下：

首先是新建流程，创建流程以后，往流程里排放算法。已有算法可以直接添加到流程中。未有算法，根据算法统一接口标准，增加新的算法后，再将新增加的算法加入到流程中。增加算法到流程后，可以修改算法中所用到的属性。编排完的流程，会在spark群集上进行运算，最终获得分析结果。

以上述方法实现的大数据分析系统具有以下特点：

1、通过分布式架构设计，构建全生命周期的数据分析管理，采用流程化设计，提供错误诊断机制，内嵌多种常用算法，为用户提供可视化自定义数据分析解决方案；

2、具有完备的数据准备、模型构建、模型评估、模型管理和结果展示等挖掘步骤，可为用户提供全生命周期的数据分析管理。

3、采用先进的数据流程化、可视化建模方式，使数据分析过程更加贴近用户的业务分析过程，使操作过程流畅自然。

4、配备完善的帮助及错误诊断机制，提高了流程创建效率和结果准确性。

5、在囊括数据分析模型的基础上，内嵌多种国际常用算法，为用户提供可视化自定义数据分析解决方案。

Claims

1.一种分布式大数据分析方法，其特征在于以大数据为基础，将不同算法制定统一的服务标准，根据服务标准实现的算法随机组合绘制成流程图，并根据流程图的算法节点关系，自动在spark分布式系统上执行，实现数据分析的云计算。

2.根据权利要求1所述的分布式大数据分析方法，其特征在于：采用b/s架构，用户通过浏览器来实现对算法流程的绘制。

3.根据权利要求1所述的分布式大数据分析方法，其特征在于：流程图中包含算法实例节点、以及算法实例节点的关系，算法实例节点的关系通过算法之间的连线来确定。

4.根据权利要求3所述的分布式大数据分析方法，其特征在于：每一个算法都对应有已经编写好算法的jar包，通过统一算法的输入输出参数信息，保证算法节点之间的数据流转。

5.根据权利要求1所述的分布式大数据分析方法，其特征在于：通过算法节点与算法节点之间的箭头来表示算法节点之间的关系，根据算法节点关系的描述，自动查找到算法节点的起始位置，开始执行算法处理数据；当执行完一个算法节点的时候，再根据算法节点的描述自动执行下一个节点的算法。

6.根据权利要求1所述的分布式大数据分析方法，其特征在于：以工具提供算法的服务与标准，根据算法接口与标准增加新的算法。

7.根据权利要求6所述的分布式大数据分析方法，其特征在于，以工具提供流程的检测功能，检查流程的完整性、正确性。