CN111240662B

CN111240662B - 一种基于任务可视化拖拽的spark机器学习系统及学习方法

Info

Publication number: CN111240662B
Application number: CN202010059133.1A
Authority: CN
Inventors: 张文华; 段飞虎; 印东敏; 马学冬; 冯自强; 张宏伟
Original assignee: Tongfang Knowledge Network Digital Publishing Technology Co ltd; Tongfang Knowledge Network Beijing Technology Co ltd
Current assignee: Tongfang Knowledge Network Digital Publishing Technology Co ltd; Tongfang Knowledge Network Beijing Technology Co ltd
Priority date: 2020-01-16
Filing date: 2020-01-16
Publication date: 2024-01-09
Anticipated expiration: 2040-01-16
Also published as: CN111240662A

Abstract

本发明公开了一种基于任务可视化拖拽的spark机器学习系统及方法，该系统包括流程设计器、流程解析器与流程调度器；所述方法包括将数据源组件、数据预处理组件、机器学习组件、保存组件拖拽到设计区构建机器学习流程，并生成流程描述语言；解析用户构建的机器学习流程图，对各个组件之间的关系、输入、输出进行解析，通过设计的算法将流程图翻译为一套调度器可识别的数据；解析可识别的数据，将构建的机器学习流程提交到spark集群进行训练。

Description

一种基于任务可视化拖拽的spark机器学习系统及学习方法

技术领域

本发明涉及机器学习、数据挖掘、流程控制技术领域，尤其涉及一种基于任务可视化拖拽的spark机器学习系统及学习方法。

背景技术

随着数据的积累以及数据智能、数据驱动等思想的传播，机器学习算法正在成为一种普世的基础能力往外输出，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科，未来随着算法和计算能力的发展，机器学习会在金融、医疗、教育、安全等各个领域有更深层次的应用。

现有的机器学习模型的构建流程较为复杂，需要经过特征分析、模型训练、模型验证、模型调优、模型导出、模型加载，而且学习成本也比较高，每个模块都需要编码和调试，对于那些迫切需要构建机器学习系统的组织和个人带来了很大的学习成本和时间成本。

发明内容

为解决上述技术问题，本发明的目的是提供一种基于任务可视化拖拽的spark机器学习系统及学习方法。

本发明的目的通过以下的技术方案来实现：

一种基于任务可视化拖拽的spark机器学习系统，包括：包括流程设计器、流程解析器与流程调度器；所述

流程设计器，用于允许用户将数据源组件、数据预处理组件、机器学习组件、输出组件拖拽到设计区来构建机器学习流程，并生成流程描述语言；

流程解析器，用于解析用户构建的机器学习流程图，对各个组件之间的关系、输入、输出进行解析，并通过设计的算法将流程图翻译为一套调度器可识别的数据；

流程调度器，解析流程解析器传递过来的数据，将构建的机器学习流程提交到spark集群进行训练。

一种基于任务可视化拖拽的spark机器学习方法，包括：

A将数据源组件、数据预处理组件、机器学习组件、保存组件拖拽到设计区构建机器学习流程，并生成流程描述语言；

B解析用户构建的机器学习流程图，对各个组件之间的关系、输入、输出进行解析，通过设计的算法将流程图翻译为一套调度器可识别的数据；

C解析可识别的数据，将构建的机器学习流程提交到spark集群进行训练。

与现有技术相比，本发明的一个或多个实施例可以具有如下优点：

本系统提供了可视化拖拽的spark机器学习组件，可以针对具体的业务，拖拽组件，构建数据处理流程，系统一键安装，高效易用，大幅度降低了企业引入数据挖掘系统的成本。能够帮助银行、电商、餐饮、证券公司快速寻找潜在的客户群体，实现最大化营销效果，能够建立高效的分析预警模型，降低企业风险。

附图说明

图1是基于任务可视化拖拽的spark机器学习系统结构图；

图2是基于任务可视化拖拽的spark机器学习方法流程图；

图3是组件连接图；

图4是每个组件的信息图；

图5是机器学习可视化效果图；

图6是处理后的可视化效果图；

图7是基于任务可视化的机器学习任务流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合实施例及附图对本发明作进一步详细的描述。

如图1所示，为基于任务可视化拖拽的spark机器学习系统结构，包括流程设计器、流程解析器与流程调度器；所述流程设计器，用于允许用户将数据源组件、数据预处理组件、机器学习组件、输出组件拖拽到设计区来构建机器学习流程，并生成流程描述语言；流程解析器，用于解析用户构建的机器学习流程图，对各个组件之间的关系、输入、输出进行解析，并通过设计的算法将流程图翻译为一套调度器可识别的数据；流程调度器，解析流程解析器传递过来的数据，将构建的机器学习流程提交到spark集群进行训练。

上述数据源组件，用于供用户选择需要训练的源数据，包括文本数据、数据库数据、离线数据和实时数据；数据预处理组件包括排序组件、筛选组件、设置角色组件、数据映射组件、空值处理组件与重命名组件；机器学习组件包括机器学习中常用到的分类、聚类、回归与关联算法；保存组件包括输出到数据库中的组件、保存为文本数据的组件和保存到知识图谱中的组件。

产品的架构分为数据源，监控和运维管理系统，可视化展示系统，监控和运维管理系统包括了数据接入系统，建模和ETL、数据处理平台、在线分析平台，可视化展示包括了web页面展示、app展示，用户管理平台包括了用户权限控制、分组控制、模板管理。

如图2所示本实施例还提供了一种基于任务可视化拖拽的spark机器学习方法，该方法包括以下步骤：

步骤10将数据源组件、数据预处理组件、机器学习组件、保存组件拖拽到设计区构建机器学习流程，并生成流程描述语言；

步骤20解析用户构建的机器学习流程图，对各个组件之间的关系、输入、输出进行解析，通过设计的算法将流程图翻译为一套调度器可识别的数据；

步骤30解析可识别的数据，将构建的机器学习流程提交到spark集群进行训练。

数据源组件的作用是供用户选择需要训练的源数据，包括文本数据、数据库数据、离线数据、实时数据，可以接受公共数据源的直接导入，包括天气数据、人口分布数据、房地产数据，而且支持第三方接口进行直接对接，提供百度、360搜索、搜狗搜索、友盟的接口对接，另外对于业务数据库例如Mysql、Oracle、SqlServer的对接，支持自定义API对接，例如日志数据、业务数据、大数据文件，支持人工数据对接，包括excel文件、csv文件。

数据预处理组件包括排序组件，用于选择特定属性列进行自定义排序，筛选组件，用于对数据进行筛选，将不满足条件的数据过滤掉；设置角色组件，用于给数据设置自变量和因变量供机器学习算法训练；数据映射组件，用于将非数值型数据映射为对应的数值型数据供机器学习算法进行训练；空值处理组件，用于将数据源中的空值数据进行处理，可以将所有的空值过滤掉，或者设置成某些特定的数值；重命名组件，可以对属性列进行重命名。机器学习算法组件包括了机器学习中常用到的分类、聚类、回归、关联算法，其中包括了KNN分类、SVM分类、逻辑回归分类、随机森林分类、神经网络分类、朴素贝叶斯分类、梯度提升树分类、决策树分类、KMeans聚类、幂迭代聚类、LDA、线性回归、保序回归、曲线回归、决策树回归、随机森林回归、梯度提升树回归等算法组件。保存组件包括输出到数据库中的组件、保存为文本数据的组件和保存到知识图谱中的组件。图3为各组件连接图。

对于各个组件在数据库中的配置如表1所示，AnalyseComponentName列表示的是组件名，AnalyseComponentCode表示组件的类型，SparkTaskName则表示的是组件的全类名，AnalyseComponentImg表示的是可视化界面中组件的背景图片。

表1

本实施例根据用户的需求可以对公共数据进行采集，或者对数据库进行同步，将数据库中的信息作为模型训练的数据，也可以提供接口供用户自定义API进行调用，同时为了简化用户的操作，提供了文本在线上传，可以将用户自己收集好的数据直接上传进行分析。

用户可以根据自己的业务需求进行建模和ETL，最终按照设置的业务进行任务调度、ETL、关联合表、追加合表、聚合表、SQL合表，同时本系统提供了分布式存储、高级计算、SQL计算、分布式计算的数据分析与存储，而且包括了在线分析系统，可以在线自助分析，运营报表，数据异常告警，最终将处理的结果给用户展现在可视化的界面上，用户可以选择折线图、柱状图、饼状图对学习结果进行分析。

任务的解析流程是将用户构建的可视化的机器学习流程图通过拓扑排序算法解析出任务执行的有向无环图，得到spark可执行算子队列，以及每个算子的输入和输出数据，流程图中的某个组件的输出作为后一个组件的输入，每个组件将处理结果保存在hdfs上，路径是流程图id，文件名是该组件的id，由于流程图id和组件id是唯一不重复的，所以能保证数据传输的准确性。

实现spark任务按照用户拖拽的流程执行需要设计一套任务调度算法，当用户构建好机器学习流程图后，调度算法对各个组件信息进行处理，获取每个组件的上一个节点和下一个节点，并根据节点的属性找出数据源节点，如果该节点是数据源节点，则将用户选择的数据文件或者数据库数据加载到内存中，然后上传到hdfs，路径是流程图id和数据源组件id拼接的唯一路径，然后将该路径作为下一个组件的参数作为输入，下一个组件则从这个hdfs路径下读取数据。如果组件类型是spark机器学习组件，那么就会判断组件的source组件和target组件，在任务调度的过程中，保证该组件的前一个节点执行结束后该组件才能开始执行，保证该组件执行结束后将结果数据保存在内存或者hdfs后将路径传递给下一个组件。任务流程图的组件允许过程中将运行的状态信息传递给消息队列RabbitMQ，前端界面再将运行状态信息时刻反馈给操作者，让用户能时刻监控各个组件的运行状态。

由于机器学习系统的数据文件是用户上传的，所以难以保证数据文件都是大文件，针对这种情况设计了一套解决小文件存储的技术。Hdfs分布式文件存储系统主要分为NameNode和DataNode两个模块，DataNode将数据文件拆分成多个block，每个block大小是128M，NameNode用于存储文件元数据信息，也就是描述文件的特征系统数据，包括访问权限，文件拥有者以及文件数据块的分布信息等，每个文件的元数据对象都占用了约150byte的空间，如果存储了1亿个小文件就给NameNode带来20G的内存消耗，所以解决海量小文件的存储问题对于提高系统性能有很大的帮助。

本发明将spark机器学习算法封装成了可视化、可拖拽的组件，操作者可以根据自己的业务需求定制数据分析流程，用户将需要的组件拖拽到面板，再将其按照数据的处理流程连线，然后选择数据源或者上传数据文件，再调节spark机器学习算法的属性参数即可，设置完毕后点击保存、运行，然后就可以时刻查看组件的运行状态，操作者如果将发送邮件组件也拖拽到流程图中，并设置好了接收邮箱，那么任务执行结束时会以邮件的形式通知用户。整个流程操作简便，操作者只需要在可视化界面中修改数据挖掘的参数就可以修改算法的参数，最终得到较好的训练结果。

本发明的组件之间传递的参数是通过JSON格式传递的，作为一种轻量级的数据交换格式，JSON具有良好的可读和便于快速编写的特点，而且支持在多个平台上自由切换，兼容性高，完全独立于语言文本格式。本发明将任务流程图和组件的上下位关系通过解析算法最终以xml文件的格式进行传递，xml作为一款标记性语言，用于标记电子文件，定义数据类型。

本发明各个组件的参数以JSON格式解析，配置信息如下：

{

"elasticNetParam":0.2,

"aggregationDepth":5,

"maxIter":100,

"regParam":0.01,

"threshold":0.5

}

elasticNetParam、aggregationDepth、maxIter、regParam、threshold分别是用户在前端可视化界面设置的弹性网络参数、聚合深度、最大迭代次数、正则化参数、阈值等参数，数据挖掘组件将接收到的参数解析并使用。

{

"spark-b3ff68a4-19a5-4bde-af1f-fb05b4749a6a":"distributeRole"

}

这组json数据是该组件souce组件的id信息和类型信息。

{

"batch_id":"7b9e20d6-9134-177f-fd11-1dec5b7bfe76",

"cp_name":"L1/2稀疏迭代分类",

"output_path":"/DataAnalyse/1453/output",

"input_path":"/DataAnalyse/1453/input",

"node_id":"spark-8d78bcbf-57bf-456d-9f31-ed7e9c47d3e4",

"is_output":"false"

}

batch_id代表整个流程图的id，cp_name是该组件的名字，output_path和input_path分别是组件的组件的数据源目录和处理结果输出目录，node_id是该组件的id值，is_output用于设置是否需要将该组件的处理结果保存到输出目录中。

为了将用户构建的流程图中的组件按顺序执行，本发明将组件的上下序关系写入了xml文件，如图4所示，其中包括了每个组件的详细信息，包括了组件名，运行模式(本地模式或者集群模式)，程序文件全类名，jar包名，给该组件分配的硬件资源(内存、cpu core)，参数信息，jar包所在路径，target组件的id等信息。

为了方便用户对机器学习算法的参数进行修改，最终得到最优的模型和结果，本系统给用户提供了可视化的参数输入界面，方便对每一个算法的每一个参数进行设置，可视化效果如图5所示。

为了方便用户对文本数据进行处理，本系统加入了实体识别、关系抽取、属性抽取等组件，允许用户从文本数据中抽取实体和关系，最终通过知识图谱组件将抽取出来的结果保存起来，处理的可视化效果如图6所示。

基于任务可视化的机器学习任务流程图如图7所示，截图为系统截图，系统中网格虚线为了实现各组件对其参照线。

虽然本发明所揭露的实施方式如上，但所述的内容只是为了便于理解本发明而采用的实施方式，并非用以限定本发明。任何本发明所属技术领域内的技术人员，在不脱离本发明所揭露的精神和范围的前提下，可以在实施的形式上及细节上作任何的修改与变化，但本发明的专利保护范围，仍须以所附的权利要求书所界定的范围为准。

Claims

1.一种基于任务可视化拖拽的spark机器学习系统，其特征在于，所述系统包括流程设计器、流程解析器与流程调度器；所述

流程调度器，解析流程解析器传递过来的数据，将构建的机器学习流程提交到spark集群进行训练；

用户根据自己的业务需求进行建模和ETL，按照设置的业务进行任务调度、ETL、关联合表、追加合表、聚合表、SQL合表，同时提供分布式存储、高级计算、SQL计算、分布式计算的数据分析与存储，且包括在线分析系统，可在线自助分析，运营报表及数据异常告警，最终将处理的结果给用户展现在可视化的界面上，用户可选择折线图、柱状图、饼状图对学习结果进行分析；

任务的解析流程是将用户构建的可视化的机器学习流程图通过拓扑排序算法解析出任务执行的有向无环图，得到spark可执行算子队列，以及每个算子的输入和输出数据，流程图中的某个组件的输出作为后一个组件的输入，每个组件将处理结果保存在hdfs上，路径是流程图id，文件名是该组件的id；

实现spark任务按照用户拖拽的流程执行设计任务调度算法，当用户构建好机器学习流程图后，调度算法对各个组件信息进行处理，获取每个组件的上一个节点和下一个节点，并根据节点的属性找出数据源节点，如果该节点是数据源节点，则将用户选择的数据文件或者数据库数据加载到内存中，然后上传到hdfs，路径是流程图id和数据源组件id拼接的唯一路径，然后将该路径作为下一个组件的参数作为输入，下一个组件则从这个hdfs路径下读取数据；如果组件类型是spark机器学习组件，那么就会判断组件的source组件和target组件；

Hdfs分布式文件存储系统主要分为NameNode和DataNode两个模块，DataNode将数据文件拆分成多个block，每个block大小是128M，NameNode用于存储文件元数据信息，即描述文件的特征系统数据，包括访问权限，文件拥有者以及文件数据块的分布信息；

所述数据源组件，用于供用户选择需要训练的源数据，包括文本数据、数据库数据、离线数据和实时数据；

数据预处理组件包括排序组件、筛选组件、设置角色组件、数据映射组件、空值处理组件与重命名组件；

机器学习组件包括机器学习中常用到的分类、聚类、回归与关联算法；

保存组件包括输出到数据库中的组件、保存为文本数据的组件和保存到知识图谱中的组件。

2.一种基于任务可视化拖拽的spark机器学习方法，其特征在于，所述方法包括：

C解析可识别的数据，将构建的机器学习流程提交到spark集群进行训练；

所述步骤A中：

数据源组件，用于供用户选择需要训练的源数据，包括文本数据、数据库数据、离线数据和实时数据；

保存组件包括输出到数据库中的组件、保存为文本数据的组件和保存到知识图谱中的组件；

所述排序组件，用于选择特定属性列进行自定义排序；

筛选组件，用于对数据进行筛选，将不满足条件的数据过滤掉；

设置角色组件，用于给数据设置自变量和因变量供机器学习算法训练；

数据映射组件，用于将非数值型数据映射为对应的数值型数据供机器学习算法进行训练；

空值处理组件，用于将数据源中的空值数据进行处理，可以将所有的空值过滤掉，或者设置成某些特定的数值；

重命名组件，可以对属性列进行重命名；

所述分类包括KNN分类、SVM分类、逻辑回归分类、随机森林分类、神经网络分类、朴素贝叶斯分类、梯度提升树分类、决策树分类、KMeans聚类、幂迭代聚类；

所述回归包括线性回归、保序回归、曲线回归、决策树回归、随机森林回归与梯度提升树回归。