CN107229976A

CN107229976A - 一种基于spark的分布式机器学习系统

Info

Publication number: CN107229976A
Application number: CN201710427854.1A
Authority: CN
Inventors: 张炜刚
Original assignee: Zhengzhou Yunhai Information Technology Co Ltd
Current assignee: Inspur Cloud Information Technology Co Ltd
Priority date: 2017-06-08
Filing date: 2017-06-08
Publication date: 2017-10-03

Abstract

本发明提供了一种基于spark的分布式机器学习系统，将大数据和机器学习进行整合，应用丰富的机器学习算法帮助用户分析海量数据，在分布式集群上对全量数据进行建模，处理更快、预测更准确，具有稳定可靠、容易扩展的特点，支持成熟、丰富的数据挖掘算法，生成的分类、聚集、回归模型可以在多种行业和场景中使用，提供了方便易用的界面和向导，采用ROC曲线、AUC值、混淆矩阵等多种可视化手段展示模型指标，使用户从多维度直观掌握学习模型的预测效果，帮助用户更好地从数据中获取价值，批量、实时进行海量数据预测，并提供Rest API接口让用户可以进行二次开发，降低开发成本。

Description

一种基于spark的分布式机器学习系统

技术领域

本发明涉及机器学习的技术领域，具体涉及到一种基于spark的分布式机器学习系统。

背景技术

机器学习是基于一种算法，该算法从数据中获得学习能力，而无需依靠基于规则的编程。随着数字化的进步和计算能力日趋便宜，使得数据科学家能够停止建造模型，转而训练计算机来进行这一工作，因此机器学习在20世纪90年代晚期作为一门科学学科出现在了大众的视野中。目前全世界瞩目的大数据因其难以管理的巨大数量和复杂性增加了使用机器学习的潜能——以及对机器学习的需求。

各大产业对大数据的呼声越来越高，希望加快传统产业数字化、智能化，做大做强数字经济。但是由于大数据相关技术更新速度快、技术门槛高，多数传统产业在这方面积累不足，大数据转型过程中仅依靠产业自身力量困难重重，并且成本高昂。因此，研发基于数据起源的大数据支撑平台，解决海量数据的汇集存储、计算处理、分析挖掘、可视化等基础性问题，实现数据从出生到销毁的全程跟踪、管理、审计和分析，具有重要的社会效益和经济价值。将机器学习能力整合到大数据产品中，可以更高得帮助客户发掘数据价值，提高产品竞争力。

在现有技术中，传统的统计/机器学习产品多依赖于数据抽样并只能在单机上执行，导致难以精准反映全集特征，无法分析海量数据。

发明内容

基于上述问题，本发明提出一种基于spark的分布式机器学习系统。本发明将大数据和机器学习进行整合，应用丰富的机器学习算法帮助用户分析海量数据，本发明可在分布式集群上对全量数据进行建模，处理更快、预测更准确，具有稳定可靠、容易扩展的特点。支持成熟、丰富的数据挖掘算法，如SVM(支持向量机)、朴素贝叶斯、K-Means等，生成的分类、聚集、回归模型可以在多种行业和场景中使用，提供了方便易用的界面和向导，适合各水平开发人员利用和学习机器学习技术，并根据用户的数据提供最合适的模型建议。

数据集中经常会出现样本类不平衡的问题，导致正负样本比例差距较大，因此，本发明采用了ROC曲线、AUC值、混淆矩阵等多种可视化手段展示模型指标，使用户可以从多维度直观掌握学习模型的预测效果，帮助用户更好地从数据中获取价值。模型建好后可批量、实时进行预测，并提供Rest API接口让用户可以进行二次开发，降低开发成本。具备极强的扩展性，日产预测结果十几亿条，高效地完成海量数据分析。

本发明提供如下技术方案：

本发明提供一种基于spark的分布式机器学习系统，所述系统包括：

数据接入模块，提供多种数据源接入，输入数据，支持分布式文件系统、列式数据库、关系型数据库的数据存储方式；

特征提取模块，读取输入数据，通过输入数据推测预制数据集中每一列的属性名和数据类型；模型训练模块，对预制数据集使用预置算法进行训练，生成分类模型、聚集模型或回归模型；模型评估模块，针对数据集存在的样本不均衡问题，采用ROC曲线、AUC值、混淆矩阵可视化手段展示所述模型指标；

结果预测模块，提供交互式界面，进行离线批量预测或在线实时预测，预测过程运行在分布式系统中，基于内存进行迭代式计算，对海量数据进行预测。

其中，所述预制数据集中的预制值可以手动或者自动修改。

其中，所述预置算法包括支持向量机、朴素贝叶斯算法、基于距离的聚类算法、线性回归算法。

其中，所述展示模型指标包括数字展示、表单画像展示、信息检索展示、关键词频展示。

优选的，所述预置算法通过可视化界面选择。

优选的，所述系统还包括监控模块，对结果预测进行监控，清理冗余数据。

优选的，所述系统还包括日志模块，对系统运行过程中的操作、数据进行记录。

本发明提供了一种基于spark的分布式机器学习系统，将大数据和机器学习进行整合，应用丰富的机器学习算法帮助用户分析海量数据，本发明可在分布式集群上对全量数据进行建模，处理更快、预测更准确，具有稳定可靠、容易扩展的特点。支持成熟、丰富的数据挖掘算法，如SVM(支持向量机)、朴素贝叶斯、K-Means等，生成的分类、聚集、回归模型可以在多种行业和场景中使用，提供了方便易用的界面和向导，采用ROC曲线、AUC值、混淆矩阵等多种可视化手段展示模型指标，使用户从多维度直观掌握学习模型的预测效果，帮助用户更好地从数据中获取价值，批量、实时进行海量数据预测，并提供Rest API接口让用户可以进行二次开发，降低开发成本。

附图说明

图1是本发明的系统结构框图。

具体实施方式

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

将大数据和机器学习进行整合，应用丰富的机器学习算法帮助用户分析海量数据，从而发掘数据价值。

传统的统计/机器学习产品多依赖于数据抽样并只能在单机上执行，导致难以精准反映全集特征。本系统可在分布式集群上对全量数据进行建模，处理更快、预测更准确，具有稳定可靠、容易扩展的特点。支持成熟、丰富的数据挖掘算法，如SVM(支持向量机)、朴素贝叶斯、K-Means基于距离的聚类算法等，生成的分类、聚集、回归模型可以在多种行业和场景中使用。

提供了方便易用的界面和向导，适合各水平开发人员利用和学习机器学习技术，并根据用户的数据提供最合适的模型建议。实际的数据集中经常会出现样本类不平衡的问题，导致正负样本比例差距较大，因此，采用了ROC曲线、AUC值、混淆矩阵等多种可视化手段展示模型指标，使用户可以从多维度直观掌握学习模型的预测效果，帮助用户更好地从数据中获取价值。模型建好后可批量、实时进行预测，并提供Rest API接口让用户可以进行二次开发，降低开发成本。具备极强的扩展性，日产预测结果十几亿条。

本发明的有益效果为：面向行业搭建容纳万亿特征数据的、分钟级别模型更新的、高效训练的系统，收集行业语料库，运用数据统计的手段，采用分布式算法，将分类、分析回归、协同推荐等模型及算法运用到行业应用中，训练机器产生智能，实现高效海量数据分析预测。

本发明简单易用、高效实时、模型丰富的大数据分析、挖掘与可视化功能。通过机器学习、语义分析以及智能预测推荐技术和模型破解传统行业在海量数据(尤其是非结构化数据)中自动分析、挖掘其内在联系、获取数据价值的难题。提供丰富的可视化组件和高性能的展现能力，实现海量数据的动态、交互式展现。

本发明的实施方式还提供了一种基于spark的分布式机器学习系统，所述系统包括：

特征提取模块，读取输入数据，通过输入数据推测预制数据集中每一列的属性名和数据类型；

读取输入数据并通过推测预制数据集中每一列的属性名和数据类型。针对预制值，允许人工调整和修改或者调用脚本自动修改，以确保数据读取的准确性，从而提升预测命中率。

模型训练模块，对预制数据集使用预置算法进行训练，生成分类模型、聚集模型或回归模型；

支持成熟、丰富的数据挖掘算法，如SVM(支持向量机)、朴素贝叶斯、K-Means、线性回归等算法，保证预测结果的高准确性。可以生成分类、聚集、回归模型，适应在多种行业的机器学习场景。

模型评估模块，针对数据集存在的样本不均衡问题，采用ROC曲线、AUC值、混淆矩阵可视化手段展示所述模型指标；

针对实际数据集存在的样本不均衡等问题，采用ROC曲线、AUC值、混淆矩阵等多种可视化手段展示模型指标，多维度直观掌握学习模型的预测效果，帮助模型修订和价值获取。

提供方便易用的交互式界面，帮助使用者进行离线批量预测或在线实时预测。预测过程运行在分布式系统中，基于内存进行迭代式计算，可以对海量数据进行预测，具备极强的扩展性，日产预测结果十几亿条。

另外，所述系统还包括监控模块，对结果预测进行监控，清理冗余数据；以及还包括日志模块，对系统运行过程中的操作、数据进行记录。还提供Rest API接口让用户可以进行二次开发，降低开发成本。

此外，本发明具有丰富的可视化组件：提供丰富的可视化组件，是数据分析挖掘的直观载体，可以实现单纯的数字展示、表单画像、信息检索、关键词频率等多种展现效果,方便业务人员在第一时间了解其业务的方方面面，科研人员可以用其进行精细的趋势分析

高性能：基于分布式计算、内存计算、流式计算等高效计算能力，可以支持亿级数据的秒级处理，能够应对海量数据集复杂场景分析结果的实时展现。

交互式：提供可视化操作、管理界面，可以实现模型修改、算法调整、结果展现和模型评估等全过程的便捷高效。

对所公开的实施例的上述说明，使本领域技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其他实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于spark的分布式机器学习系统，其特征在于：所述系统包括：

2.根据权利要求1所述的系统，其特征在于：所述预制数据集中的预制值可以手动或者自动修改。

3.根据权利要求1所述的系统，其特征在于：所述预置算法包括支持向量机、朴素贝叶斯算法、基于距离的聚类算法、线性回归算法。

4.根据权利要求1所述的系统，其特征在于：所述展示模型指标包括数字展示、表单画像展示、信息检索展示、关键词频展示。

5.根据权利要求1所述的系统，其特征在于：所述预置算法通过可视化界面选择。

6.根据权利要求1所述的系统，其特征在于：所述系统还包括监控模块，对结果预测进行监控，清理冗余数据。

7.根据权利要求1所述的系统，其特征在于：所述系统还包括日志模块，对系统运行过程中的操作、数据进行记录。