CN107229976A - 一种基于spark的分布式机器学习系统 - Google Patents

一种基于spark的分布式机器学习系统 Download PDF

Info

Publication number
CN107229976A
CN107229976A CN201710427854.1A CN201710427854A CN107229976A CN 107229976 A CN107229976 A CN 107229976A CN 201710427854 A CN201710427854 A CN 201710427854A CN 107229976 A CN107229976 A CN 107229976A
Authority
CN
China
Prior art keywords
data
model
algorithm
prediction
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710427854.1A
Other languages
English (en)
Inventor
张炜刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Cloud Information Technology Co Ltd
Original Assignee
Zhengzhou Yunhai Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhengzhou Yunhai Information Technology Co Ltd filed Critical Zhengzhou Yunhai Information Technology Co Ltd
Priority to CN201710427854.1A priority Critical patent/CN107229976A/zh
Publication of CN107229976A publication Critical patent/CN107229976A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供了一种基于spark的分布式机器学习系统,将大数据和机器学习进行整合,应用丰富的机器学习算法帮助用户分析海量数据,在分布式集群上对全量数据进行建模,处理更快、预测更准确,具有稳定可靠、容易扩展的特点,支持成熟、丰富的数据挖掘算法,生成的分类、聚集、回归模型可以在多种行业和场景中使用,提供了方便易用的界面和向导,采用ROC曲线、AUC值、混淆矩阵等多种可视化手段展示模型指标,使用户从多维度直观掌握学习模型的预测效果,帮助用户更好地从数据中获取价值,批量、实时进行海量数据预测,并提供Rest API接口让用户可以进行二次开发,降低开发成本。

Description

一种基于spark的分布式机器学习系统
技术领域
本发明涉及机器学习的技术领域,具体涉及到一种基于spark的分布式机器学习系统。
背景技术
机器学习是基于一种算法,该算法从数据中获得学习能力,而无需依靠基于规则的编程。随着数字化的进步和计算能力日趋便宜,使得数据科学家能够停止建造模型,转而训练计算机来进行这一工作,因此机器学习在20世纪90年代晚期作为一门科学学科出现在了大众的视野中。目前全世界瞩目的大数据因其难以管理的巨大数量和复杂性增加了使用机器学习的潜能——以及对机器学习的需求。
各大产业对大数据的呼声越来越高,希望加快传统产业数字化、智能化,做大做强数字经济。但是由于大数据相关技术更新速度快、技术门槛高,多数传统产业在这方面积累不足,大数据转型过程中仅依靠产业自身力量困难重重,并且成本高昂。因此,研发基于数据起源的大数据支撑平台,解决海量数据的汇集存储、计算处理、分析挖掘、可视化等基础性问题,实现数据从出生到销毁的全程跟踪、管理、审计和分析,具有重要的社会效益和经济价值。将机器学习能力整合到大数据产品中,可以更高得帮助客户发掘数据价值,提高产品竞争力。
在现有技术中,传统的统计/机器学习产品多依赖于数据抽样并只能在单机上执行,导致难以精准反映全集特征,无法分析海量数据。
发明内容
基于上述问题,本发明提出一种基于spark的分布式机器学习系统。本发明将大数据和机器学习进行整合,应用丰富的机器学习算法帮助用户分析海量数据,本发明可在分布式集群上对全量数据进行建模,处理更快、预测更准确,具有稳定可靠、容易扩展的特点。支持成熟、丰富的数据挖掘算法,如SVM(支持向量机)、朴素贝叶斯、K-Means等,生成的分类、聚集、回归模型可以在多种行业和场景中使用,提供了方便易用的界面和向导,适合各水平开发人员利用和学习机器学习技术,并根据用户的数据提供最合适的模型建议。
数据集中经常会出现样本类不平衡的问题,导致正负样本比例差距较大,因此,本发明采用了ROC曲线、AUC值、混淆矩阵等多种可视化手段展示模型指标,使用户可以从多维度直观掌握学习模型的预测效果,帮助用户更好地从数据中获取价值。模型建好后可批量、实时进行预测,并提供Rest API接口让用户可以进行二次开发,降低开发成本。具备极强的扩展性,日产预测结果十几亿条,高效地完成海量数据分析。
本发明提供如下技术方案:
本发明提供一种基于spark的分布式机器学习系统,所述系统包括:
数据接入模块,提供多种数据源接入,输入数据,支持分布式文件系统、列式数据库、关系型数据库的数据存储方式;
特征提取模块,读取输入数据,通过输入数据推测预制数据集中每一列的属性名和数据类型;模型训练模块,对预制数据集使用预置算法进行训练,生成分类模型、聚集模型或回归模型;模型评估模块,针对数据集存在的样本不均衡问题,采用ROC曲线、AUC值、混淆矩阵可视化手段展示所述模型指标;
结果预测模块,提供交互式界面,进行离线批量预测或在线实时预测,预测过程运行在分布式系统中,基于内存进行迭代式计算,对海量数据进行预测。
其中,所述预制数据集中的预制值可以手动或者自动修改。
其中,所述预置算法包括支持向量机、朴素贝叶斯算法、基于距离的聚类算法、线性回归算法。
其中,所述展示模型指标包括数字展示、表单画像展示、信息检索展示、关键词频展示。
优选的,所述预置算法通过可视化界面选择。
优选的,所述系统还包括监控模块,对结果预测进行监控,清理冗余数据。
优选的,所述系统还包括日志模块,对系统运行过程中的操作、数据进行记录。
本发明提供了一种基于spark的分布式机器学习系统,将大数据和机器学习进行整合,应用丰富的机器学习算法帮助用户分析海量数据,本发明可在分布式集群上对全量数据进行建模,处理更快、预测更准确,具有稳定可靠、容易扩展的特点。支持成熟、丰富的数据挖掘算法,如SVM(支持向量机)、朴素贝叶斯、K-Means等,生成的分类、聚集、回归模型可以在多种行业和场景中使用,提供了方便易用的界面和向导,采用ROC曲线、AUC值、混淆矩阵等多种可视化手段展示模型指标,使用户从多维度直观掌握学习模型的预测效果,帮助用户更好地从数据中获取价值,批量、实时进行海量数据预测,并提供Rest API接口让用户可以进行二次开发,降低开发成本。
附图说明
图1是本发明的系统结构框图。
具体实施方式
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
将大数据和机器学习进行整合,应用丰富的机器学习算法帮助用户分析海量数据,从而发掘数据价值。
传统的统计/机器学习产品多依赖于数据抽样并只能在单机上执行,导致难以精准反映全集特征。本系统可在分布式集群上对全量数据进行建模,处理更快、预测更准确,具有稳定可靠、容易扩展的特点。支持成熟、丰富的数据挖掘算法,如SVM(支持向量机)、朴素贝叶斯、K-Means基于距离的聚类算法等,生成的分类、聚集、回归模型可以在多种行业和场景中使用。
提供了方便易用的界面和向导,适合各水平开发人员利用和学习机器学习技术,并根据用户的数据提供最合适的模型建议。实际的数据集中经常会出现样本类不平衡的问题,导致正负样本比例差距较大,因此,采用了ROC曲线、AUC值、混淆矩阵等多种可视化手段展示模型指标,使用户可以从多维度直观掌握学习模型的预测效果,帮助用户更好地从数据中获取价值。模型建好后可批量、实时进行预测,并提供Rest API接口让用户可以进行二次开发,降低开发成本。具备极强的扩展性,日产预测结果十几亿条。
本发明的有益效果为:面向行业搭建容纳万亿特征数据的、分钟级别模型更新的、高效训练的系统,收集行业语料库,运用数据统计的手段,采用分布式算法,将分类、分析回归、协同推荐等模型及算法运用到行业应用中,训练机器产生智能,实现高效海量数据分析预测。
本发明简单易用、高效实时、模型丰富的大数据分析、挖掘与可视化功能。通过机器学习、语义分析以及智能预测推荐技术和模型破解传统行业在海量数据(尤其是非结构化数据)中自动分析、挖掘其内在联系、获取数据价值的难题。提供丰富的可视化组件和高性能的展现能力,实现海量数据的动态、交互式展现。
本发明的实施方式还提供了一种基于spark的分布式机器学习系统,所述系统包括:
数据接入模块,提供多种数据源接入,输入数据,支持分布式文件系统、列式数据库、关系型数据库的数据存储方式;
特征提取模块,读取输入数据,通过输入数据推测预制数据集中每一列的属性名和数据类型;
读取输入数据并通过推测预制数据集中每一列的属性名和数据类型。针对预制值,允许人工调整和修改或者调用脚本自动修改,以确保数据读取的准确性,从而提升预测命中率。
模型训练模块,对预制数据集使用预置算法进行训练,生成分类模型、聚集模型或回归模型;
支持成熟、丰富的数据挖掘算法,如SVM(支持向量机)、朴素贝叶斯、K-Means、线性回归等算法,保证预测结果的高准确性。可以生成分类、聚集、回归模型,适应在多种行业的机器学习场景。
模型评估模块,针对数据集存在的样本不均衡问题,采用ROC曲线、AUC值、混淆矩阵可视化手段展示所述模型指标;
针对实际数据集存在的样本不均衡等问题,采用ROC曲线、AUC值、混淆矩阵等多种可视化手段展示模型指标,多维度直观掌握学习模型的预测效果,帮助模型修订和价值获取。
结果预测模块,提供交互式界面,进行离线批量预测或在线实时预测,预测过程运行在分布式系统中,基于内存进行迭代式计算,对海量数据进行预测。
提供方便易用的交互式界面,帮助使用者进行离线批量预测或在线实时预测。预测过程运行在分布式系统中,基于内存进行迭代式计算,可以对海量数据进行预测,具备极强的扩展性,日产预测结果十几亿条。
另外,所述系统还包括监控模块,对结果预测进行监控,清理冗余数据;以及还包括日志模块,对系统运行过程中的操作、数据进行记录。还提供Rest API接口让用户可以进行二次开发,降低开发成本。
此外,本发明具有丰富的可视化组件:提供丰富的可视化组件,是数据分析挖掘的直观载体,可以实现单纯的数字展示、表单画像、信息检索、关键词频率等多种展现效果,方便业务人员在第一时间了解其业务的方方面面,科研人员可以用其进行精细的趋势分析
高性能:基于分布式计算、内存计算、流式计算等高效计算能力,可以支持亿级数据的秒级处理,能够应对海量数据集复杂场景分析结果的实时展现。
交互式:提供可视化操作、管理界面,可以实现模型修改、算法调整、结果展现和模型评估等全过程的便捷高效。
本发明提供了一种基于spark的分布式机器学习系统,将大数据和机器学习进行整合,应用丰富的机器学习算法帮助用户分析海量数据,本发明可在分布式集群上对全量数据进行建模,处理更快、预测更准确,具有稳定可靠、容易扩展的特点。支持成熟、丰富的数据挖掘算法,如SVM(支持向量机)、朴素贝叶斯、K-Means等,生成的分类、聚集、回归模型可以在多种行业和场景中使用,提供了方便易用的界面和向导,采用ROC曲线、AUC值、混淆矩阵等多种可视化手段展示模型指标,使用户从多维度直观掌握学习模型的预测效果,帮助用户更好地从数据中获取价值,批量、实时进行海量数据预测,并提供Rest API接口让用户可以进行二次开发,降低开发成本。
对所公开的实施例的上述说明,使本领域技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其他实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (7)

1.一种基于spark的分布式机器学习系统,其特征在于:所述系统包括:
数据接入模块,提供多种数据源接入,输入数据,支持分布式文件系统、列式数据库、关系型数据库的数据存储方式;
特征提取模块,读取输入数据,通过输入数据推测预制数据集中每一列的属性名和数据类型;
模型训练模块,对预制数据集使用预置算法进行训练,生成分类模型、聚集模型或回归模型;
模型评估模块,针对数据集存在的样本不均衡问题,采用ROC曲线、AUC值、混淆矩阵可视化手段展示所述模型指标;
结果预测模块,提供交互式界面,进行离线批量预测或在线实时预测,预测过程运行在分布式系统中,基于内存进行迭代式计算,对海量数据进行预测。
2.根据权利要求1所述的系统,其特征在于:所述预制数据集中的预制值可以手动或者自动修改。
3.根据权利要求1所述的系统,其特征在于:所述预置算法包括支持向量机、朴素贝叶斯算法、基于距离的聚类算法、线性回归算法。
4.根据权利要求1所述的系统,其特征在于:所述展示模型指标包括数字展示、表单画像展示、信息检索展示、关键词频展示。
5.根据权利要求1所述的系统,其特征在于:所述预置算法通过可视化界面选择。
6.根据权利要求1所述的系统,其特征在于:所述系统还包括监控模块,对结果预测进行监控,清理冗余数据。
7.根据权利要求1所述的系统,其特征在于:所述系统还包括日志模块,对系统运行过程中的操作、数据进行记录。
CN201710427854.1A 2017-06-08 2017-06-08 一种基于spark的分布式机器学习系统 Pending CN107229976A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710427854.1A CN107229976A (zh) 2017-06-08 2017-06-08 一种基于spark的分布式机器学习系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710427854.1A CN107229976A (zh) 2017-06-08 2017-06-08 一种基于spark的分布式机器学习系统

Publications (1)

Publication Number Publication Date
CN107229976A true CN107229976A (zh) 2017-10-03

Family

ID=59934754

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710427854.1A Pending CN107229976A (zh) 2017-06-08 2017-06-08 一种基于spark的分布式机器学习系统

Country Status (1)

Country Link
CN (1) CN107229976A (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107844836A (zh) * 2017-10-24 2018-03-27 信雅达系统工程股份有限公司 一种基于机器学习的系统及学习方法
CN107885642A (zh) * 2017-11-29 2018-04-06 小花互联网金融服务(深圳)有限公司 基于机器学习的业务监控方法及系统
CN108664540A (zh) * 2018-02-13 2018-10-16 贵州财经大学 大数据机器学习系统及方法
CN109344017A (zh) * 2018-09-06 2019-02-15 浪潮电子信息产业股份有限公司 一种基于机器学习预测内存故障的方法,设备及可读存储介质
CN109446251A (zh) * 2018-09-04 2019-03-08 北京睿企信息科技有限公司 分布式人工智能应用开发的系统及方法
WO2019080501A1 (zh) * 2017-10-27 2019-05-02 平安科技(深圳)有限公司 电子装置、多模型样本训练方法、系统和计算机可读存储介质
CN109800277A (zh) * 2018-12-18 2019-05-24 合肥天源迪科信息技术有限公司 一种机器学习平台及基于该平台的数据模型优化方法
WO2019153878A1 (zh) * 2018-02-06 2019-08-15 华为技术有限公司 一种基于机器学习的数据处理方法以及相关设备
CN110175207A (zh) * 2019-05-30 2019-08-27 深圳供电局有限公司 一种基于Hadoop和Spark的可扩展性大数据分析平台
CN110928922A (zh) * 2019-11-27 2020-03-27 开普云信息科技股份有限公司 一种基于大数据挖掘的公共政策分析模型部署方法及其系统
CN110991656A (zh) * 2019-12-23 2020-04-10 深圳前海黑顿科技有限公司 一种以场景变量作为构成元素与交互单元的机器学习方法
CN111582498A (zh) * 2020-04-30 2020-08-25 重庆富民银行股份有限公司 基于机器学习的qa辅助决策方法及系统
CN113609779A (zh) * 2021-08-16 2021-11-05 深圳力维智联技术有限公司 分布式机器学习的建模方法、装置及设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102945240A (zh) * 2012-09-11 2013-02-27 杭州斯凯网络科技有限公司 一种支持分布式计算的关联规则挖掘算法实现方法及装置
US20170063896A1 (en) * 2015-08-31 2017-03-02 Splunk Inc. Network Security System
CN106779087A (zh) * 2016-11-30 2017-05-31 福建亿榕信息技术有限公司 一种通用机器学习数据分析平台

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102945240A (zh) * 2012-09-11 2013-02-27 杭州斯凯网络科技有限公司 一种支持分布式计算的关联规则挖掘算法实现方法及装置
US20170063896A1 (en) * 2015-08-31 2017-03-02 Splunk Inc. Network Security System
CN106779087A (zh) * 2016-11-30 2017-05-31 福建亿榕信息技术有限公司 一种通用机器学习数据分析平台

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
刘红英,刘博,李韵琴: "《大数据技术与应用基础》", 30 June 2016 *
张大坤: "《软件技术及系统现状与应用前景》", 31 May 2015 *
王健,韩志艳: "《面向样本不平衡的故障特征提取方法》", 29 February 2016 *
赵玲玲,刘杰,王伟: "基于Spark的流程化机器学习分析方法", 《计算机系统应用》 *

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107844836A (zh) * 2017-10-24 2018-03-27 信雅达系统工程股份有限公司 一种基于机器学习的系统及学习方法
WO2019080501A1 (zh) * 2017-10-27 2019-05-02 平安科技(深圳)有限公司 电子装置、多模型样本训练方法、系统和计算机可读存储介质
CN107885642A (zh) * 2017-11-29 2018-04-06 小花互联网金融服务(深圳)有限公司 基于机器学习的业务监控方法及系统
WO2019153878A1 (zh) * 2018-02-06 2019-08-15 华为技术有限公司 一种基于机器学习的数据处理方法以及相关设备
CN108664540A (zh) * 2018-02-13 2018-10-16 贵州财经大学 大数据机器学习系统及方法
CN109446251A (zh) * 2018-09-04 2019-03-08 北京睿企信息科技有限公司 分布式人工智能应用开发的系统及方法
CN109344017A (zh) * 2018-09-06 2019-02-15 浪潮电子信息产业股份有限公司 一种基于机器学习预测内存故障的方法,设备及可读存储介质
CN109800277A (zh) * 2018-12-18 2019-05-24 合肥天源迪科信息技术有限公司 一种机器学习平台及基于该平台的数据模型优化方法
CN110175207A (zh) * 2019-05-30 2019-08-27 深圳供电局有限公司 一种基于Hadoop和Spark的可扩展性大数据分析平台
CN110928922A (zh) * 2019-11-27 2020-03-27 开普云信息科技股份有限公司 一种基于大数据挖掘的公共政策分析模型部署方法及其系统
CN110928922B (zh) * 2019-11-27 2020-07-24 开普云信息科技股份有限公司 一种基于大数据挖掘的公共政策分析模型部署方法及其系统
CN110991656A (zh) * 2019-12-23 2020-04-10 深圳前海黑顿科技有限公司 一种以场景变量作为构成元素与交互单元的机器学习方法
CN110991656B (zh) * 2019-12-23 2023-02-21 深圳前海黑顿科技有限公司 一种以场景变量作为构成元素与交互单元的机器学习方法
CN111582498A (zh) * 2020-04-30 2020-08-25 重庆富民银行股份有限公司 基于机器学习的qa辅助决策方法及系统
CN113609779A (zh) * 2021-08-16 2021-11-05 深圳力维智联技术有限公司 分布式机器学习的建模方法、装置及设备
CN113609779B (zh) * 2021-08-16 2024-04-09 深圳力维智联技术有限公司 分布式机器学习的建模方法、装置及设备

Similar Documents

Publication Publication Date Title
CN107229976A (zh) 一种基于spark的分布式机器学习系统
Rong et al. The research of regression model in machine learning field
Buyya et al. Big data: principles and paradigms
Duan et al. Big data analytics and business analytics
Chen et al. AR-miner: mining informative reviews for developers from mobile app marketplace
El Alaoui et al. Full consideration of big data characteristics in sentiment analysis context
Hussain et al. Social data analytics tool: Design, development, and demonstrative case studies
Ge et al. A scalable framework for multilevel streaming data analytics using deep learning
CN111221881B (zh) 用户特征数据合成方法、装置及电子设备
Demirbaga HTwitt: a hadoop-based platform for analysis and visualization of streaming Twitter data
Sanjay et al. An insight into big data analytics—Methods and application
CN110674100B (zh) 一种基于全渠道运营数据的用户需求预测方法及架构
Arora et al. Big data: A review of analytics methods & techniques
Kekevi et al. Real-time big data processing and analytics: Concepts, technologies, and domains
Yan et al. A graph-based pivotal semantic mining framework for rumor detection
Fan et al. Order-guided deep neural network for emotion-cause pair prediction
Guo [Retracted] Financial Market Sentiment Prediction Technology and Application Based on Deep Learning Model
Li et al. An improved genetic-XGBoost classifier for customer consumption behavior prediction
Panneerselvam et al. An introduction to big data
Li Naive Bayes algorithm for Twitter sentiment analysis and its implementation in MapReduce
Lu et al. Data mining and social networks processing method based on support vector machine and k-nearest neighbor
Chen et al. A mobile application classification method with enhanced topic attention mechanism
CN111242519B (zh) 用户特征数据生成方法、装置及电子设备
Chen et al. Contrast pattern mining: a survey
Fen et al. Research on internet hot topic detection based on MapReduce architecture

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20200520

Address after: Building S01, Inspur Science Park, No. 1036, Inspur Road, high tech Zone, Jinan City, Shandong Province, 250000

Applicant after: Tidal Cloud Information Technology Co.,Ltd.

Address before: 450000 Henan province Zheng Dong New District of Zhengzhou City Xinyi Road No. 278 16 floor room 1601

Applicant before: ZHENGZHOU YUNHAI INFORMATION TECHNOLOGY Co.,Ltd.

TA01 Transfer of patent application right
RJ01 Rejection of invention patent application after publication

Application publication date: 20171003

RJ01 Rejection of invention patent application after publication