CN107526600B - 一种基于hadoop和spark的可视化数据挖掘分析平台及其数据清洗方法 - Google Patents

一种基于hadoop和spark的可视化数据挖掘分析平台及其数据清洗方法 Download PDF

Info

Publication number
CN107526600B
CN107526600B CN201710788398.3A CN201710788398A CN107526600B CN 107526600 B CN107526600 B CN 107526600B CN 201710788398 A CN201710788398 A CN 201710788398A CN 107526600 B CN107526600 B CN 107526600B
Authority
CN
China
Prior art keywords
data
operator
workflow
platform
spark
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710788398.3A
Other languages
English (en)
Other versions
CN107526600A (zh
Inventor
普雪飞
竹登虎
勇萌哲
钟颖
杨佑禄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Youe Data Co ltd
Original Assignee
Chengdu Youe Data Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Youe Data Co ltd filed Critical Chengdu Youe Data Co ltd
Priority to CN201710788398.3A priority Critical patent/CN107526600B/zh
Publication of CN107526600A publication Critical patent/CN107526600A/zh
Application granted granted Critical
Publication of CN107526600B publication Critical patent/CN107526600B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/26Visual data mining; Browsing structured data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/30Creation or generation of source code
    • G06F8/34Graphical or visual programming

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Stored Programmes (AREA)

Abstract

本发明涉及一种基于hadoop和spark的可视化数据挖掘分析平台,该平台包括数据管理模块、工作流管理模块、算子管理模块及算子运行调度管理模块;同时本发明还公开了基于hadoop和spark的可视化数据挖掘分析平台的数据清洗方法。本发明的可视化数据挖掘分析平台操作简单,要求低,方便用户灵活操作,并具有工作流保存和共享功能,使得操作更加灵活。

Description

一种基于hadoop和spark的可视化数据挖掘分析平台及其数 据清洗方法
技术领域
本发明涉及可视化数据挖掘分析平台,属于信号处理技术领域,更具体地说,本发明涉及一种基于hadoop和spark的可视化数据挖掘分析平台,同时,本发明还公开了基于该平台的数据清洗方法。
背景技术
分布式计算框架spark适用于海量数据场景下的数据分析挖掘,spark的数据结构dataframe类似于python和R语言的dataframe,是一种结构化的数据处理结构,具有行索引和列索引。基于这些特性,可以方便、精确地对数据进行处理,dataframe本身自带了很多用于数据清洗加工的API,很多复杂的功能通过简单的调用即可实现。
但是,spark dataframe的操作需要编写脚本,要求使用者具有一定的编程能力,并且要熟悉spark dataframe的相关API,对普通用户非常不友好。现存的另外一种技术,就是将spark dataframe进行封装,将其中的API以可视化的方式呈现出来,用户只需要操作图形化的算子,进行简单的拖拽操作,并设置好每个算子的参数后即可构建数据清洗的流程,完成数据清洗操作,大大降低用户对大数据进行挖掘分析的难度,但是这样的可视化操作,虽然降低了操作的门槛,但是一些比较特殊的需求满足不了,操作缺乏灵活性。
发明内容
基于以上技术问题,本发明提供了一种基于hadoop和spark的可视化数据挖掘分析平台,从而解决了以往spark dataframe操作对用户要求高,操作缺乏灵活性的技术问题;同时,本发明还公开了基于hadoop和spark的可视化数据挖掘分析平台的数据清洗方法。
为解决以上技术问题,本发明采用的技术方案如下:
一种基于hadoop和spark的可视化数据挖掘分析平台,其特征在于,该平台包括数据管理模块、工作流管理模块、算子管理模块及算子运行调度管理模块;
其中,
数据管理模块,对整个系统中的数据文件进行管理,通过http协议将数据从本地上传到系统的hdfs中,供平台中的算子使用;
工作流管理模块,对平台中的工作流进行管理、增删改查,工作流是各个算子按执行顺序连接起来构成的数据挖掘分析流程;
算子管理模块,对平台中封装的各类spark算子进行管理,平台对这些算子进行图形化封装,通过拖动算子对应的图形并通过连线连接各个算子,构建数据挖掘分析工作流;
算子运行调度管理模块,对平台中的算子构建的工作流运行进行管理;
基于以上技术方案,工作流管理模块提供工作流的导入和导出,导入和导出通过xml文件作为中间媒介,用于对平台中的工作流进行管理、增删改查。
基于以上技术方案,算子管理模块中各类spark算子种类包括数据抽取、数据加载、数据转换、数据建模以及建模评估。
基于以上技术方案,算子运行调度管理模块中,管理内容包括工作流启动和停止、工作流中各个算子顺序执行的调度。
本发明的可视化数据挖掘分析平台操作简单,要求低,方便用户灵活操作,并具有工作流保存和共享功能,使得操作更加灵活。
同时,本发明还公开了基于hadoop和spark的可视化数据挖掘分析平台的数据清洗方法,该方法包括以下步骤:
S0基于hadoop和spark框架,在平台中对spark中与数据处理相关的算子进行图形化封装;
S1数据上传:通过http协议将数据从本地上传到平台的hdfs中;
S2算子集成:通过spark dataframe的算子封装格式,在平台中集成添加各类dataframe算子;
S3算子管理:在dataframe算子集成中,利用spark dataframe算子分类目录式管理方法,将不同dataframe算子按功能进行分类,平台按分类结果对算子进行可视化的管理及展示,并形成分类目录;
S4数据清洗流程构建:自由拖拽分类目录中的dataframe算子至工作流编辑区,在满足前后逻辑正确的情况下任意构建数据清洗流程;
S5导入功能:导入之前已建立并保存在本地的工作流,系统通过解析xml文件在系统中还原并建立该工作流;
S6自定义数据清洗功能:在算子管理的分类目录中添加脚本编写算子,通过该算子提供的脚本编辑窗口进行spark脚本编写,并通过定义数据的输入和输出接口与其他算子间的前后数据交互;
S7保存已搭建好的建模工作流;
S8启动建模工作流,后台执行数据清洗;
S9查看工作流运行结果。
在以上方法中,所述算子集成方法包括spark dataframe算子封装集成方法和可视化数据挖掘分析平台集成方法。
在以上方法中,所述构建数据清洗流程的方式为使用可视化的箭头将各算子连接起来。
综上所述,由于采用了上述技术方案,本发明的有益效果是:本发明的方法可减少手动编译开发spark dataframe脚本的工作量,同时提供专门spark dataframe脚本编写窗口,让有能力的用户通过编写脚本来灵活的实现各种定制化的数据清洗功能,并提供完整的数据清洗工作流保存和共享功能,实现使用spark dataframe进行高效数据清洗和清洗工作流多用户共享,从而降低了spark dataframe的操作难度,提高了spark dataframe的操作灵活性。
附图说明
图1是本发明的结构示意图;
图2是本方法的工作流程图;
图3是算子集成流程示意图;
图4是自定义数据清洗功能的流程图;
图5是具体实施例的工作流程图;
具体实施方式
下面结合附图对本发明作进一步的说明。本发明的实施方式包括但不限于下列实施例。
如图1-4所示,一种基于hadoop和spark的可视化数据挖掘分析平台,该平台包括数据管理模块、工作流管理模块、算子管理模块及算子运行调度管理模块;
其中,
数据管理模块,对整个系统中的数据文件进行管理,通过http协议将数据从本地上传到系统的hdfs中,供平台中的算子使用;
工作流管理模块,对平台中的工作流进行管理、增删改查,工作流是各个算子按执行顺序连接起来构成的数据挖掘分析流程;
算子管理模块,对平台中封装的各类spark算子进行管理,平台对这些算子进行图形化封装,通过拖动算子对应的图形并通过连线连接各个算子,构建数据挖掘分析工作流;
算子运行调度管理模块,对平台中的算子构建的工作流运行进行管理;
上述工作流管理模块提供工作流的导入和导出,导入和导出通过xml文件作为中间媒介,用于对平台中的工作流进行管理、增删改查。
上述算子管理模块中各类spark算子种类包括数据抽取、数据加载、数据转换、数据建模以及建模评估。
上述算子运行调度管理模块中,管理内容包括工作流启动和停止、工作流中各个算子顺序执行的调度。
基于上述的基于hadoop和spark的可视化数据挖掘分析平台,本实施例还公开了基于hadoop和spark的可视化数据挖掘分析平台的数据清洗方法,该方法包括以下步骤:
S0基于hadoop和spark框架,在平台中对spark中与数据处理相关的算子进行图形化封装;
S1数据上传:通过http协议将数据从本地上传到平台的hdfs中;
S2算子集成:通过spark dataframe的算子封装格式,在平台中集成添加各类dataframe算子;
S3算子管理:在dataframe算子集成中,利用spark dataframe算子分类目录式管理方法,将不同dataframe算子按功能进行分类,平台按分类结果对算子进行可视化的管理及展示,并形成分类目录;
S4数据清洗流程构建:自由拖拽分类目录中的dataframe算子至工作流编辑区,在满足前后逻辑正确的情况下任意构建数据清洗流程;
S5导入功能:导入之前已建立并保存在本地的工作流,系统通过解析xml文件在系统中还原并建立该工作流;
S6自定义数据清洗功能:在算子管理的分类目录中添加脚本编写算子,通过该算子提供的脚本编辑窗口进行spark脚本编写,并通过定义数据的输入和输出接口与其他算子间的前后数据交互;
S7保存已搭建好的建模工作流;
S8启动建模工作流,后台执行数据清洗;
S9查看工作流运行结果。
本方法可减少用户手动编译开发spark dataframe脚本的工作量,同时提供专门sparkdataframe脚本编写窗口,让有能力的用户通过编写脚本来灵活的实现各种定制化的数据清洗功能,并提供完整的数据清洗工作流保存和共享功能,实现使用spark dataframe进行高效数据清洗和清洗工作流多用户共享,从而降低了spark dataframe的操作难度,提高了spark dataframe的操作灵活性。
基于以上实施例,所述算子集成方法包括spark dataframe算子封装集成方法和可视化数据挖掘分析平台集成方法。
基于以上实施例,所述构建数据清洗流程的方式为使用可视化的箭头将各算子连接起来。
为了更好的实施本方法,下面结合具体实施例对本方法做进一步解释和说明。
具体实施例
如图5所示,基于spark dataframe可视化操作与脚本自定义结合的数据清洗方法,该方法包括以下步骤:
S01:编辑data frame处理脚本,用户在既定的脚本编译接口设计下自主编写dataframe处理脚本,实现更加灵活的可视化建模功能扩展。
S02:查询并选择dataframe算子,并将选中的算子拖拽至工作流编辑区;
S03:手动编辑建模工作流;
S04:保存已搭建好的建模工作流;
S05:启动建模工作流并查看工作流结果。
通过以上方法,用户即可根据需要自行编辑工作流,实现不同的功能需求,实现了sparkdataframe的多功能和灵活性,且该方法编辑方法简单,对用户技术要求较低。
如上所述即为本发明的实施例。前文所述为本发明的各个优选实施例,各个优选实施例中的优选实施方式如果不是明显自相矛盾或以某一优选实施方式为前提,各个优选实施方式都可以任意叠加组合使用,所述实施例以及实施例中的具体参数仅是为了清楚表述发明人的发明验证过程,并非用以限制本发明的专利保护范围,本发明的专利保护范围仍然以其权利要求书为准,凡是运用本发明的说明书及附图内容所作的等同结构变化,同理均应包含在本发明的保护范围内。

Claims (6)

1.一种基于hadoop和spark的可视化数据挖掘分析平台,其特征在于,该平台包括数据管理模块、工作流管理模块、算子管理模块及算子运行调度管理模块;其中,数据管理模块,对整个系统中的数据文件进行管理,通过http协议将数据从本地上传到系统的hdfs中,供平台中的算子使用;工作流管理模块,对平台中的工作流进行管理、增删改查,工作流是各个算子按执行顺序连接起来构成的数据挖掘分析流程;算子管理模块,对平台中封装的各类spark算子进行管理,平台对这些算子进行图形化封装,通过拖动算子对应的图形并通过连线连接各个算子,构建数据挖掘分析工作流;算子运行调度管理模块,对平台中的算子构建的工作流运行进行管理;
所述平台的数据清洗方法,包括以下步骤:
S0基于hadoop和spark框架,在平台中对spark中与数据处理相关的算子进行图形化封装;
S1数据上传:通过http协议将数据从本地上传到平台的hdfs中;
S2算子集成:通过spark dataframe的算子封装格式,在平台中集成添加各类
dataframe算子;
S3算子管理:在dataframe算子集成中,利用spark dataframe算子分类目录式管理方法,将不同dataframe算子按功能进行分类,平台按分类结果对算子进行可视化的管理及展示,并形成分类目录;
S4数据清洗流程构建:自由拖拽分类目录中的dataframe算子至工作流编辑区,在满足前后逻辑正确的情况下任意构建数据清洗流程;
S5导入功能:导入之前已建立并保存在本地的工作流,该工作流以xml的形式保存,系统通过解析xml文件在系统中还原并建立该工作流;
S6自定义数据清洗功能:在算子管理的分类目录中添加脚本编写算子,通过该算子提供的脚本编辑窗口进行spark脚本编写,并通过定义数据的输入和输出接口与其他算子间的前后数据交互;
S7保存已搭建好的建模工作流;
S8启动建模工作流,后台执行数据清洗;
S9查看工作流运行结果。
2.根据权利要求1所述的可视化数据挖掘分析平台,其特征在于,工作流管理模块提供工作流的导入和导出,导入和导出通过xml文件作为中间媒介,用于对平台中的工作流进行管理、增删改查。
3.根据权利要求1所述的可视化数据挖掘分析平台,其特征在于,算子管理模块中各类spark算子种类包括数据抽取、数据加载、数据转换、数据建模以及建模评估。
4.根据权利要求1所述的可视化数据挖掘分析平台,其特征在于,算子运行调度管理模块中,管理内容包括工作流启动和停止、工作流中各个算子顺序执行的调度。
5.根据权利要求1所述的可视化数据挖掘分析平台,其特征在于,所述算子集成方法包括spark
dataframe算子封装集成方法和平台集成方法。
6.根据权利要求1所述的可视化数据挖掘分析平台,其特征在于,所述构建数据清洗流程的方式为使用可视化的箭头将各算子连接起来。
CN201710788398.3A 2017-09-05 2017-09-05 一种基于hadoop和spark的可视化数据挖掘分析平台及其数据清洗方法 Active CN107526600B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710788398.3A CN107526600B (zh) 2017-09-05 2017-09-05 一种基于hadoop和spark的可视化数据挖掘分析平台及其数据清洗方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710788398.3A CN107526600B (zh) 2017-09-05 2017-09-05 一种基于hadoop和spark的可视化数据挖掘分析平台及其数据清洗方法

Publications (2)

Publication Number Publication Date
CN107526600A CN107526600A (zh) 2017-12-29
CN107526600B true CN107526600B (zh) 2020-11-10

Family

ID=60683382

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710788398.3A Active CN107526600B (zh) 2017-09-05 2017-09-05 一种基于hadoop和spark的可视化数据挖掘分析平台及其数据清洗方法

Country Status (1)

Country Link
CN (1) CN107526600B (zh)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108304557A (zh) * 2018-02-07 2018-07-20 霍尔果斯智融未来信息科技有限公司 一种多人协作数据挖掘方法
CN108628931B (zh) * 2018-03-15 2022-08-30 创新先进技术有限公司 一种数据驱动业务的方法、装置以及设备
CN110427398A (zh) * 2018-04-28 2019-11-08 北京资采信息技术有限公司 一种基于数据挖掘与分析的模型管理工具
CN108694448A (zh) * 2018-05-08 2018-10-23 成都卡莱博尔信息技术股份有限公司 Phm平台
CN109976729B (zh) * 2019-05-05 2021-10-22 东北大学 一种存算显全局可配置的数据分析软件架构设计方法
CN110175207A (zh) * 2019-05-30 2019-08-27 深圳供电局有限公司 一种基于Hadoop和Spark的可扩展性大数据分析平台
CN110209486A (zh) * 2019-06-06 2019-09-06 南威软件股份有限公司 基于界面的spark任务流程构建方法和计算机可读存储介质
CN111026739B (zh) * 2019-11-26 2023-08-29 智器云南京信息科技有限公司 批量数据清洗的方法及装置、计算机设备和存储介质
CN111104214B (zh) * 2019-12-26 2020-12-15 北京九章云极科技有限公司 一种工作流应用方法及装置
CN111367969B (zh) * 2020-03-19 2020-12-01 北京三维天地科技股份有限公司 一种数据挖掘方法和系统
CN111858569B (zh) * 2020-07-01 2024-09-20 长江岩土工程有限公司 基于流式计算的海量数据清洗的方法
CN112163017B (zh) * 2020-09-27 2024-02-13 广州汇智通信技术有限公司 一种知识挖掘系统及方法
CN112199075B (zh) * 2020-09-30 2021-09-21 黑龙江省网络空间研究中心 一种基于微服务智能信息处理方法及框架系统
CN112835971A (zh) * 2021-03-04 2021-05-25 重庆三峡学院 一种基于大数据的数据可视化加工处理系统
CN113610190B (zh) * 2021-08-24 2024-02-02 神州网云(北京)信息技术有限公司 基于大数据的异常网络行为挖掘系统
CN114385233B (zh) * 2022-03-24 2022-08-02 山东省计算中心(国家超级计算济南中心) 一种跨平台自适应数据处理工作流系统及方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104598631A (zh) * 2015-02-05 2015-05-06 北京航空航天大学 分布式数据处理平台
CN106599325A (zh) * 2017-01-18 2017-04-26 河海大学 一种基于R和HighCharts的数据挖掘可视化平台的构建方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104598631A (zh) * 2015-02-05 2015-05-06 北京航空航天大学 分布式数据处理平台
CN106599325A (zh) * 2017-01-18 2017-04-26 河海大学 一种基于R和HighCharts的数据挖掘可视化平台的构建方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Hadoop+Spark 大数据开发项目最佳实践;hely;《http://www.raincent.com/content-10-7527-1.html》;20161010;第1-6页 *
基于Hadoop的在线数据挖掘系统的设计与实现;袁野;《中国优秀硕士学位论文全文数据库》;20170215(第2期);第19页-41页、第56页-63页、第71-72页 *
大数据科学仿真理论、方法、平台及其技术;李军 等;《第15届中国系统仿真技术及其应用学术年会论文集》;20140831;第11-16、48-53页 *

Also Published As

Publication number Publication date
CN107526600A (zh) 2017-12-29

Similar Documents

Publication Publication Date Title
CN107526600B (zh) 一种基于hadoop和spark的可视化数据挖掘分析平台及其数据清洗方法
US20180329690A1 (en) Converting visual diagrams into code
CN106067080B (zh) 提供可配置工作流能力
CN109074537A (zh) 模板的懒惰生成
US10756959B1 (en) Integration of application performance monitoring with logs and infrastructure
US9904524B2 (en) Method and device for visually implementing software code
CN112988130A (zh) 一种基于大数据的可视化建模方法、装置、设备及介质
US9245256B2 (en) Assigning and managing reviews of a computing file
CN105389402A (zh) 一种面向大数据的etl方法和装置
WO2014153156A1 (en) System and method for converting paper forms to an electronic format
US9304746B2 (en) Creating a user model using component based approach
US8418074B2 (en) Shared user interface services framework
TW201933830A (zh) 流量切換方法、裝置、及電腦設備
CN110471754A (zh) 作业调度中的数据展示方法、装置、设备及存储介质
US20160124723A1 (en) Graphically building abstract syntax trees
US10496423B2 (en) Method for opening up data and functions of terminal application based on reconstruction technology
CN115495069B (zh) 基于模型驱动的煤炭工业软件流程实现方法、装置及设备
CN111061743B (zh) 数据加工方法、装置和电子设备
CN109816754A (zh) 流程图的创建方法、显示方法及系统和存储介质
CN103577417A (zh) 清理桌面的方法和装置
CN115310420A (zh) 一种仿真分析报告的生成方法、装置、设备以及存储介质
CN115392501A (zh) 数据采集方法、装置、电子设备及存储介质
CN114185874A (zh) 一种基于大数据的建模方法、装置、开发框架及设备
CN110930056A (zh) 一种基于思维导图的任务管理方法、终端设备及存储介质
CN114066110A (zh) 一种面向用户提供机器学习服务的系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant