CN112632146B - 多人协作的可视化数据挖掘系统 - Google Patents

多人协作的可视化数据挖掘系统 Download PDF

Info

Publication number
CN112632146B
CN112632146B CN202011407661.8A CN202011407661A CN112632146B CN 112632146 B CN112632146 B CN 112632146B CN 202011407661 A CN202011407661 A CN 202011407661A CN 112632146 B CN112632146 B CN 112632146B
Authority
CN
China
Prior art keywords
data
end module
module
working space
control module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011407661.8A
Other languages
English (en)
Other versions
CN112632146A (zh
Inventor
张青松
周俊临
葛澄
苟庭勇
陈龙
温智翔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Big Data Industry Technology Research Institute Co ltd
Chengdu Shuzhilian Technology Co Ltd
Original Assignee
Chengdu Big Data Industry Technology Research Institute Co ltd
Chengdu Shuzhilian Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Big Data Industry Technology Research Institute Co ltd, Chengdu Shuzhilian Technology Co Ltd filed Critical Chengdu Big Data Industry Technology Research Institute Co ltd
Priority to CN202011407661.8A priority Critical patent/CN112632146B/zh
Publication of CN112632146A publication Critical patent/CN112632146A/zh
Application granted granted Critical
Publication of CN112632146B publication Critical patent/CN112632146B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/26Visual data mining; Browsing structured data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Fuzzy Systems (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Stored Programmes (AREA)

Abstract

本发明提供一种多人协作的可视化数据挖掘系统,包括前端模块和后端模块;还包括用户权限管理模块、工作空间控制模块和共享机制控制模块,用于使得多个用户可以通过工作空间进行协作,用户能将数据一键分享给工作空间内的其他协作伙伴,并能够进行共享协作伙伴的数据建模逻辑,同时能够将数据和预测模型持久化到HDFS或将数据和建模逻辑下载到本地文件系统。该系统内置了近百种数据挖掘算法,涵盖回归、分类、关联规则分析、深度学习等经典类别,从而为用户提供数据探索、特征工程、模型建立、模型评估及模型发布的完整知识发现和应用流程;让用户无需编程、采用拖拉拽的操作方式,便可以在轻量级的浏览器图形界面里透视数据所蕴含的商业价值。

Description

多人协作的可视化数据挖掘系统
技术领域
本发明具体涉及一种多人协作的可视化数据挖掘系统。
背景技术
随着行业信息化建设不断深入,金融、医疗、政府等行业积累了大量内部 数据;企业内部数据量从TB级上升到PB级,构成大数据应用基础,同时物联 网、可穿戴设备、车联网、政府公开数据平台等渠道得到拓展开放,数据量急 剧增加。目前企业大数据主要来源于企业内部业务平台数据、企业客户相关数 据、内部管理平台数据、互联网上公开数据、外部购买数据、政府免费开放数 据。对传统企业而言,面对越来越常见的海量多源异构数据时,将这些数据进 行存储、处理并实现挖掘及分析,无疑是一个艰巨且亟待解决的问题。大部分 传统数据挖掘工具,只能针对少量单一类型的关系型数据进行存储和分析,并 且操作过程繁琐,无法胜任海量半结构化、非结构化数据的分析及挖掘任务。
在这样的背景下,大数据行业以企业为对象呈现以下特点:1、互联网企业: 基于海量业务数据及先进技术,为用户提供基于云平台的工具类产品。2、传统 行业企业:基于丰富的行业经验及成熟的软硬件基础服务,为用户提供工具类 产品和解决方案。3、大数据创新企业:基于开源大数据基础技术,为用户提供 行业定制化解决方案。
开源技术快速增加和高速迭代的特性,让一般企业难以跟进,大数据技术 和模式创新将继续由互联网公司主导。同时因国内大数据起步较晚,目前仍处 于概念落地阶段,无论互联网企业、传统行业企业还是大数据创新企业,在落 地应用过程中仍存在产品安装配置复杂、算法难以理解和应用、模型部署困难 等诸多情况,导致产品学习成本高、业务挖掘效率低等问题。
发明内容
本发明的目的在于针对现有技术的不足,提供一种多人协作的可视化数据 挖掘系统,该多人协作的可视化数据挖掘系统可以很好地解决上述问题。
为达到上述要求,本发明采取的技术方案是:提供一种多人协作的可视化 数据挖掘系统,该多人协作的可视化数据挖掘包括前端模块和后端模块;前端 模块用于实现人机交互功能;后端模块用于实现数据管理、算法管理,并提供 异构并行计算的算法流程调度引擎;前端模块通过RESTful风格的API与后端 模块交互。还包括用户权限管理模块、工作空间控制模块和共享机制控制模块, 用于使得多个用户可以通过工作空间进行协作,用户能将数据一键分享给工作 空间内的其他协作伙伴,并能够进行共享协作伙伴的数据建模逻辑,同时能够 将数据和预测模型持久化到HDFS或将数据和建模逻辑下载到本地文件系统。
该多人协作的可视化数据挖掘系统具有的优点如下:
内置了近百种数据挖掘算法,涵盖回归、聚类、分类、关联规则分析、深 度学习等经典类别,从而为用户提供数据探索、特征工程、模型建立、模型评 估及模型发布等完整知识发现和应用流程;界面化的数据源管理、可视化建模 和批量任务调度功能,让用户无需编程、采用拖拉拽的操作方式,便可以在轻 量级的浏览器图形界面里透视数据所蕴含的商业价值。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,对本申请作进一步地详细 说明。
在以下描述中,对“一个实施例”、“实施例”、“一个示例”、“示例”等等 的引用表明如此描述的实施例或示例可以包括特定特征、结构、特性、性质、 元素或限度,但并非每个实施例或示例都必然包括特定特征、结构、特性、性 质、元素或限度。另外,重复使用短语“根据本申请的一个实施例”虽然有可 能是指代相同实施例,但并非必然指代相同的实施例。
为简单起见,以下描述中省略了本领域技术人员公知的某些技术特征。
根据本申请的一个实施例,提供一种多人协作的可视化数据挖掘系统,该 系统包含两大模块,分别是后端模块和前端模块。前端提供人机交互界面。WEB 前端通过RESTful风格的API与后端交互,后端负责数据管理、算法管理,并 提供异构并行计算的算法流程调度引擎;现对两大模块进行具体的说明:
前端模块:
前端是基于React框架的组件化单页应用。它遵照RESTful标准,异步向后 端获取结构化数据,通过高性能渲染引擎生成可动态交互的视图界面。核心工 作流编辑器是基于React+Redux+D3开发的高性能强交互性应用,可以满足用户 拖拽算子、配置参数、可视化算子结果的需求。用户通过页面交互改变URL, React-Router检测URL的变化,自上而下渲染一棵虚拟DOM树呈现给用户,期 间利用React高效的diff算法以提升渲染性能。树中每个节点为一个组件,每个 组件读取父节点传入参数(Props)、维护自身状态(State)并维护一个关联样 式表(Styles)。组件间低耦合且可自由组合以满足不同的业务需要。WEB前端 的主要工作就集中在业务无关的高可复用性组件的开发和业务相关的复合组件 的实现上。前端组件一般会使用RESTful API向后端请求数据并更新视图,用户 和组件间的交互会改变组件状态,组件根据不同的状态呈现不同的视图。
后端模块:
系统的web service子模块使用Spring Boot搭建开发环境并结合Spring MVC、Spring Data、Spring Security、Hibernate、Flyway等开发框架,在此基础 上开发具体业务逻辑,前端通过RESTful风格的API和具体的路由表和后端交 互,后端和引擎之间通过MQ交互,持久化数据库使用MySQL。Spring Boot 是基于Java的应用脚手架,其设计目的是用来简化新Spring应用的初始搭建以 及开发过程。结合Spring Data、Spring MVC等框架可以快速构建一个具有较 好结构的项目。项目采用Spring Data作为数据操作层的框架,Hibernate作为 ORM实现,结合Flyway作为DB Migration工具。极大的降低了开发难度和数据挖掘的门槛,简化和规范化了开发流程。
系统的引擎子模块分离了工作流表现与执行,拥有统一的工作流与算子定 义,在执行上,通过编译将工作流转化成互相依赖的具体引擎的任务,如Spark 任务,深度学习任务,单机python任务等,调度交给引擎去执行。因此,该系 统在新增新的引擎的时候,会非常简单方便。
该系统引入的容器集群技术,既是分布式深度学习KubeFlow的基础依赖, 同时作为模型服务、NoteBook等功能的运行环境,可以非常方便地管控服务资 源,实现服务高可用。
根据本申请的一个实施例,该系统提供用户管理、数据管理和可视化、建 模可视化、多用户协作几大功能模块,让用户通过浏览器,无需编程,采用拖 拽算子的可视化操作方式,便可以在轻量级的浏览器图形界面里透视数据所蕴 含的商业价值。帮助企业客户提升数据价值发现的效率,进而达到数据变现的 目的,实现数据驱动的业务创新。该系统还包括用户权限管理模块、工作空间 控制模块和共享机制控制模块,用于使得多个用户可以通过工作空间进行协作, 用户能将数据一键分享给工作空间内的其他协作伙伴,并能够进行共享协作伙 伴的数据建模逻辑,同时能够将数据和预测模型持久化到HDFS或将数据和建模 逻辑下载到本地文件系统。
根据本申请的一个实施例,该系统支持从多种数据源导入数据,包括:分 布式文件系统(HDFS)、分布式数据仓库(Hive)、关系型数据库(RDBMS)、 本地文件系统(LocalFS)。在数据预处理和特征工程的环节生成的新数据还可以 持久化到该系统的存储子系统中,便于继续分析或复用。
根据本申请的一个实施例,该系统将数据或模型读入(Import)、预处理或转 换(Transfer)、写出(Export)操作、模型性能评估(Performance)、模型应用操作 (Predict)、模型可视化统一封装为算子,以保持工作流构建过程的简便和一致 性。平台以算子形式支持各类数据挖掘分析任务,包括特征选择(Attribute Selection Model)、分类(Classification Model)、聚类(ClusterModel)、关联 分析(Associate Model)、回归分析(RegressionModel)等。
根据本申请的一个实施例,软件提供的工作流,直观、有序地表达上述数 据挖掘过程中的各个环节。通过构建一个包含这些环节的数据分析挖掘工作流, 用户以拖拽、连线、参数配置的可视化方式完成数据探索和业务模型的构建。 工作流一旦构建完毕,用户可保存或运行工作流,在运行工作流的过程中查看 每个环节的运行进度,或预览运行成功后的结果。
根据本申请的一个实施例,多个用户可以进行协作,用户能将数据一键分 享给工作空间内的其他协作伙伴,也能轻松共享协作伙伴精心积累的数据建模 逻辑(工作流)。该系统提供的工作空间是一个组合、分析和挖掘数据的地方, 它兼顾数据挖掘项目的私密性和协作性。创建一个私有工作空间后,你可以向 该空间添加合作伙伴,让多个用户可在同一个工作空间下进行协作、共享和互 动。多个用户可在同一工作空间下共享数据和数据挖掘的成果,也可以共享数 据探索和业务建模过程。
根据本申请的一个实施例,该系统的任务管理和调度功能,使得用户在构 建好多个工作流作业后,只需配置作业列表及作业执行顺序,并设置起止时间 和调度周期,就能轻松实现不同周期粒度的批量自动任务调度。批量任务一旦 执行完成,该系统将自动根据用户设定,将任务执行状态通过邮件发送给同一 工作空间内用户指定的合作伙伴,使得用户无需值守平台,就能让作业自动开 始、完成,并在任务完成时及时了解作业完成报告。
根据本申请的一个实施例,该系统支持私有云部署,私有云模式下,客户 不必将数据转移至第三方分析机构,内建的数据访问控制机制加固了业务和数 据的私密性。每位用户在软件平台都有一份私有数据空间,用户私有数据区域 的数据只对自己可见,用户也可以随时取消共享给协作伙伴的数据,而用户持 久化到平台上的工作流或模型只对自己和协作伙伴可见。该系统平台支持接入 启用Kerberos安全认证的集群,数据和计算资源都遵循集群多租户管理策略。
以上所述实施例仅表示本发明的几种实施方式,其描述较为具体和详细, 但并不能理解为对本发明范围的限制。应当指出的是,对于本领域的普通技术 人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些 都属于本发明保护范围。因此本发明的保护范围应该以所述权利要求为准。

Claims (3)

1.一种多人协作的可视化数据挖掘系统,其特征在于:包括前端模块和后端模块;
所述前端模块用于实现人机交互功能;
所述后端模块用于实现数据管理、算法管理,并提供异构并行计算的算法流程调度引擎;
所述前端模块通过RESTful风格的API与后端模块交互;
还包括用户权限管理模块、工作空间控制模块和共享机制控制模块,用于使得多个用户可以通过工作空间进行协作,用户能将数据一键分享给工作空间内的其他协作伙伴,并能够进行共享协作伙伴的数据建模逻辑,同时能够将数据和预测模型持久化到HDFS或将数据和建模逻辑下载到本地文件系统;
前端模块为基于React框架的组件化单页应用,同时遵照RESTful标准,异步向后端获取结构化数据,通过高性能渲染引擎生成可动态交互的视图界面,其核心工作流编辑器是基于React+Redux+D3开发的高性能强交互性应用,可以满足用户拖拽算子、配置参数、可视化算子结果的需求;
后端模块包括web service子模块,所述web service子模块使用Spring Boot搭建开发环境结合Spring MVC、Spring Data、Spring Security、Hibernate、Flyway作为开发框架,在此基础上开发具体业务逻辑,所述前端模块通过RESTful风格的API和具体的路由表和所述后端模块交互,所述后端模块和引擎之间通过MQ交互,持久化数据库使用MySQL。
2.根据权利要求1所述的多人协作的可视化数据挖掘系统,其特征在于:所述后端模块包括引擎子模块,所述引擎子模块用于分离工作流表现与执行,拥有统一的工作流与算子定义,在执行上,通过编译将工作流转化成互相依赖的具体引擎的任务。
3.根据权利要求1所述的多人协作的可视化数据挖掘系统,其特征在于:该系统引入的容器集群技术,既是分布式深度学习KubeFlow的基础依赖,同时作为模型服务、NoteBook等功能的运行环境。
CN202011407661.8A 2020-12-03 2020-12-03 多人协作的可视化数据挖掘系统 Active CN112632146B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011407661.8A CN112632146B (zh) 2020-12-03 2020-12-03 多人协作的可视化数据挖掘系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011407661.8A CN112632146B (zh) 2020-12-03 2020-12-03 多人协作的可视化数据挖掘系统

Publications (2)

Publication Number Publication Date
CN112632146A CN112632146A (zh) 2021-04-09
CN112632146B true CN112632146B (zh) 2023-04-07

Family

ID=75308181

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011407661.8A Active CN112632146B (zh) 2020-12-03 2020-12-03 多人协作的可视化数据挖掘系统

Country Status (1)

Country Link
CN (1) CN112632146B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1975720A (zh) * 2006-12-27 2007-06-06 章毅 一种基于Web的数据挖掘系统及其控制方法
CN103853821A (zh) * 2014-02-21 2014-06-11 河海大学 一种面向多用户协作的数据挖掘平台的构建方法
CN106649773A (zh) * 2016-12-27 2017-05-10 北京大数有容科技有限公司 一种大数据协同分析工具平台
CN107704608A (zh) * 2017-10-17 2018-02-16 北京览群智数据科技有限责任公司 一种olap多维分析和数据挖掘系统
CN109376185A (zh) * 2018-10-25 2019-02-22 广州市金禧信息技术服务有限公司 大数据环境下的数据挖掘系统及其应用
CN109558395A (zh) * 2018-10-17 2019-04-02 中国光大银行股份有限公司 数据处理系统及数据挖掘方法
CN111125052B (zh) * 2019-10-25 2020-09-15 北京华如科技股份有限公司 基于动态元数据的大数据智能建模系统及方法
CN112000327A (zh) * 2020-08-24 2020-11-27 浪潮云信息技术股份公司 一种可视化拖拽式的复合算子实现方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140297341A1 (en) * 2013-03-28 2014-10-02 Sampara Sundara Srikanth System and method for forensic analysis and investigation of digital data in digital media device
US9767197B1 (en) * 2014-08-20 2017-09-19 Vmware, Inc. Datacenter operations using search and analytics
CN110909039A (zh) * 2019-10-25 2020-03-24 北京华如科技股份有限公司 一种基于拖拽式流程的大数据挖掘工具及方法
CN110942155A (zh) * 2019-11-29 2020-03-31 广西电网有限责任公司 一种机器学习引擎的研究方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1975720A (zh) * 2006-12-27 2007-06-06 章毅 一种基于Web的数据挖掘系统及其控制方法
CN103853821A (zh) * 2014-02-21 2014-06-11 河海大学 一种面向多用户协作的数据挖掘平台的构建方法
CN106649773A (zh) * 2016-12-27 2017-05-10 北京大数有容科技有限公司 一种大数据协同分析工具平台
CN107704608A (zh) * 2017-10-17 2018-02-16 北京览群智数据科技有限责任公司 一种olap多维分析和数据挖掘系统
CN109558395A (zh) * 2018-10-17 2019-04-02 中国光大银行股份有限公司 数据处理系统及数据挖掘方法
CN109376185A (zh) * 2018-10-25 2019-02-22 广州市金禧信息技术服务有限公司 大数据环境下的数据挖掘系统及其应用
CN111125052B (zh) * 2019-10-25 2020-09-15 北京华如科技股份有限公司 基于动态元数据的大数据智能建模系统及方法
CN112000327A (zh) * 2020-08-24 2020-11-27 浪潮云信息技术股份公司 一种可视化拖拽式的复合算子实现方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
面向流数据的实时处理及服务化系统;狄程等;《重庆大学学报》;第75-83页 *

Also Published As

Publication number Publication date
CN112632146A (zh) 2021-04-09

Similar Documents

Publication Publication Date Title
Sakr et al. The future is big graphs: a community view on graph processing systems
CN110989983A (zh) 一种零编码的应用软件快速构建系统
US8645905B2 (en) Development artifact searching in an integrated development environment
Ogasawara et al. Chiron: a parallel engine for algebraic scientific workflows
CN107423053B (zh) 一种遥感图像处理的web化模型封装与分布式处理方法
Zhao et al. Opportunities and challenges in running scientific workflows on the cloud
US8863075B2 (en) Automated support for distributed platform development
US8863131B2 (en) Transaction load reduction for process completion
CN103430144A (zh) 数据源分析
CN105719126B (zh) 一种基于生命周期模型的互联网大数据任务调度的系统及方法
US20140101635A1 (en) Automated generation of two-tier mobile applications
CN102375731A (zh) 一种免编码集成应用软件平台系统
CN102508639A (zh) 一种基于卫星遥感数据特征的分布式并行处理方法
CN114139728A (zh) 可视化全流程机器学习平台、控制方法、客户端及应用
CN112148810A (zh) 一种支持自定义标签的用户画像分析系统
CN112148926A (zh) 一种图数据流的处理方法、处理装置和存储介质
CN112579287A (zh) 一种基于读写分离及自动伸缩的云编排系统及方法
CN112632146B (zh) 多人协作的可视化数据挖掘系统
Hajji et al. Optimizations of Distributed Computing Processes on Apache Spark Platform.
Melab et al. Parallel cooperative meta-heuristics on the computational grid.: A case study: the bi-objective flow-shop problem
Etedali et al. Automated constraint-based multi-tenant saas configuration support using XML filtering techniques
CN106940724B (zh) 一种面向大数据的多范型融合分析处理方法
Huang et al. Business process consolidation based on E-RPSTs
Li Distributed architecture design of big data platform
Gomes et al. On modeling and satisfaction of non-functional requirements using cloud computing

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant