CN112685380A - 大数据价值发现与应用创新平台系统 - Google Patents
大数据价值发现与应用创新平台系统 Download PDFInfo
- Publication number
- CN112685380A CN112685380A CN202011414569.4A CN202011414569A CN112685380A CN 112685380 A CN112685380 A CN 112685380A CN 202011414569 A CN202011414569 A CN 202011414569A CN 112685380 A CN112685380 A CN 112685380A
- Authority
- CN
- China
- Prior art keywords
- module
- user
- data
- platform
- big data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000000007 visual effect Effects 0.000 claims abstract description 21
- 230000006870 function Effects 0.000 claims abstract description 17
- 238000007726 management method Methods 0.000 claims abstract description 17
- 230000000694 effects Effects 0.000 claims abstract description 15
- 238000013523 data management Methods 0.000 claims abstract description 10
- 238000011156 evaluation Methods 0.000 claims abstract description 5
- 238000012549 training Methods 0.000 claims abstract description 5
- 238000007781 pre-processing Methods 0.000 claims abstract description 4
- 238000000034 method Methods 0.000 claims description 15
- 230000008569 process Effects 0.000 claims description 15
- 238000007418 data mining Methods 0.000 claims description 12
- 238000010586 diagram Methods 0.000 claims description 9
- 230000002085 persistent effect Effects 0.000 claims description 5
- 238000012545 processing Methods 0.000 claims description 5
- 238000012986 modification Methods 0.000 claims description 4
- 230000004048 modification Effects 0.000 claims description 4
- 238000003860 storage Methods 0.000 claims description 4
- 238000012217 deletion Methods 0.000 claims description 3
- 230000037430 deletion Effects 0.000 claims description 3
- 238000010801 machine learning Methods 0.000 claims description 3
- 239000011435 rock Substances 0.000 claims description 2
- 238000011161 development Methods 0.000 description 12
- 238000005065 mining Methods 0.000 description 9
- 238000007405 data analysis Methods 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 4
- 230000003993 interaction Effects 0.000 description 4
- 238000013461 design Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 239000010979 ruby Substances 0.000 description 3
- 229910001750 ruby Inorganic materials 0.000 description 3
- 238000009877 rendering Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000002688 persistence Effects 0.000 description 1
- 238000013439 planning Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
Images
Abstract
本发明提供一种大数据价值发现与应用创新平台系统,包括协作式业务建模模块、数据管理模块等;协作式业务建模模块通过将业务建模所需的数据读写、数据预处理、特征工程、模型训练、模型评估和模型应用环节;数据管理模块用于供用户通过本地文件系统、Oracle、MySQL数据库上传数据;批量任务调度模块用于供用户将多个工作流设置为顺序执行的批量作业列表,然后一键触发批量任务执行;用户管理模块用于供管理员对平台用户进行用户管理;可视化用户界面模块用于实现模块增减和模块顺序调整;活动和通知模块用于实现通知、标注及评论的功能;标签和搜索模块用于实现创建标签及搜索资源的功能。
Description
技术领域
本发明具体涉及大数据技术领域,具体涉及一种大数据价值发现与应用创新平台系统。
背景技术
近年来,大数据发展已经上升为国家战略,国务院颁布了《关于促进大数据发展行动纲要》,工信部印发了《国家大数据产业发展规划(2016-2020年)》。我国经济正在向形态更高级、分工更复杂、结构更合理的阶段演化,经济发展进入新常态,正从高速增长转向中高速增长。成都市新经济发展大会提出,成都将重点发展数字经济、智能经济、绿色经济、创意经济、流量经济、共享经济“六大新经济形态”,为建设全面体现新发展理念的国家中心城市打造新的动力引擎,构建具有成都特色的新经济产业体系。
随着大数据时代的到来,对于政府和企业而言,拥有海量、多样的数据资源,而经济增长方式是“生产要素的分配、投入、组合和使用的方式”,创新性地挖掘和应用隐藏在经济增长相关数据背后的事物发展规律,可以有效实现传统资源的投入、组合和使用方式的优化和预测。但就目前而言,大数据是一门新兴的技术,处于高速发展阶段,一方面利用传统技术难以进行充分的数据分析与挖掘,另一方面,大数据人才的严重匮乏,而且人力成本非常昂贵,使得政府和企业不能够及时充分地利用内外部数据,不能发现数据背后的价值和规律。如何提升海量数据的快速处理能力、数据的分析挖掘能力、大数据算法能力以通过数据助力新经济发展,是亟待解决的重要问题,也是新经济发展的关键所在。
发明内容
本发明的目的在于针对现有技术的不足,提供一种大数据价值发现与应用创新平台系统,该大数据价值发现与应用创新平台系统可以很好地解决上述问题。
为达到上述要求,本发明采取的技术方案是:提供一种大数据价值发现与应用创新平台系统,该大数据价值发现与应用创新平台系统包括协作式业务建模模块、数据管理模块、批量任务调度模块、用户管理模块、可视化用户界面模块、活动和通知模块、标签和搜索模块;协作式业务建模模块通过将业务建模所需的数据读写、数据预处理、特征工程、模型训练、模型评估和模型应用环节,统一封装为形式一致的可视化算子,以可视化算子的形式提供机器学习算法和数据读写、数据处理工具箱,用户在浏览器上,使用可视化组件和拖拉拽操作来拼装CRISP-DM工作流,即可完成海量数据探索、业务建模和模型部署的数据挖掘过程,从而发现数据价值;数据管理模块用于供用户通过本地文件系统、Oracle、MySQL数据库上传数据;批量任务调度模块用于供用户将多个工作流设置为顺序执行的批量作业列表,然后一键触发批量任务执行,或让任务在指定时间范围内自动按某一周期运行,任务执行完毕,用户在邮件和通知栏收到执行报告,执行报告包含每个工作流作业的完成状态和完成时间信息;用户管理模块用于供管理员对平台用户进行用户管理,所述用户管理包括License 管理、创建平台用户、修改管理员及平台用户资料、删除平台用户;可视化用户界面模块用于实现模块增减和模块顺序调整,通过拖拽和连线的方式构建业务建模流程;活动和通知模块用于实现通知、标注及评论的功能;标签和搜索模块用于实现创建标签及搜索资源的功能。
该大数据价值发现与应用创新平台系统具有的优点如下:
通过建设一个分布式、无需编码的可视化大数据分析与挖掘平台,以此为基础汇聚大数据解决方案构建智库,形成集大数据分析挖掘技术、大数据综合解决方案为一体的大数据生态圈。平台提供包括大数据服务基础平台集成、数据分析挖掘、模型部署和创新应用的完善解决方案,并为客户提供数据挖掘和业务建模的技术指导,力求以产品自助使用为主、各种培训方式为辅的方式来帮助客户降低大数据应用门槛,提升大数据价值发现的效率。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,在这些附图中使用相同的参考标号来表示相同或相似的部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1示意性地示出了根据本申请一个实施例的大数据价值发现与应用创新平台系统的逻辑架构示意图。
图2示意性地示出了根据本申请一个实施例的大数据价值发现与应用创新平台系统的技术架构示意图。
图3示意性地示出了根据本申请一个实施例的大数据价值发现与应用创新平台系统的前端设计架构示意图。
图4示意性地示出了根据本申请一个实施例的大数据价值发现与应用创新平台系统的后端设计架构示意图。
图5示意性地示出了根据本申请一个实施例的大数据价值发现与应用创新平台系统的结构示意图核心挖掘服务端设计结构。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,以下结合附图及具体实施例,对本申请作进一步地详细说明。
在以下描述中,对“一个实施例”、“实施例”、“一个示例”、“示例”等等的引用表明如此描述的实施例或示例可以包括特定特征、结构、特性、性质、元素或限度,但并非每个实施例或示例都必然包括特定特征、结构、特性、性质、元素或限度。另外,重复使用短语“根据本申请的一个实施例”虽然有可能是指代相同实施例,但并非必然指代相同的实施例。
为简单起见,以下描述中省略了本领域技术人员公知的某些技术特征。
根据本申请的一个实施例,提供一种大数据价值发现与应用创新平台系统,该平台主要由七个功能模块组成,包括协作式业务建模、数据管理、批量任务调度、用户管理、可视化用户界面、活动和通知、标签和搜索七个功能模块,七个功能模块实现的具体功能如下:
(1)协作式业务建模模块:通过将业务建模所需的数据读写、数据预处理、特征工程、模型训练、模型评估和模型应用环节,统一封装为形式一致的可视化算子,以可视化算子的形式提供机器学习算法和数据读写、数据处理工具箱,用户在浏览器上,使用可视化组件和拖拉拽操作来拼装CRISP-DM工作流,即可完成海量数据探索、业务建模和模型部署的数据挖掘过程,从而发现数据价值。
(2)数据管理模块:用户可通过本地文件系统、Oracle、MySQL数据库上传数据,工作流运行时得到的数据也可以保存起来,这些数据都通过HDFS文件或Hive表的形式持久化保存在平台的存储子系统中,平台向用户呈现HDFS和 Hive数据视图空间,在HDFS空间下可创建或删除文件夹。用户也可以批量删除 HDFS文件或Hive表。
(3)批量任务调度模块:通过任务调度功能,用户可将多个工作流设置为顺序执行的批量作业列表,然后一键触发批量任务执行,或让任务在指定时间范围内自动按某一周期运行。任务执行完毕,用户可在邮件和通知栏收到执行报告,执行报告包含每个工作流作业的完成状态(成功或失败)和完成时间。
(4)用户管理模块:通过管理员创建(企业私有云版)或自主注册(公有云版)的方式成为平台用户。企业私有云版拥有管理员,管理员具有维护平台的功能,包括License管理、创建平台用户、修改管理员及平台用户资料、删除平台用户。管理员还可以将平台活动日志下载到本地,监测或分析用户行为。
(5)可视化用户界面模块:平台提供导航式的主功能界面。而用户个人也可进行模块增减和模块顺序调整。通过可拖拽和连线的方式构建业务建模流程。在模型逻辑建立好以后,可以将建模逻辑以工作流的形式保存在平台持久化存储系统中,并可以随时手动或自动运行自己或协作伙伴的工作流以观察建模效果,平台提供了文本、表格、直方图、环图、折线图、ROC曲线图、2D/3D词云、树、森林等视图,以满足建模过程中不同阶段、不同输出类型数据的预览需求。
(6)活动和通知模块:与用户相关的几乎所有活动都会得到记录并呈现给用户自己和协作伙伴,协作伙伴可以将自己执行单个或批量建模工作流任务的完成状态通过通知栏或邮件自动通知给协作伙伴。协作伙伴之间可以对自己和别人的活动进行标注、评论。
(7)标签和搜索模块:用户可为平台内的各种实体资源如数据集、工作空间和工作流等创建标签,方便归类和定位。全局搜索功能则让用户可以一键搜索平台内的各种实体资源。
根据本申请的一个实施例,提供一种大数据价值发现与应用创新平台系统,该大数据价值发现与应用创新平台的技术路线具体如下:
1.平台逻辑架构
创新平台以分析和预测为核心,用户仅需通过简单的拖拉拽即可实现可视化的数据管理、建模和批量任务调度等多种功能的应用,内置了关联规则分析、深度学习等近百种数据挖掘算子,为用户提供数据探索、特征工程、模型建立、模型评估及模型发布等数据发现的完整流程应用。
平台包括Web GUI、Web Service、核心算法引擎服务Core、K8s和Hadoop。
其中Web GUI和Web Service主要负责实现用户空间管理、用户数据逻辑空间、用户权限和用户交互逻辑,核心算法引擎服务Core主要负责实现数据解析、算法管理和业务建模工作流的解析和调度,三者共同搭建数据挖掘平台产品系统,用户进行拖拉拽的操作即可便捷实现可视化的数据挖掘流程,提升数据价值发现效率。此外,提供了Notebook服务,通过编程模式提供特定算法需求情况下的高度定制开发功能,以适应不同的数据挖掘过程中的各种需求。Hadoop 为整个创新平台底层的大数据基础架构,用于存储和管理数据,以及核心的计算服务。
2.技术架构
大数据价值发现与应用创新平台数据挖掘平台分为三大模块,分别是平台前端、平台后端和核心挖掘服务端。平台前端处理用户交互、在浏览器中展示数据。平台后端和核心挖掘服务通过RPC的方式交互,核心挖掘服务端处理平台后端的请求,负责工作流的执行,并返回结果给平台后端。
3.平台前端
平台前端是基于Backbone框架的单页面应用。它的Model通过发送GET请求给后端获取所需内容。然后该内容通过模板渲染到前端。如果用户改变了Model,前端会通过发送PUT\POST请求给后端来保存数据。前端工作流程图基于Draw2D 框架开发,以满足用户拖拽算子组成工作流的需求。
平台前端以M(Models)V(View)P(Presenter)模式进行开发,整个页面由handlebars Template前端模板渲染生成,用户通过对URL路由的操作或者页面中某些DOM节点的操作使页面跳转并重新渲染新的页面(页面部分属于V)。页面渲染需要获取模板中对应的属性参数和节点的绑定事件,这时就需要P与V 和M进行交互,在P里存在着views,一些继承于views的对象和presenters, views可以为handlebars Template提供其需要的属性参数并为对应的DOM节点绑定事件,presenters是处理一些复杂的Models和collections使其能被views 调用。M部分包括Models和collections,它们会给P部分提供数据和需要处理的数据,使其能被V部分展示,M能与后台进行交互使数据能增删改查。当M 发生变化后V也会重新渲染,这个过程需要P去处理中间交互过程,因为M和V 不能直接交互。
4.平台后端
后端使用Ruby on Rails作为开发框架,在此基础上开发具体业务逻辑,前端通过RESTful风格的API和具体的路由表和它交互,它和计算后端的 MinerServer交互,持久化数据库使用PostgreSQL。
Rails是基于Ruby的Web应用框架,遵循MVC的软件开发模式,并强调约定由于配置,通过约定来减少配置,从而可以快速敏捷开发项目。
Rails中的模型和持久化数据库之间通过ORM框架交互,Rails中的 ActiveRecord即为ORM实现。Rails所遵循的Web接口是Rack,Rack是Ruby 上定义的一个简单的Web接口。
5.核心挖掘服务端
大数据价值发现与应用创新平台的核心挖掘服务端基于Netty对外提供RPC 服务,主要提供算子、工作流、模型访问服务。服务端还封装了一层Connector,实现对Hadoop相关组件的调用。RPC服务端在线的情况下,可通过RPC客户端 API获取各类服务对象(RPCService),进而调用各类Service提供的相关接口。 RPC服务不直接操作Hadoop相关组件,而RPC服务内部通过ConnectorService 来获取底层基础框架(Infrastructure)的数据或计算资源。
以上所述实施例仅表示本发明的几种实施方式,其描述较为具体和详细,但并不能理解为对本发明范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明保护范围。因此本发明的保护范围应该以所述权利要求为准。
Claims (5)
1.一种大数据价值发现与应用创新平台系统,其特征在于:包括协作式业务建模模块、数据管理模块、批量任务调度模块、用户管理模块、可视化用户界面模块、活动和通知模块、标签和搜索模块;
所述协作式业务建模模块通过将业务建模所需的数据读写、数据预处理、特征工程、模型训练、模型评估和模型应用环节,统一封装为形式一致的可视化算子,以可视化算子的形式提供机器学习算法和数据读写、数据处理工具箱,用户在浏览器上,使用可视化组件和拖拉拽操作来拼装CRISP-DM工作流,即可完成海量数据探索、业务建模和模型部署的数据挖掘过程,从而发现数据价值;
所述数据管理模块用于供用户通过本地文件系统、Oracle、MySQL数据库上传数据;
所述批量任务调度模块用于供用户将多个工作流设置为顺序执行的批量作业列表,然后一键触发批量任务执行,或让任务在指定时间范围内自动按某一周期运行,任务执行完毕,用户在邮件和通知栏收到执行报告,执行报告包含每个工作流作业的完成状态和完成时间信息;
所述用户管理模块用于供管理员对平台用户进行用户管理,所述用户管理包括License管理、创建平台用户、修改管理员及平台用户资料、删除平台用户;
所述可视化用户界面模块用于实现模块增减和模块顺序调整,通过拖拽和连线的方式构建业务建模流程;
所述活动和通知模块用于实现通知、标注及评论的功能;
所述标签和搜索模块用于实现创建标签及搜索资源的功能。
2.根据权利要求1所述的大数据价值发现与应用创新平台系统,其特征在于:所述数据管理模块用于对工作流运行时得到的数据进行保存,所述数据通过HDFS文件或Hive表的形式持久化保存在平台的存储子系统中,平台向用户呈现HDFS和Hive数据视图空间,在HDFS空间下可创建或删除文件夹。
3.根据权利要求1所述的大数据价值发现与应用创新平台系统,其特征在于:所述可视化用户界面模块还具有如下功能:在模型逻辑建立好以后,可以将建模逻辑以工作流的形式保存在平台持久化存储系统中,并随时手动或自动运行自己或协作伙伴的工作流以观察建模效果,平台提供了文本、表格、直方图、环图、折线图、ROC曲线图、2D/3D词云、树、森林视图,以满足建模过程中不同阶段、不同输出类型数据的预览需求。
4.根据权利要求1所述的大数据价值发现与应用创新平台系统,其特征在于:所述活动和通知模块具体功能如下:与用户相关的活动都会得到记录并呈现给用户自己和协作伙伴,协作伙伴将自己执行单个或批量建模工作流任务的完成状态通过通知栏或邮件自动通知给协作伙伴,并实现协作伙伴之间对自己和别人的活动进行标注、评论。
5.根据权利要求1所述的大数据价值发现与应用创新平台系统,其特征在于:所述标签和搜索模块具体实现功能如下:用户为平台内的各种实体资源如数据集、工作空间和工作流等创建标签,方便归类和定位,全局搜索功能则让用户一键搜索平台内的各种实体资源。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011414569.4A CN112685380A (zh) | 2020-12-03 | 2020-12-03 | 大数据价值发现与应用创新平台系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011414569.4A CN112685380A (zh) | 2020-12-03 | 2020-12-03 | 大数据价值发现与应用创新平台系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112685380A true CN112685380A (zh) | 2021-04-20 |
Family
ID=75446143
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011414569.4A Pending CN112685380A (zh) | 2020-12-03 | 2020-12-03 | 大数据价值发现与应用创新平台系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112685380A (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105139150A (zh) * | 2015-09-25 | 2015-12-09 | 国网山东省电力公司枣庄供电公司 | 一种交费大数据的用户电费风险评估系统 |
CN107103050A (zh) * | 2017-03-31 | 2017-08-29 | 海通安恒(大连)大数据科技有限公司 | 一种大数据建模平台及方法 |
CN108694448A (zh) * | 2018-05-08 | 2018-10-23 | 成都卡莱博尔信息技术股份有限公司 | Phm平台 |
CN111047190A (zh) * | 2019-12-12 | 2020-04-21 | 广西电网有限责任公司 | 一种基于交互式学习技术的多元化业务建模框架系统 |
CN111949680A (zh) * | 2019-05-17 | 2020-11-17 | 杭州海康威视数字技术股份有限公司 | 数据处理方法、装置、计算机设备及存储介质 |
-
2020
- 2020-12-03 CN CN202011414569.4A patent/CN112685380A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105139150A (zh) * | 2015-09-25 | 2015-12-09 | 国网山东省电力公司枣庄供电公司 | 一种交费大数据的用户电费风险评估系统 |
CN107103050A (zh) * | 2017-03-31 | 2017-08-29 | 海通安恒(大连)大数据科技有限公司 | 一种大数据建模平台及方法 |
CN108694448A (zh) * | 2018-05-08 | 2018-10-23 | 成都卡莱博尔信息技术股份有限公司 | Phm平台 |
CN111949680A (zh) * | 2019-05-17 | 2020-11-17 | 杭州海康威视数字技术股份有限公司 | 数据处理方法、装置、计算机设备及存储介质 |
CN111047190A (zh) * | 2019-12-12 | 2020-04-21 | 广西电网有限责任公司 | 一种基于交互式学习技术的多元化业务建模框架系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109101652B (zh) | 一种标签创建和管理系统 | |
CN106296378B (zh) | 基于xbrl的智能财务云平台系统、构建方法及业务实现方法 | |
US8412549B2 (en) | Analyzing business data for planning applications | |
CN105723335A (zh) | 数据流探索 | |
CN107368967A (zh) | 基于互联网的工程安全质量巡检智能管理方法 | |
CN103430144A (zh) | 数据源分析 | |
CN103226743A (zh) | 基于trl的航空装备技术成熟度评估信息处理方法 | |
CN114186984B (zh) | 一种建筑设计企业二三维一体化协同设计系统 | |
US7685196B2 (en) | Methods and systems for task-based search model | |
CN105956087A (zh) | 数据及代码版本管理系统及方法 | |
US20140229223A1 (en) | Integrated erp based planning | |
CN108536718A (zh) | 一种基于输入输出语义化实现的管理信息化的方法和系统 | |
US20130007694A1 (en) | Project story board to board communication tools | |
CN106056323A (zh) | 一种基于pdm的工作导航面板系统 | |
CN102024207A (zh) | 一种与办公软件无缝结合的知识管理系统 | |
van Dongen et al. | EMiT: A process mining tool | |
Wang et al. | A MULTIDIMENSIONAL INFORMATION MODEL FOR MANAGING CONSTRUCTION INFORMATION. | |
Park et al. | Towards reliable business process simulation: a framework to integrate ERP systems | |
Pezzotta et al. | Definition of a PSS engineering environment: from the theoretical methodology to the platform implementation | |
CN112685380A (zh) | 大数据价值发现与应用创新平台系统 | |
US20130006687A1 (en) | Creating a sub-story for a project story board | |
CN108228549A (zh) | 一种数据采集方法及系统、服务器 | |
Chatziantoniou et al. | Just-In-Time Modeling with DataMingler. | |
Chen et al. | Integrate ERP system into business process management system | |
Zhang | Design and Implementation of Intelligent Manufacturing Workshop Management System Based on BOM |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210420 |
|
RJ01 | Rejection of invention patent application after publication |