CN109558395A - 数据处理系统及数据挖掘方法 - Google Patents

数据处理系统及数据挖掘方法 Download PDF

Info

Publication number
CN109558395A
CN109558395A CN201811210150.XA CN201811210150A CN109558395A CN 109558395 A CN109558395 A CN 109558395A CN 201811210150 A CN201811210150 A CN 201811210150A CN 109558395 A CN109558395 A CN 109558395A
Authority
CN
China
Prior art keywords
data
model
unit
mining
data mining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811210150.XA
Other languages
English (en)
Inventor
田江
邵理煜
彭强
朱良姝
王瑜
刘淼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Everbright Bank Co Ltd
Original Assignee
China Everbright Bank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Everbright Bank Co Ltd filed Critical China Everbright Bank Co Ltd
Priority to CN201811210150.XA priority Critical patent/CN109558395A/zh
Publication of CN109558395A publication Critical patent/CN109558395A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请公开了一种数据处理系统及数据挖掘方法。其中,该系统包括:数据管理模块,用于接收待处理的数据,并对数据进行数据清洗及展示;数据处理模型创建模块,用于依据待处理的数据的类型确定机器学习模型,并对机器学习模型进行训练,得到数据挖掘模型;调度管理模块,用于将待处理的数据输入至数据挖掘模型进行处理。本申请解决了现阶段人工智能大数据处理平台结构过于复杂,使用过程中操作繁琐,并且针对金融领域的数据处理能力有限的技术问题。

Description

数据处理系统及数据挖掘方法
技术领域
本申请涉及数据处理领域,具体而言,涉及一种数据处理系统及数据挖掘方法。
背景技术
近年来,人工智能技术广泛发展,但在国内,人工智能技术在金融业的应用范围有限,仅仅局限在智能投顾上。而以人工智能为基础的应用技术,比如视频图形分析技术、自然语言处理技术和虚拟机器人等在金融行业具有广泛的应用前景,比如在客户交互、信用评分、贷款审批、反欺诈、账户管理和合规管理等领域。
现有的人工智能大数据处理平台结构过于复杂,使用过程中操作繁琐,并且维护成本较高,并且针对金融领域的数据处理能力有限。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本申请实施例提供了一种数据处理系统及数据挖掘方法,以至少解决现阶段人工智能大数据处理平台结构过于复杂,使用过程中操作繁琐,并且针对金融领域的数据处理能力有限的技术问题。
根据本申请实施例的一个方面,提供了一种数据处理系统,包括:数据管理模块,用于接收待处理的数据,并对数据进行数据清洗及展示;数据处理模型创建模块,用于依据待处理的数据的类型确定机器学习模型,并对机器学习模型进行训练,得到数据挖掘模型;调度管理模块,用于将待处理的数据输入至数据挖掘模型进行处理。
可选地,数据管理模块,包括:数据加载单元,用于实现不同数据源之间数据导入/导出;数据处理单元,用于实现数据清洗及转换;数据探查展示单元,用于实现数据质量探查及结果展示。
可选地,数据处理模型创建模块,包括:模型定义单元,用于根据业务需求确定所需的数据挖掘模型;数据准备单元,用于根据数据挖掘模型的业务需求准备适用于数据挖掘模型的数据;模型创建单元,用于训练数据挖掘模型;模型评估单元,用于对数据挖掘模型进行动态评估;模型发布单元,用于将数据挖掘模型供给相关系统使用;模型优化单元,用于对数据挖掘模型进行持续优化。
可选地,调度管理模块,包括:配置单元,用于实现数据挖掘作业的模板化配置;运行单元,用于实现数据挖掘作业的自动保存管理;监控单元,用于实现数据挖掘作业的自动监控。
可选地,数据处理系统中集成有至少一种数据挖掘算法。
可选地,上述系统包括:人机交互界面,该人机交互界面中设置有可拖拽控件,每个可拖拽控件对应一种数据挖掘算法,可拖拽控件,用于接收用户的拖拽指令,并触发拖拽指令对应的数据挖掘算法。
根据本申请实施例的另一方面,还提供了另一种数据处理系统,包括:挖掘工具引擎层:用于将当前流行的算法挖掘模型打包形成供调用的工具包;挖掘平台应用管理层:用于对用户进行管理;对平台的运行状态进行管理;对平台运行的数据挖掘分析作业进行调度管理;对平台内部的数据进行查询检索管理;对数据挖掘模型进行统一管理;数据就绪层:用于提供系统的配置数据,并提供统一的元数据管理。
根据本申请实施例的再一方面,还提供了一种数据挖掘方法,包括:在人机交互界面中接收用户的拖拽指令;在拖拽指令的触发下,将可拖拽控件移动至指定功能模块;触发将指定功能模块采用可拖拽控件对应的数据挖掘算法进行数据挖掘。
根据本申请实施例的再一方面,还提供了一种存储介质,存储介质包括存储的程序,其中,程序运行时控制存储介质所在的设备执行以上的数据挖掘方法。
根据本申请实施例的再一方面,还提供了一种处理器,处理器用于运行程序,其中,程序运行时执行以上的数据挖掘算法。
在本申请实施例中,以人工智能为基础的应用技术构建数据处理系统,该数据处理系统包括:挖掘工具引擎层:用于将当前流行的算法挖掘模型打包形成供调用的工具包;挖掘平台应用管理层:用于对用户进行管理;对平台的运行状态进行管理;对平台运行的数据挖掘分析作业进行调度管理;对平台内部的数据进行查询检索管理;对数据挖掘模型进行统一管理;数据就绪层:用于提供系统的配置数据,并提供统一的元数据管理,从而实现了提高了数据处理系统针对金融领域业务的数据处理能力,并且简化了数据挖掘模型的建模过程,提高了工作人员的工作效率的技术效果,进而解决了现阶段人工智能大数据处理平台结构过于复杂,使用过程中操作繁琐,并且针对金融领域的数据处理能力有限的技术问题。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例的一种数据处理系统的结构图;
图2是根据本申请实施例的一种数据管理模块的结构图;
图3是根据本申请实施例的一种数据处理模型创建模块的结构图;
图4是根据本申请实施例的一种调度管理模块的结构图;
图5是根据本申请实施例的另一种数据处理系统的结构图;
图6是根据本申请实施例的一种数据挖掘方法的流程图;
图7是根据本申请实施例的另一种进行数据挖掘的流程图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
根据本申请实施例,提供了一种数据处理系统的实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1是根据本申请实施例的一种数据处理系统的结构图,如图1所示,该结构包括:数据管理模块10,数据处理模型创建模块12和调度管理模块14,其中,
数据管理模块10,用于接收待处理的数据,并对数据进行数据清洗及展示。
在本申请的一些可选的实施例中,数据管理模块10用于实现数据处理平台的数据管理,包括数据加载、数据处理、数据展示和数据探查。
图2是根据本申请实施例的一种数据管理模块的结构图,如图2所示,数据管理模块10包括:
数据加载单元100,用于实现不同数据源之间数据导入/导出。
数据加载单元100提供统一的数据导入/导出工具。通过此工具可实现不同数据源之间数据导入/导出,支持HDFS(Hadoop分布式文件系统)、FTP(File Transfer Protocol,简称FTP,文件传输协议)、本地磁盘以及各类db数据库作为数据源,进行导入导出;同时支持结构化数据、半结构化数据和非结构化数据的导入导出。
数据处理系统的数据存储和加载功能模块基于Hadoop/Spark集群,通过分布式文件系统HDFS的数据接口,提供数据整合和数据质量管理等技术,支持海量数据的快速存储和加载,数据加载单元100包括以下功能:
海量数据的快速存储:基于分布式文件系统HDFS的集群分布式数据存储和列表显示,支持Hadoop/Spark的访问接口。
海量数据的数据质量加速器:交互式数据质量管理操作,包括数据创建、数据拆分和数据整合。
海量数据的分布式加载、数据上传和导入。
数据处理单元102,用于实现数据清洗及转换。
数据处理单元102基于Hadoop大数据及Hive等组建,实现数据清洗转换处理。Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单sql查询功能。数据处理系统通过大数据特有的数据处理和统计分析技术,以Hive大数据架构为核心,对加载上来的数据进行清洗、转化后形成数据预处理的数据仓库体系。数据处理单元102主要有两个功能:数据清洗功能包括数据去重和无用数据过滤;数据转换包括数据格式统一和数据表结构整理。
数据探查展示单元104,用于实现数据质量探查及结果展示。
数据探查展示单元104能够对原始数据的数据结构、数据质量以及属性提供精确的描述。
根据本申请的一个可选的实施例,数据处理系统集合了众多常用的数据处理和统计分析技术,通过交互式和可视化的工具,实现数据处理、变量分析和数据可视化等,支持对数据快速分析探查和整体把握。数据探查展示单元104主要有数据解析和数据探查两个功能,其中,数据解析主要是确定数据范围和无用数据过滤;数据探查主要包括数据存储统一和数据表结构整理。
数据处理模型创建模块12,用于依据待处理的数据的类型确定机器学习模型,并对机器学习模型进行训练,得到数据挖掘模型。
图3是根据本申请实施例的一种数据处理模型创建模块的结构图,如图3所示,数据处理模型创建模块12包括:
模型定义单元120,用于根据业务需求确定所需的数据挖掘模型。
模型定义单元120用于理解数据挖掘模型的建模目标和从业务的角度理解需求,同时转化为数据挖掘问题的定义,完成目标的初步计划,确定所需模型以及模型的应用类型。根据实际业务需求明确模型所支持的业务场景,根据业务场景需求,定义所需的数据范围及数据量,以支持模型构建。
数据准备单元122,用于根据数据挖掘模型的业务需求准备适用于数据挖掘模型的数据。
数据准备单元122用于实现根据模型的业务需求,抽取数据特征,在全量数据中抽取适用于特定模型的数据维度,支持对选定数据进行预处理,进行数据转换、清洗等处理。根据业务需要,针对已有数据仓库中的数据内容,进行数据的进一步加工处理,分析数据分布情况、数据类型以及数据质量,从而更好地支持模型的创建。
数据准备单元122主要包括以下功能:数据处理功能、海量数据的统计分析及数据可视化。其中,数据处理是指缺失值补充,数据类型转换,数据特征选择;海量数据的统计分析至数据的特性统计及密度估计;数据可视化指数据特征的密度分布可视化和数据特征最大值、最小值、均值零值数量以及缺失情况可视化等。
模型创建单元124,用于训练数据挖掘模型。
模型创建单元124用于选择和应用不同的算法,利用机器学习进行算法训练,调整模型参数到最佳值。
根据本申请的一个可选的实施例,数据处理系统集合众多主流的机器学习算法,结合Hadoop/Spark平台的分布式能力,支持基于海量数据集的全量数据描述性建模,并且提供菜单式参数调优界面。其中,主流的机器学习算法主要有分类算法、聚类算法、回归算法,降维算法,其中分类算法包括但不限于深度学习算法、随机森林算法、朴素贝叶斯算法等;回归算法包括但不限于广义线性模型、梯度提升模型;降维算法包括但不限于广义低阶模型。模型创建单元124采用探索性数据建模策略,包括建模数据的交叉验证,比如N折交叉验证;菜单式参数调优选择。
模型评估单元126,用于对数据挖掘模型进行动态评估。
根据本申请的一个可选的实施例,模型评估单元126用于对模型进行动态评估,支持模型多次评估,动态调整。
模型发布单元128,用于将数据挖掘模型供给相关系统使用。
模型发布单元128用于在数据挖掘模型创建完成之后,产生简单的报告,或是实现一个比较复杂的、可重复的数据挖掘过程。数据挖掘模型的输出实际为计算规则代码的不断重构完善,模型的发布即是将当前最优的计算规则供给相关系统来使用。模型发布单元128组要完成模型的导出,模型的保存及模型的复制和下载。
模型优化单元130,用于对数据挖掘模型进行持续优化。
模型优化单元130用于收集业务端反馈数据,利用反馈数据来对模型进行模型市场效果评估,建立数据闭环,实现模型的持续优化。
调度管理模块14,用于将待处理的数据输入至数据挖掘模型进行处理。
调度管理模块14用于实现数据挖掘作业任务定义,自动进行调度管理,并且会根据配置绑定参数,并记录日志和状态。
图4是根据本申请实施例的一种调度管理模块的结构图,如图4所示,调度管理模块14包括:配置单元140,运行单元142,监控单元144,其中,
配置单元140,用于实现数据挖掘作业的模板化配置。
配置单元140用于实现数据挖掘作业模板化配置,支持作业参数自主输入,支持web界面配置各类参数,支持自定义参数配置模板保存。用户可通过工程名称或功能类型查询工程,也可连接到工程界面创建新工程。同时,用户还具有查看工程内容、删除保存的工程、编辑工程目录和申请发布工程的权限,若想取消发布申请,可执行“取消申请”操作,若想取消已发布工程,可执行“撤销发布”操作。
运行单元142,用于实现数据挖掘作业的自动保存管理。
运行单元142用于实现挖掘作业自动保存管理,支持界面启停各类挖掘作业任务,实现按需调度各类任务作业,支持建立不同作业之间的依赖管理,支持按序执行各类数据挖掘作业。运行单元142包含两种用户权限:一般用户权限和管理员用户权限,主要管理用户保存的工程信息,显示工程的名称、状态和创建时间等信息,一般用户只能看到自己保存的工程信息,而管理员用户可以看到所有用户的工程信息。
监控单元144,用于实现数据挖掘作业的自动监控。
监控单元144支持WEB界面监控当前运行的,以及失败的、成功的、超时的等状态的作业任务,实现问题作业自动监控报警。管理员可通过工程名称或工程类型查询工程,也可点击“查看”按键查看申请发布工程的内容,点击“审核”按键,审批该工程是否可以发布。
在本申请的一些可选的实施例中,数据管理系统中集成有至少一种数据挖掘算法。
其中,主流的机器学习算法主要有分类算法、聚类算法、回归算法,降维算法,其中分类算法包括但不限于深度学习算法、随机森林算法、朴素贝叶斯算法等;回归算法包括但不限于广义线性模型、梯度提升模型;降维算法包括但不限于广义低阶模型。模型创建单元124采用探索性数据建模策略,包括建模数据的交叉验证,比如N折交叉验证;菜单式参数调优选择。
根据本申请的一个可选地实施例,随机森林模型可在金融领域可用于客户的客户画像,比如根据用户对于金融产品的历史购买情况以及用户的账户基本信息,通过模型训练,筛选出一批会大概率购买某种金融产品的优质用户,对这些筛选出的用户产生相关营销行为。
在本申请的一些可选的实施例中,上述系统包括:人机交互界面,该人机交互界面中设置有可拖拽控件,每个可拖拽控件对应一种数据挖掘算法,可拖拽控件,用于接收用户的拖拽指令,并触发拖拽指令对应的数据挖掘算法。
根据本申请的一个可选的实施例,拖拽模式主要是通过前端技术将平台上有关建模的功能进行封装,做成可在页面上拖拽移动的按钮状功能,点击这些按钮,将触发后端利用分布式计算框架进行计算的运算任务。通过这些拖拽按钮,对于编程不熟练的业务人员也可以清晰地了解建模流程,可以无障碍地使用该数据处理系统。同时,为满足技术人员的个性化需求,平台中也集成了可支持多种语言的交互式开发模块,比如python、R、SAS、scalar,方便技术人员个性化开发数据挖掘模型。
在本申请的一些可选的实施例中,上述数据处理系统还支持复杂的网络社交图谱探索应用,复杂的网络社交图谱应用,指的是利用分布式计算框架对行内的用户、交易计算设计图谱关系,利用前段技术将其可视化展示,做成以数据为驱动的数据产品。
通过上述步骤,可以实现建立用于金融领域的数据挖掘系统,该系统集成了多种数据挖掘算法,而且利用该系统进行建立数据挖掘模型的步骤简单,操作方便,可以提高工作人员处理数据的效率。
图5是根据本申请实施例的另一种数据处理系统的结构图,如图5所示,该系统包括:
挖掘工具引擎层50:用于将当前流行的算法挖掘模型打包形成供调用的工具包。
挖掘平台应用管理层52:用于对用户进行管理;对平台的运行状态进行管理;对平台运行的数据挖掘分析作业进行调度管理;对平台内部的数据进行查询检索管理;对数据挖掘模型进行统一管理。
数据就绪层54:用于提供系统的配置数据,并提供统一的元数据管理。
需要说明的是图5所示实施例的优选实施方式可以参见图1至图4所示实施例的相关描述,此处不再赘述。
图6是根据本申请实施例的一种数据挖掘方法的流程图,如图6所示,该方法包括:
步骤S602,在人机交互界面中接收用户的拖拽指令。
步骤S604,在拖拽指令的触发下,将可拖拽控件移动至指定功能模块。
步骤S606,触发将指定功能模块采用可拖拽控件对应的数据挖掘算法进行数据挖掘。
在本申请的一些可选的实施例中,步骤S502至步骤S506提供了一种数据挖掘方法,拖拽模式主要是通过前端技术将平台上有关建模的功能进行封装,做成可在页面上拖拽移动的按钮状功能,点击这些按钮,将触发后端利用分布式计算框架进行计算的运算任务。通过这些拖拽按钮,对于编程不熟练的业务人员也可以清晰地了解建模流程,可以无障碍地使用该数据处理系统。同时,为满足技术人员的个性化需求,平台中也集成了可支持多种语言的交互式开发模块,比如python、R、SAS、scalar,方便技术人员个性化开发数据挖掘模型。
图7是根据本申请实施例的一种进行数据挖掘的流程图,如图7所示,数据挖掘过程主要包括以下几步;
S702,创建工程;
S704,数据导入;
S706,数据预处理;
S708,建立模型;
S710,模型性能评估,参数调整;
S712,预测;
S714,保存工程。
步骤S702至步骤S712提供了一种数据挖掘的流程,步骤S704中的数据为待处理数据,共有两份,一份是有类标签的数据,作为训练集,另一份是没有类标签的数据,作为验证集,在模型建立之初,训练集和验证集就已经加载至内存中等待处理。在模型训练完成之后,选中要预测的数据集,然后对其进行预测。
本申请实施例还提供了一种存储介质,存储介质包括存储的程序,其中,在程序运行时控制存储介质所在设备执行以上的数据挖掘方法。
上述存储介质用于存储执行以下功能的程序:在人机交互界面中接收用户的拖拽指令;在拖拽指令的触发下,将可拖拽控件移动至指定功能模块;触发将指定功能模块采用可拖拽控件对应的数据挖掘算法进行数据挖掘。
本申请实施例还提供了一种处理器,处理器用于运行程序,其中,在程序运行时执行以上的数据挖掘方法。
上述处理器用于执行实现以下功能的程序:在人机交互界面中接收用户的拖拽指令;在拖拽指令的触发下,将可拖拽控件移动至指定功能模块;触发将指定功能模块采用可拖拽控件对应的数据挖掘算法进行数据挖掘。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
在本申请的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

Claims (10)

1.一种数据处理系统,其特征在于,包括:
数据管理模块,用于接收待处理的数据,并对所述数据进行数据清洗及展示;
数据处理模型创建模块,用于依据所述待处理的数据的类型确定机器学习模型,并对所述机器学习模型进行训练,得到数据挖掘模型;
调度管理模块,用于将所述待处理的数据输入至所述数据挖掘模型进行处理。
2.根据权利要求1所述的系统,其特征在于,所述数据管理模块,包括:
数据加载单元,用于实现不同数据源之间数据导入/导出;
数据处理单元,用于实现数据清洗及转换;
数据探查展示单元,用于实现数据质量探查及结果展示。
3.根据权利要求1所述的系统,其特征在于,所述数据处理模型创建模块,包括:
模型定义单元,用于根据业务需求确定所需的数据挖掘模型;
数据准备单元,用于根据所述数据挖掘模型的业务需求准备适用于所述数据挖掘模型的数据;
模型创建单元,用于训练所述数据挖掘模型;
模型评估单元,用于对所述数据挖掘模型进行动态评估;
模型发布单元,用于将所述数据挖掘模型供给相关系统使用;
模型优化单元,用于对所述数据挖掘模型进行持续优化。
4.根据权利要求1所述的系统,其特征在于,所述调度管理模块,包括:
配置单元,用于实现所述数据挖掘作业的模板化配置;
运行单元,用于实现所述数据挖掘作业的自动保存管理;
监控单元,用于实现所述数据挖掘作业的自动监控。
5.根据权利要求1所述的系统,其特征在于,所述数据处理系统中集成有至少一种数据挖掘算法。
6.根据权利要求1所述的系统,其特征在于,所述系统包括:人机交互界面,该人机交互界面中设置有可拖拽控件,每个可拖拽控件对应一种数据挖掘算法,所述可拖拽控件,用于接收用户的拖拽指令,并触发所述拖拽指令对应的数据挖掘算法。
7.一种数据处理系统,其特征在于,包括:
挖掘工具引擎层:用于将当前流行的算法挖掘模型打包形成供调用的工具包;
挖掘平台应用管理层:用于对用户进行管理;对平台的运行状态进行管理;对平台运行的数据挖掘分析作业进行调度管理;对平台内部的数据进行查询检索管理;对数据挖掘模型进行统一管理;
数据就绪层:用于提供系统的配置数据,并提供统一的元数据管理。
8.一种数据挖掘方法,其特征在于,包括:
在人机交互界面中接收用户的拖拽指令;
在所述拖拽指令的触发下,将可拖拽控件移动至指定功能模块;
触发将所述指定功能模块采用所述可拖拽控件对应的数据挖掘算法进行数据挖掘。
9.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,所述程序运行时控制存储介质所在的设备执行权利要求8所述的数据挖掘方法。
10.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求8所述的数据挖掘方法。
CN201811210150.XA 2018-10-17 2018-10-17 数据处理系统及数据挖掘方法 Pending CN109558395A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811210150.XA CN109558395A (zh) 2018-10-17 2018-10-17 数据处理系统及数据挖掘方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811210150.XA CN109558395A (zh) 2018-10-17 2018-10-17 数据处理系统及数据挖掘方法

Publications (1)

Publication Number Publication Date
CN109558395A true CN109558395A (zh) 2019-04-02

Family

ID=65865011

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811210150.XA Pending CN109558395A (zh) 2018-10-17 2018-10-17 数据处理系统及数据挖掘方法

Country Status (1)

Country Link
CN (1) CN109558395A (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109976867A (zh) * 2019-04-09 2019-07-05 美林数据技术股份有限公司 一种数据挖掘流程的分析洞察系统及方法
CN110045209A (zh) * 2019-05-10 2019-07-23 广东电网有限责任公司 用电数据异常的检测方法、装置、设备及可读存储介质
CN110058985A (zh) * 2019-04-09 2019-07-26 美林数据技术股份有限公司 一种拖拽式构建企业级ai应用的系统及方法
CN110287171A (zh) * 2019-06-28 2019-09-27 北京九章云极科技有限公司 一种数据处理方法及系统
CN110554995A (zh) * 2019-08-13 2019-12-10 武汉中海庭数据技术有限公司 一种深度学习模型的管理方法及系统
CN110597874A (zh) * 2019-08-26 2019-12-20 数字广东网络建设有限公司 数据分析模型的创建方法、装置、计算机设备和存储介质
CN110909039A (zh) * 2019-10-25 2020-03-24 北京华如科技股份有限公司 一种基于拖拽式流程的大数据挖掘工具及方法
CN111276254A (zh) * 2020-01-13 2020-06-12 印迹信息科技(北京)有限公司 医疗开放平台系统及诊疗数据处理方法
CN111752899A (zh) * 2020-06-28 2020-10-09 中科三清科技有限公司 一种环境报告生成方法、装置、电子设备及存储介质
CN112527783A (zh) * 2020-11-27 2021-03-19 中科曙光南京研究院有限公司 一种基于Hadoop的数据质量探查系统
CN112632146A (zh) * 2020-12-03 2021-04-09 成都大数据产业技术研究院有限公司 多人协作的可视化数据挖掘系统
CN112651520A (zh) * 2021-01-08 2021-04-13 中国科学院自动化研究所 基于数据和知识驱动的工业物联网设备协同管控系统
CN112837040A (zh) * 2021-02-22 2021-05-25 国网辽宁省电力有限公司信息通信分公司 应用于智能电网的电力数据管理方法及系统
CN113656451A (zh) * 2021-07-21 2021-11-16 浙江大华技术股份有限公司 数据挖掘方法、电子设备和计算机可读存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1975720A (zh) * 2006-12-27 2007-06-06 章毅 一种基于Web的数据挖掘系统及其控制方法
CN101169798A (zh) * 2007-12-06 2008-04-30 中国电信股份有限公司 一种数据挖掘系统和方法
CN102567396A (zh) * 2010-12-30 2012-07-11 中国移动通信集团公司 一种基于云计算的数据挖掘方法、系统及装置
CN103853821A (zh) * 2014-02-21 2014-06-11 河海大学 一种面向多用户协作的数据挖掘平台的构建方法
CN106951564A (zh) * 2017-04-02 2017-07-14 北京军秀咨询有限公司 一种基于数据挖掘和大数据分析的云计算平台及方法
CN107103050A (zh) * 2017-03-31 2017-08-29 海通安恒(大连)大数据科技有限公司 一种大数据建模平台及方法
CN107169575A (zh) * 2017-06-27 2017-09-15 北京天机数测数据科技有限公司 一种可视化机器学习训练模型的建模系统和方法
CN107943463A (zh) * 2017-12-15 2018-04-20 清华大学 交互式自动化大数据分析应用开发系统
CN108121773A (zh) * 2017-12-05 2018-06-05 广东京信软件科技有限公司 一种基于可视化拖拽式的大数据分析任务构建方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1975720A (zh) * 2006-12-27 2007-06-06 章毅 一种基于Web的数据挖掘系统及其控制方法
CN101169798A (zh) * 2007-12-06 2008-04-30 中国电信股份有限公司 一种数据挖掘系统和方法
CN102567396A (zh) * 2010-12-30 2012-07-11 中国移动通信集团公司 一种基于云计算的数据挖掘方法、系统及装置
CN103853821A (zh) * 2014-02-21 2014-06-11 河海大学 一种面向多用户协作的数据挖掘平台的构建方法
CN107103050A (zh) * 2017-03-31 2017-08-29 海通安恒(大连)大数据科技有限公司 一种大数据建模平台及方法
CN106951564A (zh) * 2017-04-02 2017-07-14 北京军秀咨询有限公司 一种基于数据挖掘和大数据分析的云计算平台及方法
CN107169575A (zh) * 2017-06-27 2017-09-15 北京天机数测数据科技有限公司 一种可视化机器学习训练模型的建模系统和方法
CN108121773A (zh) * 2017-12-05 2018-06-05 广东京信软件科技有限公司 一种基于可视化拖拽式的大数据分析任务构建方法
CN107943463A (zh) * 2017-12-15 2018-04-20 清华大学 交互式自动化大数据分析应用开发系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
马国富: "《基于云计算的监狱数据安全与大数据挖掘》", 河北大学出版社, pages: 247 - 254 *

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110058985A (zh) * 2019-04-09 2019-07-26 美林数据技术股份有限公司 一种拖拽式构建企业级ai应用的系统及方法
CN109976867A (zh) * 2019-04-09 2019-07-05 美林数据技术股份有限公司 一种数据挖掘流程的分析洞察系统及方法
CN110045209A (zh) * 2019-05-10 2019-07-23 广东电网有限责任公司 用电数据异常的检测方法、装置、设备及可读存储介质
CN110287171A (zh) * 2019-06-28 2019-09-27 北京九章云极科技有限公司 一种数据处理方法及系统
CN110287171B (zh) * 2019-06-28 2020-05-26 北京九章云极科技有限公司 一种数据处理方法及系统
CN110554995A (zh) * 2019-08-13 2019-12-10 武汉中海庭数据技术有限公司 一种深度学习模型的管理方法及系统
CN110597874A (zh) * 2019-08-26 2019-12-20 数字广东网络建设有限公司 数据分析模型的创建方法、装置、计算机设备和存储介质
CN110597874B (zh) * 2019-08-26 2022-05-27 数字广东网络建设有限公司 数据分析模型的创建方法、装置、计算机设备和存储介质
CN110909039A (zh) * 2019-10-25 2020-03-24 北京华如科技股份有限公司 一种基于拖拽式流程的大数据挖掘工具及方法
CN111276254A (zh) * 2020-01-13 2020-06-12 印迹信息科技(北京)有限公司 医疗开放平台系统及诊疗数据处理方法
CN111752899B (zh) * 2020-06-28 2021-06-15 中科三清科技有限公司 一种环境报告生成方法、装置、电子设备及存储介质
CN111752899A (zh) * 2020-06-28 2020-10-09 中科三清科技有限公司 一种环境报告生成方法、装置、电子设备及存储介质
CN112527783A (zh) * 2020-11-27 2021-03-19 中科曙光南京研究院有限公司 一种基于Hadoop的数据质量探查系统
CN112527783B (zh) * 2020-11-27 2024-05-24 中科曙光南京研究院有限公司 一种基于Hadoop的数据质量探查系统
CN112632146A (zh) * 2020-12-03 2021-04-09 成都大数据产业技术研究院有限公司 多人协作的可视化数据挖掘系统
CN112632146B (zh) * 2020-12-03 2023-04-07 成都大数据产业技术研究院有限公司 多人协作的可视化数据挖掘系统
CN112651520A (zh) * 2021-01-08 2021-04-13 中国科学院自动化研究所 基于数据和知识驱动的工业物联网设备协同管控系统
CN112651520B (zh) * 2021-01-08 2023-11-17 中国科学院自动化研究所 基于数据和知识驱动的工业物联网设备协同管控系统
CN112837040A (zh) * 2021-02-22 2021-05-25 国网辽宁省电力有限公司信息通信分公司 应用于智能电网的电力数据管理方法及系统
CN112837040B (zh) * 2021-02-22 2024-01-23 国网辽宁省电力有限公司信息通信分公司 应用于智能电网的电力数据管理方法及系统
CN113656451A (zh) * 2021-07-21 2021-11-16 浙江大华技术股份有限公司 数据挖掘方法、电子设备和计算机可读存储介质

Similar Documents

Publication Publication Date Title
CN109558395A (zh) 数据处理系统及数据挖掘方法
US11175910B2 (en) System and method for code and data versioning in computerized data modeling and analysis
US10275502B2 (en) System and method for interactive reporting in computerized data modeling and analysis
US11941016B2 (en) Using specified performance attributes to configure machine learning pipepline stages for an ETL job
CN104685467B (zh) 图形地表示编程属性
US20170286526A1 (en) System and Method for Optimized Query Execution in Computerized Data Modeling and Analysis
US8595269B2 (en) Managing classification hierarchies in master data management environments
CN109213754A (zh) 一种数据处理系统及数据处理方法
CN107704608A (zh) 一种olap多维分析和数据挖掘系统
WO2017186774A1 (en) Systems and methods for querying databases
CN108351883A (zh) 动态上下文枢纽网格分析的显示
US8863075B2 (en) Automated support for distributed platform development
CN108170826A (zh) 一种基于互联网大数据的宏观经济分析方法及系统
CN113656021B (zh) 一种面向业务场景的油气大数据分析系统及方法
CN102708130A (zh) 计算用户微细分以用于要约匹配的可扩展引擎
CN102004767A (zh) 一种基于抽象业务逻辑的交互式语义Web服务动态组合方法
CN107944698B (zh) 面向云制造的制造需求与设备能力归一化建模方法
CN112070402A (zh) 基于图谱的数据处理方法、装置、设备及存储介质
CN110119393A (zh) 代码版本管理系统及方法
CN115170048B (zh) 基于模型和规则的工作流实现方法、系统和介质
CN108108466A (zh) 一种分布式系统日志查询分析方法及装置
CN108536718A (zh) 一种基于输入输出语义化实现的管理信息化的方法和系统
CN108519876A (zh) 一种图形化数据流建模和处理系统及方法
Ganzha et al. Tools for ontology matching—practical considerations from INTER-IoT perspective
WO2023227012A1 (zh) 产品数据处理方法、装置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination