CN111367969B - 一种数据挖掘方法和系统 - Google Patents
一种数据挖掘方法和系统 Download PDFInfo
- Publication number
- CN111367969B CN111367969B CN202010196851.3A CN202010196851A CN111367969B CN 111367969 B CN111367969 B CN 111367969B CN 202010196851 A CN202010196851 A CN 202010196851A CN 111367969 B CN111367969 B CN 111367969B
- Authority
- CN
- China
- Prior art keywords
- data
- service
- cleaning
- submodule
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 147
- 238000007418 data mining Methods 0.000 title claims abstract description 39
- 230000008569 process Effects 0.000 claims abstract description 110
- 238000004140 cleaning Methods 0.000 claims abstract description 87
- 230000000007 visual effect Effects 0.000 claims abstract description 27
- 238000012937 correction Methods 0.000 claims abstract description 7
- 238000012545 processing Methods 0.000 claims description 46
- 230000003993 interaction Effects 0.000 claims description 37
- 238000010801 machine learning Methods 0.000 claims description 29
- 230000005540 biological transmission Effects 0.000 claims description 14
- 238000013524 data verification Methods 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 10
- 238000010276 construction Methods 0.000 claims description 10
- 230000003044 adaptive effect Effects 0.000 claims description 6
- 238000004458 analytical method Methods 0.000 claims description 6
- 238000001914 filtration Methods 0.000 claims description 6
- 230000008676 import Effects 0.000 claims description 6
- 230000002452 interceptive effect Effects 0.000 claims description 3
- 238000005065 mining Methods 0.000 abstract description 7
- 238000001514 detection method Methods 0.000 abstract description 4
- 238000012795 verification Methods 0.000 abstract description 4
- 230000008859 change Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 238000013075 data extraction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Probability & Statistics with Applications (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Quality & Reliability (AREA)
- Evolutionary Biology (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computing Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Fuzzy Systems (AREA)
- Computational Linguistics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供了一种数据挖掘方法和系统,该数据挖局方法和系统通过基于页面拖拽方式对该业务节点进行可视化的参数设置,使用户能够直接参与到大数据业务的相关工作流自动化配置中,此外,其该通过相应的数据清洗框架对大数据依次进行检测、定位、修正和验证的不同清洗工序,以有效地清洗大数据中存在的非清洁数据,从而保证数据本身的有效性和精确性,并且还能够有效地提高对大数据的挖掘深度、效率和准确性。
Description
技术领域
本发明涉及数据挖掘的技术领域,特别涉及一种数据挖掘方法和系统。
背景技术
随着互联网和物联网技术的不断发展,采集得到的数据种类和数量也迅猛增加,并且数据量的增长速度也越来越快,从而形成相应的大数据。大数据具有海量性、分布性和异构性这三个特性,海量性主要是指数据规模的巨大并且增长速度持续增加,分布性主要体现在巨大的数据量不能在一台机器上存储计算和分析,异构性主要体现在数据类型和数据来源的多样化。利用传统的面向结构化数据的集中式处理方式,很难解决大数据带来的问题,针对这三个特性,面向大数据的集成、挖掘和清洗变得尤为重要。大数据同时还包含不确定性数据,现阶段不确定数据产生的原因比较多样化,主要体现在原始数据不准确、使用粗粒度数据集合、数据字段缺失以及数据集成。可见,现有技术针对大数据的挖掘处理模式并不能有效地提高对大数据的挖掘深度、效率和准确性。
发明内容
针对现有技术存在的缺陷,本发明提供一种数据挖掘方法和系统,该数据挖掘方法和系统通过获取数据处理页面中不同数据业务工序对应的业务节点的实时状态,以此基于页面拖拽方式对该业务节点进行可视化的参数设置,根据该可视化的参数设置的结果,构建关于不同业务节点之间的数据交互链路,以此形成关于不同数据业务工序的工作流组合模式,在相应的工作流组合模式中,对该数据交互链路中的数据进行关于预定数据清洗框架的清洗与治理,对经过该清洗与治理后的数据进行基于机器学习的自动分类处理,以此将分类后的数据反馈至相应的工作流组合模式的业务节点中;可见,该数据挖局方法和系统通过基于页面拖拽方式对所述业务节点进行可视化的参数设置,使用户能够直接参与到大数据业务的相关工作流自动化配置中,此外,其该通过相应的数据清洗框架对大数据依次进行检测、定位、修正和验证的不同清洗工序,以有效地清洗大数据中存在的非清洁数据,从而保证数据本身的有效性和精确性,并且还能够有效地提高对大数据的挖掘深度、效率和准确性。
本发明提供一种数据挖掘方法,其特征在于,所述数据挖掘方法包括如下步骤:
步骤S1,获取数据处理页面中不同数据业务工序对应的业务节点的实时状态,并结合所述实时状态和页面拖拽方式对所述业务节点进行可视化的参数设置;
步骤S2,根据所述可视化的参数设置的结果,构建关于不同业务节点之间的数据交互链路,以此形成关于不同数据业务工序的工作流组合模式;
步骤S3,在相应的工作流组合模式中,对所述数据交互链路中的数据进行关于预定数据清洗框架的清洗与治理;
步骤S4,对经过所述清洗与治理后的数据进行基于机器学习的自动分类处理,以此将分类后的数据反馈至相应的工作流组合模式的业务节点中;
进一步,在所述步骤S1中,获取数据处理页面中不同数据业务工序对应的业务节点的实时状态,并结合所述实时状态和页面拖拽方式对所述业务节点进行可视化的参数设置具体包括,
步骤S101,获取所述数据处理页面中不同数据业务工序的数据量特征、数据分布特性和数据结构特征中的至少一者,以此确定每一个数据业务工序对应的业务节点的实时状态;
步骤S102,根据每一个数据业务工序对应的业务节点的实时状态,确定每一个数据业务工序对应的业务节点参数调整需求;
步骤S103,将相应的数据业务工序通过所述页面拖拽方式变换至可视化调整面板中,并根据所述业务节点参数调整需求,对所述业务节点进行可视化的参数设置;
进一步,在所述步骤S2中,根据所述可视化的参数设置的结果,构建关于不同业务节点之间的数据交互链路,以此形成关于不同数据业务工序的工作流组合模式具体包括,
步骤S201,根据所述可视化的参数设置的结果,确定每一个数据业务工序的业务节点对应的数据计算荷载属性和/或数据流传输属性;
步骤S202,根据所述数据计算荷载属性和/或所述数据流传输属性,确定不同数据业务工序之间关于业务节点的接合匹配关系,以此构建关于不同业务节点之间的数据交互链路;
步骤S203,根据所述数据交互链路,形成至少关于数据逻辑关系拖拽布局业务工序、数据过滤业务工序、字段扩展业务工序、数据统计运算业务工序、数据碰撞运算业务工序、分析结果展现业务工序、EXCEL/CSV数据导入业务工序、HDFS文件处理业务工序中JDBC数据库操作业务工序相互之间的工作流组合模式;
进一步,在所述步骤S3中,在相应的工作流组合模式中,对所述数据交互链路中的数据进行关于预定数据清洗框架的清洗与治理具体包括,
步骤S301,在相应的工作流组合模式中,根据所述工作流组合模式中的数据需求信息、大数据类别信息和数据任务信息,准备并确定相应的数据清洗方案;
步骤S302,根据所述数据清洗方案,对目标数据集合进行检测,以此获得所述目标数据集合的数据质量信息;
步骤S303,根据所述数据质量信息,确定所述目标数据集合中非清洁数据的类别与位置信息;
步骤S304,根据所述非清洁数据的类别与位置信息,以此对所述目标数据集合进行修正;
步骤S305,将经过所述修正的所述目标数据集合,进行适应性的数据验证处理,以此实现所述清洗与治理;
进一步,在所述步骤S4中,对经过所述清洗与治理后的数据进行基于机器学习的自动分类处理,以此将分类后的数据反馈至相应的工作流组合模式的业务节点中具体包括,
步骤S401,构建关于预定词汇集合的机器学习模型,并对所述机器学习模型进行优化;
步骤S402,将经过所述清洗与治理后的数据输入至优化后的所述机器学习模型,以此实现所述自动分类处理,其中所述自动分类处理具体包含,
第一,根据下面公式(1),确定分类集合,
R={r1,r2,…rn} (1)
在上述公式(1)中,R为所述分类集合,ri为所述分类集合中对应的第i个类别,i=1、2、…、n,n为类别总数量;
第二,根据下面公式(2),确定经过所述清洗与治理后的数据被划分到每个类别的概率,
在上述公式(2)中,P(ri|W)为经过所述清洗与治理后的数据被划分到每i个类别的概率,P(ri)为第i个类别对应的先验概率,rij为第i个类别对应的第j个特征,P(ri|xj)为第i个类别产生第i个特征的概率,P(W)为经过所述清洗与治理后的数据自身对应的概率;
第三,根据下面公式(3),确定经过所述清洗与治理后的数据的最终划分类别,
Γ=max{P(ri|W)} (3)
在上述公式(3)中,Γ为经过所述清洗与治理后的数据的最终划分类别对应的概率,P(ri|W)为经过所述清洗与治理后的数据被划分到每i个类别的概率,max为取最大值运算,当经过所述清洗与治理后的数据被划分到第i类别的概率为最大时,则将经过所述清洗与治理后的数据最终划分为第i类别;
步骤S403,将分类后的数据通过相应的数据反馈通道回送至相应的工作流组合模式的业务节点中。
本发明还提供一种数据挖掘系统,其特征在于:
所述数据挖掘系统包括业务节点设置模块、工作流组合模块、数据清洗与治理模块和数据自动分类模块;其中,
所述业务节点设置模块用于获取数据处理页面中不同数据业务工序对应的业务节点的实时状态,并结合所述实时状态和页面拖拽方式对所述业务节点进行可视化的参数设置;
所述工作流组合模块用于根据所述可视化的参数设置的结果,构建关于不同业务节点之间的数据交互链路,以此形成关于不同数据业务工序的工作流组合模式;
所述数据清洗与治理模块用于在相应的工作流组合模式中,对所述数据交互链路中的数据进行关于预定数据清洗框架的清洗与治理;
所述数据自动分类模块用于对经过所述清洗与治理后的数据进行基于机器学习的自动分类处理,以此将分类后的数据反馈至相应的工作流组合模式的业务节点中;
进一步,所述业务节点设置模块包括业务节点实时状态确定子模块、业务节点参数调整需求确定子模块和可视化参数设置子模块;其中,
所述业务节点实时状态确定子模块用于根据所述数据处理页面中不同数据业务工序的数据量特征、数据分布特性和数据结构特征中的至少一者,确定每一个数据业务工序对应的业务节点的实时状态;
所述业务节点参数调整需求确定子模块用于根据每一个数据业务工序对应的业务节点的实时状态,确定每一个数据业务工序对应的业务节点参数调整需求;
所述可视化参数设置子模块用于将相应的数据业务工序通过所述页面拖拽方式变换至可视化调整面板中,并根据所述业务节点参数调整需求,对所述业务节点进行可视化的参数设置;
进一步,所述工作流组合模块包括数据属性确定子模块、数据交互链路构建子模块和工作流组合模式形成子模块;其中,
所述数据属性确定子模块用于根据所述可视化的参数设置的结果,确定每一个数据业务工序的业务节点对应的数据计算荷载属性和/或数据流传输属性;
所述数据交互链路构建子模块用于根据所述数据计算荷载属性和/或所述数据流传输属性,确定不同数据业务工序之间关于业务节点的接合匹配关系,以此构建关于不同业务节点之间的数据交互链路;
所述工作流组合模式形成子模块用于根据所述数据交互链路,形成至少关于数据逻辑关系拖拽布局业务工序、数据过滤业务工序、字段扩展业务工序、数据统计运算业务工序、数据碰撞运算业务工序、分析结果展现业务工序、EXCEL/CSV数据导入业务工序、HDFS文件处理业务工序中JDBC数据库操作业务工序相互之间的工作流组合模式;
进一步,所述数据清洗与治理模块包括数据清洗方案确定子模块、数据质量信息确定子模块、非清洁数据类别与位置确定子模块、目标数据集合修正子模块和数据验证子模块;其中,
所述数据清洗方案确定子模块用于在相应的工作流组合模式中,根据所述工作流组合模式中的数据需求信息、大数据类别信息和数据任务信息,准备并确定相应的数据清洗方案;
所述数据质量信息确定子模块用于根据所述数据清洗方案,对目标数据集合进行检测,以此获得所述目标数据集合的数据质量信息;
所述非清洁数据类别与位置确定子模块用于根据所述数据质量信息,确定所述目标数据集合中非清洁数据的类别与位置信息;
所述目标数据集合修正子模块用于根据所述非清洁数据的类别与位置信息,以此对所述目标数据集合进行修正;
所述数据验证子模块用于将经过所述修正的所述目标数据集合,进行适应性的数据验证处理,以此实现所述清洗与治理;
进一步,所述数据自动分类模块包括机械学习模型构建子模块、自动分类处理子模块和数据回送子模块;其中,
所述机械学习模型构建子模块用于构建关于预定词汇集合的机器学习模型,并对所述机器学习模型进行优化;
所述自动分类处理子模块用于将经过所述清洗与治理后的数据输入至优化后的所述机器学习模型,以此实现所述自动分类处理;
所述数据回送子模块用于将分类后的数据通过相应的数据反馈通道回送至相应的工作流组合模式的业务节点中。
相比于现有技术,该数据挖掘方法和系统通过获取数据处理页面中不同数据业务工序对应的业务节点的实时状态,以此基于页面拖拽方式对该业务节点进行可视化的参数设置,根据该可视化的参数设置的结果,构建关于不同业务节点之间的数据交互链路,以此形成关于不同数据业务工序的工作流组合模式,在相应的工作流组合模式中,对该数据交互链路中的数据进行关于预定数据清洗框架的清洗与治理,对经过该清洗与治理后的数据进行基于机器学习的自动分类处理,以此将分类后的数据反馈至相应的工作流组合模式的业务节点中;可见,该数据挖局方法和系统通过基于页面拖拽方式对所述业务节点进行可视化的参数设置,使用户能够直接参与到大数据业务的相关工作流自动化配置中,此外,其该通过相应的数据清洗框架对大数据依次进行检测、定位、修正和验证的不同清洗工序,以有效地清洗大数据中存在的非清洁数据,从而保证数据本身的有效性和精确性,并且还能够有效地提高对大数据的挖掘深度、效率和准确性。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的一种数据挖掘方法的流程示意图。
图2为本发明提供的一种数据挖掘系统的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参阅图1,为本发明实施例提供的一种数据挖掘方法的流程示意图。该数据挖掘方法包括如下步骤:
步骤S1,获取数据处理页面中不同数据业务工序对应的业务节点的实时状态,并结合所述实时状态和页面拖拽方式对所述业务节点进行可视化的参数设置;
步骤S2,根据该可视化的参数设置的结果,构建关于不同业务节点之间的数据交互链路,以此形成关于不同数据业务工序的工作流组合模式,其中,该工作流组合模式可为但不限于是不同业务节点执行关于数据接收拦截、数据编辑更改或者数据提取存储的数据业务工序时,相应的数据流传送方向变更模式和/或指令流传送方向变更模式;
步骤S3,在相应的工作流组合模式中,对该数据交互链路中的数据进行关于预定数据清洗框架的清洗与治理;
步骤S4,对经过该清洗与治理后的数据进行基于机器学习的自动分类处理,以此将分类后的数据反馈至相应的工作流组合模式的业务节点中。
优选地,在该步骤S1中,获取数据处理页面中不同数据业务工序对应的业务节点的实时状态,并结合该实时状态和页面拖拽方式对该业务节点进行可视化的参数设置具体包括,
步骤S101,获取该数据处理页面中不同数据业务工序的数据量特征、数据分布特性和数据结构特征中的至少一者,以此确定每一个数据业务工序对应的业务节点的实时状态;
步骤S102,根据每一个数据业务工序对应的业务节点的实时状态,确定每一个数据业务工序对应的业务节点参数调整需求;
步骤S103,将相应的数据业务工序通过该页面拖拽方式变换至可视化调整面板中,并根据该业务节点参数调整需求,对该业务节点进行可视化的参数设置。
优选地,在该步骤S2中,根据该可视化的参数设置的结果,构建关于不同业务节点之间的数据交互链路,以此形成关于不同数据业务工序的工作流组合模式具体包括,
步骤S201,根据该可视化的参数设置的结果,确定每一个数据业务工序的业务节点对应的数据计算荷载属性和/或数据流传输属性;
步骤S202,根据该数据计算荷载属性和/或该数据流传输属性,确定不同数据业务工序之间关于业务节点的接合匹配关系,以此构建关于不同业务节点之间的数据交互链路;
步骤S203,根据该数据交互链路,形成至少关于数据逻辑关系拖拽布局业务工序、数据过滤业务工序、字段扩展业务工序、数据统计运算业务工序、数据碰撞运算业务工序、分析结果展现业务工序、EXCEL/CSV数据导入业务工序、HDFS文件处理业务工序中JDBC数据库操作业务工序相互之间的工作流组合模式。
优选地,在该步骤S3中,在相应的工作流组合模式中,对该数据交互链路中的数据进行关于预定数据清洗框架的清洗与治理具体包括,
步骤S301,在相应的工作流组合模式中,根据该工作流组合模式中的数据需求信息、大数据类别信息和数据任务信息,准备并确定相应的数据清洗方案;
步骤S302,根据该数据清洗方案,对目标数据集合进行检测,以此获得该目标数据集合的数据质量信息;
步骤S303,根据该数据质量信息,确定该目标数据集合中非清洁数据的类别与位置信息;
步骤S304,根据该非清洁数据的类别与位置信息,以此对该目标数据集合进行修正;
步骤S305,将经过该修正的该目标数据集合,进行适应性的数据验证处理,以此实现该清洗与治理。
优选地,在该步骤S4中,对经过该清洗与治理后的数据进行基于机器学习的自动分类处理,以此将分类后的数据反馈至相应的工作流组合模式的业务节点中具体包括,
步骤S401,构建关于预定词汇集合的机器学习模型,并对该机器学习模型进行优化;
步骤S402,将经过该清洗与治理后的数据输入至优化后的该机器学习模型,以此实现该自动分类处理,其中该自动分类处理具体包含,
第一,根据下面公式(1),确定分类集合,
R={r1,r2,…rn} (1)
在上述公式(1)中,R为该分类集合,ri为该分类集合中对应的第i个类别,i=1、2、…、n,n为类别总数量;
第二,根据下面公式(2),确定经过该清洗与治理后的数据被划分到每个类别的概率,
在上述公式(2)中,P(ri|W)为经过该清洗与治理后的数据被划分到每i个类别的概率,P(ri)为第i个类别对应的先验概率,rij为第i个类别对应的第j个特征,P(ri|xj)为第i个类别产生第i个特征的概率,P(W)为经过该清洗与治理后的数据自身对应的概率;
第三,根据下面公式(3),确定经过该清洗与治理后的数据的最终划分类别,
Γ=max{P(ri|W)} (3)
在上述公式(3)中,Γ为经过该清洗与治理后的数据的最终划分类别对应的概率,P(ri|W)为经过该清洗与治理后的数据被划分到每i个类别的概率,max为取最大值运算,当经过该清洗与治理后的数据被划分到第i类别的概率为最大时,则将经过该清洗与治理后的数据最终划分为第i类别;
步骤S403,将分类后的数据通过相应的数据反馈通道回送至相应的工作流组合模式的业务节点中;
通过上述自动分类处理过程,能够简单地和快速地将经过清洗与治理后的数据划分到合适的分类类别中,从而提高对数据进行分类类别划分的精确度和有效性,以此适应于不同的复杂数据情况。
参阅图2,为本发明实施例提供的一种数据挖掘系统的结构示意图。该数据挖掘系统包括业务节点设置模块、工作流组合模块、数据清洗与治理模块和数据自动分类模块;其中,
该业务节点设置模块用于获取数据处理页面中不同数据业务工序对应的业务节点的实时状态,并结合该实时状态和页面拖拽方式对该业务节点进行可视化的参数设置;
该工作流组合模块用于根据该可视化的参数设置的结果,构建关于不同业务节点之间的数据交互链路,以此形成关于不同数据业务工序的工作流组合模式;
该数据清洗与治理模块用于在相应的工作流组合模式中,对该数据交互链路中的数据进行关于预定数据清洗框架的清洗与治理;
该数据自动分类模块用于对经过该清洗与治理后的数据进行基于机器学习的自动分类处理,以此将分类后的数据反馈至相应的工作流组合模式的业务节点中。
优选地,该业务节点设置模块包括业务节点实时状态确定子模块、业务节点参数调整需求确定子模块和可视化参数设置子模块;其中,
该业务节点实时状态确定子模块用于根据该数据处理页面中不同数据业务工序的数据量特征、数据分布特性和数据结构特征中的至少一者,确定每一个数据业务工序对应的业务节点的实时状态;
该业务节点参数调整需求确定子模块用于根据每一个数据业务工序对应的业务节点的实时状态,确定每一个数据业务工序对应的业务节点参数调整需求;
该可视化参数设置子模块用于将相应的数据业务工序通过该页面拖拽方式变换至可视化调整面板中,并根据该业务节点参数调整需求,对该业务节点进行可视化的参数设置。
优选地,该工作流组合模块包括数据属性确定子模块、数据交互链路构建子模块和工作流组合模式形成子模块;其中,
该数据属性确定子模块用于根据该可视化的参数设置的结果,确定每一个数据业务工序的业务节点对应的数据计算荷载属性和/或数据流传输属性;
该数据交互链路构建子模块用于根据该数据计算荷载属性和/或该数据流传输属性,确定不同数据业务工序之间关于业务节点的接合匹配关系,以此构建关于不同业务节点之间的数据交互链路;
该工作流组合模式形成子模块用于根据该数据交互链路,形成至少关于数据逻辑关系拖拽布局业务工序、数据过滤业务工序、字段扩展业务工序、数据统计运算业务工序、数据碰撞运算业务工序、分析结果展现业务工序、EXCEL/CSV数据导入业务工序、HDFS文件处理业务工序中JDBC数据库操作业务工序相互之间的工作流组合模式。
优选地,该数据清洗与治理模块包括数据清洗方案确定子模块、数据质量信息确定子模块、非清洁数据类别与位置确定子模块、目标数据集合修正子模块和数据验证子模块;其中,
该数据清洗方案确定子模块用于在相应的工作流组合模式中,根据该工作流组合模式中的数据需求信息、大数据类别信息和数据任务信息,准备并确定相应的数据清洗方案;
该数据质量信息确定子模块用于根据该数据清洗方案,对目标数据集合进行检测,以此获得该目标数据集合的数据质量信息;
该非清洁数据类别与位置确定子模块用于根据该数据质量信息,确定该目标数据集合中非清洁数据的类别与位置信息;
该目标数据集合修正子模块用于根据该非清洁数据的类别与位置信息,以此对该目标数据集合进行修正;
该数据验证子模块用于将经过该修正的该目标数据集合,进行适应性的数据验证处理,以此实现该清洗与治理。
优选地,该数据自动分类模块包括机械学习模型构建子模块、自动分类处理子模块和数据回送子模块;其中,
该机械学习模型构建子模块用于构建关于预定词汇集合的机器学习模型,并对该机器学习模型进行优化;
该自动分类处理子模块用于将经过该清洗与治理后的数据输入至优化后的该机器学习模型,以此实现该自动分类处理;
该数据回送子模块用于将分类后的数据通过相应的数据反馈通道回送至相应的工作流组合模式的业务节点中。
从上述实施例的内容可知,该数据挖局方法和系统通过基于页面拖拽方式对该业务节点进行可视化的参数设置,使用户能够直接参与到大数据业务的相关工作流自动化配置中,此外,其该通过相应的数据清洗框架对大数据依次进行检测、定位、修正和验证的不同清洗工序,以有效地清洗大数据中存在的非清洁数据,从而保证数据本身的有效性和精确性,并且还能够有效地提高对大数据的挖掘深度、效率和准确性。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (8)
1.一种数据挖掘方法,其特征在于,所述数据挖掘方法包括如下步骤:
步骤S1,获取数据处理页面中不同数据业务工序对应的业务节点的实时状态,并结合所述实时状态和页面拖拽方式对所述业务节点进行可视化的参数设置;
步骤S2,根据所述可视化的参数设置的结果,构建关于不同业务节点之间的数据交互链路,以此形成关于不同数据业务工序的工作流组合模式;
步骤S3,在相应的工作流组合模式中,对所述数据交互链路中的数据进行关于预定数据清洗框架的清洗与治理;
步骤S4,对经过所述清洗与治理后的数据进行基于机器学习的自动分类处理,以此将分类后的数据反馈至相应的工作流组合模式的业务节点中;
在所述步骤S3中,在相应的工作流组合模式中,对所述数据交互链路中的数据进行关于预定数据清洗框架的清洗与治理具体包括,
步骤S301,在相应的工作流组合模式中,根据所述工作流组合模式中的数据需求信息、大数据类别信息和数据任务信息,准备并确定相应的数据清洗方案;
步骤S302,根据所述数据清洗方案,对目标数据集合进行检测,以此获得所述目标数据集合的数据质量信息;
步骤S303,根据所述数据质量信息,确定所述目标数据集合中非清洁数据的类别与位置信息;
步骤S304,根据所述非清洁数据的类别与位置信息,以此对所述目标数据集合进行修正;
步骤S305,将经过所述修正的所述目标数据集合,进行适应性的数据验证处理,以此实现所述清洗与治理。
2.如权利要求1所述的数据挖掘方法,其特征在于:
在所述步骤S1中,获取数据处理页面中不同数据业务工序对应的业务节点的实时状态,并结合所述实时状态和页面拖拽方式对所述业务节点进行可视化的参数设置具体包括,
步骤S101,获取所述数据处理页面中不同数据业务工序的数据量特征、数据分布特性和数据结构特征中的至少一者,以此确定每一个数据业务工序对应的业务节点的实时状态;
步骤S102,根据每一个数据业务工序对应的业务节点的实时状态,确定每一个数据业务工序对应的业务节点参数调整需求;
步骤S103,将相应的数据业务工序通过所述页面拖拽方式变换至可视化调整面板中,并根据所述业务节点参数调整需求,对所述业务节点进行可视化的参数设置。
3.如权利要求1所述的数据挖掘方法,其特征在于:
在所述步骤S2中,根据所述可视化的参数设置的结果,构建关于不同业务节点之间的数据交互链路,以此形成关于不同数据业务工序的工作流组合模式具体包括,
步骤S201,根据所述可视化的参数设置的结果,确定每一个数据业务工序的业务节点对应的数据计算荷载属性和/或数据流传输属性;
步骤S202,根据所述数据计算荷载属性和/或所述数据流传输属性,确定不同数据业务工序之间关于业务节点的接合匹配关系,以此构建关于不同业务节点之间的数据交互链路;
步骤S203,根据所述数据交互链路,形成至少关于数据逻辑关系拖拽布局业务工序、数据过滤业务工序、字段扩展业务工序、数据统计运算业务工序、数据碰撞运算业务工序、分析结果展现业务工序、EXCEL/CSV数据导入业务工序、HDFS文件处理业务工序中JDBC数据库操作业务工序相互之间的工作流组合模式。
4.如权利要求1所述的数据挖掘方法,其特征在于:
在所述步骤S4中,对经过所述清洗与治理后的数据进行基于机器学习的自动分类处理,以此将分类后的数据反馈至相应的工作流组合模式的业务节点中具体包括,
步骤S401,构建关于预定词汇集合的机器学习模型,并对所述机器学习模型进行优化;
步骤S402,将经过所述清洗与治理后的数据输入至优化后的所述机器学习模型,以此实现所述自动分类处理,其中所述自动分类处理具体包含,
第一,根据下面公式(1),确定分类集合,
R={r1,r2,…rn} (1)
在上述公式(1)中,R为所述分类集合,ri为所述分类集合中对应的第i个类别,i=1、2、…、n,n为类别总数量;
第二,根据下面公式(2),确定经过所述清洗与治理后的数据被划分到每个类别的概率,
在上述公式(2)中,P(ri|W)为经过所述清洗与治理后的数据被划分到每i个类别的概率,P(ri)为第i个类别对应的先验概率,rij为第i个类别对应的第j个特征,P(ri|xj)为第i个类别产生第i个特征的概率,P(W)为经过所述清洗与治理后的数据自身对应的概率;
第三,根据下面公式(3),确定经过所述清洗与治理后的数据的最终划分类别,
Γ=max{P(ri|W)} (3)
在上述公式(3)中,Γ为经过所述清洗与治理后的数据的最终划分类别对应的概率,P(ri|W)为经过所述清洗与治理后的数据被划分到每i个类别的概率,max为取最大值运算,当经过所述清洗与治理后的数据被划分到第i类别的概率为最大时,则将经过所述清洗与治理后的数据最终划分为第i类别;
步骤S403,将分类后的数据通过相应的数据反馈通道回送至相应的工作流组合模式的业务节点中。
5.一种数据挖掘系统,其特征在于:
所述数据挖掘系统包括业务节点设置模块、工作流组合模块、数据清洗与治理模块和数据自动分类模块;其中,
所述业务节点设置模块用于获取数据处理页面中不同数据业务工序对应的业务节点的实时状态,并结合所述实时状态和页面拖拽方式对所述业务节点进行可视化的参数设置;
所述工作流组合模块用于根据所述可视化的参数设置的结果,构建关于不同业务节点之间的数据交互链路,以此形成关于不同数据业务工序的工作流组合模式;
所述数据清洗与治理模块用于在相应的工作流组合模式中,对所述数据交互链路中的数据进行关于预定数据清洗框架的清洗与治理;
所述数据自动分类模块用于对经过所述清洗与治理后的数据进行基于机器学习的自动分类处理,以此将分类后的数据反馈至相应的工作流组合模式的业务节点中;
所述数据清洗与治理模块包括数据清洗方案确定子模块、数据质量信息确定子模块、非清洁数据类别与位置确定子模块、目标数据集合修正子模块和数据验证子模块;其中,
所述数据清洗方案确定子模块用于在相应的工作流组合模式中,根据所述工作流组合模式中的数据需求信息、大数据类别信息和数据任务信息,准备并确定相应的数据清洗方案;
所述数据质量信息确定子模块用于根据所述数据清洗方案,对目标数据集合进行检测,以此获得所述目标数据集合的数据质量信息;
所述非清洁数据类别与位置确定子模块用于根据所述数据质量信息,确定所述目标数据集合中非清洁数据的类别与位置信息;
所述目标数据集合修正子模块用于根据所述非清洁数据的类别与位置信息,以此对所述目标数据集合进行修正;
所述数据验证子模块用于将经过所述修正的所述目标数据集合,进行适应性的数据验证处理,以此实现所述清洗与治理。
6.如权利要求5所述的数据挖掘系统,其特征在于:
所述业务节点设置模块包括业务节点实时状态确定子模块、业务节点参数调整需求确定子模块和可视化参数设置子模块;其中,
所述业务节点实时状态确定子模块用于根据所述数据处理页面中不同数据业务工序的数据量特征、数据分布特性和数据结构特征中的至少一者,确定每一个数据业务工序对应的业务节点的实时状态;
所述业务节点参数调整需求确定子模块用于根据每一个数据业务工序对应的业务节点的实时状态,确定每一个数据业务工序对应的业务节点参数调整需求;
所述可视化参数设置子模块用于将相应的数据业务工序通过所述页面拖拽方式变换至可视化调整面板中,并根据所述业务节点参数调整需求,对所述业务节点进行可视化的参数设置。
7.如权利要求5所述的数据挖掘系统,其特征在于:
所述工作流组合模块包括数据属性确定子模块、数据交互链路构建子模块和工作流组合模式形成子模块;其中,
所述数据属性确定子模块用于根据所述可视化的参数设置的结果,确定每一个数据业务工序的业务节点对应的数据计算荷载属性和/或数据流传输属性;
所述数据交互链路构建子模块用于根据所述数据计算荷载属性和/或所述数据流传输属性,确定不同数据业务工序之间关于业务节点的接合匹配关系,以此构建关于不同业务节点之间的数据交互链路;
所述工作流组合模式形成子模块用于根据所述数据交互链路,形成至少关于数据逻辑关系拖拽布局业务工序、数据过滤业务工序、字段扩展业务工序、数据统计运算业务工序、数据碰撞运算业务工序、分析结果展现业务工序、EXCEL/CSV数据导入业务工序、HDFS文件处理业务工序中JDBC数据库操作业务工序相互之间的工作流组合模式。
8.如权利要求5所述的数据挖掘系统,其特征在于:
所述数据自动分类模块包括机械学习模型构建子模块、自动分类处理子模块和数据回送子模块;其中,
所述机械学习模型构建子模块用于构建关于预定词汇集合的机器学习模型,并对所述机器学习模型进行优化;
所述自动分类处理子模块用于将经过所述清洗与治理后的数据输入至优化后的所述机器学习模型,以此实现所述自动分类处理;
所述数据回送子模块用于将分类后的数据通过相应的数据反馈通道回送至相应的工作流组合模式的业务节点中。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010196851.3A CN111367969B (zh) | 2020-03-19 | 2020-03-19 | 一种数据挖掘方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010196851.3A CN111367969B (zh) | 2020-03-19 | 2020-03-19 | 一种数据挖掘方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111367969A CN111367969A (zh) | 2020-07-03 |
CN111367969B true CN111367969B (zh) | 2020-12-01 |
Family
ID=71211282
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010196851.3A Active CN111367969B (zh) | 2020-03-19 | 2020-03-19 | 一种数据挖掘方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111367969B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112802607B (zh) * | 2021-02-07 | 2022-07-08 | 无锡慧方科技有限公司 | 一种医疗数据治理系统 |
CN112766245B (zh) * | 2021-04-08 | 2021-07-20 | 北京三维天地科技股份有限公司 | 基于pdf格式文件的可视化仪器采集方法及系统 |
CN113190582B (zh) * | 2021-05-06 | 2021-11-16 | 北京三维天地科技股份有限公司 | 一种数据实时交互式挖掘流建模分析系统 |
CN117427770A (zh) * | 2023-08-18 | 2024-01-23 | 内蒙古兴业集团融冠矿业有限公司 | 一种用于选矿的智能控制方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107103050A (zh) * | 2017-03-31 | 2017-08-29 | 海通安恒(大连)大数据科技有限公司 | 一种大数据建模平台及方法 |
CN107526600A (zh) * | 2017-09-05 | 2017-12-29 | 成都优易数据有限公司 | 一种基于hadoop和spark的可视化数据挖掘分析平台及其数据清洗方法 |
CN108052665A (zh) * | 2017-12-29 | 2018-05-18 | 深圳市中易科技有限责任公司 | 一种基于分布式平台的数据清洗方法及装置 |
US10169729B2 (en) * | 2012-09-21 | 2019-01-01 | General Electric Company | Equipment control system |
CN110347667A (zh) * | 2019-06-27 | 2019-10-18 | 上海淇馥信息技术有限公司 | 一种数据清洗方法及装置 |
-
2020
- 2020-03-19 CN CN202010196851.3A patent/CN111367969B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10169729B2 (en) * | 2012-09-21 | 2019-01-01 | General Electric Company | Equipment control system |
CN107103050A (zh) * | 2017-03-31 | 2017-08-29 | 海通安恒(大连)大数据科技有限公司 | 一种大数据建模平台及方法 |
CN107526600A (zh) * | 2017-09-05 | 2017-12-29 | 成都优易数据有限公司 | 一种基于hadoop和spark的可视化数据挖掘分析平台及其数据清洗方法 |
CN108052665A (zh) * | 2017-12-29 | 2018-05-18 | 深圳市中易科技有限责任公司 | 一种基于分布式平台的数据清洗方法及装置 |
CN110347667A (zh) * | 2019-06-27 | 2019-10-18 | 上海淇馥信息技术有限公司 | 一种数据清洗方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN111367969A (zh) | 2020-07-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111367969B (zh) | 一种数据挖掘方法和系统 | |
Braglia et al. | A new value stream mapping approach for complex production systems | |
CN113454548A (zh) | 流水线的动态训练 | |
He et al. | Scheduling flexible job shop problem subject to machine breakdown with route changing and right-shift strategies | |
Subramaniyan et al. | Artificial intelligence for throughput bottleneck analysis–State-of-the-art and future directions | |
US20070100781A1 (en) | Conditional CSP solving using constraint propagation | |
CN110096569A (zh) | 一种众测人员集合推荐方法 | |
CN111723973B (zh) | 基于mooc日志数据中用户行为因果关系的学习效果优化方法 | |
Lugaresi et al. | Generation and tuning of discrete event simulation models for manufacturing applications | |
CN115170057A (zh) | 一种基于机器学习的oa审批控制系统及方法 | |
CN117952009A (zh) | 一种智能产线可试验数字孪生体建模方法 | |
EP1672578A1 (en) | Method and system for analyzing the risk of a project | |
CN104021180A (zh) | 一种组合式软件缺陷报告分类方法 | |
US20220129447A1 (en) | Method, system, device and medium for querying product history | |
CN114331146A (zh) | 一种基于大数据预测的纺织厂供应链管理系统 | |
CN108182545A (zh) | 一种带有阻塞限制的柔性开放车间调度问题的建模方法 | |
CN106202162A (zh) | 一种用于测试推荐房间数据列表的测试系统及方法 | |
CN115169426B (zh) | 一种基于相似性学习融合模型的异常检测方法及系统 | |
Penn et al. | Optimizing the quality control station configuration | |
DE102019112439A1 (de) | Systeme und Verfahren zur Verletzungsprädiktion bei einer Entwurfsregelprüfung | |
CN115391556A (zh) | 基于跨粒度交叉注意力融合的实体关系抽取方法、系统 | |
CN115660245A (zh) | 业务编排方法及装置、电子设备、存储介质 | |
CN112948469A (zh) | 数据挖掘方法、装置、计算机设备及存储介质 | |
CN114692888A (zh) | 系统参数处理方法、装置、设备及存储介质 | |
Hu et al. | Analyzing software system quality risk using Bayesian belief network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |