CN111367969A - 一种数据挖掘方法和系统 - Google Patents

一种数据挖掘方法和系统 Download PDF

Info

Publication number
CN111367969A
CN111367969A CN202010196851.3A CN202010196851A CN111367969A CN 111367969 A CN111367969 A CN 111367969A CN 202010196851 A CN202010196851 A CN 202010196851A CN 111367969 A CN111367969 A CN 111367969A
Authority
CN
China
Prior art keywords
data
service
cleaning
submodule
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010196851.3A
Other languages
English (en)
Other versions
CN111367969B (zh
Inventor
金震
杨海建
孙卫东
安杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing SunwayWorld Science and Technology Co Ltd
Original Assignee
Beijing SunwayWorld Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing SunwayWorld Science and Technology Co Ltd filed Critical Beijing SunwayWorld Science and Technology Co Ltd
Priority to CN202010196851.3A priority Critical patent/CN111367969B/zh
Publication of CN111367969A publication Critical patent/CN111367969A/zh
Application granted granted Critical
Publication of CN111367969B publication Critical patent/CN111367969B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Quality & Reliability (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Fuzzy Systems (AREA)
  • Computational Linguistics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供了一种数据挖掘方法和系统,该数据挖局方法和系统通过基于页面拖拽方式对该业务节点进行可视化的参数设置,使用户能够直接参与到大数据业务的相关工作流自动化配置中,此外,其该通过相应的数据清洗框架对大数据依次进行检测、定位、修正和验证的不同清洗工序,以有效地清洗大数据中存在的非清洁数据,从而保证数据本身的有效性和精确性,并且还能够有效地提高对大数据的挖掘深度、效率和准确性。

Description

一种数据挖掘方法和系统
技术领域
本发明涉及数据挖掘的技术领域,特别涉及一种数据挖掘方法和系统。
背景技术
随着互联网和物联网技术的不断发展,采集得到的数据种类和数量也迅猛增加,并且数据量的增长速度也越来越快,从而形成相应的大数据。大数据具有海量性、分布性和异构性这三个特性,海量性主要是指数据规模的巨大并且增长速度持续增加,分布性主要体现在巨大的数据量不能在一台机器上存储计算和分析,异构性主要体现在数据类型和数据来源的多样化。利用传统的面向结构化数据的集中式处理方式,很难解决大数据带来的问题,针对这三个特性,面向大数据的集成、挖掘和清洗变得尤为重要。大数据同时还包含不确定性数据,现阶段不确定数据产生的原因比较多样化,主要体现在原始数据不准确、使用粗粒度数据集合、数据字段缺失以及数据集成。可见,现有技术针对大数据的挖掘处理模式并不能有效地提高对大数据的挖掘深度、效率和准确性。
发明内容
针对现有技术存在的缺陷,本发明提供一种数据挖掘方法和系统,该数据挖掘方法和系统通过获取数据处理页面中不同数据业务工序对应的业务节点的实时状态,以此基于页面拖拽方式对该业务节点进行可视化的参数设置,根据该可视化的参数设置的结果,构建关于不同业务节点之间的数据交互链路,以此形成关于不同数据业务工序的工作流组合模式,在相应的工作流组合模式中,对该数据交互链路中的数据进行关于预定数据清洗框架的清洗与治理,对经过该清洗与治理后的数据进行基于机器学习的自动分类处理,以此将分类后的数据反馈至相应的工作流组合模式的业务节点中;可见,该数据挖局方法和系统通过基于页面拖拽方式对所述业务节点进行可视化的参数设置,使用户能够直接参与到大数据业务的相关工作流自动化配置中,此外,其该通过相应的数据清洗框架对大数据依次进行检测、定位、修正和验证的不同清洗工序,以有效地清洗大数据中存在的非清洁数据,从而保证数据本身的有效性和精确性,并且还能够有效地提高对大数据的挖掘深度、效率和准确性。
本发明提供一种数据挖掘方法,其特征在于,所述数据挖掘方法包括如下步骤:
步骤S1,获取数据处理页面中不同数据业务工序对应的业务节点的实时状态,并结合所述实时状态和页面拖拽方式对所述业务节点进行可视化的参数设置;
步骤S2,根据所述可视化的参数设置的结果,构建关于不同业务节点之间的数据交互链路,以此形成关于不同数据业务工序的工作流组合模式;
步骤S3,在相应的工作流组合模式中,对所述数据交互链路中的数据进行关于预定数据清洗框架的清洗与治理;
步骤S4,对经过所述清洗与治理后的数据进行基于机器学习的自动分类处理,以此将分类后的数据反馈至相应的工作流组合模式的业务节点中;
进一步,在所述步骤S1中,获取数据处理页面中不同数据业务工序对应的业务节点的实时状态,并结合所述实时状态和页面拖拽方式对所述业务节点进行可视化的参数设置具体包括,
步骤S101,获取所述数据处理页面中不同数据业务工序的数据量特征、数据分布特性和数据结构特征中的至少一者,以此确定每一个数据业务工序对应的业务节点的实时状态;
步骤S102,根据每一个数据业务工序对应的业务节点的实时状态,确定每一个数据业务工序对应的业务节点参数调整需求;
步骤S103,将相应的数据业务工序通过所述页面拖拽方式变换至可视化调整面板中,并根据所述业务节点参数调整需求,对所述业务节点进行可视化的参数设置;
进一步,在所述步骤S2中,根据所述可视化的参数设置的结果,构建关于不同业务节点之间的数据交互链路,以此形成关于不同数据业务工序的工作流组合模式具体包括,
步骤S201,根据所述可视化的参数设置的结果,确定每一个数据业务工序的业务节点对应的数据计算荷载属性和/或数据流传输属性;
步骤S202,根据所述数据计算荷载属性和/或所述数据流传输属性,确定不同数据业务工序之间关于业务节点的接合匹配关系,以此构建关于不同业务节点之间的数据交互链路;
步骤S203,根据所述数据交互链路,形成至少关于数据逻辑关系拖拽布局业务工序、数据过滤业务工序、字段扩展业务工序、数据统计运算业务工序、数据碰撞运算业务工序、分析结果展现业务工序、EXCEL/CSV数据导入业务工序、HDFS文件处理业务工序中JDBC数据库操作业务工序相互之间的工作流组合模式;
进一步,在所述步骤S3中,在相应的工作流组合模式中,对所述数据交互链路中的数据进行关于预定数据清洗框架的清洗与治理具体包括,
步骤S301,在相应的工作流组合模式中,根据所述工作流组合模式中的数据需求信息、大数据类别信息和数据任务信息,准备并确定相应的数据清洗方案;
步骤S302,根据所述数据清洗方案,对目标数据集合进行检测,以此获得所述目标数据集合的数据质量信息;
步骤S303,根据所述数据质量信息,确定所述目标数据集合中非清洁数据的类别与位置信息;
步骤S304,根据所述非清洁数据的类别与位置信息,以此对所述目标数据集合进行修正;
步骤S305,将经过所述修正的所述目标数据集合,进行适应性的数据验证处理,以此实现所述清洗与治理;
进一步,在所述步骤S4中,对经过所述清洗与治理后的数据进行基于机器学习的自动分类处理,以此将分类后的数据反馈至相应的工作流组合模式的业务节点中具体包括,
步骤S401,构建关于预定词汇集合的机器学习模型,并对所述机器学习模型进行优化;
步骤S402,将经过所述清洗与治理后的数据输入至优化后的所述机器学习模型,以此实现所述自动分类处理,其中所述自动分类处理具体包含,
第一,根据下面公式(1),确定分类集合,
R={r1,r2,…rn} (1)
在上述公式(1)中,R为所述分类集合,ri为所述分类集合中对应的第i个类别,i=1、2、…、n,n为类别总数量;
第二,根据下面公式(2),确定经过所述清洗与治理后的数据被划分到每个类别的概率,
Figure BDA0002417937890000041
在上述公式(2)中,P(ri|W)为经过所述清洗与治理后的数据被划分到每i个类别的概率,P(ri)为第i个类别对应的先验概率,rij为第i个类别对应的第j个特征,P(ri|xj)为第i个类别产生第i个特征的概率,P(W)为经过所述清洗与治理后的数据自身对应的概率;
第三,根据下面公式(3),确定经过所述清洗与治理后的数据的最终划分类别,
Γ=max{P(ri|W)} (3)
在上述公式(3)中,Γ为经过所述清洗与治理后的数据的最终划分类别对应的概率,P(ri|W)为经过所述清洗与治理后的数据被划分到每i个类别的概率,max为取最大值运算,当经过所述清洗与治理后的数据被划分到第i类别的概率为最大时,则将经过所述清洗与治理后的数据最终划分为第i类别;
步骤S403,将分类后的数据通过相应的数据反馈通道回送至相应的工作流组合模式的业务节点中。
本发明还提供一种数据挖掘系统,其特征在于:
所述数据挖掘系统包括业务节点设置模块、工作流组合模块、数据清洗与治理模块和数据自动分类模块;其中,
所述业务节点设置模块用于获取数据处理页面中不同数据业务工序对应的业务节点的实时状态,并结合所述实时状态和页面拖拽方式对所述业务节点进行可视化的参数设置;
所述工作流组合模块用于根据所述可视化的参数设置的结果,构建关于不同业务节点之间的数据交互链路,以此形成关于不同数据业务工序的工作流组合模式;
所述数据清洗与治理模块用于在相应的工作流组合模式中,对所述数据交互链路中的数据进行关于预定数据清洗框架的清洗与治理;
所述数据自动分类模块用于对经过所述清洗与治理后的数据进行基于机器学习的自动分类处理,以此将分类后的数据反馈至相应的工作流组合模式的业务节点中;
进一步,所述业务节点设置模块包括业务节点实时状态确定子模块、业务节点参数调整需求确定子模块和可视化参数设置子模块;其中,
所述业务节点实时状态确定子模块用于根据所述数据处理页面中不同数据业务工序的数据量特征、数据分布特性和数据结构特征中的至少一者,确定每一个数据业务工序对应的业务节点的实时状态;
所述业务节点参数调整需求确定子模块用于根据每一个数据业务工序对应的业务节点的实时状态,确定每一个数据业务工序对应的业务节点参数调整需求;
所述可视化参数设置子模块用于将相应的数据业务工序通过所述页面拖拽方式变换至可视化调整面板中,并根据所述业务节点参数调整需求,对所述业务节点进行可视化的参数设置;
进一步,所述工作流组合模块包括数据属性确定子模块、数据交互链路构建子模块和工作流组合模式形成子模块;其中,
所述数据属性确定子模块用于根据所述可视化的参数设置的结果,确定每一个数据业务工序的业务节点对应的数据计算荷载属性和/或数据流传输属性;
所述数据交互链路构建子模块用于根据所述数据计算荷载属性和/或所述数据流传输属性,确定不同数据业务工序之间关于业务节点的接合匹配关系,以此构建关于不同业务节点之间的数据交互链路;
所述工作流组合模式形成子模块用于根据所述数据交互链路,形成至少关于数据逻辑关系拖拽布局业务工序、数据过滤业务工序、字段扩展业务工序、数据统计运算业务工序、数据碰撞运算业务工序、分析结果展现业务工序、EXCEL/CSV数据导入业务工序、HDFS文件处理业务工序中JDBC数据库操作业务工序相互之间的工作流组合模式;
进一步,所述数据清洗与治理模块包括数据清洗方案确定子模块、数据质量信息确定子模块、非清洁数据类别与位置确定子模块、目标数据集合修正子模块和数据验证子模块;其中,
所述数据清洗方案确定子模块用于在相应的工作流组合模式中,根据所述工作流组合模式中的数据需求信息、大数据类别信息和数据任务信息,准备并确定相应的数据清洗方案;
所述数据质量信息确定子模块用于根据所述数据清洗方案,对目标数据集合进行检测,以此获得所述目标数据集合的数据质量信息;
所述非清洁数据类别与位置确定子模块用于根据所述数据质量信息,确定所述目标数据集合中非清洁数据的类别与位置信息;
所述目标数据集合修正子模块用于根据所述非清洁数据的类别与位置信息,以此对所述目标数据集合进行修正;
所述数据验证子模块用于将经过所述修正的所述目标数据集合,进行适应性的数据验证处理,以此实现所述清洗与治理;
进一步,所述数据自动分类模块包括机械学习模型构建子模块、自动分类处理子模块和数据回送子模块;其中,
所述机械学习模型构建子模块用于构建关于预定词汇集合的机器学习模型,并对所述机器学习模型进行优化;
所述自动分类处理子模块用于将经过所述清洗与治理后的数据输入至优化后的所述机器学习模型,以此实现所述自动分类处理;
所述数据回送子模块用于将分类后的数据通过相应的数据反馈通道回送至相应的工作流组合模式的业务节点中。
相比于现有技术,该数据挖掘方法和系统通过获取数据处理页面中不同数据业务工序对应的业务节点的实时状态,以此基于页面拖拽方式对该业务节点进行可视化的参数设置,根据该可视化的参数设置的结果,构建关于不同业务节点之间的数据交互链路,以此形成关于不同数据业务工序的工作流组合模式,在相应的工作流组合模式中,对该数据交互链路中的数据进行关于预定数据清洗框架的清洗与治理,对经过该清洗与治理后的数据进行基于机器学习的自动分类处理,以此将分类后的数据反馈至相应的工作流组合模式的业务节点中;可见,该数据挖局方法和系统通过基于页面拖拽方式对所述业务节点进行可视化的参数设置,使用户能够直接参与到大数据业务的相关工作流自动化配置中,此外,其该通过相应的数据清洗框架对大数据依次进行检测、定位、修正和验证的不同清洗工序,以有效地清洗大数据中存在的非清洁数据,从而保证数据本身的有效性和精确性,并且还能够有效地提高对大数据的挖掘深度、效率和准确性。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的一种数据挖掘方法的流程示意图。
图2为本发明提供的一种数据挖掘系统的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参阅图1,为本发明实施例提供的一种数据挖掘方法的流程示意图。该数据挖掘方法包括如下步骤:
步骤S1,获取数据处理页面中不同数据业务工序对应的业务节点的实时状态,并结合所述实时状态和页面拖拽方式对所述业务节点进行可视化的参数设置;
步骤S2,根据该可视化的参数设置的结果,构建关于不同业务节点之间的数据交互链路,以此形成关于不同数据业务工序的工作流组合模式,其中,该工作流组合模式可为但不限于是不同业务节点执行关于数据接收拦截、数据编辑更改或者数据提取存储的数据业务工序时,相应的数据流传送方向变更模式和/或指令流传送方向变更模式;
步骤S3,在相应的工作流组合模式中,对该数据交互链路中的数据进行关于预定数据清洗框架的清洗与治理;
步骤S4,对经过该清洗与治理后的数据进行基于机器学习的自动分类处理,以此将分类后的数据反馈至相应的工作流组合模式的业务节点中。
优选地,在该步骤S1中,获取数据处理页面中不同数据业务工序对应的业务节点的实时状态,并结合该实时状态和页面拖拽方式对该业务节点进行可视化的参数设置具体包括,
步骤S101,获取该数据处理页面中不同数据业务工序的数据量特征、数据分布特性和数据结构特征中的至少一者,以此确定每一个数据业务工序对应的业务节点的实时状态;
步骤S102,根据每一个数据业务工序对应的业务节点的实时状态,确定每一个数据业务工序对应的业务节点参数调整需求;
步骤S103,将相应的数据业务工序通过该页面拖拽方式变换至可视化调整面板中,并根据该业务节点参数调整需求,对该业务节点进行可视化的参数设置。
优选地,在该步骤S2中,根据该可视化的参数设置的结果,构建关于不同业务节点之间的数据交互链路,以此形成关于不同数据业务工序的工作流组合模式具体包括,
步骤S201,根据该可视化的参数设置的结果,确定每一个数据业务工序的业务节点对应的数据计算荷载属性和/或数据流传输属性;
步骤S202,根据该数据计算荷载属性和/或该数据流传输属性,确定不同数据业务工序之间关于业务节点的接合匹配关系,以此构建关于不同业务节点之间的数据交互链路;
步骤S203,根据该数据交互链路,形成至少关于数据逻辑关系拖拽布局业务工序、数据过滤业务工序、字段扩展业务工序、数据统计运算业务工序、数据碰撞运算业务工序、分析结果展现业务工序、EXCEL/CSV数据导入业务工序、HDFS文件处理业务工序中JDBC数据库操作业务工序相互之间的工作流组合模式。
优选地,在该步骤S3中,在相应的工作流组合模式中,对该数据交互链路中的数据进行关于预定数据清洗框架的清洗与治理具体包括,
步骤S301,在相应的工作流组合模式中,根据该工作流组合模式中的数据需求信息、大数据类别信息和数据任务信息,准备并确定相应的数据清洗方案;
步骤S302,根据该数据清洗方案,对目标数据集合进行检测,以此获得该目标数据集合的数据质量信息;
步骤S303,根据该数据质量信息,确定该目标数据集合中非清洁数据的类别与位置信息;
步骤S304,根据该非清洁数据的类别与位置信息,以此对该目标数据集合进行修正;
步骤S305,将经过该修正的该目标数据集合,进行适应性的数据验证处理,以此实现该清洗与治理。
优选地,在该步骤S4中,对经过该清洗与治理后的数据进行基于机器学习的自动分类处理,以此将分类后的数据反馈至相应的工作流组合模式的业务节点中具体包括,
步骤S401,构建关于预定词汇集合的机器学习模型,并对该机器学习模型进行优化;
步骤S402,将经过该清洗与治理后的数据输入至优化后的该机器学习模型,以此实现该自动分类处理,其中该自动分类处理具体包含,
第一,根据下面公式(1),确定分类集合,
R={r1,r2,…rn} (1)
在上述公式(1)中,R为该分类集合,ri为该分类集合中对应的第i个类别,i=1、2、…、n,n为类别总数量;
第二,根据下面公式(2),确定经过该清洗与治理后的数据被划分到每个类别的概率,
Figure BDA0002417937890000111
在上述公式(2)中,P(ri|W)为经过该清洗与治理后的数据被划分到每i个类别的概率,P(ri)为第i个类别对应的先验概率,rij为第i个类别对应的第j个特征,P(ri|xj)为第i个类别产生第i个特征的概率,P(W)为经过该清洗与治理后的数据自身对应的概率;
第三,根据下面公式(3),确定经过该清洗与治理后的数据的最终划分类别,
Γ=max{P(ri|W)} (3)
在上述公式(3)中,Γ为经过该清洗与治理后的数据的最终划分类别对应的概率,P(ri|W)为经过该清洗与治理后的数据被划分到每i个类别的概率,max为取最大值运算,当经过该清洗与治理后的数据被划分到第i类别的概率为最大时,则将经过该清洗与治理后的数据最终划分为第i类别;
步骤S403,将分类后的数据通过相应的数据反馈通道回送至相应的工作流组合模式的业务节点中;
通过上述自动分类处理过程,能够简单地和快速地将经过清洗与治理后的数据划分到合适的分类类别中,从而提高对数据进行分类类别划分的精确度和有效性,以此适应于不同的复杂数据情况。
参阅图2,为本发明实施例提供的一种数据挖掘系统的结构示意图。该数据挖掘系统包括业务节点设置模块、工作流组合模块、数据清洗与治理模块和数据自动分类模块;其中,
该业务节点设置模块用于获取数据处理页面中不同数据业务工序对应的业务节点的实时状态,并结合该实时状态和页面拖拽方式对该业务节点进行可视化的参数设置;
该工作流组合模块用于根据该可视化的参数设置的结果,构建关于不同业务节点之间的数据交互链路,以此形成关于不同数据业务工序的工作流组合模式;
该数据清洗与治理模块用于在相应的工作流组合模式中,对该数据交互链路中的数据进行关于预定数据清洗框架的清洗与治理;
该数据自动分类模块用于对经过该清洗与治理后的数据进行基于机器学习的自动分类处理,以此将分类后的数据反馈至相应的工作流组合模式的业务节点中。
优选地,该业务节点设置模块包括业务节点实时状态确定子模块、业务节点参数调整需求确定子模块和可视化参数设置子模块;其中,
该业务节点实时状态确定子模块用于根据该数据处理页面中不同数据业务工序的数据量特征、数据分布特性和数据结构特征中的至少一者,确定每一个数据业务工序对应的业务节点的实时状态;
该业务节点参数调整需求确定子模块用于根据每一个数据业务工序对应的业务节点的实时状态,确定每一个数据业务工序对应的业务节点参数调整需求;
该可视化参数设置子模块用于将相应的数据业务工序通过该页面拖拽方式变换至可视化调整面板中,并根据该业务节点参数调整需求,对该业务节点进行可视化的参数设置。
优选地,该工作流组合模块包括数据属性确定子模块、数据交互链路构建子模块和工作流组合模式形成子模块;其中,
该数据属性确定子模块用于根据该可视化的参数设置的结果,确定每一个数据业务工序的业务节点对应的数据计算荷载属性和/或数据流传输属性;
该数据交互链路构建子模块用于根据该数据计算荷载属性和/或该数据流传输属性,确定不同数据业务工序之间关于业务节点的接合匹配关系,以此构建关于不同业务节点之间的数据交互链路;
该工作流组合模式形成子模块用于根据该数据交互链路,形成至少关于数据逻辑关系拖拽布局业务工序、数据过滤业务工序、字段扩展业务工序、数据统计运算业务工序、数据碰撞运算业务工序、分析结果展现业务工序、EXCEL/CSV数据导入业务工序、HDFS文件处理业务工序中JDBC数据库操作业务工序相互之间的工作流组合模式。
优选地,该数据清洗与治理模块包括数据清洗方案确定子模块、数据质量信息确定子模块、非清洁数据类别与位置确定子模块、目标数据集合修正子模块和数据验证子模块;其中,
该数据清洗方案确定子模块用于在相应的工作流组合模式中,根据该工作流组合模式中的数据需求信息、大数据类别信息和数据任务信息,准备并确定相应的数据清洗方案;
该数据质量信息确定子模块用于根据该数据清洗方案,对目标数据集合进行检测,以此获得该目标数据集合的数据质量信息;
该非清洁数据类别与位置确定子模块用于根据该数据质量信息,确定该目标数据集合中非清洁数据的类别与位置信息;
该目标数据集合修正子模块用于根据该非清洁数据的类别与位置信息,以此对该目标数据集合进行修正;
该数据验证子模块用于将经过该修正的该目标数据集合,进行适应性的数据验证处理,以此实现该清洗与治理。
优选地,该数据自动分类模块包括机械学习模型构建子模块、自动分类处理子模块和数据回送子模块;其中,
该机械学习模型构建子模块用于构建关于预定词汇集合的机器学习模型,并对该机器学习模型进行优化;
该自动分类处理子模块用于将经过该清洗与治理后的数据输入至优化后的该机器学习模型,以此实现该自动分类处理;
该数据回送子模块用于将分类后的数据通过相应的数据反馈通道回送至相应的工作流组合模式的业务节点中。
从上述实施例的内容可知,该数据挖局方法和系统通过基于页面拖拽方式对该业务节点进行可视化的参数设置,使用户能够直接参与到大数据业务的相关工作流自动化配置中,此外,其该通过相应的数据清洗框架对大数据依次进行检测、定位、修正和验证的不同清洗工序,以有效地清洗大数据中存在的非清洁数据,从而保证数据本身的有效性和精确性,并且还能够有效地提高对大数据的挖掘深度、效率和准确性。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

1.一种数据挖掘方法,其特征在于,所述数据挖掘方法包括如下步骤:
步骤S1,获取数据处理页面中不同数据业务工序对应的业务节点的实时状态,并结合所述实时状态和页面拖拽方式对所述业务节点进行可视化的参数设置;
步骤S2,根据所述可视化的参数设置的结果,构建关于不同业务节点之间的数据交互链路,以此形成关于不同数据业务工序的工作流组合模式;
步骤S3,在相应的工作流组合模式中,对所述数据交互链路中的数据进行关于预定数据清洗框架的清洗与治理;
步骤S4,对经过所述清洗与治理后的数据进行基于机器学习的自动分类处理,以此将分类后的数据反馈至相应的工作流组合模式的业务节点中。
2.如权利要求1所述的数据挖掘方法,其特征在于:
在所述步骤S1中,获取数据处理页面中不同数据业务工序对应的业务节点的实时状态,并结合所述实时状态和页面拖拽方式对所述业务节点进行可视化的参数设置具体包括,
步骤S101,获取所述数据处理页面中不同数据业务工序的数据量特征、数据分布特性和数据结构特征中的至少一者,以此确定每一个数据业务工序对应的业务节点的实时状态;
步骤S102,根据每一个数据业务工序对应的业务节点的实时状态,确定每一个数据业务工序对应的业务节点参数调整需求;
步骤S103,将相应的数据业务工序通过所述页面拖拽方式变换至可视化调整面板中,并根据所述业务节点参数调整需求,对所述业务节点进行可视化的参数设置。
3.如权利要求1所述的数据挖掘方法,其特征在于:
在所述步骤S2中,根据所述可视化的参数设置的结果,构建关于不同业务节点之间的数据交互链路,以此形成关于不同数据业务工序的工作流组合模式具体包括,
步骤S201,根据所述可视化的参数设置的结果,确定每一个数据业务工序的业务节点对应的数据计算荷载属性和/或数据流传输属性;
步骤S202,根据所述数据计算荷载属性和/或所述数据流传输属性,确定不同数据业务工序之间关于业务节点的接合匹配关系,以此构建关于不同业务节点之间的数据交互链路;
步骤S203,根据所述数据交互链路,形成至少关于数据逻辑关系拖拽布局业务工序、数据过滤业务工序、字段扩展业务工序、数据统计运算业务工序、数据碰撞运算业务工序、分析结果展现业务工序、EXCEL/CSV数据导入业务工序、HDFS文件处理业务工序中JDBC数据库操作业务工序相互之间的工作流组合模式。
4.如权利要求1所述的数据挖掘方法,其特征在于:
在所述步骤S3中,在相应的工作流组合模式中,对所述数据交互链路中的数据进行关于预定数据清洗框架的清洗与治理具体包括,
步骤S301,在相应的工作流组合模式中,根据所述工作流组合模式中的数据需求信息、大数据类别信息和数据任务信息,准备并确定相应的数据清洗方案;
步骤S302,根据所述数据清洗方案,对目标数据集合进行检测,以此获得所述目标数据集合的数据质量信息;
步骤S303,根据所述数据质量信息,确定所述目标数据集合中非清洁数据的类别与位置信息;
步骤S304,根据所述非清洁数据的类别与位置信息,以此对所述目标数据集合进行修正;
步骤S305,将经过所述修正的所述目标数据集合,进行适应性的数据验证处理,以此实现所述清洗与治理。
5.如权利要求1所述的数据挖掘方法,其特征在于:
在所述步骤S4中,对经过所述清洗与治理后的数据进行基于机器学习的自动分类处理,以此将分类后的数据反馈至相应的工作流组合模式的业务节点中具体包括,
步骤S401,构建关于预定词汇集合的机器学习模型,并对所述机器学习模型进行优化;
步骤S402,将经过所述清洗与治理后的数据输入至优化后的所述机器学习模型,以此实现所述自动分类处理,其中所述自动分类处理具体包含,
第一,根据下面公式(1),确定分类集合,
R={r1,r2,…rn} (1)
在上述公式(1)中,R为所述分类集合,ri为所述分类集合中对应的第i个类别,i=1、2、…、n,n为类别总数量;
第二,根据下面公式(2),确定经过所述清洗与治理后的数据被划分到每个类别的概率,
Figure FDA0002417937880000031
在上述公式(2)中,P(ri|W)为经过所述清洗与治理后的数据被划分到每i个类别的概率,P(ri)为第i个类别对应的先验概率,rij为第i个类别对应的第j个特征,P(ri|xj)为第i个类别产生第i个特征的概率,P(W)为经过所述清洗与治理后的数据自身对应的概率;
第三,根据下面公式(3),确定经过所述清洗与治理后的数据的最终划分类别,
Γ=max{P(ri|W)} (3)
在上述公式(3)中,Γ为经过所述清洗与治理后的数据的最终划分类别对应的概率,P(ri|W)为经过所述清洗与治理后的数据被划分到每i个类别的概率,max为取最大值运算,当经过所述清洗与治理后的数据被划分到第i类别的概率为最大时,则将经过所述清洗与治理后的数据最终划分为第i类别;
步骤S403,将分类后的数据通过相应的数据反馈通道回送至相应的工作流组合模式的业务节点中。
6.一种数据挖掘方法系统,其特征在于:
所述数据挖掘系统包括业务节点设置模块、工作流组合模块、数据清洗与治理模块和数据自动分类模块;其中,
所述业务节点设置模块用于获取数据处理页面中不同数据业务工序对应的业务节点的实时状态,并结合所述实时状态和页面拖拽方式对所述业务节点进行可视化的参数设置;
所述工作流组合模块用于根据所述可视化的参数设置的结果,构建关于不同业务节点之间的数据交互链路,以此形成关于不同数据业务工序的工作流组合模式;
所述数据清洗与治理模块用于在相应的工作流组合模式中,对所述数据交互链路中的数据进行关于预定数据清洗框架的清洗与治理;
所述数据自动分类模块用于对经过所述清洗与治理后的数据进行基于机器学习的自动分类处理,以此将分类后的数据反馈至相应的工作流组合模式的业务节点中。
7.如权利要求6所述的数据挖掘系统,其特征在于:
所述业务节点设置模块包括业务节点实时状态确定子模块、业务节点参数调整需求确定子模块和可视化参数设置子模块;其中,
所述业务节点实时状态确定子模块用于根据所述数据处理页面中不同数据业务工序的数据量特征、数据分布特性和数据结构特征中的至少一者,确定每一个数据业务工序对应的业务节点的实时状态;
所述业务节点参数调整需求确定子模块用于根据每一个数据业务工序对应的业务节点的实时状态,确定每一个数据业务工序对应的业务节点参数调整需求;
所述可视化参数设置子模块用于将相应的数据业务工序通过所述页面拖拽方式变换至可视化调整面板中,并根据所述业务节点参数调整需求,对所述业务节点进行可视化的参数设置。
8.如权利要求6所述的数据挖掘系统,其特征在于:
所述工作流组合模块包括数据属性确定子模块、数据交互链路构建子模块和工作流组合模式形成子模块;其中,
所述数据属性确定子模块用于根据所述可视化的参数设置的结果,确定每一个数据业务工序的业务节点对应的数据计算荷载属性和/或数据流传输属性;
所述数据交互链路构建子模块用于根据所述数据计算荷载属性和/或所述数据流传输属性,确定不同数据业务工序之间关于业务节点的接合匹配关系,以此构建关于不同业务节点之间的数据交互链路;
所述工作流组合模式形成子模块用于根据所述数据交互链路,形成至少关于数据逻辑关系拖拽布局业务工序、数据过滤业务工序、字段扩展业务工序、数据统计运算业务工序、数据碰撞运算业务工序、分析结果展现业务工序、EXCEL/CSV数据导入业务工序、HDFS文件处理业务工序中JDBC数据库操作业务工序相互之间的工作流组合模式。
9.如权利要求6所述的数据挖掘系统,其特征在于:
所述数据清洗与治理模块包括数据清洗方案确定子模块、数据质量信息确定子模块、非清洁数据类别与位置确定子模块、目标数据集合修正子模块和数据验证子模块;其中,
所述数据清洗方案确定子模块用于在相应的工作流组合模式中,根据所述工作流组合模式中的数据需求信息、大数据类别信息和数据任务信息,准备并确定相应的数据清洗方案;
所述数据质量信息确定子模块用于根据所述数据清洗方案,对目标数据集合进行检测,以此获得所述目标数据集合的数据质量信息;
所述非清洁数据类别与位置确定子模块用于根据所述数据质量信息,确定所述目标数据集合中非清洁数据的类别与位置信息;
所述目标数据集合修正子模块用于根据所述非清洁数据的类别与位置信息,以此对所述目标数据集合进行修正;
所述数据验证子模块用于将经过所述修正的所述目标数据集合,进行适应性的数据验证处理,以此实现所述清洗与治理。
10.如权利要求6所述的数据挖掘系统,其特征在于:
所述数据自动分类模块包括机械学习模型构建子模块、自动分类处理子模块和数据回送子模块;其中,
所述机械学习模型构建子模块用于构建关于预定词汇集合的机器学习模型,并对所述机器学习模型进行优化;
所述自动分类处理子模块用于将经过所述清洗与治理后的数据输入至优化后的所述机器学习模型,以此实现所述自动分类处理;
所述数据回送子模块用于将分类后的数据通过相应的数据反馈通道回送至相应的工作流组合模式的业务节点中。
CN202010196851.3A 2020-03-19 2020-03-19 一种数据挖掘方法和系统 Active CN111367969B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010196851.3A CN111367969B (zh) 2020-03-19 2020-03-19 一种数据挖掘方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010196851.3A CN111367969B (zh) 2020-03-19 2020-03-19 一种数据挖掘方法和系统

Publications (2)

Publication Number Publication Date
CN111367969A true CN111367969A (zh) 2020-07-03
CN111367969B CN111367969B (zh) 2020-12-01

Family

ID=71211282

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010196851.3A Active CN111367969B (zh) 2020-03-19 2020-03-19 一种数据挖掘方法和系统

Country Status (1)

Country Link
CN (1) CN111367969B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112766245A (zh) * 2021-04-08 2021-05-07 北京三维天地科技股份有限公司 基于pdf格式文件的可视化仪器采集方法及系统
CN113190582A (zh) * 2021-05-06 2021-07-30 北京三维天地科技股份有限公司 一种数据实时交互式挖掘流建模分析系统
WO2022166859A1 (zh) * 2021-02-07 2022-08-11 无锡慧方科技有限公司 一种医疗数据治理系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107103050A (zh) * 2017-03-31 2017-08-29 海通安恒(大连)大数据科技有限公司 一种大数据建模平台及方法
CN107526600A (zh) * 2017-09-05 2017-12-29 成都优易数据有限公司 一种基于hadoop和spark的可视化数据挖掘分析平台及其数据清洗方法
CN108052665A (zh) * 2017-12-29 2018-05-18 深圳市中易科技有限责任公司 一种基于分布式平台的数据清洗方法及装置
US10169729B2 (en) * 2012-09-21 2019-01-01 General Electric Company Equipment control system
CN110347667A (zh) * 2019-06-27 2019-10-18 上海淇馥信息技术有限公司 一种数据清洗方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10169729B2 (en) * 2012-09-21 2019-01-01 General Electric Company Equipment control system
CN107103050A (zh) * 2017-03-31 2017-08-29 海通安恒(大连)大数据科技有限公司 一种大数据建模平台及方法
CN107526600A (zh) * 2017-09-05 2017-12-29 成都优易数据有限公司 一种基于hadoop和spark的可视化数据挖掘分析平台及其数据清洗方法
CN108052665A (zh) * 2017-12-29 2018-05-18 深圳市中易科技有限责任公司 一种基于分布式平台的数据清洗方法及装置
CN110347667A (zh) * 2019-06-27 2019-10-18 上海淇馥信息技术有限公司 一种数据清洗方法及装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022166859A1 (zh) * 2021-02-07 2022-08-11 无锡慧方科技有限公司 一种医疗数据治理系统
CN112766245A (zh) * 2021-04-08 2021-05-07 北京三维天地科技股份有限公司 基于pdf格式文件的可视化仪器采集方法及系统
CN112766245B (zh) * 2021-04-08 2021-07-20 北京三维天地科技股份有限公司 基于pdf格式文件的可视化仪器采集方法及系统
CN113190582A (zh) * 2021-05-06 2021-07-30 北京三维天地科技股份有限公司 一种数据实时交互式挖掘流建模分析系统

Also Published As

Publication number Publication date
CN111367969B (zh) 2020-12-01

Similar Documents

Publication Publication Date Title
CN111367969B (zh) 一种数据挖掘方法和系统
CN108596335B (zh) 一种基于深度强化学习的自适应众包方法
Braglia et al. A new value stream mapping approach for complex production systems
CN113454548A (zh) 流水线的动态训练
Subramaniyan et al. Artificial intelligence for throughput bottleneck analysis–State-of-the-art and future directions
US20070100781A1 (en) Conditional CSP solving using constraint propagation
Tang et al. A systematic approach to design and operation of disassembly lines
CN111723973B (zh) 基于mooc日志数据中用户行为因果关系的学习效果优化方法
CN110096569A (zh) 一种众测人员集合推荐方法
CN106909901A (zh) 从图像中检测物体的方法及装置
CN113544604A (zh) 流水线的装配误差校正
CN115170057A (zh) 一种基于机器学习的oa审批控制系统及方法
CN104021180A (zh) 一种组合式软件缺陷报告分类方法
US11645272B2 (en) Method, system, device and medium for querying product history
Facchinetti et al. Application of the overall equipment effectiveness to a service company
Liu et al. Integrated optimization of mixed-model assembly line balancing and buffer allocation based on operation time complexity
CN108182545A (zh) 一种带有阻塞限制的柔性开放车间调度问题的建模方法
Penn et al. Optimizing the quality control station configuration
WO2022217712A1 (zh) 数据挖掘方法、装置、计算机设备及存储介质
CN115660245A (zh) 业务编排方法及装置、电子设备、存储介质
de Waal et al. Automatic editing for business surveys: an assessment of selected algorithms
CN111581823A (zh) 一种施工质量-工期-成本优化方法、装置和电子设备
Ceballos et al. Proposal of Improvement for a Textile Finishing Company in the Medellin city Through of Discrete Simulation
CN115660227B (zh) 一种基于cart增强的混合流水车间调度模型优化方法
Zhang et al. Research on high-efficiency resource allocation of multi-edge devices based on cloud manufacturing mode

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant