CN1588361A - 一种表达数据挖掘流程的方法 - Google Patents

一种表达数据挖掘流程的方法 Download PDF

Info

Publication number
CN1588361A
CN1588361A CN 200410066237 CN200410066237A CN1588361A CN 1588361 A CN1588361 A CN 1588361A CN 200410066237 CN200410066237 CN 200410066237 CN 200410066237 A CN200410066237 A CN 200410066237A CN 1588361 A CN1588361 A CN 1588361A
Authority
CN
China
Prior art keywords
data
algorithm
task
result
expression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN 200410066237
Other languages
English (en)
Inventor
金澈清
周傲英
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fudan University
Original Assignee
Fudan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fudan University filed Critical Fudan University
Priority to CN 200410066237 priority Critical patent/CN1588361A/zh
Publication of CN1588361A publication Critical patent/CN1588361A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明为一种表达数据挖掘流程的方法。首先是准确划分一个完整的数据挖掘任务,然后由流程的方法描述数据挖掘的任务。前者包括分为数据预处理、算法执行、可视化等。本发明方法分解合理,使用方便,并具有良好的可扩展性。

Description

一种表达数据挖掘流程的方法
技术领域
本发明属数据库技术领域,具体涉及一种新颖的表达数据挖掘流程的方法。
背景技术
自从上个世纪60年代以来,数据库和信息技术已经系统地由原始的文件处理演化到复杂的功能强大的数据库系统。数据库系统中的数据量也在应用的扩展中不断地积累。数据的丰富带来了对强有力地数据分析工具的需求,大量的数据被描述为“数据丰富,但信息贫乏”。快速增长的海量数据收集、存放在大型和大量数据库中,没有强有力的工具,理解他们已经远远超出了人的能力。这样,重要的决定常常不是基于数据库中信息丰富的数据,而是基于决策者的直观。但是,如果通过数据挖掘工具进行数据分析,可以发现重要的数据模式,对商务决策、知识库、科学和医学研究等领域都会起到相当大的作用,从而使得数据和信息之间的“鸿沟”不再存在了。
数据挖掘和知识发现是决策支持系统的重要内容。通过对历史数据集合进行挖掘,用户能够找出所隐藏的一些知识和应用,并且对将来的行为产生指导。在具体应用中,一个数据挖掘任务的成功执行必须经由多个步骤的紧密合作,才能够完成。
近十年来,数据挖掘技术得到了充分的发展,针对不同的领域问题,学术界提出了多种解决的算法,例如分类、聚类、关联规则、孤立点查询等等。对于如何在一个框架之下合理整合各种算法,历来是各个数据挖掘公司的核心技术。
发明内容
本发明的目的在于提出一种用形式化的方法表达数据挖掘流程,以解决数据挖掘软件中流程难以表示和维护的问题。
本发明提出的表达数据挖掘流程的方法,首先是准确划分一个完整数据挖掘任务,然后用流程的方法描述数据挖掘的任务。
划分数据挖掘任务
将一个完整的数据挖掘任务划分为三个阶段:数据预处理、算法执行和可视化。不同的阶段又可以根据其功能再进行细分。下面具体介绍各个任务的功能。
数据预处理:选择数据源,并且对数据源做一些必要的变换,作为算法执行的输入。因此,这个阶段可以细分为两类子功能,(一)选择数据源。可以是文本数据源,或者是ODBC等其他数据源。(二)处理数据集。原始数据源可能并不能够充分适应数据挖掘任务,需要进行一些变换,这包括了数据清理、数据集成和变换、数据规约等。
算法执行:选择特定的算法,设置算法的参数,运行算法并且保存结果。数据挖掘领域的算法很多,包括数据分类、聚类、关联规则、离群点检测等等。这些算法大体可以划分为两大类,一种是受监督的算法,另外一种是不受监督的算法。对于受监督的算法,一个必须的操作就是设定目标字段。另外,为了提高算法的精度,往往选取部分字段参与最后的运算。因此,选择字段对于算法而言也是很重要的。基于此,这个阶段可以细分为两类子功能。(一)设定数据集属性。内容不仅包括了设定集合的目标字段,为受监督的算法服务,还包括设定字段是否参与算法的运行。(二)选择算法,设置参数。选择特定的算法,例如聚类、分类、关联规则等,并且设定它们自身的参数。
可视化:将算法的执行结果显示给用户;将流程的中间结果显示给用户。可视化对于任何软件而言都是非常重要的一环。数据挖掘任务中的可视化可以分为两类,(一)表示算法结果。由于算法多种多样,对于结果的表达也是多种多样的。(二)表示数据集合。从原始数据源开始,到作为算法的输入为止,数据集合一直在变化,需要能够对于不同的中间数据集合进行可视化表示。
通过对于数据挖掘任务的分析,我们可以用图来表示分解一个数据挖掘任务(见图1)。
2流程描述
首先,用户需要选择数据源,这个数据源可以是数据库的,也可以是文本的数据源。其次,在处理数据集这个步骤,用户可以对原始数据源进行一些修改,例如增添字段,检测相关性,对数据集合进行标准化等等。接下来,就需要设定数据集合属性了,这部分的操作包括设定集合的目标字段,取消一些不参与算法的字段。上述三个步骤均可以产出一个新的数据集合,因此,表示数据集合步骤可以用来查看新的数据集合的内容。在设定数据集合属性之后,可以选择算法,创建一个数据挖掘模型。模型创建之后,表示算法结果步骤,可以提供可视化的手法来表示算法的运行结果。各步骤之间的流程关系见图2所示。
描述数据挖掘流程是数据挖掘软件的核心技术。本发明通过分解数据挖掘任务,提供了一种描述数据挖掘任务的方法。该方法具有以下的优点。
1、分解合理,使用方便。
对数据挖掘任务进行分解,各个步骤完成一个子功能,有利于用户创建任务。
2、良好的可扩展性。
本发明主要涉及如何分解数据挖掘任务,对于数据挖掘任务中具体步骤,并没有特定限制,可以进一步扩展。例如在算法执行中,列举了聚类、分类、关联规则算法等,同时可以添加其他算法。
附图说明
图1为一个数据挖掘任务的分解图示。
图2为数据挖掘各步骤之间的流转关系图示。
图3为实施例中对数据挖掘任务的分解。
图4为实施例的数据挖掘流程。
图中标号:1为用户,2为选择数据源,3为处理数据集,4为设定数据集合属性,5为表示数据集合,6为选择算法,7为表示算法结果。
具体实施方式
下面通过一个实施例来说明如何表示一个数据挖掘任务。
数据挖掘任务可以分解成为几个小的步骤。图3描述了数据挖掘任务中所用到的一些元素。其中,
1、数据源,包括;(1)文本数据源,(2)数据库,(3)测试文本,(4)测试数据库;
2、浏览,包括查看;
3、预处理,包括(1)数据集属性,(2)属性变换;
4、挖掘模型,包括(1)决策树,(2)关联规则,(3)聚类;
5、结果显示,包括(1)关联规则结果,(2)聚类结果。
图3所描述的并不是涵盖整个数据挖掘领域的所有元素的,保留将来进行扩展的能力。例如,数据挖掘的算法种类繁多,我们这里仅仅选取了四种代表性的算法。
基于上述的任务分解,我们可以构造出一个具体的数据挖掘任务。Iris.arff是一个典型的数据集合,内含有151种花的信息,常用来做分类或者聚类算法的输入集合。该数据集合有五个字段,分别是:sepallength,sepalwidth,petallength,petalwidth和class。也就是记录了各个种类的花,以及它们的花萼,花瓣的信息。在这里,我们从这个数据集合出发,进行聚类分析。图4就是我们所建立的流程图。
这个流程图中包含了多个步骤。最左边的是一个文本数据源,将文本文件iris.arff作为原始的数据源。文本数据源指向一个变换,其目的是为了将原始数据源进行一些数据预处理,包括标准化等等。变换之后,数据源还需要设置数据集属性。在这个环节,需要过滤无用的字段(class),所产生的数据集合作为算法的输入数据集合。我们选择聚类算法作为这个流程的执行算法。聚类的结果也在新建中得到呈现。上述流程中还包括三个查看步骤,这些步骤的用途是用来监视中间数据集合的信息。
以上八个步骤,以及它们之间的相互联系,就构成了一个完整的流程。

Claims (1)

1、一种表达数据挖掘流程的方法,其特征在于首先准确划分一个完整数据挖掘任务,然后用流程方法描述数据划分的任务,具体步骤为:
(1)划分数据挖掘任务:将一个完整的数据挖掘任务划分为三个阶段:
①数据预处理:选择数据源,并对数据源作必要的变换,作为算法的输入,其中再细分为两类子功能:
(a)选择数据源,
(b)处理数据集;
②算法执行:选择算法,设置算法参数,运行算法并且保存结果,其中再细分为两类子功能:
(a)设定数据集属性,
(b)选择算法,设置算法参数。
③可视化:将算法的执行结果显示给用户,将流程的中间结果显示给用户,其中再分为两类:
(a)表示算法结果,
(b)表示数据集合;
(2)流程描述:首先选择数据源,其次处理数据集,然后设定数据集合属性,这3个步骤均可产生出一个新的数据集合,表示数据集合的步骤可用来查看新的数据集合的内容;在设定数据集合属性之后,选择算法,创建一个数据挖掘模型;然后表示算法结果步骤,提供可视化手段来表示算法的运行结果。
CN 200410066237 2004-09-09 2004-09-09 一种表达数据挖掘流程的方法 Pending CN1588361A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 200410066237 CN1588361A (zh) 2004-09-09 2004-09-09 一种表达数据挖掘流程的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 200410066237 CN1588361A (zh) 2004-09-09 2004-09-09 一种表达数据挖掘流程的方法

Publications (1)

Publication Number Publication Date
CN1588361A true CN1588361A (zh) 2005-03-02

Family

ID=34603959

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 200410066237 Pending CN1588361A (zh) 2004-09-09 2004-09-09 一种表达数据挖掘流程的方法

Country Status (1)

Country Link
CN (1) CN1588361A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100456281C (zh) * 2005-05-25 2009-01-28 株式会社东芝 数据划分设备和数据划分方法
CN101799809B (zh) * 2009-02-10 2011-12-14 中国移动通信集团公司 数据挖掘方法和数据挖掘系统
CN104281596A (zh) * 2013-07-04 2015-01-14 上海朗迈网络科技有限公司 一种数据挖掘系统
CN106228000A (zh) * 2016-07-18 2016-12-14 北京千安哲信息技术有限公司 过度医疗检测系统及方法
CN106779088A (zh) * 2016-12-06 2017-05-31 北京物思创想科技有限公司 执行机器学习流程的方法及系统
CN108038228A (zh) * 2017-12-25 2018-05-15 佛山市车品匠汽车用品有限公司 一种基于数据库的挖掘方法和装置

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100456281C (zh) * 2005-05-25 2009-01-28 株式会社东芝 数据划分设备和数据划分方法
CN101799809B (zh) * 2009-02-10 2011-12-14 中国移动通信集团公司 数据挖掘方法和数据挖掘系统
CN104281596A (zh) * 2013-07-04 2015-01-14 上海朗迈网络科技有限公司 一种数据挖掘系统
CN106228000A (zh) * 2016-07-18 2016-12-14 北京千安哲信息技术有限公司 过度医疗检测系统及方法
CN106779088A (zh) * 2016-12-06 2017-05-31 北京物思创想科技有限公司 执行机器学习流程的方法及系统
CN106779088B (zh) * 2016-12-06 2019-04-23 第四范式(北京)技术有限公司 执行机器学习流程的方法及系统
CN108038228A (zh) * 2017-12-25 2018-05-15 佛山市车品匠汽车用品有限公司 一种基于数据库的挖掘方法和装置

Similar Documents

Publication Publication Date Title
CN102508706B (zh) 一种多源数据集成平台及其构建方法
Anselin et al. Visualizing multivariate spatial correlation with dynamically linked windows
CN102332125B (zh) 基于后继任务的工作流挖掘方法
CN111078094B (zh) 分布式机器学习可视化装置
CN101794296A (zh) 一种基于空中活动目标数据的挖掘方法
CN108829884A (zh) 数据映射方法及装置
CN111612428A (zh) 一种基于工作结构分解的项目进度可视化方法及系统
CN104408573A (zh) 一种基于业务模式的异构业务流程整合方法
CN1588361A (zh) 一种表达数据挖掘流程的方法
CN106557881A (zh) 一种基于业务活动执行顺序的业务流程系统构建方法
CN106408178A (zh) 基于多维度数据快照的产品bom管理方法与装置
CN113342495A (zh) 一种跨组织多实例子过程模型挖掘方法与系统
CN101719160A (zh) 基于集群系统的gis并行化系统
JP2020024500A (ja) エンジニアリング装置
CN115630437A (zh) 一种兼容船舶设计与建造的产品数据管理方法
Wu et al. Knowledge map application of business-oriented problem solving
Nemeth et al. The initial analysis of failures emerging in production process for further data mining analysis
CN109614491B (zh) 基于数据质量检测规则挖掘结果的进一步挖掘方法
Risi et al. Visualizing Information in Data Warehouses Reports.
Nguyen et al. An improved algorithm for mining frequent Inter-transaction patterns
Hobbs et al. Harnessing the power of virtual reality–the potential for VR as a virtual integrated environment for project development in construction
CN114595610B (zh) 基于Revit二次开发结合Ansys命令流创建隧道有限元模型的方法
CN108573043A (zh) 业务过程死锁与缺乏同步错误的挖掘方法
Bahmani et al. Parallel algorithms for automatic database normalization
CN109933810A (zh) 一种基于操作单元的三维虚拟维护仿真模型构建方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication