CN1783092A - 数据分析装置和数据分析方法 - Google Patents

数据分析装置和数据分析方法 Download PDF

Info

Publication number
CN1783092A
CN1783092A CNA2005101288106A CN200510128810A CN1783092A CN 1783092 A CN1783092 A CN 1783092A CN A2005101288106 A CNA2005101288106 A CN A2005101288106A CN 200510128810 A CN200510128810 A CN 200510128810A CN 1783092 A CN1783092 A CN 1783092A
Authority
CN
China
Prior art keywords
pigeon
variable
decision tree
hole principle
note
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2005101288106A
Other languages
English (en)
Inventor
波田野寿昭
久保田和人
森田千绘
仲濑明彦
渡边经夫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Publication of CN1783092A publication Critical patent/CN1783092A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种数据分析方法,该方法包括从作为每一个都包括数个注释变量和目标变量的一组记录的数据库中读出记录的目标变量;基于读出的记录的目标变量生成第一组多个簇;确定每个记录属于哪个簇;生成用于从注释变量中预测簇的分类法则;存储生成的分类法则;选择在生成的分类法则中涉及的注释变量;将选中的注释变量存储在注释变量列表中;以及基于注释变量列表上的记录中的注释变量和记录的目标变量生成第二组多个簇。

Description

数据分析装置和数据分析方法
                              技术领域
本发明涉及数据分析装置和数据分析方法。
                              背景技术
现在已经报道了很多数据采集技术被用于分析诸如用户信息的离散信息的例子。另一方面,对分析诸如工厂里的灵敏度数据之类的数字信息的需求也越来越多。如果被分析的数字信息是多维的或者是高度非线性的,则难以获得精确的函数近似值。在这样的情况下将使用分析离散数据的技术,如生成诸如决策树之类的分类法则的那些技术。
为了生成对于数字数据的分类法则,数字数据必须通过聚类(clustering)而被离散化。尤其是如果目标变量(被预测的变量)是一个数字值,在生成分类法则之前就要先应用离散化。在分类法则生成之前进行的目标变量的离散化显著地影响分类法则的生成。不适当的离散化可能导致不必要的复杂的分类法则或者使分类精确性降低。如果可以得到有关目标变量的先验知识或者如果从目标变量的频率分布来看离散化的边界显而易见,则在分类法则生成之前可以进行适当的离散化。但是,在大部分场合中,无法找到这样的先验知识或者明显的数据分布。因此,通常情况下,只得从已生成的分类法则来确定是否进行适当的离散化。也就是,因为在进行离散化的时候生成的分类法则的可读性和最优性不确定,因此,难以生成可读的简单的分类法则。
                              发明内容
根据本发明的一个方面提供一种数据分析装置,该装置包括:作为每一个都包括数个注释变量和一个目标变量的一组记录的数据库;基于记录的目标变量生成数个簇的簇生成单元;确定每个记录属于哪个簇的确定单元;生成用于从注释变量中预测簇的分类法则的分类法则生成单元;存储生成的分类法则的分类法则存储单元;选择在生成的分类法则中涉及到的注释变量的注释变量选择单元;和存储选中的注释变量的注释变量列表;其中,簇生成单元基于注释变量列表上的记录中的注释变量以及记录的目标变量生成数个簇。
根据本发明的另一个方面提供一种数据分析方法,该方法包括:从作为每一个都包括数个注释变量和一个目标变量的一组记录的数据库中读出记录的目标变量;基于读出的记录的目标变量生成第一组多个簇;确定每个记录属于哪个簇;生成用于从注释变量中预测簇的分类法则;存储生成的分类法则;选择生成的分类法则中涉及的注释变量;将选中的注释变量存储在注释变量列表中;以及基于注释变量列表上的记录中的注释变量和记录的目标变量生成第二组多个簇。
                              附图说明
图1是示意性地显示根据本发明的实施例的数据分析装置的结构的框图;
图2作为实例显示一部分被分析数据;
图3显示一部分数据表,其中被分析数据中的目标变量Y被用表示簇号码的变量Y(1)替换;
图4是图3的数据表中簇的发生频率的直方图;
图5显示生成的决策树的一部分;
图6显示基于二维变量的聚类的结果;
图7显示一部分数据表,其中被分析数据中的目标变量Y被用表示簇号码的变量Y(2)替换;
图8是关于图7中的数据表的图6中簇的发生频率的直方图;
图9显示一部分生成的决策树;以及
图10是显示由图1中的数据分析装置进行的处理流程的流程图。
                           具体实施方式
图1是示意性地显示根据本发明的实施例的数据分析装置的结构的框图。
数据存储单元1存储被分析数据(数据库)。
图2作为实例显示一部分被分析数据。
被分析数据是一组记录,每个记录包括一个目标变量Y以及四个注释变量Z0,Z1,Z2和Z3。所有变量都是数字数据。一排数据代表一个记录。
数据分离单元2在被分析数据的基础上进行聚类。
数据分离单元2首先只对目标变量Y进行处理并进行一维聚类(只有变量Y受到聚类处理)。聚类可通过把每个目标变量分成多个范围或者通过应用K-means算法进行。
这里假定K-means算法被应用到图2中显示的被分析数据以生成五个簇:簇0[-∞-2.73],簇1[2.73-4.06],簇2[4.06-6.35],簇3[6.35-8.47],和簇4[8.47-+∞]。括号中的数值是Y的值。例如,大于或者等于2.73并且小于4.06的Y被分入簇1,大于或者等于4.06并且小于6.35的Y被分入簇2。
在这样生成的簇和目标变量Y的基础上,数据分离单元2确定被分析数据中的每个记录的簇号码。
图3显示一部分数据表,其中被分析数据中的目标变量Y被用表示簇号码的Y(1)替换。数据表由数据分离单元2生成并被存储在数据存储单元1中。图4显示簇发生频率的直方图。
分类法则生成单元3将变量Y(1)作为目标变量并生成决策树。也就是,分类法则生成单元3生成用于从注释变量预测簇号码的决策树。生成的分类法则不限于决策树;可以生成其它的分类法则。
图5显示由分类法则生成单元3生成的决策树的一部分。
决策树是包括大约250个叶节点的大型树。下面简要描述决策树的例子。如果注释变量Z1小于-0.58,注释变量Z0小于1.90,并且注释变量Z3小于-0.78,则该例子被分入簇0。如果注释变量Z1大于或者等于-0.58并且小于-0.47,以及注释变量Z0小于3.10,则该例子被分入簇1。
分类法则生成单元3将生成的决策树存储到分类法则存储单元4。
变量选择单元5从存储在分类法则存储单元4中的决策树选择有效的变量以供聚类。有效的变量可以是出现在决策树中的根部(根节点)的变量,或者是除了先前选择的注释变量以外最频繁地在图2或图3等中的数据的决策树中涉及到的变量。在这个例子中,变量选择单元5选择作为有效变量出现在根部的“Z1”并将选中的变量Z1输出到数据分离单元2中。
数据分离单元2使用具有从变量选择单元5输入的有效变量Z1的二维变量以及目标变量Y对存储在数据存储单元1中的被分析数据进行再次聚类。图6显示聚类的结果。在这次聚类(再次集合)以及先前的聚类中,作为聚类状况的簇数量都是五个。图7显示一部分数据表,其中,图2的数据表中的目标变量Y被用表示通过再次聚类得到的簇号码的变量Y(2)替换。数据表由数据分离单元2生成并被存储在数据存储单元1中。图8显示关于图7中的数据表的图6中的簇的发生频率的直方图。
分类法则生成单元3将变量Y2作为目标变量并生成决策树。
图9显示一部分生成的决策树。
图9中的决策树具有大约60个叶节点,这大约是图5所示的决策树的叶节点数量的1/4。
因为图9中的决策树的根节点(变量)与之前刚好生成的图5中的决策树的根节点(最后部分)一致,就确定图9中的决策树与图5中的决策树相似,并且处理过程结束。在从一个决策树的根节点到一定层次的部分树是否与其它决策树的相应部分一致的基础上,可以作出它们彼此是否相似的确定。或者,如果生成的决策树符合收敛条件,而不是决策树是否彼此相似,那么处理过程也结束。收敛条件可以是生成的决策树的正确答案率达到一个阈值的条件,或者可以是生成的决策树的所有节点数小于或者等于一个阈值的条件。处理过程是否应该继续的确定可以根据用户的输入来作出。例如,用户用来进行输入的输入单元以及用于存储用户输入的用户输入存储单元可以设置在图1所示的系统中,如果表示处理过程结束的标志被存储在用户输入存储单元中,则处理过程可以结束。
如果决策树之间的比较显示它们彼此不相似(或者决策树不收敛),则最新的决策树被存储到分类法则存储单元4中,并且变量选择单元5从存储的最新决策树选择除了先前选择的注释变量之外的变量。数据分离单元2在具有这个变量,已选择的变量以及目标变量的三维变量的基础上再次进行聚类。
图10是显示由图1中显示的数据分析装置进行的处理过程的流程的流程图。
数据分离单元2从存储在数据存储单元1中的被分析数据中包括的变量中确定目标变量(步骤S1)。目标变量可以在用户输入的基础上确定或者可以被事先指定。数据分离单元2清除先前给出的列表并初始化分类法则存储单元4(步骤S2)。
数据分离单元2在步骤S1中确定的目标变量以及列表中的注释变量的基础上对存储在数据存储单元1中的被分析数据进行聚类(步骤S3)。如果还没有注释变量被包含在列表中,则数据分离单元2只在目标变量的基础上进行聚类。数据分离单元2将表示簇号码的变量加入到被分析数据以生成数据表,或者用表示簇号码的变量替换被分析数据的目标变量以生成数据表。
分类法则生成单元3从生成的数据表生成具有作为其叶节点的簇号码的决策树(步骤S4)。也就是,它生成用于从注释变量中预测簇号码的决策树。
分类法则生成单元3确定生成的决策树是否与分类法则存储单元4中最后记录的决策树即之前刚刚由分类法则生成单元3生成的决策树相似。如果是这样(在步骤S5中为是YES),则处理过程结束。或者,可以作出生成的决策树是否符合收敛条件的确定,如果是,处理也可以结束。如之前所述,分类生成单元3可以在用户输入的基础上确定处理过程是否应该结束。
另一方面,如果决策树彼此不相似(或者收敛条件不符合)(步骤S5中为否NO),则分类法则生成单元3将生成的决策树存储在分类法则存储单元4中(步骤S6)。变量选择单元5从记录的决策树中选择一个不在列表中的注释变量并将其加入到列表中(步骤S6)。然后,处理过程返回到步骤S3,在该步骤,在列表中的所有注释变量和目标变量的基础上再次进行聚类。
图1中所示的数据分析装置的部件的功能可以通过使诸如CPU的计算机执行由一般编程技术产生的程序来实现,或者可以由硬件实现。或者,这些功能可以由程序和硬件结合起来实现。
根据本实施例,如果目标变量是连续的量(数字值),如前所述,决策树中出现的重要变量被用作目标变量的有效的离散指数。因此,可以生成可读性强、简单的分类法则。
进一步地,根据本实施例,如果生成的决策树与先前生成的决策树相似,则处理过程结束。因此,分类法则可以在短时间内有效地生成。

Claims (13)

1.一种数据分析装置,其特征在于,包括:
数据库,该数据库为一组每一个都包括数个注释变量和目标变量的记录;
基于记录的目标变量生成数个簇的簇生成单元;
确定每个记录属于哪个簇的确定单元;
生成用于从注释变量预测簇的分类法则的分类法则生成单元;
存储生成的分类法则的分类法则存储单元;
选择在生成的分类法则中涉及到的注释变量的注释变量选择单元;和存储选中的注释变量的注释变量列表;
其中,簇生成单元基于注释变量列表上的记录中的注释变量以及记录的目标变量生成数个簇。
2.如权利要求1所述的数据分析装置,其特征在于,
分类法则生成单元生成作为分类法则的决策树;以及
注释变量选择单元选择位于决策树的根部的注释变量或者除了注释变量列表中的注释变量以外在决策树中最频繁地被涉及的注释变量。
3.如权利要求1所述的数据分析装置,其特征在于,
进一步包括确定单元,该确定单元将由分类法则生成单元生成的最新的分类法则与由分类法则生成单元的最后部分生成的分类法则进行比较,如果分类法则符合相似性条件,则确定处理过程结束。
4.如权利要求3所述的数据分析装置,其特征在于,
分类法则生成单元生成作为分类法则的决策树;以及
如果所述比较显示两个决策树中的一个决策树的根节点与另一个决策树的根节点相似,或者如果两个决策树中的一个决策树的部分树与另一个决策树的部分树相一致,则确定单元确定符合相似性条件。
5.如权利要求1所述的数据分析装置,其特征在于,进一步包括附加确定单元,如果分类法则生成单元生成的分类法则符合收敛条件,则附加确定单元确定处理过程结束。
6.如权利要求5所述的数据分析装置,其特征在于,
分类法则生成单元生成作为分类法则的决策树;以及
如果决策树的正确答案率大于或者等于阈值或者如果决策树的节点的数量小于或者等于阈值,则附加确定单元确定符合收敛条件。
7.一种数据分析方法,其特征在于,包括
从为每一个都包括数个注释变量和目标变量的一组记录的数据库中读出记录的目标变量;
基于读出的记录的目标变量生成第一组多个簇;
确定每个记录属于哪个簇;
生成用于从注释变量中预测簇的分类法则;
存储生成的分类法则;
选择在生成的分类法则中涉及的注释变量;
将选中的注释变量存储在注释变量列表中;以及
基于注释变量列表上的记录中的注释变量和记录的目标变量生成第二组多个簇。
8.如权利要求7所述的数据分析方法,其特征在于,其中
在生成第二组多个簇后,依次重复进行所述确定、所述生成分类法则、所述存储生成的分类法则、所述选择注释变量、所述存储注释变量以及所述生成第二组多个簇的处理过程。
9.如权利要求7所述的数据分析方法,其特征在于,包括:
生成作为分类法则的决策树;以及
选择位于决策树的根部的注释变量或者除了注释变量列表中的注释变量以外在决策树中最频繁地被涉及的注释变量。
10.如权利要求7所述的数据分析方法,其特征在于,进一步包括:
将最新生成的分类法则与由最后部分生成的分类法则进行比较;
如果分类法则符合相似性条件,确定处理过程结束。
11.如权利要求10所述的数据分析方法,其特征在于,包括:
生成作为分类法则的决策树;以及
如果比较显示两个决策树中的一个决策树的根节点与另一个决策树的根节点相似,或者如果两个决策树中的一个决策树的部分树与另一个决策树的部分树一致,则确定符合相似性条件。
12.如权利要求7所述的数据分析方法,其特征在于,进一步包括:
如果生成的分类法则符合收敛条件,则确定处理过程结束。
13.如权利要求12所述的数据分析方法,其特征在于,该数据分析方法包括:
生成作为分类法则的决策树;以及
如果决策树的正确答案率大于或者等于阈值或者如果决策树的节点的数量小于或者等于阈值,则确定符合收敛条件。
CNA2005101288106A 2004-11-30 2005-11-30 数据分析装置和数据分析方法 Pending CN1783092A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2004346716 2004-11-30
JP2004346716A JP2006155344A (ja) 2004-11-30 2004-11-30 データ分析装置、データ分析プログラム及びデータ分析方法

Publications (1)

Publication Number Publication Date
CN1783092A true CN1783092A (zh) 2006-06-07

Family

ID=36633558

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2005101288106A Pending CN1783092A (zh) 2004-11-30 2005-11-30 数据分析装置和数据分析方法

Country Status (3)

Country Link
US (1) US20060184474A1 (zh)
JP (1) JP2006155344A (zh)
CN (1) CN1783092A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104345974A (zh) * 2013-07-25 2015-02-11 国际商业机器公司 对输入数据记录集执行基于集成模型的预测的方法和系统

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9141708B2 (en) * 2001-02-23 2015-09-22 Metaframe Technologies Gmbh Methods for generating selection structures, for making selections according to selection structures and for creating selection descriptions
JP4738309B2 (ja) * 2006-10-11 2011-08-03 株式会社東芝 プラント運転データ監視装置
US7702056B2 (en) * 2006-10-26 2010-04-20 Toshiba America Electronic Components, Inc. Time base corrector
JP5018346B2 (ja) * 2007-08-30 2012-09-05 富士ゼロックス株式会社 情報処理装置及び情報処理プログラム
JP5692841B2 (ja) * 2010-05-11 2015-04-01 独立行政法人海上技術安全研究所 状況を分類するツリー構造の自動生成プログラム及び状況を分類するツリー構造の自動生成装置
CN102750286B (zh) * 2011-04-21 2016-01-20 常州蓝城信息科技有限公司 一种处理缺失数据的新型决策树分类器方法
JP5754310B2 (ja) * 2011-09-02 2015-07-29 富士ゼロックス株式会社 識別情報付与プログラム及び識別情報付与装置
CN104699768A (zh) * 2015-02-16 2015-06-10 南京邮电大学 一种网络物理系统混合数据分类方法
JP7414289B2 (ja) * 2021-05-24 2024-01-16 国立大学法人広島大学 状態推定装置、状態推定方法及びプログラム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104345974A (zh) * 2013-07-25 2015-02-11 国际商业机器公司 对输入数据记录集执行基于集成模型的预测的方法和系统
US9710751B2 (en) 2013-07-25 2017-07-18 International Business Machines Corporation Parallel tree based prediction
CN104345974B (zh) * 2013-07-25 2017-10-13 国际商业机器公司 对输入数据记录集执行基于集成模型的预测的方法和系统

Also Published As

Publication number Publication date
JP2006155344A (ja) 2006-06-15
US20060184474A1 (en) 2006-08-17

Similar Documents

Publication Publication Date Title
CN1783092A (zh) 数据分析装置和数据分析方法
CN110389950B (zh) 一种快速运行的大数据清洗方法
US7895171B2 (en) Compressibility estimation of non-unique indexes in a database management system
CN106681299A (zh) 事件解析装置、事件解析系统、事件解析方法及事件解析程序
CN115459782A (zh) 基于时序分割和聚类的工业物联网高频数据压缩方法
CN111710364B (zh) 一种菌群标记物的获取方法、装置、终端及存储介质
CN109684328B (zh) 一种高维时序数据压缩存储方法
CN111104398A (zh) 针对智能船舶近似重复记录的检测方法、消除方法
CN114722014B (zh) 基于数据库日志文件的批量数据时间序列传输方法及系统
US20110093477A1 (en) Method for estimation of order-based statistics on slowly changing distributions
CN116720090A (zh) 一种基于层次的自适应聚类方法
CN117725437B (zh) 一种基于机器学习的数据精准匹配分析方法
CN116821053B (zh) 数据上报方法、装置、计算机设备和存储介质
CN113743453A (zh) 一种基于随机森林的人口数量预测方法
CN111104422B (zh) 一种数据推荐模型的训练方法、装置、设备及存储介质
US20160078071A1 (en) Large scale offline retrieval of machine operational information
CN112232290A (zh) 数据聚类方法、服务器、系统以及计算机可读存储介质
CN116561230A (zh) 一种基于云计算的分布式存储与检索系统
CN114518988A (zh) 资源容量系统及其控制方法和计算机可读存储介质
CN111507878B (zh) 一种基于用户画像的网络犯罪嫌疑人侦查方法及系统
CN113660147A (zh) 一种基于模糊熵的ip会话序列周期性评估方法
Varun et al. An efficient technique for feature selection to predict customer churn in telecom industry
CN1403984A (zh) 用于帮助赢利组织评估和改善来自客户的利润的方法和系统
CN108776707B (zh) 针对探索性查询的抽样方法
Bones et al. Clustering Multivariate Climate Data Streamsusing Fractal Dimension.

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication