CN1783092A

CN1783092A - 数据分析装置和数据分析方法

Info

Publication number: CN1783092A
Application number: CNA2005101288106A
Authority: CN
Inventors: 波田野寿昭; 久保田和人; 森田千绘; 仲濑明彦; 渡边经夫
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2004-11-30
Filing date: 2005-11-30
Publication date: 2006-06-07
Also published as: JP2006155344A; US20060184474A1

Abstract

本发明提供了一种数据分析方法，该方法包括从作为每一个都包括数个注释变量和目标变量的一组记录的数据库中读出记录的目标变量；基于读出的记录的目标变量生成第一组多个簇；确定每个记录属于哪个簇；生成用于从注释变量中预测簇的分类法则；存储生成的分类法则；选择在生成的分类法则中涉及的注释变量；将选中的注释变量存储在注释变量列表中；以及基于注释变量列表上的记录中的注释变量和记录的目标变量生成第二组多个簇。

Description

数据分析装置和数据分析方法

技术领域

本发明涉及数据分析装置和数据分析方法。

背景技术

现在已经报道了很多数据采集技术被用于分析诸如用户信息的离散信息的例子。另一方面，对分析诸如工厂里的灵敏度数据之类的数字信息的需求也越来越多。如果被分析的数字信息是多维的或者是高度非线性的，则难以获得精确的函数近似值。在这样的情况下将使用分析离散数据的技术，如生成诸如决策树之类的分类法则的那些技术。

为了生成对于数字数据的分类法则，数字数据必须通过聚类(clustering)而被离散化。尤其是如果目标变量(被预测的变量)是一个数字值，在生成分类法则之前就要先应用离散化。在分类法则生成之前进行的目标变量的离散化显著地影响分类法则的生成。不适当的离散化可能导致不必要的复杂的分类法则或者使分类精确性降低。如果可以得到有关目标变量的先验知识或者如果从目标变量的频率分布来看离散化的边界显而易见，则在分类法则生成之前可以进行适当的离散化。但是，在大部分场合中，无法找到这样的先验知识或者明显的数据分布。因此，通常情况下，只得从已生成的分类法则来确定是否进行适当的离散化。也就是，因为在进行离散化的时候生成的分类法则的可读性和最优性不确定，因此，难以生成可读的简单的分类法则。

发明内容

根据本发明的一个方面提供一种数据分析装置，该装置包括：作为每一个都包括数个注释变量和一个目标变量的一组记录的数据库；基于记录的目标变量生成数个簇的簇生成单元；确定每个记录属于哪个簇的确定单元；生成用于从注释变量中预测簇的分类法则的分类法则生成单元；存储生成的分类法则的分类法则存储单元；选择在生成的分类法则中涉及到的注释变量的注释变量选择单元；和存储选中的注释变量的注释变量列表；其中，簇生成单元基于注释变量列表上的记录中的注释变量以及记录的目标变量生成数个簇。

根据本发明的另一个方面提供一种数据分析方法，该方法包括：从作为每一个都包括数个注释变量和一个目标变量的一组记录的数据库中读出记录的目标变量；基于读出的记录的目标变量生成第一组多个簇；确定每个记录属于哪个簇；生成用于从注释变量中预测簇的分类法则；存储生成的分类法则；选择生成的分类法则中涉及的注释变量；将选中的注释变量存储在注释变量列表中；以及基于注释变量列表上的记录中的注释变量和记录的目标变量生成第二组多个簇。

附图说明

图1是示意性地显示根据本发明的实施例的数据分析装置的结构的框图；

图2作为实例显示一部分被分析数据；

图3显示一部分数据表，其中被分析数据中的目标变量Y被用表示簇号码的变量Y(1)替换；

图4是图3的数据表中簇的发生频率的直方图；

图5显示生成的决策树的一部分；

图6显示基于二维变量的聚类的结果；

图7显示一部分数据表，其中被分析数据中的目标变量Y被用表示簇号码的变量Y(2)替换；

图8是关于图7中的数据表的图6中簇的发生频率的直方图；

图9显示一部分生成的决策树；以及

图10是显示由图1中的数据分析装置进行的处理流程的流程图。

具体实施方式

图1是示意性地显示根据本发明的实施例的数据分析装置的结构的框图。

数据存储单元1存储被分析数据(数据库)。

图2作为实例显示一部分被分析数据。

被分析数据是一组记录，每个记录包括一个目标变量Y以及四个注释变量Z0，Z1，Z2和Z3。所有变量都是数字数据。一排数据代表一个记录。

数据分离单元2在被分析数据的基础上进行聚类。

数据分离单元2首先只对目标变量Y进行处理并进行一维聚类(只有变量Y受到聚类处理)。聚类可通过把每个目标变量分成多个范围或者通过应用K-means算法进行。

这里假定K-means算法被应用到图2中显示的被分析数据以生成五个簇：簇0[-∞-2.73]，簇1[2.73-4.06]，簇2[4.06-6.35]，簇3[6.35-8.47]，和簇4[8.47-+∞]。括号中的数值是Y的值。例如，大于或者等于2.73并且小于4.06的Y被分入簇1，大于或者等于4.06并且小于6.35的Y被分入簇2。

在这样生成的簇和目标变量Y的基础上，数据分离单元2确定被分析数据中的每个记录的簇号码。

图3显示一部分数据表，其中被分析数据中的目标变量Y被用表示簇号码的Y(1)替换。数据表由数据分离单元2生成并被存储在数据存储单元1中。图4显示簇发生频率的直方图。

分类法则生成单元3将变量Y(1)作为目标变量并生成决策树。也就是，分类法则生成单元3生成用于从注释变量预测簇号码的决策树。生成的分类法则不限于决策树；可以生成其它的分类法则。

图5显示由分类法则生成单元3生成的决策树的一部分。

决策树是包括大约250个叶节点的大型树。下面简要描述决策树的例子。如果注释变量Z1小于-0.58，注释变量Z0小于1.90，并且注释变量Z3小于-0.78，则该例子被分入簇0。如果注释变量Z1大于或者等于-0.58并且小于-0.47，以及注释变量Z0小于3.10，则该例子被分入簇1。

分类法则生成单元3将生成的决策树存储到分类法则存储单元4。

变量选择单元5从存储在分类法则存储单元4中的决策树选择有效的变量以供聚类。有效的变量可以是出现在决策树中的根部(根节点)的变量，或者是除了先前选择的注释变量以外最频繁地在图2或图3等中的数据的决策树中涉及到的变量。在这个例子中，变量选择单元5选择作为有效变量出现在根部的“Z1”并将选中的变量Z1输出到数据分离单元2中。

数据分离单元2使用具有从变量选择单元5输入的有效变量Z1的二维变量以及目标变量Y对存储在数据存储单元1中的被分析数据进行再次聚类。图6显示聚类的结果。在这次聚类(再次集合)以及先前的聚类中，作为聚类状况的簇数量都是五个。图7显示一部分数据表，其中，图2的数据表中的目标变量Y被用表示通过再次聚类得到的簇号码的变量Y(2)替换。数据表由数据分离单元2生成并被存储在数据存储单元1中。图8显示关于图7中的数据表的图6中的簇的发生频率的直方图。

分类法则生成单元3将变量Y2作为目标变量并生成决策树。

图9显示一部分生成的决策树。

图9中的决策树具有大约60个叶节点，这大约是图5所示的决策树的叶节点数量的1/4。

因为图9中的决策树的根节点(变量)与之前刚好生成的图5中的决策树的根节点(最后部分)一致，就确定图9中的决策树与图5中的决策树相似，并且处理过程结束。在从一个决策树的根节点到一定层次的部分树是否与其它决策树的相应部分一致的基础上，可以作出它们彼此是否相似的确定。或者，如果生成的决策树符合收敛条件，而不是决策树是否彼此相似，那么处理过程也结束。收敛条件可以是生成的决策树的正确答案率达到一个阈值的条件，或者可以是生成的决策树的所有节点数小于或者等于一个阈值的条件。处理过程是否应该继续的确定可以根据用户的输入来作出。例如，用户用来进行输入的输入单元以及用于存储用户输入的用户输入存储单元可以设置在图1所示的系统中，如果表示处理过程结束的标志被存储在用户输入存储单元中，则处理过程可以结束。

如果决策树之间的比较显示它们彼此不相似(或者决策树不收敛)，则最新的决策树被存储到分类法则存储单元4中，并且变量选择单元5从存储的最新决策树选择除了先前选择的注释变量之外的变量。数据分离单元2在具有这个变量，已选择的变量以及目标变量的三维变量的基础上再次进行聚类。

图10是显示由图1中显示的数据分析装置进行的处理过程的流程的流程图。

数据分离单元2从存储在数据存储单元1中的被分析数据中包括的变量中确定目标变量(步骤S1)。目标变量可以在用户输入的基础上确定或者可以被事先指定。数据分离单元2清除先前给出的列表并初始化分类法则存储单元4(步骤S2)。

数据分离单元2在步骤S1中确定的目标变量以及列表中的注释变量的基础上对存储在数据存储单元1中的被分析数据进行聚类(步骤S3)。如果还没有注释变量被包含在列表中，则数据分离单元2只在目标变量的基础上进行聚类。数据分离单元2将表示簇号码的变量加入到被分析数据以生成数据表，或者用表示簇号码的变量替换被分析数据的目标变量以生成数据表。

分类法则生成单元3从生成的数据表生成具有作为其叶节点的簇号码的决策树(步骤S4)。也就是，它生成用于从注释变量中预测簇号码的决策树。

分类法则生成单元3确定生成的决策树是否与分类法则存储单元4中最后记录的决策树即之前刚刚由分类法则生成单元3生成的决策树相似。如果是这样(在步骤S5中为是YES)，则处理过程结束。或者，可以作出生成的决策树是否符合收敛条件的确定，如果是，处理也可以结束。如之前所述，分类生成单元3可以在用户输入的基础上确定处理过程是否应该结束。

另一方面，如果决策树彼此不相似(或者收敛条件不符合)(步骤S5中为否NO)，则分类法则生成单元3将生成的决策树存储在分类法则存储单元4中(步骤S6)。变量选择单元5从记录的决策树中选择一个不在列表中的注释变量并将其加入到列表中(步骤S6)。然后，处理过程返回到步骤S3，在该步骤，在列表中的所有注释变量和目标变量的基础上再次进行聚类。

图1中所示的数据分析装置的部件的功能可以通过使诸如CPU的计算机执行由一般编程技术产生的程序来实现，或者可以由硬件实现。或者，这些功能可以由程序和硬件结合起来实现。

根据本实施例，如果目标变量是连续的量(数字值)，如前所述，决策树中出现的重要变量被用作目标变量的有效的离散指数。因此，可以生成可读性强、简单的分类法则。

进一步地，根据本实施例，如果生成的决策树与先前生成的决策树相似，则处理过程结束。因此，分类法则可以在短时间内有效地生成。

Claims

1.一种数据分析装置，其特征在于，包括：

数据库，该数据库为一组每一个都包括数个注释变量和目标变量的记录；

基于记录的目标变量生成数个簇的簇生成单元；

确定每个记录属于哪个簇的确定单元；

生成用于从注释变量预测簇的分类法则的分类法则生成单元；

存储生成的分类法则的分类法则存储单元；

选择在生成的分类法则中涉及到的注释变量的注释变量选择单元；和存储选中的注释变量的注释变量列表；

其中，簇生成单元基于注释变量列表上的记录中的注释变量以及记录的目标变量生成数个簇。

2.如权利要求1所述的数据分析装置，其特征在于，

分类法则生成单元生成作为分类法则的决策树；以及

注释变量选择单元选择位于决策树的根部的注释变量或者除了注释变量列表中的注释变量以外在决策树中最频繁地被涉及的注释变量。

3.如权利要求1所述的数据分析装置，其特征在于，

进一步包括确定单元，该确定单元将由分类法则生成单元生成的最新的分类法则与由分类法则生成单元的最后部分生成的分类法则进行比较，如果分类法则符合相似性条件，则确定处理过程结束。

4.如权利要求3所述的数据分析装置，其特征在于，

分类法则生成单元生成作为分类法则的决策树；以及

如果所述比较显示两个决策树中的一个决策树的根节点与另一个决策树的根节点相似，或者如果两个决策树中的一个决策树的部分树与另一个决策树的部分树相一致，则确定单元确定符合相似性条件。

5.如权利要求1所述的数据分析装置，其特征在于，进一步包括附加确定单元，如果分类法则生成单元生成的分类法则符合收敛条件，则附加确定单元确定处理过程结束。

6.如权利要求5所述的数据分析装置，其特征在于，

分类法则生成单元生成作为分类法则的决策树；以及

如果决策树的正确答案率大于或者等于阈值或者如果决策树的节点的数量小于或者等于阈值，则附加确定单元确定符合收敛条件。

7.一种数据分析方法，其特征在于，包括

从为每一个都包括数个注释变量和目标变量的一组记录的数据库中读出记录的目标变量；

基于读出的记录的目标变量生成第一组多个簇；

确定每个记录属于哪个簇；

生成用于从注释变量中预测簇的分类法则；

存储生成的分类法则；

选择在生成的分类法则中涉及的注释变量；

将选中的注释变量存储在注释变量列表中；以及

基于注释变量列表上的记录中的注释变量和记录的目标变量生成第二组多个簇。

8.如权利要求7所述的数据分析方法，其特征在于，其中

在生成第二组多个簇后，依次重复进行所述确定、所述生成分类法则、所述存储生成的分类法则、所述选择注释变量、所述存储注释变量以及所述生成第二组多个簇的处理过程。

9.如权利要求7所述的数据分析方法，其特征在于，包括：

生成作为分类法则的决策树；以及

选择位于决策树的根部的注释变量或者除了注释变量列表中的注释变量以外在决策树中最频繁地被涉及的注释变量。

10.如权利要求7所述的数据分析方法，其特征在于，进一步包括：

将最新生成的分类法则与由最后部分生成的分类法则进行比较；

如果分类法则符合相似性条件，确定处理过程结束。

11.如权利要求10所述的数据分析方法，其特征在于，包括：

生成作为分类法则的决策树；以及

如果比较显示两个决策树中的一个决策树的根节点与另一个决策树的根节点相似，或者如果两个决策树中的一个决策树的部分树与另一个决策树的部分树一致，则确定符合相似性条件。

12.如权利要求7所述的数据分析方法，其特征在于，进一步包括：

如果生成的分类法则符合收敛条件，则确定处理过程结束。

13.如权利要求12所述的数据分析方法，其特征在于，该数据分析方法包括：

生成作为分类法则的决策树；以及

如果决策树的正确答案率大于或者等于阈值或者如果决策树的节点的数量小于或者等于阈值，则确定符合收敛条件。