CN100456281C

CN100456281C - 数据划分设备和数据划分方法

Info

Publication number: CN100456281C
Application number: CNB2006100845361A
Authority: CN
Inventors: 久保田和人; 森田千绘; 波田野寿昭; 仲濑明彦
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2005-05-25
Filing date: 2006-05-25
Publication date: 2009-01-28
Anticipated expiration: 2026-05-25
Also published as: CN1869971A; JP2006330988A; US7882050B2; US20060269144A1; JP4509860B2

Abstract

根据本发明的一个方面，提供了一种数据划分设备用于划分多维数据，该数据划分设备包括：数据输入单元，用于输入多维数据；候选划分平面创建器，用于创建多个用于划分多维数据的候选划分平面；数据临时划分单元，用于通过使用候选划分平面临时划分多维数据以生成簇；模型生成器，用于根据簇生成模型；评价值计算器，用于根据所生成的模型和多维数据计算评价值；候选划分选择器，用于比较分别对应于候选划分平面的评价值并选择具有最高评价值的候选划分平面；以及划分/决策单元，用于通过使用所述选择的候选划分平面划分多维数据。

Description

数据划分设备和数据划分方法

技术领域

本发明涉及用于在n维空间中的点集上进行数据划分(分簇)的数据划分设备和数据划分方法。

背景技术

近年来，构建了一种装置(plant)系统以便在某些情况下，通过监测附着于装置系统中所包含的单个设备(测量对象)上的传感器的正常范围来查找装置中的异常。传感器的值应当具有的正常范围是预先设定的，并且当传感器的值超出了正常范围时发出异常警告。随着传感器的数量的增加，需要自动设置正常范围。为了为特定传感器(以下称为目标传感器)设置正常范围，可以使用至少一个其它的传感器(以下称为说明传感器)。已构造了用于基于说明传感器来预测目标传感器的模型。如果预测值与实际值差别较大，则目标传感器指示异常值的可能性较高。

可以通过使用过去收集的目标传感器和说明传感器的时间序列数据(多维数据)来创建预测模型。但是，通常，构造这种预测模型并不容易。这是因为目标传感器的取值不是唯一地由说明传感器的值确定，而是还依赖于装置的运行状态。现在将通过使用发电装置中的传感器的例子来描述这种情况。

现在假设存在绘图数据(运行历史数据)，其纵坐标表示从目标传感器输出的泵的压力，并且其横坐标表示从说明传感器输出的生成的功率输出。所述泵具有运行状态和非运行状态。假设在泵的运行状态中，泵的压力与生成的功率输出成比例，并且在泵的非运行状态，泵的压力具有较低的常数值。如果通过在不区分上述两种运行状态的情况下使用例如回归分析而生成基于说明传感器来预测目标传感器的值的模型，则模型的误差会很大。最好根据泵的运行状态分别生成模型。为了这样做，需要将运行历史数据中的点集划分为多个组并分别为每个组生成模型。

用于将平面或空间中的点进行分组的技术有k-means方法和凝聚(agglomerative)方法。在Michael JA Berry和Gordon Linoff的“DataMining Techniques”(Wiley Computer Publishing，pp.187-215)中描述了这些技术。

在k-means方法中，预先选择k个初始点，并且认为剩余点中的每个点都与这k个点中距这个点最近的点属于同一个组。计算每个组的重心，并将重心作为k个初始点再次重复编组。另一方面，在凝聚方法中，将所有的点的组合中具有最短距离的组合看作一个分组。将已编组的点的重心看作一个点，并重复类似的处理，直到所有的点都属于一个组。另外，至于度量距离的其他方式，存在使用组中最近的点之间的距离的方法和使用最远的点之间的距离的方法。

在这些技术中，基本上将临近的点分组，并且仅考虑点之间的距离。因此，在这些技术中，不能进行能够正确反映测量对象的上述状态的分组，即，反映多维数据中固有的趋势而不是点之间的距离的分组，例如，接近人类本能的分组。

发明内容

根据本发明的一个方面，提供了一种数据划分设备，用于划分包含多个数据片的多维数据，其包括：数据输入单元，用于输入多维数据；候选划分平面创建器，用于创建多个候选划分平面，以用于划分多维数据；数据临时划分单元，用于通过使用候选划分平面来临时划分多维数据，以根据每个候选划分平面生成簇(cluster)，每个簇包含一个或多个数据片；模型生成器，用于为每个候选划分平面生成代表簇的模型；评价值计算器，用于根据所生成的与候选划分平面相关的模型以及多维数据来计算用于评价候选划分平面的评价值；候选划分选择器，用于比较分别相应于候选划分平面的评价值并选择具有最高评价值的候选划分平面；以及划分/决策单元，用于通过使用所选择的候选划分平面来划分多维数据。

根据本发明的一个方面，提供了一种数据划分设备，用于划分包含多个数据片的多维数据，其包括：数据输入单元，用于输入多维数据；候选划分平面创建器，用于创建多个候选划分平面，以用于划分多维数据；数据临时划分单元，用于通过使用候选划分平面来临时地划分多维数据，以根据每个候选划分平面生成簇，每个簇包含一个或多个数据片；模型生成器，用于对每个候选划分平面生成代表簇的模型；编组单元，用于根据多维数据中的每个数据片接近哪个生成的模型将多维数据中的数据片编组，从而为每个候选划分平面生成新的簇；评价值计算器，用于根据所生成的与候选划分平面相关的模型以及所生成的与候选划分平面相关的新簇，计算用于评价与候选划分平面相关的分组的评价值；候选划分选择器，用于比较分别相应于候选划分平面的评价值并选择具有最高评价值的候选划分平面。

根据本发明的另一个方面，提供了一种数据划分方法，用于划分包含多个数据片的多维数据，所述方法包括：输入多维数据；创建多个候选划分平面以用于划分多维数据；通过使用候选划分平面来临时地划分多维数据，以根据每个候选划分平面生成簇，每个簇包含一个或多个数据片；对每个候选划分平面生成代表簇的模型；根据所生成的与候选划分平面相关的模型以及多维数据计算用于评价候选划分平面的评价值；比较分别相应于候选划分平面的评价值并选择具有最高评价值的候选划分平面；通过使用所选择的候选划分平面划分多维数据；以及对已划分的多维数据执行创建、临时划分、生成、计算、比较和划分。

附图说明

图1显示了根据本发明的一个实施例的数据划分系统的结构；

图2是数据划分设备的功能框图；

图3是显示由数据划分设备执行的处理的流程的流程图；

图4是显示本发明的一个实施例的概要的框图；

图5显示了二维输入数据的例子；

图6显示了离散化之前的数据和离散化之后的数据；

图7显示了划分线的候选；

图8显示了通过根据划分线的划分生成的簇；

图9显示了分别为各个簇而生成的模型；

图10显示了用于从多个数据划分中选择最好的数据划分的技术的例子；

图11显示了四个簇以及根据相应的簇而生成的模型；

图12显示了如何合并簇；

图13显示了两个簇以及根据相应的簇而生成的模型；

图14是显示根据距模型的距离来重新生成簇的框图；

图15显示了新的候选划分线；

图16显示了四维输入数据的例子；

图17显示了从图16所示的数据中提取的三维数据的例子；

图18显示了被分配了分类号的簇的例子；

图19显示了被分配了分类号的数据的例子；

图20显示了决策树的例子；

图21是根据本发明的第三实施例的数据划分设备的功能框图；

图22是根据本发明的第四实施例的数据划分设备的功能框图；

图23是显示本发明的第七实施例中的评价值计算器的详细结构的框图；

图24是根据本发明的第八实施例的数据划分设备的功能框图。

具体实施方式

首先，将简要描述本发明的一个实施例的概要。

图4是显示本发明的一个实施例的概要的框图；

测量对象21、22、23和24被布置在装置的设备中。将传感器x、y、z和w分别安装在测量对象21、22、23和24中。将分别从传感器x、y、z和w按时间顺序获取的数据11、12、13和14存储为序列长度为n的四维数据(多维数据)(见图5，但是图5显示了序列长度为n的二维数据)。将传感器x、y、z和w中的一个指定为目标传感器，并将其余的传感器指定为说明传感器。假设传感器y被指定为目标传感器，传感器x、z和w被指定为说明传感器。

本实施例提供了能够反映目标传感器的测量对象的状态以及在多维数据上进行数据划分(分簇)的技术，即，正确反映多维数据中固有的趋势而不是点之间的距离的数据划分。通过这种数据划分，将多维数据正确划分到多个簇之中。在本实施例中，还生成分别对应于簇的模型。图4显示了一个例子，其中根据多维数据生成两个簇15a和16a，并且分别根据所述簇生成模型15b和16b。这里，仅x和z被用作说明传感器。

将这样生成的模型15b和16b用于例如实时地确定目标传感器y的值是否在正确的范围之内。例如，根据之前生成的分类规则确定在特定时间点获取的目标传感器的数据17属于簇15a和16a中的哪一个。假设数据17属于簇15a。在这种情况下，将数据17输入到模型15b并得到模型输出。计算模型输出和数据17之间的差18。如果差18在预定的范围之内，则判定测量对象处于正常状态。否则，判定测量对象处于异常状态。

下面，将详细描述本发明的实施例。

(第一实施例)

图1是显示根据本实施例的数据划分系统的结构的框图。

该数据划分系统包括CPU 31、存储器32、硬盘33以及显示设备34。在硬盘33上存储了用于实现本实施例的程序。将从多个传感器按时间序列获取的数据存储在硬盘33上作为多维数据。CPU 31将存储在硬盘33上的程序加载到存储器32中并执行该程序。显示设备34将CPU 31的执行结果显示给用户。

图2是CPU 31(数据划分设备)的功能模块。图3是显示CPU 31执行的处理的流程的流程图。

图2所示的数据划分设备包括数据输入单元41、数据离散化单元42、候选划分平面创建器43、数据临时划分单元44、模型生成器45、评价值计算器46、候选划分选择器47、以及划分/决策单元48。

数据输入单元41将多维数据输入到数据离散化单元42。多维数据包括多个数据片。多维数据的例子如图5所示。这里，显示了序列长度为n的二维数据。维数可以大于二。

数据离散化单元42将输入的多维数据离散化(步骤1)。下面，将描述其细节。

通过使用最小值和最大值将x和y维中每一个中的元素离散化为0到1-m范围之内的整数。这里，m是用户给定的任意整数。例如，假设x维具有最小值xmin和最大值xmax并且第i个数据(即第i个数据片)在x维中具有值xi。x维中的第i个数据被离散化之后的值xdi依赖于xi处于将xmin和xmax之间的范围用m等分所得到的部分中从头开始的哪个部分。也对y维进行前面所描述的处理。通过前面所描述的处理，将数据i在各个维的元素xi和yi分别离散化为xdi和ydi(其中0≤xdi≤m-1，0≤ydi≤m-1，并且xdi和ydi是整数)。

图6显示了如何离散化输入数据(多维数据)。左半部分显示了离散化之前的数据，而右半部分显示了离散化之后的数据(矩阵)。在这个例子中，显示了多维数据是二维数据并且m＝8的情况。每个离散化之前的二维点在离散化之后都被映射在8乘8矩阵中的一个方格中。例如，如果离散化之前的第i个数据在离散化之后变为xdi＝2和ydi＝4，则向图6的右半部分所示的矩阵中的x维为2并且y维为4的方格加1。在图6的右半部分中，每个空白表示0。将处于相同方格中的数据(点)当作具有(例如)同一个方格的中心坐标的数据。

在下面描述的处理以及其它实施例的处理中，离散化之前的数据和离散化之后的数据都可以用作多维数据，除非另外说明。在前一种情况中，处理较快，但是精度较低。相反地，在后一种情况中，处理时间较长，但是精度较高。也就是说，离散化处理被执行以减少步骤2以及后续步骤的处理中的计算量，对本发明来讲不是必需的。

候选划分平面创建器43找到一组与每个轴垂直的平面(在二维数据的情况下是一组直线)，作为用于切分多维数据(点集)的划分平面的候选(步骤2)。

这里，将数据离散化单元42所生成的矩阵中的两个相邻部分之间的分界线用作划分平面。这里，相邻划分平面之间的间隔是常数。但是，间隔不必总是常数。每一维有m-1个划分平面。图7显示了用于划分x维的直线的候选直线lx1到lx7，以及用于划分y维的直线的候选ly1到ly7。

数据临时划分单元44通过使用利用候选划分平面创建器43获得的划分平面来切分多维数据并生成两个簇(步骤3)。图8显示了使用垂直于y维的直线ly4而生成的两个簇A和B的例子。

模型生成器45分别根据通过数据临时划分单元44获得的两个簇A和B生成模型A和B(步骤4)。也就是说，模型生成器45使用属于簇A的输入数据生成模型A，并使用属于簇B的输入数据生成模型B。分别根据簇A和B而生成的模型A和B如图9所示。在生成模型时，例如，可以使用回归分析。也就是说，可以通过寻找使用x在y上进行回归的直线生成模型。对于模型的生成，除了回归分析以外还可以使用各种技术。例如，也可以使用主成分分析。

评价值计算器46根据由模型生成器45生成的模型以及输入数据为上述划分计算评价值(步骤5)。下面将描述该计算的细节。

将使用所述模型根据x而估计的y与实际的y之间的差的绝对值当作误差。对于簇A中的点，将基于模型A的误差相加以计算出模型A的误差。对于簇B中的点，将基于模型B的误差相加以计算出模型B的误差。将模型A的误差和模型B的误差相加。将相加所得的结果除以包含在簇A和B中的所有点的数量(数据的数量)。将得到的值用作评价值。

可以如下所述计算评价值。也就是说，将所有点的y的估计值和真实的y值之间的差的平方相加。将得到的和除以所有点的数量，将除法的结果的平方根用作评价值。

在将主成分分析用于生成上述模型的情况下，如果假设是k维输入数据，将由第一到第(k-1)个主成分所张成(span)的平面用作模型，并将所述模型和点之间的距离当作误差。其后，以与使用回归分析的情况中同样的方式计算评价值。

在每个候选划分平面上执行前述步骤3到5。从而计算出关于每个候选划分平面的评价值。

候选划分选择器47从与候选划分平面的数量相同(这里，数量为14)的多个生成的评价值中选择具有最高评价值(例如，最小评价值)的候选划分平面(步骤6)。然而，如果满足结束条件(不满足继续条件)，则候选划分选择器47输出表示处理结束的结束信号，而不选择候选划分平面。结束条件是例如，最小评价值不比预设的阈值低。

划分/决策单元48通过由候选划分选择器47所选择的划分平面来划分输入数据(点集)，并生成两个新的数据集(步骤7)。为了相对于每个新生成的数据集重复由功能单元43到47执行的处理(步骤2到7)，划分/决策单元48将每个数据集输出到候选划分平面创建器43(步骤8)。划分/决策单元48以例如下列方式来确定该重复处理的结束。

也就是说，当将数据集发送到候选划分平面创建器43时，划分/决策单元48为每个数据集设置标记。如果相对于特定的数据集输入了结束信号或者进行了划分，则将该数据集的标记擦除。如果擦除了所有标记，则确定处理结束。如果在图3所示的流程的第一轮循环中输入了结束信号，则在该时间点确定处理结束。

由于前述处理，递归地切分了输入数据并生成簇。

根据本实施例，如前所述，递归地重复以下处理，即，根据模型选择误差最小的划分平面并通过使用所选择的划分平面进行数据划分(分簇)。因此，可以将多维数据划分到多个簇，同时正确地反映趋势而不是点之间的距离。因此，例如，当使用其他传感器的值创建用于估计装置中的每个传感器的正常变化范围的模型时，能够将运行历史数据分成运行状态不同的数据。

(第二实施例)

在本实施例中，将更详细地描述由评价值计算器46执行的评价值计算。

如第一实施例所述，通过由候选划分平面创建器43创建的特定候选划分平面(表示为φi)将数据划分为DAi和DBi(生成簇Ai和Bi)，分别为DAi和DBi计算模型Ai和Bi以及误差error_Ai和error_Bi。这里，误差error_Ai是属于DAi的数据的误差的总和，误差error_Bi是属于DBi的数据的误差的总和。属于DAi的数据的数量和属于DBi的数据的数量分别表示为num_Ai和num_Bi。

用下列等式分别为DAi和DBi计算模型评价值error_adjust_Ai和error_adjust_Bi。

error_adjust_Ai＝error_Ai-α×num_Ai+β

error_adjust_Bi＝error_Bi-α×num_Bi+β

对于α，例如，可以使用值(划分前的误差/划分前的数据的数量)。这里，β是用于确定划分终止的参数。

对于评价值error_adjust_i，可以使用通过使error_adjust_Ai和error_adjust_Bi与各自的权重相乘，并将得到的乘积相加所得到的值，或者使用具有较小值的error_adjust_Ai或error_adjust_Bi。如果error_adjust_i大于等于阈值(例如，零)，则不采用候选划分平面φi作为划分的候选。

图10是显示了当error_adjust_i＝min(error_adjust_Ai，error_adjust_Bi)并且α＝(划分前的误差/划分前的数据的数量)时选择划分平面的候选中的哪个候选的示图。

图10所示的点对应于模型Ai或Bi，模型Ai或Bi分别与使用候选划分平面φI进行划分而生成的簇Ai或者Bi相关。也就是说，一个点对应于一个模型。因此，每个候选划分平面生成两个点。纵坐标表示模型误差(error_Ai，error_Bi)，横坐标表示数据的数量(number_Ai，number_Bi)。

这里，希望具有较小的模型误差。如果该值大致相同，则希望在簇中包含较大数量的数据。根据这个标准，希望图中的点尽可能位于右下角。为了阐明选择最佳点的基准，确定图10所示的、通过原点并具有倾角α的基准线。将基准线向与该线垂直的右下方向(即，纵坐标的负方向)移动，并采用对应于最终重叠的点(模型)的评价值。将这时的直线称为最大评价线，并且将具有所采用的评价值的点称为最大评价点。

这里，通过将具有倾角α的基准线向纵坐标的负方向移动β所得到的直线被称为阈值线。如果最大评价线处于阈值线之上或在其以下，则通过使用具有最大评价点的候选划分平面来进行数据划分。另一方面，如果最大评价线在阈值线以上，则停止数据划分。也就是说，候选划分选择器47输出结束信号。

根据本实施例，如上所述，通过使用划分之前的误差和用于确定划分的终止的参数来计算评价值。因此，可以正确地选择候选划分平面。

(第三实施例)

在本实施例中，增加了用于合并根据第一实施例生成的簇的处理。下面，将详细描述本实施例。

图21是示意性地显示根据本实施例的数据划分设备的结构的功能框图。

元件41到48与图2所示的相同。元件43到48所执行的处理阶段称为划分阶段。在本实施例中，数据划分设备还包括合并候选生成器51，合并候选选择器52，模型生成器53，合并评价值计算器54，以及合并/决策单元55。在划分阶段之后，由这些元件51到55执行合并阶段。

图11显示了在划分阶段使用组成部分43到48，基于特定的输入数据而生成的簇。假设按照(1)、(2)和(3)的顺序选择划分线，并且生成簇A、B、C和D以及模型A、B、C和D。然后，由元件51到55执行合并阶段。下面，将描述合并阶段的执行。

合并候选生成器51通过使用基于簇A、B、C和D的所有组合生成簇对。从而生成簇对(A，B)、(A，C)、(A，D)、(B，C)、(B，D)以及(C，D)(合并候选)。

合并候选选择器52相继地选择所生成的簇对并将它们输出到模型生成器53。

模型生成器53在每个输入对中的点集上执行模型生成。

合并评价值计算器54为每个生成的模型计算合并评价值。根据使用例如模型误差、数据的数量以及模型的数量的函数计算合并评价值。在簇对(A，B)的情况下，如下所述执行计算。假设模型A和B的误差分别是error_A和error_B，并且数据的数量分别是num_A和num_B。此外，假设当将簇A和B合并时所得到的模型AB的误差是error_AB，并且数据的数量为num_AB。可以按照与第一实施例相同的方式计算error_A和error_B以及error_AB。获得(num_A/num_AB)*error_A+(num_B/num_AB)*error_B+1*γ与error_AB+2*γ之间的差，作为合并评价值。这里，γ是用户给定的常数，并且“1”和“2”中的每一个都代表模型的数量。

如果合并评价值满足预定的标准(reference)(合并标准)，例如，如果合并评价值小于或等于预定值，则由合并/决策单元55合并簇对中的簇。如果特定簇属于多个满足预定标准的簇对，则具有较低合并评价值的簇对优先。

在本例中，如上所述，有六种方式的簇对(A，B)、(A，C)、(A，D)、(B，C)、(B，D)以及(C，D)。(A，C)和(B，D)的合并评价值满足上述预定标准。因此，合并/决策单元55合并簇A和C以生成簇E，并合并簇B和D以生成簇F。该状态如图12所示。

合并/决策单元55将所生成的簇(这里为E和F)以及还未被合并的簇(在本例中没有)输出到合并候选生成器51。对于这些簇重复上述处理。因为根据簇对(E，F)计算出的合并评价值不满足预定标准，所以合并/决策单元55终止处理而不合并簇E和F。也就是说，最终剩下簇E和F。

另外，在合并候选生成器51中，簇对可以仅包含相邻的簇。在这种情况下，可以减少簇对的数量。

根据本实施例，如上所述合并簇。因此，能够防止簇的数量不必要地增加。

(第四实施例)

图22是示意性地显示根据本实施例的数据划分设备的结构的框图。

首先，按照与第一实施例相同的方式由数据输入单元61和数据离散化单元62执行处理。在后续处理中，既可以用离散化之前的数据也可以用离散化之后的数据作为多维数据。在前一种情况下，处理较快，但精度较低。相反地，在后一种情况下，处理时间较长，但精度较高。

随后，由候选划分平面创建器63执行处理。然后，数据临时划分单元64用特定的候选划分线l将输入数据划分为两个簇A和B。随后，模型生成器65分别根据簇A和B生成模型A和B。该状态如图13所示。

这里，编组单元66根据距模型的距离将点(输入数据)重新编组。假设接近模型A的点属于簇A并且接近模型B的点属于簇B。该状态如图14所示。

评价值计算器67按照与第一或第二实施例同样的方式，基于重编组之后的簇A和B以及模型A和B，计算评价值，并将所计算的评价值输出到候选划分选择器68。

当接收到所有候选划分线的评价值时，候选划分选择器68将对应于具有最佳评价值的候选划分线的分组结果以及最佳评价值输出到决策单元69。如果最佳评价值满足由用户确定的基准值，则决策单元69终止处理。如果最佳评价值不满足基准值，则决策单元69将每个组传送给候选划分平面创建器63。在前面的描述中，还可以重复由模型生成器65、编组单元66以及评价值计算器67执行的处理。也就是说，模型生成器65和编组单元66再次执行模型生成和分组，并且评价值计算器67计算其评价值。该处理会重复进行直到评价值不再改进，即，直到评价的变化小于等于特定值，或者可以将所述处理重复特定的次数。

(第五实施例)

在第五实施例中，将图2所示的候选划分选择器47所选择的划分线(划分平面)偏移，并搜索具有最高评价的划分线。下面，将详细描述本实施例。

假设由候选划分选择器47为特定的输入数据选择划分线l。假设划分线l-和l+与划分线l相邻。候选划分选择器47在直线l-和l+之间创建新的候选划分线。对于创建新的候选划分线的方式，可以将l-和l+之间的间隔简单地分为相等的部分，或者可以将包括在l-和l+之间的点分开。以划分包含在l-和l+之间的六个点的方式进行画线的例子如图15所示。另外，如果在该处理或后续处理中使用离散化之后的数据，则需要将l-和l+之间的数据再次离散化。然后，通过使用这些新的划分线作为候选划分线再次执行使用数据临时划分单元44、模型生成器45和评价值计算器46的处理。也就是说，候选划分选择器47将新的候选划分线输出到数据临时划分单元44，并从评价值计算器46获取对应于新的候选划分线的评价值。候选划分选择器47从新的划分线的候选以及划分线l中选择具有最高评价的一个作为划分线。

根据本实施例，如上所述，将划分线l在相邻划分线的范围内偏移。因此，能够与划分线的间隔无关地执行数据划分。

(第六实施例)

在本实施例中，在改变将要使用的维的组合的同时执行数据划分(分簇)。下面，将详细描述本实施例。

四维输入数据的例子如图16所示。这里，一个特定的维被称为目标维并预先给定。假设图16中y维是目标维。其余的维称为说明维。在处理前规定将要使用的维数。假设维数为3。

首先，从说明维中选择两维，并假定包含所选择的两个维和目标维的三维序列。通常，如果将要使用的维数是k，则从说明维中选择k-1维。如果选择了由x和z维以及y维形成的序列，则获得图17所示的序列。在图2所示的设备中，对所述数据应用一次图3中所示的从步骤1到5的处理。当在步骤4生成模型时，将生成以目标维作为目标变量的模型。同样在x、y和w维的组合以及y、z和w维的组合上执行类似的处理。从而，候选划分平面创建器43分别为(x，y，z)、(x，y，w)以及(y，z，w)生成多个候选划分平面，并且候选划分选择器47为(x，y，z)、(x，y，w)以及(y，z，w)中的每一个选择一个候选。其后，候选划分选择器47在它们中指定具有最高评价的维组合，并采用对应于所指定的组合的候选划分平面。划分/决策单元48通过使用该划分平面执行数据划分。递归地重复该处理。

另外，可以将说明维分成两种维，即，一个固定的说明维和一个附加的说明维。固定的说明维是必须使用的维，附加的说明维是在处理过程中选择的维。例如，假设y维是目标维，x维是固定说明维，以及z和w维是附加说明维，对x、y和z维的组合以及x、y和w维的组合执行上述处理。

根据本实施例，如前所述，在将用于数据划分的说明维的数量限制为较小的数量的情况下，可以执行能够生成高精度模型的数据划分。

(第七实施例)

在本实施例中，在第一实施例的基础上改进了由评价值计算器46执行的评价值计算。本实施例中的评价值计算器71的详细结构如图23所示。评价值计算器71包括数据输入单元72、分类号提供单元(分类号分配单元)73、决策树生成器74以及扩展评价值计算器75。除评价值计算器之外的结构与图2所示的类似。下面，将详细描述本实施例。

在本实施例中，数据划分和划分平面评价中使用的维可以是输入数据维的全部或者一部分。此外，数据划分中使用的维可以与划分平面评价中使用的维相同或者不同。

假设输入数据是四维的，将三维x、y和z用于数据划分，并且将四维x、y、z和w用于划分平面评价。这里，一个特定维被称为目标维并预先给定。假设y维是目标维。其余维称为说明维。

首先，根据第一实施例在数据离散化单元42、候选划分平面创建器43、数据临时划分单元44以及模型生成器45中处理x、y和z维的数据。

评价值计算器71中的分类号提供单元73为每个簇分配一个号码。该号码被称为分类号。所生成的簇的例子如图18所示。此外，分类号提供单元73为输入数据1到n中的每一个分配一个分类号。具有所分配的分类号的数据如图19所示。在每个数据的最右边添加的0或者1是分类号。为每个候选划分平面执行前述处理。

评价值计算器71中的决策树生成器(分类规则生成器)74生成决策树(分类规则)，该决策树使输入数据的维中的非目标维y的维(即，说明维)作为它的属性并且使分类号作为它的类。根据图19所示的数据生成的决策树的例子如图20所示。生成该决策树时，可以使用除用于数据划分以外的那些数据。在这种情况下，从数据输入单元72向决策树生成器74提供有关的数据。决策树生成器74生成对应于每个候选划分平面的决策树。

评价值计算器71中的扩展评价值计算器75按照与第一实施例同样的方式为每个候选划分平面计算评价值e，并计算以下值，例如对应于每个候选划分平面的决策树的精度p以及决策树的深度d(在图20的情况下深度为1)。并且扩展的评价值计算器75通过使用值p和d修改评价值e，并计算扩展评价值。例如，扩展评价值计算器75通过使用表达式e+r×p+s×d来计算扩展评价值。这里，r和s是权重系数。

接着评价值计算器71，候选划分选择器47(见图2)通过使用该扩展评价值来选择候选划分平面。例如，候选划分选择器47选择具有最小评价值的候选划分平面。

根据本实施例，计算评价值时如前所述考虑诸如分类规则的精度和深度这样的要素。因此，可以正确的选择候选划分平面。

(第八实施例)

在本实施例中，在维的多种组合方式上执行上述任何实施例中的处理，并且相应地根据维的组合生成模型。评价对应于维的组合的模型，并采用对应于具有最高评价的模型的数据划分。下面，将详细描述本实施例。

图24是示意性地显示根据本实施例的数据划分设备的结构的框图。

组成部分81表示多个数据划分设备A、B、C...。数据划分设备A、B、C...是根据第一到第七实施例中任何一个的数据划分设备。例如，数据划分设备A、B、C...是根据第一实施例的数据划分设备，或者数据划分设备A、B、C...是根据第二实施例的数据划分设备。但是，数据划分设备A、B、C...中的每一个都不包括数据输入单元。在本实施例中，设置了数据划分设备A、B、C...公用的数据输入单元82。

假设从数据输入单元82提供到数据划分设备A、B、C...的输入数据是相同的，并且在数据划分设备A、B、C...中目标维是相同的。但是，数据划分中使用的维对于每个数据划分设备可以不同。例如，假设目标维是y，数据划分设备A、B、C...分别使用(x，y，z)、(x，y，w)、(z，y，w)用于数据划分。此外，维数可以不同。在这种情况下，使用(x，y)、(y，z)、(y，w)。通过处理，数据划分设备A、B、C...分别输出模型A、B、C...和候选数据划分A、B、C...。候选数据划分A包括多个通过数据划分而获得的簇，并且模型A是对应于相应的簇的一组模型。以同样的方式，候选数据划分B包括多个通过数据划分而获得的簇，并且模型B是对应于相应的簇的一组模型。候选数据划分C包括多个通过数据划分而获得的簇，并且模型C是对应于相应的簇的一组模型。

分类号提供单元(分类号分配单元)83为包含在候选数据划分A、B、C...中的每个簇提供一个分类号。分类号提供单元83为包含在输入数据中的每个数据提供一个分类号。

决策树生成器84为候选数据划分A、B、C...中的每一个生成决策树A、B、C...，所述决策树A、B、C...将非目标维的维(即，说明维)作为属性，并将分类号作为类。用于生成决策树的数据可以与用于数据划分的数据相同，或者与用于数据划分的数据不同。在后一种情况下，从数据输入单元87向决策树生成器84提供数据。

扩展评价值计算器85通过使用决策树A、B、C...根据第七实施例中指明的值e、p和d为模型A、B、C...中的每一个计算扩展评价值。

最佳数据划分选择器86选择扩展评价值中具有最高评价的候选数据划分。

根据本实施例，可以确定能够生成最高精度模型的候选数据划分。

Claims

1.一种数据划分设备，用于划分包含多个数据片的多维数据，所述数据划分设备包括：

数据输入单元，用于输入所述多维数据；

候选划分平面创建器，用于创建多个用于划分所述多维数据的候选划分平面；

数据临时划分单元，用于通过使用所述候选划分平面来临时划分所述多维数据，以根据所述候选划分平面中的每一个生成簇，所述簇中的每一个包括一个或多个数据片；

模型生成器，用于为每个所述候选划分平面生成表示所述簇的模型；

评价值计算器，用于根据所述生成的与所述候选划分平面相关的所述模型以及所述多维数据来计算用于评价所述候选划分平面的评价值；

候选划分选择器，用于比较分别对应于所述候选划分平面的评价值并选择具有最高评价值的候选划分平面；以及

划分/决策单元，用于通过使用所述选择的候选划分平面来划分所述多维数据。

2.如权利要求1所述的数据划分设备，其中

所述划分/决策单元将通过划分所述多维数据而获得的已划分的多维数据输出到所述候选划分平面创建器，并且

如果具有最高评价值的候选划分平面不满足继续条件，则所述候选划分选择器输出表示处理终止的信号。

3.如权利要求1所述的数据划分设备，还包括数据离散化单元，该数据离散化单元用于离散化由所述数据输入单元输入的所述多维数据，

其中，所述候选划分平面创建器、所述数据临时划分单元、所述模型生成器、所述评价值计算器、以及所述划分/决策单元中的至少任意一个使用离散化的多维数据作为所述多维数据。

4.如权利要求1所述的数据划分设备，其中所述评价值计算器基于所述生成的模型、分别对应于所述生成的模型的簇、以及包含在所述多维数据中的数据片的数量来计算所述评价值。

5.如权利要求1所述的数据划分设备，其中所述评价值计算器

根据所述生成的模型和分别对应于所述生成的模型的簇计算所述生成的模型的误差，

将对应于所述多维数据的模型的误差除以包含在所述多维数据中的数据片的数量，

根据所述模型的所述计算的误差、所述除法的结果值、以及分别包含在所述簇中的数据片的数量来分别计算所述模型的模型评价值，以及

根据所述模型的所述模型评价值来计算所述评价值。

6.如权利要求5所述的数据划分设备，其中所述评价值计算器通过以下步骤来计算所述模型中的每一个的模型评价值：从所述模型中的每一个的所述计算的误差中，减去所述除法的结果值与包含在所述簇中的每一个中的数据片的数量的乘积；以及将参数值加到所述减法结果。

7.如权利要求5所述的数据划分设备，其中所述评价值计算器采用所述模型的所述模型评价值中的最小值作为所述评价值。

8.如权利要求1所述的数据划分设备，还包括：

合并候选生成器，用于根据通过所述划分/决策单元执行的划分而最终生成的簇来生成多个簇组合作为合并候选；

合并候选选择器，用于从所述多个合并候选中选择合并候选；

另外的模型生成器，用于根据所述合并候选生成模型；

合并评价值计算器，用于计算由所述另外的模型生成器生成的模型的误差，并计算基于对应于包含在所述合并候选中的簇的模型的误差的计算值与基于由所述另外的模型生成器生成的模型的误差的计算值之间的差，作为合并评价值；以及

合并/决策单元，用于如果所述合并评价值满足合并标准，则合并包含在所述合并候选中的簇并生成新的簇。

9.如权利要求1所述的数据划分设备，其中所述候选划分选择器

生成在所述选择的候选划分平面和临近于所述选择的候选划分平面的候选划分平面之间的新的候选划分平面，并将所述生成的新的候选划分平面输出到所述数据临时划分单元，以及

将对应于所述选择的候选划分平面的评价值与对应于所述新的候选划分平面的评价值进行比较，并且选择具有最高评价值的候选划分平面。

10.如权利要求9所述的数据划分设备，其中所述数据临时划分单元使用所述候选划分选择器生成的所述新的候选划分平面，以便分割包含在所述选择的候选划分平面和所述相邻的候选划分平面之间的数据片。

11.如权利要求1所述的数据划分设备，其中

所述候选划分平面创建器为包含公共目标维的多个维组合中的每一个创建多个候选划分平面，所述目标维是在模型生成时作为目标变量的维，以及

所述候选划分选择器采用分别根据所述维组合而选择的候选划分平面中具有最高评价值的候选划分平面。

12.如权利要求11所述的数据划分设备，其中所述多个维组合中的每一个包括至少一个除所述目标维之外的公共维，所述公共维是在多维数据的划分过程中必须使用的固定的说明维。

13.如权利要求1所述的数据划分设备，其中所述评价值计算器包括：

分类号分配单元，用于在临时划分之后为簇分配分类号；

分类规则生成器，用于生成分类规则，以根据所述多维数据中的说明维来预测分类号，所述说明维是在所述多维数据中的目标维之外的维，所述目标维是在模型生成时成为目标变量的公共维；以及

扩展评价值计算器，用于根据所述分类规则的精度和规模中的至少任意一个以及所述评价值来计算扩展评价值，

其中所述候选划分选择器使用所述扩展评价值代替所述评价值以选择候选划分平面。

14.如权利要求13所述的数据划分设备，其中所述扩展评价值计算器将通过所述分类规则的所述精度与第一权重系数相乘而获得的值以及通过所述分类规则的所述规模与第二权重系数相乘而获得的值加到所述评价值上来计算所述扩展评价值。

15.如权利要求13所述的数据划分设备，其中所述分类规则生成器生成决策树作为所述分类规则。

16.如权利要求1所述的数据划分设备，

其中所述候选划分平面创建器为包括公共目标维的多个维组合中的每一个创建多个候选划分平面，所述目标维是在模型生成时成为目标变量的维，以及

所述划分/决策单元最终输出对应于所述多个维组合的多个数据划分结果，以及

所述数据划分设备还包括：

分类号分配单元，用于为包含在所述数据划分结果中的簇分配分类号；

分类规则生成器，用于生成分类规则以根据所述多维数据中的说明维来预测分类号，所述说明维是在所述多维数据中的目标维之外的维；

扩展评价值计算器，用于根据对应于所述数据划分结果中的所述簇的模型、所述多维数据、以及所述分类规则的精度和规模中的至少任意一个来计算扩展评价值；以及

数据划分选择器，用于选择具有最高扩展评价值的数据划分结果。

17.一种数据划分设备，用于划分包含多个数据片的多维数据，所述数据划分设备包括：

数据输入单元，用于输入所述多维数据；

数据临时划分单元，用于通过使用所述候选划分平面临时地划分所述多维数据，以根据所述候选划分平面中的每一个生成簇，所述簇中的每一个包括一个或多个数据片；

编组单元，用于通过基于所述多维数据中的每个数据片临近于哪个所述生成的模型将所述多维数据中的数据片编组，从而为每个所述候选划分平面生成新的簇；

评价值计算器，用于根据所述生成的与所述候选划分平面相关的模型以及所述生成的与所述候选划分平面相关的新的簇来计算用于评价与所述候选划分平面相关的编组的评价值；

候选划分选择器，用于比较分别对应于所述候选划分平面的评价值并选择对应于具有最高评价值的候选划分平面的编组结果。

18.如权利要求17所述的数据划分设备，其中所述评价值计算器将所述生成的新的簇输出到所述模型生成器，并将新计算的评价值传递给所述候选划分选择器。

19.一种数据划分方法，用于划分包含多个数据片的多维数据，所述数据划分方法包括：

输入所述多维数据；

创建多个用于划分所述多维数据的候选划分平面；

通过使用所述候选划分平面临时划分所述多维数据以根据每个所述候选划分平面生成簇，每个所述簇包括一个或多个数据片；

为每个所述候选划分平面生成表示所述簇的模型；

根据所述生成的与所述候选划分平面相关的模型和所述多维数据计算用于评价所述候选划分平面的评价值；

比较分别对应于所述候选划分平面的评价值并选择具有最高评价值的候选划分平面；

通过使用所述选择的候选划分平面来划分所述多维数据；

对已划分的多维数据执行所述创建、所述临时划分、所述生成、所述计算、所述比较以及所述划分。