CN101226551A

CN101226551A - 一种海量数据的快速建模方法

Info

Publication number: CN101226551A
Application number: CNA2008100571445A
Authority: CN
Inventors: 伊胜伟; 胡记兵; 马世龙; 蔡家楣
Original assignee: Zhejiang University of Technology ZJUT; Beihang University
Current assignee: Zhejiang University of Technology ZJUT; Beihang University
Priority date: 2008-01-30
Filing date: 2008-01-30
Publication date: 2008-07-23

Abstract

本发明提出一种海量数据的快速建模方法，该方法是对SURPASS方法的进一步改进。该方法从数据集中获取数据并作处理，通过可视化的过程最终生成一棵供预测分类的决策树。该方法在建模的过程中，通过为每个属性计算一个指标值作为属性的特征值，并根据特征值对属性进行筛选，使得在建模过程的比较不纯度这一步骤中，被测试的属性数量减少，也就是用少量的内存操作数替代大量的外存操作，达到了提高建模效率，节省建模时间的效果，特别是对于海量数据的快速建模具有良好的应用价值。

Description

一种海量数据的快速建模方法

技术领域

本发明属于数据挖掘领域，涉及一种建模方法，具体涉及一种海量数据的快速建模方法。

背景技术

决策树学习是以实例为基础的归纳学习方法，它着眼于从一组无次序、无规则的事例中推理出以决策树为表示形式的分类规则，通常用来形成分类器和预测模型，可以对未知数据进行分类或预测、数据挖掘等。它包括两个步骤：第一步是利用训练样本集来建立一棵决策树，建立决策树模型。这个过程实际上是一个从数据中获取知识，进行机器学习的过程。通常分为两个阶段：建树和剪枝。第二步是利用建好的决策树对新的数据进行分类。

据统计，目前决策树方法的利用率高达19％，在各种决策树分类方法中，早期的是CLS学习方法和CART方法。最有影响的是Quinlan提出的ID3方法，在ID3方法的基础上，他又提出了C4.5方法。为了适应处理大规模数据集的需要，后来又提出了若干改进的方法，如SLIQ方法、SPRINT方法、PUBLIC方法、SURPASS方法等，其中SURPASS(Scaling Up Recursive Partitioning with SufficientStatistics，基于充分统计的增量式递归分割)方法是一个处理大小超过计算机内存的数字数据的决策树方法。

SURPASS方法的性能存在二律悖反：它在处理大小超过计算机内存的数据集上具有优势，但是处理如此大的数据量使得计算效率低下。SURPASS是专门用于处理数字数据的，当类型数据出现在训练数据中时，如果要使用它，就需要用二进制编码来处理类型值。当有很多类型属性时，每个属性包含大量类，编码过程将要创建大量的额外的二进制属性，这导致计算效率低下的问题。因为要连续的访问驻留磁盘的数据，SURPASS的计算时间预期比那些占用较多内存的决策树系统如C4.5或CART耗费更长的计算时间。因此，研究如何提高处理大数据集的速度是很有必要的。

对于计算效率低下的问题，SURPASS的提出者给出了一些设想。一个设想是在树生成的早期阶段，仅评估基于所有属性的线性组合的分割，不考虑使用单一属性的分割。当要分割的数据集的大小下降到一定水平时，基于所有属性的线性组合的分割的质量会恶化，方法恢复包含测试单个属性的过程。另外一个设想是使用数据约简技术，它以样本代替整个数据集。

SURPASS方法具有以下特征：

SURPASS方法中的Anderson规则

对于单属性j，Anderson规则是：

({\overset{&OverBar;}{x}}_{1 j} - {\overset{&OverBar;}{x}}_{2 j}) S_{jj}^{- 1} x_{0} > \frac{1}{2} ({\overset{&OverBar;}{x}}_{1 j} - {\overset{&OverBar;}{x}}_{2 j}) S_{jj}^{- 1} ({\overset{&OverBar;}{x}}_{1 j} + {\overset{&OverBar;}{x}}_{2 j}) + \ln (\frac{n_{2}}{n_{1}}) - - - (1)

其中，

是类1数据的均值向量的第j个分量；

是类2数据的均值向量的第j个分量；s_1j ^-1是总体样本协方差矩阵的第j个对角线元素的倒数；x₀是被分类的记录向量的第j个分量；n₁是当前结点中属于类1的记录的个数；n₂是当前结点中属于类2的记录的个数。

对于组合属性，Anderson规则是：

{({\overset{&OverBar;}{x}}_{1} - {\overset{&OverBar;}{x}}_{2})}^{T} S^{- 1} x_{0} > \frac{1}{2} {({\overset{&OverBar;}{x}}_{1} - {\overset{&OverBar;}{x}}_{2})}^{T} S^{- 1} ({\overset{&OverBar;}{x}}_{1} + {\overset{&OverBar;}{x}}_{2}) + \ln (\frac{n_{2}}{n_{1}}) - - - (2)

其中

是类1数据的均值向量，x₀是被分类的记录向量，S^-1是总体样本协方差矩阵的逆矩阵。是类2数据的均值向量。n₁，n₂的含义与单属性的情形相同。

总体样本协方差矩阵S由下式计算：

S = \frac{(n_{1} - 1) S_{1} + (n_{2} - 1) S_{2}}{(n_{1} + n_{2} - 2)}

S₁和S₂分别是类1数据和类2数据的样本协方差矩阵。

符合Anderson规则的记录被分割到类1(左子集)，否则被分割到类2(右子集)。

另外，一个结点包含n个记录，分割成两个子结点后，设子结点1包含x个类1数据和y个类2记录，子结点2包含u个类1记录和w个类2记录，则不纯度的计算公式是：

- \frac{x + y}{n} [\frac{x}{x + y} \ln \frac{x}{x + y} + \frac{y}{x + y} \ln \frac{y}{x + y}] - \frac{u + w}{n} [\frac{u}{u + w} \ln \frac{u}{u + w} + \frac{w}{u + w} \ln \frac{w}{u + w}] - - - (4)

当结点中包含的记录的个数少于一个预先设定的值时，或者从该结点到决策树根结点的路径上，所有的属性都被使用过一次(从当前结点到根结点的路径上已经使用过的属性不能在当前结点重复使用)，或者结点中仅包含一类数据时，决策树生成过程终止。

SURPASS方法专门用来在数字数据数据集上建立决策树模型。它具有按比例增加的特性，因而能够处理大小超过内存容量的大数据集。

SURPASS方法的不足：当类型数据出现在训练数据中时，如果要使用SURPASS方法，就需要用二进制编码来处理类型值。如果有很多类型属性，编码过程要创建大量额外的二进制属性，导致处理海量数据的建模过程的计算效率低下。

发明内容

本发明提出一种海量数据的快速建模方法，该方法是对SURPASS方法的进一步改进。该方法在建模的过程中，通过为每个属性计算一个指标值作为属性的特征值，并根据特征值对属性进行筛选，使得在建模过程的比较不纯度这一步骤中，被测试的属性数量减少，也就是用少量的内存操作数替代大量的外存操作，达到了提高建模效率，节省建模时间的效果，特别是对于海量数据的快速建模具有良好的应用价值。

本发明一种海量数据的快速建模方法，其特征在于，本方法的执行过程可分为如下步骤：

步骤1：根据当前结点所包含的记录的ID集进行操作；连续从外存读取当前结点包含了其ID号的记录；第一次执行此步骤时，当前结点包含了数据库中存放的数据集的所有记录的ID，这些ID存放在一个文件中；每读入一条记录后，如果该记录属于新类i，i＝1、2，则创建v_i和w_i(v_i为关于类i的p维向量，p是单属性个数；w_i为关于类i的p×p矩阵)并初始化为0，并将类i加入到类集合中，然后更新每个v_i和w_i的值，其中v_i的第j个分量存储属于类i的所有记录的第j个属性值的和；对每个j和r(j，r＝1，2，…，p)，x_j·x_r是每条记录第j分量和第r分量的乘积，属于类i的所有记录的x_j·x_r之和存放在w_i的第j行第r列，更新完毕进行存储；然后释放这条记录所占的内存空间；

步骤2：创建V₁，W₁和V₂，W₂并初始化为0。将属于不同类的v_i和w_i分成两组，将v_i的各分量加到v_i所属组对应的分量上，并将w_i的每个位置上的元素加到w_i所属组对应的位置上；

步骤3：通过V₁，W₁和V₂，W₂计算类1数据和类2数据的均值向量和样本协方差矩阵，计算总体样本协方差矩阵及其逆矩阵；

步骤4：采用一定的筛选比例筛选需要被测试的属性集，筛选比例范围为75％～85％；

步骤5：设通过步骤4筛选的属性集合是A₁，A₂，…，A_h。求出这个集合中的每个属性的Anderson规则并利用每个规则进行分割，计算每个分割的不纯度；

步骤6：选择最小不纯度对应的属性进行分割，把当前结点的数据分割成两个子集，代表子集的子结点记录该子集包含的所有记录的ID号；

步骤7：判断子集是否满足终止条件。如果满足，则终止。只要有一个子集不满足终止条件，则重置V₁，W₁和V₂，W₂，且对该子集重复执行步骤1至步骤6。

所述步骤4中，计算筛选比例的步骤如下：

a.为每个属性i计算EX_i、DX_i、RV_i和L_i；

b.为每个属性计算I_i或I_i′；

c.以一定筛选比例筛选具有较小I_i或I_i′值的属性，如果通过筛选的属性的个数为小数，则四舍五入为整数；

其中，EX_i、DX_i、RV_i、L_i、I_i和I_i′的含义如下：

EX_i：对单属性，EX_i是属性i的样本期望；对组合属性，EX_i是各单属性样本期望的加权和(权重分别为a₁，a₂，…，a_p)，a₁，a₂，…，a_p是组合属性的Anderson规则的左边的各项系数，p为单属性个数；

DX_i：对单属性，DX_i是属性的样本方差；对组合属性，DX_i是各单属性样本方差的加权和(权重分别为a₁ ²，a₂ ²，…，a_p ²)；

RV_i：对单属性，变形Anderson规则使规则的左边系数为1，变形后的规则的右边就是该属性的RV_i；对组合属性，Anderson规则的右边就是组合属性的RV_i；

L_{i} = \frac{\max (n_{1}, n_{2}) (\overset{&OverBar;}{x_{1 i}} - \overset{&OverBar;}{x_{2 i}})}{n};

I_{i} = \frac{{({EX}_{i} - {RV}_{i})}^{2}}{{DX}_{i}};

I_{i}^{'} = \frac{{[{EX}_{i} - {RV}_{i} - L_{i}]}^{2}}{{DX}_{i}} .

本方法限定类集合中类的个数等于2。

本发明一种海量数据的快速建模方法的优点在于：

(1)减少了需要测试的属性的个数，用少量的内存操作数替代大量的外存操作数，达到了提高建模效率的效果。

(2)筛选比例在75％-85％的范围内，既保证对海量数据的处理结果是正确的，同时又保证建模速度有更大的提高。

附图说明

图1为本发明一种海量数据的快速建模方法的过程框图；

图2为本发明一种海量数据的快速建模方法的流程图；

图3为本发明一种海量数据的快速建模方法在一个数据集实例上得到的二叉决策树。

具体实施方式

下面将结合附图和实施例对本发明作进一步的详细说明。

本发明提出一种海量数据的快速建模方法，该方法是对SURPASS方法的进一步改进，如图1所示：该方法从数据集中获取数据并作处理，通过可视化的过程最终生成一棵供预测分类的决策树。该方法在建模的过程中，通过为每个属性计算一个指标值作为属性的特征值，并根据特征值对属性进行筛选，使得在建模过程的比较不纯度这一步骤中，被测试的属性数量减少，以少量的内存操作数替代大量的外存操作，达到了提高建模效率，节省建模时间的效果，特别是对于海量数据的快速建模具有良好应用价值。

本发明一种海量数据的快速建模方法，如图2所示，执行过程可分为如下步骤：

本实施例中，数据库里存放的记录如下(记录编号就是记录的ID号)：

记录编号	X₁	X₂	X₃	类标号
记录编号	X₁	X₂	X₃	类标号	1	69	50	7.0	A
2	83	50	6.0	A	1	69	50	7.0	A
2	83	50	6.0	A	3	94	45	5.5	A
4	77	47	5.3	A	3	94	45	5.5	A
4	77	47	5.3	A	5	44	52	4.5	A
6	48	55	4.8	A	5	44	52	4.5	A
6	48	55	4.8	A	7	40	53	4.5	A
8	70	48	4.6	B	7	40	53	4.5	A
8	70	48	4.6	B	9	56	50	4.5	B
10	45	51	5.3	B	9	56	50	4.5	B
10	45	51	5.3	B	11	42	50	5.0	B
12	48	51	5.2	B	11	42	50	5.0	B

步骤1：根据当前结点所包含的记录的ID集进行操作。操作是：类集合初始化为空，置参数n₁，n₂为0。连续从外存读取一条当前结点包含了其ID号的记录。第一次执行此步骤时，当前结点包含了数据库中存放的数据集的所有记录的ID，这些ID存储在一个文件中。每读入一条记录后，做如下操作：访问类集合，根据记录的类标号判断该记录是否属于新的类。如果它属于新类i，i＝1、2，则创建v_i和w_i(v_i为关于类i的p维向量，p是单属性个数；w_i为关于类i的p×p矩阵)并初始化为0，将类i加入到类集合中。然后根据以下规则更新每个v_i和w_i的值，其中v_i的第j个分量存储属于类i的所有记录的第j个属性值的和；对每个j和r(j，r＝1，2，……，p)，x_j·x_i是每条记录第j分量和第r分量的乘积，属于类i的所有记录的x_j·x_r之和存放在w_i的第j行第r列，更新完毕进行存储。如果读入的记录属于类1，那么n₁加1；如果读入的记录属于类2，那么n₂加1；释放这条记录所占的内存空间；

步骤2：创建V₁，W₁和V₂，W₂并初始化为0。将属于不同类的v_i和w_i分成两组，如果v_i属于组1，则将v_i的各分量加到V₁对应的分量上，将w_i的每个位置上的元素加到W₁对应的位置上；如果v_i属于组2，则将v_i的各分量加到V₂对应的分量上，将w_i的每个位置上的元素加到W₂对应的位置上；

假设内存只能容纳一个记录，方法的执行过程如下：

类集合CC(Class Collection)初始化为空，即CC＝，

读取第1条记录，访问类集合CC，根据该记录的类标号可判定该记录属于新类1(A代表类1，B代表类2)。

创建v₁和w₁，重置CC后，CC＝{1}，更新v₁和w₁后：

v₁＝[69 50 7]；

w_{1} = (\begin{matrix} 69^{2} & 69 \times 50 & 69 \times 7 \\ 69 \times 50 & 50^{2} & 50 \times 7 \\ 69 \times 7 & 50 \times 7 & 7^{2} \end{matrix}) = (\begin{matrix} 4761 & 3450 & 483 \\ 3450 & 2500 & 350 \\ 483 & 350 & 49 \end{matrix});

置n₁＝1，释放记录1所占的内存空间。

读取第2条记录后，访问类集合CC，根据该记录的类标号可判定该记录不属于任何新类；

更新v₁和w₁后，

v₁＝[69+83 50+50 7+6]＝[152 100 13]；

w_{1} = (\begin{matrix} 4761 + 83^{2} & 3450 + 83 \times 50 & 483 + 83 \times 6 \\ 3450 + 83 \times 50 & 2500 + 50^{2} & 350 + 50 \times 6 \\ 483 + 83 \times 6 & 350 + 50 \times 6 & 49 + 6^{2} \end{matrix}) = (\begin{matrix} 11650 & 7600 & 981 \\ 7600 & 5000 & 650 \\ 981 & 650 & 85 \end{matrix});

置n₁＝2，释放记录2所占的内存空间。

余下依此类推。

在本实施例中，读取上表中第8条记录后v₂和w₂被创建，CC被重置为{1，2}，第9条记录读入前，v₂，w₂，n₁和n₂的值分别为：

v₂＝[70 48 4.6]；

w_{2} = (\begin{matrix} 70^{2} & 70 \times 48 & 70 \times 4.6 \\ 70 \times 48 & 48^{2} & 48 \times 4.6 \\ 70 \times 4.6 & 48 \times 4.6 & {4.6}^{2} \end{matrix}) = (\begin{matrix} 4900 & 3360 & 322 \\ 3360 & 2304 & 220.8 \\ 322 & 220.8 & 21.16 \end{matrix});

n₁＝7，n₂＝1；

从读第8条记录开始，到第12条记录被读入后，v₁和w₁的值不再改变。

当12条记录都读入后，v₁，v₂，w₁，w₂，n₁，n₂的值分别为：

v₁＝[455 352 37.6]；

w_{1} = (\begin{matrix} 32255 & 22497 & 2515 \\ 22497 & 17772 & 1883 \\ 2515 & 1883 & 207 \end{matrix});

v₂＝[261 250 24.6]；

w_{2} = (\begin{matrix} 14129 & 13003 & 1272 \\ 13003 & 12506 & 1231 \\ 1272 & 1231 & 122 \end{matrix});

n₁＝7，n₂＝5；

创建V₁，V₂，W₁，W₂；

类集合中类的个数等于2，所以直接将v₁，v₂，w₁，w₂分别赋予V₁，V₂，W₁，W₂。

步骤3：通过V₁，W₁和V₂，W₂计算均值向量，样本协方差矩阵和逆矩阵；

类1数据和类2数据的均值向量，样本协方差矩阵分别计算如下：

\overset{&OverBar;}{x_{1}} = \frac{V_{1}}{n_{1}} = [\begin{matrix} 65 & 50.29 & 5.37 \end{matrix}];

\overset{&OverBar;}{x_{2}} = \frac{V_{2}}{n_{2}} = [\begin{matrix} 52.2 & 50 & 4.92 \end{matrix}];

类1数据的样本协方差阵的第i行和第j列为：

S_{1 ij} = \frac{1}{n_{1} - 1} (W_{1 ij} - \frac{V_{1 i} V_{1 j}}{n_{1}});

这样，

S_{1} = (\begin{matrix} 446.67 & - 63.83 & 11.75 \\ - 63.83 & 11.90 & - 1.27 \\ 11.75 & - 1.27 & 0.82 \end{matrix}),

同理：

S_{2} = (\begin{matrix} 126.20 & - 11.75 & - 3.01 \\ - 11.75 & 1.50 & 0.32 \\ - 3.01 & 0.32 & 0.13 \end{matrix}) .

由于，

S_{ij} = \frac{(n_{1} - 1) S_{1 ij} + (n_{2} - 1) S_{2 ij}}{(n_{1} + n_{2} - 2)},

计算总体样本协方差矩阵得：

S = (\begin{matrix} 318.48 & - 43 & 5.85 \\ - 43 & 7.74 & - 0.63 \\ 5.85 & - 0.63 & 0.54 \end{matrix}),

计算总体样本协方差矩阵的逆矩阵得：

S^{- 1} = (\begin{matrix} 0.0146 & 0.0752 & - 0.0691 \\ 0.0752 & 0.5314 & - 0.1897 \\ - 0.0691 & - 0.1897 & 2.3674 \end{matrix}) .

步骤4：采用一定的筛选比例筛选需要被测试的属性，计算筛选比例的步骤如下：

a.为每个属性i计算EX_i，DX_i，RV_i，L_i。

b.为每个属性计算I_i或I_i′

c.筛选具有较小I_i或I_i′值的属性，筛选比例为75％-85％，如果属性的总个数乘以筛选比例是小数，则通过筛选的属性个数是把该小数四舍五入后得到的整数。

其中EX_i，DX_i，RV_i，L_i，I_i，I_i′的含义如下：

EX_i：对单属性，EX_i是属性i的样本期望；对组合属性，EX_i是各单属性样本期望的加权和(权重分别为a₁，a₂，…，a_p)，a₁，a₂，…，a_p是组合属性的Anderson规则的左边的各项系数，p为单属性个数。

DX_i：对单属性，DX_i是属性的样本方差；对组合属性，DX_i是各单属性样本方差的加权和(权重分别为a₁ ²，a₂ ²，…，a_p ²)。

RV_i：对单属性，变形Anderson规则使规则的左边系数为1，变形后的规则的右边就是该属性的RV_i；对组合属性，Anderson规则的右边就是组合属性的RV_i。

L_{i} = \frac{\max (n_{1}, n_{2}) (\overset{&OverBar;}{x_{1 i}} - \overset{&OverBar;}{x_{2 i}})}{n}

I_{i} = \frac{{({EX}_{i} - {RV}_{i})}^{2}}{{DX}_{i}}

I_{i}^{'} = \frac{{[{EX}_{i} - {RV}_{i} - L_{i}]}^{2}}{{DX}_{i}}

筛选比例在75％-85％范围内。

属性1，属性2，属性3和组合属性的Anderson规则分别是：

属性1的Anderson规则计算如下：

(65 - 52.2) \frac{1}{318.48} x_{0} > \frac{1}{2} (65 - 52.2) \frac{1}{318.48} (65 + 52.2) + \log (\frac{5}{7})

化简得：X₁＞50.2281，同理可得属性2，属性3的Anderson规则分别为：X₂＞41.0243，X₃＞4.7416。

组合属性的Anderson规则计算如下：

[\begin{matrix} 65 - 52.2 & 50.29 - 50 & 5.37 - 4.92 \end{matrix}] (\begin{matrix} 0.0146 & 0.0752 & - 0.0691 \\ 0.0752 & 0.5314 & - 0.1897 \\ - 0.0691 & - 0.1897 & 2.3674 \end{matrix}) [\begin{matrix} X_{1} \\ X_{2} \\ X_{3} \end{matrix}] > \frac{1}{2}

[\begin{matrix} 65 - 52.2 & 50.29 - 50 & 5.37 - 4.92 \end{matrix}] (\begin{matrix} 0.0146 & 0.0752 & - 0.0691 \\ 0.0752 & 0.5314 & - 0.1897 \\ - 0.0691 & - 0.1897 & 2.3674 \end{matrix}) [\begin{matrix} 65 + 52.2 \\ 50.29 + 50 \\ 5.37 + 4.92 \end{matrix}] + \log (\frac{5}{7}),

化简得：0.1768X₁+1.0291X₂+0.1302X₃＞62.6312。

对单属性i(i＝1、2、3)，由

{EX}_{i} = \frac{V_{1 i} + V_{2 i}}{n_{1} + n_{2}}

得，EX₁＝59.67、EX₂＝50.17、EX₃＝5.18。

RV₁＝50.2281，RV₂＝41.0243，RV₃＝4.7416；

由

{DX}_{i} = \frac{W_{1 ii} + W_{2 ii}}{n_{1} + n_{2}} + {({EX}_{i})}^{2} - \frac{{2 EX}_{i} (V_{1 i} + V_{2 i})}{n_{1} + n_{2}},

可得DX₁＝305.22、DX₂＝6.48、DX₃＝0.55。

对组合属性：EX₄＝0.1768EX₁+1.0291EX₂+0.1302EX₃＝62.85，

RV₄＝62.6312；

DX₄＝0.1768×0.1768×DX₁+1.0291×1.0291×DX₂+0.1302×0.1302×DX₃＝16.41；

根据

I_{i} = \frac{{({EX}_{i} - {RV}_{i})}^{2}}{{DX}_{i}}

计算得：I₁＝0.29、I₂＝12.5、I₃＝0.39、I₄＝0.02。其中，I₁、I₂、I₃、I₄分别是属性1，属性2，属性3的指标值，I₄是组合属性的指标值。从小到大排序得序列I₄、I₃、I₂、I₂，使用I指标筛选，保留排序在前r％(r介于75-85之间)的属性，就是保留前4×75％＝3～4×85％＝3.4(≈3)个属性，所以属性2被排除出被测试的属性集。

也可以用I’来对属性进行筛选：

由

L_{1} = \frac{7}{12} \times (65 - 52.2) = 7.47,

L_{2} = \frac{7}{12} \times (50.29 - 50) = 0.17,

L_{3} = \frac{7}{12} \times (5.37 - 4.92) = 0.26,

L_{4} = \frac{7}{12} \times [\begin{matrix} 0.1768 & (65 - 52.2) + 1.0291 & (50.29 - 50) + 0.1302 & (5.37 - 4.92) \end{matrix}] = 1.53

得I₁′＝0.0127，I₂′＝12.4325，I₃′＝0.0578，I₄′＝0.1048。使用I′指标筛选，保留排序在前r％(r介于75-85之间)的属性，就是保留前4×75％＝3～4×85％＝3.4(≈3)个属性，所以属性2被排除出被测试的属性集。

计算组合属性的不纯度如下：

组合属性的Anderson规则为：

0.1768X₁+1.0291X₂+0.1302X₃＞62.6312，当前结点包含编号为1至12的记录，其中编号为1、2、3、4、6的记录满足该规则(例如对记录1，0.1768×69+1.0291×50+0.1302×7.0＝64.57＞62.6312，所以记录1满足该规则)，它们被分割到左子集(左子集代表类1)，编号为5，7，8，9，10，11，12的记录被分割到右子集(右子集代表类2)。

根据

- \frac{x + y}{n} [\frac{x}{x + y} \ln \frac{x}{x + y} + \frac{y}{x + y} \ln \frac{y}{x + y}] - \frac{u + w}{n} [\frac{u}{u + w} \ln \frac{u}{u + w} + \frac{w}{u + w} \ln \frac{w}{u + w}]

规定0ln⁰＝-1，计算组合属性的不纯度为：

- \frac{5 + 0}{12} [\frac{5}{5 + 0} \ln \frac{5}{5 + 0} + \frac{0}{5 + 0} \ln \frac{0}{5 + 0}] - \frac{2 + 5}{12} [\frac{2}{2 + 5} \ln \frac{2}{2 + 5} + \frac{5}{2 + 5} \ln \frac{5}{2 + 5}] = 0.77

其中，5+0中的x＝5指左子集中有5个类1数据，y＝0指左子集中有0个类2

数据；2+5中的u＝2指右子集中有2个类1数据，w＝5指右子集中有5个类2

数据，n＝12为数据的总个数。

步骤6：选择最小不纯度对应的属性进行分割，把当前结点的数据分割成两个子集，代表子集的子结点记录该子集包含的所有记录的ID号。

为了选取具有最小不纯度的属性，同理计算属性1，属性3的不纯度分别为0.96，0.97。这样，选取不纯度最小的组合属性进行分割，数据集被分割为左右两个子集(SURPASS方法通过计算不纯度排除属性2：SURPASS方法中，属性2的不纯度为0.98(＞0.77)，本方法通过计算I或I’排除属性2，两种方法所得的结果相同：二者都选择了组合属性进行分割)：

左子集为：

记录编号	X₁	X₂	X₃	类标号
记录编号	X₁	X₂	X₃	类标号	1	69	50	7.0	A
2	83	50	6.0	A	1	69	50	7.0	A
2	83	50	6.0	A	3	94	45	5.5	A
4	77	47	5.3	A	3	94	45	5.5	A
4	77	47	5.3	A	6	48	55	4.8	A

右子集为：

记录编号	X₁	X₂	X₃	类标号
记录编号	X₁	X₂	X₃	类标号	5	44	52	4.5	A
7	40	53	4.5	A	5	44	52	4.5	A
7	40	53	4.5	A	8	70	48	4.6	B
9	56	50	4.5	B	8	70	48	4.6	B
9	56	50	4.5	B	10	45	51	5.3	B
11	42	50	5.0	B	10	45	51	5.3	B
11	42	50	5.0	B	12	48	51	5.2	B

本实施例中，左子集满足终止条件。

继续对右子集按照以上方法进行分割，分割所用到的属性为属性2，属性2的Anderson规则为X₂＞51.7265，利用属性2将上述右子集表的数据继续分为左子集和右子集。

左子集为

记录编号	X₁	X₂	X₃	类标号
记录编号	X₁	X₂	X₃	类标号	5	44	52	4.5	A
7	40	53	4.5	A	5	44	52	4.5	A

右子集为

记录编号	X₁	X₂	X₃	类标号
记录编号	X₁	X₂	X₃	类标号	8	70	48	4.6	B
9	56	50	4.5	B	8	70	48	4.6	B
9	56	50	4.5	B	10	45	51	5.3	B
11	42	50	5.0	B	10	45	51	5.3	B
11	42	50	5.0	B	12	48	51	5.2	B

这两个子集均满足终止条件：数据集中仅包括一类数据，所以方法终止。最后得到如图3所示的二叉决策树。

Claims

1.一种海量数据的快速建模方法，其特征在于，本方法包括如下步骤：

步骤一：根据当前结点所包含的记录的ID集进行操作；连续从外存读取当前结点包含了其ID号的记录；第一次执行此步骤时，当前结点包含了数据库中存放的数据集的所有记录的ID，这些ID存放在一个文件中；每读入一条记录后，如果该记录属于新类i，i＝1、2，则创建v_i和w_i(v_i为关于类i的p维向量，p是单属性个数；w_i为关于类i的p×p矩阵)并初始化为0，并将类i加入到类集合中，然后更新每个v_i和w_i的值，其中v_i的第j个分量存储属于类i的所有记录的第j个属性值的和；对每个j和r(j，r＝1，2，…，p)，x_j·x_r是每条记录第j分量和第r分量的乘积，属于类i的所有记录的x_j·x_r之和存放在w_i的第j行第r列，更新完毕进行存储；然后释放这条记录所占的内存空间；

步骤二：创建V₁，W₁和V₂，W₂并初始化为0；将属于不同类的v_i和w_i分成两组，将v_i的各分量加到v_i所属组对应的分量上，并将w_i的每个位置上的元素加到w_i所属组对应的位置上；

步骤三：通过V₁，W₁和V₂，W₂计算类1数据和类2数据的均值向量和样本协方差矩阵，计算总体样本协方差矩阵及其逆矩阵；

步骤四：采用一定的筛选比例筛选需要被测试的属性集，筛选比例范围为75％-85％；

步骤五：设通过步骤四筛选的属性集合是A₁，A₂，…，A_h。求出这个集合中的每个属性的Anderson规则并利用每个规则进行分割，计算每个分割的不纯度；

步骤六：选择最小不纯度对应的属性进行分割，把当前结点的数据分割成两个子集，代表子集的子结点记录该子集包含的所有记录的ID号；

步骤七：判断子集是否满足终止条件；如果满足，则终止；只要有一个子集不满足终止条件，则重置V₁，W₁和V₂，W₂，且对该子集重复执行步骤一至步骤六。

2.根据权利要求1所述一种海量数据的快速建模方法，其特征在于：所述步骤四中，计算筛选比例的步骤如下：

a.为每个属性i计算EX_i、DX_i、RV_i和L_i；

b.为每个属性计算I_i或I_i′；

其中，EX_i、DX_i、RV_i、L_i、I_i和I_i′的含义如下：

L_{i} = \frac{\max (n_{1}, n_{2}) (\overset{&OverBar;}{x_{1 i}} - \overset{&OverBar;}{x_{2 i}})}{n};

I_{i} = \frac{{(E X_{i} - R V_{i})}^{2}}{D X_{i}};

I_{i}^{'} = \frac{{[E X_{i} - R V_{i} - L_{i}]}^{2}}{D X_{i}} .

3.根据权利要求1所述一种海量数据的快速建模方法，其特征在于：本方法限定类集合中类的个数等于2。