CN101226551A - 一种海量数据的快速建模方法 - Google Patents

一种海量数据的快速建模方法 Download PDF

Info

Publication number
CN101226551A
CN101226551A CNA2008100571445A CN200810057144A CN101226551A CN 101226551 A CN101226551 A CN 101226551A CN A2008100571445 A CNA2008100571445 A CN A2008100571445A CN 200810057144 A CN200810057144 A CN 200810057144A CN 101226551 A CN101226551 A CN 101226551A
Authority
CN
China
Prior art keywords
attribute
class
data
record
rule
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2008100571445A
Other languages
English (en)
Inventor
伊胜伟
胡记兵
马世龙
蔡家楣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Beihang University
Original Assignee
Zhejiang University of Technology ZJUT
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT, Beihang University filed Critical Zhejiang University of Technology ZJUT
Priority to CNA2008100571445A priority Critical patent/CN101226551A/zh
Publication of CN101226551A publication Critical patent/CN101226551A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出一种海量数据的快速建模方法,该方法是对SURPASS方法的进一步改进。该方法从数据集中获取数据并作处理,通过可视化的过程最终生成一棵供预测分类的决策树。该方法在建模的过程中,通过为每个属性计算一个指标值作为属性的特征值,并根据特征值对属性进行筛选,使得在建模过程的比较不纯度这一步骤中,被测试的属性数量减少,也就是用少量的内存操作数替代大量的外存操作,达到了提高建模效率,节省建模时间的效果,特别是对于海量数据的快速建模具有良好的应用价值。

Description

一种海量数据的快速建模方法
技术领域
本发明属于数据挖掘领域,涉及一种建模方法,具体涉及一种海量数据的快速建模方法。
背景技术
决策树学习是以实例为基础的归纳学习方法,它着眼于从一组无次序、无规则的事例中推理出以决策树为表示形式的分类规则,通常用来形成分类器和预测模型,可以对未知数据进行分类或预测、数据挖掘等。它包括两个步骤:第一步是利用训练样本集来建立一棵决策树,建立决策树模型。这个过程实际上是一个从数据中获取知识,进行机器学习的过程。通常分为两个阶段:建树和剪枝。第二步是利用建好的决策树对新的数据进行分类。
据统计,目前决策树方法的利用率高达19%,在各种决策树分类方法中,早期的是CLS学习方法和CART方法。最有影响的是Quinlan提出的ID3方法,在ID3方法的基础上,他又提出了C4.5方法。为了适应处理大规模数据集的需要,后来又提出了若干改进的方法,如SLIQ方法、SPRINT方法、PUBLIC方法、SURPASS方法等,其中SURPASS(Scaling Up Recursive Partitioning with SufficientStatistics,基于充分统计的增量式递归分割)方法是一个处理大小超过计算机内存的数字数据的决策树方法。
SURPASS方法的性能存在二律悖反:它在处理大小超过计算机内存的数据集上具有优势,但是处理如此大的数据量使得计算效率低下。SURPASS是专门用于处理数字数据的,当类型数据出现在训练数据中时,如果要使用它,就需要用二进制编码来处理类型值。当有很多类型属性时,每个属性包含大量类,编码过程将要创建大量的额外的二进制属性,这导致计算效率低下的问题。因为要连续的访问驻留磁盘的数据,SURPASS的计算时间预期比那些占用较多内存的决策树系统如C4.5或CART耗费更长的计算时间。因此,研究如何提高处理大数据集的速度是很有必要的。
对于计算效率低下的问题,SURPASS的提出者给出了一些设想。一个设想是在树生成的早期阶段,仅评估基于所有属性的线性组合的分割,不考虑使用单一属性的分割。当要分割的数据集的大小下降到一定水平时,基于所有属性的线性组合的分割的质量会恶化,方法恢复包含测试单个属性的过程。另外一个设想是使用数据约简技术,它以样本代替整个数据集。
SURPASS方法具有以下特征:
SURPASS方法中的Anderson规则
对于单属性j,Anderson规则是:
( x ‾ 1 j - x ‾ 2 j ) S jj - 1 x 0 > 1 2 ( x ‾ 1 j - x ‾ 2 j ) S jj - 1 ( x ‾ 1 j + x ‾ 2 j ) + ln ( n 2 n 1 ) - - - ( 1 )
其中,
Figure S2008100571445D00022
是类1数据的均值向量的第j个分量;
Figure S2008100571445D00023
是类2数据的均值向量的第j个分量;s1j -1是总体样本协方差矩阵的第j个对角线元素的倒数;x0是被分类的记录向量的第j个分量;n1是当前结点中属于类1的记录的个数;n2是当前结点中属于类2的记录的个数。
对于组合属性,Anderson规则是:
( x ‾ 1 - x ‾ 2 ) T S - 1 x 0 > 1 2 ( x ‾ 1 - x ‾ 2 ) T S - 1 ( x ‾ 1 + x ‾ 2 ) + ln ( n 2 n 1 ) - - - ( 2 )
其中
Figure S2008100571445D00025
是类1数据的均值向量,x0是被分类的记录向量,S-1是总体样本协方差矩阵的逆矩阵。是类2数据的均值向量。n1,n2的含义与单属性的情形相同。
总体样本协方差矩阵S由下式计算:
S = ( n 1 - 1 ) S 1 + ( n 2 - 1 ) S 2 ( n 1 + n 2 - 2 )
S1和S2分别是类1数据和类2数据的样本协方差矩阵。
符合Anderson规则的记录被分割到类1(左子集),否则被分割到类2(右子集)。
另外,一个结点包含n个记录,分割成两个子结点后,设子结点1包含x个类1数据和y个类2记录,子结点2包含u个类1记录和w个类2记录,则不纯度的计算公式是:
- x + y n [ x x + y ln x x + y + y x + y ln y x + y ] - u + w n [ u u + w ln u u + w + w u + w ln w u + w ] - - - ( 4 )
当结点中包含的记录的个数少于一个预先设定的值时,或者从该结点到决策树根结点的路径上,所有的属性都被使用过一次(从当前结点到根结点的路径上已经使用过的属性不能在当前结点重复使用),或者结点中仅包含一类数据时,决策树生成过程终止。
SURPASS方法专门用来在数字数据数据集上建立决策树模型。它具有按比例增加的特性,因而能够处理大小超过内存容量的大数据集。
SURPASS方法的不足:当类型数据出现在训练数据中时,如果要使用SURPASS方法,就需要用二进制编码来处理类型值。如果有很多类型属性,编码过程要创建大量额外的二进制属性,导致处理海量数据的建模过程的计算效率低下。
发明内容
本发明提出一种海量数据的快速建模方法,该方法是对SURPASS方法的进一步改进。该方法在建模的过程中,通过为每个属性计算一个指标值作为属性的特征值,并根据特征值对属性进行筛选,使得在建模过程的比较不纯度这一步骤中,被测试的属性数量减少,也就是用少量的内存操作数替代大量的外存操作,达到了提高建模效率,节省建模时间的效果,特别是对于海量数据的快速建模具有良好的应用价值。
本发明一种海量数据的快速建模方法,其特征在于,本方法的执行过程可分为如下步骤:
步骤1:根据当前结点所包含的记录的ID集进行操作;连续从外存读取当前结点包含了其ID号的记录;第一次执行此步骤时,当前结点包含了数据库中存放的数据集的所有记录的ID,这些ID存放在一个文件中;每读入一条记录后,如果该记录属于新类i,i=1、2,则创建vi和wi(vi为关于类i的p维向量,p是单属性个数;wi为关于类i的p×p矩阵)并初始化为0,并将类i加入到类集合中,然后更新每个vi和wi的值,其中vi的第j个分量存储属于类i的所有记录的第j个属性值的和;对每个j和r(j,r=1,2,…,p),xj·xr是每条记录第j分量和第r分量的乘积,属于类i的所有记录的xj·xr之和存放在wi的第j行第r列,更新完毕进行存储;然后释放这条记录所占的内存空间;
步骤2:创建V1,W1和V2,W2并初始化为0。将属于不同类的vi和wi分成两组,将vi的各分量加到vi所属组对应的分量上,并将wi的每个位置上的元素加到wi所属组对应的位置上;
步骤3:通过V1,W1和V2,W2计算类1数据和类2数据的均值向量和样本协方差矩阵,计算总体样本协方差矩阵及其逆矩阵;
步骤4:采用一定的筛选比例筛选需要被测试的属性集,筛选比例范围为75%~85%;
步骤5:设通过步骤4筛选的属性集合是A1,A2,…,Ah。求出这个集合中的每个属性的Anderson规则并利用每个规则进行分割,计算每个分割的不纯度;
步骤6:选择最小不纯度对应的属性进行分割,把当前结点的数据分割成两个子集,代表子集的子结点记录该子集包含的所有记录的ID号;
步骤7:判断子集是否满足终止条件。如果满足,则终止。只要有一个子集不满足终止条件,则重置V1,W1和V2,W2,且对该子集重复执行步骤1至步骤6。
所述步骤4中,计算筛选比例的步骤如下:
a.为每个属性i计算EXi、DXi、RVi和Li
b.为每个属性计算Ii或Ii′;
c.以一定筛选比例筛选具有较小Ii或Ii′值的属性,如果通过筛选的属性的个数为小数,则四舍五入为整数;
其中,EXi、DXi、RVi、Li、Ii和Ii′的含义如下:
EXi:对单属性,EXi是属性i的样本期望;对组合属性,EXi是各单属性样本期望的加权和(权重分别为a1,a2,…,ap),a1,a2,…,ap是组合属性的Anderson规则的左边的各项系数,p为单属性个数;
DXi:对单属性,DXi是属性的样本方差;对组合属性,DXi是各单属性样本方差的加权和(权重分别为a1 2,a2 2,…,ap 2);
RVi:对单属性,变形Anderson规则使规则的左边系数为1,变形后的规则的右边就是该属性的RVi;对组合属性,Anderson规则的右边就是组合属性的RVi
L i = max ( n 1 , n 2 ) ( x 1 i ‾ - x 2 i ‾ ) n ;
I i = ( EX i - RV i ) 2 DX i ;
I i ′ = [ EX i - RV i - L i ] 2 DX i .
本方法限定类集合中类的个数等于2。
本发明一种海量数据的快速建模方法的优点在于:
(1)减少了需要测试的属性的个数,用少量的内存操作数替代大量的外存操作数,达到了提高建模效率的效果。
(2)筛选比例在75%-85%的范围内,既保证对海量数据的处理结果是正确的,同时又保证建模速度有更大的提高。
附图说明
图1为本发明一种海量数据的快速建模方法的过程框图;
图2为本发明一种海量数据的快速建模方法的流程图;
图3为本发明一种海量数据的快速建模方法在一个数据集实例上得到的二叉决策树。
具体实施方式
下面将结合附图和实施例对本发明作进一步的详细说明。
本发明提出一种海量数据的快速建模方法,该方法是对SURPASS方法的进一步改进,如图1所示:该方法从数据集中获取数据并作处理,通过可视化的过程最终生成一棵供预测分类的决策树。该方法在建模的过程中,通过为每个属性计算一个指标值作为属性的特征值,并根据特征值对属性进行筛选,使得在建模过程的比较不纯度这一步骤中,被测试的属性数量减少,以少量的内存操作数替代大量的外存操作,达到了提高建模效率,节省建模时间的效果,特别是对于海量数据的快速建模具有良好应用价值。
本发明一种海量数据的快速建模方法,如图2所示,执行过程可分为如下步骤:
本实施例中,数据库里存放的记录如下(记录编号就是记录的ID号):
  记录编号   X1   X2   X3   类标号
  1   69   50   7.0   A
  2   83   50   6.0   A
  3   94   45   5.5   A
  4   77   47   5.3   A
  5   44   52   4.5   A
  6   48   55   4.8   A
  7   40   53   4.5   A
  8   70   48   4.6   B
  9   56   50   4.5   B
  10   45   51   5.3   B
  11   42   50   5.0   B
  12   48   51   5.2   B
步骤1:根据当前结点所包含的记录的ID集进行操作。操作是:类集合初始化为空,置参数n1,n2为0。连续从外存读取一条当前结点包含了其ID号的记录。第一次执行此步骤时,当前结点包含了数据库中存放的数据集的所有记录的ID,这些ID存储在一个文件中。每读入一条记录后,做如下操作:访问类集合,根据记录的类标号判断该记录是否属于新的类。如果它属于新类i,i=1、2,则创建vi和wi(vi为关于类i的p维向量,p是单属性个数;wi为关于类i的p×p矩阵)并初始化为0,将类i加入到类集合中。然后根据以下规则更新每个vi和wi的值,其中vi的第j个分量存储属于类i的所有记录的第j个属性值的和;对每个j和r(j,r=1,2,……,p),xj·xi是每条记录第j分量和第r分量的乘积,属于类i的所有记录的xj·xr之和存放在wi的第j行第r列,更新完毕进行存储。如果读入的记录属于类1,那么n1加1;如果读入的记录属于类2,那么n2加1;释放这条记录所占的内存空间;
步骤2:创建V1,W1和V2,W2并初始化为0。将属于不同类的vi和wi分成两组,如果vi属于组1,则将vi的各分量加到V1对应的分量上,将wi的每个位置上的元素加到W1对应的位置上;如果vi属于组2,则将vi的各分量加到V2对应的分量上,将wi的每个位置上的元素加到W2对应的位置上;
假设内存只能容纳一个记录,方法的执行过程如下:
类集合CC(Class Collection)初始化为空,即CC=,
读取第1条记录,访问类集合CC,根据该记录的类标号可判定该记录属于新类1(A代表类1,B代表类2)。
创建v1和w1,重置CC后,CC={1},更新v1和w1后:
v1=[69 50 7]; w 1 = 69 2 69 × 50 69 × 7 69 × 50 50 2 50 × 7 69 × 7 50 × 7 7 2 = 4761 3450 483 3450 2500 350 483 350 49 ;
置n1=1,释放记录1所占的内存空间。
读取第2条记录后,访问类集合CC,根据该记录的类标号可判定该记录不属于任何新类;
更新v1和w1后,
v1=[69+83 50+50 7+6]=[152 100 13];
w 1 = 4761 + 83 2 3450 + 83 × 50 483 + 83 × 6 3450 + 83 × 50 2500 + 50 2 350 + 50 × 6 483 + 83 × 6 350 + 50 × 6 49 + 6 2 = 11650 7600 981 7600 5000 650 981 650 85 ;
置n1=2,释放记录2所占的内存空间。
余下依此类推。
在本实施例中,读取上表中第8条记录后v2和w2被创建,CC被重置为{1,2},第9条记录读入前,v2,w2,n1和n2的值分别为:
v2=[70 48 4.6]; w 2 = 70 2 70 × 48 70 × 4.6 70 × 48 48 2 48 × 4.6 70 × 4.6 48 × 4.6 4.6 2 = 4900 3360 322 3360 2304 220.8 322 220.8 21.16 ;
n1=7,n2=1;
从读第8条记录开始,到第12条记录被读入后,v1和w1的值不再改变。
当12条记录都读入后,v1,v2,w1,w2,n1,n2的值分别为:
v1=[455 352 37.6]; w 1 = 32255 22497 2515 22497 17772 1883 2515 1883 207 ;
v2=[261 250 24.6]; w 2 = 14129 13003 1272 13003 12506 1231 1272 1231 122 ;
n1=7,n2=5;
创建V1,V2,W1,W2
类集合中类的个数等于2,所以直接将v1,v2,w1,w2分别赋予V1,V2,W1,W2
步骤3:通过V1,W1和V2,W2计算均值向量,样本协方差矩阵和逆矩阵;
类1数据和类2数据的均值向量,样本协方差矩阵分别计算如下:
x 1 ‾ = V 1 n 1 = 65 50.29 5.37 ; x 2 ‾ = V 2 n 2 = 52.2 50 4.92 ;
类1数据的样本协方差阵的第i行和第j列为: S 1 ij = 1 n 1 - 1 ( W 1 ij - V 1 i V 1 j n 1 ) ; 这样,
S 1 = 446.67 - 63.83 11.75 - 63.83 11.90 - 1.27 11.75 - 1.27 0.82 , 同理: S 2 = 126.20 - 11.75 - 3.01 - 11.75 1.50 0.32 - 3.01 0.32 0.13 .
由于, S ij = ( n 1 - 1 ) S 1 ij + ( n 2 - 1 ) S 2 ij ( n 1 + n 2 - 2 ) ,
计算总体样本协方差矩阵得: S = 318.48 - 43 5.85 - 43 7.74 - 0.63 5.85 - 0.63 0.54 , 计算总体样本协方差矩阵的逆矩阵得: S - 1 = 0.0146 0.0752 - 0.0691 0.0752 0.5314 - 0.1897 - 0.0691 - 0.1897 2 . 3674 .
步骤4:采用一定的筛选比例筛选需要被测试的属性,计算筛选比例的步骤如下:
a.为每个属性i计算EXi,DXi,RVi,Li
b.为每个属性计算Ii或Ii
c.筛选具有较小Ii或Ii′值的属性,筛选比例为75%-85%,如果属性的总个数乘以筛选比例是小数,则通过筛选的属性个数是把该小数四舍五入后得到的整数。
其中EXi,DXi,RVi,Li,Ii,Ii′的含义如下:
EXi:对单属性,EXi是属性i的样本期望;对组合属性,EXi是各单属性样本期望的加权和(权重分别为a1,a2,…,ap),a1,a2,…,ap是组合属性的Anderson规则的左边的各项系数,p为单属性个数。
DXi:对单属性,DXi是属性的样本方差;对组合属性,DXi是各单属性样本方差的加权和(权重分别为a1 2,a2 2,…,ap 2)。
RVi:对单属性,变形Anderson规则使规则的左边系数为1,变形后的规则的右边就是该属性的RVi;对组合属性,Anderson规则的右边就是组合属性的RVi
L i = max ( n 1 , n 2 ) ( x 1 i ‾ - x 2 i ‾ ) n
I i = ( EX i - RV i ) 2 DX i
I i ′ = [ EX i - RV i - L i ] 2 DX i
筛选比例在75%-85%范围内。
属性1,属性2,属性3和组合属性的Anderson规则分别是:
属性1的Anderson规则计算如下:
( 65 - 52.2 ) 1 318.48 x 0 > 1 2 ( 65 - 52.2 ) 1 318.48 ( 65 + 52.2 ) + log ( 5 7 )
化简得:X1>50.2281,同理可得属性2,属性3的Anderson规则分别为:X2>41.0243,X3>4.7416。
组合属性的Anderson规则计算如下:
65 - 52.2 50.29 - 50 5.37 - 4.92 0.0146 0.0752 - 0.0691 0.0752 0.5314 - 0.1897 - 0.0691 - 0.1897 2.3674 X 1 X 2 X 3 > 1 2
65 - 52.2 50.29 - 50 5.37 - 4.92 0.0146 0.0752 - 0.0691 0.0752 0.5314 - 0.1897 - 0.0691 - 0.1897 2.3674 65 + 52.2 50.29 + 50 5.37 + 4.92 + log ( 5 7 ) , 化简得:0.1768X1+1.0291X2+0.1302X3>62.6312。
对单属性i(i=1、2、3),由
EX i = V 1 i + V 2 i n 1 + n 2 得,EX1=59.67、EX2=50.17、EX3=5.18。
RV1=50.2281,RV2=41.0243,RV3=4.7416;
DX i = W 1 ii + W 2 ii n 1 + n 2 + ( EX i ) 2 - 2 EX i ( V 1 i + V 2 i ) n 1 + n 2 , 可得DX1=305.22、DX2=6.48、DX3=0.55。
对组合属性:EX4=0.1768EX1+1.0291EX2+0.1302EX3=62.85,
RV4=62.6312;
DX4=0.1768×0.1768×DX1+1.0291×1.0291×DX2+0.1302×0.1302×DX3=16.41;
根据 I i = ( EX i - RV i ) 2 DX i 计算得:I1=0.29、I2=12.5、I3=0.39、I4=0.02。其中,I1、I2、I3、I4分别是属性1,属性2,属性3的指标值,I4是组合属性的指标值。从小到大排序得序列I4、I3、I2、I2,使用I指标筛选,保留排序在前r%(r介于75-85之间)的属性,就是保留前4×75%=3~4×85%=3.4(≈3)个属性,所以属性2被排除出被测试的属性集。
也可以用I’来对属性进行筛选:
L 1 = 7 12 × ( 65 - 52.2 ) = 7.47 , L 2 = 7 12 × ( 50.29 - 50 ) = 0.17 , L 3 = 7 12 × ( 5.37 - 4.92 ) = 0.26 ,
L 4 = 7 12 × 0.1768 ( 65 - 52.2 ) + 1.0291 ( 50.29 - 50 ) + 0.1302 ( 5.37 - 4.92 ) = 1.53
得I1′=0.0127,I2′=12.4325,I3′=0.0578,I4′=0.1048。使用I′指标筛选,保留排序在前r%(r介于75-85之间)的属性,就是保留前4×75%=3~4×85%=3.4(≈3)个属性,所以属性2被排除出被测试的属性集。
步骤5:设通过步骤4筛选的属性集合是A1,A2,…,Ah。求出这个集合中的每个属性的Anderson规则并利用每个规则进行分割,计算每个分割的不纯度;
计算组合属性的不纯度如下:
组合属性的Anderson规则为:
0.1768X1+1.0291X2+0.1302X3>62.6312,当前结点包含编号为1至12的记录,其中编号为1、2、3、4、6的记录满足该规则(例如对记录1,0.1768×69+1.0291×50+0.1302×7.0=64.57>62.6312,所以记录1满足该规则),它们被分割到左子集(左子集代表类1),编号为5,7,8,9,10,11,12的记录被分割到右子集(右子集代表类2)。
根据
- x + y n [ x x + y ln x x + y + y x + y ln y x + y ] - u + w n [ u u + w ln u u + w + w u + w ln w u + w ]
规定0ln0=-1,计算组合属性的不纯度为:
- 5 + 0 12 [ 5 5 + 0 ln 5 5 + 0 + 0 5 + 0 ln 0 5 + 0 ] - 2 + 5 12 [ 2 2 + 5 ln 2 2 + 5 + 5 2 + 5 ln 5 2 + 5 ] = 0.77
其中,5+0中的x=5指左子集中有5个类1数据,y=0指左子集中有0个类2
数据;2+5中的u=2指右子集中有2个类1数据,w=5指右子集中有5个类2
数据,n=12为数据的总个数。
步骤6:选择最小不纯度对应的属性进行分割,把当前结点的数据分割成两个子集,代表子集的子结点记录该子集包含的所有记录的ID号。
为了选取具有最小不纯度的属性,同理计算属性1,属性3的不纯度分别为0.96,0.97。这样,选取不纯度最小的组合属性进行分割,数据集被分割为左右两个子集(SURPASS方法通过计算不纯度排除属性2:SURPASS方法中,属性2的不纯度为0.98(>0.77),本方法通过计算I或I’排除属性2,两种方法所得的结果相同:二者都选择了组合属性进行分割):
左子集为:
  记录编号   X1   X2   X3   类标号
  1   69   50   7.0   A
  2   83   50   6.0   A
  3   94   45   5.5   A
  4   77   47   5.3   A
  6   48   55   4.8   A
右子集为:
  记录编号   X1   X2   X3   类标号
  5   44   52   4.5   A
  7   40   53   4.5   A
  8   70   48   4.6   B
  9   56   50   4.5   B
  10   45   51   5.3   B
  11   42   50   5.0   B
  12   48   51   5.2   B
步骤7:判断子集是否满足终止条件。如果满足,则终止。只要有一个子集不满足终止条件,则重置V1,W1和V2,W2,且对该子集重复执行步骤1至步骤6。
本实施例中,左子集满足终止条件。
继续对右子集按照以上方法进行分割,分割所用到的属性为属性2,属性2的Anderson规则为X2>51.7265,利用属性2将上述右子集表的数据继续分为左子集和右子集。
左子集为
  记录编号   X1   X2   X3   类标号
  5   44   52   4.5   A
  7   40   53   4.5   A
右子集为
  记录编号   X1   X2   X3   类标号
  8   70   48   4.6   B
  9   56   50   4.5   B
  10   45   51   5.3   B
  11   42   50   5.0   B
  12   48   51   5.2   B
这两个子集均满足终止条件:数据集中仅包括一类数据,所以方法终止。最后得到如图3所示的二叉决策树。

Claims (3)

1.一种海量数据的快速建模方法,其特征在于,本方法包括如下步骤:
步骤一:根据当前结点所包含的记录的ID集进行操作;连续从外存读取当前结点包含了其ID号的记录;第一次执行此步骤时,当前结点包含了数据库中存放的数据集的所有记录的ID,这些ID存放在一个文件中;每读入一条记录后,如果该记录属于新类i,i=1、2,则创建vi和wi(vi为关于类i的p维向量,p是单属性个数;wi为关于类i的p×p矩阵)并初始化为0,并将类i加入到类集合中,然后更新每个vi和wi的值,其中vi的第j个分量存储属于类i的所有记录的第j个属性值的和;对每个j和r(j,r=1,2,…,p),xj·xr是每条记录第j分量和第r分量的乘积,属于类i的所有记录的xj·xr之和存放在wi的第j行第r列,更新完毕进行存储;然后释放这条记录所占的内存空间;
步骤二:创建V1,W1和V2,W2并初始化为0;将属于不同类的vi和wi分成两组,将vi的各分量加到vi所属组对应的分量上,并将wi的每个位置上的元素加到wi所属组对应的位置上;
步骤三:通过V1,W1和V2,W2计算类1数据和类2数据的均值向量和样本协方差矩阵,计算总体样本协方差矩阵及其逆矩阵;
步骤四:采用一定的筛选比例筛选需要被测试的属性集,筛选比例范围为75%-85%;
步骤五:设通过步骤四筛选的属性集合是A1,A2,…,Ah。求出这个集合中的每个属性的Anderson规则并利用每个规则进行分割,计算每个分割的不纯度;
步骤六:选择最小不纯度对应的属性进行分割,把当前结点的数据分割成两个子集,代表子集的子结点记录该子集包含的所有记录的ID号;
步骤七:判断子集是否满足终止条件;如果满足,则终止;只要有一个子集不满足终止条件,则重置V1,W1和V2,W2,且对该子集重复执行步骤一至步骤六。
2.根据权利要求1所述一种海量数据的快速建模方法,其特征在于:所述步骤四中,计算筛选比例的步骤如下:
a.为每个属性i计算EXi、DXi、RVi和Li
b.为每个属性计算Ii或Ii′;
c.以一定筛选比例筛选具有较小Ii或Ii′值的属性,如果通过筛选的属性的个数为小数,则四舍五入为整数;
其中,EXi、DXi、RVi、Li、Ii和Ii′的含义如下:
EXi:对单属性,EXi是属性i的样本期望;对组合属性,EXi是各单属性样本期望的加权和(权重分别为a1,a2,…,ap),a1,a2,…,ap是组合属性的Anderson规则的左边的各项系数,p为单属性个数;
DXi:对单属性,DXi是属性的样本方差;对组合属性,DXi是各单属性样本方差的加权和(权重分别为a1 2,a2 2,…,ap 2);
RVi:对单属性,变形Anderson规则使规则的左边系数为1,变形后的规则的右边就是该属性的RVi;对组合属性,Anderson规则的右边就是组合属性的RVi
L i = max ( n 1 , n 2 ) ( x 1 i ‾ - x 2 i ‾ ) n ;
I i = ( E X i - R V i ) 2 D X i ;
I i ′ = [ E X i - R V i - L i ] 2 D X i .
3.根据权利要求1所述一种海量数据的快速建模方法,其特征在于:本方法限定类集合中类的个数等于2。
CNA2008100571445A 2008-01-30 2008-01-30 一种海量数据的快速建模方法 Pending CN101226551A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNA2008100571445A CN101226551A (zh) 2008-01-30 2008-01-30 一种海量数据的快速建模方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNA2008100571445A CN101226551A (zh) 2008-01-30 2008-01-30 一种海量数据的快速建模方法

Publications (1)

Publication Number Publication Date
CN101226551A true CN101226551A (zh) 2008-07-23

Family

ID=39858546

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2008100571445A Pending CN101226551A (zh) 2008-01-30 2008-01-30 一种海量数据的快速建模方法

Country Status (1)

Country Link
CN (1) CN101226551A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102880685A (zh) * 2012-09-13 2013-01-16 北京航空航天大学 一种时间密集大数据量的b/s分区间分页查询方法
CN104572854A (zh) * 2014-12-17 2015-04-29 语联网(武汉)信息技术有限公司 一种基于决策树的译员分类方法
CN108182520A (zh) * 2017-12-22 2018-06-19 深圳市华云中盛科技有限公司 一种快速建模的方法及其系统
CN108257052A (zh) * 2018-01-16 2018-07-06 中南大学 一种在线学生知识评估方法及其系统

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102880685A (zh) * 2012-09-13 2013-01-16 北京航空航天大学 一种时间密集大数据量的b/s分区间分页查询方法
CN102880685B (zh) * 2012-09-13 2015-06-24 北京航空航天大学 一种时间密集大数据量的b/s分区间分页查询方法
CN104572854A (zh) * 2014-12-17 2015-04-29 语联网(武汉)信息技术有限公司 一种基于决策树的译员分类方法
CN108182520A (zh) * 2017-12-22 2018-06-19 深圳市华云中盛科技有限公司 一种快速建模的方法及其系统
CN108257052A (zh) * 2018-01-16 2018-07-06 中南大学 一种在线学生知识评估方法及其系统
CN108257052B (zh) * 2018-01-16 2022-04-22 中南大学 一种在线学生知识评估方法及其系统

Similar Documents

Publication Publication Date Title
CN111222556B (zh) 一种基于决策树算法识别用电类别的方法及系统
CN102141978A (zh) 一种文本分类的方法及系统
CN105389713A (zh) 基于用户历史数据的移动流量套餐推荐算法
CN107766929A (zh) 模型分析方法及装置
CN115423603B (zh) 一种基于机器学习的风控模型建立方法、系统及存储介质
Xue et al. Optimizing ontology alignment through memetic algorithm based on partial reference alignment
CN108345908A (zh) 电网数据的分类方法、分类设备及存储介质
CN102750286A (zh) 一种处理缺失数据的新型决策树分类器方法
CN113568368B (zh) 一种工控数据特征重排序算法的自适应确定方法
CN111738477A (zh) 基于深层特征组合的电网新能源消纳能力预测方法
CN112036476A (zh) 基于二分类业务的数据特征选择方法、装置及计算机设备
CN105808582A (zh) 基于分层策略的决策树并行生成方法和装置
CN101226551A (zh) 一种海量数据的快速建模方法
CN113486934A (zh) 基于注意力机制的层次化图卷积网络的属性图深度聚类方法
CN107239964A (zh) 用户价值评分方法和系统
Hilderman et al. Measuring the interestingness of discovered knowledge: A principled approach
CN115795131A (zh) 基于人工智能的电子档案分类方法、装置及电子设备
CN111666657A (zh) 一种平面交叉口噪声监测布点方法
CN111475158A (zh) 子领域划分方法、装置、电子设备和计算机可读存储介质
CN115081515A (zh) 能效评价模型构建方法、装置、终端及存储介质
CN114139725A (zh) 业务对象的预测方法、设备及存储介质
CN117035837B (zh) 一种电力用户购电需求预测及零售合同定制方法
CN105787113A (zh) 一种基于plm数据库面向dpipp工艺信息的挖掘算法
CN110084376B (zh) 对数据自动分箱的方法及装置
CN113821542B (zh) 一种显著特征自动推荐系统及方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Open date: 20080723