CN114169542A - 用于不完整数据分类的集成学习树构建方法 - Google Patents
用于不完整数据分类的集成学习树构建方法 Download PDFInfo
- Publication number
- CN114169542A CN114169542A CN202111363459.4A CN202111363459A CN114169542A CN 114169542 A CN114169542 A CN 114169542A CN 202111363459 A CN202111363459 A CN 202111363459A CN 114169542 A CN114169542 A CN 114169542A
- Authority
- CN
- China
- Prior art keywords
- node
- sample
- feature
- data
- learning tree
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开用于不完整数据分类的集成学习树与基于视图的决策树、J48相比,分类精确率、回归率和F1有所提升;本发明的方法在选择视图对应的特征时,既考虑了待选特征对于分类效果的提升程度,又考虑了待选特征和整个已选特征集合的冗余关系;并且在视图的基础上提出了缺失模式的概念,测试样本先根据其视图到达对应的树节点,然后再根据其缺失模式找到其对应的一系列分类器,这些分类器使用集成学习的方法对其进行分类。结果显示,在大部分数据集下,本发明提出的方法相比于其他两种方法而言,评估指标更优。
Description
技术领域
本发明属于数据挖掘处理技术领域,具体涉及一种用于不完整数据分类的集成学习树构建方法。
背景技术
随着信息社会的快速发展,各个领域的数据规模也在快速增长,如何在这些海量的数据中找到本发明需要的信息就显得尤为重要。数据挖掘技术是本发明最常使用的方法之一,但是实际数据中往往存在缺失值的情况。如果直接使用这些不完整的数据进行分类/预测,就会影响到分类/预测结果。因此有必要对这些不完整数据进行处理。
目前,对于不完整数据的分类方法主要有两种。第一种是直接忽略掉那些具有缺失值的样本,然后用处理完整数据的方法对剩下的样本进行处理。这样做虽然很简单,但是如果缺失值样本比例过高时,就会严重影响实际数据的分类效果。
第二种方法是使用统计模型或机器学习方法对缺失值进行填充,然后使用处理完整数据的方法对不完整数据进行处理。这种方法可能会引进新的数据误差,并且在填充的过程中会增加大量的时间和空间消耗。
发明内容
本发明的目的是提供一种用于不完整数据分类的集成学习树构建方法,解决了现有技术中存在的对于不完整数据分类效果差的问题。
本发明所采用的技术方案是,用于不完整数据分类的集成学习树构建方法,具体按照以下步骤实施:
步骤1、对数据集D(F1,F2,...,FK,label)进行缺失处理,其中F1,F2,...,FK为K个特征,label为所属的类别;
步骤2、将经过缺失处理的数据集D按照十折交叉的方式划分为训练集D1和测试集D2;
步骤3、对训练集D1使用基于视图和缺失模式的方法得到初级集成学习树;
步骤4、利用测试集D2对初级集成学习树进行测试,获得集成学习树。
本发明的特点还在于:
步骤1数据集选自以下数据集:hepatitis、breast-cancer、processed-cleveland、processed-hungarian、primary-tumor、horse colic、mammographic_masses。
步骤1具体过程为:
判断数据集D(F1,F2,...,FK,label)是否缺失数据,其中F1,F2,...,FK为K个特征,label为所属的类别,若缺失,则不进行处理,若不缺失,则采用完全随机缺失的准则将数据集D变为不完整数据集。
步骤3具体过程为:
步骤3.1、采用递归调用生成学习树,对于学习树上的节点node,判断节点node是否为根节点,若为根节点,则该节点包含的样本集合为训练集D1;若不是根节点,则为用其父节点的分类器分到某一类别的样本集合;
步骤3.2、设定样本纯度阈值、样本集合内样本个数阈值,若节点node所在的样本集合纯度不大于样本纯度阈值或样本集合内样本个数不大于样本集合内样本个数阈值,则该节点node设置为叶子节点,并将该节点node类型设置为样本集合中样本出现次数最多的类别,否则执行步骤3.3;
步骤3.3、选出非叶子节点node中样本集合的特征集合C以及特征集合C对应的完整视图V;
步骤3.4、找出完整视图V中的所有缺失模式M1,M2,...,Ms,根据每个缺失模式M1,M2,...,Ms分别提取样本集合中的样本,得到缺失模式M1,M2,...,Ms对应的子样本集合N1,N2,...,Ns;
步骤3.5、对于每一个缺失模式Mi,用其对应的子样本集合Ni训练分类器,这时节点node中的每个样本会被其对应的多个缺失模式分类器分成多个类别,利用投票原则确定每个样本最终的类别,形成了M个类别,取每个类别包含的样本集合为Ei,对于每一个Ei,都返回到步骤3.1,此时步骤3.1中节点所包含的样本集合就为Ei;循环上述步骤,直到生成集成学习树,即初级集成学习树。
步骤3.3具体过程为:
步骤3.3.1、对于样本集合为A的节点,让已选特征集合C视图V都为空集,计算该节点的祖先节点未曾选过的特征相对于C的联合互信息JMI和相对于类别的条件熵CE;
步骤3.3.2、把所计算的每个特征的JMI和CE相加;
步骤3.3.3、把特征的JMI和CE之和从小到大排序;
步骤3.3.4、选出和最小的特征Ci,把Ci加入到C中;
步骤3.3.5、重复3.3.1~3.3.4,直到C中的特征数目达到待选特征数目的一半时停止;
步骤3.3.6、对于样本集合A中的每一个样本Ai,如果Ai在已选特征集合C是完整的,那么把Ai添加到V中,得到特征集合C对应的完整视图V。
步骤3.3.1中相对于C的联合互信息JMI计算公式为:
式(1)中,X1,X2,...,Xn中的每一个都是已选特征集合中的一个特征,而Y是候选的某个特征,x1,x2,...,xn表示已选特征集合中一个特征对应的特征值,y表示候选的某个特征对应的特征值,p(x1,x2,...,xn,y)是x1,x2,...,xn,y的联合概率,p(x1,x2,...,xn)是x1,x2,...,xn的联合概率,p(y)是y的概率。
步骤3.3.1中相对于类别的条件熵CE计算公式为:
在已知变量X的情况下,变量Y的条件熵H(Y|X)定义为:
式(2)中,p(xi,yj)指的是xi和yj的联合概率,p(yj|xi)指的是在已知X=xi的条件下Y=yj的条件概率,m是变量Y的取值数目,n是变量X的取值数目。
本发明的有益效果是,
本发明用于不完整数据分类的集成学习树与基于视图的决策树、J48相比,分类精确率、回归率和F1有所提升;本发明的方法在选择视图对应的特征时,既考虑了待选特征对于分类效果的提升程度,又考虑了待选特征和整个已选特征集合的冗余关系;并且在视图的基础上提出了缺失模式的概念,测试样本先根据其视图到达对应的树节点,然后再根据其缺失模式找到其对应的一系列分类器,这些分类器使用集成学习的方法对其进行分类。结果显示,在大部分数据集下,本发明提出的方法相比于其他两种方法而言,评估指标更优。
附图说明
图1是本发明一种用于不完整数据分类的集成学习树的构建流程图;
图2是本发明的方法和基于视图的决策树(VDT)方法、J48方法在hepatitis数据集上进行对比实验的精确率、回归率、F1结果;
图3是本发明的方法和基于视图的决策树(VDT)方法、J48方法在breast-cancer数据集上进行对比实验的精确率、回归率、F1结果;
图4是本发明的方法和基于视图的决策树(VDT)方法、J48方法在processed-cleveland数据集上进行对比实验的精确率、回归率、F1结果;
图5是本发明的方法和基于视图的决策树(VDT)方法、J48方法在processed-hungarian数据集上进行对比实验的精确率、回归率、F1结果;
图6是本发明的方法和基于视图的决策树(VDT)方法、J48方法在horse-colic数据集上进行对比实验的精确率、回归率、F1结果;
图7是本发明的方法和基于视图的决策树(VDT)方法、J48方法在mammographic_masses数据集上进行对比实验的精确率、回归率、F1结果;
图8是本发明的方法和基于视图的决策树(VDT)方法、J48方法在primary-tumor数据集上进行对比实验的精确率、回归率、F1结果。
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明。
本发明中不完整数据集指的是那些具有缺失值的数据集。
集成学习利用多个分类器的结果来预测最终类别。首先会训练一系列分类器,然后用这些分类器对某样本进行预测,最后用某种策略将每个分类器的结果结合来确定最终类别。
用于不完整数据分类的集成学习树构建方法,具体按照以下步骤实施:
步骤1、数据集选自以下数据集:hepatitis、breast-cancer、processed-cleveland、processed-hungarian、primary-tumor、horse colic、mammographic_masses;判断数据集D(F1,F2,...,FK,label)是否缺失数据,其中F1,F2,...,FK为K个特征,label为所属的类别,若缺失,则不进行处理,若不缺失,则采用完全随机缺失的准则将数据集D变为不完整数据集。
步骤2、将经过缺失处理的数据集D按照十折交叉的方式划分为训练集D1和测试集D2,训练集与测试集比例为9∶1;
步骤3、对训练集D1使用基于视图和缺失模式的方法得到初级集成学习树;具体过程为:
步骤3.1、采用递归调用生成学习树,对于学习树上的节点node,判断节点node是否为根节点,若为根节点,则该节点包含的样本集合为训练集D1;若不是根节点,则为用其父节点的分类器分到某一类别的样本集合;
步骤3.2、设定样本纯度阈值、样本集合内样本个数阈值,若节点node所在的样本集合纯度不大于样本纯度阈值或样本集合内样本个数不大于样本集合内样本个数阈值,则该节点node设置为叶子节点,并将该节点node类型设置为样本集合中样本出现次数最多的类别,否则执行步骤3.3;
样本集合A的纯度计算公式为:
其中,|y|为A中的类别数目,pk为第k个类别出现的概率。
步骤3.3、选出节点node中样本集合的特征集合C以及特征集合C对应的完整视图V;视图是一组数据的逻辑表示,视图中的字段就是来自一组数据中的字段,其作用类似于筛选。从用户角度来看,一个视图是从一个特定的角度来查看一组数据中的数据;具体过程为:
步骤3.3.1、对于样本集合为A的节点,让已选特征集合C视图V都为空集,计算该节点的祖先节点未曾选过的特征相对于C的联合互信息JMI和相对于类别的条件熵CE;
相对于C的联合互信息JMI计算公式为:
式(1)中,X1,X2,...,Xn中的每一个都是已选特征集合中的一个特征,而Y是候选的某个特征,x1,x2,...,xn表示已选特征集合中一个特征对应的特征值,y表示候选的某个特征对应的特征值,p(x1,x2,...,xn,y)是x1,x2,...,xn,y的联合概率,p(x1,x2,...,xn)是x1,x2,...,xn的联合概率,p(y)是y的概率。
相对于类别的条件熵CE计算公式为:
在已知变量X的情况下,变量Y的条件熵H(Y|X)定义为:
式(2)中,p(xi,yj)指的是xi和yj的联合概率,p(yj|xi)指的是在已知X=xi的条件下Y=yj的条件概率,m是变量Y的取值数目,n是变量X的取值数目。
步骤3.3.2、把所计算的每个特征的JMI和CE相加;
步骤3.3.3、把特征的JMI和CE之和从小到大排序;
步骤3.3.4、选出和最小的特征Ci,把Ci加入到C中;
步骤3.3.5、重复3.3.1~3.3.4,直到C中的特征数目达到待选特征数目的一半时停止;
步骤3.3.6、对于样本集合A中的每一个样本Ai,如果Ai在已选特征集合C是完整的,那么把Ai添加到V中,得到特征集合C对应的完整视图V。
步骤3.4、缺失模式是特征集合的子集。在一个数据集D中,至少存在一个样本在特征集合的某子集上是缺失的,而在该子集之外的特征上都不是缺失的,那么这个子集就是一个缺失模式。找出完整视图V中的所有缺失模式M1,M2,...,Ms,根据每个缺失模式M1,M2,...,Ms分别提取样本集合中的样本,得到缺失模式M1,M2,...,Ms对应的子样本集合N1,N2,...,Ns;
步骤3.5、对于每一个缺失模式Mi,用其对应的子样本集合Ni训练分类器,这时节点node中的每个样本会被其对应的多个缺失模式分类器分成多个类别,利用投票原则确定每个样本最终的类别,形成了M个类别,取每个类别包含的样本集合为Ei,对于每一个Ei,都返回到步骤3.1,此时步骤3.1中节点所包含的样本集合就为Ei;循环上述步骤,结合步骤3.2生产的叶子节点,最终生成集成学习树,即初级集成学习树。
步骤4、利用测试集D2对初级集成学习树进行测试,并使用精确率、回归率、F1作为评价标准对结果进行评估,最终获得集成学习树。
其中,精确率是在二类或多类的数据集中,每次将一组类别的样本作为一类,将其他类别的样本作为另一类,计算精确率。精确率(Precision)计算公式如下:
TP为预测为正例,实际上是正例的个数,FP为预测为正例,实际上是负例的个数。
回归率是在二类或多类的数据集中,每次将一组类别的样本作为一类,将其他类别的样本作为另一类,计算回归率。回归率(Recall)计算公式如下:
TP为预测为正例,实际上是正例的个数,FN为预测为负例,实际上是正例的个数。
F1指标综合了Precision与Recall的产出的结果。F1的取值范围从0到1的,1代表模型最好,0代表模型最差。F1计算公式如下:
对于本发明获得集成学习树进行效果验证:
本发明中构造树伪代码如表1所示:
表1
本发明中视图构建伪代码如表2所示:
表2
本发明的性能评价:
为验证本发明中算法的有效性,使用本发明方法获得的学习树(ELT)与基于视图的决策树(VDT)、J48相比。在7个数据集上分别使用这三个算法,数据集如表3所示。
表3
通过对比实验,从图2、图3、图4、图5可以看到,本发明提出的方法在精确率、回归率和F1的性能要优于其他两个对比算法;从图6可以看到本发明的方法在精确率和F1要优于其他两个对比算法,在回归率要比VDT略差;从图7可以看出本发明的方法在几个指标上都比VDT好,但是比J48差;从图8可以看出本发明的方法在几个指标上比VDT和J48略差。通过实验说明本发明的算法在大部分数据集上是有效的。
本发明用于不完整数据分类的集成学习树与基于视图的决策树、J48相比,分类精确率、回归率和F1有所提升;本发明的方法在选择视图对应的特征时,既考虑了待选特征对于分类效果的提升程度,又考虑了待选特征和整个已选特征集合的冗余关系;并且在视图的基础上提出了缺失模式的概念,测试样本先根据其视图到达对应的树节点,然后再根据其缺失模式找到其对应的一系列分类器,这些分类器使用集成学习的方法对其进行分类。结果显示,在大部分数据集下,本发明提出的方法相比于其他两种方法而言,评估指标更优。
Claims (7)
1.用于不完整数据分类的集成学习树构建方法,其特征在于,具体按照以下步骤实施:
步骤1、对数据集D(F1,F2,...,FK,label)进行缺失处理,其中F1,F2,...,FK为K个特征,label为所属的类别;
步骤2、将经过缺失处理的数据集D按照十折交叉的方式划分为训练集D1和测试集D2;
步骤3、对训练集D1使用基于视图和缺失模式的方法得到初级集成学习树;
步骤4、利用测试集D2对初级集成学习树进行测试,获得集成学习树。
2.根据权利要求1所述用于不完整数据分类的集成学习树构建方法,其特征在于,步骤1所述数据集选自以下数据集:hepatitis、breast-cancer、processed-cleveland、processed-hungarian、primary-tumor、horse colic、mammographic_masses。
3.根据权利要求1所述用于不完整数据分类的集成学习树构建方法,其特征在于,步骤1具体过程为:
判断数据集D(F1,F2,...,FK,label)是否缺失数据,其中F1,F2,...,FK为K个特征,label为所属的类别,若缺失,则不进行处理,若不缺失,则采用完全随机缺失的准则将数据集D变为不完整数据集。
4.根据权利要求1所述用于不完整数据分类的集成学习树构建方法,其特征在于,步骤3具体过程为:
步骤3.1、采用递归调用生成学习树,对于学习树上的节点node,判断节点node是否为根节点,若为根节点,则该节点包含的样本集合为训练集D1;若不是根节点,则为用其父节点的分类器分到某一类别的样本集合;
步骤3.2、设定样本纯度阈值、样本集合内样本个数阈值,若节点node所在的样本集合纯度不大于样本纯度阈值或样本集合内样本个数不大于样本集合内样本个数阈值,则该节点node设置为叶子节点,并将该节点node类型设置为样本集合中样本出现次数最多的类别,否则执行步骤3.3;
步骤3.3、选出节点node中样本集合的特征集合C以及特征集合C对应的完整视图V;
步骤3.4、找出完整视图V中的所有缺失模式M1,M2,...,Ms,根据每个缺失模式M1,M2,...,Ms分别提取样本集合中的样本,得到缺失模式M1,M2,...,Ms对应的子样本集合N1,N2,...,Ns;
步骤3.5、对于每一个缺失模式Mi,用其对应的子样本集合Ni训练分类器,这时节点node中的每个样本会被其对应的多个缺失模式分类器分成多个类别,利用投票原则确定每个样本最终的类别,形成了M个类别,取每个类别包含的样本集合为Ei,对于每一个Ei,都返回到步骤3.1,此时步骤3.1中节点所包含的样本集合就为Ei;循环上述步骤,直到生成集成学习树,即初级集成学习树。
5.根据权利要求1所述用于不完整数据分类的集成学习树构建方法,其特征在于,步骤3.3具体过程为:
步骤3.3.1、对于样本集合为A的节点,让已选特征集合C视图V都为空集,计算该节点的祖先节点未曾选过的特征相对于C的联合互信息JMI和相对于类别的条件熵CE;
步骤3.3.2、把所计算的每个特征的JMI和CE相加;
步骤3.3.3、把特征的JMI和CE之和从小到大排序;
步骤3.3.4、选出和最小的特征Ci,把Ci加入到C中;
步骤3.3.5、重复3.3.1~3.3.4,直到C中的特征数目达到待选特征数目的一半时停止;
步骤3.3.6、对于样本集合A中的每一个样本Ai,如果Ai在已选特征集合C是完整的,那么把Ai添加到V中,得到特征集合C对应的完整视图V。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111363459.4A CN114169542A (zh) | 2021-11-17 | 2021-11-17 | 用于不完整数据分类的集成学习树构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111363459.4A CN114169542A (zh) | 2021-11-17 | 2021-11-17 | 用于不完整数据分类的集成学习树构建方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114169542A true CN114169542A (zh) | 2022-03-11 |
Family
ID=80479868
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111363459.4A Pending CN114169542A (zh) | 2021-11-17 | 2021-11-17 | 用于不完整数据分类的集成学习树构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114169542A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117894481A (zh) * | 2024-03-15 | 2024-04-16 | 长春大学 | 基于贝叶斯超参数优化梯度提升树心脏病预测方法及装置 |
-
2021
- 2021-11-17 CN CN202111363459.4A patent/CN114169542A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117894481A (zh) * | 2024-03-15 | 2024-04-16 | 长春大学 | 基于贝叶斯超参数优化梯度提升树心脏病预测方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106570178B (zh) | 一种基于图聚类的高维文本数据特征选择方法 | |
Sheng et al. | A genetic k-medoids clustering algorithm | |
Wang et al. | K-medoids clustering of data sequences with composite distributions | |
Gadat et al. | A stochastic algorithm for feature selection in pattern recognition | |
CN105975518B (zh) | 基于信息熵的期望交叉熵特征选择文本分类系统及方法 | |
Li et al. | Linear time complexity time series classification with bag-of-pattern-features | |
CN109948125A (zh) | 改进的Simhash算法在文本去重中的方法及系统 | |
CN114281809B (zh) | 一种多源异构数据清洗方法及装置 | |
CN108280236A (zh) | 一种基于LargeVis的随机森林可视化数据分析方法 | |
Martínez-Ballesteros et al. | Improving a multi-objective evolutionary algorithm to discover quantitative association rules | |
CN111275127B (zh) | 基于条件互信息的动态特征选择方法 | |
CN113360730A (zh) | 一种基于过滤器和rf-rfe算法的特征选择方法 | |
CN114169542A (zh) | 用于不完整数据分类的集成学习树构建方法 | |
CN110765781A (zh) | 一种领域术语语义知识库人机协同构建方法 | |
US7177863B2 (en) | System and method for determining internal parameters of a data clustering program | |
Catalano et al. | Discovering patterns in real-valued time series | |
CN114169406A (zh) | 基于对称不确定性联合条件熵的特征选择方法 | |
Lin et al. | A new density-based scheme for clustering based on genetic algorithm | |
CN115437960A (zh) | 回归测试用例排序的方法、装置、设备和存储介质 | |
CN111488903A (zh) | 基于特征权重的决策树特征选择方法 | |
CN113657106B (zh) | 基于归一化词频权重的特征选择方法 | |
CN101410831A (zh) | 对于对象的顺序稳定的分类的线性无监督方法 | |
CN113626669A (zh) | 一种基于联合互信息和条件熵的视图构建方法 | |
Panskyi et al. | A step towards the majority-based clustering validation decision fusion method | |
CN110490226A (zh) | 一种识别方法及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |