CN114169542A

CN114169542A - 用于不完整数据分类的集成学习树构建方法

Info

Publication number: CN114169542A
Application number: CN202111363459.4A
Authority: CN
Inventors: 周红芳; 许海晨
Original assignee: Xian University of Technology
Current assignee: Xian University of Technology
Priority date: 2021-11-17
Filing date: 2021-11-17
Publication date: 2022-03-11

Abstract

本发明公开用于不完整数据分类的集成学习树与基于视图的决策树、J48相比，分类精确率、回归率和F1有所提升；本发明的方法在选择视图对应的特征时，既考虑了待选特征对于分类效果的提升程度，又考虑了待选特征和整个已选特征集合的冗余关系；并且在视图的基础上提出了缺失模式的概念，测试样本先根据其视图到达对应的树节点，然后再根据其缺失模式找到其对应的一系列分类器，这些分类器使用集成学习的方法对其进行分类。结果显示，在大部分数据集下，本发明提出的方法相比于其他两种方法而言，评估指标更优。

Description

用于不完整数据分类的集成学习树构建方法

技术领域

本发明属于数据挖掘处理技术领域，具体涉及一种用于不完整数据分类的集成学习树构建方法。

背景技术

随着信息社会的快速发展，各个领域的数据规模也在快速增长，如何在这些海量的数据中找到本发明需要的信息就显得尤为重要。数据挖掘技术是本发明最常使用的方法之一，但是实际数据中往往存在缺失值的情况。如果直接使用这些不完整的数据进行分类/预测，就会影响到分类/预测结果。因此有必要对这些不完整数据进行处理。

目前，对于不完整数据的分类方法主要有两种。第一种是直接忽略掉那些具有缺失值的样本，然后用处理完整数据的方法对剩下的样本进行处理。这样做虽然很简单，但是如果缺失值样本比例过高时，就会严重影响实际数据的分类效果。

第二种方法是使用统计模型或机器学习方法对缺失值进行填充，然后使用处理完整数据的方法对不完整数据进行处理。这种方法可能会引进新的数据误差，并且在填充的过程中会增加大量的时间和空间消耗。

发明内容

本发明的目的是提供一种用于不完整数据分类的集成学习树构建方法，解决了现有技术中存在的对于不完整数据分类效果差的问题。

本发明所采用的技术方案是，用于不完整数据分类的集成学习树构建方法，具体按照以下步骤实施：

步骤1、对数据集D(F₁，F₂，...，F_K，label)进行缺失处理，其中F₁，F₂，...，F_K为K个特征，label为所属的类别；

步骤2、将经过缺失处理的数据集D按照十折交叉的方式划分为训练集D₁和测试集D₂；

步骤3、对训练集D₁使用基于视图和缺失模式的方法得到初级集成学习树；

步骤4、利用测试集D₂对初级集成学习树进行测试，获得集成学习树。

本发明的特点还在于：

步骤1数据集选自以下数据集：hepatitis、breast-cancer、processed-cleveland、processed-hungarian、primary-tumor、horse colic、mammographic_masses。

步骤1具体过程为：

判断数据集D(F₁，F₂，...，F_K，label)是否缺失数据，其中F₁，F₂，...，F_K为K个特征，label为所属的类别，若缺失，则不进行处理，若不缺失，则采用完全随机缺失的准则将数据集D变为不完整数据集。

步骤3具体过程为：

步骤3.1、采用递归调用生成学习树，对于学习树上的节点node，判断节点node是否为根节点，若为根节点，则该节点包含的样本集合为训练集D₁；若不是根节点，则为用其父节点的分类器分到某一类别的样本集合；

步骤3.2、设定样本纯度阈值、样本集合内样本个数阈值，若节点node所在的样本集合纯度不大于样本纯度阈值或样本集合内样本个数不大于样本集合内样本个数阈值，则该节点node设置为叶子节点，并将该节点node类型设置为样本集合中样本出现次数最多的类别，否则执行步骤3.3；

步骤3.3、选出非叶子节点node中样本集合的特征集合C以及特征集合C对应的完整视图V；

步骤3.4、找出完整视图V中的所有缺失模式M₁，M₂，...，M_s，根据每个缺失模式M₁，M₂，...，M_s分别提取样本集合中的样本，得到缺失模式M₁，M₂，...，M_s对应的子样本集合N₁，N₂，...，N_s；

步骤3.5、对于每一个缺失模式M_i，用其对应的子样本集合N_i训练分类器，这时节点node中的每个样本会被其对应的多个缺失模式分类器分成多个类别，利用投票原则确定每个样本最终的类别，形成了M个类别，取每个类别包含的样本集合为E_i，对于每一个E_i，都返回到步骤3.1，此时步骤3.1中节点所包含的样本集合就为E_i；循环上述步骤，直到生成集成学习树，即初级集成学习树。

步骤3.3具体过程为：

步骤3.3.1、对于样本集合为A的节点，让已选特征集合C视图V都为空集，计算该节点的祖先节点未曾选过的特征相对于C的联合互信息JMI和相对于类别的条件熵CE；

步骤3.3.2、把所计算的每个特征的JMI和CE相加；

步骤3.3.3、把特征的JMI和CE之和从小到大排序；

步骤3.3.4、选出和最小的特征C_i，把C_i加入到C中；

步骤3.3.5、重复3.3.1～3.3.4，直到C中的特征数目达到待选特征数目的一半时停止；

步骤3.3.6、对于样本集合A中的每一个样本A_i，如果A_i在已选特征集合C是完整的，那么把A_i添加到V中，得到特征集合C对应的完整视图V。

步骤3.3.1中相对于C的联合互信息JMI计算公式为：

式(1)中，X₁，X₂，...，X_n中的每一个都是已选特征集合中的一个特征，而Y是候选的某个特征，x₁，x₂，...，x_n表示已选特征集合中一个特征对应的特征值，y表示候选的某个特征对应的特征值，p(x₁，x₂，...，x_n，y)是x₁，x₂，...，x_n，y的联合概率，p(x₁，x₂，...，x_n)是x₁，x₂，...，x_n的联合概率，p(y)是y的概率。

步骤3.3.1中相对于类别的条件熵CE计算公式为：

在已知变量X的情况下，变量Y的条件熵H(Y|X)定义为：

式(2)中，p(x_i，y_j)指的是x_i和y_j的联合概率，p(y_j|x_i)指的是在已知X＝x_i的条件下Y＝y_j的条件概率，m是变量Y的取值数目，n是变量X的取值数目。

本发明的有益效果是，

本发明用于不完整数据分类的集成学习树与基于视图的决策树、J48相比，分类精确率、回归率和F1有所提升；本发明的方法在选择视图对应的特征时，既考虑了待选特征对于分类效果的提升程度，又考虑了待选特征和整个已选特征集合的冗余关系；并且在视图的基础上提出了缺失模式的概念，测试样本先根据其视图到达对应的树节点，然后再根据其缺失模式找到其对应的一系列分类器，这些分类器使用集成学习的方法对其进行分类。结果显示，在大部分数据集下，本发明提出的方法相比于其他两种方法而言，评估指标更优。

附图说明

图1是本发明一种用于不完整数据分类的集成学习树的构建流程图；

图2是本发明的方法和基于视图的决策树(VDT)方法、J48方法在hepatitis数据集上进行对比实验的精确率、回归率、F1结果；

图3是本发明的方法和基于视图的决策树(VDT)方法、J48方法在breast-cancer数据集上进行对比实验的精确率、回归率、F1结果；

图4是本发明的方法和基于视图的决策树(VDT)方法、J48方法在processed-cleveland数据集上进行对比实验的精确率、回归率、F1结果；

图5是本发明的方法和基于视图的决策树(VDT)方法、J48方法在processed-hungarian数据集上进行对比实验的精确率、回归率、F1结果；

图6是本发明的方法和基于视图的决策树(VDT)方法、J48方法在horse-colic数据集上进行对比实验的精确率、回归率、F1结果；

图7是本发明的方法和基于视图的决策树(VDT)方法、J48方法在mammographic_masses数据集上进行对比实验的精确率、回归率、F1结果；

图8是本发明的方法和基于视图的决策树(VDT)方法、J48方法在primary-tumor数据集上进行对比实验的精确率、回归率、F1结果。

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

本发明中不完整数据集指的是那些具有缺失值的数据集。

集成学习利用多个分类器的结果来预测最终类别。首先会训练一系列分类器，然后用这些分类器对某样本进行预测，最后用某种策略将每个分类器的结果结合来确定最终类别。

用于不完整数据分类的集成学习树构建方法，具体按照以下步骤实施：

步骤1、数据集选自以下数据集：hepatitis、breast-cancer、processed-cleveland、processed-hungarian、primary-tumor、horse colic、mammographic_masses；判断数据集D(F₁，F₂，...，F_K，label)是否缺失数据，其中F₁，F₂，...，F_K为K个特征，label为所属的类别，若缺失，则不进行处理，若不缺失，则采用完全随机缺失的准则将数据集D变为不完整数据集。

步骤2、将经过缺失处理的数据集D按照十折交叉的方式划分为训练集D₁和测试集D₂，训练集与测试集比例为9∶1；

步骤3、对训练集D₁使用基于视图和缺失模式的方法得到初级集成学习树；具体过程为：

样本集合A的纯度计算公式为：

其中，|y|为A中的类别数目，pk为第k个类别出现的概率。

步骤3.3、选出节点node中样本集合的特征集合C以及特征集合C对应的完整视图V；视图是一组数据的逻辑表示，视图中的字段就是来自一组数据中的字段，其作用类似于筛选。从用户角度来看，一个视图是从一个特定的角度来查看一组数据中的数据；具体过程为：

相对于C的联合互信息JMI计算公式为：

相对于类别的条件熵CE计算公式为：

在已知变量X的情况下，变量Y的条件熵H(Y|X)定义为：

步骤3.3.2、把所计算的每个特征的JMI和CE相加；

步骤3.3.3、把特征的JMI和CE之和从小到大排序；

步骤3.3.4、选出和最小的特征C_i，把C_i加入到C中；

步骤3.4、缺失模式是特征集合的子集。在一个数据集D中，至少存在一个样本在特征集合的某子集上是缺失的，而在该子集之外的特征上都不是缺失的，那么这个子集就是一个缺失模式。找出完整视图V中的所有缺失模式M₁，M₂，...，M_s，根据每个缺失模式M₁，M₂，...，M_s分别提取样本集合中的样本，得到缺失模式M₁，M₂，...，M_s对应的子样本集合N₁，N₂，...，N_s；

步骤3.5、对于每一个缺失模式M_i，用其对应的子样本集合N_i训练分类器，这时节点node中的每个样本会被其对应的多个缺失模式分类器分成多个类别，利用投票原则确定每个样本最终的类别，形成了M个类别，取每个类别包含的样本集合为E_i，对于每一个E_i，都返回到步骤3.1，此时步骤3.1中节点所包含的样本集合就为E_i；循环上述步骤，结合步骤3.2生产的叶子节点，最终生成集成学习树，即初级集成学习树。

步骤4、利用测试集D₂对初级集成学习树进行测试，并使用精确率、回归率、F1作为评价标准对结果进行评估，最终获得集成学习树。

其中，精确率是在二类或多类的数据集中，每次将一组类别的样本作为一类，将其他类别的样本作为另一类，计算精确率。精确率(Precision)计算公式如下：

TP为预测为正例，实际上是正例的个数，FP为预测为正例，实际上是负例的个数。

回归率是在二类或多类的数据集中，每次将一组类别的样本作为一类，将其他类别的样本作为另一类，计算回归率。回归率(Recall)计算公式如下：

TP为预测为正例，实际上是正例的个数，FN为预测为负例，实际上是正例的个数。

F1指标综合了Precision与Recall的产出的结果。F1的取值范围从0到1的，1代表模型最好，0代表模型最差。F1计算公式如下：

对于本发明获得集成学习树进行效果验证：

本发明中构造树伪代码如表1所示：

表1

本发明中视图构建伪代码如表2所示：

表2

本发明的性能评价：

为验证本发明中算法的有效性，使用本发明方法获得的学习树(ELT)与基于视图的决策树(VDT)、J48相比。在7个数据集上分别使用这三个算法，数据集如表3所示。

表3

通过对比实验，从图2、图3、图4、图5可以看到，本发明提出的方法在精确率、回归率和F1的性能要优于其他两个对比算法；从图6可以看到本发明的方法在精确率和F1要优于其他两个对比算法，在回归率要比VDT略差；从图7可以看出本发明的方法在几个指标上都比VDT好，但是比J48差；从图8可以看出本发明的方法在几个指标上比VDT和J48略差。通过实验说明本发明的算法在大部分数据集上是有效的。

Claims

1.用于不完整数据分类的集成学习树构建方法，其特征在于，具体按照以下步骤实施：

2.根据权利要求1所述用于不完整数据分类的集成学习树构建方法，其特征在于，步骤1所述数据集选自以下数据集：hepatitis、breast-cancer、processed-cleveland、processed-hungarian、primary-tumor、horse colic、mammographic_masses。

3.根据权利要求1所述用于不完整数据分类的集成学习树构建方法，其特征在于，步骤1具体过程为：

4.根据权利要求1所述用于不完整数据分类的集成学习树构建方法，其特征在于，步骤3具体过程为：

步骤3.3、选出节点node中样本集合的特征集合C以及特征集合C对应的完整视图V；

5.根据权利要求1所述用于不完整数据分类的集成学习树构建方法，其特征在于，步骤3.3具体过程为：

步骤3.3.2、把所计算的每个特征的JMI和CE相加；

步骤3.3.3、把特征的JMI和CE之和从小到大排序；

步骤3.3.4、选出和最小的特征C_i，把C_i加入到C中；

6.根据权利要求1所述用于不完整数据分类的集成学习树构建方法，其特征在于，步骤3.3.1中所述相对于C的联合互信息JMI计算公式为：

7.根据权利要求1所述用于不完整数据分类的集成学习树构建方法，其特征在于，步骤3.3.1中所述相对于类别的条件熵CE计算公式为：

在已知变量X的情况下，变量Y的条件熵H(Y|X)定义为：