CN104679911B

CN104679911B - 一种基于离散弱相关的云平台决策森林分类方法

Info

Publication number: CN104679911B
Application number: CN201510133866.4A
Authority: CN
Inventors: 袁景凌; 陈旻骋; 刘永坚; 杨光
Original assignee: Wuhan University of Technology WUT
Current assignee: Wuhan Ligong Digital Communications Engineering Co ltd
Priority date: 2015-03-25
Filing date: 2015-03-25
Publication date: 2018-03-27
Anticipated expiration: 2035-03-25
Also published as: CN104679911A

Abstract

本发明公开了一种基于离散弱相关的云平台决策森林分类方法，对云平台的决策森林分类方法离散弱相关化。首先根据数据属性之间的相关程度，选出随机抽样属性元组，然后增量更新属性组概率离散化的连续属性，求得最大增益属性。最后通过获得的分类属性序列建立云平台决策森林。这样在处理大规模数据规模时，能减少构建云平台决策森林的时间和空间开销，增强抗数据噪音的能力及其稳定性，并加快了分类的预测速度和提高了分类的质量。

Description

一种基于离散弱相关的云平台决策森林分类方法

技术领域

本发明涉及云计算领域，具体是指一种基于离散弱相关的云平台决策森林分类方法。

背景技术

随机分裂技术构建多棵决策树，通过投票得到最终预测结果。随机森林是由许多决策树集成在一起的分类器，如果把决策树看成分类任务中的一个专家，随机森林就是许多专家在一起对某种任务进行分类。

目前，随着大数据时代的到来，数据的规模不断的增大以及数据的属性维度的连续增加，传统的随机森林分类方法不能有效地处理海量规模数据，不能高效、快速地完成分类预测。因此针对海量、高维的数据，不少学者提出了基于云平台的分布式随机森林分类方法，虽然这些方法能够快速地完成数据的分类预测工作。但是空间效率及分类精度并不尽如人意。

为了解决这个问题，需要研究怎样在保证分类时间效率的同时，减少云平台随机森林方法的空间开销，提高分类精度。对随机森林离散弱相关化是一种有效手段。离散弱相关化是指随机森林在随机抽样的基础上，根据数据集属性之间的相关程度，选取若干个属性构成属性组，并增量更新属性组中概率离散化的连续属性。以此来提高云平台决策森林分类效率。

发明内容：

本发明的目的是为了解决上述背景技术存在的不足，提出一种基于离散弱相关的云平台决策森林分类方法，减少了时间和空间开销，增强抗数据噪音的能力，并提高了分类质量。

为了解决上述技术问题本发明的技术方案为：

一种基于离散弱相关的云平台决策森林分类方法，其特征在于，该方法包括如下步骤：步骤一，生成使云平台决策森林最优的描述文件，所述描述文件包括决策树的最优总数及每棵决策树的新数据集dataset；步骤二，确定每棵决策树弱相关化随机抽样属性元组；步骤三，依次对步骤二所得各个决策树的弱相关化随机抽样属性元组中概率离散化的连续属性进行增量更新，求得其中最大增益属性；步骤四，重复步骤三获得分类属性序列，建立云平台决策森林并分类。

较佳地，所述步骤一中所述决策树的最优总数是通过以下方法获得的：用云平台的Data_Node节点个数乘以各节点统一设定的Reduce任务数，用所求得的积开方的2倍除以m得到决策森林中决策树的最优总数，其中m取其中p是新数据集dataset中属性的维数。

较佳地，所述步骤一中所述新数据集dataset是通过以下方法获得的：通过bootstrap抽样方法为云平台中的每棵决策树抽取训练样本，获得每棵决策树的新数据集dataset。

较佳地，所述步骤二具体包括以下步骤：21)为步骤一所得每棵决策树随机抽取2m个属性，并使用Map函数通过TF-IDF逆文档频率计算离散属性相关程度，通过协方差矩阵计算连续属性相关程度，其中m取其中p是新数据集dataset中属性的维数；22)对步骤21)所得结果进行收集，计算抽样属性与其他决策树的已建树属性的相关性均值，对每个抽样属性的相关性均值进行快速排序，找出相关性最小的m个属性，构成每棵决策树的弱相关化随机抽样属性元组；23)针对每棵决策树对应的弱相关化随机抽样属性元组，初始化Map任务，并将所述随机抽样属性元组映射到对应的云平台节点上。

较佳地，所述步骤三是对每棵决策树进行以下操作：31)对每棵决策树的弱相关化随机抽样属性元组中的连续属性进行离散化；32)通过更新函数用已离散化的属性替换描述文件中数据集的原连续属性，并得到替换后的随机抽样属性元组；33)将替换后的随机抽样属性元组划分为数个候选分裂属性子集，各个候选分裂属性子集由对应云平台节点子线程处理，每个子线程在自己对应的候选分裂属性子集上计算所有属性的信息增益，统计得到最大增益属性。

较佳地，所述步骤31)是根据连续属性的概率密度函数进行离散化。

较佳地，所述步骤33)所得结果包括所对应的属性名称和最大的信息增益值，以键值对表示。

较佳地，所述步骤33)所得结果还包括各个云平台节点的分裂属性和分裂点，所述分裂属性和分裂点是通过以下方式得到的：调用Reduce函数统计包含属性名称和最大的信息增益值的各键值对，选择分裂值最优的属性值作为该节点的分裂属性和分裂点，所得结果包括分裂点编号和分裂规则，以键值对表示。

较佳地，所述步骤四具体包括以下步骤：41)重复步骤三获得分类属性序列，并行化建立相应的决策树；42)构建各云平台节点对应的决策树，当所有决策树构建完成后，获取每个节点上对应的键值，通过Reduce函数组合结果，生成云平台决策森林；43)为待分类的数据集的每个决策树分配一个Map映射函数，统计各Map映射函数返回投票情况键值对，选择投票数目最多的那个类别作为决策森林的分类预测类别。

本发明首先根据数据集属性之间的相关程度，选出随机抽样属性元组，然后增量更新属性组中概率离散化的连续属性，并求得其最大增益属性，最后通过获得的分类属性序列建立云平台决策森林并分类。通过分析云平台的配置及数据集特性，优化描述文件中的参数，经过相关性检测后，确定弱相关化随机抽样属性元组，再增量更新属性组中概率离散化的连续属性，能够对云平台的决策森林方法离散弱相关化，减少了时间和空间开销，增强抗数据噪音的能力及其稳定性，加快了分类的预测速度，提高了分类的质量。

附图说明

图1为本发明实施例的流程图。

具体实施方式

下面结合附图和实施例对本发明做进一步的说明。

一种基于离散弱相关的云平台决策森林分类方法(图1)，该方法包括如下步骤：

步骤S1，生成使云平台决策森林最优的描述文件，所述描述文件包括决策树的最优总数及每棵决策树的新数据集dataset；

决策树的最优总数是通过以下方法获得的：用Hadoop云平台的Data_Node节点个数乘以各节点统一设定的Reduce任务数，用所求得的积开方的2倍除以m得到决策森林中决策树的最优总数，促使各个Reduce任务经归约后，能够单独计算一个属性的熵；其中m即随机森林算法中超参数的取值，一般取m为其中p是新数据集dataset中属性的维数。

新数据集dataset是通过以下方法获得的：通过bootstrap抽样方法为云平台中的每棵决策树抽取训练样本，获得每棵决策树的新数据集dataset。

将得到的决策森林中树的最优总数及dataset加入到云平台决策森林描述文件中。并将这些决策树的描述文件分别进行Map映射操作，将其被分配到不同的节点上。

步骤S2，确定每棵决策树弱相关化随机抽样属性元组；

步骤S21为步骤S1所得每棵决策树随机抽取2m个属性，并使用Map函数通过TF-IDF逆文档频率计算离散属性相关程度，通过协方差矩阵计算连续属性相关程度，其中m取其中p是新数据集dataset中属性的维数；

离散属性相关性计算：1利用倒排索引的思想统计出各离散值在两组属性中的出现情况；2.设定变量i_tag，根据步骤1中统计的结果，若两组属性中均包含某一离散属性，则对变量i_tag进行累加；3.将累加后的变量i_tag乘以权值，得到两组离散属性的相关程度值(权值为新数据集dataset总属性数除以总离散属性数商的对数值)。此过程为TF-IDF思想的变换

连续属性相关性计算：1.分别计算两组连续属性的均值；2.将两组属性的均值代入协方差公式进行计算，并将计算结果取绝对值。计算值越大，则说明两种属性的相关性越强。若计算值为0，则说明两种属性相互独立。

Map函数计算结束后，得到键值对<属性1，(属性1，属性2，相关程度值)>，其中属性1为当前所计算的属性(可能是前面所抽取2m个属性中的离散属性，也可能是所抽取2m个属性中连续属性)(若属性1和属性2为不同类别的属性，相关程度值为0)，属性2为与属性1进行相关性检测的属性；

步骤S22对步骤S21所得结果进行收集，计算抽样属性与其他决策树的已建树属性的相关性均值，若该均值接近于0，则表示相关性小。对每个抽样属性的相关性均值进行快速排序，找出相关性最小的m个属性，构成每棵决策树的弱相关化随机抽样属性元组；

步骤S 23针对每棵决策树对应的弱相关化随机抽样属性元组，初始化Map任务，并将所述随机抽样属性元组映射到对应的云平台节点上。

步骤S3，依次对步骤S2所得各个决策树的弱相关化随机抽样属性元组中概率离散化的连续属性进行增量更新，求得其中最大增益属性:

步骤S31对每棵决策树的弱相关化随机抽样属性元组中的连续属性进行离散；是根据连续属性的概率密度函数进行离散化。

步骤S32通过更新函数用已离散化的属性替换描述文件中数据集的原连续属性，并得到替换后的随机抽样属性元组；

步骤S33将替换后的随机抽样属性元组划分为数个候选分裂属性子集，各个候选分裂属性子集由对应云平台节点子线程处理，每个子线程在自己对应的候选分裂属性子集上计算所有属性的信息增益，统计得到最大增益属性。

返回键值对<对应的属性名称，最大的信息增益值>。

调用Reduce函数统计包含属性名称和最大的信息增益值的各键值对，选择分裂值最优的属性值作为该节点的分裂属性和分裂点，返回键值对<分裂点编号和分裂规则>。

步骤S4，重复步骤S3获得分类属性序列，建立云平台决策森林并分类。

步骤S41重复步骤S3获得分类属性序列，并行化建立相应的决策树；

步骤S42构建各云平台节点对应的决策树，当所有决策树构建完成后，获取每个节点上对应的键值，通过Reduce函数组合结果，生成云平台决策森林；

步骤S43为待分类的数据集的每个决策树分配一个Map映射函数，统计各Map映射函数返回投票情况键值对，选择投票数目最多的那个类别作为决策森林的分类预测类别。

上述方法中，对云平台的决策森林分类方法离散弱相关化。首先根据数据属性之间的相关程度，选出随机抽样属性元组，然后增量更新属性组概率离散化的连续属性。并求得最大增益属性。最后通过获得的分类属性序列建立云平台决策森林。这样在处理大规模数据规模时，能减少构建云平台决策森林的时间和空间开销，增强抗数据噪音的能力及其稳定性。并加快了分类的预测速度和提高了分类的质量。

应当理解的是，对本领域普通技术人员来说，可以根据上述说明加以改进或变换，而所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims

1.一种基于离散弱相关的云平台决策森林分类方法，其特征在于，该方法包括如下步骤：

步骤一，生成使云平台决策森林最优的描述文件，所述描述文件包括决策树的最优总数及每棵决策树的新数据集dataset；

步骤二，确定每棵决策树弱相关化随机抽样属性元组；

步骤三，依次对步骤二所得各个决策树的弱相关化随机抽样属性元组中概率离散化的连续属性进行增量更新，求得其中最大增益属性；

步骤四，重复步骤三获得分类属性序列，建立云平台决策森林并分类。

2.根据权利要求1所述的一种基于离散弱相关的云平台决策森林分类方法，其特征在于，所述步骤一中所述决策树的最优总数是通过以下方法获得：用云平台的Data_Node节点个数乘以各节点统一设定的Reduce任务数，用所求得的积开方的2倍除以m得到决策森林中决策树的最优总数，其中m取其中p是所述新数据集dataset中属性的维数。

3.根据权利要求1所述的一种基于离散弱相关的云平台决策森林分类方法，其特征在于，所述步骤一中所述新数据集dataset是通过以下方法获得的：通过bootstrap抽样方法为云平台中的每棵决策树抽取训练样本，获得每棵决策树的新数据集dataset。

4.根据权利要求1所述的一种基于离散弱相关的云平台决策森林分类方法，其特征在于，所述步骤二具体包括以下步骤：

21)为步骤一所得每棵决策树随机抽取2m个属性，并使用Map函数通过TF-IDF逆文档频率计算离散属性相关程度，通过协方差矩阵计算连续属性相关程度，其中m取其中p是所述新数据集dataset中属性的维数；

22)对步骤21)所得结果进行收集，计算抽样属性与其他决策树的已建树属性的相关性均值，对每个抽样属性的相关性均值进行快速排序，找出相关性最小的m个属性，构成每棵决策树的弱相关化随机抽样属性元组；

23)针对每棵决策树对应的弱相关化随机抽样属性元组，初始化Map任务，并将所述随机抽样属性元组映射到对应的云平台节点上。

5.根据权利要求1所述的一种基于离散弱相关的云平台决策森林分类方法，其特征在于，所述步骤三是对每棵决策树进行以下操作：

31)对每棵决策树的弱相关化随机抽样属性元组中的连续属性进行离散化；

32)通过更新函数用已离散化的属性替换描述文件中数据集的原连续属性，并得到替换后的随机抽样属性元组；

33)将替换后的随机抽样属性元组划分为数个候选分裂属性子集，各个候选分裂属性子集由对应云平台节点子线程处理，每个子线程在自己对应的候选分裂属性子集上计算所有属性的信息增益，统计得到最大增益属性。

6.根据权利要求5所述的一种基于离散弱相关的云平台决策森林分类方法，其特征在于，所述步骤31)是根据连续属性的概率密度函数进行离散化。

7.根据权利要求5所述的一种基于离散弱相关的云平台决策森林分类方法，其特征在于，所述步骤33)所得结果包括所对应的属性名称和最大的信息增益值，以键值对表示。

8.根据权利要求7所述的一种基于离散弱相关的云平台决策森林分类方法，其特征在于，所述步骤33)所得结果还包括各个云平台节点的分裂属性和分裂点，所述分裂属性和分裂点是通过以下方式得到的：调用Reduce函数统计包含属性名称和最大的信息增益值的各键值对，选择分裂值最优的属性值作为该节点的分裂属性和分裂点，所得结果包括分裂点编号和分裂规则，以键值对表示。

9.根据权利要求1所述的一种基于离散弱相关的云平台决策森林分类方法，其特征在于，所述步骤四具体包括以下步骤：

41)重复步骤三获得分类属性序列，并行化建立相应的决策树；

42)构建各云平台节点对应的决策树，当所有决策树构建完成后，获取每个节点上对应的键值，通过Reduce函数组合结果，生成云平台决策森林；

43)为待分类的数据集的每个决策树分配一个Map函数，统计各Map函数返回投票情况键值对，选择投票数目最多的那个类别作为决策森林的分类预测类别。