CN104679911B - 一种基于离散弱相关的云平台决策森林分类方法 - Google Patents
一种基于离散弱相关的云平台决策森林分类方法 Download PDFInfo
- Publication number
- CN104679911B CN104679911B CN201510133866.4A CN201510133866A CN104679911B CN 104679911 B CN104679911 B CN 104679911B CN 201510133866 A CN201510133866 A CN 201510133866A CN 104679911 B CN104679911 B CN 104679911B
- Authority
- CN
- China
- Prior art keywords
- attribute
- cloud platform
- decision
- decision tree
- decision forest
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于离散弱相关的云平台决策森林分类方法,对云平台的决策森林分类方法离散弱相关化。首先根据数据属性之间的相关程度,选出随机抽样属性元组,然后增量更新属性组概率离散化的连续属性,求得最大增益属性。最后通过获得的分类属性序列建立云平台决策森林。这样在处理大规模数据规模时,能减少构建云平台决策森林的时间和空间开销,增强抗数据噪音的能力及其稳定性,并加快了分类的预测速度和提高了分类的质量。
Description
技术领域
本发明涉及云计算领域,具体是指一种基于离散弱相关的云平台决策森林分类方法。
背景技术
随机分裂技术构建多棵决策树,通过投票得到最终预测结果。随机森林是由许多决策树集成在一起的分类器,如果把决策树看成分类任务中的一个专家,随机森林就是许多专家在一起对某种任务进行分类。
目前,随着大数据时代的到来,数据的规模不断的增大以及数据的属性维度的连续增加,传统的随机森林分类方法不能有效地处理海量规模数据,不能高效、快速地完成分类预测。因此针对海量、高维的数据,不少学者提出了基于云平台的分布式随机森林分类方法,虽然这些方法能够快速地完成数据的分类预测工作。但是空间效率及分类精度并不尽如人意。
为了解决这个问题,需要研究怎样在保证分类时间效率的同时,减少云平台随机森林方法的空间开销,提高分类精度。对随机森林离散弱相关化是一种有效手段。离散弱相关化是指随机森林在随机抽样的基础上,根据数据集属性之间的相关程度,选取若干个属性构成属性组,并增量更新属性组中概率离散化的连续属性。以此来提高云平台决策森林分类效率。
发明内容:
本发明的目的是为了解决上述背景技术存在的不足,提出一种基于离散弱相关的云平台决策森林分类方法,减少了时间和空间开销,增强抗数据噪音的能力,并提高了分类质量。
为了解决上述技术问题本发明的技术方案为:
一种基于离散弱相关的云平台决策森林分类方法,其特征在于,该方法包括如下步骤:步骤一,生成使云平台决策森林最优的描述文件,所述描述文件包括决策树的最优总数及每棵决策树的新数据集dataset;步骤二,确定每棵决策树弱相关化随机抽样属性元组;步骤三,依次对步骤二所得各个决策树的弱相关化随机抽样属性元组中概率离散化的连续属性进行增量更新,求得其中最大增益属性;步骤四,重复步骤三获得分类属性序列,建立云平台决策森林并分类。
较佳地,所述步骤一中所述决策树的最优总数是通过以下方法获得的:用云平台的Data_Node节点个数乘以各节点统一设定的Reduce任务数,用所求得的积开方的2倍除以m得到决策森林中决策树的最优总数,其中m取其中p是新数据集dataset中属性的维数。
较佳地,所述步骤一中所述新数据集dataset是通过以下方法获得的:通过bootstrap抽样方法为云平台中的每棵决策树抽取训练样本,获得每棵决策树的新数据集dataset。
较佳地,所述步骤二具体包括以下步骤:21)为步骤一所得每棵决策树随机抽取2m个属性,并使用Map函数通过TF-IDF逆文档频率计算离散属性相关程度,通过协方差矩阵计算连续属性相关程度,其中m取其中p是新数据集dataset中属性的维数;22)对步骤21)所得结果进行收集,计算抽样属性与其他决策树的已建树属性的相关性均值,对每个抽样属性的相关性均值进行快速排序,找出相关性最小的m个属性,构成每棵决策树的弱相关化随机抽样属性元组;23)针对每棵决策树对应的弱相关化随机抽样属性元组,初始化Map任务,并将所述随机抽样属性元组映射到对应的云平台节点上。
较佳地,所述步骤三是对每棵决策树进行以下操作:31)对每棵决策树的弱相关化随机抽样属性元组中的连续属性进行离散化;32)通过更新函数用已离散化的属性替换描述文件中数据集的原连续属性,并得到替换后的随机抽样属性元组;33)将替换后的随机抽样属性元组划分为数个候选分裂属性子集,各个候选分裂属性子集由对应云平台节点子线程处理,每个子线程在自己对应的候选分裂属性子集上计算所有属性的信息增益,统计得到最大增益属性。
较佳地,所述步骤31)是根据连续属性的概率密度函数进行离散化。
较佳地,所述步骤33)所得结果包括所对应的属性名称和最大的信息增益值,以键值对表示。
较佳地,所述步骤33)所得结果还包括各个云平台节点的分裂属性和分裂点,所述分裂属性和分裂点是通过以下方式得到的:调用Reduce函数统计包含属性名称和最大的信息增益值的各键值对,选择分裂值最优的属性值作为该节点的分裂属性和分裂点,所得结果包括分裂点编号和分裂规则,以键值对表示。
较佳地,所述步骤四具体包括以下步骤:41)重复步骤三获得分类属性序列,并行化建立相应的决策树;42)构建各云平台节点对应的决策树,当所有决策树构建完成后,获取每个节点上对应的键值,通过Reduce函数组合结果,生成云平台决策森林;43)为待分类的数据集的每个决策树分配一个Map映射函数,统计各Map映射函数返回投票情况键值对,选择投票数目最多的那个类别作为决策森林的分类预测类别。
本发明首先根据数据集属性之间的相关程度,选出随机抽样属性元组,然后增量更新属性组中概率离散化的连续属性,并求得其最大增益属性,最后通过获得的分类属性序列建立云平台决策森林并分类。通过分析云平台的配置及数据集特性,优化描述文件中的参数,经过相关性检测后,确定弱相关化随机抽样属性元组,再增量更新属性组中概率离散化的连续属性,能够对云平台的决策森林方法离散弱相关化,减少了时间和空间开销,增强抗数据噪音的能力及其稳定性,加快了分类的预测速度,提高了分类的质量。
附图说明
图1为本发明实施例的流程图。
具体实施方式
下面结合附图和实施例对本发明做进一步的说明。
一种基于离散弱相关的云平台决策森林分类方法(图1),该方法包括如下步骤:
步骤S1,生成使云平台决策森林最优的描述文件,所述描述文件包括决策树的最优总数及每棵决策树的新数据集dataset;
决策树的最优总数是通过以下方法获得的:用Hadoop云平台的Data_Node节点个数乘以各节点统一设定的Reduce任务数,用所求得的积开方的2倍除以m得到决策森林中决策树的最优总数,促使各个Reduce任务经归约后,能够单独计算一个属性的熵;其中m即随机森林算法中超参数的取值,一般取m为其中p是新数据集dataset中属性的维数。
新数据集dataset是通过以下方法获得的:通过bootstrap抽样方法为云平台中的每棵决策树抽取训练样本,获得每棵决策树的新数据集dataset。
将得到的决策森林中树的最优总数及dataset加入到云平台决策森林描述文件中。并将这些决策树的描述文件分别进行Map映射操作,将其被分配到不同的节点上。
步骤S2,确定每棵决策树弱相关化随机抽样属性元组;
步骤S21为步骤S1所得每棵决策树随机抽取2m个属性,并使用Map函数通过TF-IDF逆文档频率计算离散属性相关程度,通过协方差矩阵计算连续属性相关程度,其中m取其中p是新数据集dataset中属性的维数;
离散属性相关性计算:1利用倒排索引的思想统计出各离散值在两组属性中的出现情况;2.设定变量i_tag,根据步骤1中统计的结果,若两组属性中均包含某一离散属性,则对变量i_tag进行累加;3.将累加后的变量i_tag乘以权值,得到两组离散属性的相关程度值(权值为新数据集dataset总属性数除以总离散属性数商的对数值)。此过程为TF-IDF思想的变换
连续属性相关性计算:1.分别计算两组连续属性的均值;2.将两组属性的均值代入协方差公式进行计算,并将计算结果取绝对值。计算值越大,则说明两种属性的相关性越强。若计算值为0,则说明两种属性相互独立。
Map函数计算结束后,得到键值对<属性1,(属性1,属性2,相关程度值)>,其中属性1为当前所计算的属性(可能是前面所抽取2m个属性中的离散属性,也可能是所抽取2m个属性中连续属性)(若属性1和属性2为不同类别的属性,相关程度值为0),属性2为与属性1进行相关性检测的属性;
步骤S22对步骤S21所得结果进行收集,计算抽样属性与其他决策树的已建树属性的相关性均值,若该均值接近于0,则表示相关性小。对每个抽样属性的相关性均值进行快速排序,找出相关性最小的m个属性,构成每棵决策树的弱相关化随机抽样属性元组;
步骤S 23针对每棵决策树对应的弱相关化随机抽样属性元组,初始化Map任务,并将所述随机抽样属性元组映射到对应的云平台节点上。
步骤S3,依次对步骤S2所得各个决策树的弱相关化随机抽样属性元组中概率离散化的连续属性进行增量更新,求得其中最大增益属性:
步骤S31对每棵决策树的弱相关化随机抽样属性元组中的连续属性进行离散;是根据连续属性的概率密度函数进行离散化。
步骤S32通过更新函数用已离散化的属性替换描述文件中数据集的原连续属性,并得到替换后的随机抽样属性元组;
步骤S33将替换后的随机抽样属性元组划分为数个候选分裂属性子集,各个候选分裂属性子集由对应云平台节点子线程处理,每个子线程在自己对应的候选分裂属性子集上计算所有属性的信息增益,统计得到最大增益属性。
返回键值对<对应的属性名称,最大的信息增益值>。
调用Reduce函数统计包含属性名称和最大的信息增益值的各键值对,选择分裂值最优的属性值作为该节点的分裂属性和分裂点,返回键值对<分裂点编号和分裂规则>。
步骤S4,重复步骤S3获得分类属性序列,建立云平台决策森林并分类。
步骤S41重复步骤S3获得分类属性序列,并行化建立相应的决策树;
步骤S42构建各云平台节点对应的决策树,当所有决策树构建完成后,获取每个节点上对应的键值,通过Reduce函数组合结果,生成云平台决策森林;
步骤S43为待分类的数据集的每个决策树分配一个Map映射函数,统计各Map映射函数返回投票情况键值对,选择投票数目最多的那个类别作为决策森林的分类预测类别。
上述方法中,对云平台的决策森林分类方法离散弱相关化。首先根据数据属性之间的相关程度,选出随机抽样属性元组,然后增量更新属性组概率离散化的连续属性。并求得最大增益属性。最后通过获得的分类属性序列建立云平台决策森林。这样在处理大规模数据规模时,能减少构建云平台决策森林的时间和空间开销,增强抗数据噪音的能力及其稳定性。并加快了分类的预测速度和提高了分类的质量。
应当理解的是,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,而所有这些改进和变换都应属于本发明所附权利要求的保护范围。
Claims (9)
1.一种基于离散弱相关的云平台决策森林分类方法,其特征在于,该方法包括如下步骤:
步骤一,生成使云平台决策森林最优的描述文件,所述描述文件包括决策树的最优总数及每棵决策树的新数据集dataset;
步骤二,确定每棵决策树弱相关化随机抽样属性元组;
步骤三,依次对步骤二所得各个决策树的弱相关化随机抽样属性元组中概率离散化的连续属性进行增量更新,求得其中最大增益属性;
步骤四,重复步骤三获得分类属性序列,建立云平台决策森林并分类。
2.根据权利要求1所述的一种基于离散弱相关的云平台决策森林分类方法,其特征在于,所述步骤一中所述决策树的最优总数是通过以下方法获得:用云平台的Data_Node节点个数乘以各节点统一设定的Reduce任务数,用所求得的积开方的2倍除以m得到决策森林中决策树的最优总数,其中m取其中p是所述新数据集dataset中属性的维数。
3.根据权利要求1所述的一种基于离散弱相关的云平台决策森林分类方法,其特征在于,所述步骤一中所述新数据集dataset是通过以下方法获得的:通过bootstrap抽样方法为云平台中的每棵决策树抽取训练样本,获得每棵决策树的新数据集dataset。
4.根据权利要求1所述的一种基于离散弱相关的云平台决策森林分类方法,其特征在于,所述步骤二具体包括以下步骤:
21)为步骤一所得每棵决策树随机抽取2m个属性,并使用Map函数通过TF-IDF逆文档频率计算离散属性相关程度,通过协方差矩阵计算连续属性相关程度,其中m取其中p是所述新数据集dataset中属性的维数;
22)对步骤21)所得结果进行收集,计算抽样属性与其他决策树的已建树属性的相关性均值,对每个抽样属性的相关性均值进行快速排序,找出相关性最小的m个属性,构成每棵决策树的弱相关化随机抽样属性元组;
23)针对每棵决策树对应的弱相关化随机抽样属性元组,初始化Map任务,并将所述随机抽样属性元组映射到对应的云平台节点上。
5.根据权利要求1所述的一种基于离散弱相关的云平台决策森林分类方法,其特征在于,所述步骤三是对每棵决策树进行以下操作:
31)对每棵决策树的弱相关化随机抽样属性元组中的连续属性进行离散化;
32)通过更新函数用已离散化的属性替换描述文件中数据集的原连续属性,并得到替换后的随机抽样属性元组;
33)将替换后的随机抽样属性元组划分为数个候选分裂属性子集,各个候选分裂属性子集由对应云平台节点子线程处理,每个子线程在自己对应的候选分裂属性子集上计算所有属性的信息增益,统计得到最大增益属性。
6.根据权利要求5所述的一种基于离散弱相关的云平台决策森林分类方法,其特征在于,所述步骤31)是根据连续属性的概率密度函数进行离散化。
7.根据权利要求5所述的一种基于离散弱相关的云平台决策森林分类方法,其特征在于,所述步骤33)所得结果包括所对应的属性名称和最大的信息增益值,以键值对表示。
8.根据权利要求7所述的一种基于离散弱相关的云平台决策森林分类方法,其特征在于,所述步骤33)所得结果还包括各个云平台节点的分裂属性和分裂点,所述分裂属性和分裂点是通过以下方式得到的:调用Reduce函数统计包含属性名称和最大的信息增益值的各键值对,选择分裂值最优的属性值作为该节点的分裂属性和分裂点,所得结果包括分裂点编号和分裂规则,以键值对表示。
9.根据权利要求1所述的一种基于离散弱相关的云平台决策森林分类方法,其特征在于,所述步骤四具体包括以下步骤:
41)重复步骤三获得分类属性序列,并行化建立相应的决策树;
42)构建各云平台节点对应的决策树,当所有决策树构建完成后,获取每个节点上对应的键值,通过Reduce函数组合结果,生成云平台决策森林;
43)为待分类的数据集的每个决策树分配一个Map函数,统计各Map函数返回投票情况键值对,选择投票数目最多的那个类别作为决策森林的分类预测类别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510133866.4A CN104679911B (zh) | 2015-03-25 | 2015-03-25 | 一种基于离散弱相关的云平台决策森林分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510133866.4A CN104679911B (zh) | 2015-03-25 | 2015-03-25 | 一种基于离散弱相关的云平台决策森林分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104679911A CN104679911A (zh) | 2015-06-03 |
CN104679911B true CN104679911B (zh) | 2018-03-27 |
Family
ID=53314953
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510133866.4A Active CN104679911B (zh) | 2015-03-25 | 2015-03-25 | 一种基于离散弱相关的云平台决策森林分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104679911B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107292186B (zh) | 2016-03-31 | 2021-01-12 | 阿里巴巴集团控股有限公司 | 一种基于随机森林的模型训练方法和装置 |
CN107729555B (zh) * | 2017-11-07 | 2020-10-09 | 太原理工大学 | 一种海量大数据分布式预测方法及系统 |
CN110309587B (zh) * | 2019-06-28 | 2024-01-16 | 京东城市(北京)数字科技有限公司 | 决策模型构建方法、决策方法与决策模型 |
CN111695588B (zh) * | 2020-04-14 | 2021-03-23 | 北京迅达云成科技有限公司 | 一种基于云计算的分布式决策树学习系统 |
CN116933187B (zh) * | 2023-09-15 | 2023-12-19 | 北京中企导航科技有限公司 | 一种财务报销单据数字化处理方法及系统 |
CN117520965B (zh) * | 2024-01-04 | 2024-04-09 | 华洋通信科技股份有限公司 | 基于人工智能的工矿作业数据分类方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103593361A (zh) * | 2012-08-14 | 2014-02-19 | 中国科学院沈阳自动化研究所 | 感应网络环境下移动时空轨迹分析方法 |
CN104216889A (zh) * | 2013-05-30 | 2014-12-17 | 北大方正集团有限公司 | 基于云服务的数据传播性分析预测方法及系统 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7213023B2 (en) * | 2000-10-16 | 2007-05-01 | University Of North Carolina At Charlotte | Incremental clustering classifier and predictor |
US20040064450A1 (en) * | 2002-09-30 | 2004-04-01 | Kabushiki Kaisha Toshiba | Method for preparing data to be analyzed, data analysis method, data analysis device, data preparation program, data analysis program, data prediction device, data prediction method, data prediction program and computer |
-
2015
- 2015-03-25 CN CN201510133866.4A patent/CN104679911B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103593361A (zh) * | 2012-08-14 | 2014-02-19 | 中国科学院沈阳自动化研究所 | 感应网络环境下移动时空轨迹分析方法 |
CN104216889A (zh) * | 2013-05-30 | 2014-12-17 | 北大方正集团有限公司 | 基于云服务的数据传播性分析预测方法及系统 |
Non-Patent Citations (1)
Title |
---|
随机森林方法预测膜蛋白类型;袁敏等;《生物物理学报》;20091031;第25卷(第5期);349-354 * |
Also Published As
Publication number | Publication date |
---|---|
CN104679911A (zh) | 2015-06-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104679911B (zh) | 一种基于离散弱相关的云平台决策森林分类方法 | |
CN102411563B (zh) | 一种识别目标词的方法、装置及系统 | |
Priyam et al. | Comparative analysis of decision tree classification algorithms | |
CN111754345B (zh) | 一种基于改进随机森林的比特币地址分类方法 | |
CN106228398A (zh) | 基于c4.5决策树算法的特定用户挖掘系统及其方法 | |
CN106709754A (zh) | 一种用基于文本挖掘的电力用户分群方法 | |
CN105373606A (zh) | 一种改进c4.5决策树算法下的不平衡数据抽样方法 | |
CN107025228B (zh) | 一种问题推荐方法及设备 | |
CN106817248A (zh) | 一种apt攻击检测方法 | |
CN106599065A (zh) | 一种基于Storm分布式框架的食品安全网络舆情预警系统 | |
Minegishi et al. | Detection of fraud use of credit card by extended VFDT | |
Chandolikar et al. | Efficient algorithm for intrusion attack classification by analyzing KDD Cup 99 | |
US20220076279A1 (en) | Marketing engine based on traits and characteristics of prospective consumers | |
CN108667678A (zh) | 一种基于大数据的运维日志安全检测方法及装置 | |
Graham et al. | Finding and visualizing graph clusters using pagerank optimization | |
Minegishi et al. | Proposal of credit card fraudulent use detection by online-type decision tree construction and verification of generality | |
CN110097120B (zh) | 网络流量数据分类方法、设备及计算机存储介质 | |
Baswade et al. | A comparative study of k-means and weighted k-means for clustering | |
CN107832611B (zh) | 一种动静态特征结合的僵尸程序检测与分类方法 | |
CN111428821A (zh) | 一种基于决策树的资产分类方法 | |
CN103793504B (zh) | 一种基于用户偏好与项目属性的聚类初始点选择方法 | |
CN104462480A (zh) | 基于典型性的评论大数据挖掘方法 | |
CN109543711A (zh) | 一种基于id3算法的决策树生成方法 | |
CN107423438A (zh) | 一种基于pgm的问题分类方法 | |
CN110197066B (zh) | 一种云计算环境下的虚拟机监控方法及监控系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20210127 Address after: 430070 East Lake science and Technology Park, East Lake Development Zone, Wuhan, Hubei Patentee after: WUHAN LIGONG DIGITAL COMMUNICATIONS ENGINEERING Co.,Ltd. Address before: 430070 Hubei city of Wuhan province Luoshi Road No. 122, Wuhan University of Technology Patentee before: WUHAN University OF TECHNOLOGY |