CN105550374A - Spark云服务环境下面向大数据的随机森林并行机器学习方法 - Google Patents

Spark云服务环境下面向大数据的随机森林并行机器学习方法 Download PDF

Info

Publication number
CN105550374A
CN105550374A CN201610069166.8A CN201610069166A CN105550374A CN 105550374 A CN105550374 A CN 105550374A CN 201610069166 A CN201610069166 A CN 201610069166A CN 105550374 A CN105550374 A CN 105550374A
Authority
CN
China
Prior art keywords
random forest
data
training
dimension
characteristic variable
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610069166.8A
Other languages
English (en)
Inventor
唐卓
陈建国
李肯立
鲁彬
陈俊杰
肖锦波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan University
Original Assignee
Hunan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan University filed Critical Hunan University
Priority to CN201610069166.8A priority Critical patent/CN105550374A/zh
Publication of CN105550374A publication Critical patent/CN105550374A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种Spark云服务环境下面向大数据的随机森林并行机器学习方法,通过特征向量重要性分析对高维大数据降维处理,并采用加权投票方式进行预测;利用分布式内存管理机制、云计算平台,对随机森林训练过程模型构建、单棵决策树分裂过程以及预测投票等三层并行化进行改进。本发明通过特征向量重要性分析对高维大数据降维处理和采用加权投票方式进行预测,实现了随机森林的方法优化,提高了随机森林机器学习方法对复杂大数据的挖掘效果;在此基础上进行基于Spark云平台的随机森林并行化方法,提高了随机森林机器学习方法的运行效率。

Description

Spark云服务环境下面向大数据的随机森林并行机器学习方法
技术领域
本发明属于计算机领域,尤其涉及一种Spark云服务环境下面向大数据的随机森林并行机器学习方法。
背景技术
术语解释:
特征降维:进行图像或数据的特征提取的过程中,提取的特征维数太多经常会导致特征匹配时过于复杂,消耗系统资源,此时采用一个低纬度的特征来表示高纬度即为特征降维。
随着各种新型信息发布方式的不断涌现,以及云计算、物联网等技术的兴起,以及遍布地球各个角落的各种各样的传感器,数据正以前所未有的速度在不断地增长和累积,大数据时代已经来到。随着网络应用日益深化,大数据应用的价值越来越明显。海量数据里面蕴含着大量十分有价值的数据,要处理的数据量越来越大、而且还将更加快速地增长,同时业务需求和竞争压力对数据处理的实时性、有效性也提出了更高要求。传统的常规数据处理技术已无法应付,大数据带来了很多现实的难题。如何通过机器学习、数据挖掘等方法从这些大数据中更快速、更精确地挖掘出有价值的数据,是当今学术界和工业界研究的热点。为了解决这些难题,我们需要突破传统技术,根据大数据的特点进行新的技术变革。
在基于云计算平台的分布式数据挖掘方向的研究,已经得到了广泛地展开并且取得了大量优秀的成果。Hadoop是目前大数据平台中应用率最高的技术,特别是针对诸如文本、社交媒体订阅以及视频等非结构化数据。MapReduce采用shared-nothing架构设计,在执行Job时,各个Job之间是彼此隔离的,只能通过HDFS等部件进行交互,因此在各个任务间的全局同步或者状态的共享是一个很大的挑战。而在MapReduce在处理过程中,会将map中间的结果写入本地磁盘,然后再通过shuffle机制发送至reduce进行处理,因此也不适合需要大量的网络通讯任务。另外,MapReduce是一种批量处理架构,这也意味着它并不适合于实时或流式的数据访问,在处理联机事务处理(OLTP,OnLineTransactionProcessing)型任务时也显得力不从心。如何能避免MapReduce所带来的问题,同时又能充分利用其优越的海量数据处理能力,成为实践中重要的问题。
Spark是由UCBerkeleyAMPLab实验室于2009开发的开源数据分析集群计算框架,是BerkeleyDataAnalyticsStack(BDAS)中的核心项目,被设计用来完成交互式的数据分析任务。Spark提供了比Hadoop更为通用和灵活的操作接口。与Hadoop提供的Map和Reduce相比,Spark基于RDD抽象,提供的数据集操作类型更多。Spark允许将一份数据缓存在内存中,在同一份数据上迭代计算,因此,Spark更适合于迭代运算较多的机器学习或数据挖掘运算。RDD可以把数据cache到内存中,下一步操作直接从内存中输入,省去了MapReduce大量的磁盘IO操作,这对于迭代运算比较常见的机器学习方法来说,效率提升会相当大。
随机森林是一种集成学习的方法,它在高维大数据上面表现出不俗的效果。随机森林机器学习方法采用了特征子空间来构建模型,当数据中的噪声过多时,随机森林构建的分类器可能会包含噪声,集成这些噪声分类器进行分类预测可能会降低随机森林机器学习方法的整体分类效果。而将随机森林机器学习方法并行化可以提高随机森林机器学习方法的执行速度。
传统的分类方法在低维的小数据集上面可以取得比较理想的效果,但是当数据的结构变得复杂,数据的维度变高,数据的大小增大时,传统的分类方法的性能则会明显地下降。面对海量的大数据,传统分类方法在建模和预测的过程需要花费比较多的时间。因此,如何选择适合的模型,使随机森林机器学习方法在低维和高维的数据集上都能拥有较好的分类性能成为本发明的重点研究问题。
发明内容
为解决上述问题,本发明提供了一种Spark云服务环境下面向大数据的随机森林并行机器学习方法。本发明通过特征向量重要性分析对高维大数据降维处理,并采用加权投票方式进行预测,从以上两个方面实现随机森林的方法优化,有效提高随机森林机器学习方法对复杂大数据的挖掘效果;为了提高该方法的性能,在此基础上提出了基于Spark云平台的随机森林并行化方法,利用分布式内存管理机制、云计算平台,通过对随机森林训练过程模型构建、单棵决策树分裂过程以及预测投票等三层并行化进行改进,提高了随机森林机器学习方法的运行效率。
为达到上述技术效果,本发明的技术方案是:
一种Spark云服务环境下面向大数据的随机森林并行机器学习方法,包括如下步骤:
步骤一、使用随机森林模型进行训练过程得到训练完成的随机森林模型;训练过程中使用特征重要性分析方法进行训练集数据的特征降维处理;使训练集数据的特征从M维降低为m维,m<M;
步骤二、使用训练完成的随机森林模型对测试数据集进行预测过程得到预测结果;预测过程中使用特征重要性分析方法进行测试数据集数据的特征降维处理;使测试数据集数据的特征从M维降低为m维;
步骤三、将训练完成的随机森林模型中各个决策树模型的训练准确度作为预测投票的权值,对预测结果进行加权投票,得到最终的预测结果。
进一步的改进,所述步骤一包括如下步骤:
1.1、对数据的训练集进行放回抽样生成n个训练数据子集;n为自然数;使用随机森林模型对训练数据子集进行训练,在不同计算节点之间创建n个映射(Map)任务完成对训练数据子集的训练;
1.2、计算每棵决策树分裂过程中每一个特征变量的信息增益;
1.3、计算训练数据子集中每个特征变量的信息熵;
1.4、计算训练数据子集中每个特征变量的自信息;
1.5、计算出每个特征变量的信息增益率;
1.6、对训练数据子集的所有特征变量的重要性值进行降序排列,所述特征变量的重要性值为训练数据子集的特征变量的信息增益率占训练数据子集的全部特征变量的信息增益率之和的比例;选取前k个特征变量;再从剩下的M-k个特征中随机挑选m-k个特征,共同组成m个特征,将数据从M维降低为m维;得到训练完成的随机森林模型;
其中,M为数据降维前的维数;m为数据降维后的维数;K为自然数,k<m,m<M。
进一步的改进,所述步骤二包括如下步骤:
2.1、计算训练完成的随机森林模型中各个决策树的各个特征变量的信息增益率;
2.2、计算训练完成的随机森林模型中全部训练数据子集的各个特征变量的信息增益率;
2.3、计算测试数据集各个特征变量的测试数据集重要性值,测试数据集重要性值指:在测试数据集中每个测试数据集的特征变量的信息增益率占测试数据集的全部特征变量的信息增益率的比例;
2.4、对测试数据集的各个特征变量的测试数据集重要性值进行降序排列,选取测试数据集的前m个重要性值,将高维的测试数据集从M维降低为m维,其中,m<M。
进一步的改进,使用Tachyon分布式内存处理平台将数据加载到云服务平台中,利用分布式内存管理机制、云计算平台,使用机器学习方法进行随机森林模型在训练过程中的构建、单棵决策树分裂过程和预测投票过程,并分别进行并行化处理。
进一步的改进,所述云服务平台为Spark云服务平台;数据以弹性分布式数据集(RDD)对象的形式存储在Spark平台的Tachyon分布式内存系统中。
本发明的优点如下:
1.本发明针对大数据具有高维特征的问题,分别在训练过程和预测过程使用特征重要性分析的方法进行高维数据的特征降维处理,有效降低了方法的计算量和复杂度;针对大数据中存在大量噪声数据问题,采用加权投票的方式进行数据集预测和投票,降低含噪声数据比率较高的决策树分类器投票权重,提高含噪声数据比率较低的决策树分类器投标权重,减少噪声数据对数据分类投票结果的影响,提高随机森林机器学习方法对复杂大数据的分类准确度。
2.本发明在提高随机森林机器学习方法对复杂大数据的分类准确度的同时,将面向大数据的随机森林改进方法在Spark云平台中进行并行化实现,利用分布式内存管理机制、云计算平台,对随机森林训练过程模型构建、决策树训练过程,预测投票等三层并行化进行改进,提高随机森林机器学习方法的运行效率。
附图说明
图1为本发明所述方法的特征选择和降维过程示意图;
图2为本发明所述方法新型随机森林的结构图。
图3为本发明所述方法的基于Spark云服务环境下的新型随机森林并行机器学习方法结构图。
具体实施方式
下面将结合附图和实施例对本发明做进一步的说明。
实施例1
(1)针对大数据具有高维特征的问题,分别在训练过程和预测过程使用特征重要性分析的方法进行高维数据的特征降维处理,在效降低方法的计算量和复杂度。针对大数据中存在大量噪声数据问题,采用加权投票方式进行数据集预测和投票,减少噪声数据对数据分类投票结果的影响,提高随机森林机器学习方法对复杂大数据的分类准确度。
步骤1:随机森林模型训练过程中对训练数据的特征选择过程,其过程如图1所示。具体实现步骤如下:
步骤1.1:对高维大数据训练集进行有放回的抽样成n个训练数据子集;
步骤1.2:计算每棵决策树分裂过程中每一个特征变量的信息增益;
步骤1.3:计算该样本子集中每个特征变量的信息熵;
步骤1.4:计算训练样本集中每个特征变量的自信息;
步骤1.5:计算每个特征变量的特征变量的信息增益,为了克服训练过程中产生过似合现象,即使用信息增益选择特征变量时偏向选择取值较多的特征变量的问题,在此使用信息增益率来选择特征变量;
步骤1.6:最后,对各个特征变量的重要性值进行降序排列,并选取前k(k<<M,k<m)个重要性值最大的特征变量,然后从剩下的M-k个特征中随机挑选(m-k)个特征。共同组成m个特征,将高维数据从M维降低为m维。这里的特征重要性是指:在一个训练子集中,每个特征变量的重要性是指该特征变量的信息增益率占全部特征变量的信息增益率的比例。
步骤2:在数据预测过程中的面向高维大数据的特征降维过程,具体实现步骤如下:
步骤2.1:在对训练样本数据进行随机森林中的各个决策树训练过程完成之后,计算各个决策树的各个特征变量的加权信息增益率。
步骤2.2:计算整个随机森林模型中,全部训练样本数据的各个特征变量的加权信息增益率。
步骤2.3:计算各个特征的特征重要性,在训练集中,每个特征变量的重要性是指该特征变量的信息增益率占全部特征变量的信息增益率的比例。
步骤2.4:对各个特征变量的重要性值进行降序排列,选取测试数据集的前m(m<<M)个重要性值最大的特征变量,将高维的测试数据集从M维降低为m维。
步骤3:使用经过训练的随机森林模型对待测试数据进行预测,然后将随机森林中各个决策树模型的训练准确度作为其预测投票的权值,对预测结果进行加权投票,得到最终的预测结果。图2为新型随机森林并行机器学习方法的结构设计。
(2)为了提高本专利所提出的新型随机森林机器学习方法的运算性能,在此使用Spark云服务平台对该方法进行并行化实现。Spark云服务环境采用10台计算机节点组成,包括1台主节点和9台从节点。每台计算机节点的配置为IntelQuadCore2.66GHZCPU,8GB内存、Centos5.6Linux操作系统。所有计算机都通过高速光纤网络互连。ApacheSpark软件版本为1.1.0,方法采用R语言实现。
图3为本专利所公开的Spark云服务环境下面向大数据的新型随机森林并行机器学习方法原理图。具体实现步骤说明如下:
步骤1:加载大数据到Spark平台,在对大数据进行训练、预测和投票之前,需要先将这些数据加载到ApacheSpark平台中。我们将这些大数据集以RDD对象的形式存储在Spark平台的Tachyon内存系统中。
步骤2:随机森林训练过程中的并行化模型构建,当训练数据集加载到Tachyon系统之后,训练数据集被抽样成k个训练子集。在随机森林模型训练过程中,我们将在不同计算节点之间创建k个Map任务,用于完成这k个训练子集的模型训练任务。这k个Map任务将并行执行。
步骤2.1:在Map阶段,k个训练子集所对应的k棵决策树分类器将被训练构建。各棵决策树的分类准确度CAi(x)也会在partition阶段通过对各个训练子集的袋外数据集OOB测试结果计算得到。这些中间结果都被以RDD对象的方式存储在Tachyon内存系统中。
步骤2.2:在Reduce阶段,各个决策树分类器模型hi(x)及其分类准确度CAi(x)将被合并计算,并返回最终的随机森林模型。
步骤3:加载测试数据到Spark平台的Tachyon内存系统中。
步骤4:在预测和投票之前,首先需要将已经训练完成的随机森林模型部署到Spark平台的相应计算节点上。
步骤5:针对每个测试数据,每一个测试数据都需要经过随机森林模型的k个决策树分类器进行预测,并产生相应的预测结果。本步骤对这k个预测过程进行并行化,使k棵决策树同时在k个计算节点中进行预测。
以上实例的说明只是用于帮助理解本发明的核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (5)

1.一种Spark云服务环境下面向大数据的随机森林并行机器学习方法,其特征在于,包括如下步骤:
步骤一、使用随机森林模型进行训练过程得到训练完成的随机森林模型;训练过程中使用特征重要性分析方法进行训练集数据的特征降维处理;使训练集数据的特征从M维降低为m维,m<M;
步骤二、使用训练完成的随机森林模型对测试数据集进行预测过程得到预测结果;预测过程中使用特征重要性分析方法进行测试数据集数据的特征降维处理;使测试数据集数据的特征从M维降低为m维;
步骤三、将训练完成的随机森林模型中各个决策树模型的训练准确度作为预测投票的权值,对预测结果进行加权投票,得到最终的预测结果。
2.如权利要求1所述的Spark云服务环境下面向大数据的随机森林并行机器学习方法,其特征在于,所述步骤一包括如下步骤:
1.1、对数据的训练集进行放回抽样生成n个训练数据子集;n为自然数;使用随机森林模型对训练数据子集进行训练,在不同计算节点之间创建n个映射(Map)任务完成对训练数据子集的训练;
1.2、计算每棵决策树分裂过程中每一个特征变量的信息增益;
1.3、计算训练数据子集中每个特征变量的信息熵;
1.4、计算训练数据子集中每个特征变量的自信息;
1.5、计算出每个特征变量的信息增益率;
1.6、对训练数据子集的所有特征变量的重要性值进行降序排列,所述特征变量的重要性值为训练数据子集的特征变量的信息增益率占训练数据子集的全部特征变量的信息增益率之和的比例;选取前k个特征变量;再从剩下的M-k个特征中随机挑选m-k个特征,共同组成m个特征,将数据从M维降低为m维;得到训练完成的随机森林模型;
其中,M为数据降维前的维数;m为数据降维后的维数;K为自然数,k<m,m<M。
3.如权利要求2所述的Spark云服务环境下面向大数据的随机森林并行机器学习方法,其特征在于,所述步骤二包括如下步骤:
2.1、计算训练完成的随机森林模型中各个决策树的各个特征变量的信息增益率;
2.2、计算训练完成的随机森林模型中全部训练数据子集的各个特征变量的信息增益率;
2.3、计算测试数据集各个特征变量的测试数据集重要性值,测试数据集重要性值指:在测试数据集中每个测试数据集的特征变量的信息增益率占测试数据集的全部特征变量的信息增益率的比例;
2.4、对测试数据集的各个特征变量的测试数据集重要性值进行降序排列,选取测试数据集的前m个重要性值,将高维的测试数据集从M维降低为m维,其中,m<M。
4.如权利要求1所述的Spark云服务环境下面向大数据的随机森林并行机器学习方法,其特征在于,使用Tachyon分布式内存处理平台将数据加载到云服务平台中,利用分布式内存管理机制、云计算平台,使用机器学习方法进行随机森林模型在训练过程中的构建、单棵决策树分裂过程和预测投票过程,并分别进行并行化处理。
5.如权利要求4所述的Spark云服务环境下面向大数据的随机森林并行机器学习方法,其特征在于,所述云服务平台为Spark云服务平台;数据以弹性分布式数据集对象的形式存储在Spark平台的Tachyon分布式内存系统中。
CN201610069166.8A 2016-01-29 2016-01-29 Spark云服务环境下面向大数据的随机森林并行机器学习方法 Pending CN105550374A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610069166.8A CN105550374A (zh) 2016-01-29 2016-01-29 Spark云服务环境下面向大数据的随机森林并行机器学习方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610069166.8A CN105550374A (zh) 2016-01-29 2016-01-29 Spark云服务环境下面向大数据的随机森林并行机器学习方法

Publications (1)

Publication Number Publication Date
CN105550374A true CN105550374A (zh) 2016-05-04

Family

ID=55829563

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610069166.8A Pending CN105550374A (zh) 2016-01-29 2016-01-29 Spark云服务环境下面向大数据的随机森林并行机器学习方法

Country Status (1)

Country Link
CN (1) CN105550374A (zh)

Cited By (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106056427A (zh) * 2016-05-25 2016-10-26 中南大学 一种基于Spark的大数据混合模型的移动推荐方法
CN106250461A (zh) * 2016-07-28 2016-12-21 北京北信源软件股份有限公司 一种基于Spark框架利用梯度提升决策树进行数据挖掘的算法
CN106446208A (zh) * 2016-09-30 2017-02-22 东南大学 一种考虑路网契合度的智能手机出行方式识别方法
CN106648654A (zh) * 2016-12-20 2017-05-10 深圳先进技术研究院 一种数据感知的Spark配置参数自动优化方法
CN106777006A (zh) * 2016-12-07 2017-05-31 重庆邮电大学 一种基于Spark下并行超网络的分类算法
CN106874478A (zh) * 2017-02-17 2017-06-20 重庆邮电大学 基于Spark的并行化随机标签子集多标签文本分类方法
CN107133103A (zh) * 2017-05-05 2017-09-05 第四范式(北京)技术有限公司 用于数据流式计算的内存管理系统及其方法
CN107193900A (zh) * 2017-05-10 2017-09-22 上海交通大学 一种可疑手机短信的识别系统及其使用方法
CN107577943A (zh) * 2017-09-08 2018-01-12 北京奇虎科技有限公司 基于机器学习的样本预测方法、装置及服务器
CN107665291A (zh) * 2017-09-27 2018-02-06 华南理工大学 一种基于云计算平台Spark的变异检测方法
CN107894827A (zh) * 2017-10-31 2018-04-10 广东欧珀移动通信有限公司 应用清理方法、装置、存储介质及电子设备
CN108090216A (zh) * 2017-12-29 2018-05-29 咪咕文化科技有限公司 一种标签预测方法、装置及存储介质
CN108509727A (zh) * 2018-03-30 2018-09-07 深圳市智物联网络有限公司 数据建模中的模型选择处理方法及装置
CN108537341A (zh) * 2017-02-21 2018-09-14 谷歌有限责任公司 非标量数据的大数据集的约简和广播操作的并行处理
CN108549343A (zh) * 2018-04-27 2018-09-18 湖南文理学院 一种基于大数据的运动控制系统及控制方法
CN108549741A (zh) * 2018-03-07 2018-09-18 上海交通大学 盾构机主轴承密封性能健康评估方法与系统
CN109144733A (zh) * 2018-09-06 2019-01-04 北京京东尚科信息技术有限公司 基于Alluxio的数据处理方法及系统
CN109472610A (zh) * 2018-11-09 2019-03-15 福建省农村信用社联合社 一种银行交易反欺诈方法及系统、设备和存储介质
CN109543203A (zh) * 2017-09-22 2019-03-29 山东建筑大学 一种基于随机森林的建筑冷热负荷预测方法
CN109840551A (zh) * 2019-01-14 2019-06-04 湖北工业大学 一种用于机器学习模型训练的优化随机森林参数的方法
CN110046048A (zh) * 2019-04-18 2019-07-23 杭州电子科技大学 一种基于工作量自适应快速重分配的负载均衡方法
CN110175191A (zh) * 2019-05-14 2019-08-27 复旦大学 数据分析中的数据过滤规则建模方法
CN110263059A (zh) * 2019-05-24 2019-09-20 湖南大学 Spark-Streaming中间数据分区方法、装置、计算机设备和存储介质
CN110276367A (zh) * 2018-03-16 2019-09-24 株式会社理光 学习分类装置和学习分类方法
CN110472747A (zh) * 2019-08-16 2019-11-19 第四范式(北京)技术有限公司 用于执行多机器学习任务的分布式系统及其方法
CN110705683A (zh) * 2019-10-12 2020-01-17 腾讯科技(深圳)有限公司 随机森林模型的构造方法、装置、电子设备及存储介质
CN110909793A (zh) * 2019-11-21 2020-03-24 华中科技大学 一种基于fpga实现的决策森林系统及决策森林推理方法
US20200160225A1 (en) * 2017-07-28 2020-05-21 Beijing Didi Infinity Technology And Development Co., Ltd. Systems and methods for determining estimated time of arrival
CN111352926A (zh) * 2018-12-20 2020-06-30 北京沃东天骏信息技术有限公司 数据处理的方法、装置、设备及可读存储介质
CN112329877A (zh) * 2020-11-16 2021-02-05 山西三友和智慧信息技术股份有限公司 一种基于投票机制的web服务分类方法及系统
CN112418311A (zh) * 2020-11-21 2021-02-26 安徽理工大学 一种通信网络风险评估的分布式随机森林方法
CN113125960A (zh) * 2019-12-31 2021-07-16 河北工业大学 一种基于随机森林模型的车载锂离子电池荷电状态预测方法
US11625640B2 (en) * 2018-10-05 2023-04-11 Cisco Technology, Inc. Distributed random forest training with a predictor trained to balance tasks
US11715010B2 (en) 2019-08-16 2023-08-01 Google Llc Cross replica reduction on networks having degraded nodes

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
倪春鹏: "决策树在数据挖掘中若干问题的研究", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 *
范炜玮 等: "大数据处理平台Spark及其生物医学应用", 《中国中医药图书情报杂志》 *
贺捷: "随机森林在文本分类中的应用", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Cited By (53)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106056427A (zh) * 2016-05-25 2016-10-26 中南大学 一种基于Spark的大数据混合模型的移动推荐方法
CN106250461A (zh) * 2016-07-28 2016-12-21 北京北信源软件股份有限公司 一种基于Spark框架利用梯度提升决策树进行数据挖掘的算法
CN106446208B (zh) * 2016-09-30 2019-07-26 东南大学 一种考虑路网契合度的智能手机出行方式识别方法
CN106446208A (zh) * 2016-09-30 2017-02-22 东南大学 一种考虑路网契合度的智能手机出行方式识别方法
CN106777006B (zh) * 2016-12-07 2020-10-23 重庆邮电大学 一种基于Spark下并行超网络的分类方法
CN106777006A (zh) * 2016-12-07 2017-05-31 重庆邮电大学 一种基于Spark下并行超网络的分类算法
CN106648654A (zh) * 2016-12-20 2017-05-10 深圳先进技术研究院 一种数据感知的Spark配置参数自动优化方法
CN106874478A (zh) * 2017-02-17 2017-06-20 重庆邮电大学 基于Spark的并行化随机标签子集多标签文本分类方法
US11551138B2 (en) 2017-02-21 2023-01-10 Google Llc Parallel processing of reduction and broadcast operations on large datasets of non-scalar data
CN108537341B (zh) * 2017-02-21 2020-11-06 谷歌有限责任公司 非标量数据的大数据集的约简和广播操作的并行处理
CN108537341A (zh) * 2017-02-21 2018-09-14 谷歌有限责任公司 非标量数据的大数据集的约简和广播操作的并行处理
CN107133103A (zh) * 2017-05-05 2017-09-05 第四范式(北京)技术有限公司 用于数据流式计算的内存管理系统及其方法
CN107133103B (zh) * 2017-05-05 2019-01-01 第四范式(北京)技术有限公司 用于数据流式计算的内存管理系统及其方法
CN107193900A (zh) * 2017-05-10 2017-09-22 上海交通大学 一种可疑手机短信的识别系统及其使用方法
US20200160225A1 (en) * 2017-07-28 2020-05-21 Beijing Didi Infinity Technology And Development Co., Ltd. Systems and methods for determining estimated time of arrival
US11580451B2 (en) 2017-07-28 2023-02-14 Beijing Didi Infinity Technology And Development Co., Ltd. Systems and methods for determining estimated time of arrival
CN107577943A (zh) * 2017-09-08 2018-01-12 北京奇虎科技有限公司 基于机器学习的样本预测方法、装置及服务器
CN109543203A (zh) * 2017-09-22 2019-03-29 山东建筑大学 一种基于随机森林的建筑冷热负荷预测方法
CN109543203B (zh) * 2017-09-22 2023-04-18 山东建筑大学 一种基于随机森林的建筑冷热负荷预测方法
CN107665291A (zh) * 2017-09-27 2018-02-06 华南理工大学 一种基于云计算平台Spark的变异检测方法
CN107665291B (zh) * 2017-09-27 2020-05-22 华南理工大学 一种基于云计算平台Spark的变异检测方法
CN107894827B (zh) * 2017-10-31 2020-07-07 Oppo广东移动通信有限公司 应用清理方法、装置、存储介质及电子设备
CN107894827A (zh) * 2017-10-31 2018-04-10 广东欧珀移动通信有限公司 应用清理方法、装置、存储介质及电子设备
CN108090216A (zh) * 2017-12-29 2018-05-29 咪咕文化科技有限公司 一种标签预测方法、装置及存储介质
CN108549741A (zh) * 2018-03-07 2018-09-18 上海交通大学 盾构机主轴承密封性能健康评估方法与系统
CN110276367A (zh) * 2018-03-16 2019-09-24 株式会社理光 学习分类装置和学习分类方法
CN110276367B (zh) * 2018-03-16 2024-02-09 株式会社理光 学习分类装置和学习分类方法
CN108509727B (zh) * 2018-03-30 2022-04-08 深圳市智物联网络有限公司 数据建模中的模型选择处理方法及装置
CN108509727A (zh) * 2018-03-30 2018-09-07 深圳市智物联网络有限公司 数据建模中的模型选择处理方法及装置
CN108549343A (zh) * 2018-04-27 2018-09-18 湖南文理学院 一种基于大数据的运动控制系统及控制方法
CN108549343B (zh) * 2018-04-27 2020-11-27 湖南文理学院 一种基于大数据的运动控制系统及控制方法
CN109144733A (zh) * 2018-09-06 2019-01-04 北京京东尚科信息技术有限公司 基于Alluxio的数据处理方法及系统
US11625640B2 (en) * 2018-10-05 2023-04-11 Cisco Technology, Inc. Distributed random forest training with a predictor trained to balance tasks
CN109472610A (zh) * 2018-11-09 2019-03-15 福建省农村信用社联合社 一种银行交易反欺诈方法及系统、设备和存储介质
CN111352926A (zh) * 2018-12-20 2020-06-30 北京沃东天骏信息技术有限公司 数据处理的方法、装置、设备及可读存储介质
CN111352926B (zh) * 2018-12-20 2024-03-08 北京沃东天骏信息技术有限公司 数据处理的方法、装置、设备及可读存储介质
CN109840551B (zh) * 2019-01-14 2022-03-15 湖北工业大学 一种用于机器学习模型训练的优化随机森林参数的方法
CN109840551A (zh) * 2019-01-14 2019-06-04 湖北工业大学 一种用于机器学习模型训练的优化随机森林参数的方法
CN110046048A (zh) * 2019-04-18 2019-07-23 杭州电子科技大学 一种基于工作量自适应快速重分配的负载均衡方法
CN110046048B (zh) * 2019-04-18 2021-09-28 杭州电子科技大学 一种基于工作量自适应快速重分配的负载均衡方法
CN110175191B (zh) * 2019-05-14 2023-06-27 复旦大学 数据分析中的数据过滤规则建模方法
CN110175191A (zh) * 2019-05-14 2019-08-27 复旦大学 数据分析中的数据过滤规则建模方法
CN110263059A (zh) * 2019-05-24 2019-09-20 湖南大学 Spark-Streaming中间数据分区方法、装置、计算机设备和存储介质
CN110263059B (zh) * 2019-05-24 2021-05-11 湖南大学 Spark-Streaming中间数据分区方法、装置、计算机设备和存储介质
CN110472747A (zh) * 2019-08-16 2019-11-19 第四范式(北京)技术有限公司 用于执行多机器学习任务的分布式系统及其方法
US11715010B2 (en) 2019-08-16 2023-08-01 Google Llc Cross replica reduction on networks having degraded nodes
CN110705683B (zh) * 2019-10-12 2021-06-29 腾讯科技(深圳)有限公司 随机森林模型的构造方法、装置、电子设备及存储介质
CN110705683A (zh) * 2019-10-12 2020-01-17 腾讯科技(深圳)有限公司 随机森林模型的构造方法、装置、电子设备及存储介质
CN110909793B (zh) * 2019-11-21 2022-05-31 华中科技大学 一种基于fpga实现的决策森林系统及决策森林推理方法
CN110909793A (zh) * 2019-11-21 2020-03-24 华中科技大学 一种基于fpga实现的决策森林系统及决策森林推理方法
CN113125960A (zh) * 2019-12-31 2021-07-16 河北工业大学 一种基于随机森林模型的车载锂离子电池荷电状态预测方法
CN112329877A (zh) * 2020-11-16 2021-02-05 山西三友和智慧信息技术股份有限公司 一种基于投票机制的web服务分类方法及系统
CN112418311A (zh) * 2020-11-21 2021-02-26 安徽理工大学 一种通信网络风险评估的分布式随机森林方法

Similar Documents

Publication Publication Date Title
CN105550374A (zh) Spark云服务环境下面向大数据的随机森林并行机器学习方法
CN105740424A (zh) 一种基于 Spark 平台的高效率文本分类方法
CN106528874B (zh) 基于Spark内存计算大数据平台的CLR多标签数据分类方法
Han et al. Spark: A big data processing platform based on memory computing
CN106874478A (zh) 基于Spark的并行化随机标签子集多标签文本分类方法
CN103488662A (zh) 基于图形处理单元的自组织映射神经网络聚类方法及系统
Wang et al. Scale adaptive fitness evaluation‐based particle swarm optimisation for hyperparameter and architecture optimisation in neural networks and deep learning
Chen et al. MR-ELM: a MapReduce-based framework for large-scale ELM training in big data era
JP2019212243A (ja) 学習識別装置および学習識別方法
CN109871809A (zh) 一种基于语义网的机器学习流程智能组装方法
Zhao et al. A short-term hybrid wind power prediction model based on singular spectrum analysis and temporal convolutional networks
CN104199870A (zh) 基于混沌搜索的ls-svm预测模型的建立方法
Yuan An anomaly data mining method for mass sensor networks using improved PSO algorithm based on spark parallel framework
He et al. Filter pruning via feature discrimination in deep neural networks
Zhou et al. LightAdam: Towards a fast and accurate adaptive momentum online algorithm
Guo et al. Detecting communities in social networks by local affinity propagation with grey relational analysis
Zhao et al. Exploration across small silos: Federated few-shot learning on network edge
Liu et al. A MapReduce based high performance neural network in enabling fast stability assessment of power systems
He et al. ECS-SC: Long-tailed classification via data augmentation based on easily confused sample selection and combination
Wen et al. Challenges and Opportunities of Building Fast GBDT Systems.
Cui Modeling of ideological and political education system in colleges and universities based on naive bayes-BP neural network in the era of big data
Cao Dynamic Allocation Method of Economic Information Integrated Data Based on Deep Learning Algorithm
Zhang et al. Graph Attention Network Fraud Detection Based On Feature Aggregation
Song et al. HTME: A data streams processing strategy based on Hoeffding tree in MapReduce environment
CN117707742B (zh) 基于负载预测的能耗均衡作业调度方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination