CN106250461A - 一种基于Spark框架利用梯度提升决策树进行数据挖掘的算法 - Google Patents

一种基于Spark框架利用梯度提升决策树进行数据挖掘的算法 Download PDF

Info

Publication number
CN106250461A
CN106250461A CN201610607692.5A CN201610607692A CN106250461A CN 106250461 A CN106250461 A CN 106250461A CN 201610607692 A CN201610607692 A CN 201610607692A CN 106250461 A CN106250461 A CN 106250461A
Authority
CN
China
Prior art keywords
data
data set
decision tree
tree
carry out
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610607692.5A
Other languages
English (en)
Inventor
胡建斌
高洪涛
白志凌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing VRV Software Corp Ltd
Original Assignee
Beijing VRV Software Corp Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing VRV Software Corp Ltd filed Critical Beijing VRV Software Corp Ltd
Priority to CN201610607692.5A priority Critical patent/CN106250461A/zh
Publication of CN106250461A publication Critical patent/CN106250461A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2134Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on separation criteria, e.g. independent component analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于Spark框架利用梯度提升决策树进行数据挖掘的算法,该算法步骤如下:(1)原始数据分布式存储于Hadoop平台的分布式文件系统HDFS上并分配成n个数据集;(2)每个数据集降维处理,抽取出最重要的特征向量,将特征维度从M降低到m,m<M;(3)降维后的数据集采用随机采样方式,按照3:1的比例划分为训练数据集和测试数据集;(4)对训练数据集采用梯度提升决策树迭代优化,选择损失函数最小的决策树模型为该数据集的最优模型;(5)优化后的决策树模型加权平均获得最终的梯度提升决策树模型;(6)利用(5)步的梯度提升决策树模型对各组数据集中的测试数据进行预测,确定模型的准确性并实现数据挖掘。本申请的方法压缩了原始数据量,降低了计算量,简化了运算复杂度,提高了计算效率和可靠性,实现了数据高效提取和利用。

Description

一种基于Spark框架利用梯度提升决策树进行数据挖掘的 算法
技术领域
本申请的技术属于网络数据分析及挖掘算法领域,特别是涉及基于Spark框架利用梯度提升决策树进行数据挖掘的方法以实现数据高效提取和利用。
背景技术
数据挖掘又称数据库中的知识发现,是指从大量的不完全的、有噪声的、模糊的数据中提取隐含的、未知的、非平凡的及有潜在应用价值的信息或模式,融合了数据库、人工智能、机器学习、统计学等多个领域的理论和技术。数据挖掘工具能够对将来的趋势和行为进行预测,从而很好地支持人们的决策。数据挖掘的一个重要功能是数据分类,数据分类是指将数据映射到预先定义好的群组或类,目前常用的分类方法为基于决策树的方法。用决策树进行分类,生成规则易于理解并且高效。由于树的规模独立于数据库规模,所以决策树对于大规模数据库具有很好的扩展性。决策树是以实例为基础的归纳学习算法,它从一组无次序、无规则的元组中推理出决策树表示形式的分类规则,采用自顶向下的递归方式,在决策树的内部节点进行属性值的比较,并根据不同的属性值从该节点向下分支,叶节点是要学习划分的类。决策树中叶子节点代表实例样本所属的分类类别。树上的每一个非叶子节点指定了对实例的某个决策属性的测试,并且该节点的每一个后继分支对应于该决策属性的一个可能值,从根到叶节点的一条路径就对应着一条合取规则,整个决策数就对应着一组析取表达式规则。
用决策树进行分类主要包括两个步骤:第一步是利用训练集生成一棵决策树,建立决策树模型,这个过程实际上是一个从数据中获取知识,进行机器学习的过程;第二步是利用生成的决策树对输入数据进行分类,对输入的纪录,从根节点依次测试记录的属性值,直到到达某个叶子节点,从而找到该记录所在的类。基本的决策树生成方法是通过自顶向下增长节点实现的,其核心是为每个节点选取能最佳分类当前数据集的属性,成为该节点的决策属性。
Spark是一个Apache项目,它被标榜为“快如闪电的集群计算”。它拥有一个繁荣的开源社区,并且是目前最活跃的Apache项目。Spark提供了一个更快、更通用的数据处理平台。和Hadoop相比,Spark可以让你的程序在内存中运行时速度提升100倍,或者在磁盘上运行时速度提升10倍。Spark是一个基于内存计算的开源的集群计算系统,目的是让数据分析更加快速,Spark是一种与Hadoop相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使Spark在某些工作负载方面表现得更加优越,换句话说,Spark启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。
梯度提升决策树是一种集成学习的方法,它在高维、大数据上表现出不俗的效果。梯度提升决策树方法采用了特征子空间来构建模型,当数据中的噪声过多时,梯度提升决策树的回归器可能会包含噪声,这些噪声会影响回归效果,并进一步降低整体预测的准确度。
高维数、海量数据的处理和挖掘是目前数据分析中的难点,本技术方案就是借鉴梯度提升决策树在处理数据中的优势,采用降维方式将数据维数降低实现提高数据分析的效率和准确度。
发明内容
本申请技术方案的目的在于针对高维、海量数据的分析困难,提出一种基于Spark框架下面向大数据采用梯度提升决策树并行实现数据挖掘的算法。该方法中通过对特征向量的分析,采用主成分分析的方法,实现了数据特征降维处理,提高梯度提升决策树挖掘算法的计算效率,从而实现了应对高维、复杂、海量数据的挖掘能力。
实现上述发明目的的基于Spark框架利用梯度提升决策树进行数据挖掘的算法采用如下技术方案:一种基于Spark框架利用梯度提升决策树进行数据挖掘的算法,该算法包括如下步骤:(1)将原始海量数据分布式存储于Hadoop平台的分布式文件系统HDFS上并分配成n个数据集;(2)每个数据集降维处理,抽取出最重要的特征向量,数据集数据的特征维度从M降低到m,m<M;(3)降维后的数据集采用随机采样方式,按照数据量3:1的比例划分为训练数据集和测试数据集;(4)对训练数据集数据采用梯度提升决策树进行迭代优化,选择损失函数最小的决策树模型为该数据集的最优模型;(5)对每个数据集优化得到的决策树模型进行加权平均获得最终的梯度提升决策树模型;(6)利用(5)步的梯度提升决策树模型对各组数据集中的测试数据进行预测,确定该模型的准确性并实现数据挖掘。
上述步骤(2)中采用主成分分析法进行数据特征量降维处理。抽取最重要的特征向量,把数据集特征维度从M降低到m,实现优化数据模型的挖掘效率和模型训练效果,后续计算大大提高了运算效率,降低了复杂度,同时提高了预测准确度。
步骤(1)中所分配成n个数据集在不同的节点上平行进行分析处理。步骤(4)中采用内存计算框架Spark进行迭代运算,并通过此分布式计算框架将运算算法推送到分布式集群的每个数据节点的数据集上,对每个节点上的数据集进行本地逻辑运算。通过上述分布式计算框架,将挖掘算法推送到分布式集群的每个数据节点上,每个节点上的数据集进行本地逻辑运算,各个节点通过并行运算的方式提高运算效率,然后,对各个计算结果进行汇总,得到最终结果。
上述步骤(4)中利用梯度提升决策树对训练数据集进行训练,设置迭代次数n,经过n次迭代计算,从而得到一个梯度提升决策树模型。每一次建立模型是在之前建立模型损失函数的梯度下降方向。而损失函数(loss function)描述的是模型的不靠谱程度,损失函数越大,则说明模型越容易出错。通过损失函数持续的下降,表明模型在不断的改进,最好的方式就是让损失函数在其梯度(Gradient)的方向上下降。梯度提升决策树是建立多颗树,其决策的过程也是所有树输出结果的加权平均。上述关键优化过程包括:a、对每个决策树模型进行均方根误差计算,并以此对模型进行加权平均;b、当前树的建立是基于前面所有树的建立的,并以此迭代计算,直至达到最终设置的迭代次数。
本申请的算法应用梯度提升决策树在迭代过程中,引入均方根误差加强平均法,提高了信噪比,降低了噪音数据,提高了数据挖掘算法的效果,使模型准确度有了极大提高。待挖掘和分析的数据集存放于分布式文件系统,对整个大数据采用分而治之的策略,使挖掘运算得以并行化运行,简化了算法复杂度,提高了运算速度。梯度提升决策树在内存计算框架Spark上的使用,充分利用了其内存管理机制、运算优化机制和计算容错机制,不但提高了挖掘算法的运行效率,更提高可靠性。
附图说明
图1是本申请的基于Spark框架利用梯度提升决策树进行数据挖掘的算法流程图。
具体实施方式
为更清楚说明本发明技术方案,下面参考图1进行具体实施方式介绍。首先,本方案采用Hadoop分布式系统+Spark内存计算框架,大数据集群组成如下:客户端服务器1台,数据节点服务器24台,其它辅助服务器5台,共计30台服务器。每台数据节点服务器配置如下:2颗Intel(R)Xeon(R)CPU E5-2620v2@2.10GHz,96GB DDR3ECC内存,12块2T SATA盘,2个万兆网口,Centos6.4 64位Linux操作系统。软件系统如下:Apache Hadoop 2.60,Spark1.60,编程语言为Scala。
首先将数据存储于分布式文件系统平台,均匀分布于n个数据节点;采用独立成分分析的方法对每个数据节点上数据集进行降维处理;降维后的每个节点上的数据按照数量3:1的比例划分为训练数据集和测试数据集,从而生成n个训练数据集;随后将每个数据集中的训练数据输入梯度提升决策树计算公式进行训练,选择损失函数最小的决策树模型为该数据集的最优模型,从而得到每个节点上的决策树模型,其具体实现过程是将24个训练数据集在加载到Spark中时,将根据本地数据块的大小,自动映射成n个RDD对象;RDD对象输入梯度提升决策树算法,通过Pipelining技术进行优化执行方案,将整个执行流程分解为多个阶段(Stage);将每个阶段的工作根据RDD对象的数量,进一步分解为相同数量的子任务数;通过资源调度器,将各个子任务分配到数据节点上;数据节点在本地执行具体的计算任务,得到计算模型;在完成上述每个节点上的数据训练得到决策树模型后,对每个数据集优化后得到的决策树模型进行加权平均获得最终的梯度提升决策树模型;最后利用梯度提升决策树模型对测试数据进行预测,根据预测结果,计算模型预测准确度。
本发明采用主成分分析的算法对高维数据特征进行降维处理,不但压缩了原始数据量,降低了计算量,而且大大降低了运算复杂度,提高了计算效率。梯度提升决策树在迭代过程中,引入均方根误差加强平均法,提高了信噪比,降低了噪音数据,提高了数据挖掘算法的效果,使模型准确度有了极大提高。数据集存放于分布式文件系统,对整个大数据采用分而治之的策略,使挖掘运算得以并行化运行,简化了算法复杂度,提高了运算速度。梯度提升决策树在内存计算框架Spark上的使用,充分利用了其内存管理机制、运算优化机制和计算容错机制,不但提高了挖掘算法的运行效率,更提高可靠性。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明实质内容上所作的任何修改、等同替换和简单改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种基于Spark框架利用梯度提升决策树进行数据挖掘的算法,其特征在于,该算法包括如下步骤:(1)将原始海量数据分布式存储于Hadoop平台的分布式文件系统HDFS上并分配成n个数据集;(2)每个数据集降维处理,抽取出最重要的特征向量,数据集数据的特征维度从M降低到m,m<M;(3)降维后的数据集采用随机采样方式,按照数据量3:1的比例划分为训练数据集和测试数据集;(4)对训练数据集数据采用梯度提升决策树进行迭代优化,选择损失函数最小的决策树模型为该数据集的最优模型;(5)对每个数据集优化后得到的决策树模型进行加权平均获得最终的梯度提升决策树模型;(6)利用(5)步的梯度提升决策树模型对各组数据集中的测试数据进行预测,确定该模型的准确性并实现数据挖掘。
2.根据权利要求1所述的基于Spark框架利用梯度提升决策树进行数据挖掘的算法,其特征在于,步骤(1)中所分配成n个数据集在不同的节点上平行进行分析处理。
3.根据权利要求1所述的基于Spark框架利用梯度提升决策树进行数据挖掘的算法,其特征在于,步骤(4)中迭代优化的方向是模型沿损失函数的梯度下降方向。
4.根据权利要求3所述的基于Spark框架利用梯度提升决策树进行数据挖掘的算法,其特征在于,步骤(4)中采用内存计算框架Spark进行迭代运算,并通过此分布式计算框架将运算算法推送到分布式集群的每个数据节点的数据集上,对每个节点上的数据集进行本地逻辑运算。
5.根据权利要求4所述的基于Spark框架利用梯度提升决策树进行数据挖掘的算法,其特征在于,内存计算框架Spark在迭代运算中利用Spark弹性分布式数据集(RDD)的管道化技术(Pipelining)对运算逻辑进行优化。
6.根据权利要求4所述的基于Spark框架利用梯度提升决策树进行数据挖掘的算法,其特征在于,管道化技术(Pipelining)对运算逻辑进行优化是将整个执行流程分解为多个阶段(Stage)实现的过程。
7.根据权利要求1所述的基于Spark框架利用梯度提升决策树进行数据挖掘的算法,其特征在于,步骤(2)中采用主成分分析法进行数据特征量降维处理。
CN201610607692.5A 2016-07-28 2016-07-28 一种基于Spark框架利用梯度提升决策树进行数据挖掘的算法 Pending CN106250461A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610607692.5A CN106250461A (zh) 2016-07-28 2016-07-28 一种基于Spark框架利用梯度提升决策树进行数据挖掘的算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610607692.5A CN106250461A (zh) 2016-07-28 2016-07-28 一种基于Spark框架利用梯度提升决策树进行数据挖掘的算法

Publications (1)

Publication Number Publication Date
CN106250461A true CN106250461A (zh) 2016-12-21

Family

ID=57603557

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610607692.5A Pending CN106250461A (zh) 2016-07-28 2016-07-28 一种基于Spark框架利用梯度提升决策树进行数据挖掘的算法

Country Status (1)

Country Link
CN (1) CN106250461A (zh)

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107038244A (zh) * 2017-04-24 2017-08-11 北京北信源软件股份有限公司 一种数据挖掘方法和装置、一种可读介质和存储控制器
CN107622086A (zh) * 2017-08-16 2018-01-23 北京京东尚科信息技术有限公司 一种点击率预估方法和装置
CN108733631A (zh) * 2018-04-09 2018-11-02 中国平安人寿保险股份有限公司 一种数据评估方法、装置、终端设备及存储介质
CN108764273A (zh) * 2018-04-09 2018-11-06 中国平安人寿保险股份有限公司 一种数据处理的方法、装置、终端设备及存储介质
CN108829776A (zh) * 2018-05-30 2018-11-16 大连理工大学 一种基于梯度提升树的慕课论坛主题分类方法
CN108829517A (zh) * 2018-05-31 2018-11-16 中国科学院计算技术研究所 一种用于在集群环境下进行机器学习的训练方法和系统
CN108873829A (zh) * 2018-05-28 2018-11-23 上海新增鼎数据科技有限公司 一种基于梯度提升决策树的磷酸生产参数控制方法
CN108921188A (zh) * 2018-05-23 2018-11-30 重庆邮电大学 一种基于Spark大数据平台的并行CRF算法
CN109033460A (zh) * 2018-08-30 2018-12-18 优视科技新加坡有限公司 一种信息流中的排序方法、装置和设备/终端/服务器
CN109657461A (zh) * 2018-11-26 2019-04-19 浙江大学 基于梯度提升算法的rtl硬件木马检测方法
CN110019106A (zh) * 2019-03-21 2019-07-16 国网江西省电力有限公司萍乡供电分公司 一种智能电网的电力营销海量数据处理方法及系统
CN110190909A (zh) * 2019-06-06 2019-08-30 北京邮电大学 一种用于光通信的信号均衡方法及装置
CN110945557A (zh) * 2017-07-28 2020-03-31 北京嘀嘀无限科技发展有限公司 用于确定到达的预估时间的系统和方法
CN111738360A (zh) * 2020-07-24 2020-10-02 支付宝(杭州)信息技术有限公司 一种两方决策树训练方法和系统
CN111797000A (zh) * 2020-05-27 2020-10-20 中汽数据有限公司 一种基于梯度提升决策树模型的场景复杂度评估方法
CN111984707A (zh) * 2020-08-21 2020-11-24 重庆大数据研究院有限公司 一种营运车辆多模式跨界大数据的多层次深度融合挖掘方法
CN113709747A (zh) * 2020-05-09 2021-11-26 中国移动通信集团有限公司 一种骚扰号码识别方法、装置、计算机设备和存储介质
CN115982449A (zh) * 2022-12-01 2023-04-18 萨科(深圳)科技有限公司 一种基于平台大数据反馈的智能推送优化方法
CN116662412A (zh) * 2023-07-24 2023-08-29 云南电网能源投资有限责任公司 一种电网配用电大数据的数据挖掘方法
CN116882522A (zh) * 2023-09-07 2023-10-13 湖南视觉伟业智能科技有限公司 一种分布式时空挖掘方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102054002A (zh) * 2009-10-28 2011-05-11 中国移动通信集团公司 一种数据挖掘系统中决策树的生成方法及装置
CN105550374A (zh) * 2016-01-29 2016-05-04 湖南大学 Spark云服务环境下面向大数据的随机森林并行机器学习方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102054002A (zh) * 2009-10-28 2011-05-11 中国移动通信集团公司 一种数据挖掘系统中决策树的生成方法及装置
CN105550374A (zh) * 2016-01-29 2016-05-04 湖南大学 Spark云服务环境下面向大数据的随机森林并行机器学习方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
YE J, CHOW J H, JIANG C, ET AL.: ""Stochastic Gradient Boosted Distributed Decision Trees"", 《 ACM CONFERENCE ON INFORMATION & KNOWLEDGE MANAGEMENT. 2009》 *
ZAHARIA M, CHOWDHURY M, FRANKLIN M J, ET AL.: ""Spark: cluster computing with working sets"", 《USENIX CONFERENCE ON HOT TOPICS IN CLOUD COMPUTING. 2010》 *
王飞: ""集成分类器及其在个人信用评估的应用"", 《中国优秀硕士学位论文全文数据库 经济与管理科学辑》 *
陈敏、张东等: "《大数据浪潮 大数据整体解决方案及关键技术探索》", 31 October 2015 *

Cited By (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107038244A (zh) * 2017-04-24 2017-08-11 北京北信源软件股份有限公司 一种数据挖掘方法和装置、一种可读介质和存储控制器
CN110945557A (zh) * 2017-07-28 2020-03-31 北京嘀嘀无限科技发展有限公司 用于确定到达的预估时间的系统和方法
CN110945557B (zh) * 2017-07-28 2023-08-01 北京嘀嘀无限科技发展有限公司 用于确定到达的预估时间的系统和方法
US11580451B2 (en) 2017-07-28 2023-02-14 Beijing Didi Infinity Technology And Development Co., Ltd. Systems and methods for determining estimated time of arrival
US20200160225A1 (en) * 2017-07-28 2020-05-21 Beijing Didi Infinity Technology And Development Co., Ltd. Systems and methods for determining estimated time of arrival
CN107622086A (zh) * 2017-08-16 2018-01-23 北京京东尚科信息技术有限公司 一种点击率预估方法和装置
CN108733631A (zh) * 2018-04-09 2018-11-02 中国平安人寿保险股份有限公司 一种数据评估方法、装置、终端设备及存储介质
CN108764273A (zh) * 2018-04-09 2018-11-06 中国平安人寿保险股份有限公司 一种数据处理的方法、装置、终端设备及存储介质
CN108764273B (zh) * 2018-04-09 2023-12-05 中国平安人寿保险股份有限公司 一种数据处理的方法、装置、终端设备及存储介质
CN108921188A (zh) * 2018-05-23 2018-11-30 重庆邮电大学 一种基于Spark大数据平台的并行CRF算法
CN108873829B (zh) * 2018-05-28 2020-09-15 上海新增鼎数据科技有限公司 一种基于梯度提升决策树的磷酸生产参数控制方法
CN108873829A (zh) * 2018-05-28 2018-11-23 上海新增鼎数据科技有限公司 一种基于梯度提升决策树的磷酸生产参数控制方法
CN108829776A (zh) * 2018-05-30 2018-11-16 大连理工大学 一种基于梯度提升树的慕课论坛主题分类方法
CN108829517A (zh) * 2018-05-31 2018-11-16 中国科学院计算技术研究所 一种用于在集群环境下进行机器学习的训练方法和系统
CN108829517B (zh) * 2018-05-31 2021-04-06 中国科学院计算技术研究所 一种用于在集群环境下进行机器学习的训练方法和系统
CN109033460A (zh) * 2018-08-30 2018-12-18 优视科技新加坡有限公司 一种信息流中的排序方法、装置和设备/终端/服务器
CN109657461A (zh) * 2018-11-26 2019-04-19 浙江大学 基于梯度提升算法的rtl硬件木马检测方法
CN110019106A (zh) * 2019-03-21 2019-07-16 国网江西省电力有限公司萍乡供电分公司 一种智能电网的电力营销海量数据处理方法及系统
CN110190909A (zh) * 2019-06-06 2019-08-30 北京邮电大学 一种用于光通信的信号均衡方法及装置
CN113709747A (zh) * 2020-05-09 2021-11-26 中国移动通信集团有限公司 一种骚扰号码识别方法、装置、计算机设备和存储介质
CN113709747B (zh) * 2020-05-09 2023-10-13 中国移动通信集团有限公司 一种骚扰号码识别方法、装置、计算机设备和存储介质
CN111797000A (zh) * 2020-05-27 2020-10-20 中汽数据有限公司 一种基于梯度提升决策树模型的场景复杂度评估方法
CN111738360A (zh) * 2020-07-24 2020-10-02 支付宝(杭州)信息技术有限公司 一种两方决策树训练方法和系统
CN111984707A (zh) * 2020-08-21 2020-11-24 重庆大数据研究院有限公司 一种营运车辆多模式跨界大数据的多层次深度融合挖掘方法
CN115982449A (zh) * 2022-12-01 2023-04-18 萨科(深圳)科技有限公司 一种基于平台大数据反馈的智能推送优化方法
CN115982449B (zh) * 2022-12-01 2023-11-14 萨科(深圳)科技有限公司 一种基于平台大数据反馈的智能推送优化方法
CN116662412A (zh) * 2023-07-24 2023-08-29 云南电网能源投资有限责任公司 一种电网配用电大数据的数据挖掘方法
CN116662412B (zh) * 2023-07-24 2023-10-03 云南电网能源投资有限责任公司 一种电网配用电大数据的数据挖掘方法
CN116882522A (zh) * 2023-09-07 2023-10-13 湖南视觉伟业智能科技有限公司 一种分布式时空挖掘方法及系统
CN116882522B (zh) * 2023-09-07 2023-11-28 湖南视觉伟业智能科技有限公司 一种分布式时空挖掘方法及系统

Similar Documents

Publication Publication Date Title
CN106250461A (zh) 一种基于Spark框架利用梯度提升决策树进行数据挖掘的算法
CN111860982A (zh) 一种基于vmd-fcm-gru的风电场短期风电功率预测方法
CN107292350A (zh) 大规模数据的异常检测方法
CN110110858B (zh) 一种基于强化学习的自动化机器学习方法
CN111914728B (zh) 高光谱遥感影像半监督分类方法、装置及存储介质
CN110335168B (zh) 基于gru优化用电信息采集终端故障预测模型的方法及系统
US11366806B2 (en) Automated feature generation for machine learning application
CN113221960B (zh) 一种高质量漏洞数据收集模型的构建方法及收集方法
CN107885503A (zh) 一种基于程序特征分析的迭代编译优化方法
CN115795131B (zh) 基于人工智能的电子档案分类方法、装置及电子设备
CN113052225A (zh) 基于聚类算法和时序关联规则的报警收敛方法及装置
CN112364352A (zh) 可解释性的软件漏洞检测与推荐方法及系统
CN110706015A (zh) 一种面向广告点击率预测的特征选取方法
CN113807900A (zh) 一种基于贝叶斯优化的rf订单需求预测方法
CN110335160B (zh) 一种基于分组和注意力改进Bi-GRU的就医迁移行为预测方法及系统
CN112087316A (zh) 基于异常数据分析的网络异常根源定位方法
CN112016636A (zh) 一种基于Hadoop框架的作物光谱聚类分析处理方法
Shahpar et al. Improvement of effort estimation accuracy in software projects using a feature selection approach
CN110502669A (zh) 基于n边dfs子图的轻量级无监督图表示学习方法及装置
CN116542701A (zh) 一种基于cnn-lstm组合模型的碳价预测方法及系统
CN114780967A (zh) 基于大数据漏洞挖掘的挖掘评估方法及ai漏洞挖掘系统
CN112199287B (zh) 基于强化混合专家模型的跨项目软件缺陷预测方法
Gupta et al. Evaluation of instance-based feature subset selection algorithm for maintainability prediction
CN112835797A (zh) 一种基于程序中间结构特征的蜕变关系预测方法
De Fausti et al. Multilayer perceptron models for the estimation of the attained level of education in the Italian Permanent Census

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20161221

RJ01 Rejection of invention patent application after publication