CN107766883A - 一种基于加权决策树的优化随机森林分类方法及系统 - Google Patents
一种基于加权决策树的优化随机森林分类方法及系统 Download PDFInfo
- Publication number
- CN107766883A CN107766883A CN201710961077.9A CN201710961077A CN107766883A CN 107766883 A CN107766883 A CN 107766883A CN 201710961077 A CN201710961077 A CN 201710961077A CN 107766883 A CN107766883 A CN 107766883A
- Authority
- CN
- China
- Prior art keywords
- decision tree
- classification
- training
- ballot
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供了一种基于加权决策树的优化随机森林分类方法及系统,属于模式识别技术领域。该方法为:采用自举法生成多个训练数据集;对每个训练数据集随机抽取特征集;训练决策树,并根据特征集的统计特性或决策树的性能为每个决策树分配投票权重;引入投票机制,加速随机森林的分类过程。本发明利用训练样本的统计特性或决策树的分类性能来分配决策树的投票权重,并利用投票机制加速决策进程,能有效提高随机森林的分类性能和分类效率。
Description
技术领域
本发明属于模式识别和数据挖掘技术领域,具体涉及一种基于加权决策树的优化随机森林分类方法。
背景技术
随着信息技术高速发展,各领域内的数据量呈现爆炸式增长,世界已然进入大数据时代。为了从海量的数据中发现蕴含其中的有价值信息,数据挖掘技术成为当下最活跃的研究领域之一。所谓数据挖掘,一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。
随机森林是数据挖掘中最具研究价值的方法之一,作为一种组合分类器,它的主要思想是基于两个随机过程,即训练样本随机抽取和特征集随机抽取来构建多棵相对独立的决策树分类器,然后通过所有决策树投票获得最终的预测结果。
随机森林由于其泛化能力强,不宜出现过拟合;决策树之间相互独立,适宜并行计算;无需额外的特征选择,处理高维、大数据能力强;相较于其他算法实现简单、效率高、准确率高;以及特征贡献度可评估等优点,被广泛应用于遥感探测、人机交互、多媒体处理、电子商务等领域。
尽管随机森林具有上述优点,仍然存在一些不足之处。传统随机森林模型对具有不同泛化能力的决策树拥有相同的投票权重,这影响了模型整体分类能力的稳定性。
发明内容
针对现有技术存在的问题和改进需求,本发明提供了一种基于加权决策树的随机森林分类方法及系统,利用训练样本的统计特性或决策树的分类性能来分配决策树的权重,并引入半投票机制加速分类决策进程,能有效提高分类性能和分类效率。
一种基于加权决策树的优化随机森林分类方法,包括离线训练和在线预测部分,
所述离线训练部分包括以下步骤:
(S1)重复在同一数据源中提取多次数据,得到多个样本数相同的训练集;
(S2)在每一训练集中,提取每个样本的特征向量和标签向量;
(S3)利用每一训练集的特征向量和标签向量训练随机森林分类模型,得到多个决策树;
(S4)对每一训练集,分别将其所有样本的同一特征构成特征向量,计算该特征向量与该训练集的标签向量之间的统计相关性,对所有特征对应的统计相关性进行叠加,叠加结果即为该训练集训练得到的决策树的投票权重;
所述在线分类部分包括以下步骤:
(T1)按照投票权重由高到低选取决策树依次对待分类数据进行分类,将决策树的投票权重作为其分类所得类别的投票数,实时计算各类别的投票总数,如某一类别所得投票总数超过预定阈值,则停止分类,该类别即为最终分类结果。
一种基于加权决策树的优化随机森林分类系统,包括离线训练模块和在线预测模块,其特征在于:
所述离线训练模块包括以:
训练子集提取子模块,用于重复在同一数据源中提取多次数据,得到多个样本数相同的训练集;
特征标签提取子模块,用于在每一训练集中,提取每一样本提取特征向量和标签向量;
决策树训练子模块,用于利用每一训练集的特征向量和标签向量训练随机森林分类模型,得到多个决策树;
投票权重计算子模块,用于对每一训练集,分别将其所有样本的同一特征构成特征向量,计算该特征向量与该训练集的标签向量之间的统计相关性,对所有特征对应的统计相关性进行叠加,叠加结果即为该训练子集训练得到的决策树的投票权重;
所述在线分类模块,用于按照投票权重由高到低选取决策树依次对待分类数据进行分类,将决策树的投票权重作为其分类所得类别的投票数,实时计算各类别的投票总数,如某一类别所得投票总数超过预定阈值,则停止分类,该类别即为最终分类结果。
一种基于加权决策树的优化随机森林分类方法,包括离线训练和在线预测部分,其特征在于:
所述离线训练部分包括以下步骤:
(S1)重复在同一数据源中提取多次数据,得到多个样本数相同的训练集;
(S2)在每一训练集中,提取每个样本的特征向量和标签向量;
(S3)利用每一训练集的特征向量和标签向量训练随机森林分类模型,得到多个决策树;
(S4)将数据源中没被提取过的数据作为袋外数据,利用袋外数据测试决策树的性能,得到各决策树的投票权重:S+为决策树利用袋外数据预测正确的样本数量,S表示袋外数据的样本总量,αo为决策树的归一化因子;
所述在线分类部分包括以下步骤:
(T1)按照投票权重由高到低选取决策树依次对待分类数据进行分类,将决策树的投票权重作为其分类所得类别的投票数,实时计算各类别的投票总数,如某一类别所得投票总数超过预定阈值,则停止分类,该类别即为最终分类结果。
一种基于加权决策树的优化随机森林分类系统,包括离线训练模块和在线预测模块:
所述离线训练模块包括以:
训练子集提取子模块,用于重复在同一数据源中提取多次数据,得到多个样本数相同的训练集;
特征标签提取子模块,用于在每一训练集中,提取每一样本提取特征向量和标签向量;
决策树训练子模块,用于利用每一训练集的特征向量和标签向量训练随机森林分类模型,得到多个决策树;
投票权重计算子模块,用于将数据源中没被提取过的数据作为袋外数据,利用袋外数据测试决策树的性能,得到各决策树的投票权重:S+为决策树利用袋外数据预测正确的样本数量,S表示袋外数据的样本总量,αo为决策树的归一化因子;
所述在线分类模块,用于按照投票权重由高到低选取决策树依次对待分类数据进行分类,将决策树的投票权重作为其分类所得类别的投票数,实时计算各类别的投票总数,如某一类别所得投票总数超过预定阈值,则停止分类,该类别即为最终分类结果。
进一步地,所述为决策树的归一化因子αo=1/所有决策树的权重之和,
进一步地,所述统计相关性采用相关系数、卡方、互信息中的任意一种统计学度量指标来计算。
进一步地,所述预定阈值为所有决策树的投票权值之和的一半。
与现有技术相比,本发明的优点和效果在于:
1.本发明利用训练样本的统计特性或决策树的分类性能来分配决策树的投票权重,引入投票加权的方法可以有效的提高随机森林模型整体的泛化能力;
2.本发明引入投票机制,对构建好的加权随机森林模型按照决策树投票权重进行降序排序,在随机森林模型进行串行投票的过程中,确定投票量达到预定阈值的分类终止条件,通过提前触发预测终止条件来提高模型分类的效率。
附图说明
图1为本发明基于加权决策树的随机森林分类方法的实现流程图;
图2为本发明半投票机制的流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
附图1为本发明基于加权决策树的优化随机森林分类方法的实现流程图,包括以下步骤:
(S1)采用“自举法”生成多个训练数据集。
采用“自举法”从给定的训练数据集X中,生成M个新的训练数据集X1,…,XM,每个新的数据集包含相同数量的样本,每个样本都可以视为一个向量。自举法,是指从数据集X中随机有放回的抽取样本来构建一个数据集。重复“自举法”的过程M次,即可得到M个数据集。生成的M个数据集将用于训练随机森林的M棵决策树。
(S2)对每个训练数据集随机抽取特征集。
本发明定义样本的特征为样本向量的每一维度。对生成的每个数据集,随机选择向量的k个维度构成特征集。
(S3)训练决策树,并根据特征集的统计特性或决策树的预测性能为每个决策树分配投票权重。
将随机选择的特征集作为决策树的输入,训练决策树。对M个数据集分别训练M棵决策树。并对每颗决策树根据特征集的统计特性或决策树的预测性能来分配投票权重。
数据集所有样本在某一特征下的特征向量和数据集的标签向量之间的统计相关性,用来判断每个特征对决策树预测的重要性。特征集的统计特性将所有特征的重要性叠加作为每颗决策树的投票权重。
决策树的决策性能则采用“袋外数据估计”。将数据源中没被提取过的数据作为袋外数据,利用袋外数据测试决策树的性能,得到各决策树的投票权重。
所述步骤(S3)中的统计相关性可采用相关系数、卡方、互信息中的任意一种统计学度量指标来估计。
(S4)引入投票机制,加速随机森林的分类过程。
本发明一种较佳实时方式中,定义半投票量,为总投票量的一半。按照投票权值的大小对决策树进行降序排列,将泛化能力强的决策树排在前列。在随机森林模型进行数据分类的过程中,决策树分类器按顺序对数据进行预测和加权投票,并实时监测投票数量是否达到半投票量而终止分类过程。
实例:
本实例所用数据集选自UCI公共数据库,该数据库包含多达383个记录不同个体特征的数据集。每个数据集以“属性——值”的形式描述样本,“属性”就是样本的特征向量,“值”就是样本的标记。利用随机森林算法,就是将大量样本的“属性”和“值”作为输入,输出“属性”和“值”之间的映射关系,或者能够根据新的“属性”来预测“值”,具体实现步骤如下:
1.采用“自举法”生成多个训练数据集
采用“自举法”,即随机有放回的采样策略产生新的训练数据集,每个新的数据集包含相同数量的样本,每个样本都可以视为一个向量。重复“自举法”的过程100次,共产生100个训练数据集X1,…,X100。
2.对每个训练数据集随机抽取特征集
对每个训练数据集,随机选取k个特征作为该数据集的特征集。k一般取log2d,其中d是数据集中每个样本的向量长度。
3.训练决策树,并根据特征集的统计特性或决策树的预测性能为每个决策树分配投票权重
将随机选择的特征集作为决策树的输入,训练决策树。对100个数据集分别训练100棵决策树,决策树的训练过程与现有的随机森林训练决策树的过程完全一致。对每颗决策树根据特征集的统计特性或决策树的预测性能来分配投票权重。
数据集所有样本在某一特征下的特征向量和数据集的标签向量之间的统计相关性,用来判断每个特征对决策树预测的重要性。特征集的统计特性将所有特征的重要性叠加作为每颗决策树的投票权重。对于统计相关性可以采用相关系数、卡方或者互信息来估计。
决策树的决策性能则采用“袋外数据估计”。在随机有放回的训练过程中,未被抽中的数据集被称为袋外数据。利用袋外数据对决策树预测能力的评估,称为“袋外数据估计”。每个决策树的性能表示为根据所有决策树的性能确定归一化因子αo=1/所有决策树性能之和(如果以100为单位,αo=100/所有决策树权重之和),S+为决策树利用“袋外数据估计”预测正确的样本数量;S表示“袋外数据估计”的样本总量。对于每颗决策树h(x),定义基于“袋外数据估计”的投票权值pOOB,可表示为:
4.引入投票机制,加速随机森林的分类过程
如附图2所示,按照投票权值的大小对决策树进行降序排列,将泛化能力强的决策树排在前列。在随机森林模型进行数据分类的过程中,决策树分类器按顺序对数据进行预测和加权投票,并实时监测投票数量是否达到预定阈值(譬如半投票量)而终止分类过程。通过①和②两种路径都可以得到随机森林模型最终的投票结果,其中①路径预测结果的获得是在没有完成所有决策树预测投票的情况下,触发了半投票量模式的终止条件提前结束了整个分类流程,通过路径②获得的预测结果是完成了所有决策树数据预测和投票之后分析各个分类标签投票情况获得的。
半投票量模式获得的分类结果和传统随机森林模型获得的分类结果是一致的,但前者可以在没有进行全预测投票之前就可以终止分类流程给出分类结果,显然比传统随机森林模型分类速度快,且随着模型中决策树的泛化能力的增强,投票权重的增加,半投票量模式进行投票时越容易触发投票终止条件更快的给出分类结果,使得分类的速度加快。
应用上述步骤得到的随机森林模型,在UCI公共数据集上进行对比实验,实验结果表明引入投票加权的方法可以有效的提高随机森林模型整体的泛化能力,其中以相关系数作为决策树投票权重计算依据时,模型表现出更稳定、更高的分类准确率。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于加权决策树的优化随机森林分类方法,包括离线训练和在线预测部分,其特征在于:
所述离线训练部分包括以下步骤:
(S1)重复在同一数据源中提取多次数据,得到多个样本数相同的训练集;
(S2)在每一训练集中,提取每个样本的特征向量和标签向量;
(S3)利用每一训练集的特征向量和标签向量训练随机森林分类模型,得到多个决策树;
(S4)对每一训练集,分别将其所有样本的同一特征构成特征向量,计算该特征向量与该训练集的标签向量之间的统计相关性,对所有特征对应的统计相关性进行叠加,叠加结果即为该训练集训练得到的决策树的投票权重;
所述在线分类部分包括以下步骤:
(T1)按照投票权重由高到低选取决策树依次对待分类数据进行分类,将决策树的投票权重作为其分类所得类别的投票数,实时计算各类别的投票总数,如某一类别所得投票总数超过预定阈值,则停止分类,该类别即为最终分类结果。
2.根据权利要求1所述的基于加权决策树的优化随机森林分类方法,其特征在于:所述统计相关性采用相关系数、卡方、互信息中的任意一种统计学度量指标来计算。
3.根据权利要求1或2所述的基于加权决策树的优化随机森林分类方法,其特征在于:所述预定阈值为所有决策树的投票权值之和的一半。
4.一种基于加权决策树的优化随机森林分类系统,包括离线训练模块和在线预测模块,其特征在于:
所述离线训练模块包括以:
训练子集提取子模块,用于重复在同一数据源中提取多次数据,得到多个样本数相同的训练集;
特征标签提取子模块,用于在每一训练集中,提取每一样本提取特征向量和标签向量;
决策树训练子模块,用于利用每一训练集的特征向量和标签向量训练随机森林分类模型,得到多个决策树;
投票权重计算子模块,用于对每一训练集,分别将其所有样本的同一特征构成特征向量,计算该特征向量与该训练集的标签向量之间的统计相关性,对所有特征对应的统计相关性进行叠加,叠加结果即为该训练子集训练得到的决策树的投票权重;
所述在线分类模块,用于按照投票权重由高到低选取决策树依次对待分类数据进行分类,将决策树的投票权重作为其分类所得类别的投票数,实时计算各类别的投票总数,如某一类别所得投票总数超过预定阈值,则停止分类,该类别即为最终分类结果。
5.一种基于加权决策树的优化随机森林分类方法,包括离线训练和在线预测部分,其特征在于:
所述离线训练部分包括以下步骤:
(S1)重复在同一数据源中提取多次数据,得到多个样本数相同的训练集;
(S2)在每一训练集中,提取每个样本的特征向量和标签向量;
(S3)利用每一训练集的特征向量和标签向量训练随机森林分类模型,得到多个决策树;
(S4)将数据源中没被提取过的数据作为袋外数据,利用袋外数据测试决策树的性能,得到各决策树的投票权重:S+为决策树利用袋外数据预测正确的样本数量,S表示袋外数据的样本总量,αo为决策树的归一化因子;
所述在线分类部分包括以下步骤:
(T1)按照投票权重由高到低选取决策树依次对待分类数据进行分类,将决策树的投票权重作为其分类所得类别的投票数,实时计算各类别的投票总数,如某一类别所得投票总数超过预定阈值,则停止分类,该类别即为最终分类结果。
6.根据权利要求5所述的基于加权决策树的优化随机森林分类系统,其特征在于:所述为决策树的归一化因子αo=1/所有决策树的权重之和,
7.根据权利要求5所述的基于加权决策树的优化随机森林分类系统,其特征在于:所述统计相关性采用相关系数、卡方、互信息中的任意一种统计学度量指标来计算。
8.根据权利要求5或6或7所述的基于加权决策树的优化随机森林分类系统,其特征在于:所述预定阈值为所有决策树的投票权值之和的一半。
9.一种基于加权决策树的优化随机森林分类系统,包括离线训练模块和在线预测模块,其特征在于:
所述离线训练模块包括以:
训练子集提取子模块,用于重复在同一数据源中提取多次数据,得到多个样本数相同的训练集;
特征标签提取子模块,用于在每一训练集中,提取每一样本提取特征向量和标签向量;
决策树训练子模块,用于利用每一训练集的特征向量和标签向量训练随机森林分类模型,得到多个决策树;
投票权重计算子模块,用于将数据源中没被提取过的数据作为袋外数据,利用袋外数据测试决策树的性能,得到各决策树的投票权重:S+为决策树利用袋外数据预测正确的样本数量,S表示袋外数据的样本总量,αo为决策树的归一化因子;
所述在线分类模块,用于按照投票权重由高到低选取决策树依次对待分类数据进行分类,将决策树的投票权重作为其分类所得类别的投票数,实时计算各类别的投票总数,如某一类别所得投票总数超过预定阈值,则停止分类,该类别即为最终分类结果。
10.根据权利要求9所述的基于加权决策树的优化随机森林分类系统,其特征在于:所述为决策树的归一化因子αo=1/所有决策树的权重之和,
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710961077.9A CN107766883A (zh) | 2017-10-13 | 2017-10-13 | 一种基于加权决策树的优化随机森林分类方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710961077.9A CN107766883A (zh) | 2017-10-13 | 2017-10-13 | 一种基于加权决策树的优化随机森林分类方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107766883A true CN107766883A (zh) | 2018-03-06 |
Family
ID=61268556
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710961077.9A Pending CN107766883A (zh) | 2017-10-13 | 2017-10-13 | 一种基于加权决策树的优化随机森林分类方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107766883A (zh) |
Cited By (34)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108665159A (zh) * | 2018-05-09 | 2018-10-16 | 深圳壹账通智能科技有限公司 | 一种风险评估方法、装置、终端设备及存储介质 |
CN108846338A (zh) * | 2018-05-29 | 2018-11-20 | 南京林业大学 | 基于面向对象随机森林的极化特征选择及分类方法 |
CN109034201A (zh) * | 2018-06-26 | 2018-12-18 | 阿里巴巴集团控股有限公司 | 模型训练及规则挖掘方法和系统 |
CN109119167A (zh) * | 2018-07-11 | 2019-01-01 | 山东师范大学 | 基于集成模型的脓毒症死亡率预测系统 |
CN109145959A (zh) * | 2018-07-27 | 2019-01-04 | 东软集团股份有限公司 | 一种特征选择方法、装置及设备 |
CN109685113A (zh) * | 2018-11-30 | 2019-04-26 | 电子科技大学 | 一种基于改进型神经网络的特征分类预测方法 |
CN109739986A (zh) * | 2018-12-28 | 2019-05-10 | 合肥工业大学 | 一种基于深度集成学习的投诉短文本分类方法 |
CN109961094A (zh) * | 2019-03-07 | 2019-07-02 | 北京达佳互联信息技术有限公司 | 样本获取方法、装置、电子设备及可读存储介质 |
CN110020636A (zh) * | 2019-02-28 | 2019-07-16 | 郑州大学 | 一种基于异常特征值的室性早搏智能分析方法 |
CN110110764A (zh) * | 2019-04-22 | 2019-08-09 | 福建天晴数码有限公司 | 基于混合式网络的随机森林策略优化方法、存储介质 |
CN110245693A (zh) * | 2019-05-30 | 2019-09-17 | 北京理工大学 | 结合混合随机森林的关键信息基础设施资产识别方法 |
CN110264342A (zh) * | 2019-06-19 | 2019-09-20 | 深圳前海微众银行股份有限公司 | 一种基于机器学习的业务审核方法及装置 |
CN110414738A (zh) * | 2019-08-01 | 2019-11-05 | 吉林高分遥感应用研究院有限公司 | 一种农作物产量预测方法及系统 |
CN110443420A (zh) * | 2019-08-05 | 2019-11-12 | 山东农业大学 | 一种基于机器学习的作物产量预测方法 |
CN110474786A (zh) * | 2018-05-10 | 2019-11-19 | 上海大唐移动通信设备有限公司 | 基于随机森林分析VoLTE网络故障原因的方法及装置 |
WO2019232999A1 (zh) * | 2018-06-07 | 2019-12-12 | 中国矿业大学 | 一种基于特征映射层以及增强层结构的随机森林集成方法 |
CN110942089A (zh) * | 2019-11-08 | 2020-03-31 | 东北大学 | 一种基于多级决策的击键识别方法 |
CN111352926A (zh) * | 2018-12-20 | 2020-06-30 | 北京沃东天骏信息技术有限公司 | 数据处理的方法、装置、设备及可读存储介质 |
CN111401427A (zh) * | 2020-03-12 | 2020-07-10 | 华中科技大学 | 一种基于工业大数据的产品成本评估方法及系统 |
CN111524606A (zh) * | 2020-04-24 | 2020-08-11 | 郑州大学第一附属医院 | 一种基于随机森林算法的肿瘤数据统计方法 |
CN111783840A (zh) * | 2020-06-09 | 2020-10-16 | 苏宁金融科技(南京)有限公司 | 一种随机森林模型的可视化方法、装置及存储介质 |
CN112182221A (zh) * | 2020-10-12 | 2021-01-05 | 哈尔滨工程大学 | 一种基于改进随机森林的知识检索优化方法 |
CN112289412A (zh) * | 2020-10-09 | 2021-01-29 | 深圳市儿童医院 | 自闭症谱系障碍分类器的构建方法、其装置及电子设备 |
CN112308151A (zh) * | 2020-11-03 | 2021-02-02 | 西安电子科技大学 | 基于加权的旋转森林高光谱图像分类方法 |
CN113516173A (zh) * | 2021-05-27 | 2021-10-19 | 江西五十铃汽车有限公司 | 一种基于随机森林与决策树的整车静动态干涉的测评方法 |
CN113539414A (zh) * | 2021-07-30 | 2021-10-22 | 中电药明数据科技(成都)有限公司 | 一种抗生素用药合理性预测方法及系统 |
CN113821452A (zh) * | 2021-11-24 | 2021-12-21 | 之江实验室 | 根据被测系统测试表现动态生成测试案例的智能测试方法 |
CN113887742A (zh) * | 2021-10-26 | 2022-01-04 | 重庆邮电大学 | 一种基于支持向量机的数据分类方法及系统 |
CN114662997A (zh) * | 2022-05-20 | 2022-06-24 | 成都运荔枝科技有限公司 | 一种冷链运力需求预测方法及冷链运力分配方法 |
CN116230158A (zh) * | 2023-03-27 | 2023-06-06 | 中国医学科学院肿瘤医院 | 一种疼痛评估及用药预测系统及其使用方法 |
CN116246752A (zh) * | 2023-03-27 | 2023-06-09 | 中国医学科学院肿瘤医院 | 一种全身麻醉术后恶心呕吐预测模型的生成和使用方法 |
CN116338819A (zh) * | 2023-03-27 | 2023-06-27 | 北京智科远达数据技术有限公司 | 一种水体溶解氧浓度预测系统 |
CN116543866A (zh) * | 2023-03-27 | 2023-08-04 | 中国医学科学院肿瘤医院 | 一种镇痛泵止痛预测模型的生成和使用方法 |
CN117970428A (zh) * | 2024-04-02 | 2024-05-03 | 山东省地质科学研究院 | 基于随机森林算法的地震信号识别方法、装置及设备 |
-
2017
- 2017-10-13 CN CN201710961077.9A patent/CN107766883A/zh active Pending
Cited By (51)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108665159A (zh) * | 2018-05-09 | 2018-10-16 | 深圳壹账通智能科技有限公司 | 一种风险评估方法、装置、终端设备及存储介质 |
CN110474786A (zh) * | 2018-05-10 | 2019-11-19 | 上海大唐移动通信设备有限公司 | 基于随机森林分析VoLTE网络故障原因的方法及装置 |
CN110474786B (zh) * | 2018-05-10 | 2022-05-24 | 上海大唐移动通信设备有限公司 | 基于随机森林分析VoLTE网络故障原因的方法及装置 |
CN108846338A (zh) * | 2018-05-29 | 2018-11-20 | 南京林业大学 | 基于面向对象随机森林的极化特征选择及分类方法 |
CN108846338B (zh) * | 2018-05-29 | 2022-04-15 | 南京林业大学 | 基于面向对象随机森林的极化特征选择及分类方法 |
WO2019232999A1 (zh) * | 2018-06-07 | 2019-12-12 | 中国矿业大学 | 一种基于特征映射层以及增强层结构的随机森林集成方法 |
CN109034201A (zh) * | 2018-06-26 | 2018-12-18 | 阿里巴巴集团控股有限公司 | 模型训练及规则挖掘方法和系统 |
CN109119167A (zh) * | 2018-07-11 | 2019-01-01 | 山东师范大学 | 基于集成模型的脓毒症死亡率预测系统 |
CN109145959A (zh) * | 2018-07-27 | 2019-01-04 | 东软集团股份有限公司 | 一种特征选择方法、装置及设备 |
CN109685113A (zh) * | 2018-11-30 | 2019-04-26 | 电子科技大学 | 一种基于改进型神经网络的特征分类预测方法 |
CN111352926A (zh) * | 2018-12-20 | 2020-06-30 | 北京沃东天骏信息技术有限公司 | 数据处理的方法、装置、设备及可读存储介质 |
CN111352926B (zh) * | 2018-12-20 | 2024-03-08 | 北京沃东天骏信息技术有限公司 | 数据处理的方法、装置、设备及可读存储介质 |
CN109739986A (zh) * | 2018-12-28 | 2019-05-10 | 合肥工业大学 | 一种基于深度集成学习的投诉短文本分类方法 |
CN110020636A (zh) * | 2019-02-28 | 2019-07-16 | 郑州大学 | 一种基于异常特征值的室性早搏智能分析方法 |
CN110020636B (zh) * | 2019-02-28 | 2022-10-04 | 郑州大学 | 一种基于异常特征值的室性早搏智能分析方法 |
CN109961094B (zh) * | 2019-03-07 | 2021-04-30 | 北京达佳互联信息技术有限公司 | 样本获取方法、装置、电子设备及可读存储介质 |
CN109961094A (zh) * | 2019-03-07 | 2019-07-02 | 北京达佳互联信息技术有限公司 | 样本获取方法、装置、电子设备及可读存储介质 |
CN110110764A (zh) * | 2019-04-22 | 2019-08-09 | 福建天晴数码有限公司 | 基于混合式网络的随机森林策略优化方法、存储介质 |
CN110110764B (zh) * | 2019-04-22 | 2021-01-26 | 福建天晴数码有限公司 | 基于混合式网络的随机森林策略优化方法、存储介质 |
CN110245693A (zh) * | 2019-05-30 | 2019-09-17 | 北京理工大学 | 结合混合随机森林的关键信息基础设施资产识别方法 |
CN110245693B (zh) * | 2019-05-30 | 2023-04-07 | 北京理工大学 | 结合混合随机森林的关键信息基础设施资产识别方法 |
CN110264342A (zh) * | 2019-06-19 | 2019-09-20 | 深圳前海微众银行股份有限公司 | 一种基于机器学习的业务审核方法及装置 |
CN110414738A (zh) * | 2019-08-01 | 2019-11-05 | 吉林高分遥感应用研究院有限公司 | 一种农作物产量预测方法及系统 |
CN110414738B (zh) * | 2019-08-01 | 2022-03-22 | 吉林高分遥感应用研究院有限公司 | 一种农作物产量预测方法及系统 |
CN110443420A (zh) * | 2019-08-05 | 2019-11-12 | 山东农业大学 | 一种基于机器学习的作物产量预测方法 |
CN110942089A (zh) * | 2019-11-08 | 2020-03-31 | 东北大学 | 一种基于多级决策的击键识别方法 |
CN110942089B (zh) * | 2019-11-08 | 2023-10-10 | 东北大学 | 一种基于多级决策的击键识别方法 |
CN111401427B (zh) * | 2020-03-12 | 2022-11-08 | 华中科技大学 | 一种基于工业大数据的产品成本评估方法及系统 |
CN111401427A (zh) * | 2020-03-12 | 2020-07-10 | 华中科技大学 | 一种基于工业大数据的产品成本评估方法及系统 |
CN111524606B (zh) * | 2020-04-24 | 2024-01-30 | 郑州大学第一附属医院 | 一种基于随机森林算法的肿瘤数据统计方法 |
CN111524606A (zh) * | 2020-04-24 | 2020-08-11 | 郑州大学第一附属医院 | 一种基于随机森林算法的肿瘤数据统计方法 |
CN111783840A (zh) * | 2020-06-09 | 2020-10-16 | 苏宁金融科技(南京)有限公司 | 一种随机森林模型的可视化方法、装置及存储介质 |
CN112289412A (zh) * | 2020-10-09 | 2021-01-29 | 深圳市儿童医院 | 自闭症谱系障碍分类器的构建方法、其装置及电子设备 |
CN112182221A (zh) * | 2020-10-12 | 2021-01-05 | 哈尔滨工程大学 | 一种基于改进随机森林的知识检索优化方法 |
CN112182221B (zh) * | 2020-10-12 | 2022-04-05 | 哈尔滨工程大学 | 一种基于改进随机森林的知识检索优化方法 |
CN112308151A (zh) * | 2020-11-03 | 2021-02-02 | 西安电子科技大学 | 基于加权的旋转森林高光谱图像分类方法 |
CN113516173A (zh) * | 2021-05-27 | 2021-10-19 | 江西五十铃汽车有限公司 | 一种基于随机森林与决策树的整车静动态干涉的测评方法 |
CN113539414A (zh) * | 2021-07-30 | 2021-10-22 | 中电药明数据科技(成都)有限公司 | 一种抗生素用药合理性预测方法及系统 |
CN113887742A (zh) * | 2021-10-26 | 2022-01-04 | 重庆邮电大学 | 一种基于支持向量机的数据分类方法及系统 |
CN113821452B (zh) * | 2021-11-24 | 2022-03-18 | 之江实验室 | 根据被测系统测试表现动态生成测试案例的智能测试方法 |
CN113821452A (zh) * | 2021-11-24 | 2021-12-21 | 之江实验室 | 根据被测系统测试表现动态生成测试案例的智能测试方法 |
CN114662997A (zh) * | 2022-05-20 | 2022-06-24 | 成都运荔枝科技有限公司 | 一种冷链运力需求预测方法及冷链运力分配方法 |
CN114662997B (zh) * | 2022-05-20 | 2022-08-09 | 成都运荔枝科技有限公司 | 一种冷链运力需求预测方法及冷链运力分配方法 |
CN116246752A (zh) * | 2023-03-27 | 2023-06-09 | 中国医学科学院肿瘤医院 | 一种全身麻醉术后恶心呕吐预测模型的生成和使用方法 |
CN116543866A (zh) * | 2023-03-27 | 2023-08-04 | 中国医学科学院肿瘤医院 | 一种镇痛泵止痛预测模型的生成和使用方法 |
CN116543866B (zh) * | 2023-03-27 | 2023-12-19 | 中国医学科学院肿瘤医院 | 一种镇痛泵止痛预测模型的生成和使用方法 |
CN116246752B (zh) * | 2023-03-27 | 2024-01-16 | 中国医学科学院肿瘤医院 | 一种全身麻醉术后恶心呕吐预测模型的生成和使用方法 |
CN116230158B (zh) * | 2023-03-27 | 2024-01-26 | 中国医学科学院肿瘤医院 | 一种疼痛评估及用药预测系统及其使用方法 |
CN116338819A (zh) * | 2023-03-27 | 2023-06-27 | 北京智科远达数据技术有限公司 | 一种水体溶解氧浓度预测系统 |
CN116230158A (zh) * | 2023-03-27 | 2023-06-06 | 中国医学科学院肿瘤医院 | 一种疼痛评估及用药预测系统及其使用方法 |
CN117970428A (zh) * | 2024-04-02 | 2024-05-03 | 山东省地质科学研究院 | 基于随机森林算法的地震信号识别方法、装置及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107766883A (zh) | 一种基于加权决策树的优化随机森林分类方法及系统 | |
CN103632168B (zh) | 一种机器学习中的分类器集成方法 | |
CN107294993A (zh) | 一种基于集成学习的web异常流量监测方法 | |
CN105224872A (zh) | 一种基于神经网络聚类的用户异常行为检测方法 | |
CN111597348B (zh) | 用户画像方法、装置、计算机设备和存储介质 | |
CN111143838B (zh) | 数据库用户异常行为检测方法 | |
Meenakshi et al. | A Data mining Technique for Analyzing and Predicting the success of Movie | |
CN105354595A (zh) | 一种鲁棒视觉图像分类方法及系统 | |
CN109284371A (zh) | 反欺诈方法、电子装置及计算机可读存储介质 | |
CN107947921A (zh) | 基于递归神经网络和概率上下文无关文法的密码生成系统 | |
CN115688024B (zh) | 基于用户内容特征和行为特征的网络异常用户预测方法 | |
CN108090216A (zh) | 一种标签预测方法、装置及存储介质 | |
Sudha et al. | Credit card fraud detection system based on operational & transaction features using svm and random forest classifiers | |
Pristyanto et al. | The effect of feature selection on classification algorithms in credit approval | |
Pandey et al. | A review of credit card fraud detection techniques | |
CN113469288A (zh) | 融合多个机器学习算法的高危人员预警方法 | |
Jha et al. | Criminal behaviour analysis and segmentation using k-means clustering | |
Kirkos et al. | Data mining in finance and accounting: a review of current research trends | |
CN112926989B (zh) | 一种基于多视图集成学习的银行贷款风险评估方法及设备 | |
CN115310589A (zh) | 一种基于深度图自监督学习的群体识别方法及系统 | |
Hui et al. | Analysis of decision tree classification algorithm based on attribute reduction and application in criminal behavior | |
Mukhtar et al. | Forecasting Covid-19 Time Series Data using the Long Short-Term Memory (LSTM) | |
CN108549669A (zh) | 一种面向大数据的离群点检测方法 | |
Zhang et al. | Scene categorization based on object bank | |
Li et al. | End-to-end transferable anomaly detection via multi-spectral cross-domain representation alignment |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180306 |