CN111260201A - 一种基于分层随机森林的变量重要性分析方法 - Google Patents

一种基于分层随机森林的变量重要性分析方法 Download PDF

Info

Publication number
CN111260201A
CN111260201A CN202010030606.5A CN202010030606A CN111260201A CN 111260201 A CN111260201 A CN 111260201A CN 202010030606 A CN202010030606 A CN 202010030606A CN 111260201 A CN111260201 A CN 111260201A
Authority
CN
China
Prior art keywords
variables
variable importance
variable
random forest
hierarchical
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010030606.5A
Other languages
English (en)
Other versions
CN111260201B (zh
Inventor
何飞
王立东
胡宇星
张志研
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology Beijing USTB
Original Assignee
University of Science and Technology Beijing USTB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology Beijing USTB filed Critical University of Science and Technology Beijing USTB
Priority to CN202010030606.5A priority Critical patent/CN111260201B/zh
Publication of CN111260201A publication Critical patent/CN111260201A/zh
Application granted granted Critical
Publication of CN111260201B publication Critical patent/CN111260201B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06393Score-carding, benchmarking or key performance indicator [KPI] analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Educational Administration (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Development Economics (AREA)
  • Evolutionary Computation (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Strategic Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种基于分层随机森林的变量重要性分析方法,包括以下步骤:获取待处理数据集,所述待处理数据集中的每个样本具有多个变量;对所述待处理数据集进行预处理,剔除异常样本和空值;对预处理后的数据集,将其中的变量按照加工工序进行分组;有放回随机抽样生成多个训练集,为每一个训练集建立分层决策树;将多棵分层决策树融合形成分层随机森林模型;利用Morris筛选法或Gini指数法结合分层随机森林模型进行变量重要性分析,生成变量重要性排序。本发明方法解决了现有技术中的常规质量建模方法不考虑多工序生产过程的问题,能够很好地体现多工序加工过程的先后作用,提高了模型的准确性和可解释性。

Description

一种基于分层随机森林的变量重要性分析方法
技术领域
本发明涉及流程工业质量管控与优化技术领域,特别涉及一种基于分层随机森林的多工序流程工业的变量重要性分析方法。
背景技术
在生产过程中,需要建立一个良好的数学模型来对整个生产流程进行整体分析,从而可以得到高质量良好的产品。然而几乎所有生产过程都会有多道加工工序,所以得到的数据包含多工序加工信息。
在实际生产过程中,需要找到对其影响最大的若干变量,从而进行质量分析。因此,需要利用变量重要性分析来寻找这若干个最影响产品质量波动的最重要的工艺变量。实际生产过程可能包含多道加工工序,例如冶金、石化等流程钢材生产过程包含多道加工工序,然而现有的常规模型无法很好地解释多工序生产过程。
发明内容
本发明的目的在于提供一种基于分层随机森林的变量重要性分析方法,解决现有技术中的常规质量建模方法不考虑多工序生产过程的问题,提高变量重要性分析的可解释性。
为解决上述技术问题,本发明的实施例提供如下方案:
一种基于分层随机森林的变量重要性分析方法,包括以下步骤:
S1、获取待处理数据集,所述待处理数据集中的每个样本具有多个变量;
S2、对所述待处理数据集进行预处理,剔除异常样本和空值;
S3、对预处理后的数据集,将其中的变量按照加工工序进行分组;
S4、抽样生成多个训练集,为每一个训练集建立分层决策树;
S5、将多棵分层决策树融合形成分层随机森林模型;
S6、利用Morris筛选法或Gini指数法结合分层随机森林模型进行变量重要性分析,生成变量重要性排序。
优选地,在所述步骤S1中,获取待处理数据集的方法为采用原始数据集或在原始数据集上随机抽取。
优选地,所述步骤S2还包括:
使用SMOTE过采样方法消除正常样本和异常样本的不平衡问题。
优选地,所述步骤S3包括:
将上游的化学成分变量作为第一工序的变量,将下游的工艺变量作为第二工序的变量,进行分组。
优选地,所述步骤S4包括:
利用Bootstrap抽样方法,采用多次有放回随机抽样技术从原始样本中抽取预定数量的样本,生成多个训练集。
优选地,在对分层决策树的每个节点进行最佳变量选择时,并非全体变量参与选择,而是从全体变量中随机选择若干个变量参与选择。
优选地,对于多个训练集,首先对第一组变量利用最小化准则进行划分,得到第一层及其叶节点,然后以第一层的叶节点作为下一层的根节点,对下一组变量进行划分,最终建立分层决策树。
优选地,所述步骤S6包括:
对于连续质量问题,利用Morris筛选法结合分层随机森林模型对多工序加工过程进行变量重要性分析,利用基效应的绝对值均值来衡量变量的重要性。
优选地,所述步骤S6包括:
对于离散质量问题,利用Gini指数法结合分层随机森林模型对多工序加工过程进行变量重要性分析,产生变量重要性评分和排序。
优选地,将同一个变量在两次结果中的序号差作为距离,将所有变量的距离总和称为总距离,以总距离作为衡量波动性的指标,找到最合适的森林规模。
本发明的上述方案至少包括以下有益效果:
本发明方法解决了现有技术中的常规质量建模方法不考虑多工序生产过程的问题,与多元线性回归、偏最小二乘回归等线性方法以及随机森林算法进行对比,结果表明分层随机森林算法能够很好地体现多工序加工过程的先后作用,提高了模型的准确性和可解释性。
附图说明
图1是本发明实施例提供的基于分层随机森林的变量重要性分析方法的流程图;
图2是本发明实施例中的一个分层决策树的示例图;
图3是本发明实施例中的Morris筛选法流程图;
图4是本发明实施例中采用Morris方法对分层随机森林模型进行分析,波动性指标总距离随规模变化的示意图;
图5-图6是本发明实施例中基于分层随机森林的规模为10棵树的变量重要性柱状图;
图7-图8是本发明实施例中基于分层随机森林的规模为20棵树的变量重要性柱状图;
图9是利用本发明实施例中的各模型求得各变量重要性的误差率示意图。
具体实施方式
为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。
本发明的实施例提供了一种基于分层随机森林的变量重要性分析方法,如图1所示,该方法包括以下步骤:
S1、获取待处理数据集,所述待处理数据集中的每个样本具有多个变量;
S2、对所述待处理数据集进行预处理,剔除异常样本和空值;
S3、对预处理后的数据集,将其中的变量按照加工工序进行分组;
S4、抽样生成多个训练集,为每一个训练集建立分层决策树;
S5、将多棵分层决策树融合形成分层随机森林模型;
S6、利用Morris筛选法或Gini指数法结合分层随机森林模型进行变量重要性分析,生成变量重要性排序。
本发明方法能够解决现有技术中的常规质量建模方法不考虑多工序生产过程的问题,能够很好地体现多工序加工过程的先后作用,提高了模型的准确性和可解释性。
进一步地,在步骤S1中,获取待处理数据集的方法为采用原始数据集或在原始数据集上随机抽取。
分层随机森林是一种基于分层决策树算法随机抽取的组合学习器,为了解决分层决策树存在的问题,分层随机森林需要具有随机性。
利用分层随机森林算法对数据集进行回归建模,并进行变量重要性分析得到的结果会存在波动性,多次运行算法得到的结果可能会存在一定的差异。该现象是由于样本随机选择和变量随机选择,导致分层随机森林模型存在随机性,所以需要增大分层随机森林的规模,更多的树可以使得多次运行的结果差异变小,从而提高结果的稳定性。但是太大的规模会导致模型过于复杂,同时影响模型的运行速度,因此需要合理选择。
进一步地,步骤S2还包括:
使用SMOTE过采样方法消除正常样本和异常样本的不平衡问题。
对于分类问题,若生产数据中存在正常样本和异常样本不平衡问题,使用SMOTE过采样方法可以在一定程度上改善分层随机森林算法样本不平衡问题,降低存在过学习的可能性,大大提高了模型的分类精度。
进一步地,步骤S3包括:
将上游的化学成分变量作为第一工序的变量,将下游的工艺变量作为第二工序的变量,进行分组。
其中,上游的化学成分变量包括碳、硅等,下游的工艺变量包括回火温度、回火时间等。
进一步地,步骤S4包括:
利用Bootstrap抽样方法,采用多次有放回随机抽样技术从原始样本中抽取预定数量的样本,生成多个训练集。
在抽样生成训练集时,利用Bootstrap抽样方法,采用重复抽样技术从原始样本中抽取一定数量(一般与原始样本相同)的样本。因此,每次生成的训练集与原始训练集都不同,存在随机性。
其中,在对分层决策树的每个节点进行最佳变量选择时,并非全体变量参与选择,而是从全体变量中随机选择若干个变量参与选择。变量的随机抽取目的是为了提高精度,减小森林中树之间的相关性。
对于多个训练集,首先对第一组变量利用最小化准则进行划分,得到第一层及其叶节点,然后以第一层的叶节点作为下一层的根节点,对下一组变量进行划分,最终建立分层决策树。
进一步地,步骤S6包括:
对于连续质量问题,利用Morris筛选法结合分层随机森林模型对多工序加工过程进行变量重要性分析,利用基效应的绝对值均值来衡量变量的重要性。
对于离散质量问题,利用Gini指数法结合分层随机森林模型对多工序加工过程进行变量重要性分析,产生变量重要性评分和排序。
进一步地,由于结果存在波动性,所以同一个变量在两次结果中的序号并不一定相同,将同一个变量在两次结果中的序号差作为距离,将所有变量的距离总和称为总距离,以总距离作为衡量波动性的指标,找到最合适的森林规模。
本发明将分层随机森林模型应用到变量重要性研究中,并用钢铁疲劳强度数据进行验证分析。
对于连续数据可以利用Morris筛选法结合分层随机森林来进行变量重要性分析:
日本国立材料研究所(NIMS)的钢材疲劳数据集,成分、轧制产品(上游)变量和热处理加工(下游)参数。疲劳强度数据集有437个样本/行、25个变量/列(组成和处理参数)和1个目标变量(疲劳强度);
样本数据预处理,仔细分析数据集,删除异常样本和错误样本。
利用分层随机森林算法对疲劳强度数据集进行质量建模分析。
针对上述的钢材的疲劳强度数据集,先利用CART算法进行建模,最大树深从1开始逐渐增加,当最大树深为3时,R2值已经接近0.9,可以说明模型预测效果很高。若最大树深过大,不仅影响建模效率,同时会出现过拟合问题,所以将最大树深设为3。
将上游的化学成分变量(如碳、硅等)作为第一工序的变量,将下游的工艺变量(如回火温度、回火时间等)作为第二工序的变量。
生产过程存在2道工序,所以将每棵树分为2层,一层深度为1,一层深度为2。由于2道工序分别包含9个变量和16个变量,所以第二层深度大更有利于建模,因此设定第一层深度为1,第二层深度为2。
分层随机森林模型通过自助法(Bootstrap抽样)技术,从原始样本集中有放回地重复随机抽取n个样本。进行q次抽取,得到q个训练集。
对于q个训练集,对第一组变量建立树模型,利用最小化准则划分,得到第一层和其叶节点,每一层的叶节点作为下一层的根节点,对下一组变量划分,最终得到共有3层的分层树模型如图2所示。
将多棵分层树融合为分层随机森林模型。用分层树算法,得到q棵树从而组合成组成森林(每棵树的重要性相同)。最终结果是q个模型预测结果的均值(回归问题)或是由q个模型投票表决产生的结果(分类问题)。
对于连续质量问题,本发明方法利用Morris筛选法来进行变量重要性分析,具体计算步骤如下:
1)定义空间:
Ω:X=X1,X2,…,Xk,Xi={0,1/p-1,2/p-1,…,1}。
在Ω中随机选择某样本作为出发点,运行一次模型,计算其输出;
2)改变该样本中变量i的取值,变化量Δ为1/(p-1)的倍数,p等于样本容量N或N+1(p为偶数),变化量Δ=p/[2(p-1)],确定Δ的正负,并将新样本放回Ω。再运行一次模型,计算其输出;
3)由步骤1)、2)的输出,计算基效应di(x);
4)继续改变该样本点其他变量,计算输出。直至所有输入变量均得到变化,一共运行k+1次,k为变量个数;
5)重复步骤1)-4),每次均从不同的起始点出发,共重复r次。则模型共运行了r(k+1)次;
6)按上述方法计算μ*,作为衡量变量重要性的指标。
该方法具体流程如图3所示。
由于结果存在波动性,所以同一个变量在两次结果中的序号并不一定相同,将Rank1和Rank2中同一个变量的序号差作为距离,将所有变量的距离总和称为总距离D。即,采用Morris方法对分层随机森林模型进行分析,计算各变量重要性,将结果进行归一化并从大到小进行排序,重复操作一次,得到两个结果。变量Xi在两次结果中的序号为
Figure BDA0002364154210000071
Figure BDA0002364154210000072
规定距离
Figure BDA0002364154210000073
总距离D=∑di,将D作为衡量波动性的指标。
为了找到最合适的规模,先设定分层随机森林模型的规模为2棵树,然后逐次增加,每次增加2棵树,每次都按上述方法运行两次模型,计算距离,得到总距离随规模变化的结果如图4所示:
举例直观地比较结果的波动性,将分层随机森林的规模设置为10棵树,得到两次计算的结果如图5和图6所示:
再将分层随机森林模型的规模设置为20棵树,进行变量重要性分析,两次结果如图7和图8所示。
从图5-图8的比较中可以看出,分层随机森林模型的规模为10棵树的时候,不但两次结果的变量重要性顺序不太一致,而且重要性下降的趋势也不一样,波动性比较大;当规模为20棵树的时候,两次结果的变量重要性的顺序基本一致,而且重要性下降趋势也几乎相同。因此,可以认为当分层随机森林模型的规模为20棵树的时候,其计算得到的变量重要性结果是可信的。
然后具体分析比较各变量的重要性,可以得出:
(1)TT(回火温度)是影响疲劳强度最重要的变量。这是因为数据集由多种等级的钢组成,每种钢的TT范围都很窄,但差别很大。例如,全淬火回火(无渗碳)的TT约为400℃,而渗碳的TT约为200℃。这两种情况将导致疲劳强度差异很大。
(2)回火工艺对材料的硬度和抗拉强度有显著的影响,因此会相应的影响疲劳强度,可以看到Tt(回火时间)的影响也很大。
(3)渗碳步骤中温度过高会使得钢材的耐磨性和耐腐蚀性下降,时间过长会对钢材的硬度和延伸率造成不利影响,从而对疲劳强度产生影响。可以看到CT(渗碳温度)和Ct(渗碳时间)的重要性都很高。
(4)其他变量,如C(碳含量)或THT(穿透硬化温度),也是重要的影响因素。
综上所述,这些与预期结果一致,说明基于分层随机森林模型的Morris筛选方法应用在实际数据上也是可行的。
通过与其它模型对比来验证模型的准确性和可解释性,不同模型的变量重要性结果如下:
分别利用多元线性回归模型、偏最小二乘回归模型、随机森林回归模型和分层随机森林回归模型结合Morris筛选的方法来计算变量的重要性。得到的变量重要性结果具体如表1所示:
表1各模型计算的变量重要性原始结果
Figure BDA0002364154210000081
由于变量X1、X2、X3和变量X4、X5、X6属于两个不同工序,应分别进行分析。所以将各方法获得的结果中变量X1和变量X5的重要性定为标准,分别为1和5,按比例改变其他变量的重要性值,得到的变量重要性结果具体如表2:
表2变量重要性结果
Figure BDA0002364154210000082
从表2可以得到以下结论:
按照系数,变量X2和X4的重要性应该要分别大于变量X1和X5。通过多元线性回归模型、偏最小二乘回归模型和随机森林三种模型得到的变量重要性结果却是相反的,它们认为变量X2和X4要分别比变量X1和X5更重要。而Morris方法通过分层随机森林模型,正确地判断出变量X1和X5的重要性分别大于变量X2和X4,初步说明分层随机森林模型比其他模型在变量重要性计算方面更加准确。
通过计算误差率来更加直观地判断各算法的优劣,误差率=(按比例改变后的变量重要性-标准重要性)/标准重要性。误差率结果如图9所示。
从图9中通过比较分析可以看出:
(1)基于随机森林模型和基于分层随机森林模型得到的变量重要性结果要远优于基于多元线性回归模型、偏最小二乘回归模型得到的变量重要性结果。说明通过集成学习算法,可以大大减少变量重要性预测的误差率。
(2)对比基于分层随机森林模型和基于随机森林模型得到的变量重要性结果,前者的各变量重要性预测误差率都有一定的下降,说明通过决策树通过分层,可以提高变量重要性预测的准确性。
通过表2和图9分析得到的结论,可以说明对于存在工序顺序问题的数据,分层随机森林模型比其他模型在变量重要性计算方面更加准确。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种基于分层随机森林的变量重要性分析方法,其特征在于,包括以下步骤:
S1、获取待处理数据集,所述待处理数据集中的每个样本具有多个变量;
S2、对所述待处理数据集进行预处理,剔除异常样本和空值;
S3、对预处理后的数据集,将其中的变量按照加工工序进行分组;
S4、抽样生成多个训练集,为每一个训练集建立分层决策树;
S5、将多棵分层决策树融合形成分层随机森林模型;
S6、利用Morris筛选法或Gini指数法结合分层随机森林模型进行变量重要性分析,生成变量重要性排序。
2.根据权利要求1所述的变量重要性分析方法,其特征在于,在所述步骤S1中,获取待处理数据集的方法为采用原始数据集或在原始数据集上随机抽取。
3.根据权利要求1所述的变量重要性分析方法,其特征在于,所述步骤S2还包括:
使用SMOTE过采样方法消除正常样本和异常样本的不平衡问题。
4.根据权利要求1所述的变量重要性分析方法,其特征在于,所述步骤S3包括:
将上游的化学成分变量作为第一工序的变量,将下游的工艺变量作为第二工序的变量,进行分组。
5.根据权利要求1所述的变量重要性分析方法,其特征在于,所述步骤S4包括:
利用Bootstrap抽样方法,采用多次有放回随机抽样技术从原始样本中抽取预定数量的样本,生成多个训练集。
6.根据权利要求1所述的变量重要性分析方法,其特征在于,在对分层决策树的每个节点进行最佳变量选择时,并非全体变量参与选择,而是从全体变量中随机选择若干个变量参与选择。
7.根据权利要求1所述的变量重要性分析方法,其特征在于,对于多个训练集,首先对第一组变量利用最小化准则进行划分,得到第一层及其叶节点,然后以第一层的叶节点作为下一层的根节点,对下一组变量进行划分,最终建立分层决策树。
8.根据权利要求1所述的变量重要性分析方法,其特征在于,所述步骤S6包括:
对于连续质量问题,利用Morris筛选法结合分层随机森林模型对多工序加工过程进行变量重要性分析,利用基效应的绝对值均值来衡量变量的重要性。
9.根据权利要求1所述的变量重要性分析方法,其特征在于,所述步骤S6包括:
对于离散质量问题,利用Gini指数法结合分层随机森林模型对多工序加工过程进行变量重要性分析,产生变量重要性评分和排序。
10.根据权利要求8所述的变量重要性分析方法,其特征在于,将同一个变量在两次结果中的序号差作为距离,将所有变量的距离总和称为总距离,以总距离作为衡量波动性的指标,找到最合适的森林规模。
CN202010030606.5A 2020-01-13 2020-01-13 一种基于分层随机森林的变量重要性分析方法 Active CN111260201B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010030606.5A CN111260201B (zh) 2020-01-13 2020-01-13 一种基于分层随机森林的变量重要性分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010030606.5A CN111260201B (zh) 2020-01-13 2020-01-13 一种基于分层随机森林的变量重要性分析方法

Publications (2)

Publication Number Publication Date
CN111260201A true CN111260201A (zh) 2020-06-09
CN111260201B CN111260201B (zh) 2023-04-28

Family

ID=70945165

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010030606.5A Active CN111260201B (zh) 2020-01-13 2020-01-13 一种基于分层随机森林的变量重要性分析方法

Country Status (1)

Country Link
CN (1) CN111260201B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111753911A (zh) * 2020-06-28 2020-10-09 北京百度网讯科技有限公司 用于融合模型的方法和装置
CN111790762A (zh) * 2020-07-30 2020-10-20 武汉科技大学 一种基于随机森林的热轧带钢轧制力设定方法
CN111982299A (zh) * 2020-08-14 2020-11-24 国家卫星气象中心(国家空间天气监测预警中心) 一种星载微波辐射计数据质量动态评分方法及系统
CN112069567A (zh) * 2020-08-07 2020-12-11 湖北交投十巫高速公路有限公司 基于随机森林和智能算法预测混凝土抗压强度的方法
CN113011889A (zh) * 2021-03-10 2021-06-22 腾讯科技(深圳)有限公司 账号异常识别方法、系统、装置、设备及介质
CN113516178A (zh) * 2021-06-22 2021-10-19 常州微亿智造科技有限公司 工业零部件的缺陷检测方法、缺陷检测装置

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090281981A1 (en) * 2008-05-06 2009-11-12 Chen Barry Y Discriminant Forest Classification Method and System
CN104007699A (zh) * 2014-06-13 2014-08-27 沈阳飞机工业(集团)有限公司 基于工艺过程的飞机结构件自动编程加工单元优化排序方法
CN104156537A (zh) * 2014-08-19 2014-11-19 中山大学 一种基于随机森林的元胞自动机城市扩展模拟方法
CN107179503A (zh) * 2017-04-21 2017-09-19 美林数据技术股份有限公司 基于随机森林的风电机组故障智能诊断预警的方法
CN107330555A (zh) * 2017-06-30 2017-11-07 红云红河烟草(集团)有限责任公司 一种基于随机森林回归的制丝过程参数赋权方法
CN109409647A (zh) * 2018-09-10 2019-03-01 昆明理工大学 一种基于随机森林算法的薪资水平影响因素的分析方法
CN109657945A (zh) * 2018-12-06 2019-04-19 华中科技大学 一种基于数据驱动的工业生产过程故障诊断方法
CN109711597A (zh) * 2018-11-14 2019-05-03 东莞理工学院 一种基于分层随机森林模型的铜镍硫化物矿床成矿预测方法
CN110334767A (zh) * 2019-07-08 2019-10-15 重庆大学 一种用于空气质量分类的改进随机森林方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090281981A1 (en) * 2008-05-06 2009-11-12 Chen Barry Y Discriminant Forest Classification Method and System
CN104007699A (zh) * 2014-06-13 2014-08-27 沈阳飞机工业(集团)有限公司 基于工艺过程的飞机结构件自动编程加工单元优化排序方法
CN104156537A (zh) * 2014-08-19 2014-11-19 中山大学 一种基于随机森林的元胞自动机城市扩展模拟方法
CN107179503A (zh) * 2017-04-21 2017-09-19 美林数据技术股份有限公司 基于随机森林的风电机组故障智能诊断预警的方法
CN107330555A (zh) * 2017-06-30 2017-11-07 红云红河烟草(集团)有限责任公司 一种基于随机森林回归的制丝过程参数赋权方法
CN109409647A (zh) * 2018-09-10 2019-03-01 昆明理工大学 一种基于随机森林算法的薪资水平影响因素的分析方法
CN109711597A (zh) * 2018-11-14 2019-05-03 东莞理工学院 一种基于分层随机森林模型的铜镍硫化物矿床成矿预测方法
CN109657945A (zh) * 2018-12-06 2019-04-19 华中科技大学 一种基于数据驱动的工业生产过程故障诊断方法
CN110334767A (zh) * 2019-07-08 2019-10-15 重庆大学 一种用于空气质量分类的改进随机森林方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
牛志华;屈景怡;吴仁彪;: "基于Spark的分层子空间权重树随机森林算法" *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111753911A (zh) * 2020-06-28 2020-10-09 北京百度网讯科技有限公司 用于融合模型的方法和装置
CN111790762A (zh) * 2020-07-30 2020-10-20 武汉科技大学 一种基于随机森林的热轧带钢轧制力设定方法
CN111790762B (zh) * 2020-07-30 2022-02-15 武汉科技大学 一种基于随机森林的热轧带钢轧制力设定方法
CN112069567A (zh) * 2020-08-07 2020-12-11 湖北交投十巫高速公路有限公司 基于随机森林和智能算法预测混凝土抗压强度的方法
CN112069567B (zh) * 2020-08-07 2024-01-12 湖北交投十巫高速公路有限公司 基于随机森林和智能算法预测混凝土抗压强度的方法
CN111982299A (zh) * 2020-08-14 2020-11-24 国家卫星气象中心(国家空间天气监测预警中心) 一种星载微波辐射计数据质量动态评分方法及系统
CN111982299B (zh) * 2020-08-14 2021-08-17 国家卫星气象中心(国家空间天气监测预警中心) 一种星载微波辐射计数据质量动态评分方法及系统
CN113011889A (zh) * 2021-03-10 2021-06-22 腾讯科技(深圳)有限公司 账号异常识别方法、系统、装置、设备及介质
CN113011889B (zh) * 2021-03-10 2023-09-15 腾讯科技(深圳)有限公司 账号异常识别方法、系统、装置、设备及介质
CN113516178A (zh) * 2021-06-22 2021-10-19 常州微亿智造科技有限公司 工业零部件的缺陷检测方法、缺陷检测装置

Also Published As

Publication number Publication date
CN111260201B (zh) 2023-04-28

Similar Documents

Publication Publication Date Title
CN111260201B (zh) 一种基于分层随机森林的变量重要性分析方法
Kapp et al. Are clusters found in one dataset present in another dataset?
CN108595913A (zh) 鉴别mRNA和lncRNA的有监督学习方法
CN113190967B (zh) 一种基于多目标筛选的细支卷烟材料组配方法
CN111790762B (zh) 一种基于随机森林的热轧带钢轧制力设定方法
CN109242037B (zh) 一种烟叶品质相似度度量方法
CN105740467A (zh) 一种C-Mn钢工业大数据的挖掘方法
CN102945222B (zh) 一种基于灰色理论的乏信息测量数据粗大误差判别方法
CN114781951A (zh) 一种页岩油藏二氧化碳吞吐开发选井决策方法及系统
CN113642666A (zh) 一种基于样本扩充和筛选的主动增强软测量方法
CN113128124A (zh) 基于改进神经网络的多牌号C-Mn钢力学性能预测方法
CN111680910A (zh) 一种基于卷烟配方功效的烟叶适用范围定位方法
CN114898821A (zh) 一种基于机器学习模型融合的合金性能预测方法
Bhambri A CAD system for software effort estimation
CN113762614A (zh) 一种基于静态油气田数据的页岩气井产能预测的方法
CN113515891A (zh) 一种乳化炸药质量预测和优化方法
CN116861342A (zh) 一种滚动直线导轨副的磨损状态识别方法
US8140456B2 (en) Method and system of extracting factors using generalized Fisher ratios
CN115985411A (zh) 基于高斯过程回归模型的高分子熔融指数软测量方法
CN113887089A (zh) 线棒材力学性能预测方法及计算机可读存储介质
CN112883284A (zh) 一种基于网络和数据分析的在线学习系统及测试题推荐方法
CN108985854B (zh) 一种用户参与的个性化产品概念设计方法
Susetyoko et al. Characteristics of Accuracy Function on Multiclass Classification Based on Best, Average, and Worst (BAW) Subset of Random Forest Model
CN117494531B (zh) 一种基于有限元和XGBoost算法的中碳钢脱碳深度预测方法
TWI755995B (zh) 對工程資料進行篩選以得到特徵的方法與系統、對工程資料進行多次篩選以得到特徵的方法、產生預測模型的方法以及將工程資料線上特徵化的系統

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant