CN111260201A

CN111260201A - 一种基于分层随机森林的变量重要性分析方法

Info

Publication number: CN111260201A
Application number: CN202010030606.5A
Authority: CN
Inventors: 何飞; 王立东; 胡宇星; 张志研
Original assignee: University of Science and Technology Beijing USTB
Current assignee: University of Science and Technology Beijing USTB
Priority date: 2020-01-13
Filing date: 2020-01-13
Publication date: 2020-06-09
Anticipated expiration: 2040-01-13
Also published as: CN111260201B

Abstract

本发明提供一种基于分层随机森林的变量重要性分析方法，包括以下步骤：获取待处理数据集，所述待处理数据集中的每个样本具有多个变量；对所述待处理数据集进行预处理，剔除异常样本和空值；对预处理后的数据集，将其中的变量按照加工工序进行分组；有放回随机抽样生成多个训练集，为每一个训练集建立分层决策树；将多棵分层决策树融合形成分层随机森林模型；利用Morris筛选法或Gini指数法结合分层随机森林模型进行变量重要性分析，生成变量重要性排序。本发明方法解决了现有技术中的常规质量建模方法不考虑多工序生产过程的问题，能够很好地体现多工序加工过程的先后作用，提高了模型的准确性和可解释性。

Description

一种基于分层随机森林的变量重要性分析方法

技术领域

本发明涉及流程工业质量管控与优化技术领域，特别涉及一种基于分层随机森林的多工序流程工业的变量重要性分析方法。

背景技术

在生产过程中，需要建立一个良好的数学模型来对整个生产流程进行整体分析，从而可以得到高质量良好的产品。然而几乎所有生产过程都会有多道加工工序，所以得到的数据包含多工序加工信息。

在实际生产过程中，需要找到对其影响最大的若干变量，从而进行质量分析。因此，需要利用变量重要性分析来寻找这若干个最影响产品质量波动的最重要的工艺变量。实际生产过程可能包含多道加工工序，例如冶金、石化等流程钢材生产过程包含多道加工工序，然而现有的常规模型无法很好地解释多工序生产过程。

发明内容

本发明的目的在于提供一种基于分层随机森林的变量重要性分析方法，解决现有技术中的常规质量建模方法不考虑多工序生产过程的问题，提高变量重要性分析的可解释性。

为解决上述技术问题，本发明的实施例提供如下方案：

一种基于分层随机森林的变量重要性分析方法，包括以下步骤：

S1、获取待处理数据集，所述待处理数据集中的每个样本具有多个变量；

S2、对所述待处理数据集进行预处理，剔除异常样本和空值；

S3、对预处理后的数据集，将其中的变量按照加工工序进行分组；

S4、抽样生成多个训练集，为每一个训练集建立分层决策树；

S5、将多棵分层决策树融合形成分层随机森林模型；

S6、利用Morris筛选法或Gini指数法结合分层随机森林模型进行变量重要性分析，生成变量重要性排序。

优选地，在所述步骤S1中，获取待处理数据集的方法为采用原始数据集或在原始数据集上随机抽取。

优选地，所述步骤S2还包括：

使用SMOTE过采样方法消除正常样本和异常样本的不平衡问题。

优选地，所述步骤S3包括：

将上游的化学成分变量作为第一工序的变量，将下游的工艺变量作为第二工序的变量，进行分组。

优选地，所述步骤S4包括：

利用Bootstrap抽样方法，采用多次有放回随机抽样技术从原始样本中抽取预定数量的样本，生成多个训练集。

优选地，在对分层决策树的每个节点进行最佳变量选择时，并非全体变量参与选择，而是从全体变量中随机选择若干个变量参与选择。

优选地，对于多个训练集，首先对第一组变量利用最小化准则进行划分，得到第一层及其叶节点，然后以第一层的叶节点作为下一层的根节点，对下一组变量进行划分，最终建立分层决策树。

优选地，所述步骤S6包括：

对于连续质量问题，利用Morris筛选法结合分层随机森林模型对多工序加工过程进行变量重要性分析，利用基效应的绝对值均值来衡量变量的重要性。

优选地，所述步骤S6包括：

对于离散质量问题，利用Gini指数法结合分层随机森林模型对多工序加工过程进行变量重要性分析，产生变量重要性评分和排序。

优选地，将同一个变量在两次结果中的序号差作为距离，将所有变量的距离总和称为总距离，以总距离作为衡量波动性的指标，找到最合适的森林规模。

本发明的上述方案至少包括以下有益效果：

本发明方法解决了现有技术中的常规质量建模方法不考虑多工序生产过程的问题，与多元线性回归、偏最小二乘回归等线性方法以及随机森林算法进行对比，结果表明分层随机森林算法能够很好地体现多工序加工过程的先后作用，提高了模型的准确性和可解释性。

附图说明

图1是本发明实施例提供的基于分层随机森林的变量重要性分析方法的流程图；

图2是本发明实施例中的一个分层决策树的示例图；

图3是本发明实施例中的Morris筛选法流程图；

图4是本发明实施例中采用Morris方法对分层随机森林模型进行分析，波动性指标总距离随规模变化的示意图；

图5-图6是本发明实施例中基于分层随机森林的规模为10棵树的变量重要性柱状图；

图7-图8是本发明实施例中基于分层随机森林的规模为20棵树的变量重要性柱状图；

图9是利用本发明实施例中的各模型求得各变量重要性的误差率示意图。

具体实施方式

为使本发明要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。

本发明的实施例提供了一种基于分层随机森林的变量重要性分析方法，如图1所示，该方法包括以下步骤：

S5、将多棵分层决策树融合形成分层随机森林模型；

本发明方法能够解决现有技术中的常规质量建模方法不考虑多工序生产过程的问题，能够很好地体现多工序加工过程的先后作用，提高了模型的准确性和可解释性。

进一步地，在步骤S1中，获取待处理数据集的方法为采用原始数据集或在原始数据集上随机抽取。

分层随机森林是一种基于分层决策树算法随机抽取的组合学习器，为了解决分层决策树存在的问题，分层随机森林需要具有随机性。

利用分层随机森林算法对数据集进行回归建模，并进行变量重要性分析得到的结果会存在波动性，多次运行算法得到的结果可能会存在一定的差异。该现象是由于样本随机选择和变量随机选择，导致分层随机森林模型存在随机性，所以需要增大分层随机森林的规模，更多的树可以使得多次运行的结果差异变小，从而提高结果的稳定性。但是太大的规模会导致模型过于复杂，同时影响模型的运行速度，因此需要合理选择。

进一步地，步骤S2还包括：

对于分类问题，若生产数据中存在正常样本和异常样本不平衡问题，使用SMOTE过采样方法可以在一定程度上改善分层随机森林算法样本不平衡问题，降低存在过学习的可能性，大大提高了模型的分类精度。

进一步地，步骤S3包括：

其中，上游的化学成分变量包括碳、硅等，下游的工艺变量包括回火温度、回火时间等。

进一步地，步骤S4包括：

在抽样生成训练集时，利用Bootstrap抽样方法，采用重复抽样技术从原始样本中抽取一定数量(一般与原始样本相同)的样本。因此，每次生成的训练集与原始训练集都不同，存在随机性。

其中，在对分层决策树的每个节点进行最佳变量选择时，并非全体变量参与选择，而是从全体变量中随机选择若干个变量参与选择。变量的随机抽取目的是为了提高精度，减小森林中树之间的相关性。

对于多个训练集，首先对第一组变量利用最小化准则进行划分，得到第一层及其叶节点，然后以第一层的叶节点作为下一层的根节点，对下一组变量进行划分，最终建立分层决策树。

进一步地，步骤S6包括：

进一步地，由于结果存在波动性，所以同一个变量在两次结果中的序号并不一定相同，将同一个变量在两次结果中的序号差作为距离，将所有变量的距离总和称为总距离，以总距离作为衡量波动性的指标，找到最合适的森林规模。

本发明将分层随机森林模型应用到变量重要性研究中，并用钢铁疲劳强度数据进行验证分析。

对于连续数据可以利用Morris筛选法结合分层随机森林来进行变量重要性分析：

日本国立材料研究所(NIMS)的钢材疲劳数据集，成分、轧制产品(上游)变量和热处理加工(下游)参数。疲劳强度数据集有437个样本/行、25个变量/列(组成和处理参数)和1个目标变量(疲劳强度)；

样本数据预处理，仔细分析数据集，删除异常样本和错误样本。

利用分层随机森林算法对疲劳强度数据集进行质量建模分析。

针对上述的钢材的疲劳强度数据集，先利用CART算法进行建模，最大树深从1开始逐渐增加，当最大树深为3时，R2值已经接近0.9，可以说明模型预测效果很高。若最大树深过大，不仅影响建模效率，同时会出现过拟合问题，所以将最大树深设为3。

将上游的化学成分变量(如碳、硅等)作为第一工序的变量，将下游的工艺变量(如回火温度、回火时间等)作为第二工序的变量。

生产过程存在2道工序，所以将每棵树分为2层，一层深度为1，一层深度为2。由于2道工序分别包含9个变量和16个变量，所以第二层深度大更有利于建模，因此设定第一层深度为1，第二层深度为2。

分层随机森林模型通过自助法(Bootstrap抽样)技术，从原始样本集中有放回地重复随机抽取n个样本。进行q次抽取，得到q个训练集。

对于q个训练集，对第一组变量建立树模型，利用最小化准则划分，得到第一层和其叶节点，每一层的叶节点作为下一层的根节点，对下一组变量划分，最终得到共有3层的分层树模型如图2所示。

将多棵分层树融合为分层随机森林模型。用分层树算法，得到q棵树从而组合成组成森林(每棵树的重要性相同)。最终结果是q个模型预测结果的均值(回归问题)或是由q个模型投票表决产生的结果(分类问题)。

对于连续质量问题，本发明方法利用Morris筛选法来进行变量重要性分析，具体计算步骤如下：

1)定义空间：

Ω：X＝X₁，X₂，…，X_k，X_i＝{0，1/p-1，2/p-1，…，1}。

在Ω中随机选择某样本作为出发点，运行一次模型，计算其输出；

2)改变该样本中变量i的取值，变化量Δ为1/(p-1)的倍数，p等于样本容量N或N+1(p为偶数)，变化量Δ＝p/[2(p-1)]，确定Δ的正负，并将新样本放回Ω。再运行一次模型，计算其输出；

3)由步骤1)、2)的输出，计算基效应d_i(x)；

4)继续改变该样本点其他变量，计算输出。直至所有输入变量均得到变化，一共运行k+1次，k为变量个数；

5)重复步骤1)-4)，每次均从不同的起始点出发，共重复r次。则模型共运行了r(k+1)次；

6)按上述方法计算μ^*，作为衡量变量重要性的指标。

该方法具体流程如图3所示。

由于结果存在波动性，所以同一个变量在两次结果中的序号并不一定相同，将Rank₁和Rank₂中同一个变量的序号差作为距离，将所有变量的距离总和称为总距离D。即，采用Morris方法对分层随机森林模型进行分析，计算各变量重要性，将结果进行归一化并从大到小进行排序，重复操作一次，得到两个结果。变量X_i在两次结果中的序号为

和

规定距离

总距离D＝∑d_i，将D作为衡量波动性的指标。

为了找到最合适的规模，先设定分层随机森林模型的规模为2棵树，然后逐次增加，每次增加2棵树，每次都按上述方法运行两次模型，计算距离，得到总距离随规模变化的结果如图4所示：

举例直观地比较结果的波动性，将分层随机森林的规模设置为10棵树，得到两次计算的结果如图5和图6所示：

再将分层随机森林模型的规模设置为20棵树，进行变量重要性分析，两次结果如图7和图8所示。

从图5-图8的比较中可以看出，分层随机森林模型的规模为10棵树的时候，不但两次结果的变量重要性顺序不太一致，而且重要性下降的趋势也不一样，波动性比较大；当规模为20棵树的时候，两次结果的变量重要性的顺序基本一致，而且重要性下降趋势也几乎相同。因此，可以认为当分层随机森林模型的规模为20棵树的时候，其计算得到的变量重要性结果是可信的。

然后具体分析比较各变量的重要性，可以得出：

(1)TT(回火温度)是影响疲劳强度最重要的变量。这是因为数据集由多种等级的钢组成，每种钢的TT范围都很窄，但差别很大。例如，全淬火回火(无渗碳)的TT约为400℃，而渗碳的TT约为200℃。这两种情况将导致疲劳强度差异很大。

(2)回火工艺对材料的硬度和抗拉强度有显著的影响，因此会相应的影响疲劳强度，可以看到Tt(回火时间)的影响也很大。

(3)渗碳步骤中温度过高会使得钢材的耐磨性和耐腐蚀性下降，时间过长会对钢材的硬度和延伸率造成不利影响，从而对疲劳强度产生影响。可以看到CT(渗碳温度)和Ct(渗碳时间)的重要性都很高。

(4)其他变量，如C(碳含量)或THT(穿透硬化温度)，也是重要的影响因素。

综上所述，这些与预期结果一致，说明基于分层随机森林模型的Morris筛选方法应用在实际数据上也是可行的。

通过与其它模型对比来验证模型的准确性和可解释性，不同模型的变量重要性结果如下：

分别利用多元线性回归模型、偏最小二乘回归模型、随机森林回归模型和分层随机森林回归模型结合Morris筛选的方法来计算变量的重要性。得到的变量重要性结果具体如表1所示：

表1各模型计算的变量重要性原始结果

由于变量X₁、X₂、X₃和变量X₄、X₅、X₆属于两个不同工序，应分别进行分析。所以将各方法获得的结果中变量X₁和变量X₅的重要性定为标准，分别为1和5，按比例改变其他变量的重要性值，得到的变量重要性结果具体如表2：

表2变量重要性结果

从表2可以得到以下结论：

按照系数，变量X₂和X₄的重要性应该要分别大于变量X₁和X₅。通过多元线性回归模型、偏最小二乘回归模型和随机森林三种模型得到的变量重要性结果却是相反的，它们认为变量X₂和X₄要分别比变量X₁和X₅更重要。而Morris方法通过分层随机森林模型，正确地判断出变量X₁和X₅的重要性分别大于变量X₂和X₄，初步说明分层随机森林模型比其他模型在变量重要性计算方面更加准确。

通过计算误差率来更加直观地判断各算法的优劣，误差率＝(按比例改变后的变量重要性-标准重要性)/标准重要性。误差率结果如图9所示。

从图9中通过比较分析可以看出：

(1)基于随机森林模型和基于分层随机森林模型得到的变量重要性结果要远优于基于多元线性回归模型、偏最小二乘回归模型得到的变量重要性结果。说明通过集成学习算法，可以大大减少变量重要性预测的误差率。

(2)对比基于分层随机森林模型和基于随机森林模型得到的变量重要性结果，前者的各变量重要性预测误差率都有一定的下降，说明通过决策树通过分层，可以提高变量重要性预测的准确性。

通过表2和图9分析得到的结论，可以说明对于存在工序顺序问题的数据，分层随机森林模型比其他模型在变量重要性计算方面更加准确。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明所述原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于分层随机森林的变量重要性分析方法，其特征在于，包括以下步骤：

S5、将多棵分层决策树融合形成分层随机森林模型；

2.根据权利要求1所述的变量重要性分析方法，其特征在于，在所述步骤S1中，获取待处理数据集的方法为采用原始数据集或在原始数据集上随机抽取。

3.根据权利要求1所述的变量重要性分析方法，其特征在于，所述步骤S2还包括：

4.根据权利要求1所述的变量重要性分析方法，其特征在于，所述步骤S3包括：

5.根据权利要求1所述的变量重要性分析方法，其特征在于，所述步骤S4包括：

6.根据权利要求1所述的变量重要性分析方法，其特征在于，在对分层决策树的每个节点进行最佳变量选择时，并非全体变量参与选择，而是从全体变量中随机选择若干个变量参与选择。

7.根据权利要求1所述的变量重要性分析方法，其特征在于，对于多个训练集，首先对第一组变量利用最小化准则进行划分，得到第一层及其叶节点，然后以第一层的叶节点作为下一层的根节点，对下一组变量进行划分，最终建立分层决策树。

8.根据权利要求1所述的变量重要性分析方法，其特征在于，所述步骤S6包括：

9.根据权利要求1所述的变量重要性分析方法，其特征在于，所述步骤S6包括：

10.根据权利要求8所述的变量重要性分析方法，其特征在于，将同一个变量在两次结果中的序号差作为距离，将所有变量的距离总和称为总距离，以总距离作为衡量波动性的指标，找到最合适的森林规模。