CN107330555A - 一种基于随机森林回归的制丝过程参数赋权方法 - Google Patents
一种基于随机森林回归的制丝过程参数赋权方法 Download PDFInfo
- Publication number
- CN107330555A CN107330555A CN201710523057.3A CN201710523057A CN107330555A CN 107330555 A CN107330555 A CN 107330555A CN 201710523057 A CN201710523057 A CN 201710523057A CN 107330555 A CN107330555 A CN 107330555A
- Authority
- CN
- China
- Prior art keywords
- mrow
- msub
- mfrac
- msubsup
- msup
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 85
- 238000007637 random forest analysis Methods 0.000 title claims abstract description 30
- 238000012545 processing Methods 0.000 title claims abstract description 18
- 238000005303 weighing Methods 0.000 claims abstract description 19
- 238000012360 testing method Methods 0.000 claims abstract description 13
- 238000011160 research Methods 0.000 claims abstract description 12
- 238000002790 cross-validation Methods 0.000 claims abstract description 9
- 230000000694 effects Effects 0.000 claims abstract description 7
- 238000003066 decision tree Methods 0.000 claims description 11
- 239000000463 material Substances 0.000 claims description 10
- 238000011156 evaluation Methods 0.000 claims description 9
- 238000004519 manufacturing process Methods 0.000 claims description 9
- 238000010219 correlation analysis Methods 0.000 claims description 8
- 238000000611 regression analysis Methods 0.000 claims description 8
- 238000005259 measurement Methods 0.000 claims description 6
- 230000001419 dependent effect Effects 0.000 claims description 3
- 238000009826 distribution Methods 0.000 claims description 3
- 238000007689 inspection Methods 0.000 claims description 3
- 238000012549 training Methods 0.000 claims description 3
- 241000208340 Araliaceae Species 0.000 claims 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 claims 1
- 235000003140 Panax quinquefolius Nutrition 0.000 claims 1
- 235000008434 ginseng Nutrition 0.000 claims 1
- 238000004458 analytical method Methods 0.000 abstract description 3
- 230000009286 beneficial effect Effects 0.000 abstract 1
- 241000208125 Nicotiana Species 0.000 description 10
- 235000002637 Nicotiana tabacum Nutrition 0.000 description 10
- 230000001186 cumulative effect Effects 0.000 description 10
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 10
- 235000019504 cigarettes Nutrition 0.000 description 8
- 238000007599 discharging Methods 0.000 description 5
- 238000010220 Pearson correlation analysis Methods 0.000 description 3
- 238000009825 accumulation Methods 0.000 description 3
- 239000003595 mist Substances 0.000 description 3
- 238000013441 quality evaluation Methods 0.000 description 3
- 238000012216 screening Methods 0.000 description 3
- 238000012353 t test Methods 0.000 description 3
- 238000001035 drying Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 235000013399 edible fruits Nutrition 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000013210 evaluation model Methods 0.000 description 1
- 206010016256 fatigue Diseases 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000000513 principal component analysis Methods 0.000 description 1
- 238000001303 quality assessment method Methods 0.000 description 1
- 238000003908 quality control method Methods 0.000 description 1
- 239000002994 raw material Substances 0.000 description 1
- 238000011946 reduction process Methods 0.000 description 1
- 210000000697 sensory organ Anatomy 0.000 description 1
- -1 steam valve aperture Substances 0.000 description 1
- 238000011144 upstream manufacturing Methods 0.000 description 1
- 239000002351 wastewater Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
- G06N5/025—Extracting rules from data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/04—Manufacturing
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- Theoretical Computer Science (AREA)
- Economics (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Marketing (AREA)
- Development Economics (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Quality & Reliability (AREA)
- Operations Research (AREA)
- Game Theory and Decision Science (AREA)
- General Engineering & Computer Science (AREA)
- Educational Administration (AREA)
- Manufacturing & Machinery (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Primary Health Care (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于随机森林回归的制丝过程参数赋权方法,采用制丝过程全批次数据中的稳态数据样本,选定研究变量后,通过Pearson相关性矩阵筛选出解释变量,然后利用随机森林回归进行建模分析,采用拟合优度和5折交叉验证的测试集标准化均方误差分别验证模型的拟合效果和外推预测性能,最终根据OOB均方误差的平均递减值进行解释变量影响权重的测度。本发明的有益效果是:能够克服主观赋权法的主观随意性和主成分赋权法预测稳健性不高的缺点,并且具有更好的噪声容忍度和外推预测性,处理高频实时数据具有较大优势。
Description
技术领域
本发明涉及卷烟生产过程质量评价技术领域,特别是一种基于随机森林回归的制丝过程参数赋权方法。
背景技术
制丝过程是凸显卷烟感官风格、稳定产品质量、降低原料消耗的重要环节。卷烟产品多点加工布局下,地域气候、工艺布局、装备水平差异较大,如何建立一套科学的制丝过程工艺质量评价方法,确保产品质量稳定一致显得尤为重要。制丝加工设备参数繁多,且内部存在大量交互效应;此外制丝加工流程较长,上游工序的质量指标都直接或间接影响下游工序乃至最终产品的质量控制,所以关键参数权重的测度是建立科学评价方法的重要环节。
综合文献调研,近年来行业内在生产制造过程质量评价方法研究方面有一些文献报道,例如,发明专利申请CN101414183A公开了一种基于灰色关联分析的卷烟工序质量综合评价系统及其方法,其技术特点是首先将各工艺参数的过程能力指数组成数列来表征评价对象,然后采用灰色关联法对Cpk进行综合评价,以优劣排名作为综合评价结果。该方法在计算灰色关联度γ时,未对工艺参数的选择和权重进行详细说明,仅对计算得出的结果进行了一个简单的排序;发明专利申请CN102509243A公开了一种卷烟制造过程质量评价方法及其系统,其技术特点是首先对单个质量特性值进行过程质量评价,然后采用主成分分析法对多变量工序的过程性能指数进行计算各主成分的权重,最后通过算数加权平均得出该工序的过程性能指数,实现制造过程质量的评价。主成分赋权法是以多元回归分析为基础的,在主成分分析中,首先要保证所提取的前几个主成分的累计贡献率达到一个较高的水平,其次主成分的解释其含义一般多少带有点模糊性,不像原始变量的含义那么清楚、确切,这是变量降维过程中不得不付出的代价。
发明内容
本发明的目的在于克服现有技术的缺点,提供一种有效避免决策者主观意向和偏好、基于随机森林回归的制丝过程参数赋权方法。
本发明的目的通过以下技术方案来实现:一种基于随机森林回归的制丝过程参数赋权方法,包括以下步骤:
S1、对数据样本进行预处理,
S2、对工序参数进行相关性分析,
S3、对解释变量进行随机森林回归分析,
S4、对解释变量进行权重测度。
所述的步骤S1包括以下子步骤:
S11、剔除停机断料批次数据,停机断料批次的判定规则为生产过程中某一工序入口流量降至0kg/h且持续时间超过90s的批次;
S12、剔除生产过程中数值为常量的设定参数;
S13、根据稳态数据截取规则进行稳态数据截取;
S14、根据各工序物料的停留时间,将步骤S13中得到的稳态数据进行数据分组,并计算均值,形成稳态数据样本。
所述的步骤S2包括以下子步骤:
S21、以各工序出口含水率为研究变量,作为工序评价的目标;
S22、采用Pearson相关系数法,按下述公式对各工序参数进行相关性分析:
S23、采用SPSS统计软件内的t检验推断各参数之间的Pearson相关系数及其检验的P值;
S24、针对稳态数据样本中高度显著相关(相关系数绝对值大于0.9且检验P值小于0.05)的参数,结合设备控制原理剔除跟随变量,剩余参数为该工序统计建模的解释变量。
所述的步骤S3包括以下子步骤:
S31、首先由原始数据集D生成随机向量序列θi(i=1,2,…k),然后采用Bootstrap抽样方法从D中有放回地随机抽取k个子样本集,记为Di(i=1,2,…k);其次,对每个子样本集Di分别构建研究变量的决策树模型并假定子样本集{θk}独立同分布;最后,由多个决策树组合{1(X),2(X),…,k(X)}构成随机森林回归模型。模型的预测结果是以上k个决策树回归结果的平均值。其数学定义如下所示:
其中:H(x)表示随机森林回归模型的预测值,i(x)表示第i个决策树模型。
S32、采用OOB估计的均方误差平均递减值来评价解释变量对回归模型的重要性程度,均方误差(MSE)的数学定义如下:
其中:表示第i个观测值yi的预测值。
S33、采用五折交叉验证方法来评价随机森林回归分析模型预测结果的可靠性,评价指标是标准化均方误差(NMSE),如果NMSE≥1,表明直接用均值预测的效果要优于模型预测,说明所拟合的回归模型不具有预测性。对于训练集而言,NMSE等于1-R2;对于测试集而言,NMSE与测试集的R2没有直接关系,NMSE越小,说明模型外推预测性能越好。其数学定义为:
其中:表示第i个观测值yi的预测值,表示样本平均值。
所述的步骤S4包括以下子步骤:
将多元回归方程中的标准化回归系数作为解释变量对研究变量影响程度的度量,然后通过归一化处理得到相应解释变量的影响权重。其数学定义为:
其中:gi为度量参数xi(i=1,2,…m)相对重要性的均方误差(MSE)平均递减值,wi为参数xi的影响权重。
本发明具有以下优点:
本发明首先对制造执行系统(MES)采集的制丝过程全批次数据进行数据预处理,通过Pearson相关性矩阵筛选各工序出口含水率的解释变量,然后利用随机森林回归进行建模分析,采用拟合优度和5折交叉验证的测试集标准化均方误差分别验证模型的拟合效果和外推预测性能,最终根据OOB均方误差的平均递减值进行解释变量影响权重的测度。
本发明采用制丝过程全数据样本进行建模研究,有效避免了主观赋权法中决策者对评价目标的主观意向和偏好,同时较熵值赋权法、主成分赋权法等客观赋权方法具有更好的噪声容忍度和外推预测性。
本发明结合Pearson相关性矩阵和设备控制原理,可实现快速筛选解释变量。
本发明采用全样本数据为OOB无偏估计创造了有利条件,通过推断出原始数据与加入噪声扰动后的OOB准确率之差度量参数的重要性。
采用五折交叉验证方法来评价随机森林回归分析模型预测结果的可靠性,更客观地评价模型的预测性能。
具体实施方式
下面结合实施例对本发明做进一步的描述:
一种基于随机森林回归的制丝过程参数赋权方法,包括以下步骤::
S1、对数据样本进行预处理:
S11、剔除停机断料批次数据,停机断料批次的判定规则为生产过程中某一工序入口流量降至0kg/h且持续时间超过90s的批次;
S12、剔除生产过程中数值为常量的设定参数;
S13、根据稳态数据截取规则进行稳态数据截取;
S14、根据各工序物料的停留时间,将步骤S13中得到的稳态数据进行数据分组,并计算均值,形成稳态数据样本。
S2、对工序参数进行相关性分析:
S21、以各工序出口含水率为研究变量,作为工序评价的目标;
S22、采用Pearson相关系数法,按下述公式对各工序参数进行相关性分析:
S23、采用SPSS统计软件内的t检验推断各参数之间的Pearson相关系数及其检验的P值;
S24、针对稳态数据样本中高度显著相关(相关系数绝对值大于0.9且检验P值小于0.05)的参数,结合设备控制原理剔除跟随变量,剩余参数为该工序统计建模的解释变量;
S3、对解释变量进行随机森林回归分析:
S31、首先由原始数据集D生成随机向量序列θi(i=1,2,…k),然后采用Bootstrap抽样方法从D中有放回地随机抽取k个子样本集,记为Di(i=1,2,…k);其次,对每个子样本集Di分别构建研究变量的决策树模型并假定子样本集{θk}独立同分布;最后,由多个决策树组合{1(X),2(X),…,k(X)}构成随机森林回归模型。模型的预测结果是以上k个决策树回归结果的平均值。其数学定义如下所示:
其中:H(x)表示随机森林回归模型的预测值,i(x)表示第i个决策树模型。
S32、采用OOB估计的均方误差平均递减值来评价解释变量对回归模型的重要性程度,均方误差(MSE)的数学定义如下:
其中:表示第i个观测值yi的预测值。
S33、采用五折交叉验证方法来评价随机森林回归分析模型预测结果的可靠性,评价指标是标准化均方误差(NMSE),如果NMSE≥1,表明直接用均值预测的效果要优于模型预测,说明所拟合的回归模型不具有预测性。对于训练集而言,NMSE等于1-R2;对于测试集而言,NMSE与测试集的R2没有直接关系,NMSE越小,说明模型外推预测性能越好。其数学定义为:
其中:表示第i个观测值yi的预测值,表示样本平均值。
S4、对解释变量进行权重测度:
将多元回归方程中的标准化回归系数作为解释变量对研究变量影响程度的度量,然后通过归一化处理得到相应解释变量的影响权重。其数学定义为:
其中:gi为度量参数xi(i=1,2,…m)相对重要性的均方误差(MSE)平均递减值,wi为参数xi的影响权重。
以下结合实施例对本发明作进一步详细说明:
实施例1
1、选取“云烟”某一类规格卷烟某年1月至12月的松散回潮工序全批次数据,共计219批,数采频次为每6s采集1次。
2、剔除停机断料批次,剔除常量数据,根据稳态数据截取规则对数据进行截头去尾,通过数据分组得到稳态数据样本1627个。
3、选取出料含水率作为研究变量;Pearson相关性分析表明,出料含水率与各参数的相关性t检验的P值均小于0.05(见表1),说明在5%的显著性水平下,各参数与出口含水率均存在显著相关关系。
表1松散回潮工序各参数t检验的P值
此外,加水比例与加水流量、加水流量与汽水混合阀门开度、加水累计量与物料累计量3组参数高度显著相关(见表2)。综合稳态数据的相关性分析结论及松散回潮设备的控制原理,剔除加水流量和加水累计量。最终,松散回潮工序统计建模的解释变量确定为:工艺流量、加水比例、蒸汽阀门开度、物料累计量、热风温度、汽水混合阀门开度。
表2松散回潮工序各参数相关系数值
4、运用随机森林回归模型对松散回潮工序的参数进行统计建模,模型的拟合优度为0.90,表明该模型拟合效果较好。采用公式计算五折交叉验证的测试集NMSE为0.51,说明该模型外推预测性能较好。
5、松散回潮6个解释变量对出口含水率的影响程度见表3。将多元回归方程中的标准化回归系数作为解释变量对研究变量影响程度的度量,然后通过归一化处理得到相应解释变量的影响权重。按照从大到小进行排序,将影响权重累积达到80%以上的参数定义为关键参数。由表3可以看出,松散回潮工序的关键参数是加水比例、物料累计量和气水混合阀门开度,影响权重分别是33.74%、31.31%和16.29%。
表3松散回潮工序解释变量的MSE平均递减值及影响权重
实施例2
1、选取“云烟”某一类规格卷烟某年1月至12月的加料工序全批次数据,共计219批,数采频次为每6s采集1次。
2、剔除停机断料批次,剔除常量数据,根据稳态数据截取规则对数据进行截头去尾,通过数据分组得到稳态数据样本1794个。
3、选取出料含水率作为研究变量;Pearson相关性分析表明,除工艺流量、加料累计量、物料累计量和料液温度外,加料工序出口水分与其它参数的相关系数检验的P值均小于0.05,说明在5%的显著性水平下,出口水分与大多数参数之间存在显著的相关关系。
表4加料工序各参数t检验的P值
此外,瞬时加料比例与瞬时加料精度、加料累计量与物料累计量的Pearson相关系数绝对值达到0.9以上,且其检验的P值都等于0,表明这两组参数之间存在显著的高度线性相关关系(见表5)。结合加料设备的控制原理,瞬时加料精度和加料累计量不纳入自变量范围,筛选后的加料工序变量为:工艺流量、入口水分、加料流量、瞬时加料比例、蒸汽阀门开度、物料累计量、料液温度。
表5加料工序各参数相关系数值
4、运用随机森林回归对加料工序段的参数进行统计建模,所得模型的拟合优度为0.96,表明模型拟合效果较优。并且,推断五折交叉验证测试集的NMSE为0.201,说明模型具有良好的预测精度。
5、加料工序7个解释变量对出口含水率的影响程度见表6。将多元回归方程中的标准化回归系数作为解释变量对研究变量影响程度的度量,然后通过归一化处理得到相应解释变量的影响权重。按照从大到小进行排序,将影响权重累积达到80%以上的参数定义为关键参数。由表6可以看出,加料工序的关键参数是入口水分和蒸汽阀门开度,影响权重分别是59.66%和23.73%。
表6加料工序解释变量的MSE平均递减值及影响权重
实施例3
1、选取“云烟”某一类规格卷烟某年1月至12月的叶丝干燥及冷却工序全批次数据,共计219批,数采频次为每6s采集1次。
2、剔除停机断料批次,剔除常量数据,根据稳态数据截取规则对数据进行截头去尾,通过数据分组得到稳态数据样本2286个。
3、选取出料含水率作为研究变量;Pearson相关性分析表明,出料含水率与各参数的相关性t检验的P值均小于0.05(见表7),说明在5%的显著性水平下,各参数与出口含水率均存在显著相关关系。
表7叶丝干燥及冷却工序各参数t检验的P值
由上表可知,除工艺流量、膨胀单元蒸汽流量.体积、膨胀单元蒸汽流量.质量、排潮阀门开度、Ⅰ区筒壁温度、Ⅱ区筒壁温度和热风温度外,烘丝工序段的叶丝干燥.出口水分与其它参数的相关系数检验的P值都小于0.05,说明在5%的显著性水平下,叶丝干燥.出口水分与大多数参数之间存在显著的相关关系(见表8)。此外,筒壁二区蒸汽阀门开度与Ⅰ区筒壁温度、筒壁二区蒸汽阀门开度与Ⅱ区筒壁温度、Ⅰ区筒壁温度与Ⅱ区筒壁温度的Pearson相关系数的绝对值均达到0.9以上,且其检验的P值都等于0,表明这三组参数之间存在显著的高度线性相关关系。结合薄板烘丝机的控制原理,筒壁二区蒸汽阀门开度不纳入自变量范围。筛选后的叶丝干燥及冷却工序变量为:切叶丝含水率、工艺流量、SX蒸汽阀门开度、物料累计量、膨胀单元蒸汽流量.体积、膨胀单元蒸汽流量.质量、排潮阀门开度、循环风阀门开度、循环风蒸汽阀门开度、负压、工艺气速度、Ⅰ区筒壁温度、Ⅱ区筒壁温度、热风温度。
表8叶丝干燥及冷却工序各参数相关系数值
4、运用随机森林回归对加料工序段的参数进行统计建模,所得模型的拟合优度为0.949,表明模型拟合效果较优。并且,推断五折交叉验证测试集的NMSE为0.291,说明模型具有良好的预测精度。
5、叶丝干燥及冷却工序14个解释变量对出口含水率的影响程度见表9。将多元回归方程中的标准化回归系数作为解释变量对研究变量影响程度的度量,然后通过归一化处理得到相应解释变量的影响权重。按照从大到小进行排序,将影响权重累积达到80%以上的参数定义为关键参数。由表9可以看出,叶丝干燥及冷却工序的关键参数是循环风蒸汽阀门开度、排潮阀门开度、循环风阀门开度、Ⅰ区筒壁温度、Ⅱ区筒壁温度和工艺气速度。
表9叶丝干燥及冷却工序变量的相对重要性及影响权重
Claims (5)
1.一种基于随机森林回归的制丝过程参数赋权方法,其特征在于:包括以下步骤:
S1、对数据样本进行预处理,
S2、对工序参数进行相关性分析,
S3、对解释变量进行随机森林回归分析,
S4、对解释变量进行权重测度。
2.根据权利要求1所述的一种基于随机森林回归的制丝过程参数赋权方法,其特征在于:所述的步骤S1包括以下子步骤:
S11、剔除停机断料批次数据,停机断料批次的判定规则为生产过程中某一工序入口流量降至0kg/h且持续时间超过90s的批次;
S12、剔除生产过程中数值为常量的设定参数;
S13、根据稳态数据截取规则进行稳态数据截取;
S14、根据各工序物料的停留时间,将步骤S13中得到的稳态数据进行数据分组,并计算均值,形成稳态数据样本。
3.根据权利要求1所述的一种基于随机森林回归的制丝过程参数赋权方法,其特征在于:所述的步骤S2包括以下子步骤:
S21、以各工序出口含水率为研究变量,作为工序评价的目标;
S22、采用Pearson相关系数法,按下述公式对各工序参数进行相关性分析:
<mrow>
<mi>&gamma;</mi>
<mo>=</mo>
<mfrac>
<mrow>
<mi>N</mi>
<mo>&Sigma;</mo>
<msub>
<mi>x</mi>
<mi>i</mi>
</msub>
<msub>
<mi>y</mi>
<mi>i</mi>
</msub>
<mo>-</mo>
<mo>&Sigma;</mo>
<msub>
<mi>x</mi>
<mi>i</mi>
</msub>
<mo>&Sigma;</mo>
<msub>
<mi>y</mi>
<mi>i</mi>
</msub>
</mrow>
<mrow>
<msqrt>
<mrow>
<mi>N</mi>
<mo>&Sigma;</mo>
<msubsup>
<mi>x</mi>
<mi>i</mi>
<mn>2</mn>
</msubsup>
<mo>-</mo>
<msup>
<mrow>
<mo>(</mo>
<mo>&Sigma;</mo>
<msub>
<mi>x</mi>
<mi>i</mi>
</msub>
<mo>)</mo>
</mrow>
<mn>2</mn>
</msup>
</mrow>
</msqrt>
<msqrt>
<mrow>
<mi>N</mi>
<mo>&Sigma;</mo>
<msubsup>
<mi>y</mi>
<mi>i</mi>
<mn>2</mn>
</msubsup>
<mo>-</mo>
<msup>
<mrow>
<mo>(</mo>
<mo>&Sigma;</mo>
<msub>
<mi>y</mi>
<mi>i</mi>
</msub>
<mo>)</mo>
</mrow>
<mn>2</mn>
</msup>
</mrow>
</msqrt>
</mrow>
</mfrac>
</mrow>
S23、采用SPSS统计软件内的t检验推断各参数之间的Pearson相关系数及其检验的P值;
S24、针对稳态数据样本中高度显著相关(相关系数绝对值大于0.9且检验P值小于0.05)的参数,结合设备控制原理剔除跟随变量,剩余参数为该工序统计建模的解释变量。
4.根据权利要求1所述的一种基于随机森林回归的制丝过程参数赋权方法,其特征在于:所述的步骤S3包括以下子步骤:
S31、首先由原始数据集D生成随机向量序列θi(i=1,2,…k),然后采用Bootstrap抽样方法从D中有放回地随机抽取k个子样本集,记为Di(i=1,2,…k);其次,对每个子样本集Di分别构建研究变量的决策树模型并假定子样本集{θk}独立同分布;最后,由多个决策树组合{1(X),2(X),…,k(X)}构成随机森林回归模型,模型的预测结果是以上k个决策树回归结果的平均值,其数学定义如下所示:
<mrow>
<mi>H</mi>
<mrow>
<mo>(</mo>
<mi>x</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfrac>
<mn>1</mn>
<mi>k</mi>
</mfrac>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>i</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>k</mi>
</munderover>
<mi>i</mi>
<mrow>
<mo>(</mo>
<mi>x</mi>
<mo>)</mo>
</mrow>
</mrow>
其中:H(x)表示随机森林回归模型的预测值,i(x)表示第i个决策树模型;
S32、采用OOB估计的均方误差平均递减值来评价解释变量对回归模型的重要性程度,均方误差(MSE)的数学定义如下:
<mrow>
<mi>M</mi>
<mi>S</mi>
<mi>E</mi>
<mo>=</mo>
<mfrac>
<mn>1</mn>
<mi>n</mi>
</mfrac>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>i</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>n</mi>
</munderover>
<msup>
<mrow>
<mo>(</mo>
<msub>
<mi>y</mi>
<mi>i</mi>
</msub>
<mo>-</mo>
<msub>
<mover>
<mi>y</mi>
<mo>^</mo>
</mover>
<mi>i</mi>
</msub>
<mo>)</mo>
</mrow>
<mn>2</mn>
</msup>
</mrow>
其中:表示第i个观测值yi的预测值;
S33、采用五折交叉验证方法来评价随机森林回归分析模型预测结果的可靠性,评价指标是标准化均方误差(NMSE),如果NMSE≥1,表明直接用均值预测的效果要优于模型预测,说明所拟合的回归模型不具有预测性;对于训练集而言,NMSE等于1-R2;对于测试集而言,NMSE与测试集的R2没有直接关系,NMSE越小,说明模型外推预测性能越好;其数学定义为:
<mrow>
<mi>N</mi>
<mi>M</mi>
<mi>S</mi>
<mi>E</mi>
<mo>=</mo>
<mfrac>
<mrow>
<mfrac>
<mn>1</mn>
<mi>n</mi>
</mfrac>
<msubsup>
<mo>&Sigma;</mo>
<mrow>
<mi>i</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>n</mi>
</msubsup>
<msup>
<mrow>
<mo>(</mo>
<msub>
<mi>y</mi>
<mi>i</mi>
</msub>
<mo>-</mo>
<msub>
<mover>
<mi>y</mi>
<mo>^</mo>
</mover>
<mi>i</mi>
</msub>
<mo>)</mo>
</mrow>
<mn>2</mn>
</msup>
</mrow>
<mrow>
<mfrac>
<mn>1</mn>
<mi>n</mi>
</mfrac>
<msubsup>
<mo>&Sigma;</mo>
<mrow>
<mi>i</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>n</mi>
</msubsup>
<msup>
<mrow>
<mo>(</mo>
<msub>
<mi>y</mi>
<mi>i</mi>
</msub>
<mo>-</mo>
<mover>
<mi>y</mi>
<mo>&OverBar;</mo>
</mover>
<mo>)</mo>
</mrow>
<mn>2</mn>
</msup>
</mrow>
</mfrac>
<mo>=</mo>
<mfrac>
<mrow>
<msubsup>
<mo>&Sigma;</mo>
<mrow>
<mi>i</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>n</mi>
</msubsup>
<msup>
<mrow>
<mo>(</mo>
<msub>
<mi>y</mi>
<mi>i</mi>
</msub>
<mo>-</mo>
<msub>
<mover>
<mi>y</mi>
<mo>^</mo>
</mover>
<mi>i</mi>
</msub>
<mo>)</mo>
</mrow>
<mn>2</mn>
</msup>
</mrow>
<mrow>
<msubsup>
<mo>&Sigma;</mo>
<mrow>
<mi>i</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>n</mi>
</msubsup>
<msup>
<mrow>
<mo>(</mo>
<msub>
<mi>y</mi>
<mi>i</mi>
</msub>
<mo>-</mo>
<mover>
<mi>y</mi>
<mo>&OverBar;</mo>
</mover>
<mo>)</mo>
</mrow>
<mn>2</mn>
</msup>
</mrow>
</mfrac>
</mrow>
其中:表示第i个观测值yi的预测值,表示样本平均值。
5.根据权利要求1所述的一种基于随机森林回归的制丝过程参数赋权方法,其特征在于:所述的步骤S4包括以下子步骤:
将多元回归方程中的标准化回归系数作为解释变量对研究变量影响程度的度量,然后通过归一化处理得到相应解释变量的影响权重;其数学定义为:
<mrow>
<msub>
<mi>w</mi>
<mi>i</mi>
</msub>
<mo>=</mo>
<mfrac>
<mrow>
<mo>|</mo>
<msub>
<mi>g</mi>
<mi>i</mi>
</msub>
<mo>|</mo>
</mrow>
<mrow>
<msubsup>
<mo>&Sigma;</mo>
<mrow>
<mi>i</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>m</mi>
</msubsup>
<mrow>
<mo>|</mo>
<msub>
<mi>g</mi>
<mi>i</mi>
</msub>
<mo>|</mo>
</mrow>
</mrow>
</mfrac>
</mrow>
其中:gi为度量参数xi(i=1,2,…m)相对重要性的均方误差(MSE)平均递减值,wi为参数xi的影响权重。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710523057.3A CN107330555A (zh) | 2017-06-30 | 2017-06-30 | 一种基于随机森林回归的制丝过程参数赋权方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710523057.3A CN107330555A (zh) | 2017-06-30 | 2017-06-30 | 一种基于随机森林回归的制丝过程参数赋权方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107330555A true CN107330555A (zh) | 2017-11-07 |
Family
ID=60199359
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710523057.3A Pending CN107330555A (zh) | 2017-06-30 | 2017-06-30 | 一种基于随机森林回归的制丝过程参数赋权方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107330555A (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109343489A (zh) * | 2018-10-30 | 2019-02-15 | 杭州安脉盛智能技术有限公司 | 烟草制丝工艺参数自愈控制方法及系统 |
CN109407614A (zh) * | 2018-11-06 | 2019-03-01 | 重庆大学 | 一种数控滚齿机滚齿加工工艺参数优化方法 |
CN109918822A (zh) * | 2019-03-15 | 2019-06-21 | 中铁工程服务有限公司 | 基于随机森林回归的盾构掘进参数偏差计算方法及系统 |
CN110954657A (zh) * | 2019-12-02 | 2020-04-03 | 浙江中烟工业有限责任公司 | 一种烟叶化学品质的评价方法 |
CN111061252A (zh) * | 2019-12-24 | 2020-04-24 | 浙江大学 | 一种基于数据驱动的精馏塔智能看板 |
CN111260201A (zh) * | 2020-01-13 | 2020-06-09 | 北京科技大学 | 一种基于分层随机森林的变量重要性分析方法 |
CN111275331A (zh) * | 2020-01-20 | 2020-06-12 | 张家口卷烟厂有限责任公司 | 一种生产系统的监控方法和装置 |
CN112036701A (zh) * | 2020-07-30 | 2020-12-04 | 杭州安脉盛智能技术有限公司 | 一种面向多工序工业生产过程的工艺参数优化方法 |
CN112069567A (zh) * | 2020-08-07 | 2020-12-11 | 湖北交投十巫高速公路有限公司 | 基于随机森林和智能算法预测混凝土抗压强度的方法 |
CN112434867A (zh) * | 2020-11-30 | 2021-03-02 | 红云红河烟草(集团)有限责任公司 | 一种叶片段水份智能预测模型及应用 |
CN117035560A (zh) * | 2023-10-09 | 2023-11-10 | 深圳市五轮科技股份有限公司 | 基于大数据的电子烟生产数据管理系统 |
CN117113291A (zh) * | 2023-10-23 | 2023-11-24 | 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) | 一种半导体制造中生产参数重要性的分析方法 |
CN117634948A (zh) * | 2023-11-24 | 2024-03-01 | 红云红河烟草(集团)有限责任公司 | 一种制丝工艺质量评价方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102567812A (zh) * | 2012-01-09 | 2012-07-11 | 红云红河烟草(集团)有限责任公司 | 一种烟草加工工序中用加工参数预测控制指标的方法 |
CN103344713A (zh) * | 2013-06-18 | 2013-10-09 | 湖南中烟工业有限责任公司 | 一种基于随机森林法分析致香物在烤烟香型分类中的重要性及预测香型的方法 |
CN103488141A (zh) * | 2013-09-11 | 2014-01-01 | 湖南烟叶复烤有限公司郴州复烤厂 | 一种烟草的打叶复烤参数化加工控制方法 |
CN106446566A (zh) * | 2016-09-29 | 2017-02-22 | 北京理工大学 | 基于随机森林的老年人认知功能分类方法 |
-
2017
- 2017-06-30 CN CN201710523057.3A patent/CN107330555A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102567812A (zh) * | 2012-01-09 | 2012-07-11 | 红云红河烟草(集团)有限责任公司 | 一种烟草加工工序中用加工参数预测控制指标的方法 |
CN103344713A (zh) * | 2013-06-18 | 2013-10-09 | 湖南中烟工业有限责任公司 | 一种基于随机森林法分析致香物在烤烟香型分类中的重要性及预测香型的方法 |
CN103488141A (zh) * | 2013-09-11 | 2014-01-01 | 湖南烟叶复烤有限公司郴州复烤厂 | 一种烟草的打叶复烤参数化加工控制方法 |
CN106446566A (zh) * | 2016-09-29 | 2017-02-22 | 北京理工大学 | 基于随机森林的老年人认知功能分类方法 |
Non-Patent Citations (1)
Title |
---|
刘继辉等: "基于随机森林回归的制丝过程参数影响权重分析", 《烟草科技》 * |
Cited By (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109343489B (zh) * | 2018-10-30 | 2020-02-11 | 杭州安脉盛智能技术有限公司 | 烟草制丝工艺参数自愈控制方法及系统 |
CN109343489A (zh) * | 2018-10-30 | 2019-02-15 | 杭州安脉盛智能技术有限公司 | 烟草制丝工艺参数自愈控制方法及系统 |
CN109407614B (zh) * | 2018-11-06 | 2020-12-29 | 重庆大学 | 一种数控滚齿机滚齿加工工艺参数优化方法 |
CN109407614A (zh) * | 2018-11-06 | 2019-03-01 | 重庆大学 | 一种数控滚齿机滚齿加工工艺参数优化方法 |
CN109918822A (zh) * | 2019-03-15 | 2019-06-21 | 中铁工程服务有限公司 | 基于随机森林回归的盾构掘进参数偏差计算方法及系统 |
CN109918822B (zh) * | 2019-03-15 | 2023-12-15 | 中铁高新工业股份有限公司 | 基于随机森林回归的盾构掘进参数偏差计算方法及系统 |
CN110954657A (zh) * | 2019-12-02 | 2020-04-03 | 浙江中烟工业有限责任公司 | 一种烟叶化学品质的评价方法 |
CN110954657B (zh) * | 2019-12-02 | 2022-03-25 | 浙江中烟工业有限责任公司 | 一种烟叶化学品质的评价方法 |
CN111061252A (zh) * | 2019-12-24 | 2020-04-24 | 浙江大学 | 一种基于数据驱动的精馏塔智能看板 |
CN111260201B (zh) * | 2020-01-13 | 2023-04-28 | 北京科技大学 | 一种基于分层随机森林的变量重要性分析方法 |
CN111260201A (zh) * | 2020-01-13 | 2020-06-09 | 北京科技大学 | 一种基于分层随机森林的变量重要性分析方法 |
CN111275331A (zh) * | 2020-01-20 | 2020-06-12 | 张家口卷烟厂有限责任公司 | 一种生产系统的监控方法和装置 |
CN112036701A (zh) * | 2020-07-30 | 2020-12-04 | 杭州安脉盛智能技术有限公司 | 一种面向多工序工业生产过程的工艺参数优化方法 |
CN112069567A (zh) * | 2020-08-07 | 2020-12-11 | 湖北交投十巫高速公路有限公司 | 基于随机森林和智能算法预测混凝土抗压强度的方法 |
CN112069567B (zh) * | 2020-08-07 | 2024-01-12 | 湖北交投十巫高速公路有限公司 | 基于随机森林和智能算法预测混凝土抗压强度的方法 |
CN112434867A (zh) * | 2020-11-30 | 2021-03-02 | 红云红河烟草(集团)有限责任公司 | 一种叶片段水份智能预测模型及应用 |
CN117035560A (zh) * | 2023-10-09 | 2023-11-10 | 深圳市五轮科技股份有限公司 | 基于大数据的电子烟生产数据管理系统 |
CN117035560B (zh) * | 2023-10-09 | 2024-02-20 | 深圳市五轮科技股份有限公司 | 基于大数据的电子烟生产数据管理系统 |
CN117113291A (zh) * | 2023-10-23 | 2023-11-24 | 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) | 一种半导体制造中生产参数重要性的分析方法 |
CN117113291B (zh) * | 2023-10-23 | 2024-02-09 | 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) | 一种半导体制造中生产参数重要性的分析方法 |
CN117634948A (zh) * | 2023-11-24 | 2024-03-01 | 红云红河烟草(集团)有限责任公司 | 一种制丝工艺质量评价方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107330555A (zh) | 一种基于随机森林回归的制丝过程参数赋权方法 | |
CN109222208A (zh) | 面向卷烟生产指标控制的制丝工艺分析优化方法及系统 | |
Zareiforoush et al. | Design, development and performance evaluation of an automatic control system for rice whitening machine based on computer vision and fuzzy logic | |
CN112069567A (zh) | 基于随机森林和智能算法预测混凝土抗压强度的方法 | |
CN109674080A (zh) | 烟叶回潮加水量预测方法、存储介质及终端设备 | |
CN111144667A (zh) | 一种基于梯度提升树的烟草回潮机出料含水率预测方法 | |
CN107767079A (zh) | 一种烟叶风格特征的客观综合评价方法 | |
CN107966976A (zh) | 一种数据驱动的烘丝水分控制回路性能评价与调整系统 | |
CN110135167A (zh) | 一种随机森林的边缘计算终端安全等级评估方法 | |
CN105044022B (zh) | 一种基于近红外光谱技术快速无损检测小麦硬度的方法及应用 | |
CN112273696B (zh) | 切丝后水分控制方法、装置以及设备 | |
CN108694023A (zh) | 一种马歇尔试件稳定度和流值的测试方法 | |
CN108492026B (zh) | 一种基于集成正交成分最优化回归分析的软测量方法 | |
CN111950795B (zh) | 基于随机森林的松散回潮加水比例的预测方法 | |
CN111339478A (zh) | 基于改进模糊层次分析法的气象数据质量评估方法 | |
CN111642782A (zh) | 一种基于卷烟配方需求的烟叶原料功效定位方法 | |
CN105740617B (zh) | 一体化天馈系统品质度的衡量方法 | |
CN115099457A (zh) | 烟丝结构在线预测分析系统 | |
CN104316492A (zh) | 近红外光谱测定马铃薯块茎中蛋白质含量的方法 | |
CN107897995A (zh) | 一种基于原烟配方模块拆分的分段均质化调控方法 | |
CN105974058B (zh) | 基于电子鼻-人工神经网络的快速检测烟叶中钾含量的方法 | |
CN107664621A (zh) | 异常样本识别方法、系统、服务器及电子设备 | |
Venkatesh et al. | An efficient method for predicting linear regression with polynomial regression | |
CN106338526B (zh) | 一种基于微波水分仪的修正模型及检测方法 | |
CN113869641A (zh) | 基于主成分分析法的烟丝质量综合评价方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20171107 |