CN112949162B

CN112949162B - 基于数据驱动的箱板纸机干燥部能量系统运行优化方法

Info

Publication number: CN112949162B
Application number: CN202110095976.1A
Authority: CN
Inventors: 洪蒙纳; 满奕; 马亚运; 李继庚
Original assignee: Guangzhou Poi Intelligent Information Technology Co ltd
Current assignee: Guangzhou Poi Intelligent Information Technology Co ltd
Priority date: 2021-01-25
Filing date: 2021-01-25
Publication date: 2023-06-23
Anticipated expiration: 2041-01-25
Also published as: CN112949162A

Abstract

本发明公开了一种基于数据驱动的箱板纸机干燥部能量系统运行优化方法，包括以下步骤：S1：数据采集和数据预处理；S2：特征变量选择分析；S3：建立纸页干燥过程关键参数预测模型；S4：基于遗传算法建立干燥部能耗优化模型；S5：模型验证。本发明利用机器学习算法结合历史生产数据建立模型，挖掘生产数据之间的关联性，更好的指导实际生产；通过模型优化干燥部工艺参数，平均蒸汽耗从19kg/s左右降至约17kg/s，平均吨纸成本从130元左右降至115元左右，降低了产品成本，提高了企业效益。

Description

基于数据驱动的箱板纸机干燥部能量系统运行优化方法

技术领域

本发明涉及一种基于数据驱动的箱板纸机干燥部能量系统运行优化方法，通过优化纸机干燥部工艺参数达到节能降耗，提高效益的目的，属于能源管理技术领域。

背景技术

据中国造纸协会调查资料，2019年全国纸及纸板生产企业约2700家，全国纸及纸板生产量10765万吨，较上年增长3.16％。消费量10704万吨，较上年增长2.54％，人均年消费量为75千克(14.0亿人)。

造纸过程的干燥系统是整个造纸工艺中能耗最大的部分，约占整个纸机能耗的30％-60％，因此做好纸机干燥部的节能十分重要；干燥系统的主要作用是蒸发脱除湿纸幅中残留的水分，进一步完成纸页的纤维结合并提高其强度，是一个复杂的传热传质的过程，涉及的物料和能量传递复杂多样，包括蒸汽加热烘缸表面纸页的干燥、气罩通风、废气热量的回收以及烘缸冷凝水的回收和排放。干燥系统工艺参数的调整需考虑众多生产因素，既需要考虑干燥部前工段成形部、压榨部工艺变化的影响，又需保证干燥工段正常生产的前提条件下，满足后续生产的工艺要求；生产中纸页定量、纸机车速、网压部参数等变化影响干燥部的蒸发效率，通过调整各段蒸汽的进出烘缸压力满足蒸发效率，达到气罩良好通风不发生滴漏现象，出干燥部的纸页干度满足工艺要求。因此干燥工艺参数的调整是一个及其复杂的逻辑过程；当前生产工艺参数的设定和调整仅依赖生产总结和经验判断，缺乏技术理论的指导，部分参数设置不合理，存在能耗高的现象。

利用纸机干燥系统的生产数据与机器学习算法结合，首先建立干燥过程关键参数预测模型，再基于遗传算法建立干燥部能耗优化模型，将复杂的干燥过程通过生产数据建立起来，挖掘各参数之间的关联性，指导工艺参数的调整，达到满足工艺要求，节约成本的目的。

发明内容

为解决目前生产工艺调整存在的问题，本发明提供了一种基于数据驱动的箱板纸机干燥部能量系统运行优化方法，解决了生产中工艺参数调整依靠人工经验，缺乏理论技术指导的问题。

本发明采用的技术方案是，一种基于数据驱动的箱板纸机干燥部能量系统运行优化方法，包括以下步骤：

S1：数据采集和数据预处理；

S2：特征变量选择分析；

S3：建立纸页干燥过程关键参数预测模型；

S4：基于遗传算法建立干燥部能耗优化模型；

S5：模型验证。

模型中步骤S1具体步骤如下：

采集纸机干燥部生产数据，分析能耗状况，纸页干燥过程能耗主要是蒸汽和电，评估存在优化空间。运用箱型图法对数据预处理，将特征数据的四分之一分位值定为Q₁，四分之三分位值定为Q₃：

其中，IQR为四分位距，limit_max为异常值上限，limit_min为异常值下限。

步骤S2具体步骤如下：

S21.单变量特征选择，运用pearson相关系数法对采集的变量作单变量分析，分析纸机干燥部工艺约束变量、能耗变量与其它变量间的相关性；相关系数是反应两变量之间变化趋势的方向以及程度，用于两个变量之间的相关性分析，取值范围在[-1,1]，其绝对值越大，相关性越强；相关系数越接近于1或-1，相关度越强，相关系数越接近于0，相关度越弱。其中，绝对值在0.8-1.0表示极强相关，在0.6-0.8表示强相关，在0.4-0.6表示中等程度相关，0.2-0.4表示弱相关，0-0.2表示极弱相关或无相关。相关系数的计算公式如下：

其中,Cov(X，Y)为X和Y的协方差，Var[X]、Var[Y]分别为X和Y的方差；

S22.多变量特征选择，GBDT算法中的重要性排序可做多变量分析，采用CART作为基学习器，采用基尼指数来选择划分属性(即节点特征)，通过基尼系数来选择节点属性，能在候选特征中选择最优特征来划分节点，并使得划分后的误差最小，即得到最优特征。

假定数据集D，由CART决策树作为基学习器建立的组合模型GBT，基学习器个数为K，每个特征节点的基尼指数计算公式如下。

其中，Gini(D)为数据集D的基尼值，p_j为样本值j所占的比例，v为样本取值总数，Gini_index(D，a)为属性a在样本集D上的基尼指数；

然后针对每个节点，计算候选特征集S中所有特征的基尼指数，选取使得划分后基尼指数最小的特征m_min作为节点特征。此时，由特征m_min造成的平均不纯度减少值ΔGini，即为该特征的贡献度：

按照上述方式，搜索单个基学习器上所有分裂节点i的贡献度，然后对所有基学习器进行平均，即得到该特征的总体贡献度：

其中，

为单个基学习器特征m_min的贡献度，/>

为该特征最终贡献度。

步骤S3具体步骤如下：

S31.依据步骤S21、S22，确定各预测模型特征变量，其中约束变量预测模型7个，分别为：T₁排风湿度(T₁_EWH)、T₁排风温度(T₁_EWT)、T₂排风湿度(T₂_EWH)、T₂排风温度(T₂_EWT)、T₃排风湿度(T₃_EWH)、T₃排风温度(T₃_EWT)、施胶前水分(Hum)；能耗变量预测模型1个：干燥部蒸汽流量(DSQ)；运用机器学习算法结合生产数据，建立Ridge回归模型、ElasticNet回归模型、SVR回归模型、RF回归模型等。各算法原理如下：

(1)Ridge算法：在线性回归损失函数的基础上加入L₂正则项，在不舍弃特征变量的情况下，缩小回归系数，使模型相对稳定，其原理公式如下：

其中X＝(x₁，x₂，x₃，……，x_n)是输入特征变量，Y＝(y₁，y₂，y₃，……，y_n)是输出特征变量，θ＝(θ₁，θ₂，θ₃，……，θ_n)是输入特征变量系数，λ是惩罚项系数，

是惩罚项。

(2)Elastic Net算法：结合使用了系数向量的L₁范数和L₂范数的线性回归模型，使的可学习类似于Lasso一样稀疏的模型，还保留了Ridge的正则化属性，结合了两者的优点，适用于有多个特征变量彼此相关的模型。其原理公式如下：

其中X＝(x₁，x₂，x₃，……，x_n)是输入特征变量，Y＝(y₁，y₂，y₃，……，y_n)是输出特征变量，θ＝(θ₁，θ₂，θ₃，……，θ_n)是输入特征变量X系数，

是惩罚项。

(3)SVR算法：支持向量回归算法能够通过将非线性问题以核函数的方式映射到高维空间，从而将非线性问题转变为线性问题，具有较好的非线性处理能力和泛化能力。其原理公式如下：

其中，ω为权重系数，x为输入变量，b为偏置项，

α_i为拉格朗日乘子，

为核函数。核函数可将线性不可分的低维特征数据映射到高维空间，将非线性问题转换为线性问题。常用核函数有线性核函数(Linear)、多项式核函数(Poly)、径向基核函数(RBF)和sigmoid核函数，公式如下：

线性核函数：K(x_i，x)＝x_ix^T

多项式核函数：K(x_i，x)＝(γx_ix^T+r)^p，γ＞0

径向基核函数：K(x_i，x)＝exp(-γ||x_i-x||²)，γ＞0

sigmoid核函数：K(x_i，x)＝tan h(γx_ix^T+r)，γ＞0

其中，γ，r，p为各核函数参数。

(4)RF算法：随机森林由多个随机决策树组成，回归问题中，最终结果取决于各随机决策树的加权。RF算法流程如下：

a.输入训练样本D＝{(x₁，y₁)，(x₂，y₂)，……，(x_m，y_m)}，弱学习器迭代次数K；

b.对于k＝1，2，…K对训练集进行第k次采样，采用自助法(bootstrap)采样，即随机有放回采样，共采集m次，得到采样集本D_k(含m个样本)；在采样集D_k上训练第k个决策树模型G_k(x)。在训练该模型时RF只需要在所有样本特征中选择部分特征，最后在所选部分特征中确定节点分裂特征；

c.输出集成模型f(x)。

S32.计算各模型的平均绝对误差(MAPE)、平均相对误差(MAE)、拟合优度(R²)等指标，其中：

平均绝对误差计算公式：

平均相对误差计算公式：

拟合优度计算公式：

上述计算公式中，

是预测值，y_i是实际值，/>

是平均值；分析比较模型评价指标，选择最佳预测模型。

步骤S4具体步骤如下：

S41.建立干燥部能耗公式：

Paper_tonprice＝S_pre*P_steam*6000/V*Q_sbq*L_y

其中Paper_tonprice表示吨纸耗(yuan/t)，S_pre表示预测的干燥蒸汽流量(kg/s)，V表示纸机车速(m/min)，Q_sbq施胶前定量(g/m²)，L_y表示纸机幅宽(m)；

排风机排风温度对应下的饱和湿度公式：

H＝0.6228*(Ps/P-Ps)*1000

其式中，A，B，C为Antoine常数，可查数据表得，T表示排风机的排风温度，P_s表示在排风温度下的饱和蒸气压，H表示排风温度下空气的饱和湿度。为防止发生滴露，气罩内空气温度应该维持在露点温度以上，安全起见，气罩内的相对湿度一般不超过饱和湿度的80％，即H_act＜0.8H；

S42.生产中纸机干燥部风机的排风温湿度及出干燥部纸页的干度有工艺约束，即要求这些指标在合理的工艺范围内，如下式所示：

T₁排风机的排风温度范围：T_1min≤T_1temp≤T_1max

T₂排风机的排风温度范围：T_2min≤T_2temp≤T_2max

T₃排风机的排风温度范围：T_3min≤T_3temp≤T_3max

H₁排风机的排风湿度范围：H_1min≤H_1hum≤H_1max

H₂排风机的排风湿度范围：H_2min≤H_2hum≤H_2max

H₃排风机的排风湿度范围：H_3min≤H_3hum≤H_3max

施胶前纸页的水分：M_min≤M_act≤M_max

其中T_1min、T_2min、T_3min、H_1min、H_2min、H_3min、M_min表示工艺范围的最低值，T_1max、T_2max、T_3max、H_1max、H_2max、H_3max、M_max表示工艺范围的最高值。

步骤S5具体步骤如下：

输入干燥部能量系统运行优化模型参数，包括：施胶前纸页定量Q_sbq，车速V，底层上网浓度B_con，面层流浆箱压力S_pressure，底层流浆箱压力B_pressure。使用遗传算法进行工艺参数求解。遗传算法将问题模拟成一个生物进化的过程，通过复制、交叉、突变等操作产生下一代的解，逐代进化，直到满足终止条件。

本发明具有的技术效果：本发明利用机器学习算法结合历史生产数据建立模型，挖掘生产数据之间的关联性，更好的指导实际生产；通过模型优化干燥部工艺参数，平均蒸汽耗从19kg/s左右降至约17kg/s，平均吨纸成本从130元左右降至115元左右，降低了产品成本，提高了企业效益。

附图说明

图1是本发明的流程图；

图2是实际工况中蒸汽流量与本模型优化后的蒸汽流量结果对比图；

图3是实际工况中平均蒸汽流量与本模型优化后的平均蒸汽流量结果对比图；

图4是实际工况下吨纸成本与本模型优化后的吨纸成本结果对比图；

图5是实际工况下吨纸平均成本与本模型优化后的吨纸平均成本结果对比图；

图6是遗传算法流程图；

图7是实际工况下蒸汽流量与本模型优化后的蒸汽流量结果对比图；

图8是实际工况下平均蒸汽流量与本模型优化后的平均蒸汽流量结果对比图；

图9是实际工况下吨纸成本与本模型优化后的吨纸成本结果对比图；

图10是实际工况下吨纸平均成本与本模型优化后的吨纸平均成本结果对比图。

具体实施方式

下面对本发明的具体实施方式进行描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

如图1所示，一种基于数据驱动的箱板纸机干燥部能量系统运行优化方法，包括以下步骤：

S1：数据采集和数据预处理；

S2：特征变量选择分析；

S3：建立纸页干燥过程关键参数预测模型；

S4：基于遗传算法建立干燥部能耗优化模型；

S5：模型验证。

模型中步骤S1具体步骤如下：

采集纸机干燥部生产数据，分析能耗状况，纸页干燥过程能耗主要是蒸汽和电，评估存在优化空间。依据实际生产状况人工剔除不正常的数据，再结合箱型图法对数据预处理，将特征数据的四分之一分位值定为Q₁，四分之三分位值定为Q₃：

其中，IQR为四分位距，limit_max为异常值上限，limit_min为异常值下限。如图2、图3分别是数据预处理前、数据预处理后的4组蒸汽压力值。’

步骤S2具体步骤如下：

S21.单变量特征选择，运用pearson相关系数法对采集的变量作单变量分析，分析干燥部约束变量排风温湿度、能耗变量蒸汽流量与其它变量间的相关性；相关系数是反应两变量之间变化趋势的方向以及程度，用于两个变量之间的相关性分析，取值范围在[-1,1]，其绝对值越大，相关性越强；相关系数越接近于1或-1，相关度越强，相关系数越接近于0，相关度越弱。其中，绝对值在0.8-1.0表示极强相关，在0.6-0.8表示强相关，在0.4-0.6表示中等程度相关，0.2-0.4表示弱相关，0-0.2表示极弱相关或无相关。相关系数的计算公式如下：

其中,Cov(X，Y)为X和Y的协方差，Var[X]、Var[Y]分别为X和Y的方差。

经分析，前干燥蒸汽流量与T₂排风1风量的pearson相关系数为-0.84，表明两特征变量是极强负相关性，如图4所示；前干燥蒸汽流量与4组蒸汽压力的pearson相关系数为0.96，表明两特征变量是极强正相关性，如图5所示。

假定数据集D，由CART决策树作为基学习器建立的组合模型GBT，基学习器个数为K，每个特征节点的基尼指数计算公式如下：

其中，

为单个基学习器特征m_min的贡献度，/>

为该特征最终贡献度。

根据分析，选择16个特征变量，分别是：4组蒸汽压力(4_CSP)、T₁送风温度(T₁_SWT)、T₁送风风量(T₁_SWC)‘、T₁排风风量(T₁_EWC)、T₂送风风量(T₂_SWC)、T₂送风温度(T₂_SWT)‘、、T₂排风1风量(T₂₁_EWC)、、T₂排风2风量(T₂₂_EWC)、T₃送风温度(T₃_SWT)、T₃送风风量(T_{3_}SWC)、T₃排风风量(T₃_EWC)、施胶前定量(Q_sbq)、车速(V)、底层上网浓度(B_con)、面层流浆箱压力(S_pressure)、底层流浆箱压力(B_pressure)。

步骤S3具体步骤如下：

S31.依据步骤S2、S3，确定各预测模型特征变量，其中约束变量预测模型7个，分别为：T₁排风湿度(T₁_EWH)、T₁排风温度(T₁_EWT)、T₂排风湿度(T₂_EWH)、T₂排风温度(T₂_EWT)、T₃排风湿度(T₃_EWH)、T₃排风温度(T₃_EWT)、施胶前水分(Hum)；能耗变量预测模型1个：干燥部蒸汽流量(DSQ)；运用机器学习算法结合生产数据，建立Ridge回归模型、Elastic Net回归模型、SVR回归模型、RF回归模型等。各算法原理如下：

是惩罚项。

是惩罚项。

其中，ω为权重系数，x为输入变量，b为偏置项，

α_i为拉格朗日乘子，

线性核函数：K(x_i，x)＝x_ix^T

多项式核函数：K(x_i，x)＝(γx_ix^T+r)^p，γ＞0

径向基核函数：K(x_i，x)＝exp(-γ||x_i-x||²)，γ＞0

sigmoid核函数：K(x_i，x)＝tan h(γx_ix^T+r)，γ＞0

其中，γ，r，p为各核函数参数。

a.输入训练样本D＝{(x₁，y₁)，(x₂，y₂)，……，(x_m，y_m)}弱学习器迭代次数K；

c.输出集成模型f(x)。

平均绝对误差计算公式：

平均相对误差计算公式：

拟合优度计算公式：

上述计算公式中，

是预测值，y_i是实际值，/>

是平均值。

表1是不同机器学习算法建立的预测模型的各项评价指标，分析比较模型的评价指标，选综合选择最佳预测模型。

表1模型评价指标

步骤S4具体步骤如下：

S41.建立干燥部能耗公式：

Paper_tonprice＝S_pre*P_steam*6000/V*Q_sbq*L_y

排风机排风温度对应下的饱和湿度公式：

H＝0.6228*(Ps/P-Ps)*1000

T₁排风机的排风温度范围：T_1min≤T_1temp≤T_1max

T₂排风机的排风温度范围：T_2min≤T_2temp≤T_2max

T₃排风机的排风温度范围：T_3min≤T_3temp≤T_3max

H₁排风机的排风湿度范围：H_1min≤H_1hum≤H_1max

H₂排风机的排风湿度范围：H_2min≤H_2hum≤H_2max

H₃排风机的排风湿度范围：H_3min≤H_3hum≤H_3max

施胶前纸页的水分：M_min≤M_act≤M_max

步骤S5具体步骤如下：

输入干燥部能量系统运行优化模型参数，施胶前纸页定量108.66g/m²，车速1244.94m/s，底层上网浓度1.43％，面层流浆箱压力291.92kPa，底层流浆箱压力288.32kPa，如表2所示；运用遗传算法求解，各工艺参数的优化值如表3所示；实际工况下的蒸汽耗为19.28kg/s，吨纸成本约为129.90元，优化工艺参数下的蒸汽耗为17.53kg/s，吨纸成本为118.11元，每吨纸节约11.79元左右。遗传算法步骤如图6所示。

表2模型参数

表3工艺参数优化值

图7、图8是实际工况下蒸汽流量和平均蒸汽流量与本模型优化后的蒸汽流量和平均蒸汽流量结果对比图；

图9、图10是实际工况下吨纸成本和吨纸平均成本与本模型优化后的吨纸成本和吨纸平均成本结果对比图。

Claims

1.基于数据驱动的箱板纸机干燥部能量系统运行优化方法，其特征在于，包括以下步骤：

S1：数据采集和数据预处理；

步骤S1具体步骤如下：

采集纸机干燥部生产数据，分析能耗状况，纸页干燥过程能耗是蒸汽和电，评估存在优化空间；运用箱型图法对数据预处理；

S2：特征变量选择分析；

步骤S2具体步骤如下：

S21.单变量特征选择，运用pearson相关系数法对采集的变量作单变量分析，分析干燥部工艺约束变量、能耗变量与其它变量间的相关性；

S22.多变量特征选择，GBDT算法中的重要性排序做多变量分析，采用CART作为基学习器，采用基尼指数来选择划分属性，通过基尼系数来选择节点属性，能在候选特征中选择最优特征来划分节点，并使得划分后的误差最小，即得到最优特征；

S3：建立纸页干燥过程关键参数预测模型；

步骤S3具体步骤如下：

S31.依据步骤S21、S22，确定各预测模型特征变量；

S32.计算各模型的平均绝对误差、平均相对误差、拟合优度指标；

S4：基于遗传算法建立干燥部能耗优化模型；

步骤S4具体步骤如下：

S41.建立干燥部能耗公式；

建立排风机排风温度对应下的饱和湿度公式；

S42.生产中纸机干燥部风机的排风温湿度及出干燥部纸页的干度有工艺约束，即要求这些指标在合理的工艺范围内；

S5：模型验证；

步骤S5具体步骤如下：

输入干燥部能量系统运行优化模型参数，使用遗传算法进行工艺参数求解。

2.根据权利要求1所述的基于数据驱动的箱板纸机干燥部能量系统运行优化方法，其特征在于，步骤S1运用箱型图法对数据预处理，将特征数据的四分之一分位值定为Q₁，四分之三分位值定为Q₃：

3.根据权利要求1所述的基于数据驱动的箱板纸机干燥部能量系统运行优化方法，其特征在于，步骤S21.单变量特征选择中，相关系数是反应两变量之间变化趋势的方向以及程度，用于两个变量之间的相关性分析，取值范围在[-1,1]，其绝对值越大，相关性越强；相关系数越接近于-1，相关度越强，相关系数越接近于0，相关度越弱；其中，绝对值在0.8-1.0表示极强相关，在0.6-0.8表示强相关，在0.4-0.6表示中等程度相关，0.2-0.4表示弱相关，0-0.2表示极弱相关或无相关；相关系数的计算公式如下：

S22.多变量特征选择，假定数据集D，由CART作为基学习器建立的组合模型GBT,基学习器个数为K,每个特征节点的基尼指数计算公式如下：

其中，Gini(D)为数据集D的基尼值，p_j为样本值j所占的比例，v为样本取值总数，Gini_index(D，a)为属性a在样本集D上的基尼指数；然后针对每个节点，计算候选特征集S中所有特征的基尼指数，选取使得划分后基尼指数最小的特征m_min作为节点特征；此时，由特征m_min造成的平均不纯度减少值ΔGini，即为m_min的贡献度：

按照上面这两个公式，搜索单个基学习器上所有分裂节点i的贡献度，然后对所有基学习器进行平均，即得到m_min的总体贡献度：

其中，

为单个基学习器特征m_min的贡献度，/>

为该特征最终贡献度。

4.根据权利要求1所述的基于数据驱动的箱板纸机干燥部能量系统运行优化方法，其特征在于：

S31步骤中预测模型特征变量7个，分别为：T₁排风湿度、T₁排风温度、T₂排风湿度、T₂排风温度、T₃排风湿度、T₃排风温度、施胶前纸页的水分；能耗变量预测模型1个：干燥部蒸汽流量即DSQ；运用机器学习算法结合生产数据，建立Ridge回归模型、Elastic Net回归模型、SVR回归模型、RF回归模型；

S32步骤中计算方法为：

平均绝对误差计算公式：