CN111191712A - 基于梯度提升决策树的印染定型机能耗分类预测方法 - Google Patents

基于梯度提升决策树的印染定型机能耗分类预测方法 Download PDF

Info

Publication number
CN111191712A
CN111191712A CN201911375572.7A CN201911375572A CN111191712A CN 111191712 A CN111191712 A CN 111191712A CN 201911375572 A CN201911375572 A CN 201911375572A CN 111191712 A CN111191712 A CN 111191712A
Authority
CN
China
Prior art keywords
energy consumption
setting machine
data
printing
dyeing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911375572.7A
Other languages
English (en)
Other versions
CN111191712B (zh
Inventor
潘建
奚家字
赵焕东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN201911375572.7A priority Critical patent/CN111191712B/zh
Publication of CN111191712A publication Critical patent/CN111191712A/zh
Application granted granted Critical
Publication of CN111191712B publication Critical patent/CN111191712B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/04Manufacturing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Strategic Management (AREA)
  • Physics & Mathematics (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • General Physics & Mathematics (AREA)
  • Tourism & Hospitality (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Primary Health Care (AREA)
  • Manufacturing & Machinery (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • Development Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Coloring (AREA)
  • Treatment Of Fiber Materials (AREA)

Abstract

一种基于梯度提升决策树的印染定型机能耗分类预测方法,包括以下步骤:步骤1、采集印染订单、定型机的工艺参数和能耗等数据表;步骤2、对各数据表进行整理和数据预处理,得到预处理后的特征数据集;步骤3、构建定型机综合能耗模型,使用定型机综合能耗模型产生定型机能耗类别的预测值,结合能耗类别对预处理后的特征数据集进行选择,得到训练特征数据集;步骤4、使用梯度提升决策树分类预测模型对特征数据集进行训练,得到印染定型机能耗类别预测模型;步骤5、生成待预测印染订单的特征数据,使用预测模型进行预测,得到定型机能耗类别。本发明使用梯度提升决策树算法预测印染定型机的能耗类别,具有较高的准确性。

Description

基于梯度提升决策树的印染定型机能耗分类预测方法
技术领域
本发明涉及到一种基于梯度提升决策树的印染定型机能耗分类预测方法。
技术背景
热定型过程位于印染工艺流程中的后处理工段,主要完成织物的拉幅定型处理。定型过程能耗巨大,约占印染企业总能耗的二分之一,主要由导热油加热的燃气能耗以及导热风机消耗的电能等组成。
目前,印染行业一般采用优化工艺流程、车间调度、更新设备等措施实现一定程度上的节能减排,但效果较为局限。随着大数据和物联网技术的发展,通过机器学习算法建立预测模型对工艺参数和能耗数据进行分析,帮助印染企业预测其未来生产过程中定型机的能耗情况,从而实现更好的节能效果。
发明内容
为了克服现有的印染工艺流程优化、车间调度在定型机节能耗优化方面的局限性,本发明使用印染企业提供的订单数据、定型机生产的工艺参数数据以及定型机生产的能耗数据,经过数据预处理后使用梯度提升决策树算法预测印染企业未来生产过程中定型机的能耗使用情况,具有较高的准确性。
为了解决上述技术问题,本发明所采用的技术方案是:
一种基于梯度提升决策树的印染定型机能耗分类预测方法,所述印染定型机能耗分类预测方法包括以下步骤:
步骤1、采集印染订单、定型机生产的工艺参数、定型机生产的能耗数据表;
步骤2、对各数据表进行整理,使用去除唯一属性、处理缺失值、特征编码、数据合并方法进行数据预处理,得到预处理后的特征数据集;
所述数据预处理的处理过程为:
(2.1)对唯一属性的处理:唯一属性是id属性,这些属性并不能刻画样本自身的分布规律,所以删除这些属性即可;
(2.2)对缺失数据的处理:如果印染订单的特征数据60%以上缺失,即特征值为空,则将该订单记录删除;否则,将数值型的缺失特征值使用平均值填补;
(2.3)对类别数据进行特征编码:如果数据表中包含类别数据,则对该特征值数据进行编码,将特征值映射为类别编码;
(2.4)以印染定型机工艺参数表为基础进行数据合并,对每条数据样本的多个相似特征求平均值,以平均值代替多个相似特征,并将其他数据表中关联度较高的特征合并;
(2.5)对筛选出来的所有特征按订单号分组合并,得到预处理后的特征数据集;
步骤3、构建定型机综合能耗模型,使用定型机综合能耗模型产生定型机能耗类别的预测值,结合能耗类别对预处理后的特征数据集进行选择,得到训练特征数据集;
步骤4、使用梯度提升决策树分类预测模型对特征数据集进行训练,得到印染定型机能耗类别预测模型;
步骤5、生成待预测印染订单的特征数据,使用预测模型进行预测,得到定型机能耗类别。
再进一步,所述步骤1中,所述的印染订单、定型机生产的工艺参数、定型机生产的能耗数据表包括:
印染订单数据、定型机的工艺参数、定型机的能耗数据;
其中印染订单数据包括订单的号、计划生产编号、计划生产日期、客户姓名、布料名称、颜色号、颜色代码、颜色名称、批号、米数和备注信息;定型机的工艺参数包括订单号、流程开始时间、流程结束时间、温度、湿度、压力、车速和转速信息;定型机的能耗数据包括订单号、用水量、燃气和耗电量信息。
所述步骤3中,定型机综合能耗模型的构建过程为:
①从印染样本数据中抽取能耗数据:耗电量E、燃气消耗量G、耗水量W以及订单量数据米数M;
②通过单位产量能耗公式
Figure BDA0002340865670000031
计算产品单位产量能耗,其中
Figure BDA0002340865670000032
Figure BDA0002340865670000033
Pq为企业综合能耗,单位为千克标煤;Ei为生产活动中消耗的第i类能源实物量;Pi为第i类能源折算标煤系数。P为产品单位产量综合能耗,单位为千克标煤每百米;∑Ngh为各种合格品产量,单位为百米;
③即
Figure BDA0002340865670000034
得到产品单位产量能耗,用该数据代表订单综合能耗情况。
所述步骤3中,定型机能耗类别预测值产生的过程为:
计算得到所有数据样本的单位产量能耗P,Pmax表示单位产量能耗的最大值,Pmin表示单位产量能耗的最小值,令ΔP=Pmax-Pmin,单位产量能耗小于
Figure BDA0002340865670000035
的能耗类别用1表示,代表能耗较低;单位产量能耗大于
Figure BDA0002340865670000036
并且小于
Figure BDA0002340865670000037
的能耗类别用2表示,代表能耗适中;单位产量能耗大于
Figure BDA0002340865670000038
的能耗类别用4表示,表示能耗较高。
所述步骤3中特征数据集选择过程为:
对于值为连续型变量的特征,计算Pearson相关系数,筛选出相关系数大于5%的特征;对于定序变量或不满足正态分布假设的等间隔数据,计算Spearman相关系数,筛选出相关系数大于5%的特征,两个变量的Pearson相关系数计算如下:
Figure BDA0002340865670000041
所述的Spearman相关系数被定义成等级变量之间的Pearson相关系数,原始数据依据其在总体数据中平均的降序位置,被分配了一个相应的等级。
所述步骤4中,定型机能耗类别预测模型的输入特征为:
xi,p={Cname,Tgas,Tenv,Pgas,Uf,Ue,Tp,Sc,Savg,Tavg}i∈{order}
其中,order为订单号,Cname表示布料名称,Tgas表示一号定型机燃气表温度、Tenv表示环境温度、Pgas表示一号定型机燃气表压力、Uf表示一号定型机前端湿度、Ue表示一号定型机尾端湿度、Tp表示流程耗时、Sc表示车速、Savg表示排风机平均转速、Tavg表示烘房平均温度。
所述步骤4中,所述定型机能耗类别梯度提升决策树分类模型为:
Figure BDA0002340865670000042
其中,Ptypei为第i个订单的定型机能耗类别预测值,T为回归数的数量,J为叶子节点的数量,P表示定型机能耗类别预测模型,fp1,0(xi,p)为定型机能耗类别预测初始化的回归树,fp1,t(xi,p)t∈{1,T}代表定型机能耗类别预测模型第t棵回归树,j∈{1,J}代表第j个叶子节点,cp1,t,j代表定型机能耗类别预测模型第t棵回归树的第j个叶子节点的残差值,Rp,t,j为定型机能耗类别预测模型第t棵回归树的第j个叶子节点,I(xi,p∈Rp,t,j)即xi,p属于定型机能耗类别预测模型第t棵回归树的第j个叶子节点时等于1,否则为0;
将xi,pi∈{order}依次输入定型机能耗类别预测模型回归树t训练回归树模型以拟合cp1,t,j
Figure BDA0002340865670000043
最终将所有定型机能耗类别预测模型回归树模型以上述公式组合得到最终定型机能耗类别预测模型:
Figure BDA0002340865670000051
其中Cp1,t,j为cp1,t,j训练后最佳的值。
所述步骤5中,通过在印染订单数据表中查询与待预测印染订单的布料名称Cname相等的订单,取这些订单各个特征的平均值生成待预测印染订单的特征数据,包括一号定型机燃气表温度Tgas、一号定型机燃气表压力Pgas、一号定型机前端湿度Uf、一号定型机尾端湿度Ue、车速Sc、排风机平均转速Savg和烘房平均温度Tavg的特征值;环境温度Tenv则由天气预报预报的平均温度得到,流程耗时Tp根据生产量预估得到。
本发明的技术构思为:在印染厂提供的订单、定型机工艺参数以及定型机能耗数据的基础上,进行数据预处理、预测值生成和特征筛选,计算得出与决定能耗高低关联度高的特征,然后对特征和定型机能耗类别进行训练,生成预测模型,用于预测印染企业在未来一个月内订单在定型环节的能耗高低。
本发明的有益效果主要表现在:在对印染生产数据进行特征筛选时运用统计学中的相关系数排除一些无关特征;计算产品单位产量能耗代表综合能耗,作为预测值。在此基础上,使用梯度提升决策树来生成预测模型,提升预测的准确率。
附图说明
图1为本发明实现基于梯度提升决策树的印染定型机能耗分类预测方法的流程图。
图2为环境温度特征的节点分裂示意图。
图3为车速特征的节点分裂示意图。
具体实施方式
下面结合附图对本发明做进一步描述。
参照图1~图3,一种基于梯度提升决策树的印染定型机能耗分类预测方法,根据印染企业提供的近几个月的订单、定型机工艺参数以及定型机能耗数据,预测印染企业在未来一个月内订单在定型环节的能耗情况。所述印染定型机能耗分类预测方法包括以下步骤:
步骤1、采集印染订单、定型机生产的工艺参数、定型机生产的能耗数据表;
以下为对各个数据表的描述:
表1为对印染企业订单基本信息的描述:
Figure BDA0002340865670000061
表1表2为对定型机生产的工艺参数数据的描述:
Figure BDA0002340865670000062
Figure BDA0002340865670000071
Figure BDA0002340865670000081
表2
表3为对定型机生产的能耗数据的描述:
Figure BDA0002340865670000082
表3
步骤2、对各数据表进行整理,使用去除唯一属性、处理缺失值、特征编码、数据合并等方法进行数据预处理,得到预处理后的特征数据集;
所述数据预处理的处理过程为:
(2.1)对唯一属性的处理:表4为订单基本信息数据表的一部分数据样本,可以看到,其中的属性订单号是唯一属性,故在数据整理合并之后将其删除;
(2.2)对缺失数据的处理:表4为订单基本信息数据表的一部分数据样本。可以看到,其中第三条样本数据除订单号、颜色号和批次以外其余均为空值的情况,该订单所有特征数据中缺失60%以上的信息,故将其删除;第十条数据样本中缺少了米数特征上的数值,此时可采用均值插补的方法处理缺失值,即米数为1598。
Figure BDA0002340865670000091
表4
(2.3)对类别数据进行特征编码:印染订单数据表中包含特征布料名称,总共有10种类型的布料:四面弹、绉花缎、香云纱、真丝缎、雪纺珠、弹力色丁提花、烂花绒、金伦纱、树纹锻、复合丝平纹,用数字对其进行特征编码,四面弹用1表示,绉花缎用2表示,香云纱用3表示,真丝缎用4表示,雪纺珠用5表示,弹力色丁提花用6表示,烂花绒用7表示,金伦纱用8表示,树纹锻用9表示,复合丝平纹用10表示;
(2.4)以定型机工艺参数数据表作为基础,在其上进行数据合并,根据12个循环风机的转速得到循环风机的平均转速,同理,求出3台排风机的平均转速以及11节烘箱的平均温度,将流程结束时间减去流程开始时间得到流程耗时,同时,根据订单号将订单基本信息、定型机工艺参数以及定型机能耗情况进行整合,至此得到的用于预测印染能耗分类的特征包括:一号定型机燃气表温度、环境温度、一号定型机燃气表压力、一号定型机前端湿度、一号定型机尾端湿度、耗水量、流程耗时、车速、循环风机平均转速、排风机平均转速、烘房平均温度;
(2.5)对筛选出来的所有特征按订单号分组合并,得到预处理后的特征数据集,包含12个特征:布料名称、一号定型机燃气表温度、环境温度、一号定型机燃气表压力、一号定型机前端湿度、一号定型机尾端湿度、耗水量、流程耗时、车速、循环风机平均转速、排风机平均转速、烘房平均温度;
步骤3、构建定型机综合能耗模型,使用定型机综合能耗模型产生定型机能耗类别的预测值,结合能耗类别对预处理后的特征数据集进行选择,得到训练特征数据集;
所述过程为:①构建定型机综合能耗模型,从印染样本数据中抽取能耗相关数据:耗电量E、燃气消耗量G、耗水量W以及订单量数据米数M,如表5所示:
耗电量(E) 燃气消耗量(G) 耗水量(W) 米数(M)
131 79 26 2560
203 142 39 3780
98 66 20 1650
231 189 42 4087
284 238 69 7420
245 171 51 5241
91 56 12 1420
145 98 33 3670
表5
1立方米天然气折算标煤系数为1.33,即PG为1.33;1度电的折算标煤系数为0.404,即PE为0.404;1立方米自来水的折算标煤系数为0.086。即单位产量能耗
Figure BDA0002340865670000111
用该数据代表定型机综合能耗情况;
②通过计算所有数据样本的单位产量能耗P,得到最大值Pmax=8.70以及最小值Pmin=5.38,得到ΔP=Pmax-Pmin=3.32,单位产量能耗小于
Figure BDA0002340865670000112
6.49的能耗类别用1表示,代表能耗较低;单位产量能耗大于
Figure BDA0002340865670000113
Figure BDA0002340865670000114
并且小于
Figure BDA0002340865670000115
的能耗类别用2,代表能耗适中;单位产量能耗大于
Figure BDA0002340865670000116
的能耗类别用4表示,代表能耗较高;
对预处理后的特征数据进行选择:对于值为连续型变量的特征,计算Pearson相关系数,筛选出相关系数大于5%的特征,排除耗水量和循环风机平均转速,至此得到的用于预测印染定型机能耗分类的10个特征包括布料名称、一号定型机燃气表温度、环境温度、一号定型机燃气表压力、一号定型机前端湿度、一号定型机尾端湿度、流程耗时、车速、排风机平均转速、烘房平均温度,Pearson相关系数具体如表6所示。
布料名称 0.23
一号定型机燃气表温度 0.43
环境温度 0.06
一号定型机燃气表压力 0.08
一号定型机前端湿度 0.46
一号定型机尾端湿度 0.46
耗水量 -0.003
流程耗时 -0.65
车速 0.05
循环风机平均转速 0.01
排风机平均转速 0.16
烘房平均温度 0.07
表6
得到训练特征数据集如表7所示:
Figure BDA0002340865670000121
表7
步骤4、使用梯度提升决策树分类预测模型对特征数据集进行训练,得到印染定型机能耗类别预测模型;
对样本数据中每个定型机能耗类别分别训练一个分类回归树,即对定型机能耗较低类别训练一个分类回归树CART Tree 1,定型机能耗适中类别训练一个分类回归树CARTTree 2,定型机能耗较高类别训练一个分类回归树CART Tree 3,这三个树相互独立。样本数据中去掉作为预测值的定型机能耗类别属性,共有10个特征,即M=10,因此每一个分类回归树由10颗树组成;
所述的分类回归树的实现过程为:
①第一步从特征中选择环境温度特征,作为二叉树的第一个节点,即第一次选出的特征j为环境温度。
②然后对环境温度特征的值选择一个切分点,将环境特征的第一个特征值作为切分点,即m=26。一个样本的特征环境温度的值如果小于26,则归为左子树;如果大于等于26,则归为右子树。
③以上两步便构建了分类回归树的一个节点,其他节点的生成过程类似。
进一步,在每轮迭代的时候,选择特征j,以及选择特征j的切分点m的过程为:
①遍历样本数据中的每个特征,从布料名称一直遍历到烘房平均温度;
②对每个特征遍历它所有可能的切分点,即对于布料名称、一号定型机燃气表温度、环境温度、一号定型机燃气表压力、一号定型机前端湿度、一号定型机尾端湿度、流程耗时、车速、排风机平均转速、烘房平均温度这10个特征,遍历各特征上的所有特征值,找到最优特征m的最优切分点j,对于每个特征的特征值都做相同的遍历以找到每个节点的最优切分点。
再进一步,通过计算每个特征在各个特征值上的损失函数值,得到多个不同的损失函数值,取损失函数值最小的情况构造预测函数。
取各个特征值上的损失函数值最小的情况即为该特征的最优切分点。以样本1为例,对该步骤进行说明。针对分类回归树CART Tree 1的训练样本是[1,20,26,297,12.26,1.3,579,63,1035.7,178.4],定型机能耗类别是1,输入到模型当中的样本数据为[1,20,26,297,12.26,1.3,579,63,1035.7,178.4,1]。针对分类回归树CART Tree 2的训练样本也是[1,20,26,297,12.26,1.3,579,63,1035.7,178.4],但是定型机能耗类别为2,输入模型的样本数据为[1,20,26,297,12.26,1.3,579,63,1035.7,178.4,2]。针对分类回归树CARTTree 3的训练样本也是[1,20,26,297,12.26,1.3,579,63,1035.7,178.4],定型机能耗类别也为2,输入模型当中的数据样本为[1,20,26,297,12.26,1.3,579,63,1035.7,178.4,2]。
分类回归树的生成过程是从这10个特征中找一个特征作为分类回归树的节点,比如环境温度作为节点,1万个样本当中环境温度小于26的就是左子树,大于等于26的是右子树。遍历所有的可能值,找到一个特征和它对应的最优特征值让损失函数值最小,损失函数值计算公式如下:
Figure BDA0002340865670000141
以环境温度特征为例,考虑前6条样本数据,计算损失函数值。
首先考虑环境温度特征的第一个特征值26,R1为所有样本中环境温度小于26的样本集合,R2为所有样本中环境温度大于等于26的样本集合,即R1={3},R2={1,2,4,5,6}。y1为R1所有样本的定型机能耗类别的均值1/1=1。y2为R2所有样本的定型机能耗类别均值(0+0+0+0+1)/5=0.2。
由此,定型机能耗较低类型在环境温度特征的第一个特征值26的损失函数值可根据上述式子计算:(0-0.2)2+(0-0.2)2+(1-1)2+(0-0.2)2+(0-0.2)2+(1-0.2)2=0.8。
然后计算第二个特征值30的损失函数值,R1为所有样本中环境温度小于30的样本集合,R2为所有样本当中环境温度大于等于30的样本集合,即R1={1,3,5,6},R2={2,4}。y1为R1所有样本的定型机能耗类别的均值(0+1+0+1)/4=0.5。y2为R2所有样本的定型机能耗类别的均值(0+0)/2=0,可计算得到定型机能耗较低类别在第二个特征值30的损失函数值:(0-0.5)2+(0-0)2+(1-0.5)2+(0-0)2+(0-0.5)2+(1-0.5)2=1。
同理,遍历所有特征的所有特征值,找到使得损失函数值最小的特征以及其对应的特征值,共有60种情况。最后计算得到,损失函数值最小的特征是环境温度,特征值为26,损失函数值为0.8。
由此,根据环境温度特征值26构造预测函数如下:
Figure BDA0002340865670000151
此处R1={3},R2={1,2,4,5,6},y1=1,y2=0.2,即:
Figure BDA0002340865670000152
使用预测函数预测得到样本属于定型机能耗较低类别的预测值f1(x)=1+0.2*5=2,同理我们可以分别得到属于定型机能耗适中类别和定型机能耗较高的预测值f2(x),f3(x)。样本属于定型机能耗较低类别的概率即为:
Figure BDA0002340865670000153
步骤5、生成待预测印染订单的特征数据,使用预测模型进行预测,得到定型机能耗类别。通过在印染订单数据表中查询与待预测印染订单的布料名称Cname相等的订单,取这些订单各个特征的平均值生成待预测印染订单的特征数据,包括一号定型机燃气表温度Tgas、一号定型机燃气表压力Pgas、一号定型机前端湿度Uf、一号定型机尾端湿度Ue、车速Sc、排风机平均转速Savg和烘房平均温度Tavg的特征值;环境温度Tenv则由天气预报预报的平均温度得到,流程耗时Tp根据生产量预估得到。
表8为印染订单数据表中布料名称为2的订单在各个特征上的值。
Figure BDA0002340865670000161
表8
表9为未来一个月的天气预报温度。
表格1未来一个月天气预报
日期 最低气温(摄氏度) 最高气温(摄氏度) 平均温度(摄氏度)
2019/12/1 8 17 14
2019/12/2 15 18 16
2019/12/3 13 16 14
2019/12/4 14 19 16
2019/12/5 16 23 19
2019/12/6 16 23 19
表9
表10为部分待预测的印染订单数据在各个特征上的详细数据以及最终得到的预测结果。
Figure BDA0002340865670000171
Figure BDA0002340865670000181
表10
本技术领域中的普通技术人员应当认识到,以上内容仅是用来说明本发明,而并非用作为对本发明的限定,只要在本发明的实质精神范围内,对以上实例的变化、变型都将落在本发明的权利要求书范围内。

Claims (6)

1.一种基于梯度提升决策树的印染定型机能耗分类预测方法,其特征在于,所述印染定型机能耗分类预测方法包括以下步骤:
步骤1、采集印染订单、定型机生产的工艺参数、定型机生产的能耗数据表;
步骤2、对各数据表进行整理,使用去除唯一属性、处理缺失值、特征编码、数据合并方法进行数据预处理,得到预处理后的特征数据集;
所述数据预处理的处理过程为:
(2.1)对唯一属性的处理:唯一属性是id属性,这些属性并不能刻画样本自身的分布规律,所以删除这些属性即可;
(2.2)对缺失数据的处理:如果印染订单的特征数据60%以上缺失,即特征值为空,则将该订单记录删除;否则,将数值型的缺失特征值使用平均值填补;
(2.3)对类别数据进行特征编码:如果数据表中包含类别数据,则对该特征值数据进行编码,将特征值映射为类别编码;
(2.4)以印染定型机工艺参数表为基础进行数据合并,对每条数据样本的多个相似特征求平均值,以平均值代替多个相似特征,并将其他数据表中关联度较高的特征合并;
(2.5)对筛选出来的所有特征按订单号分组合并,得到预处理后的特征数据集;
步骤3、构建定型机综合能耗模型,使用定型机综合能耗模型产生定型机能耗类别的预测值,结合能耗类别对预处理后的特征数据集进行选择,得到训练特征数据集;
步骤4、使用梯度提升决策树分类预测模型对特征数据集进行训练,得到印染定型机能耗类别预测模型;
步骤5、生成待预测印染订单的特征数据,使用预测模型进行预测,得到定型机能耗类别。
2.根据权利要求1所述基于梯度提升决策树的印染定型机能耗分类预测方法,其特征在于:所述步骤1中,所述的印染订单、定型机生产的工艺参数、定型机生产的能耗数据表包括:
印染订单数据、定型机的工艺参数、定型机的能耗数据;
其中印染订单数据包括订单的号、计划生产编号、计划生产日期、客户姓名、布料名称、颜色号、颜色代码、颜色名称、批号、米数和备注信息;定型机的工艺参数包括订单号、流程开始时间、流程结束时间、温度、湿度、压力、车速和转速信息;定型机的能耗数据包括订单号、用水量、燃气和耗电量信息。
3.根据权利要求1或2所述基于梯度提升决策树的印染定型机能耗分类预测方法,其特征在于:所述步骤3中,定型机综合能耗模型的构建过程为:
①从印染样本数据中抽取能耗相关数据:耗电量E、燃气消耗量G、耗水量W以及订单量数据米数M;
②通过综合单位产量能耗公式
Figure FDA0002340865660000021
计算产品单位产量综合能耗,其中
Figure FDA0002340865660000022
Pq为企业综合能耗,单位为千克标煤;Ei为生产活动中消耗的第i类能源实物量;Pi为第i类能源折算标煤系数,P产品单位产量综合能耗,单位为千克标煤每百米;∑Ngh为各种合格品产量,单位为百米;
③即
Figure FDA0002340865660000023
得到单位产量能耗,用该数据代表综合能耗情况;
步骤3中,定型机能耗类别预测值产生的过程为:计算得到所有数据样本的单位产量能耗P,Pmax表示单位产量能耗的最大值,Pmin表示单位产量能耗的最小值,令ΔP=Pmax-Pmin,单位产量能耗大于
Figure FDA0002340865660000024
并且小于
Figure FDA0002340865660000025
的能耗类别用2表示,代表能耗适中;单位产量能耗大于
Figure FDA0002340865660000026
的能耗类别用4表示,表示能耗较高。
4.根据权利要求1或2所述基于梯度提升决策树的印染定型机能耗分类预测方法,其特征在于:所述步骤3中,预处理后的特征数据集选择过程为:
对于值为连续型变量的特征,计算Pearson相关系数,筛选出相关系数大于5%的特征;对于定序变量或不满足正态分布假设的等间隔数据,计算Spearman相关系数,筛选出相关系数大于5%的特征,两个变量的Pearson相关系数计算如下:
Figure FDA0002340865660000031
所述的Spearman相关系数被定义成等级变量之间的Pearson相关系数,原始数据依据其在总体数据中平均的降序位置,被分配了一个相应的等级。
5.根据权利要求1或2所述基于梯度提升决策树的印染定型机能耗分类预测方法,其特征在于:所述步骤4中,定型机能耗类别预测模型的输入特征为:
xi,p={Cname,Tgas,Tenv,Pgas,Uf,Ue,Tp,Sc,Savg,Tavg}i∈{order}
其中,order为订单号,Cname表示布料名称,Tgas表示一号定型机燃气表温度、Tenv表示环境温度、Pgas表示一号定型机燃气表压力、Uf表示一号定型机前端湿度、Ue表示一号定型机尾端湿度、Tp表示流程耗时、Sc表示车速、Savg表示排风机平均转速、Tavg表示烘房平均温度;
步骤4中所述定型机能耗类别梯度提升决策树分类模型为:
Figure FDA0002340865660000032
其中,Ptypei为第i个订单的定型机能耗类别预测值,T为回归数的数量,J为叶子节点的数量,P表示定型机能耗类别预测模型,fp1,0(xi,p)为定型机能耗类别预测初始化的回归树,fp1,t(xi,p)t∈{1,T}代表定型机能耗类别预测模型第t棵回归树,j∈{1,J}代表第j个叶子节点,cp1,t,j代表定型机能耗类别预测模型第t棵回归树的第j个叶子节点的残差值,Rp,t,j为定型机能耗类别预测模型第t棵回归树的第j个叶子节点,I(xi,p∈Rp,t,j)即xi,p属于定型机能耗类别预测模型第t棵回归树的第j个叶子节点时等于1,否则为0;
将xi,pi∈{order}依次输入定型机能耗类别预测模型回归树t训练回归树模型以拟合cp1,t,j
Figure FDA0002340865660000041
最终将所有定型机能耗类别预测模型回归树模型以上述公式组合得到最终定型机能耗类别预测模型:
Figure FDA0002340865660000042
其中Cp1,t,j为cp1,t,j训练后最佳的值。
6.根据权利要求1或2所述基于梯度提升决策树的印染定型机能耗分类预测方法,其特征在于:所述步骤5中,通过在印染订单数据表中查询与待预测印染订单的布料名称Cname相等的订单,取这些订单各个特征的平均值生成待预测印染订单的特征数据,包括一号定型机燃气表温度Tgas、一号定型机燃气表压力Pgas、一号定型机前端湿度Uf、一号定型机尾端湿度Ue、车速Sc、排风机平均转速Savg和烘房平均温度Tavg的特征值;环境温度Tenv则由天气预报预报的平均温度得到,流程耗时Tp根据生产量预估得到。
CN201911375572.7A 2019-12-27 2019-12-27 基于梯度提升决策树的印染定型机能耗分类预测方法 Active CN111191712B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911375572.7A CN111191712B (zh) 2019-12-27 2019-12-27 基于梯度提升决策树的印染定型机能耗分类预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911375572.7A CN111191712B (zh) 2019-12-27 2019-12-27 基于梯度提升决策树的印染定型机能耗分类预测方法

Publications (2)

Publication Number Publication Date
CN111191712A true CN111191712A (zh) 2020-05-22
CN111191712B CN111191712B (zh) 2023-06-30

Family

ID=70707681

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911375572.7A Active CN111191712B (zh) 2019-12-27 2019-12-27 基于梯度提升决策树的印染定型机能耗分类预测方法

Country Status (1)

Country Link
CN (1) CN111191712B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108873829A (zh) * 2018-05-28 2018-11-23 上海新增鼎数据科技有限公司 一种基于梯度提升决策树的磷酸生产参数控制方法
CN111915089A (zh) * 2020-08-07 2020-11-10 青岛洪锦智慧能源技术有限公司 一种污水处理厂泵组能耗的预测方法及其装置
CN113505818A (zh) * 2021-06-17 2021-10-15 广东工业大学 改进决策树算法的熔铝炉能耗异常诊断方法和系统及设备
CN116757451A (zh) * 2023-08-17 2023-09-15 青岛海瑞达网络科技有限公司 基于智能分析技术的生产能源数据处理系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018072083A (ja) * 2016-10-26 2018-05-10 株式会社東芝 消費エネルギー予測装置及び消費エネルギー予測方法
US20180285788A1 (en) * 2015-10-13 2018-10-04 British Gas Trading Limited System for energy consumption prediction
CN109409426A (zh) * 2018-10-23 2019-03-01 冶金自动化研究设计院 一种极值梯度提升逻辑回归分类预测方法
CN110245802A (zh) * 2019-06-20 2019-09-17 杭州安脉盛智能技术有限公司 基于改进梯度提升决策树的卷烟空头率预测方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180285788A1 (en) * 2015-10-13 2018-10-04 British Gas Trading Limited System for energy consumption prediction
JP2018072083A (ja) * 2016-10-26 2018-05-10 株式会社東芝 消費エネルギー予測装置及び消費エネルギー予測方法
CN109409426A (zh) * 2018-10-23 2019-03-01 冶金自动化研究设计院 一种极值梯度提升逻辑回归分类预测方法
CN110245802A (zh) * 2019-06-20 2019-09-17 杭州安脉盛智能技术有限公司 基于改进梯度提升决策树的卷烟空头率预测方法及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
WANG RAN等: "Multi-criteria comprehensive study on predictive algorithm of hourly heating energy consumption for residential buildings" *
任佳;苏宏业;: "印染热定型机煤、电能耗建模及优化求解研究" *
王守相;刘天宇;: "计及用电模式的居民负荷梯度提升树分类识别方法" *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108873829A (zh) * 2018-05-28 2018-11-23 上海新增鼎数据科技有限公司 一种基于梯度提升决策树的磷酸生产参数控制方法
CN108873829B (zh) * 2018-05-28 2020-09-15 上海新增鼎数据科技有限公司 一种基于梯度提升决策树的磷酸生产参数控制方法
CN111915089A (zh) * 2020-08-07 2020-11-10 青岛洪锦智慧能源技术有限公司 一种污水处理厂泵组能耗的预测方法及其装置
CN113505818A (zh) * 2021-06-17 2021-10-15 广东工业大学 改进决策树算法的熔铝炉能耗异常诊断方法和系统及设备
CN116757451A (zh) * 2023-08-17 2023-09-15 青岛海瑞达网络科技有限公司 基于智能分析技术的生产能源数据处理系统

Also Published As

Publication number Publication date
CN111191712B (zh) 2023-06-30

Similar Documents

Publication Publication Date Title
CN111191712A (zh) 基于梯度提升决策树的印染定型机能耗分类预测方法
CN112861379B (zh) 基于稀疏大数据挖掘的火电机组汽轮机优化方法及系统
CN101788819B (zh) 大规模生产过程一种基于迭代式分解和流松弛的调度方法
CN111260138B (zh) 加权和自适应并行关联规则的火电机组能耗动态优化方法
CN112181706B (zh) 一种基于对数区间隔离的电力调度数据异常检测方法
CN111832839B (zh) 基于充分增量学习的能耗预测方法
CN113283547B (zh) 一种基于多任务深度学习的最优潮流计算方法
CN110826237A (zh) 基于贝叶斯信念网络的风电设备可靠性分析方法及装置
CN110428053A (zh) 一种蒸汽产耗量的动态预测方法
CN114021483A (zh) 基于时域特征与XGBoost的超短期风电功率预测方法
CN112270615A (zh) 基于语义计算的复杂装备制造bom智能分解方法
CN111553568A (zh) 一种基于数据挖掘技术的线损管理方法
Guo et al. Power demand forecasting and application based on SVR
CN116128544A (zh) 一种电力营销异常营业数据的主动稽核方法和系统
CN114035468A (zh) 基于XGBoost算法的风机检修流程预测性监控方法与系统
CN116467658A (zh) 一种基于马尔科夫链的设备故障溯源方法
CN116757059A (zh) 一种基于产品类型和工艺的碳核算方法、装置及相关介质
CN110781206A (zh) 一种学习拆回表故障特征规则预测在运电能表是否故障的方法
CN110956304A (zh) 一种基于ga-rbm的分布式光伏发电量短期预测方法
CN105787113A (zh) 一种基于plm数据库面向dpipp工艺信息的挖掘算法
CN112765746A (zh) 基于多项式混沌的涡轮叶顶气热性能不确定性量化系统
CN111950118A (zh) 一种燃气-蒸汽联合发电机组操作优化方法及设备
CN107515979B (zh) 一种对大批量工件模型数据的处理方法及处理系统
CN111475988A (zh) 基于梯度提升决策树和遗传算法的印染定型机能耗优化方法
CN112306730B (zh) 基于历史项目伪标签生成的缺陷报告严重程度预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant