CN113869795B - 一种工业副产煤气系统长期调度方法 - Google Patents

一种工业副产煤气系统长期调度方法 Download PDF

Info

Publication number
CN113869795B
CN113869795B CN202111245007.6A CN202111245007A CN113869795B CN 113869795 B CN113869795 B CN 113869795B CN 202111245007 A CN202111245007 A CN 202111245007A CN 113869795 B CN113869795 B CN 113869795B
Authority
CN
China
Prior art keywords
scheduling
network
data
strategy
representation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111245007.6A
Other languages
English (en)
Other versions
CN113869795A (zh
Inventor
王天宇
赵珺
王伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian University of Technology
Original Assignee
Dalian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian University of Technology filed Critical Dalian University of Technology
Priority to CN202111245007.6A priority Critical patent/CN113869795B/zh
Publication of CN113869795A publication Critical patent/CN113869795A/zh
Application granted granted Critical
Publication of CN113869795B publication Critical patent/CN113869795B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0637Strategic management or analysis, e.g. setting a goal or target of an organisation; Planning actions based on goals; Analysis or evaluation of effectiveness of goals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0631Resource planning, allocation, distributing or scheduling for enterprises or organisations
    • G06Q10/06315Needs-based resource requirements planning or analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/067Enterprise or organisation modelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/04Manufacturing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Marketing (AREA)
  • General Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Development Economics (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Game Theory and Decision Science (AREA)
  • Educational Administration (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Manufacturing & Machinery (AREA)
  • Public Health (AREA)
  • Water Supply & Treatment (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

一种工业副产煤气系统长期调度方法,步骤如下:针对能源数据的波动特征划分信息粒度,形成数据样本的语义表示。以粒度化的数据特征作为输入,通过专家调度经验数据构建深度对比网络结构,分别采用定性和定量学习的方式构建不同调度状态下的知识表示;再建立全连接输出层拟合专家调度量,获得基于经验知识的初始调度策略。构建actor‑critic架构计算考虑长期调度表现的补偿策略。其中,critic部分以对比网络获得的知识表示作为状态空间,建立以调度事件为单位的评价值函数,并采用深度Q学习的方式实现策略评价;actor部分将当前的策略评价与期望目标值进行比对,基于评价反馈迭代计算补偿策略,得到最终的副产能源调度方案。

Description

一种工业副产煤气系统长期调度方法
技术领域
本发明属于信息技术领域,涉及到知识自动化、数据驱动建模、强化学习等技术,是一种知识、数据与动态规划相融合的工业副产能源系统长期调度方法。首先采用粒度化方式和深度对比学习获得关于能源系统调度状态的知识表示,并计算出初始调度策略。在此基础上,结合actor-critic架构的动态规划过程,实现考虑长期调度表现的策略补偿。此方法能够满足工业现场对于长期柜位控制,能源预测和平衡调度需求,且计算效率符合实际应用要求,可帮助节约调度成本,实现副产煤气系统的节能减排。
背景技术
工业生产是高耗能和高排放的生产过程,随着煤炭、石油等一次能源的紧缺,充分利用生产过程中产生的二次能源不但可以提高企业节能降耗水平,还可减少煤气放散带来的环境污染。(金锋.基于因果模型的钢铁煤气优化调度方法与应用[D].(2020).大连理工大学)。副产煤气是工业生产过程中产生的重要二次能源,其特点是单次回收量较大,在回收阶段对能源管网平衡的冲击也较大。当出现设备检修、设备故障、生产计划变更等情况时,亦会导致管网出现供需失衡。为了更好地利用副产资源,现场调度人员需要根据当前煤气系统运行状态和生产计划对可调用户的负荷量进行调整,以保证系统的平衡运行。
随着工业信息化水平的逐步提高,各大企业积累了大量相关历史数据,为能源优化调度提供技术支持。现有的研究主要包括:基于贝叶斯网络进行建模和推理(J.Zhao,W.Wang,K.Sun,et al.(2014).A bayesiannetworks structure learning andreasoning-based byproduct gas scheduling in steel industry[J].IEEETransactions on Automation Science and Engineering,11(4):1149-1154)、预测建模和优化调度两阶段方法(Z.Han,J.Zhao,W.Wang,&Y.Liu.(2016).A two-stage method forpredicting and scheduling energy in an oxygen/nitrogen system of the steelindustry[J].Control Engineering Practice,52,35-45)、因果关系建模(F.Jin,J.Zhao,Y.Liu,et al.(2021).A scheduling approach with uncertainties in generation andconsumption for converter gas system in steel industry[J].InformationSciences,2021,546:312-328)等。上述研究都是针对短时间内单次能源不平衡情况进行计算,而并没有综合考虑未来一段时间内诸如设备运行变化,生产计划调整等生产环境的动态特性对于调度策略的影响。针对工业能源系统的多时间尺度调度问题,主要包括采用启发式优化方法(R.Hemmati,H.Saboori,P.Siano.(2017).Coordinated short-termscheduling and long-term expansion planning in microgrids incorporatingrenewable energy resources and energy storage systems[J].Energy,134:699-708.)、混合整数规划优化方法(A.Bischi,L.Taccari,E.Martelli,et al.(2019).Arolling-horizon optimization algorithm for the long term operationalscheduling of cogeneration systems[J].Energy,184:73-90.)等。然而,上述文献大多采用静态的优化方式,在面对多阶段或具有多步策略的长期调度问题时,难以避免优化模型易陷入局部最优,进而影响包括设备运行、调度经济性等长期指标。
发明内容
针对事件驱动的工业副产煤气系统调度过程,本发明首先根据生产过程数据的波动特征划分信息粒度,利用专家调度样本建立粒度对比网络,实现调度过程中关于系统运行状态的知识表示,在此基础上通过有监督学习的方式拟合专家调度量,获得初始的调度策略。考虑多步调度事件的影响,以知识表示作为强化学习的状态,基于actor-critic架构建立策略评估和动态补偿机制,进而提高能源系统的长期调度表现。该发明有利于减少调度成本,能够保证能源存储柜位长时间地运行在安全区间,从而为现场工作人员的调度操作提供决策支持。
本发明的技术方案:
一种工业副产煤气系统长期调度方法,步骤如下:
(1)针对能源数据的波动特征划分信息粒度,形成数据样本的语义表示。
(2)以粒度化的数据特征作为输入,通过专家调度经验数据构建深度对比网络结构,分别采用定性和定量学习的方式构建不同调度状态下的知识表示;在此基础上,建立全连接输出层拟合专家调度量,获得基于经验知识的初始调度策略。
(3)构建actor-critic架构计算考虑长期调度表现的补偿策略。其中,critic部分以对比网络获得的知识表示作为状态空间,建立以调度事件为单位的评价值函数,并采用深度Q学习的方式实现策略评价;actor部分将当前的策略评价与期望目标值进行比对,基于目标的返还量计算补偿策略,得到最终的副产能源调度方案。
本发明的有益效果:本发明提出的方法结合了知识提取,数据驱动建模及动态规划过程。通过数据粒度化过程和深度对比网络实现关于能源系统调度状态的知识获取和表示;进一步构建的actor-critic架构可反映生产环境的动态变化和未来多步调度事件的影响,从而满足工业现场长期的柜位运行控制,能源预测及平衡调度需求。
附图说明
图1为本发明应用流程图。
图2为粒度对比网络结构图。
图3描述对比网络的多层次训练机制。
图4为critic网络结构图。
图5为300分钟的柜位调度效果对比(煤气富余情况)。其中(a)-(d)分别代表四座煤气柜。
图6为300分钟的柜位调度效果对比(煤气不足情况)。其中(a)-(d)分别代表四座煤气柜。
具体实施方式
工业副产能源系统存在发生、存储和消耗等多种变量,且各变量通过能源传输网络相互耦合关联,同时能源用户的状态随时间不断变化,这些客观因素共同导致能源系统具有复杂且动态变化的运行特征。为了提高长期调度表现,需根据不同的系统状态特征制定合理的调度策略,采用动态规划的方式综合考虑能源系统状态变化及多步调度事件影响。为了更好地理解本发明的技术路线和实施方案,以冶金企业转炉煤气系统能源调度为研究对象,具体的实施步骤描述如下:
(1)能源数据的特征粒度化建模
本发明采用自适应粒度化(Adaptive granulation,AG)方法,根据数据的波动趋势特征划分数据粒度。给定时间序列X={x1,x2,...,xn},其一阶和二阶动态变量可表示为
Δ={Δ1,Δ2,...,Δn-1},E={e1,e2,...,en-2} (1)
其中,Δi=xi+1-xi,ei=Δi+1i。通过Δi×Δi-1和ei×ei-1的符号判断数据点xi所在序列段的凹凸性和单调性变化,并在性质改变时刻划分时间序列数据。例如对于时间序列X={x1,x2,…,xp,xp+1,…,xn},若Δp×Δp-1<0∪ep×ep-1<0,则以xp作为分割点,划分X为{x1,x2,…,xp}和{xp+1,xp+2,…,xn}。在实施粒度划分前,需要将数据进行滤波预处理,以消除一些微小的趋势变化。为了进一步实现数据的语义增强,采用由时间跨度Dτ、波动幅值Aτ和趋势线型Lτ组成的三维特征向量来对信息粒Gτ进行描述,记为Gτ={Dτ,Aτ,Lτ},其中τ为粒度时间步长。
(2)基于粒度对比网络的知识提取及策略计算
建立粒度对比网络获得与调度状态相关的知识表示,并基于该表示拟合历史调度样本中的专家调整量,计算出初始调度策略。
对比网络模型的输入为能源发生、消耗以及存储流量数据的信息粒描述,即
Figure BDA0003320647110000031
其中e表示不同调度事件,n为输入因素个数。该网络结构如附图2所示,可分为以下四个部分:
1)首先根据历史时刻的专家调度数据(调整方向、调整量大小等)将数据样本定性地划分为不同的子集
Figure BDA0003320647110000032
2)通过基于神经网络的编码器f(·)从数据的粒度化特征描述中提取表示向量。本发明采用长短时记忆网络来获得调度状态的特征表示,即he=f(se)=LSTM(se),其中
Figure BDA0003320647110000047
为网络的隐藏表示。
3)通过具有单隐藏层的神经网络映射层g(·)将提取的表示向量映射到对比损失空间,该特征映射层得到的ze相比于上一层的he将具有更好的对比学习效果。这里采用MLP来获得最终的状态知识表示,即ze=g(he)=MLP(he)。经过对比学习后,ze相比于se能够反映出能源系统的调度状态,因此ze还被用于actor-critic框架中的状态空间表示。
4)在知识表示向量ze的基础上建立全连接输出层,得到初始调度策略,即ue=Output(ze)。
对于所建立对比网络的学习过程,本发明分别从定性和定量的两个层次进行训练:
1)通过最小化定义的损失函数,使得根据由专家调度数据定性划分在相同子集的样本
Figure BDA0003320647110000041
其表示向量
Figure BDA0003320647110000042
相互接近,而区分不同子集样本
Figure BDA0003320647110000043
的表示
Figure BDA0003320647110000044
以尽可能区分不同的调度工况。这一过程的损失函数定义如下
Figure BDA0003320647110000045
其中,p表示与
Figure BDA0003320647110000046
属于同一子集的样本个数,q为不同子集样本个数,d(·)表示向量间的距离,这里采用余弦相似度来衡量。
针对专家调度数据中包含的多分类情况,本发明提出一种多步训练策略。在训练过程中首先根据调整方向进行二分类的对比学习,之后通过构建具有不同调整量大小的输入样本再进行多次学习,使得输出的表示向量能够区分多类别的专家知识。若专家经验样本总数为N,在训练模型时使用所有可能的数据对,则用于训练的数据信息量可达到(N)(N-1)/2。相比于经典的有监督学习方法,对比学习模型的训练过程要多出近似于(N-1)/2个样本,因此能够更为高效地利用相对稀疏的事件驱动调度过程数据。
2)在上述训练过程结束后,进一步提出多层次训练机制来实现调度知识的定量学习和细化表示,如图3所示。
首先定义验证集{s1,s2,...,sl},根据上述过程得到的网络模型计算相应的知识表示{z1,z2,...zl}。在知识表示向量的基础上建立输出层来拟合专家调度量。通过计算出的调度量与真实调度量之间的误差来判断当前获得的知识表示是否能够满足实际系统条件。若存在样本数据集
Figure BDA0003320647110000051
的误差高于某一设定的阈值θ,即
Figure BDA0003320647110000052
其中,ye为真实调度量。说明当前的表示空间无法覆盖该样本集中所包含的调度知识。这种情况下,需要进一步训练对比网络模型使得其能够区分出
Figure BDA0003320647110000053
和验证集中其他样本。由于需要学习出与已有表示空间不同的特征,因此在这一过程中定义相互排斥的损失函数
Figure BDA0003320647110000054
其中,r为未满足条件的样本个数,l为验证集样本总数。上述训练结束后,需再次根据学习后的网络模型判断验证集中的样本能否满足阈值条件,并不断执行上述过程实现多层次迭代学习,直到所有样本均满足设定条件。
在对比学习训练结束后,给定粒度化的样本输入se,可得到相应的调度状态知识表示ze。基于该表示建立全连接输出层,通过有监督学习的方式拟合专家调度量,计算出基于专家知识的初始调度策略。
(3)基于Actor-Critic框架的补偿策略计算
针对副产能源系统的长期调度表现,本发明提出一种Actor-critic框架实现对于初始调度策略的动态补偿,其中critic部分将知识表示ze作为强化学习的状态,建立深度Q网络计算调度策略的值函数评价;Actor部分利用由粒度对比网络计算的初始调度策略作为初始解,根据策略的评价值与目标设定值的偏差,通过数据拟合的方式获得调度策略的补偿量,进而得到最终的调度方案。
1)Critic部分构建评价网络对调度策略进行评价。网络的输入为状态知识表示ze和动作(调度量)ae的集合,分别经过一层神经网络后进行拼接,在此基础上构建多层隐藏层与ReLU激活函数层建立深度神经网络,网络输出为值函数Q,critic网络结构如图4所示。
本发明在每个调度事件发生时刻计算调度奖赏,因此定义以调度事件为单位的值函数,即
Figure BDA0003320647110000055
其中,rewardk定义为第k个调度事件的奖赏,通过副产煤气系统调度效果的评价指标描述,定义为
Figure BDA0003320647110000061
其中,prof为该阶段的固定利润,loss为每次柜位达到机械上(下)限的时损失的利润;loss后括号内的内容表示柜位达到机械上(下)限的次数,len为调度事件时长;θ则是数值较小的阈值;t_leveli为第i时刻的柜位值;HMB,LMB和HSB,LSB分别表示柜位的机械上下限和安全上下限,sign(·)与G(·)函数分别如式(7)所示。
Figure BDA0003320647110000062
基于Q学习的思想更新深度神经网络的参数,定义损失函数如下
Figure BDA0003320647110000063
其中,Qw为由神经网络表示的评价网络Q值函数,w为神经网络参数,ze为当前调度事件下由粒度对比网络获得的知识表示,即ze=g(f(se))。ze+1为在调度事件e实施动作ae后,由数据预测模型获得的下一调度事件发生时刻(e+1)所对应的系统状态知识表示,γ为强化学习过程中奖励的衰减系数。
采用软更新的方式来提高网络的稳定性,Q′w表示参数为w′的目标评价网络。评价网络参数更新公式如下
Figure BDA0003320647110000064
Figure BDA0003320647110000065
w′←τw+(1-τ)w′ (11)
其中,α为评价网络学习率,τ为软更新系数。
2)Actor(动作)部分比较初始调度策略的值函数评价Qw(ze,ue)与设定的长期调度目标Q*,并结合能源系统的状态空间表示ze计算出策略ue的动态补偿量Δue
在补偿值的计算过程中,根据给定Q*和由critic部分得到的值函数评价Qw(ze,ue),计算出调度目标返还值ΔQ(ze,ue)=Q*-Qw(ze,ue),并建立以ΔQ(ze,ue),当前事件下的状态空间表示ze以及其值函数估计Qw(ze,ue)为输入,补偿值Δue为输出的非线性关系,即
Δue=f(ΔQ(ze,ue),ze,Qw(ze,ue)) (12)
基于历史调度时刻的案例样本建立训练集,采用数据驱动方法拟合此非线性关系,计算出初始调度策略ue的动态补偿量Aue,进而得到最终的调度方案。
采用国内某冶金企业转炉煤气系统2020年1-2月份的连续67200个完整数据(SCADA系统采集,采样间隔为1分钟)来验证所提方法的有效性,从中选取600个调度样本,其中200个样本用于建立粒度对比网络生成初始策略,500个样本用于强化学习过程,其余样本作为测试集。采用人工调度(方法a),基于预测的启发式调度(方法b)和事件驱动的Q学习方法(方法c)作为对比实验,并对比了500分钟时长内不同调度场景下(能源富余和不足)的柜位运行效果,如图5-6所示。各项调度指标统计如表1、表2和表3所示。
表1调度指标统计结果对比(煤气富余)
Figure BDA0003320647110000071
从上表中的指标统计结果可以看出,方法b调度次数较为频繁,导致了调度间隔过低,与现场情况严重不符。虽然方法a的调整次数明显低于上述两种方法,但是由于其无法找到最优的调度方案,使得其超出柜位安全界限的次数多于其他方法。方法c易陷入局部最优解,导致无法找到最优的调度方案。与上述方法相比,本发明获得最少的调整次数和超出安全界限次数,且在500分钟内的调度奖赏亦明显高于其他方法。
表2调度指标统计结果对比(煤气不足)
Figure BDA0003320647110000072
上表中进一步给出了煤气不足的情况,可以看出方法b调度次数十分频繁,其调度间隔过低,偏离了现场生产需求,不可作为长期调度的参考。方法a虽然在调度次数方面明显由于上述两种方法,但经常出现超出安全界限的情况,导致其实际调度奖赏并没有明显优势。方法c在各项统计指标上亦不及本发明方法。本发明在调整次数,柜位运行以及调度奖赏方面均明显由于其他方法,且计算时长亦可满足工业现场的实际需求。
表3 50次调度实验的对比统计结果
Figure BDA0003320647110000081
从测试样本中随机选取50次独立实验的调度结果,其中28次为煤气富余情况,22次为煤气不足情况,并通过调度指标评估本发明优于或不及其他方法的次数。从表3中可看出,本发明相比于方法b在各项指标的优越率均达到100%。相比于方法a(人工调度),本发明存在5次调整次数不及该方法。然而在实验中观察发现,这5次人工调整的煤气柜位均出现了超出安全界限的情况,本发明通过增加调整次数保证了柜位运行在安全的运行区间。此外,从后两项调度指标可以看出,本发明相比于人工调度达到了84%的优越率。综上,所提出的长期调度方法可以适用于工业现场的不同生产状况,保证副产煤气系统的平衡运行。

Claims (1)

1.一种工业副产煤气系统长期调度方法,其特征在于,步骤如下:
(1)能源数据的特征粒度化建模
采用自适应粒度化方法,根据能源数据的波动趋势特征划分数据粒度;给定时间序列X={x1,x2,...,xn},其一阶和二阶动态变量表示为:
Δ={Δ12,...,Δn-1},E={e1,e2,...,en-2} (1)
其中,Δi=xi+1-xi,ei=Δi+1i;通过Δi×Δi-1和ei×ei-1的符号判断数据点xi所在序列段的凹凸性和单调性变化,并在性质改变时刻划分时间序列数据;对于时间序列X={x1,x2,...,xp,xp+1,...,xn},若Δp×Δp-1<0∪ep×ep-1<0,则以xp作为分割点,划分X为{x1,x2,...,xp}和{xp+1,xp+2,...,xn};在实施粒度划分前,先将能源数据进行滤波预处理;为了进一步实现能源数据的语义增强,采用由时间跨度Dτ、波动幅值Aτ和趋势线型Lτ组成的三维特征向量来对信息粒Gτ进行描述,记为Gτ={Dτ,Aτ,Lτ},其中τ为粒度时间步长;
(2)基于粒度对比网络的知识提取及策略计算
建立粒度对比网络获得与调度状态相关的知识表示,并基于该知识表示拟合历史调度样本中的专家调整量,计算出初始调度策略;
粒度对比网络模型的输入为能源发生、消耗以及存储流量数据的信息粒描述,即
Figure FDA0003537738790000011
其中e表示不同调度事件,n为输入因素个数;粒度对比网络模型分为以下四个部分:
1)首先根据历史时刻的专家调度数据将数据样本定性地划分为不同的子集
Figure FDA0003537738790000012
2)通过基于神经网络的编码器f(·)从数据的粒度化特征描述中提取表示向量;采用长短时记忆网络来获得调度状态的特征表示,即he=f(se)=LSTM(se),其中
Figure FDA0003537738790000013
为网络的隐藏表示;
3)通过具有单隐藏层的神经网络映射层g(·)将提取的表示向量映射到对比损失空间,该神经网络映射层得到的状态知识表示ze相比于上一层的he具有更好的对比学习效果;采用MLP来获得最终的状态知识表示,即ze=g(he)=MLP(he);经过对比学习后,ze相比于se能够反映出能源系统的调度状态,因此ze还被用于actor-critic框架中的状态空间表示;
4)在状态知识表示ze的基础上建立全连接输出层,得到初始调度策略,即ue=Output(ze);对于所建立粒度对比网络的学习过程,分别从定性和定量的两个层次进行训练:
1)通过最小化定义的损失函数,使得根据由专家调度数据定性划分在相同子集的样本
Figure FDA0003537738790000021
Figure FDA0003537738790000022
其表示向量
Figure FDA0003537738790000023
相互接近,而区分不同子集样本
Figure FDA0003537738790000024
的表示向量
Figure FDA0003537738790000025
以尽可能区分不同的调度工况;这一过程的损失函数定义如下:
Figure FDA0003537738790000026
其中,p表示与
Figure FDA0003537738790000027
属于同一子集的样本个数;q为不同子集样本个数;d(·)表示向量间的距离,采用余弦相似度来衡量;
针对专家调度数据中包含的多分类情况,提出一种多步训练策略;在训练过程中首先根据调整方向进行二分类的对比学习,之后通过构建具有不同调整量大小的输入样本再进行多次学习,使得输出的表示向量能够区分多类别的专家知识;若专家经验样本总数为N,在训练模型时使用所有可能的数据对,用于训练的数据信息量达到(N)(N-1)/2;
2)在上述训练过程结束后,进一步提出多层次训练机制来实现调度知识的定量学习和细化表示;
首先定义验证集{s1,s2,...,sl},根据上述过程得到的网络模型计算相应的状态知识表示{z1,z2,...zl};在知识表示向量的基础上建立输出层来拟合专家调度量;通过计算出的调度量与真实调度量之间的误差来判断当前获得的知识表示是否能够满足实际系统条件;若存在样本数据集
Figure FDA0003537738790000028
的误差高于某一设定的阈值θ,即
Figure FDA0003537738790000029
其中,ye为真实调度量;说明当前的表示空间无法覆盖该样本集中所包含的调度知识;这种情况下,需要进一步训练粒度对比网络使得其能够区分出
Figure FDA00035377387900000210
和验证集中其他样本;由于需要学习出与已有表示空间不同的特征,因此在这一过程中定义相互排斥的损失函数:
Figure FDA00035377387900000211
其中,r为未满足条件的样本个数,l为验证集样本总数;上述训练结束后,需再次根据学习后的网络模型判断验证集中的样本能否满足阈值条件,并不断执行上述过程实现多层次迭代学习,直到所有样本均满足设定条件;
在对比学习训练结束后,给定粒度对比网络模型的输入se,得到相应的状态知识表示ze;基于ze建立全连接输出层,通过有监督学习的方式拟合专家调度量,计算出基于专家知识的初始调度策略;
(3)基于Actor-Critic框架的补偿策略计算
针对副产能源系统的长期调度表现,提出一种Actor-critic框架实现对于初始调度策略的动态补偿,其中critic部分将状态知识表示ze作为强化学习的状态,建立深度Q网络计算调度策略的值函数评价;Actor部分利用由粒度对比网络计算的初始调度策略作为初始解,根据策略的评价值与目标设定值的偏差,通过数据拟合的方式获得调度策略的补偿量,并迭代计算出最终的调度方案;
1)Critic部分构建评价网络对调度策略进行评价;网络的输入为状态知识表示ze和动作ae的集合,分别经过一层神经网络后进行拼接,在此基础上构建多层隐藏层与ReLU激活函数层建立深度神经网络,网络输出为值函数Q,critic网络结构;
在每个调度事件发生时刻计算调度奖赏,因此定义以调度事件为单位的值函数,即
Figure FDA0003537738790000031
其中,rewardk定义为第k个调度事件的奖赏,通过副产煤气系统调度效果的评价指标描述,定义为
Figure FDA0003537738790000032
其中,prof为固定利润,loss为每次柜位达到机械上、下限的时损失的利润;loss后括号内的内容表示柜位达到机械上、下限的次数,len为调度事件时长;θ则是数值较小的阈值;t_leveli为第i时刻的柜位值;HMB、LMB和HSB,LSB分别表示柜位的机械上下限和安全上下限,sign(·)与G(·)函数分别如式(7)所示:
Figure FDA0003537738790000033
基于Q网络学习的思想更新深度神经网络的参数,定义损失函数如下:
Figure FDA0003537738790000041
其中,Qw为由神经网络表示的评价网络Q值函数,w为当前评价网络的权值参数,ze为当前调度事件下由粒度对比网络获得的状态知识表示,即ze=g(f(se));ze+1为在调度事件e实施动作ae后,由数据预测模型获得的下一调度事件发生时刻(e+1)所对应的系统状态知识表示;γ为强化学习过程中奖励的衰减系数;
采用软更新的方式来提高网络的稳定性,Q'w表示目标评价网络;评价网络参数更新公式如下:
Figure FDA0003537738790000042
Figure FDA0003537738790000043
w'←τw+(1-τ)w' (11)其中,α为评价网络学习率,τ为软更新系数;
2)Actor部分比较初始调度策略的值函数评价Qw(ze,ue)与设定的长期调度目标Q*,并结合能源系统的状态知识表示ze计算出初始调度策略ue的动态补偿量Δue
在补偿值的计算过程中,根据给定Q*和由critic部分得到的值函数评价Qw(ze,ue),计算出调度目标返还值ΔQ(ze,ue)=Q*-Qw(ze,ue),并建立以ΔQ(ze,ue),当前调度事件下的状态知识表示ze以及其值函数估计Qw(ze,ue)为输入,补偿值Δue为输出的非线性关系,即
Δue=f(ΔQ(ze,ue),ze,Qw(ze,ue)) (12)
基于历史调度时刻的案例样本建立训练集,采用数据驱动方法拟合此非线性关系,计算出初始调度策略ue的动态补偿量Δue,进而得到最终的调度方案。
CN202111245007.6A 2021-10-26 2021-10-26 一种工业副产煤气系统长期调度方法 Active CN113869795B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111245007.6A CN113869795B (zh) 2021-10-26 2021-10-26 一种工业副产煤气系统长期调度方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111245007.6A CN113869795B (zh) 2021-10-26 2021-10-26 一种工业副产煤气系统长期调度方法

Publications (2)

Publication Number Publication Date
CN113869795A CN113869795A (zh) 2021-12-31
CN113869795B true CN113869795B (zh) 2022-08-05

Family

ID=78997560

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111245007.6A Active CN113869795B (zh) 2021-10-26 2021-10-26 一种工业副产煤气系统长期调度方法

Country Status (1)

Country Link
CN (1) CN113869795B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114066333A (zh) * 2022-01-17 2022-02-18 阿里巴巴达摩院(杭州)科技有限公司 数据处理方法及装置
CN114595879B (zh) * 2022-03-03 2022-09-06 大连理工大学 一种基于特征粒序列lstm的类周期能源长期预测方法
CN114862055A (zh) * 2022-06-01 2022-08-05 河钢数字技术股份有限公司 一种基于多源数据驱动的钢铁企业高炉煤气预测方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106650944A (zh) * 2016-12-07 2017-05-10 大连理工大学 一种基于知识的冶金企业转炉煤气调度方法
CN109242188A (zh) * 2018-09-12 2019-01-18 大连理工大学 一种钢铁煤气系统长期区间预测及其结构学习方法
WO2020036590A1 (en) * 2018-08-14 2020-02-20 Connect Financial LLC Evaluation and development of decision-making models
CN110930016A (zh) * 2019-11-19 2020-03-27 三峡大学 一种基于深度q学习的梯级水库随机优化调度方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106650944A (zh) * 2016-12-07 2017-05-10 大连理工大学 一种基于知识的冶金企业转炉煤气调度方法
WO2020036590A1 (en) * 2018-08-14 2020-02-20 Connect Financial LLC Evaluation and development of decision-making models
CN109242188A (zh) * 2018-09-12 2019-01-18 大连理工大学 一种钢铁煤气系统长期区间预测及其结构学习方法
CN110930016A (zh) * 2019-11-19 2020-03-27 三峡大学 一种基于深度q学习的梯级水库随机优化调度方法

Also Published As

Publication number Publication date
CN113869795A (zh) 2021-12-31

Similar Documents

Publication Publication Date Title
CN113869795B (zh) 一种工业副产煤气系统长期调度方法
WO2023070293A1 (zh) 一种工业副产煤气系统长期调度方法
Cheng et al. A new combined model based on multi-objective salp swarm optimization for wind speed forecasting
US11755976B2 (en) Method for predicting oxygen load in iron and steel enterprises based on production plan
Hossain et al. Intelligent systems in optimizing reservoir operation policy: a review
Ghods et al. Methods for long-term electric load demand forecasting; a comprehensive investigation
CN106228232A (zh) 一种基于模糊推理种群预测策略的动态多目标教学优化方法
CN114757104B (zh) 一种串联闸群调水工程水力实时调控模型的构建方法
Cayir Ervural et al. Improvement of grey prediction models and their usage for energy demand forecasting
CN115544899A (zh) 基于多智能体深度强化学习的水厂取水泵站节能调度方法
Shahverdi et al. Double Q-PI architecture for smart model-free control of canals
Tian et al. Application of improved whale optimization algorithm in parameter identification of hydraulic turbine at no-load
CN102663493A (zh) 一种用于时间序列预测的迟滞神经网络
Farahat Long-term industrial load forecasting and planning using neural networks technique and fuzzy inference method
Wei et al. A combination forecasting method of grey neural network based on genetic algorithm
Salvador et al. Historian data based predictive control of a water distribution network
Wang et al. Short term load forecasting: A dynamic neural network based genetic algorithm optimization
CN104076686A (zh) 一种氧化铝生产过程动态成本控制方法
CN113467225A (zh) 智能pid控制器在线优化方法及系统
Klimenko et al. Neuro-fuzzy models for operational forecasting of electric energy consumption of the urban system
Dalcali et al. Prediction of electricity energy consumption including COVID‐19 precautions using the hybrid MLR‐FFANN optimized with the stochastic fractal search with fitness distance balance algorithm
Wang et al. Real-Time Coordination of Dynamic Network Reconfiguration and Volt-VAR Control in Active Distribution Network: A Graph-Aware Deep Reinforcement Learning Approach
CN114036819B (zh) 基于自组织随机配置网络的污水总磷软测量方法及系统
CN116300430B (zh) Mpc控制参数寻优方法及其在并联平台的应用
Javadi et al. Wind speed modeling and prediction in wind farms using fuzzy logic

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant