CN113869795B - 一种工业副产煤气系统长期调度方法 - Google Patents
一种工业副产煤气系统长期调度方法 Download PDFInfo
- Publication number
- CN113869795B CN113869795B CN202111245007.6A CN202111245007A CN113869795B CN 113869795 B CN113869795 B CN 113869795B CN 202111245007 A CN202111245007 A CN 202111245007A CN 113869795 B CN113869795 B CN 113869795B
- Authority
- CN
- China
- Prior art keywords
- scheduling
- network
- data
- strategy
- representation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 70
- 230000007774 longterm Effects 0.000 title claims abstract description 22
- 239000006227 byproduct Substances 0.000 title claims abstract description 18
- 238000011156 evaluation Methods 0.000 claims abstract description 29
- 230000006870 function Effects 0.000 claims abstract description 28
- 230000008569 process Effects 0.000 claims description 22
- 238000012549 training Methods 0.000 claims description 21
- 239000013598 vector Substances 0.000 claims description 14
- 238000013528 artificial neural network Methods 0.000 claims description 13
- 238000004364 calculation method Methods 0.000 claims description 9
- 230000000694 effects Effects 0.000 claims description 7
- 230000002787 reinforcement Effects 0.000 claims description 7
- 238000012795 verification Methods 0.000 claims description 6
- 238000013507 mapping Methods 0.000 claims description 5
- 230000009471 action Effects 0.000 claims description 4
- 230000000052 comparative effect Effects 0.000 claims description 4
- 230000007246 mechanism Effects 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 3
- 230000004913 activation Effects 0.000 claims description 2
- FFBHFFJDDLITSX-UHFFFAOYSA-N benzyl N-[2-hydroxy-4-(3-oxomorpholin-4-yl)phenyl]carbamate Chemical compound OC1=C(NC(=O)OCC2=CC=CC=C2)C=CC(=C1)N1CCOCC1=O FFBHFFJDDLITSX-UHFFFAOYSA-N 0.000 claims description 2
- 238000012512 characterization method Methods 0.000 claims description 2
- 239000013604 expression vector Substances 0.000 claims description 2
- 238000001914 filtration Methods 0.000 claims description 2
- 239000000203 mixture Substances 0.000 claims description 2
- 239000002245 particle Substances 0.000 claims description 2
- 238000003860 storage Methods 0.000 claims description 2
- 238000004519 manufacturing process Methods 0.000 description 10
- 238000005457 optimization Methods 0.000 description 9
- 238000007670 refining Methods 0.000 description 5
- 230000008859 change Effects 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 4
- 238000011160 research Methods 0.000 description 3
- XEEYBQQBJWHFJM-UHFFFAOYSA-N Iron Chemical compound [Fe] XEEYBQQBJWHFJM-UHFFFAOYSA-N 0.000 description 2
- 229910000831 Steel Inorganic materials 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000009776 industrial production Methods 0.000 description 2
- 238000011084 recovery Methods 0.000 description 2
- 239000010959 steel Substances 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000001364 causal effect Effects 0.000 description 1
- 239000003245 coal Substances 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000004134 energy conservation Methods 0.000 description 1
- 238000005265 energy consumption Methods 0.000 description 1
- 238000004146 energy storage Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000003912 environmental pollution Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000009413 insulation Methods 0.000 description 1
- 229910052742 iron Inorganic materials 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 244000005700 microbiome Species 0.000 description 1
- 230000003647 oxidation Effects 0.000 description 1
- 238000007254 oxidation reaction Methods 0.000 description 1
- 239000003208 petroleum Substances 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0637—Strategic management or analysis, e.g. setting a goal or target of an organisation; Planning actions based on goals; Analysis or evaluation of effectiveness of goals
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0631—Resource planning, allocation, distributing or scheduling for enterprises or organisations
- G06Q10/06315—Needs-based resource requirements planning or analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/067—Enterprise or organisation modelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/04—Manufacturing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Engineering & Computer Science (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Tourism & Hospitality (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Marketing (AREA)
- General Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- Quality & Reliability (AREA)
- Development Economics (AREA)
- Game Theory and Decision Science (AREA)
- Operations Research (AREA)
- Educational Administration (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Manufacturing & Machinery (AREA)
- Public Health (AREA)
- Water Supply & Treatment (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
一种工业副产煤气系统长期调度方法,步骤如下:针对能源数据的波动特征划分信息粒度,形成数据样本的语义表示。以粒度化的数据特征作为输入,通过专家调度经验数据构建深度对比网络结构,分别采用定性和定量学习的方式构建不同调度状态下的知识表示;再建立全连接输出层拟合专家调度量,获得基于经验知识的初始调度策略。构建actor‑critic架构计算考虑长期调度表现的补偿策略。其中,critic部分以对比网络获得的知识表示作为状态空间,建立以调度事件为单位的评价值函数,并采用深度Q学习的方式实现策略评价;actor部分将当前的策略评价与期望目标值进行比对,基于评价反馈迭代计算补偿策略,得到最终的副产能源调度方案。
Description
技术领域
本发明属于信息技术领域,涉及到知识自动化、数据驱动建模、强化学习等技术,是一种知识、数据与动态规划相融合的工业副产能源系统长期调度方法。首先采用粒度化方式和深度对比学习获得关于能源系统调度状态的知识表示,并计算出初始调度策略。在此基础上,结合actor-critic架构的动态规划过程,实现考虑长期调度表现的策略补偿。此方法能够满足工业现场对于长期柜位控制,能源预测和平衡调度需求,且计算效率符合实际应用要求,可帮助节约调度成本,实现副产煤气系统的节能减排。
背景技术
工业生产是高耗能和高排放的生产过程,随着煤炭、石油等一次能源的紧缺,充分利用生产过程中产生的二次能源不但可以提高企业节能降耗水平,还可减少煤气放散带来的环境污染。(金锋.基于因果模型的钢铁煤气优化调度方法与应用[D].(2020).大连理工大学)。副产煤气是工业生产过程中产生的重要二次能源,其特点是单次回收量较大,在回收阶段对能源管网平衡的冲击也较大。当出现设备检修、设备故障、生产计划变更等情况时,亦会导致管网出现供需失衡。为了更好地利用副产资源,现场调度人员需要根据当前煤气系统运行状态和生产计划对可调用户的负荷量进行调整,以保证系统的平衡运行。
随着工业信息化水平的逐步提高,各大企业积累了大量相关历史数据,为能源优化调度提供技术支持。现有的研究主要包括:基于贝叶斯网络进行建模和推理(J.Zhao,W.Wang,K.Sun,et al.(2014).A bayesiannetworks structure learning andreasoning-based byproduct gas scheduling in steel industry[J].IEEETransactions on Automation Science and Engineering,11(4):1149-1154)、预测建模和优化调度两阶段方法(Z.Han,J.Zhao,W.Wang,&Y.Liu.(2016).A two-stage method forpredicting and scheduling energy in an oxygen/nitrogen system of the steelindustry[J].Control Engineering Practice,52,35-45)、因果关系建模(F.Jin,J.Zhao,Y.Liu,et al.(2021).A scheduling approach with uncertainties in generation andconsumption for converter gas system in steel industry[J].InformationSciences,2021,546:312-328)等。上述研究都是针对短时间内单次能源不平衡情况进行计算,而并没有综合考虑未来一段时间内诸如设备运行变化,生产计划调整等生产环境的动态特性对于调度策略的影响。针对工业能源系统的多时间尺度调度问题,主要包括采用启发式优化方法(R.Hemmati,H.Saboori,P.Siano.(2017).Coordinated short-termscheduling and long-term expansion planning in microgrids incorporatingrenewable energy resources and energy storage systems[J].Energy,134:699-708.)、混合整数规划优化方法(A.Bischi,L.Taccari,E.Martelli,et al.(2019).Arolling-horizon optimization algorithm for the long term operationalscheduling of cogeneration systems[J].Energy,184:73-90.)等。然而,上述文献大多采用静态的优化方式,在面对多阶段或具有多步策略的长期调度问题时,难以避免优化模型易陷入局部最优,进而影响包括设备运行、调度经济性等长期指标。
发明内容
针对事件驱动的工业副产煤气系统调度过程,本发明首先根据生产过程数据的波动特征划分信息粒度,利用专家调度样本建立粒度对比网络,实现调度过程中关于系统运行状态的知识表示,在此基础上通过有监督学习的方式拟合专家调度量,获得初始的调度策略。考虑多步调度事件的影响,以知识表示作为强化学习的状态,基于actor-critic架构建立策略评估和动态补偿机制,进而提高能源系统的长期调度表现。该发明有利于减少调度成本,能够保证能源存储柜位长时间地运行在安全区间,从而为现场工作人员的调度操作提供决策支持。
本发明的技术方案:
一种工业副产煤气系统长期调度方法,步骤如下:
(1)针对能源数据的波动特征划分信息粒度,形成数据样本的语义表示。
(2)以粒度化的数据特征作为输入,通过专家调度经验数据构建深度对比网络结构,分别采用定性和定量学习的方式构建不同调度状态下的知识表示;在此基础上,建立全连接输出层拟合专家调度量,获得基于经验知识的初始调度策略。
(3)构建actor-critic架构计算考虑长期调度表现的补偿策略。其中,critic部分以对比网络获得的知识表示作为状态空间,建立以调度事件为单位的评价值函数,并采用深度Q学习的方式实现策略评价;actor部分将当前的策略评价与期望目标值进行比对,基于目标的返还量计算补偿策略,得到最终的副产能源调度方案。
本发明的有益效果:本发明提出的方法结合了知识提取,数据驱动建模及动态规划过程。通过数据粒度化过程和深度对比网络实现关于能源系统调度状态的知识获取和表示;进一步构建的actor-critic架构可反映生产环境的动态变化和未来多步调度事件的影响,从而满足工业现场长期的柜位运行控制,能源预测及平衡调度需求。
附图说明
图1为本发明应用流程图。
图2为粒度对比网络结构图。
图3描述对比网络的多层次训练机制。
图4为critic网络结构图。
图5为300分钟的柜位调度效果对比(煤气富余情况)。其中(a)-(d)分别代表四座煤气柜。
图6为300分钟的柜位调度效果对比(煤气不足情况)。其中(a)-(d)分别代表四座煤气柜。
具体实施方式
工业副产能源系统存在发生、存储和消耗等多种变量,且各变量通过能源传输网络相互耦合关联,同时能源用户的状态随时间不断变化,这些客观因素共同导致能源系统具有复杂且动态变化的运行特征。为了提高长期调度表现,需根据不同的系统状态特征制定合理的调度策略,采用动态规划的方式综合考虑能源系统状态变化及多步调度事件影响。为了更好地理解本发明的技术路线和实施方案,以冶金企业转炉煤气系统能源调度为研究对象,具体的实施步骤描述如下:
(1)能源数据的特征粒度化建模
本发明采用自适应粒度化(Adaptive granulation,AG)方法,根据数据的波动趋势特征划分数据粒度。给定时间序列X={x1,x2,...,xn},其一阶和二阶动态变量可表示为
Δ={Δ1,Δ2,...,Δn-1},E={e1,e2,...,en-2} (1)
其中,Δi=xi+1-xi,ei=Δi+1-Δi。通过Δi×Δi-1和ei×ei-1的符号判断数据点xi所在序列段的凹凸性和单调性变化,并在性质改变时刻划分时间序列数据。例如对于时间序列X={x1,x2,…,xp,xp+1,…,xn},若Δp×Δp-1<0∪ep×ep-1<0,则以xp作为分割点,划分X为{x1,x2,…,xp}和{xp+1,xp+2,…,xn}。在实施粒度划分前,需要将数据进行滤波预处理,以消除一些微小的趋势变化。为了进一步实现数据的语义增强,采用由时间跨度Dτ、波动幅值Aτ和趋势线型Lτ组成的三维特征向量来对信息粒Gτ进行描述,记为Gτ={Dτ,Aτ,Lτ},其中τ为粒度时间步长。
(2)基于粒度对比网络的知识提取及策略计算
建立粒度对比网络获得与调度状态相关的知识表示,并基于该表示拟合历史调度样本中的专家调整量,计算出初始调度策略。
3)通过具有单隐藏层的神经网络映射层g(·)将提取的表示向量映射到对比损失空间,该特征映射层得到的ze相比于上一层的he将具有更好的对比学习效果。这里采用MLP来获得最终的状态知识表示,即ze=g(he)=MLP(he)。经过对比学习后,ze相比于se能够反映出能源系统的调度状态,因此ze还被用于actor-critic框架中的状态空间表示。
4)在知识表示向量ze的基础上建立全连接输出层,得到初始调度策略,即ue=Output(ze)。
对于所建立对比网络的学习过程,本发明分别从定性和定量的两个层次进行训练:
针对专家调度数据中包含的多分类情况,本发明提出一种多步训练策略。在训练过程中首先根据调整方向进行二分类的对比学习,之后通过构建具有不同调整量大小的输入样本再进行多次学习,使得输出的表示向量能够区分多类别的专家知识。若专家经验样本总数为N,在训练模型时使用所有可能的数据对,则用于训练的数据信息量可达到(N)(N-1)/2。相比于经典的有监督学习方法,对比学习模型的训练过程要多出近似于(N-1)/2个样本,因此能够更为高效地利用相对稀疏的事件驱动调度过程数据。
2)在上述训练过程结束后,进一步提出多层次训练机制来实现调度知识的定量学习和细化表示,如图3所示。
首先定义验证集{s1,s2,...,sl},根据上述过程得到的网络模型计算相应的知识表示{z1,z2,...zl}。在知识表示向量的基础上建立输出层来拟合专家调度量。通过计算出的调度量与真实调度量之间的误差来判断当前获得的知识表示是否能够满足实际系统条件。若存在样本数据集的误差高于某一设定的阈值θ,即
其中,ye为真实调度量。说明当前的表示空间无法覆盖该样本集中所包含的调度知识。这种情况下,需要进一步训练对比网络模型使得其能够区分出和验证集中其他样本。由于需要学习出与已有表示空间不同的特征,因此在这一过程中定义相互排斥的损失函数
其中,r为未满足条件的样本个数,l为验证集样本总数。上述训练结束后,需再次根据学习后的网络模型判断验证集中的样本能否满足阈值条件,并不断执行上述过程实现多层次迭代学习,直到所有样本均满足设定条件。
在对比学习训练结束后,给定粒度化的样本输入se,可得到相应的调度状态知识表示ze。基于该表示建立全连接输出层,通过有监督学习的方式拟合专家调度量,计算出基于专家知识的初始调度策略。
(3)基于Actor-Critic框架的补偿策略计算
针对副产能源系统的长期调度表现,本发明提出一种Actor-critic框架实现对于初始调度策略的动态补偿,其中critic部分将知识表示ze作为强化学习的状态,建立深度Q网络计算调度策略的值函数评价;Actor部分利用由粒度对比网络计算的初始调度策略作为初始解,根据策略的评价值与目标设定值的偏差,通过数据拟合的方式获得调度策略的补偿量,进而得到最终的调度方案。
1)Critic部分构建评价网络对调度策略进行评价。网络的输入为状态知识表示ze和动作(调度量)ae的集合,分别经过一层神经网络后进行拼接,在此基础上构建多层隐藏层与ReLU激活函数层建立深度神经网络,网络输出为值函数Q,critic网络结构如图4所示。
本发明在每个调度事件发生时刻计算调度奖赏,因此定义以调度事件为单位的值函数,即
其中,rewardk定义为第k个调度事件的奖赏,通过副产煤气系统调度效果的评价指标描述,定义为
其中,prof为该阶段的固定利润,loss为每次柜位达到机械上(下)限的时损失的利润;loss后括号内的内容表示柜位达到机械上(下)限的次数,len为调度事件时长;θ则是数值较小的阈值;t_leveli为第i时刻的柜位值;HMB,LMB和HSB,LSB分别表示柜位的机械上下限和安全上下限,sign(·)与G(·)函数分别如式(7)所示。
基于Q学习的思想更新深度神经网络的参数,定义损失函数如下
其中,Qw为由神经网络表示的评价网络Q值函数,w为神经网络参数,ze为当前调度事件下由粒度对比网络获得的知识表示,即ze=g(f(se))。ze+1为在调度事件e实施动作ae后,由数据预测模型获得的下一调度事件发生时刻(e+1)所对应的系统状态知识表示,γ为强化学习过程中奖励的衰减系数。
采用软更新的方式来提高网络的稳定性,Q′w表示参数为w′的目标评价网络。评价网络参数更新公式如下
w′←τw+(1-τ)w′ (11)
其中,α为评价网络学习率,τ为软更新系数。
2)Actor(动作)部分比较初始调度策略的值函数评价Qw(ze,ue)与设定的长期调度目标Q*,并结合能源系统的状态空间表示ze计算出策略ue的动态补偿量Δue。
在补偿值的计算过程中,根据给定Q*和由critic部分得到的值函数评价Qw(ze,ue),计算出调度目标返还值ΔQ(ze,ue)=Q*-Qw(ze,ue),并建立以ΔQ(ze,ue),当前事件下的状态空间表示ze以及其值函数估计Qw(ze,ue)为输入,补偿值Δue为输出的非线性关系,即
Δue=f(ΔQ(ze,ue),ze,Qw(ze,ue)) (12)
基于历史调度时刻的案例样本建立训练集,采用数据驱动方法拟合此非线性关系,计算出初始调度策略ue的动态补偿量Aue,进而得到最终的调度方案。
采用国内某冶金企业转炉煤气系统2020年1-2月份的连续67200个完整数据(SCADA系统采集,采样间隔为1分钟)来验证所提方法的有效性,从中选取600个调度样本,其中200个样本用于建立粒度对比网络生成初始策略,500个样本用于强化学习过程,其余样本作为测试集。采用人工调度(方法a),基于预测的启发式调度(方法b)和事件驱动的Q学习方法(方法c)作为对比实验,并对比了500分钟时长内不同调度场景下(能源富余和不足)的柜位运行效果,如图5-6所示。各项调度指标统计如表1、表2和表3所示。
表1调度指标统计结果对比(煤气富余)
从上表中的指标统计结果可以看出,方法b调度次数较为频繁,导致了调度间隔过低,与现场情况严重不符。虽然方法a的调整次数明显低于上述两种方法,但是由于其无法找到最优的调度方案,使得其超出柜位安全界限的次数多于其他方法。方法c易陷入局部最优解,导致无法找到最优的调度方案。与上述方法相比,本发明获得最少的调整次数和超出安全界限次数,且在500分钟内的调度奖赏亦明显高于其他方法。
表2调度指标统计结果对比(煤气不足)
上表中进一步给出了煤气不足的情况,可以看出方法b调度次数十分频繁,其调度间隔过低,偏离了现场生产需求,不可作为长期调度的参考。方法a虽然在调度次数方面明显由于上述两种方法,但经常出现超出安全界限的情况,导致其实际调度奖赏并没有明显优势。方法c在各项统计指标上亦不及本发明方法。本发明在调整次数,柜位运行以及调度奖赏方面均明显由于其他方法,且计算时长亦可满足工业现场的实际需求。
表3 50次调度实验的对比统计结果
从测试样本中随机选取50次独立实验的调度结果,其中28次为煤气富余情况,22次为煤气不足情况,并通过调度指标评估本发明优于或不及其他方法的次数。从表3中可看出,本发明相比于方法b在各项指标的优越率均达到100%。相比于方法a(人工调度),本发明存在5次调整次数不及该方法。然而在实验中观察发现,这5次人工调整的煤气柜位均出现了超出安全界限的情况,本发明通过增加调整次数保证了柜位运行在安全的运行区间。此外,从后两项调度指标可以看出,本发明相比于人工调度达到了84%的优越率。综上,所提出的长期调度方法可以适用于工业现场的不同生产状况,保证副产煤气系统的平衡运行。
Claims (1)
1.一种工业副产煤气系统长期调度方法,其特征在于,步骤如下:
(1)能源数据的特征粒度化建模
采用自适应粒度化方法,根据能源数据的波动趋势特征划分数据粒度;给定时间序列X={x1,x2,...,xn},其一阶和二阶动态变量表示为:
Δ={Δ1,Δ2,...,Δn-1},E={e1,e2,...,en-2} (1)
其中,Δi=xi+1-xi,ei=Δi+1-Δi;通过Δi×Δi-1和ei×ei-1的符号判断数据点xi所在序列段的凹凸性和单调性变化,并在性质改变时刻划分时间序列数据;对于时间序列X={x1,x2,...,xp,xp+1,...,xn},若Δp×Δp-1<0∪ep×ep-1<0,则以xp作为分割点,划分X为{x1,x2,...,xp}和{xp+1,xp+2,...,xn};在实施粒度划分前,先将能源数据进行滤波预处理;为了进一步实现能源数据的语义增强,采用由时间跨度Dτ、波动幅值Aτ和趋势线型Lτ组成的三维特征向量来对信息粒Gτ进行描述,记为Gτ={Dτ,Aτ,Lτ},其中τ为粒度时间步长;
(2)基于粒度对比网络的知识提取及策略计算
建立粒度对比网络获得与调度状态相关的知识表示,并基于该知识表示拟合历史调度样本中的专家调整量,计算出初始调度策略;
3)通过具有单隐藏层的神经网络映射层g(·)将提取的表示向量映射到对比损失空间,该神经网络映射层得到的状态知识表示ze相比于上一层的he具有更好的对比学习效果;采用MLP来获得最终的状态知识表示,即ze=g(he)=MLP(he);经过对比学习后,ze相比于se能够反映出能源系统的调度状态,因此ze还被用于actor-critic框架中的状态空间表示;
4)在状态知识表示ze的基础上建立全连接输出层,得到初始调度策略,即ue=Output(ze);对于所建立粒度对比网络的学习过程,分别从定性和定量的两个层次进行训练:
针对专家调度数据中包含的多分类情况,提出一种多步训练策略;在训练过程中首先根据调整方向进行二分类的对比学习,之后通过构建具有不同调整量大小的输入样本再进行多次学习,使得输出的表示向量能够区分多类别的专家知识;若专家经验样本总数为N,在训练模型时使用所有可能的数据对,用于训练的数据信息量达到(N)(N-1)/2;
2)在上述训练过程结束后,进一步提出多层次训练机制来实现调度知识的定量学习和细化表示;
首先定义验证集{s1,s2,...,sl},根据上述过程得到的网络模型计算相应的状态知识表示{z1,z2,...zl};在知识表示向量的基础上建立输出层来拟合专家调度量;通过计算出的调度量与真实调度量之间的误差来判断当前获得的知识表示是否能够满足实际系统条件;若存在样本数据集的误差高于某一设定的阈值θ,即
其中,ye为真实调度量;说明当前的表示空间无法覆盖该样本集中所包含的调度知识;这种情况下,需要进一步训练粒度对比网络使得其能够区分出和验证集中其他样本;由于需要学习出与已有表示空间不同的特征,因此在这一过程中定义相互排斥的损失函数:
其中,r为未满足条件的样本个数,l为验证集样本总数;上述训练结束后,需再次根据学习后的网络模型判断验证集中的样本能否满足阈值条件,并不断执行上述过程实现多层次迭代学习,直到所有样本均满足设定条件;
在对比学习训练结束后,给定粒度对比网络模型的输入se,得到相应的状态知识表示ze;基于ze建立全连接输出层,通过有监督学习的方式拟合专家调度量,计算出基于专家知识的初始调度策略;
(3)基于Actor-Critic框架的补偿策略计算
针对副产能源系统的长期调度表现,提出一种Actor-critic框架实现对于初始调度策略的动态补偿,其中critic部分将状态知识表示ze作为强化学习的状态,建立深度Q网络计算调度策略的值函数评价;Actor部分利用由粒度对比网络计算的初始调度策略作为初始解,根据策略的评价值与目标设定值的偏差,通过数据拟合的方式获得调度策略的补偿量,并迭代计算出最终的调度方案;
1)Critic部分构建评价网络对调度策略进行评价;网络的输入为状态知识表示ze和动作ae的集合,分别经过一层神经网络后进行拼接,在此基础上构建多层隐藏层与ReLU激活函数层建立深度神经网络,网络输出为值函数Q,critic网络结构;
在每个调度事件发生时刻计算调度奖赏,因此定义以调度事件为单位的值函数,即
其中,rewardk定义为第k个调度事件的奖赏,通过副产煤气系统调度效果的评价指标描述,定义为
其中,prof为固定利润,loss为每次柜位达到机械上、下限的时损失的利润;loss后括号内的内容表示柜位达到机械上、下限的次数,len为调度事件时长;θ则是数值较小的阈值;t_leveli为第i时刻的柜位值;HMB、LMB和HSB,LSB分别表示柜位的机械上下限和安全上下限,sign(·)与G(·)函数分别如式(7)所示:
基于Q网络学习的思想更新深度神经网络的参数,定义损失函数如下:
其中,Qw为由神经网络表示的评价网络Q值函数,w为当前评价网络的权值参数,ze为当前调度事件下由粒度对比网络获得的状态知识表示,即ze=g(f(se));ze+1为在调度事件e实施动作ae后,由数据预测模型获得的下一调度事件发生时刻(e+1)所对应的系统状态知识表示;γ为强化学习过程中奖励的衰减系数;
采用软更新的方式来提高网络的稳定性,Q'w表示目标评价网络;评价网络参数更新公式如下:
w'←τw+(1-τ)w' (11)其中,α为评价网络学习率,τ为软更新系数;
2)Actor部分比较初始调度策略的值函数评价Qw(ze,ue)与设定的长期调度目标Q*,并结合能源系统的状态知识表示ze计算出初始调度策略ue的动态补偿量Δue;
在补偿值的计算过程中,根据给定Q*和由critic部分得到的值函数评价Qw(ze,ue),计算出调度目标返还值ΔQ(ze,ue)=Q*-Qw(ze,ue),并建立以ΔQ(ze,ue),当前调度事件下的状态知识表示ze以及其值函数估计Qw(ze,ue)为输入,补偿值Δue为输出的非线性关系,即
Δue=f(ΔQ(ze,ue),ze,Qw(ze,ue)) (12)
基于历史调度时刻的案例样本建立训练集,采用数据驱动方法拟合此非线性关系,计算出初始调度策略ue的动态补偿量Δue,进而得到最终的调度方案。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111245007.6A CN113869795B (zh) | 2021-10-26 | 2021-10-26 | 一种工业副产煤气系统长期调度方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111245007.6A CN113869795B (zh) | 2021-10-26 | 2021-10-26 | 一种工业副产煤气系统长期调度方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113869795A CN113869795A (zh) | 2021-12-31 |
CN113869795B true CN113869795B (zh) | 2022-08-05 |
Family
ID=78997560
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111245007.6A Active CN113869795B (zh) | 2021-10-26 | 2021-10-26 | 一种工业副产煤气系统长期调度方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113869795B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114066333A (zh) * | 2022-01-17 | 2022-02-18 | 阿里巴巴达摩院(杭州)科技有限公司 | 数据处理方法及装置 |
CN114595879B (zh) * | 2022-03-03 | 2022-09-06 | 大连理工大学 | 一种基于特征粒序列lstm的类周期能源长期预测方法 |
CN114862055A (zh) * | 2022-06-01 | 2022-08-05 | 河钢数字技术股份有限公司 | 一种基于多源数据驱动的钢铁企业高炉煤气预测方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106650944A (zh) * | 2016-12-07 | 2017-05-10 | 大连理工大学 | 一种基于知识的冶金企业转炉煤气调度方法 |
CN109242188A (zh) * | 2018-09-12 | 2019-01-18 | 大连理工大学 | 一种钢铁煤气系统长期区间预测及其结构学习方法 |
WO2020036590A1 (en) * | 2018-08-14 | 2020-02-20 | Connect Financial LLC | Evaluation and development of decision-making models |
CN110930016A (zh) * | 2019-11-19 | 2020-03-27 | 三峡大学 | 一种基于深度q学习的梯级水库随机优化调度方法 |
-
2021
- 2021-10-26 CN CN202111245007.6A patent/CN113869795B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106650944A (zh) * | 2016-12-07 | 2017-05-10 | 大连理工大学 | 一种基于知识的冶金企业转炉煤气调度方法 |
WO2020036590A1 (en) * | 2018-08-14 | 2020-02-20 | Connect Financial LLC | Evaluation and development of decision-making models |
CN109242188A (zh) * | 2018-09-12 | 2019-01-18 | 大连理工大学 | 一种钢铁煤气系统长期区间预测及其结构学习方法 |
CN110930016A (zh) * | 2019-11-19 | 2020-03-27 | 三峡大学 | 一种基于深度q学习的梯级水库随机优化调度方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113869795A (zh) | 2021-12-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113869795B (zh) | 一种工业副产煤气系统长期调度方法 | |
WO2023070293A1 (zh) | 一种工业副产煤气系统长期调度方法 | |
US11755976B2 (en) | Method for predicting oxygen load in iron and steel enterprises based on production plan | |
Cheng et al. | A new combined model based on multi-objective salp swarm optimization for wind speed forecasting | |
Ghods et al. | Methods for long-term electric load demand forecasting; a comprehensive investigation | |
CN104181900B (zh) | 一种多能源介质分层动态调控方法 | |
CN103729695A (zh) | 基于粒子群和bp神经网络的短期电力负荷预测方法 | |
CN114757104B (zh) | 一种串联闸群调水工程水力实时调控模型的构建方法 | |
CN115544899A (zh) | 基于多智能体深度强化学习的水厂取水泵站节能调度方法 | |
Cayir Ervural et al. | Improvement of grey prediction models and their usage for energy demand forecasting | |
Shahverdi et al. | Double Q-PI architecture for smart model-free control of canals | |
CN115310760A (zh) | 一种基于改进近端策略优化的瓦斯系统动态调度方法 | |
Tian et al. | Application of improved whale optimization algorithm in parameter identification of hydraulic turbine at no-load | |
Liu et al. | A conformable fractional unbiased grey model with a flexible structure and it’s application in hydroelectricity consumption prediction | |
Farahat | Long-term industrial load forecasting and planning using neural networks technique and fuzzy inference method | |
Wei et al. | A combination forecasting method of grey neural network based on genetic algorithm | |
CN117893043A (zh) | 一种基于ddpg算法和深度学习模型的水电站负荷分配方法 | |
Salvador et al. | Historian data based predictive control of a water distribution network | |
CN114036819B (zh) | 基于自组织随机配置网络的污水总磷软测量方法及系统 | |
Wang et al. | Short term load forecasting: A dynamic neural network based genetic algorithm optimization | |
CN104076686A (zh) | 一种氧化铝生产过程动态成本控制方法 | |
CN113467225A (zh) | 智能pid控制器在线优化方法及系统 | |
Klimenko et al. | Neuro-fuzzy models for operational forecasting of electric energy consumption of the urban system | |
Dalcali et al. | Prediction of electricity energy consumption including COVID‐19 precautions using the hybrid MLR‐FFANN optimized with the stochastic fractal search with fitness distance balance algorithm | |
Zhou et al. | Research on low-carbon flexible job shop scheduling problem based on improved Grey Wolf Algorithm |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |