CN113869795B

CN113869795B - 一种工业副产煤气系统长期调度方法

Info

Publication number: CN113869795B
Application number: CN202111245007.6A
Authority: CN
Inventors: 王天宇; 赵珺; 王伟
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2021-10-26
Filing date: 2021-10-26
Publication date: 2022-08-05
Anticipated expiration: 2041-10-26
Also published as: CN113869795A

Abstract

一种工业副产煤气系统长期调度方法，步骤如下：针对能源数据的波动特征划分信息粒度，形成数据样本的语义表示。以粒度化的数据特征作为输入，通过专家调度经验数据构建深度对比网络结构，分别采用定性和定量学习的方式构建不同调度状态下的知识表示；再建立全连接输出层拟合专家调度量，获得基于经验知识的初始调度策略。构建actor‑critic架构计算考虑长期调度表现的补偿策略。其中，critic部分以对比网络获得的知识表示作为状态空间，建立以调度事件为单位的评价值函数，并采用深度Q学习的方式实现策略评价；actor部分将当前的策略评价与期望目标值进行比对，基于评价反馈迭代计算补偿策略，得到最终的副产能源调度方案。

Description

一种工业副产煤气系统长期调度方法

技术领域

本发明属于信息技术领域，涉及到知识自动化、数据驱动建模、强化学习等技术，是一种知识、数据与动态规划相融合的工业副产能源系统长期调度方法。首先采用粒度化方式和深度对比学习获得关于能源系统调度状态的知识表示，并计算出初始调度策略。在此基础上，结合actor-critic架构的动态规划过程，实现考虑长期调度表现的策略补偿。此方法能够满足工业现场对于长期柜位控制，能源预测和平衡调度需求，且计算效率符合实际应用要求，可帮助节约调度成本，实现副产煤气系统的节能减排。

背景技术

工业生产是高耗能和高排放的生产过程，随着煤炭、石油等一次能源的紧缺，充分利用生产过程中产生的二次能源不但可以提高企业节能降耗水平，还可减少煤气放散带来的环境污染。(金锋.基于因果模型的钢铁煤气优化调度方法与应用[D].(2020).大连理工大学)。副产煤气是工业生产过程中产生的重要二次能源，其特点是单次回收量较大，在回收阶段对能源管网平衡的冲击也较大。当出现设备检修、设备故障、生产计划变更等情况时，亦会导致管网出现供需失衡。为了更好地利用副产资源，现场调度人员需要根据当前煤气系统运行状态和生产计划对可调用户的负荷量进行调整，以保证系统的平衡运行。

随着工业信息化水平的逐步提高，各大企业积累了大量相关历史数据，为能源优化调度提供技术支持。现有的研究主要包括：基于贝叶斯网络进行建模和推理(J.Zhao,W.Wang,K.Sun,et al.(2014).A bayesiannetworks structure learning andreasoning-based byproduct gas scheduling in steel industry[J].IEEETransactions on Automation Science and Engineering,11(4):1149-1154)、预测建模和优化调度两阶段方法(Z.Han,J.Zhao,W.Wang,&Y.Liu.(2016).A two-stage method forpredicting and scheduling energy in an oxygen/nitrogen system of the steelindustry[J].Control Engineering Practice,52,35-45)、因果关系建模(F.Jin,J.Zhao,Y.Liu,et al.(2021).A scheduling approach with uncertainties in generation andconsumption for converter gas system in steel industry[J].InformationSciences,2021,546:312-328)等。上述研究都是针对短时间内单次能源不平衡情况进行计算，而并没有综合考虑未来一段时间内诸如设备运行变化，生产计划调整等生产环境的动态特性对于调度策略的影响。针对工业能源系统的多时间尺度调度问题，主要包括采用启发式优化方法(R.Hemmati,H.Saboori,P.Siano.(2017).Coordinated short-termscheduling and long-term expansion planning in microgrids incorporatingrenewable energy resources and energy storage systems[J].Energy,134:699-708.)、混合整数规划优化方法(A.Bischi,L.Taccari,E.Martelli,et al.(2019).Arolling-horizon optimization algorithm for the long term operationalscheduling of cogeneration systems[J].Energy,184:73-90.)等。然而，上述文献大多采用静态的优化方式，在面对多阶段或具有多步策略的长期调度问题时，难以避免优化模型易陷入局部最优，进而影响包括设备运行、调度经济性等长期指标。

发明内容

针对事件驱动的工业副产煤气系统调度过程，本发明首先根据生产过程数据的波动特征划分信息粒度，利用专家调度样本建立粒度对比网络，实现调度过程中关于系统运行状态的知识表示，在此基础上通过有监督学习的方式拟合专家调度量，获得初始的调度策略。考虑多步调度事件的影响，以知识表示作为强化学习的状态，基于actor-critic架构建立策略评估和动态补偿机制，进而提高能源系统的长期调度表现。该发明有利于减少调度成本，能够保证能源存储柜位长时间地运行在安全区间，从而为现场工作人员的调度操作提供决策支持。

本发明的技术方案：

一种工业副产煤气系统长期调度方法，步骤如下：

(1)针对能源数据的波动特征划分信息粒度，形成数据样本的语义表示。

(2)以粒度化的数据特征作为输入，通过专家调度经验数据构建深度对比网络结构，分别采用定性和定量学习的方式构建不同调度状态下的知识表示；在此基础上，建立全连接输出层拟合专家调度量，获得基于经验知识的初始调度策略。

(3)构建actor-critic架构计算考虑长期调度表现的补偿策略。其中，critic部分以对比网络获得的知识表示作为状态空间，建立以调度事件为单位的评价值函数，并采用深度Q学习的方式实现策略评价；actor部分将当前的策略评价与期望目标值进行比对，基于目标的返还量计算补偿策略，得到最终的副产能源调度方案。

本发明的有益效果：本发明提出的方法结合了知识提取，数据驱动建模及动态规划过程。通过数据粒度化过程和深度对比网络实现关于能源系统调度状态的知识获取和表示；进一步构建的actor-critic架构可反映生产环境的动态变化和未来多步调度事件的影响，从而满足工业现场长期的柜位运行控制，能源预测及平衡调度需求。

附图说明

图1为本发明应用流程图。

图2为粒度对比网络结构图。

图3描述对比网络的多层次训练机制。

图4为critic网络结构图。

图5为300分钟的柜位调度效果对比(煤气富余情况)。其中(a)-(d)分别代表四座煤气柜。

图6为300分钟的柜位调度效果对比(煤气不足情况)。其中(a)-(d)分别代表四座煤气柜。

具体实施方式

工业副产能源系统存在发生、存储和消耗等多种变量，且各变量通过能源传输网络相互耦合关联，同时能源用户的状态随时间不断变化，这些客观因素共同导致能源系统具有复杂且动态变化的运行特征。为了提高长期调度表现，需根据不同的系统状态特征制定合理的调度策略，采用动态规划的方式综合考虑能源系统状态变化及多步调度事件影响。为了更好地理解本发明的技术路线和实施方案，以冶金企业转炉煤气系统能源调度为研究对象，具体的实施步骤描述如下：

(1)能源数据的特征粒度化建模

本发明采用自适应粒度化(Adaptive granulation，AG)方法，根据数据的波动趋势特征划分数据粒度。给定时间序列X＝{x₁，x₂，...，x_n}，其一阶和二阶动态变量可表示为

Δ＝{Δ₁，Δ₂，...，Δ_n-1}，E＝{e₁，e₂，...，e_n-2} (1)

其中，Δ_i＝x_i+1-x_i，e_i＝Δ_i+1-Δ_i。通过Δ_i×Δ_i-1和e_i×e_i-1的符号判断数据点x_i所在序列段的凹凸性和单调性变化，并在性质改变时刻划分时间序列数据。例如对于时间序列X＝{x₁，x₂，…，x_p，x_p+1，…，x_n}，若Δ_p×Δ_p-1＜0∪e_p×e_p-1＜0，则以x_p作为分割点，划分X为{x₁，x₂，…，x_p}和{x_p+1，x_p+2，…，x_n}。在实施粒度划分前，需要将数据进行滤波预处理，以消除一些微小的趋势变化。为了进一步实现数据的语义增强，采用由时间跨度D_τ、波动幅值A_τ和趋势线型L_τ组成的三维特征向量来对信息粒G_τ进行描述，记为G_τ＝{D_τ，A_τ，L_τ}，其中τ为粒度时间步长。

(2)基于粒度对比网络的知识提取及策略计算

建立粒度对比网络获得与调度状态相关的知识表示，并基于该表示拟合历史调度样本中的专家调整量，计算出初始调度策略。

对比网络模型的输入为能源发生、消耗以及存储流量数据的信息粒描述，即

其中e表示不同调度事件，n为输入因素个数。该网络结构如附图2所示，可分为以下四个部分：

1)首先根据历史时刻的专家调度数据(调整方向、调整量大小等)将数据样本定性地划分为不同的子集

2)通过基于神经网络的编码器f(·)从数据的粒度化特征描述中提取表示向量。本发明采用长短时记忆网络来获得调度状态的特征表示，即h_e＝f(s_e)＝LSTM(s_e)，其中

为网络的隐藏表示。

3)通过具有单隐藏层的神经网络映射层g(·)将提取的表示向量映射到对比损失空间，该特征映射层得到的z_e相比于上一层的h_e将具有更好的对比学习效果。这里采用MLP来获得最终的状态知识表示，即z_e＝g(h_e)＝MLP(h_e)。经过对比学习后，z_e相比于s_e能够反映出能源系统的调度状态，因此z_e还被用于actor-critic框架中的状态空间表示。

4)在知识表示向量z_e的基础上建立全连接输出层，得到初始调度策略，即u_e＝Output(z_e)。

对于所建立对比网络的学习过程，本发明分别从定性和定量的两个层次进行训练：

1)通过最小化定义的损失函数，使得根据由专家调度数据定性划分在相同子集的样本

其表示向量

相互接近，而区分不同子集样本

的表示

以尽可能区分不同的调度工况。这一过程的损失函数定义如下

其中，p表示与

属于同一子集的样本个数，q为不同子集样本个数，d(·)表示向量间的距离，这里采用余弦相似度来衡量。

针对专家调度数据中包含的多分类情况，本发明提出一种多步训练策略。在训练过程中首先根据调整方向进行二分类的对比学习，之后通过构建具有不同调整量大小的输入样本再进行多次学习，使得输出的表示向量能够区分多类别的专家知识。若专家经验样本总数为N，在训练模型时使用所有可能的数据对，则用于训练的数据信息量可达到(N)(N-1)/2。相比于经典的有监督学习方法，对比学习模型的训练过程要多出近似于(N-1)/2个样本，因此能够更为高效地利用相对稀疏的事件驱动调度过程数据。

2)在上述训练过程结束后，进一步提出多层次训练机制来实现调度知识的定量学习和细化表示，如图3所示。

首先定义验证集{s₁，s₂，...，s_l}，根据上述过程得到的网络模型计算相应的知识表示{z₁，z₂，...z_l}。在知识表示向量的基础上建立输出层来拟合专家调度量。通过计算出的调度量与真实调度量之间的误差来判断当前获得的知识表示是否能够满足实际系统条件。若存在样本数据集

的误差高于某一设定的阈值θ，即

其中，y_e为真实调度量。说明当前的表示空间无法覆盖该样本集中所包含的调度知识。这种情况下，需要进一步训练对比网络模型使得其能够区分出

和验证集中其他样本。由于需要学习出与已有表示空间不同的特征，因此在这一过程中定义相互排斥的损失函数

其中，r为未满足条件的样本个数，l为验证集样本总数。上述训练结束后，需再次根据学习后的网络模型判断验证集中的样本能否满足阈值条件，并不断执行上述过程实现多层次迭代学习，直到所有样本均满足设定条件。

在对比学习训练结束后，给定粒度化的样本输入s_e，可得到相应的调度状态知识表示z_e。基于该表示建立全连接输出层，通过有监督学习的方式拟合专家调度量，计算出基于专家知识的初始调度策略。

(3)基于Actor-Critic框架的补偿策略计算

针对副产能源系统的长期调度表现，本发明提出一种Actor-critic框架实现对于初始调度策略的动态补偿，其中critic部分将知识表示z_e作为强化学习的状态，建立深度Q网络计算调度策略的值函数评价；Actor部分利用由粒度对比网络计算的初始调度策略作为初始解，根据策略的评价值与目标设定值的偏差，通过数据拟合的方式获得调度策略的补偿量，进而得到最终的调度方案。

1)Critic部分构建评价网络对调度策略进行评价。网络的输入为状态知识表示z_e和动作(调度量)a_e的集合，分别经过一层神经网络后进行拼接，在此基础上构建多层隐藏层与ReLU激活函数层建立深度神经网络，网络输出为值函数Q，critic网络结构如图4所示。

本发明在每个调度事件发生时刻计算调度奖赏，因此定义以调度事件为单位的值函数，即

其中，reward_k定义为第k个调度事件的奖赏，通过副产煤气系统调度效果的评价指标描述，定义为

其中，prof为该阶段的固定利润，loss为每次柜位达到机械上(下)限的时损失的利润；loss后括号内的内容表示柜位达到机械上(下)限的次数，len为调度事件时长；θ则是数值较小的阈值；t_level_i为第i时刻的柜位值；HMB，LMB和HSB，LSB分别表示柜位的机械上下限和安全上下限，sign(·)与G(·)函数分别如式(7)所示。

基于Q学习的思想更新深度神经网络的参数，定义损失函数如下

其中，Q_w为由神经网络表示的评价网络Q值函数，w为神经网络参数，z_e为当前调度事件下由粒度对比网络获得的知识表示，即z_e＝g(f(s_e))。z_e+1为在调度事件e实施动作a_e后，由数据预测模型获得的下一调度事件发生时刻(e+1)所对应的系统状态知识表示，γ为强化学习过程中奖励的衰减系数。

采用软更新的方式来提高网络的稳定性，Q′_w表示参数为w′的目标评价网络。评价网络参数更新公式如下

w′←τw+(1-τ)w′ (11)

其中，α为评价网络学习率，τ为软更新系数。

2)Actor(动作)部分比较初始调度策略的值函数评价Q_w(z_e，u_e)与设定的长期调度目标Q^*，并结合能源系统的状态空间表示z_e计算出策略u_e的动态补偿量Δu_e。

在补偿值的计算过程中，根据给定Q^*和由critic部分得到的值函数评价Q_w(z_e，u_e)，计算出调度目标返还值ΔQ(z_e，u_e)＝Q^*-Q_w(z_e，u_e)，并建立以ΔQ(z_e，u_e)，当前事件下的状态空间表示z_e以及其值函数估计Q_w(z_e，u_e)为输入，补偿值Δu_e为输出的非线性关系，即

Δu_e＝f(ΔQ(z_e，u_e)，z_e，Q_w(z_e，u_e)) (12)

基于历史调度时刻的案例样本建立训练集，采用数据驱动方法拟合此非线性关系，计算出初始调度策略u_e的动态补偿量Au_e，进而得到最终的调度方案。

采用国内某冶金企业转炉煤气系统2020年1-2月份的连续67200个完整数据(SCADA系统采集，采样间隔为1分钟)来验证所提方法的有效性，从中选取600个调度样本，其中200个样本用于建立粒度对比网络生成初始策略，500个样本用于强化学习过程，其余样本作为测试集。采用人工调度(方法a)，基于预测的启发式调度(方法b)和事件驱动的Q学习方法(方法c)作为对比实验，并对比了500分钟时长内不同调度场景下(能源富余和不足)的柜位运行效果，如图5-6所示。各项调度指标统计如表1、表2和表3所示。

表1调度指标统计结果对比(煤气富余)

从上表中的指标统计结果可以看出，方法b调度次数较为频繁，导致了调度间隔过低，与现场情况严重不符。虽然方法a的调整次数明显低于上述两种方法，但是由于其无法找到最优的调度方案，使得其超出柜位安全界限的次数多于其他方法。方法c易陷入局部最优解，导致无法找到最优的调度方案。与上述方法相比，本发明获得最少的调整次数和超出安全界限次数，且在500分钟内的调度奖赏亦明显高于其他方法。

表2调度指标统计结果对比(煤气不足)

上表中进一步给出了煤气不足的情况，可以看出方法b调度次数十分频繁，其调度间隔过低，偏离了现场生产需求，不可作为长期调度的参考。方法a虽然在调度次数方面明显由于上述两种方法，但经常出现超出安全界限的情况，导致其实际调度奖赏并没有明显优势。方法c在各项统计指标上亦不及本发明方法。本发明在调整次数，柜位运行以及调度奖赏方面均明显由于其他方法，且计算时长亦可满足工业现场的实际需求。

表3 50次调度实验的对比统计结果

从测试样本中随机选取50次独立实验的调度结果，其中28次为煤气富余情况，22次为煤气不足情况，并通过调度指标评估本发明优于或不及其他方法的次数。从表3中可看出，本发明相比于方法b在各项指标的优越率均达到100％。相比于方法a(人工调度)，本发明存在5次调整次数不及该方法。然而在实验中观察发现，这5次人工调整的煤气柜位均出现了超出安全界限的情况，本发明通过增加调整次数保证了柜位运行在安全的运行区间。此外，从后两项调度指标可以看出，本发明相比于人工调度达到了84％的优越率。综上，所提出的长期调度方法可以适用于工业现场的不同生产状况，保证副产煤气系统的平衡运行。

Claims

1.一种工业副产煤气系统长期调度方法，其特征在于，步骤如下：

(1)能源数据的特征粒度化建模

采用自适应粒度化方法，根据能源数据的波动趋势特征划分数据粒度；给定时间序列X＝{x₁,x₂,...,x_n}，其一阶和二阶动态变量表示为：

Δ＝{Δ₁,Δ₂,...,Δ_n-1},E＝{e₁,e₂,...,e_n-2} (1)

其中，Δ_i＝x_i+1-x_i，e_i＝Δ_i+1-Δ_i；通过Δ_i×Δ_i-1和e_i×e_i-1的符号判断数据点x_i所在序列段的凹凸性和单调性变化，并在性质改变时刻划分时间序列数据；对于时间序列X＝{x₁,x₂,...,x_p,x_p+1,...,x_n}，若Δ_p×Δ_p-1＜0∪e_p×e_p-1＜0，则以x_p作为分割点，划分X为{x₁,x₂,...,x_p}和{x_p+1,x_p+2,...,x_n}；在实施粒度划分前，先将能源数据进行滤波预处理；为了进一步实现能源数据的语义增强，采用由时间跨度D_τ、波动幅值A_τ和趋势线型L_τ组成的三维特征向量来对信息粒G_τ进行描述，记为G_τ＝{D_τ,A_τ,L_τ}，其中τ为粒度时间步长；

(2)基于粒度对比网络的知识提取及策略计算

建立粒度对比网络获得与调度状态相关的知识表示，并基于该知识表示拟合历史调度样本中的专家调整量，计算出初始调度策略；

粒度对比网络模型的输入为能源发生、消耗以及存储流量数据的信息粒描述，即

其中e表示不同调度事件，n为输入因素个数；粒度对比网络模型分为以下四个部分：

1)首先根据历史时刻的专家调度数据将数据样本定性地划分为不同的子集

2)通过基于神经网络的编码器f(·)从数据的粒度化特征描述中提取表示向量；采用长短时记忆网络来获得调度状态的特征表示，即h_e＝f(s_e)＝LSTM(s_e)，其中

为网络的隐藏表示；

3)通过具有单隐藏层的神经网络映射层g(·)将提取的表示向量映射到对比损失空间，该神经网络映射层得到的状态知识表示z_e相比于上一层的h_e具有更好的对比学习效果；采用MLP来获得最终的状态知识表示，即z_e＝g(h_e)＝MLP(h_e)；经过对比学习后，z_e相比于s_e能够反映出能源系统的调度状态，因此z_e还被用于actor-critic框架中的状态空间表示；

4)在状态知识表示z_e的基础上建立全连接输出层，得到初始调度策略，即u_e＝Output(z_e)；对于所建立粒度对比网络的学习过程，分别从定性和定量的两个层次进行训练：

其表示向量

相互接近，而区分不同子集样本

的表示向量

以尽可能区分不同的调度工况；这一过程的损失函数定义如下：

其中，p表示与

属于同一子集的样本个数；q为不同子集样本个数；d(·)表示向量间的距离，采用余弦相似度来衡量；

针对专家调度数据中包含的多分类情况，提出一种多步训练策略；在训练过程中首先根据调整方向进行二分类的对比学习，之后通过构建具有不同调整量大小的输入样本再进行多次学习，使得输出的表示向量能够区分多类别的专家知识；若专家经验样本总数为N，在训练模型时使用所有可能的数据对，用于训练的数据信息量达到(N)(N-1)/2；

2)在上述训练过程结束后，进一步提出多层次训练机制来实现调度知识的定量学习和细化表示；

首先定义验证集{s₁,s₂,...,s_l}，根据上述过程得到的网络模型计算相应的状态知识表示{z₁,z₂,...z_l}；在知识表示向量的基础上建立输出层来拟合专家调度量；通过计算出的调度量与真实调度量之间的误差来判断当前获得的知识表示是否能够满足实际系统条件；若存在样本数据集

的误差高于某一设定的阈值θ，即

其中，y_e为真实调度量；说明当前的表示空间无法覆盖该样本集中所包含的调度知识；这种情况下，需要进一步训练粒度对比网络使得其能够区分出

和验证集中其他样本；由于需要学习出与已有表示空间不同的特征，因此在这一过程中定义相互排斥的损失函数：

其中，r为未满足条件的样本个数，l为验证集样本总数；上述训练结束后，需再次根据学习后的网络模型判断验证集中的样本能否满足阈值条件，并不断执行上述过程实现多层次迭代学习，直到所有样本均满足设定条件；

在对比学习训练结束后，给定粒度对比网络模型的输入s_e，得到相应的状态知识表示z_e；基于z_e建立全连接输出层，通过有监督学习的方式拟合专家调度量，计算出基于专家知识的初始调度策略；

(3)基于Actor-Critic框架的补偿策略计算

针对副产能源系统的长期调度表现，提出一种Actor-critic框架实现对于初始调度策略的动态补偿，其中critic部分将状态知识表示z_e作为强化学习的状态，建立深度Q网络计算调度策略的值函数评价；Actor部分利用由粒度对比网络计算的初始调度策略作为初始解，根据策略的评价值与目标设定值的偏差，通过数据拟合的方式获得调度策略的补偿量，并迭代计算出最终的调度方案；

1)Critic部分构建评价网络对调度策略进行评价；网络的输入为状态知识表示z_e和动作a_e的集合，分别经过一层神经网络后进行拼接，在此基础上构建多层隐藏层与ReLU激活函数层建立深度神经网络，网络输出为值函数Q，critic网络结构；

在每个调度事件发生时刻计算调度奖赏，因此定义以调度事件为单位的值函数，即

其中，prof为固定利润，loss为每次柜位达到机械上、下限的时损失的利润；loss后括号内的内容表示柜位达到机械上、下限的次数，len为调度事件时长；θ则是数值较小的阈值；t_level_i为第i时刻的柜位值；HMB、LMB和HSB，LSB分别表示柜位的机械上下限和安全上下限，sign(·)与G(·)函数分别如式(7)所示：

基于Q网络学习的思想更新深度神经网络的参数，定义损失函数如下：

其中，Q_w为由神经网络表示的评价网络Q值函数，w为当前评价网络的权值参数，z_e为当前调度事件下由粒度对比网络获得的状态知识表示，即z_e＝g(f(s_e))；z_e+1为在调度事件e实施动作a_e后，由数据预测模型获得的下一调度事件发生时刻(e+1)所对应的系统状态知识表示；γ为强化学习过程中奖励的衰减系数；

采用软更新的方式来提高网络的稳定性，Q'_w表示目标评价网络；评价网络参数更新公式如下：

w'←τw+(1-τ)w' (11)其中，α为评价网络学习率，τ为软更新系数；

2)Actor部分比较初始调度策略的值函数评价Q_w(z_e,u_e)与设定的长期调度目标Q^*，并结合能源系统的状态知识表示z_e计算出初始调度策略u_e的动态补偿量Δu_e；

在补偿值的计算过程中，根据给定Q^*和由critic部分得到的值函数评价Q_w(z_e,u_e)，计算出调度目标返还值ΔQ(z_e,u_e)＝Q^*-Q_w(z_e,u_e)，并建立以ΔQ(z_e,u_e)，当前调度事件下的状态知识表示z_e以及其值函数估计Q_w(z_e,u_e)为输入，补偿值Δu_e为输出的非线性关系，即

Δu_e＝f(ΔQ(z_e,u_e),z_e,Q_w(z_e,u_e)) (12)

基于历史调度时刻的案例样本建立训练集，采用数据驱动方法拟合此非线性关系，计算出初始调度策略u_e的动态补偿量Δu_e，进而得到最终的调度方案。