CN113255216B

CN113255216B - 一种炼钢生产调度方法、系统、介质及电子终端

Info

Publication number: CN113255216B
Application number: CN202110565828.1A
Authority: CN
Inventors: 徐林伟; 彭静; 张波; 姜根成
Original assignee: CISDI Chongqing Information Technology Co Ltd
Current assignee: CISDI Chongqing Information Technology Co Ltd
Priority date: 2021-05-24
Filing date: 2021-05-24
Publication date: 2023-01-31
Anticipated expiration: 2041-05-24
Also published as: CN113255216A

Abstract

本发明提供一种炼钢生产调度方法、系统、介质及电子终端，炼钢生产调度方法包括：构建炼钢仿真模型；控制炼钢仿真模型将仿真生产状态信息输入神经网络进行训练，获取强化学习模型；采集实时生产状态信息；将实时生产状态信息输入强化学习模型进行强化学习，获取较优的调度参数；根据调度参数，进行炼钢生产调度；本发明中的炼钢生产调度方法，通过控制炼钢仿真模型将仿真生产状态信息输入神经网络进行训练，获取强化学习模型，并将实时生产状态信息输入强化学习模型进行强化学习，进而进行生产调度，能够对炼钢生产进行自动调度，自动化、智能化程度较高，精确度较高，通用性较强。

Description

一种炼钢生产调度方法、系统、介质及电子终端

技术领域

本发明涉及钢铁生产调度领域，尤其涉及一种炼钢生产调度方法、系统、介质及电子终端。

背景技术

随着传统钢铁产业的信息化升级革新，我国钢铁企业也在加速探索对传统钢厂的数字化、智能化和无人化改造。生产调度环节是钢铁生产过程中的指挥核心环节之一，目前通常采用人工的方式进行炼钢生产调度安排，对人工经验的依赖程度较高，可能编出生产成本较高的方案，较容易给企业带来一定的损失，且自动化、智能化及无人化程度较低。

发明内容

本发明提供一种炼钢生产调度方法、系统、介质及电子终端，以解决现有技术中采用人工的方式进行炼钢生产调度安排，较容易给企业带来一定的损失，且自动化、智能化及无人化程度较低的问题。

本发明提供的炼钢生产调度方法，包括：

构建炼钢仿真模型；

控制所述炼钢仿真模型将仿真生产状态信息输入神经网络进行训练，获取强化学习模型；

采集实时生产状态信息；

将所述实时生产状态信息输入所述强化学习模型进行强化学习，获取较优的调度参数；

根据所述调度参数，进行炼钢生产调度。

可选的，根据所述调度参数，进行炼钢生产调度的步骤包括：

将所述调度参数输入所述炼钢仿真模型进行生产调度仿真与可行性校验，获取校验结果，其中，进行可行性校验的步骤包括：

判断生产调度仿真的过程中连铸是否断浇，若连铸断浇，则判定校验结果为失败，若连铸未断浇，则判定校验结果为成功；

根据所述校验结果，进行炼钢生产调度。

可选的，将所述仿真生产状态信息输入所述神经网络进行训练的步骤包括：调度参数预测和误差反馈；

所述调度参数预测的步骤包括：根据所述仿真生产状态信息和预设的生产调度策略，进行调度参数预测，所述仿真生产状态信息至少包括以下之一：行车位置信息、行车已接收任务的等待时间、行车正在作业的剩余时间、行车任务优先级、工位剩余作业时间、工位位置、工位状态信息、工位加工钢种信息和工位排队等待时间信息。

可选的，将所述调度参数输入所述炼钢仿真模型进行生产调度，获取各工位工作时间和连铸连浇状态；

根据所述各工位工作时间和连铸连浇状态，利用预先设置的强化学习奖赏函数，对所述神经网络进行反馈优化，进而获取强化学习模型；

所述强化学习奖赏函数包括：第一奖赏函数和第二奖赏函数，当所述连铸连浇状态为连铸成功时，则利用所述第一奖赏函数，对所述神经网络进行反馈优化；

所述第一奖赏函数的数学表达为：

其中，f(x)₁为第一奖赏函数，α为预设的第一权值，T1为当前各工位工作总时间，T0为连铸机完成连铸所需工作时间。

可选的，当所述连铸连浇状态为连铸中时，则利用所述第二奖赏函数，对所述神经网络进行反馈优化；

当所述连铸连浇状态为连铸断浇时，则判定对应的调度参数异常，进而对所述神经网络进行反馈优化；

所述第二奖赏函数的数学表达为：

其中，f(x)₂为第二奖赏函数，β为预设的第二权值，T2为当前连铸机的工作时间。

可选的，将所述仿真生产状态信息输入所述神经网络进行训练的步骤还包括：

将所述调度参数输入所述炼钢仿真模型进行生产调度仿真，获取调度后的仿真生产状态信息；

将调度后的仿真生产状态信息输入所述神经网络进行训练，获取较优的强化学习模型。

可选的，构建炼钢仿真模型的步骤包括：

获取仿真运行参数，所述仿真运行参数至少包括以下之一：浇次计划、炉次计划、工艺路线参数、维修计划、设备可靠性参数和设备作业时间参数；

根据所述仿真运行参数，构建炼钢仿真模型。

本发明还提供一种炼钢生产调度系统，包括：

仿真模块，用于构建炼钢仿真模型；

训练模块，用于控制所述炼钢仿真模型将仿真生产状态信息输入神经网络进行训练，获取强化学习模型；

采集模块，用于采集实时生产状态信息；

处理模块，用于将所述实时生产状态信息输入所述强化学习模型进行强化学习，获取较优的调度参数；

调度模块，用于根据所述调度参数，进行炼钢生产调度；所述仿真模块、训练模块、采集模块、处理模块和调度模块连接。

本发明还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上述任一项所述方法。

本发明还提供一种电子终端，包括：处理器及存储器；

所述存储器用于存储计算机程序，所述处理器用于执行所述存储器存储的计算机程序，以使所述终端执行如上述任一项所述方法。

本发明的有益效果：本发明中的炼钢生产调度方法、系统、介质及电子终端，通过构建炼钢仿真模型，控制所述炼钢仿真模型将仿真生产状态信息输入神经网络进行训练，获取强化学习模型，并将所述实时生产状态信息输入所述强化学习模型进行强化学习，获取较优的调度参数，进而进行炼钢生产调度，能够对炼钢生产进行自动调度，减少对人工的依赖，自动化、智能化程度较高，调度精确度较高，通用性较强。

附图说明

图1是本发明实施例中炼钢生产调度方法的一流程示意图。

图2是本发明实施例中炼钢生产调度方法的另一流程示意图。

图3是本发明实施例中炼钢生产调度方法的一信息交互示意图。

图4是本发明实施例中炼钢生产调度方法的另一信息交互示意图。

图5是本发明实施例中炼钢生产调度系统的结构示意图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

发明人发现，随着传统钢铁产业的信息化升级革新，我国钢铁企业也在加速探索对传统钢厂的数字化、智能化和无人化改造。生产调度环节是钢铁生产过程中的指挥核心环节之一，由于炼钢工序具有连续系统和离散系统的生产特征，需要将物流和生产紧密衔接，因此必须对工位人机料法环等多因素进行综合考虑，才能得到较佳的调度策略，目前通常采用人工的方式进行炼钢生产调度安排，对人工经验的依赖程度较高，可能编出生产成本较高的方案，较容易给企业带来一定的损失，且自动化、智能化及无人化程度较低，因此，发明人提出一种炼钢生产调度方法、系统、介质及电子终端，通过构建炼钢仿真模型，控制所述炼钢仿真模型输出仿真生产状态信息，将所述仿真生产状态信息输入神经网络进行训练，获取强化学习模型，所述强化学习模型能够较有效地解决炼钢生产调度复杂的组合优化问题，并将所述实时生产状态信息输入所述强化学习模型进行强化学习，获取较优的调度参数，进而进行炼钢生产调度，能够对炼钢生产进行自动调度，减少对人工的依赖，自动化、智能化程度较高，调度精确度较高，通用性较强。

如图1所示，本实施例中的炼钢生产调度方法，包括：

S1：构建炼钢仿真模型；通过构建炼钢仿真模型，能够较好地对炼钢生产状态进行仿真，仿真精确度较高。

S2：控制所述炼钢仿真模型将仿真生产状态信息输入神经网络进行训练，获取强化学习模型；通过将仿真生产状态信息谁输出神经网络进行迭代训练，调整梯度下降的速度、迭代学习率、学习次数及迭代次数，获得较优的强化学习模型，通过结合炼钢仿真模型和强化学习模型，即将炼钢仿真模型和强化学习模型连接形成环路，能够对神经网络进行较长周期、较大规模的训练，减少训练数据的采集时间，有效加快神经网络的训练速度，且提高了强化学习模型的准确度。并且，利用神经网络进行深度学习，所得出的调度参数更加贴合实际情况，有效提高炼钢生产调度的准确性，通用性较强。

S3：采集实时生产状态信息；所述实时生产状态信息为当前炼钢生产的状态信息；

S4：将所述实时生产状态信息输入所述强化学习模型进行强化学习，获取较优的调度参数；通过将所述实时生产状态信息输入强化学习模型进行强化学习，能够快速获取较优的调度参数，用于执行调度动作。

S5：根据所述调度参数，进行炼钢生产调度。通过构建炼钢仿真模型，控制所述炼钢仿真模型输出仿真生产状态信息，将所述仿真生产状态信息输入神经网络进行训练，获取强化学习模型，所述强化学习模型能够较有效地解决炼钢生产调度复杂的组合优化问题，并将所述实时生产状态信息输入所述强化学习模型进行强化学习，获取较优的调度参数，进而进行炼钢生产调度，能够对炼钢生产进行自动调度，减少对人工的依赖，自动化、智能化程度较高，调度精确度较高，通用性较强，成本较低。

如图2所示，为了较好地提高的炼钢生产调度的准确性，发明人提出，炼钢生产调度方法包括：

S101：获取仿真运行参数，所述仿真运行参数至少包括以下之一：浇次计划、炉次计划、工艺路线参数、维修计划、设备可靠性参数和设备作业时间参数。设备可靠性参数包括：MTTF(Mean Time To Failure，平均失效时间)参数及MTTR(Mean Time To Repair，平均恢复前时间)参数。多个仿真运行参数构成全局数据表，便于对炼钢仿真模型进行构建，提高仿真精确度。

S102：根据所述仿真运行参数，构建炼钢仿真模型。通过仿真运行参数，能够较好地构建炼钢仿真模型，提高炼钢仿真模型的精确度。在一些实施例中，所述炼钢仿真模型至少包括以下之一：行车子模型、行车调度子模型、转炉工位子模型、钢包精炼炉工位子模型、连铸机工位子模型和RH工位子模型。所述炼钢仿真模型可以为离线或在线状态，例如：当利用炼钢仿真模型输出仿真生产状态信息，对神经网络进行训练时，所述炼钢仿真模型可以为离线状态，当利用炼钢仿真模型进行校验时，所述炼钢仿真模型可以为在线状态，具体可以根据实际情况进行设置。

S201：控制所述炼钢仿真模型输出仿真生产状态信息，所述仿真生产状态信息至少包括以下之一：行车位置信息、行车已接收任务的等待时间、行车正在作业的剩余时间、行车任务优先级、工位剩余作业时间、工位位置、工位状态信息、工位加工钢种信息、工位排队等待时间信息。

在一些实施例中，炼钢仿真模型与强化学习模型通过动态链接库(DLL，DynamicLink Library)进行通信与数据交互，炼钢仿真模型通过扫描DLL动态链接关联的全局数据表进行动作作业仿真。

S202：构建基于深度学习的神经网络。

S203：将所述仿真生产状态信息输入所述神经网络进行训练，获取强化学习模型，训练步骤包括：调度参数预测和误差反馈。

为了提高调度参数预测的精确度，发明人提出，调度参数预测的步骤包括：

根据所述仿真生产状态信息和预设的生产调度策略，进行调度参数预测。所述生产调度策略可根据实际生产情况进行设置，如不同工位的等待时间等，此处不再赘述。

进一步地，为了进行较好的误差反馈，实现对神经网络的迭代优化，发明人提出，误差反馈的步骤包括：

将所述调度参数输入所述炼钢仿真模型进行生产调度，获取各工位工作时间和连铸连浇状态；

所述第一奖赏函数的数学表达为：

其中，f(x)₁为第一奖赏函数，α为预设的第一权值，T1为当前各工位工作总时间，T0为连铸机完成连铸所需工作时间。当前各工位的工作总时间可由各工位工作时间求和得到。

当所述连铸连浇状态为连铸中时，则利用所述第二奖赏函数，对所述神经网络进行反馈优化；

所述第二奖赏函数的数学表达为：

当所述连铸连浇状态为连铸断浇时，则判定对应的调度参数异常，进而对所述神经网络进行反馈优化。

通过将强化学习模型输出的调度参数输入炼钢仿真模型进行仿真生产调度，获取各工位的等待时间和连铸连浇状态，并根据各工位工作时间、连铸连浇状态和预设的第一奖赏函数和第二奖赏函数对神经网络进行反馈，能够较好地实现对神经网络的优化，避免发生调度误差，准确度较高，可实施性较强，适用性较强。如图3所示，炼钢仿真模型将仿真生产状态信息传输至强化学习模型，强化学习模型根据仿真生产状态信息进行深度学习，输出调度参数值炼钢仿真模型进行生产调度仿真形成信息传输环路，实现对强化学习模型的高强度训练，减少训练时间与成本，同时，炼钢仿真模型利用强化学习奖赏函数，获取奖惩值，并将奖惩值反馈至强化学习模型，有效提高强化学习模型的精确度，自动化、智能化成本较高，通用性较强，灵活度较高。

在一些实施例中，对所述神经网络进行训练的步骤还包括：将所述调度参数输入所述炼钢仿真模型进行生产调度仿真，获取调度后的仿真生产状态信息；

将调度后的仿真生产状态信息输入所述神经网络进行训练，获取较优的强化学习模型。通过将调度后的仿真生产状态信息输入所述神经网络进行训练，使得神经网络接收到来自炼钢仿真模型的前向反馈，提高强化学习模型输出调度参数的准确性。

S301：采集实时生产状态信息。例如：采集当前的炼钢生产状态信息。

S401：将所述实时生产状态信息输入所述强化学习模型进行强化学习，获取较优的调度参数。

S501：将所述调度参数输入所述炼钢仿真模型进行生产调度仿真与可行性校验，获取校验结果，其中，进行可行性校验的步骤包括：

判断生产调度仿真过程中连铸是否断浇，若连铸断浇，则判定校验结果为失败，若连铸未断浇，则判定校验结果为成功；

S502：根据所述校验结果，进行炼钢生产调度。通过将调度参数输入炼钢仿真模型进行生产调度仿真与可行性校验，能够进一步提高仿真参数的准确性，进而进行炼钢生产调度，寻优效率较高。

为了进一步提高炼钢生产调度的合理性与精确度，发明人提出，当获取调度参数时，根据预先设置的优先原则，对调度参数进行择优选择，其中，所述优先原则包括：最短剩余加工时间优先；当前设备最长加工时间优先；运输距离最短、最低松弛度优先调度、最早完工时间、最早开始时间优先；当前设备最短加工时间、最大数量后续工作优先；最小准备时间、最短队列、最高优先级、最短等待时间优先。

如图4所示，在一些实施例中，还可以将强化学习模块与工业互联网平台模块连接，利用工业互联网平台模块传输仿真生产状态信息至强化学习模块进行深度学习，强化学习模块输出调度参数至炼钢仿真模型进行生产调度仿真与可行性校验，获取校验结果，并将获取的较优的调度参数输送至调度模块进行生产调度，通用性较强。

如图5所示，本实施例还提供一种炼钢生产调度系统，包括：

仿真模块，用于构建炼钢仿真模型；

采集模块，用于采集实时生产状态信息；

通过构建炼钢仿真模型，控制所述炼钢仿真模型输出仿真生产状态信息，将所述仿真生产状态信息输入神经网络进行训练，获取强化学习模型，并将所述实时生产状态信息输入所述强化学习模型进行强化学习，获取较优的调度参数，进而进行炼钢生产调度，能够对炼钢生产进行自动调度，减少对人工的依赖，自动化、智能化程度较高，调度精确度较高，通用性较强。

为了提高炼钢生产调度的稳定性和准确性，发明人提出，还包括：校验模块，用于根据所述调度参数，进行炼钢生产调度，其中，根据所述调度参数，进行炼钢生产调度的步骤包括：

根据所述校验结果，进行炼钢生产调度。

为了对神经网络进行较好地训练，发明人提出，将所述仿真生产状态信息输入所述神经网络进行训练的步骤包括：调度参数预测和误差反馈；

所述调度参数预测的步骤包括：根据所述仿真生产状态信息和预设的生产调度策略，进行调度参数预测，所述仿真生产状态信息至少包括以下之一：行车位置信息、行车已接收任务的等待时间、行车正在作业的剩余时间、行车任务优先级、工位剩余作业时间、工位位置、工位状态信息、工位加工钢种信息、工位排队等待时间信息。

进一步地，所述误差反馈的步骤包括：将所述调度参数输入所述炼钢仿真模型进行生产调度，获取各工位工作时间和连铸连浇状态；

所述第一奖赏函数的数学表达为：

所述第二奖赏函数的数学表达为：

其中，d(x)₂为第二奖赏函数，β为预设的第二权值，T2为当前连铸机的工作时间。

为了加快神经网络的训练速度，发明人提出，将所述仿真生产状态信息输入所述神经网络进行训练的步骤还包括：

为了便于构建炼钢仿真模型，发明人提出，构建炼钢仿真模型的步骤包括：

根据所述仿真运行参数，构建炼钢仿真模型。在一些实施例中，所述炼钢仿真模型至少包括以下之一：行车子模型、行车调度子模型、转炉工位子模型、钢包精炼炉工位子模型、连铸机工位子模型和RH工位子模型。

本实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现本实施例中的任一项方法。

本实施例还提供一种电子终端，包括：处理器及存储器；

所述存储器用于存储计算机程序，所述处理器用于执行所述存储器存储的计算机程序，以使所述终端执行本实施例中任一项方法。

本实施例中的计算机可读存储介质，本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过计算机程序相关的硬件来完成。前述的计算机程序可以存储于一计算机可读存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

本实施例提供的电子终端，包括处理器、存储器、收发器和通信接口，存储器和通信接口与处理器和收发器连接并完成相互间的通信，存储器用于存储计算机程序，通信接口用于进行通信，处理器和收发器用于运行计算机程序，使电子终端执行如上方法的各个步骤。

在本实施例中，存储器可能包含随机存取存储器(Random Access Memory，简称RAM)，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processing，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field－Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。

Claims

1.一种炼钢生产调度方法，其特征在于，包括：

构建炼钢仿真模型；

采集实时生产状态信息；

将所述实时生产状态信息输入所述强化学习模型进行强化学习，获取调度参数；

根据所述调度参数，进行炼钢生产调度；

所述第一奖赏函数的数学表达为：

2.根据权利要求1所述的炼钢生产调度方法，其特征在于，根据所述调度参数，进行炼钢生产调度的步骤包括：

根据所述校验结果，进行炼钢生产调度。

3.根据权利要求1所述的炼钢生产调度方法，其特征在于，将所述仿真生产状态信息输入所述神经网络进行训练的步骤包括：调度参数预测和误差反馈；

4.根据权利要求1所述的炼钢生产调度方法，其特征在于，当所述连铸连浇状态为连铸中时，则利用所述第二奖赏函数，对所述神经网络进行反馈优化；

所述第二奖赏函数的数学表达为：

5.根据权利要求1所述的炼钢生产调度方法，其特征在于，将所述仿真生产状态信息输入所述神经网络进行训练的步骤还包括：

将调度后的仿真生产状态信息输入所述神经网络进行训练，获取强化学习模型。

6.根据权利要求1所述的炼钢生产调度方法，其特征在于，构建炼钢仿真模型的步骤包括：

根据所述仿真运行参数，构建炼钢仿真模型。

7.一种炼钢生产调度系统，其特征在于，包括：

仿真模块，用于构建炼钢仿真模型；

采集模块，用于采集实时生产状态信息；

处理模块，用于将所述实时生产状态信息输入所述强化学习模型进行强化学习，获取调度参数；

调度模块，用于根据所述调度参数，进行炼钢生产调度；所述仿真模块、训练模块、采集模块、处理模块和调度模块连接；

所述第一奖赏函数的数学表达为：

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于：所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述方法。

9.一种电子终端，其特征在于，包括：处理器及存储器；

所述存储器用于存储计算机程序，所述处理器用于执行所述存储器存储的计算机程序，以使所述终端执行如权利要求1至6中任一项所述方法。