CN113673173B

CN113673173B - 钢铁原料生产流程的选择推荐方法及钢铁原料生产系统

Info

Publication number: CN113673173B
Application number: CN202111043823.9A
Authority: CN
Inventors: 徐林伟; 杨博; 张波; 张新力
Original assignee: CISDI Chongqing Information Technology Co Ltd
Current assignee: CISDI Chongqing Information Technology Co Ltd
Priority date: 2021-09-07
Filing date: 2021-09-07
Publication date: 2024-02-27
Anticipated expiration: 2041-09-07
Also published as: CN113673173A

Abstract

本发明提供一种钢铁原料生产流程的选择推荐方法及钢铁原料生产系统，属于钢铁原料生产领域。选择推荐方法包括以下步骤：获取样本数据，样本数据包括堆槽的原料需求信息及料场的环境状态信息；建立第一模型，并对其训练；建立第二模型，并对其训练；获取堆槽的原料需求信息及料场的环境状态信息作为目标数据，将所述目标数据依次经过训练后的第一模型及训练后的第二模型进行处理，对胶带机流程和堆取料机选择进行推荐。钢铁原料生产系统，包括订单管理中心模块、生产执行系统，所述订单管理中心模块植入如上的第一模型，所述生产执行系统植入如上的第二模型。本发明能够获得最优的钢铁原料生产的流程安排，降低生产成本，增加企业效益。

Description

钢铁原料生产流程的选择推荐方法及钢铁原料生产系统

技术领域

本发明涉及钢铁原料生产智能制造领域，特别是涉及一种钢铁原料生产流程的选择推荐方法及钢铁原料生产系统。

背景技术

钢铁企业原料系统是一个是接受、贮存、加工处理和混匀钢铁冶金原料以及燃料的场地，包括各种堆槽及设置在堆槽之间的胶带机和堆取料机，具有贮存原料、加工原料、配矿和混匀的功能。

虽然各大钢厂基本实现堆取料机无人化操作和胶带机控制流程最短路径选择，但是流程的选择还主要依靠现场人员进行操作，智能化水平还不够，操作人员工作量大。目前也有用仿真或是数学方法进行原料流程排程，但是仿真或是数学方法实效性较差，强化学习能模拟人工决策过程、深度网络可以融合生产复杂的状态信息，两者有效结合应用才能更有效的解决钢铁原料生产流程选择推荐问题。

传统的流程安排由工作人员进行，完全依赖人工经验，存在生产成本提高的可能，给企业带来一定的损失，存在进一步优化的空间。同时，依赖人工经验进行流程安排，也有悖于未来自动化、智能化、无人化的高质量制造业发展要求。

发明内容

鉴于以上所述现有技术的缺点，本发明的目的在于提供一种钢铁原料生产流程推荐方法及钢铁原料生产系统，用于解决现有技术中依赖人工经验进行钢铁原料生产的流程安排，不能有效把控实时性和全局最优的问题。

为实现上述目的及其他相关目的，本发明提供一种钢铁原料生产流程的选择推荐方法，包括以下步骤：获取样本数据，所述样本数据包括堆槽的原料需求信息及料场的环境状态信息；根据所述样本数据和响应订单之间的关系，建立第一模型，并对其训练；根据所述第一模型输出结果中的响应订单，分别与胶带机流程及堆取料机选择的对应关系，建立第二模型，并对其训练；获取堆槽的原料需求信息及料场的环境状态信息作为目标数据，将所述目标数据依次经过训练后的第一模型及训练后的第二模型进行处理，根据训练后的第二模型的输出结果，对胶带机流程和堆取料机选择进行推荐。

可选地，所述堆槽的原料需求信息至少包括需求地、需求量、需求品种、优先级、可剩余使用时间，料场的环境状态信息至少包括堆取料机状态、胶带机状态、料场堆信息、槽的状态信息、槽的维修计划、设备的平均失效前时间及设备的平均恢复前时间参数；

可选地，根据所述第一模型输出结果中的响应订单，分别与胶带机流程及堆取料机选择的对应关系，以及料场的环境状态信息与胶带机流程及堆取料机选择的对应关系，建立第二模型，并对其训练；所述料场的环境状态信息至少包括：堆取料机状态、胶带机状态、堆的状态信息、槽的状态信息、设备的维修计划、设备的平均失效前时间、设备的平均恢复前时间参数、设备的失效经验参数、流程胶带机路线历史使用次数、是否为切换流程设备，输出为响应订单需要使用的胶带机流程和堆取料机。

可选地，还包括：建立虚拟钢铁原料生产系统的仿真模型并输出虚拟的样本数据；将所述虚拟的样本数据依次经过所述第一模型及所述第二模型进行处理，输出虚拟的胶带机流程和堆取料机选择；所述仿真模型执行所述虚拟的胶带机流程和堆取料机选择，并分别反馈奖惩值至所述第一模型及所述第二模型，通过所述奖惩值分别对所述第一模型及所述第二模型进行训练。

可选地，所述第一模型的奖惩值为总订单次数、总空槽次数、槽的平均槽容量、堆的平均库存量分别乘以相应权重后的累加；或者，所述第一模型的奖惩值为f1(x)，f1(x)＝∑θ_i(T1_i-T2_i)；其中，T1_i为各响应订单的执行时间点，T2_i为各响应订单的需求计划时间点，θ为按照响应订单优先级确定的权值；所述第二模型的奖惩值为堆取料机走行距离及胶带机吨公里运行总数分别乘以相应权重后的累加；或者，所述第二模型的奖赏值为f2(x)，f2(x)＝∑T_i；其中，T_i为各响应订单按相应所述虚拟的胶带机流程和堆取料机选择完成时所需的时间。

可选地，所述仿真模型包括：虚拟安全库存管理模块，用于输出虚拟的所述堆槽的原料需求信息；虚拟料场，用于输出虚拟的所述料场的环境状态信息；虚拟订单管理中心模块，用于输出响应订单；虚拟生产执行模块，用于推荐并执行所述虚拟的胶带机流程和堆取料机选择；所述仿真模型按照离散事件驱动运行并统计环境状态信息。

可选地，所述第一模型及所述第二模型均为深度强化学习模型，所述第一模型输出需要响应的订单时，按照订单的优先级排序输出需要响应的订单。

本发明还提供一种钢铁原料生产系统，包括订单管理中心模块、生产执行系统，所述订单管理中心模块植入如上所述训练后的第一模型，所述生产执行系统植入如上所述训练后的第二模型；将目标数据依次经过所述订单管理中心模块、所述生产执行系统进行处理，当胶带机流程和堆取料机选择被执行后，将现场执行的数据反馈给第一模型及第二模型进行闭环训练改进。

可选地，所述钢铁原料生产系统还包括安全库存管理模块，安全库存管理模块输出所述目标数据中堆槽的原料需求信息；堆槽的安全库存管理模型包括堆的安全库存量s₁、堆的最大堆存量S₁、槽的要料槽位s₂及槽的最大料位S₂，堆的安全库存量s₁根据企业的生产水平制定，堆的最大堆存量S₁根据来船或者火车的输入量实际调整；槽的要料槽位s₂根据企业生产水平制定，槽的最大料位S₂可根据槽的容量制定。

可选地，所述第二模型根据所述目标数据，推荐胶带机流程及堆取料机选择后，由控操作人员选择是否执行，操作人员的操作数据反馈至第一模型及第二模型进行闭环训练改进。

如上所述，本发明的钢铁原料生产流程的选择推荐方法及钢铁原料生产系统，具有以下有益效果：通过使用将钢铁原料生产复杂的决策问题转化为通过数据模型建立二级决策问题，把问题抽象成一个更通用的路线，有利于问题的解决，获得最优的钢铁原料生产的流程安排。仿真与深度强化学习的结合，可进行的长周期大规模的训练，减少了收集数据环节，加速了模型的上线速度。深度强化学习模型中的神经网络具有极强的状态抽象能力，使得模型通用性更强，可以适用于不同钢场场景。本发明可通过解耦为二级深度强化学习问题，减少人工经验的依赖，实现原料生产流程的推荐高度自动化和智能化。

附图说明

图1显示为本发明实施例中钢铁原料生产流程的选择推荐方法的实施流程图。

图2显示为本发明实施例中第一模型及第二模型的离线仿真训练示意图。

图3显示为本发明实施例中训练后第一模型及第二模型与生产执行系统集成的示意图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。

需要说明的是，本实施例中所提供的图示仅以示意方式说明本发明的基本构想，遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。本说明书所附图式所绘示的结构、比例、大小等，均仅用以配合说明书所揭示的内容，以供熟悉此技术的人士了解与阅读，并非用以限定本发明可实施的限定条件，故不具技术上的实质意义，任何结构的修饰、比例关系的改变或大小的调整，在不影响本发明所能产生的功效及所能达成的目的下，均应仍落在本发明所揭示的技术内容得能涵盖的范围内。同时，本说明书中所引用的如“上”、“下”、“左”、“右”、“中间”及“一”等的用语，亦仅为便于叙述的明了，而非用以限定本发明可实施的范围，其相对关系的改变或调整，在无实质变更技术内容下，当亦视为本发明可实施的范畴。

在对本发明实施例进行详细叙述之前，先对本发明的应用环境进行描述。本发明的技术主要是应用于制梗丝系统中，特别是应用于梗丝膨化塔系统、梗丝分离系统之间。本发明是解决梗丝膨化塔系统与梗丝分离系统之间出现堵料的技术问题，由于对整个制梗丝系统进行改进会导致更多的成本，故于本发明的梗丝分离机送料堵塞的解决装置中，只对梗丝膨化塔系统、及与梗丝分离系统连接用以传输梗丝的传输装置进行改进或更换。

为实现上述目的及其他相关目的，本实施例提供一种钢铁原料生产流程的选择推荐方法，包括以下步骤：

1、获取样本数据，所述样本数据包括堆槽的原料需求信息及料场的环境状态信息。

2、根据所述样本数据和响应订单之间的关系，建立第一模型，并对其训练。

3、根据所述第一模型输出结果中的响应订单，分别与胶带机流程及堆取料机选择的对应关系，建立第二模型，并对其训练。

4、获取堆槽的原料需求信息及料场的环境状态信息作为目标数据，将所述目标数据依次经过训练后的第一模型及训练后的第二模型进行处理，根据训练后的第二模型的输出结果，对胶带机流程和堆取料机选择进行推荐。

本实施例中，当堆低于安全库存时，发出堆的原料需求信息，需要进行输入，输入方式主要包括为卸船、卸车、卸火车等方式。主要槽料位低于低料位时，发出槽的原料需求信息。所述堆槽的原料需求信息至少包括需求地、需求量、需求品种、优先级及可剩余使用时间。料场的环境状态信息至少包括堆取料机状态、胶带机状态、料场堆信息、槽的状态信息、设备的维修计划、设备的平均失效前时间及设备的平均恢复前时间参数。所述第一模型及所述第二模型均为深度强化学习模型，所述第一模型输出需要响应的订单时，按照订单的优先级排序输出需要响应的订单。其中优先级可根据料场管理策略进行调整，如高库存战略储备策略，低库存低成本策略等，

具体的，步骤3中，根据所述第一模型输出结果中的响应订单，分别与胶带机流程及堆取料机选择的对应关系，以及料场的环境状态信息与胶带机流程及堆取料机选择的对应关系，建立第二模型，并对其训练。同时，步骤3中所述料场的环境状态信息至少包括堆取料机状态、胶带机状态、堆的状态信息、槽的状态信息、设备的维修计划、设备的平均失效前时间、设备的平均恢复前时间参数、设备的失效经验参数、流程胶带机路线历史使用次数、是否为切换流程设备。输出为响应订单需要使用的胶带机流程和堆取料机。

本实施例中钢铁原料生产流程的选择推荐方法，还包括步骤：

5、建立虚拟钢铁原料生产系统的仿真模型并输出虚拟的样本数据。将所述虚拟的样本数据依次经过所述第一模型及所述第二模型进行处理，输出虚拟的胶带机流程和堆取料机选择。所述仿真模型执行所述虚拟的胶带机流程和堆取料机选择，并分别反馈奖惩值至所述第一模型及所述第二模型，通过所述奖惩值分别对所述第一模型及所述第二模型进行训练。

一些实施例中，所述第一模型的奖惩值为总订单次数、总空槽次数、槽的平均槽容量、堆的平均库存量分别乘以相应权重后的累加。第一模型的奖惩值也可以为f1(x)，f1(x)＝∑θ_i(T1_i-T2_i)。其中，T1_i为各响应订单的执行时间点，T2_i为各响应订单的需求计划时间点，θ为按照响应订单优先级确定的权值。

一些实施例中，所述第二模型的奖惩值为堆取料机走行距离及胶带机吨公里运行总数分别乘以相应权重后的累加。所述第二模型的奖赏值也可以为f2(x)，f2(x)＝∑T_i。其中，T_i为各响应订单按相应所述虚拟的胶带机流程和堆取料机选择完成时所需的时间。

本实施例中，所述仿真模型包括：虚拟安全库存管理模块，用于输出虚拟的所述堆槽的原料需求信息。虚拟料场，用于输出虚拟的所述料场的环境状态信息。虚拟订单管理中心模块，用于输出响应订单。虚拟生产执行模块，用于推荐并执行所述虚拟的胶带机流程和堆取料机选择。所述仿真模型按照离散事件驱动运行并统计环境状态信息。

本实施例还提供一种钢铁原料生产系统，包括订单管理中心模块、生产执行系统，所述订单管理中心模块植入如上所述训练后的第一模型，所述生产执行系统植入如上所述训练后的第二模型。将目标数据依次经过所述订单管理中心模块、所述生产执行系统进行处理，当胶带机流程和堆取料机选择被执行后，将现场执行的数据反馈给第一模型及第二模型进行闭环训练改进。

所述钢铁原料生产系统还包括安全库存管理模块，安全库存管理模块输出所述目标数据中堆槽的原料需求信息。堆槽的安全库存管理模型包括堆的安全库存量s₁、堆的最大堆存量S₁、槽的要料槽位s₂及槽的最大料位S₂，堆的安全库存量s₁根据企业的生产水平制定，堆的最大堆存量S₁根据来船或者火车的输入量实际调整。槽的要料槽位s₂根据企业生产水平制定，槽的最大料位S₂可根据槽的容量制定。

具体的，请参阅图1，本实施例提供的钢铁原料生产流程的选择推荐方法具体实施时，包括以下步骤：

S1、根据实际钢厂的原料场工艺和生产情况，建立各个槽和堆的安全库存管理模型，根据堆的安全库存量s₁、槽的要料槽位s₂、堆的最大堆存量S₁、槽的最大料位S₂输出订单。

其中，堆包括料场上的各种矿石堆和煤堆，槽包括高炉槽、混匀槽、焦化槽、烧结槽等。堆的安全库存量s₁可根据企业的生产水平制定，堆的最大堆存量S₁可根据来船或者火车的输入量实际调整。槽的要料槽位s₂可根据企业生产水平制定，槽的最大料位S₂可根据槽的容量制定。

S2、建立对各个槽堆需求的订单进行管理的订单管理中心模块，并开发相应的通信接口，实时汇总相应时刻内，安全库存管理模型所有的订单数据。

S3、建立用于输出响应订单的第一模型，第一模型为第一级深度强化学习模型。第一模型通过订单管理中心模块的通信接口接收订单管理中心模块收集汇总的第一模型，并输出当前需要响应的订单。

同时，第一级深度强化学习模型还要接收当前的环境状态信息。第一级深度强化学习模型接收的环境状态信息包括：堆取料机状态、胶带机状态、料场中各个堆的状态信息、各个槽的状态信息、维修计划、设备的MTTF参数及设备的MTTR参数，输出为此时刻需要响应的订单，并按照优先级排序输出。其中，MTTF为平均失效前时间，MTTR为平均恢复前时间。

具体的，第一级深度强化学习模型的深度神经网络模型可从ANN、CNN、RNN、LSTM等网络模型或者其组合、改进中进行选择，第一级深度强化学习模型的深度神经网络模型可以根据订单数据信息数据特点来进行选择。

S4、建立第二模型，第二模型为第二级深度强化学习模型。第二模型的输入为第一模型输出的当前时刻需要响应的订单及料场的环境状态信息，第二模型的输出为用于响应第一模型输出响应订单所需要使用的在生产执行系统中的胶带机流程和堆取料机。

其中，输入第二模型的环境状态信息包括堆取料机状态、胶带机状态、料场上各个堆的状态信息、各个槽的状态信息、维修计划、设备的MTTF及MTTR参数、流程胶带机路线历史使用次数及是否为切换流程设备。其中，MTTF为平均失效前时间，MTTR为平均恢复前时间。这些数据通过数组矩的方式输入给第二级深度强化学习模型，有利于减少解空间。

第二级深度强化学习模型的深度神经网络模型可以根据订单数据信息数据特点来选择，可选择的深度神经网络模型为ANN、CNN、RNN、LSTM等网络模型或者其组合、改进。

S5、根据第一模型输出的当前时刻需要响应的订单及料场的环境状态信息，第二模型推荐并选择用于响应订单的胶带机流程及堆取料机选择。

S6、根据实际料场工艺布局、工艺要求、输入信息建立钢铁原料生产系统的仿真模型，仿真模型按照离散事件统计环境状态信息并驱动运行。

仿真模型中包括堆槽的虚拟安全库存管理、虚拟订单管理中心模块、虚拟生产执行模块及虚拟料场。同时开发相应通信接口，用于仿真模型和第一级深度强化学习模型及第二级深度强化学习模型进行通信。虚拟生产执行模块及虚拟料场之间的直接拓扑关系按照实际料场进行建立。

虚拟安全库存管理模块用于输出虚拟的所述堆槽的原料需求信息。虚拟料场用于输出虚拟的所述料场的环境状态信息。虚拟订单管理中心模块用于输出响应订单。虚拟生产执行模块用于推荐并执行所述虚拟的胶带机流程和堆取料机选择。

S7、如图2进行程序搭建，仿真模型可通过模型全局表输入相应状态环境状态信息给第一级深度强化学习模型和第二级深度强化学习模型，第一级深度强化学习模型和第二级深度强化学习模型可输出响应订单的决策动作和胶带机流程和堆取料机选择动作给仿真模型。

仿真模型获得胶带机流程和堆取料机选择动作后相应执行，并分别反馈奖惩值给第一级深度强化学习模型和第二级深度强化学习模型，以此进行第一级深度强化学习模型和第二级深度强化学习模型的闭环离线学习。

一些实施例中，第一模型的奖惩值为f1(x)，f1(x)＝∑θ_i(T1_i-T2_i)。其中，T1_i为各响应订单的执行时间点，T2_i为各响应订单的需求计划时间点，θ为按照响应订单优先级确定的权值；第二模型的奖赏值为f2(x)，f2(x)＝∑T_i。其中，T_i为各响应订单按相应所述虚拟的胶带机流程和堆取料机选择完成时所需的时间。以此对第一模型及第二模型进行训练后，订单响应速度快，有效及时地完成对订单的响应。

本实施例中，在运行周期内，订单响应次数、空槽次数、各个槽的平均槽容量、各个堆的平均库存量分别乘以相应的权重后累加，得到第一级深度强化学习模型的奖惩值。堆取料机走行距离、胶带机吨公里运行总数乘以相应的权重累加得到仿真模型反馈给第二级深度强化学习模型的奖惩值。总的订单响应次数越少，则表明第一模型及第二模型的优化结构越好。奖惩值通过仿真模型反馈给第一模型及第二模型，进行反向误差的迭代优化，如此不断迭代进行训练和学习，最终使第一级深度强化学习模型和第二级深度强化学习模型得以收敛，完成对其的训练。训练后的第一模型及第二模型，能够提高物料配送的效率，减少订单响应次数，减少胶带机及堆取料机的使用及磨损，综合效益高。

步骤S8

如图3进行程序搭建，将训练好的第一级深度强化学习模型及第二级深度强化学习模型整体封装集成为一种服务到钢铁原料的生产执行系统中，二级执行系统可以开发相应的界面，二级系统执行完相应流程以后，在推荐界面就可以把第二级深度强化学习模型推荐的结果显示出来，由中控操作人员选择是否执行推荐的胶带机流程及堆取料机选择。

同时，操作人员的操作数据还可以传递至第一级深度强化学习模型及第二级深度强化学习模型进行训练，实现闭环改进。当推荐的胶带机流程及堆取料机选择被执行后，生产执行系统将现场操作的数据反馈给第一级深度强化学习模型及第二级深度强化学习模型进行训练，实现闭环改进。

综上所述，本实施例通过使用将钢铁原料生产复杂的决策问题转化为通过数据模型建立二级决策问题，把问题抽象成一个更通用的路线，有利于问题的解决，获得最优的钢铁原料生产的流程安排。仿真与深度强化学习的结合，可进行的长周期大规模的训练，减少了收集数据环节，加速了模型的上线速度。深度强化学习模型中的神经网络具有极强的状态抽象能力，使得模型通用性更强，可以适用于不同钢场场景。本发明可通过解耦为二级深度强化学习问题，减少人工经验的依赖，实现原料生产流程的推荐高度自动化和智能化。提高了原料场生产的智能化、信息化管理水平；具备一定通用性和普适性；提高了生产效率和运营管理水平。所以，本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。

Claims

1.一种钢铁原料生产流程的选择推荐方法，其特征在于，包括以下步骤：

获取样本数据，所述样本数据包括堆槽的原料需求信息及料场的环境状态信息，其中，所述堆槽的原料需求信息至少包括需求地、需求量、需求品种、优先级、可剩余使用时间，所述料场的环境状态信息至少包括堆取料机状态、胶带机状态、料场堆信息、槽的状态信息、设备的维修计划、设备的平均失效前时间及设备的平均恢复前时间参数；

根据所述样本数据和响应订单之间的关系，建立第一模型，并对其训练；

根据所述第一模型输出结果中的响应订单，分别与胶带机流程及堆取料机选择的对应关系，建立第二模型，并对其训练；

获取堆槽的原料需求信息及料场的环境状态信息作为目标数据，将所述目标数据依次经过训练后的第一模型及训练后的第二模型进行处理，根据训练后的第二模型的输出结果，对胶带机流程和堆取料机选择进行推荐。

2.根据权利要求1所述的钢铁原料生产流程的选择推荐方法，其特征在于：根据所述第一模型输出结果中的响应订单，分别与胶带机流程及堆取料机选择的对应关系，以及料场的环境状态信息与胶带机流程及堆取料机选择的对应关系，建立第二模型，并对其训练；

所述料场的环境状态信息还包括：堆的状态信息、设备的失效经验参数、流程胶带机路线历史使用次数、是否为切换流程设备，输出为响应订单需要使用的胶带机流程和堆取料机。

3.根据权利要求1所述的钢铁原料生产流程的选择推荐方法，其特征在于，还包括：

建立虚拟钢铁原料生产系统的仿真模型并输出虚拟的样本数据；

将所述虚拟的样本数据依次经过所述第一模型及所述第二模型进行处理，输出虚拟的胶带机流程和堆取料机选择；所述仿真模型执行所述虚拟的胶带机流程和堆取料机选择，并分别反馈奖惩值至所述第一模型及所述第二模型，通过所述奖惩值分别对所述第一模型及所述第二模型进行训练。

4.根据权利要求3所述的钢铁原料生产流程的选择推荐方法，其特征在于：

所述第一模型的奖惩值为总订单次数、总空槽次数、槽的平均槽容量、堆的平均库存量分别乘以相应权重后的累加；或者，

所述第一模型的奖惩值为f1(x)，f1(x)＝∑θ_t(T1_i-T2_i)；

其中，T1_i为各响应订单的执行时间点，T2_i为各响应订单的需求计划时间点，θ_i为按照响应订单优先级确定的权值；

所述第二模型的奖惩值为堆取料机走行距离及胶带机吨公里运行总数分别乘以相应权重后的累加；

或者，所述第二模型的奖赏值为f2(x)，f2(x)＝∑T_i；

其中，T_i为各响应订单按相应所述虚拟的胶带机流程和堆取料机选择完成时所需的时间。

5.根据权利要求3所述的钢铁原料生产流程的选择推荐方法，其特征在于：所述仿真模型按照离散事件驱动运行并统计环境状态信息；

仿真模型包括：

虚拟安全库存管理模块，用于输出虚拟的所述堆槽的原料需求信息；

虚拟料场，用于输出虚拟的所述料场的环境状态信息；

虚拟订单管理中心模块，用于输出响应订单；

虚拟生产执行模块，用于推荐并执行所述虚拟的胶带机流程和堆取料机选择。

6.根据权利要求1所述的钢铁原料生产流程的选择推荐方法，其特征在于：所述第一模型及所述第二模型均为深度强化学习模型，所述第一模型输出需要响应的订单时，按照订单的优先级排序输出需要响应的订单。

7.一种钢铁原料生产系统，其特征在于：包括订单管理中心模块、生产执行系统，所述订单管理中心模块植入如权利要求1～6任一项所述训练后的第一模型，所述生产执行系统植入如权利要求1～6任一项所述训练后的第二模型；

将目标数据依次经过所述订单管理中心模块、所述生产执行系统进行处理，当胶带机流程和堆取料机选择被执行后，将现场执行的数据反馈给第一模型及第二模型进行闭环训练改进。

8.根据权利要求7所述的钢铁原料生产系统，其特征在于：所述钢铁原料生产系统还包括安全库存管理模块，安全库存管理模块输出所述目标数据中堆槽的原料需求信息；

堆槽的安全库存管理模型包括堆的安全库存量s₁、堆的最大堆存量S₁、槽的要料槽位s₂及槽的最大料位S₂，堆的安全库存量s₁根据企业的生产水平制定，堆的最大堆存量S₁根据来船或者火车的输入量实际调整；槽的要料槽位s₂根据企业生产水平制定，槽的最大料位S₂可根据槽的容量制定。

9.根据权利要求7所述的钢铁原料生产系统，其特征在于：所述第二模型根据所述目标数据，推荐胶带机流程及堆取料机选择后，由控操作人员选择是否执行，操作人员的操作数据反馈至第一模型及第二模型进行闭环训练改进。