CN115471124A

CN115471124A - 一种基于深度强化学习的行车调度方法、系统、设备及介质

Info

Publication number: CN115471124A
Application number: CN202211261374.XA
Authority: CN
Inventors: 徐林伟; 陈正国; 卢义; 张飞; 徐超琼; 丁昭祥; 何洪
Original assignee: CISDI Chongqing Information Technology Co Ltd
Current assignee: CISDI Chongqing Information Technology Co Ltd
Priority date: 2022-10-14
Filing date: 2022-10-14
Publication date: 2022-12-13

Abstract

本申请提供一种基于深度强化学习的行车调度方法、系统、设备及介质，包括：基于历史状态信息建立第一行车调度深度强化学习模型，并利用第一行车调度深度强化学习模型提供动作决策；建立行车调度仿真模型，并将历史状态信息和动作决策作为行车调度仿真模型的驱动策略，以使行车调度仿真模型根据驱动策略输出用于优化第一行车调度深度强化学习模型的参数值；对第一行车调度深度强化学习模型和行车调度仿真模型进行交互离线训练，得到第二行车调度深度强化学习模型，并部署至钢铁实际生产系统中，进行实时行车调度。本申请通过使用仿真模拟实际生产周期，实现了对长时间周期环境的快速训练，减少了模型开发周期，加快了模型上线速度。

Description

一种基于深度强化学习的行车调度方法、系统、设备及介质

技术领域

本申请涉及人工智能及智能制造技术领域，特别是涉及一种基于深度强化学习的行车调度方法、系统、设备及介质。

背景技术

伴随着人工智能、大数据技术、物联网和云计算等技术的发展，部分钢铁企业开始探索无人化、智能化和数字化的转型。在炼钢生产中，行车因其起重量大，不占地面面积而成为炼钢物流系统的重要工具，因此，行车调度在生产工序间的物流衔接、生产作业计划的实施以及生产过程的安全稳定运行中扮演了重要的作用。所以，制定科学高效的行车调度计划对于整个炼钢生产的效率至关重要。

目前，传统的行车调度方式仍是人工经验判断和调度，在面对复杂的生产情况时，人工经验排出的方案可能存在成本较高、资源使用效率低等问题，对企业造成不必要的经济损失，有悖于钢厂智能化、无人化转型的需求。

发明内容

鉴于以上所述现有技术的缺点，本申请的目的在于提供一种基于深度强化学习的行车调度方法、系统、设备及介质，用于解决目前在进行行车调度时，现有方式以人工经验判断为主的技术对于炼钢厂行车调度主观因素大、考虑不全面、决策不科学的问题。

为实现上述目的及其他相关目的，本申请提供一种基于深度强化学习的行车调度方法，包括以下步骤：

获取钢铁实际生产系统的历史状态信息；

基于所述历史状态信息建立第一行车调度深度强化学习模型，并利用所述第一行车调度深度强化学习模型提供动作决策；

基于钢铁生产现场的数据信息建立行车调度仿真模型，并将所述历史状态信息和所述动作决策作为所述行车调度仿真模型的驱动策略，以使所述行车调度仿真模型根据所述驱动策略输出用于优化所述第一行车调度深度强化学习模型的参数值；

对所述第一行车调度深度强化学习模型和所述行车调度仿真模型进行交互离线训练，得到第二行车调度深度强化学习模型；

将所述第二行车调度深度强化学习模型部署至所述钢铁实际生产系统中，进行实时行车调度。

于本申请的一实施例中，对所述第一行车调度深度强化学习模型和所述行车调度仿真模型进行交互离线训练，得到第二行车调度深度强化学习模型的过程包括：

利用预先设置的数据接口传输所述第一行车调度深度强化学习模型和所述行车调度仿真模型之间的数据；

所述行车调度仿真模型根据接收的钢铁实际生产系统的状态信息、实时或预先输入的动作决策信息进行运行，并返回奖惩值给所述第一行车调度深度强化学习模型进行迭代学习和训练，得到第二行车调度深度强化学习模型。

于本申请的一实施例中，将所述第二行车调度深度强化学习模型部署至所述钢铁实际生产系统前，所述方法还包括：

对所述第二行车调度深度强化学习模型给与调度动作策略，并在所述行车调度仿真模型上对所述第二行车调度深度强化学习模型进行前馈验证，确定所述第二行车调度深度强化学习模型的可行性。

于本申请的一实施例中，在返回奖惩值给所述第一行车调度深度强化学习模型进行迭代学习和训练时，所述第一行车调度深度强化学习模型的奖励函数计算公式如下：

其中，r表示奖励函数返回值；

r_i表示每个天车的奖励函数返回值；

n表示当前跨中天车数量。

于本申请的一实施例中，每个天车的奖励函数返回值的计算公式如下：

其中，情况(1)表示当前时刻第一行车调度深度强化学习模型在执行期间对应行车没有任务，此时返回的奖惩值为0；

情况(2)表示当前时刻第一行车调度深度强化学习模型在执行期间对应行车正在执行任务，此时返回的奖惩值为

式中，T_i是当前行车任务结束的时刻，T_{min_i}是当前行车正在进行任务的推荐时间段的最早时间，γ₀是第一权重值；

情况(3)表示当前时刻第一行车调度深度强化学习模型在执行期间对应行车已执行完任务，此时返回的奖惩值为r_finish_i。

于本申请的一实施例中，当返回的奖惩值为r_finish_i时，r_finish_i的计算公式如下：

其中，T_{max_i}表示当前行车正在进行的任务的推荐时间段的最晚时间；

β_i表示第二权重值；

a_i表示超出推荐时间段完成任务的惩罚常数值；

b_i表示奖励常数值。

本申请还提供一种基于深度强化学习的行车调度系统，所述系统包括有：

信息采集模块，用于获取钢铁实际生产系统的历史状态信息；

动作决策模块，用于根据所述历史状态信息建立第一行车调度深度强化学习模型，并利用所述第一行车调度深度强化学习模型提供动作决策；

优化模块，用于基于钢铁生产现场的数据信息建立行车调度仿真模型，并将所述历史状态信息和所述动作决策作为所述行车调度仿真模型的驱动策略，以使所述行车调度仿真模型根据所述驱动策略输出用于优化所述第一行车调度深度强化学习模型的参数值；

训练模块，用于对所述第一行车调度深度强化学习模型和所述行车调度仿真模型进行交互离线训练，得到第二行车调度深度强化学习模型；

行车调度模块，用于将所述第二行车调度深度强化学习模型部署至所述钢铁实际生产系统中，进行实时行车调度。

于本申请的一实施例中，所述训练模块对所述第一行车调度深度强化学习模型和所述行车调度仿真模型进行交互离线训练，得到第二行车调度深度强化学习模型的过程包括：

本申请还提供一种基于深度强化学习的行车调度设备，包括：

处理器；和，

存储有指令的计算机可读介质，当所述处理器执行所述指令时，使得所述设备执行如上述中任一所述的基于深度强化学习的行车调度方法。

本申请还提供一种计算机可读介质，其上存储有指令，所述指令由处理器加载并执行如上述中任一所述的基于深度强化学习的行车调度方法。

如上所述，本申请提供一种基于深度强化学习的行车调度方法、系统、设备及介质，具有以下有益效果：

首先获取钢铁实际生产系统的历史状态信息，然后基于历史状态信息建立第一行车调度深度强化学习模型，并利用第一行车调度深度强化学习模型提供动作决策；再基于钢铁生产现场的数据信息建立行车调度仿真模型，并将历史状态信息和动作决策作为行车调度仿真模型的驱动策略，以使行车调度仿真模型根据驱动策略输出用于优化第一行车调度深度强化学习模型的参数值；再然后对第一行车调度深度强化学习模型和行车调度仿真模型进行交互离线训练，得到第二行车调度深度强化学习模型；最后将第二行车调度深度强化学习模型部署至钢铁实际生产系统中，进行实时行车调度。由此可知，本申请通过使用仿真方法作为深度强化学习模型的智能体的环境搭建方式，用仿真模拟实际生产周期，实现了对长时间周期环境的快速训练，减少了模型开发周期，加快了模型上线速度。在训练过程中用仿真模型替换实际生产现场作为深度强化学习模型的智能体的环境搭建方式，大大降低了深度强化学习模型在训练过程中试错造成的损失，增加了方法落地的可行性。本申请同时具备深度强化学习和仿真模型的优势，对于复杂系统的考虑因素更多，决策结果与实际更加相符。此外，深度强化学习模型中的神经网络对于数据的抽象能力更强，对于不同场景下的不同输入都可以进行特征提取和分析，方法的普适性更强，对于不同的钢厂环境都适用。此外，本申请可以通过基于深度强化学习和方针的炼钢厂行车调度方法，降低人工经验判断的错误率，实现炼钢厂行车调度的智能决策；即本申请可以降低人工经验判断的错误率，实现炼钢厂行车调度的智能决策。并且，本申请可以减少模型开发周期，加快模型上线速度；大大降低了深度强化学习模型在训练过程中试错造成的损失，增加了方案落地的可行性；并且对于复杂系统的考虑因素更多，决策结果与实际更加相符。所以，本申请的普适性更强，对于不同的钢厂环境都适用。

附图说明

图1为应用本申请中一个或多个实施例中技术方案的示例性系统架构的示意图；

图2为本申请中一实施例提供的基于深度强化学习的行车调度方法的流程示意图；

图3为本申请中另一实施例提供的基于深度强化学习的行车调度方法的流程示意图；

图4为本申请中一实施例提供的行车调度深度强化学习模型和行车调度仿真模型的训练过程示意图；

图5为本申请中一实施例提供的部署第二行车调度深度强化学习模型的结构示意图；

图6为本申请中一实施例提供的基于深度强化学习的行车调度系统的硬件结构示意图；

图7为适用于实现本申请中一个或多个实施例的基于深度强化学习的行车调度设备的硬件结构示意图。

具体实施方式

以下通过特定的具体实例说明本申请的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本申请的其他优点与功效。本申请还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本申请的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

需要说明的是，以下实施例中所提供的图示仅以示意方式说明本申请的基本构想，遂图式中仅显示与本申请中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

行车，是人们对吊车、航车、天车等起重机的俗称。

图1示出了一种可以应用本申请中一个或多个实施例中技术方案的示例性系统架构的示意图。如图1所示，系统架构100可以包括终端设备110、网络120和服务器130。终端设备110可以包括智能手机、平板电脑、笔记本电脑、台式电脑等各种电子设备。服务器130可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云计算服务的云服务器。网络120可以是能够在终端设备110和服务器130之间提供通信链路的各种连接类型的通信介质，例如可以是有线通信链路或者无线通信链路。

根据实现需要，本申请实施例中的系统架构可以具有任意数目的终端设备、网络和服务器。例如，服务器130可以是由多个服务器设备组成的服务器群组。另外，本申请实施例提供的技术方案可以应用于终端设备110，也可以应用于服务器130，或者可以由终端设备110和服务器130共同实施，本申请对此不做特殊限定。

在本申请的一个实施例中，本申请的终端设备110或服务器130可以先获取钢铁实际生产系统的历史状态信息，然后基于历史状态信息建立第一行车调度深度强化学习模型，并利用第一行车调度深度强化学习模型提供动作决策；再基于钢铁生产现场的数据信息建立行车调度仿真模型，并将历史状态信息和动作决策作为行车调度仿真模型的驱动策略，以使行车调度仿真模型根据驱动策略输出用于优化第一行车调度深度强化学习模型的参数值；再然后对第一行车调度深度强化学习模型和行车调度仿真模型进行交互离线训练，得到第二行车调度深度强化学习模型；最后将第二行车调度深度强化学习模型部署至钢铁实际生产系统中，进行实时行车调度。利用终端设备110或服务器130执行基于深度强化学习的行车调度方法，可以通过使用仿真方法作为深度强化学习模型的智能体的环境搭建方式，用仿真模拟实际生产周期，实现了对长时间周期环境的快速训练，减少了模型开发周期，加快了模型上线速度。在训练过程中用仿真模型替换实际生产现场作为深度强化学习模型的智能体的环境搭建方式，大大降低了深度强化学习模型在训练过程中试错造成的损失，增加了方法落地的可行性。同时具备深度强化学习和仿真模型的优势，对于复杂系统的考虑因素更多，决策结果与实际更加相符。此外，深度强化学习模型中的神经网络对于数据的抽象能力更强，对于不同场景下的不同输入都可以进行特征提取和分析，方法的普适性更强，对于不同的钢厂环境都适用。此外，通过基于深度强化学习和方针的炼钢厂行车调度方法，可以降低人工经验判断的错误率，实现炼钢厂行车调度的智能决策；即可以降低人工经验判断的错误率，实现炼钢厂行车调度的智能决策。并且可以减少模型开发周期，加快模型上线速度；大大降低了深度强化学习模型在训练过程中试错造成的损失，增加了方案落地的可行性；并且对于复杂系统的考虑因素更多，决策结果与实际更加相符，所以普适性更强，对于不同的钢厂环境都适用。

以上部分介绍了应用本申请技术方案的示例性系统架构的内容，接下来继续介绍本申请的基于深度强化学习的行车调度方法。

图2示出了本申请一实施例提供的基于深度强化学习的行车调度方法流程示意图。具体地，在一示例性实施例中，如图2所示，本实施例提供一种基于深度强化学习的行车调度方法，该方法包括以下步骤：

S210，获取钢铁实际生产系统的历史状态信息；

S220，基于所述历史状态信息建立第一行车调度深度强化学习模型，并利用所述第一行车调度深度强化学习模型提供动作决策；

S230，基于钢铁生产现场的数据信息建立行车调度仿真模型，并将所述历史状态信息和所述动作决策作为所述行车调度仿真模型的驱动策略，以使所述行车调度仿真模型根据所述驱动策略输出用于优化所述第一行车调度深度强化学习模型的参数值；

S240，对所述第一行车调度深度强化学习模型和所述行车调度仿真模型进行交互离线训练，得到第二行车调度深度强化学习模型；

S250，将所述第二行车调度深度强化学习模型部署至所述钢铁实际生产系统中，进行实时行车调度。

由此可知，本实施例通过使用仿真方法作为深度强化学习模型的智能体的环境搭建方式，用仿真模拟实际生产周期，实现了对长时间周期环境的快速训练，减少了模型开发周期，加快了模型上线速度。在训练过程中用仿真模型替换实际生产现场作为深度强化学习模型的智能体的环境搭建方式，大大降低了深度强化学习模型在训练过程中试错造成的损失，增加了方法落地的可行性。本实施例同时具备深度强化学习和仿真模型的优势，对于复杂系统的考虑因素更多，决策结果与实际更加相符。此外，深度强化学习模型中的神经网络对于数据的抽象能力更强，对于不同场景下的不同输入都可以进行特征提取和分析，方法的普适性更强，对于不同的钢厂环境都适用。此外，本实施例可以通过基于深度强化学习和方针的炼钢厂行车调度方法，降低人工经验判断的错误率，实现炼钢厂行车调度的智能决策；即本实施例可以降低人工经验判断的错误率，实现炼钢厂行车调度的智能决策。并且，本实施例可以减少模型开发周期，加快模型上线速度；大大降低了深度强化学习模型在训练过程中试错造成的损失，增加了方案落地的可行性；并且对于复杂系统的考虑因素更多，决策结果与实际更加相符。所以，本实施例的普适性更强，对于不同的钢厂环境都适用。

在一示例性实施例中，对所述第一行车调度深度强化学习模型和所述行车调度仿真模型进行交互离线训练，得到第二行车调度深度强化学习模型的过程包括：利用预先设置的数据接口传输所述第一行车调度深度强化学习模型和所述行车调度仿真模型之间的数据；所述行车调度仿真模型根据接收的钢铁实际生产系统的状态信息、实时或预先输入的动作决策信息进行运行，并返回奖惩值给所述第一行车调度深度强化学习模型进行迭代学习和训练，得到第二行车调度深度强化学习模型。具体地，本实施例在训练开始时，深度强化学习模型和行车调度仿真模型接收状态空间参数，计算得到动作策略来驱动仿真模型运行；行车调度仿真模型此次运行结束后计算并返回奖惩值给深度强化学习模型，来反馈调节深度学习神经网络的参数；上述过程不断迭代，直到深度强化学习模型学习到获得最大奖励值的策略。

在一示例性实施例中，将所述第二行车调度深度强化学习模型部署至所述钢铁实际生产系统前，所述方法还包括：对所述第二行车调度深度强化学习模型给与调度动作策略，并在所述行车调度仿真模型上对所述第二行车调度深度强化学习模型进行前馈验证，确定所述第二行车调度深度强化学习模型的可行性。具体地，本实施例为了确定第二行车调度深度强化学习模型的可行性，可以将训练好的深度强化学习模型和仿真模型可以部署到工业互联网的云平台，工业互联网平台提供给强化学习模型和仿真模型训练时同样的输入，强化学习模型给予调度动作策略，并在仿真模型上前馈验证可行性，再发给现实制造执行系统执行策略动作。

根据上述记载，在一示例性实施例中，在返回奖惩值给所述第一行车调度深度强化学习模型进行迭代学习和训练时，所述第一行车调度深度强化学习模型的奖励函数计算公式如下：

其中，r表示奖励函数返回值；

r_i表示每个天车的奖励函数返回值；

n表示当前跨中天车数量。

每个天车的奖励函数返回值r_i的计算公式如下：

情况(3)表示当前时刻第一行车调度深度强化学习模型在执行期间对应行车已执行完任务，此时返回的奖惩值为r_finish_i。具体地，r_finish_i的计算公式如下：

β_i表示第二权重值；

a_i表示超出推荐时间段完成任务的惩罚常数值；

b_i表示奖励常数值。

在本申请另一示例性实施例中，本申请还提供一种基于深度强化学习的行车调度方法，包括以下步骤：

通过现实生产系统获取历史的时刻状态信息，对于每次训练所用的时刻信息包括：各个钢包的作业任务信息、钢包的作业任务完成状态信息、钢包的钢包信息、各个工位的状态信息、各个工位的状态信息、行车已接受的任务信息、行车正在作业的任务信息、行车当前位置、任务优先级、维修计划等当前时刻状态信息；

利用获取的环境状态信息建立行车调度深度强化学习模型：所述行车调度深度强化学习模型接收环境状态信息作为环境观测输入信息，提供动作决策输出给仿真模型，并根据仿真模型反馈的奖惩值优化深度强化学习神经网络的参数值；

利用生产现场的数据信息建立行车调度仿真模型：所述行车调度仿真模型包括：转炉工位模块、LF炉工位模块、连铸工位模块、行车模块、行车调度模块、钢包模块等，可以通过上述模块建立相应的行车调度仿真模型，同时通过现实生产系统获取的历史时刻状态信息和深度强化学习模型的动作决策作为每次仿真的驱动策略；

利用强化学习模型和仿真模型的通信接口交互，行车调度深度强化学习模型训练过程中控制仿真模型运行，并进行迭代和学习，得到训练好的行车调度深度强化学习模型；

利用训练好的行车调度深度强化学习模型在现实生产系统上获取数据并根据生产实际和仿真模型验证可行性以后，再部署到现实生产系统中用于实时的行车调度中。

根据上述记载，本实施例在创建仿真模型时，需要根据仿真模块，并根据现场基本信息创建模型。其中，现场基本信息包括：转炉工位、LF工位、连铸工位、热修工位等工位位置信息；行车高度、长度、执行各种任务时运行速度、起吊下吊速度等行车参数信息。

仿真模型运行、深度强化学习模型训练和应用时的状态空间参数应一致，在生产现场系统的时刻状态基础上获取和处理，包括：当前跨的钢包数量、位置、任务、动作状态、下一次调度任务的位置、终点、最晚时刻、当前LF炉工位、连铸工位、转炉工位、热修工位、翻包工位的加工和加工任务信息。

此外，本实施例还可以根据状态空间的信息，行车调度深度强化学习模型做出行车调度选择，动作空间参数为下一任务的行车选择和行车调取时间。

仿真模型一次运行结束后，返回奖惩值给深度强化学习模型，深度强化学习模型的奖励函数计算公式如下：

其中，r是奖励函数返回值，r_i是每个天车的奖励函数返回值，n是当前跨中天车数量。

其中，情况1表示此次模型执行期间该行车没有任务，此情况下当前行车的奖惩值为0，情况2表示此次模型执行期间该行车执行任务且任务在模型运行结束时仍在执行中，T_i是当前行车任务结束的时刻，T_{min_i}是当前行车正在进行的任务的推荐时间段的最早时间，γ₀是权重值。情况3表示此次模型执行期间该行车执行任务且任务已完成，r_finish_i是奖惩函数的返回值，其计算公式如下：

其中，T_{max_i}是当前行车正在进行的任务的推荐时间段的最晚时间，α_i是权重值，a_i是超出推荐时间段完成任务的惩罚常数值，b_i是奖励常数值。

深度强化学习训练时每次运行开始时，仿真模型接收运行模型、获取状态空间数据并发送环境状态信息给深度强化学习模型。深度强化学习模型计算得到动作策略返回给仿真模型。仿真模型参考策略运行到下一次任务判断时间点计算并返回奖惩值给深度强化学习模型来反馈调节深度学习神经网络的参数。上述过程不断迭代，直到深度强化学习模型学习到获得最大奖励值的策略。

训练好的深度强化学习模型和仿真模型可以部署到工业互联网的云平台，工业互联网平台提供给强化学习模型和仿真模型训练时同样的输入，强化学习模型给予调度动作策略，并在仿真模型上前馈验证可行性，再发给现实制造执行系统执行策略动作。

由此可知，本实施例提供一种基于深度强化学习和仿真技术的炼钢厂行车调度方法，本实施例通过使用仿真方法作为深度强化学习模型的智能体的环境搭建方式，用仿真模拟实际生产周期，实现了对长时间周期环境的快速训练，减少了模型开发周期，加快了模型上线速度。在训练过程中用仿真模型替换实际生产现场作为深度强化学习模型的智能体的环境搭建方式，大大降低了深度强化学习模型在训练过程中试错造成的损失，增加了方法落地的可行性。本实施例同时具备深度强化学习和仿真模型的优势，对于复杂系统的考虑因素更多，决策结果与实际更加相符。此外，深度强化学习模型中的神经网络对于数据的抽象能力更强，对于不同场景下的不同输入都可以进行特征提取和分析，方法的普适性更强，对于不同的钢厂环境都适用。此外，本实施例可以通过基于深度强化学习和方针的炼钢厂行车调度方法，降低人工经验判断的错误率，实现炼钢厂行车调度的智能决策；即本实施例可以降低人工经验判断的错误率，实现炼钢厂行车调度的智能决策。并且，本实施例可以减少模型开发周期，加快模型上线速度；大大降低了深度强化学习模型在训练过程中试错造成的损失，增加了方案落地的可行性；并且对于复杂系统的考虑因素更多，决策结果与实际更加相符。所以，本实施例的普适性更强，对于不同的钢厂环境都适用。

在本申请另一示例性实施例中，如图3所示，本申请还提供一种基于深度强化学习的行车调度方法，包括以下步骤：

在步骤S31中，对实际问题和设计的解决方案，根据仿真模型和深度强化学习模型需求，设计部署到工业互联网平台上的连接炼钢厂生产执行系统的数据库。数据库需要能够实时的获取炼钢厂生产执行系统中生产的实时状态信息并处理成强化学习模型和仿真模型需要的实时数据，包括：当前跨的钢包数量、位置、任务、动作状态、下一次调度任务的位置、终点、最晚时刻、当前LF炉工位、连铸工位、转炉工位、热修工位、翻包工位的加工和加工任务信息

在步骤S32中，行车调度深度强化学习模型，模型接收仿真模型传入的状态和奖惩值信息，提供模型执行结果的动作决策信息给仿真模型。模型执行的动作包括此次调度任务的行车选择以及调度行车的时间。可以选择的深度强化学习的算法包括A2C、DDPG、HER、PPO、DQN等算法模型及其改进算法。

在步骤S33中，需要结合钢厂实际布局图，设计仿真模型模块，并布置相应的工位、行车实体。通过输入数据的方式建立仿真模型，并通过生产现场的状态信息驱动模型运行，状态信息包括：各个钢包工艺路线、当前加工工序、加工状态、各个行车当前位置、当前作业状态、各个行车正在进行的任务、各个行车未执行的任务信息、各个工位加工状态和作业进度。上述状态信息同样作为提供给深度强化学习模型的环境状态信息。仿真模型设计深度强化学习模型动作指令执行接口，并在接收数据后按照动作策略进行仿真，完成一次作业后返回奖励给深度强化学习模型。仿真模型同时输出：各个行车作业结束时位置信息、当前作业状态、各个钢包当前加工工序、加工状态、行车正在进行的任务、各个行车未执行的任务、强化学习模型给当前新任务分配的行车、强化学习策略执行当前任务的完成状况信息，这些信息整合到全局信息表。

在步骤S34中，如图2所示，进行仿真模型的交互训练。将步骤S32中建立的仿真模型导出为jar、exe等格式的文件，接着用深度强化学习模型代码打开文件通过虚拟引擎或安装在本地运行，并通过Socket实现与计算机本地的仿真软件的通信。深度强化学习模型启动仿真模型后，仿真模型获取步骤S31中的生产现场历史状态时刻信息作为仿真模型驱动数据。仿真模型运行到天车调度任务判断时间点后将环境状态信息发送给深度强化学习模型。深度强化学习接收到环境状态信息后运算得到本次调度任务的行车选择和提前调度天车的时间动作策略给仿真模型。仿真模型执行接收动作指令执行到下一次调度任务判断时间点，计算奖惩值返回给深度强化学习模型。深度强化学习模型根据反馈的奖惩值优化神经网络结构和参数。重复上述步骤，直到模型学习到最佳的获取累计最大奖励的策略并关闭。

在步骤S35中，如图5所示，进行程序搭建，对训练好的深度强化学习模型封装到Html文件并提供模型接口，当输入与训练时所用状态信息格式相同数据时，返回行车调度动作策略执行方案，并将封装好的模型部署到工业互联网平台。工业互联网平台上获取和整合当前的各种状态信息，炼钢生产执行系统发送服务请求后，部署的深度强化学习模型根据当前的状态信息判断下一行车调度任务的策略，并在同样部署到工业互联网平台上的仿真模型前馈判断可行性，最后返回调度策略方案给现实制造执行系统执行动作。

综上所述，本申请提供一种基于深度强化学习的行车调度方法，首先获取钢铁实际生产系统的历史状态信息，然后基于历史状态信息建立第一行车调度深度强化学习模型，并利用第一行车调度深度强化学习模型提供动作决策；再基于钢铁生产现场的数据信息建立行车调度仿真模型，并将历史状态信息和动作决策作为行车调度仿真模型的驱动策略，以使行车调度仿真模型根据驱动策略输出用于优化第一行车调度深度强化学习模型的参数值；再然后对第一行车调度深度强化学习模型和行车调度仿真模型进行交互离线训练，得到第二行车调度深度强化学习模型；最后将第二行车调度深度强化学习模型部署至钢铁实际生产系统中，进行实时行车调度。由此可知，本方法通过使用仿真方法作为深度强化学习模型的智能体的环境搭建方式，用仿真模拟实际生产周期，实现了对长时间周期环境的快速训练，减少了模型开发周期，加快了模型上线速度。在训练过程中用仿真模型替换实际生产现场作为深度强化学习模型的智能体的环境搭建方式，大大降低了深度强化学习模型在训练过程中试错造成的损失，增加了方法落地的可行性。本方法同时具备深度强化学习和仿真模型的优势，对于复杂系统的考虑因素更多，决策结果与实际更加相符。此外，深度强化学习模型中的神经网络对于数据的抽象能力更强，对于不同场景下的不同输入都可以进行特征提取和分析，方法的普适性更强，对于不同的钢厂环境都适用。此外，本方法可以通过基于深度强化学习和方针的炼钢厂行车调度方法，降低人工经验判断的错误率，实现炼钢厂行车调度的智能决策；即本方法可以降低人工经验判断的错误率，实现炼钢厂行车调度的智能决策。并且，本方法可以减少模型开发周期，加快模型上线速度；大大降低了深度强化学习模型在训练过程中试错造成的损失，增加了方案落地的可行性；并且对于复杂系统的考虑因素更多，决策结果与实际更加相符。所以，本方法的普适性更强，对于不同的钢厂环境都适用。

如图6所示，本申请还提供一种基于深度强化学习的行车调度系统，所述系统包括有：

信息采集模块610，用于获取钢铁实际生产系统的历史状态信息；

动作决策模块620，用于根据所述历史状态信息建立第一行车调度深度强化学习模型，并利用所述第一行车调度深度强化学习模型提供动作决策；

优化模块630，用于基于钢铁生产现场的数据信息建立行车调度仿真模型，并将所述历史状态信息和所述动作决策作为所述行车调度仿真模型的驱动策略，以使所述行车调度仿真模型根据所述驱动策略输出用于优化所述第一行车调度深度强化学习模型的参数值；

训练模块640，用于对所述第一行车调度深度强化学习模型和所述行车调度仿真模型进行交互离线训练，得到第二行车调度深度强化学习模型。其中，训练模块对所述第一行车调度深度强化学习模型和所述行车调度仿真模型进行交互离线训练，得到第二行车调度深度强化学习模型的过程包括：利用预先设置的数据接口传输所述第一行车调度深度强化学习模型和所述行车调度仿真模型之间的数据；所述行车调度仿真模型根据接收的钢铁实际生产系统的状态信息、实时或预先输入的动作决策信息进行运行，并返回奖惩值给所述第一行车调度深度强化学习模型进行迭代学习和训练，得到第二行车调度深度强化学习模型。具体地，本实施例在训练开始时，深度强化学习模型和行车调度仿真模型接收状态空间参数，计算得到动作策略来驱动仿真模型运行；行车调度仿真模型此次运行结束后计算并返回奖惩值给深度强化学习模型，来反馈调节深度学习神经网络的参数；上述过程不断迭代，直到深度强化学习模型学习到获得最大奖励值的策略。

行车调度模块650，用于将所述第二行车调度深度强化学习模型部署至所述钢铁实际生产系统中，进行实时行车调度。

在一示例性实施例中，将所述第二行车调度深度强化学习模型部署至所述钢铁实际生产系统前，还可以包括：对所述第二行车调度深度强化学习模型给与调度动作策略，并在所述行车调度仿真模型上对所述第二行车调度深度强化学习模型进行前馈验证，确定所述第二行车调度深度强化学习模型的可行性。具体地，本实施例为了确定第二行车调度深度强化学习模型的可行性，可以将训练好的深度强化学习模型和仿真模型可以部署到工业互联网的云平台，工业互联网平台提供给强化学习模型和仿真模型训练时同样的输入，强化学习模型给予调度动作策略，并在仿真模型上前馈验证可行性，再发给现实制造执行系统执行策略动作。

其中，r表示奖励函数返回值；

r_i表示每个天车的奖励函数返回值；

n表示当前跨中天车数量。

每个天车的奖励函数返回值r_i的计算公式如下：

β_i表示第二权重值；

a_i表示超出推荐时间段完成任务的惩罚常数值；

b_i表示奖励常数值。

综上所述，本申请提供一种基于深度强化学习的行车调度系统，首先获取钢铁实际生产系统的历史状态信息，然后基于历史状态信息建立第一行车调度深度强化学习模型，并利用第一行车调度深度强化学习模型提供动作决策；再基于钢铁生产现场的数据信息建立行车调度仿真模型，并将历史状态信息和动作决策作为行车调度仿真模型的驱动策略，以使行车调度仿真模型根据驱动策略输出用于优化第一行车调度深度强化学习模型的参数值；再然后对第一行车调度深度强化学习模型和行车调度仿真模型进行交互离线训练，得到第二行车调度深度强化学习模型；最后将第二行车调度深度强化学习模型部署至钢铁实际生产系统中，进行实时行车调度。由此可知，本系统通过使用仿真方法作为深度强化学习模型的智能体的环境搭建方式，用仿真模拟实际生产周期，实现了对长时间周期环境的快速训练，减少了模型开发周期，加快了模型上线速度。在训练过程中用仿真模型替换实际生产现场作为深度强化学习模型的智能体的环境搭建方式，大大降低了深度强化学习模型在训练过程中试错造成的损失，增加了方法落地的可行性。本系统同时具备深度强化学习和仿真模型的优势，对于复杂系统的考虑因素更多，决策结果与实际更加相符。此外，深度强化学习模型中的神经网络对于数据的抽象能力更强，对于不同场景下的不同输入都可以进行特征提取和分析，方法的普适性更强，对于不同的钢厂环境都适用。此外，本系统可以通过基于深度强化学习和方针的炼钢厂行车调度方法，降低人工经验判断的错误率，实现炼钢厂行车调度的智能决策；即本系统可以降低人工经验判断的错误率，实现炼钢厂行车调度的智能决策。并且，本系统可以减少模型开发周期，加快模型上线速度；大大降低了深度强化学习模型在训练过程中试错造成的损失，增加了方案落地的可行性；并且对于复杂系统的考虑因素更多，决策结果与实际更加相符。所以，本系统的普适性更强，对于不同的钢厂环境都适用。

需要说明的是，上述实施例所提供基于深度强化学习的行车调度系统与上述实施例所提供的基于深度强化学习的行车调度方法属于同一构思，其中各个模块和单元执行操作的具体方式已经在方法实施例中进行了详细描述，此处不再赘述。上述实施例所提供的基于深度强化学习的行车调度系统在实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将系统的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能，本处也不对此进行限制。

本申请实施例还提供了一种基于深度强化学习的行车调度设备，该设备可以包括：一个或多个处理器；和其上存储有指令的一个或多个机器可读介质，当由所述一个或多个处理器执行时，使得所述设备执行图2所述的基于深度强化学习的行车调度方法。图7示出了一种基于深度强化学习的行车调度设备1000的结构示意图。参阅图7所示，基于深度强化学习的行车调度设备1000包括：处理器1010、存储器1020、电源1030、显示单元1040、输入单元1060。

处理器1010是基于深度强化学习的行车调度设备1000的控制中心，利用各种接口和线路连接各个部件，通过运行或执行存储在存储器1020内的软件程序和/或数据，执行基于深度强化学习的行车调度设备1000的各种功能，从而对基于深度强化学习的行车调度设备1000进行整体监控。本申请实施例中，处理器1010调用存储器1020中存储的计算机程序时执行如图2所述的基于深度强化学习的行车调度方法。可选的，处理器1010可包括一个或多个处理单元；优选的，处理器1010可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用等，调制解调处理器主要处理无线通信。在一些实施例中，处理器、存储器、可以在单一芯片上实现，在一些实施例中，它们也可以在独立的芯片上分别实现。

存储器1020可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、各种应用等；存储数据区可存储根据基于深度强化学习的行车调度设备1000的使用所创建的数据等。此外，存储器1020可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件等。

基于深度强化学习的行车调度设备1000还包括给各个部件供电的电源1030(比如电池)，电源可以通过电源管理系统与处理器1010逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗等功能。

显示单元1040可用于显示由用户输入的信息或提供给用户的信息以及基于深度强化学习的行车调度设备1000的各种菜单等，本申请实施例中主要用于显示基于深度强化学习的行车调度设备1000中各应用的显示界面以及显示界面中显示的文本、图片等对象。显示单元1040可以包括显示面板1050。显示面板1050可以采用液晶显示屏(LiquidCrystal Display，LCD)、有机发光二极管(Organic Light-Emitting Diode，OLED)等形式来配置。

输入单元1060可用于接收用户输入的数字或字符等信息。输入单元1060可包括触控面板1070以及其他输入设备1080。其中，触控面板1070，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触摸笔等任何适合的物体或附件在触控面板1070上或在触控面板1070附近的操作)。

具体的，触控面板1070可以检测用户的触摸操作，并检测触摸操作带来的信号，将这些信号转换成触点坐标，发送给处理器1010，并接收处理器1010发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板1070。其他输入设备1080可以包括但不限于物理键盘、功能键(比如音量控制按键、开关机按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

当然，触控面板1070可覆盖显示面板1050，当触控面板1070检测到在其上或附近的触摸操作后，传送给处理器1010以确定触摸事件的类型，随后处理器1010根据触摸事件的类型在显示面板1050上提供相应的视觉输出。虽然在图7中，触控面板1070与显示面板1050是作为两个独立的部件来实现基于深度强化学习的行车调度设备1000的输入和输出功能，但是在某些实施例中，可以将触控面板1070与显示面板1050集成而实现基于深度强化学习的行车调度设备1000的输入和输出功能。

基于深度强化学习的行车调度设备1000还可包括一个或多个传感器，例如压力传感器、重力加速度传感器、接近光传感器等。当然，根据具体应用中的需要，上述基于深度强化学习的行车调度设备1000还可以包括摄像头等其它部件。

本申请实施例还提供了一种计算机可读存储介质，该存储介质中存储有指令，当一个或多个处理器执行所述指令时，使得上述设备能够执行本申请中如图2所述的基于深度强化学习的行车调度方法。

本领域技术人员可以理解的是，图7仅仅是基于深度强化学习的行车调度设备的举例，并不构成对该设备的限定，该设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件。为了描述的方便，以上各部分按照功能划分为各模块(或单元)分别描述。当然，在实施本申请时，可以把各模块(或单元)的功能在同一个或多个软件或硬件中实现。

本领域内的技术人员应明白，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的，应理解为可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。这些计算机程序指令可应用至通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器中以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

应当理解的是，尽管在本申请实施例中可能采用术语第一、第二、第三等来描述预设范围等，但这些预设范围不应限于这些术语。这些术语仅用来将预设范围彼此区分开。例如，在不脱离本申请实施例范围的情况下，第一预设范围也可以被称为第二预设范围，类似地，第二预设范围也可以被称为第一预设范围。

上述实施例仅例示性说明本申请的原理及其功效，而非用于限制本申请。任何熟悉此技术的人士皆可在不违背本申请的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本申请所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本申请的权利要求所涵盖。

Claims

1.一种基于深度强化学习的行车调度方法，其特征在于，所述方法包括以下步骤：

获取钢铁实际生产系统的历史状态信息；

2.根据权利要求1所述的基于深度强化学习的行车调度方法，其特征在于，对所述第一行车调度深度强化学习模型和所述行车调度仿真模型进行交互离线训练，得到第二行车调度深度强化学习模型的过程包括：

3.根据权利要求1或2所述的基于深度强化学习的行车调度方法，其特征在于，将所述第二行车调度深度强化学习模型部署至所述钢铁实际生产系统前，所述方法还包括：

4.根据权利要求2所述的基于深度强化学习的行车调度方法，其特征在于，在返回奖惩值给所述第一行车调度深度强化学习模型进行迭代学习和训练时，所述第一行车调度深度强化学习模型的奖励函数计算公式如下：

其中，r表示奖励函数返回值；

r_i表示每个天车的奖励函数返回值；

n表示当前跨中天车数量。

5.根据权利要求4所述的基于深度强化学习的行车调度方法，其特征在于，每个天车的奖励函数返回值的计算公式如下：

6.根据权利要求5所述的基于深度强化学习的行车调度方法，其特征在于，当返回的奖惩值为r_finish_i时，r_finish_i的计算公式如下：

β_i表示第二权重值；

a_i表示超出推荐时间段完成任务的惩罚常数值；

b_i表示奖励常数值。

7.一种基于深度强化学习的行车调度系统，其特征在于，所述系统包括有：

8.根据权利要求7所述的基于深度强化学习的行车调度系统，其特征在于，所述训练模块对所述第一行车调度深度强化学习模型和所述行车调度仿真模型进行交互离线训练，得到第二行车调度深度强化学习模型的过程包括：

9.一种基于深度强化学习的行车调度设备，其特征在于，包括：

处理器；和，

存储有指令的计算机可读介质，当所述处理器执行所述指令时，使得所述设备执行如权利要求1至6中任意一项所述的基于深度强化学习的行车调度方法。

10.一种计算机可读介质，其特征在于，其上存储有指令，所述指令由处理器加载并执行如权利要求1至6中任意一项所述的基于深度强化学习的行车调度方法。