CN117807410B

CN117807410B - 转钢辊道设定速度的确定方法及装置、存储介质、终端

Info

Publication number: CN117807410B
Application number: CN202410227155.2A
Authority: CN
Inventors: 何纯玉; 薛松; 矫志杰; 吴志强; 赵忠
Original assignee: 东北大学
Filing date: 2024-02-29
Publication date: 2024-05-31
Anticipated expiration: 2044-02-29

Abstract

本申请公开了一种转钢辊道设定速度的确定方法及装置、存储介质、终端，涉及轧制自动化领域，主要目的在于改善现有难以实时输出需要的辊道设定速度的问题。包括：获取当前钢坯转钢时的生产状态数据；基于预先训练的辊道设定速度确定模型根据生产状态数据确定辊道设定速度，并对下一块钢坯进行转钢，生成在线训练集；基于在线训练集对辊道设定速度评价模型进行更新，基于更新后的辊道设定速度评价模型对辊道设定速度进行评价处理，得到各个转钢序列的期望回报；基于期望回报相对于辊道设定速度确定模型参数的梯度函数，对辊道设定速度确定模型进行更新；基于上述过程对评价模型以及确定模型进行实时更新，以基于更新后的确定模型确定辊道设定速度。

Description

转钢辊道设定速度的确定方法及装置、存储介质、终端

技术领域

本申请涉及轧制自动化技术领域，特别是涉及一种转钢辊道设定速度的确定方法及装置、存储介质、终端。

背景技术

转钢是中厚板轧制生产中的重要环节，受到钢坯尺寸、辊道速度、设备能力、生产环境等多个相互交织参数的影响，因此，一个合适的辊道设定速度是提升钢厂自动化水平及轧制节奏的关键因素。由于转钢控制系统具有非线性、强耦合、多变量等特征，导致应用传统的模型控制方法难以找到一个合适的辊道设定速度，以提高转钢效率。

近年来，随着大数据和人工智能的不断发展和完善，以数据驱动的智能优化控制方法得到了广泛应用，智能控制算法善于从历史数据中总结输入到输出的直接映射关系，具有很强的自学习能力。因此，利用数据驱动的智能控制手段制定辊道设定速度，可以有效提高辊道设定速度的精度，进而提高转钢效率。

然而，通常情况下基于在线训练的智能控制算法的模型结构过于复杂，泛化能力较弱，且在训练初期易产生大量冗余的试错动作和无效数据，浪费了在线的计算资源，导致难以实时输出需要的辊道设定速度。

发明内容

有鉴于此，本申请提供一种转钢辊道设定速度的确定方法及装置、介质、终端，主要目的在于改善现有难以实时输出需要的辊道设定速度的问题。

依据本申请一个方面，提供了一种转钢辊道设定速度的确定方法，包括：

转钢系统开始工作后，获取当前钢坯转钢时的生产状态数据；

基于预先训练的辊道设定速度确定模型根据所述生产状态数据确定辊道设定速度，并基于所述辊道设定速度对下一块钢坯进行转钢操作，根据所述下一块钢坯的转钢结束角度计算所述下一块钢坯在转钢过程中各个转钢序列的即时奖励值，生成在线训练集，所述在线训练集包括所述生产状态数据、辊道设定速度、即时奖励值；

基于所述在线训练集对预先训练的辊道设定速度评价模型进行更新，得到更新后的辊道设定速度评价模型，并基于所述更新后的辊道设定速度评价模型对所述在线训练集中的辊道设定速度进行评价处理，得到各个所述转钢序列的期望回报；

基于所述期望回报相对于辊道设定速度确定模型参数的梯度函数，利用所述在线训练集和所述梯度函数对所述辊道设定速度确定模型进行更新，得到更新后的辊道设定速度确定模型；

在转钢系统工作过程中，重复上述过程对所述辊道设定速度评价模型以及所述辊道设定速度确定模型进行实时更新，以基于实时更新的辊道设定速度确定模型确定的辊道设定速度对转钢操作进行控制。

优选的，所述基于预先训练的辊道设定速度确定模型根据所述生产状态数据确定辊道设定速度之前，所述方法还包括：

基于多块历史钢坯转钢时的历史生产状态数据以及历史辊道设定速度，生成离线训练集；

构建初始辊道设定速度评价模型，并基于所述离线训练集对所述初始辊道设定速度评价模型进行离线训练，以得到预先训练的辊道设定速度评价模型；

构建初始辊道设定速度确定模型，并基于历史期望回报相对于所述初始辊道设定速度确定模型参数的梯度函数，利用所述离线训练集和所述梯度函数对所述初始辊道设定速度确定模型进行离线训练，得到预先训练的辊道设定速度确定模型，所述历史期望回报是基于所述辊道设定速度评价模型对历史辊道设定速度进行评价得到的。

优选的，所述构建初始辊道设定速度评价模型，并基于所述离线训练集对所述初始辊道设定速度评价模型进行离线训练，以得到预先训练的辊道设定速度评价模型，具体包括：

构建初始辊道设定速度评价模型；

基于所述初始辊道设定速度评价模型对所述离线训练集中的历史辊道设定速度进行评价处理，得到各个历史转钢序列的初始历史期望回报；

获取所述离线训练集中的历史即时奖励值，构建所述初始历史期望回报与所述历史即时奖励值之间的最小损失函数；

求解所述最小损失函数，以更新所述初始辊道设定速度评价模型的参数，得到预先训练的辊道设定速度评价模型。

优选的，所述构建初始辊道设定速度确定模型，并基于历史期望回报相对于所述初始辊道设定速度确定模型参数的梯度函数，利用所述离线训练集和所述梯度函数对所述初始辊道设定速度确定模型进行离线训练，得到预先训练的辊道设定速度确定模型，具体包括：

构建初始辊道设定速度确定模型；

并基于所述初始辊道设定速度确定模型根据所述离线训练集中的历史生产状态数据确定初始历史辊道设定速度；

基于所述辊道设定速度评价模型对所述初始历史辊道设定速度进行评价处理，得到各个历史转钢序列的初始历史期望回报；

构建所述初始历史期望回报相对于所述初始辊道设定速度确定模型参数的最大梯度函数，并基于梯度上升法求解所述最大梯度函数，以对所述初始辊道设定速度确定模型进行离线训练，得到预先训练的辊道设定速度确定模型。

优选的，所述基于多块历史钢坯转钢时的历史生产状态数据以及历史辊道设定速度，生成离线训练集，具体包括：

按照预设时间间隔采集多块历史钢坯转钢时的历史生产状态数据以及历史辊道设定速度；

根据各个所述历史钢坯的转钢结束角度计算所述历史钢坯的转钢角度评分；

根据预设折扣因子以及所述转钢角度评分，基于单步迭代法计算各个所述钢坯在转钢过程中各个转钢序列的即时奖励值，生成离线训练集。

优选的，所述生产状态数据包括钢坯尺寸、钢坯实时旋转角度、辊道反馈速度。

优选的，将所述在线训练集以及所述离线训练集存储于经验缓存区；

所述基于所述在线训练集对预先训练的辊道设定速度评价模型进行更新，得到更新后的辊道设定速度评价模型，并基于所述更新后的辊道设定速度评价模型对所述在线训练集中的辊道设定速度进行评价处理，得到各个所述转钢序列的期望回报，包括：

在所述经验缓存区中采样训练样本对预先训练的辊道设定速度评价模型进行更新，得到更新后的辊道设定速度评价模型，并基于所述更新后的辊道设定速度评价模型对所述训练样本中的辊道设定速度进行评价处理，得到各个所述转钢序列的期望回报；

所述利用所述在线训练集和所述梯度函数对所述辊道设定速度确定模型进行更新，得到更新后的辊道设定速度确定模型，包括：

利用所述训练样本对所述辊道设定速度确定模型进行更新，得到更新后的辊道设定速度确定模型；

所述方法还包括：

当所述经验缓存区内的样本量达到预设阈值时，依据先进先出原则删除历史样本。

依据本申请另一个方面，提供了一种转钢辊道设定速度的确定装置，包括：

获取生产状态数据模块，用于转钢系统开始工作后，获取当前钢坯转钢时的生产状态数据；

在线训练集生成模块，用于基于预先训练的辊道设定速度确定模型根据所述生产状态数据确定辊道设定速度，并基于所述辊道设定速度对下一块钢坯进行转钢操作，根据所述下一块钢坯的转钢结束角度计算所述下一块钢坯在转钢过程中各个转钢序列的即时奖励值，生成在线训练集，所述在线训练集包括所述生产状态数据、辊道设定速度、即时奖励值；

评价模型更新模块，用于基于所述在线训练集对预先训练的辊道设定速度评价模型进行更新，得到更新后的辊道设定速度评价模型，并基于所述更新后的辊道设定速度评价模型对所述在线训练集中的辊道设定速度进行评价处理，得到各个所述转钢序列的期望回报；

确定模型更新模块，用于基于所述期望回报相对于辊道设定速度确定模型参数的梯度函数，利用所述在线训练集和所述梯度函数对所述辊道设定速度确定模型进行更新，得到更新后的辊道设定速度确定模型；

辊道设定速度确定模块，用于在转钢系统工作过程中，重复上述过程对所述辊道设定速度评价模型以及所述辊道设定速度确定模型进行实时更新，以基于实时更新的辊道设定速度确定模型确定的辊道设定速度对转钢操作进行控制。

优选的，所述在线训练集生成模块之前，所述装置还包括：

离线训练集生成模块，用于基于多块历史钢坯转钢时的历史生产状态数据以及历史辊道设定速度，生成离线训练集；

评价模型预训练模块，用于构建初始辊道设定速度评价模型，并基于所述离线训练集对所述初始辊道设定速度评价模型进行离线训练，以得到预先训练的辊道设定速度评价模型；

确定模型预训练模块，用于构建初始辊道设定速度确定模型，并基于历史期望回报相对于所述初始辊道设定速度确定模型参数的梯度函数，利用所述离线训练集和所述梯度函数对所述初始辊道设定速度确定模型进行离线训练，得到预先训练的辊道设定速度确定模型，所述历史期望回报是基于所述辊道设定速度评价模型对历史辊道设定速度进行评价得到的。

优选的，所述评价模型预训练模块，具体用于：

构建初始辊道设定速度评价模型；

优选的，所述确定模型预训练模块，具体用于：

构建初始辊道设定速度确定模型；

优选的，所述离线训练集生成模块，具体用于：

优选的，所述装置还包括存储模块，用于将所述在线训练集以及所述离线训练集存储于经验缓存区；

所述评价模型更新模块，用于：

所述确定模型更新模块，用于：

所述存储模块还用于：

根据本申请的又一方面，提供了一种存储介质，所述存储介质中存储有至少一条可执行指令，所述可执行指令使处理器执行如上述转钢辊道设定速度的确定方法对应的操作。

根据本申请的再一方面，提供了一种终端，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

所述存储器用于存放至少一条可执行指令，所述可执行指令使所述处理器执行上述转钢辊道设定速度的确定方法对应的操作。

借由上述技术方案，本申请实施例提供的技术方案至少具有下列优点：

本申请提供了一种转钢辊道设定速度的确定方法及装置、存储介质、终端，首先转钢系统开始工作后，获取当前钢坯转钢时的生产状态数据；进一步的，基于预先训练的辊道设定速度确定模型根据所述生产状态数据确定辊道设定速度，并基于所述辊道设定速度对下一块钢坯进行转钢操作，根据所述下一块钢坯的转钢结束角度计算所述下一块钢坯在转钢过程中各个转钢序列的即时奖励值，生成在线训练集，所述在线训练集包括所述生产状态数据、辊道设定速度、即时奖励值；进一步的，基于所述在线训练集对预先训练的辊道设定速度评价模型进行更新，得到更新后的辊道设定速度评价模型，并基于所述更新后的辊道设定速度评价模型对所述在线训练集中的辊道设定速度进行评价处理，得到各个所述转钢序列的期望回报；进一步的，基于所述期望回报相对于辊道设定速度确定模型参数的梯度函数，利用所述在线训练集和所述梯度函数对所述辊道设定速度确定模型进行更新，得到更新后的辊道设定速度确定模型；进一步的，在转钢系统工作过程中，重复上述过程对所述辊道设定速度评价模型以及所述辊道设定速度确定模型进行实时更新，以基于实时更新的辊道设定速度确定模型确定的辊道设定速度对转钢操作进行控制。与现有技术相比，本申请实施例首先利用预先训练的辊道设定速度确定模型根据当前钢坯转钢时的生产状态数据确定辊道设定速度，用于对下一块钢坯的转钢操作，并根据该下一块钢坯的生产状态数据以及计算得到的各个转钢序列的即时奖励值生成在线训练集，进一步，利用该在线训练集对预先训练的辊道设定速度评价模型进行更新，并利用更新后的辊道设定速度评价模型对辊道设定速度确定模型进行更新，通过不断对两个模型进行更新，以基于更新后的辊道设定速度确定模型确定辊道设定速度，一方面转钢开始时所使用的模型是预先进行离线训练得到的，避免了在训练初期所产生的试错动作和无效数据，节省了在线的计算资源；另一方面通过对两个模型进行实时更新，使得输出的辊道设定速度更适用于当前钢坯，从而提高了辊道设定速度的确定精准度。

上述说明仅是本申请技术方案的概述，为了能够更清楚了解本申请的技术手段，而可依照说明书的内容予以实施，并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂，以下特举本申请的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本申请的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了本申请实施例提供的一种转钢辊道设定速度的确定方法流程图；

图2示出了本申请实施例提供的另一种转钢辊道设定速度的确定方法流程图；

图3示出了本申请实施例提供的一种转钢辊道设定速度的确定装置组成框图；

图4示出了本申请实施例提供的一种终端的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本申请及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

本申请实施例可以应用于计算机系统/服务器，其可与众多其它通用或专用计算系统环境或配置一起操作。适于与计算机系统/服务器一起使用的众所周知的计算系统、环境和/或配置的例子包括但不限于：个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统﹑大型计算机系统和包括上述任何系统的分布式云计算技术环境，等等。

计算机系统/服务器可以在由计算机系统执行的计算机系统可执行指令（诸如程序模块）的一般语境下描述。通常，程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等，它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施，分布式云计算环境中，任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中，程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。

本申请实施例提供了一种转钢辊道设定速度的确定方法，如图1所示，该方法包括：

101、转钢系统开始工作后，获取当前钢坯转钢时的生产状态数据。

其中，生产状态数据包括钢坯尺寸、钢坯实时旋转角度、辊道反馈速度；钢坯尺寸又包括钢坯的长、宽以及厚度；辊道反馈速度用于表征辊道运行时的实际速度，可以理解的是，由于信号传输时所产生的时延、丢失以及机器执行时所产生的传动误差等，会导致辊道反馈速度与辊道设定速度之间存在偏差。本申请实施例中，当前执行端可以是轧钢自动控制系统中的转钢控制单元，在转钢系统开始工作后，获取当前钢坯在转钢时各个时刻的生产状态数据，用于确定下一块钢坯转钢时的辊道设定速度。

102、基于预先训练的辊道设定速度确定模型根据生产状态数据确定辊道设定速度，并基于辊道设定速度对下一块钢坯进行转钢操作，根据下一块钢坯的转钢结束角度计算下一块钢坯在转钢过程中各个转钢序列的即时奖励值，生成在线训练集。

其中，预先训练的辊道设定速度确定模型是利用在线训练集预先训练得到辊道设定速度评价模型，再利用该辊道设定速度评价模型离线训练得到的，用于根据当前钢坯转钢时的生产状态数据确定辊道设定速度，以便基于辊道设定速度对下一块钢坯进行转钢操作的控制，避免在线训练初期所产生的试错动作和无效数据，节省了在线的计算资源；转钢结束角度用于表征转钢结束时钢坯被旋转的角度，需要说明的是，该角度的目标值为90°；转钢序列用于记录钢坯在转钢过程中的实时状态信息，可以包括钢坯尺寸、钢坯实时旋转角度、辊道反馈速度、辊道设定速度；即时奖励值用于表征对钢坯实时旋转角度的评分，需要说明的是，由于根据转钢结束角度计算得到转钢角度评分是一种延迟奖励的过程，也即只有转钢结束时才有奖励，而转钢过程中的其他时刻的即时奖励值均为0，因此，本申请实施例中，可以通过通过单步迭代法结合贝尔曼方程将转钢角度评分分散到转钢过程中的其他时刻，得到各个转钢序列对应的即时奖励值；在线训练集包括转钢序列（钢坯尺寸、钢坯实时旋转角度、辊道反馈速度、辊道设定速度，即生产状态数据以及辊道设定速度）、对应的即时奖励值、下一时刻的生产状态数据。

可选的，可以将在线训练集存储于经验缓存区，需要说明的是，此时的经验缓存区已经存储有离线训练集，用于预先对辊道设定速度评价模型以及辊道设定速度确定模型进行离线训练，以避免在线训练初期所产生的试错动作和无效数据，节省了在线的计算资源。

103、基于在线训练集对预先训练的辊道设定速度评价模型进行更新，得到更新后的辊道设定速度评价模型，并基于更新后的辊道设定速度评价模型对在线训练集中的辊道设定速度进行评价处理，得到各个转钢序列的期望回报。

其中，预先训练的辊道设定速度评价模型是基于离线训练集进行离线训练得到的，离线训练是根据历史钢坯的生产状态数据生成的，需要说明的是，由于在线训练集是基于当前批次钢坯的生产状态数据生成的，可以更好的反映当前批次钢坯的实际情况，而基于离线训练集预先训练得到的辊道设定速度评价模型直接用于评价当前批次钢坯可能会存在偏差，因此，在实际转钢过程中基于在线训练集对预先训练的辊道设定速度评价模型进行更新，以提升辊道设定速度评价模型的评价准确性，另外，基于离线训练集对辊道设定速度评价模型进行预先训练是为了避免在线训练初期所产生的试错动作和无效数据，节省了在线的计算资源；期望回报用于表征基于辊道设定速度评价模型对辊道设定速度进行评分得到的预测评分。

104、基于期望回报相对于辊道设定速度确定模型参数的梯度函数，利用在线训练集和梯度函数对辊道设定速度确定模型进行更新，得到更新后的辊道设定速度确定模型。

其中，梯度越大代表当前期望回报越高，也即当前辊道设定速度越适合，因此将辊道设定速度确定模型的参数朝着梯度大的方向进行更新，可以提高辊道设定速度的确定精准度。

105、在转钢系统工作过程中，重复上述过程对辊道设定速度评价模型以及辊道设定速度确定模型进行实时更新，以基于实时更新的辊道设定速度确定模型确定的辊道设定速度对转钢操作进行控制。

本申请实施例中，根据实际转钢过程中的实际生产状态数据基于实施例步骤101~104的更新过程对辊道设定速度评价模型以及辊道设定速度确定模型进行实时更新，以基于更新后的辊道设定速度确定模型确定辊道设定速度，即可实现实时输出需要的辊道设定速度的需求。

与现有技术相比，本申请实施例首先利用预先训练的辊道设定速度确定模型根据当前钢坯转钢时的生产状态数据确定辊道设定速度，用于对下一块钢坯的转钢操作，并根据该下一块钢坯的生产状态数据以及计算得到的各个转钢序列的即时奖励值生成在线训练集，进一步，利用该在线训练集对预先训练的辊道设定速度评价模型进行更新，并利用更新后的辊道设定速度评价模型对辊道设定速度确定模型进行更新，通过不断对两个模型进行更新，以基于更新后的辊道设定速度确定模型确定辊道设定速度，一方面转钢开始时所使用的模型是预先进行离线训练得到的，避免了在训练初期所产生的试错动作和无效数据，节省了在线的计算资源；另一方面通过对两个模型进行实时更新，使得输出的辊道设定速度更适用于当前钢坯，从而提高了辊道设定速度的确定精准度。

在一个本申请实施例中，为了进一步限定及说明，如图2所示，实施例步骤102中基于预先训练的辊道设定速度确定模型根据生产状态数据确定辊道设定速度之前，实施例方法还包括：

201、基于多块历史钢坯转钢时的历史生产状态数据以及历史辊道设定速度，生成离线训练集。

本申请实施例中，首先可以通过布置在轧机前后转钢辊道附近的图像传感器（如CCD相机）按照预设时间间隔（如20ms等）采集多块历史钢坯转钢时的历史生产状态数据（可以包括钢坯尺寸、钢坯实时旋转角度、辊道反馈速度）以及历史辊道设定速度，得到多个转钢序列（可以包括钢坯尺寸、钢坯实时旋转角度、辊道反馈速度以及历史辊道设定速度）。进一步的，根据各个历史钢坯的转钢结束角度计算历史钢坯的转钢角度评分，具体的，根据轧钢过程可知，转钢的目标角度为90°，因此，转钢结束角度越接近90°，则转钢角度评分越高，本申请实施例中，A表示转钢结束角度，T表示目标角度，即T = 90°设置最佳转钢角度评分为100，则当A<T时，转钢角度评分=；当A≥ T时，转钢角度评分=/>，由此可以得到各个历史钢坯的转钢角度评分，示例性的，当转钢结束角度为80°时，转钢角度评分= 100×80 / 90= 88.89。进一步的，由于根据转钢结束角度计算得到转钢角度评分是一种延迟奖励的过程，也即只有转钢结束时才有奖励，而转钢过程中的其他时刻的即时奖励值均为0，因此，本申请实施例中，可以根据预设折扣因子以及上述得到的每块转钢角度评分，基于单步迭代法计算各个钢坯在转钢过程中各个转钢序列对应的即时奖励值，具体的，可以基于贝尔曼方程/>进行计算，其中，/>表示从第t时刻生产状态数据开始直到终止状态的奖励之和，即转钢角度评分，/>表示即时奖励值，/>表示预设折扣因子，示例性的，预设折扣因子/>= 0.98，转钢角度评分为88.89，即/>= 88.89，根据，可以依次计算得到/>= 87.11，/>= 85.37，…，通过逆向迭代的方式，最后一步的转钢角度评分可以依次传递回之前的每一步，得出之前每个时刻对应状态的转钢角度评分，将该转钢角度评分作为这个状态的价值，用状态价值替换原有的即时奖励值/>。最后，生成离线训练集/>，其中，/>表示i时刻生产状态数据，/>表示i时刻辊道设定速度，/>表示i时刻即时奖励值，/>表示下一时刻生产状态数据。

相应的，实施例步骤201具体包括：按照预设时间间隔采集多块历史钢坯转钢时的历史生产状态数据以及历史辊道设定速度；根据各个历史钢坯的转钢结束角度计算历史钢坯的转钢角度评分；根据预设折扣因子以及转钢角度评分，基于单步迭代法计算各个钢坯在转钢过程中各个转钢序列的即时奖励值，生成离线训练集。

可选的，将离线训练集存储于经验缓存区，示例性的，通常情况下，初始化的经验缓存区为空集，可以将其容量设置为10000。

202、构建初始辊道设定速度评价模型，并基于离线训练集对初始辊道设定速度评价模型进行离线训练，以得到预先训练的辊道设定速度评价模型。

本申请实施例中，首先可以使用Critic深度神经网络构建初始辊道设定速度评价模型，初始化参数设置为，网络结构可以包含一个三层全连接网络，激活函数可以使用Relu激活函数，第一全连接层长度可以设置为256；第二全连接层长度可以设置为256。进一步的，将离线训练集中的历史辊道设定速度/>以及历史生产状态数据/>输入至上述构建的初始辊道设定速度评价模型中对历史辊道设定速度/>进行评价，得到各个历史转钢序列的初始历史期望回报/>，即模型预测的期望回报。进一步的，从离线训练集中获取历史即时奖励值/>，即真实值，作为初始辊道设定速度评价模型的学习目标，并构建初始历史期望回报与历史即时奖励值之间的最小损失函数/>，其中，N表示在一次迭代中同时处理的样本数量。最后，求解该最小损失函数，找到合适的参数/>，可以通过梯度下降法来进行参数/>的更新计算，从而得到预先训练的辊道设定速度评价模型。

相应的，实施例步骤202具体包括：构建初始辊道设定速度评价模型；基于初始辊道设定速度评价模型对离线训练集中的历史辊道设定速度进行评价处理，得到各个历史转钢序列的初始历史期望回报；获取离线训练集中的历史即时奖励值，构建初始历史期望回报与历史即时奖励值之间的最小损失函数；求解最小损失函数，以更新初始辊道设定速度评价模型的参数，得到预先训练的辊道设定速度评价模型。

203、构建初始辊道设定速度确定模型，并基于历史期望回报相对于初始辊道设定速度确定模型参数的梯度函数，利用离线训练集和梯度函数对初始辊道设定速度确定模型进行离线训练，得到预先训练的辊道设定速度确定模型。

其中，历史期望回报是基于辊道设定速度评价模型对历史辊道设定速度进行评价得到的。本申请实施例中，首先可以使用Actor深度神经网络构建初始辊道设定速度确定模型，初始化参数设置为，网络结构可以包含一个三层全连接网络，第一全连接层长度可以设置为256；第二全连接层长度可以设置为256，前两层使用Relu激活函数，输出层使用tanh激活函数，正切函数（y = tanhx）的值域为[-1,1]，以方便按比例调整转钢辊道速度设定的动作范围。进一步的，

将离线训练集中的历史生产状态数据输入至上述构建的初始辊道设定速度确定模型中，生成初始历史辊道设定速度。再基于上述完成预训练的辊道设定速度评价模型对初始历史辊道设定速度进行评价，得到各个历史转钢序列对应的初始历史期望回报，即模型预测的期望回报。进一步的，由于初始历史期望回报相对于初始辊道设定速度确定模型参数/>的梯度越大代表当前期望回报越高，也即当前辊道设定速度越适合，因此将辊道设定速度确定模型的参数朝着梯度大的方向进行更新，可以提高辊道设定速度的确定精准度，具体的，构建最大梯度函数/>，其中，N表示在一次迭代中同时处理的样本数量，/>表示历史生产状态数据/>下初始历史辊道设定速度a的梯度，可以通过用初始历史期望回报/>对初始历史辊道设定速度a求导数得到，/>表示辊道设定速度确定模型根据历史生产状态数据/>产生初始历史辊道设定速度a得到的梯度，可以通过用初始历史辊道设定速度a对初始辊道设定速度确定模型参数求导数得到。最后，求解该最大梯度函数，找到合适的参数/>，可以通过将梯度从/>反向传播到初始辊道设定速度确定模型的网络参数/>进行更新，具体的，/>，其中，/>表示初始辊道设定速度确定模型的参数，/>表示学习率，/>表示最大梯度函数关于参数θ的梯度，即通过辊道设定速度评价模型告诉辊道设定速度确定模型，做这个辊道设定速度a的话，梯度比较大，所以参数需要朝着这个行为梯度方向更新，从而得到预先训练的辊道设定速度确定模型。

相应的，实施例步骤203具体包括：构建初始辊道设定速度确定模型，并基于初始辊道设定速度确定模型根据离线训练集中的历史生产状态数据确定初始历史辊道设定速度；基于辊道设定速度评价模型对初始历史辊道设定速度进行评价处理，得到各个历史转钢序列的初始历史期望回报；构建初始历史期望回报相对于初始辊道设定速度确定模型参数的最大梯度函数，并基于梯度上升法求解最大梯度函数，以对初始辊道设定速度确定模型进行离线训练，得到预先训练的辊道设定速度确定模型。

在一个本申请实施例中，为了进一步限定及说明，实施例方法还包括：将在线训练集以及离线训练集存储于经验缓存区。

进一步的，实施例步骤103基于在线训练集对预先训练的辊道设定速度评价模型进行更新，得到更新后的辊道设定速度评价模型，并基于更新后的辊道设定速度评价模型对在线训练集中的辊道设定速度进行评价处理，得到各个转钢序列的期望回报，具体为在经验缓存区中采样训练样本对预先训练的辊道设定速度评价模型进行更新，得到更新后的辊道设定速度评价模型，并基于更新后的辊道设定速度评价模型对训练样本中的辊道设定速度进行评价处理，得到各个转钢序列的期望回报。

进一步的，实施例步骤104中利用在线训练集和所述梯度函数对辊道设定速度确定模型进行更新，得到更新后的辊道设定速度确定模型，具体为利用训练样本对辊道设定速度确定模型进行更新，得到更新后的辊道设定速度确定模型。

在一个本申请实施例中，优选的，实施例方法还包括：当经验缓存区内的样本量达到预设阈值时，依据先进先出原则删除历史样本，以保证样本的时效性。

本申请提供了一种转钢辊道设定速度的确定方法，首先转钢系统开始工作后，获取当前钢坯转钢时的生产状态数据；进一步的，基于预先训练的辊道设定速度确定模型根据所述生产状态数据确定辊道设定速度，并基于所述辊道设定速度对下一块钢坯进行转钢操作，根据所述下一块钢坯的转钢结束角度计算所述下一块钢坯在转钢过程中各个转钢序列的即时奖励值，生成在线训练集，所述在线训练集包括所述生产状态数据、辊道设定速度、即时奖励值；进一步的，基于所述在线训练集对预先训练的辊道设定速度评价模型进行更新，得到更新后的辊道设定速度评价模型，并基于所述更新后的辊道设定速度评价模型对所述在线训练集中的辊道设定速度进行评价处理，得到各个所述转钢序列的期望回报；进一步的，基于所述期望回报相对于辊道设定速度确定模型参数的梯度函数，利用所述在线训练集和所述梯度函数对所述辊道设定速度确定模型进行更新，得到更新后的辊道设定速度确定模型；进一步的，在转钢系统工作过程中，重复上述过程对所述辊道设定速度评价模型以及所述辊道设定速度确定模型进行实时更新，以基于实时更新的辊道设定速度确定模型确定的辊道设定速度对转钢操作进行控制。与现有技术相比，本申请实施例首先利用预先训练的辊道设定速度确定模型根据当前钢坯转钢时的生产状态数据确定辊道设定速度，用于对下一块钢坯的转钢操作，并根据该下一块钢坯的生产状态数据以及计算得到的各个转钢序列的即时奖励值生成在线训练集，进一步，利用该在线训练集对预先训练的辊道设定速度评价模型进行更新，并利用更新后的辊道设定速度评价模型对辊道设定速度确定模型进行更新，通过不断对两个模型进行更新，以基于更新后的辊道设定速度确定模型确定辊道设定速度，一方面转钢开始时所使用的模型是预先进行离线训练得到的，避免了在训练初期所产生的试错动作和无效数据，节省了在线的计算资源；另一方面通过对两个模型进行实时更新，使得输出的辊道设定速度更适用于当前钢坯，从而提高了辊道设定速度的确定精准度。

进一步的，作为对上述图1所示方法的实现，本申请实施例提供了一种转钢辊道设定速度的确定装置，如图3所示，该装置包括：

获取生产状态数据模块31，在线训练集生成模块32，评价模型更新模块33，确定模型更新模块34，辊道设定速度确定模块35。

获取生产状态数据模块31，用于转钢系统开始工作后，获取当前钢坯转钢时的生产状态数据；

在线训练集生成模块32，用于基于预先训练的辊道设定速度确定模型根据所述生产状态数据确定辊道设定速度，并基于所述辊道设定速度对下一块钢坯进行转钢操作，根据所述下一块钢坯的转钢结束角度计算所述下一块钢坯在转钢过程中各个转钢序列的即时奖励值，生成在线训练集，所述在线训练集包括所述生产状态数据、辊道设定速度、即时奖励值；

评价模型更新模块33，用于基于所述在线训练集对预先训练的辊道设定速度评价模型进行更新，得到更新后的辊道设定速度评价模型，并基于所述更新后的辊道设定速度评价模型对所述在线训练集中的辊道设定速度进行评价处理，得到各个所述转钢序列的期望回报；

确定模型更新模块34，用于基于所述期望回报相对于辊道设定速度确定模型参数的梯度函数，利用所述在线训练集和所述梯度函数对所述辊道设定速度确定模型进行更新，得到更新后的辊道设定速度确定模型；

辊道设定速度确定模块35，用于在转钢系统工作过程中，重复上述过程对所述辊道设定速度评价模型以及所述辊道设定速度确定模型进行实时更新，以基于实时更新的辊道设定速度确定模型确定的辊道设定速度对转钢操作进行控制。

优选的，所述在线训练集生成模块之前，所述装置还包括：

优选的，所述评价模型预训练模块，具体用于：

构建初始辊道设定速度评价模型；

优选的，所述确定模型预训练模块，具体用于：

构建初始辊道设定速度确定模型；

优选的，所述离线训练集生成模块，具体用于：

所述评价模型更新模块，用于：

所述确定模型更新模块，用于：

所述存储模块还用于：

本申请提供了一种转钢辊道设定速度的确定装置，首先转钢系统开始工作后，获取当前钢坯转钢时的生产状态数据；进一步的，基于预先训练的辊道设定速度确定模型根据所述生产状态数据确定辊道设定速度，并基于所述辊道设定速度对下一块钢坯进行转钢操作，根据所述下一块钢坯的转钢结束角度计算所述下一块钢坯在转钢过程中各个转钢序列的即时奖励值，生成在线训练集，所述在线训练集包括所述生产状态数据、辊道设定速度、即时奖励值；进一步的，基于所述在线训练集对预先训练的辊道设定速度评价模型进行更新，得到更新后的辊道设定速度评价模型，并基于所述更新后的辊道设定速度评价模型对所述在线训练集中的辊道设定速度进行评价处理，得到各个所述转钢序列的期望回报；进一步的，基于所述期望回报相对于辊道设定速度确定模型参数的梯度函数，利用所述在线训练集和所述梯度函数对所述辊道设定速度确定模型进行更新，得到更新后的辊道设定速度确定模型；进一步的，在转钢系统工作过程中，重复上述过程对所述辊道设定速度评价模型以及所述辊道设定速度确定模型进行实时更新，以基于实时更新的辊道设定速度确定模型确定的辊道设定速度对转钢操作进行控制。与现有技术相比，本申请实施例首先利用预先训练的辊道设定速度确定模型根据当前钢坯转钢时的生产状态数据确定辊道设定速度，用于对下一块钢坯的转钢操作，并根据该下一块钢坯的生产状态数据以及计算得到的各个转钢序列的即时奖励值生成在线训练集，进一步，利用该在线训练集对预先训练的辊道设定速度评价模型进行更新，并利用更新后的辊道设定速度评价模型对辊道设定速度确定模型进行更新，通过不断对两个模型进行更新，以基于更新后的辊道设定速度确定模型确定辊道设定速度，一方面转钢开始时所使用的模型是预先进行离线训练得到的，避免了在训练初期所产生的试错动作和无效数据，节省了在线的计算资源；另一方面通过对两个模型进行实时更新，使得输出的辊道设定速度更适用于当前钢坯，从而提高了辊道设定速度的确定精准度。

根据本申请一个实施例提供了一种存储介质，所述存储介质存储有至少一条可执行指令，该计算机可执行指令可执行上述任意方法实施例中的转钢辊道设定速度的确定方法。

基于这样的理解，本申请的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质（可以是CD-ROM，U盘，移动硬盘等）中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本申请各个实施场景所述的方法。

图4示出了根据本申请一个实施例提供的一种终端的结构示意图，本申请具体实施例并不对终端的具体实现做限定。

如图4所示，该终端可以包括：处理器402、通信接口404、存储器406、以及通信总线408。

其中：处理器402、通信接口404、以及存储器406通过通信总线408完成相互间的通信。

通信接口404，用于与其它设备比如客户端或其它服务器等的网元通信。

处理器402，用于执行程序410，具体可以执行上述转钢辊道设定速度的确定方法实施例中的相关步骤。

具体地，程序410可以包括程序代码，该程序代码包括计算机操作指令。

处理器402可能是中央处理器CPU，或者是特定集成电路ASIC（ApplicationSpecific Integrated Circuit），或者是被配置成实施本申请实施例的一个或多个集成电路。计算机设备包括的一个或多个处理器，可以是同一类型的处理器，如一个或多个CPU；也可以是不同类型的处理器，如一个或多个CPU以及一个或多个ASIC。

存储器406，用于存放程序410。存储器406可能包含高速RAM存储器，也可能还包括非易失性存储器（non-volatile memory），例如至少一个磁盘存储器。

程序410具体可以用于使得处理器402执行以下操作：

存储介质中还可以包括操作系统、网络通信模块。操作系统是管理上述转钢辊道设定速度的确定方法的实体设备硬件和软件资源的程序，支持信息处理程序以及其它软件和/或程序的运行。网络通信模块用于实现存储介质内部各组件之间的通信，以及与信息处理实体设备中其它硬件和软件之间通信。

本说明书中各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言，由于其与方法实施例基本对应，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

可能以许多方式来实现本申请的方法和系统。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本申请的方法和系统。用于所述方法的步骤的上述顺序仅是为了进行说明，本申请的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本申请实施为记录在记录介质中的程序，这些程序包括用于实现根据本申请的方法的机器可读指令。因而，本申请还覆盖存储用于执行根据本申请的方法的程序的记录介质。

显然，本领域的技术人员应该明白，上述的本申请的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本申请不限制于任何特定的硬件和软件结合。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包括在本申请的保护范围之内。

Claims

1.一种转钢辊道设定速度的确定方法，其特征在于，包括：

在转钢系统工作过程中，重复上述过程对所述辊道设定速度评价模型以及所述辊道设定速度确定模型进行实时更新，以基于实时更新的辊道设定速度确定模型确定的辊道设定速度对转钢操作进行控制；

所述基于预先训练的辊道设定速度确定模型根据所述生产状态数据确定辊道设定速度之前，所述方法还包括：

2.根据权利要求1所述的方法，其特征在于，所述构建初始辊道设定速度评价模型，并基于所述离线训练集对所述初始辊道设定速度评价模型进行离线训练，以得到预先训练的辊道设定速度评价模型，具体包括：

构建初始辊道设定速度评价模型；

3.根据权利要求2所述方法，其特征在于，所述构建初始辊道设定速度确定模型，并基于历史期望回报相对于所述初始辊道设定速度确定模型参数的梯度函数，利用所述离线训练集和所述梯度函数对所述初始辊道设定速度确定模型进行离线训练，得到预先训练的辊道设定速度确定模型，具体包括：

构建初始辊道设定速度确定模型；

4.根据权利要求1所述的方法，其特征在于，所述基于多块历史钢坯转钢时的历史生产状态数据以及历史辊道设定速度，生成离线训练集，具体包括：

5.根据权利要求1所述的方法，其特征在于，所述生产状态数据包括钢坯尺寸、钢坯实时旋转角度、辊道反馈速度。

6.根据权利要求1-5任一所述的方法，其特征在于，将所述在线训练集以及所述离线训练集存储于经验缓存区；

所述利用所述在线训练集对所述辊道设定速度确定模型进行更新，得到更新后的辊道设定速度确定模型，包括：

在所述训练样本对所述辊道设定速度确定模型进行更新，得到更新后的辊道设定速度确定模型；

所述方法还包括：

7.一种转钢辊道设定速度的确定装置，其特征在于，包括：

辊道设定速度确定模块，用于在转钢系统工作过程中，重复上述过程对所述辊道设定速度评价模型以及所述辊道设定速度确定模型进行实时更新，以基于实时更新的辊道设定速度确定模型确定的辊道设定速度对转钢操作进行控制；

所述在线训练集生成模块之前，所述装置还包括：

8.一种存储介质，所述存储介质中存储有至少一条可执行指令，其特征在于，所述可执行指令使处理器执行如权利要求1-6中任一项所述的转钢辊道设定速度的确定方法对应的操作。

9.一种电子设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

所述存储器用于存放至少一条可执行指令，其特征在于，所述可执行指令使所述处理器执行如权利要求1-6中任一项所述的转钢辊道设定速度的确定方法对应的操作。