CN117539209A

CN117539209A - 转钢控制方法、装置、计算机设备及计算机可读存储介质

Info

Publication number: CN117539209A
Application number: CN202410028548.0A
Authority: CN
Inventors: 何纯玉; 薛松; 矫志杰; 吴志强; 赵忠; 王君
Original assignee: 东北大学
Priority date: 2024-01-09
Filing date: 2024-01-09
Publication date: 2024-02-09
Anticipated expiration: 2044-01-09
Also published as: CN117539209B

Abstract

本申请公开了一种转钢控制方法、装置、计算机设备及计算机可读存储介质，涉及轧制与强化学习控制技术领域，采用人工转钢操作大数据得出最优辊道速度设定规则，基于机理模型进行数学建模，以实际转钢过程中钢坯转角的变化构建数学模型对转钢过程进行仿真，然后基于强化学习理论，针对转钢运动模型定义强化学习要素，明确状态空间、动作空间的形式，根据状态转移方程进行状态更新，并设计奖励函数，构建转钢智能控制的强化学习模型。通过强化学习算法训练，当输入钢坯长宽、实时角度等状态信息时，确定出钢坯最合适的速度转折角度，控制锥形辊道的速度设定，实现钢坯的快速转钢，并提升控制精度。

Description

转钢控制方法、装置、计算机设备及计算机可读存储介质

技术领域

本申请涉及轧制与强化学习控制技术领域，特别是涉及一种转钢控制方法、装置、计算机设备及计算机可读存储介质。

背景技术

随着轧制工艺的快速发展，在宽厚板的生产过程中，为满足展宽阶段轧制工艺的要求，需要在某些道次进行1-2次的转钢操作。实际操作为将钢坯旋转90度，使得长、宽尺寸对调。操作工通过目视查看现场锥形辊道转钢区域，确定转钢辊道的速度设定及转钢方向，当钢坯转到合适角度时，停止转钢。

相关技术中，传统的人工转钢操作是通过目测判断钢坯的到位情况，手动进行锥形辊道变频电机转速的设定，通过对钢坯转动状态进行调整，完成转钢操作。但是申请人认识到，在转钢的过程中，根据钢坯的尺寸变化，所需要的转钢控制策略也各不相同，同时由于转钢过程具有非线性、高时滞的特点，导致对于转钢过程的精确控制变得十分困难，而且操作工频繁地手动干预会增加转钢时间、降低生产率，导致操作人员劳动强度大，制约钢厂轧制节奏。

发明内容

有鉴于此，本申请提供了一种转钢控制方法、装置、计算机设备及计算机可读存储介质，主要目的在于解决：在转钢的过程中，根据钢坯的尺寸变化，所需要的转钢控制策略也各不相同，同时由于转钢过程具有非线性、高时滞的特点，导致对于转钢过程的精确控制变得十分困难，而且操作工频繁地手动干预会增加转钢时间、降低生产率，导致操作人员劳动强度大，制约钢厂轧制节奏的问题。

依据本申请第一方面，提供了一种转钢控制方法，该方法包括：

获取多个最优转钢数据和一阶控制系统的传递函数模型，采用所述多个最优转钢数据对所述传递函数模型进行仿真实验，采用基于所述仿真实验的仿真结果确定的多个模型参数对所述传递函数模型进行调整，得到锥形辊道电机设定速度与反馈速度模型；

获取钢坯转速理论公式，采用所述钢坯转速理论公式进行模型构建，得到钢坯转速模型，采用所述多个最优转钢数据确定转钢过程最优辊道速度设定规则，根据所述锥形辊道电机设定速度与反馈速度模型、所述钢坯转速模型、所述转钢过程最优辊道速度设定规则设定转钢仿真环境；

获取强化学习近端策略优化算法，采用所述强化学习近端策略优化算法对所述转钢仿真环境进行训练，得到多个最优转钢速度设定策略，将所述多个最优转钢速度设定策略存储至数据库；

当检测到钢坯转钢请求时，获取所述钢坯转钢请求携带的待转钢坯状态信息，在所述数据库中获取所述待转钢坯状态信息对应的目标最优转钢速度设定策略，基于所述目标最优转钢速度设定策略控制锥形辊道变频电机。

可选地，所述获取多个最优转钢数据，包括：

在所述数据库中获取历史人工操作转钢数据集，获取数据预处理算法，采用所述数据预处理算法对所述历史人工操作转钢数据集进行处理，得到所述多个最优转钢数据，所述最优转钢数据包括钢坯状态信息、转钢过程中的多个辊道速度控制指令以及执行每个所述辊道速度控制指令后的状态变化信息，所述钢坯状态信息包括钢号、钢坯长度值、钢坯宽度值、旋转角度。

可选地，所述采用所述钢坯转速理论公式进行模型构建，得到钢坯转速模型，包括：

在所述多个最优转钢数据中读取多个钢坯状态信息，采用所述钢坯转速理论公式分别对所述多个钢坯状态信息进行计算，得到多个钢坯转速数据；

采用所述多个钢坯转速数据与所述多个最优转钢数据进行比对；

若比对确定所述多个钢坯转速数据与所述多个最优转钢数据一致，则采用所述钢坯转速理论公式进行模型构建，得到所述钢坯转速模型。

可选地，所述根据所述锥形辊道电机设定速度与反馈速度模型、所述钢坯转速模型、所述转钢过程最优辊道速度设定规则设定转钢仿真环境，包括：

对于每个所述最优转钢数据，在所述最优转钢数据中获取钢坯长度值、钢坯宽度值、钢坯初始角度，将所述钢坯长度值、所述钢坯宽度值、所述钢坯初始角度作为第一状态，根据所述最优转钢数据确定第一设定速度，将所述第一设定速度作为第一动作，以及在所述第一状态下执行所述第一动作，得到第一奖励值和第二状态；

根据所述最优转钢数据确定第二设定速度，将所述第二设定速度作为第二动作，并基于所述第二状态、所述第二动作进行下一轮的训练，以迭代训练得到多个状态、多个动作、多个奖励值；

基于所述多个状态、所述多个动作、所述多个奖励值绘制所述最优转钢数据的钢坯转钢状态信息；

获取每个所述最优转钢数据的钢坯转钢状态信息，得到多个钢坯转钢状态信息，采用所述多个钢坯转钢状态信息构建所述转钢仿真环境。

可选地，所述在所述第一状态下执行所述第一动作，得到第一奖励值和第二状态，包括：

将所述第一动作输入至所述锥形辊道电机设定速度与反馈速度模型，获取所述锥形辊道电机设定速度与反馈速度模型输出的第一辊道反馈速度；

将所述第一辊道反馈速度、所述第一状态输入至所述钢坯转速模型，获取所述钢坯转速模型输出的第一实时角速度；

获取预设时间间隔，在所述第一状态中读取所述钢坯初始角度，将所述第一实时角速度与所述预设时间间隔的乘积加上所述钢坯初始角度的值作为钢坯当前角度，将所述钢坯长度值、所述钢坯宽度值、所述钢坯当前角度作为所述第二状态；

获取奖励值计算公式，采用所述奖励值计算公式对所述钢坯当前角度进行计算，得到所述第一奖励值。

可选地，所述方法还包括：

在所述迭代训练过程中，持续检测辊道反馈速度；

当检测到所述辊道反馈速度为零时，结束所述迭代训练。

可选地，所述采用所述强化学习近端策略优化算法对所述转钢仿真环境进行训练，得到多个最优转钢速度设定策略，包括：

对所述转钢仿真环境进行策略采样，得到多个采样轨迹，所述采样轨迹包括多个状态、多个动作、多个奖励值；

对于每个所述采样轨迹，将所述采样轨迹输入至价值网络，得到状态动作优势集合，获取最小均方差计算方法，采用所述最小均方差计算方法对所述状态动作优势集合进行计算，得到优势函数，采用所述优势函数更新所述价值网络；

在所述采样轨迹中提取多个状态和多个动作，将所述多个状态输入新策略网络和旧策略网络中，得到第一正态分布和第二正态分布，采用所述多个动作对所述第一正态分布和所述第二正态分布进行求解计算，得到第一概率和第二概率，采用所述第一概率和所述第二概率进行计算，得到目标权重；

获取损失函数，采用所述目标权重对所述损失函数进行计算，得到目标损失函数，采用所述目标损失函数更新所述新策略网络；

获取预设执行次数，按照所述预设执行次数采用所述多个状态和所述多个动作更新所述新策略网络，得到目标新策略网络，获取所述目标新策略网络的目标参数，采用所述目标参数对所述旧策略网络进行更新，得到所述采样轨迹对应的最优转钢速度设定策略；

获取每个所述采样轨迹对应的最优转钢速度设定策略，得到所述多个最优转钢速度设定策略。

依据本申请第二方面，提供了一种转钢控制装置，该装置包括：

调整模块，用于获取多个最优转钢数据和一阶控制系统的传递函数模型，采用所述多个最优转钢数据对所述传递函数模型进行仿真实验，采用基于所述仿真实验的仿真结果确定的多个模型参数对所述传递函数模型进行调整，得到锥形辊道电机设定速度与反馈速度模型；

设定模块，用于获取钢坯转速理论公式，采用所述钢坯转速理论公式进行模型构建，得到钢坯转速模型，采用所述多个最优转钢数据确定转钢过程最优辊道速度设定规则，根据所述锥形辊道电机设定速度与反馈速度模型、所述钢坯转速模型、所述转钢过程最优辊道速度设定规则设定转钢仿真环境；

训练模块，用于获取强化学习近端策略优化算法，采用所述强化学习近端策略优化算法对所述转钢仿真环境进行训练，得到多个最优转钢速度设定策略，将所述多个最优转钢速度设定策略存储至数据库；

控制模块，用于当检测到钢坯转钢请求时，获取所述钢坯转钢请求携带的待转钢坯状态信息，在所述数据库中获取所述待转钢坯状态信息对应的目标最优转钢速度设定策略，基于所述目标最优转钢速度设定策略控制锥形辊道变频电机。

可选地，所述调整模块，用于在所述数据库中获取历史人工操作转钢数据集，获取数据预处理算法，采用所述数据预处理算法对所述历史人工操作转钢数据集进行处理，得到所述多个最优转钢数据，所述最优转钢数据包括钢坯状态信息、转钢过程中的多个辊道速度控制指令以及执行每个所述辊道速度控制指令后的状态变化信息，所述钢坯状态信息包括钢号、钢坯长度值、钢坯宽度值、旋转角度。

可选地，所述设定模块，用于在所述多个最优转钢数据中读取多个钢坯状态信息，采用所述钢坯转速理论公式分别对所述多个钢坯状态信息进行计算，得到多个钢坯转速数据；采用所述多个钢坯转速数据与所述多个最优转钢数据进行比对；若比对确定所述多个钢坯转速数据与所述多个最优转钢数据一致，则采用所述钢坯转速理论公式进行模型构建，得到所述钢坯转速模型。

可选地，所述设定模块，用于对于每个所述最优转钢数据，在所述最优转钢数据中获取钢坯长度值、钢坯宽度值、钢坯初始角度，将所述钢坯长度值、所述钢坯宽度值、所述钢坯初始角度作为第一状态，根据所述最优转钢数据确定第一设定速度，将所述第一设定速度作为第一动作，以及在所述第一状态下执行所述第一动作，得到第一奖励值和第二状态；根据所述最优转钢数据确定第二设定速度，将所述第二设定速度作为第二动作，并基于所述第二状态、所述第二动作进行下一轮的训练，以迭代训练得到多个状态、多个动作、多个奖励值；基于所述多个状态、所述多个动作、所述多个奖励值绘制所述最优转钢数据的钢坯转钢状态信息；获取每个所述最优转钢数据的钢坯转钢状态信息，得到多个钢坯转钢状态信息，采用所述多个钢坯转钢状态信息构建所述转钢仿真环境。

可选地，所述设定模块，用于将所述第一动作输入至所述锥形辊道电机设定速度与反馈速度模型，获取所述锥形辊道电机设定速度与反馈速度模型输出的第一辊道反馈速度；将所述第一辊道反馈速度、所述第一状态输入至所述钢坯转速模型，获取所述钢坯转速模型输出的第一实时角速度；获取预设时间间隔，在所述第一状态中读取所述钢坯初始角度，将所述第一实时角速度与所述预设时间间隔的乘积加上所述钢坯初始角度的值作为钢坯当前角度，将所述钢坯长度值、所述钢坯宽度值、所述钢坯当前角度作为所述第二状态；获取奖励值计算公式，采用所述奖励值计算公式对所述钢坯当前角度进行计算，得到所述第一奖励值。

可选地，所述设定模块，用于在所述迭代训练过程中，持续检测辊道反馈速度；当检测到所述辊道反馈速度为零时，结束所述迭代训练。

可选地，所述训练模块，用于对所述转钢仿真环境进行策略采样，得到多个采样轨迹，所述采样轨迹包括多个状态、多个动作、多个奖励值；对于每个所述采样轨迹，将所述采样轨迹输入至价值网络，得到状态动作优势集合，获取最小均方差计算方法，采用所述最小均方差计算方法对所述状态动作优势集合进行计算，得到优势函数，采用所述优势函数更新所述价值网络；在所述采样轨迹中提取多个状态和多个动作，将所述多个状态输入新策略网络和旧策略网络中，得到第一正态分布和第二正态分布，采用所述多个动作对所述第一正态分布和所述第二正态分布进行求解计算，得到第一概率和第二概率，采用所述第一概率和所述第二概率进行计算，得到目标权重；获取损失函数，采用所述目标权重对所述损失函数进行计算，得到目标损失函数，采用所述目标损失函数更新所述新策略网络；获取预设执行次数，按照所述预设执行次数采用所述多个状态和所述多个动作更新所述新策略网络，得到目标新策略网络，获取所述目标新策略网络的目标参数，采用所述目标参数对所述旧策略网络进行更新，得到所述采样轨迹对应的最优转钢速度设定策略；获取每个所述采样轨迹对应的最优转钢速度设定策略，得到所述多个最优转钢速度设定策略。

依据本申请第三方面，提供了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述第一方面中任一项所述方法的步骤。

依据本申请第四方面，提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述第一方面中任一项所述的方法的步骤。

借由上述技术方案，本申请提供一种转钢控制方法、装置、计算机设备及计算机可读存储介质，获取多个最优转钢数据和一阶控制系统的传递函数模型，采用多个最优转钢数据对传递函数模型进行仿真实验，采用基于仿真实验的仿真结果确定的多个模型参数对传递函数模型进行调整，得到锥形辊道电机设定速度与反馈速度模型，获取钢坯转速理论公式，采用钢坯转速理论公式进行模型构建，得到钢坯转速模型，采用多个最优转钢数据确定转钢过程最优辊道速度设定规则，根据锥形辊道电机设定速度与反馈速度模型、钢坯转速模型、转钢过程最优辊道速度设定规则设定转钢仿真环境，获取强化学习近端策略优化算法，采用强化学习近端策略优化算法对转钢仿真环境进行训练，得到多个最优转钢速度设定策略，将多个最优转钢速度设定策略存储至数据库，当检测到钢坯转钢请求时，获取钢坯转钢请求携带的待转钢坯状态信息，在数据库中获取待转钢坯状态信息对应的目标最优转钢速度设定策略，基于目标最优转钢速度设定策略控制锥形辊道变频电机，采用人工转钢操作大数据得出最优辊道速度设定规则，基于机理模型进行数学建模，以实际转钢过程中钢坯转角的变化构建数学模型对转钢过程进行仿真，然后基于强化学习理论，针对转钢运动模型定义强化学习要素，明确状态空间、动作空间的形式，根据状态转移方程进行状态更新，并设计奖励函数，构建转钢智能控制的强化学习模型。通过强化学习算法训练，当输入钢坯长宽、实时角度等状态信息时，确定出钢坯最合适的速度转折角度，控制锥形辊道的速度设定，实现钢坯的快速转钢，并提升控制精度。

上述说明仅是本申请技术方案的概述，为了能够更清楚了解本申请的技术手段，而可依照说明书的内容予以实施，并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂，以下特举本申请的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本申请的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了本申请实施例提供的一种转钢控制的方法流程示意图；

图2示出了本申请实施例提供的另一种转钢控制的方法流程示意图；

图3示出了本申请实施例提供的宽厚板转钢辊道布置示意图；

图4示出了本申请实施例提供的一阶线性控制系统输入和反馈示意图；

图5示出了本申请实施例提供的锥形辊道尺寸示意图；

图6示出了本申请实施例提供的钢坯与辊道尺寸示意图；

图7示出了本申请实施例提供的PPO算法框架示意图；

图8示出了本申请实施例提供的转钢策略设定相关变量曲线示意图；

图9示出了本申请实施例提供的一种转钢控制的结构示意图；

图10示出了本申请实施例提供的一种计算机设备的装置结构示意图。

具体实施方式

下面将参照附图更详细地描述本申请的示例性实施例。虽然附图中显示了本申请的示例性实施例，然而应当理解，可以以各种形式实现本申请而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本申请，并且能够将本申请的范围完整的传达给本领域的技术人员。

本申请实施例提供了一种转钢控制方法，如图1所示，该方法包括：

101、获取多个最优转钢数据和一阶控制系统的传递函数模型，采用多个最优转钢数据对传递函数模型进行仿真实验，采用基于仿真实验的仿真结果确定的多个模型参数对传递函数模型进行调整，得到锥形辊道电机设定速度与反馈速度模型。

传统的人工转钢操作通过目测判断钢坯的到位情况，手动进行锥形辊道变频电机转速的设定，通过对钢坯转动状态进行调整，完成转钢操作。但是，在转钢的过程中，根据钢坯的尺寸变化，所需要的转钢控制策略也各不相同，同时由于转钢过程具有非线性、高时滞的特点，导致对于转钢过程的精确控制变得十分困难。而且，操作工频繁地手动干预大大增加转钢时间，降低生产率。

为解决这一问题，本申请提出一种转钢控制方法，基于强化学习算法，以转钢时间为约束条件，通过对人工转钢数据进行分析总结，得出最优转钢速度设定策略，从而实现快速转钢，提升转钢的控制精度。本申请的执行主体可以是转钢控制系统，转钢控制系统面向用户提供前端应用，也即提供客户端，用户（比如工作人员）可以基于前端应用请求进行转钢控制，以使转钢控制系统依靠服务器的计算能力为用户提供转钢控制服务，服务器可以是独立的服务器，也可以提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络（Content Delivery Network，CDN）、以及大数据和人工智能平台等基础云计算的服务器，以便转钢控制系统实现宽厚板转钢过程最优的锥形辊道速度设定功能。

在本申请实施例中，转钢控制系统获取多个最优转钢数据和一阶控制系统的传递函数模型，其中，在转钢过程中，对于钢坯的每个状态操作工要设定一个控制指令（即辊道速度），完成控制指令后钢坯的状态发生变化（即旋转角度增加），操作工再进行控制指令设定，直到钢坯旋转90度附近，所以，最优转钢数据是包括钢坯的状态信息（钢号、长宽、旋转角度等），以及整个转钢过程的状态和指令信息。本申请通过对转钢过程相关变量曲线变化进行分析，认识到降速阶段依靠惯性减速，减速曲线斜率保持在某个常值附近，所以转钢过程可以近似用一阶线性控制系统来描述辊道电机设定速度与实际反馈速度之间的关系。因此，转钢控制系统采用多个最优转钢数据对传递函数模型进行仿真实验，并采用基于仿真实验的仿真结果确定的多个模型参数对传递函数模型进行调整，得到锥形辊道电机设定速度与反馈速度模型，从而通过确定一阶线性控制系统的相关参数，模拟转钢过程辊道减速阶段电机设定速度与反馈速度之间的关系。

102、获取钢坯转速理论公式，采用钢坯转速理论公式进行模型构建，得到钢坯转速模型，采用多个最优转钢数据确定转钢过程最优辊道速度设定规则，根据锥形辊道电机设定速度与反馈速度模型、钢坯转速模型、转钢过程最优辊道速度设定规则设定转钢仿真环境。

转钢过程中，电机带动锥形辊道旋转，钢坯搭接在锥形辊道上因摩擦力带给钢坯旋转加速度，造成钢坯旋转，因此，本申请以实际转钢过程中发生的物理变化为基础，构建数学方程确定钢坯的角速度与其它因素之间的关系，进而精确预测钢坯转角的变化情况。在本申请实施例中，转钢控制系统获取钢坯转速理论公式，采用钢坯转速理论公式进行模型构建，得到钢坯转速模型，从而实现精确预估整个转钢过程中的角度变化情况。接着，转钢控制系统采用多个最优转钢数据确定转钢过程最优辊道速度设定规则。然后，转钢控制系统根据锥形辊道电机设定速度与反馈速度模型、钢坯转速模型、转钢过程最优辊道速度设定规则设定转钢仿真环境，满足真实环境下锥形辊道的速度和钢坯角度变化情况的实验场景，以便转钢控制系统在不同的钢坯状态下给出最优的辊道速度设定，提升转钢控制精度。

103、获取强化学习近端策略优化算法，采用强化学习近端策略优化算法对转钢仿真环境进行训练，得到多个最优转钢速度设定策略，将多个最优转钢速度设定策略存储至数据库。

在本申请实施例中，转钢控制系统获取强化学习近端策略优化算法，采用强化学习近端策略优化算法对转钢仿真环境进行训练，得到多个最优转钢速度设定策略，并将多个最优转钢速度设定策略存储至数据库，这样，使用PPO（Proximal Policy Optimization，近端策略优化）算法训练自动转钢智能体策略网络，能够获得最优的控制参数实现快速转钢，同时对不同规格的钢坯确定最优转钢速度设定策略，满足快速转钢的要求。

104、当检测到钢坯转钢请求时，获取钢坯转钢请求携带的待转钢坯状态信息，在数据库中获取待转钢坯状态信息对应的目标最优转钢速度设定策略，基于目标最优转钢速度设定策略控制锥形辊道变频电机。

在本申请实施例中，转钢控制系统当检测到钢坯转钢请求时，获取钢坯转钢请求携带的待转钢坯状态信息。接着，转钢控制系统在数据库中获取待转钢坯状态信息对应的目标最优转钢速度设定策略，并基于目标最优转钢速度设定策略控制锥形辊道变频电机，这样，能够以最短转钢时间为最终目标，根据钢坯实时转动信息给出最优的转钢辊道速度设定，能够大大提高生产率，提升转钢控制精度，加快钢板轧制节奏。需要说明的是，本申请基于智能体与虚拟环境大量的交互与试错，采用数据挖掘算法，对不同规格的钢坯确定最优转钢速度设定策略，满足快速转钢的要求。

本申请实施例提供的方法，获取多个最优转钢数据和一阶控制系统的传递函数模型，采用多个最优转钢数据对传递函数模型进行仿真实验，采用基于仿真实验的仿真结果确定的多个模型参数对传递函数模型进行调整，得到锥形辊道电机设定速度与反馈速度模型，获取钢坯转速理论公式，采用钢坯转速理论公式进行模型构建，得到钢坯转速模型，采用多个最优转钢数据确定转钢过程最优辊道速度设定规则，根据锥形辊道电机设定速度与反馈速度模型、钢坯转速模型、转钢过程最优辊道速度设定规则设定转钢仿真环境，获取强化学习近端策略优化算法，采用强化学习近端策略优化算法对转钢仿真环境进行训练，得到多个最优转钢速度设定策略，将多个最优转钢速度设定策略存储至数据库，当检测到钢坯转钢请求时，获取钢坯转钢请求携带的待转钢坯状态信息，在数据库中获取待转钢坯状态信息对应的目标最优转钢速度设定策略，基于目标最优转钢速度设定策略控制锥形辊道变频电机，采用人工转钢操作大数据得出最优辊道速度设定规则，基于机理模型进行数学建模，以实际转钢过程中钢坯转角的变化构建数学模型对转钢过程进行仿真，然后基于强化学习理论，针对转钢运动模型定义强化学习要素，明确状态空间、动作空间的形式，根据状态转移方程进行状态更新，并设计奖励函数，构建转钢智能控制的强化学习模型。通过强化学习算法训练，当输入钢坯长宽、实时角度等状态信息时，确定出钢坯最合适的速度转折角度，控制锥形辊道的速度设定，实现钢坯的快速转钢，并提升控制精度。

进一步的，作为上述实施例具体实施方式的细化和扩展，为了完整说明本实施例的具体实施过程，本申请实施例提供了另一种转钢控制方法，如图2所示，该方法包括：

201、采用数据预处理算法在历史人工操作转钢数据集中获取多个最优转钢数据。

在本申请实施例中，如图3所示，宽厚板转钢辊道布置包括转钢区域301、奇数锥形辊302、偶数锥形辊303、钢坯304、辊道中心线305、侧导板306和轧机307。转钢过程是变频电机在转钢区域301控制奇数锥形辊302和偶数锥形辊303两组工作辊正、反转，从而控制钢坯304的运行和旋转，当钢坯304在辊道中心线305上旋转到合适位置时，停止转钢启动推床，侧导板306从两边向中间靠拢，由于侧导板306的挤推作用使钢坯304被摆放在辊道正中央，并被调整成正确的合适轧制的模式位置。然后侧导板306回位，变频电机传动锥形辊同方向转动，实现钢坯304进入轧机307进行轧制。所以为实现宽厚板转钢过程最优的锥形辊道速度设定功能，本申请通过建立辊道速度仿真模型模拟锥形辊道设定速度与反馈速度的具体关系，结合钢坯尺寸、实时转角、辊道速度、锥形辊尺寸等推导钢坯角度变化公式，并建立转钢虚拟仿真环境模拟实际转钢过程。

首先，转钢控制系统在数据库中获取历史人工操作转钢数据集，历史人工操作转钢数据集是由安装在轧机前后转钢辊道附近的工业相机采集的钢坯尺寸和实时旋转角度信息，结合人工操作转钢过程的控制指令及辊道速度变化情况组成的。然后，转钢控制系统采用数据预处理算法对历史人工操作转钢数据集进行处理，得到多个最优转钢数据，其中，最优转钢数据包括钢号、钢坯长度值、钢坯宽度值、旋转角度等钢坯状态信息、转钢过程中的多个辊道速度控制指令以及执行每个辊道速度控制指令后的状态变化信息，采用数据预处理算法处理的过程就是在历史人工操作转钢数据集中提取时间最短、步序最少、最终角度接近90度的最优人工转钢数据，以便后续转钢控制系统搭建自动转钢虚拟环境。

202、获取一阶控制系统的传递函数模型，采用多个最优转钢数据对传递函数模型进行仿真实验，采用基于仿真实验的仿真结果确定的多个模型参数对传递函数模型进行调整，得到锥形辊道电机设定速度与反馈速度模型。

在本申请实施例中，通过对转钢过程相关变量曲线变化分析可知，降速阶段依靠惯性减速，减速曲线斜率保持在某个常值附近，所以转钢过程可以近似用一阶线性控制系统来描述辊道电机设定速度与实际反馈速度之间的关系。因此，转钢控制系统根据辊道降速过程的特点和系统需求，定义一阶控制系统的传递函数模型，并采用多个最优转钢数据对传递函数模型进行仿真实验。其中，一阶控制系统由一个一阶传递函数组成，如下述计算公式1：

公式1：

其中，T是时间常数，、/>是比例增益，x(t)为输入信号，y(t)为输出信号，dy(t)/ dt表示输出变量y(t)对时间t的导数（变化率）。

在仿真实验中选择合适的输入信号，本申请实施例选择与实际转钢过程相同的阶跃信号，通过调整比例增益和时间常数这两个关键参数使得仿真结果与实际结果接近。如图4所示，一阶线性控制系统的响应通常具有指数衰减或增长的特性，即输出信号会根据系统的传递函数以指数形式逐渐趋近于输入信号。因此，本申请在MATLAB（用于算法开发、数据可视化、数据分析以及数值计算的高级技术计算语言和交互式环境的软件）中的simulink（模块图环境，用于多域仿真以及基于模型的设计）模块进行仿真实验，先定义与最优转钢设定速度对应的阶跃信号（先是最大速度，之后速度为0），通过调节一阶传递函数的几个参数，让响应的曲线与真实数据一致。其中，一阶传递函数为上述公式1，在一阶线性控制系统输入和反馈示意图中，横坐标表示时间，单位是秒（s），纵坐标表示系统的响应或输出，名称为辊道速度，单位是米每秒（m / s）。输入信号为Input x(t)，表示转钢辊道设定速度，Input x(t)是系统的输入。输出信号为Output y(t)，表示转钢辊道反馈速度，Outputy(t)是系统对输入信号作出响应后所产生的信号。最后能够确定一阶仿真系统具体参数为：=1.5、/>=1.2、T=0.5。这样，通过仿真结果显示，使得系统指标能满足实际辊道降速过程的控制需求。

然后，转钢控制系统采用基于仿真实验的仿真结果确定的多个模型参数对传递函数模型进行调整，得到锥形辊道电机设定速度与反馈速度模型，这样，通过确定一阶线性控制系统的相关参数，能够准确模拟转钢过程辊道减速阶段电机设定速度与反馈速度之间的关系。

203、获取钢坯转速理论公式，采用钢坯转速理论公式进行模型构建，得到钢坯转速模型。

在转钢过程中，相邻锥形辊道速度设定相同，方向相反，使钢坯产生一个扭转力矩而旋转，其中，钢坯与辊道尺寸如图5、6所示，锥形辊道的辊道长度为6300mm，小端辊径为450mm，大端辊径/>为500mm，锥形辊锥度为/>，钢坯与锥形辊道接触位置的辊道直径为d，钢坯对角线在辊道轴向的投影/>，钢坯长度为L，钢坯宽度为W，实时转角为/>，锥形辊道与钢坯搭接处的线速度为/>。本申请为了获得最优转钢速度设定策略，结合钢坯尺寸、实时转角、辊道速度、锥形辊尺寸等推导钢坯角度变化公式，以精确预测钢坯转角的变化情况。在本申请实施例中，转钢控制系统在多个最优转钢数据中读取多个钢坯状态信息，采用钢坯转速理论公式分别对多个钢坯状态信息进行计算，得到多个钢坯转速数据。具体计算过程如下：

当钢坯转角为时，钢坯对角线在辊道轴向的投影的计算公式为下述公式2：

公式2：

其中，为钢坯对角线在辊道轴向的投影，L为钢坯长度，W为钢坯宽度，/>为实时转角。

钢坯与锥形辊道接触位置的辊道直径计算公式为下述公式3：

公式3：d

其中，d为钢坯与锥形辊道接触位置的辊道直径，为小端辊径，/>为大端辊径，为辊道长度，/>为锥形辊锥度。

钢坯与锥形辊道接触位置水平线速度的计算公式为下述公式4：

公式4：

其中，为钢坯与锥形辊道接触位置水平线速度，/>为锥形辊道与钢坯搭接处的线速度。

钢坯在转角时的角速度的计算公式为下述公式5：

公式5：

其中，为钢坯在转角/>时的角速度，/>。

基于上述计算过程，能够根据钢坯尺寸、辊道线速度、转角信息，计算得到钢坯的角速度，进而预估整个转钢过程中的角度变化情况。

然后，转钢控制系统采用多个钢坯转速数据与多个最优转钢数据进行比对；若比对确定多个钢坯转速数据与多个最优转钢数据一致，则说明通过公式计算出的角度变化情况与实际操作过程中的角度变化情况一致，所以转钢控制系统采用钢坯转速理论公式进行模型构建，得到钢坯转速模型。

204、采用多个最优转钢数据确定转钢过程最优辊道速度设定规则。

在本申请实施例中，通过分析总结操作工转钢经验，明确转钢过程最优辊道速度设定规则，就是人工操作数据中整体转钢时间最短，步序最少的规则。最优转钢速度设定规则为：在转钢开始时设定奇、偶两组锥形辊道速度，在合适的钢坯角度将辊道速度设为0，使钢坯依靠惯性减速，实现辊道速度为0时令钢坯旋转至90度附近位置。基于转钢过程最优辊道速度设定规则，转钢控制系统能够搭建强化学习环境，通过深度神经网络来拟合控制目标与相关自变量关系，从而在不同的钢坯状态下给出最优的辊道速度设定，以实现钢坯的快速转钢。

205、对于每个最优转钢数据，在最优转钢数据中获取钢坯长度值、钢坯宽度值、钢坯初始角度，将钢坯长度值、钢坯宽度值、钢坯初始角度作为第一状态。

在本申请实施例中，为了模拟钢坯在锥形辊道上的旋转运动过程，通过Gym（用于开发和比较强化学习算法的工具包）接口搭建自动转钢仿真环境，以满足真实环境下锥形辊道的速度和钢坯角度变化情况的实验场景训练。

具体地，转钢控制系统对于每个最优转钢数据，在最优转钢数据中获取钢坯长度值、钢坯宽度值、钢坯初始角度，将钢坯长度值、钢坯宽度值、钢坯初始角度作为第一状态。需要说明的是，根据实际转钢情况及控制系统的稳定性，为状态信息设定最大值和最小值，例如当前角度的最小值为0度、最大值为360度，钢坯长度的最小值为1000mm、最大值为3000mm，钢坯宽度的最小值为1000mm、最大值为3000mm，为连续量。

206、根据最优转钢数据确定第一设定速度，将第一设定速度作为第一动作，以及在第一状态下执行第一动作，得到第一奖励值和第二状态。

在本申请实施例中，将锥形辊道的动作空间分解为加速和减速两个阶段对锥形辊道进行连续的控制。需要说明的是，为了与真实世界的锥形辊道动作行为尽可能的保持一致，以1来表示辊道加速过程，0表示辊道通过惯性减速过程，为离散量。所以，将两个阶段的速度设定作为强化学习动作，比如动作为1时，表示加速阶段曲线，步长为20ms，动作为0时，表示减速阶段曲线，步长为20ms。随后，转钢控制系统将第一动作输入至锥形辊道电机设定速度与反馈速度模型，获取锥形辊道电机设定速度与反馈速度模型输出的第一辊道反馈速度，并将第一辊道反馈速度、第一状态输入至钢坯转速模型，获取钢坯转速模型输出的第一实时角速度。然后，转钢控制系统获取预设时间间隔，在第一状态中读取钢坯初始角度，将第一实时角速度与预设时间间隔的乘积加上钢坯初始角度的值作为钢坯当前角度，将钢坯长度值、钢坯宽度值、钢坯当前角度作为第二状态，其中，预设时间间隔为dt = 20ms。这样，环境接收到智能体传入的锥形辊道的动作设定后，会根据动作设定对应的设定速度计算辊道反馈速度，并通过钢坯转速理论公式计算实时角速度，角速度再经过间隔时间进行积分得到实时角度，能够得到精确的旋转角度。最后，转钢控制系统获取奖励值计算公式，采用奖励值计算公式对钢坯当前角度进行计算，得到第一奖励值，其中，奖励值计算公式为下述公式6：

公式6：

其中，当前角度为A，目标角度为T=90度，动作为action{0，1}，reward max 为奖励值的最大值，reward min 为奖励值的最小值，且/>。为引导性奖励，其目的是加快算法收敛，根据实际得到的转钢速度设定经验，0-30度内处于辊道加速阶段，60-90度内处于减速阶段，选取对应的动作将获得正向奖励1，错误动作则给予负向奖励-1。/>为稀疏奖励，是辊道反馈速度为0时，也就是这块钢坯所有动作都执行完毕后的奖励值，触发稀疏奖励时钢坯会结束本回合训练。根据目标角度与当前角度之间的差异结合奖励范围进行评分，如果钢坯旋转过程中超过目标角度，则获得负向奖励 -100。/>是总体奖励，每产生一个动作有单步奖励，回合结束有结束奖励，当前回合所有奖励累加为总体奖励。

其中，本申请对于奖励值计算公式的设计方案如下：

由于钢坯一次转钢完成后得到的实时角度与目标值90度越接近，说明该动作序列的表现越好，并为了保证最短的控制时间需要缩短转钢步序，所以本申请设置负向奖励和引导性奖励，使智能体尽快地结束探索。具体地，定义目标角度为，表示90度。接着，计算当前角度与目标角度之间的差值，并使用绝对值函数来确保计算结果为正数。随后，将差值除以目标角度，得到一个比例值，表示当前角度与目标角度的相似程度，并将比例值映射到[0，1]这个奖励区间上。然后，确定奖励的最高值和最低值，最高奖励设为100，最低奖励设为0，表示当角度完全等于目标角度时获得最高奖励，角度偏离目标角度越远，奖励越低。再使用线性插值函数y = kx + b将比例值映射到奖励值区间上，其中k和b为常数，x为比例值，y为奖励值。当实际角度超过目标角度时，结束探索并给予负向奖励。需要说明的是，为了加速算法收敛，根据实际得到的转钢速度设定经验，并在每次更新时设置引导性奖励。

207、根据最优转钢数据确定第二设定速度，将第二设定速度作为第二动作，并基于第二状态、第二动作进行下一轮的训练，以迭代训练得到多个状态、多个动作、多个奖励值，以及基于多个状态、多个动作、多个奖励值绘制最优转钢数据的钢坯转钢状态信息。

在本申请实施例中，转钢控制系统根据最优转钢数据确定第二设定速度，将第二设定速度作为第二动作，并基于第二状态、第二动作进行下一轮的训练，以迭代训练得到多个状态、多个动作、多个奖励值，以及基于多个状态、多个动作、多个奖励值绘制最优转钢数据的钢坯转钢状态信息。其中，在迭代训练过程中，转钢控制系统持续检测辊道反馈速度，当检测到辊道反馈速度为零时，结束迭代训练。可选地，得到钢坯转钢状态信息后重置环境，将初始角度设为0度，并生成一个随机长宽的钢坯，进行下一块钢坯的仿真过程。为了得到任意钢坯尺寸，都能得到最优的动作，所以生成另一种尺寸的钢坯，这样训练一定次数后，使所有尺寸的钢坯都完成仿真训练。

208、获取每个最优转钢数据的钢坯转钢状态信息，得到多个钢坯转钢状态信息，采用多个钢坯转钢状态信息构建转钢仿真环境。

在本申请实施例中，获取每个最优转钢数据的钢坯转钢状态信息，得到多个钢坯转钢状态信息。需要说明的是，多个最优转钢数据包括多个尺寸的钢坯转钢数据，这样，通过对不同尺寸的钢坯进行仿真训练，能够得到多个钢坯转钢状态信息，并采用多个钢坯转钢状态信息构建转钢仿真环境，能够满足不同规格钢坯的快速转钢操作。

209、获取强化学习近端策略优化算法，采用强化学习近端策略优化算法对转钢仿真环境进行训练，得到多个最优转钢速度设定策略，将多个最优转钢速度设定策略存储至数据库。

为了得到最优转钢速度设定策略，本申请采用强化学习近端策略优化算法对转钢仿真环境进行训练，得到多个最优转钢速度设定策略。在本申请实施例中，如图7所示，转钢控制系统先是初始化策略（Actor）网络参数、旧策略网络以及价值（Critic）网络参数。然后模拟钢坯在锥形辊道上的旋转运动过程，并将状态信息、动作信息、奖励信息作为状态终止奖励存储至记忆缓存区，其中，动作是通过对策略网络进行期望方差计算，从而实现随机动作采样得到的。再对记忆缓存区进行策略采样，得到多个采样轨迹，采样轨迹包括多个状态、多个动作、多个奖励值，比如{}，其中，在处于状态/>时进行随机动作采样，得到行动/>，在真实环境采取行动/>，从而导致其获得奖励/>并处于状态/>，将状态/>存储至策略网络并通过对行动/>，然后在处于状态/>时采取行动/>，从而导致其获得奖励/>并处于状态/>。接着，对于每个采样轨迹，转钢控制系统将采样轨迹输入至价值网络，得到状态动作优势集合，即/>。随后，转钢控制系统获取最小均方差计算方法，采用最小均方差计算方法对状态动作优势集合进行计算，得到最小化优势函数，采用最小化优势函数方向更新权重，从而更新价值网络。转钢控制系统在采样轨迹中提取多个状态和多个动作，将多个状态输入新策略网络和旧策略网络中，得到第一正态分布和第二正态分布，采用多个动作对第一正态分布和第二正态分布进行求解计算，得到第一概率和第二概率，并采用第一概率和第二概率进行计算，得到目标权重。然后，转钢控制系统获取损失函数，采用目标权重对损失函数进行计算，得到目标损失函数，并采用目标损失函数对新策略网络进行更新。基于上述过程，转钢控制系统按照预设执行次数采用多个状态和多个动作对新策略网络进行更新，得到目标新策略网络，并采用目标新策略网络的目标参数对旧策略网络进行更新，得到采样轨迹对应的最优转钢速度设定策略。最后，转钢控制系统获取每个采样轨迹对应的最优转钢速度设定策略，得到多个最优转钢速度设定策略。本申请的虚拟环境基于对大量生产数据的分析，结合物理公式和实际规则建立，在仿真模型中训练强化学习策略，最终移植到真实的物理环境中，可以对未知工况进行多次探索，无需在真实物理环境进行测试即可找到最优的辊道速度设定策略，能够满足快速转钢的要求，提升转钢控制精度。

可选地，还可以初始化强化学习算法参数，经验缓冲区存储为空，时间步为0，通过reset模块产生钢坯长宽、实时转角的状态数据，step模块（MATLAB中用于绘制单位阶跃响应的函数）产生锥形辊道速度设定动作，通过奖励函数计算单步动作的奖励值和最终奖励值，最终奖励，单步奖励是/>，将这些数据储存在经验缓冲区中，从而一次批量从经验缓冲区内获取64组数据进入网络进行参数更新。然后策略网络输入钢坯的状态信息，输出锥形辊道执行的动作，价值网络输入钢坯的状态和锥形辊道执行动作，输出对策略网络的评价值，以得到最优的速度设定策略。其中，深度神经网络均是由3层全连接层构成。重复以上步骤，计算强化学习算法的值函数和优势函数，然后计算损失函数更新策略网络和价值网络，确定网络训练收敛后，输出智能体的策略网络作为转钢策略模型部署在实际转钢环境。其中，强化学习算法的相关参数可以进行如下设置：Actor网络学习率的值为，Critic网络学习率的值为/>，折扣因子的值为0.98，训练轮数（episode）的值为5000，神经网络层数的值为3，每层隐藏神经元数量的值为128，激活函数为ReLU（Linearrectification function，线性整流函数），GAE参数的值为0.95，估计优势函数裁剪系数的值为0.2。基于上述过程能够最终移植到真实的转钢环境中，自动转钢策略网络输出的锥形辊道控制策略如图8所示，在真实的转钢环境中，自动转钢策略网络锥形辊道控制策略包括电机速度设定曲线、奇数辊电机速度反馈曲线、偶数辊电机速度反馈曲线、钢坯实时角度曲线、钢坯转折角度曲线以及转钢命令曲线，采用该锥形辊道控制策略就无需在真实物理环境进行测试即可找到最优的辊道速度设定，而且还可以根据不同规格的钢坯做出最优的辊道速度设定，使得自动转钢的锥形辊道达到预期的控制效果。

210、当检测到钢坯转钢请求时，获取钢坯转钢请求携带的待转钢坯状态信息，在数据库中获取待转钢坯状态信息对应的目标最优转钢速度设定策略，基于目标最优转钢速度设定策略控制锥形辊道变频电机。

在本申请实施例中，转钢控制系统当检测到钢坯转钢请求时，获取钢坯转钢请求携带的待转钢坯状态信息，在数据库中获取待转钢坯状态信息对应的目标最优转钢速度设定策略，基于目标最优转钢速度设定策略控制锥形辊道变频电机。本申请区别于传统基于人工根据经验的转钢过程，而是先对人工转钢操作数据进行分析总结，确认实际转钢操作的相关变量以及人工的操作过程，从中明确最优辊道速度设定规则，然后对最优转钢过程进行建模、仿真，使得建立的虚拟环境与真实环境一致，从而基于强化学习模型得到不同规格钢坯转钢辊道速度调整的策略，可得到更优的参数组合，提高转钢到位精度，缩短转钢时间。

进一步地，作为图1所述方法的具体实现，本申请实施例提供了一种转钢控制装置，如图9所示，所述装置包括：调整模块901，设定模块902，训练模块903和控制模块904。

调整模块901，用于获取多个最优转钢数据和一阶控制系统的传递函数模型，采用所述多个最优转钢数据对所述传递函数模型进行仿真实验，采用基于所述仿真实验的仿真结果确定的多个模型参数对所述传递函数模型进行调整，得到锥形辊道电机设定速度与反馈速度模型；

设定模块902，用于获取钢坯转速理论公式，采用所述钢坯转速理论公式进行模型构建，得到钢坯转速模型，采用所述多个最优转钢数据确定转钢过程最优辊道速度设定规则，根据所述锥形辊道电机设定速度与反馈速度模型、所述钢坯转速模型、所述转钢过程最优辊道速度设定规则设定转钢仿真环境；

训练模块903，用于获取强化学习近端策略优化算法，采用所述强化学习近端策略优化算法对所述转钢仿真环境进行训练，得到多个最优转钢速度设定策略，将所述多个最优转钢速度设定策略存储至数据库；

控制模块904，用于当检测到钢坯转钢请求时，获取所述钢坯转钢请求携带的待转钢坯状态信息，在所述数据库中获取所述待转钢坯状态信息对应的目标最优转钢速度设定策略，基于所述目标最优转钢速度设定策略控制锥形辊道变频电机。

在具体的应用场景中，该调整模块901，用于在所述数据库中获取历史人工操作转钢数据集，获取数据预处理算法，采用所述数据预处理算法对所述历史人工操作转钢数据集进行处理，得到所述多个最优转钢数据，所述最优转钢数据包括钢坯状态信息、转钢过程中的多个辊道速度控制指令以及执行每个所述辊道速度控制指令后的状态变化信息，所述钢坯状态信息包括钢号、钢坯长度值、钢坯宽度值、旋转角度。

在具体的应用场景中，该设定模块902，用于在所述多个最优转钢数据中读取多个钢坯状态信息，采用所述钢坯转速理论公式分别对所述多个钢坯状态信息进行计算，得到多个钢坯转速数据；采用所述多个钢坯转速数据与所述多个最优转钢数据进行比对；若比对确定所述多个钢坯转速数据与所述多个最优转钢数据一致，则采用所述钢坯转速理论公式进行模型构建，得到所述钢坯转速模型。

在具体的应用场景中，该设定模块902，用于对于每个所述最优转钢数据，在所述最优转钢数据中获取钢坯长度值、钢坯宽度值、钢坯初始角度，将所述钢坯长度值、所述钢坯宽度值、所述钢坯初始角度作为第一状态，根据所述最优转钢数据确定第一设定速度，将所述第一设定速度作为第一动作，以及在所述第一状态下执行所述第一动作，得到第一奖励值和第二状态；根据所述最优转钢数据确定第二设定速度，将所述第二设定速度作为第二动作，并基于所述第二状态、所述第二动作进行下一轮的训练，以迭代训练得到多个状态、多个动作、多个奖励值；基于所述多个状态、所述多个动作、所述多个奖励值绘制所述最优转钢数据的钢坯转钢状态信息；获取每个所述最优转钢数据的钢坯转钢状态信息，得到多个钢坯转钢状态信息，采用所述多个钢坯转钢状态信息构建所述转钢仿真环境。

在具体的应用场景中，该设定模块902，用于将所述第一动作输入至所述锥形辊道电机设定速度与反馈速度模型，获取所述锥形辊道电机设定速度与反馈速度模型输出的第一辊道反馈速度；将所述第一辊道反馈速度、所述第一状态输入至所述钢坯转速模型，获取所述钢坯转速模型输出的第一实时角速度；获取预设时间间隔，在所述第一状态中读取所述钢坯初始角度，将所述第一实时角速度与所述预设时间间隔的乘积加上所述钢坯初始角度的值作为钢坯当前角度，将所述钢坯长度值、所述钢坯宽度值、所述钢坯当前角度作为所述第二状态；获取奖励值计算公式，采用所述奖励值计算公式对所述钢坯当前角度进行计算，得到所述第一奖励值。

在具体的应用场景中，该设定模块902，用于在所述迭代训练过程中，持续检测辊道反馈速度；当检测到所述辊道反馈速度为零时，结束所述迭代训练。

在具体的应用场景中，该训练模块903，用于对所述转钢仿真环境进行策略采样，得到多个采样轨迹，所述采样轨迹包括多个状态、多个动作、多个奖励值；对于每个所述采样轨迹，将所述采样轨迹输入至价值网络，得到状态动作优势集合，获取最小均方差计算方法，采用所述最小均方差计算方法对所述状态动作优势集合进行计算，得到优势函数，采用所述优势函数更新所述价值网络；在所述采样轨迹中提取多个状态和多个动作，将所述多个状态输入新策略网络和旧策略网络中，得到第一正态分布和第二正态分布，采用所述多个动作对所述第一正态分布和所述第二正态分布进行求解计算，得到第一概率和第二概率，采用所述第一概率和所述第二概率进行计算，得到目标权重；获取损失函数，采用所述目标权重对所述损失函数进行计算，得到目标损失函数，采用所述目标损失函数更新所述新策略网络；获取预设执行次数，按照所述预设执行次数采用所述多个状态和所述多个动作更新所述新策略网络，得到目标新策略网络，获取所述目标新策略网络的目标参数，采用所述目标参数对所述旧策略网络进行更新，得到所述采样轨迹对应的最优转钢速度设定策略；获取每个所述采样轨迹对应的最优转钢速度设定策略，得到所述多个最优转钢速度设定策略。

本申请实施例提供的装置，获取多个最优转钢数据和一阶控制系统的传递函数模型，采用多个最优转钢数据对传递函数模型进行仿真实验，采用基于仿真实验的仿真结果确定的多个模型参数对传递函数模型进行调整，得到锥形辊道电机设定速度与反馈速度模型，获取钢坯转速理论公式，采用钢坯转速理论公式进行模型构建，得到钢坯转速模型，采用多个最优转钢数据确定转钢过程最优辊道速度设定规则，根据锥形辊道电机设定速度与反馈速度模型、钢坯转速模型、转钢过程最优辊道速度设定规则设定转钢仿真环境，获取强化学习近端策略优化算法，采用强化学习近端策略优化算法对转钢仿真环境进行训练，得到多个最优转钢速度设定策略，将多个最优转钢速度设定策略存储至数据库，当检测到钢坯转钢请求时，获取钢坯转钢请求携带的待转钢坯状态信息，在数据库中获取待转钢坯状态信息对应的目标最优转钢速度设定策略，基于目标最优转钢速度设定策略控制锥形辊道变频电机，采用人工转钢操作大数据得出最优辊道速度设定规则，基于机理模型进行数学建模，以实际转钢过程中钢坯转角的变化构建数学模型对转钢过程进行仿真，然后基于强化学习理论，针对转钢运动模型定义强化学习要素，明确状态空间、动作空间的形式，根据状态转移方程进行状态更新，并设计奖励函数，构建转钢智能控制的强化学习模型。通过强化学习算法训练，当输入钢坯长宽、实时角度等状态信息时，确定出钢坯最合适的速度转折角度，控制锥形辊道的速度设定，实现钢坯的快速转钢，并提升控制精度。

需要说明的是，本申请实施例提供的一种转钢控制装置所涉及各功能单元的其他相应描述，可以参考图1和图2至图8中的对应描述，在此不再赘述。

需要说明的是，本申请所涉及的用户信息（包括但不限于用户设备信息、用户个人信息等）和数据（包括但不限于用于分析的数据、存储的数据、展示的数据等），均为经用户授权或者经过各方充分授权的信息和数据。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

在示例性实施例中，参见图10，还提供了一种计算机设备，该计算机设备包括总线、处理器、存储器和通信接口，还可以包括输入/输出接口和显示设备，其中，各个功能单元之间可以通过总线完成相互间的通信。该存储器包括应用、应用程序接口、中间件和内核，存储有计算机程序，处理器，用于执行存储器上所存放的程序，执行上述实施例中的转钢控制方法。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现所述的转钢控制方法的步骤。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到本申请可以通过硬件实现，也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质（可以是CD-ROM，U盘，移动硬盘等）中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本申请各个实施场景所述的方法。

本领域技术人员可以理解附图只是一个优选实施场景的示意图，附图中的模块或流程并不一定是实施本申请所必须的。

本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中，也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块，也可以进一步拆分成多个子模块。

上述本申请序号仅仅为了描述，不代表实施场景的优劣。

以上公开的仅为本申请的几个具体实施场景，但是，本申请并非局限于此，任何本领域的技术人员能思之的变化都应落入本申请的保护范围。

Claims

1.一种转钢控制方法，其特征在于，包括：

2.根据权利要求1所述的转钢控制方法，其特征在于，所述获取多个最优转钢数据，包括：

3.根据权利要求1所述的转钢控制方法，其特征在于，所述采用所述钢坯转速理论公式进行模型构建，得到钢坯转速模型，包括：

4.根据权利要求1所述的转钢控制方法，其特征在于，所述根据所述锥形辊道电机设定速度与反馈速度模型、所述钢坯转速模型、所述转钢过程最优辊道速度设定规则设定转钢仿真环境，包括：

5.根据权利要求4所述的转钢控制方法，其特征在于，所述在所述第一状态下执行所述第一动作，得到第一奖励值和第二状态，包括：

6.根据权利要求4所述的转钢控制方法，其特征在于，所述方法还包括：

在所述迭代训练过程中，持续检测辊道反馈速度；

当检测到所述辊道反馈速度为零时，结束所述迭代训练。

7.根据权利要求1所述的转钢控制方法，其特征在于，所述采用所述强化学习近端策略优化算法对所述转钢仿真环境进行训练，得到多个最优转钢速度设定策略，包括：

8.一种转钢控制装置，其特征在于，包括：

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的转钢控制方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的转钢控制方法的步骤。