CN117539209A - 转钢控制方法、装置、计算机设备及计算机可读存储介质 - Google Patents

转钢控制方法、装置、计算机设备及计算机可读存储介质 Download PDF

Info

Publication number
CN117539209A
CN117539209A CN202410028548.0A CN202410028548A CN117539209A CN 117539209 A CN117539209 A CN 117539209A CN 202410028548 A CN202410028548 A CN 202410028548A CN 117539209 A CN117539209 A CN 117539209A
Authority
CN
China
Prior art keywords
steel
billet
speed
optimal
turning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202410028548.0A
Other languages
English (en)
Other versions
CN117539209B (zh
Inventor
何纯玉
薛松
矫志杰
吴志强
赵忠
王君
Original Assignee
东北大学
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 东北大学 filed Critical 东北大学
Priority to CN202410028548.0A priority Critical patent/CN117539209B/zh
Publication of CN117539209A publication Critical patent/CN117539209A/zh
Application granted granted Critical
Publication of CN117539209B publication Critical patent/CN117539209B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B19/00Programme-control systems
    • G05B19/02Programme-control systems electric
    • G05B19/418Total factory control, i.e. centrally controlling a plurality of machines, e.g. direct or distributed numerical control [DNC], flexible manufacturing systems [FMS], integrated manufacturing systems [IMS] or computer integrated manufacturing [CIM]
    • G05B19/41885Total factory control, i.e. centrally controlling a plurality of machines, e.g. direct or distributed numerical control [DNC], flexible manufacturing systems [FMS], integrated manufacturing systems [IMS] or computer integrated manufacturing [CIM] characterised by modeling, simulation of the manufacturing system
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/30Nc systems
    • G05B2219/32Operator till task planning
    • G05B2219/32339Object oriented modeling, design, analysis, implementation, simulation language
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/02Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Manufacturing & Machinery (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Control Of Metal Rolling (AREA)
  • Feedback Control In General (AREA)

Abstract

本申请公开了一种转钢控制方法、装置、计算机设备及计算机可读存储介质,涉及轧制与强化学习控制技术领域,采用人工转钢操作大数据得出最优辊道速度设定规则,基于机理模型进行数学建模,以实际转钢过程中钢坯转角的变化构建数学模型对转钢过程进行仿真,然后基于强化学习理论,针对转钢运动模型定义强化学习要素,明确状态空间、动作空间的形式,根据状态转移方程进行状态更新,并设计奖励函数,构建转钢智能控制的强化学习模型。通过强化学习算法训练,当输入钢坯长宽、实时角度等状态信息时,确定出钢坯最合适的速度转折角度,控制锥形辊道的速度设定,实现钢坯的快速转钢,并提升控制精度。

Description

转钢控制方法、装置、计算机设备及计算机可读存储介质
技术领域
本申请涉及轧制与强化学习控制技术领域,特别是涉及一种转钢控制方法、装置、计算机设备及计算机可读存储介质。
背景技术
随着轧制工艺的快速发展,在宽厚板的生产过程中,为满足展宽阶段轧制工艺的要求,需要在某些道次进行1-2次的转钢操作。实际操作为将钢坯旋转90度,使得长、宽尺寸对调。操作工通过目视查看现场锥形辊道转钢区域,确定转钢辊道的速度设定及转钢方向,当钢坯转到合适角度时,停止转钢。
相关技术中,传统的人工转钢操作是通过目测判断钢坯的到位情况,手动进行锥形辊道变频电机转速的设定,通过对钢坯转动状态进行调整,完成转钢操作。但是申请人认识到,在转钢的过程中,根据钢坯的尺寸变化,所需要的转钢控制策略也各不相同,同时由于转钢过程具有非线性、高时滞的特点,导致对于转钢过程的精确控制变得十分困难,而且操作工频繁地手动干预会增加转钢时间、降低生产率,导致操作人员劳动强度大,制约钢厂轧制节奏。
发明内容
有鉴于此,本申请提供了一种转钢控制方法、装置、计算机设备及计算机可读存储介质,主要目的在于解决:在转钢的过程中,根据钢坯的尺寸变化,所需要的转钢控制策略也各不相同,同时由于转钢过程具有非线性、高时滞的特点,导致对于转钢过程的精确控制变得十分困难,而且操作工频繁地手动干预会增加转钢时间、降低生产率,导致操作人员劳动强度大,制约钢厂轧制节奏的问题。
依据本申请第一方面,提供了一种转钢控制方法,该方法包括:
获取多个最优转钢数据和一阶控制系统的传递函数模型,采用所述多个最优转钢数据对所述传递函数模型进行仿真实验,采用基于所述仿真实验的仿真结果确定的多个模型参数对所述传递函数模型进行调整,得到锥形辊道电机设定速度与反馈速度模型;
获取钢坯转速理论公式,采用所述钢坯转速理论公式进行模型构建,得到钢坯转速模型,采用所述多个最优转钢数据确定转钢过程最优辊道速度设定规则,根据所述锥形辊道电机设定速度与反馈速度模型、所述钢坯转速模型、所述转钢过程最优辊道速度设定规则设定转钢仿真环境;
获取强化学习近端策略优化算法,采用所述强化学习近端策略优化算法对所述转钢仿真环境进行训练,得到多个最优转钢速度设定策略,将所述多个最优转钢速度设定策略存储至数据库;
当检测到钢坯转钢请求时,获取所述钢坯转钢请求携带的待转钢坯状态信息,在所述数据库中获取所述待转钢坯状态信息对应的目标最优转钢速度设定策略,基于所述目标最优转钢速度设定策略控制锥形辊道变频电机。
可选地,所述获取多个最优转钢数据,包括:
在所述数据库中获取历史人工操作转钢数据集,获取数据预处理算法,采用所述数据预处理算法对所述历史人工操作转钢数据集进行处理,得到所述多个最优转钢数据,所述最优转钢数据包括钢坯状态信息、转钢过程中的多个辊道速度控制指令以及执行每个所述辊道速度控制指令后的状态变化信息,所述钢坯状态信息包括钢号、钢坯长度值、钢坯宽度值、旋转角度。
可选地,所述采用所述钢坯转速理论公式进行模型构建,得到钢坯转速模型,包括:
在所述多个最优转钢数据中读取多个钢坯状态信息,采用所述钢坯转速理论公式分别对所述多个钢坯状态信息进行计算,得到多个钢坯转速数据;
采用所述多个钢坯转速数据与所述多个最优转钢数据进行比对;
若比对确定所述多个钢坯转速数据与所述多个最优转钢数据一致,则采用所述钢坯转速理论公式进行模型构建,得到所述钢坯转速模型。
可选地,所述根据所述锥形辊道电机设定速度与反馈速度模型、所述钢坯转速模型、所述转钢过程最优辊道速度设定规则设定转钢仿真环境,包括:
对于每个所述最优转钢数据,在所述最优转钢数据中获取钢坯长度值、钢坯宽度值、钢坯初始角度,将所述钢坯长度值、所述钢坯宽度值、所述钢坯初始角度作为第一状态,根据所述最优转钢数据确定第一设定速度,将所述第一设定速度作为第一动作,以及在所述第一状态下执行所述第一动作,得到第一奖励值和第二状态;
根据所述最优转钢数据确定第二设定速度,将所述第二设定速度作为第二动作,并基于所述第二状态、所述第二动作进行下一轮的训练,以迭代训练得到多个状态、多个动作、多个奖励值;
基于所述多个状态、所述多个动作、所述多个奖励值绘制所述最优转钢数据的钢坯转钢状态信息;
获取每个所述最优转钢数据的钢坯转钢状态信息,得到多个钢坯转钢状态信息,采用所述多个钢坯转钢状态信息构建所述转钢仿真环境。
可选地,所述在所述第一状态下执行所述第一动作,得到第一奖励值和第二状态,包括:
将所述第一动作输入至所述锥形辊道电机设定速度与反馈速度模型,获取所述锥形辊道电机设定速度与反馈速度模型输出的第一辊道反馈速度;
将所述第一辊道反馈速度、所述第一状态输入至所述钢坯转速模型,获取所述钢坯转速模型输出的第一实时角速度;
获取预设时间间隔,在所述第一状态中读取所述钢坯初始角度,将所述第一实时角速度与所述预设时间间隔的乘积加上所述钢坯初始角度的值作为钢坯当前角度,将所述钢坯长度值、所述钢坯宽度值、所述钢坯当前角度作为所述第二状态;
获取奖励值计算公式,采用所述奖励值计算公式对所述钢坯当前角度进行计算,得到所述第一奖励值。
可选地,所述方法还包括:
在所述迭代训练过程中,持续检测辊道反馈速度;
当检测到所述辊道反馈速度为零时,结束所述迭代训练。
可选地,所述采用所述强化学习近端策略优化算法对所述转钢仿真环境进行训练,得到多个最优转钢速度设定策略,包括:
对所述转钢仿真环境进行策略采样,得到多个采样轨迹,所述采样轨迹包括多个状态、多个动作、多个奖励值;
对于每个所述采样轨迹,将所述采样轨迹输入至价值网络,得到状态动作优势集合,获取最小均方差计算方法,采用所述最小均方差计算方法对所述状态动作优势集合进行计算,得到优势函数,采用所述优势函数更新所述价值网络;
在所述采样轨迹中提取多个状态和多个动作,将所述多个状态输入新策略网络和旧策略网络中,得到第一正态分布和第二正态分布,采用所述多个动作对所述第一正态分布和所述第二正态分布进行求解计算,得到第一概率和第二概率,采用所述第一概率和所述第二概率进行计算,得到目标权重;
获取损失函数,采用所述目标权重对所述损失函数进行计算,得到目标损失函数,采用所述目标损失函数更新所述新策略网络;
获取预设执行次数,按照所述预设执行次数采用所述多个状态和所述多个动作更新所述新策略网络,得到目标新策略网络,获取所述目标新策略网络的目标参数,采用所述目标参数对所述旧策略网络进行更新,得到所述采样轨迹对应的最优转钢速度设定策略;
获取每个所述采样轨迹对应的最优转钢速度设定策略,得到所述多个最优转钢速度设定策略。
依据本申请第二方面,提供了一种转钢控制装置,该装置包括:
调整模块,用于获取多个最优转钢数据和一阶控制系统的传递函数模型,采用所述多个最优转钢数据对所述传递函数模型进行仿真实验,采用基于所述仿真实验的仿真结果确定的多个模型参数对所述传递函数模型进行调整,得到锥形辊道电机设定速度与反馈速度模型;
设定模块,用于获取钢坯转速理论公式,采用所述钢坯转速理论公式进行模型构建,得到钢坯转速模型,采用所述多个最优转钢数据确定转钢过程最优辊道速度设定规则,根据所述锥形辊道电机设定速度与反馈速度模型、所述钢坯转速模型、所述转钢过程最优辊道速度设定规则设定转钢仿真环境;
训练模块,用于获取强化学习近端策略优化算法,采用所述强化学习近端策略优化算法对所述转钢仿真环境进行训练,得到多个最优转钢速度设定策略,将所述多个最优转钢速度设定策略存储至数据库;
控制模块,用于当检测到钢坯转钢请求时,获取所述钢坯转钢请求携带的待转钢坯状态信息,在所述数据库中获取所述待转钢坯状态信息对应的目标最优转钢速度设定策略,基于所述目标最优转钢速度设定策略控制锥形辊道变频电机。
可选地,所述调整模块,用于在所述数据库中获取历史人工操作转钢数据集,获取数据预处理算法,采用所述数据预处理算法对所述历史人工操作转钢数据集进行处理,得到所述多个最优转钢数据,所述最优转钢数据包括钢坯状态信息、转钢过程中的多个辊道速度控制指令以及执行每个所述辊道速度控制指令后的状态变化信息,所述钢坯状态信息包括钢号、钢坯长度值、钢坯宽度值、旋转角度。
可选地,所述设定模块,用于在所述多个最优转钢数据中读取多个钢坯状态信息,采用所述钢坯转速理论公式分别对所述多个钢坯状态信息进行计算,得到多个钢坯转速数据;采用所述多个钢坯转速数据与所述多个最优转钢数据进行比对;若比对确定所述多个钢坯转速数据与所述多个最优转钢数据一致,则采用所述钢坯转速理论公式进行模型构建,得到所述钢坯转速模型。
可选地,所述设定模块,用于对于每个所述最优转钢数据,在所述最优转钢数据中获取钢坯长度值、钢坯宽度值、钢坯初始角度,将所述钢坯长度值、所述钢坯宽度值、所述钢坯初始角度作为第一状态,根据所述最优转钢数据确定第一设定速度,将所述第一设定速度作为第一动作,以及在所述第一状态下执行所述第一动作,得到第一奖励值和第二状态;根据所述最优转钢数据确定第二设定速度,将所述第二设定速度作为第二动作,并基于所述第二状态、所述第二动作进行下一轮的训练,以迭代训练得到多个状态、多个动作、多个奖励值;基于所述多个状态、所述多个动作、所述多个奖励值绘制所述最优转钢数据的钢坯转钢状态信息;获取每个所述最优转钢数据的钢坯转钢状态信息,得到多个钢坯转钢状态信息,采用所述多个钢坯转钢状态信息构建所述转钢仿真环境。
可选地,所述设定模块,用于将所述第一动作输入至所述锥形辊道电机设定速度与反馈速度模型,获取所述锥形辊道电机设定速度与反馈速度模型输出的第一辊道反馈速度;将所述第一辊道反馈速度、所述第一状态输入至所述钢坯转速模型,获取所述钢坯转速模型输出的第一实时角速度;获取预设时间间隔,在所述第一状态中读取所述钢坯初始角度,将所述第一实时角速度与所述预设时间间隔的乘积加上所述钢坯初始角度的值作为钢坯当前角度,将所述钢坯长度值、所述钢坯宽度值、所述钢坯当前角度作为所述第二状态;获取奖励值计算公式,采用所述奖励值计算公式对所述钢坯当前角度进行计算,得到所述第一奖励值。
可选地,所述设定模块,用于在所述迭代训练过程中,持续检测辊道反馈速度;当检测到所述辊道反馈速度为零时,结束所述迭代训练。
可选地,所述训练模块,用于对所述转钢仿真环境进行策略采样,得到多个采样轨迹,所述采样轨迹包括多个状态、多个动作、多个奖励值;对于每个所述采样轨迹,将所述采样轨迹输入至价值网络,得到状态动作优势集合,获取最小均方差计算方法,采用所述最小均方差计算方法对所述状态动作优势集合进行计算,得到优势函数,采用所述优势函数更新所述价值网络;在所述采样轨迹中提取多个状态和多个动作,将所述多个状态输入新策略网络和旧策略网络中,得到第一正态分布和第二正态分布,采用所述多个动作对所述第一正态分布和所述第二正态分布进行求解计算,得到第一概率和第二概率,采用所述第一概率和所述第二概率进行计算,得到目标权重;获取损失函数,采用所述目标权重对所述损失函数进行计算,得到目标损失函数,采用所述目标损失函数更新所述新策略网络;获取预设执行次数,按照所述预设执行次数采用所述多个状态和所述多个动作更新所述新策略网络,得到目标新策略网络,获取所述目标新策略网络的目标参数,采用所述目标参数对所述旧策略网络进行更新,得到所述采样轨迹对应的最优转钢速度设定策略;获取每个所述采样轨迹对应的最优转钢速度设定策略,得到所述多个最优转钢速度设定策略。
依据本申请第三方面,提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述第一方面中任一项所述方法的步骤。
依据本申请第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面中任一项所述的方法的步骤。
借由上述技术方案,本申请提供一种转钢控制方法、装置、计算机设备及计算机可读存储介质,获取多个最优转钢数据和一阶控制系统的传递函数模型,采用多个最优转钢数据对传递函数模型进行仿真实验,采用基于仿真实验的仿真结果确定的多个模型参数对传递函数模型进行调整,得到锥形辊道电机设定速度与反馈速度模型,获取钢坯转速理论公式,采用钢坯转速理论公式进行模型构建,得到钢坯转速模型,采用多个最优转钢数据确定转钢过程最优辊道速度设定规则,根据锥形辊道电机设定速度与反馈速度模型、钢坯转速模型、转钢过程最优辊道速度设定规则设定转钢仿真环境,获取强化学习近端策略优化算法,采用强化学习近端策略优化算法对转钢仿真环境进行训练,得到多个最优转钢速度设定策略,将多个最优转钢速度设定策略存储至数据库,当检测到钢坯转钢请求时,获取钢坯转钢请求携带的待转钢坯状态信息,在数据库中获取待转钢坯状态信息对应的目标最优转钢速度设定策略,基于目标最优转钢速度设定策略控制锥形辊道变频电机,采用人工转钢操作大数据得出最优辊道速度设定规则,基于机理模型进行数学建模,以实际转钢过程中钢坯转角的变化构建数学模型对转钢过程进行仿真,然后基于强化学习理论,针对转钢运动模型定义强化学习要素,明确状态空间、动作空间的形式,根据状态转移方程进行状态更新,并设计奖励函数,构建转钢智能控制的强化学习模型。通过强化学习算法训练,当输入钢坯长宽、实时角度等状态信息时,确定出钢坯最合适的速度转折角度,控制锥形辊道的速度设定,实现钢坯的快速转钢,并提升控制精度。
上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本申请的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本申请实施例提供的一种转钢控制的方法流程示意图;
图2示出了本申请实施例提供的另一种转钢控制的方法流程示意图;
图3示出了本申请实施例提供的宽厚板转钢辊道布置示意图;
图4示出了本申请实施例提供的一阶线性控制系统输入和反馈示意图;
图5示出了本申请实施例提供的锥形辊道尺寸示意图;
图6示出了本申请实施例提供的钢坯与辊道尺寸示意图;
图7示出了本申请实施例提供的PPO算法框架示意图;
图8示出了本申请实施例提供的转钢策略设定相关变量曲线示意图;
图9示出了本申请实施例提供的一种转钢控制的结构示意图;
图10示出了本申请实施例提供的一种计算机设备的装置结构示意图。
具体实施方式
下面将参照附图更详细地描述本申请的示例性实施例。虽然附图中显示了本申请的示例性实施例,然而应当理解,可以以各种形式实现本申请而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本申请,并且能够将本申请的范围完整的传达给本领域的技术人员。
本申请实施例提供了一种转钢控制方法,如图1所示,该方法包括:
101、获取多个最优转钢数据和一阶控制系统的传递函数模型,采用多个最优转钢数据对传递函数模型进行仿真实验,采用基于仿真实验的仿真结果确定的多个模型参数对传递函数模型进行调整,得到锥形辊道电机设定速度与反馈速度模型。
传统的人工转钢操作通过目测判断钢坯的到位情况,手动进行锥形辊道变频电机转速的设定,通过对钢坯转动状态进行调整,完成转钢操作。但是,在转钢的过程中,根据钢坯的尺寸变化,所需要的转钢控制策略也各不相同,同时由于转钢过程具有非线性、高时滞的特点,导致对于转钢过程的精确控制变得十分困难。而且,操作工频繁地手动干预大大增加转钢时间,降低生产率。
为解决这一问题,本申请提出一种转钢控制方法,基于强化学习算法,以转钢时间为约束条件,通过对人工转钢数据进行分析总结,得出最优转钢速度设定策略,从而实现快速转钢,提升转钢的控制精度。本申请的执行主体可以是转钢控制系统,转钢控制系统面向用户提供前端应用,也即提供客户端,用户(比如工作人员)可以基于前端应用请求进行转钢控制,以使转钢控制系统依靠服务器的计算能力为用户提供转钢控制服务,服务器可以是独立的服务器,也可以提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算的服务器,以便转钢控制系统实现宽厚板转钢过程最优的锥形辊道速度设定功能。
在本申请实施例中,转钢控制系统获取多个最优转钢数据和一阶控制系统的传递函数模型,其中,在转钢过程中,对于钢坯的每个状态操作工要设定一个控制指令(即辊道速度),完成控制指令后钢坯的状态发生变化(即旋转角度增加),操作工再进行控制指令设定,直到钢坯旋转90度附近,所以,最优转钢数据是包括钢坯的状态信息(钢号、长宽、旋转角度等),以及整个转钢过程的状态和指令信息。本申请通过对转钢过程相关变量曲线变化进行分析,认识到降速阶段依靠惯性减速,减速曲线斜率保持在某个常值附近,所以转钢过程可以近似用一阶线性控制系统来描述辊道电机设定速度与实际反馈速度之间的关系。因此,转钢控制系统采用多个最优转钢数据对传递函数模型进行仿真实验,并采用基于仿真实验的仿真结果确定的多个模型参数对传递函数模型进行调整,得到锥形辊道电机设定速度与反馈速度模型,从而通过确定一阶线性控制系统的相关参数,模拟转钢过程辊道减速阶段电机设定速度与反馈速度之间的关系。
102、获取钢坯转速理论公式,采用钢坯转速理论公式进行模型构建,得到钢坯转速模型,采用多个最优转钢数据确定转钢过程最优辊道速度设定规则,根据锥形辊道电机设定速度与反馈速度模型、钢坯转速模型、转钢过程最优辊道速度设定规则设定转钢仿真环境。
转钢过程中,电机带动锥形辊道旋转,钢坯搭接在锥形辊道上因摩擦力带给钢坯旋转加速度,造成钢坯旋转,因此,本申请以实际转钢过程中发生的物理变化为基础,构建数学方程确定钢坯的角速度与其它因素之间的关系,进而精确预测钢坯转角的变化情况。在本申请实施例中,转钢控制系统获取钢坯转速理论公式,采用钢坯转速理论公式进行模型构建,得到钢坯转速模型,从而实现精确预估整个转钢过程中的角度变化情况。接着,转钢控制系统采用多个最优转钢数据确定转钢过程最优辊道速度设定规则。然后,转钢控制系统根据锥形辊道电机设定速度与反馈速度模型、钢坯转速模型、转钢过程最优辊道速度设定规则设定转钢仿真环境,满足真实环境下锥形辊道的速度和钢坯角度变化情况的实验场景,以便转钢控制系统在不同的钢坯状态下给出最优的辊道速度设定,提升转钢控制精度。
103、获取强化学习近端策略优化算法,采用强化学习近端策略优化算法对转钢仿真环境进行训练,得到多个最优转钢速度设定策略,将多个最优转钢速度设定策略存储至数据库。
在本申请实施例中,转钢控制系统获取强化学习近端策略优化算法,采用强化学习近端策略优化算法对转钢仿真环境进行训练,得到多个最优转钢速度设定策略,并将多个最优转钢速度设定策略存储至数据库,这样,使用PPO(Proximal Policy Optimization,近端策略优化)算法训练自动转钢智能体策略网络,能够获得最优的控制参数实现快速转钢,同时对不同规格的钢坯确定最优转钢速度设定策略,满足快速转钢的要求。
104、当检测到钢坯转钢请求时,获取钢坯转钢请求携带的待转钢坯状态信息,在数据库中获取待转钢坯状态信息对应的目标最优转钢速度设定策略,基于目标最优转钢速度设定策略控制锥形辊道变频电机。
在本申请实施例中,转钢控制系统当检测到钢坯转钢请求时,获取钢坯转钢请求携带的待转钢坯状态信息。接着,转钢控制系统在数据库中获取待转钢坯状态信息对应的目标最优转钢速度设定策略,并基于目标最优转钢速度设定策略控制锥形辊道变频电机,这样,能够以最短转钢时间为最终目标,根据钢坯实时转动信息给出最优的转钢辊道速度设定,能够大大提高生产率,提升转钢控制精度,加快钢板轧制节奏。需要说明的是,本申请基于智能体与虚拟环境大量的交互与试错,采用数据挖掘算法,对不同规格的钢坯确定最优转钢速度设定策略,满足快速转钢的要求。
本申请实施例提供的方法,获取多个最优转钢数据和一阶控制系统的传递函数模型,采用多个最优转钢数据对传递函数模型进行仿真实验,采用基于仿真实验的仿真结果确定的多个模型参数对传递函数模型进行调整,得到锥形辊道电机设定速度与反馈速度模型,获取钢坯转速理论公式,采用钢坯转速理论公式进行模型构建,得到钢坯转速模型,采用多个最优转钢数据确定转钢过程最优辊道速度设定规则,根据锥形辊道电机设定速度与反馈速度模型、钢坯转速模型、转钢过程最优辊道速度设定规则设定转钢仿真环境,获取强化学习近端策略优化算法,采用强化学习近端策略优化算法对转钢仿真环境进行训练,得到多个最优转钢速度设定策略,将多个最优转钢速度设定策略存储至数据库,当检测到钢坯转钢请求时,获取钢坯转钢请求携带的待转钢坯状态信息,在数据库中获取待转钢坯状态信息对应的目标最优转钢速度设定策略,基于目标最优转钢速度设定策略控制锥形辊道变频电机,采用人工转钢操作大数据得出最优辊道速度设定规则,基于机理模型进行数学建模,以实际转钢过程中钢坯转角的变化构建数学模型对转钢过程进行仿真,然后基于强化学习理论,针对转钢运动模型定义强化学习要素,明确状态空间、动作空间的形式,根据状态转移方程进行状态更新,并设计奖励函数,构建转钢智能控制的强化学习模型。通过强化学习算法训练,当输入钢坯长宽、实时角度等状态信息时,确定出钢坯最合适的速度转折角度,控制锥形辊道的速度设定,实现钢坯的快速转钢,并提升控制精度。
进一步的,作为上述实施例具体实施方式的细化和扩展,为了完整说明本实施例的具体实施过程,本申请实施例提供了另一种转钢控制方法,如图2所示,该方法包括:
201、采用数据预处理算法在历史人工操作转钢数据集中获取多个最优转钢数据。
在本申请实施例中,如图3所示,宽厚板转钢辊道布置包括转钢区域301、奇数锥形辊302、偶数锥形辊303、钢坯304、辊道中心线305、侧导板306和轧机307。转钢过程是变频电机在转钢区域301控制奇数锥形辊302和偶数锥形辊303两组工作辊正、反转,从而控制钢坯304的运行和旋转,当钢坯304在辊道中心线305上旋转到合适位置时,停止转钢启动推床,侧导板306从两边向中间靠拢,由于侧导板306的挤推作用使钢坯304被摆放在辊道正中央,并被调整成正确的合适轧制的模式位置。然后侧导板306回位,变频电机传动锥形辊同方向转动,实现钢坯304进入轧机307进行轧制。所以为实现宽厚板转钢过程最优的锥形辊道速度设定功能,本申请通过建立辊道速度仿真模型模拟锥形辊道设定速度与反馈速度的具体关系,结合钢坯尺寸、实时转角、辊道速度、锥形辊尺寸等推导钢坯角度变化公式,并建立转钢虚拟仿真环境模拟实际转钢过程。
首先,转钢控制系统在数据库中获取历史人工操作转钢数据集,历史人工操作转钢数据集是由安装在轧机前后转钢辊道附近的工业相机采集的钢坯尺寸和实时旋转角度信息,结合人工操作转钢过程的控制指令及辊道速度变化情况组成的。然后,转钢控制系统采用数据预处理算法对历史人工操作转钢数据集进行处理,得到多个最优转钢数据,其中,最优转钢数据包括钢号、钢坯长度值、钢坯宽度值、旋转角度等钢坯状态信息、转钢过程中的多个辊道速度控制指令以及执行每个辊道速度控制指令后的状态变化信息,采用数据预处理算法处理的过程就是在历史人工操作转钢数据集中提取时间最短、步序最少、最终角度接近90度的最优人工转钢数据,以便后续转钢控制系统搭建自动转钢虚拟环境。
202、获取一阶控制系统的传递函数模型,采用多个最优转钢数据对传递函数模型进行仿真实验,采用基于仿真实验的仿真结果确定的多个模型参数对传递函数模型进行调整,得到锥形辊道电机设定速度与反馈速度模型。
在本申请实施例中,通过对转钢过程相关变量曲线变化分析可知,降速阶段依靠惯性减速,减速曲线斜率保持在某个常值附近,所以转钢过程可以近似用一阶线性控制系统来描述辊道电机设定速度与实际反馈速度之间的关系。因此,转钢控制系统根据辊道降速过程的特点和系统需求,定义一阶控制系统的传递函数模型,并采用多个最优转钢数据对传递函数模型进行仿真实验。其中,一阶控制系统由一个一阶传递函数组成,如下述计算公式1:
公式1:
其中,T是时间常数,、/>是比例增益,x(t)为输入信号,y(t)为输出信号,dy(t)/ dt表示输出变量y(t)对时间t的导数(变化率)。
在仿真实验中选择合适的输入信号,本申请实施例选择与实际转钢过程相同的阶跃信号,通过调整比例增益和时间常数这两个关键参数使得仿真结果与实际结果接近。如图4所示,一阶线性控制系统的响应通常具有指数衰减或增长的特性,即输出信号会根据系统的传递函数以指数形式逐渐趋近于输入信号。因此,本申请在MATLAB(用于算法开发、数据可视化、数据分析以及数值计算的高级技术计算语言和交互式环境的软件)中的simulink(模块图环境,用于多域仿真以及基于模型的设计)模块进行仿真实验,先定义与最优转钢设定速度对应的阶跃信号(先是最大速度,之后速度为0),通过调节一阶传递函数的几个参数,让响应的曲线与真实数据一致。其中,一阶传递函数为上述公式1,在一阶线性控制系统输入和反馈示意图中,横坐标表示时间,单位是秒(s),纵坐标表示系统的响应或输出,名称为辊道速度,单位是米每秒(m / s)。输入信号为Input x(t),表示转钢辊道设定速度,Input x(t)是系统的输入。输出信号为Output y(t),表示转钢辊道反馈速度,Outputy(t)是系统对输入信号作出响应后所产生的信号。最后能够确定一阶仿真系统具体参数为:=1.5、/>=1.2、T=0.5。这样,通过仿真结果显示,使得系统指标能满足实际辊道降速过程的控制需求。
然后,转钢控制系统采用基于仿真实验的仿真结果确定的多个模型参数对传递函数模型进行调整,得到锥形辊道电机设定速度与反馈速度模型,这样,通过确定一阶线性控制系统的相关参数,能够准确模拟转钢过程辊道减速阶段电机设定速度与反馈速度之间的关系。
203、获取钢坯转速理论公式,采用钢坯转速理论公式进行模型构建,得到钢坯转速模型。
在转钢过程中,相邻锥形辊道速度设定相同,方向相反,使钢坯产生一个扭转力矩而旋转,其中,钢坯与辊道尺寸如图5、6所示,锥形辊道的辊道长度为6300mm,小端辊径为450mm,大端辊径/>为500mm,锥形辊锥度为/>,钢坯与锥形辊道接触位置的辊道直径为d,钢坯对角线在辊道轴向的投影/>,钢坯长度为L,钢坯宽度为W,实时转角为/>,锥形辊道与钢坯搭接处的线速度为/>。本申请为了获得最优转钢速度设定策略,结合钢坯尺寸、实时转角、辊道速度、锥形辊尺寸等推导钢坯角度变化公式,以精确预测钢坯转角的变化情况。在本申请实施例中,转钢控制系统在多个最优转钢数据中读取多个钢坯状态信息,采用钢坯转速理论公式分别对多个钢坯状态信息进行计算,得到多个钢坯转速数据。具体计算过程如下:
当钢坯转角为时,钢坯对角线在辊道轴向的投影的计算公式为下述公式2:
公式2:
其中,为钢坯对角线在辊道轴向的投影,L为钢坯长度,W为钢坯宽度,/>为实时转角。
钢坯与锥形辊道接触位置的辊道直径计算公式为下述公式3:
公式3:d
其中,d为钢坯与锥形辊道接触位置的辊道直径,为小端辊径,/>为大端辊径,为辊道长度,/>为锥形辊锥度。
钢坯与锥形辊道接触位置水平线速度的计算公式为下述公式4:
公式4:
其中,为钢坯与锥形辊道接触位置水平线速度,/>为锥形辊道与钢坯搭接处的线速度。
钢坯在转角时的角速度的计算公式为下述公式5:
公式5:
其中,为钢坯在转角/>时的角速度,/>
基于上述计算过程,能够根据钢坯尺寸、辊道线速度、转角信息,计算得到钢坯的角速度,进而预估整个转钢过程中的角度变化情况。
然后,转钢控制系统采用多个钢坯转速数据与多个最优转钢数据进行比对;若比对确定多个钢坯转速数据与多个最优转钢数据一致,则说明通过公式计算出的角度变化情况与实际操作过程中的角度变化情况一致,所以转钢控制系统采用钢坯转速理论公式进行模型构建,得到钢坯转速模型。
204、采用多个最优转钢数据确定转钢过程最优辊道速度设定规则。
在本申请实施例中,通过分析总结操作工转钢经验,明确转钢过程最优辊道速度设定规则,就是人工操作数据中整体转钢时间最短,步序最少的规则。最优转钢速度设定规则为:在转钢开始时设定奇、偶两组锥形辊道速度,在合适的钢坯角度将辊道速度设为0,使钢坯依靠惯性减速,实现辊道速度为0时令钢坯旋转至90度附近位置。基于转钢过程最优辊道速度设定规则,转钢控制系统能够搭建强化学习环境,通过深度神经网络来拟合控制目标与相关自变量关系,从而在不同的钢坯状态下给出最优的辊道速度设定,以实现钢坯的快速转钢。
205、对于每个最优转钢数据,在最优转钢数据中获取钢坯长度值、钢坯宽度值、钢坯初始角度,将钢坯长度值、钢坯宽度值、钢坯初始角度作为第一状态。
在本申请实施例中,为了模拟钢坯在锥形辊道上的旋转运动过程,通过Gym(用于开发和比较强化学习算法的工具包)接口搭建自动转钢仿真环境,以满足真实环境下锥形辊道的速度和钢坯角度变化情况的实验场景训练。
具体地,转钢控制系统对于每个最优转钢数据,在最优转钢数据中获取钢坯长度值、钢坯宽度值、钢坯初始角度,将钢坯长度值、钢坯宽度值、钢坯初始角度作为第一状态。需要说明的是,根据实际转钢情况及控制系统的稳定性,为状态信息设定最大值和最小值,例如当前角度的最小值为0度、最大值为360度,钢坯长度的最小值为1000mm、最大值为3000mm,钢坯宽度的最小值为1000mm、最大值为3000mm,为连续量。
206、根据最优转钢数据确定第一设定速度,将第一设定速度作为第一动作,以及在第一状态下执行第一动作,得到第一奖励值和第二状态。
在本申请实施例中,将锥形辊道的动作空间分解为加速和减速两个阶段对锥形辊道进行连续的控制。需要说明的是,为了与真实世界的锥形辊道动作行为尽可能的保持一致,以1来表示辊道加速过程,0表示辊道通过惯性减速过程,为离散量。所以,将两个阶段的速度设定作为强化学习动作,比如动作为1时,表示加速阶段曲线,步长为20ms,动作为0时,表示减速阶段曲线,步长为20ms。随后,转钢控制系统将第一动作输入至锥形辊道电机设定速度与反馈速度模型,获取锥形辊道电机设定速度与反馈速度模型输出的第一辊道反馈速度,并将第一辊道反馈速度、第一状态输入至钢坯转速模型,获取钢坯转速模型输出的第一实时角速度。然后,转钢控制系统获取预设时间间隔,在第一状态中读取钢坯初始角度,将第一实时角速度与预设时间间隔的乘积加上钢坯初始角度的值作为钢坯当前角度,将钢坯长度值、钢坯宽度值、钢坯当前角度作为第二状态,其中,预设时间间隔为dt = 20ms。这样,环境接收到智能体传入的锥形辊道的动作设定后,会根据动作设定对应的设定速度计算辊道反馈速度,并通过钢坯转速理论公式计算实时角速度,角速度再经过间隔时间进行积分得到实时角度,能够得到精确的旋转角度。最后,转钢控制系统获取奖励值计算公式,采用奖励值计算公式对钢坯当前角度进行计算,得到第一奖励值,其中,奖励值计算公式为下述公式6:
公式6:
其中,当前角度为A,目标角度为T=90度,动作为action{0,1},reward max 为奖励值的最大值,reward min 为奖励值的最小值,且/>为引导性奖励,其目的是加快算法收敛,根据实际得到的转钢速度设定经验,0-30度内处于辊道加速阶段,60-90度内处于减速阶段,选取对应的动作将获得正向奖励1,错误动作则给予负向奖励-1。/>为稀疏奖励,是辊道反馈速度为0时,也就是这块钢坯所有动作都执行完毕后的奖励值,触发稀疏奖励时钢坯会结束本回合训练。根据目标角度与当前角度之间的差异结合奖励范围进行评分,如果钢坯旋转过程中超过目标角度,则获得负向奖励 -100。/>是总体奖励,每产生一个动作有单步奖励,回合结束有结束奖励,当前回合所有奖励累加为总体奖励。
其中,本申请对于奖励值计算公式的设计方案如下:
由于钢坯一次转钢完成后得到的实时角度与目标值90度越接近,说明该动作序列的表现越好,并为了保证最短的控制时间需要缩短转钢步序,所以本申请设置负向奖励和引导性奖励,使智能体尽快地结束探索。具体地,定义目标角度为,表示90度。接着,计算当前角度与目标角度之间的差值,并使用绝对值函数来确保计算结果为正数。随后,将差值除以目标角度,得到一个比例值,表示当前角度与目标角度的相似程度,并将比例值映射到[0,1]这个奖励区间上。然后,确定奖励的最高值和最低值,最高奖励设为100,最低奖励设为0,表示当角度完全等于目标角度时获得最高奖励,角度偏离目标角度越远,奖励越低。再使用线性插值函数y = kx + b将比例值映射到奖励值区间上,其中k和b为常数,x为比例值,y为奖励值。当实际角度超过目标角度时,结束探索并给予负向奖励。需要说明的是,为了加速算法收敛,根据实际得到的转钢速度设定经验,并在每次更新时设置引导性奖励。
207、根据最优转钢数据确定第二设定速度,将第二设定速度作为第二动作,并基于第二状态、第二动作进行下一轮的训练,以迭代训练得到多个状态、多个动作、多个奖励值,以及基于多个状态、多个动作、多个奖励值绘制最优转钢数据的钢坯转钢状态信息。
在本申请实施例中,转钢控制系统根据最优转钢数据确定第二设定速度,将第二设定速度作为第二动作,并基于第二状态、第二动作进行下一轮的训练,以迭代训练得到多个状态、多个动作、多个奖励值,以及基于多个状态、多个动作、多个奖励值绘制最优转钢数据的钢坯转钢状态信息。其中,在迭代训练过程中,转钢控制系统持续检测辊道反馈速度,当检测到辊道反馈速度为零时,结束迭代训练。可选地,得到钢坯转钢状态信息后重置环境,将初始角度设为0度,并生成一个随机长宽的钢坯,进行下一块钢坯的仿真过程。为了得到任意钢坯尺寸,都能得到最优的动作,所以生成另一种尺寸的钢坯,这样训练一定次数后,使所有尺寸的钢坯都完成仿真训练。
208、获取每个最优转钢数据的钢坯转钢状态信息,得到多个钢坯转钢状态信息,采用多个钢坯转钢状态信息构建转钢仿真环境。
在本申请实施例中,获取每个最优转钢数据的钢坯转钢状态信息,得到多个钢坯转钢状态信息。需要说明的是,多个最优转钢数据包括多个尺寸的钢坯转钢数据,这样,通过对不同尺寸的钢坯进行仿真训练,能够得到多个钢坯转钢状态信息,并采用多个钢坯转钢状态信息构建转钢仿真环境,能够满足不同规格钢坯的快速转钢操作。
209、获取强化学习近端策略优化算法,采用强化学习近端策略优化算法对转钢仿真环境进行训练,得到多个最优转钢速度设定策略,将多个最优转钢速度设定策略存储至数据库。
为了得到最优转钢速度设定策略,本申请采用强化学习近端策略优化算法对转钢仿真环境进行训练,得到多个最优转钢速度设定策略。在本申请实施例中,如图7所示,转钢控制系统先是初始化策略(Actor)网络参数、旧策略网络以及价值(Critic)网络参数。然后模拟钢坯在锥形辊道上的旋转运动过程,并将状态信息、动作信息、奖励信息作为状态终止奖励存储至记忆缓存区,其中,动作是通过对策略网络进行期望方差计算,从而实现随机动作采样得到的。再对记忆缓存区进行策略采样,得到多个采样轨迹,采样轨迹包括多个状态、多个动作、多个奖励值,比如{},其中,在处于状态/>时进行随机动作采样,得到行动/>,在真实环境采取行动/>,从而导致其获得奖励/>并处于状态/>,将状态/>存储至策略网络并通过对行动/>,然后在处于状态/>时采取行动/>,从而导致其获得奖励/>并处于状态/>。接着,对于每个采样轨迹,转钢控制系统将采样轨迹输入至价值网络,得到状态动作优势集合,即/>。随后,转钢控制系统获取最小均方差计算方法,采用最小均方差计算方法对状态动作优势集合进行计算,得到最小化优势函数,采用最小化优势函数方向更新权重,从而更新价值网络。转钢控制系统在采样轨迹中提取多个状态和多个动作,将多个状态输入新策略网络和旧策略网络中,得到第一正态分布和第二正态分布,采用多个动作对第一正态分布和第二正态分布进行求解计算,得到第一概率和第二概率,并采用第一概率和第二概率进行计算,得到目标权重。然后,转钢控制系统获取损失函数,采用目标权重对损失函数进行计算,得到目标损失函数,并采用目标损失函数对新策略网络进行更新。基于上述过程,转钢控制系统按照预设执行次数采用多个状态和多个动作对新策略网络进行更新,得到目标新策略网络,并采用目标新策略网络的目标参数对旧策略网络进行更新,得到采样轨迹对应的最优转钢速度设定策略。最后,转钢控制系统获取每个采样轨迹对应的最优转钢速度设定策略,得到多个最优转钢速度设定策略。本申请的虚拟环境基于对大量生产数据的分析,结合物理公式和实际规则建立,在仿真模型中训练强化学习策略,最终移植到真实的物理环境中,可以对未知工况进行多次探索,无需在真实物理环境进行测试即可找到最优的辊道速度设定策略,能够满足快速转钢的要求,提升转钢控制精度。
可选地,还可以初始化强化学习算法参数,经验缓冲区存储为空,时间步为0,通过reset模块产生钢坯长宽、实时转角的状态数据,step模块(MATLAB中用于绘制单位阶跃响应的函数)产生锥形辊道速度设定动作,通过奖励函数计算单步动作的奖励值和最终奖励值,最终奖励,单步奖励是/>,将这些数据储存在经验缓冲区中,从而一次批量从经验缓冲区内获取64组数据进入网络进行参数更新。然后策略网络输入钢坯的状态信息,输出锥形辊道执行的动作,价值网络输入钢坯的状态和锥形辊道执行动作,输出对策略网络的评价值,以得到最优的速度设定策略。其中,深度神经网络均是由3层全连接层构成。重复以上步骤,计算强化学习算法的值函数和优势函数,然后计算损失函数更新策略网络和价值网络,确定网络训练收敛后,输出智能体的策略网络作为转钢策略模型部署在实际转钢环境。其中,强化学习算法的相关参数可以进行如下设置:Actor网络学习率的值为,Critic网络学习率的值为/>,折扣因子的值为0.98,训练轮数(episode)的值为5000,神经网络层数的值为3,每层隐藏神经元数量的值为128,激活函数为ReLU(Linearrectification function,线性整流函数),GAE参数的值为0.95,估计优势函数裁剪系数的值为0.2。基于上述过程能够最终移植到真实的转钢环境中,自动转钢策略网络输出的锥形辊道控制策略如图8所示,在真实的转钢环境中,自动转钢策略网络锥形辊道控制策略包括电机速度设定曲线、奇数辊电机速度反馈曲线、偶数辊电机速度反馈曲线、钢坯实时角度曲线、钢坯转折角度曲线以及转钢命令曲线,采用该锥形辊道控制策略就无需在真实物理环境进行测试即可找到最优的辊道速度设定,而且还可以根据不同规格的钢坯做出最优的辊道速度设定,使得自动转钢的锥形辊道达到预期的控制效果。
210、当检测到钢坯转钢请求时,获取钢坯转钢请求携带的待转钢坯状态信息,在数据库中获取待转钢坯状态信息对应的目标最优转钢速度设定策略,基于目标最优转钢速度设定策略控制锥形辊道变频电机。
在本申请实施例中,转钢控制系统当检测到钢坯转钢请求时,获取钢坯转钢请求携带的待转钢坯状态信息,在数据库中获取待转钢坯状态信息对应的目标最优转钢速度设定策略,基于目标最优转钢速度设定策略控制锥形辊道变频电机。本申请区别于传统基于人工根据经验的转钢过程,而是先对人工转钢操作数据进行分析总结,确认实际转钢操作的相关变量以及人工的操作过程,从中明确最优辊道速度设定规则,然后对最优转钢过程进行建模、仿真,使得建立的虚拟环境与真实环境一致,从而基于强化学习模型得到不同规格钢坯转钢辊道速度调整的策略,可得到更优的参数组合,提高转钢到位精度,缩短转钢时间。
本申请实施例提供的方法,获取多个最优转钢数据和一阶控制系统的传递函数模型,采用多个最优转钢数据对传递函数模型进行仿真实验,采用基于仿真实验的仿真结果确定的多个模型参数对传递函数模型进行调整,得到锥形辊道电机设定速度与反馈速度模型,获取钢坯转速理论公式,采用钢坯转速理论公式进行模型构建,得到钢坯转速模型,采用多个最优转钢数据确定转钢过程最优辊道速度设定规则,根据锥形辊道电机设定速度与反馈速度模型、钢坯转速模型、转钢过程最优辊道速度设定规则设定转钢仿真环境,获取强化学习近端策略优化算法,采用强化学习近端策略优化算法对转钢仿真环境进行训练,得到多个最优转钢速度设定策略,将多个最优转钢速度设定策略存储至数据库,当检测到钢坯转钢请求时,获取钢坯转钢请求携带的待转钢坯状态信息,在数据库中获取待转钢坯状态信息对应的目标最优转钢速度设定策略,基于目标最优转钢速度设定策略控制锥形辊道变频电机,采用人工转钢操作大数据得出最优辊道速度设定规则,基于机理模型进行数学建模,以实际转钢过程中钢坯转角的变化构建数学模型对转钢过程进行仿真,然后基于强化学习理论,针对转钢运动模型定义强化学习要素,明确状态空间、动作空间的形式,根据状态转移方程进行状态更新,并设计奖励函数,构建转钢智能控制的强化学习模型。通过强化学习算法训练,当输入钢坯长宽、实时角度等状态信息时,确定出钢坯最合适的速度转折角度,控制锥形辊道的速度设定,实现钢坯的快速转钢,并提升控制精度。
进一步地,作为图1所述方法的具体实现,本申请实施例提供了一种转钢控制装置,如图9所示,所述装置包括:调整模块901,设定模块902,训练模块903和控制模块904。
调整模块901,用于获取多个最优转钢数据和一阶控制系统的传递函数模型,采用所述多个最优转钢数据对所述传递函数模型进行仿真实验,采用基于所述仿真实验的仿真结果确定的多个模型参数对所述传递函数模型进行调整,得到锥形辊道电机设定速度与反馈速度模型;
设定模块902,用于获取钢坯转速理论公式,采用所述钢坯转速理论公式进行模型构建,得到钢坯转速模型,采用所述多个最优转钢数据确定转钢过程最优辊道速度设定规则,根据所述锥形辊道电机设定速度与反馈速度模型、所述钢坯转速模型、所述转钢过程最优辊道速度设定规则设定转钢仿真环境;
训练模块903,用于获取强化学习近端策略优化算法,采用所述强化学习近端策略优化算法对所述转钢仿真环境进行训练,得到多个最优转钢速度设定策略,将所述多个最优转钢速度设定策略存储至数据库;
控制模块904,用于当检测到钢坯转钢请求时,获取所述钢坯转钢请求携带的待转钢坯状态信息,在所述数据库中获取所述待转钢坯状态信息对应的目标最优转钢速度设定策略,基于所述目标最优转钢速度设定策略控制锥形辊道变频电机。
在具体的应用场景中,该调整模块901,用于在所述数据库中获取历史人工操作转钢数据集,获取数据预处理算法,采用所述数据预处理算法对所述历史人工操作转钢数据集进行处理,得到所述多个最优转钢数据,所述最优转钢数据包括钢坯状态信息、转钢过程中的多个辊道速度控制指令以及执行每个所述辊道速度控制指令后的状态变化信息,所述钢坯状态信息包括钢号、钢坯长度值、钢坯宽度值、旋转角度。
在具体的应用场景中,该设定模块902,用于在所述多个最优转钢数据中读取多个钢坯状态信息,采用所述钢坯转速理论公式分别对所述多个钢坯状态信息进行计算,得到多个钢坯转速数据;采用所述多个钢坯转速数据与所述多个最优转钢数据进行比对;若比对确定所述多个钢坯转速数据与所述多个最优转钢数据一致,则采用所述钢坯转速理论公式进行模型构建,得到所述钢坯转速模型。
在具体的应用场景中,该设定模块902,用于对于每个所述最优转钢数据,在所述最优转钢数据中获取钢坯长度值、钢坯宽度值、钢坯初始角度,将所述钢坯长度值、所述钢坯宽度值、所述钢坯初始角度作为第一状态,根据所述最优转钢数据确定第一设定速度,将所述第一设定速度作为第一动作,以及在所述第一状态下执行所述第一动作,得到第一奖励值和第二状态;根据所述最优转钢数据确定第二设定速度,将所述第二设定速度作为第二动作,并基于所述第二状态、所述第二动作进行下一轮的训练,以迭代训练得到多个状态、多个动作、多个奖励值;基于所述多个状态、所述多个动作、所述多个奖励值绘制所述最优转钢数据的钢坯转钢状态信息;获取每个所述最优转钢数据的钢坯转钢状态信息,得到多个钢坯转钢状态信息,采用所述多个钢坯转钢状态信息构建所述转钢仿真环境。
在具体的应用场景中,该设定模块902,用于将所述第一动作输入至所述锥形辊道电机设定速度与反馈速度模型,获取所述锥形辊道电机设定速度与反馈速度模型输出的第一辊道反馈速度;将所述第一辊道反馈速度、所述第一状态输入至所述钢坯转速模型,获取所述钢坯转速模型输出的第一实时角速度;获取预设时间间隔,在所述第一状态中读取所述钢坯初始角度,将所述第一实时角速度与所述预设时间间隔的乘积加上所述钢坯初始角度的值作为钢坯当前角度,将所述钢坯长度值、所述钢坯宽度值、所述钢坯当前角度作为所述第二状态;获取奖励值计算公式,采用所述奖励值计算公式对所述钢坯当前角度进行计算,得到所述第一奖励值。
在具体的应用场景中,该设定模块902,用于在所述迭代训练过程中,持续检测辊道反馈速度;当检测到所述辊道反馈速度为零时,结束所述迭代训练。
在具体的应用场景中,该训练模块903,用于对所述转钢仿真环境进行策略采样,得到多个采样轨迹,所述采样轨迹包括多个状态、多个动作、多个奖励值;对于每个所述采样轨迹,将所述采样轨迹输入至价值网络,得到状态动作优势集合,获取最小均方差计算方法,采用所述最小均方差计算方法对所述状态动作优势集合进行计算,得到优势函数,采用所述优势函数更新所述价值网络;在所述采样轨迹中提取多个状态和多个动作,将所述多个状态输入新策略网络和旧策略网络中,得到第一正态分布和第二正态分布,采用所述多个动作对所述第一正态分布和所述第二正态分布进行求解计算,得到第一概率和第二概率,采用所述第一概率和所述第二概率进行计算,得到目标权重;获取损失函数,采用所述目标权重对所述损失函数进行计算,得到目标损失函数,采用所述目标损失函数更新所述新策略网络;获取预设执行次数,按照所述预设执行次数采用所述多个状态和所述多个动作更新所述新策略网络,得到目标新策略网络,获取所述目标新策略网络的目标参数,采用所述目标参数对所述旧策略网络进行更新,得到所述采样轨迹对应的最优转钢速度设定策略;获取每个所述采样轨迹对应的最优转钢速度设定策略,得到所述多个最优转钢速度设定策略。
本申请实施例提供的装置,获取多个最优转钢数据和一阶控制系统的传递函数模型,采用多个最优转钢数据对传递函数模型进行仿真实验,采用基于仿真实验的仿真结果确定的多个模型参数对传递函数模型进行调整,得到锥形辊道电机设定速度与反馈速度模型,获取钢坯转速理论公式,采用钢坯转速理论公式进行模型构建,得到钢坯转速模型,采用多个最优转钢数据确定转钢过程最优辊道速度设定规则,根据锥形辊道电机设定速度与反馈速度模型、钢坯转速模型、转钢过程最优辊道速度设定规则设定转钢仿真环境,获取强化学习近端策略优化算法,采用强化学习近端策略优化算法对转钢仿真环境进行训练,得到多个最优转钢速度设定策略,将多个最优转钢速度设定策略存储至数据库,当检测到钢坯转钢请求时,获取钢坯转钢请求携带的待转钢坯状态信息,在数据库中获取待转钢坯状态信息对应的目标最优转钢速度设定策略,基于目标最优转钢速度设定策略控制锥形辊道变频电机,采用人工转钢操作大数据得出最优辊道速度设定规则,基于机理模型进行数学建模,以实际转钢过程中钢坯转角的变化构建数学模型对转钢过程进行仿真,然后基于强化学习理论,针对转钢运动模型定义强化学习要素,明确状态空间、动作空间的形式,根据状态转移方程进行状态更新,并设计奖励函数,构建转钢智能控制的强化学习模型。通过强化学习算法训练,当输入钢坯长宽、实时角度等状态信息时,确定出钢坯最合适的速度转折角度,控制锥形辊道的速度设定,实现钢坯的快速转钢,并提升控制精度。
需要说明的是,本申请实施例提供的一种转钢控制装置所涉及各功能单元的其他相应描述,可以参考图1和图2至图8中的对应描述,在此不再赘述。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。
在示例性实施例中,参见图10,还提供了一种计算机设备,该计算机设备包括总线、处理器、存储器和通信接口,还可以包括输入/输出接口和显示设备,其中,各个功能单元之间可以通过总线完成相互间的通信。该存储器包括应用、应用程序接口、中间件和内核,存储有计算机程序,处理器,用于执行存储器上所存放的程序,执行上述实施例中的转钢控制方法。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现所述的转钢控制方法的步骤。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本申请可以通过硬件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施场景所述的方法。
本领域技术人员可以理解附图只是一个优选实施场景的示意图,附图中的模块或流程并不一定是实施本申请所必须的。
本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中,也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
上述本申请序号仅仅为了描述,不代表实施场景的优劣。
以上公开的仅为本申请的几个具体实施场景,但是,本申请并非局限于此,任何本领域的技术人员能思之的变化都应落入本申请的保护范围。

Claims (10)

1.一种转钢控制方法,其特征在于,包括:
获取多个最优转钢数据和一阶控制系统的传递函数模型,采用所述多个最优转钢数据对所述传递函数模型进行仿真实验,采用基于所述仿真实验的仿真结果确定的多个模型参数对所述传递函数模型进行调整,得到锥形辊道电机设定速度与反馈速度模型;
获取钢坯转速理论公式,采用所述钢坯转速理论公式进行模型构建,得到钢坯转速模型,采用所述多个最优转钢数据确定转钢过程最优辊道速度设定规则,根据所述锥形辊道电机设定速度与反馈速度模型、所述钢坯转速模型、所述转钢过程最优辊道速度设定规则设定转钢仿真环境;
获取强化学习近端策略优化算法,采用所述强化学习近端策略优化算法对所述转钢仿真环境进行训练,得到多个最优转钢速度设定策略,将所述多个最优转钢速度设定策略存储至数据库;
当检测到钢坯转钢请求时,获取所述钢坯转钢请求携带的待转钢坯状态信息,在所述数据库中获取所述待转钢坯状态信息对应的目标最优转钢速度设定策略,基于所述目标最优转钢速度设定策略控制锥形辊道变频电机。
2.根据权利要求1所述的转钢控制方法,其特征在于,所述获取多个最优转钢数据,包括:
在所述数据库中获取历史人工操作转钢数据集,获取数据预处理算法,采用所述数据预处理算法对所述历史人工操作转钢数据集进行处理,得到所述多个最优转钢数据,所述最优转钢数据包括钢坯状态信息、转钢过程中的多个辊道速度控制指令以及执行每个所述辊道速度控制指令后的状态变化信息,所述钢坯状态信息包括钢号、钢坯长度值、钢坯宽度值、旋转角度。
3.根据权利要求1所述的转钢控制方法,其特征在于,所述采用所述钢坯转速理论公式进行模型构建,得到钢坯转速模型,包括:
在所述多个最优转钢数据中读取多个钢坯状态信息,采用所述钢坯转速理论公式分别对所述多个钢坯状态信息进行计算,得到多个钢坯转速数据;
采用所述多个钢坯转速数据与所述多个最优转钢数据进行比对;
若比对确定所述多个钢坯转速数据与所述多个最优转钢数据一致,则采用所述钢坯转速理论公式进行模型构建,得到所述钢坯转速模型。
4.根据权利要求1所述的转钢控制方法,其特征在于,所述根据所述锥形辊道电机设定速度与反馈速度模型、所述钢坯转速模型、所述转钢过程最优辊道速度设定规则设定转钢仿真环境,包括:
对于每个所述最优转钢数据,在所述最优转钢数据中获取钢坯长度值、钢坯宽度值、钢坯初始角度,将所述钢坯长度值、所述钢坯宽度值、所述钢坯初始角度作为第一状态,根据所述最优转钢数据确定第一设定速度,将所述第一设定速度作为第一动作,以及在所述第一状态下执行所述第一动作,得到第一奖励值和第二状态;
根据所述最优转钢数据确定第二设定速度,将所述第二设定速度作为第二动作,并基于所述第二状态、所述第二动作进行下一轮的训练,以迭代训练得到多个状态、多个动作、多个奖励值;
基于所述多个状态、所述多个动作、所述多个奖励值绘制所述最优转钢数据的钢坯转钢状态信息;
获取每个所述最优转钢数据的钢坯转钢状态信息,得到多个钢坯转钢状态信息,采用所述多个钢坯转钢状态信息构建所述转钢仿真环境。
5.根据权利要求4所述的转钢控制方法,其特征在于,所述在所述第一状态下执行所述第一动作,得到第一奖励值和第二状态,包括:
将所述第一动作输入至所述锥形辊道电机设定速度与反馈速度模型,获取所述锥形辊道电机设定速度与反馈速度模型输出的第一辊道反馈速度;
将所述第一辊道反馈速度、所述第一状态输入至所述钢坯转速模型,获取所述钢坯转速模型输出的第一实时角速度;
获取预设时间间隔,在所述第一状态中读取所述钢坯初始角度,将所述第一实时角速度与所述预设时间间隔的乘积加上所述钢坯初始角度的值作为钢坯当前角度,将所述钢坯长度值、所述钢坯宽度值、所述钢坯当前角度作为所述第二状态;
获取奖励值计算公式,采用所述奖励值计算公式对所述钢坯当前角度进行计算,得到所述第一奖励值。
6.根据权利要求4所述的转钢控制方法,其特征在于,所述方法还包括:
在所述迭代训练过程中,持续检测辊道反馈速度;
当检测到所述辊道反馈速度为零时,结束所述迭代训练。
7.根据权利要求1所述的转钢控制方法,其特征在于,所述采用所述强化学习近端策略优化算法对所述转钢仿真环境进行训练,得到多个最优转钢速度设定策略,包括:
对所述转钢仿真环境进行策略采样,得到多个采样轨迹,所述采样轨迹包括多个状态、多个动作、多个奖励值;
对于每个所述采样轨迹,将所述采样轨迹输入至价值网络,得到状态动作优势集合,获取最小均方差计算方法,采用所述最小均方差计算方法对所述状态动作优势集合进行计算,得到优势函数,采用所述优势函数更新所述价值网络;
在所述采样轨迹中提取多个状态和多个动作,将所述多个状态输入新策略网络和旧策略网络中,得到第一正态分布和第二正态分布,采用所述多个动作对所述第一正态分布和所述第二正态分布进行求解计算,得到第一概率和第二概率,采用所述第一概率和所述第二概率进行计算,得到目标权重;
获取损失函数,采用所述目标权重对所述损失函数进行计算,得到目标损失函数,采用所述目标损失函数更新所述新策略网络;
获取预设执行次数,按照所述预设执行次数采用所述多个状态和所述多个动作更新所述新策略网络,得到目标新策略网络,获取所述目标新策略网络的目标参数,采用所述目标参数对所述旧策略网络进行更新,得到所述采样轨迹对应的最优转钢速度设定策略;
获取每个所述采样轨迹对应的最优转钢速度设定策略,得到所述多个最优转钢速度设定策略。
8.一种转钢控制装置,其特征在于,包括:
调整模块,用于获取多个最优转钢数据和一阶控制系统的传递函数模型,采用所述多个最优转钢数据对所述传递函数模型进行仿真实验,采用基于所述仿真实验的仿真结果确定的多个模型参数对所述传递函数模型进行调整,得到锥形辊道电机设定速度与反馈速度模型;
设定模块,用于获取钢坯转速理论公式,采用所述钢坯转速理论公式进行模型构建,得到钢坯转速模型,采用所述多个最优转钢数据确定转钢过程最优辊道速度设定规则,根据所述锥形辊道电机设定速度与反馈速度模型、所述钢坯转速模型、所述转钢过程最优辊道速度设定规则设定转钢仿真环境;
训练模块,用于获取强化学习近端策略优化算法,采用所述强化学习近端策略优化算法对所述转钢仿真环境进行训练,得到多个最优转钢速度设定策略,将所述多个最优转钢速度设定策略存储至数据库;
控制模块,用于当检测到钢坯转钢请求时,获取所述钢坯转钢请求携带的待转钢坯状态信息,在所述数据库中获取所述待转钢坯状态信息对应的目标最优转钢速度设定策略,基于所述目标最优转钢速度设定策略控制锥形辊道变频电机。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的转钢控制方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的转钢控制方法的步骤。
CN202410028548.0A 2024-01-09 2024-01-09 转钢控制方法、装置、计算机设备及计算机可读存储介质 Active CN117539209B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410028548.0A CN117539209B (zh) 2024-01-09 2024-01-09 转钢控制方法、装置、计算机设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410028548.0A CN117539209B (zh) 2024-01-09 2024-01-09 转钢控制方法、装置、计算机设备及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN117539209A true CN117539209A (zh) 2024-02-09
CN117539209B CN117539209B (zh) 2024-03-15

Family

ID=89790358

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410028548.0A Active CN117539209B (zh) 2024-01-09 2024-01-09 转钢控制方法、装置、计算机设备及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN117539209B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117772811A (zh) * 2024-02-27 2024-03-29 东北大学 一种推床预摆控制方法、装置、设备及介质
CN117807403A (zh) * 2024-02-29 2024-04-02 东北大学 基于行为克隆的转钢控制方法及装置、介质、计算机设备
CN117807410A (zh) * 2024-02-29 2024-04-02 东北大学 转钢辊道设定速度的确定方法及装置、存储介质、终端
CN117804294A (zh) * 2024-02-27 2024-04-02 保融盛维(沈阳)科技有限公司 一种工业电子雷管周身全面检测机构
CN117807410B (zh) * 2024-02-29 2024-05-31 东北大学 转钢辊道设定速度的确定方法及装置、存储介质、终端

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20090044367A (ko) * 2007-10-31 2009-05-07 주식회사 포스코 회전 속도계를 이용한 강판 속도 측정장치 및 이를 이용하여 작업 롤의 속도를 설정하는 방법
US20220063046A1 (en) * 2018-12-04 2022-03-03 Loram Maintenance Of Way, Inc. Enhanced rail grinding system and method thereof
CN115309109A (zh) * 2021-05-08 2022-11-08 北京宏视科技有限公司 一种钢板转动控制方法、装置、存储介质及电子设备
CN115446125A (zh) * 2022-08-16 2022-12-09 北京科技大学 一种基于机器视觉的中厚板自动转钢控制方法
CN115780528A (zh) * 2022-10-18 2023-03-14 北京科技大学设计研究院有限公司 一种转钢角度跟踪与自动控制方法及系统
CN115927838A (zh) * 2022-12-16 2023-04-07 阳春新钢铁有限责任公司 一种钢坯智能入炉和智能剔废控制的系统及方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20090044367A (ko) * 2007-10-31 2009-05-07 주식회사 포스코 회전 속도계를 이용한 강판 속도 측정장치 및 이를 이용하여 작업 롤의 속도를 설정하는 방법
US20220063046A1 (en) * 2018-12-04 2022-03-03 Loram Maintenance Of Way, Inc. Enhanced rail grinding system and method thereof
CN115309109A (zh) * 2021-05-08 2022-11-08 北京宏视科技有限公司 一种钢板转动控制方法、装置、存储介质及电子设备
CN115446125A (zh) * 2022-08-16 2022-12-09 北京科技大学 一种基于机器视觉的中厚板自动转钢控制方法
CN115780528A (zh) * 2022-10-18 2023-03-14 北京科技大学设计研究院有限公司 一种转钢角度跟踪与自动控制方法及系统
CN115927838A (zh) * 2022-12-16 2023-04-07 阳春新钢铁有限责任公司 一种钢坯智能入炉和智能剔废控制的系统及方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
MEN QUAN-LE: "An image identification based automatic plate turning scheme for wide heavy plate mills", METALLURGICAL INDUSTRY AUTOMATION, vol. 34, no. 6, 31 October 2010 (2010-10-31), pages 55 - 60 *
矫志杰等: "中厚板轧制过程高精度智能化控制系统的研发进展与应用", 轧钢, vol. 39, no. 6, 31 December 2022 (2022-12-31), pages 52 - 59 *
谈际生等: "中厚板宽度精度控制技术", 轧钢, vol. 34, no. 2, 30 April 2017 (2017-04-30), pages 60 - 63 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117772811A (zh) * 2024-02-27 2024-03-29 东北大学 一种推床预摆控制方法、装置、设备及介质
CN117804294A (zh) * 2024-02-27 2024-04-02 保融盛维(沈阳)科技有限公司 一种工业电子雷管周身全面检测机构
CN117804294B (zh) * 2024-02-27 2024-05-03 保融盛维(沈阳)科技有限公司 一种工业电子雷管周身全面检测机构
CN117772811B (zh) * 2024-02-27 2024-05-10 东北大学 一种推床预摆控制方法、装置、设备及介质
CN117807403A (zh) * 2024-02-29 2024-04-02 东北大学 基于行为克隆的转钢控制方法及装置、介质、计算机设备
CN117807410A (zh) * 2024-02-29 2024-04-02 东北大学 转钢辊道设定速度的确定方法及装置、存储介质、终端
CN117807403B (zh) * 2024-02-29 2024-05-10 东北大学 基于行为克隆的转钢控制方法及装置、介质、计算机设备
CN117807410B (zh) * 2024-02-29 2024-05-31 东北大学 转钢辊道设定速度的确定方法及装置、存储介质、终端

Also Published As

Publication number Publication date
CN117539209B (zh) 2024-03-15

Similar Documents

Publication Publication Date Title
CN117539209B (zh) 转钢控制方法、装置、计算机设备及计算机可读存储介质
DE112020003136T5 (de) Verfahren zum Erzeugen eines Spurwechsel-Entscheidungsmodells, Verfahren und Vorrichtung zur Spurwechsel-Entscheidung eines unbemannten Fahrzeugs
CN107168324A (zh) 一种基于anfis模糊神经网络的机器人路径规划方法
CN106066644A (zh) 建立智能车辆控制模型的方法、智能车辆控制方法及装置
CN104732559B (zh) 一种基于rgb‑d数据的多目标检测与跟踪方法
CN111856925B (zh) 基于状态轨迹的对抗式模仿学习方法及装置
Wang et al. Autonomous ramp merge maneuver based on reinforcement learning with continuous action space
CN107885232A (zh) 一种用于多策略机动跟踪的滤波方法
CN109657077A (zh) 模型训练方法、车道线生成方法、设备及存储介质
CN107255920A (zh) 基于网络优化算法的pid控制方法和装置及系统
CN108168577A (zh) 基于bp神经网络的mems陀螺随机误差补偿方法
CN112801143A (zh) 基于K-Means和高斯过程回归的转向路感模拟方法
CN109739083A (zh) 一种基于灰色预测模糊pid算法的高地隙车辆侧倾稳定性控制系统
Deng et al. Advanced self-improving ramp metering algorithm based on multi-agent deep reinforcement learning
CN115952736A (zh) 一种多智能体目标协同搜索方法及系统
CN109800517B (zh) 一种改进的磁流变阻尼器逆向建模方法
CN113264064B (zh) 用于交叉路口场景的自动驾驶方法及相关设备
CN105259754B (zh) 一种基于主动学习的板厚智能控制方法
CN108694465A (zh) 基于svm向量机q学习的城市救援仿真决策优化方法
CN115826621B (zh) 一种基于深度强化学习的无人机运动规划方法及系统
Yan et al. A game-theoretical approach to driving decision making in highway scenarios
WO2022023384A1 (en) Training an action selection system using relative entropy q-learning
CN111290118A (zh) 一种变形镜的解耦控制方法及装置
Zhao et al. Human-Like Decision Making for Autonomous Driving With Social Skills
CN117873118B (zh) 一种基于sac算法与控制器的仓储物流机器人导航方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant