CN114265361A - 一种基于视频反馈信号强化学习的自动行车防摇控制方法 - Google Patents

一种基于视频反馈信号强化学习的自动行车防摇控制方法 Download PDF

Info

Publication number
CN114265361A
CN114265361A CN202210196901.7A CN202210196901A CN114265361A CN 114265361 A CN114265361 A CN 114265361A CN 202210196901 A CN202210196901 A CN 202210196901A CN 114265361 A CN114265361 A CN 114265361A
Authority
CN
China
Prior art keywords
control
reinforcement learning
swing angle
information
calculating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210196901.7A
Other languages
English (en)
Inventor
杨庆研
熊欣欣
郑军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jushi Technology Jiangsu Co ltd
Original Assignee
Jushi Technology Jiangsu Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jushi Technology Jiangsu Co ltd filed Critical Jushi Technology Jiangsu Co ltd
Priority to CN202210196901.7A priority Critical patent/CN114265361A/zh
Publication of CN114265361A publication Critical patent/CN114265361A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Feedback Control In General (AREA)

Abstract

本发明提出了一种基于视频反馈信号强化学习的自动行车防摇控制方法,包括如下步骤:通过卷积神经网络识别目标物,并结合小孔成像模型计算出吊具的摆角信息,通过PLC控制器读取当前位置的整数编码,并根据PLC控制器的编码方式计算得到真实的位置信息,通过相邻两个位置信息的差分计算得到速度信息;将连续若干帧的吊具在图片中位置、真实的位置信息和速度信息存在一个固定的缓存长度中进行缓存,缓存进行实时滚动更新;同时考虑快速摆角抑制和位置控制精度设计reward函数,用于强化学习训练,获得控制模型,将缓存的信息输入到强化学习训练得到的控制模型中并输出大车和小车的运动控制指令,实现快速摆角抑制和位置精确控制的效果。

Description

一种基于视频反馈信号强化学习的自动行车防摇控制方法
技术领域
本发明涉及工业自动化控制领域,尤其涉及一种基于视频反馈信号强化学习的自动行车防摇控制方法。
背景技术
行车作为大负载的通用物流设备,在绝大部分的工厂车间都会用到各类行车起重机,如矿业,钢铁行车,有色金属行车,机械加工制造业等。行车的驾驶人员需要掌握一定的技术技能,同时又需要长时间的工作在狭小的驾驶室。
基于传统防摇算法,一般采用可编程控制器和变频器,根据操作指令及起重机的实时运行状况计算出能消除载荷摇摆的大小车运行速度,再通过变频器根据所要求的速度驱动大车和小车运行,从而实现消除起重机载荷摇摆现象。
依靠此类方法,但是由于技术和成本的问题,我国桥式起重机的自动化程度还是相当的低,全行业的自动化程度不到千分之一,无法主要的原因如下:1、绝大多数的系统采用开环控制,只能工作在无初始摆角的工况,而闭环系统技术一直由外国公司掌握,企业部署成本一直居高不下。2、基于视觉的闭环防摇技术需在在吊具上安装定位标靶。很多时候,实际工况不具备安装条件。3、司机操作的时候需要预估刹车距离,一旦预估错误,就要能会造成被吊物撞到其它物器。4、需要异常情况,设备急停后,无法自动恢复作业。5、传统的防摇方法不没有考虑司机在驾驶室中的作业感受,采用高频的控制,在进行防摇的过程中,司机会产生不显的不适,极难推广。
传统的摆角检测一般有三种方法:1)基于物理角度传感器、IMU(Inertialmeasurement unit)、视觉和标靶的方法进行检测。但是这三种方法,均对吊具本身都有较多的要求。其中基于视觉和标靶的方法对具吊的要求最少,也是目前采用较多的方案。但是,由于现有的视觉和标靶的方法有较大的反馈延时,因此也无法直接用于行车的自动控制。
鉴于此,实有必要提供一种新型的基于视频反馈信号强化学习的自动行车防摇控制方法以克服上述缺陷。
发明内容
本发明的目的是提供一种基于视频反馈信号强化学习的自动行车防摇控制方法,在给出目标位置的情况下,可以实现吊具的小车和大车的自动控制,实现小车和打车能够精确的停止在目标位置,并且无摆角,可以实现行车的辅助驾驶主要功能,极大的减少司机的工作量。
为了实现上述目的,本发明提供一种基于视频反馈信号强化学习的自动行车防摇控制方法,包括如下步骤:
S1:通过卷积神经网络识别目标物,并结合小孔成像模型计算出吊具的摆角信息,通过PLC控制器读取当前位置的整数编码,并根据PLC控制器的编码方式计算得到真实的位置信息,通过相邻两个位置信息的差分计算得到速度信息;
S2:将连续若干帧的吊具在图片中位置、真实的位置信息和速度信息存在一个固定的缓存长度中进行缓存,缓存进行实时滚动更新;
S3:采用强化学习获取控制模型,将缓存的信息输入到控制模型中并输出大车和小车的运动控制指令,通过reward函数计算得到快速摆角抑制和位置精确控制的效果,所述reward函数如下:
Figure 165474DEST_PATH_IMAGE001
其中, c代表时间步,
Figure 251241DEST_PATH_IMAGE002
代表当前的小车位置,
Figure 197200DEST_PATH_IMAGE003
代表当前的摆角,
Figure 405328DEST_PATH_IMAGE004
代表当 前的动作,
Figure 46525DEST_PATH_IMAGE005
代表通过控制模型计算得到的目标位置,
Figure 732721DEST_PATH_IMAGE006
代表通过控制模型计算 得到的目标控制量,k1,k2和k3为各项的权重系统。
优选的,所述控制模型的求得过程如下:
步骤3还包括步骤S311:构建基础lstm网络;
S312:采用基于sac算法收集系统动力学数据用于步骤S311中所述的lstm网络的训练,训练后的lstm网络在sac算法得到的策略下进行精度验证;
S313:构建基于CNNs Attention 和Transfomer方法的运动控制网络,并采用基于PPO算法在动力学模拟上进行低频率(控制训练,同时将控制过程中所需总能量作为奖励的惩罚项,最终采用步骤3中所述的reward函数得到控制模型。
与现有技术相比,有益效果在于:1)可以快速计算得到快速摆角抑制的效果以实现快速抑摆功能,在任何状态下可以实现吊具的小车和大车的自动调整在三个周期内完成90%以上的摆角抑制;
2)在给出目标位置的情况下,可以实现吊具的小车和大车的自动控制,实现小车和打车能够精确的停止在目标位置,并且无摆角,可以实现行车的辅助驾驶主要功能,极大的减少司机的工作量;
3)解决了只能工作在无初始摆角的工况,设备急停后无法自动恢复作业等问题,采用低频控制提高了操作舒适性,从而提高了应用和推广的能力;采用基于强化学习的算法,对不同工况下的行车有着更好的适应性,在绝大多数工况下都有高效的摆角抑制效率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明提供的基于视频反馈信号强化学习的自动行车防摇控制方法的流程图。
图2为基于视频反馈信号强化学习的自动行车防摇控制方法控制吊具过程中的波形图。
具体实施方式
为了使本发明的目的、技术方案和有益技术效果更加清晰明白,以下结合附图和具体实施方式,对本发明进行进一步详细说明。应当理解的是,本说明书中描述的具体实施方式仅仅是为了解释本发明,并不是为了限定本发明。
请参阅图1至图2,本发明提供一种基于视频反馈信号强化学习的自动行车防摇控制方法,包括如下步骤:
S1:通过卷积神经网络识别目标物,并结合小孔成像模型计算出吊具的摆角信息,通过PLC控制器读取当前位置的整数编码,并根据PLC控制器的编码方式计算得到真实的位置信息,通过相邻两个位置信息的差分计算得到速度信息;
S2:将连续若干帧的吊具在图片中位置、真实的位置信息和速度信息存在一个固定的缓存长度中进行缓存,缓存进行实时滚动更新;
S3:采用强化学习获取控制模型,将缓存的信息输入到控制模型中并输出大车和小车的运动控制指令,通过reward函数评价得到快速摆角抑制和位置精确控制的效果,所述reward函数如下:
Figure 782454DEST_PATH_IMAGE007
其中, c代表时间步(频率为20Hz,0.05秒/次,计为一个时间步),
Figure 161483DEST_PATH_IMAGE002
代表当前的小 车位置,
Figure 289976DEST_PATH_IMAGE003
代表当前的摆角,
Figure 107759DEST_PATH_IMAGE004
代表当前的动作,
Figure 434836DEST_PATH_IMAGE005
代表通过控制模型计算得到 的目标位置,
Figure 922449DEST_PATH_IMAGE006
代表通过控制模型计算得到的目标控制量,k1,k2和k3为各项的权重 系统。
具体的,所述控制模型的求得过程如下:
S311:构建一个基础的lstm网络,用于进行系统动力学的模拟和后续强化学习的训练;
S312:采用基于sac算法收集系统动力学数据用于步骤S311中所述的lstm网络的训练,训练后的lstm网络在sac算法得到的策略下进行精度验证;
S313:构建一个基于CNNs Attention 和Transfomer方法的运动控制网络,并采用基于PPO算法在动力学模拟上进行低频率(20Hz/次)控制训练,同时将控制过程中所需总能量作为奖励的惩罚项,最终采用步骤S3中所述的reward函数得到控制模型。
通过上述算法,可以快速计算得到快速摆角抑制的效果以实现快速抑摆功能,在任何状态下可以实现吊具的小车和大车的自动调整在三个周期内完成90%以上的摆角抑制;
并且在给出目标位置的情况下,可以实现吊具的小车和大车的自动控制,且在控制的时间内实现小车和打车能够精确的停止在目标位置(如图2所示,图2中的X轴表示时间,单位S;Y轴表示摆角),并且无摆角,可以实现行车的辅助驾驶主要功能,极大的减少司机的工作量。
有益效果在于,解决了只能工作在无初始摆角的工况,设备急停后无法自动恢复作业等问题,采用低频控制,提高了操作舒适性,从而提高了应用和推广的能力;采用基于强化学习的算法,对不同工况下的行车有着更好的适应性,在绝大多数工况下都有高效的摆角抑制效率。
本发明并不仅仅限于说明书和实施方式中所描述,因此对于熟悉领域的人员而言可容易地实现另外的优点和修改,故在不背离权利要求及等同范围所限定的一般概念的精神和范围的情况下,本发明并不限于特定的细节、代表性的设备和这里示出与描述的示例。

Claims (2)

1.一种基于视频反馈信号强化学习的自动行车防摇控制方法,其特征在于,包括如下步骤:
S1:通过卷积神经网络识别目标物,并结合小孔成像模型计算出吊具的摆角信息,通过PLC控制器读取当前位置的整数编码,并根据PLC控制器的编码方式计算得到真实的位置信息,通过相邻两个位置信息的差分计算得到速度信息;
S2:将连续若干帧的吊具在图片中位置、真实的位置信息和速度信息存在一个固定的缓存长度中进行缓存,缓存进行实时滚动更新;
S3:采用强化学习获取控制模型,将缓存的信息输入到控制模型中并输出大车和小车的运动控制指令,通过reward函数评价快速摆角抑制和位置精确控制的效果,所述reward函数如下:
Figure DEST_PATH_IMAGE001
其中, c代表时间步,
Figure 976568DEST_PATH_IMAGE002
代表当前的小车位置,
Figure DEST_PATH_IMAGE003
代表当前的摆角,
Figure 943386DEST_PATH_IMAGE004
代表当前的 动作,
Figure DEST_PATH_IMAGE005
代表目标位置,
Figure 557776DEST_PATH_IMAGE006
代表目标摆角,k1,k2和k3为各项的权重系统。
2.如权利要求1所述的基于视频反馈信号强化学习的自动行车防摇控制方法,其特征在于,所述控制模型的求得过程如下:
步骤3还包括步骤S311:构建基础lstm网络;
S312:基于sac算法收集系统动力学数据,用于步骤S311中所述的lstm网络的训练,训练后的lstm网络在sac算法得到的策略下进行精度验证;
S313:构建基于CNNs,Attention 和Transfomer方法的运动控制网络,并采用基于PPO算法在动力学模拟上进行低频率控制训练,同时将控制过程中所需总能量作为奖励的惩罚项,最终采用步骤S3中所述的reward函数得到控制模型。
CN202210196901.7A 2022-03-02 2022-03-02 一种基于视频反馈信号强化学习的自动行车防摇控制方法 Pending CN114265361A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210196901.7A CN114265361A (zh) 2022-03-02 2022-03-02 一种基于视频反馈信号强化学习的自动行车防摇控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210196901.7A CN114265361A (zh) 2022-03-02 2022-03-02 一种基于视频反馈信号强化学习的自动行车防摇控制方法

Publications (1)

Publication Number Publication Date
CN114265361A true CN114265361A (zh) 2022-04-01

Family

ID=80833927

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210196901.7A Pending CN114265361A (zh) 2022-03-02 2022-03-02 一种基于视频反馈信号强化学习的自动行车防摇控制方法

Country Status (1)

Country Link
CN (1) CN114265361A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117709602A (zh) * 2024-02-05 2024-03-15 吉林大学 一种基于社会价值取向的城市智能车辆拟人化决策方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117709602A (zh) * 2024-02-05 2024-03-15 吉林大学 一种基于社会价值取向的城市智能车辆拟人化决策方法
CN117709602B (zh) * 2024-02-05 2024-05-17 吉林大学 一种基于社会价值取向的城市智能车辆拟人化决策方法

Similar Documents

Publication Publication Date Title
CN109940622A (zh) 一种基于电机电流的机器人机械臂无传感碰撞检测方法
CN110414033B (zh) 结合边缘计算和数字孪生的机械设备预测性维护方法
CN105523476B (zh) 一种桥式起重机防摇控制方法和系统
CN111428317B (zh) 一种基于5g和循环神经网络的关节摩擦力矩补偿方法
CN109017984A (zh) 一种无人车的轨迹跟随控制方法、控制系统及相关装置
CN108190751A (zh) 一种基于神经网络pid的桥式起重机防摇控制方法
CN106965171A (zh) 具备学习功能的机器人装置
CN114265361A (zh) 一种基于视频反馈信号强化学习的自动行车防摇控制方法
CN110758413B (zh) 一种基于系统参数辨识的列车速度自适应控制方法
CN104793645B (zh) 一种磁悬浮球位置控制方法
US20040039555A1 (en) System and method for stochastic simulation of nonlinear dynamic systems with a high degree of freedom for soft computing applications
CN105446335A (zh) 一种行车定位控制系统及控制方法
CN104158446B (zh) 位置控制器
CN111185923B (zh) 一种机器人控制装置及控制方法
CN110488608B (zh) 用于驱控一体化控制系统的智能化动力学参数辩识方法及模块
Tang A novel ROV depth control based on LSM fitting predictor and fuzzy compensation
CN104950683A (zh) 一种视觉伺服机械臂系统的自适应间隙逆模型发生装置
US9859829B2 (en) Motor control device
CN114314350B (zh) 一种用于自动行车吊具摆角定位的自动标定方法
CN114249244B (zh) 一种用于自动行车闭环控制的无标靶吊具定位方法
CN114003030B (zh) 考虑质心变化的两轮差动移动机器人路径跟踪控制方法
CN117444978B (zh) 一种气动软体机器人的位置控制方法及其系统、设备
CN113210939B (zh) 一种焊接系统控制方法及装置
Sommer et al. Reducing the Number of Optimization Problems in Trajectory Tracking Model Predictive Control
CN105511439A (zh) 用于控制伺服电动机的物理信息系统及其控制方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20220401

RJ01 Rejection of invention patent application after publication