CN114265361A

CN114265361A - 一种基于视频反馈信号强化学习的自动行车防摇控制方法

Info

Publication number: CN114265361A
Application number: CN202210196901.7A
Authority: CN
Inventors: 杨庆研; 熊欣欣; 郑军
Original assignee: Jushi Technology Jiangsu Co ltd
Current assignee: Jushi Technology Jiangsu Co ltd
Priority date: 2022-03-02
Filing date: 2022-03-02
Publication date: 2022-04-01

Abstract

本发明提出了一种基于视频反馈信号强化学习的自动行车防摇控制方法，包括如下步骤：通过卷积神经网络识别目标物，并结合小孔成像模型计算出吊具的摆角信息，通过PLC控制器读取当前位置的整数编码，并根据PLC控制器的编码方式计算得到真实的位置信息，通过相邻两个位置信息的差分计算得到速度信息；将连续若干帧的吊具在图片中位置、真实的位置信息和速度信息存在一个固定的缓存长度中进行缓存，缓存进行实时滚动更新；同时考虑快速摆角抑制和位置控制精度设计reward函数，用于强化学习训练，获得控制模型，将缓存的信息输入到强化学习训练得到的控制模型中并输出大车和小车的运动控制指令,实现快速摆角抑制和位置精确控制的效果。

Description

一种基于视频反馈信号强化学习的自动行车防摇控制方法

技术领域

本发明涉及工业自动化控制领域，尤其涉及一种基于视频反馈信号强化学习的自动行车防摇控制方法。

背景技术

行车作为大负载的通用物流设备，在绝大部分的工厂车间都会用到各类行车起重机，如矿业，钢铁行车，有色金属行车，机械加工制造业等。行车的驾驶人员需要掌握一定的技术技能，同时又需要长时间的工作在狭小的驾驶室。

基于传统防摇算法，一般采用可编程控制器和变频器，根据操作指令及起重机的实时运行状况计算出能消除载荷摇摆的大小车运行速度，再通过变频器根据所要求的速度驱动大车和小车运行，从而实现消除起重机载荷摇摆现象。

依靠此类方法，但是由于技术和成本的问题，我国桥式起重机的自动化程度还是相当的低，全行业的自动化程度不到千分之一，无法主要的原因如下：1、绝大多数的系统采用开环控制，只能工作在无初始摆角的工况，而闭环系统技术一直由外国公司掌握，企业部署成本一直居高不下。2、基于视觉的闭环防摇技术需在在吊具上安装定位标靶。很多时候，实际工况不具备安装条件。3、司机操作的时候需要预估刹车距离，一旦预估错误，就要能会造成被吊物撞到其它物器。4、需要异常情况，设备急停后，无法自动恢复作业。5、传统的防摇方法不没有考虑司机在驾驶室中的作业感受，采用高频的控制，在进行防摇的过程中，司机会产生不显的不适，极难推广。

传统的摆角检测一般有三种方法：1）基于物理角度传感器、IMU（Inertialmeasurement unit）、视觉和标靶的方法进行检测。但是这三种方法，均对吊具本身都有较多的要求。其中基于视觉和标靶的方法对具吊的要求最少，也是目前采用较多的方案。但是，由于现有的视觉和标靶的方法有较大的反馈延时，因此也无法直接用于行车的自动控制。

鉴于此，实有必要提供一种新型的基于视频反馈信号强化学习的自动行车防摇控制方法以克服上述缺陷。

发明内容

本发明的目的是提供一种基于视频反馈信号强化学习的自动行车防摇控制方法，在给出目标位置的情况下，可以实现吊具的小车和大车的自动控制，实现小车和打车能够精确的停止在目标位置，并且无摆角，可以实现行车的辅助驾驶主要功能，极大的减少司机的工作量。

为了实现上述目的，本发明提供一种基于视频反馈信号强化学习的自动行车防摇控制方法，包括如下步骤：

S1：通过卷积神经网络识别目标物，并结合小孔成像模型计算出吊具的摆角信息，通过PLC控制器读取当前位置的整数编码，并根据PLC控制器的编码方式计算得到真实的位置信息，通过相邻两个位置信息的差分计算得到速度信息；

S2：将连续若干帧的吊具在图片中位置、真实的位置信息和速度信息存在一个固定的缓存长度中进行缓存，缓存进行实时滚动更新；

S3：采用强化学习获取控制模型，将缓存的信息输入到控制模型中并输出大车和小车的运动控制指令,通过reward函数计算得到快速摆角抑制和位置精确控制的效果，所述reward函数如下：

其中， c代表时间步，

代表当前的小车位置，

代表当前的摆角，

代表当前的动作，

代表通过控制模型计算得到的目标位置，

代表通过控制模型计算得到的目标控制量，k1,k2和k3为各项的权重系统。

优选的，所述控制模型的求得过程如下：

步骤3还包括步骤S311：构建基础lstm网络；

S312：采用基于sac算法收集系统动力学数据用于步骤S311中所述的lstm网络的训练，训练后的lstm网络在sac算法得到的策略下进行精度验证；

S313：构建基于CNNs Attention 和Transfomer方法的运动控制网络，并采用基于PPO算法在动力学模拟上进行低频率（控制训练，同时将控制过程中所需总能量作为奖励的惩罚项，最终采用步骤3中所述的reward函数得到控制模型。

与现有技术相比，有益效果在于：1）可以快速计算得到快速摆角抑制的效果以实现快速抑摆功能，在任何状态下可以实现吊具的小车和大车的自动调整在三个周期内完成90%以上的摆角抑制；

2）在给出目标位置的情况下，可以实现吊具的小车和大车的自动控制，实现小车和打车能够精确的停止在目标位置，并且无摆角，可以实现行车的辅助驾驶主要功能，极大的减少司机的工作量；

3）解决了只能工作在无初始摆角的工况，设备急停后无法自动恢复作业等问题，采用低频控制提高了操作舒适性，从而提高了应用和推广的能力；采用基于强化学习的算法，对不同工况下的行车有着更好的适应性，在绝大多数工况下都有高效的摆角抑制效率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明提供的基于视频反馈信号强化学习的自动行车防摇控制方法的流程图。

图2为基于视频反馈信号强化学习的自动行车防摇控制方法控制吊具过程中的波形图。

具体实施方式

为了使本发明的目的、技术方案和有益技术效果更加清晰明白，以下结合附图和具体实施方式，对本发明进行进一步详细说明。应当理解的是，本说明书中描述的具体实施方式仅仅是为了解释本发明，并不是为了限定本发明。

请参阅图1至图2，本发明提供一种基于视频反馈信号强化学习的自动行车防摇控制方法，包括如下步骤：

S3：采用强化学习获取控制模型，将缓存的信息输入到控制模型中并输出大车和小车的运动控制指令,通过reward函数评价得到快速摆角抑制和位置精确控制的效果，所述reward函数如下：

其中， c代表时间步（频率为20Hz,0.05秒/次，计为一个时间步），

代表当前的小车位置，

代表当前的摆角，

代表当前的动作，

代表通过控制模型计算得到的目标位置，

具体的，所述控制模型的求得过程如下：

S311：构建一个基础的lstm网络，用于进行系统动力学的模拟和后续强化学习的训练；

S313：构建一个基于CNNs Attention 和Transfomer方法的运动控制网络，并采用基于PPO算法在动力学模拟上进行低频率（20Hz/次）控制训练，同时将控制过程中所需总能量作为奖励的惩罚项，最终采用步骤S3中所述的reward函数得到控制模型。

通过上述算法，可以快速计算得到快速摆角抑制的效果以实现快速抑摆功能，在任何状态下可以实现吊具的小车和大车的自动调整在三个周期内完成90%以上的摆角抑制；

并且在给出目标位置的情况下，可以实现吊具的小车和大车的自动控制，且在控制的时间内实现小车和打车能够精确的停止在目标位置（如图2所示，图2中的X轴表示时间，单位S；Y轴表示摆角），并且无摆角，可以实现行车的辅助驾驶主要功能，极大的减少司机的工作量。

有益效果在于，解决了只能工作在无初始摆角的工况，设备急停后无法自动恢复作业等问题，采用低频控制，提高了操作舒适性，从而提高了应用和推广的能力；采用基于强化学习的算法，对不同工况下的行车有着更好的适应性，在绝大多数工况下都有高效的摆角抑制效率。

本发明并不仅仅限于说明书和实施方式中所描述，因此对于熟悉领域的人员而言可容易地实现另外的优点和修改，故在不背离权利要求及等同范围所限定的一般概念的精神和范围的情况下，本发明并不限于特定的细节、代表性的设备和这里示出与描述的示例。

Claims

1.一种基于视频反馈信号强化学习的自动行车防摇控制方法，其特征在于，包括如下步骤：

S3：采用强化学习获取控制模型，将缓存的信息输入到控制模型中并输出大车和小车的运动控制指令，通过reward函数评价快速摆角抑制和位置精确控制的效果，所述reward函数如下：

其中， c代表时间步，

代表当前的小车位置，

代表当前的摆角，

代表当前的动作，

代表目标位置，

代表目标摆角，k1，k2和k3为各项的权重系统。

2.如权利要求1所述的基于视频反馈信号强化学习的自动行车防摇控制方法，其特征在于，所述控制模型的求得过程如下：

步骤3还包括步骤S311：构建基础lstm网络；

S312：基于sac算法收集系统动力学数据，用于步骤S311中所述的lstm网络的训练，训练后的lstm网络在sac算法得到的策略下进行精度验证；

S313：构建基于CNNs，Attention 和Transfomer方法的运动控制网络，并采用基于PPO算法在动力学模拟上进行低频率控制训练，同时将控制过程中所需总能量作为奖励的惩罚项，最终采用步骤S3中所述的reward函数得到控制模型。