CN113156980B

CN113156980B - 一种基于深度强化学习的塔式起重机路径规划方法及系统

Info

Publication number: CN113156980B
Application number: CN202110593298.1A
Authority: CN
Inventors: 马昕; 尹志远; 李贻斌
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2021-05-28
Filing date: 2021-05-28
Publication date: 2022-11-29
Anticipated expiration: 2041-05-28
Also published as: CN113156980A

Abstract

本公开公开的一种基于深度强化学习的塔式起重机路径规划方法及系统，包括：获取起重机的起始点位置信息、目标点位置信息和起重机所处的环境信息；将起始点位置信息、目标点位置信息和环境信息输入训练好的深度强化学习网络模型中，以奖励最大为目标，获取起重机从起始点位置到目标点位置各自由度的动作；以起重机各自由度上运动路径总和构成的代价函数，对各自由度的动作进行分析，获得起重机的最优无碰撞路径。实现了对塔式起重机吊装路径的准确快速规划。

Description

一种基于深度强化学习的塔式起重机路径规划方法及系统

技术领域

本发明涉及塔式起重机吊装路径规划技术领域，尤其涉及一种基于深度强化学习的塔式起重机路径规划方法及系统。

背景技术

本部分的陈述仅仅是提供了与本公开相关的背景技术信息，不必然构成在先技术。

塔式起重机被广泛应用于工厂和建筑工地上，用于重物起吊工作。对于塔式起重机吊装路径的规划是起重起吊环节的一项重要任务，吊装路径规划是指起重机通过一系列的操作将重物无碰撞的起吊到指定位置，同时需要满足运动路径尽可能短，操作时间短等要求。

目前，学者们针对起重机的吊装路径规划问题提出了一系列的规划算法。针对静态环境的路径规划问题是目前研究最为广泛的一种路径规划方法，其提出的算法一般可以分为两类：一类是关注起重机规划路径的最优性，代表算法有A*，GA，蚁群算法等，这类算法在理论上能够找寻到路径的最优解，但是通常规划时间较长，难以满足实时性要求。另一类算法聚焦于如何减少规划的复杂性，减少规划时间。一些学者希望通过引入快速规划方法来解决规划时间慢的问题。比如利用RRT算法来解决多自由度起重机的路径规划问题，但是规划路径的质量通常难以令人满意。一些学者希望能够通过减少位形空间复杂度从而减少计算的复杂度，从而提出了一种新的空间构建方法，只保留高度维度上最大的高度信息，将整个三维空间转化为了2.5维空间，再使用PRM算法进行路径规划；或将整个空间固定高度沿水平面分为多个子区域，再使用A*算法进行路径规划。这些方法在压缩空间的过程中损失了部分的可行路径解，这就导致了往往规划得到的路径与最优路径之间存在较大的差距。

故发明人认为，现有的起重机起吊路径的规划方法不能同时实现起重机起吊路径的准确规划和高效规划。

发明内容

本公开为了解决上述问题，提出了一种基于深度强化学习的塔式起重机路径规划方法及系统，准确获取了起重机吊装的最优无碰撞路径，实现了对起重机吊装路径的准确和高效规划。

为实现上述目的，本公开采用如下技术方案：

第一方面，提出了一种基于深度强化学习的塔式起重机路径规划方法，包括：

获取起重机的起始点位置信息、目标点位置信息和起重机所处的环境信息；

将起始点位置信息、目标点位置信息和环境信息输入训练好的深度强化学习网络模型中，以奖励最大为目标，获取起重机从起始点位置到目标点位置各自由度的动作；

以起重机各自由度上运动路径总和构成的代价函数，对各自由度的动作进行分析，获得起重机的最优无碰撞路径。

第二方面，提出了一种基于深度强化学习的塔式起重机路径规划系统，包括：

信息获取模块，用于获取起重机的起始点位置信息、目标点位置信息和起重机所处的环境信息；

动作获取模块，用于将起始点位置信息、目标点位置信息和环境信息输入训练好的深度强化学习网络模型中，以奖励最大为目标，获取起重机从起始点位置到目标点位置各自由度的动作；

最优无碰撞路径获取模块，用于以起重机各自由度上运动路径总和构成的代价函数，对各自由度的动作进行分析，获得起重机的最优无碰撞路径。

第三方面，提出了一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成一种基于深度强化学习的塔式起重机路径规划方法所述的步骤。

第四方面，提出了一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成一种基于深度强化学习的塔式起重机路径规划方法所述的步骤。

与现有技术相比，本公开的有益效果为：

1、本公开将深度强化学习算法引入到起重机的路径规划当中，不需要事先输入精确的全局环境信息，而是通过位置传感器以及激光雷达返回的起重机的状态数据进行实时策略控制，通过深度强化学习网络的强泛化性，该算法不仅能够对于已知的静态环境进行路径规划，同样也能对于未知环境以及动态环境进行路径规划。同时，由于深度强化学习只依赖于当前状态，其规划时间远短于其他规划算法，并且规划时间相对恒定，具有很强的实时性。

2、本公开在深度强化学习网络模型中引入HER方法，解决了深度强化学习算法中奖励稀疏的问题，同时提出一种适用于HER方法的新的奖励函数，能够保证规划路径与规划路径运行时间的最优性。

3、本公开不需要特定的精确的环境地图信息，可以实现未知环境和动态环境中的路径规划任务，同时在保证规划路径长度以及路径运行时间的前提下，其规划所需时间远远小于现有的起重机路径规划算法，具有极强的实时性，提高了路径规划的效率。

本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。

图1为本公开实施例1公开方法的流程图；

图2为本公开实施例1公开的起重机机构模型示意图；

图3为本公开实施例1公开的Actor-Critic结构示意图；

图4为本公开实施例1公开的TD3网络结构示意图；

图5为本公开实施例1公开的Actor与Critic的网络结构示意图；

图6为本公开实施例1公开的激光雷达设置示意图；

图7为本公开实施例1公开的模型工作流程图；

图8为本公开实施例1公开的深度强化学习网络模型的训练环境；

图9为本公开实施例1公开的深度强化学习网络模型的训练结果；

图10为本公开实施例1公开的训练环境下的路径规划结果；

图11为本公开实施例1公开的障碍物位置改变时的路径规划结果；

图12为本公开实施例1公开的不同障碍物下的路径规划结果；

图13为本公开实施例1公开的运动过程中障碍物位置改变路径规划结果；

图14为本公开实施例1公开的动态环境图；

图15为本公开实施例1公开的具有动态障碍物时的规划结果；

图16为本公开实施例1公开的不同奖励函数下的结果对比图。

具体实施方式：

下面结合附图与实施例对本公开作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

在本公开中，术语如“上”、“下”、“左”、“右”、“前”、“后”、“竖直”、“水平”、“侧”、“底”等指示的方位或位置关系为基于附图所示的方位或位置关系，只是为了便于叙述本公开各部件或元件结构关系而确定的关系词，并非特指本公开中任一部件或元件，不能理解为对本公开的限制。

本公开中，术语如“固接”、“相连”、“连接”等应做广义理解，表示可以是固定连接，也可以是一体地连接或可拆卸连接；可以是直接相连，也可以通过中间媒介间接相连。对于本领域的相关科研或技术人员，可以根据具体情况确定上述术语在本公开中的具体含义，不能理解为对本公开的限制。

实施例1

在该实施例中，公开了一种基于深度强化学习的塔式起重机路径规划方法，包括：

进一步的，起重机的自由度包括回转自由度、小车运动自由度及吊钩自由度。

进一步的，深度强化学习网络模型包括Actor网络和Critic网络，Critic网络根据智能体当前时刻的状态和Actor网络输出的当前时刻的动作，输出当前状态和动作下的奖励的期望值，Actor网络根据Critic网络输出的奖励的期望值输出动作。

进一步的，以获取深度强化学习网络模型的奖励函数期望的最大值为目标，对深度强化学习网络模型进行训练。

进一步的，深度强化学习网络模型的奖励函数为：当智能体与障碍物碰撞时，奖励为-10；当智能体到达指定目标点范围内时，设置奖励函数为0；当智能体没有到达目标点范围，同时也未与障碍物碰撞时，设定其奖励函数与动作的模长|a_t|成负相关。

进一步的，深度强化学习网络模型采用TD3网络，并在TD3网络中加入HER方法。

进一步的，以起重机各自由度上运动路径总和构成代价函数，其中，各自由度上运动路径由各自由度的动作及运动时间获得。

对本实施例公开的一种基于深度强化学习的塔式起重机路径规划方法进行详细说明。

针对起重机动态环境下的吊装路径规划，目前部分学者提出了一系列算法。如：一种针对于起重机的动态RRT算法，该算法不停更新环境信息，来确定是否需要进行重新规划，并且忽略距离当前位置较远的节点，减少规划的时间，已达到实时性的要求；一种适用于动态环境的计算机起吊系统，整个系统分为两个部分，决策系统(Decision SupportSystem)，以及规划器(Path Re-planner)，决策系统收集环境的单层深度图像并且构建对应的障碍物的包围盒，而规划器则用来对于路径是否进行重新规划进行判断，如果原先路径不再满足我们的目标需求，则对于路径进行重新规划，设置新的路径起始点，并利用遗传算法进行重新规划。

对于起重机的路径规划问题，大多数学者将起重机当成机器人模型进行处理，而深度强化学习则是近年来用来解决的机器人最优化问题的一种新兴方法，目前已经被应用于移动机器人导航，机械手抓取等领域。将移动机器人的深度图像信息作为输入，移动机器人的速度作为输出，使用DQN和DDPG算法，实现了在未知环境中的导航任务。CADRL(collision avoidance with deep RL)/SA-CADRL(socially aware collisionavoidance with deep RL)算法使用LSTM模块去处理环境中其他智能体的信息，再经过DNN网络得到最终移动机器人的速度作为输出，在具有不规则运动的充满行人的环境下，移动机器人能够完成自动躲避行人的任务；或使用原始的RGB图像作为输入，最终实现了三维迷宫中的路径搜索任务；将元学习的概念引入深度强化学习中，使用一个辅助网络去处理原始的RGB图像得到相关的深度信息，最终其在环境中表现高于一般人类的水平；还有一部分学者将传统的路径规划算法与深度强化学习相结合提出了一系列算法。如将PRM与RL算法相结合，或将RRT算法与RL相结合，使用深度强化学习来规划局部路径，使用PRM或者RRT来规划全局路径，从而能够实现长距离的导航任务。还有一些学者提出NEXT算法，意图解决RRT算法中采样利用率低的问题，对于不同的规划任务，往往会有相同的结构，NEXT可以从中提取出相似的特征并加以利用，以此来提高采样的利用率，在训练阶段，RRT方法起到引导作用，能够快速的得到成功的学习经验，从而提高学习效率。

受到深度强化学习在机器人领域应用的启发，本实施例首次将深度强化学习应用于起重机的路径规划中。在实际的起重机应用中，往往难以获得精确的外部环境信息。并且，当环境中障碍物发生变化时，传统的规划算法需要停下起重机当前的运动，并重新花费时间进行规划，这不仅消耗了大量的时间，同时也带来了安全上的隐患。综合以上需求，本实施例公开了一种基于深度强化学习的塔式起重机路径规划方法，相较于其他算法，该算法不需要事先导入精确的环境模型，通过传感器读取相关数据作为输入，进行策略控制，且本实施例公开算法不仅可以应用于已知的静态环境中，同时可以完成未知环境下起重机的路径规划任务。同时由于本实施例公开算法中深度强化学习网络模型的当前输出，只取决于当前状态，所以，当起重机所处环境发生变化时，本实施例公开算法不需要进行重新规划，规划时间相对恒定，并且规划时间远远短于传统规划算法，能够满足实际应用中起重机路径规划对于实时性的要求。

本实施例公开的一种基于深度强化学习的塔式起重机路径规划方法，首次将深度强化学习算法引入起重机吊装路径规划中，提出了一种适用于起重机吊装路径规划的深度强化学习网络；鉴于起重机负载路径规划中规划路径长的问题，在深度强化学习网络模型中引入了HER(Hindsight experience replay)方法，解决了深度强化学习中奖励稀疏的问题，同时提出一种适用于HER方法的新的奖励函数，能够保证规划路径与规划路径运行时间的最优性。

本实施例公开的算法不需要特定的精确的环境地图信息，可以实现未知环境和动态环境中的路径规划任务，同时在保证规划路径长度以及路径运行时间的前提下，其规划所需时间远远小于现有的起重机路径规划算法，具有极强的实时性。

本实施例公开的一种基于深度强化学习的塔式起重机路径规划方法，使用的起重机模型如图2所示。

塔式起重机共包含四个自由度的运动，分别为回转、小车运动、吊钩升降以及吊钩旋转。根据实际中起重机的操作情况，基于下面几条假设对起重机模型进行构建：

(1)在起重过程中忽略起重机的动力学影响，模型只考虑运动学模型。

(2)根据起重机起吊负载的实际情况，以及安全性的考虑；规定负载物体在起吊过程中不能位于建筑物以及障碍物的下方。

(3)起重机各个自由度上的速度在单位时间内为常数，起重机在起吊过程中的能量损失与各个自由度上的运动距离成正比。

(4)起吊的绳索视作刚体。

起重机吊装路径规划的数学描述：塔式起重机包括四个自由度的运动：回转、小车运动、吊钩升降以及吊钩旋转。由于在实际应用时，起吊过程中，吊钩旋转只发生在起吊的开始阶段，在起吊过程中一般不运动。所以本实施例只考虑回转、小车运动以及吊钩升降这三个自由度上的运动。将由这三个自由度组成的构型空间定义为C-space。定义问题的状态空间为

障碍物空间为

无障碍空间可以写为C_free＝C\C_obs。起吊的起始点位置与目标点位置都位于无障碍物空间中，表示为：C_start∈C_free,C_goal∈C_free。无障碍物空间C_free中的点表示为C_i。起重机吊装路径规划的目标是找到一条包括起始点位置与目标点位置的无碰撞路径。在该实施例中，将吊装路径表示为S＝{e₀,e₁,e₂,....,e_i,...,e_l-2}，其中e_i表示两点之间形成的路径。因为起重机各个自由度的运动速度在单位时间内为常数，所以规划产生的路径完全由相邻两点以及对应的运动规则决定。因此，问题就由找到一条无碰撞的可行路径变为在无碰撞空间中找到一个构型空间中点的集合，并且由这些点构成的路径也位于无碰撞空间中。由构型空间中点组成的集合可以写为：C_path＝{c_start,c₁,c₂,....,c_i,...,c_goal}。

空间中的无碰撞路径可以被写为一个连续函数：

f＝{ξ(·):[0,1]→S_free}

使用在各个自由度上运动的路径总和作为代价函数d(·)：

最优路径问题就被表示为找到一条路径使得代价函数的值最小。

从而，最优路径函数可以被写为：

ξ^*＝arg min_ξ∈fd(ξ)

s.t.ξ(0)＝c_start,ξ(1)＝c_goal。

通过深度强化学习对起重机从起始点位置到目标点位置各自由度的动作进行计算，并根据计算出的各自由度的动作，获取各自由度的路径。

深度强化学习是一种基于马尔科夫过程的最优化方法。在每一个离散的时间内，智能体从环境中获得观察状态s_t∈S。并根据当前状态选择对应的动作a_t∈A。在采取动作与环境交互后，智能体得到一个全新的状态s_t+1，并获得一个对应的奖励r_t。这个过程一直持续到智能体达到终止状态或者达到最大时间步的限制。

深度强化学习的奖励函数R_t被定义为各个离散时间步的奖励和：

其中γ为折扣因子，表明不同时间的奖励对于整体奖励的影响。对深度强化学习网络模型进行训练时，训练目标为找到一个参数为φ的最优策略函数π_φ来最大化奖励函数的期望J(φ)。

在该实施例中，深度强化学习网络模型使用Actor-Critic结构，Actor-Critic结构包括：Actor网络和Critic网络，如图3所示。

Actor部分用来输出决策动作，智能体执行决策动作a_t与环境进行交互。Actor网络参数通过确定性策略进行更新。

其中，Q^π(s,a)为价值函数，评估当前状态s_t和动作a_t下的奖励的期望值，由Critic网络输出。

Critic网络参数通过最小化TD_error(δ(t))进行更新，其中TD_error为：

δ(t)＝R_t+1+γQ(S_t+1,A_t+1)-Q(S_t,A_t)

控制器与环境在每一个离散时间步下进行交互，智能体在时刻t时根据当前状态s_t采取对应的动作a_t。对于起重机的路径规划问题，动作为各个自由度上关节运动的速度，具体为回转、小车运动以及绳索升降三个自由度上的关节速度，这三个自由度可以同时运动，并且相互之间彼此互不干扰。对于一条无碰撞路径来说，其负载物体运动应该位于无碰撞空间C_free内。在从状态s_t变化到s_t+1的过程中，如果智能体与障碍物之间发生碰撞，那么智能体立即停止当前运动，并以速度-a_t返回原先状态s_t。在每个离散时间t内，设置各个自由度上的运动不能超过设定的最大速度|a_t|<a_max。并且为了保证整个路径的平滑度，如果某个自由度上的速度值小于设定的速度阈值时，将其速度设定为0。

状态s由两部分组成，一部分由起重机自身在构型空间中的位置信息组成，包括起重机当前的位置信息s_q，以及目标位置g_q；另一部分是传感器读取外部环境信息数据，具体为使用激光雷达获取外部信息，传入数据为s_l。状态s可写为s＝[s_q||g_q s_l]。

在状态s_t下采取动作a_t之后，智能体进入新状态s_t+1，并收到过程中的碰撞信息。奖励函数通过碰撞信息，当前状态与目标状态的距离，以及采取动作的绝对值进行计算。

由于最优路径是去寻找一条路径能使得代价函数d(·)最小，且假设了各个自由度上的运动速度在单位时间内常数，故将代价函数写成下式，其中

为第i个自由度在t时刻的运动速度。

代价函数d(·)与速度的模长之间存在正相关关系。对起重机进行路径规划的目的是获得最大的奖励，这也意味着获得的路径的长度最短。所以，本实施例设置速度的模长越大，获得的奖励越小。设置奖励函数如下式所示：当智能体与障碍物碰撞时，设置奖励为-10；当智能体到达指定目标点范围内时，设置奖励函数为0；当智能体没有到达目标点范围，同时也未与障碍物碰撞时，设定其奖励函数与速度的模长|a_t|成负相关。

在该实施例中，深度强化学习网络模型采用TD3网络，并在TD3网络中加入HER方法，通过加入HER方法的TD3网络去解决起重机的路径规划问题，加入HER方法的TD3网络结构如图4所示。智能体执行从Actor网络中输出的动作信息与环境交互。每一幕交互得到一系列由(s,a,s',r,d)组成的样本，经过HER方法处理后放入样本池中，每次从样本池中随机选取样本对于Actor-Critic网络进行更新。

使用HER方法来强化学习中奖励稀疏的问题，用强化学习来解决路径规划任务的一个问题就在于奖励的设置，对于长距离的路径规划任务来说，常常会面临奖励稀疏的问题，在初始的学习阶段，智能体很难到达任务终点来获得正向反馈，HER的基本思想是可以从那些失败的经历中学习到有用的信息，对于每一幕轨迹来说，设置的目标点各不相同，写为g，一幕中的一条路径可以写为S_path＝{s₁,s₂,....,s_T}，位形空间中的点写为s_q，对于任意的目标点g∈G，G＝S_q∈C_free，通过函数f(s,g)＝[|g-s_q|<ε]判断当前位置是否已经到达目标区域。当当前位置与目标位置之间的距离小于设定值ε时，有f(s,g)＝1，此时可以学习到正向反馈。HER的思想是，在当前幕中，可能无法学习到到达当前幕中设立的目标点s_goal，但是可以学习如何到达当前幕中路径上其他位置点s_T。而位置点s_T可能是其他幕中设置的目标点，或者位于最终路径上的路径点。对于一幕中的状态s_t，将一幕中的其他状态s_t'作为其目标状态

重新计算

并计算对应的奖励函数。采用HER的方法可以大大提高一幕中样本的利用率，对于起重机路径规划这种有确定目标状态的问题，可以大大提高网络的训练收敛速度以及成功率。

Actor和Critic网络如图5所示。起重机的当前位置s_q与目标位置s_g合并后经过两层全连接层的作用后与经过两层全连接层作用的传感器数据s_l合并后经过一个全连接层作用，设置深度强化学习网络模型输出不能超过最大速度的限制，所以，设置一层tanh激活函数并乘以最大速度将输出限制在(-a_max,a_max)之间。

对于输出的决策动作，添加噪声并且对其进行归一化，如下式所示：

φ是actor网络的参数，ε是我们添加的噪声，服从正太分布N(0,σ)，用来探索未知的状态。我们用过最小化代价函数J(φ)来优化参数。

critic网络来评估当前的状态动作对Q(s,a)的值，其网络结构与actor网络类似，起重机的当前位置与目标位置和critic网络输出速度合并后经过两层全连接层的作用后与经过两层全连接层作用的传感器数据合并后经过一个全连接层作用。

TD3网络中对于critic网络使用两组相同结构的网络来解决对于状态动作对Q(s,a)值估计过高的问题，目标网络输入动作是经过噪声处理后的动作

对于每一组输入

两组目标网络分别输出对应的Q(s,a)估计值，选取两组目标网络中的最小值作为目标状态动作对Q(s,a)的值。

Critic网络参数θ_i通过最小化当前critic1网络输出

与目标网络的差值进行优化。

采用每d步更新一次目标网络方法。参数更新如下式所示：

θ′_i←τθ_i+(1-τ)θ′_i

φ′←τφ+(1-τ)φ′

加入了HER方法的TD3算法的计算过程如下表所示：

使用机器人仿真软件Webots来搭建起重机模型和相应的环境，起重机的模型选用前文提到的包含回转，小车运动，以及伸缩升降三个自由度的塔式起重机模型，对本实施例公开的方法进行验证，各个自由度的运动范围如表1所示，在负载的中心点放置了两个激光雷达用来探测周边的环境信息，如图6所示。一个激光雷达用来探测左右环境信息，设置该激光雷达的视场角为6.28，垂直视场角为0.4。一个激光雷达用来探测高度维度上的信息，设置其视场角为1.57，垂直视场角为0.8。两个雷达的及探测距离最大值d_max设置为15m，最小探测距离d_min设置为2.1m以及1.0m。两个激光雷达为4线，其水平分辨率(horizontalresolution)值设置为48。对于激光雷达的输入数据s_l，对其进行归一化处理。

表1.起重机各自由度运动范围

模型的整个工作流程如图7所示，智能体从激光雷达以及位置传感器处获得相应信息，交给控制器。控制器通过深度强化学习网络输出决策动作，输出起重机的各个关节的运动速度。起重机从控制器处接受动作指令，并与环境交互。

使用Webots搭建仿真环境，并在环境中设置障碍物，如图8所示。设置负载长为4m，宽度为2m，高1m，为了考虑到实际运行中负载在运动过程中可能有旋转的可能，设置负载的碰撞体积为半径为2m，高度为1m的圆柱形区域。为了保证环境的多样性使得最终的训练模型不会产生欠拟合的问题，随机生成200组障碍物位置。并且，为了保证生成的环境存在可行路径，设置任意两个建筑物之间的距离不能小于5m。对于目标位置采用以下策略设置：随机生成目标位置除绳索长度外的其余两个自由度的参数。由回转以及小车运动两个自由度的参数可以计算出实际工作空间中的水平坐标。如果当前水平坐标中不存在障碍物，则目标高度设置为距离地面3m。如果当前位置存在障碍物则设定目标位置的高度为障碍物上方1m处。目标位置在每幕中随机生成。使用Adam优化器，在2张GeForce GTX 1080GPU上进行训练。训练的成功率如图9所示。每轮有40幕。每一幕的最大时间步设置为300次。详细的训练参数如表2所示。

表2.网络参数

通过不同的案例对本实施例公开的方法进行验证。

案例一：

在本案例中，设计实验验证在训练环境中的路径规划能力。随机选择从200组环境中选择2个环境进行测试，起重机初始位置设置为[1,15,1]，目标位置设置为[93.73,37.09,7.7],负载的碰撞体积为半径为2m，高度为1m的圆柱形区域。起重机最终规划的路径如图10中黄线所示。其结果表明，本实施例公开方法能够在静态环境中找寻到一条可行路径。

案例二：

在本例中设计实验验证起重机在未知环境中的路径规划能力。首先，测试相同障碍物但不同位置的情况，重新生成100组障碍物位置随机生成的环境，其障碍物位置与训练过程中不同。测试结果为，在100组环境中本实施例公开方法规划的成功率为97％，图11显示了其中一个环境中起重机规划的路径图。

为了进一步测试在未知环境下性能，使用不同的障碍物来搭建新的环境，如图12所示。在新环境中，测试40组不同目标点的规划任务，其成功率为95％。图12显示了其中一个环境中起重机规划的路径图。结果表明，本实施例公开方法能够实现未知环境中的路径规划任务。

案例三：

在本例中，测试在障碍物改变的情况下，对于本实施例公开方法的影响。使用案例一中的环境一进行测试。设置起始点为[1,15,1]，目标点为[119.74,31.31,1]，在不改变环境下，本实施例公开方法的规划路径如图13所示。在起重机规划路径的运行过程中，在原先规划路径上增加障碍物，测试起重机能否自主重新规划原先路径，结果如图13所示，黄线表示未添加障碍物时路径，黑线表示添加障碍物后路径图。其结果表明，起重机可以自主规划一条全新路径来躲避增加的障碍物。

同时，验证起重机能否在拥有动态障碍物的情况下进行路径的自主规划。使用案例二中的环境进行测试。设置起始点为[1,15,1]，目标点为[144.46,25.42,2.70]，设置两个黄色的动态障碍物，其障碍物前后运动，其速度设置为0.3m/s如图14所示。起重机的规划路径如图15所示，上面的黑色线条为起重机的运行路径，下方两组图显示的是水平方向上起重机负载与动态障碍物的运动路线图。结果表明，本实施例公开方法能够完成在环境中拥有动态障碍物情况下的自主路径规划任务。

从三个方面测试了本实施例公开方法的性能：路径的最优性、运动时间以及规划时间。路径最优性由规划路径的代价函数值进行判断。运动时间指起重机执行规划路径所需要的时间。规划时间是指本实施公开方法规划一条路径的时间，对于深度强化学习(DRL)算法来说，规划时间上与普通算法不同，其输出指令只与当前状态有关，不需要后续的状态值，所以DRL算法的规划时间为每次规划输出动作的时间。

首先，测试HER以及奖励函数的影响。测试使用HER，不使用HER，使用HER和稀疏奖励函数，以及使用HER并使用本实施例公开的奖励函数三种不同情况下的结果，如图16所示。可以发现，当不使用HER方法时本实施例公开方法难以找到可行路径。在使用HER采样方法后，不论是采用稀疏奖励的方法，还是采用本实施例构造的奖励函数，智能体都能够找寻到无碰撞路径。相较于稀疏奖励，使用本实施例提出的奖励函数的找寻到无碰撞路径的成功率明显更高。为了测试两者之间的性能，随机选取了8组不同的环境进行测试，起始点与目标点设置为相同位置，测试结果如图15所示。可以看出，不论是规划路径的长度还是路径的运行时间，本实施例构造的奖励函数都明显优于原论文中使用的稀疏奖励函数。

将本实施例公开方法与已经提出的算法进行对比，包括PRM,GA。PRM的采样设置为100。对于GA算法，设置其染色体长度为4，交叉率为0.15，变异率为0.7。使用在案例一和案例二中的环境1-4，起始点与目标点的选择与案例一和案例二中相同。结果如表3所示。

表3.性能比较

从表中可以看出，本实施例公开方法在路径的长度上略低于PRM，与遗传算法相比，在不同环境中各有优劣。在运动时间上，本实施例公开方法与PRM算法相近优于遗传算法。在规划时间上，由于本实施例公开方法只依据与当前状态，所以规划时间上要远远优于其他两种算法。此外，本实施例公开方法适用于不同环境，并且路径可以随着环境中障碍物的变化而进行相应变化。PRM算法只适用于固定的静态环境。遗传算法虽然经过修改可以应用于动态环境中，但是本质上是一种重新规划的方法，需要不断的更新全局环境信息，并且花费大量时间去规划从新起点到目标点的路径。在实际应用中，难以满足实时性的需求。本实施例公开方法只需要从传感器返回的局部环境信息，不需要事先输入精确的全局环境信息。同时，当环境中的障碍物发生变化时，DRL算法不需要进行重新规划，其规划时间基本保持恒定。这使得在实际应用时，本实施例公开方法相对于其他算法具有明显优势。

故本实施例针对起重机的路径规划问题，提出的一种基于深度强化学习的塔式起重机路径规划方法，以起重机运动关节的位置信息以及激光雷达返回的传感器信息作为输入，起重机的实时速度作为输出，实现对于起重机运动路径的规划。由于深度强化学习的强泛化性，使得本实施例公开方法能够应用于未知环境以及动态环境当中。由于本实施例公开方法在规划时不需要事先准备精确的环境信息，使得本实施例公开方法能够应用于未知环境以及动态环境当中。并且本实施例公开方法根据当前环境进行实时规划，规划时间短，具有良好的实时性。在实际的工地环境中，面对突发的环境变化，也具有较好的安全性。

通过验证可知，本实施例公开方法能够很好的完成起重机在静态环境，未知环境，以及动态环境中的路径规划任务。相较于其他算法，不需要事先输入精确的环境信息，可以应用于未知环境与障碍物变化的动态环境中，并且，在保留较优路径规划长度以及运行时间的前提下，其规划时间要远远小于其他算法。其快速的规划时间，以及不需要事先精确的环境信息，使得本实施例公开方法有了在实际中应用的可能性。

实施例2

在该实施例中，公开了一种基于深度强化学习的塔式起重机路径规划系统，包括：

实施例3

在该实施例中，公开了一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成实施例1公开的一种基于深度强化学习的塔式起重机路径规划方法所述的步骤。

实施例4

在该实施例中，公开了一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成实施例1公开的一种基于深度强化学习的塔式起重机路径规划方法所述的步骤。

以上仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求保护范围之内。

Claims

1.一种基于深度强化学习的塔式起重机路径规划方法，其特征在于，包括：

以起重机各自由度上运动路径总和构成的代价函数，对各自由度的动作进行分析，获得起重机的最优无碰撞路径；

起重机的自由度包括回转自由度、小车运动自由度及吊钩自由度；

其中γ为折扣因子，表明不同时间的奖励对于整体奖励的影响；

代价函数为下式，其中

为第i个自由度在t时刻的运动速度：

代价函数d(·)与速度的模长之间存在正相关关系；

深度强化学习网络模型的奖励函数为：当智能体与障碍物碰撞时，奖励为-10；当智能体到达指定目标点范围内时，设置奖励函数为0；当智能体没有到达目标点范围，同时也未与障碍物碰撞时，设定其奖励函数与动作的模长成负相关；

2.如权利要求1所述的一种基于深度强化学习的塔式起重机路径规划方法，其特征在于，深度强化学习网络模型包括Actor网络和Critic网络，Critic网络根据智能体当前时刻的状态和Actor网络输出的当前时刻的动作，输出当前状态和动作下的奖励的期望值，Actor网络根据Critic网络输出的奖励的期望值输出动作。

3.如权利要求1所述的一种基于深度强化学习的塔式起重机路径规划方法，其特征在于，以获取深度强化学习网络模型的奖励函数期望的最大值为目标，对深度强化学习网络模型进行训练。

4.如权利要求1所述的一种基于深度强化学习的塔式起重机路径规划方法，其特征在于，深度强化学习网络模型采用TD3网络，并在TD3网络中加入HER方法。

5.如权利要求1所述的一种基于深度强化学习的塔式起重机路径规划方法，其特征在于，以起重机各自由度上运动路径总和构成代价函数，其中，各自由度上运动路径由各自由度的动作及运动时间获得。

6.一种基于深度强化学习的塔式起重机路径规划系统，其特征在于，包括：

最优无碰撞路径获取模块，用于以起重机各自由度上运动路径总和构成的代价函数，对各自由度的动作进行分析，获得起重机的最优无碰撞路径；

代价函数为下式，其中

为第i个自由度在t时刻的运动速度：

代价函数d(·)与速度的模长之间存在正相关关系；

7.一种电子设备，其特征在于，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成权利要求1-5任一项所述的一种基于深度强化学习的塔式起重机路径规划方法的步骤。

8.一种计算机可读存储介质，其特征在于，用于存储计算机指令，所述计算机指令被处理器执行时，完成权利要求1-5任一项所述的一种基于深度强化学习的塔式起重机路径规划方法的步骤。