CN112947431A

CN112947431A - 一种基于强化学习的无人船路径跟踪方法

Info

Publication number: CN112947431A
Application number: CN202110149076.0A
Authority: CN
Inventors: 张卫东; 董博韬; 孙志坚; 徐鑫莉; 黄梦醒; 张永辉; 吴迪
Original assignee: Haizhiyun Suzhou Technology Co ltd
Current assignee: Haizhiyun Suzhou Technology Co ltd
Priority date: 2021-02-03
Filing date: 2021-02-03
Publication date: 2021-06-11
Anticipated expiration: 2041-02-03
Also published as: CN112947431B

Abstract

本发明提出了一种基于强化学习的无人船路径跟踪方法，包括设定无人船的跟踪路径；对无人船跟踪路径与避障过程建立MDP模型，并设置奖励函数；采用PPO算法对状态信息模型进行强化学习，得出无人船的控制策略参数；无人船根据控制策略参数执行路径跟踪任务；本发明提出的基于强化学习的无人船路径跟踪方法，策略训练过程采用PPO算法来提高动作策略参数的收敛性，且算法迭代过程无需人为干预，并且由于智能体主动与环境进行交互，环境中的各类干扰因素可以被智能体学习，简化了无人船路径跟踪控制器的设计过程，有效替代人力资源、提升了作业效率。

Description

一种基于强化学习的无人船路径跟踪方法

技术领域

本发明涉及智能船舶技术领域，特别是指一种基于强化学习的无人船路径跟踪方法。

背景技术

与有人船相比，无人船由于具有成本低、续航远、能够在危险坏境和狭小空间执行任务等优点，因而在许多行业得到了越来越广泛的应用。路径跟踪是无人船研究和应用的重要问题之一，其目的是通过合理的控制算法使无人船能够精确地遍历给定路线。无人船路径跟踪算法在海洋测绘、水产养殖和环境检测等方面正发挥着日益重要的作用。

由于海洋环境的复杂性，无人船进行路径跟踪任务时会受到各种干扰的影响，传统的无人船路径跟踪算法在设计时往往不能兼顾到各种干扰的影响，从而带来路径跟踪效果不理想的弊端；此外，传统路径跟踪算法的设计过程存在算法复杂等缺点。

发明内容

有鉴于此，本发明的目的在于提出一种基于强化学习的无人船路径跟踪方法，用以解决上述问题的之一或全部。

一种基于强化学习的无人船路径跟踪方法，包括如下步骤：

设定无人船的跟踪路径；

对无人船跟踪路径与避障过程建立MDP模型，并设置奖励函数；

采用PPO算法对控制策略进行模型训练，得出无人船的控制策略参数；

无人船根据控制策略参数执行路径跟踪任务。

可选的，所述对无人船跟踪路径与避障过程建立MDP模型，并设置奖励函数，包括：

建立MDP模型，所述MDP模型包括：时刻为t时无人船所处的状态s_t；时刻t时无人船所采取的动作a_t，其取自动作空间，根据控制策略参数给出；奖励函数r_t，表示时刻t时、采取动作a_t后，无人船获得的奖励值；衰减率γ，表征智能体对当前奖励和未来奖励重视情况；状态转移概率P，表示在状态s_t采取动作a_t后，状态转移到s_t+1的概率；

定义状态s_t，建立状态s_t与无人船完成路径跟踪任务所需信息的数量关系；

定义动作a_t，将动作a_t定义为无人船推进模块所提供的推进力与推进力的角度的函数；

基于无人船路径跟踪的目标定义奖励函数，所述无人船路径跟踪的目标包括最小化路径跟踪误差、达到目标点、恒定航速和避免与其他任何障碍物之间的碰撞。

可选的，所述无人船完成路径跟踪任务所需信息包括无人船当前位置与既定轨迹之间的垂直距离、无人船位置在既定轨迹上的投影与目标点的连线和无人船位置与目标点连线两条连线之间的夹角、无人船当前位置与目标点之间的欧式距离、无人船速度与船头方向的夹角、风速、无人船当前位置与障碍物之间的欧式距离、无人船速度与障碍物速度之间夹角、障碍物的速度、无人船的航速偏差角、推进器提供的推力方向与无人船速度方向的夹角。

可选的，所述奖励函数包括路径跟踪奖励、目标点奖励、恒定航速奖励、避障奖励与COLREGs奖励。

可选的，所述采用PPO算法对状态信息模型进行强化学习，得出无人船的控制策略参数，包括：

使用优势函数估计器计算现行动作策略下，各个动作的优势函数值，并传给Actor网络和Critic网络进行后续更新；

Actor网络给出当前状态下无人船能够获得最大奖励值的动作，并根据优势函数的估计值和Critic网络的评估值来进行迭代更新，并引入clip函数，将每次更新的步长限制在一个合理的范围内，以此来保证动作策略的逐步提升；

Critic网络根据优势函数的估计值和Actor网络的输出值来分析当前策略动作值的好坏程度，并根据MDP的状态转移来进行更新；

引入跟踪总误差函数判断训练过程是否结束，当跟踪总误差小于设定值时，判定跟踪精度满足要求，得出控制策略参数，结束训练，否则重复上述训练步骤。

可选的，所述控制策略参数为训练完成的Actor网络参数。

从上面所述可以看出，本发明提出的基于强化学习的无人船路径跟踪方法，策略训练过程采用PPO算法来提高动作策略参数的收敛性，且算法迭代过程无需人为干预，并且由于智能体主动与环境进行交互，环境中的各类干扰因素可以被智能体学习，简化了无人船路径跟踪控制器的设计过程，有效替代人力资源、提升了作业效率。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的基于强化学习的无人船路径跟踪方法的流程示意图；

图2为本发明的无人船路径跟踪时的各变量角度关系示意图。

具体实施方式

为使本公开的目的、技术方案和优点更加清楚明白，以下结合具体实施例，对本公开进一步详细说明。

需要说明的是，除非另外定义，本发明使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本发明中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同，而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电性的连接，不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系，当被描述对象的绝对位置改变后，则该相对位置关系也可能相应地改变。

一种基于强化学习的无人船路径跟踪方法，其中，无人船包括船体、能源模块、推进模块、通信模块、路径跟踪控制模块与定位模块，其中，能源模块、通信模块、路径跟踪模块和定位模块安装在无人船船体内部；用于给无人船提供转向和前进动力的推进模块安装在无人船船体的船尾，路径跟踪模块中的控制器策略参数通过强化学习中的PPO算法训练得到，

如图1所示，该方法包括如下步骤：

S101、设定无人船的跟踪路径；

S102、对无人船跟踪路径与避障过程建立MDP(马尔可夫决策过程MarkovDecisionProcess模型)，并设置奖励函数；

S103、采用PPO算法对状态信息模型进行强化学习，得出无人船的控制策略参数；

S104、无人船根据控制策略参数执行路径跟踪任务。

在一种实施方式中，步骤S102中的所述MDP模型具体为：

(s_t,a_t,r_t,γ,P(s_t+1|s_t,a_t))

其中s_t表示时刻为t时无人船所处的状态；a_t表示时刻t时无人船所采取的动作；r_t为奖励函数，表示时刻t时，无人船获得的奖励值；γ为衰减率，表征智能体对当前奖励和未来奖励重视情况；P(s_t+1|s_t,a_t)表示在状态s_t采取动作a_t后，状态转移到s_t+1的概率。

根据无人船路径跟踪与避障过程对s_t进行建模：

其中，e_t为无人船当前位置与既定轨迹之间的垂直距离；ζ_t为航线偏差角，其具体为无人船位置在既定轨迹上的投影与目标点的连线和无人船位置与目标点连线两条连线之间的夹角，相应的

为航向偏差角的导数；

为无人船当前位置x_t与目标点x_target之间的欧氏距离；

和

分别为无人船速度v_t在船体坐标系两个坐标轴上的投影,φ为无人船速度与船头方向的夹角；

为由无人船上携带的风速计测得的风速参数；||x_obstacle-x_t||₂为无人船当前位置与障碍物体x_obstacle(雷达)之间的欧氏距离；|ψ-ψ_obstacle|为无人船速度与障碍物速度之间夹角；

为障碍物的速度；

为无人船的航速偏差角；η为推进器提供的推力方向与无人船速度方向的夹角；

在状态变量s_t的各个组成变量由无人船携带的传感器和通信模块获得，涉及到的仪器包括(GPS/北斗定位系统、罗经、风速计和航海雷达等)，各变量角度关系如图2所示，

无人船上携带的推进模块作为执行器，因此将a_t定义为：

a_t＝[f_t δ_t]

其中f_t和δ_t分别为无人船推进模块所提供的推进力与推进力的角度；

基于无人船路径跟踪的目标定义奖励函数，所述无人船路径跟踪的目标包括最小化路径跟踪误差、达到目标点、恒定航速和避免与其他任何障碍物之间的碰撞；

对无人船进行3-自由度的水面运动建立数学模型：

η＝R(ξ)v

其中，η＝[x_t ξ]包含无人艇位置与偏航角信息，

包含横荡、纵荡与艏摇等速度信息，τ＝[τ_u 0 τ_t]为无人船纵荡力与艏摇力，M为无人艇质量，R(ζ)为偏航角ξ的函数，C(v)和g(v)均为v的函数。

在一种实施方式中，所述奖励函数包括路径跟踪奖励、目标点奖励、恒定航速奖励、避障奖励与COLREGs奖励，具体为：

路径跟踪奖励为：

其中，e_t为t时刻无人船位置与既定轨迹之间的垂直距离，e_t-1为t-1时刻无人船位置与既定轨迹之间的垂直距离，当t时刻无人船位置与既定轨迹之间的垂直距离小于t-1时刻无人船位置与既定轨迹之间的垂直距离时，认为无人船在向着既定轨迹移动，给与+1路径跟踪奖励；反之，当t时刻无人船位置与既定轨迹之间的垂直距离大于等于t-1时刻无人船位置与既定轨迹之间的垂直距离时，认为无人船在偏离既定轨迹移动，给与无人船-1的偏离轨迹惩罚；

目标点奖励为：

其中，σ为事先给定的超参数，当无人船远离目标点x_target时，r_t ^distance为很大的惩罚值来驱动无人船快速达到目标点所在的邻域内；

由于无人船的目标为将饵料均匀的抛洒到养殖区域内，故而期望无人船的航速为一个固定值，恒定航速奖励为：

其中，

为无人船航速在既定轨迹上的投影，其计算公式为

ε为事先给定的阈值，其描述了对速度恒定要求的精确程度，v^expect为事先给定的无人船期望航速；

由于在无人船航行过程中，期望与其他障碍物之间保持一定的安全距离，避障奖励为：

其中，γ为事先给定的阈值，当无人船与障碍物之间的距离很小时，给与无人船一个很大的惩罚，以此避免无人船；

无人船在海上行驶时，需满足国际海上避碰规则(COLREGs)，COLREGs奖励为：

其中，κ为事先给定的超参数，当无人船满足COLREGs规则时，给与κ的奖励；当无人船违反COLREGs规则时，则给与无人船-κ的惩罚。

在一种实施方式中，所述采用PPO算法对状态信息模型进行强化学习，得出无人船的控制策略参数，包括：

在本实施例中，强化学习的过程具体的采用如下步骤：

步骤一、根据无人船的水面运动的数学模型建立海洋仿真环境；

步骤二、设定无人船路径跟踪路线并初始化，根据跟定的路径跟踪路线设定奖励函数；

步骤三、根据PPO算法中的Actor网络参数，以s_t为输入得出a_t，并将这一过程重复执行T次，收集{s_t a_t r_t}的相应数据；

步骤四、建立优势函数估计器

并计算各时刻的优势估计

并存储到记忆单元中，

其中，V_w(s_t)由PPO算法中的Critic网络给出的参数；

步骤五、定义重要性采样率

对Actor网络的参数进行迭代更新，

其中，θ_t+1为当前迭代过程的更新参数；θ_t为上一次迭代的更新参数；ε为事先给定的超参数，用来限制每一步算法更新的步长，α_θ为参数的更新步长；E为求期望符号；

为上一步骤中的优势估计；clip为裁剪函数，定义为

步骤六、对Critic网络参数进行迭代更新，

其中，w_t+1为当前迭代过程的更新参数；w_t为上一次迭代的更新参数；r_t为当前次更新样本中的奖励值；γ为衰减率，为实现给定的超参数；V_w(s_t+1)为当前参数下对状态s_t+1值函数的估计；V_w(s_t)为当前参数下对状态s_t值函数的估计；α_w为算法每次更新的步长；

为求导算子；

步骤七、定义跟踪总误差

当e^follow＜y时跟踪精度满足要求，得出控制策略参数，结束训练，否则重复步骤三至步骤六，

其中，T为每一次训练的样本长度，e_t为t时刻无人船位置与既定轨迹之间的垂直距离，y为设定值，n为最近的n次训练结果。

在一种实施方式中，所述控制策略参数为训练完成的Actor网络参数，将训练完成的Actor网络参数作为控制器来控制推进模块输出推力的大小与角度。

传统的Actor-Critic算法存在更新步长难以确定和训练结果不稳定、难收敛等问题，给控制策略的训练带来了许多的困难，因此本说明书提到的训练过程采用PPO(Proximal Policy Optimization)算法来进行强化学习策略训练，PPO算法包含Actor和Critic两个网络，其中Actor网络用来输出时刻t无人船应该采取的动作，而Critic网络则用来评判Actor所输出的动作好坏情况，具体的说，通过实施策略π_θ,获得一系列轨迹((s₀,a₀,s₁),(s₁,a₁,s₂),……,(s_t,a_t,s_t+1),s_T)(其中，s_T为终止状态)，之后重复该过程，将采集到的数据存入经验回放模块，PPO算法基于Actor-Critic模型，其中，Actor模块的输入为当前时刻的状态s_t，输出为当前时刻采取的动作a_t；Critic网络则用来衡量Actor网络的动作优劣；

本发明提出的基于强化学习的无人船路径跟踪方法，策略训练过程采用PPO算法来提高动作策略参数的收敛性，且算法迭代过程无需人为干预，并且由于智能体主动与环境进行交互，环境中的各类干扰因素可以被智能体学习，简化了无人船路径跟踪控制器的设计过程，有效替代人力资源、提升了作业效率。

所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本公开的范围(包括权利要求)被限于这些例子；在本公开的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，步骤可以以任意顺序实现，并存在如上所述的本发明的不同方面的许多其它变化，为了简明它们没有在细节中提供。

尽管已经结合了本公开的具体实施例对本公开进行了描述，但是根据前面的描述，这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。

本发明旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此，凡在本发明的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本公开的保护范围之内。

Claims

1.一种基于强化学习的无人船路径跟踪方法，其特征在于，包括如下步骤：

设定无人船的跟踪路径；

无人船根据控制策略参数执行路径跟踪任务。

2.根据权利要求1所述的基于强化学习的无人船路径跟踪方法，其特征在于，所述对无人船跟踪路径与避障过程建立MDP模型，并设置奖励函数，包括：

3.根据权利要求2所述的基于强化学习的无人船路径跟踪方法，其特征在于，所述无人船完成路径跟踪任务所需信息包括无人船当前位置与既定轨迹之间的垂直距离、无人船位置在既定轨迹上的投影与目标点的连线和无人船位置与目标点连线两条连线之间的夹角、无人船当前位置与目标点之间的欧式距离、无人船速度与船头方向的夹角、风速、无人船当前位置与障碍物之间的欧式距离、无人船速度与障碍物速度之间夹角、障碍物的速度、无人船的航速偏差角、推进器提供的推力方向与无人船速度方向的夹角。

4.根据权利要求2所述的基于强化学习的无人船路径跟踪方法，其特征在于，所述奖励函数包括路径跟踪奖励、目标点奖励、恒定航速奖励、避障奖励与COLREGs奖励。

5.根据权利要求1所述的基于强化学习的无人船路径跟踪方法，其特征在于，所述采用PPO算法对状态信息模型进行强化学习，得出无人船的控制策略参数，包括：

6.根据权利要求5所述的基于强化学习的无人船路径跟踪方法，其特征在于，所述控制策略参数为训练完成的Actor网络参数。