CN110716574A

CN110716574A - 一种基于深度q网络的uuv实时避碰规划方法

Info

Publication number: CN110716574A
Application number: CN201910934428.6A
Authority: CN
Inventors: 王宏健; 袁建亚; 陈涛; 林常见; 于丹; 李成凤
Original assignee: Harbin Engineering University
Current assignee: Harbin Engineering University
Priority date: 2019-09-29
Filing date: 2019-09-29
Publication date: 2020-01-21
Anticipated expiration: 2039-09-29
Also published as: CN110716574B

Abstract

本发明属于UUV控制技术领域，具体涉及一种基于深度Q网络的UUV实时避碰规划方法。本发明使网络体系在复杂环境的局部避碰规划时具有自我学习的能力实现端到端模型，不对输入的声呐数据进行人工提取特征和特征匹配，直接从原始数据集上学习状态与动作的映射关系，将深度学习和强化学习相结合应用到避碰规划问题的解决上。本发明使用深度强化学习，无需像深度学习那样进行大规模的采样和做标签，也不像传统的方法需建立环境和UUV本身的数学模型，无需环境的模型，采用强化学习不会因为路径过于复杂而无法执行策略，使其在实际应用中缩短了项目的开发周期、实施更加简洁、高效、鲁棒性高。

Description

一种基于深度Q网络的UUV实时避碰规划方法

技术领域

本发明属于UUV控制技术领域，具体涉及一种基于深度Q网络的UUV实时避碰规划方法。

背景技术

海洋环境的复杂性、不确定性因素的影响，使得UUV的局部路径规划有其特殊性，对于水下机器人的自适应性有更高的要求。UUV工作在这种环境下，很难获取环境的精确数学模型。要想安全、可靠地完成指定任务，UUV必须具备逐渐适应环境和处理各种突发情况的能力，这就要求UUV具有较强的灵活性和适应性。对于处理未知、变化的环境下UUV局部路径规划方法已经取得大量成果，比如基于模型的反应式方法，如人工势场法和沿障碍物边缘行走法基于行为的反应式、模糊逻辑控制方法、神经网络法和遗传算法等方法。而对于UUV在动态的未知环境下的规划，这些方法很多时候都无能为力，让UUV自主地学习并作出决策成为了一个新的研究方向。

发明内容

本发明的目的在于提供使UUV在未知的环境下，通过与环境进行交互并利用反馈的奖励信号进行学习，最终实现在复杂未知环境下的路径规划的一种基于深度Q网络的UUV实时避碰规划方法。

本发明的目的通过如下技术方案实现：包括以下步骤：

步骤1：初始化环境及UUV；根据UUV的环境感知模型，将观测的数据经预处理后作为深度Q网络的输入量

步骤2：通过伪随机法选取动作a_t，设定UUV速度为恒定值v，计算深度Q网络的输出动作的Q值；

步骤3：将UUV的速度v和动作a_t输入UUV的模型，根据导引算法得到UUV下一时刻的期望路径点；

步骤4：检测UUV下一时刻的期望路径点是否碰到障碍物；若碰到障碍物，则返回步骤1；若没有碰到障碍物，则从环境中返回奖励值，更新网络中的权值w_i；

步骤5：重复步骤2至步骤4，直到学习完成；

步骤6：将UUV实际环境及自身状态信息输入学习完成后的模型中，实现UUV的实时避碰规划。

本发明还可以包括：

所述的步骤2中Q值的计算方法具体为：

其中r为奖励值；π为状态对动作的映射。

所述的步骤4中更新网络中的权值w_i的方法具体为：采用长短时记忆的循环神经网络结构LSTM-RNN代替传统的神经网络，使用损失函数最小化来训练网络，具体公式为：

其中

为函数网络权值w_i求偏导；不用直接计算上式的期望值，而是通过随机梯度下降不断地优化损失函数；若在每个时间步更新权值w，那么期望值可用从行为分布和环境中进行采样得到。

所述的步骤3中的导引算法具体为：

e＝||p_c-p||₂-R

其中，p(x_t,y_t)表示AUV的当前位置；p_c(x_c,y_c)表示过渡弧的中心位置，R是过渡弧的半径；θ_r(e)是前视矢量Δ和矢量之间的角度，Δ是与下一个期望轨迹平行的前视矢量；e表示当前AUV的交叉跟踪误差；θ_d(e)代表期望的角度；θ(t)是矢量

和X轴之间的角度。

本发明的有益效果在于：

本发明中UUV通过与环境之间不断地试错交互，利用成功或失败的经验，产生奖励或惩罚的信号不断地改进UUV的性能，让其具有自我学习的能力，当时间趋于无穷远时，UUV的策略将取得理论上的最优策略。本发明使网络体系在复杂环境的局部避碰规划时具有自我学习的能力实现端到端模型，不对输入的声呐数据进行人工提取特征和特征匹配，直接从原始数据集上学习状态与动作的映射关系，将深度学习和强化学习相结合应用到避碰规划问题的解决上。本发明使用深度强化学习，无需像深度学习那样进行大规模的采样和做标签，也不像传统的方法需建立环境和UUV本身的数学模型，无需环境的模型，采用强化学习不会因为路径过于复杂而无法执行策略，使其在实际应用中缩短了项目的开发周期、实施更加简洁、高效、鲁棒性高。

附图说明

图1是UUV环境感知模型示意图。

图2是基于DQN的UUV避碰规划网络结构图。

图3是DQN网络学习过程中的损失函数收敛曲线图。

图4是UUV视线导引系统示意图。

图5是DQN算法的避碰示意图。

图6是DQN算法在方形障碍里的避碰示意图。

图7是本发明的总体流程图。

具体实施方式

下面结合附图对本发明做进一步描述。

本发明的目的是提供一种使UUV在未知的环境下，通过与环境进行交互并利用反馈的奖励信号进行学习，最终实现在复杂未知环境下的路径规划。UUV通过与环境之间不断地试错交互，利用成功或失败的经验，产生奖励或惩罚的信号不断地改进UUV的性能，让其具有自我学习的能力，当时间趋于无穷远时，UUV的策略将取得理论上的最优策略。

本发明的关键点：

1、奖励函数的设定2、输出转艏角的合理设计3、网络结构的设计

步骤1：初始化环境及UUV；根据UUV的环境感知模型，将观测的数据经预处理后作为深度Q(Deep Q-Network(DQN))网络的输入量

在本实施例中M＝13；

步骤2：通过伪随机法选取动作a_t，设定UUV速度为恒定值v，计算深度Q网络的输出动作的Q值；本实施例里输出对应的是离散转艏角(-10,-5,-3,0,3,5,10)，根据算法选取其中的最大值所对应的转艏角；

步骤4：检测UUV下一时刻的期望路径点是否碰到障碍物；若碰到障碍物，则返回步骤1；若没有碰到障碍物，则从环境中返回奖励值，更新网络中的权值w_i；到达目标点时，给予正的奖励值并初始化环境；

步骤5：重复步骤2至步骤4，直到学习完成；

建立UUV的环境感知模型如图1所示全局坐标系XOY和船体坐标系X_RO_RY_R，UUV的速度指向Y_R轴，将声呐的探测区域分为13个单元，求得每个单元到障碍的距离d_i(i＝0,1,2,....12)将该值预处理后得到网络的输入量。UUV的当前艏向为θ，目标与UUV的夹角为θ_g，得到UUV的趋向目标点的转角为θ_tg＝θ-θ_g，将改角度加入状态空间中，可增大UUV到达目标点的概率。

设定奖励值函数

其中，d表示UUV与障碍得距离。

策略选取模块的实现：

伪随机法：给定状态s，具有最高值的动作被选择的初始概率为P_s,如果该动作没有被选中，则Agent在所有可能的动作中随机地选择下一个动作。

算法的实现原理：

Q-Learning可以用各种神经网络来实现，网络的输入为状态矢量

每个网络的输出对应于一个动作的Q值，即Q(s_t,a_i)。用神经网络实现的关键是算法的确定。动作值函数应用在很多强化学习算法，在s_t执行动作a_t并在此后遵循此策略π(π是状态对动作的映射)得到的期望返回累积期望奖励值R_t，根据Q函数的定义得：

最优的Q值也满足Bellman公式：

Bellman公式的意思是如果Q^π(s_t+1,a_t+1)在状态s_t+1下所有可能动作a_t+1的Q值都是已知的，那么最优的策略就是选取使期望值最大化的动作。强化学习的基本思想就是通过不断地迭代公式(3)得到动作值函数的估计值。

假设目标策略是确定性的用函数π来表示：则可去掉内部的期望符号，得到：

上式的期望值仅依赖于环境，可以从策略π产生的不同随机行为转换中学习到离策略的Q^μ。

Q-learning最普遍的离策略算法，若使用贪婪策略则π(s)＝argmax_a Q(s,a)，在实际中，由于动作值函数是在独立的序列上进行估计，并没有形成一般性。相反普遍使用值函数逼近器去估计动作值函数Q(s,a；θ)≈Q^*(s,a)，其中Q^*(s,a)代表最优值。在强化学习中，线性函数逼近器仅能解决简单的问题，后来又发展出非线性的函数逼近器，比如神经网络。在本专利中采用长短时记忆(Long Short-Term Memory,LSTM)的循环神经网络(Recurrent Neural Networks，RNN)结构LSTM-RNN代替了传统的神经网络。使用损失函数最小化来训练网络：

其中，y_i＝r(s_t,a_t)+γQ(s_t+1,π(s_t+1)|w_i-1)是第i次迭代的目标值，当优化损失函数L_i(w_i)时，上次迭代的参数w_i-1保持不变，值得注意的是，目标值依赖于网络的参数w为神经网络的权值，与监督学习中目标值是固定的不同之处。

损失函数L_i(w_i)对网络权值w_i求偏导：

不用直接计算上式的期望值，而是通过随机梯度下降不断地优化损失函数。若在每个时间步更新权值w，那么期望值可用从行为分布和环境中进行采样得到，这与基本的Q学习类似。注意此算法是无模型的：它直接从环境中采样而不用构造明确的环境估计器，来解决强化学习任务。它也是离策略的，从行为分布中学习到贪婪策略以确保对状态空间有足够的探索。

在UUV导航过程中，当两个转向控制命令不一致时发生轨迹切换。为了使轨迹更平滑并实现精确的跟踪控制，本专利使用视线方法来解决这个问题，具有引导算法的UUV可以完美地跟踪所需的轨迹。通过检查图4得到以下公式：

e＝||p_c-p||₂-R (7)

其中，p(x_t,y_t)表示AUV的当前位置，p_c(x_c,y_c)表示过渡弧的中心位置，R是其半径。θ_r(e)是前视矢量Δ和矢量之间的角度，其中Δ是与下一个期望轨迹平行的前视矢量，e表示当前AUV的交叉跟踪误差，θ_d(e)代表期望的角度，θ(t)是矢量

和X轴之间的角度。

将上述学习的网络模型保存后应用于测试环境来测试算法的性能。在仿真环境中学习完之后，将学好的模型应用到随机生成的测试环境中，观测UUV的局部路径规划能力。

本发明使网络体系在复杂环境的局部避碰规划时具有自我学习的能力实现端到端模型，不对输入的声呐数据进行人工提取特征、特征匹配，直接从原始数据集上学习状态与动作的映射关系，将深度学习和强化学习相结合应用到避碰规划问题的解决上，使用深度强化学习，无需像深度学习那样进行大规模的采样、做标签。也不像传统的方法需建立环境和UUV本身的数学模型。它无需环境的模型，采用强化学习不会因为路径过于复杂而无法执行策略，使其在实际应用中缩短了项目的开发周期、算法实现更加简洁、高效、算法鲁棒性高。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。