CN108762281A

CN108762281A - 一种基于记忆关联强化学习的嵌入式实时水下机器人智能决策方法

Info

Publication number: CN108762281A
Application number: CN201810589927.1A
Authority: CN
Inventors: 王卓; 胡磊; 冯晓宁; 姚淑香; 隋炎橙; 徐沈方; 张佩; 张士伟
Original assignee: Harbin Engineering University
Current assignee: Harbin Engineering University
Priority date: 2018-06-08
Filing date: 2018-06-08
Publication date: 2018-11-06

Abstract

本发明提出一种基于记忆关联强化学习的实时水下机器人智能决策方法，属于算法技术领域，具体为一种基于RBF神经网络和Q学习结合的水下机器人路径规划智能决策方法。通过Q学习的自主学习能力和RBF神经网络的函数逼近能力，可实现水下机器人在路径探索过程中逐步学习的功能。首先定义针对于路径规划的Q学习四元组，分别为：环境状态，行为动作，及时得分，状态转移，探索过程中逐步更新状态‑动作值函数Q(s,a)进行学习；然后利用RBF神经网络拟合Q学习的结果，即状态动作值函数；最后更新完成的神经网络权值即为学习的结果，此神经网络提供了环境状态到行为的映射关系，可用于未知环境下的智能决策。

Description

一种基于记忆关联强化学习的嵌入式实时水下机器人智能决策方法

技术领域

本发明涉及一种基于记忆关联强化学习的嵌入式实时水下机器人智能决策方法，具体说是一种基于RBF神经网络和Q学习结合的水下机器人路径规划的智能决策方法，属于算法领域。

背景技术

水下机器人具有无碰撞规划的能力是顺利执行任务的一个先决条件，路径规划任务就是搜索一条从起始位置到目标位置的无碰撞路径，同时优化性能指标如距离，时间或能耗，其中距离是最常采用的标准。根据机器人所具有的先验信息的多少，可将路径规划方法划分为全局和局部两种算法，其中局部的路径规划可以通过传感器在线探测机器人的工作环境信息，根据每一时刻的环境信息，来进行此时刻AUV的行为决策。全局路径规划是根据已知的全部环境信息来进行最优路径的搜索。全局路径规划方法有可视图法，自由空间法，栅格法等。局部路径规划方法常用的有人工势场法，遗传算法，神经网络法，模糊逻辑方法等。

目前，模糊逻辑、人工势场法、遗传算法、随机树、神经网络等都是较为成功有效的机器人路径规划方法，但这些方法通常需要假设完整的环境配置信息，然而，在大量的实际应用中需要智能体具有适应不确定性环境的能力。强化学习(ReinforcementLearning，RL)方法通过智能体与未知环境交互，并尝试动作选择使累积回报最大，该方法通常运用马尔可夫决策过程(MDP)进行环境建模，通常MDP模型主要针对理想情况下的单智能体系统。另外智能体环境状态的不确定性也可由部分可观测马尔可夫决策过程进行描述。强化学习算法通过智能体与环境的交互进行学习并优化控制参数，在先验信息较少的复杂优化决策问题中具有广阔的应用前景。

发明内容

本发明提供了一种基于记忆关联强化学习的嵌入式实时水下机器人智能决策方法，此模型经过大量的训练后，最终可建立环境状态与行为动作的最优映射关系，训练好的模型可用于水下机器人在未知环境下的智能决策。

本发明提供的方法通过以下步骤实现：

1.AUV在起点由声纳感知环境状态s；

2.感知当前环境状态，根据策略(开始为随机选择)选择一个AUV转角行为(a)；

3.执行该转角动作(a)，得到奖励(r)，状态转移到s_；

4.将获得的(s,a,r,s_)样本存储到样本池中，并判断样本池中的样本个数是否达到规定数目100：达到，样本中随机抽取30个样本作为神经元中心cⁱ，初始化神经网络，转到步骤5，以后将不再执行次步骤；未达到，转到步骤2；

5.在样本池中随机抽取60个样本，将s作为网络输入，得到以a为动作的Q(s_t,a_t)，得到所有动作的Q(s_t+1,a_t+1)值；

6.根据公式计算出Q值对应的target_Q值：使用Q和target_Q训练网络，表达式如下：

7.判断s_是否终止点：是终止点，回到步骤1；非终止点，则当前状态更新为s_，返回到步骤2。

8.训练结束，获得训练好的决策神经网络。

本发明提供的方法的优势在于：在本发明提供的方法的作用下，水下机器人可以实时的避开周围障碍物，并规划出从起点到终点的一条最短路径。

附图说明

图1是强化学习的基本原理图；

图2是本发明提出的基于神经网络和Q学习结合的水下机器人智能决策方法示意图；

图3是本发明中AUV在时间和空间运动示意图；

图4是神经网络结构示意图。

具体实施方式

下面结合附图对本发明做进一步说明：

图1为强化学习的基本原理图，强化学习算法是一种可以与环境进行交互的在线学习算法，分为训练阶段和执行阶段，在训练阶段，Agent处于某一环境状态中，在此环境状态下执行某个动作，状态发生转移，同时获得即时的得分，此得分表示对于执行此动作好坏的一种评价。并将此得分以Q值的方式存储起来，重复以上状态转移的过程，Agent可在与环境的交互中学得有利于自身即得分大的行为，从而避免不利行为的发生。

图2为本发明结合神经网络和强化学习算法来实现水下机器人的智能决策算法，具体设计如下：

1.基本问题描述

如图3所示，路径规划的环境设置为二维平面，建立环境地图的全局坐标系O-XY。当AUV获取需要的周围环境信息后，这些信息包括目标点的位置，AUV的位置速度大小和艏向角，以及障碍物位置信息。在这里，u为AUV的速度大小，c_t为艏向角，(x_t,y_t)为t时刻的位置坐标，D_t为时间间隔，AUV的决策输出包括速度和艏向角。假设(f_x,f_y)为下一时刻AUV的位置坐标，可以表示为下式：

f_x＝x_t+u×cos(c_t) (1)

f_y＝y_t+u×sin(c_t) (2)

2.基于强化学习的AUV智能决策方法

强化学习算法是一种可以与环境进行交互的在线学习算法，其基于马尔科夫过程(MDP)来进行决策，马尔科夫五元组由(S,A,T,R,V)来表示，S表示状态空间的集合，A表示动作空间的集合，T表示状态转移函数，R表示S状态下采取动作A的回报函数，V为决策目标函数。强化学习基于此马尔科夫四元组期望得到最优的策略Π。Π表示，在任意的状态s下，Agent采取某个动作a，可以使得期望总回报值最大，也就是决策目标V最大。

(1)马尔科夫五元组的定义

对于水下机器人智能决策问题来说，状态s代表任意时刻水下机器人感受到周围环境信息，此信息包括周围障碍物的方向和距离以及此刻艏向角和目标点的夹角信息。具体表现为声纳在7个方向上探测的障碍物距离信息加上此刻AUV艏向角和目标位置的夹角tr，7个方向分别为：以艏向方向为基础的0°，30°，60°，90°，-30°，-60°，-90°。同时将感知到的距离信息进行量化处理，声纳最远可探测距离为5，障碍物距离AUV的距离为d，d_i为声纳第i个方向的量化结果，量化规则如下：

tr为艏向角和目标点夹角，量化规则为：

动作A表示水下机器人不同的转角和速度信息。为简化问题，动作设为AUV定速下的转角运动，转向角分别为0°，10°，20°，30°，-10°，-20°，-30°。行为选择策略定义如下：随机选择概率ε＝0.1，每次选择动作前产生随机数rand，则

回报函数R表示水下机器人在某一状态s₁采取动作a₁后，进而状态转移到s₂，AUV所获得的即时回报值r。本专利采用以下简单的方法定义强化信号，在每一步均能对权值进行修正，且计算简单。设某时刻水下机器人到障碍物的最小距离为mind，水下机器人t时刻到目标的距离为d1，前一时刻到目标的距离为d0，ds为设定的安全域值，则评价规则r如下确定：

目标函数V指的是初始状态s₀下执行相应策略π得到的折扣累计回报，r_t为t时刻即使评价值(策略π表示在任意状态s下，得到的某一动作a)，公式如下：

其中γ为折扣值，一般取为0.9。

本发明选用强化学习中的Q_learning算法，这是一种与模型无关的强化学习算法，每次通过在环境中采样的方式进行学习，采用状态动作对Q(s,a)作为估计函数，Q(s,a)表示在任意状态s下，采取任意动作a，并且状态持续转移下去，总的期望得分。Q学习迭代时，智能体需要在迭代时考虑每一个状态动作对的值。Q算法的更新方式如下：

其中maxQ(s_t+1,a)为在S_t+1状态下可获得的最大Q值，r_t+1为即时得分。α为学习率。

(2)利用强化学习实现AUV决策的作用方式

水下机器人与环境交互学习的过程为：在初始环境状态下s₀下，采取动作a₀，状态转移到s₁，同时获得即时回报r₀，在s₁状态下，采取某一动作a₁，状态转移到s₂，获得即时回报r₁，将产生的样本(s_t,a,r,s_t+1)先存储到记忆池中，记忆池可以设计为一个矩阵，维持记忆池容量为某个值N，若样本数量多于记忆池容量N，则将最先进入记忆池中的样本剔除，加入新产生的样本。此过程持续进行下去，直到达到目标状态为止，转而水下机器人再次回到起始点，重复以上过程继续学习。将每一步产生的即时得分r进行折扣累加和，即时回报的折扣累计和作为Q(s,a)的期望回报值，本专利由上面递推公式得到折扣累计和作为Q(s,a)。通过强化学习，最终可以得到一个关于所有(状态-动作)对的Q值得分表，也就是期望回报值。强化学习算法的学习过程就是更新此Q值表的过程。学习结束后，任意状态下最大Q值所对应的动作，即为最优动作。

3.神经网络拟合Q值表

对于水下机器人智能决策问题来说，由于状态空间较大，会造成状态组合爆炸的问题，基于查表法的更新方式不再满足任务要求，本专利引入RBF神经网络代替Q值表，做值函数的近似。RBF网络能够逼近任意的非线性函数，可以处理系统内的难以解析的规律性，具有良好的泛化能力，并有很快的学习收敛速度，具体做法如下：

根据图4建立RBF神经网络，RBF网络使用径向基函数作为隐层神经元的的激活函数，输出层则是对隐层神经元输出的线性组合，本专利的径向基函数采用常用的高斯径向基函数其中x为神经网络输入向量，x_i为隐层第i个神经元所对应的中心，每个隐层中心都在记忆池中采取随机抽样来确定，β_i由反向传播算法来更新。神经网络的输入为经过量化后的环境状态s，输入层m有8个神经元，输出层为每个动作对应的Q值，输出层有7个神经元，隐含层p有30个神经元，以此神经网络去拟合上述所说的Q值表，这样，基于神经网络的强化学习可以处理大规模，复杂，连续状态空间的任务，并且由较强的泛化能力。可以减小计算量和存储空间的开销。AUV通过与环境交互获得的得分信息，作为神经网络的学习内容，来更新网络的权值。训练结束后，神经网络权值就存储了学到的知识，神经网络就可以作为环境状态与AUV转角动作的映射关系。

4.算法流程如下：

1.AUV在起点由声纳感知环境状态s；

3.执行该转角动作(a)，得到奖励(r)，状态转移到s_；

8.训练结束，获得训练好的决策神经网络。

通过在环境中的大量训练，AUV已获得了自主避障且趋近目标点的智能决策行为，当AUV在新的位置环境中执行任务时，通过此强化学习训练出的决策网络，仍可以顺利完成任务。

Claims

1.一种基于记忆关联强化学习的嵌入式实时水下机器人智能决策方法，其特征在于：

(1)AUV在起点由声纳感知环境状态s；

(2)感知当前环境状态，根据策略(开始为随机选择)选择一个AUV转角行为(a)；

(3)执行该转角动作(a)，得到奖励(r)，状态转移到s_；

(4)将获得的(s,a,r,s_)样本存储到样本池中，并判断样本池中的样本个数是否达到规定数目100：达到，样本中随机抽取30个样本作为神经元中心cⁱ，初始化神经网络，转到步骤(5)，以后将不再执行次步骤；未达到，转到步骤(2)；

(5)在样本池中随机抽取60个样本，将s作为网络输入，得到以a为动作的Q(s_t,a_t)，得到所有动作的Q(s_t+1,a_t+1)值；

(6)根据公式计算出Q值对应的target_Q值：使用Q和target_Q训练网络，表达式如下：

(7)判断s_是否终止点：是终止点，回到步骤(1)；非终止点，则当前状态更新为s_，返回到步骤(2)；

(8)训练结束，获得训练好的决策神经网络。

2.根据权利要求1所述的一种基于记忆关联强化学习的嵌入式实时水下机器人智能决策方法，其特征在于：所述的AUV在起点由声纳感知环境状态模型如下：路径规划的环境设置为二维平面，建立环境地图的全局坐标系O-XY，当AUV获取需要的周围环境信息后，这些信息包括目标点的位置，AUV的位置速度大小和艏向角，以及障碍物位置信息，u为AUV的速度大小，c_t为艏向角，(x_t,y_t)为t时刻的位置坐标，D_t为时间间隔，AUV的决策输出包括速度和艏向角，假设(f_x,f_y)为下一时刻AUV的位置坐标，可以表示为下式：

f_x＝x_t+u×cos(c_t) (1)

f_y＝y_t+u×sin(c_t) (2)

3.根据权利要求1所述的一种基于记忆关联强化学习的嵌入式实时水下机器人智能决策方法，其特征在于：所述的环境状态s代表任意时刻水下机器人感受到周围环境信息，此信息包括周围障碍物的方向和距离以及此刻艏向角和目标点的夹角信息，具体表现为声纳在7个方向上探测的障碍物距离信息加上此刻AUV艏向角和目标位置的夹角tr，7个方向分别为：以艏向方向为基础的0°，30°，60°，90°，-30°，-60°，-90°，同时将感知到的距离信息进行量化处理，声纳最远可探测距离为5，障碍物距离AUV的距离为d，d_i为声纳第i个方向的量化结果，量化规则如下：

tr为艏向角和目标点夹角，量化规则为：

4.根据权利要求1所述的一种基于记忆关联强化学习的嵌入式实时水下机器人智能决策方法，其特征在于：所述的AUV转角行为的判断过程如下：动作设为AUV定速下的转角运动，转向角分别为0°，10°，20°，30°，-10°，-20°，-30°，行为选择策略定义如下：随机选择概率ε＝0.1，每次选择动作前产生随机数rand，则

回报函数R表示水下机器人在某一状态s₁采取动作a₁后，进而状态转移到s₂，AUV所获得的即时回报值r，采用以下简单的方法定义强化信号，在每一步均能对权值进行修正，设某时刻水下机器人到障碍物的最小距离为mind，水下机器人t时刻到目标的距离为d1，前一时刻到目标的距离为d0，ds为设定的安全域值，则评价规则r如下确定：

其中γ为折扣值，一般取为0.9。