CN113052372A - 一种基于深度强化学习的动态auv追踪路径规划方法 - Google Patents

一种基于深度强化学习的动态auv追踪路径规划方法 Download PDF

Info

Publication number
CN113052372A
CN113052372A CN202110283966.0A CN202110283966A CN113052372A CN 113052372 A CN113052372 A CN 113052372A CN 202110283966 A CN202110283966 A CN 202110283966A CN 113052372 A CN113052372 A CN 113052372A
Authority
CN
China
Prior art keywords
auv
value
neural network
action
state
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110283966.0A
Other languages
English (en)
Other versions
CN113052372B (zh
Inventor
赵玉新
刘延龙
邓雄
杨硕
郝日栩
赵恒德
杜登辉
成小会
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Engineering University
Original Assignee
Harbin Engineering University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Engineering University filed Critical Harbin Engineering University
Priority to CN202110283966.0A priority Critical patent/CN113052372B/zh
Publication of CN113052372A publication Critical patent/CN113052372A/zh
Application granted granted Critical
Publication of CN113052372B publication Critical patent/CN113052372B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • G06Q10/047Optimisation of routes or paths, e.g. travelling salesman problem
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Development Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明提供一种基于深度强化学习的动态AUV追踪路径规划方法,通过引入深度强化学习算法,运用航路模型来处理AUV的路径追踪问题。首先对目标和AUV状态分析,判断并选择采用哪种航路进行追踪,建立三种航路模型,用训练好的模型对AUV下一状态进行预测。采用纯方位最小二乘估计法对检测到的目标信号进行运动要素解算,获得目标信息。将目标和AUV运动情况作为状态输入,AUV下一状态的动作和航向作为输出,建立状态——动作映射策略。根据任务要求,选择奖赏函数,AUV每段时间所采取的决策都会获得相应评价。本发明结合深度学习和强化学习的优点,将深度强化学习算法用在AUV路径追踪上,实现了对动态AUV的追踪路径规划。

Description

一种基于深度强化学习的动态AUV追踪路径规划方法
技术领域
本发明涉及一种基于深度强化学习的动态AUV追踪路径规划方法,属于人工智能算法领域。
背景技术
AUV有很大的特点是噪声小,航行在水下,借助于海水的遮盖,隐蔽性很强,进行目标的追踪有得天独厚的优势。海洋环境复杂,有暗礁、有浅滩还可能存在大小不一的岛屿和不易预测的洋流,为保证AUV的航行安全和对目标追踪的准确性,必须对其进行航路规划。路径规划的目的是探索一条能完成任务的最优路径,据环境信息的确定与否可分为全局路径规划和局部路径规划。全局路径规划主要包括:A*算法、网格法、拓扑法等,主要解决环境信息已知的路径规划,局部路径规划包括:基于神经网络方法、粒子群算法、遗传算法等,主要解决环境信息部分已知或者未知的路径规划。
随着机器学习、深度学习和强化学习等人工智能算法的发展,可以实现智能体通过对大量数据的学习获得隐藏的知识。对于AUV的路径规划而言,研究的热点是如何提高其环境自适应力和学习能力。强化学习(Reinforcement Learning,RL)是一种通过数据进行驱动的决策模型,通过智能体与环境进行交互,并在探索中学习进而获得最优策略。此种方法尤其适合条件复杂的优化问题,让智能体通过自学进行探索,有广阔发展空间。
发明内容
本发明的目的是为了实现AUV路径追踪而提供一种提高AUV对环境自适应力和学习能力的深度强化学习方法,可以让AUV通过学习探索而实现对智能体的路径追踪。
本发明的目的是这样实现的:
通过引入深度强化学习(DQN)算法,运用航路模型来处理AUV的路径追踪问题。首先对目标和AUV状态分析,判断并选择采用哪种航路进行追踪,建立三种航路模型,用训练好的模型对AUV下一状态进行预测。采用纯方位最小二乘估计法对检测到的目标信号进行运动要素解算,获得目标信息。将目标和AUV运动情况作为状态输入,AUV下一状态的动作和航向作为输出,建立状态——动作映射策略。根据任务要求,选择奖赏函数,AUV每段时间所采取的决策都会获得相应评价。
一种基于深度强化学习的动态AUV追踪路径规划方法,引入深度强化学习算法,运用航路模型来处理AUV的路径追踪问题,具体包括如下步骤:
步骤1:确定AUV的状态与动作
首先要根据目标方位的变化量,判断AUV转入接近航路、反航路或者是离开航路,在确定完所要转入的航路之后,再通过各自航路的DQN算法,由AUV和追踪目标双方作为深度神经网络的输入,产生相应的决策使计算的目标方位与实际测量方位保持在一定的限度以内,从而使AUV达到很好的追踪效果;
AUV的位置、速度和目标方位的变化为输入的状态变量,AUV的速度大小和航向为输出动作,由当前时刻的位置,通过改变其速度和航向即可获得下一时刻的位置和航向:
Figure BDA0002979646060000027
步骤2:确定奖赏函数
选择所计算的AUV预测方位与AUV执行动作后的实际方位的误差倒数作为奖赏函数,误差越小,所得到的奖赏值越大,代表对于AUV的控制越好、追踪也越好;
进行奖励时在一定时间内对实际方位与计算方位进行多次地比较,设定一个门限值,超过则认为奖赏值为1,在门限值以内就为0;
设AUV的动作为ak=(Cw,k,Vw,k),k代表的是动作的个数,当j时刻时,会有:
xm0 cos Bj-ym0 sin Bj+(tj-t0)cos BjVmx-(tj-t0)sin BjVmy
=(xwj-xw0)cos Bj-(ywj-yw0)-sin Bj
Bj表示当前j时刻的方位观测量,xwj表示当前j时刻的AUV的位置,所以根据Bj和xwj就可以进行计算,解算出目标的速度
Figure BDA0002979646060000021
初始位置
Figure BDA0002979646060000022
航向
Figure BDA0002979646060000023
在这解算值的基础上就可以对下一时刻的方位进行预测,公式如下:
Figure BDA0002979646060000024
存在的方位误差可表示为:
Figure BDA0002979646060000025
进行门限值的设定,当方位预测误差低于设置的门限值时是有效情况,当连续1~1.5分钟方位误差有效时,则认定为收敛,并对当前时刻进行记录;
设定奖赏函数如下:
Figure BDA0002979646060000026
利用Q-learning算法对AUV的未来奖励进行估计,并且采用深度强化的神经网络对Q函数进行拟合,这样结合起来就是DQN算法;
AUV在t时刻的状态是st,此时选取at这个动作进行航行,转换成下一状态st+1,获得了rt+1这个奖励,所以AUV在st这一状态时的Q值表示为Q(st,at),用下面的公式对Q(st,at)进行描述:
Q(st,at)=rt+1+γmaxQ(st+1,at)
在上式中Q(st+1,at)代表AUV在st+1这一状态采取at这一动作时所获得的状态——动作Q值,将此时的Q(st,at)当做AUV采取at这一动作的目标值来代替奖赏函数r,其他M-1个动作的目标值为对应的神经网络输出值;
步骤3:建立神经网络
利用深度神经网络来代替状态——动作函数,采用梯度下降法来代替强化学习原本的数据迭代更新,将AUV和目标的运动数据作为神经网络的输入量,然后经过神经网络的前向传播运算,输出得到动作估值,这样就能选择估值最大的最优动作a=maxQ(s,a,w)来执行;
建立全连接神经网络,输入层为AUV的位置、速度和目标的方位,所以输入层包含6个神经元,有M个神经元在全连接神经网络的输出层,表示输出了M个对于此状态的动作估值,全连接神经网络还包括两个隐藏层;
设定神经网络的两个隐含层使用ReLU激活函数,ReLU激活函数如下式所示:
Figure BDA0002979646060000031
目标值神经网络与当前值神经网络结构是一样的,初始时,目标值神经网络相对于当前值神经网络有一个延迟,延迟步数为n,当前值网络进行训练n次后目标值神经网络对应于进行数据更新;
步骤4:训练神经网络
通过大量的训练样本对神经网络模型进行参数更新,最终得到训练充足的神经网络模型,然后通过训练好的神经网络对AUV进行局部的路径追踪规划。
所述步骤4具体为:
设定AUV的追踪航行时间,将初始位置作为起点,速度方向为起始方向,AUV从起始点开始航行追踪目标的一定时间作为一个航行周期;
根据AUV在t时刻的当前状态st,通过当前值网络就可以对AUV进行计算输出M个动作值,选择最大Q值所对应的动作at使AUV航行到下一状态,根据公式就能够求得下一状态AUV的位置坐标和速度;根据t+1时刻AUV所处的位置就能够求得此时AUV的Q函数;通过将AUV st+1这一状态作为目标值网络的输入,就能够得到AUV的输出值,再次选取最大值然后与上一步所得的值相加即可获得Q函数值;此时的Q函数值就可作为当前值网络对应动作at的目标值;用此种方法就能够通过估计AUV每一个状态的未来奖励值,来解决强化学习中的短视问题;
重复以上步骤,直至达到所设定的时间,一个训练周期就完成了;当一个周期结束后,状态重置,然后进行下一个周期的训练,通过让AVU大量地训练来建立最优的动作选择策略;
当训练次数达到最大时,可根据训练结果判断模型是否训练成功,成功的话就结束训练否则继续训练直至训练完成;采用训练好的模型对AUV进行航路追踪的规划,输入当前时刻AUV所在的位置坐标以及速度和方位还有目标的方位,通过对应的神经网络模型就能够获得AUV采取的M个动作所对应的的输出值,然后自动选择最优动作——Q值最大,进行输出,此时动作为AUV的速度;当AUV执行动作的误差越小时,奖励就越大;这样通过不断获得下一最优动作就能获得AUV的最优航路节点,节点相连就能获得规划好的AUV追踪航路。
与现有技术相比,本发明的有益效果是:
本发明公开了一种基于深度强化学习的动态AUV追踪路径规划的方法。通过引入深度强化学习(DQN)算法,运用航路模型来处理AUV的路径追踪问题。首先对目标和AUV状态分析,判断并选择采用哪种航路进行追踪,建立三种航路模型,用训练好的模型对AUV下一状态进行预测。采用纯方位最小二乘估计法对检测到的目标信号进行运动要素解算,获得目标信息。将目标和AUV运动情况作为状态输入,AUV下一状态的动作和航向作为输出,建立状态——动作映射策略。根据任务要求,选择奖赏函数,AUV每段时间所采取的决策都会获得相应评价。本发明结合深度学习和强化学习的优点,将深度强化学习算法用在AUV路径追踪上,实现了对动态AUV的追踪路径规划。
附图说明
图1是本发明中采用的深度强化学习算法;
图2是本发明中基于深度强化学习的AUV路径追踪流程图。
具体实施方式
下面结合附图与具体实施方式对本发明作进一步详细描述。
本发明通过引入深度强化学习(DQN)算法,运用航路模型来处理AUV的路径追踪问题。首先对目标和AUV状态分析,判断并选择采用哪种航路进行追踪,建立三种航路模型,用训练好的模型对AUV下一状态进行预测。采用纯方位最小二乘估计法对检测到的目标信号进行运动要素解算,获得目标信息。将目标和AUV运动情况作为状态输入,AUV下一状态的动作和航向作为输出,建立状态——动作映射策略。根据任务要求,选择奖赏函数,AUV每段时间所采取的决策都会获得相应评价。
一种基于深度强化学习的动态AUV追踪路径规划。其特征在于,包括以下几个步骤:
步骤1基于DQN的AUV路径规划算法模型框架设计
步骤1.1确定AUV的状态与动作
在整个系统中,首先要根据目标方位的变化量,判断AUV转入接近航路、反航路或者是离开航路,在确定完所要转入的航路之后,再通过各自航路的DQN算法,由AUV和追踪目标双方作为深度神经网络的输入,产生相应的决策使计算的目标方位与实际测量方位保持在一定的限度以内,从而使AUV达到很好的追踪效果。
在强化学习中,智能体通过采取相应的动作来进行状态的改变。在AUV航路规划中,也同样需要确定AUV到达下一个状态时要采取的动作,因此状态变量应该是能反映AUV与目标双方的运动要素。因为可由AUV自身获得其位置、速度等信息,可通过最小二乘法对目标方位的变化进行解算而得到目标速度、目标与AUV之间的距离等信息,所以选择AUV的位置、速度和目标方位的变化为输入的状态变量。
为使系统能形成不断执行下去的闭环,应选择执行后可以对下一状态产生影响的动作为输出。因此选择AUV的速度大小和航向为输出动作,由当前时刻的位置,通过改变其速度和航向即可获得下一时刻的位置和航向:
xt+1=xt+vt×sin(θ)
yt+1=yt+vt×cos(θ)
步骤1.2确定奖赏函数
奖励时强化学习中智能体的追求目标。智能体选择的动作会得到环境的“评分”,即为奖励数值,所以奖励就是评判智能体动作的标准,对动作选择的好坏就体现在奖励数值大小上。智能体只有一个目标,就是追求最大化的总奖励值。奖励值表示的是智能体一步或者短时间内的动作好坏,而奖赏函数则是对动作进行长远地评价所制定的一个评价规则。并且奖赏函数的设置不仅影响对动作的评价,还会以此对智能体的学习速度产生影响。并且奖赏函数的设置是强化学习中的重点和关键,一定要按照任务目标选择奖赏函数,这样智能体才能按照预想地进行学习,建立正确的决策,同时对于深度神经网络的训练才能朝着预期变好。
在本系统中,目标是控制AUV按照规定对目标实施追踪,所以选择系统所计算的AUV预测方位与AUV执行动作后的实际方位的误差作为奖赏函数。执行任务时当然是误差越小代表对于AUV的控制越好、追踪也越好,所以设置误差的倒数为本模型的奖赏函数,这样当误差越小时,所得到的奖赏值越大。
将AUV和目标的当前状态作为深度神经网络的输入,输出即为预测的动作,AUV根据此动作进行航行到达下一状态,就可得到新的位置信息,然后利用纯方位最小二乘估计法对所测得的目标方位进行运动要素解算就可得到系统计算的方位。并且进行奖励时不是选取单次误差进行计算而是在一定时间内对实际方位与计算方位进行多次地比较,设定一个门限值,超过则认为奖赏值为1,在门限值以内就为0。
设AUV的动作为ak=(Cw,k,Vw,k),k代表的是动作的个数。当j时刻时,会有:
xm0 cos Bj-ym0 sin Bj+(tj-t0)cos BjVmx-(tj-t0)sin BjVmy
=(xwj-xw0)cos Bj-(ywj-yw0)-sin Bj
Bj表示当前j时刻的方位观测量,xwj表示当前j时刻的AUV的位置,所以根据Bj和xwj就可以进行计算,解算出目标的速度
Figure BDA0002979646060000061
初始位置
Figure BDA0002979646060000062
航向
Figure BDA0002979646060000063
在这解算值的基础上就可以对下一时刻的方位进行预测,公式如下:
Figure BDA0002979646060000064
存在的方位误差可表示为:
Figure BDA0002979646060000065
进行门限值的设定,当方位预测误差低于设置的门限值时是有效情况,当连续1~1.5分钟方位误差有效时,则认定为收敛,并对当前时刻进行记录。
设定奖赏函数如下:
Figure BDA0002979646060000066
利用Q-learning算法对AUV的未来奖励进行估计,并且采用深度强化的神经网络对Q函数进行拟合,这样结合起来就是DQN算法。
AUV在t时刻的状态是st,此时选取at这个动作进行航行,转换成下一状态st+1,获得了rt+1这个奖励,所以AUV在st这一状态时的Q值表示为Q(st,at),用下面的公式对Q(st,at)进行描述:
Q(st,at)=rt+1+γmaxQ(st+1,at)
在上式中Q(st+1,at)代表AUV在st+1这一状态采取at这一动作时所获得的状态——动作Q值。将此时的Q(st,at)当做AUV采取at这一动作的目标值来代替奖赏函数r,其他M-1个动作的目标值为对应的神经网络输出值。
步骤1.3建立神经网络
强化学习通过对智能体的大量训练使其获得策略的优化,从而得到状态——动作的最佳映射,对不同的状态能选择出最合适的动作。AUV状态用三个元素表示——s=[x,y,z],其中AUV位置坐标(x,y)可以在任务区域的任何一点,速度角度范围在[0,2π]间任意一个角度,假设AUV可采取M个动作,相对应于状态——动作函数的设置任务就很艰巨,对应的矩阵会很大。并且这只是考虑一个AUV的情况下,若将其拓展为AUV群,那么状态空间矩阵将是高维且计算量非常大的,并且训练时间长效果不一定好。所以在本研究中利用深度神经网络来代替状态——动作函数,采用梯度下降法来代替强化学习原本的数据迭代更新。将AUV和目标的运动数据作为神经网络的输入量,然后经过神经网络的前向传播运算,输出得到动作估值,这样就能选择估值最大的最优动作a=maxQ(s,a,w)来执行。
建立全连接神经网络,输入层为AUV的位置、速度和目标的方位,所以输入层包含6个神经元,有M个神经元在全连接神经网络的输出层,表示输出了M个对于此状态的动作估值,全连接神经网络还包括两个隐藏层。
设定神经网络的两个隐含层使用ReLU激活函数,ReLU激活函数如下式所示:
Figure BDA0002979646060000071
目标值神经网络与当前值神经网络结构是一样的,初始时,目标值神经网络相对于当前值神经网络有一个延迟,延迟步数为n,当前值网络进行训练n次后目标值神经网络对应于进行数据更新。
步骤1.4训练神经网络
通过大量的训练样本对神经网络模型进行参数更新,最终得到训练充足的神经网络模型,然后通过训练好的神经网络对AUV进行局部的路径追踪规划。设定AUV的追踪航行时间,将初始位置作为起点,速度方向为起始方向,AUV从起始点开始航行追踪目标的一定时间作为一个航行周期。
根据AUV在t时刻的当前状态st,通过当前值网络就可以对AUV进行计算输出M个动作值,选择最大Q值所对应的动作at使AUV航行到下一状态,根据公式就能够求得下一状态AUV的位置坐标和速度。根据t+1时刻AUV所处的位置就能够求得此时AUV的Q函数。通过将AUV st+1这一状态作为目标值网络的输入,就能够得到AUV的输出值,再次选取最大值然后与上一步所得的值相加即可获得Q函数值。此时的Q函数值就可作为当前值网络对应动作at的目标值。用此种方法就能够通过估计AUV每一个状态的未来奖励值,来解决强化学习中的短视问题。
重复以上步骤,直至达到所设定的时间,一个训练周期就完成了。当一个周期结束后,状态重置,然后进行下一个周期的训练,通过让AVU大量地训练来建立最优的动作选择策略。
当训练次数达到最大时,可根据训练结果判断模型是否训练成功,成功的话就结束训练否则继续训练直至训练完成。采用训练好的模型对AUV进行航路追踪的规划,输入当前时刻AUV所在的位置坐标以及速度和方位还有目标的方位,通过对应的神经网络模型就能够获得AUV采取的M个动作所对应的的输出值,然后自动选择最优动作——Q值最大,进行输出,此时动作为AUV的速度。当AUV执行动作的误差越小时,奖励就越大。这样通过不断获得下一最优动作就能获得AUV的最优航路节点,节点相连就能获得规划好的AUV追踪航路。
步骤2.基于深度强化学习的AUV路径追踪算法设计。
步骤2.1初始化经验池D(容量为N),用于储存训练样本。
步骤2.2设状态值函数Q作为预测网络,并随机初始化权重参数θ。
步骤2.3设状态值函数
Figure BDA0002979646060000081
作为目标网络,初始化权重参数θ-与θ相同。
步骤2.4设定航路追踪次数为M,即AUV最大的航路追踪次数为M次。
步骤2.5根据当前状态s1,由神经网络得到动作,即计算φ1=φ(s1),即在状s1下获得AUV对应的动作。
步骤2.6根据概率随机选择动作at,根据网络计算出当前状态对应动作的Q值,并选择Q值最大的一个动作作为最优动作at。注:动作包括速度v和航向α。
步骤2.7AUV执行动作at,获得环境反馈(判断是否收敛)的奖励信号rt(如果不收敛为-1,收敛为1)和下一个网络的输入。
步骤2.8基于新的状态st+1=st,xt+1,根据φt+1=φ(st+1)计算下一时间状态得航路。
步骤2.9将获得的状态转换参数(φt,at,rtt+1)存入经验池D中。
步骤2.10AUV从经验池D中随机取出小批量状态相关信息。
步骤2.11计算每一个状态得目标值,AUV通过目标网络
Figure BDA0002979646060000091
执行动作后的奖励rj更新Q值。
步骤2.12基于小批量样本采用随机梯度下降算法更新Q网络的权重参数θ。
步骤2.13每经过C次迭代后,更新目标动作值函数
Figure BDA0002979646060000092
的网络参数θ-为预测网络得参数θ。
步骤3.基于深度强化学习的路径追踪模型训练过程
步骤3.1首先对记忆池进行初始化,设置其容量即容纳训练样本数为N。对Q神经网络的权值参数初始化,选择随机权值θ来作为其初始权值,对于目标网络的权值θ-=θ也进行初始化。对于本研究中的AUV路径追踪问题,将输入状态定义为AUV和目标的运动信息,初始化的起始点状态为s0,t=0。
步骤3.2算法通过对应状态选择合适的执行动作at,就是让AUV进行环境探索的训练。采用ε贪心策略用概率的形式来对动作进行选择。随机生成数字β,规定当β>ε的时候,在状态空间A中进行等可能性地对执行动作进行随机选取;当β<ε的时候,则运用实际Q神经网络根据经验对此次状态的动作进行预测,选取Q值最大的最优动作作为此次的执行动作at。由于初始训练时,AUV对环境完全陌生,还未进行探索,所以不宜让其自主选择执行的动作,所以设置ε=0,采用随机选择的动作来探索环境丰富经验池。
步骤3.3在执行了at这一动作后,AUV的状态就会由st转变为新的状态st+1,然后获得环境所给的反馈rt这一即时奖励。所以每次决策的执行都会获得(st,at,rt,st+1)这样一组样本,此样本就会被存储到记忆池中。记忆池是有某确定数值的阈值,所以每增加一组样本就会进行是否到达经验池阈值的判断,若已经到达就开始对模型进行训练,否则继续收集样本。
步骤3.4当开始模型训练时:
第一步,设置batch_size这一数值,然后从记忆池中的样本随机抽取batch_size个作为训练样本的合集;
第二步,对每个样本来说,将st+1这一状态作为目标网络的输入,此时网络就会输出所有动作相应的Q(st+1,a)值函数,并选取
Figure BDA0002979646060000093
这一最大值函数对应的那个动作;将st这一状态作为Q神经网络的输入,会输出Qt(s,a;θ),即at这动作对应的Q值函数;将上述的结果加上rt这一奖赏值一起带入下面的公式,就会获得神经网络代拟合的Qt+1(s,a)这一真实值,公式如下:
Figure BDA0002979646060000101
第三步,对神经网络的权值进行更新,通过神经网络逆误差传播这个原理来计算损失函数LOSS=(Qt+1(s,a)-Qt(s,a;θ))2,然后神经网络权值的更新是采用SGD,此时为一次的学习过程,学习次数要记录。在每一次学习结束时,ε同时更新为ε+Δε,通过减少随机探索的概率来更加自主选择最优动作的机会。当学习次数逐渐增加并到达所规定的C值时,目标神经网络的权值θ-就会更新为当前值函数的神经网络权值θ。
达到训练次数,停止训练,否则重复上述过程。
步骤4基于深度强化学习的AUV路径追踪仿真过程
步骤4.1检测,输入到系统中AUV到追踪目标的方位和距离,然后采用纯方位最小二乘法来对目标进行运动要素解算。此过程中AUV按照方位航路进行航行,期间采用声呐对目标方位进行2次数据采集。
步骤4.2航路选择,结合第一阶段中目标方位变化量,确定AUV追踪目标所采用的航路。
步骤4.3对航路进行训练即选择最优动作,根据所给的AUV的速度、位置和方位以及目标的方位这些信息,输入DQN算法中,进行最优动作的训练然后输出,并控制AUV到达预测位置,实现对于AUV的局部路径追踪规划。

Claims (2)

1.一种基于深度强化学习的动态AUV追踪路径规划方法,其特征在于,引入深度强化学习算法,运用航路模型来处理AUV的路径追踪问题,具体包括如下步骤:
步骤1:确定AUV的状态与动作
首先要根据目标方位的变化量,判断AUV转入接近航路、反航路或者是离开航路,在确定完所要转入的航路之后,再通过各自航路的DQN算法,由AUV和追踪目标双方作为深度神经网络的输入,产生相应的决策使计算的目标方位与实际测量方位保持在一定的限度以内,从而使AUV达到很好的追踪效果;
AUV的位置、速度和目标方位的变化为输入的状态变量,AUV的速度大小和航向为输出动作,由当前时刻的位置,通过改变其速度和航向即可获得下一时刻的位置和航向:
Figure FDA0002979646050000011
步骤2:确定奖赏函数
选择所计算的AUV预测方位与AUV执行动作后的实际方位的误差倒数作为奖赏函数,误差越小,所得到的奖赏值越大,代表对于AUV的控制越好、追踪也越好;
进行奖励时在一定时间内对实际方位与计算方位进行多次地比较,设定一个门限值,超过则认为奖赏值为1,在门限值以内就为0;
设AUV的动作为ak=(Cw,k,Vw,k),k代表的是动作的个数,当j时刻时,会有:
xm0cosBj-ym0sinBj+(tj-t0)cosBjVmx-(tj-t0)sinBjVmy
=(xwj-xw0)cosBj-(ywj-yw0)-sinBj
Bj表示当前j时刻的方位观测量,xwj表示当前j时刻的AUV的位置,所以根据Bj和xwj就可以进行计算,解算出目标的速度
Figure FDA0002979646050000012
初始位置
Figure FDA0002979646050000013
航向
Figure FDA0002979646050000014
在这解算值的基础上就可以对下一时刻的方位进行预测,公式如下:
Figure FDA0002979646050000015
存在的方位误差可表示为:
Figure FDA0002979646050000016
进行门限值的设定,当方位预测误差低于设置的门限值时是有效情况,当连续1~1.5分钟方位误差有效时,则认定为收敛,并对当前时刻进行记录;
设定奖赏函数如下:
Figure FDA0002979646050000021
利用Q-learning算法对AUV的未来奖励进行估计,并且采用深度强化的神经网络对Q函数进行拟合,这样结合起来就是DQN算法;
AUV在t时刻的状态是st,此时选取at这个动作进行航行,转换成下一状态st+1,获得了rt+1这个奖励,所以AUV在st这一状态时的Q值表示为Q(st,at),用下面的公式对Q(st,at)进行描述:
Q(st,at)=rt+1+γmaxQ(st+1,at)
在上式中Q(st+1,at)代表AUV在st+1这一状态采取at这一动作时所获得的状态——动作Q值,将此时的Q(st,at)当做AUV采取at这一动作的目标值来代替奖赏函数r,其他M-1个动作的目标值为对应的神经网络输出值;
步骤3:建立神经网络
利用深度神经网络来代替状态——动作函数,采用梯度下降法来代替强化学习原本的数据迭代更新,将AUV和目标的运动数据作为神经网络的输入量,然后经过神经网络的前向传播运算,输出得到动作估值,这样就能选择估值最大的最优动作a=maxQ(s,a,w)来执行;
建立全连接神经网络,输入层为AUV的位置、速度和目标的方位,所以输入层包含6个神经元,有M个神经元在全连接神经网络的输出层,表示输出了M个对于此状态的动作估值,全连接神经网络还包括两个隐藏层;
设定神经网络的两个隐含层使用ReLU激活函数,ReLU激活函数如下式所示:
Figure FDA0002979646050000022
目标值神经网络与当前值神经网络结构是一样的,初始时,目标值神经网络相对于当前值神经网络有一个延迟,延迟步数为n,当前值网络进行训练n次后目标值神经网络对应于进行数据更新;
步骤4:训练神经网络
通过大量的训练样本对神经网络模型进行参数更新,最终得到训练充足的神经网络模型,然后通过训练好的神经网络对AUV进行局部的路径追踪规划。
2.根据权利要求1所述的一种基于深度强化学习的动态AUV追踪路径规划方法,其特征在于,所述步骤4具体为:
设定AUV的追踪航行时间,将初始位置作为起点,速度方向为起始方向,AUV从起始点开始航行追踪目标的一定时间作为一个航行周期;
根据AUV在t时刻的当前状态st,通过当前值网络就可以对AUV进行计算输出M个动作值,选择最大Q值所对应的动作at使AUV航行到下一状态,根据公式就能够求得下一状态AUV的位置坐标和速度;根据t+1时刻AUV所处的位置就能够求得此时AUV的Q函数;通过将AUVst+1这一状态作为目标值网络的输入,就能够得到AUV的输出值,再次选取最大值然后与上一步所得的值相加即可获得Q函数值;此时的Q函数值就可作为当前值网络对应动作at的目标值;用此种方法就能够通过估计AUV每一个状态的未来奖励值,来解决强化学习中的短视问题;
重复以上步骤,直至达到所设定的时间,一个训练周期就完成了;当一个周期结束后,状态重置,然后进行下一个周期的训练,通过让AVU大量地训练来建立最优的动作选择策略;
当训练次数达到最大时,可根据训练结果判断模型是否训练成功,成功的话就结束训练否则继续训练直至训练完成;采用训练好的模型对AUV进行航路追踪的规划,输入当前时刻AUV所在的位置坐标以及速度和方位还有目标的方位,通过对应的神经网络模型就能够获得AUV采取的M个动作所对应的的输出值,然后自动选择最优动作——Q值最大,进行输出,此时动作为AUV的速度;当AUV执行动作的误差越小时,奖励就越大;这样通过不断获得下一最优动作就能获得AUV的最优航路节点,节点相连就能获得规划好的AUV追踪航路。
CN202110283966.0A 2021-03-17 2021-03-17 一种基于深度强化学习的动态auv追踪路径规划方法 Active CN113052372B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110283966.0A CN113052372B (zh) 2021-03-17 2021-03-17 一种基于深度强化学习的动态auv追踪路径规划方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110283966.0A CN113052372B (zh) 2021-03-17 2021-03-17 一种基于深度强化学习的动态auv追踪路径规划方法

Publications (2)

Publication Number Publication Date
CN113052372A true CN113052372A (zh) 2021-06-29
CN113052372B CN113052372B (zh) 2022-08-02

Family

ID=76512848

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110283966.0A Active CN113052372B (zh) 2021-03-17 2021-03-17 一种基于深度强化学习的动态auv追踪路径规划方法

Country Status (1)

Country Link
CN (1) CN113052372B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113359448A (zh) * 2021-06-03 2021-09-07 清华大学 一种针对时变动力学的自主水下航行器轨迹跟踪控制方法
CN113821035A (zh) * 2021-09-22 2021-12-21 北京邮电大学 无人船轨迹追踪控制方法和装置
CN114840928A (zh) * 2022-05-07 2022-08-02 西北工业大学 一种基于深度学习的水下航行器集群运动仿真方法
CN115371684A (zh) * 2022-10-24 2022-11-22 四川师范大学 一种景区游玩路径规划方法及系统
CN115392111A (zh) * 2022-07-27 2022-11-25 交控科技股份有限公司 一种列车追踪控制方法、设备、存储介质
CN115855226A (zh) * 2023-02-24 2023-03-28 青岛科技大学 基于dqn和矩阵补全的多auv协同水下数据采集方法
CN117152155A (zh) * 2023-10-31 2023-12-01 海杰亚(北京)医疗器械有限公司 一种多针消融规划方法、装置、存储介质及电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108803321A (zh) * 2018-05-30 2018-11-13 清华大学 基于深度强化学习的自主水下航行器轨迹跟踪控制方法
CN110333739A (zh) * 2019-08-21 2019-10-15 哈尔滨工程大学 一种基于强化学习的auv行为规划及动作控制方法
CN110716574A (zh) * 2019-09-29 2020-01-21 哈尔滨工程大学 一种基于深度q网络的uuv实时避碰规划方法
US20200143206A1 (en) * 2018-11-05 2020-05-07 Royal Bank Of Canada System and method for deep reinforcement learning

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108803321A (zh) * 2018-05-30 2018-11-13 清华大学 基于深度强化学习的自主水下航行器轨迹跟踪控制方法
US20200143206A1 (en) * 2018-11-05 2020-05-07 Royal Bank Of Canada System and method for deep reinforcement learning
CN110333739A (zh) * 2019-08-21 2019-10-15 哈尔滨工程大学 一种基于强化学习的auv行为规划及动作控制方法
CN110716574A (zh) * 2019-09-29 2020-01-21 哈尔滨工程大学 一种基于深度q网络的uuv实时避碰规划方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
LIHONG LIU等: "UAV Autonomous Trajectory Planning in Target Tracking Tasks via a DQN Approach", 《2019 IEEE INTERNATIONAL CONFERENCE ON RCAR》 *
王力锋: "基于强化学习的AUV行为重规划方法研究", 《中国优秀博硕士学位论文全文数据库(硕士)工程科技Ⅱ辑》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113359448A (zh) * 2021-06-03 2021-09-07 清华大学 一种针对时变动力学的自主水下航行器轨迹跟踪控制方法
CN113821035A (zh) * 2021-09-22 2021-12-21 北京邮电大学 无人船轨迹追踪控制方法和装置
CN114840928A (zh) * 2022-05-07 2022-08-02 西北工业大学 一种基于深度学习的水下航行器集群运动仿真方法
CN115392111A (zh) * 2022-07-27 2022-11-25 交控科技股份有限公司 一种列车追踪控制方法、设备、存储介质
CN115371684A (zh) * 2022-10-24 2022-11-22 四川师范大学 一种景区游玩路径规划方法及系统
CN115371684B (zh) * 2022-10-24 2023-02-03 四川师范大学 一种景区游玩路径规划方法及系统
CN115855226A (zh) * 2023-02-24 2023-03-28 青岛科技大学 基于dqn和矩阵补全的多auv协同水下数据采集方法
CN115855226B (zh) * 2023-02-24 2023-05-30 青岛科技大学 基于dqn和矩阵补全的多auv协同水下数据采集方法
CN117152155A (zh) * 2023-10-31 2023-12-01 海杰亚(北京)医疗器械有限公司 一种多针消融规划方法、装置、存储介质及电子设备
CN117152155B (zh) * 2023-10-31 2024-02-13 海杰亚(北京)医疗器械有限公司 一种多针消融规划方法、装置、存储介质及电子设备

Also Published As

Publication number Publication date
CN113052372B (zh) 2022-08-02

Similar Documents

Publication Publication Date Title
CN113052372B (zh) 一种基于深度强化学习的动态auv追踪路径规划方法
CN108803321B (zh) 基于深度强化学习的自主水下航行器轨迹跟踪控制方法
CN111142522B (zh) 一种分层强化学习的智能体控制方法
CN111098852B (zh) 一种基于强化学习的泊车路径规划方法
Cao et al. Target search control of AUV in underwater environment with deep reinforcement learning
CN108873687B (zh) 一种基于深度q学习的智能水下机器人行为体系结规划方法
Grigorescu et al. Neurotrajectory: A neuroevolutionary approach to local state trajectory learning for autonomous vehicles
CN114625151B (zh) 一种基于强化学习的水下机器人避障路径规划方法
CN112819253A (zh) 一种无人机避障和路径规划装置及方法
CN110716574B (zh) 一种基于深度q网络的uuv实时避碰规划方法
CN110716575A (zh) 基于深度双q网络强化学习的uuv实时避碰规划方法
CN113741449A (zh) 一种面向海空协同观测任务的多智能体控制方法
CN115618716A (zh) 一种基于离散SAC算法的gazebo潜航器路径规划算法
CN114199248A (zh) 一种基于混合元启发算法优化anfis的auv协同定位方法
CN117311142A (zh) 一种融合粒子群算法与神经网络预测控制的dp船舶运动控制与推力分配协同控制方法
Li et al. Autonomous underwater vehicles (AUVs) path planning based on Deep Reinforcement Learning
CN117590867A (zh) 基于深度强化学习的水下自主航行器接驳控制方法和系统
CN115657689B (zh) 一种基于轨迹预测的自主水下航行器目标跟踪控制方法
Palacios-Morocho et al. Multipath planning acceleration method with double deep R-learning based on a genetic algorithm
Li et al. Research on the agricultural machinery path tracking method based on deep reinforcement learning
CN114396949B (zh) 一种基于ddpg的移动机器人无先验地图导航决策方法
CN115453880A (zh) 基于对抗神经网络的用于状态预测的生成模型的训练方法
CN115718497A (zh) 一种多无人艇避碰决策方法
Zhou et al. Deep reinforcement learning with long-time memory capability for robot mapless navigation
Zhang et al. Novel TD3 Based AUV Path Tracking Control

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant