CN115493597A - 一种基于sac算法的auv路径规划控制方法 - Google Patents

一种基于sac算法的auv路径规划控制方法 Download PDF

Info

Publication number
CN115493597A
CN115493597A CN202211420838.7A CN202211420838A CN115493597A CN 115493597 A CN115493597 A CN 115493597A CN 202211420838 A CN202211420838 A CN 202211420838A CN 115493597 A CN115493597 A CN 115493597A
Authority
CN
China
Prior art keywords
auv
value
network
action
obstacle
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211420838.7A
Other languages
English (en)
Other versions
CN115493597B (zh
Inventor
李沂滨
张忠铝
张天泽
张悦
孙雨泽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong University
Original Assignee
Shandong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong University filed Critical Shandong University
Priority to CN202211420838.7A priority Critical patent/CN115493597B/zh
Publication of CN115493597A publication Critical patent/CN115493597A/zh
Application granted granted Critical
Publication of CN115493597B publication Critical patent/CN115493597B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/20Instruments for performing navigational calculations
    • G01C21/203Specially adapted for sailing ships
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/10Simultaneous control of position or course in three dimensions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • General Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Automation & Control Theory (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明涉及一种基于SAC算法的AUV路径规划控制方法,属于机器人路径规划技术领域,主要包括在SAC算法中引入动态人工势场法,可以在智能体难以做出决策或者长时间做出无效动作时提供引导作用,也可以避免纯粹人工势场法陷入局部最优的问题,AUV基于结合人工势场法的强化学习SAC算法采取动作并执行动作,使用AUV的声纳搜索障碍物,并将障碍物信息保存到障碍物集合中;在SAC算法中引入启发式函数,用来引导AUV做出正确的动作,以加快强化学习的训练过程,解决稀疏奖励的问题,网络训练完毕后,将环境信息输入到策略网络中,使用策略网络输出的动作控制AUV运动,最终得到规划路径。

Description

一种基于SAC算法的AUV路径规划控制方法
技术领域
本发明涉及一种基于SAC算法的AUV路径规划的连续控制方法,属于机器人路径规划技术领域。
背景技术
随着科技的发展,人类对海洋资源的开发和投入越来越大,海洋拥有丰富的矿产资源、生物资源以及可再生能源,是人类社会可持续发展的重要资产。自主水下航行器(autonomousunderwatervehicle,AUV)作为海洋作业的重要工具,非常适合海上搜索、调查、识别和打捞作业,AUV 路径规划技术的研究与发展使海洋开发进入了一个新的时代。
传统的AUV路径规划方法主要包括以下几种:
(1)基于几何模型搜索的方法,如Dijkstra、A*等,这类方法需要建立运动环境的几何模型,规划出的轨迹不够平滑,难以满足AUV的机动性要求,且每一个新的规划都必须从头开始计算,规划过程不够智能化。
(2)基于虚拟势场的方法,如人工势场法,这类方法所需环境信息少,操作方便,然而,它很容易陷入局部最优。
(3)基于人工智能的方法,如蚁群算法、遗传算法等,这类方法的主要优点是不需要建立复杂的环境障碍物模型,AUV可以在环境空间中进行随机或特定搜索,但在面临复杂的海洋环境时效果较差,且难以完成实时动态规划。
近年来,随着深度学习和强化学习的发展,强化学习在AUV路径规划技术中的应用越来越多。强化学习通过智能体和环境的不断交互来不断优化智能体的策略,相比于传统方法具有更好的路径规划效果,训练出来的智能体具有更好的环境适应性,且可以针对环境信息进行实时路径规划。
然而AUV所处的海洋环境十分复杂,强化学习存在训练过程缓慢、收敛速度慢等问题,且强化学习的奖励往往由人为规定,很难实现理想的环境奖励设置,导致强化学习在训练过程中存在奖励稀疏的问题,即存在智能体长时间得不到有效奖励导致训练速度极慢甚至训练失败的问题。
发明内容
针对现有技术的不足,为了解决上述背景技术中存在的问题,本发明提供一种基于强化学习SAC算法的AUV路径规划方法,并主要对方法进行两个方面的改进:第一是在SAC算法中引入动态人工势场法,可以在智能体难以做出决策或者长时间做出无效动作时提供引导作用,同时SAC算法具有极强的探索能力,可以避免纯粹人工势场法陷入局部最优的问题;第二是在SAC算法中引入启发式函数,以加快强化学习的训练过程,解决稀疏奖励的问题。
本发明的技术方案如下:
本发明一个方面为使用SAC算法结合人工势场法的AUV路径规划方法,包括:
使用基于最大熵随机策略的强化学习算法SAC,该方法基于actor-critic框架,使用策略网络输出随机动作,驱动AUV运动,使用价值网络评判动作的好坏。在训练过程中,设置AUV的声纳搜素范围,在每一步的运动中,将声纳发现的障碍物添加到障碍物集合中,并在一定条件下,根据当前障碍物集合中的障碍物使用人工势场法采取动作,随着训练的进行,调整使用人工势场法的概率。
本发明的第二个方面提供了一种基于启发式函数的奖励函数设计方法,其包括:
对传统奖励函数进行修正,在奖励函数中引入启发式函数,用来引导AUV做出正确的动作,并随着训练的进行,适当调整启发式函数的影响因子,降低启发式函数的影响。
一种基于SAC算法的AUV路径规划控制方法,包含以下步骤:
第一步,建立连续坐标值的二维平面地图,定义环境的奖励函数,初始化相关参数及障碍物集合;
第二步,AUV基于结合人工势场法的强化学习SAC算法采取动作;
第三步,执行第二步计算出的动作,使用AUV的声纳搜索障碍物,并将障碍物信息保存到障碍物集合中;在SAC算法的奖励函数中加入启发式函数,计算启发式奖励;
第四步,进行价值网络和策略网络的更新;
第五步,调整动作选择策略的相关概率及启发函数的启发系数;
第六步,重复执行第二步至第五步,直至达到一定收敛条件为止;
第七步,最后,网络训练完毕后,将环境信息输入到策略网络中,使用策略网络输出的动作控制AUV运动,最终得到规划路径。
优选的,第一步:建立目标点障碍物的环境模型,初始化参数;首先生成1200*800 的连续环境地图,设置地图的某一坐标为目标点位置,设置地图另一坐标为AUV起始运动坐 标,设置AUV的速度v=(x, y),其中x为AUV的运动幅度,y为AUV的转动角度,x和y均为连续 值;在地图中随机生成n个障碍物,以圆形表示AUV、障碍物和目标点,优选的,其中AUV的半 径为20,声纳搜索半径为150,目标点的半径为100,障碍物的半径为范围内随机值。初始化 概率参数p1,p2,初始化启发系数
Figure 422982DEST_PATH_IMAGE001
,初始化SAC的策略网络和价值网络,初始化障碍物集合 D,将每个障碍物的坐标原点添加到障碍物集合中。
优选的,奖励函数最初的奖励定义为:在AUV采取每一步动作后,如果AUV到达了目标点给予奖励值r1,r1>0,如果AUV触碰到了边界给予奖励值r2,r2<0,如果AUV触碰到了障碍物给予奖励值r3,r3<r2<0,其他情况下,给予奖励值0。
优选的,策略网络为一神经网络,输入变量为AUV观测的环境状态,经过线性计算后分别输出动作分布的均值和标准差,AUV根据标准正态分布结合策略网络输出的均值和标准差计算动作;价值网络为另一神经网络,输入变量为AUV观测的环境状态和AUV采取的动作,输出一标量值用来衡量AUV在当前状态采取当前动作的好坏程度,该值越大代表采取的动作越好。
优选的,第二步,计算AUV的动作,策略网络输出动作的均值mean和标准差std,然后生成和动作相同维度的标准正态分布并获取采样值normal,则输出的动作为mean +normal * std;以p1概率采取策略网络输出的动作,以1-p1概率采取其他动作;在采取其他动作的情况下,以p2概率采取人工势场法,以1-p2的概率采取随机动作。
其中人工势场法动作的计算如下:对障碍物集合中的所有障碍物使用式(1)建立斥力势场,使用式(2)计算斥力,
Figure 429246DEST_PATH_IMAGE002
(1)
Figure 367378DEST_PATH_IMAGE003
(2)
其中
Figure 539602DEST_PATH_IMAGE004
为斥力系数,
Figure 944301DEST_PATH_IMAGE005
为当前点到障碍物的距离,
Figure 488459DEST_PATH_IMAGE006
为斥力失效距离,距离超过
Figure 932079DEST_PATH_IMAGE006
则斥力为0,
Figure 460275DEST_PATH_IMAGE007
为当前点到目标点的距离,
Figure 488405DEST_PATH_IMAGE008
为q点所受到的斥力场大小,q为当前所 在点的坐标,
Figure 469261DEST_PATH_IMAGE009
为q点所受到的斥力大小,其中
Figure 749195DEST_PATH_IMAGE010
Figure 630432DEST_PATH_IMAGE011
分别为q点所受斥力 分解为横向x方向和纵向y方向的斥力大小,n为一任意正常数,优选的,这里n取2。
对目标点使用式(3)建立引力势场,使用式(4)计算引力,
Figure 970409DEST_PATH_IMAGE012
(3)
Figure 376245DEST_PATH_IMAGE013
(4)
其中,
Figure 489563DEST_PATH_IMAGE014
为q点所受到的斥力场大小,
Figure 726772DEST_PATH_IMAGE015
为q点所受到的斥力大小,
Figure 921472DEST_PATH_IMAGE016
为引 力系数,
Figure 641036DEST_PATH_IMAGE017
为当前点到目标点的距离;最后求得引力和所有斥力的合力向量,向量的幅度 作为AUV的运动幅度,向量的角度与AUV前一步运动方向的夹角作为AUV的转动角度。
优选的,合力向量的计算为:首先计算出AUV所受的引力和斥力,将引力和斥力分别分解为横向x方向的引力斥力和纵向y方向的引力斥力,再分别求出x方向和y方向的合力,具体为对x方向的所有引力取正值,所有斥力取负值,再累加求和得到x方向的合力,同理对y方向的所有引力取正值,所有斥力取负值,再累加求和得到y方向的合力,最后根据x方向的合力和y方向的合力计算出整体的合力即为AUV当前所受到的合力向量。
优选的,第三步,执行动作,更新障碍物集合并计算奖励;执行第二步计算出来的动作,环境状态自动更新,将AUV声纳范围内的障碍物信息添加到障碍物集合中,计算启发式奖励,更新价值网络和策略网络,其中启发式奖励的计算如式(5)所示,
Figure 934876DEST_PATH_IMAGE018
(5)
其中,
Figure 728388DEST_PATH_IMAGE019
为当前的环境奖励,
Figure 941326DEST_PATH_IMAGE020
为新的奖励,f为启发式函数,
Figure 587334DEST_PATH_IMAGE021
为启发 系数,启发系数用来决定奖励函数中启发式奖励所占的比例,
Figure 917821DEST_PATH_IMAGE022
为折扣因子,
Figure 395201DEST_PATH_IMAGE023
为新的折 扣因子,
Figure 215258DEST_PATH_IMAGE024
为AUV下一时刻观测到的状态,
Figure 286244DEST_PATH_IMAGE025
为AUV当前时刻观测到的状态,
Figure 46521DEST_PATH_IMAGE026
为AUV当前时 刻采取的动作,
Figure 814626DEST_PATH_IMAGE027
为AUV在
Figure 244732DEST_PATH_IMAGE028
状态下采取
Figure 691763DEST_PATH_IMAGE026
动作后到达
Figure 384958DEST_PATH_IMAGE029
状态所获得的启发 式奖励的期望值,新的折扣因子降低了奖励函数中未来长期回报的比重,启发函数在奖励 函数中增加了以先验知识为指导的奖励;
对于启发式函数f的选择,可以如式(6)所示,
Figure 210831DEST_PATH_IMAGE030
(6)
其中
Figure 608577DEST_PATH_IMAGE031
Figure 778789DEST_PATH_IMAGE032
为正常数,选择AUV声纳范围内最近的障碍物作为目标障碍物,
Figure 51507DEST_PATH_IMAGE033
Figure 233352DEST_PATH_IMAGE034
分别表示当前AUV与目标点和目标障碍物之间的距离,
Figure 566114DEST_PATH_IMAGE035
Figure 397191DEST_PATH_IMAGE036
分别表示前一步AUV与目 标点和目标障碍物之间的距离,通过启发式奖励函数,可以引导AUV靠近目标点,同时远离 障碍物。
优选的,第四步,更新网络参数;对价值网络使用软贝尔曼方程更新,如式(7)所示,
Figure 208021DEST_PATH_IMAGE037
(7)
其中
Figure 509952DEST_PATH_IMAGE038
为温度系数,用来控制策略熵的比重,
Figure 75931DEST_PATH_IMAGE039
为t时刻的价值网络输 出,
Figure 904558DEST_PATH_IMAGE040
为t+1时刻的价值网络输出,
Figure 722342DEST_PATH_IMAGE041
为动作的熵,
Figure 3412DEST_PATH_IMAGE042
为策略网络,
Figure 179441DEST_PATH_IMAGE043
表示t+1时刻在状态
Figure 716602DEST_PATH_IMAGE044
下采取动作
Figure 573961DEST_PATH_IMAGE045
后所得到的价值网络输出 与动作的熵的和的期望,
Figure 208074DEST_PATH_IMAGE046
为t时刻的奖励,
Figure 555004DEST_PATH_IMAGE047
为奖励的折扣因子;对策略网络更新采 用最小化策略与Q函数的KL散度的方式,使策略的分布接近于Q函数的分布,如式(8)所示,
Figure 48302DEST_PATH_IMAGE048
(8)
Figure 833987DEST_PATH_IMAGE049
为新的策略网络,
Figure 699437DEST_PATH_IMAGE050
为旧的策略网络,
Figure 43699DEST_PATH_IMAGE051
为t时刻的价值网络输 出分布,
Figure 322496DEST_PATH_IMAGE052
用来规范化分布,它对新的策略网络的梯度没有贡献,计算时可以忽略 不计,
Figure 20194DEST_PATH_IMAGE053
为策略网络输出分布。
优选的,第五步,更新相关系数;随着训练的进行,策略网络输出的动作越来越准 确,障碍物集合中的障碍物信息也越来越多,对于第二步中的动作选择,可以逐渐增大p2的 值,根据人工势场法采取动作的概率,同时增大p1的值,增加AUV根据策略网络的采取动作 的概率;对于第三步中的启发式函数f,可以逐渐增大启发系数
Figure 118645DEST_PATH_IMAGE054
,从而降低启发函数f的比 重,增加未来长期回报的比重。
进一步优选的,增大p2的值具体为:设置p2的上限值为h2,初始值为l2,其中0<l2< h2<1,训练的总轮数为n,则每轮训练后,p2增加(h2-l2)/n;增大p1的值具体为,设置p1的上 限值为h1,初始值为l1,其中0<l1<h1<1,训练的总轮数为n,则每轮训练后,p1增加(h1-l1)/ n;增大启发系数
Figure 807377DEST_PATH_IMAGE055
具体为:增大启发系数
Figure 964004DEST_PATH_IMAGE056
相当于降低奖励函数中启发式奖励的比例,同 理,设置
Figure 560332DEST_PATH_IMAGE057
的上限值为
Figure 931533DEST_PATH_IMAGE058
,初始值为
Figure 820861DEST_PATH_IMAGE059
,其中0<
Figure 402146DEST_PATH_IMAGE060
<
Figure 271007DEST_PATH_IMAGE059
<1,训练的总轮数为n,则每轮训练后,
Figure 260828DEST_PATH_IMAGE061
增加(
Figure 834241DEST_PATH_IMAGE062
-
Figure 902822DEST_PATH_IMAGE063
)/n。
优选的,收敛条件为:达到最大训练轮数n或者在x轮训练过程中所获得的平均奖 励函数的标准差小于
Figure 575374DEST_PATH_IMAGE064
Figure 419702DEST_PATH_IMAGE065
为一正常数,即视为收敛。
本发明的有益效果在于:
本发明的主要技术包含以下两个方面,第一,使用强化学习SAC算法结合人工势场法作为AUV路径规划的动作选择策略,既保证了SAC算法的强探索性,又使用人工势场法加以约束,避免在训练初期难以有效更新网络。其中SAC算法的策略网络作为最终AUV采取动作的方式,人工势场法用来辅助SAC的训练,加快训练的流程,解决稀疏奖励的问题,避免训练时因长时间得不到有效奖励导致网络不能得到很好的更新。同时基于SAC算法的路径规划算法可以实现实时规划,且可以避免陷入局部最优解。第二,在奖励函数中引入启发式算法,考虑AUV在训练过程中与目标点和障碍物之间的距离变化,将变化添加到奖励函数中,降低未来长期回报的比重,进一步提高模型的收敛速度。
附图说明
图1为本发明技术方案的总体流程图;
图2为本发明示例的模拟环境地图示意图;
图3为本发明示例的动作选择流程示意图。
具体实施方式
下面通过实施例并结合附图对本发明做进一步说明,但不限于此。应该指出,以下详细说明都是例示性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。以下实施例仅用于更加清楚地说明本发明的技术方案,因此只作为示例,而不能以此来限制本发明的保护范围。
实施例1:
图1为本发明技术方案的总体流程图。以下为本发明技术方案的具体方法步骤:
第一步:建立目标点障碍物的环境模型,初始化参数。参阅图2,首先生成1200*800 的连续环境地图,设置地图的右上角坐标为(1100,700)位置为目标点位置,设置地图左下 角坐标为(150,150)位置为AUV起始运动坐标,设置AUV的速度v=(x, y),其中x为AUV的运动 幅度,y为AUV的转动角度,x和y均为连续值。在地图中随机生成n个障碍物,示例中设n=8,以 圆形表示AUV、障碍物和目标点,其中AUV的半径为20,声纳搜索半径为150,目标点的半径为 100,障碍物的半径为范围内随机值,初始化概率参数p1,p2,初始化启发系数
Figure 417876DEST_PATH_IMAGE066
,初始化SAC 的策略网络和价值网络,初始化障碍物集合D,将坐标原点添加到障碍物集合中。
第二步,计算AUV的动作。参阅图3,策略网络输出动作的均值mean和标准差std,然后生成和动作相同维度的标准正态分布并获取采样值normal,则输出的动作为mean +normal * std;以p1概率采取策略网络输出的动作,以1-p1概率采取其他动作。在采取其他动作的情况下,以p2概率采取人工势场法,以1-p2的概率采取随机动作。其中人工势场法动作的计算如下:对障碍物集合中的所有障碍物使用式(1)建立斥力势场,使用式(2)计算斥力,
Figure 708175DEST_PATH_IMAGE067
(1)
Figure 682953DEST_PATH_IMAGE068
(2)
其中
Figure 883252DEST_PATH_IMAGE004
为斥力系数,
Figure 786748DEST_PATH_IMAGE005
为当前点到障碍物的距离,
Figure 62878DEST_PATH_IMAGE006
为斥力失效距离,距离超过
Figure 608391DEST_PATH_IMAGE006
则斥力为0,
Figure 713795DEST_PATH_IMAGE007
为当前点到目标点的距离,
Figure 224411DEST_PATH_IMAGE008
为q点所受到的斥力场大小,q为当前所 在点的坐标,
Figure 286039DEST_PATH_IMAGE009
为q点所受到的斥力大小,其中
Figure 776188DEST_PATH_IMAGE010
Figure 810134DEST_PATH_IMAGE011
分别为q点所受斥力 分解为横向x方向和纵向y方向的斥力大小,n为一任意正常数,优选的,这里n取2。
对目标点使用式(3)建立引力势场,使用式(4)计算引力,
Figure 553968DEST_PATH_IMAGE012
(3)
Figure 509417DEST_PATH_IMAGE013
(4)
其中,
Figure 865574DEST_PATH_IMAGE014
为q点所受到的斥力场大小,
Figure 754027DEST_PATH_IMAGE015
为q点所受到的斥力大小,
Figure 872025DEST_PATH_IMAGE016
为引 力系数,
Figure 580349DEST_PATH_IMAGE017
为当前点到目标点的距离;最后求得引力和所有斥力的合力向量,向量的幅度 作为AUV的运动幅度,向量的角度与AUV前一步运动方向的夹角作为AUV的转动角度。
合力向量的计算为:首先计算出AUV所受的引力和斥力,将引力和斥力分别分解为横向x方向的引力斥力和纵向y方向的引力斥力,再分别求出x方向和y方向的合力,具体为对x方向的所有引力取正值,所有斥力取负值,再累加求和得到x方向的合力,同理对y方向的所有引力取正值,所有斥力取负值,再累加求和得到y方向的合力,最后根据x方向的合力和y方向的合力计算出整体的合力即为AUV当前所受到的合力向量。
第三步,执行动作,更新障碍物集合并计算奖励;执行第二步计算出来的动作,更新环境状态(状态由环境自己更新,相当于AUV移动之后所处的状态就改变了,不需要人为干预),将AUV声纳范围内的障碍物信息添加到障碍物集合中,计算启发式奖励,更新价值网络和策略网络,其中启发式奖励的计算如式(5)所示,
Figure 17495DEST_PATH_IMAGE069
(5)
其中,
Figure 399935DEST_PATH_IMAGE019
为当前的环境奖励,
Figure 783774DEST_PATH_IMAGE020
为新的奖励,f为启发式函数,
Figure 448236DEST_PATH_IMAGE021
为启发 系数,启发系数用来决定奖励函数中启发式奖励所占的比例,
Figure 847993DEST_PATH_IMAGE022
为折扣因子,
Figure 445459DEST_PATH_IMAGE023
为新的折 扣因子,
Figure 469041DEST_PATH_IMAGE024
为AUV下一时刻观测到的状态,
Figure 791437DEST_PATH_IMAGE025
为AUV当前时刻观测到的状态,
Figure 824247DEST_PATH_IMAGE026
为AUV当前时 刻采取的动作,
Figure 745060DEST_PATH_IMAGE027
为AUV在
Figure 969237DEST_PATH_IMAGE028
状态下采取
Figure 280395DEST_PATH_IMAGE070
动作后到达
Figure 370756DEST_PATH_IMAGE029
状态所获得的启发 式奖励的期望值,新的折扣因子降低了奖励函数中未来长期回报的比重,启发函数在奖励 函数中增加了以先验知识为指导的奖励;
对于启发式函数f的选择,可以如式(6)所示,
Figure 316715DEST_PATH_IMAGE071
(6)
其中
Figure 885362DEST_PATH_IMAGE031
Figure 41405DEST_PATH_IMAGE032
为正常数,选择AUV声纳范围内最近的障碍物作为目标障碍物,
Figure 556963DEST_PATH_IMAGE033
Figure 983527DEST_PATH_IMAGE034
分别表示当前AUV与目标点和目标障碍物之间的距离,
Figure 487190DEST_PATH_IMAGE035
Figure 241781DEST_PATH_IMAGE036
分别表示前一步AUV与目 标点和目标障碍物之间的距离,通过启发式奖励函数,可以引导AUV靠近目标点,同时远离 障碍物。
第四步,更新网络参数;对价值网络使用软贝尔曼方程更新,如式(7)所示,
Figure 184198DEST_PATH_IMAGE072
(7)
其中
Figure 137373DEST_PATH_IMAGE038
为温度系数,用来控制策略熵的比重。
Figure 811937DEST_PATH_IMAGE039
为t时刻的价值网络输 出,
Figure 53825DEST_PATH_IMAGE040
为t+1时刻的价值网络输出,
Figure 301398DEST_PATH_IMAGE041
为动作的熵,
Figure 810876DEST_PATH_IMAGE042
为策略网络,
Figure 497421DEST_PATH_IMAGE073
表示t+1时刻在状态
Figure 787457DEST_PATH_IMAGE074
下采取动作
Figure 182929DEST_PATH_IMAGE075
后所得到的价值网络 输出与动作的熵的和的期望,
Figure 343651DEST_PATH_IMAGE046
为t时刻的奖励,
Figure 189379DEST_PATH_IMAGE047
为奖励的折扣因子;对策略网络更 新采用最小化策略与Q函数的KL散度的方式,使策略的分布接近于Q函数的分布,如式(8)所 示,
Figure 202596DEST_PATH_IMAGE076
(8)
Figure 900294DEST_PATH_IMAGE049
为新的策略网络,
Figure 276043DEST_PATH_IMAGE050
为旧的策略网络,
Figure 463311DEST_PATH_IMAGE051
为t时刻的价值网络输 出分布,
Figure 901507DEST_PATH_IMAGE052
用来规范化分布,它对新的策略网络的梯度没有贡献,计算时可以忽略 不计,
Figure 199634DEST_PATH_IMAGE053
为策略网络输出分布。
第五步,更新相关系数。随着训练的进行,策略网络输出的动作越来越准确,障碍 物集合中的障碍物信息也越来越多,对于第二步中的动作选择,可以逐渐增大p2的值,根据 人工势场法采取动作的概率,同时增大p1的值,增加AUV根据策略网络的采取动作的概率。 对于第三步中的启发函数f,可以逐渐增大启发系数
Figure 429889DEST_PATH_IMAGE056
,从而降低启发函数f的比重,增加未 来长期回报的比重。
增大p2的值具体为:设置p2的上限值为h2,初始值为l2,其中0<l2<h2<1,训练的总 轮数为n,则每轮训练后,p2增加(h2-l2)/n;增大p1的值具体为,设置p1的上限值为h1,初始 值为l1,其中0<l1<h1<1,训练的总轮数为n,则每轮训练后,p1增加(h1-l1)/n;增大启发系 数
Figure 23944DEST_PATH_IMAGE056
具体为:增大启发系数
Figure 447972DEST_PATH_IMAGE056
相当于降低奖励函数中启发式奖励的比例,同理,设置
Figure 39535DEST_PATH_IMAGE056
的上 限值为
Figure 622832DEST_PATH_IMAGE058
,初始值为
Figure 387788DEST_PATH_IMAGE059
,其中0<
Figure 95850DEST_PATH_IMAGE060
<
Figure 706085DEST_PATH_IMAGE059
<1,训练的总轮数为n,则每轮训练后,
Figure 645353DEST_PATH_IMAGE061
增加(
Figure 345325DEST_PATH_IMAGE062
-
Figure 979831DEST_PATH_IMAGE063
)/n。
第六步,重复执行第二步到第五步,直至达到一定收敛条件为止,如:直到训练达 到最大训练轮数n或者在x轮训练过程中所获得的平均奖励函数的标准差小于
Figure 751346DEST_PATH_IMAGE064
Figure 217225DEST_PATH_IMAGE065
为一 正常数,即视为收敛。
第七步,最后,网络训练完毕后,将环境信息输入到策略网络中,使用策略网络输出的动作控制AUV运动,最终得到规划路径。
需要注意的是,除非另有说明,本申请使用的技术术语或者科学术语应当为本发明所属领域技术人员所理解的通常意义。

Claims (10)

1.一种基于SAC算法的AUV路径规划控制方法,其特征在于,包含以下步骤:
第一步,建立连续坐标值的二维平面地图,定义环境的奖励函数,初始化相关参数及障碍物集合;
第二步,AUV基于结合人工势场法的强化学习SAC算法采取动作;
第三步,执行第二步计算出的动作,使用AUV的声纳搜索障碍物,并将障碍物信息保存到障碍物集合中;在SAC算法的奖励函数中加入启发式函数,计算启发式奖励;
第四步,进行价值网络和策略网络的更新;策略网络为一神经网络,输入变量为AUV观测的环境状态,经过线性计算后分别输出动作分布的均值和标准差,AUV根据标准正态分布结合策略网络输出的均值和标准差计算动作;价值网络为另一神经网络,输入变量为AUV观测的环境状态和AUV采取的动作,输出一标量值用来衡量AUV在当前状态采取当前动作的好坏程度,该值越大代表采取的动作越好;
第五步,调整动作选择策略的相关概率及启发函数的启发系数;
第六步,重复执行第二步至第五步,直至达到一定收敛条件为止;
第七步,最后,网络训练完毕后,将环境信息输入到策略网络中,使用策略网络输出的动作控制AUV运动,最终得到规划路径。
2.根据权利要求1所述的基于SAC算法的AUV路径规划控制方法,其特征在于,第一步:建立目标点障碍物的环境模型,初始化参数;首先生成1200*800的连续环境地图,设置地图的某一坐标为目标点位置,设置地图另一坐标为AUV起始运动坐标,设置AUV的速度v=(x,y),其中x为AUV的运动幅度,y为AUV的转动角度,x和y均为连续值;在地图中随机生成n个障碍物,以圆形表示AUV、障碍物和目标点,初始化概率参数p1,p2,初始化启发系数,初始化SAC的策略网络和价值网络,初始化障碍物集合D,将每个障碍物的坐标原点添加到障碍物集合中。
3.根据权利要求2所述的基于SAC算法的AUV路径规划控制方法,其特征在于,第一步中,以圆形表示AUV、障碍物和目标点,设定AUV的半径为20,声纳搜索半径为150,目标点的半径为100,障碍物的半径为范围内随机值。
4.根据权利要求2所述的基于SAC算法的AUV路径规划控制方法,其特征在于,最初的奖励定义为:在AUV采取每一步动作后,如果AUV到达了目标点给予奖励值r1,r1>0,如果AUV触碰到了边界给予奖励值r2,r2<0,如果AUV触碰到了障碍物给予奖励值r3,r3<r2<0,其他情况下,给予奖励值0。
5.根据权利要求1所述的基于SAC算法的AUV路径规划控制方法,其特征在于,第二步,计算AUV的动作,策略网络输出动作的均值mean和标准差std,然后生成和动作相同维度的标准正态分布并获取采样值normal,则输出的动作为mean + normal * std;以p1概率采取策略网络输出的动作,以1-p1概率采取其他动作;在采取其他动作的情况下,以p2概率采取人工势场法,以1-p2的概率采取随机动作;
其中人工势场法动作的计算如下:对障碍物集合中的所有障碍物使用式(1)建立斥力势场,使用式(2)计算斥力,
Figure 931606DEST_PATH_IMAGE001
(1)
Figure 259864DEST_PATH_IMAGE002
(2)
其中
Figure 633077DEST_PATH_IMAGE004
为斥力系数,
Figure 919964DEST_PATH_IMAGE005
为当前点到障碍物的距离,
Figure 688331DEST_PATH_IMAGE007
为斥力失效距离,距离超过
Figure 901007DEST_PATH_IMAGE009
则斥 力为0,
Figure 262980DEST_PATH_IMAGE011
为当前点到目标点的距离,
Figure 914410DEST_PATH_IMAGE012
为q点所受到的斥力场大小,q为当前所在点的 坐标,
Figure 678229DEST_PATH_IMAGE013
为q点所受到的斥力大小,其中
Figure 891167DEST_PATH_IMAGE014
Figure 35709DEST_PATH_IMAGE015
分别为q点所受斥力分解为横向x 方向和纵向y方向的斥力大小,n为一任意正常数;
对目标点使用式(3)建立引力势场,使用式(4)计算引力,
Figure 602082DEST_PATH_IMAGE016
(3)
Figure 515680DEST_PATH_IMAGE017
(4)
其中,
Figure 899519DEST_PATH_IMAGE018
为q点所受到的斥力场大小,
Figure 734620DEST_PATH_IMAGE020
为q点所受到的斥力大小,
Figure 241036DEST_PATH_IMAGE022
为引力 系数,
Figure 776185DEST_PATH_IMAGE023
为当前点到目标点的距离;最后求得引力和所有斥力的合力向量,向量的幅度作 为AUV的运动幅度,向量的角度与AUV前一步运动方向的夹角作为AUV的转动角度。
6.根据权利要求5所述的基于SAC算法的AUV路径规划控制方法,其特征在于,第二步中,合力向量的计算为:首先计算出AUV所受的引力和斥力,将引力和斥力分别分解为横向x方向的引力斥力和纵向y方向的引力斥力,再分别求出x方向和y方向的合力,具体为对x方向的所有引力取正值,所有斥力取负值,再累加求和得到x方向的合力,同理对y方向的所有引力取正值,所有斥力取负值,再累加求和得到y方向的合力,最后根据x方向的合力和y方向的合力计算出整体的合力即为AUV当前所受到的合力向量。
7.根据权利要求1所述的基于SAC算法的AUV路径规划控制方法,其特征在于,第三步,执行动作,更新障碍物集合并计算奖励;执行第二步计算出来的动作,环境状态自动更新,将AUV声纳范围内的障碍物信息添加到障碍物集合中,计算启发式奖励,更新价值网络和策略网络,其中启发式奖励的计算如式(5)所示,
Figure 295373DEST_PATH_IMAGE024
(5)
其中,
Figure 712710DEST_PATH_IMAGE026
为当前的环境奖励,
Figure 886464DEST_PATH_IMAGE028
为新的奖励,f为启发式函数,
Figure 836972DEST_PATH_IMAGE030
为启发系数,启 发系数用来决定奖励函数中启发式奖励所占的比例,
Figure 512015DEST_PATH_IMAGE031
为折扣因子,
Figure 790550DEST_PATH_IMAGE033
为新的折扣因子,
Figure 564733DEST_PATH_IMAGE034
为AUV下一时刻观测到的状态,
Figure 776272DEST_PATH_IMAGE036
为AUV当前时刻观测到的状态,
Figure 344918DEST_PATH_IMAGE037
为AUV当前时刻采取的动 作,
Figure 173066DEST_PATH_IMAGE038
为AUV在
Figure 986826DEST_PATH_IMAGE039
状态下采取
Figure 52871DEST_PATH_IMAGE040
动作后到达
Figure 57998DEST_PATH_IMAGE041
状态所获得的启发式奖励的期望 值;
启发式函数f如式(6)所示,
Figure 107863DEST_PATH_IMAGE042
(6)
其中
Figure 551744DEST_PATH_IMAGE043
Figure 430884DEST_PATH_IMAGE045
为正常数,选择AUV声纳范围内最近的障碍物作为目标障碍物,
Figure 433344DEST_PATH_IMAGE046
Figure 471969DEST_PATH_IMAGE047
分别 表示当前AUV与目标点和目标障碍物之间的距离,
Figure 890181DEST_PATH_IMAGE048
Figure 166704DEST_PATH_IMAGE049
分别表示前一步AUV与目标点和目 标障碍物之间的距离。
8.根据权利要求1所述的基于SAC算法的AUV路径规划控制方法,其特征在于,第四步,更新网络参数;对价值网络使用软贝尔曼方程更新,如式(7)所示,
Figure 310371DEST_PATH_IMAGE050
(7)
其中
Figure 600407DEST_PATH_IMAGE052
为温度系数,用来控制策略熵的比重,
Figure 995879DEST_PATH_IMAGE053
为t时刻的价值网络输出,
Figure 15656DEST_PATH_IMAGE054
为t+1时刻的价值网络输出,
Figure 267908DEST_PATH_IMAGE055
为动作的熵,
Figure 248503DEST_PATH_IMAGE057
为策 略网络,
Figure 572299DEST_PATH_IMAGE058
表示t+1时刻在状态
Figure 354572DEST_PATH_IMAGE059
下采取动作
Figure 479523DEST_PATH_IMAGE060
后所得到的价值网络输出与动作 的熵的和的期望,
Figure 319652DEST_PATH_IMAGE061
为t时刻的奖励,
Figure 883357DEST_PATH_IMAGE063
为奖励的折扣因子;对策略网络更新采用最 小化策略与Q函数的KL散度的方式,使策略的分布接近于Q函数的分布,如式(8)所示,
Figure 988979DEST_PATH_IMAGE064
(8)
Figure 910929DEST_PATH_IMAGE065
为新的策略网络,
Figure 397274DEST_PATH_IMAGE066
为旧的策略网络,
Figure DEST_PATH_IMAGE067
为t时刻的价值网络输出分 布,
Figure DEST_PATH_IMAGE068
用来规范化分布,它对新的策略网络的梯度没有贡献,计算时可以忽略不计,
Figure DEST_PATH_IMAGE069
为策略网络输出分布。
9.根据权利要求1所述的基于SAC算法的AUV路径规划控制方法,其特征在于,第五步, 更新相关系数;对于第二步中的动作选择,逐渐增大p2的值,同时增大p1的值,增加AUV根据 策略网络的采取动作的概率;对于第三步中的启发式函数f,逐渐增大启发系数
Figure DEST_PATH_IMAGE070
增大p2的值具体为:设置p2的上限值为h2,初始值为l2,其中0<l2<h2<1,训练的总轮数 为n,则每轮训练后,p2增加(h2-l2)/n;增大p1的值具体为,设置p1的上限值为h1,初始值为 l1,其中0<l1<h1<1,训练的总轮数为n,则每轮训练后,p1增加(h1-l1)/n;增大启发系数
Figure DEST_PATH_IMAGE072
具体为:设置
Figure 987174DEST_PATH_IMAGE072
的上限值为
Figure DEST_PATH_IMAGE074
,初始值为
Figure DEST_PATH_IMAGE076
,其中0<
Figure DEST_PATH_IMAGE077
<
Figure DEST_PATH_IMAGE078
<1,训练的总轮数为n,则每轮训练 后,
Figure 905890DEST_PATH_IMAGE070
增加(
Figure DEST_PATH_IMAGE080
-
Figure DEST_PATH_IMAGE081
)/n。
10.根据权利要求1所述的基于SAC算法的AUV路径规划控制方法,其特征在于,第六步 中,收敛条件为:达到最大训练轮数n或者在x轮训练过程中所获得的平均奖励函数的标准 差小于
Figure DEST_PATH_IMAGE082
Figure DEST_PATH_IMAGE084
为一正常数,即视为收敛。
CN202211420838.7A 2022-11-15 2022-11-15 一种基于sac算法的auv路径规划控制方法 Active CN115493597B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211420838.7A CN115493597B (zh) 2022-11-15 2022-11-15 一种基于sac算法的auv路径规划控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211420838.7A CN115493597B (zh) 2022-11-15 2022-11-15 一种基于sac算法的auv路径规划控制方法

Publications (2)

Publication Number Publication Date
CN115493597A true CN115493597A (zh) 2022-12-20
CN115493597B CN115493597B (zh) 2023-04-18

Family

ID=85115660

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211420838.7A Active CN115493597B (zh) 2022-11-15 2022-11-15 一种基于sac算法的auv路径规划控制方法

Country Status (1)

Country Link
CN (1) CN115493597B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116429137A (zh) * 2023-03-22 2023-07-14 上海知而行科技有限公司 用于清扫装置的遍历路径生成方法及设备
CN116690588A (zh) * 2023-08-07 2023-09-05 南京云创大数据科技股份有限公司 多机械臂多任务的目标获取方法、装置、设备及存储介质
CN117606490A (zh) * 2024-01-23 2024-02-27 吉林大学 一种水下自主航行器协同搜索路径规划方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110794842A (zh) * 2019-11-15 2020-02-14 北京邮电大学 基于势场的强化学习路径规划算法
JP2021034050A (ja) * 2019-08-21 2021-03-01 哈爾浜工程大学 強化学習に基づくauv行動計画及び動作制御方法
CN113268854A (zh) * 2021-04-16 2021-08-17 中国人民解放军军事科学院国防科技创新研究院 一种双评价器单执行器的强化学习方法及系统
CN113341958A (zh) * 2021-05-21 2021-09-03 西北工业大学 一种混合经验的多智能体强化学习运动规划方法
CN114055471A (zh) * 2021-11-30 2022-02-18 哈尔滨工业大学 一种结合神经运动规划算法和人工势场法的机械臂在线运动规划方法
US20220196414A1 (en) * 2019-12-31 2022-06-23 Goertek Inc. Global path planning method and device for an unmanned vehicle
CN114859940A (zh) * 2022-07-05 2022-08-05 北京建筑大学 机器人移动控制方法、装置、设备以及存储介质
CN114879738A (zh) * 2022-05-30 2022-08-09 太原理工大学 一种模型增强的无人机飞行轨迹强化学习优化方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112596515B (zh) * 2020-11-25 2023-10-24 北京物资学院 一种多物流机器人移动控制方法及装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021034050A (ja) * 2019-08-21 2021-03-01 哈爾浜工程大学 強化学習に基づくauv行動計画及び動作制御方法
CN110794842A (zh) * 2019-11-15 2020-02-14 北京邮电大学 基于势场的强化学习路径规划算法
US20220196414A1 (en) * 2019-12-31 2022-06-23 Goertek Inc. Global path planning method and device for an unmanned vehicle
CN113268854A (zh) * 2021-04-16 2021-08-17 中国人民解放军军事科学院国防科技创新研究院 一种双评价器单执行器的强化学习方法及系统
CN113341958A (zh) * 2021-05-21 2021-09-03 西北工业大学 一种混合经验的多智能体强化学习运动规划方法
CN114055471A (zh) * 2021-11-30 2022-02-18 哈尔滨工业大学 一种结合神经运动规划算法和人工势场法的机械臂在线运动规划方法
CN114879738A (zh) * 2022-05-30 2022-08-09 太原理工大学 一种模型增强的无人机飞行轨迹强化学习优化方法
CN114859940A (zh) * 2022-07-05 2022-08-05 北京建筑大学 机器人移动控制方法、装置、设备以及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ZHUO WANG ET.AL: "Autonomous Underwater Vehicle Path Planning Method of Soft Actor–Critic Based on Game Training", 《JOURNAL OF MARINE SCIENCE AND ENGINEERING》 *
罗玉涛等: "基于改进人工势场的无人驾驶动态规划算法研究", 《中国公路学报》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116429137A (zh) * 2023-03-22 2023-07-14 上海知而行科技有限公司 用于清扫装置的遍历路径生成方法及设备
CN116690588A (zh) * 2023-08-07 2023-09-05 南京云创大数据科技股份有限公司 多机械臂多任务的目标获取方法、装置、设备及存储介质
CN116690588B (zh) * 2023-08-07 2023-10-10 南京云创大数据科技股份有限公司 多机械臂多任务的目标获取方法、装置、设备及存储介质
CN117606490A (zh) * 2024-01-23 2024-02-27 吉林大学 一种水下自主航行器协同搜索路径规划方法
CN117606490B (zh) * 2024-01-23 2024-05-14 吉林大学 一种水下自主航行器协同搜索路径规划方法

Also Published As

Publication number Publication date
CN115493597B (zh) 2023-04-18

Similar Documents

Publication Publication Date Title
CN115493597B (zh) 一种基于sac算法的auv路径规划控制方法
CN112668235B (zh) 基于离线模型预训练学习的ddpg算法的机器人控制方法
CN111413966B (zh) 一种递进式模型预测无人驾驶规划跟踪协同控制方法
CN112362066B (zh) 一种基于改进的深度强化学习的路径规划方法
CN102819264B (zh) 移动机器人路径规划q学习初始化方法
CN102402712A (zh) 基于神经网络的机器人强化学习初始化方法
CN114460943B (zh) 服务机器人自适应目标导航方法及系统
CN110716575A (zh) 基于深度双q网络强化学习的uuv实时避碰规划方法
Liu et al. Pixel-to-action policy for underwater pipeline following via deep reinforcement learning
Kantasewi et al. Multi Q-table Q-learning
CN113391633A (zh) 一种面向城市环境的移动机器人融合路径规划方法
Limketkai et al. Crf-filters: Discriminative particle filters for sequential state estimation
Brooks et al. Randomised MPC-based motion-planning for mobile robot obstacle avoidance
Zhang et al. Robot path planning method based on deep reinforcement learning
CN114396949B (zh) 一种基于ddpg的移动机器人无先验地图导航决策方法
Qiu et al. Obstacle avoidance planning combining reinforcement learning and RRT* applied to underwater operations
Yin et al. Reinforcement learning path planning based on step batch Q-learning algorithm
CN113204238B (zh) 一种移动机器人的路径规划方法、设备及存储介质
CN115542921A (zh) 多机器人的自主路径规划方法
Liu et al. Hierarchical Reinforcement Learning Integrating With Human Knowledge for Practical Robot Skill Learning in Complex Multi-Stage Manipulation
Zhang et al. Visual navigation of mobile robots in complex environments based on distributed deep reinforcement learning
CN114564039A (zh) 一种基于深度q网络和快速搜索随机树算法的航迹规划方法
Zhou et al. Path planning of mobile robot in complex environment based on improved Q-learning algorithm
Bao et al. Area Complete Coverage Path Planning for Offshore Seabed Organisms Fishing Autonomous Underwater Vehicle Based on Improved Whale Optimization Algorithm
Qiu et al. Sub-optimal policy aided multi-agent reinforcement learning for flocking control

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant