CN115291616B - 一种基于近端策略优化算法的auv动态避障方法 - Google Patents

一种基于近端策略优化算法的auv动态避障方法 Download PDF

Info

Publication number
CN115291616B
CN115291616B CN202210876511.4A CN202210876511A CN115291616B CN 115291616 B CN115291616 B CN 115291616B CN 202210876511 A CN202210876511 A CN 202210876511A CN 115291616 B CN115291616 B CN 115291616B
Authority
CN
China
Prior art keywords
auv
obs
obstacle
seconds
collision
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210876511.4A
Other languages
English (en)
Other versions
CN115291616A (zh
Inventor
孙佳龙
朱国豪
赵思聪
吉方正
夏子铭
胡家祯
于松
沈舟
鞠子夏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lianyungang Lantu Intelligent Technology Co ltd
Jiangsu Ocean University
Original Assignee
Lianyungang Lantu Intelligent Technology Co ltd
Jiangsu Ocean University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lianyungang Lantu Intelligent Technology Co ltd, Jiangsu Ocean University filed Critical Lianyungang Lantu Intelligent Technology Co ltd
Priority to CN202210876511.4A priority Critical patent/CN115291616B/zh
Priority to LU502871A priority patent/LU502871B1/en
Publication of CN115291616A publication Critical patent/CN115291616A/zh
Application granted granted Critical
Publication of CN115291616B publication Critical patent/CN115291616B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/04Control of altitude or depth
    • G05D1/06Rate of change of altitude or depth
    • G05D1/0692Rate of change of altitude or depth specially adapted for under-water vehicles
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S15/00Systems using the reflection or reradiation of acoustic waves, e.g. sonar systems
    • G01S15/02Systems using the reflection or reradiation of acoustic waves, e.g. sonar systems using reflection of acoustic waves
    • G01S15/50Systems of measurement, based on relative movement of the target
    • G01S15/58Velocity or trajectory determination systems; Sense-of-movement determination systems
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S15/00Systems using the reflection or reradiation of acoustic waves, e.g. sonar systems
    • G01S15/88Sonar systems specially adapted for specific applications
    • G01S15/89Sonar systems specially adapted for specific applications for mapping or imaging
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S15/00Systems using the reflection or reradiation of acoustic waves, e.g. sonar systems
    • G01S15/88Sonar systems specially adapted for specific applications
    • G01S15/93Sonar systems specially adapted for specific applications for anti-collision purposes
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/0088Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots characterized by the autonomous decision making process, e.g. artificial intelligence, predefined behaviours
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B63SHIPS OR OTHER WATERBORNE VESSELS; RELATED EQUIPMENT
    • B63GOFFENSIVE OR DEFENSIVE ARRANGEMENTS ON VESSELS; MINE-LAYING; MINE-SWEEPING; SUBMARINES; AIRCRAFT CARRIERS
    • B63G8/00Underwater vessels, e.g. submarines; Equipment specially adapted therefor
    • B63G8/001Underwater vessels adapted for special purposes, e.g. unmanned underwater vessels; Equipment specially adapted therefor, e.g. docking stations
    • B63G2008/002Underwater vessels adapted for special purposes, e.g. unmanned underwater vessels; Equipment specially adapted therefor, e.g. docking stations unmanned
    • B63G2008/004Underwater vessels adapted for special purposes, e.g. unmanned underwater vessels; Equipment specially adapted therefor, e.g. docking stations unmanned autonomously operating

Landscapes

  • Engineering & Computer Science (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Acoustics & Sound (AREA)
  • Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Game Theory and Decision Science (AREA)
  • Medical Informatics (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)

Abstract

本发明公开了一种基于近端策略优化算法的AUV动态避障方法,使用三维前视声呐检测障碍物,通过构建碰撞预估模型,在执行一步动作后对未来的位置状态进行预估评级,增强AUV对动态障碍物的敏感度,提升避障可靠性。同时将近端策略优化算法引入三维空间动态避障领域,克服了先前研究仅能将算法应用于二维平面静态避障的局限性,拓宽了算法的使用领域,同时取得了比其他强化学习算法更好的避障效果。

Description

一种基于近端策略优化算法的AUV动态避障方法
技术领域
本发明涉及智能决策技术领域,具体为一种基于近端策略优化算法的AUV动态避障方法。
背景技术
自主水下航行器(autonomous undersea vehicle,AUV)是一种轻型的水下探测工具,具有体积小、操控灵活及智能化程度高等特点,近年来在海洋资源探索、国防海军装备等领域大放异彩。海洋环境变化无常,为了保证AUV的正常航行与探测必须研究出足够安全的避障技术,这也是其导航控制技术的重要组成部分。随着各国对海洋探索程度的日益加深,如何进一步提升AUV在复杂海洋环境中的动态避障能力,已成为制约AUV发挥功效的关键。
在AUV的具体应用环境中,不确定场景的密集复杂动态障碍对AUV的航行安全提出了巨大的挑战,传统的避障方法,如A*算法、人工势场法、Voronoi图、RRT算法、群体智能算法等方法均是在已知环境信息的情况下进行避障。但由于环境状态的不确定性,AUV无法提前获取动态障碍物的运动信息,因此很难将传统的方法应用到不确定环境中进行实时避障。此外,不确定环境的复杂多变性对AUV的避障算法的时间提出了更高的要求。传统方法过于依赖环境动态模型和AUV模型,这些模型的准确性会很大程度上影响传统方法的性能。简单的模型不能表征环境的复杂性,复杂的模型意味着计算量过于巨大,不但大量浪费计算资源,而且计算时间长,不能满足AUV应用于不确定环境的需求。因此,就需要设计一种能够实现AUV在不确定环境中的动态避障的方法。
随着人工智能的发展,越来越多的高级智能算法被应用于各个领域来解决传统算法无法解决的问题。其中,深度强化学习方法凭借其强大的高维度信息感知、理解以及非线性处理能力在智能决策算法中脱颖而出。近端策略优化算法基于强化学习技术,先前研究在其各自的环境中都取得了不错的效果,但是仍然存在一些不足,主要表现为以下两点:一是大多算法仅在静态环境中进行避障或路径规划,缺乏处理动态障碍的能力,很难应用于不确定环境中;二是因为其避障环境设定和对模型复杂度、计算量的考虑,仅能将深度强化学习算法应用于二维平面避障领域,与三维环境仍有不小差距,对指导现实应用有一定的局限性。
发明内容
本发明的目的是针对现有技术的缺陷,提供一种基于近端策略优化算法的AUV动态避障方法,以解决上述背景技术提出的问题。
为实现上述目的,本发明提供如下技术方案:一种基于近端策略优化算法的AUV动态避障方法,具体步骤如下:
S1、根据三维前视声呐数据格式进行数据解析,每t秒生成一帧三维前视声呐图像,并对图像进行上伪色、降噪等处理;
S2、根据声强信息对声呐图像进行障碍物检测,计算障碍物相对于AUV的位置信息,构建障碍物、AUV和目标位置的绝对坐标三维地图;
S3、比较地图中当前帧和上一帧绝对坐标发生改变的障碍物,计算此动态障碍物在t秒内的位移、平均速度和方向信息,构建碰撞预估模型;
S4、使用训练好的近端策略优化算法,根据碰撞预估模型,控制三维地图中的虚拟AUV在t秒内向着目标位置不断前行和试错,直至探索出一条安全避开障碍物的路径;
S5、AUV使用自身的推进器,在t秒内按照三维地图中虚拟AUV探索的路径前行,完成航行和避障动作;重复以上步骤,直至AUV到达目标位置。
作为本发明的一种优选技术方案,所述S1中的数据解析,使用OpenCV处理声纳数据,使用applyColorMap创建COLORMAP_TURBO伪彩色图像;降噪处理采用双边滤波去除噪声,结合图像的空间近端度和像素值相似度折中处理,同时考虑空域信息和灰度相似性,达到保边去噪的目的。
作为本发明的一种优选技术方案,所述S2中三维地图的构建,以主动航行功能开启时AUV的位置为原点(0,0,0),航向为Y轴正方向,水平垂直于航向方向向右为X轴正方向,竖直于航向方向指向水面为Z轴正方向构建三维坐标系。将根据声强信息检测到的障碍物识别框映射到地图中,并实时更新障碍物和AUV的坐标信息。
作为本发明的一种优选技术方案,所述S3中假设障碍物在t秒内速度vobs、俯仰角θobs和偏航角ψobs是固定的,声呐测得障碍物上一帧坐标系位置为(x1,y1,z1),障碍物当前帧位置为(xobs,yobs,zobs),则障碍物航行的速度为:
Figure BDA0003762576740000031
偏航角为:
ψobs=arctan((y1-yobs)/(x1-xobs))
俯仰角为:
Figure BDA0003762576740000032
据此可以判断出障碍物的动态信息;存储以上信息,形成障碍物、目标位置和AUV本身的绝对坐标三维地图。
构建碰撞预估模型,首先计算碰撞距离;
假设AUV当前帧的位置为(xauv,yauv,zauv),在完成一个step航行动作后坐标的移动量为(Δxauv,Δyauv,Δzauv),即完成一个step航行动作后AUV的位置为(xauv+Δxauv,yauv+Δyauv,zauv+Δzauv),AUV完成一个step航行动作所需时间为Δt秒(Δt为毫秒量级);
障碍物经过Δt秒后在X轴移动量为:Δxobs=vobsΔtcosθobscosψobs
在Y轴移动量为:Δyobs=vobsΔtcosθobssinψobs
在Z轴移动量为:Δzobs=vobsΔtsinθobs
即Δt秒后障碍物的坐标为(xobs+Δxobs,yobs+Δyobs,zobs+Δzobs);
则经过Δt秒后,AUV与障碍物之间的距离为:
Figure BDA0003762576740000041
根据dist进行障碍物距离评分,得到障碍物距离奖励RΔt
AUV动态避障是一个连续的过程,当前step采取的航行动作会在很大程度上影响下一个动作,所以只关注于当前动作产生的效果往往不能顾全大局,影响整体的避障效果;
同时考虑到物体运动的惯性,AUV和动态障碍物都不太可能在很短的几十个Δt秒内改变自身原有的速度和航向。所以不妨假设AUV在接下来的几十个step都采取当前的航行动作,预估惯性运动带来的影响,从而计算一段整体的AUV障碍物距离奖励GmΔt
Figure BDA0003762576740000042
式中,GmΔt为m个step获得的总和障碍物距离奖励;RnΔt为第n个step(即n个Δt秒后)的障碍物距离奖励;γ为衰减因子,介于(0,1)之间,因为越近的RΔt对算法影响更为重要,而越远的RΔt因为其预估性使得准确度逐渐降低,γ的加入可以使碰撞预估模型的目光既不短浅也不会过于长远;
本发明考虑到AUV的计算性能,经过仿真实验模拟,最终取m=30,γ=0.95,即:
Figure BDA0003762576740000051
本发明的碰撞预估模型分为4个等级,分别是A(安全)、B(较小碰撞风险)、C(较大碰撞风险)、D(极度危险),将G30Δt代入以下公式得到AUV对此障碍物的碰撞预估评级Sq
Figure BDA0003762576740000052
假设在同一帧声呐图像上识别到了q个障碍物,对这q个障碍物重复以上步骤,得到碰撞预估集S:
S={S1,S2,S3,…,Sq}。
作为本发明的一种优选技术方案,所述S4中为了训练基于近端策略优化算法的深度强化学习网络模型,采用基于Python开发的物理引擎PyBullet进行仿真环境搭建,并依靠碰撞预估集S进行动态避障训练。
作为本发明的一种优选技术方案,所述S5中AUV使用自身的推进器沿着规划的路径前行,完成航行和避障动作。
本发明的有益效果是:本方法使用三维前视声呐检测障碍物,通过构建碰撞预估模型,在执行一步动作后对未来的位置状态进行预估评级,增强AUV对动态障碍物的敏感度,提升避障可靠性。同时将近端策略优化算法引入三维空间动态避障领域,克服了先前研究仅能将算法应用于二维平面静态避障的局限性,拓宽了算法的使用领域,同时取得了比其他强化学习算法更好的避障效果。
附图说明
图1为本发明的流程图;
图2为本发明使用近端策略优化算法训练AUV过程图;
图3为本发明仿真训练环境图;
图4为本发明每十轮的平均奖励图;
图5为本发明到达目标位置所用步数图;
图6为本发明算法训练模型规划路径图。
图7为本发明基于不同奖励函数的训练情况对比图
图8为本发明多动态障碍物场景平均奖励对比图。
图9为本发明算法在多动态障碍物场景避障过程图。
具体实施方式
下面结合附图对本发明的较佳实施例进行详细阐述,以使本发明的优点和特征能更易被本领域人员理解,从而对本发明的保护范围做出更为清楚明确的界定。
实施例:请参阅图1,本发明提供一种技术方案:一种基于近端策略优化算法的AUV动态避障方法,包括以下步骤:
S1、根据三维前视声呐数据格式进行数据解析,每t秒生成一帧三维前视声呐图像,并对图像进行上伪色、降噪等处理;
S2、根据声强信息对声呐图像进行障碍物检测,计算障碍物相对于AUV的位置信息,构建障碍物、AUV和目标位置的绝对坐标三维地图;
S3、比较地图中当前帧和上一帧绝对坐标发生改变的障碍物,计算此动态障碍物在t秒内的位移、平均速度和方向信息,构建碰撞预估模型;
S4、使用训练好的近端策略优化算法,根据碰撞预估模型,控制三维地图中的虚拟AUV在t秒内向着目标位置不断前行和试错,直至探索出一条安全避开障碍物的路径;
S5、AUV使用自身的推进器,在t秒内按照三维地图中虚拟AUV探索的路径前行,完成航行和避障动作;重复以上步骤,直至AUV到达目标位置。
上述S1中,本发明使用OpenCV处理声纳数据。原始图像为灰度图像,为便于分析与观测,一般按照一定的色表进行像素映射,从而得到较为直观的彩色图像。本发明使用OpenCV的applyColorMap创建COLORMAP_TURBO伪彩色图像。
由于各类干扰源的存在,三维前视声纳的原始图像存在一定的条纹干扰与像素空洞,一般为采样数据丢失或回波数据丢失造成的。本发明采用双边滤波去除噪声,结合图像的空间近端度和像素值相似度折中处理,同时考虑空域信息和灰度相似性,达到保边去噪的目的。
上述S2中,以主动航行功能开启时AUV的位置为原点(0,0,0),航向为Y轴正方向,水平垂直于航向方向向右为X轴正方向,竖直于航向方向指向水面为Z轴正方向构建三维坐标系。将根据声强信息检测到的障碍物识别框映射到地图中,并实时更新障碍物和AUV的坐标信息。
上述S3中,假设障碍物在t秒内速度vobs、俯仰角θobs和偏航角ψobs是固定的,声呐测得障碍物上一帧坐标系位置为(x1,y1,z1),障碍物当前帧位置为(xobs,yobs,zobs),则障碍物航行的速度为:
Figure BDA0003762576740000071
偏航角为:
ψobs=arctan((y1-yobs)/(x1-xobs))
俯仰角为:
Figure BDA0003762576740000072
据此可以判断出障碍物的动态信息;
存储以上信息,形成障碍物、AUV和目标位置的绝对坐标三维地图。构建碰撞预估模型,首先计算碰撞距离。
假设AUV当前帧的位置为(xauv,yauv,zauv),在完成一个step航行动作后坐标的移动量为(Δxauv,Δyauv,Δzauv),即完成一个step航行动作后AUV的位置为(xauv+Δxauv,yauv+Δyauv,zauv+Δzauv),AUV完成一个step航行动作所需时间为Δt秒(Δt为毫秒量级);
障碍物经过Δt秒后在X轴移动量为:Δxobs=vobsΔtcosθobscosψobs
在Y轴移动量为:Δyobs=vobsΔtcosθobssinψobs
在Z轴移动量为:Δzobs=vobsΔtsinθobs
即Δt秒后障碍物的坐标为(xobs+Δxobs,yobs+Δyobs,zobs+Δzobs);
则经过Δt秒后,AUV与障碍物之间的距离为:
Figure BDA0003762576740000081
根据dist进行障碍物距离评分,得到障碍物距离奖励RΔt。本发明设定安全距离为5米、一般距离为3.5米、危险距离为2米,则AUV障碍物距离奖励RΔt为:
Figure BDA0003762576740000082
AUV动态避障是一个连续的过程,当前step采取的航行动作会在很大程度上影响下一个动作,所以只关注于当前动作产生的效果往往不能顾全大局,影响整体的避障效果;
同时考虑到物体运动的惯性,AUV和动态障碍物都不太可能在很短的几十个Δt秒内改变自身原有的速度和航向。所以不妨假设AUV在接下来的几十个step都采取当前的航行动作,预估惯性运动带来的影响,从而计算一段整体的AUV障碍物距离奖励GmΔt
Figure BDA0003762576740000091
/>
Figure BDA0003762576740000092
式中,GmΔt为m个step获得的总和障碍物距离奖励;RnΔt为第n个step(即n个Δt秒后)的障碍物距离奖励;γ为衰减因子,介于(0,1)之间,因为越近的RΔt对算法影响更为重要,而越远的RΔt因为其预估性使得准确度逐渐降低,γ的加入可以使碰撞预估模型的目光既不短浅也不会过于长远;
本发明考虑到AUV的计算性能,经过仿真实验模拟,最终取m=30,γ=0.95,即:
Figure BDA0003762576740000093
本发明的碰撞预估模型分为4个等级,分别是A(安全)、B(较小碰撞风险)、C(较大碰撞风险)、D(极度危险),将G30Δt代入以下公式得到AUV对此障碍物的碰撞预估评级Sq
Figure BDA0003762576740000094
假设在同一帧声呐图像上识别到了q个障碍物,对这q个障碍物重复以上步骤,得到碰撞预估集S:
S={S1,S2,S3,…,Sq}
上述S4中,为了训练基于近端策略优化算法的深度强化学习网络模型,本发明采用基于Python开发的物理引擎PyBullet进行仿真环境搭建。
基本参数设置如下:
状态空间定义为:st=(xauv,yauv,zauv,distend,step,S),其中(xauv,yauv,zauv)为AUV当前帧的位置,distend为AUV和目标位置间的距离,step为已采取航行动作的步数,S为碰撞预估集。
为了加快网络模型收敛的速度,动作空间由11个离散的动作组成:at=(a0,a1,a2,…,a10)。其中a0为静止不动,a1、a2、a3、a4分别为向+X轴、+Y轴、-X轴、-Y轴方向前进0.1m,a5、a6、a7、a8分别为向+X轴偏+Y轴45°、+Y轴偏-X轴45°、-X轴偏-Y轴45°、-Y轴偏+X轴45°方向前进0.07m,a9、a10分别为向+Z轴和-Z轴前进0.07m;+和-表示正反向和反方向。
深度强化学习算法中,所有目标都可以通过预期累积奖励的最大化来描述。AUV可以通过与环境互动得到的反馈信号来学习正确的策略。
奖惩函数是决定深度强化学习网络模型能否成功收敛的关键。本发明的奖惩函数R主要由三部分组成,分别为distend变化奖惩R1、碰撞预估奖惩R2和到达、越界、发生碰撞奖惩R3
R1表示AUV执行一个step动作之后,如果距离目标位置比执行动作之前更近,则给予适当奖励,反之则给予惩罚;R2表示根据S里的每一个评级Sq给予碰撞预估奖惩;R3表示AUV到达目标位置则给予完成奖励,如果坐标超过划定边界或发生碰撞则给予失败惩罚。
奖惩函数设计如下:
R=R1+R2+R3
Figure BDA0003762576740000111
Figure BDA0003762576740000112
Figure BDA0003762576740000113
其中predistend表示AUV执行动作之前和目标位置间的距离。
通过碰撞预估集给予适当的安全奖励和严厉的危险动作惩罚可以使算法偏向于做出安全的避障动作。
为防止AUV一直无法到达目标位置,本发明设置了一个根据地图的大小发生变化的地图最大限制步数σ:
σ=λ*(l*w*h)
其中,l、w、h为地图的长、宽、高,λ为一个与地图复杂程度有关的参数,复杂的地图下应设置更大的λ。
当R≥30000或者R≤-10000或者step数量≥σ会直接结束本轮episode。
下面简述近端策略优化算法的原理:
近端策略优化算法的原理是将策略参数化,即πθ(a|s),利用线性函数的参数化或者神经网络来表示策略。本发明使用近端策略优化算法训练AUV过程如图2所示。
近端策略优化算法策略梯度通过计算估计量结合随机梯度上升算法来实现,更新公式为:
Figure BDA0003762576740000121
其中,θb为更新前的策略参数,θr为更新后的策略参数,α为学习率,
Figure BDA0003762576740000122
为重要性权重。J为优化目标,即在状态s下的未来奖励的期望值。
策略梯度算法最大优势是可以在连续空间中选择动作,缺点是它对步长敏感却很难选择合适的步长。近端策略优化算法通过以下公式将新旧策略网络的动作输出概率的变化范围r(θ)限制在一定区域内:
Figure BDA0003762576740000123
近端策略优化算法的目标函数表达式为:
Figure BDA0003762576740000124
Figure BDA0003762576740000125
/>
其中,ε为截断常数用来辅助设定策略更新的范围,通常设置为0.1或0.2;
Figure BDA0003762576740000126
为优势函数,Q(sr,ar)为在状态sr下采取动作ar累积奖励值,V(sr,ar)为状态估计值。当/>
Figure BDA0003762576740000127
时,说明此动作比平均动作要好,所以增大选择该动作的概率;当/>
Figure BDA0003762576740000128
时,说明此动作比平均动作要差,所以减少选择此动作的概率,但是网络得到的动作的概率分布不能差太远,因此分别在1+ε和1-ε处截断,限制策略更新的幅度。
下面简述仿真训练环境的搭建:
如图3所示,训练环境长、宽、高分别为55m、18m、14m。红线为边界线,绿线为目标位置,橙线为AUV每40个step生成的一段航行轨迹。
AUV首先要穿过三个立柱,然后穿过五个横向的静态障碍物。接着需要穿过两个左右运动和一个上下运动的动态障碍物,障碍物做匀速往返直线运动。
分别记录训练过程中每十轮获得的平均奖励和AUV每一次到达目标位置所用的步数,如图4和图5所示。随着迭代轮数的增加,在算法迭代到4000轮左右时,平均奖励已经从负值提升至0,说明近端策略优化算法已经学习到部分避障经验;在算法迭代到第5000轮时,每十轮的平均奖励基本在20000左右波动。平均奖励没能收敛在30000以上是因为算法成功率并不是百分之百,失败的尝试会拉低每十轮的平均奖励。从图5可以得出在AUV初次到达目标位置之后,所用步数逐渐下降,在到达目标位置600次之后,路径长度基本趋于稳定并维持在720步上下波动,说明近端策略优化算法基本趋于收敛状态。
图6为利用近端策略优化算法训练模型规划的路径,可以看出模型已学习到趋向目标位置和动态避障功能,路径平滑度较高。
在相同实验环境中,本发明将奖励函数分为两种情况进行对比:第一、完整的奖惩机制,即R=R1+R2+R3;第二、不使用碰撞预估模型,即R=R1+R3
图7中蓝色线表示第一种训练情况,橙色线表示第二种情况。图中可直观地看到蓝色线条在更少的迭代次数达到较优的累计奖励值,在训练4500次时平均奖励就已达到20000,而在不使用碰撞预估模型的情况下,AUV在训练5000次时平均奖励达到10000。实验结果表明增加碰撞预估模型对AUV训练更有效率,加快AUV对环境的探索。
针对更加复杂的多动态障碍物场景,分别基于DQN算法、A2C算法、TRPO算法和本发明算法模型实现AUV动态避障任务,对照在相同场景下获得的平均奖励和到达目标位置所用步数。
多动态障碍物场景由7个做往返直线运动的正方体构成,它们的航向、速度都不同。图8为在多动态障碍物环境下DQN算法、TRPO算法和本发明算法模型所获得的每十轮平均奖励,A2C算法经过多次训练尝试均陷入局部最优值而无法收敛。可以看出本发明算法相对于DQN算法和TRPO算法在前期训练过程中波动较小,三种算法均在6000轮左右开始收敛。本发明算法能够在碰撞预估模型的帮助下累积更多奖励,在训练后期每十轮平均奖励收敛在22000上下波动,而DQN算法和TRPO算法分别收敛在10000和15000,说明本发明算法模型性能高、稳定性强且具备更好的泛化能力。
图9给出了本发明算法在多动态障碍物场景避障过程图。从图中可明显看出AUV为了躲避正方体障碍物做出机动动作,始终和障碍物保持合理安全距离,在驶向目标位置的过程中完成避障任务,路径较平滑且无大幅度转向,没有过多冗余路段。
上述S5中,AUV使用自身的推进器沿着规划的路径前行,完成航行和避障动作。
本发明使用近端策略优化算法控制地图中虚拟的AUV探索避障路径,而不是直接控制真实的AUV,这样做可以使避障方法和AUV的推进系统解耦合。只要AUV的推进系统能够受控制按照地图中的路径前行,就可以使用本发明的避障方法,而不论其有几个推进器、怎样的推进方式,极大提升了算法的泛化能力。
以上实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。

Claims (1)

1.一种基于近端策略优化算法的AUV动态避障方法,其特征在于,包括以下步骤:
S1、根据三维前视声呐数据格式进行数据解析,每t秒生成一帧三维前视声呐图像,并对图像进行上伪色、降噪等处理;
数据解析,使用OpenCV处理声纳数据,使用applyColorMap创建COLORMAP_TURBO伪彩色图像;
降噪处理采用双边滤波去除噪声,结合图像的空间近端度和像素值相似度折中处理,同时考虑空域信息和灰度相似性,达到保边去噪的目的;
S2、根据声强信息对声呐图像进行障碍物检测,计算障碍物相对于AUV的位置信息,构建障碍物、AUV和目标位置的绝对坐标三维地图;
三维地图的构建,以主动航行功能开启时AUV的位置为原点(0,0,0),航向为Y轴正方向,水平垂直于航向方向向右为X轴正方向,竖直于航向方向指向水面为Z轴正方向构建三维坐标系,将根据声强信息检测到的障碍物识别框映射到地图中,并实时更新障碍物和AUV的坐标信息;
S3、比较地图中当前帧和上一帧绝对坐标发生改变的障碍物,计算此动态障碍物在t秒内的位移、平均速度和方向信息,构建碰撞预估模型;
假设障碍物在t秒内速度vobs、俯仰角θobs和偏航角ψobs是固定的,声呐测得障碍物上一帧坐标系位置为(x1,y1,z1),障碍物当前帧位置为(xobs,yobs,zobs),则障碍物航行的速度为:
Figure QLYQS_1
偏航角为:
ψobs=arctan((y1-yobs)/(x1-xobs))
俯仰角为:
Figure QLYQS_2
据此可以判断出障碍物的动态信息;存储以上信息,形成障碍物、AUV和目标位置的绝对坐标三维地图;
构建碰撞预估模型,首先计算碰撞距离;
假设AUV当前帧的位置为(xauv,yauv,zauv),在完成一个step航行动作后坐标的移动量为(Δxauv,Δyauv,Δzauv),即完成一个step航行动作后AUV的位置为(xauv+Δxauv,yauv+Δyauv,zauv+Δzauv),AUV完成一个step航行动作所需时间为Δt秒,Δt为毫秒量级;
障碍物经过Δt秒后在X轴移动量为:Δxobs=vobsΔtcosθobscosψobs
在Y轴移动量为:Δyobs=vobsΔtcosθobssinψobs
在Z轴移动量为:Δzobs=vobsΔtsinθobs
即Δt秒后障碍物的坐标为(xobs+Δxobs,yobs+Δyobs,zobs+Δzobs);
则经过Δt秒后,AUV与障碍物之间的距离为:
Figure QLYQS_3
/>
根据dist进行障碍物距离评分,得到障碍物距离奖励RΔt;
AUV动态避障是一个连续的过程,当前step采取的航行动作会在很大程度上影响下一个动作,所以只关注于当前动作产生的效果往往不能顾全大局,影响整体的避障效果;
同时考虑到物体运动的惯性,AUV和动态障碍物都不太可能在很短的几十个Δt秒内改变自身原有的速度和航向;假设AUV在接下来的几十个step都采取当前的航行动作,预估惯性运动带来的影响,从而计算一段整体的AUV障碍物距离奖励GmΔt
Figure QLYQS_4
式中,GmΔt为m个step获得的总和障碍物距离奖励;RnΔt为第n个step(即n个Δt秒后)的障碍物距离奖励;γ为衰减因子,介于(0,1)之间,因为越近的RΔt对算法影响更为重要,而越远的RΔt因为其预估性使得准确度逐渐降低,γ的加入可以使碰撞预估模型的目光既不短浅也不会过于长远;
考虑到AUV的计算性能,经过仿真实验模拟,最终取m=30,γ=0.95,即:
Figure QLYQS_5
碰撞预估模型分为4个等级,分别是A表示:安全;B表示:较小碰撞风险;C表示:较大碰撞风险;D表示:极度危险,将G30Δt代入以下公式得到AUV对此障碍物的碰撞预估评级Sq
Figure QLYQS_6
假设在同一帧声呐图像上识别到了q个障碍物,对这q个障碍物重复以上步骤,得到碰撞预估集S:
S={S1,S2,S3,...,Sq};
S4、使用训练好的近端策略优化算法,根据碰撞预估模型,控制三维地图中的虚拟AUV在t秒内向着目标位置不断前行和试错,直至探索出一条安全避开障碍物的路径;
为了训练基于近端策略优化算法的深度强化学习网络模型,采用基于Python开发的物理引擎PyBullet进行仿真环境搭建,并依靠碰撞预估集S进行动态避障训练;
S5、AUV使用自身的推进器,在t秒内按照三维地图中虚拟AUV探索的路径前行,完成航行和避障动作;重复以上步骤,直至AUV到达目标位置;
AUV使用自身的推进器沿着规划的路径前行,完成航行和避障动作。
CN202210876511.4A 2022-07-25 2022-07-25 一种基于近端策略优化算法的auv动态避障方法 Active CN115291616B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202210876511.4A CN115291616B (zh) 2022-07-25 2022-07-25 一种基于近端策略优化算法的auv动态避障方法
LU502871A LU502871B1 (en) 2022-07-25 2022-10-05 Proximal Policy Optimization Algorithm-Based Dynamic Obstacle Avoidance Method for AUVs

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210876511.4A CN115291616B (zh) 2022-07-25 2022-07-25 一种基于近端策略优化算法的auv动态避障方法

Publications (2)

Publication Number Publication Date
CN115291616A CN115291616A (zh) 2022-11-04
CN115291616B true CN115291616B (zh) 2023-05-26

Family

ID=83825106

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210876511.4A Active CN115291616B (zh) 2022-07-25 2022-07-25 一种基于近端策略优化算法的auv动态避障方法

Country Status (2)

Country Link
CN (1) CN115291616B (zh)
LU (1) LU502871B1 (zh)

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109407682B (zh) * 2018-09-29 2021-06-15 大连海洋大学 基于图像特征深度强化学习的auv管道循管方法
CN109784201B (zh) * 2018-12-24 2023-07-28 中国海洋大学 基于四维风险评估的auv动态避障方法
CN110333739B (zh) * 2019-08-21 2020-07-31 哈尔滨工程大学 一种基于强化学习的auv行为规划及动作控制方法
CN112633474B (zh) * 2020-12-20 2022-04-05 东南大学 一种重型营运车辆的后向防撞驾驶决策方法
CN112947431B (zh) * 2021-02-03 2023-06-06 海之韵(苏州)科技有限公司 一种基于强化学习的无人船路径跟踪方法
CN113176776B (zh) * 2021-03-03 2022-08-19 上海大学 基于深度强化学习的无人艇天气自适应避障方法
CN114237235B (zh) * 2021-12-02 2024-01-19 之江实验室 一种基于深度强化学习的移动机器人避障方法

Also Published As

Publication number Publication date
LU502871B1 (en) 2023-04-05
CN115291616A (zh) 2022-11-04

Similar Documents

Publication Publication Date Title
CN109540151B (zh) 一种基于强化学习的auv三维路径规划方法
CN110333739B (zh) 一种基于强化学习的auv行为规划及动作控制方法
Sun et al. Mapless motion planning system for an autonomous underwater vehicle using policy gradient-based deep reinforcement learning
CN114384920B (zh) 一种基于局部栅格地图实时构建的动态避障方法
WO2021135554A1 (zh) 一种无人车全局路径规划方法和装置
CN110007675B (zh) 一种基于行车态势图的车辆自动驾驶决策系统及基于无人机的训练集制备方法
CN109828566B (zh) 一种水面无人艇自主航行方法
CN111340868B (zh) 基于视觉深度估计的无人水下航行器自主决策控制方法
CN109784201B (zh) 基于四维风险评估的auv动态避障方法
Hadi et al. Deep reinforcement learning for adaptive path planning and control of an autonomous underwater vehicle
CN113848974B (zh) 一种基于深度强化学习的飞行器轨迹规划方法及系统
Zhou et al. Obstacle avoidance strategy for an autonomous surface vessel based on modified deep deterministic policy gradient
CN112650246B (zh) 一种船舶自主导航方法及装置
Wu et al. End-to-end sensorimotor control problems of auvs with deep reinforcement learning
WO2021097431A1 (en) Spatio-temporal-interactive networks
CN114397899A (zh) 一种仿生机器鱼三维路径跟踪控制方法及装置
CN115167447A (zh) 基于雷达图像端到端深度强化学习的无人艇智能避障方法
CN115547040A (zh) 安全势场下基于informer神经网络的驾驶行为预测方法
Zhang et al. Intelligent vector field histogram based collision avoidance method for auv
Yan et al. Communication-Aware Motion Planning of AUV in Obstacle-Dense Environment: A Binocular Vision-Based Deep Learning Method
CN109916400A (zh) 一种基于梯度下降算法与vo法相结合的无人艇避障方法
CN115291616B (zh) 一种基于近端策略优化算法的auv动态避障方法
CN117369441A (zh) 一种考虑船舶运动学和CORLEGs的自适应智能船舶路径规划方法
CN114609925B (zh) 水下探索策略模型的训练方法及仿生机器鱼水下探索方法
CN115107948B (zh) 一种高效强化学习自主船舶避碰方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant