CN113156972A - 航母甲板动态避障方法、终端设备及计算机可读存储介质 - Google Patents

航母甲板动态避障方法、终端设备及计算机可读存储介质 Download PDF

Info

Publication number
CN113156972A
CN113156972A CN202110512576.6A CN202110512576A CN113156972A CN 113156972 A CN113156972 A CN 113156972A CN 202110512576 A CN202110512576 A CN 202110512576A CN 113156972 A CN113156972 A CN 113156972A
Authority
CN
China
Prior art keywords
obstacle
dynamic
reward
carrier
aircraft
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110512576.6A
Other languages
English (en)
Inventor
薛均晓
孔祥燕
董博威
佘维
石磊
徐明亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhengzhou University
Original Assignee
Zhengzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhengzhou University filed Critical Zhengzhou University
Priority to CN202110512576.6A priority Critical patent/CN113156972A/zh
Publication of CN113156972A publication Critical patent/CN113156972A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0223Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving speed control of the vehicle
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0214Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory in accordance with safety or protection criteria, e.g. avoiding hazardous areas
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0221Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0276Control of position or course in two dimensions specially adapted to land vehicles using signals provided by a source external to the vehicle

Landscapes

  • Engineering & Computer Science (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Traffic Control Systems (AREA)

Abstract

本发明公开了一种航母甲板动态避障方法、终端设备及计算机可读存储介质;该方法构建环境状态,构建航母甲板的状态空间;预测轨迹,由状态空间和航载机的历史轨迹,获取航载机的预测轨迹;避障行进,航载机根据预测轨迹,在动作空间中选择决策动作,航载机执行选择的决策动作后,在航母甲板上避障行进;该方法结合了轨迹预测、动作决策和深度强化学习决策动作的能力,应用于高度不确定的场景。轨迹预测模块实现了动态障碍物的轨迹预测,大大降低了环境的不确定性,有效地解决了传统算法在动态环境中面临的收敛速度慢,泛化能力差等问题。利用人工势场来设计奖励值,提高学习效率,能够较快的选择最佳决策动作。

Description

航母甲板动态避障方法、终端设备及计算机可读存储介质
技术领域
本发明涉及机器人路径规划技术领域,尤其涉及一种航母甲板动态避障方法、终端设备及计算机可读存储介质。
背景技术
航母甲板路径规划和一般的路径规划问题不同,后者只强调规划时间和效率,不过多考虑高密度的情况,而前者须要将两者都重视起来。由于舰面上同时存在多个机务保障点会出现多架航载机同时出现调运的情况。因此,不仅要考虑航载机与船体和静止的航载机之间的碰撞,还要考虑动态航载机之间的碰撞。在航母甲板上,作业区域存在部分重合的情况,且没有固定的作业通道。普通的路径规划类算法处理真实环境时,处理效率和精确度较低。
发明内容
本发明主要解决的技术问题是提供一种航母甲板动态避障方法,解决航母甲板路径规划中处理效率和精确度的问题。
为解决上述技术问题,本发明采用的一个技术方案是提供一种航母甲板动态避障方法,包括步骤:构建环境状态,构建航母甲板的状态空间;预测轨迹,由状态空间和航载机的历史轨迹,获取航载机的预测轨迹;避障行进,航载机根据预测轨迹,在动作空间中选择决策动作,航载机执行选择的决策动作后,在航母甲板上避障行进。
优选的,航载机中包括有用于通过状态空间和航载机的历史轨迹,获得航载机的预测轨迹的轨迹预测模块,用于选择动作空间中的决策动作的动作选择模块,以及用于对选择的决策动作进行评价,以选择出最佳的决策动作的评价模块。
优选的,状态空间包括静止环境状态和预测环境状态;状态空间s(t)表示为:s(t):{s,u(t)};
其中:s表示静止环境状态,u(t)表示预测环境状态;
静止环境状态s表示为:
Figure BDA0003060863820000021
Figure BDA0003060863820000022
Figure BDA0003060863820000023
其中,
Figure BDA0003060863820000024
表示在t时刻航载机当前位置与目标点e之间的坐标距离,而
Figure BDA0003060863820000025
表示在t时刻航载机当前位置与各个静态障碍物之间的坐标距离,o表示障碍物的类型为静态障碍物,m为静态障碍物的总数,m大于或等于1;(xe,ye)表示目标点的坐标,
Figure BDA0003060863820000026
表示第m个静态障碍物的坐标,(xt,yt)表示在t时刻航载机当前位置坐标;
预测环境状态u(t)表示为:
Figure BDA0003060863820000027
Figure BDA0003060863820000028
其中,
Figure BDA0003060863820000029
表示在t时刻动态障碍物的预测位置与航载机当前位置之间的坐标距离;
Figure BDA00030608638200000210
表示在t时刻第n个动态障碍物的坐标,o'表示障碍物的类型为动态障碍物,n为动态障碍物的总数,(xt,yt)表示在t时刻航载机当前位置坐标。
优选的,动作空间A表示为:
A:(X,Y)
X=x*40
Y=y*40
x,y∈(-1,1)
其中:X和Y分别表示航载机在x方向和y方向上移动的距离;x,y为动作选择模块的输出的决策动作。
优选的,动作选择模块输出的决策动作输入到评价模块中,由评价模块给出决策动作的奖励值。
优选的,奖励值包括有目标引力的奖励、障碍斥力的奖励、碰撞奖励和/或到达目标的奖励。
优选的,航载机靠近目标点时,目标引力奖励r1表示为:
Figure BDA0003060863820000031
Figure BDA0003060863820000032
航载机远离目标点时,目标引力奖励r1表示为:
Figure BDA0003060863820000033
其中:
Figure BDA0003060863820000034
分别表示在t、t+1时刻航载机i与目标点e之间的距离,
Figure BDA0003060863820000035
表示t、t+1时刻航载机i与目标点的距离差,定义为目标距离差;L和l表示目标引力奖励的门限值;pt、pt+1分别表示航载机在t时刻和t+1时刻的位置,pe表示目标点e的位置。
优选的,障碍物斥力奖励包括有静态障碍物斥力奖励和动态障碍物斥力奖励;障碍物斥力奖励r2表示为:
r2=r′2+r″2
其中:r′2表示静态障碍物斥力奖励,r″2表示动态障碍物斥力奖励;
静态障碍物斥力奖励r′2表示为:
Figure BDA0003060863820000036
航载机靠近静态障碍物时,静态奖励值roj表示为:
Figure BDA0003060863820000037
航载机远离静态障碍物时,静态奖励值roj表示为:
Figure BDA0003060863820000041
Figure BDA0003060863820000042
其中:
Figure BDA0003060863820000043
分别表示在t、t+1时刻航载机i离静态障碍物j的距离,
Figure BDA0003060863820000044
表示t、t+1时刻航载机i离静态障碍物j的距离差,定义为静态障碍距离差;h和H表示障碍斥力奖励的门限值;pt、pt+1分别表示航载机在t时刻和t+1时刻的位置,poj表示静态障碍物的位置;
动态障碍物斥力奖励r″2表示为:
Figure BDA0003060863820000045
其中:ro′k表示一动态障碍物的动态奖励值,o′表示障碍物的类型为动态障碍物,k表示一动态障碍物,k∈[1,n],n为动态障碍物的总数;
航载机靠近动态障碍物时,动态奖励值ro′k表示为:
Figure BDA0003060863820000046
航载机远离动态障碍物时,动态奖励值ro′k表示为:
Figure BDA0003060863820000047
Figure BDA0003060863820000048
其中:
Figure BDA0003060863820000049
分别表示在t、t+1时刻航载机i离动态障碍物k的距离,
Figure BDA00030608638200000410
表示t、t+1时刻航载机i离动态障碍物k的距离差,定义为动态障碍距离差;h和H表示障碍斥力奖励的门限值;
Figure BDA00030608638200000411
分别表示动态障碍物在t时刻和t+1时刻的预测位置。
为解决上述技术问题,本申请采用的另一个技术方案是:提供一种终端设备,包括相互耦接的存储器和处理器,处理器用于执行存储器中存储的程序指令,以实现航母甲板动态避障方法。
为解决上述技术问题,本申请采用的另一个技术方案是:提供一种计算机可读存储介质,其上存储有程序指令,程序指令被处理器执行时实现航母甲板动态避障方法。
本发明的有益效果是:本发明公开了一种航母甲板动态避障方法。该方法结合了轨迹预测、动作决策和深度强化学习决策动作的能力,应用于高度不确定的场景。轨迹预测模块实现了动态障碍物的轨迹预测,大大降低了环境的不确定性,有效地解决了传统算法在动态环境中面临的收敛速度慢,泛化能力差等问题。适用于解决连续状态空间的问题,该问题更符合真实场景。利用人工势场(障碍和目标分别对航载机施加排斥和吸引)的来设计奖励值,提高学习效率,使动作选择模块能够较快的选择最佳决策动作。
附图说明
图1是根据本发明航母甲板动态避障方法一实施例的流程图;
图2是根据本发明航母甲板动态避障方法一实施例的场景1中准确率的对比示意图;
图3是根据本发明航母甲板动态避障方法一实施例的场景2中准确率的对比示意图;
图4是根据本发明航母甲板动态避障方法一实施例的场景1中平均奖励值的对比示意图;
图5是根据本发明航母甲板动态避障方法一实施例的场景2中平均奖励值的对比示意图;
图6是本申请提供的终端设备一实施例的框架示意图;
图7是本申请提供的计算机可读存储介质一实施例的框架示意图。
具体实施方式
为了便于理解本发明,下面结合附图和具体实施例,对本发明进行更详细的说明。附图中给出了本发明的较佳的实施例。但是,本发明可以以许多不同的形式来实现,并不限于本说明书所描述的实施例。相反地,提供这些实施例的目的是使对本发明的公开内容的理解更加透彻全面。
需要说明的是,除非另有定义,本说明书所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是用于限值本发明。本说明书所使用的术语“和/或”包括一个或多个相关的所列项目的任意的和所有的组合。
图1显示了本发明航母甲板动态避障方法的实施例,包括:
步骤S1.构建环境状态,构建航母甲板的状态空间;
步骤S2.预测轨迹,由状态空间和航载机的历史轨迹,获取航载机的预测轨迹;
步骤S3.避障行进,航载机根据预测轨迹,在动作空间中选择决策动作,航载机执行选择的决策动作后,在航母甲板上避障行进。
进一步的,航载机中包括有轨迹预测模块、动作选择模块和/或评价模块。
轨迹预测模块用于通过状态空间和航载机的历史轨迹获得航载机的预测轨迹。
动作选择模块用于选择动作空间中的决策动作,航载机执行选择的决策动作后,可在航母甲板上避障行进。
评价模块用于对选择的决策动作进行评价,优化对决策动作的选择,以选择出最佳的决策动作。
优选的,状态空间为航载机在进行执行决策动作之前获得的环境信息,用于帮助航载机评估环境情况,实时做出决策动作。
进一步的,环境信息中包括有障碍物,障碍物分为动态障碍物和静态障碍物。静态障碍物指航载机在寻径的过程中,一直静止在初始位置上的障碍物。动态障碍物指在航载机寻径的过程中会发生运动的障碍物(正在或即将做任务的其他航载机)。
优选的,为了使航载机更好地了解不断变化的环境,状态空间包括静止环境状态和预测环境状态。状态空间s(t)表示为:s(t):{s,u(t)}。
其中:s表示静止环境状态,u(t)表示预测环境状态。
静止环境状态描述当前环境中静止的障碍物和目标点对航载机的影响。静止环境状态s表示为:
Figure BDA0003060863820000071
Figure BDA0003060863820000072
Figure BDA0003060863820000073
其中,
Figure BDA0003060863820000074
表示在t时刻航载机当前位置与目标点e之间的坐标距离,而
Figure BDA0003060863820000075
表示在t时刻航载机当前位置与各个静态障碍物之间的坐标距离,o表示障碍物的类型为静态障碍物,m为静态障碍物的总数,m大于或等于1;(xe,ye)表示目标点的坐标,
Figure BDA0003060863820000076
表示第m个静态障碍物的坐标,(xt,yt)表示在t时刻航载机当前位置坐标。
优选的,动态障碍物的历史轨迹x(t)表示为:
Figure BDA0003060863820000077
其中:
Figure BDA0003060863820000078
表示动态障碍物n在t时刻的位置,o′表示障碍物的类型为动态障碍物,n为动态障碍物的总数。N为已行进时刻的总数。
将静止环境状态s和动态障碍物的历史轨迹x(t)输入到轨迹预测模块,由轨迹预测模块计算获得动态障碍物的预测轨迹。
优选的,动态障碍物的预测轨迹y(t)表示为:
Figure BDA0003060863820000079
进一步的,根据动态障碍物的预测轨迹和当前航载机的位置获得预测环境状态。
预测环境状态描述当前环境中动态障碍物预测位置和目标点对航载机的影响。预测环境状态u(t)表示为:
Figure BDA00030608638200000710
Figure BDA00030608638200000711
其中,
Figure BDA00030608638200000712
表示在t时刻动态障碍物的预测位置与航载机当前位置之间的坐标距离;
Figure BDA00030608638200000713
表示在t时刻第n个动态障碍物的坐标,o'表示障碍物的类型为动态障碍物,n为动态障碍物的总数,(xt,yt)表示在t时刻航载机当前位置坐标。
航载机的动作空间表示航载机根据状态空间决定要执行的决策动作。
优选的,动作空间A设置为:
A:(X,Y)
X=x*40
Y=y*40
x,y∈(-1,1)
其中:X和Y分别表示航载机在x方向和y方向上移动的距离。x,y为动作选择模块的输出的决策动作a。可以表示为:a:(x,y)。
进一步的,由评价模块对选择的决策动作进行评价,以选择出最佳的决策动作。
动作选择模块输出的动作输入到评价模块中,由评价模块给出决策动作的奖励值R。
航载机执行选择的决策动作a:(x,y)后,静止环境状态s随着改变,即静止环境状态s改变为更新静止环境状态s_。动态障碍物的历史轨迹x(t)也随着改变,即历史轨迹x(t)改变为更新历史轨迹x_(t+1);将动态障碍物的历史轨迹x_(t+1)和更新静止环境状态s_再次输入给轨迹预测模块获得更新预测环境状态u_(t+1),由更新静止环境状态s_和更新预测环境状态u_(t+1)组成新的环境状态s_(t+1)。
将(s(t),a,R,s_(t+1))输入到评价模块中,由评价模块输出决策动作的Q值,Q值越大,说明选择的决策动作越佳。
进一步的,将(s(t),a,R,s_(t+1))存储在经验回访池中。从经验回访池中采样N个样本,然后根据当前的目标Q值更新评价模块的损失函数。同时,通过策略梯度的方法来更新选择动作空间的梯度策略。从而使选择的决策动作达到最佳。
评价模块中的奖励值(用于航载机学习的反馈信号)用于评估航载机执行的决策动作。奖励值设置的好坏决定了航载机最终是否能学到期望的技能,并直接影响评价模块的收敛速度和最终性能。其中最简单的方法是设置稀疏奖励,只有完成任务,航载机才能获得正回报。但是,此方法无法收集有用的经验数据以帮助航载机学习。因此,评价模块更新的收敛速度很慢,并且航载机无法学习最佳策略。
为了解决上述技术问题,本发明中利用人工势场(障碍和目标分别对航载机施加排斥和吸引)的来设计奖励值。
优选的,奖励值R包括四类,分别为:(1)目标引力的奖励,(2)障碍斥力的奖励,(3)碰撞奖励,(4)到达目标的奖励。
奖励值R表示为:
R=λ1*r12*r23*r34*r4
其中,λ1、λ2、λ3、λ4分别代表目标引力的奖励,障碍斥力的奖励,碰撞奖励,到达目标的奖励的权重,r1为目标引力奖励,r2为障碍物斥力奖励,r3为碰撞奖励,r4为到达目标的奖励。
目标引力奖励是指目标点对航载机产生引力所产生的势场。
优选的,当航载机靠近目标点时,目标引力奖励r1表示为:
Figure BDA0003060863820000091
Figure BDA0003060863820000092
其中:
Figure BDA0003060863820000093
分别表示在t、t+1时刻航载机i与目标点之间的距离,
Figure BDA0003060863820000094
表示t、t+1时刻航载机i与目标点e的距离差,定义为目标距离差。L和l表示目标引力奖励的门限值。pt、pt+1分别表示航载机在t时刻和t+1时刻的位置,pe表示目标点的位置。目标距离差的值大于或等于L时,目标引力奖励为L;目标距离差的值大于l小于L时,目标引力奖励为目标距离差;目标距离差的值小于或等于l时,目标引力奖励为l。
当航载机远离目标点时,目标引力奖励r1表示为:
Figure BDA0003060863820000095
其中:目标距离差的值大于或等于-l时,目标引力奖励为-l;目标距离差的值大于-L小于-l时,目标引力奖励为目标距离差;目标距离差的值小于或等于-L时,目标引力奖励为-L。
障碍物斥力奖励是指障碍物对航载机产生斥力所产生的势场。
优选的,障碍物斥力奖励包括有静态障碍物斥力奖励和动态障碍物斥力奖励。
静态障碍物斥力奖励为所有静态障碍物对航载机产生斥力所产生的势场。
动态障碍物斥力奖励为所有动态障碍物对航载机产生斥力所产生的势场。
优选的,障碍物斥力奖励r2表示为:
r2=r′2+r″2
其中:r′2静态障碍物斥力奖励,r″2动态障碍物斥力奖励。
优选的,静态障碍物斥力奖励r′2表示为:
Figure BDA0003060863820000101
其中:roj表示一静态障碍物的静态奖励值,o表示障碍物的类型为静态障碍物,j表示一静态障碍物,j∈[1,m],m为静态障碍物的总数。
当航载机靠近静态障碍物时,静态奖励值roj表示为:
Figure BDA0003060863820000102
Figure BDA0003060863820000103
其中:
Figure BDA0003060863820000104
分别表示在t、t+1时刻航载机i离静态障碍物j的距离,
Figure BDA0003060863820000105
表示t、t+1时刻航载机i离静态障碍物j的距离差,定义为静态障碍距离差;h和H表示障碍斥力奖励的门限值。静态障碍距离差的值大于或等于H时,静态奖励值为H;障碍距离差的值大于h小于H时,静态奖励值为障碍距离差;静态障碍距离差的值小于或等于h时,静态奖励值为h。
pt、pt+1分别表示航载机在t时刻和t+1时刻的位置,poj表示静态障碍物的位置。
优选的,当航载机远离静态障碍物时,静态奖励值roj表示为:
Figure BDA0003060863820000111
即:静态障碍距离差的值大于或等于-h时,静态奖励值为-h;障碍距离差的值大于-H小于-h时,静态奖励值为障碍距离差;静态障碍距离差的值小于或等于-H时,静态奖励值为-H。
优选的,动态障碍物斥力奖励r″2表示为:
Figure BDA0003060863820000112
其中:ro′k表示一动态障碍物的动态奖励值,o′表示障碍物的类型为动态障碍物,k表示一动态障碍物,k∈[1,n],n为动态障碍物的总数。
当航载机靠近动态障碍物时,动态奖励值ro′k表示为:
Figure BDA0003060863820000113
Figure BDA0003060863820000114
其中:
Figure BDA0003060863820000115
分别表示在t、t+1时刻航载机i离动态障碍物k的距离,
Figure BDA0003060863820000116
表示t、t+1时刻航载机i离动态障碍物k的距离差,定义为动态障碍距离差;h和H表示障碍斥力奖励的门限值。动态障碍距离差的值大于或等于H时,动态奖励值为H;障碍距离差的值大于h小于H时,动态奖励值为障碍距离差;动态障碍距离差的值小于或等于h时,动态奖励值为h。
Figure BDA0003060863820000117
分别表示动态障碍物在t时刻和t+1时刻的预测位置。
当航载机远离动态障碍物时,动态奖励值ro′k表示为:
Figure BDA0003060863820000118
即:动态障碍距离差的值大于或等于-h时,动态奖励值为-h;障碍距离差的值大于-H小于-h时,动态奖励值为障碍距离差;动态障碍距离差的值小于或等于-H时,动态奖励值为-H。
优选的,碰撞奖励r3,当
Figure BDA0003060863820000124
时,碰撞奖励r3=-50。
其中:
Figure BDA0003060863820000125
表示存在D<d,
Figure BDA0003060863820000121
表示航载机和障碍物之间的真实距离;z表示障碍物的总数,包括动态障碍物和静态障碍物。d表示航载机和障碍物之间的安全距离;pt表示航载机t时刻的位置;
Figure BDA0003060863820000122
表示障碍物z在t时刻的位置。
优选的,到达目标的奖励r4,当pt=pe时,r4=200。
其中:pt表示航载机当前位置,pe表示目标点的位置。
由此可见,本发明公开了一种航母甲板动态避障方法。该方法结合了轨迹预测、动作决策和深度强化学习决策动作的能力,应用于高度不确定的场景。轨迹预测模块实现了动态障碍物的轨迹预测,大大降低了环境的不确定性,有效地解决了传统算法在动态环境中面临的收敛速度慢,泛化能力差等问题。适用于解决连续状态空间的问题,该问题更符合真实场景。利用人工势场(障碍和目标分别对航载机施加排斥和吸引)的思想来设计奖励值,提高学习效率,使动作选择模块能够较快的选择最佳决策动作。
为了验证本发明在大量动态障碍物中仍能保持较高的准确率,通过增加动态障碍物来设置2个实验场景,在场景1中,设置5个动态障碍物和15个静态障碍物,在场景2中,设置9个动态障碍物和15个静态障碍物。从准确率、路径长度、平均奖励值、平均转弯角度这4个方面和DDPG(深度确定性策略梯度算法),DQN(强化学习算法)和A2C(并行学习算法)进行比较。
(1)准确率指航载机不碰到任何障碍物的情况下从起点到达目的地的概率,准确率越高算法越有效,准确率Tr具体计算如下式所示,
Figure BDA0003060863820000123
其中:当航载机无碰撞到达终点时,f为1,否则为0。
(2)路径长度是直接反应算法质量的重要评价指标,为了避免算法偶然性带来的误差,随机抽取100组数据计算其平均路径长度。
(3)平均奖励值rt是一个标量反馈信号,其衡量智能体在时刻t所执行动作a的表现。每100步计算一次平均奖励值,平均奖励值越高表示航载机选择的路线越短越合理。
(4)转弯角度是指航载机在一次无碰撞轨迹中转过的角度之和。随机抽取100组无碰撞轨迹计算平均转弯角度。
首先比较了两个场景中不同算法的准确率。如表1所示,随机抽样100组准确率计算平均值,在场景1中,本发明算法的平均准确率为98%,DDPG和DQN算法分别为92%、90%。而A2C算法的准确率最低只有67%。与DDPG、DQN和A2C相比,本发明的准确率分别增加了6%、8%和31%。如图2和图3所示,DDPG和本发明的准确率都可以达到100%,但本发明达到100%的次数最多且最稳定。而A2C和DQN算法的准确率较低,且A2C算法的稳定性最差。如表1所示,在场景2中,四种算法的准确率均有所下降,但本发明的准确率仍然最高,且可以达到91%。
表1准确率
Figure BDA0003060863820000131
为了比较四种算法的学习效果,比较了四种算法的平均奖励值。如图4场景1中四种算法的平均奖励值所示,由于A2C算法难收敛,其平均奖励值只能稳定在100左右,而其他算法都能达到150。
如图5所示场景2中,相比于本发明,DDPG的平均奖励值更不稳定,即DDPG在没有预测的情况下学习效果较差。DQN和本发明的平均奖励值都稳定在150左右,而本发明具有更高的稳定性。对比各个算法,本发明的平均奖励值最高且最稳定,因此具有最佳的学习效果。
在航母甲板上中,找到一条平滑的最优或次优的路径不仅可以减少资源消耗,缩短规划时间而且还可以提高任务调度的效率。因此比较各个算法的平均路径长度和平均转弯角度。如表2平均路经长度和表3平均转弯角度所示,场景1和场景2中四种算法的平均路径长度和平均转弯角度差距不大。对比四种算法,A2C、DDPG和本发明规划的路径长度和平均转弯角度基本相似。由于DQN只能处理离散动作,DQN所规划的路径的平均路径长度最长且平均转弯角度最大。
表2平均路经长度
Figure BDA0003060863820000141
表3平均转弯角度
Figure BDA0003060863820000142
其结果表明,本发明与其他算法相比,本发明在精度上提高了7%-30%;与DQN相比,本发明在路径长度和转弯角度方面分别减少了100个单位和400-450度。
请参阅图6,图6是本申请提供的终端设备另一实施例的框架示意图。终端设备60包括相互耦接的存储器61和处理器62,处理器62用于执行存储器61中存储的程序指令,以实现上述任一航母甲板动态避障方法实施例的步骤。
具体而言,处理器62用于控制其自身以及存储器61以实现上述任一航母甲板动态避障方法实施例的步骤。处理器62还可以称为CPU(Central Processing Unit,中央处理单元)。处理器62可能是一种集成电路芯片,具有信号的处理能力。处理器62还可以是通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(ApplicationSpecific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable GateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外,处理器62可以由集成电路芯片共同实现。
请参阅图7,图7是本申请提供的计算机可读存储介质一实施例的框架示意图。计算机可读存储介质70存储有能够被处理器运行的程序指令701,程序指令701用于实现上述任一航母甲板动态避障方法实施例的步骤。
在一些实施例中,本公开实施例提供的装置具有的功能或包含的模块可以用于执行上文方法实施例描述的方法,其具体实现可以参照上文方法实施例的描述,为了简洁,这里不再赘述。
上文对各个实施例的描述倾向于强调各个实施例之间的不同之处,其相同或相似之处可以互相参考,为了简洁,本文不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的方法和装置,可以通过其它的方式实现。例如,以上所描述的装置实施方式仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性、机械或其它的形式。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上仅为本发明的实施例,并非因此限值本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种航母甲板动态避障方法,其特征在于,包括步骤:
构建环境状态,构建航母甲板的状态空间;
预测轨迹,由所述状态空间和航载机的历史轨迹,获取所述航载机的预测轨迹;
避障行进,所述航载机根据所述预测轨迹,在动作空间中选择决策动作,所述航载机执行选择的所述决策动作后,在所述航母甲板上避障行进。
2.根据权利要求1所述的航母甲板动态避障方法,其特征在于,所述航载机中包括有用于通过所述状态空间和所述航载机的历史轨迹,获得所述航载机的预测轨迹的轨迹预测模块,用于选择所述动作空间中的决策动作的动作选择模块,以及用于对选择的所述决策动作进行评价,以选择出最佳的所述决策动作的评价模块。
3.根据权利要求2所述的航母甲板动态避障方法,其特征在于,所述状态空间包括静止环境状态和预测环境状态;状态空间s(t)表示为:s(t):{s,u(t)};
其中:s表示所述静止环境状态,u(t)表示所述预测环境状态;
所述静止环境状态s表示为:
Figure FDA0003060863810000011
Figure FDA0003060863810000012
Figure FDA0003060863810000013
其中,
Figure FDA0003060863810000014
表示在t时刻所述航载机当前位置与目标点e之间的坐标距离,而
Figure FDA0003060863810000015
表示在t时刻所述航载机当前位置与各个所述静态障碍物之间的坐标距离,o表示障碍物的类型为静态障碍物,m为所述静态障碍物的总数,m大于或等于1;(xe,ye)表示目标点的坐标,
Figure FDA0003060863810000016
表示第m个所述静态障碍物的坐标,(xt,yt)表示在t时刻所述航载机当前位置坐标;
所述预测环境状态u(t)表示为:
Figure FDA0003060863810000017
Figure FDA0003060863810000018
其中,
Figure FDA0003060863810000019
表示在t时刻所述动态障碍物的预测位置与所述航载机当前位置之间的坐标距离;
Figure FDA0003060863810000021
表示在t时刻第n个动态障碍物的坐标,o'表示障碍物的类型为动态障碍物,n为所述动态障碍物的总数,(xt,yt)表示在t时刻所述航载机当前位置坐标。
4.根据权利要求3所述的航母甲板动态避障方法,其特征在于,所述动作空间A表示为:
A:(X,Y)
X=x*40
Y=y*40
x,y∈(-1,1)
其中:X和Y分别表示所述航载机在x方向和y方向上移动的距离;x,y为所述动作选择模块的输出的所述决策动作。
5.根据权利要求4所述的航母甲板动态避障方法,其特征在于,所述动作选择模块输出的所述决策动作输入到所述评价模块中,由所述评价模块给出所述决策动作的奖励值。
6.根据权利要求5所述的航母甲板动态避障方法,其特征在于,所述奖励值包括有目标引力的奖励、障碍斥力的奖励、碰撞奖励和/或到达目标的奖励。
7.根据权利要求6所述的航母甲板动态避障方法,其特征在于,所述航载机靠近目标点时,所述目标引力奖励r1表示为:
Figure FDA0003060863810000022
Figure FDA0003060863810000023
所述航载机远离目标点时,所述目标引力奖励r1表示为:
Figure FDA0003060863810000024
其中:
Figure FDA0003060863810000025
分别表示在t、t+1时刻所述航载机i与所述目标点e之间的距离,
Figure FDA0003060863810000026
表示t、t+1时刻所述航载机i与所述目标点e的距离差,定义为目标距离差;L和l表示所述目标引力奖励的门限值;pt、pt+1分别表示所述航载机在t时刻和t+1时刻的位置,pe表示所述目标点e的位置。
8.根据权利要求6所述的航母甲板动态避障方法,其特征在于,所述障碍物斥力奖励包括有静态障碍物斥力奖励和动态障碍物斥力奖励;所述障碍物斥力奖励r2表示为:
r2=r′2+r″2
其中:r′2表示静态障碍物斥力奖励,r″2表示动态障碍物斥力奖励;
所述静态障碍物斥力奖励r′2表示为:
Figure FDA0003060863810000031
所述航载机靠近所述静态障碍物时,所述静态奖励值roj表示为:
Figure FDA0003060863810000032
所述航载机远离所述静态障碍物时,所述静态奖励值roj表示为:
Figure FDA0003060863810000033
Figure FDA0003060863810000034
其中:
Figure FDA0003060863810000035
分别表示在t、t+1时刻所述航载机i离所述静态障碍物j的距离,
Figure FDA0003060863810000036
表示t、t+1时刻所述航载机i离所述静态障碍物j的距离差,定义为静态障碍距离差;h和H表示所述障碍斥力奖励的门限值;pt、pt+1分别表示所述航载机在t时刻和t+1时刻的位置,poj表示所述静态障碍物的位置;
所述动态障碍物斥力奖励r″2表示为:
Figure FDA0003060863810000037
其中:ro′k表示一所述动态障碍物的动态奖励值,o′表示障碍物的类型为动态障碍物,k表示一动态障碍物,k∈[1,n],n为所述动态障碍物的总数;
所述航载机靠近所述动态障碍物时,所述动态奖励值ro′k表示为:
Figure FDA0003060863810000041
所述航载机远离所述动态障碍物时,所述动态奖励值ro′k表示为:
Figure FDA0003060863810000042
Figure FDA0003060863810000043
其中:
Figure FDA0003060863810000044
分别表示在t、t+1时刻所述航载机i离所述动态障碍物k的距离,
Figure FDA0003060863810000045
表示t、t+1时刻所述航载机i离所述动态障碍物k的距离差,定义为动态障碍距离差;h和H表示所述障碍斥力奖励的门限值;
Figure FDA0003060863810000046
分别表示所述动态障碍物在t时刻和t+1时刻的预测位置。
9.一种终端设备,其特征在于,包括相互耦接的存储器和处理器,所述处理器用于执行所述存储器中存储的程序指令,以实现权利要求1至8任一项所述的航母甲板动态避障方法。
10.一种计算机可读存储介质,其上存储有程序指令,其特征在于,所述程序指令被处理器执行时实现权利要求1至8任一项所述的航母甲板动态避障方法。
CN202110512576.6A 2021-05-11 2021-05-11 航母甲板动态避障方法、终端设备及计算机可读存储介质 Pending CN113156972A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110512576.6A CN113156972A (zh) 2021-05-11 2021-05-11 航母甲板动态避障方法、终端设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110512576.6A CN113156972A (zh) 2021-05-11 2021-05-11 航母甲板动态避障方法、终端设备及计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN113156972A true CN113156972A (zh) 2021-07-23

Family

ID=76874412

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110512576.6A Pending CN113156972A (zh) 2021-05-11 2021-05-11 航母甲板动态避障方法、终端设备及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN113156972A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190122570A1 (en) * 2017-10-20 2019-04-25 Thales Method for determining endpoint(s) for deciding to trigger evasive maneuver by an aircraft, associated device and computer program
CN110703799A (zh) * 2019-10-28 2020-01-17 大连理工大学 基于集中式最优控制的多舰载机协同甲板面滑行轨迹规划方法
CN110781614A (zh) * 2019-12-06 2020-02-11 北京工业大学 基于深度强化学习的舰载机出动回收在线调度方法
CN110969287A (zh) * 2019-11-07 2020-04-07 郑州大学 一种舰载机导引路径规划方法
CN111027143A (zh) * 2019-12-18 2020-04-17 四川大学 一种基于深度强化学习的舰载机进近引导方法
CN112666939A (zh) * 2020-12-09 2021-04-16 深圳先进技术研究院 一种基于深度强化学习的机器人路径规划算法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190122570A1 (en) * 2017-10-20 2019-04-25 Thales Method for determining endpoint(s) for deciding to trigger evasive maneuver by an aircraft, associated device and computer program
CN110703799A (zh) * 2019-10-28 2020-01-17 大连理工大学 基于集中式最优控制的多舰载机协同甲板面滑行轨迹规划方法
CN110969287A (zh) * 2019-11-07 2020-04-07 郑州大学 一种舰载机导引路径规划方法
CN110781614A (zh) * 2019-12-06 2020-02-11 北京工业大学 基于深度强化学习的舰载机出动回收在线调度方法
CN111027143A (zh) * 2019-12-18 2020-04-17 四川大学 一种基于深度强化学习的舰载机进近引导方法
CN112666939A (zh) * 2020-12-09 2021-04-16 深圳先进技术研究院 一种基于深度强化学习的机器人路径规划算法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JUNXIAO XUE: "Multi-Agent Path Planning based on MPC and DDPG", 《JOURNALOFL AT EXCLASSFILES》 *
吴昭欣等: "基于深度强化学习的智能仿真平台设计", 《战术导弹技术》 *

Similar Documents

Publication Publication Date Title
Huang et al. Multi-modal motion prediction with transformer-based neural network for autonomous driving
Zhao et al. Tnt: Target-driven trajectory prediction
CN113110592B (zh) 一种无人机避障与路径规划方法
Liu et al. A survey on deep-learning approaches for vehicle trajectory prediction in autonomous driving
Liu et al. Mapper: Multi-agent path planning with evolutionary reinforcement learning in mixed dynamic environments
CN110083165B (zh) 一种机器人在复杂狭窄环境下路径规划方法
CN110134140B (zh) 一种环境信息未知连续状态下基于势函数奖赏dqn的无人机路径规划方法
Hug et al. Particle-based pedestrian path prediction using LSTM-MDL models
Zhang et al. A systematic solution of human driving behavior modeling and simulation for automated vehicle studies
Yang et al. Continual learning-based trajectory prediction with memory augmented networks
CN114740846A (zh) 面向拓扑-栅格-度量混合地图的分层路径规划方法
Yu et al. Hybrid attention-oriented experience replay for deep reinforcement learning and its application to a multi-robot cooperative hunting problem
CN113139696B (zh) 一种轨迹预测模型构建方法及轨迹预测方法、装置
JP2014502393A (ja) 判定方法及び判定装置
CN116628448B (zh) 扩展目标中基于深度强化学习的传感器管理方法
Yang et al. Autonomous UAV navigation in dynamic environments with double deep Q-networks
Xu et al. Context-aware timewise vaes for real-time vehicle trajectory prediction
Hallgarten et al. Stay on track: A frenet wrapper to overcome off-road trajectories in vehicle motion prediction
Yang et al. Path Planning Algorithm for Unmanned Surface Vessel Based on Multiobjective Reinforcement Learning
CN113156972A (zh) 航母甲板动态避障方法、终端设备及计算机可读存储介质
Zhou et al. Sa-sgan: A vehicle trajectory prediction model based on generative adversarial networks
CN116774726A (zh) 一种基于状态熵与动作熵的无人机路径规划方法
Keong et al. Reinforcement learning for autonomous aircraft avoidance
CN114995400A (zh) 基于混合微粒群算法的移动机器人路径规划方法及系统
Queißer et al. Bootstrapping of parameterized skills through hybrid optimization in task and policy spaces

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210723