CN113156972A

CN113156972A - 航母甲板动态避障方法、终端设备及计算机可读存储介质

Info

Publication number: CN113156972A
Application number: CN202110512576.6A
Authority: CN
Inventors: 薛均晓; 孔祥燕; 董博威; 佘维; 石磊; 徐明亮
Original assignee: Zhengzhou University
Current assignee: Zhengzhou University
Priority date: 2021-05-11
Filing date: 2021-05-11
Publication date: 2021-07-23

Abstract

本发明公开了一种航母甲板动态避障方法、终端设备及计算机可读存储介质；该方法构建环境状态，构建航母甲板的状态空间；预测轨迹，由状态空间和航载机的历史轨迹，获取航载机的预测轨迹；避障行进，航载机根据预测轨迹，在动作空间中选择决策动作，航载机执行选择的决策动作后，在航母甲板上避障行进；该方法结合了轨迹预测、动作决策和深度强化学习决策动作的能力,应用于高度不确定的场景。轨迹预测模块实现了动态障碍物的轨迹预测,大大降低了环境的不确定性,有效地解决了传统算法在动态环境中面临的收敛速度慢,泛化能力差等问题。利用人工势场来设计奖励值，提高学习效率,能够较快的选择最佳决策动作。

Description

航母甲板动态避障方法、终端设备及计算机可读存储介质

技术领域

本发明涉及机器人路径规划技术领域，尤其涉及一种航母甲板动态避障方法、终端设备及计算机可读存储介质。

背景技术

航母甲板路径规划和一般的路径规划问题不同,后者只强调规划时间和效率,不过多考虑高密度的情况,而前者须要将两者都重视起来。由于舰面上同时存在多个机务保障点会出现多架航载机同时出现调运的情况。因此,不仅要考虑航载机与船体和静止的航载机之间的碰撞,还要考虑动态航载机之间的碰撞。在航母甲板上,作业区域存在部分重合的情况,且没有固定的作业通道。普通的路径规划类算法处理真实环境时,处理效率和精确度较低。

发明内容

本发明主要解决的技术问题是提供一种航母甲板动态避障方法，解决航母甲板路径规划中处理效率和精确度的问题。

为解决上述技术问题，本发明采用的一个技术方案是提供一种航母甲板动态避障方法，包括步骤：构建环境状态，构建航母甲板的状态空间；预测轨迹，由状态空间和航载机的历史轨迹，获取航载机的预测轨迹；避障行进，航载机根据预测轨迹，在动作空间中选择决策动作，航载机执行选择的决策动作后，在航母甲板上避障行进。

优选的，航载机中包括有用于通过状态空间和航载机的历史轨迹,获得航载机的预测轨迹的轨迹预测模块,用于选择动作空间中的决策动作的动作选择模块,以及用于对选择的决策动作进行评价，以选择出最佳的决策动作的评价模块。

优选的，状态空间包括静止环境状态和预测环境状态；状态空间s(t)表示为：s(t):{s,u(t)}；

其中：s表示静止环境状态，u(t)表示预测环境状态；

静止环境状态s表示为：

其中,

表示在t时刻航载机当前位置与目标点e之间的坐标距离,而

表示在t时刻航载机当前位置与各个静态障碍物之间的坐标距离,o表示障碍物的类型为静态障碍物，m为静态障碍物的总数，m大于或等于1；(x_e,y_e)表示目标点的坐标,

表示第m个静态障碍物的坐标,(x^t,y^t)表示在t时刻航载机当前位置坐标；

预测环境状态u(t)表示为:

其中,

表示在t时刻动态障碍物的预测位置与航载机当前位置之间的坐标距离；

表示在t时刻第n个动态障碍物的坐标,o'表示障碍物的类型为动态障碍物，n为动态障碍物的总数，(x^t,y^t)表示在t时刻航载机当前位置坐标。

优选的，动作空间A表示为：

A:(X,Y)

X＝x*40

Y＝y*40

x,y∈(-1,1)

其中：X和Y分别表示航载机在x方向和y方向上移动的距离；x,y为动作选择模块的输出的决策动作。

优选的，动作选择模块输出的决策动作输入到评价模块中，由评价模块给出决策动作的奖励值。

优选的，奖励值包括有目标引力的奖励、障碍斥力的奖励、碰撞奖励和/或到达目标的奖励。

优选的，航载机靠近目标点时，目标引力奖励r₁表示为：

航载机远离目标点时，目标引力奖励r₁表示为：

其中：

分别表示在t、t+1时刻航载机i与目标点e之间的距离，

表示t、t+1时刻航载机i与目标点的距离差，定义为目标距离差；L和l表示目标引力奖励的门限值；p^t、p^t+1分别表示航载机在t时刻和t+1时刻的位置,p_e表示目标点e的位置。

优选的，障碍物斥力奖励包括有静态障碍物斥力奖励和动态障碍物斥力奖励；障碍物斥力奖励r₂表示为：

r₂＝r′₂+r″₂，

其中：r′₂表示静态障碍物斥力奖励，r″₂表示动态障碍物斥力奖励；

静态障碍物斥力奖励r′₂表示为：

航载机靠近静态障碍物时，静态奖励值r_oj表示为：

航载机远离静态障碍物时，静态奖励值r_oj表示为：

其中：

分别表示在t、t+1时刻航载机i离静态障碍物j的距离，

表示t、t+1时刻航载机i离静态障碍物j的距离差，定义为静态障碍距离差；h和H表示障碍斥力奖励的门限值；p^t、p^t+1分别表示航载机在t时刻和t+1时刻的位置,p_oj表示静态障碍物的位置；

动态障碍物斥力奖励r″₂表示为：

其中：r_o′k表示一动态障碍物的动态奖励值，o′表示障碍物的类型为动态障碍物，k表示一动态障碍物，k∈[1,n],n为动态障碍物的总数；

航载机靠近动态障碍物时，动态奖励值r_o′k表示为：

航载机远离动态障碍物时，动态奖励值r_o′k表示为：

其中：

分别表示在t、t+1时刻航载机i离动态障碍物k的距离，

表示t、t+1时刻航载机i离动态障碍物k的距离差，定义为动态障碍距离差；h和H表示障碍斥力奖励的门限值；

分别表示动态障碍物在t时刻和t+1时刻的预测位置。

为解决上述技术问题，本申请采用的另一个技术方案是：提供一种终端设备，包括相互耦接的存储器和处理器，处理器用于执行存储器中存储的程序指令，以实现航母甲板动态避障方法。

为解决上述技术问题，本申请采用的另一个技术方案是：提供一种计算机可读存储介质，其上存储有程序指令，程序指令被处理器执行时实现航母甲板动态避障方法。

本发明的有益效果是：本发明公开了一种航母甲板动态避障方法。该方法结合了轨迹预测、动作决策和深度强化学习决策动作的能力,应用于高度不确定的场景。轨迹预测模块实现了动态障碍物的轨迹预测,大大降低了环境的不确定性,有效地解决了传统算法在动态环境中面临的收敛速度慢,泛化能力差等问题。适用于解决连续状态空间的问题,该问题更符合真实场景。利用人工势场(障碍和目标分别对航载机施加排斥和吸引)的来设计奖励值，提高学习效率,使动作选择模块能够较快的选择最佳决策动作。

附图说明

图1是根据本发明航母甲板动态避障方法一实施例的流程图；

图2是根据本发明航母甲板动态避障方法一实施例的场景1中准确率的对比示意图；

图3是根据本发明航母甲板动态避障方法一实施例的场景2中准确率的对比示意图；

图4是根据本发明航母甲板动态避障方法一实施例的场景1中平均奖励值的对比示意图；

图5是根据本发明航母甲板动态避障方法一实施例的场景2中平均奖励值的对比示意图；

图6是本申请提供的终端设备一实施例的框架示意图；

图7是本申请提供的计算机可读存储介质一实施例的框架示意图。

具体实施方式

为了便于理解本发明，下面结合附图和具体实施例，对本发明进行更详细的说明。附图中给出了本发明的较佳的实施例。但是，本发明可以以许多不同的形式来实现，并不限于本说明书所描述的实施例。相反地，提供这些实施例的目的是使对本发明的公开内容的理解更加透彻全面。

需要说明的是，除非另有定义，本说明书所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是用于限值本发明。本说明书所使用的术语“和/或”包括一个或多个相关的所列项目的任意的和所有的组合。

图1显示了本发明航母甲板动态避障方法的实施例，包括：

步骤S1.构建环境状态，构建航母甲板的状态空间；

步骤S2.预测轨迹，由状态空间和航载机的历史轨迹，获取航载机的预测轨迹；

步骤S3.避障行进，航载机根据预测轨迹，在动作空间中选择决策动作，航载机执行选择的决策动作后，在航母甲板上避障行进。

进一步的，航载机中包括有轨迹预测模块、动作选择模块和/或评价模块。

轨迹预测模块用于通过状态空间和航载机的历史轨迹获得航载机的预测轨迹。

动作选择模块用于选择动作空间中的决策动作，航载机执行选择的决策动作后，可在航母甲板上避障行进。

评价模块用于对选择的决策动作进行评价，优化对决策动作的选择，以选择出最佳的决策动作。

优选的，状态空间为航载机在进行执行决策动作之前获得的环境信息,用于帮助航载机评估环境情况,实时做出决策动作。

进一步的，环境信息中包括有障碍物，障碍物分为动态障碍物和静态障碍物。静态障碍物指航载机在寻径的过程中,一直静止在初始位置上的障碍物。动态障碍物指在航载机寻径的过程中会发生运动的障碍物(正在或即将做任务的其他航载机)。

优选的，为了使航载机更好地了解不断变化的环境,状态空间包括静止环境状态和预测环境状态。状态空间s(t)表示为：s(t):{s,u(t)}。

其中：s表示静止环境状态，u(t)表示预测环境状态。

静止环境状态描述当前环境中静止的障碍物和目标点对航载机的影响。静止环境状态s表示为：

其中,

表示在t时刻航载机当前位置与目标点e之间的坐标距离,而

表示第m个静态障碍物的坐标,(x^t,y^t)表示在t时刻航载机当前位置坐标。

优选的，动态障碍物的历史轨迹x(t)表示为：

其中：

表示动态障碍物n在t时刻的位置，o′表示障碍物的类型为动态障碍物，n为动态障碍物的总数。N为已行进时刻的总数。

将静止环境状态s和动态障碍物的历史轨迹x(t)输入到轨迹预测模块，由轨迹预测模块计算获得动态障碍物的预测轨迹。

优选的，动态障碍物的预测轨迹y(t)表示为：

进一步的，根据动态障碍物的预测轨迹和当前航载机的位置获得预测环境状态。

预测环境状态描述当前环境中动态障碍物预测位置和目标点对航载机的影响。预测环境状态u(t)表示为:

其中,

航载机的动作空间表示航载机根据状态空间决定要执行的决策动作。

优选的，动作空间A设置为：

A:(X,Y)

X＝x*40

Y＝y*40

x,y∈(-1,1)

其中：X和Y分别表示航载机在x方向和y方向上移动的距离。x,y为动作选择模块的输出的决策动作a。可以表示为：a:(x,y)。

进一步的，由评价模块对选择的决策动作进行评价，以选择出最佳的决策动作。

动作选择模块输出的动作输入到评价模块中，由评价模块给出决策动作的奖励值R。

航载机执行选择的决策动作a:(x,y)后，静止环境状态s随着改变，即静止环境状态s改变为更新静止环境状态s_。动态障碍物的历史轨迹x(t)也随着改变，即历史轨迹x(t)改变为更新历史轨迹x_(t+1)；将动态障碍物的历史轨迹x_(t+1)和更新静止环境状态s_再次输入给轨迹预测模块获得更新预测环境状态u_(t+1)，由更新静止环境状态s_和更新预测环境状态u_(t+1)组成新的环境状态s_(t+1)。

将(s(t),a,R,s_(t+1))输入到评价模块中，由评价模块输出决策动作的Q值，Q值越大，说明选择的决策动作越佳。

进一步的，将(s(t),a,R,s_(t+1))存储在经验回访池中。从经验回访池中采样N个样本,然后根据当前的目标Q值更新评价模块的损失函数。同时,通过策略梯度的方法来更新选择动作空间的梯度策略。从而使选择的决策动作达到最佳。

评价模块中的奖励值(用于航载机学习的反馈信号)用于评估航载机执行的决策动作。奖励值设置的好坏决定了航载机最终是否能学到期望的技能,并直接影响评价模块的收敛速度和最终性能。其中最简单的方法是设置稀疏奖励,只有完成任务,航载机才能获得正回报。但是,此方法无法收集有用的经验数据以帮助航载机学习。因此,评价模块更新的收敛速度很慢,并且航载机无法学习最佳策略。

为了解决上述技术问题，本发明中利用人工势场(障碍和目标分别对航载机施加排斥和吸引)的来设计奖励值。

优选的，奖励值R包括四类，分别为：(1)目标引力的奖励，(2)障碍斥力的奖励，(3)碰撞奖励，(4)到达目标的奖励。

奖励值R表示为:

R＝λ₁*r₁+λ₂*r₂+λ₃*r₃+λ₄*r₄

其中,λ₁、λ₂、λ₃、λ₄分别代表目标引力的奖励，障碍斥力的奖励，碰撞奖励，到达目标的奖励的权重,r₁为目标引力奖励，r₂为障碍物斥力奖励，r₃为碰撞奖励，r₄为到达目标的奖励。

目标引力奖励是指目标点对航载机产生引力所产生的势场。

优选的，当航载机靠近目标点时，目标引力奖励r₁表示为：

其中：

分别表示在t、t+1时刻航载机i与目标点之间的距离，

表示t、t+1时刻航载机i与目标点e的距离差，定义为目标距离差。L和l表示目标引力奖励的门限值。p^t、p^t+1分别表示航载机在t时刻和t+1时刻的位置,p_e表示目标点的位置。目标距离差的值大于或等于L时，目标引力奖励为L；目标距离差的值大于l小于L时，目标引力奖励为目标距离差；目标距离差的值小于或等于l时，目标引力奖励为l。

当航载机远离目标点时，目标引力奖励r₁表示为：

其中：目标距离差的值大于或等于-l时，目标引力奖励为-l；目标距离差的值大于-L小于-l时，目标引力奖励为目标距离差；目标距离差的值小于或等于-L时，目标引力奖励为-L。

障碍物斥力奖励是指障碍物对航载机产生斥力所产生的势场。

优选的，障碍物斥力奖励包括有静态障碍物斥力奖励和动态障碍物斥力奖励。

静态障碍物斥力奖励为所有静态障碍物对航载机产生斥力所产生的势场。

动态障碍物斥力奖励为所有动态障碍物对航载机产生斥力所产生的势场。

优选的，障碍物斥力奖励r₂表示为：

r₂＝r′₂+r″₂

其中：r′₂静态障碍物斥力奖励，r″₂动态障碍物斥力奖励。

优选的，静态障碍物斥力奖励r′₂表示为：

其中：r_oj表示一静态障碍物的静态奖励值，o表示障碍物的类型为静态障碍物，j表示一静态障碍物，j∈[1,m],m为静态障碍物的总数。

当航载机靠近静态障碍物时，静态奖励值r_oj表示为：

其中：

分别表示在t、t+1时刻航载机i离静态障碍物j的距离，

表示t、t+1时刻航载机i离静态障碍物j的距离差，定义为静态障碍距离差；h和H表示障碍斥力奖励的门限值。静态障碍距离差的值大于或等于H时，静态奖励值为H；障碍距离差的值大于h小于H时，静态奖励值为障碍距离差；静态障碍距离差的值小于或等于h时，静态奖励值为h。

p^t、p^t+1分别表示航载机在t时刻和t+1时刻的位置,p_oj表示静态障碍物的位置。

优选的，当航载机远离静态障碍物时，静态奖励值r_oj表示为：

即：静态障碍距离差的值大于或等于-h时，静态奖励值为-h；障碍距离差的值大于-H小于-h时，静态奖励值为障碍距离差；静态障碍距离差的值小于或等于-H时，静态奖励值为-H。

优选的，动态障碍物斥力奖励r″₂表示为：

其中：r_o′k表示一动态障碍物的动态奖励值，o′表示障碍物的类型为动态障碍物，k表示一动态障碍物，k∈[1,n],n为动态障碍物的总数。

当航载机靠近动态障碍物时，动态奖励值r_o′k表示为：

其中：

分别表示在t、t+1时刻航载机i离动态障碍物k的距离，

表示t、t+1时刻航载机i离动态障碍物k的距离差，定义为动态障碍距离差；h和H表示障碍斥力奖励的门限值。动态障碍距离差的值大于或等于H时，动态奖励值为H；障碍距离差的值大于h小于H时，动态奖励值为障碍距离差；动态障碍距离差的值小于或等于h时，动态奖励值为h。

分别表示动态障碍物在t时刻和t+1时刻的预测位置。

当航载机远离动态障碍物时，动态奖励值r_o′k表示为：

即：动态障碍距离差的值大于或等于-h时，动态奖励值为-h；障碍距离差的值大于-H小于-h时，动态奖励值为障碍距离差；动态障碍距离差的值小于或等于-H时，动态奖励值为-H。

优选的，碰撞奖励r₃，当

时,碰撞奖励r₃＝-50。

其中：

表示存在D<d，

表示航载机和障碍物之间的真实距离；z表示障碍物的总数，包括动态障碍物和静态障碍物。d表示航载机和障碍物之间的安全距离；p^t表示航载机t时刻的位置；

表示障碍物z在t时刻的位置。

优选的，到达目标的奖励r₄，当p^t＝p_e时,r₄＝200。

其中：p^t表示航载机当前位置,p_e表示目标点的位置。

由此可见，本发明公开了一种航母甲板动态避障方法。该方法结合了轨迹预测、动作决策和深度强化学习决策动作的能力,应用于高度不确定的场景。轨迹预测模块实现了动态障碍物的轨迹预测,大大降低了环境的不确定性,有效地解决了传统算法在动态环境中面临的收敛速度慢,泛化能力差等问题。适用于解决连续状态空间的问题,该问题更符合真实场景。利用人工势场(障碍和目标分别对航载机施加排斥和吸引)的思想来设计奖励值，提高学习效率,使动作选择模块能够较快的选择最佳决策动作。

为了验证本发明在大量动态障碍物中仍能保持较高的准确率,通过增加动态障碍物来设置2个实验场景,在场景1中,设置5个动态障碍物和15个静态障碍物,在场景2中,设置9个动态障碍物和15个静态障碍物。从准确率、路径长度、平均奖励值、平均转弯角度这4个方面和DDPG(深度确定性策略梯度算法)，DQN(强化学习算法)和A2C(并行学习算法)进行比较。

(1)准确率指航载机不碰到任何障碍物的情况下从起点到达目的地的概率,准确率越高算法越有效,准确率T_r具体计算如下式所示,

其中：当航载机无碰撞到达终点时,f为1,否则为0。

(2)路径长度是直接反应算法质量的重要评价指标,为了避免算法偶然性带来的误差,随机抽取100组数据计算其平均路径长度。

(3)平均奖励值r_t是一个标量反馈信号,其衡量智能体在时刻t所执行动作a的表现。每100步计算一次平均奖励值,平均奖励值越高表示航载机选择的路线越短越合理。

(4)转弯角度是指航载机在一次无碰撞轨迹中转过的角度之和。随机抽取100组无碰撞轨迹计算平均转弯角度。

首先比较了两个场景中不同算法的准确率。如表1所示,随机抽样100组准确率计算平均值,在场景1中,本发明算法的平均准确率为98％,DDPG和DQN算法分别为92％、90％。而A2C算法的准确率最低只有67％。与DDPG、DQN和A2C相比,本发明的准确率分别增加了6％、8％和31％。如图2和图3所示,DDPG和本发明的准确率都可以达到100％,但本发明达到100％的次数最多且最稳定。而A2C和DQN算法的准确率较低,且A2C算法的稳定性最差。如表1所示,在场景2中,四种算法的准确率均有所下降,但本发明的准确率仍然最高,且可以达到91％。

表1准确率

为了比较四种算法的学习效果,比较了四种算法的平均奖励值。如图4场景1中四种算法的平均奖励值所示,由于A2C算法难收敛,其平均奖励值只能稳定在100左右,而其他算法都能达到150。

如图5所示场景2中,相比于本发明,DDPG的平均奖励值更不稳定,即DDPG在没有预测的情况下学习效果较差。DQN和本发明的平均奖励值都稳定在150左右,而本发明具有更高的稳定性。对比各个算法,本发明的平均奖励值最高且最稳定,因此具有最佳的学习效果。

在航母甲板上中,找到一条平滑的最优或次优的路径不仅可以减少资源消耗,缩短规划时间而且还可以提高任务调度的效率。因此比较各个算法的平均路径长度和平均转弯角度。如表2平均路经长度和表3平均转弯角度所示,场景1和场景2中四种算法的平均路径长度和平均转弯角度差距不大。对比四种算法,A2C、DDPG和本发明规划的路径长度和平均转弯角度基本相似。由于DQN只能处理离散动作,DQN所规划的路径的平均路径长度最长且平均转弯角度最大。

表2平均路经长度

表3平均转弯角度

其结果表明,本发明与其他算法相比,本发明在精度上提高了7％-30％；与DQN相比,本发明在路径长度和转弯角度方面分别减少了100个单位和400-450度。

请参阅图6，图6是本申请提供的终端设备另一实施例的框架示意图。终端设备60包括相互耦接的存储器61和处理器62，处理器62用于执行存储器61中存储的程序指令，以实现上述任一航母甲板动态避障方法实施例的步骤。

具体而言，处理器62用于控制其自身以及存储器61以实现上述任一航母甲板动态避障方法实施例的步骤。处理器62还可以称为CPU(Central Processing Unit，中央处理单元)。处理器62可能是一种集成电路芯片，具有信号的处理能力。处理器62还可以是通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(ApplicationSpecific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable GateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外，处理器62可以由集成电路芯片共同实现。

请参阅图7，图7是本申请提供的计算机可读存储介质一实施例的框架示意图。计算机可读存储介质70存储有能够被处理器运行的程序指令701，程序指令701用于实现上述任一航母甲板动态避障方法实施例的步骤。

在一些实施例中，本公开实施例提供的装置具有的功能或包含的模块可以用于执行上文方法实施例描述的方法，其具体实现可以参照上文方法实施例的描述，为了简洁，这里不再赘述。

上文对各个实施例的描述倾向于强调各个实施例之间的不同之处，其相同或相似之处可以互相参考，为了简洁，本文不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的方法和装置，可以通过其它的方式实现。例如，以上所描述的装置实施方式仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性、机械或其它的形式。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上仅为本发明的实施例，并非因此限值本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种航母甲板动态避障方法，其特征在于，包括步骤：

构建环境状态，构建航母甲板的状态空间；

预测轨迹，由所述状态空间和航载机的历史轨迹，获取所述航载机的预测轨迹；

避障行进，所述航载机根据所述预测轨迹，在动作空间中选择决策动作，所述航载机执行选择的所述决策动作后，在所述航母甲板上避障行进。

2.根据权利要求1所述的航母甲板动态避障方法，其特征在于，所述航载机中包括有用于通过所述状态空间和所述航载机的历史轨迹,获得所述航载机的预测轨迹的轨迹预测模块,用于选择所述动作空间中的决策动作的动作选择模块,以及用于对选择的所述决策动作进行评价，以选择出最佳的所述决策动作的评价模块。

3.根据权利要求2所述的航母甲板动态避障方法，其特征在于，所述状态空间包括静止环境状态和预测环境状态；状态空间s(t)表示为：s(t):{s,u(t)}；

其中：s表示所述静止环境状态，u(t)表示所述预测环境状态；

所述静止环境状态s表示为：

其中,

表示在t时刻所述航载机当前位置与目标点e之间的坐标距离,而

表示在t时刻所述航载机当前位置与各个所述静态障碍物之间的坐标距离,o表示障碍物的类型为静态障碍物，m为所述静态障碍物的总数，m大于或等于1；(x_e,y_e)表示目标点的坐标,

表示第m个所述静态障碍物的坐标,(x^t,y^t)表示在t时刻所述航载机当前位置坐标；

所述预测环境状态u(t)表示为:

其中,

表示在t时刻所述动态障碍物的预测位置与所述航载机当前位置之间的坐标距离；

表示在t时刻第n个动态障碍物的坐标,o'表示障碍物的类型为动态障碍物，n为所述动态障碍物的总数，(x^t,y^t)表示在t时刻所述航载机当前位置坐标。

4.根据权利要求3所述的航母甲板动态避障方法，其特征在于，所述动作空间A表示为：

A:(X,Y)

X＝x*40

Y＝y*40

x,y∈(-1,1)

其中：X和Y分别表示所述航载机在x方向和y方向上移动的距离；x,y为所述动作选择模块的输出的所述决策动作。

5.根据权利要求4所述的航母甲板动态避障方法，其特征在于，所述动作选择模块输出的所述决策动作输入到所述评价模块中，由所述评价模块给出所述决策动作的奖励值。

6.根据权利要求5所述的航母甲板动态避障方法，其特征在于，所述奖励值包括有目标引力的奖励、障碍斥力的奖励、碰撞奖励和/或到达目标的奖励。

7.根据权利要求6所述的航母甲板动态避障方法，其特征在于，所述航载机靠近目标点时，所述目标引力奖励r₁表示为：

所述航载机远离目标点时，所述目标引力奖励r₁表示为：

其中：

分别表示在t、t+1时刻所述航载机i与所述目标点e之间的距离，

表示t、t+1时刻所述航载机i与所述目标点e的距离差，定义为目标距离差；L和l表示所述目标引力奖励的门限值；p^t、p^t+1分别表示所述航载机在t时刻和t+1时刻的位置,p_e表示所述目标点e的位置。

8.根据权利要求6所述的航母甲板动态避障方法，其特征在于，所述障碍物斥力奖励包括有静态障碍物斥力奖励和动态障碍物斥力奖励；所述障碍物斥力奖励r₂表示为：

r₂＝r′₂+r″₂，

所述静态障碍物斥力奖励r′₂表示为：

所述航载机靠近所述静态障碍物时，所述静态奖励值r_oj表示为：

所述航载机远离所述静态障碍物时，所述静态奖励值r_oj表示为：

其中：

分别表示在t、t+1时刻所述航载机i离所述静态障碍物j的距离，

表示t、t+1时刻所述航载机i离所述静态障碍物j的距离差，定义为静态障碍距离差；h和H表示所述障碍斥力奖励的门限值；p^t、p^t+1分别表示所述航载机在t时刻和t+1时刻的位置,p_oj表示所述静态障碍物的位置；

所述动态障碍物斥力奖励r″₂表示为：

其中：r_o′k表示一所述动态障碍物的动态奖励值，o′表示障碍物的类型为动态障碍物，k表示一动态障碍物，k∈[1,n],n为所述动态障碍物的总数；

所述航载机靠近所述动态障碍物时，所述动态奖励值r_o′k表示为：

所述航载机远离所述动态障碍物时，所述动态奖励值r_o′k表示为：

其中：

分别表示在t、t+1时刻所述航载机i离所述动态障碍物k的距离，

表示t、t+1时刻所述航载机i离所述动态障碍物k的距离差，定义为动态障碍距离差；h和H表示所述障碍斥力奖励的门限值；

分别表示所述动态障碍物在t时刻和t+1时刻的预测位置。

9.一种终端设备，其特征在于，包括相互耦接的存储器和处理器，所述处理器用于执行所述存储器中存储的程序指令，以实现权利要求1至8任一项所述的航母甲板动态避障方法。

10.一种计算机可读存储介质，其上存储有程序指令，其特征在于，所述程序指令被处理器执行时实现权利要求1至8任一项所述的航母甲板动态避障方法。