CN116243727A

CN116243727A - 一种渐进式深度强化学习的无人载具对抗与避障方法

Info

Publication number: CN116243727A
Application number: CN202310260597.2A
Authority: CN
Inventors: 师佳; 马成栋; 洪文晶
Original assignee: Xiamen University
Current assignee: Xiamen University
Priority date: 2023-03-17
Filing date: 2023-03-17
Publication date: 2023-06-09
Anticipated expiration: 2043-03-17
Also published as: CN116243727B

Abstract

本发明涉及一种渐进式深度强化学习的无人载具对抗与避障方法，包括以下步骤：S1，根据无人载具的运动学模型，通过龙格库塔方法进行求解建模；S2，通过计算机模拟多台无人载具系统的自主决策过程；S3，设计并优化渐进式自博弈SAC算法的批判者神经网络和执行者神经网络的形式、大小和数量，针对无人载具的真实运动情况构建执行者神经网络、策略熵系数α的目标损失函数，并结合熵增机制和训练课程难度，设计自动熵，得到渐进式自博弈SAC算法；S4，利用所述渐进式自博弈SAC算法自调节所述训练课程难度并执行自博弈过程，完成一次学习课程；S5，重复执行步骤S4，得到完成训练的执行者神经网络用于生成无人载具对抗与避障的实时决策。

Description

一种渐进式深度强化学习的无人载具对抗与避障方法

技术领域

本发明涉及深度强化学习领域，具体指有一种渐进式深度强化学习的无人载具对抗与避障方法。

背景技术

随着传感器技术、计算机技术和通信技术的快速发展，军用和民用无人载具的性能均得到了显著的提升。自主决策是目前无人载具系统研究的核心研究内容之一，对于扩大无人载具应用的场景和功能都具有十分重要的价值。在军用领域，无人载具比有人载具能够完成更多高难度的复杂任务，因而成为各国争相发展的武器装备。无人载具在产品种类、应用领域和执行任务的能力方面都具有远超越有人载具的优势，但目前大部分无人载具在执行任务时仍离不开远程控制人员的操作和决策。这种工作模式使得无人载具的应用仍然极大依赖无线通讯技术和远程控制人员的决策能力，很容易受到通讯条件以及远程操作者决策能力的制约，难以适应高度动态化的应用场景，尤其是军事领域复杂多变的战场态势。在众多针对无人载具自主决策系统的研究工作中，自主决策方案通常采用优化原理、人工智能等技术，自动生成各种应用场景下的自主决策指令。在理论层面，解决自主决策问题的理论方法大致可分为三类，分别为：博弈论、最优化理论和人工智能方法。其中基于博弈论的方法主要通过建立数学模型来直接反映对抗过程中的态势，并通过微分对策和影响图算法形成最优决策。当面对高度动态化的战场态势时，往往由于模型过于复杂，最优决策难以实时求解，因此实际应用仍然存在较大困难。基于最优化理论的遗传算法、贝叶斯推理和统计理论等方法则将问题转化为最优化问题进行数学求解，从而得到自主最优策略。然而，面对大规模问题时同样存在决策求解实时性较差的问题，同时在面对大量的非凸优化问题也很难保证解的最优性。此外，以上方法多用于离线的战术优化研究。基于人工智能的方法包括专家系统、神经网络和强化学习方法。专家系统方法的核心是根据专家经验将作决策行为描述为一个规则库，然后根据具体情况通过规则推理形成控制指令。其中规则库的建立较为复杂，并且作为固定策略也容易被破解。神经网络方法则是将自主决策行为看作一个“黑盒”，通过对大量有效对抗样本数据的学习来形成对抗策略。但实际应用中有效学习样本的获取较为困难，且自主决策的性能受样本数据性能的限制，难以达成进一步的优化。与上述方法相比，基于强化学习的方法既不需要专家提供规则库，也不依赖环境模型，而是在优化原理的基础上，通过智能体与环境的交互，利用环境反馈的状态信息和奖赏信号，通过在线或离线的学习算法来不断地优化策略，并最终获得最优策略。此外，强化学习的决策行为一般采用神经网络表达，在充分训练的前提下，不仅具有很强的非线性表达能力，同时还具有很好的泛化性能，可以使得最终获得的自主决策方案同时具有性能上的最优性和环境适应能力方面的良好鲁棒性。因此，目前强化学习方法成为了解决无人载具自主决策问题的一种有效解决方案。

在无人载具的自主决策研究领域，无人机的自主机动和对抗决策问题广受关注。目前，在该研究方向基于强化学习方案的大多以DQN算法为主，通过将无人机的决策行为分解为一系列离散动作，来降低自主决策问题求解和优化的复杂度，但这种简化造成与真实情况差别较大，对抗性能难以得到保证。若要尽可能符合真实情况，设计问题往往需要面对连续和高维度的状态和动作空间，容易造成强化学习过程的维度灾难和稀疏奖赏问题，学习效率极低。虽然DDPG算法能够用于连续状态和动作空间的策略优化问题，但该算法设计中超参数众多，而且训练容易陷入局部最优，原始SAC算法作为一种更先进的强化学习算法，虽然超参数较少，但也难以解决奖赏稀疏、环境复杂多变以及同时存在多种任务的自主对抗决策问题。综上，目前将该智能决策技术用于无人载具的自主决策时，仍然存在因为环境模型复杂、状态空间维度高且奖赏信息稀疏等问题，使得传统强化学习算法训练效率普遍较低，难以得到最优策略的问题。

针对上述的现有技术存在的问题设计一种渐进式深度强化学习的无人载具对抗与避障方法是本发明研究的目的。

发明内容

针对上述现有技术存在的问题，本发明在于提供一种渐进式深度强化学习的无人载具对抗与避障方法，能够有效解决上述现有技术存在的至少一个问题。

本发明的技术方案是：

一种渐进式深度强化学习的无人载具对抗与避障方法，包括以下步骤：

S1，根据无人载具的运动学模型，通过龙格库塔方法进行求解建模，构建为Python环境下的标准gym环境类，根据真实情况将无人载具自身状态和环境观测的状态数据作为必要的要素进行数学形式表述和计算机语言描述；

S2，通过计算机模拟多台无人载具系统的自主决策过程，产生无人载具运动过程和决策行为的模拟数据；

S3，设计并优化渐进式自博弈SAC算法的批判者神经网络和执行者神经网络的形式、大小和数量，针对无人载具的真实运动情况构建执行者神经网络、策略熵系数α的目标损失函数，并结合熵增机制和训练课程难度，设计自动熵，并针对无人载具决策场景的复杂程度设计随训练过程递增的课程学习机制以及对抗对手的策略类型和强度，得到渐进式自博弈SAC算法；

S4，利用所述渐进式自博弈SAC算法自调节所述训练课程难度并执行自博弈过程，生成无人载具的多个决策数据并放入经验回放池进行不同课程学习数据的更新，平均采样经验回放池最新数据并更新所述批判者神经网络和执行者神经网络的参数，完成一次学习课程；

S5，重复执行步骤S4，使批判者神经网络和执行者神经网络完成若干次学习课程，得到完成训练的执行者神经网络用于生成无人载具对抗与避障的实时决策。

进一步地，S1中，所述自身状态和环境观测的状态数据包括所述无人载具的位置坐标、实时速度、偏航角度，以及障碍物距离，以及对抗对手的位置坐标、实时速度、偏航角度其中的一种或多种。

进一步地，设计并优化渐进式自博弈SAC算法的批判者神经网络和执行者神经网络的形式、大小和数量得到的结果为：

所述批判者神经网络采用两层隐藏层的全连接神经网络结构，每层神经元数目为256，所述批判者神经网络数量为两个及以上，每个判家神经网络对应一个低频更新的目标批判者神经网络。

进一步地，针对无人载具的真实运动情况构建执行者神经网络的目标损失函数包括：

基于策略熵机制提供探索能力，设计平衡探索能力和策略优化的损失函数；

设计得到的损失函数J_π(φ)满足公式1：

其中，E为数学期望，s_t为无人载具的当前状态数据，

为经验回放池，a_t为执行者神经网络所输出的动作，通过神经网络强大的表达能力，将π_φ建模为产生状态到具体动作映射的执行者策略网络，φ为执行者神经网络的参数，π_φ(a_t|s_t)表示当给定状态s_t时，执行者策略输出某个动作a_t的概率，α为策略熵系数，初始化为1，Q(s_t,a_t)表示批判者对无人载具的当前状态-动作价值的长期折扣回报评估。

进一步地，针对无人载具的真实运动情况构建策略熵系数α的目标损失函数包括：

定义α为难度系数k的单调递增函数，随着训练课程的进行，策略熵系数α根据课程难度的不同进行更新，设计得到的策略熵系数的损失函数J(α)满足公式2：

其中，

为策略的目标信息熵，训练前期随着课程难度的增加和稀疏奖赏问题的加剧，将增大策略熵系数α以增大探索能力，训练后期随着自博弈优化的进行以及策略的稳定收敛，减小策略熵系数α以得到稳定可靠的策略网络。

进一步地，所述根据无人载具的运动学模型，通过龙格库塔方法进行求解建模，构建为Python环境下的标准gym环境类包括：

所述无人载具的运动学模型基于无人车系统的运动学，所述无人载具的运动学模型的微分方程求解方式通过四阶龙格库塔算法进行精确求解得到无人载具的下一时刻状态观测，并将所述自行车运动学模型封装为标准类函数，统一在gym框架下。

进一步地，S4中，所述利用所述渐进式自博弈SAC算法自调节所述训练课程难度并执行自博弈过程包括：

训练后期采用迭代对抗训练策略，当通过渐进式自博弈SAC框架优化策略至一定阶段后，采用对手不断使用上一轮优化过的策略以优化下一轮策略，找到上一轮策略中的缺陷，通过自主的方式进行针对性的策略网络查漏补缺，进行更深层次的策略优化。

进一步地，S5之后，执行：

S6，通过公式3对所完成训练的执行者神经网络的整体优势进行评估，定义无人载具的第i步的整体优势评价函数为：

其中

表示跟踪和对抗的性能指标，

表示避障性能指标，k₁和k₁为比例系数，衡量不同指标占总体优势指标的比例，

表示综合优势性能指标，在不同难度课程的阶段，自适应的调整整体优势评价函数中的比例系数。

进一步地，S4中，采用基于历史动量梯度的梯度下降算法更新所述批判者神经网络和所述执行者神经网络的参数。

进一步地，S5中，生成无人载具对抗与避障的实时决策包括：静态避障、轨迹跟踪、综合对抗、泛化到动态避障、随机轨迹跟踪其中的一种或多种。

因此，本发明提供以下的效果和/或优点：

本申请采用渐进式课程学习，避免稀疏鉴赏，提高了学习效率，提高了泛化能力，可从静态任务泛化至随机动态任务。具体来说，随着训练过程的进行，从场景中无障碍物，对手策略单一且固定到场景中有少量固定障碍物，到场景中大量随机不固定障碍物以及对手策略随机多样，通过在复杂场景中多课程的学习，使得无人车逐步掌握复杂的综合自主决策能力，渐进式的学习，最终可在各类型任务中完成决策，得到的策略具备一定的鲁棒性和泛化性。

本发明利用所述渐进式自博弈SAC算法，不需要环境模型，通过在设计好的难度梯度递增的训练课程中不断与环境交互，生成新的大量训练数据，因此具备不需要模型，纯数据驱动的优势。

本发明提供的渐进式自博弈SAC算法通过渐进式课程学习，避免稀疏鉴赏，提高了学习效率，提高了泛化能力，可从静态任务泛化至随机动态任务。具体来说，随着训练过程的进行，从场景中无障碍物，对手策略单一且固定到场景中有少量固定障碍物，到场景中大量随机不固定障碍物以及对手策略随机多样，通过在复杂场景中多课程阶段的学习，使得无人车逐步掌握复杂的综合自主决策能力，渐进式的学习，最终可在各类型任务中完成决策，得到的策略具备一定的鲁棒性和泛化性。

本发明通过在训练后期采用了迭代对抗的方式训练策略，保证策略的深度优化。可以找到上一轮策略中的缺陷，通过自主的方式进行针对性的策略网络查漏补缺，以进行更深层次的策略优化。

本发明综合考虑了跟踪，对抗以及避障等多任务场景，自适应分配任务权重，可进行更接近真实世界的复杂任务决策。

应当明白，本发明的上文的概述和下面的详细说明是示例性和解释性的，并且意在提供对如要求保护的本发明的进一步的解释。

附图说明

图1为本发明的其中一个实施例提供的流程示意图。

图2为本发明的其中一个实施例建立的车辆三自由度质点模型图。

图3为车辆一对一对抗及避障模型图。

图4为本发明的其中一个实施例提供的渐进式自博弈SAC算法的自主决策框架示意图。

图5为本发明的其中一个实施例提供的多课程阶段无人车自主决策学习框架示意图。

图6为渐进式自博弈SAC算法和原始SAC算法的学习效率及性能比较示意图。

图7为决策策略评估，轨迹跟踪，避障与优势评估指标示意图。

图8为本发明的最终策略性能，对比有无障碍物时的决策跟踪情况图。

具体实施方式

为了便于本领域技术人员理解，现将实施例结合附图对本发明作进一步详细描述：应了解到，在本实施例中所提及的步骤，除特别说明其顺序的，均可依实际需要调整其前后顺序，甚至可同时或部分同时执行。

参考图1，一种渐进式深度强化学习的无人载具对抗与避障方法，包括以下步骤：

本实施例中，无人载具可以是无人机、无人车等。本实施例中，如果是无人车，则无人载具的运动学模型采用运动学自行车模型，并且，运动学自行车模型是现有技术。

本实施例中，强化学习是一种不依赖于模型的，只需要纯数据就可驱动的智能决策技术，其中原始的SAC算法是目前强化学习中最先进的算法之一，原始SAC算法由于存在策略熵的机制，策略空间探索能力强，可处理连续动作空间，并且最终策略具有较高的鲁棒性，且可以根据状态反馈信息做出实时决策。原始SAC算法是Pieter Abbeel和SergeyLevine团队提出的一种基于Actor-Critic框架的强化学习算法，参考文献为《Soft Actor-Critic Algorithms and Applications》(Haarnoja等，29，Jan，2019)。

原始SAC算法的最优策略定义如下：

其中，

为策略π(·|s_t)的信息熵，α为温度系数，用于在优化策略的过程中调节信息熵

和R(s_t,a_t)所占的权重。

在原始SAC算法中，价值网络的优化目标是使得如下Bellman residual指标最小：

其中所涉及的状态值函数定义如下：

V(s_t)＝E_at～π(Q(s_t,a_t)-αlog(π(a_t|s_t)))；

对以上目标函数采用随机梯度算法进行优化。

原始SAC算法中策略网络的目标函数定义如下：

其中，φ是策略网络的参数。为了采用反向传播算法对网络参数进行优化，需要对动作a_t进行重参数化，对此可采样自某些固定分布函数，如球形高斯分布等，对以上目标函数采用随机梯度算法进行优化。

进一步地，温度系数α也需要进行自动更新，其目标函数定义如下：

从上述原始SAC算法的核心公式可以看出：原始SAC算法在最大化累计奖赏的同时，也最大化策略信息熵。正是通过对策略信息熵的最大化来保证算法的探索能力，从而不容易陷入局部最优，同时，在训练过程中自动调节温度系数α，训练前期α较大，保证智能体具有良好的探索能力，当后期学习到一定的策略以后逐渐降低α保持训练的稳定性。

设计得到的损失函数J_π(φ)满足公式1：

其中，E为数学期望，s_t为无人载具的当前状态数据，

其中，

进一步地，S5之后，执行：

其中

表示跟踪和对抗的性能指标，

以下为对本申请S1-S5的具体表述。

首先为了后续描述、讨论和验证上的便利，如图2所示，本发明直接考虑以二维平面上无人车辆的自主对抗及自主避障为实际应用场景。但从后续提出的设计方案看，所提出的设计方法在适当扩展后，完全可以推广到更为复杂的应用场景，如无人汽车的自动跟车驾驶、无人机的空战对抗等。本发明考虑应用场景为具有2辆小车的系统在有障碍二维环境下近程跟踪对抗与避障的自主决策，该场景通常作为无人战机在三维空间中自主决策对抗问题的简化场景而被加以研究，如图3所示。假设该场景下A车代表跟踪车辆，B车为被跟踪的车辆，需要设计的是A车的自主运动和避障策略，设计的目标是使得A车在运动过程中避免与障碍物发生危险碰撞的前提下，相对B车还能够尽可能保持最佳的跟踪态势。

在S1中，为了建立无人载具的运动学模型，首先建立一个包括ox轴和oy轴的二维坐标系。在该坐标系下，车辆的运动可用如下微分方程描述：

其中，(x,y)为小车在二维坐标中的位置向量，v表示小车速度大小，

分别表示速度v在ox轴和oy轴上的分量，

表示小车方位角，即车身方向与ox轴之间的夹角，l_r表示小车尾部与转向中心的距离，l_f表示小车头部与转向中心的距离，β表示转向中心的速度方向与车身之间的夹角。假定小车前轮相对于车身方向的控制转角为δ，后轮为控制驱动轮，驱动力大小由加速度a描述。在上述模型中，a,δ为控制小车运动的操作变量。

然后，本发明建立了2辆小车在有障碍二维环境下跟踪对抗与避障的自主决策过程模型。该场景通常作为无人战机在三维空间中自主决策对抗问题的简化场景而被加以研究。假设该场景下A车代表跟踪车辆，B车为被跟踪的车辆，需要设计的是A车的自主运动和避障策略，设计的目标是使得A车在运动过程中避免与障碍物发生危险碰撞的前提下，相对B车还能够尽可能保持最佳的跟踪态势。

如图3给出了任意时刻A车、B车以及障碍物的位置示意图，其中，p_A＝(x_A,y_A)表示A车的空间位置，p_B＝(x_B,y_B)表示B车的空间位置，v_A表示A车的速度矢量，v_B表示B车的速度矢量。p_d表示在A车速度方向上距离最近障碍物的位置，

表示A车在速度正方向上与最近障碍物之间的距离(随A车速度方向的变化而变化，当运动方向上没有障碍物时该距离为无穷大)。B车身后的灰色扇形区域表示对A车有利的对抗(攻击)区域，该区域随B车空间位置和速度方向的变化而变化，p_0,B为A车的最佳对抗(攻击)位置，一般为扇形对抗区域的中心点。

上述模拟过程产生的大量自主决策数据主要由状态向量，奖赏信号，决策动作三部分构成。

本发明中基于原始SAC算法具有策略熵的特点，结合不同训练阶段的课程设计，自适应的调节策略熵来提高学习和探索效率。

根据强化学习的基本组成成分，在每一个时刻t，定义一组状态量作为智能体A车可以观测到的状态信息，同时用于计算优势评估函数值来评估当前的态势。针对两车构成的对抗系统，定义如下环境状态信息：

并定义动作向量：

[a_A,δ_A] 公式(6)；

其中，a_A表示A车的加速度，对应真实汽车中的油门控制，δ_A表示A车的转向角，对应真实汽车中的方向盘控制。

并基于避障及追踪对抗过程中的优势评价函数来计算单步奖赏值，作为对当前机动决策的实时奖赏。在A车运动过程中，当两车距离超出一定范围时，会陷入奖赏稀疏区域，产生大量的无效样本，导致后续学习无法完成，对此应给予较大的惩罚，从而引导A车与B车之间的距离d保持在合理的范围内，对此，定义惩罚函数：

其中，w₄为可调整的系数，且w₁₁>0。x_min，y_min分别表示车辆运动过程中沿着x轴和y轴可以移动的最小坐标边界值，x_max，y_max分别表示车辆运动过程中沿着x轴和y轴可以移动到的最大坐标边界值，具体的数值可以根据实际应用场景限制来设置。

根据综合优势评价函数A_T和惩罚函数P，智能体的第i步奖赏值定义为：

其中，k₃为惩罚项的加权调节系数。

接着，根据S3构建如图4所示渐进式自博弈SAC算法框架。所述渐进式自博弈SAC算法批判者神经网络的类型，大小和数量为：设计批判者神经网络采用两层隐藏层的全连接神经网络结构，每层神经元数目为256，所述批判者神经网络数量为两个及以上，每个判家神经网络对应一个低频更新的目标批判者神经网络。

进一步地，所述渐进式自博弈SAC算法的执行者神经网络的目标损失函数包括：

基于策略熵机制提供的优秀探索能力，设计平衡探索能力和策略优化的损失函数：

其中，E为数学期望，s_t为无人载具的当前状态数据，D为经验回放池，a_t为执行者神经网络所输出的动作，通过神经网络强大的表达能力，将π_φ建模为产生状态到具体动作映射的执行者策略网络，φ为执行者神经网络的参数，π_φ(a_t|s_t)表示当给定状态s_t时，执行者策略输出某个动作a_t的概率，α为策略熵系数，初始化为1，Q(s_t,a_t)表示批判者对无人载具的当前状态-动作价值的长期折扣回报评估。

随着训练课程的进行，策略熵系数α也会根据课程难度的不同进行更新，因此需要设计策略熵系数的损失函数为：

其中，

为策略的目标信息熵，训练前期，随着课程难度的增加和稀疏奖赏问题的加剧，需要将增大策略熵系数α以增大探索能力，后期随着自博弈优化的进行以及策略的稳定收敛，需要减小策略熵系数α以得到稳定可靠的策略网络。

设计难度递增的训练课程，若直接采用原始SAC算法来求解小车自主对抗和避障问题，在智能体训练初期会出现以下两类现象：

当A车尚未学会基本的跟踪策略时，易有：

|p_A-p_0,B|＞＞(w₁cos<v_A,v_B>+w₂cos<v_A,p_B-p_A>) 公式(9)；

由公式10可知A_1,A≈0，造成稀疏奖赏的问题。

当A车尚未学会基本的避障策略时，就对其同时进行高难度的避障和对抗训练，此时A车极易与障碍物碰撞，故有：

由公式10可知，此时

会产生大量极大的负奖赏信息并且中断训练。并且，针对固定课程的学习也难以使得最终策略具备鲁棒性和泛化性。

针对上述问题，模仿人类从简入繁的学习方式，本发明设计了渐进式自博弈SAC算法，该方案采用难度递增的学习课程。难度递增具体指的是场景复杂性的增加，如障碍物数量，大小，随机性的增加，对手策略随机性，复杂性，针对性的增加。具体可参考图5中的学习难度设计。

进一步地，综合考虑跟踪，对抗以及避障等多任务场景，自适应分配任务权重，可进行更接近真实世界的复杂任务决策。定义无人载具的单步(第i步)的整体优势指标函数为：

其中

表示跟踪和对抗的性能指标，

表示综合优势性能指标，在不同难度课程的阶段，会自适应的调整指标函数中的比例系数。同时也可以利用这套指标进行策略的评估验证。

进一步地，所述重复执行步骤S4，直至完成若干学习课程，当连续3个训练课程的双方对抗胜率接近50％，即可证明策略已收敛，得到最终的执行者神经网络用于实时决策。

本申请采用的渐进式自博弈SAC算法在训练过程中能够反复进行对现有策略的量化评估给出累计奖赏，利用贝尔曼时间差分学习来更新价值函数，用来指导对策略网络的评估并指明策略改进的方向，从而促进策略网络的优化和更新，然后进一步通过自博弈，将上一轮的策略网络作为对手进行迭代式自博弈学习，在不断迭代的过程中使得策略逐步逼近理论最优策略。

本实施例中，提前填充经验回放池的大小约为100万，即可存放100万条状态-动作-奖赏-状态序列数据用与学习。

本实施例中，模仿人类从简入繁的学习方式，本发明设计了渐进式自博弈SAC算法，该算法采用难度递增的学习课程，将上节中提出的机动决策渐进式自博弈SAC算法的训练过程分为如下4个课程：

(1)固定跟踪学习课程：B车采取固定策略π_fixed，如简单的直线运动和曲线运动，目的是使得A车学会基本的追踪策略，熟悉对抗态势。

(2)随机跟踪学习课程：B车采取随机机动策略π_random，目的是让A车学到基本的追逐及对抗的机动策略。

(3)避障跟踪学习课程：在环境中不断加入障碍物，障碍物的数量，大小随着训练回合数逐步增加，障碍物出现的位置也随着训练回合数随机变化，训练的目的是让A车逐步获得自主避障的性能。

(4)迭代对抗学习课程：在每次A车获得良好的对抗性能后，将A车的对抗策略

转移到B车，然后继续通过A车与B车的对抗来提升A

车的对抗性能，本课程的训练目的是通过不断的策略迭代来不断优化A车的机动策略

直到获得满意的自主对抗性能为止。

通过上述由易到难的训练课程，不仅可以大幅度提高强化学习训练的效率，同时还能够在不同的学习课程设置不同的训练目标，从而使得小车具有从静态的简单任务泛化到动态的复杂任务的能力，保证了学习效率和最终策略良好的性能。

图5给出了渐进式自博弈SAC算法的训练方案框图。具体来讲，首先进行课程1，在该课程让B车采取固定机动策略，如简单的匀速直线、加速直线和曲线运动，也可设置数量较少，大小固定的障碍物，然后基于渐进式自博弈SAC算法的训练方案对A车进行简单的跟踪训练，目标是让A车熟悉战场态势，学到基本跟踪策略和避障策略；接下来进入课程2，在该阶段逐渐增加障碍物的数量，但保持大小不变，同时B车采取随机机动运动策略，增大两车初始位置的设定范围，在已有策略的基础上对A车进行自主跟踪和避障训练，目标是进一步提升A车的自主对抗和避障性能。在获得满意的性能后进入课程3，该阶段A车已经具备一定的自主对抗性能，训练的目标是进一步提升A车的自主避障性能，为此，在训练中通过随机动态生成大小相同的障碍物来提升训练难度，直到获得满意的避障性能；最后进入课程4，在该阶段将课程3中A车学到的策略网络作为B车的机动策略，让B车也具备一定的追踪对抗及避障能力，然后进行两车的对抗训练。在后续课程中，障碍物的大小，位置以及数量均随机动态变化，同时将之前课程中A车学到的策略网络作为B车的策略选择，然后实施对抗与避障训练，在获得满意的性能后，再次将A车学到的策略转移到B车,然后进行A车的训练和策略优化，反复迭代以上过程，即可不断优化A车的策略网络。

其中

表示跟踪和对抗的性能指标，

实验数据

参考图6，为了实际测试本文所提出的渐进式自博弈SAC算法的学习效率，仿真中同时采用了原始SAC训练方案。图6给出了非渐进式训练方案(原始SAC算法)(下侧曲线)和课程渐进训练方案(渐进式自博弈SAC算法)(上侧曲线)的累计奖赏随训练回合的变化曲线，从图中可以看出，由于前期训练课程相对简单，采用渐进式课程的训练方案在前20000回合的学习效率显著高于非渐进式训练方案。20000回合后，随着课程难度的提升，上侧曲线上升速率有所下降，但整体回报始终高于下侧曲线，下侧曲线已经甚至开始停止上升。这表明本文所提出的渐进式自博弈SAC算法不仅能够获得更快的训练效率，同时还能保证获得更优的决策方案。

参考图7，7(a)为A车与B车(随机策略)的运动轨迹，7(b)为A车与B车间距离变化情况，7(c)为A车与B车间速度变化情况，7(d)为A车与B车优势角变化情况。针对图7(a)展示的有障碍对抗过程，图7(b)和图7(c)分别给出了对抗中A车和B车之间的距离变化曲线和两车的速度变化曲线，图7(d)给出了A车和B车对抗攻击角变化曲线(图中阴影部分表示具有对抗优势的范围)。从上述结果可以看出，在整个对抗过程中A车始终具有绝对的对抗优势。并且可以将策略泛化到各种情况，尤其是动态的随机的场景中。

参考图8，图8展示了本发明展示了通过难度递增的渐进式课程学习后，当两车每次从相同初始状态，相同的环境状态出发后，且B车采取相同的随机策略的情况下，当场景无障碍物和有较大圆柱体障碍物时时，A车基于第之前课程训练结果所获得的对抗结果，可以看出，在存在大型障碍物的情况下，A车已经同时具备了跟踪曲线运动和避障的良好自主决策能力。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不应理解为必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

Claims

1.一种渐进式深度强化学习的无人载具对抗与避障方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的一种渐进式深度强化学习的无人载具对抗与避障方法，其特征在于：S1中，所述自身状态和环境观测的状态数据包括所述无人载具的位置坐标、实时速度、偏航角度，以及障碍物距离，以及对抗对手的位置坐标、实时速度、偏航角度其中的一种或多种。

3.根据权利要求1所述的一种渐进式深度强化学习的无人载具对抗与避障方法，其特征在于：设计并优化渐进式自博弈SAC算法的批判者神经网络和执行者神经网络的形式、大小和数量得到的结果为：

4.根据权利要求1所述的一种渐进式深度强化学习的无人载具对抗与避障方法，其特征在于：针对无人载具的真实运动情况构建执行者神经网络的目标损失函数包括：

设计得到的损失函数J_π(φ)满足公式1：

其中，E为数学期望，s_t为无人载具的当前状态数据，

5.根据权利要求4所述的一种渐进式深度强化学习的无人载具对抗与避障方法，其特征在于：针对无人载具的真实运动情况构建策略熵系数α的目标损失函数包括：

其中，

6.根据权利要求1所述的一种渐进式深度强化学习的无人载具对抗与避障方法，其特征在于：所述根据无人载具的运动学模型，通过龙格库塔方法进行求解建模，构建为Python环境下的标准gym环境类包括：

7.根据权利要求1所述的一种渐进式深度强化学习的无人载具对抗与避障方法，其特征在于：S4中，所述利用所述渐进式自博弈SAC算法自调节所述训练课程难度并执行自博弈过程包括：

8.根据权利要求1所述的一种渐进式深度强化学习的无人载具对抗与避障方法，其特征在于：S5之后，执行：

其中

表示跟踪和对抗的性能指标，

9.根据权利要求1所述的一种渐进式深度强化学习的无人载具对抗与避障方法，其特征在于：S4中，采用基于历史动量梯度的梯度下降算法更新所述批判者神经网络和所述执行者神经网络的参数。

10.根据权利要求1所述的一种渐进式深度强化学习的无人载具对抗与避障方法，其特征在于：

S5中，生成无人载具对抗与避障的实时决策包括：静态避障、轨迹跟踪、综合对抗、泛化到动态避障、随机轨迹跟踪其中的一种或多种。