CN113721645A

CN113721645A - 一种基于分布式强化学习的无人机连续机动控制方法

Info

Publication number: CN113721645A
Application number: CN202110904671.0A
Authority: CN
Inventors: 于津; 朴海音; 孙智孝; 杨晟琦; 彭宣淇; 韩玥; 樊松源; 孙阳; 王鹤; 张昕昊
Original assignee: Shenyang Aircraft Design and Research Institute Aviation Industry of China AVIC
Current assignee: Shenyang Aircraft Design and Research Institute Aviation Industry of China AVIC
Priority date: 2021-08-07
Filing date: 2021-08-07
Publication date: 2021-11-30

Abstract

本申请涉及机器学习技术领域，具体涉及一种基于分布式强化学习的无人机连续机动控制方法。该方法包括：基于无人机动力学参数构建仿真训练环境；将所述仿真训练环境与强化学习训练系统进行交互，其中，所述强化学习训练系统用于对无人机连续机动控制策略神经网络进行迭代更新，包括接收数据经验池的信息，并通过训练算法生成控制策略，依照所述控制策略控制无人机动作，所述数据经验池存储了所述仿真训练环境产生的环境信息及无人机状态信息；进行不同随机参数的样本数据采样，获得新的采样样本数据，并加入到所述数据经验池。本申请能够生成连续的机动控制指令，增加了样本的多样性，有效缩短强化学习整个训练过程的时间。

Description

一种基于分布式强化学习的无人机连续机动控制方法

技术领域

本申请涉及机器学习技术领域，具体涉及一种基于分布式强化学习的无人机连续机动控制方法。

背景技术

无人机连续机动控制属于无人机智能飞行控制领域，传统的机动控制器采用分段PID控制方法，利用外环控制逻辑算法进行切换，该方法属于控制器的组合使用，具有切换边界不稳定，控制指令存在跳变的缺陷，同时需要对非线性问题需要进行线性假设，建模过程十分复杂。

发明内容

为了解决上述问题，本发明提出一种基于分布式强化学习的无人机连续机动控制方法，解决无人机的连续机动控制指令序贯决策问题，该方法属于一种无模型智能控制方法。与传统机动控制器相比较不需要控制建模，能够生成连续的机动控制指令，不存在控制器切换而产生的指令跳变等问题。与基本的连续控制强化学习算法，即深度确定性策略梯度算法相比，具备分布式采样功能，增加了样本的多样性，有效缩短强化学习整个训练过程的时间。

本申请基于分布式强化学习的无人机连续机动控制方法，主要包括：

步骤S1、基于无人机动力学参数构建仿真训练环境；

步骤S2、将所述仿真训练环境与强化学习训练系统进行交互，其中，所述强化学习训练系统用于对无人机连续机动控制策略神经网络进行迭代更新，包括接收数据经验池的信息，并通过训练算法生成控制策略，依照所述控制策略控制无人机动作，所述数据经验池存储了所述仿真训练环境产生的环境信息及无人机状态信息；

步骤S3、对所述无人机连续机动控制策略神经网络进行不同随机参数的样本数据采样，获得新的采样样本数据，并加入到所述数据经验池。

优选的是，步骤S1中，所述仿真训练环境包括：

根据舵面偏角及前一时刻的无人机仿真数据进行气动力及气动力矩的计算；

基于油门位置进行发动机推力解算；

依据气动力、气动力矩及发动机推力进行动力学方程解算及运动学方程解算，获得无人机位置、速度及姿态；

基于运动学方程解算结果与大气数据模型交互，获得当前时刻的无人机仿真数据。

优选的是，步骤S2中，所述无人机连续机动控制策略神经网络包括Critic网络、Actor网络和相应的Critic-target网络、Actor-target网络，使用深度确定性策略梯度算法对Critic网络和Actor网络进行训练。

优选的是，所述无人机连续机动控制策略神经网络的训练过程包括：

步骤S21、初始化Actor网络、Actor-target网络的神经网络参数，初始化Critic网络、Critic-target网络的神经网络参数；

步骤S22、根据Actor网络选择无人机控制指令，并与环境交互，进行多个采样，形成采样样本，并加入数据经验池；

步骤S23、从数据经验池中随机抽取批数据进行训练，共进行多次神经网络训练更新；

步骤S24、计算神经网络的loss，并更新更新Critic网络；

步骤S25、计算Actor网络的策略梯度，并更新Actor网络；

步骤S26、采用软更新方式更新Actor-target网络和Critic-target网络。

优选的是，还包括：步骤S4、接收最新生成的无人机连续机动控制策略神经网络，针对于当前的机动动作需求，测试智能体是否能够完成既定目标，用于判断训练是否结束，并同时输出训练终止信号。

优选的是，步骤S2中，所述强化学习训练系统主要包括：

构建状态观测量：以无人机三轴位置，速度，姿态，攻角，侧滑角，航迹倾角，航迹偏角和过载作为状态观测量；

目标函数：以期望的无人机机动动作或期望达到的飞行状态为最终目标，达到期望条件则得到相应的奖励；

训练截止条件：当无人机达到期望的终端状态即完成相应的机动动作或者达到最大训练时长，则训练终止；

无人机控制指令：无人机的舵偏指令以及油门台位置控制指令，神经网络控制指令输出范围取决于无人机本体特性。

优选的是，步骤S3中，采用多个采样进程进行样本数据采样。

本申请另一方面提供了一种电子设备，所述电子设备包括存储器、处理器以及存储在存储器中并能够在处理器上运行的计算机程序，处理器执行计算机程序时实现如上的基于分布式强化学习的无人机连续机动控制方法。

本申请另一方面提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，计算机程序被处理器执行时能够实现如上的基于分布式强化学习的无人机连续机动控制方法。

本申请能够生成连续的机动控制指令，不存在控制器切换而产生的指令跳变等问题，具备分布式采样功能，增加了样本的多样性，有效缩短强化学习整个训练过程的时间。

附图说明

图1是本申请基于分布式强化学习的无人机连续机动控制方法的无人机本体模型组成示意图。

图2是本申请环境与强化学习训练交互示意图。

图3是本申请整体训练架构示意图。

图4是本申请的电子设备的优选实施例示意图。

具体实施方式

为使本申请实施的目的、技术方案和优点更加清楚，下面将结合本申请实施方式中的附图，对本申请实施方式中的技术方案进行更加详细的描述。在附图中，自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。所描述的实施方式是本申请一部分实施方式，而不是全部的实施方式。下面通过参考附图描述的实施方式是示例性的，旨在用于解释本申请，而不能理解为对本申请的限制。基于本申请中的实施方式，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式，都属于本申请保护的范围。下面结合附图对本申请的实施方式进行详细说明。

本申请第一方面提供了一种基于分布式强化学习的无人机连续机动控制方法，主要包括：

步骤S1、基于无人机动力学参数构建仿真训练环境；

本发明提供了一种基于分布式强化学习的无人机连续机动控制方法，依据无人机真实动力学模型构建强化学习训练环境，状态观测量，目标函数，训练截止条件，无人机控制指令。以无人机三轴位置，速度，姿态，攻角，侧滑角，航迹倾角，航迹偏角和过载等作为状态观测量；依据期望的无人机机动动作构建目标函数，当无人机准确完成期望机动动作或达到期望的飞行状态时，智能体获得终端奖励。在分布式强化学习训练过程中，构建多个并行采样进程，根据采样进程设置不同的随机参数，对于深度确定性策略梯度算法而言，就是选取不同的OU过程噪声进行探索，保证样本的多样性，同时也可以加速神经网络训练。在训练完成后，直接将Actor神经网络输出作为无人机机动控制指令。如果无人机准确完成期望机动动作并满足终端状态要求或者训练时间达到预设上限，则满足截止条件本轮训练终止。

本发明将深度强化学习方法应用于无人机连续机动控制，通过离线仿真训练，达到机动动作需求后移植到真实环境中，能够实现无人机的连续机动控制。

在步骤S1中，首先依据无人机动力学参数构建仿真训练环境，仿真训练环境尽可能与真实系统一致，无人机本体仿真模型组成如图1所示，主要包括：

基于油门位置进行发动机推力解算；

在步骤S2中，建立的无人机机动控制仿真训练环境与强化学习训练交互如图2，并且，基于分布式强化学习的无人机连续机动控制方法整体训练架构如图3所示，分别创建训练主进程，采样子进程，训练测试系统以及数据经验池。参考图3，各进程描述如下。

训练主进程：利用采样子进程中传递的智能体与神经网络交互得到的采样样本，对无人机连续机动控制策略神经网络进行迭代更新，直至收敛，其中训练神经网络的算法采用深度确定性策略梯度算法；

采样子进程：接收训练主进程提供的最新神经网络模型，然后根据不同子进程各自不同的随机参数进行探索，不断与环境交互，得到新的采样样本；

训练测试系统：接收训练主进程提供的最新神经网络模型，针对于当前的机动动作需求，测试智能体是否能够完成既定目标，用于判断训练是否结束，并同时输出训练终止信号；

数据经验池：作为采样子进程与训练主进程之间的样本存储系统，存储采样子进程采集的大量训练样本，以满足训练主进程对训练样本的使用需求。

根据当前机动动作需求，构建深度强化学习主要组成要素：

构建状态观测量：以无人机三轴位置，速度，姿态，攻角，侧滑角，航迹倾角，航迹偏角和过载等作为状态观测量；

本发明提出基于分布式深度确定性策略梯度方法，其神经网络结构包括Critic网络、Actor网络和相应的Critic-target网络、Actor-target网络，使用深度确定性策略梯度算法对Critic网络和Actor网络进行训练。

初始化Actor网络、Actor-target网络的神经网络参数θ^Q，初始化Critic网络、Critic-target网络的神经网络参数θ^μ；

首先根据Actor网络选择无人机控制指令，并与环境交互，OU_t表示噪声生成的随机过程，控制指令a_t＝μ(s_t|θ^μ)+OU_t；共进行M轮采样，将采样样本(s_t,a_t,r_t,s_t+1)存入数据经验池；

开始进行训练，从数据经验池中随机抽取批数据进行训练，共进行P次神经网络训练更新；

计算神经网络的loss，并更新更新Critic网络；

y_i＝r_i+γQ'(s_i+1,μ'(s_i+1,|θ^μ')|θ^Q')

然后计算Actor网络的策略梯度，并更新Actor网络；

采用软更新方式更新Actor-target网络和Critic-target网络；

第一轮训练结束，此时数据经验池中已存在大量数据，所以之后的训练过程中每采集一批样本即可开展神经网络训练，直至满足截至条件后，训练完毕保存神经网络。

本申请还提供了一种电子设备，包括存储器、处理器以及存储在存储器中并能够在处理器上运行的计算机程序，处理器执行计算机程序时实现如上的基于分布式强化学习的无人机连续机动控制方法。

本申请还提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序被处理器执行时能够实现如上的基于分布式强化学习的无人机连续机动控制方法。

图4是能够实现根据本申请一个实施例提供的电子设备示例性结构图。如图4所示，电子设备包括输入设备501、输入接口502、中央处理器503、存储器504、输出接口505以及输出设备506。其中，输入接口502、中央处理器503、存储器504以及输出接口505通过总线507相互连接，输入设备501和输出设备506分别通过输入接口502和输出接口505与总线507连接，进而与电子设备的其他组件连接。具体地，输入设备504接收来自外部的输入信息，并通过输入接口502将输入信息传送到中央处理器503；中央处理器503基于存储器504中存储的计算机可执行指令对输入信息进行处理以生成输出信息，将输出信息临时或者永久地存储在存储器504中，然后通过输出接口505将输出信息传送到输出设备506；输出设备506将输出信息输出到电子设备的外部供用户使用。

也就是说，图4所示的电子设备也可以被实现为包括：存储有计算机可执行指令的存储器；以及一个或多个处理器，该一个或多个处理器在执行计算机可执行指令时可以实现结合图1描述的无人机自主寻径模型训练方法。

在一个实施例中，图4所示的电子设备可以被实现为包括：存储器504，被配置为存储可执行程序代码；一个或多个处理器503，被配置为运行存储器504中存储的可执行程序代码，以执行上述实施例中的基于分布式强化学习的无人机连续机动控制方法。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动，媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数据多功能光盘(DVD)或其他光学存储、磁盒式磁带、磁带磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

此外，显然“包括”一词不排除其他单元或步骤。装置权利要求中陈述的多个单元、模块或装置也可以由一个单元或总装置通过软件或硬件来实现。第一、第二等词语用来标识名称，而不标识任何特定的顺序。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，模块、程序段、或代码的一部分包括一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地标识的方框实际上可以基本并行地执行，他们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或总流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

在本实施例中所称处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器可用于存储计算机程序和/或模块，处理器通过运行或执行存储在存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现装置/终端设备的各种功能。存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

在本实施例中，装置/终端设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，计算机程序包括计算机程序代码，计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括：能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。

需要说明的是，计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减。本申请虽然以较佳实施例公开如上，但其实并不是用来限定本申请，任何本领域技术人员在不脱离本申请的精神和范围内，都可以做出可能的变动和修改，因此，本申请的保护范围应当以本申请权利要求所界定的范围为准。

虽然，上文中已经用一般性说明及具体实施方案对本发明作了详尽的描述，但在本发明基础上，可以对之作一些修改或改进，这对本领域技术人员而言是显而易见的。因此，在不偏离本发明精神的基础上所做的这些修改或改进，均属于本发明要求保护的范围。

Claims

1.一种基于分布式强化学习的无人机连续机动控制方法，其特征在于，包括：

步骤S1、基于无人机动力学参数构建仿真训练环境；

2.如权利要求1所述的基于分布式强化学习的无人机连续机动控制方法，其特征在于，步骤S1中，所述仿真训练环境包括：

基于油门位置进行发动机推力解算；

3.如权利要求1所述的基于分布式强化学习的无人机连续机动控制方法，其特征在于，步骤S2中，所述无人机连续机动控制策略神经网络包括Critic网络、Actor网络和相应的Critic-target网络、Actor-target网络，使用深度确定性策略梯度算法对Critic网络和Actor网络进行训练。

4.如权利要求3所述的基于分布式强化学习的无人机连续机动控制方法，其特征在于，所述无人机连续机动控制策略神经网络的训练过程包括：

步骤S24、计算神经网络的loss，并更新更新Critic网络；

步骤S25、计算Actor网络的策略梯度，并更新Actor网络；

5.如权利要求1所述的基于分布式强化学习的无人机连续机动控制方法，其特征在于，还包括：

步骤S4、接收最新生成的无人机连续机动控制策略神经网络，针对于当前的机动动作需求，测试智能体是否能够完成既定目标，用于判断训练是否结束，并同时输出训练终止信号。

6.如权利要求1所述的基于分布式强化学习的无人机连续机动控制方法，其特征在于，步骤S2中，所述强化学习训练系统主要包括：

7.如权利要求1所述的基于分布式强化学习的无人机连续机动控制方法，其特征在于，步骤S3中，采用多个采样进程进行样本数据采样。

8.一种电子设备，其特征在于，所述电子设备包括存储器、处理器以及存储在存储器中并能够在处理器上运行的计算机程序，处理器执行计算机程序时实现如上的基于分布式强化学习的无人机连续机动控制方法。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，计算机程序被处理器执行时能够实现如上的基于分布式强化学习的无人机连续机动控制方法。