CN113705777A

CN113705777A - 一种无人机自主寻径模型训练方法及装置

Info

Publication number: CN113705777A
Application number: CN202110904669.3A
Authority: CN
Inventors: 韩玥; 朴海音; 孙智孝; 彭宣淇; 杨晟琦; 孙阳; 樊松源; 于津; 詹光; 马启兵
Original assignee: Shenyang Aircraft Design and Research Institute Aviation Industry of China AVIC
Current assignee: Shenyang Aircraft Design and Research Institute Aviation Industry of China AVIC
Priority date: 2021-08-07
Filing date: 2021-08-07
Publication date: 2021-11-26
Anticipated expiration: 2041-08-07
Also published as: CN113705777B

Abstract

本申请公开一种无人机自主寻径模型训练方法及装置。所述无人机自主寻径模型训练方法包括：获取多个训练样本数据，每个训练样本数据包括当面状态信息、底层机动决策信息、下一时刻状态信息、综合激励信息以及云机动决策信息；获取无人机自主寻径模型；根据所述训练样本数据对所述无人机自主寻径模型进行训练。本申请的无人机自主寻径模型训练方法通过训练样本数据中的底层机动决策信息、综合激励信息以及云机动决策信息对无人机自主寻径模型进行训练，能够较好地解决激励信息稀疏场景下的路径规划任务，并且在训练过程中可以对仿真环境进行充分的探索，提高无人机任务规划中路径规划策略的鲁棒性。

Description

一种无人机自主寻径模型训练方法及装置

技术领域

本申请涉及无人机寻径技术领域，具体涉及一种无人机自主寻径模型训练方法以及无人机自主寻径模型训练装置。

背景技术

随着无人机在军事领域的广泛应用，越来越的学者开始专注于与之相关的路径规划的研究。加之我军机械化、信息化、智能化将长期并存并行发展，国防和军队建设整体水平取决于“三化”融合发展水平，人工智能的兴起将不断推动我国航空技术的发展。无人机根据任务需求规划出满足约束条件的飞行路径,是无人机任务规划的核心部分，基于人工智能的无人机自主寻径在无人机执行作战任务的过程中起着至关重要的作用。

在人工智能研究领域，基于强化学习的路径规划是无人机自主寻径的基本方法。传统的基于强化学习的路径规划方法通过无人机与仿真环境的交互，不断更新状态信息并获取环境给予的激励信息，迭代优化路径规划策略。这种方法对环境给予的激励信息依赖很大，但在无人机寻径的场景中，通常情况下该种激励信息较为稀疏，或者需要人为设计，为策略优化带来一定的难度。另外，智能体对环境探索性是强化学习领域一个较为重要的研究点，只有当智能体对环境的探索足够充分，才可以训练出较为鲁棒、灵活的策略，这一点在无人机寻径的任务中也同样重要，而传统方法带来的探索性并不理想。

因此，希望有一种技术方案来克服或至少减轻现有技术的至少一个上述缺陷。

发明内容

本发明的目的在于提供一种无人机自主寻径模型训练方法来克服或至少减轻现有技术的至少一个上述缺陷。

本发明的一个方面，提供一种无人机自主寻径模型训练方法，所述无人机自主寻径模型训练方法包括：

获取多个训练样本数据，每个训练样本数据包括当面状态信息、底层机动决策信息、下一时刻状态信息、综合激励信息以及云机动决策信息；

获取无人机自主寻径模型；

根据所述训练样本数据对所述无人机自主寻径模型进行训练。

可选地，所述云机动决策信息采用如下方式获取：

获取无人机综合状态信息；

获取高层决策网络；

将所述无人机综合装填信息输入至所述高层决策网络，从而获取云机动决策信息。

可选地，所述底层机动决策信息采用如下方法获取：

获取无人机自身状态信息以及所述云机动决策信息；

获取底层决策网络；

将所述无人机自身状态信息以及所述云机动决策信息输入至底层决策网络从而获取底层机动决策信息。

可选地，所述综合激励信息采用如下方法获取：

获取外部激励信息；

获取基于互信息理论计算的内部激励信息；

将所述外部激励信息以及所述内部激励信息进行融合从而获取综合激励信息。

可选地，所述将所述外部激励信息以及所述内部激励信息进行融合从而获取综合激励信息采用如下公式：

r＝r_o+αr_i；

r_i＝H(z)-H(z|s)；其中，

外部激励信息为r_o、内部激励信息为r_i、α是权重超参；r为综合激励信息。

可选地，所述内部激励信息采用如下公式获取：

r_i＝H(z)-H(z|s)；其中，

最大化元机动分布的散度为H(z)、最小化条件熵为H(z|s)；内部激励信息为r_i。

本申请还提供了一种无人机自主寻径模型训练装置，所述无人机自主寻径模型训练装置包括：

训练样本数据获取模块，所述训练样本数据获取模块用于获取多个训练样本数据，每个训练样本数据包括当面状态信息、底层机动决策信息、下一时刻状态信息、综合激励信息以及云机动决策信息；

模型获取模块，所述模型获取模块用于获取无人机自主寻径模型；

训练模块，所述训练模块用于根据所述训练样本数据对所述无人机自主寻径模型进行训练。

本申请还提供了一种电子设备，所述电子设备包括存储器、处理器以及存储在存储器中并能够在处理器上运行的计算机程序，处理器执行计算机程序时实现如上的无人机自主寻径模型训练方法。

本申请还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，计算机程序被处理器执行时能够实现如上的无人机自主寻径模型训练方法。

有益效果

本申请的无人机自主寻径模型训练方法通过训练样本数据中的底层机动决策信息、综合激励信息以及云机动决策信息对无人机自主寻径模型进行训练，能够较好地解决激励信息稀疏场景下的路径规划任务，并且在训练过程中可以对仿真环境进行充分的探索，提高无人机任务规划中路径规划策略的鲁棒性，进一步推动无人机在实际应用中的智能化发展。

附图说明

图1为本申请一实施例的无人机自主寻径模型训练方法的流程示意图。

图2是能够实现根据本申请一个实施例提供的电子设备的示例性结构图。

具体实施方式

为使本申请实施的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行更加详细的描述。在附图中，自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。所描述的实施例是本申请一部分实施例，而不是全部的实施例。下面通过参考附图描述的实施例是示例性的，旨在用于解释本申请，而不能理解为对本申请的限制。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。下面结合附图对本申请的实施例进行详细说明。

需要说明的是，在本发明的描述中，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性。

如图1所示的无人机自主寻径模型训练方法包括：

步骤1：获取多个训练样本数据，每个训练样本数据包括当面状态信息、底层机动决策信息、下一时刻状态信息、综合激励信息以及云机动决策信息；

步骤2：获取无人机自主寻径模型；

步骤3：根据训练样本数据对所述无人机自主寻径模型进行训练。

在本实施例中，云机动决策信息采用如下方式获取：

获取无人机综合状态信息；

获取高层决策网络；

将无人机综合装填信息输入至所述高层决策网络，从而获取云机动决策信息。

在本实施例中，高层决策网络输入为无人机综合状态信息，输出为元机动决策分布

从

中随机抽取某种元机动作为该回合的云机动决策信息，并在整个采样回合中保持不变。

在本实施例中，底层机动决策信息采用如下方法获取：

获取无人机自身状态信息以及云机动决策信息；

获取底层决策网络；

将无人机自身状态信息以及云机动决策信息输入至底层决策网络从而获取底层机动决策信息。

在本实施例中，底层决策网络输入为无人机自身状态信息和高层元机动给予的元机动，输出为底层机动决策分布。从底层机动决策分布中选取机动动作，并与环境进行交互。

在本实施例中，综合激励信息采用如下方法获取：

获取外部激励信息；

获取基于互信息理论计算的内部激励信息；

将外部激励信息以及内部激励信息进行融合从而获取综合激励信息。

在本实施例中，将外部激励信息以及内部激励信息进行融合从而获取综合激励信息采用如下公式：

r＝r_o+αr_i；

r_i＝H(z)-H(z|s)；其中，

在本实施例中，内部激励信息采用如下公式获取：

r_i＝H(z)-H(z|s)；其中，

具体而言，在训练阶段，最大化综合激励，意味着最小化H(z|s)和最大化H(z)。可解释为，最大化元机动分布的散度H(z)，是为了增加元机动的多样性，促使无人机尽最大可能对环境进行探索。而最小化条件熵H(z|s)是为了增加无人机对环境的可控性，可根据状态信息推测无人机采取的机动，也就是说保证了不同元机动所采取的底层机动尽可能不同，进一步增加了无人机对环境的探索。

在本实施例中，每个训练样本数据通过无人机的每个决策点获取，在无人机的每一个决策点，可采集相应的样本信息，具体包括当面状态信息s，底层机动决策a，下一时刻状态信息s`，综合激励信息r，云机动决策z。将每条样本定义为{s，a，s`，r，z}，并将其作为训练样本放入经验池中。

在本实施例中，根据训练样本数据对无人机自主寻径模型进行训练采用如下方法：

无人机自主巡径过程依赖带有参数θ的无人机自主寻径模型Π，在训练阶段，通过A2C强化学习算法，不断更新更新无人机自主寻径模型Π的参数θ，以获取最优的自主巡径策略。具体步骤如下：

更新策略模型

首先根据样本{s，a，s`，r，z}，计算Advantage：

adv(a|s,z)＝q(a,s`,z)-v(s`,z)＝r+γv(s`,z)-v(s,z)

adv的计算依赖状态值函数

(﹒)，输入为状态s和元机动决策z，输出为对应状态的价值。γ为折扣因子，是一个超参。

然后计算策略模型损失函数梯度

最后采用SGD(随机梯度下降)算法对策略网络参数θ进行更新

更新值函数

首先根据值函数计算TD-error：

TD-error＝r+r+γv(s`,z)-v(s,z)

然后用TD-error作为值函数的损失函数，同样采用SGD的算法对值函数的参数

进行更新。

本申请的无人机自主寻径模型训练方法通过端到端的方式同时训练高层决策网络和底层决策网络，融合环境给予的外部激励和基于互信息的内在激励，优化无人机寻径策略。

在样本采集阶段，高层决策网络(即高层机动决策模型)根据当前环境状态信息和智能体状态信息，给出元机动决策分布。并从该分布中随机抽取一种元机动，作为当前回合的高层决策，并在整个回合中固定不变。底层决策网络(即底层决策模型)根据智能体状态信息和当面回合的元动作，给出底层机动决策。智能体采取该决策与环境交互，获取环境给予的外部激励信息，同时基于互信息理论计算内部激励信息，将两者融合作为整体的决策的激励。最后搜集该决策点的要素信息，加入导经验池中，为训练阶段提供充足的样本数据。

在模型训练阶段，基于强化学习中的基本算法—A2C算法对决策网络和值网络进行迭代更新。其中，决策网络指机动决策模型中的神经网络，本发明采取端到端的训练方法，其中高层决策模型的神经网络和底层决策模型的神经网络同时进行迭代更新；值网络为策略网络的更新提供某种依据，其输入为当前时刻的状态信息，输出为当前时刻的状态价值，为策略网络的损失计算提供理论基础。

本申请还提供了一种无人机自主寻径模型训练装置，所述无人机自主寻径模型训练装置包括训练样本数据获取模块、模型获取模块以及训练模块，训练样本数据获取模块用于获取多个训练样本数据，每个训练样本数据包括当面状态信息、底层机动决策信息、下一时刻状态信息、综合激励信息以及云机动决策信息；模型获取模块用于获取无人机自主寻径模型；训练模块用于根据训练样本数据对无人机自主寻径模型进行训练。

需要说明的是，前述对方法实施例的解释说明也适用于本实施例的装置，此处不再赘述。

本申请还提供了一种电子设备，包括存储器、处理器以及存储在存储器中并能够在处理器上运行的计算机程序，处理器执行计算机程序时实现如上的无人机自主寻径模型训练方法。

本申请还提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序被处理器执行时能够实现如上的无人机自主寻径模型训练方法。

如图2所示，电子设备包括输入设备501、输入接口502、中央处理器503、存储器504、输出接口505以及输出设备506。其中，输入接口502、中央处理器503、存储器504以及输出接口505通过总线507相互连接，输入设备501和输出设备506分别通过输入接口502和输出接口505与总线507连接，进而与电子设备的其他组件连接。具体地，输入设备504接收来自外部的输入信息，并通过输入接口502将输入信息传送到中央处理器503；中央处理器503基于存储器504中存储的计算机可执行指令对输入信息进行处理以生成输出信息，将输出信息临时或者永久地存储在存储器504中，然后通过输出接口505将输出信息传送到输出设备506；输出设备506将输出信息输出到电子设备的外部供用户使用。

也就是说，图2所示的电子设备也可以被实现为包括：存储有计算机可执行指令的存储器；以及一个或多个处理器，该一个或多个处理器在执行计算机可执行指令时可以实现结合图1描述的无人机自主寻径模型训练方法。

在一个实施例中，图2所示的电子设备可以被实现为包括：存储器504，被配置为存储可执行程序代码；一个或多个处理器503，被配置为运行存储器504中存储的可执行程序代码，以执行上述实施例中的无人机自主寻径模型训练方法。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动，媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数据多功能光盘(DVD)或其他光学存储、磁盒式磁带、磁带磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

此外，显然“包括”一词不排除其他单元或步骤。装置权利要求中陈述的多个单元、模块或装置也可以由一个单元或总装置通过软件或硬件来实现。第一、第二等词语用来标识名称，而不标识任何特定的顺序。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，模块、程序段、或代码的一部分包括一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地标识的方框实际上可以基本并行地执行，他们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或总流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

在本实施例中所称处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器可用于存储计算机程序和/或模块，处理器通过运行或执行存储在存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现装置/终端设备的各种功能。存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

在本实施例中，装置/终端设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，计算机程序包括计算机程序代码，计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括：能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。

需要说明的是，计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减。本申请虽然以较佳实施例公开如上，但其实并不是用来限定本申请，任何本领域技术人员在不脱离本申请的精神和范围内，都可以做出可能的变动和修改，因此，本申请的保护范围应当以本申请权利要求所界定的范围为准。

虽然，上文中已经用一般性说明及具体实施方案对本发明作了详尽的描述，但在本发明基础上，可以对之作一些修改或改进，这对本领域技术人员而言是显而易见的。因此，在不偏离本发明精神的基础上所做的这些修改或改进，均属于本发明要求保护的范围。

Claims

1.一种无人机自主寻径模型训练方法，其特征在于，所述无人机自主寻径模型训练方法包括：

获取无人机自主寻径模型；

2.如权利要求1所述的无人机自主寻径模型训练方法，其特征在于，所述云机动决策信息采用如下方式获取：

获取无人机综合状态信息；

获取高层决策网络；

3.如权利要求2所述的无人机自主寻径模型训练方法，其特征在于，所述底层机动决策信息采用如下方法获取：

获取无人机自身状态信息以及所述云机动决策信息；

获取底层决策网络；

4.如权利要求3所述的无人机自主寻径模型训练方法，其特征在于，所述综合激励信息采用如下方法获取：

获取外部激励信息；

获取基于互信息理论计算的内部激励信息；

5.如权利要求4所述的无人机自主寻径模型训练方法，其特征在于，所述将所述外部激励信息以及所述内部激励信息进行融合从而获取综合激励信息采用如下公式：

r＝r_o+αr_i；

r_i＝H(z)-H(z|s)；其中，

6.如权利要求5所述的无人机自主寻径模型训练方法，其特征在于，所述内部激励信息采用如下公式获取：

r_i＝H(z)-H(z|s)；其中，

7.一种无人机自主寻径模型训练装置，其特征在于，所述无人机自主寻径模型训练装置包括：

8.一种电子设备，其特征在于，所述电子设备包括存储器、处理器以及存储在存储器中并能够在处理器上运行的计算机程序，处理器执行计算机程序时实现如权利要求1至6中任意一项所述的无人机自主寻径模型训练方法。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，计算机程序被处理器执行时能够实现如权利要求1至6中任意一项所述的无人机自主寻径模型训练方法。