CN114239392B

CN114239392B - 无人机决策模型训练方法、使用方法、设备及介质

Info

Publication number: CN114239392B
Application number: CN202111503559.2A
Authority: CN
Inventors: 袁银龙; 焦朋朋; 许亚龙; 程赟; 桑小虎; 华亮; 李俊红
Original assignee: Nantong University
Current assignee: Nantong University
Priority date: 2021-12-09
Filing date: 2021-12-09
Publication date: 2023-03-24
Anticipated expiration: 2041-12-09
Also published as: CN114239392A

Abstract

本申请公开了一种无人机决策模型训练方法、使用方法、设备及介质，训练方法包括：获取第一无人机的第一态势信息与第二无人机的第二态势信息；根据第一态势信息与第二态势信息生成第一融合信息并输入待训练模型的评估层网络，评估层网络基于第一策略生成分值期望，待训练模型的决策层网络根据分值期望生成第二策略并基于第二策略生成第一动作指令；向第一无人机发送第一动作指令，并获取第一无人机的第三态势信息与第二无人机的第四态势信息；将根据第三态势信息与第四态势信息生成的第二融合信息输入评估层网络以更新第一策略，直至待训练模型训练完成，得到无人机决策模型，通过该模型提升无人机的适应能力、实现无人机决策的自主化与智能化。

Description

无人机决策模型训练方法、使用方法、设备及介质

技术领域

本申请涉及无人机技术领域，尤其涉及一种无人机决策模型训练方法、使用方法、设备及介质。

背景技术

目前，无人机在军事领域的应用十分广泛，尤其在战场环境分析、无人机群组作战等方面都发挥着重要作用，而在无人机群组作战的应用中，无人机完成任务作业的自主性是其中的关键因素。

但当前无人机群在实际的作战对抗时不够智能而且场景适应性差，需要一定程度的人工干预，导致无人机群在复杂的作战环境中难以作出准确的动作决策无法连续执行复杂的战斗作业。

因此，如何训练无人机决策模型以提升无人机的作战场景适应能力，以及实现无人机进行动作决策与动作执行的自主化、智能化，是本领域技术人员正在研究的热门课题。

发明内容

本申请提供一种无人机决策模型训练方法、使用方法、设备及介质，旨在通过训练无人机决策模型并使用该决策模型提升无人机的适应能力，以及实现无人机进行动作决策与动作执行的自主化、智能化。

第一方面，本申请提供了一种无人机决策模型训练方法，包括：

向第一无人机发送初始化指令，以使第一无人机根据初始化指令采集第一无人机的第一态势信息与第二无人机的第二态势信息；

获取第一态势信息与第二态势信息，并根据第一态势信息与第二态势信息生成第一融合信息；

将第一融合信息输入待训练模型的评估层网络，评估层网络基于预设的第一策略生成与第一融合信息对应的分值期望；

待训练模型的决策层网络根据分值期望生成第二策略，并基于第二策略生成与第一融合信息对应的第一动作指令；

向第一无人机发送第一动作指令，以使第一无人机根据第一动作指令执行第一动作并在执行第一动作后采集第一无人机的第三态势信息以及第二无人机的第四态势信息；

获取第一无人机采集的第三态势信息与第四态势信息，并根据第三态势信息与第四态势信息生成第二融合信息；

将第二融合信息输入评估层网络以更新第一策略，直至待训练模型训练完成，得到无人机决策模型。

可选的，将第二融合信息输入评估层网络以更新第一策略之后，还包括：

将第二融合信息输入评估层网络，评估层网络基于更新后的第一策略生成与第二融合信息对应的优化期望；

决策层网络根据优化期望更新第二策略，并基于更新后的第二策略生成与第二融合信息对应的第二动作指令；

向第一无人机发送第二动作指令，以使第一无人机根据第二动作指令执行第二动作并在执行第二动作后采集第一无人机的第五态势信息以及第二无人机的第六态势信息；

获取第一无人机采集的第五态势信息与第六态势信息，并根据第五态势信息与第六态势信息生成第三融合信息；

将第三融合信息输入评估层网络以更新第一策略。

可选的，获取第一态势信息与第二态势信息，并根据第一态势信息与第二态势信息生成第一融合信息，包括：

获取第一无人机采集的第一态势信息、与多台第一无人机采集的第二态势信息；

根据多台第一无人机采集的第二态势信息获取第二无人机的准确态势信息；

根据第一态势信息与准确态势信息生成对应第一无人机的第一融合信息。

可选的，根据多台第一无人机采集的第二态势信息获取第二无人机的准确态势信息，包括：

解析第二态势信息获取第二无人机的第二位置信息与第二姿态信息；

根据多个第二位置信息确定第二无人机的准确位置信息；

获取多台第一无人机采集第二姿态信息的采集位置，并计算采集位置与准确位置信息的空间距离；

确定空间距离符合预设距离范围的采集位置，并根据采集位置对应的第二姿态信息确定第二无人机的准确姿态信息；

根据准确位置信息与准确姿态信息确定第二无人机的准确态势信息。

可选的，将第二融合信息输入评估层网络以更新第一策略，包括：

根据第二融合信息确定第一动作指令对应的任务执行结果；

当任务执行结果为失败时，基于预设的评分函数并根据第二融合信息计算预评分信息；

根据预评分信息与预设的目标评分信息确定评估层网络输出分值期望的目标值，并根据第一融合信息与目标值调整第一策略。

可选的，确定动作指令对应的任务执行结果之后，还包括：

当任务执行结果为成功时，以预评分信息作为分值期望的目标值，并根据第一融合信息与目标值调整第一策略。

可选的，基于预设的评分函数并根据第二融合信息计算预评分信息，包括：

解析第二融合信息，获取第一无人机的第三位置信息与第三姿态信息、以及第二无人机的第四位置信息与第四姿态信息；

根据第三位置信息与第四位置信息确定用于表征第一无人机与第二无人机距离的第一距离信息、以及用于表征第一无人机与预设目标区域距离的第二距离信息；

根据第一当前姿态与第二当前姿态确定用于表征第一无人机与第二无人机的机身角度差的角度差信息；

基于预设的评分函数，根据第一距离信息、第二距离信息、与角度差信息计算预评分信息。

第二方面，本申请实施例还提供了一种无人机决策模型使用方法，包括：

接收决策指令并根据决策指令调用无人机决策模型，其中，无人机决策模型为采用上述的无人机决策模型训练方法得到；

接收第一无人机采集的第一当前态势信息及第二当前态势信息，并根据第一当前态势信息及第二当前态势信息生成当前融合信息；

将当前融合信息输入无人机决策模型得到与当前融合信息对应的动作指令；

向第一无人机发送动作指令，以使第一无人机根据动作指令执行对应的动作。

第三方面，本申请实施例还提供了一种计算机设备，计算机设备包括存储器和处理器；

存储器，用于存储计算机程序；

处理器，用于执行的计算机程序并在执行的计算机程序时实现如上的无人机决策模型训练方法，或实现如上的无人机决策模型使用方法。

第四方面，本申请实施例还提供了一种计算机可读存储介质，其特征在于，计算机可读存储介质存储有计算机程序，计算机程序被处理器执行时使处理器实现如上的无人机决策模型训练方法，或实现如上的无人机决策模型使用方法。

本申请实施例提供了一种无人机决策模型训练方法、使用方法、设备及介质，通过向第一无人机发送初始化指令，以使第一无人机根据初始化指令采集第一无人机的第一态势信息与第二无人机的第二态势信息，获取第一态势信息与第二态势信息，并根据第一态势信息与第二态势信息生成第一融合信息，将第一融合信息输入待训练模型的评估层网络，评估层网络基于预设的第一策略生成与第一融合信息对应的分值期望，待训练模型的决策层网络根据分值期望生成第二策略，并基于第二策略生成与第一融合信息对应的第一动作指令，向第一无人机发送第一动作指令，以使第一无人机根据第一动作指令执行第一动作并在执行第一动作后采集第一无人机的第三态势信息以及第二无人机的第四态势信息，获取第一无人机采集的第三态势信息与第四态势信息，并根据第三态势信息与第四态势信息生成第二融合信息，将第二融合信息输入评估层网络以更新第一策略，直至待训练模型训练完成，得到无人机决策模型，从而通过该无人机决策模型提升无人机的适应能力，以及实现无人机进行动作决策与动作执行的自主化、智能化。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的无人机决策模型训练方法与使用方法的场景示意图；

图2是本发明实施例提供的计算机设备的结构性框图；

图3是本发明实施例提供的无人机决策模型训练方法的流程示意图；

图4是本发明实施例提供的待训练模型的模型结构示意图；

图5是本发明实施例提供的无人机决策模型训练方法中第一策略调整步骤的流程示意图；

图6是本发明实施例提供的无人机决策模型使用方法的流程示意图；

附图标记：

100、第一无人机群；110、第一无人机；111、采集机构；112、运动机构；200、第二无人机群；210、第二无人机；300、计算机设备；301、处理器；302、存储器；303、总线。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

附图中所示的流程图仅是示例说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解、组合或部分合并，因此实际执行的顺序有可能根据实际情况改变。

应当理解，在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

下面结合附图，对本申请的一些实施方式作详细说明。在不冲突的情况下，下述的实施例及实施例中的特征可以相互组合。

本申请的实施例提供了一种无人机决策模型训练方法、使用方法、设备及介质，本无人机决策模型训练方法可以应用于与无人机通信连接的控制设备上，旨在通过训练无人机决策模型并在使用时将无人机侦测的场景信息输入该决策模型获得对应的指令，以提升无人机的适应能力，以及实现无人机进行动作决策与动作执行的自主化、智能化。

请参阅图1，图1是本发明实施例提供的无人机决策模型训练方法与使用方法的场景示意图。

如图1所示，第一无人机群100包括多台第一无人机110，第一无人机110至少包括有用于采集场景信息的采集机构、以及用于驱动第一无人机110运动的运动机构，计算机设备300与第一无人机群100中的第一无人机110通信连接，用于接收第一无人机110采集的场景信息，将场景信息整合为融合信息并输入模型得到第一动作指令，并向对应的第一无人机110发送第一动作指令以使第一无人机110执行对应的第一动作，其中，融合信息用于表征场景信息，而第二无人机群200包括多台第二无人机210，采集机构具体可以是雷达、或摄像机，第一无人机110可通过采集机构采集第一无人机110所在战场的场景信息。

以本无人机决策模型训练方法与使用方法应用于无人机群组对抗为例，可以把己方无人机作为第一无人机110、并把敌方无人机作为第二无人机210进行无人机决策模型的训练与使用，即以己方无人机群组作为第一无人机群100，以敌方无人机群组作为第二无人机群200，计算机设备300作为与第一无人机110通信连接的控制器，用于向第一无人机110输出动作指令以使第一无人机110执行对应的动作，以完成与第二无人机210对抗的任务作业。

需知，图1中的场景仅用于解释本申请实施例提供的无人机决策模型训练方法与使用方法，但并不构成对本申请实施例提供的无人机决策模型训练方法与使用方法应用场景的具体限定。

请参阅图2，图2为本申请实施例提供的一种计算机设备的结构示意性框图。

如图2所示，计算机设备300包括处理器301和存储器302，处理器301和存储器302通过总线303连接，该总线比如为I2C(Inter-integrated Circuit)总线。

具体地，处理器301用于提供计算和控制能力，支撑整个计算机设备的运行。处理器301可以是中央处理单元(Central Processing Unit，CPU)，该处理器301还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

具体地，存储器302可以是Flash芯片、只读存储器(ROM，Read-Only Memory)磁盘、光盘、U盘或移动硬盘等。

本领域技术人员可以理解，图2中示出的结构，仅仅是与本申请实施例方案相关的部分结构的框图，并不构成对本申请实施例方案所应用于计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

其中，处理器用于运行存储在存储器中的计算机程序，并在执行计算机程序时实现本申请实施例提供的任意一种无人机决策模型训练方法与无人机决策模型使用方法。

在一实施方式中，处理器301用于运行存储在存储器302中的计算机程序，并在执行计算机程序时实现如下步骤：

在一些实施方式中，处理器301在将第二融合信息输入评估层网络以更新第一策略之后，还包括：

将第三融合信息输入评估层网络以更新第一策略。

在一些实施方式中，处理器301在获取第一态势信息与第二态势信息，并根据第一态势信息与第二态势信息生成第一融合信息时，包括：

在一些实施方式中，处理器301在根据多台第一无人机采集的第二态势信息获取第二无人机的准确态势信息时，包括：

根据多个第二位置信息确定第二无人机的准确位置信息；

在一些实施方式中，处理器301在将第二融合信息输入评估层网络以更新第一策略时，包括：

根据第二融合信息确定动作指令对应的任务执行结果；

在一些实施方式中，处理器301在确定动作指令对应的任务执行结果之后，还包括：

在一些实施方式中，处理器301在基于预设的评分函数并根据第二融合信息计算预评分信息时，包括：

根据第三位置信息与第四位置信息确定第一无人机与第二无人机的第一距离信息、以及第一无人机与预设目标区域的第二距离信息；

根据第一当前姿态与第二当前姿态确定第一无人机与第二无人机的角度差信息；

在一实施方式中，处理器301在执行计算机程序时还可实现如下步骤：

本申请实施例还提供一种计算机存储介质，所述计算机存储介质存储有计算机程序，所述计算机程序可被一个或者多个处理器执行，以实现如本申请实施例说明书提供的任一项无人机决策模型训练方法或使用方法的步骤。

其中，所述存储介质可以是前述实施例所述的计算机设备的内部存储单元，例如所述计算机设备的硬盘或内存。所述存储介质也可以是所述计算机设备的外部存储设备，例如所述计算机设备上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。

以下将结合计算机设备的工作原理，对本申请实施例提供的无人机决策模型训练方法与使用方法进行详细说明。

请参阅图3，图3是本发明实施例提供的无人机决策模型训练方法的流程示意图。

如图3所示，无人机决策模型训练方法具体包括步骤S11至步骤S17。

步骤S11：向第一无人机发送初始化指令，以使第一无人机根据初始化指令采集第一无人机的第一态势信息与第二无人机的第二态势信息。

计算机设备根据用户的输入向第一无人机发送初始化指令，以使第一无人机根据初始化指令调整自身的飞行位置与飞行姿态，并在调整后采集自身的第一态势信息与第二无人机的第二态势信息，其中，初始化指令包括对应第一无人机的第一飞行位置命令、与第一飞行姿态命令中的至少一种，第一无人机解析初始化指令并根据初始化指令中的具体内容调整飞行位置和/或飞行姿态。可以理解的是，第一态势信息可以包括用于表征第一无人机空间位置的第一位置信息、以及用于表征第一无人机飞行姿态的第一姿态信息，第二态势信息可以包括用于表征第二无人机空间位置的的第二位置信息、以及用于表征第二无人机飞行姿态的第二姿态信息。

在一些实施方式中，用户可以通过终端设备向计算机设备发送启动指令，计算机设备解析启动命令获取第二无人机数量，然后根据第二无人机数量在己方无人机群中确定多台第一无人机以及与第一无人机对应的初始化指令，在此之后，向多台第一无人机发送对应的初始化指令，以使第一无人机执行对应的飞行动作，并在执行对应的飞行动作之后，采集第一无人机的第一态势信息与第二无人机的第二态势信息。

在另一些实施方式中，用户直接在计算机设备上进行操作，计算机设备根据用户的具体操作向第一无人机发送初始化指令，以使第一无人机根据初始化指令调整自身的飞行位置与飞行姿态，并在调整后采集自身的第一态势信息与第二无人机的第二态势信息。

步骤:12：获取第一态势信息与第二态势信息，并根据第一态势信息与第二态势信息生成第一融合信息。

执行本方法的计算机设备获取第一无人机采集的第一态势信息与第二态势信息，其中，第一态势信息为第一无人机自身的飞行态势信息，第二态势信息为第二无人机群中的至少一台第二无人机的飞行态势信息。下面以第二态势信息为第二无人机群中一台第二无人机的飞行态势信息为例进行具体说明。

在获取第一态势信息与第二态势信息之后，计算机设备根据第一态势信息与第二态势信息生成第一融合信息，具体地，第一融合信息包括了第一无人机的飞行态势信息与第二无人机的飞行态势信息。

构建虚拟场景地图，并在虚拟场景地图上设置与第一无人机、第二无人机分别对应的虚拟对象，以虚拟对象表征第一无人机与第二无人机对应的飞行位置与飞行姿态，然后将虚拟场景地图中的信息进行整合以及归一化处理得到融合信息以表征第一无人机所在的场景信息。

在一些实施方式中，步骤S12具体包括：

具体地，计算机设备获取多台第一无人机采集的第一态势信息与第二态势信息，根据多台第一无人机的第一态势信息与第二无人机的第二态势信息获取第二无人机的准确态势信息，根据第一态势信息与准确态势信息生成对应第一无人机的第一融合信息。可以理解的是，使用多台第一无人机采集第二态势信息，能准确地根据多个第二态势信息获取第二无人机的准确态势信息，提升信息整合的精准度。

在一些实施方式中，根据多台第一无人机采集的第二态势信息获取第二无人机的准确态势信息，包括：

根据多个第二位置信息确定第二无人机的准确位置信息；

具体地，计算机设备解析多台第一无人机采集的第二态势信息获取多组第二位置信息与第二姿态信息，并根据多个第二位置信息确定第二无人机的准确位置信息，根据多个第二姿态信息确定第二无人机的准确姿态信息。

示例性地，根据多个第二位置信息确定第二无人机的准确位置信息包括：首先基于预设的滤除算法对多个位置信息进行处理，以滤除其中较为离散的位置信息，然后计算滤除后的多个位置信息在空间中的位置中心，并以该位置中心作为第二无人机的准确位置信息。

进一步地，在确定第二无人机的准确位置信息之后，获取多台第一无人机采集第二姿态信息的采集位置，计算采集位置与准确位置信息的空间距离，根据空间距离筛选采集位置，并以筛选留下的采集位置对应的第二姿态信息确定第二无人机的准确姿态信息，根据准确位置信息与准确姿态信息确定第二无人机的准确态势信息。

可以理解的是，第一无人机采集第二姿态信息的采集位置即为第一无人机的第一位置信息，计算第一无人机的第一位置信息与第二无人机的准确位置信息之间的空间距离，计算采集位置与准确位置信息的空间距离。在此之后，根据预设的空间范围此空间距离在多个采集位置确定空间距离符合预设距离范围的采集位置，并根据采集位置对应的第二姿态信息确定第二无人机的准确姿态信息，以预设空间范围为直线距离小于100米为例，在多个采集位置中确定与第二无人机的准确位置信息相距小于100米的采集位置，并根据筛选留下的采集位置对应的第二姿态信息确定第二无人机的准确姿态信息，又例如以与第二无人机的准确位置信息相距最短的采集位置对应的第二姿态信息作为第二无人机的准确姿态信息。

步骤S13：将第一融合信息输入待训练模型的评估层网络，评估层网络基于预设的第一策略生成与第一融合信息对应的分值期望。

步骤S14：待训练模型的决策层网络根据分值期望生成第二策略，并基于第二策略生成与第一融合信息对应的第一动作指令。

请参阅图4，图4为本申请提供的待训练模型的模型结构示意图。

如图4所示，待训练模型包括评估层网络与决策层网络，首先是将第一融合信息输入待训练模型的评估层网络，然后评估层网络基于预设的第一策略生成与第一融合信息对应的分值期望并输出该分值期望，具体地，第一策略预先存储在评估层网络中，且第一策略可动态调整。在此之后，将评估层网络生成的分值期望输入决策层网络，以使决策层网络根据分值期望生成第二策略，并基于第二策略生成与第一融合信息对应的第一动作指令。

具体地，待训练模型可采用Critic-Actor算法，以Critic网络作为评估层网络中的第一策略骨架，并以Actor网络作为决策层网络中的第二策略骨架。将用于表征第一无人机所处场景形势的第一融合信息输入评估层网络，评估层网络基于预设的第一策略并结合第一无人机所处的场景形势生成分值期望，决策层网络根据分值期望生成第二策略，并基于第二策略生成第一动作指令。即由评估层网络预估在当前第一无人机所处的场景形势下，决策层网络所能输出的第一动作指令在被第一无人机执行后可能达到的分值，就是分值期望，决策层模型根据该分值期望在Actor算法骨架的基础上调整具体的参数以使输出的第一动作指令在被第一无人机执行后接近分值期望，通过调整Actor算法的参数完成对决策层网络的一次训练。

步骤S15：向第一无人机发送第一动作指令，以使第一无人机根据第一动作指令执行第一动作并在执行第一动作后采集第一无人机的第三态势信息以及第二无人机的第四态势信息。

向第一无人机发送第一动作指令，以使第一无人机根据第一动作指令执行第一动作并在执行第一动作，具体地，第一动作指令可用于指示第一无人机执行单个的动作，也可以用于指示第一无人机执行多个连续的动作，对第一无人机指示执行的动作包括但不限于：火力攻击、移动飞行位置、调整飞行姿态，在此不做具体限定。

进一步地，第一动作指令除了用于指示第一动作指令执行第一动作，还用于指示第一无人机在执行第一动作后采集第一无人机的第三态势信息以及第二无人机的第四态势信息。可以理解的是，第三态势信息可以包括用于表征第一无人机在执行第一动作之后所处空间位置的第三位置信息、以及用于表征第一无人机在执行第一动作之后所处飞行姿态的第三姿态信息，第二态势信息可以包括用于表征第二无人机空间位置的的第四位置信息、以及用于表征第二无人机飞行姿态的第四姿态信息。

步骤S16：获取第一无人机采集的第三态势信息与第四态势信息，并根据第三态势信息与第四态势信息生成第二融合信息。

执行本方法的计算机设备获取第一无人机采集的第三态势信息与第四态势信息，其中，第三态势信息为第一无人机在执行第一动作后自身的飞行态势信息，第四态势信息为第二无人机群中的至少一台第二无人机的飞行态势信息。下面以第四态势信息为第二无人机群中一台第二无人机的飞行态势信息为例进行具体说明。

在获取第三态势信息与第四态势信息之后，计算机设备根据第三态势信息与第四态势信息生成第二融合信息，具体地，第二融合信息包括了第一无人机的飞行态势信息与第二无人机的飞行态势信息。

在一些实施方式中，计算机设备构建虚拟场景地图，并在虚拟场景地图上设置与第一无人机、第二无人机分别对应的虚拟对象，以虚拟对象表征第一无人机与第二无人机对应的飞行位置与飞行姿态，然后将虚拟场景地图中的信息进行整合以及归一化处理得到第二融合信息以表征第一无人机在执行第一动作后的场景环境信息。

在一些实施方式中，步骤S16具体包括：获取第一无人机采集的第三态势信息、与多台第一无人机采集的第四态势信息；根据多台第一无人机采集的第四态势信息获取第二无人机的准确态势信息；根据第三态势信息与准确态势信息生成对应第一无人机的第二融合信息。可以理解的是，使用多台第一无人机采集第四态势信息，能根据多个第四态势信息进行信息整合，准确地获取第二无人机的准确态势信息，提升信息整合的精准度。

步骤S17：将第二融合信息输入评估层网络以更新第一策略，直至待训练模型训练完成，得到无人机决策模型。

将第二融合信息输入评估层网络以更新第一策略，直至待训练模型的训练完成，得到无人机决策模型，此无人机决策模型可以应用于与第一无人机通信连接的终端设备，如执行本训练方法的计算机设备或其它设备。

进一步地，将第二融合信息输入评估层网络以更新第一策略之后，还包括：

将第三融合信息输入评估层网络以更新第一策略。

执行本方法的计算机设备在一个训练循环中将表征第一无人机所处环境态势的融合信息输入评估层网络生成优化期望，首先使用优化期望训练决策层网络，以使训练后的决策层输出与融合信息对应的动作指令，然后根据第一无人机在执行动作指令对应的动作之后采集的反馈，即下一时刻的融合信息，训练评估层网络。即在一次训练循环中，先后对决策层网络与评估层网络进行训练，计算机设备通过在与第一无人机通信连接的情况下进行多个训练循环直至对待训练模型的训练完成。

在一些实施方式中，待训练模型的训练完成与否可以根据训练循环的进行次数进行判断，具体地，训练循环的标志次数可预先设置，计算机设备在进行无人机决策模型训练的同时记录训练循环的进行次数，当进行次数大于或等于预先设置的标志次数时可判断待训练模型的训练完成，停止对待训练模型进行训练循环，此时训练完成的待训练模型即是无人机决策模型。

在另一些实施方式中，以Critic网络作为评估层网络中的第一策略骨架，并以Actor网络作为决策层网络中的第二策略骨架，进行一次训练循环后记录Critic网络的损失函数与Actor网络的损失函数，当Critic网络的损失函数与Actor网络的损失函数都收敛时，可判断待训练模型的训练完成，停止对待训练模型进行训练循环，此时训练完成的待训练模型即是无人机决策模型。

如图5所示，在一些实施方式中，步骤S17具体包括步骤S171-S174：

步骤S171：根据第二融合信息确定第一动作指令对应的任务执行结果。

首先根据第二融合信息判断第一动作指令对应的回合是否结束，当确定对应的回合结束时进一步根据第二融合信息确定第一动作指令对应的任务执行结果，具体地，任务执行结果用于表征第一无人机在执行第一动作后的结果，即上一回合中第一无人机所在的第一无人机群执行任务的成功或失败。

在一些实施方式中，计算机设备预先设置有融合信息判定范围，当第二融合信息处于该融合信息判定范围内，可视为第一无人机在执行第一动作后的结果为成功，当第二融合信息处于该融合信息判定范围之外，可视为第一无人机在执行第一动作后的结果为失败。进一步地，可根据第一动作指令对应的任务执行结果以不同的方案调整第一策略。

步骤S172：当任务执行结果为失败时，基于预设的评分函数并根据第二融合信息计算预评分信息。

计算机设备中存储有预设的评分函数，当任务执行结果为失败时调用评分函数，并将第二融合信息输入评分函数进行计算以获取用于表征第一无人机所处环境态势的预评分信息。

在一些实施方式中，基于预设的评分函数并根据第二融合信息计算预评分信息，包括：

具体地，首先是对第二融合信息进行解析以获取第一无人机的第三位置信息与第三姿态信息、以及第二无人机的第四位置信息与第四姿态信息，然后根据第三位置信息与第四位置信息确定确定用于表征第一无人机与第二无人机距离的第一距离信息、以及用于表征第一无人机与预设目标区域距离的第二距离信息，根据第一当前姿态与第二当前姿态确定用于表征第一无人机与第二无人机的机身角度差的角度差信息。在此之后，调用预设的评分函数，并根据第一距离信息计算第一距离评分，根据第二距离信息计算第二距离评分，根据角度差信息计算角度差评分，然后根据第一距离评分、第二距离评分、及角度差评分计算预评分信息，例如，通过预设的权重参数计算第一距离评分、第二距离评分、及角度差评分的加权平均值作为预评分信息。

步骤S173：根据预评分信息与预设的目标评分信息确定评估层网络输出分值期望的目标值，并根据第一融合信息与目标值调整第一策略。

以Critic网络作为评估层网络中的第一策略骨架，根据预评分信息与预设的目标评分信息确定评估层网络输出分值期望的目标值，并根据第一融合信息与目标值调整Critic网络中的具体参数，以对评估层网络进行训练。

示例性地，评估层网络可以通过以下公式计算评估层网络输出分值期望的目标值：

y_j＝R_j+γQ’(Φ(S’_j),π_θ’(Φ(S’_j)),ω’)

其中，j用于表征训练循环的次数，y_j为分值期望的目标值，R_j为预评分信息，γ为折扣因子，S’_j为第二融合信息，Φ(S’_j)为将第二融合信息进行归一化后的输出，π_θ’(Φ(S’_j))为动作指令选项、ω’为动作指令选项的权重。而Q’(Φ(S’_j),π_θ’(Φ(S’_j)),ω’)为预设的目标评分信息，可通过将Φ(S’_j)、π_θ’(Φ(S’_j))、与ω’输入Target-Critic网络计算得到。

确定评估层网络输出分值期望的目标值后，根据第一融合信息与目标值调整第一策略，即调整对应动作指令选项的权重ω’及折扣因子γ。

在另一些实施方式中，步骤S171之后还包括：

可以理解的是，本模型训练方法的训练方向关联于任务的执行结果，当任务执行结果为成功时，以预评分信息作为分值期望的目标值，并根据第一融合信息与目标值调整第一策略，即调整对应动作指令选项的权重ω’及折扣因子γ。

综上，本申请提供了一种无人机决策模型训练方法，通过向第一无人机发送初始化指令，以使第一无人机根据初始化指令采集第一无人机的第一态势信息与第二无人机的第二态势信息，获取第一态势信息与第二态势信息，并根据第一态势信息与第二态势信息生成第一融合信息，将第一融合信息输入待训练模型的评估层网络，评估层网络基于预设的第一策略生成与第一融合信息对应的分值期望，待训练模型的决策层网络根据分值期望生成第二策略，并基于第二策略生成与第一融合信息对应的第一动作指令，向第一无人机发送第一动作指令，以使第一无人机根据第一动作指令执行第一动作并在执行第一动作后采集第一无人机的第三态势信息以及第二无人机的第四态势信息，获取第一无人机采集的第三态势信息与第四态势信息，并根据第三态势信息与第四态势信息生成第二融合信息，将第二融合信息输入评估层网络以更新第一策略，直至待训练模型训练完成，得到无人机决策模型，进而通过该无人机决策模型提升无人机的适应能力，以及实现无人机进行动作决策与动作执行的自主化、智能化。

对于训练完成的无人机决策模型，本发明还提出一种无人机决策模型使用方法，可以应用于与第一无人机通信连接的终端设备，如执行无人机决策模型训练方法的计算机设备或其它设备，其中，该无人机决策模型为通过上述的无人机决策模型训练方法得到。

请参阅图6，图6是本发明实施例提供的无人机决策模型使用方法的流程示意图。

如图6所示，无人机决策模型使用方法具体包括步骤S21至步骤S24：

本申请实施例还提供了一种无人机决策模型使用方法，具体包括步骤S21-步骤S24：

步骤S21：接收决策指令并根据决策指令调用无人机决策模型，其中，无人机决策模型为采用上述的无人机决策模型训练方法得到；

步骤S22：接收第一无人机采集的第一当前态势信息及第二当前态势信息，并根据第一当前态势信息及第二当前态势信息生成当前融合信息；

步骤S23：将当前融合信息输入无人机决策模型得到与当前融合信息对应的动作指令；

步骤S24：向第一无人机发送动作指令，以使第一无人机根据动作指令执行对应的动作。

具体地，执行本模型使用方法的终端设备接收决策指令并根据决策指令调用无人机决策模型，其中，无人机决策模型为采用上述的无人机决策模型训练方法得到，接收第一无人机采集的第一当前态势信息及第二当前态势信息，其中，第一当前态势信息用于表征第一无人机当前的飞行态势，第二当前态势信息用于表征第二无人机的飞行态势。根据第一当前态势信息及第二当前态势信息生成当前融合信息，将当前融合信息输入无人机决策模型得到与当前融合信息对应的动作指令，向第一无人机发送动作指令，以使第一无人机根据动作指令执行对应的动作。

以本无人机决策模型使用方法应用于无人机群组对抗为例，可以把己方无人机作为第一无人机、并把敌方无人机作为第二无人机进行无人机决策模型的使用，终端设备用于向第一无人机输出动作指令以使第一无人机执行对应的动作，以完成与第二无人机对抗的任务作业。

综上，通过将当前融合信息输入训练完成的无人机决策模型可得到与当前融合信息对应的动作指令，并向向第一无人机发送动作指令，以使第一无人机根据动作指令执行对应的动作，实现了无人机进行动作决策与动作执行的自主化、智能化。

还应当理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。以上所述，仅是本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种无人机决策模型训练方法，其特征在于，所述方法包括：

向第一无人机发送初始化指令，以使所述第一无人机根据所述初始化指令采集所述第一无人机的第一态势信息与第二无人机的第二态势信息；

获取所述第一态势信息与所述第二态势信息，并根据所述第一态势信息与所述第二态势信息生成第一融合信息；

将所述第一融合信息输入待训练模型的评估层网络，所述评估层网络基于预设的第一策略生成与所述第一融合信息对应的分值期望；

所述待训练模型的决策层网络根据所述分值期望生成第二策略，并基于所述第二策略生成与所述第一融合信息对应的第一动作指令；

向所述第一无人机发送所述第一动作指令，以使所述第一无人机根据所述第一动作指令执行第一动作并在执行所述第一动作后采集所述第一无人机的第三态势信息以及所述第二无人机的第四态势信息；

获取所述第一无人机采集的所述第三态势信息与所述第四态势信息，并根据所述第三态势信息与所述第四态势信息生成第二融合信息；

将所述第二融合信息输入所述评估层网络以更新所述第一策略，直至所述待训练模型训练完成，得到无人机决策模型；

其中，所述第二态势信息是由多台所述第一无人机采集，所述根据所述第一态势信息与所述第二态势信息生成第一融合信息包括：

根据所述第一态势信息与所述准确态势信息生成对应第一无人机的第一融合信息。

2.根据权利要求1所述的方法，其特征在于，所述将所述第二融合信息输入所述评估层网络以更新所述第一策略之后，还包括：

将所述第二融合信息输入所述评估层网络，所述评估层网络基于更新后的所述第一策略生成与所述第二融合信息对应的优化期望；

所述决策层网络根据所述优化期望更新所述第二策略，并基于更新后的所述第二策略生成与所述第二融合信息对应的第二动作指令；

向所述第一无人机发送所述第二动作指令，以使所述第一无人机根据所述第二动作指令执行第二动作并在执行所述第二动作后采集所述第一无人机的第五态势信息以及所述第二无人机的第六态势信息；

获取所述第一无人机采集的所述第五态势信息与所述第六态势信息，并根据所述第五态势信息与所述第六态势信息生成第三融合信息；

将所述第三融合信息输入所述评估层网络以更新所述第一策略。

3.根据权利要求1所述的方法，其特征在于，所述获取所述第一态势信息与所述第二态势信息，并根据所述第一态势信息与所述第二态势信息生成第一融合信息，包括：

获取所述第一无人机采集的所述第一态势信息、与多台所述第一无人机采集的所述第二态势信息；

根据多台所述第一无人机采集的所述第二态势信息获取所述第二无人机的准确态势信息；

根据所述第一态势信息与所述准确态势信息生成对应所述第一无人机的所述第一融合信息。

4.根据权利要求3所述的方法，其特征在于，所述根据多台所述第一无人机采集的所述第二态势信息获取所述第二无人机的准确态势信息，包括：

解析所述第二态势信息获取所述第二无人机的第二位置信息与第二姿态信息；

根据多个所述第二位置信息确定所述第二无人机的准确位置信息；

获取多台所述第一无人机采集所述第二姿态信息的采集位置，并计算所述采集位置与所述准确位置信息的空间距离；

确定所述空间距离符合预设距离范围的采集位置，并根据所述采集位置对应的第二姿态信息确定所述第二无人机的准确姿态信息；

根据所述准确位置信息与所述准确姿态信息确定所述第二无人机的准确态势信息。

5.根据权利要求1-4任一项所述的方法，其特征在于，所述将所述第二融合信息输入所述评估层网络以更新所述第一策略，包括：

根据所述第二融合信息确定所述第一动作指令对应的任务执行结果；

当所述任务执行结果为失败时，基于预设的评分函数并根据所述第二融合信息计算预评分信息；

根据所述预评分信息与预设的目标评分信息确定所述评估层网络输出所述分值期望的目标值，并根据所述第一融合信息与所述目标值调整所述第一策略。

6.根据权利要求5所述的方法，其特征在于，所述确定所述动作指令对应的任务执行结果之后，还包括：

当所述任务执行结果为成功时，以所述预评分信息作为所述分值期望的目标值，并根据所述第一融合信息与所述目标值调整所述第一策略。

7.根据权利要求5所述的方法，其特征在于，所述基于预设的评分函数并根据所述第二融合信息计算预评分信息，包括：

解析所述第二融合信息，获取所述第一无人机的第三位置信息与第三姿态信息、以及所述第二无人机的第四位置信息与第四姿态信息；

根据所述第三位置信息与所述第四位置信息确定用于表征所述第一无人机与所述第二无人机距离的第一距离信息、以及用于表征所述第一无人机与预设目标区域距离的第二距离信息；

根据所述第一无人机的第一当前姿态与所述第二无人机的第二当前姿态确定用于表征所述第一无人机与所述第二无人机的机身角度差的角度差信息；

基于预设的评分函数，根据所述第一距离信息、所述第二距离信息、与所述角度差信息计算所述预评分信息。

8.一种无人机决策模型使用方法，其特征在于，所述方法包括：

接收决策指令并根据所述决策指令调用无人机决策模型，其中，所述无人机决策模型为采用权利要求1至7中任一项所述的无人机决策模型训练方法得到；

接收第一无人机采集的第一当前态势信息及第二当前态势信息，并根据所述第一当前态势信息及所述第二当前态势信息生成当前融合信息；

将所述当前融合信息输入所述无人机决策模型得到与所述当前融合信息对应的动作指令；

向所述第一无人机发送所述动作指令，以使所述第一无人机根据所述动作指令执行对应的动作。

9.一种计算机设备，其特征在于，所述计算机设备包括存储器和处理器；

所述存储器，用于存储计算机程序；

所述处理器，用于执行所述的计算机程序并在执行所述的计算机程序时实现如权利要求1至7中任一项所述的无人机决策模型训练方法，或实现如权利要求8所述的无人机决策模型使用方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时使所述处理器实现如权利要求1至7中任一项所述的无人机决策模型训练方法，或实现如权利要求8所述的无人机决策模型使用方法。