CN117852384A

CN117852384A - 一种基于强化学习的指挥官意图识别方法及装置

Info

Publication number: CN117852384A
Application number: CN202311308781.6A
Authority: CN
Inventors: 张倩; 吴建设; 陈亮; 张祖磊; 李亚锋; 张锴; 郜君君; 王志刚
Original assignee: CETC 20 Research Institute
Current assignee: CETC 20 Research Institute
Priority date: 2022-11-02
Filing date: 2023-10-11
Publication date: 2024-04-09

Abstract

本发明提出了一种基于强化学习的指挥官意图识别方法及装置，方法包括：根据作战任务场景，配置目标函数；利用当前目标函数进行仿真测试，统计本次迭代的所述仿真测试的第一战效能指标；配置不同的意图权重系数进行仿真测试，以得到本次迭代对应的第二战效能指标；响应于指挥官交互的选择，学习指挥官的喜好，对意图权重系数进行配置；根据当前意图权重系数确定指挥官的意图。本发明将指挥官意图表示为作战决策的偏好权重，为指挥官提供了量化的决策依据，通过指挥官和辅助决策系统之间的不断交互，系统可以学习到指挥官最认同的权重配比，即指挥官的意图。

Description

一种基于强化学习的指挥官意图识别方法及装置

技术领域

本发明涉及意图识别技术领域，尤其涉及一种基于强化学习的指挥官意图识别方法及装置。

背景技术

意图识别指机器或算法对人的意图进行预测和判断的过程，如汽车驾驶意图识别，驾驶员换道意图识别等。在作战领域一般指通过对各种战场传感器感知的信息进行分析,从而判断、预测或解释敌方的作战设想、作战计划，意图具有抽象性、对抗性、稳定性、欺骗性等特点。

战争没有固化的规则可言,作战双方在决策过程中通常不会按照一致的规则出招，指挥官的决策意图通常和指挥官的作战经验、作战理念以及实际战况相关。现有的辅助决策系统一般只能给出基于固定参数的方案，很少考虑指挥官意图的变化，使得辅助决策系统提供的方案利用效率较低。当指挥官需要根据实际作战情况调整决策时，往往需要事先更改辅助决策系统对应的参数，大大降低了指挥官的决策效率。因此，作战辅助决策系统需要一种指挥官意图识别方法，以更好地辅助指挥官进行高效的决策。然而现有关于作战对抗中的意图识别研究大多是针对敌方目标的作战意图，很少有针对我方指挥官的意图识别研究。

发明内容

本发明要解决的技术问题是，现有的辅助决策系统一般只能给出基于固定参数的方案，很少考虑指挥官意图的变化，使得辅助决策系统提供的方案利用效率较低。当指挥官需要根据实际作战情况调整决策时，往往需要事先更改辅助决策系统对应的参数，大大降低了指挥官的决策效率。有鉴于此，本发明提供一种基于强化学习的指挥官意图识别方法及装置。

本发明采用的技术方案是，基于强化学习的指挥官意图识别方法，包括：

步骤1，根据作战任务场景，配置目标函数，其中，所述目标函数的参数中的意图权重系数用于表征指挥官的意图；

步骤2，利用当前所述目标函数进行仿真测试，统计本次迭代的所述仿真测试的第一战效能指标；

步骤3，在所述目标函数中配置不同的所述意图权重系数，利用当前的目标函数进行仿真测试，以得到本次迭代对应的第二战效能指标；

步骤4，响应于指挥官对所述第一战效能指标的选择，不再更新所述意图权重系数；

或者，响应于指挥官对所述第二战效能指标的选择，将第一战效能指标所对应的目标函数中的意图权重系数，增加或减小一个预先配置的学习步长，以使得第一战效能指标所对应的目标函数中的意图权重系数更接近所述第二战效能指标所对应的目标函数的意图权重系数，并重复步骤3至步骤4，直至所述意图权重系数不再更新；

步骤5，根据当前所述意图权重系数确定指挥官的意图。

在一个实施方式中，所述意图权重系数包括：毁伤效果的权重以及效费比的权重。

在一个实施方式中，所述步骤2包括：基于蒙特卡洛法对当前所述目标函数进行仿真测试。

在一个实施方式中，所述基于蒙特卡洛法对当前所述目标函数进行仿真测试，包括：

配置基于蒙特卡洛法的指标体系；

确定所述指标体系中，每个指标的置信区间；

利用所述置信区间，确定所述第一战效能指标。

在一个实施方式中，所述配置基于蒙特卡洛法的指标体系，其中指标体系包括以下指标中的至少一种：

综合毁伤效能，毁伤目标总价值，总效费比，平均分配时间。

本发明的另一方面还提供了一种基于强化学习的指挥官意图识别装置，包括：

初始模块，被配置为根据作战任务场景，配置目标函数，其中，所述目标函数的参数中的意图权重系数用于表征指挥官的意图；

第一仿真模块，被配置为利用当前所述目标函数进行仿真测试，被配置为统计本次迭代的所述仿真测试的第一战效能指标；

第二仿真模块，被配置为在所述目标函数中配置不同的所述意图权重系数，利用当前的目标函数进行仿真测试，以得到本次迭代对应的第二战效能指标；

交互学习模块，被配置为响应于指挥官对所述第一战效能指标的选择，不再更新所述意图权重系数；

或者，被配置为响应于指挥官对所述第二战效能指标的选择，将第一战效能指标所对应的目标函数中的意图权重系数，增加或减小一个预先配置的学习步长，以使得第一战效能指标所对应的目标函数中的意图权重系数更接近所述第二战效能指标所对应的目标函数的意图权重系数，并重复第二仿真模块以及交互学习模块中的迭代过程，直至所述意图权重系数不再更新；

确认模块，被配置为根据当前所述意图权重系数确定指挥官的意图。

在一个实施方式中，所述第一仿真模块以及所述第二仿真模块被进一步配置为：基于蒙特卡洛法对当前所述目标函数进行仿真测试。

在一个实施方式中，所述第一仿真模块以及所述第二仿真模块被进一步配置为：

配置基于蒙特卡洛法的指标体系；

确定所述指标体系中，每个指标的置信区间；

利用所述置信区间，确定所述第一战效能指标。

本发明的另一方面还提供了一种电子设备，所述电子设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如上任一项所述的基于强化学习的指挥官意图识别方法的步骤。

本发明的另一方面还提供了一种计算机存储介质，所述计算机存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上任一项所述的基于强化学习的指挥官意图识别方法的步骤。

采用上述技术方案，本发明至少具有下列优点：

本发明所提供的基于强化学习的指挥官意图识别方法，将指挥官意图表示为作战决策的偏好权重，设计了基于蒙特卡洛法的效能评估方法，为指挥官提供了量化的决策依据。指挥官通过分析比较辅助决策系统推荐的不同权重下的决策方案及其作战效能进行方案的选择，意图识别强化学习算法根据指挥官的选择动作反馈更新权重，推荐新的方案。通过指挥官和辅助决策系统之间的不断交互，系统可以学习到指挥官最认同的权重配比，即指挥官的意图。如果指挥官随着战场态势的变化改变了意图，在经过若干轮的交互后，算法仍会锁定指挥官的意图，提供符合指挥官意图的方案。

附图说明

图1为根据本发明实施例的基于强化学习的指挥官意图识别方法流程图；

图2为根据本发明实施例的基于强化学习的指挥官意图识别装置组成结构示意图；

图3为根据本发明实施例的电子设备的结构组成示意图；

图4为根据本发明应用实例的一个基于强化学习的指挥官意图识别流程图；

图5为根据本发明应用实例的仿真模拟场景设置图；

图6为根据本发明应用实例的一个基于强化学习的指挥官意图识别方法仿真流程图；

图7为根据本发明应用实例的综合毁伤效能指标I_mix的均值和意图参数α的相关性示意图；

图8为根据本发明应用实例的指挥官意图识别强化学习模型图。

具体实施方式

为更进一步阐述本发明为达成预定目的所采取的技术手段及功效，以下结合附图及较佳实施例，对本发明进行详细说明如后。

在附图中，为了便于说明，已稍微夸大了物体的厚度、尺寸和形状。附图仅为示例而并非严格按比例绘制。

还应理解的是，用语“包括”、“包括有”、“具有”、“包含”和/或“包含有”，当在本说明书中使用时表示存在所陈述的特征、整体、步骤、操作、元件和/或部件，但不排除存在或附加有一个或多个其它特征、整体、步骤、操作、元件、部件和/或它们的组合。此外，当诸如“...中的至少一个”的表述出现在所列特征的列表之后时，修饰整个所列特征，而不是修饰列表中的单独元件。此外，当描述本申请的实施方式时，使用“可以”表示“本申请的一个或多个实施方式”。并且，用语“示例性的”旨在指代示例或举例说明。

如在本文中使用的，用语“基本上”、“大约”以及类似的用语用作表近似的用语，而不用作表程度的用语，并且旨在说明将由本领域普通技术人员认识到的、测量值或计算值中的固有偏差。

除非另外限定，否则本文中使用的所有用语(包括技术用语和科学用语)均具有与本申请所属领域普通技术人员的通常理解相同的含义。还应理解的是，用语(例如在常用词典中定义的用语)应被解释为具有与它们在相关技术的上下文中的含义一致的含义，并且将不被以理想化或过度正式意义解释，除非本文中明确如此限定。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

本发明中说明书中对方法流程的描述及本发明说明书附图中流程图的步骤并非必须按步骤标号严格执行，方法步骤是可以改变执行顺序的。而且，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

本发明第一实施例，一种基于强化学习的指挥官意图识别方法，如图1所示，包括以下具体步骤：

步骤1，根据作战任务场景，配置目标函数，其中，目标函数的参数中的意图权重系数用于表征指挥官的意图；

步骤2，利用当前目标函数进行仿真测试，统计本次迭代的仿真测试的第一战效能指标；

步骤3，在目标函数中配置不同的意图权重系数，利用当前的目标函数进行仿真测试，以得到本次迭代对应的第二战效能指标；

步骤4，响应于指挥官对第一战效能指标的选择，不再更新意图权重系数；

或者，响应于指挥官对第二战效能指标的选择，将第一战效能指标所对应的目标函数中的意图权重系数，增加或减小一个预先配置的学习步长，以使得第一战效能指标所对应的目标函数中的意图权重系数更接近第二战效能指标所对应的目标函数的意图权重系数，并重复步骤3至步骤4，直至意图权重系数不再更新；

步骤5，根据当前意图权重系数确定指挥官的意图。

下面将分步对本实施例所提供的方法进行详细说明。

步骤1，根据作战任务场景，配置目标函数，其中，目标函数的参数中的意图权重系数用于表征指挥官的意图。

具体地，根据作战任务场景，建立目标函数；假设在无人机群打击地面目标场景下，确定的目标函数F：

其中，T_j为目标j的威胁程度，P_ij为武器i对目标j的毁伤概率，v_j为目标j的摧毁价值即目标装备的造价；c_i为武器i的发射代价，α和β分别表示毁伤效果和效费比的权重，X_ij表示武器i对目标j的打击分配决策变量(1表示分配，0表示不分配)，约束条件表示一次分配任务中，一个武器最多使用一次，约束条件/>表示一次分配任务中，一个目标最多分配一个武器。

本实施例中，可以将指挥官的意图具象为在目标分配过程中对毁伤效果和效费比的偏好重视程度，即α,β值为本实施例中的意图权重系数。

可以理解的是，以上仅仅是一个示例说明，并不是指意图权重系数只能包括上述两个参数，实际应用中，是可以根据需要对意图权重系数的选取进行合理范围内的调整。

步骤2，利用当前目标函数进行仿真测试，统计本次迭代的仿真测试的第一战效能指标。

本实施例中，可以通过蒙特卡洛法对当前所述目标函数进行仿真测试。

具体地，通过蒙特卡洛法对当前所述目标函数进行仿真测试，可以进一步包括：

步骤201，配置基于蒙特卡洛法的效能评估方法的指标体系。

其中，指标体系包括以下指标中的至少一种：综合毁伤效能，毁伤目标总价值，总效费比，平均分配时间。

以下示例性地对上述指标的计算过程进行了说明。

综合毁伤效能：目标函数F的仿真模拟统计值。通过加权计算各个被摧毁目标的威胁度和效费比得到指标I_mix：

其中，M为完成作战任务消耗的武器数量，N为完成作战任务毁伤的目标数量。T_j为目标j的威胁度；v_j为目标j的价值；c_i为武器i的价值。

毁伤目标总价值：所有被摧毁目标的总价值V_all：

其中，N_T为目标的类型数，为第T_i种类型目标的价值，/>为第T_i种类型目标被摧毁的数量。

总效费比：总效费比定义为毁伤目标的价值总和与作战过程中的总消耗(包括导弹和无人机)的比值VC：

其中，V_all为毁伤目标的总价值，M_T为武器的类型数，为第T_i种类型武器的造价，为第T_i种类型武器的消耗数量，c_UAV为无人机的造价，N_UAV为无人机损失数量。

平均分配时间：统计每个时间窗口下的分配决策时间，然后计算平均值：

其中，n_t表示时间窗口数，t_i表示第i个时间窗口的决策时间。

步骤202，确定所述指标体系中，每个指标的置信区间。

在具体应用实例中，步骤202中确定效能评估指标的置信区间方法为：将每个指标看作随机变量，随机变量X～N(μ,σ²)服从正态分布的情况下，标准置信区间的参数形式为：

其中，α为显著水平，1-α为置信度，为样本均值，σ为样本标准差，n为样本数量，可得到置信区间：

表示以1-α的概率包含总体X的数学期望μ，即为μ的置信区间。

步骤203，利用所述置信区间，确定第一战效能指标。

可以理解的是，上述计算得到的置信区间，可以用于表征第一效能指标，第一效能指标可以是由多个指标参数的置信区间综合得到的第一效能指标，也可以是多个指标参数的置信区间共同作为第一效能指标。

步骤3，在目标函数中配置不同的意图权重系数，利用当前的目标函数进行仿真测试，以得到本次迭代对应的第二战效能指标。

本实施例中，具体地，步骤3可以包括：

步骤301，初始化作战仿真场景，设置意图参数A；

步骤302，分别设置α₁＝A-δ，α₂＝A，α₃＝A+δ，对应三种目标函数F₁、F₂、F₃，δ是一个偏差因子，用于估计意图参数的取值范围；

步骤303，根据三种目标函数分别生成三种方案：方案1、方案2、方案3，这三种方案和对应的效能评估结果为当前状态(State)，即对应的三种第二战效能指标。

需要说明的是，上述步骤中是以三种目标函数以及对应方案作为示例，并不是限定以上步骤仅可以采取三种目标函数的形式进行相应处理。在实际应用，可以采用至少两个或以上数量的不同目标函数实施本步骤中所述的方法。

相应地，第二战效能指标并不是仅可表征一组战效能指标，也就是说，可以是有多组“第二战效能指标”，例如步骤303，即有三组第二战效能指标。

步骤4，响应于指挥官对所述第一战效能指标的选择，不再更新所述意图权重系数；或者，响应于指挥官对所述第二战效能指标的选择，将第一战效能指标所对应的目标函数中的意图权重系数，增加或减小一个预先配置的学习步长，以使得第一战效能指标所对应的目标函数中的意图权重系数更接近所述第二战效能指标所对应的目标函数的意图权重系数，并重复步骤2至步骤4，直至所述意图权重系数不再更新。

具体地，本实施例中，步骤4可以包括：

步骤401，指挥官通过比较三个分配方案的效能评估结果，选择和自己意图最接近(最满意)的方案，指挥官对三种方案的选择抽象为意图识别强化学习过程的三种动作(Action)，三种动作得到的奖励(Reward)分别设置为-1、0、1；

步骤402，更新A：A＝A+k·R，R为指挥官的选择(动作)对应的奖励，k为学习步长；

步骤403，若A不再变化，则识别出意图参数A，结束流程，否则返回步骤3。

步骤5，根据当前意图权重系数确定指挥官的意图。

综上，本实施例的优点在于：本发明所提供的基于强化学习的指挥官意图识别方法，将指挥官意图表示为作战决策的偏好权重，设计了基于蒙特卡洛法的效能评估方法，为指挥官提供了量化的决策依据。指挥官通过分析比较辅助决策系统推荐的不同权重下的决策方案及其作战效能进行方案的选择，意图识别强化学习算法根据指挥官的选择动作反馈更新权重，推荐新的方案。通过指挥官和辅助决策系统之间的不断交互，系统可以学习到指挥官最认同的权重配比，即指挥官的意图。如果指挥官随着战场态势的变化改变了意图，在经过若干轮的交互后，算法仍会锁定指挥官的意图，提供符合指挥官意图的方案。

本发明第二实施例，与第一实施例对应，本实施例介绍一种基于强化学习的指挥官意图识别装置，如图2所示，包括以下组成部分：

初始模块，被配置为根据作战任务场景，配置目标函数，其中，目标函数的参数中的意图权重系数用于表征指挥官的意图；

第一仿真模块，被配置为利用当前目标函数进行仿真测试，统计本次迭代的仿真测试的第一战效能指标；

第二仿真模块，被配置为在目标函数中配置不同的意图权重系数，利用当前的目标函数进行仿真测试，以得到本次迭代对应的第二战效能指标；

交互学习模块，被配置为响应于指挥官对第一战效能指标的选择，不再更新意图权重系数；

或者，被配置为响应于指挥官对第二战效能指标的选择，将第一战效能指标所对应的目标函数中的意图权重系数，增加或减小一个预先配置的学习步长，以使得第一战效能指标所对应的目标函数中的意图权重系数更接近第二战效能指标所对应的目标函数的意图权重系数，并重复第二仿真模块以及交互学习模块中的迭代过程，直至意图权重系数不再更新；

确认模块，被配置为根据当前意图权重系数确定指挥官的意图。

本发明第三实施例，一种电子设备，如图3所示，可以作为实体装置来理解，包括处理器以及存储有所述处理器可执行指令的存储器，当所述指令被处理器执行时，执行如下操作：

步骤5，根据当前意图权重系数确定指挥官的意图。

本发明第四实施例，本实施例是在上述实施例的基础上，结合图介绍一个本发明的应用实例。

本实施例中，具体针对无人机群对地面目标动态连续打击的场景，无人机在巡航过程中选择当前被发现的地面目标进行打击，使得打击效能最大化满足指挥官的意图。如何在这种场景下有效识别指挥官意图，是本发明需要解决的问题。如图4所示，图4示出了本发明的一个应用实例的基于强化学习的指挥官意图识别方法。

下面以一个具体的实施例对本发明的方法进行说明。本发明针对无人机群对地面目标动态连续打击的场景，通过仿真模拟、效能评估以及指挥官交互等流程，设计基于强化学习的指挥官意图识别方法，对指挥官意图进行识别。本实施例中，假设敌方以连队为单位在地面行军，按照一定路线移动，目标种类为12种，6个连队根据实际需求配备着不同类型的目标若干。发现敌方动向后，我方M架无人机起飞，前往目标上空巡航，伺机对目标进行打击。无人机可携带的导弹类型数量为4种，每架无人机可携带两种导弹若干。我方无人机从任务起点到终点进行巡航，不断地发现目标，进行武器-目标分配实施火力打击。本实施例的实现步骤如下：

步骤1：确定无人机群打击地面目标场景下的目标函数F：对于作战进程中m个武器，n个目标，根据式(1)和(2)得到目标函数F和约束条件；

步骤2：对指挥官意图进行数学化表示；

将指挥官的意图表示为对目标分配过程中毁伤概率和效费比的偏好重视程度，即α,β值。由于指挥官的意图是抽象的，无法直接确定符合指挥官意图的α,β，因此辅助决策系统将给出不同的α,β值产生的分配方案和效能评估结果，指挥官根据直观的效能评估结果在不同方案中进行选择，经过若干次交互，系统学习到指挥官的意图所对应的α,β值。如果指挥官随着作战经验的积累改变了意图，在经过若干轮的交互后，算法仍会锁定指挥官的意图，因此辅助决策系统能够为指挥官提供符合指挥官意图的方案。

步骤3：基于蒙特卡洛法的效能评估方法：

3.1)设计蒙特卡洛作战模拟流程：如图5所示，本实施例中作战仿真场景设置为：在40km×40km的地面区域内分布着由不同类型目标组成的敌方连队，正按照一定路线行军。我方若干架无人机携带不同类型的空地导弹，在2km到4km的高度按照规划路线巡航，同时我方侦察探测系统对目标进行搜索。无人机群在巡航的过程中依据辅助决策系统给出的分配方案实施打击任务。

3.1.1)本实施例中，仿真模拟环境中作战约束条件设置如下：

(1)由于气象和电磁等不稳定因素的影响，侦察探测系统无法同时发现所有的地面目标，在某个特定的时间窗口内，仅能发现有限的目标。

(2)每架无人机上的每种类型导弹在一个时间窗口下最多只能发射一次。

(3)敌方具有防空能力的目标会以一定的概率毁伤我方无人机。

(4)如果适宜度最优武器剩余弹药量为0，或者携带该武器的无人机被摧毁，或者在当前时间窗口下该武器已被使用，那么分配适宜度次优的武器。

3.1.2)本实施例中，无人机群打击地面目标作战仿真流程如图6所示：

(1)初始化。设置敌方各类型目标的数量、初始位置、移动路线、移动速度等信息；设置我方无人机数量，各无人机携带武器类型及数量、初始位置、飞行路线、飞行速度等信息；本实施例中设置我方10架无人机平台，每架无人机携带两种类型的导弹若干，即每个时间窗口武器数量m＝20。

(2)模拟作战开始。随机选择一定数目的目标，假设为搜索探测系统在当前时间窗口发现的目标。随机选择的目标数目分布可设置为均值为μ，方差为σ²的正态分布。

(3)目标分配。在当前时间窗口，根据态势感知获得的目标信息，首先对已发现的目标进行打击优先度排序，根据排序的打击列表Attack_List，依次分配武器。

(4)战场状态更新：a)根据目标分配结果并按照毁伤概率P判断被打击目标是否被摧毁，进行敌方目标状态更新；b)更新每架无人机的余弹量；c)根据敌方防空武器的毁伤概率P1和距离，判断我方各个无人机是否被摧毁，对我方无人机状态进行更新；d)根据目标移动路线和速度，更新当前未被摧毁的目标的位置；e)根据无人机的飞行路线和速度，更新无人机的位置。

(5)进入下一个窗口，判断是否满足作战终止条件，否则返回步骤(2)。终止条件如：携带弹药用尽、无人机均被摧毁、连续5个时间窗口没有发现目标等；或者由指挥官设定条件，如弹药使用量达到总携带量的80％、特定关键目标被摧毁等。

3.2)基于蒙特卡洛法的效能评估方法的指标体系设置：由式(3)—(6)分别得到综合毁伤效能、毁伤目标总价值、总效费比、平均分配时间等作战效能指标值。通过一次作战仿真模拟过程(蒙特卡洛模拟过程)统计上述作战效能指标。

3.3)效能评估指标的置信区间：根据式(7)和(8)得到各效能评估指标的置信区间。

步骤4：基于强化学习的指挥官意图识别过程：将指挥官的意图(α,β值)看作要学习的策略，将指挥官的选择看作动作，不同的动作对应于不同的奖励。分别在α＝[0.1，0.2，…，0.9]等9个不同的α值对应的目标函数F下进20次作战仿真模拟实验，不同的α值对应的目标函数所产生的分配结果的效能指标I_mix均值，如图7所示，两者呈现正相关性，从而根据此特点可以设计意图识别算法。

本实施例中，基于强化学习的指挥官意图识别过程如图8，具体包括：

4.1)初始化。初始化作战仿真场景，设置意图参数A＝0.5；

4.2)设置δ＝0.1，则有α₁＝A-0.1＝0.4，α₂＝A＝0.5，α₃＝A+0.1＝0.6，分别对应三种目标函数F₁、F₂、F₃；

4.3)根据三种目标函数分别生成三种方案：方案1、方案2、方案3，这三种方案和对应的效能评估结果为当前状态(State)；

4.4)指挥官根据三种分配方案的效能评估结果，选择和自己意图最接近(最满意)的方案：强化学习意图识别的动作(Action)设置为对三种方案的选择，三种动作得到的奖励(Reward)分别设置为-1、0、1；

4.5)更新A：A＝A+k·R，R为指挥官的选择(动作)对应的的奖励，k为学习步长，设置k＝0.1；

4.6)若A不再变化，则识别出意图参数A，结束流程，否则返回步骤4.2)。

下面通过仿真实验对本发明效果作详细说明。

假设无人机群对地打击的作战场景，如图5所示，在一个40km×40km×4km的三维作战空间中，图5中分布在xOy面的6个群落表示敌方6个作战连队，不同形状的点代表不同类型的目标，敌方连队以一定的路线和速度进行移动；图中带有标号的圆点代表我方的10架无人机，分布在2km～4km的空中，按照规划的航线飞行；方块为我方的一处防卫要地，要在一定程度上对该要地进行保护。我方的侦察系统每隔一段时间会将发现的目标信息发送给无人机，无人机根据收到的目标信息进行目标分配，并实施打击。由于侦察系统不能同时发现所有目标，仿真环境中通过随机选取一定数量目标的方式来模拟这种场景。敌我双方的具体配置描述如下：

我方作战单位为携带不同类型武器的无人机，如表1所示，一共4种类型空地导弹。假设每架无人机可携带两种类型的导弹，设定两种配置方案，两种配置方案各5架无人机。如表2所示，配置一为无人机携带w₂型导弹13枚，携带w₄型导弹3枚；配置二为无人机携带w₁型导弹10枚，携带w₃型导弹6枚。

表1我方武器及参数

武器(导弹)型号	基础精度	威力(战斗部重量/kg)	射程/km	造价/万元
					w₁	0.90	10	10	40
w₂	0.85	5	8	15
					w₃	1.00	20	18	100
w₄	0.95	20	40	250

表2无人机携带导弹配置方案

无人机配置方案	w₁	w₂	w₃	w₄
					配置一	0	13	0	3
配置二	10	0	6	0

敌方的基本作战单位为连队，拥有多种不同装甲战车、坦克、防空武器等装备，目标类型及参数如表3所示，一共有12种目标类型。

表3目标类型及参数汇总表

/>

上述4种武器和12种目标的打击匹配程度，如表4所示。

表4武器—目标匹配度M_ij

不同的连队作战功能不同，配备不同类型的装备若干，各连队配置如表5所示。其中连队二和连队三以及连队五连队六配置相同，说明两个连队发挥的作战功能相同，属于同一种类型的连队。

表5不同作战连队配置

意图识别算法中对意图参数A(α,β值)的调整过程依赖于指挥官的选择方案的动作。指挥官根据直观的有具体意义的效能评估指标值进行方案的选择，本实验中，指挥官依据综合毁伤效能指标I_mix的大小在三种推荐方案中作出选择。

表6意图识别交互流程表

假设指挥官期望作战结果综合毁伤效能指标I_mix最接近0.17，指挥官每次从三个方案中选择最接近0.17的方案。设置初始意图参数A＝0.5，交互过程如表6所示，第一次交互，A＝0.5，选择了方案3；第二次交互，A＝0.6，选择了方案3；第三次交互，A＝0.7，选择了方案2。此时，A不再变化，算法结束流程，得到最终的指挥官意图为A＝0.7，即α＝0.7,β＝0.3。

意图识别的正确率：根据多次仿真实验构造实验数据集，如表7所示。对预设的意图参数进行1000次模拟实验，得到四个效能指标，每个意图参数对应着相应的效能指标值，构造200组实验数据。对于该数据集上的每组数据，意图参数I_base此时代表真实意图，将意图参数I_base对应的四个效能指标值假设为指挥官最满意的指标值，指挥官每次选择最接近这些指标的那个方案，交互实验最终得到算法识别出的意图I_test。

表7不同意图参数和对应效能指标数据

意图参数I_base	四个效能指标值
		0.1	0.124、58765.0、15.38、0.0018
0.2	0.131、59179.3、15.11、0.0011
		…	…
0.9	0.196、65179.3、12.45、0.0012

识别出的意图I_test和真实意图I_base相同则表示识别正确，正确率AC定义为：

其中，n为识别正确的数量，N为数据集总数量。

通过仿真实验得到意图识别的正确率AC＝92.5％。

本发明第五实施例，本实施例的基于强化学习的指挥官意图识别方法的流程与第一、二或三实施例相同，区别在于，在工程实现上，本实施例可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的所述方法可以以计算机软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台设备执行本发明实施例所述的方法。

通过具体实施方式的说明，应当可对本发明为达成预定目的所采取的技术手段及功效得以更加深入且具体的了解，然而所附图示仅是提供参考与说明之用，并非用来对本发明加以限制。

Claims

1.一种基于强化学习的指挥官意图识别方法，其特征在于，包括：

步骤5，根据当前所述意图权重系数确定指挥官的意图。

2.根据权利要求1所述的基于强化学习的指挥官意图识别方法，其特征在于，所述意图权重系数包括：毁伤效果的权重以及效费比的权重。

3.根据权利要求1所述的基于强化学习的指挥官意图识别方法，其特征在于，所述步骤2包括：基于蒙特卡洛法对当前所述目标函数进行仿真测试。

4.根据权利要求3所述的基于强化学习的指挥官意图识别方法，其特征在于，所述基于蒙特卡洛法对当前所述目标函数进行仿真测试，包括：

配置基于蒙特卡洛法的指标体系；

确定所述指标体系中，每个指标的置信区间；

利用所述置信区间，确定所述第一战效能指标。

5.根据权利要求4所述的基于强化学习的指挥官意图识别方法，其特征在于，所述配置基于蒙特卡洛法的指标体系，其中指标体系包括以下指标中的至少一种：

6.一种基于强化学习的指挥官意图识别装置，其特征在于，包括：

第一仿真模块，被配置为利用当前所述目标函数进行仿真测试，统计本次迭代的所述仿真测试的第一战效能指标；

7.根据权利要求6所述的基于强化学习的指挥官意图识别装置，其特征在于，所述第一仿真模块以及所述第二仿真模块被进一步配置为：基于蒙特卡洛法对当前所述目标函数进行仿真测试。

8.根据权利要求7所述的基于强化学习的指挥官意图识别装置，其特征在于，所述第一仿真模块以及所述第二仿真模块被进一步配置为：

配置基于蒙特卡洛法的指标体系；

确定所述指标体系中，每个指标的置信区间；

利用所述置信区间，确定所述第一战效能指标。

9.一种电子设备，其特征在于，所述电子设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至5中任一项所述的基于强化学习的指挥官意图识别方法的步骤。

10.一种计算机存储介质，所述计算机存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至5中任一项所述的基于强化学习的指挥官意图识别方法的步骤。