CN117150821A

CN117150821A - 基于智能化仿真的装备效能评估数据集的构建方法

Info

Publication number: CN117150821A
Application number: CN202311414429.0A
Authority: CN
Inventors: 王烨; 李姜; 于洋; 郭立红; 崔爽; 方艳超
Original assignee: Changchun Institute of Optics Fine Mechanics and Physics of CAS
Current assignee: Changchun Institute of Optics Fine Mechanics and Physics of CAS
Priority date: 2023-10-30
Filing date: 2023-10-30
Publication date: 2023-12-01
Anticipated expiration: 2043-10-30
Also published as: CN117150821B

Abstract

本发明涉及作战效能评估技术领域，尤其涉及一种基于智能化仿真的装备效能评估数据集的构建方法。包括：装备效能评估需求分析；仿真场景设计与编辑；智能体及训练环境设计；智能体训练直至收敛；智能化仿真数据生成；筛选仿真数据：从仿真数据中筛选效能最高的记录并计算效能均值，作为一条数据样本，存入效能评估数据集；通过样本生成控制程序进行自动参数设置，修改装备指标参数，并重复步骤直到产生足够多数据样本；结束数据生成过程，保存数据集并生成版本号。优点在于：基于强化学习的智能体能够在训练中不断提升决策水平；通过仿真推演构建的仿真数据集可减少因作战策略无法充分发挥装备作战效能而产生的效能评估数据不准确的问题。

Description

基于智能化仿真的装备效能评估数据集的构建方法

技术领域

本发明涉及作战效能评估技术领域，尤其涉及一种基于智能化仿真的装备效能评估数据集的构建方法。

背景技术

武器装备效能是指武器装备在特定条件下、执行规定作战任务所能达到预期可能目标的程度，它是武器装备的战技指标在特定条件和规定任务中的具体表现。效能是武器装备的重要评估指标，是武器装备规划论证、设计研制和作战运用的基本依据。装备效能评估就是对武器装备执行规定作战任务的作战效能的预先估计。在装备效能评估方法的早期研究中，大部分评估方法是依靠专家积累的经验对相关的信息进行定量或者定性评估，从而得到装备的效能评估结果。随着人工智能技术的发展，除传统综合评价法外，大量研究者将基于神经网络、进化计算等技术的装备能力智能评估方法应用于装备效能评估领域，装备能力智能评估方法不依赖专家经验，可根据仿真数据进行神经网络模型训练，构建效能评估智能模型。训练后的效能评估智能模型可根据装备技战术指标预测装备作战效能，预测准确性很大程度上取决于训练数据样本质量。

现有装备作战效能评估数据样本采集未考虑装备作战策略的因素对仿真结果的影响，不同装备能力应对应不同的作战策略才可充分发挥其作战效能，针对不同型号、不同作用范围的装备采用相同的作战策略进行仿真试验无法体现该装备的真实能力。而针对同一装备，不同作战策略的设定又将显著影响作战仿真结果。在现有方法中作战策略这一因素对构建效能评估数据样本的影响未被有效识别并加以控制，因此以这样的方式构建的数据集无法充分反映装备的真实作战效能，难以保证装备效能智能评估模型的训练效果。

发明内容

本发明为解决上述问题，提供一种基于智能化仿真的装备效能评估数据集的构建方法。

本发明目的在于提供一种基于智能化仿真的装备效能评估数据集的构建方法，包括如下步骤：

S1、装备效能评估需求分析：进行装备效能评估需求分析，确定任务场景、评估对象和评估内容；

S2、仿真场景设计与编辑：根据装备效能评估需求分析的结果，进行仿真场景设计，构建装备智能决策模型；

S3、智能体及训练环境设计：根据智能决策模型的相关参数，进行状态空间设计、动作空间设计、状态转移函数设计、奖赏函数设计；

S4、智能体训练：采用APE-X框架并行训练的方式、通过与环境互动进行智能体训练，以优先经验回放机制积累经验数据，优化决策水平；随着训练收敛，形成装备指标参数以及在该场景下充分发挥效能的决策模型；

S5、智能化仿真数据生成：通过训练好的装备作战策略模型进行作战仿真推演，记录并统计仿真数据；

S6、筛选仿真数据：从仿真数据中筛选效能最高的N条记录并计算效能均值，将装备指标参数和效能均值作为一条数据样本，存入效能评估数据集；N≤10；

S7、通过样本生成控制程序进行自动参数设置，修改装备指标参数，并重复步骤S3~S6，直到产生足够多数据样本；结束数据生成过程，保存数据集并生成版本号。

优选的，步骤S2中的装备智能决策模型包括装备接收到的信息、可能执行的策略/动作、装备的能力参数以及装备解算模型；所述装备解算模型包括装备仿真模型、结果裁决模型和效能计算模型。

优选的，装备智能决策模型采用深度确定性策略梯度算法构建。

优选的，深度确定性策略梯度算法包括Actor神经网络结构和Critic神经网络结构；

所述Actor神经网络结构包括输入层、隐藏层和输出层，具体如下：

以全连接层作为所述输入层，节点个数为单个智能体的观测信息长度；

所述隐藏层共两层，其中一层是节点数为128的全连接层，采用Relu函数作为激活函数；另一层为LN归一层；

采用全连接层加softmax函数作为所述输出层，节点数为将要决策的可能动作数；

所述Critic神经网络结构包括输入层、隐藏层和输出层，具体如下：

以全连接层作为所述输入层，节点个数为所有智能体的状态信息长度；

采用全连接层加softmax函数作为所述输出层，节点数为1。

优选的，步骤S4中并行训练的具体步骤如下：

S401、随机初始化价值网络参数、策略网络参数、目标网络参数；所述目标网络参数包括目标价值网络参数和目标策略网络参数；

S402、初始化经验池和动作噪声；

S403、智能体依据状态观测进行动作选择，环境给与奖励，进入下一状态，获取一条经验（s,a,r,s’）并存入经验缓冲池，其中s为当前状态观测，a为动作决策结果，r为该动作获得的奖励，s’为执行完该动作转换到的下一状态；

S404、计算样本的TD误差，为经验缓冲池中的经验设置经验优先级，优先级由TD误差的绝对值|δi|表示，|δi|反映了样本的信息量；

S405、采用非均匀采样，所述经验的采样概率计算公式为：

，/>；

式中，代表经验i的采样概率；/>代表buffer中每一个样本的采样概率；α代表控制采样均衡或贪心的权衡因子，/>；rank(i)是对|δi|降序排序后|δi|的序号；

S406、采用重要性采样修正因非均匀采样引入的偏差，权重计算公式为：

；

其中，N是缓冲池大小；β代表控制多大程度地抵消重要性采样对收敛结果的影响的超参数，β；

S407、进行非均匀采样从重放缓存器得到一条经验，根据目标评估网络计算每个动作的期望回报；

S408、通过最小化损失函数更新Critic神经网络的参数，使用随机梯度下降更新Actor神经网络参数；

S409、更新目标网络参数，直至STEP循环结束。

优选的，步骤S7的样本生成控制程序的具体步骤如下：

S701、用户设定指标体系中各指标参数变化范围、变化步长、训练终止条件，并启动样本生成控制程序；

S702、采用控制变量法，依据各指标参数变化范围、变化步长，自动设定装备指标参数，并启动训练过程；

S703、当智能体的模型满足训练终止条件，停止训练保存模型；

S704、自动调用模型进行若干次仿真，选取效能最高的N条记录计算效能均值，产生训练样本，存入数据集；

S705、重复步骤S702~S704，自动生成下一组装备指标参数训练智能体并进行仿真试验；直到得到足够的样本数量。

优选的，N=5。

与现有技术相比，本发明能够取得如下有益效果：

本发明基于强化学习的智能体能够在训练中不断提升决策水平，以装备体系能够发挥的最大作战效能为学习对象，以收敛点训练得到的策略作为能够发挥装备效能的有效策略；通过基于智能化决策模型的仿真推演构建的仿真数据集，能够克服因作战策略与装备能力不匹配产生的无法充分发挥其作战效能，而导致的数据样本无法准确反应该装备的真实作战效能问题；针对不同的装备指标参数组合生成能够充分发挥其装备效能的控制策略，并利用该控制策略进行仿真推演生成装备效能评估样本数据。

附图说明

图1是根据本发明实施例提供的基于智能化仿真的装备效能评估数据集的构建方法流程图。

图2是根据本发明实施例提供的基于智能化仿真的装备效能评估数据集的构建方法的架构图。

具体实施方式

在下文中，将参考附图描述本发明的实施例。在下面的描述中，相同的模块使用相同的附图标记表示。在相同的附图标记的情况下，它们的名称和功能也相同。因此，将不重复其详细描述。

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及具体实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，而不构成对本发明的限制。

本发明提供一种基于智能化仿真的装备效能评估数据集的构建方法，包括如下步骤：

S4、智能体训练：以装备体系能够发挥的最大作战效能为学习对象，以收敛点训练得到的策略作为能够发挥装备效能的有效策略。采用APE-X框架并行训练的方式、通过与环境互动进行智能体训练，以优先经验回放机制积累经验数据，优化决策水平；随着训练收敛，形成装备指标参数以及在该场景下充分发挥效能的决策模型；

具体的，步骤S2中的装备智能决策模型包括装备接收到的信息、可能执行的策略/动作、装备的能力参数以及装备解算模型；所述装备解算模型包括装备仿真模型、结果裁决模型和效能计算模型。

具体的，装备智能决策模型采用深度确定性策略梯度算法构建；深度确定性策略梯度算法包括Actor神经网络结构和Critic神经网络结构；

采用全连接层加softmax函数作为所述输出层，节点数为1。

具体的，步骤S4中采用优先经验回放机制进行训练，通过一个经验缓冲池来存储经验，并为每个经验设置一个优先级，以非均匀抽样代替均匀抽样，防止因完全随机采样，导致的某些重要的经验没有被选到，使得学习效果不如预期。优先经验回放机制使得散度更大、更具代表性的经验被优先学习，从而提高了训练效率；并行训练的具体步骤如下：

S402、初始化经验池和动作噪声；

S405、采用非均匀采样，所述经验的采样概率计算公式为：

，/>；

；

S409、更新目标网络参数，直至STEP循环结束。

在具体实施例中，步骤S7的样本生成控制程序的具体步骤如下：

在具体实施例中，选取效能最高的5条记录计算效能均值。

实施例1

构建效能评估数据集，利用该数据集训练神经网络模型，对侦干一体无人机执行空对地侦察干扰的作战效能进行评估。需构建支撑神经网络模型进行监督学习的数据集，每条数据样本需包括“特征”及“标签”两部分，其中“特征”对应了装备指标参数，“标签”对应装备作战效能。装备指标参数需包含尽可能多的组合情况，装备作战效能通过在空对地作战场景下的仿真结果统计得到。

本发明采用智能化仿真产生数据样本，构建装备效能评估数据集，为效能评估智能算法模型提供训练样本。与人工设定的作战策略或动作规则进行仿真不同，本发明所采用智能化仿真方法依据装备作战规则、作战模式等信息构建装备作战策略智能体模型，智能体依据态势信息进行决策，形成作战策略。基于强化学习的智能体模型通过与环境互动进行训练，以试错的方式积累经验数据，优化决策水平。智能体通过超万次并行训练，收敛形成针对该场景、该装备指标参数的策略模型，再利用该策略模型进行仿真，生成样本数据。采用这种方法的优势在于，基于强化学习的智能体能够在训练中不断提升决策水平，随着训练收敛，形成该装备指标参数配置、在该场景下可充分发挥其效能的决策模型，避免因作战策略与装备能力不匹配产生的无法充分发挥其作战效能，导致生成的数据样本无法准确反应该装备的真实作战效能问题。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发明公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本发明公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.基于智能化仿真的装备效能评估数据集的构建方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的基于智能化仿真的装备效能评估数据集的构建方法，其特征在于：所述步骤S2中的装备智能决策模型包括装备接收到的信息、可能执行的策略/动作、装备的能力参数以及装备解算模型；所述装备解算模型包括装备仿真模型、结果裁决模型和效能计算模型。

3.根据权利要求2所述的基于智能化仿真的装备效能评估数据集的构建方法，其特征在于：所述装备智能决策模型采用深度确定性策略梯度算法构建。

4.根据权利要求3所述的基于智能化仿真的装备效能评估数据集的构建方法，其特征在于：所述深度确定性策略梯度算法包括Actor神经网络结构和Critic神经网络结构；

采用全连接层加softmax函数作为所述输出层，节点数为1。

5.根据权利要求4所述的基于智能化仿真的装备效能评估数据集的构建方法，其特征在于，所述步骤S4中并行训练的具体步骤如下：

S402、初始化经验池和动作噪声；

S405、采用非均匀采样，所述经验的采样概率计算公式为：

，/>；

；

S409、更新目标网络参数，直至STEP循环结束。

6.根据权利要求5所述的基于智能化仿真的装备效能评估数据集的构建方法，其特征在于：所述步骤S7的样本生成控制程序的具体步骤如下：

7.根据权利要求6所述的基于智能化仿真的装备效能评估数据集的构建方法，其特征在于：所述N=5。