CN113283111B

CN113283111B - 一种用于模型推演到智能推演的转化方法

Info

Publication number: CN113283111B
Application number: CN202110656539.2A
Authority: CN
Inventors: 曾向荣; 钟志伟; 刘衍; 张政
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2021-06-11
Filing date: 2021-06-11
Publication date: 2022-05-27
Anticipated expiration: 2041-06-11
Also published as: CN113283111A

Abstract

本发明公开了一种用于模型推演到智能推演的转化方法，将模型推演中对抗单元的模型数字化输入、规则行为的数字化输入和对抗单元行为决策数字化输出转化为智能推演中图像模型的输入和输出；将虚拟环境推演中对抗单元的移动过程、编组分队过程在智能推演中进行离散化采样，转化为图模型的序列图像；将虚拟环境推演的损伤评估转化为智能推演中图像模型的各个单元的损伤和整体的损伤评估；将智能推演中图像模型的输入作为深度强化学习的训练测试模型的输入，深度强化学习的训练测试模型输出动作、策略值向量。本发明将单元行为决策输出转化为可用于深度强化学习的输出，以适应深度强化学习的需求，为智能化推演提供依据。

Description

一种用于模型推演到智能推演的转化方法

技术领域

本发明属于对抗推演技术领域，尤其涉及一种用于模型推演到智能推演的转化方法。

背景技术

智能对抗是指在信息对抗的基础上运用智能武器和手段实现以高效指挥化、打击精确化、操作自动化、行为智能化为主旨的高技术对抗形式。从本质上讲，智能对抗是人的智能向信息对抗场地和对抗装备的辐射和延伸。从对抗程序和手段看，智能对抗包括智能化的指挥控制和智能化装备的攻防对抗。智能对抗的主要标志是智能化对抗装备群及智能化对抗手段的出现。

对抗推演由最初的采用单元缩小的模型推演到以计算机为主体的模型数字化虚拟环境推演到智能化推演，智能化推演是在虚拟环境推演的基础上增加智能化部分。针对智能化对抗在虚拟训练推演的研究中，国内常常采用的是模块化设计、功能齐全，然后没有详细的介绍深度学习在智能化推演中的使用。专利号：201811075660.0提出了一种面向多领域可扩展兵棋推演平台，该平台为提高通用性和扩展性，引入兵棋二次开发的设计。专利号：201811313124.X 提出了一种基于深度强化学习的无监督智能对抗推演系统，该方法没有详细的介绍深度强化学习如何在对抗推演系统中使用。

强化学习是人工智能机器学习领域里的一个分支，用于控制一只能够在某个环境下自主行动的智能体，通过和环境之间的互动，包括感知与得到奖励，而不断改进它的行为，而强化学习的目的，就是选择一系列行动来最大化未来的奖励。深度强化学习把神经网络提取复杂高维数据特征的能力融入强化学习，将数据转化到低维特征，便于强化学习处理。众所周知，对抗决策是对抗领域中最复杂、最具挑战的活动，并由此促进了对抗辅助决策支持技术的产生和发展。可以预见，深度强化学习技术的不断进步必将对对抗智能辅助决策领域产生深刻而重大的影响。

发明内容

有鉴于此，本发明的目的是通过把对抗双方的装备单元模型数据、单元行为模型数据输入建模转化为可用于深度强化学习的图像模型，单元行为决策输出转化为可用于深度强化学习的输出，对虚拟环境推演进行图像模型转化，以适应深度强化学习的需求，为智能化对抗单元推演提供依据。

本发明提供一种用于模型推演到智能推演的转化方法，该方法是把模型推演的过程首先转化虚拟环境推演的过程，然后转化为智能推演的过程。虚拟环境推演中的对抗单元的模型数字化输入、规则行为的数字化输入和对抗单元行为决策数字化输出转化为智能推演中图像模型的输入和输出，虚拟环境推演中的对抗单元移动过程、编组分队过程在智能推演中对其进行离散化采样转化为图模型的序列图像，虚拟环境推演的损伤评估转化为图像模型中的各个单元的损伤和整体的损伤评估。

本发明公开的一种用于模型推演到智能推演的转化方法，该方法包括以下步骤：

将模型推演中对抗单元的模型数字化输入、规则行为的数字化输入和对抗单元行为决策数字化输出转化为智能推演中图像模型的输入和输出；

将虚拟环境推演中对抗单元的移动过程、编组分队过程在智能推演中进行离散化采样，转化为图模型的序列图像；

将虚拟环境推演的损伤评估转化为智能推演中图像模型的对抗单元的损伤和整体的损伤评估；

将所述智能推演中图像模型的输入作为深度强化学习的训练测试模型的输入，深度强化学习的训练测试模型输出动作、策略值向量。

进一步的，所述模型推演中对抗单元的模型数字化输入、规则行为的数字化输入转化为智能推演中图像模型的输入的步骤，包括：

构建对抗单元状态模型属性图像，所述对抗单元状态模型属性图像中某点像素(R_a,G_a,B_a)代表对抗单元状态模型属性，其中R_a代表对抗方，G_a为对抗单元类型，B_a为生命值，对抗单元为以像素点(R_a,G_a,B_a)为中心的圆，探测范围为对抗单元外围预设值大小的圆环；

构建对抗单元攻击、防御模型属性图像，所述对抗单元攻击、防御模型属性图像中某点像素(R_b,G_b,B_b)代表对抗单元攻击、防御模型属性，其中R_b为攻击值，G_b为防御值，B_b为耦合度，B_b为调度员对对抗单元的熟悉程度或多对抗单元类型协同程度，攻击范围是像素点(R_b,G_b,B_b)为中心的圆；

构建对抗单元规则行为模型，所述对抗单元规则行为模型在所述对抗单元状态模型属性图像和所述对抗单元攻击、防御模型属性图像中运动；

构建地图模型属性图像，图像中某点像素(R_m,0,0)代表地图模型属性，其中 R_m代表高度的像素值，当图像中任意点的位置(x_i,y_i)的像素值相等时，说明处于相同的高度；当相邻点的像素值距离

小于设定值时，说明地面的对抗单元可在相邻点之间移动。

进一步的，对抗单元状态、行为决策数字化输出转化为图像模型的输出，当对抗单元状态模型属性(R_a,G_a,B_a)中的生命值B_a＜T时认为不可以对抗，把该对抗单元从所述状态模型属性图像中删除，其中T指对抗中装备损坏或者损失情况说明；

对对抗单元行为决策进行数字化量化，以决策向量α＝[α_i,α_k]作为行为决策输出，其中α_i代表是否攻击，α_k代表是否聚集。

进一步的，所述将虚拟环境推演中对抗单元的移动过程、编组分队过程在智能推演中进行离散化采样，转化为图模型的序列图像的方法如下：

图像的像素大小按照对抗单元的对抗区域进行设置，特定大小范围的虚拟环境推演，选用预设大小的像素图像，对抗单元的移动过程分别在所述对抗单元状态模型属性图像和所述对抗单元攻击、防御模型属性图像中运动，每次运动的步长由每个像素对应的距离决定。

进一步的，所述将虚拟环境推演的损伤评估转化为图像模型中的各个单元的损伤和整体的损伤评估的步骤包括，对每次对抗单元状态、行为改变的输出在图像模型下评估各个单元的损伤和整体损伤，根据对抗单元的状态模型属性图像中的B_a值判断，并对下次的所述决策向量α做损伤评估，以估计所述决策向量α的优劣。

进一步的，所述深度强化学习的训练测试模型以所述攻击、防御模型属性图像和所述对抗单元状态模型属性图像为输入，回报值函数为

其中f为以攻击、防御模型属性图像、对抗单元状态模型属性图像构成的函数，奖励值r_k＝f{(R_bk,G_bk,B_bk),(R_ak,G_ak,B_ak)}为以攻击、防御模型属性图像、对抗单元状态模型属性图像构成的函数；

深度强化学习的训练测试模型输出所述决策向量α。

本发明对虚拟环境推演进行图像模型转化，适应了深度强化学习的需求，为智能化对抗单元推演提供量化依据。

附图说明

图1一种用于模型推演到智能推演的转化方法示意图；

图2对抗单元状态模型属性图像及时序变化；

图3地图模型属性图像；

图4基于深度强化学习的对抗仿真推演网络结构图。

具体实施方式

下面结合附图对本发明作进一步的说明，但不以任何方式对本发明加以限制，基于本发明教导所作的任何变换或替换，均属于本发明的保护范围。

本发明的目的是通过把对抗双方的装备单元模型数据、单元行为模型数据输入建模转化为可用于深度强化学习的图像模型，单元行为决策输出转化为可用于深度强化学习的输出，对虚拟环境推演进行图像模型转化，以适应深度强化学习的需求，为智能化对抗单元推演提供依据。本发明中的对抗单元包括地面对抗单元，空中对抗单元和水面对抗单元。

如图1所示，本发明公开的可用于模型推演到智能推演的转化方法示意图，该方法是把模型推演的过程首先转化虚拟环境推演的过程，然后转化为智能推演的过程。模型推演中的对抗单元的模型数字化输入、规则行为的数字化输入和对抗单元行为决策数字化输出转化为智能推演中图像模型的输入和输出，模型推演中的对抗单元移动过程、编组分队过程在智能推演中对其进行离散化采样转化为图模型的序列图像，模型推演的损伤评估转化为图像模型中的各个单元的损伤和整体的损伤评估。

模型推演中的对抗单元的模型数字化输入、规则行为的数字化输入转化为智能推演中图像模型的输入，以图像(R,G,B)像素为基础进行转化，其具体步骤为：

1)构建对抗单元状态模型属性图像，图像中某点像素(R_a,G_a,B_a)代表对抗单元状态模型属性，R_a＝125为蓝方，R_a＝255为红方；G_a为对抗单元类型，G_a的值为0-255可选择256种类型；B_a为生命值，不同的对抗单元类型被同样装备击中时，损伤程度会不一样，根据B_a可以区分。对抗单元的体积以像素点(R_a,G_a,B_a) 为中心的圆，探测范围为以在兵棋单元的外围画以(50,50,50)像素值圆环。

如图2所示为对抗单元状态模型属性图像及时序变化，101为虚拟步兵、102 为虚拟导弹车、103为虚拟坦克车、104为探测范围。各对抗单元的时序变化如图1从左边图到最右边图的变化，单元在相对运动。本发明以圆形替代对抗单元，以简化对抗单元的复杂度，提高对抗仿真的速度。

2)构建对抗单元攻击、防御模型属性图像，图像中某点像素(R_b,G_b,B_b)代表对抗单元攻击、防御模型属性，R_b为攻击值，G_b为防御值，B_b为耦合度， B_b为调度员对对抗单元的熟悉程度或者多对抗单元类型协同可以为其提高攻击值。攻击范围用以像素点(R_b,G_b,B_b)为中心的圆。

3)构建对抗单元规则行为模型，对抗单元规则行为模型在对抗单元状态模型属性图像和兵棋攻击、防御模型属性图像中运动。

4)构建地图模型属性图像，图像中某点像素(R_m,0,0)代表地图模型属性，当图像中任意点的位置(x_i,y_i)的像素值相等时，说明处于相同的高度，若相邻点的像素值

时，说明地面的对抗单元可以在相邻点之间移动，空中的对抗单元不受地形限制。如图3所述为地图模型属性图像，105为河流、106为高原、107为从陆地到高原的区域、其它区域为陆地。地图属性图像限制着对抗单元的移动。

对虚拟环境推演中的移动过程、编组分队过程进行离散化采样转化为图像模型的序列图像。图像的像素大小按照对抗单元的对抗区域进行选择，如 100km×100km范围的虚拟环境推演，选用1000×1000的像素图像，对抗单元的移动过程分别在对抗单元状态模型属性图像和对抗单元攻击、防御模型属性图像中运动，每次运动的步长由每个像素对应的距离决定。

对抗单元状态、行为决策数字化输出转化为图像模型的输出，当某对抗单元状态模型属性(R_a,G_a,B_a)中的生命值B_a＜T时认为不可以对抗，把该对抗单元从状态模型属性图中删除。T指的是对抗中装备损坏或者损失情况说明，T值根据不同的装备指不同，采用归一化之后，本实施例中T设定为51～76，即20～30％。在其它实施例中T值也可以设为77～85，或其它值，本发明对此不作限定。对对抗单元行为进行数字化量化，以向量α＝[α_i,α_k]作为行为决策输出，向量α中的α_i代表是否攻击，α_k代表是否聚集。

虚拟环境推演的损伤评估转化为图像模型中的各个单元的损伤和整体的损伤，对每次对抗单元状态、行为改变的输出做在图像模型下的各个单元的损伤和整体损伤，根据对抗单元状态模型属性图像中的B_a值判断，对下次的决策向量α也做损伤评估，以估计该决策向量α的优劣。

如图4所示，本发明的基于深度强化学习的对抗仿真推演网络结构图，深度卷积神经网络可以选择为VGG(Oxford Visual Geometry Group)网络结构、 googLeNet网络结构或ResNet(残差)网络结构等，网络结构包括DCNN网络结构，全连接层等。

深度强化学习的训练测试模型以兵棋状态模型属性图像为输入，回报值函数为：

其中f为以攻击、防御模型属性图像、对抗单元状态模型属性图像构成的函数，奖励值r_k＝f₁{(R_bk,G_bk,B_bk),(R_ak,G_ak,B_ak)}为以攻击、防御模型属性图像、对抗单元状态模型属性图像构成的函数。

深度强化学习的训练测试模型通过大量训练后，输出决策向量α。

上述实施例为本发明的一种实施方式，但本发明的实施方式并不受所述实施例的限制，其他的任何背离本发明的精神实质与原理下所做的改变、修饰、代替、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种用于模型推演到智能推演的转化方法，其特征在于，该方法包括以下步骤：

将所述智能推演中图像模型的输入作为深度强化学习的训练测试模型的输入，深度强化学习的训练测试模型输出动作、策略值向量；

其中，所述模型推演中对抗单元的模型数字化输入、规则行为的数字化输入转化为智能推演中图像模型的输入的步骤，包括：

构建地图模型属性图像，图像中某点像素(R_m,0,0)代表地图模型属性，其中R_m代表高度的像素值，当图像中任意点的位置(x_i,y_i)的像素值相等时，说明处于相同的高度；当相邻点的像素值距离

小于设定值时，说明地面的对抗单元可在相邻点之间移动；

对抗单元状态、行为决策数字化输出转化为图像模型的输出，当对抗单元状态模型属性(R_a,G_a,B_a)中的生命值B_a＜T时认为不可以对抗，把该对抗单元从所述状态模型属性图像中删除，其中T指对抗中装备损坏或损失情况说明；

2.根据权利要求1所述的用于模型推演到智能推演的转化方法，其特征在于，所述将虚拟环境推演中对抗单元的移动过程、编组分队过程在智能推演中进行离散化采样，转化为图模型的序列图像的方法如下：

3.根据权利要求1所述的用于模型推演到智能推演的转化方法，其特征在于，所述将虚拟环境推演的损伤评估转化为图像模型中的各个单元的损伤和整体的损伤评估的步骤包括，对每次对抗单元状态、行为改变的输出在图像模型下评估各个单元的损伤和整体损伤，根据对抗单元的状态模型属性图像中的B_a值判断，并对下次的所述决策向量α做损伤评估，以估计所述决策向量α的优劣。

4.根据权利要求1所述的用于模型推演到智能推演的转化方法，其特征在于，所述深度强化学习的训练测试模型以所述攻击、防御模型属性图像和所述对抗单元状态模型属性图像为输入，回报值函数为

深度强化学习的训练测试模型输出所述决策向量α。

5.根据权利要求4所述的用于模型推演到智能推演的转化方法，其特征在于，所述深度强化学习使用VGG、GoogLeNet或ResNet网络进行。