CN113988301A

CN113988301A - 战术策略生成方法、装置、电子设备及存储介质

Info

Publication number: CN113988301A
Application number: CN202111514691.3A
Authority: CN
Inventors: 张海东; 赵美静; 倪晚成
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2021-12-13
Filing date: 2021-12-13
Publication date: 2022-01-28
Anticipated expiration: 2041-12-13
Also published as: CN113988301B

Abstract

本发明提供一种战术策略生成方法、装置、电子设备及存储介质，方法包括：在第一对象使用战术策略组中的目标战术策略与第二对象进行兵棋对抗的情况下，获取所述第一对象和所述第二对象的对抗博弈数据；所述战术策略组中包括至少一个战术策略；对所述对抗博弈数据进行战术策略提取，得到所述第二对象的实时战术策略；将所述目标战术策略和所述实时战术策略输入至战术策略模型，得到所述战术策略模型输出的更新后的战术策略组；其中，所述战术策略模型是对样本战术策略进行训练后得到的。本发明提供的方法，通过战术策略模型自动生成战术策略，提升了战术策略生成的对战胜率及生成效率。

Description

战术策略生成方法、装置、电子设备及存储介质

技术领域

本发明涉及战术兵棋对抗博弈领域，尤其涉及一种战术策略生成方法、装置、电子设备及存储介质。

背景技术

兵棋推演是一种通过模拟多种作战装备、武器和作战场景，根据战争实战的经验和规则，指挥员执行作战行动，达到作战目标，实现作战过程推演的作战模拟方法，可用于战术战法策略的优化与评估，以及新型武器装备条件下的战法创新研究等，是研究战争和认识战争的有效工具。

目前，战术兵棋博弈主要以红、蓝双方的零和博弈为主，面向战术级的计算机兵棋对抗的宏观策略生成方法主要包括基于规则方法和基于强化学习方法；其中，基于规则方法将专家经验知识按照态势和决策过程表示，但经验知识的维护与更新耗时耗力，且人工构建的专家经验知识在博弈对抗过程中可能存在冗余、冲突等问题，不利于大规模兵棋博弈经验的归纳；基于强化学习方法通过与对抗环境不断交互与试错，利用回报函数对作战单元行动的奖惩，实现对战术策略的学习，但基于强化学习，尤其是深度强化学习方法，训练出的模型难以解释，且战术级兵棋对抗博弈时空的高复杂性和随机性，使得强化学习难以在短时间内生成有效的应对策略。

发明内容

本发明提供一种战术策略生成方法，用以解决现有技术中难以在短时间内生成有效的应对策略的缺陷，实现提升了战术策略生成的对战胜率及生成效率。

本发明提供一种战术策略生成方法，包括：

在第一对象使用战术策略组中的目标战术策略与第二对象进行兵棋对抗的情况下，获取所述第一对象和所述第二对象的对抗博弈数据；所述战术策略组中包括至少一个战术策略；

对所述对抗博弈数据进行战术策略提取，得到所述第二对象的实时战术策略；

将所述目标战术策略和所述实时战术策略输入至战术策略模型，得到所述战术策略模型输出的更新后的战术策略组；其中，所述战术策略模型是对样本战术策略进行训练后得到的。

根据本发明提供的一种战术策略生成方法，所述战术策略模型，包括：威胁计算模块、推理模块；

所述将所述目标战术策略和所述实时战术策略输入至战术策略模型，得到所述战术策略模型输出的更新后的战术策略组，包括：

将所述目标战术策略和所述实时战术策略输入至所述威胁计算模块，得到所述威胁计算模块输出的所述目标战术策略的威胁值和所述实时战术策略的威胁值；

将所述目标战术策略的威胁值和所述实时战术策略的威胁值输入至所述推理模块，得到所述推理模块输出的所述更新后的战术策略组。

根据本发明提供的一种战术策略生成方法，所述将所述目标战术策略和所述实时战术策略输入至所述威胁计算模块，得到所述威胁计算模块输出的所述目标战术策略的威胁值和所述实时战术策略的威胁值，包括：

将所述目标战术策略和所述实时战术策略输入至所述威胁计算模块，基于所述威胁计算模块确定在所述第一对象处于进攻方的情况下，所述战术策略组中所述目标战术策略所在的第一策略池中所有的战术策略，对目标对抗地图中各地理位置在各时间步的第一火力威胁值；及确定在所述第二对象处于进攻方的情况下，所述战术策略组中所述实时战术策略所在的第二策略池中所有的战术策略，对目标对抗地图中各地理位置在各时间步的第二火力威胁值；所述战术策略组包括所述第一策略池和所述第二策略池；

根据所述第一火力威胁值确定所述威胁计算模块输出的所述目标战术策略的威胁值，根据所述第二火力威胁值确定所述威胁计算模块输出的所述实时战术策略的威胁值。

根据本发明提供的一种战术策略生成方法，所述将所述目标战术策略的威胁值和所述实时战术策略的威胁值输入至所述推理模块，得到所述推理模块输出的所述更新后的战术策略组，包括：

将所述目标战术策略的威胁值和所述实时战术策略的威胁值输入至所述推理模块，基于威胁值小于目标阈值的地理位置、及与所述地理位置对应的目标对象和攻防对象，确定所述目标战术策略和所述实时战术策略对应的安全策略；

将所述安全策略分别与所述目标战术策略和所述实时战术策略进行组合，确定所述推理模块输出的所述更新后的战术策略组。

根据本发明提供的一种战术策略生成方法，所述将所述安全策略分别与所述目标战术策略和所述实时战术策略进行组合，确定所述推理模块输出的所述更新后的战术策略组，包括：

将所述安全策略分别与所述目标战术策略和所述实时战术策略进行组合，确定出所述目标战术策略对应的第一扩展策略和所述实时战术策略对应的第二扩展策略；

基于所述第一扩展策略和所述第二扩展策略，确定所述第一扩展策略的威胁值和所述第二扩展策略的威胁值；

基于所述第一扩展策略的威胁值和所述第二扩展策略的威胁值，确定所述第一扩展策略的威胁值的变化值和所述第二扩展策略的威胁值的变化值；

基于所述第一扩展策略的威胁值的变化值和所述第二扩展策略的威胁值的变化值，确定所述推理模块输出的所述更新后的战术策略组。

本发明还提供一种战术策略生成装置，包括：

获取模块，用于在第一对象使用战术策略组中的目标战术策略与第二对象进行兵棋对抗的情况下，获取所述第一对象和所述第二对象的对抗博弈数据；所述战术策略组中包括至少一个战术策略；

提取模块，用于对所述对抗博弈数据进行战术策略提取，得到所述第二对象的实时战术策略；

更新模块，用于将所述目标战术策略和所述实时战术策略输入至战术策略模型，得到所述战术策略模型输出的更新后的战术策略组；其中，所述战术策略模型是对样本战术策略进行训练后得到的。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述战术策略生成方法的步骤。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述战术策略生成方法的步骤。

本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述战术策略生成方法的步骤。

本发明提供的战术策略生成方法，通过获取第一对象和第二对象的对抗博弈数据，提取对抗博弈数据中的战术策略，得到第二对象的实时战术策略，将目标战术策略和实时战术策略输入至战术策略模型，通过战术策略模型自动生成战术策略，提升了战术策略生成的对战胜率及生成效率。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的战术策略生成方法的流程示意图之一；

图2是本发明提供的战术策略生成方法的流程示意图之二；

图3是本发明提供的战术策略生成方法的流程示意图之三；

图4是本发明提供的战术策略生成方法的流程示意图之四；

图5是本发明提供的战术策略生成方法的流程示意图之五；

图6是本发明提供的战术策略生成装置的结构示意图；

图7是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合图1-图5描述本发明的战术策略生成方法。

图1为本发明提供的战术策略生成方法的流程示意图之一，如图1所示，该方法包括：

步骤110，在第一对象使用战术策略组中的目标战术策略与第二对象进行兵棋对抗的情况下，获取所述第一对象和所述第二对象的对抗博弈数据；所述战术策略组中包括至少一个战术策略。

可选地，本发明提供的战术策略生成方法可应用于战术兵棋策略推理场景中。本发明提供的战术策略生成方法的执行主体可以为本发明提供的战术策略生成装置，例如电子设备、或者该战术策略生成装置中的用于执行战术策略生成方法的控制模块。

需要说明的是，战术策略组中的目标战术策略是根据军事作战知识库和战术兵棋作战想定得到的；其中，军事作战知识库包括武器装备知识图谱和基本战术策略知识库，武器装备知识图谱表示为装备、武器和关系的语义表达，装备和武器之间的关系包括携带与攻击；例如，<坦克，携带，大号直瞄炮弹>表示坦克装备可携带大号直瞄炮弹，<大号直瞄炮弹，攻击，步战车>表示大号直瞄炮弹可攻击步战车；基本战术策略知识库包括多种基本战术策略的语义表达，例如，正面进攻、穿插渗透、迂回、伏击等的语义表达。

战术兵棋作战想定包括对抗博弈环境所需的对抗地图、交战规则、兵力编成、初始态势；其中，对抗地图表示当前对抗博弈环境的地理环境分布，例如，居民地、森林、松软地、河流等；交战规则表示兵力、武器、装备在当前对抗博弈环境下的机动、侦查、攻击等规则，例如，车辆通过一块松软地类型的地形单元所需时间为80个时间步，车辆对步兵的通视范围为10个地形单元；兵力编成表示兵力、武器、装备的组合，例如，第一对象的兵力编成为1个作战单位的坦克、1个作战单位的战车、1个作战单位的步兵，第二对象的兵力编成为2个作战单位的坦克、2个作战单位的战车、2个作战单位的步兵；初始态势表示作战前第一对象和第二对象在对抗地图上的位置分布，例如，第一对象的兵力从对抗地图上的坐标位置（31，28）附近出发，第二对象的兵力从对抗地图上的坐标位置（42，44）附近出发，双方的作战任务为夺取位于对抗地图的中央位置（36，36）和（40，39）的两处据点。

第一对象选择战术策略组中任一战术策略作为目标战术策略，与第二对象进行兵棋对抗，将第一对象和第二对象在博弈环境中进行兵棋对抗的过程记录下来，从而获取第一对象和第二对象在博弈环境中进行兵棋对抗的对抗博弈数据。

步骤120，对所述对抗博弈数据进行战术策略提取，得到所述第二对象的实时战术策略。

可选地，对获取的对抗博弈数据进行分析，确定第一对象和第二对象在博弈过程中各时刻各地理位置所使用的武器、装备、兵力，提取出第二对象的实时战术策略。

可选地，根据提取的实时战术策略和对抗博弈数据，分析第二对象在战术策略中武器、装备之间的协同情况，例如，坦克和炮射导弹在某个时刻同时攻击某个地理位置的战车，从而在该地理位置形成坦克和炮射导弹的协同火力，攻击该地理位置的战车。

可选地，根据提取的实时战术策略和对抗博弈数据，分析第二对象在战术策略中影响战术策略中序列行动的关键节点；例如，关键节点为战术策略中序列行动在某个时刻某个地理位置能够攻占据点，在该地理位置的武器、装备、兵力攻击的火力最集中，因此，该地理位置为关键节点。

步骤130，将所述目标战术策略和所述实时战术策略输入至战术策略模型，得到所述战术策略模型输出的更新后的战术策略组；其中，所述战术策略模型是对样本战术策略进行训练后得到的。

可选地，战术策略模型用于在第一对象使用战术策略组中的目标战术策略与第二对象的实时战术策略在博弈环境中进行迭代推演，得到第一对象和第二对象在对抗时自身作战的战术策略。

可选地，战术策略模型在迭代推演的过程中，不断迭代更新战术策略组，直至迭代结束得到对第一对象和第二对象最优的战术策略，因此，战术策略模型输出更新后的战术策略组。

可选地，图2为本发明提供的战术策略生成方法的流程示意图之二，如图2所示，该方法包括：

步骤210，在第一对象使用战术策略组中的目标战术策略与第二对象进行兵棋对抗的情况下，获取所述第一对象和所述第二对象的对抗博弈数据；所述战术策略组中包括至少一个战术策略。

步骤220，对所述对抗博弈数据进行战术策略提取，得到所述第二对象的实时战术策略。

可选地，关于步骤210-220的说明和解释，可以参照上述针对步骤110-120的说明和解释，且能达到相同的技术效果，为避免重复，这里不再赘述。

步骤230，将所述目标战术策略和所述实时战术策略输入至所述威胁计算模块，得到所述威胁计算模块输出的所述目标战术策略的威胁值和所述实时战术策略的威胁值。

需要说明的是，战术策略模型包括威胁计算模块、推理模块；其中，威胁计算模块用于计算目标战术策略的威胁值和实时战术策略的威胁值，推理模块用于基于目标战术策略的威胁值和实时战术策略的威胁值，对目标战术策略和实时战术策略进行迭代推理，得到更新后的战术策略组。

可选地，威胁值表示在博弈环境中，第一对象的目标策略和第二对象的实时策略中武器、装备、兵力在各时刻各地理位置产生的威胁。

步骤240，将所述目标战术策略的威胁值和所述实时战术策略的威胁值输入至所述推理模块，得到所述推理模块输出的所述更新后的战术策略组。

可选地，推理模块根据目标战术策略的威胁值和实时战术策略的威胁值，规避威胁值大于目标阈值的位置，推理到达据点的安全路径，从而得到新的战术策略。

可选地，推理模块根据得到的新的战术策略，更新战术策略组，因此，推理模块输出更新后的战术策略。

本发明提供的战术策略生成方法，将目标战术策略和实时战术策略输入至威胁计算模块，得到目标战术策略的威胁值和实时战术策略的威胁值，再将目标战术策略的威胁值和实时战术策略的威胁值输入至推理模块，得到推理模块输出的更新后的战术策略组，从而提升了战术策略生成的对战胜率及生成效率。

可选地，图3为本发明提供的战术策略生成方法的流程示意图之三，如图3所示，该方法包括：

步骤310，在第一对象使用战术策略组中的目标战术策略与第二对象进行兵棋对抗的情况下，获取所述第一对象和所述第二对象的对抗博弈数据；所述战术策略组中包括至少一个战术策略。

步骤320，对所述对抗博弈数据进行战术策略提取，得到所述第二对象的实时战术策略。

可选地，关于步骤310-320的说明和解释，可以参照上述针对步骤110-120的说明和解释，且能达到相同的技术效果，为避免重复，这里不再赘述。

步骤330，将所述目标战术策略和所述实时战术策略输入至所述威胁计算模块，基于所述威胁计算模块确定在所述第一对象处于进攻方的情况下，所述战术策略组中所述目标战术策略所在的第一策略池中所有的战术策略，对目标对抗地图中各地理位置在各时间步的第一火力威胁值；及确定在所述第二对象处于进攻方的情况下，所述战术策略组中所述实时战术策略所在的第二策略池中所有的战术策略，对目标对抗地图中各地理位置在各时间步的第二火力威胁值；所述战术策略组包括所述第一策略池和所述第二策略池。

可选地，使用公式（1）可以计算当第一对象处于进攻方的情况，得到第一火力威胁值；或者第二对象处于进攻方的情况下，得到第二火力威胁值：

其中，函数

表示第i个策略t时刻采取行动产生的第一火力威胁值或第二火力威胁值；

表示地理位置

的威胁值；

表示地理位置

在武器装备w的射程范围内时，记为1，否则为0；X和Y表示地理位置的长度和宽度；i表示第一策略池或第二策略池中战术策略的数量；t表示时间；w表示武器装备。

可选地，当第一对象处于进攻方、第二对象处于防守方的情况下，第二对象的战术策略需要考虑第一对象所在的第一策略池中所有的战术策略的第一火力威胁值；当第一对象处于防守方、第二对象处于进攻方的情况下，第一对象的战术策略需要考虑第二对象所在的第二策略池中所有的战术策略的第二火力威胁值。

步骤340，根据所述第一火力威胁值确定所述威胁计算模块输出的所述目标战术策略的威胁值，根据所述第二火力威胁值确定所述威胁计算模块输出的所述实时战术策略的威胁值。

可选地，使用公式（2）可以计算得到目标战术策略的威胁值和实时战术策略的威胁值：

其中，

表示在t时刻目标战术策略的威胁值和实时战术策略的威胁值；N表示第一策略池或第二策略池中战术策略的最大数量，i表示第一策略池或第二策略池中的第i 个策略。

步骤350，将所述目标战术策略的威胁值和所述实时战术策略的威胁值输入至所述推理模块，得到所述推理模块输出的所述更新后的战术策略组。

可选地，关于步骤350的说明和解释，可以参照上述针对步骤240的说明和解释，且能达到相同的技术效果，为避免重复，这里不再赘述。

本发明提供的战术策略生成方法，将目标战术策略和实时战术策略输入至威胁计算模块，威胁计算模块确定战术策略组中目标战术策略所在的第一策略池中所有的战术策略对目标对抗地图中各地理位置在各时间步的第一火力威胁值和实时战术策略所在的第二策略池中所有的战术策略对目标对抗地图中各地理位置在各时间步的第二火力威胁值，得到目标战术策略的威胁值和实时战术策略的威胁值，再将目标战术策略的威胁值和实时战术策略的威胁值输入至推理模块，得到推理模块输出的更新后的战术策略组，从而提升了战术策略生成的对战胜率及生成效率。

可选地，图4为本发明提供的战术策略生成方法的流程示意图之四，如图4所示，该方法包括：

步骤410，在第一对象使用战术策略组中的目标战术策略与第二对象进行兵棋对抗的情况下，获取所述第一对象和所述第二对象的对抗博弈数据；所述战术策略组中包括至少一个战术策略。

步骤420，对所述对抗博弈数据进行战术策略提取，得到所述第二对象的实时战术策略。

可选地，关于步骤410-420的说明和解释，可以参照上述针对步骤110-120的说明和解释，且能达到相同的技术效果，为避免重复，这里不再赘述。

步骤430，将所述目标战术策略和所述实时战术策略输入至所述威胁计算模块，得到所述威胁计算模块输出的所述目标战术策略的威胁值和所述实时战术策略的威胁值。

可选地，关于步骤430的说明和解释，可以参照上述针对步骤230的说明和解释，且能达到相同的技术效果，为避免重复，这里不再赘述。

步骤440，将所述目标战术策略的威胁值和所述实时战术策略的威胁值输入至所述推理模块，基于威胁值小于目标阈值的地理位置、及与所述地理位置对应的目标对象和攻防对象，确定所述目标战术策略和所述实时战术策略对应的安全策略。

可选地，目标阈值表示预先设定的威胁值，即各时刻各地理位置的威胁值小于该目标阈值时，目标战术策略和实时战术策略中的武器、装备、兵力的攻击不受威胁值的影响；目标对象表示位于该地理位置的兵力、武器、装备；攻防对象表示位于该地理位置的兵力、武器、装备是攻击对象或者防守对象。

具体地，推理模块根据目标战术策略的威胁值和实时战术策略的威胁值，选择威胁值小于目标阈值的地理位置，以及处于该地理位置的目标对象和攻防对象，确定出目标战术策略和实时战术策略对应的安全策略。

例如，当第一对象和第二对象未进入博弈环境对应战场的重心区域时，若第一对象作为攻击方，第二对象作为防守方，第二对象根据第一对象在各时刻各地理位置装备、武器、兵力的威胁值，生成到达据点的安全路径，即规避威胁值大于目标阈值的地理位置，第二对象在各时刻各地理位置装备、武器、兵力沿着安全路径到达据点的一系列行动表示为

；同理，若第二对象作为攻击方、第一对象作为防守方，可得第一对象的战术策略的序列行动，也可以表示为

。当第一对象和第二对象的兵力进入博弈环境对应战场的重心区域时，若第一对象在对抗地图中某个地理位置的火力强于第二对象在该地理位置的火力，则第一对象作为攻击方，第二对象作为防守方，第一对象选择时间段

内最佳攻击第二对象的武器、装备所处的地理位置，并选择有效的武器打击第二对象的装备，表示为

；而第二对象避免被第一对象攻击，选择时间段

内第一对象在对抗地图中地理位置的火力威胁值最小的地理位置作为最佳隐蔽位置进行躲藏，第二对象此时的序列行动也可以表示为

，从而得到第一对象使用的目标战术策略和第二对象的实时战术策略对应的安全策略。

步骤450，将所述安全策略分别与所述目标战术策略和所述实时战术策略进行组合，确定所述推理模块输出的所述更新后的战术策略组。

需要说明的是，推理模块根据目标战术策略对应的扩展策略和实时战术策略对应的扩展策略，将战术策略组进行更新，从而得到推理模块输出的更新后的战术策略组。

本发明提供的战术策略生成方法，将目标战术策略和实时战术策略的威胁值输入至推理模块，推理模块根据威胁值小于目标阈值的地理位置及与地理位置对应的目标对象和攻防对象，确定目标战术策略和实时战术策略对应的安全策略，将战术策略组进行更新，得到推理模块输出的更新后的战术策略组，从而提升了战术策略生成的对战胜率及生成效率。

可选地，步骤450的实现方式可以通过以下步骤实现：

步骤1，将安全策略分别与目标战术策略和实时战术策略进行组合，确定出目标战术策略对应的第一扩展策略和实时战术策略对应的第二扩展策略。

具体地，将目标战术策略对应的安全策略和目标战术策略进行组合，得到目标战术策略对应的第一扩展策略；将实时战术策略对应的安全策略和实时战术策略进行组合，得到实时战术策略对应的第二展策略。目标战术策略和实时战术策略表示为

，其中，M表示目标战术策略或者实时战术策略中策略的数量，则第一扩展策略和第二扩展策略可以表示为

。

需要说明的是，再得到目标战术策略对应的第一扩展策略和实时战术策略对应的第二扩展策略之后，需要对战术策略组进行更新。

步骤2，基于第一扩展策略和第二扩展策略，确定第一扩展策略的威胁值和第二扩展策略的威胁值。

具体地，基于目标战术策略对应的第一扩展策略和实时战术策略对应的第二扩展策略，计算第一扩展策略的威胁值和第二扩展策略的威胁值，该威胁值表示为

，其中M表示战术策略组中目标战术策略或者实时战术策略的数量，j表示第一策略池或第二策略池中的第j个策略。

步骤3，基于第一扩展策略的威胁值和第二扩展策略的威胁值，确定第一扩展策略的威胁值的变化值和第二扩展策略的威胁值的变化值。

具体地，威胁值的变化值可以使用公式（3）表示：

其中，

表示目标战术策略对应的第一扩展策略的威胁值或者实时战术策略对应的第二扩展策略的威胁值，

表示目标战术策略或者实时战术策略的威胁值，t表示时间。

需要说明的是，在对战术策略模型训练时，根据威胁值的变化值对样本战术策略进行训练，得到训练好的战术策略模型。

步骤4，基于第一扩展策略的威胁值的变化值和第二扩展策略的威胁值的变化值，确定推理模块输出的更新后的战术策略组。

具体地，根据第一扩展策略的威胁值的变化值和第二扩展策略的威胁值的变化值，若第一扩展策略的威胁值的变化值小于目标阈值，确定第一扩展策略收敛，否则更新第一扩展策略所属的战术策略组；若第二扩展策略的威胁值的变化值小于目标阈值，确定第二扩展策略收敛，否则更新第二扩展策略所属的战术策略组；在第一扩展策略的威胁值的变化值和第二扩展策略的威胁值的变化值均收敛的情况下，确定推理模块输出的更新后的战术策略组。

可选地，图5本发明提供的战术策略生成方法的流程示意图之五，如图5所示，该方法包括：

首先，根据军事作战知识库501和战术兵棋作战想定502，对战术策略组初始化模块503进行初始化，得到战术策略组504；再使用战术策略组中的目标战术策略作为第一对象与第二对象进行兵棋对抗，获取第一对象和第二对象的对抗博弈数据。

其次，根据获取到的第一对象和第二对象的对抗博弈数据，对对抗博弈数据进行战术策略提取，得到第二对象的战术实时策略；需要说明的是，根据第二对象的战术实时策略和对抗博弈数据，对战术实时策略的武器、装备之间的协同火力和影响实时战术策略中序列行动的关键节点进行分析。

接着，将战术策略组中的目标战术策略和实时战术策略输入至战术策略模型的威胁计算模块505，威胁计算模块505输出目标战术策略的威胁值和实时战术策略的威胁值；再将目标战术策略的威胁值和实时战术策略的威胁值输入至推理模块506，推理模块506基于威胁值小于目标阈值的地理位置、及与地理位置对应的目标对象和攻防对象，确定目标战术策略和实时战术策略对应的安全策略，将安全策略分别与目标战术策略和实时战术策略进行组合，确定出目标战术策略对应的第一扩展策略507和实时战术策略对应的第二扩展策略508。

接着，基于第一扩展策略和第二扩展策略，确定第一扩展策略的威胁值和第二扩展策略的威胁值；再根据第一扩展策略的威胁值和第二扩展策略的威胁值使用第一扩展策略和第二扩展策略是否收敛判断模块509判断第一扩展策略和第二扩展策略是否收敛；若第一扩展策略或者第二扩展策略不收敛，则返回战术策略组504，再次进行迭代；在第一扩展策略和第二扩展策略均收敛的情况下，确定推理模块506输出的更新后的战术策略组510。

下面对本发明提供的战术策略生成装置进行描述，下文描述的战术策略生成装置与上文描述的战术策略生成方法可相互对应参照。

图6为本发明提供的战术策略生成装置的结构示意图，如图6所示，该战术策略生成装置600包括：获取模块601、提取模块602、更新模块603；其中，

获取模块601，用于在第一对象使用战术策略组中的目标战术策略与第二对象进行兵棋对抗的情况下，获取所述第一对象和所述第二对象的对抗博弈数据；所述战术策略组中包括至少一个战术策略；

提取模块602，用于对所述对抗博弈数据进行战术策略提取，得到所述第二对象的实时战术策略；

更新模块603，用于将所述目标战术策略和所述实时战术策略输入至战术策略模型，得到所述战术策略模型输出的更新后的战术策略组；其中，所述战术策略模型是对样本战术策略进行训练后得到的。

本发明提供的战术策略生成装置，通过获取第一对象和第二对象的对抗博弈数据，提取对抗博弈数据中的战术策略，得到第二对象的实时战术策略，将目标战术策略和实时战术策略输入至战术策略模型，通过战术策略模型自动生成战术策略，提升了战术策略生成的对战胜率及生成效率。

可选地，所述战术策略模型，包括：威胁计算模块、推理模块；更新模块603，具体用于：

可选地，更新模块603，具体用于：

可选地，将所述安全策略分别与所述目标战术策略和所述实时战术策略进行组合，确定出所述目标战术策略对应的第一扩展策略和所述实时战术策略对应的第二扩展策略；

图7为本发明提供的一种电子设备的实体结构示意图，如图7所示，该电子设备可以包括：处理器(processor)710、通信接口(CommunicationsInterface)720、存储器(memory)730和通信总线740，其中，处理器710，通信接口720，存储器730通过通信总线740完成相互间的通信。处理器710可以调用存储器730中的逻辑指令，以执行战术策略生成方法，该方法包括：在第一对象使用战术策略组中的目标战术策略与第二对象进行兵棋对抗的情况下，获取所述第一对象和所述第二对象的对抗博弈数据；所述战术策略组中包括至少一个战术策略；对所述对抗博弈数据进行战术策略提取，得到所述第二对象的实时战术策略；将所述目标战术策略和所述实时战术策略输入至战术策略模型，得到所述战术策略模型输出的更新后的战术策略组；其中，所述战术策略模型是对样本战术策略进行训练后得到的。

此外，上述的存储器730中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-OnlyMemory）、随机存取存储器（RAM，RandomAccessMemory）、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的战术策略生成方法，该方法包括：在第一对象使用战术策略组中的目标战术策略与第二对象进行兵棋对抗的情况下，获取所述第一对象和所述第二对象的对抗博弈数据；所述战术策略组中包括至少一个战术策略；对所述对抗博弈数据进行战术策略提取，得到所述第二对象的实时战术策略；将所述目标战术策略和所述实时战术策略输入至战术策略模型，得到所述战术策略模型输出的更新后的战术策略组；其中，所述战术策略模型是对样本战术策略进行训练后得到的。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的战术策略生成方法，该方法包括：在第一对象使用战术策略组中的目标战术策略与第二对象进行兵棋对抗的情况下，获取所述第一对象和所述第二对象的对抗博弈数据；所述战术策略组中包括至少一个战术策略；对所述对抗博弈数据进行战术策略提取，得到所述第二对象的实时战术策略；将所述目标战术策略和所述实时战术策略输入至战术策略模型，得到所述战术策略模型输出的更新后的战术策略组；其中，所述战术策略模型是对样本战术策略进行训练后得到的。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种战术策略生成方法，其特征在于，包括：

2.根据权利要求1所述的战术策略生成方法，其特征在于，所述战术策略模型，包括：威胁计算模块、推理模块；

3.根据权利要求2所述的战术策略生成方法，其特征在于，所述将所述目标战术策略和所述实时战术策略输入至所述威胁计算模块，得到所述威胁计算模块输出的所述目标战术策略的威胁值和所述实时战术策略的威胁值，包括：

4.根据权利要求2所述的战术策略生成方法，其特征在于，所述将所述目标战术策略的威胁值和所述实时战术策略的威胁值输入至所述推理模块，得到所述推理模块输出的所述更新后的战术策略组，包括：

5.根据权利要求4所述的战术策略生成方法，其特征在于，所述将所述安全策略分别与所述目标战术策略和所述实时战术策略进行组合，确定所述推理模块输出的所述更新后的战术策略组，包括：

6.一种战术策略生成装置，其特征在于，包括：

7.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至5任一项所述战术策略生成方法的步骤。

8.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述战术策略生成方法的步骤。

9.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述战术策略生成方法的步骤。