CN115577874A

CN115577874A - 一种应用于兵棋推演的策略模型训练方法、装置及设备

Info

Publication number: CN115577874A
Application number: CN202211179903.1A
Authority: CN
Inventors: 徐博; 张鸿铭; 王燕娜; 徐波
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2022-03-04
Filing date: 2022-09-27
Publication date: 2023-01-06
Also published as: CN114330754A

Abstract

本发明实施例涉及人工智能领域，公开了一种应用于兵棋推演的策略模型训练方法、装置及设备。本发明实施例涉及的应用于兵棋推演的策略模型训练方法包括：分别获取第一策略模型和第二策略模型，第一策略模型来自第一种群池，第二策略模型来自第二种群池；调用第一策略模型与第二策略模型进行对战，得到第一对战结果，第一对战结果用于表征相应第一策略模型与相应第二策略模型的对战胜利的可能性；若第一对战结果大于第一预设阈值，则更新第一种群池中第一策略模型的被选概率。这样，双方策略模型对应的种群池随着训练不断优化更新，满足了双方策略模型对训练样本的数量以及多样性需求，以及避免了策略模型学习策略单一的情况。

Description

一种应用于兵棋推演的策略模型训练方法、装置及设备

技术领域

本发明实施例涉及人工智能领域，尤其涉及一种应用于兵棋推演的策略模型训练方法、装置及设备。

背景技术

随着信息化技术的发展，兵棋推演已经成为如今电子对抗活动中重要的分析方法，被广泛应用于电子对抗的分析预测以及相应人员的管理分析等方面。

现有兵棋推演，通常基于博弈学习实现。博弈学习的过程通常由至少两方策略模型参与，所有阵营的策略模型在学习过程中始终保持对抗状态，并且策略模型与作战环境实施交互，分别从环境中获取各自的态势和奖励，以使策略模型根据各自的态势以及奖励结果对各自的后续动作做出优选决策，从而不断优化更新策略模型。

对于兵棋推演，通常需要使博弈双方策略模型的在对抗场景中获胜的能力在有限条件内得到最大限度优化。为了实现这个目的，就需要使博弈双方策略模型在训练的过程中均匹配到能力更强且类别更多样的对手进行推演训练。

但是，一方面，实际策略模型训练过程中能满足上述需求的对手训练样本较少，进而使博弈双方策略模型的最终训练结果难以达到需求。另一方面，现有博弈学习场景中，通常采用对每个博弈策略模型单独训练的方式，这样，由于双方策略模型在训练过程中缺少实际博弈交互经历，因此，当双方策略模型所处的训练场景中会更多选择优势更大的策略进行学习，而忽略了其他策略的学习，这样，双方策略模型在学习过程中均易陷入循环克制关系的策略中，最终使模型训练结果较为单一。

发明内容

鉴于上述问题，本发明提出了一种应用于兵棋推演的策略模型训练方法、装置及设备，以解决现有策略模型学习结果单一的问题。

第一方面，本发明提出了一种应用于兵棋推演的策略模型训练方法，所述方法包括：

分别获取至少一个第一策略模型以及至少一个第二策略模型，所述至少一个第一策略模型来自于预先设置的第一种群池，所述至少一个第二策略模型来自于预先设置的第二种群池；

调用每个第一策略模型与所述至少一个第二策略模型中的部分或全部分别进行对战，得到至少一个第一对战结果，任一第一对战结果用于表征相应第一策略模型与相应第二策略模型的对战胜利的可能性；

调用每个第二策略模型与所述至少一个第一策略模型中的部分或全部分别进行对战，得到至少一个第二对战结果，任一第二对战结果用于表征相应第二策略模型与相应第一策略模型的对战胜利的可能性；

针对所述至少一个第一对战结果中的每个第一对战结果，若所述第一对战结果大于第一预设阈值，则更新所述第一种群池中所述第一对战结果对应的第一策略模型的被选概率；

针对所述至少一个第二对战结果中的每个第二对战结果，若所述第二对战结果大于第二预设阈值，则更新所述第二种群池中所述第二对战结果对应的第二策略模型的被选概率。

在一些可能的实施方式中，所述每个第一策略模型对应的信息包括：第一策略模型名称、第一策略模型进化代数以及第一策略模型当前状态；

所述每个第二策略模型对应的信息包括：第二策略模型名称信息、第二策略模型进化代数信息以及第二策略模型当前状态信息。这样，可以针对策略模型，在应用场景赋予实际的物理意义，并根据相应的进化代数信息或者当前状态信息，进行倾向性地进化。

在一些可能的实施方式中，在所述调用每个第一策略模型与所述至少一个第二策略模型中的部分或全部分别进行对战之前，还包括：

分别获取所述每个第一策略模型对应的Elo值(即埃洛等级分)以及所述至少一个第二策略模型中的部分或全部对应的Elo值；

基于所述每个第一策略模型对应的Elo值以及所述至少一个第二策略模型中的部分或全部对应的Elo值，得到至少一个所述每个第一策略模型对战所述至少一个第二策略模型的第一获胜概率，所述第一获胜概率为对战前的预测概率；

针对所述至少一个所述每个第一策略模型对战所述至少一个第二策略模型的第一获胜概率中的每一个，若所述第一获胜概率小于第三预设阈值，则更新所述第一获胜概率对应的第二策略模型被调用与对应的第一策略模型对战的可能性参数。这样，可以在第一策略模型与第二策略模型对战前为第一策略模型优先匹配能力较高的第二策略模型作为对手，以提升对战训练效果有效性。

在一些可能的实施方式中，在所述调用每个第二策略模型与所述至少一个第一策略模型中的部分或全部分别进行对战之前，还包括：

分别获取所述每个第二策略模型对应的Elo值以及所述至少一个第一策略模型中的部分或全部对应的Elo值；

基于所述每个第二策略模型对应的Elo值以及所述至少一个第一策略模型中的部分或全部对应的Elo值，得到至少一个所述每个第二策略模型对战所述至少一个第一策略模型的第二获胜概率，所述第二获胜概率为对战前的预测概率；

针对所述至少一个所述每个第二策略模型对战所述至少一个第一策略模型的第二获胜概率中的每一个，若所述第二获胜概率小于第四预设阈值，则更新所述第二获胜概率对应的第一策略模型被调用同对应的第二策略模型对战的可能性参数。这样，可以在第二策略模型与第一策略模型对战前为第二策略模型优先匹配能力较高的第二策略模型作为对手，以提升对战训练效果有效性。

在一些可能的实施方式中，所述更新所述第一种群池中所述第一对战结果对应的第一策略模型的被选概率，包括：

依据所述第一对战结果，得到所述第一策略模型实际Elo值；

添加所述第一策略模型实际Elo值到所述第一种群池。这样，可以将获取到的最新第一对战结果对应的相关数据及时更新至第一种群池，保证后续策略模型训练结果的准确性。

在一些可能的实施方式中，所述更新所述第二种群池中所述第二对战结果对应的第二策略模型的被选概率，包括：

依据所述第二对战结果，得到所述第二策略模型实际Elo值；

添加所述第二模型实际Elo值到所述第二种群池。这样，可以将获取到的最新第二对战结果对应的相关数据及时更新至第二种群池，保证后续策略模型训练结果的准确性。

在一些可能的实施方式中，所述更新所述第一种群池中所述第一对战结果对应的第一策略模型的被选概率，包括：将所述第一对战结果对应的第一策略模型在所述第一种群池中的数量占比增加；

所述更新所述第二种群池中所述第二对战结果对应的第二策略模型的被选概率的实现方式，包括：将所述第二对战结果对应的第二策略模型在所述第二种群池中的数量占比增加。

在一些可能的实施方式中，在分别获取至少一个第一策略模型以及至少一个第二策略模型之前，所述应用于兵棋推演的策略模型训练方法还包括：

建立所述第一策略模型与所述第二策略模型的对战学习空间。这样，可以使所述第一策略模型以及所述第二策略模型在对战过程中具有环境交互的能力。

在一些可能的实施方式中，所述建立所述第一策略模型与所述第二策略模型的对战学习空间，包括：

部署所述第一策略模型与所述第二策略模型处于第一学习环境，使所述第一策略模型与所述第二策略模型在所述第一学习环境进行对战学习；

获取所述第一策略模型与所述第一学习环境的第一交互信息以及所述第二策略模型与所述第一学习环境的第二交互信息；

响应于所述第一交互信息以及所述第二交互信息，所述第一学习环境改变为第二学习环境，所述第二学习环境用作所述第一策略模型与所述第二策略模型学习环境，以得到所述对战学习空间。这样，所述第一策略模型与所述第二策略模型在对战训练过程中将环境交互的信息更新至对应种群池中，进一步降低策略模型训练结果的单一性。

在一些可能的实施方式中，所述第一交互信息包括以下至少一个：所述第一策略模型在对战学习过程中对所述第一学习环境的第一影响结果，以及响应于所述第一影响结果所述第一学习环境对所述第一策略模型产生的第一反馈结果；

所述第二交互信息包括以下至少一个：所述第二策略模型在所述对战学习过程中对所述第二学习环境的第二影响结果，以及响应于所述第二影响结果所述第二学习环境对所述第二策略模型产生的第二反馈结果。这样，所述第一策略模型与所述第二策略模型在对战训练过程中将环境交互的信息更新至对应种群池中，进一步降低策略模型训练结果的单一性。

第二方面，本发明还提出了一种策略模型训练装置，所述装置包括：

获取模块，用于分别获取至少一个第一策略模型以及至少一个第二策略模型，所述至少一个第一策略模型来自于预先设置的第一种群池，所述至少一个第二策略模型来自于预先设置的第二种群池；

第一调用模块，用于调用每个第一策略模型与所述至少一个第二策略模型中的部分或全部分别进行对战，得到至少一个第一对战结果，任一第一对战结果用于表征相应第一策略模型与相应第二策略模型的对战胜利的可能性；

第二调用模块，用于调用每个第二策略模型与所述至少一个第一策略模型中的部分或全部分别进行对战，得到至少一个第二对战结果，任一第二对战结果用于表征相应第二策略模型与相应第一策略模型的对战胜利的可能性；

第一比对模块，用于针对所述至少一个第一对战结果中的每个第一对战结果，若所述第一对战结果大于第一预设阈值，则更新所述第一种群池中所述第一对战结果对应的第一策略模型的被选概率；

第二比对模块，用于针对所述至少一个第二对战结果中的每个第二对战结果，若所述第二对战结果大于第二预设阈值，则更新所述第二种群池中所述第二对战结果对应的第二策略模型的被选概率。

第三方面，本发明还提出了一种电子设备，所诉电子设备包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

所述存储器用于存储可执行指令，所述可执行指令运行时使所述处理器执行第一方面或者第二方面任一可能的实施方式中的策略模型训练方法。

第四方面，本发明还提出了一种计算机可读存储介质，所述存储介质中存储有可执行指令，所述可执行指令运行时使计算设备执行第一方面或者第二方面任一可能的实施方式中的策略模型训练方法。

本发明提出了一种策略模型训练方法，本方案中，首先，分别获取至少一个第一策略模型以及至少一个第二策略模型，所述至少一个第一策略模型来自于预先设置的第一种群池，所述至少一个第二策略模型来自于预先设置的第二种群池；然后，调用每个第一策略模型与所述至少一个第二策略模型中的部分或全部分别进行对战，得到至少一个第一对战结果，任一第一对战结果用于表征相应第一策略模型与相应第二策略模型的对战胜利的可能性；接着，调用每个第二策略模型与所述至少一个第一策略模型中的部分或全部分别进行对战，得到至少一个第二对战结果，任一第二对战结果用于表征相应第二策略模型与相应第一策略模型的对战胜利的可能性；最后，针对所述至少一个第一对战结果中的每个第一对战结果，若所述第一对战结果大于第一预设阈值，则更新所述第一种群池中所述第一对战结果对应的第一策略模型的被选概率；以及，针对所述至少一个第二对战结果中的每个第二对战结果，若所述第二对战结果大于第二预设阈值，则更新所述第二种群池中所述第二对战结果对应的第二策略模型的被选概率。可见，通过将电子对抗场景中对双方阵营的策略模型进行对战学习，增大对战获胜概率满足要求的策略模型在对应种群池中被选取的概率，以此达到优化更新种群池，使种群池内部的策略模型不断优化。这样，一方面，双方策略模型对应的种群池随着训练不断优化更新，满足了双方策略模型对训练样本的数量以及多样性需求。另一方面，由于训练过程中增加了双方策略模型对战的经历，使双方策略模型在训练过程中可供选择的策略类别增多，提升了策略模型的进化程度上限，避免了策略模型学习策略单一的情况。

附图说明

图1是现有博弈训练方法流程示意图；

图2是本发明提出的策略模型训练方法流程示意图；

图3是本发明提出的策略模型训练方法结构示意图；

图4是本发明提出的策略模型训练方法框架示意图；

图5是本发明提出的策略模型训练装置示意图；

图6是本发明提出的策略模型训练电子设备结构示意图。

具体实施方式

本发明以下实施例中所使用的术语是为了描述可选实施方式的目的，而非旨在作为对本发明的限制。如在本发明的说明书和所附权利要求书中所使用的那样，单数表达形式“一个”、“一种”、“所述”、“上述”、“该”和“这一”旨在也包括复数表达形式。还应当理解，尽管在以下实施例中可能采用术语第一、第二等来描述某一类对象，但所述对象不限于这些术语。这些术语用来将该类对象的具体对象进行区分。例如，以下实施例中可能采用术语第一、第二等来描述的其他类对象同理，此处不再赘述。

本申请实施例提供的策略模型训练方法可以由一个电子设备执行，也可以由计算机集群执行。该计算机集群包括至少两个支持本申请实施例的策略模型训练方法的电子设备，任一电子设备可通过策略模型训练方法实现本申请实施例所描述的策略模型训练功能。

本申请实施例设计的任一电子设备可以是诸如手机、平板电脑、可穿戴设备(例如，智能手表、智能手环等)、笔记本电脑、台式计算机和车载设备等电子设备。该电子设备预先安装有策略模型训练应用程序。可以理解的是，本申请实施例对电子设备的具体类型不作任何限制。

随着信息化技术的发展，兵棋推演已经成为如今军事对抗活动中重要的分析方法，被广泛应用于电子对抗的分析预测以及相应人员的管理分析等方面。现有兵棋推演，通常基于博弈学习实现。图1是现有博弈训练方法流程示意图。如图1所示，现有博弈学习的过程通常由至少两方策略模型参与，所有阵营的策略模型在学习过程中始终保持对抗状态，并且策略模型与作战环境实施交互，分别从环境中获取各自的态势和奖励，以使策略模型根据各自的态势以及奖励结果对各自的后续动作做出优选决策，从而不断优化更新策略模型。

对于兵棋推演，通常需要使博弈双方策略模型在对抗场景中获胜的能力在有限条件内得到最大限度优化。为了实现这个目的，就需要使博弈双方策略模型在训练的过程中均匹配到能力更强且类别更多样的对手进行推演训练。

下面是对几个示例性实施方式的描述，对本发明实施例的技术方案以及本发明的技术方案产生的技术效果进行说明。

图2是本发明提出的策略模型训练方法流程示意图。如图2所示，本发明提出的策略模型训练方法包括以下步骤：

首先，分别获取至少一个第一策略模型以及至少一个第二策略模型，所述至少一个第一策略模型来自于预先设置的第一种群池，所述至少一个第二策略模型来自于预先设置的第二种群池；

示例性地，在给定的场景为电子对抗场景下的作战模拟场景(例如：兵棋推演或者沙盘推演对抗)中，对战双方的策略模型所处阵营即为第一种群池或第二种群池。在第一种群池中的每个第一策略模型以及在第二种群池中的每个第二策略模型都会被赋予在作战对抗场景下的相应信息。

可选的，所述每个第一策略模型对应的信息包括：第一策略模型名称、第一策略模型进化代数、第一策略模型当前状态、第一策略模型身份方、第一策略模型评价值(例如对战胜率或被选取的可能性参数)、第一策略模型评估次数(例如被系统选取比较的次数)、第一策略模型路径(例如模型训练的履历信息)、第一策略模型父代(例如所述策略模型变异进化前对应的策略模型)以及第一策略模型当前代的对抗对手信息等。

所述每个第二策略模型对应的信息包括：第二策略模型名称、第二策略模型进化代数、第二策略模型当前状态、第二策略模型身份方、第二策略模型评价值(例如对战胜率或被选取的可能性参数)、第二策略模型评估次数(例如被系统选取比较的次数)、第二策略模型路径(例如模型训练的履历信息)、第二策略模型父代(例如所述策略模型变异进化前对应的策略模型)以及第二策略模型当前代的对抗对手信息等。然后调用每个第一策略模型与所述至少一个第二策略模型中的部分或全部分别进行对战，得到至少一个第一对战结果，任一第一对战结果用于表征相应第一策略模型与相应第二策略模型的对战胜利的可能性；

可选的，以第一种群池为例：从所述第一种群池选出部分或者全部的策略模型进行对战训练，并且为每个所述第一策略模型进行训练对手选择，构建对手池，所述对手池中的策略模型来源所述第二种群池。每个所述第一策略模型对应一个所述对手池，每个对手池内部设置有至少一个所述第二策略模型。

类似地，调用每个第二策略模型与所述至少一个第一策略模型中的部分或全部分别进行对战，得到至少一个第二对战结果，任一第二对战结果用于表征相应第二策略模型与相应第一策略模型的对战胜利的可能性；

最后，针对所述至少一个第一对战结果中的每个第一对战结果，若所述第一对战结果大于第一预设阈值，则更新所述第一种群池中所述第一对战结果对应的第一策略模型的被选概率；

类似地，针对所述至少一个第二对战结果中的每个第二对战结果，若所述第二对战结果大于第二预设阈值，则更新所述第二种群池中所述第二对战结果对应的第二策略模型的被选概率。

对战，也即博弈。每个所述第一策略模型博弈完成之后，会依据博弈对战结果同预设阈值的比对关系决定所应用的策略是否会被遗传进化。若所述博弈对战结果大于预设阈值，则将所应用的策略返回到所述第一种群池，并且提升所述所应用的策略后续被选取的概率(即被选概率)；若所述博弈对战结果小于等于预设阈值，则将所应用的策略返回所述第一种群池并且减小所述所应用的策略模型后续被选取的概率(即被选概率)或者将所述所应用的策略模型不返回所述第一种群池(当前步骤相当于被选取的可能性参数减小至0，后续步骤随着Elo值的更新仍有被选取的可能)，重新调用所述第一种群池中其它所述第一策略模型进行对战训练。

可以理解的是，所述更新第一种群池中所述第一对战结果对应的第一策略模型的被选概率以及所述更新所述第二种群池中所述第二对战结果对应的第二策略模型的被选概率为增大所述第一策略模型以及所述第二策略模型在对应种群池中被选取的概率，以使所述第一种群池以及所述第二种群池中的策略模型处于优化更新状态。

一种可能的实施方式中，在所述调用每个第一策略模型与所述至少一个第二策略模型中的部分或全部分别进行对战之前，还包括：

分别获取所述每个第一策略模型对应的Elo值以及所述至少一个第二策略模型中的部分或全部对应的Elo值；

基于所述每个第一策略模型对应的Elo值以及所述至少一个第二策略模型中的部分或全部对应的Elo值，得到至少一个所述每个第一策略模型对战所述至少一个策略模型的第一获胜概率，所述第一获胜概率为对战前的预测概率；

针对所述至少一个所述每个第一策略模型对战所述至少一个第二策略模型的第一获胜概率中的每一个，若所述第一获胜概率小于第三预设阈值，则更新所述第一获胜概率对应的第二策略模型被调用与对应的第一策略模型对战的可能性参数。可选的，在所述调用每个第二策略模型与所述至少一个第一策略模型中的部分或全部分别进行对战之前，还包括：

针对所述至少一个所述每个第二策略模型对战所述至少一个第一策略模型的第二获胜概率中的每一个，若所述第二获胜概率小于第四预设阈值，则更新所述第二获胜概率对应的第一策略模型被调用同对应的第二策略模型对战的可能性参数。

具体的，通过Elo值评价(此处以第一种群池为训练方为例)，具体选择模型的步骤包括：

定义种群池数目阈值threshold_population；

获取当前己方种群池(所述第一种群池)中的策略模型(所述第一策略模型)数量num_own，以及对战方的策略模型(所述第二策略模型)数量num_opponent；

若当前的所述第一种群池或第二种群池中模型数量不足，即num_own≤threshold_population或者num_opponent≤threshold_population，则通过随机生成的方式产生初始的所述第一策略模型或所述第二策略模型种群中模型数量满足预设阈值，也可以在所述第一种群池或所述第二种群池中加入低水平模型，增加所述第一种群池或所述第二种群池的多样性；

若num_own＞threshold_population并且num_opponent＞threshold_population时，从进化模型存储模块导入已经存储的模型信息进行模型选择，所述模型信息包括以下至少一种：模型名称、进化代数(例如：由基础模型编译进化几次后得到的)、身份方、评价值(例如对战胜率或被选取的可能性参数)、评估次数(例如被系统选取比较的次数)、模型路径(例如模型训练的履历信息)、模型父代(例如所述策略模型变异进化前对应的策略模型)以及当前代的对抗对手信息等；

根据模型信息中的Elo值(相当于评价值)和已评估次数num_evaluate两项指标，遵循若Elo值以及num_evaluate大，则选取该模型的概率也越大的原则，具体选择模型的公式为：

由此公式可知，若Elo值越大并且num_evaluate越大，说明在该方法下选择的策略模型水平高，并且该模型被评估的次数越多，则说明被选择的模型的评估结果更加准确，对于后续选择该模型进化训练更容易产生高水平的后代。

可选的，Elo与对抗胜率(win_rate)的关系为正相关，此处的对抗胜率可以为对抗过程中胜率的平均值，具体可以表示为：

可选的，选择模型过程之后，得到了具有代表性的所述第二策略模型(即对战模型)，对于对战模型的匹配具体步骤为：

将所述信息存储模块中的所述第一策略模型的Elo和全部所述第二策略模型Elo值转换为胜率，具体转换公式如下：

R_A表示所述第一策略模型中“A”的Elo值，R_b表示所述第二策略模型中“b”的Elo值，由此可知，win_rate正相关于R_A-R_b；

根据优先虚拟自博弈方法PFSP选取对手，PFSP公式定义如下：

(1-win_rate)²

由此可以看出，若胜率越小，则R_A-R_b值越小，则选取所述第二策略模型“b”的概率越大，即倾向选择更高评价值的对手。

明显的，所述第二策略模型对于对战对手挑选的过程同上述过程类似，此处不再进行一一赘述。

可以理解的是，对于对手的选取，尽管过程中存在认为设定的预设阈值(第三预设阈值以及第四预设阈值)作为筛选条件，但是过程中基于Elo值以及胜率进行的对手选取，过程本质是完全随机的。对于Elo值以及胜率的评价结果，仅带有倾向性，而非绝对性。

可选的，对于对手的选取，除了通过以阈值(即所述第三预设阈值以及所述第四预设阈值)作为筛选条件外，筛选方法还包括：

获取至少一个每个所述第一策略模型对战与至少一个第二策略模型对战胜率；

将所述至少一个每个所述第一策略模型对战与至少一个第二策略模型对战胜率中的每一个进行从大到小排列，得到第一排列结果；

依据所述第一排列结果，得到所述第二策略模型被选取的概率排列结果。

示例性的，在所述第一策略模型与至少一个第二策略模型对战之前，可以根据Elo值，得到与每个第二策略模型对战的胜率(具体如上述步骤所述，此处不再一一赘述)。假定第一策略模型A与三个第二策略模型，分别为：a、b以及c具有对战关系，需要从这三个第二策略模型中选择其中1个进行对战。那么，根据Elo值对应的胜率，假定第一策略模型A对应第二策略模型的胜率分别为30％，40％以及50％。那么，根据胜率大小排序，第一策略模型选取对战胜率更小的第二策略模型进行对战的可能性更大，即选取30％胜率对应的a策略模型可能性更大。

可以理解的是，上述说明仅表明第一策略模型对于第二策略模型选取的倾向性，即具有更大的可能性进行选取，具体第二策略模型被选取过程以及结果是基于被选取的可能性实施，具有随机性，进而增加种群的多样性。

可以理解的是，所述第二策略模型选择第一策略模型对战的过程，也可以如上述内容提及过程，此处不再一一赘述。

一种可能的实施方式中，所述更新所述第一种群池中所述第一对战结果对应的第一策略模型的被选概率，包括：

依据所述第一对战结果，得到所述第一策略模型实际Elo值；

添加所述第一模型实际Elo值到所述第一种群池。

可选的，所述更新所述第二种群池中所述第二对战结果对应的第二策略模型的被选概率，包括：

依据所述第二对战结果，得到所述第二模型实际Elo值；

添加所述第二模型实际Elo值到所述第二种群池。

一种可能的实施方式中，所述更新所述第一种群池中所述第一对战结果对应的第一策略模型的被选概率，包括：将所述第一对战结果对应的第一策略模型在所述第一种群池中的数量占比增加；

可选的，所述依据所述第一对战结果，得到所述第一模型实际Elo值也包括，保存更新Elo值对应的策略模型。

示例性的，以第一种群池中的第一策略模型为例，若所述第一对战结果大于预设阈值，则认定所述第一对战结果对应的第一策略模型满足遗传要求，需要增加其在第一种群池中的被选概率。那么增加所述第一策略模型在第一种群池中被选概率的方式包括：直接增加被选取的概率或向种群池中加入新的所述第一策略模型，以提高所述第一策略模型在所述第一种群池中的数量占比，进而提高被选取的概率。

可选的，所述被选取的可能性参数增大包括：被系统选取比对评估的次数。

可选的，所述第一种群池选择出的至少一个所述第一策略模型均可独立与相应的对手池中的所述第二策略模型进行对战，彼此互不影响，各自所述对战结果可集中和/或分别传递至所述第一种群池。明显的，所述第二种群池对战训练过程同样依据上述内容，在此不继续赘述。

这样，由于所述对战训练的训练双方均进行了对战结果的进化训练，因此对战双方所训练的对手模型的不确定性更高，训练种类更大，提高了对战双方的进化程度上限，也使策略模型对多样的博弈场景适应性更强。

在一些可能的实施例中，所述的策略模型训练方法还包括：

当所述第一策略模型与至少2个所述第二策略模型具有对战关系，

基于所述第一策略模型的Elo值以及基于每个所述第二策略模型的Elo值获取所述第一策略模型对应每个所述第二策略模型的胜率；

对所有所述胜率大小进行比较；

依据所述胜率的数值大小的比较结果，调整所述第一策略模型与对应的所述第二策略模型的被选取对战的可能性参数，所述对战胜率越小，胜率越小，所对应的所述第一策略模型和所述第二策略模型被选取对战的可能性参数越大；

对至少2个所述第二策略模型进行对战顺序排列，若对战双方存在未对战过的策略模型，增大所述双方未对战过的策略模型对战的可能性参数。

可见，通过将电子对抗场景中对双方阵营的策略模型进行对战学习，增大对战获胜概率满足要求的策略模型在对应种群池中被选取的概率，以此达到优化更新种群池，使种群池内部的策略模型不断优化。这样，一方面，双方策略模型对应的种群池随着训练不断优化更新，满足了双方策略模型对训练样本的数量以及多样性需求。另一方面，由于训练过程中增加了双方策略模型对战的经历，使双方策略模型在训练过程中可供选择的策略类别增多，提升了策略模型的进化程度上限，避免了策略模型学习策略单一的情况。

上述实施例从第一策略模型以及第二策略模型的获取方式、第一策略模型与第二策略模型的对战关系、对战结果的分析、对策略模型的选取以及根据相关性特征策略模型训练等电子设备所执行的动作逻辑和学习算法处理角度，对本发明提出的策略模型的训练方法的各实施方式进行了介绍。应理解，对应第一策略模型以及第二策略模型的获取方式、第一策略模型与第二策略模型的对战关系、对战结果的分析、对策略模型的选取以及根据相关性特征策略模型训练等的处理步骤，本发明实施例可以以硬件或硬件和计算机软件的结合形式来实现上述功能。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

图3是本发明提出的策略模型训练方法结构示意图。示例性的，如图3所示，第一种群池内部放置有第一策略模型(三角形表示)，第二种群池内部放置有第二策略模型(圆形表示)，第一种群池与第二种群池具有对手匹配关系(相当于上述博弈对战关系)；

可选的，以第一种群池为例：从所述第一种群池选出部分或者全部的策略模型进行对战训练，例如从所述第一种群池中可以选择第一策略模型“A”、“B”以及“C”(此处“A”、“B”以及“C”表示模型编号)进行对战训练，并且为每个所述第一策略模型进行训练对手选择，构建对手池，所述对手池中的策略模型来源所述第二种群池。每个所述第一策略模型对应一个所述对手池，每个对手池内部设置有至少一个所述第二策略模型(例如第一策略模型“A”对应一个对手池，对手池内部设置有第二策略模型“a”以及“g”等等，其中“a”和“g”表示第二策略模型编号)。所述第一策略模型与所述第二策略模型博弈对战过程中双方对于环境的交互信息同样会被对应的策略模型获取，并且每个所述第一策略模型博弈完成之后，会依据博弈对战结果同预设阈值的比对关系决定所应用的策略是否会被遗传进化，如前面所述。若所述博弈对战结果大于预设阈值，则将所应用的策略返回到所述第一种群池，并且提升所述所应用的策略后续被选取的概率(即被选概率)；若所述博弈对战结果小于等于预设阈值，则将所应用的策略返回所述第一种群池并且减小所述所应用的策略模型后续的被选概率或者将所述所应用的策略模型不返回所述第一种群池(当前步骤相当于被选取的可能性参数减小至0，后续步骤随着Elo值的更新仍有被选取的可能)，重新调用所述第一种群池中其它所述第一策略模型进行对战训练(例如所述第一策略模型“B”的对战训练结果小于所述预设阈值，则重新调用第一策略模型“C”或者“D”进行训练，训练对手池可以为原所述第一策略模型“B”对应的对手池，也可以重新匹配新的对手池)。

示例性的，以图3的场景中第一策略模型的视角为例，包括：优先选择对战水平更高的对战策略模型，例如第一策略模型“A”预估在对手池中与第二策略模型“g”的对战胜率最低，可以判定所述第二策略模型“g”对于所述第一策略模型“A”的对战水平更高。因此，所述第一策略模型“A”选取所述第二策略模型“g”的可能性越大(即被选取的可能性参数增大)。

一种可能的实施方式中，在分别获取至少一个第一策略模型以及至少一个第二策略模型之前，所述应用于兵棋推演的策略模型训练方法还包括：

建立所述第一策略模型与所述第二策略模型的对战学习空间。

响应于所述第一交互信息以及所述第二交互信息，所述第一学习环境改变为第二学习环境，所述第二学习环境用作所述第一策略模型与所述第二策略模型学习环境，以得到所述对战学习空间。

可选的，所述第一交互信息包括以下至少一个：所述第一策略模型在对战学习过程中对所述第一学习环境的第一影响结果，以及响应于所述第一影响结果所述第一学习环境对所述第一策略模型产生的第一反馈结果；

所述第二交互信息包括以下至少一个：所述第二策略模型在所述对战学习过程中对所述第二学习环境的第二影响结果，以及响应于所述第二影响结果所述第二学习环境对所述第二策略模型产生的第二反馈结果。

一种可能的实施方式中，若分别获取至少一个第一策略模型以及至少一个第二策略模型之前，未构建所述第一种群池以及所述第二种群池(或所述第一种群池与第二种群池内部为空)，第一策略模型以及第二策略模型将随机生成对战方的策略模型用作自我训练(或对应所述策略模型的预设定初始策略)，并依据所述对战结果与所述预设阈值的比对结果进行遗传进化，输入对应策略模型至对应的种群池，实现所述第一种群池以及第二种群池的“从无到有”的过程。

示例性的，当所述第一种群池与第二种群池内部为空时，所述第一策略模型与所述第二策略模型可以采用深度增强学习算法(PPO，Proximal Policy Optimization)进行训练学习，所述第一策略模型和所述第二策略模型不断与环境交互。统计多局对战训练中双方策略模型各自的对抗胜率，若所述胜率大于预设阈值时，将对应的所述策略模型输入至对应的所述种群池进行存储。在双方种群池内部的策略数量小于对应的数量预设阈值之前，对战双方都随机生成对手策略模型。

可选的，当所述第一种群池以及所述第二种群池的模型数量增加时，所述第一种群池以及所述第二种群池各自的所述模型数目大于数量预设阈值后，则对战结果，从所述第一种群池以及所述第二种群池内部选取对应的策略模型进行对战训练。

示例性的，可以使用优先虚拟自博弈方法(PFSP)选取对手，选定的对战双方策略模型进行强化训练。

图4是本发明提出的策略模型训练方法框架示意图。如图4所示，策略模型训练方法涉及模块包括：进化学习模块以及进化模型存储模块；

所述进化学习模块内部包括：模型训练模块以及模型评估模块；

所述模型训练模块用作选取模型的训练；

所述模型评估模块用于对训练后的模型进行实际能力评估，使模型后续被选取结果更准确；

所述进化模型存储模块用作策略模型存储。

可选的，涉及模块还包括强化学习模块，所述强化学习模块用作策略模型对战训练以及强化学习。

可选的，对于进化学习模块中的选择模型过程，通常选择能力较强的模型作为训练方，具体过程如上述以第一种群池为实施例内容所述，此处不再一一赘述。

可选的，当选择完当前的所述第一策略模型以及所述第二策略模型后，进入强化学习阶段，所述强化学习过程包括：环境部署、状态空间设计、动作空间设计以及奖励设计；

所述环境部署用作所述强化学习执行的引擎，当策略模型对环境作用一个动作后，经过所述环境部署后的环境可以根据自己内部的运行机制，为所述策略模型返回状态和奖励；

所述状态空间设计表现为策略模型从环境中得到原始的状态特征后，根据强化的目标，可以设计相应的状态空间，对原空间的特征进行处理；

所述动作空间设计得到所述策略模型作用于所述环境的动作空间，可以使作用于环境的动作更有效；

所述奖励设计表现为所述策略模型从环境中得到原始的奖励特征后，根据强化的目标，设计奖励转化内容，对原始的奖励特征进行处理。

可选的，所述强化学习算法可以采用model-free类型学习算法或model-based类型学习算法；

所述model-free类型学算法指学习过程不依赖对环境的变化，输入条件仅以环境的输入条件为准，包括：近端策略优化算法(PPO，Proximal Policy Optimization)、深度确定性策略梯度算法(DDPG，Deep Deterministic Policy Gradient)以及异步优势动作评价算法(A3C，Asynchronous Advantage Actor-Critic)；

所述model-based类型学习算法指学习和理解环境的变化，可以用至少一个模型模拟环境的变化，输入条件需要结合环境的内部变化，包括：以下至少一种：基于模型的值扩展方法(MBVE，Model-BasedValue Expansion)、结合无模型微调的基于模型的强化学习(MBMF，Model-Based RL with Model-Free Fine-Tuning)以及想象力增强的基于模型的强化学习方法(I2A，Imagination-AugmentedAgents)、基于蒙特卡洛树搜索的阿尔法围棋AlphaGO。

可选的，所述强化学习过程还包括对数据缓存器的部署，用于存储强化学习过程中所述策略模型与所述环境交互产生的数据。

可选的，在所述强化学习的过程中，根据对战双方的胜率判断新生成的模型是否满足遗传进化条件；

若所述第一策略模型的胜率大于胜率预设阈值threshold_{win_rate}，则保存更新后的模型，同时将所述第一策略模型对战所述第二策略模型的胜率转换为Elo值，并更新当前所述第一策略模型，更新过程相关信息存储至所述存储模块；

若在所述强化学习过程中，所述第一策略模型胜率小于等于预设阈值，则舍弃该模型；

通常的，在遗传过程中设置threshold_{win_rate}会保证得到的策略模型胜率都比较高，这样对后续的进化选择的策略模型基础较好，可以更快的加速进化过程。

可选的，在模型训练之后，由于模型训练会优先选取能力更强的对手进行训练，以使被训练的策略模型能够通过对战学习得到更优秀的策略。这样，由于训练过程并非通过实力匹配的对手学习，因此对于被训练后的策略模型，仅从训练结果以及训练过程中的对手能力做参考，是不能够准确得到被训练策略模型的当前对应的能力参数(例如对应不同对手策略模型的Elo值等)。因此从，需要对训练后的策略模型安排预期能力相近的策略模型进行对战，实现准确的能力参数获取(即能力评估)。

具体的，当num_own＞threshold_population并且num_opponent＞threshold_population时，所述进化模型存储模块中的Flag_evaluation(相当于评估标志识别装置，用来识别对策模型的是否被评估)过滤正在被评估的策略模型，模型评估过程只选择当前还未进行的模块进行评估，这样可以避免相同策略模型被多次评估Elo更新不准确；

根据评估次数num_evaluation选择模型，评估次数越少，被选中的概率越大，评估次数关系和选中关系如下：

评估过程中，对于对手的选取还包括：

获取至少一个第一种群池中对应的待评估第一策略模型以及至少一个第二种群池中对应的待评估第二策略模型；

获取所述至少一个第一种群池中对应的待评估第一策略模型中的每一个对应的Elo值以及所述至少一个第一种群池中对应的待评估第一策略模型中的每一个对应的Elo值；

可选的，加载所有Elo数据，将其转化为胜率，Ra表示第一策略模型对应的胜率，Rb表示第二策略模型对应的胜率，则对于评估模型被选取的概率转换公式为：

依据优化虚拟自我对弈PFSP选择评估模型，具体选取依据为：

(1-win_rate)*win_rate

由上述公式可知，当win_rate＝0.5时取值最大，即Ra＝Rb，因此评估模块通过上述方法，选择与自己水平相近的对手。

可选的，在评估完成后，将评估后的策略模型对应的参数(如Elo值等)更新至相应的种群池中或将新Elo值对应的策略模型更新至对应的种群池中。具体的，对于所述第一策略模型与所述第二策略模型各自的Elo值的差转换为预测胜率win_rate_predict表示为：

经过训练后所述第一策略模型或所述第二策略模型更新后的Elo值表示为

Elo＝Elo′+32*(win_rate_true_win_rate_predict)

其中win_rate_true表示所述第一策略模型或所述第二策略模型的真实胜率，Elo表示更新后的Elo值，Elo′表示更新前的Elo值。

例如，上述实现步骤实现的功能也可以通过策略模型训练装置来实现。图5是本发明提出的策略模型训练装置示意图。如图5所示，策略模型训练装置可以包括：

可以理解的是，以上各个模块/单元的划分仅仅是一种逻辑功能的划分，实际实现时，以上各模块的功能可以集成到硬件实体实现，例如，获取模块、处理模块以及比对模块可以集成到处理器实现，实现上述各模块功能的程序和指令，可以维护在存储器中。例如，图6是本发明提出的策略模型训练电子设备结构示意图。如图6所示，该电子设备包括可以包括处理器、收发器和存储器。其中，收发器用于策略模型训练方法中第一策略模型以及第二策略模型相关信息获取。存储器可以用于存储对战学习过程中产生的相关对战信息以及相关策略模型信息，也可以存储用于处理器执行的代码等。当处理器运行存储器存储的代码过程中，使得电子设备执行上述方法中策略模型训练方法的部分或全部操作。

具体实现过程详见上述方法示意的实施例所述，此处不再详述。

具体实现中，对应前述电子设备，本发明实施例还提供一种计算机存储介质，其中，设置在电子设备中的计算机存储介质可存储有程序，该程序执行时，可实施包括策略模型的训练方法的各实施例中的部分或全部步骤。该存储介质均可为磁碟、光盘、只读存储记忆体(read-only memory，ROM)或随机存储记忆体(random access memory，RAM)等。

以上模块或单元的一个或多个可以软件、硬件或二者结合来实现。当以上任一模块或单元以软件实现的时候，所述软件以计算机程序指令的方式存在，并被存储在存储器中，处理器可以用于执行所述程序指令并实现以上方法流程。所述处理器可以包括但不限于以下至少一种：中央处理单元(central processing unit，CPU)、微处理器、数字信号处理器(DSP)、微控制器(microcontroller unit，MCU)、或人工智能处理器等各类运行软件的计算设备，每种计算设备可包括一个或多个用于执行软件指令以进行运算或处理的核。该处理器可以内置于SoC(片上系统)或专用集成电路(application specific integratedcircuit，ASIC)，也可是一个独立的半导体芯片。该处理器内处理用于执行软件指令以进行运算或处理的核外，还可进一步包括必要的硬件加速器，如现场可编程门阵列(fieldprogrammable gate array，FPGA)、PLD(可编程逻辑器件)、或者实现专用逻辑运算的逻辑电路。

当以上模块或单元以硬件实现的时候，该硬件可以是CPU、微处理器、DSP、MCU、人工智能处理器、ASIC、SoC、FPGA、PLD、专用数字电路、硬件加速器或非集成的分立器件中的任一个或任一组合，其可以运行必要的软件或不依赖于软件以执行以上方法流程。

进一步的，图6中还可以包括总线接口，总线接口可以包括任意数量的互联的总线和桥，具体由处理器代表的一个或多个处理器和存储器代表的存储器的各种电路链接在一起。总线接口还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口提供接口。收发器提供用于在传输介质上与各种其他设备通信的单元。处理器负责管理总线架构和通常的处理，存储器可以存储处理器在执行操作时所使用的数据。

当以上模块或单元使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

应理解，在本发明的各种实施例中，各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对实施例的实施过程构成任何限定。

本说明书的各个部分均采用递进的方式进行描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点介绍的都是与其他实施例不同之处。尤其，对于装置和系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例部分的说明即可。

尽管已描述了本发明的可选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的技术方案的基础之上，所做的任何修改、等同替换、改进等，均应包括在本发明的保护范围之内。

Claims

1.一种应用于兵棋推演的策略模型训练方法，其特征在于，所述方法包括：

2.如权利要求1所述的方法，其特征在于，所述每个第一策略模型对应的信息包括：第一策略模型名称、第一策略模型进化代数以及第一策略模型当前状态；

所述每个第二策略模型对应的信息包括：第二策略模型名称、第二策略模型进化代数以及第二策略模型当前状态。

3.如权利要求1所述的方法，其特征在于，在所述调用每个第一策略模型与所述至少一个第二策略模型中的部分或全部分别进行对战之前，还包括：

针对所述至少一个所述每个第一策略模型对战所述至少一个第二策略模型的第一获胜概率中的每一个，若所述第一获胜概率小于第三预设阈值，则更新所述第一获胜概率对应的第二策略模型被调用与对应的第一策略模型对战的可能性参数。

4.如权利要求1所述的方法，其特征在于，在所述调用每个第二策略模型与所述至少一个第一策略模型中的部分或全部分别进行对战之前，还包括：

5.如权利要求1所述的方法，其特征在于，所述更新所述第一种群池中所述第一对战结果对应的第一策略模型的被选概率，包括：

依据所述第一对战结果，得到所述第一策略模型实际Elo值；

添加所述第一策略模型实际Elo值到所述第一种群池。

6.如权利要求1所述的方法，其特征在于，所述更新所述第二种群池中所述第二对战结果对应的第二策略模型的被选概率，包括：

依据所述第二对战结果，得到所述第二策略模型实际Elo值；

添加所述第二模型实际Elo值到所述第二种群池。

7.如权利要求1所述的方法，其特征在于，所述更新所述第一种群池中所述第一对战结果对应的第一策略模型的被选概率，包括：将所述第一对战结果对应的第一策略模型在所述第一种群池中的数量占比增加；

8.一种应用于兵棋推演的策略模型训练装置，其特征在于，所述装置包括：

9.一种电子设备，其特征在于，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

所述存储器用于存储可执行指令，所述可执行指令运行时使所述处理器执行如权利要求1-7中任一项所述的应用于兵棋推演的策略模型训练方法。

10.一种计算机存储介质，其特征在于，所述存储介质中存储可执行指令，所述可执行指令运行时使计算设备执行如权利要求1-7中任一项所述的应用于兵棋推演的策略模型训练方法。