CN114330754A

CN114330754A - 一种策略模型训练方法、装置及设备

Info

Publication number: CN114330754A
Application number: CN202210206944.9A
Authority: CN
Inventors: 徐波; 徐博; 张鸿铭; 王燕娜
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2022-03-04
Filing date: 2022-03-04
Publication date: 2022-04-12
Also published as: CN115577874A

Abstract

本申请实施例涉及人工智能领域，公开了一种策略模型训练方法、装置及设备。本申请实施例涉及的策略模型训练方法包括：分别获取第一策略模型以及第二策略模型对应的策略，并且，在对战学习过程中获取对战双方的对战结果，依照对战结果进行各自优势策略挑选，并将挑选出的优势策略用于后续对应策略群体的进化，以此往复循环，使对战双方策略模型对应的策略群不断有优势策略注入，这样不仅可以将己方智能体得到进化策略训练，同时也可以使对战方智能体得到进化策略训练，提升了博弈学习网络中策略模型的进化程度上限，使策略模型对策略多样的博弈场景适应性更强。

Description

一种策略模型训练方法、装置及设备

技术领域

本发明实施例涉及人工智能领域，涉及一种策略模型训练的方法、装置及设备。

背景技术

博弈学习是训练策略模型的常见机器学习方法。博弈学习的过程通常由至少两方智能体参与，双方在学习过程中始终保持对抗状态，并且智能体策略模型与环境实施交互，分别从环境中获取各自的态势和奖励，以使策略模型根据各自的态势以及奖励结果对各自的后续动作做出优选决策，从而不断优化更新策略模型。

通常，应用现阶段博弈学习方法得到的策略模型只适用于策略较为单一的博弈场景，例如现有技术专利中（CN111160565A、 CN112329348A以及CN112561032A）所提到的博弈场景，对于学习网络中存在多种两两相互克制关系的策略的场景，未进行有效学习，导致策略模型可以进化的程度上限相对较低，达不到预期的进化目标，从而难以适用于策略多样的博弈场景。

发明内容

本申请实施例提供了一种策略模型训练方法、装置及设备，以解决现有博弈学习方法中策略模型难以适用于策略多样的博弈场景的问题。

第一方面，本申请实施例提供了一种策略模型训练方法，所述方法包括：

基于第一策略模型获取第一策略，基于第二策略模型获取第二策略，所述第一策略模型与所述第二策略模型分别对应相互对战的智能体；

调用采用所述第一策略的第一智能体与采用所述第二策略的第二智能体对战，分别得到所述第一策略对应的第一对战结果以及所述第二策略对应的第二对战结果，所述第一智能体与所述第二智能体分别属于存在对战关系的智能体群；

若所述第一对战结果大于预设阈值，增大所述第一策略在第一策略种群中被选取的可能性参数，以得到更新后的第一策略种群，若所述第一对战结果小于或者等于所述预设阈值，减小所述第一策略在第一策略种群中被选取的可能性参数，以得到更新后的策略种群，根据所述更新后的第一策略种群训练所述第一策略模型；

若所述第二对战结果大于预设阈值，增大所述第二策略在第二策略种群中被选取的可能性参数，以得到更新后的第二策略种群，若所述第二对战结果小于或者等于所述预设阈值，减小所述第二策略在第二策略种群中被选取的可能性参数，以得到更新后的策略种群，根据所述更新后的第二策略种群训练所述第二策略模型。

在一些可能的实施方式中，在基于第一策略模型获取第一策略，基于第二策略模型获取第二策略之前，所述策略模型训练方法还包括：

构建与所述第一策略对应的第一策略种群以及与第二策略对应的第二策略种群；

建立所述第一智能体与所述第二智能体的对战学习空间。

在一些可能的实施方式中，所述建立所述第一智能体与所述第二智能体的对战学习空间，包括：

部署所述第一智能体与所述第二智能体处于第一学习环境，使所述第一智能体与所述第二智能体在所述第一学习环境进行对战学习；

获取所述第一智能体与所述第一学习环境的第一交互信息以及所述第二智能体与所述第一学习环境的第二交互信息；

响应于所述第一交互信息以及所述第二交互信息，所述第一学习环境改变为第二学习环境，所述第二学习环境用作所述第一智能体与所述第二智能体学习环境，以得到所述对战学习空间。

在一些可能的实施方式中，

所述第一交互信息包括以下至少一个：所述第一智能体在对战学习过程中对所述第一学习环境的第一影响结果，以及响应于所述第一影响结果所述第一学习环境对所述第一智能体产生的第一反馈结果；

所述第二交互信息包括以下至少一个：所述第二智能体在所述对战学习过程中对所述第二学习环境的第二影响结果，以及响应于所述第二影响结果所述第二学习环境对所述第二智能体产生的第二反馈结果。

在一些可能的实施方式中，调用所述第一智能体与所述第二智能体对战，包括：

调用至少一个所述第一智能体与至少一个所述第二智能体进行对战，任一所述第一智能体与至少一个所述第二智能体进行对战，任一所述第二智能体与至少一个所述第一智能体进行对战。

在一些可能的实施方式中，所述的策略模型训练方法还包括：

当所述第一智能体与至少2个所述第二智能体具有对战关系，

基于所述第一策略模型的Elo值以及基于每个所述第二策略模型的Elo值获取所述第一策略模型对应每个所述第二策略模型的胜率；

对所有所述胜率大小进行比较；

依据所述胜率的数值大小的比较结果，调整所述第一策略模型与对应的所述第二策略模型的被选取对战的可能性参数，所述胜率越小，所述胜率越小，所对应的所述第一策略模型和所述第二策略模型被选取对战的可能性参数越大；

对至少2个所述第二智能体进行对战顺序排列，

若对战双方存在未对战过的智能体，增大所述双方未对战过的智能体对战的可能性参数。

在一些可能的实施方式中，所述基于第一策略模型获取第一策略，基于第二策略模型获取第二策略，包括：

调用所述第一策略模型生成第一策略，调用第二策略模型生成第二策略，或者，

从所述第一策略种群中选择策略作为所述第一策略，从所述第二策略种群中选择策略作为第二策略。

第二方面，本申请实施例还提供了一种策略模型训练装置，所述装置包括：

获取模块，用于基于第一策略模型获取第一策略以及基于第二策略模型获取第二策略，所述第一策略模型与所述第二策略模型分别对应相互对战的智能体；

处理模块，用于调用采用第一策略的第一智能体与采用第二策略的第二智能体对战，分别得到所述第一策略对应的第一对战结果以及所述第二策略对应的第二对战结果，所述第一智能体与所述第二智能体分别属于存在对战关系的智能体群；

比对模块：用于比对对战结果与预设阈值关系，若所述第一对战结果大于预设阈值，增大所述第一策略在第一策略种群中被选取的可能性参数，以得到更新后的第一策略种群，若所述第一对战结果小于或者等于所述预设阈值，减小所述第一策略在第一策略种群中被选取的可能性参数，以得到更新后的策略种群，根据所述更新后的第一策略种群训练所述第一策略模型；

第三方面，本申请实施例还提供了一种电子设备，所诉电子设备包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

所述存储器用于存储可执行指令，所述可执行指令运行时使所述处理器执行第一方面或者第二方面任一可能的实施方式中的策略模型训练方法。

第四方面，本申请实施例还提供了一种计算机可读存储介质，所述存储介质中存储有可执行指令，所述可执行指令运行时使计算设备执行第一方面或者第二方面任一可能的实施方式中的策略模型训练方法。

本申请实施例提供了一种策略模型训练方法，本方案中，在获取第一策略以及第二策略，并将所述第一策略对应的第一智能体于所述第二策略对应的第二智能体进行对战，并依据对战结果和各自预设阈值的比对关系，将大于预设阈值的策略收集至智能体对应的策略种群，并提升此策略后续被对应的策略模型被选取的可能性参数。这样不仅可以将己方智能体得到进化策略训练，同时也可以使对战方智能体得到进化策略训练，提升了博弈学习网络中策略模型的进化程度上限，使策略模型对策略多样的博弈场景适应性更强。

附图说明

图1是本申请实施例提供的现阶段博弈训练方法流程示意图；

图2是本申请实施例提供的策略模型训练方法流程示意图；

图3是本申请实施例提供的策略模型训练方法结构意图；

图4是本申请实施例提供的策略模型训练方法装置示意图；

图5是本申请实施例提供的策略模型训练电子设备示意图；

图6是本申请实施例提供的策略模型训练电子设备示意图。

具体实施方式

本申请以下实施例中所使用的术语是为了描述可选实施方式的目的，而非旨在作为对本申请的限制。如在本申请的说明书和所附权利要求书中所使用的那样，单数表达形式“一个”、“一种”、“所述”、“上述”、“该”和“这一”旨在也包括复数表达形式。还应当理解，尽管在以下实施例中可能采用术语第一、第二等来描述某一类对象，但所述对象不限于这些术语。这些术语用来将该类对象的具体对象进行区分。例如，以下实施例中可能采用术语第一、第二等来描述的其他类对象同理，此处不再赘述。

本申请实施例提供了一种策略模型训练方法，基于对博弈学习中具有对战关系的双方智能体的所用策略同预设阈值的比对结果，选择大于预设阈值的策略输入至与各方智能体对应的策略种群中，并提高此策略后续被对应的策略模型被选取的可能性参数。这样不仅可以将己方智能体得到进化策略训练，同时也可以使对战方智能体得到进化策略训练，提升了博弈学习网络中策略模型的进化程度上限，使策略模型对策略多样的博弈场景适应性更强。

本申请实施例提供的策略模型训练方法可以由一个电子设备执行，也可以由计算机集群执行。该计算机集群包括至少两个支持本申请实施例的策略模型训练方法的电子设备，任一电子设备可通过策略模型训练方法实现本申请实施例所描述的策略模型训练功能。

本申请实施例设计的任一电子设备可以是诸如手机、平板电脑、可穿戴设备（例如，智能手表、只能手环等）、笔记本电脑、台式计算机和车载设备等电子设备。该电子设备预先安装有策略模型训练应用程序。可以理解的是，本申请实施例对电子设备的具体类型不作任何限制。

参见图1，图1是本申请实施例提供的现阶段博弈训练方法流程示意图。

通常的，博弈学习通常具有至少两个博弈方，即本申请中的第一智能体以及第二智能体或者第一智能体所在的智能体群以及第二智能体所在的智能体群。博弈学习中的对抗学习场景通常是指所述第一智能体所在的智能体群与所述第二智能体所在的智能体群互为对战关系，在对战关系下，对战双方（即所述第一智能体所在的智能体群与所述第二智能体所在的智能体群）均与双方环境实时交互，分别从环境中获取态势信息以及奖励信息，并将决策动作作用于环境中，不断交互更新。

明显的，对战双方的对战过程中将决策动作作用于环境中，环境返回的态势信息和奖励信息是受到对战双方的影响，单独的一次强化学习，是对同一个对手进行训练，只能被用来解决单一对手对抗问题。并且目前常见的博弈模型在面对存在多种相互两两克制关系的策略时（例如石头-剪子-布），智能体遇到的对战方智能体的策略较少，导致其本身学习上限较低，面对更多策略的对手时被击败的风险较大。

下面是对几个示例性实施方式的描述，对本申请实施例的技术方案以及本申请的技术方案产生的技术效果进行说明。

参见图2，图2是本申请实施例提供的策略模型训练方法流程示意图，包括以下步骤：

示例性的，如图3所示，第一策略种群内部放置有第一策略种群（三角形表示），第二策略种群内部放置有第二策略种群（圆形表示），第一策略种群与第二策略种群具有对手匹配关系（相当于上述博弈对战关系）；

可选的，以第一策略种群为例：从所述第一策略种群选出部分或者全部的策略模型进行对战训练，例如从所述第一策略种群中选择第一策略模型“A”、“B”以及“C”（此处“A”、“B” 以及“C”表示模型编号）进行对战训练，并且为每个所述第一策略模型进行训练对手选择，构建对手池，所述对手池中的策略模型来源所述第二策略种群。每个所述第一策略模型对应一个所述对手池，每个对手池内部设置有至少一个所述第二策略模型（例如第一策略模型“A”对应一个对手池，对手池内部设置有第二策略模型“a”以及“g”等等，其中“a”和“g”表示第二策略模型编号）。所述第一策略模型与所述第二策略模型博弈对战过程中双方对于环境的交互信息同样会被对应的策略模型获取，并且每个所述第一策略模型博弈完成之后，会依据博弈对战结果同预设阈值的比对关系决定所应用的策略是否会被遗传进化。若所述博弈对战结果大于预设阈值，则将所应用的策略返回到所述第一策略种群，并且提升所述所应用的策略后续被选取的可能性参数（例如被选取概率等）；若所述博弈对战结果小于等于预设阈值，则将所应用的策略返回所述第一策略种群并且减小所述所应用的策略后续被选取的可能性参数（例如被选取概率等）或者将所述所应用的策略不返回所述第一策略种群（相当于被选取的可能性参数减小至0），重新调用所述第一策略种群中其它所述第一策略模型进行对战训练（例如所述第一策略模型“B”的对战训练结果小于所述预设阈值，则重新调用第一策略模型“C”或者“D”进行训练，训练对手池可以为原所述第一策略模型“B”对应的对手池，也可以重新匹配新的对手池）。

可选的，当所述第一策略模型对应的对手池内部有至少2个所述第二策略模型时（例如第一策略模型“A”对应的对手池有第二策略模型“a”或“g”），所述第一策略模型可以依照预设的匹配规则进行顺次匹配。

可选的，所述预设规则包括：优先选择对战水平更高的对战智能体，例如第一策略模型“A”预估在对手池中与第二策略模型“g”的对战胜率最低，可以判定所述第二策略模型“g”对于所述第一策略模型“A”的对战水平更高。因此，所述第一策略模型“A”选取所述第二策略模型“g”的可能性越大（即被选取的可能性参数增大）。

可选的，所述被选取的可能性参数增大包括：被系统选取比对评估的次数。

可选的，所述第一策略种群选择出的至少一个所述第一策略模型均可独立与相应的对手池中的所述第二策略模型进行对战，彼此互不影响，各自所述对战结果可集中和/或分别传递至所述第一策略种群。明显的，所述第二策略种群对战训练过程同样依据上述内容，在此不继续赘述。

这样，由于所述对战训练训练双方均进行了对战结果的进化训练，因此对战双方所训练的对手模型的不确定性更高，训练种类更大，提高了对战双方的进化程度上限，也使策略模型对多样的博弈场景适应性更强。

一种可能的实施方式中，在基于第一策略模型获取第一策略，基于第二策略模型获取第二策略之前，所述策略模型训练方法还包括：

建立所述第一智能体与所述第二智能体的对战学习空间。

可选的，构建第一策略种群以及第二策略种群的过程可以作为预处理过程，在数据选取之前进行。这样可以使所述策略模型在对战过程具有更多的策略选择自由度。

一种可能的实施方式中，若在基于第一策略模型获取第一策略，基于第二策略模型获取第二策略之前，未构建所述第一策略种群以及所述第二策略种群(或所述第一策略种群与第二策略种群内部为空)，第一智能体以及第二智能体所对应的策略模型将随机生成对战方的策略模型用作自我训练（或对应所述策略模型的预设定初始策略），并依据所述对战结果与所述预设阈值的比对结果进行遗传进化，输入对应策略至对应的策略种群，实现所述第一策略种群以及第二策略种群的“从无到有”的过程。

可选的，当所述第一策略种群与第二策略种群内部为空时，所述第一策略模型与所述第二策略模型可以采用深度增强学习算法（PPO，Proximal Policy Optimization）进行训练学习，所述第一策略模型和所述第二策略模型不断与环境交互。统计多局对战训练中双方策略模型各自的对抗胜率，若所述胜率大于预设阈值时，将对应的所述策略模型输入至对应的所述策略种群进行存储。在双方策略种群池内部的策略数量小于对应的数量预设阈值之前，对战双方都随机生成对手策略模型。

可选的，当所述第一策略种群以及所述第二策略种群的模型数量增加时，所述第一策略种群以及所述第二策略种群各自的所述模型数目大于数量预设阈值后，则按照上述预设规则结合策略的对抗结果，从所述第一策略种群以及所述第二策略种群内部选取对应的策略模型进行对战训练。

可选的，可以适用优先虚拟自博弈方法（PFSP）选取对手，选定的对战双方策略模型进行强化训练。

一种可能的实施方式中，所述建立所述第一智能体与所述第二智能体的对战学习空间，包括：

如图4所示，本申请实施例提供的策略模型训练方法框架示意图，策略模型训练方法涉及模块包括：进化学习模块，进化模型存储模块以及强化学习模块；

所述进化学习模块内部包括：模型训练模块以及模型评估模块；

所述模型训练模块用作选取模型的训练；

所述模型评估模块用以更新Elo值，便于持续训练过程中对Elo值及时更新，使模型选取结果更准确；

所述进化模型存储模块用作策略模型存储，所述强化学习模块用作策略模型对战训练以及强化学习。

可选的，对于进化学习模块中的选择模型过程，通常选择能力较强的模型作为训练方（此处以第一策略种群为训练方为例），具体选择模型的步骤包括：

定义种群数目阈值threshold_population；

获取当前己方策略种群（所述第一策略种群池）中的策略模型（所述第一策略模型）数量num_own，以及对战方的策略模型（所述第二策略模型）数量num_opponent;

若当前的所述第一策略种群或第二策略种群中模型数量不足，即num_own≤threshold_population或者num_opponent≤threshold_population，则通过随机生成的方式产生初始的所述第一策略模型或所述第二策略模型至对种群中模型数量满足预设阈值，也可以在所述第一策略种群或所述第二策略种群中加入低水平模型，增加所述第一策略种群或所述第二策略种群的多样性；

若num_own＞ threshold_population 并且num_opponent＞ threshold_population 时，从进化模型存储模块导入已经存储的模型信息进行模型选择，所述存储信息包括以下至少一种：模型名称、进化代数（例如：由基础模型编译进化几次后得到的）、身份方、评价值（例如对战胜率或被选取的可能性参数）、评估次数（例如被系统选取比较的次数）、模型路径（例如模型训练的履历信息）、模型父代（例如所述策略模型变异进化前对应的策略模型）以及当前代的对抗对手信息等；

根据模型存储信息中的Elo值（相当于评价值）和已评估次数num_evaluate两项指标，遵循若Elo值以及num_evaluate大，则选取该模型的概率也越大的原则，具体选择模型的公式为：

由此公式可知，若Elo值越大并且num_evaluate越大，说明在该方法下选择的策略模型水平高，并且该模型被评估的次数越多，则说明被选择的模型的评估结果更加准确，对于后续选择该模型进化训练更容易产生高水平的后代。

可选的，Elo与对抗胜率（win_rate）的关系为正相关，此处的对抗胜率可以为对抗过程中胜率的平均值，具体可以表示为：

可选的，选择模型过程之后，得到了具有代表性的所述第二策略模型（即对战模型），对于对战模型的匹配具体步骤为：

将所述信息存储模块中的所述第一策略模型的Elo和全部所述第二策略模型Elo值转换为胜率，具体转换公式如下：

R_A表示所述第一策略模型中“A”的Elo值，R_b表示所述第二策略模型中“b”的Elo值，由此可知，win_rate正相关于R_A-R_b；

根据优先虚拟自博弈方法PFSP选取对手，PFSP公式定义如下：

由此可以看出，若胜率越小，则R_A-R_b值越小，则选取所述第二策略模型“b”的概率越大，即倾向选择更高评价值的对手。

可选的，当选择完当前的所述第一策略模型以及所述第二策略模型后，进入强化学习阶段，所述强化学习过程包括：环境部署、状态空间设计、动作空间设计以及奖励设计；

所述环境部署用作所述强化学习执行的引擎，当智能体对环境作用一个动作后，经过所述环境部署后的环境可以根据自己内部的运行机制，为所述智能体返回状态和奖励；

所述状态空间设计表现为智能体从环境中得到原始的状态特征后，根据强化的目标，可以设计相应的状态空间，对原空间的特征进行处理；

所述动作空间设计得到所述智能体作用于所述环境的动作空间，可以使作用于环境的动作更有效；

所述奖励设计表现为所述智能体从环境中得到原始的奖励特征后，根据强化的目标，设计奖励转化内容，对原始的奖励特征进行处理。

可选的，所述强化学习算法可以采用model-free类型学习算法或model-based类型学习算法；

所述model-free类型学算法指学习过程不依赖对环境的变化，输入条件仅以环境的输入条件为准，包括：近端策略优化算法（PPO，Proximal Policy Optimization）、深度确定性策略梯度算法（DDPG，Deep Deterministic Policy Gradient）以及异步优势动作评价算法（A3C，Asynchronous Advantage Actor-Critic）；

所述model-based类型学习算法指学习和理解环境的变化，可以用至少一个模型模拟环境的变化，输入条件需要结合环境的内部变化，包括：以下至少一种：基于模型的值扩展方法（MBVE，Model-Based Value Expansion）、结合无模型微调的基于模型的强化学习（MBMF，Model-Based RL with Model-Free Fine-Tuning）以及想象力增强的基于模型的强化学习方法（I2A，Imagination-Augmented Agents）、基于蒙特卡洛树搜索的阿尔法围棋AlphaGO。

可选的，所述强化学习过程还包括对数据缓存器的部署，用于存储强化学习过程中所述智能体与所述环境交互产生的数据。

可选的，在所述强化学习的过程中，根据对战双方的胜率判断新生成的模型是否满足遗传进化条件；

若所述第一策略模型的胜率大于胜率预设阈值threshold_{win_rate}，则保存更新后的模型，同时将所述第一策略模型对战所述第二策略模型的胜率转换为Elo值，并更新当前所述第一策略模型，更新过程相关信息存储至所述进行模型存储模块；

若在所述强化学习过程中，所述第一策略模型胜率小于等于预设阈值，则舍弃该模型；

通常的，在遗传过程中设置threshold_{win_rate}会保证得到的策略模型胜率都比较高，这样对后续的进化选择的策略模型基础较好，可以更快的加速进化过程。

可选的，当num_own＞ threshold_population 并且num_opponent＞threshold_population时，所述进化模型存储模块中的Flag_evaluation（相当于评估标志识别装置，用来识别对策模型的是否被评估）过滤正在被评估的策略模型，模型评估过程只选择当前还未进行的模块进行评估，这样可以避免相同策略模型被多次评估Elo更新不准确；

根据评估次数num_evaluation选择模型，评估次数越少，被选中的概率越大，评估次数关系和选中关系如下：

可选的，在对战学习过程中，对于所述第一策略模型与所述第二策略模型各自的Elo值得差转换为预测胜率win_rate_predict表示为：

经过训练后所述第一策略模型或所述第二策略模型更新后的Elo值表示为

其中win_true表示所述第一策略模型或所述第二策略模型的真实胜率，Elo表示更新后的Elo值，Elo′表示更新前的Elo值。

所述第一交互信息包括以下至少一个：所述第一智能体在所述对战学习过程中对所述第一学习环境的第一影响结果，以及响应于所述第一影响结果所述第一学习环境对所述第一智能体产生的第一反馈结果；

在一种可能的实施方式中，调用所述第一智能体与所述第二智能体对战，包括：

在一些可能的实施例中，所述的策略模型训练方法还包括：

当所述第一智能体与至少2个所述第二智能体具有对战关系，

对所有所述胜率大小进行比较；

依据所述胜率的数值大小的比较结果，调整所述第一策略模型与对应的所述第二策略模型的被选取对战的可能性参数，所述对战胜率越小，胜率越小，所对应的所述第一策略模型和所述第二策略模型被选取对战的可能性参数越大；

对至少2个所述第二智能体进行对战顺序排列，

在一些可能的实施例中，所述基于第一策略模型获取第一策略，基于第二策略模型获取第二策略，包括：

本申请实施例提供了一种策略模型训练方法，在本方案中，在获取第一策略以及第二策略，并将所述第一策略对应的第一智能体于所述第二策略对应的第二智能体进行对战，并依据对战结果和各自预设阈值的比对关系，将大于预设阈值的策略收集至智能体对应的策略种群，并提升此策略后续被对应的策略模型被选取的可能性参数。这样不仅可以将己方智能体得到进化策略训练，同时也可以使对战方智能体得到进化策略训练，提升了博弈学习网络中策略模型的进化程度上限，使策略模型对策略多样的博弈场景适应性更强。

上述实施例从第一策略模型以及第二策略模型的获取方式、第一智能体与第二智能体的对战关系、对战结果的分析、对策略的选取以及根据相关性特征策略模型训练等电子设备所执行的动作逻辑和学习算法处理角度，对本申请实施例提供的策略模型的训练方法的各实施方式进行了介绍。应理解，对应第一策略模型以及第二策略模型的获取方式、第一智能体与第二智能体的对战关系、对战结果的分析、对策略的选取等的处理步骤，本申请实施例可以以硬件或硬件和计算机软件的结合形式来实现上述功能。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

例如，若上述实现步骤通过软件模块来实现相应的功能，如图5所示，策略模型训练装置可以包括：获取模块、处理模块以及比对模块

所述获取模块，用于基于第一策略模型获取第一策略以及基于第二策略模型获取第二策略，所述第一策略模型与所述第二策略模型分别对应相互对战的智能体；

所述处理模块，用于调用采用第一策略的第一智能体与采用第二策略的第二智能体对战，分别得到所述第一策略对应的第一对战结果以及所述第二策略对应的第二对战结果，所述第一智能体与所述第二智能体分别属于存在对战关系的智能体群；

所述比对模块：用于比对对战结果与预设阈值关系，若所述第一对战结果大于预设阈值，增大所述第一策略在第一策略种群中被选取的可能性参数，以得到更新后的第一策略种群，若所述第一对战结果小于或者等于所述预设阈值，减小所述第一策略在第一策略种群中被选取的可能性参数，以得到更新后的策略种群，根据所述更新后的第一策略种群训练所述第一策略模型；

所述若所述第二对战结果大于预设阈值，增大所述第二策略在第二策略种群中被选取的可能性参数，以得到更新后的第二策略种群，若所述第二对战结果小于或者等于所述预设阈值，减小所述第二策略在第二策略种群中被选取的可能性参数，以得到更新后的策略种群，根据所述更新后的第二策略种群训练所述第二策略模型。

可以理解的是，以上各个模块/单元的划分仅仅是一种逻辑功能的划分，实际实现时，以上各模块的功能可以集成到硬件实体实现，例如，获取模块、处理模块以及比对模块可以集成到处理器实现，实现上述各模块功能的程序和指令，可以维护在存储器中。例如，图6提供了一种电子设备，该电子设备包括可以包括处理器、收发器和存储器。其中，收发器用于策略模型训练方法中第一策略模型以及第二策略模型相关信息获取。存储器可以用于存储对战学习过程中产生的相关对战信息以及相关策略模型信息，也可以存储用于处理器执行的代码等。当处理器运行存储器存储的代码过程中，使得电子设备执行上述方法中策略模型训练方法的部分或全部操作。

具体实现过程详见上述方法示意的实施例所述，此处不再详述。

具体实现中，对应前述电子设备，本申请实施例还提供一种计算机存储介质，其中，设置在电子设备中的计算机存储介质可存储有程序，该程序执行时，可实施包括策略模型的训练方法的各实施例中的部分或全部步骤。该存储介质均可为磁碟、光盘、只读存储记忆体（read-only memory，ROM）或随机存储记忆体（random access memory，RAM）等。

以上模块或单元的一个或多个可以软件、硬件或二者结合来实现。当以上任一模块或单元以软件实现的时候，所述软件以计算机程序指令的方式存在，并被存储在存储器中，处理器可以用于执行所述程序指令并实现以上方法流程。所述处理器可以包括但不限于以下至少一种：中央处理单元（central processing unit，CPU）、微处理器、数字信号处理器（DSP）、微控制器（microcontroller unit，MCU）、或人工智能处理器等各类运行软件的计算设备，每种计算设备可包括一个或多个用于执行软件指令以进行运算或处理的核。该处理器可以内置于SoC（片上系统）或专用集成电路（application specific integratedcircuit，ASIC），也可是一个独立的半导体芯片。该处理器内处理用于执行软件指令以进行运算或处理的核外，还可进一步包括必要的硬件加速器，如现场可编程门阵列（fieldprogrammable gate array，FPGA）、PLD（可编程逻辑器件）、或者实现专用逻辑运算的逻辑电路。

当以上模块或单元以硬件实现的时候，该硬件可以是CPU、微处理器、DSP、MCU、人工智能处理器、ASIC、SoC、FPGA、PLD、专用数字电路、硬件加速器或非集成的分立器件中的任一个或任一组合，其可以运行必要的软件或不依赖于软件以执行以上方法流程。

进一步的，图6中还可以包括总线接口，总线接口可以包括任意数量的互联的总线和桥，具体由处理器代表的一个或多个处理器和存储器代表的存储器的各种电路链接在一起。总线接口还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口提供接口。收发器提供用于在传输介质上与各种其他设备通信的单元。处理器负责管理总线架构和通常的处理，存储器可以存储处理器在执行操作时所使用的数据。

当以上模块或单元使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线（例如同轴电缆、光纤、数字用户线（DSL））或无线（例如红外、无线、微波等）方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质（例如固态硬盘Solid State Disk (SSD)）等。

应理解，在本申请的各种实施例中，各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对实施例的实施过程构成任何限定。

本说明书的各个部分均采用递进的方式进行描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点介绍的都是与其他实施例不同之处。尤其，对于装置和系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例部分的说明即可。

尽管已描述了本申请的可选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

以上所述的具体实施方式，对本申请的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本申请的具体实施方式而已，并不用于限定本申请的保护范围，凡在本申请的技术方案的基础之上，所做的任何修改、等同替换、改进等，均应包括在本发明的保护范围之内。

Claims

1.一种策略模型训练方法，其特征在于，所述方法包括：

2.根据权利要求1所述的策略模型训练方法，其特征在于，在基于第一策略模型获取第一策略，基于第二策略模型获取第二策略之前，还包括：

建立所述第一智能体与所述第二智能体的对战学习空间。

3.根据权利要求2所述的一种策略模型训练方法，其特征在于，所述建立所述第一智能体与所述第二智能体的对战学习空间，包括：

4.根据权利要求3所述的策略模型训练方法，其特征在于，

5.根据权利要求1所述的策略模型训练方法，其特征在于：调用所述第一智能体与所述第二智能体对战，包括：

6.根据权利要求5所述的策略模型训练方法，其特征在于，所述方法还包括：当所述第一智能体与至少2个所述第二智能体具有对战关系，

对所有所述胜率大小进行比较；

依据所述胜率的数值大小的比较结果，调整所述第一策略模型与对应的所述第二策略模型的被选取对战的可能性参数，所述胜率越小，所对应的所述第一策略模型和所述第二策略模型被选取对战的可能性参数越大；

对至少2个所述第二智能体进行对战顺序排列，

7.根据权利要求1或2所述的策略模型训练方法，其特征在于，所述基于第一策略模型获取第一策略，基于第二策略模型获取第二策略，包括：

8.一种策略模型训练装置，其特征在于，所述装置包括：

9.一种计算设备，其特征在于，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

所述存储器用于存储可执行指令，所述可执行指令运行时使所述处理器执行如权利要求1-7中任一项所述的策略模型训练方法。

10.一种计算机存储介质，其特征在于，所述存储介质中存储可执行指令，所述可执行指令运行时使计算设备执行如权利要求1-7中任一项所述的策略模型训练方法。