CN113326902A

CN113326902A - 基于在线学习的策略获取方法、装置及设备

Info

Publication number: CN113326902A
Application number: CN202110772824.0A
Authority: CN
Inventors: 黄健; 陈浩; 付可; 刘权; 龚建兴; 韩润海; 李嘉祥
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2021-07-08
Filing date: 2021-07-08
Publication date: 2021-08-31
Anticipated expiration: 2041-07-08
Also published as: CN113326902B

Abstract

本申请提供一种基于在线学习的策略获取方法、装置及设备，获取并识别目标对手策略，并从智能体策略库中选取针对目标对手策略的智能体策略；根据智能体策略确定目标对手策略是已知对手策略的概率，并将概率加入概率队列；响应于确定概率队列中所有概率的和小于和阈值，基于智能体策略库和预先构建的在线学习模型获得针对目标对手策略的新智能体策略。本申请基于智能体策略库中已有的智能体策略对在线学习进行加速，效率较高且性能较好。

Description

基于在线学习的策略获取方法、装置及设备

技术领域

本申请涉及智能体技术领域，尤其涉及一种基于在线学习的策略获取方法、装置及设备。

背景技术

智能体是人工智能领域中一个很重要的概念，任何独立的能够思想并可以同环境交互的实体都可以抽象为智能体。在对抗型多智能体系统中，智能体不仅与环境交互，其中对手的行为也影响智能体的策略选择。为获取更好的对抗性能，智能体决策时通常考虑对手的行为。在许多情况下，智能体和对手分别维护了一个策略库，并适时从其中选择策略执行，从而最大化己方从环境中获得的奖励。因此，准确识别当前时刻对手策略并选择合适的应对策略对于己方智能体来说十分关键。

在重复博弈的场景中，相关技术每隔固定的时间间隔检测一次对手的策略是否发生改变，若检测到对手策略发生变化，转入学习阶段学习针对对手策略的最优策略。相关技术转入学习阶段时，从零开始学习最优策略，效率较低且性能较差。

发明内容

有鉴于此，本申请的目的在于提出一种基于在线学习的策略获取方法、装置及设备。

基于上述目的，本申请提供了一种基于在线学习的策略获取方法，包括：

获取并识别目标对手策略，并从智能体策略库中选取针对所述目标对手策略的智能体策略；

根据所述智能体策略确定所述目标对手策略是已知对手策略的概率，并将所述概率加入概率队列；

响应于确定所述概率队列中所有所述概率的和小于和阈值，基于所述智能体策略库和预先构建的在线学习模型获得针对所述目标对手策略的新智能体策略。

基于同一发明构思，本申请提供了一种基于在线学习的策略获取装置，包括：

智能体策略重用模块，被配置为获取并识别目标对手策略，并从智能体策略库中选取针对所述目标对手策略的智能体策略；

未知对手策略确定模块，被配置为根据所述智能体策略确定所述目标对手策略是已知对手策略的概率，并将所述概率加入概率队列；

智能体策略生成模块，被配置为响应于确定所述概率队列中所有所述概率的和小于和阈值，基于所述智能体策略库和预先构建的在线学习模型获得针对所述目标对手策略的新智能体策略。

基于同一发明构思，本申请提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上所述的方法。

从上面所述可以看出，本申请提供的基于在线学习的策略获取方法、装置及设备，获取并识别目标对手策略，并从智能体策略库中选取针对目标对手策略的智能体策略；根据智能体策略确定目标对手策略是已知对手策略的概率，并将概率加入概率队列；响应于确定概率队列中所有概率的和小于和阈值，基于智能体策略库和预先构建的在线学习模型获得针对目标对手策略的新智能体策略。本申请基于智能体策略库中已有的智能体策略对在线学习进行加速，效率较高且性能较好。

附图说明

为了更清楚地说明本申请或相关技术中的技术方案，下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的基于在线学习的策略获取方法的一种流程示意图；

图2为本申请实施例提供的策略重用方法的一种流程示意图；

图3为本申请实施例提供的目标对手策略是已知对手策略的概率确定方法的一种流程示意图；

图4为本申请实施例提供的在线学习模型训练方法的一种流程示意图；

图5为本申请实施例提供的基于在线学习的策略获取方法的一种场景示意图；

图6为本申请实施例提供的网格世界及六种对手策略的示意图；

图7为本申请实施例提供的导航世界及五种对手策略的示意图；

图8为本申请实施例提供的足球世界及六种对手策略的示意图；

图9为本申请实施例提供的网格世界中智能体策略重用与新策略学习结果的示意图；

图10为本申请实施例提供的导航世界中智能体策略重用与新策略学习结果的示意图；

图11为本申请实施例提供的足球世界中智能体策略重用与新策略学习结果的示意图；

图12为本申请实施例提供的基于在线学习的策略获取装置的一种结构示意图；

图13为本申请实施例提供的一种更为具体的电子设备硬件结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本申请进一步详细说明。

需要说明的是，除非另外定义，本申请实施例使用的技术术语或者科学术语应当为本申请所属领域内具有一般技能的人士所理解的通常意义。本申请实施例中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同，而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电性的连接，不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系，当被描述对象的绝对位置改变后，则该相对位置关系也可能相应地改变。

从零开始学习最优策略，显然是效率较低且性能较差的，发明人发现，重用已有策略是提高智能体系统性能的有效机制，但是，当前已有策略已经不能满足应对对手策略的需求，发明人提出，相同环境下不同的对手策略具有部分相似性，利用已有策略加速新策略学习是提升多智能体系统性能的有效方式，在检测到对手使用未知策略时，考虑将策略库中已有应对策略迁移至新的学习任务，可以显著提高学习效率和智能体性能。

参考图1，其为本申请实施例提供的基于在线学习的策略获取方法的一种流程示意图。基于在线学习的策略获取方法，包括：

S110、获取并识别目标对手策略，并从智能体策略库中选取针对目标对手策略的智能体策略。

对抗型多智能体系统中包括至少两个智能体，其中，本申请的技术方案中所称智能体Agent为己方智能体，其他智能体可以部分或者全部视作对手opponent。智能体维护了智能体策略库

，对手维护了对手策略库

。默认智能体策略库

中包含了对手策略库

中所有对手策略的最优应对策略。

其中，策略为一组状态-动作参数对，即在获取到特定的环境及对手状态时，执行与该状态对应的动作。状态参数例如对手的位置坐标、中立单位的位置坐标和智能体的位置坐标等，其中，位置坐标可以为one-hot编码形式。动作参数例如移动方向和移动距离等。

在一些实施方式中，S110具体包括：

参考图2，其为本申请实施例提供的策略重用方法的一种流程示意图。

S210、利用对手策略库构建对手模型，融合对手模型到贝叶斯策略重用模型，得到融合后贝叶斯策略重用模型。

在一些实施方式中，对手模型包括神经网络模型。

其中，用

表示对手模型，用

表示对手模型的参数。

在一些实施方式中，更新对手模型，包括：

获取预设时间段内的对手行为数据；

基于预设时间段生成时间序列，基于对手行为数据生成与时间序列对应的行为序列；

利用最大化生成行为序列的对数概率，利用对数概率更新对手模型。

假设，对手在时间序列K内的行为序列为(s ₀, o ₀, s ₁, o ₁, …, s _K, o _K)，利用最大化生成该行为序列的对数概率，并利用该对数概率更新对手模型。

在一些实施方式中，更新对手模型，还包括：

将对手模型的信息熵引入对手模型的损失函数。

其中，用

表示对手模型的信息熵。

则，对手模型的损失函数可以表示为：

；

其中，

为对手在状态参数

下执行动作

的估计概率，

为信息熵常数，

为对手模型的信息熵，

表示一个训练样本集合的数学期望。

S220、利用融合后贝叶斯策略重用模型识别目标对手策略，并从智能体策略库中选取针对目标对手策略的智能体策略。

融合后贝叶斯策略重用模型根据在线交互中智能体所获得的奖励和对手行为信息判断对手的当前策略即目标对手策略。

由于默认智能体策略库

中包含了对手策略库

中所有对手策略的最优应对策略，因此，在没有检测到对手使用未知策略而转入新策略学习前，智能体每回合在智能体策略库

中选择合适的应对策略。

相关技术在识别对手的策略时，其识别机制需要根据任务不同而人为设计，不具有泛化性。本申请通过融合对手模型的贝叶斯策略重用模型识别对手的策略，可以根据对手模型的特征而自动适应，具有良好的泛化性。

在一些实施方式中，在从智能体策略库中获取针对目标对手策略的智能体策略之后，还包括：

根据目标对手策略和智能体策略得到智能体第一信念；

通过对手模型得到智能体第二信念；

根据智能体第一信念和智能体第二信念得到智能体综合信念；

其中，智能体综合信念用于下一次从智能体策略库中获取针对目标对手策略的智能体策略。

假设，在回合

结束后，智能体获得的累积效用奖励为

，则对于每一个对手策略

，智能体若仅使用贝叶斯策略重用模型更新其信念

，则更新方式可以表示为：

；

其中，

为智能体在回合

结束时使用的策略。

若回合

结束时，智能体获得的回合奖励为

，智能体使用的策略和估计的对手策略分别为

和

，则

的大小一定程度上可以描述对手在回合

使用策略

的可能性。

信念

为智能体第一信念。

进一步的，本申请利用对手在线行为信息，通过对手模型

进一步识别对手策略。

智能体维护了一个长度为

的先入先出队列

用于存放最近

步内对手的状态参数-动作对

，其中

，队列

和对手模型

用于估计生成对手行为信息

的对手策略。则通过对手模型，智能体对于对手策略

的信念

更新可以表示为：

；

；

其中，

为

的对手模型（即对策略

的估计），

为当前回合的步数，

定量描述了对手用策略

生成

的可能性。

信念

为智能体第二信念。

智能体在每一步决策时，综合考虑

和

两种信念作为智能体每一时刻的信念

：

；

其中，

为常数，

为回合内步数。

信念

为智能体综合信念。

的引入是为了平衡

和

在综合信念中所占比重，在回合初始阶段

起主导作用，随着累积对手行为数据越多，

在综合信念中占主导地位，对策略选择的影响越大。

智能体每一步都进行一次策略选择，其选择应对策略

的方式可以表示为：

；

其中，

为智能体在当前综合信念

下能够获得的最优期望效用。

S120、根据智能体策略确定目标对手策略是已知对手策略的概率，并将概率加入概率队列。

目标对手策略是已知对手策略的概率指的是目标对手策略是否为已知对手策略的对手策略的概率。

概率队列用于存放识别到的对手策略是已知对手策略的概率。

在一些实施方式中，S120具体包括：

参考图3，其为本申请实施例提供的目标对手策略是已知对手策略的概率确定方法的一种流程示意图。

S310、利用智能体策略库和对手策略库构建性能模型。

在一些实施方式中，性能模型是指智能体使用智能体策略

，对手使用对手策略

时，智能体一个回合获得累积效用奖励

的概率分布

。

具体的，对于估计的对手策略

，智能体使用智能体策略库中的每一个策略

在环境中多次仿真，收集单回合智能体的累积效用奖励

，并将其拟合为正态分布。

S320、利用性能模型根据目标对手策略和智能体策略确定目标对手策略是已知对手策略的概率。

在一些实施方式中，本申请维护了一个长度为

的先入先出队列

用于衡量最近

个回合内对手使用已知对手策略的可能性。具体来讲，若回合

结束时，智能体获得的回合奖励为

，智能体使用的策略和估计的对手策略分别为

和

，则

的大小一定程度上可以描述对手在回合

使用策略

的可能性。因此，

描述了最近

个回合对手使用已知对手策略的概率和。如果该概率和小于预设的和阈值

，则认为对手使用了未知策略，智能体转入学习新的智能体策略，否则，下回合开始时仍重用智能体策略库

中的智能体策略。

S130、响应于确定概率队列中所有概率的和小于和阈值，基于智能体策略库和预先构建的在线学习模型获得针对目标对手策略的新智能体策略。

在一些实施方式中，将新智能体策略加入智能体策略库以更新智能体策略库，在下一次识别到该目标对手策略时选择使用。

在一些实施方式中，在线学习模型中包含Option学习网络、近端策略优化网络和Option集合；Option学习网络中包含Inter-option网络和Termination网络；近端策略优化网络中包含Actor网络和Critic网络；Option集合中包含多个Option，其中每个Option中包含初始状态参数集、Intra-option策略和结束概率。

在一些实施方式中，将智能体策略库中的所有智能体策略分别建模为Intra-option策略，并根据Intra-option策略构建Option。

其中，将每一个的智能体策略

视作对应Option

中的Intra-option策略

。每个Option中包含初始状态参数集、Intra-option策略和结束概率。则Option

可以定义为一个三元组

，其中

为

的初始状态参数集，

为Intra-option策略，

为在状态参数

退出当前Option

的概率。本申请中，假设所有的Option均可用于所有的状态参数，即有

。

在一些实施方式中，基于智能体策略库和预先构建的在线学习模型获得针对目标对手策略的新智能体策略，包括：

参考图4，其为本申请实施例提供的在线学习模型训练方法的一种流程示意图。

循环执行以下操作，直到从环境中获取的奖励超过奖励阈值，将超过奖励阈值的奖励对应的当前智能体策略作为新智能体策略：

S410、从环境中获取状态参数，并将状态参数输入Option学习网络和近端策略优化网络。

状态参数包含环境以及环境中对手的状态参数。

状态参数例如对手的位置坐标、中立单位的位置坐标和智能体的位置坐标等，其中，位置坐标可以为one-hot编码形式。

S420、利用Option学习网络根据状态参数从Option集合中选择Option，并将Option中的Intra-option策略和结束概率发送至近端策略优化网络。

具体包括：利用Inter-option网络从Option中获取Intra-option策略；利用Termination网络从Option中获取结束概率。

在线交互过程中，Inter-option网络根据当前状态参数

，采用

从Option集合

中按照Option值函数

选取Option

用于策略迁移，其中

代表Inter-option网络的参数。Options网络采用调用与返回机制，Termination网络在当前状态参数

下依概率

停止使用当前Option

，其中

代表Termination网络的参数。根据Termination网络的输出，如果停止使用当前Option

，则Inter-option网络选择新的Option执行。

将Intra-option策略和结束概率作为重用损失发送至近端策略优化网络

S430、利用近端策略优化网络根据状态参数获得当前智能体策略。

可以将近端策略优化网络视作一个映射函数网络，输入自变量状态参数，输出应变量动作。状态-动作参数对视作智能体策略。

S440、根据当前智能体策略选择动作并执行，从环境中获取奖励。

在线交互的每个时间步长，智能体使用Inter-option网络选择Option

（其对应的Intra-option策略为

），依据利用近端策略优化网络获得的当前智能体策略

（其中

代表Actor的参数）选择动作

并执行，在环境中获得奖励

并转移至下一个状态参数

。然后，智能体将经验

保存至其经验池

。

S450、更新Option学习网络和近端策略优化网络。

更新近端策略优化网络，具体包括：

假设近端策略优化网络PPO中Actor和Critic的参数分别表示为

和

，

表示智能体的策略，

表示

时刻相对优势函数的估计，

为折扣因子，

为环境奖励。若不考虑Intra-option策略的影响，PPO中Actor截断的损失函数可以表示为：

；

其中，clip为值域为

的截断函数，

，

为

的状态值函数，

表示新旧策略的概率比，可以表示为：

；

其中，

为智能体上一更新时刻的策略。

Intra-option策略

不直接参与智能体动作选择，而是在Actor策略更新中作为目标函数的一部分，用于引导智能体策略学习。具体来讲，除了

之外，Actor的目标函数还包括由当前策略

与Intra-option策略

不一致而导致的

，本发明用KL散度衡量二者的差异，其形式化描述为：

；

为KL散度；

综上，Actor的目标函数

可以表示为：

；

其中，

为

折扣因子，随着学习进度的推进，

应逐渐减小，从而使得智能体的策略更新逐渐由强化学习主导，实现Intra-option策略

之上的继续学习。Actor策略的更新采用随机梯度上升的方式，从而实现最大化的

。Critic的更新方式与PPO保持一致，其损失函数可以表示为：

。

更新Option学习网络，具体包括：

Inter-option策略网络的更新采用类似强化学习DQN的方式，因为Option是时序抽象的动作，首先引入抵达

的Option值函数（Option-value Function Upon Arrival）

为：

；

然后，在步骤五的经验池

中采样一个包含

个经验的训练样本，Inter-option网络的损失函数可以表示为：

；

其中

。

Termination网络学习智能体在当前状态参数退出各Option的概率，其更新方式与Option-Critic类似。Termination网络的目标是最大化期望的效用函数

，本发明采用

对

的梯度更新Termination网络：

；

其中，

为智能体从初始条件

经

步转移至

的概率总和，由于

是在线策略分布的采样估计，为了提高数据使用效率，在Termination网络更新时，可以忽略该项。

为关于

的优势函数。因此，Termination网络可由下式更新：

；

其中，

为Termination网络的学习率。

通过上式，如果

为状态参数

下的非最优Option，则智能体在状态参数

退出Option

的概率将不断增加，智能体则会选择其他更有可能加速策略学习的Option。通过上述方式，智能体可以自适应地决定何时利用或退出某Option。

参考图5，其为本申请实施例提供的基于在线学习的策略获取方法的一种场景示意图。其中，BPR指贝叶斯策略重用，PPO指近端策略优化网络。

对抗型多智能体系统中智能体和对手分别维护了策略库

和

，在未检测到对手使用未知策略前，智能体默认

中包含

的所有最优应对策略。首先，利用融合对手模型的BPR算法，根据在线交互中智能体所获得的奖励和对手行为信息判断对手的当前策略

。如果此时的对手策略是已知对手策略，则重用最优应对策略

；如果检测到此时对手使用了未知策略，则转入最优应对策略学习，并利用最优应对策略库

加速策略收敛。具体来讲，将策略库中的最优应对策略

作为Intra-option策略

，并构建其对应的Option

。在学习过程中，Inter-option网络决定何时选择何种Option用于加速新策略学习，而Termination网络决定何时停止使用当前Option。在智能体策略更新阶段，将当前策略与Intra-option策略分布的差异作为智能体策略更新误差的一部分。此外，Inter-option网络和Termination网络根据在线交互信息同步更新。

从上面所述可以看出，本申请提供的基于在线学习的策略获取方法，获取并识别目标对手策略，并从智能体策略库中选取针对目标对手策略的智能体策略；根据智能体策略确定目标对手策略是已知对手策略的概率，并将概率加入概率队列；响应于确定概率队列中所有概率的和小于和阈值，基于智能体策略库和预先构建的在线学习模型获得针对目标对手策略的新智能体策略。本申请基于智能体策略库中已有的智能体策略对在线学习进行加速，效率较高且性能较好。

本申请将已有的最优应对策略建模为Intra-option策略，在此基础上，引入Option学习网络用于决定何时选择何种策略加速在线学习过程。此外，本申请设计了Intra-option策略引导智能体策略更新的机制，借助Option的调用与返回机制，智能体自适应地选择合适的可用策略作为优化目标。

为了说明本申请提供的基于在线学习的策略获取方法的有效性，本申请结合三个具体应用环境，设计了如下仿真实验，其中，OL-BPR表示本申请提供的基于在线学习的策略获取方法，对比算法包括：Bayes-Pepper、Bayes-ToMoP、Deep BPR+以及DRON。在所有的实验中，本申请假设智能体策略库

中包含部分对手策略

的最优应对策略。因此，当对手使用未知策略时，智能体应尽快识别该未知策略，并学习如何应对。

需要注意的是，下述应用场景仅是为了便于理解本申请的精神和原理而示出，本申请的实施方式在此方面不受任何限制。相反，本申请的实施方式可以应用于适用的任何场景。

网格世界中玩家的初始状态参数如图6所示。玩家的任务为在不发生碰撞的前提下到达不同的目标位置，不同的目标位置对应的奖励值不同：

，

。一旦有玩家到达一个目标位置，其位置不再发生改变，直到回合结束。每一个时间步长，玩家从动作集

中选择动作。任何将玩家移出环境的动作将被忽略，当玩家发生碰撞时，智能体获得的惩罚为

。此外，除了动作

，智能体执行任何其他动作都会获得

的额外惩罚，无论其位置是否发生改变。一旦G1和G2分别被两玩家占据或到达最大的时间步长

，回合结束，玩家的位置重置。在每回合结束时，以智能体当回合的奖励总和的相反数作为对手的回合奖励。

在网格世界中，本申请为其中对手设计了六种策略，如图6所示。其中，智能体应对策略库

包含对手策略(1)~(5)的最优应对策略，而策略(6)智能体未知。在本环境中，智能体应更关注对手的策略，而不能仅关注目标位置的奖励值，因为如果不能准确检测对手策略，智能体性能将因碰撞导致其性能下降。

玩家的one-hot坐标构成智能体的状态参数输入。共进行30组实验，每次实验由4000回合构成，前1000回合对手从策略(1)~(5)中随机选择策略，每500回合切换一次策略。从第1000回合起，对手使用策略(6)。

导航世界中玩家的初始状态参数如图7所示，障碍用灰色阴影表示。每个玩家的候选动作为

，任何动作都不能将智能体移出环境或穿过障碍。本环境中共有三种类型的目标位置，如果两玩家在回合结束时到达同一个目标，智能体可以获得对应的奖励，其中

，

，

。否则，如果玩家在回合结束时位于不同的目标位置，则智能体将受到

的惩罚。本环境中最大的时间步长

，一旦玩家到达一个目标位置后，直到回合结束，其位置不再发生改变。与网格世界的设定类似，回合结束时，以智能体当回合的奖励总和的相反数作为对手的回合奖励。

如图7所示，导航世界中对手共有五种策略，分别对应五个目标位置。两玩家位置坐标的one-hot编码构成智能体的状态参数。在策略准备阶段，DRON使用对手策略的类型作为额外的监督信号。智能体应对策略库

包含对手策略(1)~(4)的最优应对策略，而策略(5)智能体未知。共进行30组实验，每次实验由6000回合构成，前1000回合对手从策略(1)~(4)中随机选择策略，每500回合切换一次策略。从第1000回合起，对手使用策略(5)。

足球世界中玩家和足球的初始位置如图8所示，在每回合开始时，对手拥有球权。每个网格只能由一个玩家占据，足球可以与玩家共用一个网格。当玩家发生碰撞时，交换球权，但玩家的位置不发生改变。每个时间步长，玩家从动作集合

中选择动作执行，一旦某一玩家进球或对抗达到最大时间步长

，回合结束，玩家和足球的位置重置。本环境中也有三种类型的目标位置，各自对应不同的瞬时奖励：

，

，

。与前两个环境的设定类似，回合结束时，以智能体当回合的奖励总和的相反数作为对手的回合奖励。

如图8所示，足球环境中对手共有六种策略，每个目标位置对应两种对手策略。值得注意的是，智能体的进球位置与当前对手策略的目标位置一致时，进球才有效。例如，如果本回合对手使用策略(3)，智能体将球带入环境右侧的G2球门时，本次进球才有效，智能体才能获得对应的奖励

。如果智能体将球带入G1或G3球门，则进球无效。因此，在这种设定下，智能体必须准确识别对手策略才能从环境中获取最优奖励。全局状态参数由玩家的one-hot坐标和球权构成，智能体应对策略库

包含对手策略(1)~(5)的最优应对策略，而策略(6)智能体未知。共进行30组实验，每次实验由4000回合构成，前1000回合对手从策略(1)~(5)中随机选择策略，每500回合切换一次策略。从第1000回合起，对手使用策略(6)。

网格世界中智能体的平均回合奖励如图9所示，同时，1~700回合的局部性能也在图中以子图的形式给出。从子图中可以看出，当对手策略在已知对手策略策略库中切换时，本申请提出的方法可以及时并准确地检测对手策略，整个过程没有性能损失。具体来讲，在1~100回合和500~600回合，OL-BPR获得的平均奖励最多，且性能最稳定。相比之下，DRON在前1000回合都没能达到最优奖励，因为其学习了一个泛化的策略，而不具有对手策略的检测能力。Bayes-ToMoP在此阶段Bayesian类算法中性能最差，因为当对手策略发生变化时，该算法首先检测对手是否也使用了BPR。此外，Bayes-Pepper和Deep BPR+的性能在500回合对手切换策略后有明显的突然下降，这是因为其只在回合结束后才更新信念。相比之下，OL-BPR可以在回合内根据对手的行为不断修正智能体的策略，从而可以准确识别对手策略并重用最优应对策略。

1000回合后，对手使用未知策略(6)，各种算法出现了不同程度的性能下降。Bayes-Pepper在所有的算法中性能表现最差，这是因为其不具有学习能力，只能在现有策略库

中选择策略进行应对。DRON的性能优于Bayes-Pepper，这是因为它用“混合专家框架（Mix-of-experts Architecture）”学习了一个具有泛化能力的策略。但其不能检测对手策略，也不具有再学习能力，因此DRON没能获得最优回合奖励。对比Deep BPR+和Bayes-ToMoP两种算法，Deep BPR+使用策略蒸馏网络获取已知对手策略对手策略的公共特征，并检测到对手使用未知策略后在此基础上学习新策略。因此，Deep BPR+的学习效率明显高于不带有策略蒸馏框架的Bayes-ToMoP。本申请提出的OL-BPR方法在所有算法中表现最好。具体来讲，对手使用未知策略后，OL-BPR性能下降最小，对抗策略收敛最快。这是因为OL-BPR可以有效利用Options中的Intra-option策略，借助调用与返回机制，智能体可以自适应地选择合适的已有策略用于加速学习。与不带有Options的OL-BPR w/o options相比，在学习前期OL-BPR性能优势明显，证明了本方法中Option学习网络的有效性。此外，Deep BPR+在学到新策略后需要重新训练策略蒸馏网络，耗时且消耗资源，如果此时对手切换到新的未知策略，智能体可能来不及使用新的策略蒸馏网络。相比之下，OL-BPR不需要维护额外的网络，新策略学习后可以只需加入策略库

，若检测到对手使用了新的未知策略，Option学习网络可以自适应地选择合适的已有策略用于知识迁移。

导航世界和足球世界中智能体策略重用与新策略学习结果分别如图10和图11所示。从其中的子图可以看出，与其他基于Bayesian的算法相比，在对抗初始阶段Bayes-ToMoP重用最优应对策略的速度最慢，这是因为Bayes-ToMoP依赖近几个回合平均奖励的增减判断对手是否使用BPR，在对抗随机切换策略的对手时，这种策略检测方式效率较低。

导航世界中1000回合以后，对手使用未知策略(5)。与网格世界中的结果类似，Bayes-Pepper由于不具有检测未知对手策略的能力，性能最差。由对手策略(1)~(4)训练得到的DRON策略是一个泛化策略，在面对使用未知策略(5)的对手时，不能获得最优回合奖励。Deep BPR+借助策略蒸馏网络，在相同超参的设定下，性能明显优于Bayes-ToMoP。本申请提出的OL-BPR可以高效利用由已有策略构成的Options，在学习过程中，自适应地选取对应的Intra-option策略作为优化目标。借助Option学习网络的调用与返回机制，OL-BPR实现了时序扩展的策略重用，避免了已有知识误用。

相似的对比结果在图11中也有体现。1000回合后，对手使用未知策略(6)，OL-BPR和Deep BPR+由于利用了策略库中的已有策略，性能明显优其他对比算法。与Deep BPR+相比，OL-BPR将Intra-option策略作为当前策略的优化目标，对已有知识的利用更为直接，利用效率更高。在2000回合以后OL-BPR性能基本达到最优奖励。

综上，本申请提出的OL-BPR可以准确识别对手策略并重用最优应对策略、检测对手是否使用未知策略，并借助Option学习网络加速对抗策略收敛。

需要说明的是，本申请实施例的方法可以由单个设备执行，例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下，由多台设备相互配合来完成。在这种分布式场景的情况下，这多台设备中的一台设备可以只执行本申请实施例的方法中的某一个或多个步骤，这多台设备相互之间会进行交互以完成所述的方法。

需要说明的是，上述对本申请的一些实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于上述实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

基于同一发明构思，与上述任意实施例方法相对应的，本申请还提供了一种基于在线学习的策略获取装置。

参考图12，基于在线学习的策略获取装置，包括：

智能体策略重用模块，被配置为获取并识别目标对手策略，并从智能体策略库中选取针对目标对手策略的智能体策略；

未知对手策略确定模块，被配置为根据智能体策略确定目标对手策略是已知对手策略的概率，并将概率加入概率队列；

智能体策略生成模块，被配置为响应于确定概率队列中所有概率的和小于和阈值，基于智能体策略库和预先构建的在线学习模型获得针对目标对手策略的新智能体策略。

为了描述的方便，描述以上装置时以功能分为各种模块分别描述。当然，在实施本申请时可以把各模块的功能在同一个或多个软件和/或硬件中实现。

上述实施例的装置用于实现前述任一实施例中相应的基于在线学习的策略获取方法，并且具有相应的方法实施例的有益效果，在此不再赘述。

基于同一发明构思，与上述任意实施例方法相对应的，本申请还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上任意一实施例所述的基于在线学习的策略获取方法。

图13示出了本实施例所提供的一种更为具体的电子设备硬件结构示意图，该设备可以包括：处理器1010、存储器1020、输入/输出接口1030、通信接口1040和总线 1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。

处理器1010可以采用通用的CPU（Central Processing Unit，中央处理器）、微处理器、应用专用集成电路（Application Specific Integrated Circuit，ASIC）、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本说明书实施例所提供的技术方案。

存储器1020可以采用ROM（Read Only Memory，只读存储器）、RAM（Random AccessMemory，随机存取存储器）、静态存储设备，动态存储设备等形式实现。存储器1020可以存储操作系统和其他应用程序，在通过软件或者固件来实现本说明书实施例所提供的技术方案时，相关的程序代码保存在存储器1020中，并由处理器1010来调用执行。

输入/输出接口1030用于连接输入/输出模块，以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中（图中未示出），也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等，输出设备可以包括显示器、扬声器、振动器、指示灯等。

通信接口1040用于连接通信模块（图中未示出），以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式（例如USB、网线等）实现通信，也可以通过无线方式（例如移动网络、WIFI、蓝牙等）实现通信。

总线1050包括一通路，在设备的各个组件（例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040）之间传输信息。

需要说明的是，尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050，但是在具体实施过程中，该设备还可以包括实现正常运行所必需的其他组件。此外，本领域的技术人员可以理解的是，上述设备中也可以仅包含实现本说明书实施例方案所必需的组件，而不必包含图中所示的全部组件。

上述实施例的电子设备用于实现前述任一实施例中相应的基于在线学习的策略获取方法，并且具有相应的方法实施例的有益效果，在此不再赘述。

基于同一发明构思，与上述任意实施例方法相对应的，本申请还提供了一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令用于使所述计算机执行如上任一实施例所述的基于在线学习的策略获取方法。

本实施例的计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存（PRAM）、静态随机存取存储器（SRAM）、动态随机存取存储器（DRAM）、其他类型的随机存取存储器（RAM）、只读存储器（ROM）、电可擦除可编程只读存储器（EEPROM）、快闪记忆体或其他内存技术、只读光盘只读存储器（CD-ROM）、数字多功能光盘（DVD）或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。

上述实施例的存储介质存储的计算机指令用于使所述计算机执行如上任一实施例所述的基于在线学习的策略获取方法，并且具有相应的方法实施例的有益效果，在此不再赘述。

需要说明的是，本申请的实施例还可以以下方式进一步描述：

一种基于在线学习的策略获取方法，包括：

可选的，其中，所述获取并识别目标对手策略，并从智能体策略库中选取针对所述目标对手策略的智能体策略，包括：

利用对手策略库构建对手模型，融合所述对手模型到贝叶斯策略重用模型，得到融合后贝叶斯策略重用模型；

利用所述融合后贝叶斯策略重用模型识别所述目标对手策略，并从所述智能体策略库中获取针对所述目标对手策略的所述智能体策略。

可选的，还包括：

获取预设时间段内的对手行为数据；

基于所述预设时间段生成时间序列，基于所述对手行为数据生成与所述时间序列对应的行为序列；

利用最大化生成所述行为序列的对数概率，利用所述对数概率更新所述对手模型。

可选的，其中，在所述从所述智能体策略库中获取针对所述目标对手策略的所述智能体策略之后，还包括：

根据所述目标对手策略和所述智能体策略得到智能体第一信念；

通过所述对手模型得到智能体第二信念；

根据所述智能体第一信念和所述智能体第二信念得到智能体综合信念；

其中，所述智能体综合信念用于下一次从所述智能体策略库中获取针对所述目标对手策略的所述智能体策略。

可选的，其中，所述根据所述智能体策略确定所述目标对手策略是已知对手策略的概率，并将所述概率加入概率队列，包括：

利用所述智能体策略库和所述对手策略库构建性能模型；

利用所述性能模型根据所述目标对手策略和所述智能体策略确定所述目标对手策略是已知对手策略的概率。

可选的，其中，所述在线学习模型中包含Option学习网络、近端策略优化网络和Option集合；所述Option学习网络中包含Inter-option网络和Termination网络；所述近端策略优化网络中包含Actor网络和Critic网络；所述Option集合中包含多个Option，其中每个所述Option中包含Intra-option策略和结束概率；

所述响应于确定所述概率队列中所有所述概率的和小于和阈值，基于所述智能体策略库和预先构建的在线学习模型获得针对所述目标对手策略的新智能体策略，包括：

循环执行以下操作，直到从环境中获取的奖励超过奖励阈值，将超过所述奖励阈值的所述奖励对应的当前智能体策略作为所述新智能体策略：

从所述环境中获取状态参数，并将所述状态参数输入所述Option学习网络和所述近端策略优化网络；

利用所述Option学习网络根据所述状态参数从所述Option集合中选择所述Option，并将所述Option中的所述Intra-option策略和所述结束概率发送至所述近端策略优化网络；

利用所述近端策略优化网络根据所述状态参数获得所述当前智能体策略；

根据所述当前智能体策略选择动作并执行，从所述环境中获取所述奖励；

更新所述Option学习网络和所述近端策略优化网络。

可选的，其中，将所述智能体策略库中的所有所述智能体策略分别建模为所述Intra-option策略，并根据所述Intra-option策略构建所述Option。

可选的，其中，所述更新所述Option学习网络和所述近端策略优化网络，包括：

将所述Intra-option策略作为更新所述近端策略优化网络中的所述Actor网络的目标函数的一部分；

在所述从所述环境中获取所述奖励之后，获取下一状态参数，并将所述状态参数、所述动作、所述奖励、所述下一状态参数和所述Option作为一组经验用于作为更新所述Option学习网络中的所述Inter-option网络的损失函数的一部分。

一种基于在线学习的策略获取装置，包括：

一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上所述的方法。

所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本申请的范围（包括权利要求）被限于这些例子；在本申请的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，步骤可以以任意顺序实现，并存在如上所述的本申请实施例的不同方面的许多其它变化，为了简明它们没有在细节中提供。

另外，为简化说明和讨论，并且为了不会使本申请实施例难以理解，在所提供的附图中可以示出或可以不示出与集成电路（IC）芯片和其它部件的公知的电源/接地连接。此外，可以以框图的形式示出装置，以便避免使本申请实施例难以理解，并且这也考虑了以下事实，即关于这些框图装置的实施方式的细节是高度取决于将要实施本申请实施例的平台的（即，这些细节应当完全处于本领域技术人员的理解范围内）。在阐述了具体细节（例如，电路）以描述本申请的示例性实施例的情况下，对本领域技术人员来说显而易见的是，可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本申请实施例。因此，这些描述应被认为是说明性的而不是限制性的。

尽管已经结合了本申请的具体实施例对本申请进行了描述，但是根据前面的描述，这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如，其它存储器架构（例如，动态RAM（DRAM））可以使用所讨论的实施例。

本申请实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此，凡在本申请实施例的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种基于在线学习的策略获取方法，包括：

2.根据权利要求1所述的方法，其中，所述获取并识别目标对手策略，并从智能体策略库中选取针对所述目标对手策略的智能体策略，包括：

3.根据权利要求2所述的方法，还包括：

获取预设时间段内的对手行为数据；

4.根据权利要求2所述的方法，其中，在所述从所述智能体策略库中获取针对所述目标对手策略的所述智能体策略之后，还包括：

通过所述对手模型得到智能体第二信念；

5.根据权利要求2所述的方法，其中，所述根据所述智能体策略确定所述目标对手策略是已知对手策略的概率，并将所述概率加入概率队列，包括：

利用所述智能体策略库和所述对手策略库构建性能模型；

6.根据权利要求1所述的方法，其中，所述在线学习模型中包含Option学习网络、近端策略优化网络和Option集合；所述Option学习网络中包含Inter-option网络和Termination网络；所述近端策略优化网络中包含Actor网络和Critic网络；所述Option集合中包含多个Option，其中每个所述Option中包含Intra-option策略和结束概率；

更新所述Option学习网络和所述近端策略优化网络。

7.根据权利要求6所述的方法，其中，将所述智能体策略库中的所有所述智能体策略分别建模为所述Intra-option策略，并根据所述Intra-option策略构建所述Option。

8.根据权利要求6所述的方法，其中，所述更新所述Option学习网络和所述近端策略优化网络，包括：

9.一种基于在线学习的策略获取装置，包括：

10.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如权利要求1至8任意一项所述的方法。