CN114139653A

CN114139653A - 基于对手动作预测的智能体策略获取方法及相关装置

Info

Publication number: CN114139653A
Application number: CN202111537235.0A
Authority: CN
Inventors: 黄健; 韩润海; 陈浩; 刘权; 李嘉祥; 付可
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2021-12-15
Filing date: 2021-12-15
Publication date: 2022-03-04

Abstract

本申请提供一种基于对手动作预测的智能体策略获取方法及相关装置，从智能体所处的环境中获取环境状态，并提取环境状态的特征，得到环境状态特征；将环境状态特征输入预先构建的对手动作预测网络，得到对手策略特征；提取环境状态特征的隐层特征，得到Q值隐层特征；融合Q值隐层特征和对手策略特征，得到融合特征；将融合特征输入预先构建的竞争网络，得到Q值函数；获取智能体的备选动作，根据Q值函数，得到备选动作对应于环境状态的Q值，将Q值最大的备选动作作为智能体的执行动作。本申请能够有效预测对手动作，加快学习收敛速度，可以应对多种类型的对手。

Description

基于对手动作预测的智能体策略获取方法及相关装置

技术领域

本申请涉及人工智能技术领域，尤其涉及一种基于对手动作预测的智能体策略获取方法及相关装置。

背景技术

随着人工智能技术的发展，多智能体强化学习技术在机器博弈、实时策略游戏、机器人控制、汽车自动驾驶等领域得到了应用。多智能体强化学习任务中，通常包括一个共享的对抗环境和多个智能体，每个智能体与环境本身以及其他智能体进行交互。每个时刻，智能体根据自身状态，依据特定的策略从动作空间中选择动作并执行，对环境产生作用进而得到奖励或惩罚，直到时间终止或任务完成。

与单智能体强化学习的设定不同，多智能体强化学习中存在典型的“非平稳性”(Non-stationarity)问题，马尔可夫决策过程不再适用。这是因为在多智能体环境中，智能体的策略不仅取决于环境，还受到其他智能体动作的影响。而且，随着每个智能体策略学习的进行，它们的决策模型是随时间变化的(不平稳的)，因此智能体学习环境的动力学模型(奖励函数和状态转移概率)不再满足马尔可夫性，使得学习变得更加困难。

发明内容

有鉴于此，本申请的目的在于提出一种基于对手动作预测的智能体策略获取方法及相关装置。

基于上述目的，本申请提供了一种基于对手动作预测的智能体策略获取方法，包括：

从所述智能体所处的环境中获取环境状态，并提取所述环境状态的特征，得到环境状态特征；

将所述环境状态特征输入预先构建的对手动作预测网络，得到对手策略特征；

提取所述环境状态特征的隐层特征，得到Q值隐层特征；

融合所述Q值隐层特征和所述对手策略特征，得到融合特征；

将所述融合特征输入预先构建的竞争网络，得到Q值函数；

获取所述智能体的备选动作，根据所述Q值函数，得到所述备选动作对应于所述环境状态的Q值，将所述Q值最大的所述备选动作作为所述智能体的执行动作。

可选的，所述对手动作预测网络中包含全连接隐层；

所述将所述环境状态特征输入预先构建的对手动作预测网络，得到对手策略特征，具体包括：

将所述环境状态特征输入所述全连接隐层，得到全连接隐层特征，将所述全连接隐层特征作为所述对手策略特征。

可选的，所述对手动作预测网络中还包含动作表示层；

所述方法，还包括：

将所述全连接隐层特征输入所述动作表示层，得到预测的对手策略分布；

从所述环境中获取真实的对手策略分布；

基于所述预测的对手策略分布和所述真实的对手策略分布，利用预设的对手动作预测网络的损失函数调整所述全连接隐层的参数。

可选的，所述将所述全连接隐层特征输入所述动作表示层，得到预测的对手策略分布，具体包括：

响应于确定对手动作空间为离散空间，所述动作表示层输出每个动作的概率分布，作为所述预测的对手策略分布；

响应于确定所述对手动作空间为连续空间，利用高斯分布表示所述预测的对手策略分布，所述动作表示层输出所述预测的对手策略分布的均值和方差。

可选的，所述融合所述Q值隐层特征和所述对手策略特征，得到融合特征，具体包括：

串联拼接所述Q值隐层特征和所述对手策略特征，得到所述融合特征。

可选的，所述将所述融合特征输入预先构建的竞争网络，得到Q值函数，具体包括：

将所述融合特征输入预先构建的竞争网络，得到状态价值函数和动作优势函数；

聚合所述状态价值函数和所述动作优势函数，得到所述Q值函数。

可选的，所述获取所述智能体的备选动作，根据所述Q值函数，得到所述备选动作对应于所述环境状态的Q值，将所述Q值最大的所述备选动作作为所述智能体的执行动作，具体包括：

将所述Q值最大的所述备选动作输入预先构建的目标网络，得到目标Q值；

基于所述目标Q值和最大的所述Q值，利用预设的竞争网络的损失函数调整所述竞争网络的参数。

基于同一发明构思，本申请提供了一种基于对手动作预测的智能体策略获取装置，包括：

环境状态特征获取模块，用于从所述智能体所处的环境中获取环境状态，并提取所述环境状态的特征，得到环境状态特征；

对手策略特征获取模块，用于将所述环境状态特征输入预先构建的对手动作预测网络，得到对手策略特征；

Q值隐层特征获取模块，用于提取所述环境状态特征的隐层特征，得到Q值隐层特征；

融合特征获取模块，用于融合所述Q值隐层特征和所述对手策略特征，得到融合特征；

Q值函数获取模块，用于将所述融合特征输入预先构建的竞争网络，得到Q值函数；

执行动作确定模块，用于获取所述智能体的备选动作，根据所述Q值函数，得到所述备选动作对应于所述环境状态的Q值，将Q值最大的所述备选动作作为所述智能体的执行动作。

基于同一发明构思，本申请提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上所述的方法。

基于同一发明构思，本申请提供了一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令用于使计算机执行上述方法。

从上面所述可以看出，本申请提供的基于对手动作预测的智能体策略获取方法及相关装置，从智能体所处的环境中获取环境状态，并提取环境状态的特征，得到环境状态特征；将环境状态特征输入预先构建的对手动作预测网络，得到对手策略特征；提取环境状态特征的隐层特征，得到Q值隐层特征；融合Q值隐层特征和对手策略特征，得到融合特征；将融合特征输入预先构建的竞争网络，得到Q值函数；获取智能体的备选动作，根据Q值函数，得到备选动作对应于环境状态的Q值，将Q值最大的备选动作作为智能体的执行动作。本申请能够有效预测对手动作，加快学习收敛速度，可以应对多种类型的对手。

附图说明

为了更清楚地说明本申请或相关技术中的技术方案，下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的基于对手动作预测的智能体策略获取方法的流程示意图；

图2为根据本申请实施例提供的基于对手动作预测的智能体策略获取方法的数据流的示意图；

图3为根据本申请实施例提供的实验环境的示意图；

图4为根据本申请实施例提供的对手决策树的示意图；

图5为本申请实施例提供的策略预测准确率曲线的示意图；

图6为本申请实施例提供的损失函数曲线的示意图；

图7为本申请实施例提供的策略学习曲线对比的示意图；

图8为本申请实施例提供的基于对手动作预测的智能体策略获取装置的结构示意图；

图9本申请实施例提供的一种更为具体的电子设备硬件结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本申请进一步详细说明。

需要说明的是，除非另外定义，本申请实施例使用的技术术语或者科学术语应当为本申请所属领域内具有一般技能的人士所理解的通常意义。本申请实施例中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同，而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电性的连接，不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系，当被描述对象的绝对位置改变后，则该相对位置关系也可能相应地改变。

如背景技术部分所述，多智能体强化学习中存在典型的“非平稳性”(Non-stationarity)问题。

本申请缓解多智能体学习中“非平稳性”问题的发明思路在于对手建模，即对环境中对手的行为信息进行建模和预测，智能体决策时再加以利用以做出更具有前瞻性的决策。

相关技术中，对对手建模的方法主要有两种，一种是信念-愿望-意图(Belief-Desire-Intention，BDI)模型，其本质是传统符号主义人工智能学派的逻辑推演方法，该方法解释性强，但建模困难，只能解决单一领域内的问题。另一种是基于动态影响图的方法，其本质是概率图模型中的贝叶斯网络，建模时需要较强的领域内先验知识，而且学习后验概率时计算复杂。

有鉴于此，本申请提出一种基于对手动作预测的智能体策略获取方法及相关装置。

本申请实施例提供的基于对手动作预测的智能体策略获取方法及相关装置，可以应用在机器博弈、实时策略游戏、机器人控制、汽车自动驾驶等领域。

参考图1，其为本申请实施例提供的基于对手动作预测的智能体策略获取方法的一种流程示意图。

基于对手动作预测的智能体策略获取方法，执行主体为智能体。

智能体(Agent)是人工智能领域中的一个概念，指能自主活动的软件或者硬件实体。智能体是驻留于环境中的实体，它可以解释从环境中获得的反映环境中所发生事件的数据，并执行对环境产生影响的行动。如上所述，智能体感测环境并且执行相应的动作，其中，智能体策略指的是智能体从动作空间中选择动作并执行。

基于对手动作预测的智能体策略获取方法，包括：

S110、从智能体所处的环境中获取环境状态，并提取环境状态的特征，得到环境状态特征。

其中，环境状态指的是反映环境中所发生事件的数据。

在一些实施例中，从环境中获取环境状态，并对环境状态进行特征编码提取环境状态的特征，得到环境状态特征h^t。h^t表征了环境状态的浅层次的特征，其作为后续步骤的输入，后续步骤将对其进行更有针对性的、更深入的提取。

在一些实施例中，通过递归神经网络、卷积神经网络和全连接神经网络中的至少一种对环境状态进行特征编码提取环境状态的特征。其中，递归神经网络用于处理时间(序列)类数据；卷积神经网络用于处理空间(图像)类数据；全连接神经网络用于处理统计类数据。基于此，可以处理不同数据类型的环境状态。

S120、将环境状态特征输入预先构建的对手动作预测网络，得到对手策略特征。

其中，对手动作预测网络中包含全连接隐层；将环境状态特征输入预先构建的对手动作预测网络，得到对手策略特征，具体包括：

将环境状态特征输入全连接隐层，得到全连接隐层特征，将全连接隐层特征作为对手策略特征。

在一些实施例中，环境状态特征h^t经过全连接隐层得到全连接隐层特征h^PI，将全连接隐层特征h^PI作为对手策略特征。

需要说明的是，环境状态特征h^t是对手动作预测网络的中间产物而不是输出，因此，实质上是对对手的隐式建模。对手动作预测网络的输出，用于学习对手的策略分布，以更新对手动作预测网络。

在一些实施例中，对手动作预测网络中还包含动作表示层；

所述方法，还包括：

将全连接隐层特征输入动作表示层，得到预测的对手策略分布；

从环境中获取真实的对手策略分布；

基于预测的对手策略分布和真实的对手策略分布，利用预设的对手动作预测网络的损失函数调整全连接隐层的参数。

在一些实施例中，全连接隐层特征h^PI经过动作表示层，得到预测的对手策略分布π_oppo。

构建对手动作预测网络的损失函数，用于学习对手的策略分布。对手动作预测网络的损失函数通过预测的对手策略分布和真实的对手策略分布的交叉熵构建。

预设的对手动作预测网络的损失函数为：

其中，L^PI(θ)表示对手动作预测网络的损失函数；D_cross _entropy表示交叉熵函数；π_oppo*表示真实的对手策略分布；π_oppo(θ)表示预测的对手策略分布；s表示环境状态；a表示对手动作。

在一些实施例中，真实的对手策略分布通过获取环境中对手一系列时间步的行为动作得到。

在一些实施例中，用独热编码(One-Hot Encoding)表示真实的对手策略分布。

对于不同的对手动作空间，预测的对手策略分布的表示方式不同。

在一些实施例中，将全连接隐层特征输入动作表示层，得到预测的对手策略分布，具体包括：

响应于确定对手动作空间为离散空间，动作表示层输出每个动作的概率分布，作为预测的对手策略分布；

响应于确定对手动作空间为连续空间，利用高斯分布表示预测的对手策略分布，动作表示层输出预测的对手策略分布的均值和方差。

在一些实施例中，对手动作空间为离散空间。

动作表示层为Softmax层，动作表示层输出每个动作的概率分布，即预测的对手策略分布π_oppo(a|s；θ)。

其中，

其中，s表示环境状态；θ表示环境状态和对手动作之间的映射；a表示对手动作。

在一些实施例中，对手动作空间为连续空间。

利用高斯分布表示预测的对手策略分布π_oppo(a|s；μ_α,σ_β)，动作表示层输出预测的对手策略分布π_oppo(a|s；μ_α,σ_β)的均值μ_α和方差σ_β。

其中，

其中，s表示环境状态；μ_α和σ_β分别表示对手动作的均值和方差；a表示对手动作。

S130、提取环境状态特征的隐层特征，得到Q值隐层特征。

作为一个示例，用h^Q表示Q值隐层特征。

S140、提取环境状态特征的隐层特征，得到Q值隐层特征。

可选的，融合Q值隐层特征和对手策略特征，得到融合特征，具体包括：

串联拼接Q值隐层特征和对手策略特征，得到融合特征。

在一些实施例中，特征融合方法，包括：

串联拼接对手策略特征h^PI和Q值隐层特征h^Q，得到融合特征h^C。融合特征h^C保留了原有特征的全部信息。

在一些实施例中，特征融合方法，还包括：

对对手策略特征h^PI和Q值隐层特征h^Q做点乘运算，得到融合特征h^C。其中，需要统一对手策略特征h^PI和Q值隐层特征h^Q的维度，但是，这种方法可能会损失特征信息。

S150、将融合特征输入预先构建的竞争网络，得到Q值函数。

在一些实施例中，将融合特征输入预先构建的竞争网络，得到Q值函数，具体包括：

将融合特征输入预先构建的竞争网络，得到状态价值函数和动作优势函数；

聚合状态价值函数和动作优势函数，得到Q值函数。

其中，状态价值函数表示静态的环境状态本身具有的价值；

动作优势函数表示选择某个动作所带来的额外价值，输出一个维度大小为|A|的向量；

将状态价值函数网络的输出和优势函数网络的输出线性聚合得到每个动作的Q值。

用Adv(s,a)表示动作优势函数，V(s)表示状态价值函数，Q(s,a)表示Q值函数。

其中，

S160、获取智能体的备选动作，根据Q值函数，得到备选动作对应于环境状态的Q值，将Q值最大的备选动作作为智能体的执行动作。

可选的，获取智能体的备选动作，根据Q值函数，得到备选动作对应于环境状态的Q值，将Q值最大的备选动作作为智能体的执行动作，具体包括：

将Q值最大的备选动作输入预先构建的目标网络，得到目标Q值；

基于目标Q值和最大的Q值，利用预设的竞争网络的损失函数调整竞争网络的参数。

更新价值网络Q时，首先通过目标网络Q’输出最大Q值所对应的动作，然后将其输入到价值网络Q中以产生目标值y’，从而消除Q值的过估计，y’表示为：

其中，θ和θ’分别是价值网络Q和目标网络Q’的参数。

则，预设的竞争网络的损失函数为：

其中，L^Q(θ)表示竞争网络的损失函数，θ表示价值网络的参数。

在不同的学习阶段，网络参数更新的侧重点不同。参数更新时，只有首先获得较为准确的对手策略特征h^PI，融合了对手策略特征h^PI的Q值学习才能拟合得到最优的Q值函数。因此，本申请提供学习自适应调节机制，通过比例因子里面λ对损失项L^Q进行放缩，调节不同阶段整个损失函数的大小，平衡智能体学习过程中对对手模型的“探索和利用”。

其中，预设的损失函数为：

其中，L表示的损失函数；L^PI(θ)表示对手动作预测网络的损失函数，L^Q表示竞争网络的损失函数；λ表示比例因子。

网络训练的初始阶段，相对于Q值学习的损失项L^Q而言，对手策略特征学习的损失项L^PI较大，通过比例因子λ的调节，使得网络更集中于策略特征h^PI的训练。而随着训练的进行，L^PI逐渐变小，L^Q开始发挥主要作用，使得网络的注意力集中到Q值学习上。学习自适应调节机制的作用在于，使智能体充分掌握对手的行为信息，并利用其辅助决策。

参考图2，其为本申请实施例提供的基于对手动作预测的智能体策略获取方法的数据流示意图。

从智能体所处的环境中获取环境状态s；

将环境状态s输入递归神经网络、卷积神经网络和全连接神经网络中的至少一种，对环境状态进行特征编码以提取环境状态的特征，得到环境状态特征h^t；

将环境状态特征h^t分别输入两个全连接隐层；

一个全连接隐层对环境状态特征h^t进行特征提取，得到对手策略特征h^PI；

将对手策略特征h^PI输入动作表示层，得到对手策略；

另一个全连接隐层对环境状态特征h^t进行特征提取，得到Q值隐层特征h^Q；

融合Q值隐层特征h^Q和对手策略特征h^PI，得到融合特征h^C；

将融合特征h^C输入预先构建的竞争网络Dueling，得到Q值函数Q(s,a)。

为了进一步说明本申请提供的基于对手动作预测的智能体策略获取方法(Dueling Double Deep Q Network-Opponent Action Prediction，D3QN-OAP)的有效性，本申请还提供了如下仿真实验：

环境描述：

1v1足球环境构成如图3所示。足球场环境由11*9的网格球场、分别属于两方阵营的球员以及足球组成。环境中存在红蓝两个阵营，每个阵营各有一个球员，球员用方块表示，左侧方块表示红方球员，右侧方块表示蓝方球员，用圆形表示足球。中间浅色区域为球场草坪(球坪)，球坪内球员可以“自由”地活动，球坪左侧为红方半场，右侧为蓝方半场；边缘深色区域为球坪边界，球员不可进入；两侧区域为球门，相应地，左侧为红方球门，右侧为蓝方球门。

初始时，环境中每个阵营中球员的位置随机放置于己方半场，而足球位于某一方阵营的球员手中。球员的任务为成功控球并且将球运到对方球门即进球，便得到奖励100，对方阵营的球员则相应得到惩罚-100。一旦某一阵营进球则一个回合结束。如果在固定步数内没有任何阵营完成进球任务，则同样地一个回合结束，环境不给予任何奖励和惩罚。

在每个时刻，每个球员可以选择向上、下、左、右四个方向移动一格或者保持静止共五个动作。如果某个球员预期到达的位置为球坪边界，则该动作不会生效，球员位置保持不变；如果预期位置已被其他球员占据，球员位置也不会变化且会触发碰撞传球现象。所谓碰撞传球，就是原本持有球的球员“被动”传球给与之发生碰撞的球员。

实验设定：

实验时，1v1足球场景中红方阵营球员为强化学习智能体，采用本申请提出的D3QN-OAP进行学习和决策。D3QN-OAP训练时采用的超参数如表1所示。此外，设定1v1足球环境的状态包含三部分信息，分别是我方智能体、对手以及足球在球坪中的位置编码。设置环境一局回合最大步长为20，提高环境难度以凸显本申请的性能。

表1 D3QN-OAP采用的超参数列表

蓝方阵营中的球员智能体采用规则Rule策略进行决策，Rule策略主要决策思想为：球员控球时，则伺机突围进球并防守敌方抢球；不控球时，若占有优势(离己方球门相对更近)则伺机抢球，若不占有优势，便防守己方球门防止敌方进球，Rule策略决策树如图4所示。

结果分析：

(1)对手动作预测有效性验证

在本申请所提出的D3QN-OAP中，对手策略特征学习模块是后续对手策略特征融合到Q值学习模块的基础，在验证本申请所提出方法的有效性和对抗性能之前，首先验证对手动作预测的有效性和准确性。

模型训练过程中得到了对手动作预测OAP网络的预测准确率OAPAcc和损失函数OAPLoss，其变化曲线分别如图5、6所示(其中episode表示进程)。可以看出随着训练的进行，预测准确率从0逐渐上升至95％保持稳定，而动作预测损失从1.6逐渐下降到0.1左右保持稳定，说明此时智能体已经掌握对手的行为信息。

(2)学习性能对比

比较了DQN、D3QN和D3QN-OAP三种不同强化学习智能体模型的学习性能。实验过程中发现，随机数对方法的学习性能表现影响巨大，同一套超参数在不同的随机数种子下差异较大，为了降低随机数种子的影响，最大程度的保证每种方法的真实性能和实验公平性，模型训练过程中，不设置随机数种子，且每种方法固定一套超参数，随机训练30组模型，绘制学习曲线。评估方法的学习性能时，每组模型分别与设定的对手策略对抗1000次再取均值来对比方法性能。

图7是三种方法在训练阶段的收敛曲线对比，可以看出D3QN-OAP的收敛速度比D3QN和DQN快很多，特别是在训练的中前期(500-1500步)，D3QN-OAP所获得的奖励显著占优，说明相对于另外两种方法，采用对手动作预测的D3QN-OAP能够在环境中更早地学到应对敌方的反制策略和为己方进带球射门的进攻策略。

测试阶段比较了三种强化学习智能体与三种采用固定策略对手的对抗结果。对手球员的策略分别为固定进球路线Normal策略、随机动作Random策略以及图5所示的手工规则Rule策略。方法评估时，学习智能体与对手智能体两两对抗，每个场次对抗1000次，所关注的对抗指标主要为智能体获得的环境奖励、平均对抗步长以及对抗胜率，每个场次对抗结果的均值分别如表2、3、4所示，其中最好的性能表现加粗标记。

表2方法评估时环境奖励对比结果

表3方法评估时平均对抗步数对比结果

表4方法评估时对抗胜率对比结果

由对抗结果可知，无论对抗那种对手模型，D3QN-OAP总是优于D3QN和DQN。D3QN-OAP获得了相对最多的环境奖励，对抗胜率也最高，同时D3QN-OAP的平均进球步长小于D3QN和DQN，能更早的结束比赛。综上，本申请所提出的D3QN-OAP由于有效预测了对手的下一步动作，得到了对手隐藏的动作行为信息，因此，本申请提供的方法在训练时能够更快的收敛，评估时在对抗指标上也都取得了相对较高的结果。

需要说明的是，本申请实施例的方法可以由单个设备执行，例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下，由多台设备相互配合来完成。在这种分布式场景的情况下，这多台设备中的一台设备可以只执行本申请实施例的方法中的某一个或多个步骤，这多台设备相互之间会进行交互以完成所述的方法。

需要说明的是，上述对本申请的一些实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于上述实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

基于同一发明构思，与上述任意实施例方法相对应的，本申请还提供了一种基于对手动作预测的智能体策略获取装置。

参考图8，所述基于对手动作预测的智能体策略获取装置，包括：

环境状态特征获取模块，用于从智能体所处的环境中获取环境状态，并提取环境状态的特征，得到环境状态特征；

对手策略特征获取模块，用于将环境状态特征输入预先构建的对手动作预测网络，得到对手策略特征；

Q值隐层特征获取模块，用于提取环境状态特征的隐层特征，得到Q值隐层特征；

融合特征获取模块，用于融合Q值隐层特征和对手策略特征，得到融合特征；

Q值函数获取模块，用于将融合特征输入预先构建的竞争网络，得到Q值函数；

执行动作确定模块，用于获取智能体的备选动作，根据Q值函数，得到备选动作对应于环境状态的Q值，将Q值最大的备选动作作为智能体的执行动作。

为了描述的方便，描述以上装置时以功能分为各种模块分别描述。当然，在实施本申请时可以把各模块的功能在同一个或多个软件和/或硬件中实现。

上述实施例的装置用于实现前述任一实施例中相应的基于对手动作预测的智能体策略获取方法，并且具有相应的方法实施例的有益效果，在此不再赘述。

基于同一发明构思，与上述任意实施例方法相对应的，本申请还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上任意一实施例所述的基于对手动作预测的智能体策略获取方法。

图9示出了本实施例所提供的一种更为具体的电子设备硬件结构示意图，该设备可以包括：处理器1010、存储器1020、输入/输出接口1030、通信接口1040和总线1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。

处理器1010可以采用通用的CPU(Central Processing Unit，中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本说明书实施例所提供的技术方案。

存储器1020可以采用ROM(Read Only Memory，只读存储器)、RAM(Random AccessMemory，随机存取存储器)、静态存储设备，动态存储设备等形式实现。存储器1020可以存储操作系统和其他应用程序，在通过软件或者固件来实现本说明书实施例所提供的技术方案时，相关的程序代码保存在存储器1020中，并由处理器1010来调用执行。

输入/输出接口1030用于连接输入/输出模块，以实现信息输入及输出。输入/输出模块可以作为组件配置在设备中(图中未示出)，也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等，输出设备可以包括显示器、扬声器、振动器、指示灯等。

通信接口1040用于连接通信模块(图中未示出)，以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。

总线1050包括一通路，在设备的各个组件(例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040)之间传输信息。

需要说明的是，尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050，但是在具体实施过程中，该设备还可以包括实现正常运行所必需的其他组件。此外，本领域的技术人员可以理解的是，上述设备中也可以仅包含实现本说明书实施例方案所必需的组件，而不必包含图中所示的全部组件。

上述实施例的电子设备用于实现前述任一实施例中相应的基于对手动作预测的智能体策略获取方法，并且具有相应的方法实施例的有益效果，在此不再赘述。

基于同一发明构思，与上述任意实施例方法相对应的，本申请还提供了一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令用于使所述计算机执行如上任一实施例所述的基于对手动作预测的智能体策略获取方法。

本实施例的计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。

上述实施例的存储介质存储的计算机指令用于使所述计算机执行如上任一实施例所述的基于对手动作预测的智能体策略获取方法，并且具有相应的方法实施例的有益效果，在此不再赘述。

所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本申请的范围(包括权利要求)被限于这些例子；在本申请的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，步骤可以以任意顺序实现，并存在如上所述的本申请实施例的不同方面的许多其它变化，为了简明它们没有在细节中提供。

另外，为简化说明和讨论，并且为了不会使本申请实施例难以理解，在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源/接地连接。此外，可以以框图的形式示出装置，以便避免使本申请实施例难以理解，并且这也考虑了以下事实，即关于这些框图装置的实施方式的细节是高度取决于将要实施本申请实施例的平台的(即，这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如，电路)以描述本申请的示例性实施例的情况下，对本领域技术人员来说显而易见的是，可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本申请实施例。因此，这些描述应被认为是说明性的而不是限制性的。

尽管已经结合了本申请的具体实施例对本申请进行了描述，但是根据前面的描述，这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如，其它存储器架构(例如，动态RAM(DRAM))可以使用所讨论的实施例。

本申请实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此，凡在本申请实施例的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种基于对手动作预测的智能体策略获取方法，其特征在于，包括：

提取所述环境状态特征的隐层特征，得到Q值隐层特征；

融合所述Q值隐层特征和所述对手策略特征，得到融合特征；

将所述融合特征输入预先构建的竞争网络，得到Q值函数；

2.根据权利要求1所述的方法，其特征在于，所述对手动作预测网络中包含全连接隐层；

3.根据权利要求2所述的方法，其特征在于，所述对手动作预测网络中还包含动作表示层；

所述方法，还包括：

从所述环境中获取真实的对手策略分布；

4.根据权利要求3所述的方法，其特征在于，所述将所述全连接隐层特征输入所述动作表示层，得到预测的对手策略分布，具体包括：

5.根据权利要求1所述的方法，其特征在于，所述融合所述Q值隐层特征和所述对手策略特征，得到融合特征，具体包括：

6.根据权利要求1所述的方法，其特征在于，所述将所述融合特征输入预先构建的竞争网络，得到Q值函数，具体包括：

7.根据权利要求1所述的方法，其特征在于，所述获取所述智能体的备选动作，根据所述Q值函数，得到所述备选动作对应于所述环境状态的Q值，将所述Q值最大的所述备选动作作为所述智能体的执行动作，具体包括：

8.一种基于对手动作预测的智能体策略获取装置，其特征在于，包括：

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任意一项所述的方法。

10.一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，其特征在于，所述计算机指令用于使计算机执行权利要求1至7任一所述方法。