CN113599832B - 基于环境模型的对手建模方法、装置、设备及存储介质 - Google Patents

基于环境模型的对手建模方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN113599832B
CN113599832B CN202110818583.9A CN202110818583A CN113599832B CN 113599832 B CN113599832 B CN 113599832B CN 202110818583 A CN202110818583 A CN 202110818583A CN 113599832 B CN113599832 B CN 113599832B
Authority
CN
China
Prior art keywords
opponent
imagination
strategy
layer
adversary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110818583.9A
Other languages
English (en)
Other versions
CN113599832A (zh
Inventor
卢宗青
于晓彭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University
Original Assignee
Peking University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University filed Critical Peking University
Priority to CN202110818583.9A priority Critical patent/CN113599832B/zh
Publication of CN113599832A publication Critical patent/CN113599832A/zh
Application granted granted Critical
Publication of CN113599832B publication Critical patent/CN113599832B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/60Generating or modifying game content before or while executing the game program, e.g. authoring tools specially adapted for game development or game-integrated level editor
    • A63F13/67Generating or modifying game content before or while executing the game program, e.g. authoring tools specially adapted for game development or game-integrated level editor adaptively or by learning from player actions, e.g. skill level adjustment or by storing successful combat sequences for re-use
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F2300/00Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game
    • A63F2300/60Methods for processing data by generating or executing the game program
    • A63F2300/6027Methods for processing data by generating or executing the game program using adaptive systems learning from user actions, e.g. for skill level adjustment
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Mathematics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Algebra (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于环境模型的对手建模方法、装置、设备及存储介质,方法包括:智能体根据对手的动作以及决策过程的状态得到第一层想象对手策略;在预设的环境模型中利用仿真轨迹算法计算第一层的对手最佳动作,根据所述对手最佳动作调整所述第一层想象对手策略,得到调整后的第一层想象对手策略;重复执行上述步骤,直到得到调整后的多层想象对手策略;更新想象对手策略权重,根据所述想象对手策略权重以及调整后的多层想象对手策略,得到对手混合策略,将所述对手混合策略作为对手模型。根据本实施例提供的基于环境模型的对手建模方法,可以解决多智能体对抗中对手建模的滞后性问题,以达到对于同样有思考能力的对手进行有效建模的目的。

Description

基于环境模型的对手建模方法、装置、设备及存储介质
技术领域
本发明涉及人工智能技术领域,特别涉及一种基于环境模型的对手建模方法、装置、设备及存储介质。
背景技术
在多智能体环境中,例如网络游戏环境,一个智能体通常必须与不同的其他智能体(统称为对手)竞争或合作。在交互过程中,对手策略也在同时影响着智能体所经历的转移动态,与不同的对手相互作用使得智能体的外在环境处于非平稳状态。由于对手策略的复杂性和多样性,智能体想要在对抗中保持整体优势是非常具有挑战的。
明确地对对手的行为、目标或信念建模,而不是将它们作为环境的一部分,可以帮助智能体调整其策略以适应不同的对手。然而,对手也可能有同样的推理能力。此时,需要更高层次的推理和一些其他的对手建模技术来处理这些复杂的对手。当对手同时进行学习,对手建模过程将变得不稳定,利用历史经验拟合的对手策略模型也会产生滞后。
因此,如何解决多智能体对抗中对手建模的滞后性问题是本领域技术人员亟待解决的技术问题。
发明内容
本公开实施例提供了一种基于环境模型的对手建模方法、装置、设备及存储介质。为了对披露的实施例的一些方面有一个基本的理解,下面给出了简单的概括。该概括部分不是泛泛评述,也不是要确定关键/重要组成元素或描绘这些实施例的保护范围。其唯一目的是用简单的形式呈现一些概念,以此作为后面的详细说明的序言。
第一方面,本公开实施例提供了一种基于环境模型的对手建模方法,包括:
智能体根据对手的动作以及决策过程的状态得到第一层想象对手策略;
在预设的环境模型中利用仿真轨迹算法计算第一层的对手最佳动作,根据对手最佳动作调整第一层想象对手策略,得到调整后的第一层想象对手策略;
重复执行上述步骤,直到得到调整后的多层想象对手策略;
更新想象对手策略权重,根据想象对手策略权重以及调整后的多层想象对手策略,得到对手混合策略,将对手混合策略作为对手模型。
在一个实施例中,智能体根据对手的动作以及决策过程的状态得到第一层想象对手策略之前,还包括:
智能体使用近端策略优化算法与不同的对手进行交互,得到经验数据;
根据经验数据以及最小化均方误差训练环境模型,得到训练好的环境模型;
智能体与环境进行交互,得到对手的动作以及决策过程的状态。
在一个实施例中,根据如下公式计算第一层想象对手策略:
Figure BDA0003171052970000021
其中,s表示决策过程的状态,ao表示对手的动作,D表示经验数据库,φ0表示第一层想象对手策略。
在一个实施例中,根据如下公式计算对手最佳动作:
Figure BDA0003171052970000022
其中,
Figure BDA0003171052970000023
表示t时刻对手最佳动作,
Figure BDA0003171052970000024
表示t时刻对手动作,
Figure BDA0003171052970000025
Unif表示t+1时刻到t+k时刻中对手动作序列服从均匀分布,γ表示贴现因子,r0表示对手的环境奖励,t表示时刻,Vo表示对手的价值函数,s表示决策过程的状态。
在一个实施例中,根据对手最佳动作调整第一层想象对手策略,得到调整后的第一层想象对手策略,包括:
根据对手最佳动作以及决策过程的状态构造模拟数据;
将模拟数据代入第一层想象对手策略公式,得到调整后的第一层想象对手策略。
在一个实施例中,更新想象对手策略权重,包括:
根据归一化概率分布算法以及贝叶斯公式计算想象对手策略权重。
在一个实施例中,根据如下公式计算对手混合策略:
Figure BDA0003171052970000031
其中,πmix(·|s)表示对手混合策略,s表示决策过程的状态,M表示递归想象层数,i表示第i层递归想象,0≤i≤M-1,αi表示第i层想象对手策略的权重,φi表示第i层想象对手策略。
第二方面,本公开实施例提供了一种基于环境模型的对手建模装置,包括:
计算模块,用于智能体根据对手的动作以及决策过程的状态得到第一层想象对手策略;
调整模块,用于在预设的环境模型中利用仿真轨迹算法计算第一层的对手最佳动作,根据对手最佳动作调整第一层想象对手策略,得到调整后的第一层想象对手策略;
重复执行模块,用于重复执行上述步骤,直到得到调整后的多层想象对手策略;
混合模块,用于更新想象对手策略权重,根据想象对手策略权重以及调整后的多层想象对手策略,得到对手混合策略,将对手混合策略作为对手模型。
第三方面,本公开实施例提供了一种基于环境模型的对手建模设备,包括处理器和存储有程序指令的存储器,处理器被配置为在执行程序指令时,执行上述实施例提供的基于环境模型的对手建模方法。
第四方面,本公开实施例提供了一种计算机可读介质,其上存储有计算机可读指令,计算机可读指令可被处理器执行以实现上述实施例提供的一种基于环境模型的对手建模方法。
本公开实施例提供的技术方案可以包括以下有益效果:
本公开实施例提供的基于环境模型的对手建模方法,当一个智能体在有多个智能体的环境中进行交互时,利用环境模型来预测和捕获对手的策略改进。该方法在对手建模的同时,也考虑到了对手可能存在的推理能力,通过环境模型直接表示出对手可能的改进过程,获得更为准确的对手策略模型,解决了多智能体对抗中对手建模的滞后性问题,以达到对于同样有思考能力的对手进行有效建模的目的,进而帮助智能体策略学习。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
图1是根据一示例性实施例示出的一种基于环境模型的对手建模方法的流程示意图;
图2是根据一示例性实施例示出的一种基于环境模型的对手建模方法的示意图;
图3是根据一示例性实施例示出的一种基于环境模型的对手建模装置的结构示意图;
图4是根据一示例性实施例示出的一种基于环境模型的对手建模设备的结构示意图;
图5是根据一示例性实施例示出的一种计算机存储介质的示意图。
具体实施方式
以下描述和附图充分地示出本发明的具体实施方案,以使本领域的技术人员能够实践它们。
应当明确,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是如所附权利要求书中所详述的、本发明的一些方面相一致的系统和方法的例子。
在本发明的描述中,需要理解的是,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。此外,在本发明的描述中,除非另有说明,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
可以理解的是,智能体通过其自身具备的自治性、社会性、反应性和预动性,可以在感知环境的变化时做出相应的反馈。在智能体管理系统的控制下,若干个智能体通过相互协作可以实现更为复杂的智能。即,形成多智能体。所述多智能体通过各智能体单元的直接配合以及策略选择,在飞行器的编队、多机械臂协同装备、多机器人合作控制、交通车辆控制、博弈游戏等领域已得到广泛应用。
当一个智能体在有多个智能体的环境中进行交互时,对付各种前所未见的对手是一项挑战。针对对手的行为、目标或信念进行建模可以帮助智能体调整策略以适应不同的对手。考虑到对手也可能在同时进行学习,本实施例提出了此对手建模方法。
然而,对手也可能有同样的推理能力。此时,需要更高层次的推理和一些其他的对手建模技术来处理这些复杂的对手。当对手同时进行学习,对手建模过程将变得不稳定,利用历史经验拟合的对手策略模型也会产生滞后。
人类在了解环境的规则和机制后,通过模拟大脑中的交互作用来预测对手未来行为,这其中会产生递归推理,即推测他人认为自己在想什么,如“我猜你猜我在想什么”。受此启发本实施例提出了基于环境模型的对手建模方法,利用环境模型来预测和捕获对手的策略改进。该方法在对手建模的同时,也考虑到了对手可能存在的推理能力,通过环境模型直接表示出对手可能的改进过程,获得更为准确的对手策略模型,进而帮助智能体策略学习。
图1是根据一示例性实施例示出的一种基于环境模型的对手建模方法的流程示意图,参见图1,该方法具体包括以下步骤。
S101智能体根据对手的动作以及决策过程的状态得到第一层想象对手策略。
智能体使用近端策略优化算法与不同的对手进行交互,得到经验数据库(s、a、ao、s′、r),其中,s表示决策过程的状态,a表示智能体动作,ao表示对手动作,s′表示下一时刻决策过程的状态,r表示环境奖励。
进一步地,利用经验数据库中的数据,通过最小化均方误差训练环境模型,得到的环境模型如下所示:
Figure BDA0003171052970000061
其中,s表示决策过程的状态,a表示智能体动作,ao表示对手动作,s′表示下一时刻决策过程的状态,r表示环境奖励,D表示经验数据库。
然后根据对手的动作以及决策过程的状态数据,采用最小化最大似然估计训练第一层想象对手策略,第一层想象对手策略如下所示:
Figure BDA0003171052970000062
其中,s表示决策过程的状态,ao表示对手的动作,
Figure BDA00031710529700000612
表示经验数据库,φ0表示第一层想象对手策略。
S102在预设的环境模型中利用仿真轨迹算法计算第一层的对手最佳动作,根据对手最佳动作调整第一层想象对手策略,得到调整后的第一层想象对手策略。
想象对手的学习过程,首先使用的是仿真轨迹算法来获得对手在智能体策略下的最佳响应,对于时间步t下的每个对手行动
Figure BDA0003171052970000063
统一采样后续时刻中的对手行动序列,使用学习环境模型模拟轨迹,并选择具有最高仿真轨迹值的最佳对策。
Figure BDA0003171052970000064
其中,
Figure BDA0003171052970000065
表示t时刻对手最佳动作,
Figure BDA0003171052970000066
表示t时刻对手动作,
Figure BDA0003171052970000067
Unif表示t+1时刻到t+k时刻中对手动作序列服从均匀分布,γ表示贴现因子,r0表示对手的环境奖励,t表示时刻。
在模拟过程中,智能体根据模型中的对手策略
Figure BDA0003171052970000068
Figure BDA0003171052970000069
的策略行为,学习环境模型提供了环境转移概率st+1
Figure BDA00031710529700000610
Figure BDA00031710529700000611
使用更大的k,仿真轨迹算法有更长的规划时间,因此可以更准确地评估对手最优动作ao*。但是,由于仿真轨迹的计算成本随规划水平呈指数级增长,因此要得到ao*的准确估计,k的选择要权衡准确性和成本。具体而言,对于零和博弈和合作博弈,可以分别将对手的状态值Vo(s)近似估计为-V(s)和V(s),并将仿真轨迹算法值修改为n步的递减累积回报,以获得更长的视界。最终,根据如下公式计算对手最佳动作:
Figure BDA0003171052970000071
其中,
Figure BDA0003171052970000072
表示t时刻对手最佳动作,
Figure BDA0003171052970000073
表示t时刻对手动作,
Figure BDA0003171052970000074
Unif表示t+1时刻到t+k时刻中对手动作序列服从均匀分布,γ表示贴现因子,r0表示对手的环境奖励,t表示时刻,Vo表示对手的价值函数,s表示决策过程的状态。
通过想象,可以获得对手在智能体策略π和第一层想象对手策略下的最佳动作ao*
进一步地,根据对手最佳动作以及决策过程的状态构造模拟数据,将模拟数据代入第一层想象对手策略公式,得到调整后的第一层想象对手策略。
具体地,将得到的最佳动作ao*和决策过程的状态s代入第一层想象对手策略公式
Figure BDA0003171052970000075
得到调整后的第一层想象对手策略φ0,第一层想象对手策略可以看作是对手应对智能体的最佳策略。
S103重复执行上述步骤,直到得到调整后的多层想象对手策略。
得到第一层的想象对手策略之后,按照上述步骤中的方法继续计算第二层的想象对手策略、第三层的想象对手策略,直到所有递归想象层的对手策略计算完。
其中,对手的最佳动作与环境奖励有关,环境奖励与对手的动作有关,对手的动作与递归想象的层数有关,因此,根据最佳动作的计算公式,计算每层对手策略下的最佳动作,然后将每层对手策略下的最佳动作ao*和决策过程的状态s代入想象对手策略公式,得到调整后的多层想象对手策略φ0,φ1……φM-1
根据上述步骤,通过递归想象,显式地模拟了递归推理过程,利用环境模型生成一系列对手策略。
S104更新想象对手策略权重,根据想象对手策略权重以及调整后的多层想象对手策略,得到对手混合策略,将对手混合策略作为对手模型。
通过递归想象得到了具有不同推理层次的多个想象对手策略。然而,由于对手的学习和推理是未知的,单个想象对手策略可能会高估或低估对手。为了获得更强的表示能力,以及准确捕获对手的学习,将想象对手策略线性组合得到对手混合策略。
首先,根据归一化概率分布算法以及贝叶斯公式计算想象对手策略权重。
具体地,根据如下公式计算每层的想象对手策略权重:
0,…,αM-1)=softmax(Ψ0,…,ΨM-1)
其中,α0,…,αM-1分别表示想象对手策略φ0,φ1……φM-1对应的权重,Softmax归一化函数,是逻辑函数的一种推广,尤其在多分类的场景中使用广泛,他把一些输入映射为0-1之间的实数,并且归一化保证和为1,因此多分类的概率之和也刚好为1。
Ψm是p(m|ao)的衰减移动平均,它是在对手ao的行动下使用第m层想象对手策略的概率。根据贝叶斯公式,有:
Figure BDA0003171052970000081
其中,p(m)是使用第m层想象对手策略的概率,将其估计为p(m|ao)的移动平均作为先验。Ψm表示水平第m层想象对手策略和对手在最近一段时期内的相似性。考虑到对手的行动,较高的Ψm意味着行动更可能来自第m层想象对手策略,因此第m层想象对手策略更类似于对手。根据相似度调整权值α0,…,αM-1可以更准确地估计改进的对手策略。
进一步地,根据如下公式计算对手混合策略:
Figure BDA0003171052970000082
其中,πmix(·|s)表示对手混合策略,s表示决策过程的状态,M表示递归想象层数,i表示第i层递归想象,0≤i≤M-1,αi表示第i层想象对手策略的权重,φi表示第i层想象对手策略。
根据该步骤,想象对手策略混合器是非参数的,无需进行参数训练和过多的交互,可以快速有效地进行更新。因此,想象对手策略混合器可以适应快速改进的对手。混合的对手策略即为构建完成的对手模型。帮助智能体更好地进行学习。
为了便于理解本申请实施例提供的基于环境模型的对手建模方法,下面结合附图2进行说明。图2是根据一示例性实施例示出的一种基于环境模型的对手建模方法的示意图。
如图2所示,该方法包括两个部分,一部分为递归想象,一部分为贝叶斯混合。
首先,智能体在环境模型中,通过递归想象的方法,计算每层的想象对手策略φ0,φ1……φM-1。具体地,首先计算第一层的想象对手策略φ0,然后在环境模型中,采用轨迹模拟的方法计算当前层的最佳动作,根据计算出来的最佳动作调整第一层想象对手策略,递归地重复仿真轨迹和微调,得到M层想象对手策略,其中,想象对手策略层数越高,也意味着博弈越激烈。
然后进行贝叶斯混合,首先根据归一化概率分布算法以及贝叶斯公式计算想象对手策略权重α0,…,αM-1,根据权重进行策略混合,得到对手混合策略,即构建完成的对手混合模型πmix(·|s)。
该方法适用的情景是一个交互环境中存在若干智能体,每个智能体获得环境的状态并同时作出决策,智能体获得的外部奖励信号与所有智能体的行动有关。
在一个可选地实施例中,首先,初始化递归想象层数M、想象对手策略权重α、智能体策略θ、第一层想象对手策略φ0以及环境模型。
在每次交互开始时,智能体策略θ根据历史对手混合策略πmix(·|s)与环境交互,同时获得对手的动作a°以及决策过程的状态s。
根据对手的动作a°和决策过程的状态s学习第一层想象对手策略φ0。以及在环境模型中利用仿真轨迹算法计算当前层数下对手的最佳响应
Figure BDA0003171052970000091
根据
Figure BDA0003171052970000092
微调第一层想象对手策略φ0,得到第一层想象对手策略φ0。以此类推,得到第M层想象对手策略φM-1
更新想象对手策略权重α,利用φ0,φ1……φM-1,通过想象对手策略混合器得到对手混合策略πmix(·|s)。
根据本公开实施例提供的基于环境模型的对手建模方法,在对手建模的同时,也考虑到了对手可能存在的推理能力,通过环境模型直接表示出对手可能的改进过程,获得更为准确的对手策略模型,解决了多智能体对抗中对手建模的滞后性问题,以达到对于同样有思考能力的对手进行有效建模的目的,进而帮助智能体策略学习。
本公开实施例还提供一种基于环境模型的对手建模装置,该装置用于执行上述实施例的基于环境模型的对手建模方法,如图3所示,该装置包括:
计算模块301,用于智能体根据对手的动作以及决策过程的状态得到第一层想象对手策略;
调整模块302,用于在预设的环境模型中利用仿真轨迹算法计算第一层的对手最佳动作,根据对手最佳动作调整第一层想象对手策略,得到调整后的第一层想象对手策略;
重复执行模块303,用于重复执行上述步骤,直到得到调整后的多层想象对手策略;
混合模块304,用于更新想象对手策略权重,根据想象对手策略权重以及调整后的多层想象对手策略,得到对手混合策略,将对手混合策略作为对手模型。
需要说明的是,上述实施例提供的基于环境模型的对手建模装置在执行基于环境模型的对手建模方法时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的基于环境模型的对手建模装置与基于环境模型的对手建模方法实施例属于同一构思,其体现实现过程详见方法实施例,这里不再赘述。
本公开实施例还提供一种与前述实施例所提供的基于环境模型的对手建模方法对应的电子设备,以执行上述基于环境模型的对手建模方法。
请参考图4,其示出了本申请的一些实施例所提供的一种电子设备的示意图。如图4所示,电子设备包括:处理器400,存储器401,总线402和通信接口403,处理器400、通信接口403和存储器401通过总线402连接;存储器401中存储有可在处理器400上运行的计算机程序,处理器400运行计算机程序时执行本申请前述任一实施例所提供的基于环境模型的对手建模方法。
其中,存储器401可能包含高速随机存取存储器(RAM:Random Access Memory),也可能还包括非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。通过至少一个通信接口403(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接,可以使用互联网、广域网、本地网、城域网等。
总线402可以是ISA总线、PCI总线或EISA总线等。总线可以分为地址总线、数据总线、控制总线等。其中,存储器401用于存储程序,处理器400在接收到执行指令后,执行程序,前述本申请实施例任一实施方式揭示的基于环境模型的对手建模方法可以应用于处理器400中,或者由处理器400实现。
处理器400可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器400中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器400可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器401,处理器400读取存储器401中的信息,结合其硬件完成上述方法的步骤。
本申请实施例提供的电子设备与本申请实施例提供的基于环境模型的对手建模方法出于相同的发明构思,具有与其采用、运行或实现的方法相同的有益效果。
本申请实施例还提供一种与前述实施例所提供的基于环境模型的对手建模方法对应的计算机可读存储介质,请参考图5,其示出的计算机可读存储介质为光盘500,其上存储有计算机程序(即程序产品),计算机程序在被处理器运行时,会执行前述任意实施例所提供的基于环境模型的对手建模方法。
需要说明的是,计算机可读存储介质的例子还可以包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他光学、磁性存储介质,在此不再一一赘述。
本申请的上述实施例提供的计算机可读存储介质与本申请实施例提供的基于环境模型的对手建模方法出于相同的发明构思,具有与其存储的应用程序所采用、运行或实现的方法相同的有益效果。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (6)

1.一种基于环境模型的对手建模方法,其特征在于,包括:
智能体使用近端策略优化算法与不同的对手进行交互,得到经验数据;根据所述经验数据以及最小化均方误差训练所述环境模型,得到训练好的环境模型;智能体与环境进行交互,得到对手的动作以及决策过程的状态;
智能体根据对手的动作以及决策过程的状态得到第一层想象对手策略;
在预设的环境模型中利用仿真轨迹算法计算第一层的对手最佳动作,根据所述对手最佳动作调整所述第一层想象对手策略,得到调整后的第一层想象对手策略;包括:根据所述对手最佳动作以及决策过程的状态构造模拟数据;将所述模拟数据代入第一层想象对手策略公式,得到调整后的第一层想象对手策略;
重复执行上述步骤,直到得到调整后的多层想象对手策略;
更新想象对手策略权重,根据所述想象对手策略权重以及调整后的多层想象对手策略,得到对手混合策略,将所述对手混合策略作为对手模型;
其中,根据如下公式计算第一层想象对手策略:
其中,表示决策过程的状态,表示对手的动作,表示经验数据库,表示第一层想象对手策略;
根据如下公式计算所述对手最佳动作:
其中,表示t时刻对手最佳动作,表示t时刻对手动作,表示t+1时刻到t+k时刻中对手动作序列服从均匀分布,表示贴现因子,表示对手的环境奖励,t表示时刻,表示对手的价值函数,表示决策过程的状态。
2.根据权利要求1所述的方法,其特征在于,更新所述想象对手策略权重,包括:
根据归一化概率分布算法以及贝叶斯公式计算所述想象对手策略权重。
3.根据权利要求1所述的方法,其特征在于,根据如下公式计算对手混合策略:
其中,表示对手混合策略,表示决策过程的状态,表示递归想象层数,i表示第i层递归想象,0≤i≤M-1,表示第i层想象对手策略的权重,表示第i层想象对手策略。
4.一种基于环境模型的对手建模装置,其特征在于,包括:
训练模块,用于智能体使用近端策略优化算法与不同的对手进行交互,得到经验数据;根据所述经验数据以及最小化均方误差训练所述环境模型,得到训练好的环境模型;智能体与环境进行交互,得到对手的动作以及决策过程的状态;
计算模块,用于智能体根据对手的动作以及决策过程的状态得到第一层想象对手策略;
调整模块,用于在预设的环境模型中利用仿真轨迹算法计算第一层的对手最佳动作,根据所述对手最佳动作调整所述第一层想象对手策略,得到调整后的第一层想象对手策略;包括:根据所述对手最佳动作以及决策过程的状态构造模拟数据;将所述模拟数据代入第一层想象对手策略公式,得到调整后的第一层想象对手策略;
重复执行模块,用于重复执行上述步骤,直到得到调整后的多层想象对手策略;
混合模块,用于更新想象对手策略权重,根据所述想象对手策略权重以及调整后的多层想象对手策略,得到对手混合策略,将所述对手混合策略作为对手模型;
其中,根据如下公式计算第一层想象对手策略:
其中,表示决策过程的状态,表示对手的动作,表示经验数据库,表示第一层想象对手策略;
根据如下公式计算所述对手最佳动作:
其中,表示t时刻对手最佳动作,表示t时刻对手动作,表示t+1时刻到t+k时刻中对手动作序列服从均匀分布,表示贴现因子,表示对手的环境奖励,t表示时刻,表示对手的价值函数,表示决策过程的状态。
5.一种基于环境模型的对手建模设备,其特征在于,包括处理器和存储有程序指令的存储器,所述处理器被配置为在执行所述程序指令时,执行如权利要求1至3任一项所述的基于环境模型的对手建模方法。
6.一种计算机可读介质,其特征在于,其上存储有计算机可读指令,所述计算机可读指令可被处理器执行以实现如权利要求1至3任一项所述的一种基于环境模型的对手建模方法。
CN202110818583.9A 2021-07-20 2021-07-20 基于环境模型的对手建模方法、装置、设备及存储介质 Active CN113599832B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110818583.9A CN113599832B (zh) 2021-07-20 2021-07-20 基于环境模型的对手建模方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110818583.9A CN113599832B (zh) 2021-07-20 2021-07-20 基于环境模型的对手建模方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN113599832A CN113599832A (zh) 2021-11-05
CN113599832B true CN113599832B (zh) 2023-05-16

Family

ID=78338001

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110818583.9A Active CN113599832B (zh) 2021-07-20 2021-07-20 基于环境模型的对手建模方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN113599832B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114139653A (zh) * 2021-12-15 2022-03-04 中国人民解放军国防科技大学 基于对手动作预测的智能体策略获取方法及相关装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109496318A (zh) * 2018-07-30 2019-03-19 东莞理工学院 基于深度强化学习的自适应博弈算法
CN110188612A (zh) * 2019-04-28 2019-08-30 西安电子科技大学 基于生成式对抗网络的极光卵强度图像建模方法
CN111047053A (zh) * 2019-11-20 2020-04-21 清华大学 面向未知策略对手的蒙特卡洛搜索博弈决策方法及系统
CN112001585A (zh) * 2020-07-14 2020-11-27 北京百度网讯科技有限公司 多智能体决策方法、装置、电子设备及存储介质
CN112183288A (zh) * 2020-09-22 2021-01-05 上海交通大学 一种基于模型的多智能体强化学习方法
CN112329348A (zh) * 2020-11-06 2021-02-05 东北大学 一种面向非完全信息条件下军事对抗博弈的智能决策方法
CN112884152A (zh) * 2021-03-26 2021-06-01 中国人民解放军国防科技大学 一种基于对手模型和迭代推理的策略识别与重用方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210056863A1 (en) * 2019-08-19 2021-02-25 Samsung Electronics Co., Ltd. Hybrid models for dynamic agents in a simulation environment

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109496318A (zh) * 2018-07-30 2019-03-19 东莞理工学院 基于深度强化学习的自适应博弈算法
CN110188612A (zh) * 2019-04-28 2019-08-30 西安电子科技大学 基于生成式对抗网络的极光卵强度图像建模方法
CN111047053A (zh) * 2019-11-20 2020-04-21 清华大学 面向未知策略对手的蒙特卡洛搜索博弈决策方法及系统
CN112001585A (zh) * 2020-07-14 2020-11-27 北京百度网讯科技有限公司 多智能体决策方法、装置、电子设备及存储介质
CN112183288A (zh) * 2020-09-22 2021-01-05 上海交通大学 一种基于模型的多智能体强化学习方法
CN112329348A (zh) * 2020-11-06 2021-02-05 东北大学 一种面向非完全信息条件下军事对抗博弈的智能决策方法
CN112884152A (zh) * 2021-03-26 2021-06-01 中国人民解放军国防科技大学 一种基于对手模型和迭代推理的策略识别与重用方法

Also Published As

Publication number Publication date
CN113599832A (zh) 2021-11-05

Similar Documents

Publication Publication Date Title
Shakya et al. Reinforcement learning algorithms: A brief survey
Liu et al. Competitive experience replay
CN113599832B (zh) 基于环境模型的对手建模方法、装置、设备及存储介质
CN108830376B (zh) 针对时间敏感的环境的多价值网络深度强化学习方法
US20220129695A1 (en) Bilevel method and system for designing multi-agent systems and simulators
CN115300910B (zh) 基于多智能体强化学习的去混淆游戏策略模型生成方法
Jafferjee et al. Hallucinating value: A pitfall of dyna-style planning with imperfect environment models
Tziortziotis et al. Play ms. pac-man using an advanced reinforcement learning agent
Liu et al. Distilling motion planner augmented policies into visual control policies for robot manipulation
Bentivegna et al. Learning from observation and from practice using behavioral primitives
Cahill Catastrophic forgetting in reinforcement-learning environments
Davidsson A framework for preventive state anticipation
CN112465148A (zh) 一种多智能体系统的网络参数更新方法、装置及终端设备
Postnikov et al. Application of fuzzy state machines to control players in virtual soccer simulation
US20220147847A1 (en) Non-zero-sum game system framework with tractable nash equilibrium solution
Kok et al. An approach to noncommunicative multiagent coordination in continuous domains
Dahl The lagging anchor algorithm: Reinforcement learning in two-player zero-sum games with imperfect information
Uc-Cetina A novel reinforcement learning architecture for continuous state and action spaces
Yılmaz et al. Q-learning with naïve bayes approach towards more engaging game agents
CN110969248A (zh) 基于rbf-a2c的强化学习方法及系统
CN114219099A (zh) 一种基于符号选项和动作模型自学习的任务规划方法
Arslan et al. Decentralized Q-learning for stochastic dynamic games
Zhang et al. SIPOMDPLite-Net: Lightweight, Self-Interested Learning and Planning in POSGs with Sparse Interactions
CN117669650A (zh) 强化学习模型的训练方法及装置
Uc-Cetina Research Article A Novel Reinforcement Learning Architecture for Continuous State and Action Spaces

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant