CN116205298A - 一种基于深度强化学习的对手行为策略建模方法及系统 - Google Patents

一种基于深度强化学习的对手行为策略建模方法及系统 Download PDF

Info

Publication number
CN116205298A
CN116205298A CN202310105519.5A CN202310105519A CN116205298A CN 116205298 A CN116205298 A CN 116205298A CN 202310105519 A CN202310105519 A CN 202310105519A CN 116205298 A CN116205298 A CN 116205298A
Authority
CN
China
Prior art keywords
opponent
learning
observation
self
agent
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310105519.5A
Other languages
English (en)
Inventor
石兵
李顺
鲁艳
李帅
潘玉婷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University of Technology WUT
Original Assignee
Wuhan University of Technology WUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University of Technology WUT filed Critical Wuhan University of Technology WUT
Priority to CN202310105519.5A priority Critical patent/CN116205298A/zh
Publication of CN116205298A publication Critical patent/CN116205298A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • G06N3/061Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using biological neurons, e.g. biological neurons connected to an integrated circuit
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Abstract

本发明公开了一种基于深度强化学习的对手行为策略建模方法及系统。首先将动态博弈环境下的对手行为建模为部分可观测马尔可夫博弈,通过在线学习实时地获取环境信息来动态地构建己方模型和对手模型,并在博弈过程中通过意图识别实时地获取对手决策意图。然后利用大量历史行为数据,通过离线学习来迭代优化己方模型和对手模型。其中在线学习和离线学习相互促进,共同训练出一个能感知对手决策意图的对手行为模型。本发明公开的对手建模方法能在先验知识贫乏、可观测性差的动态博弈环境下,实现通过在线学习构建对手行为模型的能力、基于虚拟自博弈实现通过离线学习优化己方模型和对手行为模型的能力和实现实时采集交互行为获取决策意图的能力。

Description

一种基于深度强化学习的对手行为策略建模方法及系统
技术领域
本发明属于人工智能技术领域,涉及一种对手行为策略建模方法及系统,具体涉及一种基于深度强化学习的对手行为策略建模方法及系统。
背景技术
近年来,人工智能技术的进步引领多智能体博弈领域飞速发展。例如:AlphaGo在完全信息的围棋博弈中战胜人类选手李世石;AlphaZero通过自博弈强化学习的方法击败了AlphaGo;德州扑克博弈程序DeepStack和Libratus在一种不完全信息博弈中打败了职业选手等等。在游戏人工智能、自动驾驶、机器人集群控制等应用场景的多智能体系统中,智能体具有感知、决策、行动等多种能力。但是随着博弈的规模扩大,解析和逼近最佳策略都存在着巨大的挑战。其中,多智能体博弈的策略学习往往需要通过观察其他智能体,建立除自身以外的其他智能体抽象模型,推理其行为、意图等,此过程就涉及到对手行为策略建模。因此多智能体博弈的策略学习需着力研究对手行为策略建模,以不断提升对抗能力。
建立对手行为策略模型是为了使智能体能够适应对手并利用其弱点来提高智能体的决策能力。目前现有的对手行为策略建模技术大致可以分为显式建模、隐式建模、基于多智能体强化学习的建模方法。首先,显式对手行为策略建模可看作一个通过输入可观测到的智能体的历史交互信息,输出对智能体行为、目的、偏好的预测,常用的显式对手行为策略建模方法可以分为计划行动意图识别方法、行为分类与类型推理方法、策略重构方法、认知推理方法、博弈最佳响应方法等。但是,显式对手行为策略建模将建模和规划过程分离,在先验知识缺乏的情况下,无法有效利用已有的信息进行决策。因此,区别于显式对手行为策略建模,隐式对手行为策略建模是将对手的某些特征隐式地编码到其它结构或者推理过程中,它试图找到一个好的对抗策略而不需要直接识别对手的策略。常用的隐式对手行为策略建模方法大致可以分为基于元学习的隐式对手建模方法,在线对抗的隐式建模方法和基于对手感知的隐式建模方法。最后,多智能体强化学习相关的研究成果也不断地应用于对手行为策略建模问题中。深度强化学习有机地结合了深度学习与强化学习,前者能够增强感知与表达能力,后者提供最优决策能力,使得基于深度强化学习的对手行为策略建模技术对复杂环境中其他智能体具有更好的认知能力。
一个复杂多变的动态博弈环境往往存在着环境信息不确定、对手不停的产生新的对抗策略等问题,导致己方难以得到对手行为的先验知识。同时由于受到环境的干扰、对手欺骗等因素的影响,导致己方难以观察到整个博弈环境。这些问题都充分显示了博弈环境中充满着不确定性和部分可观测性。
结合以上情况,现有对手行为策略建模的相关技术并不适用于先验知识贫乏、可观测性差的复杂博弈环境。首先,一些技术的建模假设条件过于理想,难以应对具有高度动态性、部分可观测性的动态博弈环境;其次,传统的对手行为策略建模方法要求大量的先验知识以构建一个好的对手行为策略模型,对于本身的经验学习、规律形成机制探索不足,即未考虑先验知识缺乏下进行自我学习;最后,许多对手行为策略建模研究都缺乏对敌方意图的识别。
发明内容
本发明的目的在于提供一种基于深度强化学习的对手行为策略建模方法及系统,用于解决下述技术问题:在先验知识贫乏、部分可观测性的动态博弈环境下,实现通过在线学习构建对手行为模型的能力;基于在线学习得到的历史数据,实现通过离线学习优化对手行为模型的能力;在构建对手行为模型的同时实现实时采集交互行为获取决策意图的能力。
本发明的方法所采用的技术方案是:一种基于深度强化学习的对手行为策略建模方法,包括以下步骤:
步骤1:将动态博弈环境下的对手行为策略建模为部分可观测马尔可夫博弈;
所述部分可观测马尔可夫博弈为元组<N,S,A,T,R,Ω,O,γ>,其中,N是智能体集合,S是状态集合,A是动作集合,T是状态之间的条件转移概率集合,R:S×A→R是奖励函数,Ω是观察集合,O是条件观察概率集合,γ∈(0,1]是折扣因子;
在每个时间段,环境处于某种状态s∈S,智能体采取动作a1,a2,…,aN∈A,导致环境转换到状态s'的概率为T(s′∣s,a1,a2,…,aN);每个智能体i接收观察oi∈Ω的概率分别为O(oi∣s′,a1,a2,…,aN);智能体i接收奖励r等于R(s,ai);每个智能体i尝试最大化它从时间t开始的累积奖励
Figure BDA0004074732500000021
Figure BDA0004074732500000022
表示智能体i在时间t时获得的奖励,γt表示智能体i在时间t时的折扣因子;
步骤2:初始化己方模型、对手模型和在线学习历史策略集合
Figure BDA0004074732500000023
所述己方模型,由策略学习网络和价值学习网络两部分组成;其中策略学习网络用于预测己方动作的概率分布,价值学习网络用于预测价值函数;两个网络共享输入层和前两个隐藏层,前两个隐藏层均包含128个神经元且采用Relu函数激活;第二个隐藏层的输出经激活后会进入策略学习网络和价值学习网络各自的隐藏层,然后输出策略概率分布πself和价值Vself;所述策略学习网络和价值学习网络的第三个隐藏层均由64个神经元组成且采用Relu函数激活,策略学习网络的输出层采用Softmax函数激活;
所述己方模型输入己方的观察oself、己方的目标gself、对对手目标的估计
Figure BDA0004074732500000031
己方的决策意图Iself和对对手决策意图的估计/>
Figure BDA0004074732500000032
输出己方的策略πself和价值函数Vself
所述对手模型,由策略学习网络组成;
所述对手模型输入对手的观察oother,对对手最终目标的估计
Figure BDA0004074732500000033
己方的目标gself、对对手决策意图的估计/>
Figure BDA0004074732500000034
和己方的决策意图Iself,输出对对手策略的推测/>
Figure BDA0004074732500000035
步骤3:初始化博弈环境;
步骤4:获取当前时间步己方和对手的观测、对对手最终目标的估计
Figure BDA0004074732500000036
步骤5:根据对手的观测序列使用意图识别方法获取其决策意图;
实时采集交互行为的观测信息,并输入到加权观测隐马尔可夫模型HMM中,使用前向-后向算法得出决策意图;
所述加权观测隐马尔可夫模型HMM由观测矩阵
Figure BDA0004074732500000037
隐状态转移矩阵/>
Figure BDA0004074732500000038
初始观测向量W和初始概率分布μ组成,即/>
Figure BDA0004074732500000039
隐状态集为H={h1,h2,…,hN},观测集为Ω={o1,o2,…,oM},其中N为隐状态的数量,M为观测值的数量;
其中,对应于经典HMM模型,观测矩阵为
Figure BDA00040747325000000310
Figure BDA00040747325000000311
且/>
Figure BDA00040747325000000312
其中/>
Figure BDA00040747325000000313
表示在隐状态hi下观测到oj的概率;引入加权观测概率分布
Figure BDA00040747325000000314
表示在wt条件下,隐状态hi观测到lt的概率,定义加权观测概率为phi与wt的余弦相似度,即/>
Figure BDA00040747325000000315
其中/>
Figure BDA00040747325000000316
为矩阵/>
Figure BDA00040747325000000317
的第i行;在加权观测隐马尔可夫模型HMM中,将包含加权观测权重信息的加权观测概率/>
Figure BDA00040747325000000318
代替原观测概率/>
Figure BDA00040747325000000319
则实现观测信息的融合;
隐状态转移矩阵为
Figure BDA00040747325000000320
且/>
Figure BDA00040747325000000321
其中
Figure BDA00040747325000000322
表示t到t+1时刻,隐状态由hi转移到hj的概率;
观测向量
Figure BDA00040747325000000323
其中/>
Figure BDA00040747325000000324
表示隐状态观测到oi的权值,/>
Figure BDA00040747325000000325
且/>
Figure BDA0004074732500000041
初始概率分布为
Figure BDA0004074732500000042
且/>
Figure BDA0004074732500000043
其中
Figure BDA0004074732500000044
为初始时刻隐状态为hi的概率;
步骤6:由己方模型fself得到己方策略函数πself和己方价值函数Vself,并根据己方策略函数进行动作采样后并执行aself←πself
Figure BDA0004074732500000045
其中,θself是fself的网络参数;aself是己方采取的动作;
步骤7:从博弈环境中得到即时收益、下一个时间步的环境信息,将经验存入在线学习历史策略集合
Figure BDA0004074732500000046
中;
步骤8:根据智能体获得的奖励
Figure BDA0004074732500000047
更新己方模型fself与对手模型fother中的网络参数θself与θother
步骤9:判断当前时刻是否为终止状态;若不是,则更新时间步,回转执行步骤4;否则,本轮训练结束,继续判断整体训练是否结束;若未结束,回转执行步骤3,若结束训练,顺序执行步骤10;
步骤10:判断是否需要对智能体进行离线训练;若继续,顺序执行步骤11,否则,结束;
步骤11:执行根据在线学习历史策略集合
Figure BDA0004074732500000048
对对手和己方智能体进行离线学习,从而迭代优化己方模型和对手模型;
步骤12:判断是否继续进行在线训练;若己方胜率小于阈值,则继续进行在线训练,回转执行步骤3;否则结束。
本发明的系统所采用的技术方案是:一种基于深度强化学习的对手行为策略建模系统,包括以下模块:
模块1,用于将动态博弈环境下的对手行为策略建模为部分可观测马尔可夫博弈;
所述部分可观测马尔可夫博弈为元组<N,S,A,T,R,Ω,O,γ>,其中,N是智能体集合,S是状态集合,A是动作集合,T是状态之间的条件转移概率集合,R:S×A→R是奖励函数,Ω是观察集合,O是条件观察概率集合,γ∈(0,1]是折扣因子;
在每个时间段,环境处于某种状态s∈S,智能体采取动作a1,a2,…,aN∈A,导致环境转换到状态s'的概率为T(s′∣s,a1,a2,…,aN);每个智能体i接收观察oi∈Ω的概率分别为O(oi∣s′,a1,a2,…,aN);智能体i接收奖励r等于R(s,ai);每个智能体i尝试最大化它从时间t开始的累积奖励
Figure BDA0004074732500000051
Figure BDA0004074732500000052
表示智能体i在时间t时获得的奖励,γt表示智能体i在时间t时的折扣因子;
模块2,用于初始化己方模型、对手模型和在线学习历史策略集合
Figure BDA0004074732500000053
所述己方模型,由策略学习网络和价值学习网络两部分组成;其中策略学习网络用于预测己方动作的概率分布,价值学习网络用于预测价值函数;两个网络共享输入层和前两个隐藏层,前两个隐藏层均包含128个神经元且采用Relu函数激活;第二个隐藏层的输出经激活后会进入策略学习网络和价值学习网络各自的隐藏层,然后输出策略概率分布πself和价值Vself;所述策略学习网络和价值学习网络的第三个隐藏层均由64个神经元组成且采用Relu函数激活,策略学习网络的输出层采用Softmax函数激活;
所述己方模型输入己方的观察oself、己方的目标gself、对对手目标的估计
Figure BDA0004074732500000054
己方的决策意图Iself和对对手决策意图的估计/>
Figure BDA0004074732500000055
输出己方的策略πself和价值函数Vself
所述对手模型,由策略学习网络组成;
所述对手模型输入对手的观察oother,对对手最终目标的估计
Figure BDA0004074732500000056
己方的目标gself、对对手决策意图的估计/>
Figure BDA0004074732500000057
和己方的决策意图Iself,输出对对手策略的推测/>
Figure BDA0004074732500000058
模块3,用于初始化博弈环境;
模块4,用于获取当前时间步己方和对手的观测、对对手最终目标的估计
Figure BDA0004074732500000059
模块5,用于根据对手的观测序列使用意图识别方法获取其决策意图;
实时采集交互行为的观测信息,并输入到加权观测隐马尔可夫模型HMM中,使用前向-后向算法得出决策意图;
所述加权观测隐马尔可夫模型HMM由观测矩阵
Figure BDA00040747325000000510
隐状态转移矩阵/>
Figure BDA00040747325000000511
初始观测向量W和初始概率分布μ组成,即/>
Figure BDA00040747325000000512
隐状态集为H={h1,h2,…,hN},观测集为Ω={o1,o2,…,oM},其中N为隐状态的数量,M为观测值的数量;
其中,对应于经典HMM模型,观测矩阵为
Figure BDA00040747325000000513
有/>
Figure BDA00040747325000000514
且/>
Figure BDA00040747325000000515
其中/>
Figure BDA00040747325000000516
表示在隐状态hi下观测到oj的概率;引入加权观测概率分布/>
Figure BDA0004074732500000061
表示在wt条件下,隐状态hi观测到lt的概率,定义加权观测概率为/>
Figure BDA0004074732500000062
与wt的余弦相似度,即/>
Figure BDA0004074732500000063
其中/>
Figure BDA0004074732500000064
为矩阵/>
Figure BDA0004074732500000065
的第i行;在加权观测隐马尔可夫模型HMM中,将包含加权观测权重信息的加权观测概率/>
Figure BDA0004074732500000066
代替原观测概率
Figure BDA0004074732500000067
则实现观测信息的融合;
隐状态转移矩阵为
Figure BDA0004074732500000068
且/>
Figure BDA0004074732500000069
其中
Figure BDA00040747325000000610
表示t到t+1时刻,隐状态由hi转移到hj的概率;
观测向量
Figure BDA00040747325000000611
其中/>
Figure BDA00040747325000000612
表示隐状态观测到oi的权值,/>
Figure BDA00040747325000000613
Figure BDA00040747325000000614
初始概率分布为
Figure BDA00040747325000000615
且/>
Figure BDA00040747325000000616
其中
Figure BDA00040747325000000617
为初始时刻隐状态为hi的概率;
模块6,用于由己方模型fself得到己方策略函数πself和己方价值函数Vself,并根据己方策略函数进行动作采样后并执行aself←πself
Figure BDA00040747325000000618
其中,θself是fself的网络参数;aself是己方采取的动作;
模块7,用于从博弈环境中得到即时收益、下一个时间步的环境信息,将经验存入在线学习历史策略集合
Figure BDA00040747325000000619
中;
模块8,用于根据智能体获得的奖励
Figure BDA00040747325000000620
更新己方模型fself与对手模型fother中的网络参数θself与θother
模块9,用于判断当前时刻是否为终止状态;若不是,则更新时间步,回转执行模块4;否则,本轮训练结束,继续判断整体训练是否结束;若未结束,回转执行模块3,若结束训练,顺序执行模块10;
模块10,用于判断是否需要对智能体进行离线训练;若继续,顺序执行模块11,否则,结束;
模块11,用于执行根据在线学习历史策略集合
Figure BDA0004074732500000071
对对手和己方智能体进行离线学习,从而迭代优化己方模型和对手模型;
模块12:用于判断是否继续进行在线训练;若己方胜率小于阈值,则继续进行在线训练,回转执行步骤3;否则结束。
本发明围绕动态博弈环境下的对手建模问题,利用深度强化学习技术提出了一种对手建模方法。具体地,本发明首先将动态博弈环境下的对手行为建模为部分可观测马尔可夫博弈,通过在线学习实时地获取环境信息来动态地构建己方模型和对手模型,并在博弈过程中通过意图识别方法实时地获取对手决策意图以学习其策略。然后利用在线学习时的大量历史行为数据,通过离线学习来迭代优化己方模型和对手模型。其中在线学习和离线学习相互促进,共同训练出一个能感知对手决策意图的对手行为模型。本发明不仅考虑了高度动态性、部分可观测性的博弈环境,还考虑了在构建对手行为模型时先验知识贫乏的情况。该对手建模方法能在先验知识贫乏、可观测性差的动态博弈环境下,实现通过在线学习构建对手行为模型的能力、基于虚拟自博弈实现通过离线学习优化己方模型和对手行为模型的能力和实现实时采集交互行为获取决策意图的能力。
相比于现有的对手建模方法,首先,本发明公开的基于深度强化学习的对手建模方法不依赖于特定领域知识,即构建了一个通用的对手建模框架。其次,本发明能应用到先验知识贫乏、可观测性差的动态博弈环境中,在较好地适应动态变化的对手策略的同时利用其弱点制定己方相应的反制策略。最后,本发明实现了对手决策意图实时识别模块,该模块能准确、高效地感知对手意图,有助于进一步提升己方智能体的决策能力。
附图说明
图1为本发明实施例的方法流程图;
图2为本发明实施例的己方模型结构图;
图3为本发明实施例的对手模型结构图。
具体实施方式
为了便于本领域普通技术人员理解和实施本发明,下面结合附图及实施例对本发明作进一步的详细描述,应当理解,此处所描述的实施示例仅用于说明和解释本发明,并不用于限定本发明。
请见图1,本发明提供的一种基于深度强化学习的对手行为策略建模方法,包括以下步骤:
步骤1:将动态博弈环境下的对手行为策略建模为部分可观测马尔可夫博弈;
部分可观测马尔可夫博弈为元组<N,S,A,T,R,Ω,O,γ>,其中,N是智能体集合,S是状态集合,A是动作集合,T是状态之间的条件转移概率集合,R:S×A→R是奖励函数,Ω是观察集合,O是条件观察概率集合,γ∈(0,1]是折扣因子;
在每个时间段,环境处于某种状态s∈S,智能体采取动作a1,a2,…,aN∈A,导致环境转换到状态s'的概率为T(s′∣s,a1,a2,…,aN);每个智能体i接收观察oi∈Ω的概率分别为O(oi∣s′,a1,a2,…,aN),它取决于环境的新状态;智能体i接收奖励r等于R(s,ai),然后重复该过程;每个智能体i尝试最大化它从时间t开始的累积奖励
Figure BDA0004074732500000081
Figure BDA0004074732500000082
表示智能体i在时间t时获得的奖励,γt表示智能体i在时间t时的折扣因子;
步骤2:初始化己方模型、对手模型和在线学习历史策略集合
Figure BDA0004074732500000083
/>
请见图2,本实施例的己方模型,由策略学习网络和价值学习网络两部分组成;其中策略学习网络用于预测己方动作的概率分布,价值学习网络用于预测价值函数;两个网络共享输入层和前两个隐藏层,前两个隐藏层均包含128个神经元且采用Relu函数激活;第二个隐藏层的输出经激活后会进入策略学习网络和价值学习网络各自的隐藏层,然后输出策略概率分布πself和价值Vself;策略学习网络和价值学习网络的第三个隐藏层均由64个神经元组成且采用Relu函数激活,策略学习网络的输出层采用Softmax函数激活;
己方模型输入己方的观察oself、己方的目标gself、对对手目标的估计
Figure BDA0004074732500000084
己方的决策意图Iself和对对手决策意图的估计/>
Figure BDA0004074732500000085
输出己方的策略πself和价值函数Vself
请见图3,本实施例的对手模型,由策略学习网络组成;
对手模型输入对手的观察oother,对对手最终目标的估计
Figure BDA0004074732500000086
己方的目标gself、对对手决策意图的估计/>
Figure BDA0004074732500000087
和己方的决策意图Iself,输出对对手策略的推测/>
Figure BDA0004074732500000088
步骤3:初始化博弈环境;
步骤4:获取当前时间步己方和对手的观测、对对手最终目标的估计
Figure BDA0004074732500000089
Figure BDA00040747325000000810
其中,
Figure BDA00040747325000000811
为初始时随机初始化的对对手目标的估计,并通过softmax()函数进行分类分布采样,然后采用one_hot()函数通过独热编码的方式进行编码,对采样得到的离散结果进行特征数字化;Argmax()函数是是求括号内的函数取得最大值时的自变量点集。
步骤5:根据对手的观测序列使用意图识别方法获取其决策意图;
实时采集交互行为的观测信息,并输入到加权观测隐马尔可夫模型HMM中,使用前向-后向算法(Forward-backward algorithm)得出决策意图;
本实施例的加权观测隐马尔可夫模型HMM由观测矩阵
Figure BDA0004074732500000091
隐状态转移矩阵/>
Figure BDA0004074732500000092
初始观测向量W和初始概率分布μ组成,即/>
Figure BDA0004074732500000093
隐状态集为H={h1,h2,…,hN},观测集为Ω={o1,o2,…,oM},其中N为隐状态的数量,M为观测值的数量;
其中,对应于经典HMM模型,观测矩阵为
Figure BDA0004074732500000094
有/>
Figure BDA0004074732500000095
Figure BDA0004074732500000096
其中/>
Figure BDA0004074732500000097
表示在隐状态hi下观测到oj的概率;引入加权观测概率分布/>
Figure BDA0004074732500000098
表示在wt条件下,隐状态hi观测到lt的概率,定义加权观测概率为/>
Figure BDA0004074732500000099
与wt的余弦相似度,即/>
Figure BDA00040747325000000910
其中/>
Figure BDA00040747325000000911
为矩阵/>
Figure BDA00040747325000000912
的第i行;在加权观测隐马尔可夫模型HMM中,将包含加权观测权重信息的加权观测概率/>
Figure BDA00040747325000000913
代替原观测概率
Figure BDA00040747325000000914
则实现观测信息的融合;/>
隐状态转移矩阵为
Figure BDA00040747325000000915
且/>
Figure BDA00040747325000000916
其中
Figure BDA00040747325000000917
表示t到t+1时刻,隐状态由hi转移到hj的概率;
观测向量
Figure BDA00040747325000000918
其中/>
Figure BDA00040747325000000919
表示隐状态观测到oi的权值,/>
Figure BDA00040747325000000920
且/>
Figure BDA00040747325000000921
初始概率分布为
Figure BDA00040747325000000922
且/>
Figure BDA00040747325000000923
其中
Figure BDA00040747325000000924
为初始时刻隐状态为hi的概率。
本实施例的不同的决策意图对应于不同的加权观测隐马尔可夫模型HMM,已知不同加权观测隐马尔可夫模型HMM的参数{λ12,…,λn},观测向量O和观测序列L的条件下,计算出不同加权观测隐马尔可夫模型HMM下观测序列为L的概率
Figure BDA00040747325000000925
通过比较概率来得出最有可能的决策意图;
首先在初始阶段计算t=1时刻的前向概率
Figure BDA00040747325000000926
接着根据递推公式计算全时刻的前向概率/>
Figure BDA00040747325000000927
最后将求得的全时刻的前向概率αt(hk)求和即可得观测序列概率PL+=αT(hk)。
本实施例的加权观测隐马尔可夫模型HMM,为训练好的加权观测隐马尔可夫模型HMM;训练时首先初始化不同决策意图对应的加权观测隐马尔可夫模型HMM参数{λ12,...,λn},然后从训练样本中提取观测序列来对加权观测隐马尔可夫模型HMM参数进行重估计,直到加权观测隐马尔可夫模型HMM收敛。
步骤6:由己方模型fself得到己方策略函数πself和己方价值函数Vself,并根据己方策略函数进行动作采样后并执行aself←πself
Figure BDA0004074732500000101
其中,θself是fself的网络参数;aself是己方采取的动作;
步骤7:从博弈环境中得到即时收益、下一个时间步的环境信息,将经验存入在线学习历史策略集合
Figure BDA0004074732500000102
中;
步骤8:根据智能体获得的奖励
Figure BDA0004074732500000103
利用A3C算法更新己方模型fself与对手模型fother中的网络参数θself与θother
步骤9:判断当前时刻是否为终止状态;若不是,则更新时间步,回转执行步骤4;否则,本轮训练结束,继续判断整体训练是否结束;若未结束,回转执行步骤3,若结束训练,顺序执行步骤10;
步骤10:判断是否需要对智能体进行离线训练;若继续,顺序执行步骤11,否则,结束;
步骤11:执行根据在线学习历史策略集合
Figure BDA0004074732500000104
对对手和己方智能体进行离线学习,从而迭代优化己方模型和对手模型;/>
步骤11的具体实现包括以下子步骤:
步骤11.1:基于历史策略集合
Figure BDA0004074732500000105
需要训练的智能体nlearning,生成对手智能体集合N={n1,n2,...,nk};
步骤11.2:计算需要对抗的智能体数量num_opponents;
Figure BDA0004074732500000106
其中,len(N)表示当前己方智能体的数量,max_agents表示最大智能体数量,其数量不小于100;
步骤11.3:计算智能体nlearning对智能体集合N中每一个智能体nj的胜率;
Figure BDA0004074732500000111
其中,game_times为博弈的总次数;当第k局己方智能体nlearning赢了对手智能体nj的时候,flag(nlearning,nj,k)=1,否则为0;
步骤11.4:通过设置f:[0,1]→[0,+∞)权重函数的不同形式,让正在学习的智能体nlearning关注不同实力的对手,具体表示为:
f(P[nlearning beatsnj]);
其中,设置fhard(P[nlearning beatsnj])=(1-x)p,将使得正在学习的智能体nlearning更加关注厉害的对手,p是一个常数,反映了熵的分布情况,x表示己方智能体nlearning打败智能体nj的胜率;比如:对于一个胜率为0的智能体来说,P[nlearning beats nj]=1,从而fhard(1)=0,意味着实力越弱的对手被挑选的概率越小;
设置fvar(P[nlearning beats nj])=x(1-x),将使得正在学习的智能体nlearning关注那些实力相近的对手,当胜率越接近时,被挑选的概率越大;由函数的性质可知,当双方胜率持平时,被挑选作为对手的概率最大;
步骤11.5:设置对手优先级,在离线学习的前期多智能体多选择和自己水平相近的对手,在离线学习的后期,重点选择实力更强的对手;按如下的函数决定f的选取,相关设定如下:
Figure BDA0004074732500000112
其中,j表示智能体集合N中的第j个智能体,threshold为大于0.5的常数;
步骤11.6:重复执行步骤117~11.8num_opponents次;
步骤11.7:依据优先级从智能体集合中随机选出一个对手智能体nopponent
步骤11.8:按照对手类型的不同,采用不同的对抗设定让napponent和nlearning进行虚拟博弈,不断更新两个智能体的策略;其中,nlearning表示己方智能体。
步骤11.8的具体实现包括以下子步骤:
步骤11.8.1:初始化nopponent的策略集合、经验池、策略函数Π和napponent的最终目标:
步骤11.8.2:nlearning使用策略集合Π中的动作:actionlearning←πlearning
步骤11.8.3:nopponent使用的混合策略采样动作:actionopponent←σopponent,混合策略采样动作为:使用参数为α的概率输出一个混合策略σ,即:
σ=αΠ+(1-α)Q;
步骤11.8.4:执行动作:actionlearning,actionopponent
步骤11.8.5:推测对手智能体的目标:
Figure BDA0004074732500000121
其中,gumbel_softmax()为现有的采样函数,其目的为:对离散的对手目标gopponent进行采样;
步骤11.8.6:根据输入对手的观察oopponent、对手的最终目标
Figure BDA0004074732500000122
己方目标gself、对手决策意图的估计/>
Figure BDA0004074732500000123
己方决策意图的估计Ilearning,得到对手智能体策略的推测/>
Figure BDA0004074732500000124
Figure BDA0004074732500000125
步骤11.8.7:根据推测的对手智能体的策略
Figure BDA0004074732500000126
和对手智能体的真实的动作aother计算损失:
Figure BDA0004074732500000127
其中,cross_entropy_loss()为交叉熵损失函数;
步骤11.8.8:更新对手智能体的目标估计
Figure BDA0004074732500000128
步骤11.8.9:根据获得的回报及状态信息,使用深度强化学习更新对手智能体的策略,即更新智能体nopponent;根据获得的回报更新θlearning,即更新智能体nlearning
模块11.8.10:将迭代优化后的智能体nlearning和nopponent作为新的己方和对手模型。
步骤12:判断是否继续进行在线训练;若己方胜率小于阈值,则继续进行在线训练,回转执行步骤3;否则结束。
本实例基于深度强化学习的对手建模方法,在先验知识贫乏、可观测性差的动态博弈环境下,实现了通过在线学习构建对手行为模型的能力、基于虚拟自博弈实现通过离线学习优化己方模型和对手行为模型的能力和实现实时采集交互行为获取决策意图的能力。
应当理解的是,上述针对较佳实施例的描述较为详细,并不能因此而认为是对本发明专利保护范围的限制,本领域的普通技术人员在本发明的启示下,在不脱离本发明权利要求所保护的范围情况下,还可以做出替换或变形,均落入本发明的保护范围之内,本发明的请求保护范围应以所附权利要求为准。

Claims (7)

1.一种基于深度强化学习的对手行为策略建模方法,其特征在于,包括以下步骤:
步骤1:将动态博弈环境下的对手行为策略建模为部分可观测马尔可夫博弈;
所述部分可观测马尔可夫博弈为元组<N,S,A,T,R,Ω,O,γ>,其中,N是智能体集合,S是状态集合,A是动作集合,T是状态之间的条件转移概率集合,R:S×A→R是奖励函数,Ω是观察集合,O是条件观察概率集合,γ∈(0,1]是折扣因子;
在每个时间段,环境处于某种状态s∈S,智能体采取动作a1,a2,…,aN∈A,导致环境转换到状态s'的概率为T(s′∣s,a1,a2,…,aN);每个智能体i接收观察oi∈Ω的概率分别为O(oi∣s′,a1,a2,…,aN);智能体i接收奖励r等于R(s,ai);每个智能体i尝试最大化它从时间t开始的累积奖励
Figure FDA0004074732480000011
rt i表示智能体i在时间t时获得的奖励,γt表示智能体i在时间t时的折扣因子;
步骤2:初始化己方模型、对手模型和在线学习历史策略集合
Figure FDA0004074732480000012
所述己方模型,由策略学习网络和价值学习网络两部分组成;其中策略学习网络用于预测己方动作的概率分布,价值学习网络用于预测价值函数;两个网络共享输入层和前两个隐藏层,前两个隐藏层均包含128个神经元且采用Relu函数激活;第二个隐藏层的输出经激活后会进入策略学习网络和价值学习网络各自的隐藏层,然后输出策略概率分布πself和价值Vself;所述策略学习网络和价值学习网络的第三个隐藏层均由64个神经元组成且采用Relu函数激活,策略学习网络的输出层采用Softmax函数激活;
所述己方模型输入己方的观察oself、己方的目标gself、对对手目标的估计
Figure FDA0004074732480000013
己方的决策意图Iself和对对手决策意图的估计/>
Figure FDA0004074732480000014
输出己方的策略πself和价值函数Vself
所述对手模型,由策略学习网络组成;
所述对手模型输入对手的观察oother,对对手最终目标的估计
Figure FDA0004074732480000015
己方的目标gself、对对手决策意图的估计/>
Figure FDA0004074732480000016
和己方的决策意图Iself,输出对对手策略的推测/>
Figure FDA0004074732480000017
步骤3:初始化博弈环境;
步骤4:获取当前时间步己方和对手的观测、对对手最终目标的估计
Figure FDA0004074732480000018
步骤5:根据对手的观测序列使用意图识别方法获取其决策意图;
实时采集交互行为的观测信息输入到加权观测隐马尔可夫模型HMM中,使用前向-后向算法得出决策意图;
所述加权观测隐马尔可夫模型HMM由观测矩阵
Figure FDA0004074732480000021
隐状态转移矩阵/>
Figure FDA0004074732480000022
初始观测向量W和初始概率分布μ组成,即/>
Figure FDA0004074732480000023
隐状态集为H={h1,h2,…,hN},观测集为Ω={o1,o2,…,oM},其中N为隐状态的数量,M为观测值的数量;
其中,对应于经典HMM模型,观测矩阵为
Figure FDA0004074732480000024
有/>
Figure FDA0004074732480000025
且/>
Figure FDA0004074732480000026
其中
Figure FDA0004074732480000027
表示在隐状态hi下观测到oj的概率;引入加权观测概率分布
Figure FDA0004074732480000028
表示在wt条件下,隐状态hi观测到lt的概率,定义加权观测概率为/>
Figure FDA0004074732480000029
与wt的余弦相似度,即/>
Figure FDA00040747324800000210
其中/>
Figure FDA00040747324800000211
为矩阵/>
Figure FDA00040747324800000212
的第i行;在加权观测隐马尔可夫模型HMM中,将包含加权观测权重信息的加权观测概率/>
Figure FDA00040747324800000213
代替原观测概率/>
Figure FDA00040747324800000214
则实现观测信息的融合;
隐状态转移矩阵为
Figure FDA00040747324800000215
且/>
Figure FDA00040747324800000216
其中
Figure FDA00040747324800000217
表示t到t+1时刻,隐状态由hi转移到hj的概率;
观测向量
Figure FDA00040747324800000218
其中/>
Figure FDA00040747324800000219
表示隐状态观测到oi的权值,/>
Figure FDA00040747324800000220
Figure FDA00040747324800000221
初始概率分布为
Figure FDA00040747324800000222
且/>
Figure FDA00040747324800000223
其中/>
Figure FDA00040747324800000224
为初始时刻隐状态为hi的概率;
步骤6:由己方模型fself得到己方策略函数πself和己方价值函数Vself,并根据己方策略函数进行动作采样后并执行aself←πself
Figure FDA00040747324800000225
其中,θself是fself的网络参数;aself是己方采取的动作;
步骤7:从博弈环境中得到即时收益、下一个时间步的环境信息,将经验存入在线学习历史策略集合
Figure FDA00040747324800000226
中;
步骤8:根据智能体获得的奖励rt i,利用A3C算法更新己方模型fself与对手模型fother中的网络参数θself与θother
步骤9:判断当前时刻是否为终止状态;若不是,则更新时间步,回转执行步骤4;否则,本轮训练结束,继续判断整体训练是否结束;若未结束,回转执行步骤3,若结束训练,顺序执行步骤10;
步骤10:判断是否需要对智能体进行离线训练;若继续,顺序执行步骤11,否则,结束;
步骤11:根据在线学习历史策略集合
Figure FDA0004074732480000031
对对手和己方智能体进行离线学习,从而迭代优化己方模型和对手模型;
步骤12:判断是否继续进行在线训练;若己方胜率小于阈值,则继续进行在线训练,回转执行步骤3;否则结束。
2.根据权利要求1所述的基于深度强化学习的对手行为策略建模方法,其特征在于:步骤4中,
Figure FDA0004074732480000032
其中,/>
Figure FDA0004074732480000033
为初始时随机初始化的对对手目标的估计,并通过softmax()函数进行分类分布采样,然后采用one_hot()函数通过独热编码的方式进行编码,对采样得到的离散结果进行特征数字化;Argmax()函数是求括号内的函数取得最大值时的自变量点集。
3.根据权利要求1所述的基于深度强化学习的对手行为策略建模方法,其特征在于:步骤5中,所述加权观测隐马尔可夫模型HMM,为训练好的加权观测隐马尔可夫模型HMM;训练时首先初始化不同决策意图对应的加权观测隐马尔可夫模型HMM参数{λ12,...,λn},然后从训练样本中提取观测序列来对加权观测隐马尔可夫模型HMM参数进行重估计,直到加权观测隐马尔可夫模型HMM收敛。
4.根据权利要求1所述的基于深度强化学习的对手行为策略建模方法,其特征在于:步骤5中,不同的决策意图对应于不同的加权观测隐马尔可夫模型HMM,已知不同加权观测隐马尔可夫模型HMM的参数{λ12,…,λn},观测向量O和观测序列L的条件下,计算出不同加权观测隐马尔可夫模型HMM下观测序列为L的概率
Figure FDA0004074732480000034
通过比较概率来得出最有可能的决策意图;
首先在初始阶段计算t=1时刻的前向概率
Figure FDA0004074732480000035
接着根据递推公式计算全时刻的前向概率/>
Figure FDA0004074732480000036
最后将求得的全时刻的前向概率αt(hk)求和即可得观测序列概率PL+=αT(hk)。
5.根据权利要求1所述的基于深度强化学习的对手行为策略建模方法,其特征在于,步骤11的具体实现包括以下子步骤:
步骤11.1:基于历史策略集合
Figure FDA0004074732480000041
需要训练的智能体nlearning,生成对手智能体集合N={n1,n2,...,nk};
步骤11.2:计算需要对抗的智能体数量num_opponents;
Figure FDA0004074732480000042
其中,len(N)表示当前己方智能体的数量,max_agents表示最大智能体数量,其数量不小于100;
步骤11.3:计算智能体nlearning对智能体集合N中每一个智能体nj的胜率;
Figure FDA0004074732480000043
其中,game_times为博弈的总次数;当第k局己方智能体nlearning赢了对手智能体nj的时候,flag(nlearning,nj,k)=1,否则为0;
步骤11.4:通过设置f:[0,1]→[0,+∞)权重函数的不同形式,让正在学习的智能体nlearning关注不同实力的对手,具体表示为:
f(P[nlearning beatsnj]);
其中,设置fhard(P[nlearning beatsnj])=(1-x)p,将使得正在学习的智能体nlearning更加关注厉害的对手,p是一个常数,反映了熵的分布情况,x表示己方智能体nlearning打败智能体nj的胜率;
设置fvar(P[nlearning beatsnj])=x(1-x),将使得正在学习的智能体nlearning关注那些实力相近的对手,当胜率越接近时,被挑选的概率越大。
步骤11.5:设置对手优先级,在离线学习的前期多智能体多选择和自己水平相近的对手,在离线学习的后期,重点选择实力更强的对手;按如下的函数决定f的选取,相关设定如下:
Figure FDA0004074732480000044
其中,j表示智能体集合N中的第j个智能体,threshold为大于0.5的常数;
步骤11.6:重复执行步骤11.7~11.8num_opponents次;
步骤11.7:依据优先级从智能体集合中随机选出一个对手智能体nopponent
步骤11.8:按照对手类型的不同,采用不同的对抗设定让napponent和nlearning进行虚拟博弈,不断更新两个智能体的策略;其中,nlearning表示己方智能体。
6.根据权利要求5所述的基于深度强化学习的对手行为策略建模方法,其特征在于,步骤11.8的具体实现包括以下子步骤:
步骤11.8.1:初始化nopponent的策略集合、经验池、策略网络Π、价值函数Q和napponent的最终目标:
步骤11.8.2:nlearning使用策略集合Π中的动作:actionlearning←πlearning
步骤11.8.3:nopponent使用的混合策略采样动作:actionopponent←σopponent,混合策略采样动作为:使用参数为α的概率输出一个混合策略σ,即:
σ=αΠ+(1-α)Q;
步骤11.8.4:执行动作:actionlearning,actionopponent
步骤11.8.5:推测对手智能体的目标:
Figure FDA0004074732480000051
其中,gumbel_softmax()为采样函数,对离散的对手目标
Figure FDA0004074732480000052
进行采样;
步骤11.8.6:根据对手的观察oopponent、对手的最终目标
Figure FDA0004074732480000053
己方目标gself、对手决策意图的估计/>
Figure FDA0004074732480000054
己方决策意图的估计Ilearning,得到对手智能体策略的推测/>
Figure FDA0004074732480000055
Figure FDA0004074732480000056
步骤11.8.7:根据推测的对手智能体的策略
Figure FDA0004074732480000057
和对手智能体的真实的动作aother计算损失:
Figure FDA0004074732480000058
其中,cross_entropy_loss()为交叉熵损失函数;
步骤11.8.8:更新对手智能体的目标估计
Figure FDA0004074732480000059
步骤11.8.9:根据获得的回报及状态信息,使用深度强化学习更新对手智能体的策略,即更新智能体nopponent;根据获得的回报更新θlearning,即更新智能体nlearning
模块11.8.10:将迭代优化后的智能体nlearning和nopponent作为新的己方和对手模型。
7.一种基于深度强化学习的对手行为策略建模系统,其特征在于,包括以下模块:
模块1,用于将动态博弈环境下的对手行为策略建模为部分可观测马尔可夫博弈;
所述部分可观测马尔可夫博弈为元组<N,S,A,T,R,Ω,O,γ>,其中,N是智能体集合,S是状态集合,A是动作集合,T是状态之间的条件转移概率集合,R:S×A→R是奖励函数,Ω是观察集合,O是条件观察概率集合,γ∈(0,1]是折扣因子;
在每个时间段,环境处于某种状态s∈S,智能体采取动作a1,a2,…,aN∈A,导致环境转换到状态s'的概率为T(s′∣s,a1,a2,…,aN);每个智能体i接收观察oi∈Ω的概率分别为O(oi∣s′,a1,a2,…,aN);智能体i接收奖励r等于R(s,ai);每个智能体i尝试最大化它从时间t开始的累积奖励
Figure FDA0004074732480000061
rt i表示智能体i在时间t时获得的奖励,γt表示智能体i在时间t时的折扣因子;
模块2,用于初始化己方模型、对手模型和在线学习历史策略集合
Figure FDA00040747324800000611
所述己方模型,由策略学习网络和价值学习网络两部分组成;其中策略学习网络用于预测己方动作的概率分布,价值学习网络用于预测价值函数;两个网络共享输入层和前两个隐藏层,前两个隐藏层均包含128个神经元且采用Relu函数激活;第二个隐藏层的输出经激活后会进入策略学习网络和价值学习网络各自的隐藏层,然后输出策略概率分布πself和价值Vself;所述策略学习网络和价值学习网络的第三个隐藏层均由64个神经元组成且采用Relu函数激活,策略学习网络的输出层采用Softmax函数激活;
所述己方模型输入己方的观察oself、己方的目标gself、对对手目标的估计
Figure FDA0004074732480000062
己方的决策意图Iself和对对手决策意图的估计/>
Figure FDA0004074732480000063
输出己方的策略πself和价值函数Vself
所述对手模型,由策略学习网络组成;
所述对手模型输入对手的观察oother,对对手最终目标的估计
Figure FDA0004074732480000064
己方的目标gself、对对手决策意图的估计/>
Figure FDA0004074732480000065
和己方的决策意图Iself,输出对对手策略的推测/>
Figure FDA0004074732480000066
模块3,用于初始化博弈环境;
模块4,用于获取当前时间步己方和对手的观测、对对手最终目标的估计
Figure FDA0004074732480000067
模块5,用于根据对手的观测序列使用意图识别方法获取其决策意图;
实时采集交互行为的观测信息,并输入到加权观测隐马尔可夫模型HMM中,使用前向-后向算法得出决策意图;
所述加权观测隐马尔可夫模型HMM由观测矩阵
Figure FDA0004074732480000068
隐状态转移矩阵/>
Figure FDA0004074732480000069
初始观测向量W和初始概率分布μ组成,即/>
Figure FDA00040747324800000610
隐状态集为H={h1,h2,…,hN},观测集为Ω={o1,o2,…,oM},其中N为隐状态的数量,M为观测值的数量;
其中,对应于经典HMM模型,观测矩阵为
Figure FDA0004074732480000071
有/>
Figure FDA0004074732480000072
且/>
Figure FDA0004074732480000073
其中/>
Figure FDA0004074732480000074
表示在隐状态hi下观测到oj的概率;引入加权观测概率分布
Figure FDA0004074732480000075
表示在wt条件下,隐状态hi观测到lt的概率,定义加权观测概率为phi与wt的余弦相似度,即/>
Figure FDA0004074732480000076
其中/>
Figure FDA0004074732480000077
为矩阵/>
Figure FDA0004074732480000078
的第i行;在加权观测隐马尔可夫模型HMM中,将包含加权观测权重信息的加权观测概率/>
Figure FDA0004074732480000079
代替原观测概率/>
Figure FDA00040747324800000710
则实现观测信息的融合;
隐状态转移矩阵为
Figure FDA00040747324800000711
且/>
Figure FDA00040747324800000712
其中
Figure FDA00040747324800000713
表示t到t+1时刻,隐状态由hi转移到hj的概率;
观测向量
Figure FDA00040747324800000714
其中/>
Figure FDA00040747324800000715
表示隐状态观测到oi的权值,/>
Figure FDA00040747324800000716
Figure FDA00040747324800000717
初始概率分布为
Figure FDA00040747324800000718
且/>
Figure FDA00040747324800000719
其中/>
Figure FDA00040747324800000720
为初始时刻隐状态为hi的概率;
模块6,用于由己方模型fself得到己方策略函数πself和己方价值函数Vself,并根据己方策略函数进行动作采样后并执行aself←πself
Figure FDA00040747324800000721
其中,θself是fself的网络参数;aself是己方采取的动作;
模块7,用于从博弈环境中得到即时收益、下一个时间步的环境信息,将经验存入在线学习历史策略集合
Figure FDA00040747324800000722
中;
模块8,用于根据智能体获得的奖励rt i,利用A3C算法更新己方模型fself与对手模型fother中的网络参数θself与θother
模块9,用于判断当前时刻是否为终止状态;若不是,则更新时间步,回转执行模块4;否则,本轮训练结束,继续判断整体训练是否结束;若未结束,回转执行模块3,若结束训练,顺序执行模块10;
模块10,用于判断是否需要对智能体进行离线训练;若继续,顺序执行模块11,否则,结束;
模块11,用于执行根据在线学习历史策略集合
Figure FDA0004074732480000081
对对手和己方智能体进行离线学习,从而迭代优化己方模型和对手模型;
模块12,用于判断是否继续进行在线训练;若己方胜率小于阈值,则继续进行在线训练,回转执行步骤3;否则结束。
CN202310105519.5A 2023-02-08 2023-02-08 一种基于深度强化学习的对手行为策略建模方法及系统 Pending CN116205298A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310105519.5A CN116205298A (zh) 2023-02-08 2023-02-08 一种基于深度强化学习的对手行为策略建模方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310105519.5A CN116205298A (zh) 2023-02-08 2023-02-08 一种基于深度强化学习的对手行为策略建模方法及系统

Publications (1)

Publication Number Publication Date
CN116205298A true CN116205298A (zh) 2023-06-02

Family

ID=86514123

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310105519.5A Pending CN116205298A (zh) 2023-02-08 2023-02-08 一种基于深度强化学习的对手行为策略建模方法及系统

Country Status (1)

Country Link
CN (1) CN116205298A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116708042A (zh) * 2023-08-08 2023-09-05 中国科学技术大学 一种用于网络防御博弈决策的策略空间探索方法
CN117227763A (zh) * 2023-11-10 2023-12-15 新石器慧通(北京)科技有限公司 基于博弈论和强化学习的自动驾驶行为决策方法和装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116708042A (zh) * 2023-08-08 2023-09-05 中国科学技术大学 一种用于网络防御博弈决策的策略空间探索方法
CN116708042B (zh) * 2023-08-08 2023-11-17 中国科学技术大学 一种用于网络防御博弈决策的策略空间探索方法
CN117227763A (zh) * 2023-11-10 2023-12-15 新石器慧通(北京)科技有限公司 基于博弈论和强化学习的自动驾驶行为决策方法和装置
CN117227763B (zh) * 2023-11-10 2024-02-20 新石器慧通(北京)科技有限公司 基于博弈论和强化学习的自动驾驶行为决策方法和装置

Similar Documents

Publication Publication Date Title
Shao et al. Starcraft micromanagement with reinforcement learning and curriculum transfer learning
CN112668235B (zh) 基于离线模型预训练学习的ddpg算法的机器人控制方法
Hessel et al. Multi-task deep reinforcement learning with popart
CN116205298A (zh) 一种基于深度强化学习的对手行为策略建模方法及系统
CN108921298B (zh) 强化学习多智能体沟通与决策方法
CN111282267B (zh) 信息处理方法、装置、介质及电子设备
CN109840595B (zh) 一种基于群体学习行为特征的知识追踪方法
CN112434171A (zh) 一种基于强化学习的知识图谱推理补全方法及系统
CN113570039B (zh) 一种基于强化学习的优化共识的区块链系统
Zhao et al. Aspw-drl: assembly sequence planning for workpieces via a deep reinforcement learning approach
Zhang et al. A review of soft computing based on deep learning
Mousavi et al. Applying q (λ)-learning in deep reinforcement learning to play atari games
CN115033878A (zh) 快速自博弈强化学习方法、装置、计算机设备和存储介质
CN116306902A (zh) 时序数据环境分析及决策方法、装置、设备及存储介质
CN116643499A (zh) 一种基于模型强化学习的智能体路径规划方法及系统
Liu et al. Forward-looking imaginative planning framework combined with prioritized-replay double DQN
CN115936058A (zh) 一种基于图注意力网络的多智能体迁移强化学习方法
Hook et al. Deep Multi-Critic Network for accelerating Policy Learning in multi-agent environments
Stoppels Predicting race results using artificial neural networks
Mandal et al. S-system based gene regulatory network reconstruction using firefly algorithm
Burch A survey of machine learning
Zolna et al. Reinforced imitation learning from observations
CN116560239B (zh) 一种多智能体强化学习方法、装置及介质
Kim et al. Strangeness-driven exploration in multi-agent reinforcement learning
Klein et al. A computational neural model of goal-directed utterance selection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination