CN116205298A - 一种基于深度强化学习的对手行为策略建模方法及系统 - Google Patents
一种基于深度强化学习的对手行为策略建模方法及系统 Download PDFInfo
- Publication number
- CN116205298A CN116205298A CN202310105519.5A CN202310105519A CN116205298A CN 116205298 A CN116205298 A CN 116205298A CN 202310105519 A CN202310105519 A CN 202310105519A CN 116205298 A CN116205298 A CN 116205298A
- Authority
- CN
- China
- Prior art keywords
- opponent
- learning
- observation
- self
- agent
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/06—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
- G06N3/061—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using biological neurons, e.g. biological neurons connected to an integrated circuit
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Abstract
本发明公开了一种基于深度强化学习的对手行为策略建模方法及系统。首先将动态博弈环境下的对手行为建模为部分可观测马尔可夫博弈,通过在线学习实时地获取环境信息来动态地构建己方模型和对手模型,并在博弈过程中通过意图识别实时地获取对手决策意图。然后利用大量历史行为数据,通过离线学习来迭代优化己方模型和对手模型。其中在线学习和离线学习相互促进,共同训练出一个能感知对手决策意图的对手行为模型。本发明公开的对手建模方法能在先验知识贫乏、可观测性差的动态博弈环境下,实现通过在线学习构建对手行为模型的能力、基于虚拟自博弈实现通过离线学习优化己方模型和对手行为模型的能力和实现实时采集交互行为获取决策意图的能力。
Description
技术领域
本发明属于人工智能技术领域,涉及一种对手行为策略建模方法及系统,具体涉及一种基于深度强化学习的对手行为策略建模方法及系统。
背景技术
近年来,人工智能技术的进步引领多智能体博弈领域飞速发展。例如:AlphaGo在完全信息的围棋博弈中战胜人类选手李世石;AlphaZero通过自博弈强化学习的方法击败了AlphaGo;德州扑克博弈程序DeepStack和Libratus在一种不完全信息博弈中打败了职业选手等等。在游戏人工智能、自动驾驶、机器人集群控制等应用场景的多智能体系统中,智能体具有感知、决策、行动等多种能力。但是随着博弈的规模扩大,解析和逼近最佳策略都存在着巨大的挑战。其中,多智能体博弈的策略学习往往需要通过观察其他智能体,建立除自身以外的其他智能体抽象模型,推理其行为、意图等,此过程就涉及到对手行为策略建模。因此多智能体博弈的策略学习需着力研究对手行为策略建模,以不断提升对抗能力。
建立对手行为策略模型是为了使智能体能够适应对手并利用其弱点来提高智能体的决策能力。目前现有的对手行为策略建模技术大致可以分为显式建模、隐式建模、基于多智能体强化学习的建模方法。首先,显式对手行为策略建模可看作一个通过输入可观测到的智能体的历史交互信息,输出对智能体行为、目的、偏好的预测,常用的显式对手行为策略建模方法可以分为计划行动意图识别方法、行为分类与类型推理方法、策略重构方法、认知推理方法、博弈最佳响应方法等。但是,显式对手行为策略建模将建模和规划过程分离,在先验知识缺乏的情况下,无法有效利用已有的信息进行决策。因此,区别于显式对手行为策略建模,隐式对手行为策略建模是将对手的某些特征隐式地编码到其它结构或者推理过程中,它试图找到一个好的对抗策略而不需要直接识别对手的策略。常用的隐式对手行为策略建模方法大致可以分为基于元学习的隐式对手建模方法,在线对抗的隐式建模方法和基于对手感知的隐式建模方法。最后,多智能体强化学习相关的研究成果也不断地应用于对手行为策略建模问题中。深度强化学习有机地结合了深度学习与强化学习,前者能够增强感知与表达能力,后者提供最优决策能力,使得基于深度强化学习的对手行为策略建模技术对复杂环境中其他智能体具有更好的认知能力。
一个复杂多变的动态博弈环境往往存在着环境信息不确定、对手不停的产生新的对抗策略等问题,导致己方难以得到对手行为的先验知识。同时由于受到环境的干扰、对手欺骗等因素的影响,导致己方难以观察到整个博弈环境。这些问题都充分显示了博弈环境中充满着不确定性和部分可观测性。
结合以上情况,现有对手行为策略建模的相关技术并不适用于先验知识贫乏、可观测性差的复杂博弈环境。首先,一些技术的建模假设条件过于理想,难以应对具有高度动态性、部分可观测性的动态博弈环境;其次,传统的对手行为策略建模方法要求大量的先验知识以构建一个好的对手行为策略模型,对于本身的经验学习、规律形成机制探索不足,即未考虑先验知识缺乏下进行自我学习;最后,许多对手行为策略建模研究都缺乏对敌方意图的识别。
发明内容
本发明的目的在于提供一种基于深度强化学习的对手行为策略建模方法及系统,用于解决下述技术问题:在先验知识贫乏、部分可观测性的动态博弈环境下,实现通过在线学习构建对手行为模型的能力;基于在线学习得到的历史数据,实现通过离线学习优化对手行为模型的能力;在构建对手行为模型的同时实现实时采集交互行为获取决策意图的能力。
本发明的方法所采用的技术方案是:一种基于深度强化学习的对手行为策略建模方法,包括以下步骤:
步骤1:将动态博弈环境下的对手行为策略建模为部分可观测马尔可夫博弈;
所述部分可观测马尔可夫博弈为元组<N,S,A,T,R,Ω,O,γ>,其中,N是智能体集合,S是状态集合,A是动作集合,T是状态之间的条件转移概率集合,R:S×A→R是奖励函数,Ω是观察集合,O是条件观察概率集合,γ∈(0,1]是折扣因子;
在每个时间段,环境处于某种状态s∈S,智能体采取动作a1,a2,…,aN∈A,导致环境转换到状态s'的概率为T(s′∣s,a1,a2,…,aN);每个智能体i接收观察oi∈Ω的概率分别为O(oi∣s′,a1,a2,…,aN);智能体i接收奖励r等于R(s,ai);每个智能体i尝试最大化它从时间t开始的累积奖励 表示智能体i在时间t时获得的奖励,γt表示智能体i在时间t时的折扣因子;
所述己方模型,由策略学习网络和价值学习网络两部分组成;其中策略学习网络用于预测己方动作的概率分布,价值学习网络用于预测价值函数;两个网络共享输入层和前两个隐藏层,前两个隐藏层均包含128个神经元且采用Relu函数激活;第二个隐藏层的输出经激活后会进入策略学习网络和价值学习网络各自的隐藏层,然后输出策略概率分布πself和价值Vself;所述策略学习网络和价值学习网络的第三个隐藏层均由64个神经元组成且采用Relu函数激活,策略学习网络的输出层采用Softmax函数激活;
所述对手模型,由策略学习网络组成;
步骤3:初始化博弈环境;
步骤5:根据对手的观测序列使用意图识别方法获取其决策意图;
实时采集交互行为的观测信息,并输入到加权观测隐马尔可夫模型HMM中,使用前向-后向算法得出决策意图;
所述加权观测隐马尔可夫模型HMM由观测矩阵隐状态转移矩阵/>初始观测向量W和初始概率分布μ组成,即/>隐状态集为H={h1,h2,…,hN},观测集为Ω={o1,o2,…,oM},其中N为隐状态的数量,M为观测值的数量;
其中,对应于经典HMM模型,观测矩阵为 且/>其中/>表示在隐状态hi下观测到oj的概率;引入加权观测概率分布表示在wt条件下,隐状态hi观测到lt的概率,定义加权观测概率为phi与wt的余弦相似度,即/>其中/>为矩阵/>的第i行;在加权观测隐马尔可夫模型HMM中,将包含加权观测权重信息的加权观测概率/>代替原观测概率/>则实现观测信息的融合;
步骤6:由己方模型fself得到己方策略函数πself和己方价值函数Vself,并根据己方策略函数进行动作采样后并执行aself←πself;
其中,θself是fself的网络参数;aself是己方采取的动作;
步骤9:判断当前时刻是否为终止状态;若不是,则更新时间步,回转执行步骤4;否则,本轮训练结束,继续判断整体训练是否结束;若未结束,回转执行步骤3,若结束训练,顺序执行步骤10;
步骤10:判断是否需要对智能体进行离线训练;若继续,顺序执行步骤11,否则,结束;
步骤12:判断是否继续进行在线训练;若己方胜率小于阈值,则继续进行在线训练,回转执行步骤3;否则结束。
本发明的系统所采用的技术方案是:一种基于深度强化学习的对手行为策略建模系统,包括以下模块:
模块1,用于将动态博弈环境下的对手行为策略建模为部分可观测马尔可夫博弈;
所述部分可观测马尔可夫博弈为元组<N,S,A,T,R,Ω,O,γ>,其中,N是智能体集合,S是状态集合,A是动作集合,T是状态之间的条件转移概率集合,R:S×A→R是奖励函数,Ω是观察集合,O是条件观察概率集合,γ∈(0,1]是折扣因子;
在每个时间段,环境处于某种状态s∈S,智能体采取动作a1,a2,…,aN∈A,导致环境转换到状态s'的概率为T(s′∣s,a1,a2,…,aN);每个智能体i接收观察oi∈Ω的概率分别为O(oi∣s′,a1,a2,…,aN);智能体i接收奖励r等于R(s,ai);每个智能体i尝试最大化它从时间t开始的累积奖励 表示智能体i在时间t时获得的奖励,γt表示智能体i在时间t时的折扣因子;
所述己方模型,由策略学习网络和价值学习网络两部分组成;其中策略学习网络用于预测己方动作的概率分布,价值学习网络用于预测价值函数;两个网络共享输入层和前两个隐藏层,前两个隐藏层均包含128个神经元且采用Relu函数激活;第二个隐藏层的输出经激活后会进入策略学习网络和价值学习网络各自的隐藏层,然后输出策略概率分布πself和价值Vself;所述策略学习网络和价值学习网络的第三个隐藏层均由64个神经元组成且采用Relu函数激活,策略学习网络的输出层采用Softmax函数激活;
所述对手模型,由策略学习网络组成;
模块3,用于初始化博弈环境;
模块5,用于根据对手的观测序列使用意图识别方法获取其决策意图;
实时采集交互行为的观测信息,并输入到加权观测隐马尔可夫模型HMM中,使用前向-后向算法得出决策意图;
所述加权观测隐马尔可夫模型HMM由观测矩阵隐状态转移矩阵/>初始观测向量W和初始概率分布μ组成,即/>隐状态集为H={h1,h2,…,hN},观测集为Ω={o1,o2,…,oM},其中N为隐状态的数量,M为观测值的数量;
其中,对应于经典HMM模型,观测矩阵为有/>且/>其中/>表示在隐状态hi下观测到oj的概率;引入加权观测概率分布/>表示在wt条件下,隐状态hi观测到lt的概率,定义加权观测概率为/>与wt的余弦相似度,即/>其中/>为矩阵/>的第i行;在加权观测隐马尔可夫模型HMM中,将包含加权观测权重信息的加权观测概率/>代替原观测概率则实现观测信息的融合;
模块6,用于由己方模型fself得到己方策略函数πself和己方价值函数Vself,并根据己方策略函数进行动作采样后并执行aself←πself;
其中,θself是fself的网络参数;aself是己方采取的动作;
模块9,用于判断当前时刻是否为终止状态;若不是,则更新时间步,回转执行模块4;否则,本轮训练结束,继续判断整体训练是否结束;若未结束,回转执行模块3,若结束训练,顺序执行模块10;
模块10,用于判断是否需要对智能体进行离线训练;若继续,顺序执行模块11,否则,结束;
模块12:用于判断是否继续进行在线训练;若己方胜率小于阈值,则继续进行在线训练,回转执行步骤3;否则结束。
本发明围绕动态博弈环境下的对手建模问题,利用深度强化学习技术提出了一种对手建模方法。具体地,本发明首先将动态博弈环境下的对手行为建模为部分可观测马尔可夫博弈,通过在线学习实时地获取环境信息来动态地构建己方模型和对手模型,并在博弈过程中通过意图识别方法实时地获取对手决策意图以学习其策略。然后利用在线学习时的大量历史行为数据,通过离线学习来迭代优化己方模型和对手模型。其中在线学习和离线学习相互促进,共同训练出一个能感知对手决策意图的对手行为模型。本发明不仅考虑了高度动态性、部分可观测性的博弈环境,还考虑了在构建对手行为模型时先验知识贫乏的情况。该对手建模方法能在先验知识贫乏、可观测性差的动态博弈环境下,实现通过在线学习构建对手行为模型的能力、基于虚拟自博弈实现通过离线学习优化己方模型和对手行为模型的能力和实现实时采集交互行为获取决策意图的能力。
相比于现有的对手建模方法,首先,本发明公开的基于深度强化学习的对手建模方法不依赖于特定领域知识,即构建了一个通用的对手建模框架。其次,本发明能应用到先验知识贫乏、可观测性差的动态博弈环境中,在较好地适应动态变化的对手策略的同时利用其弱点制定己方相应的反制策略。最后,本发明实现了对手决策意图实时识别模块,该模块能准确、高效地感知对手意图,有助于进一步提升己方智能体的决策能力。
附图说明
图1为本发明实施例的方法流程图;
图2为本发明实施例的己方模型结构图;
图3为本发明实施例的对手模型结构图。
具体实施方式
为了便于本领域普通技术人员理解和实施本发明,下面结合附图及实施例对本发明作进一步的详细描述,应当理解,此处所描述的实施示例仅用于说明和解释本发明,并不用于限定本发明。
请见图1,本发明提供的一种基于深度强化学习的对手行为策略建模方法,包括以下步骤:
步骤1:将动态博弈环境下的对手行为策略建模为部分可观测马尔可夫博弈;
部分可观测马尔可夫博弈为元组<N,S,A,T,R,Ω,O,γ>,其中,N是智能体集合,S是状态集合,A是动作集合,T是状态之间的条件转移概率集合,R:S×A→R是奖励函数,Ω是观察集合,O是条件观察概率集合,γ∈(0,1]是折扣因子;
在每个时间段,环境处于某种状态s∈S,智能体采取动作a1,a2,…,aN∈A,导致环境转换到状态s'的概率为T(s′∣s,a1,a2,…,aN);每个智能体i接收观察oi∈Ω的概率分别为O(oi∣s′,a1,a2,…,aN),它取决于环境的新状态;智能体i接收奖励r等于R(s,ai),然后重复该过程;每个智能体i尝试最大化它从时间t开始的累积奖励 表示智能体i在时间t时获得的奖励,γt表示智能体i在时间t时的折扣因子;
请见图2,本实施例的己方模型,由策略学习网络和价值学习网络两部分组成;其中策略学习网络用于预测己方动作的概率分布,价值学习网络用于预测价值函数;两个网络共享输入层和前两个隐藏层,前两个隐藏层均包含128个神经元且采用Relu函数激活;第二个隐藏层的输出经激活后会进入策略学习网络和价值学习网络各自的隐藏层,然后输出策略概率分布πself和价值Vself;策略学习网络和价值学习网络的第三个隐藏层均由64个神经元组成且采用Relu函数激活,策略学习网络的输出层采用Softmax函数激活;
请见图3,本实施例的对手模型,由策略学习网络组成;
步骤3:初始化博弈环境;
其中,为初始时随机初始化的对对手目标的估计,并通过softmax()函数进行分类分布采样,然后采用one_hot()函数通过独热编码的方式进行编码,对采样得到的离散结果进行特征数字化;Argmax()函数是是求括号内的函数取得最大值时的自变量点集。
步骤5:根据对手的观测序列使用意图识别方法获取其决策意图;
实时采集交互行为的观测信息,并输入到加权观测隐马尔可夫模型HMM中,使用前向-后向算法(Forward-backward algorithm)得出决策意图;
本实施例的加权观测隐马尔可夫模型HMM由观测矩阵隐状态转移矩阵/>初始观测向量W和初始概率分布μ组成,即/>隐状态集为H={h1,h2,…,hN},观测集为Ω={o1,o2,…,oM},其中N为隐状态的数量,M为观测值的数量;
其中,对应于经典HMM模型,观测矩阵为有/>且其中/>表示在隐状态hi下观测到oj的概率;引入加权观测概率分布/>表示在wt条件下,隐状态hi观测到lt的概率,定义加权观测概率为/>与wt的余弦相似度,即/>其中/>为矩阵/>的第i行;在加权观测隐马尔可夫模型HMM中,将包含加权观测权重信息的加权观测概率/>代替原观测概率则实现观测信息的融合;/>
本实施例的不同的决策意图对应于不同的加权观测隐马尔可夫模型HMM,已知不同加权观测隐马尔可夫模型HMM的参数{λ1,λ2,…,λn},观测向量O和观测序列L的条件下,计算出不同加权观测隐马尔可夫模型HMM下观测序列为L的概率通过比较概率来得出最有可能的决策意图;
本实施例的加权观测隐马尔可夫模型HMM,为训练好的加权观测隐马尔可夫模型HMM;训练时首先初始化不同决策意图对应的加权观测隐马尔可夫模型HMM参数{λ1,λ2,...,λn},然后从训练样本中提取观测序列来对加权观测隐马尔可夫模型HMM参数进行重估计,直到加权观测隐马尔可夫模型HMM收敛。
步骤6:由己方模型fself得到己方策略函数πself和己方价值函数Vself,并根据己方策略函数进行动作采样后并执行aself←πself;
其中,θself是fself的网络参数;aself是己方采取的动作;
步骤9:判断当前时刻是否为终止状态;若不是,则更新时间步,回转执行步骤4;否则,本轮训练结束,继续判断整体训练是否结束;若未结束,回转执行步骤3,若结束训练,顺序执行步骤10;
步骤10:判断是否需要对智能体进行离线训练;若继续,顺序执行步骤11,否则,结束;
步骤11的具体实现包括以下子步骤:
步骤11.2:计算需要对抗的智能体数量num_opponents;
其中,len(N)表示当前己方智能体的数量,max_agents表示最大智能体数量,其数量不小于100;
步骤11.3:计算智能体nlearning对智能体集合N中每一个智能体nj的胜率;
其中,game_times为博弈的总次数;当第k局己方智能体nlearning赢了对手智能体nj的时候,flag(nlearning,nj,k)=1,否则为0;
步骤11.4:通过设置f:[0,1]→[0,+∞)权重函数的不同形式,让正在学习的智能体nlearning关注不同实力的对手,具体表示为:
f(P[nlearning beatsnj]);
其中,设置fhard(P[nlearning beatsnj])=(1-x)p,将使得正在学习的智能体nlearning更加关注厉害的对手,p是一个常数,反映了熵的分布情况,x表示己方智能体nlearning打败智能体nj的胜率;比如:对于一个胜率为0的智能体来说,P[nlearning beats nj]=1,从而fhard(1)=0,意味着实力越弱的对手被挑选的概率越小;
设置fvar(P[nlearning beats nj])=x(1-x),将使得正在学习的智能体nlearning关注那些实力相近的对手,当胜率越接近时,被挑选的概率越大;由函数的性质可知,当双方胜率持平时,被挑选作为对手的概率最大;
步骤11.5:设置对手优先级,在离线学习的前期多智能体多选择和自己水平相近的对手,在离线学习的后期,重点选择实力更强的对手;按如下的函数决定f的选取,相关设定如下:
其中,j表示智能体集合N中的第j个智能体,threshold为大于0.5的常数;
步骤11.6:重复执行步骤117~11.8num_opponents次;
步骤11.7:依据优先级从智能体集合中随机选出一个对手智能体nopponent;
步骤11.8:按照对手类型的不同,采用不同的对抗设定让napponent和nlearning进行虚拟博弈,不断更新两个智能体的策略;其中,nlearning表示己方智能体。
步骤11.8的具体实现包括以下子步骤:
步骤11.8.1:初始化nopponent的策略集合、经验池、策略函数Π和napponent的最终目标:
步骤11.8.2:nlearning使用策略集合Π中的动作:actionlearning←πlearning;
步骤11.8.3:nopponent使用的混合策略采样动作:actionopponent←σopponent,混合策略采样动作为:使用参数为α的概率输出一个混合策略σ,即:
σ=αΠ+(1-α)Q;
步骤11.8.4:执行动作:actionlearning,actionopponent;
步骤11.8.5:推测对手智能体的目标:
其中,gumbel_softmax()为现有的采样函数,其目的为:对离散的对手目标gopponent进行采样;
其中,cross_entropy_loss()为交叉熵损失函数;
步骤11.8.9:根据获得的回报及状态信息,使用深度强化学习更新对手智能体的策略,即更新智能体nopponent;根据获得的回报更新θlearning,即更新智能体nlearning;
模块11.8.10:将迭代优化后的智能体nlearning和nopponent作为新的己方和对手模型。
步骤12:判断是否继续进行在线训练;若己方胜率小于阈值,则继续进行在线训练,回转执行步骤3;否则结束。
本实例基于深度强化学习的对手建模方法,在先验知识贫乏、可观测性差的动态博弈环境下,实现了通过在线学习构建对手行为模型的能力、基于虚拟自博弈实现通过离线学习优化己方模型和对手行为模型的能力和实现实时采集交互行为获取决策意图的能力。
应当理解的是,上述针对较佳实施例的描述较为详细,并不能因此而认为是对本发明专利保护范围的限制,本领域的普通技术人员在本发明的启示下,在不脱离本发明权利要求所保护的范围情况下,还可以做出替换或变形,均落入本发明的保护范围之内,本发明的请求保护范围应以所附权利要求为准。
Claims (7)
1.一种基于深度强化学习的对手行为策略建模方法,其特征在于,包括以下步骤:
步骤1:将动态博弈环境下的对手行为策略建模为部分可观测马尔可夫博弈;
所述部分可观测马尔可夫博弈为元组<N,S,A,T,R,Ω,O,γ>,其中,N是智能体集合,S是状态集合,A是动作集合,T是状态之间的条件转移概率集合,R:S×A→R是奖励函数,Ω是观察集合,O是条件观察概率集合,γ∈(0,1]是折扣因子;
在每个时间段,环境处于某种状态s∈S,智能体采取动作a1,a2,…,aN∈A,导致环境转换到状态s'的概率为T(s′∣s,a1,a2,…,aN);每个智能体i接收观察oi∈Ω的概率分别为O(oi∣s′,a1,a2,…,aN);智能体i接收奖励r等于R(s,ai);每个智能体i尝试最大化它从时间t开始的累积奖励rt i表示智能体i在时间t时获得的奖励,γt表示智能体i在时间t时的折扣因子;
所述己方模型,由策略学习网络和价值学习网络两部分组成;其中策略学习网络用于预测己方动作的概率分布,价值学习网络用于预测价值函数;两个网络共享输入层和前两个隐藏层,前两个隐藏层均包含128个神经元且采用Relu函数激活;第二个隐藏层的输出经激活后会进入策略学习网络和价值学习网络各自的隐藏层,然后输出策略概率分布πself和价值Vself;所述策略学习网络和价值学习网络的第三个隐藏层均由64个神经元组成且采用Relu函数激活,策略学习网络的输出层采用Softmax函数激活;
所述对手模型,由策略学习网络组成;
步骤3:初始化博弈环境;
步骤5:根据对手的观测序列使用意图识别方法获取其决策意图;
实时采集交互行为的观测信息输入到加权观测隐马尔可夫模型HMM中,使用前向-后向算法得出决策意图;
所述加权观测隐马尔可夫模型HMM由观测矩阵隐状态转移矩阵/>初始观测向量W和初始概率分布μ组成,即/>隐状态集为H={h1,h2,…,hN},观测集为Ω={o1,o2,…,oM},其中N为隐状态的数量,M为观测值的数量;
其中,对应于经典HMM模型,观测矩阵为有/>且/>其中表示在隐状态hi下观测到oj的概率;引入加权观测概率分布表示在wt条件下,隐状态hi观测到lt的概率,定义加权观测概率为/>与wt的余弦相似度,即/>其中/>为矩阵/>的第i行;在加权观测隐马尔可夫模型HMM中,将包含加权观测权重信息的加权观测概率/>代替原观测概率/>则实现观测信息的融合;
步骤6:由己方模型fself得到己方策略函数πself和己方价值函数Vself,并根据己方策略函数进行动作采样后并执行aself←πself;
其中,θself是fself的网络参数;aself是己方采取的动作;
步骤8:根据智能体获得的奖励rt i,利用A3C算法更新己方模型fself与对手模型fother中的网络参数θself与θother;
步骤9:判断当前时刻是否为终止状态;若不是,则更新时间步,回转执行步骤4;否则,本轮训练结束,继续判断整体训练是否结束;若未结束,回转执行步骤3,若结束训练,顺序执行步骤10;
步骤10:判断是否需要对智能体进行离线训练;若继续,顺序执行步骤11,否则,结束;
步骤12:判断是否继续进行在线训练;若己方胜率小于阈值,则继续进行在线训练,回转执行步骤3;否则结束。
3.根据权利要求1所述的基于深度强化学习的对手行为策略建模方法,其特征在于:步骤5中,所述加权观测隐马尔可夫模型HMM,为训练好的加权观测隐马尔可夫模型HMM;训练时首先初始化不同决策意图对应的加权观测隐马尔可夫模型HMM参数{λ1,λ2,...,λn},然后从训练样本中提取观测序列来对加权观测隐马尔可夫模型HMM参数进行重估计,直到加权观测隐马尔可夫模型HMM收敛。
5.根据权利要求1所述的基于深度强化学习的对手行为策略建模方法,其特征在于,步骤11的具体实现包括以下子步骤:
步骤11.2:计算需要对抗的智能体数量num_opponents;
其中,len(N)表示当前己方智能体的数量,max_agents表示最大智能体数量,其数量不小于100;
步骤11.3:计算智能体nlearning对智能体集合N中每一个智能体nj的胜率;
其中,game_times为博弈的总次数;当第k局己方智能体nlearning赢了对手智能体nj的时候,flag(nlearning,nj,k)=1,否则为0;
步骤11.4:通过设置f:[0,1]→[0,+∞)权重函数的不同形式,让正在学习的智能体nlearning关注不同实力的对手,具体表示为:
f(P[nlearning beatsnj]);
其中,设置fhard(P[nlearning beatsnj])=(1-x)p,将使得正在学习的智能体nlearning更加关注厉害的对手,p是一个常数,反映了熵的分布情况,x表示己方智能体nlearning打败智能体nj的胜率;
设置fvar(P[nlearning beatsnj])=x(1-x),将使得正在学习的智能体nlearning关注那些实力相近的对手,当胜率越接近时,被挑选的概率越大。
步骤11.5:设置对手优先级,在离线学习的前期多智能体多选择和自己水平相近的对手,在离线学习的后期,重点选择实力更强的对手;按如下的函数决定f的选取,相关设定如下:
其中,j表示智能体集合N中的第j个智能体,threshold为大于0.5的常数;
步骤11.6:重复执行步骤11.7~11.8num_opponents次;
步骤11.7:依据优先级从智能体集合中随机选出一个对手智能体nopponent;
步骤11.8:按照对手类型的不同,采用不同的对抗设定让napponent和nlearning进行虚拟博弈,不断更新两个智能体的策略;其中,nlearning表示己方智能体。
6.根据权利要求5所述的基于深度强化学习的对手行为策略建模方法,其特征在于,步骤11.8的具体实现包括以下子步骤:
步骤11.8.1:初始化nopponent的策略集合、经验池、策略网络Π、价值函数Q和napponent的最终目标:
步骤11.8.2:nlearning使用策略集合Π中的动作:actionlearning←πlearning;
步骤11.8.3:nopponent使用的混合策略采样动作:actionopponent←σopponent,混合策略采样动作为:使用参数为α的概率输出一个混合策略σ,即:
σ=αΠ+(1-α)Q;
步骤11.8.4:执行动作:actionlearning,actionopponent;
步骤11.8.5:推测对手智能体的目标:
其中,cross_entropy_loss()为交叉熵损失函数;
步骤11.8.9:根据获得的回报及状态信息,使用深度强化学习更新对手智能体的策略,即更新智能体nopponent;根据获得的回报更新θlearning,即更新智能体nlearning;
模块11.8.10:将迭代优化后的智能体nlearning和nopponent作为新的己方和对手模型。
7.一种基于深度强化学习的对手行为策略建模系统,其特征在于,包括以下模块:
模块1,用于将动态博弈环境下的对手行为策略建模为部分可观测马尔可夫博弈;
所述部分可观测马尔可夫博弈为元组<N,S,A,T,R,Ω,O,γ>,其中,N是智能体集合,S是状态集合,A是动作集合,T是状态之间的条件转移概率集合,R:S×A→R是奖励函数,Ω是观察集合,O是条件观察概率集合,γ∈(0,1]是折扣因子;
在每个时间段,环境处于某种状态s∈S,智能体采取动作a1,a2,…,aN∈A,导致环境转换到状态s'的概率为T(s′∣s,a1,a2,…,aN);每个智能体i接收观察oi∈Ω的概率分别为O(oi∣s′,a1,a2,…,aN);智能体i接收奖励r等于R(s,ai);每个智能体i尝试最大化它从时间t开始的累积奖励rt i表示智能体i在时间t时获得的奖励,γt表示智能体i在时间t时的折扣因子;
所述己方模型,由策略学习网络和价值学习网络两部分组成;其中策略学习网络用于预测己方动作的概率分布,价值学习网络用于预测价值函数;两个网络共享输入层和前两个隐藏层,前两个隐藏层均包含128个神经元且采用Relu函数激活;第二个隐藏层的输出经激活后会进入策略学习网络和价值学习网络各自的隐藏层,然后输出策略概率分布πself和价值Vself;所述策略学习网络和价值学习网络的第三个隐藏层均由64个神经元组成且采用Relu函数激活,策略学习网络的输出层采用Softmax函数激活;
所述对手模型,由策略学习网络组成;
模块3,用于初始化博弈环境;
模块5,用于根据对手的观测序列使用意图识别方法获取其决策意图;
实时采集交互行为的观测信息,并输入到加权观测隐马尔可夫模型HMM中,使用前向-后向算法得出决策意图;
所述加权观测隐马尔可夫模型HMM由观测矩阵隐状态转移矩阵/>初始观测向量W和初始概率分布μ组成,即/>隐状态集为H={h1,h2,…,hN},观测集为Ω={o1,o2,…,oM},其中N为隐状态的数量,M为观测值的数量;
其中,对应于经典HMM模型,观测矩阵为有/>且/>其中/>表示在隐状态hi下观测到oj的概率;引入加权观测概率分布表示在wt条件下,隐状态hi观测到lt的概率,定义加权观测概率为phi与wt的余弦相似度,即/>其中/>为矩阵/>的第i行;在加权观测隐马尔可夫模型HMM中,将包含加权观测权重信息的加权观测概率/>代替原观测概率/>则实现观测信息的融合;
模块6,用于由己方模型fself得到己方策略函数πself和己方价值函数Vself,并根据己方策略函数进行动作采样后并执行aself←πself;
其中,θself是fself的网络参数;aself是己方采取的动作;
模块8,用于根据智能体获得的奖励rt i,利用A3C算法更新己方模型fself与对手模型fother中的网络参数θself与θother;
模块9,用于判断当前时刻是否为终止状态;若不是,则更新时间步,回转执行模块4;否则,本轮训练结束,继续判断整体训练是否结束;若未结束,回转执行模块3,若结束训练,顺序执行模块10;
模块10,用于判断是否需要对智能体进行离线训练;若继续,顺序执行模块11,否则,结束;
模块12,用于判断是否继续进行在线训练;若己方胜率小于阈值,则继续进行在线训练,回转执行步骤3;否则结束。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310105519.5A CN116205298A (zh) | 2023-02-08 | 2023-02-08 | 一种基于深度强化学习的对手行为策略建模方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310105519.5A CN116205298A (zh) | 2023-02-08 | 2023-02-08 | 一种基于深度强化学习的对手行为策略建模方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116205298A true CN116205298A (zh) | 2023-06-02 |
Family
ID=86514123
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310105519.5A Pending CN116205298A (zh) | 2023-02-08 | 2023-02-08 | 一种基于深度强化学习的对手行为策略建模方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116205298A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116708042A (zh) * | 2023-08-08 | 2023-09-05 | 中国科学技术大学 | 一种用于网络防御博弈决策的策略空间探索方法 |
CN117227763A (zh) * | 2023-11-10 | 2023-12-15 | 新石器慧通(北京)科技有限公司 | 基于博弈论和强化学习的自动驾驶行为决策方法和装置 |
-
2023
- 2023-02-08 CN CN202310105519.5A patent/CN116205298A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116708042A (zh) * | 2023-08-08 | 2023-09-05 | 中国科学技术大学 | 一种用于网络防御博弈决策的策略空间探索方法 |
CN116708042B (zh) * | 2023-08-08 | 2023-11-17 | 中国科学技术大学 | 一种用于网络防御博弈决策的策略空间探索方法 |
CN117227763A (zh) * | 2023-11-10 | 2023-12-15 | 新石器慧通(北京)科技有限公司 | 基于博弈论和强化学习的自动驾驶行为决策方法和装置 |
CN117227763B (zh) * | 2023-11-10 | 2024-02-20 | 新石器慧通(北京)科技有限公司 | 基于博弈论和强化学习的自动驾驶行为决策方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Shao et al. | Starcraft micromanagement with reinforcement learning and curriculum transfer learning | |
CN112668235B (zh) | 基于离线模型预训练学习的ddpg算法的机器人控制方法 | |
Hessel et al. | Multi-task deep reinforcement learning with popart | |
CN116205298A (zh) | 一种基于深度强化学习的对手行为策略建模方法及系统 | |
CN108921298B (zh) | 强化学习多智能体沟通与决策方法 | |
CN111282267B (zh) | 信息处理方法、装置、介质及电子设备 | |
CN109840595B (zh) | 一种基于群体学习行为特征的知识追踪方法 | |
CN112434171A (zh) | 一种基于强化学习的知识图谱推理补全方法及系统 | |
CN113570039B (zh) | 一种基于强化学习的优化共识的区块链系统 | |
Zhao et al. | Aspw-drl: assembly sequence planning for workpieces via a deep reinforcement learning approach | |
Zhang et al. | A review of soft computing based on deep learning | |
Mousavi et al. | Applying q (λ)-learning in deep reinforcement learning to play atari games | |
CN115033878A (zh) | 快速自博弈强化学习方法、装置、计算机设备和存储介质 | |
CN116306902A (zh) | 时序数据环境分析及决策方法、装置、设备及存储介质 | |
CN116643499A (zh) | 一种基于模型强化学习的智能体路径规划方法及系统 | |
Liu et al. | Forward-looking imaginative planning framework combined with prioritized-replay double DQN | |
CN115936058A (zh) | 一种基于图注意力网络的多智能体迁移强化学习方法 | |
Hook et al. | Deep Multi-Critic Network for accelerating Policy Learning in multi-agent environments | |
Stoppels | Predicting race results using artificial neural networks | |
Mandal et al. | S-system based gene regulatory network reconstruction using firefly algorithm | |
Burch | A survey of machine learning | |
Zolna et al. | Reinforced imitation learning from observations | |
CN116560239B (zh) | 一种多智能体强化学习方法、装置及介质 | |
Kim et al. | Strangeness-driven exploration in multi-agent reinforcement learning | |
Klein et al. | A computational neural model of goal-directed utterance selection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |