CN114089627B - 基于双深度q网络学习的非完全信息博弈策略优化方法 - Google Patents
基于双深度q网络学习的非完全信息博弈策略优化方法 Download PDFInfo
- Publication number
- CN114089627B CN114089627B CN202111170566.5A CN202111170566A CN114089627B CN 114089627 B CN114089627 B CN 114089627B CN 202111170566 A CN202111170566 A CN 202111170566A CN 114089627 B CN114089627 B CN 114089627B
- Authority
- CN
- China
- Prior art keywords
- network
- action
- strategy
- state
- sampling
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/04—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
- G05B13/042—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Feedback Control In General (AREA)
Abstract
本发明公开了基于双深度Q网络学习的非完全信息博弈策略优化方法。包括以下步骤:步骤1,网络初始化:构建两个深度Q网络Q1和Q2,并进行随机初始化;步骤2,策略动作选择;步骤3,基于双深度Q网络学习DDQN的最优反应策略网络优化;步骤4,基于重要性采样的平均反应策略网络优化,本发明的有益效果是通过引入DDQN算法来训练神经虚拟自我对局中的最优反应策略网络,能消除动作策略过度估计问题,有利于网络收敛;在经验池中采样经验数据来监督训练平均反应策略网络时,根据时间差分误差来赋予经验数据不同的采样权重,增大了重要经验数据被采样的概率,使网络学习更加高效,提高了平均反应策略的可靠性。
Description
技术领域
本发明属于人工智能技术领域,具体涉及基于双深度Q网络学习的非完全信息博弈策略优化方法。
背景技术
机器博弈是人工智能领域一个非常重要的研究方向。机器博弈是机器在感知到外界的环境后,经过分析做出合理正确决策的过程。根据动作策略的先后顺序,机器博弈分为范式博弈和扩展式博弈,范式博弈是智能体同时采取动作策略或者非同时但彼此不知道具体动作策略;扩展式博弈是后行动的智能体能够知道先行动者的动作策略、奖励值的信息。根据智能体了解到的信息,机器博弈分为完全信息博弈和非完全信息博弈,完全信息博弈是指各个智能体能够完全看到全部的状态和环境,没有任何信息的隐藏,例如一些棋类游戏,如国际象棋、围棋;非完全信息博弈是指智能体只能看到自身的状态和公共的环境信息,无法掌握对手及全局的信息,例如扑克类游戏、星际争霸、中国麻将。实际生活中,大多数博弈都是非完全信息,通常动作和状态空间巨大,智能体不能掌握全部的状态信息,无法准确评估整个博弈过程,决策反应难以预测,因此非完全信息机器博弈更具有挑战性。机器博弈采用强化学习算法来进行模型的训练,经典的强化学习算法能够解决一些简单的问题,由于缺乏相对应的理论保证,并且需要大量计算资源,在解决大规模非完全信息扩展式博弈时,经典的机器学习算法不能展现很好的效果。即便是将强化学习算法和相关领域的专家知识结合在一起,也会出现一些不可预知的决策问题。神经虚拟自我对局是一种在端对端扩展博弈中不需要先验知识的博弈模型,在求解博弈问题时可达到纳什均衡策略。神经虚拟自我对局通过神经网络来拟合最优反应策略和平均反应策略,利用Q学习算法来训练最优反应策略网络,通过对智能体历史行为数据的随机采样来监督训练平均反应策略网络,智能体根据平均反应策略和最佳反应策略来进行决策。传统的神经虚拟自我对局在训练平均策略网络Q1时,经验池MSL中的监督数据在采样时都具有相同的采样权重,在随机采样的过程中,采样数据由于时间差分误差不同,将会对网络的更新影响很大,时间差分误差越大的样本数据,对网络更新的影响也越大。传统的神经虚拟自我对局在更新最优反应策略网络时用到的是深度Q网络学习算法(DQN),DQN算法是通过最大化Q值函数来对目标进行优化,即通过评估策略动作来进行动作选择,选择Q值最大的动作作为最优反应策略,通常会造成过度估计的问题,模型的过度估计也会导致算法存在很大的偏差,不利于算法的收敛。而随机采样的方法没有考虑不同历史行为数据的重要性,从而影响平均反应策略的可靠性。
发明内容
针对现有技术的不足,本发明提供了基于双深度Q网络学习的非完全信息博弈策略优化方法,具体涉及一种基于双深度Q网络神经虚拟自我对局的非完全信息博弈策略优化方法。
本发明所述方法包括以下步骤:
步骤1,网络初始化:构建两个深度Q网络Q1和Q2,并进行随机初始化,Q1为平均反应策略网络,Q2为最优反应策略网络;
步骤2,策略动作选择:
对当前状态st,智能体从最优反应策略网络Q2确定一个最优反应策略a2,从平均反应策略网络Q1确定一个平均反应策略a1,通过混合最优反应策略a2和平均反应策略a1来选择动作,分别如以下公式(1)、(2)所示:
a2=argmaxaQ2(st,a;θ-)……(1),
a1=argmaxaQ1(st,a;θ)……(2),
选择的策略动作,如以下公式(3)所示:
at=ηa2+(1-η)a1……(3),
其中,st是采样时序过程中第t时刻的状态,a是策略动作,θ-是神经网络Q2的学习参数,θ是神经网络Q1的学习参数,η为预测参数;
步骤3,基于双深度Q网络学习DDQN的最优反应策略网络优化:
步骤3.1,策略动作评估,对选择的动作at,通过神经网络Q2评估状态动作的Q值,其表达式如以下公式(4)所示:
yt=Q2(st,at;θ-)……(4);
步骤3.2,计算st+1状态下的目标Q值,根据状态st下执行策略动作at的结果,计算st+1状态下的目标Q值,如以下公式(5)所示:
yt+1=rt+1+γQ2(st,at;θ-)……(5),
其中,rt+1是在st状态下执行动作at与环境交互所获得的奖励,执行动作at后转移到st+1状态,γ为衰减系数;
步骤3.3,更新经验缓冲区MRL和经验蓄水池MSL,将当前状态和动作、以及动作执行所获得的奖励和下一个状态(st,at,rt+1,st+1)存储在MRL中,当智能体选定的动作at是最优反应策略a2,则将当前状态、动作和Q值(st,at,yt)存储在经验蓄水池MSL中;
步骤3.4,根据采样得到的四元组(st,at,rt+1,st+1)优化更新神经网络Q2,优化的损失函数如公式(6)所示,利用梯度下降法减小误差δ来优化网络:
δt+1=|yt+1-Q2(st+1,argmaxaQ1(st+1,a;θ);θ-)|#……(6);
步骤4,基于重要性采样的平均反应策略网络优化,根据样本的时间差分误差确定样本的采样权重,样本的时间差分误差与样本的采样权重成反比,增大重要经验数据被采样的概率以使学习更加高效:
步骤4.1,对经验池MSL中的每个监督样本,计算时间差分误差,确定采样权重,
对样本(st,at,yt),时间差分误差如以下公式(7)所示:
δt=|yt-Q1(st,at;θ)|……(7),
采样权重ωt根据时间差分误差计算,如以下公式(8)、(9)所示:
其中β为采样权重系数,N是经验蓄水池中的样本数,ωold是更新前的经验蓄水池中的样本权重集合,代表更新前权重集合中最大的权重值;
步骤4.2,优化更新平均策略网络Q1,优化的损失函数如以下公式(10)所示:
当博弈没有结束,则转入步骤1,继续进行下一轮博弈。
本发明所述方法具有以下有益效果:
1、本发明所述方法通过引入DDQN算法来训练神经虚拟自我对局中的最优反应策略网络,能消除动作策略过度估计问题,有利于网络收敛;
2、本发明所述方法在经验池中采样经验数据来监督训练平均反应策略网络时,根据时间差分误差来赋予经验数据不同的采样权重,增大了重要经验数据被采样的概率,使网络学习更加高效,提高了平均反应策略的可靠性。
附图说明
附图是本发明所述方法的流程示意图。
具体实施方式
下面结合附图和实施例对本发明做进一步说明。
如附图所示,本发明所述方法包括以下步骤:
步骤1,网络初始化:
构建两个深度Q网络Q1和Q2,并进行随机初始化,Q1为平均反应策略网络,Q2为最优反应策略网络;
步骤2,策略动作选择:
对当前状态st,智能体从最优反应策略网络Q2确定一个最优反应策略a2,从平均反应策略网络Q1确定一个平均反应策略a1,通过混合最优反应策略a2和平均反应策略a1来选择动作,分别如以下公式(1)、(2)所示:
a2=argmaxaQ2(st,a;θ-)……(1),
a1=argmaxaQ1(st,a;θ)……(2),
选择的策略动作,如以下公式(3)所示:
at=ηa2+(1-η)a1……(3),
其中,st是采样时序过程中第t时刻的状态,a是策略动作,θ-是神经网络Q2的学习参数,θ是神经网络Q1的学习参数,η为预测参数;
步骤3,基于DDQN的最优反应策略网络优化:
步骤3.1,策略动作评估,对选择的动作at,通过神经网络Q2评估状态动作的Q值,其表达式如以下公式(4)所示:
yt=Q2(st,at;θ-)……(4);
步骤3.2,计算st+1状态下的目标Q值,根据状态st下执行策略动作at的结果,计算st+1状态下的目标Q值,如以下公式(5)所示:
yt+1=rt+1+γQ2(st,at;θ-)……(5),
其中rt+1是在st状态下执行动作at与环境交互所获得的奖励,执行动作at后转移到st+1状态,γ为衰减系数;
步骤3.3,更新经验缓冲区MRL和经验蓄水池MSL,将当前状态和动作、以及动作执行所获得的奖励和下一个状态(st,at,rt+1,st+1)存储在MRL中,当智能体选定的动作at是最优反应策略a2,则将当前状态、动作和Q值(st,at,yt)存储在经验蓄水池MSL中;
步骤3.4,根据采样到的四元组(st,at,rt+1,st+1)优化更新神经网络Q2,优化的损失函数如公式(6)所示,利用梯度下降法减小误差δ来优化网络:
δt+1=|yt+1-Q2(st+1,argmaxaQ1(st+1,a;θ);θ-)|#……(6);
步骤4,基于重要性采样的平均反应策略网络优化,根据样本的时间差分误差确定样本的采样权重,时间差分误差越小的样本采样权重越高,增大重要经验数据被采样的概率以使学习更加高效:
步骤4.1,对经验池MSL中的每个监督样本,计算时间差分误差,确定采样权重,
对样本(st,at,yt),时间差分误差如以下公式(7)所示:
δt=|yt-Q1(st,at;θ)|……(7),
采样权重ωt根据时间差分误差计算,如以下公式(8)、(9)所示:
其中β为采样权重系数,N是经验蓄水池中的样本数,ωold是更新前的经验蓄水池中的样本权重集合,代表更新前权重集合中最大的权重值;
步骤4.2,优化更新平均策略网络Q1,优化的损失函数如以下公式(10)所示:
当博弈没有结束,则转入步骤1,继续进行下一轮博弈。
本发明所述方法的博弈智能体在进行神经虚拟自我对局时包含两个网络模型,一个是最优反应策略网络Q2,一个是平均反应策略网络Q1,这两个网络均为深度Q网络;博弈过程中智能体从最优反应策略和平均反应策略的混合策略中选择动作。博弈一开始就建立了经验缓冲区MRL和经验蓄水池MSL,博弈智能体在每一个状态st下进行动作at时,都会从环境得到下一个奖励值rt+1和状态信息st+1,然后将当前状态和动作、下一个奖励和状态(st,at,rt+1,st+1)存储在MRL中,当博弈智能体选定的动作是最优反应策略,则将观察到的状态、动作存储在MSL中。缓冲区MRL中的数据用来更新最优反应策略网络,本发明所述方法中的智能体使用双深度Q网络DDQN学习算法训练最优反应策略网络Q2,DDQN算法通过采样和优化交替进行来更新最优反应策略网络Q2,采样过程中策略动作的选择和评估是分离的,通过解耦目标Q值动作的评估和选择来消除过度估计的问题,更有利于最优反应策略网络的收敛。经验蓄水池MSL中的数据用来监督训练平均反应策略网络,本发明所述方法根据时间差分误差来赋予经验数据不同的采样权重,在经验蓄水池MSL中采样经验数据来训练平均反应策略网络,增大了重要经验数据被采样的概率,使学习更加高效。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明公开的范围内,能够轻易想到的变化或替换,都应涵盖在本发明权利要求的保护范围内。
Claims (1)
1.基于双深度Q网络学习的非完全信息博弈策略优化方法,其特征在于,包括以下步骤:
步骤1,网络初始化:构建两个深度Q网络Q1和Q2,并进行随机初始化,Q1为平均反应策略网络,Q2为最优反应策略网络;
步骤2,策略动作选择:
对当前状态st,智能体从最优反应策略网络Q2确定一个最优反应策略a2,从平均反应策略网络Q1确定一个平均反应策略a1,通过混合最优反应策略a2和平均反应策略a1来选择动作,如以下公式(1)、(2)所示:
a2=argmaxaQ2(st,a;θ-)……(1),
a1=argmaxaQ1(st,a;θ)……(2),
选择的策略动作,如以下公式(3)所示:
at=ηa2+(1-η)a1……(3),
其中,st是采样时序过程中第t时刻的状态,a是策略动作,θ-是神经网络Q2的学习参数,θ是神经网络Q1的学习参数,η为预测参数;
步骤3,基于双深度Q网络学习DDQN的最优反应策略网络优化:
步骤3.1,策略动作评估,对选择的动作at,通过神经网络Q2评估状态动作的Q值,其表达式如以下公式(4)所示:
yt=Q2(st,at;θ-)……(4);
步骤3.2,计算st+1状态下的目标Q值,根据状态st下执行策略动作at的结果,计算st+1状态下的目标Q值,如以下公式(5)所示:
yt+1=rt+1+γQ2(st,at;θ-)……(5),
其中rt+1是在st状态下执行动作at与环境交互所获得的奖励,执行动作at后转移到st+1状态,γ为衰减系数;
步骤3.3,更新经验缓冲区MRL和经验蓄水池MSL,将当前状态和动作、以及动作执行所获得的奖励和下一个状态(st,at,rt+1,st+1)存储在MRL中,当智能体选定的动作at是最优反应策略a2,则将当前状态、动作和Q值(st,at,yt)存储在经验蓄水池MSL中;
步骤3.4,根据采样到的四元组(st,at,rt+1,st+1)优化更新神经网络Q2,优化的损失函数如公式(6)所示,利用梯度下降法减小误差δ来优化网络:
δt+1=|yt+1-Q2(st+1,argmaxaQ1(st+1,a;θ);θ-)|#……(6);
步骤4,基于重要性采样的平均反应策略网络优化,根据样本的时间差分误差确定样本的采样权重:
步骤4.1,对经验池MSL中的每个监督样本,计算时间差分误差,确定采样权重,对样本(st,at,yt),时间差分误差如以下公式(7)所示:
δt=|yt-Q1(st,at;θ)|……(7),
采样权重ωt根据时间差分误差计算,如以下公式(8)、(9)所示:
其中β为采样权重系数,N是经验蓄水池中的样本数,ωold是更新前的经验蓄水池中的样本权重集合,代表更新前权重集合中最大的权重值;
步骤4.2,优化更新平均策略网络Q1,优化的损失函数如以下公式(10)所示:
当博弈没有结束,则转入步骤1,继续进行下一轮博弈。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111170566.5A CN114089627B (zh) | 2021-10-08 | 2021-10-08 | 基于双深度q网络学习的非完全信息博弈策略优化方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111170566.5A CN114089627B (zh) | 2021-10-08 | 2021-10-08 | 基于双深度q网络学习的非完全信息博弈策略优化方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114089627A CN114089627A (zh) | 2022-02-25 |
CN114089627B true CN114089627B (zh) | 2023-09-15 |
Family
ID=80296541
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111170566.5A Active CN114089627B (zh) | 2021-10-08 | 2021-10-08 | 基于双深度q网络学习的非完全信息博弈策略优化方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114089627B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114970239B (zh) * | 2022-04-29 | 2023-06-30 | 哈尔滨工业大学 | 一种基于贝叶斯系统识别和启发式深度强化学习的多类型监测数据测点布置方法、设备及介质 |
CN115118477B (zh) * | 2022-06-22 | 2024-05-24 | 四川数字经济产业发展研究院 | 一种基于深度强化学习的智能电网状态恢复方法及系统 |
CN117151224A (zh) * | 2023-07-27 | 2023-12-01 | 中国科学院自动化研究所 | 兵棋强随机博弈的策略演化训练方法、装置、设备及介质 |
CN117692174A (zh) * | 2023-11-22 | 2024-03-12 | 江苏泓鑫科技有限公司 | 一种基于人工智能的零信任动态身份验证和授权方法 |
CN117809469A (zh) * | 2024-02-28 | 2024-04-02 | 合肥工业大学 | 基于深度强化学习的交通信号灯配时调控方法及系统 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105426969A (zh) * | 2015-08-11 | 2016-03-23 | 浙江大学 | 一种非完备信息的博弈策略生成方法 |
CN107038477A (zh) * | 2016-08-10 | 2017-08-11 | 哈尔滨工业大学深圳研究生院 | 一种非完备信息下的神经网络与q学习结合的估值方法 |
CN109348487A (zh) * | 2018-10-31 | 2019-02-15 | 国家电网有限公司 | 基于认知无线电的电力无线专网资源分配方法 |
CN111291890A (zh) * | 2020-05-13 | 2020-06-16 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 一种博弈策略优化方法、系统及存储介质 |
CN111553617A (zh) * | 2020-05-15 | 2020-08-18 | 北京师范大学 | 基于虚拟场景中认知力的操控工效分析方法、设备及系统 |
CN112926744A (zh) * | 2021-02-22 | 2021-06-08 | 中山大学 | 基于强化学习的非完全信息博弈方法、系统以及电子设备 |
CN113326872A (zh) * | 2021-05-19 | 2021-08-31 | 广州中国科学院先进技术研究所 | 一种多机器人轨迹规划方法 |
CN113341712A (zh) * | 2021-05-31 | 2021-09-03 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 无人机自主控制系统智能分层递阶控制选择方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11222262B2 (en) * | 2017-05-30 | 2022-01-11 | Xerox Corporation | Non-Markovian control with gated end-to-end memory policy networks |
KR102559552B1 (ko) * | 2018-12-17 | 2023-07-26 | 한국전자통신연구원 | 다매체 다중경로 네트워크의 최적 경로 선택 시스템 및 그 방법 |
-
2021
- 2021-10-08 CN CN202111170566.5A patent/CN114089627B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105426969A (zh) * | 2015-08-11 | 2016-03-23 | 浙江大学 | 一种非完备信息的博弈策略生成方法 |
CN107038477A (zh) * | 2016-08-10 | 2017-08-11 | 哈尔滨工业大学深圳研究生院 | 一种非完备信息下的神经网络与q学习结合的估值方法 |
CN109348487A (zh) * | 2018-10-31 | 2019-02-15 | 国家电网有限公司 | 基于认知无线电的电力无线专网资源分配方法 |
CN111291890A (zh) * | 2020-05-13 | 2020-06-16 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 一种博弈策略优化方法、系统及存储介质 |
CN111553617A (zh) * | 2020-05-15 | 2020-08-18 | 北京师范大学 | 基于虚拟场景中认知力的操控工效分析方法、设备及系统 |
CN112926744A (zh) * | 2021-02-22 | 2021-06-08 | 中山大学 | 基于强化学习的非完全信息博弈方法、系统以及电子设备 |
CN113326872A (zh) * | 2021-05-19 | 2021-08-31 | 广州中国科学院先进技术研究所 | 一种多机器人轨迹规划方法 |
CN113341712A (zh) * | 2021-05-31 | 2021-09-03 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 无人机自主控制系统智能分层递阶控制选择方法 |
Non-Patent Citations (5)
Title |
---|
Agent Decision Processes Using Double Deep Q-Networks plus Minimax Q-Learning;Fitch, N等;《2021 IEEE AEROSPACE CONFERENCE》;全文 * |
Learning Behavior Analysis in Classroom Based on Deep Learning;Rong Fu等;《2019 Tenth International Conference on Intelligent Control and Information Processing》;全文 * |
基于多组并行深度Q网络的连续空间追逃博弈算法;刘冰雁等;《兵工学报》;第42卷(第3期);全文 * |
基于虚拟自我对局的非完备信息博弈策略研究;胡书豪;《中国优秀硕士学位论文全文数据库 基础科学辑》(第02期);全文 * |
毛建博.基于虚拟自我对局的多人非完备信息机器博弈策略研究.《中国优秀硕士学位论文全文数据库 信息科技辑》.2020,(第02期),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN114089627A (zh) | 2022-02-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114089627B (zh) | 基于双深度q网络学习的非完全信息博弈策略优化方法 | |
CN110404264B (zh) | 一种基于虚拟自我对局的多人非完备信息博弈策略求解方法、装置、系统及存储介质 | |
CN111291890B (zh) | 一种博弈策略优化方法、系统及存储介质 | |
Li et al. | Suphx: Mastering mahjong with deep reinforcement learning | |
CN105119733B (zh) | 人工智能系统及其状态跳转方法、服务器、通信系统 | |
CN112052456A (zh) | 基于多智能体的深度强化学习策略优化防御方法 | |
CN113688977B (zh) | 面向对抗任务的人机共生强化学习方法、装置、计算设备及存储介质 | |
WO2021159779A1 (zh) | 信息处理方法、装置、计算机可读存储介质及电子设备 | |
CN113952733A (zh) | 一种多智能体自适应采样策略生成方法 | |
CN113784410B (zh) | 基于强化学习td3算法的异构无线网络垂直切换方法 | |
CN114330651A (zh) | 面向多要素联合指控的分层多智能体增强学习方法 | |
CN110390399A (zh) | 一种强化学习的高效探索方法 | |
CN116090549A (zh) | 一种基于知识驱动的多智能体强化学习决策方法、系统及存储介质 | |
US20230311003A1 (en) | Decision model training method and apparatus, device, storage medium, and program product | |
Buro | Statistical feature combination for the evaluation of game positions | |
CN114154397B (zh) | 一种基于深度强化学习的隐式对手建模方法 | |
Tang et al. | ADP with MCTS algorithm for Gomoku | |
CN116128060A (zh) | 一种基于对手建模与蒙特卡洛强化学习的棋类博弈方法 | |
CN114676757A (zh) | 一种多人非完备信息博弈游戏策略生成方法和装置 | |
CN106372366A (zh) | 一种基于狼爬山算法的智能发电控制方法 | |
CN117270520A (zh) | 一种巡检路线优化方法及装置 | |
CN112870722B (zh) | 对战格斗类ai游戏模型的生成方法、装置、设备及介质 | |
Langenhoven et al. | Swarm tetris: Applying particle swarm optimization to tetris | |
Zhang et al. | Research on Mahjong game strategy combining hand tiles optimization and situation search | |
CN112131519A (zh) | 一种改进排球超级联赛算法在背包问题中的应用方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |