CN114089627B

CN114089627B - 基于双深度q网络学习的非完全信息博弈策略优化方法

Info

Publication number: CN114089627B
Application number: CN202111170566.5A
Authority: CN
Inventors: 段福庆; 周琪斌; 韩云涛
Original assignee: Beijing Normal University
Current assignee: Beijing Normal University
Priority date: 2021-10-08
Filing date: 2021-10-08
Publication date: 2023-09-15
Anticipated expiration: 2041-10-08
Also published as: CN114089627A

Abstract

本发明公开了基于双深度Q网络学习的非完全信息博弈策略优化方法。包括以下步骤：步骤1，网络初始化：构建两个深度Q网络Q₁和Q₂，并进行随机初始化；步骤2，策略动作选择；步骤3，基于双深度Q网络学习DDQN的最优反应策略网络优化；步骤4，基于重要性采样的平均反应策略网络优化，本发明的有益效果是通过引入DDQN算法来训练神经虚拟自我对局中的最优反应策略网络，能消除动作策略过度估计问题，有利于网络收敛；在经验池中采样经验数据来监督训练平均反应策略网络时，根据时间差分误差来赋予经验数据不同的采样权重，增大了重要经验数据被采样的概率，使网络学习更加高效，提高了平均反应策略的可靠性。

Description

基于双深度Q网络学习的非完全信息博弈策略优化方法

技术领域

本发明属于人工智能技术领域，具体涉及基于双深度Q网络学习的非完全信息博弈策略优化方法。

背景技术

机器博弈是人工智能领域一个非常重要的研究方向。机器博弈是机器在感知到外界的环境后，经过分析做出合理正确决策的过程。根据动作策略的先后顺序，机器博弈分为范式博弈和扩展式博弈，范式博弈是智能体同时采取动作策略或者非同时但彼此不知道具体动作策略；扩展式博弈是后行动的智能体能够知道先行动者的动作策略、奖励值的信息。根据智能体了解到的信息，机器博弈分为完全信息博弈和非完全信息博弈，完全信息博弈是指各个智能体能够完全看到全部的状态和环境，没有任何信息的隐藏，例如一些棋类游戏，如国际象棋、围棋；非完全信息博弈是指智能体只能看到自身的状态和公共的环境信息，无法掌握对手及全局的信息，例如扑克类游戏、星际争霸、中国麻将。实际生活中，大多数博弈都是非完全信息，通常动作和状态空间巨大，智能体不能掌握全部的状态信息，无法准确评估整个博弈过程，决策反应难以预测，因此非完全信息机器博弈更具有挑战性。机器博弈采用强化学习算法来进行模型的训练，经典的强化学习算法能够解决一些简单的问题，由于缺乏相对应的理论保证，并且需要大量计算资源，在解决大规模非完全信息扩展式博弈时，经典的机器学习算法不能展现很好的效果。即便是将强化学习算法和相关领域的专家知识结合在一起，也会出现一些不可预知的决策问题。神经虚拟自我对局是一种在端对端扩展博弈中不需要先验知识的博弈模型，在求解博弈问题时可达到纳什均衡策略。神经虚拟自我对局通过神经网络来拟合最优反应策略和平均反应策略，利用Q学习算法来训练最优反应策略网络，通过对智能体历史行为数据的随机采样来监督训练平均反应策略网络，智能体根据平均反应策略和最佳反应策略来进行决策。传统的神经虚拟自我对局在训练平均策略网络Q₁时，经验池M_SL中的监督数据在采样时都具有相同的采样权重，在随机采样的过程中，采样数据由于时间差分误差不同，将会对网络的更新影响很大，时间差分误差越大的样本数据，对网络更新的影响也越大。传统的神经虚拟自我对局在更新最优反应策略网络时用到的是深度Q网络学习算法(DQN)，DQN算法是通过最大化Q值函数来对目标进行优化，即通过评估策略动作来进行动作选择，选择Q值最大的动作作为最优反应策略，通常会造成过度估计的问题，模型的过度估计也会导致算法存在很大的偏差，不利于算法的收敛。而随机采样的方法没有考虑不同历史行为数据的重要性，从而影响平均反应策略的可靠性。

发明内容

针对现有技术的不足，本发明提供了基于双深度Q网络学习的非完全信息博弈策略优化方法，具体涉及一种基于双深度Q网络神经虚拟自我对局的非完全信息博弈策略优化方法。

本发明所述方法包括以下步骤：

步骤1，网络初始化：构建两个深度Q网络Q₁和Q₂，并进行随机初始化，Q₁为平均反应策略网络，Q₂为最优反应策略网络；

步骤2，策略动作选择：

对当前状态s_t，智能体从最优反应策略网络Q₂确定一个最优反应策略a₂，从平均反应策略网络Q₁确定一个平均反应策略a₁，通过混合最优反应策略a₂和平均反应策略a₁来选择动作，分别如以下公式(1)、(2)所示：

a₂＝argmax_aQ₂(s_t，a；θ^-)……(1)，

a₁＝argmax_aQ₁(s_t，a；θ)……(2)，

选择的策略动作，如以下公式(3)所示：

a_t＝ηa₂+(1-η)a₁……(3)，

其中，s_t是采样时序过程中第t时刻的状态，a是策略动作，θ^-是神经网络Q₂的学习参数，θ是神经网络Q₁的学习参数，η为预测参数；

步骤3，基于双深度Q网络学习DDQN的最优反应策略网络优化：

步骤3.1，策略动作评估，对选择的动作a_t，通过神经网络Q₂评估状态动作的Q值，其表达式如以下公式(4)所示：

y_t＝Q₂(s_t，a_t；θ^-)……(4)；

步骤3.2，计算s_t+1状态下的目标Q值，根据状态s_t下执行策略动作a_t的结果，计算s_t+1状态下的目标Q值，如以下公式(5)所示：

y_t+1＝r_t+1+γQ₂(s_t，a_t；θ^-)……(5)，

其中，r_t+1是在s_t状态下执行动作a_t与环境交互所获得的奖励，执行动作a_t后转移到s_t+1状态，γ为衰减系数；

步骤3.3，更新经验缓冲区M_RL和经验蓄水池M_SL，将当前状态和动作、以及动作执行所获得的奖励和下一个状态(s_t，a_t，r_t+1，s_t+1)存储在M_RL中，当智能体选定的动作a_t是最优反应策略a₂，则将当前状态、动作和Q值(s_t，a_t，y_t)存储在经验蓄水池M_SL中；

步骤3.4，根据采样得到的四元组(s_t，a_t，r_t+1，s_t+1)优化更新神经网络Q₂，优化的损失函数如公式(6)所示，利用梯度下降法减小误差δ来优化网络：

δ_t+1＝|y_t+1-Q₂(s_t+1，argmax_aQ₁(s_t+1，a；θ)；θ^-)|#……(6)；

步骤4，基于重要性采样的平均反应策略网络优化，根据样本的时间差分误差确定样本的采样权重，样本的时间差分误差与样本的采样权重成反比，增大重要经验数据被采样的概率以使学习更加高效：

步骤4.1，对经验池M_SL中的每个监督样本，计算时间差分误差，确定采样权重，

对样本(s_t，a_t，y_t)，时间差分误差如以下公式(7)所示：

δ_t＝|y_t-Q₁(s_t，a_t；θ)|……(7)，

采样权重ω_t根据时间差分误差计算，如以下公式(8)、(9)所示：

其中β为采样权重系数，N是经验蓄水池中的样本数，ω^old是更新前的经验蓄水池中的样本权重集合，代表更新前权重集合中最大的权重值；

步骤4.2，优化更新平均策略网络Q₁，优化的损失函数如以下公式(10)所示：

当博弈没有结束，则转入步骤1，继续进行下一轮博弈。

本发明所述方法具有以下有益效果：

1、本发明所述方法通过引入DDQN算法来训练神经虚拟自我对局中的最优反应策略网络，能消除动作策略过度估计问题，有利于网络收敛；

2、本发明所述方法在经验池中采样经验数据来监督训练平均反应策略网络时，根据时间差分误差来赋予经验数据不同的采样权重，增大了重要经验数据被采样的概率，使网络学习更加高效，提高了平均反应策略的可靠性。

附图说明

附图是本发明所述方法的流程示意图。

具体实施方式

下面结合附图和实施例对本发明做进一步说明。

如附图所示，本发明所述方法包括以下步骤：

步骤1，网络初始化：

构建两个深度Q网络Q₁和Q₂，并进行随机初始化，Q₁为平均反应策略网络，Q₂为最优反应策略网络；

步骤2，策略动作选择：

a₂＝argmax_aQ₂(s_t，a；θ^-)……(1)，

a₁＝argmax_aQ₁(s_t，a；θ)……(2)，

选择的策略动作，如以下公式(3)所示：

a_t＝ηa₂+(1-η)a₁……(3)，

步骤3，基于DDQN的最优反应策略网络优化：

y_t＝Q₂(s_t，a_t；θ^-)……(4)；

y_t+1＝r_t+1+γQ₂(s_t，a_t；θ^-)……(5)，

其中r_t+1是在s_t状态下执行动作a_t与环境交互所获得的奖励，执行动作a_t后转移到s_t+1状态，γ为衰减系数；

步骤3.4，根据采样到的四元组(s_t，a_t，r_t+1，s_t+1)优化更新神经网络Q₂，优化的损失函数如公式(6)所示，利用梯度下降法减小误差δ来优化网络：

δ_t+1＝|y_t+1-Q₂(s_t+1，argmax_aQ₁(s_t+1，a；θ)；θ^-)|#……(6)；

步骤4，基于重要性采样的平均反应策略网络优化，根据样本的时间差分误差确定样本的采样权重，时间差分误差越小的样本采样权重越高，增大重要经验数据被采样的概率以使学习更加高效：

对样本(s_t，a_t，y_t)，时间差分误差如以下公式(7)所示：

δ_t＝|y_t-Q₁(s_t，a_t；θ)|……(7)，

当博弈没有结束，则转入步骤1，继续进行下一轮博弈。

本发明所述方法的博弈智能体在进行神经虚拟自我对局时包含两个网络模型，一个是最优反应策略网络Q₂，一个是平均反应策略网络Q₁，这两个网络均为深度Q网络；博弈过程中智能体从最优反应策略和平均反应策略的混合策略中选择动作。博弈一开始就建立了经验缓冲区M_RL和经验蓄水池M_SL，博弈智能体在每一个状态s_t下进行动作a_t时，都会从环境得到下一个奖励值r_t+1和状态信息s_t+1，然后将当前状态和动作、下一个奖励和状态(s_t，a_t，r_t+1，s_t+1)存储在M_RL中，当博弈智能体选定的动作是最优反应策略，则将观察到的状态、动作存储在M_SL中。缓冲区M_RL中的数据用来更新最优反应策略网络，本发明所述方法中的智能体使用双深度Q网络DDQN学习算法训练最优反应策略网络Q₂，DDQN算法通过采样和优化交替进行来更新最优反应策略网络Q₂，采样过程中策略动作的选择和评估是分离的，通过解耦目标Q值动作的评估和选择来消除过度估计的问题，更有利于最优反应策略网络的收敛。经验蓄水池M_SL中的数据用来监督训练平均反应策略网络，本发明所述方法根据时间差分误差来赋予经验数据不同的采样权重，在经验蓄水池M_SL中采样经验数据来训练平均反应策略网络，增大了重要经验数据被采样的概率，使学习更加高效。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明公开的范围内，能够轻易想到的变化或替换，都应涵盖在本发明权利要求的保护范围内。

Claims

1.基于双深度Q网络学习的非完全信息博弈策略优化方法，其特征在于，包括以下步骤：

步骤2，策略动作选择：

对当前状态s_t，智能体从最优反应策略网络Q₂确定一个最优反应策略a₂，从平均反应策略网络Q₁确定一个平均反应策略a₁，通过混合最优反应策略a₂和平均反应策略a₁来选择动作，如以下公式(1)、(2)所示：

a₂＝argmax_aQ₂(s_t，a；θ^-)……(1)，

a₁＝argmax_aQ₁(s_t，a；θ)……(2)，

选择的策略动作，如以下公式(3)所示：

a_t＝ηa₂+(1-η)a₁……(3)，

步骤3，基于双深度Q网络学习DDQN的最优反应策略网络优化：

y_t＝Q₂(s_t，a_t；θ^-)……(4)；

y_t+1＝r_t+1+γQ₂(s_t，a_t；θ^-)……(5)，

δ_t+1＝|y_t+1-Q₂(s_t+1，argmax_aQ₁(s_t+1，a；θ)；θ^-)|#……(6)；

步骤4，基于重要性采样的平均反应策略网络优化，根据样本的时间差分误差确定样本的采样权重：

步骤4.1，对经验池M_SL中的每个监督样本，计算时间差分误差，确定采样权重，对样本(s_t，a_t，y_t)，时间差分误差如以下公式(7)所示：

δ_t＝|y_t-Q₁(s_t，a_t；θ)|……(7)，

当博弈没有结束，则转入步骤1，继续进行下一轮博弈。