CN107038477A

CN107038477A - 一种非完备信息下的神经网络与q学习结合的估值方法

Info

Publication number: CN107038477A
Application number: CN201710095895.5A
Authority: CN
Inventors: 王轩; 蒋琳; 张加佳; 李昌; 代佳宁; 王鹏程; 林云川; 胡开亮; 朱航宇
Original assignee: Shenzhen Graduate School Harbin Institute of Technology
Current assignee: Shenzhen Graduate School Harbin Institute of Technology
Priority date: 2016-08-10
Filing date: 2017-02-22
Publication date: 2017-08-11

Abstract

本发明提供了一种非完备信息下的神经网络与Q学习结合的估值方法，步骤1：将非完备信息转换成部分可观测马尔科夫决策模型；步骤2：通过蒙特卡洛抽样技术把非完备信息博弈转换为完备信息博弈；步骤3：采用基于前 n步的Q学习算法，神经网络与Q学习结合的算法以及基于上限置信区间算法UCT计算Q学习延迟回报的值；步骤4：将前一步骤得到的Q值融合，得到最终结果。本发明提出的技术方案可以应用到多种非完备信息博弈中，比如“斗地主”，德州扑克等，并提高了智能体的博弈水平。本发明与现有的相关研究相比，在精度上有了较大的提升。

Description

一种非完备信息下的神经网络与Q学习结合的估值方法

技术领域

本发明涉及计算机机器博弈领域，主要涉及非完备信息机器博弈，估值函数，非完备信息机器博弈模型到部分可观测马尔科夫决策模型的转换等。

背景技术

非完备信息机器博弈的特点是博弈者在博弈过程中无法获得全部以及可信的局面信息，这使得研究起来更复杂，更具挑战性。因此，吸引了大批国内外学者关注。机器博弈系统由数据表示、规则产生器、博弈树搜索和估值函数四部分组成，估值函数是其中最核心的部分。估值函数类似人类的大脑，它有着判断当前局势的优劣，指导智能体选择策略的重要作用。估值函数的好坏，直接反映了计算机博弈智能体的水平高低。因此，对非完备信息机器博弈估值函数进行优化具有重要的意义。

发明内容

为了解决现有技术中问题，本发明提供了一种非完备信息下的神经网络与Q学习结合的估值方法，

步骤1：将非完备信息转换成部分可观测马尔科夫决策模型(PartiallyObservable Markov Decision Processes，POMDP)：

POMDP和非完备信息博弈都属于在时间序列上做决策的模型，在该模型中，环境的状态是不能完全识别，动作的回报也不能立即获得。非完备信息博弈实际上可以当作在一颗博弈树上进行状态转移，把每一局转移合在一起可以抽象成POMDP模型的转移。

步骤2：通过蒙特卡洛抽样技术把非完备信息博弈转换为完备信息博弈：

对于一个非完备信息博弈，可以定义E表示整个真实的博弈的环境，定义集合W＝(w₁,w₂,...,w_n)表示非完备信息博弈在真实环境E中的所有可能的状态集合。可以把W的每个元素w_i表示真实环境E的一个实际状态。定义Q＝(q₁,q₂,...,q_n)是W的抽样集合，通过随机的方法在W中抽样出子集Q。对每一个子集q_i都是一个完备信息博弈。

步骤3：采用基于前n步的Q学习算法(Previous n-step QLearning，Pn-stepQ)、神经网络与Q学习结合(Neural Fitted Q，NFQ)的算法以及基于上限置信区间算法UCT(UpperConfidence Bound Apply to Tree)计算Q学习延迟回报的值：

步骤3.1：基于前n步的Q学习算法(Previous n-step QLearning，Pn-stepQ)：

采用基于前n步的Q学习算法(Previous n-step QLearning，Pn-stepQ)来消除状态混淆现象。在Pn-stepQ算法中，时刻t状态定义见式(1)：

S_t＝(z_n,z_n-1,......,z₁,z) (1)

式中z是智能体在t时刻的观测值，z_n是智能体在t时刻之前的第n步的观测值，当机器人做出动作a后，时刻t+1状态定义见式(2)：

S_t+1＝(z_n-1,z_n-2,......,z₁,z,z^) (2)

式中z₀是智能体在t+1时刻的观测值，无论在t时刻还是t+1时刻，机器人始终由当前观测值和前n-1步观测值组成的观测值序列确定。

执行策略π行为值函数见式(3)：

上述公式表示智能体在前n步观测状态为S_t＝(z_n,z_n-1,......,z₁,z)时，采取行为为a，在策略π得到的回报的期望值，其中，0≤γ≤1为折扣因子，r_t为智能体在时刻t获得的回报。如果能求得最优的行为值函数，那么再求最优的行为策略就相对容易很多。根据上面三个定义，利用Q学习算法中的迭代方法逼近最优行为值函数公式见式(4)和(5)：

Q_t+1(z_n,z_n-1,......,z₁,a)＝Q_t(z_n,z_n-1,......,z₁,z,a)+αδ_te_t(z_n,z_n-1,......,z₁,z,a) (4)

其中α是学习因子，r_t+1是智能体在t+1时刻所得回报，φ_t为资格迹更新函数。

资格迹的实质是智能体经过某个状态时，除了初始状态外的当前状态都是从前面的状态转移过来，需要对整个状态转移序列进行短暂的记忆，需要考虑之前状态的信度评估，不能把所有的状态对当前状态的信度视为一致。资格迹会随着时间推移逐步衰减之前状态的贡献度。例如在德州扑克中，第一轮每位玩家都只有手中的两张牌，玩家会根据自己的牌值选择某些策略。随着游戏的进行，假设游戏已经进入到了第四轮，第一轮所采取的策略对第二轮的影响比较大，对第四轮的影响没有第二轮和第三轮所采取的策略影响大，这就是一个贡献度的衰减。资格迹的更新见式(6)：

式中γ为折扣因子需要满足条件0＜γ＜1，λ为常数并且满足。上述迭代公式会在智能体每转移一步时对于所有的状态(z_n,z_n-1,......,z₁,z,a)同时进行更新，并且更新资格迹，只有对当前状态动作对应的e_t-1(z_n,z_n-1,......,z,a)时结果加1，其余状态动作对应的资格迹会逐步衰减。

下面给出Pn-stepQ算法描述：

Pn-stepQ算法

初始化：对每个状态S_t＝(z_n,z_n-1,......,z₁,z),策略行为a；

初始化Q值，资格迹e；

循环：执行下面操作，直到s_t是终止状态

(1)观察当前状态s_t，选择动作a_t，并执行此动作，到达新的状态s_t+1；

(2)观察新的观测值z^，并且接到立即回报r_t+1；

(3)更新Q值：

Q_t+1(z_n,z_n-1,......,z₁,z,a)＝Q_t(z_n,z_n-1,......,z₁,a)+αδ_te_t(z_n,z_n-1,......,z₁,z,a)；

(4)按照以下公式更新资格迹：

(5)更新状态：s_t＝s_t+1，即(z_n,z_n-1,......,z₁,z)＝(z_n-1,z_n-2,......,z₁,z,z^)

步骤3.2：神经网络与Q学习结合(Neural Fitted Q，NFQ)的算法：

步骤3.2.1：传统的Q值表示：

传统的Q值表示是通过维护一张多维表格(简称Q值表)来实现，通过查询表格里面对应的Q值来获得。假设Q(s,a)(s∈S,a∈A)为一张多维的表格，S表示所有状态的集合，总的状态数为|S|，A表示所有的动作集合，总的动作数为|A|，Q(s,a)的意思是状态s下采取动作a的Q值，那么表的总大小为|S|×|A|的笛卡尔乘积的个数

步骤3.2.2：Fuzzy-Q学习：

Fuzzy-Q学习算法是把Q学习算法和模糊推理系统相结合。一个模糊推理系统包括如下部分。

(1)规则库：是由IF-THEN组合的模糊规则集合；

(2)数据库：模糊规则中的隶属函数；

(3)推理机制：根据模糊规则进行推理运算；

(4)模糊化输入：把输入转换为模糊化；

(5)去模糊化：把模糊计算的结果转换为输出。

模糊推理系统图首先对输入进行模糊化，通过数据库和规则库来进行推理，最后通过去模糊化得到相应的结果。

首先对状态抽象出n个状态变量(也可称为n个状态因素)，用来表示智能体所处的环境状态信息，这些状态变量的组合应该能够明确描述当前环境的状态信息。通过状态变量的组合来建立一个规则库。假设规则库有n个规则，表示成输入向量为x＝(x₁,x₂,......,x_n)，输出向量为w＝(w₁,w₂,......,w_n)，表示形式如下：

上述的w₁表示第j条规则，A_j1(1≤i≤n)表示第j条规则输入的模糊集变量。W_jm(1≤i≤n)表示第j条规则输出的变量结果。

建立了上述的规则库后，智能体输出规则，经过计算就能得到结果。假设上述规则库的输出向量为w＝(w₁,w₂,......,w_n)，对应的权值为(w_j1,w_j2,......,w_jm)，在输入向量x＝(x₁,x₂,......,x_n)时，经过模糊推理，每一个特征点的总权值计算见式(7)：

式中u_j(x)＝u_j1(x₁)×u_j2(x₂)×...×u_jn(x_n)表示相应模糊集的隶属函数值。

模糊推理系统的重心法解模糊的输出见式(8)。式中a＝(a₁,a₂,......,a_n)表示空间的特征点向量。根据输出值进行动作选择，进入到下一个状态，获得回报值。

接着更新知识库向量的权值，权值更新见式(9)，式中α是学习率，r是回报值，γ是折扣因子，W_max为W_k,(1≤k≤m)中的最大值，上述更新类似Q值表的更新。

w_jk＝w_jk+α·(r+γW_max),1≤k≤m (9)

在非完备信息博弈中，上述方法理论上可以实现的，但是，需要把每一条扑克的出牌规则全部总结出来是一件非常困难的事，即使是世界顶尖的大师也做不到这一点。

步骤3.2.3：基于NF改进的Q学习估值函数模型：

人工神经网络(Artificial Neural Network)是一种网络结构，它是模拟生物的神经网络结构，正如人类的脑神经元，神经元由大量的互相连接的节点组成，用权值来表示连接的强度，连接更紧密，神经元之间的关系也越密切。根据此原理，应用到人工神经网络上，节点之间的权值越大，说明它贡献度越大，对输出起的影响也越大。人工神经网络是一种能随环境的变化自动做出调节的自适应方法。在此结构上结合复杂的数学理论基础，可以用来分析输入和输出之间的复杂关系。人工神经网络是一个包含层次结构的网络结构，每一层都是由输入节点和输出节点组成，第i层的输出是第i+1层的输入。

在非完备信息博弈中，离散的Q值存储表需要巨大的存储空间，以及在查找速度也非常慢，整个效率都不高，也不能完整表示连续的环境状态。本研究引入一种神经网络与Q学习结合(Neural Fitted Q，NFQ)的算法来表示Q值。NFQ神经网络结构如下所述：

主要包括输入层、隐含层和输出层，下面分别对这3层进行介绍。

输入层：输入为一串非线性的连续状态向量(x₁,x₂,...,x_n)，也就是非完备信息博弈中的状态向量。在德州扑克游戏中，每个过程都会有大量的信息，这些信息对于智能体的决策都有一定的价值，例如博弈的阶段、总下注金额、己方牌力大小等。加拿大的阿尔伯特大学的研究者曾经提出了一个具有19个输入节点的输入节点，但是阿尔伯特大学的研究者没有考虑到时间的序列，玩家加注和跟注的次数等问题。

隐藏层：把输入层和输出层链接起来，w_ij是第i个输入节点到第j个隐含层权值，Θ_j为第j个隐含层的节点阈值，h_j和b_j分别是是第i个隐藏层节点输入节点和输出节点。

输出层：输入层的向量经过人工神经网络计算后产生的输出结果。θ_k为第k个输出节点的阈值，y_k为第k个输出节点的输入，Q(s_t,a_k)是输出的Q函数值。

在反向传播(Back Propagation，BP)神经网络中，输出节点的期望输出值和实际输出的差值反传到网络中，修改网络中的权值和阈值，保存学习到的经验，得到学习后的值更新差值见式(10)：

公式中W_t＝(w_ij,Θ_j,v_jk,θ_k)_t为BP神经网络中的权值和阈值矩阵。

在德州扑克中，游戏中的中间状态都是从之前状态扩展来的，这是连续的状态向量作用的结果，之前的游戏状态或多或少都会影响到目前的游戏状态。Pn-stepQ学习算法需要使用资格迹对之前的状态分配一定的信度，这有会减少状态混淆，对当前状态表示更准确。应用到BP神经网络对更新差值e的均方差求导数，再乘上学习率α得到权值增量为结合资格迹衰减上次的权值增量后，累加到当前的权值增量上，基于梯度下降的资格迹更新公式见式(11)：

公式中，λ是资格迹的折扣率Δφ(a)为资格迹增量，为神经网络梯度。

输出层和隐藏层激励函数f(x)、g(x)都是tan sigmoid函数，隐藏层和输出层的梯度计算公式见式(12)：

权值增量Δv_jk的计算公式见式(13)：

输出层阈值Δθ_k迭代的计算公式见式(14)：

输入层和隐藏层间梯度计算公式见式(15)：

权值增量Δw_ij的计算公式见式(16)：

隐含层阈值ΔΘ_j的迭代计算公式见式(17)：

下面给出NFQ算法：

NFQ算法

初始化：θ_k、v_jk、w_ij、Θ_j，

δ'v_jk、δ'θ_k、δ'w_ij、δ'Θ_j←0,s_t＝s₀，

Q(s_t,a,W_t)←神经网络输出Q(s₀,a,W₀)；

循环：执行下面操作，直到终止状态

(1)根据神经网络的输出选择动作a，到达新的状态s_t+1；

(2)获得立即回报r←r_t；

(3)更新Q值：Q(s_t,a,W_t)←Q(s_t+1,a,W_t+1)；

(4)根据公式(12)～(17)更新神经网络权值：

W_t＝(w_ij,Θ_j,v_j,θ)_t←W_t+1；

(5)s_t←s_t+1

步骤3.3：基于上限置信区间算法UCT(Upper Confidence Bound Apply toTree)：

步骤3.3.1：UCB1策略：

在博弈决策问题中，可以简化为一个具有多重选择的策略问题，即如何在所有的选择中进行权衡进行最终决策。K臂强盗问题就是对该问题的一个很好的描述。K臂强盗问题简单描述如下：假设一个参与赌博的强盗他有K只手臂，他可以拉动自己的每一只手臂，当拉动他的每一只手臂都会有一个或好或坏的收益，每只手臂产生的回报都不相关，也就是说拉动每个手臂的回报所遵循的分布是不相同的，不过拉动同一个手臂所获得的回报收益满足特定的分布。强盗在特定的时间内，只能拉动有限次数手臂，强盗想要在这有限的拉动次数中找到一个合理策略方法强盗的目的都是为了获得更多的回报收益，如果能找到一个合理策略方法，根据这个策略可以知道拉动哪个手臂能获得最大的收益，那么这个问题就解决了。

但是，当一个强盗想要拉动手臂的时候，他是不知道拉动自己的哪只手臂会产生更大的收益，对强盗来说，他拉动自己的每一只手臂都是同等概率，他无法立刻知道拉动后产生的未知信息。正如在非完备信息博弈中的德州扑克游戏，每一个阶段AI智能体可以采取弃牌、跟牌、加注三个行为。德州扑克的输赢是有固定的规则，双方牌力的大小也相对的，AI智能体不知道对手的牌是什么，采取任何的行为所获得的回报在游戏没有结束前也是不确定的。一般来说，玩家会根据自己所积累的先验知识来决定，通过自己所了解的选择自己认为最好的决策，如果一直通过这种策略不尝试其他的方法，会错过收益最好的决策。玩家需要不断的探索，找到自己还不知道的更好方法。这就是一个开发和探索问题，需要在这两者之间找到平衡点。

可以把上述K臂强盗问题抽象为数学模型：定义变量T_i(n)表示手臂第i个手臂在n次选择中被选择的次数。变量X_i,n(1≤i≤k,1≤n)，这里的i代表强盗的第i个手臂的编号。如果连续拉动n次手臂i，会得到n个不同的回报X_i,1,X_i,2.......X_i,n，这些回报按照数学期望独立分布，不同手臂的回报分布没有影响。

Auer提出了一种“开发”和“探索”均衡的在线学习策略解决方法，称为UCB1(UpperConfidence Bound)算法。UCB1算法中，每次都选择具有最大的UCB值手臂，选择手臂根据公式见式(18)。

上述公式中包含了两部分，第一部分是表示已经拉动手臂i的平均回报收益，即所谓的“开发”部分，智能体对此节点所获得的信息。第二部分是表示第一部分的平均收益的置信区间大小，即所谓的“探索”部分，智能体对此节点位置信息。可见智能体是为了在“开发”和“探索”中找到平衡点，不仅具备找到目前探索过的最好的手臂，还兼顾了探索未知的手臂的优点，这样可以避免陷入局部最优的情况。

步骤3.3.2：基于UCT策略改进的Q学习回报函数：

在德州扑克中，智能体在每次选择策略的时候有加注、跟注和弃牌3中行为。如果智能体知道选择每个策略的真实回报，仅仅通过贪心算法的策略，智能体就可以做出最优的选择赢得比赛，或者提前弃牌降低自己的损失。但是，对于一个智能体，它对对手的情况什么都不了解，不知道自己和对手谁的牌大谁的牌小，这时候它也不知道采取哪个策略好。这就如同一个具有3个手臂的强盗可以拉下自己的任何一个手臂，与K臂强盗问题所描述的内容与德州扑克中棉铃的问题非常相似。在智能体采取策略后，都会把这些选择后所获得的附加收益累计到智能体中，智能体通过不断的“开发”和“探索”获得知识后，就可以知道怎么选择策略更好了。

把UCB1应用到非完备信息博弈中，获得最好分支的回报值，具体步骤如下。

(1)UCB1结合博弈树搜索转换成UCT算法。

UCT算法的实质是将博弈搜索树的每一个节点都当成是一个具有k个手臂的强盗，即K臂强盗问题。强盗通过选择自己的手臂到达的子节点，子节点也是一个具有K个手臂的强盗。类似德州扑克的游戏过程，智能体在每个过程的选择有3种，需要“开发”和“探索”选取最大的UCB值进入到下一个状态，这时候智能体又有3种选择，又通过“开发”和“探索”选取最大的UCB值进入到下一个状态，一直这样下去直到游戏结束，最后产生回报，上述过程实际上就是一颗博弈树的搜索过程。

(2)UCT算法与蒙特卡洛方法结合的蒙特卡洛树搜索(MCTS)，主要包括选择、扩展、更新、回朔四个过程扩展蒙特卡洛树。

基于UCT的蒙特卡洛树搜索方法是一种可以用于非完备信息博弈环境抽样的搜索算法，利用UCT算法中对节点的扩展博弈树和节点回报值的回溯运算。在复杂的扩展式博弈状态环境下，通过对复杂环境进行抽样划分成许多的幕。在抽样的选择中，通过行为的选择和探索最有可能的环境空间。这样抽样出来的蒙特卡洛搜索树是一颗有效性高但是不对称的树，跟普通的博弈树搜索相比，它可以随时停止搜索，不用遍历所有的局面就可以有一个有效的策略选择。

基于UCT的蒙特卡洛树搜索方法包含以下几部分，定义N(s)为通过蒙特卡洛树搜索访问状态s的次数，N(s,a)为在状态为s时采取动作a的次数，V(s,a)是对在状态为s时采取动作a的评估函数，计算公式见式(19)：

上述公式中的R_s(i)在每次访问状态s的累计的回报值。

蒙特卡洛树搜索是一个循环计算的过程，每次需要选择已经开发的多次策略，获胜具有较大可信的估值的策略，这种状态s下选择策略的计算公式见式(20)：

公式中的π_tree(s)是在s状态下选择的策略，c是调解开发和利用平衡的参数。当c＝0时候，该算法就纯粹是一个贪心算法，得到的最终结果刚开始可能是最好的，全局来看往往不是最好的。

(3)通过计算每个抽样真实世界的回报作为Q学习值函数的回报值。

把非完备信息博弈抽样为完备信息博弈W＝(w₁,w₂,...,w_n)，再对这个完备信息博弈w_i通过UCT蒙特卡洛树搜索后，通过回朔到都会得到采取每个动作的回报值。在德州普通中，跟牌、加注、弃牌的回报值计算公式见式(21)：

式中V_j表示所有抽样世界采取某一动作的回报和，在德州扑克中j可取值有3种。v_j表示在w_i世界中采取动作j的回报。

通过上述3个步骤，可以计算出Q学习在非完备信息博弈中的回报延迟，该回报延迟跟抽样的次数有关，抽样的次数越多，回报就越准确。

德州扑克中基于UCT计算Q学习延迟回报的算法如下：

德州扑克中基于UCT计算Q学习延迟回报算法

初始化：非完备信息博弈抽样完备信息博弈的次数n，德州扑克中采取Bucketting手牌抽样策略。

蒙特卡洛搜索树Tree，

根节点状态s₀，令s_t＝s₀。行为a＝(a₁,a₂,a₃)。

循环：非完备信息博弈抽样1～n次完备信息博弈

循环：直到状态s_t是德州扑克游戏结束状态

(1)根据公式(21)选择策略a_i，达到新的状态s_t+1；

(2)如果s_t+1不是Tree中的节点，Tree扩展s_t+1；

(3)N(s_t+1,a)＝N(s_t+1,a₁)+1，N(s)＝N(s)+1；

(4)如果s_t+1是游戏结束状态，从叶节点到跟节点回朔更新回报值。

步骤4：将前一步骤得到的Q值融合，得到最终结果。

本发明的有益效果是：

本发明将改进的Q学习算法应用在非完备信息机器博弈的估值函数上，分别实现了德州扑克和斗地主两款计算机智能体系统。这两个计算机智能体系统不仅考虑了当前状态之前的状态信息，同时预测了当前状态之后可能会发生的情况。这两个计算机智能体的思维更接近人类，与传统的估值函数相比，可以选择更合理的策略。本发明提出的技术方案可以应用到多种非完备信息博弈中，比如“斗地主”，德州扑克等，并提高了智能体的博弈水平。本发明与现有的相关研究相比，在精度上有了较大的提升。

附图说明

图1是本发明NFQ神经网络结构；

图2是本发明博弈树搜索中的UCT算法；

图3是本发明二人德州扑克下的POMDP决策过程；

图4是本发明Q学习应用在非完备信息博弈的总体设计方案。

具体实施方式

下面结合附图对本发明做进一步说明。

本发明将改进的Q学习算法应用在非完备信息机器博弈的估值函数上，分别实现了德州扑克和斗地主两款计算机智能体系统。这两个计算机智能体系统不仅考虑了当前状态之前的状态信息，同时预测了当前状态之后可能会发生的情况。这两个计算机智能体的思维更接近人类，与传统的估值函数相比，可以选择更合理的策略。

针对非完备信息机器博弈中会出现两次观测到的牌局状态信息一样，而实际的牌局状态信息却不一样的状态混淆问题，采用连续的部分观测状态序列与资格迹(Eligibility Trace)结合的方法来解决。针对非完备信息机器博弈中状态空间信息庞大，在两人限制型德州扑克状态就包括3.19×10¹⁴个信息集，存在无法通过传统的Q值表示估值函数的问题，采用Q学习与人工神经网络结合的方法来解决。针对在非完备信息机器博弈中，游戏没有结束，无法获知采取当前策略的回报，即回报延迟问题，提出采用基于上限置信区间博弈树搜索(Upper Confidence Bound Applied to Tree，UCT)算法来求取当前策略的回报值。

非完备信息博弈与POMDP模型

非完备信息博弈在德州扑克中，假设有玩家结点、对手结点、随机结点和叶子结点。其中，玩家结点和对手结点代表的玩家双方的博弈，他们都可以采取弃牌、跟注、加注三个动作行为。随机结点代表了每一轮的发牌，包括第一轮发给每位玩家的两张手牌(Pre-flop)、第二轮发的三张公共牌(Flop)、第三轮发的第四张公共牌(Ture)和第四轮发第五张公共牌(River)。叶子结点表示的是玩家弃牌导致本局游戏结束，或者是最后的亮牌导致游戏结束。对于每局比赛，AI智能体都可以通过上述四个结点描述在博弈树间进行扩展。实际上可以当作在一颗博弈树上进行状态转移。

如果把每一局转移合在一起可以抽象成POMDP模型的转移。二人德州扑克的博弈树的POMDP模型如图3所示。

Q学习的状态改进模型

在POMDP模型中，很可能不同的实际状态却会出现相同的观测状态，大部分智能体的学习能力有限，无法准确区分它们，这样会导致感知混淆现象。本发明采用基于前n步的Q学习算法(Previous n-step QLearning，Pn-stepQ)来消除状态混淆现象。在Pn-stepQ算法中，时刻t状态定义见式(1)：

S_t＝(z_n,z_n-1,......,z₁,z) (1)

S_t+1＝(z_n-1,z_n-2,......,z₁,z,z^) (2)

执行策略π行为值函数见式(3)：

Q学习的估值函数改进模型

在德州扑克中，游戏中的中间状态都是从之前状态扩展来的，这是连续的状态向量作用的结果，之前的游戏状态或多或少都会影响到目前的游戏状态。Pn-stepQ学习算法需要使用资格迹对之前的状态分配一定的信度，这有会减少状态混淆，对当前状态表示更准确。应用到BP神经网络对更新差值e的均方差求导数，再乘上学习率α得到权值增量为结合资格迹衰减上次的权值增量后，累加到当前的权值增量上，基于梯度下降的资格迹更新公式见式(7)：

输出层和隐藏层激励函数f(x)、g(x)都是tan sigmoid函数，隐藏层和输出层的梯度计算公式见式(8)：

权值增量Δv_jk的计算公式见式(9)：

输出层阈值Δθ_k迭代的计算公式见式(10)：

输入层和隐藏层间梯度计算公式见式(11)：

权值增量Δw_ij的计算公式见式(12)：

隐含层阈值ΔΘ_j的迭代计算公式见式(13)：

Q学习改进的回报函数设计

本发明把UCB1(Upper Confidence Bound)应用到非完备信息博弈中，获得最好分支的回报值，具体步骤如下。

(1)UCB1结合博弈树搜索转换成UCT算法。

UCT算法的实质是将博弈搜索树的每一个节点都当成是一个具有k个手臂的强盗，即K臂强盗问题。强盗通过选择自己的手臂到达的子节点，子节点也是一个具有K个手臂的强盗。类似德州扑克的游戏过程，智能体在每个过程的选择有3种，需要“开发”和“探索”选取最大的UCB值进入到下一个状态，这时候智能体又有3种选择，又通过“开发”和“探索”选取最大的UCB值进入到下一个状态，一直这样下去直到游戏结束，最后产生回报，上述过程实际上就是一颗博弈树的搜索过程，博弈树搜索中的UCT算法如图2所示。

基于UCT的蒙特卡洛树搜索方法包含以下几部分，定义N(s)为通过蒙特卡洛树搜索访问状态s的次数，N(s,a)为在状态为s时采取动作a的次数，V(s,a)是对在状态为s时采取动作a的评估函数，计算公式见式(14)：

上述公式中的R_s(i)在每次访问状态s的累计的回报值。

蒙特卡洛树搜索是一个循环计算的过程，每次需要选择已经开发的多次策略，获胜具有较大可信的估值的策略，这种状态s下选择策略的计算公式见式(15)：

把非完备信息博弈抽样为完备信息博弈W＝(w₁,w₂,...,w_n)，再对这个完备信息博弈w_i通过UCT蒙特卡洛树搜索后，通过回朔到都会得到采取每个动作的回报值。在德州普通中，跟牌、加注、弃牌的回报值计算公式见式(16)：

通过上述4个步骤，可以计算出Q学习在非完备信息博弈中的回报延迟，该回报延迟跟抽样的次数有关，抽样的次数越多，回报就越准确。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种非完备信息下的神经网络与Q学习结合的估值方法，其特征在于，包括以下步骤：

步骤1：将非完备信息转换成部分可观测马尔科夫决策模型POMDP；

步骤2：通过蒙特卡洛抽样技术把非完备信息博弈转换为完备信息博弈；

步骤3：采用基于前n步的Q学习算法Pn-stepQ、神经网络与Q学习结合的算法NFQ以及基于上限置信区间算法UCT计算Q学习延迟回报的值；

步骤3.1：基于前n步的Q学习算法Pn-stepQ；

步骤3.2：神经网络与Q学习结合NFQ的算法；

步骤3.2.1：传统的Q值表示；

步骤3.2.2：Fuzzy-Q学习；

步骤3.2.3：基于NF改进的Q学习估值函数模型；

步骤3.3：基于上限置信区间算法UCT；

步骤3.3.1：UCB1策略；

步骤3.3.2：基于UCT策略改进的Q学习回报函数；

步骤4：将前一步骤得到的Q值融合，得到最终结果。

2.根据权利要求1所述的一种非完备信息下的神经网络与Q学习结合的估值方法，其特征在于：

步骤3.1：基于前n步的Q学习算法Pn-stepQ：

采用基于前n步的Q学习算法Pn-stepQ来消除状态混淆现象，在Pn-stepQ算法中，时刻t状态定义见式(1)：

S_t＝(z_n,z_n-1,......,z₁,z) (1)

S_t+1＝(z_n-1,z_n-2,......,z₁,z,z^) (2)

式中z₀是智能体在t+1时刻的观测值，无论在t时刻还是t+1时刻，机器人始终由当前观测值和前n-1步观测值组成的观测值序列确定；

执行策略π行为值函数见式(3)：

上述公式表示智能体在前n步观测状态为S_t＝(z_n,z_n-1,......,z₁,z)时，采取行为为a，在策略π得到的回报的期望值，其中，0≤γ≤1为折扣因子，r_t为智能体在时刻t获得的回报；根据上面三个定义，利用Q学习算法中的迭代方法逼近最优行为值函数公式见式(4)和(5)：

其中α是学习因子，r_t+1是智能体在t+1时刻所得回报，φ_t为资格迹更新函数；

资格迹的更新见式(6)：

式中γ为折扣因子需要满足条件0＜γ＜1，λ为常数并且满足，上述迭代公式会在智能体每转移一步时对于所有的状态(z_n,z_n-1,......,z₁,z,a)同时进行更新，并且更新资格迹，只有对当前状态动作对应的e_t-1(z_n,z_n-1,......,z,a)时结果加1，其余状态动作对应的资格迹会逐步衰减；

下面给出Pn-stepQ算法描述：

Pn-stepQ算法

初始化：对每个状态S_t＝(z_n,z_n-1,......,z₁,z),策略行为a；

初始化Q值，资格迹e；

循环：执行下面操作，直到s_t是终止状态

(2)观察新的观测值z^，并且接到立即回报r_t+1；

(3)更新Q值：

(4)按照以下公式更新资格迹：

(5)更新状态：s_t＝s_t+1，即(z_n,z_n-1,......,z₁,z)＝(z_n-1,z_n-2,......,z₁,z,z^)。

3.根据权利要求2所述的一种非完备信息下的神经网络与Q学习结合的估值方法，其特征在于：

步骤3.2.1：传统的Q值表示：

传统的Q值表示是通过维护一张多维表格(简称Q值表)来实现，通过查询表格里面对应的Q值来获得；假设Q(s,a)(s∈S,a∈A)为一张多维的表格，S表示所有状态的集合，总的状态数为|S|，A表示所有的动作集合，总的动作数为|A|，Q(s,a)的意思是状态s下采取动作a的Q值，那么表的总大小为|S|×|A|的笛卡尔乘积的个数。

4.根据权利要求3所述的一种非完备信息下的神经网络与Q学习结合的估值方法，其特征在于：

步骤3.2.2：Fuzzy-Q学习：

Fuzzy-Q学习算法是把Q学习算法和模糊推理系统相结合，一个模糊推理系统包括如下部分：

(1)规则库：是由IF-THEN组合的模糊规则集合；

(2)数据库：模糊规则中的隶属函数；

(3)推理机制：根据模糊规则进行推理运算；

(4)模糊化输入：把输入转换为模糊化；

(5)去模糊化：把模糊计算的结果转换为输出；

模糊推理系统图首先对输入进行模糊化，通过数据库和规则库来进行推理，最后通过去模糊化得到相应的结果；

首先对状态抽象出n个状态变量，用来表示智能体所处的环境状态信息，这些状态变量的组合应该能够明确描述当前环境的状态信息，通过状态变量的组合来建立一个规则库；假设规则库有n个规则，表示成输入向量为x＝(x₁,x₂,......,x_n)，输出向量为w＝(w₁,w₂,......,w_n)，表示形式如下：

上述的w₁表示第j条规则，A_j1(1≤i≤n)表示第j条规则输入的模糊集变量，W_jm(1≤i≤n)表示第j条规则输出的变量结果；

建立了上述的规则库后，智能体输出规则，经过计算就能得到结果，假设上述规则库的输出向量为w＝(w₁,w₂,......,w_n)，对应的权值为(w_j1,w_j2,......,w_jm)，在输入向量x＝(x₁,x₂,......,x_n)时，经过模糊推理，每一个特征点的总权值计算见式(7)：

式中u_j(x)＝u_j1(x₁)×u_j2(x₂)×...×u_jn(x_n)表示相应模糊集的隶属函数值；

模糊推理系统的重心法解模糊的输出见式(8)，式中a＝(a₁,a₂,......,a_n)表示空间的特征点向量，根据输出值进行动作选择，进入到下一个状态，获得回报值；

接着更新知识库向量的权值，权值更新见式(9)，式中α是学习率，r是回报值，γ是折扣因子，W_max为W_k,(1≤k≤m)中的最大值，上述更新类似Q值表的更新；

w_jk＝w_jk+α·(r+γW_max),1≤k≤m (9)

5.根据权利要求4所述的一种非完备信息下的神经网络与Q学习结合的估值方法，其特征在于：

步骤3.2.3：NFQ神经网络结构如下所述：

主要包括输入层、隐含层和输出层，下面分别对这3层进行介绍：

输入层：输入为一串非线性的连续状态向量(x₁,x₂,...,x_n)，也就是非完备信息博弈中的状态向量；

隐藏层：把输入层和输出层链接起来，w_ij是第i个输入节点到第j个隐含层权值，Θ_j为第j个隐含层的节点阈值，h_j和b_j分别是是第i个隐藏层节点输入节点和输出节点；

输出层：输入层的向量经过人工神经网络计算后产生的输出结果，θ_k为第k个输出节点的阈值，y_k为第k个输出节点的输入，Q(s_t,a_k)是输出的Q函数值；

在反向传播BP神经网络中，输出节点的期望输出值和实际输出的差值反传到网络中，修改网络中的权值和阈值，保存学习到的经验，得到学习后的值更新差值见式(10)：

公式中W_t＝(w_ij,Θ_j,v_jk,θ_k)_t为BP神经网络中的权值和阈值矩阵；

应用到BP神经网络对更新差值e的均方差求导数，再乘上学习率α得到权值增量为结合资格迹衰减上次的权值增量后，累加到当前的权值增量上，基于梯度下降的资格迹更新公式见式(11)：

公式中，λ是资格迹的折扣率Δφ(a)为资格迹增量，为神经网络梯度；

权值增量Δv_jk的计算公式见式(13)：

输出层阈值Δθ_k迭代的计算公式见式(14)：

输入层和隐藏层间梯度计算公式见式(15)：

权值增量Δw_ij的计算公式见式(16)：

隐含层阈值ΔΘ_j的迭代计算公式见式(17)：

下面给出NFQ算法：

NFQ算法

初始化：θ_k、v_jk、wi_j、Θ_j，

δ'v_jk、δ'θ_k、δ'w_ij、δ'Θ_j←0,s_t＝s₀，

Q(s_t,a,W_t)←神经网络输出Q(s₀,a,W₀)；

循环：执行下面操作，直到终止状态

(1)根据神经网络的输出选择动作a，到达新的状态s_t+1；

(2)获得立即回报r←r_t；

(3)更新Q值：Q(s_t,a,W_t)←Q(s_t+1,a,W_t+1)；

(4)根据公式(12)～(17)更新神经网络权值：

W_t＝(w_ij,Θ_j,v_j,θ)_t←W_t+1；

(5)s_t←s_t+1。

6.根据权利要求5所述的一种非完备信息下的神经网络与Q学习结合的估值方法，其特征在于：

步骤3.3.1：UCB1策略：

把K臂强盗问题抽象为数学模型：定义变量T_i(n)表示手臂第i个手臂在n次选择中被选择的次数，变量X_i,n(1≤i≤k,1≤n)，这里的i代表强盗的第i个手臂的编号，如果连续拉动n次手臂i，会得到n个不同的回报X_i,1,X_i,2.......X_i,n，这些回报按照数学期望独立分布，不同手臂的回报分布没有影响；

Auer提出了一种“开发”和“探索”均衡的在线学习策略解决方法，称为UCB1算法，UCB1算法中，每次都选择具有最大的UCB值手臂，选择手臂根据公式见式(18)：

上述公式中包含了两部分，第一部分是表示已经拉动手臂i的平均回报收益，即所谓的“开发”部分，智能体对此节点所获得的信息；第二部分是表示第一部分的平均收益的置信区间大小，即所谓的“探索”部分，智能体对此节点位置信息。

7.根据权利要求6所述的一种非完备信息下的神经网络与Q学习结合的估值方法，其特征在于：

步骤3.3.2：基于UCT策略改进的Q学习回报函数：

把UCB1应用到非完备信息博弈中，获得最好分支的回报值，具体步骤如下：

(1)UCB1结合博弈树搜索转换成UCT算法；

(2)UCT算法与蒙特卡洛方法结合的蒙特卡洛树搜索(MCTS)，主要包括选择、扩展、更新、回朔四个过程扩展蒙特卡洛树；

上述公式中的R_s(i)在每次访问状态s的累计的回报值；

公式中的π_tree(s)是在s状态下选择的策略，c是调解开发和利用平衡的参数；

(3)通过计算每个抽样真实世界的回报作为Q学习值函数的回报值；

把非完备信息博弈抽样为完备信息博弈W＝(w₁,w₂,...,w_n)，再对这个完备信息博弈w_i通过UCT蒙特卡洛树搜索后，通过回朔到都会得到采取每个动作的回报值；在德州普通中，跟牌、加注、弃牌的回报值计算公式见式(21)：

式中V_j表示所有抽样世界采取某一动作的回报和，在德州扑克中j可取值有3种；v_j表示在w_i世界中采取动作j的回报；

通过上述3个步骤，可以计算出Q学习在非完备信息博弈中的回报延迟；

德州扑克中基于UCT计算Q学习延迟回报的算法如下：

算法3.3德州扑克中基于UCT计算Q学习延迟回报算法：

初始化：非完备信息博弈抽样完备信息博弈的次数n，德州扑克中采取Bucketting手牌抽样策略，

蒙特卡洛搜索树Tree，

根节点状态s₀，令s_t＝s₀，行为a＝(a₁,a₂,a₃)，

循环：非完备信息博弈抽样1～n次完备信息博弈

循环：直到状态s_t是德州扑克游戏结束状态

(1)根据公式(21)选择策略a_i，达到新的状态s_t+1；

(2)如果s_t+1不是Tree中的节点，Tree扩展s_t+1；

(3)N(s_t+1,a)＝N(s_t+1,a₁)+1，N(s)＝N(s)+1；