CN107038477A - 一种非完备信息下的神经网络与q学习结合的估值方法 - Google Patents

一种非完备信息下的神经网络与q学习结合的估值方法 Download PDF

Info

Publication number
CN107038477A
CN107038477A CN201710095895.5A CN201710095895A CN107038477A CN 107038477 A CN107038477 A CN 107038477A CN 201710095895 A CN201710095895 A CN 201710095895A CN 107038477 A CN107038477 A CN 107038477A
Authority
CN
China
Prior art keywords
formula
state
value
return
game
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710095895.5A
Other languages
English (en)
Inventor
王轩
蒋琳
张加佳
李昌
代佳宁
王鹏程
林云川
胡开亮
朱航宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Graduate School Harbin Institute of Technology
Original Assignee
Shenzhen Graduate School Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Graduate School Harbin Institute of Technology filed Critical Shenzhen Graduate School Harbin Institute of Technology
Publication of CN107038477A publication Critical patent/CN107038477A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供了一种非完备信息下的神经网络与Q学习结合的估值方法,步骤1:将非完备信息转换成部分可观测马尔科夫决策模型;步骤2:通过蒙特卡洛抽样技术把非完备信息博弈转换为完备信息博弈;步骤3:采用基于前 n步的Q学习算法,神经网络与Q学习结合的算法以及基于上限置信区间算法UCT计算Q学习延迟回报的值;步骤4:将前一步骤得到的Q值融合,得到最终结果。本发明提出的技术方案可以应用到多种非完备信息博弈中,比如“斗地主”,德州扑克等,并提高了智能体的博弈水平。本发明与现有的相关研究相比,在精度上有了较大的提升。

Description

一种非完备信息下的神经网络与Q学习结合的估值方法
技术领域
本发明涉及计算机机器博弈领域,主要涉及非完备信息机器博弈,估值函数,非完备信息机器博弈模型到部分可观测马尔科夫决策模型的转换等。
背景技术
非完备信息机器博弈的特点是博弈者在博弈过程中无法获得全部以及可信的局面信息,这使得研究起来更复杂,更具挑战性。因此,吸引了大批国内外学者关注。机器博弈系统由数据表示、规则产生器、博弈树搜索和估值函数四部分组成,估值函数是其中最核心的部分。估值函数类似人类的大脑,它有着判断当前局势的优劣,指导智能体选择策略的重要作用。估值函数的好坏,直接反映了计算机博弈智能体的水平高低。因此,对非完备信息机器博弈估值函数进行优化具有重要的意义。
发明内容
为了解决现有技术中问题,本发明提供了一种非完备信息下的神经网络与Q学习结合的估值方法,
步骤1:将非完备信息转换成部分可观测马尔科夫决策模型(PartiallyObservable Markov Decision Processes,POMDP):
POMDP和非完备信息博弈都属于在时间序列上做决策的模型,在该模型中,环境的状态是不能完全识别,动作的回报也不能立即获得。非完备信息博弈实际上可以当作在一颗博弈树上进行状态转移,把每一局转移合在一起可以抽象成POMDP模型的转移。
步骤2:通过蒙特卡洛抽样技术把非完备信息博弈转换为完备信息博弈:
对于一个非完备信息博弈,可以定义E表示整个真实的博弈的环境,定义集合W=(w1,w2,...,wn)表示非完备信息博弈在真实环境E中的所有可能的状态集合。可以把W的每个元素wi表示真实环境E的一个实际状态。定义Q=(q1,q2,...,qn)是W的抽样集合,通过随机的方法在W中抽样出子集Q。对每一个子集qi都是一个完备信息博弈。
步骤3:采用基于前n步的Q学习算法(Previous n-step QLearning,Pn-stepQ)、神经网络与Q学习结合(Neural Fitted Q,NFQ)的算法以及基于上限置信区间算法UCT(UpperConfidence Bound Apply to Tree)计算Q学习延迟回报的值:
步骤3.1:基于前n步的Q学习算法(Previous n-step QLearning,Pn-stepQ):
采用基于前n步的Q学习算法(Previous n-step QLearning,Pn-stepQ)来消除状态混淆现象。在Pn-stepQ算法中,时刻t状态定义见式(1):
St=(zn,zn-1,......,z1,z) (1)
式中z是智能体在t时刻的观测值,zn是智能体在t时刻之前的第n步的观测值,当机器人做出动作a后,时刻t+1状态定义见式(2):
St+1=(zn-1,zn-2,......,z1,z,z^) (2)
式中z0是智能体在t+1时刻的观测值,无论在t时刻还是t+1时刻,机器人始终由当前观测值和前n-1步观测值组成的观测值序列确定。
执行策略π行为值函数见式(3):
上述公式表示智能体在前n步观测状态为St=(zn,zn-1,......,z1,z)时,采取行为为a,在策略π得到的回报的期望值,其中,0≤γ≤1为折扣因子,rt为智能体在时刻t获得的回报。如果能求得最优的行为值函数,那么再求最优的行为策略就相对容易很多。根据上面三个定义,利用Q学习算法中的迭代方法逼近最优行为值函数公式见式(4)和(5):
Qt+1(zn,zn-1,......,z1,a)=Qt(zn,zn-1,......,z1,z,a)+αδtet(zn,zn-1,......,z1,z,a) (4)
其中α是学习因子,rt+1是智能体在t+1时刻所得回报,φt为资格迹更新函数。
资格迹的实质是智能体经过某个状态时,除了初始状态外的当前状态都是从前面的状态转移过来,需要对整个状态转移序列进行短暂的记忆,需要考虑之前状态的信度评估,不能把所有的状态对当前状态的信度视为一致。资格迹会随着时间推移逐步衰减之前状态的贡献度。例如在德州扑克中,第一轮每位玩家都只有手中的两张牌,玩家会根据自己的牌值选择某些策略。随着游戏的进行,假设游戏已经进入到了第四轮,第一轮所采取的策略对第二轮的影响比较大,对第四轮的影响没有第二轮和第三轮所采取的策略影响大,这就是一个贡献度的衰减。资格迹的更新见式(6):
式中γ为折扣因子需要满足条件0<γ<1,λ为常数并且满足。上述迭代公式会在智能体每转移一步时对于所有的状态(zn,zn-1,......,z1,z,a)同时进行更新,并且更新资格迹,只有对当前状态动作对应的et-1(zn,zn-1,......,z,a)时结果加1,其余状态动作对应的资格迹会逐步衰减。
下面给出Pn-stepQ算法描述:
Pn-stepQ算法
初始化:对每个状态St=(zn,zn-1,......,z1,z),策略行为a;
初始化Q值,资格迹e;
循环:执行下面操作,直到st是终止状态
(1)观察当前状态st,选择动作at,并执行此动作,到达新的状态st+1
(2)观察新的观测值z^,并且接到立即回报rt+1
(3)更新Q值:
Qt+1(zn,zn-1,......,z1,z,a)=Qt(zn,zn-1,......,z1,a)+αδtet(zn,zn-1,......,z1,z,a);
(4)按照以下公式更新资格迹:
(5)更新状态:st=st+1,即(zn,zn-1,......,z1,z)=(zn-1,zn-2,......,z1,z,z^)
步骤3.2:神经网络与Q学习结合(Neural Fitted Q,NFQ)的算法:
步骤3.2.1:传统的Q值表示:
传统的Q值表示是通过维护一张多维表格(简称Q值表)来实现,通过查询表格里面对应的Q值来获得。假设Q(s,a)(s∈S,a∈A)为一张多维的表格,S表示所有状态的集合,总的状态数为|S|,A表示所有的动作集合,总的动作数为|A|,Q(s,a)的意思是状态s下采取动作a的Q值,那么表的总大小为|S|×|A|的笛卡尔乘积的个数
步骤3.2.2:Fuzzy-Q学习:
Fuzzy-Q学习算法是把Q学习算法和模糊推理系统相结合。一个模糊推理系统包括如下部分。
(1)规则库:是由IF-THEN组合的模糊规则集合;
(2)数据库:模糊规则中的隶属函数;
(3)推理机制:根据模糊规则进行推理运算;
(4)模糊化输入:把输入转换为模糊化;
(5)去模糊化:把模糊计算的结果转换为输出。
模糊推理系统图首先对输入进行模糊化,通过数据库和规则库来进行推理,最后通过去模糊化得到相应的结果。
首先对状态抽象出n个状态变量(也可称为n个状态因素),用来表示智能体所处的环境状态信息,这些状态变量的组合应该能够明确描述当前环境的状态信息。通过状态变量的组合来建立一个规则库。假设规则库有n个规则,表示成输入向量为x=(x1,x2,......,xn),输出向量为w=(w1,w2,......,wn),表示形式如下:
上述的w1表示第j条规则,Aj1(1≤i≤n)表示第j条规则输入的模糊集变量。Wjm(1≤i≤n)表示第j条规则输出的变量结果。
建立了上述的规则库后,智能体输出规则,经过计算就能得到结果。假设上述规则库的输出向量为w=(w1,w2,......,wn),对应的权值为(wj1,wj2,......,wjm),在输入向量x=(x1,x2,......,xn)时,经过模糊推理,每一个特征点的总权值计算见式(7):
式中uj(x)=uj1(x1)×uj2(x2)×...×ujn(xn)表示相应模糊集的隶属函数值。
模糊推理系统的重心法解模糊的输出见式(8)。式中a=(a1,a2,......,an)表示空间的特征点向量。根据输出值进行动作选择,进入到下一个状态,获得回报值。
接着更新知识库向量的权值,权值更新见式(9),式中α是学习率,r是回报值,γ是折扣因子,Wmax为Wk,(1≤k≤m)中的最大值,上述更新类似Q值表的更新。
wjk=wjk+α·(r+γWmax),1≤k≤m (9)
在非完备信息博弈中,上述方法理论上可以实现的,但是,需要把每一条扑克的出牌规则全部总结出来是一件非常困难的事,即使是世界顶尖的大师也做不到这一点。
步骤3.2.3:基于NF改进的Q学习估值函数模型:
人工神经网络(Artificial Neural Network)是一种网络结构,它是模拟生物的神经网络结构,正如人类的脑神经元,神经元由大量的互相连接的节点组成,用权值来表示连接的强度,连接更紧密,神经元之间的关系也越密切。根据此原理,应用到人工神经网络上,节点之间的权值越大,说明它贡献度越大,对输出起的影响也越大。人工神经网络是一种能随环境的变化自动做出调节的自适应方法。在此结构上结合复杂的数学理论基础,可以用来分析输入和输出之间的复杂关系。人工神经网络是一个包含层次结构的网络结构,每一层都是由输入节点和输出节点组成,第i层的输出是第i+1层的输入。
在非完备信息博弈中,离散的Q值存储表需要巨大的存储空间,以及在查找速度也非常慢,整个效率都不高,也不能完整表示连续的环境状态。本研究引入一种神经网络与Q学习结合(Neural Fitted Q,NFQ)的算法来表示Q值。NFQ神经网络结构如下所述:
主要包括输入层、隐含层和输出层,下面分别对这3层进行介绍。
输入层:输入为一串非线性的连续状态向量(x1,x2,...,xn),也就是非完备信息博弈中的状态向量。在德州扑克游戏中,每个过程都会有大量的信息,这些信息对于智能体的决策都有一定的价值,例如博弈的阶段、总下注金额、己方牌力大小等。加拿大的阿尔伯特大学的研究者曾经提出了一个具有19个输入节点的输入节点,但是阿尔伯特大学的研究者没有考虑到时间的序列,玩家加注和跟注的次数等问题。
隐藏层:把输入层和输出层链接起来,wij是第i个输入节点到第j个隐含层权值,Θj为第j个隐含层的节点阈值,hj和bj分别是是第i个隐藏层节点输入节点和输出节点。
输出层:输入层的向量经过人工神经网络计算后产生的输出结果。θk为第k个输出节点的阈值,yk为第k个输出节点的输入,Q(st,ak)是输出的Q函数值。
在反向传播(Back Propagation,BP)神经网络中,输出节点的期望输出值和实际输出的差值反传到网络中,修改网络中的权值和阈值,保存学习到的经验,得到学习后的值更新差值见式(10):
公式中Wt=(wijj,vjkk)t为BP神经网络中的权值和阈值矩阵。
在德州扑克中,游戏中的中间状态都是从之前状态扩展来的,这是连续的状态向量作用的结果,之前的游戏状态或多或少都会影响到目前的游戏状态。Pn-stepQ学习算法需要使用资格迹对之前的状态分配一定的信度,这有会减少状态混淆,对当前状态表示更准确。应用到BP神经网络对更新差值e的均方差求导数,再乘上学习率α得到权值增量为结合资格迹衰减上次的权值增量后,累加到当前的权值增量上,基于梯度下降的资格迹更新公式见式(11):
公式中,λ是资格迹的折扣率Δφ(a)为资格迹增量,为神经网络梯度。
输出层和隐藏层激励函数f(x)、g(x)都是tan sigmoid函数,隐藏层和输出层的梯度计算公式见式(12):
权值增量Δvjk的计算公式见式(13):
输出层阈值Δθk迭代的计算公式见式(14):
输入层和隐藏层间梯度计算公式见式(15):
权值增量Δwij的计算公式见式(16):
隐含层阈值ΔΘj的迭代计算公式见式(17):
下面给出NFQ算法:
NFQ算法
初始化:θk、vjk、wij、Θj
δ'vjk、δ'θk、δ'wij、δ'Θj←0,st=s0
Q(st,a,Wt)←神经网络输出Q(s0,a,W0);
循环:执行下面操作,直到终止状态
(1)根据神经网络的输出选择动作a,到达新的状态st+1
(2)获得立即回报r←rt
(3)更新Q值:Q(st,a,Wt)←Q(st+1,a,Wt+1);
(4)根据公式(12)~(17)更新神经网络权值:
Wt=(wijj,vj,θ)t←Wt+1
(5)st←st+1
步骤3.3:基于上限置信区间算法UCT(Upper Confidence Bound Apply toTree):
步骤3.3.1:UCB1策略:
在博弈决策问题中,可以简化为一个具有多重选择的策略问题,即如何在所有的选择中进行权衡进行最终决策。K臂强盗问题就是对该问题的一个很好的描述。K臂强盗问题简单描述如下:假设一个参与赌博的强盗他有K只手臂,他可以拉动自己的每一只手臂,当拉动他的每一只手臂都会有一个或好或坏的收益,每只手臂产生的回报都不相关,也就是说拉动每个手臂的回报所遵循的分布是不相同的,不过拉动同一个手臂所获得的回报收益满足特定的分布。强盗在特定的时间内,只能拉动有限次数手臂,强盗想要在这有限的拉动次数中找到一个合理策略方法强盗的目的都是为了获得更多的回报收益,如果能找到一个合理策略方法,根据这个策略可以知道拉动哪个手臂能获得最大的收益,那么这个问题就解决了。
但是,当一个强盗想要拉动手臂的时候,他是不知道拉动自己的哪只手臂会产生更大的收益,对强盗来说,他拉动自己的每一只手臂都是同等概率,他无法立刻知道拉动后产生的未知信息。正如在非完备信息博弈中的德州扑克游戏,每一个阶段AI智能体可以采取弃牌、跟牌、加注三个行为。德州扑克的输赢是有固定的规则,双方牌力的大小也相对的,AI智能体不知道对手的牌是什么,采取任何的行为所获得的回报在游戏没有结束前也是不确定的。一般来说,玩家会根据自己所积累的先验知识来决定,通过自己所了解的选择自己认为最好的决策,如果一直通过这种策略不尝试其他的方法,会错过收益最好的决策。玩家需要不断的探索,找到自己还不知道的更好方法。这就是一个开发和探索问题,需要在这两者之间找到平衡点。
可以把上述K臂强盗问题抽象为数学模型:定义变量Ti(n)表示手臂第i个手臂在n次选择中被选择的次数。变量Xi,n(1≤i≤k,1≤n),这里的i代表强盗的第i个手臂的编号。如果连续拉动n次手臂i,会得到n个不同的回报Xi,1,Xi,2.......Xi,n,这些回报按照数学期望独立分布,不同手臂的回报分布没有影响。
Auer提出了一种“开发”和“探索”均衡的在线学习策略解决方法,称为UCB1(UpperConfidence Bound)算法。UCB1算法中,每次都选择具有最大的UCB值手臂,选择手臂根据公式见式(18)。
上述公式中包含了两部分,第一部分是表示已经拉动手臂i的平均回报收益,即所谓的“开发”部分,智能体对此节点所获得的信息。第二部分是表示第一部分的平均收益的置信区间大小,即所谓的“探索”部分,智能体对此节点位置信息。可见智能体是为了在“开发”和“探索”中找到平衡点,不仅具备找到目前探索过的最好的手臂,还兼顾了探索未知的手臂的优点,这样可以避免陷入局部最优的情况。
步骤3.3.2:基于UCT策略改进的Q学习回报函数:
在德州扑克中,智能体在每次选择策略的时候有加注、跟注和弃牌3中行为。如果智能体知道选择每个策略的真实回报,仅仅通过贪心算法的策略,智能体就可以做出最优的选择赢得比赛,或者提前弃牌降低自己的损失。但是,对于一个智能体,它对对手的情况什么都不了解,不知道自己和对手谁的牌大谁的牌小,这时候它也不知道采取哪个策略好。这就如同一个具有3个手臂的强盗可以拉下自己的任何一个手臂,与K臂强盗问题所描述的内容与德州扑克中棉铃的问题非常相似。在智能体采取策略后,都会把这些选择后所获得的附加收益累计到智能体中,智能体通过不断的“开发”和“探索”获得知识后,就可以知道怎么选择策略更好了。
把UCB1应用到非完备信息博弈中,获得最好分支的回报值,具体步骤如下。
(1)UCB1结合博弈树搜索转换成UCT算法。
UCT算法的实质是将博弈搜索树的每一个节点都当成是一个具有k个手臂的强盗,即K臂强盗问题。强盗通过选择自己的手臂到达的子节点,子节点也是一个具有K个手臂的强盗。类似德州扑克的游戏过程,智能体在每个过程的选择有3种,需要“开发”和“探索”选取最大的UCB值进入到下一个状态,这时候智能体又有3种选择,又通过“开发”和“探索”选取最大的UCB值进入到下一个状态,一直这样下去直到游戏结束,最后产生回报,上述过程实际上就是一颗博弈树的搜索过程。
(2)UCT算法与蒙特卡洛方法结合的蒙特卡洛树搜索(MCTS),主要包括选择、扩展、更新、回朔四个过程扩展蒙特卡洛树。
基于UCT的蒙特卡洛树搜索方法是一种可以用于非完备信息博弈环境抽样的搜索算法,利用UCT算法中对节点的扩展博弈树和节点回报值的回溯运算。在复杂的扩展式博弈状态环境下,通过对复杂环境进行抽样划分成许多的幕。在抽样的选择中,通过行为的选择和探索最有可能的环境空间。这样抽样出来的蒙特卡洛搜索树是一颗有效性高但是不对称的树,跟普通的博弈树搜索相比,它可以随时停止搜索,不用遍历所有的局面就可以有一个有效的策略选择。
基于UCT的蒙特卡洛树搜索方法包含以下几部分,定义N(s)为通过蒙特卡洛树搜索访问状态s的次数,N(s,a)为在状态为s时采取动作a的次数,V(s,a)是对在状态为s时采取动作a的评估函数,计算公式见式(19):
上述公式中的Rs(i)在每次访问状态s的累计的回报值。
蒙特卡洛树搜索是一个循环计算的过程,每次需要选择已经开发的多次策略,获胜具有较大可信的估值的策略,这种状态s下选择策略的计算公式见式(20):
公式中的πtree(s)是在s状态下选择的策略,c是调解开发和利用平衡的参数。当c=0时候,该算法就纯粹是一个贪心算法,得到的最终结果刚开始可能是最好的,全局来看往往不是最好的。
(3)通过计算每个抽样真实世界的回报作为Q学习值函数的回报值。
把非完备信息博弈抽样为完备信息博弈W=(w1,w2,...,wn),再对这个完备信息博弈wi通过UCT蒙特卡洛树搜索后,通过回朔到都会得到采取每个动作的回报值。在德州普通中,跟牌、加注、弃牌的回报值计算公式见式(21):
式中Vj表示所有抽样世界采取某一动作的回报和,在德州扑克中j可取值有3种。vj表示在wi世界中采取动作j的回报。
通过上述3个步骤,可以计算出Q学习在非完备信息博弈中的回报延迟,该回报延迟跟抽样的次数有关,抽样的次数越多,回报就越准确。
德州扑克中基于UCT计算Q学习延迟回报的算法如下:
德州扑克中基于UCT计算Q学习延迟回报算法
初始化:非完备信息博弈抽样完备信息博弈的次数n,德州扑克中采取Bucketting手牌抽样策略。
蒙特卡洛搜索树Tree,
根节点状态s0,令st=s0。行为a=(a1,a2,a3)。
循环:非完备信息博弈抽样1~n次完备信息博弈
循环:直到状态st是德州扑克游戏结束状态
(1)根据公式(21)选择策略ai,达到新的状态st+1
(2)如果st+1不是Tree中的节点,Tree扩展st+1
(3)N(st+1,a)=N(st+1,a1)+1,N(s)=N(s)+1;
(4)如果st+1是游戏结束状态,从叶节点到跟节点回朔更新回报值。
步骤4:将前一步骤得到的Q值融合,得到最终结果。
本发明的有益效果是:
本发明将改进的Q学习算法应用在非完备信息机器博弈的估值函数上,分别实现了德州扑克和斗地主两款计算机智能体系统。这两个计算机智能体系统不仅考虑了当前状态之前的状态信息,同时预测了当前状态之后可能会发生的情况。这两个计算机智能体的思维更接近人类,与传统的估值函数相比,可以选择更合理的策略。本发明提出的技术方案可以应用到多种非完备信息博弈中,比如“斗地主”,德州扑克等,并提高了智能体的博弈水平。本发明与现有的相关研究相比,在精度上有了较大的提升。
附图说明
图1是本发明NFQ神经网络结构;
图2是本发明博弈树搜索中的UCT算法;
图3是本发明二人德州扑克下的POMDP决策过程;
图4是本发明Q学习应用在非完备信息博弈的总体设计方案。
具体实施方式
下面结合附图对本发明做进一步说明。
本发明将改进的Q学习算法应用在非完备信息机器博弈的估值函数上,分别实现了德州扑克和斗地主两款计算机智能体系统。这两个计算机智能体系统不仅考虑了当前状态之前的状态信息,同时预测了当前状态之后可能会发生的情况。这两个计算机智能体的思维更接近人类,与传统的估值函数相比,可以选择更合理的策略。
针对非完备信息机器博弈中会出现两次观测到的牌局状态信息一样,而实际的牌局状态信息却不一样的状态混淆问题,采用连续的部分观测状态序列与资格迹(Eligibility Trace)结合的方法来解决。针对非完备信息机器博弈中状态空间信息庞大,在两人限制型德州扑克状态就包括3.19×1014个信息集,存在无法通过传统的Q值表示估值函数的问题,采用Q学习与人工神经网络结合的方法来解决。针对在非完备信息机器博弈中,游戏没有结束,无法获知采取当前策略的回报,即回报延迟问题,提出采用基于上限置信区间博弈树搜索(Upper Confidence Bound Applied to Tree,UCT)算法来求取当前策略的回报值。
非完备信息博弈与POMDP模型
非完备信息博弈在德州扑克中,假设有玩家结点、对手结点、随机结点和叶子结点。其中,玩家结点和对手结点代表的玩家双方的博弈,他们都可以采取弃牌、跟注、加注三个动作行为。随机结点代表了每一轮的发牌,包括第一轮发给每位玩家的两张手牌(Pre-flop)、第二轮发的三张公共牌(Flop)、第三轮发的第四张公共牌(Ture)和第四轮发第五张公共牌(River)。叶子结点表示的是玩家弃牌导致本局游戏结束,或者是最后的亮牌导致游戏结束。对于每局比赛,AI智能体都可以通过上述四个结点描述在博弈树间进行扩展。实际上可以当作在一颗博弈树上进行状态转移。
如果把每一局转移合在一起可以抽象成POMDP模型的转移。二人德州扑克的博弈树的POMDP模型如图3所示。
Q学习的状态改进模型
在POMDP模型中,很可能不同的实际状态却会出现相同的观测状态,大部分智能体的学习能力有限,无法准确区分它们,这样会导致感知混淆现象。本发明采用基于前n步的Q学习算法(Previous n-step QLearning,Pn-stepQ)来消除状态混淆现象。在Pn-stepQ算法中,时刻t状态定义见式(1):
St=(zn,zn-1,......,z1,z) (1)
式中z是智能体在t时刻的观测值,zn是智能体在t时刻之前的第n步的观测值,当机器人做出动作a后,时刻t+1状态定义见式(2):
St+1=(zn-1,zn-2,......,z1,z,z^) (2)
式中z0是智能体在t+1时刻的观测值,无论在t时刻还是t+1时刻,机器人始终由当前观测值和前n-1步观测值组成的观测值序列确定。
执行策略π行为值函数见式(3):
上述公式表示智能体在前n步观测状态为St=(zn,zn-1,......,z1,z)时,采取行为为a,在策略π得到的回报的期望值,其中,0≤γ≤1为折扣因子,rt为智能体在时刻t获得的回报。如果能求得最优的行为值函数,那么再求最优的行为策略就相对容易很多。根据上面三个定义,利用Q学习算法中的迭代方法逼近最优行为值函数公式见式(4)和(5):
Qt+1(zn,zn-1,......,z1,a)=Qt(zn,zn-1,......,z1,z,a)+αδtet(zn,zn-1,......,z1,z,a) (4)
其中α是学习因子,rt+1是智能体在t+1时刻所得回报,φt为资格迹更新函数。
资格迹的实质是智能体经过某个状态时,除了初始状态外的当前状态都是从前面的状态转移过来,需要对整个状态转移序列进行短暂的记忆,需要考虑之前状态的信度评估,不能把所有的状态对当前状态的信度视为一致。资格迹会随着时间推移逐步衰减之前状态的贡献度。例如在德州扑克中,第一轮每位玩家都只有手中的两张牌,玩家会根据自己的牌值选择某些策略。随着游戏的进行,假设游戏已经进入到了第四轮,第一轮所采取的策略对第二轮的影响比较大,对第四轮的影响没有第二轮和第三轮所采取的策略影响大,这就是一个贡献度的衰减。资格迹的更新见式(6):
式中γ为折扣因子需要满足条件0<γ<1,λ为常数并且满足。上述迭代公式会在智能体每转移一步时对于所有的状态(zn,zn-1,......,z1,z,a)同时进行更新,并且更新资格迹,只有对当前状态动作对应的et-1(zn,zn-1,......,z,a)时结果加1,其余状态动作对应的资格迹会逐步衰减。
Q学习的估值函数改进模型
在德州扑克中,游戏中的中间状态都是从之前状态扩展来的,这是连续的状态向量作用的结果,之前的游戏状态或多或少都会影响到目前的游戏状态。Pn-stepQ学习算法需要使用资格迹对之前的状态分配一定的信度,这有会减少状态混淆,对当前状态表示更准确。应用到BP神经网络对更新差值e的均方差求导数,再乘上学习率α得到权值增量为结合资格迹衰减上次的权值增量后,累加到当前的权值增量上,基于梯度下降的资格迹更新公式见式(7):
公式中,λ是资格迹的折扣率Δφ(a)为资格迹增量,为神经网络梯度。
输出层和隐藏层激励函数f(x)、g(x)都是tan sigmoid函数,隐藏层和输出层的梯度计算公式见式(8):
权值增量Δvjk的计算公式见式(9):
输出层阈值Δθk迭代的计算公式见式(10):
输入层和隐藏层间梯度计算公式见式(11):
权值增量Δwij的计算公式见式(12):
隐含层阈值ΔΘj的迭代计算公式见式(13):
Q学习改进的回报函数设计
本发明把UCB1(Upper Confidence Bound)应用到非完备信息博弈中,获得最好分支的回报值,具体步骤如下。
(1)UCB1结合博弈树搜索转换成UCT算法。
UCT算法的实质是将博弈搜索树的每一个节点都当成是一个具有k个手臂的强盗,即K臂强盗问题。强盗通过选择自己的手臂到达的子节点,子节点也是一个具有K个手臂的强盗。类似德州扑克的游戏过程,智能体在每个过程的选择有3种,需要“开发”和“探索”选取最大的UCB值进入到下一个状态,这时候智能体又有3种选择,又通过“开发”和“探索”选取最大的UCB值进入到下一个状态,一直这样下去直到游戏结束,最后产生回报,上述过程实际上就是一颗博弈树的搜索过程,博弈树搜索中的UCT算法如图2所示。
(2)UCT算法与蒙特卡洛方法结合的蒙特卡洛树搜索(MCTS),主要包括选择、扩展、更新、回朔四个过程扩展蒙特卡洛树。
基于UCT的蒙特卡洛树搜索方法是一种可以用于非完备信息博弈环境抽样的搜索算法,利用UCT算法中对节点的扩展博弈树和节点回报值的回溯运算。在复杂的扩展式博弈状态环境下,通过对复杂环境进行抽样划分成许多的幕。在抽样的选择中,通过行为的选择和探索最有可能的环境空间。这样抽样出来的蒙特卡洛搜索树是一颗有效性高但是不对称的树,跟普通的博弈树搜索相比,它可以随时停止搜索,不用遍历所有的局面就可以有一个有效的策略选择。
基于UCT的蒙特卡洛树搜索方法包含以下几部分,定义N(s)为通过蒙特卡洛树搜索访问状态s的次数,N(s,a)为在状态为s时采取动作a的次数,V(s,a)是对在状态为s时采取动作a的评估函数,计算公式见式(14):
上述公式中的Rs(i)在每次访问状态s的累计的回报值。
蒙特卡洛树搜索是一个循环计算的过程,每次需要选择已经开发的多次策略,获胜具有较大可信的估值的策略,这种状态s下选择策略的计算公式见式(15):
公式中的πtree(s)是在s状态下选择的策略,c是调解开发和利用平衡的参数。当c=0时候,该算法就纯粹是一个贪心算法,得到的最终结果刚开始可能是最好的,全局来看往往不是最好的。
(3)通过计算每个抽样真实世界的回报作为Q学习值函数的回报值。
把非完备信息博弈抽样为完备信息博弈W=(w1,w2,...,wn),再对这个完备信息博弈wi通过UCT蒙特卡洛树搜索后,通过回朔到都会得到采取每个动作的回报值。在德州普通中,跟牌、加注、弃牌的回报值计算公式见式(16):
式中Vj表示所有抽样世界采取某一动作的回报和,在德州扑克中j可取值有3种。vj表示在wi世界中采取动作j的回报。
通过上述4个步骤,可以计算出Q学习在非完备信息博弈中的回报延迟,该回报延迟跟抽样的次数有关,抽样的次数越多,回报就越准确。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。

Claims (7)

1.一种非完备信息下的神经网络与Q学习结合的估值方法,其特征在于,包括以下步骤:
步骤1:将非完备信息转换成部分可观测马尔科夫决策模型POMDP;
步骤2:通过蒙特卡洛抽样技术把非完备信息博弈转换为完备信息博弈;
步骤3:采用基于前n步的Q学习算法Pn-stepQ、神经网络与Q学习结合的算法NFQ以及基于上限置信区间算法UCT计算Q学习延迟回报的值;
步骤3.1:基于前n步的Q学习算法Pn-stepQ;
步骤3.2:神经网络与Q学习结合NFQ的算法;
步骤3.2.1:传统的Q值表示;
步骤3.2.2:Fuzzy-Q学习;
步骤3.2.3:基于NF改进的Q学习估值函数模型;
步骤3.3:基于上限置信区间算法UCT;
步骤3.3.1:UCB1策略;
步骤3.3.2:基于UCT策略改进的Q学习回报函数;
步骤4:将前一步骤得到的Q值融合,得到最终结果。
2.根据权利要求1所述的一种非完备信息下的神经网络与Q学习结合的估值方法,其特征在于:
步骤3.1:基于前n步的Q学习算法Pn-stepQ:
采用基于前n步的Q学习算法Pn-stepQ来消除状态混淆现象,在Pn-stepQ算法中,时刻t状态定义见式(1):
St=(zn,zn-1,......,z1,z) (1)
式中z是智能体在t时刻的观测值,zn是智能体在t时刻之前的第n步的观测值,当机器人做出动作a后,时刻t+1状态定义见式(2):
St+1=(zn-1,zn-2,......,z1,z,z^) (2)
式中z0是智能体在t+1时刻的观测值,无论在t时刻还是t+1时刻,机器人始终由当前观测值和前n-1步观测值组成的观测值序列确定;
执行策略π行为值函数见式(3):
上述公式表示智能体在前n步观测状态为St=(zn,zn-1,......,z1,z)时,采取行为为a,在策略π得到的回报的期望值,其中,0≤γ≤1为折扣因子,rt为智能体在时刻t获得的回报;根据上面三个定义,利用Q学习算法中的迭代方法逼近最优行为值函数公式见式(4)和(5):
Qt+1(zn,zn-1,......,z1,a)=Qt(zn,zn-1,......,z1,z,a)+αδtet(zn,zn-1,......,z1,z,a) (4)
其中α是学习因子,rt+1是智能体在t+1时刻所得回报,φt为资格迹更新函数;
资格迹的更新见式(6):
式中γ为折扣因子需要满足条件0<γ<1,λ为常数并且满足,上述迭代公式会在智能体每转移一步时对于所有的状态(zn,zn-1,......,z1,z,a)同时进行更新,并且更新资格迹,只有对当前状态动作对应的et-1(zn,zn-1,......,z,a)时结果加1,其余状态动作对应的资格迹会逐步衰减;
下面给出Pn-stepQ算法描述:
Pn-stepQ算法
初始化:对每个状态St=(zn,zn-1,......,z1,z),策略行为a;
初始化Q值,资格迹e;
循环:执行下面操作,直到st是终止状态
(1)观察当前状态st,选择动作at,并执行此动作,到达新的状态st+1
(2)观察新的观测值z^,并且接到立即回报rt+1
(3)更新Q值:
Qt+1(zn,zn-1,......,z1,z,a)=Qt(zn,zn-1,......,z1,a)+αδtet(zn,zn-1,......,z1,z,a);
(4)按照以下公式更新资格迹:
(5)更新状态:st=st+1,即(zn,zn-1,......,z1,z)=(zn-1,zn-2,......,z1,z,z^)。
3.根据权利要求2所述的一种非完备信息下的神经网络与Q学习结合的估值方法,其特征在于:
步骤3.2.1:传统的Q值表示:
传统的Q值表示是通过维护一张多维表格(简称Q值表)来实现,通过查询表格里面对应的Q值来获得;假设Q(s,a)(s∈S,a∈A)为一张多维的表格,S表示所有状态的集合,总的状态数为|S|,A表示所有的动作集合,总的动作数为|A|,Q(s,a)的意思是状态s下采取动作a的Q值,那么表的总大小为|S|×|A|的笛卡尔乘积的个数。
4.根据权利要求3所述的一种非完备信息下的神经网络与Q学习结合的估值方法,其特征在于:
步骤3.2.2:Fuzzy-Q学习:
Fuzzy-Q学习算法是把Q学习算法和模糊推理系统相结合,一个模糊推理系统包括如下部分:
(1)规则库:是由IF-THEN组合的模糊规则集合;
(2)数据库:模糊规则中的隶属函数;
(3)推理机制:根据模糊规则进行推理运算;
(4)模糊化输入:把输入转换为模糊化;
(5)去模糊化:把模糊计算的结果转换为输出;
模糊推理系统图首先对输入进行模糊化,通过数据库和规则库来进行推理,最后通过去模糊化得到相应的结果;
首先对状态抽象出n个状态变量,用来表示智能体所处的环境状态信息,这些状态变量的组合应该能够明确描述当前环境的状态信息,通过状态变量的组合来建立一个规则库;假设规则库有n个规则,表示成输入向量为x=(x1,x2,......,xn),输出向量为w=(w1,w2,......,wn),表示形式如下:
上述的w1表示第j条规则,Aj1(1≤i≤n)表示第j条规则输入的模糊集变量,Wjm(1≤i≤n)表示第j条规则输出的变量结果;
建立了上述的规则库后,智能体输出规则,经过计算就能得到结果,假设上述规则库的输出向量为w=(w1,w2,......,wn),对应的权值为(wj1,wj2,......,wjm),在输入向量x=(x1,x2,......,xn)时,经过模糊推理,每一个特征点的总权值计算见式(7):
式中uj(x)=uj1(x1)×uj2(x2)×...×ujn(xn)表示相应模糊集的隶属函数值;
模糊推理系统的重心法解模糊的输出见式(8),式中a=(a1,a2,......,an)表示空间的特征点向量,根据输出值进行动作选择,进入到下一个状态,获得回报值;
接着更新知识库向量的权值,权值更新见式(9),式中α是学习率,r是回报值,γ是折扣因子,Wmax为Wk,(1≤k≤m)中的最大值,上述更新类似Q值表的更新;
wjk=wjk+α·(r+γWmax),1≤k≤m (9)
5.根据权利要求4所述的一种非完备信息下的神经网络与Q学习结合的估值方法,其特征在于:
步骤3.2.3:NFQ神经网络结构如下所述:
主要包括输入层、隐含层和输出层,下面分别对这3层进行介绍:
输入层:输入为一串非线性的连续状态向量(x1,x2,...,xn),也就是非完备信息博弈中的状态向量;
隐藏层:把输入层和输出层链接起来,wij是第i个输入节点到第j个隐含层权值,Θj为第j个隐含层的节点阈值,hj和bj分别是是第i个隐藏层节点输入节点和输出节点;
输出层:输入层的向量经过人工神经网络计算后产生的输出结果,θk为第k个输出节点的阈值,yk为第k个输出节点的输入,Q(st,ak)是输出的Q函数值;
在反向传播BP神经网络中,输出节点的期望输出值和实际输出的差值反传到网络中,修改网络中的权值和阈值,保存学习到的经验,得到学习后的值更新差值见式(10):
公式中Wt=(wijj,vjkk)t为BP神经网络中的权值和阈值矩阵;
应用到BP神经网络对更新差值e的均方差求导数,再乘上学习率α得到权值增量为结合资格迹衰减上次的权值增量后,累加到当前的权值增量上,基于梯度下降的资格迹更新公式见式(11):
公式中,λ是资格迹的折扣率Δφ(a)为资格迹增量,为神经网络梯度;
输出层和隐藏层激励函数f(x)、g(x)都是tan sigmoid函数,隐藏层和输出层的梯度计算公式见式(12):
权值增量Δvjk的计算公式见式(13):
输出层阈值Δθk迭代的计算公式见式(14):
输入层和隐藏层间梯度计算公式见式(15):
权值增量Δwij的计算公式见式(16):
隐含层阈值ΔΘj的迭代计算公式见式(17):
下面给出NFQ算法:
NFQ算法
初始化:θk、vjk、wij、Θj
δ'vjk、δ'θk、δ'wij、δ'Θj←0,st=s0
Q(st,a,Wt)←神经网络输出Q(s0,a,W0);
循环:执行下面操作,直到终止状态
(1)根据神经网络的输出选择动作a,到达新的状态st+1
(2)获得立即回报r←rt
(3)更新Q值:Q(st,a,Wt)←Q(st+1,a,Wt+1);
(4)根据公式(12)~(17)更新神经网络权值:
Wt=(wijj,vj,θ)t←Wt+1
(5)st←st+1
6.根据权利要求5所述的一种非完备信息下的神经网络与Q学习结合的估值方法,其特征在于:
步骤3.3.1:UCB1策略:
把K臂强盗问题抽象为数学模型:定义变量Ti(n)表示手臂第i个手臂在n次选择中被选择的次数,变量Xi,n(1≤i≤k,1≤n),这里的i代表强盗的第i个手臂的编号,如果连续拉动n次手臂i,会得到n个不同的回报Xi,1,Xi,2.......Xi,n,这些回报按照数学期望独立分布,不同手臂的回报分布没有影响;
Auer提出了一种“开发”和“探索”均衡的在线学习策略解决方法,称为UCB1算法,UCB1算法中,每次都选择具有最大的UCB值手臂,选择手臂根据公式见式(18):
上述公式中包含了两部分,第一部分是表示已经拉动手臂i的平均回报收益,即所谓的“开发”部分,智能体对此节点所获得的信息;第二部分是表示第一部分的平均收益的置信区间大小,即所谓的“探索”部分,智能体对此节点位置信息。
7.根据权利要求6所述的一种非完备信息下的神经网络与Q学习结合的估值方法,其特征在于:
步骤3.3.2:基于UCT策略改进的Q学习回报函数:
把UCB1应用到非完备信息博弈中,获得最好分支的回报值,具体步骤如下:
(1)UCB1结合博弈树搜索转换成UCT算法;
(2)UCT算法与蒙特卡洛方法结合的蒙特卡洛树搜索(MCTS),主要包括选择、扩展、更新、回朔四个过程扩展蒙特卡洛树;
基于UCT的蒙特卡洛树搜索方法包含以下几部分,定义N(s)为通过蒙特卡洛树搜索访问状态s的次数,N(s,a)为在状态为s时采取动作a的次数,V(s,a)是对在状态为s时采取动作a的评估函数,计算公式见式(19):
上述公式中的Rs(i)在每次访问状态s的累计的回报值;
蒙特卡洛树搜索是一个循环计算的过程,每次需要选择已经开发的多次策略,获胜具有较大可信的估值的策略,这种状态s下选择策略的计算公式见式(20):
公式中的πtree(s)是在s状态下选择的策略,c是调解开发和利用平衡的参数;
(3)通过计算每个抽样真实世界的回报作为Q学习值函数的回报值;
把非完备信息博弈抽样为完备信息博弈W=(w1,w2,...,wn),再对这个完备信息博弈wi通过UCT蒙特卡洛树搜索后,通过回朔到都会得到采取每个动作的回报值;在德州普通中,跟牌、加注、弃牌的回报值计算公式见式(21):
式中Vj表示所有抽样世界采取某一动作的回报和,在德州扑克中j可取值有3种;vj表示在wi世界中采取动作j的回报;
通过上述3个步骤,可以计算出Q学习在非完备信息博弈中的回报延迟;
德州扑克中基于UCT计算Q学习延迟回报的算法如下:
算法3.3德州扑克中基于UCT计算Q学习延迟回报算法:
初始化:非完备信息博弈抽样完备信息博弈的次数n,德州扑克中采取Bucketting手牌抽样策略,
蒙特卡洛搜索树Tree,
根节点状态s0,令st=s0,行为a=(a1,a2,a3),
循环:非完备信息博弈抽样1~n次完备信息博弈
循环:直到状态st是德州扑克游戏结束状态
(1)根据公式(21)选择策略ai,达到新的状态st+1
(2)如果st+1不是Tree中的节点,Tree扩展st+1
(3)N(st+1,a)=N(st+1,a1)+1,N(s)=N(s)+1;
(4)如果st+1是游戏结束状态,从叶节点到跟节点回朔更新回报值。
CN201710095895.5A 2016-08-10 2017-02-22 一种非完备信息下的神经网络与q学习结合的估值方法 Pending CN107038477A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN2016106524298 2016-08-10
CN201610652429 2016-08-10

Publications (1)

Publication Number Publication Date
CN107038477A true CN107038477A (zh) 2017-08-11

Family

ID=59534079

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710095895.5A Pending CN107038477A (zh) 2016-08-10 2017-02-22 一种非完备信息下的神经网络与q学习结合的估值方法

Country Status (1)

Country Link
CN (1) CN107038477A (zh)

Cited By (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107885086A (zh) * 2017-11-17 2018-04-06 合肥工业大学 基于mcmc优化q学习的自主航行器控制参数在线调节方法
CN108227494A (zh) * 2018-01-05 2018-06-29 海南师范大学 非线性批次过程2d最优约束模糊容错控制方法
CN108211362A (zh) * 2017-12-26 2018-06-29 浙江大学 一种基于深度q学习网络的非玩家角色战斗策略学习方法
CN108319286A (zh) * 2018-03-12 2018-07-24 西北工业大学 一种基于强化学习的无人机空战机动决策方法
CN108446801A (zh) * 2018-03-22 2018-08-24 成都大象分形智能科技有限公司 一种多人信息非对称博弈游戏决策生成系统
CN108764453A (zh) * 2018-06-08 2018-11-06 中国科学技术大学 面向多智能体同步博弈的建模方法及动作预测系统
CN108803609A (zh) * 2018-06-11 2018-11-13 苏州大学 基于约束在线规划的部分可观察自动驾驶决策方法及系统
CN108791308A (zh) * 2018-06-25 2018-11-13 大连大学 基于驾驶环境构建驾驶策略的系统
CN108970119A (zh) * 2018-07-16 2018-12-11 苏州大学 难度自适应游戏系统策略规划方法
CN109034395A (zh) * 2018-07-03 2018-12-18 清华大学 基于情境感知的策略配置方法及策略配置系统
CN109190278A (zh) * 2018-09-17 2019-01-11 西安交通大学 一种基于蒙特卡洛树搜索的透平转子动叶片的排序方法
CN109214516A (zh) * 2018-07-20 2019-01-15 中国航空工业集团公司沈阳飞机设计研究所 一种模糊推理系统的完备决策生成方法
CN109243021A (zh) * 2018-08-28 2019-01-18 余利 基于用户体验分析的深度强化学习式智能门锁系统及装置
CN109343532A (zh) * 2018-11-09 2019-02-15 中国联合网络通信集团有限公司 一种动态随机环境的路径规划方法和装置
CN109375514A (zh) * 2018-11-30 2019-02-22 沈阳航空航天大学 一种存在假数据注入攻击时的最优跟踪控制器设计方法
CN109447152A (zh) * 2018-10-29 2019-03-08 中国石油大学(华东) 一种基于蒙特卡洛树搜索和神经网络的故障预测方法
CN109472363A (zh) * 2018-10-29 2019-03-15 潘颖慧 可解释性竞争对手建模方法
CN109508789A (zh) * 2018-06-01 2019-03-22 北京信息科技大学 预测手牌的方法、存储介质、处理器以及设备
CN110337082A (zh) * 2019-04-22 2019-10-15 北京邮电大学 基于环境感知学习策略的家禽饲养监测无线传感网络发送速率调整方法
CN110340888A (zh) * 2018-10-30 2019-10-18 大连理工大学 一种空间机器人抓捕控制系统、强化学习方法及动力学建模方法
CN110399920A (zh) * 2019-07-25 2019-11-01 哈尔滨工业大学(深圳) 一种基于深度强化学习的非完备信息博弈方法、装置、系统及存储介质
CN110404265A (zh) * 2019-07-25 2019-11-05 哈尔滨工业大学(深圳) 一种基于博弈残局在线解算的多人非完备信息机器博弈方法、装置、系统及存储介质
CN110404264A (zh) * 2019-07-25 2019-11-05 哈尔滨工业大学(深圳) 一种基于虚拟自我对局的多人非完备信息博弈策略求解方法、装置、系统及存储介质
CN110659420A (zh) * 2019-09-25 2020-01-07 广州西思数字科技有限公司 一种基于深度神经网络蒙特卡洛搜索树的个性化配餐方法
CN110766770A (zh) * 2019-10-16 2020-02-07 腾讯科技(深圳)有限公司 热力图生成方法、装置、可读存储介质和计算机设备
CN110841295A (zh) * 2019-11-07 2020-02-28 腾讯科技(深圳)有限公司 一种基于人工智能的数据处理方法和相关装置
CN110989352A (zh) * 2019-12-06 2020-04-10 上海应用技术大学 一种基于蒙特卡洛树搜索算法的群体机器人协同搜索方法
CN111176122A (zh) * 2020-02-11 2020-05-19 哈尔滨工程大学 一种基于双bp神经网络q学习技术的水下机器人参数自适应反步控制方法
CN111679679A (zh) * 2020-07-06 2020-09-18 哈尔滨工业大学 基于蒙特卡洛树搜索算法的机器人状态规划方法
CN112150152A (zh) * 2020-10-09 2020-12-29 浙江专线宝网阔物联科技有限公司 基于区块链与模糊认知映射融合的b-f神经网络可追溯算法
CN112187554A (zh) * 2020-12-01 2021-01-05 北京蒙帕信创科技有限公司 一种基于蒙特卡洛树搜索的运维系统故障定位方法和系统
CN112356031A (zh) * 2020-11-11 2021-02-12 福州大学 一种基于Kernel采样策略在不确定性环境下的在线规划方法
CN112463992A (zh) * 2021-02-04 2021-03-09 中至江西智能技术有限公司 基于麻将领域知识图谱的决策辅助自动问答方法及系统
CN112560905A (zh) * 2020-12-01 2021-03-26 中国科学技术大学 一种最大熵部分可观测蒙特卡洛规划方法
CN112668721A (zh) * 2021-03-17 2021-04-16 中国科学院自动化研究所 通用的非平稳环境中去中心化多智能系统的决策方法
CN112755538A (zh) * 2021-04-07 2021-05-07 中国科学院自动化研究所 通用的多智能体博弈算法
CN112799823A (zh) * 2021-03-31 2021-05-14 中国人民解放军国防科技大学 边缘计算任务的在线分派调度方法和系统
CN114089627A (zh) * 2021-10-08 2022-02-25 北京师范大学 基于双深度q网络学习的非完全信息博弈策略优化方法
CN115115995A (zh) * 2022-08-29 2022-09-27 四川天启智能科技有限公司 一种基于自学习模型的麻将博弈决策方法

Cited By (62)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107885086B (zh) * 2017-11-17 2019-10-25 合肥工业大学 基于mcmc优化q学习的自主航行器控制参数在线调节方法
CN107885086A (zh) * 2017-11-17 2018-04-06 合肥工业大学 基于mcmc优化q学习的自主航行器控制参数在线调节方法
CN108211362A (zh) * 2017-12-26 2018-06-29 浙江大学 一种基于深度q学习网络的非玩家角色战斗策略学习方法
CN108211362B (zh) * 2017-12-26 2020-10-09 浙江大学 一种基于深度q学习网络的非玩家角色战斗策略学习方法
CN108227494A (zh) * 2018-01-05 2018-06-29 海南师范大学 非线性批次过程2d最优约束模糊容错控制方法
CN108227494B (zh) * 2018-01-05 2022-01-04 海南师范大学 非线性批次过程2d最优约束模糊容错控制方法
CN108319286A (zh) * 2018-03-12 2018-07-24 西北工业大学 一种基于强化学习的无人机空战机动决策方法
CN108319286B (zh) * 2018-03-12 2020-09-22 西北工业大学 一种基于强化学习的无人机空战机动决策方法
CN108446801A (zh) * 2018-03-22 2018-08-24 成都大象分形智能科技有限公司 一种多人信息非对称博弈游戏决策生成系统
CN109508789B (zh) * 2018-06-01 2022-03-15 北京信息科技大学 预测手牌的方法、存储介质、处理器以及设备
CN109508789A (zh) * 2018-06-01 2019-03-22 北京信息科技大学 预测手牌的方法、存储介质、处理器以及设备
CN108764453B (zh) * 2018-06-08 2021-10-01 中国科学技术大学 面向多智能体同步博弈的建模方法及动作预测系统
CN108764453A (zh) * 2018-06-08 2018-11-06 中国科学技术大学 面向多智能体同步博弈的建模方法及动作预测系统
CN108803609B (zh) * 2018-06-11 2020-05-01 苏州大学 基于约束在线规划的部分可观察自动驾驶决策方法
CN108803609A (zh) * 2018-06-11 2018-11-13 苏州大学 基于约束在线规划的部分可观察自动驾驶决策方法及系统
CN108791308A (zh) * 2018-06-25 2018-11-13 大连大学 基于驾驶环境构建驾驶策略的系统
CN109034395A (zh) * 2018-07-03 2018-12-18 清华大学 基于情境感知的策略配置方法及策略配置系统
CN108970119A (zh) * 2018-07-16 2018-12-11 苏州大学 难度自适应游戏系统策略规划方法
CN109214516A (zh) * 2018-07-20 2019-01-15 中国航空工业集团公司沈阳飞机设计研究所 一种模糊推理系统的完备决策生成方法
CN109214516B (zh) * 2018-07-20 2021-09-03 中国航空工业集团公司沈阳飞机设计研究所 一种模糊推理系统的完备决策生成方法
CN109243021A (zh) * 2018-08-28 2019-01-18 余利 基于用户体验分析的深度强化学习式智能门锁系统及装置
CN109243021B (zh) * 2018-08-28 2021-09-17 余利 基于用户体验分析的深度强化学习式智能门锁系统及装置
CN109190278A (zh) * 2018-09-17 2019-01-11 西安交通大学 一种基于蒙特卡洛树搜索的透平转子动叶片的排序方法
CN109472363A (zh) * 2018-10-29 2019-03-15 潘颖慧 可解释性竞争对手建模方法
CN109447152B (zh) * 2018-10-29 2022-02-15 中国石油大学(华东) 一种基于蒙特卡洛树搜索和神经网络的故障预测方法
CN109472363B (zh) * 2018-10-29 2021-11-23 潘颖慧 可解释性竞争对手建模方法
CN109447152A (zh) * 2018-10-29 2019-03-08 中国石油大学(华东) 一种基于蒙特卡洛树搜索和神经网络的故障预测方法
CN110340888A (zh) * 2018-10-30 2019-10-18 大连理工大学 一种空间机器人抓捕控制系统、强化学习方法及动力学建模方法
CN109343532A (zh) * 2018-11-09 2019-02-15 中国联合网络通信集团有限公司 一种动态随机环境的路径规划方法和装置
CN109375514A (zh) * 2018-11-30 2019-02-22 沈阳航空航天大学 一种存在假数据注入攻击时的最优跟踪控制器设计方法
CN110337082A (zh) * 2019-04-22 2019-10-15 北京邮电大学 基于环境感知学习策略的家禽饲养监测无线传感网络发送速率调整方法
CN110404265A (zh) * 2019-07-25 2019-11-05 哈尔滨工业大学(深圳) 一种基于博弈残局在线解算的多人非完备信息机器博弈方法、装置、系统及存储介质
CN110399920B (zh) * 2019-07-25 2021-07-27 哈尔滨工业大学(深圳) 一种基于深度强化学习的非完备信息博弈方法、装置、系统及存储介质
CN110404264A (zh) * 2019-07-25 2019-11-05 哈尔滨工业大学(深圳) 一种基于虚拟自我对局的多人非完备信息博弈策略求解方法、装置、系统及存储介质
CN110399920A (zh) * 2019-07-25 2019-11-01 哈尔滨工业大学(深圳) 一种基于深度强化学习的非完备信息博弈方法、装置、系统及存储介质
CN110404265B (zh) * 2019-07-25 2022-11-01 哈尔滨工业大学(深圳) 一种基于博弈残局在线解算的多人非完备信息机器博弈方法、装置、系统及存储介质
CN110404264B (zh) * 2019-07-25 2022-11-01 哈尔滨工业大学(深圳) 一种基于虚拟自我对局的多人非完备信息博弈策略求解方法、装置、系统及存储介质
CN110659420A (zh) * 2019-09-25 2020-01-07 广州西思数字科技有限公司 一种基于深度神经网络蒙特卡洛搜索树的个性化配餐方法
CN110659420B (zh) * 2019-09-25 2022-05-20 广州西思数字科技有限公司 一种基于深度神经网络蒙特卡洛搜索树的个性化配餐方法
CN110766770A (zh) * 2019-10-16 2020-02-07 腾讯科技(深圳)有限公司 热力图生成方法、装置、可读存储介质和计算机设备
CN110841295B (zh) * 2019-11-07 2022-04-26 腾讯科技(深圳)有限公司 一种基于人工智能的数据处理方法和相关装置
CN110841295A (zh) * 2019-11-07 2020-02-28 腾讯科技(深圳)有限公司 一种基于人工智能的数据处理方法和相关装置
CN110989352A (zh) * 2019-12-06 2020-04-10 上海应用技术大学 一种基于蒙特卡洛树搜索算法的群体机器人协同搜索方法
CN110989352B (zh) * 2019-12-06 2022-05-27 上海应用技术大学 一种基于蒙特卡洛树搜索算法的群体机器人协同搜索方法
CN111176122A (zh) * 2020-02-11 2020-05-19 哈尔滨工程大学 一种基于双bp神经网络q学习技术的水下机器人参数自适应反步控制方法
CN111679679A (zh) * 2020-07-06 2020-09-18 哈尔滨工业大学 基于蒙特卡洛树搜索算法的机器人状态规划方法
CN112150152B (zh) * 2020-10-09 2023-08-08 浙江专线宝网阔物联科技有限公司 基于区块链与模糊认知映射融合的b-f神经网络可追溯算法
CN112150152A (zh) * 2020-10-09 2020-12-29 浙江专线宝网阔物联科技有限公司 基于区块链与模糊认知映射融合的b-f神经网络可追溯算法
CN112356031B (zh) * 2020-11-11 2022-04-01 福州大学 一种基于Kernel采样策略在不确定性环境下的在线规划方法
CN112356031A (zh) * 2020-11-11 2021-02-12 福州大学 一种基于Kernel采样策略在不确定性环境下的在线规划方法
CN112560905A (zh) * 2020-12-01 2021-03-26 中国科学技术大学 一种最大熵部分可观测蒙特卡洛规划方法
CN112187554B (zh) * 2020-12-01 2021-03-19 北京蒙帕信创科技有限公司 一种基于蒙特卡洛树搜索的运维系统故障定位方法和系统
CN112187554A (zh) * 2020-12-01 2021-01-05 北京蒙帕信创科技有限公司 一种基于蒙特卡洛树搜索的运维系统故障定位方法和系统
CN112463992B (zh) * 2021-02-04 2021-06-11 中至江西智能技术有限公司 基于麻将领域知识图谱的决策辅助自动问答方法及系统
CN112463992A (zh) * 2021-02-04 2021-03-09 中至江西智能技术有限公司 基于麻将领域知识图谱的决策辅助自动问答方法及系统
CN112668721B (zh) * 2021-03-17 2021-07-02 中国科学院自动化研究所 非平稳环境中去中心化多智能系统的决策方法
CN112668721A (zh) * 2021-03-17 2021-04-16 中国科学院自动化研究所 通用的非平稳环境中去中心化多智能系统的决策方法
CN112799823A (zh) * 2021-03-31 2021-05-14 中国人民解放军国防科技大学 边缘计算任务的在线分派调度方法和系统
CN112755538A (zh) * 2021-04-07 2021-05-07 中国科学院自动化研究所 通用的多智能体博弈算法
CN114089627A (zh) * 2021-10-08 2022-02-25 北京师范大学 基于双深度q网络学习的非完全信息博弈策略优化方法
CN114089627B (zh) * 2021-10-08 2023-09-15 北京师范大学 基于双深度q网络学习的非完全信息博弈策略优化方法
CN115115995A (zh) * 2022-08-29 2022-09-27 四川天启智能科技有限公司 一种基于自学习模型的麻将博弈决策方法

Similar Documents

Publication Publication Date Title
CN107038477A (zh) 一种非完备信息下的神经网络与q学习结合的估值方法
Wang et al. A fast and accurate online self-organizing scheme for parsimonious fuzzy neural networks
Kisi et al. Modeling groundwater fluctuations by three different evolutionary neural network techniques using hydroclimatic data
CN108921298B (zh) 强化学习多智能体沟通与决策方法
CN113688977B (zh) 面向对抗任务的人机共生强化学习方法、装置、计算设备及存储介质
CN102622515B (zh) 一种天气预测方法
CN110119804A (zh) 一种基于强化学习的爱恩斯坦棋博弈算法
CN108172047A (zh) 一种网络在线学习资源个性化实时推荐方法
Cai et al. Creating an immersive game world with evolutionary fuzzy cognitive maps
CN116128060A (zh) 一种基于对手建模与蒙特卡洛强化学习的棋类博弈方法
Hölldobler et al. Lessons Learned from AlphaGo.
Rubin et al. On combining decisions from multiple expert imitators for performance
CN110363399A (zh) 一种混合深度对抗网络滚动强化学习博弈策略
Balgi et al. Counterfactual analysis of the impact of the imf program on child poverty in the global-south region using causal-graphical normalizing flows
CN107423811A (zh) 基于bp人工神经网络和情景模拟组合的径流变化归因识别方法
Sun et al. Research on action strategies and simulations of drl and mcts-based intelligent round game
CN113426109B (zh) 一种基于因式分解机进行棋牌游戏行为克隆的方法
Dyankov et al. Multi-task learning by pareto optimality
Liu et al. An improved minimax-Q algorithm based on generalized policy iteration to solve a Chaser-Invader game
Salazar et al. A Tale of a Tool: The Impact of Sims’s Vector Autoregressions on Macroeconometrics
Furze et al. Mathematical methods to quantify and characterise the primary elements of trophic systems
Rout et al. An artificial bee colony algorithm based efficient prediction model for stock market indices
CN112215333B (zh) 基于低阶高斯分布的多智能体协同探索方法及装置
Li et al. [Retracted] An Algorithm for Optimal Allocation of Water Resources in Receiving Areas Based on Adaptive Decreasing Inertia Weights
Alqudah Artificial Intelligence Using a Neural Network System to Support Human Resources in the Workplace

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20170811

RJ01 Rejection of invention patent application after publication