CN109871943A - 一种用于大菠萝扑克二三轮摆法的深度增强学习方法 - Google Patents
一种用于大菠萝扑克二三轮摆法的深度增强学习方法 Download PDFInfo
- Publication number
- CN109871943A CN109871943A CN201910124932.XA CN201910124932A CN109871943A CN 109871943 A CN109871943 A CN 109871943A CN 201910124932 A CN201910124932 A CN 201910124932A CN 109871943 A CN109871943 A CN 109871943A
- Authority
- CN
- China
- Prior art keywords
- arrangement
- neural network
- node
- valuation
- board
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种用于大菠萝扑克二三轮摆法的深度增强学习方法,该方法无需专家数据,结合神经网络和蒙特卡洛树搜索算法,让智能体在自我博弈中学习决策规则、不断提升收益。本方法以二三轮牌面为根节点,在给定迭代次数内,根据先验概率和平均收益选取叶节点,如果该节点未被扩展,将牌面信息编码输入神经网络得到先验概率和估值并扩展节点,用所选叶节点估值更新所有父节点的收益。迭代结束后对根节点所有摆法的采样次数进行归一化,选取概率最大摆法进入下一轮决策。所有决策完成后收集训练数据更新网络参数。本方法在进行大量自博弈学习后大比分战胜未学习网络,为研究非完备信息博弈提供一种通用可行的方法。
Description
技术领域
本发明涉及人工智能与机器博弈技术领域,具体涉及一种用于大菠萝扑克二三轮摆法的深度增强学习方法及其与大菠萝扑克的连接方法。
背景技术
人工智能(AI)的长期目标是让计算机自主学习,并在具有挑战性的领域超越人类的表现。在游戏中获得超越人类的表现,被誉为是解决现实中更具挑战性问题的基石。因此许多游戏被引入到人工智能的研究中,比如象棋、围棋、扑克等。在完备信息博弈领域中AI研究获得了极大的成功,例如1997年深蓝电脑以3.5-2.5击败了国际象棋世界冠军卡斯巴罗夫,2017年AlphaGo战胜世界第一棋手柯洁。但在非完备信息博弈领域,AI研究成果却不如前者耀眼。在现实生活中,无论是大国博弈、网络攻防,还是打牌下棋、股票买卖,很多决策都是在信息不对等情况下做出的。因此对非完备信息博弈的研究具有重大现实意义。虽然2017年1月Libratus在无限注德州扑克以极高的概率战胜四位顶级人类扑克玩家,但是复杂的系统设计距离人工智能的通用性仍然有一大段距离。
2017年10月AlphaGo Zero的出现又掀起一股热潮。AlphaGo Zero输入简单(直接的棋盘输入,无需任何特征工程),完全的自博弈(只需要决策规则指导,无需任何先验知识),在完备信息博弈领域提出了更具有一般性的解决框架,但这并不涉及非完备信息博弈。大菠萝扑克——一种仍然具有手牌不确定性和对手未知牌的扑克分支,相比于德州扑克有较弱的对抗性。本次发明旨在探索深度增强学习对于大菠萝扑克是否具有可行性,而实验结果证明深度增强学习确实能提升智能体非完备信息博弈的决策能力。
发明内容
本发明的目的是针对专家数据的稀缺,现有技术的不足,以及目前深度增强学习的研究现状和大菠萝扑克的打牌特点,提供了一种用于大菠萝扑克二三轮摆法的深度增强学习方法,针对性地构造一种输入结构和一种输出结构来连接神经网络与扑克,使用蒙特卡洛树搜索和神经网络结合,以实现自博弈生成数据,自我进化来提升智能体决策能力的目的。可为研究机器博弈技术和增强学习的研究者及科研机构提供一条可行的研究方向以及一个具体的样例。
本发明的目的可以通过采取如下技术方案达到:
一种用于大菠萝扑克二三轮摆法的深度增强学习方法,所述的深度增强学习方法包括下列步骤:
S1、以大菠萝扑克第二轮或第三轮牌面为根节点构建带有神经网络的蒙特卡洛搜索树,在给定采样迭代次数niter内,根据先验概率和平均收益选取可能获益最大的叶节点,其中叶节点选取的判断根据下式得到:
I(s,a)=Q(s,a)+U(s,a)
Q(s,a)=1/N(s,a)∑s′|s,a→s′V(s′)
式中,I(s,a)、U(s,a)、Q(s,a)分别为牌面状态s采取手牌摆法a的最大收益估计值、上置信区间和行动估值,P(s,a)为存储在节点上每种摆法的先验概率,N(s,a)为s采取摆法a的采样次数,∑b N(s,b)为s所有摆法b的采样次数总和,s′|s,a→s′为状态s采取摆法a后进入状态s’,∑s′|s,a→s′V(s′)为s采取摆法a的收益总和;
S2、如果选中叶节点未被扩展,将牌面信息编码输入神经网络得到先验概率向量和估值并扩展节点,否则进入下一步骤,其中先验概率向量p和估值v根据下式计算:
(p,v)=fθ(s)
式中,f为深度神经网络,θ为深度神经网络的参数,v为收益估值,p为先验概率向量,s为将当前牌面状态和手牌按特定牌面编码方式得到的张量;
S3、用所选叶节点估值回溯更新所有父节点的收益,其中回溯过程根据下式计算:
N(s,a)=N(s,a)+1
W(s,a)=W(s,a)+v
Q(s,a)=W(s,a)/N(s,a)
式中,N(s,a)、W(s,a)、Q(s,a)分别为状态s采取摆法a的采样次数、总收益和平均收益,v为叶节点的收益估值;
S4、迭代上述步骤S1、S2和S3共niter次后,对根节点所有摆法的采样次数进行归一化,选取概率最大摆法进入下一轮决策,其中归一化概率根据下式计算:
式中,s0为根节点状态,N(s0,a)、π(a|s0)分别为根节点选取摆法a的采样次数、概率向量,∑b N(s0,b)为根节点所有摆法b的采样次数总和,其中选取概率最大摆法公式计算如下:
a=argmax(π)
式中,a为选中手牌摆法;
S5、所有决策完成后收集网络输入、搜索概率和决策收益更新网络参数得到θ′,比较更新后的神经网络f′θ和未更新的神经网络fθ的性能,选取得分多的网络跳至步骤S1,循环重复nupdate次后,深度增强学习方法结束。
进一步地,所述的神经网络接受c×h×w的输入,同时输出一个2维向量p和一个1维标量v,其中向量p的大小为其中式中nhand、ndiscard分别为手牌数量、丢弃牌数量;
将手牌的摆牌位置以头道为0、中道为1、尾道为2的方式编码,并规定向量p第0至第nput-1维为第一种弃牌方法,第nput至第2nput-1维为第二种弃牌方法,以此类推,则向量p每个值的索引可转换成三进制编码,对应唯一一种摆牌方法a。
进一步地,所述的神经网络的结构依次为:c×h×w的输入层;卷积核大小为k×k、卷积核个数为nk、步长为nstride的卷积层、批标准化层和ReLU激活层;nres个连续残差块;最后一个残差块的输出分别接入策略头和估值头;
所述的残差块的结构依次为:卷积核大小为k×k、卷积核个数为nk、步长为nstride的卷积层、批标准化层和ReLU激活层;卷积核大小为k×k,卷积核个数为nk、步长为nstride的卷积层、批标准化层和ReLU激活层;其中,第二个批标准化层的输出和残差块的输入逐元素相加送入最后ReLU激活层;
所述的策略头的结构依次为:卷积核大小为1×1、卷积核个数为2、步长为1的卷积层、批标准化层和ReLU激活层,以及输出维度为nput×1的全连接层;
所述估值头的结构依次为:卷积核大小为1×1、卷积核个数为1、步长为1的卷积层、批标准化层和ReLU层,以及输出维度为256×1的全连接层和ReLU激活层,输出维度为1的全连接层。
进一步地,所述的步骤S2过程如下:
S21、对步骤S1选出的叶节点(s,a),如已扩展则进入下一步骤,否则牌面s按摆牌方法a进入下一轮,将新一轮牌面s′和手牌按特定牌面编码方式得到输入张量,其中张量为c个h×w的值为0或1的矩阵,矩阵至少包含52个值,分别对应52张扑克牌,特定牌面编码方式为扑克牌不同种类的牌对应矩阵不同位置的值,两者一一对应,当某种牌出现时对应位置值设为1,否则为0;
S22、将张量输入到神经网络fθ,得到先验概率向量p和估值v;
S23、扩展节点,新建叶节点存储着新一轮状态s′和估值v,叶节点有条边,每条边(s′,a)对应一种手牌摆法且存储着四个变量:叶子节点被访问的次数N(s′,a)、从根节点到对应子节点的价值总和W(s′,a)、价值均值Q(s′,a)和该摆法的先验概率P(s′,a)。每条边a初始化N(s′,a)=W(s′,a)=Q(s′,a)=0,P(s′,a)=pa,其中pa为先验概率向量对应于摆法a维度的值,当状态s′处于第二轮时,存储在边上的先验概率需加上η的狄利克雷噪声。
进一步地,所述的步骤S5过程如下:
S51、所有决策完成后收集网络输入s、搜索概率π和决策最终收益z更新网络参数得到θ′,其中更新的目标函数为l=(z-v)2-πTlogp+c||θ||2,式中c为正则系数;
S52、更新后的神经网络f′θ和未更新的神经网络fθ使用带有神经网络的蒙特卡洛搜索进行neval局博弈记录最终得分,得分高者进入下一轮增强学习,跳至步骤S1,循环nupdate次后,深度增强学习方法结束。
本发明相对于现有技术具有如下的优点及效果:
本发明的用于大菠萝扑克二三轮摆法的深度增强学习方法,针对性地构造了一种输入编码方法和一种输出编码来连接神经网络和大菠萝扑克,以实现使用神经网络进行决策的目的,针对性地结合蒙特卡洛树搜索和神经网络,以实现自博弈生成数据的目的,解决专家数据稀缺问题,针对大菠萝扑克博弈的研究不仅弥补了该领域研究上的空白,而且给非完备信息博弈和增强学习带来新的元素,为机器博弈领域提供了新的研究对象。
附图说明
图1为本发明实施例中深度增强学习自博弈一局每阶段使用不同方法进行决策的示意图;
图2为本发明实施例中带有神经网络的蒙特卡洛树搜索算法一次迭代的步骤示意图;
图3为本发明实施例中输出为5对应的手牌摆法;
图4为本发明实施例中神经网络模型的结构图;
图5为本发明实施例中梅花10的原始表示示意图;
图6为本发明实施例中深度增强学习一次迭代三个阶段的流程图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例
本实施例的应用对象为大菠萝扑克,该游戏为一种摆牌类游戏,总共有52张牌(出去大小王),总共五轮发牌,首轮每位玩家各发五张牌,从庄家的下一位开始逐一亮牌,亮牌后其摆牌位置不能改变。第二轮至第五轮每位玩家各发三张牌,玩家需要选择一张手牌置于弃牌区,弃牌区于对手不可见,其余手牌选择牌道摆放。本实施例针对二三轮决策的情况,但可扩展用于首轮和四五轮决策,如图1所示,为了加快网络收敛,首轮采用监督学习得到的神经网络进行决策,二三轮使用带有神经网络的蒙特卡洛树搜索进行决策,四五轮采用传统蒙特卡洛树搜索方法进行决策。所有决策结束后收集训练数据更新网络参数,比较更新前后网络的得分,得分高者进入下一轮增强学习迭代。
如图2所示,本实施例具体公开了一种用于大菠萝扑克二三轮摆法的深度增强学习方法,具体实施步骤如下:
S1、以大菠萝扑克第二轮或第三轮牌面为根节点构建带有神经网络的蒙特卡洛搜索树,在给定采样迭代次数niter=160内,图2中a选择阶段所示,根据先验概率和平均收益选取可能获益最大的叶节点,其中叶节点选取的判断根据下式得到:
I(s,a)=Q(s,a)+U(s,a)
Q(s,a)=1/N(s,a)∑s′|s,a→s′V(s′)
式中,I(s,a)、U(s,a)、Q(s,a)分别为牌面状态s采取手牌摆法a的最大收益估计值、上置信区间和行动估值,P(s,a)为存储在节点上每种摆法的先验概率,N(s,a)为s采取摆法a的采样次数,∑bN(s,b)为s所有摆法b的采样次数总和,s′|s,a→s′为状态s采取摆法a后进入状态s’,∑s′|s,a→s′V(s′)为s采取摆法a的收益总和;
S2、如图2中b扩展阶段所示,如果选中叶节点未被扩展,将牌面信息编码输入神经网络得到先验概率向量和估值并扩展节点,否则进入下一步骤,其中先验概率向量p和估值v根据下式计算:
(p,v)=fθ(s)
式中,f为深度神经网络,θ为深度神经网络的参数,v为收益估值,p为先验概率向量,s为将当前牌面和手牌按特定牌面编码方式得到的张量;
S3、如图2中c更新阶段所示,所选叶节点估值回溯更新所有父节点的收益,其中回溯过程根据下式计算:
N(s,a)=N(s,a)+1
W(s,a)=W(s,a)+v
Q(s,a)=W(s,a)/N(s,a)
式中,N(s,a)、W(s,a)、Q(s,a)分别为状态s采取摆法a的采样次数、总收益和平均收益,v为叶节点的收益估值;
S4、迭代上述步骤S1、S2、S3共160次后,对根节点所有摆法的采样次数进行归一化,选取概率最大摆法进入下一轮决策,其中归一化概率根据下式计算:
式中,s0为根节点状态,N(s0,a)、π(a|s0)分别为根节点选取摆法a的采样次数、概率向量,∑b N(s0,b)为根节点所有摆法b的采样次数总和,其中选取概率最大摆法公式计算如下:
a=argmax(π)
式中,a为选中手牌摆法;
S5、所有决策后收集网络输入、搜索概率和决策收益更新网络参数得到θ′,比较更新后的神经网络f′θ和未更新的神经网络fθ的性能,选取得分多的网络跳至步骤S1,循环nupdate次后,深度增强学习方法结束。
进一步地,所述的步骤S1中神经网络接受c×h×w=12×17×17的输入,同时输出一个2维向量p和一个1维标量v,其中向量p的大小为其中取ndiscard=1,nhand=3。将手牌的摆牌位置以头道为0、中道为1、尾道为2的方式编码,向量的第0至8维对应的摆法为丢弃第一张手牌,其余手牌按三进制编码进行摆放。同理,第9至17维为丢弃第二张手牌,第18至26维为丢弃第三张手牌。如图3所示,向量的第五维对应丢弃第一张手牌,第二张手牌置于中道,第三张手牌置于尾道。
进一步地,所述步骤S1中神经网络的结构如图4所示,依次为:12×17×17的输入层;卷积核大小为k=3、卷积核个数为nk=256、步长为nstride=1的卷积层,批标准化层和ReLU激活层;nres=4个连续残差块;最后一个残差块的输出分别接入策略头和估值头。
其中,残差块的结构依次为:卷积核大小为3×3、卷积核个数为256、步长为1的卷积层、批标准化层和ReLU激活层;卷积核大小为3、卷积核个数为256、步长为1的卷积层、批标准化层和ReLU激活层;其中,第二个批标准化层的输出和残差块的输入逐元素相加送入最后ReLU激活层。
其中,策略头的结构依次为:卷积核大小为1×1、卷积核个数为2、步长为1的卷积层、批标准化层和ReLU激活层,以及输出维度为27×1的全连接层;
其中,估值头的具体结构依次为:卷积核大小为1×1、卷积核个数为1、步长为1的卷积层、批标准化层和ReLU层,输出维度为256×1的全连接层和ReLU激活层,输出维度为1的全连接层。
进一步地,所述的步骤S2过程如下:
S21、对步骤S1选出的叶节点(s,a),如已扩展则进入下一步骤,否则牌面状态s按摆牌方法a进入下一轮,将新一轮牌面s′和手牌按特定牌面编码方式得到输入张量,其中张量为12个4×13的0-1矩阵分别表示二三轮不同的扑克信息,表示扑克的规则为已知牌的位置设为1其余为0,使用该原始表示方法的梅花10如图5所示,而后为了便于后面的卷积操作以及根据实际情况将4×13的矩阵扩充为17×17的大小,具体过程为左右分别插入两列零列,上插入6行零行,下插入7行零行。除了编入手牌信息,还把对手公开牌,本方三道等信息编入矩阵。最后,所述将牌面信息编码的具体为,第1个矩阵存储第一张手牌的信息,第2个矩阵存储第二张手牌的信息,第3个矩阵存储第三张手牌的信息,第4个矩阵存储第一张至第三张手牌全部信息的总和,第5个矩阵存储所有弃牌的信息,第6个矩阵存储本方头道已亮牌的信息,第7个矩阵存储本方中道已亮牌的信息,第8个矩阵存储本方尾道已亮牌的信息,第9个矩阵存储本方头道至尾道已亮牌信息的总和,第10个矩阵存储本方从首轮到目前为止抽到所有牌信息的总和,第11个矩阵存储对手三道已亮牌的信息,第12个矩阵存储本方知道的所有牌的信息总和,包括本方抽到的牌和对手已亮牌。
S22、将张量输入到神经网络fθ,得到先验概率向量p和估值v;
S23、扩展节点,新建叶节点存储着新一轮状态s′和估值v,叶节点有27条边,每条边(s′,a)对应一种手牌摆法且存储着四个变量:叶子节点被访问的次数N(s′,a)、从根节点到对应子节点的价值总和W(s′,a),价值均值Q(s′,a)和该摆法的先验概率P(s′,a)。每条边a初始化N(s′,a)=W(s′,a)=Q(s′,a)=0,P(s′,a)=pa,其中pa为先验概率向量对应于摆法a维度的值。当状态s′处于第二轮时,存储在边上的先验概率需加上η=0.03的狄利克雷噪声。
进一步地,所述的步骤S5过程如下:
S51、所有决策后收集网络输入s、搜索概率π和决策最终收益z更新网络参数得到θ′,其中更新的目标函数为l=(z-v)2-πTlogp+c||θ||2,式中c=10e-4为正则系数;
S52、更新后的神经网络f′θ和未更新的神经网络fθ使用带有神经网络的蒙特卡洛搜索进行neval=15,000局博弈记录最终得分,得分高者进入下一轮强化学习循环,循环nupdate=34次后,深度增强学习方法结束。
本实施例定义了深度增强学习一次增强学习迭代更新的三个阶段,分别为评估阶段、自博弈阶段和训练阶段。如图6标号所示从上到下依次为:
①算法刚开始时,构建三个不同的神经网络,三个网络的权值随机初始。为了说明方便,三个神经网络分别命名为网络1、网络2、网络3。保存三个网络的权值,在后续的过程中,为了评估网络的相对表现,固定网络3的权值,即网络3不参与任何参数的更新;
②使用带有神经网络的蒙特卡洛树搜索算法按步骤S1至S4进行15,000局博弈,选出得分最高的网络;
③得到网络各自得分后,为了及时淘汰表现差的网络,我们在观察网络1和网络2的表现,当两个网络的分差大于给定的阈值时,最佳网络替换最差网络的权值。因为网络3是固定参考,所以不参与替换过程;
④在自博弈阶段,每个线程中都加载评估阶段选出的最佳网络的权值文件,进行按步骤S1至S4自博弈8,400局生成训练数据;
⑤训练阶段按步骤S5,取最新生成的14个迭代数据,对最佳网络的参数进行权值更新。当前数据量不足时,取已有的全部数据。参数更新方法选用带有动量的学习率衰减的小批量梯度更新,动量系数设为0.9,初始学习率设为10e-4,epoch设为20,batch size设为1,024。
在本实施例中总共自博弈学习迭代了34轮,其中自博弈产生数据为171万条。因为扑克不同于围棋,不能简单以胜率评估神经网络的水平。根据大量实际对战统计,若博弈15,000局数后能以大于给定分差1,745.26的得分战胜对手,则能评定该神经网络的水平高于对手。如表1所示,经过深度增强学习自我进化的神经网络能以大比分战胜未学习的随机初始网络且分差远大于给定的评估分差,证明网络经过自我博弈能实现博弈水平的提升。
表1.实验结果
实验编号 | 评估局数 | 增强网络得分 | 随机网络得分 | 分差 |
1 | 15,000 | 30,185.38 | 26,426.44 | 3,758.933 |
2 | 15,000 | 34,266.25 | 29,092.29 | 5,173.959 |
3 | 15,000 | 31,857.10 | 28,279.29 | 3,577.811 |
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (5)
1.一种用于大菠萝扑克二三轮摆法的深度增强学习方法,其特征在于,所述的深度增强学习方法包括下列步骤:
S1、以大菠萝扑克第二轮或第三轮牌面为根节点构建带有神经网络的蒙特卡洛搜索树,在给定采样迭代次数niter内,根据先验概率和平均收益选取可能获益最大的叶节点,其中叶节点选取的判断根据下式得到:
I(s,a)=Q(s,a)+U(s,a)
Q(s,a)=1/N(s,a)∑s′|s,a→s′V(s′)
式中,I(s,a)、U(s,a)、Q(s,a)分别为牌面状态s采取手牌摆法a的最大收益估计值、上置信区间和行动估值,P(s,a)为存储在节点上每种摆法的先验概率,N(s,a)为s采取摆法a的采样次数,∑bN(s,b)为s所有摆法b的采样次数总和,s′|s,a→s′为状态s采取摆法a后进入状态s’,∑s′|s,a→s′V(s′)为s采取摆法a的收益总和;
S2、如果选中叶节点未被扩展,将牌面信息编码输入神经网络得到先验概率向量和估值并扩展节点,否则进入下一步骤,其中先验概率向量p和估值v根据下式计算:
(p,v)=fθ(s)
式中,f为深度神经网络,θ为深度神经网络的参数,v为收益估值,p为先验概率向量,s为将当前牌面状态和手牌按特定牌面编码方式得到的张量;
S3、用所选叶节点估值回溯更新所有父节点的收益,其中回溯过程根据下式计算:
N(s,a)=N(s,a)+1
W(s,a)=W(s,a)+v
Q(s,a)=W(s,a)/N(s,a)
式中,N(s,a)、W(s,a)、Q(s,a)分别为状态s采取摆法a的采样次数、总收益和平均收益,v为叶节点的收益估值;
S4、迭代上述步骤S1、S2和S3共niter次后,对根节点所有摆法的采样次数进行归一化,选取概率最大摆法进入下一轮决策,其中归一化概率根据下式计算:
式中,s0为根节点状态,N(s0,a)、π(a|s0)分别为根节点选取摆法a的采样次数、概率向量,∑bN(s0,b)为根节点所有摆法b的采样次数总和,其中选取概率最大摆法公式计算如下:
a=argmax(π)
式中,a为选中手牌摆法;
S5、所有决策完成后收集网络输入、搜索概率和决策收益更新网络参数得到θ′,比较更新后的神经网络f′θ和未更新的神经网络fθ的性能,选取得分多的网络跳至步骤S1,循环重复nupdate次后,深度增强学习方法结束。
2.根据权利要求1所述的一种用于大菠萝扑克二三轮摆法的深度增强学习方法,其特征在于,所述的神经网络接受c×h×w的输入,同时输出一个2维向量p和一个1维标量v,其中向量p的大小为 其中式中nhand、ndiscard分别为手牌数量、丢弃牌数量;
将手牌的摆牌位置以头道为0、中道为1、尾道为2的方式编码,并规定向量p第0至第nput-1维为第一种弃牌方法,第nput至第2nput-1维为第二种弃牌方法,以此类推,则向量p每个值的索引可转换成三进制编码,对应唯一一种摆牌方法a。
3.根据权利要求1所述的一种用于大菠萝扑克二三轮摆法的深度增强学习方法,其特征在于,所述的神经网络的结构依次为:c×h×w的输入层;卷积核大小为k×k、卷积核个数为nk、步长为nstride的卷积层、批标准化层和ReLU激活层;nres个连续残差块;最后一个残差块的输出分别接入策略头和估值头;
所述的残差块的结构依次为:卷积核大小为k×k、卷积核个数为nk、步长为nstride的卷积层、批标准化层和ReLU激活层;卷积核大小为k×k,卷积核个数为nk、步长为nstride的卷积层、批标准化层和ReLU激活层;其中,第二个批标准化层的输出和残差块的输入逐元素相加送入最后ReLU激活层;
所述的策略头的结构依次为:卷积核大小为1×1、卷积核个数为2、步长为1的卷积层、批标准化层和ReLU激活层,以及输出维度为 的全连接层;
所述估值头的结构依次为:卷积核大小为1×1、卷积核个数为1、步长为1的卷积层、批标准化层和ReLU层,以及输出维度为256×1的全连接层和ReLU激活层,输出维度为1的全连接层。
4.根据权利要求1所述的一种用于大菠萝扑克二三轮摆法的深度增强学习方法,其特征在于,所述的步骤S2过程如下:
S21、对步骤S1选出的叶节点(s,a),如已扩展则进入下一步骤,否则牌面s按摆牌方法a进入下一轮,将新一轮牌面s′和手牌按特定牌面编码方式得到输入张量,其中张量为c个h×w的值为0或1的矩阵,矩阵至少包含52个值,分别对应52张扑克牌,特定牌面编码方式为扑克牌不同种类的牌对应矩阵不同位置的值,两者一一对应,当某种牌出现时对应位置值设为1,否则为0;
S22、将张量输入到神经网络fθ,得到先验概率向量p和估值v;
S23、扩展节点,新建叶节点存储着新一轮状态s′和估值v,叶节点有条边,每条边(s′,a)对应一种手牌摆法且存储着四个变量:叶子节点被访问的次数N(s′,a)、从根节点到对应子节点的价值总和W(s′,a)、价值均值Q(s′,a)和该摆法的先验概率P(s′,a),每条边a初始化N(s′,a)=W(s′,a)=Q(s′,a)=0,P(s′,a)=pa,其中pa为先验概率向量对应于摆法a维度的值,当状态s′处于第二轮时,存储在边上的先验概率需加上η的狄利克雷噪声。
5.根据权利要求1所述的一种用于大菠萝扑克二三轮摆法的深度增强学习方法,其特征在于,所述的步骤S5过程如下:
S51、所有决策完成后收集网络输入s、搜索概率π和决策最终收益z更新网络参数得到θ′,其中更新的目标函数为l=(z-v)2-πTlogp+c||θ||2,式中c为正则系数;
S52、更新后的神经网络f′θ和未更新的神经网络fθ使用带有神经网络的蒙特卡洛搜索进行neval局博弈记录最终得分,得分高者进入下一轮增强学习,跳至步骤S1重复执行,循环nupdate次后,深度增强学习方法结束。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910124932.XA CN109871943A (zh) | 2019-02-20 | 2019-02-20 | 一种用于大菠萝扑克二三轮摆法的深度增强学习方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910124932.XA CN109871943A (zh) | 2019-02-20 | 2019-02-20 | 一种用于大菠萝扑克二三轮摆法的深度增强学习方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109871943A true CN109871943A (zh) | 2019-06-11 |
Family
ID=66918936
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910124932.XA Pending CN109871943A (zh) | 2019-02-20 | 2019-02-20 | 一种用于大菠萝扑克二三轮摆法的深度增强学习方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109871943A (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110297490A (zh) * | 2019-06-17 | 2019-10-01 | 西北工业大学 | 基于强化学习算法的异构模块化机器人自重构规划方法 |
CN110327623A (zh) * | 2019-07-09 | 2019-10-15 | 腾讯科技(深圳)有限公司 | 一种基于交互式应用的节点控制方法以及相关装置 |
CN110399920A (zh) * | 2019-07-25 | 2019-11-01 | 哈尔滨工业大学(深圳) | 一种基于深度强化学习的非完备信息博弈方法、装置、系统及存储介质 |
CN110852436A (zh) * | 2019-10-18 | 2020-02-28 | 桂林力港网络科技股份有限公司 | 一种电子扑克游戏的数据处理方法、装置及存储介质 |
CN110841295A (zh) * | 2019-11-07 | 2020-02-28 | 腾讯科技(深圳)有限公司 | 一种基于人工智能的数据处理方法和相关装置 |
CN111276183A (zh) * | 2020-02-25 | 2020-06-12 | 云南大学 | 一种基于参数估计的张量分解处理海量基因序列的方法 |
CN111667075A (zh) * | 2020-06-12 | 2020-09-15 | 杭州浮云网络科技有限公司 | 一种业务执行方法、装置及其相关设备 |
CN113869501A (zh) * | 2021-10-19 | 2021-12-31 | 京东科技信息技术有限公司 | 神经网络的生成方法、装置、电子设备及存储介质 |
-
2019
- 2019-02-20 CN CN201910124932.XA patent/CN109871943A/zh active Pending
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110297490A (zh) * | 2019-06-17 | 2019-10-01 | 西北工业大学 | 基于强化学习算法的异构模块化机器人自重构规划方法 |
CN110297490B (zh) * | 2019-06-17 | 2022-06-07 | 西北工业大学 | 基于强化学习算法的异构模块化机器人自重构规划方法 |
CN110327623A (zh) * | 2019-07-09 | 2019-10-15 | 腾讯科技(深圳)有限公司 | 一种基于交互式应用的节点控制方法以及相关装置 |
CN110327623B (zh) * | 2019-07-09 | 2023-09-19 | 腾讯科技(深圳)有限公司 | 一种基于交互式应用的节点控制方法以及相关装置 |
CN110399920A (zh) * | 2019-07-25 | 2019-11-01 | 哈尔滨工业大学(深圳) | 一种基于深度强化学习的非完备信息博弈方法、装置、系统及存储介质 |
CN110399920B (zh) * | 2019-07-25 | 2021-07-27 | 哈尔滨工业大学(深圳) | 一种基于深度强化学习的非完备信息博弈方法、装置、系统及存储介质 |
CN110852436A (zh) * | 2019-10-18 | 2020-02-28 | 桂林力港网络科技股份有限公司 | 一种电子扑克游戏的数据处理方法、装置及存储介质 |
CN110841295A (zh) * | 2019-11-07 | 2020-02-28 | 腾讯科技(深圳)有限公司 | 一种基于人工智能的数据处理方法和相关装置 |
CN111276183A (zh) * | 2020-02-25 | 2020-06-12 | 云南大学 | 一种基于参数估计的张量分解处理海量基因序列的方法 |
CN111667075A (zh) * | 2020-06-12 | 2020-09-15 | 杭州浮云网络科技有限公司 | 一种业务执行方法、装置及其相关设备 |
CN113869501A (zh) * | 2021-10-19 | 2021-12-31 | 京东科技信息技术有限公司 | 神经网络的生成方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109871943A (zh) | 一种用于大菠萝扑克二三轮摆法的深度增强学习方法 | |
CN110404264B (zh) | 一种基于虚拟自我对局的多人非完备信息博弈策略求解方法、装置、系统及存储介质 | |
CN110404265B (zh) | 一种基于博弈残局在线解算的多人非完备信息机器博弈方法、装置、系统及存储介质 | |
CN110119804A (zh) | 一种基于强化学习的爱恩斯坦棋博弈算法 | |
CN106779084A (zh) | 机器学习系统及方法 | |
Janusz et al. | Helping ai to play hearthstone: Aaia'17 data mining challenge | |
Justesen et al. | Playing multiaction adversarial games: Online evolutionary planning versus tree search | |
Huang et al. | Gym-µrts: Toward affordable full game real-time strategy games research with deep reinforcement learning | |
CN107812377A (zh) | 一种用于大菠萝扑克首轮摆法的卷积神经网络结构模型 | |
Yakovenko et al. | Poker-CNN: A pattern learning strategy for making draws and bets in poker games using convolutional networks | |
CN108970119A (zh) | 难度自适应游戏系统策略规划方法 | |
Fu | Simulation-based algorithms for Markov decision processes: Monte Carlo tree search from AlphaGo to AlphaZero | |
CN111330255B (zh) | 一种基于深度卷积神经网络的亚马逊棋招法生成方法 | |
Dobre et al. | Online learning and mining human play in complex games | |
Sturtevant et al. | Prob-max^ n: Playing n-player games with opponent models | |
Zhao et al. | Towards a Competitive 3-Player Mahjong AI using Deep Reinforcement Learning | |
Golbeck | Evolving strategies for the prisoner’s dilemma | |
CN112446424A (zh) | 一种字牌游戏数据处理方法、系统及存储介质 | |
Benbassat et al. | EvoMCTS: A scalable approach for general game learning | |
Harris et al. | Maidrl: Semi-centralized multi-agent reinforcement learning using agent influence | |
CN110478907B (zh) | 基于大数据驱动的麻将ai数据处理方法 | |
CN111617479B (zh) | 游戏人工智能系统的加速方法及系统 | |
Boskovic et al. | A differential evolution for the tuning of a chess evaluation function | |
Vieira et al. | Exploring Deep Reinforcement Learning for Battling in Collectible Card Games | |
CN116881656B (zh) | 一种基于深度蒙特卡洛的强化学习军棋ai系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190611 |