CN114676757A

CN114676757A - 一种多人非完备信息博弈游戏策略生成方法和装置

Info

Publication number: CN114676757A
Application number: CN202210225870.3A
Authority: CN
Inventors: 时大明; 范文慧; 刘义; 黄亚东
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2022-03-09
Filing date: 2022-03-09
Publication date: 2022-06-28

Abstract

本发明涉及一种多人非完备信息博弈游戏策略生成方法和装置，包括：获取玩家决策前的博弈状态信息；基于共享策略网络和博弈状态信息确定最优决策动作，以便玩家参考最优决策动作制定目标定决策动作；其中，共享策略网络，是预先利用共享数据集中的博弈样本训练的强化学习网络。本发明共享策略网络是一种强化学习网络结构，主要采用离线方式进行学习，将大量用于学习的计算量放在训练阶段，从而在使用阶段只需要以博弈状态信息为切入点调用训练好的策略网络即可实时决策，避免了其他博弈策略搜索算法搜索过程中计算量大以及耗时长的问题。

Description

一种多人非完备信息博弈游戏策略生成方法和装置

技术领域

本发明涉及人工智能和博弈论的交叉领域，尤其涉及一种多人非完备信息博弈游戏策略生成方法和装置。

背景技术

非完备信息机器博弈，一直以来都是人工智能领域中非常重要的研究课题。多人德州扑克智能博弈是其中非常典型的一种。

多人德州扑克具备两个很显著的特征；其一是状态空间大，每个玩家两张手牌和五张公共牌的组合使得牌局中初始状态空间很庞大，随着游戏的进行，受公共牌的随机性以及其他玩家手牌的未知性的影响，状态空间还在不断地扩充；其二是动作空间大，限制下注额的德州扑克中至少有加注、跟注和弃牌三种决策选择，每个轮次所有玩家需要按照圆桌顺序依次进行决策，直到未弃牌外的玩家下注额达成一致方可终止，每一轮次的动作决策长度不可预测，导致最终的动作空间特别庞大。通过总结发现，德州扑克在玩家人数大于两人时，其状态空间和动作空间的规模随玩家人数的增长而呈现指数增长态势，这无疑为德州扑克博弈策略的智能求解带来了巨大的挑战。

目前，常见的德州扑克博弈策略生成方法为决策树搜索、蒙特卡洛法、最小遗憾值法等。然而这些方法都是将状态和决策动作作为树状进行展开，所有可能的状态和动作都作为决策树的一个节点。可想而知，在多人德州扑克博弈时，构建出的决策树的深度以及节点数量过于巨大。这导致决策树所需的存储空间大，且使用决策树进行策略搜索所需耗费的时间长，难以实时决策。

发明内容

本发明的目的是提供一种多人非完备信息博弈游戏策略生成方法和装置，用以解决形如多人德州扑克博弈游戏的多人非完备信息博弈游戏中难以实时生成博弈策略的问题，进而缩短博弈策略搜索的时间，并降低搜索博弈策略所耗费的资源。

第一个方面，本发明实施例提供一种多人非完备信息博弈游戏策略生成方法，所述方法包括：

获取玩家决策前的博弈状态信息；

基于共享策略网络和所述博弈状态信息确定最优决策动作，以便玩家参考所述最优决策动作制定目标决策动作；

其中，所述共享策略网络，是预先利用共享数据集中的博弈样本训练的强化学习网络。

根据本发明提供的多人非完备信息博弈游戏策略生成方法，所述方法应用于多人德州扑克游戏玩家的智能体；所述博弈状态信息，包括：手牌信息和牌桌展示信息；

所述牌桌展示信息，包括：已展示的公共牌信息、牌桌中所有玩家的筹码数量、牌桌中的奖池数额和本轮中所有玩家的历史决策信息；

所述决策动作，包括：弃牌、跟注和加注。

根据本发明提供的多人非完备信息博弈游戏策略生成方法，所述获取玩家决策前的博弈状态信息之后，还包括：

将所述博弈状态信息，以及玩家上次决策对应的决策动作和博弈状态信息作为一条博弈样本加入到所述共享数据集中；

在确定所述目标决策动作为玩家在游戏结束前制定的最后一个决策动作的情况下，将所述目标决策动作、所述博弈状态信息和游戏结束时玩家的博弈状态信息作为一条博弈样本加入到所述共享数据集中。

根据本发明提供的多人非完备信息博弈游戏策略生成方法，所述共享策略网络的训练过程，包括：

对共享数据集进行博弈样本采样，并将采样得到的博弈样本组成训练集；

确定训练集中博弈样本对应的决策动作回报值；

对训练集中博弈样本及其对应的决策动作回报值进行强化学习，得到所述共享策略网络。

根据本发明提供的多人非完备信息博弈游戏策略生成方法，在博弈样本中的决策动作为博弈样本对应的玩家在游戏结束前制定的最后一个决策动作的情况下，确定所述博弈样本对应的决策动作回报值，包括：

若所述博弈样本中的决策动作为弃牌，则所述博弈样本对应的决策动作回报值为0；

若所述博弈样本对应的玩家赢得牌局，且所述博弈样本中的决策动作不为弃牌，则所述博弈样本对应的决策动作回报值为Q与博弈样本对应的玩家赢得牌局时获得的筹码数之间的乘积；

若所述博弈样本对应的玩家输了牌局，且所述博弈样本中的决策动作不为弃牌，所述博弈样本对应的决策动作回报值为-K与所述博弈样本中的决策动作执行之后牌桌最大下注额和博弈样本对应的玩家已下注额的差值之间的乘积；

其中，Q为第一预设正值，K为第二预设正值。

根据本发明提供的多人非完备信息博弈游戏策略生成方法，在博弈样本中的决策动作不为博弈样本对应的玩家在游戏结束前制定的最后一个决策动作的情况下，确定所述博弈样本对应的决策动作回报值，包括：

将-K与所述博弈样本中的决策动作执行之后牌桌最大下注额和博弈样本对应的玩家已下注额的差值之间的乘积作为所述博弈样本对应的决策动作回报值；

其中，K为第二预设正值。

根据本发明提供的多人非完备信息博弈游戏策略生成方法，判定所述玩家离线，则令所述玩家制定的目标决策动作为所述最优决策动作。

第二方面，本发明还提供一种多人非完备信息博弈游戏策略生成装置，所述装置包括：

获取模块，用于获取玩家决策前的博弈状态信息；

决策动作确定模块，用于基于共享策略网络和所述博弈状态信息确定最优决策动作，以便玩家参考所述最优决策动作制定目标决策动作；

其中，所述共享策略网络，是预先利用共享数据集中博弈样本训练的强化学习网络。

第三方面，本发明还提供一种智能体，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现如第一方面所述多人非完备信息博弈游戏策略生成方法。

第四方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如第一方面所述多人非完备信息博弈游戏策略生成方法。

本发明提供的一种多人非完备信息博弈游戏策略生成方法和装置，包括：获取玩家决策前的博弈状态信息；基于共享策略网络和所述博弈状态信息确定最优决策动作，以便玩家参考所述最优决策动作制定目标决策动作；其中，所述共享策略网络，是预先利用共享数据集中的博弈样本训练的强化学习网络。共享策略网络是一种强化学习网络结构，主要采用离线方式进行学习，将大量用于学习的计算量放在训练阶段，从而在使用阶段只需要以博弈状态信息为切入点调用训练好的策略网络即可实时决策，避免了其他博弈策略搜索结构存储空间大以及搜索过程计算量大且耗时长的问题。此外，原本每一个智能体对应一个策略网络，后台需要维护多个策略网络的数据结构和它们的训练算力，共享策略网络和共享数据集的引入使得后台维护转变为只维护一个共享策略网络并只优化该网络，大幅度降低策略网络的训练复杂度和空间复杂度。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的多人非完备信息博弈游戏策略生成方法流程图；

图2是本发明提供的多人德州扑克博弈实例图；

图3是本发明提供的多人非完备信息博弈游戏策略生成装置的结构示意图；

图4是本发明提供的实现多人非完备信息博弈游戏策略生成方法的智能体的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

德州扑克是多人非完备信息博弈游戏的一种典型示例，其属于玩家对玩家的公共牌类游戏，通常一桌有2-10人参加。一局德州扑克包含翻牌前、翻牌、转牌、河牌和摊牌五个轮次。在翻牌前，每名玩家手中有两张手牌，牌桌上有五张公共牌。翻牌轮次翻开前三张，转牌轮次翻开第四张，河牌轮次翻开第五张。玩家以圆桌形式就坐，并在每个轮次顺序依次进行加注、跟注和弃牌的选择，直到除弃牌之外的玩家跟注到同样的注额这一轮次才结束。最终摊牌轮次剩下的玩家将手牌和公共牌组成最大的五张组合进行比大小，赢家将获得(多人时平分)牌桌上所有的注额。

目前，多人德州扑克的状态空间和动作空间的规模随玩家人数的增长而呈现指数增长态势，因此德州扑克博弈决策树的存储空间和计算时间也随玩家人数的增长而呈指数增长，耗费存储资源且不利于智能博弈的实时决策。

针对形如多人德州扑克博弈游戏的多人非完备信息博弈游戏中难以实时生成博弈策略的问题，本发明提出一种多人非完备信息博弈游戏策略生成方法和装置，下面结合图1-图4进行描述。

第一方面，如图1所示，本发明提供一种多人非完备信息博弈游戏策略生成方法，所述方法包括：

S11、获取玩家决策前的博弈状态信息；

游戏平台在客户端会为每一个游戏玩家提供一个具备智能表现的智能体，以便一对一的为游戏玩家提供智能决策；

智能体在游戏进行过程中持续观测游戏实时情景，并在玩家需要作出决策前，获取玩家当前的博弈状态信息；

S12、基于共享策略网络和所述博弈状态信息确定最优决策动作，以便玩家参考所述最优决策动作制定目标决策动作；

实际应用时，只需调用共享策略网络，即可实时获得共享策略网络反馈的最优决策动作；而玩家可以以该最优决策动作为最终决策进行输出，也可以自行给出最终决策。

可以理解的是，本发明共享策略网络面向多智能体，即众多智能体共用一个共享策略网络，不受牌局和游戏房间的限制。

其中，所述共享策略网络，是预先利用共享数据集中的博弈样本训练的强化学习网络；

本发明的每个智能体将其服务的游戏玩家的博弈过程数据(博弈样本)共享形成共享数据集，该共享数据集中隐含着游戏玩家的博弈经验，并以该共享数据集训练共享策略网络，以实现多智能体共享同一策略网络，共同进行训练优化和调用。此后只需要维护和优化训练一个策略网络，避免了重复训练的储存空间和计算资源的浪费。

本发明提供的一种多人非完备信息博弈游戏策略生成方法，所述方法包括：获取玩家决策前的博弈状态信息；基于共享策略网络和所述博弈状态信息确定最优决策动作，以便玩家参考所述最优决策动作制定目标决策动作；其中，所述共享策略网络，是预先利用共享数据集中的博弈样本训练的强化学习网络。共享策略网络是一种强化学习网络结构，主要采用离线方式进行学习，将大量用于学习的计算量放在训练阶段，从而在使用阶段只需要以状态信息为切入点调用训练好的策略网络即可实时决策，避免了其他博弈策略搜索算法搜索过程中计算量大以及耗时长的问题。此外，原本每一个智能体对应一个策略网络，后台需要维护多个策略网络的数据结构和它们的训练算力，共享策略网络和共享数据集的引入使得后台维护转变为只维护一个共享策略网络并只优化该网络，大幅度降低策略网络的训练复杂度和空间复杂度。

在上述各实施例的基础上，作为一种可选的实施例，所述方法应用于多人德州扑克游戏玩家的智能体；所述博弈状态信息，包括：手牌信息和牌桌展示信息；

所述决策动作，包括：弃牌、跟注和加注。

本发明智能体应在投入使用之前完成对多人德州扑克玩家的状态建模，以使智能体明确所需获取的博弈状态信息的项目。

博弈状态信息可以体现牌桌的环境，基于博弈状态信息，智能体可以借助共享策略网络为玩家提供最优决策动作，以供玩家选择。

需要说明的是，牌桌中玩家的筹码数量，指的是玩家的剩余筹码数量；手牌信息至少包括：手牌的大小和花色；同样，公共牌信息至少包括：公共牌的大小和花色。

本发明对非完备信息博弈游戏玩家的博弈状态进行建模，从而在游戏进行过程中针对性的提取关键信息，为共享策略网络的调用和优化训练奠定基础。

在上述各实施例的基础上，作为一种可选的实施例，所述获取玩家决策前的博弈状态信息之后，还包括：

需要了解的是，玩家上次决策对应的决策动作和博弈状态信息，为玩家上次决策前获取的博弈状态信息以及玩家上次决策制定的目标决策动作。

智能体应在投入使用之前对非完备信息博弈游戏玩家进行经验建模。

特别的，本发明规定经验建模至少包括：对博弈样本的建模；具体为，设定由决策前状态、决策动作以及下一次决策前状态(如不存在下一次决策，则用游戏终止时状态替代)构成博弈样本。

特别的，共享数据集至少包括所有智能体采集的非完备信息博弈游戏玩家的博弈样本。

原本各个智能体搜集和储存自己的经验数据，本发明将其变为所有智能体同时收集博弈数据并存入共享数据集，大幅提高了共享数据集样本的累积速度，同时丰富了共享数据集的构成，从数据多样性上保障了由共享数据集学习和训练得到的共享策略网络的鲁棒性。

在上述各实施例的基础上，作为一种可选的实施例，所述共享策略网络的训练过程，包括：

确定训练集中博弈样本对应的决策动作回报值；

决策动作会对非完备信息博弈游戏的博弈环境进行改变，如多人德州扑克博弈游戏中历史信息的增加、玩家手牌的变化、底池注额的变化等；非完备信息博弈游戏的博弈环境针对该决策动作给共享策略网络一个回报，以促使共享策略网络的趋向性训练。因此，需要在服务端构建共享策略网络初始架构的同时，进行针对决策动作的回报建模，以表达各决策动作对共享策略网络的短期和长期影响，有助于共享策略网络综合考量决策的收益。

本发明共享策略网络可以通过人工神经网络、树状结构的数组以及多维矩阵进行实现，且利用共享数据集和共享策略网络，能够合理的学习出非完备信息博弈游戏的博弈策略。

在技术实现上，本发明可以采用的强化学习算法为深度确定性策略梯度算法Multi Agent Deep Deterministic Policy Gradient(MADDPG)，共享策略网络建模为多层全连接神经网络。本发明神经网络的构造、训练和调用采用了tensorflow框架，多人德州扑克环境等功能通过python语言编写。

本发明通过不断累积真人或机器人的扑克决策经验，不断地积累博弈数据扩充贡献数据集，进而训练出更稳定、更普适的共享策略网络，保障共享策略网络的鲁棒性。同时，由于共享策略网络具备实时学习的能力，可以针对特定对手进行在线学习，以对特定对手的了解得到能输出更适应其风格的博弈策略的共享策略网络。

在上述各实施例的基础上，作为一种可选的实施例，在博弈样本中的决策动作为博弈样本对应的玩家在游戏结束前制定的最后一个决策动作的情况下，确定所述博弈样本对应的决策动作回报值，包括：

若所述博弈样本中的决策动作为跟注或加注，且博弈样本对应的玩家赢得牌局，则所述博弈样本对应的决策动作回报值为Q与博弈样本对应的玩家赢得牌局时获得的筹码数之间的乘积；

否则，所述博弈样本对应的决策动作回报值为-K与所述博弈样本中的决策动作执行之后牌桌最大下注额和博弈样本对应的玩家已下注额的差值之间的乘积；

其中，Q为第一预设正值，K为第二预设正值。

本实施例是以多人德州扑克博弈游戏为例的，针对玩家在棋局结束前最后一次决策动作的回报建模，应遵循决策动作为弃牌时，回报为0；玩家赢得棋局且决策动作为跟注或加注时，回报与玩家获得的筹码数成正相关；其它情况，回报为负值且绝对值应与牌桌最高下注和相应玩家已经下注额之差成正相关。

特别的，Q、K均可以取值为1。

此外，多人德州扑克中全下为特殊的加注形式，如果玩家赢得牌局之前最后一次决策动作为跟注或非全下类型的加注，则玩家获得的筹码数为底池注额与赢家人数之间的比值；如果玩家赢得牌局之前最后一次决策动作为全下且赢家仅有一人，则玩家获得的筹码数等于A1+A2；A1为下注额大于该玩家下注额的其它玩家人数与该玩家下注额的乘积；A2为下注额小于该玩家下注额的玩家下注额之和。

本实施例给定了多人德州扑克博弈游戏的回报建模示例，其它非完备信息博弈游戏可依据自身特点制定。本发明通过回报建模，为共享策略网络提供决策动作对应的回报，进而为共享策略网络的训练奠定基础。

在上述各实施例的基础上，作为一种可选的实施例，在博弈样本中的决策动作不为博弈样本对应的玩家在游戏结束前制定的最后一个决策动作的情况下，确定所述博弈样本对应的决策动作回报值，包括：

其中，K为第二预设正值。

本实施例是以多人德州扑克博弈游戏为例的，针对玩家在棋局结束前非最后一次决策动作的回报建模，应遵循跟注或加注时，回报为负值且绝对值应与牌桌最高下注和相应玩家已经下注额之差成正相关。

特别的，可以将K设为1，使回报为牌桌最高下注和相应玩家已经下注额之差的负值。

在上述各实施例的基础上，作为一种可选的实施例，判定所述玩家离线，则令所述玩家制定的目标决策动作为所述最优决策动作。

本发明在玩家掉线时也能决策，提高了用户的游戏体验；同时降低了共享经验数据集中不完整博弈样本的条数。

综上，如图2示例的多人德州扑克博弈实例图，本发明每个智能体都不维护自己的策略，而是共享一个策略网络和一个共享数据集。当每个智能体需要决策时，均可调用共享策略网络，并将自己的博弈状态信息输入给共享策略网络，这样多个智能体就仅维护和训练一个策略网络，降低了非完备信息博弈游戏的博弈策略生成方法的空间复杂度。同时，每当玩家进行决策时(无论是自我决定还是调用共享策略网络)，都将该决策相关的博弈样本存储在共享数据集中。共享数据集汇总了所有智能体采集的博弈样本数据，并随机采样用于共享策略网络的训练与优化。

第二方面，对本发明提供的多人非完备信息博弈游戏策略生成装置进行描述，下文描述的多人非完备信息博弈游戏策略生成装置与上文描述的多人非完备信息博弈游戏策略生成方法可相互对照。图3示例了多人非完备信息博弈游戏策略生成装置的结构示意图，如图3所示，该装置包括：获取模块21和决策动作确定模块22；

获取模块21，用于获取玩家决策前的博弈状态信息；

决策动作确定模块22，用于基于共享策略网络和所述博弈状态信息确定最优决策动作，以便玩家参考所述最优决策动作制定目标决策动作；

本发明提供的一种多人非完备信息博弈游戏策略生成装置，包括：获取玩家决策前的博弈状态信息；基于共享策略网络和所述博弈状态信息确定最优决策动作，以便玩家参考所述最优决策动作制定目标决策动作；其中，所述共享策略网络，是预先利用共享数据集中的博弈样本训练的强化学习网络。共享策略网络是一种强化学习网络结构，主要采用离线方式进行学习，将大量用于学习的计算量放在训练阶段，从而在使用阶段只需要以状态信息为切入点调用训练好的策略网络即可实时决策，避免了其他博弈策略搜索算法搜索过程中计算量大以及耗时长的问题。此外原本每一个智能体对应一个策略网络，后台需要维护多个策略网络的数据结构和它们的训练算力，共享策略网络和共享数据集的引入使得后台维护转变为只维护一个共享策略网络并只优化该网络，大幅度降低策略网络的训练复杂度和空间复杂度。

在上述各实施例的基础上，作为一种可选的实施例，所述博弈状态信息，包括：手牌信息和牌桌展示信息；

所述决策动作，包括：弃牌、跟注和加注。

在上述各实施例的基础上，作为一种可选的实施例，所述装置还包括：收集存储模块，所述收集存储模块，用于：

在所述获取玩家决策前的博弈状态信息之后，将所述博弈状态信息，以及玩家上次决策对应的决策动作和博弈状态信息作为一条博弈样本加入到所述共享数据集中；

还用于在确定所述目标决策动作为玩家在游戏结束前制定的最后一个决策动作的情况下，将所述目标决策动作、所述博弈状态信息和游戏结束时玩家的博弈状态信息作为一条博弈样本加入到所述共享数据集中。

确定训练集中博弈样本对应的决策动作回报值；

其中，Q为第一预设正值，K为第二预设正值。

其中，K为第二预设正值。

第三方面，图4示例了一种智能体的实体结构示意图，如图4所示，该智能体可以包括：处理器(processor)410、通信接口(Communications Interface)420、存储器(memory)430和通信总线440，其中，处理器410，通信接口420，存储器430通过通信总线440完成相互间的通信。处理器410可以调用存储器430中的逻辑指令，以执行多人非完备信息博弈游戏策略生成方法，该方法包括：获取玩家决策前的博弈状态信息；基于共享策略网络和所述博弈状态信息确定最优决策动作，以便玩家参考所述最优决策动作制定目标决策动作；其中，所述共享策略网络，是预先利用共享数据集中的博弈样本训练的强化学习网络。

此外，上述的存储器430中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

第四方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的以执行多人非完备信息博弈游戏策略生成方法，该方法包括：获取玩家决策前的博弈状态信息；基于共享策略网络和所述博弈状态信息确定最优决策动作，以便玩家参考所述最优决策动作制定目标决策动作；其中，所述共享策略网络，是预先利用共享数据集中的博弈样本训练的强化学习网络。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种多人非完备信息博弈游戏策略生成方法，其特征在于，所述方法包括：

获取玩家决策前的博弈状态信息；

2.根据权利要求1所述的多人非完备信息博弈游戏策略生成方法，其特征在于，所述方法应用于多人德州扑克游戏玩家的智能体；所述博弈状态信息，包括：手牌信息和牌桌展示信息；

所述决策动作，包括：弃牌、跟注和加注。

3.根据权利要求1所述的多人非完备信息博弈游戏策略生成方法，其特征在于，所述获取玩家决策前的博弈状态信息之后，还包括：

4.根据权利要求2所述的多人非完备信息博弈游戏策略生成方法，其特征在于，所述共享策略网络的训练过程，包括：

确定训练集中博弈样本对应的决策动作回报值；

5.根据权利要求4所述的多人非完备信息博弈游戏策略生成方法，其特征在于，在博弈样本中的决策动作为博弈样本对应的玩家在游戏结束前制定的最后一个决策动作的情况下，确定所述博弈样本对应的决策动作回报值，包括：

其中，Q为第一预设正值，K为第二预设正值。

6.根据权利要求4所述的多人非完备信息博弈游戏策略生成方法，其特征在于，在博弈样本中的决策动作不为博弈样本对应的玩家在游戏结束前制定的最后一个决策动作的情况下，确定所述博弈样本对应的决策动作回报值，包括：

其中，K为第二预设正值。

7.根据权利要求1所述的多人非完备信息博弈游戏策略生成方法，其特征在于，判定所述玩家离线，则令所述玩家制定的目标决策动作为所述最优决策动作。

8.一种多人非完备信息博弈游戏策略生成装置，其特征在于，所述装置包括：

获取模块，用于获取玩家决策前的博弈状态信息；

9.一种智能体，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述多人非完备信息博弈游戏策略生成方法。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述多人非完备信息博弈游戏策略生成方法。