CN110414609A

CN110414609A - 基于不完全信息博弈的对象确定方法及装置

Info

Publication number: CN110414609A
Application number: CN201910702142.5A
Authority: CN
Inventors: 张榕; 曾子骄
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-07-31
Filing date: 2019-07-31
Publication date: 2019-11-05

Abstract

本申请公开了基于不完全信息博弈的对象确定方法及装置，依据不完全信息博弈中的已知信息，利用预先训练得到的分类模型从已知信息中提取特征，并基于提取出的特征进行分类得到目标参与方当前剩余棋牌的牌面。最后，依据目标参与方及当前参与者(即，打牌机器人)的当前剩余棋牌的信息确定本次的出牌对象。该方法能够利用不完全信息博弈过程中的已知信息，确定目标参与方所持有的棋牌，进一步基于确定的目标参与方当前所持有的棋牌确定本次的打牌对象，从而提高打牌机器人做出的打牌决策的正确率，进而提高人类用户与打牌机器人之间的交互频率。

Description

基于不完全信息博弈的对象确定方法及装置

技术领域

本申请涉及计算机技术领域，尤其涉及基于不完全信息博弈的对象确定方法及装置。

背景技术

不完全信息博弈是指任意一个参与方在做决策时不知道其他参与方的信息，即，在不完全信息博弈过程中，任意一个参与方在做决策时均无法获得其他参与方的信息。

基于这种信息缺失的场景，决策者(本文中指打牌机器人)只能根据现有信息做出打牌决策，极易导致决策失误，进而可能导致人类玩家与打牌机器人的交互频率很少。

发明内容

有鉴于此，本申请提供了基于不完全信息博弈的对象确定方法及装置，以实现基于不完全信息博弈确定其它参与方的棋牌信息，并进一步依据该棋牌信息确定本次打牌对象。

为实现上述目的，一方面，本申请提供了一种基于不完全信息博弈的对象确定方法，包括：

获取不完全信息博弈中的已知信息对应的向量，所述已知信息包括不完全信息博弈中所有参与方的已公布的信息；

基于利用不完全信息博弈的训练数据训练得到的分类模型，从所述已知信息的向量中提取出特征向量；

基于所述分类模型，对所述特征向量进行分类得到目标参与方当前剩余棋牌的牌面；

依据所述目标参与方当前剩余棋牌的牌面及当前参与者当前剩余棋牌的牌面，确定出牌对象。

在一种可能的实现方式中，所述基于所述分类模型，对所述特征向量进行分类得到目标参与方当前剩余棋牌的牌面，包括：

基于所述分类模型分析所述特征向量得到所述目标参与方属于各个类别的置信度；

选取与所述目标参与方的当前剩余棋牌数量相匹配且置信度最大的类别为所述目标参与方当前剩余棋牌的牌面。

在一种可能的实现方式中，所述选取与所述目标参与方的当前剩余棋牌数量相匹配且置信度最大的类别为所述目标参与方的当前剩余棋牌的牌面，包括：

从所述目标参与方所属的各个类别中，选取类别所包含的棋牌数量与所述目标参与方的当前剩余棋牌数量相同的类别，确定为候选类别集；

从所述候选类别集中选取置信度最大的类别确定为所述目标参与方当前剩余棋牌的牌面。

在一种可能的实现方式中，训练所述分类模型的过程，包括：

获取基于不完全信息博弈的训练数据，每一个训练数据标注有该训练数据所属的类别，所述类别包括目标参与方剩余棋牌的数量小于或等于第一数量的情况下所对应的所有可能的牌面种类；

获取所述训练数据中已知信息对应的向量，并基于待训练分类模型从所述训练数据的已知信息对应的向量中提取出特征向量；

基于所述待训练分类模型对所述训练数据进行分类得到所述训练数据所属的类别结果；

基于所述训练数据所属的分类得到的类别结果及标注的类别，调整所述待训练分类模型中的模型参数，直到利用调整后的待训练分类模型分析所述训练数据得到的类别结果满足收敛条件得到所述分类模型。

在一种可能的实现方式中，所述分类模型包括卷积神经网络模块和循环神经网络模块；

训练所述分类模型的过程，包括：

获取基于不完全信息博弈的训练数据，每一个训练数据标注有该训练数据所属的类别，所述类别包括在目标参与方剩余棋牌的数量小于或等于第一数量的情况下所对应的所有可能的牌面种类；

获取所述训练数据中的已知信息对应的向量；

基于待训练分类模型中的卷积神经网络模块从所述向量中提取得到第一特征向量；

基于所述待训练分类模型中的循环神经网络模块从所述向量中提取具有时序特征的第二特征向量；

拼接所述第一特征向量和所述第二特征向量，并对拼接后的特征向量进行分类得到所述训练数据所属的类别结果；

基于所述训练数据的分类得到的类别结果及标注的类别，调整所述待训练模型中的模型参数，直到利用调整后的待训练分类模型分析所述训练数据得到的类别结果满足收敛条件得到所述分类模型。

在一种可能的实现方式中，所述选取与所述目标参与方的当前剩余棋牌数量相匹配且置信度最大的类别为所述目标参与方当前剩余棋牌的牌面包括：

从所述目标参与方所属的各个类别中，选取置信度最大的类别确定为第一目标类别；

若所述第一目标类别所包含的棋牌数量小于所述目标参与方当前剩余棋牌数量，则从剩余的所述目标参与方所属的各个类别中选取棋牌数量及棋牌顺序均与本次所需数量相同的类别，其中，所述本次所需数量是所述目标参与方当前剩余棋牌的数量与已选取的目标类别包含的棋牌数量的差值。

获取基于不完全信息博弈的训练数据，每一个训练数据标注有该训练数据所属的类别，所述类别采用具有第二维数的类别向量表示，所述类别包括目标参与方剩余棋牌的数量及对应的牌面种类；

获取所述训练数据中已知信息对应的向量，并基于待训练分类模型从所述向量中提取出特征向量；

基于所述训练数据的分类得到的类别结果及标注的类别，调整所述待训练分类模型中的模型参数，直到利用调整后的待训练分类模型分析所述训练数据得到的类别结果满足收敛条件得到分类模型。

第二方面，本申请提供了一种基于不完全信息博弈的对象确定装置，包括：

获取模块，用于获取不完全信息博弈中的已知信息对应的向量，所述已知信息包括不完全信息博弈中所有参与方的已公布的信息；

特征提取模块，用于基于利用不完全信息博弈的训练数据训练得到的分类模型，从所述已知信息的向量中提取出特征向量；

分类模块，用于基于所述分类模型，对所述特征向量进行分类得到目标参与方当前剩余棋牌的牌面；

确定模块，用于依据所述目标参与方当前剩余棋牌的牌面及当前参与者的当前剩余棋牌的牌面，确定出牌对象。

第三方面，本申请还提供了一种服务器，包括：

处理器和存储器；

其中，所述处理器用于执行所述存储器中存储的程序；

所述存储器用于存储程序，所述程序至少用于：

依据所述目标参与方当前剩余棋牌的牌面及当前参与者的当前剩余棋牌的牌面，确定出牌对象。

第四方面，本申请还提供了一种存储介质，所述存储介质中存储有计算机可执行指令，所述计算机可执行指令被处理器加载并执行时，实现如上第一方面任一种可能的实现方式所述的基于不完全信息博弈的对象确定方法。

本申请提供的基于不完全信息博弈的对象确定方法，获取不完全信息博弈中的已知信息；然后，利用预先训练得到的分类模型从已知信息中提取特征，并基于提取出的特征进行分类处理得到目标参与方当前剩余棋牌的牌面。最后，依据目标参与方及当前参与者(即，打牌机器人)的当前剩余棋牌的信息确定本次的出牌对象。该方法能够利用不完全信息博弈过程中的已知信息，确定目标参与方所持有的棋牌，进一步基于确定的目标参与方所持有的棋牌做出相应的打牌决策，从而提高打牌机器人做出的打牌决策的正确率，进而提高人类用户与打牌机器人之间的交互频率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1示出了本申请提供的基于不完全信息博弈的对象确定系统的结构示意图；

图2示出了本申请提供的一种基于不完全信息博弈的对象确定方法的流程图；

图3示出了本申请提供的一种基于CNN的多分类模型的结构示意图；

图4示出了本申请一种训练基于CNN的多分类模型过程的流程图；

图5示出了本申请提供的一种基于RNN+CNN的多分类模型的网络结构示意图；

图6示出了本申请提供的一种训练基于RNN+CNN的多分类模型过程的流程图；

图7示出了本申请提供的一种基于不完全信息博弈的对象确定装置的结构示意图；

图8示出了本申请提供的一种服务器的结构示意图。

具体实施方式

在详细介绍本申请提供的基于不完全信息博弈的对象确定方法之前，先介绍下本文涉及的概念：

非完美信息博弈：每一个参与方都无法获得其他参与方的行动信息，也就是说当参与方做决策的时候不知道其他参与方的决策的博弈。

完美信息博弈：每一参与方都拥有所有其他参与方的特征、策略及得益函数等方面的准确信息的博弈。

局末：在一局斗地主游戏中，当其余两参与方至少有一人手牌张数小于等于若干张时，进入局末阶段；限制张数也有助于猜牌更准确；一局斗地主游戏中，可能不存在局末阶段。

当前参与方：即将要出牌的参与方，本文中当前参与方是指打牌机器人；此外，由于本文主要解决农民配合问题，所以仅当打牌机器人为农民时进行猜牌，当打牌机器人为地主时不猜牌。

目标参与方：被模型进行分类得到当前剩余手牌的参与方。

另一参与方：指除当前参与方和目标参与方之外的另一个参与方。

卷积神经网络:(Convolutional Neural Network，CNN)是一种前馈神经网络。它由一个或多个卷积层和顶端的全连通层(对应经典的神经网路)组成，相比较其他深度、前馈神经网路，卷积神经网路所需参数更少，使之成为一种颇具吸引力的深度学习结构。

多标签分类：每个样本都可以使用多个类别进行分配。因此，这些类型的问题被称为多标签分类问题。

多分类：包含多个类别，但每个样本只分配一个，因此这些问题被称为多类分类问题。

不完全信息博弈中，任意一个参与方在做决策时都无法获知其它参与方的信息。在基于不完全信息的棋牌类博弈中，在打牌机器人参与的情况，且在其它参与方剩余的棋牌数量较少进入局末状态阶段，由于打牌机器人在做决策时无法获知其它参与方的信息，只能根据自己未打出的棋牌做决策，这样，打牌机器人很可能决策失误。为了解决该技术问题，本申请提供了基于不完全信息博弈的对象确定方法，获取不完全信息博弈中的全部已知信息，然后利用预先训练得到的分类模型依据已知信息得到目标参与方当前剩余棋牌的牌面。这样，不完全信息博弈的参与方在做决策时能够根据预测的其它参与方的信息，提高参与方的获胜率。

为了便于理解本申请的基于不完全信息博弈的对象确定方法，下面对于本申请的基于不完全信息的对象确定系统进行介绍。

请参见图1，示出了本申请提供的基于不完全信息博弈的对象确定系统的结构示意图，该系统包括终端1和服务器2，其中，终端1与服务器2之间通过网络3进行通信。

终端1可以安装有能够为用户提供基于不完全信息博弈的应用程序，相应的，服务器2能够为基于不完全信息博弈的应用程序提供相应的服务。

其中，终端1可以是智能手机、平板电脑等移动终端，或者，还可以是电脑等，本申请对此并不限定。

服务器2可以是独立的服务器，或者是若干台服务器构成的服务器集群。

终端1的显示屏上显示基于不完全信息博弈的界面，用户可以在该界面上看到自己所持有的棋牌的牌面，但是看不到其它参与方的牌面。该界面上设置有相应的操作控件(例如，虚拟按键)，用户通过操作该界面上的操作控件选择本轮对应的决策结果，即要打出的牌或者放弃等。

服务器2此时根据其它参与方的出牌信息给出打牌机器人的出牌决策。

在本申请中，在进入局末阶段后，服务器2根据当前全部已知信息确定其它参与方中剩余牌数较少的一方的当前剩余棋牌的牌面。

下面将对服务器基于不完全信息博弈的过程进行详细介绍。

请参见图2，示出了本申请提供的一种基于不完全信息博弈的对象确定方法的流程图，该方法应用于服务器中，该方法可以包括以下步骤：

S110，获取不完全信息博弈中的已知信息对应的向量。

所述已知信息包括不完全信息博弈中所有参与方的已公布的信息，即所有已经公布的信息。

以基于不完全信息的棋牌博弈为例，服务器会记录每一次不完全信息博弈中的所有参与方的出牌信息。

在一种可能的实现方式中，扑克牌中包括15张数字(字符)不同的牌面，其中，A～Q的13种牌面都包括4中不同的花色，因此，采用4*15的矩阵。

例如，一种牌面组合是“3，4，5，6，7，8，8，9，9，10，10，J，J，Q，K，K，K，K，2，小王”，本申请中，10表示为“T”，小王表示为“B”，大王表示为“R”，其它牌使用其自身的符号表示。

因此上述的牌面组合可以利用表1所示4*15的矩阵表示：

表1

3	4	5	6	7	8	9	T	J	Q	K	A	2	B	R
															1	1	1	1	1	1	1	1	1	1	1	0	1	1	0
0	0	0	0	0	1	1	1	1	0	1	0	0	0	0
															0	0	0	0	0	0	0	0	0	0	1	0	0	0	0
0	0	0	0	0	0	0	0	0	0	1	0	0	0	0

其中，本申请中的已知信息可以利用30个4*15的矩阵表示，例如，各个矩阵的含义如下：

编号为0的矩阵表示目标参与方的角色；若目标参与方的角色为地主，则4*15的矩阵全部置1，若目标参与方的角色为农民，则4*15的矩阵全部置为0；

编号为1～3的矩阵表示当前参与方的角色，当前参与方的角色中0，1，2分别表示地主、农民一与农民二的ID；如果当前参与方为地主，则第一个矩阵全部置为1，其余两矩阵全部置为0；如当前参与方为农民一，则第二个矩阵全部置为1，其余两矩阵为0；

编号为4的矩阵表示目标参与方打出的手牌的合集，其中，手牌类的向量参见表1所示的表示方式，下文不再一一赘述；

编号为5的矩阵表示当前参与方所有可见的牌的合集；

编号为6的矩阵表示当前参与方所有不可见的牌的合集；

编号为7的矩阵表示目标参与方已经打出的所有手牌的合集；

编号为8的矩阵表示目标参与方当前剩余手牌的数量；4*15的矩阵中包括15列，当剩余1张手牌时，则将第1列全部置1，其余列全部置0，以此类推，若当前剩余15张手牌时，将第15列全部置1，若当前剩余手牌超过15张时，仍将第15列置1；

编号为9的矩阵表示另一参与方当前剩余的手牌张数，表示方式同编号为8的矩阵，此处不再赘述；

编号为10～19的矩阵分别表示另外两个参与方中ID更小的一方在过去10轮打出的手牌，其中，去掉所有“不出”动作。历史出牌不足10轮时用0的矩阵补足，即该矩阵全部置0；

编号为20～29的矩阵分别表示另外两个参与方中ID较大的一方在过去10轮打出的手牌，表示方式同编号为10～19的矩阵，此处不再赘述。

S120，基于利用不完全信息博弈的训练数据训练得到的分类模型，从已知信息的向量中提取出特征向量。

在一种可能的实现方式中，将上一步骤获得的30个矩阵输入至该分类模型中，分类模型从这30个矩阵中提取局部特征(即，提取得到特征向量)，并将提取的局部特征输出至分类模型的下一层(即，输出层)。

S130，基于分类模型，对特征向量进行分类得到目标参与方当前剩余棋牌的牌面。

分类模型的输出层对接收到的特征向量进行分类，得到目标参与方的当前剩余棋牌的牌面。

本申请提供的方法通常应用于打牌机器人中。例如，在斗地主游戏中，当打牌机器人是农民时才利用该方法确定其它参与方的当前剩余手牌，进而确定打牌机器人的出牌对象。

在一种应用场景中，其余两个参与方中有且仅有一个人的当前剩余棋牌数量小于或等于预设数量，此种应用场景下，目标参与方是当前剩余棋牌数量小于或等于预设数量的参与方。

在另一种应用场景中，其余两个参与方的当前剩余棋牌数量都小于或等于预设数量，此种应用场景下，目标参与方是参与方的ID更小的一方。例如，地主的ID是“0”，农民一的ID是“1”，农民二的ID是“2”，其中，打牌机器人是农民一，而且，地主和农民二当前剩余的棋牌数量小于或等于预设数量，此种情况下，目标参与方是地主。

分类模型的输出层是全连接层，全连接层就是把提取的局部特征重新通过权值矩阵组装成完整的图。全连接层在整个CNN网络中起到“分类器”的作用，其将学到的“分布式特征表示”映射到样本标记空间的作用。

在一种可能的实现方式中，分类模型的输出层分析上一层输出的特征向量得到目标参与方属于各个类别的置信度；并选取与该目标参与方的当前剩余棋牌数量相匹配且置信度最大的类别为目标参与方的当前剩余棋牌的牌面。

S140，依据目标参与方当前剩余棋牌的牌面及当前参与者当前剩余棋牌的牌面确定出牌对象。

打牌机器人确定出目标参与方当前剩余棋牌的信息后，就等同于完全信息博弈，基于对方的手牌及自己的手牌选出本次打牌的对象，即出牌对象。因此，提高了打牌机器人做出的决策的正确率。

本实施例提供的基于不完全信息博弈的对象确定方法，依据不完全信息博弈中的已知信息确定目标参与方当前剩余棋牌的信息。进而依据目标参与方的当前剩余棋牌的信息确定本次的出牌对象。利用该方法将基于不完全信息博弈的过程变换为基于完全信息博弈的过程，因此，提高打牌机器人做出的打牌决策的正确率，进而提高人类用户与打牌机器人之间的交互频率。

本发明提供了三种分类模型，以适应不同的应用场景，每一种分类模型均以人类参与方的日志为训练数据。其中，三个分类模型的输入均是斗地主游戏当前已知信息，输出为其余参与方中手牌数量较少的一方的当前剩余手牌。

在一种应用场景中，其余参与方当前剩余的棋牌数量较小，例如，小于或等于2张，此种应用场景可以利用基于CNN的多分类模型来预测目标参与方的当前剩余棋牌的牌面，即当前剩余手牌。

一个基于CNN的多分类模型能够分类的手牌数量固定，例如，某个基于CNN的多分类模型训练时基于剩余手牌数量小于或等于2张的训练数据进行训练得到，则训练完成后该多分类模型只能应用于剩余手牌数量小于或等于2张的场景。

下面以当进入局末阶段且其余任何一个参与方的手牌张数小于或等于2张时的情况为例进行说明。

一副手牌可以将每种牌分布张数表示为4*15的矩阵，再添加打牌过程中的其它已知信息，得到多分类模型的输入的多个输入信息。最终该多分类模型输出各个类别的概率分布，即目标参与方当前剩余手牌属于各个类别的置信度。

其中，图3示出了本申请提供的一种基于CNN的多分类模型的结构示意图。

如图3所示，输入至多分类模型的信息可以利用前述的30个4*15的矩阵，此处不再赘述。

基于CNN的多分类模型的隐层包括卷积层、批归一化层和激活函数层，利用隐层将输入信息映射到隐层特征空间，即输入向量经过卷积层、批归一化层和激活函数层提取得到局部特征(即，特征向量)然后，再将该特征向量输入至分类模型的输出层。

其中，卷积层具有输入和输出，用来提取输入向量的局部特征并输出至下一层；批归一化层同样有数据的输入、输出，该层更像是其它层的一种数据的预处理，通常用在卷积层之后，在进行卷积或者其它操作之后，利用批归一化层将数据进行规整后，其输出作为下一层的输入。激活函数层用于增加网络的非线性表达能力。

基于CNN的多分类模型需要确定分类类别(即，类别)，以分类两张以下(包括两张)手牌为例，对于54张的扑克牌而言，分类类别为133种，其中，133种的类别如表2所示：

表2

牌型	例子	种类数
			1单	A,2,3,...,Q,K，B，R	15种
1对	AA,22,33,...,QQ,KK	13种
			2单	A2,A3,...,23,24,...,QB,KB,...,KR,BR	105种

表2中的B表示小王，R表示大王，T表示10。

基于CNN的多分类模型最终输出一个133维向量，每一维表示一种手牌种类，其值为模型预测的该种手牌的置信度。

其中，请参见图4，示出了本申请一种训练基于CNN的多分类模型的过程的流程图，训练过程如下：

S210，获取基于不完全信息博弈的训练数据。

在斗地主游戏中，选取三个参与方均为人类参与方的日志数据作为训练数据，日志数据可以从提供斗地主服务的服务器中获得。

每一个训练数据标注有该训练数据所属的类别，其中，类别包括目标参与方剩余棋牌的数量小于或等于第一数量(例如，2)的情况下所对应的所有可能的牌面种类。

例如，训练数据均是目标参与方当前所持有的手牌数量小于或等于2张时，此种情况下，训练数据标注的类别标签就是表2所示的133种类别。利用one-hot编码训练数据的类别。例如，目标参与方当前剩余一张手牌“3”，则该训练数据的类别标签为133维向量，其中第3维为1，其它维均为0。

需要说明的是，实际训练过程中，训练数据存在样本不均衡的情况，例如，1张单牌、1对牌、2张单牌的样本在训练数据中的分布分别是：57.67％，17.54％，24.79％。1张单牌的比例明显过大，且单张可能有助于2单张这种情况的训练，但是会误导对子的识别。因此，采用均衡采样的优化方案，对单张进行采样，均衡采样即按比例采样，使训练数据中不同类别的样本数据接近，例如，如果单牌有1000个样本，对子有500个样本，则采样比例为500:1000＝0.5:1，即以50％的概率对单牌进行采样，以100％的概率对对子进行采样。

采样率大概为45％左右，经过采样后分类模型的准确率得到了提升。

S220，获取训练数据中的已知信息对应的向量，并基于待训练分类模型从训练数据的已知信息对应的向量中提取出特征向量。

已知信息对应的向量即上述的30个4*15的矩阵，并输入至待训练分类模型中，由该待训练分类模型从已知信息的向量中提取得到局部特征，即特征向量，并将特征向量输出至待训练分类模型的下一层。

其中，待训练分类模型的网络结构与图3所示的结构相同，具体的模型参数不同，此处的待训练分类模型中的模型参数可能是初始化参数。而最终训练好的分类模型中的模型参数是最优参数的组合，其中，最优参数组合是指分类模型对训练数据的损失函数最低且准确率较高时对应的模型参数。

S230，基于待训练分类模型对训练数据进行分类得到训练数据所属的类别结果。

待训练分类模型的输出层即分类器，对上一层输出的特征向量进行分析得到该训练数据所属的类别结果。

即，利用训练分类模型对训练数据进行分类得到该训练数据中目标参与方当前剩余棋牌的牌面所属的类别，例如，斗地主游戏中目标参与方当前剩余的棋牌数量小于或等于2张时，可能的类别是表2所示的133种类别。

S240，基于训练数据的类别结果及标注的类别，调整待训练分类模型中的模型参数，直到利用调整后的待训练分类模型分析训练数据得到的类别结果满足收敛条件得到分类模型。

具体的，利用分类模型分类得到所有训练数据的类别结果，然后，将该类别结果与该训练数据标注的类别标签进行比较，得到该待训练分类模型的损失函数，不断地调整分类模型的模型参数使得损失函数及准确率满足相应的条件，则得到待训练分类模型的最优模型参数组合，即得到最终的分类模型。

最终训练得到的基于CNN的多分类模型的准确率如表3所示：

表3

其中，TOP1表示分类模型给出的第一个分类结果正确的比率；TOP2表示分类模型给出的两个分类结果中包含真实结果的比率；TOP3表示分类模型给出的三个分类结果中包含真实结果的比率。

基于CNN的多分类模型对2张手牌进行分类的准确率是75.99％。

在另一种应用场景下，对分类结果的准确率要求较高，在CNN网络的基础上增加了RNN进行优化，得到基于RNN+CNN的多分类模型。

在传统的神经网络模型中，是从输入层到隐含层再到输出层，层与层之间是全连接的，每层之间的节点是无连接的。但是这种普通的神经网络对于很多时序问题却无能无力。循环神经网络(Recurrent Neural Networks，RNNs)，不同于传统的前馈神经网络，将状态在自身网络中循环传递，因此可以接受更广泛的时间序列结构输入。单纯的RNN因为无法处理随着递归、权重指数级爆炸或梯度消失的问题，难以捕捉长期时间关联；使用长短期记忆网络LSTM(Long Short-Term Memory，LSTM)能够解决这个问题。因此，本实施例中的RNN模型可以采用LSTM。当然，在本申请的其它实现方式中，可以采用其它基于时间递归的神经网络，例如，GRU网络等。

请参见图5，示出了本申请提供的一种基于RNN+CNN的多分类模型的网络结构示意图。

CNN模型的输入是已知信息对应的向量，对输入的向量提取局部特征(即，第一特征向量)后输出至下一层。此部分与图3所示的基于CNN的多分类模型相同，此处不再赘述。

LSTM模型的输入是打牌过程中最近数次的出牌信息，例如，30轮出牌信息，其中，这30轮的出牌信息中包括所有参与方的出牌信息。如果一局中的出牌超过30轮，则舍弃多余的出牌，只取距离当前最近的30轮的出牌信息。如果一局中出牌不足30轮则补足。LSTM模型的输出是第二特征向量。

将CNN模型输出的第一特征向量与LSTM输出的第二特征向量拼接成一个向量输出至下一层，即，全连接层。全连接层最终输出分类结果。

由于添加了基于时序的特征(即LSTM模型的输入)，所以提升了最终的分类准确率。

其中，训练基于RNN+CNN的分类模型的过程如图6所示，训练过程包括以下步骤：

S310，获取基于不完全信息博弈的训练数据。

每一个训练数据标注有该训练数据所属的类别，所述类别包括在目标参与方剩余棋牌的数量小于或等于第一数量的情况下所对应的所有可能的牌面种类。

S320，获取所述训练数据中的已知信息对应的向量。

其中，S310～S320的具体实现方式与S210～S220相同，此处不再赘述。

S330，基于待训练分类模型中的卷积神经网络模块从所述向量中提取得到第一特征向量。

S340，基于待训练分类模型中的循环神经网络模块从所述向量中提取具有时序特征的第二特征向量。

S350，拼接第一特征向量和第二特征向量，并对拼接后的特征向量进行分类得到训练数据所属的类别结果。

可以采用向量拼接技术将第一特征向量与第二特征向量拼接为一个向量并输出至全连接层，该全连接层最终输出该训练数据的类别结果。

S360，基于训练数据的类别结果及标注的类别，调整待训练模型中的模型参数，直到利用调整后的待训练分类模型分析训练数据得到的类别结果满足收敛条件得到分类模型。

模型参数调整过程与S240的过程相同，此处不再赘述。

基于CNN的多分类模型或者基于RNN+CNN的多分类模型，都需要指定局末阶段的最小牌数阈值，例如，2张。如果在其余参与方剩余3张时就进行分类，则需要重新训练新的多分类模型，因为利用能够对小于或等于2张的手牌进行分类的多分类模型无法对3张手牌进行分类。

当需要分类的棋牌数量是2张时，约有一百多种不同的类型；若需要分类的棋牌数量是3张时，约有近千种类别；若需要分类的棋牌数量是4张时，类别将达到万种，模型的分类准确率很可能会下降。且在一局中进行分类的阶段越早，已知信息越少，未知信息越多，模型极易分类错误。但实验结果表明仍可扩展到4张。

为了此种应用场景下，本申请还提供了基于CNN的多标签分类模型，该模型能够提高模型的应用场景的可扩展性。多标签分类模型不限制分类手牌的数量，一个模型可用于对多种张数的手牌进行分类。

其中，基于CNN的多标签分类模型的网络结构与基于CNN的多分类模型的网络结构相似，不同之处在于全连接层的结构不同；其中，基于CNN的多标签分类模型的全连接层输出54维向量，而基于CNN的多分类模型的网络结构的全连接层输出133维向量。

基于CNN模型的多标签模型的输入与基于CNN的多分类模型的输入相同，此处不再赘述。

该多标签模型的输出可以用一个54维(即，第二维数)向量表示，每一维的含义分别代表54张扑克牌中由小到大排列的情况，例如，3，33，333，3333，4，44，444，4444，……2，22，222，2222，B，R；

其中，3表示第1张3，33表示第2张3，333表示第3张3，3333表示第4张3，以此类推。例如，目标参与方的手牌是3334，则对应的输出结果是[1，1，1，0，1，0，0，0，……，0]，即前3维和第5维均为1，其它维均为0。

利用上述的54维向量能够表示参与方所持有的任何一种手牌，且不受手牌张数限制。基于CNN的多标签分类模型最终输出一个54维向量，其对应的值为目标参与方当前剩余棋牌的牌面为该类别的置信度。

后处理过程：通过置信度高低和待分类棋牌的数量来选取分类结果。

目标参与方的手牌张数已知，将模型输出的置信度排序，并依次取所需张数的牌型。例如，目标参与方的手牌是“2、2、6”，按照置信度由高到低排序后的分类结果为2，22，777，6，66，……，其中前两个分类结果表示目标参与方有2张2，此时，还需要1张手牌，因此，选取后续的“6”，因此，最终的分类结果是2、2、6。

又如，若模型输出的分类结果是“22，6，66，……”置信度最高的是“22”表示第2张2，但此时仍选取“22”和后续的“6”作为最终的分类结果，即最终的分类结果是2、2、6。

基于CNN的多标签分类模型的分类准确率如表4所示：

表4

最终模型的分类概率如表5所示：

表5

棋牌张数	1	2	3	4
					分类正确率	78.33％	73.15％	69.88％	60.31％

由表5所示的数据可知，通过概率大小和张数组合情况来选取结果，对模型的最终分类结果有影响。当分类棋牌张数较少时，情况还不是很复杂，模型准确率较高；若分类棋牌张数较多时，如猜十几张时，只能猜中部分牌，无法完全猜中。

需要说明的是，在训练基于CNN的多标签分类模型时，训练数据的类别标签也采用上述的54维向量来表示。

其中，训练基于CNN的多标签分类模型的过程与上述的训练多分类模型的过程相同，此处不再赘述。

另一方面，本申请还提供了一种基于不完全信息博弈的对象确定装置，如图7所示，该装置包括获取模块110、特征提取模块120、分类模块130和确定模块140；

获取模块110，用于获取不完全信息博弈中的已知信息对应的向量。

其中，该已知信息包括不完全信息博弈中所有参与方的已公布的信息。

特征提取模块120，用于基于利用不完全信息博弈的训练数据训练得到的分类模型，从所述已知信息的向量中提取出特征向量。

分类模块130，用于基于分类模型，对特征向量进行分类得到目标参与方当前剩余棋牌的牌面。

在一种可能的实现方式中，分类模块130具体用于：

选取与所述目标参与方的当前剩余棋牌数量相匹配且置信度最大的类别为所述目标参与方的当前剩余棋牌的牌面。

确定模块140，用于依据目标参与方当前剩余棋牌的牌面及当前参与者的当前剩余棋牌的牌面，确定出牌对象。

其中，确定模块140基于对方的手牌及自己的手牌选出本次出牌的对象，即出牌对象，该确定模块140在选择出牌对象时基于对方的手牌及自己的手牌确定，将基于不完全信息的博弈过程转换为基于完全信息的博弈过程，因此，提高了打牌机器人决策的准确率。

在一种应用场景中，其余参与方当前剩余的棋牌数量较小，例如，剩余棋牌的数量小于或等于2张，此种应用场景下可以利用分类模型是基于CNN构建的多分类模型对目标参与方的当前剩余棋牌的牌面进行分类，即对目标参与方当前剩余棋牌的牌面进行预测。

训练基于CNN构建的多分类模型的过程：

获取基于不完全信息博弈的训练数据，每一个训练数据标注有该训练数据所属的类别。其中，类别包括目标参与方剩余棋牌的数量小于或等于第一数量的情况下所对应的所有可能的牌面种类；

获取训练数据中的已知信息对应的向量，并基于待训练分类模型从训练数据的已知信息对应的向量中提取出特征向量；

基于待训练分类模型对训练数据进行分类得到训练数据所属的类别结果；

基于训练数据的类别结果及标注的类别，调整待训练分类模型中的模型参数，直到利用调整后的待训练分类模型分析训练数据得到的类别结果满足收敛条件得到分类模型。

在此种应用场景下，分类模块130用于选取与所述目标参与方的当前剩余棋牌数量相匹配且置信度最大的类别为所述目标参与方当前剩余棋牌的牌面时，具体用于：

从目标参与方所属的各个类别中，选取类别所包含的棋牌数量与目标参与方的当前剩余棋牌数量相同的类别，确定为候选类别集；

从候选类别集中选取置信度最大的类别确定为目标参与方当前剩余棋牌的牌面。

训练基于RNN+CNN的多分类模型的过程如下：

获取基于不完全信息博弈的训练数据，每一个训练数据标注有该训练数据所属的类别，类别包括在目标参与方剩余棋牌的数量小于或等于第一数量的情况下所对应的所有可能的牌面种类；

获取训练数据中的已知信息对应的向量；

基于待训练分类模型中的卷积神经网络模块从向量中提取得到第一特征向量；

基于待训练分类模型中的循环神经网络模块从向量中提取具有时序特征的第二特征向量；

拼接第一特征向量和第二特征向量，并对拼接后的特征向量进行分类得到所述训练数据所属的类别结果；

基于训练数据的类别结果及标注的类别，调整待训练模型中的模型参数，直到利用调整后的待训练分类模型分析所述训练数据得到的类别结果满足收敛条件得到所述分类模型。

基于CNN的多分类模型或者基于RNN+CNN的多分类模型，都需要指定局末阶段的最小牌数阈值，例如，2张。如果在其余参与方剩余3张时就进行预测，则需要重新训练新的多分类模型。

在又一种应用场景下，本申请还提供了一种不需要指定当前剩余棋牌数量的分类模型，例如，基于CNN的多标签分类模型。

其中，训练基于CNN的多标签分类模型的过程，包括：

获取基于不完全信息博弈的训练数据，每一个训练数据标注有该训练数据所属的类别，类别采用具有第二维数的类别向量表示，类别包括目标参与方剩余棋牌的数量及对应的牌面种类；

另一方面，本申请还提供了一种服务器，参见图8，其示出了本申请的服务器的一种结构示意图，本实施例的服务器可以包括：处理器210和存储器220。

可选的，该服务器还可以包括通信接口230、输入单元240和显示器250和通信总线260。

处理器210、存储器220、通信接口230、输入单元240、显示器250、均通过通信总线260完成相互间的通信。

在本申请实施例中，该处理器210，可以为中央处理器(Central ProcessingUnit，CPU)，特定应用集成电路，数字信号处理器、现成可编程门阵列或者其他可编程逻辑器件等。

该处理器可以调用存储器220中存储的程序。具体的，处理器可以执行以下消息发送方法的实施例中应用服务器侧所执行的操作。

存储器220中用于存放一个或者一个以上程序，程序可以包括程序代码，所述程序代码包括计算机操作指令，在本申请实施例中，该存储器中至少存储有用于实现以下功能的程序：

在一种可能的实现方式中，该存储器220可包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、以及至少一个功能(比如图像播放功能等)所需的应用程序等；存储数据区可存储根据计算机的使用过程中所创建的数据，比如，用户数据及图像数据等等。

此外，存储器220可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件或其他易失性固态存储器件。

该通信接口230可以为通信模块的接口，如GSM模块的接口。

本申请还可以包括显示器240和输入单元250等等。

当然，图8所示的服务器的结构并不构成对本申请实施例中终端的限定，在实际应用中服务器可以包括比图8所示的更多或更少的部件，或者组合某些部件。

另一方面，本申请实施例还提供了一种存储介质，所述存储介质中存储有计算机可执行指令，所述计算机可执行指令被处理器加载并执行时，实现如上任意一个实施例所示的基于不完全信息的博弈的对象确定方法。

需要说明的是，本说明书中各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明，使本领域技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

以上仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于不完全信息博弈的对象确定方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述基于所述分类模型，对所述特征向量进行分类得到目标参与方当前剩余棋牌的牌面，包括：

3.根据权利要求2所述的方法，其特征在于，所述选取与所述目标参与方的当前剩余棋牌数量相匹配且置信度最大的类别为所述目标参与方的当前剩余棋牌的牌面，包括：

4.根据权利要求3所述的方法，其特征在于，训练所述分类模型的过程，包括：

5.根据权利要求3所述的方法，其特征在于，所述分类模型包括卷积神经网络模块和循环神经网络模块；

训练所述分类模型的过程，包括：

获取所述训练数据中的已知信息对应的向量；

6.根据权利要求2所述的方法，其特征在于，所述选取与所述目标参与方的当前剩余棋牌数量相匹配且置信度最大的类别为所述目标参与方当前剩余棋牌的牌面包括：

7.根据权利要求6所述的方法，其特征在于，训练所述分类模型的过程，包括：

8.一种基于不完全信息博弈的对象确定装置，其特征在于，包括：

9.一种服务器，其特征在于，包括：

处理器和存储器；

其中，所述处理器用于执行所述存储器中存储的程序；

所述存储器用于存储程序，所述程序至少用于：

10.一种存储介质，其特征在于，所述存储介质中存储有计算机可执行指令，所述计算机可执行指令被处理器加载并执行时，实现如上权利要求1至7任一项所述的基于不完全信息博弈的对象确定方法。