CN110841295B

CN110841295B - 一种基于人工智能的数据处理方法和相关装置

Info

Publication number: CN110841295B
Application number: CN201911084030.4A
Authority: CN
Inventors: 曾子骄; 张榕
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-11-07
Filing date: 2019-11-07
Publication date: 2022-04-26
Anticipated expiration: 2039-11-07
Also published as: CN110841295A

Abstract

本申请实施例公开了一种基于人工智能的数据处理方法和相关装置，在进行包括多个参与对象的不完美信息博弈场景中，针对第i轮博弈时能确定出已知资源信息，该已知资源信息包括了目标对象在第i轮博弈时持有的资源和通过前i‑1轮该多个参与对象已使用的资源。由于待测对象在第i轮博弈时实际持有的资源无法直接获知，可以通过已知资源信息预测待测对象在第i轮博弈时持有的资源，以完善确定博弈过程资源使用策略所需的相关信息。根据目标对象和待测对象在第i轮博弈时持有的资源，可以确定目标对象在第i轮博弈使用的资源，从而实现人工智能对目标对象的资源使用决策，使得人工智能可以应用于不完美信息博弈，满足了用户对不完美信息博弈的需求。

Description

一种基于人工智能的数据处理方法和相关装置

技术领域

本申请涉及数据处理领域，特别是涉及一种基于人工智能的数据处理方法和相关装置。

背景技术

不完美信息博弈(或者说非完美信息博弈)是相对于完美信息博弈来说的。不完美信息博弈是指：如果没有参与者能够获得其他参与者的行动信息，也就是说当参与者做选择的时候不知道其他参与者的选择，这被称为不完美信息博弈。简单来说，如果把其他参与者的行动理解为一个参与者做决策时所面对的环境，信息不完美就是决策者不知道自己所处的决策环境。例如比较常见的不完美信息博弈可以包括斗地主、麻将等，比较常见的完美信息博弈可以包括象棋、围棋等。

目前人工智能(Artificial Intelligence，AI)对完美信息博弈领域应用广泛，例如可采用Deepmind AlphaGO强化学习解决方案训练高水平的围棋AI，使得用户可以随时与AI进行高水平的围棋博弈，提高用户的博弈体验。

然而，由于不完美信息博弈相对于完美信息博弈来说，难以获得其他参与者的信息，导致目前的AI并不适用于不完美信息博弈，难以满足用户对不完美信息博弈的需求。

发明内容

为了解决上述技术问题，本申请提供了一种基于人工智能的数据处理方法和相关装置，使得人工智能可以应用于不完美信息博弈，满足了用户对不完美信息博弈的需求。

本申请实施例公开了如下技术方案：

第一方面，本申请实施例提供了一种数据处理方法，所述方法包括：

获取博弈场景中在第i轮博弈时的已知资源信息，所述博弈场景中具有多个参与对象，所述多个参与对象包括目标对象和待测对象，所述已知资源信息包括所述目标对象在第i轮博弈时持有的资源和通过前i-1轮所述多个参与对象已使用的资源；

根据所述已知资源信息，预测所述待测对象在第i轮博弈时持有的资源；

根据所述目标对象和所述待测对象在第i轮博弈时持有的资源，确定所述目标对象在第i轮博弈使用的资源。

第二方面，本申请实施例提供了一种数据处理装置，所述装置包括获取单元、预测单元和确定单元：

所述获取单元，用于获取博弈场景中在第i轮博弈时的已知资源信息，所述博弈场景中具有多个参与对象，所述多个参与对象包括目标对象和待测对象，所述已知资源信息包括所述目标对象在第i轮博弈时持有的资源和通过前i-1轮所述多个参与对象已使用的资源；

所述预测单元，用于根据所述已知资源信息，预测所述待测对象在第i轮博弈时持有的资源；

所述确定单元，用于根据所述目标对象和所述待测对象在第i轮博弈时持有的资源，确定所述目标对象在第i轮博弈使用的资源。

第三方面，本申请实施例提供了一种用于数据处理的设备，所述设备包括处理器以及存储器：

所述存储器用于存储程序代码，并将所述程序代码传输给所述处理器；

所述处理器用于根据所述程序代码中的指令执行第一方面所述的方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行第一方面所述的方法。

由上述技术方案可以看出，在进行包括多个参与对象的不完美信息博弈场景中，针对第i轮博弈时能确定出已知资源信息，该已知资源信息包括了目标对象在第i轮博弈时持有的资源和通过前i-1轮该多个参与对象已使用的资源。由于待测对象在第i轮博弈时实际持有的资源无法直接获知，可以通过已知资源信息预测待测对象在第i轮博弈时持有的资源，以完善确定博弈过程资源使用策略所需的相关信息。根据目标对象和待测对象在第i轮博弈时持有的资源，可以确定目标对象在第i轮博弈使用的资源，从而实现人工智能对目标对象的资源使用决策，使得人工智能可以应用于不完美信息博弈，满足了用户对不完美信息博弈的需求。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种数据处理场景示意图；

图2为本申请实施例提供的一种数据处理方法的方法流程图；

图3为本申请实施例提供的一种基于纸牌信息生成第一神经网络模型输入数据的示意图；

图4为本申请实施例提供的一种基于ISMCTS的搜索树示意图；

图5为本申请实施例提供的一种斗地主场景中基于ISMCTS预测本轮目标对象出牌策略的示意图；

图6为本申请实施例提供的一种残差网络模型中构建块的结构示意图；

图7为本申请实施例提供的一种斗地主场景中基于通过CE-ISMCTS的自博弈方式训练第二神经网络模型的示意图；

图8为本申请实施例提供的一种数据处理装置的装置结构图；

图9为本申请实施例提供的一种设备的结构图；

图10为本申请实施例提供的一种服务器的结构图。

具体实施方式

下面结合附图，对本申请的实施例进行描述。

由于在不完美信息博弈中，当参与者进行选择的时候无法知道其他参与者的选择，例如多人斗地主中，任意一方在出牌时，基于自己的手牌难以知晓其他多方手牌，故在确定自己本轮的出牌策略时无法将其他参与者的手牌作为参考。这与完美信息博弈例如传统棋类二人零和有很大区别，原应用于完美信息博弈的人工智能并不适用于不完美信息博弈。

为此，本申请实施例提供了一种数据处理方案，在不完美信息博弈场景的每一轮博弈中，可以基于本轮可以确定出的已知资源信息，预测出未知资源信息，例如其他参与方所持有资源等，从而完善了确定博弈过程资源使用策略所需的相关信息，使得人工智能可以以此做出妥当的资源使用决策，人工智能应用于不完美信息博弈成为可能。

本申请实施例所提供的数据处理方法可以基于人工智能实现，人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

在本申请实施例中，主要涉及的人工智能软件技术包括上述深度学习方向。

例如可以涉及机器学习(Machine learning，ML)中的深度学习(Deep Learning)，包括各类人工神经网络(artificial neural network)，其中可以包括卷积神经网络(Convolutional Neural Network，CNN)，循环神经网络(Recurrent Neural Network，RNN)，深度神经网络(Deep Neural Network，DNN)等。

本申请提供的数据处理方法可以应用于可以运行、处理各类神经网络模型的数据处理设备，如终端设备、服务器。其中，终端设备具体可以为智能手机、计算机、个人数字助理(Personal Digital Assistant，PDA)、平板电脑等；服务器具体可以为独立服务器，也可以为集群服务器。

该数据处理设备可以具备上述机器学习能力。机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络等技术。

在本申请实施例中，数据处理设备通过对各类人工神经网络的训练、应用，实现了在不完美信息博弈中基于本轮的已知资源信息，确定本轮资源使用策略的功能，并且在一些实施方式中可以达到很高的博弈水平，使得用户可以随时与AI进行高水平的不完美信息博弈，提高用户的博弈体验。

接下来以数据处理设备是服务器为例结合应用场景进行说明，图1为本申请实施例提供的一种数据处理场景的示意，在图1所示出博弈场景对应的不完美信息博弈具体为三人斗地主这一常见的牌类游戏。

完成一次不完美信息博弈一般需要多轮博弈，一般情况下每一轮中每个参与对象都有资源使用机会，通过合理判断下的资源使用，以期赢得一次不完美信息博弈。

斗地主包括三个参与对象，参与对象所持有或使用的资源为扑克牌。在一次不完美信息博弈(一局斗地主)中，参与对象在每轮博弈时，可以根据上家所使用的资源(出牌)并结合自己当前手牌情况决策是否使用资源(跟牌)，或具体如何使用资源。

在图1中将一个参与对象作为目标对象，另外两个参与对象作为待测对象1和2。目标对象为服务器100控制的参与对象，故服务器100可以直接获取目标对象每轮持有的手牌，例如图1示出博弈场景中目标对象右侧的牌组。待测对象1和2可以是由用户通过智能设备操控的，也可以是由其他数据处理设备操控的。由于待测对象1和2不直接经由服务器100控制，故服务器100不能直接获取待测对象1和2的本轮手牌，属于未知资源信息。

为了实现通过服务器100控制目标对象每轮可以基于当前牌局情况合理出牌，尽量使目标对象或目标对象所在博弈阵营(例如农民)赢得博弈胜利，服务器100需要获取本轮(例如第i轮，i为正整数)博弈的已知资源信息200，该已知资源信息属于目前博弈场景中目标对象可以明确的博弈信息，包括了目标对象在第i轮博弈时持有的资源和通过前i-1轮该多个参与对象已使用的资源，例如目标对象本轮的具体手牌、本次斗地主目前已经出过的牌、都是谁出的等。在一些实现方式中，还可以包括待测对象1和2的剩余手牌数量等细化信息。

服务器100通过已知资源信息200来预测待测对象1和2在本轮博弈时持有的资源，例如本轮待测对象1和2分别持有的手牌的可能情况，从而可以通过待测对象1和2的本轮手牌和目标对象的本轮实际手牌来确定目标对象本轮具体的资源使用策略，例如应该怎么出牌。当然，当目标对象不是主动出牌而是尚未死牌需要跟牌的情况下，服务器100还需要参考本轮需要针对什么牌进行跟牌。在牌类游戏中，牌型可以通过牌面信息或牌组合确定，例如单张的红桃3、黑桃6等，例如三带一中的三个9带Q等都属于不同的牌型。

在游戏过程中，一般通过比较参与对象所出牌的牌型大小来确定出牌权或游戏胜负。出牌过程中一般具有死牌和跟牌等出牌场景。

死牌是指一次出牌环节的完成，在不同的游戏规则下，一次出牌环节中每个参与对象可以具有一次或多次出牌权利。例如参与对象a出牌后没有其他参与对象愿意出牌时，属于死牌。死牌后，参与对象a具有下一次出牌环节的第一个出牌权利(斗地主场景中)。

跟牌是指在出牌顺序上，基于上一个参与对象所出的牌型进行出牌。一般情况下，跟牌时需要考虑上一个参与对象所出的具体牌型，例如上一个参与对象所出牌型为一对4，那么跟牌时需要出比一对4大的对子(斗地主场景中)，炸弹等特殊牌型除外。

在图1示出的场景中，本轮博弈的出牌顺序为目标对象死牌后第一个出牌，服务器100通过预测出的待测对象1和2的本轮手牌和目标对象的本轮手牌，确定出对应的出牌策略为出3个6带3。

假设本轮尚未死牌，上一个对象出的是一对6，那么服务器100在为目标对象确定本轮出牌策略时，会参考上一个对象所出的牌，在相同的待测对象1和2的本轮手牌和目标对象的本轮手牌的情况下，确定出对应的出牌策略例如可以为一对2，或者不出牌。

由此可见，通过已知资源信息预测待测对象在第i轮博弈时持有的资源，可以根据目标对象和待测对象在第i轮博弈时持有的资源，可以确定目标对象在第i轮博弈使用的资源，从而实现人工智能对目标对象的资源使用决策，使得人工智能可以应用于不完美信息博弈，满足了用户对不完美信息博弈的需求。

为了便于描述，在接下来的实施例中，主要以服务器作为前述数据处理设备，对本申请的技术方案进行示例性说明。

图2为本申请实施例提供的一种数据处理方法的方法流程图，所述方法包括：

S201：获取博弈场景中在第i轮博弈时的已知资源信息。

在本申请实施例中，博弈场景对应的是不完美信息博弈，博弈场景中具有多个参与对象参与该不完美信息博弈。资源为不完美信息博弈中所提供的，用于确定博弈结果，不同的不完美信息博弈所提供的资源类型、数量可以有所不同。例如属于不完美信息博弈的纸牌游戏中，提供的资源是扑克牌等纸牌，属于不完美信息博弈的麻将游戏中，提供的资源是麻将牌。需要注意的是，即使同一种不完美信息博弈，所提供的资源也可以根据地域、场景、规则等有所区别。

在完成一次不完美信息博弈的过程中，需要参与对象间实施多轮博弈，每个参与对象在每一轮博弈中都有使用资源的机会，第i轮博弈为该多轮博弈中的一轮博弈，第i-1轮博弈为第i轮博弈的上一轮博弈，一般情况下，一轮博弈中每个参与对象具有一次使用资源的权利。在牌类游戏中，第i-1轮博弈和第i轮博弈可以属于同一次出牌环节，也可以属于不同次出牌环节。在本申请实施例中i为大于等于2的正整数。

不完美信息博弈的博弈场景中所具有的多个参与对象包括了目标对象和待测对象。在不同的博弈场景中，待测对象可以为一个或多个。

目标对象为服务器控制的参与对象，服务器可以直接获取目标对象每轮博弈中实际持有资源。待测对象可以是由用户通过智能设备操控的，也可以是由其他数据处理设备例如其他服务器操控的参与对象，服务器不能直接获取待测对象每轮博弈中实际持有资源。

在博弈场景中的博弈过程中，对于服务器来说，整体资源分为已知资源和未知资源，已知资源为目标对象在第i轮博弈时所持有的资源和前i-1轮多个参与对象已使用的资源；未知资源为第i轮博弈时待测对象持有的尚未使用的资源。

在一种可能的实现方式中，已知资源信息中除了包括已知资源外，还可以包括一些与当前博弈过程所对应不完美信息博弈相关的基础信息，例如本轮各参与对象持有资源的数量、源使用顺序、参与对象的博弈角色(如果有的话)例如斗地主中的农民、地主角色等等。

S202：根据所述已知资源信息，预测所述待测对象在第i轮博弈时持有的资源。

服务器需要通过本轮的已知资源信息来预测不同待测对象所持有未知资源的可能。随着参与对象对所持有资源的不断使用，已知资源信息会越来越丰富，未知资源的数量和变化可能性也越来越少，基于已知资源信息预测出的待测对象在第i轮博弈时持有的资源也会越来越准确。

本申请实施例不限定预测时所使用的具体技术手段，在一种可能的实现方式中，可以采用第一神经网络模型实现资源预测，第一神经网络模型可以是CNN模型或其他类型模型，可以采用监督学习的方法来实现模型训练，第一神经网络模型根据前述已知资源信息来预测待测玩家本轮所持有资源。

在不完美信息博弈具体为牌类游戏时，本步骤可以理解为牌面估计(CardsEstimation，CE)。

在使用第一神经网络模型的情况下，S202具体可以通过如下的S2021-S2023实现。

S2021：根据所述已知资源信息的来源类型，确定多层矩阵向量；

为了通过第一神经网络模型处理已知资源信息，需要对已知资源信息进行相应的处理，得到符合模型处理需求的特征表达形式。针对神经网络模型，可以将已知资源信息确定为多层矩阵向量，每一层矩阵向量中的携带的元素可以具有相同的来源类型。

来源类型用于表示信息的来源，例如目标对象在第i轮博弈时持有的资源属于一个来源类型，前i-1轮多个参与对象已使用的资源属于一个来源类型等。

以不完美信息博弈为斗地主游戏为例，可以将牌面进行二值化处理，转换为4x15的二值化矩阵，行代表牌型，列代表该牌型的个数。例如图3示出了目标对象在第i轮博弈时持有的手牌，通过二值化转化为图3右上角的一个4x15的二值化矩阵。该种表达方式能够很好的表达牌面信息特点，可以使第一神经网络模型例如CNN模型能够有效的提取局部信息，例如对、三张、炸弹、顺子，都是局部相关的。

已知资源信息中的其他不同来源类型的信息也可以以此进行二值化，从而得到多层矩阵向量。例如可以包括用于标识各参与对象的博弈角色的矩阵、标识各个参与对象打出牌的矩阵、标识尚未打出牌的矩阵、标识各个参与对象手牌数量的矩阵等，从而得到例如图3右下角所示的多层矩阵向量。

S2022：根据所述多层矩阵向量，依据第一神经网络模型确定所述待测对象在第i轮博弈时所持有资源的第一概率分布。

S2023：根据所述第一概率分布，预测所述待测对象在第i轮博弈时持有的资源。

第一神经网络模型在具体为CNN模型时，其模型结构可以采用简单的五层CNN网络，每一层都是采用卷积(Convolution，Conv)、批量归一化参数(Batch normalization，BN)、线性整流(Rectified Linear Unit，ReLU)激活函数的组合，最后接一个全联接层(fully connected layers，FC)。

例如在图3左下角示出了第一神经网络模型具体为这五层CNN网络结构。其中，卷积核的大小分别为10x15、10x5、5x5、3x3、3x3，通道数分别为32、32、64、128、128。损失函数(loss)采用的是激活交叉熵函数(sigmoid_cross_entropy),采用多标签(multi label)的方式。

第一神经网络模型可以根据多层矩阵向量输出对应的第一概率分布，用于表示待测对象在第i轮博弈时所持有资源的不同可能组合下的概率。基于此可以预测所述待测对象在第i轮博弈时持有的资源。

为了提高第一神经网络模型的预测准确性，在一种可能的实现方式中，可以通过完成所述博弈场景所对应博弈，确定所述待测对象在第i轮博弈中实际所持有资源，根据所述实际所持有资源作为训练样本，来训练所述第一神经网络模型。通过一定轮数的迭代训练，可以显著提升第一神经网络模型的预测精度。

S203：根据所述目标对象和所述待测对象在第i轮博弈时持有的资源，确定所述目标对象在第i轮博弈使用的资源。

服务器根据目标对象和待测对象在第i轮博弈时持有的资源，可以依据不完美信息博弈的博弈规则，确定出目标对象在第i轮博弈应该合理使用的资源，以期提高目标对象赢得该不完美信息博弈的可能性。

通过上述方式，服务器可以实施人工智能技术在不完美信息博弈中通过确定目标对象在每一论博弈中使用的资源，实现了人工智能在不完美信息博弈中的应用，例如人工智能可以和用户在不完美信息博弈中进行博弈。

针对S203，在一种可能的实现方式中，本申请实施例提供了一种利用树搜索算法确定目标对象在第i轮博弈使用资源的方式，包括：

S2031：根据所述目标对象和所述待测对象在第i轮博弈时持有的资源，通过树搜索算法展开搜索树。

通过树搜索算法展开的搜索树可以体现在第i论博弈时目标对象和待测对象所持有资源的前提下，目标对象在不同资源使用可能组合下赢得不完美信息博弈的可能性。

在一种可能的实现方式中，树搜索算法可以是基于信息集的蒙特卡罗树搜索(Information Set Monte Carlo Tree Search，ISMCTS)，ISMCTS是一类树搜索算法的统称，可以较为有效地解决一些探索空间巨大的问题。

ISMCTS是的一种基于非完美信息的博弈树搜索，可以很好的解决策略融合的问题，ISMCTS搜索树中每个结点不再是一个确定的状态，而是该条件下的一个信息集，也就是所有的可能，如图4所示，在每次迭代过程中，都会在根节点(root)随机一个状态，然后遍历整棵树，在若干次遍历之后，则会得到一个融合之后的解。

需要注意的是，通过树搜索算法展开搜索树时所依据的是目标对象和待测对象在第i轮博弈时持有的资源，在前述的一种可能实现方式中，待测对象在第i轮博弈时持有的资源是通过第一神经网络模型所输出的第一概率分布确定的。故通过ISMCTS展开搜索树时，可以根据第一概率分布确定出一个确定的当前状态信息，即符合第一概率分布的一种确定的待测对象第i轮所持有资源，然后根据当前状态信息和目标对象在第i轮博弈时持有的资源从根节点开始展开搜索树。

针对一轮博弈中对目标对象资源使用方式的确定，根据第一概率分布可以随机出大量的可能，故可以通过ISMCTS迭代展开多次，根据计算量、准确性等不同场景要求，迭代展开次数可以从百次到百万次不等。从而可以通过ISMCTS有效综合出在待测对象所持有资源的不同可能场景下的较优或最优资源使用方式。

结合斗地主，通过图4所示出场景进行举例说明，从根节点所确定状态进行展开搜索树，根节点所确定的状态可以是本轮(第i轮)目标对象的手牌、基于前述第一神经网络模型所输出概率分布确定出的待测对象1和2的一种可能手牌。

图4示出的并不是一棵完整的搜索树，而是主要体现a1这一支，a1和a2属于在根节点所确定状态下可能出的牌，在出了a1后，继续通过模拟三家的后续出牌，直至展开到叶子节点，每一个叶子节点后的-1、+1用于标识在该叶子节点到根节点之间树结构所体现的出牌模拟场景下目标对象的输赢情况，例如-1可以标识目标对象输了，+1可以标识目标对象赢了。例如目标对象在第i轮通过a1、b1、a4、e1,4指示的出牌顺序下最终会赢得不完美信息博弈。

这里需要强调一些ISMCTS具有非定义域问题，非定义域问题是指在每次迭代时在根节点所随机的状态中有可能包括了当前场景下的不可能事件，从而通过展开搜索树获得的解是没有意义的。在本申请实施例中，在根节点所确定的状态是通过前述的当前状态信息和目标对象在第i轮博弈时持有的资源，当前状态信息由于符合第一概率分布，故不存在出现当前场景下的不可能事件，例如斗地主中在已经有玩家打出大小王后，还在基于目前有玩家持有大小王的情况下展开搜索树。通过本申请实施例提供的资源预测方式可以有效避免了ISMCTS的非定义域带来的问题，提高了通过ISMCTS确定目标对象在第i轮资源使用的效率和精度。

S2032：根据所述搜索树确定所述目标对象在第i轮博弈所使用资源的第二概率分布。

S2033：根据所述第二概率分布确定所述目标对象在第i轮博弈使用的资源。

在一种可能实现方式中，由于根据树搜算法可以多次迭代展开搜索树，可以根据每次迭代得到的结果综合得出目标对象在第i轮博弈所使用资源的第二概率分布。

第二概率分布用于标识在目标对象第i轮持有资源的基础上，基于待测对象在第i轮持有资源的可能形式，目标对象如何使用资源以提高最终获取博弈场景所对应不完美信息博弈的可能。第二概率分布中资源的概率高低可以体现该资源在第i轮使用时对最终博弈结果的影响。故可以通过第二概率分布确定出目标对象在第i轮博弈使用的资源。

由此可见，在进行包括多个参与对象的不完美信息博弈场景中，针对第i轮博弈时能确定出已知资源信息，该已知资源信息包括了目标对象在第i轮博弈时持有的资源和通过前i-1轮该多个参与对象已使用的资源。由于待测对象在第i轮博弈时实际持有的资源无法直接获知，可以通过已知资源信息预测待测对象在第i轮博弈时持有的资源，以完善确定博弈过程资源使用策略所需的相关信息。根据目标对象和待测对象在第i轮博弈时持有的资源，可以确定目标对象在第i轮博弈使用的资源，从而实现人工智能对目标对象的资源使用决策，使得人工智能可以应用于不完美信息博弈，满足了用户对不完美信息博弈的需求。

针对图2所对应实施例需要说明的是，通过上述方式，服务器可以实施人工智能技术在不完美信息博弈中通过确定目标对象在每一论博弈中使用的资源，实现了人工智能在不完美信息博弈中的应用，例如人工智能可以和用户在不完美信息博弈中进行博弈。除此之外，还可以通过实施上述方案实现人工智能在不完美信息博弈中进行自博弈，通过自博弈的方式快速生成海量训练样本数据，以此训练第二神经网络模型。

例如图5所示的斗地主场景中，可以根据牌面估计-基于数据集的蒙特卡罗树搜索(CE-ISMCTS)确定出本轮目标对象和待测对象的牌面估计(可以是部分，也可以是完全牌面的估计)，基于此进行搜索树展开，通过搜索树中访问次数最多的节点确定出本轮目标对象的出牌策略。

由于ISMCTS得到的策略输出准确性很好，从而可以通过高质量的第二神经网络模型，更高效的为用户提供过不完美信息博弈的高水平博弈服务。

也就是说，在本申请实施例中，除了可以通过树搜索算法例如前述ISMCTS确定在不完美信息博弈中每轮目标对象的资源使用方式，还可以通过第二神经网络模型。第二神经网络模型相对于ISMCTS，可以不需要待测对象所持有资源的预测信息，而直接可以根据目标对象本轮持有的资源以及其他已知资源信息确定本轮目标对象本轮的使用资源，从而在不完美信息博弈实现更为高效的AI应用。

为了使得第二神经网络模型具有高质量，或者说在博弈过程中能够具有较高的博弈水平，服务器需要通过本申请图2所对应实施例在博弈过程所生成的信息作为高质量训练样本对第二神经网络模型进行训练。

在图2所对应实施例的基础上，所述方法还包括：

S501：在所述博弈场景的博弈过程中获取训练数据。

该训练数据包括多轮博弈对应的已知资源信息、目标对象在多轮博弈中分别使用的资源，以及目标对象在所述博弈场景所对应博弈中的胜负信息。

由于可以通过树搜索算法等方式完成不完美信息博弈，故通过完成博弈除了可以得到每轮的已知资源信息，还可以得到博弈过程中每轮博弈目标对象实际使用的资源，目标对象是否获得博弈胜利等信息。

一般情况下，可以将目标对象获取胜利的不完美信息博弈中的信息作为训练数据，以期训练出的第二神经网络模型可以在控制目标对象与用户进行博弈过程中体现出较高博弈水平，不那么容易就被击败。

训练数据除了可以包括前述信息以外，还可以进一步包括各个参与对象的博弈角色、资源使用顺序、前几轮的资源使用情况、针对什么资源进行资源使用、各个参与对象在第i轮所持有资源的数量等。

S502：根据所述训练数据训练第二神经网络模型。

由于训练数据可以体现出在博弈场景中目标对象的资源使用情况和在该情况下的博弈结果(例如胜、负)，故通过训练数据训练的第二神经网络模型可以根据目标对象在第i轮博弈中持有的资源，确定目标对象在第i轮博弈中使用资源的概率分布。

该概率分布用于标识在目标对象第i轮持有资源的基础上，目标对象如何使用资源以提高最终获取博弈场景所对应不完美信息博弈的可能。概率分布中资源的概率高低可以体现该资源在第i轮使用时对最终博弈结果的影响。故可以通过概率分布确定出目标对象在第i轮博弈使用的资源。

例如在斗地主这一不完美信息博弈中，该概率分布可以体现出不同出牌方式的可能性，出牌方式共有527种，可以如下表所示：

不出	1
		火箭/王炸	1
单张	15
		对子	13
三张	13
		炸弹	13
三带一	182
		三带二	156
单顺	36
		双顺	52
三顺	45
		总数	527

在这一场景中，第二神经网络模型所确定出的概率分布可以体现在第i轮目标对象使用资源在这527种方式中分布的可能性。

在训练第二神经网络模型达到使用标准后，可以将第二神经网络模型应用于不完美信息博弈。虽然一些不完美信息博弈具有一定的相通性，但是一般情况下，使用来自一个类型的不完美信息博弈的训练数据所训练的第二神经网络模型，主要应用于该类型的不完美信息博弈中。例如根据三人斗地主的训练样本所训练的第二神经网络模型主要应用于三人斗地主中。

可以把第二神经网络模型视为两个网络模块的组合，一个是策略网络模块，一个是价值网络模块。其中策略网络模块可以确定出前述的概率分布，价值网络模块可以输出当前局面下选择不同资源使用方式的胜率。

在训练过程中，上述两个网络模块对应的损失函数可以通过下式确定：

Loss＝alpha*p_loss+(1-alpha)*v_loss

其中p_loss＝CrossEntropy(p_score，p_label),v_loss＝MSE(v_loss，v_input)；

alpha＝0.5，CrossEntropy为交叉熵、MSE为均方误差。

第二神经网络模型可以是基于残差网络(ResNet)的网络结构，包括四个部分，分别为：

(1)初始的卷积层部分(init_conv_layer)

(2)残差层部分(residual_layer)

(3)输出卷积层(output_conv_layer)

(4)全连接层(dense_layer)

其中，初始化卷积层为1层，滤波器大小(filter size)为10x15，filter个数32，残差层采用的是残差网络中的构建块(building_block),一共有2个building blocks,filter大小均为3x3，通道数分别为[64，64],[128,128]；一个输出卷积层，filter size为1x1，filter个数为64。构建块的结构可以参见图6所示，每一层的输出通过线性整流(Rectified Linear Unit，ReLU)激活函数进行处理。

S503：获取实际博弈场景中人工智能对象在第i轮博弈中持有的资源。

虽然在步骤编号上本步骤处于S503之后，但是本申请并不完全切割开使用和训练第二神经网络模型，可以在使用第二神经网络模型的过程中，基于图2所对应实施例产生的高质量训练样本继续训练第二神经网络模型，以便第二神经网络模型不断迭代，不断优化。

本步骤所提到的实际博弈场景所对应不完美信息博弈与S501-S502中所涉及博弈场景对应的不完美信息博弈是同一个类型的不完美信息博弈。而所谓的实际博弈场景是指有实际玩家(用户)作为参与对象的博弈场景。

在该实际博弈场景中也包括多个参与对象，其中包括人工智能对象和用户对象，人工智能对象为服务器操控的AI，可以对应于前述中的目标对象，用户对象为玩家操控的，可以对应于前述中的待测对象。

S504：根据所述人工智能对象在第i轮博弈时持有的资源，通过第二神经网络模型确定所述人工智能对象在第i轮博弈中所使用资源的第三概率分布。

S505：根据所述第三概率分布确定所述人工智能对象在第i轮博弈使用的资源。

由于用于预测待测对象资源持有的第一神经网络模型可以不断迭代优化，第二神经网络模型的训练样本质量一直保持很高的水准，且数量足够。使用第二神经网络模型还不需要预测待测对象的持有资源，模型结构相对简单，所需输入数据并不复杂。故通过第二神经网络模型控制的目标对象可以在不完美信息博弈中具备高水平的博弈能力，提高用户的博弈体验。

接下来结合图7的场景(斗地主)来说明本申请实施例中综合第一神经网络模型和第二神经网络模型的AI应用于不完美信息博弈的实现方式。

在通过CE-ISMCTS的自博弈过程中，目标对象的每轮手牌如图7的S₁-S_T所示。例如S₁为目标对象第一次出牌时所持有的手牌，S₂为目标对象第二次出牌时所持有的手牌等。

在自博弈过程中，每一轮通过牌面估计和ISMCTS确定目标对象的出牌策略π₁-π_t。π为ISMCTS进行树展开所输出的概率分布，用于标识本轮目标对象不同出牌策略的可能性分布。

通过π可以确定本轮的实际出牌a，例如第一轮通过π₁可以确定本轮的实际出牌a₁为三个六带三，第二轮通过π₁可以确定本轮的实际出牌a₁为三个八带五等。

自博弈过程产生的信息将作为训练样本训练第二神经网络模型，也可以同时根据待测对象的每轮实际手牌P_g反馈并训练用于牌面估计的第一神经网络模型。

在训练第二神经网络模型时，可以将每一轮的π作为第二神经网络模型中策略网络模块的输出标签(π≈p)，自博弈结果z作为价值网络模块的输出标签(z≈v)，通过训练样本对第二神经网络模型进行训练。

由于其中ISMCTS每走一步迭代的次数可以达到100万次，ISMCTS得到的策略输出要比使用神经网络的概率分布p更强，因此，基于牌面估计的ISMCTS可以视为一个对第二神经网络模型的强力策略改善过程。

使用基于牌面估计的ISMCTS提升后的策略来进行打牌，并用自对弈最终对局的胜者z作为价值(value)，作为一个强力的策略评估过程，用以提升价值网络的准确性。

通过应用上述规则进行自博弈，每自对弈一万局，对第一神经网络模型(猜牌网络)和第二神经网络模型(策略网络和价值网络)进行更新，使得f(θ)＝(p，v)中的策略更加贴近通过ISMCTS搜索之后得到的更强的打牌策略，同时提升价值网络与猜牌网络的准确性，并且在下轮迭代中使用新的参数来进行新的自博弈。

对应图1-7所对应实施例，本申请实施例还提供了一种数据处理装置，图8为本申请实施例提供的一种数据处理装置的装置结构图，所述数据处理装置800包括获取单元801、预测单元802和确定单元803：

所述获取单元801，用于获取博弈场景中在第i轮博弈时的已知资源信息，所述博弈场景中具有多个参与对象，所述多个参与对象包括目标对象和待测对象，所述已知资源信息包括所述目标对象在第i轮博弈时持有的资源和通过前i-1轮所述多个参与对象已使用的资源；

所述预测单元802，用于根据所述已知资源信息，预测所述待测对象在第i轮博弈时持有的资源；

所述确定单元803，用于根据所述目标对象和所述待测对象在第i轮博弈时持有的资源，确定所述目标对象在第i轮博弈使用的资源。

可选的，所述预测单元还用于：

根据所述已知资源信息中内容的来源类型，确定多层矩阵向量；

根据所述多层矩阵向量，依据第一神经网络模型确定所述待测对象在第i轮博弈时所持有资源的第一概率分布；

根据所述第一概率分布，预测所述待测对象在第i轮博弈时持有的资源。

可选的，所述装置还包括第一训练单元：

所述确定单元还用于通过完成所述博弈场景所对应博弈，确定所述待测对象在第i轮博弈中实际所持有资源；

所述第一训练单元，用于根据所述实际所持有资源训练所述第一神经网络模型。

可选的，所述确定单元还用于：

根据所述目标对象和所述待测对象在第i轮博弈时持有的资源，通过树搜索算法展开搜索树；

根据所述搜索树确定所述目标对象在第i轮博弈所使用资源的第二概率分布；

根据所述第二概率分布确定所述目标对象在第i轮博弈使用的资源。

可选的，所述装置还包括第二训练单元：

所述获取单元还用于在所述博弈场景的博弈过程中获取训练数据，所述训练数据包括多轮博弈对应的所述已知资源信息、所述目标对象在多轮博弈中分别使用的资源，以及所述目标对象在所述博弈场景所对应博弈中的胜负信息；

所述第二训练单元，用于根据所述训练数据训练第二神经网络模型，所述第二神经网络模型用于根据所述目标对象在第i轮博弈中持有的资源，确定所述目标对象在第i轮博弈中使用资源的概率分布。

可选的，所述获取单元还用于获取实际博弈场景中人工智能对象在第i轮博弈中持有的资源，所述实际博弈场景中的参与对象包括所述人工智能对象和用户对象；

所述确定单元还用于根据所述人工智能对象在第i轮博弈时持有的资源，通过第二神经网络模型确定所述人工智能对象在第i轮博弈中所使用资源的第三概率分布；

所述确定单元还用于根据所述第三概率分布确定所述人工智能对象在第i轮博弈使用的资源。

可选的，所述已知资源信息还包括所述多个参与对象的博弈角色和资源使用顺序。

图8所对应实施例中各个单元对应的说明可以参见图1-7中相关位置的描述，这里不再一一赘述。

本申请实施例还提供了一种设备，该设备可以数据处理。下面结合附图对该设备进行介绍。请参见图9所示，本申请实施例提供了一种的设备1300，该设备1300还可以是终端设备，该终端设备可以为包括手机、平板电脑、个人数字助理(Personal DigitalAssistant，简称PDA)、销售终端(Point of Sales，简称POS)、车载电脑等任意智能终端，以终端设备为手机为例：

图9示出的是与本申请实施例提供的终端设备相关的手机的部分结构的框图。参考图9，手机包括：射频(Radio Frequency，简称RF)电路1310、存储器1320、输入单元1330、显示单元1340、传感器1350、音频电路1360、无线保真(wireless fidelity，简称WiFi)模块1370、处理器1380、以及电源1390等部件。本领域技术人员可以理解，图9中示出的手机结构并不构成对手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图9对手机的各个构成部件进行具体的介绍：

RF电路1310可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器1380处理；另外，将设计上行的数据发送给基站。通常，RF电路1310包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low NoiseAmplifier，简称LNA)、双工器等。此外，RF电路1310还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(Global System of Mobile communication，简称GSM)、通用分组无线服务(GeneralPacket Radio Service，简称GPRS)、码分多址(Code Division Multiple Access，简称CDMA)、宽带码分多址(Wideband Code Division Multiple Access，简称WCDMA)、长期演进(Long Term Evolution，简称LTE)、电子邮件、短消息服务(Short Messaging Service，简称SMS)等。

存储器1320可用于存储软件程序以及模块，处理器1380通过运行存储在存储器1320的软件程序以及模块，从而执行手机的各种功能应用以及数据处理。存储器1320可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器1320可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元1330可用于接收输入的数字或字符信息，以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地，输入单元1330可包括触控面板1331以及其他输入设备1332。触控面板1331，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板1331上或在触控面板1331附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触控面板1331可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器1380，并能接收处理器1380发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板1331。除了触控面板1331，输入单元1330还可以包括其他输入设备1332。具体地，其他输入设备1332可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元1340可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元1340可包括显示面板1341，可选的，可以采用液晶显示器(LiquidCrystal Display，简称LCD)、有机发光二极管(Organic Light-Emitting Diode，简称OLED)等形式来配置显示面板1341。进一步的，触控面板1331可覆盖显示面板1341，当触控面板1331检测到在其上或附近的触摸操作后，传送给处理器1380以确定触摸事件的类型，随后处理器1380根据触摸事件的类型在显示面板1341上提供相应的视觉输出。虽然在图9中，触控面板1331与显示面板1341是作为两个独立的部件来实现手机的输入和输入功能，但是在某些实施例中，可以将触控面板1331与显示面板1341集成而实现手机的输入和输出功能。

手机还可包括至少一种传感器1350，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板1341的亮度，接近传感器可在手机移动到耳边时，关闭显示面板1341和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路1360、扬声器1361，传声器1362可提供用户与手机之间的音频接口。音频电路1360可将接收到的音频数据转换后的电信号，传输到扬声器1361，由扬声器1361转换为声音信号输出；另一方面，传声器1362将收集的声音信号转换为电信号，由音频电路1360接收后转换为音频数据，再将音频数据输出处理器1380处理后，经RF电路1310以发送给比如另一手机，或者将音频数据输出至存储器1320以便进一步处理。

WiFi属于短距离无线传输技术，手机通过WiFi模块1370可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图9示出了WiFi模块1370，但是可以理解的是，其并不属于手机的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器1380是手机的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器1320内的软件程序和/或模块，以及调用存储在存储器1320内的数据，执行手机的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器1380可包括一个或多个处理单元；优选的，处理器1380可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器1380中。

手机还包括给各个部件供电的电源1390(比如电池)，优选的，电源可以通过电源管理系统与处理器1380逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

尽管未示出，手机还可以包括摄像头、蓝牙模块等，在此不再赘述。

在本实施例中，该终端设备所包括的处理器1380还具有以下功能：

本申请实施例还提供服务器，请参见图10所示，图10为本申请实施例提供的服务器1400的结构图，服务器1400可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(Central Processing Units，简称CPU)1422(例如，一个或一个以上处理器)和存储器1432，一个或一个以上存储应用程序1442或数据1444的存储介质1430(例如一个或一个以上海量存储设备)。其中，存储器1432和存储介质1430可以是短暂存储或持久存储。存储在存储介质1430的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1422可以设置为与存储介质1430通信，在服务器1400上执行存储介质1430中的一系列指令操作。

服务器1400还可以包括一个或一个以上电源1426，一个或一个以上有线或无线网络接口1450，一个或一个以上输入输出接口1458，和/或，一个或一个以上操作系统1441，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

上述实施例中的步骤也可以由服务器执行，该服务器可以基于该图10所示的服务器结构。

本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行前述各个实施例所述的数据处理方法。

本申请实施例还提供一种包括指令的计算机程序产品，当其在计算机上运行时，使得计算机执行前述各个实施例所述的数据处理方法。

本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应当理解，在本申请中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：只存在A，只存在B以及同时存在A和B三种情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种数据处理方法，其特征在于，所述方法包括：

获取博弈场景中在第i轮博弈时的已知资源信息，所述博弈场景中具有多个参与对象，所述多个参与对象包括目标对象和待测对象，所述已知资源信息包括所述目标对象在第i轮博弈时持有的资源和通过前i-1轮所述多个参与对象已使用的资源；所述多个参与对象所持有或使用的资源为牌资源；

根据所述多层矩阵向量，依据用于牌面估计的第一神经网络模型确定所述待测对象在第i轮博弈时所持有资源的第一概率分布；

根据所述第一概率分布，预测所述待测对象在第i轮博弈时持有的资源；

根据所述第二概率分布确定所述目标对象在第i轮博弈使用的资源，以得到通过牌面估计和树搜索算法确定的所述目标对象的出牌策略；

通过完成所述博弈场景所对应博弈，确定所述待测对象在第i轮博弈中实际所持有资源；

将所述实际所持有资源作为反馈，训练所述用于牌面估计的第一神经网络模型；

在使用所述第一神经网络模型进行牌面估计并使用所述树搜索算法展开搜索树的所述博弈场景的博弈过程中获取训练数据，所述训练数据包括多轮博弈对应的所述已知资源信息、所述目标对象在多轮博弈中分别使用的资源，以及所述目标对象在所述博弈场景所对应博弈中的胜负信息；

将所述目标对象在多轮博弈中分别使用的资源作为第二神经网络模型中策略网络模块的输出标签，将目标对象在所述博弈场景所对应博弈中的胜者信息作为所述第二神经网络模型中价值网络模块的输出标签，并通过所述训练数据训练所述第二神经网络模型，以将基于牌面估计的树搜索算法作为所述第二神经网络模型的强力策略改善过程；所述第二神经网络模型用于根据所述目标对象在第i轮博弈中持有的资源，确定所述目标对象在第i轮博弈中使用资源的概率分布。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取实际博弈场景中人工智能对象在第i轮博弈中持有的资源，所述实际博弈场景中的参与对象包括所述人工智能对象和用户对象；

根据所述人工智能对象在第i轮博弈时持有的资源，通过第二神经网络模型确定所述人工智能对象在第i轮博弈中所使用资源的第三概率分布；

根据所述第三概率分布确定所述人工智能对象在第i轮博弈使用的资源。

3.根据权利要求1所述的方法，其特征在于，所述已知资源信息还包括所述多个参与对象的博弈角色和资源使用顺序。

4.一种数据处理装置，其特征在于，所述装置包括获取单元、预测单元和确定单元：

所述获取单元，用于获取博弈场景中在第i轮博弈时的已知资源信息，所述博弈场景中具有多个参与对象，所述多个参与对象包括目标对象和待测对象，所述已知资源信息包括所述目标对象在第i轮博弈时持有的资源和通过前i-1轮所述多个参与对象已使用的资源；所述多个参与对象所持有或使用的资源为牌资源；

所述预测单元，用于根据所述已知资源信息中内容的来源类型，确定多层矩阵向量；根据所述多层矩阵向量，依据第一神经网络模型确定所述待测对象在第i轮博弈时所持有资源的第一概率分布；根据所述第一概率分布，预测所述待测对象在第i轮博弈时持有的资源；

所述确定单元，用于根据所述目标对象和所述待测对象在第i轮博弈时持有的资源，通过树搜索算法展开搜索树；根据所述搜索树确定所述目标对象在第i轮博弈所使用资源的第二概率分布；根据所述第二概率分布确定所述目标对象在第i轮博弈使用的资源，以得到通过牌面估计和树搜索算法确定的所述目标对象的出牌策略；

第一训练单元，用于将所述实际所持有资源作为反馈，训练所述用于牌面估计的第一神经网络模型；

所述获取单元还用于在使用所述第一神经网络模型进行牌面估计并使用所述树搜索算法展开搜索树的所述博弈场景的博弈过程中获取训练数据，所述训练数据包括多轮博弈对应的所述已知资源信息、所述目标对象在多轮博弈中分别使用的资源，以及所述目标对象在所述博弈场景所对应博弈中的胜负信息；

第二训练单元，用于将所述目标对象在多轮博弈中分别使用的资源作为第二神经网络模型中策略网络模块的输出标签，将目标对象在所述博弈场景所对应博弈中的胜者信息作为所述第二神经网络模型中价值网络模块的输出标签，并通过所述训练数据训练所述第二神经网络模型，以将基于牌面估计的树搜索算法作为所述第二神经网络模型的强力策略改善过程，所述第二神经网络模型用于根据所述目标对象在第i轮博弈中持有的资源，确定所述目标对象在第i轮博弈中使用资源的概率分布。

5.根据权利要求4所述的装置，其特征在于，所述获取单元还用于获取实际博弈场景中人工智能对象在第i轮博弈中持有的资源，所述实际博弈场景中的参与对象包括所述人工智能对象和用户对象；

6.一种用于数据处理的设备，其特征在于，所述设备包括处理器以及存储器：

所述处理器用于根据所述程序代码中的指令执行权利要求1-3任意一项所述的方法。

7.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行权利要求1-3任意一项所述的方法。