CN110263937A

CN110263937A - 一种数据处理方法、设备及存储介质

Info

Publication number: CN110263937A
Application number: CN201910526467.2A
Authority: CN
Inventors: 张榕; 曾子骄
Original assignee: Shenzhen Tencent Domain Computer Network Co Ltd
Current assignee: Shenzhen Tencent Domain Computer Network Co Ltd
Priority date: 2019-06-18
Filing date: 2019-06-18
Publication date: 2019-09-20
Anticipated expiration: 2039-06-18
Also published as: CN110263937B

Abstract

本发明实施例公开一种数据处理方法、设备及存储介质，其中方法包括如下步骤：获取对局数据，所述对局数据包括第一数据组和第二数据组；所述第一数据组的博弈决策是基于第一模型所确定的，所述第二数据组的博弈决策是基于第二模型所确定的；所述第一模型采用多个用户群体之间进行用户博弈的标准对局数据训练得到；根据所述第一模型和所述第二模型，在所述第一数据组和所述第二数据组之间进行用户模拟博弈，得到第一数据组对应的博弈结果；根据用户模拟博弈次数以及所述第一数据组对应的博弈结果为第一结果的次数，确定所述对局数据对应的难度系数。采用本发明，可以提高确定游戏残局难度系数的准确度。

Description

一种数据处理方法、设备及存储介质

技术领域

本发明涉及电子技术领域，尤其涉及一种数据处理方法、设备及存储介质。

背景技术

随着电子科技的不断的开发和完善，以及移动应用和智能设备爆发增长，移动设备已经成为人们生活中的一部分，衣食住行都与移动设备息息相关，例如，手机上的棋牌游戏是工作之余的消遣游戏，棋牌中的斗地主残局是其中一种游戏，为了提高用户的游戏体验，通常会对每一关斗地主残局设置难度系数，玩家依次挑战成功每一关残局，系统会推送下一关残局，残局的游戏难度也会逐渐增加，对残局难度的评估将决定残局挑选，进而影响线上玩家体验，因此残局难度的评估显得尤为重要，传统方案计算人类玩家每一步正确的出牌概率的连乘作为残局难度。残局步数越多，残局难度越大，传统方法计算出的概率越低，传统方法每一步的出牌概率计算有偏差，导致最终多个步骤的出牌概率的连乘计算不够准确，同时，对于残局中有多种解法的残局，传统方法需要计算每种解法对应的权重，由于权重无法准确得到，因此残局难度无法准确计算，对残局的难度评估有很大的影响。

发明内容

本发明实施例提供一种数据处理方法、设备及存储介质，可以提高确定游戏残局难度系数的准确度。

本发明实施例一方面提供了一种数据处理方法，可包括：

获取对局数据，所述对局数据包括第一数据组和第二数据组；所述第一数据组的博弈决策是基于第一模型所确定的，所述第二数据组的博弈决策是基于第二模型所确定的；所述第一模型采用多个用户群体之间进行用户博弈的标准对局数据训练得到；

根据所述第一模型和所述第二模型，在所述第一数据组和所述第二数据组之间进行用户模拟博弈，得到第一数据组对应的博弈结果；

根据用户模拟博弈次数以及所述第一数据组对应的博弈结果为第一结果的次数，确定所述对局数据对应的难度系数。

其中，所述根据所述第一模型和所述第二模型，在所述第一数据组和所述第二数据组之间进行数据博弈，得到第一数据组对应的博弈结果，包括：

采用所述第一模型确定所述第一数据组中至少一个第一组合数据对应的博弈概率；

根据各第一组合数据的博弈概率从至少一个第一组合数据中输出用于用户模拟博弈的目标组合数据，将所述目标组合数据从所述第一数据组中删除；

采用所述第二模型从第二数据组中输出用于与所述目标组合数据进行用户模拟博弈的第二组合数据，将所述第二组合数据从所述第二数据组中删除；

当所述第一数据组或者所述第二数据组为空集合时，确定所述第一数据组对应的博弈结果。

其中，所述第一模型包括主模型和辅助模型；

所述采用所述第一模型确定所述第一数据组中至少一个第一组合数据对应的博弈概率，包括：

采用所述主模型从所述第一数据组中确定至少一个主单元数据对应的主博弈概率；所述主单元数据是在所述第一数据组中组合得到属于主数据类型的数据；

采用所述辅助模型从所述第一数据组中确定至少一个辅助单元数据对应的辅助博弈概率；所述辅助单元数据是在所述第一数据组中组合得到属于辅助数据类型的数据；

根据所述主单元数据和所述辅助单元数据，生成所述第一组合数据，根据所述主博弈概率和所述辅助博弈概率确定所述第一组合数据对应的博弈概率。

其中，所述采用所述主模型从所述第一数据组中确定至少一个主单元数据对应的主博弈概率，包括：

根据所述第一数据组和所述第一数据组的对局属性确定第一输入数据，基于所输入的所述第一输入数据的主模型，从所述第一数据组中确定至少一个主单元数据对应的主博弈概率；

所述第一数据组的对局属性包括：所述第一数据组的角色信息、所述第二数据组的角色信息、所述第二数据组中具有最大输出时间戳的第二组合数据、所述第一数据组中已输出的目标组合数据和所述第二数据组中已输出的第二组合数据、所述第二数据组的剩余数据量。

其中，所述采用所述辅助模型从所述第一数据组中确定至少一个辅助单元数据对应的辅助博弈概率，包括：

将所述第一数据组中除主单元数据外的数据确定为辅助数据，根据所述辅助数据和所述辅助数据的对局属性确定第二输入数据，基于所输入的所述第二输入数据的辅助模型，从所述辅助数据中确定至少一个辅助单元数据对应的辅助博弈概率；

所述辅助数据的对局属性包括：所述第一数据组的角色信息、所述第二数据组中具有最大输出时间戳的第二组合数据。

其中，所述采用所述第二模型从第二数据组中输出用于与所述目标组合数据进行用户模拟博弈的第二组合数据，将所述第二组合数据从所述第二数据组中删除，包括：

根据所述目标组合数据，从所述第二数据组中获取至少一个合法组合数据，并确定每个合法组合数据与所述目标组合数据进行用户模拟博弈的权重值；

将具有最大权重值的合法组合数据确定为第二组合数据，输出用于与所述目标组合数据进行用户模拟博弈的所述第二组合数据，将所述第二组合数据从所述第二数据组中删除。

其中，还包括：

将所述第一数据组中已输出的所述目标组合数据确定为第一轨迹节点，将所述第二数据组中删除的所述第二组合数据作为第二轨迹节点；

根据所述第一轨迹节点和所述第二轨迹节点中的数据输出时间戳，生成对局数据的目标博弈轨迹信息；

根据所述目标博弈轨迹信息确定所述对局数据为残局数据；所述残局数据为博弈轨迹信息满足残局博弈的对局数据。

其中，所述根据所述目标博弈轨迹信息确定所述对局数据为残局数据，包括：

获取所述对局数据的至少一个历史博弈轨迹信息，并从所述至少一个历史博弈轨迹信息中获取每个历史博弈轨迹信息对应的历史子轨迹信息；

获取所述目标博弈轨迹信息中的目标子轨迹信息；所述历史子轨迹信息和所述目标子轨迹信息的轨迹节点数量相同；

若所述目标子轨迹信息与所有历史子轨迹信息均相同，则确定所述对局数据为残局数据。

其中，所述根据用户模拟博弈次数以及所述第一数据组对应的博弈结果为第一结果的次数，确定所述对局数据对应的难度系数，包括：

当所述第一数据组为空集合时，确定所述第一数据组对应的博弈结果为第一结果；

获取所述对局数据的数据博弈次数以及所述第一数据组对应的博弈结果为第一结果的次数，确定所述数据博弈次数与所述第一结果的次数的比值，将所述比值确定为所述对局数据对应的难度系数。

其中，还包括：

从对局日志信息中获取标准对局数据和所述标准对局数据对应的对局属性；所述标准对局数据是多个用户群体之间进行用户博弈的对局数据；

根据所述标准对局数据和所述标准对局数据的对局属性，调整初始第一模型；

当调整后的初始第一模型满足目标收敛条件时，将包含调整后的模型参数的初始第一模型确定为所述第一模型；

所述第一模型用于预测第一数据组中的各第一组合数据的博弈概率。

其中，所述初始第一模型包括初始主模型和初始辅助模型；

所述根据所述标准对局数据、所述标准对局数据的对局属性，调整初始第一模型，包括：

从所述标准对局数据中获取执行数据组，从所述标准对局数据的对局属性中获取执行数据组的对局属性；

所述标准对局数据包括第一标准数据组和第二标准数据组；所述执行数据组为所述第一标准数据组和所述第二标准数据组中的任意一个；

基于所述执行数据组和所述执行数据组的对局属性，获取执行数据组中预测主单元数据对应的预测主博弈概率，根据所述预测主博弈概率调整初始辅助模型；

将所述执行数据组中除样本主单元数据外的所有数据确定为执行辅助数据，从所述执行数据组的对局属性中获取执行辅助数据的对局属性；

基于所述执行辅助数据和所述执行辅助数据的对局属性，获取执行辅助数据中预测辅助单元数据对应的预测辅助博弈概率，根据所述预测辅助博弈概率调整初始辅助模型。

其中，所述基于所述执行数据组和所述执行对局属性，获取执行数据组中预测组合数据的预测主单元数据对应的预测主博弈概率，根据所述预测主博弈概率调整初始辅助模型，包括：

将所述执行数据组和所述执行数据组的执行数据属性作为初始主模型的标准输入数据，以获取所述执行数据组中预测组合数据的预测主单元数据以及所述预测主单元数据对应的预测主博弈概率；

从对局日志信息中获取标准对局数据的标准轨迹信息，从所述标准轨迹信息中获取所述执行数据组中的样本主单元数据以及所述样本主单元数据对应的样本主博弈概率；

根据所述预测主博弈概率和所述样本主博弈概率确定第一概率误差，并根据所述第一概率误差反向传播调整所述初始主模型。

其中，所述基于所述执行辅助数据和所述执行辅助数据的对局属性，获取执行辅助数据中预测组合数据的预测辅助单元数据对应的预测辅助博弈概率，根据所述预测辅助博弈概率调整初始辅助模型，包括：

将所述执行辅助数据和所述执行辅助数据的对局属性作为初始辅助模型的标准输入数据，以获取所述执行数据组中预测组合数据的预测辅助单元数据以及所述预测辅助单元数据对应的预测辅助博弈概率；

从对局日志信息中获取标准对局数据的标准轨迹信息，从所述标准轨迹信息中获取所述执行数据组中的样本辅助单元数据以及所述样本辅助单元数据对应的样本辅助博弈概率；

根据所述预测辅助博弈概率和所述样本辅助博弈概率确定第二概率误差，并根据所述第二概率误差反向传播调整所述初始辅助模型。

其中，还包括：

当所述第一概率误差小于第一误差阈值，且所述第二概率误差小于第二误差阈值时，确定调整后的初始第一模型满足所述目标收敛条件；所述调整后的初始第一模型包含调整后的初始主模型以及调整后的初始辅助模型。

本发明实施例一方面提供了一种数据处理设备，可包括：

对局数据获取模块，用于获取对局数据，所述对局数据包括第一数据组和第二数据组；所述第一数据组的博弈决策是基于第一模型所确定的，所述第二数据组的博弈决策是基于第二模型所确定的；所述第一模型采用多个用户群体之间进行用户博弈的标准对局数据训练得到；

模拟博弈模块，用于根据所述第一模型和所述第二模型，在所述第一数据组和所述第二数据组之间进行用户模拟博弈，得到第一数据组对应的博弈结果；

难度系数确定模块，用于根据用户模拟博弈次数以及所述第一数据组对应的博弈结果为第一结果的次数，确定所述对局数据对应的难度系数。

其中，所述模拟博弈模块包括：

博弈概率确定单元，用于采用所述第一模型确定所述第一数据组中至少一个第一组合数据对应的博弈概率；

第一组合数据输出单元，用于根据各第一组合数据的博弈概率从至少一个第一组合数据中输出用于用户模拟博弈的目标组合数据，将所述目标组合数据从所述第一数据组中删除；

第二组合数据输出单元，用于采用所述第二模型从第二数据组中输出用于与所述目标组合数据进行用户模拟博弈的第二组合数据，将所述第二组合数据从所述第二数据组中删除；

博弈结果确定单元，用于当所述第一数据组或者所述第二数据组为空集合时，确定所述第一数据组对应的博弈结果。

其中，所述第一模型包括主模型和辅助模型；

所述博弈概率确定单元包括：

主博弈概率确定子单元，用于采用所述主模型从所述第一数据组中确定至少一个主单元数据对应的主博弈概率；所述主单元数据是在所述第一数据组中组合得到属于主数据类型的数据；

辅助博弈概率确定子单元，用于采用所述辅助模型从所述第一数据组中确定至少一个辅助单元数据对应的辅助博弈概率；所述辅助单元数据是在所述第一数据组中组合得到属于辅助数据类型的数据；

博弈概率确定子单元，用于根据所述主单元数据和所述辅助单元数据，生成所述第一组合数据，根据所述主博弈概率和所述辅助博弈概率确定所述第一组合数据对应的博弈概率。

其中，所述主博弈概率确定子单元具体用于：

其中，所述辅助博弈概率确定子单元具体用于：

其中，所述第二组合数据输出单元具体用于：

其中，还包括：

轨迹节点确定模块，用于将所述第一数据组中已输出的所述目标组合数据确定为第一轨迹节点，将所述第二数据组中删除的所述第二组合数据作为第二轨迹节点；

博弈轨迹信息确定模块，用于根据所述第一轨迹节点和所述第二轨迹节点中的数据输出时间戳，生成对局数据的目标博弈轨迹信息；

残局博弈确定模块，用于根据所述目标博弈轨迹信息确定所述对局数据为残局数据；所述残局数据为博弈轨迹信息满足残局博弈的对局数据。

其中，所述残局博弈确定模块具体用于：

其中，所述难度系数确定模块具体用于：

其中，还包括：

标准数据获取模块，用于从对局日志信息中获取标准对局数据和所述标准对局数据对应的对局属性；所述标准对局数据是多个用户群体之间进行用户博弈的对局数据；

模型调整模块，用于根据所述标准对局数据和所述标准对局数据的对局属性，调整初始第一模型；

模型确定模块，用于当调整后的初始第一模型满足目标收敛条件时，将包含调整后的模型参数的初始第一模型确定为所述第一模型；

其中，所述初始第一模型包括初始主模型和初始辅助模型；

所述模型调整模块包括：

执行数据组获取单元，用于从所述标准对局数据中获取执行数据组，从所述标准对局数据的对局属性中获取执行数据组的对局属性；所述标准对局数据包括第一标准数据组和第二标准数据组；所述执行数据组为所述第一标准数据组和所述第二标准数据组中的任意一个；

初始主模型调整单元，用于基于所述执行数据组和所述执行数据组的对局属性，获取执行数据组中预测主单元数据对应的预测主博弈概率，根据所述预测主博弈概率调整初始辅助模型；

执行辅助数据获取单元，用于将所述执行数据组中除样本主单元数据外的所有数据确定为执行辅助数据，从所述执行数据组的对局属性中获取执行辅助数据的对局属性；

初始辅助模型调整单元，用于基于所述执行辅助数据和所述执行辅助数据的对局属性，获取执行辅助数据中预测辅助单元数据对应的预测辅助博弈概率，根据所述预测辅助博弈概率调整初始辅助模型。

其中，所述初始主模型调整单元具体用于：

其中，所述初始辅助模型调整单元具体用于：

其中，还包括：

收敛条件确定模块，用于当所述第一概率误差小于第一误差阈值，且所述第二概率误差小于第二误差阈值时，确定调整后的初始第一模型满足所述目标收敛条件；所述调整后的初始第一模型包含调整后的初始主模型以及调整后的初始辅助模型。

本发明实施例一方面提供了一种计算机存储介质，所述计算机存储介质存储有多条指令，所述指令适于由处理器加载并执行上述的方法步骤。

本发明实施例一方面提供了一种数据处理设备，包括处理器和存储器；其中，所述存储器存储有计算机程序，所述计算机程序适于由所述处理器加载并执行上述的方法步骤。

在本发明实施例中，通过获取对局数据，所述对局数据包括第一数据组和第二数据组；所述第一数据组的博弈决策是基于第一模型所确定的，所述第二数据组的博弈决策是基于第二模型所确定的；所述第一模型采用多个用户群体之间进行用户博弈的标准对局数据训练得到；根据所述第一模型和所述第二模型，在所述第一数据组和所述第二数据组之间进行用户模拟博弈，得到第一数据组对应的博弈结果；根据用户模拟博弈次数以及所述第一数据组对应的博弈结果为第一结果的次数，确定所述对局数据对应的难度系数，通过采用大量不同模式的游戏日志训练第一模型，解决了第一模型的训练数据过于单一的问题，提高了第一模型预测玩家的出牌概率的准确率，进而提高了游戏残局的难度系数的准确率，根据用户模拟博弈次数以及所述第一数据组对应的博弈结果为第一结果的次数，确定所述对局数据对应的难度系数，解决了对于游戏残局中有多种解法，导致无法准确计算残局对应的难度系数的问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种系统架构示意图；

图2a是本发明实施例提供的一种确定残局游戏难度系数的场景示意图；

图2b是本发明实施例提供的一种选择游戏关卡的场景示意图；

图3是本发明实施例提供的一种游戏平台的界面示意图；

图4是本发明实施例提供的一种数据处理方法的方法示意图；

图5是本发明实施例提供的一种数据处理方法的方法示意图；

图6是本发明实施例提供的一种特征转换的举例示意图；

图7a是本发明实施例提供的一种主模型的举例示意图；

图7b是本发明实施例提供的一种辅助模型的举例示意图；

图8是本发明实施例提供的一种模拟出牌示意图；

图9是本发明实施例提供的一种数据处理设备的结构示意图；

图10是本发明实施例提供的一种数据处理设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参见图1，是本发明实施例提供的一种系统系统架构图。服务器10f通过交换机10e和通信总线10d与用户终端集群建立连接，用户终端集群可包括：用户终端10a、用户终端10b、...、用户终端10c。数据库10g中存储了多个标准对局数据，以及所述标准对局数据对应的对局属性。服务器10f从数据库10g中提取出多个标准对局数据，作为样本数据，服务器10f基于多个标准对局数据，采用有监督学习的方式，训练第一模型，并存储所述第一模型。服务器10f可以基于训练好的第一模型和第二模型检测目标对局数据的难度系数，当获取到用户终端发送的目标对局数据，服务器10f检测目标对局数据的难度系数并将所述目标对局数据的难度系数推送至用户终端进行显示，或者在游戏残局闯关挑战中，根据挑战中每一关的难易程度匹配对应难度系数的对局数据。

请参见图2a，是本发明实施例提供的一种确定残局游戏难度系数的场景示意图，用户终端将对局数据发送至数据处理设备，数据处理设备获取对局数据，所述数据处理设备可以为图1中的服务器10f，所述对局数据可以是用户终端中存储的游戏残局数据，或者是用户终端随机生成的游戏对局数据，所述对局数据包括第一数据组和第二数据组；所述第一数据组的博弈决策是基于第一模型所确定的，所述第二数据组的博弈决策是基于第二模型所确定的；所述第一模型采用多个用户群体之间进行用户博弈的标准对局数据训练得到；数据处理设备根据所述第一模型和所述第二模型，在所述第一数据组和所述第二数据组之间进行用户模拟博弈，得到第一数据组对应的博弈结果；根据用户模拟博弈次数以及所述第一数据组对应的博弈结果为第一结果的次数，确定所述对局数据对应的难度系数，并将所述对局数据的难度系数发送至用户终端。

请参见图2b，是本发明实施例提供的一种选择游戏关卡的场景示意图，用户在用户终端上进行游戏的闯关挑战，不同的游戏关数对应不同的难度等级，用户选择目标游戏关数，数据处理设备获取所述目标游戏关数，所述数据处理设备可以为图1中的服务器10f，根据所述目标游戏关数对应的难度系数，从游戏对局数据库200中获取与目标游戏关数匹配的对局数据，并将所述匹配的对局数据发送至用户终端，所述游戏对局数据库200中对局数据的难度系数可以预先通过第一模型获取，具体的，在所述对局数据的第一数据组和所述第二数据组之间进行用户模拟博弈，得到第一数据组对应的博弈结果，并根据所述博弈结果获取对局数据的难度系数。

本发明实施例涉及的用户终端可以包括：平板电脑、智能手机、个人电脑(PC)、笔记本电脑、掌上电脑等。

上述计算对局数据的难度系数的方法具体可以运用在游戏平台上，请参见图3，是本发明实施例提供的一种游戏平台的界面示意图，所述游戏平台可以用于检测对局数据的难度系数，在所述对局数据的第一数据组和所述第二数据组之间进行用户模拟博弈的第一模型可以采用游戏平台上的日志数据进行训练，采用训练后的第一模型检测对局数据的难度系数，游戏平台还可以根据新生成的游戏日志数据对第一模型进行升级，提高第一模型的检测难度系数的准确率，点击显示界面20a上的性能升级，则服务器获取游戏平台中新生成的游戏日志数据或者是新的训练数数据对第一模型进行训练，点击显示界面20b上的开始检测，则服务器将获取用户所选择的对局数据，所述对局数据可以是用户输入的对局数据，或者是用户终端中存储的对局数据，采用所述第一模型和第二模型，在所述对局数据的第一数据组和所述第二数据组之间进行用户模拟博弈，得到第一数据组对应的博弈结果，并生成对局数据对应的难度系数，并将所述难度系数发送至用户终端，在显示界面20c上显示。

请参见图4，为本发明实施例提供了一种数据处理方法的流程示意图。如图4所示，本发明实施例的所述方法可以包括以下步骤S101-步骤S103。

S101，获取对局数据，所述对局数据包括第一数据组和第二数据组；所述第一数据组的博弈决策是基于第一模型所确定的，所述第二数据组的博弈决策是基于第二模型所确定的；所述第一模型采用多个用户群体之间进行用户博弈的标准对局数据训练得到；

具体的，数据处理设备获取对局数据，所述对局数据包括第一数据组和第二数据组；所述第一数据组的博弈决策是基于第一模型所确定的，所述第一模型用于输出第一数据组中各种博弈决策的概率，所述数据处理设备可以是图1中的服务器f，所述第一模型可以是卷积神经网络，所述第二数据组的博弈决策是基于第二模型所确定的，所述第二模型可以是极小化极大算法(Minimax算法)，Minimax算法是一种找出失败的最大可能性中的最小值的算法；所述第一模型采用多个用户群体之间进行用户博弈的标准对局数据训练得到，所述对局数据具体可以是游戏对局中的对局手牌，下面以斗地主为例进行说明，第一数据组为甲方的手牌，第二数据组为乙方的手牌，数据处理设备采用卷积神经网络确定第一数据组各种牌型的出牌概率，采用Minimax算法确定第二数据组的出牌策略，所述出牌策略为第一数据组和第二数据组中的出牌牌型。

S102，根据所述第一模型和所述第二模型，在所述第一数据组和所述第二数据组之间进行用户模拟博弈，得到第一数据组对应的博弈结果；

具体的，数据处理设备根据所述第一模型和所述第二模型，在所述第一数据组和所述第二数据组之间进行用户模拟博弈，得到第一数据组对应的博弈结果，可以理解的是，所述第一数据组的博弈决策是根据第一模型确定的，所述第二数据组的博弈决策是根据第二模型所确定的，所述第一数据组和所述第二数据组进行用户模拟博弈，所述用户模拟博弈是第一数据组在针对第二数据组的博弈决策生成第一数据组的博弈决策，以及第二数据组在针对第一数据组的博弈决策生成第二数据组的博弈决策，直到所述用户模拟博弈结束，并得到第一数据组对应的博弈结果，具体的，以斗地主为例进行说明，第一数据组为甲方的手牌，第二数据组为乙方的手牌，数据处理设备根据乙方的出牌策略，采用卷积神经网络确定甲方的各种牌型的出牌概率，并选择一种出牌牌型，数据处理设备根据甲方的出牌策略，采用Minimax算法确定乙方的出牌牌型，直到其中甲方或者乙方将所有的牌出完，则用户模拟博弈结束，并得到第一数据组对应的博弈结果，若甲方先出完所有牌，则所述第一数据组的博弈结果为在用户模拟博弈中胜利，若乙方先出完所有牌，则所述第一数据组的博弈结果为在用户模拟博弈中失败。

S103，根据用户模拟博弈次数以及所述第一数据组对应的博弈结果为第一结果的次数，确定所述对局数据对应的难度系数。

具体的，数据处理设备根据用户模拟博弈次数以及所述第一数据组对应的博弈结果为第一结果的次数，确定所述对局数据对应的难度系数，可以理解的是，数据处理设备根据所述第一模型和所述第二模型，在所述第一数据组和所述第二数据组之间进行多次用户模拟博弈，所述第一结果为所述第一数据组在用户模拟博弈中胜利的博弈结果，确定所述用户模拟博弈次数以及所述第一数据组对应的博弈结果为第一结果的次数，确定所述对局数据对应的难度系数，具体可以通过所述第一结果的次数在用户模拟博弈次数中的占比确定对局数据对应的难度系数。

请参见图5，为本发明实施例提供了一种数据处理方法的流程示意图。如图5所示，本发明实施例的所述方法可以包括以下步骤S201-步骤S208。

S201，获取对局数据，所述对局数据包括第一数据组和第二数据组；所述第一数据组的博弈决策是基于第一模型所确定的，所述第二数据组的博弈决策是基于第二模型所确定的；所述第一模型采用多个用户群体之间进行用户博弈的标准对局数据训练得到；

其中，本发明实施例的步骤S201参见图4所示实施例的步骤S101的具体描述，在此不进行赘述。

S202，采用所述第一模型确定所述第一数据组中至少一个第一组合数据对应的博弈概率；

具体的，数据处理设备采用所述第一模型确定所述第一数据组中至少一个第一组合数据对应的博弈概率，可以理解的是，所述第一数据组中至少存在一个第一组合数据，所述组合数据是第一数据组中的部分数据的集合，以斗地主残局为例进行说明，第一数据组为玩家手牌，第一组合数据为手牌中的各种牌的集合，每个第一组合数据为一种牌型。

本发明实施例的S202可以包括以下步骤S2021-步骤S2023；

S2021，采用所述主模型从所述第一数据组中确定至少一个主单元数据对应的主博弈概率；所述主单元数据是在所述第一数据组中组合得到属于主数据类型的数据；所述第一模型包括主模型和辅助模型；

具体的，数据处理设备采用所述主模型从所述第一数据组中确定至少一个主单元数据对应的主博弈概率，可以理解的是，所述主单元数据是在所述第一数据组中组合得到属于主数据类型的数据；所述第一模型包括主模型和辅助模型，所述主模型用于确定主单元数据对应的主博弈概率，所述辅助模型用于确定辅助单元数据对应的辅助博弈概率，所述主单元数据是第一组合数据中的部分数据，同样以斗地主残局为例进行说明，第一数据组为玩家手牌，第一组合数据为手牌中的“5，5，5，3”，则主单元数据为“5，5，5”。

步骤S2021具体的实现过程为：数据处理设备根据所述第一数据组和所述第一数据组的对局属性确定第一输入数据，基于所输入的所述第一输入数据的主模型，从所述第一数据组中确定至少一个主单元数据对应的主博弈概率；

所述第一数据组的对局属性包括：所述第一数据组的角色信息、所述第二数据组的角色信息、所述第二数据组中具有最大输出时间戳的第二组合数据、所述第一数据组中已输出的目标组合数据和所述第二数据组中已输出的第二组合数据、所述第二数据组的剩余数据量；

下面以斗地主为例进行说明，将所述第一数据组和所述第一数据组的对局属性确定第一输入数据，所述第一输入数据包括25个平面，每个平面为15*4的矩阵，第一数据组为当前玩家手牌，请参见图6，为本发明实施例提供了一种数据处理方法的举例示意图，当前玩家手牌为“3，3，4，5，5，5，6，6，9，9，9，J，Q，K”，则当前晚间手牌对应的矩阵如图6中所示，15*4的矩阵中每一列对应一个牌型，每一列有四行中“1”的个数代表该列对应牌型在手牌中的数量，第二数据组为对方玩家手牌，所述第一数据组的色信息包括当前玩家是否为地主、当前玩家是否需要接牌等，若当前玩家为地主，则将该特征对应的平面设置为1，若不是，则设置为0，所述第二数据组的角色信息包括上一出牌玩家是否是地主，若上一出牌玩家为地主，则将该特征对应的平面设置为1，若不是，则设置为0，所述第二数据组中具有最大输出时间戳的第二组合数据为上一手牌，所述第一数据组中已输出的目标组合数据为当前玩家已出的手牌，所述第二数据组中已输出的第二组合数据为上一玩家已出的手牌、所述第二数据组的剩余数据量为上一玩家的剩余手牌数量，请参见图7a，为本发明实施例提供了一种主模型的举例示意图，将25个15*4矩阵作为第一输入数据输入主模型，基于所述主模型中间层的运算，从所述第一数据组中确定至少一个主单元数据对应的主博弈概率，所述主模型的输出数据是一个向量，根据所述输出数据确定主单元数据对应的主博弈概率，具体的，上述主模型的输出数据的维度是529维，若所述输出数据为[0，…，0.8，0.2，…，0，0]，向量中“0.8”对应的主单元数据为“5，5，5”，“0.2”对应的主单元数据为“9，9，9”，则第一数据组中主单元数据“5，5，5”对应的主博弈概率为0.8，则第一数据组中主单元数据“9，9，9”对应的主博弈概率为0.2。

S2022，采用所述辅助模型从所述第一数据组中确定至少一个辅助单元数据对应的辅助博弈概率；所述辅助单元数据是在所述第一数据组中组合得到属于辅助数据类型的数据；

具体的，数据处理设备采用所述辅助模型从所述第一数据组中确定至少一个辅助单元数据对应的辅助博弈概率，可以理解的是，所述辅助单元数据是在所述第一数据组中组合得到属于辅助数据类型的数据；所述第一模型包括主模型和辅助模型，所述主模型用于确定主单元数据对应的主博弈概率，所述辅助模型用于确定辅助单元数据对应的辅助博弈概率，所述主单元数据是第一组合数据中的部分数据，所述辅助单元数据是第一组合数据中的部分数据，主单元数据和辅助单元数据组成第一组合数据，同样以斗地主残局为例进行说明，第一数据组为玩家手牌，第一组合数据为手牌中的“5，5，5，3”，则主单元数据为“5，5，5”，辅助单元数据为“3”，主单元数据和辅助单元组合数据为第一组合数据。

步骤S2022具体的实现过程为：数据处理设备将所述第一数据组中除主单元数据外的数据确定为辅助数据，根据所述辅助数据和所述辅助数据的对局属性确定第二输入数据，基于所输入的所述第二输入数据的辅助模型，从所述辅助数据中确定至少一个辅助单元数据对应的辅助博弈概率；

所述辅助数据的对局属性包括：所述第一数据组的角色信息、所述第二数据组中具有最大输出时间戳的第二组合数据；

下面以斗地主为例进行说明，将所述辅助数据和所述辅助数据的对局属性确定第二输入数据，所述第二输入数据包括3个平面，每个平面为15*4的矩阵，所述辅助数据为当前玩家手牌中除主单元数据外的手牌，所述第一数据组的角色信息包括当前玩家是否需要接牌，若当前玩家需要接牌，则将该特征对应的平面设置为1，若不是，则设置为0，所述第二数据组中具有最大输出时间戳的第二组合数据为上一手牌，请参见图7b，为本发明实施例提供了一种辅助模型的举例示意图，将3个15*4矩阵作为第二输入数据输入辅助模型，基于所述辅助模型中间层的运算，从所述辅助数据中确定至少一个辅助单元数据对应的辅助博弈概率，所述辅助模型的输出数据是一个向量，根据所述输出数据确定辅助单元数据对应的主博弈概率，具体的，上述辅助模型的输出数据的维度是55维，若所述输出数据为[0，…，0.7，0.3，…，0，0]，向量中“0.7”对应的辅助单元数据为“3，3”，“0.2”对应的辅助单元数据为“6，6”，则辅助数据中辅助单元数据“3，3”对应的辅助博弈概率为0.7，则辅助数据中辅助单元数据“6，6”对应的辅助博弈概率为0.3。

S2023，根据所述主单元数据和所述辅助单元数据，生成所述第一组合数据，根据所述主博弈概率和所述辅助博弈概率确定所述第一组合数据对应的博弈概率；

具体的，数据处理设备根据所述主单元数据和所述辅助单元数据，生成所述第一组合数据，根据所述主博弈概率和所述辅助博弈概率确定所述第一组合数据对应的博弈概率，可以理解的是，所述主单元数据和所述辅助单元组合数据生成所述第一组合数据，所述第一组合数据的博弈概率可以由所述所述主单元数据对应的主博弈概率和所述辅助单元数据对应辅助博弈概率共同决定，或者，所述第一组合数据的博弈概率由所述主博弈概率决定，具体的，所述博弈概率可以为主博弈概率和辅助博弈概率的乘积，所述博弈概率也可以为主博弈概率。

S203，根据各第一组合数据的博弈概率从至少一个第一组合数据中输出用于用户模拟博弈的目标组合数据，将所述目标组合数据从所述第一数据组中删除；

具体的，数据处理设备根据各第一组合数据的博弈概率从至少一个第一组合数据中输出用于用户模拟博弈的目标组合数据，将所述目标组合数据从所述第一数据组中删除，可以理解的是，所述第一数据组中包括至少一种第一组合数据，各第一组合数据对应不同的博弈概率，根据所述各第一组合数据对应的博弈概率确定不同第一组合数据对应的概率分布，根据所述概率分布从多个第一组合数据中选择用于用户模拟博弈的目标组合数据，并将所述目标组合数据进行输出，并将所述目标组合数据从所述第一数据组中删除，下面以斗地主为例进行说明，所述第一数据组为当前玩家手牌，所述第一组合数据为当前玩家的出牌牌型，所述当前玩家的手牌为“5，5，9，9，10，10，J，Q”，当前玩家出牌牌型包括“5，5”、“9，9”、“10，10”三组组合数据，对应的博弈概率分别为0.7，0.2和0.1，则三组组合数据包括“5，5”、“9，9”、“10，10”对应的概率分布分别为0.7，0.2和0.1，即选择“5，5”的概率为0.7，选择“9，9”的概率为0.2，选择“10，10”的概率为0.1，若选择“5，5”作为目标组合数据，出牌牌型为“5，5”，则将“5，5”从所述当前玩家的手牌中“5，5，9，9，10，10，J，Q”中删除，删除后的手牌为“9，9，10，10，J，Q”。

S204，采用所述第二模型从第二数据组中输出用于与所述目标组合数据进行用户模拟博弈的第二组合数据，将所述第二组合数据从所述第二数据组中删除；

具体的，数据处理设备采用所述第二模型从第二数据组中输出用于与所述目标组合数据进行用户模拟博弈的第二组合数据，将所述第二组合数据从所述第二数据组中删除，可以理解的是，所述第二模型用于确定所述第二数据组的博弈决策，所述第二模型具体可以是Minimax算法，所述数据处理设备采用所述第二模型，根据目标组合数据和第二数据组从第二数据组选择第二组合数据，所述第二组合数据用于与所述目标组合数据进行用户模拟博弈，并将所述第二组合数据从所述第二数据组中删除。

步骤S204具体的实现过程为：数据处理设备根据所述目标组合数据，从所述第二数据组中获取至少一个合法组合数据，并确定每个合法组合数据与所述目标组合数据进行用户模拟博弈的权重值；将具有最大权重值的合法组合数据确定为第二组合数据，输出用于与所述目标组合数据进行用户模拟博弈的所述第二组合数据，将所述第二组合数据从所述第二数据组中删除；

具体的，所述合法组合数据是可以与所述目标组合数据进行用户模拟博弈的组合数据，所述第二数据组中至少包括一个合法组合数据，并并确定每个合法组合数据与所述目标组合数据进行用户模拟博弈的权重值，所述权重值可以采用第一数据组或者第二数据组中的剩余数据量来确定，第一数据组中的剩余数据量越大，则权重值却大，第二数据组中的剩余数据量越大，则权重值却小，将具有最大权重值的合法组合数据确定为第二组合数据，输出用于与所述目标组合数据进行用户模拟博弈的所述第二组合数据，并将所述第二组合数据从所述第二数据组中删除。

S205，当所述第一数据组或者所述第二数据组为空集合时，确定所述第一数据组对应的博弈结果；

具体的，数据处理设备当所述第一数据组或者所述第二数据组为空集合时，确定所述第一数据组对应的博弈结果，可以理解的是，当所述第一数据组或者所述第二数据组为空集合时，即所述第一数据组或者所述第二数据组中剩余数据量为零时，确定此次用户模拟博弈结束，并确定所述第一数据组对应的博弈结果，当所述第一数据组为空集合时，确定所述第一数据组对应的博弈结果为第一博弈结果，当所述第二数据组为空集合时，确定所述第一数据组对应的博弈结果为第二博弈结果，下面以斗地主为例进行说明，所述第一数据组对应人类玩家手牌，所述第二数据组对应电脑手牌，当所述第一数据组或者所述第二数据组为空集合时，即人类玩家或者电脑的手牌为零，则该局游戏结束，当所述人类玩家的手牌为零时，确定所述第一博弈结果为人类玩家胜利，当所述电脑的手牌为零时，确定所述第二博弈结果为人类玩家失败。

请参见图8，为本发明实施例提供了一种模拟出牌示意图，如图8所示，数据处理设备采用第一模型确定第一数据组中各第一组合数据的博弈概率，第一数据组为区域100a中的“9，5，5，4”，第一组合数据包括“9”，“5”，“4”，“5，5”，通过第一模型确定第一组合数据“9”的博弈概率为a，第一组合数据“5”的博弈概率为b，第一组合数据“4”的博弈概率为c，第一组合数据“5，5”的博弈概率为d，根据各第一组合数据的博弈概率从至少一个第一组合数据中选择并输出用于用户模拟博弈的目标组合数据，将所述目标组合数据从所述第一数据组中删除，若选择的目标组合数据为“4”，则将目标组合数据为“4”作为第一数据组的出牌牌型，并展示在出牌区域300a，并将所述目标组合数据“4”从所述第一数据组中删除，删除目标组合数据“4”后的第一数据组为区域100b中的“9，5，5”，数据处理设备根据目标组合数据，采用第二模型从第二数据组中选择并输出用于与所述目标组合数据进行用户模拟博弈的第二组合数据，第二数据组为区域200b中的“K，K，Q”，第二数据组中的用于与所述目标组合数据“4”博弈的组合数据包括“K”，“Q”，“pass”，采用第二模型获取“K”对应的权重值为m，“Q”对应的权重值为n，“pass”对应的权重值为p，若“Q”对应的权重值为n最大，则将“Q”确定为第二组合数据，将“Q”作第二数据组的出牌牌型，并展示在出牌区域300b，将所述第二组合数据“Q”从所述第二数据组中删除，删除第二组合数据“Q”后的第二数据组为区域200c中的“K，K”，数据处理设备采用第一模型针对第二组合数据“Q”确定第一数据组中各第一组合数据的博弈概率，第一数据组为区域100c中的“9，5，5”，第一组合数据为“pass”，通过第一模型确定第一组合数据“pass”的博弈概率，第一数据组中只有一个组合数据，将组合数据“pass”确定为目标组合数据，并将所述目标组合数据“pass”从所述第一数据组“9，5，5”中删除，数据处理设备根据目标组合数据“pass”，采用第二模型从第二数据组中选择并输出用于与所述目标组合数据“pass”进行用户模拟博弈的第二组合数据，第二数据组为区域200c中的“K，K”，第二数据组中的用于与所述目标组合数据博弈的组合数据包括“K”，“K，K”采用第二模型获取“K”和“K，K”对应的权重值，若“K，K”的权重值大于“K”的权重值，则将“K，K”确定为第二组合数据，将“K，K”作第二数据组的出牌牌型，并展示在出牌区域300c，将所述第二组合数据“K，K”从所述第二数据组中删除，删除第二组合数据“Q”后的第二数据组为区域200d中的空集，当所述第一数据组或者所述第二数据组为空集合时，即第一数据组或者所述第二数据组中没有手牌时，则此次用户模拟博弈结束，并确定所述第一数据组对应的博弈结果，在第二数据组为空集合时，数据处理设备输出第一数据组对应的博弈结果，所述博弈结果为博弈失败。

S206，将所述第一数据组中已输出的所述目标组合数据确定为第一轨迹节点，将所述第二数据组中删除的所述第二组合数据作为第二轨迹节点；

具体的，数据处理设备将所述第一数据组中已输出的所述目标组合数据确定为第一轨迹节点，将所述第二数据组中删除的所述第二组合数据作为第二轨迹节点，可以理解的是，所述轨迹节点为第一数据组和第二数据组进行用户模拟博弈时删除的的组合数据，所述轨迹节点中携带有数据输出时间戳，所述时间戳对应组合数据删除的时间，所述第一轨迹节点为所述第一数据组中已输出的所述目标组合数据，所述第二轨迹节点为所述第二数据组中删除的所述第二组合数据，在斗地主中，所述第一数据组对应人类玩家手牌，所述第二数据组对应电脑手牌，所述轨迹节点为人类玩家和电脑每次出牌的牌型，所述时间戳是出牌的时间，所述第一轨迹节点为人类玩家已出的牌型，所述第二轨迹节点为所述电脑已出的牌型。

S207，根据所述第一轨迹节点和所述第二轨迹节点中的数据输出时间戳，生成对局数据的目标博弈轨迹信息；

具体的，数据处理设备根据所述第一轨迹节点和所述第二轨迹节点中的数据输出时间戳，生成对局数据的目标博弈轨迹信息，可以理解的是，所述目标博弈轨迹信息是此次用户模拟博弈对应的博弈轨迹信息，数据处理设备根据数据输出时间戳，按照时间先后顺序，将所述第一轨迹节点和所述第二轨迹节点进行串联，生成对局数据的目标博弈轨迹信息，在斗地主中，所述第一数据组对应人类玩家手牌，所述第二数据组对应电脑手牌，所述博弈轨迹信息为人类玩家和电脑的出牌顺序，例如，人类玩家手牌：K，K，9，9，8，7，7，3，残电脑手牌：A，10，10，6，人类玩家和电脑的出牌顺序为：8-A-过-10，10-K，K-过-7，7-过-9，9-过-3，则目标博弈轨迹信息为：8-A-过-10，10-K，K-过-7，7-过-9，9-过-3。

S208，根据所述目标博弈轨迹信息确定所述对局数据为残局数据；所述残局数据为博弈轨迹信息满足残局博弈的对局数据。

具体的，数据处理设备根据所述目标博弈轨迹信息确定所述对局数据为残局数据；可以理解的是，所述残局数据为博弈轨迹信息满足残局博弈的对局数据，若对局数据中的第一数据组为人类玩家，第二数据组为电脑，满足人类玩家获胜的出牌路径可以包括有多种，当人类玩家获胜的所有出牌路径中前三次出牌均相同时，确定所述对局数据为残局数据，即对局数据中第一数据组对应的博弈结果为第一结果的所有博弈轨迹信息前三个轨迹节点均相同，则确定所述对局数据为残局数据。

步骤S208具体的实现过程为：数据处理设备获取所述对局数据的至少一个历史博弈轨迹信息，并从所述至少一个历史博弈轨迹信息中获取每个历史博弈轨迹信息对应的历史子轨迹信息；获取所述目标博弈轨迹信息中的目标子轨迹信息；所述历史子轨迹信息和所述目标子轨迹信息的轨迹节点数量相同；若所述目标子轨迹信息与所有历史子轨迹信息均相同，则确定所述对局数据为残局数据；

具体的，所述历史博弈轨迹信息为对局数据中第一数据组对应的博弈结果为第一结果的博弈轨迹信息，所述历史博弈轨迹信息包括多个博弈轨迹信息，所述子轨迹信息为所述博弈轨迹信息中包括部分轨迹节点的博弈轨迹信息，所述历史子轨迹信息为所述历史博弈轨迹信息的子轨迹信息，所述目标子轨迹信息为所述目标博弈轨迹信息的子轨迹信息，所述历史子轨迹信息和所述目标子轨迹信息的轨迹节点数量相同，通常，选择博弈轨迹信息的前三个轨迹节点作为子轨迹信息，所述历史子轨迹信息为所述历史博弈轨迹信息前三个轨迹节点构成的子轨迹信息，所述目标子轨迹信息为所述目标博弈轨迹信息前三个轨迹节点构成的子轨迹信息，若所述目标子轨迹信息与所有历史子轨迹信息均相同，则确定所述对局数据为残局数据，以斗地主为例进行说明，所述第一数据组对应人类玩家手牌，所述第二数据组对应电脑手牌，所述博弈轨迹信息为人类玩家和电脑的出牌顺序，例如，人类玩家手牌：K，K，9，9，8，7，7，3，残电脑手牌：A，10，10，6，人类玩家和电脑的出牌顺序为：8-A-过-10，10-K，K-过-7，7-过-9，9-过-3，则目标博弈轨迹信息为：8-A-过-10，10-K，K-过-7，7-过-9，9-过-3，历史博弈轨迹信息为：8-A-过-10，10-K，K-过-9，9-过-7，7-过-3，所述目标子轨迹信息与所有历史子轨迹信息均为8-A-过，则确定所述对局数据为残局数据。采用上述残局判断方法，可以对随机生成的对局数据或者是无法判断是否为残局数据的对局数据进行判断，根据判断结果确定上述对局数据是否为残局数据。

S209，当所述第一数据组为空集合时，确定所述第一数据组对应的博弈结果为第一结果；获取所述对局数据的数据博弈次数以及所述第一数据组对应的博弈结果为第一结果的次数，确定所述数据博弈次数与所述第一结果的次数的比值，将所述比值确定为所述对局数据对应的难度系数；

具体的，数据处理设备当所述第一数据组为空集合时，确定所述第一数据组对应的博弈结果为第一结果；获取所述对局数据的数据博弈次数以及所述第一数据组对应的博弈结果为第一结果的次数，确定所述数据博弈次数与所述第一结果的次数的比值，将所述比值确定为所述对局数据对应的难度系数，可以理解的是，当所述第一数据组为空集合时，确定所述第一数据组对应的博弈结果为第一结果，在斗地主中，当所述第一数据组为空集合时，即当前玩家没有牌，确定所述第一结果为当前玩家胜利，将所述数据博弈次数与所述第一结果的次数的比值作为所述对局数据对应的难度系数，即将当前玩家的获胜次数与对局次数的比值作为对局数据对应的难度系数，例如，采用上述对局数据进行用户模拟博弈，所述数据博弈次数为1000次，所述第一结果的次数的比值100次，则对局数据对应的难度系数为0.1。

S210，从对局日志信息中获取标准对局数据和所述标准对局数据对应的对局属性；所述标准对局数据是多个用户群体之间进行用户博弈的对局数据；

具体的，数据处理设备从对局日志信息中获取标准对局数据和所述标准对局数据对应的对局属性；所述标准对局数据是多个用户群体之间进行用户博弈的对局数据，可以理解的是，所述对局日志信息用于记录标准对局数据以及所述标准对局数据的对局属性，所述日志数据中包括多个用户群体之间进行用户博弈的标准轨迹信息，所述标准轨迹信息为所述标准对局数据对应的博弈轨迹信息，所述标准对局数据具体可以是多个用户群体之间进行斗地主的对局数据，所述对局属性为多个用户群体之间进行用户博弈的博弈特征，包括当前玩家是否是地主、是否需要接牌等。

S211，根据所述标准对局数据和所述标准对局数据的对局属性，调整初始第一模型；

本发明实施例的S211可以包括以下步骤S2111-步骤S2114；

S2111，从所述标准对局数据中获取执行数据组，从所述标准对局数据的对局属性中获取执行数据组的对局属性；所述标准对局数据包括第一标准数据组和第二标准数据组；所述执行数据组为所述第一标准数据组和所述第二标准数据组中的任意一个；

具体的，数据处理设备从所述标准对局数据中获取执行数据组，从所述标准对局数据的对局属性中获取执行数据组的对局属性；所述标准对局数据包括第一标准数据组和第二标准数据组；所述执行数据组为所述第一标准数据组和所述第二标准数据组中的任意一个，可以理解的是，从所述标准对局数据的对局属性中获取执行数据组的对局属性，所述标准对局数据的对局属性包括标准对局数据中多个标准数据组对的对局属性，所述执行数据组可以为标准对局数据中的多个数据组的其中一个，以斗地主为例进行说明，斗地主可以为两个玩家或者是三个玩家，一个数据组对应一个玩家，每个玩家对应一组手牌，所述执行数据组可以为任意一个玩家的手牌。

S2112，基于所述执行数据组和所述执行数据组的对局属性，获取执行数据组中预测主单元数据对应的预测主博弈概率，根据所述预测主博弈概率调整初始辅助模型；所述初始第一模型包括初始主模型和初始辅助模型；

本发明实施例的S2112可以包括以下步骤S21121-步骤S21123；

S21121，将所述执行数据组和所述执行数据组的执行数据属性作为初始主模型的标准输入数据，以获取所述执行数据组中预测组合数据的预测主单元数据以及所述预测主单元数据对应的预测主博弈概率；

具体的，数据处理设备将所述执行数据组和所述执行数据组的执行数据属性作为初始主模型的标准输入数据，以获取所述执行数据组中预测组合数据的预测主单元数据以及所述预测主单元数据对应的预测主博弈概率，可以理解的是，所述标准输入数据为多个矩阵数据，每一个矩阵对应一个特征，具体的，所述初始主模型的标准输入数据为25个平面，每个平面为15*4的矩阵，下面以斗地主为例进行说明，将执行数据组和所述执行数据组的执行数据属性作为初始主模型的标准输入数据，所述初始主模型的标准输入数据包括25个15*4的矩阵，执行数据组为当前玩家手牌，所述执行数据组的执行数据属性包括当前玩家是否为地主、当前玩家是否需要接牌等，若当前玩家为地主，则将该特征对应的平面设置为1，若不是，则设置为0，将所述初始主模型的标准输入数据输入初始主模型，基于所述初始主模型从获取所述执行数据组中预测组合数据的预测主单元数据以及所述预测主单元数据对应的预测主博弈概率，所述初始主模型的输出数据是一个向量，根据所述输出数据确定预测主单元数据对应的预测主博弈概率，具体的，上述初始主模型的输出数据的维度是529维，若所述输出数据为[0，…，0.8，0.2，…，0，0]，向量中“0.8”对应的主单元数据为“5，5，5”，“0.2”对应的主单元数据为“9，9，9”，则执行数据组中预测主单元数据“5，5，5”对应的预测主博弈概率为0.8，则执行数据组中预测主单元数据“9，9，9”对应的预测主博弈概率为0.2。

S21122，从对局日志信息中获取标准对局数据的标准轨迹信息，从所述标准轨迹信息中获取所述执行数据组中的样本主单元数据以及所述样本主单元数据对应的样本主博弈概率；

具体的，数据处理设备从对局日志信息中获取标准对局数据的标准轨迹信息，从所述标准轨迹信息中获取所述执行数据组中的样本主单元数据以及所述样本主单元数据对应的样本主博弈概率，可以理解的是，所述日志数据中包括多个用户群体之间进行用户博弈的标准轨迹信息，所述标准轨迹信息为所述标准对局数据对应的博弈轨迹信息，根据所述标准轨迹信息中的轨迹节点确定样本主单元数据，因为所述样本主单元数据是已知的，所以样本主单元数据对应的样本主博弈概率为1，例如，若所述执行数据组中样本主单元数据“5，5，5”，则样本主单元数据“5，5，5”对应的样本主博弈概率为1。

S21123，根据所述预测主博弈概率和所述样本主博弈概率确定第一概率误差，并根据所述第一概率误差反向传播调整所述初始主模型；

具体的，数据处理设备根据所述预测主博弈概率和所述样本主博弈概率确定第一概率误差，并根据所述第一概率误差反向传播调整所述初始主模型，可以理解的是，根据所述预测主博弈概率对应的向量和所述样本主博弈概率对应的向量确定第一概率误差，并根据所述第一概率误差反向传播调整所述初始主模型中各个节点的权重，采用步骤S21121和步骤S21122中的例子，所述预测主博弈概率对应的向量为[0，…，0.8，0.2，…，0，0]，所述样本主博弈概率对应的向量为[0，…，1，0，…，0，0]，根据向量[0，…，0.8，0.2，…，0，0]和向量[0，…，1，0，…，0，0]确定第一概率误差，并根据所述第一概率误差反向传播调整所述初始主模型中各个节点的权重。

S2113，将所述执行数据组中除样本主单元数据外的所有数据确定为执行辅助数据，从所述执行数据组的对局属性中获取执行辅助数据的对局属性；

具体的，数据处理设备将所述执行数据组中除样本主单元数据外的所有数据确定为执行辅助数据，从所述执行数据组的对局属性中获取执行辅助数据的对局属性，可以理解的是，所述执行辅助数据为所述执行数据组中除样本主单元数据外的所有数据，所述执行数据组的对局属性包括样本主单元数据的对局属性和执行辅助数据的对局属性。

S2114，基于所述执行辅助数据和所述执行辅助数据的对局属性，获取执行辅助数据中预测辅助单元数据对应的预测辅助博弈概率，根据所述预测辅助博弈概率调整初始辅助模型。

本发明实施例的S2114可以包括以下步骤S21141-步骤S21143；

S21141，将所述执行辅助数据和所述执行辅助数据的对局属性作为初始辅助模型的标准输入数据，以获取所述执行数据组中预测组合数据的预测辅助单元数据以及所述预测辅助单元数据对应的预测辅助博弈概率；

具体的，数据处理设备将所述执行辅助数据和所述执行辅助数据的对局属性作为初始辅助模型的标准输入数据，以获取所述执行数据组中预测组合数据的预测辅助单元数据以及所述预测辅助单元数据对应的预测辅助博弈概率，可以理解的是，所述标准输入数据为多个矩阵数据，每一个矩阵对应一个特征，具体的，所述初始辅助模型的标准输入数据为3个平面，每个平面为15＊4的矩阵，下面以斗地主为例进行说明，将所述执行辅助数据和所述执行辅助数据的对局属性作为初始辅助模型的标准输入数据，所述初始辅助模型的标准输入数据包括3个15*4的矩阵，所述执行辅助数据为当前玩家手牌中除样本主单元数据外的手牌，所述执行辅助数据的对局属性包括当前玩家是否需要接牌，若当前玩家需要接牌，则将该特征对应的平面设置为1，若不是，则设置为0，基于所述初始辅助模型从所述获取执行辅助数据中预测组合数据的预测辅助单元数据以及所述预测辅助单元数据对应的预测辅助博弈概率，所述初始辅助模型的输出数据是一个向量，根据所述输出数据确定预测辅助单元数据对应的预测主博弈概率，具体的，上述初始辅助模型的输出数据的维度是55维，若所述输出数据为[0，…，0.7，0.3，…，0，0]，向量中“0.7”对应的预测辅助单元数据为“3，3”，“0.2”对应的预测辅助单元数据为“6，6”，则执行辅助数据中预测辅助单元数据“3，3”对应的预测辅助博弈概率为0.7，则执行辅助数据中预测辅助单元数据“6，6”对应的预测辅助博弈概率为0.3。

S21142，从对局日志信息中获取标准对局数据的标准轨迹信息，从所述标准轨迹信息中获取所述执行数据组中的样本辅助单元数据以及所述样本辅助单元数据对应的样本辅助博弈概率；

具体的，数据处理设备从对局日志信息中获取标准对局数据的标准轨迹信息，从所述标准轨迹信息中获取所述执行数据组中的样本辅助单元数据以及所述样本辅助单元数据对应的样本辅助博弈概率，可以理解的是，所述日志数据中包括多个用户群体之间进行用户博弈的标准轨迹信息，所述标准轨迹信息为所述标准对局数据对应的博弈轨迹信息，根据所述标准轨迹信息中的轨迹节点确定样本辅助单元数据，因为所述样本辅助单元数据是已知的，所以样本辅助单元数据对应的样本辅助博弈概率为1，例如，若所述执行数据组中样本辅助单元数据“3，3”，则样本主单元数据“3，3”对应的样本主博弈概率为1。

S21143，根据所述预测辅助博弈概率和所述样本辅助博弈概率确定第二概率误差，并根据所述第二概率误差反向传播调整所述初始辅助模型；

具体的，数据处理设备根据所述预测辅助博弈概率和所述样本辅助博弈概率确定第二概率误差，并根据所述第二概率误差反向传播调整所述初始辅助模型，可以理解的是，根据所述预测辅助博弈概率对应的向量和所述样本辅助博弈概率对应的向量确定第二概率误差，并根据所述第二概率误差反向传播调整所述初始辅助模型中各个节点的权重，采用步骤S21141和步骤S21142中的例子，所述预测辅助博弈概率对应的向量为[0，…，0.7，0.3，…，0，0]，所述样本主博弈概率对应的向量为[0，…，1，0，…，0，0]，根据向量[0，…，0.7，0.3，…，0，0]和向量[0，…，1，0，…，0，0]确定第二概率误差，并根据所述第二概率误差反向传播调整所述初始辅助模型中各个节点的权重。

S212，当调整后的初始第一模型满足目标收敛条件时，将包含调整后的模型参数的初始第一模型确定为所述第一模型；所述第一模型用于预测第一数据组中的各第一组合数据的博弈概率；

具体的，数据处理设备当调整后的初始第一模型满足目标收敛条件时，将包含调整后的模型参数的初始第一模型确定为所述第一模型；所述第一模型用于预测第一数据组中的各第一组合数据的博弈概率，所述初始第一模型包括初始主模型初始辅助模型，所述第一模型包括主模型和辅助模型，所述主模型用于预测第一数据组中的各主单元数据的博弈概率，所述辅助模型用于预测第一数据组中的各辅助单元数据的博弈概率。

S213，当所述第一概率误差小于第一误差阈值，且所述第二概率误差小于第二误差阈值时，确定调整后的初始第一模型满足所述目标收敛条件；所述调整后的初始第一模型包含调整后的初始主模型以及调整后的初始辅助模型。

具体的，数据处理设备当所述第一概率误差小于第一误差阈值，且所述第二概率误差小于第二误差阈值时，确定调整后的初始第一模型满足所述目标收敛条件；所述调整后的初始第一模型包含调整后的初始主模型以及调整后的初始辅助模型，可以理解的是，所述第一误差阈值与所述第二误差阈值均为预先设置，可以根据初始第一模型的收敛情况进行调整，当所述第一概率误差小于第一误差阈值时，确定调整后的初始主模型满足所述目标收敛条件，当所述第二概率误差小于第二误差阈值时，确定调整后的初始辅助模型满足所述目标收敛条件。

在本发明实施例中，通过获取对局数据，所述对局数据包括第一数据组和第二数据组；所述第一数据组的博弈决策是基于第一模型所确定的，所述第二数据组的博弈决策是基于第二模型所确定的；所述第一模型采用多个用户群体之间进行用户博弈的标准对局数据训练得到；根据所述第一模型和所述第二模型，在所述第一数据组和所述第二数据组之间进行用户模拟博弈，得到第一数据组对应的博弈结果；根据用户模拟博弈次数以及所述第一数据组对应的博弈结果为第一结果的次数，确定所述对局数据对应的难度系数，通过所述对局数据的目标博弈轨迹信息，可以对随机生成的对局数据或者是无法判断是否为残局数据的对局数据进行判断，根据判断结果确定上述对局数据是否为残局数据，通过采用大量不同模式的游戏日志训练第一模型，解决了第一模型的训练数据过于单一的问题，提高了第一模型预测玩家的出牌概率的准确率，进而提高了游戏残局的难度系数的准确率，根据用户模拟博弈次数以及所述第一数据组对应的博弈结果为第一结果的次数，确定所述对局数据对应的难度系数，解决了对于游戏残局中有多种解法，导致无法准确计算残局对应的难度系数的问题。

请参见图9，为本发明实施例提供了一种数据处理设备的结构示意图。如图9所示，本发明实施例的所述数据处理设备1可以包括：对局数据获取模块101、模拟博弈模块102、难度系数确定模块103、轨迹节点确定模块104、博弈轨迹信息确定模块105、残局博弈确定模块106、标准数据获取模块107、模型调整模块108、模型确定模块109、收敛条件确定模块110。

对局数据获取模块101，用于获取对局数据，所述对局数据包括第一数据组和第二数据组；所述第一数据组的博弈决策是基于第一模型所确定的，所述第二数据组的博弈决策是基于第二模型所确定的；所述第一模型采用多个用户群体之间进行用户博弈的标准对局数据训练得到；

具体的，对局数据获取模块101获取对局数据，所述对局数据包括第一数据组和第二数据组；所述第一数据组的博弈决策是基于第一模型所确定的，所述第一模型用于输出第一数据组中各种博弈决策的概率，所述第一模型可以是卷积神经网络，所述第二数据组的博弈决策是基于第二模型所确定的，所述第二模型可以是Minimax算法，Minimax算法是一种找出失败的最大可能性中的最小值的算法；所述第一模型采用多个用户群体之间进行用户博弈的标准对局数据训练得到，所述对局数据具体可以是游戏对局中的对局手牌，下面以斗地主为例进行说明，第一数据组为甲方的手牌，第二数据组为乙方的手牌，对局数据获取模块101采用卷积神经网络确定第一数据组各种牌型的出牌概率，采用Minimax算法确定第二数据组的出牌策略，所述出牌策略为第一数据组和第二数据组中的出牌牌型。

模拟博弈模块102，用于根据所述第一模型和所述第二模型，在所述第一数据组和所述第二数据组之间进行用户模拟博弈，得到第一数据组对应的博弈结果；

具体的，模拟博弈模块102根据所述第一模型和所述第二模型，在所述第一数据组和所述第二数据组之间进行用户模拟博弈，得到第一数据组对应的博弈结果，可以理解的是，所述第一数据组的博弈决策是根据第一模型确定的，所述第二数据组的博弈决策是根据第二模型所确定的，所述第一数据组和所述第二数据组进行用户模拟博弈，所述用户模拟博弈是第一数据组在针对第二数据组的博弈决策生成第一数据组的博弈决策，以及第二数据组在针对第一数据组的博弈决策生成第二数据组的博弈决策，直到所述用户模拟博弈结束，并得到第一数据组对应的博弈结果，具体的，以斗地主为例进行说明，第一数据组为甲方的手牌，第二数据组为乙方的手牌，模拟博弈模块102根据乙方的出牌策略，采用卷积神经网络确定甲方的各种牌型的出牌概率，并选择一种出牌牌型，模拟博弈模块102根据甲方的出牌策略，采用Minimax算法确定乙方的出牌牌型，直到其中甲方或者乙方将所有的牌出完，则用户模拟博弈结束，并得到第一数据组对应的博弈结果，若甲方先出完所有牌，则所述第一数据组的博弈结果为在用户模拟博弈中胜利，若乙方先出完所有牌，则所述第一数据组的博弈结果为在用户模拟博弈中失败。

请一并参见图9，本发明实施例的所述模拟博弈模块102可以包括：博弈概率确定单元1021、第一组合数据输出单元1022、第二组合数据输出单元1023、博弈结果确定单元1024。

博弈概率确定单元1021，用于采用所述第一模型确定所述第一数据组中至少一个第一组合数据对应的博弈概率；

请一并参见图9，本发明实施例的所述博弈概率确定单元1021可以包括：主博弈概率确定子单元10211、辅助博弈概率确定子单元10212、博弈概率确定子单元10213。

主博弈概率确定子单元10211，用于采用所述主模型从所述第一数据组中确定至少一个主单元数据对应的主博弈概率；所述主单元数据是在所述第一数据组中组合得到属于主数据类型的数据；

所述主博弈概率确定子单元具体用于：

辅助博弈概率确定子单元10212，用于采用所述辅助模型从所述第一数据组中确定至少一个辅助单元数据对应的辅助博弈概率；所述辅助单元数据是在所述第一数据组中组合得到属于辅助数据类型的数据；

所述辅助博弈概率确定子单元具体用于：

博弈概率确定子单元10213，用于根据所述主单元数据和所述辅助单元数据，生成所述第一组合数据，根据所述主博弈概率和所述辅助博弈概率确定所述第一组合数据对应的博弈概率。

第一组合数据输出单元1022，用于根据各第一组合数据的博弈概率从至少一个第一组合数据中输出用于用户模拟博弈的目标组合数据，将所述目标组合数据从所述第一数据组中删除；

第二组合数据输出单元1023，用于采用所述第二模型从第二数据组中输出用于与所述目标组合数据进行用户模拟博弈的第二组合数据，将所述第二组合数据从所述第二数据组中删除；

所述第二组合数据输出单元具体用于：

博弈结果确定单元1024，用于当所述第一数据组或者所述第二数据组为空集合时，确定所述第一数据组对应的博弈结果。

轨迹节点确定模块104，用于将所述第一数据组中已输出的所述目标组合数据确定为第一轨迹节点，将所述第二数据组中删除的所述第二组合数据作为第二轨迹节点；

博弈轨迹信息确定模块105，用于根据所述第一轨迹节点和所述第二轨迹节点中的数据输出时间戳，生成对局数据的目标博弈轨迹信息；

残局博弈确定模块106，用于根据所述目标博弈轨迹信息确定所述对局数据为残局数据；所述残局数据为博弈轨迹信息满足残局博弈的对局数据。

所述残局博弈确定模块具体用于：

难度系数确定模块103，用于根据用户模拟博弈次数以及所述第一数据组对应的博弈结果为第一结果的次数，确定所述对局数据对应的难度系数。

具体的，难度系数确定模块103根据用户模拟博弈次数以及所述第一数据组对应的博弈结果为第一结果的次数，确定所述对局数据对应的难度系数，可以理解的是，难度系数确定模块103根据所述第一模型和所述第二模型，在所述第一数据组和所述第二数据组之间进行多次用户模拟博弈，所述第一结果为所述第一数据组在用户模拟博弈中胜利的博弈结果，确定所述用户模拟博弈次数以及所述第一数据组对应的博弈结果为第一结果的次数，确定所述对局数据对应的难度系数，具体可以通过所述第一结果的次数在用户模拟博弈次数中的占比确定对局数据对应的难度系数。

标准数据获取模块107，用于从对局日志信息中获取标准对局数据和所述标准对局数据对应的对局属性；所述标准对局数据是多个用户群体之间进行用户博弈的对局数据；

模型调整模块108，用于根据所述标准对局数据和所述标准对局数据的对局属性，调整初始第一模型；

请一并参见图9，本发明实施例的所述模型调整模块108可以包括：执行数据组获取单元1081、初始主模型调整单元1082、执行辅助数据获取单元1083、初始辅助模型调整单元1084。

执行数据组获取单元1081，用于从所述标准对局数据中获取执行数据组，从所述标准对局数据的对局属性中获取执行数据组的对局属性；所述标准对局数据包括第一标准数据组和第二标准数据组；所述执行数据组为所述第一标准数据组和所述第二标准数据组中的任意一个；

初始主模型调整单元1082，用于基于所述执行数据组和所述执行数据组的对局属性，获取执行数据组中预测主单元数据对应的预测主博弈概率，根据所述预测主博弈概率调整初始辅助模型；

所述初始主模型调整单元具体用于：

执行辅助数据获取单元1083，用于将所述执行数据组中除样本主单元数据外的所有数据确定为执行辅助数据，从所述执行数据组的对局属性中获取执行辅助数据的对局属性；

初始辅助模型调整单元1084，用于基于所述执行辅助数据和所述执行辅助数据的对局属性，获取执行辅助数据中预测辅助单元数据对应的预测辅助博弈概率，根据所述预测辅助博弈概率调整初始辅助模型。

所述初始辅助模型调整单元具体用于：

模型确定模块109，用于当调整后的初始第一模型满足目标收敛条件时，将包含调整后的模型参数的初始第一模型确定为所述第一模型；所述第一模型用于预测第一数据组中的各第一组合数据的博弈概率。

收敛条件确定模块110，用于当所述第一概率误差小于第一误差阈值，且所述第二概率误差小于第二误差阈值时，确定调整后的初始第一模型满足所述目标收敛条件；所述调整后的初始第一模型包含调整后的初始主模型以及调整后的初始辅助模型。

请参见图10，为本发明实施例提供了一种数据处理设备的结构示意图。如图10所示，所述设备1000可以包括：至少一个处理器1001，例如CPU，至少一个网络接口1004，用户接口1003，存储器1005，至少一个通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。其中，用户接口1003可以包括显示屏(Display)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图10所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及数据处理应用程序。

在图10所示的数据处理设备1000中，网络接口1004可提供网络通讯功能，用户接口1003主要用于为用户提供输入的接口；而处理器1001可以用于调用存储器1005中存储的数据处理应用程序，以实现上述图1-图8任一个所对应实施例中对所述数据处理方法的描述，在此不再赘述。

应当理解，本发明实施例中所描述的数据处理设备1000可执行前文图1-图8任一个所对应实施例中对所述数据处理方法的描述，也可执行前文图9所对应实施例中对所述数据处理设备的描述，在此不再赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。

此外，这里需要指出的是：本发明实施例还提供了一种计算机可读存储介质，且所述计算机可读存储介质中存储有前文提及的数据处理设备所执行的计算机程序，且所述计算机程序包括程序指令，当所述处理器执行所述程序指令时，能够执行前文图1-图8任一个所对应实施例中对所述数据处理方法的描述，因此，这里将不再进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。对于本发明所涉及的计算机可读存储介质实施例中未披露的技术细节，请参照本发明方法实施例的描述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种数据处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述第一模型和所述第二模型，在所述第一数据组和所述第二数据组之间进行数据博弈，得到第一数据组对应的博弈结果，包括：

3.根据权利要求2所述的方法，其特征在于，所述第一模型包括主模型和辅助模型；

4.根据权利要求3所述的方法，其特征在于，所述采用所述主模型从所述第一数据组中确定至少一个主单元数据对应的主博弈概率，包括：

5.根据权利要求3所述的方法，其特征在于，所述采用所述辅助模型从所述第一数据组中确定至少一个辅助单元数据对应的辅助博弈概率，包括：

6.根据权利要求2所述的方法，其特征在于，所述采用所述第二模型从第二数据组中输出用于与所述目标组合数据进行用户模拟博弈的第二组合数据，将所述第二组合数据从所述第二数据组中删除，包括：

7.根据权利要求2所述的方法，其特征在于，还包括：

8.根据权利要求7所述的方法，其特征在于，所述根据所述目标博弈轨迹信息确定所述对局数据为残局数据，包括：

9.根据权利要求1所述的方法，其特征在于，所述根据用户模拟博弈次数以及所述第一数据组对应的博弈结果为第一结果的次数，确定所述对局数据对应的难度系数，包括：

10.根据权利要求2所述的方法，其特征在于，还包括：

11.根据权利要求10所述的方法，其特征在于，所述初始第一模型包括初始主模型和初始辅助模型；

12.根据权利要求11所述的方法，其特征在于，所述基于所述执行数据组和所述执行对局属性，获取执行数据组中预测组合数据的预测主单元数据对应的预测主博弈概率，根据所述预测主博弈概率调整初始辅助模型，包括：

13.一种数据处理设备，其特征在于，包括：

14.一种计算机存储介质，其特征在于，所述计算机存储介质存储有多条指令，所述指令适于由处理器加载并执行如权利要求1-12任意一项的方法步骤。

15.一种数据处理设备，其特征在于，其特征在于，包括：处理器和存储器；其中，所述存储器存储有计算机程序，所述计算机程序适于由所述处理器加载并执行如权利要求1-12任意一项的方法步骤。