CN111598234A

CN111598234A - Ai模型的训练方法、使用方法、计算机设备及存储介质

Info

Publication number: CN111598234A
Application number: CN202010404503.0A
Authority: CN
Inventors: 朱展图; 周正; 李宏亮; 张正生; 刘永升
Original assignee: Super Parameter Technology Shenzhen Co ltd
Current assignee: Super Parameter Technology Shenzhen Co ltd
Priority date: 2020-05-13
Filing date: 2020-05-13
Publication date: 2020-08-28
Anticipated expiration: 2040-05-13
Also published as: CN111598234B

Abstract

一种AI模型的训练方法、使用方法、计算机设备及存储介质，其中，所述训练方法包括：获取参与交互任务的用户对应的信息数据；从所述信息数据筛选出多个不同等级的训练数据；根据所述交互任务的任务节点和每个所述任务节点对应的动作节点，从每个等级的所述训练数据中提取对应的特征向量，其中，不同的所述任务节点以及不同的所述动作节点对应的特征向量的标签不同；将所述特征向量输入至预设神经网络进行AI模型训练，直至所述AI模型收敛得到相应等级的AI模型。该训练方法可以减少AI模型训练使用时所需求的硬件资源，并提高AI模型的准确率以及用户的体验度。

Description

AI模型的训练方法、使用方法、计算机设备及存储介质

技术领域

本申请涉及AI技术领域，尤其涉及一种AI模型的训练方法、使用方法、计算机设备及存储介质。

背景技术

人工智能(Artificial Intelligence，AI)技术自面世以来，其应用范围越来越广，比如目前已经将AI应用在双陆棋、国际跳棋、国际象棋、围棋等博弈类的应用程序中，并且达到超越人类职业选手的水平。相对于上述棋类博弈而言，扑克、桥牌、麻将等牌类对应的博弈则被认为是另一类博弈，在这些博弈类的应用程序中参与方的信息是不对称的，这类博弈被称为不完美信息博弈，对于这些不完美信息博弈类的应用程序也可以使用AI技术。但是，对于参与方的信息不对称的场景，AI模型的训练需要更多训练数据，并且需要依赖于运算量庞大的超级计算机才能完成，同时还无法保证AI模型的准确率，由此限制了AI技术在这些应用场景中的应用。

因此，有必要提供一种AI模型的训练方法，以便减少AI模型训练使用时所需求的硬件资源，并提高AI模型的准确率。

发明内容

基于此，本申请提供了一种AI模型的训练方法、AI模型的使用方法、计算机设备及存储介质，以便在计算量较小的计算机设备中也可以进行模型训练，并提高AI模型的准确率。

第一方面，本申请提供了一种AI模型的训练方法，所述方法包括：

获取参与交互任务的用户对应的信息数据；

从所述信息数据筛选出多个不同等级的训练数据；

根据所述交互任务的任务节点和每个所述任务节点对应的动作节点，从每个等级的所述训练数据中提取对应的特征向量，其中，不同的所述任务节点以及不同的所述动作节点对应的特征向量的标签不同；

将所述特征向量输入至预设神经网络进行AI模型训练，直至所述AI模型收敛得到相应等级的AI模型。

第二方面，本申请还提供了一种AI模型的使用方法，应用于服务器，所述AI模型为采用上述的训练方法进行训练得到的模型，并部署在所述服务器中；所述方法包括：

确定交互任务中AI用户所对应的任务节点以及所述任务节点对应的动作节点；

获取所述交互任务中所有用户在所述确定的任务节点以及所述任务节点对应的动作节点下的信息数据；

将所述信息数据输入至所述AI模型，以得到输出结果；

将所述输出结果发送至所述AI用户，以使所述AI用户根据所述输出结果执行对应的动作。

第三方面，本申请还提供了一种计算机设备，所述计算机设备包括：存储器和处理器；

所述存储器用于存储计算机程序；

所述处理器，用于执行所述计算机程序并在执行所述计算机程序时，实现本申请的实施例提供的任一项所述AI模型的训练方法的步骤。

此外，本申请还提供了另一种计算机设备，所述计算机设备包括：存储器和处理器；

所述存储器用于存储计算机程序；

所述处理器，用于执行所述计算机程序并在执行所述计算机程序时，实现本申请的实施例提供的任一项所述AI模型的使用方法的步骤。

第四方面，本申请还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时使所述处理器实现本申请实施例提供的任一项所述的AI模型的训练方法，或者，实现本申请实施例提供的任一项所述的AI模型的使用方法。

本申请实施例提供的一种AI模型的训练方法、AI模型的使用方法、计算机设备及存储介质，可以提高AI模型的准确率，同时该AI模型的训练对运算资源需求量较小，能够更好地在线服务大量用户，进而提高了用户的体验度。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

为了更清楚地说明本申请实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请的实施例提供的一种AI模型的训练使用的实施场景示意图；

图2是本申请的实施例提供的另一种AI模型的训练使用的实施场景示意图；

图3是本申请的实施例提供的一种AI模型的训练方法的步骤示意流程图；

图4是本申请的实施例提供的大盲筹码的盈亏效果示意图；

图5是本申请的实施例提供的筛选不同等级的训练数据的过程示意图；

图6是本申请的实施例提供的另一种AI模型的训练方法的步骤示意流程图；

图7是本申请的实施例提供的预设的神经网络的结构示意图；

图8是本申请的实施例提供的一种AI模型的使用方法的步骤示意流程图；

图9是本申请的实施例提供的AI模型训练使用部署的示意图；

图10是本申请的实施例提供的一种计算机设备的示意框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

还应当理解，在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

附图中所示的流程图仅是示例说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解、组合或部分合并，因此实际执行的顺序有可能根据实际情况改变。

目前，已经将AI应用在双陆棋、国际跳棋、国际象棋、围棋等博弈类的应用程序中，并且达到超越人类职业选手的水平。相对于上述棋类博弈而言，扑克、桥牌、麻将等牌类对应的博弈则被认为是另一类博弈，在这些博弈类的应用程序中参与方的信息是不对称的，这类博弈被称为不完美信息博弈，对于这些不完美信息博弈类也可以使用AI技术。

但是，发明人发现对于参与方的信息不对称的场景，AI模型的训练需要更多训练数据，并且需要依赖于运算量庞大的超级计算机才能完成，同时还无法保证AI模型的准确率，由此限制了AI技术在这些应用场景中的应用。

因此，对于信息不对称的场景，比如不完美信息博弈类场景，如何进行AI模型训练，以确保AI模型的训练速度和效果，成为了本领域技术人员亟待解决的一个问题。

为此，本申请实施例提供一种AI模型的训练方法、AI模型的使用方法、计算机设备和存储介质，以解决上述问题。

在对本申请实施例进行详细介绍之前，先对本申请实施例涉及到的一些名词进行解释说明。由于在本申请实施例中将以AI模型应用在游戏场景为例进行介绍，因此还对涉及到游戏名词进行解释说明。

需要说明的是，本申请实施例提供的AI模型并不局限于游戏场景，可以适合其他信息不对称的场景。

人工智能(Artificial Intelligence，AI)：AI是目前研究和开发用于模拟、延伸以及扩展人类智能的一门新兴科学技术。时下AI技术已被广泛应用于多种场景下，比如游戏场景便是其中一种。

终端：指代应用程序(游戏APP)运行的移动终端设备。示例性的，可例如为智能手机、平板电脑、手提电脑或者是台式电脑等。

AI模型：对于游戏场景来说，智能模拟的重点便是训练算法模型，在本申请中称之为AI模型。示例性的，AI模型在本申请中为深度神经网络。

深度神经网络(Deep Neural Networks，DNN)：DNN是深度学习的基础，而深度学习的概念源于人工神经网络，深度学习是机器学习中一种基于对数据进行表征学习的方法。深度学习是机器学习研究中的一个新领域，其动机在于建立、模拟人脑进行分析学习的神经网络。

监督学习(Supervised Learning，SL)：SL是从标记的训练数据来推断一个功能的机器学习任务。在监督学习中，每个实例都是由一个输入对象和一个期望的输出值组成。监督学习算法是分析该训练数据，并产生一个推断的功能，其可以用于映射出新的实例。一个最佳的方案将允许该算法来正确地决定那些看不见的实例的类标签。

玩家：在本申请实施例中也称之为用户，其中玩家也可称为游戏者、参与者、棋手或者牌手，是一种游戏业界与游戏参与者之间的术语。广义上讲，玩家泛指玩游戏的用户，即参与任何形式游戏的人。

交互任务：在本申请实施例中，交互任务是对任何类型游戏或者是由多人通过终端设备配合完成的事件的统称。

AI用户：在棋牌类游戏中，游戏应用程序中虚拟用户，该虚拟用户由AI模型控制，用于与玩家一起完成交互任务。

接下来，对本申请实施例提供的一种AI模型训练及使用方法所涉及的实施环境进行介绍说明。

请参阅图1，图1是本申请实施例提供的一种AI模型训练使用的实施场景示意图。该实施场景包括第一服务器11、第二服务器12和终端20。第一服务器11、第二服务器12和终端20之间通过网络连接。

其中，第一服务器11用于训练AI模型，第二服务器12和终端20用于实施该AI模型。示例性的，比如终端20中安装有德州扑克的APP，第二服务器12安装有德州扑克对应的服务端，用户可以通过终端20与第二服务器12的交互，实现与其他玩家对局，其中其他玩家可以包括一个或者多个AI用户。

在一些实施例中，请参阅图2，图2是本申请实施例提供的另一种AI模型训练使用的实施场景示意图，该实施场景相对于图1中的场景还包括第三服务器13，第三服务器13用于部署AI模型。

具体地，在第一服务器11训练好AI模型后，将该训练好的AI模型部署在第三服务器13中，第三服务器13通过该AI模型实现与第二服务器12的服务端的交互。比如，获取游戏的当前状态对应的各个用户的信息数据，将该信息数据输入至AI模型得到打牌指令，并将打牌指令发送至第二服务器12，由终端20根据打牌指令实现打牌动作。

需要说明的是，第一服务器11和第二服务器12，可以用独立的服务器或者是多个服务器组成的服务器集群来实现。其中，第二服务器12和第三服务器13可以是独立的两个服务器，也可以是属于同一个服务器中的两个不同的服务模块。

以下，将结合图1、图2的实施场景对本申请的实施例提供的AI模型的训练和使用方法进行详细介绍。并且以该AI模型应用在德州扑克的场景为例进行介绍，当然也可以用在其他信息不对称的场景，在本申请的实施例中不进行限定。

德州扑克(Texas hold'em)，简称德扑，是世界上最流行的公牌扑克衍生博弈，也是国际扑克比赛的正式竞赛项目之一。世界扑克大赛(World Series of Poker，WSOP)和世界扑克巡回赛(WorldPoker Tour，WPT)的主赛事(Main Event)项目即是“无限注德州扑克”。如同大多数扑克衍生博弈一样，德州扑克的目标是赢取彩池(pot，所有牌手于该局已下注筹码的总和)中的彩金，要赢得彩池中的彩金有两种方式：1、在斗牌时，手牌与公牌可组成的牌型大或等于其他所有未盖牌牌手；2、透过下注逼迫所有其他牌手盖牌退出牌局，放弃赢取彩金的机会。德州扑克不像一般的换牌扑克可以弃牌并换牌，牌手的手牌是固定不变的，只能透过自己的下注影响其他牌手，并透过观察其他牌手的下注来推测可能的手牌。对牌手来说，对局目标不应是赢取单局彩金，而是基于数学(几率论)及心理学上做出正确的决定。

目前，应用在德州扑克的AI有Libratus人工智能系统和DeepStack人工智能系统，这些人工智能系统仅能在一对一模式下达到了人类水平。DeepStack的训练使用了175个核心年(core years)，相当于运行一个处理单元150年或运行几百台计算机设备几个月，因此训练时间较长且对计算机设备的计算能力要求较高。而Libratus在比赛之前和比赛过程中都使用了一台超级计算机，相当于大约2900个核心年(core years)。尽管在1对1有限注模式下Libratus和DeepStack能够到达人类水平，但并不能应用于多人德州扑克之中，并且系统只针对1对1有限注模式德州扑克，无法进行方便的拓展应用。

请参阅图3，图3是本申请实施例提供的一种AI模型的训练方法的步骤示意流程图。该AI模型的训练方法可以应用在图1和图2中第一服务器中，该AI模型的训练方法可以在较小运算量的计算机设备中进行模型训练，并提高模型的准确率。

如图3所示，该AI模型的训练方法包括步骤S101至步骤S104。

S101、获取参与交互任务的用户对应的信息数据。

其中，该信息数据包括参与交互任务的每个用户在该交互任务中不同的任务节点，以及每个任务节点对应的不同的动作节点产生的数据，具体为每个任务节点对应的各个用户的动作节点产生的数据。在获取到用户参与该交互任务产生的数据后，根据不同的任务节点和动作节点对该数据进行切分，得到参与交互任务的用户对应的信息数据。通过根据任务节点和动作节点对数据进行切分，可以提高AI模型的训练速度以及准确度。

示例性的，以德州扑克为例，以每轮(preflop、flop、turn、river四个轮次)各个位置用户的动作(fold、check、raise、call、all-in五个动作)节点进行切分，使用特定轮次特定位置能够观测到的数据作为训练样本，用户执行的动作和具体跟进的筹码数作为标签，训练神经网络模型。其中，每轮为任务节点，各个位置用户的动作为动作节点。具体地，切分的节点为每个轮次每个用户采取的动作，该节点该用户观察到的数据，执行的动作作为标签，用于AI的训练，需要说明的是，在德州扑克中共4个轮次，每个轮次轮流由在场用户选择5个动作之一执行，因此，观测的数据中不包含用户在某一个节点展开各种动作对应的数据。

在一些实施例中，所述信息数据包括单局信息数据和局间信息数据。

其中，所述单局信息数据包括全局信息数据和当前用户信息数据，所述局间信息数据包括参与所述交互任务的多个用户的历史信息数据。

具体地，单局信息数据是指某一局涉及的信息数据，比如为第20局涉及的信息数据。局间信息数据为以此局为基准往前数预设场数的局涉及的信息数据，比如以第20局开始(包括第20局)记录该第20场之前的10场历史牌局中单局信息中的所有用户信息的历史行为和历史下注等等，即预设场数的数量为10局。

在一些实施例中，对预设场数的数量不做限定，可以根据数据大小(局数)以及训练使用的计算机设备的运算能力进行设定。

在一些实施例中，为了提高AI的准确性。对于不够预设场数的数据进行补零处理，比如对于不满10场的数据使用0填充；相应地，对于超过预设场数的进行舍弃处理，比如对于超过10场的数据则舍弃。

示例性的，在德州扑克中，全局信息数据包括本局用户(玩家)数量、已经all-in的用户、剩余用户、底池数目、五张公共牌的信息以及当前轮次信息等。当前用户信息数据包括用户筹码数、两张手牌数、公共牌和该用户两张手牌已经组合以及可能组合的牌型、公共牌和其他用户已经组合以及可能组合的牌型、有效行为、有效下注、该用户相对小盲位置、总共下的筹码数目、该用户的历史行为以及历史下注等。历史信息数据则包括每个用户的筹码数、相对小盲的位置、总共下的筹码数目、用户历史行为以及历史下注等。具体如表1所示。

表1

由此，可以根据表1实现从对局状态到输入神经网络模型的特征向量的转换，转换后得到的特征向量作为训练样本，可以提高神经网络模型的训练速度以及准确率。

需要说明的是，表1中的全局信息数据、当前用户信息数据以及历史信息数据还可以包括更多或更少的特征数据(对应表1中信息含义)，在此不做限定。

S102、从所述信息数据筛选出多个不同等级的训练数据。

其中，不同等级用于表示参与交互任务的用户的水平高低。比如，在参与德州扑克的真实数据中，存在着水平不一的用户，如果简单地使用整体数据进行AI模型训练，得到的神经网络模型(AI模型)水平会接近真实用户的平均水平。该神经网络模型对于不同的应用场景过于单一，容易造成AI模型的水平与应用场景中用户的水平差距过大，进而导致用户体验的落差。因此，需要使用不同水平数据进行不同水平神经网络模型的训练。

在一些实施例中，为了提高AI模型的准确性。在对信息数据进行筛选之前，还可以剔除一些异常数据，并将剔除异常数据后的信息数据保存在数据库中。比如剔除胜率过低或者过高的用户的信息数据，以提高模型训练的样本数据的合理性，进而提高模型的准确性。

示例性的，用户胜率和大盲筹码盈亏的分布，如图4所示。其中，X轴表示用户胜率，Y轴表示大盲筹码盈亏。对于大盲盈利过低(比如盈利低于-20的用户)的用户的信息数据，认为其决策较大可能带来负收益，不参与神经网络模型的训练；对于大盲盈利过高(比如盈利高于20的用户)或者胜率过高(比如胜率大于0.5的用户)的用户的信息数据，可能使用了一些通常手段外的方式获胜(如外挂，多人共通情报等)，也不参与神经网络模型的训练。

在一些实施例中，从所述信息数据筛选出多个不同等级的训练数据，具体为：获取用于评价用户的水平能力的评价参数；根据所述评价参数，对所述信息数据进行分类，得到多个不同等级的训练数据。

对于不同等级的划分，在德州扑克中一般使用大盲(big blind)筹码大小进行衡量，高手场的大盲筹码越大，代表本局盈亏的幅度越大。但是单纯地使用大盲筹码大小定义用户水平并不合理，容易受用户风格、用户总筹码数等因素影响。由于德州扑克核心并不在于胜率的多少，而在于盈亏的多少，因此在本申请中使用用户历史大盲盈利(即每场盈亏筹码除以该场大盲筹码数量)来定义用户水平，该用户历史大盲盈利即为评价参数。

示例性的，可以将用户的等级水平划分三个等级，分别为等级Ⅰ、等级Ⅱ和等级Ⅲ，其中等级Ⅰ表示为低水平，等级Ⅱ表示为平均水平，等级Ⅲ表示为高水平，不同的等级对应的平均参数不同，评价参数用平均盈利U表示，平均盈利为单局盈利的平均值，单局盈利为每场盈亏筹码除以该场大盲筹码数量。

具体地，比如等级Ⅰ对应的平均盈利为：U＜-1，等级Ⅱ对应的平均盈利为：1-≤U≤1，等级Ⅲ对应的平均盈利为：U＞1。具体的筛选过程如图5所示，从数据库中读取保存的信息数据，根据用户的平均盈利将每个用户对应的信息数据划分到不同等级的训练数据。

在一些实施例中，为了进一步地提高AI模型的准确性。在从所述信息数据筛选出多个不同等级的训练数据之前，还可以对所述信息数据进行异常数据筛选，得到筛选后的信息数据。其中，所述异常数据包括中途掉线数据、中途离场数据和操作错误数据等。

具体地，由于多人德州扑克对局的数据中，可能存在中途掉线、中途离场、轮次错误、筹码记录错误、用户次序记录错误等异常情况，并记录在用户的信息数据中，这些异常数据会影响模型训练，比如影响模型训练的收敛，由此可以检测到到这些异常数据，将这些异常数据剔除。由于这些异常数据通常与正常数据分布差异较大，容易影响神经网络模型训练的收敛，因此还可以提高AI模型的训练速度。

需要说明的是，为了保证AI模型训练时有足够的训练数据，以提高AI模型的准确性。在异常数据剔除时，只剔除该用户在某个任务节点或者不同任务节点对应的动作节点的数据，并删除该用户的信息数据。

S103、根据所述交互任务的任务节点和每个所述任务节点对应的动作节点，从每个等级的所述训练数据中提取对应的特征向量。

在得到不同等级的训练数据后，针对每个等级的训练数据，根据所述交互任务的任务节点和每个所述任务节点对应的动作节点，从每个等级的所述训练数据中提取对应的特征向量。具体参照表1，表1为向神经网络模型输入特征向量的具体含义。

其中，不同的所述任务节点以及不同的所述动作节点对应的特征向量的标签不同。即可以实现使用特定轮次特定位置能够观测到的数据作为训练样本，用户执行的动作和具体跟进的筹码数作为标签，来训练神经网络模型，以提高模型的准确性，并提高用户的体验度。

示例性的，以德州扑克为例，对于动作为fold(盖牌)、check(过牌)、call(跟注)、all-in的数据，标签为对应动作；对于动作为raise(加注)且轮次为preflop和flop的数据，标签为对应动作和大盲筹码加注额；对于动作为raise且轮次为turn和river的数据，标签为对应动作和底池筹码加注额。

S104、将所述特征向量输入至预设神经网络进行AI模型训练，直至所述AI模型收敛得到相应等级的AI模型。

将每个等级的所述训练数据对应的所述特征向量分别输入至预设神经网络进行AI模型训练，直至所述AI模型收敛，得到不同等级的AI模型。比如得到等级Ⅰ的AI模型、等级Ⅱ的AI模型和等级Ⅲ的AI模型。

在确定AI模型收敛的过程中，所述模型训练的损失函数采用交叉熵，利用交叉熵来确定该AI模型是否收敛。

在一些实施例中，预设神经网络采用包括全连接层网络，该全连接层网络包括第一子神经网络、第二子神经网络和第三子神经网络，其中，所述第一子神经网络、第二子神经网络和第三子神经网络为2层全连接层。通过预设神经网络的网络架构设计，可以进一步地提高模型的训练速度，以及提高模型的准确率。

相应地，如图6所示，所述将所述特征向量输入至预设神经网络进行AI模型训练，具体包括以下步骤：

S104a、对所述全局信息数据和所述当前用户信息数据对应的特征向量进行融合处理，得到第一特征向量；

S104b、将所述第一特征向量输入至预设神经网络的第一子神经网络，得到第一输出量；

S104c、将多个用户的历史信息数据对应的特征向量输入至所述预设神经网络的第二子神经网络得到多个特征输出量，以及将多个所述特征输出量进行融合处理得到第二输出量；

S104d、将所述第一输出量和第二输出量进行融合后输入至所述预设神经网络的第三子神经网络，得到输出结果。

具体地，请结合图7，该AI模型训练过程主要包括局内信息编码和局间信息编码。其中，局内信息编码是将所述全局信息数据和所述当前用户信息数据对应的特征向量进行融合处理(Concat)，将融合处理的特征向量作为第一特征向量输入至第一子神经网络，得到第一输出量；局间信息编码是将历史信息数据(包括多个用户)对应的特征向量输入至第二子神经网络，得到多个特征输出量，每个特征输出量与每个用户相对应，在对每个用户对应的特征输出量进行融合处理(Concat)，得到第二输出量。在得到第一输出量和第二输出量后，将第一输出量和第二输出量进行融合处理(Concat)后，得到融合输出量，并将该融合输出量输入至第三子神经网络，得到输出结果。

在本申请的实施例中，第三子神经网络的输出结果包括三个输出结果，分别为输出1、输出2和输出3，其中，输出1为“应该采取的动作的概率”，输出2为“以大盲筹码下注的区间”，输出3为“以底池大小下注的区间”。以便用户或者AI用户根据输出确定执行的动作。

具体地，如图7所示，三个输出结果为三个Softmax输出，分别对应当前轮次当前位置用户应该采取的动作、以大盲筹码下注的区间、以底池大小下注的区间。当采取的动作为fold(盖牌)、check(过牌)、call(跟注)、all-in时，只需要由第一个softmax，即当前轮次当前位置用户应该采取的动作决定；当采取的动作为raise(加注)时，如果当前轮次为preflop、flop，则假设当前底池较小，使用第2个softmax，即以大盲筹码下注的区间来决定加注的筹码数，如果当前轮次为turn、river，则假设当前底池较大，需要使用第3个softmax，即以底池大小下注的区间来决定加注的筹码数。

可选地，第二子神经网络还可以使用残差网络或长短期记忆网络。使用残差网络或长短期记忆网络可以进一步地提高AI模型的准确率。

目前，AI模型在游戏中通常是扮演新手入门陪练的角色，这是因为对于高水平的真实用户来说，AI模型固定的行动规则容易被当作漏洞被利用。而AI模型作为一种计算机算法，面对确定的输入，总会产生相同的确定的输出结果，这就容易导致在高端对局中，AI模型被高水平的真实用户识破并进行利用。

为此，在所述将所述特征向量输入至预设神经网络进行AI模型训练，直至所述AI模型收敛得到AI模型，还可以包括：随机确定所述交互任务的风格模式；在确定的风格模式下，获取不同任务节点、不同动作节点和不同任务条件的组合方式对应的预设数值；根据所述预设数值确定所述AI模型的输出值。通过设置风格模式，避免AI模型被高水平的真实用户识破并进行利用。

示例性的，还以德州扑克为例，激进的真实用户容易在手牌胜率较低的情况下依然进行跟注或者加注行为，而相对保守的真实用户通常只在手牌相对有利的情况下进场。以此，在本申请的AI模型中引入保守、激进、原始等三种风格模式，三种风格模式的随机变化，由此可以避免AI模型被高水平的真实用户识破并进行利用。

具体地，在原始风格中，仅对神经网络模型的输出进行是否有效的判定后，就进行对局中的操作；而切换为激进风格后，当手牌和公共牌已存在或者可能存在牌型组合时、或者神经网络模型输出动作为check时、或剩余筹码不多等情况，增加AI进行加注或者all-in的概率；在切换为保守风格时，AI根据GTO(Game Theory Optimal)规则统计的真实用户各种私有牌情况下的弃牌概率，只会在弃牌概率较低的情况进场，且对于牌型竞争力小的状况会降低加注或者all-in的概率。具体的后处理条件和概率变化如表2所示。

表2

在表2中，保守风格中的“轮次”、“输出动作”和“任务条件”下的“—”表示不进行限制，即仅对神经网络模型的输出进行是否有效的判定后，就进行对局中的操作。表2中倍数即为所述预设数值。

需要说明的是，该AI模型引入保守、激进、原始等三种风格模式的随机变化，可以在AI模型的训练完成后引入，也可以在该AI模型的使用过程中引入。以及保守、激进、原始对应的预设数值(变化倍数)可以根据实际应用进行设定，在此不做限定。

上述实施例提供的AI模型的训练方法，通过从所述信息数据筛选出多个不同等级的训练数据；根据所述交互任务的任务节点和每个所述任务节点对应的动作节点，从每个等级的所述训练数据中提取对应的特征向量，进行模型训练。可以提高AI模型的准确率，同时还可以降低对运算资源要求，能够更好地在线服务大量用户，进而提高了用户的体验度。

请参阅图8，图8是本申请实施例提供的一种AI模型的使用方法的步骤示意流程图。该AI模型为采用上述实施例提供的任意一种AI模型训练方法进行模型训练得到的。

在AI模型训练完成后，可以将该AI模型部署在AI服务器中，该AI模型对应AI用户，该AI用户可用于与真实用户完成交互任务。

如图8所示，该AI模型的使用方法包括步骤S201至步骤S204。

S201、确定交互任务中AI用户所对应的任务节点以及所述任务节点对应的动作节点；

S202、获取所述交互任务中所有用户在所述确定的任务节点以及所述任务节点对应的动作节点下的信息数据；

S203、将所述信息数据输入至所述AI模型，以得到输出结果；

S204、将所述输出结果发送至所述AI用户，以使所述AI用户根据所述输出结果执行对应的动作。

其中，AI用户可以为虚拟玩家，该虚拟玩家由所述AI模型控制，具体地，先确定该虚拟玩家在交互任务中所对应的任务节点以及所述任务节点对应的动作节点，再获取所述交互任务中所有用户在所述确定的任务节点以及所述任务节点对应的动作节点下的信息数据。

比如，应用于德州扑克的AI用户，与该AI用户对局的玩家还包括4个真实用户。假如确定AI用户在当前局中在river轮(任务节点)中的fold动作(动作节点)，则获取AI用户和4个真实用户在river轮(任务节点)中的fold动作(动作节点)下的信息数据。

其中，该信息数据至少包括单局信息数据。在一些实施例中，该信息数据可以单局信息数据和局间信息数据。

将该信息数据输入至所述AI模型进行预测，以得到输出结果，并将所述输出结果发送至所述AI用户，以使所述AI用户根据所述输出结果执行对应的动作，比如执行All-in动作。

在一些实施例中，为了提高用户的体验度。该AI模型的使用方法还可以包括：监控参与所述交互任务的真实用户对应的信息数据；根据所述信息数据确定所述参与所述交互任务的真实用户是否满足AI切换条件，所述AI切换条件用于引入AI用户，所述AI用户对应所述AI模型；若所述参与所述交互任务的真实用户满足所述AI切换条件，则引入AI用户参与所述交互任务；若所述参与所述交互任务的真实用户不满足所述AI切换条件，则不引入AI用户参与所述交互任务。

通过该AI切换条件，可以在合适的时机引用AI模型与真实用户对局，由此提高了真实用户的体验度。

在一些实施例中，不同的AI切换条件适用于不同的应用场景，由此提高用户的体验度。示例性的，该应用场景可例如为“温暖局”、“掉线托管”、“人机挑战”、“新手教学”和“快速匹配”等场景。

温暖局：对于多场对局中出现连败的真实用户，可以引入水平相对较低的AI模型对应的AI用户来进行对局，从而温暖用户，比如引入等级Ⅰ的AI模型。对于温暖局的AI切换条件，比如可以设置为连续输5场，则确定该真实用户满足AI切换条件，则引入AI用户与其对局。

掉线托管：当真实用户掉线时，通过接入一个水平相当的AI用户来继续该局对局，避免对局突然中断而影响用户体验。具体地，当监测到真实用户掉线时，则确定该真实用户满足AI切换条件，引入AI用户代替该真实用户继续对局。

人机挑战：对于高水平的真实用户，可以加入高水平的AI用户让该真实用户去挑战，增加活跃度。具体地，可以通过该真实用户的信息数据确定该真实用户的用户历史大盲盈利，再通过用户历史大盲盈利确定该真实用户的游戏水平，并且在该真实用户的游戏水平达到一定程度时，确定该真实用户满足AI切换条件，引入一个高水平的AI用户与该真实用户对局。

新手教学：对于新手用户，可以通过AI模型来进行教学讲解。具体地，在确定该真实用户是新注册的用户时，则确定该真实用户满足AI切换条件，进而引入AI用户进行教学。

快速匹配：当匹配不到合适的真实用户时，加入AI用户实现快速匹配。具体地，比如当某些用户想玩6人场，但是当前真实用户的数量不够时，则确定满足AI切换条件，引入AI用户进行对局，进而实现快速匹配。

在一些实施例中，为了进一步地提高用户的体验度。所述引入AI用户参与所述交互任务，具体为：根据满足所述AI切换条件对应的真实用户的信息数据，确定所述真实用户的等级水平；引入与所述真实用户的等级水平相匹配的AI用户，参与所述交互任务。比如“掉线托管”、“人机挑战”等应用场景。

请参阅图9，图9是本申请实施例提供的AI模型的训练使用部署的示意图。主要包括离线训练和在线部署，离线训练用于训练AI模型，在线部署用于部署该AI模型。

如图9所示，离线训练主要包括数据采集、特征向量转换和模型训练。其中，数据采集主要是为了得到多个不同等级的训练数据，即对应步骤S101和步骤S102；特征向量转换主要为了得到特征向量，即对应步骤S103；模型训练主要是为了得到AI模型，即对应步骤S104。

如图9所示，在线部署主要包括模型部署和多风格处理。其中，模型部署是为了将AI模型部署在AI服务器中，用于与前端服务器交互，该前端服务器可以例如为德州扑克的服务器。在部署AI模型后，AI服务器可以获取前端服务器的游戏状态(即参与游戏的用户的信息数据)，根据该游戏状态确定打牌指令，并将该打牌指令发送给前端服务器。

其中，多风格处理主要是为防止在高端对局中，AI模型被高水平的真实用户识破并进行利用。示例性的，该多风格包括“保守风格”、“激进”、“原始风格”等，当然还以设置更多的风格模式，在此不做限定。

具体地，可以随机确定所述交互任务的风格模式；在确定的风格模式下，获取不同任务节点、不同动作节点和不同任务条件的组合方式对应的预设数值；根据所述预设数值确定所述AI模型的输出值。

示例性的，还以德州扑克为例，激进的真实用户容易在手牌胜率较低的情况下依然进行跟注或者加注行为，而相对保守的真实用户通常只在手牌相对有利的情况下进场。

以此，本AI模型引入保守、激进、原始等三种风格模式的随机变化。在原始风格中，仅对神经网络模型的输出进行是否有效的判定后，就进行对局中的操作；而切换为激进风格后，当手牌和公共牌已存在或者可能存在牌型组合时、或者神经网络模型输出动作为check时、或剩余筹码不多等情况，增加AI进行加注或者all-in的概率；在切换为保守风格时，AI根据GTO(Game Theory Optimal)规则统计的真实用户各种私有牌情况下的弃牌概率，只会在弃牌概率较低的情况进场，且对于牌型竞争力小的状况会降低加注或者all-in的概率。

请参阅图10，图10是本申请实施例提供的一种计算机设备的示意性框图。该计算机设备可以包括服务器。

如图10所示，该计算机设备300包括处理器301和存储器302，处理器301和存储器302通过总线连接，该总线比如为I2C(Inter-integrated Circuit)总线。

具体地，处理器301可以是微控制单元(Micro-controller Unit，MCU)、中央处理单元(Central Processing Unit，CPU)或数字信号处理器(Digital Signal Processor，DSP)等。

具体地，存储器302可以是Flash芯片、只读存储器(ROM，Read-Only Memory)磁盘、光盘、U盘或移动硬盘等。

其中，所述处理器用于运行存储在存储器中的计算机程序，并在执行所述计算机程序时，实现本申请实施例提供的任意一种所述的AI模型的训练方法，或者，实现本申请实施例提供的任意一种所述的AI模型的使用方法。

示例性的，所述处理器用于运行存储在存储器中的计算机程序，并在执行所述计算机程序时实现如下步骤：

获取参与交互任务的用户对应的信息数据；从所述信息数据筛选出多个不同等级的训练数据；根据所述交互任务的任务节点和每个所述任务节点对应的动作节点，从每个等级的所述训练数据中提取对应的特征向量，其中，不同的所述任务节点以及不同的所述动作节点对应的特征向量的标签不同；将所述特征向量输入至预设神经网络进行AI模型训练，直至所述AI模型收敛得到相应等级的AI模型。

在一些实施例中，所述信息数据包括单局信息数据和局间信息数据，所述单局信息数据包括全局信息数据和当前用户信息数据，所述局间信息数据包括参与所述交互任务的多个用户的历史信息数据。

在一些实施例中，所述将所述特征向量输入至预设神经网络进行AI模型训练，包括：

对所述全局信息数据和所述当前用户信息数据对应的特征向量进行融合处理，得到第一特征向量；将所述第一特征向量输入至预设神经网络的第一子神经网络，得到第一输出量；将多个用户的历史信息数据对应的特征向量输入至所述预设神经网络的第二子神经网络得到多个特征输出量，以及将多个所述特征输出量进行融合处理得到第二输出量；将所述第一输出量和第二输出量进行融合后输入至所述预设神经网络的第三子神经网络，得到输出结果。

在一些实施例中，所述第一子神经网络、第二子神经网络和第三子神经网络为2层全连接层。

在一些实施例中，所述第二子神经网络包括残差网络或长短期记忆网络。

在一些实施例中，所述从所述信息数据筛选出多个不同等级的训练数据之前，所述处理器还实现：

对所述信息数据进行异常数据筛选，得到筛选后的信息数据，其中，所述异常数据包括中途掉线数据、中途离场数据和操作错误数据；

相应地，所述从所述信息数据筛选出多个不同等级的训练数据，包括：从所述筛选后的信息数据筛选出多个不同等级的训练数据。

在一些实施例中，所述从所述信息数据筛选出多个不同等级的训练数据，包括：

获取用于评价用户的水平能力的评价参数；根据所述评价参数，对所述信息数据进行分类，得到多个不同等级的训练数据。

在一些实施例中，所述将所述特征向量输入至预设神经网络进行AI模型训练，直至所述AI模型收敛得到AI模型，包括：

随机确定所述交互任务的风格模式；在确定的风格模式下，获取不同任务节点、不同动作节点和不同任务条件的组合方式对应的预设数值；根据所述预设数值确定所述AI模型的输出值。

在一些实施例中，所述模型训练的损失函数采用交叉熵。

确定交互任务中AI用户所对应的任务节点以及所述任务节点对应的动作节点；获取所述交互任务中所有用户在所述确定的任务节点以及所述任务节点对应的动作节点下的信息数据；将所述信息数据输入至所述AI模型，以得到输出结果；将所述输出结果发送至所述AI用户，以使所述AI用户根据所述输出结果执行对应的动作。

在一些实施例中，所述处理器还实现：

监控参与所述交互任务的真实用户对应的信息数据；根据所述信息数据确定所述参与所述交互任务的真实用户是否满足AI切换条件，所述AI切换条件用于引入AI用户，所述AI用户对应所述AI模型；若所述参与所述交互任务的真实用户满足所述AI切换条件，则引入AI用户参与所述交互任务。

在一些实施例中，所述引入AI用户参与所述交互任务，包括：

根据满足所述AI切换条件对应的真实用户的信息数据，确定所述真实用户的等级水平；引入与所述真实用户的等级水平相匹配的AI用户，参与所述交互任务。

本申请的实施例中还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序中包括程序指令，所述处理器执行所述程序指令，实现上述实施例提供的任一种所述的AI模型的训练方法的步骤，或者实现上述实施例提供的任一种所述的AI模型的使用方法的步骤。

其中，所述计算机可读存储介质可以是前述任一实施例所述的计算机设备的内部存储单元，例如所述计算机设备的存储器或内存。所述计算机可读存储介质也可以是所述计算机设备的外部存储设备，例如所述计算机设备上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种AI模型的训练方法，其特征在于，所述方法包括：

获取参与交互任务的用户对应的信息数据；

从所述信息数据筛选出多个不同等级的训练数据；

2.根据权利要求1所述的方法，其特征在于，所述信息数据包括单局信息数据和局间信息数据，所述单局信息数据包括全局信息数据和当前用户信息数据，所述局间信息数据包括参与所述交互任务的多个用户的历史信息数据；

所述将所述特征向量输入至预设神经网络进行AI模型训练，包括：

对所述全局信息数据和所述当前用户信息数据对应的特征向量进行融合处理，得到第一特征向量；

将所述第一特征向量输入至预设神经网络的第一子神经网络，得到第一输出量；

将多个用户的历史信息数据对应的特征向量输入至所述预设神经网络的第二子神经网络得到多个特征输出量，以及将多个所述特征输出量进行融合处理得到第二输出量；

将所述第一输出量和第二输出量进行融合后输入至所述预设神经网络的第三子神经网络，得到输出结果。

3.根据权利要求2所述的方法，其特征在于，所述第一子神经网络、第二子神经网络和第三子神经网络为2层全连接层；

或者，所述第二子神经网络包括残差网络或长短期记忆网络。

4.根据权利要求1所述的方法，其特征在于，所述从所述信息数据筛选出多个不同等级的训练数据之前，包括：

所述从所述信息数据筛选出多个不同等级的训练数据，包括：从所述筛选后的信息数据筛选出多个不同等级的训练数据。

5.根据权利要求1所述的方法，其特征在于，所述从所述信息数据筛选出多个不同等级的训练数据，包括：

获取用于评价用户的水平能力的评价参数；

根据所述评价参数，对所述信息数据进行分类，得到多个不同等级的训练数据。

6.根据权利要求1所述的方法，其特征在于，所述将所述特征向量输入至预设神经网络进行AI模型训练，直至所述AI模型收敛得到AI模型，包括：

随机确定所述交互任务的风格模式；

在确定的风格模式下，获取不同任务节点、不同动作节点和不同任务条件的组合方式对应的预设数值；

根据所述预设数值确定所述AI模型的输出值。

7.根据权利要求1所述的方法，其特征在于，所述模型训练的损失函数采用交叉熵。

8.一种AI模型的使用方法，其特征在于，应用于服务器，所述AI模型为采用权利要求1至7任一项所述的训练方法进行训练得到的模型，并部署在所述服务器中；所述方法包括：

将所述信息数据输入至所述AI模型，以得到输出结果；

9.根据权利要求8所述的方法，其特征在于，所述方法还包括：

监控参与所述交互任务的真实用户对应的信息数据；

根据所述信息数据确定所述参与所述交互任务的真实用户是否满足AI切换条件，所述AI切换条件用于引入AI用户，所述AI用户对应所述AI模型；

若所述参与所述交互任务的真实用户满足所述AI切换条件，则引入AI用户参与所述交互任务。

10.根据权利要求9所述的方法，其特征在于，所述引入AI用户参与所述交互任务，包括：

根据满足所述AI切换条件对应的真实用户的信息数据，确定所述真实用户的等级水平；

引入与所述真实用户的等级水平相匹配的AI用户，参与所述交互任务。

11.一种计算机设备，其特征在于，所述计算机设备包括存储器和处理器；

所述存储器用于存储计算机程序；

所述处理器，用于执行所述计算机程序并在执行所述计算机程序时，实现如权利要求1至7任一项所述的AI模型的训练方法。

12.一种计算机设备，其特征在于，所述计算机设备包括存储器和处理器；

所述存储器用于存储计算机程序；

所述处理器，用于执行所述计算机程序并在执行所述计算机程序时，实现如权利要求8至10任一项所述的AI模型的使用方法。

13.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时使所述处理器实现如权利要求1至7任一项所述的AI模型的训练方法；或者，实现如权利要求8至10任一项所述的AI模型的使用方法。