CN110909890A

CN110909890A - 游戏人工智能训练方法、装置及服务器和存储介质

Info

Publication number: CN110909890A
Application number: CN201911228748.6A
Authority: CN
Inventors: 蔺洁琼
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-12-04
Filing date: 2019-12-04
Publication date: 2020-03-24
Anticipated expiration: 2039-12-04
Also published as: CN110909890B

Abstract

本申请公开了一种游戏人工智能训练方法、装置、系统及一种服务器和计算机可读存储介质，该方法包括：分析目标游戏的游戏规则，确定目标游戏的计分项和局内采样项；以计分项为类别划分标准对目标游戏的所有对局进行分层采样得到对局样本；以局内采样项为类别划分标准对所有对局样本中的所有局面进行分层采样得到对局局面样本；基于对局局面样本进行目标游戏的人工智能训练。由此可见，本申请提供的游戏人工智能训练方法，通过两阶段的分层采样增大稀有样本的数量，使得游戏AI能够学习到稀有样本对应的打法，平衡各类别样本的数量，使得游戏AI能够不偏向于学习数量最多的样本，游戏AI的学习更加灵活，能力更强。

Description

游戏人工智能训练方法、装置及服务器和存储介质

技术领域

本申请涉及人工智能技术领域，更具体地说，涉及一种游戏人工智能训练方法、装置及服务器和计算机可读存储介质。

背景技术

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

在利用机器学习算法训练游戏AI的过程中，训练样本为真实游戏玩家的游戏日志。在相关技术中，采样方法可以包括随机采样、系统采样等。随机采样是指从被采样数据集中随机地抽取特定数量的数据，需要指定采样数量。AlphaGo中使用随机采样的方法，其实现简单，且能够高效地减少游戏AI需要学习的数据量。系统采样是指将整体的被采样数据集分为n个部分，对于每个部分内的样本数据进行一次编号，再从每个部分中抽取第k个样本数据组成样本。然而，基于相关技术的采样方法，训练样本中存在稀有对局和稀有局面，使得游戏AI学习到稀有样本对应的打法概率较低，能力较差。

因此，如何提高游戏AI的能力是本领域技术人员需要解决的技术问题。

发明内容

本申请的目的在于提供一种游戏人工智能训练方法、装置及一种服务器和一种计算机可读存储介质，提高了游戏AI的能力。

为实现上述目的，本申请第一方面提供了一种游戏人工智能训练方法，包括：

分析目标游戏的游戏规则，确定所述目标游戏的计分项和局内采样项；

以所述计分项为类别划分标准对所述目标游戏的所有对局进行分层采样得到对局样本；

以所述局内采样项为类别划分标准对所有所述对局样本中的所有局面进行分层采样得到对局局面样本；

基于所述对局局面样本进行所述目标游戏的人工智能训练。

结合本申请的第一方面，在本申请第一方面的第一种实施方式中，所述以所述计分项为类别划分标准对所述目标游戏的所有对局进行分层采样得到对局样本，包括：

确定每个所述计分项对应的牌局数量为牌局结果中包括每个所述计分项的对局的数量，并确定总牌局数量为所有所述牌局数量的和；

根据所述总牌局数量和每个所述计分项对应的牌局数量计算每个所述计分项的采样率作为第一采样率；

基于每个所述第一采样率以所述计分项为类别划分标准对所述目标游戏的所有对局进行分层采样得到对局样本。

结合本申请的第一方面，在本申请第二方面的第二种实施方式中，所述以所述局内采样项为类别划分标准对所有所述对局样本中的所有局面进行分层采样得到对局局面样本，包括：

在所有所述对局样本中确定每个所述局内采样项对应的局面数量，并确定总局面数量为所有所述局面数量的和；

根据所述总局面数量和每个所述局内采样项对应的局面数量计算每个所述局内采样项的采样率作为第二采样率；

基于每个所述第二采样率以所述局内采样项为类别划分标准对所有所述对局样本中的所有局面进行分层采样得到对局局面样本。

结合本申请的第一方面、本申请第一方面的第一种实施方式、本申请第二方面的第二种实施方式，在本申请第一方面的第三种实施方式中，还包括：

确定每个所述对局样本的权重，并根据每个所述对局样本的权重确定每个对局局面样本的权重；

相应的，所述基于所述对局局面样本进行所述目标游戏的人工智能训练，包括：

基于所述对局局面样本和所述对局局面样本的权重进行所述目标游戏的人工智能训练。

为实现上述目的，本申请第二方面提供了一种游戏人工智能训练装置，包括：

分析模块，用于分析目标游戏的游戏规则，确定所述目标游戏的计分项和局内采样项；

第一采样模块，用于以所述计分项为类别划分标准对所述目标游戏的所有对局进行分层采样得到对局样本；

第二采样模块，用于以所述局内采样项为类别划分标准对所有所述对局样本中的所有局面进行分层采样得到对局局面样本；

训练模块，用于基于所述对局局面样本进行所述目标游戏的人工智能训练。

为实现上述目的，本申请第三方面提供了一种服务器，包括：

处理器和存储器；

其中，所述处理器用于执行所述存储器中存储的程序；

所述存储器用于存储程序，所述程序至少用于：

基于所述对局局面样本进行所述目标游戏的人工智能训练。

为实现上述目的，本申请第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上述游戏人工智能训练方法的步骤。

通过以上方案可知，本申请提供的一种游戏人工智能训练方法，包括：分析目标游戏的游戏规则，确定所述目标游戏的计分项和局内采样项；以所述计分项为类别划分标准对所述目标游戏的所有对局进行分层采样得到对局样本；以所述局内采样项为类别划分标准对所有所述对局样本中的所有局面进行分层采样得到对局局面样本；基于所述对局局面样本进行所述目标游戏的人工智能训练。

由于牌局得分由众多计分项组成，牌局得分中包括分数越高的计分项的对局数量越少，导致训练样本中包含分数较高的计分项的样本较少，即包含分数较高的计分项的对局为训练样本中的稀有对局。另外，每个对局包含多个对局局面，训练样本中还存在稀有局面。因此，在实现牌类游戏AI时，需要同时考虑不同牌局之间的计分项差异以及单局内部不同局面类型的差异，对游戏日志进行针对性的采样，以在深度学习模型训练时同时覆盖到稀有对局和稀有局面。在本申请中，采用两阶段的分层采样方法，第一阶段为对局采样，以计分项为类别划分标准对所有对局日志进行分层采样，采样结果为对局样本。第二阶段为局内采样，以局内采样项为类别划分标准对第一阶段采集到的对局样本再次进行分层采样，以平衡不同类别的局面样本的比例。由此可见，本申请提供的游戏人工智能训练方法，通过两阶段的分层采样增大稀有样本的数量，使得游戏AI能够学习到稀有样本对应的打法，平衡各类别样本的数量，使得游戏AI能够不偏向于学习数量最多的样本，游戏AI的学习更加灵活，能力更强。本申请还公开了一种游戏人工智能训练装置及一种服务器和一种计算机可读存储介质，同样能实现上述技术效果。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性的，并不能限制本申请。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。附图是用来提供对本公开的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本公开，但并不构成对本公开的限制。在附图中：

图1为本申请实施例提供的一种游戏人工智能训练系统的架构图；

图2为本申请实施例提供的第一种游戏人工智能训练方法的流程图；

图3为本申请实施例提供的第二种游戏人工智能训练方法的流程图；

图4为本申请实施例提供的第三种游戏人工智能训练方法的流程图；

图5为国际麻将中的一种对局局面；

图6为本申请实施例提供的一种游戏人工智能训练装置的结构图；

图7为本申请实施例提供的一种服务器的结构图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

机器学习(Machine Learning，ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。相对于人工规则和传统机器学习技术，深度学习(deep learning)可以极大地提高游戏AI的能力。其中，监督学习为机器学习中的一类算法，其为利用一组已知类别的样本调整分类器的参数，使其达到所要求性能的过程。在牌类游戏中，监督学习的训练样本为真实游戏玩家的游戏日志。

本申请的发明人经研究发现，在实际游戏中，特别是牌类游戏一般具有非常详细的计分过程，得分通常由众多计分项组成。以国际麻将为例，牌局结果存在81个番型，可以使得牌局得分在几分到几百分之间变化。为了方便对比，首先实现一个简单的基于规则的非深度学习的游戏AI，可以称之为规则AI，该规则AI的打法非常激进，即只要可以吃、碰、杠或胡，则一定会执行该动作。规则AI进行游戏生成大量对局日志之后，使用深度学习算法对规则AI进行训练生成一个模型AI，以使得其具有更加良好的泛化性能，即生成的模型AI能够比规则AI更加灵活地处理不同的麻将局面。统计在不同牌局得分的情况下模型AI的表现可知，大部分对局的牌局得分较小，且随着牌局得分的增长，模型AI预测对局结果的误差也随之增长，即预测的准确性逐渐变差。由于国际麻将的牌局得分是由多个番型组成，从番型的角度分析可知，不同对局的牌局得分中，得分越大的番型占比越少，且模型AI对得分越大的番型的预测误差也越大，模型AI的预测能力与番型的大小存在负相关的关系。

由此可见，牌局得分中包括分数越高的计分项的对局数量越少，导致训练样本中包含分数较高的计分项的样本较少，即包含分数较高的计分项的对局为训练样本中的稀有对局。

另一方面，可以对对局内的各个局面进行分析。例如，不同于围棋等棋类游戏只有落子一个动作，在国际麻将中可以包括出牌(PLAY)、过(PASS)、碰(PONG)、明杠(KONG)、暗杠(ANKONG)、补杠(BUKONG)，吃(CHOW)等多个动作，不同的动作对牌局变化影响重大，如明杠1次即可记1分，明杠2次记4分，明杠3次则可记32分。通过分析上述规则AI可知，即使是非常激进的打法，出牌动作的比例也是占据了压倒性的绝大多数，导致深度学习模型无法较好的学到其他动作，可见除出牌动作之外的其他动作对应的局面为稀有局面。

由此可见，每个对局包含多个对局局面，训练样本中还存在稀有局面，例如国际麻将中的吃、碰、杠等动作，扑克游戏中的炸弹等出牌类型。

也就是说，对于国际麻将来说，不同番型对于模型预测的准确性影响较大，并且在单局游戏中，动作的分布也存在较大的不均衡，同样会导致模型学习能力变差。因此，在实现牌类游戏AI时，需要同时考虑不同牌局之间的计分项差异以及单局内部不同局面类型的差异，对游戏日志进行针对性的采样，以在深度学习模型训练时同时覆盖到稀有对局和稀有局面。

综上所述，本申请采用两阶段的分层采样方法，分层采样是指先将采样数据集划分为若干个类别，再从每一类别内随机抽取一定数量的数据，然后将这些数据组合为样本。在本申请中，第一阶段为对局采样，通过分析牌类游戏的所有对局日志进行分类，从而完成对局采样以平衡不同对局结果的比例，本阶段采样的结果为对局样本，即整个对局日志的集合。第二阶段为局内采样，通过分析对局内的各个局面进行分类，从而对第一阶段采集到的对局样本再次进行采样，以平衡不同类别的局面样本的比例，本阶段采样的结果为对局局面样本，即某一手局面的集合。

为了便于理解本申请提供的游戏人工智能训练方法，下面对其使用的系统进行介绍。参见图1，其示出了本申请实施例提供的一种游戏人工智能训练系统的架构图，如图1所示，包括多个客户端100和服务器200，各个客户端100与服务器200之间通过网络300进行通信连接。

其中，真实游戏玩家在各个客户端100上进行牌类游戏，生成游戏日志保存在服务器200中。服务器200对一定时间窗口内的游戏日志进行两阶段的分层采样，第一阶段为对局采样，采样结果为对局样本，第二阶段为局内采样，采样结果为对局局面样本，采用上述采样方法可以覆盖不同的对局和局面。服务器200利用该对局局面样本训练游戏AI，可以使得游戏AI学习到稀有样本对应的打法，提高游戏AI的学习效率，进而提高游戏AI的能力。

本申请实施例公开了一种游戏人工智能训练方法，提高了牌类游戏AI的能力。

参见图2，本申请实施例提供的一种游戏人工智能训练方法的流程图，如图2所示，包括：

S101：分析目标游戏的游戏规则，确定所述目标游戏的计分项和局内采样项；

本实施例的执行主体为上一实施例介绍的服务器200，本步骤旨在通过游戏规则确定对局分层采样的类别划分标准(即计分项)和局面分层采样的类别划分标准(即局内采样项)。具体的，不同类型的牌类游戏对应不同的计分规则，牌局得分由不同的计分项组成，例如，国际麻将中包含81种番型，斗地主中包含明牌、炸弹、飞机、春天等计分项。不同类型的牌类游戏对应不同的局内采样项，例如，国际麻将可以以动作类型作为局内采样项，动作类型可以包括出牌、过、碰、明杠、暗杠、补杠，吃等，斗地主可以以出牌类型作为局内采样项，出牌类型可以包括单牌、对牌、单顺、双顺、三带一等。

S102：以所述计分项为类别划分标准对所述目标游戏的所有对局进行分层采样得到对局样本；

本步骤旨在对目标游戏的所有游戏日志进行对局采样。在本步骤中，以计分项为类别划分标准对所有对局进行分类。可以理解的是，由于一个对局的牌局得分可以包括多个计分项，因此各个类别之间可以存在重叠的对局。在每个类别中，分别抽取一定数量的样本作为对局样本。在抽取过程中，可以采用有放回的随机抽取方式，即对于同一类别对应的对局，允许在其中抽取到重复的对局样本，也可以采用无放回的随机抽取方式，即对于同一类别对应的对局，抽取到的对局样本均不相同，在此不进行具体限定。

举例说明，若对局A的牌局得分包括计分项1、2和3，对局B的牌局得分包括计分项1和2，对局C的牌局得分包括计分项1，对局D的牌局得分包括计分项2和3。计分项1对应的对局为对局A、B和C，计分项2对应的对局为对局A、B和D，计分项3对应的对局为对局A和D。规定每个计分项抽取两个样本，若采用有放回的随机抽取方式，计分项1对应的对局样本可以为对局B和对局C，计分项2对应的对局样本可以为对局A和对局A，计分项3对应的对局样本可以为对局A和对局D。对局A被抽取3次，对局B、C和D分别被抽取1次，最终的对局样本包括6个样本，分别为对局B、对局C、对局A、对局A、对局A和对局D。

需要说明的是，本实施例不对具体的采样方法进行限定，只要保证每个计分项抽取的对局样本大致相同则均在本实施例的保护范围内。作为一种优选实施方式，本步骤包括：确定每个所述计分项对应的牌局数量为牌局结果中包括每个所述计分项的对局的数量，并确定总牌局数量为所有所述牌局数量的和；根据所述总牌局数量和每个所述计分项对应的牌局数量计算每个所述计分项的采样率作为第一采样率；基于每个所述第一采样率以所述计分项为类别划分标准对所有对局进行分层采样得到对局样本。

在具体实施中，可以基于所有的对局日志确定每个计分项的采样率，保证每个计分项抽取的对局样本大致相同。每个计分项的采样率为该计分项对应的牌局数量与总牌局数量的比值，此处的总牌局数量与总对局数量不同，是所有计分项对应的对局的数量的和，而不是所有对局的和。举例说明，若对局A的牌局得分包括计分项1、2和3，对局B的牌局得分包括计分项1和2，对局C的牌局得分包括计分项1，对局D的牌局得分包括计分项2和3。计分项1的牌局数量为3，计分项2的牌局数量为3，计分项3的牌局数量为2，总牌局数量为8。

当然，为了控制采集到的对局样本的数量，可以设置控制变量，用于控制每个计分项抽取的对局样本的数量，即所述根据所述总牌局数量和每个所述计分项对应的牌局数量计算每个所述计分项的采样率作为第一采样率的步骤包括：将所述总牌局数量与每个所述计分项对应的牌局数量的比值作为第一采样率中间值；将第一预设值与每个所述第一采样率中间值的乘积作为每个所述第一采样率。此处的第一预设值即为上述的控制变量，可以通过第一预设值与1/计分项总数的关系确定最终抽取的对局样本的数量，若第一预设值等于1/计分项总数，说明对局样本的数量为总牌局数量，若第一预设值小于1/计分项总数，说明对局样本的数量小于总牌局数量，若第一预设值大于1/计分项总数，说明对局样本的数量大于总牌局数量。

S103：以所述局内采样项为类别划分标准对所有所述对局样本中的所有局面进行分层采样得到对局局面样本；

本步骤旨在对上一步骤得到的对局样本进行对局局面采样。在本步骤中，以局内采样项为类别划分标准对所有对局样本中的所有局面进行分类。在每个类别中，分别抽取一定数量的样本作为对局局面样本。在抽取过程中，同样可以采用有放回的随机抽取方式，即对于同一类别对应的局面，允许在其中抽取到重复的对局局面样本，也可以采用无放回的随机抽取方式，即对于同一类别对应的局面，抽取到的对局局面样本均不相同，在此不进行具体限定。

需要说明的是，本实施例不对具体的采样方法进行限定，只要保证每个局内采样项抽取的对局局面样本大致相同则均在本实施例的保护范围内。作为一种优选实施方式，本步骤包括：在所有所述对局样本中确定每个所述局内采样项对应的局面数量，并确定总局面数量为所有所述局面数量的和；根据所述总局面数量和每个所述局内采样项对应的局面数量计算每个所述局内采样项的采样率作为第二采样率；基于每个所述第二采样率以所述局内采样项为类别划分标准对所有所述对局样本中的所有局面进行分层采样得到对局局面样本。

在具体实施中，可以基于所有的对局局面确定每个局内采样项的采样率，保证每个局内采样项抽取的对局样本大致相同。每个局内采样项的采样率为该局内采样项对应的局面数量与总局面数量的比值，此处的总牌局数量为所有局内采样项对应的对局的数量的和。

此处同样可以通过控制变量控制采样得到的对局局面样本的数量，即所述根据所述总局面数量和每个所述局内采样项对应的局面数量计算每个所述局内采样项的采样率作为第二采样率的步骤包括：将所述总局面数量与每个所述局内采样项对应的局面数量的比值作为第二采样率中间值；将第二预设值与每个所述第二采样率中间值的乘积作为每个所述第二采样率。此处的第二预设值即为控制采样得到的对局局面样本的数量的控制变量，与上述的第一预设值类似，在此不再赘述。

S104：基于所述对局局面样本进行所述目标游戏的人工智能训练。

由于牌局得分由众多计分项组成，牌局得分中包括分数越高的计分项的对局数量越少，导致训练样本中包含分数较高的计分项的样本较少，即包含分数较高的计分项的对局为训练样本中的稀有对局。另外，每个对局包含多个对局局面，训练样本中还存在稀有局面。因此，在实现牌类游戏AI时，需要同时考虑不同牌局之间的计分项差异以及单局内部不同局面类型的差异，对游戏日志进行针对性的采样，以在深度学习模型训练时同时覆盖到稀有对局和稀有局面。在本申请实施例中，采用两阶段的分层采样方法，第一阶段为对局采样，以计分项为类别划分标准对所有对局日志进行分层采样，采样结果为对局样本。第二阶段为局内采样，以局内采样项为类别划分标准对第一阶段采集到的对局样本再次进行分层采样，以平衡不同类别的局面样本的比例。由此可见，本申请实施例提供的游戏人工智能训练方法，通过两阶段的分层采样增大稀有样本的数量，使得游戏AI能够学习到稀有样本对应的打法，平衡各类别样本的数量，使得游戏AI能够不偏向于学习数量最多的样本，游戏AI的学习更加灵活，能力更强。

本申请实施例公开了一种游戏人工智能训练方法，相对于上述实施例，本实施例对技术方案作了进一步的说明和优化。具体的：

参见图3，本申请实施例提供的第二种游戏人工智能训练方法的流程图，如图3所示，包括：

S201：分析目标游戏的游戏规则，确定所述目标游戏的计分项和局内采样项；

S202：以所述计分项为类别划分标准对所述目标游戏的所有对局进行分层采样得到对局样本；

S203：确定每个所述对局样本的权重；

由于最终采样得到的每个对局局面样本均对应一个局内采样项，其所属的对局也对应一个计分项，不同计分项对牌局得分的贡献程度不同，在训练游戏AI时不同计分项和不同局内采样项对应的对局局面的重要程度均不同，因此，为了提高游戏AI的学习效率，可以为不同的对局样本分配不同的权重。

在本步骤中，首先确定采样得到的每个对局样本的权重，基本原则为计分项在牌局得分中贡献越大、对应的采样率越小，对局样本的权重越大。例如，对局A的的牌局得分包括计分项1、2和3，计分项1的分数大于计分项2的分数，计分项2的分数大于计分项3的分数，那么基于对局A的采样率一定，若对局A由于计分项1被抽取为对局样本时，其权重最大，反之，若对局A由于计分项3被抽取为对局样本时，其权重最小。

作为一种优选实施方式，本步骤包括：确定每个所述对局样本对应的目标计分项，并确定每个所述目标计分项在每个所述对局样本中的权重；将所述目标计分项在所述对局样本中的权重与所述目标计分项的采样率的比值确定为所述对局样本的权重。可以理解的是，每个对局样本由于其对应的目标计分项被采样，即该对局样本在类别划分过程中的属于该目标计分项，对局样本的权重为该目标计分项在该对局样本中的权重与该目标计分项采样率的比值。

即对局样本的权重计算公式具体为：

W₁＝w/SamplingRate(a)；

其中，W₁为所述对局样本的权重，w为计分项a在所述对局样本中的权重，SamplingRate(a)为计分项a的采样率。

在具体实施中，计分项在牌局得分中贡献越大，其在对局样本的权重越大。例如，对局A的的牌局得分包括计分项1、2和3，计分项1的分数大于计分项2的分数，计分项2的分数大于计分项3的分数，那么计分项1在对局A中的权重最大，反之，计分项3在对局A中权重最小。优选的，所述确定每个所述目标计分项在每个所述对局样本中的权重的步骤包括：确定每个所述目标计分项在每个所述对局样本中的权重为每个所述计分项的得分与每个所述对局样本的总得分的比值。

S204：以所述局内采样项为类别划分标准对所有所述对局样本中的所有局面进行分层采样得到对局局面样本；

S205：根据每个所述对局样本的权重确定每个对局局面样本的权重；

在本步骤中，确定采样得到的每个对局局面样本的权重，基本原则为所属的对局样本的权重越大、该对局局面样本对应的采样率越小，对局局面样本的权重越大。作为一种优选实施方式，本步骤包括：确定每个对局局面样本对应的目标局内采样项和所属的目标对局样本，将每个对局局面样本的权重确定为所述目标对局样本的权重与所述局内采样项的采样率的比值。可以理解的是，每个对局局面样本由于其对应的目标局内采样项被采样，即该对局局面样本在类别划分过程中的属于该目标局内采样项，对局局面样本的权重为其所属的目标对局样本的权重与该目标局内采样项的采样率的比值。

即对局局面样本的权重计算公式具体为：

W₂＝W₁/SamplingRate(b)；

其中，W₂为所述对局局面样本的权重，W₁为所述对局样本的权重，SamplingRate(b)为局内采样项b的采样率。

S206：基于所述对局局面样本和所述对局局面样本的权重进行所述目标游戏的人工智能训练。

在本步骤中，将上述采集到的对局局面样本和其对应的权重输入游戏AI中，完成该游戏AI的深度学习训练。

由此可见，在本实施例中，由于不同计分项和不同局内采样项对应的对局局面的重要程度均不同，为不同的对局样本分配不同的权重，基于采集到的对局局面样本和其对应的权重训练游戏AI，可以提高训练效率。

本申请实施例公开了一种游戏人工智能训练方法，相对于前几个实施例，本实施例对技术方案作了进一步的说明和优化。具体的：

参见图4，本申请实施例提供的第三种游戏人工智能训练方法的流程图，如图4所示，包括：

S301：分析目标游戏的游戏规则，确定所述目标游戏的计分项和局内采样项；

S302：确定每个所述计分项对应的牌局数量为牌局结果中包括每个所述计分项的对局的数量，并确定总牌局数量为所有所述牌局数量的和；

S303：将所述总牌局数量与每个所述计分项对应的牌局数量的比值作为第一采样率中间值，将第一预设值与每个所述第一采样率中间值的乘积作为每个第一采样率；

S304：基于每个所述第一采样率以所述计分项为类别划分标准对所有对局进行分层采样得到对局样本；

S305：确定每个所述对局样本对应的目标计分项，并确定每个所述目标计分项在每个所述对局样本中的权重为每个所述目标计分项的得分与每个所述对局样本的总得分的比值；

S306：将所述目标计分项在所述对局样本中的权重与所述目标计分项的采样率的比值确定为所述对局样本的权重；

S307：在所有所述对局样本中确定每个所述局内采样项对应的局面数量，并确定总局面数量为所有所述局面数量的和；

S308：将所述总局面数量与每个所述局内采样项对应的局面数量的比值作为第二采样率中间值，将第二预设值与每个所述第二采样率中间值的乘积作为每个所述第二采样率；

S309：基于每个所述第二采样率以所述局内采样项为类别划分标准对所有所述对局样本中的所有局面进行分层采样得到对局局面样本；

S310：确定每个对局局面样本对应的目标局内采样项和所属的目标对局样本，将每个对局局面样本的权重确定为所述目标对局样本的权重与所述局内采样项的采样率的比值；

S311：基于所述对局局面样本和所述对局局面样本的权重进行所述目标游戏的人工智能训练。

由此可见，在本实施例中，采用两阶段的分层采样方法，第一阶段为对局采样，以计分项为类别划分标准对所有对局日志进行分层采样，采样结果为对局样本。第二阶段为局内采样，以局内采样项为类别划分标准对第一阶段采集到的对局样本再次进行分层采样，以平衡不同类别的局面样本的比例。通过两阶段的分层采样增大稀有样本的数量，使得游戏AI能够学习到稀有样本对应的打法，平衡各类别样本的数量。同时，为不同的对局样本分配不同的权重，基于采集到的对局局面样本和其对应的权重训练游戏AI，游戏AI的学习更加灵活，能力更强，学习效率较高。

为了便于理解，结合本申请的一种应用场景进行介绍。结合图1，客户端100上运行国际麻将的应用程序，游戏玩家可以在客户端100上进行国际麻将游戏，生成游戏日志存储在服务器200中。

国际麻将的牌局得分由大小不同的各种番型组成，例如边张为1番(分)，大四喜为88番(分)。因此，在第一阶段的采样过程中，以番型为类别划分标准对所有对局进行分层采样，采样结果为对局样本，具体的，首先对所有游戏日志建立番型到对局的倒排索引，如表1所示。

表1

番型	番型大小	总数目	牌局列表及番型权重
				边张	1	N(边张)	A(1/3)、B(1/4)、…
…
				箭刻	2	N(箭刻)	A(2/3)、C(2/5)、…
…
				大四喜	88	N(大四喜)	Z(88/88)、…

其中，N(边张)、N(箭刻)和N(大四喜)等分别代表牌局结果包含边张、箭刻或大四喜的对局的数目。A、B、C、…、Z分别代表不同的对局。A(1/3)表示对局A的总得分为3分，其中边张占1分，其他可以此类推。

当前总牌局数量NG(总)＝N(边张)+…+N(箭刻)+…+N(大四喜)；

各个番型的采样率：

SamplingRate(边张)＝α×NG(总)/N(边张),

…

SamplingRate(箭刻)＝α×NG(总)/N(箭刻),

…

SamplingRate(大四喜)＝α×NG(总)/N(大四喜),

其中，α为一个从外部设置的控制变量，用于控制最终需要的样本数量，以适应训练系统的容量；

α＝1/PC时，总量为NG(总)的对局样本会参与训练，

α<1/PC时，总量小于NG(总)的对局样本会参与训练，

α>1/PC时，总量大于NG(总)的对局样本会参与训练。

PC(Pattern Count)代表总的番型类别数，在国标麻将中该值为81。

依据上述采样率对所有游戏日志进行采样，采样结果如表2所示。

表2

对局样本	样本权重
		A1	1/SamplingRate(边张)×1/3
A2	1/SamplingRate(箭刻)×2/3
		C1	1/SamplingRate(箭刻)×2/5
…	…
		Z1	1/SamplingRate(大四喜)×88/88
Z2	1/SamplingRate(大四喜)×88/88
		Z3	1/SamplingRate(大四喜)×88/88

由表2可知，对局A被采样到2次，对局B没有被采样到，对局C被采样到1次，对局Z被采样到3次。由于单个对局可能会包含多个番型，即在上面的采样过程中，相同的对局可能会被采样多次。而由于单个番型对牌局分数的贡献不同，所以在样本权重部分需要乘以该番型在得分中的占比。

可以理解的是，第一阶段对局采样的采样结果为对局样本，不能直接用于训练，会造成训练样本的关联性过高，导致学习效果不好。因此，在对局采样采样之后，再次进行第二阶段的局内局面采样，一方面可以减轻样本的关联性，另一方面可以平衡各个动作的占比，使得深度学习模型能够更好的学习麻将游戏中的不同动作。

首先，对游戏日志统计不同动作的数目占比，如表3所示。

表3

其中，PASS为过，PLAY为出牌，PONG为碰，KONG为明杠，WIN为胡，ANKONG为暗杠，BUKONG为补杠，CHOW_FIRST为把上家打的牌作为顺子的第一张牌吃进来，CHOW_SECOND为把上家打的牌作为顺子的第二张牌吃进来，CHOW_THIRD为把上家打的牌作为顺子的第三张牌吃进来。

N(PASS)和N(PLAY)等分别代表出PASS和PLAY等动作时的对局局面的数目。

总局面数量NS(总)＝N(PASS)+N(PLAY)+….+N(CHOW_THIRD)

各个动作的采样率：

SamplingRate(PASS)＝β×NS(总)/N(PASS)

SamplingRate(PLAY)＝β×NS(总)/N(PLAY)

…

SamplingRate(CHOW_THIRD)＝β×NS(总)/N(CHOW_THIRD)

其中，β与α类似，用于控制最终需要的样本数量，此处不再赘述。

根据动作采样率对上一步生成的对局样本进行采样，采样结果如表4所示。

表4

其中，A11代表牌局A的第1手时的局面，A17代表牌局A的第7手时的局面，C133代表牌局C的第33手时的局面，以此类推。

样本权重部分是在各个样本对局权重的基础上除以当前动作的采样率。在完成以上过程之后，将生成的对局局面样本及样本权重送入训练系统，训练得到一个符合需求的游戏AI。

如图5所示，图5为国际麻将中的一个对局局面，利用上述游戏AI进行预测，预测结果如表5所示，因此在本次对局局面中，出牌南风。

表5

角色	动作	概率(％)
			南	出牌	62.54
中	出牌	25.00
			北	出牌	7.76
西	出牌	4.34
			東	出牌	0.21

下面对本申请实施例提供的一种游戏人工智能训练装置进行介绍，下文描述的一种游戏人工智能训练装置与上文描述的一种游戏人工智能训练方法可以相互参照。

参见图6，本申请实施例提供的一种游戏人工智能训练装置的结构图，如图6所示，包括：

分析模块601，用于分析目标游戏的游戏规则，确定所述目标游戏的计分项和局内采样项；

第一采样模块602，用于以所述计分项为类别划分标准对所述目标游戏的所有对局进行分层采样得到对局样本；

第二采样模块603，用于以所述局内采样项为类别划分标准对所有所述对局样本中的所有局面进行分层采样得到对局局面样本；

训练模块604，用于基于所述对局局面样本进行所述目标游戏的人工智能训练。

由于牌局得分由众多计分项组成，牌局得分中包括分数越高的计分项的对局数量越少，导致训练样本中包含分数较高的计分项的样本较少，即包含分数较高的计分项的对局为训练样本中的稀有对局。另外，每个对局包含多个对局局面，训练样本中还存在稀有局面。因此，在实现牌类游戏AI时，需要同时考虑不同牌局之间的计分项差异以及单局内部不同局面类型的差异，对游戏日志进行针对性的采样，以在深度学习模型训练时同时覆盖到稀有对局和稀有局面。在本申请实施例中，采用两阶段的分层采样方法，第一阶段为对局采样，以计分项为类别划分标准对所有对局日志进行分层采样，采样结果为对局样本。第二阶段为局内采样，以局内采样项为类别划分标准对第一阶段采集到的对局样本再次进行分层采样，以平衡不同类别的局面样本的比例。由此可见，本申请实施例提供的游戏人工智能训练装置，通过两阶段的分层采样增大稀有样本的数量，使得游戏AI能够学习到稀有样本对应的打法，平衡各类别样本的数量，使得游戏AI能够不偏向于学习数量最多的样本，游戏AI的学习更加灵活，能力更强。

在上述实施例的基础上，作为一种优选实施方式，所述局内采样项包括动作类型或出牌类型。

在上述实施例的基础上，作为一种优选实施方式，所述第一采样模块602包括：

第一确定单元，用于确定每个所述计分项对应的牌局数量为牌局结果中包括每个所述计分项的对局的数量，并确定总牌局数量为所有所述牌局数量的和；

第一计算单元，用于根据所述总牌局数量和每个所述计分项对应的牌局数量计算每个所述计分项的采样率作为第一采样率；

第一采样单元，用于基于每个所述第一采样率以所述计分项为类别划分标准对所述目标游戏的所有对局进行分层采样得到对局样本。

在上述实施例的基础上，作为一种优选实施方式，所述第一计算单元具体为将所述总牌局数量与每个所述计分项对应的牌局数量的比值作为第一采样率中间值，将第一预设值与每个所述第一采样率中间值的乘积作为每个所述第一采样率的单元。

在上述实施例的基础上，作为一种优选实施方式，所述第二采样模块603包括：

第二确定单元，用于在所有所述对局样本中确定每个所述局内采样项对应的局面数量，并确定总局面数量为所有所述局面数量的和；

第二计算单元，用于根据所述总局面数量和每个所述局内采样项对应的局面数量计算每个所述局内采样项的采样率作为第二采样率；

第二采样单元，用于基于每个所述第二采样率以所述局内采样项为类别划分标准对所有所述对局样本中的所有局面进行分层采样得到对局局面样本。

在上述实施例的基础上，作为一种优选实施方式，所述第二计算单元具体为将所述总局面数量与每个所述局内采样项对应的局面数量的比值作为第二采样率中间值，将第二预设值与每个所述第二采样率中间值的乘积作为每个所述第二采样率的单元。

在上述实施例的基础上，作为一种优选实施方式，还包括：

第一确定模块，用于确定每个所述对局样本的权重；

第二确定模块，用于根据每个所述对局样本的权重确定每个对局局面样本的权重；

相应的，所述训练模块604具体为基于所述对局局面样本和所述对局局面样本的权重进行所述目标游戏的人工智能训练的模块。

在上述实施例的基础上，作为一种优选实施方式，所述第一确定模块包括：

第三确定单元，用于确定每个所述对局样本对应的目标计分项，并确定每个所述目标计分项在每个所述对局样本中的权重；

第四确定单元，用于将所述目标计分项在所述对局样本中的权重与所述目标计分项的采样率的比值确定为所述对局样本的权重。

在上述实施例的基础上，作为一种优选实施方式，所述第三确定单元具体为确定每个所述目标计分项在每个所述对局样本中的权重为每个所述计分项的得分与每个所述对局样本的总得分的比值的单元。

在上述实施例的基础上，作为一种优选实施方式，所述第二确定模块具体为确定每个对局局面样本对应的目标局内采样项和所属的目标对局样本，将每个对局局面样本的权重确定为所述目标对局样本的权重与所述局内采样项的采样率的比值的模块。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

本申请还提供了一种服务器，参见图7，本申请实施例提供的一种服务器200的结构图，如图7所示，可以包括处理器21和存储器22。

其中，处理器21可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器21可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器21也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器21可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器21还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器22可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器22还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。本实施例中，存储器22至少用于存储以下计算机程序221，其中，该计算机程序被处理器21加载并执行之后，能够实现前述任一实施例公开的由服务器侧执行的游戏AI训练方法中的相关步骤。另外，存储器22所存储的资源还可以包括操作系统222和数据223等，存储方式可以是短暂存储或者永久存储。其中，操作系统222可以包括Windows、Unix、Linux等。

在一些实施例中，服务器200还可包括有显示屏23、输入输出接口24、通信接口25、传感器26、电源27以及通信总线28。

当然，图7所示的服务器的结构并不构成对本申请实施例中服务器的限定，在实际应用中服务器可以包括比图7所示的更多或更少的部件，或者组合某些部件。

在另一示例性实施例中，还提供了一种包括程序指令的计算机可读存储介质，该程序指令被处理器执行时实现上述任一实施例服务器所执行的游戏人工智能训练方法的步骤。

说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以对本申请进行若干改进和修饰，这些改进和修饰也落入本申请权利要求的保护范围内。

还需要说明的是，在本说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims

1.一种游戏人工智能训练方法，其特征在于，包括：

基于所述对局局面样本进行所述目标游戏的人工智能训练。

2.根据权利要求1所述游戏人工智能训练方法，其特征在于，所述局内采样项包括动作类型或出牌类型。

3.根据权利要求1所述游戏人工智能训练方法，其特征在于，所述以所述计分项为类别划分标准对所述目标游戏的所有对局进行分层采样得到对局样本，包括：

4.根据权利要求3所述游戏人工智能训练方法，其特征在于，所述根据所述总牌局数量和每个所述计分项对应的牌局数量计算每个所述计分项的采样率作为第一采样率，包括：

将所述总牌局数量与每个所述计分项对应的牌局数量的比值作为第一采样率中间值；

将第一预设值与每个所述第一采样率中间值的乘积作为每个所述第一采样率。

5.根据权利要求1所述游戏人工智能训练方法，其特征在于，所述以所述局内采样项为类别划分标准对所有所述对局样本中的所有局面进行分层采样得到对局局面样本，包括：

6.根据权利要求5所述游戏人工智能训练方法，其特征在于，所述根据所述总局面数量和每个所述局内采样项对应的局面数量计算每个所述局内采样项的采样率作为第二采样率，包括：

将所述总局面数量与每个所述局内采样项对应的局面数量的比值作为第二采样率中间值；

将第二预设值与每个所述第二采样率中间值的乘积作为每个所述第二采样率。

7.根据权利要求1至6中任一项所述游戏人工智能训练方法，其特征在于，还包括：

8.根据权利要求7所述游戏人工智能训练方法，其特征在于，所述确定每个所述对局样本的权重，包括：

确定每个所述对局样本对应的目标计分项，并确定每个所述目标计分项在每个所述对局样本中的权重；

将所述目标计分项在所述对局样本中的权重与所述目标计分项的采样率的比值确定为所述对局样本的权重。

9.根据权利要求8所述游戏人工智能训练方法，其特征在于，所述确定每个所述目标计分项在每个所述对局样本中的权重，包括：

确定每个所述目标计分项在每个所述对局样本中的权重为每个所述目标计分项的得分与每个所述对局样本的总得分的比值。

10.根据权利要求7所述游戏人工智能训练方法，其特征在于，所述根据每个所述对局样本的权重确定每个对局局面样本的权重，包括：

确定每个对局局面样本对应的目标局内采样项和所属的目标对局样本，将每个对局局面样本的权重确定为所述目标对局样本的权重与所述局内采样项的采样率的比值。

11.一种游戏人工智能训练装置，其特征在于，包括：

12.一种服务器，其特征在于，包括：

处理器和存储器；

其中，所述处理器用于执行所述存储器中存储的程序；

所述存储器用于存储程序，所述程序至少用于：

基于所述对局局面样本进行所述目标游戏的人工智能训练。

13.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至10任一项所述游戏人工智能训练方法的步骤。