CN112274935B

CN112274935B - Ai模型训练方法、使用方法、计算机设备及存储介质

Info

Publication number: CN112274935B
Application number: CN202011315163.0A
Authority: CN
Inventors: 周正; 朱展图; 李宏亮; 刘永升
Original assignee: Super Parameter Technology Shenzhen Co ltd
Current assignee: Super Parameter Technology Shenzhen Co ltd
Priority date: 2020-11-20
Filing date: 2020-11-20
Publication date: 2024-01-23
Anticipated expiration: 2040-11-20
Also published as: CN112274935A

Abstract

本申请实施例公开了一种AI模型训练方法、使用方法、计算机设备及存储介质，其中，AI模型训练方法包括：获取目标应用程序的关卡配置数据，并根据关卡配置数据生成对应的关卡；提取关卡对应的初始关卡信息，并利用初始关卡信息获取训练样本数据；根据训练样本数据获取已知闯关信息和未知闯关信息；根据已知闯关信息生成第一类图像特征和向量特征，并根据未知闯关信息和已知闯关信息生成第二类图像特征；通过第一预设模型基于第一类图像特征和向量特征获取游戏角色执行策略的第一预测值；通过第二预设模型基于第二类图像特征和向量特征获取游戏角色执行策略的第二预测值；基于第一预测值和第二预测值对第一预设模型进行训练，以获取目标AI模型。

Description

AI模型训练方法、使用方法、计算机设备及存储介质

技术领域

本申请涉及人工智能技术领域，具体涉及一种AI模型训练方法、使用方法、计算机设备及存储介质。

背景技术

消除游戏作为闯关类休闲游戏中最为流行的游戏之一，由于消除类游戏的状态空间十分巨大，大约在10⁵⁰的量级，因此，每个关卡游戏难度设计是一个很大的挑战，对于游戏策划和开发人员而言，每个游戏大版本需要设计新元素，而每次的小版本更新中需要更新几十个新关卡，而为了确保游戏的可玩性，每个关卡需要配置不同游戏难度的关卡配置数据。

在关卡设计完成后，需要对新开发的关卡进行测试，传统测试方式是通过用户在新开发的关卡上试玩获取用户试玩的反馈数据，并根据反馈数据调整关卡配置数据，使得关卡的可玩性更强。

因此，研发应用于消除类游戏的AI模型具有更大的挑战。目前，主要基于深度神经网络(Deep Neural Network，DNN)和监督学习来实现AI模型。然而，基于DNN和监督学习实现AI模型，需要大量优质的样本数据进行训练，而样本数据的收集难度较高且耗时多，即使使用大量样本数据进行训练也无法保证AI模型的可靠性，以及DNN和监督学习是基于每一方的数据单独进行AI模型的训练，无法充分的利用数据，AI模型的准确性较差。

发明内容

本申请实施例提供一种AI模型训练方法、使用方法、计算机设备及存储介质，可以提高对模型训练的可靠性和准确性。

第一方面，本申请实施例提供了一种AI模型训练方法，包括：

获取目标应用程序的关卡配置数据，并根据所述关卡配置数据生成对应的关卡；

提取所述关卡对应的初始关卡信息，并利用所述初始关卡信息获取训练样本数据，其中，所述初始关卡信息包括关卡元素信息和通关限定信息，所述关卡元素信息用于表征当前关卡的棋盘布局及用户可操控的游戏元素种类和游戏元素在所述棋盘上的分布，所述通关限定信息用于表征当前关卡通关的必要条件；

根据训练样本数据获取已知闯关信息和未知闯关信息；

根据已知闯关信息生成第一类图像特征和第一向量特征，并根据未知闯关信息和已知闯关信息生成第二类图像特征和第二向量特征；通过第一预设模型基于所述第一类图像特征和所述第一向量特征获取游戏角色执行策略的第一预测值；

通过第二预设模型基于所述第二类图像特征和所述第二向量特征获取所述游戏角色执行策略的第二预测值；

基于所述第一预测值和第二预测值对所述第一预设模型进行训练，以获取目标AI模型。

第二方面，本申请实施例还提供了一种模型使用方法，应用于服务器，所述模型为采用前述的AI模型训练方法进行训练得到的目标AI模型，并部署在所述服务器中；所述方法包括：

获取更新关卡配置数据，根据所述更新关卡配置数据生成对应的更新关卡；

获取更新关卡对应的初始关卡信息，其中，所述初始关卡信息包括关卡元素信息和通关限定信息，所述关卡元素信息用于表征当前关卡的棋盘布局及用户可操控的游戏元素种类和游戏元素在所述棋盘上的分布，所述通关限定信息用于表征当前关卡通关的必要条件；

根据所述关卡元素信息生成目标类图像特征，并根据所述通关限定信息生成目标向量特征；

通过所述目标AI模型，根据所述目标类图像特征和所述目标向量特征获取游戏角色执行策略的概率分布；

根据所述概率分布确定目标策略，控制所述游戏角色执行所述目标策略。

第三方面，本申请实施例还提供了一种计算机设备，包括处理器和存储器，所述存储器中存储有计算机程序，所述处理器调用所述存储器中的计算机程序时执行本申请实施例提供的任一项AI模型训练方法或使用方法。

第四方面，本申请实施例还提供了一种存储介质，所述存储介质用于存储计算机程序，所述计算机程序被处理器加载，以执行本申请实施例提供的任一种AI模型训练方法或使用方法。

本申请实施例提供了AI模型训练方法、使用方法、计算机设备及存储介质，其中，本申请所提供的AI模型训练方法可以获取目标应用程序的关卡配置数据，并根据所述关卡配置数据生成对应的关卡；提取所述关卡对应的初始关卡信息，其中，所述初始关卡信息包括关卡元素信息和通关限定信息，所述关卡元素信息用于表征当前关卡的棋盘布局及用户可操控的游戏元素种类和游戏元素在所述棋盘上的分布，所述通关限定信息用于表征当前关卡通关的必要条件；根据所述关卡元素信息生成类图像特征，并根据所述通关限定信息生成向量特征；通过第一预设模型基于所述类图像特征和所述向量特征获取游戏角色执行策略的第一预测值；通过第二预设模型基于所述类图像特征和所述向量特征获取所述游戏角色执行策略的第二预测值；使得第一预设模型的第一预测值逼近第二预设模型的第二预测值，因此，可以使得训练出来的第一预设模型的第一预测值准确度越高，提高了对模型训练的可靠性和准确性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种AI模型训练方法的流程示意图；

图2是本申请实施例提供的模型训练架构的示意图；

图3是本申请实施例提供的类图像特征和向量特征的示意图；

图4是本申请实施例提供的基于类图像特征和向量特征对模型进行训练的示意图；

图5是本申请实施例提供的一种模型使用方法的流程示意图；

图6是本申请实施例提供的计算机设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

附图中所示的流程图仅是示例说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解、组合或部分合并，因此实际执行的顺序有可能根据实际情况改变。

本申请的实施例提供了一种AI模型训练方法、使用方法、计算机设备及存储介质。其中，该AI模型训练方法及使用方法可以应用于计算机设备中，该计算机设备可以包括智能手机、平板电脑、掌上电脑、笔记本电脑或者台式电脑等终端，该计算机设备还可以是服务器。

本申请实施例提供的AI模型训练方法涉及人工智能中的机器学习技术等技术，下面先对人工智能技术和机器学习技术进行说明。

人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、以及机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

机器学习(Machine Learning，ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、以及算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、以及式教学习等技术。

游戏角色：本申请中游戏角色是指在游戏类应用程序中由游戏玩家创建可以与其他游戏玩家进行对局或者在游戏应用程序中进行闯关的游戏参与者。

消除类游戏：消除类游戏主要是将一定数量相同的游戏元素，如水果、宝石、动物头像等，使它们彼此相邻配对消除，同时，为了增加游戏难度，部分开发者在游戏元素基础上增加一些目标，只有将目标消除后，对应的游戏元素才能移动或消除。如，将三个同样的元素配对消除，此类称为三消游戏。消除游戏主要拥有计时规则和计步规则两种：计时消除游戏需要玩家在有限的时间内迅速搜索并交换可消除的元素，此时操作越快，获得高分的可能性越高。计步消除游戏则限制玩家在有效的时间和有效步数内达到关卡内设定的目标通过游戏，此时游戏更关注的是玩家的解密能力，操作的时间由于思考时间的增加而增加。

请参阅图1，图1是本申请一实施例提供的AI模型训练方法的流程示意图。该AI模型训练方法可以包括步骤S101至步骤S107，具体可以如下：

S101、获取目标应用程序的关卡配置数据，并根据所述关卡配置数据生成对应的关卡。

本申请中，目标应用程序为具有关卡设定的应用程序，如塔防类游戏应用程序、消除类游戏应用程序、关卡解密类应用程序。

关卡配置数据是用于生成具有随机初始状态关卡的配置数据，在部分实施例中，获取目标应用程序的关卡配置数据，并根据所述关卡配置数据生成对应的关卡，具体包括：根据预设函数关系选择从关卡配置数据集中选择对应的关卡配置数据，所述预设函数关系是关卡配置数据被选中概率与关卡通关率的对应关系；

根据关卡配置数据生成对应的关卡。

其中，所述预设函数关系为：P(i)＝e^1-W(i)/∑e^1-W(i)，其中，P(i)表示第i关卡配置被选中概率，W(i)表示第i关卡的通关率。

示例性的，以目标应用程序为消除类游戏应用程序中的三消游戏应用程序为例进行说明。

三消游戏应用程序为具有三种不同的游戏元素及目标元素随机放置在预设大小的棋盘中，如，棋牌大小为9*9大小，即棋牌横向和纵向均具有9个方格，每个方格随机放置有对应的游戏元素或目标元素。

如，游戏元素包括游戏元素a、游戏元素b、游戏元素c。目标元素包括目标元素x、目标元素y。目标元素x或目标元素y可以跟游戏元素a、游戏元素b、游戏元素c中任一者放置在同一个方格中，也可以是独立放置一个方格中，只有将目标元素消除后方可消除游戏元素。

在三消游戏应用程序中，根据关卡配置数据所生成的同一关卡初始状态对应的游戏元素种类、对应的游戏元素种类的数量和分布具有随机性。

不同难度关卡对应的目标的种类和数量分布不同、或布设于棋盘中的棋盘种类不同。

同时，由于难度较低的关卡通关几率较高，为了更多地训练较难的关卡，减少极简关卡的训练，本实施例中，利用关卡配置数据被选中概率与关卡通关率的预设函数关系进行关卡选择。

例如，所述预设函数关系为：P(i)＝e^1-W(i)/∑e^1-W(i)，其中，P(i)表示第i关卡配置数据被选中概率，W(i)表示第i关卡的通关率。

步骤S102：提取所述关卡对应的初始关卡信息，并利用所述初始关卡信息获取训练样本数据。

初始关卡信息用于表征关卡处于初始状态时的相关信息。具体地，初始关卡信息包括关卡元素信息和通关限定信息，关卡元素信息用于表征当前关卡的棋盘布局及用户可操控的游戏元素种类和游戏元素在所述棋盘上的分布，所述通关限定信息用于表征当前关卡通关的必要条件，包括初始状态时关卡的总步数、关卡的剩余步数、关卡的目标元素数量和类型。

可操控的游戏元素即游戏角色可以对该游戏元素进行操控，如，向前、向后、向左、向右移动该游戏元素或点击该游戏元素，在9*9大小的棋盘中，对棋牌中的游戏元素的操作可以抽象为498个动作标签，每个动作标签对应对一个游戏元素的一个操作动作。

通过预设预设函数关系进行关卡配置数据选择，从而可以有效减少简单关卡的训练，在获取到对应的关卡配置数据后，根据关卡配置数据随机生成对应的关卡，从而可以通过预设人工智能模型自动获取初始关卡信息和训练样本数据，训练样本数据包括初始关卡信息、游戏角色的闯关动作信息和闯关的结果信息，该预设的人工智能模型可以是神经网络模型或其他模型等，具体内容在此处不作限定。

请参阅图2，本实施例中，整个训练架构可以分为三个部分：样本数据生成模块Actor、数据存储模块(也可以称为Redis储存或Redis Server)、以及训练学习模块Learner。其中，Actor部分负责模拟程序自对弈(self-play)，模型在所生成的关卡内进行闯关，并产生训练所需要的样本数据。其中Actor执行操作可以包括：特征输入、输出的动作标签、计算得分GAE以及计算最终得分Reward、模型价值评估值，即模型输出的value值等强化学习训练所需信息。可以通过Redis Server来缓存样本数据，等待Learner的消费。Learner模块消费Redis Server储存的训练数据后会储存历史模型库，Actor每隔一段时间从历史模型库中拉取新的模型进行自对弈。在实际训练过程中，Actor会有大量的镜像示例(即多个闯关模型)运行自对弈进行样本的生产工作，同时Learner也会有多个worker进行训练任务，以此加速训练速度以及收敛速度。

以三消游戏为例进行说明，在根据关卡配置数据生成对应的关卡后，样本数据生成模块Actor对当前棋盘的状态进行解析，获取当前棋盘对应的类图像特征和向量特征，其中，类图像特征用来对棋盘上的游戏元素的分布进行建模，不仅可以表达出游戏元素的分布，并且能表达出游戏元素数量的分布，以及游戏元素之间的关联情况。

例如，类图像特征的维度为H x W x N，总共有N个通道，分别代表棋盘上的不同的N种游戏元素。H x W为棋盘大小。H，W根据游戏设计的不同可以变化，在此不做限定。

向量特征用来描述棋盘外的关键信息，如关卡剩余步数，剩余目标元素数量，目标元素类型，当前关卡的棋盘数量等。所有的向量特征都是one-hot类型。这些信息能够在模型学习类图像特征的基础元素理解的同时，提供关于通关的关键信息。

样本数据生成模块Actor对状态进行解析后，获取对应的棋盘信息，并将棋盘信息转换成对应的特征输入，从而可以模仿人类玩家对棋牌内的游戏元素进行操作，Actor的每个操控一个游戏元素进行一个动作都会输出的动作标签以及该动作标签对应的模型输出value值。在一局游戏结束后，根据游戏结果获取在该局游戏的得分GAE以及计算最终得分Reward。从而每局游戏均可以获取对应的特征输入、输出的动作标签、计算得分GAE以及计算最终得分Reward、模型价值评估值等数据，并将该些数据存储于数据存储模块中作为样本数据，等待Learner的消费。

如图3所示，图3为本申请一实施例中类图像特征和向量特征的示意图。

类图像特征包括2个通道，图3中棋盘大小为14*5，棋盘中分布有两种游戏元素，分别为游戏元素A和游戏元素B，其中，游戏元素B分布在棋盘中的第一行第三列、第二行第三列、第五行第四列及第五行第五列。游戏元素A分布在棋盘中的第一行第一列、第一行第二列、第一行第六列、第一行第十一列、第二行第五列及第二行六五列。图3中向量特征表示为当前参关卡剩余步数为1，以及当前关卡剩余目标数为1等。

步骤S103：根据训练样本数据获取已知闯关信息和未知闯关信息。

已知闯关信息表征根据关卡配置数据所生成的已知的初始关卡信息，包括棋盘布局、用户可操控的游戏元素种类、各个游戏元素在棋盘上的分布、目标元素数量和分布及对应关卡的通关限定信息。未知闯关信息用于表征游戏元素和目标元素中至少一者在对应棋盘中未出现的其他分布可能性。

步骤S104：根据已知闯关信息生成第一类图像特征和向量特征，并根据未知闯关信息和已知闯关信息生成第二类图像特征。

在得到样本数据对应的已知闯关信息和未知闯关信息等信息后，可以对信息进行特征提取，得到类图像特征和向量特征。其中，该类图像特征可以用于表征当前关卡的棋盘布局及用户可操控的游戏元素种类和游戏元素在所述棋盘上的分布等，类图像特征用来对游戏元素的分布进行建模，不仅可以表达游戏元素类型在棋盘上的布局，并且能表达出游戏元素数量的分布情况，该向量特征可以用于表征通关限定信息用于表征当前关卡通关的必要条件。

在一些实施例中，根据已知闯关信息生成第一类图像特征和向量特征，以及根据已知闯关信息和未知闯关信息生成第二类图像特征，具体为：

对已知闯关信息进行特征提取，生成多通道的第一类图像特征；

对通关限定信息进行特征转换，生成向量特征；

对已知闯关信息和未知闯关信息进行特征提取，生成多通道的第二类图像特征。从而将游戏元素在棋牌中未知的布局设置到特征中，从而可以根据更多的特征训练出更加完善的第二预设模型。

步骤S105：通过第一预设模型基于所述第一类图像特征和所述向量特征获取游戏角色执行策略的第一预测值。

在得到第一类图像特征、第二类图像特征和向量特征之后，可以基于预设的强化学习逻辑，根据第一类图像特征、第二类图像特征和向量特征，对第一预设模型进行训练更新。其中，强化学习逻辑可基于实际情况进行设置，本申请对此不作具体限定。

其中，第一预设模型的类型可以根据实际需要进行灵活设置，具体内容在此处不作限定，例如，第一预设模型可以包括残差网络、全连接网络以及两层全连接层(FullyConnected，FC)，该全连接网络可以包括三层全连接层。残差网络用于处理类图像特征，全连接网络用于处理向量特征。

在一些实施方式中，通过第一预设模型基于所述第一类图像特征和所述向量特征获取游戏角色执行策略的第一预测值，包括：将所述第一类图像特征输入所述第一预设模型的残差网络进行卷积操作，以及将所述向量特征输入所述第一预设模型的全连接网络进行处理；将所述第一预设模型的残差网络和全连接网络的输出结果进行拼接，得到第一拼接结果；通过所述第一预设模型的两层全连接层基于所述第一拼接结果，获取所述游戏角色的动作标签的第一概率分布及第一价值评估值，得到执行策略的第一预测值。

例如，如图4所示，首先可以将第一类图像特征(即图4中的类图像特征)输入第一预设模型的残差网络(ResNet)进行卷积操作，得到第一特征，以及将向量特征输入第一预设模型的全连接网络进行三层全连接层FC的处理，得到第二特征；将第一预设模型的残差网络输出的第一特征和全连接网络的输出第二特征进行拼接Concat，得到第一拼接结果。然后通过第一预设模型的两层全连接层FC基于第一拼接结果，获取获取所述游戏角色的动作标签的第一概率分布及以及第一价值评估值，得到执行策略的第一预测值。其中，第一价值评估值为Value，该Value用于表征游戏角色闯关操作为成功或失败。以便根据动作标签的第一概率分布和胜率，对第一预设模型的参数进行更新。需要说明的是，第一预设模型参数的更新算法可基于实际情况进行设置，本申请对此不作具体限定，可选地，基于反向传播算法更新第一预设模型的参数。

步骤S106：通过第二预设模型基于所述第二类图像特征和向量特征，获取所述游戏元素执行策略的第二预测值。

其中，第二预设模型的类型可以根据实际需要进行灵活设置，具体内容在此处不作限定，例如，第二预设模型可以包括残差网络、全连接网络以及两层全连接层，该全连接网络可以包括三层全连接层。残差网络用于处理类图像特征，全连接网络用于处理向量特征。

在一些实施方式中，通过第二预设模型基于第二类图像特征和向量特征，获取游戏角色执行策略的第二预测值，包括：将第二类图像特征输入第二预设模型的残差网络进行卷积操作，以及将向量特征输入第二预设模型的全连接网络进行处理；将第二预设模型的残差网络和全连接网络的输出结果进行拼接，得到第二拼接结果；通过第二预设模型的两层全连接层基于第二拼接结果，获取所述游戏角色的动作标签的第二概率分布及第二价值评估值，得到执行策略的第二预测值。

例如，如图4所示，首先可以将第二类图像特征(即图4中的类图像特征)输入第二预设模型的残差网络(ResNet)进行卷积操作，得到第三特征，以及将向量特征输入第二预设模型的全连接网络进行三层全连接层FC的处理，得到第四特征；将第二预设模型的残差网络输出的第三特征和全连接网络的输出第四特征进行拼接Concat，得到第二拼接结果。然后通过第二预设模型的两层全连接层FC基于第二拼接结果，获取所述游戏角色的动作标签的第二概率分布及第二价值评估值，得到执行策略的第二预测值，得到执行策略的第二预测值。其中，第二价值评估值为Value，该Value用于表征游戏角色闯关操作为成功或失败。

步骤S107：基于所述第一预测值和第二预测值对所述第一预设模型进行训练，以获取目标AI模型。

在得到第一预测值和第二预测值后，基于第一预测值和第二预测值对第一预设模型进行训练，得到训练后的第一预设模型。在训练第一预设模型的过程中，可以使用第二预设模型的概率分布作为真实值(ground truth，GT)，让第一预设模型去学习第二预设模型的概率分布。具体的，当第二预设模型的概率分布为δ，第一预设模型的概率分布为τ，可以使用L2损失函数计算τ相对于δ的距离，若两个预测值越接近，则损失值loss越小，从而使得第二预设模型的策略接近于第二预设模型的策略。以及，可以让第一预设模型所预测的value值去拟合第二预设模型所预测的value值，因为第二预设模型在完美信息的情况下预测的value值相对准确，而在强化学习中，往往value预测的越准，做出的策略行为也会更加有效，鲁棒。具体的，本实施例可以对第一预设模型和第二预设模型所输出的value计算一个L2 distance loss，使第一预设模型预测的value值逼近第二预设模型。

在一些实施方式中，基于所述第一预测值和第二预测值对所述第一预设模型进行训练，以获取目标AI模型，包括：获取所述游戏角色执行策略获取对应的奖励值；通过预设损失函数基于所述奖励值对所述第一价值评估值和所述第二价值评估值进行收敛，并调整所述第一预设模型的各个参数从而获取目标AI模型。

为了提高训练的准确性，对模型的训练可以使用近端策略优化算法(ProximalPolicy Optimization，PPO)，以及使用L2作为价值损失函数优化value值(即价值评估值，也可以称为胜率)，从而产生更准确决策Policy。

三消游戏为例，训练的时候可以根据游戏角色当前的动作对下一步动作进行预测，并同时使用Surrogate loss和entropy loss优化policy。此外，还可以加入监督损失函数，使用第二预设模型的policy输出的概率值作为ground truth，与第一预设模型输出的概率值计算L2 distance，使第一预设模型的概率值接近第二预设模型的概率值，从而使第一预设模型的性能达到第二预设模型的性能。

具体地，可以获取游戏角色执行策略获取对应的奖励值value，该奖励值value可以是真实值，例如，本局游戏角色赢还是输，通过预设损失函数基于奖励值对第一价值评估值和第二价值评估值进行收敛，该预设损失函数可以根据实际需要进行灵活设置，例如该预设损失函数可以是smooth L1 loss损失函数或L2 distance loss损失函数，通过预设损失函数计算第一价值value1和评估值value之间的距离＝|value1|²-|value|²，以及计算第一价值评估值value1和第二价值评估值value2之间的距离＝|value1|²-|value2|²，该距离即为损失值，然后确定损失值是否小于或等于预设的损失阈值，如果该损失值小于或等于预设的损失阈值，则确定第一价值评估值和第二价值评估值收敛，若损失值大于预设的损失阈值，则确定第一价值评估值和第二价值评估值未收敛。需要说明的是，上述损失阈值可基于实际情况进行设置，本申请对此不作具体限定。

当第一价值评估值和第二价值评估值收敛时，可以调整第一预设模型的各个参数至合适值，得到训练后的第一预设模型，即目标AI模型。

在一些实施方式中，调整第一预设模型的各个参数至合适值，得到训练后的第一预设模型可以包括：调整第一预设模型的各个参数至合适值，得到候选第一预设模型；对候选第一预设模型进行测评，得到测评结果；当测评结果满足预设条件时，将第一预设模型作为目标AI模型。

为了提高模型的可靠性，可以对训练得到的候选第一预设模型进行测评，例如，对于训练得到的候选第一预设模型，可以利用候选第一预设模型与基础模型对弈，该基础模型可以是基于监督学习训练的baseline模型、随机初始化模型或用户打牌的数据模型等，完成对弈后，得到对弈的动作标签分布以及价值评估值后，可以得到测评结果。例如，可以随机分配第一预设模型所在的位置，在与两个基础模型进行10000局对弈后，最终计算第一预设模型的平均概率分布和胜率，从而得到第一预设模型的性能。当测评结果满足预设条件时，将第一预设模型作为训练后的第一预设模型，该预设条件可以根据实际需要进行灵活设置，例如当10000局的测评结果中胜局大于9000局，则确定满足预设条件。当测评结果未满足预设条件时，重新对候选第一预设模型进行训练，直至对候选第一预设模型的测评结果满足预设条件，得到训练后的第一预设模型，从而可以有效评测第一预设模型是否收敛。

在一些实施方式中，所述第一预测值和所述第二预测值通过预测函数计算获取，所述预测函数为：

或/>

其中，V_t表示预测值；R表示环境反馈值，过关时R为1，未过关时R为-1；S_l表示通关关卡后剩余步数；S_a表示当前关卡的总步数；T_l,1表示未过关时第一个目标剩余的数量；T_a,1表示第一个目标的总数量；T_l,2表示未过关时第二个目标剩余的数量；T_a,2表示未过关时第二个目标的总数量。

将消除游戏的未通关情况下的剩余步数以及通关情况下的剩余目标数考虑作为计算value目标的因素，使得模型更加拟人。

本实施例实现了基于目标AI模型的消除类游戏在模拟人类进行消除类游戏闯关时，并且能够超过人类水平，最大化对弈收益。

请参阅图5，图5为本申请提供的一种模型使用方法，应用于服务器，该模型为采用上述的AI模型训练方法进行训练得到的模型，并部署在服务器中。

如图5所示，所述模型使用方法，包括：

步骤S201：获取更新关卡配置数据，根据所述更新关卡配置数据生成对应的更新关卡；

步骤S202：获取更新关卡对应的初始关卡信息，其中，所述初始关卡信息包括关卡元素信息和通关限定信息，所述关卡元素信息用于表征当前关卡的棋盘布局及用户可操控的游戏元素种类和游戏元素在所述棋盘上的分布，所述通关限定信息用于表征当前关卡通关的必要条件；

步骤S203：根据所述关卡元素信息生成目标类图像特征，并根据所述通关限定信息生成目标向量特征；

步骤S204：通过所述目标AI模型，根据所述目标类图像特征和所述目标向量特征获取游戏角色执行策略的概率分布；

步骤S205：根据所述概率分布确定目标策略，控制所述游戏角色执行所述目标策略。

示例性地，获取的目标AI模型在对应关卡上的闯关水平远高于普通游戏玩家的水平，因此，获取的目标AI模型可以用于辅助新关卡的设计开发。

在新关卡开发后需要对新关卡进行测评，以获取新关卡的闯关胜率，从而根据新关卡的闯关胜率调整新关卡对应的关卡配置数据，从而使得游戏的可玩性更强。

在对新关卡进行测评时，服务器获取更新关卡配置数据并根据所述更新关卡配置数据生成对应的更新关卡。

在更新关卡生成后，获取该更新关卡对应的初始关卡信息，其中，所述初始关卡信息包括关卡元素信息和通关限定信息，所述关卡元素信息用于表征当前关卡的棋盘布局及用户可操控的游戏元素种类和游戏元素在所述棋盘上的分布，所述通关限定信息用于表征当前关卡通关的必要条件，包括初始状态时关卡的总步数、关卡的剩余步数、关卡的目标元素数量和类型。

在获取到更新关卡对应的初始关卡信息后，对初始关卡信息进行特征提取，具体为，根据关卡元素信息生成目标类图像特征，并根据所述通关限定信息生成目标向量特征。

将获取的目标类图像特征和目标向量特征输入到目标AI模型中，从而获取游戏角色执行策略的概率分布，并根据所述概率分布确定目标策略，控制所述游戏角色执行所述目标策略，从而获得更新关卡的闯关胜率。

利用目标AI模型对更新关卡进行10000次闯关测试，从而可以获取更新关卡的闯关胜率平均值，从而可以根据平均值判断是否需要对更新关卡的关卡配置数据进行进一步调整。

参阅图6，图6是本申请实施例提供的一种计算机设备的结构示意性框图。

如图6所示，该计算机设备30包括处理器301和存储器302，处理器301和存储器302通过总线连接，该总线比如为I2C(Inter-integrated Circuit)总线。

具体地，处理器301可以是微控制单元(Micro-controller Unit，MCU)、中央处理单元(Central Processing Unit，CPU)或数字信号处理器(Digital Signal Processor，DSP)等。

存储器302可以是Flash芯片、只读存储器(ROM，Read-Only Memory)磁盘、光盘、U盘或移动硬盘等。

其中，所述处理器用于运行存储在存储器中的计算机程序，并在执行所述计算机程序时，如下方法步骤：

根据训练样本数据获取已知闯关信息和未知闯关信息；

根据已知闯关信息生成第一类图像特征和向量特征，并根据未知闯关信息和已知闯关信息生成第二类图像特征；通过第一预设模型基于所述第一类图像特征和所述向量特征获取游戏角色执行策略的第一预测值；

通过第二预设模型基于所述第二类图像特征和所述向量特征获取所述游戏角色执行策略的第二预测值；

在部分实施例中，处理器301在获取目标应用程序的关卡配置数据，并根据所述关卡配置数据生成对应的关卡时，具体包括：

根据预设函数关系选择从关卡配置数据集中选择对应的关卡配置数据，所述预设函数关系是关卡配置数据被选中概率与关卡通关率的对应关系；

根据关卡配置数据生成对应的关卡。

在部分实施例中，所述预设函数关系为：P(i)＝e^1-W(i)/∑e^1-W(i)，其中，P(i)表示第i关卡配置数据被选中概率，W(i)表示第i关卡的通关率。

在部分实施例中，处理器301在通过第一预设模型基于所述第一类图像特征和所述向量特征获取游戏角色执行策略的第一预测值时，包括：

将所述第一类图像特征输入所述第一预设模型的残差网络进行卷积操作，以及将所述向量特征输入所述第一预设模型的全连接网络进行处理；

将所述第一预设模型的残差网络和全连接网络的输出结果进行拼接，得到第一拼接结果；

通过所述第一预设模型的两层全连接层基于所述第一拼接结果，获取所述游戏角色的动作标签的第一概率分布及第一价值评估值，得到执行策略的第一预测值。

在部分实施例中，处理器301在通过第二预设模型基于所述第二类图像特征和向量特征，获取所述游戏元素执行策略的第二预测值时，包括：

将所述第二类图像特征输入所述第二预设模型的残差网络进行卷积操作，以及将所述向量特征输入所述第二预设模型的全连接网络进行处理；

将所述第二预设模型的残差网络和全连接网络的输出结果进行拼接，得到第二拼接结果；

通过所述第二预设模型的两层全连接层基于所述第二拼接结果，获取所述游戏角色的动作标签的第二概率分布及第二价值评估值，得到执行策略的第二预测值。

在部分实施例中，处理器301在基于所述第一预测值和第二预测值对所述第一预设模型进行训练，以获取目标AI模型时，包括：

获取所述游戏角色执行策略获取对应的奖励值；

通过预设损失函数基于所述奖励值对所述第一价值评估值和所述第二价值评估值进行收敛，并调整所述第一预设模型的各个参数从而获取目标AI模型。

在部分实施例中，所述第一预测值和所述第二预测值通过预测函数计算获取，所述预测函数为：

或/>

在部分实施例中，处理器301在所述调整所述第一预设模型的各个参数从而获取目标AI模型时，包括：

调整所述第一预设模型的各个参数至合适值，得到候选第一预设模型；

对所述候选第一预设模型进行测评，得到测评结果；

当所述测评结果满足预设条件时，将所述候选第一预设模型作为目标AI模型。

在部分实施例中，处理器301还用于执行如下方法步骤：

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见上文针对AI模型训练方法及模型使用方法的详细描述，此处不再赘述。

本申请的实施例中还提供一种存储介质，该存储介质即为计算机可读存储介质，计算机可读存储介质存储有计算机程序，该计算机程序中包括程序指令，处理器执行程序指令，实现本申请实施例提供的任一项AI模型训练方法或模型使用方法。

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

其中，计算机可读存储介质可以是前述实施例的计算机设备的内部存储单元，例如计算机设备的硬盘或内存。计算机可读存储介质也可以是计算机设备的外部存储设备，例如计算机设备上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。

由于该计算机可读存储介质中所存储的计算机程序，可以执行本申请实施例所提供的任一种AI模型训练方法或模型使用方法，因此，可以实现本申请实施例所提供的任一种AI模型训练方法或模型使用方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

应当理解，在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。以上所述，仅是本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种AI模型训练方法，其特征在于，包括：

根据训练样本数据获取已知闯关信息和未知闯关信息；

根据已知闯关信息生成第一类图像特征和向量特征，并根据未知闯关信息和已知闯关信息生成第二类图像特征；

通过第一预设模型基于所述第一类图像特征和所述向量特征获取游戏角色执行策略的第一预测值；

基于所述第一预测值和第二预测值对所述第一预设模型进行训练，以获取目标AI模型；

所述通过第一预设模型基于所述第一类图像特征和所述向量特征获取游戏角色执行策略的第一预测值，包括：

通过所述第一预设模型的两层全连接层基于所述第一拼接结果，获取所述游戏角色的动作标签的第一概率分布及第一价值评估值，得到执行策略的第一预测值；

所述通过第二预设模型基于所述第二类图像特征和向量特征，获取所述游戏元素执行策略的第二预测值，包括：

通过所述第二预设模型的两层全连接层基于所述第二拼接结果，获取所述游戏角色的动作标签的第二概率分布及第二价值评估值，得到执行策略的第二预测值；

所述第一预测值和所述第二预测值通过预测函数计算获取，所述预测函数为：

或/>

2.根据权利要求1所述的AI模型训练方法，其特征在于，获取目标应用程序的关卡配置数据，并根据所述关卡配置数据生成对应的关卡，包括：

根据关卡配置数据生成对应的关卡。

3.根据权利要求2所述的AI模型训练方法，其特征在于，所述预设函数关系为：其中，P(i)表示第i关卡配置数据被选中概率，W(i)表示第i关卡的通关率。

4.根据权利要求1所述的AI模型训练方法，其特征在于，所述基于所述第一预测值和第二预测值对所述第一预设模型进行训练，以获取目标AI模型，包括：

获取所述游戏角色执行策略获取对应的奖励值；

5.根据权利要求4所述的AI模型训练方法，其特征在于，所述调整所述第一预设模型的各个参数从而获取目标AI模型，包括：

对所述候选第一预设模型进行测评，得到测评结果；

6.一种模型使用方法，其特征在于，应用于服务器，所述模型为采用权利要求1至5任一项所述的AI模型训练方法进行训练得到的目标AI模型，并部署在所述服务器中；所述方法包括：

7.一种计算机设备，其特征在于，包括处理器和存储器，所述存储器中存储有计算机程序，所述处理器调用所述存储器中的计算机程序时执行如权利要求1至5任一项所述的AI模型训练方法，或者执行如权利要求6所述的模型使用方法。

8.一种存储介质，其特征在于，所述存储介质用于存储计算机程序，所述计算机程序被处理器加载以执行权利要求1至5任一项所述的AI模型训练方法，或者执行如权利要求6所述的模型使用方法。