CN115888119A

CN115888119A - 一种游戏ai训练方法、装置、电子设备及存储介质

Info

Publication number: CN115888119A
Application number: CN202211263860.5A
Authority: CN
Inventors: 李赐兴; 季兴; 汤善敏
Original assignee: Super Parameter Technology Shenzhen Co ltd
Current assignee: Super Parameter Technology Shenzhen Co ltd
Priority date: 2022-10-14
Filing date: 2022-10-14
Publication date: 2023-04-04

Abstract

本发明提供了一种游戏AI训练方法、装置、电子设备及存储介质，通过引入对游戏场景中所有玩家的关注，同时对一个对局中所有玩家的宏观决策进行预测，可以加强游戏AI对其他玩家行为的感知，充分利用每一局游戏中所有玩家的数据，有效提升模型训练中数据利用率，提高游戏AI的拟人性，使得游戏AI更具有真实性。可以有效应用于各种竞技游戏的的不同应用场景，提高游戏玩家的用户体验。

Description

一种游戏AI训练方法、装置、电子设备及存储介质

技术领域

本发明涉及人工智能领域，具体而言，涉及一种游戏AI训练方法、装置、电子设备及存储介质。

背景技术

随着人工智能(Artificial Intelligence,AI)的快速发展，如今已有许多将人工智能应用于游戏的案例，例如著名的谷歌alphago智能围棋AI，腾讯的绝悟王者荣耀智能AI等。

对于游戏AI来说，游戏中最大的变数永远是其他人类玩家。因此，如何提高对其他玩家行为的感知，对AI来说是非常重要的事情。根据游戏当前状态，做出合理的行为，是相对简单的事情，难点在于，AI要如何根据队友和对手即将做出的动作，进行对应的调整。除此之外，更难的是，要如何预测队友和对手在接下来一段时间内得战略目标，并做出恰当得配合和规避。简单来说，目前的游戏AI往往更擅长快速反应，细微的操作。但是在感知他人，整体策略上往往不太擅长。

在竞技游戏中，操作和大局观对于高手来说都是不可或缺的。尤其是在回合制的游戏中，大局观更是重中之重。要训练出高水平的游戏AI，仅仅有操作是不够的。因此，针对竞技游戏AI，研究和开发高水平的、拟人化的、对他人有高感知的AI系统，是目前亟待解决的问题。

目前，针对上述需求采用的技术方案是一个基于深度神经网络和监督学习的MOBA游戏AI方案。该方案基于分层的宏观策略模型，利用全连接网络和卷积网络抽象主干特征，然后通过一个分层的网络，分别输出宏观决策和微观决策。然而该方案目前存在以下缺点：对数据利用效率不高，游戏场景中通常有多个玩家，而该方案只利用了其中一个玩家的标签；局部感知能力不强，既不清楚游戏队友将做出什么行动加以配合，也无法推测敌人将做出什么行动，提前规避。整体感知能力欠缺，不清楚队友和敌人在接下来一段时间内的战略目标，缺少大局观。

发明内容

为了改善上述问题，本发明提供了一种游戏AI训练方法、装置、电子设备及存储介质。

本发明实施例的第一方面，提供了一种游戏AI训练方法，所述方法包括：

提取游戏环境中的所有游戏角色的特征信息，所述特征信息包括图像特征和向量特征，所述游戏角色包括由游戏AI控制的游戏角色和由人类玩家控制的游戏角色；

将所述特征信息输入到策略模型中；

所述策略模型根据输入的内容输出所有游戏角色当前的决策策略，所述决策策略包括宏观决策和微观行动；

控制由游戏AI控制的游戏角色执行与所述决策策略中对应的交互动作，与游戏环境进行交互。

可选地，所述提取游戏环境中的智能体的特征信息具体包括：

基于所述游戏角色在所述游戏环境中的位置数据提取图像特征；

基于所述游戏角色在所述游戏环境中的游戏基本对局数据提取向量特征。

可选地，所述策略模型根据输入的内容输出所有游戏角色当前的决策策略的步骤，具体包括：

将所述向量特征经过多层全连接层进行抽象处理变成向量；

将所述图像特征经过多层卷积层处理后，再通过一个卷积层编码后经过拉平操作变成向量；

将处理后的向量特征和图像特征通过全连接层的合并成为主干特征；

将所述主干特征输入多层多监督的宏观决策网络，输出所有游戏角色的宏观决策；

将所述宏观决策与所述主干特征拼接后，输入多层多监督的微观决策网络，得到所有游戏角色的微观行动。

可选地，所述宏观决策网络由一个参数量较少的MLP网络构成，经过多层全连接层后，通过N个全连接层分别输出N个宏观决策的结果，其中，N为游戏环境中游戏角色的数量。

可选地，所述微观决策网络由一个参数量较大的MLP网络构成，经过多层的全连接层后，通过N个全连接层分别输出N个微观决策的结果。

可选地，所述策略模型的训练方法，包括：

获取整场游戏的对局数据，读取其中人类玩家控制的游戏角色的对局数据，所述对局数据包含整场游戏每一帧所有的信息；

按一定的时间周期或预设策略，依次提取每个游戏角色的特征信息和对应的行动标签；

将所述特征信息和行动标签存储到指定数据集中，特征信息和行动标签分别保存到两个不同的集合，通过过唯一的游戏对局ID和唯一的游戏帧数建立特征和标签的映射关系；

在所述数据集上训练策略模型，直到模型收敛时，保存模型参数文件，通过判断loss下降是否达到平稳，判断模型是否收敛。

可选地，所述标签包括宏观决策标签和微观行为标签，提取游戏角色的行动标签时，先提取宏观决策标签，再根据宏观决策标签的内容，提取对应的微观行为标签。

本发明实施例的第二方面，提供了一种游戏AI训练装置，所述装置包括：

特征提取单元，用于提取游戏环境中的所有游戏角色的特征信息，所述特征信息包括图像特征和向量特征，所述游戏角色包括由游戏AI控制的游戏角色和由人类玩家控制的游戏角色；

动作决策单元，用于将所述特征信息输入到策略模型中，所述策略模型根据输入的内容输出所有游戏角色当前的决策策略，所述决策策略包括宏观决策和微观行动；

动作交互单元，用于控制由游戏AI控制的游戏角色执行与所述决策策略中对应的交互动作，与游戏环境进行交互。

可选地，所述装置还包括模型训练单元，用于对策略模型的训练，所述策略模型的训练方法，包括：

在所述数据集上训练策略模型，直到模型收敛时，保存模型参数文件，通过判断loss下降是否达到平稳，判断模型是否收敛

本发明实施例的第三方面，提供了一种电子设备，其特征在于，包括：

一个或多个处理器；存储器；一个或多个应用程序，其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序配置用于执行如第一方面所述的方法。

本发明实施例的第四方面，提供了一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有程序代码，所述程序代码可被处理器调用执行如第一方面所述的方法。

综上所述，本发明提供了一种游戏AI训练方法、装置、电子设备及存储介质，通过引入对游戏场景中所有玩家的关注，同时对一个对局中所有玩家的宏观决策进行预测，可以加强游戏AI对其他玩家行为的感知，充分利用每一局游戏中所有玩家的数据，有效提升模型训练中数据利用率，提高游戏AI的拟人性，使得游戏AI更具有真实性。可以有效应用于各种竞技游戏的的不同应用场景，提高游戏玩家的用户体验。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明实施例的游戏AI训练方法及装置的应用场景示意图；

图2为本发明实施例的游戏AI训练方法的方法流程图；

图3为本发明实施例的策略模型根据输入的内容输出所有游戏角色当前的决策策略的方法流程图；

图4为本发明实施例的提供的策略模型的训练方法的方法流程图；

图5为本发明实施例的游戏AI训练装置的功能模块框图；

图6为本发明实施例的用于执行根据本申请实施例的游戏AI训练方法的电子设备的结构框图；

图7是本发明实施例的用于保存或者携带实现根据本申请实施例的游戏AI训练方法的程序代码的计算机可读存储介质的结构框图。

图标：

AI服务器100；游戏环境服务器200；特征提取单元110；动作决策单元120；动作交互单元130；模型训练单元140；电子设备300；处理器310；存储器320；计算机可读存储介质400；程序代码410。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本发明将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中，提供许多具体细节从而给出对本发明的实施方式的充分理解。然而，本领域技术人员将意识到，可以实践本发明的技术方案而省略所述特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知技术方案以避免喧宾夺主而使得本发明的各方面变得模糊。

此外，附图仅为本发明的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

对本发明实施例进行进一步详细说明之前，对本发明实施例中涉及的名词和术语进行说明，本发明实施例中涉及的名词和术语适用于如下的解释。

(1)响应于，用于表示所执行的操作所依赖的条件或者状态，当满足所依赖的条件或状态时，所执行的一个或多个操作可以是实时的，也可以具有设定的延迟；在没有特别说明的情况下，所执行的多个操作不存在执行先后顺序的限制。

(2)基于，用于表示所执行的操作所依赖的条件或者状态，当满足所依赖的条件或状态时，所执行的一个或多个操作可以是实时的，也可以具有设定的延迟；在没有特别说明的情况下，所执行的多个操作不存在执行先后顺序的限制。

(3)模型训练，对图像数据集进行多分类学习。该模型可采用Tensor Flow、torch等深度学习框架进行构建，使用CNN等神经网络层的多层结合组成多分类模型。模型的输入为图像经过open CV等工具读取形成的三通道或原通道矩阵，模型输出为多分类概率，通过soft max等算法最终输出网页类别。在训练时，模型通过交叉熵等目标函数向正确趋势逼近。

(4)神经网络(Neural Network，NN)：人工神经网络(Artificial NeuralNetwork，ANN)，简称神经网络或类神经网络，在机器学习和认知科学领域，是一种模仿生物神经网络(动物的中枢神经系统，特别是大脑)的结构和功能的数学模型或计算模型，用于对函数进行估计或近似。

(5)游戏环境：是应用程序在终端上运行时显示(或提供)的游戏环境。该游戏环境可以是对真实世界的仿真环境，也可以是半仿真半虚构的三维环境，还可以是纯虚构的三维环境。游戏环境可以是二维游戏环境、2.5维游戏环境和三维游戏环境中的任意一种，下述实施例以游戏环境是三维游戏环境来举例说明，但对此不加以限定。可选地，该游戏环境还用于至少两个虚拟对象之间的游戏环境对战。可选地，该游戏环境还用于至少两个虚拟对象之间通过虚拟球体的滚动进行对战。可选地，该游戏环境还可以是不限于枪战类游戏、跑酷类游戏、竞速类游戏、多人在线战术竞技游戏(Multiplayer Online Battle Arena，MOBA)、竞速游戏(Racing Game，RCG)以及体育运动类游戏(sport game，SPG)。采用本申请提供的经过训练的游戏模型，可以部署在前述各类游戏场景所对应的游戏服务器中，用于生成实时的游戏策略，执行相应的动作信息，模拟虚拟用户的操作，与实际参与游戏的用户的共同完成游戏环境中的不同类型的游戏。

(6)动作信息：以游戏用户使用第一人称或第三人称参与速度的竞争，包含赛车、飞行等竞速游戏为例，动作信息指将控制运动物体的方向键等作为动作的操作指令，对于角色扮演类的游戏，动作信息是指在游戏环境通过发射子弹进行攻击的虚拟武器，或者发射箭簇的虚拟弓箭、虚拟弹弓，虚拟对象在游戏环境中可以对虚拟枪械进行捡拾，并通过捡拾得到的虚拟枪械进行攻击。

游戏AI可以是通过客户端上的操作进行控制的用户虚拟对象，也可以是通过训练设置在游戏环境对战中的人工智能(AI Artificial Intelligence)，还可以是设置在游戏环境互动中的非用户虚拟对象(NPC Non-Player Character)。可选地，该虚拟对象可以是在游戏环境中进行竞技的虚拟人物。可选地，该游戏环境中参与互动的虚拟对象的数量可以是预先设置的，也可以是根据加入互动的客户端的数量动态确定的。

实施例

请参阅图1，本实施例提供的一种游戏AI训练方法、装置的应用场景示意图。

如图1所示，本发明提供的一种游戏AI训练方法、装置，应用于AI服务器100和游戏环境服务器200，其中AI服务器100用于进行算法模型的训练，游戏环境服务器200用于实现游戏环境。实际运行时，AI服务器100与游戏环境服务器200连接，游戏环境服务器200将当前游戏环境的状态发送给AI服务器100，AI服务器100提取游戏环境中有用的信息并转化为模型能够识别的特征，并将这些特征传给策略模型进行预测，最后预测的结果发送给游戏环境服务器200具体执行。

需要注意的是，AI服务器100和游戏环境服务器200既可以是设置在云端的云服务器，也可以是设置在本地的本地服务器。AI服务器100和游戏环境服务器200既可以是在功能上进行区分同时基于同一物理设备的服务器，也可以是在功能上进行区分同时基于不同物理设备的服务器。

在上述基础上，如图2所示，为本发明一实施例提供的游戏AI训练方法，该方法包括：

步骤S101，提取游戏环境中的所有游戏角色的特征信息，所述特征信息包括图像特征和向量特征；所述游戏角色包括由游戏AI控制的游戏角色和由人类玩家控制的游戏角色。

其中，图像特征和向量特征分别对应了游戏环境中不同维度的信息。具体地，图像特征主要基于游戏角色所在环境位置对应的图像内容，因此基于所述游戏角色在所述游戏环境中的位置数据提取图像特征。向量特征主要基于环境中的属性相关的内容，基于所述游戏角色在所述游戏环境中的游戏基本对局数据提取向量特征。向量特征由1维向量构成，主要包含游戏基本对局数据。图像特征由2维向量构成，包含空间信息。

以一个具体的游戏环境为例，图像特征用于表达游戏内的空间信息，如多人联机在线竞技游戏(MOBA)中不同角色在小地图上的分布。在一个二维矩阵中，若某个位置的值为1则代表该位置有对应的物体，若该值为0表示该位置为空。模型的向量特征则包括：当前角色特征，在竞技游戏中常常包括角色的血量、等级、攻击、防御；其他角色特征，包括队友和敌人的游戏状态；游戏中其他单位的特征，如怪物等；全局特征，如游戏时长等。

游戏环境中的游戏角色根据控制者的不同分为两类，分别是由游戏AI控制的游戏角色和由人类玩家控制的游戏角色。在进行特征信息提取时，针对的是游戏环境中的所有游戏角色。

步骤S102，将所述特征信息输入到策略模型中。

在游戏环境中，根据游戏的玩家数量要求和参与的人类玩家的数量，通常会对应生成多个由游戏AI控制的游戏角色进行游戏，由游戏AI通过可以预先配置的策略模型确定决策策略，策略模型做出的决策策略要充分考虑其于对队友和敌人有着更好的感知能力，可以更多的配合玩家进行游戏，因此需要将所有游戏角色的特征信息作为输入，输入到策略模型中。

游戏AI的策略模型配置，在部署游戏环境的时候进行，使用之前已经训练过并保存的历史模型实现。作为本发明实施例的优选实施方式，选择模型时可以根据游戏环境中人类玩家的历史游戏表现情况进行选择。

例如，温暖局：对于游戏中出现连败的玩家，可以引入多个可互相感知的AI来进行对局，从而温暖用户。以往的游戏AI，往往通过全力游戏，力争胜利的方式带领玩家获得胜利。但是对于连败的玩家来说，这样的游戏体验并不一定非常好，也可能是反而使得玩家成为局外人。本游戏AI由于对队友和敌人有着更好的感知能力，可以更多的配合玩家进行游戏，辅助玩家达成出色表现，带来更好的游戏体验。

再例如，新手教学：对于新手玩家，可以通过AI来进行教学讲解。本游戏AI不仅仅给出自己当前的最佳决策，也会根据当前对其他玩家的行为，进行未来一段时间内他人目标的预测。因此可以用于新手教学，通过评估新手玩家当前行为的意图，给玩家的决策打分，同时给出当前的最佳的行为。例如当其他队友都在进攻时，而玩家选择了防守，AI会给玩家的决策评分，并给出正确的意见，既配合队友进攻某个目标。

步骤S103，所述策略模型根据输入的内容输出所有游戏角色当前的决策策略，所述决策策略包括宏观决策和微观行动。

将特征信息输入到策略模型中后，策略模型会根据所输入的特征信息输出相应决策策略。针对不同的游戏角色，由于其所述的具体位置不同，自身的属性不同，对应给出的决策策略也存在差异。针对游戏场景的不同游戏AI，分别根据输出结果，确定与自己对应的决策策略。

决策策略包括两个部分的信息，宏观决策对应的是当前情况下宏观层面应该采取怎么样行动，例如移动到某个位置或进攻某个目标等。微观行动对应的是基于宏观决策的内容，具体的操作动作。

作为本发明实施例的优选实施方式，根据游戏境中的游戏角色执行动作的复杂度，可以将微观行动再具体分为多个层级，分别对应具体操作动作的不同维度，以两个层级为例，基于上述的宏观决策，微观行动的第一层级表示当前行为，包括移动、攻击、无动作、释放技能等。第二层表示当前动作下的子标签，如移动的位置，攻击的目标，释放技能的方向、位置、目标等。

步骤S104，控制由游戏AI控制的游戏角色执行与所述决策策略中对应的交互动作，与游戏环境进行交互。

策略模型会根据输入的内容输出所有游戏角色当前的决策策略，游戏AI分别根据输出结果，确定与自己对应的决策策略。然后控制对应的游戏角色在游戏环境中执行对应的交互动作，即微观行动的内容，实现与游戏环境(包括其他玩家、固定NPC、场景道具等)进行交互。

作为本发明实施例的优选实施方式，所述策略模型根据输入的内容输出所有游戏角色当前的决策策略的具体方法如图3所示，包括：

步骤S201，将所述向量特征经过多层全连接层进行抽象处理变成向量；

步骤S202，将所述图像特征经过多层卷积层处理后，再通过一个卷积层编码后经过拉平操作变成向量；

步骤S203，将处理后的向量特征和图像特征通过全连接层的合并成为主干特征；

步骤S204，将所述主干特征输入多层多监督的宏观决策网络，输出所有游戏角色的宏观决策。

步骤S205，将所述宏观决策与所述主干特征拼接后，输入多层多监督的微观决策网络，得到所有游戏角色的微观行动。

在本实施例中，向量特征由1维向量构成，主要包含游戏基本对局数据，在模型中主要用MLP(多层感知机)处理。图像特征由2维向量构成，包含空间信息，在模型中主要用CNN来处理。

向量特征与图像特征分别经过上述两个网络以后，两种不同的特征已经转变为两个包含不同高维信息的特征，把两种高维特征拼接到一起获得主干特征，再经过拉平的操作。主干特征也是一个向量。拉平操作就是将一个二维矩阵重新排列成一维的向量，只有一步操作。主干特征由两部分拼接获得。

所述宏观决策网络由一个参数量较少的MLP网络构成，经过多层全连接层后，通过N个全连接层分别输出N个宏观决策的结果，其中，N为游戏环境中游戏角色的数量。

所述微观决策网络由一个参数量较大的MLP网络构成，经过多层的全连接层后，通过N个全连接层分别输出N个微观决策的结果。

在本发明提供的实施例中，策略模型为神经网络模型，可以以离线训练的方式，根据大量人类玩家的交流与游戏数据，通过监督学习训练得到。具体地训练训练方法如图4所示，包括：

步骤S206，获取整场游戏的对局数据，读取其中人类玩家控制的游戏角色的对局数据，所述对局数据包含整场游戏每一帧所有的信息；

步骤S207，按一定的时间周期或预设策略，依次提取每个游戏角色的特征信息和对应的行动标签；

作为本实施例的优先实施方式，提取特征信息和对应的行动标签可以逐帧或按时间节点顺序，依次提取每个玩家的特征和对应的标签。该过程挑选重要时间节点，如更多保留攻击、释放技能等行为，减少长距离移动等行为，以此提高训练数据的使用效率。

本实施中，策略模型采用多监督策略模型从每一局游戏中，所有人类玩家数据中提取游戏相关特征与对应的行动标签。特征包括向量特征、图像特征，利用所有玩家数据进行监督训练，分层训练宏观决策与微观决策，最后得到AI策略模型。AI策略模型包含了CNN、与MLP(多层感知机)。

其中，训练策略模型的行动标签包括宏观决策标签和微观行为标签，提取游戏角色的行动标签时，先提取宏观决策标签，再根据宏观决策标签的内容，提取对应的微观行为标签。行动标签的具体内容与上述提及的策略模型输出的决策策略相对应。

宏观决策标签对应当前游戏角色宏观层面应该采取的行动。

例如，宏观决策为一段时间后角色的目标，如移动到某个位置或进攻某个目标。宏观决策标签包括未来的移动、攻击两个标签，分别用一个2维矩阵表示。二维矩阵中的每一个位置对应游戏地图上的一块区域。若未来一段时间后，游戏角色移动到在游戏地图中的某个区域，则对应的移动标签，该位置的值为1，其他位置为0。若未来一段时间后，游戏角色在游戏地图中的某个区域进行了某种攻击行为，则对应的攻击标签，该位置的值为1，其他位置的值为0。

微观行为标签根据微观行动的内容，也可以设计为多层级多分类的问题。同样以两个层级为例，第一层级表示当前行为，包括移动、攻击、无动作、释放技能等。第二层表示当前动作下的子标签，如移动的位置，攻击的目标，释放技能的方向、位置、目标等。当不发送任何信息的时候，没有子标签。不同行动采用不同编码方式作为子标签，例如主标签结果为移动时，子标签则为对应位置的坐标。

为了更好的感知其他玩家，策略模型对每一个角色分别提取行动标签。例如，在一场包含10个玩家的竞技游戏当中，分别对10个玩家的行为提取行动标签。

步骤S208，将所述特征信息和行动标签存储到指定数据集中，特征信息和标签分别保存到两个不同的集合，通过过唯一的游戏对局ID和唯一的游戏帧数建立特征和标签的映射关系。

通过唯一性的标识，能够方便快速的定位和使用存在映射关系的数据。作为优选的实施方式，可以特征和标签存储到TFRecords。

步骤S209，在所述数据集上训练策略模型，直到模型收敛时，保存模型参数文件；通过判断loss下降是否达到平稳，判断模型是否收敛。

具体训练时，将提取出的特征信息输入到决策模型中，将输出的决策策略与提取出的行动标签进行对比，模型训练的Loss采用如下式所示的交叉熵Cross-Entropy：

-(y log(p)+(1-y)log(1-p))

其中，y指训练时的标签，p指模型预测结果为该标签的概率。

根据上述方法，在所述数据集上训练策略模型，通过判断loss下降是否达到平稳，判断模型是否收敛。当模型收敛时，保存模型参数文件。在训练的过程中，会产生多个不同的历史策略模型，每个历史策略模型分别对应的性能存在一定的差异，在实际场景应用时，根据具体的需求，可以从历史策略模型中选择合适的，加载到游戏AI上。

作为本实施例的优选实施方式，在现有的策略模型的模型结构基础上，也可以根据实际场景的需求加入更复杂的网络设计，如残差网络(ResNet)，长短期记忆(LSTM)网络等。

作为本实施例的优选实施方式，基于上述提出的分层决策结构，也可以通过将模型拆分的方式分别用两个模型训练，将宏观决策与微观决策解耦。

综上，本实施例提供的游戏AI训练方法，通过引入对游戏场景中所有玩家的关注，同时对一个对局中所有玩家的宏观决策进行预测，可以加强游戏AI对其他玩家行为的感知，充分利用每一局游戏中所有玩家的数据，有效提升模型训练中数据利用率，提高游戏AI的拟人性，使得游戏AI更具有真实性。可以有效应用于各种竞技游戏的的不同应用场景，提高游戏玩家的用户体验。

如图5所示，本发明实施提供的游戏AI训练装置，所述装置包括：

特征提取单元110，用于提取游戏环境中的所有游戏角色的特征信息，所述特征信息包括图像特征和向量特征，所述游戏角色包括由游戏AI控制的游戏角色和由人类玩家控制的游戏角色；

动作决策单元120，用于将所述特征信息输入到策略模型中，所述策略模型根据输入的内容输出所有游戏角色当前的决策策略，所述决策策略包括宏观决策和微观行动；

动作交互单元130，用于控制由游戏AI控制的游戏角色执行与所述决策策略中对应的交互动作，与游戏环境进行交互。

作为本发明实施的优选实施方式，所述装置还包括模型训练单元140，用于对策略模型的训练，所述策略模型的训练方法，包括：

本发明实施例提供的游戏AI训练装置，用于实现上述游戏AI训练方法，因此具体实施方式与上述方法相同，在此不再赘述。

如图6所示，本发明实施例提供的一种电子设备300的结构框图。该电子设备300可以是智能手机、平板电脑、电子书等能够运行应用程序的电子设备300。本申请中的电子设备300可以包括一个或多个如下部件：处理器310、存储器320、以及一个或多个应用程序，其中一个或多个应用程序可以被存储在存储器320中并被配置为由一个或多个处理器310执行，一个或多个程序配置用于执行如前述方法实施例所描述的方法。

处理器310可以包括一个或者多个处理核。处理器310利用各种接口和线路连接整个电子设备300内的各个部分，通过运行或执行存储在存储器320内的指令、程序、代码集或指令集，以及调用存储在存储器320内的数据，执行电子设备300的各种功能和处理数据。可选地，处理器310可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)、可编程逻辑阵列(Programmable LogicArray，PLA)中的至少一种硬件形式来实现。处理器310可集成中央处理器(CentralProcessing Unit，CPU)、图像处理器(Graphics Processing Unit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责显示内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器310中，单独通过一块通信芯片进行实现。

存储器320可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory)。存储器320可用于存储指令、程序、代码、代码集或指令集。存储器320可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等。存储数据区还可以存储终端在使用中所创建的数据(比如电话本、音视频数据、聊天记录数据)等。

如图7所示，本发明实施例提供的一种计算机可读存储介质400的结构框图。该计算机可读介质中存储有程序代码410，所述程序代码410可被处理器调用执行上述方法实施例中所描述的方法。

计算机可读存储介质400可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选地，计算机可读存储介质400包括非易失性计算机可读介质(non-transitory computer-readable storage medium)。计算机可读存储介质400具有执行上述方法中的任何方法步骤的程序代码410的存储空间。这些程序代码410可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码410可以例如以适当形式进行压缩。

在本申请所公开的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims

1.一种游戏AI训练方法，其特征在于，所述方法包括：

将所述特征信息输入到策略模型中；

2.根据权利要求1所述的游戏AI训练方法，其特征在于，所述提取游戏环境中的智能体的特征信息具体包括：

3.根据权利要求2所述的游戏AI训练方法，其特征在于，所述策略模型根据输入的内容输出所有游戏角色当前的决策策略的步骤，具体包括：

将所述向量特征经过多层全连接层进行抽象处理变成向量；

4.根据权利要求3所述的游戏AI训练方法，其特征在于，所述宏观决策网络由一个参数量较少的MLP网络构成，经过多层全连接层后，通过N个全连接层分别输出N个宏观决策的结果，其中，N为游戏环境中游戏角色的数量。

5.根据权利要求4所述的游戏AI训练方法，其特征在于，所述微观决策网络由一个参数量较大的MLP网络构成，经过多层的全连接层后，通过N个全连接层分别输出N个微观决策的结果。

6.根据权利要求5所述的游戏AI训练方法，其特征在于，所述策略模型的训练方法，包括：

在所述数据集上训练策略模型，直到模型收敛时，保存模型参数文件。

7.根据权利要求6所述的游戏AI训练方法，其特征在于，所述标签包括宏观决策标签和微观行为标签，提取游戏角色的行动标签时，先提取宏观决策标签，再根据宏观决策标签的内容，提取对应的微观行为标签。

8.一种游戏AI训练装置，其特征在于，所述装置包括：

9.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储器；

一个或多个应用程序，其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序配置用于执行如权利要求1－7任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有程序代码，所述程序代码可被处理器调用执行如权利要求1－7任一项所述的方法。