CN117138348A

CN117138348A - Ai模型构建方法、智能体控制方法、设备及存储介质

Info

Publication number: CN117138348A
Application number: CN202311010500.9A
Authority: CN
Inventors: 范远翔; 王波; 周正; 朱展图
Original assignee: Super Parameter Technology Shenzhen Co ltd
Current assignee: Super Parameter Technology Shenzhen Co ltd
Priority date: 2023-08-10
Filing date: 2023-08-10
Publication date: 2023-12-01

Abstract

本申请提供了一种AI模型构建方法、智能体控制方法、设备及存储介质，涉及人工智能的技术领域，旨在解决现有的AI模型应用在多智能体环境下存在NPC拟人性差、长期规划计算耗时、在多智能体的情况下算法设计困难的问题。方法通过获取智能体的状态信息发送至角色模块，角色模块调用智能体对应的AI模型，将状态信息输入至AI模型以获取AI模型根据状态信息输出的预测动作信息；获取角色模块在预设游戏环境下控制智能体执行预测动作信息对应的环境反馈信息；将环境反馈信息发送至学习模块，学习模块根据环境反馈信息完成对AI模型的优化，完成对AI模型的构建。使得AI模型在多智能体环境下的拟人性大幅提升，并大幅降低了AI模型的开发复杂度和计算时长。

Description

AI模型构建方法、智能体控制方法、设备及存储介质

技术领域

本申请涉及人工智能的技术领域，尤其涉及一种AI模型构建方法、智能体控制方法、设备及存储介质。

背景技术

近年来，随着人工智能(Artificial Intelligence,AI)在各个领域的飞速发展，AI在单智能体以及多智能体的竞争环境中均表现出了与人类职业选手相当，甚至超过人类职业选手的水平。随着玩家对游戏内容的复杂性的需求上升，当前许多基于复杂竞争与合作关系的大型开放世界环境为载体的游戏更容易得到玩家的青睐。

而AI在一个兼具复杂竞争和合作关系的多智能体的开放环境中，传统的非玩家角色(non-player character，NPC)一般会采用HTN(Hierarchical Task Network，分层任务网络)、GOAP(Goal Oriented Action Planning，目标导向型行动计划)或MCTS(MonteCarlo Tree Search，蒙特卡罗树搜索)等方法实现，但是用这些方法在多智能体环境下由于引入了更多的随机性，导致存在NPC拟人性差、长期规划计算耗时、在多智能体的情况下算法设计困难等问题。

发明内容

本申请提供了一种AI模型构建方法、智能体控制方法、设备及存储介质，旨在解决现有的AI模型应用在多智能体环境下存在NPC拟人性差、长期规划计算耗时、在多智能体的情况下算法设计困难的问题。

第一方面，本申请提供了一种AI模型构建方法，所述方法包括：

获取智能体的状态信息，将所述状态信息发送至角色模块，所述角色模块调用所述智能体对应的AI模型，将所述状态信息输入至所述AI模型以获取所述AI模型根据所述状态信息输出的预测动作信息；

获取所述角色模块在预设游戏环境下控制所述智能体执行所述预测动作信息对应的环境反馈信息；

将所述环境反馈信息发送至学习模块，以使所述学习模块根据所述环境反馈信息完成对所述AI模型的优化，完成对所述AI模型的构建。

第二方面，本申请提供了一种智能体控制方法，所述方法包括：

获取游戏运行过程中智能体的实时状态信息；

将所述实时状态信息发送至所述智能体对应的AI模型，获取所述AI模型根据所述实时状态信息生成的动作信息；其中，所述AI模型为根据本申请任一实施例所提供的AI模型构建方法所构建的；

根据所述动作信息完成对所述智能体的控制。

第三方面，本申请提供了一种计算机设备，所述计算机设备包括：存储器和处理器；其中，所述存储器与所述处理器连接，用于存储程序；所述处理器用于通过运行所述存储器中存储的程序，实现如第一方面所提供的AI模型构建方法的步骤，或，实现如第二方面所提供的智能体控制方法的步骤。

第四方面，本申请提供了一种存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时使所述处理器实现如第一方面所提供的AI模型构建方法的步骤，或，实现如第二方面所提供的智能体控制方法的步骤。

本申请提供了一种AI模型构建方法、智能体控制方法、设备及存储介质，所提供的方法通过获取智能体的状态信息发送至角色模块，以使得角色模块调用智能体对应的AI模型，将状态信息输入至AI模型以获取AI模型根据状态信息输出的预测动作信息；再将角色模块在预设游戏环境下控制智能体执行预测动作信息对应的环境反馈信息发送至学习模块，以使学习模块根据环境反馈信息完成对AI模型的优化，完成对AI模型的构建。采用所提供的方法通过在预设游戏环境下控制智能体执行预测动作信息对应的环境反馈信息，基于环境反馈信息对AI模型进行优化，使得AI模型在多智能体环境下的拟人性大幅提升，并大幅降低了AI模型的开发复杂度和计算时长。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

为了更清楚地说明本申请实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例所提供的AI模型构建方法的步骤示意流程图；

图2是本申请实施例所提供的一种AI模型的结构示意图；

图3是本申请实施例所提供的一种AI模型特征处理方法的示意图；

图4是本申请实施例所提供的一种预测动作信息的生成示意图；

图5是本申请实施例提供的一种AI模型构建方法的流程示意框图；

图6是本申请实施例提供的一种智能体控制方法的步骤示意流程图；

图7是本申请实施例提供的一种智能体控制方法的流程示意图；

图8是本申请实施例提供的一种计算机设备的示意性框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

附图中所示的流程图仅是示例说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解、组合或部分合并，因此实际执行的顺序有可能根据实际情况改变。

应当理解，在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

为便于理解本申请实施例，下面对本申请实施例中涉及到的一些词汇作简单说明。

1.强化学习(Reinforcement Learning，RL)：强化学习是机器学习领域之一，受到行为心理学的启发，主要关注智能体如何在环境中采取不同的行动，以最大限度地提高累积奖励。强化学习主要由智能体(Agent)、环境(Environment)、状态(State)、动作(Action)、奖励(Reward)组成。智能体执行了某个动作后，环境将会转换到一个新的状态，对于该新的状态环境会给出奖励信号(正奖励或者负奖励)。随后，智能体根据新的状态和环境反馈的奖励，按照一定的策略执行新的动作。上述过程为智能体和环境通过状态、动作、奖励进行交互的方式。

2.Transformer模型：Transformer是一个利用注意力机制来提高模型训练速度的模型。Trasnformer可以说是完全基于自注意力机制的一个深度学习模型，因为它适用于并行化计算，和它本身模型的复杂程度导致它在精度和性能上都要高于之前流行的RNN循环神经网络。

当在Trasnformer模型输入一个文本的时候，该文本数据会先经过Encoders(编码器)的模块，对该文本进行编码，然后将编码后的数据再传入一个叫Decoders(解码器)的模块进行解码，解码后就得到了翻译后的文本。一般情况下，Encoders里边有6个小编码器，同样的，Decoders里边有6个小解码器。Encoder里边的结构是一个自注意力机制(self-attention)加上一个前馈神经网络。

3.self-attention：自注意力机制，就是自己和自己计算一遍注意力，即对每一个输入的词向量，我们需要构建self-attention的输入。self-attention的输入就是词向量，即整个模型的最初的输入是词向量的形式。transformer首先将词向量乘上三个矩阵，得到三个新的向量，之所以乘上三个矩阵参数而不是直接用原本的词向量是因为这样增加更多的参数，提高模型效果。输入乘上三个矩阵后分别得到Q,K,V。Q是查询要求，K是候选结果的标题，V是候选结果的具体内容。每个单词的Q和所有其他单词的K做匹配，看和各个单词的相关程度，这个相关程度去和每个单词的V做加权，从各个单词中根据需要提取信息。

下面结合附图，对本申请的一些实施方式作详细说明。在不冲突的情况下，下述的实施例及实施例中的特征可以相互组合。

近年来，随着AI在各个领域的飞速发展，AI在单智能体以及多智能体的竞争环境中均表现出了与人类职业选手相当，甚至超过人类职业选手的水平。随着玩家对游戏内容的复杂性的需求上升，当前许多基于复杂竞争与合作关系的大型开放世界环境为载体的游戏更容易得到玩家的青睐。

而AI在一个兼具复杂竞争和合作关系的多智能体的开放环境中，传统的非玩家角色(non-player character，NPC)一般会采用HTN(Hierarchical Task Network，分层任务网络)、GOAP(Goal Oriented Action Planning，目标导向型行动计划)或MCTS(MonteCarlo Tree Search，蒙特卡罗树搜索)等方法实现，但是用这些方法在多智能体环境下由于引入了更多的随机性，上述技术方案应用在多智能体环境下存在以下几点技术问题：

1.随机性过多。相比单一智能体，多智能体引入了更多的随机性，上述方法应用于设计复杂环境下多智能体的行为是非常困难的。

2.计算耗时过长。对于上述长期规划的计算方法本身耗时较差，在多智能体的情况更甚，过长的计算时间会导致智能体反应过慢，而缩短计算时间往往需要牺牲规划的准确性。

3.智能体之间相互影响。需要单独设计不同风格的智能体，并且不同风格的智能体之间也存在互相影响的问题，导致设计更加困难。

4.拟人性较差。上述方案指定的策略往往确定性较强，不够拟人，在多智能体环境中所做出的策略缺少多样性。

为解决上述问题，本申请提出了一种AI模型构建方法。请参照图1，图1是本申请实施例所提供的AI模型构建方法的步骤示意流程图。

需要说明的是，本申请所提出的AI模型构建方法可以应用于任意包含多个智能体的游戏环境中，本申请以武侠类大型多人在线角色扮演游戏(Massively MultiplayerOnline Role-Playing Game,MMORPG)作为本申请的游戏环境为例进行说明。在本申请所应用的游戏环境中，每个角色都可以通过与环境或其他角色建立联系，并与之交互完成游戏中的任务。在游戏中有不同势力门派，每个角色都可以属于某一个门派，并且也需要从门派的角度考虑角色行动的影响。同时游戏中存在大量的地产和建筑，角色也可以通过经营地产或建筑获取收益。在游戏中角色也可以通过与其他角色战斗，获取期望的资源。并且每个角色拥有不同的发展方向。

如图1所示，所提供的方法包括步骤S101至S103。

S101.获取智能体的状态信息，将状态信息发送至角色模块，角色模块调用智能体对应的AI模型，将状态信息输入至AI模型以获取AI模型根据状态信息输出的预测动作信息。

具体地，智能体的状态信息包括智能体在游戏中与环境的关联信息以及自身的角色信息。角色模块部分负责运行模拟游戏环境，在接收到状态信息后，发送给智能体对应的AI模型，角色模块根据AI模型生成智能体下一步执行的预测动作信息进而对智能体进行控制。从而实现了在多智能体的环境下每个智能体都能确定对应的AI模型对其行为进行预测，降低了计算的时间。

示例性的，在本申请所应用的武侠类MMORPG游戏中，状态信息包括角色基础属性、角色武学、角色资质、角色经验值、门派信息、周围的地点信息、地点中的建筑信息和周边的野怪信息，进而能通过状态信息全面反馈智能体在游戏中的状态，提升预测动作信息的准确性。

在一些实施例中，如图2所示，图2是本申请实施例所提供的一种AI模型的结构示意图。将状态信息输入至AI模型以获取AI模型根据状态信息输出的预测动作信息，包括：将状态信息输入至预设多层神经网络进行特征提取，用于将特征提取过的状态信息输入至AI模型；其中，预设多层神经网络包括深度残差网络模块和全连接模块，深度残差网络模块用于对状态信息中的图像特征进行特征提取，全连接模块用于对状态信息中的向量特征进行特征提取。

参照图2，AI模型包括一个深度残差网络(ResNet)模块以及带有skip connection(跳连接)和Transformer的全连接(FC)模块。残差网络模块用于处理类图像特征(32*32*4)，全连接模块用于处理向量特征(4598+24759+16255+4750+6000)。最后两个模块的输出拼接(Concat)到一起再接一层长短期记忆网络(LSTM)层和一层全连接(FC)层，最后输出具体预测动作信息。通过将角色特征区分为图像特征和向量特征，例如图2所示角色特征、周边角色特征、地点、物品、门派特征为向量特征，输入至深度残差网络模块，进而对特征完成处理。

需要说明的是，在一些实施例中，请参照图3，图3是本申请实施例所提供的一种AI模型特征处理方法的示意图。如图3所示，图像特征用来对智能体附近的地形进行建模，主要用于避障和导航。图像特征总共有4个通道，分别表示了RGB通道和周围地形的高度。向量特征具体包括：角色基础属性、角色武学(例如图3中的外功等级和内功等级)、角色资质、角色经验值、门派信息、周围的地点信息、地点中的建筑信息和周边的野怪信息等。

在一些实施例中，如图4所示，图4是本申请实施例所提供的一种预测动作信息的生成示意图。角色模块调用智能体对应的待构建的AI模型，以获取AI模型根据状态信息输出的预测动作信息，包括：将特征提取后的状态信息输入至AI模型，以使AI模型根据状态信息输出预测动作，AI模型根据预测动作和状态信息输出预测动作的预测执行对象；AI模型根据预测动作、预测执行对象和状态信息输出预测动作所选择的预测物品；其中，预测动作、预测执行对象以及预测动作所选择的预测物品组成预测动作信息。

如图4所示，AI模型在训练过程中使用级联的方式先生成关于主动动作的预测动作，再根据预测动作进行预测动作的预测执行对象的预测，最后再根据预测动作、预测执行对象和状态信息对预测动作所选择的预测物品进行预测。

在一些实施例中，所述方法在获取智能体对应的状态信息时，还包括获取状态信息对应的预设动作信息，例如对应的预设动作信息为对A角色下毒。在获取AI模型根据状态信息输出的预测动作信息之后，还包括：计算预测动作信息与预设动作信息的损失函数。进而能确定AI模型预测动作信息的准确度。

示例性的，损失函数可以为Surrogate Loss(代理损失函数)，也可以为EntropyLoss(熵损失函数)，本申请实施例对损失函数的类型不作限制。

S102.获取所述角色模块在预设游戏环境下控制所述智能体执行所述预测动作信息对应的环境反馈信息。

具体地，通过角色模块在预设游戏环境下，例如武侠类MMORPG游戏，控制智能体执行预测动作信息，进而能够获取在游戏环境下对应的环境反馈信息，例如角色模块控制智能体在游戏中进行下毒操作，下毒后周围环境变化、智能体自身状态变化和下毒对象的状态变化等都能作为环境反馈信息。进而能够确定智能体执行预测动作信息的影响。

S103.将所述环境反馈信息发送至学习模块，以使所述学习模块根据所述环境反馈信息完成对所述AI模型的优化，完成对所述AI模型的构建。

具体地，通过根据环境反馈信息，学习模块能够对AI模型进行迭代优化，进而使得智能体对应的AI模型的性能能大幅提升。而在实际训练过程中，角色模块会运行大量的镜像实例进行预测动作信息的生产工作，同时学习模块也会有多个进程同时异步进行训练任务，以此加速AI模型的构建速度以及收敛速度。进而在训练中通过不同的学习模块和AI模型控制不同的智能体实现角色表现的多样性。

在一些实施例中，将所述环境反馈信息发送至学习模块，所述学习模块根据所述环境反馈信息完成对待构建的所述AI模型的优化，包括：将所述环境反馈信息发送至所述学习模块，所述学习模块采用近似策略优化算法根据所述环境反馈信息对所述待构建的AI模型进行优化。

通过学习模块采用PPO(近似策略优化)算法进行强化学习训练，。PPO算法通过环境产生的奖励信号对AI模型的价值函数以及策略进行迭代优化。可以使用MSE(均方误差)作为价值损失函数优化价值的估计，使用负数倍的熵作为信息熵损失函数以保持一定的策略探索能力，使用Surrogate Loss作为策略损失函数从而产生能够获得更大回报的策略。

示例性的，在一些实施例中，将所述环境反馈信息发送至学习模块，以使所述学习模块根据所述环境反馈信息完成对所述AI模型的优化，包括：将环境反馈信息和预测动作信息的损失函数发送至学习模块，以使所述学习模块根据所述环境反馈信息和损失函数完成对所述AI模型的优化。

在一些实施例中，如图5所示，图5是本申请实施例提供的一种AI模型构建方法的流程示意框图。在获取环境反馈信息之后，还包括：将状态信息、预测动作信息和环境反馈信息发送至存储模块进行存储；以使得学习模块能调用存储模块存储的环境反馈信息完成AI模型的优化。

在图5中，角色模块(Actor)生成的预测动作信息和环境反馈信息作为样本发送至存储模块(Redis)进行存储，学习模块(Learner)消费Redis储存的样本，训练完成AI模型的优化。

在一些实施例中，在所述学习模块根据所述环境反馈信息完成对所述AI模型的优化之后，还包括：将优化后的AI模型存储至历史模型数据库中。角色模块调用待构建的AI模型，还包括：角色模块在历史模型数据库获取最新存储的AI模型，用于将状态信息输入至最新存储的AI模型获取预测动作信息。

通过将学习模块优化后的AI模型存入历史模型数据库，角色模块每间隔一段时间从历史模型数据库中拉取最新AI模型，作为生成预测动作信息的AI模型。通过加入历史模型强化训练出的模型的泛化性，促使智能体学会与不同水平的角色合作或竞争。

本申请实施例提供了一种AI模型的构建方法，采用所提供的方法通过在预设游戏环境下控制智能体执行预测动作信息对应的环境反馈信息，基于环境反馈信息对AI模型进行优化，使得AI模型在多智能体环境下的拟人性大幅提升，并大幅降低了AI模型的开发复杂度和计算时长。

请参照图6，图6是本申请实施例提供的一种智能体控制方法的步骤示意流程图。如图6所示，所提供的方法包括步骤S201至S203。

S201.获取游戏运行过程中智能体的实时状态信息。

具体地，智能体的实时状态信息包括智能体在游戏运行过程中与环境的关联信息以及自身的角色信息。以武侠MMORPG游戏为例，实时状态信息包括角色基础属性、角色武学、角色资质、角色经验值、门派信息、周围的地点信息、地点中的建筑信息和周边的野怪信息。进而能表征智能体当下在游戏中所处的环境和自身状态。

S202.将实时状态信息发送至智能体对应的AI模型，获取AI模型根据实时状态信息生成的动作信息；其中，AI模型为根据本申请任一实施例所提供的AI模型构建方法所构建的。

具体地，通过智能体对应的AI模型，能够根据角色的实时状态信息生成对应的动作信息，进而能够在多智能体环境下快速确定角色对应的动作信息，提升角色的拟人性。

示例性的，动作信息包括预测动作、预测动作的执行对象和预测动作选择的物品，例如对A角色使用X物品进行下毒。

S203.根据动作信息完成对智能体的控制。

具体地，能够通过AI模型生成的动作信息完成对智能体的精确控制，使得在多智能体环境下智能体所执行的动作拟人性大幅提升。

在一些实施例中，AI模型部署至预设软件工具开发包中；将实时状态信息发送至智能体对应的AI模型，获取AI模型根据实时状态信息生成的动作信息，包括：发送智能体的实时状态信息至预设软件工具开发包，预设软件工具开发包调用AI模型，以使得AI模型根据实时状态信息生成动作信息。

请参照图7，图7是本申请实施例提供的一种智能体控制方法的流程示意图。将构建完成的AI模型部署至AI SDK中进行使用。AI SDK将一组API暴露给游戏侧调用。游戏将当前程序状态(比如角色属性，角色所携带物品等信息)发送给AI SDK，AI SDK调用部署的AI模型预测当前这一帧全部角色应该做的动作信息，再将动作信息转换到具体动作后，发送给游戏具体执行。

本申请实施例提供了一种智能体控制方法，采用所提供的方法通过在预设游戏环境下控制智能体执行AI模型生成的预测动作信息，使得智能体在多智能体环境下的拟人性大幅提升。

本申请提供了一种计算机设备。如图8所示，图8是本申请实施例提供的一种计算机设备的示意性框图。

其中，该计算机设备可以包括处理器、存储器和网络接口。处理器、存储器和网络接口通过系统总线连接，该系统总线比如为I2C(Inter-integrated Circuit)总线。

具体地，处理器可以是微控制单元(Micro-controller Unit，MCU)、中央处理单元(Central Processing Unit，CPU)或数字信号处理器(Digital Signal Processor，DSP)等。

具体地，存储器可以是Flash芯片、只读存储器(ROM，Read-Only Memory)磁盘、光盘、U盘或移动硬盘等。

该网络接口用于进行网络通信，如发送分配的任务等。本领域技术人员可以理解，图8中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的终端设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

其中，所述处理器用于运行存储在存储器中的计算机程序，并在执行所述计算机程序时实现本申请实施例提供的AI模型构建方法任一项中相应的步骤，或，实现上述实施例提供的智能体控制方法的步骤。

示例性的所提供的计算机设备用于如下步骤：

获取智能体的状态信息，将所述状态信息发送至角色模块，所述角色模块调用所述智能体对应的AI模型，将所述状态信息输入至所述AI模型以获取所述AI模型根据所述状态信息输出的预测动作信息。

获取所述角色模块在预设游戏环境下控制所述智能体执行所述预测动作信息对应的环境反馈信息。

在一些实施例中，在所述获取环境反馈信息之后，还实现：将所述状态信息、预测动作信息和环境反馈信息发送至存储模块进行存储；以使得所述学习模块能调用所述存储模块存储的所述环境反馈信息完成AI模型的优化。

在一些实施例中，在所述学习模块根据所述环境反馈信息完成对所述AI模型的优化之后，还实现：将优化后的所述AI模型存储至历史模型数据库中；所述角色模块调用待构建的所述AI模型，还包括：所述角色模块在所述历史模型数据库获取最新存储的所述AI模型，用于将所述状态信息输入至最新存储的所述AI模型获取所述预测动作信息。

在一些实施例中，所述将所述状态信息输入至所述AI模型以获取所述AI模型根据所述状态信息输出的预测动作信息，用于实现：将所述状态信息输入至预设多层神经网络进行特征提取，用于将特征提取过的所述状态信息输入至所述AI模型；其中，所述预设多层神经网络包括深度残差网络模块和全连接模块，所述深度残差网络模块用于对所述状态信息中的图像特征进行特征提取，所述全连接模块用于对所述状态信息中的向量特征进行特征提取。

在一些实施例中，所述角色模块调用所述智能体对应的待构建的所述AI模型，以获取所述AI模型根据所述状态信息输出的预测动作信息，用于实现：将特征提取后的所述状态信息输入至所述AI模型，以使所述AI模型根据所述状态信息输出预测动作，所述AI模型根据所述预测动作和状态信息输出所述预测动作的预测执行对象；所述AI模型根据所述预测动作、预测执行对象和状态信息输出所述预测动作所选择的预测物品；其中，所述预测动作、预测执行对象以及所述预测动作所选择的预测物品组成所述预测动作信息。

在一些实施例中，将所述环境反馈信息发送至学习模块，所述学习模块根据所述环境反馈信息完成对待构建的所述AI模型的优化，用于实现：将所述环境反馈信息发送至所述学习模块，所述学习模块采用近似策略优化算法根据所述环境反馈信息对所述待构建的AI模型进行优化。

需要说明的是，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的计算机设备的具体工作过程，可以参考前述AI模型构建方法实施例中的对应过程，在此不再赘述。

示例性的所提供的计算机设备用于如下步骤：

获取游戏运行过程中智能体的实时状态信息。

将所述实时状态信息发送至所述智能体对应的AI模型，获取所述AI模型根据所述实时状态信息生成的动作信息；其中，所述AI模型为根据本申请实施例所提供的AI模型构建方法所构建的。

根据所述动作信息完成对所述智能体的控制。

在一些实施例中，所述AI模型部署至预设软件工具开发包中；所述将所述实时状态信息发送至所述智能体对应的AI模型，获取所述AI模型根据所述实时状态信息生成的动作信息，用于实现：发送所述智能体的实时状态信息至所述预设软件工具开发包，所述预设软件工具开发包调用所述AI模型，以使得所述AI模型根据所述实时状态信息生成所述动作信息。

需要说明的是，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的计算机设备的具体工作过程，可以参考前述智能体控制方法实施例中的对应过程，在此不再赘述。

本申请的实施例中还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序中包括程序指令，所述处理器执行所述程序指令，实现上述实施例提供的AI模型构建方法的步骤，或，实现上述实施例提供的智能体控制方法的步骤。

其中，计算机可读存储介质可以是前述实施例的计算机设备的内部存储单元，例如计算机设备的硬盘或内存。计算机可读存储介质也可以是计算机设备的外部存储设备，例如计算机设备上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。

由于该计算机可读存储介质中所存储的计算机程序，可以执行本申请实施例所提供的任一种语音生成模型的构建方法以及语音生成方法，因此，可以实现本申请实施例所提供的任一种AI模型构建方法以及智能体控制方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。以上所述，仅是本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种AI模型构建方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，在所述获取环境反馈信息之后，还包括：

将所述状态信息、预测动作信息和环境反馈信息发送至存储模块进行存储；以使得所述学习模块能调用所述存储模块存储的所述环境反馈信息完成AI模型的优化。

3.根据权利要求1所述的方法，其特征在于，在所述学习模块根据所述环境反馈信息完成对所述AI模型的优化之后，还包括：

将优化后的所述AI模型存储至历史模型数据库中；

所述角色模块调用待构建的所述AI模型，还包括：

所述角色模块在所述历史模型数据库获取最新存储的所述AI模型，用于将所述状态信息输入至最新存储的所述AI模型获取所述预测动作信息。

4.根据权利要求1所述的方法，其特征在于，所述将所述状态信息输入至所述AI模型以获取所述AI模型根据所述状态信息输出的预测动作信息，包括：

将所述状态信息输入至预设多层神经网络进行特征提取，用于将特征提取过的所述状态信息输入至所述AI模型；其中，所述预设多层神经网络包括深度残差网络模块和全连接模块，所述深度残差网络模块用于对所述状态信息中的图像特征进行特征提取，所述全连接模块用于对所述状态信息中的向量特征进行特征提取。

5.根据权利要求4所述的方法，其特征在于，所述角色模块调用所述智能体对应的待构建的所述AI模型，以获取所述AI模型根据所述状态信息输出的预测动作信息，包括：

将特征提取后的所述状态信息输入至所述AI模型，以使所述AI模型根据所述状态信息输出预测动作，所述AI模型根据所述预测动作和状态信息输出所述预测动作的预测执行对象；所述AI模型根据所述预测动作、预测执行对象和状态信息输出所述预测动作所选择的预测物品；

其中，所述预测动作、预测执行对象以及所述预测动作所选择的预测物品组成所述预测动作信息。

6.根据权利要求1所述的方法，其特征在于，将所述环境反馈信息发送至学习模块，所述学习模块根据所述环境反馈信息完成对待构建的所述AI模型的优化，包括：

将所述环境反馈信息发送至所述学习模块，所述学习模块采用近似策略优化算法根据所述环境反馈信息对所述待构建的AI模型进行优化。

7.一种智能体控制方法，其特征在于，所述方法包括：

获取游戏运行过程中智能体的实时状态信息；

将所述实时状态信息发送至所述智能体对应的AI模型，获取所述AI模型根据所述实时状态信息生成的动作信息；其中，所述AI模型为根据权利要求1-6任一项所提供的AI模型构建方法所构建的；

根据所述动作信息完成对所述智能体的控制。

8.根据权利要求7所述的方法，其特征在于，所述AI模型部署至预设软件工具开发包中；

所述将所述实时状态信息发送至所述智能体对应的AI模型，获取所述AI模型根据所述实时状态信息生成的动作信息，包括：

发送所述智能体的实时状态信息至所述预设软件工具开发包，所述预设软件工具开发包调用所述AI模型，以使得所述AI模型根据所述实时状态信息生成所述动作信息。

9.一种计算机设备，其特征在于，所述计算机设备包括：

存储器和处理器；

其中，所述存储器与所述处理器连接，用于存储程序；

所述处理器用于通过运行所述存储器中存储的程序，实现如权利要求1-6中任一项所述的AI模型构建方法的步骤，或，实现如权利要求7-8中任一项所述的智能体控制方法的步骤。

10.一种存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时使所述处理器实现如权利要求1-6中任一项所述的AI模型构建方法的步骤，或，实现如权利要求7-8中任一项所述的智能体控制方法的步骤。