CN115640824A

CN115640824A - 一种智能体训练方法、装置、电子设备及存储介质

Info

Publication number: CN115640824A
Application number: CN202211264239.0A
Authority: CN
Inventors: 周正; 吴宇翔; 王浩然
Original assignee: Super Parameter Technology Shenzhen Co ltd
Current assignee: Super Parameter Technology Shenzhen Co ltd
Priority date: 2022-10-14
Filing date: 2022-10-14
Publication date: 2023-01-24

Abstract

本发明提供了一种智能体训练方法、装置、电子设备及存储介质，通过设置不同风格的训练奖励，实现对于不同智能体的训练，经过训练后的智能体能够实现不同风格的操作和对应的行为，使最终整体训练后的模型能够产生不同风格的智能体，在多风格的基础上保证智能体的策略强度。

Description

一种智能体训练方法、装置、电子设备及存储介质

技术领域

本发明涉及人工智能领域，具体而言，涉及一种智能体训练方法、装置、电子设备及存储介质。

背景技术

随着网络技术的发展，计算机游戏等人机交互应用可以为用户提供虚拟场景，用户可以在虚拟场景中操控虚拟对象执行操作，以达到娱乐的目的。在游戏指导、游戏测试、角色托管或非玩家角色(Non－Player Character，NPC)控制等场景中，还需要由计算机确定某个虚拟对象待执行的操作，进而进行操作控制。

目前，在一些游戏中，往往使用由自对弈方案训练的人工智能(AI)来确定上述的虚拟对象在上述场景中可能执行的操作。然而，当前的利用自对弈方案训练的游戏人工智能的合作策略往往较为单一，并往往会出现过拟合的情况，导致人工智能与真人玩家(或其他游人工智能)间的合作效果差。

因此，如何对当前的人工智能(尤其是游戏人工智能)进行进一步的改进在满足策略强度的同时，拥有策略的多样性，是目前亟待解决的问题。

发明内容

为了改善上述问题，本发明提供了一种智能体训练方法、装置、电子设备及存储介质。

本发明实施例的第一方面，提供了一种智能体训练方法，所述方法包括：

提取模拟环境中的每个智能体的环境特征信息，所述环境特征信息包括类图像特征和向量特征；

将每个智能体的环境特征信息分别输入到与该智能体的行为风格对应的决策模型中；

所述决策模型根据输入的内容输出每个智能体当前的决策动作；

控制每个智能体执行对应的决策动作，与模拟环境进行交互；

得到每个智能体基于所述决策动作在当前模拟环境下的奖励以及执行决策动作后的新的环境特征信息；

将所述环境特征信息、决策动作以及得到的奖励进行拼接后作为样本数据进行保存；

基于强化学习算法，通过保存的所述样本数据分别对不同行为的风格决策模型进行训练。

可选地，所述提取模拟环境中的每个智能体的环境特征信息的步骤，具体包括：

基于所述智能体在所述模拟环境中的位置相关的状态提取类图像特征；

基于所述智能体在所述模拟环境中的属性相关的状态提取向量特征，所述向量特征包括对应智能体的行为风格的信息。

可选地，所述决策模型为卷积神经网络模型，所述决策模型根据输入的内容输出每个智能体当前的决策动作的步骤，具体包括：

将所述向量特征通过第一全连接层处理后，再通过self－attention模块加强向量特征中的关键因素；

将所述类图像特征通过五层卷积层处理；

将处理后的向量特征和类图像特征合并后通过LSTM模块对时序进行建模；

将经过所述LSTM模块处理的信息通过第二全连接层处理后作为决策模型的输出；

其中，决策模型的输出包括三个分支，分别为主牌决策动作、基于主牌决策动作的带牌决策动作以及对主牌决策动作和带牌决策动作进行评价的评价值。

可选地，所述基于强化学习算法，通过保存的所述样本数据分别对不同行为风格的决策模型进行训练的步骤，具体包括：

使用近端策略优化算法进行决策模型的更新、迭代，直至满足预设的模型训练结束条件；

使用奖励函数塑形算法进行多个不同行为风格的决策模型的训练；

使用超参数自动优化算法对决策模型的超参数进行优化。

可选地，所述使用奖励函数塑形算法进行多个不同行为风格的决策模型的训练的步骤，具体包括：

确定一套与行为风格无关的基础奖励模型；

在所述基础奖励模型的基础上，针对不同的行为风格，基于所述模拟环境分别确定与每个行为风格对应的稠密奖励；

基于所述基础奖励模型和稠密奖励进行决策模型的训练。

可选地，所述使用超参数自动优化算法对决策模型的超参数进行优化的步骤，具体包括：

在训练过程中，同时进行多个决策模型的学习，并随机调整决策模型训练过程中的超参数；

在同一模拟环境中，进行不同超参数训练出来的决策模型的智能体的对抗；

基于一定的筛选规则，筛选出表现较好的超参数，将其更新到正在训练的决策模型上。

可选地，所述方法包括：

将训练完成的决策模型作为历史模型，按照其对应的行为风格保存到历史模型库中；

在所述模拟环境中随机生成多个行为风格相同或不同的智能体，从所述历史模型库中为每个智能体选择相同行为风格的历史模型。

本发明实施例的第二方面，提供了一种智能体训练装置，所述装置包括：

特征提取单元，用于提取模拟环境中的每个智能体的环境特征信息，所述环境特征信息包括类图像特征和向量特征；

动作决策单元，用于将每个智能体的环境特征信息分别输入到与该智能体的行为风格对应的决策模型中，所述决策模型根据输入的内容输出每个智能体当前的决策动作；

动作交互单元，用于控制每个智能体执行对应的决策动作，与模拟环境进行交互；

环境反馈单元，用于得到每个智能体基于所述决策动作在当前模拟环境下的奖励以及执行决策动作后的新的环境特征信息；

样本保存单元，用于将所述环境特征信息、决策动作以及得到的奖励进行拼接后作为样本数据进行保存；

模型训练单元，用于基于强化学习算法，通过保存的所述样本数据分别对不同行为的风格决策模型进行训练。

可选地，所述特征提取单元，具体用于：

可选地，所述决策模型为卷积神经网络模型，所述动作决策单元，具体用于：

将所述类图像特征通过五层卷积层处理；

可选地，所述模型训练单元，具体用于：

使用超参数自动优化算法对决策模型的超参数进行优化。

可选地，所述模型训练单元使用奖励函数塑形算法进行多个不同行为风格的决策模型的训练的方法，具体包括：

确定一套与行为风格无关的基础奖励模型；

基于所述基础奖励模型和稠密奖励进行决策模型的训练。

可选地，所述模型训练单元基于所述基础奖励模型和稠密奖励进行决策模型的训练的方法，具体包括：

可选地，所述数据保存单元，还用于将训练完成的决策模型作为历史模型，按照其对应的行为风格保存到历史模型库中。

所述装置还包括模型部署单元，用于在所述模拟环境中随机生成多个行为风格相同或不同的智能体，从所述历史模型库中为每个智能体选择相同行为风格的历史模型。

本发明实施例的第三方面，提供了一种电子设备，其特征在于，包括：

一个或多个处理器；存储器；一个或多个应用程序，其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序配置用于执行如第一方面所述的方法。

本发明实施例的第四方面，提供了一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有程序代码，所述程序代码可被处理器调用执行如第一方面所述的方法。

综上所述，本发明提供了一种智能体训练方法、装置、电子设备及存储介质，通过设置不同风格的训练奖励，实现对于不同智能体的训练，经过训练后的智能体能够实现不同风格的操作和对应的行为，使最终整体训练后的模型能够产生不同风格的智能体，在多风格的基础上保证智能体的策略强度。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明实施例的智能体训练方法及装置的应用场景示意图；

图2为本发明实施例的智能体训练方法的方法流程图；

图3为本发明另一实施例的智能体训练方法的方法流程图；

图4为本发明实施例的智能体训练装置的功能模块框图；

图5为本发明另一实施例的智能体训练装置的功能模块框图；

图6为本发明实施例的用于执行根据本申请实施例的智能体训练方法的电子设备的结构框图。

图7是本发明实施例的用于保存或者携带实现根据本申请实施例的智能体训练方法的程序代码的计算机可读存储介质的结构框图。

图标：

AI服务器100；模拟环境服务器200；特征提取单元110；动作决策单元120；动作交互单元130；环境反馈单元140；数据保存单元150；模型训练单元160；模型部署单元170；电子设备300；处理器310；存储器320；计算机可读存储介质400；程序代码410。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本发明将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中，提供许多具体细节从而给出对本发明的实施方式的充分理解。然而，本领域技术人员将意识到，可以实践本发明的技术方案而省略所述特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知技术方案以避免喧宾夺主而使得本发明的各方面变得模糊。

此外，附图仅为本发明的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

对本发明实施例进行进一步详细说明之前，对本发明实施例中涉及的名词和术语进行说明，本发明实施例中涉及的名词和术语适用于如下的解释。

(1)响应于，用于表示所执行的操作所依赖的条件或者状态，当满足所依赖的条件或状态时，所执行的一个或多个操作可以是实时的，也可以具有设定的延迟；在没有特别说明的情况下，所执行的多个操作不存在执行先后顺序的限制。

(2)基于，用于表示所执行的操作所依赖的条件或者状态，当满足所依赖的条件或状态时，所执行的一个或多个操作可以是实时的，也可以具有设定的延迟；在没有特别说明的情况下，所执行的多个操作不存在执行先后顺序的限制。

(3)模型训练，对图像数据集进行多分类学习。该模型可采用Tensor Flow、torch等深度学习框架进行构建，使用CNN等神经网络层的多层结合组成多分类模型。模型的输入为图像经过openCV等工具读取形成的三通道或原通道矩阵，模型输出为多分类概率，通过softmax等算法最终输出网页类别。在训练时，模型通过交叉熵等目标函数向正确趋势逼近。

(4)神经网络(Neural Network，NN)：人工神经网络(Artificial NeuralNetwork，ANN)，简称神经网络或类神经网络，在机器学习和认知科学领域，是一种模仿生物神经网络(动物的中枢神经系统，特别是大脑)的结构和功能的数学模型或计算模型，用于对函数进行估计或近似。

(5)游戏环境：是应用程序在终端上运行时显示(或提供)的游戏环境。该游戏环境可以是对真实世界的仿真环境，也可以是半仿真半虚构的三维环境，还可以是纯虚构的三维环境。游戏环境可以是二维游戏环境、2.5维游戏环境和三维游戏环境中的任意一种，下述实施例以游戏环境是三维游戏环境来举例说明，但对此不加以限定。可选地，该游戏环境还用于至少两个虚拟对象之间的游戏环境对战。可选地，该游戏环境还用于至少两个虚拟对象之间通过虚拟球体的滚动进行对战。可选地，该游戏环境还可以是不限于枪战类游戏、跑酷类游戏、竞速类游戏、多人在线战术竞技游戏(Multiplayer Online Battle Arena，MOBA)、竞速游戏(Racing Game，RCG)以及体育运动类游戏(sport game，SPG)。采用本申请提供的经过训练的游戏模型，可以部署在前述各类游戏场景所对应的游戏服务器中，用于生成实时的游戏策略，执行相应的动作信息，模拟虚拟用户的操作，与实际参与游戏的用户的共同完成游戏环境中的不同类型的游戏。

(6)动作信息：以游戏用户使用第一人称或第三人称参与速度的竞争，包含赛车、飞行等竞速游戏为例，动作信息指将控制运动物体的方向键等作为动作的操作指令，对于角色扮演类的游戏，动作信息是指在游戏环境通过发射子弹进行攻击的虚拟武器，或者发射箭簇的虚拟弓箭、虚拟弹弓，虚拟对象在游戏环境中可以对虚拟枪械进行捡拾，并通过捡拾得到的虚拟枪械进行攻击。

(7)人工智能体(AI agent)：在合作游戏/合作事件中，由计算机人工智能操控的决策者。在下文中，有时也采用简称智能体来指代人工智能体。人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以真人智能相似的方式做出反应的智能机器。例如，对于本公开的人工智能体而言，其能够以类似于真人玩家操控虚拟对象的方式，与真人玩家协作或对战。基于各种智能机器的设计原理与实现方法，本公开的人工智能体能够理解不同的游戏策略，并与不同策略的真人玩家协作和对战。

动作(Action)：每个智能体都会做出动作。在以下本公开的各个实施例中，把第i号智能体的动作随机变量记作，把动作的实际观测值记作ai。如果不加上标i，则意味着所有智能体的动作的连接：A＝[A1,A2,···,An],a＝[a1,a2,···,an]。以下把第i号智能体的动作空间(Action Space)记作Ai，它包含该智能体所有可能的动作。整个种群的动作空间是A＝A1×A2···×An。两个智能体的动作空间Ai和Aj可能相同也可能不同。

奖励(Reward)：奖励是环境反馈给智能体的数值。把第i号智能体的奖励随机变量记作Ri，把奖励的实际观测值记作ri。在本公开的实施例中的合作的设定下，R1＝R2＝…＝Rm。第t时刻的奖励由状态St和所有智能体的动作A＝[A1,A2,···,An]共同决定。

种群(Population)：种群是一种典型的多智能体系统。种群中包括多个人工智能体。这些智能体共享环境，并且智能体之间会相互影响。例如在一些情况下，一个智能体的动作可能会改变环境状态，从而影响其余智能体。在下文中，种群一词可以用于指代人工智能体集合。人工智能体的种群可以用于训练将加入该种群的又一人工智能体或者该种群中的任一个人工智能体，使该人工智能体能够与该种群中的采用不同策略的其它智能体合作。在本公开的实施例中，均假设该种群中包括n个智能体，用上标表示智能体的序号(例如，如果上标为i，那么i的取值为从1到n)，用下标t表示时刻。

回合(episode)：智能体从开始执行任务，到某个终止阶段，例如结束了任务(成功或失败)，或经过了一定时间等等。例如，一个回合可以是机械手从开始位置到终点目标位置(成功完成任务的一个回合)。又例如，一个回合还可以是游戏中智能体被敌人击毙而结束任务(任务失败的一个回合)。

该智能体可以是通过客户端上的操作进行控制的用户虚拟对象，也可以是通过训练设置在游戏环境对战中的人工智能(AI Artificial Intelligence)，还可以是设置在游戏环境互动中的非用户虚拟对象(NPC Non-Player Character)。可选地，该虚拟对象可以是在游戏环境中进行竞技的虚拟人物。可选地，该游戏环境中参与互动的虚拟对象的数量可以是预先设置的，也可以是根据加入互动的客户端的数量动态确定的。

实施例

请参阅图1，本实施例提供的一种智能体训练方法、装置的应用场景示意图。

如图1所示，本发明提供的一种智能体训练方法、装置，应用于AI服务器100和模拟环境服务器200，其中AI服务器100用于进行算法模型的训练，模拟环境服务器200用于实现模拟环境。实际运行时，AI服务器100与模拟环境服务器200连接，模拟环境服务器200将当前模拟环境的状态发送给AI服务器100，AI服务器100提取模拟环境中有用的信息并转化为模型能够识别的特征，并将这些特征传给决策模型进行预测，最后预测的结果发送给模拟环境服务器200具体执行。

需要注意的是，AI服务器100和模拟环境服务器200既可以是设置在云端的云服务器，也可以是设置在本地的本地服务器。AI服务器100和模拟环境服务器200既可以是在功能上进行区分同时基于同一物理设备的服务器，也可以是在功能上进行区分同时基于不同物理设备的服务器。

在上述基础上，如图2所示，为本发明一实施例提供的智能体训练方法，该方法包括：

步骤S101,提取模拟环境中的每个智能体的环境特征信息，所述环境特征信息包括类图像特征和向量特征。

其中，类图像特征和向量特征分别对应了模拟环境中不同维度的信息。类图像特征主要基于智能体所在环境位置对应的图像内容，向量特征主要基于环境中的属性相关的内容。

步骤S102，将每个智能体的环境特征信息分别输入到与该智能体的行为风格对应的决策模型中。

在模拟环境中，通常会随机生成多个智能体进行模拟，每个智能体都有预先设置的行为风格，以便于生成相应的样本数据，为后续针对不同行为风格的决策模型的训练提供支撑。

步骤S103，所述决策模型根据输入的内容输出每个智能体当前的决策动作

将环境特征信息输入到决策模型中后，不同行为风格的决策模型会输出不同风格的的决策动作。

步骤S104，控制每个智能体执行对应的决策动作，与模拟环境进行交互。

控制每个智能体根据决策模型输出的符合自己行为风格的决策动作进行执行，实现与模拟环境及其他智能体的交互。

步骤S105，得到每个智能体基于所述决策动作在当前模拟环境下的奖励以及执行决策动作后的新的环境特征信息。

进行了交互之后，模拟环境相应的发生变化，产生了新的环境特征信息。根据变化后的情况，就能够得到每个智能体执行了决策动作后，在当前模拟环境下的奖励。

步骤S106，将所述环境特征信息、决策动作以及得到的奖励进行拼接后作为样本数据进行保存。

基于上述的步骤S101-S105的过程，智能体执行了一次决策动作。上述过程中产生了一系列的信息，将其中可以用于后续决策模型训练的信息作为样本数据保存下来。重复执行上述过程，每执行一次，针对一个智能体就能够产出一个样本数据。

作为本实施例的优选实施方式，可以将生产出来的样本数据保存到Redis服务器里面，后续需要对模型进行训练时，从Redis中拉取样本数据进行训练即可。

步骤S107，基于强化学习算法，通过保存的所述样本数据分别对不同行为的风格决策模型进行训练。

当积累了一定数量的样本数据之后，就可以通过样本数据进行决策模型的训练优化了。由于样本数据是基于不同行为风格的智能体产生的，因此可以针对不同行为风格，通过设置不同风格的训练奖励同时进行训练，在保留行为风格的基础上通过强化学习算法，使得训练的决策模型仍有足够的策略强度。

本实施例提供的智能体训练方法，通过设置不同风格的训练奖励，实现对于不同智能体的训练，经过训练后的智能体能够实现不同风格的操作和对应的行为，使最终整体训练后的模型能够产生不同风格的智能体，在多风格的基础上保证智能体的策略强度。

如图3所示，本发明另一实施例的智能体训练方法，该方法包括：

步骤S201,在所述模拟环境中随机生成多个行为风格相同或不同的智能体，从所述历史模型库中为每个智能体选择相同行为风格的历史模型。

历史模型库中保存有各种不同行为风格的决策模型的历史模型，这些历史模型是通过之前的训练学习得到并保存的。

在本实施例中，在对决策模型进行训练优化时，每优化一次，在每个回合开始时，会在所述模拟环境中随机生成多个行为风格相同或不同的智能体。同时针对不同的行为风格，从历史模型库选择风格对应的历史模型部署到智能体上。对于相同行为风格的智能体，也可能从同一风格历史模型中，选择不同的进行部署。这样，使得每一回合的智能体的风格都有一定的随机性，进而生成更多情况下的样本数据，为后续进一步的训练优化提供支撑。

作为本实施例的优选实施方式，为了提高样本数据的生产效率，可以同时部署多个模拟环境，在不同的模拟环境中随机shuffle不同风格的AI智能体以及不同风格的个数，运行自对弈进行样本数据的生产工作。

步骤S202,基于所述智能体在所述模拟环境中的位置相关的状态提取类图像特征。

步骤S203,基于所述智能体在所述模拟环境中的属性相关的状态提取向量特征，所述向量特征包括对应智能体的行为风格的信息。

以一个具体的游戏场景为例，类图像特征有5个通道。分别包括：自己的位置，所有敌人的位置，场上所有技能体所在的位置，目前安全区以及毒区范围，下一轮安全区以及毒区范围。向量特征一共525维，分别包含当前智能体的细节属性，以及其他每个智能体的基础属性，技能属性，以及环境的属性。同时，向量特征中会加入当前智能体是处于什么行为风格的模型控制。

步骤S204,将所述向量特征通过第一全连接层处理后，再通过self-attention模块加强向量特征中的关键因素。

步骤S205,将所述类图像特征通过五层卷积层处理。

步骤S206,将处理后的向量特征和类图像特征合并后通过LSTM模块对时序进行建模。

步骤S207,将经过所述LSTM模块处理的信息通过第二全连接层处理后作为决策模型的输出。

步骤S204-S207,是决策模型基于输入的特征信息进行行为预测的过程。针对向量特征，首先将上述所描述的向量处理成一个高维度的向量，然后通过self-attention模块找出具体需要注意哪一部分的信息(或者说是哪一个智能体)。针对类图像特征，先通过五层的卷积层进行处理。将处理完成后的特征，再通过LSTM对时序进行建模，记住按照时间顺序过去发生过什么。然后在通过第二全连接层进行输出。输出采用了级联的方式，先进行主牌的动作预测，根据主牌的动作进行带牌的动作预测。

以具体的游戏场景为例，主牌决策动作对应的是游戏角色释放技能，带牌决策动作对应的是技能释放的方向。在决策模型进行输出时，采用级联的方式先进行具体释放技能的预测，再预测释放技能的方向。

步骤S208，控制每个智能体执行对应的决策动作，与模拟环境进行交互。

步骤S209，得到每个智能体基于所述决策动作在当前模拟环境下的奖励以及执行决策动作后的新的环境特征信息。

在本实施例中，由于需要对不同行为风格的智能体进行训练，因此需要设置不同的奖励规则。根据不同奖励规则的影响，导致决策模型在进行训练时，会根据不同的行为风格进行收敛。具体的奖励规则设置，会在后续的步骤中详细进行说明。

步骤S210，将所述环境特征信息、决策动作以及得到的奖励进行拼接后作为样本数据进行保存。

在本实施例中，采用的训练方法为强化学习方法PPO，对应的样本数据包括图像特征信息、向量特征信息、广义优势估计GAE、Reward信息等强化学习训练所需信息。当使用的训练方法进行调整时，样本数据对应包含的信息也需要根据使用的训练方法的需求进行对应调整。

另一方面，为了提高产生样本的效率数据，可以通过预设一些筛选规则，将部分不需要的样本数据删除。以游戏场景为例，可以将当前环境状态下场面上死亡的智能体所产生的样本数据删除。

步骤S211,使用近端策略优化算法进行决策模型的更新、迭代，直至满足预设的模型训练结束条件。

作为优选的方式，训练的时候使用了PPO算法，同时使用Surrogate loss和entropy loss优化决策模型的决策策略，使用L2作为价值损失函数优化value即评价值，从而产生更准确的决策策略。

步骤S212,使用奖励函数塑形算法进行多个不同行为风格的决策模型的训练。

其中，使用奖励函数塑形算法的具体方式为：

确定一套与行为风格无关的基础奖励模型；

基于所述基础奖励模型和稠密奖励进行决策模型的训练。

以游戏场景为例，首先设计一套与风格无关的reward schema，通过在局后给AI智能体进行死亡先后顺序的ranking，给到每个智能体不同的final reward；通过奖励函数塑形，设计不同风格的稠密奖励，这里以两种风格为例：保守和激进。设ranking reward为R_r，造成任意伤害的reward为R_d，被任意技能伤害的reward为R_o：

对于保守风格，reward function R(s)＝R_r-∑R_o×2+∑R_d，即受到伤害得到的惩罚是造成伤害得到的奖励的两倍；

对于激进风格，reward function R(s)＝R_r-∑R_o+∑R_d×2，即造成伤害得到的奖励是受到伤害得到的惩罚的两倍。

基于上述过程，两种不同风格的智能体，都会以延长存活时间为目标，同时保守风格的智能体会偏向于减少受到伤害，激进风格的智能体会偏向于主动造成伤害。

步骤S213,使用超参数自动优化算法对决策模型的超参数进行优化。

其中，使用超参数自动优化算法的具体方式为：

上述过程中，通过模拟训练出来的不同风格的历史模型之间的对抗，并统计胜率和关键指标(比如存活时间，造成伤害等)。通过胜率作为PBT的指标决定哪些历史模型所对应的超参数是更好的，更新到正在训练的模型上。

作为本发明的优选实施方式，对于上述的步骤S211-S213，可以按顺序执行，也可以同步执行，进而提高决策模型的训练效率。

作为本实施例的优选实施方式，在执行步骤S211-S213进行训练优化时，可以由多个worker进行训练任务，以此加速训练速度以及收敛速度。

步骤S214,将训练完成的决策模型作为历史模型，按照其对应的行为风格保存到历史模型库中。

保存到历史模型库中的历史模型，在执行步骤S201时，可以供其部署使用。

作为本发明实施的优选实施方式，可以通过一个具有图像显示功能的客户端与模拟环境服务器200进行连接，将模拟环境中每个智能体的动作执行状态和结果进行展示。

综上，本实施例提供的智能体训练方法，通过设置不同风格的训练奖励，实现对于不同智能体的训练，经过训练后的智能体能够实现不同风格的操作和对应的行为，使最终整体训练后的模型能够产生不同风格的智能体，在多风格的基础上保证智能体的策略强度。采用了多模型并行训练的方式，让多种风格的智能体在一个环境下产生训练样本，利用reward shaping对每种风格的AI智能体针对性设计reward，应用PBT的训练方式更新多模型训练时的超参数，在多风格的基础上保证智能体的对战强度。

如图4所示，本发明实施提供的智能体训练装置，所述装置包括：

特征提取单元110，用于提取模拟环境中的每个智能体的环境特征信息，所述环境特征信息包括类图像特征和向量特征；

动作决策单元120，用于将每个智能体的环境特征信息分别输入到与该智能体的行为风格对应的决策模型中，所述决策模型根据输入的内容输出每个智能体当前的决策动作；

动作交互单元130，用于控制每个智能体执行对应的决策动作，与模拟环境进行交互；

环境反馈单元140，用于得到每个智能体基于所述决策动作在当前模拟环境下的奖励以及执行决策动作后的新的环境特征信息；

数据保存单元150，用于将所述环境特征信息、决策动作以及得到的奖励进行拼接后作为样本数据进行保存；

模型训练单元160，用于基于强化学习算法，通过保存的所述样本数据分别对不同行为的风格决策模型进行训练。

如图5所示，本发明另一实施提供的智能体训练装置，在上一实施例的基础上，作为本实施例的优选实施方式：

所述特征提取单元110，具体用于：

所述决策模型为卷积神经网络模型，所述动作决策单元120，具体用于：

将所述向量特征通过第一全连接层处理后，再通过self-attention模块加强向量特征中的关键因素；

将所述类图像特征通过五层卷积层处理；

所述模型训练单元160，具体用于：

使用超参数自动优化算法对决策模型的超参数进行优化。

所述模型训练单元使用奖励函数塑形算法进行多个不同行为风格的决策模型的训练的方法，具体包括：

确定一套与行为风格无关的基础奖励模型；

基于所述基础奖励模型和稠密奖励进行决策模型的训练。

所述模型训练单元160基于所述基础奖励模型和稠密奖励进行决策模型的训练的方法，具体包括：

所述数据保存单元150，还用于将训练完成的决策模型作为历史模型，按照其对应的行为风格保存到历史模型库中。

所述装置还包括模型部署单元170，用于在所述模拟环境中随机生成多个行为风格相同或不同的智能体，从所述历史模型库中为每个智能体选择相同行为风格的历史模型。

本发明实施例提供的智能体训练装置，用于实现上述智能体训练方法，因此具体实施方式与上述方法相同，在此不再赘述。

如图6所示，本发明实施例提供的一种电子设备300的结构框图。该电子设备300可以是智能手机、平板电脑、电子书等能够运行应用程序的电子设备300。本申请中的电子设备300可以包括一个或多个如下部件：处理器310、存储器320、以及一个或多个应用程序，其中一个或多个应用程序可以被存储在存储器320中并被配置为由一个或多个处理器310执行，一个或多个程序配置用于执行如前述方法实施例所描述的方法。

处理器310可以包括一个或者多个处理核。处理器310利用各种接口和线路连接整个电子设备300内的各个部分，通过运行或执行存储在存储器320内的指令、程序、代码集或指令集，以及调用存储在存储器320内的数据，执行电子设备300的各种功能和处理数据。可选地，处理器310可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)、可编程逻辑阵列(Programmable LogicArray，PLA)中的至少一种硬件形式来实现。处理器310可集成中央处理器(CentralProcessing Unit，CPU)、图像处理器(Graphics Processing Unit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责显示内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器310中，单独通过一块通信芯片进行实现。

存储器320可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory)。存储器320可用于存储指令、程序、代码、代码集或指令集。存储器320可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等。存储数据区还可以存储终端在使用中所创建的数据(比如电话本、音视频数据、聊天记录数据)等。

如图7所示，本发明实施例提供的一种计算机可读存储介质400的结构框图。该计算机可读介质中存储有程序代码410，所述程序代码410可被处理器调用执行上述方法实施例中所描述的方法。

计算机可读存储介质400可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选地，计算机可读存储介质400包括非易失性计算机可读介质(non-transitory computer-readable storage medium)。计算机可读存储介质400具有执行上述方法中的任何方法步骤的程序代码410的存储空间。这些程序代码410可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码410可以例如以适当形式进行压缩。

在本申请所公开的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims

1.一种智能体训练方法，其特征在于，所述方法包括：

2.根据权利要求1所述的智能体训练方法，其特征在于，所述提取模拟环境中的每个智能体的环境特征信息的步骤，具体包括：

3.根据权利要求2所述的智能体训练方法，其特征在于，所述决策模型为卷积神经网络模型，所述决策模型根据输入的内容输出每个智能体当前的决策动作的步骤，具体包括：

将所述类图像特征通过五层卷积层处理；

4.根据权利要求3所述的智能体训练方法，其特征在于，所述基于强化学习算法，通过保存的所述样本数据分别对不同行为风格的决策模型进行训练的步骤，具体包括：

使用超参数自动优化算法对决策模型的超参数进行优化。

5.根据权利要求4所述的智能体训练方法，其特征在于，所述使用奖励函数塑形算法进行多个不同行为风格的决策模型的训练的步骤，具体包括：

确定一套与行为风格无关的基础奖励模型；

基于所述基础奖励模型和稠密奖励进行决策模型的训练。

6.根据权利要求4所述的智能体训练方法，其特征在于，所述使用超参数自动优化算法对决策模型的超参数进行优化的步骤，具体包括：

7.根据权利要求1－6所述的智能体训练方法，其特征在于，所述方法包括：

8.一种智能体训练装置，其特征在于，所述装置包括：

数据保存单元，用于将所述环境特征信息、决策动作以及得到的奖励进行拼接后作为样本数据进行保存；

9.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储器；

一个或多个应用程序，其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序配置用于执行如权利要求1－7任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有程序代码，所述程序代码可被处理器调用执行如权利要求1－7任一项所述的方法。