CN110141867B

CN110141867B - 一种游戏智能体训练方法及装置

Info

Publication number: CN110141867B
Application number: CN201910327828.0A
Authority: CN
Inventors: 徐波
Original assignee: Duoyi Network Co ltd; GUANGDONG LIWEI NETWORK TECHNOLOGY CO LTD; Guangzhou Duoyi Network Co ltd
Current assignee: Duoyi Network Co ltd; GUANGDONG LIWEI NETWORK TECHNOLOGY CO LTD; Guangzhou Duoyi Network Co ltd
Priority date: 2019-04-23
Filing date: 2019-04-23
Publication date: 2022-12-02
Anticipated expiration: 2039-04-23
Also published as: CN110141867A

Abstract

本发明公开了一种游戏智能体训练方法及装置，包括对玩家角色的自身状态、观测状态及输出行为进行编码，得到玩家数据，构建玩家智能体；采用预先建立的初始NPC对玩家智能体进行交互训练，并根据训练后的玩家智能体的参数更新玩家行为策略对应的参数；根据玩家行为策略对应的参数，采用训练后的玩家智能体对NPC智能体进行交互训练，并根据训练后的NPC智能体的参数更新NPC行为策略对应的参数；迭代地使用NPC行为策略对应的参数优化玩家行为策略对应的参数，以及使用玩家行为策略对应的参数优化NPC行为策略对应的参数，直至NPC行为策略稳定，能有效解决现有技术难以获得对非玩家角色训练中与玩家的交互数据的问题，能有效提升非玩家智能体的训练效果。

Description

一种游戏智能体训练方法及装置

技术领域

本发明涉及人工智能技术领域，尤其涉及一种游戏智能体训练方法及装置。

背景技术

随着现代经济繁荣发展，电子游戏的不断进步和提升，现在已经成为人们主要的休闲娱乐方式之一。游戏中非玩家角色的行为决策是影响游戏质量和用户体验的重要因素。传统游戏人工智能的实现是通过状态机或行为树来实现，通过智能体处在不同的环境和状态采取不同的策略。然而随着游戏状态增加，环境因素越来越复杂，通过传统方式实现显得复杂和效率低下。

目前，强化学习已被广泛应用于智能控制，智能预测，游戏人工智能等诸多领域。强化学习利用智能体和环境的不断交互，不断获得回报，通过最大化回报的方式进行学习，目前在游戏中获得比较理想的效果。而目前强化学习在游戏人工智能主要在模拟玩家角色的实现，无论是玩家和玩家之间的竞技，玩家和非玩家角色的竞技，主要运用在玩家角色方。对非玩家角色的训练需要大量对应的玩家交互的数据，而这些数据很多时候是很难获得的。

发明内容

本发明实施例提供一种游戏智能体训练方法及装置，能有效解决现有技术难以获得对非玩家角色训练中与玩家的交互数据的问题。

本发明一实施例提供一种游戏智能体训练方法，包括：

对玩家角色的自身状态、观测状态及输出行为进行编码，得到玩家数据，并根据所述玩家数据，构建玩家智能体；

采用预先建立的初始NPC对所述玩家智能体进行交互训练，并根据训练后的玩家智能体的参数更新玩家行为策略对应的参数；

对NPC的自身状态、观测状态及输出行为进行编码，得到NPC数据，并根据所述NPC数据，构建NPC智能体；

根据所述玩家行为策略对应的参数，采用所述训练后的玩家智能体对所述NPC智能体进行交互训练，并根据训练后的NPC智能体的参数更新NPC行为策略对应的参数；

迭代地使用所述NPC行为策略对应的参数优化所述玩家行为策略对应的参数，以及使用所述玩家行为策略对应的参数优化所述NPC行为策略对应的参数，直至所述NPC行为策略稳定。

作为上述方案的改进，所述迭代地使用所述NPC行为策略对应的参数优化所述玩家行为策略对应的参数，以及使用所述玩家行为策略对应的参数优化所述NPC行为策略对应的参数，直至所述NPC行为策略稳定，具体包括：

重复执行以下步骤，直至所述NPC行为策略稳定：

使用上次训练后的NPC智能体，固定其行为策略对应的参数，对上次训练后的玩家智能体进行交互训练，并根据当前训练后的玩家智能体的参数更新上次训练得到的玩家行为策略对应的参数；使用所述当前训练后的玩家智能体，固定其行为策略对应的参数，对所述上次训练后的NPC智能体进行交互训练，并根据当前训练后的NPC智能体的参数更新所述上次训练得到的NPC行为策略对应的参数。

作为上述方案的改进，所述对玩家角色的自身状态、观测状态及输出行为进行编码，得到玩家数据，并根据所述玩家数据，构建玩家智能体，具体包括：

选择编码模式；其中，所述编码模式包括向量编码模式、第一图像编码模式和第二图像编码模式；

根据所述编码模式，对所述玩家角色的自身状态、观测状态进行编码，得到玩家状态数据；

采用one-hot方式对所述玩家角色的输出行为进行编码，得到玩家输出行为数据；

根据所述玩家状态数据和所述玩家输出行为数据，生成玩家数据，并根据所述玩家数据，构建玩家智能体。

进一步的，所述对玩家角色的自身状态、观测状态及输出行为进行编码，得到玩家数据，并根据所述玩家数据，构建玩家智能体，具体包括：

当所述编码模式为向量编码模式时，提取玩家游戏状态数据，对所述玩家角色的自身状态和观测状态进行向量形式编码；

根据所述玩家游戏状态数据，提取连续状态特征和离散状态特征；

对所述连续状态特征进行归一化处理，得到连续状态数据；

采用one-hot方式对所述离散状态特征进行编码，得到离散状态数据，并根据所述离散状态数据和所述连续状态数据，得到向量形式的玩家状态数据；

根据所述向量形式的玩家状态数据和所述玩家输出行为数据，生成玩家数据，并根据所述玩家数据，构建玩家智能体。

当所述编码模式为第一图像编码模式时，获取当前的游戏画面作为决策数据，作为智能体的输入；

根据图像灰度化是否丢失信息决策的数据信息，选择是否对所述当前的游戏画面进行灰度化处理，得到第一图像形式的玩家状态数据；

根据所述第一图像形式的玩家状态数据和所述玩家输出行为数据，生成玩家数据，并根据所述玩家数据，构建玩家智能体。

当所述编码模式为第二图像编码模式时，获取当前游戏画面对应的决策数据，对所述当前游戏画面对应的决策数据进行抽象，提取训练特征数据，并根据所述训练特征数据，绘制第二图像形式的玩家状态数据；

根据所述第二图像形式的玩家状态数据和所述玩家输出行为数据，生成玩家数据，并根据所述玩家数据，构建玩家智能体。

作为上述方案的改进，所述采用预先建立的初始NPC对所述玩家智能体进行交互训练，并根据训练后的玩家智能体的参数更新玩家行为策略对应的参数，具体包括：

将所述玩家智能体与所述初始NPC在预设的游戏场景中进行作战；

获取玩家游戏数据，并根据所述玩家游戏数据控制所述玩家智能体执行玩家决策动作，得到对应的玩家行为数据；

根据所述玩家游戏数据和所述玩家行为数据，生成玩家后续状态数据和玩家奖励数据，并调整所述玩家奖励数据；

将所述玩家游戏数据、所述玩家行为数据、所述玩家后续状态数据和所述玩家奖励数据组织成第一训练样本，并根据所述第一训练样本对所述玩家智能体进行训练；

根据训练后的玩家智能体的参数更新玩家行为策略对应的参数。

作为上述方案的改进，所述调整所述玩家奖励数据，具体包括：

根据以下公式得到所述玩家奖励数据：

r＝∑H(e_k)-∑H(e_l)-αP+βR

其中，r为玩家奖励数据，H(e_k)为所述玩家智能体执行一步操作后击杀所述初始NPC并使其掉的血量和，H(e_l)为所述初始NPC对所述玩家智能体的伤害值，R为所述玩家智能体对游戏产生增益效果的奖励，P为所述玩家智能体对游戏产生减益效果的惩罚，α为第一系数，β为第二系数。

作为上述方案的改进，所述根据所述玩家行为策略对应的参数，采用所述训练后的玩家智能体对所述NPC智能体进行交互训练，并根据训练后的NPC智能体的参数更新NPC行为策略对应的参数，具体包括：

固定所述玩家行为策略对应的参数，将所述训练后的玩家智能体与所述NPC智能体在所述游戏场景中进行作战；

获取NPC游戏数据，并根据所述NPC游戏数据控制所述NPC智能体执行NPC决策动作，得到对应的NPC行为数据；

根据所述NPC游戏数据和所述NPC行为数据，生成NPC后续状态数据和NPC奖励数据，并调整所述NPC奖励数据；

将所述NPC游戏数据、所述NPC行为数据、所述NPC后续状态数据和所述NPC奖励数据组织成第二训练样本，并根据所述第二训练样本对所述NPC智能体进行训练；

根据训练后的NPC智能体的参数更新NPC行为策略对应的参数。

本发明一实施例提供一种游戏智能体训练装置，包括：

玩家智能体构建模块，用于对玩家角色的自身状态、观测状态及输出行为进行编码，得到玩家数据，并根据所述玩家数据，构建玩家智能体；

玩家智能体训练模块，用于采用预先建立的初始NPC对所述玩家智能体进行交互训练，并根据训练后的玩家智能体的参数更新玩家行为策略对应的参数；

NPC智能体构建模块，用于对NPC的自身状态、观测状态及输出行为进行编码，得到NPC数据，并根据所述NPC数据，构建NPC智能体；

NPC智能体训练模块，用于根据所述玩家行为策略对应的参数，采用所述训练后的玩家智能体对所述NPC智能体进行交互训练，并根据训练后的NPC智能体的参数更新NPC行为策略对应的参数，直至所述NPC行为策略稳定；

优化模块，用于迭代地使用所述NPC行为策略对应的参数优化所述玩家行为策略对应的参数，以及使用所述玩家行为策略对应的参数优化所述NPC行为策略对应的参数，直至所述NPC行为策略稳定。

与现有技术相比，本发明实施例公开的一种游戏智能体训练方法及装置，通过对玩家角色的自身状态、观测状态及输出行为进行编码，得到玩家数据，并根据所述玩家数据，构建玩家智能体，采用预先建立的初始NPC对所述玩家智能体进行交互训练，并根据训练后的玩家智能体的参数更新玩家行为策略对应的参数，对NPC的自身状态、观测状态及输出行为进行编码，得到NPC数据，并根据所述NPC数据，构建NPC智能体，根据所述玩家行为策略对应的参数，采用所述训练后的玩家智能体对所述NPC智能体进行交互训练，并根据训练后的NPC智能体的参数更新NPC行为策略对应的参数，迭代地使用所述NPC行为策略对应的参数优化所述玩家行为策略对应的参数，以及使用所述玩家行为策略对应的参数优化所述NPC行为策略对应的参数，直至所述NPC行为策略稳定，能够通过初始NPC与玩家智能体进行交互训练，以使玩家智能体开始学习行为策略，能有效加快玩家智能体的训练速度，后通过NPC行为策略渐进优化玩家智能体的玩家行为策略，能有效解决现有技术难以获得对非玩家角色训练中与玩家的交互数据的问题，能有效提高训练样本的多样性和合理性，能有效提高训练效率，提升非玩家智能体的训练效果。

附图说明

图1是本发明一实施例提供的一种游戏智能体训练方法的流程示意图；

图2是本发明一实施例提供的一种游戏智能体训练装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见图1，是本发明一实施例提供的一种游戏智能体训练方法的流程示意图，包括：

S101、对玩家角色的自身状态、观测状态及输出行为进行编码，得到玩家数据，并根据所述玩家数据，构建玩家智能体。

优选地，选择编码模式；其中，所述编码模式包括向量编码模式、第一图像编码模式和第二图像编码模式；

具体地，玩家角色的自身状态可以包括玩家的位置信息、朝向、类别、当前血量、状态信息和技能使用情况。玩家角色的观测状态可以包括怪物的位置信息、朝向、类别、当前血量、状态信息和技能使用情况，优选地还包括场景中的一些额外信息，如飞行子弹的信息、掉落物品的信息。进一步的，对玩家角色的自身状态、观测状态的编码模式可以为向量编码模式，也可以为图像编码模式，其中，图像编码模式包括第一图像编码模式和第二图像编码模式。

优选的，玩家角色的输出行为采用one-hot方式编码。玩家角色的输出行为编码可以采取对微行为或者宏行为进行编码。微行为是最小化的一个操作，而宏行为可以是多个微行为一连串执行。微行为需要定义的操作少，范化能力较强，但是训练较慢，宏行为需要的编写和定义的操作较多，训练速度较快。其中，玩家角色的输出行为的微行为分别包括往八个方位的行走操作、跳跃的操作、执行技能的操作。具体的，玩家的输出行为与当前游戏的决策数据相关。

可选的，当所述编码模式为向量编码模式时，提取玩家游戏状态数据，对所述玩家角色的自身状态和观测状态进行向量形式编码；

对所述连续状态特征进行归一化处理，得到连续状态数据；

可选的，当所述编码模式为第一图像编码模式时，获取当前的游戏画面作为决策数据，作为智能体的输入；

需要说明的是，采用第一图像编码方式，读取当前游戏画面，可以根据当前游戏画面中作出决策需要的数据信息选择是否灰度化处理。由于灰度化处理后必须保证信息完备性不受到影响，不能因灰度化处理导致作出决策需要的数据信息丢失，灰度化处理是为了简化信息的复杂度，加快计算时间，进而提高效率。例如，彩色画面作为做出决策的信息是必须的，而灰度化处理后信息会丢失，则不能进行灰度化处理。

可选的，当所述编码模式为第二图像编码模式时，获取当前游戏画面对应的决策数据，对所述当前游戏画面对应的决策数据进行抽象，提取训练特征数据，并根据所述训练特征数据，绘制第二图像形式的玩家状态数据；

需要说明的是，采用第二图像编码方式，还可以对当前游戏画面对应的决策数据进行抽象，剥离出有学习价值的信息，生成训练特征数据，后将所述训练特征数据绘制成二维或者多维的图像信息，得到第二图像形式的玩家状态数据。其中，所述第二图像形式的玩家状态数据比所述当前游戏画面的特征效果更为显著。

S102、采用预先建立的初始NPC对所述玩家智能体进行交互训练，并根据训练后的玩家智能体的参数更新玩家行为策略对应的参数。

优选地，步骤S102之前还包括：

采用行为树或状态机构建所述初始NPC。

具体地，通过行为树或者状态机的逻辑方式NPC角色的行为进行规则化，以传统的决策方式赋予NPC角色初始的行为方式，使所述初始NPC能和正常的玩家角色进行战斗。通常智能体与未经学习的智能体进行交互探索学习，每个智能体都需要较长的时间进行训练，效率比较低下。而本发明中通过与具有行为树初步决策能力的初始NPC进行对抗学习，可以作为玩家智能体探索学习的一个启动，能有效加快玩家智能体的训练速度。

优选地，将所述玩家智能体与所述初始NPC在预设的游戏场景中进行作战；

可以理解，所述玩家游戏数据可以包括对战中每一步玩家角色的自身状态和玩家角色的观测状态，如玩家的位置信息、朝向、类别、当前血量、状态信息和技能使用情况以及怪物的位置信息、朝向、类别、当前血量、状态信息和技能使用情况。所述玩家行为数据可以是玩家角色根据游戏状态采取对应的决策动作，如往八个方位的行走操作、跳跃的操作、执行技能的操作。所述玩家后续状态数据可以是对战后玩家角色的自身状态和玩家角色的观测状态。所述玩家奖励数据可以为根据对战中玩家智能体对初始NPC造成的伤害、初始NPC对玩家智能体造成的伤害、玩家角色对游戏产生增益效果的奖励和减益效果的惩罚等进行奖励设计，比如道具奖励、经验奖励和金币奖励。通过玩家智能体和初始NPC进行交互对战，在预设的游戏场景下进行多个回合的训练，收集每一步的状态和对应采取的行为，对应得到新的游戏状态和奖励，并对每次对战的奖励进行合理的设计，玩家智能体在与初始NPC进行试错的同时再不断最大化每个回合的奖励，最终玩家智能体能针对初始NPC学习到最佳的行为策略，然后保存最优的玩家行为策略对应的参数。其中，行为策略包括空闲策略和攻击策略，攻击策略可以包括攻击、静止、徘徊等。

优选的，对战训练中玩家奖励数据的设计方法为根据以下公式得到所述玩家奖励数据：

r＝∑H(e_k)-∑H(e_l)-αP+βR

其中，玩家智能体与初始NPC对战中，获取所述玩家游戏数据、所述玩家行为数据、所述玩家后续状态数据和所述玩家奖励数据，将上述四个数据作为一组信息存放在一个缓冲池中，然后不断从缓冲池中读取一串信息组进行学习。

可选的，当玩家状态数据为向量形式时，所述玩家智能体为第一神经网络，其中，所述第一神经网络的结构可设为包括多层全连接层。采用强化学习算法对所述第一神经网络进行反向传播，以降低所述第一神经网络误差。

可选的，当玩家状态数据为图像形式时，所述玩家智能体为第二神经网络，其中，所述第二神经网络的结构可设为包括2个卷积层和4个全连接层。采用强化学习算法对所述第二神经网络进行优化。

优选的，第一神经网络和第二神经网络的最后一层输出维度大小为是候选动作的数量，即对应的概率大小，玩家智能体选择概率最大的行为进行执行。

S103、对NPC的自身状态、观测状态及输出行为进行编码，得到NPC数据，并根据所述NPC数据，构建NPC智能体。

具体的，对NPC的自身状态和观测状态与步骤S101玩家角色的类似，根据需要的游戏环境状态，NPC的自身状态和观测状态的特征数目可能不同。但是抽象和编码的方式相同，NPC的自身状态和观测状态分别采用向量编码方式和图像编码方式，NPC的输出行为采用one-hot方式编码。其中，NPC角色的自身状态可以包括NPC的位置信息、朝向、类别、当前血量、状态信息和技能使用情况。NPC角色的观测状态可以包括玩家的位置信息、朝向、类别、当前血量、状态信息和技能使用情况。

可选的，采用向量编码模式，提取NPC游戏状态数据，对所述NPC角色的自身状态和观测状态进行向量形式编码，得到NPC游戏状态数据；提取NPC游戏状态数据中的连续状态特征和离散状态特征；对NPC状态数据中的连续状态特征进行归一化处理，采用one-hot方式对NPC状态数据中的离散状态特征进行编码，处理后得到向量形式的NPC状态数据。

可选的，采用第一图像编码模式，获取当前的游戏画面作为决策数据，作为NPC智能体的输入；根据图像灰度化是否丢失信息决策的数据信息，选择是否对所述当前的游戏画面进行灰度化处理，得到第一图像形式的NPC状态数据。

可选的，采用第二图像编码模式，获取当前游戏画面对应的决策数据，对所述当前游戏画面对应的决策数据进行抽象，提取具有学习价值的特征数据，并根据所述具有学习价值的特征数据，绘制第二图像形式的NPC状态数据。

进一步的，NPC的输出行为的微行为分别包括往八个方位的行走操作、跳跃的操作、执行技能的操作。NPC的输出行为编码可以采取对微行为或者宏行为进行编码。采用one-hot方式对所述NPC的输出行为进行编码，得到NPC输出行为数据；根据NPC状态数据和所述NPC输出行为数据，生成NPC数据，并根据所述NPC数据，构建NPC智能体；其中，NPC状态数据包括向量形式的NPC状态数据、第一图像形式的NPC状态数据或第二图像形式的NPC状态数据。

S104、根据所述玩家行为策略对应的参数，采用所述训练后的玩家智能体对所述NPC智能体进行交互训练，并根据训练后的NPC智能体的参数更新NPC行为策略对应的参数。

具体的，固定所述玩家行为策略对应的参数，将所述训练后的玩家智能体与所述NPC智能体在所述游戏场景中进行作战；

根据训练后的NPC智能体的参数更新NPC行为策略对应的参数。

可以理解，固定步骤S102中训练后得到的玩家行为策略对应的参数，使用步骤S102训练后的玩家智能体与NPC智能体在预设的游戏场景中战斗训练，调节NPC智能体在与玩家智能体进行交互时候每一步获得的奖励，通过深度强化学习最大化收益，得到最佳的NPC行为策略对应的参数。

其中，所述NPC游戏数据可以包括对战中每一步NPC角色的自身状态和玩家角色的观测状态。所述NPC行为数据可以是NPC根据游戏状态采取对应的决策动作，如往八个方位的行走操作、跳跃的操作、执行技能的操作。所述NPC后续状态数据可以是对战后NPC的自身状态和NPC的观测状态。所述NPC奖励数据可以为对战后NPC获得的奖励，不同类型的NPC有不同的奖励设计。

优选地，NPC智能体与玩家智能体对战中，获取所述NPC游戏数据、所述NPC行为数据、所述NPC后续状态数据和所述NPC奖励数据，将上述四个数据作为一组信息存放在一个缓冲池中，然后不断从所述缓冲池中读取一串信息组进行学习。

可选的，当NPC状态数据为向量形式时，所述NPC智能体为第三神经网络，其中，所述第三神经网络的结构可设为包括多层全连接层。采用强化学习算法对所述第三神经网络进行反向传播，以降低所述第三神经网络误差。

可选的，当NPC状态数据为图像形式时，所述NPC智能体为第四神经网络，其中，所述第四神经网络的结构可设为包括2个卷积层和4个全连接层。采用强化学习算法对所述第四神经网络进行优化。

优选的，第三神经网络和第四神经网络的最后一层输出维度大小为是候选动作的数量，即对应的概率大小，NPC智能体选择概率最大的行为进行执行。

S105、迭代地使用所述NPC行为策略对应的参数优化所述玩家行为策略对应的参数，以及使用所述玩家行为策略对应的参数优化所述NPC行为策略对应的参数，直至所述NPC行为策略稳定。

具体的，重复执行以下步骤，直至所述NPC行为策略稳定：

使用上次训练后的NPC智能体，固定其行为策略对应的参数，对上次训练后的玩家智能体进行交互训练，并根据当前训练后的玩家智能体的参数更新上次训练得到的玩家行为策略对应的参数；

使用所述当前训练后的玩家智能体，固定其行为策略对应的参数，对所述上次训练后的NPC智能体进行交互训练，并根据当前训练后的NPC智能体的参数更新所述上次训练得到的NPC行为策略对应的参数。

需要说明的是，NPC智能体根据与玩家智能体的对战学习获得对应的NPC行为策略，形成的NPC行为策略的最优解可能是局部最优解。通过进一步优化上次迭代训练得到的玩家智能体与上次迭代训练得到的NPC智能体对战，优化玩家智能体的模型参数，获取优化后的玩家行为策略对应的参数。基于当前迭代训练得到的玩家智能体与上次迭代训练得到的NPC智能体进行对战，以优化NPC智能体的模型参数，进而更新NPC行为策略对应的参数，使NPC行为策略达到更优，直到策略稳定后停止循环。优选的，根据游戏的NPC的性能要求判断NPC行为策略是否稳定。其中，游戏的NPC的性能要求，如NPC与玩家战斗中的胜率、NPC的误差值、NPC的损失值等，能有效提高非玩家角色的行为决策的准确性，提升训练效果，进而有效提高游戏质量。

本发明实施例提供的一种游戏智能体训练方法，通过对玩家角色的自身状态、观测状态及输出行为进行编码，得到玩家数据，并根据所述玩家数据，构建玩家智能体，采用预先建立的初始NPC对所述玩家智能体进行交互训练，并根据训练后的玩家智能体的参数更新玩家行为策略对应的参数，对NPC的自身状态、观测状态及输出行为进行编码，得到NPC数据，并根据所述NPC数据，构建NPC智能体，根据所述玩家行为策略对应的参数，采用所述训练后的玩家智能体对所述NPC智能体进行交互训练，并根据训练后的NPC智能体的参数更新NPC行为策略对应的参数，迭代地使用所述NPC行为策略对应的参数优化所述玩家行为策略对应的参数，以及使用所述玩家行为策略对应的参数优化所述NPC行为策略对应的参数，直至所述NPC行为策略稳定，能够通过初始NPC与玩家智能体进行交互训练，以使玩家智能体开始学习行为策略，能有效加快玩家智能体的训练速度，后通过NPC行为策略渐进优化玩家智能体的玩家行为策略，能有效解决现有技术难以获得对非玩家角色训练中与玩家的交互数据的问题，能有效提高训练样本的多样性和合理性，能有效提高训练效率，提升非玩家智能体的训练效果。

参见图2，是本发明一实施例提供的一种游戏智能体训练装置的结构示意图，包括：

玩家智能体构建模块11，用于对玩家角色的自身状态、观测状态及输出行为进行编码，得到玩家数据，并根据所述玩家数据，构建玩家智能体；

玩家智能体训练模块12，用于采用预先建立的初始NPC对所述玩家智能体进行交互训练，并根据训练后的玩家智能体的参数更新玩家行为策略对应的参数；

NPC智能体构建模块13，用于对NPC的自身状态、观测状态及输出行为进行编码，得到NPC数据，并根据所述NPC数据，构建NPC智能体；

NPC智能体训练模块14，用于根据所述玩家行为策略对应的参数，采用所述训练后的玩家智能体对所述NPC智能体进行交互训练，并根据训练后的NPC智能体的参数更新NPC行为策略对应的参数。

优化模块15，用于迭代地使用所述NPC行为策略对应的参数优化所述玩家行为策略对应的参数，以及使用所述玩家行为策略对应的参数优化所述NPC行为策略对应的参数，直至所述NPC行为策略稳定。

优选地，所述优化模块15包括：

循环单元，用于重复执行以下步骤，直至所述NPC行为策略稳定：

优选地，所述玩家智能体构建模块11包括：

编码模式选择单元，用于选择编码模式；其中，所述编码模式包括向量编码模式、第一图像编码模式和第二图像编码模式；

玩家状态数据处理单元，用于根据所述编码模式，对所述玩家角色的自身状态、观测状态进行编码，得到玩家状态数据；

玩家输出行为数据处理单元，用于采用one-hot方式对所述玩家角色的输出行为进行编码，得到玩家输出行为数据；

玩家智能体构建单元，用于根据所述玩家状态数据和所述玩家输出行为数据，生成玩家数据，并根据所述玩家数据，构建玩家智能体。

优选地，所述玩家智能体构建模块11包括：

向量编码单元，用于当所述编码模式为向量编码模式时，提取玩家游戏状态数据，对所述玩家角色的自身状态和观测状态进行向量形式编码；

特征提取单元，用于根据所述玩家游戏状态数据，提取连续状态特征和离散状态特征；

归一化处理单元，用于对所述连续状态特征进行归一化处理，得到连续状态数据；

离散状态特征编码单元，用于采用one-hot方式对所述离散状态特征进行编码，得到离散状态数据，并根据所述离散状态数据和所述连续状态数据，得到向量形式的玩家状态数据；

第一玩家输出行为数据编码单元，用于采用one-hot方式对所述玩家角色的输出行为进行编码，得到玩家输出行为数据；

第一建模单元，用于根据所述向量形式的玩家状态数据和所述玩家输出行为数据，生成玩家数据，并根据所述玩家数据，构建玩家智能体。

优选地，所述玩家智能体构建模块11还包括：

第一图像编码单元，用于当所述编码模式为第一图像编码模式时，获取当前的游戏画面作为决策数据，作为智能体的输入；

选择单元，用于根据图像灰度化是否丢失信息决策的数据信息，选择是否对所述当前的游戏画面进行灰度化处理，得到第一图像形式的玩家状态数据；

第二玩家输出行为数据编码单元，用于采用one-hot方式对所述玩家角色的输出行为进行编码，得到玩家输出行为数据；

第二建模单元，用于根据所述第一图像形式的玩家状态数据和所述玩家输出行为数据，生成玩家数据，并根据所述玩家数据，构建玩家智能体。

优选地，所述玩家智能体构建模块11还包括：

第二图像编码单元，用于当所述编码模式为第二图像编码模式时，获取当前游戏画面对应的决策数据，对所述当前游戏画面对应的决策数据进行抽象，提取训练特征数据，并根据所述训练特征数据，绘制第二图像形式的玩家状态数据；

第三玩家输出行为数据编码单元，用于采用one-hot方式对所述玩家角色的输出行为进行编码，得到玩家输出行为数据；

第三建模单元，用于根据所述第二图像形式的玩家状态数据和所述玩家输出行为数据，生成玩家数据，并根据所述玩家数据，构建玩家智能体。

优选地，所述玩家智能体训练模块12还包括：

第一交互单元，用于将所述玩家智能体与所述初始NPC在预设的游戏场景中进行作战；

玩家游戏数据和玩家行为数据获取单元，用于获取玩家游戏数据，并根据所述玩家游戏数据控制所述玩家智能体执行玩家决策动作，得到对应的玩家行为数据；

玩家后续状态数据和玩家奖励数据获取单元，用于根据所述玩家游戏数据和所述玩家行为数据，生成玩家后续状态数据和玩家奖励数据，并调整所述玩家奖励数据；

玩家智能体训练单元，用于将所述玩家游戏数据、所述玩家行为数据、所述玩家后续状态数据和所述玩家奖励数据组织成第一训练样本，并根据所述第一训练样本对所述玩家智能体进行训练；

玩家行为策略对应的参数更新单元，用于根据训练后的玩家智能体的参数更新玩家行为策略对应的参数。

优选地，所述玩家智能体训练模块12还包括：

玩家奖励数据设计单元，用于根据以下公式得到所述玩家奖励数据：

r＝∑H(e_k)-∑H(e_l)-αP+βR

优选地，所述NPC智能体训练模块14包括：

第二交互单元，用于固定所述玩家行为策略对应的参数，将所述训练后的玩家智能体与所述NPC智能体在所述游戏场景中进行作战；

NPC游戏数据和NPC行为数据获取单元，用于获取NPC游戏数据，并根据所述NPC游戏数据控制所述NPC智能体执行NPC决策动作，得到对应的NPC行为数据；

NPC后续状态数据和NPC奖励数据获取单元，用于根据所述NPC游戏数据和所述NPC行为数据，生成NPC后续状态数据和NPC奖励数据，并调整所述NPC奖励数据；

NPC智能体训练单元，用于将所述NPC游戏数据、所述NPC行为数据、所述NPC后续状态数据和所述NPC奖励数据组织成第二训练样本，并根据所述第二训练样本对所述NPC智能体进行训练；

NPC行为策略对应的参数更新单元，用于根据训练后的NPC智能体的参数更新NPC行为策略对应的参数。

需说明的是，以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外，本发明提供的装置实施例附图中，模块之间的连接关系表示它们之间具有通信连接，具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种游戏智能体训练方法，其特征在于，包括：

迭代地使用所述NPC行为策略对应的参数优化所述玩家行为策略对应的参数，以及使用所述玩家行为策略对应的参数优化所述NPC行为策略对应的参数，直至所述NPC行为策略稳定，具体包括：

重复执行以下步骤，直至所述NPC行为策略稳定：

使用上次训练后的NPC智能体，固定其行为策略对应的参数，对上次训练后的玩家智能体进行交互训练，并根据当前训练后的玩家智能体的参数更新上次训练得到的玩家行为策略对应的参数；使用所述当前训练后的玩家智能体，固定其行为策略对应的参数，对所述上次训练后的NPC智能体进行交互训练，并根据当前训练后的NPC智能体的参数更新所述上次训练得到的NPC行为策略对应的参数；

其中，根据游戏的NPC的性能要求判断NPC行为策略是否稳定。

2.如权利要求1所述的游戏智能体训练方法，其特征在于，所述对玩家角色的自身状态、观测状态及输出行为进行编码，得到玩家数据，并根据所述玩家数据，构建玩家智能体，具体包括：

3.如权利要求2所述的游戏智能体训练方法，其特征在于，所述对玩家角色的自身状态、观测状态及输出行为进行编码，得到玩家数据，并根据所述玩家数据，构建玩家智能体，具体包括：

对所述连续状态特征进行归一化处理，得到连续状态数据；

4.如权利要求2所述的游戏智能体训练方法，其特征在于，所述对玩家角色的自身状态、观测状态及输出行为进行编码，得到玩家数据，并根据所述玩家数据，构建玩家智能体，具体包括：

5.如权利要求2所述的游戏智能体训练方法，其特征在于，所述对玩家角色的自身状态、观测状态及输出行为进行编码，得到玩家数据，并根据所述玩家数据，构建玩家智能体，具体包括：

6.如权利要求1所述的游戏智能体训练方法，其特征在于，所述采用预先建立的初始NPC对所述玩家智能体进行交互训练，并根据训练后的玩家智能体的参数更新玩家行为策略对应的参数，具体包括：

7.如权利要求6所述的游戏智能体训练方法，其特征在于，所述调整所述玩家奖励数据，具体包括：

根据公式(1)得到所述玩家奖励数据：

r＝∑H(e_k)-∑H(e_l)-αP+βR (1)

8.如权利要求6所述的游戏智能体训练方法，其特征在于，所述根据所述玩家行为策略对应的参数，采用所述训练后的玩家智能体对所述NPC智能体进行交互训练，并根据训练后的NPC智能体的参数更新NPC行为策略对应的参数，具体包括：

根据训练后的NPC智能体的参数更新NPC行为策略对应的参数。

9.一种游戏智能体训练装置，其特征在于，包括：

NPC智能体训练模块，用于根据所述玩家行为策略对应的参数，采用所述训练后的玩家智能体对所述NPC智能体进行交互训练，并根据训练后的NPC智能体的参数更新NPC行为策略对应的参数；

优化模块，用于迭代地使用所述NPC行为策略对应的参数优化所述玩家行为策略对应的参数，以及使用所述玩家行为策略对应的参数优化所述NPC行为策略对应的参数，直至所述NPC行为策略稳定；

所述优化模块包括：

其中，根据游戏的NPC的性能要求判断NPC行为策略是否稳定。