CN108724182B

CN108724182B - 基于多类别模仿学习的端到端游戏机器人生成方法及系统

Info

Publication number: CN108724182B
Application number: CN201810498479.4A
Authority: CN
Inventors: 章宗长; 林嘉豪; 陈赢峰; 范长杰
Original assignee: Suzhou University; Netease Hangzhou Network Co Ltd
Current assignee: Netease Hangzhou Network Co Ltd
Priority date: 2018-05-23
Filing date: 2018-05-23
Publication date: 2020-03-17
Anticipated expiration: 2038-05-23
Also published as: CN108724182A

Abstract

本发明涉及一种基于多类别模仿学习的端到端游戏机器人生成方法及系统，为获得与不同技术等级玩家的游戏水平更加匹敌的游戏机器人而设计。本发明基于多类别模仿学习的端到端游戏机器人生成方法包括：建立玩家样本数据库；策略生成器与策略判别器、策略分类器组成对抗网络，所述策略生成器在对抗网络中进行模仿学习，所述策略生成器得到与不同技术等级玩家游戏行为相仿的游戏策略，进而生成游戏机器人，其中策略生成器、策略判别器、策略分类器均为多层神经网络。本发明能够获得多类别的游戏机器人，每个分类下的机器人都能模仿出与相应分类玩家相近的游戏策略。

Description

基于多类别模仿学习的端到端游戏机器人生成方法及系统

技术领域

本发明属于自动游戏机器人技术领域，具体涉及一种基于多类别模仿学习的端到端游戏机器人生成方法及系统。

背景技术

传统的游戏机器人不够智能，游戏机器人的等级划分不够科学，而且相应等级划分下的机器人的游戏水平都无法满足与游戏玩家进行高质量交互游戏的需求，以及游戏玩家对游戏体验的要求。

为了得到多类别游戏机器人，现有技术中大致采用了传统的模仿学习、逆强化学习方法，但是将上述方法应用于多类别游戏机器人的模拟训练过程中，则各有各的缺陷。

模仿学习通常被分为两类：一类是行为克隆法，行为克隆法利用玩家轨迹信息直接通过对状态动作对的监督学习，简单的获得行为策略；另一类是逆强化学习法，逆强化学习法假设玩家行为轨迹是基于一个未知回报函数产生的最优策略，逆强化学习法在训练中求解这个未知回报函数，并利用求解的回报函数通过强化学习求得行为策略。

强化学习是在环境交互的过程中不断试错，根据弱的强化回报信号学习最优策略的一类问题。强化学习领域中的大部分学习方法都被定义在马尔科夫决策过程MDP中。在一般的强化学习问题RL中定义的马尔科夫决策过程MDP往往利用已知的环境状态转移概率p(s′|a,s)、给定的回报函数R以及马尔科夫性质来估计一个状态动作对的值Q(s,a)(也可称为动作累积回报值)，然后利用收敛的各个状态动作对的值Q(s,a)来求取策略π，智能体Agent便可利用策略π进行决策。但是，实际上回报函数R往往是极难获知的。

然而，上述的行为克隆法由于只利用状态动作对进行监督学习导致其泛化能力非常差；而逆强化学习法由于在每一次的迭代训练中都需要大量的计算资源来完成当前回报函数的强化学习子循环过程导致训练迟缓。并且，传统的游戏机器人不够智能，游戏机器人的等级划分不够科学，而且相应等级划分下的机器人的游戏水平都无法满足与游戏玩家进行高质量交互游戏的需求，以及游戏玩家对游戏体验的要求。

发明内容

为了解决上述问题，本发明提供一种策略生成器通过在与策略判别器、策略分类器组成对抗网络中进行模仿学习，进而策略生成器智能、高效的生成与多个技术等级游戏玩家的游戏行为相仿程度高的游戏机器人。

为达到上述发明目的，本发明基于多类别模仿学习的端到端游戏机器人生成方法，包括：

建立玩家样本数据库，所述玩家样本数据库包括：各技术等级玩家在玩游戏过程中的玩家状态特征、玩家执行的游戏动作、若干预定义的技术等级标签；

策略生成器与策略判别器、策略分类器组成对抗网络，策略生成器、策略判别器、策略分类器均为多层神经网络，所述策略生成器在对抗网络中进行模仿学习，所述策略生成器得到与不同技术等级玩家游戏行为相仿的游戏策略，进而生成游戏机器人；

所述策略生成器输入由生成器状态特征S_g、任一技术等级标签C_i组成的生成状态标签对(S_g,C_i)，输出为生成动作A_g；所述策略生成器利用由随机生成的一帧生成游戏图像提取的生成状态特征作为初始的生成状态输入；

其中，玩家状态特征S_e由玩家在游戏过程中经历的各帧游戏图像通过特征提取网络获得；生成器状态特征S_g由所述策略生成器在游戏过程中经历的各帧游戏图像通过特征提取网络获得；

所述策略判别器分别输入下一玩家状态特征S_e′、下一生成器状态特征S_g′，输出为输入的状态特征来自于玩家样本数据库的概率P_d；

所述策略分类器分别输入下一玩家状态特征S_e′、下一生成器状态特征S_g′，输出为判别输入的下一状态特征基于来自的标签类别的似然概率P_c；

其中，当前帧玩家游戏图像在玩家执行游戏动作后得到下一帧玩家游戏图像，对该下一帧玩家游戏图像进行特征提取获得下一玩家状态特征S_e′；当前帧生成游戏图像在执行生成动作后得到下一帧生成游戏图像，对该下一帧生成游戏图像进行特征提取获得下一生成器状态特征S_g′。

进一步地，基于迁移学习得到有效卷积神经网络，将该卷积神经网络作为特征提取网络。利用该特征提取网络分别从各帧玩家游戏图像、各帧生成游戏图像提取有效特征分别得到相应的玩家状态特征以及生成器状态特征。

进一步地，策略判别器和策略分类器的梯度更新方法至少包括ADAM动量梯度更新方法；策略生成器的梯度更新方法至少包括强化学习中PPO或TRPO 递增策略的梯度更新方法，并利用GAE技巧减弱方差对梯度更新的影响。

进一步地，玩家的技术等级包括由低到高的新手级、进阶级、困难级、令人发狂级。

为达到上述发明目的，本发明基于多类别模仿学习的端到端游戏机器人生成游戏样本系统，包括：玩家样本数据库、状态特征提取单元、多类别模仿学习单元、游戏策略存储单元、游戏环境、游戏机器人；

所述玩家样本数据库，用于存储各技术等级玩家在玩游戏过程中的玩家状态特征、玩家执行的游戏动作、若干预定义的技术等级标签；

游戏环境，用于接收玩家、游戏机器人实施的游戏策略，输出玩家、游戏机器人对应的玩家游戏图像、生成游戏图像；

状态特征提取单元，用于对玩家、游戏机器人在游戏过程中经历的所述的玩家游戏图像、生成游戏图像分别进行特征提取，得到相应的玩家状态特征、生成状态特征，并输出至多类别模仿学习单元；

多类别模仿学习单元包括：策略生成器、策略判别器、策略分类器，所述的策略生成器、策略判别器、策略分类器均为多层神经网络，所述策略生成器与所述的策略判别器、策略分类器组成对抗网络所述策略生成器在对抗网络中进行模仿学习，所述策略生成器得到与不同技术等级玩家游戏行为相仿的游戏策略，并输出所述游戏策略至所述游戏策略存储单元进行存储；所述游戏机器人，用于调用所述游戏策略存储单元中的游戏策略实施于所述游戏环境；

进一步地，所述状态特征提取单元，基于迁移学习训练得到有效卷积神经网络，利用该有效卷积神经网络分别从各帧玩家游戏图像、各帧生成游戏图像中提取有效特征分别得到各帧玩家游戏图像对应的玩家状态特征以及各帧生成游戏图像对应的生成器状态特征。

与现有技术相比，本发明基于多类别模仿学习的端到端游戏机器人生成方法及系统的有益效果在于：

第一，提取玩家在玩游戏过程中生成的玩家游戏图像以及对所述策略生成器在游戏中经历的各帧生成游戏图像分别通过有效卷积神经网络进行有效特征提取得到相应的状态特征；第二，策略生成器与策略判别器、策略分类器组成对抗网络，所述策略生成器在对抗网络中进行模仿学习，通过利用各技术等级的玩家轨迹T^N求取相仿的行为策略，在训练过程中通过回报函数R来引导生成不同技术等级的游戏策略；第三，策略生成器、策略判别器、策略分类器的输入端为有效卷积神经网络输出的玩家游戏图像、生成游戏图像的状态特征以及玩家执行的游戏动作、预定义的技术等级标签、策略生成器的输出，策略生成器的输出为与玩家游戏行为所生成相仿的行为策略，这种端到端的技术，从输入端到输出端都不需要任何人工参与，是科学、智能、高效的学习方式。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，并可依照说明书的内容予以实施，以下以本发明的较佳实施例并配合附图详细说明如后。

附图说明

图1为本发明基于多类别模仿学习的端到端游戏机器人生成方法的流程图；

图2为本发明基于多类别模仿学习的端到端游戏机器人生成系统的框图；

图3为本发明的基于多类别模仿学习的端到端游戏机器人生成方法及系统的策略生成器深度网络结构示意图；

图4为本发明的基于多类别模仿学习的端到端游戏机器人生成方法及系统的策略判别器深度网络结构示意图；

图5为本发明的基于多类别模仿学习的端到端游戏机器人生成方法及系统的策略分类器深度网络结构示意图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用于限制本发明的范围。

本发明基于多类别模仿学习的端到端游戏机器人生成方法及系统，利用对多个技术等级玩家、游戏机器人(策略生成器)在玩游戏过程中产生的高维游戏图像处理后的特征数据、执行的动作、多个预定义的技术等级标签作为训练数据，基于辅助分类生成对抗网络模仿生成与玩家游戏行为相仿的多类别游戏策略，构成能够利用所述多类别游戏策略的游戏机器人。特别的，游戏策略的多类别可以是多种类别的游戏技术水平。这些多类别机器人能够很好的模仿出与相应分类的玩家游戏行为相仿的游戏策略，能够表现出在某一分类下与相应分类玩家的同等游戏水平。游戏机器人的游戏水平，是不断从多类别玩家游戏大数据库学习获得的。随着玩家游戏大数据库的积累，机器人的游戏水平也能获得与玩家相应的提升。

实施例1

本实施例基于多类别模仿学习的端到端游戏机器人生成方法，包括：

其中，当前帧玩家游戏图像在玩家执行游戏动作后得到下一帧玩家游戏图像，对该下一帧玩家游戏图像进行特征提取获得下一玩家状态特征S_e′；当前帧生成游戏图像在执行生成动作A_g后得到下一帧生成游戏图像，对该下一帧生成游戏图像进行特征提取获得下一生成器状态特征S_g′。本实施例中下一玩家状态特征S_e′也即玩家样本数据库中存储的除初始帧玩家游戏图像以外的任一帧玩家游戏图像对应的玩家状态特征，下一生成器状态特征S_g′也即策略生成器中输入的生成器状态特征，但是要除去由随机生成的一帧生成游戏图像对应的生成状态特征。

本实施例中，巧妙的将生成对抗机制用在模仿学习中，以产生与玩家行为数据表现相近的生成行为策略。这种方法与行为克隆法相似，都利用状态动作对作为训练的对象，但本实施例方法又具有较好泛化能力，本实施例方法与逆强化学习法相比，都存在回报函数参与到训练过程中，但该实施例方法又避开了回报函数的自身强化学习过程，相对减少了训练时间。

生成对抗网络Generative Adversarial Net(以下简称GAN)是深度学习DeepLearning领域中的一种较新的策略生成器机制，其目的是为了产生与玩家样本相近的生成样本。最基本的生成对抗网络由两个网络组成：一个是生成网络 Generator，用来产生样本；一个是判别网络Discriminator，用来评判玩家样本和生成样本。生成对抗网络定义了一个生成网络与判别网络相互对抗的博弈问题，通过不断迭代的对抗训练使得生成网络产生的样本逐渐靠近玩家样本。

本实施例与强化学习方法相比，回报函数R往往是极难获知的，但是优秀的玩家轨迹T^N相较易获得。因此在回报函数未知的马尔科夫决策过程MDP/R 中，本实施例可通过利用优秀的玩家轨迹T^N求取相仿的行为策略，并在训练过程中通过回报函数R来引导生成策略。

本实施例，策略生成器Generator，策略判别器Discriminator均为多层的神经网络，策略生成器的多层神经网络构造：

G_θ(S_g,C_i)＝g₁(g₂(…(g_n(S_g,C_i,θ_n),…),θ₂),θ₁)。

策略判别器的多层神经网络构造：

D_ω(S′)＝g₁(g₂(…(g_n(S′,ω_n),…),ω₂),ω₁)。

策略生成器Generator，策略判别器Discriminator，生成对抗机制下的模仿学习构造了一个MinMax的博弈问题：

L(G_θ,D_ω)＝E[logD_ω(S_e′)]+E[log(1-D(S_g′))]。

策略判别器D_ω的目标是为了尽可能使L(G_θ,D_ω)变大，其含义为尽可能使得策略判别器对输入样本来自玩家或生成样本的判别准确；策略生成器G_θ的目标是为了尽可能使L(G_θ,D_ω)变小，其含义为尽可能使策略生成器产生的样本让策略判别器难以区分其和玩家样本。通过这个生成对抗机制，可以引导策略生成器产生的游戏行为策略与玩家的游戏行为策略相仿。

在本实施例中，为了实现更加智能且个性化的游戏机器人，满足不同游戏水平或游戏内容玩家的游戏需求，将积累并处理多类别的玩家游戏行为。多类别模仿学习处理子游戏样本数据库中还需加入一个策略分类器，策略分类器也为多层的神经网络，该策略分类器的意义在于对多类别的样本进行标签分类，策略分类器利用多类别样本标签进行监督学习，并辅助所述策略判别器重构关于所述玩家游戏标签样本数据的边信息，一同引导所述策略生成器实现同时模仿生成多类别游戏策略的模仿学习。

策略分类器的多层神经网络构造：

C_ψ(S′)＝g₁(g₂(…(g_n(S′,ψ_n),…),ψ₂),ψ₁)，与策略判别器D_ω的隐藏层的网络结构是完全一样的，他们的隐藏层的网络参数可以进行参数共享，从而进一步增加训练效率。

将这个策略分类器加入到生成对抗机制的MinMax机制中：

L(G_θ,D_ω)＝E[logD_ω(S_e′)]+E[log(1-D_ω(S_g′))]，

K(G_θ,C_ψ)＝E[logC_ψ(c|S_e′)]+E[logC_ψ(c|S_g′)]，这时策略判别器D_ω的目标是为了尽可能使L(G_θ,D_ω)变大，其含义为尽可能使策略判别器对输入样本来自玩家或生成样本的判别准确；策略分类器C_ψ的目标是为了尽可能使K(G_θ,C_ψ) 变大，其含义为尽可能使策略分类器对样本的标签分类准确；策略生成器G_θ的目标是为了尽可能使L(G_θ,D_ω)-K(G_θ,C_ψ)变小，其含义策略生成器产生的样本尽可能使策略判别器难以区分其和玩家样本的同时又尽可能使策略分类器的分类符合其分类标签。在这个新的生成对抗机制中，策略分类器C_ψ可以辅助策略生成器G_θ生成在分类标签为下与玩家游戏行为样本数据样本相仿的行为策略。

在基于辅助分类生成对抗网络的端到端多类别模仿学习中，策略分类器C_ψ的作用是对带多类别标签的样本数据进行分类，从而获得多种分类条件下生成样本和玩家样本表现相近的效果。策略判别器D_ω则可以被看作回报函数，引导策略生成器G_θ产生的样本在训练中不断模仿玩家样本。策略生成器G_θ则可以被看作策略近似函数。

实施例2

本实施例基于多类别模仿学习的端到端游戏机器人生成方法，在实施例1 的基础上，基于迁移学习训练得到有效卷积神经网络，利用该有效卷积神经网络分别从各帧玩家游戏图像、各帧生成游戏图像中提取有效特征分别得到各帧玩家游戏图像对应的玩家状态特征以及各帧生成游戏图像对应的生成器状态特征。

本实施例中，有效卷积神经网络对原始高维游戏图像数据进行处理，从中提取更有效特征作为模仿学习的训练数据，进而得到对玩家游戏行为模仿程度更高的游戏机器人。

实施例3

本实施例基于多类别模仿学习的端到端游戏机器人生成方法，在上述实施例1或2的基础上，策略判别器D_ω和策略分类器C_ψ的梯度更新可以利用ADAM 等动量梯度或者一般梯度的更新方法。而策略生成器可G_θ可以利用强化学习中 PPO或TRPO等稳定的递增策略梯度更新方法，并可以利用GAE等技巧减弱方差对梯度更新的影响。这种基于辅助分类生成对抗网络机制的端到端多类别模仿学习在不断训练后，策略生成器G_θ可以成为多类别的策略近似器，产生多种分类下与玩家游戏行为相仿的游戏策略。

在本实施例中，在策略判别器D接近收敛时，原始GAN的MinMax博弈问题L(G_θ,D_ω)可以看作为最小化JS散度。通过修改L(G_θ,D_ω)的定义，可以把最小化JS散度替代为最小化Wasserstein距离，并对策略判别器的梯度更新方式做相应的修改。利用Wasserstein距离代替JS散度的WGAN具有一些不错的性质。为了表述的简洁，并未对WGAN以及其他一些关于距离定义变种的GAN做详细的描述，但与本实施例中的技术特征不存在矛盾，都应当认为是本说明书记载的范围。

实施例4

本实施例基于多类别模仿学习的端到端游戏机器人生成系统,可用于实现上述实施例1至3中任一所述的方法，所述系统包括：玩家样本数据库、状态特征提取单元、多类别模仿学习单元、游戏策略存储单元、游戏环境、游戏机器人；

本实施例，所述状态特征提取单元，基于迁移学习训练得到有效卷积神经网络，利用该有效卷积神经网络分别从各帧玩家游戏图像、各帧生成游戏图像中提取有效特征分别得到各帧玩家游戏图像对应的玩家状态特征以及各帧生成游戏图像对应的生成器状态特征。

本实施例中，策略生成器能够输出对应不同玩家技术水平的游戏策略，也即生成各个游戏策略分类下的游戏机器人。这些游戏机器人可以利用这些游戏策略在游戏环境中产生与相应分类下的玩家游戏行为表现相近的游戏行为。多类别自动游戏机器人可以实现出多类别游戏策略，让游戏玩家在游戏客户端中个性选择满足自身需求的相应标签分类机器人进行游戏。这将大大提高玩家在与游戏机器人进行游戏时的个性和可玩性。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种基于多类别模仿学习的端到端游戏机器人生成方法，其特征在于，包括：

所述策略判别器分别输入下一玩家状态特征S_e'、下一生成器状态特征S_g'，输出为输入的状态特征来自于玩家样本数据库的概率P_d；

所述策略分类器分别输入下一玩家状态特征S_e'、下一生成器状态特征S_g'，输出为判别输入的下一状态特征基于来自标签类别的似然概率P_c；

其中，当前帧玩家游戏图像在玩家执行游戏动作后得到下一帧玩家游戏图像，对该下一帧玩家游戏图像进行特征提取获得下一玩家状态特征S_e'；当前帧生成游戏图像在执行生成动作后得到下一帧生成游戏图像，对该下一帧生成游戏图像进行特征提取获得下一生成器状态特征S_g'。

2.根据权利要求1所述的基于多类别模仿学习的端到端游戏机器人生成方法，其特征在于，基于迁移学习得到有效卷积神经网络，将该卷积神经网络作为特征提取网络；利用该特征提取网络分别从各帧玩家游戏图像、各帧生成游戏图像提取有效特征分别得到相应的玩家状态特征以及生成器状态特征。

3.根据权利要求1所述的基于多类别模仿学习的端到端游戏机器人生成方法，其特征在于，策略判别器和策略分类器的梯度更新方法至少包括ADAM动量梯度更新方法；策略生成器的梯度更新方法至少包括强化学习中PPO或TRPO递增策略的梯度更新方法，并利用GAE技巧减弱方差对梯度更新的影响。

4.一种基于多类别模仿学习的端到端游戏机器人生成游戏样本系统，其特征在于，包括：玩家样本数据库、状态特征提取单元、多类别模仿学习单元、游戏策略存储单元、游戏环境、游戏机器人；

多类别模仿学习单元包括：策略生成器、策略判别器、策略分类器，所述的策略生成器、策略判别器、策略分类器均为多层神经网络，所述策略生成器与所述的策略判别器、策略分类器组成对抗网络，所述策略生成器在对抗网络中进行模仿学习，所述策略生成器得到与不同技术等级玩家游戏行为相仿的游戏策略，并输出所述游戏策略至所述游戏策略存储单元进行存储；所述游戏机器人，用于调用所述游戏策略存储单元中的游戏策略实施于所述游戏环境；

5.根据权利要求4所述的基于多类别模仿学习的端到端游戏机器人生成游戏样本系统，其特征在于，所述状态特征提取单元，基于迁移学习训练得到有效卷积神经网络，利用该有效卷积神经网络分别从各帧玩家游戏图像、各帧生成游戏图像中提取有效特征分别得到各帧玩家游戏图像对应的玩家状态特征以及各帧生成游戏图像对应的生成器状态特征。