CN108724182B - 基于多类别模仿学习的端到端游戏机器人生成方法及系统 - Google Patents

基于多类别模仿学习的端到端游戏机器人生成方法及系统 Download PDF

Info

Publication number
CN108724182B
CN108724182B CN201810498479.4A CN201810498479A CN108724182B CN 108724182 B CN108724182 B CN 108724182B CN 201810498479 A CN201810498479 A CN 201810498479A CN 108724182 B CN108724182 B CN 108724182B
Authority
CN
China
Prior art keywords
game
player
strategy
generator
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810498479.4A
Other languages
English (en)
Other versions
CN108724182A (zh
Inventor
章宗长
林嘉豪
陈赢峰
范长杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Netease Hangzhou Network Co Ltd
Original Assignee
Suzhou University
Netease Hangzhou Network Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou University, Netease Hangzhou Network Co Ltd filed Critical Suzhou University
Priority to CN201810498479.4A priority Critical patent/CN108724182B/zh
Publication of CN108724182A publication Critical patent/CN108724182A/zh
Application granted granted Critical
Publication of CN108724182B publication Critical patent/CN108724182B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1628Programme controls characterised by the control loop
    • B25J9/163Programme controls characterised by the control loop learning, adaptive, model based, rule based expert control

Landscapes

  • Engineering & Computer Science (AREA)
  • Robotics (AREA)
  • Mechanical Engineering (AREA)
  • Image Analysis (AREA)
  • Manipulator (AREA)

Abstract

本发明涉及一种基于多类别模仿学习的端到端游戏机器人生成方法及系统,为获得与不同技术等级玩家的游戏水平更加匹敌的游戏机器人而设计。本发明基于多类别模仿学习的端到端游戏机器人生成方法包括:建立玩家样本数据库;策略生成器与策略判别器、策略分类器组成对抗网络,所述策略生成器在对抗网络中进行模仿学习,所述策略生成器得到与不同技术等级玩家游戏行为相仿的游戏策略,进而生成游戏机器人,其中策略生成器、策略判别器、策略分类器均为多层神经网络。本发明能够获得多类别的游戏机器人,每个分类下的机器人都能模仿出与相应分类玩家相近的游戏策略。

Description

基于多类别模仿学习的端到端游戏机器人生成方法及系统
技术领域
本发明属于自动游戏机器人技术领域,具体涉及一种基于多类别模仿学习的端到端游戏机器人生成方法及系统。
背景技术
传统的游戏机器人不够智能,游戏机器人的等级划分不够科学,而且相应等级划分下的机器人的游戏水平都无法满足与游戏玩家进行高质量交互游戏的需求,以及游戏玩家对游戏体验的要求。
为了得到多类别游戏机器人,现有技术中大致采用了传统的模仿学习、逆强化学习方法,但是将上述方法应用于多类别游戏机器人的模拟训练过程中,则各有各的缺陷。
模仿学习通常被分为两类:一类是行为克隆法,行为克隆法利用玩家轨迹信息直接通过对状态动作对的监督学习,简单的获得行为策略;另一类是逆强化学习法,逆强化学习法假设玩家行为轨迹是基于一个未知回报函数产生的最优策略,逆强化学习法在训练中求解这个未知回报函数,并利用求解的回报函数通过强化学习求得行为策略。
强化学习是在环境交互的过程中不断试错,根据弱的强化回报信号学习最优策略的一类问题。强化学习领域中的大部分学习方法都被定义在马尔科夫决策过程MDP中。在一般的强化学习问题RL中定义的马尔科夫决策过程MDP往往利用已知的环境状态转移概率p(s′|a,s)、给定的回报函数R以及马尔科夫性质来估计一个状态动作对的值Q(s,a)(也可称为动作累积回报值),然后利用收敛的各个状态动作对的值Q(s,a)来求取策略π,智能体Agent便可利用策略π进行决策。但是,实际上回报函数R往往是极难获知的。
然而,上述的行为克隆法由于只利用状态动作对进行监督学习导致其泛化能力非常差;而逆强化学习法由于在每一次的迭代训练中都需要大量的计算资源来完成当前回报函数的强化学习子循环过程导致训练迟缓。并且,传统的游戏机器人不够智能,游戏机器人的等级划分不够科学,而且相应等级划分下的机器人的游戏水平都无法满足与游戏玩家进行高质量交互游戏的需求,以及游戏玩家对游戏体验的要求。
发明内容
为了解决上述问题,本发明提供一种策略生成器通过在与策略判别器、策略分类器组成对抗网络中进行模仿学习,进而策略生成器智能、高效的生成与多个技术等级游戏玩家的游戏行为相仿程度高的游戏机器人。
为达到上述发明目的,本发明基于多类别模仿学习的端到端游戏机器人生成方法,包括:
建立玩家样本数据库,所述玩家样本数据库包括:各技术等级玩家在玩游戏过程中的玩家状态特征、玩家执行的游戏动作、若干预定义的技术等级标签;
策略生成器与策略判别器、策略分类器组成对抗网络,策略生成器、策略判别器、策略分类器均为多层神经网络,所述策略生成器在对抗网络中进行模仿学习,所述策略生成器得到与不同技术等级玩家游戏行为相仿的游戏策略,进而生成游戏机器人;
所述策略生成器输入由生成器状态特征Sg、任一技术等级标签Ci组成的生成状态标签对(Sg,Ci),输出为生成动作Ag;所述策略生成器利用由随机生成的一帧生成游戏图像提取的生成状态特征作为初始的生成状态输入;
其中,玩家状态特征Se由玩家在游戏过程中经历的各帧游戏图像通过特征提取网络获得;生成器状态特征Sg由所述策略生成器在游戏过程中经历的各帧游戏图像通过特征提取网络获得;
所述策略判别器分别输入下一玩家状态特征Se′、下一生成器状态特征Sg′,输出为输入的状态特征来自于玩家样本数据库的概率Pd
所述策略分类器分别输入下一玩家状态特征Se′、下一生成器状态特征Sg′,输出为判别输入的下一状态特征基于来自的标签类别的似然概率Pc
其中,当前帧玩家游戏图像在玩家执行游戏动作后得到下一帧玩家游戏图像,对该下一帧玩家游戏图像进行特征提取获得下一玩家状态特征Se′;当前帧生成游戏图像在执行生成动作后得到下一帧生成游戏图像,对该下一帧生成游戏图像进行特征提取获得下一生成器状态特征Sg′。
进一步地,基于迁移学习得到有效卷积神经网络,将该卷积神经网络作为特征提取网络。利用该特征提取网络分别从各帧玩家游戏图像、各帧生成游戏图像提取有效特征分别得到相应的玩家状态特征以及生成器状态特征。
进一步地,策略判别器和策略分类器的梯度更新方法至少包括ADAM动量梯度更新方法;策略生成器的梯度更新方法至少包括强化学习中PPO或TRPO 递增策略的梯度更新方法,并利用GAE技巧减弱方差对梯度更新的影响。
进一步地,玩家的技术等级包括由低到高的新手级、进阶级、困难级、令人发狂级。
为达到上述发明目的,本发明基于多类别模仿学习的端到端游戏机器人生成游戏样本系统,包括:玩家样本数据库、状态特征提取单元、多类别模仿学习单元、游戏策略存储单元、游戏环境、游戏机器人;
所述玩家样本数据库,用于存储各技术等级玩家在玩游戏过程中的玩家状态特征、玩家执行的游戏动作、若干预定义的技术等级标签;
游戏环境,用于接收玩家、游戏机器人实施的游戏策略,输出玩家、游戏机器人对应的玩家游戏图像、生成游戏图像;
状态特征提取单元,用于对玩家、游戏机器人在游戏过程中经历的所述的玩家游戏图像、生成游戏图像分别进行特征提取,得到相应的玩家状态特征、生成状态特征,并输出至多类别模仿学习单元;
多类别模仿学习单元包括:策略生成器、策略判别器、策略分类器,所述的策略生成器、策略判别器、策略分类器均为多层神经网络,所述策略生成器与所述的策略判别器、策略分类器组成对抗网络所述策略生成器在对抗网络中进行模仿学习,所述策略生成器得到与不同技术等级玩家游戏行为相仿的游戏策略,并输出所述游戏策略至所述游戏策略存储单元进行存储;所述游戏机器人,用于调用所述游戏策略存储单元中的游戏策略实施于所述游戏环境;
所述策略生成器输入由生成器状态特征Sg、任一技术等级标签Ci组成的生成状态标签对(Sg,Ci),输出为生成动作Ag;所述策略生成器利用由随机生成的一帧生成游戏图像提取的生成状态特征作为初始的生成状态输入;
所述策略判别器分别输入下一玩家状态特征Se′、下一生成器状态特征Sg′,输出为输入的状态特征来自于玩家样本数据库的概率Pd
所述策略分类器分别输入下一玩家状态特征Se′、下一生成器状态特征Sg′,输出为判别输入的下一状态特征基于来自的标签类别的似然概率Pc
其中,玩家状态特征Se由玩家在游戏过程中经历的各帧游戏图像通过特征提取网络获得;生成器状态特征Sg由所述策略生成器在游戏过程中经历的各帧游戏图像通过特征提取网络获得;
其中,当前帧玩家游戏图像在玩家执行游戏动作后得到下一帧玩家游戏图像,对该下一帧玩家游戏图像进行特征提取获得下一玩家状态特征Se′;当前帧生成游戏图像在执行生成动作后得到下一帧生成游戏图像,对该下一帧生成游戏图像进行特征提取获得下一生成器状态特征Sg′。
进一步地,所述状态特征提取单元,基于迁移学习训练得到有效卷积神经网络,利用该有效卷积神经网络分别从各帧玩家游戏图像、各帧生成游戏图像中提取有效特征分别得到各帧玩家游戏图像对应的玩家状态特征以及各帧生成游戏图像对应的生成器状态特征。
与现有技术相比,本发明基于多类别模仿学习的端到端游戏机器人生成方法及系统的有益效果在于:
第一,提取玩家在玩游戏过程中生成的玩家游戏图像以及对所述策略生成器在游戏中经历的各帧生成游戏图像分别通过有效卷积神经网络进行有效特征提取得到相应的状态特征;第二,策略生成器与策略判别器、策略分类器组成对抗网络,所述策略生成器在对抗网络中进行模仿学习,通过利用各技术等级的玩家轨迹TN求取相仿的行为策略,在训练过程中通过回报函数R来引导生成不同技术等级的游戏策略;第三,策略生成器、策略判别器、策略分类器的输入端为有效卷积神经网络输出的玩家游戏图像、生成游戏图像的状态特征以及玩家执行的游戏动作、预定义的技术等级标签、策略生成器的输出,策略生成器的输出为与玩家游戏行为所生成相仿的行为策略,这种端到端的技术,从输入端到输出端都不需要任何人工参与,是科学、智能、高效的学习方式。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,并可依照说明书的内容予以实施,以下以本发明的较佳实施例并配合附图详细说明如后。
附图说明
图1为本发明基于多类别模仿学习的端到端游戏机器人生成方法的流程图;
图2为本发明基于多类别模仿学习的端到端游戏机器人生成系统的框图;
图3为本发明的基于多类别模仿学习的端到端游戏机器人生成方法及系统的策略生成器深度网络结构示意图;
图4为本发明的基于多类别模仿学习的端到端游戏机器人生成方法及系统的策略判别器深度网络结构示意图;
图5为本发明的基于多类别模仿学习的端到端游戏机器人生成方法及系统的策略分类器深度网络结构示意图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用于限制本发明的范围。
本发明基于多类别模仿学习的端到端游戏机器人生成方法及系统,利用对多个技术等级玩家、游戏机器人(策略生成器)在玩游戏过程中产生的高维游戏图像处理后的特征数据、执行的动作、多个预定义的技术等级标签作为训练数据,基于辅助分类生成对抗网络模仿生成与玩家游戏行为相仿的多类别游戏策略,构成能够利用所述多类别游戏策略的游戏机器人。特别的,游戏策略的多类别可以是多种类别的游戏技术水平。这些多类别机器人能够很好的模仿出与相应分类的玩家游戏行为相仿的游戏策略,能够表现出在某一分类下与相应分类玩家的同等游戏水平。游戏机器人的游戏水平,是不断从多类别玩家游戏大数据库学习获得的。随着玩家游戏大数据库的积累,机器人的游戏水平也能获得与玩家相应的提升。
实施例1
本实施例基于多类别模仿学习的端到端游戏机器人生成方法,包括:
建立玩家样本数据库,所述玩家样本数据库包括:各技术等级玩家在玩游戏过程中的玩家状态特征、玩家执行的游戏动作、若干预定义的技术等级标签;
策略生成器与策略判别器、策略分类器组成对抗网络,策略生成器、策略判别器、策略分类器均为多层神经网络,所述策略生成器在对抗网络中进行模仿学习,所述策略生成器得到与不同技术等级玩家游戏行为相仿的游戏策略,进而生成游戏机器人;
所述策略生成器输入由生成器状态特征Sg、任一技术等级标签Ci组成的生成状态标签对(Sg,Ci),输出为生成动作Ag;所述策略生成器利用由随机生成的一帧生成游戏图像提取的生成状态特征作为初始的生成状态输入;
其中,玩家状态特征Se由玩家在游戏过程中经历的各帧游戏图像通过特征提取网络获得;生成器状态特征Sg由所述策略生成器在游戏过程中经历的各帧游戏图像通过特征提取网络获得;
所述策略判别器分别输入下一玩家状态特征Se′、下一生成器状态特征Sg′,输出为输入的状态特征来自于玩家样本数据库的概率Pd
所述策略分类器分别输入下一玩家状态特征Se′、下一生成器状态特征Sg′,输出为判别输入的下一状态特征基于来自的标签类别的似然概率Pc
其中,当前帧玩家游戏图像在玩家执行游戏动作后得到下一帧玩家游戏图像,对该下一帧玩家游戏图像进行特征提取获得下一玩家状态特征Se′;当前帧生成游戏图像在执行生成动作Ag后得到下一帧生成游戏图像,对该下一帧生成游戏图像进行特征提取获得下一生成器状态特征Sg′。本实施例中下一玩家状态特征Se′也即玩家样本数据库中存储的除初始帧玩家游戏图像以外的任一帧玩家游戏图像对应的玩家状态特征,下一生成器状态特征Sg′也即策略生成器中输入的生成器状态特征,但是要除去由随机生成的一帧生成游戏图像对应的生成状态特征。
本实施例中,巧妙的将生成对抗机制用在模仿学习中,以产生与玩家行为数据表现相近的生成行为策略。这种方法与行为克隆法相似,都利用状态动作对作为训练的对象,但本实施例方法又具有较好泛化能力,本实施例方法与逆强化学习法相比,都存在回报函数参与到训练过程中,但该实施例方法又避开了回报函数的自身强化学习过程,相对减少了训练时间。
生成对抗网络Generative Adversarial Net(以下简称GAN)是深度学习DeepLearning领域中的一种较新的策略生成器机制,其目的是为了产生与玩家样本相近的生成样本。最基本的生成对抗网络由两个网络组成:一个是生成网络 Generator,用来产生样本;一个是判别网络Discriminator,用来评判玩家样本和生成样本。生成对抗网络定义了一个生成网络与判别网络相互对抗的博弈问题,通过不断迭代的对抗训练使得生成网络产生的样本逐渐靠近玩家样本。
本实施例与强化学习方法相比,回报函数R往往是极难获知的,但是优秀的玩家轨迹TN相较易获得。因此在回报函数未知的马尔科夫决策过程MDP/R 中,本实施例可通过利用优秀的玩家轨迹TN求取相仿的行为策略,并在训练过程中通过回报函数R来引导生成策略。
本实施例,策略生成器Generator,策略判别器Discriminator均为多层的神经网络,策略生成器的多层神经网络构造:
Gθ(Sg,Ci)=g1(g2(…(gn(Sg,Cin),…),θ2),θ1)。
策略判别器的多层神经网络构造:
Dω(S′)=g1(g2(…(gn(S′,ωn),…),ω2),ω1)。
策略生成器Generator,策略判别器Discriminator,生成对抗机制下的模仿学习构造了一个MinMax的博弈问题:
L(Gθ,Dω)=E[logDω(Se′)]+E[log(1-D(Sg′))]。
策略判别器Dω的目标是为了尽可能使L(Gθ,Dω)变大,其含义为尽可能使得策略判别器对输入样本来自玩家或生成样本的判别准确;策略生成器Gθ的目标是为了尽可能使L(Gθ,Dω)变小,其含义为尽可能使策略生成器产生的样本让策略判别器难以区分其和玩家样本。通过这个生成对抗机制,可以引导策略生成器产生的游戏行为策略与玩家的游戏行为策略相仿。
在本实施例中,为了实现更加智能且个性化的游戏机器人,满足不同游戏水平或游戏内容玩家的游戏需求,将积累并处理多类别的玩家游戏行为。多类别模仿学习处理子游戏样本数据库中还需加入一个策略分类器,策略分类器也为多层的神经网络,该策略分类器的意义在于对多类别的样本进行标签分类,策略分类器利用多类别样本标签进行监督学习,并辅助所述策略判别器重构关于所述玩家游戏标签样本数据的边信息,一同引导所述策略生成器实现同时模仿生成多类别游戏策略的模仿学习。
策略分类器的多层神经网络构造:
Cψ(S′)=g1(g2(…(gn(S′,ψn),…),ψ2),ψ1),与策略判别器Dω的隐藏层的网络结构是完全一样的,他们的隐藏层的网络参数可以进行参数共享,从而进一步增加训练效率。
将这个策略分类器加入到生成对抗机制的MinMax机制中:
L(Gθ,Dω)=E[logDω(Se′)]+E[log(1-Dω(Sg′))],
K(Gθ,Cψ)=E[logCψ(c|Se′)]+E[logCψ(c|Sg′)],这时策略判别器Dω的目标是为了尽可能使L(Gθ,Dω)变大,其含义为尽可能使策略判别器对输入样本来自玩家或生成样本的判别准确;策略分类器Cψ的目标是为了尽可能使K(Gθ,Cψ) 变大,其含义为尽可能使策略分类器对样本的标签分类准确;策略生成器Gθ的目标是为了尽可能使L(Gθ,Dω)-K(Gθ,Cψ)变小,其含义策略生成器产生的样本尽可能使策略判别器难以区分其和玩家样本的同时又尽可能使策略分类器的分类符合其分类标签。在这个新的生成对抗机制中,策略分类器Cψ可以辅助策略生成器Gθ生成在分类标签为下与玩家游戏行为样本数据样本相仿的行为策略。
在基于辅助分类生成对抗网络的端到端多类别模仿学习中,策略分类器Cψ的作用是对带多类别标签的样本数据进行分类,从而获得多种分类条件下生成样本和玩家样本表现相近的效果。策略判别器Dω则可以被看作回报函数,引导策略生成器Gθ产生的样本在训练中不断模仿玩家样本。策略生成器Gθ则可以被看作策略近似函数。
实施例2
本实施例基于多类别模仿学习的端到端游戏机器人生成方法,在实施例1 的基础上,基于迁移学习训练得到有效卷积神经网络,利用该有效卷积神经网络分别从各帧玩家游戏图像、各帧生成游戏图像中提取有效特征分别得到各帧玩家游戏图像对应的玩家状态特征以及各帧生成游戏图像对应的生成器状态特征。
本实施例中,有效卷积神经网络对原始高维游戏图像数据进行处理,从中提取更有效特征作为模仿学习的训练数据,进而得到对玩家游戏行为模仿程度更高的游戏机器人。
实施例3
本实施例基于多类别模仿学习的端到端游戏机器人生成方法,在上述实施例1或2的基础上,策略判别器Dω和策略分类器Cψ的梯度更新可以利用ADAM 等动量梯度或者一般梯度的更新方法。而策略生成器可Gθ可以利用强化学习中 PPO或TRPO等稳定的递增策略梯度更新方法,并可以利用GAE等技巧减弱方差对梯度更新的影响。这种基于辅助分类生成对抗网络机制的端到端多类别模仿学习在不断训练后,策略生成器Gθ可以成为多类别的策略近似器,产生多种分类下与玩家游戏行为相仿的游戏策略。
在本实施例中,在策略判别器D接近收敛时,原始GAN的MinMax博弈问题L(Gθ,Dω)可以看作为最小化JS散度。通过修改L(Gθ,Dω)的定义,可以把最小化JS散度替代为最小化Wasserstein距离,并对策略判别器的梯度更新方式做相应的修改。利用Wasserstein距离代替JS散度的WGAN具有一些不错的性质。为了表述的简洁,并未对WGAN以及其他一些关于距离定义变种的GAN做详细的描述,但与本实施例中的技术特征不存在矛盾,都应当认为是本说明书记载的范围。
实施例4
本实施例基于多类别模仿学习的端到端游戏机器人生成系统,可用于实现上述实施例1至3中任一所述的方法,所述系统包括:玩家样本数据库、状态特征提取单元、多类别模仿学习单元、游戏策略存储单元、游戏环境、游戏机器人;
所述玩家样本数据库,用于存储各技术等级玩家在玩游戏过程中的玩家状态特征、玩家执行的游戏动作、若干预定义的技术等级标签;
游戏环境,用于接收玩家、游戏机器人实施的游戏策略,输出玩家、游戏机器人对应的玩家游戏图像、生成游戏图像;
状态特征提取单元,用于对玩家、游戏机器人在游戏过程中经历的所述的玩家游戏图像、生成游戏图像分别进行特征提取,得到相应的玩家状态特征、生成状态特征,并输出至多类别模仿学习单元;
多类别模仿学习单元包括:策略生成器、策略判别器、策略分类器,所述的策略生成器、策略判别器、策略分类器均为多层神经网络,所述策略生成器与所述的策略判别器、策略分类器组成对抗网络所述策略生成器在对抗网络中进行模仿学习,所述策略生成器得到与不同技术等级玩家游戏行为相仿的游戏策略,并输出所述游戏策略至所述游戏策略存储单元进行存储;所述游戏机器人,用于调用所述游戏策略存储单元中的游戏策略实施于所述游戏环境;
所述策略生成器输入由生成器状态特征Sg、任一技术等级标签Ci组成的生成状态标签对(Sg,Ci),输出为生成动作Ag;所述策略生成器利用由随机生成的一帧生成游戏图像提取的生成状态特征作为初始的生成状态输入;
所述策略判别器分别输入下一玩家状态特征Se′、下一生成器状态特征Sg′,输出为输入的状态特征来自于玩家样本数据库的概率Pd
所述策略分类器分别输入下一玩家状态特征Se′、下一生成器状态特征Sg′,输出为判别输入的下一状态特征基于来自的标签类别的似然概率Pc
其中,玩家状态特征Se由玩家在游戏过程中经历的各帧游戏图像通过特征提取网络获得;生成器状态特征Sg由所述策略生成器在游戏过程中经历的各帧游戏图像通过特征提取网络获得;
其中,当前帧玩家游戏图像在玩家执行游戏动作后得到下一帧玩家游戏图像,对该下一帧玩家游戏图像进行特征提取获得下一玩家状态特征Se′;当前帧生成游戏图像在执行生成动作后得到下一帧生成游戏图像,对该下一帧生成游戏图像进行特征提取获得下一生成器状态特征Sg′。
本实施例,所述状态特征提取单元,基于迁移学习训练得到有效卷积神经网络,利用该有效卷积神经网络分别从各帧玩家游戏图像、各帧生成游戏图像中提取有效特征分别得到各帧玩家游戏图像对应的玩家状态特征以及各帧生成游戏图像对应的生成器状态特征。
本实施例中,策略生成器能够输出对应不同玩家技术水平的游戏策略,也即生成各个游戏策略分类下的游戏机器人。这些游戏机器人可以利用这些游戏策略在游戏环境中产生与相应分类下的玩家游戏行为表现相近的游戏行为。多类别自动游戏机器人可以实现出多类别游戏策略,让游戏玩家在游戏客户端中个性选择满足自身需求的相应标签分类机器人进行游戏。这将大大提高玩家在与游戏机器人进行游戏时的个性和可玩性。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (5)

1.一种基于多类别模仿学习的端到端游戏机器人生成方法,其特征在于,包括:
建立玩家样本数据库,所述玩家样本数据库包括:各技术等级玩家在玩游戏过程中的玩家状态特征、玩家执行的游戏动作、若干预定义的技术等级标签;
策略生成器与策略判别器、策略分类器组成对抗网络,策略生成器、策略判别器、策略分类器均为多层神经网络,所述策略生成器在对抗网络中进行模仿学习,所述策略生成器得到与不同技术等级玩家游戏行为相仿的游戏策略,进而生成游戏机器人;
所述策略生成器输入由生成器状态特征Sg、任一技术等级标签Ci组成的生成状态标签对(Sg,Ci),输出为生成动作Ag;所述策略生成器利用由随机生成的一帧生成游戏图像提取的生成状态特征作为初始的生成状态输入;
其中,玩家状态特征Se由玩家在游戏过程中经历的各帧游戏图像通过特征提取网络获得;生成器状态特征Sg由所述策略生成器在游戏过程中经历的各帧游戏图像通过特征提取网络获得;
所述策略判别器分别输入下一玩家状态特征Se'、下一生成器状态特征Sg',输出为输入的状态特征来自于玩家样本数据库的概率Pd
所述策略分类器分别输入下一玩家状态特征Se'、下一生成器状态特征Sg',输出为判别输入的下一状态特征基于来自标签类别的似然概率Pc
其中,当前帧玩家游戏图像在玩家执行游戏动作后得到下一帧玩家游戏图像,对该下一帧玩家游戏图像进行特征提取获得下一玩家状态特征Se';当前帧生成游戏图像在执行生成动作后得到下一帧生成游戏图像,对该下一帧生成游戏图像进行特征提取获得下一生成器状态特征Sg'。
2.根据权利要求1所述的基于多类别模仿学习的端到端游戏机器人生成方法,其特征在于,基于迁移学习得到有效卷积神经网络,将该卷积神经网络作为特征提取网络;利用该特征提取网络分别从各帧玩家游戏图像、各帧生成游戏图像提取有效特征分别得到相应的玩家状态特征以及生成器状态特征。
3.根据权利要求1所述的基于多类别模仿学习的端到端游戏机器人生成方法,其特征在于,策略判别器和策略分类器的梯度更新方法至少包括ADAM动量梯度更新方法;策略生成器的梯度更新方法至少包括强化学习中PPO或TRPO递增策略的梯度更新方法,并利用GAE技巧减弱方差对梯度更新的影响。
4.一种基于多类别模仿学习的端到端游戏机器人生成游戏样本系统,其特征在于,包括:玩家样本数据库、状态特征提取单元、多类别模仿学习单元、游戏策略存储单元、游戏环境、游戏机器人;
所述玩家样本数据库,用于存储各技术等级玩家在玩游戏过程中的玩家状态特征、玩家执行的游戏动作、若干预定义的技术等级标签;
游戏环境,用于接收玩家、游戏机器人实施的游戏策略,输出玩家、游戏机器人对应的玩家游戏图像、生成游戏图像;
状态特征提取单元,用于对玩家、游戏机器人在游戏过程中经历的所述的玩家游戏图像、生成游戏图像分别进行特征提取,得到相应的玩家状态特征、生成状态特征,并输出至多类别模仿学习单元;
多类别模仿学习单元包括:策略生成器、策略判别器、策略分类器,所述的策略生成器、策略判别器、策略分类器均为多层神经网络,所述策略生成器与所述的策略判别器、策略分类器组成对抗网络,所述策略生成器在对抗网络中进行模仿学习,所述策略生成器得到与不同技术等级玩家游戏行为相仿的游戏策略,并输出所述游戏策略至所述游戏策略存储单元进行存储;所述游戏机器人,用于调用所述游戏策略存储单元中的游戏策略实施于所述游戏环境;
所述策略生成器输入由生成器状态特征Sg、任一技术等级标签Ci组成的生成状态标签对(Sg,Ci),输出为生成动作Ag;所述策略生成器利用由随机生成的一帧生成游戏图像提取的生成状态特征作为初始的生成状态输入;
所述策略判别器分别输入下一玩家状态特征Se'、下一生成器状态特征Sg',输出为输入的状态特征来自于玩家样本数据库的概率Pd
所述策略分类器分别输入下一玩家状态特征Se'、下一生成器状态特征Sg',输出为判别输入的下一状态特征基于来自标签类别的似然概率Pc
其中,玩家状态特征Se由玩家在游戏过程中经历的各帧游戏图像通过特征提取网络获得;生成器状态特征Sg由所述策略生成器在游戏过程中经历的各帧游戏图像通过特征提取网络获得;
其中,当前帧玩家游戏图像在玩家执行游戏动作后得到下一帧玩家游戏图像,对该下一帧玩家游戏图像进行特征提取获得下一玩家状态特征Se';当前帧生成游戏图像在执行生成动作后得到下一帧生成游戏图像,对该下一帧生成游戏图像进行特征提取获得下一生成器状态特征Sg'。
5.根据权利要求4所述的基于多类别模仿学习的端到端游戏机器人生成游戏样本系统,其特征在于,所述状态特征提取单元,基于迁移学习训练得到有效卷积神经网络,利用该有效卷积神经网络分别从各帧玩家游戏图像、各帧生成游戏图像中提取有效特征分别得到各帧玩家游戏图像对应的玩家状态特征以及各帧生成游戏图像对应的生成器状态特征。
CN201810498479.4A 2018-05-23 2018-05-23 基于多类别模仿学习的端到端游戏机器人生成方法及系统 Active CN108724182B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810498479.4A CN108724182B (zh) 2018-05-23 2018-05-23 基于多类别模仿学习的端到端游戏机器人生成方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810498479.4A CN108724182B (zh) 2018-05-23 2018-05-23 基于多类别模仿学习的端到端游戏机器人生成方法及系统

Publications (2)

Publication Number Publication Date
CN108724182A CN108724182A (zh) 2018-11-02
CN108724182B true CN108724182B (zh) 2020-03-17

Family

ID=63935038

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810498479.4A Active CN108724182B (zh) 2018-05-23 2018-05-23 基于多类别模仿学习的端到端游戏机器人生成方法及系统

Country Status (1)

Country Link
CN (1) CN108724182B (zh)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109529352B (zh) * 2018-11-27 2023-03-28 腾讯科技(深圳)有限公司 虚拟环境中调度策略的评估方法、装置及设备
CN110163238B (zh) * 2018-12-13 2023-04-07 腾讯科技(深圳)有限公司 一种信息预测的方法、模型训练的方法以及服务器
CN110141868A (zh) * 2019-05-27 2019-08-20 合肥常春藤移动科技有限公司 一种用于竞速类游戏应用的ai追逐方法
CN110378887A (zh) * 2019-07-22 2019-10-25 京东方科技集团股份有限公司 屏幕缺陷检测方法、装置及系统、计算机设备及介质
CN110569900A (zh) * 2019-09-05 2019-12-13 苏州大禹网络科技有限公司 游戏ai决策方法及装置
CN110659023B (zh) * 2019-09-11 2020-10-23 腾讯科技(深圳)有限公司 一种程序化内容生成的方法以及相关装置
CN110955239B (zh) * 2019-11-12 2021-03-02 中国地质大学(武汉) 一种基于逆强化学习的无人船多目标轨迹规划方法及系统
CN110991027A (zh) * 2019-11-27 2020-04-10 华南理工大学 一种基于虚拟场景训练的机器人模仿学习方法
CN112742031B (zh) * 2020-03-18 2022-08-02 腾讯科技(深圳)有限公司 模型训练方法、游戏测试方法、ai角色训练方法及装置
CN111111204B (zh) * 2020-04-01 2020-07-03 腾讯科技(深圳)有限公司 交互模型训练方法、装置、计算机设备和存储介质
CN111348034B (zh) * 2020-04-03 2021-08-24 南栖仙策(南京)科技有限公司 基于生成对抗模仿学习的自动泊车方法及系统
CN112016439B (zh) * 2020-08-26 2021-06-29 上海松鼠课堂人工智能科技有限公司 基于对抗神经网络的游戏化学习环境创建方法和系统
CN113552871B (zh) * 2021-01-08 2022-11-29 腾讯科技(深圳)有限公司 基于人工智能的机器人控制方法、装置及电子设备
CN113239634B (zh) * 2021-06-11 2022-11-04 上海交通大学 一种基于鲁棒模仿学习的模拟器建模方法
CN114779661B (zh) * 2022-04-22 2023-03-24 北京科技大学 基于多分类生成对抗模仿学习算法的化学合成机器人系统
CN114905510B (zh) * 2022-04-29 2023-07-28 南京邮电大学 基于自适应近端优化的机器人动作方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107590518A (zh) * 2017-08-14 2018-01-16 华南理工大学 一种多特征学习的对抗网络训练方法
JP2018061091A (ja) * 2016-10-03 2018-04-12 株式会社Preferred Networks データ圧縮装置、データ再現装置、データ圧縮方法、データ再現方法及びデータ転送方法
CN107909153A (zh) * 2017-11-24 2018-04-13 天津科技大学 基于条件生成对抗网络的模型化策略搜索学习方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018063504A (ja) * 2016-10-12 2018-04-19 株式会社リコー 生成モデル学習方法、装置及びプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018061091A (ja) * 2016-10-03 2018-04-12 株式会社Preferred Networks データ圧縮装置、データ再現装置、データ圧縮方法、データ再現方法及びデータ転送方法
CN107590518A (zh) * 2017-08-14 2018-01-16 华南理工大学 一种多特征学习的对抗网络训练方法
CN107909153A (zh) * 2017-11-24 2018-04-13 天津科技大学 基于条件生成对抗网络的模型化策略搜索学习方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
生成式对抗网络GAN的研究进展与展望;王坤峰等;《自动化学报》;20170315(第03期);321-325页 *

Also Published As

Publication number Publication date
CN108724182A (zh) 2018-11-02

Similar Documents

Publication Publication Date Title
CN108724182B (zh) 基于多类别模仿学习的端到端游戏机器人生成方法及系统
CN108734276B (zh) 一种基于对抗生成网络的模仿学习对话生成方法
DeVries et al. Dataset augmentation in feature space
CN108763444B (zh) 利用分层编码解码器网络机制来解决视频问答的方法
Wang et al. Improving Reinforcement Learning with Confidence-Based Demonstrations.
Kurin et al. The atari grand challenge dataset
CN109460463A (zh) 基于数据处理的模型训练方法、装置、终端及存储介质
CN110472642A (zh) 基于多级注意力的细粒度图像描述方法及系统
CN113255936B (zh) 基于模仿学习和注意力机制的深度强化学习策略保护防御方法和装置
CN107274029A (zh) 一种利用动态场景内交互作用介质的未来预测方法
CN111856925B (zh) 基于状态轨迹的对抗式模仿学习方法及装置
CN113987196A (zh) 一种基于知识图谱蒸馏的知识图谱嵌入压缩方法
Yang et al. Adaptive inner-reward shaping in sparse reward games
Tong et al. Enhancing rolling horizon evolution with policy and value networks
CN113313265A (zh) 基于带噪声专家示范的强化学习方法
CN111348034B (zh) 基于生成对抗模仿学习的自动泊车方法及系统
CN111985560A (zh) 知识追踪模型的优化方法、系统及计算机存储介质
Ji et al. Improving decision-making efficiency of image game based on deep Q-learning
CN114137967B (zh) 基于多网络联合学习的驾驶行为决策方法
Sheidlower et al. Keeping humans in the loop: Teaching via feedback in continuous action space environments
CN113255883A (zh) 一种基于幂律分布的权重初始化方法
CN115645929A (zh) 游戏外挂行为的检测方法、装置及电子设备
CN113535911B (zh) 奖励模型处理方法、电子设备、介质和计算机程序产品
Chavali et al. Modelling a Reinforcement Learning Agent For Mountain Car Problem Using Q–Learning With Tabular Discretization
CN113761149A (zh) 对话信息处理方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20210702

Address after: 310052 Building No. 599, Changhe Street Network Business Road, Binjiang District, Hangzhou City, Zhejiang Province, 4, 7 stories

Patentee after: NETEASE (HANGZHOU) NETWORK Co.,Ltd.

Address before: 215131 8 Ji Xue Road, Xiangcheng District, Suzhou, Jiangsu.

Patentee before: Suzhou University

Patentee before: NETEASE (HANGZHOU) NETWORK Co.,Ltd.