CN108970119A

CN108970119A - 难度自适应游戏系统策略规划方法

Info

Publication number: CN108970119A
Application number: CN201810778924.2A
Authority: CN
Inventors: 章宗长; 陈子璇; 潘致远; 陈赢峰; 范长杰
Original assignee: Suzhou University; Netease Hangzhou Network Co Ltd
Current assignee: Suzhou University; Netease Hangzhou Network Co Ltd
Priority date: 2018-07-16
Filing date: 2018-07-16
Publication date: 2018-12-11

Abstract

本发明公开了一种基于基于优先级值迭代网络的难度自适应游戏系统策略规划方法。该游戏系统由两部分构成：用于进行图像特征信息提取的卷积神经网络和用于进行策略泛化处理的优先级值迭代网络。该系统可嵌入至任意对抗类游戏中，当玩家开始游戏前，会从系统的难度系数中选择某一等级的对抗机器人(Adversarial Non‑personal Character,A‑NPC)。根据选定的难度系数，系统会从服务器的数据库中获取相应难度的玩家样本策略信息，并在服务器端根据玩家样本策略信息进行模仿学习，得到优先级值迭代网络的参数。该参数在游戏载入时传送至客户端。

Description

难度自适应游戏系统策略规划方法

技术领域

本发明涉及难度自适应游戏系统策略规划方法，特别是涉及基于优先级值迭代网络的难度自适应游戏系统策略规划方法。

背景技术

在目前的对抗类游戏领域中，根据难度系数对游戏环境进行调整的应用越来越普遍。例如，在俄罗斯方块游戏中，根据难度系数，若某一方玩家先达到一定分数，则系统会在对方玩家的游戏环境中增加几层方块。但在目前的基于对抗性策略的难度自适应的游戏环境中，随着游戏环境难度的改变，游戏系统中的非玩家角色(NPC)还不能在环境中进行高准确率的策略规划，这会使得对手玩家的游戏体验大大下降。因此我们急切需要一种游戏系统，在游戏环境信息有所缺失或游戏环境难度增加的情况下，仍能较快地获得一个或多个对抗性策略。

发明内容

基于此，有必要针对上述技术问题，提供一种基于优先级值迭代网络的难度自适应游戏系统策略规划方法，解决了因游戏环境中信息不足而导致游戏系统无法进行精准策略规划的难题，该方法具有准确性高、泛化能力强、处理时间短等优点，在对抗类游戏中有广泛的应用场景。

一种基于优先级值迭代网络的难度自适应游戏系统策略规划方法，包括：

S1、为所述游戏系统的服务器数据库中存储多张信息已知的游戏图像，这些图像的信息包括游戏环境信息和相应难度的玩家策略信息；

S2、当玩家选定难度系数后，从服务器中获取相应难度的游戏信息o(s)，o(s)是指原始的游戏环境信息和相应的玩家策略信息；在服务器端，由信息o(s)经过卷积神经网络中的过滤器提取初始的特征信息φ(s)，特征信息φ(s)经过卷积映射函数f_R得到初始的奖赏信息经过卷积映射函数f_P得到初始的转移概率函数奖赏信息为一张表示已知游戏环境图像中各状态奖赏值的特征图；转移概率函数为各状态-动作对的转移概率值，由奖赏信息经过卷积神经网络中的过滤器得到初始的状态值函数

S3、值迭代模块的结构是一个类卷积神经网络，奖赏信息状态值函数作为优先级值迭代模块的输入，转移概率函数作为优先级值迭代模块中的卷积核，三者共同维持各个动作在状态s下的动作值经过几轮更新迭代之后，状态值函数会逐渐接近最优值函数即为该模块的输出；

S4、在优先级值迭代模块中，首先初始化每个状态的优先级，使得每个状态都至少被选择一次；在每次更新过程中，首先根据优先级选取需要更新的当前状态s，得到该状态的值函数v(s)；将该状态的值函数v(s)与转移概率函数以及奖赏信息输入至值迭代模块中，经过S3操作完成一次值迭代更新；该状态的优先级会在此次更新之后也进行更新；经过几轮迭代更新后，优先级值迭代模块会输出各个状态下最优值的近似值；

S5、将获得的近似最优值函数输入注意力模块中，根据注意力机制，输出与当前状态s最相关的状态值信息ψ(s)；

S6、当游戏系统接收到新的难度等级时，即相当于优先级值迭代网络接收到了一个新的游戏环境图像，根据原有图像的特征信息φ(s)和状态值信息ψ(s)以及实时输赢信息，即可较为迅速地获得一个或多个对抗性策略；

S7、该游戏系统将新收到的游戏环境图像存储在服务器数据库中，结合之前已存储的环境图像，修正由于该游戏环境图像信息不准确而造成的误差，提高游戏系统所得到的对抗性策略的精准度。

上述基于优先级值迭代网络的难度自适应游戏系统策略规划方法，(1)本发明公开的基于优先级值迭代网络的策略规划方法，能够很好地应对现有的游戏系统在信息未知的游戏环境中无法进行高成功率和高准确率的策略规划的问题，优先级值迭代网络首先通过卷积神经网络中的过滤器对信息已知的游戏环境中各种重要信息进行提取，后基于信息已知的游戏环境中的奖赏信息图像和转移概率函数，利用优先级值迭代模块在信息未知的游戏环境中预测出一个或多个对抗性策略，实现对信息未知的游戏环境进行策略规划的目的。优先级值迭代网络方法是一种将优先级运用于值迭代网络中的方法，以使得策略规划过程能更高效的进行。通过对状态设置优先级和利用注意模块能够减少无关状态对策略规划过程的影响，提高算法的性能。(2)游戏系统能做到实时模拟，通过优先级值迭代网络的策略规划能很快模拟出多个对抗性策略。(3)游戏系统利用模仿学习方法，每一次规划都会从服务器端保存的人类玩家策略样本中学习，以得到更精准的规划结果。(3)游戏系统感知的状态为具有马尔科夫性质的状态，具有马尔科夫性质的状态的未来状态只与当前状态有关，与之前的状态没有关系，因此无需保存过去的信息，只需专注于当前自身和障碍物的位置，节约了成本。(4)游戏系统在信息未知的游戏环境中进行策略规划时，通过输入奖赏信息图像，可以有效区分状态好的情况与不好的情况，提高系统策略规划的速度，并且在一定程度上帮助该系统躲避障碍物。

在另外的一个实施例中，S2中卷积神经网络的具体配置：

该神经网络的结构共分成四个步骤(Step0到Step3)；对原始地图图像的预处理网络由两个卷积层和两个最大池化层构成，其中第一个卷积层卷积核大小为5×5、第二个卷积层卷积核大小为3×3；该卷积神经网络最终输出的特征图尺寸为16×16×1(大小为16×16、输出通道数为1，下同)；映射函数f_R的网络结构的输入特征图尺寸为16×16×2(大小为16×16、输出通道数为2)，该网络由两个卷积层构成；

以下为每一块的具体配置：

Step0：本块的输入为一个128×128的原始游戏环境的图像；本块由一个卷积层和一个池化层构成；在卷积层中，卷积核大小为5×5，卷积核个数为6，滑动步长为1；卷积层之后是池化层；在池化层中，池化大小为3×3，池化步长为1，采用最大池化算法；本块的输出作为下一块的输入；

Step1：本块的输入为上一块的输出；本块由一个卷积层和一个池化层构成；在卷积层中，卷积核大小为3×3，卷积核个数为12，滑动步长为1；卷积层之后是池化层；在池化层中，池化大小为2×2，池化步长为1，采用最大池化算法；本块的输出是一个16×16的地表特征信息图，作为下一块的输入；

Step2：本块的输入为上一块的输出图像以及一个16×16的人类玩家样本信息图像；本块由一个卷积层构成，在卷积层中，卷积核大小为3×3，卷积核个数为150；本块的输出作为下一块的输入；

Step3：本块的输入为上一块的输出；本块由一个卷积层构成；在卷积层中，卷积核大小为3×3，卷积核个数为1；本块的输出是一个16×16的奖赏信息图。

在另外的一个实施例中，S3中，把奖赏信息输入至优先级值迭代模块中，值迭代模块是一个类卷积神经网络，卷积层的操作是求出状态的Q值，最大池化层的操作是选出各Q值中的最大值，即为V值；在优先级值迭代模块中，一次值迭代的更新公式如下:

Q值更新公式为：

V值更新公式为：

其中s表示游戏系统需要更新的当前状态，为在当前状态s下模拟执行的动作，为在当前状态s下执行动作后的转移概率，s′表示在当前状态s下执行后到达的下一状态，γ为折扣率；表示状态在进行更新之前的值函数，是表示更新之后的值函数。

在另外的一个实施例中，每个状态至少被选择更新一次，在S3更新了状态s的之后，将s的优先级设为0，根据来更新与状态s相邻的，能通过一个时间步到达s的八个状态s₁，s₂，s₃，...，s₈的Q值，再对s₁，s₂，s₃，...，s₈的更新后的Q值取最大值得到s₁，s₂，s₃，...，s₈更新后的V值，之后根据公式：

来更新状态s₁，s₂，s₃，...，s₈的优先级；除了根据V值来更新状态的优先级外，还可根据Q值对状态优先级进行更新，该情况下的更新公式为：

其中表示状态在更新之前的动作值函数，表示更新之后的动作值函数。

在另外的一个实施例中，S5中，注意力模块在地表信息已知的游戏地图中选择与当前状态最相关的状态，并得到相关的状态信息

在另外的一个实施例中，S6中,当输入一张新的游戏环境图像时，整个值迭代网络结构会对网络参数进行更新，并结合之前保存在网络中的参数信息ψ(s)、φ(s)以及人类玩家策略信息得到一条或多个对抗性策略。

在另外的一个实施例中，S7中，输入多张游戏地图图像后，值迭代网络的参数会被不断更新，最后能够使得游戏系统的策略规划能力在信息未知的游戏环境中显著提高。

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现任一项所述方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现任一项所述方法的步骤。

一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行任一项所述的方法。

附图说明

图1为本申请实施例提供的一种基于优先级值迭代网络的难度自适应游戏系统策略规划方法中信息提取部分的网络结构图。

图2为本申请实施例提供的一种基于优先级值迭代网络的难度自适应游戏系统策略规划方法中优先级值迭代网络结构图。

图3为本申请实施例提供的一种基于优先级值迭代网络的难度自适应游戏系统策略规划方法中优先级值迭代模块(根据V值更新优先级)的结构示意图。

图4为本申请实施例提供的一种基于优先级值迭代网络的难度自适应游戏系统策略规划方法中优先级值迭代模块(根据Q值更新优先级)的结构示意图。

图5为本申请实施例提供的一种基于优先级值迭代网络的难度自适应游戏系统策略规划方法中的优先级值迭代模块的卷积核示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

进一步的，多张地表信息已知的游戏环境图像样本被表示为128*128的图像区域，利用卷积网中的多个过滤器将其特征提取为一个16*16的栅格世界。例如，将该游戏系统运用于寻路游戏中，如果在某个状态对应的8*8图像区域中包含了野怪，墙壁或高台，则将这个状态视为障碍物。

进一步的，当输入一张新的游戏环境图像样本时，经过过滤器提取之后的新图像的特征信息会累加在值迭代网络之前保存的特征信息之中。

进一步的，该游戏系统中优先级值迭代模块采用类卷积神经网络的结构，其中卷积层操作采用值迭代方法中的Q值更新，最大池化层操作采用值迭代方法中的V值更新。

进一步的，训练该系统需要图片数据作为样本，初始存储的图片数据和新加入的图片数据以及实时输赢信息可以共同训练该系统，进行更为精准的规划。当一个新环境样本输入后，该系统经过数次迭代即可输出针对该样本的对抗性策略。

在另外的一个实施例中，S2中卷积神经网络的具体配置：

以下为每一块的具体配置：

Q值更新公式为：

V值更新公式为：

下面介绍本申请的一个具体应用场景：

S1、为所述游戏系统的服务器数据库中存储多张信息已知的游戏图像，这些图像的信息包括游戏环境信息和相应难度的玩家策略信息。

S2、当玩家选定难度系数后，从服务器中获取相应难度的游戏信息o(s)，o(s)是指原始的游戏环境信息和相应的玩家策略信息。在服务器端，由信息o(s)经过卷积神经网络中的过滤器提取初始的特征信息φ(s)，特征信息φ(s)经过卷积映射函数f_R得到初始的奖赏信息经过卷积映射函数fP得到初始的转移概率函数奖赏信息为一张表示已知游戏环境图像中各状态奖赏值的特征图；转移概率函数为各状态-动作对的转移概率值，由奖赏信息经过卷积神经网络中的过滤器得到初始的状态值函数

S3、值迭代模块的结构是一个类卷积神经网络，奖赏信息状态值函数作为优先级值迭代模块的输入，转移概率函数作为优先级值迭代模块中的卷积核，三者共同维持各个动作在状态s下的动作值经过几轮更新迭代之后，状态值函数会逐渐接近最优值函数即为该模块的输出。

S4、在优先级值迭代模块中，首先初始化每个状态的优先级，使得每个状态都至少被选择一次。在每次更新过程中，首先根据优先级选取需要更新的当前状态s，得到该状态的值函数v(s)。将该状态的值函数v(s)与转移概率函数以及奖赏信息输入至值迭代模块中，经过S3操作完成一次值迭代更新。该状态的优先级会在此次更新之后也进行更新。经过几轮迭代更新后，优先级值迭代模块会输出各个状态下最优值的近似值。

S5、将获得的近似最优值函数输入注意力模块中，根据注意力机制，输出与当前状态s最相关的状态值信息ψ(s)。

S6、当游戏系统接收到新的难度等级时，即相当于优先级值迭代网络接收到了一个新的游戏环境图像，根据原有图像的特征信息φ(s)和状态值信息ψ(s)以及实时输赢信息，即可较为迅速地获得一个或多个对抗性策略。

在信息未知的游戏环境中，所述游戏系统在初次选择并执行当前动作前要获取由原始游戏信息o(s)经过卷积网中过滤器提取的初始特征信息φ(s)、奖赏信息转移概率函数折扣率γ、以及初始化优先级值迭代模块的结构和内部参数。本实施例中，初始化后，映射函数f_R、f_p均为一个卷积神经网络、初始奖赏信息作为优先级值迭代网络的输入、转移概率函数作为优先级值迭代网络中的权重、优先级值迭代网络中的迭代次数为10次。

S2中的卷积神经网络，其网络结构如图1所示。在本发明中，卷积核的设置有两种方式。第一种是以5×5的大卷积核，其目的是增加感受野的面积从而使提取到的特征更加全面。第二种是以3×3的小卷积核，其能够更准确的学习到边缘等细微特征，还能减少大量冗余的参数。

在本发明中，池化层的作用是优化特征，以此来降低不必要特征的干扰。此处采用最大池化算法，在经过卷积后的特征图内选择最大的特征值进行输出，使抽取到的特征具有平移旋转不变性等泛化能力，从而提高识别准确度。该层的操作并不改变特征图的维数。

下面是S2中卷积神经网络的具体配置：

该神经网络的结构共分成四个步骤(Step0到Step3)。对原始地图图像的预处理网络由两个卷积层和两个最大池化层构成，其中第一个卷积层卷积核大小为5×5、第二个卷积层卷积核大小为3×3。该卷积神经网络最终输出的特征图尺寸为16×16×1(大小为16×16、输出通道数为1，下同)。映射函数fR的网络结构的输入特征图尺寸为16×16×2(大小为16×16、输出通道数为2)，该网络由两个卷积层构成。以下为每一块的具体配置：

Step0：本块的输入为一个128×128的原始游戏环境的图像。本块由一个卷积层和一个池化层构成。在卷积层中，卷积核大小为5×5，卷积核个数为6，滑动步长为1。卷积层之后是池化层。在池化层中，池化大小为3×3，池化步长为1，采用最大池化算法。本块的输出作为下一块的输入。

Step1：本块的输入为上一块的输出。本块由一个卷积层和一个池化层构成。在卷积层中，卷积核大小为3×3，卷积核个数为12，滑动步长为1。卷积层之后是池化层。在池化层中，池化大小为2×2，池化步长为1，采用最大池化算法。本块的输出是一个16×16的地表特征信息图，作为下一块的输入。

Step2：本块的输入为上一块的输出图像以及一个16×16的人类玩家样本信息图像。本块由一个卷积层构成，在卷积层中，卷积核大小为3×3，卷积核个数为150。本块的输出作为下一块的输入。

Step3：本块的输入为上一块的输出。本块由一个卷积层构成。在卷积层中，卷积核大小为3×3，卷积核个数为1。本块的输出是一个16×16的奖赏信息图。

S3中，需要把奖赏信息输入至优先级值迭代模块中，值迭代模块是一个类卷积神经网络，卷积层的操作是求出状态的Q值，最大池化层的操作是选出各Q值中的最大值，即为V值。在优先级值迭代模块中，一次值迭代的更新公式如下:

Q值更新公式为：

V值更新公式为：

其中s表示游戏系统需要更新的当前状态，为在当前状态s下模拟执行的动作，为在当前状态s下执行动作后的转移概率，s′表示在当前状态s下执行后到达的下一状态，γ为折扣率。表示状态在进行更新之前的值函数，是表示更新之后的值函数。

S4中，每个状态都必须至少被选择更新一次，在S3更新了状态s的之后，将s的优先级设为0，根据来更新与状态s相邻的，能通过一个时间步到达s的八个状态s₁，s₂，s₃，...，s₈(除状态s自身)的Q值，再对s₁，s₂，s₃，...，s₈的更新后的Q值取最大值得到s₁，s₂，s₃，...，s₈更新后的V值，之后根据公式：

来更新状态s₁，s₂，s₃，...，s₈的优先级。除了根据V值来更新状态的优先级外，还可根据Q值对状态优先级进行更新，如图4所示，该情况下的更新公式为：

S5中，注意力模块在地表信息已知的游戏地图中选择与当前状态最相关的状态，并得到相关的状态信息本操作的目的是利用注意力模块来提高优先级值迭代模块中计算的准确性。

S6中,当输入一张新的游戏环境图像时，整个值迭代网络结构会对网络参数进行更新，并结合之前保存在网络中的参数信息ψ(s)、φ(s)以及人类玩家策略信息得到一条或多个对抗性策略。

S7中，输入多张游戏地图图像后，值迭代网络的参数会被不断更新，最后能够使得游戏系统的策略规划能力在信息未知的游戏环境中显著提高。

模仿学习是指从示教者提供的范例中学习，一般提供人类专家的决策数据，每个决策包含状态和动作序列，将所有「状态-动作对」抽取出来构造新的集合。模仿学习的方法经过多年的发展，已经能够很好地解决多步决策问题，在机器人、NLP等领域也有很多的应用。将模仿学习方法运用到对抗性游戏的策略规划问题中，可以使得游戏系统从人类玩家的策略中学习，以生成更好的对抗性策略。

卷积网是一种神经网络结构。近几年来，卷积神经网(Convolutional NeuralNetwork,CNN)在图像识别领域不断出现新的突破。现在，CNN已经成为众多科学领域的研究热点之一，特别是在模式分类领域，由于该网络避免了对图像的复杂前期预处理，可以直接输入原始图像，因而得到了更为广泛的应用。

本专利的创新点之一在于，传统的对抗类游戏策略无法很好的泛化至解决未知的游戏环境，这样会降低用户的游戏体验，而本专利运用了值迭代网络的规划功能，使玩家获得的对抗性策略即便在未知的游戏环境中也具有很好的泛化能力。本专利的创新点之二在于，利用模仿学习从服务器的数据库中学习人类玩家样本的策略信息，得到值迭代网络的参数，可以更好的对不同难度的游戏环境进行策略规划，并获得一个或多个对抗性策略。本专利的创新点之三在于，利用网络结构保存已输入的图像数据，并随着输入图像的不断增多，所得到的对抗性策略的精度也会越来越高。本专利的创新点之四在于，传统的值迭代网络中的迭代过程比较耗时，而游戏的加载时间对于用户体验来讲是很重要的，所以本专利在值迭代网络中加入优先级模块，根据每个状态的优先级来选择状态进行更新，以减少迭代所耗费的时间。

本发明在借鉴经典的图像识别方法的同时，融合了值迭代理论，对现有用于对抗性游戏中策略规划的不足，有针对性的进行创新，完成改进，最后完成本发明。该游戏系统需输入多张信息已知的游戏环境图像和相应难度的玩家策略信息，并根据已知的信息，系统能够将对抗性策略泛化到信息未知的游戏环境中。

综上所述，融合优先级值迭代方法和卷积神经网络的难度自适应游戏系统，能够极大地提高对抗性策略规划的速度、成功率和准确率。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种基于优先级值迭代网络的难度自适应游戏系统策略规划方法，其特征在于，包括：

S1、为所述游戏系统的所述服务器数据库中存储多张信息已知的游戏图像，这些图像的信息包括游戏环境信息和相应难度的玩家策略信息；

2.根据权利要求1所述的基于优先级值迭代网络的难度自适应游戏系统策略规划方法，其特征在于，S2中卷积神经网络的具体配置：

以下为每一块的具体配置：

3.根据权利要求1所述的基于优先级值迭代网络的难度自适应游戏系统策略规划方法，其特征在于，S3中，把奖赏信息输入至优先级值迭代模块中，值迭代模块是一个类卷积神经网络，卷积层的操作是求出状态的Q值，最大池化层的操作是选出各Q值中的最大值，即为V值；在优先级值迭代模块中，一次值迭代的更新公式如下:

Q值更新公式为：

V值更新公式为：

其中s表示游戏系统需要更新的当前状态，为在当前状态s下模拟执行的动作，为在当前状态s下执行动作后的转移概率，s＇表示在当前状态s下执行后到达的下一状态，γ为折扣率；表示状态在进行更新之前的值函数，是表示更新之后的值函数。

4.根据权利要求1所述的基于优先级值迭代网络的难度自适应游戏系统策略规划方法，其特征在于，每个状态至少被选择更新一次，在S3更新了状态s的之后，将s的优先级设为0，根据来更新与状态s相邻的，能通过一个时间步到达s的八个状态s₁，s₂，s₃，...，s₈的Q值，再对s₁，s₂，s₃，...，s₈的更新后的Q值取最大值得到s₁，s₂，s₃，...，s₈更新后的V值，之后根据公式：

5.根据权利要求1所述的基于优先级值迭代网络的难度自适应游戏系统策略规划方法，其特征在于，S5中，注意力模块在地表信息已知的游戏地图中选择与当前状态最相关的状态，并得到相关的状态信息

6.根据权利要求1所述的基于优先级值迭代网络的难度自适应游戏系统策略规划方法，其特征在于，S6中,当输入一张新的游戏环境图像时，整个值迭代网络结构会对网络参数进行更新，并结合之前保存在网络中的参数信息ψ(s)、φ(s)以及人类玩家策略信息得到一条或多个对抗性策略。

7.根据权利要求1所述的基于优先级值迭代网络的难度自适应游戏系统策略规划方法，其特征在于，S7中，输入多张游戏地图图像后，值迭代网络的参数会被不断更新，最后能够使得游戏系统的策略规划能力在信息未知的游戏环境中显著提高。

8.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1到7任一项所述方法的步骤。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1到7任一项所述方法的步骤。

10.一种处理器，其特征在于，所述处理器用于运行程序，其中，所述程序运行时执行权利要求1到7任一项所述的方法。