CN108211362A

CN108211362A - 一种基于深度q学习网络的非玩家角色战斗策略学习方法

Info

Publication number: CN108211362A
Application number: CN201711434812.7A
Authority: CN
Inventors: 卢建刚; 卢宇鹏; 刘勇
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2017-12-26
Filing date: 2017-12-26
Publication date: 2018-06-29
Anticipated expiration: 2037-12-26
Also published as: CN108211362B

Abstract

本发明公开了一种基于深度Q学习网络的非玩家角色战斗策略学习方法，利用学习型非玩家角色的位置、技能冷却时间、控制状态以及陪练型角色的位置、技能冷却时间、控制状态作为输入状态，以学习型非玩家角色的所有技能作为输出动作集合，采用深度Q学习网络作为学习算法，以双方角色的血量差信息作为深度Q学习网络的回报，以最小化时间差分误差作为目标，进行反向传播计算，更新深度神经网络的隐含层权系数、输出层权系数。本发明提出的基于深度Q学习网络的非玩家角色战斗策略学习方法，能够自动地生成非玩家角色战斗策略，提高效率与灵活性，同时增强对战能力，显著提升游戏的挑战性和趣味性。

Description

一种基于深度Q学习网络的非玩家角色战斗策略学习方法

技术领域

本发明涉及一种游戏战斗策略学习方法，属于机器学习领域，具体涉及一种基于深度Q学习网络的非玩家角色战斗策略学习方法。

背景技术

游戏中的非玩家角色(Non-player character，NPC)的战斗策略是游戏体验的一个很重要的组成部分，尤其在格斗类游戏中。战斗策略的好坏直接影响到整个游戏的整体评价与销量。一个好的战斗策略包括合理的走位、对关键技能的瞬间反应、懂得用一些技能去克制敌方单位等。

对于游戏中非玩家角色的战斗策略目前都是利用行为树来固定化的写好对各个状态的应对动作，这样的方法存在的问题是：首先，应对动作的优劣难以保证，只能人为的判断其优劣；其次，效率低下，需要花大量的时间与精力去设计这些应对；最后，灵活性差，不能对玩家的操作做出不同的反应，容易被找到漏洞。

强化学习是机器学习方法的一种，该方法输入状态，输出决策动作，每一步都会从环境收到一个回报值，目的在于最大化回报值，最后根据回报值的大小来选择动作，但是在非线性问题上面的表现一直不佳，因此，难以直接应用于游戏战斗策略学习领域。

发明内容

本发明的目的在于，针对背景技术中存在的不足，提供一种基于深度Q学习网络的非玩家角色战斗策略学习方法。

为此，本发明的上述目的通过以下技术方案来实现：

一种基于深度Q学习网络的非玩家角色战斗策略学习方法，包括以下步骤：

步骤(1)：确定学习型非玩家角色的输入状态集合S；学习型非玩家角色的战斗策略是指学习型非玩家角色与陪练型角色一对一战斗时，学习型非玩家角色根据环境信息做出不同的输出动作的能力；游戏中的角色可以分为两类：学习型非玩家角色(Learningnon-player character，LNPC)和陪练型角色(Sparring character，SC)；学习型非玩家角色指的是基于深度Q学习网络的非玩家角色，该类型可以通过与陪练型角色的多次交互，产生不同的样本，从而不断学习新的战斗策略；陪练型角色又可以分为玩家角色(Playercharacter，PC)和固定型非玩家角色(Fixed non-player character，FNPC)；玩家角色指的是由玩家操控的角色；固定型非玩家角色指的是策略固定的非玩家角色，该角色的战斗策略由人工编写的固定规则构成，而学习型非玩家角色的战斗策略是根据样本的变化而变化的；陪练型角色的血量记为HP^SC；陪练型角色的所有技能冷却时间记为其中，每一项都是一个实数，并表示技能冷却时间，L为陪练型角色的技能个数；陪练型角色的控制状态信息记为控制状态包括禁锢、眩晕、减速，其中，每一项都是一个实数，并表示控制状态的剩余有效时间，M为陪练型角色的控制状态个数；学习型非玩家角色的血量记为HP^LNPC；学习型非玩家角色的技能冷却时间记为其中，每一项都是一个实数，并表示技能冷却时间，K为学习型非玩家角色的技能个数；学习型非玩家角色的控制状态信息记为控制状态包括禁锢、眩晕、减速，其中，每一项都是一个实数，并表示控制状态的剩余有效时间，N为学习型非玩家角色的控制状态数量；则学习型非玩家角色的t时刻输入状态S_t可以表示为：

记学习型非玩家角色的输入状态集合S的元素个数为S_length；

步骤(2)：确定学习型非玩家角色的输出动作集合A＝{a₁,…,a_j,…,a_P}，其中P为输出动作集合A所包含的输出动作个数，a_j为第j个输出动作所对应的移动技能、伤害技能、控制技能中的任意一种或多种组合；记学习型非玩家角色t时刻的动作为A_t；

步骤(3)：确定学习型非玩家角色的基于深度Q学习网络参数，记为θ，基于深度Q学习网络(deep Q-learning network，DQN)记为DQN；参数θ包括输入层节点数、隐含层节点数、输出层节点数；输出层节点数不少于输出动作个数P；输入层节点数不少于输入状态集合S的元素个数为S_length；初始化DQN的输入层权系数、隐含层权系数、输出层权系数；

步骤(4)：对DQN，定义agent表示执行DQN的学习型非玩家角色；A表示agent输出动作集合，a表示动作集合中的某一动作；S表示agent输入状态集合，s表示输入状态集合中的某一状态；E表示环境，除agent外都是环境，是agent的交互对象；R表示回报，是一个实数，表示在某一状态s下执行某一动作a后agent从环境得到的反馈；γ表示折扣系数，是不大于1的正数；

定义t时刻的长期折扣回报G_t为：

定义行为策略π为：

π(a|s)＝P[A_t＝a|S_t＝s]

并表示为在状态s下采取不同动作的概率，策略代表着agent的行为，把状态空间映射到动作空间；

定义状态价值函数v_π(s)为：

v_π(s)＝E_π[R_t+1+γR_t+2+γ²R_t+3+...|S_t＝s]

并表示为在状态s下按照行为策略π进行决策可以获得的期望长期折扣回报；

定义动作价值函数q_π(s,a)为：

q_π(s,a)＝E_π[R_t+1+γR_t+2+γ²R_t+3+...|S_t＝s,A_t＝a]＝E_π[G_t|S_t＝s,A_t＝a]

并表示为在状态s时，采取动作a，之后的动作按照行为策略π进行决策可以获得的期望长期折扣回报；DQN是利用深度神经网络来近似输入状态下，执行各个动作的动作价值函数为：

q_π(s,a|θ)＝q_π(s,a)

DQN的行为策略π为：

p表示概率，ε是一个不大于1的正数；DQN学习的目的是最大化零时刻的以π(a|s,θ)为行为策略的期望长期折扣回报；

步骤(5)：确定DQN回报函数：

r＝ΔHP_SC-ΔHP_LNPC

表示陪练角色在上一个动作执行期间的血量下降量与学习型非玩家角色在上一个动作执行期间的血量下降量之差；动作执行期间为行为策略一个动作的保持时间；

步骤(6)：建立一个容量为N的经验池D用于存储样本，t时刻的样本记为(S_t,A_t,R_t,S_t+1)；设定q_π(s,a|θ)的最小变化阈值ε，ε为正数；设定最大迭代次数M，M为大于1的整数；

步骤(7)：观察现在的状态S_t，通过步骤(4)中行为策略π(a|s,θ)从输出动作集合中选择一个动作A_t执行，在环境中执行后得到回报值R_t和执行完动作到达的下一个状态S_t+1，组合成为一个步骤(6)中样本(S_t,A_t,R_t,S_t+1)，并存入经验池D；

步骤(8)：从经验池D中随机采样一批样本，根据

对每一个样本都进行DQN参数更新，其中的α是一个更新步长，θ'为θ更新后的值，为对该动作进行误差反向传播，为时间差分误差(Temporal Difference error，TD-error)；

步骤(9)：重复步骤(7)和步骤(8)，直到q_π(s,a|θ)变化的绝对值小于最小变化阈值ε或者重复次数大于最大迭代次数M，然后进入步骤(10)；

步骤(10)：学习型非玩家角色的战斗策略最终由步骤(9)结束后的DQN参数θ，通过向DQN输入t时刻状态S_t，选取DQN输出的使得q_π(S_t,a|θ)最大的动作而构成。

本发明提供了一种基于深度Q学习网络的非玩家角色战斗策略学习方法，利用学习型非玩家角色的位置、技能冷却时间、控制状态以及陪练型角色的位置、技能冷却时间、控制状态作为输入状态，以学习型非玩家角色的所有技能作为输出动作集合，采用深度Q学习网络作为学习算法，以双方角色的血量差信息作为深度Q学习网络的回报，以最小化时间差分误差作为目标，进行反向传播计算，更新深度神经网络的隐含层权系数、输出层权系数。本发明提出的基于深度Q学习网络的非玩家角色战斗策略学习方法，能够自动地生成非玩家角色战斗策略，大大降低了游戏开发人员的劳动力，与此同时通过改变对手的样本，可以非常方便的得到多样化的战斗策略；当玩家发现某些固定玩法容易过关时，学习型非玩家角色的战斗策略可以快速的得到自动调整，使得游戏更加具有可玩性。

附图说明

图1为本发明的交互流程图；

图2为本发明的原理框图；

图3为本发明采用的深度神经网络结构示意图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步详细地说明。

步骤(1)：确定学习型非玩家角色的输入状态集合S；学习型非玩家角色的战斗策略是指学习型非玩家角色与陪练型角色一对一战斗时，学习型非玩家角色根据环境信息做出不同的输出动作的能力；游戏中的角色可以分为两类：学习型非玩家角色(Learningnon-player character，LNPC)和陪练型角色(Sparring character，SC)；学习型非玩家角色指的是基于深度Q学习网络的非玩家角色，该类型可以通过与陪练型角色的多次交互，产生不同的样本，从而不断学习新的战斗策略；陪练型角色又可以分为玩家角色(Playercharacter，PC)和固定型非玩家角色(Fixed non-player character，FNPC)；玩家角色指的是由玩家操控的角色；固定型非玩家角色指的是战斗策略固定的非玩家角色，该角色的战斗策略由人工编写的固定规则构成，而学习型非玩家角色的战斗策略是根据样本的变化而变化的；陪练型角色的血量记为HP^SC；陪练型角色的所有技能冷却时间记为其中，每一项都是一个实数，并表示技能冷却时间，L为陪练型角色的技能个数；陪练型角色的控制状态信息记为控制状态包括禁锢、眩晕、减速，其中，每一项都是一个实数，并表示控制状态的剩余有效时间，M为陪练型角色的控制状态个数；学习型非玩家角色的血量记为HP^LNPC；学习型非玩家角色的技能冷却时间记为其中，每一项都是一个实数，并表示技能冷却时间，K为学习型非玩家角色的技能个数；学习型非玩家角色的控制状态信息记为控制状态包括禁锢、眩晕、减速，其中，每一项都是一个实数，并表示控制状态的剩余有效时间，N为学习型非玩家角色的控制状态数量；学习型非玩家角色的t时刻输入状态S_t可以表示为：

记学习型非玩家角色的输入状态集合S的元素个数为S_length；

步骤(2)：确定学习型非玩家角色的输出动作集合A＝{a₁,…,a_j,…,a_P}，其中P为输出动作集合A所包含的输出动作个数，a_j为第j个输出动作所对应的移动技能、伤害技能、控制技能种的任意一种或多种组合；记学习型非玩家角色t时刻的动作为A_t；

定义t时刻的长期折扣回报G_t为：

定义行为策略π为：

π(a|s)＝P[A_t＝a|S_t＝s]

定义状态价值函数v_π(s)为：

v_π(s)＝E_π[R_t+1+γR_t+2+γ²R_t+3+...|S_t＝s]

定义动作价值函数q_π(s,a)为：

q_π(s,a|θ)＝q_π(s,a)

DQN的行为策略π为：

步骤(5)：确定DQN回报函数：

r＝ΔHP_SC-ΔHP_LNPC

步骤(7)：如图1所示，观察现在的状态S_t，通过步骤(4)中行为策略π(a|s,θ)从输出动作集合中选择一个动作A_t执行，在环境中执行后得到回报值R_t和执行完动作到达的下一个状态S_t+1，组合成为一个步骤(6)中样本(S_t,A_t,R_t,S_t+1)，并存入经验池D；

步骤(8)：如图2所示，从经验池D中随机采样一批样本，根据

对每一个样本都进行DQN参数更新，其中的α是一个更新步长，θ'为θ更新后的值，为对该动作进行误差反向传播，反向传播过程如图3，为时间差分误差；

上述具体实施方式用来解释说明本发明，仅为本发明的优选实施例，而不是对本发明进行限制，在本发明的精神和权利要求的保护范围内，对本发明作出的任何修改、等同替换、改进等，都落入本发明的保护范围。

Claims

1.一种基于深度Q学习网络的非玩家角色战斗策略学习方法，其特征在于，包括以下步骤：

步骤(1)：确定学习型非玩家角色的输入状态集合S；学习型非玩家角色的战斗策略是指学习型非玩家角色与陪练型角色一对一战斗时，学习型非玩家角色根据环境信息做出不同的输出动作的能力；游戏中的角色可以分为两类：学习型非玩家角色和陪练型角色；学习型非玩家角色指的是基于深度Q学习网络的非玩家角色，该类型可以通过与陪练型角色的多次交互，产生不同的样本，从而不断学习新的战斗策略；陪练型角色又可以分为玩家角色和固定型非玩家角色；玩家角色指的是由玩家操控的角色；固定型非玩家角色指的是战斗策略固定的非玩家角色，该角色的战斗策略由人工编写的固定规则构成，而学习型非玩家角色的战斗策略是根据样本的变化而变化的；陪练型角色的血量记为HP^SC；陪练型角色的所有技能冷却时间记为其中，每一项都是一个实数，并表示技能冷却时间，L为陪练型角色的技能个数；陪练型角色的控制状态信息记为控制状态包括禁锢、眩晕、减速，其中，每一项都是一个实数，并表示控制状态的剩余有效时间，M为陪练型角色的控制状态个数；学习型非玩家角色的血量记为HP^LNPC；学习型非玩家角色的技能冷却时间记为其中，每一项都是一个实数，并表示技能冷却时间，K为学习型非玩家角色的技能个数；学习型非玩家角色的控制状态信息记为控制状态包括禁锢、眩晕、减速，其中，每一项都是一个实数，并表示控制状态的剩余有效时间，N为学习型非玩家角色的控制状态数量；则学习型非玩家角色的t时刻输入状态S_t可以表示为：

记学习型非玩家角色的输入状态集合S的元素个数为S_length；

步骤(3)：确定学习型非玩家角色的基于深度Q学习网络参数，记为θ，基于深度Q学习网络记为DQN；参数θ包括输入层节点数、隐含层节点数、输出层节点数；输出层节点数不少于输出动作个数P；输入层节点数不少于输入状态集合S的元素个数S_length；初始化DQN的输入层权系数、隐含层权系数、输出层权系数；

定义t时刻的长期折扣回报G_t为：

定义行为策略π为：

π(a|s)＝P[A_t＝a|S_t＝s]

定义状态价值函数v_π(s)为：

v_π(s)＝E_π[R_t+1+γR_t+2+γ²R_t+3+...|S_t＝s]

定义动作价值函数q_π(s,a)为：

q_π(s,a|θ)＝q_π(s,a)

DQN的行为策略π为：

步骤(5)：确定DQN回报函数：

r＝ΔHP_SC-ΔHP_LNPC

步骤(8)：从经验池D中随机采样一批样本，根据

对每一个样本都进行DQN参数更新，其中的α是一个更新步长，θ'为θ更新后的值，为对该动作进行误差反向传播，为时间差分误差；