CN108211362A - 一种基于深度q学习网络的非玩家角色战斗策略学习方法 - Google Patents
一种基于深度q学习网络的非玩家角色战斗策略学习方法 Download PDFInfo
- Publication number
- CN108211362A CN108211362A CN201711434812.7A CN201711434812A CN108211362A CN 108211362 A CN108211362 A CN 108211362A CN 201711434812 A CN201711434812 A CN 201711434812A CN 108211362 A CN108211362 A CN 108211362A
- Authority
- CN
- China
- Prior art keywords
- learning
- role
- player role
- state
- player
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- A—HUMAN NECESSITIES
- A63—SPORTS; GAMES; AMUSEMENTS
- A63F—CARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
- A63F13/00—Video games, i.e. games using an electronically generated display having two or more dimensions
- A63F13/60—Generating or modifying game content before or while executing the game program, e.g. authoring tools specially adapted for game development or game-integrated level editor
- A63F13/67—Generating or modifying game content before or while executing the game program, e.g. authoring tools specially adapted for game development or game-integrated level editor adaptively or by learning from player actions, e.g. skill level adjustment or by storing successful combat sequences for re-use
-
- A—HUMAN NECESSITIES
- A63—SPORTS; GAMES; AMUSEMENTS
- A63F—CARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
- A63F13/00—Video games, i.e. games using an electronically generated display having two or more dimensions
- A63F13/55—Controlling game characters or game objects based on the game progress
-
- A—HUMAN NECESSITIES
- A63—SPORTS; GAMES; AMUSEMENTS
- A63F—CARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
- A63F13/00—Video games, i.e. games using an electronically generated display having two or more dimensions
- A63F13/80—Special adaptations for executing a specific game genre or game mode
- A63F13/833—Hand-to-hand fighting, e.g. martial arts competition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- A—HUMAN NECESSITIES
- A63—SPORTS; GAMES; AMUSEMENTS
- A63F—CARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
- A63F2300/00—Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game
- A63F2300/60—Methods for processing data by generating or executing the game program
- A63F2300/6027—Methods for processing data by generating or executing the game program using adaptive systems learning from user actions, e.g. for skill level adjustment
-
- A—HUMAN NECESSITIES
- A63—SPORTS; GAMES; AMUSEMENTS
- A63F—CARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
- A63F2300/00—Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game
- A63F2300/80—Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game specially adapted for executing a specific type of game
- A63F2300/8029—Fighting without shooting
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明公开了一种基于深度Q学习网络的非玩家角色战斗策略学习方法,利用学习型非玩家角色的位置、技能冷却时间、控制状态以及陪练型角色的位置、技能冷却时间、控制状态作为输入状态,以学习型非玩家角色的所有技能作为输出动作集合,采用深度Q学习网络作为学习算法,以双方角色的血量差信息作为深度Q学习网络的回报,以最小化时间差分误差作为目标,进行反向传播计算,更新深度神经网络的隐含层权系数、输出层权系数。本发明提出的基于深度Q学习网络的非玩家角色战斗策略学习方法,能够自动地生成非玩家角色战斗策略,提高效率与灵活性,同时增强对战能力,显著提升游戏的挑战性和趣味性。
Description
技术领域
本发明涉及一种游戏战斗策略学习方法,属于机器学习领域,具体涉及一种基于深度Q学习网络的非玩家角色战斗策略学习方法。
背景技术
游戏中的非玩家角色(Non-player character,NPC)的战斗策略是游戏体验的一个很重要的组成部分,尤其在格斗类游戏中。战斗策略的好坏直接影响到整个游戏的整体评价与销量。一个好的战斗策略包括合理的走位、对关键技能的瞬间反应、懂得用一些技能去克制敌方单位等。
对于游戏中非玩家角色的战斗策略目前都是利用行为树来固定化的写好对各个状态的应对动作,这样的方法存在的问题是:首先,应对动作的优劣难以保证,只能人为的判断其优劣;其次,效率低下,需要花大量的时间与精力去设计这些应对;最后,灵活性差,不能对玩家的操作做出不同的反应,容易被找到漏洞。
强化学习是机器学习方法的一种,该方法输入状态,输出决策动作,每一步都会从环境收到一个回报值,目的在于最大化回报值,最后根据回报值的大小来选择动作,但是在非线性问题上面的表现一直不佳,因此,难以直接应用于游戏战斗策略学习领域。
发明内容
本发明的目的在于,针对背景技术中存在的不足,提供一种基于深度Q学习网络的非玩家角色战斗策略学习方法。
为此,本发明的上述目的通过以下技术方案来实现:
一种基于深度Q学习网络的非玩家角色战斗策略学习方法,包括以下步骤:
步骤(1):确定学习型非玩家角色的输入状态集合S;学习型非玩家角色的战斗策略是指学习型非玩家角色与陪练型角色一对一战斗时,学习型非玩家角色根据环境信息做出不同的输出动作的能力;游戏中的角色可以分为两类:学习型非玩家角色(Learningnon-player character,LNPC)和陪练型角色(Sparring character,SC);学习型非玩家角色指的是基于深度Q学习网络的非玩家角色,该类型可以通过与陪练型角色的多次交互,产生不同的样本,从而不断学习新的战斗策略;陪练型角色又可以分为玩家角色(Playercharacter,PC)和固定型非玩家角色(Fixed non-player character,FNPC);玩家角色指的是由玩家操控的角色;固定型非玩家角色指的是策略固定的非玩家角色,该角色的战斗策略由人工编写的固定规则构成,而学习型非玩家角色的战斗策略是根据样本的变化而变化的;陪练型角色的血量记为HPSC;陪练型角色的所有技能冷却时间记为其中,每一项都是一个实数,并表示技能冷却时间,L为陪练型角色的技能个数;陪练型角色的控制状态信息记为控制状态包括禁锢、眩晕、减速,其中,每一项都是一个实数,并表示控制状态的剩余有效时间,M为陪练型角色的控制状态个数;学习型非玩家角色的血量记为HPLNPC;学习型非玩家角色的技能冷却时间记为其中,每一项都是一个实数,并表示技能冷却时间,K为学习型非玩家角色的技能个数;学习型非玩家角色的控制状态信息记为控制状态包括禁锢、眩晕、减速,其中,每一项都是一个实数,并表示控制状态的剩余有效时间,N为学习型非玩家角色的控制状态数量;则学习型非玩家角色的t时刻输入状态St可以表示为:
记学习型非玩家角色的输入状态集合S的元素个数为Slength;
步骤(2):确定学习型非玩家角色的输出动作集合A={a1,…,aj,…,aP},其中P为输出动作集合A所包含的输出动作个数,aj为第j个输出动作所对应的移动技能、伤害技能、控制技能中的任意一种或多种组合;记学习型非玩家角色t时刻的动作为At;
步骤(3):确定学习型非玩家角色的基于深度Q学习网络参数,记为θ,基于深度Q学习网络(deep Q-learning network,DQN)记为DQN;参数θ包括输入层节点数、隐含层节点数、输出层节点数;输出层节点数不少于输出动作个数P;输入层节点数不少于输入状态集合S的元素个数为Slength;初始化DQN的输入层权系数、隐含层权系数、输出层权系数;
步骤(4):对DQN,定义agent表示执行DQN的学习型非玩家角色;A表示agent输出动作集合,a表示动作集合中的某一动作;S表示agent输入状态集合,s表示输入状态集合中的某一状态;E表示环境,除agent外都是环境,是agent的交互对象;R表示回报,是一个实数,表示在某一状态s下执行某一动作a后agent从环境得到的反馈;γ表示折扣系数,是不大于1的正数;
定义t时刻的长期折扣回报Gt为:
定义行为策略π为:
π(a|s)=P[At=a|St=s]
并表示为在状态s下采取不同动作的概率,策略代表着agent的行为,把状态空间映射到动作空间;
定义状态价值函数vπ(s)为:
vπ(s)=Eπ[Rt+1+γRt+2+γ2Rt+3+...|St=s]
并表示为在状态s下按照行为策略π进行决策可以获得的期望长期折扣回报;
定义动作价值函数qπ(s,a)为:
qπ(s,a)=Eπ[Rt+1+γRt+2+γ2Rt+3+...|St=s,At=a]=Eπ[Gt|St=s,At=a]
并表示为在状态s时,采取动作a,之后的动作按照行为策略π进行决策可以获得的期望长期折扣回报;DQN是利用深度神经网络来近似输入状态下,执行各个动作的动作价值函数为:
qπ(s,a|θ)=qπ(s,a)
DQN的行为策略π为:
p表示概率,ε是一个不大于1的正数;DQN学习的目的是最大化零时刻的以π(a|s,θ)为行为策略的期望长期折扣回报;
步骤(5):确定DQN回报函数:
r=ΔHPSC-ΔHPLNPC
表示陪练角色在上一个动作执行期间的血量下降量与学习型非玩家角色在上一个动作执行期间的血量下降量之差;动作执行期间为行为策略一个动作的保持时间;
步骤(6):建立一个容量为N的经验池D用于存储样本,t时刻的样本记为(St,At,Rt,St+1);设定qπ(s,a|θ)的最小变化阈值ε,ε为正数;设定最大迭代次数M,M为大于1的整数;
步骤(7):观察现在的状态St,通过步骤(4)中行为策略π(a|s,θ)从输出动作集合中选择一个动作At执行,在环境中执行后得到回报值Rt和执行完动作到达的下一个状态St+1,组合成为一个步骤(6)中样本(St,At,Rt,St+1),并存入经验池D;
步骤(8):从经验池D中随机采样一批样本,根据
对每一个样本都进行DQN参数更新,其中的α是一个更新步长,θ'为θ更新后的值,为对该动作进行误差反向传播,为时间差分误差(Temporal Difference error,TD-error);
步骤(9):重复步骤(7)和步骤(8),直到qπ(s,a|θ)变化的绝对值小于最小变化阈值ε或者重复次数大于最大迭代次数M,然后进入步骤(10);
步骤(10):学习型非玩家角色的战斗策略最终由步骤(9)结束后的DQN参数θ,通过向DQN输入t时刻状态St,选取DQN输出的使得qπ(St,a|θ)最大的动作而构成。
本发明提供了一种基于深度Q学习网络的非玩家角色战斗策略学习方法,利用学习型非玩家角色的位置、技能冷却时间、控制状态以及陪练型角色的位置、技能冷却时间、控制状态作为输入状态,以学习型非玩家角色的所有技能作为输出动作集合,采用深度Q学习网络作为学习算法,以双方角色的血量差信息作为深度Q学习网络的回报,以最小化时间差分误差作为目标,进行反向传播计算,更新深度神经网络的隐含层权系数、输出层权系数。本发明提出的基于深度Q学习网络的非玩家角色战斗策略学习方法,能够自动地生成非玩家角色战斗策略,大大降低了游戏开发人员的劳动力,与此同时通过改变对手的样本,可以非常方便的得到多样化的战斗策略;当玩家发现某些固定玩法容易过关时,学习型非玩家角色的战斗策略可以快速的得到自动调整,使得游戏更加具有可玩性。
附图说明
图1为本发明的交互流程图;
图2为本发明的原理框图;
图3为本发明采用的深度神经网络结构示意图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步详细地说明。
步骤(1):确定学习型非玩家角色的输入状态集合S;学习型非玩家角色的战斗策略是指学习型非玩家角色与陪练型角色一对一战斗时,学习型非玩家角色根据环境信息做出不同的输出动作的能力;游戏中的角色可以分为两类:学习型非玩家角色(Learningnon-player character,LNPC)和陪练型角色(Sparring character,SC);学习型非玩家角色指的是基于深度Q学习网络的非玩家角色,该类型可以通过与陪练型角色的多次交互,产生不同的样本,从而不断学习新的战斗策略;陪练型角色又可以分为玩家角色(Playercharacter,PC)和固定型非玩家角色(Fixed non-player character,FNPC);玩家角色指的是由玩家操控的角色;固定型非玩家角色指的是战斗策略固定的非玩家角色,该角色的战斗策略由人工编写的固定规则构成,而学习型非玩家角色的战斗策略是根据样本的变化而变化的;陪练型角色的血量记为HPSC;陪练型角色的所有技能冷却时间记为其中,每一项都是一个实数,并表示技能冷却时间,L为陪练型角色的技能个数;陪练型角色的控制状态信息记为控制状态包括禁锢、眩晕、减速,其中,每一项都是一个实数,并表示控制状态的剩余有效时间,M为陪练型角色的控制状态个数;学习型非玩家角色的血量记为HPLNPC;学习型非玩家角色的技能冷却时间记为其中,每一项都是一个实数,并表示技能冷却时间,K为学习型非玩家角色的技能个数;学习型非玩家角色的控制状态信息记为控制状态包括禁锢、眩晕、减速,其中,每一项都是一个实数,并表示控制状态的剩余有效时间,N为学习型非玩家角色的控制状态数量;学习型非玩家角色的t时刻输入状态St可以表示为:
记学习型非玩家角色的输入状态集合S的元素个数为Slength;
步骤(2):确定学习型非玩家角色的输出动作集合A={a1,…,aj,…,aP},其中P为输出动作集合A所包含的输出动作个数,aj为第j个输出动作所对应的移动技能、伤害技能、控制技能种的任意一种或多种组合;记学习型非玩家角色t时刻的动作为At;
步骤(3):确定学习型非玩家角色的基于深度Q学习网络参数,记为θ,基于深度Q学习网络(deep Q-learning network,DQN)记为DQN;参数θ包括输入层节点数、隐含层节点数、输出层节点数;输出层节点数不少于输出动作个数P;输入层节点数不少于输入状态集合S的元素个数为Slength;初始化DQN的输入层权系数、隐含层权系数、输出层权系数;
步骤(4):对DQN,定义agent表示执行DQN的学习型非玩家角色;A表示agent输出动作集合,a表示动作集合中的某一动作;S表示agent输入状态集合,s表示输入状态集合中的某一状态;E表示环境,除agent外都是环境,是agent的交互对象;R表示回报,是一个实数,表示在某一状态s下执行某一动作a后agent从环境得到的反馈;γ表示折扣系数,是不大于1的正数;
定义t时刻的长期折扣回报Gt为:
定义行为策略π为:
π(a|s)=P[At=a|St=s]
并表示为在状态s下采取不同动作的概率,策略代表着agent的行为,把状态空间映射到动作空间;
定义状态价值函数vπ(s)为:
vπ(s)=Eπ[Rt+1+γRt+2+γ2Rt+3+...|St=s]
并表示为在状态s下按照行为策略π进行决策可以获得的期望长期折扣回报;
定义动作价值函数qπ(s,a)为:
qπ(s,a)=Eπ[Rt+1+γRt+2+γ2Rt+3+...|St=s,At=a]=Eπ[Gt|St=s,At=a]
并表示为在状态s时,采取动作a,之后的动作按照行为策略π进行决策可以获得的期望长期折扣回报;DQN是利用深度神经网络来近似输入状态下,执行各个动作的动作价值函数为:
qπ(s,a|θ)=qπ(s,a)
DQN的行为策略π为:
p表示概率,ε是一个不大于1的正数;DQN学习的目的是最大化零时刻的以π(a|s,θ)为行为策略的期望长期折扣回报;
步骤(5):确定DQN回报函数:
r=ΔHPSC-ΔHPLNPC
表示陪练角色在上一个动作执行期间的血量下降量与学习型非玩家角色在上一个动作执行期间的血量下降量之差;动作执行期间为行为策略一个动作的保持时间;
步骤(6):建立一个容量为N的经验池D用于存储样本,t时刻的样本记为(St,At,Rt,St+1);设定qπ(s,a|θ)的最小变化阈值ε,ε为正数;设定最大迭代次数M,M为大于1的整数;
步骤(7):如图1所示,观察现在的状态St,通过步骤(4)中行为策略π(a|s,θ)从输出动作集合中选择一个动作At执行,在环境中执行后得到回报值Rt和执行完动作到达的下一个状态St+1,组合成为一个步骤(6)中样本(St,At,Rt,St+1),并存入经验池D;
步骤(8):如图2所示,从经验池D中随机采样一批样本,根据
对每一个样本都进行DQN参数更新,其中的α是一个更新步长,θ'为θ更新后的值,为对该动作进行误差反向传播,反向传播过程如图3,为时间差分误差;
步骤(9):重复步骤(7)和步骤(8),直到qπ(s,a|θ)变化的绝对值小于最小变化阈值ε或者重复次数大于最大迭代次数M,然后进入步骤(10);
步骤(10):学习型非玩家角色的战斗策略最终由步骤(9)结束后的DQN参数θ,通过向DQN输入t时刻状态St,选取DQN输出的使得qπ(St,a|θ)最大的动作而构成。
上述具体实施方式用来解释说明本发明,仅为本发明的优选实施例,而不是对本发明进行限制,在本发明的精神和权利要求的保护范围内,对本发明作出的任何修改、等同替换、改进等,都落入本发明的保护范围。
Claims (1)
1.一种基于深度Q学习网络的非玩家角色战斗策略学习方法,其特征在于,包括以下步骤:
步骤(1):确定学习型非玩家角色的输入状态集合S;学习型非玩家角色的战斗策略是指学习型非玩家角色与陪练型角色一对一战斗时,学习型非玩家角色根据环境信息做出不同的输出动作的能力;游戏中的角色可以分为两类:学习型非玩家角色和陪练型角色;学习型非玩家角色指的是基于深度Q学习网络的非玩家角色,该类型可以通过与陪练型角色的多次交互,产生不同的样本,从而不断学习新的战斗策略;陪练型角色又可以分为玩家角色和固定型非玩家角色;玩家角色指的是由玩家操控的角色;固定型非玩家角色指的是战斗策略固定的非玩家角色,该角色的战斗策略由人工编写的固定规则构成,而学习型非玩家角色的战斗策略是根据样本的变化而变化的;陪练型角色的血量记为HPSC;陪练型角色的所有技能冷却时间记为其中,每一项都是一个实数,并表示技能冷却时间,L为陪练型角色的技能个数;陪练型角色的控制状态信息记为控制状态包括禁锢、眩晕、减速,其中,每一项都是一个实数,并表示控制状态的剩余有效时间,M为陪练型角色的控制状态个数;学习型非玩家角色的血量记为HPLNPC;学习型非玩家角色的技能冷却时间记为其中,每一项都是一个实数,并表示技能冷却时间,K为学习型非玩家角色的技能个数;学习型非玩家角色的控制状态信息记为控制状态包括禁锢、眩晕、减速,其中,每一项都是一个实数,并表示控制状态的剩余有效时间,N为学习型非玩家角色的控制状态数量;则学习型非玩家角色的t时刻输入状态St可以表示为:
记学习型非玩家角色的输入状态集合S的元素个数为Slength;
步骤(2):确定学习型非玩家角色的输出动作集合A={a1,…,aj,…,aP},其中P为输出动作集合A所包含的输出动作个数,aj为第j个输出动作所对应的移动技能、伤害技能、控制技能中的任意一种或多种组合;记学习型非玩家角色t时刻的动作为At;
步骤(3):确定学习型非玩家角色的基于深度Q学习网络参数,记为θ,基于深度Q学习网络记为DQN;参数θ包括输入层节点数、隐含层节点数、输出层节点数;输出层节点数不少于输出动作个数P;输入层节点数不少于输入状态集合S的元素个数Slength;初始化DQN的输入层权系数、隐含层权系数、输出层权系数;
步骤(4):对DQN,定义agent表示执行DQN的学习型非玩家角色;A表示agent输出动作集合,a表示动作集合中的某一动作;S表示agent输入状态集合,s表示输入状态集合中的某一状态;E表示环境,除agent外都是环境,是agent的交互对象;R表示回报,是一个实数,表示在某一状态s下执行某一动作a后agent从环境得到的反馈;γ表示折扣系数,是不大于1的正数;
定义t时刻的长期折扣回报Gt为:
定义行为策略π为:
π(a|s)=P[At=a|St=s]
并表示为在状态s下采取不同动作的概率,策略代表着agent的行为,把状态空间映射到动作空间;
定义状态价值函数vπ(s)为:
vπ(s)=Eπ[Rt+1+γRt+2+γ2Rt+3+...|St=s]
并表示为在状态s下按照行为策略π进行决策可以获得的期望长期折扣回报;
定义动作价值函数qπ(s,a)为:
qπ(s,a)=Eπ[Rt+1+γRt+2+γ2Rt+3+...|St=s,At=a]=Eπ[Gt|St=s,At=a]
并表示为在状态s时,采取动作a,之后的动作按照行为策略π进行决策可以获得的期望长期折扣回报;DQN是利用深度神经网络来近似输入状态下,执行各个动作的动作价值函数为:
qπ(s,a|θ)=qπ(s,a)
DQN的行为策略π为:
p表示概率,ε是一个不大于1的正数;DQN学习的目的是最大化零时刻的以π(a|s,θ)为行为策略的期望长期折扣回报;
步骤(5):确定DQN回报函数:
r=ΔHPSC-ΔHPLNPC
表示陪练角色在上一个动作执行期间的血量下降量与学习型非玩家角色在上一个动作执行期间的血量下降量之差;动作执行期间为行为策略一个动作的保持时间;
步骤(6):建立一个容量为N的经验池D用于存储样本,t时刻的样本记为(St,At,Rt,St+1);设定qπ(s,a|θ)的最小变化阈值ε,ε为正数;设定最大迭代次数M,M为大于1的整数;
步骤(7):观察现在的状态St,通过步骤(4)中行为策略π(a|s,θ)从输出动作集合中选择一个动作At执行,在环境中执行后得到回报值Rt和执行完动作到达的下一个状态St+1,组合成为一个步骤(6)中样本(St,At,Rt,St+1),并存入经验池D;
步骤(8):从经验池D中随机采样一批样本,根据
对每一个样本都进行DQN参数更新,其中的α是一个更新步长,θ'为θ更新后的值,为对该动作进行误差反向传播,为时间差分误差;
步骤(9):重复步骤(7)和步骤(8),直到qπ(s,a|θ)变化的绝对值小于最小变化阈值ε或者重复次数大于最大迭代次数M,然后进入步骤(10);
步骤(10):学习型非玩家角色的战斗策略最终由步骤(9)结束后的DQN参数θ,通过向DQN输入t时刻状态St,选取DQN输出的使得qπ(St,a|θ)最大的动作而构成。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711434812.7A CN108211362B (zh) | 2017-12-26 | 2017-12-26 | 一种基于深度q学习网络的非玩家角色战斗策略学习方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711434812.7A CN108211362B (zh) | 2017-12-26 | 2017-12-26 | 一种基于深度q学习网络的非玩家角色战斗策略学习方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108211362A true CN108211362A (zh) | 2018-06-29 |
CN108211362B CN108211362B (zh) | 2020-10-09 |
Family
ID=62648996
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711434812.7A Active CN108211362B (zh) | 2017-12-26 | 2017-12-26 | 一种基于深度q学习网络的非玩家角色战斗策略学习方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108211362B (zh) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109200583A (zh) * | 2018-08-02 | 2019-01-15 | 苏州蜗牛数字科技股份有限公司 | 控制游戏npc行为的方法、系统及存储介质 |
CN109284812A (zh) * | 2018-09-19 | 2019-01-29 | 哈尔滨理工大学 | 一种基于改进dqn的视频游戏模拟方法 |
CN109529352A (zh) * | 2018-11-27 | 2019-03-29 | 腾讯科技(深圳)有限公司 | 虚拟环境中调度策略的评估方法、装置及设备 |
CN109663359A (zh) * | 2018-12-06 | 2019-04-23 | 广州多益网络股份有限公司 | 游戏智能体训练的优化方法、装置、终端设备与存储介质 |
CN109731333A (zh) * | 2018-12-29 | 2019-05-10 | 腾讯科技(深圳)有限公司 | 虚拟环境的应用方法、设备及存储介质 |
CN110141867A (zh) * | 2019-04-23 | 2019-08-20 | 广州多益网络股份有限公司 | 一种游戏智能体训练方法及装置 |
CN110581808A (zh) * | 2019-08-22 | 2019-12-17 | 武汉大学 | 一种基于深度强化学习的拥塞控制方法及系统 |
CN111111200A (zh) * | 2019-12-23 | 2020-05-08 | 北京像素软件科技股份有限公司 | 战斗策略生成方法及装置 |
CN111260027A (zh) * | 2020-01-10 | 2020-06-09 | 电子科技大学 | 一种基于强化学习的智能体自动决策方法 |
CN111330279A (zh) * | 2020-02-24 | 2020-06-26 | 网易(杭州)网络有限公司 | 一种游戏ai的策略决策模型训练方法和装置 |
CN111514585A (zh) * | 2020-03-17 | 2020-08-11 | 清华大学 | 智能体的控制方法及系统、计算机装置以及存储介质 |
TWI761772B (zh) * | 2019-03-07 | 2022-04-21 | 美商索尼互動娛樂有限責任公司 | 視訊遊戲指導系統 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102930338A (zh) * | 2012-11-13 | 2013-02-13 | 沈阳信达信息科技有限公司 | 基于神经网络的游戏Npc行为 |
JP2013084175A (ja) * | 2011-10-12 | 2013-05-09 | Sony Corp | 情報処理装置、情報処理方法、及びプログラム |
CN105637540A (zh) * | 2013-10-08 | 2016-06-01 | 谷歌公司 | 用于强化学习的方法和设备 |
CN106422332A (zh) * | 2016-09-08 | 2017-02-22 | 腾讯科技(深圳)有限公司 | 应用于游戏的人工智能操作方法和装置 |
CN107038477A (zh) * | 2016-08-10 | 2017-08-11 | 哈尔滨工业大学深圳研究生院 | 一种非完备信息下的神经网络与q学习结合的估值方法 |
-
2017
- 2017-12-26 CN CN201711434812.7A patent/CN108211362B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013084175A (ja) * | 2011-10-12 | 2013-05-09 | Sony Corp | 情報処理装置、情報処理方法、及びプログラム |
CN102930338A (zh) * | 2012-11-13 | 2013-02-13 | 沈阳信达信息科技有限公司 | 基于神经网络的游戏Npc行为 |
CN105637540A (zh) * | 2013-10-08 | 2016-06-01 | 谷歌公司 | 用于强化学习的方法和设备 |
CN107038477A (zh) * | 2016-08-10 | 2017-08-11 | 哈尔滨工业大学深圳研究生院 | 一种非完备信息下的神经网络与q学习结合的估值方法 |
CN106422332A (zh) * | 2016-09-08 | 2017-02-22 | 腾讯科技(深圳)有限公司 | 应用于游戏的人工智能操作方法和装置 |
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109200583A (zh) * | 2018-08-02 | 2019-01-15 | 苏州蜗牛数字科技股份有限公司 | 控制游戏npc行为的方法、系统及存储介质 |
CN109284812B (zh) * | 2018-09-19 | 2021-11-30 | 哈尔滨理工大学 | 一种基于改进dqn的视频游戏模拟方法 |
CN109284812A (zh) * | 2018-09-19 | 2019-01-29 | 哈尔滨理工大学 | 一种基于改进dqn的视频游戏模拟方法 |
CN109529352A (zh) * | 2018-11-27 | 2019-03-29 | 腾讯科技(深圳)有限公司 | 虚拟环境中调度策略的评估方法、装置及设备 |
CN109663359A (zh) * | 2018-12-06 | 2019-04-23 | 广州多益网络股份有限公司 | 游戏智能体训练的优化方法、装置、终端设备与存储介质 |
CN109663359B (zh) * | 2018-12-06 | 2022-03-25 | 广州多益网络股份有限公司 | 游戏智能体训练的优化方法、装置、终端设备与存储介质 |
CN109731333A (zh) * | 2018-12-29 | 2019-05-10 | 腾讯科技(深圳)有限公司 | 虚拟环境的应用方法、设备及存储介质 |
TWI761772B (zh) * | 2019-03-07 | 2022-04-21 | 美商索尼互動娛樂有限責任公司 | 視訊遊戲指導系統 |
US11325044B2 (en) | 2019-03-07 | 2022-05-10 | Sony Interactive Entertainment LLC | Video game guidance system |
CN110141867A (zh) * | 2019-04-23 | 2019-08-20 | 广州多益网络股份有限公司 | 一种游戏智能体训练方法及装置 |
CN110581808B (zh) * | 2019-08-22 | 2021-06-15 | 武汉大学 | 一种基于深度强化学习的拥塞控制方法及系统 |
CN110581808A (zh) * | 2019-08-22 | 2019-12-17 | 武汉大学 | 一种基于深度强化学习的拥塞控制方法及系统 |
CN111111200A (zh) * | 2019-12-23 | 2020-05-08 | 北京像素软件科技股份有限公司 | 战斗策略生成方法及装置 |
CN111111200B (zh) * | 2019-12-23 | 2023-11-14 | 北京像素软件科技股份有限公司 | 战斗策略生成方法及装置 |
CN111260027A (zh) * | 2020-01-10 | 2020-06-09 | 电子科技大学 | 一种基于强化学习的智能体自动决策方法 |
CN111260027B (zh) * | 2020-01-10 | 2022-07-26 | 电子科技大学 | 一种基于强化学习的智能体自动决策方法 |
CN111330279A (zh) * | 2020-02-24 | 2020-06-26 | 网易(杭州)网络有限公司 | 一种游戏ai的策略决策模型训练方法和装置 |
CN111330279B (zh) * | 2020-02-24 | 2023-04-07 | 网易(杭州)网络有限公司 | 一种游戏ai的策略决策模型训练方法和装置 |
CN111514585A (zh) * | 2020-03-17 | 2020-08-11 | 清华大学 | 智能体的控制方法及系统、计算机装置以及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN108211362B (zh) | 2020-10-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108211362A (zh) | 一种基于深度q学习网络的非玩家角色战斗策略学习方法 | |
Hausknecht et al. | A neuroevolution approach to general atari game playing | |
Stanley et al. | Real-time neuroevolution in the NERO video game | |
Preuss et al. | Towards intelligent team composition and maneuvering in real-time strategy games | |
Justesen et al. | Playing multiaction adversarial games: Online evolutionary planning versus tree search | |
Patel et al. | Tuning computer gaming agents using q-learning | |
Togelius et al. | The search-based approach | |
Knegt et al. | Opponent modelling in the game of Tron using reinforcement learning | |
Liu et al. | Evolving effective microbehaviors in real-time strategy games | |
Nam et al. | Generation of diverse stages in turn-based role-playing game using reinforcement learning | |
Zhen et al. | Neuroevolution for micromanagement in the real-time strategy game StarCraft: Brood War | |
Louis et al. | Multi-objective evolution for 3d rts micro | |
Adhikari et al. | Co-evolving real-time strategy game micro | |
Kayakoku et al. | A Novel Behavioral Strategy for RoboCode Platform Based on Deep Q‐Learning | |
Fathi et al. | Evaluation of using neural networks on variety of agents and playability of games | |
Louis et al. | Real-time strategy game micro for tactical training simulations | |
Baby et al. | Implementing artificial intelligence agent within connect 4 using unity3d and machine learning concepts | |
DeWitt et al. | Evolving micro for 3d real-time strategy games | |
Patel et al. | Improving behavior of computer game bots using fictitious play | |
Wang et al. | Dynamic difficulty adjustment by fuzzy rules using in a neural network controlled game | |
Khan et al. | Using VizDoom Research Platform Scenarios for Benchmarking Reinforcement Learning Algorithms in First-Person Shooter Games | |
Skjærseth et al. | Evolutionary algorithms for generating interesting fighting game character mechanics | |
Charity et al. | Amorphous Fortress: Observing Emergent Behavior in Multi-Agent FSMs | |
Chen et al. | Research on turn-based war chess game based on reinforcement learning | |
Liu et al. | Increasing physics realism when evolving micro behaviors for 3D RTS games |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |