CN110327624B - 一种基于课程强化学习的游戏跟随方法和系统 - Google Patents
一种基于课程强化学习的游戏跟随方法和系统 Download PDFInfo
- Publication number
- CN110327624B CN110327624B CN201910596192.XA CN201910596192A CN110327624B CN 110327624 B CN110327624 B CN 110327624B CN 201910596192 A CN201910596192 A CN 201910596192A CN 110327624 B CN110327624 B CN 110327624B
- Authority
- CN
- China
- Prior art keywords
- strategy
- game
- training
- reinforcement learning
- point
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- A—HUMAN NECESSITIES
- A63—SPORTS; GAMES; AMUSEMENTS
- A63F—CARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
- A63F13/00—Video games, i.e. games using an electronically generated display having two or more dimensions
- A63F13/55—Controlling game characters or game objects based on the game progress
- A63F13/56—Computing the motion of game characters with respect to other game characters, game objects or elements of the game scene, e.g. for simulating the behaviour of a group of virtual soldiers or for path finding
-
- A—HUMAN NECESSITIES
- A63—SPORTS; GAMES; AMUSEMENTS
- A63F—CARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
- A63F2300/00—Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game
- A63F2300/60—Methods for processing data by generating or executing the game program
- A63F2300/64—Methods for processing data by generating or executing the game program for computing dynamical parameters of game objects, e.g. motion determination or computation of frictional forces for a virtual car
- A63F2300/646—Methods for processing data by generating or executing the game program for computing dynamical parameters of game objects, e.g. motion determination or computation of frictional forces for a virtual car for calculating the trajectory of an object
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Human Computer Interaction (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明公开了一种基于课程强化学习的游戏跟随方法和系统,包括:获取游戏接口,建立训练环境并定义课程导航任务;采用策略梯度的强化学习算法训练策略;将地图上所有可到达的点分别作为起点和目标点对策略进行测试。本发明通过对课程导航任务的训练,建立一种根据环境状态直接给出动作指令的跟随策略,解决了现有技术中跟随灵活性差,对复杂地形适应性差的问题。
Description
技术领域
本发明涉及人工智能领域,特别是指一种基于课程强化学习的游戏跟随方法和系统。
背景技术
寻路跟随一直在各种游戏中有着十分广泛的应用,比如在MMRPG中宠物跟随玩家移动,队员跟随队长移动,怪物追踪玩家进行攻击。
传统技术中的跟随实现方案一般有以下几种:
一、复制轨迹。即按照跟随对象的移动序列或动作序列重复执行。这种方式实现简单,但是AI表现过于呆板。并且在存在陷阱等移动障碍时,与被跟随对象的跳跃等移动能力不一致时可能会出现无法通过的情况。
二、重新规划路径,再根据路径控制角色移动。该方法需要根据游戏场景和角色的行动能力对地图各处的转移概率进行建模,因此对于复杂地形需要大量工程确定各处的可通过性,且该方法无法处理变化地形(如可动陷阱等)。
发明内容
本发明提出一种基于课程强化学习的游戏跟随方法和系统,解决了现有技术中跟随灵活性差,对复杂地形适应性差的问题。
本发明的技术方案是这样实现的:
一种基于课程强化学习的游戏跟随方法,包括以下步骤:
S1,获取游戏接口,建立训练环境并定义课程导航任务;
S2,采用策略梯度的强化学习算法训练策略;
S3,将地图上所有可到达的点分别作为起点和目标点对策略进行测试。
作为本发明的一个优选实施例,所述步骤S1具体包括以下步骤:
S11,在训练端与游戏客户端间建立通讯,训练端通过通讯接口获取游戏内容并控制角色动作;
S12,在获取的游戏信息基础上建立环境,所述环境用于提供游戏内容的抽象,为算法提供状态和奖励并执行算法得到的动作,所述状态包括游戏角色的位置,周围状况和跟随目标的位置,所述奖励为算法训练提供反馈;
S13,定义课程导航任务,在环境中按照一定难度等级从低到高随机生成目标位置,直至到达数量上限,而角色需要地图上的某点出发采取适当行动依次到达指定的目标点,每次到达可获得相应奖励。
作为本发明的一个优选实施例,所述导航任务的定义包含以下步骤:
S131)在地图上求得所有的可到达点,构成可到达点集合;
S132)将可到达点的难度划分为多个级别;
S133)每个回合从第1级难度的点开始随机取点作为目标点,角色每到达一个点则在下一个难度生成新的随机点,并给与1点奖励;
S134)当到达最后一个难度的终点或到达时间限制结束一个训练回合。
作为本发明的一个优选实施例,当每回合的平均奖励到达一定阈值时,将目标点的难度由递进改为随机选择。
作为本发明的一个优选实施例,所述步骤S2中强化学习算法需要学习的部分包括:策略网络πθ和价值估计网络策略网络输入当前状态预测需要角色需要执行的动作,价值估计网络输入当前状态预测价值的期望,所述价值的期望是指对未来获得奖励之和的预期。
作为本发明的一个优选实施例,训练策略包含以下步骤:
S22,从缓存中获取序列数据,计算策略梯度,以及价值loss的梯度,
S23,对策略和价值估计网络的参数进行更新,并清除缓存,
S24,重复以上步骤直至收敛,即每个回合的平均奖励达到目标数量上限。
作为本发明的一个优选实施例,所述策略和价值估计网络为共享特征表示层的深度神经网络,输入包括周围环境情况和坐标,特征表示层包括处理角色周围状态表示的三层卷积层和一个处理坐标的全连接层;第一卷积层的卷积核尺寸为8x8,通道数为16,步长为4,第二卷积层的卷积核尺寸为4x4,通道数为32,步长为2,第三卷积层的卷积核尺寸为3x3,通道数为32,步长为1;第一全连接层通道数为128,第二全连接层通道数为256,策略网络的策略全连接层通道数为256,价值估计网络的价值估计全连接层通道数为256。
作为本发明的一个优选实施例,步骤S3中生成可到达点包括以下步骤:
S31,根据地图元素的属性求出所有可站立点集合以及可通过点集合;
S32,对站立点集合向上方膨胀固定距离得到膨胀点集合;
S33,将膨胀点集合与可通过点集合取交集再减去可站立集合得到可到达点集合;
S34,从可到达点集合任意取出一点即为可到达点。
一种基于课程强化学习的游戏跟随系统,基于所述方法实现,其特征在于,包括
建立单元,用于获取游戏接口,建立训练环境;
定义单元,用于定义课程导航任务;
策略单元,用于采用策略梯度的强化学习算法训练策略;
测试单元,用于将地图上所有可到达的点分别作为起点和目标点对策略进行测试。
本发明的有益效果在于:通过对课程导航任务的训练,建立一种根据环境状态直接给出动作指令的跟随策略,解决了现有技术中跟随灵活性差,对复杂地形适应性差的问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一种基于课程强化学习的游戏跟随方法一个实施例的流程图;
图2为训练端智能体与环境交互的示意图;
图3为策略网络与环境交互过程的示意图;
图4为策略及价值估计网络结构示意图;
图5为本发明一种基于课程强化学习的游戏跟随系统一个实施例的原理框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明提出了一种基于课程强化学习的游戏跟随方法,包括以下步骤:
S1,获取游戏接口,建立训练环境并定义课程导航任务;
所述步骤S1具体包括以下步骤:
S11,采用socket在训练端与游戏客户端间建立通讯,训练端通过该通讯接口获取游戏内容并控制角色动作;图2是训练端智能体与环境交互的示意图。
S12,在获取的游戏信息基础上建立环境,所述环境用于提供游戏内容的抽象,为算法提供状态和奖励并执行算法得到的动作,所述状态包括游戏角色的位置,周围状况(包括周围的陷阱状态等)和跟随目标的位置,所述奖励为算法训练提供反馈;
S13,定义课程导航任务,在环境中按照一定难度等级从低到高随机生成目标位置,直至到达数量上限,而角色需要地图上的某点出发采取适当行动依次到达指定的目标点,每次到达可获得相应奖励。
所述导航任务的定义包含以下步骤:
S131)在地图上求得所有的可到达点,构成可到达点集合;
S132)将可到达点的难度划分为多个级别;
S133)每个回合从第1级难度的点开始随机取点作为目标点,角色每到达一个点则在下一个难度生成新的随机点,并给与1点奖励;
S134)当到达最后一个难度的终点或到达时间限制结束一个训练回合。
为了增强策略的鲁棒性,当每回合的平均奖励到达一定阈值时,将目标点的难度由递进改为随机选择。
S2,采用策略梯度的强化学习算法训练策略;
所述步骤S2中强化学习算法需要学习的部分包括:策略网络πθ和价值估计网络策略网络输入当前状态预测需要角色需要执行的动作,价值估计网络输入当前状态预测价值的期望,所述价值的期望是指对未来获得奖励之和的预期。
作为本发明的一个优选实施例,训练策略包含以下步骤:
S22,从缓存中获取序列数据,计算策略梯度,以及价值loss的梯度,
策略梯度的计算公式如下:
S23,对策略和价值估计网络的参数进行更新,并清除缓存,
策略网络参数的更新公式如下:
价值估计网络参数的更新公式如下:
S24,重复以上步骤直至收敛,即每个回合的平均奖励达到目标数量上限。所述平均奖励的计算方法为取最近100回合的奖励结果求平均值。
所述策略和价值估计网络为共享特征表示层的深度神经网络,输入包括周围环境情况和坐标,如图4所示。特征表示层包括处理角色周围状态表示的三层卷积层和一个处理坐标的全连接层;第一卷积层的卷积核尺寸为8x8,通道数为16,步长为4,第二卷积层的卷积核尺寸为4x4,通道数为32,步长为2,第三卷积层的卷积核尺寸为3x3,通道数为32,步长为1;第一全连接层通道数为128,第二全连接层通道数为256,策略网络的策略全连接层通道数为256,价值估计网络的价值估计全连接层通道数为256。
S3,将地图上所有可到达的点分别作为起点和目标点对策略进行测试。
步骤S3中生成可到达点包括以下步骤:
S31,根据地图元素的属性求出所有可站立点集合以及可通过点集合;
S32,对站立点集合向上方膨胀固定距离得到膨胀点集合;
S33,将膨胀点集合与可通过点集合取交集再减去可站立集合得到可到达点集合;
S34,从可到达点集合任意取出一点即为可到达点。
如图5所示,本发明还提出了一种基于课程强化学习的游戏跟随系统,基于所述方法实现,其特征在于,包括
建立单元,用于获取游戏接口,建立训练环境;
定义单元,用于定义课程导航任务;
策略单元,用于采用策略梯度的强化学习算法训练策略;
测试单元,用于将地图上所有可到达的点分别作为起点和目标点对策略进行测试。
随着深度学习技术的爆发,基于深度学习的强化学习(Reinforcement Learning)技术也得到了飞速发展。深度强化学习技术可以利用程序的自我探索以及对人类行为的模仿,自发地产生对环境的响应行为,避免了人工设计规则的问题。课程强化学习(Curriculum Reinforcement Learning),通过在强化学习中通过定义由易到难的多阶段任务,来实现泛化能力的提高和收敛速度的加快。
本发明通过对课程导航任务的训练,建立一种根据环境状态直接给出动作指令的跟随策略,解决了现有技术中跟随灵活性差,对复杂地形适应性差的问题。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (7)
2.根据权利要求1所述的基于课程强化学习的游戏跟随方法,其特征在于,所述步骤S1具体包括以下步骤:
S11,在训练端与游戏客户端间建立通讯,训练端通过通讯接口获取游戏内容并控制角色动作;
S12,在获取的游戏信息基础上建立环境,所述环境用于提供游戏内容的抽象,为算法提供状态和奖励并执行算法得到的动作,所述状态包括游戏角色的位置,周围状况和跟随目标的位置,所述奖励为算法训练提供反馈;
S13,定义课程导航任务,在环境中按照一定难度等级从低到高随机生成目标位置,直至到达数量上限,而角色需要地图上的某点出发采取适当行动依次到达指定的目标点,每次到达可获得相应奖励。
3.根据权利要求1或2所述的基于课程强化学习的游戏跟随方法,其特征在于,所述导航任务的定义包含以下步骤:
S131)在地图上求得所有的可到达点,构成可到达点集合;
S132)将可到达点的难度划分为多个级别;
S133)每个回合从第1级难度的点开始随机取点作为目标点,角色每到达一个点则在下一个难度生成新的随机点,并给与1点奖励;
S134)当到达最后一个难度的终点或到达时间限制结束一个训练回合。
4.根据权利要求3所述的基于课程强化学习的游戏跟随方法,其特征在于,当每回合的平均奖励到达一定阈值时,将目标点的难度由递进改为随机选择。
6.根据权利要求1所述的基于课程强化学习的游戏跟随方法,其特征在于,所述策略和价值估计网络为共享特征表示层的深度神经网络,输入包括周围环境情况和坐标,特征表示层包括处理角色周围状态表示的三层卷积层和一个处理坐标的全连接层;第一卷积层的卷积核尺寸为8x8,通道数为16,步长为4,第二卷积层的卷积核尺寸为4x4,通道数为32,步长为2,第三卷积层的卷积核尺寸为3x3,通道数为32,步长为1;第一全连接层通道数为128,第二全连接层通道数为256,策略网络的策略全连接层通道数为256,价值估计网络的价值估计全连接层通道数为256。
7.一种基于课程强化学习的游戏跟随系统,基于权利要求1所述方法实现,其特征在于,包括
建立单元,用于获取游戏接口,建立训练环境;
定义单元,用于定义课程导航任务;
策略单元,用于采用策略梯度的强化学习算法训练策略;
测试单元,用于将地图上所有可到达的点分别作为起点和目标点对策略进行测试;
其中,所述策略单元,具体用于:
从缓存中获取序列数据,计算策略梯度,以及价值loss的梯度,
对策略和价值估计网络的参数进行更新,并清除缓存,
重复以上步骤直至收敛,即每个回合的平均奖励达到目标数量上限。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910596192.XA CN110327624B (zh) | 2019-07-03 | 2019-07-03 | 一种基于课程强化学习的游戏跟随方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910596192.XA CN110327624B (zh) | 2019-07-03 | 2019-07-03 | 一种基于课程强化学习的游戏跟随方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110327624A CN110327624A (zh) | 2019-10-15 |
CN110327624B true CN110327624B (zh) | 2023-03-17 |
Family
ID=68144172
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910596192.XA Active CN110327624B (zh) | 2019-07-03 | 2019-07-03 | 一种基于课程强化学习的游戏跟随方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110327624B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112712161B (zh) * | 2019-10-25 | 2023-02-24 | 上海哔哩哔哩科技有限公司 | 数据生成方法及系统 |
CN111026272B (zh) * | 2019-12-09 | 2023-10-31 | 网易(杭州)网络有限公司 | 虚拟对象行为策略的训练方法及装置、电子设备、存储介质 |
WO2020143848A2 (en) * | 2020-04-02 | 2020-07-16 | Alipay (Hangzhou) Information Technology Co., Ltd. | Determining action selection policies of an execution device |
CN112169310B (zh) * | 2020-10-13 | 2024-06-11 | 网易(杭州)网络有限公司 | 一种游戏资源加载方法、装置、计算机设备和存储介质 |
CN112717415B (zh) * | 2021-01-22 | 2022-08-16 | 上海交通大学 | 一种基于信息瓶颈理论的强化学习对战游戏ai训练方法 |
CN115454096A (zh) * | 2022-10-09 | 2022-12-09 | 哈尔滨工业大学 | 一种基于课程强化学习的机器人策略训练系统及训练方法 |
CN115659054B (zh) * | 2022-12-14 | 2023-06-06 | 优友互动(北京)科技有限公司 | 基于强化学习的游戏关卡推荐方法和装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109858630A (zh) * | 2019-02-01 | 2019-06-07 | 清华大学 | 用于强化学习的方法和设备 |
CN109847366A (zh) * | 2019-01-29 | 2019-06-07 | 腾讯科技(深圳)有限公司 | 用于游戏的数据处理方法和装置 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4804226B2 (ja) * | 2006-05-26 | 2011-11-02 | 日本電信電話株式会社 | シューティングゲーム処理方法、その装置、そのプログラム及びその記録媒体 |
JP5879899B2 (ja) * | 2011-10-12 | 2016-03-08 | ソニー株式会社 | 情報処理装置、情報処理方法、及びプログラム |
CN106964156B (zh) * | 2017-03-24 | 2020-10-27 | 腾讯科技(深圳)有限公司 | 一种寻路方法以及装置 |
WO2019075632A1 (zh) * | 2017-10-17 | 2019-04-25 | 腾讯科技(深圳)有限公司 | 一种ai对象行为模型优化方法以及装置 |
CN108579087B (zh) * | 2018-04-10 | 2019-07-19 | 网易(杭州)网络有限公司 | 一种游戏角色的控制方法及装置 |
-
2019
- 2019-07-03 CN CN201910596192.XA patent/CN110327624B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109847366A (zh) * | 2019-01-29 | 2019-06-07 | 腾讯科技(深圳)有限公司 | 用于游戏的数据处理方法和装置 |
CN109858630A (zh) * | 2019-02-01 | 2019-06-07 | 清华大学 | 用于强化学习的方法和设备 |
Also Published As
Publication number | Publication date |
---|---|
CN110327624A (zh) | 2019-10-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110327624B (zh) | 一种基于课程强化学习的游戏跟随方法和系统 | |
US11580378B2 (en) | Reinforcement learning for concurrent actions | |
Rashid et al. | Monotonic value function factorisation for deep multi-agent reinforcement learning | |
KR102523888B1 (ko) | 가상 환경에서 가상 객체를 스케줄링하기 위한 방법, 장치 및 디바이스 | |
CN111026272B (zh) | 虚拟对象行为策略的训练方法及装置、电子设备、存储介质 | |
US20220176248A1 (en) | Information processing method and apparatus, computer readable storage medium, and electronic device | |
CN112884131A (zh) | 一种基于模仿学习的深度强化学习策略优化防御方法和装置 | |
Nardelli et al. | Value propagation networks | |
CN111105034A (zh) | 基于反事实回报的多智能体深度强化学习方法、系统 | |
CN115300910B (zh) | 基于多智能体强化学习的去混淆游戏策略模型生成方法 | |
CN113919482A (zh) | 智能体训练方法、装置、计算机设备和存储介质 | |
CN114307160A (zh) | 训练智能体的方法 | |
KR20200121616A (ko) | 게임 환경 변경 방법 | |
CN112613608A (zh) | 一种强化学习方法及相关装置 | |
Subramanian et al. | Multi-agent advisor Q-learning | |
Zhu et al. | A q-values sharing framework for multi-agent reinforcement learning under budget constraint | |
Watanuki et al. | Vision-based behavior acquisition by deep reinforcement learning in multi-robot environment | |
Kemtur et al. | Leveraging Machine Learning to Automatically Derive Robust Planning Strategies from Biased Models of the Environment. | |
Sestini et al. | Efficient Inverse Reinforcement Learning in Procedurally Generated Environments | |
CN114344889B (zh) | 游戏策略模型生成方法和游戏中智能体的控制方法 | |
CN115019185A (zh) | 类脑连续学习协同围捕方法、系统及介质 | |
CN114611664A (zh) | 一种多智能体学习方法、装置及设备 | |
KR20230079804A (ko) | 상태 전이를 선형화하는 강화 학습에 기반한 전자 장치 및 그 방법 | |
Ueda et al. | Particle filter on episode for learning decision making rule | |
Sarratt et al. | Tuning belief revision for coordination with inconsistent teammates |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |