CN115659054B - 基于强化学习的游戏关卡推荐方法和装置 - Google Patents

基于强化学习的游戏关卡推荐方法和装置 Download PDF

Info

Publication number
CN115659054B
CN115659054B CN202211599647.1A CN202211599647A CN115659054B CN 115659054 B CN115659054 B CN 115659054B CN 202211599647 A CN202211599647 A CN 202211599647A CN 115659054 B CN115659054 B CN 115659054B
Authority
CN
China
Prior art keywords
game
player
neural network
parameter
level
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211599647.1A
Other languages
English (en)
Other versions
CN115659054A (zh
Inventor
朱舟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Youyou Interactive Beijing Technology Co ltd
Original Assignee
Youyou Interactive Beijing Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Youyou Interactive Beijing Technology Co ltd filed Critical Youyou Interactive Beijing Technology Co ltd
Priority to CN202211599647.1A priority Critical patent/CN115659054B/zh
Publication of CN115659054A publication Critical patent/CN115659054A/zh
Application granted granted Critical
Publication of CN115659054B publication Critical patent/CN115659054B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请实施例提供一种基于强化学习的游戏关卡推荐装置及方法,所述装置包括:状态输入部,其收集玩家的游戏相关数据;第一神经网络,其根据所述状态输入部收集的游戏相关数据,为所述玩家推荐难度匹配的游戏关卡;第二神经网络,其根据所述状态输入部收集的游戏相关数据和所述第一神经网络所推荐的游戏关卡生成评价信息;以及参数更新部,其根据所述评价信息更新所述第一神经网络的第一参数和所述第二神经网络的第二参数。通过本申请实施例,自适应地为玩家推荐难度适宜的游戏关卡。

Description

基于强化学习的游戏关卡推荐方法和装置
技术领域
本申请涉及机器学习技术领域,特别涉及基于强化学习的游戏关卡推荐方法和装置。
背景技术
在策略型游戏中,例如棋牌类游戏中,由于玩家个人的游戏技能或玩家的实时状态存在差异,如何让玩家的个人技能与游戏的难度相适应,是影响玩家游戏体验的重要因素。
在现有的游戏设计中,往往都是从设计师和策划者的视角出发,难以满足玩家的个性化需求,例如对于游戏技能不同的玩家或者同一玩家的实时游戏状态的差异,现有的游戏设计难以精确提供难度匹配的游戏关卡,影响玩家的游戏体验。
应该注意,上面对技术背景的介绍只是为了方便对本申请的技术方案进行清楚、完整的说明,并方便本领域技术人员的理解而阐述的。不能仅仅因为这些方案在本申请的背景技术部分进行了阐述而认为上述技术方案为本领域技术人员所公知。
发明内容
考虑游戏的OCR(object,challenge,reward)设计逻辑。在游戏的体验中,目标明确,任务挑战和玩家技能水平平衡,才能获得愉悦的游戏体验。
发明人发现,基于个性化的数据支撑,通过数据迭代,能够充分匹配玩家的技能和关卡难度,让玩家既能体会到游戏的竞技难度,也能获得游戏通关的喜悦,从而是的玩家能够获得沉浸的游戏体验。
本申请实施例提供一种基于强化学习的游戏关卡推荐方法和装置,自适应地为玩家推送难度适宜的游戏关卡。
根据本申请第一方面的实施例,提供了一种基于强化学习的游戏关卡推荐装置,所述装置包括:
状态输入部,其收集玩家的游戏相关数据;
第一神经网络,其根据所述状态输入部收集的游戏相关数据,为所述玩家推荐难度匹配的游戏关卡;
第二神经网络,其根据所述状态输入部收集的游戏相关数据和所述第一神经网络所推荐的游戏关卡生成评价信息;以及
参数更新部,其根据所述评价信息更新所述第一神经网络的第一参数和所述第二神经网络的第二参数。
在一个或多个实施例中,所述状态输入部收集所述玩家的实时游戏数据和历史游戏数据作为所述游戏相关数据,所述实时游戏数据包括所述玩家在所述第一神经网络所推荐的游戏关卡的游戏数据。
在一个或多个实施例中,所述评价信息表示玩家的技能水平与关卡的最优技能解法的匹配程度。
在一个或多个实施例中,
所述评价信息由如下公式(1)生成:
Figure 884459DEST_PATH_IMAGE001
所述r为所述评价信息,所述
Figure 880097DEST_PATH_IMAGE002
是玩家在所述第一神经网络所推荐的游戏关卡的 通关时间与最优解法的时间差,sp是玩家通关过程中每次操作的时间间隔,ttotal是玩家本 次游戏时间。
在一个或多个实施例中,
所述第一参数为θ,所述第二参数为ω,通过如下公式更新所述第一参数和所述第二参数:
Figure 830867DEST_PATH_IMAGE003
Figure 620968DEST_PATH_IMAGE004
其中,
Figure 172035DEST_PATH_IMAGE005
Figure 456517DEST_PATH_IMAGE006
t表示离散时间,αθ和αω是学习率也就是更新步长,s表示状态,a表示动作,δ表示 奖励r的变化,μθ表示确定性策略,θ是需要学习的策略网络的参数即第一神经网络的第一 参数,
Figure 776640DEST_PATH_IMAGE007
表示的是求导操作,γ表示折扣因子,用于给不同的时间的奖励r不同的衰减,ω 是评价网络即第二神经网络的参数。
在一个或多个实施例中,
所述状态输入部将所述玩家的游戏相关数据映射为玩家状态空间集合中的一个状态,
所述第一神经网络根据所述状态为所述玩家推荐难度匹配的游戏关卡。
在一个或多个实施例中,
所述装置包括关卡数据库,所述关卡数据库存储多个随机序列的种子以及对应的关卡的难度,任意一个种子对应的随机序列表示对应关卡的信息,所述难度为关卡最优解需要的步数与对应关卡的玩家历史游戏数据记录的比值,
所述第一神经网络从所述关卡数据库提取与推荐给玩家的游戏关卡的难度对应的种子。
本申请第二方面的实施例提供一种基于强化学习的游戏关卡推荐方法,所述方法包括:
收集玩家的游戏相关数据;
利用第一神经网络根据收集的游戏相关数据为所述玩家推荐难度匹配的游戏关卡;
利用第二神经网络根据收集的游戏相关数据和所推荐的游戏关卡生成评价信息;以及
根据所述评价信息更新所述第一神经网络的第一参数和所述第二神经网络的第二参数。
在一个或多个实施例中,
所述利用第二神经网络根据收集的游戏相关数据和所推荐的游戏关卡生成评价信息包括:第二神经网络根据收集的所述玩家的实时游戏数据、历史游戏数据和所推荐的游戏关卡生成评价信息,所述实时游戏数据包括所述玩家在所述第一神经网络所推荐的游戏关卡的游戏数据。
根据本申请其它方面的实施例,提供一种计算机设备,包括存储器、处理器及存储在存储器上并能够在处理器上运行的计算机程序,其中,所述处理器执行所述计算机程序时实现本申请第二方面实施例所述的评估方法。
根据本申请其它方面的实施例,提供一种计算机可读的存储介质,其上存储有计算机程序,其中,所述计算机程序被处理器执行时实现本申请第二方面实施例所述的评估方法。
本申请实施例的有益效果之一在于:
第一神经网络根据玩家的游戏相关数据为玩家推荐难度匹配的游戏关卡;第二神经网络根据玩家的游戏相关数据和第一神经网络所推荐的游戏关卡生成评价信息;参数更新部根据评价信息更新第一神经网络的第一参数和第二神经网络的第二参数。由此,采用自适应的深度强化学习,根据玩家的技能水平和游戏状态,动态实时调整和匹配游戏难度,让玩家的技能水平和游戏关卡的难度充分匹配,使玩家获得满意的游戏过关体验。
参照后文的说明和附图,详细公开了本申请的特定实施方式,指明了本申请的原理可以被采用的方式。应该理解,本申请的实施方式在范围上并不因而受到限制。在所附权利要求的精神和条款的范围内,本申请的实施方式包括许多改变、修改和等同。
针对一种实施方式描述以及示出的特征信息可以以相同或类似的方式在一个或更多个其它实施方式中使用,与其它实施方式中的特征信息相组合,或替代其它实施方式中的特征信息。
应该强调,术语“包括/包含”在本文使用时指特征信息、整件、步骤或组件的存在,但并不排除一个或更多个其它特征信息、整件、步骤或组件的存在或附加。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是强化学习模型的一个示意图;
图2是本申请实施例的基于强化学习的游戏关卡推荐装置的一个示意图;
图3示出了以Actor-Critic框架表示的强化学习模型的一个示意图;
图4示出了确定性策略梯度网络结构的一个示意图;
图5是本申请实施例的基于强化学习的游戏关卡推荐方法的一个示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
强化学习(Reinforcement Learning, RL),又称再励学习、评价学习或增强学习,是机器学习的范式和方法论之一,用于描述和解决智能体(agent)在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。
强化学习的常见模型是标准的马尔可夫决策过程(Markov Decision Process,MDP)。按给定条件,强化学习可分为基于模式的强化学习(model-based RL)和无模式强化学习(model-free RL),以及主动强化学习(active RL)和被动强化学习(passive RL)。强化学习的变体包括逆向强化学习、阶层强化学习和部分可观测系统的强化学习。求解强化学习问题所使用的算法可分为策略搜索算法和值函数(value function)算法两类。深度学习模型可以在强化学习中得到使用,形成深度强化学习。
强化学习理论受到行为主义心理学启发,侧重在线学习并试图在探索-利用(exploration-exploitation)间保持平衡。不同于监督学习和非监督学习,强化学习不要求预先给定任何数据,而是通过接收环境对动作的奖励(反馈)获得学习信息并更新模型参数。
图1是强化学习模型的一个示意图。
如图1所示,强化学习模块可包括环境(Environment)和智能体(Agent),强化学习把学习看作试探评价过程,Agent选择一个动作A作用于环境,环境接受该动作A后状态发生变化,同时产生一个强化信号(奖或惩)R反馈给Agent,Agent根据强化信号和环境当前状态再选择下一个动作,选择的原则是使受到正强化(奖)的概率增大。选择的动作不仅影响立即强化值,而且影响环境下一时刻的状态及最终的强化值。如果Agent的某个行为策略导致环境正的奖赏(强化信号),那么Agent以后产生这个行为策略的趋势便会加强。Agent的目标是在每个离散状态发现最优策略以使期望的折扣奖赏和最大。
发明人发现,在一些游戏中,例如棋牌类游戏中,在给玩家推荐适宜难度的游戏关卡或牌局的服务中,可以将玩家建模为强化学习中的环境,将自适应难度调整服务建模为智能体,自适应服务与玩家的交互可以建模为马尔可夫决策过程(MDP),由此,通过采用强化学习的方法自适应的推送适宜难度的牌局给玩家。
实施例1
本申请实施例提供了一种基于强化学习的游戏关卡推荐装置。图2是本申请实施例的基于强化学习的游戏关卡推荐装置的一个示意图,如图2所示,该装置包括:状态输入部101、第一神经网络102、第二神经网络103和参数更新部104。
在本申请实施例中,状态输入部101收集玩家的游戏相关数据;第一神经网络102根据状态输入部101收集的游戏相关数据,为玩家推荐难度匹配的游戏关卡;第二神经网络103根据状态输入部101收集的游戏相关数据和第一神经网络102所推荐的游戏关卡生成评价信息;参数更新部104根据评价信息更新第一神经网络102的第一参数和所述第二神经网络103的第二参数。
由上述实施例可知,第一神经网络根据玩家的游戏相关数据为玩家推荐难度匹配的游戏关卡;第二神经网络根据玩家的游戏相关数据和第一神经网络所推荐的游戏关卡生成评价信息;参数更新部根据评价信息更新第一神经网络的第一参数和第二神经网络的第二参数。由此,采用自适应的深度强化学习,根据玩家的技能水平和游戏状态,动态实时调整和匹配游戏难度,让玩家的技能水平和游戏关卡的难度充分匹配,使玩家获得满意的游戏过关体验。
在一个或多个实施例中,状态输入部收集玩家的实时游戏数据和历史游戏数据作为游戏相关数据,实时游戏数据包括玩家在第一神经网络所推荐的游戏关卡的游戏数据。
也就是说,状态输入部收集玩家的历史游戏数据,例如状态输入部从服务器的数据库中提取玩家的历史游戏数据,玩家的历史游戏数据可以刻画玩家的游戏技能水平,另外,状态输入部收集玩家的实时游戏数据,该实时游戏数据除了能体现玩家的游戏技能水平,还能刻画玩家的实时游戏状态,反映了玩家的情绪,第一神经网络根据状态收集部所收集的玩家的游戏相关数据,能够为玩家推荐难度匹配的游戏关卡,例如,第一神经网络根据玩家的历史游戏数据和时刻t的游戏数据为玩家推荐游戏关卡at,当玩家在体验所推荐的游戏关卡at时,状态输入部收集玩家在关卡at的游戏数据,在玩家结束关卡at的时刻,称为t+1时刻,所收集的玩家在关卡at的游戏数据可以用于第一神经网络为玩家推荐相应的游戏关卡at+1,另外,所收集的关卡at的游戏数据还可以看成是玩家对于t时刻所推荐的关卡at的反馈或奖励,例如惩罚可以看作负奖励,所收集的关卡at的游戏数据可以用于第二神经网络生成评价信息,并通过参数更新部对第一神经网络的参数和第二神经网络的参数进行实时的调整,从而能够实现自适应的深度强化学习,根据玩家的技能水平和游戏状态,动态实时调整和匹配游戏难度,让玩家的技能水平和游戏关卡的难度充分匹配,使玩家获得满意的游戏过关体验。
在本申请实施例中,对于所收集的游戏相关数据可以进行预处理,例如,对于玩家实时游戏数据可以进行卷积、池化等处理、对于玩家历史游戏数据可以进行dense处理,对于玩家游戏序列可进行embeding处理,基于预处理后的数据可以作为玩家的游戏状态信息生成玩家状态s。
在一个或多个实施例中,状态输入部将玩家的游戏相关数据映射为玩家状态空间集合中的一个状态,第一神经网络根据状态为玩家推荐难度匹配的游戏关卡。
在本申请实施例中,State来自Agent对Environment的观察。为了获取玩家游戏行为的刻画,状态输入部可以把用户实时行为序列的Item Embedding作为输入,使用一维CNN学习用户实时意图的表达,用户实时行为可包括但不限于关卡通关时间,关卡操作序列时间间隔分布,通关总操作步数,连续关卡数,本次登录游戏总时间。
在一个或多个实施例中,评价信息表示玩家的技能水平与关卡的最优技能解法的匹配程度。例如,当评价信息为正面评价时,表示第一神经网络在t时刻为玩家推荐的游戏关卡at匹配玩家的技能水平和游戏状态,称为玩家状态st,有利于提升玩家的体验,由此,基于该评价信息对第一神经网络的参数进行更新,从而在后续的推荐中,可以提高在玩家状态st推荐游戏关卡at的概率,提升强化学习模型的精确度,另外,该评价信息也可以用于对第二神经网络的参数进行更新,例如,通过参数调整,可以调整评价信息随时间的衰减系数。
在一个或多个实施例中,
评价信息由如下公式(1)生成:
Figure 3222DEST_PATH_IMAGE008
公式(1)
其中,r为评价信息,
Figure 526738DEST_PATH_IMAGE002
是玩家在第一神经网络所推荐的游戏关卡的通关时间与最 优解法的时间差,sp是玩家通关过程中每次操作的时间间隔,ttotal是玩家本次游戏时间。由 此,能够准确刻画玩家在游戏关卡at的游戏表现。
但本申请不限于此,评价信息的生成公式还可以为其它形式,例如,评价信息可体现玩家的通关情况和最优解发的偏离情况,以及玩家通关解法和该关卡的整体统计解法的偏差,另外,玩家持续游戏时间也可以用于刻画评价信息,只要能够恰当地表现玩家的游戏技能水平和游戏状态即可。
在一个或多个实施例中,第一参数为θ,第二参数为ω,通过如下公式更新第一参数和第二参数:
Figure 864179DEST_PATH_IMAGE009
Figure 38808DEST_PATH_IMAGE010
其中,
Figure 921445DEST_PATH_IMAGE011
Figure 181525DEST_PATH_IMAGE012
其中,t表示离散时间,αθ和αω是学习率也就是更新步长,s表示状态,a表示动作,δ 表示奖励r的变化,μθ表示确定性策略,θ是需要学习的策略网络的参数即第一神经网络的 第一参数,
Figure 57077DEST_PATH_IMAGE013
表示的是求导操作,γ表示折扣因子,用于给不同的时间的奖励r不同的衰减, ω是评价网络即第二神经网络的参数。
在本申请实施例中,αθ和αω分别表示θ和ω的更新步长,两者的取值可以是独立的,或者也可以是相关联的,本申请对此不作限制。可以参考下文介绍的梯度下降方法中的梯度更新策略。
在本申请实施例中,δt表示的是奖励函数r的变化,也就是说,奖励函数可以随着时间推移而变化,但本申请不限于此,奖励函数r也可以是固定不变的。
在本申请实施例中,函数Q是所有的奖励rewards之和,也就是critic的目标输出,最终需要实现Q最大化。
由此,能够实时地调整强化学习模型中的参数,提高强化学习模型的能力。
以下对于自适应地为玩家推荐难度适宜的游戏关卡的强度学习中模型的参数更新的求解方法进行示例性说明。
例如,用τ表示一组状态-行为序列
Figure 102524DEST_PATH_IMAGE014
, 符号
Figure 405330DEST_PATH_IMAGE015
表示这个状态-动作行为轨迹τ的回报,
Figure 152706DEST_PATH_IMAGE016
表示轨迹τ出现的概率;则目标函数可表示 为:
Figure 582681DEST_PATH_IMAGE017
也就是说,目标函数表示智能体和环境的表示交互过程的轨迹τ所收到的奖励的 期望,或者称为一次交互过程的轨迹的平均回报,则本系统的目标就是找到最优参数θ使 得:
Figure 731903DEST_PATH_IMAGE018
对目标函数
Figure 221921DEST_PATH_IMAGE019
进行求导:
Figure 722173DEST_PATH_IMAGE020
Figure 939527DEST_PATH_IMAGE021
Figure 959567DEST_PATH_IMAGE022
Figure 604175DEST_PATH_IMAGE023
Figure 76876DEST_PATH_IMAGE024
利用经验平均估计该梯度:
Figure 97921DEST_PATH_IMAGE025
在一个或多个实施例中,可以采用Actor-Critic框架,图3示出了以Actor-Critic 框架表示的强化学习模型,轨迹回报
Figure 221735DEST_PATH_IMAGE026
可以看作是一个评价器(Critic),也就是说策略 的参数调整幅度由轨迹回报
Figure 787977DEST_PATH_IMAGE027
进行评价。策略梯度可以进一步变成如下的形式:
Figure 262821DEST_PATH_IMAGE028
上面公式中
Figure 821978DEST_PATH_IMAGE029
为Actor,
Figure 551031DEST_PATH_IMAGE030
为Critic,Actor为策略函数,可以用神经 网络进行表示拟合,对应第一神经网络,称为策略网络,包括参数θ。Critic为评价函数,也 可称为评价网络,可以用神经网络进行表示拟合,对应第二神经网络,常用ω来表示参数。 关于策略网络和评价网络Critic,可参见相关技术,在此省略说明。
在本申请实施例中,可采用DDPG算法求解该AC优化问题,DDPG采用随机行为策略,确定性评价策略。随机行为策略可以探索和产生多样的行为数据,确定性策略利用这些数据进行策略的改善。
确定性策略梯度的计算公式为:
Figure 803020DEST_PATH_IMAGE031
对于确定性策略评价网络,Critic输入是行为值函数和状态state,输出是值函数Q。图4示出了确定性策略梯度网络结构的一个示意图。
其中,Q(s,a)如下所示:
Figure 250313DEST_PATH_IMAGE032
也就是说,自适应难度调整服务的优化目标是使Agent在玩家关卡的自动调整中, 使全局玩家的体验(收益)
Figure 613162DEST_PATH_IMAGE033
最大化。
则策略梯度的更新公式可以为:
Figure 180409DEST_PATH_IMAGE034
Figure 342314DEST_PATH_IMAGE035
Figure 526171DEST_PATH_IMAGE036
在本申请实施例中,通过上述示例,可以实现对于神经网络参数θ和ω的更新。
在一个或多个实施例中,基于强化学习的游戏关卡推荐装置包括关卡数据库,关卡数据库存储多个随机序列的种子以及对应的关卡的难度,任意一个种子对应的随机序列表示对应关卡的信息,难度可以为关卡最优解需要的步数与对应关卡的玩家历史游戏数据记录的比值,第一神经网络从关卡数据库提取与推荐给玩家的游戏关卡的难度对应的种子。
例如,对于牌局游戏,在采用Fisher-Yates洗牌算法时,不同seed的随机数对应的不同的随机序列结果,由于采用的洗牌算法固定,记录当前随机数生成器的seed,采用相同的seed则可以生成完全一样的随机序列,由此可以通过对应的seed来标定唯一的关卡牌局;第一神经网络可以从关卡数据库中选取恰当的seed为玩家生成合适难度的卡牌游戏牌局。
在本申请实施例中,Agent可以采用List-Wise粒度对不同的关卡进行调整,基于全局玩家体验,对当前玩家的关卡进行调整。
在本申请实施例中,Agent的Action是从Mysql存储的seed中挑选出合适的关卡难度并推荐给玩家,也就是通过DDPG算法求解出来的最优action,由于该action的空间较大,无法满足实时推荐的需求,所以可以先将action的探索空间进行约束,将seed的探索空间约束在一定范围的seed中。
在一个或多个实施例中,可以依据每个关卡的最优解法步骤以及历史玩家游戏步骤的均值对seed进行排序,步数越多的seed对应的关卡难度越大。由此,通过seed的排序Rank即可快速查找合适难度的游戏管卡。
在一个或多个实施例中,seed的排序Rank可以通过如下公式生成:
Figure 427130DEST_PATH_IMAGE037
α、β是权重系数,Ts是最优解法的步骤,Te是该关卡所有玩家解法的均值。
但本申请不限于此,还可以采用其他公式计算Rank。
在本申请实施例中,可以采用数据库mysql来记录某seed下关卡的玩家游戏结果,同时这些游戏结果的汇总数据可以记录在mongodb中,agent(第一神经网络)可实时拉取数据进行关卡推荐。
根据本申请实施例,第一神经网络根据玩家的游戏相关数据为玩家推荐难度匹配的游戏关卡;第二神经网络根据玩家的游戏相关数据和第一神经网络所推荐的游戏关卡生成评价信息;参数更新部根据评价信息更新第一神经网络的第一参数和第二神经网络的第二参数。由此,采用自适应的深度强化学习,根据玩家的技能水平和游戏状态,动态实时调整和匹配游戏难度,让玩家的技能水平和游戏关卡的难度充分匹配,使玩家获得满意的游戏过关体验。
实施例2
本申请实施例还提供了一种基于强化学习的游戏关卡推荐方法,该基于强化学习的游戏关卡推荐方法对应于实施例1的基于强化学习的游戏关卡推荐装置,因此该方法的实施可以参见实施例1的基于强化学习的游戏关卡推荐装置的实施,重复之处不再赘述。
图5是本申请实施例的基于强化学习的游戏关卡推荐方法的一个示意图。
如图5所示,基于强化学习的游戏关卡推荐方法500包括:
步骤502,收集玩家的游戏相关数据;
步骤504,利用第一神经网络根据收集的游戏相关数据为所述玩家推荐难度匹配的游戏关卡;
步骤506,利用第二神经网络根据收集的游戏相关数据和所推荐的游戏关卡生成评价信息;以及
步骤508,根据所述评价信息更新所述第一神经网络的第一参数和所述第二神经网络的第二参数。
在一个或多个实施例中,步骤506包括:第二神经网络根据收集的玩家的实时游戏数据、历史游戏数据和所推荐的游戏关卡生成评价信息,实时游戏数据包括玩家在第一神经网络所推荐的游戏关卡的游戏数据。
本申请实施例还提供一种计算机设备,包括存储器、处理器及存储在存储器上并能够在处理器上运行的计算机程序,其中,处理器执行计算机程序时实现基于强化学习的游戏关卡推荐方法。
本申请实施例也提供一种计算机可读存储介质,其上存储有计算机程序,其中,计算机程序被处理器执行时实现基于强化学习的游戏关卡推荐方法。
虽然本申请提供了如实施例或流程图所述的方法操作步骤,但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的装置或客户端产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。
本领域技术人员应明白,本说明书的实施例可提供为方法、装置(系统)或计算机程序产品。因此,本说明书实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、装置(系统)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。术语“上”、“下”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本申请和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本申请的限制。除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本申请中的具体含义。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。本申请并不局限于任何单一的方面,也不局限于任何单一的实施例,也不局限于这些方面和/或实施例的任意组合和/或置换。而且,可以单独使用本申请的每个方面和/或实施例或者与一个或更多其他方面和/或其实施例结合使用。
最后应说明的是:以上各实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述各实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围,其均应涵盖在本申请的权利要求和说明书的范围当中。

Claims (8)

1.一种基于强化学习的游戏关卡推荐装置,其特征在于,所述装置包括:
状态输入部,其收集玩家的游戏相关数据;
第一神经网络,其根据所述状态输入部收集的游戏相关数据,为所述玩家推荐难度匹配的游戏关卡;
第二神经网络,其根据所述状态输入部收集的游戏相关数据和所述第一神经网络所推荐的游戏关卡生成评价信息,所述评价信息表示玩家的技能水平与关卡的最优技能解法的匹配程度;以及
参数更新部,其根据所述评价信息更新所述第一神经网络的第一参数和所述第二神经网络的第二参数,
所述第一参数为θ,所述第二参数为ω,通过如下公式更新所述第一参数和所述第二参数:
Figure QLYQS_1
Figure QLYQS_2
其中,
Figure QLYQS_3
Figure QLYQS_4
t表示离散时间,αθ和αω是学习率也就是更新步长,s表示状态,a表示动作,δ表示奖励r的变化,μθ表示确定性策略,θ是需要学习的策略网络的参数即第一神经网络的第一参数,
Figure QLYQS_5
表示的是求导操作,γ表示折扣因子,用于给不同的时间的奖励r不同的衰减,ω是评价网络即第二神经网络的参数,所述Q表示所有奖励之和。
2.根据权利要求1所述的装置,其特征在于,
所述状态输入部收集所述玩家的实时游戏数据和历史游戏数据作为所述游戏相关数据,所述实时游戏数据包括所述玩家在所述第一神经网络所推荐的游戏关卡的游戏数据。
3.根据权利要求1或2所述的装置,其特征在于,
所述状态输入部将所述玩家的游戏相关数据映射为玩家状态空间集合中的一个状态,
所述第一神经网络根据所述状态为所述玩家推荐难度匹配的游戏关卡。
4.根据权利要求1或2所述的装置,其特征在于,
所述装置包括关卡数据库,所述关卡数据库存储多个随机序列的种子以及对应的关卡的难度,任意一个种子对应的随机序列表示对应关卡的信息,所述难度为关卡最优解需要的步数与对应关卡的玩家历史游戏数据记录的比值,
所述第一神经网络从所述关卡数据库提取与推荐给玩家的游戏关卡的难度对应的种子。
5.一种基于强化学习的游戏关卡推荐方法,其特征在于,所述方法包括:
收集玩家的游戏相关数据;
利用第一神经网络根据收集的游戏相关数据为所述玩家推荐难度匹配的游戏关卡;
利用第二神经网络根据收集的游戏相关数据和所推荐的游戏关卡生成评价信息,所述评价信息表示玩家的技能水平与关卡的最优技能解法的匹配程度;以及
根据所述评价信息更新所述第一神经网络的第一参数和所述第二神经网络的第二参数,
所述第一参数为θ,所述第二参数为ω,通过如下公式更新所述第一参数和所述第二参数:
Figure QLYQS_6
Figure QLYQS_7
其中,
Figure QLYQS_8
Figure QLYQS_9
t表示离散时间,αθ和αω是学习率也就是更新步长,s表示状态,a表示动作,δ表示奖励r的变化,μθ表示确定性策略,θ是需要学习的策略网络的参数即第一神经网络的第一参数,
Figure QLYQS_10
表示的是求导操作,γ表示折扣因子,用于给不同的时间的奖励r不同的衰减,ω是评价网络即第二神经网络的参数,所述Q表示所有奖励之和。
6.根据权利要求5所述的方法,其特征在于,
所述利用第二神经网络根据收集的游戏相关数据和所推荐的游戏关卡生成评价信息包括:第二神经网络根据收集的所述玩家的实时游戏数据、历史游戏数据和所推荐的游戏关卡生成评价信息,所述实时游戏数据包括所述玩家在所述第一神经网络所推荐的游戏关卡的游戏数据。
7.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求5或6所述方法。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求5或6所述方法。
CN202211599647.1A 2022-12-14 2022-12-14 基于强化学习的游戏关卡推荐方法和装置 Active CN115659054B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211599647.1A CN115659054B (zh) 2022-12-14 2022-12-14 基于强化学习的游戏关卡推荐方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211599647.1A CN115659054B (zh) 2022-12-14 2022-12-14 基于强化学习的游戏关卡推荐方法和装置

Publications (2)

Publication Number Publication Date
CN115659054A CN115659054A (zh) 2023-01-31
CN115659054B true CN115659054B (zh) 2023-06-06

Family

ID=85022325

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211599647.1A Active CN115659054B (zh) 2022-12-14 2022-12-14 基于强化学习的游戏关卡推荐方法和装置

Country Status (1)

Country Link
CN (1) CN115659054B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117078476B (zh) * 2023-10-18 2024-03-01 国网江苏省电力有限公司 一种施工安全数字化培训方法、装置、平台及设备

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114949861A (zh) * 2018-11-05 2022-08-30 索尼互动娱乐有限责任公司 使用云游戏网络的人工智能(ai)模型训练

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106779072A (zh) * 2016-12-23 2017-05-31 深圳市唯特视科技有限公司 一种基于自举dqn的增强学习深度搜索方法
CN108629422B (zh) * 2018-05-10 2022-02-08 浙江大学 一种基于知识指导-战术感知的智能体学习方法
CN110327624B (zh) * 2019-07-03 2023-03-17 广州多益网络股份有限公司 一种基于课程强化学习的游戏跟随方法和系统
US11154773B2 (en) * 2019-10-31 2021-10-26 Nvidia Corpration Game event recognition
CN111265880B (zh) * 2020-02-25 2021-07-16 北京字节跳动网络技术有限公司 一种游戏调整方法、装置、电子设备和存储介质

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114949861A (zh) * 2018-11-05 2022-08-30 索尼互动娱乐有限责任公司 使用云游戏网络的人工智能(ai)模型训练

Also Published As

Publication number Publication date
CN115659054A (zh) 2023-01-31

Similar Documents

Publication Publication Date Title
Zhang et al. A structural analysis of the role of superstars in crowdsourcing contests
Gonzalez et al. Instance-based learning: integrating sampling and repeated decisions from experience.
Piotte et al. The pragmatic theory solution to the netflix grand prize
KR102203253B1 (ko) 생성적 적대 신경망에 기반한 평점 증강 및 아이템 추천 방법 및 시스템
CA3131688A1 (en) Process and system including an optimization engine with evolutionary surrogate-assisted prescriptions
Mallard Modelling cognitively bounded rationality: An evaluative taxonomy
CN115659054B (zh) 基于强化学习的游戏关卡推荐方法和装置
Xu et al. Entrepreneurial learning and disincentives in crowdfunding markets
WO2019240047A1 (ja) 行動学習装置、行動学習方法、行動学習システム、プログラム、及び記録媒体
Dass et al. A novel Lyapunov-stability-based recurrent-fuzzy system for the Identification and adaptive control of nonlinear systems
Hoecherl et al. Approximate dynamic programming algorithms for United States air force officer sustainment
Sihananto et al. Reinforcement Learning for Automatic Cryptocurrency Trading
Stanescu Rating systems with multiple factors
Borghetti et al. Weighted Prediction Divergence for Metareasoning.
Brown et al. g-RIPS Sendai 2023
Ano et al. Inference of a Firm's Learning Process from Product Launches
CN113144605B (zh) 一种用户行为模拟方法、装置、电子设备及存储介质
Sun et al. An adaptive negotiation dialogue agent with efficient detection and optimal response
Uc-Cetina A novel reinforcement learning architecture for continuous state and action spaces
KR102029426B1 (ko) 게임 품질 관리 시스템
Belavkin Conflict resolution by random estimated costs
Krauth The Dynamics of Recommender Systems
Abyaneh Efficient and Robust Methods for Computing Trust in Multi-Agent Systems
JP6821611B2 (ja) 推定装置、その方法、及びプログラム
Wang et al. Only-one-victor pattern learning in computer go

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant