CN112121439A - 一种基于强化学习的云游戏引擎智能优化方法及装置 - Google Patents

一种基于强化学习的云游戏引擎智能优化方法及装置 Download PDF

Info

Publication number
CN112121439A
CN112121439A CN202010851780.6A CN202010851780A CN112121439A CN 112121439 A CN112121439 A CN 112121439A CN 202010851780 A CN202010851780 A CN 202010851780A CN 112121439 A CN112121439 A CN 112121439A
Authority
CN
China
Prior art keywords
cloud game
engine
game engine
cloud
reinforcement learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010851780.6A
Other languages
English (en)
Other versions
CN112121439B (zh
Inventor
林瑞杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN202010851780.6A priority Critical patent/CN112121439B/zh
Publication of CN112121439A publication Critical patent/CN112121439A/zh
Application granted granted Critical
Publication of CN112121439B publication Critical patent/CN112121439B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/60Generating or modifying game content before or while executing the game program, e.g. authoring tools specially adapted for game development or game-integrated level editor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F2300/00Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game
    • A63F2300/60Methods for processing data by generating or executing the game program
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于强化学习的云游戏引擎智能优化方法及装置,属于云游戏技术领域。所述方法包括:获取云游戏用户的历史数据;从所述历史数据中提取特征并融合抽象成数学表示;基于所述数学表示,用马尔科夫决策过程描述所述云游戏引擎和所述云游戏用户之间的交互,构建强化学习模型并进行模型评估和优化;基于所述强化学习模型的最优策略对所述云游戏引擎进行智能优化。采用本发明,可以提升云游戏引擎的智能化程度,解决游戏内容推送不精准的问题。

Description

一种基于强化学习的云游戏引擎智能优化方法及装置
技术领域
本发明涉及云游戏技术领域,特别涉及一种基于强化学习的云游戏引擎智能优化方法及装置。
背景技术
得益于云计算技术的飞速发展,在云计算强大图形处理和数据运算能力的支持下,云游戏作为一种新兴游戏形态,通过云端完成游戏运行与画面渲染,降低了对游戏终端设备运算能力的要求,使一些性能相对有限的游戏终端设备也可以体验高品质的游戏。目前,传统游戏引擎主要依靠游戏玩家的搜索和下载记录来判断玩家的兴趣爱好,并据此进行游戏内容投放,效果不佳,投资回报率低。随着云游戏产业规模的扩大,对游戏发行商来说,提升云游戏引擎的智能化,将游戏用户最感兴趣的内容更精准地推送到各个游戏终端,以增强游戏用户与游戏的粘性,节省云游戏引擎开销,是一项迫切需要解决的问题,直接影响经济效益。
强化学习是机器学习范式的一种,用于描述和解决智能体在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题,是最接近于自然界动物学习本质的一种学习范式。将强化学习应用于云游戏引擎智能的优化上,云游戏引擎以“试错”的方式进行学习,不预先给定任何指导数据,通过接收云游戏用户对动作的反馈获得学习信息并不断更新模型参数,可以很好地提升云游戏引擎的智能化程度,解决游戏内容推送不精准的问题。
发明内容
本发明实施例提供了一种基于强化学习的云游戏引擎智能优化方法及装置,可以很好地提升云游戏引擎的智能化程度,解决游戏内容推送不精准的问题。所述技术方案如下:
一方面,提供了一种基于强化学习的云游戏引擎智能优化方法,该方法应用于电子设备,该方法包括:
获取云游戏用户的历史数据;
从所述历史数据中提取特征并融合抽象成数学表示;
基于所述数学表示,用马尔科夫决策过程描述所述云游戏引擎和所述云游戏用户之间的交互,构建强化学习模型并进行模型评估和优化;
基于所述强化学习模型的最优策略对所述云游戏引擎进行智能优化。
可选地,所述云游戏用户的历史数据包括静态数据和动态数据,其中所述静态数据包括所述云游戏用户的基本信息、游戏角色信息、游戏段位信息、游戏中的消费信息;所述动态数据包括所述云游戏用户对游戏画面的实际点击次数、成为游戏有效用户的成功次数。
可选地,所述从历史数据中提取特征值并融合抽象成数学表示,包括:
以向量(u,q)i表示所述历史数据,其中u表示所述静态数据,q表示所述动态数据,对于每个所述云游戏用户,所述云游戏引擎实时感知并计算所述向量(u,q)i,且将其作为排序因子,输入到一个最终排序的总序列中。
可选地,所述用马尔科夫决策过程描述所述云游戏引擎和所述云游戏用户之间的交互,构建强化学习模型并进行模型评估和优化,包括:
将所述云游戏引擎推送游戏画面的过程描述成所述云游戏引擎和所述云游戏用户交互的马尔科夫决策过程,以所述云游戏引擎作为智能体,所述云游戏用户的历史数据作为状态,推送策略作为动作,所述云游戏用户的反馈作为奖赏;
所述强化学习模型由状态、动作、奖赏三部分组成,所述状态表达式为:
s=(u,q,a1,a2,...,an,T)
其中,u表示静态数据,q表示动态数据,ai表示动作,T表示当前决策的总步骤;
对于每个状态,动作ai∈{skip,eval},其中,skip代表特征xi被保留作为排序特征,反之,skip表示xi不被保留作为排序特征;
所述奖赏的损失函数表示为:
Figure BDA0002644967940000021
其中,l(b(θ))是
Figure BDA0002644967940000031
的参数化函数,θ是可选择特征子集,
Figure BDA0002644967940000032
表示该特征序列的期望,qi表示当前特征信息,
Figure BDA0002644967940000033
表示共享网络参数,b函数的表达式为:
Figure BDA0002644967940000034
则奖赏可表示为:
Figure BDA0002644967940000035
其中,Q表示引擎序列特征总数,
Figure BDA0002644967940000036
表示策略网络全局参数θ的更新值,
Figure BDA0002644967940000037
是L1范数,μ表示正则参数,损失函数Jl,θ(·)可以进一步表达为:
Figure BDA0002644967940000038
其中,pθ(τ)是轨迹τ出现的概率,
Figure BDA0002644967940000039
是引擎性能开销函数。
可选地,所述奖赏的损失函数用演员-评论家算法进行优化,设定策略网络为演员,利用参数化的网络评估状态sk的值函数,其评判网络的目标函数表达式为:
Figure BDA00026449679400000310
其中,目标值由参数化的不同时刻状态值函数的平方差来表示,V(·)表示评判网络值函数,rk+1表示惩罚项,γ表示折扣因子,θc表示评判网络的全局参数,通过评判网络得到的值函数引导全局参数不断更新,最终收敛得到最优的全局参数θc。。
一方面,提供了一种基于强化学习的云游戏引擎智能优化装置,该装置应用于电子设备,包括:
用户数据获取单元,用于获取云游戏用户的历史数据;
特征提取和融合单元,用于从所述历史数据中提取特征并融合抽象成数学表示;
建模及模型评估优化单元,用于基于所述数学表示,使用马尔科夫决策过程描述所述云游戏引擎和所述云游戏用户之间的交互,构建强化学习模型并进行模型评估和优化;
引擎优化单元,用于基于所述强化学习模型的最优策略对所述云游戏引擎进行智能优化。
可选地,所述云游戏用户的历史数据包括静态数据和动态数据,其中所述静态数据包括所述云游戏用户的基本信息、游戏角色信息、游戏段位信息、游戏中的消费信息;所述动态数据包括所述云游戏用户对游戏画面的实际点击次数、成为游戏有效用户的成功次数。
可选地,所述特征提取和融合单元,用于:
以向量(u,q)i表示所述历史数据,其中u表示所述静态数据,q表示所述动态数据。对于每个所述云游戏用户,所述云游戏引擎实时感知并计算所述向量(u,q)i,且将其作为排序因子,输入到一个最终排序的总序列中。
可选地,所述建模及模型评估优化单元,用于:
将所述云游戏引擎推送游戏画面的过程描述成所述云游戏引擎和所述云游戏用户交互的马尔科夫决策过程,以所述云游戏引擎作为智能体,所述云游戏用户的历史数据作为状态,推送策略作为动作,所述云游戏用户的反馈作为奖赏;
所述强化学习模型由状态、动作、奖赏三部分组成,所述状态表达式为:
s=(u,q,a1,a2,...,an,T)
其中,u表示静态数据,q表示动态数据,ai表示动作,T表示当前决策的总步骤;
对于每个状态,动作ai∈{skip,eval},其中,skip代表特征xi被保留作为排序特征,反之,skip表示xi不被保留作为排序特征;
所述奖赏的损失函数表示为:
Figure BDA0002644967940000041
其中,l(b(θ))是
Figure BDA0002644967940000042
的参数化函数,θ是可选择特征子集,
Figure BDA0002644967940000043
表示该特征序列的期望,qi表示当前特征信息,
Figure BDA0002644967940000044
表示共享网络参数,b函数的表达式为:
Figure BDA0002644967940000045
则奖赏可表示为:
Figure BDA0002644967940000051
其中,Q表示引擎序列特征总数,
Figure BDA0002644967940000052
表示策略网络全局参数θ的更新值,
Figure BDA0002644967940000053
是L1范数,m表示正则参数,损失函数Jl,θ(·)可以进一步表达为:
Figure BDA0002644967940000054
其中,pθ(τ)是轨迹τ出现的概率,
Figure BDA0002644967940000055
是引擎性能开销函数。
可选地,所述奖赏的损失函数用演员-评论家算法进行优化,设定策略网络为演员,利用参数化的网络评估状态sk的值函数,其评判网络的目标函数表达式为:
Figure BDA0002644967940000056
其中,目标值由参数化的不同时刻状态值函数的平方差来表示,V(·)表示评判网络值函数,rk+1表示惩罚项,γ表示折扣因子,θc表示评判网络的全局参数,通过评判网络得到的值函数引导全局参数不断更新,最终收敛得到最优的全局参数θc
一方面,提供了一种电子设备,所述电子设备包括处理器和存储器,所述存储器中存储有至少一条指令,所述至少一条指令由所述处理器加载并执行以实现上述云游戏引擎智能优化方法。
一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现上述云游戏引擎智能优化方法。
本发明实施例提供的技术方案带来的有益效果至少包括:
本发明实施例中,基于强化学习模型对云游戏引擎进行智能优化,提升了云游戏引擎的性能,降低了云游戏引擎运行开销,节省了服务器端的系统资源;针对用户偏好来进行云游戏画面推送,增加了推送内容的准确性和相关性,进而加强了云游戏与用户之间的粘性,有利于提高游戏开发商的运营收益。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种基于强化学习的云游戏引擎智能优化方法的流程图;
图2是本发明实施例中强化学习模型的交互示意图;
图3是本发明实施例中演员-评论家算法的框架示意图;
图4是本发明实施例中基于强化学习模型对云游戏引擎进行智能优化的示意图;
图5是本发明实施例提供的一种基于强化学习的云游戏引擎智能优化装置的示意图;
图6是本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
第一实施例
本实施例提供了一种基于强化学习的云游戏引擎智能优化方法,该方法可以由电子设备实现。如图1所示的基于强化学习的云游戏引擎智能优化方法流程图,该方法的处理流程可以包括如下的步骤:
S101,获取云游戏用户的历史数据。
可选地,云游戏用户的历史数据是指最近一周的游戏数据,包括静态数据和动态数据,其中静态数据包括云游戏用户的基本信息、游戏角色信息、游戏段位信息、游戏中的消费信息等;动态数据包括云游戏用户对游戏画面的实际点击次数、成为游戏某个道具或装扮的有效用户的成功次数等。
S102,从S101获取的历史数据中提取特征并融合抽象成数学表示。
特征提取与构造是数据分析过程的关键步骤,也是后续机器学习表达数据信息所依赖的对象。本实施例对S101获取的历史数据进行了特征抽取和融合。可选地,以向量(u,q)i表示历史数据,其中u表示静态数据,q表示动态数据,对于每个云游戏用户,云游戏引擎实时感知并计算向量(u,q)i,且将其作为排序因子,输入到一个最终排序的总序列中。
S103,基于S102获取的数学表示,用马尔科夫决策过程描述云游戏引擎和云游戏用户之间的交互,构建强化学习模型并进行模型评估和优化。
将云游戏引擎推送游戏画面的过程描述成云游戏引擎和云游戏用户交互的马尔科夫决策过程,以云游戏引擎作为智能体(agent),云游戏用户的历史数据作为状态(state),推送策略作为动作(action),云游戏用户的反馈作为奖赏(reward)。
具体的,我们用xj来指代云游戏用户xj(u,q),针对某一个云游戏用户(u,q),有m个需要推送的画面,此时对于游戏引擎的排序总分可以表示为:
Fa=[f(πs(s(p1))),f(πs(s(p2))),...,f(πs(s(pm)))]
其中,f的形式没有做假设,s(p)=(x1(p),x2(p),....,xn(p))∈Rn。表示每个推送的n个排序因子。
取一个子集S∈Ω,计算近似值
Fa=[f(πs(s(p1))),f(πs(s(p2))),...,f(πs(s(pm)))]
其中,πs(·)指的是因子全集向子集的映射,问题的优化目标是在使用因子尽量少的的情况下,尽可能逼近原先的函数。因此,可以把目标写成:
Figure BDA0002644967940000071
其中,D(Fo||Fa)表示的是KL距离,第二项是子集的大小。这可以被证明是一个多项式复杂程度的非确定性问题(NP-Hard,non-deterministic polynomial)问题,本实施例通过在云游戏用户的特征表示层上进行泛化,不直接求子集,而是通过定义:
Su,q=H(u,q|θ)
其中,θ是全局模型的参数,本发明通过强化学习模型推导出最优的参数,寻找问题的最优近似解。
在网络资源匮乏且数据量大的云计算环境中,游戏引擎往往会把高品质的游戏渲染后的画面传送给玩家客户端,大量探索式的游戏玩家与游戏引擎的交互是非常耗时且不可取的。因此,需要去优化云游戏画面推送策略,强化学习模型是一种可以很好的刻画出游戏玩家与游戏引擎交互场景的机器学习模型。如图2所示,输入的是游戏玩家的特征信息,首先经过引擎网络,输出引擎的动作,然后,产生游戏玩家行为,即是否浏览、装饰或购买等行为,另外评判网络会根据相应的权重给出奖励。
具体地,强化学习模型由状态、动作、奖赏三部分组成,状态表达式为:
s=(u,q,a1,a2,...,an,T)
其中,u表示静态数据,q表示动态数据,ai表示动作,T表示当前决策的总步骤;
对于每个状态,动作ai∈{skip,eval},其中,skip代表特征xi被保留作为排序特征,反之,skip表示xi不被保留作为排序特征;
奖赏的损失函数表示为:
Figure BDA0002644967940000081
其中,l(b(θ))是
Figure BDA0002644967940000082
的参数化函数,θ是可选择特征子集,
Figure BDA0002644967940000083
表示该特征序列的期望,qi表示当前特征信息,
Figure BDA00026449679400000810
表示共享网络参数,b函数的表达式为:
Figure BDA0002644967940000084
则奖赏可表示为:
Figure BDA0002644967940000085
其中,Q表示引擎序列特征总数,
Figure BDA0002644967940000086
表示策略网络全局参数θ的更新值,
Figure BDA0002644967940000087
是L1范数,μ表示正则参数,损失函数Jl,θ(·)可以进一步表达为:
Figure BDA0002644967940000088
其中,pθ(τ)是轨迹τ出现的概率,
Figure BDA0002644967940000089
是引擎性能开销函数。
可选地,奖赏的损失函数用演员-评论家算法进行优化,其框架图如图3所示,设定策略网络为演员,利用参数化的网络评估状态sk的值函数,其评判网络的目标函数表达式为:
Figure BDA0002644967940000091
其中,目标值由参数化的不同时刻状态值函数的平方差来表示,V(·)表示评判网络值函数,rk+1表示惩罚项,γ表示折扣因子,θc表示评判网络的全局参数,通过评判网络得到的值函数引导全局参数不断更新,最终收敛得到最优的全局参数θc
S104,基于S103中获取的强化学习模型最优策略对云游戏引擎进行智能优化。
如图4所示,实现了前端与后端的智能交互,云游戏引擎通过不断的探索实践其性能逐步达到了最优。具体的,在客户端,状态服务部分,提供游戏玩家的相关状态做云端的引擎优化。在云端,获取游戏玩家的基本信息及游戏日志数据,析取玩家相关属性数据。提取相关特征,玩家特征排序是实现游戏引擎优化的有力抓手,也是优化云游戏引擎性能的重要因子。实时样本生成,进而输出到强化学习模型的训练与评估中。在分布式强化学习算法中执行演员-评论家学习逻辑,探索实践展现奖赏信息的汇总。模型服务导出实时模型,供云游戏引擎访问。
本实施例中,基于强化学习模型对云游戏引擎进行智能优化,提升了云游戏引擎的性能,降低了云游戏引擎运行开销,节省了服务器端的系统资源;针对用户偏好来进行云游戏画面推送,增加了推送内容的准确性和相关性,进而加强了云游戏与用户之间的粘性,有利于提高游戏开发商的运营收益。
第二实施例
本实施例提供了一种基于强化学习的云游戏引擎智能优化装置,该装置如图5所示,包括:
用户数据获取单元201,用于获取云游戏用户的历史数据;
特征提取和融合单元202,用于从所述历史数据中提取特征并融合抽象成数学表示;
建模及模型评估优化单元203,用于基于所述数学表示,使用马尔科夫决策过程描述所述云游戏引擎和所述云游戏用户之间的交互,构建强化学习模型并进行模型评估和优化;
引擎优化单元204,用于基于所述强化学习模型的最优策略对所述云游戏引擎进行智能优化。
本实施例的基于强化学习的云游戏引擎智能优化装置与上述第一实施例的基于强化学习的云游戏引擎智能优化方法相对应;其中,本实施例的基于强化学习的云游戏引擎智能优化装置中的各单元所实现的功能与上述第一实施例的基于强化学习的云游戏引擎智能优化方法中的各流程步骤一一对应;故,在此不再赘述。
第三实施例
本实施例提供一种电子设备300,如图6所示,其包括处理器301和存储器302;其中,存储器302中存储有至少一条指令,所述指令由处理器301加载并执行,以实现第一实施例的方法。
该电子设备可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processing units,CPU)和一个或一个以上的存储器,其中,存储器中存储有至少一条指令,所述指令由处理器加载并执行以下步骤:
S101,获取云游戏用户的历史数据;
S102,从所述历史数据中提取特征并融合抽象成数学表示;
S103,基于所述数学表示,用马尔科夫决策过程描述所述云游戏引擎和所述云游戏用户之间的交互,构建强化学习模型并进行模型评估和优化;
S104,基于所述强化学习模型的最优策略对所述云游戏引擎进行智能优化。
本实施例中,基于强化学习模型对云游戏引擎进行智能优化,提升了云游戏引擎的性能,降低了云游戏引擎运行开销,节省了服务器端的系统资源;针对用户偏好来进行云游戏画面推送,增加了推送内容的准确性和相关性,进而加强了云游戏与用户之间的粘性,有利于提高游戏开发商的运营收益。
第四实施例
本实施例提供一种计算机可读存储介质,该存储介质中存储有至少一条指令,所述指令由处理器加载并执行,以实现上述方法。其中,该计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。其内存储的指令可由终端中的处理器加载并执行以下步骤:
S101,获取云游戏用户的历史数据;
S102,从所述历史数据中提取特征并融合抽象成数学表示;
S103,基于所述数学表示,用马尔科夫决策过程描述所述云游戏引擎和所述云游戏用户之间的交互,构建强化学习模型并进行模型评估和优化;
S104,基于所述强化学习模型的最优策略对所述云游戏引擎进行智能优化。
本实施例中,基于强化学习模型对云游戏引擎进行智能优化,提升了云游戏引擎的性能,降低了云游戏引擎运行开销,节省了服务器端的系统资源;针对用户偏好来进行云游戏画面推送,增加了推送内容的准确性和相关性,进而加强了云游戏与用户之间的粘性,有利于提高游戏开发商的运营收益。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于强化学习的云游戏引擎智能优化方法,其特征在于,所述方法包括:
获取云游戏用户的历史数据;
从所述历史数据中提取特征并融合抽象成数学表示;
基于所述数学表示,用马尔科夫决策过程描述所述云游戏引擎和所述云游戏用户之间的交互,构建强化学习模型并进行模型评估和优化;
基于所述强化学习模型的最优策略对所述云游戏引擎进行智能优化。
2.根据权利要求1所述的云游戏引擎智能优化方法,其特征在于,所述云游戏用户的历史数据包括静态数据和动态数据,其中所述静态数据包括所述云游戏用户的基本信息、游戏角色信息、游戏段位信息、游戏中的消费信息;所述动态数据包括所述云游戏用户对游戏画面的实际点击次数、成为游戏有效用户的成功次数。
3.根据权利要求2所述的云游戏引擎智能优化方法,其特征在于,所述从历史数据中提取特征值并融合抽象成数学表示,包括:
以向量(u,q)i表示所述历史数据,其中u表示所述静态数据,q表示所述动态数据,对于每个所述云游戏用户,所述云游戏引擎实时感知并计算所述向量(u,q)i,且将其作为排序因子,输入到一个最终排序的总序列中。
4.根据权利要求1所述的云游戏引擎智能优化方法,其特征在于,所述用马尔科夫决策过程描述所述云游戏引擎和所述云游戏用户之间的交互,构建强化学习模型并进行模型评估和优化,包括:
将所述云游戏引擎推送游戏画面的过程描述成所述云游戏引擎和所述云游戏用户交互的马尔科夫决策过程,以所述云游戏引擎作为智能体,所述云游戏用户的历史数据作为状态,推送策略作为动作,所述云游戏用户的反馈作为奖赏;
所述强化学习模型由状态、动作、奖赏三部分组成,所述状态表达式为:
s=(u,q,a1,a2,...,an,T)
其中,u表示静态数据,q表示动态数据,ai表示动作,T表示当前决策的总步骤;
对于每个状态,动作ai∈{skip,eval},其中,skip代表特征xi被保留作为排序特征,反之,skip表示xi不被保留作为排序特征;
所述奖赏的损失函数表示为:
Figure FDA0002644967930000021
其中,
Figure FDA0002644967930000022
Figure FDA0002644967930000023
的参数化函数,θ是可选择特征子集,
Figure FDA0002644967930000024
表示该特征序列的期望,qi表示当前特征信息,
Figure FDA0002644967930000025
表示共享网络参数,b函数的表达式为:
Figure FDA0002644967930000026
则奖赏可表示为:
Figure FDA0002644967930000027
其中,Q表示引擎序列特征总数,
Figure FDA0002644967930000028
表示策略网络全局参数θ的更新值,
Figure FDA0002644967930000029
是L1范数,μ表示正则参数,损失函数Jl,θ(·)可以进一步表达为:
Figure FDA00026449679300000210
其中,pθ(τ)是轨迹τ出现的概率,
Figure FDA00026449679300000211
是引擎性能开销函数。
5.根据权利要求4所述的云游戏引擎智能优化方法,其特征在于,所述奖赏的损失函数用演员-评论家算法进行优化,设定策略网络为演员,利用参数化的网络评估状态sk的值函数,其评判网络的目标函数表达式为:
Figure FDA00026449679300000212
其中,目标值由参数化的不同时刻状态值函数的平方差来表示,V(·)表示评判网络值函数,rk+1表示惩罚项,γ表示折扣因子,θc表示评判网络的全局参数,通过评判网络得到的值函数引导全局参数不断更新,最终收敛得到最优的全局参数θc
6.一种基于强化学习的云游戏引擎智能优化装置,其特征在于,所述装置包括:
用户数据获取单元,用于获取云游戏用户的历史数据;
特征提取和融合单元,用于从所述历史数据中提取特征并融合抽象成数学表示;
建模及模型评估优化单元,用于基于所述数学表示,使用马尔科夫决策过程描述所述云游戏引擎和所述云游戏用户之间的交互,构建强化学习模型并进行模型评估和优化;
引擎优化单元,用于基于所述强化学习模型的最优策略对所述云游戏引擎进行智能优化。
7.根据权利要求6所述的云游戏引擎智能优化装置,其特征在于,所述云游戏用户的历史数据包括静态数据和动态数据,其中所述静态数据包括所述云游戏用户的基本信息、游戏角色信息、游戏段位信息、游戏中的消费信息;所述动态数据包括所述云游戏用户对游戏画面的实际点击次数、成为游戏有效用户的成功次数。
8.根据权利要求6所述的云游戏引擎智能优化装置,其特征在于,所述特征提取和融合单元,用于:
以向量(u,q)i表示所述历史数据,其中u表示所述静态数据,q表示所述动态数据。对于每个所述云游戏用户,所述云游戏引擎实时感知并计算所述向量(u,q)i,且将其作为排序因子,输入到一个最终排序的总序列中。
9.根据权利要求6所述的云游戏引擎智能优化装置,其特征在于,所述建模及模型评估优化单元,用于:
将所述云游戏引擎推送游戏画面的过程描述成所述云游戏引擎和所述云游戏用户交互的马尔科夫决策过程,以所述云游戏引擎作为智能体,所述云游戏用户的历史数据作为状态,推送策略作为动作,所述云游戏用户的反馈作为奖赏;
所述强化学习模型由状态、动作、奖赏三部分组成,所述状态表达式为:
s=(u,q,a1,a2,...,an,T)
其中,u表示静态数据,q表示动态数据,ai表示动作,T表示当前决策的总步骤;
对于每个状态,动作ai∈{skip,eval},其中,skip代表特征xi被保留作为排序特征,反之,skip表示xi不被保留作为排序特征;
所述奖赏的损失函数表示为:
Figure FDA0002644967930000031
其中,
Figure FDA0002644967930000041
Figure FDA0002644967930000042
的参数化函数,θ是可选择特征子集,
Figure FDA0002644967930000043
表示该特征序列的期望,qi表示当前特征信息,
Figure FDA0002644967930000044
表示共享网络参数,b函数的表达式为:
Figure FDA0002644967930000045
则奖赏可表示为:
Figure FDA0002644967930000046
其中,Q表示引擎序列特征总数,
Figure FDA0002644967930000047
表示策略网络全局参数θ的更新值,
Figure FDA0002644967930000048
是L1范数,μ表示正则参数,损失函数Jl,θ(·)可以进一步表达为:
Figure FDA0002644967930000049
其中,pθ(τ)是轨迹τ出现的概率,
Figure FDA00026449679300000410
是引擎性能开销函数。
10.根据权利要求9所述的云游戏引擎智能优化装置,其特征在于,所述奖赏的损失函数用演员-评论家算法进行优化,设定策略网络为演员,利用参数化的网络评估状态sk的值函数,其评判网络的目标函数表达式为:
Figure FDA00026449679300000411
其中,目标值由参数化的不同时刻状态值函数的平方差来表示,V(·)表示评判网络值函数,rk+1表示惩罚项,γ表示折扣因子,θc表示评判网络的全局参数,通过评判网络得到的值函数引导全局参数不断更新,最终收敛得到最优的全局参数θc
CN202010851780.6A 2020-08-21 2020-08-21 一种基于强化学习的云游戏引擎智能优化方法及装置 Active CN112121439B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010851780.6A CN112121439B (zh) 2020-08-21 2020-08-21 一种基于强化学习的云游戏引擎智能优化方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010851780.6A CN112121439B (zh) 2020-08-21 2020-08-21 一种基于强化学习的云游戏引擎智能优化方法及装置

Publications (2)

Publication Number Publication Date
CN112121439A true CN112121439A (zh) 2020-12-25
CN112121439B CN112121439B (zh) 2023-07-14

Family

ID=73851103

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010851780.6A Active CN112121439B (zh) 2020-08-21 2020-08-21 一种基于强化学习的云游戏引擎智能优化方法及装置

Country Status (1)

Country Link
CN (1) CN112121439B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113377655A (zh) * 2021-06-16 2021-09-10 南京大学 一种基于MAS-Q-Learing的任务分配方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109543017A (zh) * 2018-11-21 2019-03-29 广州语义科技有限公司 法律问题关键词生成方法及其系统
CN109703606A (zh) * 2019-01-16 2019-05-03 北京交通大学 基于历史运行数据的高速列车智能驾驶控制方法
CN109800717A (zh) * 2019-01-22 2019-05-24 中国科学院自动化研究所 基于强化学习的行为识别视频帧采样方法及系统
GB201906158D0 (en) * 2019-05-02 2019-06-19 Sony Interactive Entertainment Inc Method of and system for controlling the rendering of a video game instance
CN110148039A (zh) * 2019-05-21 2019-08-20 山东大学 一种众智网络智能数体需求匹配策略优化方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109543017A (zh) * 2018-11-21 2019-03-29 广州语义科技有限公司 法律问题关键词生成方法及其系统
CN109703606A (zh) * 2019-01-16 2019-05-03 北京交通大学 基于历史运行数据的高速列车智能驾驶控制方法
CN109800717A (zh) * 2019-01-22 2019-05-24 中国科学院自动化研究所 基于强化学习的行为识别视频帧采样方法及系统
GB201906158D0 (en) * 2019-05-02 2019-06-19 Sony Interactive Entertainment Inc Method of and system for controlling the rendering of a video game instance
CN110148039A (zh) * 2019-05-21 2019-08-20 山东大学 一种众智网络智能数体需求匹配策略优化方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
人工智能插班生: "《机器学习与深度学习系列连载: 第三部分 强化学习(二) 马尔科夫决策过程 MDP》", pages 18 - 20, Retrieved from the Internet <URL:《https://blog.csdn.net/dukuku5038/article/details/84361371》> *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113377655A (zh) * 2021-06-16 2021-09-10 南京大学 一种基于MAS-Q-Learing的任务分配方法
CN113377655B (zh) * 2021-06-16 2023-06-20 南京大学 一种基于MAS-Q-Learing的任务分配方法

Also Published As

Publication number Publication date
CN112121439B (zh) 2023-07-14

Similar Documents

Publication Publication Date Title
CN111741330B (zh) 一种视频内容评估方法、装置、存储介质及计算机设备
US20220254146A1 (en) Method for filtering image feature points and terminal
CN109033408B (zh) 信息推送方法及装置、计算机可读存储介质、电子设备
WO2021135562A1 (zh) 特征有效性评估方法、装置、电子设备及存储介质
CN111061946A (zh) 场景化内容推荐方法、装置、电子设备及存储介质
CN111104595A (zh) 一种基于文本信息的深度强化学习交互式推荐方法及系统
EP4083857A1 (en) Information prediction model training method and apparatus, information prediction method and apparatus, storage medium, and device
CN111930518B (zh) 面向知识图谱表示学习的分布式框架构建方法
CN112380453B (zh) 物品推荐方法、装置、存储介质及设备
CN110297885B (zh) 实时事件摘要的生成方法、装置、设备及存储介质
CN113069769B (zh) 云游戏界面显示方法、装置、电子设备以及存储介质
CN108153792A (zh) 一种数据处理方法和相关装置
CN112231554B (zh) 一种搜索推荐词生成方法、装置、存储介质和计算机设备
CN111563158A (zh) 文本排序方法、排序装置、服务器和计算机可读存储介质
CN112084307A (zh) 一种数据处理方法、装置、服务器及计算机可读存储介质
CN112121439B (zh) 一种基于强化学习的云游戏引擎智能优化方法及装置
CN111597361B (zh) 多媒体数据处理方法、装置、存储介质及设备
CN115131052A (zh) 一种数据处理方法、计算机设备和存储介质
KR20210016593A (ko) 인공지능 기반 상품 추천 방법 및 그 시스템
CN112269943A (zh) 一种信息推荐系统及方法
CN112507214B (zh) 基于用户名的数据处理方法、装置、设备及介质
CN114119078A (zh) 目标资源确定方法、装置、电子设备及介质
CN115700550A (zh) 标签分类模型训练和对象筛选方法、设备及存储介质
CN113822293A (zh) 用于图数据的模型处理方法、装置、设备及存储介质
CN112052365A (zh) 一种跨境场景画像构建方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant