CN113144605A - 一种用户行为模拟方法、装置、电子设备及存储介质 - Google Patents
一种用户行为模拟方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN113144605A CN113144605A CN202110241480.0A CN202110241480A CN113144605A CN 113144605 A CN113144605 A CN 113144605A CN 202110241480 A CN202110241480 A CN 202110241480A CN 113144605 A CN113144605 A CN 113144605A
- Authority
- CN
- China
- Prior art keywords
- information
- behavior
- track
- user
- reward
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004088 simulation Methods 0.000 title claims abstract description 51
- 238000000034 method Methods 0.000 title claims abstract description 46
- 238000004364 calculation method Methods 0.000 claims abstract description 7
- 230000006399 behavior Effects 0.000 claims description 237
- 230000006870 function Effects 0.000 claims description 71
- 238000004590 computer program Methods 0.000 claims description 6
- 230000009471 action Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 230000002787 reinforcement Effects 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 238000005070 sampling Methods 0.000 description 3
- 230000003542 behavioural effect Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000000342 Monte Carlo simulation Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000000454 anti-cipatory effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000009194 climbing Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Images
Classifications
-
- A—HUMAN NECESSITIES
- A63—SPORTS; GAMES; AMUSEMENTS
- A63F—CARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
- A63F13/00—Video games, i.e. games using an electronically generated display having two or more dimensions
- A63F13/55—Controlling game characters or game objects based on the game progress
- A63F13/56—Computing the motion of game characters with respect to other game characters, game objects or elements of the game scene, e.g. for simulating the behaviour of a group of virtual soldiers or for path finding
-
- A—HUMAN NECESSITIES
- A63—SPORTS; GAMES; AMUSEMENTS
- A63F—CARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
- A63F2300/00—Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game
- A63F2300/60—Methods for processing data by generating or executing the game program
- A63F2300/65—Methods for processing data by generating or executing the game program for computing the condition of a game character
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Human Computer Interaction (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请提供了一种用户行为模拟方法、装置、电子设备及存储介质,该方法包括:根据获取的地图配置信息及行为价值函数,在游戏地图中对用户进行行为模拟,得到预测行为轨迹;针对每个状态信息及对应的行为信息的组合,从预测行为轨迹中查找该组合对应的轨迹信息,根据查找到的轨迹信息中的奖励信息,更新行为价值函数,并返回根据地图配置信息及行为价值函数,在游戏地图中对用户进行行为模拟,得到预测行为轨迹的步骤,直至收敛;在获取到当前状态信息之后,根据行为价值函数,计算不同行为信息对应的奖励信息,根据计算得到的取值较高的奖励信息对应的行为信息,模拟用户行为。这样,最终得到能够模拟用户行为的行为价值函数,用于模拟用户行为。
Description
技术领域
本申请涉及行为分析技术领域,特别是涉及一种用户行为模拟方法、装 置、电子设备及存储介质。
背景技术
掷骰通关类型的游戏是一种常见的小游戏类型,在这类游戏中的主要元 素有游戏角色、游戏地图和骰子,其中,游戏角色是用户在游戏中的代理, 游戏地图是游戏角色在游戏过程中所处的环境,在用户每次做决策时,需要 投掷一次骰子。用户的行为受到骰子掷出点数的制约。
举例而言,在爬房子游戏中,用户需要同时操纵2个游戏角色,首先, 用户每轮可以投掷一次骰子,并根据骰子掷出的点数做出相应的决策,进而 通过操纵决策中选定的游戏角色,与游戏地图进行交互,在游戏地图的格子 上前进掷出的点数个格子,直到2个游戏角色同时达到指定的位置,完成游 戏的通关。
其中,用户每次投掷骰子的成本为c,在游戏地图的格子上,会随机摆 放M个礼物,用户操纵的角色如果踩到了某个格子上,就会获得这个格子 上摆放的礼物,得到特定的金额,而且,当游戏通关后,用户也会得到特定 金额的奖励。因此,假设用户在一局游戏中一共获取的奖品金额为V,用户 进行一轮游戏一共投掷了t次骰子,那么用户在此局游戏中一共花费的金额 是ct,可以计算出用户单局游戏的净收益是V-ct。
为了增加游戏的趣味性,游戏平台需要随机化生成游戏地图,使得用户 每次游戏时使用的地图是不一样的,但是,一方面,对于游戏平台而言,需 要维持用户单局游戏的净收益非正,而对于用户而言,则期望尽可能在每轮 游戏中取得更大的收益。因此,游戏平台需要保证“最聪明的用户”在随机 化生成的游戏地图中的期望净利润非正,才能将生成的游戏地图上线展示给 用户。
目前,亟需一种用户行为模拟方法。
发明内容
为解决上述技术问题,本申请示出了一种用户行为模拟方法、装置、电 子设备及存储介质。
第一方面,本申请示出了一种用户行为模拟方法,所述方法包括:
获取游戏地图的地图配置信息及用户的行为价值函数;
根据所述地图配置信息及所述行为价值函数,在所述游戏地图中对所述 用户进行行为模拟,得到预测行为轨迹,所述预测行为轨迹中包括多个连续 的轨迹信息,每个轨迹信息包括状态信息、行为信息及奖励信息;
针对每个所述状态信息及对应的行为信息的组合,从所述预测行为轨迹 中查找该组合对应的轨迹信息,根据查找到的轨迹信息中的奖励信息,更新 所述行为价值函数,并返回所述根据所述地图配置信息及所述行为价值函 数,在所述游戏地图中对所述用户进行行为模拟,得到预测行为轨迹的步骤, 直至所述行为价值函数收敛;
在获取到当前状态信息之后,根据收敛后的所述行为价值函数及所述当 前状态信息,分别计算不同行为信息对应的奖励信息,根据计算得到的取值 最高的奖励信息对应的行为信息,模拟用户在当前状态的行为。
第二方面,本申请示出了一种用户行为模拟装置,所述装置包括:
获取模块,用于获取游戏地图的地图配置信息及用户的行为价值函数;
预测模块,用于根据所述地图配置信息及所述行为价值函数,在所述游 戏地图中对所述用户进行行为模拟,得到预测行为轨迹,所述预测行为轨迹 中包括多个连续的轨迹信息,每个轨迹信息包括状态信息、行为信息及奖励 信息;
更新模块,用于针对每个所述状态信息及对应的行为信息的组合,从所 述预测行为轨迹中查找该组合对应的轨迹信息,根据查找到的轨迹信息中的 奖励信息,更新所述行为价值函数,并返回所述根据所述地图配置信息及所 述行为价值函数,在所述游戏地图中对所述用户进行行为模拟,得到预测行 为轨迹的步骤,直至所述行为价值函数收敛;
模拟模块,用于在获取到当前状态信息之后,根据收敛后的所述行为价 值函数及所述当前状态信息,分别计算不同行为信息对应的奖励信息,根据 计算得到的取值最高的奖励信息对应的行为信息,模拟用户在当前状态的行 为。
第三方面,本申请示出了一种电子设备,所述电子设备包括存储器、处 理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行 所述程序时实现如上述任一项所述的用户行为模拟方法的步骤。
第四方面,本申请示出了一种计算机可读存储介质,所述计算机可读存 储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一 项所述的用户行为模拟方法的步骤。
与现有技术相比,本申请包括以下优点:
在本申请中,首先,获取游戏地图的地图配置信息及用户的行为价值函 数;根据地图配置信息及行为价值函数,在游戏地图中对用户进行行为模拟, 得到预测行为轨迹,预测行为轨迹中包括多个连续的轨迹信息,每个轨迹信 息包括状态信息、行为信息及奖励信息;然后,针对每个状态信息及对应的 行为信息的组合,从预测行为轨迹中查找该组合对应的轨迹信息,根据查找 到的轨迹信息中的奖励信息,更新行为价值函数,并返回根据地图配置信息 及行为价值函数,在游戏地图中对用户进行行为模拟,得到预测行为轨迹的步骤,直至收敛;在获取到当前状态信息之后,根据行为价值函数,计算不 同行为信息对应的奖励信息,根据计算得到的取值最高的奖励信息对应的行 为信息,模拟用户行为。
这样,通过对地图配置信息的不断学习,使得行为价值函数收敛,最终 得到能够模拟用户行为的行为价值函数,用于模拟用户行为,进而便于计算 “最聪明的用户”在地图配置信息对应的游戏地图中的净收益,满足游戏平 台对游戏地图有效性的判断需求。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本 领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的, 而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示 相同的部件。在附图中:
图1是本申请的一种用户行为模拟方法的步骤流程图;
图2是用户与环境的交互过程的示意图;
图3是通过强化学习优化策略的方案示意图;
图4是本申请的一种用户行为模拟装置的结构框图;
图5是本申请的一种电子设备的结构框图。
具体实施方式
下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示 了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不 应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地 理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
下面将通过具体的实施例,对本发明实施例提供的用户行为模拟方法进 行详细描述。
参照图1,示出了本申请的一种用户行为模拟方法的步骤流程图,该方 法具体可以包括如下步骤:
S101:获取游戏地图的地图配置信息及用户的行为价值函数。
为了增加游戏的趣味性,游戏平台需要随机化生成游戏地图,使得用户 每次游戏时使用的地图是不一样的,每个游戏地图都会对应不同的地图配置 信息。行为价值函数可以表示为Q(St,At)。
一种实现方式中,在初始状态下,可以将Q(St,At)中的各项数值置0, 也就是说,初始状态下,行为价值函数预测用户在任意状态下采取任一行为 的概率都是相同的。或者,也可以获取先验信息,根据先验信息设置Q(St,At) 中的各项数值的初始值,具体不作限定。
假设地图是线性的,长度为N。地图上的格子可以用G={g0,g1,g2,…,gN} 表示,角色的起始点在g0。不妨我们可以假设gi=i,即gi可以用i号格子指 代。游戏中可能设置快速移动的方法机关,用[(s1,e1),(s2,e2),…]表示。si意 味是机关触发时的格子代号,ei是出发该机关时瞬间到达的格子代号。每一 轮游戏中用户投掷一次骰子,成本为c。骰子是一个公平的骰子,每一次掷 骰有六分之一的概率掷出1-6的点数。假设投掷的点数为p,则有户当前前 进p个格子。即若该轮用户的位置是gi,则下轮用户的位置是gi+p。唯一的 例外是用户若当前轮离终点的距离N-i小于p,为了保证用户的位置不会超 过地图上限,用户会前进到N-(gi+p-N)的位置。格子上会随机摆放M个 礼物,用户操纵的角色如果踩到了某个的礼物,会获得特定的金额。礼物的 属性是一个(价值,位置)的二元组,第m个格子的属性用(vm,gm)表示。 假设用户在一局游戏中一共获取的奖品金额为V,用户进行一轮游戏一共投掷了t次骰子,那么用户在此局游戏中一共花费的金额是ct,可以计算出用 户单局游戏的净收益是V-ct。
S102:根据地图配置信息及行为价值函数,在游戏地图中对用户进行行 为模拟,得到预测行为轨迹。
其中,预测行为轨迹中包括多个连续的轨迹信息,每个轨迹信息包括状 态信息、行为信息及奖励信息。状态信息用于指示该轨迹信息所处时刻的状 态,比如,第一角色的位置、第二角色的位置以及投掷点数;行为信息指示 该轨迹信息中用户所采取的行为,比如,移动第一角色的位置或移动第二角 色的位置;奖励信息指示该轨迹信息所处时刻的状态下,采取行为信息指示 的行为后,用户获得的奖励。
在本步骤中,可以利用蒙特卡罗方法在游戏地图中对用户进行行为模 拟,采样出很多个连续的轨迹信息,得到预测行为轨迹。其中,模拟的量级 一般需要比较大,比如几万次或者几十万次。
举例而言,采样的次数可以为10000次,每次采样对应一个时刻,比如, 第t次采样也就是t时刻,得到的预测行为轨迹可以表示为 S0,A0,R1,S1,A1,R2,S2,A2,R3,…,其中,St表示t时刻的状态信息,是对当前环 境的抽象性描述,At表示t时刻的行为信息,是用户在当前状态时作出的对 应的行为,Rt表示t时刻的奖励信息,是对用户行为给予的回报。
或者,也可以采用SARSA或者Q-learning方法对用户进行行为模拟, 采样出很多个连续的轨迹信息,得到预测行为轨迹,本申请对此不作限定。
S103:针对每个状态信息及对应的行为信息的组合,从预测行为轨迹中 查找该组合对应的轨迹信息,根据查找到的轨迹信息中的奖励信息,更新行 为价值函数,并返回根据地图配置信息及行为价值函数,在游戏地图中对用 户进行行为模拟,得到预测行为轨迹的步骤,直至行为价值函数收敛。
在本步骤中,不同的状态信息及行为信息可以作为一个组合,可以理解, 在预测行为轨迹足够长的情况下,同一组合在预测行为轨迹中会出现多次, 因此,从预测行为轨迹中可以查找到每个组合对应的多个轨迹信息。根据查 找到的轨迹信息中的奖励信息,可以更新行为价值函数,进而通过更新后的 行为价值函数,不断模拟预测行为轨迹,对行为价值函数迭代更新,直至行 为价值函数收敛。
在本申请中,可以通过强化学习对行为价值函数进行收敛,在强化学习 的框架下,假设每个用户强调如何基于环境信息而行动,以取得最大化的预 期利益。在一般的强化学习中,采用一阶马尔科夫假设,在给定用户当前的 状态信息时,用户的行为信息与之前的状态信息互相独立。
其中,用户与环境的交互过程如图2所示,在每一个时刻t,用户可以通 过对环境进行观测,获得当前时刻的状态表示St,随后,用户通过一个自身 的策略π结合状态St生成一个行为At,其中,策略是一个把状态映射行为的 概率测度。
策略的形式为π(a|s),当St=s的时候,At=a的概率。这样的行 为与环境交互得到一定的回报Rt。在一阶马尔科夫假设的假设下(也就是所 谓的MDP),对环境的动力学有以下假设,即p(s′,r|s,a)=p(St=s,Rt= r|St-1=s,At-1=a),也就是说,t时刻St与Rt的联合分布,将从一个预设的 概率分布的关于St-1与At-1的边缘分布中采样。举例而言,如图3所示,为通 过强化学习优化策略的方案示意图。
一种实现方式中,根据查找到的轨迹信息中的奖励信息,更新行为价值 函数,包括:
针对每个查找到的轨迹信息,对该轨迹信息及其之后查找到的其他轨迹 信息中的奖励信息进行加权求和,得到该轨迹信息的回报值,其中,每个奖 励信息的权重与其对应的轨迹信息与该轨迹信息之间的距离成反比;计算每 个组合对应的多个轨迹信息的回报值的均值,作为该组合的回报值,更新行 为价值函数中该组合的回报值。
举例而言,可以采用如下公式,针对每个查找到的轨迹信息,对该轨迹 信息及其之后查找到的其他轨迹信息中的奖励信息进行加权求和,得到该轨 迹信息的回报值:
其中,γ是预设折现因子,取值为0≤γ≤1,Gt为该轨迹信息的回 报值,t为当前轨迹信息的位置,Rt+1、Rt+2……Rt+k+1为该轨迹信息之后的轨 迹信息的奖励信息,inf表示无穷大。
S104:在获取到当前状态信息之后,根据收敛后的行为价值函数及当前 状态信息,分别计算不同行为信息对应的奖励信息,根据计算得到的取值最 高的奖励信息对应的行为信息,模拟用户在当前状态的行为。
举例而言,行为信息对应多个预设用户行为中的任一种,那么,可以针 对每个行为信息,确定当前状态信息与该行为信息分别对应的组合,作为候 选组合;根据收敛后的行为价值函数,计算每个候选组合对应的回报值,作 为该候选组合中行为信息对应的奖励信息。
进而,可以根据计算得到的取值最高的奖励信息对应的行为信息,模拟 用户在当前状态的行为,也就是说,根据收益最大的行为信息模拟用户在当 前状态的行为,这样,可以预测最聪明的用户的行为。
一种实现方式中,状态信息中包括第一角色的位置、第二角色的位置以 及投掷点数,举例而言,第t时刻的状态St可以定义为:其中,是第一个角色的t时刻位置,为一个非负整数,是第二个角色的t时刻位置, 为一个非负整数,pt是t时刻投掷骰子的结果,为一个1-6之间的整数。
行为信息中包括选择第一角色或选择第二角色,举例而言,第t时刻的 行动At可以表示成1或者2之间的一个整数,如果At=1,移动第一角色, 如果At=2,移动第二角色。
用户t时刻的奖励Rt为一个正实数,为用户在t时刻的收益,举例而言, 如果t时刻用户操作的某个角色获得了价值为vm的礼物,那么,Rt=vm-c; 如果t时刻用户操作的某个角色并未获得礼物,那么,Rt=-c。
在获取到当前状态信息之后,根据行为价值函数,计算不同行为信息对 应的当前状态信息的奖励信息,包括:
在获取到当前状态信息之后,将当前状态信息中的第一角色的位置、第 二角色的位置以及投掷点数输入至行为价值函数,计算得到选择第一角色的 奖励信息以及选择第二角色的奖励信息。
本申请中,在确定当前状态信息的对应的用户行为之后,还可以获取新 的当前状态信息;返回在获取到当前状态信息之后,根据收敛后的所述行为 价值函数及所述当前状态信息,分别计算不同行为信息对应的奖励信息,根 据计算得到的取值最高的奖励信息对应的行为信息,模拟用户在当前状态的 行为的步骤,直至当前状态信息满足预设通关条件,表示本轮游戏结束;根 据本轮游戏中轨迹信息的数量,计算得到本轮游戏的净收益;若净收益非负, 则获取新的地图配置信息;若净收益为负,则根据地图配置信息向用户展示游戏地图。
可以理解,对于平台方来说,需要游戏地图在平均水平下用户的净利润 非正,这样的游戏地图是有效的。在此基础上,如果用户行为模拟的最优策 略期望净收益为负,则可以保证整体用户的期望净收益一定为负,相反的, 如果最优策略净收益为正,不能保证整体用户的期望净收益为正,这和用户 的整体水平有关。
举例而言,假设我们现在有张游戏地图,格子数量为49,礼物列表为: [(5,6,(4,13),(4,21),(4,29),(4,36)],完成游戏最终奖励为18,用户行为模拟的 结果列表为:[(16,11),(34,22),(47,39),(9,18),(25,32),(41,48)],可以得到用 户在这样的地图上的期望收益率是0.09,因此该游戏地图不是一个有效的地 图,需要获取新的地图配置信息。
由以上可见,本申请中通过对地图配置信息的不断学习,使得行为价值 函数收敛,最终得到能够模拟用户行为的行为价值函数,用于模拟用户行为, 进而便于计算“最聪明的用户”在地图配置信息对应的游戏地图中的净收益, 满足游戏平台对游戏地图有效性的判断需求。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系 列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作 顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。 其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于可选实 施例,所涉及的动作并不一定是本申请所必须的。
参照图4,示出了本申请的一种用户行为模拟装置的结构框图,该装置 具体可以包括如下模块:
获取模块201,用于获取游戏地图的地图配置信息及用户的行为价值函 数;
预测模块202,用于根据所述地图配置信息及所述行为价值函数,在所 述游戏地图中对所述用户进行行为模拟,得到预测行为轨迹,所述预测行为 轨迹中包括多个连续的轨迹信息,每个轨迹信息包括状态信息、行为信息及 奖励信息;
更新模块203,用于针对每个所述状态信息及对应的行为信息的组合, 从所述预测行为轨迹中查找该组合对应的轨迹信息,根据查找到的轨迹信息 中的奖励信息,更新所述行为价值函数,并返回所述根据所述地图配置信息 及所述行为价值函数,在所述游戏地图中对所述用户进行行为模拟,得到预 测行为轨迹的步骤,直至所述行为价值函数收敛;
模拟模块204,用于在获取到当前状态信息之后,根据收敛后的所述行 为价值函数及所述当前状态信息,分别计算不同行为信息对应的奖励信息, 根据计算得到的取值最高的奖励信息对应的行为信息,模拟用户在当前状态 的行为。
一种实现方式中,所述更新模块203,具体用于:
针对每个查找到的轨迹信息,对该轨迹信息及其之后查找到的其他轨迹 信息中的奖励信息进行加权求和,得到该轨迹信息的回报值,其中,每个奖 励信息的权重与其对应的轨迹信息与该轨迹信息之间的距离成反比;
计算每个组合对应的多个轨迹信息的回报值的均值,作为该组合的回报 值,更新所述行为价值函数中该组合的回报值。
一种实现方式中,所述更新模块203,具体用于采用如下公式,针对每 个查找到的轨迹信息,对该轨迹信息及其之后查找到的其他轨迹信息中的奖 励信息进行加权求和,得到该轨迹信息的回报值:
其中,γ是预设折现因子,取值为0≤γ≤1,Gt为该轨迹信息的回 报值,t为当前轨迹信息的位置,Rt+1、Rt+2……Rt+k+1为该轨迹信息之后的轨 迹信息的奖励信息,inf表示无穷大。
一种实现方式中,所述行为信息对应多个预设用户行为中的任一种,所 述模拟模块204,具体用于:
针对每个行为信息,确定所述当前状态信息与该行为信息分别对应的组 合,作为候选组合;
根据收敛后的所述行为价值函数,计算每个候选组合对应的回报值,作 为该候选组合中行为信息对应的奖励信息
一种实现方式中,所述状态信息中包括第一角色的位置、第二角色的位 置以及投掷点数,所述行为信息中包括选择所述第一角色或选择所述第二角 色;
所述模拟模块204,具体用于:
在获取到当前状态信息之后,将所述当前状态信息中的第一角色的位 置、第二角色的位置以及投掷点数输入至所述行为价值函数,计算得到选择 所述第一角色的奖励信息以及选择所述第二角色的奖励信息。
一种实现方式中,所述装置还包括检测模块(图中未示出),用于:
获取新的当前状态信息;
返回所述在获取到当前状态信息之后,根据收敛后的所述行为价值函数 及所述当前状态信息,分别计算不同行为信息对应的奖励信息,根据计算得 到的取值最高的奖励信息对应的行为信息,模拟用户在当前状态的行为的步 骤,直至所述当前状态信息满足预设通关条件,表示本轮游戏结束;
根据本轮游戏中轨迹信息的数量,计算得到本轮游戏的净收益;
若所述净收益非负,则获取新的地图配置信息;若所述净收益为负,则 根据所述地图配置信息向所述用户展示游戏地图。
由以上可见,本申请中通过对地图配置信息的不断学习,使得行为价值 函数收敛,最终得到能够模拟用户行为的行为价值函数,用于模拟用户行为, 进而便于计算“最聪明的用户”在地图配置信息对应的游戏地图中的净收益, 满足游戏平台对游戏地图有效性的判断需求。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较 简单,相关之处参见方法实施例的部分说明即可。
本发明实施例提供的用户行为模拟装置具备执行用户行为模拟方法相 应的功能模块,可执行本发明实施例所提供的用户行为模拟方法,且能达到 相同的有益效果。
在本发明提供的又一实施例中,还提供了一种电子设备,电子设备可以 包括:处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的 计算机程序,所述处理器执行所述程序时实现上述用户行为模拟方法实施例 的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。示例 的,如图5所示,该电子设备具体可以包括:处理器301、存储装置302、 具有触摸功能的显示屏303、输入装置304、输出装置305以及通信装置306。 该电子设备中处理器301的数量可以是一个或者多个,图5中以一个处理器 301为例。该电子设备的处理器301、存储装置302、显示屏303、输入装置 304、输出装置305以及通信装置306可以通过总线或者其他方式连接。
在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该 计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执 行上述实施例中任一所述的用户行为模拟方法。
在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产 品,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的用户 行为模拟方法。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来 将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示 这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、 “包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系 列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明 确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有 的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素, 并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同 要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同 相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同 之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描 述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范 围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均 包含在本发明的保护范围内。
Claims (9)
1.一种用户行为模拟方法,其特征在于,所述方法包括:
获取游戏地图的地图配置信息及用户的行为价值函数;
根据所述地图配置信息及所述行为价值函数,在所述游戏地图中对所述用户进行行为模拟,得到预测行为轨迹,所述预测行为轨迹中包括多个连续的轨迹信息,每个轨迹信息包括状态信息、行为信息及奖励信息;
针对每个所述状态信息及对应的行为信息的组合,从所述预测行为轨迹中查找该组合对应的轨迹信息,根据查找到的轨迹信息中的奖励信息,更新所述行为价值函数,并返回所述根据所述地图配置信息及所述行为价值函数,在所述游戏地图中对所述用户进行行为模拟,得到预测行为轨迹的步骤,直至所述行为价值函数收敛;
在获取到当前状态信息之后,根据收敛后的所述行为价值函数及所述当前状态信息,分别计算不同行为信息对应的奖励信息,根据计算得到的取值最高的奖励信息对应的行为信息,模拟用户在当前状态的行为。
2.根据权利要求1所述的方法,其特征在于,所述根据查找到的轨迹信息中的奖励信息,更新所述行为价值函数,包括:
针对每个查找到的轨迹信息,对该轨迹信息及其之后查找到的其他轨迹信息中的奖励信息进行加权求和,得到该轨迹信息的回报值,其中,每个奖励信息的权重与其对应的轨迹信息与该轨迹信息之间的距离成反比;
计算每个组合对应的多个轨迹信息的回报值的均值,作为该组合的回报值,更新所述行为价值函数中该组合的回报值。
4.根据权利要求2所述的方法,其特征在于,所述行为信息对应多个预设用户行为中的任一种,所述根据收敛后的所述行为价值函数及所述当前状态信息,分别计算不同行为信息对应的奖励信息,包括:
针对每个行为信息,确定所述当前状态信息与该行为信息分别对应的组合,作为候选组合;
根据收敛后的所述行为价值函数,计算每个候选组合对应的回报值,作为该候选组合中行为信息对应的奖励信息。
5.根据权利要求1所述的方法,其特征在于,所述状态信息中包括第一角色的位置、第二角色的位置以及投掷点数,所述行为信息中包括选择所述第一角色或选择所述第二角色;
所述在获取到当前状态信息之后,根据所述行为价值函数,计算不同行为信息对应的所述当前状态信息的奖励信息,包括:
在获取到当前状态信息之后,将所述当前状态信息中的第一角色的位置、第二角色的位置以及投掷点数输入至所述行为价值函数,计算得到选择所述第一角色的奖励信息以及选择所述第二角色的奖励信息。
6.根据权利要求1所述的方法,其特征在于,在所述根据计算得到的取值最高的奖励信息对应的行为信息,模拟用户在当前状态的行为之后,所述方法还包括:
获取新的当前状态信息;
返回所述在获取到当前状态信息之后,根据收敛后的所述行为价值函数及所述当前状态信息,分别计算不同行为信息对应的奖励信息,根据计算得到的取值最高的奖励信息对应的行为信息,模拟用户在当前状态的行为的步骤,直至所述当前状态信息满足预设通关条件,表示本轮游戏结束;
根据本轮游戏中轨迹信息的数量,计算得到本轮游戏的净收益;
若所述净收益非负,则获取新的地图配置信息;若所述净收益为负,则根据所述地图配置信息向所述用户展示游戏地图。
7.一种用户行为模拟装置,其特征在于,所述装置包括:
获取模块,用于获取游戏地图的地图配置信息及用户的行为价值函数;
预测模块,用于根据所述地图配置信息及所述行为价值函数,在所述游戏地图中对所述用户进行行为模拟,得到预测行为轨迹,所述预测行为轨迹中包括多个连续的轨迹信息,每个轨迹信息包括状态信息、行为信息及奖励信息;
更新模块,用于针对每个所述状态信息及对应的行为信息的组合,从所述预测行为轨迹中查找该组合对应的轨迹信息,根据查找到的轨迹信息中的奖励信息,更新所述行为价值函数,并返回所述根据所述地图配置信息及所述行为价值函数,在所述游戏地图中对所述用户进行行为模拟,得到预测行为轨迹的步骤,直至所述行为价值函数收敛;
模拟模块,用于在获取到当前状态信息之后,根据收敛后的所述行为价值函数及所述当前状态信息,分别计算不同行为信息对应的奖励信息,根据计算得到的取值最高的奖励信息对应的行为信息,模拟用户在当前状态的行为。
8.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至6中任一项所述的用户行为模拟方法的步骤。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述的用户行为模拟方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110241480.0A CN113144605B (zh) | 2021-03-04 | 2021-03-04 | 一种用户行为模拟方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110241480.0A CN113144605B (zh) | 2021-03-04 | 2021-03-04 | 一种用户行为模拟方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113144605A true CN113144605A (zh) | 2021-07-23 |
CN113144605B CN113144605B (zh) | 2024-03-08 |
Family
ID=76884177
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110241480.0A Active CN113144605B (zh) | 2021-03-04 | 2021-03-04 | 一种用户行为模拟方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113144605B (zh) |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
SG104960A1 (en) * | 2002-03-01 | 2004-07-30 | Hwee Leo Khay | Wealth & compassion board game |
US20100304847A1 (en) * | 2009-05-26 | 2010-12-02 | Paul Bramble | Win distribution for a gaming machine and method of gaming |
WO2013157720A1 (ko) * | 2012-04-20 | 2013-10-24 | 인텔렉추얼디스커버리 주식회사 | 사용자 선택형 게임 보상 방법 및 서버 |
US20140155179A1 (en) * | 2012-12-04 | 2014-06-05 | Electronics And Telecommunications Research Institute | Method and apparatus for generating map data based on game log data |
JP2016093399A (ja) * | 2014-11-17 | 2016-05-26 | 株式会社ごちぽん | 地図ゲーム装置、地図ゲーム方法、およびプログラム |
CN106390456A (zh) * | 2016-09-30 | 2017-02-15 | 腾讯科技(深圳)有限公司 | 游戏中角色行为的生成方法和装置 |
US20170354894A1 (en) * | 2016-06-09 | 2017-12-14 | Nintendo Co., Ltd. | Storage medium, information-processing device, information-processing system, and information-processing method |
CN109675313A (zh) * | 2018-12-24 | 2019-04-26 | 网易(杭州)网络有限公司 | 随机游戏地图的生成方法及装置、电子设备、存储介质 |
CN110604920A (zh) * | 2019-09-16 | 2019-12-24 | 腾讯科技(深圳)有限公司 | 基于游戏的学习方法、装置、电子设备及存储介质 |
US20190388787A1 (en) * | 2018-06-11 | 2019-12-26 | Sriram Padmanabhan | Method and System for Scenario Selection and Measurement of User Attributes and Decision Making in a Dynamic and Contextual Gamified Simulation |
CN111282267A (zh) * | 2020-02-11 | 2020-06-16 | 腾讯科技(深圳)有限公司 | 信息处理方法、装置、介质及电子设备 |
CN111389006A (zh) * | 2020-03-13 | 2020-07-10 | 网易(杭州)网络有限公司 | 一种动作预测方法及装置 |
CN112169339A (zh) * | 2019-07-02 | 2021-01-05 | 电子技术公司 | 用于在视频游戏中模仿玩家玩游戏的定制的模型 |
-
2021
- 2021-03-04 CN CN202110241480.0A patent/CN113144605B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
SG104960A1 (en) * | 2002-03-01 | 2004-07-30 | Hwee Leo Khay | Wealth & compassion board game |
US20100304847A1 (en) * | 2009-05-26 | 2010-12-02 | Paul Bramble | Win distribution for a gaming machine and method of gaming |
WO2013157720A1 (ko) * | 2012-04-20 | 2013-10-24 | 인텔렉추얼디스커버리 주식회사 | 사용자 선택형 게임 보상 방법 및 서버 |
US20140155179A1 (en) * | 2012-12-04 | 2014-06-05 | Electronics And Telecommunications Research Institute | Method and apparatus for generating map data based on game log data |
JP2016093399A (ja) * | 2014-11-17 | 2016-05-26 | 株式会社ごちぽん | 地図ゲーム装置、地図ゲーム方法、およびプログラム |
US20170354894A1 (en) * | 2016-06-09 | 2017-12-14 | Nintendo Co., Ltd. | Storage medium, information-processing device, information-processing system, and information-processing method |
CN106390456A (zh) * | 2016-09-30 | 2017-02-15 | 腾讯科技(深圳)有限公司 | 游戏中角色行为的生成方法和装置 |
US20190388787A1 (en) * | 2018-06-11 | 2019-12-26 | Sriram Padmanabhan | Method and System for Scenario Selection and Measurement of User Attributes and Decision Making in a Dynamic and Contextual Gamified Simulation |
CN109675313A (zh) * | 2018-12-24 | 2019-04-26 | 网易(杭州)网络有限公司 | 随机游戏地图的生成方法及装置、电子设备、存储介质 |
CN112169339A (zh) * | 2019-07-02 | 2021-01-05 | 电子技术公司 | 用于在视频游戏中模仿玩家玩游戏的定制的模型 |
CN110604920A (zh) * | 2019-09-16 | 2019-12-24 | 腾讯科技(深圳)有限公司 | 基于游戏的学习方法、装置、电子设备及存储介质 |
CN111282267A (zh) * | 2020-02-11 | 2020-06-16 | 腾讯科技(深圳)有限公司 | 信息处理方法、装置、介质及电子设备 |
CN111389006A (zh) * | 2020-03-13 | 2020-07-10 | 网易(杭州)网络有限公司 | 一种动作预测方法及装置 |
Non-Patent Citations (2)
Title |
---|
没关系丶是爱情啊: "一种简单的2D Roguelike地图生成算法", Retrieved from the Internet <URL:https://blog.csdn.net/OvejeJ1/article/details/104668607/> * |
申时全: "Linux多线程编程技术在掷骰子游戏模拟程序中的应用", 《微型机与应用》, pages 85 - 88 * |
Also Published As
Publication number | Publication date |
---|---|
CN113144605B (zh) | 2024-03-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhang | Multi-objective simulation-optimization for earthmoving operations | |
Guisan et al. | Making better biogeographical predictions of species’ distributions | |
Hämäläinen et al. | Path dependence in operational research—how the modeling process can influence the results | |
Hotz‐Behofsits et al. | Predicting crypto‐currencies using sparse non‐Gaussian state space models | |
CN111242310B (zh) | 特征有效性评估方法、装置、电子设备及存储介质 | |
Srivastava et al. | Software test effort estimation: a model based on cuckoo search | |
JP5023325B2 (ja) | リカレントニューラルネットワークを用いた不規則時系列データの学習・予測方法 | |
Piou et al. | Proposing an information criterion for individual-based models developed in a pattern-oriented modelling framework | |
Sarkale et al. | Solving Markov decision processes for network-level post-hazard recovery via simulation optimization and rollout | |
CN111026272A (zh) | 虚拟对象行为策略的训练方法及装置、电子设备、存储介质 | |
JP2021071791A (ja) | 情報処理装置、情報処理方法、およびプログラム | |
Cerqueira et al. | Dynamic and heterogeneous ensembles for time series forecasting | |
Kaka et al. | Development of a company‐level dynamic cash flow forecasting model (DYCAFF) | |
dos Santos et al. | Neural Expert Weighting: A NEW framework for dynamic forecast combination | |
Al-Mudafer et al. | Stochastic loss reserving with mixture density neural networks | |
Nguyen et al. | SpeedyIBL: A comprehensive, precise, and fast implementation of instance-based learning theory | |
Sakatani | Combining RNN with Transformer for Modeling Multi-Leg Trips. | |
Zhao et al. | LandSys II: Agent-based land use–forecast model with artificial neural networks and multiagent model | |
Delcea et al. | GM (1, 1) in bankruptcy forecasting | |
CN113144605B (zh) | 一种用户行为模拟方法、装置、电子设备及存储介质 | |
Angelotti et al. | Towards a more efficient computation of individual attribute and policy contribution for post-hoc explanation of cooperative multi-agent systems using Myerson values | |
CN115859765B (zh) | 城市扩张的预测方法、装置、设备及存储介质 | |
CN111291868A (zh) | 网络模型训练方法、装置、设备及计算机可读存储介质 | |
Fieberg et al. | Design and analysis of simple choice surveys for natural resource management | |
Micu et al. | The Genetic Approach of Marketing Research |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |