CN113144605A

CN113144605A - 一种用户行为模拟方法、装置、电子设备及存储介质

Info

Publication number: CN113144605A
Application number: CN202110241480.0A
Authority: CN
Inventors: 陈坤龙
Original assignee: Bigo Technology Pte Ltd
Current assignee: Bigo Technology Pte Ltd
Priority date: 2021-03-04
Filing date: 2021-03-04
Publication date: 2021-07-23
Anticipated expiration: 2041-03-04
Also published as: CN113144605B

Abstract

本申请提供了一种用户行为模拟方法、装置、电子设备及存储介质，该方法包括：根据获取的地图配置信息及行为价值函数，在游戏地图中对用户进行行为模拟，得到预测行为轨迹；针对每个状态信息及对应的行为信息的组合，从预测行为轨迹中查找该组合对应的轨迹信息，根据查找到的轨迹信息中的奖励信息，更新行为价值函数，并返回根据地图配置信息及行为价值函数，在游戏地图中对用户进行行为模拟，得到预测行为轨迹的步骤，直至收敛；在获取到当前状态信息之后，根据行为价值函数，计算不同行为信息对应的奖励信息，根据计算得到的取值较高的奖励信息对应的行为信息，模拟用户行为。这样，最终得到能够模拟用户行为的行为价值函数，用于模拟用户行为。

Description

一种用户行为模拟方法、装置、电子设备及存储介质

技术领域

本申请涉及行为分析技术领域，特别是涉及一种用户行为模拟方法、装置、电子设备及存储介质。

背景技术

掷骰通关类型的游戏是一种常见的小游戏类型，在这类游戏中的主要元素有游戏角色、游戏地图和骰子，其中，游戏角色是用户在游戏中的代理，游戏地图是游戏角色在游戏过程中所处的环境，在用户每次做决策时，需要投掷一次骰子。用户的行为受到骰子掷出点数的制约。

举例而言，在爬房子游戏中，用户需要同时操纵2个游戏角色，首先，用户每轮可以投掷一次骰子，并根据骰子掷出的点数做出相应的决策，进而通过操纵决策中选定的游戏角色，与游戏地图进行交互，在游戏地图的格子上前进掷出的点数个格子，直到2个游戏角色同时达到指定的位置，完成游戏的通关。

其中，用户每次投掷骰子的成本为c，在游戏地图的格子上，会随机摆放M个礼物，用户操纵的角色如果踩到了某个格子上，就会获得这个格子上摆放的礼物，得到特定的金额，而且，当游戏通关后，用户也会得到特定金额的奖励。因此，假设用户在一局游戏中一共获取的奖品金额为V，用户进行一轮游戏一共投掷了t次骰子，那么用户在此局游戏中一共花费的金额是ct，可以计算出用户单局游戏的净收益是V-ct。

为了增加游戏的趣味性，游戏平台需要随机化生成游戏地图，使得用户每次游戏时使用的地图是不一样的，但是，一方面，对于游戏平台而言，需要维持用户单局游戏的净收益非正，而对于用户而言，则期望尽可能在每轮游戏中取得更大的收益。因此，游戏平台需要保证“最聪明的用户”在随机化生成的游戏地图中的期望净利润非正，才能将生成的游戏地图上线展示给用户。

目前，亟需一种用户行为模拟方法。

发明内容

为解决上述技术问题，本申请示出了一种用户行为模拟方法、装置、电子设备及存储介质。

第一方面，本申请示出了一种用户行为模拟方法，所述方法包括：

获取游戏地图的地图配置信息及用户的行为价值函数；

根据所述地图配置信息及所述行为价值函数，在所述游戏地图中对所述用户进行行为模拟，得到预测行为轨迹，所述预测行为轨迹中包括多个连续的轨迹信息，每个轨迹信息包括状态信息、行为信息及奖励信息；

针对每个所述状态信息及对应的行为信息的组合，从所述预测行为轨迹中查找该组合对应的轨迹信息，根据查找到的轨迹信息中的奖励信息，更新所述行为价值函数，并返回所述根据所述地图配置信息及所述行为价值函数，在所述游戏地图中对所述用户进行行为模拟，得到预测行为轨迹的步骤，直至所述行为价值函数收敛；

在获取到当前状态信息之后，根据收敛后的所述行为价值函数及所述当前状态信息，分别计算不同行为信息对应的奖励信息，根据计算得到的取值最高的奖励信息对应的行为信息，模拟用户在当前状态的行为。

第二方面，本申请示出了一种用户行为模拟装置，所述装置包括：

获取模块，用于获取游戏地图的地图配置信息及用户的行为价值函数；

预测模块，用于根据所述地图配置信息及所述行为价值函数，在所述游戏地图中对所述用户进行行为模拟，得到预测行为轨迹，所述预测行为轨迹中包括多个连续的轨迹信息，每个轨迹信息包括状态信息、行为信息及奖励信息；

更新模块，用于针对每个所述状态信息及对应的行为信息的组合，从所述预测行为轨迹中查找该组合对应的轨迹信息，根据查找到的轨迹信息中的奖励信息，更新所述行为价值函数，并返回所述根据所述地图配置信息及所述行为价值函数，在所述游戏地图中对所述用户进行行为模拟，得到预测行为轨迹的步骤，直至所述行为价值函数收敛；

模拟模块，用于在获取到当前状态信息之后，根据收敛后的所述行为价值函数及所述当前状态信息，分别计算不同行为信息对应的奖励信息，根据计算得到的取值最高的奖励信息对应的行为信息，模拟用户在当前状态的行为。

第三方面，本申请示出了一种电子设备，所述电子设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一项所述的用户行为模拟方法的步骤。

第四方面，本申请示出了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项所述的用户行为模拟方法的步骤。

与现有技术相比，本申请包括以下优点：

在本申请中，首先，获取游戏地图的地图配置信息及用户的行为价值函数；根据地图配置信息及行为价值函数，在游戏地图中对用户进行行为模拟，得到预测行为轨迹，预测行为轨迹中包括多个连续的轨迹信息，每个轨迹信息包括状态信息、行为信息及奖励信息；然后，针对每个状态信息及对应的行为信息的组合，从预测行为轨迹中查找该组合对应的轨迹信息，根据查找到的轨迹信息中的奖励信息，更新行为价值函数，并返回根据地图配置信息及行为价值函数，在游戏地图中对用户进行行为模拟，得到预测行为轨迹的步骤，直至收敛；在获取到当前状态信息之后，根据行为价值函数，计算不同行为信息对应的奖励信息，根据计算得到的取值最高的奖励信息对应的行为信息，模拟用户行为。

这样，通过对地图配置信息的不断学习，使得行为价值函数收敛，最终得到能够模拟用户行为的行为价值函数，用于模拟用户行为，进而便于计算 “最聪明的用户”在地图配置信息对应的游戏地图中的净收益，满足游戏平台对游戏地图有效性的判断需求。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1是本申请的一种用户行为模拟方法的步骤流程图；

图2是用户与环境的交互过程的示意图；

图3是通过强化学习优化策略的方案示意图；

图4是本申请的一种用户行为模拟装置的结构框图；

图5是本申请的一种电子设备的结构框图。

具体实施方式

下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例，然而应当理解，可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本发明，并且能够将本发明的范围完整的传达给本领域的技术人员。

下面将通过具体的实施例，对本发明实施例提供的用户行为模拟方法进行详细描述。

参照图1，示出了本申请的一种用户行为模拟方法的步骤流程图，该方法具体可以包括如下步骤：

S101：获取游戏地图的地图配置信息及用户的行为价值函数。

为了增加游戏的趣味性，游戏平台需要随机化生成游戏地图，使得用户每次游戏时使用的地图是不一样的，每个游戏地图都会对应不同的地图配置信息。行为价值函数可以表示为Q(S_t,A_t)。

一种实现方式中，在初始状态下，可以将Q(S_t,A_t)中的各项数值置0，也就是说，初始状态下，行为价值函数预测用户在任意状态下采取任一行为的概率都是相同的。或者，也可以获取先验信息，根据先验信息设置Q(S_t,A_t) 中的各项数值的初始值，具体不作限定。

假设地图是线性的，长度为N。地图上的格子可以用G＝{g₀,g₁,g₂,…,g_N} 表示，角色的起始点在g₀。不妨我们可以假设g_i＝i，即g_i可以用i号格子指代。游戏中可能设置快速移动的方法机关，用[(s₁,e₁),(s₂,e₂),…]表示。s_i意味是机关触发时的格子代号，e_i是出发该机关时瞬间到达的格子代号。每一轮游戏中用户投掷一次骰子，成本为c。骰子是一个公平的骰子，每一次掷骰有六分之一的概率掷出1-6的点数。假设投掷的点数为p，则有户当前前进p个格子。即若该轮用户的位置是g_i，则下轮用户的位置是g_i+p。唯一的例外是用户若当前轮离终点的距离N-i小于p,为了保证用户的位置不会超过地图上限，用户会前进到N-(g_i+p-N)的位置。格子上会随机摆放M个礼物，用户操纵的角色如果踩到了某个的礼物，会获得特定的金额。礼物的属性是一个(价值，位置)的二元组，第m个格子的属性用(v_m,g_m)表示。假设用户在一局游戏中一共获取的奖品金额为V，用户进行一轮游戏一共投掷了t次骰子，那么用户在此局游戏中一共花费的金额是ct，可以计算出用户单局游戏的净收益是V-ct。

S102：根据地图配置信息及行为价值函数，在游戏地图中对用户进行行为模拟，得到预测行为轨迹。

其中，预测行为轨迹中包括多个连续的轨迹信息，每个轨迹信息包括状态信息、行为信息及奖励信息。状态信息用于指示该轨迹信息所处时刻的状态，比如，第一角色的位置、第二角色的位置以及投掷点数；行为信息指示该轨迹信息中用户所采取的行为，比如，移动第一角色的位置或移动第二角色的位置；奖励信息指示该轨迹信息所处时刻的状态下，采取行为信息指示的行为后，用户获得的奖励。

在本步骤中，可以利用蒙特卡罗方法在游戏地图中对用户进行行为模拟，采样出很多个连续的轨迹信息，得到预测行为轨迹。其中，模拟的量级一般需要比较大，比如几万次或者几十万次。

举例而言，采样的次数可以为10000次，每次采样对应一个时刻，比如，第t次采样也就是t时刻，得到的预测行为轨迹可以表示为 S₀,A₀,R₁,S₁,A₁,R₂,S₂,A₂,R₃,…，其中，S_t表示t时刻的状态信息，是对当前环境的抽象性描述，A_t表示t时刻的行为信息，是用户在当前状态时作出的对应的行为，R_t表示t时刻的奖励信息，是对用户行为给予的回报。

或者，也可以采用SARSA或者Q-learning方法对用户进行行为模拟，采样出很多个连续的轨迹信息，得到预测行为轨迹，本申请对此不作限定。

S103：针对每个状态信息及对应的行为信息的组合，从预测行为轨迹中查找该组合对应的轨迹信息，根据查找到的轨迹信息中的奖励信息，更新行为价值函数，并返回根据地图配置信息及行为价值函数，在游戏地图中对用户进行行为模拟，得到预测行为轨迹的步骤，直至行为价值函数收敛。

在本步骤中，不同的状态信息及行为信息可以作为一个组合，可以理解，在预测行为轨迹足够长的情况下，同一组合在预测行为轨迹中会出现多次，因此，从预测行为轨迹中可以查找到每个组合对应的多个轨迹信息。根据查找到的轨迹信息中的奖励信息，可以更新行为价值函数，进而通过更新后的行为价值函数，不断模拟预测行为轨迹，对行为价值函数迭代更新，直至行为价值函数收敛。

在本申请中，可以通过强化学习对行为价值函数进行收敛，在强化学习的框架下，假设每个用户强调如何基于环境信息而行动，以取得最大化的预期利益。在一般的强化学习中，采用一阶马尔科夫假设，在给定用户当前的状态信息时，用户的行为信息与之前的状态信息互相独立。

其中，用户与环境的交互过程如图2所示，在每一个时刻t,用户可以通过对环境进行观测，获得当前时刻的状态表示S_t，随后，用户通过一个自身的策略π结合状态S_t生成一个行为A_t，其中，策略是一个把状态映射行为的概率测度。

策略的形式为π(a|s)，当S_t＝s的时候，A_t＝a的概率。这样的行为与环境交互得到一定的回报R_t。在一阶马尔科夫假设的假设下(也就是所谓的MDP)，对环境的动力学有以下假设，即p(s′,r|s,a)＝p(S_t＝s,R_t＝ r|S_t-1＝s,A_t-1＝a)，也就是说，t时刻S_t与R_t的联合分布，将从一个预设的概率分布的关于S_t-1与A_t-1的边缘分布中采样。举例而言，如图3所示，为通过强化学习优化策略的方案示意图。

一种实现方式中，根据查找到的轨迹信息中的奖励信息，更新行为价值函数，包括：

针对每个查找到的轨迹信息，对该轨迹信息及其之后查找到的其他轨迹信息中的奖励信息进行加权求和，得到该轨迹信息的回报值，其中，每个奖励信息的权重与其对应的轨迹信息与该轨迹信息之间的距离成反比；计算每个组合对应的多个轨迹信息的回报值的均值，作为该组合的回报值，更新行为价值函数中该组合的回报值。

举例而言，可以采用如下公式，针对每个查找到的轨迹信息，对该轨迹信息及其之后查找到的其他轨迹信息中的奖励信息进行加权求和，得到该轨迹信息的回报值：

其中，γ是预设折现因子，取值为0≤γ≤1，G_t为该轨迹信息的回报值，t为当前轨迹信息的位置，R_t+1、R_t+2……R_t+k+1为该轨迹信息之后的轨迹信息的奖励信息，inf表示无穷大。

S104：在获取到当前状态信息之后，根据收敛后的行为价值函数及当前状态信息，分别计算不同行为信息对应的奖励信息，根据计算得到的取值最高的奖励信息对应的行为信息，模拟用户在当前状态的行为。

举例而言，行为信息对应多个预设用户行为中的任一种，那么，可以针对每个行为信息，确定当前状态信息与该行为信息分别对应的组合，作为候选组合；根据收敛后的行为价值函数，计算每个候选组合对应的回报值，作为该候选组合中行为信息对应的奖励信息。

进而，可以根据计算得到的取值最高的奖励信息对应的行为信息，模拟用户在当前状态的行为，也就是说，根据收益最大的行为信息模拟用户在当前状态的行为，这样，可以预测最聪明的用户的行为。

一种实现方式中，状态信息中包括第一角色的位置、第二角色的位置以及投掷点数，举例而言，第t时刻的状态S_t可以定义为：

其中，

是第一个角色的t时刻位置，为一个非负整数，

是第二个角色的t时刻位置，为一个非负整数，p_t是t时刻投掷骰子的结果，为一个1-6之间的整数。

行为信息中包括选择第一角色或选择第二角色，举例而言，第t时刻的行动A_t可以表示成1或者2之间的一个整数，如果A_t＝1，移动第一角色，如果A_t＝2，移动第二角色。

用户t时刻的奖励R_t为一个正实数，为用户在t时刻的收益，举例而言，如果t时刻用户操作的某个角色获得了价值为v_m的礼物，那么，R_t＝v_m-c；如果t时刻用户操作的某个角色并未获得礼物，那么，R_t＝-c。

在获取到当前状态信息之后，根据行为价值函数，计算不同行为信息对应的当前状态信息的奖励信息，包括：

在获取到当前状态信息之后，将当前状态信息中的第一角色的位置、第二角色的位置以及投掷点数输入至行为价值函数，计算得到选择第一角色的奖励信息以及选择第二角色的奖励信息。

本申请中，在确定当前状态信息的对应的用户行为之后，还可以获取新的当前状态信息；返回在获取到当前状态信息之后，根据收敛后的所述行为价值函数及所述当前状态信息，分别计算不同行为信息对应的奖励信息，根据计算得到的取值最高的奖励信息对应的行为信息，模拟用户在当前状态的行为的步骤，直至当前状态信息满足预设通关条件，表示本轮游戏结束；根据本轮游戏中轨迹信息的数量，计算得到本轮游戏的净收益；若净收益非负，则获取新的地图配置信息；若净收益为负，则根据地图配置信息向用户展示游戏地图。

可以理解，对于平台方来说，需要游戏地图在平均水平下用户的净利润非正，这样的游戏地图是有效的。在此基础上，如果用户行为模拟的最优策略期望净收益为负，则可以保证整体用户的期望净收益一定为负，相反的，如果最优策略净收益为正，不能保证整体用户的期望净收益为正，这和用户的整体水平有关。

举例而言，假设我们现在有张游戏地图，格子数量为49，礼物列表为： [(5,6,(4,13),(4,21),(4,29),(4,36)]，完成游戏最终奖励为18，用户行为模拟的结果列表为：[(16,11),(34,22),(47,39),(9,18),(25,32),(41,48)]，可以得到用户在这样的地图上的期望收益率是0.09,因此该游戏地图不是一个有效的地图，需要获取新的地图配置信息。

由以上可见，本申请中通过对地图配置信息的不断学习，使得行为价值函数收敛，最终得到能够模拟用户行为的行为价值函数，用于模拟用户行为，进而便于计算“最聪明的用户”在地图配置信息对应的游戏地图中的净收益，满足游戏平台对游戏地图有效性的判断需求。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于可选实施例，所涉及的动作并不一定是本申请所必须的。

参照图4，示出了本申请的一种用户行为模拟装置的结构框图，该装置具体可以包括如下模块：

获取模块201，用于获取游戏地图的地图配置信息及用户的行为价值函数；

预测模块202，用于根据所述地图配置信息及所述行为价值函数，在所述游戏地图中对所述用户进行行为模拟，得到预测行为轨迹，所述预测行为轨迹中包括多个连续的轨迹信息，每个轨迹信息包括状态信息、行为信息及奖励信息；

更新模块203，用于针对每个所述状态信息及对应的行为信息的组合，从所述预测行为轨迹中查找该组合对应的轨迹信息，根据查找到的轨迹信息中的奖励信息，更新所述行为价值函数，并返回所述根据所述地图配置信息及所述行为价值函数，在所述游戏地图中对所述用户进行行为模拟，得到预测行为轨迹的步骤，直至所述行为价值函数收敛；

模拟模块204，用于在获取到当前状态信息之后，根据收敛后的所述行为价值函数及所述当前状态信息，分别计算不同行为信息对应的奖励信息，根据计算得到的取值最高的奖励信息对应的行为信息，模拟用户在当前状态的行为。

一种实现方式中，所述更新模块203，具体用于：

针对每个查找到的轨迹信息，对该轨迹信息及其之后查找到的其他轨迹信息中的奖励信息进行加权求和，得到该轨迹信息的回报值，其中，每个奖励信息的权重与其对应的轨迹信息与该轨迹信息之间的距离成反比；

计算每个组合对应的多个轨迹信息的回报值的均值，作为该组合的回报值，更新所述行为价值函数中该组合的回报值。

一种实现方式中，所述更新模块203，具体用于采用如下公式，针对每个查找到的轨迹信息，对该轨迹信息及其之后查找到的其他轨迹信息中的奖励信息进行加权求和，得到该轨迹信息的回报值：

一种实现方式中，所述行为信息对应多个预设用户行为中的任一种，所述模拟模块204，具体用于：

针对每个行为信息，确定所述当前状态信息与该行为信息分别对应的组合，作为候选组合；

根据收敛后的所述行为价值函数，计算每个候选组合对应的回报值，作为该候选组合中行为信息对应的奖励信息

一种实现方式中，所述状态信息中包括第一角色的位置、第二角色的位置以及投掷点数，所述行为信息中包括选择所述第一角色或选择所述第二角色；

所述模拟模块204，具体用于：

在获取到当前状态信息之后，将所述当前状态信息中的第一角色的位置、第二角色的位置以及投掷点数输入至所述行为价值函数，计算得到选择所述第一角色的奖励信息以及选择所述第二角色的奖励信息。

一种实现方式中，所述装置还包括检测模块(图中未示出)，用于：

获取新的当前状态信息；

返回所述在获取到当前状态信息之后，根据收敛后的所述行为价值函数及所述当前状态信息，分别计算不同行为信息对应的奖励信息，根据计算得到的取值最高的奖励信息对应的行为信息，模拟用户在当前状态的行为的步骤，直至所述当前状态信息满足预设通关条件，表示本轮游戏结束；

根据本轮游戏中轨迹信息的数量，计算得到本轮游戏的净收益；

若所述净收益非负，则获取新的地图配置信息；若所述净收益为负，则根据所述地图配置信息向所述用户展示游戏地图。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本发明实施例提供的用户行为模拟装置具备执行用户行为模拟方法相应的功能模块，可执行本发明实施例所提供的用户行为模拟方法，且能达到相同的有益效果。

在本发明提供的又一实施例中，还提供了一种电子设备，电子设备可以包括：处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现上述用户行为模拟方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。示例的，如图5所示，该电子设备具体可以包括：处理器301、存储装置302、具有触摸功能的显示屏303、输入装置304、输出装置305以及通信装置306。该电子设备中处理器301的数量可以是一个或者多个，图5中以一个处理器 301为例。该电子设备的处理器301、存储装置302、显示屏303、输入装置 304、输出装置305以及通信装置306可以通过总线或者其他方式连接。

在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的用户行为模拟方法。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的用户行为模拟方法。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、 “包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种用户行为模拟方法，其特征在于，所述方法包括：

获取游戏地图的地图配置信息及用户的行为价值函数；

2.根据权利要求1所述的方法，其特征在于，所述根据查找到的轨迹信息中的奖励信息，更新所述行为价值函数，包括：

3.根据权利要求2所述的方法，其特征在于，采用如下公式，针对每个查找到的轨迹信息，对该轨迹信息及其之后查找到的其他轨迹信息中的奖励信息进行加权求和，得到该轨迹信息的回报值：

4.根据权利要求2所述的方法，其特征在于，所述行为信息对应多个预设用户行为中的任一种，所述根据收敛后的所述行为价值函数及所述当前状态信息，分别计算不同行为信息对应的奖励信息，包括：

根据收敛后的所述行为价值函数，计算每个候选组合对应的回报值，作为该候选组合中行为信息对应的奖励信息。

5.根据权利要求1所述的方法，其特征在于，所述状态信息中包括第一角色的位置、第二角色的位置以及投掷点数，所述行为信息中包括选择所述第一角色或选择所述第二角色；

所述在获取到当前状态信息之后，根据所述行为价值函数，计算不同行为信息对应的所述当前状态信息的奖励信息，包括：

6.根据权利要求1所述的方法，其特征在于，在所述根据计算得到的取值最高的奖励信息对应的行为信息，模拟用户在当前状态的行为之后，所述方法还包括：

获取新的当前状态信息；

7.一种用户行为模拟装置，其特征在于，所述装置包括：

8.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至6中任一项所述的用户行为模拟方法的步骤。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述的用户行为模拟方法的步骤。