CN112001071A

CN112001071A - 模拟竞猜数据的确定方法、装置、设备及介质

Info

Publication number: CN112001071A
Application number: CN202010820008.8A
Authority: CN
Inventors: 陈坤龙
Original assignee: Guangzhou Baiguoyuan Information Technology Co Ltd
Current assignee: Guangzhou Baiguoyuan Information Technology Co Ltd
Priority date: 2020-08-14
Filing date: 2020-08-14
Publication date: 2020-11-27

Abstract

本申请实施例公开了一种模拟竞猜数据的确定方法、装置、设备及介质，属于仿真技术领域。该方法包括：从内存中读取虚拟用户帐号对应的当前竞猜状态；通过运行数据模拟程序，根据当前竞猜状态和目标竞猜策略，确定当前竞猜状态下对应的至少一个候选模拟竞猜数据，目标竞猜策略中不同模拟竞猜数据对应不同目标竞猜权重；根据目标竞猜权重从至少一个候选模拟竞猜数据中确定出目标模拟竞猜数据，并将目标模拟竞猜数据写入内存，目标模拟竞猜数据用于生成虚拟用户帐号的当前模拟竞猜结果。可以使得模拟的竞猜数据接近于真实用户的选择，从而使得仿真竞猜结果更接近于真实用户对应的真实竞猜结果，进而提高评估竞猜活动对应的竞猜结果生成规则的准确性。

Description

模拟竞猜数据的确定方法、装置、设备及介质

技术领域

本申请实施例涉及仿真技术领域，特别涉及一种模拟竞猜数据的确定方法、装置、设备及介质。

背景技术

在直播平台或社交平台中，设置有竞猜活动，当多个用户参与竞猜活动时，每一轮竞猜活动每个用户均需要在至少两个候选竞猜选项中选择一个竞猜选项，并为该竞猜选项分配一定的竞猜资源，平台通过汇总多个用户的竞猜数据后，由活动平台方基于竞猜结果生成规则生成竞猜答案(该竞猜答案为至少两个候选竞猜选中的一个)，若用户的竞猜选项与该竞猜答案一致，即表示竞猜正确，可以获得一定的竞猜资源。竞猜活动的设计者为了保证竞猜活动的竞猜结果符合预期期望，需要对竞猜活动进行仿真，模拟竞猜用户在竞猜活动中的交互行为，从而评估竞猜结果生成规则是否合理。

相关技术中，在对竞猜活动进行仿真时，通过设置虚拟用户，并由虚拟用户执行固定或完全随机的活动策略，来获取各个虚拟用户对应的模拟竞猜结果，通过分析该模拟竞猜结果来评估竞猜结果生成规则的合理性。

显然，相关技术中虚拟用户的竞猜行为由固定或随机策略决定，由于真实用户在进行竞猜活动时，并不仅仅采用完全随机或固定的竞猜策略，这就导致模拟竞猜结果和真实竞猜结果之间的差距较大，从而影响评估竞猜结果生成规则的准确性。

发明内容

本申请实施例提供了一种模拟竞猜数据的确定方法、装置、设备及介质。所述技术方案如下：

一方面，本申请实施例提供了一种模拟竞猜数据的确定方法，所述方法应用于计算机设备，所述方法包括：

从内存中读取虚拟用户帐号对应的当前竞猜状态，所述当前竞猜状态包括所述虚拟用户帐号对应的竞猜资源状态、竞猜选项情况和竞猜结果情况中的至少一种；

通过运行数据模拟程序，根据所述当前竞猜状态和目标竞猜策略，确定所述当前竞猜状态下对应的至少一个候选模拟竞猜数据，所述目标竞猜策略用于表示竞猜状态和模拟竞猜数据之间的关系，且所述目标竞猜策略中不同模拟竞猜数据对应不同目标竞猜权重，所述竞猜权重表征所述模拟竞猜数据为正向竞猜数据的概率，所述正向竞猜数据表示所述模拟竞猜数据对应的模拟竞猜结果为竞猜正确，所述候选模拟竞猜数据至少包括竞猜选项和竞猜参与状态；

根据所述目标竞猜权重从所述至少一个候选模拟竞猜数据中确定出目标模拟竞猜数据，并将所述目标模拟竞猜数据写入内存，所述目标模拟竞猜数据用于生成所述虚拟用户帐号的当前模拟竞猜结果。

另一方面，本申请实施例提供了一种模拟竞猜数据的确定装置，所述装置应用于计算机设备，所述装置包括：

第一获取模块，用于从内存中读取虚拟用户帐号对应的当前竞猜状态，所述当前竞猜状态包括所述虚拟用户帐号对应的竞猜资源状态、竞猜选项情况和竞猜结果情况中的至少一种；

第一确定模块，用于通过运行数据模拟程序，根据所述当前竞猜状态和目标竞猜策略，确定所述当前竞猜状态下对应的至少一个候选模拟竞猜数据，所述目标竞猜策略用于表示竞猜状态和模拟竞猜数据之间的关系，且所述目标竞猜策略中不同模拟竞猜数据对应不同目标竞猜权重，所述竞猜权重表征所述模拟竞猜数据为正向竞猜数据的概率，所述正向竞猜数据表示所述模拟竞猜数据对应的模拟竞猜结果为竞猜正确，所述候选模拟竞猜数据至少包括竞猜选项和竞猜参与状态；

第二确定模块，用于根据所述目标竞猜权重从所述至少一个候选模拟竞猜数据中确定出目标模拟竞猜数据，并将所述目标模拟竞猜数据写入内存，所述目标模拟竞猜数据用于生成所述虚拟用户帐号的当前模拟竞猜结果。

另一方面，本申请实施例提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述方面所述的模拟竞猜数据的确定方法。

另一方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上述方面所述的模拟竞猜数据的确定方法。

另一方面，本申请实施例提供了一种计算机程序产品，该计算机程序产品包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述方面所述的模拟竞猜数据的确定方法。

本申请实施例提供的技术方案带来的有益效果至少包括:

在进行竞猜活动仿真过程中，目标竞猜策略可以基于当前竞猜状态来确定对应的多个模拟竞猜数据(目标竞猜数据非固定)，且不同模拟竞猜策略还对应有不同的目标竞猜权重(目标竞猜数据非完全随机)，可以进一步模拟真实用户基于竞猜状态决定下一轮竞猜行为(即竞猜数据)的心理，同时可以模拟真实用户期望竞猜行为可以得到更高奖励的心理(通过为不同竞猜行为设置不同竞猜权重来实现)，通过上述两个方面来模拟竞猜数据，可以使得模拟的竞猜数据接近于真实用户的选择数据，从而使得仿真竞猜结果更接近于真实用户对应的真实竞猜结果，进而提高评估竞猜活动对应的竞猜结果生成规则的准确性。

附图说明

图1示出了本申请一个示例性实施例示出的竞猜活动的模型示意图；

图2示出了本申请一个示例性实施例示出的仿真系统结构框图；

图3示出了本申请一个示例性实施例示出的模拟竞猜数据的确定方法的流程图；

图4示出了本申请另一个示例性实施例示出的模拟竞猜数据的确定方法的流程图；

图5示出了本申请另一个示例性实施例示出的模拟竞猜数据的确定方法的流程图；

图6示出了本申请另一个示例性实施例示出的模拟竞猜数据的确定方法的流程图；

图7示出了本申请一个示例性实施例示出的用户与环境之间的交互过程示意图；

图8示出了本申请一个示例性实施例示出的训练过程的示意图；

图9示出了本申请另一个示例性实施例示出的模拟竞猜数据的确定方法的流程图；

图10示出了本申请一个示例性实施例提供的模拟竞猜数据的确定装置的结构框图；

图11示出了本申请一个示例性实施例提供的计算机设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

在本文中提及的“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

请参考图1，其示出了本申请一个示例性实施例示出的竞猜活动的模型示意图，如图1所示，每次参与竞猜活动的竞猜用户集合101中可以包括N个用户(如图1所示的用户1-用户N)，在竞猜活动开始后，用户可以在竞猜选项集合102中任意选择目标竞猜选项作为该用户在本轮竞猜活动中的竞猜选项(如图1中所示的用户1选择选项3作为用户1对应的竞猜选项，且用户不会知晓其他用户的竞猜选项)，并为竞猜选项分配一定的竞猜资源；当所有用户选择竞猜选项结束后，由竞猜活动平台收集汇总本轮竞猜活动中所有竞猜用户的竞猜数据(包括竞猜选项、为该竞猜选项分配的竞猜资源和竞猜参与状态)，并将该竞猜数据输入竞猜结果生成规则103中，由竞猜结果生成规则103生成本轮竞猜活动对应的竞猜答案104，即目标竞猜选项，比较该目标竞猜选项和各个用户对应的竞猜数据，并将竞猜结果反馈给各个用户，比如，若某个用户选中的竞猜选项和该竞猜答案104一致，则对应增加该用户对应的竞猜资源，否则，减少竞猜资源。

在上述竞猜活动模型中，如果竞猜结果生成规则被竞猜活动方良好设计，即具有一定的公平性和随机性，在竞猜活动中，竞猜用户由于不具备其他竞猜用户的竞猜数据以及竞猜结果生成规则，因此，用户也就无法具备选择哪个竞猜选项可以获得较高竞猜胜率的能力，从而使得竞猜用户的胜率维持在正常水平。若竞猜结果生成规则的设计存在异常，可能导致部分竞猜用户通过观测历史竞猜结果对未来竞猜结果进行预测，从而达到较高的胜率水平，影响竞猜活动的公平性；而对于另一部分竞猜水平不佳的用户可能会由于胜率过低，从而退出该竞猜活动，不利于该竞猜活动的推广；此外，对于竞猜活动设计方来说，在设计竞猜活动的过程中，都期望该竞猜活动的竞猜结果可以符合一定的预期，比如，每个竞猜选项在竞猜答案中出现的频率是否符合预期、或竞猜答案是否存在一定的随机性(不可预测性)等。可见，从用户角度或竞猜活动设计方的角度来说，均需要预先对竞猜活动进行仿真，在仿真环境中模拟用户和竞猜活动之间的交互行为，从而根据竞猜结果来评估竞猜结果生成规则的合理性，或是否符合竞猜活动设计方的期望。

而相关技术中所采用的仿真方式，一种是为用户设置固定的竞猜策略，比如，为虚拟用户A选择固定的竞猜数据；一种是设置完全随机的竞猜策略，比如，存在4个竞猜选项，进行随机采样获得用户的竞猜数据，这样虽然设置简单，但是对于真实用户来说，在多轮竞猜活动中并不会都选择相同竞猜数据，且真实用户会基于竞猜结果的反馈来改变自己的竞猜数据，因此，采用上述竞猜策略来对竞猜活动进行仿真，会导致仿真结果和真实结果存在较大的偏差，从而降低了竞猜活动仿真的准确性。

在一种可能的应用场景中，上述竞猜活动可以应用于直播场景中，主播在其直播间中设置有互动活动，在互动活动中设置有至少两个候选互动选项，观看该直播的用户可以参与该互动活动，也可以不参与该互动活动，当用户选择参与该互动活动后，可以在候选互动选项中选择任一互动选项作为本轮互动活动对应的目标互动选项，并由直播平台收集所有参与用户对应的互动数据(可以包括互动选项、互动资源等)，由预设的互动结果生成规则基于该互动数据生成互动答案，若用户所选择的目标互动选项与该互动答案一致，则表示该用户竞猜正确，可以获得相应的虚拟资源，该虚拟资源可以用于参与下一轮次的互动活动，也可以用于为任意主播赠送虚拟礼物等，通过该互动活动可以增加主播和观众之间的互动性。

当确定上述互动活动是否合理或公平时，就需要预先对该互动活动进行仿真，通过模拟用户参与互动活动时所对应的互动数据，并根据该互动数据来模拟互动结果，从而根据该互动结果来分析该互动活动的设计是否合理，避免因为互动活动设计的不公平性，影响该直播间中主播与观众之间的互动性。

不同于相关技术中的竞猜数据确定方式(即随机竞猜数据或固定竞猜数据)，本申请实施例提供了一种仿真系统，请参考图2，其示出了本申请一个示例性实施例示出的仿真系统结构框图，该仿真系统中包含用户模块201、环境模块202和竞猜机制模块203。

用户模块201是用于生成各个虚拟用户帐号对应的模拟竞猜数据的功能模块。本申请实施例中，用户模块201中设置有多个虚拟用户帐号对应的目标竞猜策略，用户模块201可以基于各个虚拟用户帐号对应的竞猜状态和目标竞猜策略，比如，虚拟用户帐号所拥有的竞猜资源、竞猜选项(比如，历史竞猜选项)、竞猜结果(历史竞猜中的竞猜答案)等，来确定当前竞猜状态下对应的多个候选模拟竞猜数据和其对应的目标竞猜权重，并基于目标竞猜权重来选择该虚拟用户帐号对应的目标模拟竞猜数据，并将该目标模拟竞猜数据发送给环境模块202。

环境模块202是用于进行竞猜机制模块203和用户模块201之间信息交互的功能模块。一方面，环境模块202可以获取用户模块201发送的至少一个虚拟用户帐号对应的目标模拟竞猜数据，并发送给竞猜机制模块203；另一方面，环境模块202可以接收竞猜机制模块203发送的模拟竞猜结果，并基于该模拟竞猜结果向用户模块201反馈各个虚拟用户帐号的竞猜状态和竞猜结果，用于更新各个虚拟用户帐号对应的竞猜状态。

竞猜机制模块203中包含有待仿真的竞猜活动的竞猜结果生成规则。在本申请实施例中，竞猜机制模块203可以接收来自环境模块202发送的至少一个虚拟用户帐号对应的目标模拟竞猜数据，并根据该目标模拟竞猜数据和竞猜结果生成规则，生成模拟竞猜结果，通过环境模块202反馈给用户模块201。

需要说明的是，在每轮游戏中，均需经过上述三个模块之间的交互，从而实现对竞猜活动的仿真，得到多轮竞猜活动的模拟竞猜结果，用于分析竞猜结果生成规则的合理性。

需要说明的是，图2所示的仿真系统可以设置在计算机设备中执行，而在上述仿真过程中，如何模拟各个虚拟用户帐号对应的竞猜数据为本申请的核心点，下文实施例仅以各种模拟竞猜数据的确定方法应用于计算机设备为例进行说明。

请参考图3，其示出了本申请一个示例性实施例示出的模拟竞猜数据的确定方法的流程图，本申请实施例以该方法应用于计算机设备为例进行说明，该方法包括：

步骤301，从内存中读取虚拟用户帐号对应的当前竞猜状态。

由于在真实竞猜活动中，用户参与本轮次竞猜活动时，用户拥有的竞猜资源的多少、在历史竞猜活动中竞猜正确或竞猜失败的次数、在历史竞猜活动中用户观察到的竞猜结果、或竞猜选项在历史竞猜结果中出现的频率等，都会影响用户参与本轮竞猜活动的竞猜行为(即对应的竞猜数据)，因此，为了使得仿真中模拟出的竞猜数据可以更接近于用户的真实心理，在基于竞猜策略的基础上，增加竞猜状态，来进一步模拟用户的竞猜数据。

在一种可能的实施方式中，当用户t时刻参与竞猜活动时，t时刻做出的竞猜行为(即竞猜数据)仅与t时刻的竞猜状态有关，因此，通过抽象出用户参与t时刻的当前竞猜状态，用于后续确定虚拟用户帐号在当前竞猜状态下对应的模拟竞猜数据。

需要说明的是，由于本申请实施例中在进行竞猜活动仿真中并不会涉及到真实用户参与，因此，对模拟出的多个虚拟用户均用虚拟用户帐号来表示。

在一个示例性的例子中，通过三个维度来抽象表示虚拟用户(虚拟用户帐号)对应的当前竞猜状态，则当前竞猜状态包括虚拟用户帐号对应的竞猜资源状态、竞猜选项情况和竞猜结果情况。

其中，虚拟用户帐号对应的竞猜资源状态可以包括：该虚拟用户帐号当前所拥有的总竞猜资源、该虚拟用户帐号在历史模拟竞猜活动中由于竞猜正确增加的竞猜资源、在历史模拟竞猜活动中由于竞猜错误所减少的竞猜资源中的至少一种。

在一个示例性的例子中，可以用向量的形式表示该竞猜资源状态，比如，该虚拟用户帐号对应的竞猜资源状态为

其中，x₁表示总竞猜资源，x₂表示竞猜正确增加的竞猜资源，x₃表示竞猜错误减少的竞猜资源。

其中，虚拟用户帐号对应的竞猜选项情况可以包括：该虚拟用户帐号在上一轮所选取的竞猜选项、该虚拟用户帐号在历史模拟竞猜活动中所选取的各个竞猜选项的比例等。

在一个示例性的例子中，也可以采用向量的形式来表示该竞猜选项情况，比如，该虚拟用户帐号对应的竞猜选项情况为

其中，y₁可以表示上一轮竞猜活动的竞猜选项，y₂可以表示各个竞猜选项的比例。

其中，虚拟用户帐号对应的竞猜结果情况可以包括：在虚拟用户帐号参与的历史模拟竞猜活动对应的各轮模拟竞猜结果(即竞猜结果对应的竞猜选项)的比例、上一轮竞猜结果(竞猜答案)等。

在一个示例性的例子中，也可以采用向量的形式来表示虚拟用户帐号对应的竞猜结果情况，如上述实施例所示，本实施例在此不做赘述。

在一个示例性的例子中，获取到的虚拟用户帐号对应的当前竞猜状态也可以用向量表示，即将竞猜资源状态、竞猜选项情况和竞猜结果情况共同表示为一个向量，比如，该虚拟用户帐号对应的当前竞猜状态

其中，

表示竞猜资源状态，

表示竞猜选项情况，

表示竞猜结果情况。

在其他可能的实施方式中，当前竞猜状态可以由上述三个维度上的至少一种来确定，本实施例对此不构成限定。

在一种可能的应用场景中，当前竞猜状态和虚拟用户帐号关联存储在计算机设备的内存中，当需要进行竞猜活动仿真时，由计算机设备从内存中读取该虚拟用户帐号对应的当前竞猜状态。

步骤302，通过运行数据模拟程序，根据当前竞猜状态和目标竞猜策略，确定当前竞猜状态下对应的至少一个候选模拟竞猜数据，目标竞猜策略中不同模拟竞猜数据对应不同目标竞猜权重。

不同于相关技术中，仅为虚拟用户帐号确定固定竞猜策略，该竞猜策略对应固定目标竞猜数据(即该虚拟用户帐号参与每一轮竞猜活动均采用相同模拟竞猜数据)，或为虚拟用户帐号设置完全随机的竞猜策略，即每个竞猜数据均对应完全相同的竞猜权重，通过对竞猜策略进行随机采样，来获取该虚拟用户帐号对应的模拟竞猜数据，本申请实施例所设置的目标竞猜策略可以基于当前竞猜状态来确定对应的多个模拟竞猜数据(目标模拟竞猜数据非固定)，且不同模拟竞猜策略还对应有不同的目标竞猜权重(目标模拟竞猜数据非完全随机)，可以进一步模拟真实用户基于竞猜状态决定下一轮竞猜行为(即竞猜数据)的心理，同时可以模拟真实用户期望竞猜行为可以得到更高奖励的心理(通过为高价值竞猜行为设置较高竞猜权重来实现)，通过上述两个方面来模拟竞猜数据，可以使得模拟的竞猜数据接近于真实用户的选择，从而使得模拟竞猜结果更接近于真实用户对应的竞猜结果，进而提高评估竞猜活动对应的竞猜结果生成规则的准确性。

其中，目标竞猜策略用于表示竞猜状态和模拟竞猜数据之间的关系。

在一种可能的实施方式中，仿真人员在进行仿真之前，会采用价值迭代的方式对竞猜策略进行训练，从而得到较为优秀的目标竞猜策略，应用于仿真过程中，该目标竞猜策略中会指出各个模拟竞猜数据(竞猜行为)对应的目标竞猜权重。

其中，竞猜策略的训练过程参考下文实施例，本实施例在此不做赘述。

其中，竞猜权重表征模拟竞猜数据为正向竞猜数据的概率，正向竞猜数据表示模拟竞猜数据对应的模拟竞猜结果为竞猜正确，即该模拟竞猜数据表示的竞猜行为可以为虚拟用户帐号带来较高的价值期望。

在一种可能的实施方式中，在进行每一轮竞猜活动仿真过程中，可以设置多个虚拟用户帐号，并为不同虚拟用户帐号设置相同目标竞猜策略，但是由于不同虚拟用户帐号所处的当前竞猜状态不同，则对应的各个候选模拟竞猜数据对应的目标竞猜权重也不相同，从而不同虚拟用户帐号对应的目标模拟竞猜数据也不相同。

在其他可能的实施方式中，也可以为不同虚拟用户帐号设置不同的目标竞猜策略，使得模拟竞猜数据的获取更加多样性和随机性，本申请实施例对此不构成限定。

其中，模拟竞猜数据至少包括竞猜选项和竞猜参与状态，参与状态为是否参加本轮竞猜活动。

在一个示例性的例子中，若候选竞猜选项包括选项A和选项B，则对应的候选模拟竞猜数据可以为(选A，选B、选A+B、AB均不选)四种情况，其中，AB均不选表示该虚拟用户帐号不参与本轮竞猜活动。

在其他可能的实施方式中，模拟竞猜数据还可以包括为竞猜选项分配的竞猜资源，对于获取竞猜资源的方式，可以从预设的竞猜资源分布中随机采样获得，比如，预设竞猜资源分布服从

的随机分布，其中，

为两个由预先设置的超参数，通过对该随机分布进行采样，可以得到为竞猜选项分配的竞猜资源。

在一种可能的实施方式中，计算机设备获取到该虚拟用户帐号对应的当前竞猜状态，并根据当前竞猜状态和目标竞猜策略，确定出至少一个候选模拟竞猜数据，以及各个候选模拟竞猜数据对应的目标竞猜权重。

在一个示例性的例子中，当前竞猜状态下对应的多个候选模拟竞猜数据可以表示为：a₀、a₂、a₃…a_N。

其中，针对目标竞猜权重的获取方式，在一种可能的实施方式中，在训练该目标竞猜策略的过程中，即可以得到各个竞猜状态下对应的各个候选模拟竞猜数据的目标竞猜权重，并将其存储在预设存储位置，或与目标竞猜策略关联存储，当获取到当前竞猜状态，即可以获取到当前竞猜状态下对应的各个候选模拟竞猜数据对应的目标竞猜权重。

对于训练过程中如何计算竞猜权重的方式可以参考下文实施例，本实施例在此不做赘述。

步骤303，根据目标竞猜权重从至少一个候选模拟竞猜数据中确定出目标模拟竞猜数据，并将目标模拟竞猜数据写入内存，目标模拟竞猜数据用于生成虚拟用户帐号的当前模拟竞猜结果。

由于目标竞猜权重越高，则表示该竞猜行为对应的期望价值更高，对于真实用户来说，更倾向于选择期望价值高的竞猜行为，因此，在一种可能的实施方式中，可以根据目标竞猜权重从至少一个候选模拟竞猜数据中确定出目标模拟竞猜数据。

针对如何基于目标竞猜权重来选取目标竞猜数据，在一种可能的实施方式中，可以直接将该目标竞猜权重归一化，作为采样概率对多个候选模拟竞猜数据进行采样，可以使得竞猜权重较大的候选模拟竞猜数据被选中的频次较多，符合用户的竞猜心理。

在其他可能的实施方式中，也可以直接将竞猜权重最大的候选模拟竞猜数据确定为目标模拟竞猜数据，则对于同一虚拟用户帐号，由于不同轮次模拟竞猜活动中对应的当前竞猜状态存在差异，则对应的不同轮次候选模拟竞猜数据对应的目标竞猜权重也不相同，同样可以保证同一虚拟用户帐号在不同轮模拟竞猜活动中模拟竞猜数据的多样性。

在一种可能的应用场景中，计算机设备中预先设置有数据模拟程序，该数据模拟程序用于模拟出当前竞猜状态下对应的目标模拟竞猜数据，首先根据当前竞猜状态和目标竞猜策略，确定当前竞猜状态下的至少一个候选模拟竞猜数据，再从至少一个候选模拟竞猜数据中确定出目标模拟竞猜数据，并将该目标模拟竞猜数据与该虚拟用户帐号关联存储在内存中，以便后续计算机设备调用该目标模拟竞猜数据模拟竞猜结果。

可选的，可以将目标竞猜策略与虚拟用户帐号关联存储在内存中，当需要进行竞猜活动仿真时，由计算机设备从内存中获取该虚拟用户帐号对应的目标竞猜策略。

综上所述，本申请实施例中，在进行竞猜活动仿真过程中，目标竞猜策略可以基于当前竞猜状态来确定对应的多个模拟竞猜数据(目标竞猜数据非固定)，且不同模拟竞猜策略还对应有不同的目标竞猜权重(目标竞猜数据非完全随机)，可以进一步模拟真实用户基于竞猜状态决定下一轮竞猜行为(即竞猜数据)的心理，同时可以模拟真实用户期望竞猜行为可以得到更高奖励的心理(通过为不同竞猜行为设置不同竞猜权重来实现)，通过上述两个方面来模拟竞猜数据，可以使得模拟的竞猜数据接近于真实用户的选择数据，从而使得仿真竞猜结果更接近于真实用户对应的真实竞猜结果，进而提高评估竞猜活动对应的竞猜结果生成规则的准确性。

在真实竞猜活动中，不同的参与用户可能具有不同的竞猜策略，虽然预先训练有较优秀的竞猜策略，即可以明确在各个竞猜状态下用户进行哪一种竞猜行为可以得到更有利的竞猜结果，但是真实情况中，用户可能并不会预先了解到各个候选模拟竞猜数据对应的竞猜权重，或者用户预估的竞猜权重与模拟到的存在差异，对应的，在仿真过程中，需要考虑到并不是所有用户均会选择最优竞猜行为，因此，在一种可能的实施方式中，为了使得不同虚拟用户帐号可以具有不同的竞猜行为(即在选择竞猜行为时，也可以对次优竞猜行为或最差竞猜行为进行采样)，基于竞猜价值为不同竞猜行为(模拟竞猜数据)赋予不同的采样概率，可以提高不同虚拟用户帐号选择模拟竞猜数据的方式多样性。

请参考图4，其示出了本申请另一个示例性实施例示出的模拟竞猜数据的确定方法的流程图，本申请实施例以该方法应用于计算机设备为例进行说明，该方法包括：

步骤401，从内存中读取虚拟用户帐号对应的当前竞猜状态。

步骤402，通过运行数据模拟程序，根据当前竞猜状态和目标竞猜策略，确定当前竞猜状态下对应的至少一个候选模拟竞猜数据，目标竞猜策略中不同模拟竞猜数据对应不同目标竞猜权重。

步骤401和步骤402的实施方式可以参考上文实施例，本实施例在此不做赘述。

步骤403，获取至少一个候选模拟竞猜数据对应的目标竞猜权重。

在一种可能的实施方式中，计算机设备中预先存储有当前竞猜状态下各个候选模拟竞猜数据对应的目标竞猜权重，目标竞猜权重的存储方式可以是与竞猜状态关联存储，因此，可以直接根据该当前竞猜状态去获取对应的目标竞猜权重。

在一个示例性的例子中，当前竞猜状态下各个候选模拟竞猜数据对应的目标竞猜权重可以表示为：q₀(S_t,a₀),q₁(S_t,a₁),…,q_N(S_t,a_N)，其中，q₀(S_t,a₀)表示竞猜状态S_t下模拟竞猜数据为a₀时所对应的目标竞猜权重。

步骤404，根据目标竞猜权重确定至少一个候选模拟竞猜数据对应的目标采样概率。

在一种可能的实施方式中，可以直接对目标竞猜权重进行归一化处理，得到各个目标竞猜权重对应的概率形式，即将目标竞猜权重转化为采样概率，使得竞猜权重与采样概率成正相关关系，即竞猜权重越高，对应的该竞猜权重对应的候选模拟竞猜数据被采样的概率也越大，既可以实现对除最优竞猜行为(最优模拟竞猜数据)之外的其他竞猜行为进行采样，又兼顾到对用户期望采取最优竞猜行为的心理。

在一个示例性的例子中，若各个候选模拟竞猜数据对应的目标权重为：q₀(S_t,a₀),q₁(S_t,a₁),…,q₃(S_t,a₃)，将各个竞猜权重归一化后，得到的采样概率分别为：p_a0＝1/2、p_a1＝1/4、p_a2＝1/8、p_a3＝1/8，其中，p_a1＝1/2表示该虚拟用户帐号有1/2的可能选择a₀作为目标模拟竞猜数据，p_a1＝1/4表示该虚拟用户帐号有1/4的可能选择a₁作为目标模拟竞猜数据，p_a2＝1/8、p_a3＝1/8同上。

步骤405，根据目标采样概率从至少一个候选模拟竞猜数据中确定出目标模拟竞猜数据。

在一种可能的实施方式中，当确定出至少一个候选模拟竞猜数据对应的目标采样概率时，可以基于该目标采样概率对至少一个候选模拟竞猜数据进行采样，从而确定出对应的目标模拟竞猜数据。

在一个示例性的例子中，若得到的至少一个候选模拟竞猜数据对应的采样概率为：p_a0＝1/2、p_a1＝1/4、p_a2＝1/8、p_a3＝1/8，则可以按照1/2的采样概率对候选模拟竞猜数据a₀进行采样，按照1/4的采样概率对候选模拟竞猜数据a₁进行采样，按照1/8的概率分别对候选模拟竞猜数据a₂和候选模拟竞猜数据a₃进行采样。

本申请实施例中，通过将各个候选模拟竞猜数据对应的目标竞猜权重转化为采样概率，并基于该采样概率对各个候选模拟竞猜数据进行采样，使得同一虚拟用户帐号在各轮竞猜活动中不仅选取最优模拟竞猜数据，也可以实现对次优或最差的模拟竞猜数据进行采样，提高虚拟用户帐号选取模拟竞猜数据的多样性；此外，对于不同虚拟用户帐号，虽然都具有相同的最优竞猜策略，但是通过上述采样概率进行采样，也可以提高不同虚拟用户帐号选取模拟竞猜数据的多样性。

在另一种可能的应用场景下，为了进一步提高虚拟用户帐号所对应的目标模拟竞猜数据的随机性，无需将竞猜权重直接转化为采样概率，而是采用折棍模型重新生成一个采样概率序列，并通过该采样概率序列对多个候选竞猜模拟数据进行采样。

在图4的基础上，如图5所示，步骤404至步骤405可以被替换为步骤501至步骤505。

步骤501，将至少一个候选模拟竞猜数据按照目标竞猜权重由高到低进行排序，得到模拟竞猜数据序列。

为了实现可以对除最优模拟竞猜数据(竞猜权重最大)之外的候选模拟竞猜数据进行采样，同时可以保证最优模拟竞猜数据被采样的概率较高，除了直接将竞猜权重转化为采样概率的方式，在另一种可能的实施方式中，可以采用折棍模型来获取采样概率序列的方式对多个候选模拟竞猜数据进行采样。

由于经过折棍模型后得到的采样概率序列为由高到低排列构成，为了在使采样概率序列与候选模拟竞猜数据一一对应的同时，可以使得目标竞猜权重较高的候选模拟竞猜数据对应采样概率序列中的较高采样概率，在一种可能的实施方式中，计算机设备预先按照目标竞猜权重由高至低将至少一个候选模拟竞猜数据进行排序，形成模拟竞猜数据序列，以便后续确定目标模拟竞猜数据。

在一个示例性的例子中，模拟竞猜数据序列可以为：q₀(S_t,a₀),q₁(S_t,a₁),…,q_N(S_t,a_N)，这里采用各个模拟竞猜数据的竞猜权重来表示该模拟竞猜数据。

步骤502，获取采样概率序列，采样概率序列中包含的各个采样概率之和为1，其中，采样概率序列中的采样概率由高到低排序。

虽然需要对除最优模拟竞猜数据之外的竞猜数据进行采样，但是还需要兼顾到用户心理(更倾向选择竞猜价值高的模拟竞猜数据)，因此，对于采样概率序列，也需要保证该采样概率序列中的各个采样概率不同，且对于高采样概率的期望是大于低采样概率的，在这种情况下，可以利用折棍模型的特点，来生成对应的采样概率序列。

其中，基于折棍模型生成采样概率序列的方式可以包括以下步骤：

一、定义变量序列β₁,β₂,…β_i。

其中，变量序列β_i～Beta(1,α)，α为预设参与，并令β₀＝0。

二、得到p分布序列。

其中，定义

在折棍模型中，假设所有的概率密度均匀分布在一根长度为L的棍子上；第一次截取长度为β₁的部分，并令p₁为这一段的长度β₁，剩下棍子长度为L₁；第二次从剩下棍子长度L₁上截取比例为β₂的部分，此时有p₂＝β₂×L₁剩下棍子长度为L₂。重复上述过程，即可以得到p₁,p₂,…,p_N的p分布序列。

三、对p分布序列进行预处理，得到采样概率序列。

在折棍模型中，可以得到无限个p值，由于p值会随着截取次数而衰减，后续的p值由于过小而不具有参考价值，因此，在获取到p分布序列后，只需要根据候选模拟竞猜数据的个数来选取p分布序列中的p值，并对选择出来的p值进行归一化处理即可得到采样概率序列。

在一个示例性的例子中，若存在25个候选模拟竞猜数据，则只需要选择p分布序列中的前25个p值，并对该25个p值进行归一化处理后，作为采样概率序列。

步骤503，对采样概率序列进行采样，得到目标采样概率。

在一种可能的实施方式中，按照采样概率对该采样序列中的各个p值进行采样，即可以得到目标采样概率。

步骤504，获取目标采样概率在采样概率序列中对应的目标序列位置。

由于采样概率序列是按照采样概率由高至低排序，而模拟竞猜数据序列也是基于目标竞猜价值由高至低排序，且两者对应的数值个数相同，因此，在一种可能的实施方式中，可以通过确定出目标采样概率在采样概率序列中的目标序列位置，来确定出位于相同序列位置上的目标模拟竞猜数据，相当于按照该目标采样概率在至少一个候选模拟竞猜数据中进行采样，得到目标模拟竞猜数据。

在一个示例性的例子中，若采样概率序列为p₁,p₂,…,p_N，目标采样概率为p₂，则对应的目标序列位置为第2位。

步骤505，根据目标序列位置从模拟竞猜数据序列中选择目标模拟竞猜数据，目标模拟竞猜数据在模拟竞猜数据序列中的序列位置为目标序列位置。

在一种可能的实施方式中，当确定出目标序列位置后，即可以直接从模拟竞猜数据序列中选取该目标序列位置对应的候选模拟竞猜数据，作为目标模拟竞猜数据。

在一个示例性的例子中，若目标序列位置为第2位，模拟竞猜数据序列为：q₀(S_t,a₀),q₁(S_t,a₁),…,q_N(S_t,a_N)，则对应的目标模拟竞猜数据即为a₁。

本实施例中，将折棍模型应用于选取目标模拟竞猜数据，无需将竞猜权重转化为采样概率，且由折棍模型生成的采样概率序列既具有一定的随机性，也可以兼顾高竞猜权重对应高采样率的特点，进一步增加不同虚拟用户帐号对应的目标模拟竞猜数据的选择多样性。

在一种可能的应用场景中，需要在大量的仿真过程中分析仿真结果，以评估竞猜结果生成规则，则对于同一虚拟用户帐号，由于竞猜状态会受到竞猜结果的影响，因此，其在t时刻的竞猜状态和t+1时刻的竞猜状态存在差异，且不同竞猜状态下不同模拟竞猜数据对应的目标竞猜权重也不相同。

在一种可能的实施方式中，在获取到当前竞猜状态对应的目标竞猜数据后，更新当前竞猜状态的过程可以包括以下步骤：

一、通过运行结果模拟程序，根据目标模拟竞猜数据和竞猜结果生成规则，生成虚拟用户帐号对应的当前模拟竞猜结果。

在一种可能的实施方式中，为了模拟真实竞猜活动，当计算机设备获取到至少一个虚拟用户帐号对应的目标模拟竞猜数据后，会基于该目标模拟竞猜数据和竞猜结果生成规则，生成当前轮次模拟竞猜活动对应的竞猜答案(即竞猜选项)，并根据目标模拟竞猜数据中的竞猜选项和该竞猜答案，生成各个虚拟用户帐号对应的当前模拟竞猜结果。

其中，当前模拟竞猜结果可以指竞猜正确或竞猜错误，竞猜正确指竞猜选项和竞猜答案一致，竞猜错误指竞猜选项与竞猜答案不一致。

在其他可能的实施方式中，模拟竞猜结果中还可以包括该虚拟用户帐号在本次模拟竞猜活动中的竞猜增加资源(竞猜正确)、或竞猜减少资源(竞猜错误)。

在一种可能的应用场景中，计算机设备中预设有结果模拟程序，当计算机设备需要仿真竞猜活动对应的竞猜结果时，通过运行该结果模拟程序，可以从内存中读取目标模拟竞猜数据，并根据该目标模拟竞猜数据和竞猜结果生成规则，模拟出各个虚拟用户帐号对应的当前模拟竞猜结果。

二、通过运行状态模拟程序，根据当前模拟竞猜结果更新当前竞猜状态。

由于在抽象竞猜状态的过程中，竞猜状态与竞猜资源、竞猜选项、竞猜结果有关，因此，在得到当前模拟竞猜结果后，需要根据该当前模拟竞猜结果来更新当前竞猜状态，得到该虚拟用户帐号在下一轮竞猜活动对应的竞猜状态。

在一种可能的应用场景中，计算机设备中预设有状态模拟程序，当获取到虚拟用户帐号对应的当前竞猜结果后，计算机设备可以运行该状态模拟程序，用于根据当前模拟竞猜结果来更新该虚拟用户帐号对应的当前竞猜状态，并继续将更新后的当前竞猜状态写入内存，便于下一轮模拟竞猜活动时计算机设备读取该当前竞猜状态。

本实施例中，通过目标模拟竞猜数据和竞猜结果生成规则，来确定出各个虚拟用户帐号对应的当前模拟竞猜结果，并基于该当前模拟竞猜结果来更新该虚拟用户帐号对应的竞猜状态，以便在不同轮竞猜活动中，同一虚拟用户帐号可以在不同竞猜状态下选择模拟竞猜数据，增加仿真过程中模拟竞猜数据的随机性。

上文实施例中所使用的目标竞猜策略是通过训练得到的较优秀的竞猜策略，其中，各个模拟竞猜数据都分配有对应的竞猜权重，但是在进行仿真之前，仿真人员无法直接获得最优竞猜策略和最优竞猜权重，因此，需要预先采用价值迭代的方式对竞猜策略进行训练，以便得到目标竞猜策略和最优竞猜权重。

在一种可能的实施方式中，请参考图6，其示出了本申请另一个示例性实施例示出的模拟竞猜数据的确定方法的流程图，本申请实施例以该方法应用于计算机设备为例进行说明，该方法包括：

步骤601，从内存中读取虚拟用户帐号对应的初始竞猜策略，初始竞猜策略用于表示竞猜状态和模拟竞猜数据之间的关系，且初始竞猜策略中不同模拟竞猜数据对应相同竞猜权重。

在一种可能的实施方式中，仿真人员预先设置有初始竞猜策略，该初始竞猜策略中的不同候选模拟竞猜数据均采用相同竞猜权重，即选择任一候选模拟竞猜数据对应的可能性均相同，训练竞猜策略的目的即是为了学习出不同候选模拟竞猜数据对应的目标竞猜权重。

其中，竞猜策略指示每个竞猜状态下对应的多个候选模拟竞猜数据，以及每个候选模拟竞猜数据对应的采样概率(或竞猜权重)；其中，在初始竞猜策略中设定每个候选模拟竞猜数据所对应的采样概率相同。

步骤602，通过运行策略优化程序，根据初始竞猜策略和竞猜环境策略，构建虚拟用户帐号对应的竞猜活动序列，竞猜环境策略用于表示竞猜状态、模拟竞猜数据和模拟竞猜结果之间的关系，竞猜活动序列指虚拟用户帐号在n轮竞猜活动中对应的竞猜状态、模拟竞猜数据和模拟竞猜结果的集合。

在一种可能的实施方式中，采用强化学习的方式对初始竞猜策略进行训练，在强化学习的框架中，假设每个用户强调如何基于环境而行动，以便取得最大化的预期效益，应用到本实施例中，假设给定用户当前竞猜状态，用户当前竞猜行为(即模拟竞猜数据)与历史竞猜状态无关。

在一个示例性的例子中，请参考图7，其示出了本申请一个示例性实施例示出的用户与环境之间的交互过程示意图。如图7所示，S_t指t时刻对应的竞猜状态，即当前用户对当前环境的抽象描述，A_t指用户在观测到t时刻状态时做出的竞猜行为(用模拟竞猜数据表示)，R_t+1指环境对用户A_t行为给予的回报(即模拟竞猜结果)，在每一个时刻t，用户可以通过对环境进行观测，获得当前时刻对应的当前竞猜状态S_t，随后用户基于自身竞猜策略π结合竞猜状态S_t生成一个竞猜行为A_t，该竞猜行为A_t与环境交互得到一定的竞猜结果(回报)R_t+1。

参考图7所示的用户与环境的交互过程，设定竞猜环境策略为p(s′,r|s,a)＝p(S_t＝s,R_t＝r|S_t-1＝s,A_t-1＝a)，表示t时刻S_t与R_t的联合分布，将从一个预设的概率分布的关于S_t-1与A_t-1的边缘分布中采样，即可以根据该竞猜环境策略和初始竞猜策略来构建出该初始竞猜策略下虚拟用户帐号在n轮模拟竞猜活动中对应的行为轨迹(即竞猜活动序列)。

在一种可能的实施方式中，首先初始竞猜状态，根据竞猜状态和初始竞猜策略，确定出该竞猜状态下对应的模拟竞猜数据(即竞猜行为)，再根据模拟竞猜数据和竞猜状态，基于上述竞猜环境策略，得到环境对该竞猜行为回报(即竞猜结果)，以及此时环境对应的竞猜状态；再根据该竞猜状态和初始竞猜策略，继续确定下一轮模拟竞猜数据，依次类推，可以得到该初始竞猜策略对应的竞猜活动序列。

在一个示例性的例子中，若初始竞猜状态为S₀，根据该S₀和初始竞猜策略，确定出该S₀下的模拟竞猜数据为A₀，根据该A₀、S₀以及环境竞猜策略，确定出A₀对应的竞猜结果(回报)R₁，由于R₁同时会影响竞猜状态的改变，则对应的也会获取到当前时刻对应的S₁，继续根据该S₁和初始竞猜策略，确定出S₁对应的模拟竞猜数据A₁，继而根据A₁、S₁以及环境竞猜策略来确定出R₂和S₂，依次类推，即可以得到该初始竞猜策略对应的竞猜活动序列：S₀,A₀,R₁,S₁,A₁,R₂,S₂,A₂,R₃,…。

步骤603，根据竞猜活动序列调整初始竞猜策略，得到目标竞猜策略，并将目标竞猜策略写入内存。

在一种可能的实施方式中，当获取到初始竞猜策略对应的竞猜活动序列后，即可以根据该竞猜活动序列来估计各个候选模拟数据对应的竞猜权重，以便根据该竞猜权重来修正初始竞猜策略。

针对竞猜策略的训练方式，在一种可能的实施方式中，通过价值迭代的方式来训练竞猜策略，训练过程可以包括以下步骤：

一、根据竞猜活动序列确定各个模拟竞猜数据对应的候选竞猜权重。

由于竞猜权重是体现本轮选取该候选竞猜数据，对后续竞猜活动存在积极影响的程度，即竞猜权重越高，后续用户得到的竞猜结果越符合用户期望(即可以得到更高的回报)，因此，在一种可能的实施方式中，通过竞猜活动序列中的竞猜结果来计算模拟竞猜数据对应的竞猜权重。

在一个示例性的例子中，定义t时刻的竞猜权重G_t可以表示为：

其中，γ是折现因子(discount factor)，且0≤γ≤1，R_t+1即环境对t时刻行为的回报，折现因子体现了奖励(回报)关于时间的折现，即k个时间步后的单位回报在当前只值γ^k，这鼓励用户相比远期奖励，对近期奖励给予更多的价值。

基于上述竞猜权重的定义，可以定义每个竞猜状态对应的竞猜权重，表示为：

v_π(s)＝E_π[G_t|S_t＝s]

其中，v_π(s)表示竞猜策略π中t时刻对应的竞猜状态S_t的竞猜权重，E_π表示对相同竞猜状态对应的竞猜权重的期望。

同样的，可以定义特定竞猜状态下竞猜行为(模拟竞猜数据)的竞猜权重，表示为：

q_π(s,a)＝E_π[G_t|S_t＝s,A_t＝a]

其中，q_π(s,a)表示竞猜状态为s，竞猜行为为a对应的竞猜权重，E_π表示对相同竞猜状态和竞猜行为对应的竞猜权重的期望。

在一种可能的实施方式中，基于上述竞猜权重的描述，在训练过程中，当获取到竞猜活动序列后，可以遍历竞猜活动序列中的所有竞猜状态、模拟竞猜数据和竞猜结果，得到竞猜活动序列中每个竞猜行为A_t(模拟竞猜数据)对应的竞猜权重，并对各个竞猜权重取平均值，即可以得到各个候选模拟竞猜数据对应的候选竞猜权重q_π(s,a)。

二、根据候选竞猜权重调整初始竞猜策略，得到目标竞猜策略。

在一种可能的实施方式中，当计算出各个候选模拟竞猜数据对应的候选竞猜权重后，根据该候选竞猜权重来调整初始竞猜策略，由于初始竞猜策略中各个模拟竞猜数据的竞猜权重相同，更新后的竞猜策略中，各个模拟竞猜数据对应的竞猜权重并不相同，其中，竞猜权重越高，基于该竞猜策略对该模拟竞猜数据的采样概率越大。

在一种可能的实施方式中，通过价值迭代的方式来改进竞猜策略的过程中，首先初始化竞猜策略，进行竞猜策略评估获得竞猜行为(各个模拟竞猜数据)对应的竞猜权重，然后通过估计的竞猜权重改进竞猜策略，然后再次对竞猜策略进行评估，得到新的竞猜权重，利用新的竞猜权重再次更新竞猜策略，重复这个过程多次可以同时得到最优的竞猜策略和最优的竞猜权重。

请参考图8，其示出了本申请一个示例性实施例示出的训练过程的示意图，如图8所示，当训练开始时，初始化竞猜策略(即初始竞猜策略)，对竞猜策略进行策略评估，即获取该竞猜策略对应的竞猜活动序列，遍历竞猜活动序列，计算得到各个模拟竞猜数据对应的竞猜权重，并根据该竞猜权重对竞猜策略进行策略改进，即根据竞猜权重修正竞猜策略中对各个模拟竞猜数据的采样概率，对于更新后的竞猜策略，继续进行策略评估和策略改进过程，直至竞猜权重函数收敛，表示竞猜策略和竞猜权重均训练完成，即得到目标竞猜策略和各个模拟竞猜数据对应的目标竞猜权重。

在一种可能的应用场景中，计算机设备中预设有策略优化程序，该策略优化程序用于对初始竞猜策略进行优化，得到目标竞猜策略，并将优化完成的目标竞猜策略和虚拟用户帐号关联存储在内存中，以便后续计算机设备从内存中获取该目标竞猜策略。

步骤604，从内存中读取虚拟用户帐号对应的当前竞猜状态。

步骤605，通过运行数据模拟程序，根据当前竞猜状态和目标竞猜策略，确定当前竞猜状态下对应的至少一个候选模拟竞猜数据，目标竞猜策略中不同模拟竞猜数据对应不同目标竞猜权重。

步骤606，根据目标竞猜权重从至少一个候选模拟竞猜数据中确定出目标模拟竞猜数据，并将目标模拟竞猜数据写入内存，目标模拟竞猜数据用于生成虚拟用户帐号的当前模拟竞猜结果。

步骤604至步骤606的实施方式可以参考上文实施例，本实施例在此不做赘述。

本实施例中，通过强化学习和价值迭代的方式来训练竞猜策略，使得竞猜策略可以关注到竞猜状态、竞猜价值对竞猜行为的影响，从而使得基于该目标竞猜策略模拟竞猜数据时，考虑到竞猜环境对用户竞猜行为的影响，进而使得模拟结果更接近于真实用户的竞猜结果，提高仿真的准确率。

上述各个实施例均在描述如何确定目标模拟竞猜数据的过程，本实施例中重点描述该目标模拟竞猜数据的用途，即具体是如何基于该目标模拟竞猜数据来评估模拟结果生成规则的。

请参考图9，其示出了本申请另一个示例性实施例示出的模拟竞猜数据的确定方法的流程图，本申请实施例以该方法应用于计算机设备为例进行说明，该方法包括：

步骤901，从内存中读取虚拟用户帐号对应的当前竞猜状态。

步骤902，通过运行数据模拟程序，根据当前竞猜状态和目标竞猜策略，确定当前竞猜状态下对应的至少一个候选模拟竞猜数据，目标竞猜策略中不同模拟竞猜数据对应不同目标竞猜权重。

步骤903，根据目标竞猜权重从至少一个候选模拟竞猜数据中确定出目标模拟竞猜数据，并将目标模拟竞猜数据写入内存，目标模拟竞猜数据用于生成虚拟用户帐号的当前模拟竞猜结果。

步骤901至步骤903的实施方式可以参考上文实施例，本实施例在此不做赘述。

步骤904，从内存中读取至少一个虚拟用户帐号对应的目标模拟竞猜数据。

在一种可能的实施方式中，通过上文实施例所示的方法，确定出各个虚拟用户帐号分别对应的目标模拟竞猜数据。

在一种可能的应用场景中，在上文实施例中模拟得到的多个目标模拟竞猜数据均存储在内存中，当计算机设备需要根据该目标模拟竞猜数据进行后续竞猜结果仿真或竞猜规则分析时，可以直接从内存中读取该目标模拟竞猜数据。

步骤905，通过运行规则分析程序，根据至少一个目标模拟竞猜数据和n轮模拟竞猜结果，确定虚拟用户帐号对应的竞猜胜率。

其中，n轮模拟竞猜结果为进行n次模拟竞猜活动中，每轮模拟竞猜活动对应的模拟竞猜结果，该模拟竞猜结果基于模拟结果生成规则和模拟竞猜数据生成。

在一种可能的实施方式中，针对每轮模拟竞猜活动，记录各个虚拟用户帐号对应的模拟竞猜结果，即竞猜正确或竞猜错误，仿真结束后，得到各个虚拟用户帐号在各轮模拟竞猜活动中对应的模拟竞猜结果，进行分析，比如，虚拟用户帐号参与模拟竞猜活动的次数，其中，竞猜正确的次数、竞猜错误的次数等，计算得到该虚拟用户帐号对应的竞猜胜率，按照上述方法计算得到各个虚拟用户帐号对应的竞猜胜率，并对竞猜胜率取平均值，从而得到虚拟用户帐号在模拟竞猜活动中对应的竞猜胜率。

在一种可能的应用场景中，计算机设备中预设有规则分析程序，该规则分析程序用于分析虚拟用户帐号对应的竞猜正确概率，以便后续根据该竞猜正确概率来确定模拟结果生成规则是否具有随机性和公平性。

步骤906，响应于竞猜胜率高于预设胜率阈值，确定模拟结果生成规则存在异常。

由于在检测模拟结果生成规则是否符合设计人员的期望时，对参与该竞猜活动的竞猜胜率有一定的要求，因此，可以预设胜率阈值，来确定该模拟结果生成规则是否符合期望。

在一个示例性的例子中，胜率阈值可以为10％。

在一种可能的实施方式中，需要保证基于仿真结果得到的虚拟用户帐号的竞猜胜率不能超过正常水平(即预设胜率阈值)，因此，将虚拟用户帐号对应的竞猜胜率与预设概率阈值进行比较，若该竞猜胜率高于预设胜率阈值，则表明该竞猜结果生成规则对应的竞猜胜率可能偏高，需要对该竞猜结果生成规则进行修正；若该竞猜胜率低于预设胜率阈值，则表示该竞猜结果生成规则不存在胜率偏高的情况。

本实施例中，通过记录各个虚拟用户帐号在仿真过程中的模拟竞猜结果，用于分析该竞猜结果生成规则对应的竞猜胜率，并与预设胜率阈值比较，若高于预设胜率阈值，则表示该竞猜结果生成规则存在竞猜胜率偏高现象，需要进行规则修正。

请参考图10，其示出了本申请一个示例性实施例提供的模拟竞猜数据的确定装置的结构框图。该装置可以通过软件、硬件或者两者的结合实现成为计算机设备的全部或一部分，该装置包括：

第一获取模块1001，用于从内存中读取虚拟用户帐号对应的当前竞猜状态，所述当前竞猜状态包括所述虚拟用户帐号对应的竞猜资源状态、竞猜选项情况和竞猜结果情况中的至少一种；

第一确定模块1002，用于通过运行数据模拟程序，根据所述当前竞猜状态和目标竞猜策略，确定所述当前竞猜状态下对应的至少一个候选模拟竞猜数据，所述目标竞猜策略用于表示竞猜状态和模拟竞猜数据之间的关系，且所述目标竞猜策略中不同模拟竞猜数据对应不同目标竞猜权重，所述竞猜权重表征所述模拟竞猜数据为正向竞猜数据的概率，所述正向竞猜数据表示所述模拟竞猜数据对应的模拟竞猜结果为竞猜正确，所述候选模拟竞猜数据至少包括竞猜选项和竞猜参与状态；

第二确定模块1003，用于根据所述目标竞猜权重从所述至少一个候选模拟竞猜数据中确定出目标模拟竞猜数据，并将所述目标模拟竞猜数据写入内存，所述目标模拟竞猜数据用于生成所述虚拟用户帐号的当前模拟竞猜结果。

可选的，所述第二确定模块1003，包括：

获取单元，用于获取至少一个所述候选模拟竞猜数据对应的所述目标竞猜权重；

第一确定单元，用于根据所述目标竞猜权重确定至少一个所述候选模拟竞猜数据对应的目标采样概率；

第二确定单元，用于根据所述目标采样概率从至少一个所述候选模拟竞猜数据中确定出所述目标模拟竞猜数据。

可选的，所述第一确定单元，还用于：

将至少一个所述候选模拟竞猜数据按照所述目标竞猜权重由高到低进行排序，得到模拟竞猜数据序列；

获取采样概率序列，所述采样概率序列中包含的各个采样概率之和为1，其中，所述采样概率序列中的所述采样概率由高到低排序；

对所述采样概率序列进行采样，得到所述目标采样概率；

所述第二确定单元，还用于：

获取所述目标采样概率在所述采样概率序列中对应的目标序列位置；

根据所述目标序列位置从所述模拟竞猜数据序列中选择所述目标模拟竞猜数据，所述目标模拟竞猜数据在所述模拟竞猜数据序列中的序列位置为所述目标序列位置。

可选的，所述装置还包括：

第二获取模块，用于从内存中读取所述虚拟用户帐号对应的初始竞猜策略，所述初始竞猜策略用于表示所述竞猜状态和所述模拟竞猜数据之间的关系，且所述初始竞猜策略中不同模拟竞猜数据对应相同竞猜权重；

构建模块，用于通过运行策略优化程序，根据所述初始竞猜策略和竞猜环境策略，构建所述虚拟用户帐号对应的竞猜活动序列，所述竞猜环境策略用于表示所述竞猜状态、所述模拟竞猜数据和所述模拟竞猜结果之间的关系，所述竞猜活动序列指所述虚拟用户帐号在n轮竞猜活动中对应的所述竞猜状态、所述模拟竞猜数据和所述模拟竞猜结果的集合；

优化模块，用于根据所述竞猜活动序列调整所述初始竞猜策略，得到所述目标竞猜策略，并将所述目标竞猜策略写入内存。

可选的，所述优化模块，包括：

第三确定单元，用于根据所述竞猜活动序列确定各个所述模拟竞猜数据对应的候选竞猜权重；

优化单元，用于根据所述候选竞猜权重调整所述初始竞猜策略，得到所述目标竞猜策略。

可选的，所述装置还包括：

生成模块，用于通过运行结果模拟程序，根据所述目标模拟竞猜数据和竞猜结果生成规则，生成所述虚拟用户帐号对应的所述当前模拟竞猜结果；

更新模块，用于通过运行状态模拟程序，根据所述当前模拟竞猜结果更新所述当前竞猜状态，并将所述当前竞猜状态写入内存。

可选的，所述装置还包括：

第三获取模块，用于从内存中读取至少一个所述虚拟用户帐号对应的所述目标模拟竞猜数据；

第三确定模块，用于通过运行规则分析程序，根据所述至少一个目标模拟竞猜数据和n轮模拟竞猜结果，确定所述虚拟用户帐号对应的竞猜胜率；

第四确定模块，用于响应于所述竞猜胜率高于预设胜率阈值，确定所述模拟结果生成规则存在异常。

本申请实施例中，在进行竞猜活动仿真过程中，目标竞猜策略可以基于当前竞猜状态来确定对应的多个模拟竞猜数据(目标竞猜数据非固定)，且不同模拟竞猜策略还对应有不同的目标竞猜权重(目标竞猜数据非完全随机)，可以进一步模拟真实用户基于竞猜状态决定下一轮竞猜行为(即竞猜数据)的心理，同时可以模拟真实用户期望竞猜行为可以得到更高奖励的心理(通过为高价值竞猜行为设置较高竞猜权重来实现)，通过上述两个方面来模拟竞猜数据，可以使得模拟的竞猜数据接近于真实用户的选择数据，从而使得仿真竞猜结果更接近于真实用户对应的真实竞猜结果，进而提高评估竞猜活动对应的竞猜结果生成规则的准确性。

请参考图11，其示出了本申请一个示例性实施例提供的计算机设备的结构示意图。所述计算机设备1100包括中央处理单元(Central Processing Unit，CPU)1101、包括随机存取存储器(Random Access Memory，RAM)1102和只读存储器(Read-Only Memory，ROM)1103的系统存储器1104，以及连接系统存储器1104和中央处理单元1101的系统总线1105。所述计算机设备1100还包括帮助计算机设备内的各个器件之间传输信息的基本输入/输出系统(Input/Output系统，I/O系统)1106，和用于存储操作系统1113、应用程序1114和其他程序模块1115的大容量存储设备1107。

所述基本输入/输出系统1106包括有用于显示信息的显示器1108和用于用户输入信息的诸如鼠标、键盘之类的输入设备1109。其中所述显示器1108和输入设备1109都通过连接到系统总线1105的输入输出控制器1110连接到中央处理单元1101。所述基本输入/输出系统1106还可以包括输入输出控制器1110以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器1110还提供输出到显示屏、打印机或其他类型的输出设备。

所述大容量存储设备1107通过连接到系统总线1105的大容量存储控制器(未示出)连接到中央处理单元1101。所述大容量存储设备1107及其相关联的计算机可读存储介质为计算机设备1100提供非易失性存储。也就是说，所述大容量存储设备1107可以包括诸如硬盘或者只读光盘(Compact Disc Read-Only Memory，CD-ROM)驱动器之类的计算机可读存储介质(未示出)。

不失一般性，所述计算机可读存储介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读存储指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、可擦除可编程只读寄存器(Erasable Programmable Read OnlyMemory，EPROM)、电子抹除式可复写只读存储器(Electrically-Erasable ProgrammableRead-Only Memory，EEPROM)、闪存或其他固态存储设备，CD-ROM、数字多功能光盘(DigitalVersatile Disc，DVD)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的系统存储器1104和大容量存储设备1107可以统称为存储器。

存储器存储有一个或多个程序，一个或多个程序被配置成由一个或多个中央处理单元1101执行，一个或多个程序包含用于实现上述方法实施例的指令，中央处理单元1101执行该一个或多个程序实现上述各个方法实施例提供的方法。

根据本申请的各种实施例，所述计算机设备1100还可以通过诸如因特网等网络连接到网络上的远程服务器运行。也即计算机设备1100可以通过连接在所述系统总线1105上的网络接口单元1111连接到网络1112，或者说，也可以使用网络接口单元1111来连接到其他类型的网络或远程服务器系统(未示出)。

所述存储器还包括一个或者一个以上的程序，所述一个或者一个以上程序存储于存储器中，所述一个或者一个以上程序包含用于进行本申请实施例提供的方法中由计算机设备所执行的步骤。

本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质存储有至少一条指令，所述至少一条指令由所述处理器加载并执行以实现如上各个实施例所述的模拟竞猜数据的确定方法。

本申请实施例还提供了一种计算机程序产品，该计算机程序产品存储有至少一条指令，所述至少一条指令由所述处理器加载并执行以实现如上各个实施例所述的模拟竞猜数据的确定方法。

本申请实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述方面的各种可选实现方式中提供的模拟竞猜数据的确定方法。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本申请实施例所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时，可以将这些功能存储在计算机可读存储介质中或者作为计算机可读存储介质上的一个或多个指令或代码进行传输。计算机可读存储介质包括计算机存储介质和通信介质，其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。

以上所述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种模拟竞猜数据的确定方法，其特征在于，所述方法应用于计算机设备，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述目标竞猜权重从所述至少一个候选模拟竞猜数据中确定出目标模拟竞猜数据，包括：

获取至少一个所述候选模拟竞猜数据对应的所述目标竞猜权重；

根据所述目标竞猜权重确定至少一个所述候选模拟竞猜数据对应的目标采样概率；

根据所述目标采样概率从至少一个所述候选模拟竞猜数据中确定出所述目标模拟竞猜数据。

3.根据权利要求2所述的方法，其特征在于，所述根据所述目标竞猜权重确定至少一个所述候选模拟竞猜数据对应的目标采样概率，包括：

对所述采样概率序列进行采样，得到所述目标采样概率；

所述根据所述目标采样概率从至少一个所述候选模拟竞猜数据中确定出目标模拟竞猜数据，包括：

4.根据权利要求1至3任一所述的方法，其特征在于，所述从内存中读取虚拟用户帐号对应的当前竞猜状态之前，所述方法还包括：

从内存中读取所述虚拟用户帐号对应的初始竞猜策略，所述初始竞猜策略用于表示所述竞猜状态和所述模拟竞猜数据之间的关系，且所述初始竞猜策略中不同模拟竞猜数据对应相同竞猜权重；

通过运行策略优化程序，根据所述初始竞猜策略和竞猜环境策略，构建所述虚拟用户帐号对应的竞猜活动序列，所述竞猜环境策略用于表示所述竞猜状态、所述模拟竞猜数据和所述模拟竞猜结果之间的关系，所述竞猜活动序列指所述虚拟用户帐号在n轮竞猜活动中对应的所述竞猜状态、所述模拟竞猜数据和所述模拟竞猜结果的集合；

根据所述竞猜活动序列调整所述初始竞猜策略，得到所述目标竞猜策略，并将所述目标竞猜策略写入内存。

5.根据权利要求4所述的方法，其特征在于，所述根据所述竞猜活动序列调整所述初始竞猜策略，得到所述目标竞猜策略，包括：

根据所述竞猜活动序列确定各个所述模拟竞猜数据对应的候选竞猜权重；

根据所述候选竞猜权重调整所述初始竞猜策略，得到所述目标竞猜策略。

6.根据权利要求1至3任一所述的方法，其特征在于，所述根据所述目标竞猜权重从所述至少一个候选模拟竞猜数据中确定出目标模拟竞猜数据之后，所述方法还包括：

通过运行结果模拟程序，根据所述目标模拟竞猜数据和竞猜结果生成规则，生成所述虚拟用户帐号对应的所述当前模拟竞猜结果；

通过运行状态模拟程序，根据所述当前模拟竞猜结果更新所述当前竞猜状态，并将所述当前竞猜状态写入内存。

7.根据权利要求6所述的方法，其特征在于，所述根据所述目标竞猜权重从所述至少一个候选模拟竞猜数据中确定出目标模拟竞猜数据之后，所述方法还包括：

从内存中读取至少一个所述虚拟用户帐号对应的所述目标模拟竞猜数据；

通过运行规则分析程序，根据所述至少一个目标模拟竞猜数据和n轮模拟竞猜结果，确定所述虚拟用户帐号对应的竞猜胜率；

响应于所述竞猜胜率高于预设胜率阈值，确定所述模拟结果生成规则存在异常。

8.一种模拟竞猜数据的确定装置，其特征在于，所述装置应用于计算机设备，所述装置包括：

9.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至7任一所述模拟竞猜数据的确定方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至7任一所述的模拟竞猜数据的确定方法。