CN111840997B

CN111840997B - 用于游戏的处理系统、方法、装置、电子设备及存储介质

Info

Publication number: CN111840997B
Application number: CN201910350055.8A
Authority: CN
Inventors: 田勇; 叶璨
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2019-04-28
Filing date: 2019-04-28
Publication date: 2023-11-28
Anticipated expiration: 2039-04-28
Also published as: CN111840997A

Abstract

本申请实施例提供了一种用于游戏的处理系统、方法、装置、电子设备及存储介质，系统包括：游戏模拟器用于基于游戏规则和当前游戏状态，生成游戏状态参数，游戏规则预先封装在游戏模拟器内，游戏状态参数为当前游戏状态对应的满足游戏规则的下一步游戏状态的参数；训练平台用于接收游戏模拟器发送的游戏状态参数，并调用预测模型，通过预测模型生成与游戏状态参数对应的预测数据，并在确定与预测数据对应的目标动作之后，至少根据执行目标动作的执行结果，更新预测模型。由于在针对不同玩法的游戏训练预测模型时，只需要调用游戏模拟器中封装的对应的游戏规则，不需要更改预测模型的结构，减少计算资源和信息处理资源的占用。

Description

用于游戏的处理系统、方法、装置、电子设备及存储介质

技术领域

本申请涉及游戏数据处理技术领域，特别是涉及一种用于游戏的处理系统、方法、装置、电子设备及存储介质。

背景技术

网络游戏作为人们生活中的一种娱乐形式，已经成为人们生活中不可缺少的部分。网络游戏可以包括非完全信息游戏及完全信息游戏，一般都是多个玩家按照一定次序进行决策和行动，目标是取得游戏胜利，或尽可能获得最多游戏分。在完全信息游戏中，玩家可以获得所有游戏信息，例如，围棋、象棋等。而在非完全信息游戏中，每个玩家只能获得部分游戏信息，例如，在斗地主游戏中，玩家只知道自己的手牌、公共牌和已经出过的牌，不知道其他玩家的手牌。

无论在非完全信息游戏还是完全信息游戏中，游戏模型可以起到陪玩等作用，对于优化用户体验非常重要。近年来，基于强化学习的游戏模型逐渐流行开来。基于强化学习的游戏模型可以通过游戏模型自身的博弈，产生训练数据，进行游戏模型的训练。该方法需要的人力少，且不需要真实玩家的数据，适用范围广。

但是，由于每种游戏的规则都是不同的，例如斗地主和麻将，而斗地主又包括洗牌和不洗牌等玩法。这样，就需要针对每种游戏的不同玩法分别训练游戏模型，这样显然会耗费大量计算资源和信息处理资源。

发明内容

为克服相关技术中存在的问题，本申请实施例提供一种用于游戏的处理系统、方法、装置、电子设备及存储介质。具体技术方案如下：

根据本申请实施例的第一方面，提供一种用于游戏的处理系统，所述系统包括：

游戏模拟器，用于基于游戏规则和当前游戏状态，生成游戏状态参数，其中，所述游戏规则预先封装在所述游戏模拟器内，所述游戏状态参数为所述当前游戏状态对应的满足所述游戏规则的下一步游戏状态的参数；

训练平台，用于接收所述游戏模拟器发送的游戏状态参数，并调用预测模型，通过所述预测模型生成与所述游戏状态参数对应的预测数据，并在确定与所述预测数据对应的目标动作之后，至少根据执行所述目标动作的执行结果，更新所述预测模型。

作为一种实施方式，所述训练平台包括动作执行集群，其中，

所述动作执行集群，用于将接收到的所述游戏状态参数发送至服务器集群；并接收所述服务器集群返回的预测数据，确定所述预测数据对应的目标动作，并执行所述目标动作，得到所述目标动作的执行结果，发送所述执行结果至训练集群。

作为一种实施方式，所述服务器集群，用于接收所述动作执行集群发送的所述游戏状态参数，将所述游戏状态参数输入所述预测模型，生成与所述游戏状态参数对应的预测数据，并发送所述预测数据至所述动作执行集群；

所述训练集群，用于接收所述动作执行集群发送的所述执行结果，并根据所述执行结果更新所述预测模型。

作为一种实施方式，所述动作执行集群包括自我对战集群和实际对战集群；

所述自我对战集群，用于在训练所述预测模型时，获取当前游戏状态，并发送所述当前游戏状态至所述游戏模拟器；

所述实际对战集群，用于在用户进行游戏对战时，获取当前游戏状态，并发送所述当前游戏状态至所述游戏模拟器。

作为一种实施方式，所述游戏模拟器，具体用于基于所述游戏规则和所述当前游戏状态，生成所述游戏状态对应的状态信息及多个动作信息，作为游戏状态参数；

所述服务器集群，具体用于将所述游戏状态参数输入所述预测模型，生成与所述游戏状态参数对应的动作评价标识及多个策略评价标识，作为预测数据；

所述动作执行集群，具体用于根据所述动作评价标识、所述多个策略评价标识及预设策略，确定所述状态信息对应的目标策略及目标动作，并执行所述目标动作，记录所述状态信息与所述目标动作的对应关系，作为所述目标动作的执行结果；

所述训练集群，具体用于根据所述对应关系及所述目标策略调整所述预测模型的参数。

根据本申请实施例的第二方面，提供一种用于游戏的处理方法，所述方法包括：

获取当前游戏状态；

调用游戏模拟器，基于游戏规则和所述当前游戏状态，生成游戏状态参数，其中，所述游戏规则预先封装在所述游戏模拟器内，所述游戏状态参数为所述当前游戏状态对应的满足所述游戏规则的下一步游戏状态的参数；

调用预测模型，通过所述预测模型生成与所述游戏状态参数对应的预测数据；

在确定与所述预测数据对应的目标动作之后，至少根据执行所述目标动作的执行结果，更新所述预测模型。

作为一种实施方式，所述获取当前游戏状态的步骤，包括：

在训练所述预测模型时，获取当前游戏状态，并发送所述当前游戏状态至所述游戏模拟器；

或，

在与用户进行游戏对战时，获取当前游戏状态，并发送所述当前游戏状态至所述游戏模拟器。

作为一种实施方式，所述基于游戏规则和所述当前游戏状态，生成游戏状态参数的步骤，包括：

基于所述游戏规则和所述当前游戏状态，生成所述当前游戏状态对应的状态信息及多个动作信息，作为游戏状态参数。

作为一种实施方式，所述通过所述预测模型生成与所述游戏状态参数对应的预测数据的步骤，包括：

将所述状态信息及多个动作信息输入所述预测模型，生成与所述游戏状态参数对应的动作评价标识及多个策略评价标识，作为预测数据。

作为一种实施方式，所述将所述游戏状态参数输入所述预测模型，生成与所述游戏状态参数对应的动作评价标识及多个策略评价标识的步骤，包括：

将所述状态信息与每个动作信息进行拼接，得到多个输入信息；

将所述多个输入信息输入所述预测模型，通过卷积处理及池化处理得到每个输入信息对应的动作评价标识及策略评价标识。

作为一种实施方式，所述至少根据执行所述目标动作的执行结果，更新所述预测模型的步骤，包括：

根据所述动作评价标识、所述多个策略评价标识及预设策略，确定所述状态信息对应的目标策略及目标动作，并执行所述目标动作；

记录所述状态信息与所述目标动作的对应关系，作为所述目标动作的执行结果；

根据所述对应关系及所述目标策略调整所述预测模型的参数。

作为一种实施方式，所述根据所述动作评价标识、所述多个策略评价标识及预设策略，确定所述状态信息对应的目标策略及目标动作的步骤，包括：

根据所述多个策略评价标识及预设策略，从所述预设策略中确定所述状态信息对应的目标策略；

根据所述动作评价标识及所述目标策略，从所述多个动作信息中确定所述状态信息对应的目标动作信息；

将所述目标动作信息表示的动作确定为目标动作。

作为一种实施方式，所述预测模型包括动作神经网络和策略神经网络；

所述根据所述对应关系及所述目标策略调整所述预测模型的参数的步骤，包括：

将所记录的对应关系作为第一样本，输入所述动作神经网络，得到每个第一样本对应的策略评价标识；

根据所述每个第一样本对应的策略评价标识，计算得到所述策略神经网络的第一损失函数值；

将所记录的对应关系中相邻的两个记录作为第二样本；

将所述第二样本中记录时间早的对应关系输入所述动作神经网络，得到第一动作评价标识；

将所述第二样本中记录时间晚的对应关系输入所述策略神经网络，得到第二动作评价标识；

根据所述第一动作评价标识及所述第二动作评价标识，计算所述动作神经网络的第二损失函数值；

根据所述第一损失函数值及所述第二损失函数值，调整所述动作神经网络的参数；

当训练迭代次数达到预设值时，根据所述动作神经网络的参数调整所述策略神经网络的参数。

作为一种实施方式，所述方法还包括：

返回所述获取当前游戏状态的步骤，直到所述预测模型的训练迭代次数达到预设次数时，停止更新所述预测模型。

根据本申请实施例的第三方面，提供一种用于游戏的处理装置，所述装置包括：

游戏状态获取模块，被配置为获取当前游戏状态；

状态参数确定模块，被配置为调用游戏模拟器，基于游戏规则和所述当前游戏状态，生成游戏状态参数，其中，所述游戏规则预先封装在所述游戏模拟器内，所述游戏状态参数为所述当前游戏状态对应的满足所述游戏规则的下一步游戏状态的参数；

预测模型调用模块，被配置为调用预测模型，通过所述预测模型生成与所述游戏状态参数对应的预测数据；

预测模型更新模块，被配置为在确定与所述预测数据对应的目标动作之后，至少根据执行所述目标动作的执行结果，更新所述预测模型。

作为一种实施方式，所述游戏状态获取模块包括：

游戏状态获取单元，被配置为在训练所述预测模型时，获取当前游戏状态，并发送所述当前游戏状态至所述游戏模拟器；或，在与用户进行游戏对战时，获取当前游戏状态，并发送所述当前游戏状态至所述游戏模拟器。

作为一种实施方式，所述状态参数确定模块包括：

状态参数确定单元，被配置为基于所述游戏规则和所述当前游戏状态，生成所述当前游戏状态对应的状态信息及多个动作信息，作为游戏状态参数。

作为一种实施方式，所述预测模型调用模块包括：

预测模型调用单元，被配置为将所述状态信息及多个动作信息输入所述预测模型，生成与所述游戏状态参数对应的动作评价标识及多个策略评价标识，作为预测数据。

作为一种实施方式，所述预测模型调用单元包括：

信息拼接子单元，被配置为将所述状态信息与每个动作信息进行拼接，得到多个输入信息；

评价标识生成子单元，被配置为将所述多个输入信息输入所述预测模型，通过卷积处理及池化处理得到每个输入信息对应的动作评价标识及策略评价标识。

作为一种实施方式，所述预测模型更新模块包括：

目标动作确定单元，被配置为根据所述动作评价标识、所述多个策略评价标识及预设策略，确定所述状态信息对应的目标策略及目标动作，并执行所述目标动作；

执行结果记录单元，被配置为记录所述状态信息与所述目标动作的对应关系，作为所述目标动作的执行结果；

预测模型更新单元，被配置为根据所述对应关系及所述目标策略调整所述预测模型的参数。

作为一种实施方式，所述目标动作确定单元包括：

目标策略确定子单元，被配置为根据所述多个策略评价标识及预设策略，从所述预设策略中确定所述状态信息对应的目标策略；

目标动作信息确定子单元，被配置为根据所述动作评价标识及所述目标策略，从所述多个动作信息中确定所述状态信息对应的目标动作信息；

目标动作确定子单元，被配置为将所述目标动作信息表示的动作确定为目标动作。

所述预测模型更新单元包括：

第一样本输入子单元，被配置为将所记录的对应关系作为第一样本，输入所述动作神经网络，得到每个第一样本对应的策略评价标识；

第一损失函数值确定子单元，被配置为根据所述每个第一样本对应的策略评价标识，计算得到所述策略神经网络的第一损失函数值；

第二样本确定子单元，被配置为将所记录的对应关系中相邻的两个记录作为第二样本；

第二样本输入子单元，被配置为将所述第二样本中记录时间早的对应关系输入所述动作神经网络，得到第一动作评价标识；

第三样本输入子单元，被配置为将所述第二样本中记录时间晚的对应关系输入所述策略神经网络，得到第二动作评价标识；

第二损失函数值确定子单元，被配置为根据所述第一动作评价标识及所述第二动作评价标识，计算所述动作神经网络的第二损失函数值；

第一参数调整子单元，被配置为根据所述第一损失函数值及所述第二损失函数值，调整所述动作神经网络的参数；

第二参数调整子单元，被配置为当训练迭代次数达到预设值时，根据所述动作神经网络的参数调整所述策略神经网络的参数。

作为一种实施方式，所述装置还包括：

模型停止更新模块，被配置为触发所述游戏状态获取模块，直到所述预测模型的训练迭代次数达到预设次数时，停止更新所述预测模型。

根据本申请实施例的第四方面，提供一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述任一所述的用于游戏的处理方法步骤。

根据本申请实施例的第五方面，提供一种非临时性计算机可读存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行上述任一所述的用于游戏的处理方法步骤。

本申请实施例所提供的方案中，游戏模拟器可以基于游戏规则和当前游戏状态，生成游戏状态参数，游戏规则预先封装在所述游戏模拟器内，游戏状态参数为当前游戏状态对应的满足戏规则的下一步游戏状态的参数，训练平台可以接收游戏模拟器发送的游戏状态参数，并调用预测模型，通过预测模型生成与游戏状态参数对应的预测数据，并在确定与预测数据对应的目标动作之后，至少根据执行目标动作的执行结果，更新预测模型。由于游戏模拟器封装有预设游戏规则，因此，在针对不同玩法的游戏更新预测模型时，只需要调用游戏模拟器中封装的对应的游戏规则，不需要更改预测模型的结构，也无需针对每种游戏的不同玩法分别训练游戏模型，减少计算资源和信息处理资源的占用，同时也可以减少游戏开发人力的耗费，大大降低游戏开发成本。应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

图1是根据一示例性实施例示出的一种用于游戏的处理方法的流程图；

图2(a)是根据一示例性实施例示出的输入张量的拼接的一种示意图；

图2(b)是根据一示例性实施例示出的输入张量输入预测模型的一种示意图；

图3是根据一示例性实施例示出的图1所示实施例中步骤S104的具体流程图；

图4是根据一示例性实施例示出的图3所示实施例中步骤S301的具体流程图；

图5是根据一示例性实施例示出的图3所示实施例中步骤S303的具体流程图；

图6是根据一示例性实施例示出的一种用于游戏的处理系统的框图；

图7是根据一示例性实施例示出的一种用于游戏的处理装置的框图；

图8是根据一示例性实施例示出的一种电子设备的框图；

图9是根据一示例性实施例示出的图8所示实施例中电子设备的具体结构框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

为了减少计算资源和信息处理资源的占用，减少游戏开发人力的耗费，降低游戏开发成本，本申请实施例提供了一种用于游戏的处理系统、方法、装置、电子设备及非临时性计算机可读存储介质。

下面首先对本申请实施例所提供的一种用于游戏的处理方法进行介绍。

本申请实施例所提供的一种用于游戏的处理方法可以应用于任意需要得到游戏的预测模型的电子设备，例如，电脑、处理器等，为了方便描述，以下简称电子设备。该预测模型用于在训练预测模型时与自身进行对战，以及在用户玩游戏时与用户进行对战。

如图1所示，一种用于游戏的处理方法，所述方法包括步骤S101-步骤S104。

在步骤S101中，获取当前游戏状态；

在步骤S102中，调用游戏模拟器，基于游戏规则和所述当前游戏状态，生成游戏状态参数；

其中，所述游戏规则预先封装在所述游戏模拟器内，所述游戏状态参数为所述当前游戏状态对应的满足所述游戏规则的下一步游戏状态的参数。

在步骤S103中，调用预测模型，通过所述预测模型生成与所述游戏状态参数对应的预测数据；

在步骤S104中，在确定与所述预测数据对应的目标动作之后，至少根据执行所述目标动作的执行结果，更新所述预测模型。

可见，在申请本实施例所提供的方案中，电子设备可以获取当前游戏状态，然后调用游戏模拟器，基于游戏规则和当前游戏状态，生成游戏状态参数，游戏规则预先封装在游戏模拟器内，游戏状态参数为当前游戏状态对应的满足游戏规则的下一步游戏状态的参数，调用预测模型，通过预测模型生成与游戏状态参数对应的预测数据，进而在确定与预测数据对应的目标动作之后，至少根据执行目标动作的执行结果，更新预测模型。由于游戏模拟器封装有游戏规则，因此，在针对不同玩法的游戏训练预测模型时，只需要调用游戏模拟器中封装的对应的游戏规则，不需要更改预测模型的结构，也无需针对每种游戏的不同玩法分别训练游戏模型，减少计算资源和信息处理资源的占用，同时也可以减少游戏开发人力的耗费，大大降低游戏开发成本。

在上述步骤S101中，电子设备可以获取当前游戏状态，其中，当前游戏状态即为能够表征当前游戏状态的信息，例如，在斗地主游戏中，当前游戏状态可以为手牌数量、手牌具体内容、是否抢地主等，在此不做具体限定。在一种实施方式中，可以从游戏的初始状态开始获取游戏的当前游戏状态，直到游戏结束，然后根据预测模型的训练情况确定是否开始下一局游戏。

电子设备获取当前游戏状态后，为了得到预测模型的输入数据，便可以执行步骤S102，即调用游戏模拟器，基于游戏规则和当前游戏状态，生成游戏状态参数。游戏状态参数即为当前游戏状态对应的满足上述游戏规则的下一步游戏状态的参数，也就是预测模型的输入数据。

其中，游戏模拟器为封装有游戏规则的接口，游戏规则预先封装在游戏模拟器内。需要训练得到哪种游戏的预测模型，便可以在游戏模拟器中封装哪种游戏的游戏规则。游戏模拟器一般需要实现2个类：游戏Game和状态State。Game类用于根据游戏逻辑产生初始的State对象；State类用于维护一局游戏状态的转移和游戏逻辑。

作为一种实施方式，Game类的接口可以为State Start()，State Start()的含义为：调用一个Game对象的Start接口，返回一个游戏的初始状态对应的State。例如，在斗地主游戏中，调用State Start()后，返回的State中，每个玩家已经拿到自己的手牌，并且已经决定由谁开始游戏。

State类的接口可以包括Bool Terminated()、Int CurrentPlayer()、Vector<int>Results()、Vector<Int>ValidActions()、State Act(int action)及Observationobs()等多种接口。其中，Bool Terminated()的含义为：调用后返回当前游戏状态下游戏是否已经结束，如果结束，则返回True，如果未结束，则返回False。例如，在斗地主游戏中，当有一个玩家手牌全部出完时，该接口返回True，其他状态信息下均返回False。

Int CurrentPlayer()的含义为：调用后返回在当前游戏状态信息下，轮到哪个玩家行动，返回该玩家的编号。例如，在斗地主游戏中，0号玩家出完牌后，轮到1号玩家出牌，该接口则返回1。

Vector<int>Results()的含义为：返回当前游戏状态下，每个玩家对应的分数或者输赢，其中，赢可以用1表示；输可以用-1表示。例如，在斗地主游戏中，游戏结束后，0、1、2号玩家分别得分-1、-1、2，则可以返回[-1，-1，2]。游戏未结束时，可以返回[0，0，0]。

Vector<Int>ValidActions()的含义为：返回当前游戏状态下，当前玩家可选择的动作编号。编号只需要能够对应当前游戏状态下的一个动作即可，不需要所有游戏状态下的所有动作都和编号一一对应。例如，在斗地主游戏中，抢地主阶段，0可以代表“不抢地主”，1可以代表“抢地主”；出牌阶段，0可能代表出牌“3”，1可能代表出牌“对3”等。

State Act(int action)的含义为：当前玩家选择编号为action的动作后，返回下一个游戏状态。例如，在斗地主游戏中，当前玩家出牌“对3”，返回下一个游戏状态，即该玩家的手牌少了一对3，且轮到下一个玩家出牌。

Observation obs()的含义为：返回当前游戏状态的张量表示，也就是状态张量，以及当前游戏状态对应的动作张量。其中，当前游戏状态对应的动作张量一般为多个，该多个动作张量标识在当前游戏状态下，可以采用的动作对应的张量。

在步骤S103中，电子设备得到上述游戏状态参数后，便可以调用预测模型，通过该预测模型生成与游戏状态参数对应的预测数据。也就是说，电子设备可以将上述游戏状态参数输入该预测模型，进而，该预测模型可以生成与游戏状态参数对应的预测数据。其中，预测数据为预测模型根据游戏状态参数预测的符合游戏规则的电子设备可以执行的游戏动作对应的数据。

进而，在上述步骤S104中，电子设备便可以确定与预测数据对应的目标动作，在一种实施方式中，预测数据可以包括各个可执行的游戏动作的分数，电子设备则可以确定分数最高的游戏动作为目标动作。在确定与预测数据对应的目标动作之后便可以得到执行结果，包括游戏的下一步游戏状态，电子设备便可以至少根据执行目标动作的执行结果，更新上述预测模型的参数，以使预测模型生成的预测数据能够越来越接近执行最佳游戏动作的游戏结果。

其中，预测模型可以为神经网络等深度学习模型，在此不做具体限定。对于预测模型的结构在此不做具体限定，其可以包括多个卷积层、多个全连接层等，其初始参数可以随机设定。

作为本申请实施例的一种实施方式，上述获取当前游戏状态的步骤，可以包括：

在训练所述预测模型时，获取当前游戏状态，并发送所述当前游戏状态至所述游戏模拟器；或，在与用户进行游戏对战时，获取当前游戏状态，并发送所述当前游戏状态至所述游戏模拟器。

上述预测模型可以用于在训练时与自身进行对战，又可以用于与用户进行游戏对战。这样，在训练预测模型时，电子设备可以通过预测模型的不断自我对战，不断调整预测模型的参数，对预测模型进行更新。

训练得到输出结果准确的预测模型后，电子设备便可以利用该预测模型与用户进行游戏对战，实现与真实用户的游戏对战。当然在与用户进行游戏对战时，电子设备也可以调整预测模型的参数，进一步提高预测模型结果准确的准确度。

可见，在本实施例中，电子设备在训练预测模型时，可以获取当前游戏状态，并发送当前游戏状态至游戏模拟器，在与用户进行游戏对战时，也可以获取当前游戏状态，并发送当前游戏状态至游戏模拟器，上述预测模型可以用于在训练时与自身进行对战，又可以用于与用户进行游戏对战。

作为本申请实施例的一种实施方式，上述基于游戏规则和所述当前游戏状态，生成游戏状态参数的步骤，可以包括：

由于对于当前游戏状态来说，满足游戏规则的下一步可以执行的游戏动作可能具有多个，每个游戏动作对应的游戏结果一般是不同的，所以电子设备调用上述游戏模拟器，一般可以生成当前游戏状态对应的状态信息及多个动作信息，该多个动作信息即为满足游戏规则的下一步可以执行的多个游戏动作对应的信息。状态信息即为表示当前游戏状态的信息。

相应的，上述通过所述预测模型生成与所述游戏状态参数对应的预测数据的步骤，可以包括：

电子设备获得上述状态信息及多个动作信息后，便可以将状态信息及多个动作信息输入上述预测模型，预测模型也就可以生成与状态信息及多个动作信息对应的动作评价标识及多个策略评价标识，电子设备便可以将动作评价标识及多个策略评价标识作为预测数据。

其中，动作评价标识表示采取某游戏动作后的游戏得分，也就是表示某游戏动作的好坏，可以采用动作得分表示。策略评价标识表示采用某策略选择游戏动作的概率大小，可以采用概率得分表示。

确定了动作评价标识及多个策略评价标识，电子设备也就确定了采取各个游戏动作后的游戏得分，以及采用各策略选择游戏动作的概率，进而，电子设备也就可以确定使得游戏得分最佳的目标动作。

可见，在本实施例中，电子设备可以基于游戏规则和当前游戏状态，生成当前游戏状态对应的状态信息及多个动作信息，进而将状态信息及多个动作信息输入预测模型，生成与游戏状态参数对应的动作评价标识及多个策略评价标识，这样，电子设备可以准确目标动作，进而至少根据执行目标动作的执行结果，更新预测模型。

作为本申请实施例的一种实施方式，上述状态信息可以采用状态张量表示，多个动作信息可以采用多个动作张量表示，例如，上述Observation obs()接口返回的张量通常采用以字符串为键，以张量为值的Map表示，其中可以包含状态张量和动作张量两种。

例如，在斗地主游戏中，一种实施方式中，状态张量可以使用二维张量表示，第一维为参数channel，如下表所示可以表示不同的意义；第二维长度为15，依次表示3、4、5、6、7、8、9、10、J、Q、K、A、2、小王、大王。

动作张量可以使用三维张量表示，第一维是当前状态信息下可以采取的动作，第二维是参数channel，各channel意义如下表所示，第三维长度为15，可以与状态张量的第二维相同，表示不同的牌。

这样，电子设备调用上述游戏模拟器，便可以得到当前游戏状态对应的状态张量及多个动作张量，进而将状态张量及多个动作张量输入预测模型，得到动作评价标识及多个策略评价标识。

作为本申请实施例的一种实施方式，上述将所述游戏状态参数输入所述预测模型，生成与所述游戏状态参数对应的动作评价标识及多个策略评价标识的步骤，可以包括：

将所述状态信息与每个动作信息进行拼接，得到多个输入信息；将所述多个输入信息输入所述预测模型，通过卷积处理及池化处理得到每个输入信息对应的动作评价标识及策略评价标识。

为了便于预测模型处理，电子设备可以将状态信息与每个动作信息根据其表示方式进行拼接，进而得到多个输入信息。例如，状态信息与每个动作信息均采用张量的方式表示，那么如图2(a)所示，假设当前状态张量201对应的动作张量为4个，分别为动作张量10、动作张量20、动作张量30及动作张量40，那么电子设备可以将当前状态张量201分别与动作张量10、动作张量20、动作张量30及动作张量40进行拼接，得到输入张量110、输入张量210输入张量310及输入张量410，输入张量110-410即为输入信息。

得到多个输入信息后，电子设备便可以将该多个输入信息输入预测模型，预测模型可以包括多层卷积层和多个全连接层，最后一个卷积层的输出数据作为全连接层的输入数据。全连接层最后会输出每个输入信息对应的动作评价标识q和策略评价标识logit，二者可以均为标量，也就是通过多层卷积层的卷积处理及全连接层的池化处理，预测模型可以输出每个输入信息对应的q及logit。

例如，如图2(b)所示，一个由当前状态张量及动作张量拼接得到的输入张量输入预测模型后，经过多层卷积层的卷积处理后，经过多层全连接层的池化处理，分别输出动作评价标识q和策略评价标识logit。

可见，在本实施例中，电子设备可以将状态信息与每个动作信息按照其表示方式进行拼接，得到多个输入信息，进而将多个输入信息输入预测模型，通过卷积处理及池化处理得到每个输入信息对应的动作评价标识及策略评价标识，这样，可以方便预测模型对状态信息及动作信息进行处理，能够快速准确地得到动作评价标识及策略评价标识。

作为本申请实施例的一种实施方式，如图3所示，上述至少根据执行所述目标动作的执行结果，更新所述预测模型的步骤，可以包括：

步骤S301，根据所述动作评价标识、所述多个策略评价标识及预设策略，确定所述状态信息对应的目标策略及目标动作，并执行所述目标动作；

电子设备可以根据动作评价标识、多个策略评价标识及预设策略，确定上述状态信息对应的目标策略及目标动作。其中，预设策略可以包括∈-greedy策略和policy策略。电子设备所采用的预设策略即为目标策略。

采用∈-greedy策略，电子设备可以根据预测模型输出的动作评价标识q和预设参数∈(0≤∈<1)确定目标动作。具体来说，∈-greedy策略以∈的概率从可选游戏动作中随机选择一个游戏动作，以1-的概率选择最大q对应的游戏动作。

采用policy策略，电子设备可以根据预测模型输出的策略评价标识logit确定目标动作。具体来说，可以将多个logit通过softmax运算转化成概率，然后按照该概率随机选择游戏动作，采用policy策略能够逼近非完全信息游戏的最优解，即纳什均衡。

步骤S302，记录所述状态信息与所述目标动作的对应关系，作为所述目标动作的执行结果；

接下来，电子设备便可以记录状态信息与目标动作的对应关系，作为目标动作的执行结果。在一种实施方式中，电子设备可以设置历史列表history[i]，列表中每条记录格式可以为(状态信息，目标动作的标识，是否停止游戏，游戏得分，目标策略的标识)。这样，游戏每进行一步，电子设备便可以在该历史列表中增加一条记录，直到游戏结束。

其中，上述是否停止游戏及游戏得分均可以通过调用上述游戏模拟器获得。同时，在电子设备确定目标动作后，便可以执行该目标动作，这样，游戏的当前状态便会随着所执行的目标动作改变。

步骤S303，根据所述对应关系及所述目标策略调整所述预测模型的参数。

在记录上述对应关系后，电子设备便可以根据所记录的对应关系及目标策略调整预测模型的参数，直到该预测模型的训练迭代次数达到预设次数时，停止训练，也就可以得到能够用于与用户进行对战的预测模型。

可见，在本实施例中，电子设备可以根据动作评价标识、多个策略评价标识及预设策略，确定状态信息对应的目标策略及目标动作，并执行目标动作，记录状态信息与目标动作的对应关系，作为目标动作的执行结果，进而，根据对应关系及目标策略调整预测模型的参数，这样，可以训练得到能够与用户进行对战的预测模型。

作为本申请实施例的一种实施方式，如图4所示，上述根据所述动作评价标识、所述多个策略评价标识及预设策略，确定所述状态信息对应的目标策略及目标动作的步骤，可以包括：

步骤S401，根据所述多个策略评价标识及预设策略，从所述预设策略中确定所述状态信息对应的目标策略；

在确定状态信息对应的目标动作时，电子设备可以根据多个策略评价标识及预设策略，从预设策略中确定该状态信息对应的目标策略。例如，预设策略包括∈-greedy策略和policy策略，预测模型输出的∈-greedy策略和policy策略对应的策略评价标识分别为0.8和0.2，那么电子设备可以确定策略评价标识为0.8的∈-greedy策略为目标策略。

步骤S402，根据所述动作评价标识及所述目标策略，从所述多个动作信息中确定所述状态信息对应的目标动作信息；

确定了目标策略后，电子设备便可以根据动作评价标识及该目标策略，从多个动作信息中确定状态信息对应的目标动作信息。例如。目标策略为∈-greedy策略，那么电子设备便可以按照∈-greedy策略，以∈的概率从多个动作信息中随机选择一个动作信息作为目标动作对应的信息，即目标动作信息，以1-的概率选择最大q对应的动作信息作为目标动作对应的信息，即目标动作信息。

步骤S403，将所述目标动作信息表示的动作确定为目标动作。

进而，电子设备便可以将目标动作信息所表示的动作确定为目标动作。例如，目标动作信息为：梅花7，那么电子设备便可以确定目标动作为：出牌梅花7。

可见，在本实施例中，电子设备可以根据多个策略评价标识及预设策略，从预设策略中确定状态信息对应的目标策略，进而根据动作评价标识及目标策略，从多个动作信息中确定状态信息对应的目标动作信息，进而将目标动作信息表示的动作确定为目标动作，这样，可以选择合适的目标策略，进而确定合适的目标动作，以使游戏取得更高的分数。

作为本申请实施例的一种实施方式，上述预测模型可以包括动作神经网络和策略神经网络。动作神经网络和策略神经网络可以为结构相同的神经网络，初始参数也可以相同。在训练过程中，动作神经网络主要用于学习状态信息及多个动作信息与动作评价标识的关系，策略神经网络则主要用于学习状态信息及多个动作信息与策略评价标识的关系。

相应的，如图5所示，上述根据所述对应关系及所述目标策略调整所述预测模型的参数的步骤，可以包括以下步骤：

步骤S501，将所记录的对应关系作为第一样本，输入所述动作神经网络，得到每个第一样本对应的策略评价标识；

电子设备所记录的每一条对应关系都可以作为一个第一样本，调用上述动作神经网络，即将第一样本输入动作神经网络，动作神经网络便可以输出该第一样本对应的策略评价标识。需要说明的是，由于动作神经网络与策略神经网络的结构及参数均相同，所以无论动作神经网络还是策略神经网络，均可以输出策略评价标识。

在一种实施方式中，电子设备可以设置历史列表history[i]，列表中每条记录格式可以为(状态信息，目标动作的标识，是否停止游戏，游戏得分，目标策略的标识)，那么，电子设备可以从记录中取出(状态信息，目标动作的标识)作为一个第一样本。输入动作神经网络得到每个第一样本对应的策略评价标识及动作评价标识。

步骤S502，根据所述每个第一样本对应的策略评价标识，计算得到所述策略神经网络的第一损失函数值；

得到每个第一样本对应的策略评价标识后，电子设备便可以以目标动作的标识为标签label，基于每个第一样本对应的策略评价标识，计算策略神经网络的第一损失函数值l_sl。

步骤S503，将所记录的对应关系中相邻的两个记录作为第二样本；

电子设备还可以将所记录的对应关系中相邻的两个记录作为第二样本。在一种实施方式中，电子设备可以设置历史列表history[i]，列表中每条记录格式可以为(状态信息，目标动作的标识，是否停止游戏，游戏得分，目标策略的标识)，那么，电子设备可以从记录中取出(前一状态信息，前一状态信息对应的目标动作的动作信息，游戏得分，状态信息，是否停止游戏)，作为第二样本。其中，前一状态张量即为上述状态信息的前一状态信息。

步骤S504，将所述第二样本中记录时间早的对应关系输入所述动作神经网络，得到第一动作评价标识；

接下来，电子设备可以调用动作神经网络，将第二样本中记录时间早的对应关系输入动作神经网络，得到第一动作评价标识。也就是说，可以将前一状态信息及前一状态信息对应的目标动作的动作信息输入动作神经网络，进而得到第一动作评价标识。

步骤S505，将所述第二样本中记录时间晚的对应关系输入所述策略神经网络，得到第二动作评价标识；

电子设备可以调用策略神经网络，将第二样本中记录时间晚的对应关系输入动作神经网络，得到第二动作评价标识。也就是说，可以将状态信息及状态信息对应的目标动作的动作信息输入策略神经网络，进而得到第二动作评价标识。

步骤S506，根据所述第一动作评价标识及所述第二动作评价标识，计算所述动作神经网络的第二损失函数值；

得到上述第一动作评价标识及第二动作评价标识后，电子设备便可以计算动作神经网络的第二损失函数值。具体来说，电子设备可以先计算label，如果停止游戏，那么label＝游戏得分，否则label＝maxq_t+1+r_t，其中，q_t+1为状态信息，r_t为游戏得分。进而，电子设备可以计算q_t和label的第二损失函数值l_rl，其中，q_t为前一状态信息。

计算上述第一损失函数值及第二损失函数值的方式均可以采用神经网络训练领域的相关计算方式，在此不做具体限定及说明。

步骤S507，根据所述第一损失函数值及所述第二损失函数值，调整所述动作神经网络的参数；

得到第一损失函数值及第二损失函数值后，电子设备便可以根据该第一损失函数值及第二损失函数值调整动作神经网络的参数。具体来说，电子设备可以对l_sl+l_rl的和进行求导得到动作神经网络的梯度，进而采用梯度下降算法等方式调整动作神经网络的参数。

步骤S508，当所述训练迭代次数达到预设值时，根据所述动作神经网络的参数调整所述策略神经网络的参数。

当训练迭代次数达到预设值时，说明此时动作神经网络已经进行了多次参数调整，为了保证策略神经网络的参数也能及时更新，所以此时可以根据动作神经网络的参数调整策略神经网络的参数。也就是将策略神经网络的参数调整为与动作神经网络的参数相同。

其中，上述预设值可以根据实际应用环境以及动作神经网络及策略神经网络的具体结构等因素确定，例如，可以为5、10、50等，在此不做具体限定。

可见，在本实施例中，预测模型可以包括动作神经网络和策略神经网络，电子设备可以基于所记录的对应关系对动作神经网络和策略神经网络进行有效的训练，进而得到预测模型。

作为本申请实施例的一种实施方式，上述方法还可以包括：

由于游戏的当前状态会随着所执行的目标动作改变，所以电子设备可以返回上述步骤S101，即返回上述获取当前游戏状态的步骤。此时，电子设备获取的当前游戏状态已经改变，并且此时预测模型的参数也已经进行过调整，进而，预测模型可以输出当前游戏状态对应的更加合适的预测数据，这样，对预测模型不断进行训练，调整预测模型的参数，在训练过程中，预测模型可以不断学习游戏状态参数与预测数据的对应关系，以确定更加合适的预测数据，进而，得到具有高对战水平的预测模型。

可见，在本实施例中，电子设备可以返回上述获取当前游戏状态的步骤，直到预测模型的训练迭代次数达到预设次数时，停止更新预测模型。这样，可以得到具有高对战水平的预测模型。

本申请实施例还提供了一种用于游戏的处理系统，下面对本申请实施例所提供的一种用于游戏的处理系统进行介绍。

如图6所示，一种用于游戏的处理系统，所述系统包括游戏模拟器610及训练平台620；

游戏模拟器610，用于基于游戏规则和当前游戏状态，生成游戏状态参数；

训练平台620，用于接收所述游戏模拟器610发送的游戏状态参数，并调用预测模型，通过所述预测模型生成与所述游戏状态参数对应的预测数据，并在确定与所述预测数据对应的目标动作之后，至少根据执行所述目标动作的执行结果，更新所述预测模型。

可见，本申请实施例所提供的方案中，游戏模拟器可以基于游戏规则和当前游戏状态，生成游戏状态参数，游戏规则预先封装在所述游戏模拟器内，游戏状态参数为当前游戏状态对应的满足戏规则的下一步游戏状态的参数，训练平台可以接收游戏模拟器发送的游戏状态参数，并调用预测模型，通过预测模型生成与游戏状态参数对应的预测数据，并在确定与预测数据对应的目标动作之后，至少根据执行目标动作的执行结果，更新预测模型。由于游戏模拟器封装有预设游戏规则，因此，在针对不同玩法的游戏更新预测模型时，只需要调用游戏模拟器中封装的对应的游戏规则，不需要更改预测模型的结构，也无需针对每种游戏的不同玩法分别训练游戏模型，减少计算资源和信息处理资源的占用，同时也可以减少游戏开发人力的耗费，大大降低游戏开发成本。

作为本申请实施例的一种实施方式，上述训练平台620可以包括动作执行集群(图6中未示出)，其中，

上述动作执行集群，用于将接收到的所述游戏状态参数发送至服务器集群(图6中未示出)；并接收所述服务器集群返回的预测数据，确定所述预测数据对应的目标动作，并执行所述目标动作，得到所述目标动作的执行结果，发送所述执行结果至训练集群(图6中未示出)。

作为本申请实施例的一种实施方式，上述服务器集群，用于接收所述动作执行集群发送的所述游戏状态参数，将所述游戏状态参数输入所述预测模型，生成与所述游戏状态参数对应的预测数据，并发送所述预测数据至所述动作执行集群；

上述动作执行集群、服务器集群、训练集群均可以包括一个或多个设备，在此不做具体限定。

作为本申请实施例的一种实施方式，上述动作执行集群可以包括自我对战集群和实际对战集群；

上述自我对战集群，用于在训练所述预测模型时，获取当前游戏状态，并发送所述当前游戏状态至所述游戏模拟器；

上述实际对战集群，用于在用户进行游戏对战时，获取当前游戏状态，并发送所述当前游戏状态至所述游戏模拟器。

作为本申请实施例的一种实施方式，所述游戏模拟器，具体用于基于所述游戏规则和所述当前游戏状态，生成所述游戏状态对应的状态信息及多个动作信息，作为游戏状态参数；

上述服务器集群，具体可以用于将所述游戏状态参数输入所述预测模型，生成与所述游戏状态参数对应的动作评价标识及多个策略评价标识，作为预测数据；

上述动作执行集群，具体用于根据所述动作评价标识、所述多个策略评价标识及预设策略，确定所述状态信息对应的目标策略及目标动作，并执行所述目标动作，记录所述状态信息与所述目标动作的对应关系，作为所述目标动作的执行结果；

上述训练集群，具体用于根据所述对应关系及所述目标策略调整所述预测模型的参数。

作为本申请实施例的一种实施方式，上述动作执行集群，具体可以用于根据所述多个策略评价标识及预设策略，从所述预设策略中确定所述状态信息对应的目标策略；根据所述动作评价标识及所述目标策略，从所述多个动作信息中确定所述状态信息对应的目标动作信息；将所述目标动作信息表示的动作确定为目标动作。

作为本申请实施例的一种实施方式，上述预测模型可以包括动作神经网络和策略神经网络；

上述训练集群，具体可以用于将所记录的对应关系作为第一样本，输入所述动作神经网络，得到每个第一样本对应的策略评价标识；根据所述每个第一样本对应的策略评价标识，计算得到所述策略神经网络的第一损失函数值；将所记录的对应关系中相邻的两个记录作为第二样本；将所述第二样本中记录时间早的对应关系输入所述动作神经网络，得到第一动作评价标识；将所述第二样本中记录时间晚的对应关系输入所述策略神经网络，得到第二动作评价标识；根据所述第一动作评价标识及所述第二动作评价标识，计算所述动作神经网络的第二损失函数值；根据所述第一损失函数值及所述第二损失函数值，调整所述动作神经网络的参数；当训练迭代次数达到预设值时，根据所述动作神经网络的参数调整所述策略神经网络的参数。

作为本申请实施例的一种实施方式，上述系统还可以包括存储集群(图6中未示出)，上述训练集群可以包括参数服务器(图6中未示出)及处理服务器(图6中未示出)，所述处理服务器可以包括第一缓存区和第二缓存区，所述第一缓存区，可以用于存储所述第一样本，所述第二缓存区，可以用于存储所述第二样本；

上述处理服务器，可以用于从所述第一缓存区中获取所述第一样本，输入所述动作神经网络，得到每个第一样本对应的策略评价标识；根据所述每个第一样本对应的策略评价标识，计算得到所述策略神经网络的第一损失函数值；将所述第二样本中记录时间早的对应关系输入所述动作神经网络，得到第一动作评价标识；将所述第二样本中记录时间晚的对应关系输入所述策略神经网络，得到第二动作评价标识；根据所述第一动作评价标识及所述第二动作评价标识，计算所述动作神经网络的第二损失函数值；根据所述第一损失函数值及所述第二损失函数值，确定所述动作神经网络的参数梯度，并发送所述参数梯度至所述参数服务器；

上述参数服务器，可以用于根据所述参数梯度调整所述动作神经网络的参数；当所述训练迭代次数达到预设值时，根据所述动作神经网络的参数调整所述策略神经网络的参数；将更新参数后的所述动作神经网络及所述策略神经网络保存至所述存储集群。

其中，参数服务器根据参数梯度调整动作神经网络的参数的具体方式可以采用梯度下降的算法，在此不做具体限定及说明。当训练迭代次数达到预设值时，参数服务器可以根据动作神经网络的参数调整策略神经网络的参数，进而，在一种实施方式中，参数服务器可以立即将更新参数后的动作神经网络及策略神经网络保存至上述存储集群。在另一种实施方式中，参数服务器可以每隔一定的训练迭代次数，将更新参数后的动作神经网络及策略神经网络保存至上述存储集群，这都是合理的。

图7是根据一示例性实施例示出的一种用于游戏的处理装置的框图。

如图7所示，一种用于游戏的处理装置，所述装置包括：

游戏状态获取模块710，被配置为获取当前游戏状态；

状态参数确定模块720，被配置为调用游戏模拟器，基于游戏规则和所述当前游戏状态，生成游戏状态参数；

其中，所述游戏规则预先封装在所述游戏模拟器内，所述游戏状态参数为所述当前游戏状态对应的满足所述游戏规则的下一步游戏状态的参数；

预测模型调用模块730，被配置为调用预测模型，通过所述预测模型生成与所述游戏状态参数对应的预测数据；

预测模型更新模块740，被配置为在确定与所述预测数据对应的目标动作之后，至少根据执行所述目标动作的执行结果，更新所述预测模型。

可见，在申请本实施例所提供的方案中，电子设备可以获取当前游戏状态，然后调用游戏模拟器，基于游戏规则和当前游戏状态，生成游戏状态参数，游戏规则预先封装在游戏模拟器内，游戏状态参数为当前游戏状态对应的满足游戏规则的下一步游戏状态的参数，调用预测模型，通过预测模型生成与游戏状态参数对应的预测数据，进而在确定与预测数据对应的目标动作之后，至少根据执行目标动作的执行结果，更新预测模型。由于游戏模拟器封装有预设游戏规则，因此，在针对不同玩法的游戏更新预测模型时，只需要调用游戏模拟器中封装的对应的游戏规则，不需要更改预测模型的结构，也无需针对每种游戏的不同玩法分别训练游戏模型，减少计算资源和信息处理资源的占用，同时也可以减少游戏开发人力的耗费，大大降低游戏开发成本。

作为本申请实施例的一种实施方式，上述游戏状态获取模块710可以包括：

游戏状态获取单元(图7中未示出)，被配置为在训练所述预测模型时，获取当前游戏状态，并发送所述当前游戏状态至所述游戏模拟器；或，在与用户进行游戏对战时，获取当前游戏状态，并发送所述当前游戏状态至所述游戏模拟器。

作为本申请实施例的一种实施方式，上述状态参数确定模块720可以包括：

状态参数确定单元(图7中未示出)，被配置为基于所述游戏规则和所述当前游戏状态，生成所述当前游戏状态对应的状态信息及多个动作信息，作为游戏状态参数。

作为本申请实施例的一种实施方式，上述预测模型调用模块730可以包括：

预测模型调用单元(图7中未示出)，被配置为将所述状态信息及多个动作信息输入所述预测模型，生成与所述游戏状态参数对应的动作评价标识及多个策略评价标识，作为预测数据。

作为本申请实施例的一种实施方式，上述预测模型调用单元可以包括：

信息拼接子单元(图7中未示出)，被配置为将所述状态信息与每个动作信息进行拼接，得到多个输入信息；

评价标识生成子单元(图7中未示出)，被配置为将所述多个输入信息输入所述预测模型，通过卷积处理及池化处理得到每个输入信息对应的动作评价标识及策略评价标识。

作为本申请实施例的一种实施方式，上述预测模型更新模块740可以包括：

目标动作确定单元(图7中未示出)，被配置为根据所述动作评价标识、所述多个策略评价标识及预设策略，确定所述状态信息对应的目标策略及目标动作，并执行所述目标动作；

执行结果记录单元(图7中未示出)，被配置为记录所述状态信息与所述目标动作的对应关系，作为所述目标动作的执行结果；

预测模型更新单元(图7中未示出)，被配置为根据所述对应关系及所述目标策略调整所述预测模型的参数。

作为本申请实施例的一种实施方式，上述目标动作确定单元可以包括：

目标策略确定子单元(图7中未示出)，被配置为根据所述多个策略评价标识及预设策略，从所述预设策略中确定所述状态信息对应的目标策略；

目标动作信息确定子单元(图7中未示出)，被配置为根据所述动作评价标识及所述目标策略，从所述多个动作信息中确定所述状态信息对应的目标动作信息；

目标动作确定子单元(图7中未示出)，被配置为将所述目标动作信息表示的动作确定为目标动作。

上述预测模型更新单元可以包括：

第一样本输入子单元(图7中未示出)，被配置为将所记录的对应关系作为第一样本，输入所述动作神经网络，得到每个第一样本对应的策略评价标识；

第一损失函数值确定子单元(图7中未示出)，被配置为根据所述每个第一样本对应的策略评价标识，计算得到所述策略神经网络的第一损失函数值；

第二样本确定子单元(图7中未示出)，被配置为将所记录的对应关系中相邻的两个记录作为第二样本；

第二样本输入子单元(图7中未示出)，被配置为将所述第二样本中记录时间早的对应关系输入所述动作神经网络，得到第一动作评价标识；

第三样本输入子单元(图7中未示出)，被配置为将所述第二样本中记录时间晚的对应关系输入所述策略神经网络，得到第二动作评价标识；

第二损失函数值确定子单元(图7中未示出)，被配置为根据所述第一动作评价标识及所述第二动作评价标识，计算所述动作神经网络的第二损失函数值；

第一参数调整子单元(图7中未示出)，被配置为根据所述第一损失函数值及所述第二损失函数值，调整所述动作神经网络的参数；

第二参数调整子单元(图7中未示出)，被配置为当训练迭代次数达到预设值时，根据所述动作神经网络的参数调整所述策略神经网络的参数。

作为本申请实施例的一种实施方式，上述装置还可以包括：

模型停止更新模块(图7中未示出)，被配置为触发所述游戏状态获取模块，直到所述预测模型的训练迭代次数达到预设次数时，停止更新所述预测模型。

本申请实施例还提供了一种电子设备，如图8所示，电子设备可以包括处理器801、通信接口802、存储器803和通信总线804，其中，处理器801，通信接口802，存储器803通过通信总线804完成相互间的通信，

存储器803，用于存放计算机程序；

处理器801，用于执行存储器803上所存放的程序时，实现上述任一实施例所述的用于游戏的处理方法。

可见，本申请实施例所提供的方案中，电子设备可以当前游戏状态，然后调用游戏模拟器，基于游戏规则和当前游戏状态，生成游戏状态参数，游戏规则预先封装在游戏模拟器内，游戏状态参数为当前游戏状态对应的满足游戏规则的下一步游戏状态的参数，调用预测模型，通过预测模型生成与游戏状态参数对应的预测数据，进而在确定与预测数据对应的目标动作之后，至少根据执行目标动作的执行结果，更新预测模型。由于游戏模拟器封装有预设游戏规则，因此，在针对不同玩法的游戏更新预测模型时，只需要调用游戏模拟器中封装的对应的游戏规则，不需要更改预测模型的结构，也无需针对每种游戏的不同玩法分别训练游戏模型，减少计算资源和信息处理资源的占用，同时也可以减少游戏开发人力的耗费，大大降低游戏开发成本。

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital SignalProcessing，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

图9是根据一示例性实施例示出的一种电子设备900的框图。例如，电子设备900可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图9，电子设备900可以包括以下一个或多个组件：处理组件902，存储器904，电源组件906，多媒体组件908，音频组件910，输入/输出(I/O)的接口912，传感器组件914，以及通信组件916。

处理组件902通常控制电子设备900的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件902可以包括一个或多个处理器920来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件902可以包括一个或多个模块，便于处理组件902和其他组件之间的交互。例如，处理组件902可以包括多媒体模块，以方便多媒体组件908和处理组件902之间的交互。

存储器904被配置为存储各种类型的数据以支持在电子设备900的操作。这些数据的示例包括用于在电子设备900上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器904可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件906为电子设备900的各种组件提供电力。电源组件906可以包括电源管理系统，一个或多个电源，及其他与为电子设备900生成、管理和分配电力相关联的组件。

多媒体组件908包括在电子设备900和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件908包括一个前置摄像头和/或后置摄像头。当电子设备900处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件910被配置为输出和/或输入音频信号。例如，音频组件910包括一个麦克风(MIC)，当电子设备900处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器904或经由通信组件916发送。在一些实施例中，音频组件910还包括一个扬声器，用于输出音频信号。

I/O接口912为处理组件902和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件914包括一个或多个传感器，用于为电子设备900提供各个方面的状态评估。例如，传感器组件914可以检测到电子设备900的打开/关闭状态，组件的相对定位，例如所述组件为电子设备900的显示器和小键盘，传感器组件914还可以检测电子设备900或电子设备900一个组件的位置改变，用户与电子设备900接触的存在或不存在，电子设备900方位或加速/减速和电子设备900的温度变化。传感器组件914可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件914还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件914还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件916被配置为便于电子设备900和其他设备之间有线或无线方式的通信。电子设备900可以接入基于通信标准的无线网络，如WiFi，运营商网络(如2G、3G、4G或5G)，或它们的组合。在一个示例性实施例中，通信组件916经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件916还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，电子设备900可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器904，上述指令可由电子设备900的处理器920执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本申请实施例还提供了一种非临时性计算机可读存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行上述实施例中任一所述的用于游戏的处理方法。

本申请实施例还提供了一种应用程序产品，该应用程序产品用于在运行时执行上述实施例中任一所述的用于游戏的处理方法。

本领域技术人员在考虑说明书及实践这里公开的申请后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由上面的权利要求指出。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims

1.一种用于游戏的处理系统，其特征在于，所述系统包括：

训练平台，用于接收所述游戏模拟器发送的游戏状态参数，并调用预测模型，通过所述预测模型生成与所述游戏状态参数对应的预测数据，并在确定与所述预测数据对应的目标动作之后，至少根据执行所述目标动作的执行结果，更新所述预测模型；

其中，所述基于游戏规则和当前游戏状态，生成游戏状态参数的方式，包括：

基于所述游戏规则和所述当前游戏状态，生成所述当前游戏状态对应的状态信息及多个动作信息，作为游戏状态参数；

所述通过所述预测模型生成与所述游戏状态参数对应的预测数据的方式，包括：

将所述状态信息及所述多个动作信息输入所述预测模型，生成与所述游戏状态参数对应的动作评价标识及多个策略评价标识，作为预测数据。

2.如权利要求1所述的系统，其特征在于，所述训练平台包括动作执行集群，其中，

3.如权利要求2所述的系统，其特征在于，

所述服务器集群，用于接收所述动作执行集群发送的所述游戏状态参数，将所述游戏状态参数输入所述预测模型，生成与所述游戏状态参数对应的预测数据，并发送所述预测数据至所述动作执行集群；

4.如权利要求2所述的系统，其特征在于，所述动作执行集群包括自我对战集群和实际对战集群；

5.如权利要求2所述的系统，其特征在于，

所述游戏模拟器，具体用于基于所述游戏规则和所述当前游戏状态，生成所述游戏状态对应的状态信息及多个动作信息，作为游戏状态参数；

6.一种用于游戏的处理方法，其特征在于，所述方法包括：

获取当前游戏状态；

在确定与所述预测数据对应的目标动作之后，至少根据执行所述目标动作的执行结果，更新所述预测模型；

其中，所述基于游戏规则和所述当前游戏状态，生成游戏状态参数的步骤，包括：

所述通过所述预测模型生成与所述游戏状态参数对应的预测数据的步骤，包括：

7.如权利要求6所述的方法，其特征在于，所述获取当前游戏状态的步骤，包括：

或，

8.如权利要求6所述的方法，其特征在于，所述将所述状态信息及所述多个动作信息输入所述预测模型，生成与所述游戏状态参数对应的动作评价标识及多个策略评价标识的步骤，包括：

9.如权利要求6所述的方法，其特征在于，所述至少根据执行所述目标动作的执行结果，更新所述预测模型的步骤，包括：

10.如权利要求9所述的方法，其特征在于，所述根据所述动作评价标识、所述多个策略评价标识及预设策略，确定所述状态信息对应的目标策略及目标动作的步骤，包括：

将所述目标动作信息表示的动作确定为目标动作。

11.如权利要求9所述的方法，其特征在于，所述预测模型包括动作神经网络和策略神经网络；

将所记录的对应关系中相邻的两个记录作为第二样本；

12.如权利要求6-11任一项所述的方法，其特征在于，所述方法还包括：

13.一种用于游戏的处理装置，其特征在于，所述装置包括：

游戏状态获取模块，被配置为获取当前游戏状态；

预测模型更新模块，被配置为在确定与所述预测数据对应的目标动作之后，至少根据执行所述目标动作的执行结果，更新所述预测模型；

其中，所述状态参数确定模块包括：

状态参数确定单元，被配置为基于所述游戏规则和所述当前游戏状态，生成所述当前游戏状态对应的状态信息及多个动作信息，作为游戏状态参数；

所述预测模型调用模块包括：

预测模型调用单元，被配置为将所述状态信息及所述多个动作信息输入所述预测模型，生成与所述游戏状态参数对应的动作评价标识及多个策略评价标识，作为预测数据。

14.如权利要求13所述的装置，其特征在于，所述游戏状态获取模块包括：

15.如权利要求13所述的装置，其特征在于，所述预测模型调用单元包括：

16.如权利要求13所述的装置，其特征在于，所述预测模型更新模块包括：

17.如权利要求16所述的装置，其特征在于，所述目标动作确定单元包括：

18.如权利要求16所述的装置，其特征在于，所述预测模型包括动作神经网络和策略神经网络；

所述预测模型更新单元包括：

19.如权利要求13-18任一项所述的装置，其特征在于，所述装置还包括：

20.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求6-12任一所述的用于游戏的处理方法。

21.一种非临时性计算机可读存储介质，其特征在于，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行权利要求6-12任一所述的用于游戏的处理方法。