CN109718558B

CN109718558B - 游戏信息的确定方法和装置、存储介质、电子装置

Info

Publication number: CN109718558B
Application number: CN201711051192.9A
Authority: CN
Inventors: 李立; 邓大付; 殷俊; 苏博览; 万乐; 张银锋; 卢伟平; 王晓曦
Original assignee: Tencent Technology Chengdu Co Ltd
Current assignee: Tencent Technology Chengdu Co Ltd
Priority date: 2017-10-31
Filing date: 2017-10-31
Publication date: 2021-05-11
Anticipated expiration: 2037-10-31
Also published as: CN109718558A; WO2019085823A1

Abstract

本发明公开了一种游戏信息的确定方法和装置、存储介质、电子装置。其中，该方法包括：对目标游戏的一局游戏进行模拟运行，在一局游戏的模拟运行过程中，一局游戏中的第一方按照目标方式在一局游戏中使用道具，一局游戏中的第二方按照预定方式在一局游戏中使用道具，目标方式为目标游戏中第一帐号的道具使用方式；获取对一局游戏进行模拟运行的运行结果，运行结果用于指示第一方是否在一局游戏的模拟运行中获得胜利；通过多个运行结果确定游戏信息，游戏信息用于指示第一帐号在一局游戏中取得胜利的概率，多个运行结果是通过多次对一局游戏进行模拟运行得到的。本发明解决了相关技术中对棋牌局面进行评定得到的胜率的准确度较低的技术问题。

Description

游戏信息的确定方法和装置、存储介质、电子装置

技术领域

本发明涉及互联网领域，具体而言，涉及一种游戏信息的确定方法和装置、存储介质、电子装置。

背景技术

随着多媒体技术的发展和无线网络的普及，人们的娱乐活动变得越来越丰富，如通过手持式媒体设备联网玩游戏、通过电脑玩单机或者联网游戏，游戏类型多种多样，如弹幕射击游戏、冒险游戏、模拟游戏、角色扮演游戏、休闲棋牌游戏和其它游戏等。

大部分类型的游戏可以实现联网，多人同时在线玩。例如棋牌类游戏，游戏对局双方都知晓对方的棋牌，目前没有成熟的棋局难度(可用胜率来描述，与胜率成反比)评估方法，实际评估过程中，往往会采用一些人工评定的方式。采用该评估方式，需要耗费大量的人力物力，虽然可以采用多人评定然后取平均的方法来降低人工评定的主观因素影响，但是得到的棋局难度或胜率的准确度较低。

针对相关技术中对棋牌局面进行评定得到的胜率的准确度较低的技术问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种游戏信息的确定方法和装置、存储介质、电子装置，以至少解决相关技术中对棋牌局面进行评定得到的胜率的准确度较低的技术问题。

根据本发明实施例的一个方面，提供了一种游戏信息的确定方法，该方法包括：对目标游戏的一局游戏进行模拟运行，在一局游戏的模拟运行过程中，一局游戏中的第一方按照目标方式在一局游戏中使用道具，一局游戏中的第二方按照预定方式在一局游戏中使用道具，目标方式为目标游戏中第一帐号的道具使用方式；获取对一局游戏进行模拟运行的运行结果，运行结果用于指示第一方是否在一局游戏的模拟运行中获得胜利；通过多个运行结果确定游戏信息，游戏信息用于指示在第一帐号作为第一方的情况下在一局游戏中取得胜利的概率，多个运行结果是通过多次对一局游戏进行模拟运行得到的。

根据本发明实施例的另一方面，还提供了一种游戏信息的确定装置，该装置包括：运行单元，用于对目标游戏的一局游戏进行模拟运行，在一局游戏的模拟运行过程中，一局游戏中的第一方按照目标方式在一局游戏中使用道具，一局游戏中的第二方按照预定方式在一局游戏中使用道具，目标方式为目标游戏中第一帐号的道具使用方式；获取单元，用于获取对一局游戏进行模拟运行的运行结果，运行结果用于指示第一方是否在一局游戏的模拟运行中获得胜利；确定单元，用于通过多个运行结果确定游戏信息，游戏信息用于指示在第一帐号作为第一方的情况下在一局游戏中取得胜利的概率，多个运行结果是通过多次对一局游戏进行模拟运行得到的。

在本发明实施例中，对目标游戏的一局游戏进行模拟运行，在一局游戏的模拟运行过程中，一局游戏中的第一方按照目标方式在一局游戏中使用道具，一局游戏中的第二方按照预定方式在一局游戏中使用道具；获取对一局游戏进行模拟运行的运行结果；然后通过多个运行结果确定游戏信息，游戏信息用于指示在第一帐号作为第一方的情况下在一局游戏中取得胜利的概率，多个运行结果是通过多次对一局游戏进行模拟运行得到的，可以解决相关技术中对棋牌局面进行评定得到的胜率的准确度较低的技术问题，进而达到了提高对棋牌局面的胜率进行评定的准确度的技术效果。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的游戏信息的确定方法的硬件环境的示意图；

图2是根据本发明实施例的一种可选的游戏信息的确定方法的流程图；

图3是根据本发明实施例的一种可选的游戏关卡界面的示意图；

图4是根据本发明实施例的实施游戏信息的确定方法的示意图；

图5是根据本发明实施例的一种可选的深度模型的示意图；

图6是根据本发明实施例的一种可选的模拟胜率的示意图；

图7是根据本发明实施例的一种可选的进行深度模型训练的示意图；

图8是根据本发明实施例的一种可选的游戏信息的确定装置的示意图；以及

图9是根据本发明实施例的一种终端的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

首先，在对本发明实施例进行描述的过程中出现的部分名词或者术语适用于如下解释：

棋类游戏(Chess Game)：主要有中国象棋、中国跳棋、黑白棋和五子棋等，棋类游戏不同于牌类游戏，棋类游戏是完全信息游戏，牌类游戏是非完全信息游戏。如果将牌类游戏的信息公开，可以将牌类游戏看出棋类游戏。如果斗地主玩家知道对手牌，斗地主也可算是棋类游戏。

根据本发明实施例，提供了一种游戏信息的确定方法的方法实施例。

可选地，在本实施例中，上述游戏信息的确定方法可以应用于如图1所示的由服务器102和终端104所构成的硬件环境中。如图1所示，服务器102通过网络与终端104进行连接，上述网络包括但不限于：广域网、城域网或局域网，终端104并不限定于PC、手机、平板电脑等。本发明实施例的游戏信息的确定方法可以由服务器102来执行，也可以由终端104来执行，还可以是由服务器102和终端104共同执行。其中，终端104执行本发明实施例的游戏信息的确定方法也可以是由安装在其上的客户端来执行。

图2是根据本发明实施例的一种可选的游戏信息的确定方法的流程图，如图2所示，该方法可以包括以下步骤：

步骤S202，对目标游戏的一局游戏进行模拟运行，在一局游戏的模拟运行过程中，一局游戏中的第一方按照目标方式在一局游戏中使用道具，一局游戏中的第二方按照预定方式在一局游戏中使用道具，目标方式为目标游戏中第一帐号的道具使用方式。换言之，通过模拟为不同等级的第一帐号的道具使用方式，可以得到不同等级的玩家的感受(也即用于表示或指示在第一帐号作为第一方的情况下在一局游戏中取得胜利的概率的游戏信息)。

上述的目标游戏为游戏参与方为两方(即上述的第一方和第二方)的游戏，包括但不局限于棋类游戏、牌类游戏。道具为在相应类型的游戏中使用的游戏道具，如在棋类游戏中，道具则为棋子；在牌类游戏中，道具则为牌。

一局游戏中的第二方按照预定方式在一局游戏中使用道具，即对于第二方而言，道具的使用方式为预先设置好的，如第二方为预先编辑好了游戏逻辑的机器人。在模拟运行中，对于第一方而言，是通过模拟第一帐号的道具使用方式来向第二方使用道具；而第二方机器人则按照预先设定的游戏逻辑来向第一方使用道具对第二方使用的道具进行回应。

上述的帐号可以是具体的某个帐号，也可以是一类帐号的统称。此处的一类帐号是指游戏水平相同或者接近的一类帐号。

步骤S204，获取对一局游戏进行模拟运行的运行结果，运行结果用于指示第一方是否在一局游戏的模拟运行中获得胜利。

上述的运行结果是与游戏类型对应的游戏结果，如对于棋类游戏，当第一方或第二方的棋子满足游戏规则规定的胜利(如一方将另一方的棋子均吃掉或打掉)时，则得到运行结果；对于牌类游戏，当第一方或第二方的牌满足游戏规则规定的胜利(如牌被打完)时，则得到运行结果。

步骤S206，通过多个运行结果确定游戏信息，游戏信息用于表示或指示在第一帐号作为第一方的情况下在一局游戏中取得胜利的概率，多个运行结果是通过多次对一局游戏进行模拟运行得到的。

上述的游戏信息是用于表示在第一帐号作为第一方的情况下，第一方获得胜利的概率。

由于上述的运行结果是按照第一帐号的第一方使用道具来进行道具使用而得到的游戏结果，从而可以避免人工评定的方式中主观因素的影响。

对于第一帐号而言，在每一个游戏进程中，可能出现多种平行决策，而这多种决策可能导致游戏结果不同，为了克服该问题，使结果更为准确，可以进行多次模拟运行，得到多个运行结果，通过这多个运行结果确定的概率的准确度更高。

通过上述步骤S202至步骤S206，对目标游戏的一局游戏进行模拟运行，在一局游戏的模拟运行过程中，一局游戏中的第一方按照目标方式在一局游戏中使用道具，一局游戏中的第二方按照预定方式在一局游戏中使用道具；获取对一局游戏进行模拟运行的运行结果；然后通过多个运行结果确定游戏信息，游戏信息用于指示在第一帐号作为第一方的情况下在一局游戏中取得胜利的概率，多个运行结果是通过多次对一局游戏进行模拟运行得到的，可以解决相关技术中对棋牌局面进行评定得到的胜率的准确度较低的技术问题，进而达到了提高对棋牌局面的胜率进行评定的准确度的技术效果。

下面结合图2所示的步骤进一步详述本申请的实施例。

在步骤S202提供的技术方案中，对目标游戏的一局游戏进行模拟运行，在一局游戏的模拟运行过程中，一局游戏中的第一方按照目标方式在一局游戏中使用道具，一局游戏中的第二方按照预定方式在一局游戏中使用道具，目标方式为目标游戏中第一帐号的道具使用方式。

在相关的对棋局难度进行评估的方法中，往往会采用一些人工评定的方式，需要耗费大量的人力物力，得到的棋局难度或胜率的准确度较低。为了使人工评定排除主观因素影响，在本申请中，综合了考虑了以下两种方式来进行评估：基于棋局特征、模拟胜率两方面的特征来进行评估。

(1)基于棋局特征的难度评估

基于棋局特征的难度评估，通过棋局特征计算棋局难度，首先挑选棋局特征，比如对于中国象棋的棋局，可以挑选一方的车剩余数、马剩余数、剩余棋子数等作为特征，然后，以棋局特征作为待处理的特征，用规则或者深度学习的方法建立特征到难度评估之间的映射。

(2)基于模拟胜率的难度评估

基于模拟胜率的难度评估，执行若干次的模拟，将模拟胜率作为棋局难度指标，模拟胜率越高，说明棋局难度越低；反之模拟胜率越低，说明棋局难度越高。在模拟中，用一些启发式规则作为玩法。

在本申请的技术方案中，将以上两个方式进行结合，通过深度学习模型来挖掘各种棋局内特征之间的关联关系，深入挖掘棋局内的技巧，避免了反直觉的步骤对评估的影响，降低了对于人力物力的要求，并且提升了评估的准确性。

进一步地，在本申请的基于深度学习的棋局难度评估方案中，通过对人类玩家对战数据的分析和学习，进而能够刻画不同水平人类玩家玩法的深度学习模型，让代表不同人类水平的深度学习模型和最高水平的深度学习模型进行对战模拟，将模拟胜率作为不同水平人类玩家感受到的棋局难度，可以提高评估的准确度。

可以使用多个深度学习模型来挖掘不同水平人类玩家的棋局处理特征，以通过深度学习模型能够评估不同水平人类玩家感受到的难度。

下面从以下两个方面详述该实施例：

(1)训练深度模型

方式一利用预置的训练集进行训练

步骤S2021，获取用于对第二深度模型进行训练的多个训练集，第二深度模型中包括待初始化的参数，每个训练集中保存有一个游戏水平级别下的多个游戏数据，每个游戏数据用于指示在一局游戏的过程中，作为与第二方进行游戏的第一方的第二帐号在每一个游戏回合中使用第一道具的信息，第二帐号为目标游戏中的帐号。

也即取得和第一帐号处于同一或者相近游戏水平级别的第二帐号的游戏数据，游戏数据中包括在一局游戏中第二帐号所使用的道具的情况(如具体使用的是哪一个道具以及使用道具的数量)，通过对大量的这一类型的数据的学习来挖掘出这一游戏水平级别的帐号的共性(也即初始化参数)。

步骤S2022，使用训练集对第二深度模型进行训练，以对第二深度模型中的参数进行初始化，将得到初始化参数后的第二深度模型作为第一深度模型，一个训练集训练得到用于模仿一个游戏水平级的第一方的第一深度模型。

方式二利用预置的训练集进行训练

在每一次步骤S204结束之后，将得到的行为数据(游戏双方在每个回合中的与道具使用相关数据，如具体使用的道具以及道具的数量)作为一个元数据存入训练集中，该元数据用得到运行结果进行标注。在得到多个元数据之后，重新利用该训练集进行训练，以更新深度模型中的参数的具体数值，从而逐步完善深度模型。

(2)使用深度模型。

对于一局游戏而言，包括至少一个游戏回合，一般而言是包括多个游戏回合，对于棋类游戏而言，一个游戏回合是指棋局双方先后均完成一轮棋子的落定，先出一方按照游戏规定落棋，后出一方也按照游戏规则落棋；对于牌类游戏而言，一个游戏回合是指双方先后均完成一轮出牌(一方依照出牌规则出牌，另一方根据前一方的出牌进行跟进)，或一方完成出牌而另一方放弃出牌，或一方完成出牌而另一方没有匹配的牌可以出。

需要说明的是，上述的一局游戏可以是一局完整的游戏(即双方的道具均还未使用)、也可以是残局(相对于完整局面而言，已经有道具被使用掉)，本申请尤其适用于一局游戏为残局的情况。

使用上述的第一深度模型对目标游戏的一局游戏进行模拟运行可以通过如下步骤实现：

步骤S2023，识别一局游戏中属于第一方的道具和属于第二方的道具，第二方可以为机器人。

步骤S2024，将第一道具作为第一深度模型的输入。

步骤S2025，在一局游戏的模拟运行过程中，每个游戏回合按照预定游戏方式进行，预定游戏方式包括：在作为第一方的第一深度模型按照目标方式在一局游戏中向第二方使用道具时，允许第二方根据第一方所使用的第一道具来使用相应的第二道具对第一方进行响应，或在第二方按照预定方式在一局游戏中向第一方使用第二道具时，允许第一深度模型根据第二方所使用的第二道具来使用相应的第一道具进行响应，第一道具属于第一方，第二道具属于第二方。

可选地，在一局游戏包括多个游戏回合的情况下，每个游戏回合按照预定游戏方式进行包括但不局限于以下三种情况：

其一是：在一局游戏的第一个游戏回合中，作为第一方的第一深度模型与第二方由约定的一方(如棋局双方中的执黑棋或白棋者、斗地主牌局双方中的地主)先使用道具，并允许第一方与第二方中的另一方根据一方所使用的道具而使用相应的道具，如在斗地主中，一方使用的顺子(如3、4、5、6、7)，那么另一方就只能出五位的顺子且该顺子中的最小牌应大于对方顺子的最小牌(即大于3)。

其二是：在一局游戏的任意一个游戏回合中，若第一方先在一局游戏中向第二方使用了第一道具、且第二方未使用相应的第二道具进行响应，则判定第一方在当前的游戏回合中获得胜利，在下一个游戏回合中由第一方先在一局游戏中使用第一道具，若第二方率先在一局游戏中向第一方使用了第二道具、且第一方未使用相应的第一道具进行响应，则判定第二方在当前的游戏回合中获得胜利，在下一个游戏回合中由第二方先在一局游戏中使用第二道具，如一方使用的顺子(如3、4、5、6、7)，而另一方没有顺子，则该游戏回合结束，下一回合继续由出顺子牌的这一方出牌。

其三是：在一局游戏的最后一个游戏回合中，在第一方的第一道具已使用完(可以是率先使用道具或跟进第二方时使用道具导致了道具被使用完)、且第二方的第二道具未使用完的情况下，判定第一方在一局游戏获得胜利，在第二方的第二道具已使用完(可以是率先使用道具或跟进第一方时使用道具导致了道具被使用完)、且第一方的第一道具未使用完的情况下，判定第二方在一局游戏获得胜利，如一方使用的顺子(如3、4、5、6、7)之后，手中的牌已经出完，则出顺子牌的这一方获得胜利。

可选地，在上述步骤S2024中，对于同一个游戏局面(如上述的为游戏残局的一局游戏)，为了实现对多个游戏水平级别的帐号的胜率预测，第一深度模型为多个，每个第一深度模型用于按照与一个游戏水平级别对应的目标方式使用道具，将第一道具作为第一深度模型的输入时，可以选取与第一帐号的游戏水平级别对应的第一深度模型；将第一道具作为第一深度模型的输入。也即可以逐一游戏水平级别的胜率的预测。

在步骤S204提供的技术方案中，获取对一局游戏进行模拟运行的运行结果，运行结果用于指示第一方是否在一局游戏的模拟运行中获得胜利。

对于每一个游戏水平级别，可以使用相应的深度模型先后进行多次模拟，进而可以得到多个结果。

在步骤S206提供的技术方案中，通过多个运行结果确定游戏信息，游戏信息用于指示在第一帐号作为第一方的情况下在一局游戏中取得胜利的概率，多个运行结果是通过多次对一局游戏进行模拟运行得到的。一种可选的实现方式如下：

步骤S2061，对于每个游戏水平级别的第一帐号，获取对应的第一深度模型的多个运行结果；

步骤S2062，将多个运行结果中用于指示第一方在一局游戏中获得胜利的运行结果的数量与多个运行结果的数量的比值作为概率。

棋类游戏棋局难度评估是一项复杂的工作。一名难度评估人员需要通过尝试不同玩法来摸清棋局的结构和关卡，需要耗费大量的时间和精力，且不同的难度评估人员给出的难度评估值有很大差异，存在极大的缺陷。棋局难度带有一定的主观性：初等水平玩家、中等水平玩家和高水平玩家对同一个棋局感受的难度应该是不一样的，目前的人工评估无法刻画不同水平玩家感受到的棋局难度。本申请所提出的技术方案是基于深度学习的棋局难度评估方案，通过深度学习模拟不同水平人类玩家行为，反复进行对局模拟得到不同水平人类玩家在目标棋局赢得对手的概率，从而得到不同水平玩家感受到的难度。

作为一种可选的实施例，下面以一局游戏为斗地主残局为例进行详述：

斗地主是牌类游戏，但斗地主残局是明牌，因此可以看成棋类游戏。斗地主游戏是三人两方对局，一方一名地主，另一方两名农民。但斗地主残局一般是一名地主一名农民，地主一般是人类玩家，农民则由电脑机器人扮演，而且由人类玩家即地主开始出牌，斗地主残局关卡设计流程包括：

步骤S11，随机或者按照一定的规则生成候选斗地主局面(即一局游戏的游戏局面，在该局游戏中，游戏双方的牌面道具已确定)；

步骤S12，使用极大极小搜索找到地主必须遵循最佳出法才能赢的局面，将之作为残局；

步骤S13，使用难度评估技术对残局进行难度评估，并根据难度将残局分配到不同的关卡中。最终关卡界面如图3所示(其中第0关处于解锁状态、其余关卡处于未解锁状态)。而将本申请的技术方案应用于牌类游戏的残局时，其实施方案如图4所示：

如图4中所见，本申请所提出的基于深度学习的棋局难度评估方案包括以下几个主要模块：(1)人类玩家对局记录库，记录了不同水平玩家在棋类游戏中的对局记录；(2)深度学习训练模块，用于根据对局记录对原始模型(第二深度模型)进行训练初始化；(3)棋类游戏环境模块，用于进行模拟对局。有了这些数据和模块，可以实现基于深度学习的棋局难度评估方案，具体基于深度学习的棋局难度评估方案的具体流程如下：

步骤S21，深度学习训练模块从人类玩家对局记录库取得不同水平玩家的对局，使用深度学习算法训练得到不同水平的模型(如高水平模型、中等水平模型、低水平模型)，在斗地主残局难度评估中，第二深度模型选用了五层全连接深度神经网络模型，使用了随机梯度下降算法进行训练。

步骤S22，如图5所示，深度学习模型的输入是当前斗地主局面(所有牌面)，当前斗地主局面可包括玩家(即第一帐号)手牌和对手手牌，可将输入处理成一个30维的向量，向量的前15位表示当前玩家手牌数，扑克牌的点数3、4、5、6、7、8、9、10、J、Q、K、A、2、小王和大王，分别对应15位手牌向量的1至15位，当前手牌有n张某点数扑克牌，则手牌向量对应位置值为n。比如当前玩家有3张3，则手牌向量第一位值为3。深度学习模型输入由当前玩家手牌向量和对手手牌向量拼接组成30维的状态向量。向量的后15位表示对手手牌向量。然后本方案通过全连接方式连接3层中间层，中间层节点可为500。最后输出层有13552个节点，每个节点代表一种出牌的动作，对不同棋类游戏，可以并且应该选用不同的深度学习模型和学习算法。

步骤S23，深度学习模型在游戏环境中针对一个局面进行多次对局模拟，生成行为数据和对局胜负率。对于一个局面，可先用低水平的深度学习模型作为当前玩家和对手，进行多次模拟，得到的胜率的倒数作为低水平玩家感受到的难度；再用中水平的深度学习模型作为当前玩家和对手，进行多次模拟，得到的胜率的倒数作为中等水平玩家感受到的难度；最后拿高水平的深度学习模型作为当前玩家和对手，进行多次模拟，得到的胜率的倒数作为高水平玩家感受到的难度。

在每一次对局模拟中，首先作为当前玩家的模型输入局面，输出这个局面下相应水平人类玩家选择合法动作的概率，按照这个概率选择一个合法动作作为当前玩家打法；然后作为对手的模型输入当前玩家打法之后的局面，输出这个局面下相应水平人类玩家选择合法动作的概率，按照这个概率选择一个合法动作作为对手的打法；重复上述过程，直到分出胜负。进行多次对局模拟，统计当前玩家的胜率。如对于斗地主残局，一次对局模拟的过程如图6所示，其中每个圆(黑色实心或空心)表示一种出牌情况，黑色圆表示被选中的情况下，由地主和农民相继出牌，到第三次出牌的时候有两种可能性，这两种可能性之后有三种结果，其中两种是农民获胜(用正方形表示)，一种是地主获胜(用椭圆表示)。

步骤S24，将模拟生成的行为数据补充到对局记录库中。

在本申请的上述技术方案中，主要思想有以下两点：

(1)通过深度学习模拟玩家在棋类游戏中的行为，实现快速评估棋局难度。

模仿基于模拟胜率的难度评估，通过模拟胜率来计算棋类难度。基于模拟胜的难度评估，执行若干次的模拟，将模拟胜率作为棋局难度指标。模拟胜率越高，说明棋局难度越低；反之模拟胜率越低，说明棋局难度越高。在模拟中，用启发式规则作为玩家的玩法。比如在斗地主游戏中，一个常用的启发式玩法“尽量多出牌；牌数相同时，出牌型小的牌”。从而可以发现棋局的一些关卡，从而使得难度评估准确度更高。

利用深度学习方法，主要目标是通过深度学习对人类玩家玩法进行建模，通过不同水平的玩家行为，深度学习能够对不同水平玩家玩法进行建模。

(2)以快速评估游戏棋局难度为目的，构建对应深度学习模型。

以评估不同水平玩家感受到的棋局难度为目的，构建对应深度学习系统。在建立深度学习模型的过程中，可能碰到两种不同的场景：

其一是：拥有充分的不同水平玩家的对局记录，这时候直接使用有监督学习训练深度学习模型，有监督学习，通过对带有标注的数据(即直接对难度进行标记)进行学习，模仿标注行为；

其二是：玩家对局记录没有或者不够充分，不足以训练深度学习模型。这时候使用增强学习训练深度学习模型，增强学习是在一个给定环境中进行探索，通过给定的目标和环境反馈，模仿在当前环境下最为有价值的行为。如图7所示，先从零数据开始增强学习训练得到第一轮模型，第一轮模型在游戏环境进行模拟对战得到第一轮对局记录；利用第一轮对局记录，使用增强学习训练得到第二轮模型，第二轮模型在游戏环境进行模拟对战得到第三轮对局记录；循环往复得到若干轮模型。根据不同轮模型和最后一轮模型(即最强模型)的对战胜率，挑选代表不同水平的模型。

本申请的上述技术方案至少可以应用于如下场景或与如下场景相近的场景：

(1)关卡布局，如图3所示，可以对不同的残局进行难度预估，根据难度的不同将不同的残局布局为不同的关卡；

(2)在棋牌类节目的直播过程中，根据当前局面对双方的胜率进行预估；

(3)在教育类节目或者现场授课过程中，对不同的棋局或者牌局进行胜率解读和评估。

在本申请的技术方案中，提出了一种基于深度学习的棋局难度评估方法，通过应用深度学习来模拟人类玩家玩法，来快速模拟不同水平人类玩家对战并得到胜率，将模拟胜率作为棋局难度指标。模拟胜率越高，说明棋局难度越低；反之模拟胜率越低，说明棋局难度越高。

相对之前的难度评估方案，本方案不需要人工标注，需要较少的人力物力；能够刻画不同水平玩家感受的难度，提供更多对棋局难度的视角；使用深度学习模型，提高了难度评估的准确度。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

根据本发明实施例，还提供了一种用于实施上述游戏信息的确定方法的游戏信息的确定装置。图8是根据本发明实施例的一种可选的游戏信息的确定装置的示意图，如图8所示，该装置可以包括：运行单元81、获取单元83以及确定单元85。

运行单元81，用于对目标游戏的一局游戏进行模拟运行，在一局游戏的模拟运行过程中，一局游戏中的第一方按照目标方式在一局游戏中使用道具，一局游戏中的第二方按照预定方式在一局游戏中使用道具，目标方式为目标游戏中第一帐号的道具使用方式。

获取单元83，用于获取对一局游戏进行模拟运行的运行结果，运行结果用于指示第一方是否在一局游戏的模拟运行中获得胜利。

确定单元85，用于通过多个运行结果确定游戏信息，游戏信息用于指示在第一帐号作为第一方的情况下在一局游戏中取得胜利的概率，多个运行结果是通过多次对一局游戏进行模拟运行得到的。

需要说明的是，该实施例中的运行单元81可以用于执行本申请实施例中的步骤S202，该实施例中的获取单元83可以用于执行本申请实施例中的步骤S204，该实施例中的确定单元85可以用于执行本申请实施例中的步骤S206。

此处需要说明的是，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在如图1所示的硬件环境中，可以通过软件实现，也可以通过硬件实现。

通过上述模块，对目标游戏的一局游戏进行模拟运行，在一局游戏的模拟运行过程中，一局游戏中的第一方按照目标方式在一局游戏中使用道具，一局游戏中的第二方按照预定方式在一局游戏中使用道具；获取对一局游戏进行模拟运行的运行结果；然后通过多个运行结果确定游戏信息，游戏信息用于指示在第一帐号作为第一方的情况下在一局游戏中取得胜利的概率，多个运行结果是通过多次对一局游戏进行模拟运行得到的，可以解决相关技术中对棋牌局面进行评定得到的胜率的准确度较低的技术问题，进而达到了提高对棋牌局面的胜率进行评定的准确度的技术效果。

可选地，运行单元对目标游戏的一局游戏进行模拟运行，在一局游戏的模拟运行过程中，一局游戏中的第一方按照目标方式在一局游戏中使用道具，一局游戏中的第二方按照预定方式在一局游戏中使用道具，目标方式为目标游戏中第一帐号的道具使用方式。

(1)基于棋局特征的难度评估

(2)基于模拟胜率的难度评估

下面从以下两个方面详述该实施例：

(1)训练单元训练深度模型

(2)使用深度模型。

上述的一局游戏包括至少一个游戏回合，其中，运行单元可包括：输入模块，用于将第一道具作为第一深度模型的输入；运行模块，用于在一局游戏的模拟运行过程中，每个游戏回合按照预定游戏方式进行，其中，预定游戏方式包括：在作为第一方的第一深度模型按照目标方式在一局游戏中使用道具时，允许第二方根据第一方所使用的第一道具来使用相应的第二道具，或在第二方按照预定方式在一局游戏中使用第二道具时，允许第一深度模型根据第二方所使用的第二道具来使用相应的第一道具，第一道具属于第一方，第二道具属于第二方。

可选地，第一深度模型为多个，每个第一深度模型用于按照与一个游戏水平级别对应的目标方式使用道具，其中，上述的输入模块还用于选取与第一帐号的游戏水平级别对应的第一深度模型；将第一道具作为第一深度模型的输入。

可选地，上述的运行模块还用于执行如下功能：

其一是：在一局游戏的第一个游戏回合中，作为第一方的第一深度模型与第二方由约定的一方先使用道具，并允许第一方与第二方中的另一方根据一方所使用的道具而使用相应的道具。

其二是：在一局游戏的任意一个游戏回合中，若第一方在一局游戏中使用了第一道具、且第二方未使用相应的第二道具，则判定第一方在当前的游戏回合中获得胜利，在下一个游戏回合中由第一方先在一局游戏中使用第一道具，若第二方在一局游戏中使用了第二道具、且第一方未使用相应的第一道具，则判定第二方在当前的游戏回合中获得胜利，在下一个游戏回合中由第二方先在一局游戏中使用第二道具。

其三是：在一局游戏的最后一个游戏回合中，在第一方的第一道具已使用完、且第二方的第二道具未使用完的情况下，判定第一方在一局游戏获得胜利，在第二方的第二道具已使用完、且第一方的第一道具未使用完的情况下，判定第二方在一局游戏获得胜利。

在上述实施例中，确定单元还用于对于每个游戏水平级别的第一帐号，获取对应的第一深度模型的多个运行结果；将多个运行结果中用于指示第一方在一局游戏中获得胜利的运行结果的数量与多个运行结果的数量的比值作为概率。

本申请的目标游戏包括棋牌类游戏，该装置还可包括：识别单元，用于在对目标游戏的一局游戏进行模拟运行之前，识别出在棋牌类游戏的一局游戏中属于第一方的棋牌和属于第二方的棋牌，其中，AI机器人作为第二方，道具包括棋牌。

此处需要说明的是，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在如图1所示的硬件环境中，可以通过软件实现，也可以通过硬件实现，其中，硬件环境包括网络环境。

根据本发明实施例，还提供了一种用于实施上述游戏信息的确定方法的服务器或终端。

图9是根据本发明实施例的一种终端的结构框图，如图9所示，该终端可以包括：一个或多个(图9中仅示出一个)处理器901、存储器903、以及传输装置905(如上述实施例中的发送装置)，如图9所示，该终端还可以包括输入输出设备907。

其中，存储器903可用于存储软件程序以及模块，如本发明实施例中的游戏信息的确定方法和装置对应的程序指令/模块，处理器901通过运行存储在存储器903内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的游戏信息的确定方法。存储器903可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器903可进一步包括相对于处理器901远程设置的存储器，这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

上述的传输装置905用于经由一个网络接收或者发送数据，还可以用于处理器与存储器之间的数据传输。上述的网络具体实例可包括有线网络及无线网络。在一个实例中，传输装置905包括一个网络适配器(Network Interface Controller，NIC)，其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中，传输装置905为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

其中，具体地，存储器903用于存储应用程序。

处理器901可以通过传输装置905调用存储器903存储的应用程序，以执行下述步骤：

对目标游戏的一局游戏进行模拟运行，在一局游戏的模拟运行过程中，一局游戏中的第一方按照目标方式在一局游戏中使用道具，一局游戏中的第二方按照预定方式在一局游戏中使用道具，目标方式为目标游戏中第一帐号的道具使用方式；

获取对一局游戏进行模拟运行的运行结果，运行结果用于指示第一方是否在一局游戏的模拟运行中获得胜利；

通过多个运行结果确定游戏信息，游戏信息用于指示在第一帐号作为第一方的情况下在一局游戏中取得胜利的概率，多个运行结果是通过多次对一局游戏进行模拟运行得到的。

处理器901还用于执行下述步骤：

在一局游戏的第一个游戏回合中，作为第一方的第一深度模型与第二方由约定的一方先使用道具，并允许第一方与第二方中的另一方根据一方所使用的道具而使用相应的道具；

在一局游戏的任意一个游戏回合中，若第一方在一局游戏中使用了第一道具、且第二方未使用相应的第二道具，则判定第一方在当前的游戏回合中获得胜利，在下一个游戏回合中由第一方先在一局游戏中使用第一道具，若第二方在一局游戏中使用了第二道具、且第一方未使用相应的第一道具，则判定第二方在当前的游戏回合中获得胜利，在下一个游戏回合中由第二方先在一局游戏中使用第二道具；

在一局游戏的最后一个游戏回合中，在第一方的第一道具已使用完、且第二方的第二道具未使用完的情况下，判定第一方在一局游戏获得胜利，在第二方的第二道具已使用完、且第一方的第一道具未使用完的情况下，判定第二方在一局游戏获得胜利。

采用本发明实施例，对目标游戏的一局游戏进行模拟运行，在一局游戏的模拟运行过程中，一局游戏中的第一方按照目标方式在一局游戏中使用道具，一局游戏中的第二方按照预定方式在一局游戏中使用道具；获取对一局游戏进行模拟运行的运行结果；然后通过多个运行结果确定游戏信息，游戏信息用于指示在第一帐号作为第一方的情况下在一局游戏中取得胜利的概率，多个运行结果是通过多次对一局游戏进行模拟运行得到的，可以解决相关技术中对棋牌局面进行评定得到的胜率的准确度较低的技术问题，进而达到了提高对棋牌局面的胜率进行评定的准确度的技术效果。

可选地，本实施例中的具体示例可以参考上述实施例中所描述的示例，本实施例在此不再赘述。

本领域普通技术人员可以理解，图9所示的结构仅为示意，终端可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile InternetDevices，MID)、PAD等终端设备。图9其并不对上述电子装置的结构造成限定。例如，终端还可包括比图9中所示更多或者更少的组件(如网络接口、显示装置等)，或者具有与图9所示不同的配置。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(RandomAccess Memory，RAM)、磁盘或光盘等。

本发明的实施例还提供了一种存储介质。可选地，在本实施例中，上述存储介质可以用于执行游戏信息的确定方法的程序代码。

可选地，在本实施例中，上述存储介质可以位于上述实施例所示的网络中的多个网络设备中的至少一个网络设备上。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：

S31，对目标游戏的一局游戏进行模拟运行，在一局游戏的模拟运行过程中，一局游戏中的第一方按照目标方式在一局游戏中使用道具，一局游戏中的第二方按照预定方式在一局游戏中使用道具，目标方式为目标游戏中第一帐号的道具使用方式；

S32，获取对一局游戏进行模拟运行的运行结果，运行结果用于指示第一方是否在一局游戏的模拟运行中获得胜利；

S33，通过多个运行结果确定游戏信息，游戏信息用于指示在第一帐号作为第一方的情况下在一局游戏中取得胜利的概率，多个运行结果是通过多次对一局游戏进行模拟运行得到的。

可选地，存储介质还被设置为存储用于执行以下步骤的程序代码：

S41，在一局游戏的第一个游戏回合中，作为第一方的第一深度模型与第二方由约定的一方先使用道具，并允许第一方与第二方中的另一方根据一方所使用的道具而使用相应的道具；

S42，在一局游戏的任意一个游戏回合中，若第一方在一局游戏中使用了第一道具、且第二方未使用相应的第二道具，则判定第一方在当前的游戏回合中获得胜利，在下一个游戏回合中由第一方先在一局游戏中使用第一道具，若第二方在一局游戏中使用了第二道具、且第一方未使用相应的第一道具，则判定第二方在当前的游戏回合中获得胜利，在下一个游戏回合中由第二方先在一局游戏中使用第二道具；

S43，在一局游戏的最后一个游戏回合中，在第一方的第一道具已使用完、且第二方的第二道具未使用完的情况下，判定第一方在一局游戏获得胜利，在第二方的第二道具已使用完、且第一方的第一道具未使用完的情况下，判定第二方在一局游戏获得胜利。

可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种游戏信息的确定方法，其特征在于，包括：

对棋牌类游戏的一局游戏进行模拟运行，其中，在所述一局游戏的模拟运行过程中，所述一局游戏中的第一方按照目标方式在所述一局游戏中使用棋牌道具，所述一局游戏中的第二方按照预定方式在所述一局游戏中使用棋牌道具，所述目标方式为所述棋牌类游戏中第一帐号的道具使用方式；

获取对所述一局游戏进行模拟运行的运行结果，其中，所述运行结果用于指示所述第一方是否在所述一局游戏的模拟运行中获得胜利；

通过多个所述运行结果确定游戏信息，其中，所述游戏信息用于指示在所述第一帐号作为所述第一方的情况下在所述一局游戏中取得胜利的概率，多个所述运行结果是通过多次对所述一局游戏进行模拟运行得到的。

2.根据权利要求1所述的方法，其特征在于，所述一局游戏包括至少一个游戏回合，其中，对棋牌类游戏的一局游戏进行模拟运行包括：

将第一棋牌道具作为第一深度模型的输入；

在所述一局游戏的模拟运行过程中，每个所述游戏回合按照预定游戏方式进行，其中，所述预定游戏方式包括：在作为所述第一方的所述第一深度模型按照所述目标方式在所述一局游戏中使用棋牌道具时，允许所述第二方根据所述第一方所使用的所述第一棋牌道具来使用相应的第二棋牌道具，或在所述第二方按照所述预定方式在所述一局游戏中使用所述第二棋牌道具时，允许所述第一深度模型根据所述第二方所使用的所述第二棋牌道具来使用相应的所述第一棋牌道具，所述第一棋牌道具属于所述第一方，所述第二棋牌道具属于所述第二方。

3.根据权利要求2所述的方法，其特征在于，在所述一局游戏包括多个所述游戏回合的情况下，每个所述游戏回合按照预定游戏方式进行包括：

在所述一局游戏的一个所述游戏回合中，若所述第一方在所述一局游戏中使用了所述第一棋牌道具、且所述第二方未使用相应的所述第二棋牌道具，则判定所述第一方在当前的所述游戏回合中获得胜利，在下一个所述游戏回合中由所述第一方先在所述一局游戏中使用所述第一棋牌道具，若所述第二方在所述一局游戏中使用了所述第二棋牌道具、且所述第一方未使用相应的所述第一棋牌道具，则判定所述第二方在当前的所述游戏回合中获得胜利，在下一个所述游戏回合中由所述第二方先在所述一局游戏中使用所述第二棋牌道具。

4.根据权利要求2所述的方法，其特征在于，所述第一深度模型为多个，每个所述第一深度模型用于按照与一个游戏水平级别对应的所述目标方式使用棋牌道具，其中，将第一棋牌道具作为第一深度模型的输入包括：

选取与所述第一帐号的游戏水平级别对应的所述第一深度模型；

将所述第一棋牌道具作为所述第一深度模型的输入。

5.根据权利要求4所述的方法，其特征在于，通过多个所述运行结果确定在所述第一帐号作为所述第一方的情况下在所述一局游戏中取得胜利的概率包括：

对于每个所述游戏水平级别的所述第一帐号，获取对应的所述第一深度模型的多个所述运行结果；

将多个所述运行结果中用于指示所述第一方在所述一局游戏中获得胜利的所述运行结果的数量与多个所述运行结果的数量的比值作为所述概率。

6.根据权利要求2至5中任意一项所述的方法，其特征在于，在将第一棋牌道具作为第一深度模型的输入之前，所述方法还包括：

获取用于对第二深度模型进行训练的多个训练集，其中，所述第二深度模型中包括待初始化的参数，每个所述训练集中保存有一个游戏水平级别下的多个游戏数据，每个所述游戏数据用于指示在所述一局游戏的过程中，作为与所述第二方进行游戏的第一方的第二帐号在每一个游戏回合中使用所述第一棋牌道具的信息，所述第二帐号为所述棋牌类游戏中的帐号；

使用所述训练集对所述第二深度模型进行训练，以对所述第二深度模型中的参数进行初始化，将得到初始化参数后的所述第二深度模型作为所述第一深度模型，其中，一个所述训练集训练得到用于模仿一个所述游戏水平级的所述第一方的所述第一深度模型。

7.根据权利要求1所述的方法，其特征在于，在对棋牌类游戏的一局游戏进行模拟运行之前，所述方法还包括：

识别出在所述棋牌类游戏的所述一局游戏中属于所述第一方的棋牌道具和属于所述第二方的棋牌道具，其中，AI机器人作为所述第二方。

8.一种游戏信息的确定装置，其特征在于，包括：

运行单元，用于对棋牌类游戏的一局游戏进行模拟运行，其中，在所述一局游戏的模拟运行过程中，所述一局游戏中的第一方按照目标方式在所述一局游戏中使用棋牌道具，所述一局游戏中的第二方按照预定方式在所述一局游戏中使用棋牌道具，所述目标方式为所述棋牌类游戏中第一帐号的道具使用方式；

获取单元，用于获取对所述一局游戏进行模拟运行的运行结果，其中，所述运行结果用于指示所述第一方是否在所述一局游戏的模拟运行中获得胜利；

确定单元，用于通过多个所述运行结果确定游戏信息，其中，所述游戏信息用于指示在所述第一帐号作为所述第一方的情况下在所述一局游戏中取得胜利的概率，多个所述运行结果是通过多次对所述一局游戏进行模拟运行得到的。

9.根据权利要求8所述的装置，其特征在于，所述一局游戏包括至少一个游戏回合，其中，所述运行单元包括：

输入模块，用于将第一棋牌道具作为第一深度模型的输入；

运行模块，用于在所述一局游戏的模拟运行过程中，每个所述游戏回合按照预定游戏方式进行，其中，所述预定游戏方式包括：在作为所述第一方的所述第一深度模型按照所述目标方式在所述一局游戏中使用棋牌道具时，允许所述第二方根据所述第一方所使用的所述第一棋牌道具来使用相应的第二棋牌道具，或在所述第二方按照所述预定方式在所述一局游戏中使用所述第二棋牌道具时，允许所述第一深度模型根据所述第二方所使用的所述第二棋牌道具来使用相应的所述第一棋牌道具，所述第一棋牌道具属于所述第一方，所述第二棋牌道具属于所述第二方。

10.根据权利要求9所述的装置，其特征在于，所述运行模块还用于：

11.根据权利要求8所述的装置，其特征在于，所述棋牌类游戏包括棋牌类游戏，所述装置还包括：

识别单元，用于在对棋牌类游戏的一局游戏进行模拟运行之前，识别出在所述棋牌类游戏的所述一局游戏中属于所述第一方的棋牌和属于所述第二方的棋牌，其中，AI机器人作为所述第二方。

12.一种存储介质，其特征在于，所述存储介质包括存储的程序，其中，所述程序运行时执行上述权利要求1至7任一项中所述的方法。

13.一种电子装置，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器通过所述计算机程序执行上述权利要求1至7任一项中所述的方法。