CN113082711B

CN113082711B - 游戏机器人的控制方法、装置、服务器及存储介质

Info

Publication number: CN113082711B
Application number: CN202110303816.1A
Authority: CN
Inventors: 刘爱宾
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2021-03-22
Filing date: 2021-03-22
Publication date: 2023-08-29
Anticipated expiration: 2041-03-22
Also published as: CN113082711A

Abstract

本公开关于一种游戏机器人的控制方法、装置、服务器及存储介质，该方法包括：在游戏机器人执行游戏动作轮次，根据所述游戏机器人在当前游戏对局中的状态数据，得到所述游戏机器人的游戏状态特征；根据所述游戏状态特征，确定所述游戏机器人执行所述游戏动作的响应时间；根据所述响应时间，控制所述游戏机器人执行所述游戏动作。采用本方法，有利于提高游戏对局中的游戏账户与游戏机器人的真实匹配度，使得游戏服务器无需频繁响应游戏账户发起的游戏匹配请求，从而降低了游戏服务器的压力。

Description

游戏机器人的控制方法、装置、服务器及存储介质

技术领域

本公开涉及互联网技术领域，尤其涉及一种游戏机器人的控制方法、装置、服务器及存储介质。

背景技术

在斗地主、麻将、象棋、围棋等多人游戏中，某些特定游戏场景需要游戏机器人和真人用户对局。

相关技术中，游戏机器人的拟人化程度较低，玩家的游戏体验不够真实，造成游戏对局中的游戏账户与游戏机器人的真实匹配度较低。

发明内容

本公开提供一种游戏机器人的控制方法、装置、服务器及存储介质，以至少解决相关技术中游戏对局中的游戏账户与游戏机器人的真实匹配度较低的问题。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种游戏机器人的控制方法，包括：

在游戏机器人执行游戏动作轮次，根据所述游戏机器人在当前游戏对局中的状态数据，得到所述游戏机器人的游戏状态特征；

根据所述游戏状态特征，确定所述游戏机器人执行所述游戏动作的响应时间；

根据所述响应时间，控制所述游戏机器人执行所述游戏动作。

在一示例性实施例中，所述根据所述游戏状态特征，确定所述游戏机器人执行所述游戏动作的响应时间，包括：

按照预设的特征拼接顺序，将所述游戏状态特征进行拼接，得到所述游戏机器人的目标状态特征；

将所述游戏机器人的目标状态特征输入预先训练的响应时间预测模型，得到所述游戏机器人执行所述游戏动作的响应时间。

在一示例性实施例中，所述预先训练的响应时间预测模型通过下述方式训练得到：

获取样本游戏账户的游戏状态特征；

将所述样本游戏账户的游戏状态特征输入待训练的响应时间预测模型，得到所述样本游戏账户执行相应游戏动作的预测响应时间；

根据所述样本游戏账户执行相应游戏动作的预测响应时间和实际响应时间之间的差值，得到损失值；

根据所述损失值调整所述待训练的响应时间预测模型的模型参数，得到调整后的响应时间预测模型，并对所述调整后的响应时间预测模型进行反复训练，直至根据训练后的响应时间预测模型得到的损失值小于预设阈值，则将所述训练后的响应时间预测模型作为所述预先训练的响应时间预测模型。

在一示例性实施例中，所述根据所述游戏状态特征，确定所述游戏机器人执行所述游戏动作的响应时间，还包括：

根据所述游戏状态特征和所述游戏动作，查询预设的游戏账户的游戏状态特征与执行所述游戏动作的响应时间的对应关系，得到所述游戏机器人执行所述游戏动作的响应时间。

获取所述当前游戏对局的游戏等级；

根据所述游戏状态特征和所述游戏动作，查询所述游戏等级下，预设的游戏账户的游戏状态特征与执行所述游戏动作的响应时间的对应关系，得到所述游戏机器人执行所述游戏动作的响应时间。

在一示例性实施例中，所述根据所述游戏机器人在当前游戏对局中的状态数据，得到所述游戏机器人的游戏状态特征，包括：

对所述游戏机器人在当前游戏对局中的状态数据进行特征提取，得到所述游戏机器人的游戏状态特征。

在一示例性实施例中，在根据所述游戏机器人在当前游戏对局中的状态数据，得到所述游戏机器人的游戏状态特征之前，还包括：

获取所述当前游戏对局的游戏行为日志；

从所述游戏行为日志中获取所述当前游戏对局的游戏对局数据；

从所述游戏对局数据中，提取出所述游戏机器人在所述当前游戏对局中的状态数据；所述状态数据用于表示所述游戏机器人执行所述游戏动作的已知数据。

在一示例性实施例中，所述当前游戏对局中包括所述游戏机器人和游戏账户；所述从所述游戏对局数据中，提取出所述游戏机器人在所述当前游戏对局中的状态数据，包括：

从所述游戏对局数据中，获取当前游戏阶段信息、目标游戏账户和所述游戏机器人的对局位置标识、目标游戏资源组合、所述游戏机器人的初始游戏资源组合、已消耗游戏资源组合、所述游戏动作所针对的游戏资源组合以及其他游戏账户的已消耗游戏资源组合，作为所述游戏机器人在所述当前游戏对局中执行所述游戏动作的状态数据。

根据本公开实施例的第二方面，提供一种游戏机器人的控制装置，包括：

特征获取单元，被配置为执行在游戏机器人执行游戏动作轮次，根据所述游戏机器人在当前游戏对局中的状态数据，得到所述游戏机器人的游戏状态特征；

时间确定单元，被配置为执行根据所述游戏状态特征，确定所述游戏机器人执行所述游戏动作的响应时间；

执行控制单元，被配置为执行根据所述响应时间，控制所述游戏机器人执行所述游戏动作。

在一示例性实施例中，所述时间确定单元，还被配置为执行按照预设的特征拼接顺序，将所述游戏状态特征进行拼接，得到所述游戏机器人的目标状态特征；将所述游戏机器人的目标状态特征输入预先训练的响应时间预测模型，得到所述游戏机器人执行所述游戏动作的响应时间。

在一示例性实施例中，所述装置包括模型训练单元，被配置为执行获取样本游戏账户的游戏状态特征；将所述样本游戏账户的游戏状态特征输入待训练的响应时间预测模型，得到所述样本游戏账户执行相应游戏动作的预测响应时间；根据所述样本游戏账户执行相应游戏动作的预测响应时间和实际响应时间之间的差值，得到损失值；根据所述损失值调整所述待训练的响应时间预测模型的模型参数，得到调整后的响应时间预测模型，并对所述调整后的响应时间预测模型进行反复训练，直至根据训练后的响应时间预测模型得到的损失值小于预设阈值，则将所述训练后的响应时间预测模型作为所述预先训练的响应时间预测模型。

在一示例性实施例中，所述时间确定单元，还被配置为执行根据所述游戏状态特征和所述游戏动作，查询预设的游戏账户的游戏状态特征与执行所述游戏动作的响应时间的对应关系，得到所述游戏机器人执行所述游戏动作的响应时间。

在一示例性实施例中，所述时间确定单元，还被配置为执行获取所述当前游戏对局的游戏等级；根据所述游戏状态特征和所述游戏动作，查询所述游戏等级下，预设的游戏账户的游戏状态特征与执行所述游戏动作的响应时间的对应关系，得到所述游戏机器人执行所述游戏动作的响应时间。

在一示例性实施例中，所述特征获取单元，还被配置为执行对所述游戏机器人在当前游戏对局中的状态数据进行特征提取，得到所述游戏机器人的游戏状态特征。

在一示例性实施例中，所述装置还包括数据获取单元，被配置为执行获取所述当前游戏对局的游戏行为日志；从所述游戏行为日志中获取所述当前游戏对局的游戏对局数据；从所述游戏对局数据中，提取出所述游戏机器人在所述当前游戏对局中的状态数据；所述状态数据用于表示所述游戏机器人执行所述游戏动作的已知数据。

在一示例性实施例中，所述当前游戏对局中包括所述游戏机器人和游戏账户；

所述数据获取单元，还被配置为执行从所述游戏对局数据中，获取当前游戏阶段信息、目标游戏账户和所述游戏机器人的对局位置标识、目标游戏资源组合、所述游戏机器人的初始游戏资源组合、已消耗游戏资源组合、所述游戏动作所针对的游戏资源组合以及其他游戏账户的已消耗游戏资源组合，作为所述游戏机器人在所述当前游戏对局中执行所述游戏动作的状态数据。

根据本公开实施例的第三方面，提供一种服务器，包括：处理器；用于存储所述处理器可执行指令的存储器；其中，所述处理器被配置为执行所述指令，以实现如第一方面的任一项实施例中所述的游戏机器人的控制方法。

根据本公开实施例的第四方面，提供一种计算机可读存储介质，包括：当所述计算机可读存储介质中的指令由服务器的处理器执行时，使得所述服务器能够执行第一方面的任一项实施例中所述的游戏机器人的控制方法。

根据本公开实施例的第五方面，提供一种计算机程序产品，所述计算机程序产品包括计算机程序，所述计算机程序存储在计算机可读存储介质中，设备的至少一个处理器从所述计算机可读存储介质读取并执行所述计算机程序，使得设备执行第一方面的任一项实施例中所述的游戏机器人的控制方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

在游戏机器人执行游戏动作轮次，根据游戏机器人在当前游戏对局中的状态数据，得到游戏机器人的游戏状态特征；然后根据游戏状态特征，确定游戏机器人执行游戏动作的响应时间；最后根据响应时间，控制游戏机器人执行游戏动作；实现了在检测到轮到游戏机器人执行游戏动作时，根据游戏机器人在当前游戏对局中的状态数据，对游戏机器人执行游戏动作的响应时间进行控制的目的，有利于提高游戏机器人的拟人化程度，从而提高了游戏对局中的游戏账户与游戏机器人的真实匹配度，使得游戏账户可以连续对局多次，无需重复发起游戏匹配请求，进而使得游戏服务器无需频繁响应游戏账户发起的游戏匹配请求，从而缓解了游戏服务器的压力。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种游戏机器人的控制方法的应用环境图。

图2是根据一示例性实施例示出的一种游戏机器人的控制方法的流程图。

图3是根据一示例性实施例示出的对游戏机器人执行游戏动作的思考时间进行控制的示意图。

图4是根据一示例性实施例示出的训练思考时间预测模型的示意图。

图5是根据一示例性实施例示出的另一种游戏机器人的控制方法的流程图。

图6是根据一示例性实施例示出的一种游戏机器人的控制装置的框图。

图7是根据一示例性实施例示出的一种服务器的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

本公开所提供的游戏机器人的控制方法，可以应用于如图1所示的应用环境中。其中，终端110(比如终端110a、终端110b)和游戏机器人120均通过网络与游戏服务器130进行交互；终端110是指游戏对局中的游戏账户所属的终端，比如游戏账户A所属终端为终端110a，游戏账户B所属终端为终端110b；在实际场景中，终端110可以是但不限于各种智能手机、平板电脑或笔记本电脑等，游戏机器人120是游戏服务器创建的虚拟游戏账户，游戏服务器130可以用独立的服务器或者是多个服务器组成的服务器集群来实现。具体地，参考图1，在游戏机器人120执行游戏动作轮次，服务器130根据游戏机器人120在当前游戏对局中的状态数据，得到游戏机器人120的游戏状态特征；当前游戏对局中包括游戏机器人120和游戏账户，比如终端110a中登录的游戏账户A，终端110b中登录的游戏账户B，状态数据用于表示游戏机器人120执行游戏动作的已知数据；根据游戏状态特征，确定游戏机器人120执行游戏动作的响应时间；根据响应时间，控制游戏机器人120执行游戏动作，从而提高了游戏机器人的拟人化程度。

图2是根据一示例性实施例示出的一种游戏机器人的控制方法的流程图，如图2所示，游戏机器人的控制方法用于如图1所示的游戏服务器中，包括以下步骤：

在步骤S210中，在游戏机器人执行游戏动作轮次，根据游戏机器人在当前游戏对局中的状态数据，得到游戏机器人的游戏状态特征。

其中，当前游戏对局中包括游戏机器人和游戏账户，游戏机器人是指创建的虚拟游戏账户，游戏对局中的游戏账户是指真实游戏账户，具体是指经过授权且需要进行处理分析的游戏应用程序的注册用户，比如搭配有游戏应用程序的短视频应用程序的注册用户、游戏应用程序的注册用户等；在实际场景中，游戏账户是指游戏玩家。需要说明的是，本公开提到的游戏是指多人游戏，比如斗地主、象棋、麻将、围棋等。

其中，在游戏机器人执行游戏动作轮次，是指轮到游戏机器人执行游戏动作；游戏动作是指游戏机器人当前需要执行的游戏操作，比如在斗地主中，游戏动作是指游戏机器人当前需要打出的纸牌；具体可以根据上个游戏账户的游戏动作确定，比如在斗地主中，上个游戏玩家打出了顺子，游戏机器人需要打出比该顺子大的顺子，前提是游戏机器人当前有比该顺子大的顺子。

其中，当前游戏对局是指包括游戏机器人和多名游戏账户的游戏对局；在某些特定游戏场景中，需要游戏机器人和真实游戏账户进行对局；例如，在游戏初期或者凌晨游戏账户的数量较少的时候，为了降低游戏账户的匹配等待时间而匹配游戏机器人。

其中，状态数据用于表示游戏机器人执行游戏动作的已知数据，具体用于表示在游戏机器人执行游戏动作之前，针对该游戏机器人，当前游戏对局中的已知数据；通过状态数据，可以推导出游戏机器人执行游戏动作的响应时间，比如思考时间；说明游戏机器人在当前游戏对局中的状态数据，与游戏机器人执行游戏动作的响应时间之间存在映射关系。

在实际场景中，比如在斗地主中，游戏机器人在当前游戏对局中执行游戏动作的状态数据包括：当前游戏阶段(比如叫地主阶段、抢地主阶段、加倍阶段、出牌阶段)、地主座位号、游戏机器人的座位号、游戏机器人的手牌(游戏开始时所分配的纸牌)、游戏机器人从当前游戏对局开始到现在已经出的所有纸牌、下个游戏玩家从该当前游戏对局开始到现在已经出的纸牌，下下个游戏玩家从当前游戏对局开始到现在已经出的纸牌、当前游戏对局的底牌、游戏机器人要跟的纸牌。

需要说明的是，针对当前游戏对局中的不同游戏轮次，游戏机器人在当前游戏对局中执行游戏动作的状态数据是不一样的；针对不同类型游戏，游戏机器人在当前游戏对局中执行游戏动作的状态数据也是不一样的。

其中，游戏状态特征用于表征状态数据中的特征信息，是指通过特征信息的形式表征状态数据，具体可以通过数组的形式表示；比如，在斗地主中，利用长度为15的数组表示一组纸牌，其中数组第1、2、3、4、5、6、7、8、9、10、11、12、13、14、15个元素，对应表示纸牌3、4、5、6、7、8、9、10、J、Q、K、A、2、小王、大王的个数；那么底牌、手牌、上个游戏玩家出的牌、每个游戏玩家从游戏对局开始到现在已经出的所有牌等都采用这种方式表示；例如，游戏机器人从当前游戏对局开始到现在已经出的所有纸牌包括红桃3、方片3、红桃5、小王和大王，则对应的数组为(2，0，1，0，0，0，0，0，0，0，0，0，0，1，1)。

需要说明的是，在斗地主中，利用长度为1的数组表示当前游戏阶段，比如叫地主阶段为(1)，抢地主阶段为(2)，加倍阶段为(3)，出牌阶段为(4)；分别利用长度为1的数组表示地主座位号和当前游戏玩家的座位号，座位号取值范围为0-2。

具体地，在包括游戏机器人和游戏账户的当前游戏对局中，游戏服务器检测是否轮到游戏机器人执行游戏动作，若检测到轮到游戏机器人执行游戏动作，说明当前处于游戏机器人执行游戏动作轮次，则获取当前游戏对局的游戏行为日志，并通过预设的状态数据获取指令，从当前游戏对局的游戏行为日志中，获取游戏机器人执行游戏动作的已知数据，作为游戏机器人在当前游戏对局中的状态数据；对状态数据进行特征提取，得到游戏机器人的游戏状态特征。

在步骤S220中，根据游戏状态特征，确定游戏机器人执行游戏动作的响应时间。

其中，游戏机器人执行游戏动作的响应时间，是指游戏机器人执行游戏动作的思考时间，不同游戏状态特征，对应的响应时间是不一样的；比如，在斗地主中，上个游戏玩家出了火箭，这个时候游戏机器人是不需要思考太长时间的。

具体地，游戏服务器将各种游戏状态特征进行拼接，得到游戏机器人的目标状态特征；根据游戏机器人的目标状态特征，确定游戏机器人执行游戏动作的响应时间。

在步骤S230中，根据响应时间，控制游戏机器人执行游戏动作。

具体地，游戏服务器检测到轮到游戏机器人执行游戏动作，则在延迟响应时间之后，控制游戏机器人在当前游戏对局中执行游戏动作。这样，根据游戏机器人在当前游戏对局中执行游戏动作的状态数据，对游戏机器人执行游戏动作的响应时间进行控制，而不是采用随机值作为游戏机器人执行游戏动作的响应时间，有利于提高游戏机器人的拟人化程度。

例如，假设游戏机器人执行游戏动作的思考时间为t秒，则等待t秒之后，再控制游戏机器人执行游戏动作。

上述游戏机器人的控制方法中，在游戏机器人执行游戏动作轮次，根据游戏机器人在当前游戏对局中执行游戏动作的状态数据，得到游戏机器人的游戏状态特征；然后根据游戏状态特征，确定游戏机器人执行游戏动作的响应时间；最后根据响应时间，控制游戏机器人执行游戏动作；实现了在检测到轮到游戏机器人执行游戏动作时，根据游戏机器人在当前游戏对局中的状态数据，对游戏机器人执行游戏动作的响应时间进行控制的目的，有利于提高游戏机器人的拟人化程度，从而提高了游戏对局中的游戏账户与游戏机器人的真实匹配度，使得游戏账户可以连续对局多次，无需重复发起游戏匹配请求，进而使得游戏服务器无需频繁响应游戏账户发起的游戏匹配请求，从而缓解了游戏服务器的压力。

在一示例性实施例中，在步骤S220中，根据游戏状态特征，确定游戏机器人执行游戏动作的响应时间，包括：按照预设的特征拼接顺序，将游戏状态特征进行拼接，得到游戏机器人的目标状态特征；将游戏机器人的目标状态特征输入预先训练的响应时间预测模型，得到游戏机器人执行游戏动作的响应时间。

其中，响应时间预测模型是一种用于根据输入的执行游戏动作的目标状态特征，对应输出执行该游戏动作的响应时间的神经网络模型，具体是指思考时间预测模型。

具体地，游戏服务器获取游戏机器人的各个游戏状态特征，比如当前游戏阶段信息对应的特征信息、游戏机器人的手牌对应的特征信息等，然后按照预设的特征拼接顺序，将各个游戏状态特征进行拼接，得到游戏机器人的目标状态特征；将游戏机器人的目标状态特征输入预先训练的响应时间预测模型，通过预先训练的响应时间预测模型对目标状态特征进行一系列神经网络处理，得到游戏机器人执行游戏动作的响应时间。

例如，在斗地主中，游戏服务器利用一个长度为93的一维数组表示游戏机器人的目标状态特征，其中，第1个元素表示当前游戏阶段信息、第2个元素表示地主座位号、第3个元素表示游戏机器人的座位号、第4-18个元素表示游戏机器人的手牌、第19-33个元素表示游戏机器人从当前游戏对局开始到现在已经出的所有纸牌、第34-48个元素表示下个游戏玩家从该当前游戏对局开始到现在已经出的纸牌、第49-63个元素表示下下个游戏玩家从当前游戏对局开始到现在已经出的纸牌、第64-78个元素表示当前游戏对局的底牌、第79-93个元素表示游戏机器人要跟的纸牌；然后游戏服务器将这个长度为93的一维数组输入至预先训练的思考时间预测模型，得到游戏机器人执行游戏动作的思考时间。

需要说明的是，在每个游戏阶段，游戏服务器都会把游戏机器人执行游戏当作的状态数据填充到长度为93的一维数组中的对应位置。比如，在叫地主阶段，游戏机器人的状态数据只有手牌(17张牌)和座位号，把这些数据填充到一维数组中的第4-18个元素位置和第3个元素位置，数组的其它元素位置都是0，然后将其输入到思考时间预测模型中，可以输出游戏机器人当前这个叫地主动作的思考时间t。

进一步地，参考图3，在斗地主中，当前游戏对局开始，等轮到游戏机器人出牌，游戏服务器将游戏机器人在当前游戏对局中的状态数据作为思考时间预测模型的输入数据，预测游戏机器人当前出牌的思考时间为t秒，然后等待t秒之后，控制游戏机器人出牌，完成当前出牌行为。

本公开实施例提供的技术方案，根据游戏机器人在当前游戏对局中的状态数据，确定游戏机器人执行游戏动作的响应时间，有利于后续对游戏机器人执行游戏动作的响应时间进行控制，从而提高了游戏机器人的拟人化程度，进而提高了游戏对局中的游戏账户与游戏机器人的真实匹配度，使得游戏账户参与游戏对局的时间变长，不会频繁退出游戏，使得游戏服务器无需频繁更换游戏对局中的游戏账户，从而降低了游戏服务器的压力。

在一示例性实施例中，预先训练的响应时间预测模型通过下述方式训练得到：获取样本游戏账户的游戏状态特征；将样本游戏账户的游戏状态特征输入待训练的响应时间预测模型，得到样本游戏账户执行相应游戏动作的预测响应时间；根据样本游戏账户执行相应游戏动作的预测响应时间和实际响应时间之间的差值，得到损失值；根据损失值调整待训练的响应时间预测模型的模型参数，得到调整后的响应时间预测模型，并对调整后的响应时间预测模型进行反复训练，直至根据训练后的响应时间预测模型得到的损失值小于预设阈值，则将训练后的响应时间预测模型作为预先训练的响应时间预测模型。

具体地，游戏服务器获取样本游戏账户执行游戏动作的游戏状态特征，将样本游戏账户执行游戏动作的游戏状态特征进行拼接处理，得到样本游戏账户执行游戏动作的目标状态特征；将样本游戏账户执行游戏动作的目标状态特征输入到待训练的响应时间预测模型，得到样本游戏账户执行相应游戏动作的预测响应时间；根据样本游戏账户执行相应游戏动作的预测响应时间和实际响应时间之间的差值，结合损失函数，得到损失值；若损失值小于预设阈值，则根据该损失值调整待训练的响应时间预测模型的模型参数，得到调整后的响应时间预测模型，并对调整后的响应时间预测模型进行反复训练，直至根据训练后的响应时间预测模型得到的损失值小于预设阈值；若根据训练后的响应时间预测模型得到的损失值小于预设阈值，则停止训练，并将该训练后的响应时间预测模型，作为预先训练的响应时间预测模型。

举例说明，参考图4，游戏服务器首先从线上获取中高级场真实游戏玩家的历史对局数据，然后从真实游戏玩家的历史对局数据中，提取出每个游戏玩家在游戏对局中每次出牌的状态数据和思考时间；然后将状态数据作为待训练的思考时间预测模型的输入数据，将思考时间作为待训练的思考时间预测模型的目标数据，用这些输入数据和目标数据训练待训练的思考时间预测模型，训练完成后部署上线。其中，状态数据为一个长度为93的一维数组，其中，第1个元素表示当前游戏阶段信息(1：叫地主阶段，2：抢地主阶段，3：加倍阶段，4：出牌阶段)；第2个元素表示地主座位号，座位号取值范围0-2；第3个元素表示当前该游戏玩家的座位号，座位号取值范围0-2；第4-18个元素表示该当前游戏玩家的手牌；第19-33个元素表示该当前游戏玩家从该局开始到现在已经出的所有牌；第34-48个元素表示下个游戏玩家从该局开始到现在已经出的牌；第49-63个元素表示下下个游戏玩家从该局开始到现在已经出的牌；第64-78个元素表示底牌；第79-93元素表示该游戏玩家要跟的牌。

本公开实施例提供的技术方案，通过对响应时间预测模型进行反复训练，可以提高通过响应时间预测模型输出的响应时间的准确度，进一步提高了游戏机器人的拟人化程度，使得参与包括游戏机器人的游戏对局中的游戏账户无需频繁发起游戏匹配请求，从而缓解了游戏服务器的服务器压力。

在一示例性实施例中，在步骤S220中，根据游戏状态特征，确定游戏机器人执行游戏动作的响应时间，还包括：根据游戏状态特征和游戏动作，查询预设的游戏账户的游戏状态特征与执行游戏动作的响应时间的对应关系，得到游戏机器人执行游戏动作的响应时间。

其中，预设的游戏账户的游戏状态特征与执行游戏动作的响应时间的对应关系，是指游戏账户的游戏状态特征与执行游戏动作的响应时间之间存在映射关系，具体可以通过大数据技术统计得到。

具体地，服务器获取预设的游戏账户的游戏状态特征与执行游戏动作的响应时间的对应关系，然后根据游戏状态特征和游戏动作，查询预设的游戏账户的游戏状态特征与执行游戏动作的响应时间的对应关系，得到游戏机器人执行游戏动作的响应时间。

本公开实施例提供的技术方案，根据游戏机器人在当前游戏对局中执行游戏动作的状态数据，确定游戏机器人执行游戏动作的响应时间，有利于后续对游戏机器人执行游戏动作的响应时间进行控制，从而提高了游戏机器人的拟人化程度，进而提高了游戏对局中的游戏账户与游戏机器人的真实匹配度，使得游戏账户可以连续对局多次，无需重复发起游戏匹配请求，进而使得游戏服务器无需频繁响应游戏账户发起的游戏匹配请求，从而缓解了游戏服务器的压力。

在一示例性实施例中，在步骤S220中，根据游戏状态特征，确定游戏机器人执行游戏动作的响应时间，还包括：获取当前游戏对局的游戏等级；根据游戏状态特征和游戏动作，查询游戏等级下，预设的游戏账户的游戏状态特征与执行游戏动作的响应时间的对应关系，得到游戏机器人执行游戏动作的响应时间。

其中，游戏等级是指游戏对局中的游戏账户的平均游戏水平所属等级，比如高级游戏对局、中局游戏对局等。

其中，游戏等级下，预设的游戏账户的游戏状态特征与执行游戏动作的响应时间的对应关系，是指该游戏等级下，游戏账户的游戏状态特征与执行游戏动作的响应时间之间存在映射关系，具体可以通过大数据技术统计得到。

具体地，游戏服务器获取当前游戏对局中的游戏账户的平均游戏水平，根据平均游戏水平，确定当前游戏对局的游戏等级；获取该游戏等级下，预设的游戏账户的游戏状态特征与执行游戏动作的响应时间的对应关系；根据游戏状态特征和游戏动作，查询该游戏等级下，预设的游戏账户的游戏状态特征与执行游戏动作的响应时间的对应关系，得到游戏机器人执行游戏动作的响应时间。

本公开实施例提供的技术方案，综合考虑了当前游戏对局的游戏等级，有利于提高确定出的游戏机器人执行游戏动作的响应时间的准确度，便于后续对游戏机器人执行游戏动作的响应时间进行准确控制，从而提高了游戏机器人的拟人化程度，进而提高了游戏对局中的游戏账户与游戏机器人的真实匹配度，使得游戏账户可以连续对局多次，无需重复发起游戏匹配请求，进而使得游戏服务器无需频繁响应游戏账户发起的游戏匹配请求，从而缓解了游戏服务器的压力。

在一示例性实施例中，在步骤S210中，根据游戏机器人在当前游戏对局中的状态数据，得到游戏机器人的游戏状态特征，包括：对游戏机器人在当前游戏对局中的状态数据进行特征提取，得到游戏机器人的游戏状态特征。

具体地，游戏服务器通过预设的特征提取指令，对状态数据进行特征提取，得到游戏机器人的游戏状态特征；其中，预设的特征提取指令是一种用于将状态数据表征为对应的游戏状态特征的指令。

进一步地，游戏服务器还可以将游戏机器人在当前游戏对局中的状态数据，输入至预先训练的特征提取模型，得到游戏机器人在当前游戏对局中的游戏状态特征；其中，特征提取模型是一种用于将状态数据表征为对应的游戏状态特征的模型；例如，输入的状态数据为底牌(红桃3、方片3、红桃5)，则输出的游戏状态特征为(2，0，1，0，0，0，0，0，0，0，0，0，0，0，0)。

本公开实施例提供的技术方案，通过对游戏机器人在当前游戏对局中的状态数据进行特征提取，得到游戏机器人的游戏状态特征，有利于后续根据游戏状态特征，确定游戏机器人执行游戏动作的响应时间，进而根据响应时间，控制游戏机器人执行游戏动作，使得游戏机器人更加拟人化，进而提高了游戏对局中的游戏账户与游戏机器人的真实匹配度，使得游戏账户可以连续对局多次，无需重复发起游戏匹配请求，进而使得游戏服务器无需频繁响应游戏账户发起的游戏匹配请求，从而缓解了游戏服务器的压力。

在一示例性实施例中，在步骤S210中，在根据游戏机器人在当前游戏对局中的状态数据，得到游戏机器人的游戏状态特征之前，还包括：获取当前游戏对局的游戏行为日志；从游戏行为日志中获取当前游戏对局的游戏对局数据；从游戏对局数据中，提取出游戏机器人在当前游戏对局中的状态数据；状态数据用于表示游戏机器人执行游戏动作的已知数据。

其中，游戏行为日志用于记录游戏对局的游戏对局数据，比如底牌、手牌、上个游戏玩家出的牌、每个游戏玩家从游戏对局开始到现在已经出的所有牌等。

具体地，游戏服务器检测到轮到游戏机器人执行游戏动作，从本地数据库中获取当前游戏对局的游戏行为日志；根据预设的游戏对局数据提取指令，从游戏行为日志中提取出当前游戏对局的游戏对局数据；根据预设的状态数据提取指令，从游戏对局数据中，提取出游戏机器人在当前游戏对局中的状态数据。

本公开实施例提供的技术方案，通过获取游戏机器人在当前游戏对局中的状态数据，有利于后续根据游戏机器人在当前游戏对局中的状态数据，确定游戏机器人在当前游戏对局中执行游戏动作的响应时间，进而在响应时间之后，控制游戏机器人执行游戏动作，从而提高了游戏机器人的拟人化程度。

在一示例性实施例中，当前游戏对局中包括游戏机器人和游戏账户；从游戏对局数据中，提取出游戏机器人在当前游戏对局中的状态数据，包括：从游戏对局数据中，获取当前游戏阶段信息、目标游戏账户和游戏机器人的对局位置标识、目标游戏资源组合、游戏机器人的初始游戏资源组合、已消耗游戏资源组合、游戏动作所针对的游戏资源组合以及其他游戏账户的已消耗游戏资源组合，作为游戏机器人在当前游戏对局中执行游戏动作的状态数据。

其中，在斗地主中，当前游戏阶段信息是指叫地主阶段、抢地主阶段、加倍阶段、出牌阶段；目标游戏账户的对局位置标识是指地主的座位号；游戏机器人的对局位置标识是指游戏机器人的座位号；目标游戏资源组合是指当前游戏对局的底牌；游戏机器人的初始游戏资源组合是指游戏机器人的手牌；游戏机器人的已消耗游戏资源组合，是指游戏机器人从当前游戏对局开始到现在已经出的所有纸牌；游戏机器人的游戏动作所针对的游戏资源组合，是指游戏机器人要跟的纸牌，比如上个游戏玩家出的牌；其他游戏账户的已消耗游戏资源组合，是指下个游戏玩家从该当前游戏对局开始到现在已经出的纸牌、下下个游戏玩家从当前游戏对局开始到现在已经出的纸牌。

需要说明的是，不同游戏场景中，游戏机器人在当前游戏对局中执行游戏动作的状态数据是不一样的，比如在斗地主和麻将中，游戏机器人在当前游戏对局中执行游戏动作的状态数据是不一样的。

本公开实施例提供的技术方案，通过从游戏对局数据中，提取出游戏机器人在当前游戏对局中的状态数据，有利于后续根据游戏机器人在当前游戏对局中的状态数据，确定游戏机器人在当前游戏对局中执行游戏动作的响应时间。

图5是根据一示例性实施例示出的另一种游戏机器人的控制方法的流程图，如图5所示，该游戏机器人的控制方法用于如图1所示的游戏服务器中，包括以下步骤：

在步骤S510中，在游戏机器人执行游戏动作轮次，获取当前游戏对局的游戏行为日志。

在步骤S520中，从游戏行为日志中获取当前游戏对局的游戏对局数据。

在步骤S530中，从游戏对局数据中，获取当前游戏阶段信息、目标游戏账户和游戏机器人的对局位置标识、目标游戏资源组合、游戏机器人的初始游戏资源组合、已消耗游戏资源组合、游戏动作所针对的游戏资源组合以及其他游戏账户的已消耗游戏资源组合，作为游戏机器人在当前游戏对局中的状态数据。

在步骤S540中，对状态数据进行特征提取，得到游戏机器人的游戏状态特征。

在步骤S550中，按照预设的特征拼接顺序，将游戏状态特征进行拼接，得到游戏机器人的目标状态特征。

在步骤S560中，将游戏机器人的目标状态特征输入预先训练的响应时间预测模型，得到游戏机器人执行游戏动作的响应时间。

在步骤S570中，根据响应时间，控制游戏机器人执行游戏动作。

上述游戏机器人的控制方法，实现了在检测到轮到游戏机器人执行游戏动作时，根据游戏机器人在当前游戏对局中的状态数据，对游戏机器人执行游戏动作的响应时间进行控制的目的，有利于提高游戏机器人的拟人化程度，从而提高了游戏对局中的游戏账户与游戏机器人的真实匹配度，使得游戏账户可以连续对局多次，无需重复发起游戏匹配请求，进而使得游戏服务器无需频繁响应游戏账户发起的游戏匹配请求，从而缓解了游戏服务器的压力。

应该理解的是，虽然图2、5的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2、5中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

图6是根据一示例性实施例示出的一种游戏机器人的控制装置的框图。参照图6，该装置包括特征获取单元610，时间确定单元620和执行控制单元630。

特征获取单元610，被配置为执行在游戏机器人执行游戏动作轮次，根据游戏机器人在当前游戏对局中的状态数据，得到游戏机器人的游戏状态特征。

时间确定单元620，被配置为执行根据游戏状态特征，确定游戏机器人执行游戏动作的响应时间。

执行控制单元630，被配置为执行根据响应时间，控制游戏机器人执行游戏动作。

在一示例性实施例中，时间确定单元620，还被配置为执行按照预设的特征拼接顺序，将游戏状态特征进行拼接，得到游戏机器人的目标状态特征；将游戏机器人的目标状态特征输入预先训练的响应时间预测模型，得到游戏机器人执行游戏动作的响应时间。

在一示例性实施例中，本公开提供的游戏机器人的控制装置还包括模型训练单元，被配置为执行获取样本游戏账户的游戏状态特征；将样本游戏账户的游戏状态特征输入待训练的响应时间预测模型，得到样本游戏账户执行相应游戏动作的预测响应时间；根据样本游戏账户执行相应游戏动作的预测响应时间和实际响应时间之间的差值，得到损失值；根据损失值调整待训练的响应时间预测模型的模型参数，得到调整后的响应时间预测模型，并对调整后的响应时间预测模型进行反复训练，直至根据训练后的响应时间预测模型得到的损失值小于预设阈值，则将训练后的响应时间预测模型作为预先训练的响应时间预测模型。

在一示例性实施例中，时间确定单元620，还被配置为执行根据游戏状态特征和游戏动作，查询预设的游戏账户的游戏状态特征与执行游戏动作的响应时间的对应关系，得到游戏机器人执行游戏动作的响应时间。

在一示例性实施例中，时间确定单元620，还被配置为执行获取当前游戏对局的游戏等级；根据游戏状态特征和游戏动作，查询游戏等级下，预设的游戏账户的游戏状态特征与执行游戏动作的响应时间的对应关系，得到游戏机器人执行游戏动作的响应时间。

在一示例性实施例中，特征获取单元610，还被配置为执行对游戏机器人在当前游戏对局中的状态数据进行特征提取，得到游戏机器人的游戏状态特征。

在一示例性实施例中，本公开提供的游戏机器人的控制装置还包括数据获取单元，还被配置为执行获取当前游戏对局的游戏行为日志；从游戏行为日志中获取当前游戏对局的游戏对局数据；从游戏对局数据中，提取出游戏机器人在当前游戏对局中的状态数据；状态数据用于表示游戏机器人执行游戏动作的已知数据。

在一示例性实施例中，数据获取单元，还被配置为执行从游戏对局数据中，获取当前游戏阶段信息、目标游戏账户和游戏机器人的对局位置标识、目标游戏资源组合、游戏机器人的初始游戏资源组合、已消耗游戏资源组合、游戏动作所针对的游戏资源组合以及其他游戏账户的已消耗游戏资源组合，作为游戏机器人在当前游戏对局中执行游戏动作的状态数据。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图7是根据一示例性实施例示出的一种用于执行上述游戏机器人的控制方法的设备700的框图。例如，设备700可以为一服务器。参照图7，设备700包括处理组件720，其进一步包括一个或多个处理器，以及由存储器722所代表的存储器资源，用于存储可由处理组件720的执行的指令，例如应用程序。存储器722中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件720被配置为执行指令，以执行上述游戏机器人的控制方法。

设备700还可以包括一个电源组件724被配置为执行设备700的电源管理，一个有线或无线网络接口726被配置为将设备700连接到网络，和一个输入输出(I/O)接口728。设备700可以操作基于存储在存储器722的操作系统，例如Window6 6erver，Mac O6 X，Unix，Linux，FreeBSD或类似。

在示例性实施例中，还提供了一种包括指令的计算机可读存储介质，例如包括指令的存储器722，上述指令可由设备700的处理器执行以完成上述方法。例如，计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供一种计算机程序产品，该计算机程序产品包括计算机程序，该计算机程序存储在计算机可读存储介质中，设备的至少一个处理器从该计算机可读存储介质读取并执行该计算机程序，使得设备执行本公开的任一项实施例中所述的游戏机器人的控制方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种游戏机器人的控制方法，其特征在于，包括：

2.根据权利要求1所述的游戏机器人的控制方法，其特征在于，所述根据所述游戏状态特征，确定所述游戏机器人执行所述游戏动作的响应时间，包括：

3.根据权利要求2所述的游戏机器人的控制方法，其特征在于，所述预先训练的响应时间预测模型通过下述方式训练得到：

获取样本游戏账户的游戏状态特征；

4.根据权利要求1所述的游戏机器人的控制方法，其特征在于，所述根据所述游戏状态特征，确定所述游戏机器人执行所述游戏动作的响应时间，还包括：

5.根据权利要求1所述的游戏机器人的控制方法，其特征在于，所述根据所述游戏状态特征，确定所述游戏机器人执行所述游戏动作的响应时间，还包括：

获取所述当前游戏对局的游戏等级；

6.根据权利要求1所述的游戏机器人的控制方法，其特征在于，所述根据所述游戏机器人在当前游戏对局中的状态数据，得到所述游戏机器人的游戏状态特征，包括：

7.根据权利要求1所述的游戏机器人的控制方法，其特征在于，在根据所述游戏机器人在当前游戏对局中的状态数据，得到所述游戏机器人的游戏状态特征之前，还包括：

获取所述当前游戏对局的游戏行为日志；

8.根据权利要求7所述的游戏机器人的控制方法，其特征在于，所述当前游戏对局中包括所述游戏机器人和游戏账户；

所述从所述游戏对局数据中，提取出所述游戏机器人在所述当前游戏对局中的状态数据，包括：

9.一种游戏机器人的控制装置，其特征在于，包括：

10.根据权利要求9所述的游戏机器人的控制装置，其特征在于，所述时间确定单元，还被配置为执行按照预设的特征拼接顺序，将所述游戏状态特征进行拼接，得到所述游戏机器人的目标状态特征；将所述游戏机器人的目标状态特征输入预先训练的响应时间预测模型，得到所述游戏机器人执行所述游戏动作的响应时间。

11.根据权利要求10所述的游戏机器人的控制装置，其特征在于，所述装置包括模型训练单元，被配置为执行获取样本游戏账户的游戏状态特征；将所述样本游戏账户的游戏状态特征输入待训练的响应时间预测模型，得到所述样本游戏账户执行相应游戏动作的预测响应时间；根据所述样本游戏账户执行相应游戏动作的预测响应时间和实际响应时间之间的差值，得到损失值；根据所述损失值调整所述待训练的响应时间预测模型的模型参数，得到调整后的响应时间预测模型，并对所述调整后的响应时间预测模型进行反复训练，直至根据训练后的响应时间预测模型得到的损失值小于预设阈值，则将所述训练后的响应时间预测模型作为所述预先训练的响应时间预测模型。

12.根据权利要求9所述的游戏机器人的控制装置，其特征在于，所述时间确定单元，还被配置为执行根据所述游戏状态特征和所述游戏动作，查询预设的游戏账户的游戏状态特征与执行所述游戏动作的响应时间的对应关系，得到所述游戏机器人执行所述游戏动作的响应时间。

13.根据权利要求9所述的游戏机器人的控制装置，其特征在于，所述时间确定单元，还被配置为执行获取所述当前游戏对局的游戏等级；根据所述游戏状态特征和所述游戏动作，查询所述游戏等级下，预设的游戏账户的游戏状态特征与执行所述游戏动作的响应时间的对应关系，得到所述游戏机器人执行所述游戏动作的响应时间。

14.根据权利要求9所述的游戏机器人的控制装置，其特征在于，所述特征获取单元，还被配置为执行对所述游戏机器人在当前游戏对局中的状态数据进行特征提取，得到所述游戏机器人的游戏状态特征。

15.根据权利要求9所述的游戏机器人的控制装置，其特征在于，所述装置还包括数据获取单元，被配置为执行获取所述当前游戏对局的游戏行为日志；从所述游戏行为日志中获取所述当前游戏对局的游戏对局数据；从所述游戏对局数据中，提取出所述游戏机器人在所述当前游戏对局中的状态数据；所述状态数据用于表示所述游戏机器人执行所述游戏动作的已知数据。

16.根据权利要求15所述的游戏机器人的控制装置，其特征在于，所述当前游戏对局中包括所述游戏机器人和游戏账户；

17.一种服务器，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至8中任一项所述的游戏机器人的控制方法。

18.一种计算机可读存储介质，其特征在于，当所述计算机可读存储介质中的指令由服务器的处理器执行时，使得所述服务器能够执行如权利要求1至8任一项所述的游戏机器人的控制方法。

19.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的游戏机器人的控制方法。