CN116510300A

CN116510300A - 游戏角色的行为控制方法、装置和电子设备

Info

Publication number: CN116510300A
Application number: CN202310295588.7A
Authority: CN
Inventors: 蔡康
Original assignee: Netease Hangzhou Network Co Ltd
Current assignee: Netease Hangzhou Network Co Ltd
Priority date: 2023-03-22
Filing date: 2023-03-22
Publication date: 2023-08-01

Abstract

本发明提供了一种游戏角色的行为控制方法、装置和电子设备；其中，该方法包括：获取目标游戏的当前状态数据；将当前状态数据输入至预先训练完成的机器学习模型中，得到第一输出结果；其中，第一输出结果中包括：多个预设行为操作对应的概率；获取机器学习模型的指定数量的历史输出结果；将第一输出结果和历史输出结果输入至预先训练完成的条件随机场模型中，得到目标行为操作。该方式中，将机器学习模型和条件随机场模型相结合，机器学习模型和条件随机场模型均能建立状态和行为操作之间的关系，条件随机场模型还能建立行为操作之间的时序关系，可以使游戏AI的智能化程度较高；同时模型结构简单且易收敛，具有较强的应用性。

Description

游戏角色的行为控制方法、装置和电子设备

技术领域

本发明涉及游戏技术领域，尤其是涉及一种游戏角色的行为控制方法、装置和电子设备。

背景技术

游戏AI(Artificial Intelligence，人工智能)也称为虚拟玩家，通过机器学习技术训练游戏AI模型，通过游戏AI模型控制游戏角色，使得该游戏角色的行为与真实玩家控制的游戏角色行为相似。游戏角色的前后行为通常具有关联性，因而，使用时序模型训练游戏AI模型，可以使游戏AI模型控制的游戏角色智能表现更佳。

相关技术中，RNN(Recurrent Neural Network，循环神经网络)和LSTM(LongShort-Term Memory，长短期记忆网络)模型可以在一定程度上建立输入数据和输出数据之间的关系，但难以建立输出数据的时序连续性，影响模型运行时的智能化程度；LSTM和CRF(Conditional Random Field，条件随机场)损失函数可以建立输入数据和输出数据、以及输出数据之间的时序关系，但模型复杂度高，难以有效收敛，导致模型的应用性较差。

发明内容

有鉴于此，本发明的目的在于提供一种游戏角色的行为控制方法、装置和电子设备，以使游戏AI的智能化程度较高，同时使模型结构简单且易收敛，具有较强的应用性。

第一方面，本发明实施例提供了一种游戏角色的行为控制方法，方法包括：获取目标游戏的当前状态数据；将当前状态数据输入至预先训练完成的机器学习模型中，得到第一输出结果；其中，第一输出结果中包括：多个预设行为操作对应的概率；获取机器学习模型的指定数量的历史输出结果；其中，历史输出结果基于目标游戏的历史状态数据得到；将第一输出结果和历史输出结果输入至预先训练完成的条件随机场模型中，得到目标行为操作；其中，目标行为操作包含在多个预设行为操作中，目标行为操作用于控制目标游戏角色的行为。

第二方面，本发明实施例提供了一种游戏角色的行为控制装置，装置包括：数据获取模块，用于获取目标游戏的当前状态数据；第一输入模块，用于将当前状态数据输入至预先训练完成的机器学习模型中，得到第一输出结果；其中，第一输出结果中包括：多个预设行为操作对应的概率；结果获取模块，用于获取机器学习模型的指定数量的历史输出结果；其中，历史输出结果基于目标游戏的历史状态数据得到；第二输入模块，用于将第一输出结果和历史输出结果输入至预先训练完成的条件随机场模型中，得到目标行为操作；其中，目标行为操作包含在多个预设行为操作中，目标行为操作用于控制目标游戏角色的行为。

第三方面，本发明实施例提供了一种电子设备，包括处理器和存储器，存储器存储有能够被处理器执行的机器可执行指令，处理器执行机器可执行指令以实现上述游戏角色的行为控制方法。

第四方面，本发明实施例提供了一种机器可读存储介质，机器可读存储介质存储有机器可执行指令，机器可执行指令在被处理器调用和执行时，机器可执行指令促使处理器实现上述游戏角色的行为控制方法。

本发明实施例带来了以下有益效果：

上述游戏角色的行为控制方法、装置和电子设备，获取目标游戏的当前状态数据；将当前状态数据输入至预先训练完成的机器学习模型中，得到第一输出结果；其中，第一输出结果中包括：多个预设行为操作对应的概率；获取机器学习模型的指定数量的历史输出结果；其中，历史输出结果基于目标游戏的历史状态数据得到；将第一输出结果和历史输出结果输入至预先训练完成的条件随机场模型中，得到目标行为操作；其中，目标行为操作包含在多个预设行为操作中，目标行为操作用于控制目标游戏角色的行为。该方式中，将机器学习模型和条件随机场模型相结合，机器学习模型和条件随机场模型均能建立状态和行为操作之间的关系，条件随机场模型还能建立行为操作之间的时序关系，可以使游戏AI的智能化程度较高；同时模型结构简单且易收敛，具有较强的应用性。

本发明的其他特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种游戏角色的行为控制方法的流程图；

图2为本发明实施例提供的机器学习模型的训练方式的示意图；

图3为本发明实施例提供的条件随机场模型的训练方式的示意图；

图4为本发明实施例提供的一种游戏角色的行为控制装置的结构示意图；

图5为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

游戏AI是很多游戏中必不可少的元素，一个表现智能的游戏AI会给玩家带来更好的游戏体验。例如，Moba(Multiplayer Online Battle Arena，多人在线战术竞技)游戏中通常有与玩家一样操控英雄的游戏AI，通过游戏AI控制的游戏角色与玩家控件的游戏角色进行对抗或者协作。越来越多的游戏使用机器学习技术来训练更高强度、更智能表现的游戏AI。

游戏AI模型大多数使用非时序模型建模，除此之外，使用时序模型的技术通常使用RNN即循环神经网络，或LSTM即长短时记忆网络。其中，非时序模型无法满足对模型输出值的连续性特点建模。RNN和LSTM网络通过对网络中间层的时序记忆冗余保留，可以在一定程度上建立观测的和状态在时序上的关系，但缺点是缺少对状态时序连续性的建模。LSTM加CRF损失函数方法，模型相比于LSTM和CRF两个本身的复杂度更高，不便于训练时有效收敛。

基于上述问题，本发明实施例提供的一种游戏角色的行为控制方法、装置和电子设备，该技术可以应用于各类游戏中游戏AI的控制中，例如，Moba游戏中游戏AI的控制中。

为便于对本实施例进行理解，首先对本发明实施例所公开的一种游戏角色的行为控制方法进行详细介绍，如图1所示，该方法可以应用于服务器、云服务器或终端设备等；该方法包括如下步骤：

步骤S102，获取目标游戏的当前状态数据；

该目标游戏中通常包括多个游戏角色，部分游戏角色由真实玩家进行控制，而本实施例中的目标游戏角色为游戏AI，即通过本实施例提供的游戏角色的行为控制方法输出目标行为操作，进而控制目标游戏角色执行该目标行为操作。

目标游戏的当前状态数据，例如，可以包括游戏对局的环境状态数据，例如，对局环境、对局进程、各方角色数量、状态等；当前状态数据还可以包括游戏对局中各游戏角色的角色状态数据，例如，角色的位置、血量、攻击力、抵御能力等。一种方式中，该当前状态数据也可以为待控制的目标游戏角色的上述角色状态数据。

步骤S104，将当前状态数据输入至预先训练完成的机器学习模型中，得到第一输出结果；其中，该第一输出结果中包括：多个预设行为操作对应的概率；

该机器学习模型可以为神经网络模型，也可以为其他类型的机器学习模型。机器学习模型可以通过训练数据训练得到，例如，在目标游戏运行过程中，采集真实玩家控制的游戏角色的角色状态数据，以及该角色状态数据下，玩家触发的行为操作；当然，训练数据中还可以包括游戏角色所处环境的环境状态数据等；通过这些训练数据，可以使机器学习模型学习到真实玩家基于游戏角色的当前状态数据做出决策的方式。该机器学习模型可以是时序模型，也可以是非时序模型；该机器学习模型可以采用相对简单的模型结构即可实现。

上述预设行为操作可以包括多种，例如，移动操作、向特定方向移动、攻击操作、使用指定的攻击技能、使用指定的防御技能等。在上述第一输出结果中，包括每个预设行为操作对应的概率，其中，概率值最大的行为操作为当前状态数据下，机器学习模型认为的最为匹配的行为操作。

步骤S106，获取机器学习模型的指定数量的历史输出结果；其中，该历史输出结果基于目标游戏的历史状态数据得到；

可以理解的是，随着时间的变化，目标游戏的状态会发生变化，因而前述当前状态数据产生之前，通常会存在至少一种历史状态数据；即，历史状态数据是在前述当前状态数据产生之前产生的。每个历史状态数据输入至机器学习模型后，输出对应的历史输出结果。在实际实现时，可以从前述当前状态数据开始，按照时间顺序的逆顺序，获取当前状态数据之前的历史状态数据对应的历史输出结果。

例如，指定数量为三个，则获取三个历史输出结果，三个历史输出结果对应三个历史状态数据，该历史状态数据在时间顺序上前后相邻，最后一个历史状态顺序与当前状态数据相邻。即，历史状态数据与当前状态顺序在时间上连续。

步骤S108，将第一输出结果和历史输出结果输入至预先训练完成的条件随机场模型中，得到目标行为操作；其中，该目标行为操作包含在多个预设行为操作中，目标行为操作用于控制目标游戏角色的行为。

上述条件随机场模型也需要预先训练，与前述机器学习模型不同的是，条件随机场模型需要时间连续的多个状态数据以及最后一个状态数据对应的行为操作进行训练，即，条件随机场模型需要学习的内容是，基于时间连续的多个状态数据，输出最终的行为操作，该目标行为不仅与最近的状态数据有关，还与历史状态数据有关。

条件随机场模型是一种判别式概率模型，是随机场的一种；条件随机场模型是条件概率分布模型P(Y|X)，表示的是给定一组输入随机变量X的条件下另一组输出随机变量Y的马尔可夫随机场，也就是说，条件随机场模型的特点是假设输出随机变量构成马尔可夫随机场。条件随机场模型可被看作是最大熵马尔可夫模型在标注问题上的推广。

如同马尔可夫随机场，条件随机场模型为具有无向的图模型，在条件随机场中，随机变量Y的分布为条件机率，给定的观察值则为随机变量X。原则上，条件随机场模型的图模型布局是可以任意给定的，一般常用的布局是链结式的架构，链结式架构不论在训练(training)、推论(inference)、或是解码(decoding)上，都存在效率较高的算法可供演算。条件随机场模型是一个典型的判别式模型，其联合概率可以写成若干势函数联乘的形式，其中最常用的是线性链条件随机场。

在实际应用时，需要将前述当前状态数据对应的第一输出结果，以及历史状态数据对应的历史输出结果共同输入至条件随机场模型中，输出最终的目标行为操作。该目标行为操作属于前述多个预设行为操作中的一种或多种。得到目标行为操作后，即可控制目标游戏中对应的目标游戏角色执行该目标行为操作，实现游戏AI控制游戏角色的目的。

上述游戏角色的行为控制方法，获取目标游戏的当前状态数据；将当前状态数据输入至预先训练完成的机器学习模型中，得到第一输出结果；其中，第一输出结果中包括：多个预设行为操作对应的概率；获取机器学习模型的指定数量的历史输出结果；其中，历史输出结果基于目标游戏的历史状态数据得到；将第一输出结果和历史输出结果输入至预先训练完成的条件随机场模型中，得到目标行为操作；其中，目标行为操作包含在多个预设行为操作中，目标行为操作用于控制目标游戏角色的行为。该方式中，将机器学习模型和条件随机场模型相结合，机器学习模型和条件随机场模型均能建立状态和行为操作之间的关系，条件随机场模型还能建立行为操作之间的时序关系，可以使游戏AI的智能化程度较高；同时模型结构简单且易收敛，具有较强的应用性。

一种具体的实现方式中，上述当前状态数据包括：目标游戏角色的位置数据、生命值数据、物理攻击强度数据、法术攻击强度数据、物理防御力数据、法术防御力数据中的一种或多种。

其中的位置数据具体可以为目标游戏角色在游戏场景中的位置，可以使用游戏场景的三维空间坐标表达。生命值数据为目标游戏角色的血量，具体可以包括目标游戏角色的总血量和当前血量；物理攻击为不使用技能伤害，直接攻击的方式；物理攻击强度数据指示了目标游戏角色物理攻击的能力；法术攻击为使用技能的攻击方式，法术攻击强度数据指示了目标游戏角色法术攻击的能力；物理防御为抵抗物理攻击的防御方式，从而减少物理攻击对目标游戏角色产生的伤害；物理防御力数据指示了目标游戏角色对物理攻击的防御能力；法术防御力为抵抗法术攻击的防御方式，从而减少法术攻击对目标游戏角色产生的伤害；法术防御力数据指示了目标游戏角色对法术攻击的防御能力。

在实际实现时，可以在每个游戏帧均采集对应的状态数据，按照时间顺序，最后一个游戏帧对应的状态数据为当前状态数据。在模型运行过程中，可以将当前状态数据设置为长度为K的数据向量，其中，K代表当前状态数据的数据种类；例如，如果当前状态数据包括位置数据、总血量、当前血量、物理攻击强度数据、法术攻击强度数据、物理防御力数据、法术防御力数据，则K的取值是7。

如图2所示，上述机器学习模型通过下述方式训练得到：

步骤S202，获取第一训练数据；其中，该第一训练数据包括：目标游戏中指定游戏角色的多个游戏帧中的状态数据，以及状态数据对应的指定游戏角色的行为操作；

其中的指定游戏角色，通常为真实玩家控制的游戏角色；随着目标游戏的进行，游戏帧按照时间顺序依次排列。可以针对每个游戏帧，采集该游戏帧中指定游戏角色的状态数据，以及在该状态数据下，指定游戏角色的行为操作；该行为操作由真实玩家通过终端设备触发。该行为操作通常为前述多个预设行为操作中的一种或多种。

一种具体的实现方式中，假设共有N个游戏帧，每个游戏帧对应一个状态数据，该状态数据包含K种状态，则该状态数据的维度为K；则前述第一训练数据中的状态数据的数据维度为N*K；第一训练数据中，状态数据对应的行为操作的数据Y，Y的维度为N*1；假设预设行为操作的种类为A种，则Y的维度为N*A，其中，A的向量由0和1组成；例如，状态数据对应的行为操作的数据Y中A向量表示为[0,0,1]，代表该状态数据对应的行为操作为第三种行为操作。

步骤S204，将第一训练数据中的状态数据输入至机器学习模型的初始模型中，得到第二输出结果；

机器学习模型的初始模型中初始化有初始模型参数；第一训练数据中的状态数据作为机器学习模型的训练样本，输入至初始模型中，初始模型输出第二输出结果。

步骤S206，将第一训练数据中的行为操作作为标签信息，基于第二输出结果和标签信息对初始模型的模型参数进行训练，直至初始模型收敛，得到训练完成的机器学习模型。

该初始模型预设有损失函数，通过损失函数计算标签信息和第二输出结果之间的损失值，基于该损失值，使用梯度下降法或者其他参数调整方法调整初始模型的模型参数，然后，继续执行前述步骤S204和步骤S206，直至初始模型收敛，得到训练完成的机器学习模型。

如图3所示，条件随机场模型通过下述方式训练得到：

步骤S302，获取第二训练数据；其中，该第二训练数据包括：目标游戏中指定游戏角色的多个游戏帧中的状态数据，以及状态数据对应的指定游戏角色的行为操作；

该第二训练数据可以与前述第一训练数据相同，部分相同或完全不同。一种方式中，第二训练数据即前述第一训练数据，该训练数据既用于训练前述机器学习模型，也用于训练这里的条件随机场模型。

步骤S304，将第二训练数据中的状态数据输入至预先训练完成的机器学习模型中，得到第三输出结果；

这里需要说明的是，该步骤中的机器学习模型为已经训练完成的模型，状态数据输入至机器学习模型后，得到每个状态数据对应的第三输出结果；该第三输出结果包括，每个状态数据对应的概率向量，即，该状态数据对应的每个预设行为操作的概率值；例如，假设有三种预设行为操作，对于状态数据A，概率向量为[0.1,0.88,0.02]，该概率向量包括每种预设行为操作的概率；其中，概率值0.88对应的行为操作，为机器学习模型认为的，在状态数据A的情况下，目标游戏角色最适合执行的行为操作。

在实际实现时，机器学习模型中可以包括softmax函数，通过该softmax函数，输出每个状态数据对应的概率向量。

步骤S306，基于第三输出结果，生成多个序列样本；其中，该序列样本由预设数量的第三输出结果组成；

由于状态数据按照游戏帧的顺序排列，每个状态数据对应的第三数据集结果也按照游戏帧的顺序排列，在每个序列样本中，可以包括多个连续的第三输出结果；不同的序列样本中至少部分第三输出结果是不同的。

一种具体的实现方式中，第二训练数据中的状态数据按照游戏帧的先后顺序进行排列，状态数据对应的第三输出结果按照状态数据的先后顺序排列；从第三输出结果中确定至少一个目标结果；将目标结果，以及目标结果之前的预设数量的前序结果确定为一个序列样本；其中，预设数量的前序结果和目标结果按照状态数据的先后顺序排列；预设数量的前序结果与目标结果相邻；不同的序列样本对应的目标结果不同。

例如，条件随机场模型预设的可输入的序列样本的长度为L，L代表序列样本中包含的第三输出结果的数量；Y代表第三输出结果；将第i个第三输出结果确定为目标结果，表示为Y’(i)；以Y’(i-L+1)为起始，Y’(i)为结束的所有第三输出结果按照先后顺序拼接成一个序列样本，表示为Y^(i)。其中，Y’(i-L+1)为起始，到Y’(i-1)的第三输出结果均为前序结果。当i在变化时，每个i可以得到一个序列样本Y^(i)，因而可以得到多个序列样本。

步骤S308，将第二训练数据中的行为操作作为状态信息，将序列样本作为观测序列，基于状态信息和观测序列对条件随机场模型的模型参数进行训练，直至条件随机场模型收敛，得到训练完成的条件随机场模型。

该条件随机场模型预设有损失函数，通过损失函数计算状态信息和观测序列之间的损失值，基于该损失值，使用梯度下降法或者其他参数调整方法调整条件随机场模型的模型参数，然后，继续多次执行步骤S308，直至条件随机场模型收敛，得到训练完成的条件随机场模型。

基于上述训练得到的条件随机场模型，通过下述方式得到目标行为操作。将第一输出结果输入至预设的数据队列中；其中，该数据队列具有指定长度，数据队列中保存有至少一个历史输出结果，数据队列中的数据按照输入先后顺序排列，如果输入至数据队列中的数据超出指定长度，最先输入至数据队列中的数据被删除；如果数据队列中的数据达到指定长度，将数据队列中的数据输入至预先训练完成的条件随机场模型中，输出目标行为操作。

上述数据队列具体可以为循环队列，表示为循环队列Q；该循环队列的长度为L，从循环队列的一端存储数据，数据按照存储的先后顺序进行排列，当循环队列中的数据长度达到L时，如果继续向循环队列中存储数据，则从循环队列的另一端将最先存入的数据删除，依次类推，在后续的数据存入过程中，循环队列中始终保存有长度为L的数据。

在实际实现时，上述数据队列的长度，与条件随机场模型预设的可输入的序列样本的长度相同，均为L；该L为数据队列中保存的输出结果的数量。

在初始状态下，数据队列中的数据可能没有达到上述指定长度，该情况下，如果数据队列中的数据没有达到指定长度，将第一输出结果中最大概率值对应的行为操作，确定为目标行为操作。由于数据队列中的数据没有达到上述指定长度，不能构成一个条件随机场模型所需长度的数据输入至条件随机场模型，该情况下，直接基于机器学习模型输出的第一输出结果，确定目标行为操作，即，第一输出结果中包括每个预设行为操作对应的概率，将概率值最大的行为操作，确定为目标行为操作。

如果数据队列中的数据达到指定长度，将数据队列中的数据输入至预先训练完成的条件随机场模型中，输出数据队列中每个历史输出结果对应的行为操作标签，以及第一输出结果对应的行为操作标签；将第一输出结果对应的行为操作标签指示的行为操作，确定为目标行为操作。

如果数据队列中的数据达到指定长度，数据队列中已经保存有历史输出结果，该历史输出结果为第一输出结果之前的指定数量的输出结果。当第一输出结果在不断更新时，数据队列中的历史输出结果也会不断更新，因此，第一输出结果以及对应的历史输出结果共同输入至条件随机场模型中，得到目标行为操作，该目标行为操作不仅参考了第一输出结果，还参考了历史输出结果，由于第一输出结果由机器学习模型基于当前状态数据输出，而历史输出结果由机器学习模型基于历史状态数据输出，因此，目标行为操作即参考了目标游戏的当前状态数据，还参考了目标游戏的历史状态数据。

上述游戏角色的行为控制方法，通过机器学习模型和条件随机场模型实现，建立状态和行为操作之间的关系，条件随机场模型还能建立行为操作之间的时序关系，可以使游戏AI的智能化程度较高；同时模型结构简单且易收敛，具有较强的应用性。对于MOBA游戏中的游戏AI，通过机器学习模型和条件随机场模型，在保证模型易收敛的前提下，可以实现MOBA游戏在操作时序场景下连续性的建模。

对应于上述方法实施例，参见图4所示的一种游戏角色的行为控制装置的结构示意图，该装置包括：

数据获取模块40，用于获取目标游戏的当前状态数据；

第一输入模块42，用于将当前状态数据输入至预先训练完成的机器学习模型中，得到第一输出结果；其中，第一输出结果中包括：多个预设行为操作对应的概率；

结果获取模块44，用于获取机器学习模型的指定数量的历史输出结果；其中，历史输出结果基于目标游戏的历史状态数据得到；

第二输入模块46，用于将第一输出结果和历史输出结果输入至预先训练完成的条件随机场模型中，得到目标行为操作；其中，目标行为操作包含在多个预设行为操作中，目标行为操作用于控制目标游戏角色的行为。

上述游戏角色的行为控制装置，获取目标游戏的当前状态数据；将当前状态数据输入至预先训练完成的机器学习模型中，得到第一输出结果；其中，第一输出结果中包括：多个预设行为操作对应的概率；获取机器学习模型的指定数量的历史输出结果；其中，历史输出结果基于目标游戏的历史状态数据得到；将第一输出结果和历史输出结果输入至预先训练完成的条件随机场模型中，得到目标行为操作；其中，目标行为操作包含在多个预设行为操作中，目标行为操作用于控制目标游戏角色的行为。该方式中，将机器学习模型和条件随机场模型相结合，机器学习模型和条件随机场模型均能建立状态和行为操作之间的关系，条件随机场模型还能建立行为操作之间的时序关系，可以使游戏AI的智能化程度较高；同时模型结构简单且易收敛，具有较强的应用性。

上述当前状态数据包括：目标游戏角色的位置数据、生命值数据、物理攻击强度数据、法术攻击强度数据、物理防御力数据、法术防御力数据中的一种或多种。

上述装置还包括第一训练模块，用于：获取第一训练数据；其中，第一训练数据包括：目标游戏中指定游戏角色的多个游戏帧中的状态数据，以及状态数据对应的指定游戏角色的行为操作；将第一训练数据中的状态数据输入至机器学习模型的初始模型中，得到第二输出结果；将第一训练数据中的行为操作作为标签信息，基于第二输出结果和标签信息对初始模型的模型参数进行训练，直至初始模型收敛，得到训练完成的机器学习模型。

上述第二输入模块，还用于：将第一输出结果输入至预设的数据队列中；其中，数据队列具有指定长度，数据队列中保存有至少一个历史输出结果，数据队列中的数据按照输入先后顺序排列，如果输入至数据队列中的数据超出指定长度，最先输入至数据队列中的数据被删除；如果数据队列中的数据达到指定长度，将数据队列中的数据输入至预先训练完成的条件随机场模型中，输出目标行为操作。

上述第二输入模块，还用于：如果数据队列中的数据达到指定长度，将数据队列中的数据输入至预先训练完成的条件随机场模型中，输出数据队列中每个历史输出结果对应的行为操作标签，以及第一输出结果对应的行为操作标签；将第一输出结果对应的行为操作标签指示的行为操作，确定为目标行为操作。

上述装置还包括：操作确定模块，用于如果数据队列中的数据没有达到指定长度，将第一输出结果中最大概率值对应的行为操作，确定为目标行为操作。

上述装置还包括第二训练模块，用于：获取第二训练数据；其中，第二训练数据包括：目标游戏中指定游戏角色的多个游戏帧中的状态数据，以及状态数据对应的指定游戏角色的行为操作；将第二训练数据中的状态数据输入至预先训练完成的机器学习模型中，得到第三输出结果；基于第三输出结果，生成多个序列样本；其中，序列样本由预设数量的第三输出结果组成；将第二训练数据中的行为操作作为状态信息，将序列样本作为观测序列，基于状态信息和观测序列对条件随机场模型的模型参数进行训练，直至条件随机场模型收敛，得到训练完成的条件随机场模型。

上述第二训练模块，还用于：从第三输出结果中确定至少一个目标结果；将目标结果，以及目标结果之前的预设数量的前序结果确定为一个序列样本；其中，预设数量的前序结果和目标结果按照状态数据的先后顺序排列；预设数量的前序结果与目标结果相邻；不同的序列样本对应的目标结果不同。

本实施例还提供一种电子设备，包括处理器和存储器，存储器存储有能够被处理器执行的机器可执行指令，处理器执行机器可执行指令以实现上述游戏角色的行为控制方法。该电子设备可以是服务器，也可以是终端设备。

参见图5所示，该电子设备包括处理器100和存储器101，该存储器101存储有能够被处理器100执行的机器可执行指令，该处理器100执行机器可执行指令以实现上述游戏角色的行为控制方法。

进一步地，图5所示的电子设备还包括总线102和通信接口103，处理器100、通信接口103和存储器101通过总线102连接。

其中，存储器101可能包含高速随机存取存储器(RAM，Random Access Memory)，也可能还包括非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。通过至少一个通信接口103(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接，可以使用互联网，广域网，本地网，城域网等。总线102可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图5中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。

处理器100可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器100中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器100可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(DigitalSignal Processor，简称DSP)、专用集成电路(Application Specific IntegratedCircuit，简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器101，处理器100读取存储器101中的信息，结合其硬件完成前述实施例的方法的步骤。

上述电子设备中的处理器，通过执行机器可执行指令，可以实现上述游戏角色的行为控制方法中的下述操作：

获取目标游戏的当前状态数据；将当前状态数据输入至预先训练完成的机器学习模型中，得到第一输出结果；其中，第一输出结果中包括：多个预设行为操作对应的概率；获取机器学习模型的指定数量的历史输出结果；其中，历史输出结果基于目标游戏的历史状态数据得到；将第一输出结果和历史输出结果输入至预先训练完成的条件随机场模型中，得到目标行为操作；其中，目标行为操作包含在多个预设行为操作中，目标行为操作用于控制目标游戏角色的行为。

当前状态数据包括：目标游戏角色的位置数据、生命值数据、物理攻击强度数据、法术攻击强度数据、物理防御力数据、法术防御力数据中的一种或多种。

机器学习模型通过下述方式训练得到：获取第一训练数据；其中，第一训练数据包括：目标游戏中指定游戏角色的多个游戏帧中的状态数据，以及状态数据对应的指定游戏角色的行为操作；将第一训练数据中的状态数据输入至机器学习模型的初始模型中，得到第二输出结果；将第一训练数据中的行为操作作为标签信息，基于第二输出结果和标签信息对初始模型的模型参数进行训练，直至初始模型收敛，得到训练完成的机器学习模型。

将第一输出结果输入至预设的数据队列中；其中，数据队列具有指定长度，数据队列中保存有至少一个历史输出结果，数据队列中的数据按照输入先后顺序排列，如果输入至数据队列中的数据超出指定长度，最先输入至数据队列中的数据被删除；如果数据队列中的数据达到指定长度，将数据队列中的数据输入至预先训练完成的条件随机场模型中，输出目标行为操作。

如果数据队列中的数据没有达到指定长度，将第一输出结果中最大概率值对应的行为操作，确定为目标行为操作。

条件随机场模型通过下述方式训练得到：获取第二训练数据；其中，第二训练数据包括：目标游戏中指定游戏角色的多个游戏帧中的状态数据，以及状态数据对应的指定游戏角色的行为操作；将第二训练数据中的状态数据输入至预先训练完成的机器学习模型中，得到第三输出结果；基于第三输出结果，生成多个序列样本；其中，序列样本由预设数量的第三输出结果组成；将第二训练数据中的行为操作作为状态信息，将序列样本作为观测序列，基于状态信息和观测序列对条件随机场模型的模型参数进行训练，直至条件随机场模型收敛，得到训练完成的条件随机场模型。

第二训练数据中的状态数据按照游戏帧的先后顺序进行排列，状态数据对应的第三输出结果按照状态数据的先后顺序排列；从第三输出结果中确定至少一个目标结果；将目标结果，以及目标结果之前的预设数量的前序结果确定为一个序列样本；其中，预设数量的前序结果和目标结果按照状态数据的先后顺序排列；预设数量的前序结果与目标结果相邻；不同的序列样本对应的目标结果不同。

上述方式中，将机器学习模型和条件随机场模型相结合，机器学习模型和条件随机场模型均能建立状态和行为操作之间的关系，条件随机场模型还能建立行为操作之间的时序关系，可以使游戏AI的智能化程度较高；同时模型结构简单且易收敛，具有较强的应用性。

本实施例还提供一种机器可读存储介质，机器可读存储介质存储有机器可执行指令，机器可执行指令在被处理器调用和执行时，机器可执行指令促使处理器实现上述游戏角色的行为控制方法。

上述机器可读存储介质存储中的机器可执行指令，通过执行该机器可执行指令，可以实现上述游戏角色的行为控制方法中的下述操作：

本发明实施例所提供的游戏角色的行为控制方法、装置和电子设备的计算机程序产品，包括存储了程序代码的机器可读存储介质，所述程序代码包括的指令可用于执行前面方法实施例中所述的方法，具体实现可参见方法实施例，在此不再赘述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统和装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

另外，在本发明实施例的描述中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个机器可读存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

最后应说明的是：以上实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种游戏角色的行为控制方法，其特征在于，所述方法包括：

获取目标游戏的当前状态数据；

将所述当前状态数据输入至预先训练完成的机器学习模型中，得到第一输出结果；其中，所述第一输出结果中包括：多个预设行为操作对应的概率；

获取所述机器学习模型的指定数量的历史输出结果；其中，所述历史输出结果基于所述目标游戏的历史状态数据得到；

将所述第一输出结果和所述历史输出结果输入至预先训练完成的条件随机场模型中，得到目标行为操作；其中，所述目标行为操作包含在所述多个预设行为操作中，所述目标行为操作用于控制目标游戏角色的行为。

2.根据权利要求1所述的方法，其特征在于，所述当前状态数据包括：所述目标游戏角色的位置数据、生命值数据、物理攻击强度数据、法术攻击强度数据、物理防御力数据、法术防御力数据中的一种或多种。

3.根据权利要求1所述的方法，其特征在于，所述机器学习模型通过下述方式训练得到：

获取第一训练数据；其中，所述第一训练数据包括：所述目标游戏中指定游戏角色的多个游戏帧中的状态数据，以及所述状态数据对应的所述指定游戏角色的行为操作；

将所述第一训练数据中的状态数据输入至所述机器学习模型的初始模型中，得到第二输出结果；

将所述第一训练数据中的行为操作作为标签信息，基于所述第二输出结果和所述标签信息对所述初始模型的模型参数进行训练，直至所述初始模型收敛，得到训练完成的所述机器学习模型。

4.根据权利要求1所述的方法，其特征在于，将所述第一输出结果和所述历史输出结果输入至预先训练完成的条件随机场模型中，得到目标行为操作的步骤，包括：

将所述第一输出结果输入至预设的数据队列中；其中，所述数据队列具有指定长度，所述数据队列中保存有至少一个历史输出结果，所述数据队列中的数据按照输入先后顺序排列，如果输入至所述数据队列中的数据超出所述指定长度，最先输入至所述数据队列中的数据被删除；

如果所述数据队列中的数据达到所述指定长度，将所述数据队列中的数据输入至预先训练完成的条件随机场模型中，输出目标行为操作。

5.根据权利要求4所述的方法，其特征在于，如果所述数据队列中的数据达到所述指定长度，将所述数据队列中的数据输入至预先训练完成的条件随机场模型中，输出目标行为操作的步骤，包括：

如果所述数据队列中的数据达到所述指定长度，将所述数据队列中的数据输入至预先训练完成的条件随机场模型中，输出所述数据队列中每个历史输出结果对应的行为操作标签，以及所述第一输出结果对应的行为操作标签；

将所述第一输出结果对应的行为操作标签指示的行为操作，确定为目标行为操作。

6.根据权利要求4所述的方法，其特征在于，所述方法还包括：

如果所述数据队列中的数据没有达到所述指定长度，将所述第一输出结果中最大概率值对应的行为操作，确定为目标行为操作。

7.根据权利要求1所述的方法，其特征在于，所述条件随机场模型通过下述方式训练得到：

获取第二训练数据；其中，所述第二训练数据包括：所述目标游戏中指定游戏角色的多个游戏帧中的状态数据，以及所述状态数据对应的所述指定游戏角色的行为操作；

将所述第二训练数据中的状态数据输入至预先训练完成的所述机器学习模型中，得到第三输出结果；

基于所述第三输出结果，生成多个序列样本；其中，所述序列样本由预设数量的所述第三输出结果组成；

将所述第二训练数据中的行为操作作为状态信息，将所述序列样本作为观测序列，基于所述状态信息和所述观测序列对所述条件随机场模型的模型参数进行训练，直至所述条件随机场模型收敛，得到训练完成的所述条件随机场模型。

8.根据权利要求7所述的方法，其特征在于，所述第二训练数据中的状态数据按照所述游戏帧的先后顺序进行排列，所述状态数据对应的所述第三输出结果按照所述状态数据的先后顺序排列；所述基于所述第三输出结果，生成多个序列样本的步骤，包括：

从所述第三输出结果中确定至少一个目标结果；

将所述目标结果，以及所述目标结果之前的预设数量的前序结果确定为一个序列样本；其中，所述预设数量的前序结果和所述目标结果按照所述状态数据的先后顺序排列；所述预设数量的前序结果与所述目标结果相邻；不同的序列样本对应的目标结果不同。

9.一种游戏角色的行为控制装置，其特征在于，所述装置包括：

数据获取模块，用于获取目标游戏的当前状态数据；

第一输入模块，用于将所述当前状态数据输入至预先训练完成的机器学习模型中，得到第一输出结果；其中，所述第一输出结果中包括：多个预设行为操作对应的概率；

结果获取模块，用于获取所述机器学习模型的指定数量的历史输出结果；其中，所述历史输出结果基于所述目标游戏的历史状态数据得到；

第二输入模块，用于将所述第一输出结果和所述历史输出结果输入至预先训练完成的条件随机场模型中，得到目标行为操作；其中，所述目标行为操作包含在所述多个预设行为操作中，所述目标行为操作用于控制目标游戏角色的行为。

10.一种电子设备，其特征在于，包括处理器和存储器，所述存储器存储有能够被所述处理器执行的机器可执行指令，所述处理器执行所述机器可执行指令以实现权利要求1-8任一项所述的游戏角色的行为控制方法。

11.一种机器可读存储介质，其特征在于，所述机器可读存储介质存储有机器可执行指令，所述机器可执行指令在被处理器调用和执行时，所述机器可执行指令促使所述处理器实现权利要求1-8任一项所述的游戏角色的行为控制方法。