CN110354501A

CN110354501A - 行为预测方法、装置及电子设备

Info

Publication number: CN110354501A
Application number: CN201910616935.5A
Authority: CN
Inventors: 范俊杰
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-07-09
Filing date: 2019-07-09
Publication date: 2019-10-22
Anticipated expiration: 2039-07-09
Also published as: CN110354501B

Abstract

本公开实施例提供一种行为预测方法、装置及电子设备，该方法包括：获取当前游戏特征信息；根据当前目标确定当前引导信息；通过神经网络模型对所述当前游戏特征信息和所述当前引导信息进行处理，获得所述目标对象的下一行为预测信息。本公开实施例提供的行为预测方法、装置及电子设备，将当前引导信息作为神经网络模型的行为预测方向，以使行为预测结果向当前目标靠近，能够实现在同一神经网络模型根据引导信息有目的地实现多种目标的行为预测。

Description

行为预测方法、装置及电子设备

技术领域

本公开涉及人工智能领域，尤其涉及一种行为预测方法、装置及电子设备。

背景技术

在游戏类的人工智能应用中，可通过训练神经网络模型对游戏局面进行分析，以游戏胜出为目的，输出下一行为的预测结果。在部分游戏例如棋牌类游戏中，游戏胜出的结果具有多种形式，例如象棋的“将军”结果具有多种棋面。

目前，在对具有多种形式的胜出结果的游戏进行预测时，为实现不同形式的胜出结果的行为预测，通常采用将训练数据按照其胜出的目的形式进行分类，并针对每一种胜出形式训练获得一个相应模型。

当目标分类较大时，上述方案将难以实现。例如象棋、围棋等胜出形式多且局面多变。若针对每一种胜出形式训练一个模型，其训练数据的筛选、模型的训练、模型的管理以及在线预测时模型的切换都较难实现。

因此，需要一种新的行为预测方法、装置及电子设备。

在所述背景技术部分公开的上述信息仅用于加强对本公开的背景的理解，因此它可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

有鉴于此，本公开实施例提供一种行为预测方法、装置及电子设备，进而至少在一定程度上克服相关技术中存在的对训练数据进行筛选、多个模型的训练、管理以及在线运行时模型的切换等难题。

本公开的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本公开的实践而习得。

根据本公开实施例的第一方面，提出一种行为预测方法，该方法包括：获取当前游戏特征信息；根据当前目标确定当前引导信息；通过神经网络模型对所述当前游戏特征信息和所述当前引导信息进行处理，获得所述目标对象的下一行为预测信息。

根据本公开实施例的第二方面，提出一种行为预测装置，该装置包括：信息获取模块，用于获取目标对象的当前游戏特征信息；引导信息确定模块，用于根据当前目标确定当前引导信息；模型预测模块，用于通过神经网络模型对所述当前游戏特征信息和所述当前引导信息进行处理，获得所述目标对象的下一行为预测信息。

根据本公开实施例的第三方面，提出一种电子设备，该电子设备包括：一个或多个处理器；存储装置，用于存储一个或多个程序；当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现上述任一项所述的行为预测方法。

根据本公开实施例的第四方面，提出一种计算机可读介质，其上存储有计算机程序，所述程序被处理器执行时实现如上述任一项所述的行为预测方法。

根据本公开某些实施例提供的行为预测方法、装置、电子设备及计算机可读介质，将当前引导信息作为神经网络模型的行为预测方向，以使行为预测结果向当前目标靠近，能够实现在同一神经网络模型根据引导信息有目的地实现多种目标的行为预测；同时，通过引导信息的引入可实现神经网络模型对不同目标的行为预测，能够替代多个具有单一预测目的的神经网络模型，以避免多个不同目标的神经网络模型的训练、管理、切换等操作难题。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。下面描述的附图仅仅是本公开的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了可以应用本公开实施例的行为预测方法或装置的示例性系统架构100的示意图。

图2示意性示出了根据本公开的一个实施例的行为预测方法的流程图。

图3示意性示出了根据本公开的一个实施例的行为预测方法的流程图。

图4是基于图3的步骤S320在一个示例性实施例中的流程图。

图5是基于图3的步骤S320在一个示例性实施例中的流程图。

图6是基于图5的步骤S326在一个示例性实施例中的流程图。

图7、图8、图9示意性示出了根据本公开的一个实施例的麻将游戏中当前游戏特征信息的示意图。

图10示意性示出了根据本公开的一个实施例的当前引导信息的示意图。

图11、12示意性示出了根据本公开一个实施例的神经网络模型结构的示意图。

图13示意性示出了根据本公开一个实施例的神经网络模型结构的示意图。

图14示意性示出了根据本公开的另一个实施例的行为预测方法的流程图。

图15、16、17示意性示出了根据本公开的另一个实施例的神经网络模型的测试过程的示意图。

图18是根据一示例性实施例示出的一种行为预测装置的框图。

图19示出了适于用来实现本公开实施例的电子设备的计算机系统的结构示意图。

具体实施方式

现在将参考附图更全面地描述示例实施例。然而，示例实施例能够以多种形式实施，且不应被理解为限于在此阐述的实施例；相反，提供这些实施例使得本发明将全面和完整，并将示例实施例的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。

所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中，提供许多具体细节从而给出对本发明的实施方式的充分理解。然而，本领域技术人员将意识到，可以实践本发明的技术方案而省略特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本发明的各方面。

附图仅为本发明的示意性图解，图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。附图中所示的一些方框图不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和步骤，也不是必须按所描述的顺序执行。例如，有的步骤还可以分解，而有的步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

下面结合附图对本发明示例实施方式进行详细说明。

如图1所示，系统架构100可以包括终端设备101、102、103中的一种或多种，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。比如服务器105可以是多个服务器组成的服务器集群等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103可以是具有显示屏的各种电子设备，包括但不限于智能手机、平板电脑、便携式计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器。例如用户利用终端设备103(也可以是终端设备101或102)向服务器105上传当前游戏特征信息与当前目标。服务器105可以根据当前目标确定当前引导信息；通过神经网络模型对所述当前游戏特征信息和所述当前引导信息进行处理，获得所述目标对象的下一行为预测信息。并将下一行为预测信息反馈给终端设备103，进而终端设备103可以根据下一行为预测信息向用户提示下一行为的引导操作。

图2示意性示出了根据本公开的一个实施例的行为预测方法的流程图。本公开实施例提供的行为预测方法可以由任意具备计算处理能力的电子设备执行，例如终端设备101、102、103和/或服务器105，在下面的实施例中，以服务器执行所述方法为例进行举例说明，但本公开并不限定于此。本公开实施例提供的行为预测方法20可以包括步骤S210至S230。

如图2所示，本公开实施例提供的行为预测方法可以包括以下步骤。

在步骤S210中，获取当前游戏特征信息。

本公开实施例中，终端设备可根据目标对象(例如当前终端设备的操作用户)在游戏进程中的历史操作生成当前游戏特征信息，例如目标对象在游戏进程时，根据当前游戏局面的历史游戏日志生成当前游戏特征。

在一个实施例中，所述当前游戏特征信息包括参与当前游戏的目标对象和竞争对象的历史行为信息。其中，竞争对象可为一个或多个，本公开对此并不作特殊限定，例如象棋为一对一的游戏，其竞争对象为一个；又例如跳棋为多玩家的游戏，其竞争对象可为多个。

本公开实施例中，所述历史行为信息可包括游戏进程中每一回合的操作动作，还可包括游戏进程中当前回合的剩余可操作对象，例如剩余棋子的具体形式，例如象棋棋子的摆放顺序，又例如牌类游戏的手牌等，本公开对此并不作特殊限定。

本公开实施例中，所述当前游戏特征信息中的历史行为信息可通过二值化操作以生成通道矩阵，通道矩阵是可作为神经网络模型输入数据的一般格式之一。在神经网络领域，一个通道可以表示一个特征。图7、图8、图9示意性示出了根据本公开的一个实施例的麻将游戏中当前游戏特征信息的示意图。图7示出的为目标对象的手牌信息：一万、一万、三万、四万、四万、七万、八万、九万、四条、五条、五条、八条、气筒。麻将的手牌信息可通过4*9的通道矩阵表示，其中“9”代表麻将的牌面，“4”代表当前牌面的张数。通道矩阵中的值可取0或1。例如，目标对象的手牌中，“一万”手牌数的取值范围在0到4之间，可用4个通道表示手牌信息，当“一万”手牌数为3时，第一至第三个通道取值为1，第四通道取值为0；又例如，玩家的等值取值范围在1到4之间，用4个通道共同表示等级信息，当等级为3时，第三个通道全是1，其他通道全是0。如图8所述，分别展示了万、条、筒的手牌信息的通道矩阵，其中，每一列中数字“1”的个数即代表相对应手牌的个数。

上述实施例中举例说明了当前游戏特征信息中手牌信息的二值化过程，对其他类型的游戏特征信息例如游戏进程中每一回合的操作动作等都可按照上述二值化过程转换为通道矩阵，在此不再赘述。当前游戏特征信息经过二值化操作后其形式如图9所示。

在步骤S220中，根据当前目标确定当前引导信息。

其中，引导信息描述了当前游戏的目标胜出形式，当前游戏的目标即为当前目标。例如，象棋游戏中当前目标为：以“重重炮”的将军形式胜出。引导信息可为多维向量，向量中每一位表示一种胜出形式。例如，一个游戏有88中胜出形式，引导向量可设置为88维向量，向量中每一位置对应一种胜出形式。例如，将88种胜出形式分别编号为0至87，当当前目标的目标胜出形式为编号5时，则将引导向量的对应位置设置为1，其他位设置为0。图10示意性示出了根据本公开的一个实施例的当前引导信息的示意图。

在步骤S230中，通过神经网络模型对所述当前游戏特征信息和所述当前引导信息进行处理，获得所述目标对象的下一行为预测信息。

本公开实施例中，神经网络模型是由大量的、简单的处理单元(称为神经元)广泛地互相连接而形成的复杂网络系统，其具有大规模并行、分布式存储和处理、自组织、自适应和自学能力等特点，适合处理需要同时考虑许多因素和条件的、不精确和模糊的信息处理问题。本步骤中的神经网络模型是具备行为预测能力的模型，通过将当前游戏特征信息作为输入数据，以获得向当前引导信息所代表的当前目标趋近的下一行为预测信息。例如，可事先搭建神经网络模型，并利用训练集对其进行训练，获得具有行为预测能力的神经网络模型。神经网络模型具有多种形式，例如误差反向传播网络、径向基函数网络、联想记忆网络、卷积神经网络等，本公开对此并不作特殊限定。

根据本公开实施例提供的行为预测方法，将当前引导信息作为神经网络模型的行为预测方向，以使行为预测结果向当前目标靠近，能够实现在同一神经网络模型根据引导信息有目的地实现多种目标的行为预测；同时，通过引导信息的引入可实现神经网络模型对不同目标的行为预测，能够替代多个具有单一预测目的的神经网络模型，避免多个不同目标的神经网络模型的训练、管理、切换等操作难题。

如图3所示，基于上述实施例的行为预测方法还可以包括以下步骤。

在步骤S310中，获得训练数据集，所述训练数据集包括历史游戏特征信息、历史引导信息以及其标注的行为信息。

本公开实施例中，训练数据集可从历史游戏日志中获取。其中，可通过客户端手机游戏日志。

在示例性实施例中，可将每局游戏的游戏日志转换成多行日志，其中每一行日志代表一个游戏动作。

在示例性实施例中，可将每局游戏中胜出的玩家作为目标对象，并删除该局游戏中没有胜出的玩家所对应的游戏动作，以生成该目标对象的多行日志；并按照上述方式收集整理多局游戏的游戏日志，最终整合为训练数据集。

历史引导信息可根据当前游戏动作所在的历史游戏对局中的对局结果确定。例如，历史游戏对局中目标对象以第一种胜出类型胜出，则由此生成历史引导信息。标注的行为信息为当前局面的游戏动作，即该行日志代表的游戏动作。

在步骤S320中，利用所述训练数据集训练所述神经网络模型。

其中，可通过有导师训练方式对所述神经网络模型进行训练。例如，在一行日志中代表的一个游戏动作中，可该游戏动作作为训练结果的期望输出，在训练集中，该游戏动作所在的当局游戏中，该游戏动作执行之前的历史游戏日志作为该游戏动作(即期望输出)对应的输入信息，以利用该训练数据集训练所述神经网络模型。

在一个实施例中，可根据该胜出玩家最终的胜出形式确定引导信息，并将引导信息录入训练数据集，以联合引导信息训练所述神经网络模型。其中，前述已介绍引导信息的生成方式，此处不再赘述，引导信息的形式如图10所示。

图4是基于图3的步骤S320在一个示例性实施例中的流程图。

如图4所示，上述图3实施例中的步骤S320可以进一步包括以下步骤。其中，本实施例中的神经网络模型以卷积神经网络模型为例，但本公开并不限于此。

在步骤S321中，将所述历史游戏特征信息输入所述神经网络模型的卷积结构，获得卷积向量。其中，卷积神经网络是一类包含卷积计算且具有深度结构的前馈神经网络，该类神经网络的结构包括：输入层、卷积层与全连接层。

在一个实施例中，所示卷积结构可以包括依次连接的五个卷积单元，每个卷积单元包括依次连接的卷积层、归一化层和激活层。图11、12示意性示出了根据本公开一个实施例的神经网络模型结构的示意图。其中，卷积层的功能是对输入数据进行特征提取，其内部包含多个卷积核。卷积核的大小决定了神经网络的感受野，其数量决定了该层卷积的输出通道的多少。

卷积层的输出经过分批归一化(Batch Normalization，BN)进行数据的标准化处理。数据的标准化是神经网络输入管道中预处理的重要步骤，而在深度网络中，随着特征在隐含层内的逐级传递，其均值和标准差会随之改变，从而引起梯度消失问题，导致模型难以训练，归一化处理在很大程度上解决了该类问题。

在每个卷积单元中，常会包含一个非线性层(或激活层)。其目的是给一个在卷积层中刚经过线性计算操作的系统引入非线性特征。过去常用的是像双曲正切和S型函数这样的非线性方程，但实验证明修正线性单元(Rectified Linear Unit，ReLU)效果更好，由于计算效率的提升(ReLU的计算消耗更小)，神经网络模型能够在准确度不发生明显改变的情况下把训练速度提高很多。

在步骤S322中，将所述卷积向量与所述历史引导信息级联，获得级联向量。

本公开实施例中，历史引导信息可不通过卷积结构进行计算，直接与卷积结构输出的卷积向量级联，获得的级联向量作为下一层的输入向量。

在步骤S323中，将所述级联向量分别输入至所述神经网络模型的第一分类器和第二分类器，分别获得下一行为预测向量和目标预测向量。

其中，图13示意性示出了根据本公开一个实施例的神经网络模型结构的示意图。如图13所示，神经网络模型包括由五个卷积单元组成的卷积结构与两个全连接层。全连接层等价于传统前馈神经网络中的隐含层。全连接层通常搭建在卷积神经网络隐含层的最后部分，并只向其它全连接层传递信号。特征图在全连接层中会失去3维结构，被展开为向量并通过激励函数传递至下一层。全连接层可基于卷积结构的输出数据进行分类，全连接层输出一个多维向量，其维度是目标分类数量。例如在麻将游戏的行为动作作为分类问题，那么对于一个玩家可有39种行为可以选择，包括，万、条、筒各9种，字牌7种，共34种，同时碰、扛、吃、过、胡共5种。那么可将输出向量的维度设置为39，这个39维向量中的每一位代表其对应行为的概率。图13中包括的两个全连接层分别作为第一分类器与第二分类器，其中第一分类器输出的为下一行为预测向量，第二分类器输出的为目标预测向量。下一行为预测向量可为N维向量，其中N为大于等于1的整数。下一行为预测向量中每一位分别代表下一行为的一种可选选项。例如，麻将游戏中的下一行为是可以出牌的每一手牌或碰、吃、杠、胡等。下一行为预测向量中每一位的值表示其对应行为的概率值。训练过程中，下一行为预测向量的期望值可根据标注的行为信息确定。目标预测向量的维度可与引导信息相同，其中引导信息向量的示意图见图10所示。目标预测向量中每一位对应一种胜出类型，每一位的值为当前局面以对应胜出类型胜出的概率值。训练过程中，目标预测向量的期望值可根据历史引导信息确定。

图5是基于图3的步骤S320在一个示例性实施例中的流程图。

如图5所示，上述图3实施例中的步骤S320还可以进一步包括以下步骤。

在步骤S324中，根据所述下一行为预测向量和标注的行为信息计算行为损失函数。

本公开实施例中，损失函数是用来表示预测值与期望值的差距。在训练神经网络模型时，通过不断改变神经网络模型中的所有参数，以使损失函数不断减小，从而训练出准确率更高的神经网络模型。常用的损失函数有均方误差、自定义和交叉熵等，本公开对此并不作特殊限定。例如，均方误差的计算方式如下：n(n为大于等于1的正整数)个样本的预测值与期望值之差的平方和，再求平均值。

本公开实施例中，可将下一行为预测向量作为预测值，标注的行为信息作为期望值以计算行为损失函数。

在步骤S325中，根据所述目标预测向量和所述历史引导信息计算目标损失函数。

本公开实施例中，可将目标预测向量作为预测值，历史引导信息作为期望值计算目标损失函数。目标损失函数可以表征输出结果与历史引导信息的偏差，以便训练过程以历史引导信息为导向使训练结果向设定的目标靠近。

在步骤S326中，联合所述行为损失函数和所述目标损失函数训练所述神经网络模型。

相关技术中，损失函数的计算仅依据行为预测的结果进行计算，即行为损失函数。本公开实施例中，将行为损失函数与目标损失函数联合计算获得神经网络模型的损失函数，能够使训练结果有明显地向设定目标靠近的趋势；同时，综合行为损失函数和所述目标损失函数计算的方式能够提高神经网络模型的准确率。

图6是基于图5的步骤S326在一个示例性实施例中的流程图。

如图6所示，上述图5实施例中的步骤S326还可以进一步包括以下步骤。

在步骤S3261中，将所述行为损失函数和所述目标损失函数进行加权求和，获得所述神经网络模型的模型损失函数。

在一个实施例中，可以以所述行为损失函数的权重为1，所述目标损失函数的权重为0.5进行加权求和，获得所述神经网络模型的模型损失函数。模型损失函数的计算公式为：模型损失函数＝行为损失函数+0.5*目标损失函数。但此处权重的具体数值仅为示例，其权重值可通过具体应用场景中的实验以获得最优权重取值，本公开对此并不作特殊限定。

在步骤S3262中，根据所述模型损失函数训练所述神经网络模型。

本公开实施方式提供的行为预测方法，通过历史引导信息作为训练目标，以训练神经网络模型以使训练后的神经网络模型具有目标趋向的功能，进而能够实现在同一神经网络模型根据引导信息有目的地实现多种目标的行为预测，同时能将多个不同目标的神经网络模型压缩为一个，避免多个不同目标的神经网络模型的训练、管理、切换等操作难题；此外，本公开实施方式提供的行为预测方法，通过第一分类器的行为损失函数和第二分类器的目标损失函数联合训练神经网络模型，能够有方向地修正神经网络模型的参数，以提高神经网络模型的预测结果的准确率。

图14示意性示出了根据本公开的另一个实施例的行为预测方法的流程图。本公开实施例的行为预测方法以麻将游戏为应用场景，描述了神经网络模型的训练过程。其中，本公开实施例采用的神经网络模型为卷积神经网络，但本领域技术人员应该理解，此处仅为示例，还可采用其他类型的神经网络模型完成该训练过程。

如图14所示，本公开实施例的行为预测方法可以包括以下步骤。

在步骤S1410中，获取历史游戏日志，并将每局游戏的游戏日志转换为一行代表一个游戏动作的形式。

在步骤S1420中，筛选数据，将每局游戏中输家对应的游戏动作删除。

在步骤S1430中，对历史游戏日志进行二值化处理，获得训练数据的输入矩阵与期望输出向量。其中，历史游戏日志包括玩家(胜出玩家)的手牌信息、出牌序列以及竞争对象的出牌序列。

在步骤S1440中，根据每局玩家的胜出类型确定历史引导信息。

在步骤S1450中，根据输入矩阵、期望输出向量和历史引导信息训练神经网络模型，以获得训练完成的神经网络模型。

本公开实施例中，图15、16、17示意性示出了根据本公开的另一个实施例的神经网络模型的测试过程的示意图。在本公开实施例的测试过程中，设置当前目标为清一色，并以“东风”玩家为目标对象，其竞争对象为“西风”玩家。

图15示出了麻将游戏的开局页面，如图15所示，东风的起始手牌为“四万、六万、六万、七万、二条、二筒、二筒、三筒、四筒、六筒、六筒、六筒、七筒、八筒”。

图16示出了麻将游戏的中间过程页面，如图16所示，本手“东风”玩家摸到了一筒，手牌为“六万、六万、一筒、二筒、二筒、三筒、三筒、四筒、六筒、六筒、七筒”，图16右侧展示了模型的行为预测结果，其中将“六万”打出的的概率为96.45％，远高于将“七筒”打出的概率：2.16％，而将“六万”打出需要拆出“对子”的手牌，因此说明该神经网络模型有目的性的要打出所有的万，而胡清一色的筒子手牌。

图17示出了麻将游戏的结束局面，如图17所示，“东风”玩家的手牌已胡牌(即胜出)，且其胜出形式即为设置的目标：清一色。

根据本公开实施例提供的行为预测方法，以麻将游戏为应用场景，其训练获得的神经网络模型表现出了为了胡特定的番形而拆现有对子或刻子的特征。同时本技术方案明显提升了模型的准确率，训练集上的准确率由0.77提升至0.85，测试集上的准确率由0.763提升至0.824。但本领域技术人员应该理解，本公开技术方案还可应用于其他的机器学习项目，此处仅为示例。

应清楚地理解，本公开描述了如何形成和使用特定示例，但本公开的原理不限于这些示例的任何细节。相反，基于本公开公开的内容的教导，这些原理能够应用于许多其它实施例。

本领域技术人员可以理解实现上述实施例的全部或部分步骤被实现为由中央处理器(Central Processing Unit，CPU)执行的计算机程序。在该计算机程序被中央处理器CPU执行时，执行本公开提供的上述方法所限定的上述功能。所述的程序可以存储于一种计算机可读存储介质中，该存储介质可以是只读存储器，磁盘或光盘等。

此外，需要注意的是，上述附图仅是根据本公开示例性实施例的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。

下述为本公开装置实施例，可以用于执行本公开方法实施例。对于本公开装置实施例中未披露的细节，请参照本公开方法实施例。

图18是根据一示例性实施例示出的一种行为预测装置的框图。参照图18，本公开实施例提供的行为预测装置1800可以包括：信息获取模块1810、引导信息确定模块1820以及模型预测模块1830。

在行为预测装置1800中，信息获取模块1810可用于获取目标对象的当前游戏特征信息。

引导信息确定模块1820可用于根据当前目标确定当前引导信息。

模型预测模块1830可用于通过神经网络模型对所述当前游戏特征信息和所述当前引导信息进行处理，获得所述目标对象的下一行为预测信息。

在示例性实施例中，行为预测装置1800还可包括训练数据集获取模块以及模型训练模块。其中，训练数据集获取模块可用于获得训练数据集，所述训练数据集历史游戏特征信息、历史引导信息以及其标注的行为信息。模型训练模块可用于利用所述训练数据集训练所述神经网络模型。

其中，所述当前游戏特征信息可以包括参与当前游戏的目标对象和竞争对象的历史行为信息。

在示例性实施例中，模型训练模块可包括卷积子模块、级联单元以及分类器单元。其中，卷积子模块可用于将所述历史游戏特征信息输入所述神经网络模型的卷积结构，获得卷积向量。级联单元可用于将所述卷积向量与所述历史引导信息级联，获得级联向量。分类器单元可用于将所述级联向量分别输入至所述神经网络模型的第一分类器和第二分类器，分别获得下一行为预测向量和目标预测向量。

其中，所述卷积结构可包括依次连接的五个卷积单元，每个卷积单元包括依次连接的卷积层、归一化层和激活层。

在示例性实施例中，模型训练模块还可包括行为损失函数计算单元，目标损失函数计算单元以及模型训练单元。其中，行为损失函数计算单元可用于根据所述下一行为预测向量和标注的行为信息计算行为损失函数。目标损失函数计算单元可用于根据所述目标预测向量和所述历史引导信息计算目标损失函数。模型训练单元可用于联合所述行为损失函数和所述目标损失函数训练所述神经网络模型。

在示例性实施例中，模型训练单元可包括模型损失函数计算单元以及模型训练子单元。其中，模型损失函数计算单元可用于将所述行为损失函数和所述目标损失函数进行加权求和，获得所述神经网络模型的模型损失函数。模型训练子单元可用于根据所述模型损失函数训练所述神经网络模型。

在示例性实施例中，模型损失函数计算单元可用于以所述行为损失函数的权重为1，所述目标损失函数的权重为0.5进行加权求和，获得所述神经网络模型的模型损失函数。

图19示出了适于用来实现本公开实施例的电子设备的计算机系统的结构示意图。需要说明的是，图19示出的电子设备的计算机系统1900仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图19所示，计算机系统1900包括中央处理单元(CPU)1901，其可以根据存储在只读存储器(ROM)1902中的程序或者从存储部分1908加载到随机访问存储器(RAM)1903中的程序而执行各种适当的动作和处理。在RAM 1903中，还存储有系统操作所需的各种程序和数据。CPU 1901、ROM 1902以及RAM 1903通过总线1904彼此相连。输入/输出(I/O)接口1905也连接至总线1904。

以下部件连接至I/O接口1905：包括键盘、鼠标等的输入部分1906；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分1907；包括硬盘等的存储部分1908；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分1909。通信部分1909经由诸如因特网的网络执行通信处理。驱动器1910也根据需要连接至I/O接口1905。可拆卸介质1911，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1910上，以便于从其上读出的计算机程序根据需要被安装入存储部分1908。

特别地，根据本公开的实施例，下文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分1909从网络上被下载和安装，和/或从可拆卸介质1911被安装。在该计算机程序被中央处理单元(CPU)1901执行时，执行本申请的系统中限定的各种功能。

需要说明的是，本公开所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的模块和/或单元和/或子单元可以通过软件的方式实现，也可以通过硬件的方式来实现，所描述的模块和/或单元和/或子单元也可以设置在处理器中。其中，这些模块和/或单元和/或子单元的名称在某种情况下并不构成对该模块和/或单元和/或子单元本身的限定。

作为另一方面，本申请还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该电子设备执行时，使得该电子设备实现如下述实施例中所述的方法。例如，所述的电子设备可以实现如图2或图3或图4或图5或图6或图14所示的各个步骤。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元或者子单元，但是这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块或者单元或者子单元的特征和功能可以在一个模块或者单元或者子单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元或者子单元来具体化。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本公开实施方式的方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种行为预测方法，其特征在于，包括：

获取当前游戏特征信息；

根据当前目标确定当前引导信息；

通过神经网络模型对所述当前游戏特征信息和所述当前引导信息进行处理，获得所述目标对象的下一行为预测信息。

2.如权利要求1所述的方法，其特征在于，还包括：

获得训练数据集，所述训练数据集包括历史游戏特征信息、历史引导信息以及其标注的行为信息；

利用所述训练数据集训练所述神经网络模型。

3.如权利要求2所述的方法，其特征在于，利用所述训练数据集训练所述神经网络模型，包括：

将所述历史游戏特征信息输入所述神经网络模型的卷积结构，获得卷积向量；

将所述卷积向量与所述历史引导信息级联，获得级联向量；

将所述级联向量分别输入至所述神经网络模型的第一分类器和第二分类器，分别获得下一行为预测向量和目标预测向量。

4.如权利要求3所述的方法，其特征在于，利用所述训练数据集训练所述神经网络模型，还包括：

根据所述下一行为预测向量和标注的行为信息计算行为损失函数；

根据所述目标预测向量和所述历史引导信息计算目标损失函数；

联合所述行为损失函数和所述目标损失函数训练所述神经网络模型。

5.如权利要求4所述的方法，其特征在于，联合所述行为损失函数和所述目标损失函数训练所述神经网络模型，包括：

将所述行为损失函数和所述目标损失函数进行加权求和，获得所述神经网络模型的模型损失函数；

根据所述模型损失函数训练所述神经网络模型。

6.如权利要求5所述的方法，其特征在于，根据所述行为损失函数和所述目标损失函数进行加权求和，获得所述神经网络模型的模型损失函数包括：

以所述行为损失函数的权重为1，所述目标损失函数的权重为0.5进行加权求和，获得所述神经网络模型的模型损失函数。

7.如权利要求3所述的方法，其特征在于，所述卷积结构包括依次连接的五个卷积单元，每个卷积单元包括依次连接的卷积层、归一化层和激活层。

8.如权利要求1所述的方法，其特征在于，所述当前游戏特征信息包括参与当前游戏的目标对象和竞争对象的历史行为信息。

9.一种行为预测装置，其特征在于，包括：

信息获取模块，用于获取目标对象的当前游戏特征信息；

引导信息确定模块，用于根据当前目标确定当前引导信息；

模型预测模块，用于通过神经网络模型对所述当前游戏特征信息和所述当前引导信息进行处理，获得所述目标对象的下一行为预测信息。

10.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-8中任一所述的方法。