CN109908591B

CN109908591B - 一种虚拟对象的决策方法、模型构建方法和装置

Info

Publication number: CN109908591B
Application number: CN201910210115.6A
Authority: CN
Inventors: 蔡康; 李鹏飞; 徐亮
Original assignee: Netease Hangzhou Network Co Ltd
Current assignee: Netease Hangzhou Network Co Ltd
Priority date: 2019-03-19
Filing date: 2019-03-19
Publication date: 2022-08-09
Anticipated expiration: 2039-03-19
Also published as: CN109908591A

Abstract

本发明实施例提供了一种虚拟对象的决策方法、模型构建方法和装置，其中，所述虚拟对象的决策方法包括：获取当前游戏数据；所述当前游戏数据包括第一阵营中虚拟对象和第二阵营虚拟对象；确定至少一个第二阵营虚拟对象为目标虚拟对象；生成与所述当前游戏数据对应的待预测模型特征；将所述待预测模型特征输入至预设的决策模型中；接收所述决策模型返回的目标转移数据；将所述目标虚拟对象移动至与所述目标转移数据对应的位置。本发明实施例可以实现控制目标虚拟对象模拟用户操作进行策略转移，提高游戏中虚拟对象的智能程度，提高用户在游戏过程中与虚拟对象的博弈体验。

Description

一种虚拟对象的决策方法、模型构建方法和装置

技术领域

本发明涉及游戏技术领域，特别是涉及一种虚拟对象的决策方法、一种虚拟对象的决策模型构建方法、一种虚拟对象的决策装置、一种虚拟对象的决策控制模型构建装置、电子设备和存储介质。

背景技术

许多电子游戏中，都会设置有NPC(Non-Player Character，非玩家角色)，并为NPC设置对应的AI(Non-Player Character，非玩家角色)，以提高用户的游戏体验。而NPC的行为逻辑则称为游戏AI。在一个游戏中，一般设置有不同的游戏AI控制对应的NPC与玩家进行交互。

在MOBA(Multiplayer Online Battle Arena，多人在线战术竞技游戏)中，游戏地图较为复杂，需要游戏AI需要具备一定的决策。

在现有技术在中，一般采用有限状态机，或者行为树，或者深度学习设计游戏AI，使得游戏AI具备一定的决策。但是，基于有限状态机或者行为树设计游戏AI，会存在表现效果差，以及开发、执行、维护效率低的问题；而如果基于强化学习设计游戏AI，则会存在样本难以获取，部分函数需要认为定义，以及训练不稳定的问题。

发明内容

鉴于上述问题，提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种虚拟对象的决策方法、一种虚拟对象的决策模型构建方法、一种虚拟对象的决策装置、一种虚拟对象的决策控制模型构建装置、电子设备和存储介质。

为了解决上述问题，本发明实施例公开了一种虚拟对象的决策方法，包括：

获取当前游戏数据；所述当前游戏数据包括第一阵营中虚拟对象和第二阵营虚拟对象；

确定至少一个第二阵营虚拟对象为目标虚拟对象；

生成与所述当前游戏数据对应的待预测模型特征；

将所述待预测模型特征输入至预设的决策模型中；

接收所述决策模型返回的目标转移数据；

将所述目标虚拟对象移动至与所述目标转移数据对应的位置。

优选地，所述当前游戏数据还包括游戏地图，所述游戏地图包括多个地理区域；所述决策模型包括多个与所述地理区域和预设时间区间对应的子模型；所述待预测模型特征包括目标位置，所述目标位置为所述目标虚拟对象当前所处的位置；

所述决策模型用于采用当前时间对应的时间区间和所述目标位置对应的地理区域确定目标子模型，并将所述待预测模型特征输入至所述目标子模型；所述目标子模型用于采用所述待预测模型特征生成所述目标转移数据。

优选地，所述决策模型通过如下方法生成：

获取历史游戏数据，以及初始模型；

采用所述历史游戏数据，生成模型特征；

采用所述历史游戏数据，提取特征标签；所述特征标签为转移目的地；

采用所述模型特征和所述特征标签训练所述初始模型；

采用已训练的初始模型，生成决策模型。

本发明实施例还公开了一种虚拟对象的决策模型构建方法，包括：

获取历史游戏数据，以及初始模型；

采用所述历史游戏数据，生成模型特征；

采用所述模型特征和所述特征标签训练所述初始模型；

采用已训练的初始模型，生成决策模型。

优选地，所述采用所述历史游戏数据，生成模型特征的步骤，包括：

确定所述历史游戏数据中的多个虚拟对象、游戏地图和游戏时间；

采用所述游戏时间，确定多个采样时间点；

确定虚拟对象的历史位置；所述历史位置为虚拟对象在所述采样时间点处于所述游戏地图的位置；

采用所述历史位置，生成与所述采样时间对应的模型特征；所述模型特征与虚拟对象的一种特征信息对应。

优选地，所述虚拟对象包括：第一阵营虚拟对象和第二阵营虚拟对象；

所述特征信息包括：虚拟对象的血量值、虚拟对象的虚拟货币值、虚拟对象的经验值、虚拟对象的数量值中的一种。

优选地，所述采用所述历史游戏数据，提取特征标签的步骤，包括：

将所述游戏地图划分为多个地理区域；

确定第一阵营虚拟对象中的目标虚拟对象；

确定目标虚拟对象在所述采样时间点所处的地理区域；

若目标虚拟对象在当前采样时间点以及前一个采样时点所处的地理区域一致，则确定目标虚拟对象在当前采样时间点所处的地理区域为与前一个采样时点对应的特征标签。

优选地，所述初始模型包括多个子模型；所述子模型与所述地理区域和预设的时间区间唯一对应；所述采用所述模型特征和所述特征标签训练所述初始模型的步骤，包括：

确定与当前模型特征对应的目标采样时间点和目标地理区域；

确定与所述目标采样时间点所处的目标时间区间；

确定与所述目标时间区间和目标地理区域对应的目标子模型；

将所述当前模型特征和与所述当前模型特征对应的特征标签输入至所述目标子模型。

优选地，所述初始模型的网络结构为全卷积层结构。

本发明实施例还公开了一种虚拟对象的决策装置，包括：

当前数据获取模块，用于获取当前游戏数据；所述当前游戏数据包括第一阵营中虚拟对象和第二阵营虚拟对象；

目标确定模块，用于确定至少一个第二阵营虚拟对象为目标虚拟对象；

待预测特征生成模块，用于生成与所述当前游戏数据对应的待预测模型特征；

特征输入模块，用于将所述待预测模型特征输入至预设的决策模型中；

数据接收模块，用于接收所述决策模型返回的目标转移数据；

移动模块，用于将所述目标虚拟对象移动至与所述目标转移数据对应的位置。

本发明实施例还公开了一种虚拟对象的决策模型构建装置，包括：

历史数据获取模块，用于获取历史游戏数据，以及初始模型；

模型特征生成模块，用于采用所述历史游戏数据，生成模型特征；

特征标签生成模块，用于采用所述历史游戏数据，提取特征标签；所述特征标签为转移目的地；

模型训练模块，用于采用所述模型特征和所述特征标签训练所述初始模型；

模型生成模块，用于采用已训练的初始模型，生成决策模型。

本发明实施例还公开了一种电子设备，包括处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如上所述的虚拟对象的决策方法的步骤，和/或如上所述的虚拟对象的决策模型构建方法的步骤。

本发明实施例还公开了一种计算机可读存储介质，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如上所述的虚拟对象的决策方法的步骤，和/或如上所述的虚拟对象的决策模型构建方法的步骤。

本发明实施例包括以下优点：

在获取包括有第一阵营中虚拟对象和第二阵营虚拟对象当前游戏数据后，确定至少一个第二阵营虚拟对象为目标虚拟对象并生成与所述当前游戏数据对应的待预测模型特征，将所述待预测模型特征输入至预设的决策模型中。在决策模型采用待预测模型特征生成目标转移数据之后，接收所述决策模型返回的目标转移数据，其中，目标转移数据为预测的目标虚拟对象的转移目的地。然后将所述目标虚拟对象移动至与所述目标转移数据对应的位置。而决策模型由用户的历史游戏数据生成，从而模拟用户在当前游戏数据时的移动目的地，以及将目标虚拟对象移动至该转移目的地，实现控制目标虚拟对象模拟用户操作进行策略转移，提高游戏中虚拟对象的智能程度，提高用户在游戏过程中与虚拟对象的博弈体验。

附图说明

图1是本发明的一种虚拟对象的决策模型构建方法实施例的步骤流程图；

图2是本发明的一种虚拟对象的决策方法实施例的步骤流程图；

图3是本发明的一种虚拟对象的决策模型构建装置实施例的结构框图；

图4是本发明的一种虚拟对象的决策装置实施例的结构框图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

参照图1，示出了本发明的一种虚拟对象的决策模型构建方法实施例的步骤流程图，具体可以包括如下步骤：

步骤101，获取历史游戏数据，以及初始模型；

在预置的存储介质(例如：硬盘、磁盘、闪存盘)中存储有历史游戏数据，历史游戏数据为用户在运行游戏程序时，游戏程序时生成和/或调用的数据。例如，历史游戏数据可以包括但不限于：虚拟对象的特征信息、游戏时长、游戏地图。其中，虚拟对象的特征信息可以包括但不限于位置信息、属性信息(攻击力、血量等)、状态信息(减速、眩晕等)。

在一种示例中，所述初始模型包括多个子模型；所述子模型与所述地理区域和预设的时间区间唯一对应。可以按照预设规则将游戏地图划分为多个地理区域，以及将游戏时长划分为多个时间区间。子模型与地理区域和时间区间对应，则子模型数量等于地理区域数量与时间区间数量的乘积。

例如：可以将游戏地图划分为14个区域，包括：第一高地、第一上路、第一中路、第一下路、第一上野、第一下野、第一河道、第二高地、第二上路、第二中路、第二下路、第二上野、第二下野、第二河道。历史游戏数据包括一局或多局游戏，将每一局游戏的游戏时间划分为7个时间区间，包括：0～45秒(不含45秒)、45～240秒(不含240秒)、240～480秒(不含480秒)、480～720秒(不含720秒)、720～960秒(不含960秒)、960～1200秒(不含1200秒)以及1200秒字后。则子模型与其中一个地理区域和一个时间区间对应，子模型数量为98。

可以理解的是，在获取历史游戏数据后，可以对历史游戏数据进行预处理，筛选出符合自定义条件的历史游戏数据。例如：指定用户群体的历史游戏数据、指定游戏时间的历史游戏数据、玩家一直处于游戏状态的历史游戏数据。

步骤102，采用所述历史游戏数据，生成模型特征；

可以采用历史游戏数据中的虚拟对象、游戏地图和游戏时间，生成模型特征，模型特征为子模型的模型输入特征。

步骤103，采用所述历史游戏数据，提取特征标签；所述特征标签为转移目的地；

可以根据历史游戏数据中游戏地图、用户控制的虚拟对象在不同时间所处的位置，提取出历史游戏数据对应的特征标签。特征标签为用户控制的虚拟对象的转移目的地。

步骤104，采用所述模型特征和所述特征标签训练所述初始模型；

初始模型设置有预测函数和对应的评估函数，预测函数可以采用模型特征生成预测结果。预测函数包括有至少一个预测参数，训练初始函数即为调整预测参数的过程。

评估函数用于对比预测结果与特征标签的误差，从而判断经过正在训练的初始模型的训练好坏。例如：预测结果与特征标签的误差越小，则表示初始模型训练得越好。

步骤105，采用已训练的初始模型，生成决策模型。

当评估函数满足预设条件(例如：达到一定阈值)时，停止训练初始模型。采用停止训练后的初始模型为决策模型。

在本发明的一种优选实施例中，步骤102可以包括：

子步骤S11，确定所述历史游戏数据中的多个虚拟对象、游戏地图和游戏时间；

以MOBA(Multiplayer Online Battle Arena，多人在线战术竞技)游戏为例，历史游戏数据可以包括多盘游戏，任意两盘游戏中可能包括有不同虚拟对象(用户控制不同虚拟对象或者用户对阵不同虚拟对象)、游戏地图和游戏时间。

在本发明的一种优选实施例中，所述虚拟对象包括：第一阵营虚拟对象和第二阵营虚拟对象；

在游戏中，用户可以控制有一定数量的虚拟对象，第一阵营虚拟对象为与用户控制的虚拟对象处于同一阵营的虚拟对象(例如：第一阵营虚拟对象可以包括用户控制的虚拟角色，以及与用户控制的虚拟角色处于同一阵营的NPC。用户控制的虚拟对象可以包括英雄角色，NPC可以包括小兵、防御塔、水晶等)；第二阵营对象为与用户控制的虚拟对象处于敌对阵营的虚拟对象(例如：与用户控制的虚拟角色处于敌对的英雄角色、小兵、防御塔、水晶等)。

在一种示例中，虚拟对象还可以包括第三阵营虚拟对象，第三阵营虚拟对象为中立阵营对象。例如：野外区域的NPC，野外区域的NPC包括但不限于小怪、BOSS。

可以理解的是，游戏中还可以包括与第一阵营虚拟对象、第二阵营虚拟对象均敌对的其他阵营虚拟对象，发明实施例对虚拟对象的阵营数量不作限定。

子步骤S12，采用所述游戏时间，确定多个采样时间点；

可以从每一局游戏的开始时间起，按照一定频次确定多个采样时间点。例如：确定采样时间点之间的时间间隔为5秒，即采样时间点可以为0秒、5秒、10秒、15秒等并以此类推至游戏结束。

在本发明实施例中，只是以5秒为间隔对采样时间点进行解释说明，本发明实施例对具体的采样时间点的间隔做限制。

子步骤S13，确定虚拟对象的历史位置；所述历史位置为虚拟对象在所述采样时间点处于所述游戏地图的位置；

游戏地图可以划分为多个地理区域，历史位置可以是指虚拟对象在采样时间点所处的地理区域。

在一种示例中，游戏地图可以包含多个地理坐标，历史位置可以是指虚拟对象在采样时间点所处的地理坐标。

子步骤S14，采用所述历史位置，生成与所述采样时间对应的模型特征；所述模型特征与虚拟对象的一种特征信息对应。

在本发明的一种优选实施例中，所述特征信息包括：虚拟对象的血量值、虚拟对象的虚拟货币值、虚拟对象的经验值、虚拟对象的数量值中至少的一种。

模型特征可以是一个二维的矩阵，不同模型特征与不同的特征信息或者与不同的虚拟对象的同一特征信息对应。矩阵中的元素位置与游戏地图中的位置对应，矩阵中红的元素的大小为对应的特征信息的值。例如：矩阵A与第一阵营虚拟对象的血量值对应、矩阵B与第二阵营虚拟对象的血量值对应、矩阵C与第一阵营虚拟对象的经验值对应。则矩阵A和矩阵B对应与不同的虚拟对象，矩阵A和矩阵C对应于同一虚拟对象的不同特征信息。

在实际应用中，在训练初始模型时，可以将多个模型特征组成一个三维矩阵，并将该三维矩阵输入至初始模型。例如：在子步骤S14中总共生成了N个二维矩阵，且每一个二维矩阵均包括I行J列的元素，则可以采用上述的N个二维矩阵生成一个I*J*N的三维矩阵，并将该三维矩阵同时输入至初始模型中，从而训练初始模型。

在一种示例中，模型特征为正方形矩阵，即I＝J。

在本发明的一种优选实施例中，步骤103可以包括：

子步骤S21，将所述游戏地图划分为多个地理区域；

在同一款游戏中，可能会存在不用的游戏地图供用户选择，针对不同的游戏地图可以设置有不同的划分规则，将游戏地图划分为多个地理区域。

子步骤S22，确定第一阵营虚拟对象中的目标虚拟对象；

目标虚拟对象为第一阵营中用户控制的虚拟对象。

子步骤S23，确定目标虚拟对象在所述采样时间点所处的地理区域；

依次确定目标虚拟对象对应于各个采样时间点所处的地理区域，从而可以判断目标虚拟对象在相邻的两个时间采样时间点所处的地理区域是否相同，以实现判断目标虚拟对象是否在进行转移。

子步骤S24，若目标虚拟对象在当前采样时间点以及前一个采样时点所处的地理区域一致，则确定目标虚拟对象在当前采样时间点所处的地理区域为与前一个采样时点对应的特征标签。

当目标虚拟对象在当前采样时间点以及前一个采样时点所处的地理区域一致时，则表示目标虚拟对象已经转移至目的地，并且当前位置为目标虚拟对象在前一个采样时间点的转移目的地，则可以确定目标虚拟对象在当前采样时间点所处的地理区域为与前一个采样时点对应的特征标签。

由于目标虚拟对象可以能在同一个地理区域进行停留，则在获取特征标签后，可以对相同的特征标签进行合并，以减少训练初始模型时计算资源和存储资源的占用比例。

另外，由于相邻的采样时间点具有一定的时间间隔，所以不同特征标签对应于一定的时间间隔。可以在获取特征标签后对特征标签进行平滑处理，从而可以对目标虚拟对象移动至转移目的地之间的路径。

在本发明的一种优选实施例中，步骤104可以包括：

子步骤S31，确定与当前模型特征对应的目标采样时间点和目标地理区域；

由于模型特征对应于虚拟对象，模型特征中元素的位置与虚拟对象在游戏地图中的位置对应，使得可以通过当前模型特征中的元素确定其对应目标地理区域。

子步骤S32，确定与所述目标采样时间点所处的目标时间区间；

将游戏时间划分为多个时间区间后，不同的采样时间点可以对应不同的时间区间。例如：采样时间点为5秒，则目标时间区间为0～45秒(不含45秒)；采样时间点为60秒，则目标时间区间为45～240秒(不含240秒)。

子步骤S33，确定与所述目标时间区间和所述目标地理区域对应的目标子模型；

由于子模型与地理区域和时间区间唯一对应，则可以通过当前模型特征对应的目标时间区间和目标地理区域，确定与当前模型特征匹配的目标子模型。

其中，若当前模型特征中对应多个虚拟对象时，则分别为多个虚拟对象确定对应的目标子模型。

子步骤S34，将所述当前模型特征和与所述当前模型特征对应的特征标签输入至所述目标子模型。

目标子模型设置有预测函数和对应的评估函数，预测函数可以采用当前模型特征生成预测结果。预测函数包括有至少一个预测参数，训练初始函数即为调整预测参数的过程。

评估函数用于对比根据当前模型特征生成预测结果与当前模型特征对应的特征标签的误差(例如：均方根误差、平均绝对百分误差、平均绝对误差)，从而判断经过正在训练的初始模型的训练好坏。

在本发明的一种优选实施例中，所述初始模型的网络结构为全卷积层结构。

与现有技术中采用卷积层和全连接层组合生成预测模型的方式不同，本发明实施例采用的是全卷积层结构生成初始模型。

具体的，初始模型中的各个子模型均为全卷积层结构。具体的，子模型可以包括有输入层、卷积层、池化层、和输出层。输入层用于获取模型特征。卷积层和池化层用于将输入层获取的模型特征进行转化后，发送至输出层。输出层设置有分类器，分类器采用输出层发送的数据进行分类判别后，输出预测结果。其中，卷积层可以设置有激活函数，以及通过加入Regularization(正则化)方法和Dropout(随机失活)方法强化子模型的泛化能力。

在本发明实施例中，通过在获取历史游戏数据后，采用历史游戏数据生成模型特征以及特征标签，将模型特征和特征标签输入至初始模型，使得训练后的初始模型能够根据输入的模型特征，生成预测的特征标签。其中，游戏包括虚拟对象，特征标签为虚拟对象的转移目的地。从而实现决策模型能够根据输入的模型特征，预测虚拟对象的转移目的地。

进一步的，初始模型包括多个子模型，子模型与游戏地图和时间区间唯一对应，根据当前模型特征对应的采样时间区间和地理区域确定目标子模型，并将当前模型特征和当前模型特征对应的特征标签输入至目标子模型，子模型采用当前模型特征生成预测结果，并采用预测结果和特征标签进行对比，根据对比情况不断挑战子模型的参数，从而训练目标子模型。从而实现采用不同的子模型处理不同的模型特征，避免采用单一模型处理全部模型特征，提高决策模型输出结果的准确性。

参照图2，示出了本发明的一种虚拟对象的决策方法实施例的步骤流程图；具体可以包括如下步骤：

步骤201，获取当前游戏数据；所述当前游戏数据包括第一阵营中虚拟对象和第二阵营虚拟对象；

当用户在正在运行游戏程序时，可以直接从预置服务器中获取当前游戏数据。在游戏中，用户可以控制有一定数量的虚拟对象，第一阵营虚拟对象为与用户控制的虚拟对象处于同一阵营的虚拟对象(例如：第一阵营虚拟对象可以包括用户控制的虚拟角色，以及与用户控制的虚拟角色处于同一阵营的NPC。用户控制的虚拟对象可以包括英雄角色，NPC可以包括小兵、防御塔、水晶等)；第二阵营对象为与用户控制的虚拟对象处于敌对阵营的虚拟对象(例如：与用户控制的虚拟角色处于敌对的英雄角色、小兵、防御塔、水晶等)。即当前游戏数据可以包括第一阵营中虚拟对象和第二阵营虚拟对象。

在一种示例中，当前游戏数据还可以包括第三阵营虚拟对象，第三阵营虚拟对象为中立阵营对象，例如：野外区域的NPC，野外区域的NPC包括但不限于小怪、BOSS。

步骤202，确定至少一个第二阵营虚拟对象为目标虚拟对象；

在一种示例中，可以采用预设规则，将第二阵营对象中的一个或多个虚拟对象为目标虚拟对象，并执行步骤203～步骤206。在另一种示例中，每一次只将第二阵营中的一个虚拟对象为目标虚拟对象，然后执行步骤203～206。并通过依次确定目标虚拟对象，从而实现控制多个第二阵营中的虚拟对象模拟用户进行策略转移。

步骤203，生成与所述当前游戏数据对应的待预测模型特征；

可以采用当前游戏数据，生成待预测模型特征。所述待预测模型特征可以包括当前时间的不同虚拟对象的特征信息，所述特征信息包括：虚拟对象的血量值、虚拟对象的虚拟货币值、虚拟对象的经验值、虚拟对象的数量值中至少的一种。

步骤204，将所述待预测模型特征输入至预设的决策模型中；

将待预测模型特征输入至已完成训练的决策模型中，决策模型用于采用待预测模型特征生成目标转移数据。其中，决策模型由历史游戏数据训练生成。

待预测模型特征可以是一个由多个二维矩阵组合的三维矩阵，三维矩阵中的每一个二维矩阵对应不同的特征信息或者不同虚拟对象的同一特征信息。

步骤205，接收所述决策模型返回的目标转移数据；

所述目标转移数据与目标虚拟对象对应。

在接收到决策模型返回的目标转移数据后，确定目标转移数据为目标虚拟对象的转移目的地。

步骤206，将所述目标虚拟对象移动至与所述目标转移数据对应的位置。

决策模型由用户的历史游戏数据训练生成，能够预测出用户在当前游戏数据的情况下的转移目的地。而转移数据与目标虚拟对象对应，通过控制目标虚拟对象移动至预测得到的转移目的地，从而使得目标虚拟对象能够模拟用户操作。进一步的，控制目标虚拟对象模拟用户进行转移策略。实现提高游戏中虚拟对象的智能程度，提高用户游戏过程中与敌对虚拟对象的博弈体验。

在本发明的一种优选实施例中，所述当前游戏数据包括游戏地图，所述游戏地图包括多个地理区域；所述决策模型包括多个与所述地理区域和预设时间区间对应的子模型；所述待预测模型特征包括目标位置，所述目标位置为所述目标虚拟对象当前所处的位置；

决策模型可以包括多个已训练的子模型，每一个子模型分别对应不同的时间区间和/或地理区域。决策模型用于确定与当前时间和目标位置对应的地理区域均匹配的子模型为目标子模型，并将待预测模型图特征发送至目标子模型。已训练的目标子模型能够采用待预测模型特征进行计算，生成目标转移数据。

决策模型设置多个有与时间区间和地理区域对应的子模型，每一个子模型预先采用不同的数据进行训练。决策模型在获取待预测模型后，在多个子模型中确定目标子模型。目标子模型能够采用接收到的待预测模型特征进行计算，生成目标转移数据。从而使得决策模型能够针对不同的待预测模型特征，采用不同的子模型生成目标转移数据，避免采用单一模型处理全部待预测模型特征而导致计算结果不准确的问题，提高了目标转移数据的准确性。

在本发明的一种优选实施例中，所述决策模型通过如下方法生成：

获取历史游戏数据，以及初始模型；

采用所述历史游戏数据，生成模型特征；

采用所述模型特征和所述特征标签训练所述初始模型；

采用已训练的初始模型，生成决策模型。

在本发明的一种优选实施例中，所述采用所述历史游戏数据，生成模型特征的步骤，包括：

采用所述游戏时间，确定多个采样时间点；

在本发明的一种优选实施例中，所述采用所述历史游戏数据，提取特征标签的步骤，包括：

将所述游戏地图划分为多个地理区域；

确定第一阵营虚拟对象中的目标虚拟对象；

确定目标虚拟对象在所述采样时间点所处的地理区域；

在本发明的一种优选实施例中，所述初始模型包括多个子模型；所述子模型与所述地理区域和预设的时间区间唯一对应；所述采用所述模型特征和所述特征标签训练所述初始模型的步骤，包括：

确定与所述目标采样时间点所处的目标时间区间；

由于虚拟对象的决策方法实施例中的决策模型生成方法，与一种虚拟对象的决策模型构建方法实施例的内容基本相似，所以描述较为简单，相关之处参见一种虚拟对象的决策模型构建方法实施例的说明即可，在此不在赘述。

在本发明实施例中，在获取包括有第一阵营中虚拟对象和第二阵营虚拟对象当前游戏数据后，确定至少一个第二阵营虚拟对象为目标虚拟对象并生成与所述当前游戏数据对应的待预测模型特征，将所述待预测模型特征输入至预设的决策模型中。在决策模型采用待预测模型特征生成目标转移数据之后，接收所述决策模型返回的目标转移数据，其中，目标转移数据为预测的目标虚拟对象的转移目的地。然后将所述目标虚拟对象移动至与所述目标转移数据对应的位置。而决策模型由用户的历史游戏数据生成，从而模拟用户在当前游戏数据时的移动目的地，以及将目标虚拟对象移动至该转移目的地，实现控制目标虚拟对象模拟用户操作进行策略转移，提高游戏中虚拟对象的智能程度，提高用户在游戏过程中与虚拟对象的博弈体验。

进一步的，待预测模型特征包括目标位置，所述目标位置为所述目标虚拟对象当前所处的位置。决策模型设置多个有与时间区间和地理区域对应的子模型，每一个子模型预先采用不同的数据进行训练。决策模型能够针对不同的待预测模型特征，采用不同的子模型生成目标转移数据，避免采用单一模型处理全部待预测模型特征而导致计算结果不准确的问题，提高了目标转移数据的准确性。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

参照图3，示出了本发明的一种虚拟对象的决策模型构建装置实施例的结构框图，具体可以包括如下模块：

历史数据获取模块301，用于获取历史游戏数据，以及初始模型；

模型特征生成模块302，用于采用所述历史游戏数据，生成模型特征；

特征标签生成模块303，用于采用所述历史游戏数据，提取特征标签；所述特征标签为转移目的地；

模型训练模块304，用于采用所述模型特征和所述特征标签训练所述初始模型；

模型生成模块305，用于采用已训练的初始模型，生成决策模型。

在本发明的一种优选实施例中，所述模型特征生成模块302包括：

确定单元，用于确定所述历史游戏数据中的多个虚拟对象、游戏地图和游戏时间；

采用单元，用于采用所述游戏时间，确定多个采样时间点；

位置单元，用于确定虚拟对象的历史位置；所述历史位置为虚拟对象在所述采样时间点处于所述游戏地图的位置；

特征单元，用于采用所述历史位置，生成与所述采样时间对应的模型特征；所述模型特征与虚拟对象的一种特征信息对应。

在本发明的一种优选实施例中，所述特征标签生成模块303包括：

划分单元，用于将所述游戏地图划分为多个地理区域；

目标单元，用于确定第一阵营虚拟对象中的目标虚拟对象；

地理单元，用于确定目标虚拟对象在所述采样时间点所处的地理区域；

标签单元，用于若目标虚拟对象在当前采样时间点以及前一个采样时点所处的地理区域一致，则确定目标虚拟对象在当前采样时间点所处的地理区域为与前一个采样时点对应的特征标签。

在本发明的一种优选实施例中，所述初始模型包括多个子模型；所述子模型与所述地理区域和预设的时间区间唯一对应；所模型训练模块304包括：

子模型对应单元，用于确定与当前模型特征对应的目标采样时间点和目标地理区域；

时间区间单元，用于确定与所述目标采样时间点所处的目标时间区间；

子模型选择单元，用于确定与所述目标时间区间和目标地理区域对应的目标子模型；

特征输入单元，用于将所述当前模型特征和与所述当前模型特征对应的特征标签输入至所述目标子模型。

参照图4，示出了本发明的一种虚拟对象的决策装置实施例的结构框图，具体可以包括如下模块：

当前数据获取模块401，用于获取当前游戏数据；所述当前游戏数据包括第一阵营中虚拟对象和第二阵营虚拟对象；

目标确定模块402，用于确定至少一个第二阵营虚拟对象为目标虚拟对象；

待预测特征生成模块403，用于生成与所述当前游戏数对应的待预测模型特征；

特征输入模块404，用于将所述待预测模型特征输入至预设的决策模型中；

数据接收模块405，用于接收所述决策模型返回的目标转移数据；

移动模块406，用于将所述目标虚拟对象移动至与所述目标转移数据对应的位置。

在本发明的一种优选实施例中，所述决策模型通过如下模块生成：

在本发明的一种优选实施例中，所述模型特征生成模块包括：

采用单元，用于采用所述游戏时间，确定多个采样时间点；

在本发明的一种优选实施例中，所述特征标签生成模块包括：

划分单元，用于将所述游戏地图划分为多个地理区域；

目标单元，用于确定第一阵营虚拟对象中的目标虚拟对象；

在本发明的一种优选实施例中，所述初始模型包括多个子模型；所述子模型与所述地理区域和预设的时间区间唯一对应；所模型训练模块包括：

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本发明实施例还公开了一种计算机可读存储介质，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如上述的虚拟对象的决策方法的步骤，和/或如上所述的虚拟对象的决策模型构建方法的步骤。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本发明所提供的一种虚拟对象的决策方法、一种虚拟对象的决策模型构建方法、一种虚拟对象的决策装置、一种虚拟对象的决策控制模型构建装置、电子设备和存储介质，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种虚拟对象的决策方法，其特征在于，包括：

获取当前游戏数据；所述当前游戏数据包括第一阵营中虚拟对象和第二阵营虚拟对象；所述当前游戏数据还包括游戏地图，所述游戏地图包括多个地理区域；

确定至少一个第二阵营虚拟对象为目标虚拟对象；

生成与所述当前游戏数据对应的待预测模型特征；

将所述待预测模型特征输入至预设的决策模型中；所述决策模型包括多个与所述地理区域和预设时间区间对应的子模型；

接收所述决策模型返回的目标转移数据；

2.根据权利要求1所述的方法，其特征在于，所述待预测模型特征包括目标位置，所述目标位置为所述目标虚拟对象当前所处的位置；

3.根据权利要求2所述的方法，其特征在于，所述决策模型通过如下方法生成：

获取历史游戏数据，以及初始模型；

采用所述历史游戏数据，生成模型特征；

采用所述模型特征和所述特征标签训练所述初始模型；

采用已训练的初始模型，生成决策模型。

4.一种虚拟对象的决策模型构建方法，其特征在于，包括：

获取历史游戏数据，以及初始模型；所述初始模型包括多个子模型；所述子模型与地理区域和预设的时间区间唯一对应；

采用所述历史游戏数据，生成模型特征；

采用所述模型特征和所述特征标签训练所述初始模型；

采用已训练的初始模型，生成决策模型；

其中，所述采用所述历史游戏数据，生成模型特征的步骤，包括：

采用所述游戏时间，确定多个采样时间点；

5.根据权利要求4所述的方法，其特征在于，

所述虚拟对象包括：第一阵营虚拟对象和第二阵营虚拟对象；

6.根据权利要求5所述的方法，其特征在于，所述采用所述历史游戏数据，提取特征标签的步骤，包括：

将所述游戏地图划分为多个地理区域；

确定第一阵营虚拟对象中的目标虚拟对象；

确定目标虚拟对象在所述采样时间点所处的地理区域；

7.根据权利要求6所述的方法，其特征在于，所述初始模型包括多个子模型；所述子模型与所述地理区域和预设的时间区间唯一对应；所述采用所述模型特征和所述特征标签训练所述初始模型的步骤，包括：

确定与所述目标采样时间点所处的目标时间区间；

8.根据权利要求4-7任一项所述的方法，其特征在于，

所述初始模型的网络结构为全卷积层结构。

9.一种虚拟对象的决策装置，其特征在于，包括：

当前数据获取模块，用于获取当前游戏数据；所述当前游戏数据包括第一阵营中虚拟对象和第二阵营虚拟对象；所述当前游戏数据还包括游戏地图，所述游戏地图包括多个地理区域；

特征输入模块，用于将所述待预测模型特征输入至预设的决策模型中；所述决策模型包括多个与所述地理区域和预设时间区间对应的子模型；

10.一种虚拟对象的决策模型构建装置，其特征在于，包括：

历史数据获取模块，用于获取历史游戏数据，以及初始模型；所述初始模型包括多个子模型；所述子模型与地理区域和预设的时间区间唯一对应；

模型生成模块，用于采用已训练的初始模型，生成决策模型；

采用所述游戏时间，确定多个采样时间点；

11.一种电子设备，其特征在于，包括处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至3中任一项所述的虚拟对象的决策方法的步骤，和/或如权利要求4至8任一项所述的虚拟对象的决策模型构建方法的步骤。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如权利要求1至3中任一项所述的虚拟对象的决策方法的步骤，和/或如权利要求4至8任一项所述的虚拟对象的决策模型构建方法的步骤。