CN110163238A

CN110163238A - 一种信息预测的方法、模型训练的方法以及服务器

Info

Publication number: CN110163238A
Application number: CN201811526060.1A
Authority: CN
Inventors: 李宏亮; 王亮; 施腾飞; 袁博; 杨少杰; 誉洪生; 殷尹玉婷
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2018-12-13
Filing date: 2018-12-13
Publication date: 2019-08-23
Anticipated expiration: 2038-12-13
Also published as: WO2020119737A1; EP3896611A4; JP2021536066A; US20210201148A1; JP7199517B2; KR102542774B1; EP3896611A1; KR20210090239A; CN110163238B

Abstract

本发明公开了一种信息预测的方法，包括：获取待预测图像；提取待预测图像中的待预测特征集合，待预测特征集合包括第一待预测特征、第二待预测特征以及第三待预测特征，第一待预测特征表示第一区域的图像特征，第二待预测特征表示第二区域的图像特征，第三待预测特征表示与交互操作相关的属性特征，第一区域的范围小于第二区域的范围；通过目标联合模型获取待预测特征集合所对应的第一标签和/或第二标签，第一标签表示与操作内容相关的标签，第二标签表示与操作意图相关的标签。本发明中还公开了一种模型训练的方法及服务器。本发明仅使用一个联合模型就可以预测微操和大局观，有效地解决了分层模型中的硬切换问题，提升了预测的便利性。

Description

一种信息预测的方法、模型训练的方法以及服务器

技术领域

本发明涉及人工智能技术领域，尤其涉及一种信息预测的方法、模型训练的方法以及服务器。

背景技术

人工智能(artificial intelligence,AI)程序已经在规则明确的棋类游戏里战胜了顶级职业选手。相比之下，多人在线战术竞技(multiplayer online battle arena，MOBA)游戏的操作更加复杂，更接近真实世界的场景。攻克MOBA游戏中的AI问题，有助于我们探索和解决真实世界的复杂问题。

基于MOBA游戏操作的复杂性，通常可以将整个MOBA游戏的操作分为大局观和微操两种，以降低整个MOBA游戏的复杂程度。请参阅图1，图1为现有方案中分层建立模型的一个示意图，如图所示，按“打野”、“清兵”、“团战”以及“推塔”等大局观决策划分，每局游戏平均只有约100个的大局观任务，每个大局观任务中的微操决策步数平均为200个。基于上述内容，请参阅图2，图2为现有方案中分层模型的一个结构示意图，如图所示，采用大局观特征建立大局观模型，并采用微操特征建立微操模型，可以通过大局观模型输出大局观标签，可以通过微操模型输出微操标签。

然而，分层建模需要分别设计和训练大局观模型和微操模型，也就是说，这两个模型之间是相互独立的，在实际应用中，还需决定选用采用哪个模型进行预测，因此，两个模型之间存在硬切换的问题，不利于预测的便利性。

发明内容

本发明实施例提供了一种信息预测的方法、模型训练的方法以及服务器，仅使用一个联合模型就可以预测微操和大局观，有效地解决了分层模型中的硬切换问题，提升了预测的便利性。

有鉴于此，本发明的第一方面提供了一种信息预测的方法，包括：

获取待预测图像；

提取所述待预测图像中的待预测特征集合，其中，所述待预测特征集合包括第一待预测特征、第二待预测特征以及第三待预测特征，所述第一待预测特征表示第一区域的图像特征，所述第二待预测特征表示第二区域的图像特征，所述第三待预测特征表示与交互操作相关的属性特征，所述第一区域的范围小于所述第二区域的范围；

通过目标联合模型获取所述待预测特征集合所对应的第一标签和/或第二标签，其中，所述第一标签表示与操作内容相关的标签，所述第二标签表示与操作意图相关的标签。

本发明的第二方面提供了一种模型训练的方法，包括：

获取待训练图像集合，其中，所述待训练图像集合包括N个待训练图像，所述N为大于或等于1的整数；

提取每个待训练图像中的待训练特征集合，其中，所述待训练特征集合包括第一待训练特征、第二待训练特征以及第三待训练特征，所述第一待训练特征表示第一区域的图像特征，所述第二待训练特征表示第二区域的图像特征，所述第三待训练特征表示与交互操作相关的属性特征，所述第一区域的范围小于所述第二区域的范围；

获取所述每个待训练图像所对应的第一待训练标签以及第二待训练标签，其中，所述第一待训练标签表示与操作内容相关的标签，所述第二待训练标签表示与操作意图相关的标签；

根据所述每个待训练图像中的所述待训练特征集合，以及所述每个待训练图像所对应的所述第一待训练标签以及所述第二待训练标签，训练得到目标联合模型。

本发明的第三方面提供了一种服务器，包括：

获取模块，用于获取待预测图像；

提取模块，用于提取所述获取模块获取的所述待预测图像中的待预测特征集合，其中，所述待预测特征集合包括第一待预测特征、第二待预测特征以及第三待预测特征，所述第一待预测特征表示第一区域的图像特征，所述第二待预测特征表示第二区域的图像特征，所述第三待预测特征表示与交互操作相关的属性特征，所述第一区域的范围小于所述第二区域的范围；

所述获取模块，还用于通过目标联合模型获取所述提取模块提取的所述待预测特征集合所对应的第一标签以及第二标签，其中，所述第一标签表示与操作内容相关的标签，所述第二标签表示与操作意图相关的标签。

在一种可能的设计中，在本发明实施例的第三方面的第一种实现方式中，

所述获取模块，具体用于通过所述目标联合模型获取所述待预测特征集合所对应的所述第一标签、所述第二标签以及第三标签，其中，所述第三标签表示与胜负情况相关的标签。

本发明的第四方面提供了一种服务器，包括：

获取模块，用于获取待训练图像集合，其中，所述待训练图像集合包括N个待训练图像，所述N为大于或等于1的整数；

提取模块，用于提取所述获取模块获取的每个待训练图像中的待训练特征集合，其中，所述待训练特征集合包括第一待训练特征、第二待训练特征以及第三待训练特征，所述第一待训练特征表示第一区域的图像特征，所述第二待训练特征表示第二区域的图像特征，所述第三待训练特征表示与交互操作相关的属性特征，所述第一区域的范围小于所述第二区域的范围；

所述获取模块，用于获取所述每个待训练图像所对应的第一待训练标签以及第二待训练标签，其中，所述第一待训练标签表示与操作内容相关的标签，所述第二待训练标签表示与操作意图相关的标签；

训练模块，用于根据所述提取模块提取的所述每个待训练图像中的所述待训练特征集合，以及所述获取模块获取的所述每个待训练图像所对应的所述第一待训练标签以及所述第二待训练标签，训练得到目标联合模型。

在一种可能的设计中，在本发明实施例的第四方面的第一种实现方式中，

所述第一待训练特征为二维向量特征，其中，所述第一待训练特征包括在所述第一区域内的角色位置信息、移动对象位置信息、固定对象位置信息以及防御对象位置信息中的至少一种；

所述第二待训练特征为二维向量特征，其中，所述第二待训练特征包括在所述第二区域内的角色位置信息、移动对象位置信息、固定对象位置信息、防御对象位置信息、障碍对象位置信息以及输出对象位置信息中的至少一种；

所述第三待训练特征为一维向量特征，其中，所述第一待训练特征包括角色生命值、角色输出值、时间信息以及比分信息中的至少一种；

其中，所述第一待训练特征、所述第二待训练特征以及所述第三待训练特征之间具有对应关系。

在一种可能的设计中，在本发明实施例的第四方面的第二种实现方式中，

所述第一待训练标签包括按键类型信息和/或按键参数信息；

其中，所述按键参数信息包括方向型参数、位置型参数以及目标型参数中的至少一项，所述方向型参数用于表示角色移动的方向，所述位置型参数用于表示所述角色所在的位置，所述目标型参数用于表示所述角色的待输出对象。

在一种可能的设计中，在本发明实施例的第四方面的第三种实现方式中，

所述第二待训练标签包括操作意图信息以及角色位置信息；

其中，所述操作意图信息表示角色与对象进行交互的目的，所述角色位置信息表示所述角色在所述第一区域内的位置。

在一种可能的设计中，在本发明实施例的第四方面的第四种实现方式中，

所述训练模块，具体用于对所述每个待训练图像中的所述待训练特征集合进行处理，得到目标特征集合，其中，所述目标特征集合包括第一目标特征、第二目标特征以及第三目标特征；

通过长短期记忆LSTM层获取所述目标特征集合所对应的第一预测标签以及第二预测标签，其中，所述第一预测标签表示预测得到的与操作内容相关的标签，所述第二预测标签表示预测得到的与操作意图相关的标签；

根据所述每个待训练图像的所述第一预测标签、所述第一待训练标签、所述第二预测标签以及所述第二待训练标签，训练得到模型核心参数，其中，所述第一预测标签与所述第二预测标签均属于预测值，所述第一待训练标签以及所述第二待训练标签均属于真实值；

根据所述模型核心参数生成所述目标联合模型。

在一种可能的设计中，在本发明实施例的第四方面的第五种实现方式中，

所述训练模块，具体用于通过全连接层对所述每个待训练图像中的所述第三待训练特征进行处理，得到所述第三目标特征，其中，所述第三目标特征为一维向量特征；

通过卷积层对所述每个待训练图像中的所述第二待训练特征进行处理，得到所述第二目标特征，其中，所述第二目标特征为一维向量特征；

通过所述卷积层对所述每个待训练图像中的所述第一待训练特征进行处理，得到所述第一目标特征，其中，所述第一目标特征为一维向量特征。

在一种可能的设计中，在本发明实施例的第四方面的第六种实现方式中，

所述训练模块，具体用于通过长短期记忆LSTM层获取所述目标特征集合所对应的第一预测标签、第二预测标签以及第三预测标签，所述第三预测标签表示预测得到的与胜负情况相关的标签；

获取所述每个待训练图像所对应的第三待训练标签，其中，所述第三待训练标签用于表示实际胜负情况；

根据所述第一预测标签、所述第一待训练标签、所述第二预测标签、所述第二待训练标签、所述第三预测标签以及所述第三待训练标签，训练得到所述模型核心参数，其中，所述第三待训练标签属于预测值，所述第三预测标签属于真实值。

在一种可能的设计中，在本发明实施例的第四方面的第七种实现方式中，所述服务器还包括更新模块；

所述获取模块，还用于在所述训练模块根据所述每个待训练图像中的所述待训练特征集合，以及所述每个待训练图像所对应的所述第一待训练标签以及所述第二待训练标签，训练得到目标联合模型之后，获取待训练视频，其中，所述待训练视频包括多帧交互图像；

所述获取模块，还用于通过所述目标联合模型获取所述待训练视频对应的目标场景数据，其中，所述目标场景数据包括在目标场景下的相关数据；

所述训练模块，还用于根据所述获取模块获取的所述目标场景数据、所述第一待训练标签以及第一预测标签，训练得到目标模型参数，其中，所述第一预测标签表示预测得到的与操作内容相关的标签，所述第一预测标签属于预测值，所述第一待训练标签属于真实值；

所述更新模块，用于采用所述训练模块训练得到的所述目标模型参数对所述目标联合模型进行更新，得到强化联合模型。

在一种可能的设计中，在本发明实施例的第四方面的第八种实现方式中，所述服务器还包括更新模块；

所述训练模块，还用于根据所述获取模块获取的所述目标场景数据、所述第二待训练标签以及第二预测标签，训练得到目标模型参数，其中，所述第二预测标签表示预测得到的与操作意图相关的标签，所述第二预测标签属于预测值，所述第二待训练标签属于真实值；

本申请第五方面提供一种服务器，所述通信设备用于执行上述第一方面或第一方面的任一可能的实现方式中的信息预测方法。具体地，所述服务器可以包括用于执行第一方面或第一方面的任一可能的实现方式中的信息预测方法的模块。

本申请第六方面提供一种服务器，所述通信设备用于执行上述第二方面或第二方面的任一可能的实现方式中的模型训练方法。具体地，所述服务器可以包括用于执行第二方面或第二方面的任一可能的实现方式中的模型训练方法的模块。

本发明的第七方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述各方面所述的方法。

从以上技术方案可以看出，本发明实施例具有以下优点：

本发明实施例中，提供了一种信息预测的方法，首先，服务器获取待预测图像，然后提取待预测图像中的待预测特征集合，其中，待预测特征集合包括第一待预测特征、第二待预测特征以及第三待预测特征，第一待预测特征表示第一区域的图像特征，第二待预测特征表示第二区域的图像特征，第三待预测特征表示与交互操作相关的属性特征，第一区域的范围小于第二区域的范围，最后，服务器可以通过目标联合模型获取待预测图像所对应的第一标签以及第二标签，其中，第一标签表示与操作内容相关的标签，第二标签表示与操作意图相关的标签。通过上述方式，仅使用一个联合模型就可以预测微操和大局观，其中，微操的预测结果表示为第一标签，大局观的预测结果表示第二标签，因此，将大局观模型和微操模型合并成一个联合模型，有效地解决了分层模型中的硬切换问题，提升了预测的便利性。

附图说明

图1为现有方案中分层建立模型的一个示意图；

图2为现有方案中分层模型的一个结构示意图；

图3为本发明实施例中信息预测系统的一个架构示意图；

图4为本发明实施例中目标联合模型的一个系统结构示意图；

图5为本发明实施例中信息预测的方法一个实施例示意图；

图6为本发明实施例中强化联合模型的一个工作流程示意图；

图7为本发明实施例中模型训练的方法一个实施例示意图；

图8为本发明实施例中提取待训练特征集合的一个实施例示意图；

图9为本发明实施例中待训练特征集合的一个特征表达示意图；

图10为本发明实施例中类图像的一个特征表达示意图；

图11为本发明实施例中微操作标签的一个作示意图；

图12为本发明实施例中微操作标签的另一个作示意图；

图13为本发明实施例中微操作标签的另一个作示意图；

图14为本发明实施例中微操作标签的另一个作示意图；

图15为本发明实施例中大局观标签的一个示意图；

图16为本发明实施例中目标联合模型的一个网络结构示意图；

图17为本发明实施例中强化联合模型的一个系统结构示意图；

图18为本发明实施例中强化联合模型的另一个系统结构示意图；

图19为本发明实施例中服务器一个实施例示意图；

图20为本发明实施例中服务器另一个实施例示意图；

图21为本发明实施例中服务器另一个实施例示意图；

图22为本发明实施例中服务器一个结构示意图。

具体实施方式

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应理解，本发明所涉及的模型可以应用于AI领域，其应用范围包含但不仅限于机器翻译、智能控制、专家系统、机器人、语言和图像理解、自动程序设计、航天应用以及庞大的信息处理、储存与管理等。为了便于介绍，本发明将以网络游戏场景为例进行介绍，具体可以是MOBA类型的游戏场景。针对MOBA游戏，本发明实施例设计了一种AI模型，能够更好地模拟人类玩家的行为，在人机对战，模拟掉线玩家，玩家练习游戏角色等情形中均取得更好的效果。其中，MOBA游戏的典型玩法是多人对战多人的模式，即两支(或多支)分别由相同玩家人数组成的队伍之间进行对抗，每个玩家控制一个英雄角色，优先推掉对方“水晶”基地的一方即为获胜方。

为了便于理解，本发明提出了一种信息预测的方法，该方法应用于图1所示的信息预测系统，请参阅图3，图3为本发明实施例中信息预测系统的一个架构示意图，如图所示，客户端上进行多局游戏，生成大量的游戏画面数据(即待训练图像)，然后游戏画面数据发送至服务器。其中，这些游戏画面数据的过程可以是人类玩家在实际游戏过程中生成的数据，也可以是由机器模拟人类玩家操作后得到的数据，本发明主要是以人类玩家提供的数据为主。以一局游戏平均30分钟，且每秒15帧来计算，每局游戏平局有27000帧图像。为了降低数据的复杂度，本发明主要选择与大局观任务和微操任务相关的数据进行训练，其中，大局观任务是以操作意图来划分的，包含但不仅限于“打野”、“清兵”、“团战”以及“推塔”，每局游戏只有平均100个左右的大局观任务，而每个大局观任务中的微操决策步数约为200个，因此，大局观的决策步数和微操的决策步数都在可以接受的范围内。

服务器采用客户端上报的游戏画面数据对模型进行训练，在得到目标联合模型进一步生成强化联合模型，为了便于介绍，请参阅图4，图4为本发明实施例中强化联合模型的一个系统结构示意图，如图所示，整个模型训练的过程可以分为两个阶段，首先利用监督学习从人类玩家的游戏数据中学习初始的大局观与微操的联合模型，在联合模型的基础上增加大局观全连接(full connection，FC)层和微操FC层，由此得到目标联合模型，然后通过强化学习来优化为微操FC层(或大局观FC层)，其他层的参数保持固定，以此提高“团战”中的技能命中率和躲避技能成功率等核心指标。

需要说明的是，客户端部署于终端设备上，其中，终端设备包含但不仅限于平板电脑、笔记本电脑、掌上电脑、手机以及个人电脑(personal computer，PC)，此处不做限定。

结合上述介绍，下面将对本发明中信息预测的方法进行介绍，请参阅图5，本发明实施例中信息预测的方法一个实施例包括：

101、获取待预测图像；

本实施例中，服务器首先获取待预测图像，该待预测图像具体可以是值MOBA游戏中的图像。

102、提取待预测图像中的待预测特征集合，其中，待预测特征集合包括第一待预测特征、第二待预测特征以及第三待预测特征，第一待预测特征表示第一区域的图像特征，第二待预测特征表示第二区域的图像特征，第三待预测特征表示与交互操作相关的属性特征，第一区域的范围小于第二区域的范围；

本实施例中，服务器需要提取待预测图像中的待预测特征集合，这里的待预测特征集合主要包括了三类特征，分别为第一待预测特征、第二待预测特征以及第三待预测特征。第一待预测特征表示第一区域的图像特征，具体地，第一待预测特征为MOBA游戏中的小地图类图像特征。第二待预测特征表示第二区域的图像特征，具体地，第二待预测特征为MOBA游戏中的当前视野类图像特征。第三待预测特征表示与交互操作相关的属性特征，具体地，第三待预测特征为MOBA游戏中的英雄属性向量特征。

103、通过目标联合模型获取待预测特征集合所对应的第一标签和/或第二标签，其中，第一标签表示与操作内容相关的标签，第二标签表示与操作意图相关的标签。

本实施例中，服务器将提取的待预测特征集合输入至目标联合模型，进一步地，还可以属于至强化后的强化联合模型，其中，强化联合模型是对目标联合模型进行强化后得到的模型。为了便于理解，请参阅图6，图6为本发明实施例中目标联合模型的一个工作流程示意图，如图所示，本发明将大局观模型和微操模型合并为同一个模型，即为联合模型，在联合模型的基础上增加大局观FC层和微操FC层，由此得到目标联合模型，这样可以更加符合人类的决策过程。联合模型采用统一的特征输入，即输入待预测特征集合。学习统一的编码层，同时学习大局观任务和微操任务，大局观任务的输出以级联的方式输入到操作任务的编码层中，联合模型最终可以只输出与操作内容相关的第一标签，并根据第一标签将微操FC层的输出作为执行指令。也可以只输出与操作意图相关的第二标签，并根据第二标签将大局观FC层的输出作为执行指令。还可以同时输出第一标签和第二标签，即同时根据第一标签以及第二标签将微操FC层和大局观FC层的输出作为执行指令。

可选地，在上述图5对应的实施例的基础上，本发明实施例提供信息预测的方法第一个可选实施例中，通过目标联合模型获取待预测特征集合所对应的第一标签和/或第二标签，可以包括：

通过目标联合模型获取待预测特征集合所对应的第一标签、第二标签以及第三标签，其中，第三标签表示与胜负情况相关的标签。

本实施例中，将提供一种较为全面的预测方式，即通过目标联合模型同时输出第一标签、第二标签和第三标签，不但可以预测大局观任务下的操作和微操任务下的操作，还可以预测胜负情况。

具体地，在实际应用中，为了提升预测的准确度，通常会输入连续的多帧待预测图像，比如输入100帧待预测图像，对每帧待预测图像进行特征提取，也就得到100组的待预测特征集合。将100组的待预测特征集合输入至目标联合模型，由此预测出与大局观任务相关的隐含意图，学会通用的导航能力，并且预测出微操任务的执行指令，以及预测这局游戏可能的胜负情况，比如这局游戏可能会胜利，或者这局游戏可能会失败。

其次，本发明实施例中，目标联合模型不但可以输出第一标签和第二标签，还可以进一步输出第三标签，也就是说，目标联合模型还可以预测胜负情况。通过上述方式，在实际应用中能够更好地预测局势结果，有助于提升预测的可靠性，并且增加预测的灵活度和实用性。

下面将对本发明中模型预测的方法进行介绍，既利用人类数据进行快速监督学习，又能利用强化学习提高模型的预测准确度，请参阅图7，本发明实施例中模型预测的方法一个实施例包括：

201、获取待训练图像集合，其中，待训练图像集合包括N个待训练图像，N为大于或等于1的整数；

本实施例中，将介绍模型训练的流程，首先，服务器通过客户端上报的人类玩家游戏数据获取相应的待训练图像集合。为了提高模型的精度，待训练图像集合通常包含多帧图像，即包括N个待训练图像，N为大于或等于1的整数。

202、提取每个待训练图像中的待训练特征集合，其中，待训练特征集合包括第一待训练特征、第二待训练特征以及第三待训练特征，第一待训练特征表示第一区域的图像特征，第二待训练特征表示第二区域的图像特征，第三待训练特征表示与交互操作相关的属性特征，第一区域的范围小于第二区域的范围；

本实施例中，服务器需要提取待训练图像集合中每个待训练图像的待训练特征集合，这里的待训练特征集合主要包括了三类特征，分别为第一待训练特征、第二待训练特征以及第三待训练特征。第一待训练特征表示第一区域的图像特征，具体地，第一待训练特征为MOBA游戏中的小地图类图像特征。第二待训练特征表示第二区域的图像特征，具体地，第二待训练特征为MOBA游戏中的当前视野类图像特征。第三待训练特征表示与交互操作相关的属性特征，具体地，第三待训练特征为MOBA游戏中的英雄属性向量特征。

203、获取每个待训练图像所对应的第一待训练标签以及第二待训练标签，其中，第一待训练标签表示与操作内容相关的标签，第二待训练标签表示与操作意图相关的标签；

本实施例中，服务器还需要获取每个待训练图像所对应的第一待训练标签以及第二待训练标签，其中，第一待训练标签表示与操作内容相关的标签，具体地，第一待训练标签是与微操任务相关的标签。第二待训练标签表示与操作意图相关的标签，具体地，第二待训练标签是与大局观任务相关的标签。

需要说明的是，在实际应用中，步骤203可以在步骤202之前执行，也可以在步骤202之后执行，还可以与步骤202同时执行，此处不做限定。

204、根据每个待训练图像中的待训练特征集合，以及每个待训练图像所对应的第一待训练标签以及第二待训练标签，训练得到目标联合模型。

本实施例中，最后，服务器基于从每个待训练图像中提取的待训练特征集合，以及每个待训练图像所对应的第一待训练标签以及第二待训练标签进行训练，从而得到目标联合模型。该目标联合模型可以用于预测大局观任务的情形以及微操任务的指令。

本发明实施例中，将介绍一种模型训练的方法，首先服务器获取待训练图像集合，然后提取每个待训练图像中的待训练特征集合，其中，待训练特征集合包括第一待训练特征、第二待训练特征以及第三待训练特征。接下来，服务器需要获取每个待训练图像所对应的第一待训练标签以及第二待训练标签，最后根据每个待训练图像中的待训练特征集合，以及每个待训练图像所对应的第一待训练标签以及第二待训练标签，训练得到目标联合模型。通过上述方式，设计了一个可以同时预测微操和大局观的模型，由此，将大局观模型和微操模型合并成一个联合模型，有效地解决了分层模型中的硬切换问题，提升了预测的便利性。同时，考虑大局观任务可以有效地提升宏观决策的准确度，尤其在MOBA游戏中，大局观的决策是非常重要的。

可选地，在上述图7对应的实施例的基础上，本发明实施例提供模型训练的方法第一个可选实施例中，第一待训练特征为二维向量特征，其中，第一待训练特征包括在第一区域内的角色位置信息、移动对象位置信息、固定对象位置信息以及防御对象位置信息中的至少一种；

第二待训练特征为二维向量特征，其中，第二待训练特征包括在第二区域内的角色位置信息、移动对象位置信息、固定对象位置信息、防御对象位置信息、障碍对象位置信息以及输出对象位置信息中的至少一种；

第三待训练特征为一维向量特征，其中，第一待训练特征包括角色生命值、角色输出值、时间信息以及比分信息中的至少一种；

其中，第一待训练特征、第二待训练特征以及第三待训练特征之间具有对应关系。

本实施例中，将对第一待训练特征、第二待训练特征以及第三待训练特征之间的关系以及内容，为了便于介绍，下面将以MOBA游戏的场景为例进行具体说明，人类玩家在进行操作时，会综合考虑小地图、当前视野以及英雄属性等信息。因此本发明采用了一种多模态和多尺度的特征表达。请参阅图8，图8为本发明实施例中提取待训练特征集合的一个实施例示意图，如图所示，S1所指示的部分为英雄属性信息，包括对局中的英雄角色，以及每个英雄角色的生命值、物理攻击值、法术攻击值、物理防御值和法术防御值。S2所指示的部分为小地图，即第一区域，在小地图中可以看到英雄角色、兵线、野怪和防御塔等位置，其中，英雄角色包括队友控制的英雄角色以及敌方控制的英雄角色，兵线是指双方小兵交战的位置。野怪是指除了玩家以外，在环境中有的“中立敌对”对象，属于非玩家角色(Non-Player Character，NPC)类怪物，不受玩家控制。防御塔是一种防御建筑，其中，双方阵营分别具有一座水晶防御塔，摧毁对方水晶防御塔即获得胜利。S3所指示的部分为当前视野，即第二区域，在当前视野中可以清楚看到英雄、兵线、野怪、防御塔、地图障碍物以及子弹等。

请参阅图9，图9为本发明实施例中待训练特征集合的一个特征表达示意图，如图所示，英雄属性的向量特征(即第三待训练特征)通过与小地图类图像特征(即第一待训练特征)和当前视野类图像特征(即第二待训练特征)建立一一映射关系，既可以用于宏观决策，也可以用于微观决策。英雄属性的向量特征是由数值构成的特征，因此，属于一维向量特征，该向量特征中包含但不仅限于英雄角色的属性特征，如血量(即敌方五位英雄角色的生命值和我方五位英雄角色的生命值)、攻击力(即即敌方五位英雄角色的角色输出值和我方五位英雄角色的角色输出值)、时间(一局游戏时长)以及比分(每个队伍的最后得分)。小地图类图像特征和当前视野类图像特征均属于类图像特征，为了便于理解，请参阅图10，图10为本发明实施例中类图像的一个特征表达示意图，如图所示，类图像特征是一种从原始像素图像中人工构造的二维特征，降低了直接从原始的复杂图像中学习的难度。小地图类图像特征包含英雄、兵线、野怪以及防御塔等位置信息，用于表达宏观尺度的信息。当前视野类图像特征包含英雄、兵线、野怪、防御塔、地图障碍物和子弹的位置信息，用于表达局部的微观尺度信息。

这种模拟人类视角的多模态和多尺度特征不仅可以更好地对空间相对位置关系进行建模，而且非常适合MOBA游戏中高维状态特征的表达。

其次，本发明实施例中，介绍了三种待训练特征的具体内容，其中，第一待训练特征为二维向量特征，第二待训练特征为二维向量特征，第三待训练特征为一维向量特征。通过上述方式，一方面能够确定三种待训练特征中所包含的具体信息，由此得到更多的信息量用于进行模型训练。另一方面，第一待训练特征和第二待训练特征都是二维向量特征，有利于提升特征的空间表达，从而增加特征的多样性。

可选地，在上述图7对应的实施例的基础上，本发明实施例提供模型训练的方法第二个可选实施例中，第一待训练标签包括按键类型信息和/或按键参数信息；

其中，按键参数信息包括方向型参数、位置型参数以及目标型参数中的至少一项，方向型参数用于表示角色移动的方向，位置型参数用于表示角色所在的位置，目标型参数用于表示角色的待输出对象。

本实施例中，将对第一待训练标签所包含的内容进行详细介绍。第一待训练标签包括按键类型信息和/或按键参数信息，通常情况下，为了提升标签的精准度，会同时考虑将按键类型信息和按键参数信息作为第一待训练标签。由于人类玩家在操作时，通常先决定用哪个按键，再决定按键的操作参数，因此，本发明采用了分层的标签设计，即先预测当前时刻应该执行哪个按键，然后预测该按键的释放参数，

为了便于理解，下面将结合附图具体介绍第一待训练标签。按键参数信息主要分为三种类型的信息，分别为方向型信息、位置型信息以及目标型信息。一圈方向为360度，假设每6度设定为一个标签，则可以将方向型信息离散化成60个方向。一个英雄角色通常占据图像中的1000个像素，因此，可以将位置型信息离散化成30×30个位置。而目标型信息表示为候选的攻击目标，具体可以是指英雄角色发动技能时所攻击的对象。

请参阅图11，图11为本发明实施例中微操作标签的一个作示意图，如图所示，英雄角色在A1所示的范围内发动技能3，技能方向为右下方的45度方向。A2指示技能3在操作界面中的位置。由此表示人类玩家操作为“技能3+方向”。请参阅图12，图12为本发明实施例中微操作标签的另一个作示意图，如图所示，英雄角色按照A3所示的方向进行移动，移动方向正右方。由此表示人类玩家操作为“移动+方向”。请参阅图13，图13为本发明实施例中微操作标签的另一个作示意图，如图所示，英雄角色在发动技能1，A4指示技能1在操作界面中的位置。由此表示人类玩家操作为“技能1”。请参阅图14，图14为本发明实施例中微操作标签的另一个作示意图，如图所示，英雄角色在A5所示的范围内发动技能2，技能方向为右上方的45度方向。A6指示技能2在操作界面中的位置。由此表示人类玩家操作为“技能2+方向”。

AI可以对不同释放类型的技能分别预测，即对方向型按键预测方向，对位置型按键预测位置，对目标型按键预测具体目标。分层标签的设计方法更贴近人类玩家在游戏过程中的真实操作意图，更有利于AI的学习。

其次，本发明实施例中，说明了第一待训练标签包括按键类型信息和/或按键参数信息，其中，按键参数信息包括方向型参数、位置型参数以及目标型参数中的至少一项，方向型参数用于表示角色移动的方向，位置型参数用于表示角色所在的位置，目标型参数用于表示角色的待输出对象。通过上述方式，将第一待训练标签的内容更加精细化，以分层的方式建立标签，可以更加贴近人类玩家在游戏过程中的真实操作意图，从而有利于提升AI的学习能力。

可选地，在上述图7对应的实施例的基础上，本发明实施例提供模型训练的方法第三个可选实施例中，第二待训练标签包括操作意图信息以及角色位置信息；

其中，操作意图信息表示角色与对象进行交互的目的，角色位置信息表示角色在第一区域内的位置。

本实施例中，将对第二待训练标签所包含的内容进行详细介绍，第二待训练标签包括操作意图信息以及角色位置信息。在实际应用中，人类玩家会根据当前的游戏状态进行大局观的决策，例如，去清理上路的兵线，去打我方野区的野怪，去中路参加团战，去推下路的防御塔等。这些大局观决策并不像微操一样，有明确的操作按键与其对应，而是作为一种隐含的意图反映在玩家数据中。

为了便于理解，请参阅图15，图15为本发明实施例中大局观标签的一个示意图，具体地，根据时间线的变化得到人类大局观以及对应的大局观标签(第二待训练标签)。可以将一局人类玩家的对战录像分成“团战”、“清兵”、“打野”和“推塔”等场景，将这些场景建模即可表达为玩家大局观意图的操作意图信息，并且将小地图离散化成了24*24个格子，角色位置信息表示为角色下一次攻击时所在的格子。如图9所示，第二待训练标签为操作意图信息+角色位置信息，即分别表示为“打野+坐标A”，“团战+坐标B”以及“清兵+坐标C”。

其次，本发明实施例中，说明了第二待训练标签包括操作意图信息以及角色位置信息，其中，操作意图信息表示角色与对象进行交互的目的，角色位置信息表示角色在第一区域内的位置。通过上述方式，利用操作意图信息以及角色位置信息共同反映人类玩家的大局观，在MOBA游戏中大局观的决策是非常重要的，从而提升了方案的可行性和可操作性。

可选地，在上述图7对应的实施例的基础上，本发明实施例提供模型训练的方法第四个可选实施例中，根据每个待训练图像中的待训练特征集合，以及每个待训练图像所对应的第一待训练标签以及第二待训练标签，训练得到目标联合模型，可以包括：

对每个待训练图像中的待训练特征集合进行处理，得到目标特征集合，其中，目标特征集合包括第一目标特征、第二目标特征以及第三目标特征；

通过长短期记忆LSTM层获取目标特征集合所对应的第一预测标签以及第二预测标签，其中，第一预测标签表示预测得到的与操作内容相关的标签，第二预测标签表示预测得到的与操作意图相关的标签；

根据每个待训练图像的第一预测标签、第一待训练标签、第二预测标签以及第二待训练标签，训练得到模型核心参数，其中，第一预测标签与第二预测标签均属于预测值，第一待训练标签以及第二待训练标签均属于真实值；

根据模型核心参数生成目标联合模型。

本实施例中，将介绍训练得到目标联合模型的大致过程，为了便于理解，请参阅图16，图16为本发明实施例中目标联合模型的一个网络结构示意图，如图所示，模型的输入是当前帧待训练图像的待训练特征集合，该待训练特征集合包括小地图类图像特征(即第一待训练特征)，当前视野类图像特征(即第二待训练特征)和英雄角色的向量特征(即第三待训练特征)，类图像特征分别经过卷积网络进行编码，而向量特征经过全连接网络进行编码，得到目标特征集合，目标特征集合包括第一目标特征、第二目标特征以及第三目标特征，其中，第一目标特征是第一待训练特征经过处理后得到的，第二目标特征是第二待训练特征经过处理后得到的，第三目标特征是第三待训练特征经过处理后得到的。然后将目标特征集合拼接成公用的编码层。编码层输入到长短期记忆(Long Short-Term Memory，LSTM)网络层，LSTM网络层主要用于解决英雄视野的部分可观问题。

其中，LSTM网络是一种时间递归神经网络，适合于处理和预测时间序列中间隔和延迟相对较长的重要事件。LSTM区别于循环神经网络(Recurrent Neural Network，RNN)的地方，主要就在于它在算法中加入了一个判断信息有用与否的处理器，这个处理器作用的结构被称为单元。一个单元当中被放置了三扇门，分别叫做输入门、遗忘门和输出门。一个信息进入LSTM网络层当中，可以根据规则来判断是否有用，只有符合算法认证的信息才会留下，不符的信息则通过遗忘门被遗忘。LSTM是解决长序依赖问题的有效技术，并且这种技术的普适性非常高。对于MOBA游戏而言可能会存在不可见的视野问题，即我方英雄角色仅能观察到我方单元(如队友的英雄角色)附近的敌方英雄、野怪和兵线，其他位置的敌方单元则观察不到，并且敌方英雄还可以通过躲在草丛或者使用隐身技能来屏蔽自身视野。这样的话，在训练模型的过程中由于考虑信息的完整性，因此，需要利用LSTM网络层还原这些隐藏的信息。

基于LSTM层的输出结果可以得到该帧待训练图像的第一预测标签以及第二预测标签。由于根据人工标注结果确定该帧待训练图像的第一待训练标签和第二待训练标签，此时可以采用损失函数获取第一预测标签和第一待训练标签之间的最小值，并且采用损失函数获取第二预测标签和第二待训练标签之间的最小值，在最小值的情况下确定模型核心参数。其中，模型核心参数包括微操任务(如按键、移动、普攻、技能1、技能2和技能3等)下的模型参数以及大局观任务下的模型参数。根据模型核心参数生成目标联合模型。

可以理解的是，每个输出任务均可以独立计算，即每个任务的输出层全连接网络参数只受该任务的影响。目标联合模型中包含了预测大局观位置和意图的辅助任务，该大局观任务的输出以级联的形式输入到微操任务的编码层中。

需要说明的是，损失函数是用来估量模型的预测值与真实值之间不一致的程度，它是一个非负实值函数。损失函数越小，标识模型的鲁棒性就越好。损失函数是经验风险函数的核心部分，也是结构风险函数的重要组成部分。常用损失函数包含但不仅限于铰链损失(Hinge Loss)、互熵损失(Cross Entropy Loss)、平方损失(Square Loss)以及指数损失(Exponential Loss)。

其次，本发明实施例中，提供了训练得到目标联合模型的具体过程，主要包括先对每个待训练图像中的待训练特征集合进行处理，得到目标特征集合，然后通过LSTM获取目标特征集合所对应的第一预测标签以及第二预测标签，再根据每个待训练图像的第一预测标签、第一待训练标签、第二预测标签以及第二待训练标签，训练得到模型核心参数，该模型核心参数用于生成目标联合模型。通过上述方式，利用LSTM层可以解决部分视野不可观测的问题，即LSTM层能够获取过去一段时间内的数据，由此能够使得数据更加完整，有利于在模型训练的过程中进行推断和决策。

可选地，在上述图7对应的第四个实施例的基础上，本发明实施例提供模型训练的方法第五个可选实施例中，对每个待训练图像中的待训练特征集合进行处理，得到目标特征集合，可以包括：

通过全连接层对每个待训练图像中的第三待训练特征进行处理，得到第三目标特征，其中，第三目标特征为一维向量特征；

通过卷积层对每个待训练图像中的第二待训练特征进行处理，得到第二目标特征，其中，第二目标特征为一维向量特征；

通过卷积层对每个待训练图像中的第一待训练特征进行处理，得到第一目标特征，其中，第一目标特征为一维向量特征。

本实施例中，将介绍如何对模型输入的每帧待训练图像的待训练特征集合进行处理，其中，该待训练特征集合包括小地图类图像特征(即第一待训练特征)，当前视野类图像特征(即第二待训练特征)和英雄角色的向量特征(即第三待训练特征)。具体地，对于第三待训练特征的处理方式是，将第三待训练特征输入至FC层，经过FC层输出得到第三目标特征。FC层的作用是将分布式特征表示映射到样本标记空间。FC层的每一个结点都与上一层的所有结点相连，用来把前边提取到的特征综合起来。由于其全相连的特性，通常情况下，全连接层的参数也是最多的。

对于第一待训练特征和第二待训练特征的处理方式是，分别将两者输入至卷积层，经过卷积层输出第一待训练特征所对应的第一目标特征，以及输出第二待训练特征所对应的第二目标特征。通过卷积层可以将原始图像拉平(flat)，针对图像数据来说，一个像素会与其上下左右等方向的数据有很大的相关性，全连接时，将数据展开后，容易忽略图片的相关性，或者是将毫无相关的两个像素强制关联在一起。因此，需要对图像数据进行卷积处理。假设第一待训练特征所对应的图像像素为10×10，经过卷积层后得到的第一目标特征为100维的向量特征。假设第二待训练特征所对应的图像像素为10×10，经过卷积层后得到的第二目标特征为100维的向量特征。假设第三待训练特征所对应的第三目标特征为10维的向量特征。那么经过拼接(concat)层可以得到210(100+100+10)的向量特征。

再次，本发明实施例中，还可以对待训练特征集合进行处理，即通过全连接层对每个待训练图像中的第一待训练特征进行处理，得到第一目标特征，通过卷积层对每个待训练图像中的第二待训练特征进行处理，得到第二目标特征，通过卷积层对每个待训练图像中的第三待训练特征进行处理，得到第三目标特征。通过上述方式，能够得到均为一维向量的特征，由此可以将这些向量特征进行拼接处理，便于后续的模型训练，有利于提升方案的可行性和可操作性。

可选地，在上述图7对应的第四个实施例的基础上，本发明实施例提供模型训练的方法第六个可选实施例中，通过长短期记忆LSTM层获取目标特征集合所对应的第一预测标签以及第二预测标签，可以包括：

通过长短期记忆LSTM层获取目标特征集合所对应的第一预测标签、第二预测标签以及第三预测标签，第三预测标签表示预测得到的与胜负情况相关的标签；

根据每个待训练图像的第一预测标签、第一待训练标签、第二预测标签以及第二待训练标签，训练得到模型核心参数，包括：

获取每个待训练图像所对应的第三待训练标签，其中，第三待训练标签用于表示实际胜负情况；

根据第一预测标签、第一待训练标签、第二预测标签、第二待训练标签、第三预测标签以及第三待训练标签，训练得到模型核心参数，其中，第三待训练标签属于预测值，第三预测标签属于真实值。

本实施例中，还介绍了目标联合模型可以进一步预测胜负情况。具体地，在上述图7对应的第四个实施例的基础上，基于LSTM层的输出结果可以得到该帧待训练图像的第三待训练标签。由于根据人工标注结果确定该帧待训练图像的第三待训练标签和第三待训练标签，此时可以采用损失函数获取第三预测标签和第三待训练标签之间的最小值，在最小值的情况下确定模型核心参数。这个时候，模型核心参数不仅包括微操任务(如按键、移动、普攻、技能1、技能2和技能3等)下的模型参数以及大局观任务下的模型参数，同时还可以包括胜负任务下的模型参数，最后根据模型核心参数生成目标联合模型。

再次，本发明实施例中，说明了目标联合模型还可以进一步训练与胜负相关的标签，即服务器通过LSTM层获取目标特征集合所对应的第一预测标签、第二预测标签以及第三预测标签，第三预测标签表示预测得到的与胜负情况相关的标签，然后获取每个待训练图像所对应的第三待训练标签，最后根据第一预测标签、第一待训练标签、第二预测标签、第二待训练标签、第三预测标签以及第三待训练标签，训练得到模型核心参数。通过上述方式，目标联合模型还能够预测比赛胜率，由此，可以加强对局面的认知和学习，从而提升模型应用的可靠性和多样性。

可选地，在上述图7以及图7对应的第一个至第六个实施例中任一项的基础上，本发明实施例提供模型训练的方法第七个可选实施例中，根据每个待训练图像中的待训练特征集合，以及每个待训练图像所对应的第一待训练标签以及第二待训练标签，训练得到目标联合模型之后，还可以包括：

获取待训练视频，其中，待训练视频包括多帧交互图像；

通过目标联合模型获取待训练视频对应的目标场景数据，其中，目标场景数据包括在目标场景下的相关数据；

根据目标场景数据、第一待训练标签以及第一预测标签，训练得到目标模型参数，其中，第一预测标签表示预测得到的与操作内容相关的标签，第一预测标签属于预测值，第一待训练标签属于真实值；

采用目标模型参数对目标联合模型进行更新，得到强化联合模型。

本实施例中，由于MOBA游戏的玩家众多，因此通常有大量人类玩家数据可以用于监督学习训练，从而通过模型来模拟人类操作。然而，由于人类的紧张或注意力不集中等各种因素可能会存在误操作，比如技能释放方向有偏差，躲避敌方技能不及时等，由此导致训练数据中存在着不良样本。有鉴于此，本发明能够通过强化学习来优化目标联合模型中的部分任务层。例如，不对大局观FC层进行强化学习，而只对微操FC层进行强化学习。

为了便于理解，请参阅图17，图17为本发明实施例中强化联合模型的一个系统结构示意图，如图所示，目标联合模型包括联合模型、大局观FC层以及微操FC层。联合模型中的编码层和大局观FC层已经通过监督学习获取相应的核心模型参数。需要注意的是，在强化学习的过程中，联合模型中的编码层和大局观FC层的核心模型参数保持不变，如此，在强化学习的时候也就不需要学习特征表达，从而加快了强化学习的收敛速度。微操任务在团战场景的决策步数平均为100步(约20秒)，可以有效降低决策步数。通过对微操FC层进行强化，可以提高AI的技能命中率和躲避敌方技能等关键能力。微操FC层采用强化学习算法进行训练，算法具体可以是深度增强学习(Proximal Policy Optimization，PPO)算法。

下面将介绍强化学习的具体流程：

步骤一，在训练得到目标联合模型之后，服务器可以加载监督学习得到的目标联合模型，并固定联合模型的编码层和大局观FC层，并且需要加载游戏环境。

步骤二，获取待训练视频，其中，待训练视频包括多帧交互图像，利用目标联合模型从待训练视频中的起始帧开始进行对战，保存英雄团战场景的目标场景数据，目标场景数据可以包括特征、动作、奖励信号已经联合模型网络输出的概率分布。其中，特征即为英雄属性的向量特征、小地图类图像特征已经当前视野类图像特征。动作即为玩家控制英雄角色时候所采用的按键。奖励信号即为英雄角色在团战过程中击杀敌方英雄角色的次数。联合模型网络输出的概率分布可以表示为微操任务中每个标签的分布概率，比如标签1的分布概率为0.1，标签2的分布概率为0.3，标签3的分布概率为0.6。

步骤三，根据目标场景数据、第一待训练标签以及第一预测标签，训练得到目标模型参数，采用PPO算法对目标联合模型中的核心模型参数进行更新，需要注意的是，这里只更新微操FC层的模型参数，也就是根据第一待训练标签以及第一预测标签生成更新后的模型参数，其中，第一待训练标签和第一预测标签均为与微操任务相关的标签。

步骤四，如果对待训练视频中每帧图像进行步骤二至步骤四的处理，如果未达到最大迭代帧数，则将更新后的目标联合模型发送至对战环境，并返回至步骤二。如果达到最大迭代帧数，则进入步骤五。

步骤五，保存最终强化后得到的强化联合模型。

进一步地，本发明实施例中，还可以通过强化学习来优化目标联合模型中的部分任务层，若需要强化微操任务这部分，则服务器获取待训练视频，然后通过目标联合模型获取待训练视频对应的目标场景数据，基于目标场景数据、第一待训练标签以及第一预测标签，训练得到目标模型参数，最后，服务器采用目标模型参数对目标联合模型进行更新，得到强化联合模型。通过上述方式，对微操FC层进行强化可以提高AI能力，此外，强化学习还可以克服由于人类的紧张或者注意力不集中等各种因素所存在的误操作问题，从而大幅地减少了训练数据中存在的不良样本数量，进而提升模型的可靠性，以及应用该模型进行预测的准确度。强化学习方法可以只对部分场景进行强化，从而降低决策步数，并且加快收敛速度。

可选地，在上述图7以及图7对应的第一个至第六个实施例中任一项的基础上，本发明实施例提供模型训练的方法第八个可选实施例中，根据每个待训练图像中的待训练特征集合，以及每个待训练图像所对应的第一待训练标签以及第二待训练标签，训练得到目标联合模型之后，还可以包括：

获取待训练视频，其中，待训练视频包括多帧交互图像；

根据目标场景数据、第二待训练标签以及第二预测标签，训练得到目标模型参数，其中，第二预测标签表示预测得到的与操作意图相关的标签，第二预测标签属于预测值，第二待训练标签属于真实值；

本实施例中，由于MOBA游戏的玩家众多，因此通常有大量人类玩家数据可以用于监督学习训练，从而通过模型来模拟人类操作。然而，由于人类的紧张或注意力不集中等各种因素可能会存在误操作，比如技能释放方向有偏差，躲避敌方技能不及时等，由此导致训练数据中存在着不良样本。有鉴于此，本发明能够通过强化学习来优化目标联合模型中的部分任务层。例如，不对微操FC层进行强化学习，而只对大局观FC层进行强化学习。

为了便于理解，请参阅图18，图18为本发明实施例中强化联合模型的另一个系统结构示意图，如图所示，目标联合模型包括联合模型、大局观FC层以及微操FC层。联合模型中的编码层和微操FC层已经通过监督学习获取相应的核心模型参数。需要注意的是，在强化学习的过程中，联合模型中的编码层和微操FC层的核心模型参数保持不变，如此，在强化学习的时候也就不需要学习特征表达，从而加快了强化学习的收敛速度。通过对大局观FC层进行强化，可以提高AI的宏观决策能力。大局观FC层采用强化学习算法进行训练，算法具体可以是PPO算法或者深度强化学习(Actor-Critic)算法。

下面将介绍强化学习的具体流程：

步骤一，在训练得到目标联合模型之后，服务器可以加载监督学习得到的目标联合模型，并固定联合模型的编码层和微操FC层，并且需要加载游戏环境。

步骤二，获取待训练视频，其中，待训练视频包括多帧交互图像，利用目标联合模型从待训练视频中的起始帧开始进行对战，保存英雄团战场景的目标场景数据，目标场景数据包括“打野”、“清兵”、“团战”以及“推塔”等场景下的数据。

步骤三，根据目标场景数据、第二待训练标签以及第二预测标签，训练得到目标模型参数，采用Actor-Critic算法对目标联合模型中的核心模型参数进行更新，需要注意的是，这里只更新大局观FC层的模型参数，也就是根据第二待训练标签以及第二预测标签生成更新后的模型参数，其中，第二待训练标签和第二预测标签均为与大局观任务相关的标签。

步骤五，保存最终强化后得到的强化联合模型。

进一步地，本发明实施例中，还可以通过强化学习来优化目标联合模型中的部分任务层，若需要强化当任务这部分，则服务器获取待训练视频，然后通过目标联合模型获取待训练视频对应的目标场景数据，基于根据目标场景数据、第二待训练标签以及第二预测标签，训练得到目标模型参数，最后，服务器采用目标模型参数对目标联合模型进行更新，得到强化联合模型。通过上述方式，对大局观FC层进行强化可以提高AI能力，此外，强化学习还可以克服由于人类的紧张或者注意力不集中等各种因素所存在的误操作问题，从而大幅地减少了训练数据中存在的不良样本数量，进而提升模型的可靠性，以及应用该模型进行预测的准确度。强化学习方法可以只对部分场景进行强化，从而降低决策步数，并且加快收敛速度。

下面对本发明中的服务器进行详细描述，请参阅图19，图19为本发明实施例中服务器一个实施例示意图，服务器30包括：

获取模块301，用于获取待预测图像；

提取模块302，用于提取所述获取模块301获取的所述待预测图像中的待预测特征集合，其中，所述待预测特征集合包括第一待预测特征、第二待预测特征以及第三待预测特征，所述第一待预测特征表示第一区域的图像特征，所述第二待预测特征表示第二区域的图像特征，所述第三待预测特征表示与交互操作相关的属性特征，所述第一区域的范围小于所述第二区域的范围；

所述获取模块301，还用于通过目标联合模型获取所述提取模块302提取的所述待预测特征集合所对应的第一标签以及第二标签，其中，所述第一标签表示与操作内容相关的标签，所述第二标签表示与操作意图相关的标签。

本实施例中，获取模块301获取待预测图像，提取模块302提取所述获取模块301获取的所述待预测图像中的待预测特征集合，其中，所述待预测特征集合包括第一待预测特征、第二待预测特征以及第三待预测特征，所述第一待预测特征表示第一区域的图像特征，所述第二待预测特征表示第二区域的图像特征，所述第三待预测特征表示与交互操作相关的属性特征，所述第一区域的范围小于所述第二区域的范围，所述获取模块301通过目标联合模型获取所述提取模块302提取的所述待预测特征集合所对应的第一标签以及第二标签，其中，所述第一标签表示与操作内容相关的标签，所述第二标签表示与操作意图相关的标签。

本发明实施例中，提供了一种服务器，首先，该服务器获取待预测图像，然后提取待预测图像中的待预测特征集合，其中，待预测特征集合包括第一待预测特征、第二待预测特征以及第三待预测特征，第一待预测特征表示第一区域的图像特征，第二待预测特征表示第二区域的图像特征，第三待预测特征表示与交互操作相关的属性特征，第一区域的范围小于第二区域的范围，最后，服务器可以通过目标联合模型获取待预测图像所对应的第一标签以及第二标签，其中，第一标签表示与操作内容相关的标签，第二标签表示与操作意图相关的标签。通过上述方式，仅使用一个联合模型就可以预测微操和大局观，其中，微操的预测结果表示为第一标签，大局观的预测结果表示第二标签，因此，将大局观模型和微操模型合并成一个联合模型，有效地解决了分层模型中的硬切换问题，提升了预测的便利性。

可选地，在上述图19所对应的实施例的基础上，本发明实施例提供的服务器30的另一实施例中，

所述获取模块301，具体用于通过所述目标联合模型获取所述待预测特征集合所对应的所述第一标签、所述第二标签以及第三标签，其中，所述第三标签表示与胜负情况相关的标签。

下面对本发明中的服务器进行详细描述，请参阅图20，图20为本发明实施例中服务器一个实施例示意图，服务器40包括：

获取模块401，用于获取待训练图像集合，其中，所述待训练图像集合包括N个待训练图像，所述N为大于或等于1的整数；

提取模块402，用于提取所述获取模块401获取的每个待训练图像中的待训练特征集合，其中，所述待训练特征集合包括第一待训练特征、第二待训练特征以及第三待训练特征，所述第一待训练特征表示第一区域的图像特征，所述第二待训练特征表示第二区域的图像特征，所述第三待训练特征表示与交互操作相关的属性特征，所述第一区域的范围小于所述第二区域的范围；

所述获取模块401，用于获取所述每个待训练图像所对应的第一待训练标签以及第二待训练标签，其中，所述第一待训练标签表示与操作内容相关的标签，所述第二待训练标签表示与操作意图相关的标签；

训练模块403，用于根据所述提取模块402提取的所述每个待训练图像中的所述待训练特征集合，以及所述获取模块获取的所述每个待训练图像所对应的所述第一待训练标签以及所述第二待训练标签，训练得到目标联合模型。

本实施例中，获取模块401获取待训练图像集合，其中，所述待训练图像集合包括N个待训练图像，所述N为大于或等于1的整数，提取模块402提取所述获取模块401获取的每个待训练图像中的待训练特征集合，其中，所述待训练特征集合包括第一待训练特征、第二待训练特征以及第三待训练特征，所述第一待训练特征表示第一区域的图像特征，所述第二待训练特征表示第二区域的图像特征，所述第三待训练特征表示与交互操作相关的属性特征，所述第一区域的范围小于所述第二区域的范围，所述获取模块401获取所述每个待训练图像所对应的第一待训练标签以及第二待训练标签，其中，所述第一待训练标签表示与操作内容相关的标签，所述第二待训练标签表示与操作意图相关的标签，训练模块403根据所述提取模块402提取的所述每个待训练图像中的所述待训练特征集合，以及所述获取模块获取的所述每个待训练图像所对应的所述第一待训练标签以及所述第二待训练标签，训练得到目标联合模型。

可选地，在上述图20所对应的实施例的基础上，本发明实施例提供的服务器40的另一实施例中，

所述第一待训练标签包括按键类型信息和/或按键参数信息；

所述第二待训练标签包括操作意图信息以及角色位置信息；

所述训练模块403，具体用于对所述每个待训练图像中的所述待训练特征集合进行处理，得到目标特征集合，其中，所述目标特征集合包括第一目标特征、第二目标特征以及第三目标特征；

根据所述模型核心参数生成所述目标联合模型。

所述训练模块403，具体用于通过全连接层对所述每个待训练图像中的所述第三待训练特征进行处理，得到所述第三目标特征，其中，所述第三目标特征为一维向量特征；

所述训练模块403，具体用于通过长短期记忆LSTM层获取所述目标特征集合所对应的第一预测标签、第二预测标签以及第三预测标签，所述第三预测标签表示预测得到的与胜负情况相关的标签；

可选地，在上述图20所对应的实施例的基础上，请参阅图21，本发明实施例提供的服务器40的另一实施例中，所述服务器40还包括更新模块404；

所述获取模块401，还用于在所述训练模块403根据所述每个待训练图像中的所述待训练特征集合，以及所述每个待训练图像所对应的所述第一待训练标签以及所述第二待训练标签，训练得到目标联合模型之后，获取待训练视频，其中，所述待训练视频包括多帧交互图像；

所述获取模块401，还用于通过所述目标联合模型获取所述待训练视频对应的目标场景数据，其中，所述目标场景数据包括在目标场景下的相关数据；

所述训练模块403，还用于根据所述获取模块401获取的所述目标场景数据、所述第一待训练标签以及第一预测标签，训练得到目标模型参数，其中，所述第一预测标签表示预测得到的与操作内容相关的标签，所述第一预测标签属于预测值，所述第一待训练标签属于真实值；

所述更新模块404，用于采用所述训练模块403训练得到的所述目标模型参数对所述目标联合模型进行更新，得到强化联合模型。

可选地，在上述图20所对应的实施例的基础上，请再次参阅图21，本发明实施例提供的服务器40的另一实施例中，所述服务器40还包括更新模块404；

所述训练模块403，还用于根据所述获取模块401获取的所述目标场景数据、所述第二待训练标签以及第二预测标签，训练得到目标模型参数，其中，所述第二预测标签表示预测得到的与操作意图相关的标签，所述第二预测标签属于预测值，所述第二待训练标签属于真实值；

图22是本发明实施例提供的一种服务器结构示意图，该服务器500可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processingunits，CPU)522(例如，一个或一个以上处理器)和存储器532，一个或一个以上存储应用程序542或数据544的存储介质530(例如一个或一个以上海量存储设备)。其中，存储器532和存储介质530可以是短暂存储或持久存储。存储在存储介质530的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器522可以设置为与存储介质530通信，在服务器500上执行存储介质530中的一系列指令操作。

服务器500还可以包括一个或一个以上电源526，一个或一个以上有线或无线网络接口550，一个或一个以上输入输出接口558，和/或，一个或一个以上操作系统541，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

上述实施例中由服务器所执行的步骤可以基于该图22所示的服务器结构。

本发明实施例中，CPU 522用于执行如下步骤：

获取待预测图像；

可选地，CPU 522具体用于执行如下步骤：

通过所述目标联合模型获取所述待预测特征集合所对应的所述第一标签、所述第二标签以及第三标签，其中，所述第三标签表示与胜负情况相关的标签。

本发明实施例中，CPU 522用于执行如下步骤：

可选地，CPU 522具体用于执行如下步骤：

对所述每个待训练图像中的所述待训练特征集合进行处理，得到目标特征集合，其中，所述目标特征集合包括第一目标特征、第二目标特征以及第三目标特征；

根据所述模型核心参数生成所述目标联合模型。

可选地，CPU 522具体用于执行如下步骤：

通过全连接层对所述每个待训练图像中的所述第三待训练特征进行处理，得到所述第三目标特征，其中，所述第三目标特征为一维向量特征；

可选地，CPU 522具体用于执行如下步骤：

通过长短期记忆LSTM层获取所述目标特征集合所对应的第一预测标签、第二预测标签以及第三预测标签，所述第三预测标签表示预测得到的与胜负情况相关的标签；

所述根据所述每个待训练图像的所述第一预测标签、所述第一待训练标签、所述第二预测标签以及所述第二待训练标签，训练得到模型核心参数，包括：

可选地，CPU 522还用于执行如下步骤：

获取待训练视频，其中，所述待训练视频包括多帧交互图像；

通过所述目标联合模型获取所述待训练视频对应的目标场景数据，其中，所述目标场景数据包括在目标场景下的相关数据；

根据所述目标场景数据、所述第一待训练标签以及第一预测标签，训练得到目标模型参数，其中，所述第一预测标签表示预测得到的与操作内容相关的标签，所述第一预测标签属于预测值，所述第一待训练标签属于真实值；

采用所述目标模型参数对所述目标联合模型进行更新，得到强化联合模型。

可选地，CPU 522还用于执行如下步骤：

根据所述目标场景数据、所述第二待训练标签以及第二预测标签，训练得到目标模型参数，其中，所述第二预测标签表示预测得到的与操作意图相关的标签，所述第二预测标签属于预测值，所述第二待训练标签属于真实值；

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本发明所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种信息预测的方法，其特征在于，包括：

获取待预测图像；

2.根据权利要求1所述的方法，其特征在于，所述通过目标联合模型获取所述待预测特征集合所对应的第一标签和/或第二标签，包括：

3.一种模型训练的方法，其特征在于，包括：

4.根据权利要求3所述的方法，其特征在于，

5.根据权利要求3所述的方法，其特征在于，

所述第一待训练标签包括按键类型信息和/或按键参数信息；

6.根据权利要求3所述的方法，其特征在于，

所述第二待训练标签包括操作意图信息以及角色位置信息；

7.根据权利要求3所述的方法，其特征在于，所述根据所述每个待训练图像中的所述待训练特征集合，以及所述每个待训练图像所对应的所述第一待训练标签以及所述第二待训练标签，训练得到目标联合模型，包括：

根据所述模型核心参数生成所述目标联合模型。

8.根据权利要求7所述的方法，其特征在于，所述对所述每个待训练图像中的所述待训练特征集合进行处理，得到目标特征集合，包括：

9.根据权利要求7所述的方法，其特征在于，所述通过长短期记忆LSTM层获取所述目标特征集合所对应的第一预测标签以及第二预测标签，包括：

10.根据权利要求3至9中任一项所述的方法，其特征在于，所述根据所述每个待训练图像中的所述待训练特征集合，以及所述每个待训练图像所对应的所述第一待训练标签以及所述第二待训练标签，训练得到目标联合模型之后，所述方法还包括：

11.根据权利要求3至9中任一项所述的方法，其特征在于，所述根据所述每个待训练图像中的所述待训练特征集合，以及所述每个待训练图像所对应的所述第一待训练标签以及所述第二待训练标签，训练得到目标联合模型之后，所述方法还包括：

12.一种服务器，其特征在于，包括：

获取模块，用于获取待预测图像；

13.一种服务器，其特征在于，包括：

14.一种服务器，其特征在于，包括：存储器、收发器、处理器以及总线系统；

其中，所述存储器用于存储程序；

所述处理器用于执行所述存储器中的程序，包括如下步骤：

获取待预测图像；

通过目标联合模型获取所述待预测特征集合所对应的第一标签和/或第二标签，其中，所述第一标签表示与操作内容相关的标签，所述第二标签表示与操作意图相关的标签；

所述总线系统用于连接所述存储器以及所述处理器，以使所述存储器以及所述处理器进行通信。

15.一种服务器，其特征在于，包括：存储器、收发器、处理器以及总线系统；

其中，所述存储器用于存储程序；

所述处理器用于执行所述存储器中的程序，包括如下步骤：

根据所述每个待训练图像中的所述待训练特征集合，以及所述每个待训练图像所对应的所述第一待训练标签以及所述第二待训练标签，训练得到目标联合模型；