CN109893857B - 一种操作信息预测的方法、模型训练的方法及相关装置 - Google Patents

一种操作信息预测的方法、模型训练的方法及相关装置 Download PDF

Info

Publication number
CN109893857B
CN109893857B CN201910193991.2A CN201910193991A CN109893857B CN 109893857 B CN109893857 B CN 109893857B CN 201910193991 A CN201910193991 A CN 201910193991A CN 109893857 B CN109893857 B CN 109893857B
Authority
CN
China
Prior art keywords
trained
character
role
information
predicted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910193991.2A
Other languages
English (en)
Other versions
CN109893857A (zh
Inventor
李宏亮
杜雪莹
屈鹏
李思琴
梁静
王亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201910193991.2A priority Critical patent/CN109893857B/zh
Publication of CN109893857A publication Critical patent/CN109893857A/zh
Application granted granted Critical
Publication of CN109893857B publication Critical patent/CN109893857B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

本申请公开了一种操作信息预测的方法,包括:获取待预测图像数据;根据待预测图像数据确定第一角色集合中的N个待预测角色;获取待预测图像数据中每个待预测角色的待预测特征集合;通过目标联合模型获取每个待预测角色所对应的第一操作信息,其中,目标联合模型用于根据所述待预测特征集合生成第二操作信息,目标联合模型还用于根据第二操作信息生成第一操作信息,第一操作信息表示与操作内容相关的信息,第二操作信息表示与操作意图相关的信息。本申请还公开了一种模型训练的方法以及相关装置。本申请利用目标联合模型即可同时获得微操作和大局观操作这两个层次的合作能力,由此加强模型的预测能力,从而提升信息预测的合理性。

Description

一种操作信息预测的方法、模型训练的方法及相关装置
技术领域
本申请涉及人工智能技术领域,尤其涉及一种操作信息预测的方法、模型训练的方法及相关装置。
背景技术
人工智能(artificial intelligence,AI)程序已经在规则明确的棋类游戏里战胜了顶级职业选手。相比之下,多人在线战术竞技(multiplayer online battle arena,MOBA)游戏的操作更加复杂,更接近真实世界的场景。攻克MOBA游戏中的AI问题,有助于我们探索和解决真实世界的复杂问题。
目前,针对MOBA游戏多人合作问题,通常采用多智能体强化学习方法,通过自我对战的方式学习合作。请参阅图1,图1为现有方案中多智能体强化学习的一个模型结构示意图,如图所示,模型的输入为属性信息(比如英雄、野怪以及兵线等)、地图信息(比如障碍物等)、全局信息(比如时间等)以及小地图信息。经过一系列的处理后,可以输出与对象关联的微操作信息。
然而,对于MOBA游戏而言,多人之间的合作不仅需要体现在对象的微操作上,在实际应用中,不同对象之间的配合和互动也是非常重要的,因此,采用上述介绍的多智能体强化学习模型进行操作信息的预测是不全面的,不利于信息预测合理性。
发明内容
本申请实施例提供了一种操作信息预测的方法、模型训练的方法及相关装置,利用目标联合模型先预测角色集合的大局观操作信息,再基于大局观操作信息预测得到该角色集合的微操作信息,即可同时获得微操作和大局观操作这两个层次的合作能力,由此加强模型的预测能力,从而提升信息预测的合理性。
有鉴于此,本申请第一方面提供一种操作信息预测的方法,包括:
获取待预测图像数据,其中,所述待预测图像数据包括第一角色集合的数据以及第二角色集合的数据,所述第一角色集合与所述第二角色集合为不同的两个角色集合;
根据所述待预测图像数据确定所述第一角色集合中的待预测角色;
获取所述待预测图像数据中每个待预测角色的待预测特征集合,其中,所述待预测特征集合包括向量特征以及图像特征,所述向量特征包括公有向量特征以及私有向量特征,所述公有向量特征包括所述第一角色集合对应的属性特征、所述第二角色集合对应的属性特征、交互对象特征以及全局特征,所述私有向量特征包括待预测角色对应的操作特征,所述图像特征包括所述所述待预测角色对应的局部视野特征;
通过目标联合模型获取所述每个待预测角色所对应的第一操作信息,其中,所述目标联合模型用于根据所述待预测特征集合生成第二操作信息,所述目标联合模型还用于根据所述第二操作信息生成所述第一操作信息,所述第一操作信息表示与操作内容相关的信息,所述第二操作信息表示与操作意图相关的信息。
本申请第二方面提供一种模型训练的方法,包括:
获取待训练图像数据集合,其中,所述待训练图像数据集合包括至少一个待训练图像数据,所述待训练图像数据集合包括第一角色集合的数据以及第二角色集合的数据,所述第一角色集合与所述第二角色集合为不同的两个角色集合;
根据所述待训练图像数据集合确定所述第一角色集合所对应的待训练角色集合,其中,所述待训练角色集合中包括多个待训练角色,不同的待训练角色对应不同的角色类型;
获取所述待训练角色集合中每个待训练角色所对应的操作标签,其中,所述操作标签包括第一操作标签以及第二操作标签,所述第一操作标签表示与操作内容相关的标签,所述第二操作标签表示与操作意图相关的标签;
获取所述待训练图像数据集合中所述每个待训练角色所对应的待训练特征集合,其中,所述待训练特征集合包括公有向量特征、私有向量特征以及图像特征,所述公有向量特征包括所述第一角色集合对应的属性特征、所述第二角色集合对应的属性特征、交互对象特征以及全局特征,所述私有向量特征包括所述待训练角色的操作特征,所述图像特征包括所述待训练角色对应的局部视野特征;
根据所述每个待训练角色所对应的操作标签,以及所述每个待训练角色所对应的待训练特征集合,训练得到目标联合模型。
本申请第三方面提供一种操作信息预测装置,包括:
获取模块,用于获取待预测图像数据,其中,所述待预测图像数据包括第一角色集合的数据以及第二角色集合的数据,所述第一角色集合与所述第二角色集合为不同的两个角色集合;
确定模块,用于根据所述获取模块获取的所述待预测图像数据确定所述第一角色集合中的待预测角色;
所述获取模块,还用于获取所述待预测图像数据中所述确定模块确定的每个待预测角色的待预测特征集合,其中,所述待预测特征集合包括向量特征以及图像特征,所述向量特征包括公有向量特征以及私有向量特征,所述公有向量特征包括所述第一角色集合对应的属性特征、所述第二角色集合对应的属性特征、交互对象特征以及全局特征,所述私有向量特征包括待预测角色对应的操作特征,所述图像特征包括所述所述待预测角色对应的局部视野特征;
所述获取模块,还用于通过目标联合模型获取所述确定模块确定的所述每个待预测角色所对应的第一操作信息,其中,所述目标联合模型用于根据所述待预测特征集合生成第二操作信息,所述目标联合模型还用于根据所述第二操作信息生成所述第一操作信息,所述第一操作信息表示与操作内容相关的信息,所述第二操作信息表示与操作意图相关的信息。
本申请第四方面提供一种模型训练装置,包括:
获取模块,用于获取待训练图像数据集合,其中,所述待训练图像数据集合包括至少一个待训练图像数据,所述待训练图像数据集合包括第一角色集合的数据以及第二角色集合的数据,所述第一角色集合与所述第二角色集合为不同的两个角色集合;
确定模块,用于根据所述获取模块获取的所述待训练图像数据集合确定所述第一角色集合所对应的待训练角色集合,其中,所述待训练角色集合中包括多个待训练角色,不同的待训练角色对应不同的角色类型;
所述获取模块,还用于获取所述确定模块确定的所述待训练角色集合中每个待训练角色所对应的操作标签,其中,所述操作标签包括第一操作标签以及第二操作标签,所述第一操作标签表示与操作内容相关的标签,所述第二操作标签表示与操作意图相关的标签;
所述获取模块,还用于获取所述待训练图像数据集合中所述每个待训练角色所对应的待训练特征集合,其中,所述待训练特征集合包括公有向量特征、私有向量特征以及图像特征,所述公有向量特征包括所述第一角色集合对应的属性特征、所述第二角色集合对应的属性特征、交互对象特征以及全局特征,所述私有向量特征包括所述待训练角色的操作特征,所述图像特征包括所述待训练角色对应的局部视野特征;
训练模块,用于根据所述获取模块获取的所述每个待训练角色所对应的操作标签,以及所述每个待训练角色所对应的待训练特征集合,训练得到目标联合模型。
在一种可能的设计中,在本申请实施例的第四方面的第一种实现方式中,
所述确定模块,具体用于根据所述待训练图像数据集合获取所述第一角色集合中的操作对象集合,其中,所述操作对象集合中包括多个操作对象;
根据预设匹配规则确定所述操作对象集合中每个操作对象所对应的可匹配角色集合,其中,所述可匹配角色集合包括至少一个可匹配角色;
根据所述每个操作对象所对应的可匹配角色集合,判断是否满足预设角色匹配条件;
若满足所述预设角色匹配条件,则确定所述待训练角色集合,其中,所述待训练角色集合中的待训练角色与所述操作对象集合中的操作对象具有一一对应关系。
在一种可能的设计中,在本申请实施例的第四方面的第二种实现方式中,
所述确定模块,具体用于根据所述待训练图像数据集合获取所述第一角色集合中的操作对象集合,其中,所述操作对象集合中包括多个操作对象;
获取所述操作对象集合中每个操作对象所对应的位置分布特征;
将所述每个操作对象所对应的位置分布特征与预设角色匹配模板进行比对,得到所述待训练角色集合,其中,所述预设角色匹配模板为预先根据不同角色的位置分布特征聚类后生成的模板。
在一种可能的设计中,在本申请实施例的第四方面的第三种实现方式中,
所述获取模块,具体用于根据所述待训练图像数据集合,获取所述每个待训练角色的按键类型信息和按键参数信息,其中,所述按键参数信息包括方向型参数、位置型参数以及目标型参数中的至少一项,所述方向型参数用于表示角色的移动方向,所述位置型参数用于表示角色所在的位置,所述目标型参数用于表示角色的待输出对象;
根据所述每个待训练角色的按键类型信息和按键参数信息,生成所述待训练角色集合中所述每个待训练角色的所述第一操作标签。
在一种可能的设计中,在本申请实施例的第四方面的第四种实现方式中,
所述获取模块,具体用于根据所述待训练图像数据集合,获取所述每个待训练角色在预设区域集合内的停留时间,其中,所述预设区域集合包括多个预设区域;
若所述待训练角色在目标预设区域内的停留时间大于时间阈值,则根据所述目标预设区域以及所述停留时间,确定所述待训练角色的操作意图信息,其中,所述操作意图信息表示角色具有的交互目的;
根据所述每个待训练角色的操作意图信息,生成所述待训练角色集合中所述每个待训练角色的所述第二操作标签。
在一种可能的设计中,在本申请实施例的第四方面的第五种实现方式中,
所述获取模块,具体用于根据所述待训练图像数据集合中的每个待训练图像,获取所述每个待训练角色所对应的所述公有向量特征、所述私有向量特征以及所述图像特征;
根据所述公有向量特征、所述私有向量特征以及所述图像特征,生成所述每个待训练角色所对应的所述待训练特征集合。
在一种可能的设计中,在本申请实施例的第四方面的第六种实现方式中,
所述训练模块,具体用于通过卷积神经网络对所述每个待训练角色所对应的所述待训练特征集合中的所述图像特征进行编码,得到第一编码信息;
通过全连接神经网络对所述每个待训练角色所对应的所述待训练特征集合中的向量特征进行编码,得到第二编码信息,其中,所述向量特征包括所述所述公有向量特征以及所述私有向量特征;
根据每个待训练角色所对应的操作标签、所述第一编码信息以及所述第二编码信息,训练得到所述每个待训练角色所对应的联合模型;
根据所述每个待训练角色所对应的联合模型,生成所述目标联合模型。
在一种可能的设计中,在本申请实施例的第四方面的第七种实现方式中,
所述训练模块,具体用于对所述每个待训练角色的所述第一编码信息和所述第二编码信息进行拼接,得到目标编码信息;
通过待训练联合模型获取所述目标编码信息所对应的第一预测标签,其中,所述第一预测标签表示预测得到的与操作意图相关的标签;
通过待训练联合模型获取所述第一预测标签与所述目标编码信息所对应的第二预测标签,其中,所述第二预测标签预测得到的与操作内容相关的标签;
采用损失函数对所述第一操作标签以及所述第二预测标签进行计算,得到联合模型参数,其中,所述第一操作标签属于真实值,所述第二预测标签属于预测值;
采用所述联合模型参数对所述待训练联合模型进行训练,得到所述每个待训练角色所对应的联合模型。
在一种可能的设计中,在本申请实施例的第四方面的第八种实现方式中,
所述训练模块,具体用于按照预设角色训练顺序,依次从所述待训练角色集合中确定所述每个待训练角色的训练顺序;
根据所述每个待训练角色的训练顺序,对所述每个待训练角色所对应的联合模型进行拼接,得到待训练目标联合模型;
采用损失函数对每个联合模型输出的所述第一操作标签以及所述第二预测标签,以及所述每个待训练对象的所述第一操作标签以及所述第二操作标签进行计算,得到目标联合模型参数;
采用所述目标联合模型参数对所述待训练目标联合模型进行训练,得到所述目标联合模型。
本申请第五方面提供一种服务器,包括:存储器、收发器、处理器以及总线系统;
其中,所述存储器用于存储程序;
所述处理器用于执行所述存储器中的程序,包括如下步骤:
获取待预测图像数据,其中,所述待预测图像数据包括第一角色集合的数据以及第二角色集合的数据,所述第一角色集合与所述第二角色集合为不同的两个角色集合;
根据所述待预测图像数据确定所述第一角色集合中的N个待预测角色;
获取所述待预测图像数据中每个待预测角色的待预测特征集合,其中,所述待预测特征集合包括向量特征以及图像特征,所述向量特征包括公有向量特征以及私有向量特征,所述公有向量特征包括所述第一角色集合对应的属性特征、所述第二角色集合对应的属性特征、交互对象特征以及全局特征,所述私有向量特征包括待预测角色对应的操作特征,所述图像特征包括所述所述待预测角色对应的局部视野特征;
通过目标联合模型获取所述每个待预测角色所对应的第一操作信息,其中,所述目标联合模型用于根据所述待预测特征集合生成第二操作信息,所述目标联合模型还用于根据所述第二操作信息生成所述第一操作信息,所述第一操作信息表示与操作内容相关的信息,所述第二操作信息表示与操作意图相关的信息;
所述总线系统用于连接所述存储器以及所述处理器,以使所述存储器以及所述处理器进行通信。
本申请第六方面提供一种服务器,包括:存储器、收发器、处理器以及总线系统;
其中,所述存储器用于存储程序;
所述处理器用于执行所述存储器中的程序,包括如下步骤:
获取待训练图像数据集合,其中,所述待训练图像数据集合包括至少一个待训练图像数据,所述待训练图像数据集合包括第一角色集合的数据以及第二角色集合的数据,所述第一角色集合与所述第二角色集合为不同的两个角色集合;
根据所述待训练图像数据集合确定所述第一角色集合所对应的待训练角色集合,其中,所述待训练角色集合中包括多个待训练角色,不同的待训练角色对应不同的角色类型;
获取所述待训练角色集合中每个待训练角色所对应的操作标签,其中,所述操作标签包括第一操作标签以及第二操作标签,所述第一操作标签表示与操作内容相关的标签,所述第二操作标签表示与操作意图相关的标签;
获取所述待训练图像数据集合中所述每个待训练角色所对应的待训练特征集合,其中,所述待训练特征集合包括公有向量特征、私有向量特征以及图像特征,所述公有向量特征包括所述第一角色集合对应的属性特征、所述第二角色集合对应的属性特征、交互对象特征以及全局特征,所述私有向量特征包括所述待训练角色的操作特征,所述图像特征包括所述待训练角色对应的局部视野特征;
根据所述每个待训练角色所对应的操作标签,以及所述每个待训练角色所对应的待训练特征集合,训练得到目标联合模型;
所述总线系统用于连接所述存储器以及所述处理器,以使所述存储器以及所述处理器进行通信。
本申请的第七方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述各方面所述的方法。
从以上技术方案可以看出,本申请实施例具有以下优点:
本申请实施例中,提供了一种操作信息预测的方法,首先获取待预测图像数据,其中,待预测图像数据包括第一角色集合的数据以及第二角色集合的数据,然后根据待预测图像数据确定第一角色集合中的N个待预测角色,接下来获取待预测图像数据中每个待预测角色的待预测特征集合,待预测特征集合包括向量特征以及图像特征,向量特征包括公有向量特征以及私有向量特征,公有向量特征包括第一角色集合对应的属性特征、第二角色集合对应的属性特征、交互对象特征以及全局特征,而私有向量特征包括待预测角色对应的操作特征,图像特征包括待预测角色对应的局部视野特征,最后,可以通过目标联合模型获取每个待预测角色所对应的第一操作信息,其中,目标联合模型用于根据所述待预测特征集合生成第二操作信息,目标联合模型还用于根据第二操作信息生成第一操作信息,第一操作信息表示与操作内容相关的信息,第二操作信息表示与操作意图相关的信息。由于第一操作信息属于微操作信息,第二操作信息属于大局观操作信息,因此,通过上述方式,对于MOBA游戏而言,利用目标联合模型先预测角色集合的大局观操作信息,再基于大局观操作信息预测得到该角色集合的微操作信息,即可同时获得微操作和大局观操作这两个层次的合作能力,由此加强模型的预测能力,从而提升信息预测的合理性。
附图说明
图1为现有方案中多智能体强化学习的一个模型结构示意图;
图2为本申请实施例中操作指令预测系统的一个架构示意图;
图3为本申请实施例中操作指令预测方法的一个框架流程示意图;
图4为本申请实施例中操作信息预测的方法一个实施例示意图;
图5为本申请实施例中模型训练的方法一个实施例示意图;
图6为本申请实施例中MOBA游戏的一个地形示意图;
图7为本申请实施例中英雄与角色对应关系的一个匹配示意图;
图8为本申请实施例中下路英雄的的一个位置分布密度示意图;
图9为本申请实施例中中路英雄的的一个位置分布密度示意图;
图10为本申请实施例中玩家按键的一个示意图;
图11为本申请实施例中微操标签的一个示意图;
图12为本申请实施例中大局观标签的一个示意图;
图13为本申请实施例中单个英雄的一个特征表达示意图;
图14为本申请实施例中全部英雄的一个特征表达示意图;
图15为本申请实施例中基于单个角色的一个联合模型结构示意图;
图16为本申请实施例中基于整队角色的一个目标联合模型结构示意图;
图17为本申请实施例中操作信息预测装置一个实施例示意图;
图18为本申请实施例中模型训练装置一个实施例示意图;
图19为本申请实施例中服务器一个实施例示意图;
图20为本申请实施例中终端设备一个实施例示意图。
具体实施方式
本申请实施例提供了一种操作信息预测的方法、模型训练的方法及相关装置,利用目标联合模型先预测角色集合的大局观操作信息,再基于大局观操作信息预测得到该角色集合的微操作信息,即可同时获得微操作和大局观操作这两个层次的合作能力,由此加强模型的预测能力,从而提升信息预测的合理性。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“对应于”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
应理解,本申请所涉及的模型和预测方法都可以应用于人工智能(artificialintelligence,AI)领域,其应用范围包含但不仅限于机器翻译、智能控制、专家系统、机器人、语言和图像理解、自动程序设计、航天应用以及庞大的信息处理、储存与管理等。为了便于介绍,本申请将以网络游戏场景为例进行介绍,具体可以是MOBA类型的游戏场景。针对MOBA游戏,本申请实施例设计了一种AI模型,能够更好地模拟人类玩家的行为,在人机对战,模拟掉线玩家,玩家练习游戏角色等情形中均取得更好的效果。其中,MOBA游戏的典型玩法是多人对战多人的模式,即两支(或多支)分别由相同玩家人数组成的角色集合之间进行对抗,每个玩家控制一个英雄角色,优先推掉对方“水晶”基地的一方即为获胜方。
一种MOBA游戏的典型玩法是5V5对战,即两支角色集合之间进行对抗,且每支角色集合分别由5名玩家组成。每个玩家控制一个英雄,先推掉对方水晶基地的一方为获胜方。在MOBA游戏中,需要5个英雄以合作的方式进行游戏。无论是在地图上的资源分配,还是团战中的操作,都需要5个英雄之间良好的配合。比如,上路、中路和下路的英雄需要在各自线路上发育,打野英雄则在野区发育,输出英雄需要在后排进行输出,辅助英雄需要在前排承受伤害,刺客英雄需要最后入场收割。
综合以上分析,研究和开发能够利用人类数据通过模仿学习快速学习高水平多人合作型AI模型,对于科学研究和应用都至关重要。本申请针对MOBA游戏的多人合作型模型的设计问题,提供一种基于模仿学习的多智能体联合模型方法,旨在快速实现在大局观操作和微操作两个层面的合作能力。
为了便于理解,本申请提出了一种操作指令预测的方法,该方法应用于图2所示的操作指令预测系统,请参阅图2,图2为本申请实施例中操作指令预测系统的一个架构示意图,如图所示,客户端上进行多局游戏,生成大量的游戏画面数据(即待训练图像数据),然后游戏画面数据发送至服务器。其中,这些游戏画面数据的过程可以是人类玩家在实际游戏过程中生成的数据,也可以是由机器模拟人类玩家操作后得到的数据,本申请主要是以人类玩家提供的数据为主。以一局游戏平均30分钟,且每秒15帧来计算,每局游戏平局有27000帧图像。为了降低数据的复杂度,本申请主要选择与大局观任务和微操任务相关的数据进行训练,其中,大局观任务是以操作意图来划分的,包含但不仅限于“打野”、“清兵”、“团战”以及“推塔”,每局游戏只有平均100个左右的大局观任务,而每个大局观任务中的微操决策步数约为200个,因此,大局观的决策步数和微操的决策步数都在可以接受的范围内。
需要说明的是,客户端部署于终端设备上,其中,终端设备包含但不仅限于平板电脑、笔记本电脑、掌上电脑、手机以及个人电脑(personal computer,PC),此处不做限定。
服务器采用客户端上报的游戏画面数据对模型进行离线训练,模型训练完成后,即可执行在线应用流程,为了便于理解,请参阅图3,图3为本申请实施例中操作指令预测方法的一个框架流程示意图,如图所示,本申请的整体技术框架包括两大流程,分别为离线训练流程以及在线应用流程,其中,离线训练流程指的是根据大量人类玩家的对战数据,通过监督学习训练得到目标联合模型的过程。在线应用流程指的是根据离线训练得到的目标联合模型,在线提取特征并输出预测结果的过程。离线训练流程包括如下步骤:
步骤S1中,获取人类玩家的对局数据,将人类玩家数据输入至多智能体角色自动识别模块。
步骤S2中,通过多智能体角色自动识别模块对人类玩家数据进行识别,具体地,在MOBA游戏中,每个英雄具有自己的角色定位,并且每个英雄在不同的对战局中担任的角色也不相同,因此,多智能体角色自动识别模块的作用为,根据人类玩家数据自动识别每个英雄在该对局中所担任的橘色,从而用于模型的训练。
步骤S3中,根据步骤S2中的角色识别结果,可以知道每个英雄在该局游戏中的角色,于是,多智能体标签提取模块根据角色识别结果,输出每个角色的标签(label),该标签可以分为大局观标签以及微操标签两种,标签主要用于监督学习的训练。
步骤S4中,在MOBA游戏中,每个英雄所看到的视野是不一样的,即视野是私有的,但是同时也有很多特征信息对于我方队友是公有的,多智能体特征提取模块从人类玩家数据中提取每个英雄的公有特征和私有特征,用于进行后续的模型训练。
步骤S5中,根据步骤S2提取的标签以及步骤S3提取的特征,采用监督学习训练目标联合模型,获得目标联合模型的模型参数。
在线应用流程包括如下步骤:
步骤S6中,在一局MOBA游戏中,游戏引擎接口提供了描述当前一帧所有的信息,其中,游戏引擎接口具体可以是一个应用程序编程接口(application programminginterface,API)。
步骤S7中,通过游戏引擎接口获取当前对战局中的在线数据。
步骤S8中,在线特征提取模块根据游戏引擎接口提供的在线数据,提取与步骤S4中相同的特征,即包括公有特征和私有特征,不同的是,在步骤S8中仅仅提取当前一帧的图像数据即可。
步骤S9中,模型预测模块将步骤S9中的特征输入至目标联合模型中,由该目标联合模型的输出预测指令,然后将预测指令输入到游戏引擎中,通过游戏引擎执行该预测指令。重复步骤S8至S9,直至一局游戏对战结束。
结合上述介绍,下面将对本申请中操作信息预测的方法进行介绍,请参阅图4,本申请实施例中操作信息预测的方法一个实施例包括:
101、获取待预测图像数据,其中,待预测图像数据包括第一角色集合的数据以及第二角色集合的数据,第一角色集合与第二角色集合为不同的两个角色集合;
本实施例中,在一局MOBA游戏对战中,操作信息预测装置通过游戏引擎接口获取当前需要被预测的一帧图像数据,该帧数据即为待预测图像数据。其中,待预测图像数据包括至少两支角色集合的数据,在“排位赛”的对局中,第一角色集合有5名玩家,第二角色集合有5名玩家。在“五军对决”对局中,第一角色集合有2名玩家,第二角色集合有2名玩家,第三角色集合有2名玩家,第四角色集合有2名玩家,第五角色集合有2名玩家。本申请以两个角色集合为例进行介绍,然而这不应理解为对本申请的限定。
由于预测操作信息需要较强的性能,因此,操作信息预测装置通常部署在服务器中,具体可以部署在服务器的中央处理器中。在服务器输出第一操作信息之后,将该第一操作信息发送至终端设备上的客户端,再由客户端根据第一操作信息执行相应的操作。可以理解的是,在实际应用中,操作信息预测装置也可以部署在终端设备中,该终端设备也需要具有较强的性能。
102、根据待预测图像数据确定第一角色集合中的待预测角色;
本实施例中,操作信息预测装置根据待预测图像数据,采用模糊匹配规则或者聚类学习的方法,确定第一角色集合中的N个待预测角色。假设第一角色集合中有1名玩家掉线了,则第一角色集合中有1个待预测角色,该待预测角色即为掉线玩家控制的的角色。假设需要模拟第一角色集合中所有的角色,则第一角色集合中的所有角色都是待预测角色。因此,在一个待预测角色的数量取决于具体的需求,在一个角色集合中,各个待预测角色之间的定位是不同的,比如,角色A是负责辅助其他角色的,角色B是负责远程消耗对手血量的。
103、获取待预测图像数据中每个待预测角色的待预测特征集合,其中,待预测特征集合包括向量特征以及图像特征,向量特征包括公有向量特征以及私有向量特征,公有向量特征包括第一角色集合对应的属性特征、第二角色集合对应的属性特征、交互对象特征以及全局特征,私有向量特征包括待预测角色对应的操作特征,图像特征包括待预测角色对应的局部视野特征;
本实施例中,操作信息预测装置根据待预测图像数据,获取每个待预测角色所对应的待预测特征集合。其中,待预测特征集合中包括两大类特征,即向量特征以及图像特征。向量特征又包括了公有向量特征和私有向量特征。
公有向量特征包括第一角色集合中每个角色的属性特征,具体可以是第一角色集合中每个角色的血量,每个角色的攻击力以及每个角色的防御力等特征,第二角色集合中每个角色的属性特征,具体可以是第二角色集合中每个角色的血量,每个角色的攻击力以及每个角色的防御力等特征,交互对象特征具体可以是兵线、野怪以及防御塔等特征。全局特征具体可以是对局时间以及对局比分等特征。私有向量特征包括待预测角色对应的操作特征,即每个待预测角色的技能冷却时间以及技能可用情况等特征,可以理解的是,私有向量特征也可以包括第一角色集合中每个角色的操作特征。图像特征包括待预测角色对应的局部视野特征,即每个待预测角色的局部视野里看到的图像信息特征,可以理解的是,图像特征也可以包括第一角色集合中每个角色的图像信息特征。
104、通过目标联合模型获取每个待预测角色所对应的第一操作信息,其中,目标联合模型用于根据所述待预测特征集合生成第二操作信息,目标联合模型还用于根据第二操作信息生成第一操作信息,第一操作信息表示与操作内容相关的信息,第二操作信息表示与操作意图相关的信息。
本实施例中,操作信息预测装置将每个待预测角色的待预测特征集合输入至目标联合模型,由目标联合模型先输出每个待预测角色的第二操作信息,该第二操作信息表示与操作意图相关的信息,即大局观操作信息。将第二操作信息以级联的形式输入到目标联合模型的微操编码层中,进而得到每个待预测角色的第一操作信息,该第一操作信息表示与操作内容相关的信息,即微操信息。
本申请实施例中,提供了一种操作信息预测的方法,首先获取待预测图像数据,其中,待预测图像数据包括第一角色集合的数据以及第二角色集合的数据,然后根据待预测图像数据确定第一角色集合中的N个待预测角色,接下来获取待预测图像数据中每个待预测角色的待预测特征集合,待预测特征集合包括向量特征以及图像特征,向量特征包括公有向量特征以及私有向量特征,公有向量特征包括第一角色集合对应的属性特征、第二角色集合对应的属性特征、交互对象特征以及全局特征,而私有向量特征包括待预测角色对应的操作特征,图像特征包括待预测角色对应的局部视野特征,最后,可以通过目标联合模型获取每个待预测角色所对应的第一操作信息,其中,目标联合模型用于根据所述待预测特征集合生成第二操作信息,目标联合模型还用于根据第二操作信息生成第一操作信息,第一操作信息表示与操作内容相关的信息,第二操作信息表示与操作意图相关的信息。由于第一操作信息属于微操作信息,第二操作信息属于大局观操作信息,因此,通过上述方式,对于MOBA游戏而言,利用目标联合模型先预测角色集合的大局观操作信息,再基于大局观操作信息预测得到该角色集合的微操作信息,即可同时获得微操作和大局观操作这两个层次的合作能力,由此加强模型的预测能力,从而提升信息预测的合理性。
应理解,采用离线训练得到的目标联合模型可以用于预测每个角色的操作指令,具体地,可以应用于如下几类场景:
场景一,对于MOBA游戏中连败的用户,可以提供“温暖局”来提高用户体验,即一方是需要鼓励的人类玩家,一方是目标联合模型,该目标联合模型可以提供类似人类水平的操作和合作能力,让用户不易察觉是AI模型,从而获得更好的体验。
场景二,当在MOBA游戏对局过程中有玩家掉线时,可以用目标联合模型去接管,该目标联合模型可以更好的理解其他人类队友的操作,从而更好的配合人类玩家,防止因为用户掉线产生的不公平行为。
场景三,提高人机对战模式,帮助玩家训练提高和操作能力,并可以设定AI的难度等级,让不同等级的人类玩家匹配相应难度等级的目标联合模型。
结合上述介绍,下面将对本申请中模型训练的方法进行介绍,请参阅图5,本申请实施例中模型训练的方法一个实施例包括:
201、获取待训练图像数据集合,其中,待训练图像数据集合包括至少一个待训练图像数据,待训练图像数据集合包括第一角色集合的数据以及第二角色集合的数据,第一角色集合与第二角色集合为不同的两个角色集合;
本实施例中,模型训练装置首先获取大量的人类玩家对战数据,包括多局游戏对战的玩家数据,其中,人类玩家对战数据包括多帧游戏图像,这些游戏图像即为待训练图像数据集合,每帧游戏图像即为待训练图像数据,待预测图像数据集合包括至少两支角色集合的数据,比如在“排位赛”的对局中,第一角色集合有5名玩家,第二角色集合有5名玩家。又比如在“五军对决”对局中,第一角色集合有2名玩家,第二角色集合有2名玩家,第三角色集合有2名玩家,第四角色集合有2名玩家,第五角色集合有2名玩家。本申请以两个角色集合为例进行介绍,然而这不应理解为对本申请的限定。
模型训练装置部署于服务器中,具体可以部署在服务器的中央处理器中。
202、根据待训练图像数据集合确定第一角色集合所对应的待训练角色集合,其中,待训练角色集合中包括多个待训练角色,不同的待训练角色对应不同的角色类型;
本实施例中,模型训练装置根据待训练图像数据集合确定第一角色集合所对应的待训练角色集合,在第一角色集合中每个玩家控制一个英雄,每个英雄在一局对战中通常对应不同的角色,待训练角色集合中所包括的待训练角色具有不同的角色类型。
为了便于介绍,请参阅图6,图6为本申请实施例中MOBA游戏的一个地形示意图,如图所示,在MOBA游戏中的角色可以分为上单、下路、中单、辅助和打野五类,即待训练角色集合可以包括这五类待训练角色。其中,R1所示的区域为上单角色活动的区域,R2所示的区域为中单角色活动的区域,R3所示的区域为打野角色活动的区域,R4所示的区域为辅助角色活动的区域,R5所示的区域为下路角色活动的区域。不同的角色分配体现了同一个角色集合的策略合作关系,在多个合作型AI设计中,需要考虑每个英雄在当前游戏对局中所担任的角色。然而,在实际情况下,一个英雄可以对应多个角色,比如在第一角色集合中,英雄“宫本武藏”既可以作为上单角色,又可用作为打野角色,英雄“李元芳”既可以作为下路角色,又可用作为打野角色,那么就需要根据待训练图像数据集合,确定在第一角色集合中的角色分配情况,当五个英雄刚好能对应上五个角色时,即得到待训练角色集合。
203、获取待训练角色集合中每个待训练角色所对应的操作标签,其中,操作标签包括第一操作标签以及第二操作标签,第一操作标签表示与操作内容相关的标签,第二操作标签表示与操作意图相关的标签;
本实施例中,模型训练装置在获取到待训练角色集合之后,进而提取每个待训练角色所对应的操作标签,操作标签主要用于模型的训练。由于人类玩家在MOBA游戏中有大局观操作和微操作两层操作,因此,所提取的操作标签也包括第一操作标签以及第二操作标签,第一操作标签即为微操标签,表示与操作内容相关的标签。第二操作标签即为大局观标签,第二操作标签表示与操作意图相关的标签。
204、获取待训练图像数据集合中每个待训练角色所对应的待训练特征集合,其中,待训练特征集合包括公有向量特征、私有向量特征以及图像特征,公有向量特征包括第一角色集合对应的属性特征、第二角色集合对应的属性特征、交互对象特征以及全局特征,私有向量特征包括待训练角色集合的操作特征,图像特征包括待训练角色对应的局部视野特征;
本实施例中,模型训练装置根据待训练图像数据集合,可以提取每个待训练角色所对应的待训练特征集合。其中,待训练特征集合包括公有向量特征、私有向量特征以及图像特征。公有向量特征包括第一角色集合中每个角色的属性特征,具体可以是第一角色集合中每个角色的血量,每个角色的攻击力以及每个角色的防御力等特征,第二角色集合中每个角色的属性特征,具体可以是第二角色集合中每个角色的血量,每个角色的攻击力以及每个角色的防御力等特征,交互对象特征具体可以是兵线、野怪以及防御塔等特征。全局特征具体可以是对局时间以及对局比分等特征。私有向量特征包括每个待训练角色对应的操作特征,即每个待训练角色的技能冷却时间以及技能可用情况等特征,图像特征包括每个待训练角色对应的局部视野特征,即每个待训练角色的局部视野里看到的图像信息特征。
205、根据每个待训练角色所对应的操作标签,以及每个待训练角色所对应的待训练特征集合,训练得到目标联合模型。
本实施例中,模型训练装置采用损失函数,对每个待训练角色所对应的操作标签,以及每个待训练角色所对应的待训练特征集合进行学习,从而训练得到目标联合模型。
本申请实施例中,提供了一种模型训练的方法,首先获取待训练图像数据集合,然后根据待训练图像数据集合确定第一角色集合所对应的待训练角色集合,再获取待训练角色集合中每个待训练角色所对应的操作标签,并且获取待训练图像数据集合中每个待训练角色所对应的待训练特征集合,最后根据每个待训练角色所对应的操作标签,以及每个待训练角色所对应的待训练特征集合,训练得到目标联合模型。通过上述方式,设计出一种适用于MOBA游戏中多人合作的目标联合模型,从人类玩家数据中通过监督学习同时训练大局观任务和微操任务,并且同时预测我方所有英雄的操作,通过建立多种通信连接同时获得微操和大局观两个层次的合作能力,经过监督学习后可以使得整个过程收敛更快。
可选地,在上述图5对应的实施例的基础上,本申请实施例提供的模型训练的方法第一个可选实施例中,根据待训练图像数据集合确定第一角色集合所对应的待训练角色集合,包括:
根据待训练图像数据集合获取第一角色集合中的操作对象集合,其中,操作对象集合中包括多个操作对象;
根据预设匹配规则确定操作对象集合中每个操作对象所对应的可匹配角色集合,其中,可匹配角色集合包括至少一个可匹配角色;
根据每个操作对象所对应的可匹配角色集合,判断是否满足预设角色匹配条件;
若满足预设角色匹配条件,则确定待训练角色集合,其中,待训练角色集合中的待训练角色与操作对象集合中的操作对象具有一一对应关系。
本实施例中,介绍一种确定角色集合中待训练角色集合的方法。首先,模型训练装置根据待训练图像数据集合获取第一角色集合中的操作对象集合,基于待训练图像数据集合可以了解同一个角色集合中的各个操作对象。其中,操作对象具体可以是玩家在游戏对局中选择的英雄,比如“虞姬”、“夏侯惇”、“李白”、“诸葛亮”以及“白起”等。以5V5的对局为例,则操作对象集合包括5个操作对象。
在获取到操作对象集合后,可以根据预设匹配规则确定每个操作对象的可匹配角色集合,可匹配角色集合包括至少一个可匹配角色。其中,预设匹配规则即为根据专家给出的先验知识设定的匹配规则。比如,英雄“李元芳”的可匹配角色集合包括两个可匹配角色,分别为“打野”和“下路”。为了便于理解,请参阅图7,图7为本申请实施例中英雄与角色对应关系的一个匹配示意图,如图所示,英雄1的可匹配角色集合为“上单”和“中单”,英雄2的可匹配角色集合为“上单”,英雄3的可匹配角色集合为“上单”和“下路”,英雄4的可匹配角色集合为“打野”和“中单”,英雄5的可匹配角色集合为“辅助”。由此,建立如图7所示的映射关系。
接下来,根据每个操作对象所对应的可匹配角色集合,判断是否满足预设角色匹配条件,具体地,先判断是否存在没有任何英雄与角色对应的情况(比如,没有任何一个英雄对应“打野”角色),以及判断是否存在同时有两个以上的对应完全相同的角色(比如,同时存在两个英雄都是只能作为“辅助”角色),如果存在上述情况,则认为这一场游戏数据不符合要求,于是可以从待训练图像数据集合中获取下一局的对战数据进行角色识别。反之,如果不存在上述情况,则选择与角色有唯一匹配关系的英雄,并建立对应的映射关系,然后删除该英雄的其他角色对应关系。在英雄和角色之间建立一一对应的关系后,输出相应的结果,即得到待训练角色集合。
以图7为例,“辅助”这个角色只有英雄5对应。“下路”这个角色只有英雄3,则将确定这两个角色的对应关系,基于英雄3已经为“下路”角色,则删除英雄3与“上单”角色的对应关系。“打野”这个角色只有英雄4,则将确定这两个角色的对应关系,基于英雄4已经为“打野”角色,则删除英雄4与“中单”角色的对应关系。由此可见,“中单”角色只能对应“英雄1”,最后,“上单”角色对应于英雄1。至此,完成匹配工作。即英雄1对应中单,英雄2对应上单,英雄3对应下路,英雄4对应打野,英雄5对应辅助。
可以理解的是,当存在2个或者多个英雄对应的角色完全相同时,也可以通过一些补充信息(比如局内道具配置或者铭文装配情况)进行进一步确定。
其次,本申请实施例中,提供了一种基于模糊规则匹配确定待训练角色集合的方法,即先获取第一角色集合中的操作对象集合,然后根据预设匹配规则确定操作对象集合中每个操作对象所对应的可匹配角色集合,再根据每个操作对象所对应的可匹配角色集合,判断是否满足预设角色匹配条件,若满足,则确定待训练角色集合。通过上述方式,能够建立操作对象与角色之间的对应关系,在模型训练的过程以及在信息预测的过程中,均可以实现自动识别角色集合中的各个角色的目的,从而提升方案的可行性和可操作性,可以有效识别英雄在游戏中所担任的角色。
可选地,在上述图5对应的实施例的基础上,本申请实施例提供的模型训练的方法第二个可选实施例中,根据待训练图像数据集合确定第一角色集合所对应的待训练角色集合,可以包括:
根据待训练图像数据集合获取第一角色集合中的操作对象集合,其中,操作对象集合中包括多个操作对象;
获取操作对象集合中每个操作对象所对应的位置分布特征;
将每个操作对象所对应的位置分布特征与预设角色匹配模板进行比对,得到待训练角色集合,其中,预设角色匹配模板为预先根据不同角色的位置分布特征聚类后生成的模板。
本实施例中,介绍另一种确定角色集合中待训练角色集合的方法。首先,模型训练装置根据待训练图像数据集合获取第一角色集合中的操作对象集合,基于待训练图像数据集合可以了解同一个角色集合中的各个操作对象。其中,操作对象具体可以是玩家在游戏对局中选择的英雄,比如“虞姬”、“夏侯惇”、“李白”、“诸葛亮”以及“白起”等。以5V5的对局为例,则操作对象集合包括5个操作对象。
在获取到操作对象集合后,分别提取每个操作对象所对应的位置分布特征,即根据待训练图像数据集合中的一局对战数据,提取每个英雄在同一个地图上的分布密度图。假设有5个英雄,即可以生成5个位置分布特征。分别将每个位置分布特征与预设角色匹配模板进行比对,根据匹配相似度确定该英雄所对应的角色,得到待训练角色集合。
每个英雄所担任的角色体现在宏观位置的分工上,即如图6所示的一种角色分工,通常情况下,“上单”角色在地图的上半区活动比较多,“下路”角色在地图的下半区活动比较多,其他的角色也有自己的活动区域。因此,可以采用基于位置分布特征聚类算法,通过学习的方式自动识别已一局对战游戏中每个英雄的角色。为了便于理解,请参阅图8和图9,图8为本申请实施例中下路英雄的的一个位置分布密度示意图,图9为本申请实施例中中路英雄的的一个位置分布密度示意图,如图所示,我们将地图离散化成24*24的格子,在实际应用中,也可以设定为其他任意参数。每个格子的密度为英雄在该格子停留的帧数除以该局游戏的总帧数,格子颜色越深,表示停留时间越多。由此可见,不同的角色在地图上分布的位置有明显区别。
其中,预设角色匹配模板是预先根据各个角色的位置分布特征聚类后所生成的模板。具体地,可以提取每局对战游戏中一方角色集合中各个角色的位置分布特征,通过聚类算法,比如K均值聚类算法将数据划分成N类,其中,如果是5V5的对战模式,则N为5,3V3的对战模式,则N为3,此处以5V5为例进行介绍,也就是将数据划分成5类,接下来计算每个类别的中心,作为每个角色的匹配模板,即得到预设角色匹配模板,预设角色匹配模板中的各个匹配模板表现为特征向量的形式。在实际匹配过程中,输入任意一局对战数据中英雄的位置分布特征,与预设角色匹配模板中的各个匹配模板进行匹配,找出距离(比如2的范数)最小的一个匹配模板,从而输出该匹配模板所对应的角色。当所有角色匹配完毕,得到得到待训练角色集合。
需要说明的是,K均值聚类算法仅为一个示意,还可以采用其他的聚类算法进行计算,比如均值漂移聚类、基于密度的聚类方法或者图团体检测方法等,此处不做限定。
其次,本申请实施例中,提供了一种基于聚类学习确定待训练角色集合的方法,即首先根据待训练图像数据集合获取第一角色集合中的操作对象集合,然后获取操作对象集合中每个操作对象所对应的位置分布特征,最后将每个操作对象所对应的位置分布特征与预设角色匹配模板进行比对,得到待训练角色集合。通过上述方式,能够根据每个角色在地图中的位置分布情况确定其定位,在模型训练的过程以及在信息预测的过程中,均可以实现自动识别角色集合中的各个角色的目的,从而提升方案的可行性和可操作性。
可选地,在上述图5对应的实施例的基础上,本申请实施例提供的模型训练的方法第三个可选实施例中,获取待训练角色集合中每个待训练角色所对应的操作标签,可以包括:
根据待训练图像数据集合,获取每个待训练角色的按键类型信息和按键参数信息,其中,按键参数信息包括方向型参数、位置型参数以及目标型参数中的至少一项,方向型参数用于表示角色的移动方向,位置型参数用于表示角色所在的位置,目标型参数用于表示角色的待输出对象;
根据每个待训练角色的按键类型信息和按键参数信息,生成待训练角色集合中每个待训练角色的第一操作标签。
本实施例中,将介绍一种生成第一操作标签的方式,第一操作标签为微操标签。基于待训练图像数据集合可以获取每个待训练角色的按键类型信息和按键参数信息。为了便于介绍,请参阅图10,图10为本申请实施例中玩家按键的一个示意图,如图所示,人类玩家在操作时,通常先决定使用哪个按键,即先确定按键类型信息,然后再决定按键的操作参数,即确定按键参数信息。图10中A1所指示的按键类型信息为移动,A2所指示的按键类型信息为普通攻击(即普攻),A3所指示的按键类型信息为技能1,A4所指示的按键类型信息为技能2,A5所指示的按键类型信息为技能3。
在MOBA游戏中,按键参数信息分为方向型参数、位置型参数以及目标型参数,在实际应用中,不同操作对象(即英雄)的操作空间是不同的,也就是说,英雄是异质的。因此,在训练过程中所采用的待训练角色也会对应一个英雄,例如,英雄A的技能1是方向型,技能2是方向型,技能3是位置型。而英雄B的技能1是位置型,技能2是目标型,技能3是位置型。那么,这些异质的英雄之间的合作建模变得更困难。因此,本申请设计了一种通用的标签,可以将所有英雄的操作在同一个标签体系下表达。
基于上述介绍,本申请采用分层的标签设计,即先预测当前时刻的按键类型信息,然后预测按键参数信息。请参阅图11,图11为本申请实施例中微操标签的一个示意图,如图所示,可以将“移动”的标签离散化成20个方向,“普攻”的标签离散化成8个目标,“方向型技能”的标签离散化成60个方向,“位置型技能”的标签离散化成30*30个位置,“目标型技能”的标签表示成候选的8个攻击目标。可以理解的是,上述参数仅为一个示意,不应理解为对本申请的限定。标签编号从1开始,例如,英雄A的技能1和技能2都放在方向型技能标签中,技能3放在位置型技能标签中,而英雄B的技能1和技能3都放在位置型技能标签中,技能2放在目标型技能中。不属于某种类型技能的标签标成0。这样,所有英雄都可以用相同的标签空间来表达,也就得到每个待训练角色的第一操作标签。
基于上述介绍,一种可行的操作流程为:
步骤一,从待训练图像数据集合中读取一局人类对战数据到计算机内存中,该数据包括了所有游戏信息,并且按帧存储。
步骤二,从游戏的第一帧数据开始,从前往后依次读取每帧数据,由此获得每个玩家的操作指令。
步骤三,根据步骤二读取的操作指令,按照上述介绍的标签设计方法,提取每个玩家的第一操作标签,即微操标签,并以分层数据格式(Hierarchical Data Format,HDF)5的格式存储。因为每个玩家在同一帧有多个标签,因此每个玩家的每个标签均单独存储为一个数据集(dataset),需要提取第一角色集合中每个待训练角色的微操标签。
重复执行步骤一至步骤三,可以提取所有人类对战数据中的第一操作标签。
其次,本申请实施例中,提供了一种获取第一操作标签的方式,即根据待训练图像数据集合,获取每个待训练角色的按键类型信息和按键参数信息,根据按键类型信息和按键参数信息生成第一操作标签。通过上述方式,能够对异质的操作对象变成同质的操作,实现规范化的标签提取,即所有操作对象都可以采用相同的标签空间来表达,从而降低了建模的复杂性。
可选地,在上述图5对应的实施例的基础上,本申请实施例提供的模型训练的方法第四个可选实施例中,获取待训练角色集合中每个待训练角色所对应的操作标签,可以包括:
根据待训练图像数据集合,获取每个待训练角色在预设区域集合内的停留时间,其中,预设区域集合包括多个预设区域;
若待训练角色在目标预设区域内的停留时间大于时间阈值,则根据目标预设区域以及停留时间,确定待训练角色的操作意图信息,其中,操作意图信息表示角色具有的交互目的;
根据每个待训练角色的操作意图信息,生成待训练角色集合中每个待训练角色的第二操作标签。
本实施例中,将介绍一种生成第二操作标签的方式,第二操作标签为大局观标签。基于待训练图像数据集合可以获取每个待训练角色的在预设区域集合内的停留时间,根据待训练角色在目标预设区域内的停留时间确定操作意图信息,该目标预设区域属于预设区域集合中的任意一个预设区域。操作意图信息表示人类进行的大局观决策,具体可以是决定去地图的什么位置。要去的位置反映了玩家的宏观意图。MOBA游戏中的大局观合作主要体现在每个队友的宏观意图要有合作性,例如,所有队友去同一个位置集合。
为了便于介绍,请参阅图12,图12为本申请实施例中大局观标签的一个示意图,如图所示,首先将游戏中的地图离散化成24*24个格子,即得到预设区域集合,每个格子为一个预设区域。如果某个待训练角色所对应的英雄在某个格子停留的时间超过时间阈值,则认为这个格子所在的位置是一个宏观意图,该格子即为目标预设区域。图12中的格子A、格子B、格子C以及格子D四个预设区域满足宏观意图的定义,因此,从预设区域A到预设区域B中间的操作意图信息为B(比如操作意图信息为“守塔”),预设区域B为目标预设区域。从预设区域B到预设区域C中间的操作意图信息为C(比如操作意图信息为“蹲人”),预设区域C为目标预设区域。依次类推。
需要说明的是,也可以用攻击时所在的位置作为大局观标签。
基于上述介绍,一种可行的操作流程为:
步骤一,从待训练图像数据集合中读取一局人类对战数据到计算机内存中,该数据包括了所有游戏信息,并且按帧存储。
步骤二,从游戏的最后一帧数据开始,从后往前依次读取每帧数据,如果某个待训练角色对应的英雄在某个预设区域停留的时间超过时间阈值,则认为该预设区域是一个操作意图信息。
步骤三,根据步骤二的操作意图信息输出第二操作标签,即得到大局观标签,并以HDF5的格式存储,由此,需要提取第一角色集合中每个待训练角色的大局观标签。
重复执行步骤一至步骤三,可以提取所有人类对战数据中的第二操作标签。
其次,本申请实施例中,提供了一种获取第二操作标签的方式,即根据待训练图像数据集合,获取每个待训练角色在预设区域集合内的停留时间,若待训练角色在目标预设区域内的停留时间大于时间阈值,则根据目标预设区域以及停留时间,确定待训练角色的操作意图信息,最后可以根据每个待训练角色的操作意图信息,生成待训练角色集合中每个待训练角色的第二操作标签。通过上述方式,能够对宏观意图设计标签,通常情况下,宏观意图是没有明确标签的,因此,本申请采用弱监督学习的方法来设计大局观标签。其中,弱监督的含义是,因为成本等原因无法以人工标注的方式给每个样本都确定标签,因此,只能通过程序自动去给样本确定标签,从而提升方案的可操作性。
可选地,在上述图5以及图5对应的第一个至第四个实施例中任一项的基础上,本申请实施例提供的模型训练的方法第五个可选实施例中,获取待训练图像数据集合中每个待训练角色所对应的待训练特征集合,可以包括:
根据待训练图像数据集合中的每个待训练图像,获取每个待训练角色所对应的公有向量特征、私有向量特征以及图像特征;
根据公有向量特征、私有向量特征以及图像特征,生成每个待训练角色所对应的待训练特征集合。
本实施例中,将介绍如何提取每个待训练角色所对应的待训练特征集合。每个玩家在操作时会以自己控制的英雄视角获得的信息进行决策,例如,每个英雄自己的技能状态。然而游戏中也存在对于每个玩家都一样的信息,例如比赛时间以及角色集合经济等。在训练模型时,需要以每个待训练角色的英雄视角来组织特征。
在模型训练前需要对每个待训练图像进行特征的提取,即提取每个待训练角色所对应的公有向量特征、私有向量特征以及图像特征,然后重新将这些特征拼接在一起,形成每个待训练角色所需的特征形式。为了便于介绍,请参阅图13,图13为本申请实施例中单个英雄的一个特征表达示意图,如图所示,假设待训练角色为英雄1,英雄1的待训练特征集合包括公有向量特征、私有向量特征以及图像特征,其中,公有向量特征包括第一角色集合中每个英雄的属性特征,第二角色集合中每个英雄的属性特征,兵线、野怪以及防御塔特征,全局特征。私有向量特征包括英雄1的操作特征,比如英雄1的技能冷却时间以及技能可用状态等。图像特征包括英雄1看到的局部视野特征。
基于每个待训练角色所对应的英雄,可以分别得到相应的待训练特征集合,由此得到整个角色集合的待训练特征集合,请参阅图14,图14为本申请实施例中全部英雄的一个特征表达示意图,如图所示,对于一个完整角色集合而言,假设一个角色集合共有5名待训练角色,每个待训练角色对应一个英雄,公有向量特征包括我方5名英雄的特征,例如血量、攻击力以及防御力等,5名敌方英雄的特征,兵线、野怪以及防御塔的特征,全局信息如时间以及比分等。私有向量特征包括我方5名英雄的特征,例如技能冷却时间以及技能是否可用等。私有图像特征是我方5名英雄的局部视野看到的图像信息。
基于上述介绍,一种可行的操作流程为:
步骤一,从待训练图像数据集合中读取一局人类对战数据到计算机内存中,该数据包括了所有游戏信息,并且按帧存储。
步骤二,从游戏的第一帧数据开始,从前往后依次读取第一操作标签以及第二操作标签所在帧的图像数据,根据特征设计方式,提取该帧图像数据的公有向量特征、私有向量特征以及图像特征,并以HDF5方式存储。
重复执行步骤一至步骤二,可以提取所有人类对战数据中已提取的标签的特征。
再次,本申请实施例中,提供了一种获取待训练特征集合的方法,即先获取每个待训练角色所对应的公有向量特征、私有向量特征以及图像特征,然后根据公有向量特征、私有向量特征以及图像特征,生成每个待训练角色所对应的待训练特征集合。通过上述方式,可以对任意一帧待训练图像数据提取特征,在模型训练前,特征会重新拼成每个待训练角色需要的特征形式,从而有效降低提取特征的耗时,节约存储空间。
可选地,在上述图5对应的实施例的基础上,本申请实施例提供的模型训练的方法第六个可选实施例中,根据每个待训练角色所对应的操作标签,以及每个待训练角色所对应的待训练特征集合,训练得到目标联合模型,可以包括:
通过卷积神经网络对每个待训练角色所对应的待训练特征集合中的图像特征进行编码,得到第一编码信息;
通过全连接神经网络对每个待训练角色所对应的待训练特征集合中的向量特征进行编码,得到第二编码信息,其中,向量特征包括公有向量特征以及私有向量特征;
根据每个待训练角色所对应的操作标签、第一编码信息以及第二编码信息,训练得到每个待训练角色所对应的联合模型;
根据每个待训练角色所对应的联合模型,生成目标联合模型。
本实施例中,介绍了一种生成目标联合模型的方法。模型训练装置将每个待训练角色所对应的待训练特征集合中的图像特征输入至卷积神经网络(Convolutional NeuralNetworks,CNN),通过卷积层对图像特征进行编码,得到第一编码信息。此外,还需要将每个待训练角色所对应的待训练特征集合中的向量特征输入至全连接(Full Connection,FC)神经网络,通过FC层对向量特征进行编码,得到第二编码信息。其中,卷积层可以模拟局部感知野,相当于能够提取特征,并且能够实现权值共享。FC层可以将抽象化的特征进行整合,然后进行归一化,对各种分类情况都输出一个概率。
模型训练装置采用损失函数对每个待训练角色所对应的操作标签、第一编码信息以及第二编码信息进行计算,从而训练得到每个待训练角色所对应的联合模型。最后将各个待训练角色所对应的联合模型进行整合,生成目标联合模型。
需要说明的是,损失函数是用来估量模型的预测值与真实值之间不一致的程度,它是一个非负实值函数。损失函数越小,标识模型的鲁棒性就越好。损失函数是经验风险函数的核心部分,也是结构风险函数的重要组成部分。常用损失函数包含但不仅限于铰链损失(Hinge Loss)、互熵损失(Cross Entropy Loss)、平方损失(Square Loss)以及指数损失(Exponential Loss)。
其次,本申请实施例中,提供了训练得到目标联合模型的具体过程,主要包括先通过卷积神经网络对每个待训练角色所对应的待训练特征集合中的图像特征进行编码,得到第一编码信息,然后通过全连接神经网络对每个待训练角色所对应的待训练特征集合中的向量特征进行编码,得到第二编码信息,接着根据每个待训练角色所对应的操作标签、第一编码信息以及第二编码信息,训练得到每个待训练角色所对应的联合模型,最后根据每个待训练角色所对应的联合模型,生成目标联合模型。通过上述方式,由于人类玩家在游戏中的决策包括大局观操作和微操作两个部分,因此,首先给出同时学习大局观任务和微操任务的单英雄联合模型,然后再给出基于该联合模型的目标合作模型,由此加强模型的预测能力,从而提升信息预测的合理性。
可选地,在上述图5对应的第六个实施例的基础上,本申请实施例提供的模型训练的方法第七个可选实施例中,根据每个待训练角色所对应的操作标签、第一编码信息以及第二编码信息,训练得到每个待训练角色所对应的联合模型,可以包括:
对每个待训练角色的第一编码信息和第二编码信息进行拼接,得到目标编码信息;
通过待训练联合模型获取目标编码信息所对应的第一预测标签,其中,第一预测标签表示预测得到的与操作意图相关的标签;
通过待训练联合模型获取第一预测标签与目标编码信息所对应的第二预测标签,其中,第二预测标签预测得到的与操作内容相关的标签;
采用损失函数对第一操作标签以及第二预测标签进行计算,得到联合模型参数,其中,第一操作标签属于真实值,第二预测标签属于预测值;
采用联合模型参数对待训练联合模型进行训练,得到每个待训练角色所对应的联合模型。
本实施例中,将介绍如何训练得到一个待训练角色所对应的联合模型。为了便于介绍,请参阅图15,图15为本申请实施例中基于单个角色的一个联合模型结构示意图,如图所示,将当前帧该待训练角色对应的英雄视角下的向量特征和图像特征输入至联合模型,图像特征经过CNN的卷积层编码后得到第一编码信息,向量特征经过FC神经网络的FC层编码后得到第二编码信息,然后将第一编码信息和第二编码信息拼接成公用的目标编码信息,经过拉平操作后将2维矩阵拉平成1维向量。联合模型包含一个预测大局观位置的任务,在模型训练的过程中,需要通过待训练联合模型获取目标编码信息所对应的第一预测标签,其中,第一预测标签表示预测得到的与操作意图相关的标签。将预测大局观位置任务的输出以级联的形式输入到微操的编码层中。也就是通过待训练联合模型获取第一预测标签与目标编码信息所对应的第二预测标签。第二预测标签表示最终输出的微操标签,包括按键、移动、普攻、方向型技能、位置型技能以及目标型技能的参数。基于微操标签的真实值、微操标签的预测值、大局观标签的真实值以及大局观标签的预测值,采用损失函数计算得到联合模型参数。
最后,采用联合模型参数对待训练联合模型进行训练,得到每个待训练角色所对应的联合模型。
再次,本申请实施例中,提供了一种训练得到联合模型的方法。即对每个待训练角色的第一编码信息和第二编码信息进行拼接,得到目标编码信息,然后通过待训练联合模型获取目标编码信息所对应的第一预测标签,通过待训练联合模型获取第一预测标签与目标编码信息所对应的第二预测标签,采用损失函数对第一操作标签以及第二预测标签进行计算,得到联合模型参数,最后采用联合模型参数对待训练联合模型进行训练,得到每个待训练角色所对应的联合模型。通过上述方式,为单个联合模型的训练提供了具体的依据,同时将大局观操作和微操作两个任务合并到一个联合模型中,从而提升模型预测的精度。
可选地,在上述图5对应的第七个实施例的基础上,本申请实施例提供的模型训练的方法第八个可选实施例中,根据每个待训练角色所对应的联合模型,生成目标联合模型,可以包括:
按照预设角色训练顺序,依次从待训练角色集合中确定每个待训练角色的训练顺序;
根据每个待训练角色的训练顺序,对每个待训练角色所对应的联合模型进行拼接,得到待训练目标联合模型;
采用损失函数对每个联合模型输出的第一操作标签以及第二预测标签,以及每个待训练对象的第一操作标签以及第二操作标签进行计算,得到目标联合模型参数;
采用目标联合模型参数对待训练目标联合模型进行训练,得到目标联合模型。
本实施例中,将介绍如何训练得到目标联合模型。为了便于介绍,请参阅图16,图16为本申请实施例中基于整队角色的一个目标联合模型结构示意图,如图所示,首先确定预设角色训练顺序,按照该预设角色训练顺序进行目标联合模型的训练。预设角色训练顺序可以是上单、中单、下路、打野以及辅助,根据每个待训练角色的训练顺序,对每个待训练角色所对应的联合模型进行拼接,得到待训练目标联合模型。其中,待训练目标联合模型的输入为每个待训练角色对应的英雄视角下的向量特征和图像特征,
编码层结构与单个英雄的联合模型相同,每个英雄均同时预测大局观任务和微操任务。合作的机制体现在3个拼接层,即多个英雄编码层的拼接,大局观任务预测结果的拼接,以及微操FC层输出结果的拼接。整个待训练目标联合模型采用基于监督学习的模仿学习算法进行训练,整个网络的损失结果为所有英雄的所有任务的损失结果之和。采用损失函数对每个联合模型输出的第一操作标签以及第二预测标签,以及每个待训练对象的第一操作标签以及第二操作标签进行计算,得到目标联合模型参数,最后采用目标联合模型参数对待训练目标联合模型进行训练,得到目标联合模型。
基于上述介绍,一种可行的操作流程为:
步骤一,将所有提取的图像特征、向量特征和标签存放在图形处理器(GraphicsProcessing Unit,GPU)服务器上,可以按10:1的比例拆分成互斥的训练集和测试集。
步骤二,从训练集中随机读取一小批数据(mini-batch)到内存中,并将特征组合成我方5个英雄的视角特征。
步骤三,根据监督学习训练模型,所用的误差函数为所有英雄的所有操作的损失之和,以一个角色集合包括5名玩家为例,即:
总体损失=大局观损失1+微操损失1+大局观损失2+微操损失2+大局观损失3+微操损失3+大局观损失4+微操损失4+大局观损失5+微操损失5
步骤四:如果总体损失小于阈值,则输出模型参数和结果,停止训练,否则跳到步骤二,继续训练。
可以理解的是,目标联合模型还可以加入其它更复杂的网络设计,如残差网络或者长短期记忆网络(Long Short-Term Memory,LSTM)等。
进一步地,本申请实施例中,提供了一种训练得到目标联合模型的方法。即按照预设角色训练顺序,依次从待训练角色集合中确定每个待训练角色的训练顺序,然后对每个待训练角色所对应的联合模型进行拼接,得到待训练目标联合模型,再采用损失函数得到目标联合模型参数,最后采用目标联合模型参数对待训练目标联合模型进行训练,得到目标联合模型。通过上述方式,为目标联合模型的训练提供了具体的依据,将每个角色对应的大局观操作和微操作两个任务合并到一个目标联合模型中,从而提升模型预测的精度。
下面对本申请中的操作信息预测装置进行详细描述,请参阅图17,图17为本申请实施例中操作信息预测装置一个实施例示意图,操作信息预测装置30包括:
获取模块301,用于获取待预测图像数据,其中,所述待预测图像数据包括第一角色集合的数据以及第二角色集合的数据,所述第一角色集合与所述第二角色集合为不同的两个角色集合;
确定模块302,用于根据所述获取模块301获取的所述待预测图像数据确定所述第一角色集合中的N个待预测角色;
所述获取模块301,还用于获取所述待预测图像数据中所述确定模块302确定的每个待预测角色的待预测特征集合,其中,所述待预测特征集合包括向量特征以及图像特征,所述向量特征包括公有向量特征以及私有向量特征,所述公有向量特征包括所述第一角色集合对应的属性特征、所述第二角色集合对应的属性特征、交互对象特征以及全局特征,所述私有向量特征包括待预测角色对应的操作特征,所述图像特征包括所述所述待预测角色对应的局部视野特征;
所述获取模块301,还用于通过目标联合模型获取所述确定模块302确定的所述每个待预测角色所对应的第一操作信息,其中,所述目标联合模型用于根据所述获取模块301获取的待预测特征集合生成第二操作信息,所述目标联合模型还用于根据所述第二操作信息生成所述第一操作信息,所述第一操作信息表示与操作内容相关的信息,所述第二操作信息表示与操作意图相关的信息。
本实施例中,获取模块301用于获取待预测图像数据,其中,所述待预测图像数据包括第一角色集合的数据以及第二角色集合的数据,所述第一角色集合与所述第二角色集合为不同的两个角色集合,确定模块302根据所述获取模块301获取的所述待预测图像数据确定所述第一角色集合中的N个待预测角色,所述获取模块301获取所述待预测图像数据中所述确定模块302确定的每个待预测角色的待预测特征集合,其中,所述待预测特征集合包括向量特征以及图像特征,所述向量特征包括公有向量特征以及私有向量特征,所述公有向量特征包括所述第一角色集合对应的属性特征、所述第二角色集合对应的属性特征、交互对象特征以及全局特征,所述私有向量特征包括待预测角色对应的操作特征,所述图像特征包括所述所述待预测角色对应的局部视野特征,所述获取模块301通过目标联合模型获取所述确定模块302确定的所述每个待预测角色所对应的第一操作信息,其中,所述目标联合模型用于根据所述获取模块301获取的待预测特征集合生成第二操作信息,所述目标联合模型还用于根据所述第二操作信息生成所述第一操作信息,所述第一操作信息表示与操作内容相关的信息,所述第二操作信息表示与操作意图相关的信息。
本申请实施例中,提供了一种操作信息预测装置,基于上述装置,对于MOBA游戏而言,利用目标联合模型先预测角色集合的大局观操作信息,再基于大局观操作信息预测得到该角色集合的微操作信息,即可同时获得微操作和大局观操作这两个层次的合作能力,由此加强模型的预测能力,从而提升信息预测的合理性。
下面对本申请中的模型训练装置进行详细描述,请参阅图18,图18为本申请实施例中模型训练装置一个实施例示意图,模型训练装置40包括:
获取模块401,用于获取待训练图像数据集合,其中,所述待训练图像数据集合包括至少一个待训练图像数据,所述待训练图像数据集合包括第一角色集合的数据以及第二角色集合的数据,所述第一角色集合与所述第二角色集合为不同的两个角色集合;
确定模块402,用于根据所述获取模块401获取的所述待训练图像数据集合确定所述第一角色集合所对应的待训练角色集合,其中,所述待训练角色集合中包括多个待训练角色,不同的待训练角色对应不同的角色类型;
所述获取模块401,还用于获取所述确定模块402确定的所述待训练角色集合中每个待训练角色所对应的操作标签,其中,所述操作标签包括第一操作标签以及第二操作标签,所述第一操作标签表示与操作内容相关的标签,所述第二操作标签表示与操作意图相关的标签;
所述获取模块401,还用于获取所述待训练图像数据集合中所述每个待训练角色所对应的待训练特征集合,其中,所述待训练特征集合包括公有向量特征、私有向量特征以及图像特征,所述公有向量特征包括所述第一角色集合对应的属性特征、所述第二角色集合对应的属性特征、交互对象特征以及全局特征,所述私有向量特征包括所述待训练角色的操作特征,所述图像特征包括所述待训练角色对应的局部视野特征;
训练模块403,用于根据所述获取模块401获取的所述每个待训练角色所对应的操作标签,以及所述每个待训练角色所对应的待训练特征集合,训练得到目标联合模型。
本实施例中,获取模块401于获取待训练图像数据集合,其中,所述待训练图像数据集合包括至少一个待训练图像数据,所述待训练图像数据集合包括第一角色集合的数据以及第二角色集合的数据,所述第一角色集合与所述第二角色集合为不同的两个角色集合,确定模块402根据所述获取模块401获取的所述待训练图像数据集合确定所述第一角色集合所对应的待训练角色集合,其中,所述待训练角色集合中包括多个待训练角色,不同的待训练角色对应不同的角色类型,所述获取模块401获取所述确定模块402确定的所述待训练角色集合中每个待训练角色所对应的操作标签,其中,所述操作标签包括第一操作标签以及第二操作标签,所述第一操作标签表示与操作内容相关的标签,所述第二操作标签表示与操作意图相关的标签,所述获取模块401获取所述待训练图像数据集合中所述每个待训练角色所对应的待训练特征集合,其中,所述待训练特征集合包括公有向量特征、私有向量特征以及图像特征,所述公有向量特征包括所述第一角色集合对应的属性特征、所述第二角色集合对应的属性特征、交互对象特征以及全局特征,所述私有向量特征包括所述待训练角色的操作特征,所述图像特征包括所述待训练角色对应的局部视野特征,训练模块403根据所述获取模块401获取的所述每个待训练角色所对应的操作标签,以及所述每个待训练角色所对应的待训练特征集合,训练得到目标联合模型。
本申请实施例中,提供了一种模型训练装置,基于上述装置,设计出一种适用于MOBA游戏中多人合作的目标联合模型,从人类玩家数据中通过监督学习同时训练大局观任务和微操任务,并且同时预测我方所有英雄的操作,通过建立多种通信连接同时获得微操和大局观两个层次的合作能力,经过监督学习后可以使得整个过程收敛更快。
可选地,在上述图18所对应的实施例的基础上,本申请实施例提供的模型训练装置40的另一实施例中,
所述确定模块,具体用于根据所述待训练图像数据集合获取所述第一角色集合中的操作对象集合,其中,所述操作对象集合中包括多个操作对象;
根据预设匹配规则确定所述操作对象集合中每个操作对象所对应的可匹配角色集合,其中,所述可匹配角色集合包括至少一个可匹配角色;
根据所述每个操作对象所对应的可匹配角色集合,判断是否满足预设角色匹配条件;
若满足所述预设角色匹配条件,则确定所述待训练角色集合,其中,所述待训练角色集合中的待训练角色与所述操作对象集合中的操作对象具有一一对应关系。
其次,本申请实施例中,基于上述装置,能够建立操作对象与角色之间的对应关系,在模型训练的过程以及在信息预测的过程中,均可以实现自动识别角色集合中的各个角色的目的,从而提升方案的可行性和可操作性。
可选地,在上述图18所对应的实施例的基础上,本申请实施例提供的模型训练装置40的另一实施例中,
所述确定模块,具体用于根据所述待训练图像数据集合获取所述第一角色集合中的操作对象集合,其中,所述操作对象集合中包括多个操作对象;
获取所述操作对象集合中每个操作对象所对应的位置分布特征;
将所述每个操作对象所对应的位置分布特征与预设角色匹配模板进行比对,得到所述待训练角色集合,其中,所述预设角色匹配模板为预先根据不同角色的位置分布特征聚类后生成的模板。
其次,本申请实施例中,基于上述装置,能够根据每个角色在地图中的位置分布情况确定其定位,在模型训练的过程以及在信息预测的过程中,均可以实现自动识别角色集合中的各个角色的目的,从而提升方案的可行性和可操作性。
可选地,在上述图18所对应的实施例的基础上,本申请实施例提供的模型训练装置40的另一实施例中,
所述获取模块,具体用于根据所述待训练图像数据集合,获取所述每个待训练角色的按键类型信息和按键参数信息,其中,所述按键参数信息包括方向型参数、位置型参数以及目标型参数中的至少一项,所述方向型参数用于表示角色的移动方向,所述位置型参数用于表示角色所在的位置,所述目标型参数用于表示角色的待输出对象;
根据所述每个待训练角色的按键类型信息和按键参数信息,生成所述待训练角色集合中所述每个待训练角色的所述第一操作标签。
其次,本申请实施例中,基于上述装置,能够对异质的操作对象变成同质的操作,实现规范化的标签提取,即所有操作对象都可以采用相同的标签空间来表达,从而降低了建模的复杂性。
可选地,在上述图18所对应的实施例的基础上,本申请实施例提供的模型训练装置40的另一实施例中,
所述获取模块,具体用于根据所述待训练图像数据集合,获取所述每个待训练角色在预设区域集合内的停留时间,其中,所述预设区域集合包括多个预设区域;
若所述待训练角色在目标预设区域内的停留时间大于时间阈值,则根据所述目标预设区域以及所述停留时间,确定所述待训练角色的操作意图信息,其中,所述操作意图信息表示角色具有的交互目的;
根据所述每个待训练角色的操作意图信息,生成所述待训练角色集合中所述每个待训练角色的所述第二操作标签。
其次,本申请实施例中,采用上述装置,能够对宏观意图设计标签,通常情况下,宏观意图是没有明确标签的,因此,本申请采用弱监督学习的方法来设计大局观标签。其中,弱监督的含义是,因为成本等原因无法以人工标注的方式给每个样本都确定标签,因此,只能通过程序自动去给样本确定标签,从而提升方案的可操作性。
可选地,在上述图18所对应的实施例的基础上,本申请实施例提供的模型训练装置40的另一实施例中,
所述获取模块,具体用于根据所述待训练图像数据集合中的每个待训练图像,获取所述每个待训练角色所对应的所述公有向量特征、所述私有向量特征以及所述图像特征;
根据所述公有向量特征、所述私有向量特征以及所述图像特征,生成所述每个待训练角色所对应的所述待训练特征集合。
再次,本申请实施例中,采用上述装置,可以对任意一帧待训练图像数据提取特征,在模型训练前,特征会重新拼成每个待训练角色需要的特征形式,从而有效降低提取特征的耗时,节约存储空间。
可选地,在上述图18所对应的实施例的基础上,本申请实施例提供的模型训练装置40的另一实施例中,
所述训练模块,具体用于通过卷积神经网络对所述每个待训练角色所对应的所述待训练特征集合中的所述图像特征进行编码,得到第一编码信息;
通过全连接神经网络对所述每个待训练角色所对应的所述待训练特征集合中的向量特征进行编码,得到第二编码信息,其中,所述向量特征包括所述所述公有向量特征以及所述私有向量特征;
根据每个待训练角色所对应的操作标签、所述第一编码信息以及所述第二编码信息,训练得到所述每个待训练角色所对应的联合模型;
根据所述每个待训练角色所对应的联合模型,生成所述目标联合模型。
其次,本申请实施例中,基于上述装置,由于人类玩家在游戏中的决策包括大局观操作和微操作两个部分,因此,首先给出同时学习大局观任务和微操任务的单英雄联合模型,然后再给出基于该联合模型的目标合作模型,由此加强模型的预测能力,从而提升信息预测的合理性。
可选地,在上述图18所对应的实施例的基础上,本申请实施例提供的模型训练装置40的另一实施例中,
所述训练模块,具体用于对所述每个待训练角色的所述第一编码信息和所述第二编码信息进行拼接,得到目标编码信息;
通过待训练联合模型获取所述目标编码信息所对应的第一预测标签,其中,所述第一预测标签表示预测得到的与操作意图相关的标签;
通过待训练联合模型获取所述第一预测标签与所述目标编码信息所对应的第二预测标签,其中,所述第二预测标签预测得到的与操作内容相关的标签;
采用损失函数对所述第一操作标签以及所述第二预测标签进行计算,得到联合模型参数,其中,所述第一操作标签属于真实值,所述第二预测标签属于预测值;
采用所述联合模型参数对所述待训练联合模型进行训练,得到所述每个待训练角色所对应的联合模型。
再次,本申请实施例中,基于上述装置,为单个联合模型的训练提供了具体的依据,同时将大局观操作和微操作两个任务合并到一个联合模型中,从而提升模型预测的精度。
可选地,在上述图18所对应的实施例的基础上,本申请实施例提供的模型训练装置40的另一实施例中,
所述训练模块,具体用于按照预设角色训练顺序,依次从所述待训练角色集合中确定所述每个待训练角色的训练顺序;
根据所述每个待训练角色的训练顺序,对所述每个待训练角色所对应的联合模型进行拼接,得到待训练目标联合模型;
采用损失函数对每个联合模型输出的所述第一操作标签以及所述第二预测标签,以及所述每个待训练对象的所述第一操作标签以及所述第二操作标签进行计算,得到目标联合模型参数;
采用所述目标联合模型参数对所述待训练目标联合模型进行训练,得到所述目标联合模型。
进一步地,本申请实施例中,提供了一种训练得到目标联合模型的方法。即按照预设角色训练顺序,依次从待训练角色集合中确定每个待训练角色的训练顺序,然后对每个待训练角色所对应的联合模型进行拼接,得到待训练目标联合模型,再采用损失函数得到目标联合模型参数,最后采用目标联合模型参数对待训练目标联合模型进行训练,得到目标联合模型。通过上述方式,为目标联合模型的训练提供了具体的依据,将每个角色对应的大局观操作和微操作两个任务合并到一个目标联合模型中,从而提升模型预测的精度。
图19是本发明实施例提供的一种服务器结构示意图,该服务器500可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processingunits,CPU)522(例如,一个或一个以上处理器)和存储器532,一个或一个以上存储应用程序542或数据544的存储介质530(例如一个或一个以上海量存储设备)。其中,存储器532和存储介质530可以是短暂存储或持久存储。存储在存储介质530的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器522可以设置为与存储介质530通信,在服务器500上执行存储介质530中的一系列指令操作。
服务器500还可以包括一个或一个以上电源526,一个或一个以上有线或无线网络接口550,一个或一个以上输入输出接口558,和/或,一个或一个以上操作系统541,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
上述实施例中由服务器所执行的步骤可以基于该图19所示的服务器结构。
在本发明实施例中,该服务器所包括的CPU 522还具有以下功能:
获取待预测图像数据,其中,所述待预测图像数据包括第一角色集合的数据以及第二角色集合的数据,所述第一角色集合与所述第二角色集合为不同的两个角色集合;
根据所述待预测图像数据确定所述第一角色集合中的N个待预测角色;
获取所述待预测图像数据中每个待预测角色的待预测特征集合,其中,所述待预测特征集合包括向量特征以及图像特征,所述向量特征包括公有向量特征以及私有向量特征,所述公有向量特征包括所述第一角色集合对应的属性特征、所述第二角色集合对应的属性特征、交互对象特征以及全局特征,所述私有向量特征包括待预测角色对应的操作特征,所述图像特征包括所述所述待预测角色对应的局部视野特征;
通过目标联合模型获取所述每个待预测角色所对应的第一操作信息,其中,所述目标联合模型用于根据所述待预测特征集合生成第二操作信息,所述目标联合模型还用于根据所述第二操作信息生成所述第一操作信息,所述第一操作信息表示与操作内容相关的信息,所述第二操作信息表示与操作意图相关的信息。
在本发明实施例中,该服务器所包括的CPU 522还具有以下功能:
获取待训练图像数据集合,其中,所述待训练图像数据集合包括至少一个待训练图像数据,所述待训练图像数据集合包括第一角色集合的数据以及第二角色集合的数据,所述第一角色集合与所述第二角色集合为不同的两个角色集合;
根据所述待训练图像数据集合确定所述第一角色集合所对应的待训练角色集合,其中,所述待训练角色集合中包括多个待训练角色,不同的待训练角色对应不同的角色类型;
获取所述待训练角色集合中每个待训练角色所对应的操作标签,其中,所述操作标签包括第一操作标签以及第二操作标签,所述第一操作标签表示与操作内容相关的标签,所述第二操作标签表示与操作意图相关的标签;
获取所述待训练图像数据集合中所述每个待训练角色所对应的待训练特征集合,其中,所述待训练特征集合包括公有向量特征、私有向量特征以及图像特征,所述公有向量特征包括所述第一角色集合对应的属性特征、所述第二角色集合对应的属性特征、交互对象特征以及全局特征,所述私有向量特征包括所述待训练角色的操作特征,所述图像特征包括所述待训练角色对应的局部视野特征;
根据所述每个待训练角色所对应的操作标签,以及所述每个待训练角色所对应的待训练特征集合,训练得到目标联合模型。
本发明实施例还提供了另一种操作信息预测装置,如图20所示,为了便于说明,仅示出了与本发明实施例相关的部分,具体技术细节未揭示的,请参照本发明实施例方法部分。该终端设备可以为包括手机、平板电脑、个人数字助理(Personal Digital Assistant,PDA)、销售终端设备(Point of Sales,POS)、车载电脑等任意终端设备设备,以终端设备为手机为例:
图20示出的是与本发明实施例提供的终端设备相关的手机的部分结构的框图。参考图20,手机包括:射频(Radio Frequency,RF)电路610、存储器620、输入单元630、显示单元640、传感器650、音频电路660、无线保真(wireless fidelity,WiFi)模块670、处理器680、以及电源690等部件。本领域技术人员可以理解,图20中示出的手机结构并不构成对手机的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
下面结合图20对手机的各个构成部件进行具体的介绍:
RF电路610可用于收发信息或通话过程中,信号的接收和发送,特别地,将基站的下行信息接收后,给处理器680处理;另外,将设计上行的数据发送给基站。通常,RF电路610包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low NoiseAmplifier,LNA)、双工器等。此外,RF电路610还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议,包括但不限于全球移动通讯系统(GlobalSystem of Mobile communication,GSM)、通用分组无线服务(General Packet RadioService,GPRS)、码分多址(Code Division Multiple Access,CDMA)、宽带码分多址(Wideband Code Division Multiple Access,WCDMA)、长期演进(Long Term Evolution,LTE)、电子邮件、短消息服务(Short Messaging Service,SMS)等。
存储器620可用于存储软件程序以及模块,处理器680通过运行存储在存储器620的软件程序以及模块,从而执行手机的各种功能应用以及数据处理。存储器620可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器620可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
输入单元630可用于接收输入的数字或字符信息,以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地,输入单元630可包括触控面板631以及其他输入设备632。触控面板631,也称为触摸屏,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板631上或在触控面板631附近的操作),并根据预先设定的程式驱动相应的连接装置。可选的,触控面板631可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器680,并能接收处理器680发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板631。除了触控面板631,输入单元630还可以包括其他输入设备632。具体地,其他输入设备632可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
显示单元640可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元640可包括显示面板641,可选的,可以采用液晶显示器(Liquid CrystalDisplay,LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板641。进一步的,触控面板631可覆盖显示面板641,当触控面板631检测到在其上或附近的触摸操作后,传送给处理器680以确定触摸事件的类型,随后处理器680根据触摸事件的类型在显示面板641上提供相应的视觉输出。虽然在图20中,触控面板631与显示面板641是作为两个独立的部件来实现手机的输入和输入功能,但是在某些实施例中,可以将触控面板631与显示面板641集成而实现手机的输入和输出功能。
手机还可包括至少一种传感器650,比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板641的亮度,接近传感器可在手机移动到耳边时,关闭显示面板641和/或背光。作为运动传感器的一种,加速计传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
音频电路660、扬声器661,传声器662可提供用户与手机之间的音频接口。音频电路660可将接收到的音频数据转换后的电信号,传输到扬声器661,由扬声器661转换为声音信号输出;另一方面,传声器662将收集的声音信号转换为电信号,由音频电路660接收后转换为音频数据,再将音频数据输出处理器680处理后,经RF电路610以发送给比如另一手机,或者将音频数据输出至存储器620以便进一步处理。
WiFi属于短距离无线传输技术,手机通过WiFi模块670可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图20示出了WiFi模块670,但是可以理解的是,其并不属于手机的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。
处理器680是手机的控制中心,利用各种接口和线路连接整个手机的各个部分,通过运行或执行存储在存储器620内的软件程序和/或模块,以及调用存储在存储器620内的数据,执行手机的各种功能和处理数据,从而对手机进行整体监控。可选的,处理器680可包括一个或多个处理单元;可选的,处理器680可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器680中。
手机还包括给各个部件供电的电源690(比如电池),可选的,电源可以通过电源管理系统与处理器680逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。
尽管未示出,手机还可以包括摄像头、蓝牙模块等,在此不再赘述。
在本发明实施例中,该终端设备所包括的处理器680还具有以下功能:
获取待预测图像数据,其中,所述待预测图像数据包括第一角色集合的数据以及第二角色集合的数据,所述第一角色集合与所述第二角色集合为不同的两个角色集合;
根据所述待预测图像数据确定所述第一角色集合中的N个待预测角色;
获取所述待预测图像数据中每个待预测角色的待预测特征集合,其中,所述待预测特征集合包括向量特征以及图像特征,所述向量特征包括公有向量特征以及私有向量特征,所述公有向量特征包括所述第一角色集合对应的属性特征、所述第二角色集合对应的属性特征、交互对象特征以及全局特征,所述私有向量特征包括待预测角色对应的操作特征,所述图像特征包括所述所述待预测角色对应的局部视野特征;
通过目标联合模型获取所述每个待预测角色所对应的第一操作信息,其中,所述目标联合模型用于根据所述待预测特征集合生成第二操作信息,所述目标联合模型还用于根据所述第二操作信息生成所述第一操作信息,所述第一操作信息表示与操作内容相关的信息,所述第二操作信息表示与操作意图相关的信息。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (13)

1.一种操作信息预测的方法,其特征在于,包括:
获取待预测图像数据,其中,所述待预测图像数据包括第一角色集合的数据以及第二角色集合的数据,所述第一角色集合与所述第二角色集合为不同的两个角色集合;
根据所述待预测图像数据确定所述第一角色集合中的待预测角色;
获取所述待预测图像数据中待预测角色的待预测特征集合,其中,所述待预测特征集合包括向量特征以及图像特征,所述向量特征包括公有向量特征以及私有向量特征,所述公有向量特征包括所述第一角色集合对应的属性特征、所述第二角色集合对应的属性特征、交互对象特征以及全局特征,所述私有向量特征包括待预测角色对应的操作特征,所述图像特征包括所述待预测角色对应的局部视野特征;
通过目标联合模型根据所述待预测特征集合生成第二操作信息,所述第二操作信息表示与操作意图相关的宏观操作信息,所述操作意图表示待预测角色进行的宏观决策,将所述第二操作信息输入到所述目标联合模型的微操编码层中,通过所述目标联合模型根据所述第二操作信息生成第一操作信息,所述第一操作信息表示与操作内容相关的微操作信息;
所述目标联合模型是根据每个待训练角色所对应的操作标签,以及所述每个待训练角色所对应的待训练特征集合训练得到的;
所述每个待训练角色所对应的操作标签的获取过程包括:
根据待训练图像数据集合,获取所述每个待训练角色的按键类型信息和按键参数信息,其中,所述按键类型信息为待预测角色在操作时决定使用的按键类型,所述按键参数信息表示待预测角色按键的操作参数,所述按键参数信息包括方向型参数、位置型参数以及目标型参数中的至少一项,所述方向型参数用于表示角色的移动方向,所述位置型参数用于表示角色所在的位置,所述目标型参数用于表示角色的待输出对象;
根据所述每个待训练角色的按键类型信息和按键参数信息,生成待训练角色集合中所述每个待训练角色的第一操作标签;
根据所述待训练图像数据集合,获取所述每个待训练角色在预设区域集合内的停留时间,其中,所述预设区域集合包括多个预设区域;
若所述待训练角色在目标预设区域内的停留时间大于时间阈值,则根据所述目标预设区域以及所述停留时间,确定所述待训练角色的操作意图信息,其中,所述操作意图信息表示角色具有的交互目的,具体表示角色决定要去的位置;
根据所述每个待训练角色的操作意图信息,生成所述待训练角色集合中所述每个待训练角色的第二操作标签。
2.一种模型训练的方法,其特征在于,包括:
获取待训练图像数据集合,其中,所述待训练图像数据集合包括至少一个待训练图像数据,所述待训练图像数据集合包括第一角色集合的数据以及第二角色集合的数据,所述第一角色集合与所述第二角色集合为不同的两个角色集合;
根据所述待训练图像数据集合确定所述第一角色集合所对应的待训练角色集合,其中,所述待训练角色集合中包括多个待训练角色,不同的待训练角色对应不同的角色类型;
获取所述待训练角色集合中每个待训练角色所对应的操作标签,其中,所述操作标签包括第一操作标签以及第二操作标签,所述第一操作标签表示与操作内容相关的微操作信息的标签,所述第二操作标签表示与操作意图相关的宏观操作信息的标签,所述操作意图表示待预测角色进行的宏观决策;
获取所述待训练图像数据集合中所述每个待训练角色所对应的待训练特征集合,其中,所述待训练特征集合包括公有向量特征、私有向量特征以及图像特征,所述公有向量特征包括所述第一角色集合对应的属性特征、所述第二角色集合对应的属性特征、交互对象特征以及全局特征,所述私有向量特征包括所述待训练角色的操作特征,所述图像特征包括所述待训练角色对应的局部视野特征;
根据所述每个待训练角色所对应的操作标签,以及所述每个待训练角色所对应的待训练特征集合,训练得到目标联合模型;
所述获取所述待训练角色集合中每个待训练角色所对应的操作标签,包括:
根据所述待训练图像数据集合,获取所述每个待训练角色的按键类型信息和按键参数信息,其中,所述按键类型信息为待预测角色在操作时决定使用的按键类型,所述按键参数信息表示待预测角色按键的操作参数,所述按键参数信息包括方向型参数、位置型参数以及目标型参数中的至少一项,所述方向型参数用于表示角色的移动方向,所述位置型参数用于表示角色所在的位置,所述目标型参数用于表示角色的待输出对象;
根据所述每个待训练角色的按键类型信息和按键参数信息,生成所述待训练角色集合中所述每个待训练角色的所述第一操作标签;
所述获取所述待训练角色集合中每个待训练角色所对应的操作标签,包括:
根据所述待训练图像数据集合,获取所述每个待训练角色在预设区域集合内的停留时间,其中,所述预设区域集合包括多个预设区域;
若所述待训练角色在目标预设区域内的停留时间大于时间阈值,则根据所述目标预设区域以及所述停留时间,确定所述待训练角色的操作意图信息,其中,所述操作意图信息表示角色具有的交互目的,具体表示角色决定要去的位置;
根据所述每个待训练角色的操作意图信息,生成所述待训练角色集合中所述每个待训练角色的所述第二操作标签。
3.根据权利要求2所述的方法,其特征在于,所述根据所述待训练图像数据集合确定所述第一角色集合所对应的待训练角色集合,包括:
根据所述待训练图像数据集合获取所述第一角色集合中的操作对象集合,其中,所述操作对象集合中包括多个操作对象;
根据预设匹配规则确定所述操作对象集合中每个操作对象所对应的可匹配角色集合,其中,所述可匹配角色集合包括至少一个可匹配角色;
根据所述每个操作对象所对应的可匹配角色集合,判断是否满足预设角色匹配条件;
若满足所述预设角色匹配条件,则确定所述待训练角色集合,其中,所述待训练角色集合中的待训练角色与所述操作对象集合中的操作对象具有一一对应关系。
4.根据权利要求2所述的方法,其特征在于,所述根据所述待训练图像数据集合确定所述第一角色集合所对应的待训练角色集合,包括:
根据所述待训练图像数据集合获取所述第一角色集合中的操作对象集合,其中,所述操作对象集合中包括多个操作对象;
获取所述操作对象集合中每个操作对象所对应的位置分布特征;
将所述每个操作对象所对应的位置分布特征与预设角色匹配模板进行比对,得到所述待训练角色集合,其中,所述预设角色匹配模板为预先根据不同角色的位置分布特征聚类后生成的模板。
5.根据权利要求2至4中任一项所述的方法,其特征在于,所述获取所述待训练图像数据集合中所述每个待训练角色所对应的待训练特征集合,包括:
根据所述待训练图像数据集合中的每个待训练图像,获取所述每个待训练角色所对应的所述公有向量特征、所述私有向量特征以及所述图像特征;
根据所述公有向量特征、所述私有向量特征以及所述图像特征,生成所述每个待训练角色所对应的所述待训练特征集合。
6.根据权利要求2所述的方法,其特征在于,所述根据所述每个待训练角色所对应的操作标签,以及所述每个待训练角色所对应的待训练特征集合,训练得到目标联合模型,包括:
通过卷积神经网络对所述每个待训练角色所对应的所述待训练特征集合中的所述图像特征进行编码,得到第一编码信息;
通过全连接神经网络对所述每个待训练角色所对应的所述待训练特征集合中的向量特征进行编码,得到第二编码信息,其中,所述向量特征包括所述公有向量特征以及所述私有向量特征;
根据每个待训练角色所对应的操作标签、所述第一编码信息以及所述第二编码信息,训练得到所述每个待训练角色所对应的联合模型;
根据所述每个待训练角色所对应的联合模型,生成所述目标联合模型。
7.根据权利要求6所述的方法,其特征在于,所述根据每个待训练角色所对应的操作标签、所述第一编码信息以及所述第二编码信息,训练得到所述每个待训练角色所对应的联合模型,包括:
对所述每个待训练角色的所述第一编码信息和所述第二编码信息进行拼接,得到目标编码信息;
通过待训练联合模型获取所述目标编码信息所对应的第一预测标签,其中,所述第一预测标签表示预测得到的与操作意图相关的标签;
通过待训练联合模型获取所述第一预测标签与所述目标编码信息所对应的第二预测标签,其中,所述第二预测标签预测得到的与操作内容相关的标签;
采用损失函数对所述第一操作标签以及所述第二预测标签进行计算,得到联合模型参数,其中,所述第一操作标签属于真实值,所述第二预测标签属于预测值;
采用所述联合模型参数对所述待训练联合模型进行训练,得到所述每个待训练角色所对应的联合模型。
8.根据权利要求7所述的方法,其特征在于,所述根据所述每个待训练角色所对应的联合模型,生成所述目标联合模型,包括:
按照预设角色训练顺序,依次从所述待训练角色集合中确定所述每个待训练角色的训练顺序;
根据所述每个待训练角色的训练顺序,对所述每个待训练角色所对应的联合模型进行拼接,得到待训练目标联合模型;
采用损失函数对每个联合模型输出的所述第一操作标签以及所述第二预测标签,以及所述每个待训练角色的所述第一操作标签以及所述第二操作标签进行计算,得到目标联合模型参数;
采用所述目标联合模型参数对所述待训练目标联合模型进行训练,得到所述目标联合模型。
9.一种操作信息预测装置,其特征在于,包括:
获取模块,用于获取待预测图像数据,其中,所述待预测图像数据包括第一角色集合的数据以及第二角色集合的数据,所述第一角色集合与所述第二角色集合为不同的两个角色集合;
确定模块,用于根据所述获取模块获取的所述待预测图像数据确定所述第一角色集合中的待预测角色;
所述获取模块,还用于获取所述待预测图像数据中所述确定模块确定的每个待预测角色的待预测特征集合,其中,所述待预测特征集合包括向量特征以及图像特征,所述向量特征包括公有向量特征以及私有向量特征,所述公有向量特征包括所述第一角色集合对应的属性特征、所述第二角色集合对应的属性特征、交互对象特征以及全局特征,所述私有向量特征包括待预测角色对应的操作特征,所述图像特征包括所述待预测角色对应的局部视野特征;
所述获取模块,还用于通过目标联合模型根据所述待预测特征集合生成第二操作信息,所述第二操作信息表示与操作意图相关的宏观操作信息,所述操作意图表示待预测角色进行的宏观决策,将所述第二操作信息输入到所述目标联合模型的微操编码层中,通过所述目标联合模型根据所述第二操作信息生成第一操作信息,所述第一操作信息表示与操作内容相关的微操作信息;
所述目标联合模型是根据每个待训练角色所对应的操作标签,以及所述每个待训练角色所对应的待训练特征集合训练得到的;
所述每个待训练角色所对应的操作标签的获取过程包括:
根据待训练图像数据集合,获取所述每个待训练角色的按键类型信息和按键参数信息,其中,所述按键类型信息为待预测角色在操作时决定使用的按键类型,所述按键参数信息表示待预测角色按键的操作参数,所述按键参数信息包括方向型参数、位置型参数以及目标型参数中的至少一项,所述方向型参数用于表示角色的移动方向,所述位置型参数用于表示角色所在的位置,所述目标型参数用于表示角色的待输出对象;
根据所述每个待训练角色的按键类型信息和按键参数信息,生成待训练角色集合中所述每个待训练角色的第一操作标签;
根据所述待训练图像数据集合,获取所述每个待训练角色在预设区域集合内的停留时间,其中,所述预设区域集合包括多个预设区域;
若所述待训练角色在目标预设区域内的停留时间大于时间阈值,则根据所述目标预设区域以及所述停留时间,确定所述待训练角色的操作意图信息,其中,所述操作意图信息表示角色具有的交互目的,具体表示角色决定要去的位置;
根据所述每个待训练角色的操作意图信息,生成所述待训练角色集合中所述每个待训练角色的第二操作标签。
10.一种模型训练装置,其特征在于,包括:
获取模块,用于获取待训练图像数据集合,其中,所述待训练图像数据集合包括至少一个待训练图像数据,所述待训练图像数据集合包括第一角色集合的数据以及第二角色集合的数据,所述第一角色集合与所述第二角色集合为不同的两个角色集合;
确定模块,用于根据所述获取模块获取的所述待训练图像数据集合确定所述第一角色集合所对应的待训练角色集合,其中,所述待训练角色集合中包括多个待训练角色,不同的待训练角色对应不同的角色类型;
所述获取模块,还用于获取所述确定模块确定的所述待训练角色集合中每个待训练角色所对应的操作标签,其中,所述操作标签包括第一操作标签以及第二操作标签,所述第一操作标签表示与操作内容相关的微操作信息的标签,所述第二操作标签表示与操作意图相关的宏观操作信息的标签,所述操作意图表示待预测角色进行的宏观决策;
所述获取模块,还用于获取所述待训练图像数据集合中所述每个待训练角色所对应的待训练特征集合,其中,所述待训练特征集合包括公有向量特征、私有向量特征以及图像特征,所述公有向量特征包括所述第一角色集合对应的属性特征、所述第二角色集合对应的属性特征、交互对象特征以及全局特征,所述私有向量特征包括所述待训练角色的操作特征,所述图像特征包括所述待训练角色对应的局部视野特征;
训练模块,用于根据所述获取模块获取的所述每个待训练角色所对应的操作标签,以及所述每个待训练角色所对应的待训练特征集合,训练得到目标联合模型;
所述获取模块具体用于:
根据所述待训练图像数据集合,获取所述每个待训练角色的按键类型信息和按键参数信息,其中,所述按键类型信息为待预测角色在操作时决定使用的按键类型,所述按键参数信息表示待预测角色按键的操作参数,所述按键参数信息包括方向型参数、位置型参数以及目标型参数中的至少一项,所述方向型参数用于表示角色的移动方向,所述位置型参数用于表示角色所在的位置,所述目标型参数用于表示角色的待输出对象;
根据所述每个待训练角色的按键类型信息和按键参数信息,生成所述待训练角色集合中所述每个待训练角色的所述第一操作标签;
所述获取模块具体用于:
根据所述待训练图像数据集合,获取所述每个待训练角色在预设区域集合内的停留时间,其中,所述预设区域集合包括多个预设区域;
若所述待训练角色在目标预设区域内的停留时间大于时间阈值,则根据所述目标预设区域以及所述停留时间,确定所述待训练角色的操作意图信息,其中,所述操作意图信息表示角色具有的交互目的,具体表示角色决定要去的位置;
根据所述每个待训练角色的操作意图信息,生成所述待训练角色集合中所述每个待训练角色的所述第二操作标签。
11.一种服务器,其特征在于,包括:存储器、收发器、处理器以及总线系统;
其中,所述存储器用于存储程序;
所述处理器用于执行所述存储器中的程序,包括如下步骤:
获取待预测图像数据,其中,所述待预测图像数据包括第一角色集合的数据以及第二角色集合的数据,所述第一角色集合与所述第二角色集合为不同的两个角色集合;
根据所述待预测图像数据确定所述第一角色集合中的待预测角色;
获取所述待预测图像数据中每个待预测角色的待预测特征集合,其中,所述待预测特征集合包括向量特征以及图像特征,所述向量特征包括公有向量特征以及私有向量特征,所述公有向量特征包括所述第一角色集合对应的属性特征、所述第二角色集合对应的属性特征、交互对象特征以及全局特征,所述私有向量特征包括待预测角色对应的操作特征,所述图像特征包括所述待预测角色对应的局部视野特征;
通过目标联合模型根据所述待预测特征集合生成第二操作信息,所述第二操作信息表示与操作意图相关的宏观操作信息,所述操作意图表示待预测角色进行的宏观决策,将所述第二操作信息输入到所述目标联合模型的微操编码层中,通过所述目标联合模型根据所述第二操作信息生成第一操作信息,所述第一操作信息表示与操作内容相关的微操作信息;
所述目标联合模型是根据每个待训练角色所对应的操作标签,以及所述每个待训练角色所对应的待训练特征集合训练得到的;
所述每个待训练角色所对应的操作标签的获取过程包括:
根据待训练图像数据集合,获取所述每个待训练角色的按键类型信息和按键参数信息,其中,所述按键类型信息为待预测角色在操作时决定使用的按键类型,所述按键参数信息表示待预测角色按键的操作参数,所述按键参数信息包括方向型参数、位置型参数以及目标型参数中的至少一项,所述方向型参数用于表示角色的移动方向,所述位置型参数用于表示角色所在的位置,所述目标型参数用于表示角色的待输出对象;
根据所述每个待训练角色的按键类型信息和按键参数信息,生成待训练角色集合中所述每个待训练角色的第一操作标签;
根据所述待训练图像数据集合,获取所述每个待训练角色在预设区域集合内的停留时间,其中,所述预设区域集合包括多个预设区域;
若所述待训练角色在目标预设区域内的停留时间大于时间阈值,则根据所述目标预设区域以及所述停留时间,确定所述待训练角色的操作意图信息,其中,所述操作意图信息表示角色具有的交互目的,具体表示角色决定要去的位置;
根据所述每个待训练角色的操作意图信息,生成所述待训练角色集合中所述每个待训练角色的第二操作标签;
所述总线系统用于连接所述存储器以及所述处理器,以使所述存储器以及所述处理器进行通信。
12.一种服务器,其特征在于,包括:存储器、收发器、处理器以及总线系统;
其中,所述存储器用于存储程序;
所述处理器用于执行所述存储器中的程序,包括如下步骤:
获取待训练图像数据集合,其中,所述待训练图像数据集合包括至少一个待训练图像数据,所述待训练图像数据集合包括第一角色集合的数据以及第二角色集合的数据,所述第一角色集合与所述第二角色集合为不同的两个角色集合;
根据所述待训练图像数据集合确定所述第一角色集合所对应的待训练角色集合,其中,所述待训练角色集合中包括多个待训练角色,不同的待训练角色对应不同的角色类型;
获取所述待训练角色集合中每个待训练角色所对应的操作标签,其中,所述操作标签包括第一操作标签以及第二操作标签,所述第一操作标签表示与操作内容相关的微操作信息的标签,所述第二操作标签表示与操作意图相关的宏观操作信息的标签,所述操作意图表示待预测角色进行的宏观决策;
获取所述待训练图像数据集合中所述每个待训练角色所对应的待训练特征集合,其中,所述待训练特征集合包括公有向量特征、私有向量特征以及图像特征,所述公有向量特征包括所述第一角色集合对应的属性特征、所述第二角色集合对应的属性特征、交互对象特征以及全局特征,所述私有向量特征包括所述待训练角色的操作特征,所述图像特征包括所述待训练角色对应的局部视野特征;
根据所述每个待训练角色所对应的操作标签,以及所述每个待训练角色所对应的待训练特征集合,训练得到目标联合模型;
所述总线系统用于连接所述存储器以及所述处理器,以使所述存储器以及所述处理器进行通信;
所述获取所述待训练角色集合中每个待训练角色所对应的操作标签,包括:
根据所述待训练图像数据集合,获取所述每个待训练角色的按键类型信息和按键参数信息,其中,所述按键类型信息为待预测角色在操作时决定使用的按键类型,所述按键参数信息表示待预测角色按键的操作参数,所述按键参数信息包括方向型参数、位置型参数以及目标型参数中的至少一项,所述方向型参数用于表示角色的移动方向,所述位置型参数用于表示角色所在的位置,所述目标型参数用于表示角色的待输出对象;
根据所述每个待训练角色的按键类型信息和按键参数信息,生成所述待训练角色集合中所述每个待训练角色的所述第一操作标签;
所述获取所述待训练角色集合中每个待训练角色所对应的操作标签,包括:
根据所述待训练图像数据集合,获取所述每个待训练角色在预设区域集合内的停留时间,其中,所述预设区域集合包括多个预设区域;
若所述待训练角色在目标预设区域内的停留时间大于时间阈值,则根据所述目标预设区域以及所述停留时间,确定所述待训练角色的操作意图信息,其中,所述操作意图信息表示角色具有的交互目的,具体表示角色决定要去的位置;
根据所述每个待训练角色的操作意图信息,生成所述待训练角色集合中所述每个待训练角色的所述第二操作标签。
13.一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行如权利要求1,或执行如权利要求2至8中任一项所述的方法。
CN201910193991.2A 2019-03-14 2019-03-14 一种操作信息预测的方法、模型训练的方法及相关装置 Active CN109893857B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910193991.2A CN109893857B (zh) 2019-03-14 2019-03-14 一种操作信息预测的方法、模型训练的方法及相关装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910193991.2A CN109893857B (zh) 2019-03-14 2019-03-14 一种操作信息预测的方法、模型训练的方法及相关装置

Publications (2)

Publication Number Publication Date
CN109893857A CN109893857A (zh) 2019-06-18
CN109893857B true CN109893857B (zh) 2021-11-26

Family

ID=66952701

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910193991.2A Active CN109893857B (zh) 2019-03-14 2019-03-14 一种操作信息预测的方法、模型训练的方法及相关装置

Country Status (1)

Country Link
CN (1) CN109893857B (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110163238B (zh) * 2018-12-13 2023-04-07 腾讯科技(深圳)有限公司 一种信息预测的方法、模型训练的方法以及服务器
CN110443284B (zh) * 2019-07-15 2022-04-05 超参数科技(深圳)有限公司 人工智能ai模型的训练方法、调用方法、服务器及可读存储介质
CN110721470B (zh) * 2019-10-25 2022-11-11 网易(杭州)网络有限公司 虚拟对象移动行为的控制方法、装置及电子设备
CN111144557A (zh) * 2019-12-31 2020-05-12 中国电子科技集团公司信息科学研究院 一种基于级联模式的动作策略方法
CN111265871A (zh) * 2020-01-22 2020-06-12 腾讯科技(深圳)有限公司 虚拟对象的控制方法及装置、设备、存储介质
CN111282279B (zh) * 2020-02-05 2021-05-07 腾讯科技(深圳)有限公司 模型训练的方法、基于交互式应用的对象控制方法及装置
CN113289330B (zh) * 2020-02-21 2023-12-08 华为技术有限公司 渲染方法和装置
CN111450531B (zh) * 2020-03-30 2021-08-03 腾讯科技(深圳)有限公司 虚拟角色控制方法、装置、电子设备以及存储介质
CN111450534B (zh) * 2020-03-31 2021-08-13 腾讯科技(深圳)有限公司 一种标签预测模型的训练方法、标签预测的方法及装置
CN111111204B (zh) * 2020-04-01 2020-07-03 腾讯科技(深圳)有限公司 交互模型训练方法、装置、计算机设备和存储介质
CN111467798B (zh) * 2020-04-01 2021-09-21 腾讯科技(深圳)有限公司 游戏应用程序中的帧显示方法、装置、终端和存储介质
CN113813610B (zh) * 2020-06-19 2024-05-14 北京龙创悦动网络科技有限公司 游戏数据预测模型训练、预测方法、预测装置和预测系统
CN112016704B (zh) * 2020-10-30 2021-02-26 超参数科技(深圳)有限公司 Ai模型训练方法、模型使用方法、计算机设备及存储介质
CN112402947B (zh) * 2020-11-20 2022-08-26 上海莉莉丝网络科技有限公司 游戏对象控制系统、方法及计算机可读存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107890675A (zh) * 2017-11-13 2018-04-10 杭州电魂网络科技股份有限公司 Ai行为实现方法和装置
CN107890674A (zh) * 2017-11-13 2018-04-10 杭州电魂网络科技股份有限公司 Ai行为调用方法和装置
CN108090561A (zh) * 2017-11-09 2018-05-29 腾讯科技(成都)有限公司 存储介质、电子装置、游戏操作的执行方法和装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10112113B2 (en) * 2016-03-30 2018-10-30 Sony Interactive Entertainment Inc. Personalized data driven game training system
US10080961B2 (en) * 2016-06-30 2018-09-25 Roblox Corporation Uniform game display across multiple devices

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108090561A (zh) * 2017-11-09 2018-05-29 腾讯科技(成都)有限公司 存储介质、电子装置、游戏操作的执行方法和装置
CN107890675A (zh) * 2017-11-13 2018-04-10 杭州电魂网络科技股份有限公司 Ai行为实现方法和装置
CN107890674A (zh) * 2017-11-13 2018-04-10 杭州电魂网络科技股份有限公司 Ai行为调用方法和装置

Also Published As

Publication number Publication date
CN109893857A (zh) 2019-06-18

Similar Documents

Publication Publication Date Title
CN109893857B (zh) 一种操作信息预测的方法、模型训练的方法及相关装置
CN108434740B (zh) 一种策略信息确定的方法及装置、存储介质
CN110163238B (zh) 一种信息预测的方法、模型训练的方法以及服务器
CN111598169B (zh) 一种模型训练方法、游戏测试方法、模拟操作方法及装置
CN108236785B (zh) 一种获取对象信息的方法及装置
CN109107161A (zh) 一种游戏对象的控制方法、装置、介质以及设备
CN110738211A (zh) 一种对象检测的方法、相关装置以及设备
CN111813532B (zh) 一种基于多任务机器学习模型的图像管理方法及装置
CN111282279A (zh) 模型训练的方法、基于交互式应用的对象控制方法及装置
CN110766081B (zh) 一种界面图像检测的方法、模型训练的方法以及相关装置
CN111985640A (zh) 一种基于强化学习的模型训练方法以及相关装置
CN112990390B (zh) 一种图像识别模型的训练方法、图像识别的方法及装置
CN111672109B (zh) 一种游戏地图生成的方法、游戏测试的方法以及相关装置
CN110841295B (zh) 一种基于人工智能的数据处理方法和相关装置
CN110555337B (zh) 一种指示对象的检测方法、装置以及相关设备
WO2023024762A1 (zh) 人工智能对象控制方法、装置、设备及存储介质
CN114404977B (zh) 行为模型的训练方法、结构扩容模型的训练方法
CN111282281B (zh) 图像处理方法及装置、电子设备和计算机可读存储介质
CN110448909B (zh) 一种应用中目标角色的结果输出方法和装置以及介质
CN110516113B (zh) 一种视频分类的方法、视频分类模型训练的方法及装置
CN106445710A (zh) 一种交互式对象确定的方法及相关设备
CN110193192A (zh) 一种自动化游戏方法和装置
CN117899478B (zh) 一种虚拟角色的控制方法和相关装置
CN113426121B (zh) 游戏操控方法、装置、存储介质及计算机设备
CN116999823A (zh) 信息显示方法、装置和存储介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant