CN111450534B - 一种标签预测模型的训练方法、标签预测的方法及装置 - Google Patents

一种标签预测模型的训练方法、标签预测的方法及装置 Download PDF

Info

Publication number
CN111450534B
CN111450534B CN202010246756.XA CN202010246756A CN111450534B CN 111450534 B CN111450534 B CN 111450534B CN 202010246756 A CN202010246756 A CN 202010246756A CN 111450534 B CN111450534 B CN 111450534B
Authority
CN
China
Prior art keywords
game
local
information
trained
acquiring
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010246756.XA
Other languages
English (en)
Other versions
CN111450534A (zh
Inventor
李思琴
王亮
付强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202010246756.XA priority Critical patent/CN111450534B/zh
Publication of CN111450534A publication Critical patent/CN111450534A/zh
Application granted granted Critical
Publication of CN111450534B publication Critical patent/CN111450534B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/55Controlling game characters or game objects based on the game progress
    • A63F13/56Computing the motion of game characters with respect to other game characters, game objects or elements of the game scene, e.g. for simulating the behaviour of a group of virtual soldiers or for path finding
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F2300/00Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game
    • A63F2300/50Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game characterized by details of game servers
    • A63F2300/55Details of game data or player data management

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本申请公开了一种标签预测模型的训练方法、标签预测的方法及装置,用于人工智能领域。本申请方法包括:从游戏视频样本中获取待训练游戏数据;根据待训练游戏数据获取图像特征;根据待训练游戏数据获取局内信息特征;根据待训练游戏数据获取M个大局观标签,M为大于或等于2的整数;根据图像特征、局内信息特征以及M个大局观标签,对大局观标签预测模型进行训练。本申请针对同一帧训练数据能够从多个类别上提取对应的大局观标签,结合多种类别的大局观标签对模型训练训练,避免出现单一的宏观意图,从而更完善地刻画出玩家的真实意图。还可以通过程序自动为训练数据进行标注,节省了专家标注的人力成本,提升了标注的便利性。

Description

一种标签预测模型的训练方法、标签预测的方法及装置
技术领域
本申请涉及人工智能领域,尤其涉及一种标签预测模型的训练方法、标签预测的方法及装置。
背景技术
人工智能(artificial intelligence,AI)程序已经在规则明确的棋类游戏里战胜了职业选手。而相比之下,多人在线战术竞技(multiplayer online battle arena,MOBA)游戏的操作更加复杂。对于MOBA游戏而言,微操作主要是指游戏角色在当前场景下的具体操作,而大局观主要是对游戏角色进行大范围的转移调度形成一定的战略战术。
目前,提出一种基于MOBA游戏的分层宏观策略模型,模型的输入为属性信息(比如英雄、野怪以及兵线等)、地图信息(比如障碍物等)、全局信息(比如时间等)以及小地图信息,模型的输出为英雄的微操作。同时,对大局观进行建模,再将大局观学习的结果输入至微操作的学习中,以此影响英雄的微操作。大局观的建模主要通过英雄对游戏中资源的攻击来定义的,例如当英雄攻击防御塔时,定义此时大局观的标签为对该防御塔发起攻击时的位置。
然而,现有技术中对大局观标签的定义是依据攻击资源所处的位置,因此,在微操作预测过程中,仅考虑了以攻击为目的的宏观策略,而在玩家的实际操作中,宏观意图不止包括攻击,仅以攻击为大局观标签是片面的,难以全面地刻画出玩家的真实意图。
发明内容
本申请实施例提供了一种标签预测模型的训练方法、标签预测的方法及装置,可以针对同一帧训练数据能够从多个类别上提取对应的大局观标签,结合多种类别的大局观标签对模型训练训练,避免出现单一的宏观意图,从而更完善地刻画出玩家的真实意图。还可以通过程序自动为训练数据进行标注,节省了专家标注的人力成本,提升了标注的便利性。
有鉴于此,本申请第一方面提供一种标签预测模型的训练方法,包括:
从游戏视频样本中获取待训练游戏数据,其中,游戏视频样本包括多帧游戏数据;
根据待训练游戏数据获取图像特征,其中,图像特征包括全局图像特征以及局部图像特征,全局图像特征表示在目标角色全局视角下的特征,局部图像特征表示在目标角色局部视角下的特征;
根据待训练游戏数据获取局内信息特征,其中,局内信息特征包括在游戏对局中单位角色的特征;
根据待训练游戏数据获取M个大局观标签,其中,每个大局观标签与目标角色所在的位置相关,M为大于或等于2的整数;
根据图像特征、局内信息特征以及M个大局观标签,对大局观标签预测模型进行训练。
本申请第二方面提供一种标签预测的方法,包括:
获取目标角色所对应的待预测游戏数据;
根据待预测游戏数据获取图像特征以及局内信息特征,其中,图像特征包括全局图像特征以及局部图像特征,全局图像特征表示在目标角色全局视角下的特征,局部图像特征表示在目标角色局部视角下的特征,局内信息特征包括在游戏对局中单位角色的特征;
基于图像特征以及局内信息特征,通过大局观标签预测模型获取目标角色所对应的M个大局观标签,其中,M为大于或等于2的整数,大局观标签预测模型为采用上述第一方面的标签预测模型的训练方法训练得到的。
本申请第三方面提供一种模型训练装置,包括:
获取模块,用于从游戏视频样本中获取待训练游戏数据,其中,游戏视频样本包括多帧游戏数据;
获取模块,还用于根据获取模块获取到的待训练游戏数据获取图像特征,其中,图像特征包括全局图像特征以及局部图像特征,全局图像特征表示在目标角色全局视角下的特征,局部图像特征表示在目标角色局部视角下的特征;
获取模块,还用于根据获取模块获取到的待训练游戏数据获取局内信息特征,其中,局内信息特征包括在游戏对局中单位角色的特征;
获取模块,还用于根据获取模块获取到的待训练游戏数据获取M个大局观标签,其中,每个大局观标签与目标角色所在的位置相关,M为大于或等于2的整数;
训练模块,用于根据获取模块获取到的图像特征、局内信息特征以及M个大局观标签,对大局观标签预测模型进行训练。
在一种可能的设计中,在本申请实施例的第三方面的一种实现方式中,
获取模块,具体用于根据待训练游戏数据获取第一资源信息集合,其中,第一资源信息集合包括在目标角色全局视角下的至少一类资源点的位置信息;
根据待训练游戏数据获取第一角色信息集合,其中,第一角色信息集合包括在目标角色全局视角下的至少一方角色的位置信息;
根据第一资源信息集合以及第一角色信息集合,生成全局图像特征;
根据待训练游戏数据获取第二资源信息集合,其中,第二资源信息集合包括在目标角色局部视角下的至少一类资源点的位置信息;
根据待训练游戏数据获取第二角色信息集合,其中,第二角色信息集合包括在目标角色局部视角下的至少一方角色的位置信息;
根据第二资源信息集合以及第二角色信息集合,生成局部图像特征。
在一种可能的设计中,在本申请实施例的第三方面的另一种实现方式中,
获取模块,具体用于根据待训练游戏数据获取第一角色集合中每个第一角色的属性信息,其中,第一角色集合包括至少一个第一角色;
根据待训练游戏数据获取第二角色集合中每个第二角色的属性信息,其中,第二角色集合包括至少一个第二角色,第二角色集合与第一角色集合属于不同的游戏阵营;
根据待训练游戏数据获取资源集合中每个资源的属性信息,其中,资源集合包括至少一个资源;
根据待训练游戏数据获取对战信息,其中,对战信息至少包括比分信息、时间信息以及交互信息;
根据每个第一角色的属性信息、每个第二角色的属性信息、每个资源的属性信息以及对战信息,生成局内信息特征。
在一种可能的设计中,在本申请实施例的第三方面的另一种实现方式中,
获取模块,具体用于根据游戏视频样本获取第一游戏画面集合,其中,第一游戏画面集合包括目标角色的停留时间大于或等于时间阈值的游戏画面;
根据待训练游戏数据,从第一游戏画面集合中获取第一大局观标签;
根据游戏视频样本获取第二游戏画面集合,其中,第二游戏画面集合包括目标角色发起交互操作的游戏画面;
根据待训练游戏数据,从第二游戏画面集合中获取第二大局观标签;
根据游戏视频样本获取第三游戏画面集合,其中,第三游戏画面集合包括目标角色在每间隔T个时刻所对应的游戏画面,T大于或等于1;
根据待训练游戏数据,从第三游戏画面集合中获取第三大局观标签。
在一种可能的设计中,在本申请实施例的第三方面的另一种实现方式中,
获取模块,具体用于获取待训练游戏数据所对应的目标时刻;
从第一游戏画面集合中获取第一时刻所对应的第一游戏画面,其中,第一时刻为距离目标时刻最接近的下一个时刻;
从第一游戏画面中确定目标对象停留的位置;
根据目标对象停留的位置生成第一大局观标签。
在一种可能的设计中,在本申请实施例的第三方面的另一种实现方式中,
获取模块,具体用于获取待训练游戏数据所对应的目标时刻;
从第二游戏画面集合中获取第二时刻所对应的第二游戏画面,其中,第二时刻为距离目标时刻最接近的下一个时刻;
从第二游戏画面中确定目标对象发起交互操作的位置;
根据目标对象发起交互操作的位置生成第二大局观标签。
在一种可能的设计中,在本申请实施例的第三方面的另一种实现方式中,
获取模块,具体用于获取待训练游戏数据所对应的目标时刻;
从第三游戏画面集合中获取第三时刻所对应的第三游戏画面,其中,第三时刻为距离目标时刻最接近的下一个时刻;
从第三游戏画面中确定目标对象所在的位置;
根据目标对象所在的位置生成第三大局观标签。
在一种可能的设计中,在本申请实施例的第三方面的另一种实现方式中,
训练模块,具体用于基于全局图像特征、局部图像特征以及局内信息特征,通过大局观标签预测模型获取M个预测大局观标签;
根据M个大局观标签以及M个预测大局观标签,采用损失函数对大局观标签预测模型进行训练。
在一种可能的设计中,在本申请实施例的第三方面的另一种实现方式中,
获取模块,具体用于基于全局图像特征,通过大局观标签预测模型所包括的第一卷积神经网络获取第一特征向量;
基于局部图像特征,通过大局观标签预测模型所包括的第二卷积神经网络获取第二特征向量;
基于局内信息特征,通过大局观标签预测模型所包括的全连接网络获取第三特征向量;
基于第一特征向量、第二特征向量以及第三特征向量,通过大局观标签预测模型所包括的网络模型获取M个预测大局观标签。
本申请第四方面提供一种标签预测装置,包括:
获取模块,用于获取目标角色所对应的待预测游戏数据;
获取模块,还用于根据获取模块获取到的待预测游戏数据获取图像特征以及局内信息特征,其中,图像特征包括全局图像特征以及局部图像特征,全局图像特征表示在目标角色全局视角下的特征,局部图像特征表示在目标角色局部视角下的特征,局内信息特征包括在游戏对局中单位角色的特征;
获取模块,还用于基于获取模块获取到的图像特征以及局内信息特征,通过大局观标签预测模型获取目标角色所对应的M个大局观标签,其中,M为大于或等于2的整数,大局观标签预测模型为采用上述第三方面的任一标签预测的训练模型装置训练得到的。
本申请第五方面提供一种计算机设备,包括:存储器、收发器、处理器以及总线系统;
其中,所述存储器用于存储程序;
所述处理器用于执行所述存储器中的程序,以实现上述各方面所述的方法;
所述总线系统用于连接所述存储器以及所述处理器,以使所述存储器以及所述处理器进行通信。
本申请的第六方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述各方面所述的方法。
从以上技术方案可以看出,本申请实施例具有以下优点:
本申请实施例中,提供了一种标签预测模型的训练方法,首先可以从游戏视频样本中获取待训练游戏数据,该游戏视频样本可以包括多帧游戏数据,然后根据所获取的待训练游戏数据获取图像特征,该图像特征可以包括全局图像特征以及局部图像特征,其中全局图像特征表示在目标角色全局视角下的特征,以及局部图像特征表示在目标角色局部视角下的特征,其次,还可以根据待训练游戏数据获取局内信息特征,该局内信息特征包括在游戏对局中单位角色的特征,根据待训练游戏数据获取M个大局观标签,该每个大局观标签与目标角色所在的位置相关,M为大于或等于2的整数,最后根据所获取的图像特征、局内信息特征以及M个大局观标签,对大局观标签预测模型进行训练。通过上述方式,针对同一帧训练数据能够从多个类别上提取对应的大局观标签,结合多种类别的大局观标签对模型训练,避免出现单一的宏观意图,从而更完善地刻画出玩家的真实意图。还可以通过程序自动为训练数据进行标注,节省了专家标注的人力成本,提升了标注的便利性。
附图说明
图1为分层宏观策略模型的一个结构示意图;
图2为基于MOBA游戏中角色发起攻击的方式定义大局观标签的一个示意图;
图3为本申请实施例中标签预测系统的一个架构示意图;
图4为本申请实施例中标签预测系统的一个处理流程示意图;
图5为本申请实施例中标签预测模型的训练方法一个实施例示意图;
图6为本申请实施例中基于游戏画面提取图像特征的一个实施例示意图;
图7为本申请实施例中基于游戏画面提取局内信息特征的一个实施例示意图;
图8为本申请实施例中大局观标签的一个实施例示意图;
图9为本申请实施例中对战信息的一个实施例示意图;
图10为本申请实施例中不同大局观意图分类的一个实施例示意图;
图11为本申请实施例中大局观标签预测模型的一个结构示意图;
图12为本申请实施例中标签预测的方法一个实施例示意图;
图13为本申请实施例中基于游戏数据获取相关特征的一个实施例示意图;
图14为本申请实施例中模型训练装置的一个实施例示意图;
图15为本申请实施例中标签预测装置的一个实施例示意图;
图16为本申请实施例中计算机设备的一个结构示意图。
具体实施方式
本申请实施例提供了一种标签预测模型的训练方法、标签预测的方法及装置,用于针对同一帧训练数据能够从多个类别上提取对应的大局观标签,结合多种类别的大局观标签对模型训练训练,避免出现单一的宏观意图,从而更完善地刻画出玩家的真实意图。还可以通过程序自动为训练数据进行标注,节省了专家标注的人力成本,提升了标注的便利性。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“对应于”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
应理解,本申请提供了一种基于弱监督学习的大局观标签预测方法,可以应用于游戏中的人机对战场景,也可以应用于模拟我方队友操作的场景。基于预测得到的大局观标签进一步预测人工智能(artificial intelligence,AI)玩家的微操作。
具体地,以应用于多人在线战术竞技(multiplayer online battle arena,MOBA)游戏作为一个示例进行说明,在实际应用中,MOBA游戏的典型玩法是5v5对战,两支队伍分别由5个玩家组成,每个玩家控制一个英雄角色,先推掉对方基地的一方为获胜方。MOBA游戏中,通常需要5个英雄以合作的方式进行游戏。玩家在游戏中主要进行两个层面上的思考和操作,一个是宏观调度(即大局观),大局观是在宏观策略战术层面对英雄单位的调度,另一个就是微观操作(即微操作),是具体场景下对英雄单位的操作。对于AI角色而言,微操作主要是英雄单位在当前场景下的具体操作,而大局观主要是对AI角色进行大范围的转移调度形成一定的战略战术,以更好地获取资源,或在局部战斗中获得更多的优势。本方案可以在即时战略游戏中通过对宏观策略的学习,对标签预测模型进行训练,从而针对同一帧训练数据能够从多个类别上提取对应的大局观标签,结合多种类别的大局观标签对模型训练训练,避免出现单一的宏观意图,从而更完善地刻画出玩家的真实意图。还可以通过程序自动为训练数据进行标注,节省了专家标注的人力成本,提升了标注的便利性,由此可以有利于AI角色对局面战术战略的判断,并且提高AI角色的实际表现。
请参阅图1,图1为分层宏观策略模型的一个结构示意图,如图所示,可以将A1所指示的地图信息(比如障碍物等)以及小地图信息作为模型的输入,通过模型得到图像特征A2,然后将图像特征A2作为模型中卷积层A3的输入,再将输出的特征作为卷积层A4的输入,并且将输出作为卷积层A14的输入。此外,需要将A11所指示的属性信息(比如英雄、野怪以及兵线等)以及全局信息(比如时间等)作为模型的输入,通过模型得到向量特征A12,再将向量特征A12作为模型中全连接层A13的输入,然后将输出的特征作为全连接层A5的输入,以及作为全连接层A15的输入。进一步地,卷积层A4输出的特征可以作为平滑层A6的输入,然后将平滑层A6输出的特征与连接层A5输出的特征作为拼接层A7的输入,再通过全连接层A8以及全连接层A9输出对应的至少两类大局观标签A10。卷积层A14所得到的特征可以作为平滑层A16的输入,然后将平滑层A16输出的特征与全连接层A15输出的特征作为拼接层A17的输入,再通过全连接层A18以及全连接层A19输出对应的微操标签A20,最后根据至少两类大局观标签A10以及微操标签A20,输出AI角色的微操作A21。在本申请提供的技术方案中,大局观标签包括从多个维度上抽取的标签,例如,按照AI角色停留时间来抽取标签,按照AI角色发起攻击来抽取标签,按照游戏固定时间抽取标签等。
基于此,先对大局观进行建模,再将大局观学习的结果输入至微操作的学习中,以此影响英雄的微操作。请参阅图2,图2为基于MOBA游戏中角色发起攻击的方式定义大局观标签的一个示意图,如图所示,在对局开始后,检测到我方角色正在攻击对方的法力增益资源,此时,B0所示的大局观标签为“偷蓝”。接下来,检测到我方角色正在攻击敌方下路的第一个防御塔,此时,B1所示的大局观标签为“下路一塔被攻击”。接下来,检测到我方角色正在攻击属性较低的非玩家角色(Non-Player Character,NPC),此时,B2所示的大局观标签为“打龙”。接下来,检测到我方角色正在攻击敌方中路的第一个防御塔,此时,B3所示的大局观标签为“中路一塔被攻击”。接下来,检测到我方角色正在攻击敌方上路的第一个防御塔,此时,B4所示的大局观标签为“上路一塔被攻击”。接下来,检测到我方角色正在攻击敌方中路的第二个防御塔,此时,B5所示的大局观标签为“中路二塔被攻击”。接下来,检测到我方角色正在攻击属性较高的NPC,此时,B6所示的大局观标签为“打暴君”。接下来,检测到我方角色正在攻击敌方中路的第三个防御塔,此时,B7所示的大局观标签为“中路三塔被攻击”。接下来,检测到我方角色正在攻击属性较低的NPC,此时,B8所示的大局观标签为“打龙”。接下来,检测到我方角色正在攻击敌方基地,此时,B9所示的大局观标签为“打基地”。
可以理解的是,大局观的建模主要通过英雄对游戏中资源的攻击来定义的,例如当英雄攻击防御塔时,定义此时大局观的标签为对该防御塔发起攻击时的位置。在本申请提供的技术方案中,除了可以基于对资源的攻击来定义大局观标签,还可以基于停留位置以及短期内的轨迹共同定义大局观标签。这是由于仅考虑以攻击为目的的宏观策略是片面的,难以全面地刻画出玩家的真实意图。而在玩家的实际操作中,宏观意图不止包括攻击,还需要通过专家经验对每个样本标注置信的标签,然而大局观的意图可又多种不同的定义,数据标注便利性也较低。
为了在上述场景中,更完善地刻画出玩家的真实意图,并且提升标注的便利性,本申请提出了一种标签预测模型的训练方法,该方法应用于图3所示的标签预测系统,请参阅图3,图3为本申请实施例中标签预测系统的一个架构示意图,如图所示,标签预测系统中包括服务器和终端设备。而模型训练装置可以部署于服务器,也可以部署于具有较高计算力的终端设备,下面将以模型训练装置部署于服务器为例进行介绍。
具体地,在对标签预测模型进行训练之前,服务器可以从游戏视频样本中获取待训练游戏数据,该游戏视频样本可以包括多帧游戏数据,然后根据待训练游戏数据获取图像特征,这里的图像特征主要包括全局图像特征以及局部图像特征,其中,全局图像特征表示在游戏角色在全局视角下的特征,而局部图像特征表示在游戏角色局部视角下的特征,其次,还可以根据待训练游戏数据获取局内信息特征,该局内信息特征主要包括在游戏对局中单位角色的特征,根据待训练游戏数据获取至少两类大局观标签,每个大局观标签与游戏角色所在的位置相关,最后根据图像特征、局内信息特征以及至少两类大局观标签,共同对大局观标签预测模型进行训练。
基于上述介绍,可以设计两种训练模式,一种方式为先训练大局观标签预测模型,在训练完成后,将该大局观标签预测模型输出的至少两类大局观标签作为微操预测模型的输入,再与游戏角色的微操作标签进行训练,直至训练得到微操作预测模型。在实际预测中,先将游戏数据输入至大局观标签预测模型,由大局观标签预测模型输出至少两类大局观标签,再将至少两类大局观标签输入至微操预测模型,由微操预测模型输出具体的微操作标签。另一种方式为,将大局观标签预测模型与微操作预测模型进行联合训练,直至训练得到联合预测模型。在实际预测中,将游戏数据输入至联合预测模型,由联合预测模型直接输出微操作标签。
考虑到模型的参数较多,且数据处理的复杂度较高,因此,通常情况下,将训练好的大局观标签预测模型部署于服务器侧,当客户端侧需要进行大局观标签的预测时,由客户端将游戏数据反馈至服务器,或者直接由服务器提取游戏数据,再将游戏数据输入至大局观标签预测模型,从而输出至少两类大局观标签,进而根据至少两类大局观标签预测游戏角色的微操作标签,最后将微操作标签反馈至客户端,由客户端展示该微操作标签所对应的具体动作。
其中,图3中的服务器可以是一台服务器或多台服务器组成的服务器集群或云计算中心等,具体此处均不限定。客户端部署于终端设备,终端设备可以为图3中示出的平板电脑、笔记本电脑、掌上电脑、手机、个人电脑(personal computer,PC)及语音交互设备等,此处不做限定。在部分实现方式中,客户端可以表现为网页客户端,也可以表现为应用程序类客户端,均部署于前述终端设备上。
终端设备和服务器之间可以通过无线网络、有线网络或可移动存储介质进行通信。其中,上述的无线网络使用标准通信技术和/或协议。无线网络通常为因特网、但也可以是任何网络,包括但不限于蓝牙、局域网(Local Area Network,LAN)、城域网(Metropolitan Area Network,MAN)、广域网(Wide Area Network,WAN)、移动、专用网络或者虚拟专用网络的任何组合)。在一些实施例中,可以使用定制或专用数据通信技术取代或者补充上述数据通信技术。可移动存储介质可以为通用串行总线(Universal Serial Bus,USB)闪存盘、移动硬盘或其他可移动存储介质等。
虽然图3中仅示出了五个终端设备和一个服务器,但应当理解,图3中的示例仅用于理解本方案,具体终端设备和服务器的数量均应当结合实际情况灵活确定。
结合上述介绍,为了便于说明,请参阅图4,图4为本申请实施例中标签预测系统的一个处理流程示意图,如图所示,标签预测系统分为两个部分,一个是离线训练,另一个是在线预测,下面将分别进行介绍。在离线训练过程中,将待训练游戏数据输入至离线数据处理模块C1,其中,离线数据处理模块C1中包括特征提取模块C2和大局观标签抽取模块C3。由特征提取模块C2基于该待训练游戏数据输出全局图像特征数据(即minimap数据)、局部图像特征数据(即img_like数据)以及局内信息特征数据(即vector数据)。此外,还可以将待训练游戏数据输入至大局观标签抽取模块C3,通过大局观标签抽取模块C3提取至少两类不同意图的大局观标签,然后将全局图像特征数据、局部图像特征数据、局内信息特征数据以及至少两类大局观标签输入至各类大局观标签模型训练模块C4,各类大局观标签模型训练模块C4可以训练得到模型预测模块C7。在在线训练过程中,将游戏数据输入至在线数据处理模块C5,其中,在线数据处理模块C5包括特征提取模块C6。由特征提取模块C6基于游戏数据输出全局图像特征数据、局部图像特征数据以及局内信息特征数据,并且将全局图像特征数据,局部图像特征数据以及局内信息特征数据输入至模型预测模块C7,通过模型预测模块C7预测得到各类意图的大局观标签。
本申请实施例是应用于人工智能领域,在对本申请实施例提供的标签预测模型的训练方法以及标签预测的方法介绍之前,先对人工智能领域的一些基础概念进行介绍。人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
随着人工智能技术研究和进步,人工智能技术在多种方向展开研究,机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
本申请实施例提供的方案涉及人工智能的机器学习技术,结合上述介绍,下面将对本申请中标签预测模型的训练方法进行介绍,请参阅图5,图5为本申请实施例中标签预测模型的训练方法一个实施例示意图,如图所示,本申请实施例中标签预测模型的训练方法一个实施例包括:
101、从游戏视频样本中获取待训练游戏数据,其中,游戏视频样本包括多帧游戏数据;
本实施例中,模型训练装置可以从游戏视频样本中获取待训练游戏数据,由于游戏视频样本通常为一局游戏的录制视频,因此该游戏视频样本可以包括多帧游戏数据。其中,待训练游戏数据即为游戏视频样本中多帧游戏数据中的一帧数据,并且待训练游戏数据包括目标角色,目标角色为真实玩家控制的一个游戏角色。
可以理解的是,游戏视频样本可以为模型训练装置通过有线网络接收到的样本,也可以为模型训练装置本身存储的样本。需要说明的是,模型训练装置可以部署于服务器,也可以部署于终端设备,本申请中以模型训练装置部署于服务器为例进行说明,然而这不应理解为对本申请的限定。
102、根据待训练游戏数据获取图像特征,其中,图像特征包括全局图像特征以及局部图像特征,全局图像特征表示在目标角色全局视角下的特征,局部图像特征表示在目标角色局部视角下的特征;
本实施例中,模型训练装置可以根据待训练游戏数据获取图像特征,该图像特征包括全局图像特征以及局部图像特征,全局图像特征以及局部图像特征可以表示为二维矩阵。其中,全局图像特征可以表示在目标角色全局视角下的特征(如防御塔的位置、目标角色的位置、基地的位置、障碍物的位置、我方其他队友的位置、敌方队友的位置以及NPC的位置等)。局部图像特征表示在目标角色局部视角下的特征(如障碍物的位置、我方其他队友的位置、敌方队友的位置以及NPC的位置等)。具体地,可以将全局地图划分为W1*H1个的格子,由此可以描述全局图像特征。还可以将局部视角下的画面划分为W2*H2个的格子,由此可以描述局部图像特征。
可以理解的是,W1和H1可以设置为两个相等的值,比如W1和H1均为24,或者W1和H1均为36。此外,W1和H1可以设置为两个不相等的值,比如W1为24,H1为30。类似地,W2和H2可以设置为两个相等的值,比如W2和H2均为24,或者W2和H2均为30。此外,W2和H2可以设置为两个不相等的值,比如W2为24,H2为30。本申请中以H1、W1、H2和W2均等于24为例进行说明,具体大小均应当根据计算资源和模型要求精度等实际情况灵活确定。
为了便于理解,请参阅图6,图6为本申请实施例中基于游戏画面提取图像特征的一个实施例示意图,如图所示,以MOBA游戏为例,从游戏画面中提取小地图D1,小地图D1表示在目标角色全局视角下的画面,利用小地图D1即可提取全局图像特征,全局图像特征可以反映目标角色在小地图中所处的位置或者以及在小地图中的其他信息。从游戏画面中提取局部视角图像D2,局部视角图像D2表示在目标角色局部视角下的画面,利用局部视角图像D2即可提取局部图像特征,局部图像特征可以反映在目标角色附近的环境。
103、根据待训练游戏数据获取局内信息特征,其中,局内信息特征包括在游戏对局中单位角色的特征;
本实施例中,模型训练装置还可以根据待训练游戏数据获取局内信息特征,局内信息特征可以表示为一维向量。其中,局内信息特征包括在游戏对局中单位角色的特征,单位角色包含但不仅限于我方各个角色以及对方各个角色。
为了便于理解,请参阅图7,图7为本申请实施例中基于游戏画面提取局内信息特征的一个实施例示意图,如图所示,以MOBA游戏为例,从游戏画面中提取游戏状态E1,其中,图7中所示的仅为部分游戏状态,比如包括我方队友的状态(血量以及蓝量)、目标角色的击杀数量、目标角色的死亡数量,目标角色的助攻数量、我方与敌方的资源比以及已进行的游戏时间等,在实际应用中还可以包括我方各个角色的防御值、伤害值以及参与团战率等,以及包括敌方各个角色的防御值、伤害值以及参与团战率等。利用游戏状态E1提取局内信息特征。
104、根据待训练游戏数据获取M个大局观标签,其中,每个大局观标签与目标角色所在的位置相关,M为大于或等于2的整数;
本实施例中,模型训练装置可以根据待训练游戏数据获取至少两个大局观标签,每类大局观标签与目标角色所在的位置相关。具体地,目标角色的大局观决策表现为去往什么位置,而该位置反映了目标角色的宏观意图,宏观意图通常是没有明确标签的,因此,本申请以目标角色的位置作为大局观标签的表现。例如,考虑将对资源争夺作为宏观意图,也可以将目标角色在某一位置停留超过一定时间作为为宏观意图等,因此,需要对待训练游戏数据打上标签,以反映目标角色所进行的大局观决策。进一步地,可以按照目标角色的停留时间获取一类大局观标签,按照目标角色发生攻击获取另一类大局观标签,按照游戏中固定时间获取另一类大局观标签。
为了便于理解,请参阅图8,图8为本申请实施例中大局观标签的一个实施例示意图,如图所示,假设将小地图划分为24*24个格子,且每个格子对应于一个标签,即共有576个可选标签,在实际应用中,可以采用不同的方式表示标签,例如,图8中第1个格子的标签为1,第2个格子的标签为2,以此类推。可选地,还可以采用类似独热(one-hot)编码的方式为格子打标签,比如,第1个格子的标签为(1,0,0,0,....,0),第2个格子的标签为(0,1,0,0,....,0),本申请以采用第一种方式对格子打标签。
基于此,若以目标角色的停留时间获取大局观标签,且目标角色在格子F1的停留时间满足停留时间阈值,则可以确定格子F1所对应的标签为一个大局观标签。若以目标角色发生攻击获取大局观标签,且目标角色在格子F2发生攻击,则可以确定格子F2所对应的标签为一个大局观标签。若按游戏中固定时间获取大局观标签,且目标角色从格子F3到格子F4的时间为一个固定采集时间间隔,则可以确定格子F4所对应的标签为一个大局观标签。
可以理解的是,步骤102至步骤104中获取图像特征、局内信息特征以及M个大局观标签之间没有前后时序限定。且本申请是以游戏视频样本中的一帧游戏数据为例介绍的,在实际训练中,需要对游戏视频样本中的多帧游戏数据均进行如步骤102至步骤104的处理,分别得到各帧游戏数据所对应的图像特征、局内信息特征以及M个大局观标签。
105、根据图像特征、局内信息特征以及M个大局观标签,对大局观标签预测模型进行训练。
本实施例中,模型训练装置可以根据前述步骤所获取的图像特征、局内信息特征以及M个大局观标签,对大局观标签预测模型进行训练。具体地,将前述步骤所获取全局图像特征以及局部图像特征输入至卷积神经网络(convolutional neural network,CNN)进行训练,并且将局内信息特征输入至全连接网络对进行训练,由CNN和全连接网络分别输出特征数据,经过多层网络后将这些特征数据拼在一起,最后通过全连接获取到特征输出预测得到的M个大局观标签。利用损失函数,计算预测的M个大局观标签与真实的M个大局观标签之间的损失值。当损失值小于损失阈值时,可以认为大局观标签预测模型已训练完成。又或者,当对大局观标签预测模型训练的次数达到次数阈值时,也可以认为大局观标签预测模型已训练完成。
本申请实施例中,提供了一种标签预测模型的训练方法,首先可以从游戏视频样本中获取待训练游戏数据,该游戏视频样本可以包括多帧游戏数据,然后根据所获取的待训练游戏数据获取图像特征,该图像特征可以包括全局图像特征以及局部图像特征,其中全局图像特征表示在目标角色全局视角下的特征,以及局部图像特征表示在目标角色局部视角下的特征,其次,还可以根据待训练游戏数据获取局内信息特征,该局内信息特征包括在游戏对局中单位角色的特征,根据待训练游戏数据获取M个大局观标签,该每个大局观标签与目标角色所在的位置相关,M为大于或等于2的整数,最后根据所获取的图像特征、局内信息特征以及M个大局观标签,对大局观标签预测模型进行训练。通过上述方式,针对同一帧训练数据能够从多个类别上提取对应的大局观标签,结合多种类别的大局观标签对模型训练,避免出现单一的宏观意图,从而更完善地刻画出玩家的真实意图。还可以通过程序自动为训练数据进行标注,节省了专家标注的人力成本,提升了标注的便利性。
可选地,在上述图5对应的实施例的基础上,本申请实施例提供的标签预测模型的训练方法一个可选实施例中,根据待训练游戏数据获取图像特征,可以包括:
根据待训练游戏数据获取第一资源信息集合,其中,第一资源信息集合包括在目标角色全局视角下的至少一类资源点的位置信息;
根据待训练游戏数据获取第一角色信息集合,其中,第一角色信息集合包括在目标角色全局视角下的至少一方角色的位置信息;
根据第一资源信息集合以及第一角色信息集合,生成全局图像特征;
根据待训练游戏数据获取第二资源信息集合,其中,第二资源信息集合包括在目标角色局部视角下的至少一类资源点的位置信息;
根据待训练游戏数据获取第二角色信息集合,其中,第二角色信息集合包括在目标角色局部视角下的至少一方角色的位置信息;
根据第二资源信息集合以及第二角色信息集合,生成局部图像特征。
本实施例中,模型训练装置可以根据待训练游戏数据获取第一资源信息集合,该第一资源信息集合可以包括在目标角色全局视角下的至少一类资源点的位置信息,还可以根据待训练游戏数据获取第一角色信息集合,该第一角色信息集合包括在目标角色全局视角下的至少一方角色的位置信息,然后可以根据第一资源信息集合以及第一角色信息集合,生成全局图像特征。模型训练装置还可以根据待训练游戏数据获取第二资源信息集合,该第二资源信息集合包括在目标角色局部视角下的至少一类资源点的位置信息,并且根据待训练游戏数据获取第二角色信息集合,该第二角色信息集合包括在目标角色局部视角下的至少一方角色的位置信息,然后根据第二资源信息集合以及第二角色信息集合,生成局部图像特征。
具体地,以应用于MOBA游戏为一个示例进行说明,第一资源信息集合包括但不限于防御塔、基地、属性较高的NPC(比如游戏中的“大龙”)以及属性较低的NPC(比如游戏中的“小龙”,具体地,本实施例是以5V5的MOBA游戏作为示例,那么第一角色信息集合即可包括在目标角色全局视角下的我方队友的位置信息以及敌方队友的位置信息。可以理解是的,在实际应用中,MOBA游戏除了可以5V5对战模式,还可以为1V1的对战模式,3V3的对战模式,或者五个不同队伍之间的乱斗对战模式,因此,游戏中根据对战模式所确定每个队伍的角色情况,以及敌方队伍的角色情况。
根据第一资源信息集合以及第一角色信息集合可以得到全局图像特征,全局图像特征可以表示为矩阵形式,假设整个小地图被划分为24*24个格子,该全局图像特征可以表示为如下形式:
Figure BDA0002434170800000121
以资源点为防御塔作为一个示例进行说明,若防御塔在小地图中的位置为(15,20),该防御塔被摧毁前该位置(15,20)表示为1,防御塔被摧毁后该位置(15,20)表示为0。以资源点为属性较高的NPC作为另一个示例进行说明,若属性较高的NPC在小地图的位置为(8,10),属性较高的NPC没出现则该位置(8,10)表示为0,属性较高的NPC出现则该位置(8,10)表示为1,其他资源点的表示方式与前述表示方式类似,此不做赘述。
以目标角色作为一个示例进行说明,若目标角色在小地图中的位置为(8,20),该目标角色所在的位置(8,20)表示为1。以敌方角色A作为一个示例进行说明,若敌方角色A在小地图中的位置为(9,10),该敌方角色A所在的位置(9,10)表示为1。
第二资源信息集合可以包括但不限于防御塔的位置、英雄的位置以及草丛的位置,类似地,假设将局部视角下的图像划分为24*24个格子,因此第二资源信息集合也可以为一个24*24的矩阵,以防御塔的位置作为一个示例进行说明,若防御塔在局部视角下的位置为(15,20),防御塔被摧毁前该位置(15,20)表示为1,防御塔被摧毁后该位置(15,20)表示为0。以英雄的位置作为另一个示例进行说明,若英雄在局部视角下的位置为(13,11),英雄出现则位置(13,11)表示为1,其他资源与前述类似,在此不做赘述。
与第一角色信息集合类似,以5V5的MOBA游戏作为示例,那么第二角色信息集合可以为在目标角色全局视角下的我方的位置信息以及敌方的位置信息,可以理解是的,具体游戏中根据对局数量所确定的角色数量不应理解为本实施例的限定。然后根据第二资源信息集合以及第二角色信息集合,生成局部图像特征,局部图像特征也可以表示为矩阵。
本申请实施例中,提供了一种获取图像特征的方法,通过目标角色在全局以及局部视角下的资源点以及角色位置信息,获取全局图像特征以及局部图像特征,通过上述方式,由于采用了不同的是视角以及不同参照的位置信息,可以从不同的角度以及类型更为准确的描述图像特征,由此可以提升图像特征的准确度,从而提升对标签预测模型的训练的准确度。
可选地,在上述图5对应的实施例的基础上,本申请实施例提供的标签预测模型的训练方法另一个可选实施例中,根据待训练游戏数据获取局内信息特征,可以包括:
根据待训练游戏数据获取第一角色集合中每个第一角色的属性信息,其中,第一角色集合包括至少一个第一角色;
根据待训练游戏数据获取第二角色集合中每个第二角色的属性信息,其中,第二角色集合包括至少一个第二角色,第二角色集合与第一角色集合属于不同的游戏阵营;
根据待训练游戏数据获取资源集合中每个资源的属性信息,其中,资源集合包括至少一个资源;
根据待训练游戏数据获取对战信息,其中,对战信息至少包括比分信息、时间信息以及交互信息;
根据每个第一角色的属性信息、每个第二角色的属性信息、每个资源的属性信息以及对战信息,生成局内信息特征。
本实施例中,模型训练装置可以根据待训练游戏数据获取每个第一角色的属性信息,以及每个第二角色的属性信息,其中,第二角色与第一角色分别属于不同的游戏阵营,还可以根据待训练游戏数据获取每个资源的属性信息,再根据待训练游戏数据获取对战信息,最后即可以根据每个第一角色的属性信息、每个第二角色的属性信息、每个资源的属性信息以及对战信息,生成局内信息特征。具体地,即局内信息特征可以反映英雄的属性特征,兵线、野怪以及防御塔特征,技能冷却时间以及技能可用状态等。还可以反映我方英雄的血量、攻击力以及防御力,技能冷却时间以及技能是否可用等,和敌方英雄的兵线、野怪以及防御塔等特征,还有时间以及比分等特征。
为了便于理解,以应用于5V5对局模式下的MOBA游戏为一个示例进行说明,那么第一角色集合可以包括5个第一角色,于是可从待训练游戏数据获取到这5个第一角色分别具有的属性信息,例如可以包括5个第一角色的血量、攻击力、防御力、法力、技能冷却时间、技能可用状态以及装备情况等。在5V5的对局中,第二角色集合与第一角色集合属于不同的游戏阵营,第二角色集合包括5个第二角色,并且可以从待训练游戏数据获取到5个第二角色分别对应的属性信息,第二角色的属性信息与第一角色的属性信息类似,此不再赘述。
资源集合包括至少一类资源,且这些资源包含但不限于防御塔、小兵以及基地,而资源集合中每个资源的属性信息,可以体现为每个资源的剩余量,例如,下路防御塔已经被摧毁40%,中路小兵已经被全部击杀(0%),基地已经被摧毁70%等。为了便于介绍,请参阅图9,图9为本申请实施例中对战信息的一个实施例示意图,如图所示,对战信息G1中至少可以包括时间信息G2、我方与敌方的比分信息G3以及交互信息G4,交互信息又可以包括角色的击杀数量、死亡数量以及助攻数量,其中,图9所示的时间信息G2表示本局游戏已进行9分34秒,我方与敌方的比分信息G3表示我方在9分34秒的游戏对局中对敌方造成8次击杀,而敌方在游戏对局中对我方造成7次击杀,而目标角色在游戏对局中完成1次击杀,死亡3次并且送出一次助攻。可以理解的是,前述示例仅用于理解本方案,每个第一角色的属性信息、每个第二角色的属性信息、每个资源的属性信息以及对战信息均应当结合实际情况灵活确定。
本申请实施例中,提供了一种获取局内信息特征的方法,根据每个第一角色的属性信息、每个第二角色的属性信息、每个资源的属性信息以及对战信息,生成局内信息特征,通过上述方式,由于局内信息可以包括不阵容角色的属性信息,虚拟场景下资源属性信息以及对战信息,使得局内信息特征具有良好的丰富度,由此可以提升局内信息特征的对大局观反应的准确度,从而提升对标签预测模型的训练的准确度。
可选地,在上述图5对应的实施例的基础上,本申请实施例提供的标签预测模型的训练方法另一个可选实施例中,根据待训练游戏数据获取M个大局观标签,可以包括:
根据游戏视频样本获取第一游戏画面集合,其中,第一游戏画面集合包括目标角色的停留时间大于或等于时间阈值的游戏画面;
根据待训练游戏数据,从第一游戏画面集合中获取第一大局观标签;
根据游戏视频样本获取第二游戏画面集合,其中,第二游戏画面集合包括目标角色发起交互操作的游戏画面;
根据待训练游戏数据,从第二游戏画面集合中获取第二大局观标签;
根据游戏视频样本获取第三游戏画面集合,其中,第三游戏画面集合包括目标角色在每间隔T个时刻所对应的游戏画面,T大于或等于1;
根据待训练游戏数据,从第三游戏画面集合中获取第三大局观标签。
本实施例中,模型训练装置可以根据游戏视频样本获取第一游戏画面集合,该第一游戏画面集合包括目标角色的停留时间大于或等于时间阈值的游戏画面,然后根据待训练游戏数据,从第一游戏画面集合中获取第一大局观标签。模型训练装置根据游戏视频样本获取第二游戏画面集合,该第二游戏画面集合包括目标角色发起交互操作的游戏画面,然后根据待训练游戏数据,从第二游戏画面集合中获取第二大局观标签。模型训练装置根据游戏视频样本获取第三游戏画面集合,该第三游戏画面集合包括目标角色在每间隔T个时刻所对应的游戏画面,然后根据待训练游戏数据,从第三游戏画面集合中获取第三大局观标签。可以理解的是,获取第一大局观标签、第二大局观标签以及第三大局观标签之间没有前后时序限定,第一大局观标签、第二大局观标签以及第三大局观标签被获取的时序关系不应理解为本实施例的限定。
具体地,目标角色所进行的大局观决策是决定该去地图的什么位置,而要去的位置反映了目标角色的宏观意图,而宏观意图通常是没有明确标签的,因此,可以按照目标角色的停留时间获取第一大局观标签,可以按照目标角色发生攻击获取第二大局观标签,还可以按照游戏中固定时间获取第三大局观标签。为了便于理解,以大局观意图包括在哪停留、去哪战斗以及短期轨迹为示例进行说明,请参阅图10,图10为本申请实施例中不同大局观意图分类的一个实施例示意图,如图所示,若需要了解“在哪停留”的大局观意图,则可以按照目标角色的停留时间获取第一大局观标签,若需要了解“去哪战斗”的大局观意图,则可以按照目标角色发生攻击获取第二大局观标签,若需要了解“短期轨迹”的大局观意图,则可以按照游戏中固定时间获取第三大局观标签。可以理解的是,本实施例中以按照目标角色的停留时间获取第一大局观标签,按照目标角色发生攻击获取第二大局观标签,按照游戏中固定时间获取第三大局观标签,在实际应用中,还可以按照游戏中争夺资源时英雄所在的位置获取大局观标签,大局观标签的类型可以结合实际情况灵活确定。
首先,介绍按照目标角色的停留时间获取第一大局观标签的方式,假设将小地图划分为24*24个格子,由此可以得到576个标签(即每个格子对应一个标签)。如果目标角色在576个格子中某个格子停留的时间超过时间阈值,则认为停留的时间超过时间阈值的位置是一个大局观标签。请再次参阅图8,如图所示,假设图8所示的为经过格子划分后的游戏画面,如果目标角色在格子F1的时间都大于或者等于时间阈值,则格子F1对应的位置为第一大局观标签,而该帧游戏画面即为第一游戏画面。可以理解的是,游戏视频样本中可以提取至少一个第一游戏画面,而在每个第一游戏画面中,目标角色在某个格子的停留时间均大于或者等于时间阈值。
其次,介绍按照目标角色发生攻击获取第二大局观标签的方式,假设将小地图划分为24*24个格子,由此可以得到576个标签(即每个格子对应一个标签)。如果目标角色在576个格子中某个格子发生了交互操作(攻击或者治疗),则认为发生了交互操作的位置是一个大局观标签。请再次参阅图8,如图所示,如果目标角色在格子F2发生了交互操作,则格子F2对应的位置为第二大局观标签,而该帧游戏画面即为第二游戏画面。可以理解的是,游戏视频样本中可以提取至少一个第二游戏画面,而在每个第二游戏画面中,目标角色在某个格子所对应的位置上发起交互操作。
再次,介绍按照游戏中固定时间获取第三大局观标签的方式,假设将小地图划分为24*24个格子,由此可以得到576个标签(即每个格子对应一个标签)。如果目标角色在576个格子中每间隔T个时刻出现在不同的格子,则认为到达的格子对应的位置是一个大局观标签。请再次参阅图8,如图所示,以T时刻为5秒作为一个示例进行说明,如果目标角色从格子F3至格子F4之间间隔了5秒,则格子F4所对应位置为第三大局观标签,而该帧游戏画面即为第三游戏画面。可以理解的是,游戏视频样本中可以提取至少一个第三游戏画面,而在每个第三游戏画面之间间隔T个时刻。
可以理解的是,前述示例仅用于理解本方案,具体第一大局观标签、第二大局观标签以及第三大局观标签均应当结合实际情况灵活确定。
本申请实施例中,提供了一种获取大局观标签的方法,根据待训练游戏数据,从包括目标角色的停留时间大于或等于时间阈值的游戏画面、包括目标角色发起交互操作的游戏画面以及包括目标角色在每间隔T个时刻所对应的游戏画面中,分别获取第一大局观标签、第二大局观标签以及第三大局观标签,通过上述方式,可以通过不同的分类方式获取大局观标签,不同大局观标签的定义各自的偏向,从而不同大局观标签之间可以相互补充,并且更完整的刻画出目标角色的大局观意图,从而提升大局观标签的完整性以及准确度。
可选地,在上述图5对应的实施例的基础上,本申请实施例提供的标签预测模型的训练方法另一个可选实施例中,根据待训练游戏数据,从第一游戏画面集合中获取第一大局观标签,可以包括:
获取待训练游戏数据所对应的目标时刻;
从第一游戏画面集合中获取第一时刻所对应的第一游戏画面,其中,第一时刻为距离目标时刻最接近的下一个时刻;
从第一游戏画面中确定目标对象停留的位置;
根据目标对象停留的位置生成第一大局观标签。
本实施例中,模型训练装置可以先获取待训练游戏数据所对应的目标时刻,然后从第一游戏画面集合中获取第一时刻所对应的第一游戏画面,该第一时刻为距离目标时刻最接近的下一个时刻,再从第一游戏画面中确定目标对象停留的位置,最后根据目标对象停留的位置生成第一大局观标签。
具体地,假设游戏视频样本中共有300分钟,每秒提取15帧图像数据,而该游戏视频样本中目标角色停留大于或者等于10帧的第一游戏图像共有120帧,并且每帧第一游戏图像都有对应的时刻,例如,第一游戏图像集合包括第3帧、第40帧、第170帧以及第211帧等,从所有第一游戏画面集合中第一游戏画面对应的时刻中,假设目标时刻对应于第155帧,选择距离第155帧最接近的下一帧,然后将该时刻确定为第一时刻,即第一时刻可以为第170帧所对应的时刻,再从第一时刻(例如第170帧)所对应的第一游戏画面中确定目标对象停留的位置,最后即可根据目标对象停留的位置生成第一大局观标签。再以待训练游戏数据所对应的目标时刻为第13帧,时间阈值为5帧作为另一个示例进行说明,游戏视频样本中共有200分钟,每秒提取15帧图像数据,该游戏视频样本中目标角色停留大于或者等于5帧的第一游戏图像共有186帧,并且每张第一游戏图像都有对应的时刻,例如,第一游戏图像集合包括第12帧、第18帧、第33帧、第84帧、第101帧以及第164帧等,从所有第一游戏画面集合中第一游戏画面对应的时刻中,选择距离第13帧最接近的下一个时刻,然后将该时刻确定为第一时刻,即第一时刻可以为第18帧所对应的时刻,再从第一时刻(例如第18帧)所对应的第一游戏画面中确定目标对象停留的位置,最后即可根据目标对象停留的位置生成第一大局观标签。
本申请实施例中,提供了一种基于停止时间获取大局观标签的方法,通过上述方式,能够根据较长的停留时间判断角色可能处于埋伏的状态,从而将埋伏状态作为一个合理的宏观意图,由此提升宏观意图的多样性。
可选地,在上述图5对应的实施例的基础上,本申请实施例提供的标签预测模型的训练方法另一个可选实施例中,根据待训练游戏数据,从第二游戏画面集合中获取第二大局观标签,可以包括:
获取待训练游戏数据所对应的目标时刻;
从第二游戏画面集合中获取第二时刻所对应的第二游戏画面,其中,第二时刻为距离目标时刻最接近的下一个时刻;
从第二游戏画面中确定目标对象发起交互操作的位置;
根据目标对象发起交互操作的位置生成第二大局观标签。
本实施例中,模型训练装置可以获取待训练游戏数据所对应的目标时刻,然后从第二游戏画面集合中获取第二时刻所对应的第二游戏画面,该第二时刻为距离目标时刻最接近的下一个时刻,再从第二游戏画面中确定目标对象发起交互操作的位置,最后根据目标对象发起交互操作的位置生成第二大局观标签。
具体地,假设游戏视频样本中共有25分钟,每秒提取15帧图像数据,该游戏视频样本中目标对象发起交互操作(攻击或治疗)的第二游戏图像共有34帧,并且每张第二游戏图像都有对应的时刻,例如,第二游戏图像集合包括第4帧、第8帧、第12帧以及第31帧等。假设目标时刻对应于第24帧,从所有第二游戏画面集合中第二游戏画面对应的时刻中,选择距离第24帧最接近的下一个时刻,然后将该时刻确定为第二时刻,即第二时刻为可以第31帧所对应的时刻,再从第二时刻(例如第31帧)所对应的第二游戏画面中确定目标对象发起交互操作的位置,最后即可根据目标对象发起交互操作的位置生成第二大局观标签。再以待训练游戏数据所对应的目标时刻为第88帧作为另一个示例进行说明,游戏视频样本中共有36分钟,每秒提取15帧图像数据,而该游戏视频样本中目标对象发起交互操作的第二游戏图像共有149帧,并且每张第二游戏图像都有对应的时刻,例如,第二游戏图像集合包括第29帧、第58帧、第91帧、第97帧以及第137帧等,从所有第二游戏画面集合中第二游戏画面对应的时刻中,选择距离第88帧最接近的下一个时刻,然后将该时刻确定为第二时刻,即第二时刻可以为第91帧所对应的时刻,再从第二时刻(例如第91帧)所对应的第二游戏画面中确定目标对象发起交互操作的位置,最后即可根据目标对象发起交互操作的位置生成第二大局观标签。
本申请实施例中,提供了一种基于交互位置获取大局观标签的方法,通过上述方式,能够根据交互位置判断角色可能处于战斗的状态,从而将战斗状态作为一个合理的宏观意图,由此提升宏观意图的多样性。
可选地,在上述图5对应的实施例的基础上,本申请实施例提供的标签预测模型的训练方法另一个可选实施例中,根据待训练游戏数据,从第三游戏画面集合中获取第三大局观标签,可以包括:
获取待训练游戏数据所对应的目标时刻;
从第三游戏画面集合中获取第三时刻所对应的第三游戏画面,其中,第三时刻为距离目标时刻最接近的下一个时刻;
从第三游戏画面中确定目标对象所在的位置;
根据目标对象所在的位置生成第三大局观标签。
本实施例中,模型训练装置可以获取待训练游戏数据所对应的目标时刻,然后从第三游戏画面集合中获取第三时刻所对应的第三游戏画面,该第三时刻为距离目标时刻最接近的下一个时刻,再从第三游戏画面中确定目标对象所在的位置,最后根据目标对象所在的位置生成第三大局观标签。
具体地,假设游戏视频样本中共有50分钟,每秒提取15帧图像数据,而该游戏视频样本中每间隔5帧提取一个第三游戏图像,并且每个第三游戏图像具有对应的时刻,例如,第三游戏图像集合包括第5帧、第10帧、第20帧、第25帧、第30帧以及第35帧等,从所有第三游戏画面集合中第三游戏画面对应的时刻中,假设目标时刻对应于第24帧,于是选择距离第24帧最接近的下一个帧,然后将该帧对应的时刻确定为第三时刻,即第三时刻为第25帧所对应的时刻,再从第三时刻(例如第25帧)所对应的第三游戏画面中确定目标角色所对应的位置,最后即可目标角色在第三时刻所对应的位置生成第三大局观标签。再以待训练游戏数据所对应的目标时刻为第35帧,而该游戏视频样本中每间隔6帧提取一个第三游戏图像,并且每个第三游戏图像具有对应的时刻,而该游戏视频样本中目标角色在每间隔6帧提取到的第三游戏图像共有90帧,并且每张第三游戏图像都有对应的时刻,例如,第三游戏图像集合包括第6帧、第12帧、第18帧、第24帧、第30帧以及第36帧等,从所有第三游戏画面集合中第三游戏画面对应的时刻中,选择距离第35帧最接近的下一个时刻,然后将该时刻确定为第三时刻,即第三时刻为第36帧所对应的时刻,再从第三时刻(例如第36帧)所对应的第三游戏画面中确定目标角色在每间隔6帧所对应的位置,最后即可目标角色在每间隔6帧所对应的位置生成第三大局观标签。
本申请实施例中,提供了一种基于固定时间间隔获取大局观标签的方法,通过上述方式,能够根据等时间的操作判断角色的状态,从而提升宏观意图的多样性。
可选地,在上述图5对应的实施例的基础上,本申请实施例提供的标签预测模型的训练方法另一个可选实施例中,根据图像特征、局内信息特征以及M个大局观标签,对大局观标签预测模型进行训练,可以包括:
基于全局图像特征、局部图像特征以及局内信息特征,通过大局观标签预测模型获取M个预测大局观标签;
根据M个大局观标签以及M个预测大局观标签,采用损失函数对大局观标签预测模型进行训练。
本实施例中,模型训练装置可以将全局图像特征、局部图像特征以及局内信息特征作为大局观标签预测模型的输入,由大局观标签预测模型输出M个预测大局观标签,然后再采用损失函数对M个大局观标签以及M个预测大局观标签进行损失值的计算,利用损失值对大局观标签预测模型进行训练。
具体地,先将全局图像特征、局部图像特征以及局内信息特征作为大局观标签预测模型的输入,由大局观标签预测模型可以输出M个预测大局观标签,假设M为3,且每个大局观标签采用一个数值进行表示,又假设大局观标签采用1至576的数值表示,那么3个预测大局观标签可以表示为(a,b,c),其中,a,b和c均为1至576的数值。类似地,已经采集到的大局观标签可以表示为(x,y,z),其中,x,y和z也均为1至576的数值。于是,分别计算相应位置上的标签差距,具体采用如下方式:
L=L1+L2+L3;
其中,L为总损失值,L1为基于第一类大局观标签的损失值,L2为基于第二类大局观标签的损失值,L3为基于第三类大局观标签的损失值。
根据预测大局观标签a与采集到的大局观标签x计算得到损失值L1,根据预测大局观标签b与采集到的大局观标签y计算得到损失值L2,根据预测大局观标签v与采集到的大局观标签z计算得到损失值L3,根据最终的损失值L判断模型达到收敛条件,若未达到收敛条件,则继续更新大局观标签预测模型的模型参数,直至损失函数达到收敛条件,则根据最后一次对模型参数进行更新后获得的训练完成大局观标签预测模型。可选地,还可以预先设置模型迭代的次数,当迭代次数达到迭代阈值,则认为大局观标签预测模型已经训练完成。
本申请实施例中,提供了一种大局观标签预测模型的训练方法,基于全局图像特征、局部图像特征以及局内信息特征,通过大局观标签预测模型获取M个预测大局观标签,并且根据M个大局观标签以及M个预测大局观标签,采用损失函数对大局观标签预测模型进行训练,通过上述方式,提供了大局观标签预测模型的具体训练方式,在不同的角度完整地刻画目标角色大局观意图,从而提升大局观标签的完整性以及准确度,并且进一步地提高了本方案的可行性。
可选地,在上述图5对应的实施例的基础上,本申请实施例提供的标签预测模型的训练方法另一个可选实施例中,基于全局图像特征、局部图像特征以及局内信息特征,通过大局观标签预测模型获取M个预测大局观标签,可以包括:
基于全局图像特征,通过大局观标签预测模型所包括的第一卷积神经网络获取第一特征向量;
基于局部图像特征,通过大局观标签预测模型所包括的第二卷积神经网络获取第二特征向量;
基于局内信息特征,通过大局观标签预测模型所包括的全连接网络获取第三特征向量;
基于第一特征向量、第二特征向量以及第三特征向量,通过大局观标签预测模型所包括的网络模型获取M个预测大局观标签。
本实施例中,模型训练装置将全局图像特征、局部图像特征和局内信息特征输入至大局观标签预测模型,大局观标签预测模型包括的第一卷积神经网络、第二卷积神经网络和全连接网络。将全局图像特征输入至大局观标签预测模型所包括的第一卷积神经网络获取第一特征向量。将局部图像特征输入至大局观标签预测模型所包括的第二卷积神经网络获取第二特征向量。将局内信息特征输入至大局观标签预测模型所包括的全连接网络获取第三特征向量。结合第一特征向量、第二特征向量以及第三特征向量,通过大局观标签预测模型所包括的网络模型获取至少两个预测大局观标签。
具体地,为了便于理解,请参阅图11,图11为本申请实施例中大局观标签预测模型的一个结构示意图,如图所示,大局观标签预测模型包括第一卷积神经网络H1、第二卷积神经网络H2、全连接网络H3以及多层网络H4,具体地,将全局图像特征作为大局观标签预测模型中第一卷积神经网络H1的输入,由第一卷积神经网络H1可以输出第一特征向量。将局部图像特征作为大局观标签预测模型中第二卷积神经网络H2的输入,由第二卷积神经网络H2可以输出第二特征向量。将局内信息特征作为大局观标签预测模型中全连接网络H3的输入,全连接网络H3可以输出第三特征向量,然后将第一特征向量、第二特征向量以及第三特征向量作为大局观标签预测模型中多层网络H4的输入,多层网络H4将第一特征向量、第二特征向量以及第三特征向量进行特征向量拼接,并且将拼接后的特征向量作为全连接网络H5的输入,全连接网络H5即可输出预测大局观标签。多层网络H4可以为残差网络,或者其他类型的网络,此处不做限定。
可以理解的是,在实际应用中,大局观标签预测模型中的具体结构可以有不同的组合方式,还可以加入更复杂的网络设计,例如残差网络以及长短期记忆(Long Short-Term Memory,LSTM)网络等。
本申请实施例中,提供了一种获取预测大局观标签的方法,基于全局图像特征以及局部图像特征,卷积神经网络获取对应的特征向量,并且基于局内信息特征,通过全连接网络获取对应的特征向量,再通过多层网络将前述特征向量进行融合并且再通过全连接层输出预测大局观标签,通过上述方式,提供了获取预测大局观标签的具体方式,提高了本方案的可实现性。
结合上述介绍,下面将对本申请中标签预测的方法进行介绍,请参阅图12,图12为本申请实施例中标签预测的方法一个实施例示意图,如图所示,本申请实施例中标签预测的方法一个实施例包括:
201、获取目标角色所对应的待预测游戏数据;
本实施例中,标签预测装置可以获取目标角色所对应的待预测游戏数据。其中,待预测游戏数据可以为标签预测装置通过有线网络接收到的数据,也可以为标签预测装置本身存储的样本。具体地,待预测游戏数据可以为目标角色在进行实时游戏时所生成的游戏数据,也可以为目标角色在进行游戏后,对游戏过程进行视频录制后生成了视频录制样本,从该视频录制样本中获取到的游戏数据。
需要说明的是,标签预测装置可以部署于服务器,也可以部署于终端设备,本申请中以标签预测装置部署于服务器为例进行说明,然而这不应理解为对本申请的限定。可以理解的是,本实施例中的目标角色与上述实施例中的目标角色可以是相同的游戏角色,也可以是不同的游戏角色,此处不做限定。
202、根据待预测游戏数据获取图像特征以及局内信息特征,其中,图像特征包括全局图像特征以及局部图像特征,全局图像特征表示在目标角色全局视角下的特征,局部图像特征表示在目标角色局部视角下的特征,局内信息特征包括在游戏对局中单位角色的特征;
本实施例中,标签预测装置可以根据待预测游戏数据获取图像特征以及局内信息特征,该图像特征包括全局图像特征以及局部图像特征,而全局图像特征可以表示在目标角色全局视角下的特征,局部图像特征可以表示在目标角色局部视角下的特征,局内信息特征可以包括在游戏对局中单位角色的特征。具体地,全局图像特征可以表示在目标角色全局视角下的特征,就是说全局图像特征可以指示在全局显示视角下,目标角色在虚拟场景中的显示位置。局部图像特征可以表示在目标角色局部视角下的特征,也就是局部图像特征可以指示在目标角色显示视角下,目标角色在虚拟场景中当前所显示的局部帧画面中的显示位置。而局内信息特征可以包括在游戏对局中单位角色的特征,也就是局内信息特征可以表示为游戏中各个游戏角色在虚拟场景中的属性状态。
为了便于理解,以应用于MOBA游戏作为一个示例进行说明,请参阅图13,图13为本申请实施例中基于游戏数据获取相关特征的一个实施例示意图,如图所示,图像特征包括全局图像特征以及局部图像特征,其中,全局图像特征是基于小地图I1提取到的特征,在小地图I1中可以显示目标角色的位置,还可以显示我方队友的位置、敌方队友的位置、各个防御塔的位置、NPC的位置以及基地位置等。局部图像特征是基于目标角色的局部视角下的图像I2提取到的特征,局部视角下的图像I2可以包括目标角色在当前所显示的局部帧画面中的显示位置,也就是目标角色视角下附近的环境,例如障碍物的位置、队友的位置、对手的位置以及躲避物的位置等。局内信息特征是基于游戏状态数据I3提取到的特征,游戏状态数据I3表示队伍和目标角色在游戏场景中的属性状态,包括但不限于包括己方队友的状态(血量、蓝量)、目标角色的击杀数量、目标角色的死亡数量,目标角色的助攻数量、己方与敌方的资源比以及已进行的游戏时间。可以理解的是,图13中的示例仅用于理解本方案,具体图像特征中全局图像特征以及局部图像特征以及局内信息特征均应当结合实际情况灵活确定。
203、基于图像特征以及局内信息特征,通过大局观标签预测模型获取目标角色所对应的M个大局观标签,其中,M为大于或等于2的整数,大局观标签预测模型为采用上述实施例提供的方案训练得到的。
本实施例中,标签预测装置可以将图像特征以及局内信息特征作为大局观标签预测模型的输入,然后通过大局观标签预测模型输出该目标角色所对应的M个大局观标签,其中M为大于或等于2的整数。以三类大局观标签为例,即分别得到第一大局观标签、第二大局观标签以及第三大局观标签。
具体地,通过大局观标签预测模型获取目标角色所对应的各类大局观标签之后,每一类大局观标签可以用于对目标角色的微操作产生影响,例如,M个大局观标签可以指示目标角色“安吉拉”在草丛停留较长时间,这个时候它的三个技能都能用,那么有很大概率会让安吉拉释放大招来秒杀敌方角色。
本申请实施例中,提供了一种标签预测的方法,通过上述方式,由于针对同一帧训练数据能够从多个类别上提取对应的大局观标签,结合多种类别的大局观标签对大局观标签预测模型训练,避免出现单一的宏观意图,从而大局观标签预测模型能够更完善地刻画出玩家的真实意图。其次,可以提升大局观标签预测模型所输出大局观标签的准确性,从而有利于对游戏局面战术以及战略的判断。
下面对本申请中的模型训练装置进行详细描述,请参阅图14,图14为本申请实施例中模型训练装置一个实施例示意图,如图所示,模型训练装置30包括:
获取模块301,用于从游戏视频样本中获取待训练游戏数据,其中,游戏视频样本包括多帧游戏数据;
获取模块301,还用于根据获取模块获取到的待训练游戏数据获取图像特征,其中,图像特征包括全局图像特征以及局部图像特征,全局图像特征表示在目标角色全局视角下的特征,局部图像特征表示在目标角色局部视角下的特征;
获取模块301,还用于根据获取模块获取到的待训练游戏数据获取局内信息特征,其中,局内信息特征包括在游戏对局中单位角色的特征;
获取模块301,还用于根据获取模块获取到的待训练游戏数据获取M个大局观标签,其中,每个大局观标签与目标角色所在的位置相关,M为大于或等于2的整数;
训练模块302,用于根据获取模块获取到的图像特征、局内信息特征以及M个大局观标签,对大局观标签预测模型进行训练。
可选地,在上述图14所对应的实施例的基础上,本申请实施例提供的模型训练装置30的另一实施例中,
获取模块301,具体用于根据待训练游戏数据获取第一资源信息集合,其中,第一资源信息集合包括在目标角色全局视角下的至少一类资源点的位置信息;
根据待训练游戏数据获取第一角色信息集合,其中,第一角色信息集合包括在目标角色全局视角下的至少一方角色的位置信息;
根据第一资源信息集合以及第一角色信息集合,生成全局图像特征;
根据待训练游戏数据获取第二资源信息集合,其中,第二资源信息集合包括在目标角色局部视角下的至少一类资源点的位置信息;
根据待训练游戏数据获取第二角色信息集合,其中,第二角色信息集合包括在目标角色局部视角下的至少一方角色的位置信息;
根据第二资源信息集合以及第二角色信息集合,生成局部图像特征。
可选地,在上述图14所对应的实施例的基础上,本申请实施例提供的模型训练装置30的另一实施例中,
获取模块301,具体用于根据待训练游戏数据获取第一角色集合中每个第一角色的属性信息,其中,第一角色集合包括至少一个第一角色;
根据待训练游戏数据获取第二角色集合中每个第二角色的属性信息,其中,第二角色集合包括至少一个第二角色,第二角色集合与第一角色集合属于不同的游戏阵营;
根据待训练游戏数据获取资源集合中每个资源的属性信息,其中,资源集合包括至少一个资源;
根据待训练游戏数据获取对战信息,其中,对战信息至少包括比分信息、时间信息以及交互信息;
根据每个第一角色的属性信息、每个第二角色的属性信息、每个资源的属性信息以及对战信息,生成局内信息特征。
本申请实施例中,提供了一种获取局内信息特征的方法,通过上述方式,由于局内信息可以包括不阵容角色的属性信息,虚拟场景下资源属性信息以及对战信息,使得局内信息特征具有良好的丰富度,由此可以提升局内信息特征的对大局观反应的准确度,从而提升对标签预测模型的训练的准确度。
可选地,在上述图14所对应的实施例的基础上,本申请实施例提供的模型训练装置30的另一实施例中,
获取模块301,具体用于根据游戏视频样本获取第一游戏画面集合,其中,第一游戏画面集合包括目标角色的停留时间大于或等于时间阈值的游戏画面;
根据待训练游戏数据,从第一游戏画面集合中获取第一大局观标签;
根据游戏视频样本获取第二游戏画面集合,其中,第二游戏画面集合包括目标角色发起交互操作的游戏画面;
根据待训练游戏数据,从第二游戏画面集合中获取第二大局观标签;
根据游戏视频样本获取第三游戏画面集合,其中,第三游戏画面集合包括目标角色在每间隔T个时刻所对应的游戏画面,T大于或等于1;
根据待训练游戏数据,从第三游戏画面集合中获取第三大局观标签。
本申请实施例中,提供了一种获取大局观标签的方法,通过上述方式,可以通过不同的分类方式获取大局观标签,不同大局观标签的定义各自的偏向,从而不同大局观标签之间可以相互补充,并且更完整的刻画出目标角色的大局观意图,从而提升大局观标签的完整性以及准确度。
可选地,在上述图14所对应的实施例的基础上,本申请实施例提供的模型训练装置30的另一实施例中,
获取模块301,具体用于获取待训练游戏数据所对应的目标时刻;
从第一游戏画面集合中获取第一时刻所对应的第一游戏画面,其中,第一时刻为距离目标时刻最接近的下一个时刻;
从第一游戏画面中确定目标对象停留的位置;
根据目标对象停留的位置生成第一大局观标签。
可选地,在上述图14所对应的实施例的基础上,本申请实施例提供的模型训练装置30的另一实施例中,
获取模块301,具体用于获取待训练游戏数据所对应的目标时刻;
从第二游戏画面集合中获取第二时刻所对应的第二游戏画面,其中,第二时刻为距离目标时刻最接近的下一个时刻;
从第二游戏画面中确定目标对象发起交互操作的位置;
根据目标对象发起交互操作的位置生成第二大局观标签。
可选地,在上述图14所对应的实施例的基础上,本申请实施例提供的模型训练装置30的另一实施例中,
获取模块301,具体用于获取待训练游戏数据所对应的目标时刻;
从第三游戏画面集合中获取第三时刻所对应的第三游戏画面,其中,第三时刻为距离目标时刻最接近的下一个时刻;
从第三游戏画面中确定目标对象所在的位置;
根据目标对象所在的位置生成第三大局观标签。
可选地,在上述图14所对应的实施例的基础上,本申请实施例提供的模型训练装置30的另一实施例中,
训练模块302,具体用于基于全局图像特征、局部图像特征以及局内信息特征,通过大局观标签预测模型获取M个预测大局观标签;
根据M个大局观标签以及M个预测大局观标签,采用损失函数对大局观标签预测模型进行训练。
可选地,在上述图14所对应的实施例的基础上,本申请实施例提供的模型训练装置30的另一实施例中,
获取模块301,具体用于基于全局图像特征,通过大局观标签预测模型所包括的第一卷积神经网络获取第一特征向量;
基于局部图像特征,通过大局观标签预测模型所包括的第二卷积神经网络获取第二特征向量;
基于局内信息特征,通过大局观标签预测模型所包括的全连接网络获取第三特征向量;
基于第一特征向量、第二特征向量以及第三特征向量,通过大局观标签预测模型所包括的网络模型获取M个预测大局观标签。
下面对本申请中的标签预测装置进行详细描述,请参阅图15,图15为本申请实施例中标签预测装置一个实施例示意图,如图所示,标签预测装置40包括:
获取模块401,用于获取目标角色所对应的待预测游戏数据;
获取模块401,还用于根据获取模块获取到的待预测游戏数据获取图像特征以及局内信息特征,其中,图像特征包括全局图像特征以及局部图像特征,全局图像特征表示在目标角色全局视角下的特征,局部图像特征表示在目标角色局部视角下的特征,局内信息特征包括在游戏对局中单位角色的特征;
获取模块401,还用于基于获取模块获取到的图像特征以及局内信息特征,通过大局观标签预测模型获取目标角色所对应的M个大局观标签,其中,M为大于或等于2的整数。
本申请实施例还提供了另一种模型训练装置以及标签预测装置,该模型训练装置以及标签预测装置均部署于计算机设备,其中,计算机设备可以是服务器,请参阅图16,图16为本申请实施例中计算机设备一个实施例示意图,如图所示,该计算机设备500可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(centralprocessing units,CPU)522(例如,一个或一个以上处理器)和存储器532,一个或一个以上存储应用程序542或数据544的存储介质530(例如一个或一个以上海量存储设备)。其中,存储器532和存储介质530可以是短暂存储或持久存储。存储在存储介质530的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对计算机设备中的一系列指令操作。更进一步地,中央处理器522可以设置为与存储介质530通信,在计算机设备500上执行存储介质530中的一系列指令操作。
计算机设备500还可以包括一个或一个以上电源526,一个或一个以上有线或无线网络接口550,一个或一个以上输入输出接口558,和/或,一个或一个以上操作系统541,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
上述实施例中由计算机设备所执行的步骤可以基于该图16所示的计算机设备结构。
本申请提供的CPU 522用于执行如下步骤:
从游戏视频样本中获取待训练游戏数据,其中,游戏视频样本包括多帧游戏数据;
根据待训练游戏数据获取图像特征,其中,图像特征包括全局图像特征以及局部图像特征,全局图像特征表示在目标角色全局视角下的特征,局部图像特征表示在目标角色局部视角下的特征;
根据待训练游戏数据获取局内信息特征,其中,局内信息特征包括在游戏对局中单位角色的特征;
根据待训练游戏数据获取M个大局观标签,其中,每个大局观标签与目标角色所在的位置相关,M为大于或等于2的整数;
根据图像特征、局内信息特征以及M个大局观标签,对大局观标签预测模型进行训练。
本申请提供的CPU 522用于执行如下步骤:
获取目标角色所对应的待预测游戏数据;
根据待预测游戏数据获取图像特征以及局内信息特征,其中,图像特征包括全局图像特征以及局部图像特征,全局图像特征表示在目标角色全局视角下的特征,局部图像特征表示在目标角色局部视角下的特征,局内信息特征包括在游戏对局中单位角色的特征;
基于图像特征以及局内信息特征,通过大局观标签预测模型获取目标角色所对应的M个大局观标签,其中,M为大于或等于2的整数。
本申请实施例中还提供一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序,当其在计算机上运行时,使得计算机执行如前述图2至图11所示实施例描述的方法中客户端所执行的步骤,或者,使得计算机执行如前述图12和图13所示实施例描述的方法中客户端所执行的步骤。
本申请实施例中还提供一种包括程序的计算机程序产品,当其在计算机上运行时,使得计算机执行如前述图2至图11所示实施例描述的方法中客户端所执行的步骤,或者,使得计算机执行如前述图12和图13所示实施例描述的方法中客户端所执行的步骤。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (13)

1.一种标签预测模型的训练方法,其特征在于,包括:
从游戏视频样本中获取待训练游戏数据,其中,所述游戏视频样本包括多帧游戏数据;
根据所述待训练游戏数据获取图像特征,其中,所述图像特征包括全局图像特征以及局部图像特征,所述全局图像特征表示在目标角色全局视角下的特征,所述局部图像特征表示在所述目标角色局部视角下的特征;
根据所述待训练游戏数据获取局内信息特征,其中,所述局内信息特征包括在游戏对局中单位角色的特征;
根据所述待训练游戏数据获取M个大局观标签,其中,每个大局观标签与所述目标角色所在的位置相关,所述M为大于或等于2的整数;
根据所述图像特征、所述局内信息特征以及所述M个大局观标签,对大局观标签预测模型进行训练;
其中,所述根据所述待训练游戏数据获取M个大局观标签,包括:
根据所述游戏视频样本获取第一游戏画面集合,其中,所述第一游戏画面集合包括所述目标角色的停留时间大于或等于时间阈值的游戏画面;
根据所述待训练游戏数据,从所述第一游戏画面集合中获取第一大局观标签;
根据所述游戏视频样本获取第二游戏画面集合,其中,所述第二游戏画面集合包括所述目标角色发起交互操作的游戏画面;
根据所述待训练游戏数据,从所述第二游戏画面集合中获取第二大局观标签;
根据所述游戏视频样本获取第三游戏画面集合,其中,所述第三游戏画面集合包括所述目标角色在每间隔T个时刻所对应的游戏画面,所述T大于或等于1;
根据所述待训练游戏数据,从所述第三游戏画面集合中获取第三大局观标签。
2.根据权利要求1所述的训练方法,其特征在于,所述根据所述待训练游戏数据获取图像特征,包括:
根据所述待训练游戏数据获取第一资源信息集合,其中,所述第一资源信息集合包括在所述目标角色全局视角下的至少一类资源点的位置信息;
根据所述待训练游戏数据获取第一角色信息集合,其中,所述第一角色信息集合包括在所述目标角色全局视角下的至少一方角色的位置信息;
根据所述第一资源信息集合以及所述第一角色信息集合,生成所述全局图像特征;
根据所述待训练游戏数据获取第二资源信息集合,其中,所述第二资源信息集合包括在所述目标角色局部视角下的至少一类资源点的位置信息;
根据所述待训练游戏数据获取第二角色信息集合,其中,所述第二角色信息集合包括在所述目标角色局部视角下的至少一方角色的位置信息;
根据所述第二资源信息集合以及所述第二角色信息集合,生成所述局部图像特征。
3.根据权利要求1所述的训练方法,其特征在于,所述根据所述待训练游戏数据获取局内信息特征,包括:
根据所述待训练游戏数据获取第一角色集合中每个第一角色的属性信息,其中,所述第一角色集合包括至少一个第一角色;
根据所述待训练游戏数据获取第二角色集合中每个第二角色的属性信息,其中,所述第二角色集合包括至少一个第二角色,所述第二角色集合与所述第一角色集合属于不同的游戏阵营;
根据所述待训练游戏数据获取资源集合中每个资源的属性信息,其中,所述资源集合包括至少一个资源;
根据所述待训练游戏数据获取对战信息,其中,所述对战信息至少包括比分信息、时间信息以及交互信息;
根据所述每个第一角色的属性信息、所述每个第二角色的属性信息、所述每个资源的属性信息以及所述对战信息,生成所述局内信息特征。
4.根据权利要求1所述的训练方法,其特征在于,所述根据所述待训练游戏数据,从所述第一游戏画面集合中获取第一大局观标签,包括:
获取所述待训练游戏数据所对应的目标时刻;
从所述第一游戏画面集合中获取第一时刻所对应的第一游戏画面,其中,所述第一时刻为距离所述目标时刻最接近的下一个时刻;
从所述第一游戏画面中确定所述目标角色停留的位置;
根据所述目标角色停留的位置生成所述第一大局观标签。
5.根据权利要求1所述的训练方法,其特征在于,所述根据所述待训练游戏数据,从所述第二游戏画面集合中获取第二大局观标签,包括:
获取所述待训练游戏数据所对应的目标时刻;
从所述第二游戏画面集合中获取第二时刻所对应的第二游戏画面,其中,所述第二时刻为距离所述目标时刻最接近的下一个时刻;
从所述第二游戏画面中确定所述目标角色发起交互操作的位置;
根据所述目标角色发起交互操作的位置生成所述第二大局观标签。
6.根据权利要求1所述的训练方法,其特征在于,所述根据所述待训练游戏数据,从所述第三游戏画面集合中获取第三大局观标签,包括:
获取所述待训练游戏数据所对应的目标时刻;
从所述第三游戏画面集合中获取第三时刻所对应的第三游戏画面,其中,所述第三时刻为距离所述目标时刻最接近的下一个时刻;
从所述第三游戏画面中确定所述目标角色所在的位置;
根据所述目标角色所在的位置生成所述第三大局观标签。
7.根据权利要求1至6中任一项所述的训练方法,其特征在于,所述根据所述图像特征、所述局内信息特征以及所述M个大局观标签,对大局观标签预测模型进行训练,包括:
基于所述全局图像特征、所述局部图像特征以及所述局内信息特征,通过所述大局观标签预测模型获取M个预测大局观标签;
根据所述M个大局观标签以及所述M个预测大局观标签,采用损失函数对所述大局观标签预测模型进行训练。
8.根据权利要求7所述的训练方法,其特征在于,所述基于所述全局图像特征、所述局部图像特征以及所述局内信息特征,通过所述大局观标签预测模型获取M个预测大局观标签,包括:
基于所述全局图像特征,通过所述大局观标签预测模型所包括的第一卷积神经网络获取第一特征向量;
基于所述局部图像特征,通过所述大局观标签预测模型所包括的第二卷积神经网络获取第二特征向量;
基于所述局内信息特征,通过所述大局观标签预测模型所包括的全连接网络获取第三特征向量;
基于所述第一特征向量、所述第二特征向量以及所述第三特征向量,通过所述大局观标签预测模型所包括的网络模型获取M个预测大局观标签。
9.一种标签预测的方法,其特征在于,包括:
获取目标角色所对应的待预测游戏数据;
根据所述待预测游戏数据获取图像特征以及局内信息特征,其中,所述图像特征包括全局图像特征以及局部图像特征,所述全局图像特征表示在目标角色全局视角下的特征,所述局部图像特征表示在所述目标角色局部视角下的特征,所述局内信息特征包括在游戏对局中单位角色的特征;
基于所述图像特征以及所述局内信息特征,通过大局观标签预测模型获取所述目标角色所对应的M个大局观标签,其中,所述M为大于或等于2的整数,所述大局观标签预测模型为采用上述权利要求1至8中任一项方法训练得到的。
10.一种模型训练装置,其特征在于,包括:
获取模块,用于从游戏视频样本中获取待训练游戏数据,其中,所述游戏视频样本包括多帧游戏数据;
所述获取模块,还用于根据所述获取模块获取到的所述待训练游戏数据获取图像特征,其中,所述图像特征包括全局图像特征以及局部图像特征,所述全局图像特征表示在目标角色全局视角下的特征,所述局部图像特征表示在所述目标角色局部视角下的特征;
所述获取模块,还用于根据所述获取模块获取到的所述待训练游戏数据获取局内信息特征,其中,所述局内信息特征包括在游戏对局中单位角色的特征;
所述获取模块,还用于根据所述获取模块获取到的所述待训练游戏数据获取M个大局观标签,其中,每个大局观标签与所述目标角色所在的位置相关,所述M为大于或等于2的整数;
训练模块,用于根据所述获取模块获取到的所述图像特征、所述局内信息特征以及所述M个大局观标签,对大局观标签预测模型进行训练;
所述获取模块,具体用于根据游戏视频样本获取第一游戏画面集合,其中,第一游戏画面集合包括目标角色的停留时间大于或等于时间阈值的游戏画面;根据待训练游戏数据,从第一游戏画面集合中获取第一大局观标签;根据游戏视频样本获取第二游戏画面集合,其中,第二游戏画面集合包括目标角色发起交互操作的游戏画面;根据待训练游戏数据,从第二游戏画面集合中获取第二大局观标签;根据游戏视频样本获取第三游戏画面集合,其中,第三游戏画面集合包括目标角色在每间隔T个时刻所对应的游戏画面,T大于或等于1;根据待训练游戏数据,从第三游戏画面集合中获取第三大局观标签。
11.一种标签预测装置,其特征在于,包括:
获取模块,用于获取目标角色所对应的待预测游戏数据;
所述获取模块,还用于根据所述获取模块获取到的所述待预测游戏数据获取图像特征以及局内信息特征,其中,所述图像特征包括全局图像特征以及局部图像特征,所述全局图像特征表示在目标角色全局视角下的特征,所述局部图像特征表示在所述目标角色局部视角下的特征,所述局内信息特征包括在游戏对局中单位角色的特征;
所述获取模块,还用于基于所述获取模块获取到的所述图像特征以及所述局内信息特征,通过大局观标签预测模型获取所述目标角色所对应的M个大局观标签,其中,所述M为大于或等于2的整数,所述大局观标签预测模型为采用上述权利要求1至8中任一项方法训练得到的。
12.一种计算机设备,其特征在于,包括:存储器、收发器、处理器以及总线系统;
其中,所述存储器用于存储程序;
所述处理器用于执行所述存储器中的程序,以实现权利要求1至8中任一项所述的方法,或,实现权利要求9所述的方法;
所述总线系统用于连接所述存储器以及所述处理器,以使所述存储器以及所述处理器进行通信。
13.一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行如权利要求1至8中任一项所述的方法,或,执行如权利要求9所述的方法。
CN202010246756.XA 2020-03-31 2020-03-31 一种标签预测模型的训练方法、标签预测的方法及装置 Active CN111450534B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010246756.XA CN111450534B (zh) 2020-03-31 2020-03-31 一种标签预测模型的训练方法、标签预测的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010246756.XA CN111450534B (zh) 2020-03-31 2020-03-31 一种标签预测模型的训练方法、标签预测的方法及装置

Publications (2)

Publication Number Publication Date
CN111450534A CN111450534A (zh) 2020-07-28
CN111450534B true CN111450534B (zh) 2021-08-13

Family

ID=71670885

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010246756.XA Active CN111450534B (zh) 2020-03-31 2020-03-31 一种标签预测模型的训练方法、标签预测的方法及装置

Country Status (1)

Country Link
CN (1) CN111450534B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111861588B (zh) * 2020-08-06 2023-10-31 网易(杭州)网络有限公司 流失预测模型的训练方法、玩家流失原因分析方法及装置
CN112870716A (zh) * 2021-02-02 2021-06-01 网易(杭州)网络有限公司 游戏数据处理方法、装置、存储介质与电子设备
CN113457122A (zh) * 2021-06-28 2021-10-01 华东师范大学 一种基于vr应急环境下的用户画像方法
CN115146018B (zh) * 2022-09-06 2023-05-26 白杨时代(北京)科技有限公司 一种目标确定方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009134394A (ja) * 2007-11-29 2009-06-18 Sony Corp 情報処理装置、情報処理方法、及びプログラム
CN109499068A (zh) * 2018-11-14 2019-03-22 腾讯科技(深圳)有限公司 对象的控制方法和装置、存储介质、电子装置
CN109529338A (zh) * 2018-11-15 2019-03-29 腾讯科技(深圳)有限公司 对象控制方法、装置、电子设计及计算机可读介质
CN109893857A (zh) * 2019-03-14 2019-06-18 腾讯科技(深圳)有限公司 一种操作信息预测的方法、模型训练的方法及相关装置
CN110064205A (zh) * 2019-04-24 2019-07-30 腾讯科技(深圳)有限公司 用于游戏的数据处理方法、设备和介质
CN110163238A (zh) * 2018-12-13 2019-08-23 腾讯科技(深圳)有限公司 一种信息预测的方法、模型训练的方法以及服务器

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009134394A (ja) * 2007-11-29 2009-06-18 Sony Corp 情報処理装置、情報処理方法、及びプログラム
CN109499068A (zh) * 2018-11-14 2019-03-22 腾讯科技(深圳)有限公司 对象的控制方法和装置、存储介质、电子装置
CN109529338A (zh) * 2018-11-15 2019-03-29 腾讯科技(深圳)有限公司 对象控制方法、装置、电子设计及计算机可读介质
CN110163238A (zh) * 2018-12-13 2019-08-23 腾讯科技(深圳)有限公司 一种信息预测的方法、模型训练的方法以及服务器
CN109893857A (zh) * 2019-03-14 2019-06-18 腾讯科技(深圳)有限公司 一种操作信息预测的方法、模型训练的方法及相关装置
CN110064205A (zh) * 2019-04-24 2019-07-30 腾讯科技(深圳)有限公司 用于游戏的数据处理方法、设备和介质

Also Published As

Publication number Publication date
CN111450534A (zh) 2020-07-28

Similar Documents

Publication Publication Date Title
CN111450534B (zh) 一种标签预测模型的训练方法、标签预测的方法及装置
CN109499068B (zh) 对象的控制方法和装置、存储介质、电子装置
JP7399932B2 (ja) クラウドゲーミングネットワークを使用した人工知能(ai)モデルの訓練
US20230029460A1 (en) Method, apparatus, and device for scheduling virtual objects in virtual environment
CN111111220B (zh) 多人对战游戏的自对弈模型训练方法、装置和计算机设备
CN110163238B (zh) 一种信息预测的方法、模型训练的方法以及服务器
CN108629422A (zh) 一种基于知识指导-战术感知的智能体学习方法
CN111450531B (zh) 虚拟角色控制方法、装置、电子设备以及存储介质
CN108491930A (zh) 一种样本数据的处理方法以及数据处理装置
CN111111204A (zh) 交互模型训练方法、装置、计算机设备和存储介质
CN112870721B (zh) 一种游戏互动方法、装置、设备及存储介质
CN111437608B (zh) 基于人工智能的游戏对局方法、装置、设备及存储介质
CN112791394A (zh) 游戏模型训练方法、装置、电子设备及存储介质
CN112402986A (zh) 一种对战游戏中强化学习模型的训练方法及装置
CN109529358B (zh) 特征整合方法和装置及电子装置
CN114404975A (zh) 决策模型的训练方法、装置、设备、存储介质及程序产品
CN114272599A (zh) 人工智能对象控制方法、装置、设备及存储介质
CN111389007B (zh) 一种游戏控制方法、装置、计算设备及存储介质
CN110314379B (zh) 动作输出深度训练模型的学习方法及相关设备
CN114344889B (zh) 游戏策略模型生成方法和游戏中智能体的控制方法
CN114404976A (zh) 决策模型的训练方法、装置、计算机设备及存储介质
CN115944921B (zh) 游戏数据处理方法、装置、设备及介质
WO2023246270A1 (zh) 信息处理方法、装置和存储介质及电子设备
CN113101644B (zh) 一种游戏进程的控制方法、装置、电子设备及存储介质
CN116943204A (zh) 虚拟对象的控制方法、装置和存储介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40025883

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant