CN111598169A

CN111598169A - 一种模型训练方法、游戏测试方法、模拟操作方法及装置

Info

Publication number: CN111598169A
Application number: CN202010419220.3A
Authority: CN
Inventors: 黄超
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-05-18
Filing date: 2020-05-18
Publication date: 2020-08-28
Anticipated expiration: 2040-05-18
Also published as: CN111598169B

Abstract

本申请公开了一种应用于人工智能领域的模型训练方法，包括：从游戏视频样本中获取第一地图样本、第二地图样本以及M个地图样本；基于第一地图样本，通过待训练多任务深度模型所包括的待训练主任务网络获取动作类别概率；基于第一地图样本以及M个动作类别，通过待训练多任务深度模型所包括的待训练辅助任务网络获取预测地图；根据动作类别概率、目标动作类别、预测地图以及第二地图样本，对待训练多任务深度模型进行训练，得到多任务深度模型。本申请还提供了一种游戏测试方法、模拟操作方法及装置。本申请在整个训练过程无需耗费大量时间与环境进行交互，减少了训练时间，提升了模型训练的效率。同时，还降低过拟合的风险，从而提升模型效果。

Description

一种模型训练方法、游戏测试方法、模拟操作方法及装置

技术领域

本申请涉及人工智能领域，尤其涉及一种模型训练方法、游戏测试方法、模拟操作方法及装置。

背景技术

近年来，人工智能(Artificial Intelligence，AI)技术掀起了以深度学习为核心的变革，如今，AI技术开始向各个垂直领域扩展，例如金融、医疗以及游戏行业等。对于游戏行业而言，基于AI技术可以实现游戏测试、人机对战以及队友辅助等功能。

目前，可针对游戏设计一个用于模拟真实玩家的AI模型，通常采用强化学习的方法训练该AI模型。具体为，先与环境进行交互，再根据游戏角色的动作反馈计算动作的奖励，通过将奖励最大化的方式来优化AI模型的模型参数。

然而，基于强化学习的方法训练AI模型，虽然能够取得较好的模拟效果，但是这种方式需要长时间的与环境进行交互，导致训练的时间较长。

发明内容

本申请实施例提供了一种模型训练方法、游戏测试方法、模拟操作方法及装置，整个训练过程无需耗费大量时间与环境进行交互，从而减少了训练时间，提升了模型训练的效率。与此同时，还可降低过拟合的风险，从而提升模型效果。

有鉴于此，本申请一方面提供一种模型训练的方法，包括：

从游戏视频样本中获取第一地图样本、第二地图样本以及M个地图样本，其中，游戏视频样本至少包括三帧游戏图像，每帧游戏图像包括一个地图样本，第一地图样本与第二地图样本之间间隔M个地图样本，M为大于或等于1的整数；

基于第一地图样本，通过待训练多任务深度模型所包括的待训练主任务网络获取动作类别概率，其中，第一地图样本对应于目标动作类别；

基于第一地图样本以及M个动作类别，通过待训练多任务深度模型所包括的待训练辅助任务网络获取预测地图，其中，M个动作类别与M个地图样本具有对应关系；

根据动作类别概率、目标动作类别、预测地图以及第二地图样本，对待训练多任务深度模型进行训练，得到多任务深度模型，其中，多任务深度模型包括主任务网络以及辅助任务网络。

本申请另一方面提供一种游戏测试的方法，包括：

针对于待测试游戏，获取待测试游戏图像所对应的地图；

基于待测试游戏图像所对应的地图，通过多任务深度模型中的主任务网络获取动作类别概率，其中，多任务深度模型为采用上述方法训练得到的；

根据动作类别概率确定目标动作类别；

根据目标动作类别，控制终端设备执行相应的模拟操作，以得到操作反馈结果；

根据操作反馈结果生成游戏测试结果。

本申请另一方面提供一种模拟操作的方法，包括：

获取游戏图像中的目标地图；

基于目标地图，通过多任务深度模型中的主任务网络获取动作类别概率，其中，多任务深度模型为采用上述方法训练得到的；

根据动作类别概率确定目标动作类别；

根据目标动作类别，控制终端设备执行相应的模拟操作。

本申请另一方面提供一种模型训练装置，包括：

获取模块，用于从游戏视频样本中获取第一地图样本、第二地图样本以及M个地图样本，其中，游戏视频样本至少包括三帧游戏图像，每帧游戏图像包括一个地图样本，第一地图样本与第二地图样本之间间隔M个地图样本，M为大于或等于1的整数；

获取模块，还用于基于第一地图样本，通过待训练多任务深度模型所包括的待训练主任务网络获取动作类别概率，其中，第一地图样本对应于目标动作类别；

获取模块，还用于基于第一地图样本以及M个动作类别，通过待训练多任务深度模型所包括的待训练辅助任务网络获取预测地图，其中，M个动作类别与M个地图样本具有对应关系；

训练模块，用于根据动作类别概率、目标动作类别、预测地图以及第二地图样本，对待训练多任务深度模型进行训练，得到多任务深度模型，其中，多任务深度模型包括主任务网络以及辅助任务网络。

在一种可能的设计中，在本申请实施例的另一方面的一种实现方式中，

获取模块，具体用于获取游戏视频样本；

从游戏视频样本中获取第一游戏图像以及第二游戏图像，其中，第一游戏图像与第二游戏图像之间间隔M个游戏图像；

根据第一游戏图像获取第一地图样本；

根据第二游戏图像获取第二地图样本。

在一种可能的设计中，在本申请实施例的另一方面的另一种实现方式中，

获取模块，具体用于基于第一地图样本，通过待训练多任务深度模型所包括的至少一个卷积层，获取图像卷积特征；

基于图像卷积特征，通过待训练主任务网络所包括的至少一个全连接层，获取动作类别概率。

获取模块，具体用于获取M个动作类别；

基于第一地图样本，通过待训练多任务深度模型所包括的至少一个卷积层，获取图像卷积特征；

基于图像卷积特征，通过待训练辅助任务网络所包括的第一全连接层，获取第一特征向量；

基于M个动作类别，通过待训练辅助任务网络所包括的第二全连接层，获取第二特征向量；

基于第一特征向量以及第二特征向量，通过待训练辅助任务网络所包括的第三全连接层获取第三特征向量；

基于第三特征向量，通过待训练辅助任务网络所包括的转换层获取特征矩阵；

基于特征矩阵，通过待训练辅助任务网络所包括的至少一个上采样层，获取预测地图。

获取模块，具体用于基于第一地图样本，通过待训练多任务深度模型所包括的第一卷积层，获取第一图像卷积特征；

基于第一图像卷积特征，通过待训练多任务深度模型所包括的第二卷积层，获取第二图像卷积特征；

基于第二图像卷积特征，通过待训练多任务深度模型所包括的第三卷积层，获取图像卷积特征；

基于特征矩阵，通过待训练辅助任务网络所包括的至少一个上采样层，获取预测地图，包括：

基于特征矩阵，通过待训练辅助任务网络所包括的第一上采样层，获取第一图像特征；

基于第一图像特征以及第二图像卷积特征，通过待训练辅助任务网络所包括的第二上采样层，获取第二图像特征；

基于第二图像特征以及第一图像卷积特征，通过待训练辅助任务网络所包括的第三上采样层，获取预测地图。

训练模块，具体用于根据动作类别概率以及目标动作类别确定第一损失值；

根据预测地图以及第二地图样本确定第二损失值；

基于第一损失值以及第二损失值，采用目标损失函数确定目标损失值；

当满足模型训练条件时，则根据目标损失值对待训练多任务深度模型进行训练，得到多任务深度模型。

训练模块，具体用于基于动作类别概率以及目标动作类别，通过第一损失函数确定第一地图样本所对应的第一子损失值，其中，第一地图样本属于N个地图样本中的一个地图样本，N为大于或等于1的整数；

当获取到N个地图样本中每个地图样本所对应的第一子损失值时，根据N个地图样本中每个地图样本所对应的第一子损失值，确定第一损失值。

训练模块，具体用于基于预测地图以及第二地图样本，通过第二损失函数确定Q个像素点中每个像素点所对应的第二子损失，其中，Q为大于或等于1的整数，第二子损失用于表示像素点在至少一个通道上的像素值差异；

当获取到Q个第二子损失时，根据Q个第二子损失确定第二损失值。

训练模块，具体用于当达到迭代次数阈值，或，目标损失值达到收敛时，确定满足模型训练条件；

采用目标损失值对待训练多任务深度模型的模型参数进行更新，得到更新后的模型参数；

根据更新后的模型参数获取多任务深度模型。

本申请另一方面提供一种游戏测试装置，包括：

获取模块，用于针对于待测试游戏，获取待测试游戏图像所对应的地图；

获取模块，还用于基于待测试游戏图像所对应的地图，通过多任务深度模型中的主任务网络获取动作类别概率，其中，多任务深度模型为采用上述方法训练得到的；

确定模块，用于根据动作类别概率确定目标动作类别；

模拟模块，用于根据目标动作类别，控制终端设备执行相应的模拟操作，以得到操作反馈结果；

生成模块，用于根据操作反馈结果生成游戏测试结果。

本申请另一方面提供一种模拟操作装置，包括：

获取模块，用于获取游戏图像中的目标地图；

获取模块，还用于基于目标地图，通过多任务深度模型中的主任务网络获取动作类别概率，其中，多任务深度模型为采用上述方法训练得到的；

确定模块，用于根据动作类别概率确定目标动作类别；

模拟模块，用于根据目标动作类别，控制终端设备执行相应的模拟操作。

本申请另一方面提供一种计算机设备，包括：存储器、收发器、处理器以及总线系统；

其中，存储器用于存储程序；

处理器用于执行存储器中的程序，包括执行上述各方面所述的方法；

总线系统用于连接存储器以及处理器，以使存储器以及处理器进行通信。

本申请另一方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述各方面所述的方法。

从以上技术方案可以看出，本申请实施例具有以下优点：

本申请实施例中，提供了一种模型训练的方法，首先从游戏视频样本中获取第一地图样本、第二地图样本以及M个地图样本，然后基于第一地图样本，通过待训练多任务深度模型所包括的待训练主任务网络获取动作类别概率，并基于第一地图样本以及M个动作类别，通过待训练多任务深度模型所包括的待训练辅助任务网络获取预测地图，最后根据动作类别概率、目标动作类别、预测地图以及第二地图样本，对待训练多任务深度模型进行训练，得到多任务深度模型。通过上述方式，基于多任务深度模型可采用少量样本训练得到主任务网络，整个过程无需耗费大量时间与环境进行交互，从而减少了训练时间，提升了模型训练的效率。与此同时，多任务深度模型还融合了两个相关的任务网络来提升模型学习能力，可降低过拟合的风险，从而提升模型效果。

附图说明

图1为本申请实施例中模拟操作系统的一个环境示意图；

图2为本申请实施例中实现游戏模拟操作的一个流程示意图；

图3为本申请实施例中模型训练方法的一个实施例示意图；

图4为本申请实施例中基于竞速类游戏的一个游戏图像示意图；

图5为本申请实施例中基于射击类游戏的一个游戏图像示意图；

图6为本申请实施例中多任务深度模型的一个结构示意图；

图7为本申请实施例中从游戏视频样本中提取地图样本的一个实施例示意图；

图8为本申请实施例中基于主任务网络输出动作类别概率的一个实施例示意图；

图9为本申请实施例中基于辅助任务网络输出预测地图的一个实施例示意图；

图10为本申请实施例中基于辅助任务网络输出预测地图的另一个实施例示意图；

图11为本申请实施例中游戏测试方法的一个实施例示意图；

图12为本申请实施例中游戏测试报告的一个示意图；

图13为本申请实施例中模拟操作方法的一个实施例示意图；

图14为本申请实施例中模型训练装置的一个实施例示意图；

图15为本申请实施例中游戏测试装置的一个实施例示意图；

图16为本申请实施例中模拟操作装置的一个实施例示意图；

图17为本申请实施例中终端设备的一个结构示意图；

图18为本申请实施例中服务器的一个结构示意图。

具体实施方式

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“对应于”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应理解，本申请可以应用于游戏测试场景，具体地，在游戏测试场景中，为了能够节省人力成本，可通过AI模型控制游戏中的AI角色模拟真实玩家操作，再根据操作反馈结果生成游戏测试报告。其中，AI角色的动作是基于多任务深度模型中主任务网络输出的动作类别概率而确定的，也就是说，主任务网络可以通过当前游戏图像中的地图预测AI角色可能执行的动作，由此控制点击相应的按钮。在游戏测试过程中，利用AI模型输出AI角色的动作，再基于输出的动作生成对应的操作反馈结果，例如，AI角色是否碰撞游戏中的某个障碍，或者，AI角色是否获得游戏中的奖励物品等，汇总这些操作反馈结果。从而生成游戏测试报告，最后通过游戏测试信息再去调整游戏策略，即调整游戏环境信息(例如关卡难易度，怪物血量以及个数等)。因此，对游戏AI模型进行训练有利于遍历更多的游戏场景，由此提升了模型的稳定性，此外还可以提升游戏测试的稳定性以及准确度。

本申请提供的模拟操作方法还可应用于智能操作场景，具体地，在智能操作场景中，还能够引入人机对战、离线托管以及队友辅助等新玩法。在人机对战中，通过AI模型控制游戏中的AI角色模拟真实玩家操作，得到分数A，而真实玩家通过实战操作，得到分数B，再比较分数A和分数B的高低，从而得到人机对战结果。在离线托管中，当真实玩家因为网络状况差或者因自身原因无法继续进行游戏时，可通过AI模型控制游戏中的AI角色模拟真实玩家操作，以此等待真实玩家回归游戏。在队友辅助中，由至少两名真实玩家参阅游戏，当存在任意一个真实玩家出现掉线或者离开游戏的情况时，可通过AI模型控制游戏中的AI角色模拟其他队友的操作。

以竞速类游戏为例，基本玩法是利用虚拟按键、手柄、键盘或者鼠标等控制AI角色在赛道上行驶，并且避开赛道上的各种障碍，最快抵达终点的AI角色即获得胜利，其中，AI角色可以是赛车、摩托车、游艇以及飞机等，通常情况下，一款竞速类游戏包括至少一种类型的赛道，不同的赛道往往具有不同的难度，例如，弯道较多的赛道行驶难度更大，或者，具有较多障碍物的赛道难度更大。在测试过程中可以通过随机分配赛道来获取地图，并基于地图确定对应的动作类别。

需要说明的是，竞速类游戏的示例仅用于理解本方案，可以理解的是，本方案中游戏可以包括但不限于第一人称射击类游戏(first-person shooting game，FPS)、跑酷类游戏、大型多人在线角色扮演游戏(Role-playing game，RPG)、多人在线战术竞技游戏(Multiplayer Online Battle Arena，MOBA)、音乐游戏(Music Game，MSC)以及体育运动类游戏(sport game，SPG)等。

本申请提出了一种游戏测试方法以及模拟操作方法，均适用于图1所示的模拟操作系统，请参阅图1，图1为本申请实施例中模拟操作系统的一个环境示意图，如图所示，模拟操作系统中包括游戏服务器(或测试服务器)和终端设备，下面将结合图1以及具体场景，分别对游戏测试的方法和模拟操作的方法进行介绍。

为了便于理解，本申请将以竞速类游戏为例进行介绍，在竞速类游戏中，玩家可以控制赛车的转向和漂移动作来进行比赛，在游戏测试的场景中，测试人员可以根据测试目的预先设定一类赛道，例如，开发人员在原有的竞速类游戏中新设计了一种赛道，基于新赛道，获取多个游戏图像所包括的地图。为了提升测试的真实性，游戏服务器可采集来自终端设备的游戏图像，这些游戏图像通常来源于大量真实玩家在游戏过程中的产生的画面数据。当游戏服务器收集到一定数量(例如100万)的游戏图像时，即可从每个游戏图像中提取地图，再利用主任务网络输出赛车的动作。

经过一段时间的测试后，终端设备将操作反馈结果统一上报至游戏服务器(或测试服务器)，由游戏服务器(或测试服务器)进行统计，最后生成游戏测试报告。开发人员可根据游戏测试报告的内容，对游戏赛道、游戏关卡、游戏任务以及游戏元素等内容进行调整，直至达到开发的预期效果。

在模拟操作的场景中，通过终端设备采集竞速类游戏的相关数据，在用户触发“自动操作”的按键后，终端设备将实时获取到的游戏图像反馈至游戏服务器，游戏服务器基于游戏图像提取对应的地图。需要说明的是，发送游戏图像的频率可以是每秒10帧，或者每秒20帧，也可以根据设备性能和网络状态进行实时调整，例如，对于设备性能较好的终端设备而言，每秒可向游戏服务器发送20帧游戏图像，而对于设备性能较差的终端设备而言，每秒可向游戏服务器发送10帧游戏图像。又例如，在网络质量较好的情况下，终端设备每秒可向游戏服务器发送30帧游戏图像，而在网络质量较差的情况下，终端设备每秒仅向游戏服务器发送5帧游戏图像。

需要说明的是，图1中的服务器可以是一台服务器、多台服务器组成的服务器集群或云计算中心等，此处均不限定。终端设备可以为图1中示出的平板电脑、笔记本电脑、掌上电脑、手机、个人电脑(personal computer，PC)及语音交互设备。

本申请实施例通过的方案是基于AI技术实现的，下面将对AI领域的一些基础概念进行介绍。AI是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，AI是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。AI也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。AI技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。AI基础技术一般包括如传感器、专用AI芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。AI软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

在游戏测试和模拟操作的过程中，可使用主任务网络，该主任务网络是基于机器学习(Machine Learning，ML)训练得到的，随着AI技术研究和进步，AI技术在多种方向展开研究，机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是AI的核心，是使计算机具有智能的根本途径，其应用遍及AI的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

在利用主任务网络对游戏图像中的地图进行识别时，涉及到计算机视觉(Computer Vision，CV)技术。其中，CV技术就是AI技术的多种研究方向中研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的AI系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、光学字符识别(Optical Character Recognition，OCR)、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术。

下面将介绍如何基于本申请提供的多任务深度模型实现游戏的模拟操作，请参阅图2，图2为本申请实施例中实现游戏模拟操作的一个流程示意图，如图所示，具体地：

在步骤S1中，首先需要收集真实玩家录制的游戏视频样本，例如，收集竞速类游戏的视频样本，且每个游戏视频样本中包括多帧游戏图像。

在步骤S2中，对游戏视频样本进行分帧处理，得到多帧游戏图像，然后分别对每帧游戏图像进行样本提取，即取出游戏图像中的小地图。

在步骤S3中，基于这些小地图对多任务深度模型进行训练，多任务深度模型包括两个部分，分别为主任务网络以及辅助任务网络。

在步骤S4中，利用主任务网络可预测AI角色的动作类别概率，而利用辅助任务网络可以预测地图在后续若干帧的状态。经过多次迭代后，完成对多任务深度模型的训练、

在步骤S5中，在测试过程中，仅需要使用多任务深度模型中的主任务网络，也就是将小地图输入至主任务网络，由主任务网络输出AI角色的动作类别概率，并根据动作类别概率确定动作类别，进而执行该动作类别所对应的操作。

结合上述介绍，下面将对本申请中模型训练的方法进行介绍，请参阅图3，本申请实施例中模型训练方法的一个实施例包括：

101、从游戏视频样本中获取第一地图样本、第二地图样本以及M个地图样本，其中，游戏视频样本至少包括三帧游戏图像，每帧游戏图像包括一个地图样本，第一地图样本与第二地图样本之间间隔M个地图样本，M为大于或等于1的整数；

本实施例中，模型训练装置获取基于竞速类游戏录制得到的游戏视频样本，或者基于射击类游戏录制得到的游戏视频样本，还可以是基于其他类型游戏录制得到的游戏视频样本。对游戏视频样本进行分帧后可得到至少三帧游戏图像，每帧游戏图像中都包括一个地图样本，于是从至少三帧游戏图像中获取第一游戏图像、第二游戏图像以及这两帧游戏图像之间还间隔至少一帧(即M帧)游戏图像。基于第一游戏图像提取第一地图样本，基于第二游戏图像提取第二地图样本，基于M帧游戏图像得到对应的M帧地图样本。

游戏视频样本可以为录制半小时得到视频样本，且录制频率为每秒10帧，设置该频率的原因是竞速类游戏对时间很敏感，动作稍慢就会导致撞击赛道等异常情况，需要说明的是，此处仅为一个示意，在实际应用中，针对不同的游戏类型和不同的训练要求，可设置不同的录制频率和录制时间。此外，模型训练装置部署于计算机设备，该计算机设备可以为服务器，也可以为终端设备。

为了便于说明，以竞速类游戏为例，请参阅图4，图4为本申请实施例中基于竞速类游戏的一个游戏图像示意图，如图所示，在录制的游戏视频样本中记录了游戏图像及其对应的玩家操作，本申请将玩家操作分为5个动作类别，分别为“左移”、“右移”、“左漂移”、“右漂移”和“无动作”，其中，图4中K1所指示的为“漂移”按键，K2所指示的为“左移”按键，K3所指示的为“右移”按键，而K4所指示的为地图(或地图样本)，录制的动作类别中，“左移”表示只按下了“左移”按键K2，“右移”表示只按下了“右移”按键K3，“左漂移”表示同时按住“左移”按键K2和“漂移”按键K1，“左漂移”表示同时按住“左移”按键K2和“漂移”按键K1，“右漂移”表示同时按住“右移”按键K3和“漂移”按键K1，“无动作”表示没有按下任何按键。

以射击类游戏为例，请参阅图5，图5为本申请实施例中基于射击类游戏的一个游戏图像示意图，如图所示，在录制的游戏视频样本中记录了游戏图像及其对应的玩家操作，本申请将玩家操作分为9个动作类别，分别为“前移”、“右移”、“后移”、“左移”、“向前方射击”、“向右方射击”、“向后方射击”、“向左方射击”和“无动作”，其中，图5中K5所指示的为“前移”按键，K6所指示的为“右移”按键，K7所指示的为“后移”按键，K8所指示的为“左移”按键，K9所指示的为“射击”按键，而K10所指示的为地图(或地图样本)。录制的动作类别中，“前移”表示只按下了“前移”按键K5，“右移”表示只按下了“右移”按键K6，“后移”表示只按下了“后移”按键K7，“左移”表示只按下了“左移”按键K8，“向前方射击”表示同时按住“前移”按键K5和“射击”按键K9，“向右方射击”表示同时按住“右移”按键K6和“射击”按键K9，“向后方射击”表示同时按住“后移”按键K7和“射击”按键K9，“向左方射击”表示同时按住“左移”按键K8和“射击”按键K9，“无动作”表示没有按下任何按键。

如图4和图5所示，本申请中的地图和地图样本具体可以为小地图(mini-map)，小地图通常由于辅助玩家确定角色在游戏场景中的位置，以及便于玩家观察地形状态。

102、基于第一地图样本，通过待训练多任务深度模型所包括的待训练主任务网络获取动作类别概率，其中，第一地图样本对应于目标动作类别；

本实施例中，设计了一个多任务深度模型，该多任务深度模型包括了两个任务，第一个任务是根据游戏图像中的地图样本得到动作类别概率，该任务的目标是将输出的动作类别概率与录制的动作类别尽量一致。第二个任务是根据游戏图像中的地图样本，以及后续M帧游戏图像所对应的动作类别，预测M帧后的地图，即得到预测地图。该任务的目标是将输出的预测地图与录制的第二地图样本尽量相似。其中，第一个任务是主任务，第二个任务是辅助任务，其作用是辅助主任务网络更好地学习地图的特征，从而提升主任务网络的预测效果。由于第二个任务能够学习动作类别和游戏状态之间对应关系，比如，执行“左移”动作之后，在后续地图中，游戏角色位置会更靠近地图的左侧，因此，这与第一个任务高度相关，所以能辅助第一个任务的学习。需要说明的是，主任务网络用于执行第一个任务，辅助任务网络用于执行第二个任务。

基于此，模型训练装置将第一地图样本输入至待训练多任务深度模型中所包括的待训练主任务网络，通过待训练主任务网络输出动作类别概率。假设有5个动作类别，即输出的动作类别概率为一个5维向量。此外，第一地图样本对应的目标动作类别即为真实玩家在该帧游戏图像中的实际操作，其中，该目标动作类别可以表示为动作标签，即人工对游戏图像进行标注的动作类别。

103、基于第一地图样本以及M个动作类别，通过待训练多任务深度模型所包括的待训练辅助任务网络获取预测地图，其中，M个动作类别与M个地图样本具有对应关系；

本实施例中，模型训练装置获取第一游戏图像之后的M帧游戏图像，然后分别从这M帧游戏图像中提取地图样本，从而得到M个地图样本。类似地，每个地图样本对应的动作类别即为真实玩家在每帧游戏图像中的实际操作，需要说明的是，每个地图样本对应的动作类别可以是通过人工标注的方式得到，例如，后台人员根据每帧地图样本中游戏角色的状态对其进行手动标注。可选地，每个地图样本对应的动作类别还可以是通过调用游戏后台数据得到的，例如，直接根据游戏图像的帧号，从游戏服务器中分别提取每帧游戏图像所对应的真实玩家的操作数据，假设操作数据包括操作标识“2”，基于操作标识“2”即可确定动作类别为“右移”。基于此，模型训练装置将第一地图样本以及M个动作类别输入至待训练多任务深度模型中所包括的待训练辅助任务网络，通过待训练辅助任务网络输出预测地图，其中，这里的预测地图为第二地图样本的预测图像。

104、根据动作类别概率、目标动作类别、预测地图以及第二地图样本，对待训练多任务深度模型进行训练，得到多任务深度模型，其中，多任务深度模型包括主任务网络以及辅助任务网络。

本实施例中，模型训练装置基于动作类别概率、目标动作类别、预测地图以及第二地图样本，对待训练多任务深度模型进行训练，当满足模型训练条件时，即可得到多任务深度模型，该多任务深度模型包括训练完成的主任务网络以及辅助任务网络，其中，在游戏测试以及模拟操作的过程中，仅使用主任务网络即可。

为了便于介绍，请参阅图6，图6为本申请实施例中多任务深度模型的一个结构示意图，在收集到样本数据集(包括每帧游戏图像的地图样本和动作类别)之后，设计了一个如图6所示的轻量化深度网络，轻量化深度网络具有参数量少的特点，是适用于中央处理器(central processing units，CPU)和嵌入式设备的小型深度网络。其中，图6所示的多任务深度模型包括主任务网络和辅助任务网络，主任务网络和辅助任务网络共用至少一个卷积层，即如图6所示的卷积层1、卷积层2和卷积层3，基于卷积层3输出图像卷积特征。此时，主任务网络和辅助任务网络需要分别进行不同的处理。在主任务网络中，将卷积层3输出的图像卷积特征输入至至少一个全连接(fully connected，FC)层，即如图6所示的FC层1、FC层2和FC层3，在辅助任务网络中，将M个动作类别对应的特征矩阵输入至至少一个FC层，即如图6所示的FC层4。将卷积层3输出的图像卷积特征输入至至少一个FC层，即如图6所示的FC层5。经过级联后输入至至少一个FC层，即如图6所示的FC层6。通过转换层对FC层6输出的结构进行特征转换，然后通过至少一个上采样层输出预测地图，即如图6所示的上采样层1、上采样层2和上采样层3。

假设样本地图为具有红绿蓝(red green blue，RGB)三通道，且大小为48×48的图像，首先输入至主任务网络和辅助任务网络共有的卷积层，在主任务中，基于卷积层输出的结果，通过全连接层输出相应的动作类别概率。在辅助任务中，基于卷积层输出的结果以及M个动作类别，通过全连接层、转换层以及上采样层，输出第M+1帧的预测地图。其中，假设M等于5，则M个动作类别表示为5×5的矩阵，即由5个5×1的向量组成的，5×1的向量表示有5个动作类别。以射击类游戏为例，假设M取6，且动作类别一共有9种，则M个动作类别所对应的矩阵表示为6×9。本申请以M取值为5，且共有5种动作类别为例进行说明，可以理解的是，图6所示的输出参数的大小、输出参数的大小以及各个网络层的数量仅为一个示意，不作为对本申请的限定。

基于此，辅助任务能够学习动作类别和小地图变化状态之间的关系，目的是辅助主任务的学习，也就是说，通过多任务学习，可以将辅助任务中学习到的信息(即动作类别和小地图变化状态之间的关系)迁移到主任务的学习，通过共享主任务和辅助任务之间的表征，可以提升主任务的学习效果。图6所示的多任务深度模型能够在CPU中达到每秒处理10帧以上的效果，且耗费的内存和计算资源较少。

可选地，在上述图3对应的各个实施例的基础上，本申请实施例提供的模型训练方法的一个可选实施例中，从游戏视频样本中获取第一地图样本、第二地图样本以及M个地图样本，可以包括：

获取游戏视频样本；

根据第一游戏图像获取第一地图样本；

根据第二游戏图像获取第二地图样本。

本实施例中，介绍了一种获取第一地图样本以及第二地图样本的方式，在对游戏视频样本进行分帧处理后，得到多个游戏图像，从这些游戏图像中获取连续的M+2帧图像，M为大于或等于1的整数。假设第一游戏图像为第1帧图像，则第二游戏图像为第M+2帧图像，中间间隔M帧游戏图像。可以理解的是，本申请以M取值为5为例进行介绍，这是考虑到5帧后的小地图变化不会很大，通过模型进行预测具有一定的可行性。

具体地，为了便于介绍，请参阅图7，图7为本申请实施例中从游戏视频样本中提取地图样本的一个实施例示意图，如图所示，从游戏视频样本中取出第一游戏图像，且第一游戏图像包括小地图，将该小地图作为第一地图样本。从游戏视频样本中取出后续的M帧游戏图像，每帧游戏图像都包括小地图，这些小地图均为地图样本。类似地，从游戏视频样本中取出第二游戏图像，且第二游戏图像包括小地图，将该小地图作为第二地图样本。进一步地，还可以将地图样本缩放至48×48的像素，缩放的目的是减少玩网络复杂度。

其次，本申请实施例中，提供了一种获取第一地图样本以及第二地图样本的方式，通过上述方式，能够根据实际经验，从游戏视频样本中获取一定数量的游戏图像，再从游戏图像中提取小地图作为训练对象，小地图通常在游戏图像中仅占据较小的区域，因此，在训练的过程中能够减小网络复杂度和数据处理量，有利于降低模型训练的难度，并提升训练效率。此外，小地图还能够反应出游戏角色在游戏环境下的位置信息，并对赛道和游戏角色都进行了简化，不仅减少了训练数据量，还保证了训练所需的信息量，从而提升了模型训练的可靠性和准确度。

可选地，在上述图3对应的各个实施例的基础上，本申请实施例提供的模型训练方法的另一个可选实施例中，基于第一地图样本，通过待训练多任务深度模型所包括的待训练主任务网络获取动作类别概率，可以包括：

本实施例中，介绍了一种基于主任务网络输出动作类别概率的方式。待训练的多任务深度模型包括两个部分，分别为待训练的主任务网络以及待训练的辅助任务网络，其中，训练完成后的主任务网络与待训练主任务网络具有相同的网络结构，因此，为了便于说明，下面将以主任务网络的网络结构为例进行说明。

为了便于说明，请参阅图8，图8为本申请实施例中基于主任务网络输出动作类别概率的一个实施例示意图，如图所示，假设输入的数据为第一地图样本，其中，第一地图样本经过缩放后得到48×48像素大小的图像，且具有三个通道。将该第一地图样本输入至多任务深度模型(即待训练多任务深度模型)的至少一个卷积层，由此输出图像卷积特征。具体地，以3个卷积层为例，将第一地图样本输入至第一卷积层，通过第一卷积层输出第一图像卷积特征，其中，第一卷积层的卷积核大小为4×4，步长为2，提取到的第一图像卷积特征具有32个通道数量。将第一图像卷积特征输入至第二卷积层，通过第二卷积层输出第二图像卷积特征，其中，第二卷积层的卷积核大小为4×4，步长为2，提取到的第二图像卷积特征具有64个通道数量，且第二图像卷积特征的宽度为第一图像卷积特征的宽度的一半，第二图像卷积特征的高度也为第一图像卷积特征的高度的一半。将第二图像卷积特征输入至第三卷积层，通过第三卷积层输出图像卷积特征，其中，第三卷积层的卷积核大小为4×4，步长为2，提取到的图像卷积特征具有128个通道数量，且图像卷积特征的宽度为第二图像卷积特征的宽度的一半，图像卷积特征的高度也为第二图像卷积特征的高度的一半，即图像卷积特征表示为6×6×128的特征。

需要说明的是，图像卷积特征是主任务网络(即待训练主任务网络)和辅助任务网络(即待训练辅助任务网络)的共用特征，图像卷积特征包含了图像的抽象信息。基于该图像卷积特征，通过主任务网络(即待训练主任务网络)输出动作类别概率。

具体地，以3个FC层为例，将图像卷积特征输入至主任务网络(即待训练主任务网络)中的FC层1，通过FC层1输出256维的特征向量A。将256维的特征向量A输入至主任务网络(即待训练主任务网络)中的FC层2，通过FC层2输出512维的特征向量B。将512维的特征向量B输入至主任务网络(即待训练主任务网络)中的FC层3，通过FC层3输出5维的动作类别概率。需要说明的是，动作类别概率的维度数量与动作类别的数量一致，假设共有5种动作类别，即动作类别概率表示为5为向量。假设共有9种动作类别，即动作类别概率表示为9为向量。

可以理解的是，针对其他的地图或地图样本，均采用上述方式获取其对应的动作类别概率，此处不作赘述。

其次，本申请实施例中，提供了一种基于主任务网络输出动作类别概率的方式，通过上述方式，主任务网络包括若干卷积层和若干FC层，采用这些网络层即可完成主任务，在网络结构的设计上更为简洁，体现了轻量级深度网络的优势，有利于提升模型训练的速率。

可选地，在上述图3对应的各个实施例的基础上，本申请实施例提供的模型训练方法的另一个可选实施例中，基于第一地图样本以及M个动作类别，通过待训练多任务深度模型所包括的待训练辅助任务网络获取预测地图，可以包括：

获取M个动作类别；

本实施例中，介绍了一种利用辅助任务网络辅助主任务学习的方式。待训练的多任务深度模型包括两个部分，分别为待训练的主任务网络以及待训练的辅助任务网络，其中，训练完成后的辅助任务网络与待训练辅助任务网络具有相同的网络结构，因此，为了便于说明，下面将以辅助任务网络的网络结构为例进行说明。

具体地，以竞速类游戏为例，假设取出5帧连续的游戏图像，即M为5，从这5帧游戏图像中分别提取对应的地图样本，每个地图样本对应于一个标注好的动作类别，且假设游戏中总共包括5个动作类别。请参阅表1，表1为M个动作类别的一个示意，

表1

	左移	右移	左漂移	右漂移	无动作
						第m帧	是	否	否	否	否
第m+1帧	否	否	是	否	否
						第m+2帧	否	否	是	否	否
第m+3帧	否	否	否	否	是
						第m+4帧	否	否	否	否	是

由表1可知，输入辅助任务网络(即待训练辅助任务网络)的M个动作类别表示为一个5×5的特征矩阵，该特征矩阵包含输入地图(或地毯样本)后续5帧的动作类别。其中，每一行是动作类别为“0”或“1”的标识，即“是”表示“1”，“否”表示“0”，且每一行有且仅有一个动作类别对应的值为“1”，基于表1，M个动作类别对应的5×5特征矩阵表示为：

为了便于说明，请参阅图9，图9为本申请实施例中基于辅助任务网络输出预测地图的一个实施例示意图，如图所示，假设输入的数据为第一地图样本，其中，第一地图样本经过缩放后得到48×48像素大小的图像，且具有三个通道。将该第一地图样本输入至多任务深度模型(即待训练多任务深度模型)的至少一个卷积层，由此输出图像卷积特征。将图像卷积特征输入至辅助任务网络(或待训练辅助任务网络)中的第一FC层，通过第一FC层输出256维的第一特征向量。此外，还需要将M个动作类别所对应的特征矩阵输入至辅助任务网络(或待训练辅助任务网络)中的第二FC层，通过第二FC层输出256维的第二特征向量。对第一特征向量和第二特征向量进行级联处理，得到一个512维的特征向量，然后将级联后的第一特征向量和第二特征向量输入至辅助任务网络(或待训练辅助任务网络)中的第三FC层，通过第三FC层输出1152维的第三特征向量。将第三特征向量输入至辅助任务网络(或待训练辅助任务网络)中的转换层，通过转换层可以将特征向量转换为6×6×32特征矩阵，而特征的数量不变，仅改变其排列方式。

将特征矩阵输入至辅助任务网络(或待训练辅助任务网络)中的至少一个上采样层，再将输出的图像特征与卷积层输出的图像卷积特征进行矩阵相加处理，最终得到预测地图。预测地图与第一地图样本具有相同的大小，也表示48×48×3的图像。其中，将图像特征与卷积层输出的图像卷积特征进行矩阵相加处理能够保留更多的图像特征，加速模型的收敛速度。

可以理解的是，针对其他的地图或地图样本，均采用上述方式获取其对应的预测图像，此处不作赘述。

其次，本申请实施例中，提供了一种利用辅助任务网络辅助主任务学习的方式，通过上述方式，基于多任务深度模型可以采用少量玩家样本快速训练模型，同时通过多任务深度模型同时进行动作评估和状态预测，辅助任务能够学习动作类别和小地图变化状态之间的关系，从而辅助主任务的学习。通过融合两个高度相关的任务能提升多任务深度模型的学习能力，能降低过拟合的风险，提高游戏AI的效果。

可选地，在上述图3对应的各个实施例的基础上，本申请实施例提供的模型训练方法的另一个可选实施例中，基于第一地图样本，通过待训练多任务深度模型所包括的至少一个卷积层，获取图像卷积特征，可以包括：

基于第一地图样本，通过待训练多任务深度模型所包括的第一卷积层，获取第一图像卷积特征；

本实施例中，介绍了一种基于辅助任务网络输出预测地图的方式。待训练的多任务深度模型包括两个部分，分别为待训练的主任务网络以及待训练的辅助任务网络，其中，训练完成后的辅助任务网络与待训练辅助任务网络具有相同的网络结构，因此，为了便于说明，下面将以辅助任务网络的网络结构为例进行说明。

为了便于说明，请参阅图10，图10为本申请实施例中基于辅助任务网络输出预测地图的另一个实施例示意图，如图所示，假设输入的数据为第一地图样本，其中，第一地图样本经过缩放后得到48×48像素大小的图像，且具有三个通道。将该第一地图样本输入至多任务深度模型(即待训练多任务深度模型)的至少一个卷积层，由此输出图像卷积特征。具体地，以3个卷积层为例，将第一地图样本输入至第一卷积层，通过第一卷积层输出第一图像卷积特征，其中，第一卷积层的卷积核大小为4×4，步长为2，提取到的第一图像卷积特征具有32个通道数量。将第一图像卷积特征输入至第二卷积层，通过第二卷积层输出第二图像卷积特征，其中，第二卷积层的卷积核大小为4×4，步长为2，提取到的第二图像卷积特征具有64个通道数量，且第二图像卷积特征的宽度为第一图像卷积特征的宽度的一半，第二图像卷积特征的高度也为第一图像卷积特征的高度的一半。将第二图像卷积特征输入至第三卷积层，通过第三卷积层输出图像卷积特征，其中，第三卷积层的卷积核大小为4×4，步长为2，提取到的图像卷积特征具有128个通道数量，且图像卷积特征的宽度为第二图像卷积特征的宽度的一半，图像卷积特征的高度也为第二图像卷积特征的高度的一半，即图像卷积特征表示为6×6×128的特征。

将图像卷积特征输入至辅助任务网络(或待训练辅助任务网络)中的第一FC层，通过第一FC层输出256维的第一特征向量。此外，还需要将M个动作类别所对应的特征矩阵输入至辅助任务网络(或待训练辅助任务网络)中的第二FC层，通过第二FC层输出256维的第二特征向量。对第一特征向量和第二特征向量进行级联处理，得到一个512维的特征向量，然后将级联后的第一特征向量和第二特征向量输入至辅助任务网络(或待训练辅助任务网络)中的第三FC层，通过第三FC层输出1152维的第三特征向量。将第三特征向量输入至辅助任务网络(或待训练辅助任务网络)中的转换层，通过转换层可以将特征向量转换为6×6×32特征矩阵。

以3个上采样层为例，将特征矩阵输入至辅助任务网络(或待训练辅助任务网络)中的第一上采样层，通过第一上采样层输出第一图像特征，其中，第一上采样层的卷积核大小为4×4，步长为2，提取到的第一图像特征具有64个通道数量。将第一图像特征以及第二图像卷积特征进行矩阵相加处理，然后将处理后的图像特征输入至辅助任务网络(或待训练辅助任务网络)中的第二上采样层，通过第二上采样层输出第二图像特征，其中，第二上采样层的卷积核大小为4×4，步长为2，提取到的第二图像特征具有32个通道数量。将第二图像特征以及第一图像卷积特征进行矩阵相加处理，然后将处理后的图像特征输入至辅助任务网络(或待训练辅助任务网络)中的第三上采样层，通过第三上采样层输出预测地图，其中，第三上采样层的卷积核大小为4×4，步长为2，提取到的预测地图具有3个通道数量，与第一地图样本具有相同的大小，即表示48×48×3的图像。

再次，本申请实施例中，提供了一种基于辅助任务网络输出预测地图的方式，通过上述方式，辅助任务网络包括转换层、若干卷积层、若干FC层以及若干上采样层，采用这些网络层即可完成辅助任务，在网络结构的设计上更为简洁，体现了轻量级深度网络的优势，有利于提升模型训练的速率。

可选地，在上述图3对应的各个实施例的基础上，本申请实施例提供的模型训练方法的另一个可选实施例中，根据动作类别概率、目标动作类别、预测地图以及第二地图样本，对待训练多任务深度模型进行训练，得到多任务深度模型，可以包括：

根据动作类别概率以及目标动作类别确定第一损失值；

根据预测地图以及第二地图样本确定第二损失值；

本实施例中，介绍了一种确定目标损失值的具体实现方式，待训练多任务深度模型包括两个需要训练的部分，即待训练主任务网络以及待训练辅助任务网络，对于这两个部分的训练是联合进行的，因此，整个待训练多任务深度模型可结合待训练主任务网络所对应的第一损失值，以及待训练辅助任务网络所对应的第二损失值进行训练。

具体地，在实际训练的过程中通常需要采用大量的训练样本，本申请以针对其中一个训练样本为例进行说明，在得到第一地图样本对应的动作类别概率以及目标动作类别之后，再结合其他地图样本所对应的动作类别概率以及目标动作类别，计算得到第一损失值L₁。在得到第一地图样本对应的预测地图以及第二地图样本之后，再结合其他地图样本所对应的预测地图以及M帧后的地图样本，计算得到第二损失值L₂。基于第一损失值以及第二损失值，采用如下目标损失函数计算目标损失值：

L＝L₁+αL₂

其中，L表示目标损失值，L₁表示第一损失值，L₂表示第二损失值，α表示辅助任务中损失值所对应的权重值，且α可以根据实验效果见设置。

最小化目标损失值为目的来优化待训练多任务深度模型的模型参数，再采用梯度后向传递的方式更新模型参数，当达到训练次数或目标损失值不再减小时，表示足模型训练条件，于是停止模型训练，并根据目标损失值对待训练多任务深度模型进行训练，得到多任务深度模型。主任务网络的目的是预测游戏角色的动作，而辅助任务网络是要学习游戏角色的动作与小地图之间的联系，这两个任务是强相关的，同时学习这两个任务能提升模型的效果。

其次，本申请实施例中，提供了一种确定目标损失值的具体实现方式，通过上述方式，结合第一损失值和第二损失值得到目标损失值，根据目标损失值可以对整个多任务深度模型进行训练，从而实现利用辅助任务网络对主任务网络进行学习的目的，由此提升训练的可行性和可操作性。

可选地，在上述图3对应的各个实施例的基础上，本申请实施例提供的模型训练方法的另一个可选实施例中，根据动作类别概率以及目标动作类别确定第一损失值，可以包括：

基于动作类别概率以及目标动作类别，通过第一损失函数确定第一地图样本所对应的第一子损失值，其中，第一地图样本属于N个地图样本中的一个地图样本，N为大于或等于1的整数；

本实施例中，介绍了一种确定第一损失值的具体实现方式，待训练多任务深度模型包括两个需要训练的部分，即待训练主任务网络以及待训练辅助任务网络，下面将对待训练主任务网络的训练过程进行说明。

具体地，在实际训练的过程中通常需要采用大量的训练样本，在得到第一地图样本对应的动作类别概率以及目标动作类别之后，再结合其他地图样本所对应的动作类别概率以及目标动作类别，计算得到第一损失值L₁。最小化第一损失值的目的为，使得主任务网络输出的动作类别概率尽量与真实玩家的目标动作类别一致。

以第一损失函数为类别交叉熵损失函数为例，可以采用如下第一损失函数计算第一损失值：

其中，L₁表示第一损失值，N表示地图样本的总数，n表示第n个地图样本，x表示地图样本，C表示动作类别的总数，c表示第c个动作类别，y_n,c表示第n个地图样本是否属于第c个动作类别，例如，y_n,c＝1表示第n个地图样本属于第c个动作类别，y_n,c＝0表示第n个地图样本不属于第c个动作类别，D_c(·)表示输入地图样本后得到的动作类别概率，且动作类别概率表示为0至1的值，D_c(x_n)表示输入第n个地图样本后得到属于第c个动作类别的概率。

基于第一损失函数可知，每个地图样本经过计算后得到一个第一子损失值，假设共有N个地图样本，则共有N个第一子损失值，将这N个第一子损失值加和处理，即可得到第一损失值。

再次，本申请实施例中，提供了一种确定第一损失值的具体实现方式，通过上述方式，可以根据N个地图样本所对应的动作类别概率以及目标动作类别，确定第一损失值，该第一损失值能够体现主任务模型的性能，且第一损失值作为确定目标损失值的一部分，还可以对多任务深度模型的训练起到重要作用，由此提升训练的可行性和可操作性。

可选地，在上述图3对应的各个实施例的基础上，本申请实施例提供的模型训练方法的另一个可选实施例中，根据预测地图以及第二地图样本确定第二损失值，可以包括：

基于预测地图以及第二地图样本，通过第二损失函数确定Q个像素点中每个像素点所对应的第二子损失，其中，Q为大于或等于1的整数，第二子损失用于表示像素点在至少一个通道上的像素值差异；

本实施例中，介绍了一种确定第二损失值的具体实现方式，待训练多任务深度模型包括两个需要训练的部分，即待训练主任务网络以及待训练辅助任务网络，下面将对待训练辅助任务网络的训练过程进行说明。

具体地，在实际训练的过程中通常需要采用大量的训练样本，在得到第一地图样本对应的预测地图以及第二地图样本之后，还可以结合其他地图样本所对应的预测地图以及M帧后的地图样本计算损失值。本申请以针对其中第一地图样本为例进行说明，其他的地图样本也可以采用类似方式计算相应的损失值，此处不做赘述。利用第一地图样本所对应的预测地图以及第二地图样本计算得到第二损失值L₂。最小化第二损失值的目的为，使得根据小地图以及后续M帧的动作类别预测得到的M帧后的小地图，尽量与真实的M帧后的小地图一致，比对方式可采用像素级的计算。即采用如下第而损失函数计算第二损失值：

其中，L₂表示第二损失值，Q表示地图样本中像素点的总数，p表示地图样本中的第p个像素点，y_p表示第二地图样本(即真实地图样本)中第p个像素，y′_p表示预测地图(即预测得到的地图)中第p个像素。

基于第二损失函数可知，地图样本中每个像素点经过计算后得到一个第二子损失值，假设共有Q个像素点，则共有Q个第二子损失值，将这Q个第二子损失值加和处理，即可得到第二损失值。第二损失值的目标是减少网络估计的小地图与真实的小地图之间像素点，在RGB三通道上的数值差异。

再次，本申请实施例中，提供了一种确定第二损失值的具体实现方式，通过上述方式，可以根据至少一个地图样本所对应的预测地图以及第二地图样本，确定第二损失值，该第二损失值能够体现辅助任务模型的性能，且第二损失值作为确定目标损失值的一部分，还可以对多任务深度模型的训练起到重要作用，由此提升训练的可行性和可操作性。

可选地，在上述图3对应的各个实施例的基础上，本申请实施例提供的模型训练方法的另一个可选实施例中，当满足模型训练条件时，则根据目标损失值对待训练多任务深度模型进行训练，得到多任务深度模型，可以包括：

当达到迭代次数阈值，或，目标损失值达到收敛时，确定满足模型训练条件；

根据更新后的模型参数获取多任务深度模型。

本实施例中，介绍了一种训练多任务深度模型的方式，在模型训练的过程中，需要通过最小化目标损失值来优化待训练多任务深度模型的模型参数，具体可以采用梯度后向传递的方法实现对模型参数的更新。当满足模型训练条件时，最近一次更新得到的模型参数作为多任务深度模型的模型参数，至此完成对待训练多任务深度模型的训练。具体地，模型训练条件至少包括以下两种条件：

条件一，判断当前迭代的次数是否达到迭代次数阈值。

待训练多任务深度模型在训练数据集上进行迭代，假设每个小批量(batch)包括128个样本(即128个地图及其动作类别)，在所有训练数据集上迭代一次称为1个轮次(epoch)。在每次迭代过程中，待训练多任务深度模型会计算批量损失相对于模型参数(即权重)的梯度，并相应地更新模型参数。假设迭代次数阈值为20，即迭代次数达到20轮次时，表示满足模型训练条件。

条件二，判断目标损失值是否收敛。

待训练多任务深度模型在训练数据集上进行迭代，假设目标损失值在一段时间内不再减小时，表示目标损失值达到收敛，即满足模型训练条件。可选地，还可以预先设定一个损失阈值，例如为0.01，当目标损失值小于或等于0.01时表示达到模型训练条件。

再次，本申请实施例中，提供了一种训练多任务深度模型的方式，通过上述方式，可根据实际情况设计不同的模型训练条件，当达到模型训练条件时，才将更新后的模型参数作为模型最终使用的模型参数。如果将是否达到迭代次数阈值作为模型训练完成的条件，则可以在合理且固定的迭代次数下完成训练，无需等待模型收敛。如果将损失值是否收敛作为模型训练完成的条件，则在模型收敛较快的情况下可更高效地完成模型训练，提升模型训练的效率。

结合上述介绍，下面将对本申请中游戏测试的方法进行介绍，请参阅图11，本申请实施例中游戏测试方法的一个实施例包括：

201、针对于待测试游戏，获取待测试游戏图像所对应的地图；

本实施例中，在游戏测试之前首先确定待测试游戏，本申请以待测试游戏为竞速类游戏为例进行介绍，在实际应用中，还可以针对射击类游戏、体育类游戏以及MOBA类游戏等进行自动化测试。游戏测试装置获取待测试游戏所对应的任意一帧待测试游戏图像，并从待测试游戏图像中提取对应的小地图。其中，游戏测试装置可以部署于计算机设备，该计算机设备可以是终端设备，也可以是服务器。

需要说明的是，本申请以任意一帧待测试游戏图像为例进行介绍，在游戏测试中，采用如步骤201至步骤204的方式得到多帧待测试游戏图像分别对应的操作反馈结果，且这些操作反馈结果共同用于生成游戏测试结果。

202、基于待测试游戏图像所对应的地图，通过多任务深度模型中的主任务网络获取动作类别概率，其中，多任务深度模型为基于上述实施例提供的模型训练的方法训练得到的；

本实施例中，使用多任务深度模型中训练好的主任务网络进行预测，具体为，游戏测试装置将待测试游戏图像所对应的小地图输入至主任务网络，通过该主任务网络输出该待测试游戏图像对应的动作类别概率。以5个动作类别为例，假设这5个动作类别分别为“左移”、“右移”、“左漂移”、“右漂移”和“无动作”，那么待测试游戏图像对应的动作类别概率为一个5维的向量，例如，动作类别概率为(0.6,0.1,0.1,0.1,0.1)，则表示属于“左移”动作类别的概率为0.6，属于“右移”动作类别的概率为0.1，属于“左漂移”动作类别的概率为0.1，属于“右漂移”动作类别的概率为0.1，属于“无动作”动作类别的概率为0.1。

203、根据动作类别概率确定目标动作类别；

本实施例中，游戏测试装置根据待测试游戏图像所对应的动作类别概率，确定目标动作类别。继续以步骤202提及的动作类别概率(0.6,0.1,0.1,0.1,0.1)为例，其中，0.6为动作类别概率中的最大值，该最大值所对应的动作类别为“左移”的动作类别，即确定目标动作类别为“左移”。

204、根据目标动作类别，控制终端设备执行相应的模拟操作，以得到操作反馈结果；

本实施例中，游戏测试装置根据确定的目标动作类别，控制终端设备执行相应的模拟操作。假设目标动作类别为“左移”，通过终端设备模拟真实玩家点击“左移”按键，由此控制游戏角色向左移动，游戏角色向左移动后即可得到对应的操作反馈结果。其中，操作反馈结果包含但不仅限于正常行驶，与其他游戏角色发生碰撞，收集到赛道上的奖励(例如虚拟金币或者加速道具等)以及碰撞到赛道上的障碍物。

205、根据操作反馈结果生成游戏测试结果。

本实施例中，游戏测试装置基于收集到的操作反馈结果，生成游戏测试结果，其中，游戏测试结果可以显示于游戏测试报告中。

为了便于说明，下面将以游戏测试报告为例进行说明，请参阅图12，图12为本申请实施例中游戏测试报告的一个示意图，如图所示，示例性地，在游戏测试报告中显示游戏名称(例如“飞车小游戏”)、游戏类型(例如“竞速类”游戏)、游戏版本(例如“V10.1.3”)、测试时间(例如“2020年5月10日14时35分08秒”)以及测试帧率(例如，每秒测试10帧游戏图像)。经过一段时间(例如半个小时)的测试后，生成具体的游戏测试结果。示例性地，游戏测试结果可以包括游戏图像帧号、执行的动作类别、操作反馈结果以及是否存在漏洞等。测试人员可以通过拖动滑动条查看更多的信息，图12仅为一个示意，不应理解为对本申请的限定。

本申请实施例中，提供了一种游戏测试的方法，首先针对于待测试游戏，获取待测试游戏图像所对应的地图，然后通过多任务深度模型中的主任务网络获取动作类别概率，再根据动作类别概率确定目标动作类别，最后根据目标动作类别，控制终端设备执行相应的模拟操作，以得到操作反馈结果，结合操作反馈结果生成游戏测试结果。通过上述方式，能够实现游戏的自动化测试，一方面无需与游戏环境进行大量的交互，从而提升测试效率。另一方面，主任务网络能够缓解模型过拟合的问题，从而提升测试的准确度。

结合上述介绍，下面将对本申请中模拟操作的方法进行介绍，请参阅图13，本申请实施例中模拟操作方法的一个实施例包括：

301、获取游戏图像中的目标地图；

本实施例中，本申请以模拟竞速类游戏中的操作为例进行介绍，在实际应用中，还可以针对射击类游戏、体育类游戏以及MOBA类游戏等进行模拟操作。模拟操作装置获取任意一帧游戏图像，并从游戏图像中提取对应的小地图，即获取目标地图。其中，模拟操作装置可以部署于计算机设备，该计算机设备可以是终端设备，也可以是服务器。

302、基于目标地图，通过多任务深度模型中的主任务网络获取动作类别概率，其中，多任务深度模型为基于上述实施例提供的模型训练的方法训练得到的；

本实施例中，使用多任务深度模型中训练好的主任务网络进行预测，具体为，模拟操作装置将游戏图像所对应的目标地图输入至主任务网络，通过该主任务网络输出该游戏图像对应的动作类别概率。以5个动作类别为例，假设这5个动作类别分别为“左移”、“右移”、“左漂移”、“右漂移”和“无动作”，那么待测试游戏图像对应的动作类别概率为一个5维的向量，例如，动作类别概率为(0.1,0.1,0.6,0.1,0.1)。则表示属于“左移”动作类别的概率为0.1，属于“右移”动作类别的概率为0.1，属于“左漂移”动作类别的概率为0.6，属于“右漂移”动作类别的概率为0.1，属于“无动作”动作类别的概率为0.1。

303、根据动作类别概率确定目标动作类别；

本实施例中，模拟操作装置根据目标地图所对应的动作类别概率，确定目标动作类别。继续以步骤302提及的动作类别概率(0.1,0.1,0.6,0.1,0.1)为例，其中，0.6为动作类别概率中的最大值，该最大值所对应的动作类别为“左漂移”的动作类别，即确定目标动作类别为“左漂移”。

304、根据目标动作类别，控制终端设备执行相应的模拟操作。

本实施例中，游戏测试装置根据确定的目标动作类别，控制终端设备执行相应的模拟操作。假设目标动作类别为“左漂移”，通过终端设备模拟真实玩家同时按下“左移”按键以及“漂移”按键，由此控制游戏角色进行左漂移。

需要说明的是，本申请以任意一帧游戏图像为例进行介绍，在游戏模拟操作中，采用如步骤301至步骤304的方式得到基于多帧连续游戏图像的模拟操作。

本申请实施例中，提供了一种模拟操作的方法，首先获取游戏图像中的目标地图，然后基于目标地图，通过多任务深度模型中的主任务网络获取动作类别概率，再根据动作类别概率确定目标动作类别，最后根据目标动作类别，控制终端设备执行相应的模拟操作。通过上述方式，能够实现游戏的模拟控制，一方面无需与游戏环境进行大量的交互，从而提升模拟控制效率，可在较短的时间内获取到模拟控制的反馈。另一方面，主任务网络能够缓解模型过拟合的问题，从而提升模拟操作的可行性。

下面对本申请中的模型训练装置进行详细描述，请参阅图14，图14为本申请实施例中模型训练装置的一个实施例示意图，模型训练装置40包括：

获取模块401，用于从游戏视频样本中获取第一地图样本、第二地图样本以及M个地图样本，其中，游戏视频样本至少包括三帧游戏图像，每帧游戏图像包括一个地图样本，第一地图样本与第二地图样本之间间隔M个地图样本，M为大于或等于1的整数；

获取模块401，还用于基于第一地图样本，通过待训练多任务深度模型所包括的待训练主任务网络获取动作类别概率，其中，第一地图样本对应于目标动作类别；

获取模块401，还用于基于第一地图样本以及M个动作类别，通过待训练多任务深度模型所包括的待训练辅助任务网络获取预测地图，其中，M个动作类别与M个地图样本具有对应关系；

训练模块402，用于根据动作类别概率、目标动作类别、预测地图以及第二地图样本，对待训练多任务深度模型进行训练，得到多任务深度模型，其中，多任务深度模型包括主任务网络以及辅助任务网络。

可选地，在上述图14所对应的实施例的基础上，本申请实施例提供的模型训练装置40的另一实施例中，

获取模块401，具体用于获取游戏视频样本；

根据第一游戏图像获取第一地图样本；

根据第二游戏图像获取第二地图样本。

获取模块401，具体用于基于第一地图样本，通过待训练多任务深度模型所包括的至少一个卷积层，获取图像卷积特征；

获取模块401，具体用于获取M个动作类别；

获取模块401，具体用于基于第一地图样本，通过待训练多任务深度模型所包括的第一卷积层，获取第一图像卷积特征；

训练模块402，具体用于根据动作类别概率以及目标动作类别确定第一损失值；

根据预测地图以及第二地图样本确定第二损失值；

训练模块402，具体用于基于动作类别概率以及目标动作类别，通过第一损失函数确定第一地图样本所对应的第一子损失值，其中，第一地图样本属于N个地图样本中的一个地图样本，N为大于或等于1的整数；

训练模块402，具体用于基于预测地图以及第二地图样本，通过第二损失函数确定Q个像素点中每个像素点所对应的第二子损失，其中，Q为大于或等于1的整数，第二子损失用于表示像素点在至少一个通道上的像素值差异；

训练模块402，具体用于当达到迭代次数阈值，或，目标损失值达到收敛时，确定满足模型训练条件；

根据更新后的模型参数获取多任务深度模型。

下面对本申请中的游戏测试装置进行详细描述，请参阅图15，图15为本申请实施例中游戏测试装置的一个实施例示意图，游戏测试装置50包括：

获取模块501，用于针对于待测试游戏，获取待测试游戏图像所对应的地图；

获取模块501，还用于基于待测试游戏图像所对应的地图，通过多任务深度模型中的主任务网络获取动作类别概率，其中，多任务深度模型为采用上述方法训练得到的；

确定模块502，用于根据动作类别概率确定目标动作类别；

模拟模块503，用于根据目标动作类别，控制终端设备执行相应的模拟操作，以得到操作反馈结果；

生成模块504，用于根据操作反馈结果生成游戏测试结果。

下面对本申请中的模拟操作装置进行详细描述，请参阅图16，图16为本申请实施例中模拟操作装置的一个实施例示意图，模拟操作装置60包括：

获取模块601，用于获取游戏图像中的目标地图；

获取模块601，还用于基于目标地图，通过多任务深度模型中的主任务网络获取动作类别概率，其中，多任务深度模型为采用上述方法训练得到的；

确定模块602，用于根据动作类别概率确定目标动作类别；

模拟模块603，用于根据目标动作类别，控制终端设备执行相应的模拟操作。

本申请实施例还提供了一种计算机设备，该计算机设备用于执行上述各个实施例中的方法，如图17所示，为了便于说明，仅示出了与本申请实施例相关的部分，具体技术细节未揭示的，请参照本申请实施例方法部分。该终端设备可以为包括手机、平板电脑、个人数字助理(personal digital assistant，PDA)、销售终端设备(point of sales，POS)、车载电脑等任意终端设备，以终端设备为手机为例：

图17示出的是与本申请实施例提供的终端设备相关的手机的部分结构的框图。参考图17，手机包括：射频(radio frequency，RF)电路710、存储器720、输入单元730、显示单元740、传感器750、音频电路760、无线保真(wireless fidelity，WiFi)模块770、处理器780、以及电源790等部件。本领域技术人员可以理解，图17中示出的手机结构并不构成对手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图17对手机的各个构成部件进行具体的介绍：

RF电路710可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器780处理；另外，将设计上行的数据发送给基站。通常，RF电路710包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(low noiseamplifier，LNA)、双工器等。此外，RF电路710还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(globalsystem of mobile communication，GSM)、通用分组无线服务(general packet radioservice，GPRS)、码分多址(code division multiple access，CDMA)、宽带码分多址(wideband code division multiple access,WCDMA)、长期演进(long term evolution，LTE)、电子邮件、短消息服务(short messaging service，SMS)等。

存储器720可用于存储软件程序以及模块，处理器780通过运行存储在存储器720的软件程序以及模块，从而执行手机的各种功能应用以及数据处理。存储器720可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器720可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元730可用于接收输入的数字或字符信息，以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地，输入单元730可包括触控面板731以及其他输入设备732。触控面板731，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板731上或在触控面板731附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触控面板731可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器780，并能接收处理器780发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板731。除了触控面板731，输入单元730还可以包括其他输入设备732。具体地，其他输入设备732可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元740可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元740可包括显示面板741，可选的，可以采用液晶显示器(liquid crystaldisplay，LCD)、有机发光二极管(organic light-emitting diode，OLED)等形式来配置显示面板741。进一步的，触控面板731可覆盖显示面板741，当触控面板731检测到在其上或附近的触摸操作后，传送给处理器780以确定触摸事件的类型，随后处理器780根据触摸事件的类型在显示面板741上提供相应的视觉输出。虽然在图17中，触控面板731与显示面板741是作为两个独立的部件来实现手机的输入和输入功能，但是在某些实施例中，可以将触控面板731与显示面板741集成而实现手机的输入和输出功能。

手机还可包括至少一种传感器750，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板741的亮度，接近传感器可在手机移动到耳边时，关闭显示面板741和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路760、扬声器761，传声器762可提供用户与手机之间的音频接口。音频电路760可将接收到的音频数据转换后的电信号，传输到扬声器761，由扬声器761转换为声音信号输出；另一方面，传声器762将收集的声音信号转换为电信号，由音频电路760接收后转换为音频数据，再将音频数据输出处理器780处理后，经RF电路710以发送给比如另一手机，或者将音频数据输出至存储器720以便进一步处理。

WiFi属于短距离无线传输技术，手机通过WiFi模块770可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图17示出了WiFi模块770，但是可以理解的是，其并不属于手机的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器780是手机的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器720内的软件程序和/或模块，以及调用存储在存储器720内的数据，执行手机的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器780可包括一个或多个处理单元；可选的，处理器780可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器780中。

手机还包括给各个部件供电的电源790(比如电池)，可选的，电源可以通过电源管理系统与处理器780逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

尽管未示出，手机还可以包括摄像头、蓝牙模块等，在此不再赘述。

在本申请实施例中，该终端设备所包括的处理器780还具有以下功能：

针对于待测试游戏，获取待测试游戏图像所对应的地图；

基于待测试游戏图像所对应的地图，通过多任务深度模型中的主任务网络获取动作类别概率；

根据动作类别概率确定目标动作类别；

根据操作反馈结果生成游戏测试结果。

获取游戏图像中的目标地图；

基于目标地图，通过多任务深度模型中的主任务网络获取动作类别概率；

根据动作类别概率确定目标动作类别；

根据目标动作类别，控制终端设备执行相应的模拟操作。

上述实施例中由计算机设备所执行的步骤可以基于该图17所示的终端设备结构。

图18是本申请实施例提供的一种服务器结构示意图，该服务器800可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上CPU 822(例如，一个或一个以上处理器)和存储器832，一个或一个以上存储应用程序842或数据844的存储介质830(例如一个或一个以上海量存储设备)。其中，存储器832和存储介质830可以是短暂存储或持久存储。存储在存储介质830的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器822可以设置为与存储介质830通信，在服务器800上执行存储介质830中的一系列指令操作。

服务器800还可以包括一个或一个以上电源826，一个或一个以上有线或无线网络接口850，一个或一个以上输入输出接口858，和/或，一个或一个以上操作系统841，例如Windows Server^TM，Mac OS X^TM，Unix^TM,Linux^TM，FreeBSD^TM等等。

在本申请实施例中，该服务器所包括的CPU 822还具有以下功能：

针对于待测试游戏，获取待测试游戏图像所对应的地图；

根据动作类别概率确定目标动作类别；

根据操作反馈结果生成游戏测试结果。

获取游戏图像中的目标地图；

根据动作类别概率确定目标动作类别；

根据目标动作类别，控制终端设备执行相应的模拟操作。

上述实施例中由计算机设备所执行的步骤可以基于该图18所示的服务器结构。

本申请实施例中还提供一种计算机可读存储介质，该计算机可读存储介质中存储有计算机程序，当其在计算机上运行时，使得计算机执行如上述各个实施例的步骤。

本申请实施例中还提供一种包括程序的计算机程序产品，当其在计算机上运行时，使得计算机执行如上述各个实施例的步骤。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种模型训练方法，其特征在于，包括：

从游戏视频样本中获取第一地图样本、第二地图样本以及M个地图样本，其中，所述游戏视频样本至少包括三帧游戏图像，每帧游戏图像包括一个地图样本，所述第一地图样本与所述第二地图样本之间间隔所述M个地图样本，所述M为大于或等于1的整数；

基于所述第一地图样本，通过待训练多任务深度模型所包括的待训练主任务网络获取动作类别概率，其中，所述第一地图样本对应于目标动作类别；

基于所述第一地图样本以及M个动作类别，通过所述待训练多任务深度模型所包括的待训练辅助任务网络获取预测地图，其中，所述M个动作类别与所述M个地图样本具有对应关系；

根据所述动作类别概率、所述目标动作类别、所述预测地图以及所述第二地图样本，对所述待训练多任务深度模型进行训练，得到多任务深度模型，其中，所述多任务深度模型包括主任务网络以及辅助任务网络。

2.根据权利要求1所述的模型训练方法，其特征在于，所述从游戏视频样本中获取第一地图样本、第二地图样本以及M个地图样本，包括：

获取所述游戏视频样本；

从所述游戏视频样本中获取第一游戏图像以及第二游戏图像，其中，所述第一游戏图像与所述第二游戏图像之间间隔M个游戏图像；

根据所述第一游戏图像获取所述第一地图样本；

根据所述第二游戏图像获取所述第二地图样本。

3.根据权利要求1所述的模型训练方法，其特征在于，所述基于所述第一地图样本，通过待训练多任务深度模型所包括的待训练主任务网络获取动作类别概率，包括：

基于所述第一地图样本，通过所述待训练多任务深度模型所包括的至少一个卷积层，获取图像卷积特征；

基于所述图像卷积特征，通过所述待训练主任务网络所包括的至少一个全连接层，获取所述动作类别概率。

4.根据权利要求1所述的模型训练方法，其特征在于，所述基于所述第一地图样本以及M个动作类别，通过所述待训练多任务深度模型所包括的待训练辅助任务网络获取预测地图，包括：

获取所述M个动作类别；

基于所述图像卷积特征，通过所述待训练辅助任务网络所包括的第一全连接层，获取第一特征向量；

基于所述M个动作类别，通过所述待训练辅助任务网络所包括的第二全连接层，获取第二特征向量；

基于所述第一特征向量以及所述第二特征向量，通过所述待训练辅助任务网络所包括的第三全连接层获取第三特征向量；

基于所述第三特征向量，通过所述待训练辅助任务网络所包括的转换层获取特征矩阵；

基于所述特征矩阵，通过所述待训练辅助任务网络所包括的至少一个上采样层，获取所述预测地图。

5.根据权利要求4所述的模型训练方法，其特征在于，所述基于所述第一地图样本，通过所述待训练多任务深度模型所包括的至少一个卷积层，获取图像卷积特征，包括：

基于所述第一地图样本，通过所述待训练多任务深度模型所包括的第一卷积层，获取第一图像卷积特征；

基于所述第一图像卷积特征，通过所述待训练多任务深度模型所包括的第二卷积层，获取第二图像卷积特征；

基于所述第二图像卷积特征，通过所述待训练多任务深度模型所包括的第三卷积层，获取图像卷积特征；

所述基于所述特征矩阵，通过所述待训练辅助任务网络所包括的至少一个上采样层，获取所述预测地图，包括：

基于所述特征矩阵，通过所述待训练辅助任务网络所包括的第一上采样层，获取第一图像特征；

基于所述第一图像特征以及所述第二图像卷积特征，通过所述待训练辅助任务网络所包括的第二上采样层，获取第二图像特征；

基于所述第二图像特征以及所述第一图像卷积特征，通过所述待训练辅助任务网络所包括的第三上采样层，获取所述预测地图。

6.根据权利要求1所述的模型训练方法，其特征在于，根据所述动作类别概率、所述目标动作类别、所述预测地图以及所述第二地图样本，对所述待训练多任务深度模型进行训练，得到多任务深度模型，包括：

根据所述动作类别概率以及所述目标动作类别确定第一损失值；

根据所述预测地图以及所述第二地图样本确定第二损失值；

基于所述第一损失值以及所述第二损失值，采用目标损失函数确定目标损失值；

当满足模型训练条件时，则根据所述目标损失值对所述待训练多任务深度模型进行训练，得到所述多任务深度模型。

7.根据权利要求6所述的方法，其特征在于，所述根据所述动作类别概率以及所述目标动作类别确定第一损失值，包括：

基于所述动作类别概率以及所述目标动作类别，通过第一损失函数确定所述第一地图样本所对应的第一子损失值，其中，所述第一地图样本属于N个地图样本中的一个地图样本，所述N为大于或等于1的整数；

当获取到所述N个地图样本中每个地图样本所对应的第一子损失值时，根据所述N个地图样本中每个地图样本所对应的第一子损失值，确定所述第一损失值。

8.根据权利要求6所述的模型训练方法，其特征在于，所述根据所述预测地图以及所述第二地图样本确定第二损失值，包括：

基于所述预测地图以及所述第二地图样本，通过第二损失函数确定Q个像素点中每个像素点所对应的第二子损失，其中，所述Q为大于或等于1的整数，所述第二子损失用于表示像素点在至少一个通道上的像素值差异；

当获取到Q个第二子损失时，根据所述Q个第二子损失确定所述第二损失值。

9.根据权利要求6所述的模型训练方法，其特征在于，所述当满足模型训练条件时，则根据所述目标损失值对所述待训练多任务深度模型进行训练，得到所述多任务深度模型，包括：

当达到迭代次数阈值，或，所述目标损失值达到收敛时，确定满足所述模型训练条件；

采用所述目标损失值对所述待训练多任务深度模型的模型参数进行更新，得到更新后的模型参数；

根据所述更新后的模型参数获取所述多任务深度模型。

10.一种游戏测试方法，其特征在于，包括：

针对于待测试游戏，获取待测试游戏图像所对应的地图；

基于所述待测试游戏图像所对应的地图，通过多任务深度模型中的主任务网络获取动作类别概率，其中，所述多任务深度模型为采用权利要求1至9中任意一项模型训练方法训练得到的；

根据所述动作类别概率确定目标动作类别；

根据所述目标动作类别，控制终端设备执行相应的模拟操作，以得到操作反馈结果；

根据所述操作反馈结果生成游戏测试结果。

11.一种模拟操作的方法，其特征在于，包括：

获取游戏图像中的目标地图；

基于所述目标地图，通过多任务深度模型中的主任务网络获取动作类别概率，其中，所述多任务深度模型为采用权利要求1至9中任意一项模型训练方法训练得到的；

根据所述动作类别概率确定目标动作类别；

根据所述目标动作类别，控制终端设备执行相应的模拟操作。

12.一种模型训练装置，其特征在于，包括：

获取模块，用于从游戏视频样本中获取第一地图样本、第二地图样本以及M个地图样本，其中，所述游戏视频样本至少包括三帧游戏图像，每帧游戏图像包括一个地图样本，所述第一地图样本与所述第二地图样本之间间隔M个地图样本，所述M为大于或等于1的整数；

所述获取模块，还用于基于所述第一地图样本，通过待训练多任务深度模型所包括的待训练主任务网络获取动作类别概率，其中，所述第一地图样本对应于目标动作类别；

所述获取模块，还用于基于所述第一地图样本以及M个动作类别，通过所述待训练多任务深度模型所包括的待训练辅助任务网络获取预测地图，其中，所述M个动作类别与所述M个地图样本具有对应关系；

训练模块，用于根据所述动作类别概率、所述目标动作类别、所述预测地图以及所述第二地图样本，对所述待训练多任务深度模型进行训练，得到多任务深度模型，其中，所述多任务深度模型包括主任务网络以及辅助任务网络。

13.一种游戏测试装置，其特征在于，包括：

所述获取模块，还用于基于所述待测试游戏图像所对应的地图，通过多任务深度模型中的主任务网络获取动作类别概率，其中，所述多任务深度模型为采用权利要求1至9中任意一项模型训练方法训练得到的；

确定模块，用于根据所述动作类别概率确定目标动作类别；

模拟模块，用于根据所述目标动作类别，控制终端设备执行相应的模拟操作，以得到操作反馈结果；

生成模块，用于根据所述操作反馈结果生成游戏测试结果。

14.一种计算机设备，其特征在于，包括：存储器、收发器、处理器以及总线系统；

其中，所述存储器用于存储程序；

所述处理器用于执行所述存储器中的程序，包括如权利要求1至9中任一项所述的方法，或，执行如权利要求10所述的方法，或，执行如权利要求11所述的方法；

所述总线系统用于连接所述存储器以及所述处理器，以使所述存储器以及所述处理器进行通信。

15.一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行如权利要求1至9中任一项所述的方法，或，执行如权利要求10所述的方法，或，执行如权利要求11所述的方法。