CN112742031A

CN112742031A - 模型训练方法、游戏测试方法、ai角色训练方法及装置

Info

Publication number: CN112742031A
Application number: CN202010193913.5A
Authority: CN
Inventors: 黄超
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-03-18
Filing date: 2020-03-18
Publication date: 2021-05-04
Anticipated expiration: 2040-03-18
Also published as: CN112742031B

Abstract

本申请公开了一种应用于人工智能领域的模型训练方法、游戏测试方法及相关装置。本申请包括：获取目标游戏所对应的游戏录制样本；基于游戏录制样本中的第一图像，通过待训练生成网络模型获取目标对象所对应的第一预测动作；根据第一预测动作以及游戏环境信息，生成第一预测图像；基于第一预测图像、第一预测动作、第二图像以及第二图像所对应的第二动作，对待训练生成网络模型进行训练，以获取生成网络模型。本申请基于游戏策略，将模拟得到的动作与游戏中的环境信息进行交互，以此生成新的游戏图像，从而有利于遍历更多的游戏场景，由此提升了模型的稳定性。

Description

模型训练方法、游戏测试方法、AI角色训练方法及装置

技术领域

本申请涉及人工智能领域，尤其涉及模型训练方法、游戏测试方法、AI角色训练方法及装置。

背景技术

如今，人工智能(Artificial Intelligence，AI)这一词汇在科技领域中的提及频率日益增长，而在游戏领域，AI开发已经成为了游戏研发中最具挑战性的任务之一，为了提升游戏中AI角色的效果，研发人员也越发关注样本数据的质量和数量。

目前，可以基于模仿学习算法，利用深度网络来模拟游戏中的AI角色。首先，需要游戏录制样本，保留游戏过程中的图像和对应的动作，随后将游戏过程中的图像输入到深度网络中，输出对应的动作标签，基于动作标签以及实际动作，通过梯度后向传递方法更新深度网络的网络参数。

然而，录制的游戏录制样本中包含的游戏图像有限，能够涵盖的游戏场景也有限，因此，训练得到的深度网络缺乏对各类场景的理解能力。若AI角色进入录制过程中未出现过的游戏场景，则容易做出错误的判断，可见，深度网络的稳定性较差。

发明内容

本申请实施例提供了一种模型训练方法、游戏测试方法、AI角色训练方法及装置，可以从录制的游戏录制样本中学习到游戏策略，并基于游戏策略，将模拟得到的动作与游戏中的环境信息进行交互，以此生成新的游戏图像，从而有利于遍历更多的游戏场景，由此提升了模型的稳定性。

有鉴于此，本申请第一方面提供一种模型训练方法，包括：

获取目标游戏所对应的游戏录制样本，其中，游戏录制样本包括至少两个样本数据，每个样本数据包括游戏图像以及游戏图像中目标对象的动作；

基于游戏录制样本中的第一图像，通过待训练生成网络模型获取目标对象所对应的第一预测动作；

根据第一预测动作以及游戏环境信息，生成第一预测图像；

基于第一预测图像、第一预测动作、第二图像以及第二图像所对应的第二动作，对待训练生成网络模型进行训练，以获取生成网络模型，其中，第二图像为游戏录制样本中图像，第二图像与第一预测图像具有对应关系，第二动作为第二图像中目标对象的动作。

本申请第二方面提供一种游戏测试方法，包括：

获取目标游戏的初始游戏图像，其中，初始游戏图像包括目标对象；

基于初始游戏图像，通过生成网络模型获取目标对象所对应的第一模拟动作，其中，生成网络模型为采用权利要求1至8中任意一项的模型训练得到的；

根据第一模拟动作以及游戏环境信息，生成第一预测图像，其中，游戏环境信息包括在目标游戏中设置的游戏参数；

基于第一预测图像，通过生成网络模型获取目标对象所对应的第二模拟动作；

根据第二模拟动作以及游戏环境信息，生成第二预测图像，其中，第二预测图像用于预测目标对象在下一个游戏画面中的动作；

根据第一预测图像以及第二预测图像，生成游戏测试信息。

本申请第三方面提供一种AI角色训练方法，包括：

获取游戏录制样本，其中，游戏录制样本包括至少两个样本数据，每个样本数据包括游戏图像以及游戏图像中AI角色的动作；

基于游戏录制样本中的第一图像，通过AI角色输出第一预测动作；

根据第一预测动作以及游戏环境信息，生成第一预测图像；

基于第一预测图像、第一预测动作、第二图像以及第二图像所对应的第二动作，对AI角色进行训练，其中，第二图像为游戏录制样本中图像，第二图像与第一预测图像具有对应关系，第二动作为第二图像中目标对象的动作。

本申请第四方面提供一种模型训练装置，包括：

获取模块，用于获取目标游戏所对应的游戏录制样本，其中，游戏录制样本包括至少两个样本数据，每个样本数据包括游戏图像以及游戏图像中目标对象的动作；

获取模块，还用于基于游戏录制样本中的第一图像，通过待训练生成网络模型获取目标对象所对应的第一预测动作；

生成模块，用于根据第一预测动作以及游戏环境信息，生成第一预测图像；

训练模块，用于基于第一预测图像、第一预测动作、第二图像以及第二图像所对应的第二动作，对待训练生成网络模型进行训练，以获取生成网络模型，其中，第二图像为游戏录制样本中图像，第二图像与第一预测图像具有对应关系，第二动作为第二图像中目标对象的动作。

在一种可能的设计中，在本申请实施例的第四方面的一种实现方式中，模型训练装置还包括截取模块以及处理模块；

获取模块，还用于获取目标游戏所对应的游戏录制样本之后，从目标游戏所对应的游戏录制样本中获取第一待处理图像以及第二待处理图像；

截取模块，用于从第一待处理图像中截取对应的第一图像区域，其中，第一图像区域包括目标对象；

截取模块，还用于从第二待处理图像中截取对应的第二图像区域，其中，第二图像区域包括目标对象；

处理模块，用于对第一图像区域进行缩放处理，得到游戏录制样本中的第一图像；

处理模块，还用于对第二图像区域进行缩放处理，得到游戏录制样本中的第二图像。

在一种可能的设计中，在本申请实施例的第四方面的另一实现方式中，

获取模块，具体用于基于游戏录制样本中的第一图像，通过待训练生成网络模型获取动作分布向量，其中，动作分布向量包括M个概率值，M为大于或等于2的整数；

根据动作分布向量确定M个概率值中的最大概率值；

将最大概率值所对应的动作确定为目标对象所对应的第一预测动作。

训练模块，具体用于基于第一预测图像、第一预测动作、第二图像以及第二图像所对应的第二动作，通过待训练判别网络模型获取样本分值；

采用第一损失函数以及样本分值，确定第一图像所对应的第一损失值；

当获取到N个损失值时，对待训练生成网络模型的模型参数进行更新，其中，N个损失值包括第一损失值，N为大于或等于1的整数；

若满足模型训练条件，则根据待训练生成网络模型更新后的模型参数获取生成网络模型。

获取模块，具体用于基于第一预测图像以及第二图像，通过待训练判别网络模型获取第一特征向量；

基于第一预测动作以及第二图像所对应的第二动作，通过待训练判别网络模型获取第二特征向量；

根据第一特征向量以及第二特征向量，生成目标特征向量；

基于目标特征向量，通过待训练判别网络模型获取样本分值。

获取模块，还用于基于第一预测图像，通过待训练生成网络模型获取目标对象所对应的第二预测动作；

获取模块，还用于基于第一图像、第一图像所对应的第一动作、第一预测图像以及第二预测动作，通过待训练判别网络模型获取评判分值；

训练模块，还用于采用第二损失函数以及评判分值，对待训练判别网络模型进行训练，以获取判别网络模型。

获取模块，具体用于基于第一图像以及第一图像所对应的第一动作，通过待训练判别网络模型获取评判分值中的第一评判分值；

基于第一预测图像以及第二预测动作，通过待训练判别网络模型获取评判分值中的第二评判分值；

采用第二损失函数以及评判分值，对待训练判别网络模型进行训练，以获取判别网络模型，包括：

采用第二损失函数、第一评判分值以及第二评判分值，对待训练判别网络模型进行训练，以获取判别网络模型。

训练模块，具体用于采用第二损失函数以及第一评判分值，确定第二损失值；

采用第二损失函数以及第二评判分值，确定第四损失值；

当获取到P个损失值以及Q个损失值时，对待训练判别网络模型的模型参数进行更新，其中，P个损失值包括第二损失值，Q个损失值包括第四损失值，P为大于或等于1的整数，Q为大于或等于1的整数；

若满足模型训练条件，则根据待训练判别网络模型更新后的模型参数获取判别网络模型。

本申请第五方面提供一种游戏测试装置，包括：

获取模块，用于获取目标游戏的初始游戏图像，其中，初始游戏图像包括目标对象；

获取模块，还用于基于初始游戏图像，通过生成网络模型获取目标对象所对应的第一模拟动作，其中，生成网络模型为通过上述第四方面的任一模型训练装置训练得到的；

生成模块，用于根据第一模拟动作以及游戏环境信息，生成第一预测图像，其中，游戏环境信息包括在目标游戏中设置的游戏参数；

获取模块，还用于基于第一预测图像，通过生成网络模型获取目标对象所对应的第二模拟动作；

生成模块，还用于根据第二模拟动作以及游戏环境信息，生成第二预测图像，其中，第二预测图像用于预测目标对象在下一个游戏画面中的动作；

生成模块，还用于根据第一预测图像以及第二预测图像，生成游戏测试信息。

本申请第六方面提供一种AI角色训练装置，包括：

获取模块，用于获取游戏录制样本，其中，游戏录制样本包括至少两个样本数据，每个样本数据包括游戏图像以及游戏图像中AI角色的动作；

输出模块，用于基于游戏录制样本中的第一图像，通过AI角色输出第一预测动作；

训练模块，用于基于第一预测图像、第一预测动作、第二图像以及第二图像所对应的第二动作，对AI角色进行训练，其中，第二图像为游戏录制样本中图像，第二图像与第一预测图像具有对应关系，第二动作为第二图像中目标对象的动作。

本申请的第七方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述各方面所述的方法。

从以上技术方案可以看出，本申请实施例具有以下优点：

本申请实施例中，提供了一种模型训练的方法，首先可以获取到目标游戏所对应的包括至少两个样本数据的游戏录制样本，其中每个样本数据包括游戏图像以及游戏图像中目标对象的动作，然后然后基于该游戏录制样本中的第一图像，通过待训练生成网络模型获取目标对象所对应的第一预测动作，再根据第一预测动作以及游戏环境信息，生成第一预测图像，进一步地，基于第一预测图像、第一预测动作、第二图像以及第二图像所对应的第二动作，对待训练生成网络模型进行训练，以获取生成网络模型，该第二图像为游戏录制样本中图像，第二图像与第一预测图像具有对应关系，且第二动作为第二图像中目标对象的动作。通过上述方式，从录制的游戏录制样本中学习到游戏策略，并基于游戏策略，将模拟得到的动作与游戏中的环境信息进行交互，以此生成新的游戏图像，从而有利于遍历更多的游戏场景，由此提升了模型的稳定性。

附图说明

图1为本申请实施例中游戏测试系统的一个环境示意图；

图2为本申请实施例中模型训练方法的一个流程示意图；

图3为本申请实施例中模型训练的方法一个实施例示意图；

图4为本申请实施例中游戏录制样本所包括的动作类型的一个实施例示意图；

图5为本申请实施例中游戏图像中所包括的动作类型的一个实施例示意图；

图6为本申请实施例中基于预测动作生成预测图像的一个实施例示意图；

图7为本申请实施例中获取第一图像以及第二图像一个实施例示意图；

图8为本申请实施例中待训练生成网络模型的一个结构示意图；

图9为本申请实施例中待训练判别网络模型的一个结构示意图；

图10为本申请实施例中游戏测试的方法一个实施例示意图；

图11为本申请实施例中初始游戏图像所包括不同动作类型的一个实施例示意图；

图12为本申请实施例中基于预测动作生成预测图像的另一个实施例示意图；

图13为本申请实施例中基于游戏的AI角色训练方法的一个实施例示意图；

图14为本申请实施例中模型训练装置的一个实施例示意图；

图15为本申请实施例中游戏测试装置的一个实施例示意图；

图16为本申请实施例中AI角色训练装置的一个实施例示意图；

图17为本申请实施例中服务器的一个实施例示意图。

具体实施方式

本申请实施例提供了一种模型训练方法、游戏测试方法、AI角色训练方法及装置，用于从录制的游戏录制样本中学习到游戏策略，并基于游戏策略，将模拟得到的动作与游戏中的环境信息进行交互，以此生成新的游戏图像，从而有利于遍历更多的游戏场景，由此提升了模型的稳定性。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“对应于”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应理解，本申请可以应用于对游戏测试场景，具体地，在游戏测试场景中，为了能够节省人力成本，通常是由人工智能(Artificial Intelligence，AI)角色模拟真实玩家操作，再根据模拟结果生成测试报告。其中，AI角色的动作是通过生成网络模型得到的，也就是说，生成网络模型可以通过AI角色的当前时刻动作预测下一时刻可能执行的动作，或者，通过生成网络模型预测AI角色在下一时刻可能按下的按钮，在游戏测试过程中，利用AI模型输出AI角色的动作，在基于输出的动作生成对应的游戏画面，最后对生成的一系列游戏画面进行分析，例如，通过游戏画面可以反馈游戏中的某个障碍没通过，或者游戏中的某个怪物未被打死等信息，然后汇总这些信息，从而生成游戏测试信息，最后通过游戏测试信息再去调整游戏策略，即调整游戏环境信息(例如关卡难易度，怪物血量以及个数等)。因此，对游戏AI模型进行训练有利于遍历更多的游戏场景，由此提升了模型的稳定性，此外还可以提升游戏测试的稳定性以及准确度。

具体地，以应用于酷跑类游戏为一个示例进行说明，跑酷类游戏通常是设定好一个通过过程，对于整个关卡而言，任何一次失误都会导致闯关失败，随着关卡难度的提升，在关卡内设置的障碍难度也会提升。不同类型的游戏角色通常会赋予不同的能力，比如，速度型角色可以增强冲锋以及加速带和加速能力提升。攻击型角色可以增强护盾，对攻击者等的防御能力。技巧型角色可以增强攻击道具。全能型角色可以增强护盾、开局冲锋和加速能力。此外，随着游戏内容的不断丰富，除了常规的游戏角色以外，还可以为每个游戏角色配置一个宠物，重复可以能为玩家提供额外的效果持续时间，金币加成，分数加成等效果，在游戏测试中，可以仅对AI角色进行模拟，也可以同时模拟AI角色以及该AI角色携带的宠物。由于宠物的类型较多，因此，测试过程中可以通过随机分配宠物以及该宠物的属性来生成随机样本，从而提升测试的泛化能力。

酷跑类游戏的示例仅用于理解本方案，可以理解的是，本方案中游戏可以包括但不限于跑酷类游戏，竞速类游戏，消除类游戏，卡牌类游戏，大型多人在线角色扮演游戏(Role-playing game，RPG)，多人在线战术竞技游戏(Multiplayer Online Battle Arena，MOBA)，竞速游戏(Racing Game，RCG)，音乐游戏(Music Game，MSC)，体育运动类游戏(sportgame，SPG)以及非对称性对抗竞技类(Asymmetrical Battle Arena)游戏，具体游戏类型应当结合测试任务进行设定。

为了在上述各种场景中，提升游戏测试的准确度，本申请提出了一种游戏测试的方法，该方法应用于图1所示的游戏测试系统，请参阅图1，图1为本申请实施例中游戏测试系统的一个环境示意图，如图所示，游戏测试系统中包括服务器和终端设备，在服务器侧对模型进行训练，从而得到能够模拟真实玩家操作的AI角色，在客户端上展示AI角色在游戏过程中生成的游戏画面。

需要说明的是，图1中的服务器可以是一台服务器或多台服务器组成的服务器集群或云计算中心等，具体此处均不限定。客户端具体部署与终端设备，终端设备可以为图1中示出的平板电脑、笔记本电脑、掌上电脑、手机、个人电脑(personal computer，PC)及语音交互设备。

终端设备和服务器之间可以通过无线网络、有线网络或可移动存储介质进行通信。其中，上述的无线网络使用标准通信技术和/或协议。无线网络通常为因特网、但也可以是任何网络，包括但不限于蓝牙、局域网(Local Area Network，LAN)、城域网(Metropolitan Area Network，MAN)、广域网(Wide Area Network，WAN)、移动、专用网络或者虚拟专用网络的任何组合)。在一些实施例中，可以使用定制或专用数据通信技术取代或者补充上述数据通信技术。可移动存储介质可以为通用串行总线(Universal Serial Bus，USB)闪存盘、移动硬盘或其他可移动存储介质等。

虽然图1中仅示出了五个终端设备和一个服务器，但应当理解，图1中的示例仅用于理解本方案，具体终端设备和服务器的数量均应当结合实际情况灵活确定。

由于本申请实施例是应用于人工智能领域的，在对本申请实施例提供的模型训练的方法开始介绍之前，先对人工智能领域的一些基础概念进行介绍。AI是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

随着人工智能技术研究和进步，人工智能技术在多种方向展开研究，机器学习(Machine Learning，ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

基于此，下面将介绍如何训练用于输出AI角色动作的生成网络模型，请参阅图2，图2为本申请实施例中模型训练方法的一个流程示意图，如图所示，本申请提供的基于工人工智能的模型训练流程可以分为四个部分，分别为获取视频样本、生成预测样本、训练判别网络模型以及训练生成网络模型。下面将针对各个部分的功能和流程进行介绍，具体地：

步骤S1中，获取游戏录制样本，例如，录制跑酷类游戏的视频，在视频中包括真实玩家所控制的游戏角色；

步骤S2中，将步骤S1所获取的游戏录制样本作为待训练生成网络模型的输入，待训练生成模型网络输出预测样本，预测样本包括对每帧游戏画面中游戏角色预测到的动作；

步骤S3中，将步骤S2获取的预测样本作为待训练判别模型网络的输入，待训练判别模型网络输出样本分值以及评判分值，通过待训练判别模型网络对应的损失函数以及评判分值对待训练判别网络模型进行训练，在训练完成后，得到判别网络模型；

步骤S4中，采用步骤S3获取的样本分值以及待训练生成网络模型对应的损失函数，对待训练生成网络模型进行训练，在训练完成后，得到生成网络模型。

本申请实施例提供的方案涉及人工智能的机器学习技术，结合上述介绍，下面将对本申请中模型训练的方法进行介绍，请参阅图3，图3为本申请实施例中模型训练的方法一个实施例示意图，如图所示，本申请实施例中模型训练的方法一个实施例包括：

101、获取目标游戏所对应的游戏录制样本，其中，游戏录制样本包括至少两个样本数据，每个样本数据包括游戏图像以及游戏图像中目标对象的动作；

本实施例中，模型训练装置可以先获取到目标游戏所对应的游戏录制样本，该游戏录制样本包括至少两个样本数据，并且每个样本数据中具体包括游戏图像以及游戏图像中目标对象的动作。可以理解的是，目标游戏包括但不限于跑酷类游戏、竞速类游戏以及卡牌类游戏，为了便于介绍，本申请以跑酷类游戏为例进行说明，然而这不应理解为对本申请的限定。其次，游戏录制样本为线上采集的样本，比如随机获取十万个真实玩家的游戏对局视频作为游戏录制样本，又或者由游戏测试员在一定的时间内进行游戏，从而生成游戏录制样本。

具体地，游戏录制样本可以是通过人工录制所录制的游戏样本，以跑酷类游戏作为一个示例进行说明，游戏录制样本中的游戏按钮可以包括跳跃以及下蹲，还可以包括攻击以及拾取物品等高级操作。以竞速类游戏作为另一个示例进行说明，游戏录制样本中的游戏按钮可以包括直行，向左转，向右转以及漂移，可以理解的是，游戏录制样本中的具体游戏按钮应当结合实际情况灵活确定。进一步地，而游戏录制样本的频率可以为一秒10帧，也可以为一秒5帧、6帧以及7帧，为了便于理解，本实施例中以游戏录制样本的频率为一秒10帧作为示例进行说明，然而这不应理解为对本申请的限定。

为了进一步理解本方案，下面将以应用于跑酷类游戏，且跑酷类游戏对应的游戏录制样本中包括三种动作，该三种动作分别为跳跃、下蹲以及无动作(无动作表示为游戏图像中目标对象会一直按照一定速度向前走)作为一个示例进行说明，在人工录制跑酷类游戏的过程中，以一秒10帧的频率保存跑酷类游戏对应的游戏图像，以及跑酷类游戏的游戏图像中目标对象的动作。具体地，请参阅图4，图4为本申请实施例中游戏录制样本所包括的动作类型的一个实施例示意图，如图所示，图中的人物即为目标对象，在图4中(A)图示出的动作类型为“无动作”，此时目标对象将继续以一定的速度向前进，可以将“无动作”的标签设置为1，也可以设置为特征向量的形式，比如(1,0,0)。在图4中(B)图示出的动作类型为“跳跃”，此时目标对象将以一定的高度向上跳起，同时会继续按照一定的速度向前进，可以将“跳跃”的标签设置为2，也可以设置为特征向量的形式，比如(0,1,0)。在图4中(C)图示出的动作类型为“下蹲”，此时目标对象将以一定的高度蹲下，同时会继续按照一定的速度向前进，可以将“下蹲”的标签设置为3，也可以设置为特征向量的形式，比如(0,0,1)。

虽然图4中仅示出了3个样本数据，但应当理解，图4中的示例仅用于理解本方案，具体样本数据以及样本数据中所包括的游戏图像以及动作均应当结合实际情况灵活确定。

需要说明的是，模型训练装置可以部署于服务器，也可以部署于终端设备，本申请中以模型训练装置部署于服务器为例进行说明，然而这不应理解为对本申请的限定。

102、基于游戏录制样本中的第一图像，通过待训练生成网络模型获取目标对象所对应的第一预测动作；

本实施例中，通过步骤101获取到游戏录制样本后，模型训练装置可以将游戏录制样本中的第一图像作为待训练生成网络模型的输入，待训练生成网络模型可以输出目标对象所对应的第一预测动作。

具体地，由于游戏录制样本可以包括至少两个样本数据，并且每个样本数据可以包括游戏图像，因此，可以从某个样本数据中获取到第一图像，为了便于理解，以应用于跑酷类游戏作为一个示例进行说明，假设跑酷类游戏对应的游戏录制样本中包括三种动作，该三种动作分别为跳跃、下蹲以及无动作，请参阅图5，图5为本申请实施例中游戏图像中所包括的动作类型的一个实施例示意图，如图所示，图5中(A)图所示出的为目标对象的动作为无动作时，从游戏录制样本中得到的第一图像。图5中(B)图所示出的为目标对象的动作为跳跃时，从游戏录制样本中得到的第一图像。图5中(C)图所示出的为目标对象的动作为下蹲时，从游戏录制样本中得到的第一图像，虽然图5中仅示出了包括三种动作的第一图像，但应当理解，图5中的示例仅用于理解本方案，具体第一图像应当结合实际情况灵活确定。

进一步地，再将第一图像作为待训练生成网络模型的输入，待训练生成网络模型即可以输出目标对象所对应的第一预测动作，请再次参阅图5，如图所示，若将图5中(A)图所示出第一图像作为待训练生成网络模型的输入，则待训练生成网络模型可以输出目标对象对应的第一预测动作，例如第一预测动作可以是无动作。若将图5中(B)图所示出第一图像作为待训练生成网络模型的输入，则待训练生成网络模型也可以输出目标对象对应的第一预测动作，例如第一预测动作可以是跳跃。若将图5中(C)图所示出第一图像作为待训练生成网络模型的输入时，则待训练生成网络模型也可以输出目标对象对应的第一预测动作，例如第一预测动作可以是下蹲。前述的示例仅用于理解本方案，具体第一预测动作应当结合实际情况灵活确定。

103、根据第一预测动作以及游戏环境信息，生成第一预测图像；

本实施例中，模型训练装置可以通过步骤102所获取到的第一预测动作以及游戏环境信息，生成第一预测图像，其中，该游戏环境信息可以包括在目标游戏中设置的游戏参数。具体地，以应用于跑酷类游戏作为一个示例进行说明，则游戏环境信息可以包括但不限于跑酷过程的中出现的道具数量，跑酷过程中出现的障碍物尺寸，跑酷过程中出现的障碍物数量，跑酷过程中出现的沟壑长度。再以应用于竞速类游戏作为一个示例进行说明，则游戏环境信息可以包括但不限于竞赛过程中的跑道宽度，竞赛过程中的障碍物尺寸，竞赛过程中的障碍物数量，竞赛过程中的金币数量。可以理解的是，前述示例仅用于理解本方案，具体游戏环境信息应当根据具体游戏类型以及设置的关卡结合实际情况灵活确定。

为了便于理解，以应用于跑酷类游戏为示例进行说明，请参阅图6，图6为本申请实施例中基于预测动作生成预测图像的一个实施例示意图，如图所示，通过目标游戏中设置的游戏参数以及前述获取到的第一预测动作，可以生成第一预测图像。若第一图像如图6中(A)图所示，而所获取目标对象所对应的第一预测动作为无动作，则可以根据该第一预测动作以及游戏环境信息预测下一帧的画面，即得到如图6中(B)图所示出的第一预测图像。若第一图像如图6中(C)图所示，而所获取目标对象所对应的第一预测动作为跳跃，则可以根据该第一预测动作以及游戏环境信息预测下一帧的画面，即得到如图6中(D)所示出的第一预测图像。若第一图像如图6中(E)所示，而所获取目标对象所对应的第一预测动作为下蹲，则可以根据该第一预测动作以及游戏环境信息预测下一帧的画面，即得到如图6中(F)所示出的第一预测图像。应当理解，图6示例仅用于理解本方案，具体第一预测图像需要结合第一预测动作以及游戏环境信息的实际情况灵活确定。

104、基于第一预测图像、第一预测动作、第二图像以及第二图像所对应的第二动作，对待训练生成网络模型进行训练，以获取生成网络模型，其中，第二图像为游戏录制样本中图像，第二图像与第一预测图像具有对应关系，第二动作为第二图像中目标对象的动作。

本实施例中，模型训练装置可以通过第一预测图像、第一预测动作、第二图像以及第二图像所对应的第二动作对待训练生成网络模型进行训练，当满足训练条件时，即可获取生成网络模型，该第二图像为游戏录制样本中图像，并且第二图像与第一预测图像具有对应关系，而第二动作为第二图像中目标对象的动作。

本申请实施例中，提供了一种模型训练的方法，通过上述方式，从录制的游戏录制样本中学习到游戏策略，并基于游戏策略，将模拟得到的动作与游戏中的环境信息进行交互，以此生成新的游戏图像，从而有利于遍历更多的游戏场景，由此提升了模型的稳定性。

可选地，在上述图3对应的实施例的基础上，本申请实施例提供的模型训练的方法一个可选实施例中，获取目标游戏所对应的游戏录制样本之后，模型训练的方法还可以包括：

从目标游戏所对应的游戏录制样本中获取第一待处理图像以及第二待处理图像；

从第一待处理图像中截取对应的第一图像区域，其中，第一图像区域包括目标对象；

从第二待处理图像中截取对应的第二图像区域，其中，第二图像区域包括目标对象；

对第一图像区域进行缩放处理，得到游戏录制样本中的第一图像；

对第二图像区域进行缩放处理，得到游戏录制样本中的第二图像。

本实施例中，在获取目标游戏所对应的游戏录制样本之后，模型训练装置还可以从目标游戏所对应的游戏录制样本中获取第一待处理图像以及第二待处理图像，然后从第一待处理图像中截取对应的第一图像区域，该第一图像区域包括目标对象，还可以从第二待处理图像中截取对应的第二图像区域，该第二图像区域包括目标对象，可以理解的是，截取第一图像区域以及第二图像区域之间没有前后时序限定，即第一图像区域以及第二图像区域可以同时被截取，第一图像区域以及第二图像区域也可以先后被截取，两者被截取的时序关系不应理解为本实施例的限定。进一步地，还可以对第一图像区域进行缩放处理，得到游戏录制样本中的第一图像，也可以对第二图像区域进行缩放处理，得到游戏录制样本中的第二图像，可以理解的是，获取第一图像以及第二图像之间也没有前后时序限定，两者进行缩放处理的时序关系不应理解为本实施例的限定。

具体地，由于在各类游戏的游戏录制样本中，各类游戏的图像存在较多的背景干扰，背景干扰有不断移动的游戏背景图像、游戏角色的特效以及道具的特效，具有背景干扰的图像会对模型的训练产生影响，为了获取更具判别力的图像区域，本实施例中先从游戏录制样本获取第一待处理图像以及第二待处理图像，然后截取包括目标对象的第一图像区域以及第二图像区域，因为边缘区域对目标对象动作的影响较小，这样做可以去除第一待处理图像以及第二待处理图像的边缘区域，本实施例中以截取第一待处理图像以及第二待处理图像中70％的图像区域为示例，应当理解，具体截取的百分比应当根据实际情况灵活确定。进一步地，再对第一图像区域以及第二图像区域进行缩放处理，即可获取到游戏录制样本中的第一图像以及第二图像，然后可以将第一图像以及第二图像作为待训练生成网络模型的输入。本实施例中以对第一图像区域以及第二图像区域进行缩放处理后，所得到的第一图像以及第二图像为50*50像素为示例进行说明，因为对第一图像区域以及第二图像区域进行缩放处理后，所得到50*50像素的第一图像以及第二图像作为待训练生成网络模型的输入，由于减少了输入图像的大小，因此可以减小深度网络计算的复杂度。应当理解，在实际应用中，缩放处理后第一图像以及第二图像的像素应当根据实际情况灵活确定。

为了便于理解，以应用于跑酷类游戏为示例进行说明，请参阅图7，图7为本申请实施例中获取第一图像以及第二图像一个实施例示意图，如图所示，图7中(A)图所示出的为第一待处理图像，然后从第一待处理图像中截取70％的第一图像区域，并且该第一图像区域包括目标对象，然后对第一图像区域进行缩放处理，即可得到如图7中(B)图所示出的游戏录制样本中像素为50*50的第一图像。类似地，图7中(C)图所示出的为第二待处理图像，然后从第二待处理图像中截取70％的第二图像区域，并且该第二图像区域包括目标对象，然后对第二图像区域进行缩放处理，即可得到如图7中(D)图所示出的游戏录制样本中像素为50*50的第二图像。应当理解，图7示例仅用于理解本方案，具体第一图像以及第二图像均需要结合实际情况灵活确定。

本申请实施例中，提供了一种获取第一图像以及第二图像的方法，通过上述方式，由于游戏录制样本存在背景干扰，背景干扰会影响模型训练的结果以及效率，而对游戏录制样本的图像截取包括目标对象的图像区域，由此使得包括目标对象的图像区域更具判别力，从而提升待训练生成网络模型的模型输出结果的准确度。此外，对该图像区域进行缩放处理，从而得到的第一图像以及第二图像，由此减少了第一图像以及第二图像的大小，因此可以减小深度网络计算的复杂度，从而提升待训练生成网络模型的效率。

可选地，在上述图3对应的实施例的基础上，本申请实施例提供的模型训练的方法另一个可选实施例中，基于游戏录制样本中的第一图像，通过待训练生成网络模型获取目标对象所对应的第一预测动作，可以包括：

基于游戏录制样本中的第一图像，通过待训练生成网络模型获取动作分布向量，其中，动作分布向量包括M个概率值，M为大于或等于2的整数；

根据动作分布向量确定M个概率值中的最大概率值；

本实施例中，模型训练装置可以将游戏录制样本中的第一图像作为待训练生成网络模型的输入，待训练生成网络模型可以输出动作分布向量，该动作分布向量包括M个概率值，且M为大于或等于2的整数，然后通过动作分布向量确定M个概率值中的最大概率值，再将最大概率值所对应的动作确定为目标对象所对应的第一预测动作。

为了便于理解，请参阅图8，图8为本申请实施例中待训练生成网络模型的一个结构示意图，如图所示，假设待训练生成网络模型采用6个卷积层和2个全连接层组成，且假设输入图像为第一图像，即首先将第一图像输入至待训练生成网络模型中，通过卷积核大小为3，步长为1的卷积层，输出16维的特征向量。通过卷积核大小为3，步长为1的卷积层，输出32维的特征向量。通过池化大小为2的最大池化层。通过两个卷积核大小为3，步长为1的卷积层，输出为32维的特征向量。再通过池化大小为2的最大池化层，通过两个卷积核大小为3，步长为1的卷积层，输出为64维的特征向量，有前述步骤可知，第一图像通过6层卷积可以提取判别力较强的卷积特征，然后再将第一图像对应的卷积特征通过全连接层将卷积特征转成200维的特征向量，再采用最后的全连接层输出包括M个概率值的动作分布向量。假设存在三类动作，则M为3。

具体地，以应用于跑酷类游戏作为示例进行说明，跑酷类可以包括三种动作，该三种动作分别为跳跃、下蹲以及无动作，因此在跑酷类游戏中所获取的动作分布向量中可以包括3个概率值。若概率值分别为30％(跳跃)，40％(下蹲)以及80％(无动作)，则可以确定动作分布向量中最大概率值为80％，由于80％所对应的动作为无动作，因此可以确定目标对象所对应的第一预测动作为无动作。当概率值分别为70％(跳跃)，40％(下蹲)以及20％(无动作)，则可以确定动作分布向量中最大概率值为70％，由于70％所对应的动作为跳跃，因此可以确定目标对象所对应的第一预测动作为跳跃。可以理解的是，前述示例仅用于理解本方案，具体动作分布向量中所包括的概率值数量以及概率值均需要结合实际情况灵活确定。

本申请实施例中，提供了一种获取第一预测动作的方法，通过上述方式，可以基于第一图像，通过待训练生成网络模型获取包括多个概率值的动作分布向量，待训练生成网络模型中的多次卷积可以提取第一图像中判别力较强的卷积特征，从而提升动作分布向量的准确度。其次，根据动作分布向量确定最大概率值，并且将最大概率值所对应的动作确定为目标对象所对应的第一预测动作，由于所获取的动作分布向量的准确度较高，因此动作分布向量所包括的概率值也可以准确的反应第一图像中对应动作的概率，因此可以提升第一预测动作的准确度。

可选地，在上述图3对应的实施例的基础上，本申请实施例提供的模型训练的方法另一个可选实施例中，基于第一预测图像、第一预测动作、第二图像以及第二图像所对应的第二动作，对待训练生成网络模型进行训练，以获取生成网络模型，可以包括：

基于第一预测图像、第一预测动作、第二图像以及第二图像所对应的第二动作，通过待训练判别网络模型获取样本分值；

本实施例中，模型训练装置可以先通过待训练判别网络模型可以输出样本分值，然后再采用第一损失函数以及样本分值，确定第一图像所对应的第一损失值，并且当获取到N个损失值时，对待训练生成网络模型的模型参数进行更新，当满足模型训练条件时，则根据待训练生成网络模型更新后的模型参数获取生成网络模型。满足模型训练条件可以包括两类，第一类为损失函数收敛的情况下，表示达到模型训练条件。第二类为预先设置一个训练迭代次数，当倒到该迭代次数时，表示达到模型训练条件。

具体地，第二图像为游戏录制样本中图像，第二图像与第一预测图像具有对应关系，即第二图像为第一预测图像对应的真实图像。通过待训练判别网络模型所获取的样本分值可以为0至1的分值，0分即代表待训练判别网络模型判断预测图像不是游戏录制样本中的图像，1代表待训练判别网络模型判断预测图像是游戏录制样本中的图像，而处于0至1的分值则可以代表待训练判别网络模型判断预测图像为游戏录制样本中的图像的概率。以第一预测图像为例，假设样本分值为1，表示第一预测图像与游戏录制样本中第二图像一致，假设样本分值为0，表示第一预测图像与游戏录制样本中第二图像完全不一致。

进一步地，以游戏录制样本包括N个样本数据为示例，由此可以采用如下方式计算第一损失函数：

其中，L_G表示第一损失函数，N表示游戏录制样本包括的样本数据的总数量，s'_n表示游戏录制样本中的第n个图像，G(s'_n)表示待训练生成网络模型输出的第n个图像的预测动作，D(s'_n,G(s'_n))表示样本分值。假设s'₁表示游戏录制样本中的第一图像，G(s'₁)表示第一预测动作。

因此，可以通过该第一损失函数以及样本分值，确定第一图像所对应的第一损失值，可以采用如下方式表示第一损失值：

-log(D(s'_n,G(s'_n))；

其中，s'_n表示游戏录制样本中的第n个图像，G(s'_n)表示待训练生成网络模型输出的第n个图像的预测动作，D(s'_n,G(s'_n))表示样本分值。类似地，假设s'₁表示游戏录制样本中的第一图像，G(s'₁)表示第一预测动作。

当对游戏录制样本所包括的N个样本数据进行损失值的计算之后，即可获取到N个损失值，然后可以对待训练生成网络模型的模型参数进行更新，可以理解的是，N个损失值中包括第一图像所对应的第一损失值，当满足模型训练条件时，则根据待训练生成网络模型更新后的模型参数获取生成网络模型，由此完成模型训练得到生成网络模型。

本申请实施例中，提供了一种待训练生成网络模型的方法，可以采用第一损失函数以及样本分值确定第一损失值，并且对游戏录制样本包括的所有样本数据进行对应损失值的获取，然后对待训练生成网络模型的模型参数进行更新，通过上述方式，由于可以根据游戏录制样本包括的所有样本数据进行模型参数更新，因此所得到的模型参数准确度更高。其次，当满足模型训练条件时，由更新后的模型参数获取生成网络模型，可以提升生成网络模型的鲁棒性。

可选地，在上述图3对应的实施例的基础上，本申请实施例提供的模型训练的方法另一个可选实施例中，当获取到N个损失值时，对待训练生成网络模型的模型参数进行更新之后，模型训练的方法还可以包括：

若待训练生成网络模型的模型参数更新次数大于或等于迭代阈值，则确定满足模型训练条件；

或，

若N个损失值之和小于或等于损失阈值，则确定满足模型训练条件。

本实施例中，对待训练生成网络模型的模型参数进行更新之后，当待训练生成网络模型的模型参数更新次数大于或等于迭代阈值时，则模型训练装置可以确定满足模型训练条件，并根据待训练生成网络模型更新后的模型参数获取生成网络模型。或者当N个损失值之和小于或等于损失阈值时，则模型训练装置可以确定满足模型训练条件，然后根据待训练生成网络模型更新后的模型参数获取生成网络模型。在实际应用中，模型训练装置还可以采用其它模型训练条件，再次不进行穷举，然而本申请的示例不应理解为对本申请的限定。

具体地，以满足模型训练条件为待训练生成网络模型的模型参数更新次数大于或等于迭代阈值作为一个示例进行说明，例如迭代阈值的取值可以为10000、50000、100000、200000或其它数值，若迭代阈值为10000，则待训练生成网络模型的模型参数的更新次数需要大于或者等于10000可以满足模型训练条件，然后即可以根据待训练生成网络模型更新后的模型参数获取生成网络模型。类似地，若迭代阈值为50000，则待训练生成网络模型的模型参数的更新次数需要大于或者等于50000可以满足模型训练条件，然后即可以根据待训练生成网络模型更新后的模型参数获取生成网络模型。以满足模型训练条件为N个损失值之和小于或等于损失阈值作为另一个示例进行说明，例如损失阈值的取值可以为0.001、0.005、0.01、0.02或其它趋近于0的数值，当损失阈值为0.001时，则N个损失值之和小于或者等于0.0001可以满足模型训练条件，然后可以根据待训练生成网络模型更新后的模型参数获取生成网络模型。而当损失阈值为0.005时，则N个损失值之和小于或者等于0.0005即可以满足模型训练条件，然后可以根据待训练生成网络模型更新后的模型参数获取生成网络模型。可以理解的是，本实施中的示例仅用于理解本方案，具体迭代阈值以及损失阈值均应当结合实际情况灵活确定。

本申请实施例中，提供了一种模型更新的方法，可以通过模型参数更新次数与迭代阈值的对比，以及N个损失值之和与损失阈值的对比，判断是否满足模型训练条件，通过上述方式，提供了对待训练生成网络模型进行参数确定的一种具体实现方式，从而提高了本方案的可实现性。

可选地，在上述图3对应的实施例的基础上，本申请实施例提供的模型训练的方法另一个可选实施例中，基于第一预测图像、第一预测动作、第二图像以及第二图像所对应的第二动作，通过待训练判别网络模型获取样本分值，可以包括：

基于第一预测图像以及第二图像，通过待训练判别网络模型获取第一特征向量；

根据第一特征向量以及第二特征向量，生成目标特征向量；

本实施例中，模型训练装置可以将第一预测图像以及第二图像作为待训练判别网络模型的输入，待训练判别网络模型可以输出第一特征向量，然后还可以将第一预测动作以及第二图像所对应的第二动作作为待训练判别网络模型的输入，通过待训练判别网络模型可以输出第二特征向量，可以理解的是，获取第一特征向量以及第二特征向量之间没有前后时序限定，即第一特征向量以及第二特征向量可以同时被截取，第一特征向量以及第二特征向量也可以先后被截取，两者获取的时序关系不应理解为本实施例的限定。进一步地，根据所获取到的第一特征向量以及第二特征向量，生成目标特征向量，再将目标特征向量作为待训练判别网络模型的输入，通过待训练判别网络模型可以输出样本分值。

为了便于理解，请参阅图9，图9为本申请实施例中待训练判别网络模型的一个结构示意图，如图所示，待训练判别网络模型可以通过不断循环输入通过游戏录制样本获取的游戏图像，以及图像对应的动作，待训练判别网络模型和待训练生成网络模型的权重不同，是相互独立的网络，待训练判别网络模型可以区分游戏录制样本和通过待训练判别网络模型生成的游戏图像。具体地，假设待训练判别网络模型中对于图像特征的提取采用6个卷积层和1个全连接层组成，且假设输入图像为第一预测图像以及第二图像，即首先将第一预测图像以及第二图像输入至待训练判别网络模型中，通过核大小为3，步长为1的卷积层，输出为16维的特征向量。通过核大小为3，步长为1的卷积层，输出为32维的特征向量。通过池化大小为2的最大池化层，再通过两个核大小为3，步长为1的卷积层，输出为32维的特征向量。通过池化大小为2的最大池化层，再通过两个核大小为3，步长为1的卷积层，输出为64维的特征向量，有前述步骤可知，第一预测图像以及第二图像通过6层卷积可以提取判别力较强的卷积特征，然后再将第一预测图像以及第二图像对应的卷积特征通过全连接层将卷积特征转成200维的第一特征向量。

类似地，将第一预测动作以及第二图像所对应的第二动作输入至待训练判别网络模型中，将第一预测图像以及第二图像对应的卷积特征通过全连接层将卷积特征转成200维的第二特征向量。进一步地，第一预测图像、第一预测动作、第二图像以及第二图像所对应的第二动作通过卷积层和全连接层提取深度特征，即提取到第一特征向量以及第二特征向量后，将第一特征向量以及第二特征向量进行级联生成400维的目标特征向量，然后将该目标特征向量，通过待训练判别网络模型中的全连接层获取样本分值，也就是计算属于游戏录制样本的分值。

本实施例中，通过待训练判别网络模型所获取的样本分值可以为0至1的分值，0分即代表待训练判别网络模型判断第一预测图像不是游戏录制样本中的图像，1代表待训练判别网络模型判断第一预测图像是游戏录制样本中的图像，而处于0至1的分值则可以代表待训练判别网络模型判断第一预测图像为游戏录制样本中的图像的概率，即样本分值越趋近于1，所得到的预测图像以及预测动作与游戏录制样本更为类似。

本申请实施例中，提供了一种获取样本分值的方法，可以根据图像以及图像对应的动作通过卷积层和全连接层提取第一特征向量以及第二特征向量，特征向量可以更准确的指示图像以及动作的特征，其次，再将第一特征向量以及第二特征向量级联，通过待训练判别网络模型全连接层进行特征融合，并且获取样本分值，通过上述方式，由于可以通过分值指示待训练判别网络模型的判别精度，因此可以提升待训练判别网络模型的反馈精度，从而提升待训练判别网络模型的的训练效率。

可选地，在上述图3对应的实施例的基础上，本申请实施例提供的模型训练的方法另一个可选实施例中，根据第一预测动作以及游戏环境信息，生成第一预测图像之后，模型训练的方法还可以包括：

基于第一预测图像，通过待训练生成网络模型获取目标对象所对应的第二预测动作；

基于第一图像、第一图像所对应的第一动作、第一预测图像以及第二预测动作，通过待训练判别网络模型获取评判分值；

采用第二损失函数以及评判分值，对待训练判别网络模型进行训练，以获取判别网络模型。

本实施例中，根据第一预测动作以及游戏环境信息，生成第一预测图像之后，模型训练装置可以将第一预测图像作为待训练生成网络模型的输入，待训练生成网络模型可以输出目标对象所对应的第二预测动作，然后将第一图像、第一图像所对应的第一动作、第一预测图像以及第二预测动作作为待训练判别网络模型的输入，待训练判别网络模型可以输出评判分值，再采用第二损失函数以及评判分值，对待训练判别网络模型进行训练，从而可以获取到判别网络模型。

为了便于理解，以竞速类游戏作为另一个示例进行说明，且所获取到的第一预测图像中包括四种动作，该四种动作分别为直行、向左转、向右转以及漂移作为一个示例进行说明，将第一预测图像作为待训练生成网络模型的输入，待训练生成网络模型即可以输出目标对象所对应的第二预测动作。具体地，若将包括直行的第一预测图像作为待训练生成网络模型的输入，则待训练生成网络模型可以输出目标对象对应的第二预测动作，例如直行、向左转、向右转或者漂移。可以理解的是，前述的示例仅用于理解本方案，具体第二预测动作应当结合实际情况灵活确定。

具体地，请再次参阅图9，如图所示，可以依次地向待训练判别网络模型输入通过游戏录制样本中的游戏图像，以及图像对应的动作，而待训练判别网络模型和待训练生成网络模型的权重不同，是相互独立的网络，待训练判别网络模型可以区分游戏录制样本和通过待训练判别网络模型生成的游戏图像。具体地，待训练判别网络模型中对于图像特征的提取采用6个卷积层和1个全连接层组成，而对于动作类型的提取采用1个全连接层，获取评判分值的方法与前述获取样本分值类似，在此不再赘述。

进一步地，以游戏录制样本包括P个样本数据，而通过待训练生成网络模型获取到Q张预测图像为例，由此可以采用如下方式计算第二损失函数：

其中，L_D表示第二损失函数，P表示游戏录制样本中样本数据的总数量，s_i表示游戏录制样本中的第i张图像，a_i表示游戏录制样本中的第i张图像对应的动作，Q表示预测图像的总数量，s'_j表示生成的第j张预测图像，G(s'_j)表示生成的第j张预测图像对应的动作。

本申请实施例中，提供了一种训练判别网络模型的方法，基于所获取的第一图像、第一图像所对应的第一动作、第一预测图像以及第二预测动作，通过待训练判别网络模型获取评判分值，并且采用第二损失函数以及评判分值，对待训练判别网络模型进行训练，以获取判别网络模型，通过上述方式，提供了对待训练判别网络模型进行训练的一种具体实现方式，从而提高了本方案的可实现性。

可选地，在上述图3对应的实施例的基础上，本申请实施例提供的模型训练的方法另一个可选实施例中，基于第一图像、第一图像所对应的第一动作、第一预测图像以及第二预测动作，通过待训练判别网络模型获取评判分值，可以包括：

基于第一图像以及第一图像所对应的第一动作，通过待训练判别网络模型获取评判分值中的第一评判分值；

采用第二损失函数以及评判分值，对待训练判别网络模型进行训练，以获取判别网络模型，可以包括：

本实施例中，模型训练装置可以将第一图像以及第一图像所对应的第一动作作为待训练判别网络模型的输入，而待训练判别网络模型可以输出评判分值中的第一评判分值，还可以将第一预测图像以及第二预测动作作为待训练判别网络模型的输入，待训练判别网络模型可以输出评判分值中的第二评判分值，可以理解的是，获取第一评判分值与获取第二评判分值之间的步骤没有前后时序限定，即第一评判分值以及第二评判分值可以同时被获取，第一评判分值以及第二评判分值也可以先后被获取，两者被获取的时序关系不应理解为本实施例的限定。进一步地，采用第二损失函数、第一评判分值以及第二评判分值，对待训练判别网络模型进行训练，从而可以获取到判别网络模型。

具体地，基于第一图像以及第一图像所对应的第一动作，待训练判别网络模型可以采用如下方式得到第一评判分值：

D(s_i,a_i)；

其中，s_i表示游戏录制样本中的第i个图像，a_i表示游戏录制样本中的第i个图像对应的动作。假设s₁表示游戏录制样本中的第一图像，那么a₁表示第一图像所对应的第一动作，D(s₁,a₁)表示第一评判分值。

基于第一预测图像以及第二预测动作，待训练判别网络模型可以采用如下方式得到第二评判分值：

D(s'_j,G(s'_j))；

其中，s'_j表示生成的第j个预测图像，G(s'_j)表示第j个预测图像对应的动作，假设s'₁表示第一预测图像，G(s'₁)表示第二预测动作。

进一步地，可以基于第二损失函数，根据第一评判分值以及第二评判分值，对待训练判别网络模型进行训练，以获取判别网络模型。

本申请实施例中，提供了另一种训练判别网络模型的方法，通过上述方式，通过游戏录制样本以及预测图像对应的评判分值与第二损失函数对待训练判别网络模型进行训练，能够提升判别网络模型的准确性。

可选地，在上述图3对应的实施例的基础上，本申请实施例提供的模型训练的方法另一个可选实施例中，采用第二损失函数、第一评判分值以及第二评判分值，对待训练判别网络模型进行训练，以获取判别网络模型，可以包括：

采用第二损失函数以及第一评判分值，确定第二损失值；

采用第二损失函数以及第二评判分值，确定第三损失值；

当获取到P个损失值以及Q个损失值时，对待训练判别网络模型的模型参数进行更新，其中，P个损失值包括第二损失值，Q个损失值包括第三损失值，P为大于或等于1的整数，Q为大于或等于1的整数；

本实施例中，模型训练装置可以采用第二损失函数以及第一评判分值，确定第二损失值，并且还可以采用第二损失函数以及第二评判分值，确定第三损失值，当获取到P个损失值以及Q个损失值时，对待训练判别网络模型的模型参数进行更新，其中P个损失值包括第二损失值，而Q个损失值包括第三损失值，当满足模型训练条件时，则根据待训练判别网络模型更新后的模型参数获取判别网络模型。满足模型训练条件可以包括两类，第一类为损失函数收敛的情况下，表示达到模型训练条件。第二类为预先设置一个训练迭代次数，当倒到该迭代次数时，表示达到模型训练条件。

具体地，由前述描述可知，可以采用如下方式计算第二损失函数：

其中，L_D表示待训练判别网络模型的损失，P表示游戏录制样本包括的样本数据的总数量，s_i表示游戏录制样本中的第i个图像，a_i表示游戏录制样本中的第i个图像对应的动作，Q表示预测图像的总数量，s'_j表示生成的第j个预测图像，G(s'_j)表示张生成的第j预测图像对应的动作。

可以采用如下方式得到第一评判分值：

D(s_i,a_i)；

其中，s_i表示游戏录制样本中的第i个图像，a_i表示游戏录制样本中第i个图像对应的动作。

可以采用如下方式得到第二评判分值：

D(s'_j,G(s'_j))；

其中，s'_j表示生成的第j张预测图像，G(s'_j)表示生成的第j张预测图像对应的动作。

因此，可以通过该第二损失函数以及第一评判分值，确定第二损失值，具体可以采用如下方式表示第二损失值：

-log(D(s_i,a_i))；

其中，s_i表示游戏录制样本中的第i个图像，a_i表示游戏录制样本中第i个图像对应的动作，D(s_i,a_i)表示第一评判分值。

还可以通过该第二损失函数以及第二评判分值，确定第三损失值，具体可以采用如下方式表示第三损失值：

log(1-D(s'_j,G(s'_j))；

其中，s'_j表示第j张生成的预测图像，G(s'_j)表示第j张生成的预测图像对应的动作，D(s'_j,G(s'_j)表示第二评判分值。

进一步地，在模型训练过程中通常是对一个批次的数据进行训练，假设一个批次的数据包括P个损失值以及Q个损失值，那么当获取到P个损失值以及Q个损失值时，对待训练判别网络模型的模型参数进行更新。可以理解的是，P个损失值中包括第二损失值，并且Q个损失值中包括第三损失值，当待训练判别网络模型的模型参数更新次数大于或等于迭代阈值时，模型训练装置可以确定满足模型训练条件，或者P个损失值与Q个损失值之和小于或等于阈值时，模型训练装置可以确定满足模型训练条件，然后则根据待训练判别网络模型更新后的模型参数获取判别网络模型，由此完成模型训练得到判别网络模型。

本申请实施例中，提供了另一种训练判别网络模型的方法，可以采用第二损失函数、第一评判分值以及第二评判分值确定第二损失值以及第三损失值，并且对游戏录制样本以及预测图像进行对应损失值的获取，然后对待训练判别网络模型的模型参数进行更新，通过上述方式，由于可以根据游戏录制样本以及预测图像进行模型参数更新，因此所得到的模型参数准确度更高。其次，还提供了对待训练判别网络模型进行参数确定的一种具体实现方式，从而提高了本方案的可实现性。

结合上述介绍，下面将对本申请中游戏测试的方法进行介绍，请参阅图10，图10为本申请实施例中游戏测试的方法一个实施例示意图，如图所示，本申请实施例中游戏测试的方法一个实施例包括：

201、获取目标游戏的初始游戏图像，其中，初始游戏图像包括目标对象；

本实施例中，游戏测试装置可以获取到目标游戏的初始游戏图像，该初始游戏图像包括目标对象。其中，初始游戏图像可以为游戏测试装置通过有线网络接收到的图像，也可以为游戏测试装置本身存储的图像。

具体地，初始游戏图像可以是通过人工所截取的包括目标对象的游戏图像，以跑酷类游戏作为一个示例进行说明，初始游戏图像中可以包括正在跳跃的目标对象，无动作的目标对象以及正在下蹲的目标对象，而以竞速类游戏作为另一个示例进行说明，初始游戏图像可以包括正在直行的目标对象，正在向左行驶的目标对象，正在向右的目标对象以及正在进行漂移的目标对象，可以理解的是，初始游戏图像中目标对象的具体动作应当结合实际情况灵活确定。

为了进一步理解本方案，以应用于跑酷类游戏作为一个示例进行说明，假设跑酷类游戏对应的初始游戏图像中包括三种动作，该三种动作分别为跳跃、下蹲以及无动作，请参阅图11，图11为本申请实施例中初始游戏图像所包括不同动作类型的一个实施例示意图，如图所示，图11中包括有三个不同动作类型所对应的初始游戏图像，其中，图11中(A)图所示出的为目标对象的动作为跳跃时，所对应的初始游戏图像。图11中(B)图所示出的为目标对象的动作为无动作时，所对应的初始游戏图像。图11中(C)图所示出的为目标对象的动作为下蹲时，所对应的初始游戏图像。虽然图11中仅示出了三个初始游戏图像，但应当理解，图11中的示例仅用于理解本方案，具体初始游戏图像以及初始游戏图像中所包括动作均应当结合实际情况灵活确定。

需要说明的是，戏测试装置可以部署于服务器，也可以部署于终端设备，本申请中以戏测试装置部署于服务器为例进行说明，然而这不应理解为对本申请的限定。

202、基于初始游戏图像，通过生成网络模型获取目标对象所对应的第一模拟动作，其中，生成网络模型为基于上述实施例训练得到；

本实施例中，游戏测试装置可以将初始游戏图像作为生成网络模型的输入，而生成网络模型可以输出目标对象所对应的第一模拟动作，该生成网络模型为采用前述图3以及其所对应实施例描述的模型训练方法得到的。

为了便于理解，以应用于跑酷类游戏作为一个示例进行说明，假设跑酷类游戏对应的录初始游戏图像中包括三种动作，且三种动作分别为跳跃、下蹲以及无动作，将初始游戏图像作为生成网络模型的输入，生成网络模型即可以输出目标对象所对应的第一模拟动作。具体地，若将包括无动作的初始游戏图像作为生成网络模型的输入，则生成网络模型可以输出目标对象对应的第一模拟动作，第一模拟动作可以是无动作、跳跃或者下蹲。若将包括跳跃的初始游戏图像作为生成网络模型的输入，则生成网络模型也可以输出目标对象对应的第一模拟动作，第一模拟动作可以是无动作、跳跃或者下蹲。若将包括下蹲的初始游戏图像作为生成网络模型的输入，则生成网络模型也可以输出目标对象对应的第一模拟动作，第一模拟动作可以是无动作、跳跃或者下蹲。可以理解的是，前述的示例仅用于理解本方案，具体第一模拟动作应当结合实际情况灵活确定。

203、根据第一模拟动作以及游戏环境信息，生成第一预测图像，其中，游戏环境信息包括在目标游戏中设置的游戏参数；

本实施例中，游戏测试装置可以通过步骤202所获取到的第一模拟动作以及游戏环境信息，生成第一预测图像，该游戏环境信息包括在目标游戏中设置的游戏参数。由于在上述实施例中已经对游戏环境信息进行介绍，故此处不做赘述。

为了便于理解，以应用于跑酷类游戏为示例进行说明，请参阅图12，图12为本申请实施例中基于预测动作生成预测图像的另一个实施例示意图，如图所示，通过目标游戏中设置的游戏参数以及前述获取到的第一模拟动作，可以生成第一预测图像。若第一图像如图12中(A)图所示，而所获取目标对象所对应的第一模拟动作为无动作，则可以根据该第一模拟动作以及游戏环境信息预测下一帧的画面，即得到如图12中(B)图所示出的第一预测图像。若第一图像为如图12中(C)图所示，而所获取目标对象所对应的第一模拟动作为无动作，则可以根据该第一模拟动作以及游戏环境信息预测下一帧的画面，即得到如图12中(D)图所示出的第一预测图像。若第一图像为如图12中(E)图所示，而所获取目标对象所对应的第一模拟动作为下蹲，则可以根据该第一模拟动作以及游戏环境信息预测下一帧的画面，即得到如图12中(F)图所示出的第一预测图像。应当理解，图12示例仅用于理解本方案，具体第一预测图像需要结合第一模拟动作以及游戏环境信息的实际情况灵活确定。

204、基于第一预测图像，通过生成网络模型获取目标对象所对应的第二模拟动作；

本实施例中，游戏测试装置可以将步获取的第一预测图像作为生成网络模型的输入，而生成网络模型可以输出目标对象所对应的第二模拟动作。该步骤与前述步骤202类似，在此不再赘述。

205、根据第二模拟动作以及游戏环境信息，生成第二预测图像，其中，第二预测图像用于预测目标对象在下一个游戏画面中的动作；

本实施例中，游戏测试装置可以根据获取到的第二模拟动作以及游戏环境信息，生成第二预测图像，该第二预测图像用于预测目标对象在下一个游戏画面中的动作。该步骤与前述步骤203类似，在此不再赘述。

206、根据第一预测图像以及第二预测图像，生成游戏测试信息。

本实施例中，游戏测试装置可以步骤203所获取的第一预测图像，以及步骤205所获取的第二预测图像，生成游戏测试信息。具体地，预测图像就是每个动作执行后的画面，可以通过初始游戏图像中包括动作预测下一步可能执行的动作，或者预测目标对象下一步可能按下的按钮，又或是可能进行的操作，从而能够提前准备好目标对象所做出动作时相应的画面或者反馈，从而可以为游戏玩家提供无延迟的游戏环境。对游戏测试信息进行分析，可以反馈某个障碍物是否通过，或者某个怪物未击败等信息，然后汇总这些信息，得到生成游戏测试信息，再根据该游戏测试信息再去调整游戏策略，也就是调整游戏环境信息(例如关卡难易度，怪物血量以及个数等)，使得游戏环境信息的平衡性更强，公平性更好。

本申请实施例中，提供了一种游戏测试的方法，通过前述步骤所获取的稳定的生成网络模型，可以基于所获取的初始游戏图像获取该图像中动作执行就后的图像以及对应画面，通过上述方式，可以通过每个动作执行后的画面生成游戏测试信息，能够提升游戏测试的稳定性以及准确度。其次，通过游戏测试信息可以帮助调整游戏策略，以提升游戏本身的平衡性以及娱乐性。

结合上述介绍，下面将对本申请中游戏测试的方法进行介绍，请参阅图13，图13为本申请实施例中基于游戏的AI角色训练方法的一个实施例示意图，如图所示，本申请实施例中基于游戏的AI角色训练方法一个实施例包括：

301、获取游戏录制样本，其中，游戏录制样本包括至少两个样本数据，每个样本数据包括游戏图像以及游戏图像中AI角色的动作；

本实施例中，AI角色训练装置可以先获取到包括至少两个样本数据的游戏录制样本，并且每个样本数据中具体包括游戏图像以及游戏图像中AI角色的动作。可以理解的是，AI角色可以为跑酷类游戏、休闲类或者竞技类游戏中的游戏角色，为了便于介绍，本申请以跑酷类游戏为例进行说明。样本数据以及样本数据中所包括的游戏图像以及AI角色的动作与前述实施例所描述的类似，在此不再赘述。

需要说明的是，AI角色训练装置可以部署于服务器，也可以部署于终端设备，本申请中以AI角色训练装置部署于服务器为例进行说明，然而这不应理解为对本申请的限定。

302、基于游戏录制样本中的第一图像，通过AI角色输出第一预测动作；

本实施例中，AI角色训练装置可以通过AI角色所对应的第一预测动作，通过AI角色输出第一预测动作与前述实施例中通过待训练生成网络模型获取目标对象所对应的第一预测动作所介绍的方法类似，在此不再赘述。

303、根据第一预测动作以及游戏环境信息，生成第一预测图像；

本实施例中，AI角色训练装置可以通过第一预测动作以及游戏环境信息，生成第一预测图像，其中，该游戏环境信息可以包括在目标游戏中设置的游戏参数。具体生成第一预测图像的方法与前述类似，在此不再赘述。

304、基于第一预测图像、第一预测动作、第二图像以及第二图像所对应的第二动作，对AI角色进行训练，其中，第二图像为游戏录制样本中图像，第二图像与第一预测图像具有对应关系，第二动作为第二图像中目标对象的动作。

本实施例中，AI角色训练装置可以通过投第一预测图像、第一预测动作、第二图像以及第二图像所对应的第二动作对AI角色进行训练，该第二图像为游戏录制样本中图像，并且第二图像与第一预测图像具有对应关系，而第二动作为第二图像中目标对象的动作。

本申请实施例中，提供了一种基于游戏的AI角色训练方法，通过上述方式，能够从录制的游戏录制样本中学习到游戏策略，并基于游戏策略，将模拟得到的AI角色动作与游戏中的环境信息进行交互，以此生成新的游戏图像，从而有利于AI角色可以经历更多的游戏场景，使得AI角色在多种场景中输出稳定的动作，由此提升了AI角色动作的稳定性。

下面对本申请中的模型训练装置进行详细描述，请参阅图14，图14为本申请实施例中模型训练装置一个实施例示意图，模型训练装置40包括：

获取模块401，用于获取目标游戏所对应的游戏录制样本，其中，游戏录制样本包括至少两个样本数据，每个样本数据包括游戏图像以及游戏图像中目标对象的动作；

获取模块401，还用于基于游戏录制样本中的第一图像，通过待训练生成网络模型获取目标对象所对应的第一预测动作；

生成模块402，用于根据第一预测动作以及游戏环境信息，生成第一预测图像；

训练模块403，用于基于第一预测图像、第一预测动作、第二图像以及第二图像所对应的第二动作，对待训练生成网络模型进行训练，以获取生成网络模型，其中，第二图像为游戏录制样本中图像，第二图像与第一预测图像具有对应关系，第二动作为第二图像中目标对象的动作。

可选地，在上述图14所对应的实施例的基础上，本申请实施例提供的模型训练装置40的另一实施例中，模型训练装置40还包括截取模块404以及处理模块405，

获取模块401，还用于获取模块401获取目标游戏所对应的游戏录制样本之后，从目标游戏所对应的游戏录制样本中获取第一待处理图像以及第二待处理图像；

截取模块404，用于从第一待处理图像中截取对应的第一图像区域，其中，第一图像区域包括目标对象；

截取模块404，还用于从第二待处理图像中截取对应的第二图像区域，其中，第二图像区域包括目标对象；

处理模块405，用于对第一图像区域进行缩放处理，得到游戏录制样本中的第一图像；

处理模块405，还用于对第二图像区域进行缩放处理，得到游戏录制样本中的第二图像。

可选地，在上述图14所对应的实施例的基础上，本申请实施例提供的模型训练装置40的另一实施例中，

获取模块401，具体用于：

根据动作分布向量确定M个概率值中的最大概率值；

训练模块403，具体用于基于第一预测图像、第一预测动作、第二图像以及第二图像所对应的第二动作，通过待训练判别网络模型获取样本分值；

获取模块401，具体用于获取模块，具体用于基于第一预测图像以及第二图像，通过待训练判别网络模型获取第一特征向量；

根据第一特征向量以及第二特征向量，生成目标特征向量；

获取模块401，还用于在生成模块402根据第一预测动作以及游戏环境信息，生成第一预测图像之后，基于基于第一预测图像，通过待训练生成网络模型获取目标对象所对应的第二预测动作；

获取模块401，还用于基于第一图像、第一图像所对应的第一动作、第一预测图像以及第二预测动作，通过待训练判别网络模型获取评判分值；

训练模块403，还用于采用第二损失函数以及评判分值，对待训练判别网络模型进行训练，以获取判别网络模型。

获取模块401，具体用于基于第一图像以及第一图像所对应的第一动作，通过待训练判别网络模型获取评判分值中的第一评判分值；

训练模块，具体用于采用第二损失函数、第一评判分值以及第二评判分值，对待训练判别网络模型进行训练，以获取判别网络模型。

训练模块403，具体用于：

采用第二损失函数以及第一评判分值，确定第二损失值；

采用第二损失函数以及第二评判分值，确定第四损失值；

下面对本申请中的游戏测试装置进行详细描述，请参阅图15，图15为本申请实施例中游戏测试装置一个实施例示意图，游戏测试装置50包括：

获取模块501，用于获取目标游戏的初始游戏图像，其中，初始游戏图像包括目标对象；

获取模块501，还用于基于初始游戏图像，通过生成网络模型获取目标对象所对应的第一模拟动作，其中，生成网络模型为通过前述图14对应的任一模型训练装置40训练得到的；

生成模块502，用于根据第一模拟动作以及游戏环境信息，生成第一预测图像，其中，游戏环境信息包括在目标游戏中设置的游戏参数；

获取模块501，还用于基于第一预测图像，通过生成网络模型获取目标对象所对应的第二模拟动作；

生成模块502，还用于根据第二模拟动作以及游戏环境信息，生成第二预测图像，其中，第二预测图像用于预测目标对象在下一个游戏画面中的动作；

生成模块502，还用于根据第一预测图像以及第二预测图像，生成游戏测试信息。

本申请实施例中，提供了一种游戏测试装置，采用上述装置，可以通过每个动作执行后的画面生成游戏测试信息，能够提升游戏测试的稳定性以及准确度。其次，通过游戏测试信息可以帮助调整游戏策略，以提升游戏本身的平衡性以及娱乐性。

下面对本申请中的AI角色训练装置进行详细描述，请参阅图16，图16为本申请实施例中AI角色训练装置的一个实施例示意图，AI角色训练装置60包括：

获取模块601，用于获取游戏录制样本，其中，游戏录制样本包括至少两个样本数据，每个样本数据包括游戏图像以及游戏图像中AI角色的动作；

输出模块602，用于基于游戏录制样本中的第一图像，通过AI角色输出第一预测动作；

生成模块603，用于根据第一预测动作以及游戏环境信息，生成第一预测图像；

训练模块604，用于基于第一预测图像、第一预测动作、第二图像以及第二图像所对应的第二动作，对AI角色进行训练，其中，第二图像为游戏录制样本中图像，第二图像与第一预测图像具有对应关系，第二动作为第二图像中目标对象的动作。

本申请实施例还提供了另一种模型训练装置、游戏测试装置以及AI角色训练装置，模型训练装置、游戏测试装置以及AI角色训练装置都可以部署于服务器，也可以部署于终端设备，本申请中以模型训练装置、游戏测试装置以及AI角色训练装置部署于服务器为例进行说明，请参阅图17，图17为本申请实施例中服务器一个实施例示意图，如图所示，该服务器700可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processing units，CPU)722(例如，一个或一个以上处理器)和存储器732，一个或一个以上存储应用程序742或数据744的存储介质730(例如一个或一个以上海量存储设备)。其中，存储器732和存储介质730可以是短暂存储或持久存储。存储在存储介质730的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器722可以设置为与存储介质730通信，在服务器700上执行存储介质730中的一系列指令操作。

服务器700还可以包括一个或一个以上电源726，一个或一个以上有线或无线网络接口750，一个或一个以上输入输出接口758，和/或，一个或一个以上操作系统741，例如Windows Server^TM，Mac OS X^TM，Unix^TM，Linux^TM，FreeBSD^TM等等。

上述实施例中由服务器所执行的步骤可以基于该图17所示的服务器结构。

在本申请实施例中，该服务器所包括的CPU 722用于如下步骤：

根据第一预测动作以及游戏环境信息，生成第一预测图像，其中，游戏环境信息包括在目标游戏中设置的游戏参数；

基于第一预测图像、第一预测动作、第二图像以及第二图像所对应的第二动作，通过待训练判别网络模型获取样本分值，其中，第二图像为游戏录制样本中图像，第二图像与第一预测图像具有对应关系，第二动作为第二图像中目标对象的动作；

采用第一损失函数以及样本分值，对待训练生成网络模型进行训练，以获取生成网络模型。

在本申请实施例中，该服务器所包括的CPU 722用于如下步骤：

基于初始游戏图像，通过生成网络模型获取目标对象所对应的第一模拟动作，其中，生成网络模型为采用上述第一方面的模型训练方法训练得到的；

根据第一预测图像以及第二预测图像，生成游戏测试信息。

在本申请实施例中，该服务器所包括的CPU 722用于如下步骤：

根据第一预测动作以及游戏环境信息，生成第一预测图像；

即，该服务器所包括的CPU 722用于执行如图3对应的各个实施例，如图10对应的各个实施例，以及如图13对应的各个实施例。

本申请实施例中还提供一种计算机可读存储介质，该计算机可读存储介质中存储有计算机程序，当其在计算机上运行时，使得计算机执行如前述图3至图9所示实施例描述的方法中客户端所执行的步骤，或者，使得计算机执行如前述图10所示实施例描述的方法中客户端所执行的步骤，或者，使得计算机执行如前述图13所示实施例描述的方法中客户端所执行的步骤。

本申请实施例中还提供一种包括程序的计算机程序产品，当其在计算机上运行时，使得计算机执行如前述图3至图9所示实施例描述的方法中客户端所执行的步骤，或者，使得计算机执行如前述图10所示实施例描述的方法中客户端所执行的步骤，或者，使得计算机执行如前述图13所示实施例描述的方法中客户端所执行的步骤。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种模型训练方法，其特征在于，包括：

获取目标游戏所对应的游戏录制样本，其中，所述游戏录制样本包括至少两个样本数据，每个样本数据包括游戏图像以及所述游戏图像中目标对象的动作；

基于所述游戏录制样本中的第一图像，通过待训练生成网络模型获取所述目标对象所对应的第一预测动作；

根据所述第一预测动作以及游戏环境信息，生成第一预测图像；

基于所述第一预测图像、所述第一预测动作、第二图像以及所述第二图像所对应的第二动作，对所述待训练生成网络模型进行训练，以获取生成网络模型，其中，所述第二图像为所述游戏录制样本中图像，所述第二图像与所述第一预测图像具有对应关系，所述第二动作为所述第二图像中所述目标对象的动作。

2.根据权利要求1所述的模型训练方法，其特征在于，所述获取目标游戏所对应的游戏录制样本之后，所述方法还包括：

从所述目标游戏所对应的所述游戏录制样本中获取第一待处理图像以及第二待处理图像；

从所述第一待处理图像中截取对应的第一图像区域，其中，所述第一图像区域包括所述目标对象；

从所述第二待处理图像中截取对应的第二图像区域，其中，所述第二图像区域包括所述目标对象；

对所述第一图像区域进行缩放处理，得到所述游戏录制样本中的所述第一图像；

对所述第二图像区域进行缩放处理，得到所述游戏录制样本中的所述第二图像。

3.根据权利要求1所述的模型训练方法，其特征在于，所述基于所述游戏录制样本中的第一图像，通过待训练生成网络模型获取所述目标对象所对应的第一预测动作，包括：

基于所述游戏录制样本中的第一图像，通过所述待训练生成网络模型获取动作分布向量，其中，所述动作分布向量包括M个概率值，所述M为大于或等于2的整数；

根据所述动作分布向量确定所述M个概率值中的最大概率值；

将所述最大概率值所对应的动作确定为所述目标对象所对应的第一预测动作。

4.根据权利要求1所述的模型训练方法，其特征在于，所述基于所述第一预测图像、所述第一预测动作、第二图像以及所述第二图像所对应的第二动作，对所述待训练生成网络模型进行训练，以获取生成网络模型，包括：

基于所述第一预测图像、所述第一预测动作、第二图像以及所述第二图像所对应的第二动作，通过待训练判别网络模型获取样本分值；

采用第一损失函数以及所述样本分值，确定所述第一图像所对应的第一损失值；

当获取到N个损失值时，对待训练生成网络模型的模型参数进行更新，其中，所述N个损失值包括所述第一损失值，所述N为大于或等于1的整数；

若满足模型训练条件，则根据所述待训练生成网络模型更新后的模型参数获取所述生成网络模型。

5.根据权利要求4所述的模型训练方法，其特征在于，所述基于所述第一预测图像、所述第一预测动作、第二图像以及所述第二图像所对应的第二动作，通过待训练判别网络模型获取样本分值，包括：

基于所述第一预测图像以及所述第二图像，通过所述待训练判别网络模型获取第一特征向量；

基于所述第一预测动作以及所述第二图像所对应的第二动作，通过所述待训练判别网络模型获取第二特征向量；

根据所述第一特征向量以及所述第二特征向量，生成目标特征向量；

基于所述目标特征向量，通过所述待训练判别网络模型获取所述样本分值。

6.根据权利要求1至5中任一项所述的模型训练方法，其特征在于，所述根据所述第一预测动作以及游戏环境信息，生成第一预测图像之后，所述方法还包括：

基于所述第一预测图像，通过所述待训练生成网络模型获取所述目标对象所对应的第二预测动作；

基于所述第一图像、所述第一图像所对应的第一动作、所述第一预测图像以及所述第二预测动作，通过待训练判别网络模型获取评判分值；

采用第二损失函数以及所述评判分值，对所述待训练判别网络模型进行训练，以获取判别网络模型。

7.根据权利要求6所述的模型训练方法，其特征在于，所述基于所述第一图像、所述第一图像所对应的第一动作、所述第一预测图像以及所述第二预测动作，通过待训练判别网络模型获取评判分值，包括：

基于所述第一图像以及所述第一图像所对应的第一动作，通过所述待训练判别网络模型获取所述评判分值中的第一评判分值；

基于所述第一预测图像以及所述第二预测动作，通过所述待训练判别网络模型获取所述评判分值中的第二评判分值；

采用第二损失函数以及所述评判分值，对所述待训练判别网络模型进行训练，以获取判别网络模型，包括：

采用所述第二损失函数、所述第一评判分值以及所述第二评判分值，对所述待训练判别网络模型进行训练，以获取所述判别网络模型。

8.根据权利要求7所述的模型训练方法，其特征在于，所述采用所述第二损失函数、所述第一评判分值以及所述第二评判分值，对所述待训练判别网络模型进行训练，以获取所述判别网络模型，包括：

采用所述第二损失函数以及所述第一评判分值，确定第二损失值；

采用所述第二损失函数以及所述第二评判分值，确定第三损失值；

当获取到P个损失值以及Q个损失值时，对所述待训练判别网络模型的模型参数进行更新，其中，所述P个损失值包括所述第二损失值，所述Q个损失值包括所述第三损失值，所述P为大于或等于1的整数，所述Q为大于或等于1的整数；

若满足模型训练条件，则根据所述待训练判别网络模型更新后的模型参数获取所述判别网络模型。

9.一种游戏测试方法，其特征在于，包括：

获取目标游戏的初始游戏图像，其中，所述初始游戏图像包括目标对象；

基于所述初始游戏图像，通过生成网络模型获取所述目标对象所对应的第一模拟动作，其中，所述生成网络模型为采用权利要求1至8中任意一项所述的模型训练得到的；

根据所述第一模拟动作以及游戏环境信息，生成第一预测图像，其中，所述游戏环境信息包括在所述目标游戏中设置的游戏参数；

基于所述第一预测图像，通过所述生成网络模型获取所述目标对象所对应的第二模拟动作；

根据所述第二模拟动作以及所述游戏环境信息，生成第二预测图像，其中，所述第二预测图像用于预测所述目标对象在下一个游戏画面中的动作；

根据所述第一预测图像以及所述第二预测图像，生成游戏测试信息。

10.一种人工智能AI角色训练方法，其特征在于，包括：

获取游戏录制样本，其中，所述游戏录制样本包括至少两个样本数据，每个样本数据包括游戏图像以及所述游戏图像中AI角色的动作；

基于所述游戏录制样本中的第一图像，通过所述AI角色输出第一预测动作；

基于所述第一预测图像、所述第一预测动作、第二图像以及所述第二图像所对应的第二动作，对所述AI角色进行训练，其中，所述第二图像为所述游戏录制样本中图像，所述第二图像与所述第一预测图像具有对应关系，所述第二动作为所述第二图像中所述目标对象的动作。

11.一种模型训练装置，其特征在于，包括：

获取模块，用于获取目标游戏所对应的游戏录制样本，其中，所述游戏录制样本包括至少两个样本数据，每个样本数据包括游戏图像以及所述游戏图像中目标对象的动作；

所述获取模块，还用于基于所述游戏录制样本中的第一图像，通过待训练生成网络模型获取所述目标对象所对应的第一预测动作；

生成模块，用于根据所述第一预测动作以及游戏环境信息，生成第一预测图像；

训练模块，用于基于所述第一预测图像、所述第一预测动作、第二图像以及所述第二图像所对应的第二动作，对所述待训练生成网络模型进行训练，以获取生成网络模型，其中，所述第二图像为所述游戏录制样本中图像，所述第二图像与所述第一预测图像具有对应关系，所述第二动作为所述第二图像中所述目标对象的动作。

12.一种游戏测试装置，其特征在于，包括：

获取模块，用于获取目标游戏的初始游戏图像，其中，所述初始游戏图像包括目标对象；

所述获取模块，还用于基于所述初始游戏图像，通过生成网络模型获取所述目标对象所对应的第一模拟动作，其中，所述生成网络模型为采用权利要求1至8中任意一项所述的模型训练得到的；

生成模块，用于根据所述第一模拟动作以及游戏环境信息，生成第一预测图像，其中，所述游戏环境信息包括在所述目标游戏中设置的游戏参数；

所述获取模块，还用于基于所述第一预测图像，通过所述生成网络模型获取所述目标对象所对应的第二模拟动作；

所述生成模块，还用于根据所述第二模拟动作以及所述游戏环境信息，生成第二预测图像，其中，所述第二预测图像用于预测所述目标对象在下一个游戏画面中的动作；

所述生成模块，还用于根据所述第一预测图像以及所述第二预测图像，生成游戏测试信息。

13.一种服务器，其特征在于，包括：存储器、收发器、处理器以及总线系统；

其中，所述存储器用于存储程序；

所述处理器用于执行所述存储器中的程序，以实现权利要求1至8中任一项所述的方法，或，实现权利要求9所述的方法，或，实现权利要求10所述的方法；

所述总线系统用于连接所述存储器以及所述处理器，以使所述存储器以及所述处理器进行通信。

14.一种服务器，其特征在于，包括：存储器、收发器、处理器以及总线系统；

其中，所述存储器用于存储程序；

所述处理器用于执行所述存储器中的程序，以实现权利要求10所述的方法；

15.一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行如权利要求1至8中任一项所述的方法，或，执行如权利要求9所述的方法，或，执行如权利要求10所述的方法。