CN110251942B

CN110251942B - 控制游戏场景中虚拟角色的方法及装置

Info

Publication number: CN110251942B
Application number: CN201910483456.0A
Authority: CN
Inventors: 黄超; 周大军; 张力柯; 荆彦青
Original assignee: Tencent Technology Chengdu Co Ltd
Current assignee: Tencent Technology Chengdu Co Ltd
Priority date: 2019-06-04
Filing date: 2019-06-04
Publication date: 2022-09-13
Anticipated expiration: 2039-06-04
Also published as: CN110251942A

Abstract

本发明公开了一种控制游戏场景中虚拟角色的方法及装置。其中，该方法包括：获取当前游戏场景中N帧场景图像；将N帧场景图像输入至第一目标模型，得到第一目标模型输出的N帧场景图像的全连接特征；将N帧场景图像的全连接特征中的连续M帧场景图像的全连接特征输入至第二目标模型，得到第二目标模型输出的连续M帧场景图像对应的每个动作标签的概率；控制虚拟角色在M帧场景图像中执行与每个动作标签的概率对应的目标动作标签所标识的动作。本发明解决了对虚拟角色的控制费时费力的技术问题。

Description

控制游戏场景中虚拟角色的方法及装置

技术领域

本发明涉及游戏领域，具体而言，涉及一种控制游戏场景中虚拟角色的方法及装置。

背景技术

相关技术中，通常是使用强化学习来训练游戏场景中虚拟角色执行的动作。通过与环境进行交互，得到动作的奖励，通过将奖励最大化来优化训练模型参数，利用训练的模型控制虚拟角色的动作输出。

这种方法会耗费大量的时间，从而造成对虚拟角色的控制费时费力。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种控制游戏场景中虚拟角色的方法及装置，以至少解决对虚拟角色的控制费时费力的技术问题。

根据本发明实施例的一个方面，提供了一种控制游戏场景中虚拟角色的方法，包括：获取当前游戏场景中N帧场景图像；将上述N帧场景图像输入至第一目标模型，得到上述第一目标模型输出的上述N帧场景图像的全连接特征，其中，上述全连接特征用于表示上述N帧场景图像的图像深度特征；将上述N帧场景图像的全连接特征中的连续M帧场景图像的全连接特征输入至第二目标模型，得到上述第二目标模型输出的上述连续M帧场景图像对应的每个动作标签的概率；控制上述虚拟角色在上述M帧场景图像中执行与上述每个动作标签的概率对应的目标动作标签所标识的动作。

根据本发明实施例的另一方面，还提供了一种游戏场景中虚拟角色的训练方法，包括：获取用户帐号控制的虚拟角色在预定时长内在上述目标游戏的游戏场景中产生的多帧样本图像、以及与上述多帧样本图像中的每帧样本图像对应的实际动作标签，其中，上述实际动作标签用于表示上述虚拟角色执行了动作集合中的一个动作；使用上述多帧样本图像以及与上述多帧样本图像中的每帧样本图像对应的实际动作标签对第一原始模型进行训练，得到第一目标模型，其中，上述多帧样本图像为上述第一原始模型的输入，训练好的上述第一目标模型输出的上述每帧样本图像对应的目标动作标签与上述每帧样本图像对应的实际动作标签满足第一目标函数。

根据本发明实施例的另一方面，还提供了一种控制游戏场景中虚拟角色的装置，包括：第一获取模块，用于获取当前游戏场景中N帧场景图像；第一确定模块，用于将上述N帧场景图像输入至第一目标模型，得到上述第一目标模型输出的上述N帧场景图像的全连接特征，其中，上述全连接特征用于表示上述N帧场景图像的图像深度特征；第二确定模块，用于将上述N帧场景图像的全连接特征中的上述连续M帧场景图像的全连接特征输入至第二目标模型，得到上述第二目标模型输出的上述连续M帧场景图像对应的每个动作标签的概率，其中，上述概率大于预定阈值的动作标签被确定为目标动作标签，上述M为大于1的自然数；控制模块，用于控制上述虚拟角色在上述M帧场景图像中执行与上述每个动作标签的概率对应的上述目标动作标签所标识的动作。

可选地，上述第一确定模块包括：第一输入单元，用于将上述N帧场景图像输入至依次连接的O个子模型，其中，上述O个子模型中的每个子模型包括依次连接的P个卷积层和1个全连接层，其中，上述N为大于1的自然数，上述第一目标模型包括上述依次连接的O个子模型。

可选地，上述第一输入单元包括：第一输入子单元，用于将上述N帧场景图像输入至依次连接的2个子模型，其中，上述2个子模型中的每个子模型中包括依次连接的2个卷积层和1个全连接层。

可选地，上述O和上述P的取值与用于运行上述目标游戏的终端上的中央处理器CPU和/或内存对应。

可选地，上述装置还包括：第三获取模块，用于获取用户帐号控制的虚拟角色在预定时长内在上述目标游戏的游戏场景中产生的多帧样本图像、以及与上述多帧样本图像中的每帧样本图像对应的实际动作标签，其中，上述实际动作标签用于表示上述虚拟角色执行了动作集合中的一个动作；第五确定模块，用于使用上述多帧样本图像以及与上述多帧样本图像中的每帧样本图像对应的实际动作标签对第一原始模型进行训练，得到第一目标模型，其中，上述多帧样本图像为上述第一原始模型的输入，训练好的上述第一目标模型输出的上述每帧样本图像对应的目标动作标签与上述每帧样本图像对应的实际动作标签满足第一目标函数。

可选地，上述装置还包括：第六确定模块，用于使用上述第一目标模型输出的上述多帧样本图像中连续Q帧样本图像的全连接特征对第二原始模型进行训练，得到第二目标模型；其中，上述多帧样本图像中连续Q帧样本图像的全连接特征为上述第二原始模型的输入，上述第二目标模型的输出用于表示上述连续Q帧样本图像对应的每个动作标签的概率，上述概率大于预定阈值的动作标签被确定为目标动作标签，上述M为大于1的自然数，训练好的上述第二目标模型输出的上述连续Q帧样本图像对应的目标动作标签与上述连续Q帧样本图像对应的实际动作标签满足第二目标函数。

可选地，上述第五确定模块包括：第一提取单元，用于从上述多帧样本图像中的每帧样本图像中提取出预定区域的图像，得到多帧场景图像，其中，上述多帧场景图像与上述多帧样本图像的帧数相同，上述多帧样本图像所对应的每一种动作标签的数量在上述多帧样本图像中所有种的动作标签的总数中所占的比例满足对应的预设阈值；第一确定单元，用于在上述多帧场景图像中的每帧场景图像中裁剪预定比例的图像，得到多帧裁剪图像，其中，上述多帧样本场景图像包括上述多帧场景图像和上述多帧裁剪图像；第二确定单元，用于使用上述多帧样本场景图像所对应的动作标签以及多帧样本场景图像对上述第一原始模型进行训练，得到上述第一目标模型。

可选地，上述控制模块包括：处理单元，用于将上述概率大于预定阈值的动作标签被确定为上述目标动作标签；第一控制单元，用于控制上述虚拟角色在上述N帧场景图像中的当前帧场景图像中执行与上述M帧场景图像对应的目标动作标签所标识的动作，其中，上述M帧场景图像包括上述当前帧场景图像。

根据本发明实施例的另一方面，还提供了一种游戏场景中虚拟角色的训练装置，包括：第二获取模块，用于获取用户帐号控制的虚拟角色在预定时长内在上述目标游戏的游戏场景中产生的多帧样本图像、以及与上述多帧样本图像中的每帧样本图像对应的实际动作标签，其中，上述实际动作标签用于表示上述虚拟角色执行了动作集合中的一个动作；第三确定模块，用于使用上述多帧样本图像以及与上述多帧样本图像中的每帧样本图像对应的实际动作标签对第一原始模型进行训练，得到第一目标模型，其中，上述多帧样本图像为上述第一原始模型的输入，训练好的上述第一目标模型输出的上述每帧样本图像对应的目标动作标签与上述每帧样本图像对应的实际动作标签满足第一目标函数。

可选地，上述装置还包括：第四确定模块，用于使用上述第一目标模型输出的上述多帧样本图像中连续Q帧样本图像的全连接特征对第二原始模型进行训练，得到第二目标模型；其中，上述多帧样本图像中连续Q帧样本图像的全连接特征为上述第二原始模型的输入，上述第二目标模型的输出用于表示上述连续Q帧样本图像对应的每个动作标签的概率，上述概率大于预定阈值的动作标签被确定为目标动作标签，上述M为大于1的自然数，训练好的上述第二目标模型输出的上述连续Q帧样本图像对应的目标动作标签与上述连续Q帧样本图像对应的实际动作标签满足第二目标函数。

可选地，上述第三确定模块包括：第二提取单元，用于从上述多帧样本图像中的每帧样本图像中提取出预定区域的图像，得到多帧场景图像，其中，上述多帧场景图像与上述多帧样本图像的帧数相同，上述多帧样本图像所对应的每一种动作标签的数量在上述多帧样本图像中所有种的动作标签的总数中所占的比例满足对应的预设阈值；第五确定单元，用于在上述多帧场景图像中的每帧场景图像中裁剪预定比例的图像，得到多帧裁剪图像，其中，上述多帧样本场景图像包括上述多帧场景图像和上述多帧裁剪图像；第六确定单元，用于使用上述多帧样本场景图像所对应的动作标签以及多帧样本场景图像对上述第一原始模型进行训练，得到上述第一目标模型。

根据本发明实施例的另一方面，还提供了一种存储介质，其特征在于，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行上述任一项中所述的方法。

根据本发明实施例的另一方面，还提供了一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为通过所述计算机程序执行上述任一项中所述的方法。

在本发明实施例中，采用获取当前游戏场景中N帧场景图像；将N帧场景图像输入至第一目标模型，得到第一目标模型输出的N帧场景图像的全连接特征，其中，全连接特征用于表示每个场景图像对应的每个动作标签的概率；将N帧场景图像的全连接特征中的连续M帧场景图像的全连接特征输入至第二目标模型，得到第二目标模型输出的连续M帧场景图像对应的每个动作标签的概率；控制虚拟角色在M帧场景图像中执行与M帧场景图像对应的目标动作标签所标识的动作的方式。在虚拟角色执行动作之前，利用确定的第一目标模型和第二目标模型，得到每个动作标签出现的概率，控制虚拟角色在当前场景中执行与目标动作标签所标识的动作，使得可以更加准确的控制虚拟角色执行动作，从而实现了对虚拟角色的控制省时省力的技术效果，进而解决了对虚拟角色的控制费时费力的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种可选的控制游戏场景中虚拟角色的方法的应用环境的示意图；

图2是根据本发明实施例的一种可选的控制游戏场景中虚拟角色的方法的流程示意图；

图3是根据本发明实施例的一种可选的虚拟角色所在的当前游戏场景；

图4是根据本发明实施例的一种可选的第一目标模型的架构图；

图5是根据本发明实施例的一种可选的获取的样本图像的示意图；

图6是根据本发明实施例的一种可选的LSTM网络模型的网络架构示意图；

图7是根据本发明实施例的一种可选的对模型进行测试的流程图；

图8是根据本发明实施例的一种可选的游戏场景中虚拟角色的训练方法的流程示意图；

图8a是根据本发明实施例的一种可选的游戏场景中虚拟角色的训练方法的整体流程示意图；

图9是根据本发明实施例的一种可选的控制游戏场景中虚拟角色的装置示意图；

图10是根据本发明实施例的一种可选的游戏场景中虚拟角色的训练装置示意图；

图11是根据本发明实施例的一种可选的电子装置的结构示意图；

图12是根据本发明实施例的一种可选的电子装置的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

根据本发明实施例的一个方面，提供了一种控制游戏场景中虚拟角色的方法，可选地，作为一种可选的实施方式，上述控制游戏场景中虚拟角色的方法可以但不限于应用于如图1所示的环境中。

图1中虚拟角色102可以运行在用户设备104中。用户设备104中包含有存储器106，用于存储运行数据、处理器108，用于处理运行数据。用户设备104与服务器112可以通过网络110进行数据交互。服务器112中包含有数据库114，用于存储运行数据、处理引擎116，用于处理运行数据。用户设备104上运行有客户端，客户端可以显示虚拟角色的游戏运行。如图1所示，可以在虚拟角色运行的过程中，获取虚拟角色在目标游戏的当前游戏场景中N帧场景图像；用户设备104可以将获取的N帧场景图像通过网络110发送至服务器112中，服务器112将N帧场景图像输入至第一目标模型118，得到第一目标模型118输出的N帧场景图像的全连接特征；第一目标模型118将N帧场景图像的全连接特征中的连续M帧场景图像的全连接特征输入至第二目标模型120，得到第二目标模型120输出的连续M帧场景图像对应的每个动作标签的概率；服务器112将概率大于预定阈值的动作标签被确定为目标动作标签，将目标动作标签传输至用户设备104，控制虚拟角色在M帧场景图像中执行与M帧场景图像对应的目标动作标签所标识的动作。

可选地，上述控制游戏场景中虚拟角色的方法可以但不限于应用于可以计算数据的用户设备104上所运行的客户端中，上述用户设备104可以为手机、平板电脑、笔记本电脑、PC机等，上述网络110可以包括但不限于无线网络或有线网络。其中，该无线网络包括：WIFI及其他实现无线通信的网络。上述有线网络可以包括但不限于：广域网、城域网、局域网。上述服务器112可以包括但不限于任何可以进行计算的硬件设备。

可选地，上述中的第一目标模型和第二目标模型包括但不限于神经网络模型。

根据本发明实施例的一个方面，提供了一种控制游戏场景中虚拟角色的方法，如图2所示，该方法包括：

S202，获取当前游戏场景中N帧场景图像；

S204，将N帧场景图像输入至第一目标模型，得到第一目标模型输出的N帧场景图像的全连接特征，其中，全连接特征用于表示N帧场景图像的图像深度特征；

S206，将N帧场景图像的全连接特征中的连续M帧场景图像的全连接特征输入至第二目标模型，得到第二目标模型输出的连续M帧场景图像对应的每个动作标签的概率；

S208，控制虚拟角色在M帧场景图像中执行与每个动作标签的概率对应的目标动作标签所标识的动作。

可选地，上述虚拟角色包括但不限于非玩家角色NPC。

可选地，上述控制游戏场景中虚拟角色的方法可以但不限于应用于游戏领域，如竞速类游戏中，或者应用于对虚拟角色训练的领域。如将上述方法应用到竞速类游戏中。获取虚拟角色在当前竞速类游戏场景中N帧场景图像；将N帧场景图像输入至第一目标模型，得到第一目标模型输出的N帧场景图像的全连接特征，其中，全连接特征用于表示每个场景图像对应的每个动作标签的概率；将N帧场景图像的全连接特征中的连续M帧场景图像的全连接特征输入至第二目标模型，得到第二目标模型输出的连续M帧场景图像对应的每个动作标签的概率，其中，概率大于预定阈值的动作标签被确定为目标动作标签，M为大于1的自然数；在虚拟训练中控制虚拟角色在M帧场景图像中执行与M帧场景图像对应的目标动作标签所标识的动作。

可选地，本实施例中的M和N均是大于1的自然数，N大于M。

如图3所示，图3为一种可选的虚拟角色所在的当前游戏场景。当前游戏场景中虚拟角色302处于待运行中，在当前游戏场景中获取到0.5秒内的预设帧数的场景图像310(例如5帧场景图像)。将预设帧数的场景图像310输入至第一目标模型中，从第一目标模型中输出每一帧场景图像所对应的每一个动作标签的概率，动作标签可以包括多个，例如：左移标签304、右移标签306、漂移标签308，漂移标签308中对应左漂移和右漂移动作。之后，将第一目标模型中输出的N帧场景图像的全连接特征中的连续M帧场景图像的全连接特征输入至第二目标模型中，得到第二目标模型输出的连续M帧场景图像对应的每个动作标签的概率，从每个动作标签的概率中选取概率比较大的动作标签作为目标动作标签。即可得出虚拟角色302在当前游戏场景中待执行的动作是目标动作标签对应的动作，例如，执行左移标签304对应的左移动作。

通过本实施例，通过第一目标模型和第二动作模型对获取的场景图像输出概率比较大的动作标签，使得虚拟角色可以执行与当前场景对应的动作，提高了虚拟角色执行动作的准确性。

可选地，场景图像可以是如图3所示的在游戏运行的过程中获取的整张场景图像，也可以是从场景图像中的一部分图像，例如小地图310，其中包括可以标识虚拟角色在游戏中所在的场景即可，但并不限于此。

通过本实施例，获取的场景图像可以包括多种，增加了得到虚拟角色所要执行动作的灵活性以及准确性。

作为一种可选的实施方案，将所述N帧场景图像输入至所述第一目标模型，包括：

S1，将N帧场景图像输入至依次连接的O个子模型，其中，O个子模型中的每个子模型包括依次连接的P个卷积层和1个全连接层，第一目标模型包括依次连接的O个子模型。

可选地，本实施例中的第一目标模型包括O个子模型，O个子模型中的每个子模型包括依次连接的P个卷积层和1个全连接层。第一目标模型可以是轻量化的深度小模型，如图4所示，是一个可选的实施例中的第一目标模型的架构图，第一目标模型包括2个子模型，每一个子模型中包括依次连接的2个卷积层和1个全连接层。整个目标模型由4个卷积层和2个全连接层组成。例如，将N帧场景图像输入至依次连接的卷积层Convolution、Convolution、全连接层MaxPollling2D，Convolution、Convolution、MaxPollling2D。

可选地，本实施例中的O和P均是大于1的自然数。

通过本实施，采用轻量化的第一目标模型输出场景图像对应的动作标签的概率，不仅可以通过场景图像识别的方法识别出场景图像所对应的动作标签，而且省时省力。

可选地，为了减少计算量，场景图像统一缩放为50×50像素大小。将缩放之后的场景图像输入至第一目标模型中。此外，O和P与终端的中央处理器CPU或资源的消耗对应。在本实施例中，由于第一目标模型是在CPU中实现的实时计算，N和M的取值直接影响CPU的消耗。适当的选取O和P的取值不仅有利于提高虚拟角色测试的准确性，而且可以减少CPU的功耗。

作为一种可选的实施方案，在将N帧场景图像输入至第一目标模型之前，方法还包括：

S1，获取用户帐号控制的虚拟角色在预定时长内在目标游戏的游戏场景中产生的多帧样本图像、以及与多帧样本图像中的每帧样本图像对应的实际动作标签，其中，实际动作标签用于表示虚拟角色执行了动作集合中的一个动作；

S2，使用多帧样本图像以及与多帧样本图像中的每帧样本图像对应的实际动作标签对第一原始模型进行训练，得到第一目标模型，其中，多帧样本图像为第一原始模型的输入，训练好的第一目标模型输出的每帧样本图像对应的目标动作标签与每帧样本图像对应的实际动作标签满足第一目标函数。

可选地，本实施例中的用户账号可以是通过客户端登录到竞速类游戏中的账号。如图5所示，是可选的获取的样本图像的示意图，在控制虚拟角色502在竞速类游戏行驶的过程中，录制虚拟角色502的运行图像，得到样本图像。样本图像采样的频率可以是1秒10帧，可以录制8局竞速类游戏，保存样本游戏图像和样本图像对应的动作标签，样本图像的大小设置为640×360像素大小。

可选地，采用1秒10帧的采样频率是因为虚拟角色做动作的频率为一秒10个动作。录制8局竞速类游戏，耗费的时间大约是20分钟。动作标签可以包括多个，例如：左移标签504、右移标签506、漂移标签508，漂移标签508中对应左漂移和右漂移动作，对应的动作集合中的动作可以是左移、右移、左漂移、右漂移、无动作。每一个样本图像对应一个动作标签。录制完样本图像后，可以对采样图像进行处理，例如，如果一帧样本图像对应的动作标签中同时包含左移标签504和漂移标签508，则将该动作标签改成漂移标签508中的左漂移标签，如果同时出现右移标签504和漂移标签508，则将该动作标签改成漂移标签508中的右漂移标签。

通过本实施例，通过在预定时长内录制游戏场景中的多帧样本图像，利用多帧样本图像对第一原始模型和第二原始模型进行训练，得到第一目标模型和第二目标模型。并不需要通过人工设计的游戏奖励函数对虚拟角色进行强化学习训练。本实施例通过半小时的人工录制样本图像，并充分挖掘样本图像与动作标签之间的关系，通过轻量化模型对虚拟角色进行训练，可以快速训练得到符合需求的虚拟角色I，节省了资源。

作为一种可选的实施方案，使用多帧样本图像以及与多帧样本图像中的每帧样本图像对应的动作标签对第一原始模型进行训练，得到第一目标模型，包括：

S1，将多帧样本图像中的每帧样本图像输入至第一原始模型中，得到第一原始模型输出的每帧样本图像对应的动作标签的概率、多帧样本图像的全连接特征；

其中，每帧样本图像对应的动作标签的概率用于验证全连接特征对应的多帧样本图像的图像深度特征，概率大于第一预定阈值的动作标签被确定为目标动作标签，在每帧样本图像对应的目标动作标签与每帧样本图像对应的实际动作标签满足预定的第一交叉熵损失函数的情况下，将对应的第一原始模型确定为训练好的第一目标模型，其中，第一目标函数包括第一交叉熵损失函数。

可选地，每帧样本图像对应的动作标签概率包括多个，将其中概率比较大的动作标签确定为目标动作标签。在本实施例中，可以通过第一交叉熵损失迭代更新第一目标模型的深度网络参数。

可选地，在每帧样本图像对应的目标动作标签与每帧样本图像对应的实际动作标签满足预定的第一交叉熵损失函数的情况下，对第一原始模型进行训练的迭代次数还需要满足预设阈值，使得得到的第一目标模型输出的动作标签的概率满足收敛精度。

可选地，如图4所示，第一个全连接层用于输出全连接特征；第二个全连接层用于输出每帧样本图像对应的动作标签的概率，用于验证全连接特征对应的多帧样本图像的图像深度特征。

通过本实施例，对第一目标模型的训练满足迭代次数和第一交叉熵损失函数，使得第一目标模型的训练更加的准确。

作为一种可选的实施方案，在将连续M帧场景图像的全连接特征输入至第二目标模型之前，方法还包括：

S1，使用所述第一目标模型输出的所述多帧样本图像中连续Q帧样本图像的全连接特征对第二原始模型进行训练，得到第二目标模型；

其中，所述多帧样本图像中连续Q帧样本图像的全连接特征为所述第二原始模型的输入，所述第二目标模型的输出用于表示所述连续Q帧样本图像对应的每个动作标签的概率，所述概率大于预定阈值的动作标签被确定为目标动作标签，所述M为大于1的自然数，训练好的所述第二目标模型输出的所述连续Q帧样本图像对应的目标动作标签与所述连续Q帧样本图像对应的实际动作标签满足第二目标函数。

可选地，由于竞速类游戏中的动作有一定的连续性，相邻时间的动作有较强的内在关联，而仅仅从单张样本图像考虑游戏动作会丢失游戏在时序上的特征。本实施例将连续的样本图像在第二原始模型中进行训练，第二原始模型可以是长短期记忆网络LSTM结构的深度网络。例如，为了加快第二原始模型的收敛，本实施例将5帧样本图像的轻量化小模型的全连接特征作为LSTM网络模型的输入，LSTM网络模型的输出的特征维度为100，随后通过一个全连接层输出每个动作标签的概率，LSTM网络模型的网络架构如图6所示。

通过本实施例，第二目标模型的深度网络能提取游戏的时序特征，其将轻量化小模型的全连接特征作为输入，进一步加速了第二目标模型的收敛速度。

作为一种可选的实施方案，使用第一目标模型输出的多帧样本图像中连续N帧样本图像的全连接特征对第二原始模型进行训练，得到第二目标模型，包括：

S1，将所述多帧样本图像中连续Q帧样本图像的全连接特征输入至所述第二原始中，得到所述第二原始输出的所述连续Q帧样本图像对应的每个动作标签的概率；

其中，所述概率大于第二预定阈值的动作标签被确定为目标动作标签，在所述连续Q帧样本图像对应的目标动作标签与所述连续Q帧样本图像对应的实际动作标签满足预定的第二交叉熵损失函数的情况下，将对应的所述第二原始模型确定为训练好的所述第二目标模型，其中，所述第二目标函数包括所述第二交叉熵损失函数。

可选地，本实施例中的Q是大于1的自然数。

可选地，本实施例为了防止第二目标模型的过拟合，在全连接层加入了正则化项。通过20轮迭代优化，能得到优化后的第二目标模型的深度网络模型，加速了第二目标模型的网络收敛速度。

可选地，在目标动作标签与每帧样本图像对应的实际动作标签满足预定的第二交叉熵损失函数的情况下，对第二原始模型进行训练的迭代次数还需要满足预设阈值，使得得到的第二目标模型输出的动作标签的概率满足收敛精度。

通过本实施例，基于模仿学习的竞速类游戏自动化人工智能(ArtificialIntelligence，简称为AI)方案，采用长短期记忆网络(Long Short-Term Memory，简称为LSTM)模型实现竞速类游戏时序特征的提取，也可以采用注意力模型，将重要时刻的特征给予更高的权重，可以达到同样或更好的竞速类游戏AI效果。

S1，从所述多帧样本图像中的每帧样本图像中提取出预定区域的图像，得到多帧场景图像，其中，所述多帧场景图像与所述多帧样本图像的帧数相同，所述多帧样本图像所对应的每一种动作标签的数量在所述多帧样本图像中所有种的动作标签的总数中所占的比例满足对应的预设阈值；

S2，在所述多帧场景图像中的每帧场景图像中裁剪预定比例的图像，得到多帧裁剪图像，其中，所述多帧样本场景图像包括所述多帧场景图像和所述多帧裁剪图像；

S3，使用所述多帧样本场景图像所对应的动作标签以及多帧样本场景图像对所述第一原始模型进行训练，得到所述第一目标模型。

可选地，本实施例在确定采样图像之后，可以调整每一类动作标签所占的样本比例，例如，调整每类动作标签对应的样本图像的数量至少大于总样本数的20％。在本实施例中，可以从样本图像中提取出小地图的区域，将小地图区域的图像作为样本图像。

此外，由于录制的样本图像可能不能涵盖所有的游戏场景，样本不够充分，容易使模型过拟合。为了防止模型过拟合，本实施例采用以下方式：

1)随机对样本图像进行裁剪，扩充样本数量；例如，从原始的每帧场景图像中选取90％的区域进行裁剪，将得到一张裁剪图像，和原始的每帧场景图像共同组成样本。

2)在全连接层加入正则化项，防止模型的参数太复杂。

可选地，在对样本图像进行处理之后，可以选取样本图像中的80％的样本作为训练，余下的样本做验证。

通过本实施例，通过对样本图像的处理，防止了模型训练的过拟合，而且可以实现虚拟角色的快速训练。

作为一种可选的实施方案控制所述虚拟角色在所述M帧场景图像中执行与每个动作标签的概率对应的所述目标动作标签所标识的动作，包括：

S1，将概率大于预定阈值的动作标签被确定为目标动作标签；

S2，控制所述虚拟角色在所述N帧场景图像中的当前帧场景图像中执行与所述M帧场景图像对应的所述目标动作标签所标识的动作，其中，所述M帧场景图像包括所述当前帧场景图像。

可选地，预定阈值可以是每个动作标签的概率中最大的概率值。当前帧图像是在当前游戏场景中获取的，M帧场景图像中包括当前帧图像和在当前帧图像之前的连续的M-1帧场景图像。

通过本实施例，虚拟角色可以在当前场景中执行目标动作标签所标识的动作，可以准确的控制虚拟角色的所执行的动作。

作为一种可选的实施方案，在对第一目标模型和第二目标训练之后，可以对第一目标模型和第二目标进行测试。如图7所示，是一个可选的对模型进行测试的流程图，包括：

S701：获取当前游戏场景中的场景图像；

S702：从场景图像中提取小地图图像，将小地图图像缩放至50×50像素；

S703：将提取的小地图图像输入第一目标模型中，例如，轻量化小模型，提取小地图图像的全连接特征，例如，连续5帧的小地图图像；

S704：将连续5帧的小地图图像输入第二目标模型，例如，LSTM网络模型，提取出动作标签的时序特征；

S705：第二目标模型输出每一个动作标签的概率。

在本实施例中，对模型进行测试的过程与对模型进行训练的过程类似。

通过本实施例，采用最大后验概率的方式得到最终的动作标签，训练速度快，消耗资源少。

根据本发明实施例的一个方面，还提供了一种游戏场景中虚拟角色的训练方法，如图8所示，上述方法包括：

S802，获取用户帐号控制的虚拟角色在预定时长内在目标游戏的游戏场景中产生的多帧样本图像、以及与多帧样本图像中的每帧样本图像对应的实际动作标签，其中，实际动作标签用于表示虚拟角色执行了动作集合中的一个动作；

S804，使用多帧样本图像以及与多帧样本图像中的每帧样本图像对应的实际动作标签对第一原始模型进行训练，得到第一目标模型，其中，多帧样本图像为第一原始模型的输入，训练好的第一目标模型输出的每帧样本图像对应的目标动作标签与每帧样本图像对应的实际动作标签满足第一目标函数。

可选地，使用多帧样本图像以及与多帧样本图像中的每帧样本图像对应的动作标签对第一原始模型进行训练，得到第一目标模型之后，上述方法还包括：

S1，使用第一目标模型输出的多帧样本图像中连续Q帧样本图像的全连接特征对第二原始模型进行训练，得到第二目标模型；

其中，多帧样本图像中连续Q帧样本图像的全连接特征为第二原始模型的输入，第二目标模型的输出用于表示连续Q帧样本图像对应的每个动作标签的概率，概率大于预定阈值的动作标签被确定为目标动作标签，M为大于1的自然数，训练好的第二目标模型输出的连续Q帧样本图像对应的目标动作标签与连续Q帧样本图像对应的实际动作标签满足第二目标函数。

可选地，本实施例中的Q是大于1的自然数。

通过本实施例，通过在预定时长内录制游戏场景中的多帧样本图像，利用多帧样本图像对第一原始模型和第二原始模型进行训练，得到第一目标模型和第二目标模型。并不需要通过人工设计的游戏奖励函数对虚拟角色进行强化学习训练。本实施例通过半小时的人工录制样本图像，并充分挖掘样本图像与动作标签之间的关系，通过轻量化模型对虚拟角色进行训练，可以快速训练得到符合需求的虚拟角色，节省了资源。

可选地，本实施例为了防止第二目标模型的过拟合，在全连接层加入了正则化项。通过20轮迭代优化，能得到优化后的第二目标模型的深度网络模型，进一步加速了第二目标模型的网络收敛速度。

通过本实施例，基于模仿学习的竞速类游戏自动化人工智能AI方案，采用LSTM模型实现竞速类游戏时序特征的提取，也可以采用注意力模型，将重要时刻的特征给予更高的权重，可以达到同样或更好的竞速类游戏AI效果。

2)在全连接层加入正则化项，防止模型的参数太复杂。

下面结合图8a对本实施例的整体流程进行说明，包括以下步骤：

S1，收集人玩游戏的视频，从视频中获取用户帐号控制的虚拟角色在预定时长内在目标游戏的游戏场景中的多帧样本图像；

S2，小地图提取和预处理，随机对样本图像(小地图)进行裁剪，扩充样本数量；

S3，轻量级网络的训练，将多帧样本图像中的每帧样本图像输入至轻量级网络模型中，得到轻量级网络模型输出的每帧样本图像对应的动作标签的概率、多帧样本图像的全连接特征；

S4，图像的深度特征提取，从多帧样本图像的全连接特征中提取Q帧样本图像的全连接特征；

S5，LSTM网络模型训练，使用所述第一目标模型输出的所述多帧样本图像中连续Q帧样本图像的全连接特征对LSTM网络模型进行训练，得到第二目标模型。

本实施例的其他实现方式请参见上述实施例的描述，在此不做赘述。

根据本发明实施例的一个方面，还提供了一种用于实施上述控制游戏场景中虚拟角色方法的控制装置。如图9所示，该装置包括：

第一获取模块92，用于获取当前游戏场景中N帧场景图像；

第一确定模块94，用于将N帧场景图像输入至第一目标模型，得到第一目标模型输出的N帧场景图像的全连接特征，其中，全连接特征用于表示N帧场景图像的图像深度特征；

第二确定模块96，用于将N帧场景图像的全连接特征中的连续M帧场景图像的全连接特征输入至第二目标模型，得到第二目标模型输出的连续M帧场景图像对应的每个动作标签的概率；

控制模块98，用于控制虚拟角色在M帧场景图像中执行与每个动作标签的概率对应的目标动作标签所标识的动作。

可选地，第一确定模块94包括：

第一输入单元，用于将上述N帧场景图像输入至依次连接的O个子模型，其中，上述O个子模型中的每个子模型包括依次连接的P个卷积层和1个全连接层，其中，上述N为大于1的自然数，上述第一目标模型包括上述依次连接的O个子模型。

可选地，第一输入单元包括：

第一输入子单元，用于将N帧场景图像输入至依次连接的2个子模型，其中，2个子模型中的每个子模型中包括依次连接的2个卷积层和1个全连接层。

可选地，上述O和P的取值与用于运行目标游戏的终端上的中央处理器CPU和/或内存对应。

第三获取模块，用于获取用户帐号控制的虚拟角色在预定时长内在目标游戏的游戏场景中产生的多帧样本图像、以及与多帧样本图像中的每帧样本图像对应的实际动作标签，其中，实际动作标签用于表示虚拟角色执行了动作集合中的一个动作；

第五确定模块，用于使用多帧样本图像以及与多帧样本图像中的每帧样本图像对应的实际动作标签对第一原始模型进行训练，得到第一目标模型，其中，上述多帧样本图像为上述第一原始模型的输入，训练好的上述第一目标模型输出的上述每帧样本图像对应的目标动作标签与上述每帧样本图像对应的实际动作标签满足第一目标函数。

可选地，装置还包括：第六确定模块，用于使用上述第一目标模型输出的上述多帧样本图像中连续Q帧样本图像的全连接特征对第二原始模型进行训练，得到第二目标模型；

其中，上述多帧样本图像中连续Q帧样本图像的全连接特征为上述第二原始模型的输入，上述第二目标模型的输出用于表示上述连续Q帧样本图像对应的每个动作标签的概率，上述概率大于预定阈值的动作标签被确定为目标动作标签，上述M为大于1的自然数，训练好的上述第二目标模型输出的上述连续Q帧样本图像对应的目标动作标签与上述连续Q帧样本图像对应的实际动作标签满足第二目标函数。

可选地，第五确定模块包括：

第一提取单元，用于从上述多帧样本图像中的每帧样本图像中提取出预定区域的图像，得到多帧场景图像，其中，上述多帧场景图像与上述多帧样本图像的帧数相同，上述多帧样本图像所对应的每一种动作标签的数量在上述多帧样本图像中所有种的动作标签的总数中所占的比例满足对应的预设阈值；

第一确定单元，用于在上述多帧场景图像中的每帧场景图像中裁剪预定比例的图像，得到多帧裁剪图像，其中，上述多帧样本场景图像包括上述多帧场景图像和上述多帧裁剪图像；

第二确定单元，用于使用上述多帧样本场景图像所对应的动作标签以及多帧样本场景图像对上述第一原始模型进行训练，得到上述第一目标模型。

可选地，第五确定模块包括：

第三确定单元，用于将上述多帧样本图像中的每帧样本图像输入至上述第一原始模型中，得到上述第一原始模型输出的上述每帧样本图像对应的动作标签的概率、上述多帧样本图像的全连接特征；

其中，上述每帧样本图像对应的动作标签的概率用于验证上述全连接特征对应的多帧样本图像的图像深度特征，上述概率大于第一预定阈值的动作标签被确定为目标动作标签，在上述每帧样本图像对应的目标动作标签与上述每帧样本图像对应的实际动作标签满足预定的第一交叉熵损失函数的情况下，将对应的上述第一原始模型确定为训练好的上述第一目标模型，其中，上述第一目标函数包括上述第一交叉熵损失函数。

可选地，第六确定模块包括：

第四确定单元，用于将上述多帧样本图像中连续Q帧样本图像的全连接特征输入至上述第二原始中，得到上述第二原始输出的上述连续Q帧样本图像对应的每个动作标签的概率；

其中，上述概率大于第二预定阈值的动作标签被确定为目标动作标签，在上述连续Q帧样本图像对应的目标动作标签与上述连续Q帧样本图像对应的实际动作标签满足预定的第二交叉熵损失函数的情况下，将对应的上述第二原始模型确定为训练好的上述第二目标模型，其中，上述第二目标函数包括上述第二交叉熵损失函数。

可选地，上述控制模块包括：

处理单元，用于将上述概率大于预定阈值的动作标签被确定为上述目标动作标签；

第一控制单元，用于控制上述虚拟角色在上述N帧场景图像中的当前帧场景图像中执行与上述M帧场景图像对应的上述目标动作标签所标识的动作，其中，上述M帧场景图像包括上述当前帧场景图像。

根据本发明实施例的一个方面，还提供了一种用于实施上述游戏场景中虚拟角色的训练方法的训练装置。如图10所示，该装置包括：

第二获取模块1002，用于获取用户帐号控制的虚拟角色在预定时长内在上述目标游戏的游戏场景中产生的多帧样本图像、以及与上述多帧样本图像中的每帧样本图像对应的实际动作标签，其中，上述实际动作标签用于表示上述虚拟角色执行了动作集合中的一个动作；

第三确定模块1004，用于使用上述多帧样本图像以及与上述多帧样本图像中的每帧样本图像对应的实际动作标签对第一原始模型进行训练，得到第一目标模型，其中，上述多帧样本图像为上述第一原始模型的输入，训练好的上述第一目标模型输出的上述每帧样本图像对应的目标动作标签与上述每帧样本图像对应的实际动作标签满足第一目标函数。

可选地，上述装置还包括：

第四确定模块1006，用于使用上述第一目标模型输出的上述多帧样本图像中连续Q帧样本图像的全连接特征对第二原始模型进行训练，得到第二目标模型；

可选地，第三确定模块1004包括：

第二提取单元，用于从上述多帧样本图像中的每帧样本图像中提取出预定区域的图像，得到多帧场景图像，其中，上述多帧场景图像与上述多帧样本图像的帧数相同，上述多帧样本图像所对应的每一种动作标签的数量在上述多帧样本图像中所有种的动作标签的总数中所占的比例满足对应的预设阈值；

第五确定单元，用于在上述多帧场景图像中的每帧场景图像中裁剪预定比例的图像，得到多帧裁剪图像，其中，上述多帧样本场景图像包括上述多帧场景图像和上述多帧裁剪图像；

第六确定单元，用于使用上述多帧样本场景图像所对应的动作标签以及多帧样本场景图像对上述第一原始模型进行训练，得到上述第一目标模型。

可选地，第三确定模块1004包括：

第七确定单元，用于将上述多帧样本图像中的每帧样本图像输入至上述第一原始模型中，得到上述第一原始模型输出的上述每帧样本图像对应的动作标签的概率、上述多帧样本图像的全连接特征；

可选地，第四确定模块1006包括：

第八确定单元，用于将上述多帧样本图像中连续Q帧样本图像的全连接特征输入至上述第二原始中，得到上述第二原始输出的上述连续Q帧样本图像对应的每个动作标签的概率；

根据本发明实施例的又一个方面，还提供了一种用于实施上述控制游戏场景中虚拟角色的方法的电子装置，如图11所示，该电子装置包括存储器1102和处理器1104，该存储器1102中存储有计算机程序，该处理器1104被设置为通过计算机程序执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述电子装置可以位于计算机网络的多个网络设备中的至少一个网络设备。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

S1，获取当前游戏场景中N帧场景图像；

S2，将N帧场景图像输入至第一目标模型，得到第一目标模型输出的N帧场景图像的全连接特征，其中，全连接特征用于表示N帧场景图像的图像深度特征；

S3，将N帧场景图像的全连接特征中的连续M帧场景图像的全连接特征输入至第二目标模型，得到第二目标模型输出的连续M帧场景图像对应的每个动作标签的概率；

S4，控制虚拟角色在M帧场景图像中执行与每个动作标签的概率对应的目标动作标签所标识的动作。

可选地，本领域普通技术人员可以理解，图11所示的结构仅为示意，电子装置也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices，MID)、PAD等终端设备。图11其并不对上述电子装置的结构造成限定。例如，电子装置还可包括比图11中所示更多或者更少的组件(如网络接口等)，或者具有与图11所示不同的配置。

其中，存储器1102可用于存储软件程序以及模块，如本发明实施例中的控制游戏场景中虚拟角色的方法和装置对应的程序指令/模块，处理器1104通过运行存储在存储器1102内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的控制游戏场景中虚拟角色的方法。存储器1102可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器1102可进一步包括相对于处理器1104远程设置的存储器，这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。其中，存储器1102具体可以但不限于用于存储虚拟角色的运行数据等信息。作为一种示例，如图11所示，上述存储器1102中可以但不限于包括上述控制游戏场景中虚拟角色的装置中的第一获取模块92、第一确定模块94、第二确定模块96与控制模块98。此外，还可以包括但不限于上述虚拟赛车的控制装置中的其他模块单元，本示例中不再赘述。

可选地，上述的传输装置1106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中，传输装置2006包括一个网络适配器(Network Interface Controller，NIC)，其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中，传输装置1106为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

此外，上述电子装置还包括：显示器1108，用于显示一局游戏的虚拟场景；和连接总线1110，用于连接上述电子装置中的各个模块部件。

根据本发明实施例的又一个方面，还提供了一种用于实施上述控制游戏场景中虚拟角色方法的控制方法的电子装置，如图12所示，该电子装置包括存储器1202和处理器1204，该存储器1202中存储有计算机程序，该处理器1204被设置为通过计算机程序执行上述任一项方法实施例中的步骤。

可选地，本领域普通技术人员可以理解，图12所示的结构仅为示意，电子装置也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices，MID)、PAD等终端设备。图12其并不对上述电子装置的结构造成限定。例如，电子装置还可包括比图12中所示更多或者更少的组件(如网络接口等)，或者具有与图12所示不同的配置。

其中，存储器1202可用于存储软件程序以及模块，如本发明实施例中的虚游戏场景中虚拟角色的训练方法和装置对应的程序指令/模块，处理器1204通过运行存储在存储器1202内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的游戏场景中虚拟角色的训练方法。存储器1202可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器1202可进一步包括相对于处理器1204远程设置的存储器，这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。其中，存储器1202具体可以但不限于用于存储虚拟角色运行数据等信息。作为一种示例，如图12所示，上述存储器1202中可以但不限于包括上述游戏场景中虚拟角色的训练装置中的第二获取模块1002、第三确定模块1004与第四确定模块1006。此外，还可以包括但不限于上述虚拟角色的训练方法的训练装置中的其他模块单元，本示例中不再赘述。

可选地，上述的传输装置1206用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中，传输装置1206包括一个网络适配器(Network Interface Controller，NIC)，其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中，传输装置1206为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

此外，上述电子装置还包括：显示器1208，用于显示一局游戏的虚拟场景；和连接总线1210，用于连接上述电子装置中的各个模块部件。

根据本发明的实施例的又一方面，还提供了一种存储介质，该存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(Random Access Memory，RAM)、磁盘或光盘等。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种控制游戏场景中虚拟角色的方法，其特征在于，包括：

获取当前游戏场景中N帧场景图像；

将所述N帧场景图像输入至第一目标模型，得到所述第一目标模型输出的所述N帧场景图像的全连接特征，其中，所述全连接特征用于表示所述N帧场景图像的图像深度特征；

将所述N帧场景图像的全连接特征中的连续M帧场景图像的全连接特征输入至第二目标模型，得到所述第二目标模型输出的所述连续M帧场景图像对应的每个动作标签的概率；

控制所述虚拟角色在所述M帧场景图像中执行与所述每个动作标签的概率对应的目标动作标签所标识的动作；

训练得到所述第一目标模型的方法，包括：获取用户帐号控制的虚拟角色在预定时长内在目标游戏的游戏场景中产生的多帧样本图像、以及与所述多帧样本图像中的每帧样本图像对应的实际动作标签，其中，所述实际动作标签用于表示所述虚拟角色执行了动作集合中的一个动作；使用所述多帧样本图像以及与所述多帧样本图像中的每帧样本图像对应的实际动作标签对第一原始模型进行训练，得到第一目标模型，其中，所述多帧样本图像为所述第一原始模型的输入，训练好的所述第一目标模型输出的所述每帧样本图像对应的目标动作标签与所述每帧样本图像对应的实际动作标签满足第一目标函数；

训练得到所述第二目标模型的方法，包括：使用所述第一目标模型输出的所述多帧样本图像中连续Q帧样本图像的全连接特征对第二原始模型进行训练，得到第二目标模型；其中，所述多帧样本图像中连续Q帧样本图像的全连接特征为所述第二原始模型的输入，所述第二目标模型的输出用于表示所述连续Q帧样本图像对应的每个动作标签的概率，训练好的所述第二目标模型输出的所述连续Q帧样本图像对应的目标动作标签与所述连续Q帧样本图像对应的实际动作标签满足第二目标函数。

2.根据权利要求1所述的方法，其特征在于，将所述N帧场景图像输入至所述第一目标模型，包括：

将所述N帧场景图像输入至依次连接的O个子模型，其中，所述O个子模型中的每个子模型包括依次连接的P个卷积层和1个全连接层，其中，所述第一目标模型包括所述依次连接的O个子模型。

3.根据权利要求2所述的方法，其特征在于，将所述N帧场景图像输入至依次连接的所述O个子模型，包括：

将所述N帧场景图像输入至依次连接的2个子模型，其中，所述2个子模型中的每个子模型中包括依次连接的2个卷积层和1个全连接层。

4.根据权利要求2所述的方法，其特征在于，所述O和所述P的取值与用于运行目标游戏的终端上的中央处理器CPU和/或内存对应。

5.根据权利要求1所述的方法，其特征在于，在将所述N帧场景图像输入至所述第一目标模型之前，所述方法还包括：

获取用户帐号控制的虚拟角色在预定时长内在目标游戏的游戏场景中产生的多帧样本图像、以及与所述多帧样本图像中的每帧样本图像对应的实际动作标签，其中，所述实际动作标签用于表示所述虚拟角色执行了动作集合中的一个动作；

使用所述多帧样本图像以及与所述多帧样本图像中的每帧样本图像对应的实际动作标签对第一原始模型进行训练，得到第一目标模型，其中，所述多帧样本图像为所述第一原始模型的输入，训练好的所述第一目标模型输出的所述每帧样本图像对应的目标动作标签与所述每帧样本图像对应的实际动作标签满足第一目标函数。

6.根据权利要求5所述的方法，其特征在于，在将所述连续M帧场景图像的全连接特征输入至所述第二目标模型之前，所述方法还包括：

使用所述第一目标模型输出的所述多帧样本图像中连续Q帧样本图像的全连接特征对第二原始模型进行训练，得到第二目标模型；

其中，所述多帧样本图像中连续Q帧样本图像的全连接特征为所述第二原始模型的输入，所述第二目标模型的输出用于表示所述连续Q帧样本图像对应的每个动作标签的概率，训练好的所述第二目标模型输出的所述连续Q帧样本图像对应的目标动作标签与所述连续Q帧样本图像对应的实际动作标签满足第二目标函数。

7.根据权利要求5所述的方法，其特征在于，使用所述多帧样本图像以及与所述多帧样本图像中的每帧样本图像对应的动作标签对第一原始模型进行训练，得到所述第一目标模型，包括：

从所述多帧样本图像中的每帧样本图像中提取出预定区域的图像，得到多帧场景图像，其中，所述多帧场景图像与所述多帧样本图像的帧数相同，所述多帧样本图像所对应的每一种动作标签的数量在所述多帧样本图像中所有种的动作标签的总数中所占的比例满足对应的预设阈值；

在所述多帧场景图像中的每帧场景图像中裁剪预定比例的图像，得到多帧裁剪图像，其中，多帧样本场景图像包括所述多帧场景图像和所述多帧裁剪图像；

使用所述多帧样本场景图像所对应的动作标签以及多帧样本场景图像对所述第一原始模型进行训练，得到所述第一目标模型。

8.根据权利要求1至7中任一项所述的方法，其特征在于，控制所述虚拟角色在所述M帧场景图像中执行与所述每个动作标签的概率对应的所述目标动作标签所标识的动作，包括：

将所述概率大于预定阈值的动作标签被确定为所述目标动作标签；

控制所述虚拟角色在所述N帧场景图像中的当前帧场景图像中执行与所述M帧场景图像对应的所述目标动作标签所标识的动作，其中，所述M帧场景图像包括所述当前帧场景图像。

9.一种游戏场景中虚拟角色的训练方法，其特征在于，包括：

使用所述多帧样本图像以及与所述多帧样本图像中的每帧样本图像对应的实际动作标签对第一原始模型进行训练，得到第一目标模型，其中，所述多帧样本图像为所述第一原始模型的输入，训练好的所述第一目标模型输出的所述每帧样本图像对应的目标动作标签与所述每帧样本图像对应的实际动作标签满足第一目标函数；

10.根据权利要求9所述的方法，其特征在于，使用所述多帧样本图像以及与所述多帧样本图像中的每帧样本图像对应的动作标签对第一原始模型进行训练，得到第一目标模型，包括：

11.一种控制游戏场景中虚拟角色的装置，其特征在于，包括：

第一获取模块，用于获取当前游戏场景中N帧场景图像；

第一确定模块，用于将所述N帧场景图像输入至第一目标模型，得到所述第一目标模型输出的所述N帧场景图像的全连接特征，其中，所述全连接特征用于表示所述N帧场景图像的图像深度特征；

第二确定模块，用于将所述N帧场景图像的全连接特征中的连续M帧场景图像的全连接特征输入至第二目标模型，得到所述第二目标模型输出的所述连续M帧场景图像对应的每个动作标签的概率；

控制模块，用于控制所述虚拟角色在所述M帧场景图像中执行与所述每个动作标签的概率对应的目标动作标签所标识的动作；

所述控制游戏场景中虚拟角色的装置还用于：获取用户帐号控制的虚拟角色在预定时长内在目标游戏的游戏场景中产生的多帧样本图像、以及与所述多帧样本图像中的每帧样本图像对应的实际动作标签，其中，所述实际动作标签用于表示所述虚拟角色执行了动作集合中的一个动作；使用所述多帧样本图像以及与所述多帧样本图像中的每帧样本图像对应的实际动作标签对第一原始模型进行训练，得到第一目标模型，其中，所述多帧样本图像为所述第一原始模型的输入，训练好的所述第一目标模型输出的所述每帧样本图像对应的目标动作标签与所述每帧样本图像对应的实际动作标签满足第一目标函数；使用所述第一目标模型输出的所述多帧样本图像中连续Q帧样本图像的全连接特征对第二原始模型进行训练，得到第二目标模型；其中，所述多帧样本图像中连续Q帧样本图像的全连接特征为所述第二原始模型的输入，所述第二目标模型的输出用于表示所述连续Q帧样本图像对应的每个动作标签的概率，训练好的所述第二目标模型输出的所述连续Q帧样本图像对应的目标动作标签与所述连续Q帧样本图像对应的实际动作标签满足第二目标函数。

12.一种游戏场景中虚拟角色的训练装置，其特征在于，包括：

第二获取模块，用于获取用户帐号控制的虚拟角色在预定时长内在目标游戏的游戏场景中产生的多帧样本图像、以及与所述多帧样本图像中的每帧样本图像对应的实际动作标签，其中，所述实际动作标签用于表示所述虚拟角色执行了动作集合中的一个动作；

第三确定模块，用于使用所述多帧样本图像以及与所述多帧样本图像中的每帧样本图像对应的实际动作标签对第一原始模型进行训练，得到第一目标模型，其中，所述多帧样本图像为所述第一原始模型的输入，训练好的所述第一目标模型输出的所述每帧样本图像对应的目标动作标签与所述每帧样本图像对应的实际动作标签满足第一目标函数；

所述游戏场景中虚拟角色的训练装置，还用于使用所述第一目标模型输出的所述多帧样本图像中连续Q帧样本图像的全连接特征对第二原始模型进行训练，得到第二目标模型；其中，所述多帧样本图像中连续Q帧样本图像的全连接特征为所述第二原始模型的输入，所述第二目标模型的输出用于表示所述连续Q帧样本图像对应的每个动作标签的概率，训练好的所述第二目标模型输出的所述连续Q帧样本图像对应的目标动作标签与所述连续Q帧样本图像对应的实际动作标签满足第二目标函数。

13.一种存储介质，所述存储介质存储有计算机程序，其特征在于，所述计算机程序运行时执行所述权利要求1至8或9至10任一项中所述的方法。

14.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为通过所述计算机程序执行所述权利要求1至8或9至10任一项中所述的方法。