CN109034397A

CN109034397A - 模型训练方法、装置、计算机设备及存储介质

Info

Publication number: CN109034397A
Application number: CN201810910064.3A
Authority: CN
Inventors: 黄盈; 荆彦青
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2018-08-10
Filing date: 2018-08-10
Publication date: 2018-12-18
Anticipated expiration: 2038-08-10
Also published as: CN109034397B

Abstract

本申请是关于一种模型训练方法。该方法包括：获取第一样本集，第一样本集包含第一样本图像以及第一样本图像的行为信息，行为信息用于指示虚拟对象的行为动作；通过第一样本集进行模型训练，获得初始模型；获取第二样本集，第二样本集包含第二样本图像以及第二样本图像的行为信息，第二样本图像是通过初始模型控制虚拟对象时的场景画面图像；通过第二样本集对初始模型进行再训练，获得对象控制模型。不需要长时间的在线训练，也不需要准备大量的训练样本，只需要在初始时准备少量训练样本，后续样本在训练过程中对初始模型的执行结果进行修正获得，从而极大的提高对虚拟场景中的虚拟对象进行控制的机器学习模型的训练效率。

Description

模型训练方法、装置、计算机设备及存储介质

技术领域

本申请实施例涉及机器学习技术领域，特别涉及一种模型训练方法、装置、计算机设备及存储介质。

背景技术

在很多构建虚拟场景的应用程序(比如虚拟现实应用程序、三维地图程序、军事仿真程序、第一人称射击游戏、多人在线战术竞技游戏等)中，系统有对虚拟场景中的虚拟对象进行自动控制的需求。

在相关技术中，虚拟场景中的虚拟对象的自动控制可以通过训练好的深度强化学习模型进行控制。其中，深度强化学习模型为在线训练的机器学习模型，在训练深度强化学习模型时，开发人员预先为深度强化学习模型定义初始参数，并通过深度强化学习模型在线控制虚拟对象，并根据对虚拟对象的控制的反馈不断的对深度强化学习模型的参数进行更新，直至深度强化学习模型对虚拟对象的控制效果达到预定要求。

然而，相关技术中的深度强化学习模型经过需要较长时间的在线训练，导致模型训练的效率较低。

发明内容

本申请实施例提供了一种模型训练方法、装置、计算机设备及存储介质，能够提高对虚拟场景中的虚拟对象进行控制的机器学习模型的训练效率，技术方案如下：

一方面，提供了一种模型训练方法，所述方法包括：

获取第一样本集，所述第一样本集包含第一样本图像以及所述第一样本图像的行为信息，所述第一样本图像是通过终端控制虚拟场景中的虚拟对象时的场景画面图像，所述行为信息用于指示所述虚拟对象的行为动作；

通过所述第一样本集进行模型训练，获得初始模型；

获取第二样本集，所述第二样本集包含第二样本图像以及所述第二样本图像的行为信息，所述第二样本图像是通过所述初始模型控制所述虚拟对象时的场景画面图像，所述第二样本图像的行为信息是对所述初始模型根据所述第二样本图像获得的行为动作进行修正获得的行为信息；

通过所述第二样本集对所述初始模型进行再训练，获得对象控制模型。

另一方面，提供了一种模型训练装置，所述装置包括：

第一样本获取模块，用于获取第一样本集，所述第一样本集包含第一样本图像以及所述第一样本图像的行为信息，所述第一样本图像是通过终端控制虚拟场景中的虚拟对象时的场景画面图像，所述行为信息用于指示所述虚拟对象的行为动作；

第一训练模块，用于通过所述第一样本集进行模型训练，获得初始模型；

第二样本获取模块，用于获取第二样本集，所述第二样本集包含第二样本图像以及所述第二样本图像的行为信息，所述第二样本图像是通过所述初始模型控制所述虚拟对象时的场景画面图像，所述第二样本图像的行为信息是对所述初始模型根据所述第二样本图像获得的行为动作进行修正获得的行为信息；

第二训练模块，用于通过所述第二样本集对所述初始模型进行再训练，获得对象控制模型。

另一方面，提供了一种计算机设备，所述计算机设备包含处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现上述的模型训练方法。

另一方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现上述的模型训练方法。

本申请提供的技术方案可以包括以下有益效果：

首先通过第一样本图像和第一样本图像的行为信息训练获得的一个初始模型，然后通过该初始模型控制虚拟场景中的虚拟对象，同时获取初始模型控制虚拟对象时的场景画面图像，在对初始模型根据该场景画面图像确定执行的行为进行修正后，将该场景画面图像和修正后的动作行为作为新的训练样本对初始模型再训练，以获得最终的对象控制模型，该过程中，不需要长时间的在线训练，也不需要准备大量的训练样本，只需要在初始时准备少量训练样本，后续样本在训练过程中对初始模型的执行结果进行修正获得，可以快速训练出最终的对象控制模型，从而极大的提高对虚拟场景中的虚拟对象进行控制的机器学习模型的训练效率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

图1是本申请一个示例性的实施例提供的终端的结构示意图；

图2是本申请一个示例性的实施例提供的虚拟场景的场景画面示意图；

图3是本申请一个示例性实施例提供的一种模型训练方法流程图；

图4是图3所示实施例涉及的一种模型训练的流程示意图；

图5是本申请一个示例性实施例提供的一种模型训练方法的流程图；

图6是图5所示实施例涉及的虚拟场景的场景画面图像的示意图；

图7是图5所示实施例涉及的一种CNN模型的模型结构图；

图8是图5所示实施例涉及的一种模型训练结果示意图；

图9是图5所示实施例涉及的一种纠正工具展示界面的界面示意图；

图10是图5所示实施例涉及的模仿人为操作进行模型训练的流程示意图；

图11是图5所示实施例涉及的一种游戏场景下的对象控制示意图；

图12是本申请一个示例性实施例提供的一种模型训练装置的结构方框图；

图13是本申请一个示例性实施例提供的一种计算机设备的结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

虚拟场景是指用计算机生成的一种虚拟的场景环境，它能够提供一个多媒体的虚拟世界，用户可通过操作设备或操作界面对虚拟场景中可操作的虚拟对象进行控制，以虚拟对象的视角观察虚拟场景中的物体、人物、风景等虚拟物，或通过虚拟对象和虚拟场景中的物体、人物、风景等虚拟物或者其它虚拟对象等进行互动，例如，通过操作一个虚拟士兵对目标敌军进行攻击等。

虚拟场景通常由终端等计算机设备中的应用程序生成基于终端中的硬件(比如屏幕)进行展示。该终端可以是智能手机、平板电脑或者电子书阅读器等移动终端；或者，该终端也可以是笔记本电脑或者固定式计算机的个人计算机设备。

请参考图1，其示出了本申请一个示例性的实施例提供的终端的结构示意图。如图1所示，该终端包括主板110、外部输出/输入设备120、存储器130、外部接口140、电容触控系统150以及电源160。

其中，主板110中集成有处理器和控制器等处理元件。

外部输出/输入设备120可以包括显示组件(比如显示屏)、声音播放组件(比如扬声器)、声音采集组件(比如麦克风)以及各类按键等。

存储器130中存储有程序代码和数据。

外部接口140可以包括耳机接口、充电接口以及数据接口等。

电容触控系统150可以集成在外部输出/输入设备120的显示组件或者按键中，电容触控系统150用于检测用户在显示组件或者按键上执行的触控操作。

电源160用于对终端中的其它各个部件进行供电。

在本申请实施例中，主板110中的处理器可以通过执行或者调用存储器中存储的程序代码和数据生成虚拟场景，并将生成的虚拟场景通过外部输出/输入设备120进行展示。在展示虚拟场景的过程中，可以通过电容触控系统150检测用户与虚拟场景进行交互时执行的触控操作。

其中，虚拟场景可以是三维虚拟场景，或者，虚拟场景也可以是二维虚拟场景。以虚拟场景是三维虚拟场景为例，请参考图2，其示出了本申请一个示例性的实施例提供的虚拟场景的场景画面示意图。如图1所示，虚拟场景的场景画面200包括虚拟对象210、三维虚拟场景的环境画面220、以及虚拟对象240。其中，虚拟对象210可以是终端对应用户的当前虚拟对象，而虚拟对象240可以是其它终端对应用户控制的虚拟对象，用户可以通过控制虚拟对象210与虚拟对象240进行交互，比如，控制虚拟对象210对虚拟对象240进行攻击。

在图2中，虚拟对象210与虚拟对象240是在三维虚拟场景中的三维模型，在场景画面200中显示的三维虚拟场景的环境画面为虚拟对象210的视角所观察到的物体，示例性的，如图2所示，在虚拟对象210的视角观察下，显示的三维虚拟场景的环境画面220为大地224、天空225、地平线223、小山221以及厂房222。

虚拟对象210可以在用户的控制下即时移动。比如，用户可以通过键盘、鼠标、游戏手柄等输入设备控制虚拟对象210在虚拟场景中移动(例如，以通过键盘和鼠标控制虚拟对象210移动为例，用户可以通过键盘中的W、A、S、D四个按键控制虚拟对象前后左右移动，并通过鼠标控制虚拟对象210面向的方向)；或者，若终端的屏幕支持触控操作，且虚拟场景的场景画面200中包含虚拟控制按钮，则用户触控该虚拟控制按钮时，虚拟对象210可以在虚拟场景中，向触控点相对于虚拟控制按钮的中心的方向移动。

请参考图3，其是本申请一个示例性实施例提供的一种模型训练方法流程图。如图3所示，训练用于控制虚拟场景中的虚拟对象的机器学习模型的过程可以如下：

获取第一样本集，该第一样本集包含第一样本图像以及该第一样本图像的行为信息，该第一样本图像是通过终端控制虚拟场景中的虚拟对象时的场景画面图像，该行为信息用于指示该虚拟对象的行为动作(31)。

通过该第一样本集进行模型训练，获得初始模型(32)。

获取第二样本集，该第二样本集包含第二样本图像以及该第二样本图像的行为信息，该第二样本图像是通过该初始模型控制该虚拟对象时的场景画面图像，该第二样本图像的行为信息是对该初始模型根据该第二样本图像获得的行为动作进行修正获得的行为信息(33)。

通过该第二样本集对该初始模型进行再训练，获得对象控制模型(34)。

上述训练对象控制模型的方案，可以由模型训练设备基于虚拟场景实现系统来执行。请参考图4，其示出了本申请实施例涉及的一种模型训练的流程示意图。如图4所示，虚拟场景实现系统包括若干个终端420以及服务器440。其中，终端420可以是上述图1所示的终端，终端420中安装有虚拟场景对应的应用程序，服务器440是为该应用程序提供后台支持的服务器。

在图4中，操作人员首先通过终端420控制虚拟场景中的虚拟对象，同时，图像采集装置对该控制过程中的虚拟场景的场景画面图像进行采集，采集到的场景画面图像用于生成第一样本集，模型训练设备460获取到第一样本集之后，根据第一样本集训练获得初始模型，并将初始模型部署至虚拟场景实现系统，并根据该初始模型控制虚拟场景中的虚拟对象，同时，图像采集装置对基于该初始模型的控制过程中的虚拟场景的场景画面图像进行采集，采集获得的场景画面图像用于生成第二样本集，模型训练设备460获取到第二样本集之后，根据第二样本集对得初始模型进行再训练，获得对象控制模型。

其中，上述再训练过程可以分多次进行，每次再训练之后，若获得的模型效果未达到要求，则继续通过该模型控制虚拟场景中的虚拟对象，并通过控制过程中采集到的场景画面图像生成新的第二样本集，并通过新的第二样本集对模型进行再训练，直至训练获得的模型满足要求为止。

可选的，上述模型训练设备可以是具有一定计算处理能力的计算机设备，比如，上述模型训练设备可以是个人电脑、个人工作站或者服务器等。

通过上述图3和图4所示的方案，模型训练设备首先通过第一样本图像和第一样本图像的行为信息训练获得的一个初始模型，然后通过该初始模型控制虚拟场景中的虚拟对象，同时获取初始模型控制虚拟对象时的场景画面图像，在对初始模型根据该场景画面图像确定执行的行为进行修正后，将该场景画面图像和修正后的动作行为作为新的训练样本对初始模型再训练，以获得最终的对象控制模型，该过程中，不需要长时间的在线训练，也不需要准备大量的训练样本，只需要在初始时准备少量训练样本，后续样本在训练过程中对初始模型的执行结果进行修正获得，可以快速训练出最终的对象控制模型，从而极大的提高对虚拟场景中的虚拟对象进行控制的机器学习模型的训练效率。

图5是本申请一个示例性实施例提供的一种模型训练方法的流程图，该模型训练方法可以由模型训练设备执行。如图5所示，该模型训练方法可以包括如下步骤：

步骤501，获取第一目标图像，该第一目标图像是通过终端控制虚拟场景中的虚拟对象时的至少两帧场景画面图像中的任意一帧图像。

其中，上述场景画面图像是在控制该虚拟对象的终端中展示的，该虚拟场景的场景画面图像。

比如，操作人员可以通过安装有虚拟场景对应的应用程序的终端，对虚拟场景中的虚拟对象进行控制，同时，在终端中安装的图像采集装置对终端展示的虚拟场景的场景画面图像进行采集，获得一系列的场景画面图像，该一系列的场景画面图像中的任意一帧图像都可以作为上述第一目标图像。

或者，操作人员通过终端对虚拟场景中的虚拟对象进行控制时，终端将展示的虚拟场景的场景画面图像投射到另一计算机设备(比如模型训练设备)中，由该计算机设备展示该虚拟场景的镜像，同时，计算机设备中安装的图像采集装置对展示的镜像图像进行采集，获得一系列的场景画面图像，该一系列的场景画面图像中的任意一帧图像都可以作为上述第一目标图像。

以虚拟场景是游戏场景为例，在本申请实施例中，操作人员预先采集一定数量的玩游戏的样本。以游戏场景是某射击类游戏场景为例，操作人员可以采集半个小时时长的样本视频，大概可以生成4万个图像。其中，对图像的要求是在同样的场景下动作尽量有一致性，例如在虚拟场景的船舱中，左右有门都可以到甲板，那么操作人员在控制虚拟对象时，每次从船舱到甲板都可以选择同样的门出去。

步骤502，对第一目标图像进行图像识别，确定该第一目标图像中的虚拟对象正在执行的行为动作。

在本申请实施例中，采集到操作人员玩游戏的样本视频后，可以基于图像识别的方式对视频内采集到的样本进行分析，为每一帧图像产生一个行为动作，比如，以某射击类游戏为例，在游戏中可以有前进，后退，左移，右移，左转，右转等行为动作。通过行为动作为样本图像打上一个标签，使其变成有标签的数据(即对应有行为动作的样本图像)，方便后续的机器学习训练。

比如，以模型训练设备识别图像中的虚拟对象的行为动作为例，上述第一目标图像中包含触点图案，该触点图案是该终端接收到在屏幕中执行的触控操作时，在触控位置处显示的图案，该对该第一目标图像进行图像识别，确定该第一目标图像中的该虚拟对象正在执行的行为动作时，模型训练设备识别该触点图案在该第一目标图像中的位置；根据该触点图案在该第一目标图像中的位置，确定该第一目标图像中的该虚拟对象正在执行的行为动作。

在一种可能的实现方式中，本申请实施例所示的方案可以通过模版匹配的方式进行动作识别，比如，可以基于OpenCV(Open Source Computer Vision Library，开源计算机视觉库)的模版匹配算法实现对图像的动作识别。

例如，操作人员通过终端控制虚拟对象时，终端可以启动触屏显示功能，当操作人员手指在终端屏幕上面点击和滑动时，屏幕显示的界面中就会有一个触点显示出来，相应的，采集获得的第一目标图像中也存在该触点的图案，模型训练设备通过图像匹配的方式检测这个触点的位置，即可以确定出虚拟对象的动作是左右移动还是左右转动等等。

请参考图6，其示出了本申请实施例涉及的一种虚拟场景的场景画面图像的示意图。如图6所示，终端60的屏幕中显示有场景画面图像61，且该终端60开启了触屏显示功能，用户(操作人员)触控屏幕时，在场景画面图像61中当前触点处显示有触点图案62，图像采集装置对场景画面图像61进行采集获得第一目标图像时，该第一目标图像中也会保留有该触点图案62，后续模型训练设备可以通过模版匹配的方式检测触点图案62在场景画面图像61中的位置，并根据该触点图案62的位置确定虚拟对象的行为动作。

可选的，该根据识别获得的行为动作生成该第一目标图像的行为信息之前，模型训练设备还获取该第一目标图像的前一帧图像，以及该第一目标图像的前一帧图像中的该虚拟对象正在执行的行为动作；当该第一目标图像与该第一目标图像的前一帧图像之间的相似度大于相似度阈值，且该第一目标图像中的该虚拟对象正在执行的行为动作，与该第一目标图像的前一帧图像中的该虚拟对象正在执行的行为动作不一致时，将该第一目标图像中的该虚拟对象正在执行的行为动作修改为该第一目标图像的前一帧图像中的该虚拟对象正在执行的行为动作。

可选的，该根据识别获得的行为动作生成该第一目标图像的行为信息之前，当对该第一目标图像进行图像识别，确定该第一目标图像中的该虚拟对象无动作时，模型训练设备还获取该第一目标图像的前一帧图像中的该虚拟对象正在执行的行为动作；当该第一目标图像的前一帧图像中的该虚拟对象正在执行的行为动作为指定类型动作时，将该第一目标图像中的该虚拟对象正在执行的行为动作设置为该第一目标图像的前一帧图像中的该虚拟对象正在执行的行为动作。

可选的，当该第一目标图像的前一帧图像中的该虚拟对象正在执行的行为动作不是该指定类型动作时，模型训练设备可以丢弃该第一目标图像。

在实际应用中，通过图像识别确定的图像中的虚拟对象的行为动作可能存在一定的错误率，这就导致识别出的虚拟对象的行为动作可能错误，因此，在通过图像识别确定第一目标图像中的虚拟对象的行为动作后，还可以对识别出的行为动作进行程序自动化纠正，此外，由于在人为操作的视频样本中，可能会存在部分图像中的虚拟对象不存在动作，或者因为人为误操作的关系，导致后一帧图像与前一帧图像相同，但是指定的动作不一致，这两个因素都会影响后续的训练精度，导致训练精度无法提升，因此，在本申请实施例中，可以采用以下步骤来对图像识别获得的各个图像中的虚拟对象的行为动作进行修正：

1)使用滑动窗口方式比较每帧与其相邻的帧，如果帧图像相似且帧动作不一致，则强制更改该帧的行为动作与前面一帧的行为动作一致。

比如，对于视频样本中相邻的两帧图像，模型训练设备可以计算这两帧图像之间的相似度，当这两帧图像之间的相似度大于某一预设阈值(比如99％)，但是从这两帧图像中识别出的行为动作不一致时，模型训练设备可以将这两帧图像中的后一帧图像的行为动作修改为前一帧图像的行为动作，以使得这两帧图像的行为动作保持一致。

2)对没有动作的帧，且其前面的动作为左右转动，那么更改该帧动作为左右转动。

3)删除没有动作且其前面的动作非左右转动的帧。

比如，对于视频样本中相邻的两帧图像，若前一帧图像中识别出虚拟对象的行为动作，而后一帧图像中未识别出虚拟对象的行为动作，则模型训练设备可以判断前一帧中的虚拟对象的行为动作是否为向左转动或者向右转动，若是，则模型训练设备将后一帧图像的行为动作设置为前一帧图像的行为动作；若前一帧中的虚拟对象的行为动作不是向左转动或者向右转动，则模型训练设备将后一帧图像丢弃。

步骤503，根据识别获得的行为动作生成该第一目标图像的行为信息。

在本申请实施例中，模型训练设备可以根据第一目标图像的行为动作生成该第一目标图像的行为信息，比如，模型训练设备中预先存储每一种行为动作对应的行为信息，该行为信息可以是对应行为动作的字符等标识，在获取到第一目标图像，并识别出第一目标图像中的虚拟对象的行为动作后，模型训练设备将该行为动作对应的行为信息确定为第一目标图像的行为信息。

步骤504，将该第一目标图像以及该第一目标图像的行为信息添加入该第一样本集。

在获取到第一目标图像的行为信息后，模型训练设备即可以将该第一目标图像，以及该第一目标图像的行为信息，作为第一样本图像以及该第一样本图像的行为信息添加至第一样本集。

步骤505，获取第一样本集，根据该第一样本集进行模型训练，获得初始模型。

可选的，当该第一样本图像包含至少两帧图像时，在通过该第一样本集进行模型训练，获得初始模型时，模型训练设备可以对该至少两帧图像进行乱序处理；根据乱序处理后的该至少两帧图像，以及该至少两帧图像各自的行为信息进行模型训练，获得该初始模型。

在本申请实施例中，可以将上述第一样本集分为模型训练所需的训练集与验证集，比如，模型训练设备可以对上述第一样本集中的各个样本(每个样本包含一个第一样本图像以及对应的行为信息)进行乱序排列，并将各个样本按照比例划分为训练集和验证集，比如，将第一样本集中80％的样本划分为训练集，剩余20％的样本划分为验证集，其中，训练集中的各个样本用于训练获得初始模型，验证集中的各个样本用于检测该初始模型的准确性。

其中，模型训练设备可以通过有监督的机器学习算法进行训练获得上述初始模型，比如，模型训练设备可以通过深度卷积神经网络(Convolutional Neural Network，CNN)算法训练获得上述初始模型。

以上述机器学习算法模型是深度卷积神经网络模型为例，请参考图7，其示出了本申请实施例涉及的一种CNN模型的模型结构图。如图7所示，该CNN模型的模型结构由开发人员预先设定，该CNN模型包含输入层、6个巻积层、3层全连接层和1个输出层(Softmax层)。该CNN模型的优化器为Adam优化器。损失(Loss)为交叉熵，CNN模型训练的迭代次数是20个迭代次数(epoch)。

其中，如图7所示，在训练获得的CNN模型中，输入层输入的是虚拟场景的场景画面图像，规格为长320像素，宽180像素的RGB图像(即深度为3)；每个巻积层有各自的滤波器(Filter)、卷积核大小(Kernel Size)以及步长(stride)；全连接层有各自的维度，输出层用于输出6个数值，该6个数值分别是6种行为动作各自的价值值，某个价值值越高，表示执行对应的行为动作的概率越高。

请参考图8，其示出了本申请实施例涉及的一种模型训练结果示意图。如图8所示，CNN网络的结果，最后一行是当前训练的迭代次数81，上面打印部分是被训练的模型结构82。

步骤506，获取第二目标图像，该第二目标图像是通过该初始模型控制该虚拟对象时的各帧场景画面图像中的任意一帧图像。

以上述虚拟场景是游戏场景为例，在本申请实施例中，若训练完成的CNN模型(即上述初始模型)效果满足需求，那么就可以直接部署到游戏系统中，如果效果不好，可以将该初始模型接入游戏，在游戏运行过程中，基于该模型控制的虚拟对象做出的动作和图像重新采集样本。新生成的样本可以用于该CNN模型的再训练，以提升其模型效果。

具体比如，模型训练设备训练获得初始模型之后，可以将初始模型部署至终端中，并在终端中控制虚拟对象，具体的，初始模型可以获取终端展示的虚拟场景的场景画面图像，根据场景画面图像确定该场景画面图像中的虚拟对象需要执行的行为动作，并控制该虚拟对象执行该行为动作，终端中安装的图像采集装置采集各帧图像，并获取初始模型针对各帧图像确定出的行为动作。

或者，在另一种可能的实现方式中，模型训练设备也可以接入虚拟场景实现系统，并通过模拟器对虚拟场景中的虚拟对象进行控制，其中，控制虚拟对象所执行的行为动作由初始模型根据当前的场景画面图像确定，模型训练设备中安装的图像采集装置采集模拟器界面中显示的虚拟场景的各帧场景画面图像，并获取初始模型针对各帧图像确定出的行为动作。

步骤507，展示该第二目标图像，以及该初始模型根据该第二目标图像获得的行为动作。

由于初始模型的准确性较低，因此，初始模型控制虚拟对象时的场景画面图像以及初始模型基于该场景画面图像确定的行为动作不能直接用于对初始模型的再训练，需要对初始模型确定的行为动作做出纠正。通常情况下，纠正方式可以有人工和自动两种。本申请实施例中可以采用人工纠正的方式。比如，操作人员可以基于Python开发了一个人工样本标签纠正的工具，该工具可以展示第二目标图像和初始模型根据第二目标图像获得的行为动作，以便操作人员根据第二目标图像和初始模型根据第二目标图像获得的行为动作，对该第二目标图像获得的行为动作进行修正。

在本申请实施例中，模型训练设备可以将通过初始模型对虚拟对象进行控制的过程中采集到的各帧图像，逐帧进行展示，同时还展示初始模型根据当前展示的图像确定的行为动作的相关信息。

比如，请参考图9，其示出了本申请实施例涉及的一种纠正工具展示界面的界面示意图。如图9所示，纠正工具展示界面90右侧是场景画面图像91，场景画面图像91下方展示有初始模型根据该场景画面图像91确定的行为动作的动作信息92(比如，当该动作信息为MOVE_BACKWARD时，表示初始模型在该场景画面图像91下采取的动作是后退)，纠正工具展示界面90左侧显示了初始模型根据场景画面图像91前后若干帧(比如32帧)图像采取的动作情况93。

可选的，该展示该第二目标图像，以及该初始模型根据该第二目标图像获得的行为动作，包括：当该第二目标图像中包含指定类型对象时，展示该第二目标图像，以及该初始模型根据该第二目标图像获得的行为动作。

在另一种可能的实现方式中，模型训练设备也可以只展示初始模型对虚拟对象进行控制的过程中采集到的各帧图像中的关键帧图像，以及初始模型根据关键帧图像确定的行为动作，其中，关键帧可以自动识别，比如，在识别关键帧时，可以通过图像帧中是否包含指定类型对象来确定是否为关键帧，比如，以游戏场景为例，该指定类型对象可以是敌对的虚拟对象(比如敌对士兵或者其它可攻击的对象)，或者，该指定类型对象也可以是当前虚拟对象受到攻击时的提示对象，比如提示图案等。本申请实施例对于指定类型对象的具体类型和形态不做限定。

步骤508，接收操作指令，该操作指令是检测到对该初始模型根据该第二目标图像获得的行为动作的修正操作时生成的指令。

在一种可能的实现方式中，操作人员可以通过快捷键的快捷操作来发出修正行为动作的操作指令。比如，纠正工具预先设置键盘上的按键W、S、A、D、Q、E分别对应将行为动作修正为前进、后退、左转、右转、左移以及右移，当操作人员确定当前图像的行为动作需要修正为前进时，可以按下键盘上的W键，以发出将当前图像的行为动作修正为前进的操作指令。

在另一种可能的实现方式中，纠正工具展示界面中可以显示纠正按钮，比如，纠正工具展示界面中可以显示6个纠正按钮，分别对应将行为动作修正为前进、后退、左转、右转、左移以及右移，当操作人员确定当前图像的行为动作需要修正为前进时，可以鼠标点击对应前进的按钮，以发出将当前图像的行为动作修正为前进的操作指令。

经过实际测试，通过上述纠正工具，可以实现每小时纠正800到1000个动作，可以高效的实现针对关键帧图像的动作纠正。例如：某个样本图像中，敌人在左边时，通过初始模型输出的动作是往右边走，通过上述纠正工具，操作人员可以人工纠正该样本图像的动作标签为左转。

步骤509，根据该操作指令对该第二目标图像获得的行为动作进行修正。

模型训练设备接收到第二目标图像对应的操作指令后，即可以根据操作指令修正第二目标图像的行为动作。

步骤510，根据修正后的行为动作生成该第二样本图像的行为信息。

步骤511，将该第二样本图像，以及该第二样本图像的行为信息添加入该第二样本集。

步骤512，通过该第二样本集对该初始模型进行再训练，获得对象控制模型。

上述步骤510至步骤512所执行的步骤，与上述步骤503至步骤505类似，此处不再赘述。

通过上述步骤进行动作纠正后获得的第二样本图像，可以作为新的训练样本，对之前训练获得的初始样本进行再训练，重复上述再训练的步骤，直至获得满足需求的对象控制模型。

通过本申请上述方案，能够快速实现游戏AI(Artificial Intelligence，人工智能)，辅助游戏测试。比如，游戏开发者开发一款游戏后，可以通过上述方案，首先人工控制游戏场景中的游戏角色，采集人工控制过程中的图像并生成初始训练样本(对应上述第一样本集)，以训练获得初始模型，然后将初始模型部署到游戏中，通过初始模型对游戏场景中的游戏角色进行自动控制，采集该自动控制过程中的图像并生成补充训练样本(对应上述第二样本集)，并对初始模型进行优化，直至获得满足要求测试或者应用要求的AI模型(对应上述对象控制模型)，并基于该AI模型创建游戏AI，后续在游戏测试过程中，通过游戏AI控制游戏场景中的游戏角色，以对游戏场景进行测试，或者，后续在游戏实际部署过程中，通过游戏AI控制游戏场景中的游戏角色，与游戏玩家控制的游戏角色进行合作或者对抗。由于上述AI模型的训练的效率高，可以快速支持多种游戏，以及多种游戏内场景的功能测试和玩法验证。并且，基于人类玩游戏的视频的模仿学习，使得基于深度学习模型的AI可以在早期快速收敛，而不必探索巨大的游戏动作空间，可以为后续深入的AI模型训练提供较好的初始模型。

比如，以虚拟场景是某个游戏场景为例，对象控制模型的训练结果可以如下表1所示：

表1

请参考图10，其示出了本申请实施例涉及的一种模仿人为操作进行模型训练的流程示意图。如图10所示，操作人员首先对游戏场景中的虚拟对象进行人工控制，同时采集样本视频，在采集获得样本视频后，计算机设备(比如上述模型训练设备)通过模版匹配方式进行图像识别，获得样本视频中各帧的行为动作，并对识别获得的各帧的行为动作进行纠正，再通过乱序和划分方式获得训练集和验证集(对应上述第一样本集)，根据训练集和验证集训练获得初始模型，后续基于初始模型控制虚拟对象的场景画面图像采集新的样本(对应上述第二样本集)，对新样本进行人工修正以进行样本增强，并通过修正后的新样本对初始模型进行再训练，直至初始模型满足条件，获得最终的对象控制模型。

请参考图11，其示出了本申请实施例涉及的一种游戏场景下的对象控制示意图，该图11中，通过对象控制模型在某个FPS(First-person shooting，第一人称射击)游戏中控制动作输出，以控制游戏内的虚拟对象完成地图探索和攻击敌人的过程。

综上所述，通过本申请实施例所示的方案，模型训练设备首先通过第一样本图像和第一样本图像的行为信息训练获得的一个初始模型，然后通过该初始模型控制虚拟场景中的虚拟对象，同时获取初始模型控制虚拟对象时的场景画面图像，在对初始模型根据该场景画面图像确定执行的行为进行修正后，将该场景画面图像和修正后的动作行为作为新的训练样本对初始模型再训练，以获得最终的对象控制模型，该过程中，不需要长时间的在线训练，也不需要准备大量的训练样本，只需要在初始时准备少量训练样本，后续样本在训练过程中对初始模型的执行结果进行修正获得，可以快速训练出最终的对象控制模型，从而极大的提高对虚拟场景中的虚拟对象进行控制的机器学习模型的训练效率。

此外，在生成第一样本集时，根据操作人员人工控制虚拟对象时的场景画面图像进行图像识别，以自动获取图像对应的行为动作，不需要操作人员逐帧进行标记，从而极大的提高了样本获取的效率。

另外，在根据操作人员人工控制虚拟对象时的场景画面图像进行图像识别，以自动获取图像对应的行为动作后，对各个图像的行为动作后，自动对各个图像的行为动作进行调整以及样本筛选，提高了训练样本的准确性，从而提高后续模型训练的准确性。

图12是本申请一个示例性实施例提供的一种模型训练装置的结构方框图。该模型训练装置可以用于计算机设备中，以执行图3或图5所示实施例中的全部或者部分步骤。该模型训练装置可以包括：

第一样本获取模块1201，用于获取第一样本集，所述第一样本集包含第一样本图像以及所述第一样本图像的行为信息，所述第一样本图像是通过终端控制虚拟场景中的虚拟对象时的场景画面图像，所述行为信息用于指示所述虚拟对象的行为动作；

第一训练模块1202，用于通过所述第一样本集进行模型训练，获得初始模型；

第二样本获取模块1203，用于获取第二样本集，所述第二样本集包含第二样本图像以及所述第二样本图像的行为信息，所述第二样本图像是通过所述初始模型控制所述虚拟对象时的场景画面图像，所述第二样本图像的行为信息是对所述初始模型根据所述第二样本图像获得的行为动作进行修正获得的行为信息；

第二训练模块1204，用于通过所述第二样本集对所述初始模型进行再训练，获得对象控制模型。

可选的，所述装置还包括：

第一图像获取模块，用于在所述第一样本获取模块获取第一样本集之前，获取第一目标图像，所述第一目标图像是通过所述终端控制所述虚拟对象时的至少两帧连续场景画面图像中的任意一帧图像；

识别模块，用于对所述第一目标图像进行图像识别，确定所述第一目标图像中的所述虚拟对象正在执行的行为动作；

第一生成模块，用于根据识别获得的行为动作生成所述第一目标图像的行为信息；

第一添加模块，用于将所述第一目标图像以及所述第一目标图像的行为信息添加入所述第一样本集。

可选的，所述第一目标图像中包含触点图案，所述触点图案是所述终端接收到在屏幕中执行的触控操作时，在触控位置处显示的图案，所述识别模块，具体用于，

识别所述触点图案在所述第一目标图像中的位置；

根据所述触点图案在所述第一目标图像中的位置，确定所述第一目标图像中的所述虚拟对象正在执行的行为动作。

可选的，所述装置还包括：

第二图像获取模块，用于在所述第一生成模块根据识别获得的行为动作生成所述第一目标图像的行为信息之前，获取所述第一目标图像的前一帧图像，以及所述第一目标图像的前一帧图像中的所述虚拟对象正在执行的行为动作；

动作修改模块，用于当所述第一目标图像与所述第一目标图像的前一帧图像之间的相似度大于相似度阈值，且所述第一目标图像中的所述虚拟对象正在执行的行为动作，与所述第一目标图像的前一帧图像中的所述虚拟对象正在执行的行为动作不一致时，将所述第一目标图像中的所述虚拟对象正在执行的行为动作修改为所述第一目标图像的前一帧图像中的所述虚拟对象正在执行的行为动作。

可选的，所述装置还包括：

动作获取模块，用于当对所述第一目标图像进行图像识别，确定所述第一目标图像中的所述虚拟对象无动作时，获取所述第一目标图像的前一帧图像中的所述虚拟对象正在执行的行为动作；

动作设置模块，用于当所述第一目标图像的前一帧图像中的所述虚拟对象正在执行的行为动作为指定类型动作时，将所述第一目标图像中的所述虚拟对象正在执行的行为动作设置为所述第一目标图像的前一帧图像中的所述虚拟对象正在执行的行为动作。

可选的，所述装置还包括：

丢弃模块，用于当所述第一目标图像的前一帧图像中的所述虚拟对象正在执行的行为动作不是所述指定类型动作时，丢弃所述第一目标图像。

可选的，当所述第一样本图像包含至少两帧图像时，所述第一训练模块，具体用于，

对所述至少两帧图像进行乱序处理；

根据乱序处理后的所述至少两帧图像，以及所述至少两帧图像各自的行为信息进行模型训练，获得所述初始模型。

可选的，所述装置还包括：

第三图像获取模块，用于在所述第二样本获取模块获取第二样本集之前，获取第二目标图像，所述第二目标图像是通过所述初始模型控制所述虚拟对象时的各帧场景画面图像中的任意一帧图像；

展示模块，用于展示所述第二目标图像，以及所述初始模型根据所述第二目标图像获得的行为动作；

指令接收模块，用于接收操作指令，所述操作指令是检测到对所述初始模型根据所述第二目标图像获得的行为动作的修正操作时生成的指令；

动作修正模块，用于根据所述操作指令对所述第二目标图像获得的行为动作进行修正；

第二生成模块，用于根据修正后的行为动作生成所述第二样本图像的行为信息；

第二添加模块，用于将所述第二样本图像，以及所述第二样本图像的行为信息添加入所述第二样本集。

可选的，所述展示模块，具体用于当所述第二目标图像中包含指定类型对象时，展示所述第二目标图像，以及所述初始模型根据所述第二目标图像获得的行为动作。

可选的，所述虚拟场景为游戏场景，所述对象控制模型是所述游戏场景中的人工智能AI模型。

其中，上述各个模块的功能可以参考图3或图5所示实施例中的各个步骤的描述，此处不再赘述。

图13是本申请一个示例性实施例提供的一种计算机设备的结构示意图。所述计算机设备1300包括中央处理单元(CPU)1301、包括随机存取存储器(RAM)1302和只读存储器(ROM)1303的系统存储器1304，以及连接系统存储器1304和中央处理单元1301的系统总线1305。所述计算机设备1300还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(I/O系统)1306，和用于存储操作系统1313、应用程序1314和其他程序模块1315的大容量存储设备1307。

所述基本输入/输出系统1306包括有用于显示信息的显示器1308和用于用户输入信息的诸如鼠标、键盘之类的输入设备1309。其中所述显示器1308和输入设备1309都通过连接到系统总线1305的输入输出控制器1310连接到中央处理单元1301。所述基本输入/输出系统1306还可以包括输入输出控制器1310以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器1310还提供输出到显示屏、打印机或其他类型的输出设备。

所述大容量存储设备1307通过连接到系统总线1305的大容量存储控制器(未示出)连接到中央处理单元1301。所述大容量存储设备1307及其相关联的计算机可读介质为计算机设备1300提供非易失性存储。也就是说，所述大容量存储设备1307可以包括诸如硬盘或者CD-ROM驱动器之类的计算机可读介质(未示出)。

所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM、EEPROM、闪存或其他固态存储其技术，CD-ROM、DVD或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的系统存储器1304和大容量存储设备1307可以统称为存储器。

计算机设备1300可以通过连接在所述系统总线1305上的网络接口单元1311连接到互联网或者其它网络设备。

所述存储器还包括一个或者一个以上的程序，所述一个或者一个以上程序存储于存储器中，中央处理器1301通过执行该一个或一个以上程序来实现图3或图5所示的方法的全部或者部分步骤。

在一个示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括计算机程序(指令)的存储器，上述程序(指令)可由计算机设备的处理器执行以完成本申请各个实施例所示的方法的全部或者部分步骤。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由下面的权利要求指出。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims

1.一种模型训练方法，其特征在于，所述方法包括：

通过所述第一样本集进行模型训练，获得初始模型；

2.根据权利要求1所述的方法，其特征在于，所述获取第一样本集之前，还包括：

获取第一目标图像，所述第一目标图像是通过所述终端控制所述虚拟对象时的至少两帧连续场景画面图像中的任意一帧图像；

对所述第一目标图像进行图像识别，确定所述第一目标图像中的所述虚拟对象正在执行的行为动作；

根据识别获得的行为动作生成所述第一目标图像的行为信息；

将所述第一目标图像以及所述第一目标图像的行为信息添加入所述第一样本集。

3.根据权利要求2所述的方法，其特征在于，所述第一目标图像中包含触点图案，所述触点图案是所述终端接收到在屏幕中执行的触控操作时，在触控位置处显示的图案，所述对所述第一目标图像进行图像识别，确定所述第一目标图像中的所述虚拟对象正在执行的行为动作，包括：

识别所述触点图案在所述第一目标图像中的位置；

4.根据权利要求2所述的方法，其特征在于，所述根据识别获得的行为动作生成所述第一目标图像的行为信息之前，还包括：

获取所述第一目标图像的前一帧图像，以及所述第一目标图像的前一帧图像中的所述虚拟对象正在执行的行为动作；

当所述第一目标图像与所述第一目标图像的前一帧图像之间的相似度大于相似度阈值，且所述第一目标图像中的所述虚拟对象正在执行的行为动作，与所述第一目标图像的前一帧图像中的所述虚拟对象正在执行的行为动作不一致时，将所述第一目标图像中的所述虚拟对象正在执行的行为动作修改为所述第一目标图像的前一帧图像中的所述虚拟对象正在执行的行为动作。

5.根据权利要求2所述的方法，其特征在于，所述根据识别获得的行为动作生成所述第一目标图像的行为信息之前，还包括：

当对所述第一目标图像进行图像识别，确定所述第一目标图像中的所述虚拟对象无动作时，获取所述第一目标图像的前一帧图像中的所述虚拟对象正在执行的行为动作；

当所述第一目标图像的前一帧图像中的所述虚拟对象正在执行的行为动作为指定类型动作时，将所述第一目标图像中的所述虚拟对象正在执行的行为动作设置为所述第一目标图像的前一帧图像中的所述虚拟对象正在执行的行为动作。

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：

当所述第一目标图像的前一帧图像中的所述虚拟对象正在执行的行为动作不是所述指定类型动作时，丢弃所述第一目标图像。

7.根据权利要求1所述的方法，其特征在于，当所述第一样本图像包含至少两帧图像时，所述通过所述第一样本集进行模型训练，获得初始模型，包括：

对所述至少两帧图像进行乱序处理；

8.根据权利要求1所述的方法，其特征在于，所述获取第二样本集之前，还包括：

获取第二目标图像，所述第二目标图像是通过所述初始模型控制所述虚拟对象时的各帧场景画面图像中的任意一帧图像；

展示所述第二目标图像，以及所述初始模型根据所述第二目标图像获得的行为动作；

接收操作指令，所述操作指令是检测到对所述初始模型根据所述第二目标图像获得的行为动作的修正操作时生成的指令；

根据所述操作指令对所述第二目标图像获得的行为动作进行修正；

根据修正后的行为动作生成所述第二样本图像的行为信息；

将所述第二样本图像，以及所述第二样本图像的行为信息添加入所述第二样本集。

9.根据权利要求1所述的方法，其特征在于，所述展示所述第二目标图像，以及所述初始模型根据所述第二目标图像获得的行为动作，包括：

当所述第二目标图像中包含指定类型对象时，展示所述第二目标图像，以及所述初始模型根据所述第二目标图像获得的行为动作。

10.根据权利要求1至9任一所述的方法，其特征在于，所述虚拟场景为游戏场景，所述对象控制模型是所述游戏场景中的人工智能AI模型。

11.一种模型训练装置，其特征在于，所述装置包括：

12.根据权利要求11所述的装置，其特征在于，所述装置还包括：

13.根据权利要求12所述的装置，其特征在于，所述第一目标图像中包含触点图案，所述触点图案是所述终端接收到在屏幕中执行的触控操作时，在触控位置处显示的图案，所述识别模块，具体用于，

识别所述触点图案在所述第一目标图像中的位置；

14.一种计算机设备，其特征在于，所述计算机设备包含处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至10任一所述的模型训练方法。

15.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至10任一所述的模型训练方法。