CN110276404B

CN110276404B - 模型训练方法、装置及存储介质

Info

Publication number: CN110276404B
Application number: CN201910555812.5A
Authority: CN
Inventors: 黄超; 荆彦青
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-06-25
Filing date: 2019-06-25
Publication date: 2023-07-04
Anticipated expiration: 2039-06-25
Also published as: CN110276404A

Abstract

本发明实施例公开了一种模型训练方法、装置及存储介质，属于计算机技术领域。该方法包括：获取多个第一样本数据；获取初始化的网络模型；根据多个第一样本数据对网络模型进行训练；获取多个第二样本数据；根据多个第二样本数据和多个第二样本数据对应的目标收益数值，对已根据多个第一样本数据训练完成的网络模型进行训练。本发明实施例提供了一种模型训练的方案，避免了由于录制得到的样本数据的数量有限而导致网络模型准确率不高的问题，提高了网络模型的准确率，基于该网络模型确定将在界面中执行的操作时不易出现错误，提高了网络模型的稳定性。

Description

模型训练方法、装置及存储介质

技术领域

本发明实施例涉及计算机技术领域，特别涉及一种模型训练方法、装置及存储介质。

背景技术

随着计算机技术的发展和终端的广泛普及，在应用测试、智能游戏等多种场景下，通常会基于网络模型，对终端显示的界面进行分析，预测当前界面下将要执行的操作。因此如何训练出准确的网络模型成为亟待解决的问题。

相关技术中提供了一种模型训练方法，通过录制终端的运行过程，得到多个样本数据，每个样本数据包括样本图像和目标操作，其中的样本图像为对终端显示的界面进行录制得到的图像，目标操作为在该界面中执行的操作。根据获取到的多个样本数据对网络模型进行训练，训练完成后基于该网络模型，即可根据任一界面的图像确定将在该界面中执行的操作。

但是，录制得到的样本数据的数量有限，根据数量有限的样本数据训练得到的网络模型准确率不高，基于该网络模型确定将在界面中执行的操作时容易出现错误。

发明内容

本发明实施例提供了一种模型训练方法、装置及存储介质，能够有效提高网络模型的准确率和稳定性。所述技术方案如下：

一方面，提供了一种模型训练方法，所述方法包括：

获取多个第一样本数据，所述第一样本数据通过录制终端的运行过程得到，所述第一样本数据包括第一样本图像和第一目标操作，所述第一样本图像为所述终端显示的界面的图像，所述第一目标操作为在所述界面中执行的操作；

获取初始化的网络模型，所述网络模型用于根据任一界面的图像获取多个参考操作对应的操作分值，所述参考操作对应的操作分值用于表示在所述界面中执行所述参考操作的概率；

根据所述多个第一样本数据对所述网络模型进行训练；

获取多个第二样本数据，所述第二样本数据通过监测所述终端的运行过程中得到，所述第二样本数据包括第二样本图像和第二目标操作；

根据所述多个第二样本数据和所述多个第二样本数据对应的目标收益数值，对已根据所述多个第一样本数据训练完成的所述网络模型进行训练，所述第二样本数据对应的目标收益数值通过采用参考收益函数，对所述第二样本数据中的第二样本图像和第二目标操作进行处理得到。

可选地，所述根据所述多个第一样本数据对所述网络模型进行训练，包括：

对于每个第一样本数据，将所述第一样本数据中的第一样本图像输入至所述网络模型，基于所述网络模型获取所述多个参考操作对应的操作分值；

将分值最大的参考操作确定为所述第一样本图像的第一预测操作；

根据所述第一预测操作与所述第一样本数据中的第一目标操作之间的误差，对所述网络模型的模型参数进行调整，以使调整后的所述网络模型根据所述第一样本图像确定的预测操作与所述第一目标操作之间的误差减小。

可选地，所述根据所述多个第二样本数据和所述多个第二样本数据对应的目标收益数值，对已根据所述多个第一样本数据训练完成的所述网络模型进行训练，包括：

对于每个第二样本数据，将所述第二样本数据中的第二样本图像输入至已根据所述多个第一样本数据训练完成的所述网络模型，基于所述网络模型获取所述多个参考操作对应的操作分值；

根据所述多个参考操作对应的操作分值，从所述多个参考操作中选取多个备选操作，所述多个备选操作对应的操作分值大于所述多个参考操作中其他操作对应的操作分值；

采用所述参考收益函数，分别对所述第二样本图像和每个备选操作进行处理，得到所述每个备选操作对应的收益数值，将所述多个备选操作对应的收益数值中的最大收益数值确定为预测收益数值；

采用所述参考收益函数，对所述第二样本数据中的所述第二样本图像和所述第二目标操作进行处理，得到目标收益数值；

根据所述预测收益数值与所述目标收益数值之间的误差，对所述网络模型的模型参数进行调整，以使调整后的所述网络模型根据所述第二样本图像确定的预测收益数值与所述目标收益数值之间的误差减小。

可选地，所述第一样本图像为所述终端显示的界面中的缩略地图区域的图像。

可选地，获取多个第一样本数据，包括：

通过录制所述终端的运行过程，获取多个第一样本图像和每个第一样本图像的第一目标操作；

统计获取到的多个第一目标操作对应的样本图像数量；

当任一第一目标操作对应的样本图像数量小于参考数量时，继续获取与所述任一第一目标操作对应的第一样本图像，以使所述任一第一目标操作对应的样本图像数量不小于所述参考数量；或者，

获取参考比例与获取到的多个样本图像的总数量的乘积，得到指定数量，当任一第一目标操作对应的样本图像数量小于所述指定数量时，继续获取与所述任一第一目标操作对应的第一样本图像，以使所述任一第一目标操作对应的样本图像数量不小于所述指定数量。

分别根据所述多个第一样本数据，对所述网络模型进行迭代训练，直至迭代训练次数达到第一参考次数时为止；或者，

分别根据所述多个第一样本数据，对所述网络模型进行迭代训练，直至所述网络模型根据任一第一样本图像确定的分值最大的参考操作，与所述任一第一样本图像对应的第一目标操作之间的误差小于第一参考误差时为止。

分别根据所述多个第二样本数据，对所述网络模型进行迭代训练，直至迭代训练次数达到第二参考次数时为止；或者，

分别根据所述多个第二样本数据，对所述网络模型进行迭代训练，直至所述网络模型根据所述任一第二样本数据确定的预测收益数值与所述任一第二样本数据对应的目标收益数值之间的误差小于第二参考误差为止。

可选地，所述根据所述多个第二样本数据和所述多个第二样本数据对应的目标收益数值，对已根据所述多个第一样本数据训练完成的所述网络模型进行训练之后，所述方法还包括：

获取所述终端当前显示的界面；

将所述界面的图像输入至所述网络模型，基于所述网络模型获取所述多个参考操作对应的操作分值；

选取分值最大的参考操作，在所述界面中执行所述分值最大的参考操作。

获取所述终端当前显示的界面；

采用所述参考收益函数，分别对所述界面的图像和每个备选操作进行处理，得到所述每个备选操作对应的收益数值，将得到的多个收益数值中的最大收益数值对应的备选操作确定为待执行的操作；

在所述界面中执行所述操作。

另一方面，提供了一种模型训练装置，所述装置包括：

第一样本获取模块，用于获取多个第一样本数据，所述第一样本数据通过录制终端的运行过程得到，所述第一样本数据包括第一样本图像和第一目标操作，所述第一样本图像为所述终端显示的界面的图像，所述第一目标操作为在所述界面中执行的操作；

模型获取模块，用于获取初始化的网络模型，所述网络模型用于根据任一界面的图像获取多个参考操作对应的操作分值，所述参考操作对应的操作分值用于表示在所述界面中执行所述参考操作的概率；

第一模型训练模块，用于根据所述多个第一样本数据对所述网络模型进行训练；

第二样本获取模块，用于获取多个第二样本数据，所述第二样本数据通过监测所述终端的运行过程得到，所述第二样本数据包括第二样本图像和第二目标操作；

第二模型训练模块，用于根据所述多个第二样本数据和所述多个第二样本数据对应的目标收益数值，对已根据所述多个第一样本数据训练完成的所述网络模型进行训练，所述第二样本数据对应的目标收益数值通过采用参考收益函数，对所述第二样本数据中的第二样本图像和第二目标操作进行处理得到。

可选地，所述第一模型训练模块，包括：

分值获取单元，用于对于每个第一样本数据，将所述第一样本数据中的第一样本图像输入至所述网络模型，基于所述网络模型获取所述多个参考操作对应的操作分值；

确定单元，用于将分值最大的参考操作确定为所述第一样本图像的第一预测操作；

参数调整单元，用于根据所述第一预测操作与所述第一样本数据中的第一目标操作之间的误差，对所述网络模型的模型参数进行调整，以使调整后的所述网络模型根据所述第一样本图像确定的预测操作与所述第一目标操作之间的误差减小。

可选地，所述第二模型训练模块，包括：

分值获取单元，用于对于每个第二样本数据，将所述第二样本数据中的第二样本图像输入至已根据所述多个第一样本数据训练完成的所述网络模型，基于所述网络模型获取所述多个参考操作对应的操作分值；

选取单元，用于根据所述多个参考操作对应的操作分值，从所述多个参考操作中选取多个备选操作，所述多个备选操作对应的操作分值大于所述多个参考操作中其他操作对应的操作分值；

第一处理单元，用于采用所述参考收益函数，分别对所述第二样本图像和每个备选操作进行处理，得到所述每个备选操作对应的收益数值，将所述多个备选操作对应的收益数值中的最大收益数值确定为预测收益数值；

第二处理单元，用于采用所述参考收益函数，对所述第二样本数据中的所述第二样本图像和所述第二目标操作进行处理，得到目标收益数值；

参数调整单元，用于根据所述预测收益数值与所述目标收益数值之间的误差，对所述网络模型的模型参数进行调整，以使调整后的所述网络模型根据所述第二样本图像确定的预测收益数值与所述目标收益数值之间的误差减小。

可选地，所述第一样本获取模块，包括：

样本获取单元，用于通过录制所述终端的运行过程，获取多个第一样本图像和每个第一样本图像的第一目标操作；

统计单元，用于统计获取到的多个第一目标操作对应的样本图像数量；

所述样本获取单元，还用于当任一第一目标操作对应的样本图像数量小于参考数量时，继续获取与所述任一第一目标操作对应的第一样本图像，以使所述任一第一目标操作对应的样本图像数量不小于所述参考数量；或者，

所述样本获取单元，还用于获取参考比例与获取到的多个样本图像的总数量的乘积，得到指定数量，当任一第一目标操作对应的样本图像数量小于所述指定数量时，继续获取与所述任一第一目标操作对应的第一样本图像，以使所述任一第一目标操作对应的样本图像数量不小于所述指定数量。

可选地，所述第一模型训练模块，还用于：

可选地，所述第二模型训练模块，还用于：

可选地，所述装置还包括：

第一界面获取模块，用于获取所述终端当前显示的界面；

第一分值获取模块，用于将所述界面的图像输入至所述网络模型，基于所述网络模型获取所述多个参考操作对应的操作分值；

第一操作执行模块，用于选取分值最大的参考操作，在所述界面中执行所述分值最大的参考操作。

可选地，所述装置还包括：

第二界面获取模块，用于获取所述终端当前显示的界面；

第二分值获取模块，用于将所述界面的图像输入至所述网络模型，基于所述网络模型获取所述多个参考操作对应的操作分值；

操作选取模块，用于根据所述多个参考操作对应的操作分值，从所述多个参考操作中选取多个备选操作，所述多个备选操作对应的操作分值大于所述多个参考操作中其他操作对应的操作分值；

操作确定模块，用于采用所述参考收益函数，分别对所述界面的图像和每个备选操作进行处理，得到所述每个备选操作对应的收益数值，将得到的多个收益数值中的最大收益数值对应的备选操作确定为待执行的操作；

第二操作执行模块，用于在所述界面中执行所述操作。

另一方面，提供了一种模型训练装置，所述装置包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述指令、所述程序、所述代码集或所述指令集由所述处理器加载并执行以实现如所述模型训练方法中所执行的操作。

再一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述指令、所述程序、所述代码集或所述指令集由处理器加载并具有以实现如所述模型训练方法中所执行的操作。

本发明实施例提供的方法、装置及存储介质，获取多个第一样本数据，获取初始化的网络模型，根据多个第一样本数据对网络模型进行训练之后，还会获取多个第二样本数据，根据多个第二样本数据和多个第二样本数据对应的目标收益数值，对已根据多个第一样本数据训练完成的网络模型进行训练，得到训练完成的网络模型，避免了由于录制得到的样本数据的数量有限而导致网络模型准确率不高的问题，提高了网络模型的准确率，基于该网络模型确定将在界面中执行的操作时不易出现错误，提高了网络模型的稳定性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明实施例的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种实施环境的示意图；

图2是本发明实施例提供的一种模型训练方法的流程图；

图3是本发明实施例提供的一种游戏客户端的应用界面的示意图；

图4是本发明实施例提供的一种网络模型的架构示意图；

图5是本发明实施例提供的一种模型训练方法的流程图；

图6是本发明实施例提供的一种测试应用客户端的方法流程图；

图7是本发明实施例提供的一种模型训练装置的结构示意图；

图8是本发明实施例提供的另一种模型训练装置的结构示意图；

图9是本发明实施例提供的一种终端的结构示意图；

图10是本发明实施例提供的一种服务器的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

本发明实施例提供了一种实施环境的结构示意图，如图1所示，该实施环境包括终端101和服务器102，终端101安装服务器102关联的应用客户端，通过该应用客户端，可以与服务器102进行交互。

其中，终端101可以为手机、计算机、平板电脑等多种类型的设备。服务器102可以是一台服务器102，或者由若干台服务器102组成的服务器102集群，或者是一个云计算服务中心。

本发明实施例中，当应用客户端的运行过程中，可以获取应用客户端的样本数据，包括应用客户端的应用界面的图像和在该应用界面中执行的操作，根据获取到的样本数据进行训练，得到网络模型，该网络模型可以根据任一应用界面的图像预测在该应用界面中执行的操作。

在一种可能实现方式中，上述训练过程可以由服务器102执行。

在应用客户端的运行过程中，终端101获取应用客户端的样本数据，发送至服务器102。服务器102根据接收到的多个样本数据对网络模型进行训练。训练完成后，服务器102存储该网络模型，后续服务器102可以调用该网络模型；或者，服务器102将训练完成的网络模型发送至终端101，终端101存储该网络模型，后续可调用该网络模型。

在另一种可能实现方式中，上述训练过程可以由终端101执行。

在应用客户端的运行过程中，终端101获取应用客户端的多个样本数据，根据多个样本数据对网络模型进行训练。训练完成后，终端101存储该网络模型，后续可调用该网络模型。

本发明实施例提供的模型训练方法，可应用于基于网络模型确定将在应用界面中执行的操作的场景下。

例如，应用测试场景：

应用客户端开发完成后，当测试人员要对应用客户端进行测试时，可以控制应用客户端运行，此时可以获取到应用界面的图像和在该应用界面中执行的操作，作为样本数据。获取到多个样本数据后，可以采用本发明实施例提供的模型训练方法，训练出用于预测操作的网络模型。则后续当应用客户端显示某一应用界面时，将该应用界面的图像输入至训练完成的网络模型，根据该应用界面的图像确定将在该应用界面中执行的操作，从而执行该操作，得到操作结果，作为该应用客户端的测试结果，根据该测试结果可以分析应用客户端的运行是否正常，及时发现应用客户端的错误，达到测试应用客户端的目的。

或者，与智能机器人进行交互的场景：

在应用客户端的运行过程中，可以获取到应用界面的图像和在该应用界面中执行的操作，作为样本数据。获取到多个样本数据后，可以采用本发明实施例提供的模型训练方法，训练出用于预测操作的网络模型。该网络模型可以作为一种智能机器人，与用户进行交互。

当用户对应用客户端执行操作后，应用客户端显示应用界面，此时智能机器人作为用户的对手，将该应用界面的图像输入至训练完成的网络模型，根据该应用界面的图像确定将在该应用界面中执行的操作，从而执行该操作，实现与用户的互动。

图2是本发明实施例提供的一种模型训练方法的流程图，本发明实施例的执行主体为训练设备，该训练设备可以包括上述图1所示的终端或服务器中的至少一个，参见图2，该方法包括：

201、获取多个第一样本数据。

本发明实施例提供了一种分阶段训练网络模型的方式，在不同的训练阶段，可以获取应用客户端的不同类型的样本数据，针对不同类型的样本数据可以采用不同的训练方式，对网络模型进行训练，从而得到更为准确的网络模型。

首先，训练设备获取应用客户端的多个第一样本数据，其中，应用客户端可以为游戏客户端、视频分享客户端、即时通信客户端、电子支付客户端等多种类型的客户端。第一样本数据包括第一样本图像和第一目标操作，第一样本图像为应用客户端显示的应用界面的图像，第一目标操作为在应用界面中执行的操作。

第一样本数据通过录制应用客户端的运行过程得到，关于获取第一样本数据的设备，可以包括：

训练设备为终端时，终端安装有应用客户端，终端运行应用客户端的过程中可以获取多个第一样本数据。而训练设备为服务器时，终端安装有应用客户端，终端运行应用客户端的过程中可以获取一个或多个第一样本数据，上传给服务器，服务器可以收集一个或多个终端上传的第一样本数据，得到多个第一样本数据。或者，终端运行应用客户端的过程中可以获取一个或多个第一样本数据，存储于终端中，当接收到服务器发送的样本数据获取请求时，将存储的多个第一样本数据发送给服务器，服务器接收该多个第一样本数据。

终端获取第一样本数据的过程可以包括：终端运行应用客户端的过程中，会显示应用客户端的应用界面，此时用户可以在应用界面中执行操作，应用客户端会检测到该操作，从而根据该操作显示下一个应用界面。而在此过程中，可以对应用客户端的运行过程进行录制，得到应用界面的图像和在应用界面中执行的操作，将应用界面的图像作为第一样本图像，将在应用界面中执行的操作作为第一目标操作，从而得到第一样本数据。并且，通过应用客户端显示多个应用界面，由用户在多个应用界面中执行操作后，终端即可获取到多个第一样本数据。

其中，应用界面中可执行的操作可以包括点击任一按钮的操作、滑动操作、长按操作、缩放操作等。

其中，终端上可以安装录屏应用客户端，在应用客户端的运行过程中，可以在后台运行该录屏应用客户端，通过该录屏应用客户端可以对终端当前显示的应用界面进行录制，以得到第一样本数据。

在一种可能实现方式中，在应用客户端的运行过程中，所获取的第一样本图像为应用客户端显示的应用界面的图像，或者也可以为应用客户端显示的应用界面中的缩略地图区域的图像。

由于应用客户端的应用界面的图像包含的特征较多，为了在训练网络模型时减小计算量，在录制应用客户端的应用界面的图像时，可以提取应用客户端显示的应用界面中的缩略地图区域的图像，作为第一样本图像。

例如，在飞车游戏客户端中的应用界面的右上角显示缩略地图区域，如图3所示，该缩略地图区域中可以显示地图、地图中的道路、飞车在地图中的位置等信息，可以提取该应用界面中的缩略地图区域的图像作为第一样本图像。

在另一种可能实现方式中，训练设备确定参考尺寸，该参考尺寸即为用于训练网络模型的样本图像应满足的尺寸。则训练设备获取到任一样本图像时，对该样本图像进行预处理，以得到满足该参考尺寸的第一样本图像。其中，该参考尺寸可以为50×50像素、80×80像素等。

例如，训练设备提取应用界面中的缩略地图区域的图像作为第一样本图像时，先提取到缩略地图区域的图像，对该图像进行缩放，以得到满足该参考尺寸的图像，作为第一样本图像。

在另一种可能实现方式中，为了提高样本数据的多样性，以便训练出更为准确的网络模型，训练设备获取到第一样本图像时，还可以对该第一样本图像进行随机裁剪和缩放，得到更多的第一样本图像，从而扩充第一样本图像的数量。

例如，对于一个样本图像，可以随机地对该样本图像中的多个区域分别进行裁剪，得到该多个区域对应的多个样本图像。还可以随机地对该样本图像进行缩放，将该样本图像分别缩放至多个尺寸，得到该多个尺寸对应的多个样本图像。

关于获取的样本数据的数量，如果获取到的多个第一目标操作对应的样本图像数量不均衡，根据获取到的多个第一目标操作对应的样本图像进行训练时，可能会导致训练出的网络模型偏向于样本图像数量较多的第一目标操作，而导致第一目标操作的预测概率过高。

在一种可能实现方式中，为了防止上述样本图像数量不均衡的问题，训练设备可以设置参考数量，该参考数量用于规定每种第一目标操作对应的样本图像数量的最小值。则通过录制应用客户端的运行过程，获取多个第一样本图像和每个第一样本图像的第一目标操作，统计获取到的多个第一目标操作对应的样本图像数量，当任一第一目标操作对应的样本图像数量小于参考数量时，继续获取与该任一第一目标操作对应的第一样本图像，以使该任一第一目标操作对应的样本图像数量不小于参考数量。

例如，应用客户端为飞车游戏客户端，该飞车游戏客户端中的参考操作包括：左移、右移、左漂移、右漂移和不做动作等。在获取第一样本数据时，录制飞车游戏客户端中的多局游戏，录制时间为半小时，录制频率为一秒10帧，将录制得到的第一样本图像和第一目标操作进行保存，且还需保证每个第一目标操作对应的样本图像数量不少于3000张。

在另一种可能实现方式中，为了防止上述样本图像数量不均衡的问题，训练设备可以设置参考比例，该参考比例用于规定每种第一目标操作对应的样本图像数量所占比例的最小值。则获取参考比例与获取到的多个样本图像的总数量的乘积，得到指定数量，当任一第一目标操作对应的样本图像数量小于指定数量时，继续获取与该任一第一目标操作对应的第一样本图像，以使该任一第一目标操作对应的样本图像数量不小于指定数量。

例如，应用客户端为飞车游戏客户端，该飞车游戏客户端中的参考操作包括左移、右移、左漂移、右漂移和不做动作等。在获取第一样本数据时，录制飞车游戏客户端中的多局游戏，将录制得到的第一样本图像和第一目标操作进行保存。当获取到的多个第一样本图像的总数量为1000，参考比例为20％，则指定数量为200，当任一个第一目标操作对应的样本图像的数量小于200时，继续获取该第一目标操作对应的样本图像，使该第一目标操作对应的样本图像的数量超过200。

202、获取初始化的网络模型。

本发明实施例中，训练设备预先确定应用客户端中可执行的多个参考操作，该网络模型用于根据任一应用界面的图像获取多个参考操作对应的操作分值，该参考操作对应的操作分值用于表示在应用界面中执行该参考操作的概率，则根据多个参考操作对应的操作分值，可以从多个参考操作中确定将在该应用界面中执行的操作。

为了便于训练出准确率满足要求的网络模型，训练设备可以创建初始化的网络模型，该网络模型中的模型参数为初始化的参数值，可以随机确定，后续根据样本数据对网络模型进行训练，可以对该网络模型中的模型参数进行调整。

其中，该网络模型可以为卷积神经网络模型、深度学习网络模型、循环神经网络模型、LSTM(Long Short-Term Memory，长短期记忆网络)模型等。

为了减少模型训练的时间和降低对训练设备的要求，初始化的网络模型可以采用轻量化的深度网络模型，该网络模型的架构如图4所示，该网络模型采用6个卷积层和2个全连接层，为了防止过拟合，该网络模型中加入了正则化损失函数，通过梯度后向传递的方式迭代更新模型参数，实现对该网络模型的训练。

203、根据多个第一样本数据对网络模型进行训练。

训练过程中，会分别根据每个第一样本数据进行训练，在训练一次或多次后，得到训练完成的网络模型。并且，该网络模型的训练目标为根据任一第一样本图像确定的分值最大的参考操作，与该任一第一样本图像对应的第一目标操作之间的误差最小。

在一种可能实现方式中，该步骤203可以包括以下步骤：

2031、对于每个第一样本数据，将第一样本数据中的第一样本图像输入至网络模型，基于网络模型获取多个参考操作对应的操作分值。

2032、将分值最大的参考操作确定为第一样本图像的第一预测操作。

分值的大小可以表示在该第一样本图像对应的应用界面中执行该参考操作的概率，因此确定分值最大的参考操作，即可看做是该网络模型预测的操作。

2033、根据第一预测操作与第一样本数据中的第一目标操作之间的误差，对网络模型的模型参数进行调整。

该第一预测操作与第一目标操作之间的误差可以反映该网络模型的准确率，误差越大表示该网络模型的准确率越低。因此可以根据该误差，调整网络模型的模型参数，且调整的方式是可以使该网络模型确定的预测操作与目标操作之间的误差更小。

在一种可能实现方式中，根据第一预测操作与第一样本数据中的第一目标操作之间的误差，采用参考损失函数处理得到输出值，该输出值与该误差呈正相关关系，则在对网络模型的模型参数进行调整时，可以按照参考损失函数的输出值减小的目标进行调整，以使调整后的网络模型确定的预测操作与目标操作之间的误差减小。

其中，该参考损失函数可以为交叉熵损失函数，或者其他损失函数。

在另一种可能实现方式中，该步骤203可以包括以下步骤：

2034、分别根据多个第一样本数据，对网络模型进行迭代训练，直至迭代训练次数达到第一参考次数时为止。

网络模型依次根据多个第一样本数据进行训练，当根据多个第一样本数据均训练一次后，表示一轮迭代训练完成。当一轮迭代训练完成后，可以再次根据该多个第一样本数据，继续对该网络模型进行训练，以此类推，即可进行多轮迭代训练。当对该网络模型的迭代训练次数达到第一参考次数时，得到根据多个第一样本数据训练完成的网络模型。

例如，第一参考次数为20，则根据多个第一样本数据对网络模型进行迭代训练，当迭代训练次数达到20时，表示根据多个第一样本数据对网络模型的训练完成。

2035、分别根据多个第一样本数据，对网络模型进行迭代训练，直至网络模型根据样本图像确定的分值最大的参考操作，与样本图像对应的目标操作之间的误差小于第一参考误差时为止。

在训练过程中，网络模型根据预测操作与目标操作之间的误差调整该网络模型的模型参数，以使该误差减小。也即是预测操作与目标操作之间的误差呈现逐渐减小的趋势。因此，可以设置第一参考误差，当网络模型根据第一样本数据确定的参考操作与目标操作的误差小于第一参考误差时，表示该网络模型的误差足够小，准确率已经满足要求，则可完成根据第一样本数据对该参考模型的训练。

204、获取多个第二样本数据。

训练设备获取应用客户端的多个第二样本数据，第二样本数据包括第二样本图像和第二目标操作，第二样本图像为应用客户端显示的应用界面的图像，第二目标操作为在应用界面中执行的操作。

第二样本数据通过终端在应用客户端的运行过程中与应用客户端进行交互得到，关于获取第二样本数据的设备，可以包括：

训练设备为终端时，终端安装有应用客户端，终端运行应用客户端的过程中可以与应用客户端进行交互，获取多个第二样本数据。

而训练设备为服务器时，终端安装有应用客户端，终端运行应用客户端的过程中可以与应用客户端进行交互，获取一个或多个第二样本数据，上传给服务器，服务器可以收集一个或多个终端上传的第二样本数据，得到多个第二样本数据。或者，终端运行应用客户端的过程中可以获取一个或多个第二样本数据，存储于终端中，当接收到服务器发送的样本数据获取请求时，将存储的多个第二样本数据发送给服务器，服务器接收该多个第二样本数据。

终端获取第二样本数据的过程可以包括：终端运行应用客户端的过程中，会显示应用客户端的应用界面，此时用户可以在应用界面中执行操作，应用客户端会检测到该操作，从而根据该操作显示下一个应用界面。而应用客户端向终端提供界面获取接口和操作获取接口，在应用客户端的运行过程中，终端可以与应用客户端进行交互，通过调用界面获取接口，可以获取应用客户端显示的应用界面，且通过调用操作获取接口，可以获取应用客户端执行的操作，即为在该应用界面中执行的操作。采用此种方式，终端即可获取到第二样本图像和第二目标操作，从而得到第二样本数据。

在一种可能实现方式中，在应用客户端的运行过程中，所获取的第二样本图像为应用客户端显示的应用界面的图像，或者也可以为应用客户端显示的应用界面中的缩略地图区域的图像。

由于应用客户端的应用界面的图像包含的特征较多，为了在训练网络模型时减小计算量，在录制应用客户端的应用界面的图像时，可以提取应用客户端显示的应用界面中的缩略地图区域的图像，作为第二样本图像。

在另一种可能实现方式中，训练设备确定参考尺寸，该参考尺寸即为用于训练网络模型的样本图像应满足的尺寸。当通过与应用客户端进行交互得到任一样本图像时，对该样本图像进行预处理，以得到满足该参考尺寸的第二样本图像。其中，该参考尺寸可以为50×50像素、80×80像素等。

例如，训练设备提取应用界面中的缩略地图区域的图像作为第二样本图像时，先提取到缩略地图区域的图像，对该图像进行缩放，以得到满足该参考尺寸的图像，作为第二样本图像。

在另一种可能实现方式中，为了提高样本数据的多样性，以便训练出更为准确的网络模型，训练设备获取到第二样本图像时，还可以对该第二样本图像进行随机裁剪和缩放，得到更多的第二样本图像，从而扩充第二样本图像的数量。

关于获取的样本数据的数量，如果获取到的多个第二目标操作对应的样本图像数量不均衡，根据获取到的多个第二目标操作对应的样本图像进行训练时，可能会导致训练出的网络模型偏向于样本图像数量较多的第二目标操作，而导致第二目标操作的预测概率过高。

在一种可能实现方式中，为了防止上述样本图像数量不均衡的问题，训练设备可以设置参考数量，该参考数量用于规定每种第二目标操作对应的样本图像数量的最小值。则通过与应用客户端进行交互，获取多个第二样本图像和每个第二样本图像的第二目标操作，统计获取到的多个第二目标操作对应的样本图像数量，当任一第二目标操作对应的样本图像数量小于参考数量时，继续获取与该任一第二目标操作对应的第二样本图像，以使该任一第二目标操作对应的样本图像数量不小于参考数量。

在另一种可能实现方式中，为了防止上述样本图像数量不均衡的问题，训练设备可以设置参考比例，该参考比例用于规定每种第二目标操作对应的样本图像数量所占比例的最小值。则获取参考比例与获取到的多个样本图像的总数量的乘积，得到指定数量，当任一第二目标操作对应的样本图像数量小于指定数量时，继续获取与该任一第二目标操作对应的第二样本图像，以使该任一第二目标操作对应的样本图像数量不小于指定数量。

205、根据多个第二样本数据和多个第二样本数据对应的目标收益数值，对已根据多个第一样本数据训练完成的网络模型进行训练。

训练过程中，会分别根据每个第二样本数据进行训练，在训练多次后，得到训练完成的网络模型。其中，该网络模型中包括参考收益函数，该参考收益函数用于根据任一应用界面的图像和将在该应用界面中执行的操作，获取对应的收益数值，该收益数值能够表示在该应用界面中执行该操作得到的收益多少。

对于任一样本数据来说，该样本数据的预测收益数值为通过该网络模型对该样本数据中的样本图像进行预测后，采用该参考收益函数，对该样本图像和预测的操作进行处理后得到的收益数值，该样本数据的目标收益数值为采用该参考收益函数，对该样本图像和目标操作进行处理后得到的收益数值，可以看做该样本数据的实际收益数值。

预测收益数值与实际收益数值之间的误差可以在一定程度上反映网络模型的准确率。因此，该网络模型的训练目标为根据任一第二样本数据确定的预测收益数值，与该任一第二样本数据对应的目标收益数值之间的误差最小。

训练过程中，训练设备采用的训练算法可以包括多种，如深度学习训练算法、卷积神经网络训练算法、DQN(Deep Q Network，深度Q网络)算法等。

在一种可能实现方式中，该步骤205包括：

2051、对于每个第二样本数据，将第二样本数据中的第二样本图像输入至已根据多个第一样本数据训练完成的网络模型，基于网络模型获取多个参考操作对应的操作分值。

2052、根据多个参考操作对应的操作分值，选取多个备选操作，多个备选操作对应的操作分值大于多个参考操作中其他操作对应的操作分值。

分值的大小可以表示在该第二样本图像对应的应用界面中执行该参考操作的概率，选取其中分值较大的参考操作作为备选操作。

在一种可能实现方式中，预先设置需要选取的备选操作的参考数量，则根据多个参考操作对应的操作分值，从多个参考操作中按照分值从大到小的顺序，选取该参考数量的参考操作，作为备选操作，此时选取的多个备选操作对应的操作分值大于多个参考操作中其他操作对应的操作分值。

在另一种可能实现方式中，预先设置需要选取的备选操作的最小分值，作为参考分值，则根据多个参考操作对应的操作分值，从多个参考操作中选取分值大于该参考分值的参考操作，作为备选操作，而分值不大于该参考分值的参考操作将不再选取，因此选取的多个备选操作对应的操作分值大于多个参考操作中其他操作对应的操作分值。

2053、采用参考收益函数，分别对第二样本图像和每个备选操作进行处理，得到每个备选操作对应的收益数值，将多个备选操作对应的收益数值中的最大收益数值确定为预测收益数值。

预测收益数值的大小可以表示在该第二样本图像对应的应用界面中执行该参考操作的收益，表示在该第二样本图像对应的应用界面中执行该参考操作的概率，确定预测收益数值最大的参考操作，即可看做是该网络模型预测的操作。

2054、采用参考收益函数，对第二样本图像和第二目标操作进行处理，得到目标收益数值。

2055、根据预测收益数值与目标收益数值之间的误差，对网络模型的模型参数进行调整。

该预测收益数值与目标收益数值之间的误差可以反映该网络模型的准确率，误差越大表示该网络模型的准确率越低。因此可以根据该误差，调整网络模型的模型参数，且调整的方式是可以使该网络模型确定的预测收益数值与目标收益数值之间的误差更小。

其中，该网络模型中的参考收益函数可以由训练设备根据应用客户端的运行规则进行设置，例如在飞车类游戏客户端中，参考收益函数可以为基于速度的函数，该函数的输出值与速度呈正相关关系，表示速度越快，得到的收益数值越多。

在另一种可能实现方式中，该步骤205可以包括以下步骤：

2056、分别根据多个第二样本数据，对网络模型进行迭代训练，直至网络模型根据第二样本数据得到的第二样本数据的收益数值与目标收益数值之间的误差小于第二参考误差为止。

在训练过程中，网络模型根据预测收益数值与目标操作之间的误差调整该网络模型的模型参数，以使该误差减小。也即是预测操作与目标操作之间的误差呈现逐渐减小的趋势。因此，可以设置第二参考误差，当网络模型根据第二样本数据确定的参考操作与目标操作的误差小于第二参考误差时，表示该网络模型的误差足够小，准确率已经满足要求，则可完成根据第一样本数据对该参考模型的训练。

2057、分别根据多个第二样本数据，对网络模型进行迭代训练，直至迭代训练次数达到第二参考次数时为止。

网络模型依次根据多个第二样本数据进行训练，当根据多个第二样本数据均训练一次后，表示一轮迭代训练完成。当一轮迭代训练完成后，可以再次根据该多个第二样本数据，继续对该网络模型进行训练，以此类推，即可进行多轮迭代训练。当对该网络模型的迭代训练次数达到第二参考次数时，得到根据多个第二样本数据训练完成的网络模型。

例如，第二参考次数为30，则根据多个第二样本数据对网络模型进行迭代训练，当迭代训练次数达到30时，表示根据多个第二样本数据对网络模型的训练完成。

本发明实施例提供的方法，获取多个第一样本数据，获取初始化的网络模型，根据多个第一样本数据对网络模型进行训练之后，还会获取多个第二样本数据，根据多个第二样本数据和多个第二样本数据对应的目标收益数值，对已根据多个第一样本数据训练完成的网络模型进行训练，得到训练完成的网络模型，避免了由于录制得到的样本数据的数量有限而导致网络模型准确率不高的问题，提高了网络模型的准确率，基于该网络模型确定将在界面中执行的操作时不易出现错误，提高了网络模型的稳定性。

在本发明实施例中，训练设备可以获取多个样本数据，从而根据多个样本数据对网络模型进行训练。考虑到样本数据过多时，会造成计算量较大，训练时间较长，而样本数据过少时，会造成训练出的网络模型不准确。因此，综合考虑计算量和准确率，本发明实施例中采用了模仿学习与强化学习相结合的方式，在不同的训练阶段，获取不同类型的样本数据，采用不同的训练方式，对网络模型进行训练。如图5所示，以游戏应用客户端为例，通过录制游戏应用客户端的运行过程获取到游戏样本数据，对其中的样本图像进行预处理，先采用模仿学习的方式进行训练，再通过与游戏应用客户端进行交互获取到游戏样本数据，对其中的样本图像进行预处理，并以模仿学习训练出的网络模型作为初始化的模型，继续采用强化学习的方式进行训练，从而得到更为准确的网络模型。

其中，模仿学习阶段所需的样本数据的数量较少，训练时的计算量较小，能够节省训练时间，而强化学习阶段，能够以模仿学习阶段训练的网络模型为基础进行训练，从而提高网络模型的准确率。

基于上述模型训练方法训练完成的网络模型，可应用于预测操作。

在一种可能实现方式中，在步骤205之后，该方法还包括以下步骤206或207：

206、获取应用客户端当前显示的应用界面，将应用界面的图像输入至网络模型，基于网络模型获取多个参考操作对应的操作分值，选取分值最大的参考操作，在应用界面中执行分值最大的参考操作。

在测试应用客户端的场景或者模拟成智能机器人与用户进行交互的场景下，都需要在应用界面中自动地执行操作。因此，基于已训练完成的网络模型，能够确定多个参考操作对应的操作分值，以表示在该应用界面中执行每个参考操作的概率，从而确定在该应用界面中最有可能执行的参考操作，执行该参考操作。

207、获取应用客户端当前显示的应用界面，将应用界面的图像输入至网络模型，基于网络模型获取多个参考操作对应的操作分值，根据多个参考操作对应的操作分值，选取多个备选操作，多个备选操作对应的操作分值大于多个参考操作中其他操作对应的操作分值。采用参考收益函数，分别对应用界面的图像和每个备选操作进行处理，得到每个备选操作对应的收益数值，将多个备选操作对应的收益数值中的最大收益数值对应的备选操作确定为待执行的操作，在应用界面中执行操作。

在测试应用客户端的场景或者模拟成智能机器人与用户进行交互的场景下，都需要在应用界面中自动地执行操作。因此，基于已训练完成的网络模型，能够确定多个参考操作对应的操作分值，以表示在该应用界面中执行每个参考操作的概率，从中选取出分值较大的多个备选操作。此时可以采用参考收益函数，分别对应用界面的图像和每个备选操作进行处理，即每次采用参考收益函数对该应用界面的图像和一个备选操作进行处理，得到一个收益数值，从而得到每个备选操作对应的收益数值，该收益数值可以表示在该应用界面中执行该备选操作时可以得到的收益多少，因此将最大收益数值对应的备选操作确定在该应用界面中最有可能执行的参考操作，执行该参考操作。

需要说明的是，上述步骤206-207可以由终端执行，即终端在运行应用客户端的过程中在应用界面中执行参考操作。或者，上述步骤206-207也可以由服务器执行，即终端在运行应用客户端的过程中，将显示的应用界面发送给服务器，服务器确定待执行的参考操作后发送给终端，终端在应用界面中执行参考操作。

需要说明的另一点是，本发明实施例是以终端安装应用客户端为例，对根据应用客户端的样本数据进行训练得到网络模型的过程进行了说明；而在另一实施例中，还可以终端为整体，根据终端的样本数据进行训练得到网络模型。也即是，通过录制终端的运行过程，得到多个第一样本数据，通过监测终端的运行过程得到多个第二样本数据。根据多个第一样本数据和多个第二样本数据，采用与上述实施例类似的方式进行训练，得到网络模型。

其中，第一样本数据包括第一样本图像和第一目标操作，第二样本数据包括第二样本图像和第二目标操作，第一样本图像和第二样本图像为终端显示的界面的图像，第一目标操作为在第一样本图像对应的界面中执行的操作，第二目标操作为在第二样本图像对应的界面中执行的操作。

并且，上述终端运行过程可以包括终端上任一应用客户端运行的过程、终端的操作系统运行的过程或终端上其他应用程序运行的过程。

在一种可能实现方式中，在终端运行过程中显示的界面可以包括缩略地图区域，如，终端在单手操作模式下，为了缩小显示尺寸，会显示缩略地图区域；或者，终端运行游戏客户端时，在显示的游戏界面中，显示游戏场景的缩略地图区域等。因此，获取的第一样本图像可以为终端显示的界面中的缩略地图区域的图像。

图6是本发明实施例提供的一种测试应用客户端的方法流程图，如图6所示，该方法包括：

601、开发人员开发出应用客户端后，测试人员将应用客户端安装于测试设备上。

602、在测试人员使用测试设备中安装的应用客户端的过程中，测试设备通过安装的录屏客户端对该应用客户端进行录制，得到多个第一样本数据。

603、测试设备根据该多个第一样本数据对网络模型进行训练。

604、在测试人员使用测试设备中安装的应用客户端的过程中，测试设备通过与应用客户端进行交互，得到多个第二样本数据。

605、测试设备根据该多个第二样本数据，对已根据多个第一样本数据训练完成的网络模型继续进行训练。

606、训练完成后，测试人员在测试设备上打开应用客户端，则应用客户端显示应用界面，基于训练完成的网络模型自动预测将要执行的操作，并执行该操作。

607、测试设备显示执行该操作后的下一个应用界面，并获取执行该操作后的操作结果，以此类推，即可得到多个操作结果，根据多个操作结果生成测试报告。

在此测试过程中，测试人员只需观察测试设备的运行情况，而无需在应用客户端上进行操作。

图7是本发明实施例提供的一种模型训练装置的结构示意图，参见图7，该装置包括：

第一样本获取模块701，用于获取多个第一样本数据，第一样本数据通过录制终端的运行过程得到，第一样本数据包括第一样本图像和第一目标操作，第一样本图像为终端显示的界面的图像，第一目标操作为在界面中执行的操作；

模型获取模块702，用于获取初始化的网络模型，网络模型用于根据任一界面的图像获取多个参考操作对应的操作分值，参考操作对应的操作分值用于表示在界面中执行参考操作的概率；

第一模型训练模块703，用于根据多个第一样本数据对网络模型进行训练；

第二样本获取模块704，用于获取多个第二样本数据，第二样本数据通过检测终端的运行过程得到，第二样本数据包括第二样本图像和第二目标操作；

第二模型训练模块705，用于根据多个第二样本数据和多个第二样本数据对应的目标收益数值，对已根据多个第一样本数据训练完成的网络模型进行训练，第二样本数据对应的目标收益数值通过采用参考收益函数，对第二样本数据中的第二样本图像和第二目标操作进行处理得到。

可选地，参见图8，第一模型训练模块703，包括：

分值获取单元7031，用于对于每个第一样本数据，将第一样本数据中的第一样本图像输入至网络模型，基于网络模型获取多个参考操作对应的操作分值；

确定单元7032，用于将分值最大的参考操作确定为第一样本图像的第一预测操作；

参数调整单元7033，用于根据第一预测操作与第一样本数据中的第一目标操作之间的误差，对网络模型的模型参数进行调整，以使调整后的网络模型根据第一样本图像确定的预测操作与第一目标操作之间的误差减小。

可选地，参见图8，第二模型训练模块705，包括：

分值获取单元7051，用于对于每个第二样本数据，将第二样本数据中的第二样本图像输入至已根据多个第一样本数据训练完成的网络模型，基于网络模型获取多个参考操作对应的操作分值；

选取单元7052，用于根据多个参考操作对应的操作分值，从多个参考操作中选取多个备选操作，多个备选操作对应的操作分值大于多个参考操作中其他操作对应的操作分值；

第一处理单元7053，用于采用参考收益函数，分别对第二样本图像和每个备选操作进行处理，得到每个备选操作对应的收益数值，将多个备选操作对应的收益数值中的最大收益数值确定为预测收益数值；

第二处理单元7054，用于采用参考收益函数，对第二样本数据中的第二样本图像和第二目标操作进行处理，得到目标收益数值；

参数调整单元7055，用于根据预测收益数值与目标收益数值之间的误差，对网络模型的模型参数进行调整，以使调整后的网络模型根据第二样本图像确定的预测收益数值与目标收益数值之间的误差减小。

可选地，第一样本图像为终端显示的界面中的缩略地图区域的图像。

可选地，参见图8，第一样本获取模块701，包括：

样本获取单元7011，用于通过录制终端的运行过程，获取多个第一样本图像和每个第一样本图像的第一目标操作；

统计单元7012，用于统计获取到的多个第一目标操作对应的样本图像数量；

样本获取单元7011，还用于当任一第一目标操作对应的样本图像数量小于参考数量时，继续获取与任一第一目标操作对应的第一样本图像，以使任一第一目标操作对应的样本图像数量不小于参考数量；或者，

样本获取单元7011，还用于获取参考比例与获取到的多个样本图像的总数量的乘积，得到指定数量，当任一第一目标操作对应的样本图像数量小于指定数量时，继续获取与任一第一目标操作对应的第一样本图像，以使任一第一目标操作对应的样本图像数量不小于指定数量。

可选地，参见图8，第一模型训练模块703，还用于：

分别根据多个第一样本数据，对网络模型进行迭代训练，直至迭代训练次数达到第一参考次数时为止；或者，

分别根据多个第一样本数据，对网络模型进行迭代训练，直至网络模型根据任一第一样本图像确定的分值最大的参考操作，与任一第一样本图像对应的第一目标操作之间的误差小于第一参考误差时为止。

可选地，参见图8，第二模型训练模块705，还用于：

分别根据多个第二样本数据，对网络模型进行迭代训练，直至迭代训练次数达到第二参考次数时为止；或者，

分别根据多个第二样本数据，对网络模型进行迭代训练，直至网络模型根据任一第二样本数据确定的预测收益数值与任一第二样本数据对应的目标收益数值之间的误差小于第二参考误差为止。

可选地，参见图8，装置还包括：

第一界面获取模块706，用于获取终端当前显示的界面；

第一分值获取模块707，用于将界面的图像输入至网络模型，基于网络模型获取多个参考操作对应的操作分值；

第一操作执行模块708，用于选取分值最大的参考操作，在界面中执行分值最大的参考操作。

可选地，参见图8，装置还包括：

第二界面获取模块709，用于获取终端当前显示的界面；

第二分值获取模块710，用于将界面的图像输入至网络模型，基于网络模型获取多个参考操作对应的操作分值；

操作选取模块711，用于根据多个参考操作对应的操作分值，从多个参考操作中选取多个备选操作，多个备选操作对应的操作分值大于多个参考操作中其他操作对应的操作分值；

操作确定模块712，用于采用参考收益函数，分别对界面的图像和每个备选操作进行处理，得到每个备选操作对应的收益数值，将得到的多个收益数值中的最大收益数值对应的备选操作确定为待执行的操作；

第二操作执行模块713，用于在界面中执行操作。

需要说明的是：上述实施例提供的模型训练装置在模型训练时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将训练设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的模型训练装置与模型训练方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图9是本发明实施例提供的一种终端的结构示意图。该终端900可以是便携式移动终端，比如：智能手机、平板电脑、MP3播放器(Moving Picture Experts Group AudioLayer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts GroupAudio Layer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑、台式电脑、头戴式设备、智能电视、智能音箱、智能遥控器、智能话筒，或其他任意智能终端。终端900还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，终端900包括有：处理器901和存储器902。

处理器901可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。存储器902可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的，用于存储至少一个指令，该至少一个指令用于被处理器901所具有以实现本申请中方法实施例提供的模型训练方法。

在一些实施例中，终端900还可选包括有：外围设备接口903和至少一个外围设备。处理器901、存储器902和外围设备接口903之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口903相连。具体地，外围设备包括：射频电路904、显示屏905和音频电路906中的至少一种。

射频电路904用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路904通过电磁信号与通信网络以及其他通信设备进行通信。

显示屏905用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。该显示屏905可以是触摸显示屏，还可以用于提供虚拟按钮和/或虚拟键盘。

音频电路906可以包括麦克风和扬声器。麦克风用于采集用户及环境的音频信号，并将音频信号转换为电信号输入至处理器901进行处理，或者输入至射频电路904以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端900的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器901或射频电路904的电信号转换为音频信号。

本领域技术人员可以理解，图9中示出的结构并不构成对终端900的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

图10是本发明实施例提供的一种服务器的结构示意图，该服务器1000可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processingunits，CPU)1001和一个或一个以上的存储器1002，其中，存储器1002中存储有至少一条指令，至少一条指令由处理器1001加载并执行以实现上述各个方法实施例提供的方法。当然，该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器还可以包括其他用于实现设备功能的部件，在此不做赘述。

服务器1000可以用于执行上述模型训练方法中训练设备所执行的步骤。

本发明实施例还提供了一种模型训练装置，该装置包括处理器和存储器，存储器中存储有至少一条指令、至少一段程序、代码集或指令集，指令、程序、代码集或指令集由处理器加载并具有以实现上述实施例的模型训练方法中所执行的操作。

本发明实施例还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，该指令、该程序、该代码集或该指令集由处理器加载并具有以实现上述实施例的模型训练方法中所执行的操作。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明实施例的较佳实施例，并不用以限制本发明实施例，凡在本发明实施例的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种模型训练方法，其特征在于，所述方法包括：

获取初始化的网络模型，所述网络模型用于根据任一界面的图像获取多个参考操作对应的操作分值，所述参考操作对应的操作分值用于表示通过所述网络模型确定的在所述界面中执行所述参考操作的概率；

根据所述多个第一样本数据对所述网络模型进行训练；

获取多个第二样本数据，所述第二样本数据通过监测所述终端的运行过程得到，所述第二样本数据包括第二样本图像和第二目标操作；

根据所述多个第二样本数据和所述多个第二样本数据对应的目标收益数值，对已根据所述多个第一样本数据训练完成的所述网络模型进行训练，所述第二样本数据对应的目标收益数值通过采用参考收益函数，对所述第二样本数据中的第二样本图像和第二目标操作进行处理得到，所述目标收益数值的大小用于表示通过所述参考收益函数确定的在第二样本图像对应的界面中执行所述第二目标操作的概率。

2.根据权利要求1所述的方法，其特征在于，所述根据所述多个第一样本数据对所述网络模型进行训练，包括：

3.根据权利要求1所述的方法，其特征在于，所述根据所述多个第二样本数据和所述多个第二样本数据对应的目标收益数值，对已根据所述多个第一样本数据训练完成的所述网络模型进行训练，包括：

采用所述参考收益函数，对所述第二样本数据中的所述第二样本图像和所述第二目标操作进行处理，得到所述目标收益数值；

根据所述预测收益数值与所述目标收益数值之间的误差，对所述网络模型的模型参数进行调整，以使调整后的所述网络模型根据所述第二样本图像确定的所述预测收益数值与所述目标收益数值之间的误差减小。

4.根据权利要求1所述的方法，其特征在于，所述第一样本图像为所述终端显示的界面中的缩略地图区域的图像。

5.根据权利要求1所述的方法，其特征在于，所述获取多个第一样本数据，包括：

统计获取到的多个第一目标操作对应的样本图像数量；

6.根据权利要求1所述的方法，其特征在于，所述根据所述多个第一样本数据对所述网络模型进行训练，包括：

7.根据权利要求1所述的方法，其特征在于，所述根据所述多个第二样本数据和所述多个第二样本数据对应的目标收益数值，对已根据所述多个第一样本数据训练完成的所述网络模型进行训练，包括：

分别根据所述多个第二样本数据，对所述网络模型进行迭代训练，直至所述网络模型根据任一第二样本数据确定的预测收益数值与所述任一第二样本数据对应的目标收益数值之间的误差小于第二参考误差为止。

8.根据权利要求1-7任一项所述的方法，其特征在于，所述根据所述多个第二样本数据和所述多个第二样本数据对应的目标收益数值，对已根据所述多个第一样本数据训练完成的所述网络模型进行训练之后，所述方法还包括：

获取所述终端当前显示的界面；

9.根据权利要求1-7任一项所述的方法，其特征在于，所述根据所述多个第二样本数据和所述多个第二样本数据对应的目标收益数值，对已根据所述多个第一样本数据训练完成的所述网络模型进行训练之后，所述方法还包括：

获取所述终端当前显示的界面；

在所述界面中执行所述操作。

10.一种模型训练装置，其特征在于，所述装置包括：

模型获取模块，用于获取初始化的网络模型，所述网络模型用于根据任一界面的图像获取多个参考操作对应的操作分值，所述参考操作对应的操作分值用于表示通过所述网络模型确定的在所述界面中执行所述参考操作的概率；

第二模型训练模块，用于根据所述多个第二样本数据和所述多个第二样本数据对应的目标收益数值，对已根据所述多个第一样本数据训练完成的所述网络模型进行训练，所述第二样本数据对应的目标收益数值通过采用参考收益函数，对所述第二样本数据中的第二样本图像和第二目标操作进行处理得到，所述目标收益数值的大小用于表示通过所述参考收益函数确定的在第二样本图像对应的界面中执行所述第二目标操作的概率。

11.根据权利要求10所述的装置，其特征在于，所述第一模型训练模块，包括：

12.根据权利要求10所述的装置，其特征在于，所述第二模型训练模块，包括：

第二处理单元，用于采用所述参考收益函数，对所述第二样本数据中的所述第二样本图像和所述第二目标操作进行处理，得到所述目标收益数值；

参数调整单元，用于根据所述预测收益数值与所述目标收益数值之间的误差，对所述网络模型的模型参数进行调整，以使调整后的所述网络模型根据所述第二样本图像确定的所述预测收益数值与所述目标收益数值之间的误差减小。

13.根据权利要求10所述的装置，其特征在于，所述第一样本图像为所述终端显示的界面中的缩略地图区域的图像。

14.根据权利要求10所述的装置，其特征在于，所述第一样本获取模块，包括：

15.根据权利要求10所述的装置，其特征在于，所述第一模型训练模块，还用于：

16.根据权利要求10所述的装置，其特征在于，所述第二模型训练模块，还用于：

17.根据权利要求10-16任一项所述的装置，其特征在于，所述装置还包括：

第一界面获取模块，用于获取所述终端当前显示的界面；

18.根据权利要求10-16任一项所述的装置，其特征在于，所述装置还包括：

第二界面获取模块，用于获取所述终端当前显示的界面；

第二操作执行模块，用于在所述界面中执行所述操作。

19.一种模型训练装置，其特征在于，所述装置包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述指令、所述程序、所述代码集或所述指令集由所述处理器加载并执行以实现如权利要求1至9任一权利要求所述的模型训练方法中所执行的操作。

20.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述指令、所述程序、所述代码集或所述指令集由处理器加载并执行以实现如权利要求1至9任一权利要求所述的模型训练方法中所执行的操作。