CN113807515A

CN113807515A - 模型训练的方法、装置、计算机设备及存储介质

Info

Publication number: CN113807515A
Application number: CN202110969102.4A
Authority: CN
Inventors: 浦嘉澍; 毛晓曦; 吴润泽; 沈旭东; 范长杰; 胡志鹏
Original assignee: Netease Hangzhou Network Co Ltd
Current assignee: Netease Hangzhou Network Co Ltd
Priority date: 2021-08-23
Filing date: 2021-08-23
Publication date: 2021-12-17

Abstract

本申请实施例公开了一种模型训练的方法、装置、计算机设备及存储介质，可以预先获取第一行为样本，对待训练的特征提取模型进行无监督训练，然后将无监督训练得到的训练完成的特征提取模型，应用到用户游戏行为的预测任务中，利用无监督训练得到的特征提取模型对第二行为样本提取的特征向量，可以替代对海量的游戏行为数据进行标注后得到的特征，避免人工对海量的游戏行为数据进行标注，减少海量数据标注的出错率，降低数据标注的成本。

Description

模型训练的方法、装置、计算机设备及存储介质

技术领域

本申请涉及模型训练技术领域，具体涉及一种模型训练的方法、装置、计算机设备及存储介质。

背景技术

为了增加用户的游戏体验感，游戏中通常会部署各类智能服务，例如，外挂检测、社交推荐、商品购买推荐等等。当向游戏中的用户推荐商品时，需要预测用户在游戏中购买虚拟物品的时机，然而预测用户购买时机的方法通常需要采集海量的游戏行为数据，对采集的数据进行标注，再进一步根据标注的数据进行模型训练。然而，对采集的海量数据进行标注会耗费较多的时间和人力，且出错率较高，导致数据标注的成本过高。

发明内容

本申请实施例提供一种模型训练的方法、装置、计算机设备及存储介质，避免对海量数据进行标注，减少海量数据标注的出错率，降低数据标注的成本。

本申请实施例提供一种模型训练的方法，包括：

获取待训练的特征提取模型的第一行为样本，所述第一行为样本包括用户在目标游戏中的多个历史行为序列；

将所述第一行为样本输入所述特征提取模型，基于所述第一行为样本对所述特征提取模型进行无监督训练，得到训练完成的特征提取模型；

基于所述训练完成的特征提取模型提取第二行为样本的特征向量，其中，所述第二行为样本包括用户在目标游戏中的多个历史行为序列，所述第二行为样本中的每个历史行为序列具有对应的标签，所述标签用于指示对应的历史行为序列后的预设时长内发生的目标行为的类型；

将所述特征向量输入待训练的行为分类模型，通过所述行为分类模型预测所述第二行为样本中每个历史行为序列后的预设时长内发生的目标行为的类型，得到预测结果；

基于所述预测结果和所述第二行为样本中的所述标签调整所述待训练的行为分类模型的参数，得到训练完成的行为分类模型。

可选的，本申请实施例还提供一种行为预测方法，包括：

基于训练完成的特征提取模型，提取目标用户的待预测的行为序列的特征向量，所述训练完成的特征提取模型为通过上述得到的训练完成的特征提取模型，所述待预测的行为序列包括当前时刻前所述目标用户在目标游戏中的多个行为信息；

通过训练完成的行为分类模型基于所述特征向量，预测所述目标用户在所述当前时刻之后的预设时长内，在所述目标游戏中发生目标行为的类型，所述训练完成的行为分类模型为通过上述得到的训练完成的行为分类模型；

若预测发生的所述目标行为的类型，满足预设发生所述目标行为的类型，确定所述目标用户在当前时刻后的预设时长内会发生所述目标行为。

相应的，本申请实施例提供一种模型训练的装置，包括：

获取单元，用于获取待训练的特征提取模型的第一行为样本，所述第一行为样本包括用户在目标游戏中的多个历史行为序列；

训练单元，用于将所述第一行为样本输入所述特征提取模型，基于所述第一行为样本对所述特征提取模型进行无监督训练，得到训练完成的特征提取模型；

第一提取单元，用于基于所述训练完成的特征提取模型提取第二行为样本的特征向量，其中，所述第二行为样本包括用户在目标游戏中的多个历史行为序列，所述第二行为样本中的每个历史行为序列具有对应的标签，所述标签用于指示对应的历史行为序列后的预设时长内发生的目标行为的类型；

第一预测单元，用于将所述特征向量输入待训练的行为分类模型，通过所述行为分类模型预测所述第二行为样本中每个历史行为序列后的预设时长内发生的目标行为的类型，得到预测结果；

调整单元，用于基于所述预测结果和所述第二行为样本中的所述标签调整所述待训练的行为分类模型的参数，得到训练完成的行为分类模型。

可选的，所述获取单元还用于：

获取所述用户在所述目标游戏中的历史游戏行为记录；

将所述历史游戏行为记录分割为多个行为信息，对所述多个行为信息进行排序，得到由所述多个行为信息组成的历史行为序列；

根据所述历史行为序列得到所述第一行为样本。

可选的，所述行为信息包含用于表征行为的操作信息和用于表征行为对象的对象信息。

可选的，所述获取单元还用于：

将所述历史游戏行为记录分割为多个行为信息，根据多个所述行为信息的发生时间先后顺序进行排序，形成初始行为序列；

确定所述初始行为序列中的至少一组待合并行为信息，所述待合并行为信息包括至少两个相邻的行为信息，且所述待合并行为信息在所述初始行为序列中出现次数最多；

合并每一组待合并历史行为信息包括的至少两个行为信息，在所述初始行为序列中形成新的行为信息，以更新所述初始行为序列；

返回执行所述确定所述初始行为序列中的至少一组待合并行为信息的步骤，直到所述初始行为序列中的行为信息的数量达到预设数量，得到由所述预设数量的行为信息组成的历史行为序列。

可选的，所述获取单元还用于：

获取所述历史游戏行为记录中包括的全部行为信息，以及各个行为信息在所述历史游戏行为记录中的出现次数；

根据各个行为信息，以及各个行为信息对应的出现次数，形成词表；

在所述初始行为序列中获取至少两个相邻的行为信息，根据所述词表，获取所述至少两个相邻的行为信息的出现次数总和；

确定所述出现次数总和最多的至少两个相邻的行为信息，作为所述待合并行为信息。

可选的，所述历史行为序列包括多个行为信息，所述训练单元还用于：

利用掩码替换所述第一行为样本中的至少一个历史行为序列中的至少一个行为信息；

通过所述待训练的特征提取模型提取所述第一行为样本的特征向量；

通过所述待训练的特征提取模型，基于所述特征向量预测所述第一行为样本中被所述掩码替换的行为信息，得到预测游戏行为信息；

基于所述预测游戏行为信息和被所述掩码替换的行为信息，调整所述待训练的特征提取模型的参数，得到训练完成的特征提取模型。

可选的，所述第一提取单元还用于：

获取所述用户在所述目标游戏中至少一个历史时间段内的行为信息，以及确定每一历史时间段之后的预设时长内所述用户发生目标行为的类型；

基于所述用户的每一历史时间段内的行为信息生成第二行为样本，基于所述第二行为样本对应的历史时间段之后的预设时长内所述用户发生所述目标行为的类型设置所述第二行为样本的标签。

可选的，所述调整单元还用于：

基于所述预测结果和所述第二行为样本中的所述标签计算行为分类损失，基于第一学习率和所述行为分类损失调整所述待训练的行为分类模型的参数，得到所述训练完成的行为分类模型；

所述模型训练的装置还用于：

基于所述行为分类损失以及第二学习率调整所述训练完成的特征提取模型的参数，其中，所述第一学习率和所述第二学习率不同。

可选的，所述目标行为包括购买行为。

可选的，本申请实施例还提供一种行为预测装置，包括：

第二提取单元，用于基于训练完成的特征提取模型，提取目标用户的待预测的行为序列的特征向量，所述训练完成的特征提取模型为通过上述得到的训练完成的特征提取模型，所述待预测的行为序列包括当前时刻前所述目标用户在目标游戏中的多个行为信息；

第二预测单元，用于通过训练完成的行为分类模型基于所述特征向量，预测所述目标用户在所述当前时刻之后的预设时长内，在所述目标游戏中发生目标行为的类型，所述训练完成的行为分类模型为上述得到的训练完成的行为分类模型；

确定单元，用于预测发生的所述目标行为的类型，满足预设发生所述目标行为的类型，确定所述目标用户在当前时刻后的预设时长内会发生所述目标行为。

可选的，所述目标行为为购买行为，所述行为预测装置还用于：

根据所述目标用户在所述目标游戏当前所处的游戏场景，向所述目标用户推荐应用于所述当前所处的游戏场景的虚拟商品。

获取所述目标用户在所述目标游戏中当前拥有的虚拟商品，确定在当前时间之前的一段时间内，所述目标游戏中新增加的虚拟商品，在向所述目标用户推荐所述新增加的虚拟商品中，除所述当前拥有的虚拟商品以外的虚拟商品。

获取所述目标用户在所述目标游戏中，触发的与当前时间的时间间隔在预设时间间隔内的参照购买行为；

确定所述目标用户通过所述参照购买行为购买的参照虚拟商品，向所述目标用户推荐与所述参照虚拟商品相关的虚拟商品，在所述目标游戏中的购买入口。

同样的，本申请实施例还提供一种计算机设备，包括：

存储器，用于存储计算机程序；

处理器，用于在执行所述装置任一项的步骤。

此外，本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现所述装置任一项的步骤。

本申请实施例提供一种模型训练的方法、装置、计算机设备及存储介质，预先获取第一行为样本，对待训练的特征提取模型进行无监督训练，然后将无监督训练得到的训练完成的特征提取模型，应用到用户游戏行为的预测任务中，利用无监督训练得到的特征提取模型对第二行为样本提取的特征向量，可以替代对海量的游戏行为数据进行标注后得到的特征，避免人工对海量的游戏行为数据进行标注，减少海量数据标注的出错率，降低数据标注的成本。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的模型训练的装置的系统示意图；

图2是本申请实施例提供的模型训练的方法的流程示意图；

图3是本申请实施例提供的行为预测方法的流程示意图；

图4是本申请实施例提供的模型训练的装置的结构示意图；

图5是本申请实施例提供的行为预测装置的结构示意图；

图6是本申请实施例提供的计算机设备的结构示意图；

图7是本申请实施例提供的进行无监督训练的过程示意图；

图8是本申请实施例提供的进行无监督训练的另一过程示意图；

图9是本申请实施例提供的对训练完成的特征提取模型和待训练的行为分类模型进行训练的过程示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请实施例提供一种模型训练的方法、装置、计算机设备及存储介质。具体地，本申请实施例的模型训练的方法可以由计算机设备执行，其中，该计算机设备可以为终端或者服务器等设备。该终端可以为智能手机、平板电脑、笔记本电脑、触控屏幕、游戏机、个人计算机(Personal Computer，PC)、个人数字助理(Personal Digital Assistant，PDA)等终端设备，终端还可以包括客户端，该客户端可以是游戏应用客户端、携带有游戏程序的浏览器客户端或即时通信客户端等。服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络服务、以及大数据和人工智能平台等基础云计算服务的云服务器。

请参阅图1，图1为本申请实施例提供的模型训练的装置的系统示意图。该系统可以包括至少一个终端和至少一个服务器，终端可以用于收集第一行为样本和第二行为样本，将第一行为样本和第二行为样本发送到服务器。

终端可以存储有游戏应用程序并用于呈现游戏画面中的场景。终端设备用于通过图形用户界面与用户进行交互，例如通过终端设备下载安装游戏应用程序并运行。该终端设备将图形用户界面提供给用户的方式可以包括多种，例如，可以渲染显示在终端设备的显示屏上，或者，通过全息投影呈现图形用户界面。例如，终端设备可以包括触控显示屏和处理器，该触控显示屏用于呈现图形用户界面以及接收用户作用于图形用户界面产生的操作指令，该图形用户界面包括游戏画面和游戏画面，该处理器用于运行该游戏应用程序、从游戏应用程序中获取用户在游戏应用程序中产生的行为信息、生成图形用户界面、响应操作指令以及控制图形用户界面在触控显示屏上的显示。

服务器可以用于获取待训练的特征提取模型的第一行为样本，第一行为样本包括用户在目标游戏中的多个历史行为序列；将第一行为样本输入特征提取模型，基于第一行为样本对待训练的特征提取模型进行无监督训练，得到训练完成的特征提取模型；基于训练完成的特征提取模型提取第二行为样本的特征向量，其中，第二行为样本包括用户在目标游戏中的多个历史行为序列，第二行为样本中的每个历史行为序列具有对应的标签，标签用于指示对应的历史行为序列后的预设时长内发生的目标行为的类型；将特征向量输入待训练的行为分类模型，通过行为分类模型预测第二行为样本中每个历史行为序列后的预设时长内发生的目标行为的类型，得到预测结果；基于预测结果和第二行为样本中的标签调整待训练的行为分类模型的参数，得到训练完成的行为分类模型。

以下分别进行详细说明。需说明的是，以下实施例的描述顺序不作为对实施例优选顺序的限定。

本实施例将从模型训练的装置的角度进行描述，该模型训练的装置具体可以集成在终端设备中，该终端设备可以包括智能手机、笔记本电脑、平板电脑以及个人计算机等设备。

本申请实施例提供的一种模型训练的方法，该方法可以由终端的处理器执行，如图2所示，该模型训练的方法的具体流程主要包括步骤201至步骤205，详细说明如下：

步骤201、获取待训练的特征提取模型的第一行为样本，第一行为样本包括用户在目标游戏中的多个历史行为序列。

在本申请实施例中，待训练的特征提取模型可以是transformer模型结构，主要由encoder(编码组件)和decoder(解码组件)组成，一个编码组件中可以包括N个编码器，所有的编码器的结构相同，但是每个编码器之间没有共享参数，一个解码组件中可以包括M个解码器，同样的，所有的解码器的结构相同，但是每个解码器之间没有共享参数，每个编码器都可以包括自注意力层和前馈神经网络层，而每个解码器包括自注意力层、编码-解码注意力层和前馈神经网络层。

在本申请实施例中，第一行为样本无标签，即可以表明第一行为样本中的行为信息没有经过人工标注。可以从用户在目标游戏中的历史游戏行为记录中获取第一行为样本，具体地，上述步骤201中“获取待训练的特征提取模型的第一行为样本”包括：

获取用户在目标游戏中的历史游戏行为记录；

将历史游戏行为记录分割为多个行为信息，对多个行为信息进行排序，得到由多个行为信息组成的历史行为序列；

根据历史行为序列得到第一行为样本。

其中，第一行为样本中的多个行为信息可以是用户在游戏中执行的操作的所有关联信息，即行为信息包含用于表征行为的操作信息和用于表征行为对象的对象信息。例如，用于表征行为的操作信息可以是购买操作、添加操作等等，用于表征行为对象的对象信息可以是购买的商品编号、添加的道具标识等信息。一个样本行为序列可以对应用户一段时间的行为信息，一个样本行为序列的长度不受限制，可以根据实际情况灵活设置。

在本申请实施例中，用户可以是目标游戏中的一个游戏玩家用户，也可以是目标游戏中的多个游戏玩家用户。

在本申请实施例中，为了加快待训练的特征提取模型对第一行为样本的运算，节省终端设备的运算资源，可以利用BPE(Byte Pair Encoding，字节对编码)算法对获取的用户的原始游戏行为信息进行压缩处理。具体地，上述步骤201中“获取待训练的特征提取模型的第一行为样本”可以是：

将历史游戏行为记录分割为多个行为信息，根据多个行为信息的发生时间先后顺序进行排序，形成初始行为序列；

确定初始行为序列中的至少一组待合并行为信息，待合并行为信息包括至少两个相邻的行为信息，且待合并行为信息在初始行为序列中出现次数最多；

合并每一组待合并历史行为信息包括的至少两个行为信息，在初始行为序列中形成新的行为信息，以更新初始行为序列；

返回执行确定初始行为序列中的至少一组待合并行为信息的步骤，直到初始行为序列中的行为信息的数量达到预设数量，得到由预设数量的行为信息组成的历史行为序列。

在本申请实施例中，历史游戏行为记录为终端根据用户的游戏记录日志，获取的用户在目标游戏中执行的游戏行为的相关信息。其中，“从历史游戏行为记录中获取用户的为多个行为信息”可以是根据游戏日志记录的信息粒度来获取行为信息，粒度是历史游戏行为记录统计信息的细化程度，历史游戏行为记录统计的信息细化程度越高，粒度级就越小，相反，统计的信息细化程度越低，粒度级就越大。此外，获取历史游戏行为记录的时间段的长短不受限制，可以根据实际情况灵活设置。

在本申请实施例中，按照最小粒度获取的行为信息，形成的初始行为序列可以是[u_1,u_2,...u_n]，其中，u_i代表是一个行为信息，u_i可以是用二进制形式标识的机器语言，行为信息可以是购买装备、装备的编号等等。

在本申请实施例中，上述步骤“确定初始行为序列中的至少一组待合并行为信息”可以包括：

获取历史游戏行为记录中包括的全部行为信息，以及各个行为信息在历史游戏行为记录中的出现次数；

在初始行为序列中获取至少两个相邻的行为信息，根据词表，获取至少两个相邻的行为信息的出现次数总和；

确定出现次数总和最多的至少两个相邻的行为信息，作为待合并行为信息。

在本申请实施例中，词表用于记录历史游戏行为记录中包括哪些行为信息，以及每个行为信息的出现次数(即每个行为信息的个数)。

比如，在初始行为序列[u_1,u_2,...u_n]中，获取所有的两个相邻的u_i组成的行为对，将u_1,u_2作为一个行为对，将u_2,u_3作为一个行为对，以此类推，在所有的两个相邻的u_i组成的行为对中，从词表中获取每个u_i的出现次数，计算每个行为对包括的u_i的出现次数总和，若u_1,u_2的出现次数总和最多，则将u_1,u_2形成的行为对称为待合并行为信息，将u_1,u_2合并形成一个新的行为信息，以更新初始行为序列，再在更新后的初始行为序列中获取待合并行为信息，不断循环，直至[u_1,u_2,...u_n]中包含的u_i的个数为预设数量，将该[u_1,u_2,...u_n]作为第一行为样本。其中，预设数量的设置不受限制，可以根据实际情况灵活设置。

步骤202、将第一行为样本输入特征提取模型，基于第一行为样本对特征提取模型进行无监督训练，得到训练完成的特征提取模型。

在本申请实施例中，历史行为序列包括多个行为信息，可以利用掩码语言模型任务来训练待训练的特征提取模型，在此情况下，上述步骤202中“将第一行为样本输入特征提取模型，基于第一行为样本对特征提取模型进行无监督训练，得到训练完成的特征提取模型”，可以是：

利用掩码替换第一行为样本中的至少一个历史行为序列中的至少一个行为信息；

通过特征提取模型提取第一行为样本的特征向量；

通过特征提取模型，基于特征向量预测第一行为样本中被掩码替换的行为信息，得到预测游戏行为信息；

基于预测游戏行为信息和被掩码替换的行为信息，调整待训练的特征提取模型的参数，得到训练完成的特征提取模型。

在本申请实施例中，掩码可以是不包含任何数据的空白编码，也可以是由0等特定字符组成的字符串。掩码替换的行为信息可以是所在历史行为序列中任意位置的行为信息。

例如，如图7所示，获取第一行为样本中其中一个历史行为序列为[B，B，B，B]，利用掩码M替换历史行为序列中的第三个行为信息，形成替换后的历史行为序列[B，B，M，B]，将替换后的历史行为序列[B，B，M，B]输入到待训练的特征提取模型，通过待训练的特征提取模型基于掩码M，得到预测游戏行为信息B，基于替换后的历史行为序列[B，B，M，B]和预测游戏行为信息B，得到预测的样本行为序列[B，B，B，B]。

在本申请实施例中，可以计算出分类损失，从而调整待训练的特征提取模型的参数，即“基于预测游戏行为信息和被掩码替换的行为信息，调整待训练的特征提取模型的参数”可以是：基于预测游戏行为信息和被掩码替换的行为信息，计算出特征提取损失，根据特征提取损失调整待训练的特征提取模型的参数，得到训练完成的特征提取模型。

在本申请实施例中，需要向待训练的特征提取模型输入多个样本行为序列，才可以更加准确地调整待训练的特征提取模型的参数。例如，如图8所示，同时或多次向待训练的特征提取模型f输入用户1样本行为序列、用户2样本行为序列至用户n样本行为序列，待训练的特征提取模型f获取每个用户样本行为序列的预测游戏行为信息和被掩码替换的行为信息，计算出每个用户的特征提取损失，从而根据每个用户的特征提取损失调整待训练的特征提取模型的参数，获取参数更新后的模型f。

在本申请实施例中，输入待训练的特征提取模型的第一行为样本可以是经过BPE算法压缩后的行为序列，也可以是不经过BPE算法压缩，直接根据用户的游戏日志获取的历史游戏行为记录。

步骤203、基于训练完成的特征提取模型提取第二行为样本的特征向量，其中，第二行为样本包括用户在目标游戏中的多个历史行为序列，第二行为样本中的每个历史行为序列具有对应的标签，标签用于指示对应的历史行为序列后的预设时长内发生的目标行为的类型。

在本申请实施例中，要先获取第二行为样本的标签，然后将获取的具有标签的第二行为样本输入到上述步骤202训练完成的特征提取模型，对训练完成的特征提取模型进行有监督训练，具体地，上述步骤203中“基于训练完成的特征提取模型提取第二行为样本的特征向量”之前，设置第二行为样本的标签的步骤可以是：

获取用户在目标游戏中至少一个历史时间段内的行为信息，以及确定每一历史时间段之后的预设时长内用户发生目标行为的类型；

基于用户的每一历史时间段内的行为信息生成第二行为样本，基于第二行为样本对应的历史时间段之后的预设时长内用户发生目标行为的类型设置第二行为样本的标签。

在本申请实施例中，获取行为信息的每一个历史时间段的起始时间可以是当前时间之前的任意时刻，每一个历史时间段的持续时长不受限制，每一个历史时间段的持续时长可以相同，也可以不同。

在本申请实施例中，目标行为的类型包括发生目标行为和未发生目标行为，若第二行为样本对应的历史时间段之后的预设时长内，用户发生目标行为，则确定该第二行为样本为正样本，设置正样本的标签用于指示用户在第二行为样本的最后一个行为信息之后的预设时长内，发生了目标行为。若第二行为样本对应的历史时间段之后的预设时长内，用户未发生目标行为，则确定该第二行为样本为负样本，设置负样本的标签用于指示用户在第二行为样本的最后一个行为信息之后的预设时长内，未发生目标行为。

步骤204、将特征向量输入待训练的行为分类模型，通过待训练的行为分类模型预测第二行为样本中每个历史行为序列后的预设时长内发生的目标行为的类型，得到预测结果。

在本申请实施例中，基于目标行为的类型，得到的预测结果可以分为两类，即预测结果可以是第二行为样本中每个历史行为序列后的预设时长内确认发生目标行为，预测结果还可以是第二行为样本中的每个历史行为序列后的预设时长内没有发生目标行为。

步骤205、基于预测结果和第二行为样本中的标签调整待训练的行为分类模型的参数，得到训练完成的行为分类模型。

在本申请实施例中，可以基于损失函数调整模型的参数，具体地，上述步骤205中“基于预测结果和标签调整待训练的行为分类模型的参数，得到训练完成的行为分类模型”可以是：

基于预测结果和标签计算行为分类损失，基于第一学习率和行为分类损失调整待训练的行为分类模型的参数，得到训练完成的行为分类模型；

方法还包括：

基于行为分类损失以及第二学习率调整训练完成的特征提取模型的参数，其中，第一学习率和第二学习率不同。

在本申请实施例中，可以只根据行为分类损失调整待训练的行为分类模型的参数。也可以根据行为分类损失同时调整待训练的行为分类模型的参数，和训练完成的特征提取模型的参数，使得针对不同的预测任务得到的第二行为样本，输入训练完成的特征提取模型之后，可以得到更加贴合该预测任务的第二行为样本的特征。为了避免模型训练的结果过拟合，可以使第一学习率的数值和第二学习率的数值较小，例如，可以分别设定为0.00005和0.001。

例如，如图9所示，当基于用户1至用户n的样本行为序列调整待训练的特征提取模型f的参数后，得到训练完成的特征提取模型f后，获取具有标签的用户1至用户n的样本行为序列，将用户1至用户n的样本行为序列输入训练完成的特征提取模型f，通过训练完成的特征提取模型f提取各个用户的特征向量E1、E2、……En，然后将各个用户的特征向量E1、E2、……En输入待训练的行为分类模型g，通过待训练的行为分类模型g预测每个用户在最后一个行为信息之后的预设时长内，发生目标行为的类型，基于各个用户发生目标行为的类型和各个用户样本行为序列中的标签，计算分类损失，同时调整待训练的行为分类模型g的参数，和训练完成的特征提取模型f的参数。

在本申请实施例中，为了预测目标用户在目标游戏中是否发生购买行为，可以将模型训练过程中的目标行为设置为购买行为。此外，目标行为的内容可以根据具体的预测任务来设置。

上述所有的技术方案，可以采用任意结合形成本申请的可选实施例，在此不再一一赘述。

本申请实施例提供一种的模型训练的方法，预先获取第一行为样本，对待训练的特征提取模型进行无监督训练，然后将无监督训练得到的训练完成的特征提取模型，应用到用户游戏行为的预测任务中，利用无监督训练得到的特征提取模型对第二行为样本提取的特征向量，可以替代对海量的游戏行为数据进行标注后得到的特征，避免人工对海量的游戏行为数据进行标注，减少海量数据标注的出错率，降低数据标注的成本。

本实施例将从行为预测装置的角度进行描述，该行为预测装置具体可以集成在终端设备中，该终端设备可以包括智能手机、笔记本电脑、平板电脑以及个人计算机等设备。

本申请实施例提供的一种行为预测方法，该方法可以由终端的处理器执行，如图3所示，该行为预测方法的具体流程主要包括步骤301至步骤303，详细说明如下：

步骤301、基于训练完成的特征提取模型，提取目标用户的待预测的行为序列的特征向量，训练完成的特征提取模型为通过上述得到的训练完成的特征提取模型，待预测的行为序列包括当前时刻前目标用户在目标游戏中的多个行为信息。

在本申请实施例中，目标用户是待预测购买行为的用户，目标用户可以是第一次玩目标游戏的新用户，也可以是之前玩过目标游戏的历史用户。其中，目标用户的行为信息与上述实施例中用户的行为信息类似，具体不再赘述。

步骤302、通过训练完成的行为分类模型基于特征向量，预测目标用户在当前时刻之后的预设时长内，在目标游戏中发生目标行为的类型，训练完成的行为分类模型为通过上述得到的训练完成的行为分类模型。

在本申请实施例中，目标行为是与上述相同的购买行为。预设时长的持续时间不受限制。

此外，发生目标行为的类型可以包括发生目标行为，和未发生目标行为。

步骤303、若预测发生的目标行为的类型，满足预设发生目标行为的类型，确定目标用户在当前时刻后的预设时长内会发生目标行为。

在本申请实施例中，若预测发生的目标行为的类型和预设发生目标行为的类型相同，确定目标用户在当前时刻后的预设时长内会发生目标行为。

在本申请实施例中，若预测发生的目标行为的类型和预设发生目标行为的类型不相同，确定目标用户在当前时刻后的预设时长内不会发生目标行为。

为便于更好的实施本申请实施例的模型训练的方法，本申请实施例还提供一种模型训练的装置。请参阅图4，图4为本申请实施例提供的模型训练的装置的结构示意图。该模型训练的装置可以包括获取单元401、训练单元402、第一提取单元403、第一预测单元404和调整单元405。

其中，获取单元401，用于获取待训练的特征提取模型的第一行为样本，第一行为样本包括用户在目标游戏中的多个历史行为序列；

训练单元402，用于将第一行为样本输入特征提取模型，基于第一行为样本对特征提取模型进行无监督训练，得到训练完成的特征提取模型；

第一提取单元403，用于基于训练完成的特征提取模型提取第二行为样本的特征向量，其中，第二行为样本包括用户在目标游戏中的多个历史行为序列，第二行为样本中的每个历史行为序列具有对应的标签，标签用于指示对应的历史行为序列后的预设时长内发生的目标行为的类型；

第一预测单元404，用于将特征向量输入待训练的行为分类模型，通过行为分类模型预测第二行为样本中每个历史行为序列后的预设时长内发生的目标行为的类型，得到预测结果；

调整单元405，用于基于预测结果和第二行为样本中的标签调整待训练的行为分类模型的参数，得到训练完成的行为分类模型。

可选的，获取单元401还用于：

获取用户在目标游戏中的历史游戏行为记录；

根据历史行为序列得到第一行为样本。

可选的，行为信息包含用于表征行为的操作信息和用于表征行为对象的对象信息。

可选的，获取单元401还用于：

可选的，历史行为序列包括多个行为信息，训练单元402还用于：

通过待训练的特征提取模型提取第一行为样本的特征向量；

通过待训练的特征提取模型，基于特征向量预测第一行为样本中被掩码替换的行为信息，得到预测游戏行为信息；

可选的，第一提取单元403还用于：

可选的，调整单元405还用于：

基于预测结果和第二行为样本中的标签计算行为分类损失，基于第一学习率和行为分类损失调整待训练的行为分类模型的参数，得到训练完成的行为分类模型；

模型训练的装置还用于：

可选的，目标行为包括购买行为。

为便于更好的实施本申请实施例的行为预测方法，本申请实施例还提供一种行为预测装置。请参阅图5，图5为本申请实施例提供的行为预测装置的结构示意图。该行为预测装置可以包括：第二提取单元501、第二预测单元502和确定单元503。

其中，第二提取单元501，用于基于训练完成的特征提取模型，提取目标用户的待预测的行为序列的特征向量，训练完成的特征提取模型为通过上述得到的训练完成的特征提取模型，待预测的行为序列包括当前时刻前目标用户在目标游戏中的多个行为信息；

第二预测单元502，用于通过训练完成的行为分类模型基于特征向量，预测目标用户在当前时刻之后的预设时长内，在目标游戏中发生目标行为的类型，训练完成的行为分类模型为上述得到的训练完成的行为分类模型；

确定单元503，用于预测发生的目标行为的类型，满足预设发生目标行为的类型，确定目标用户在当前时刻后的预设时长内会发生目标行为。

可选的，目标行为为购买行为，行为预测装置还用于：

根据目标用户在目标游戏当前所处的游戏场景，向目标用户推荐应用于当前所处的游戏场景的虚拟商品。

可选的，目标行为为购买行为，行为预测装置还用于：

获取目标用户在目标游戏中当前拥有的虚拟商品，确定在当前时间之前的一段时间内，目标游戏中新增加的虚拟商品，在向目标用户推荐新增加的虚拟商品中，除当前拥有的虚拟商品以外的虚拟商品。

可选的，目标行为为购买行为，行为预测装置还用于：

获取目标用户在目标游戏中，触发的与当前时间的时间间隔在预设时间间隔内的参照购买行为；

确定目标用户通过参照购买行为购买的参照虚拟商品，向目标用户推荐与参照虚拟商品相关的虚拟商品，在目标游戏中的购买入口。

本申请实施例提供的模型训练的装置，预先获取第一行为样本，对待训练的特征提取模型进行无监督训练，然后将无监督训练得到的训练完成的特征提取模型，应用到用户游戏行为的预测任务中，利用无监督训练得到的特征提取模型对第二行为样本提取的特征向量，可以替代对海量的游戏行为数据进行标注后得到的特征，避免人工对海量的游戏行为数据进行标注，减少海量数据标注的出错率，降低数据标注的成本。

相应的，本申请实施例还提供一种计算机设备，该计算机设备可以为终端，该终端可以为智能手机、平板电脑、笔记本电脑、触控屏幕、游戏机、个人计算机、个人数字助理等终端设备。如图6所示，图6为本申请实施例提供的计算机设备的结构示意图。该计算机设备600包括有一个或者一个以上处理核心的处理器601、有一个或一个以上计算机可读存储介质的存储器602及存储在存储器602上并可在处理器上运行的计算机程序。其中，处理器601与存储器602电性连接。本领域技术人员可以理解，图中示出的计算机设备结构并不构成对计算机设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

处理器601是计算机设备600的控制中心，利用各种接口和线路连接整个计算机设备600的各个部分，通过运行或加载存储在存储器602内的软件程序和/或模块，以及调用存储在存储器602内的数据，执行计算机设备600的各种功能和处理数据，从而对计算机设备600进行整体监控。

在本申请实施例中，计算机设备600中的处理器601会按照如下的步骤，将一个或一个以上的应用程序的进程对应的指令加载到存储器602中，并由处理器601来运行存储在存储器602中的应用程序，从而实现各种功能：

获取待训练的特征提取模型的第一行为样本，第一行为样本包括用户在目标游戏中的多个历史行为序列；

将第一行为样本输入特征提取模型，基于第一行为样本对特征提取模型进行无监督训练，得到训练完成的特征提取模型；

基于训练完成的特征提取模型提取第二行为样本的特征向量，其中，第二行为样本包括用户在目标游戏中的多个历史行为序列，第二行为样本中的每个历史行为序列具有对应的标签，标签用于指示对应的历史行为序列后的预设时长内发生的目标行为的类型；

将特征向量输入待训练的行为分类模型，通过待训练的行为分类模型预测第二行为样本中每个历史行为序列后的预设时长内发生的目标行为的类型，得到预测结果；

基于预测结果和第二行为样本中的标签调整待训练的行为分类模型的参数，得到训练完成的行为分类模型。

还可以实现以下功能：

基于训练完成的特征提取模型，提取目标用户的待预测的行为序列的特征向量，训练完成的特征提取模型为通过上述得到的训练完成的特征提取模型，待预测的行为序列包括当前时刻前目标用户在目标游戏中的多个行为信息；

通过训练完成的行为分类模型基于特征向量，预测目标用户在当前时刻之后的预设时长内，在目标游戏中发生目标行为的类型，训练完成的行为分类模型为通过上述得到的训练完成的行为分类模型；

若预测发生的目标行为的类型，满足预设发生目标行为的类型，确定目标用户在当前时刻后的预设时长内会发生目标行为。

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

可选的，如图6所示，计算机设备600还包括：触控显示屏603、射频电路604、音频电路605、输入单元606以及电源607。其中，处理器601分别与触控显示屏603、射频电路604、音频电路605、输入单元606以及电源607电性连接。本领域技术人员可以理解，图6中示出的计算机设备结构并不构成对计算机设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

触控显示屏603可用于显示图形用户界面以及接收用户作用于图形用户界面产生的操作指令。触控显示屏603可以包括显示面板和触控面板。其中，显示面板可用于显示由用户输入的信息或提供给用户的信息以及计算机设备的各种图形用户接口，这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。可选的，可以采用液晶显示器(Liquid Crystal Display，LCD)、有机发光二极管(Organic Light-Emitting Diode，OLED)等形式来配置显示面板。触控面板可用于收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板上或在触控面板附近的操作)，并生成相应的操作指令，且操作指令执行对应程序。可选的，触控面板可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器601，并能接收处理器601发来的命令并加以执行。触控面板可覆盖显示面板，当触控面板检测到在其上或附近的触摸操作后，传送给处理器601以确定触摸事件的类型，随后处理器601根据触摸事件的类型在显示面板上提供相应的视觉输出。在本申请实施例中，可以将触控面板与显示面板集成到触控显示屏603而实现输入和输出功能。但是在某些实施例中，触控面板与触控面板可以作为两个独立的部件来实现输入和输出功能。即触控显示屏603也可以作为输入单元606的一部分实现输入功能。

射频电路604可用于收发射频信号，以通过无线通信与网络设备或其他计算机设备建立无线通讯，与网络设备或其他计算机设备之间收发信号。

音频电路605可以用于通过扬声器、传声器提供用户与计算机设备之间的音频接口。音频电路605可将接收到的音频数据转换后的电信号，传输到扬声器，由扬声器转换为声音信号输出；另一方面，传声器将收集的声音信号转换为电信号，由音频电路605接收后转换为音频数据，再将音频数据输出处理器601处理后，经射频电路604以发送给比如另一计算机设备，或者将音频数据输出至存储器602以便进一步处理。音频电路605还可能包括耳塞插孔，以提供外设耳机与计算机设备的通信。

输入单元606可用于接收输入的数字、字符信息或用户特征信息(例如指纹、虹膜、面部信息等)，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

电源607用于给计算机设备600的各个部件供电。可选的，电源607可以通过电源管理系统与处理器601逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源607还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

尽管图6中未示出，计算机设备600还可以包括摄像头、传感器、无线保真模块、蓝牙模块等，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

由上可知，本实施例提供的计算机设备，可以预先获取第一行为样本，对待训练的特征提取模型进行无监督训练，然后将无监督训练得到的训练完成的特征提取模型，应用到用户游戏行为的预测任务中，利用无监督训练得到的特征提取模型对第二行为样本提取的特征向量，可以替代对海量的游戏行为数据进行标注后得到的特征，避免人工对海量的游戏行为数据进行标注，减少海量数据标注的出错率，降低数据标注的成本。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本申请实施例提供一种计算机可读存储介质，其中存储有多条计算机程序，该计算机程序能够被处理器进行加载，以执行本申请实施例所提供的任一种模型训练的方法中的步骤。例如，该计算机程序可以执行如下步骤：

还可以实现以下功能：

通过训练完成的行为分类模型基于特征向量，预测目标用户在当前时刻之后的预设时长内，在目标游戏中触发目标行为的类型，训练完成的行为分类模型为通过上述得到的训练完成的行为分类模型；

其中，该存储介质可以包括：只读存储器(Read Only Memory，ROM)、随机存取记忆体(Random Access Memory，RAM)、磁盘或光盘等。

由于该存储介质中所存储的计算机程序，可以执行本申请实施例所提供的任一种模型训练的方法中的步骤，因此，可以实现本申请实施例所提供的任一种模型训练的方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

以上对本申请实施例所提供的一种模型训练的方法、装置、计算机设备及存储介质进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的技术方案及其核心思想；本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例的技术方案的范围。

Claims

1.一种模型训练的方法，其特征在于，包括：

基于所述预测结果和所述第二行为样本中的所述标签调整所述行为分类模型的参数，得到训练完成的行为分类模型。

2.根据权利要求1所述的方法，其特征在于，所述获取待训练的特征提取模型的第一行为样本，包括：

获取用户在所述目标游戏中的历史游戏行为记录；

根据所述历史行为序列得到所述第一行为样本。

3.根据权利要求2所述的方法，其特征在于，所述行为信息包含用于表征行为的操作信息和用于表征行为对象的对象信息。

4.根据权利要求2所述的方法，其特征在于，所述将所述历史游戏行为记录分割为多个行为信息，对所述多个行为信息进行排序，得到由所述多个行为信息组成的历史行为序列，包括：

5.根据权利要求4所述的方法，其特征在于，所述确定所述初始行为序列中的至少一组待合并行为信息，包括：

6.根据权利要求1所述的方法，其特征在于，所述历史行为序列包括多个行为信息，所述将所述第一行为样本输入所述特征提取模型，基于所述第一行为样本对所述特征提取模型进行无监督训练，得到训练完成的特征提取模型，包括：

通过所述特征提取模型提取所述第一行为样本的特征向量；

通过所述特征提取模型，基于所述特征向量预测所述第一行为样本中被所述掩码替换的行为信息，得到预测游戏行为信息；

7.根据权利要求1所述的方法，其特征在于，所述基于所述训练完成的特征提取模型提取第二行为样本的特征向量前，还包括：

8.根据权利要求1所述的方法，其特征在于，所述基于所述预测结果和所述第二行为样本中的所述标签调整所述待训练的行为分类模型的参数，得到训练完成的行为分类模型，包括：

所述方法还包括：

9.根据权利要求1-8任一项所述的方法，其特征在于，所述目标行为包括购买行为。

10.一种行为预测方法，其特征在于，包括：

基于训练完成的特征提取模型，提取目标用户的待预测的行为序列的特征向量，所述训练完成的特征提取模型为通过权利要求1至9任一项得到的训练完成的特征提取模型，所述待预测的行为序列包括当前时刻前所述目标用户在目标游戏中的多个行为信息；

通过训练完成的行为分类模型基于所述特征向量，预测所述目标用户在所述当前时刻之后的预设时长内，在所述目标游戏中发生目标行为的类型，所述训练完成的行为分类模型为通过权利要求1至9任一项得到的训练完成的行为分类模型；

11.根据权利要求10所述的方法，其特征在于，所述目标行为为购买行为，所述确定所述目标用户在当前时刻后的预设时长内会发生所述目标行为后，所述方法还包括：

12.根据权利要求10所述的方法，其特征在于，所述目标行为为购买行为，所述确定所述目标用户在当前时刻后的预设时长内会发生所述目标行为后，所述方法还包括：

13.根据权利要求10所述的方法，其特征在于，所述目标行为为购买行为，所述确定所述目标用户在当前时刻后的预设时长内会发生所述目标行为后，所述方法还包括：

14.一种模型训练的装置，其特征在于，包括：

15.一种行为预测装置，其特征在于，包括：

第二提取单元，用于基于训练完成的特征提取模型，提取目标用户的待预测的行为序列的特征向量，所述训练完成的特征提取模型为通过权利要求1至9任一项得到的训练完成的特征提取模型，所述待预测的行为序列包括当前时刻前所述目标用户在目标游戏中的多个行为信息；

第二预测单元，用于通过训练完成的行为分类模型基于所述特征向量，预测所述目标用户在所述当前时刻之后的预设时长内，在所述目标游戏中发生目标行为的类型，所述训练完成的行为分类模型为通过权利要求1至9任一项得到的训练完成的行为分类模型；

确定单元，用于若预测发生的所述目标行为的类型，满足预设发生所述目标行为的类型，确定所述目标用户在当前时刻后的预设时长内会发生所述目标行为。

16.一种计算机设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于在执行所述计算机程序时实现如权利要求1至13任一项方法中的步骤。

17.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至13任一项方法中的步骤。