CN111368195B

CN111368195B - 一种模型训练方法、装置、设备及存储介质

Info

Publication number: CN111368195B
Application number: CN202010141139.3A
Authority: CN
Inventors: 成梭宇
Original assignee: Shanghai Himalaya Technology Co ltd
Current assignee: Shanghai Himalaya Technology Co ltd
Priority date: 2020-03-03
Filing date: 2020-03-03
Publication date: 2024-02-13
Anticipated expiration: 2040-03-03
Also published as: CN111368195A

Abstract

本发明公开了一种模型训练方法、装置、设备及存储介质。其中，该方法包括：从数据库获取M条样本数据，其中，样本数据包括用户标识、信息标识、至少两个用户行为的标签，M为大于等于1的整数，根据至少两个用户行为的标签确定M条样本数据的至少两个行为损失函数其中，k表示第k条样本数据，1≤k≤M，n表示用户行为数，n为大于1的整数，根据M条样本数据的至少两个行为损失函数确定损失函数L，根据损失函数L训练预测模型。这样可以考虑到多种用户行为之间的耦合关系，通过多种用户行为辅助预测模型，可以提高预测模型预测的准确性。

Description

一种模型训练方法、装置、设备及存储介质

技术领域

本发明实施例涉及信息处理技术，尤其涉及一种模型训练方法、装置、设备及存储介质。

背景技术

在信息推荐领域，通常需要通过训练模型以实现向用户推荐各类信息。但是，目前常用的方式是单独使用用户的某种特定行为来训练模型，例如，使用展示和点击数据单独训练预测用户点击率的模型，或者使用展示和播放数据单独训练用户播放率的模型，这种方式只采用单一的用户行为进行模型训练与决策，基于模型向用户推荐各类信息的准确度不高。

发明内容

本发明提供一种模型训练方法、装置、设备及存储介质，能够考虑到多种用户行为之间的耦合关系，通过多种用户行为辅助预测模型，可以提高预测模型预测的准确性。

第一方面，本发明实施例提供了一种模型训练方法，该方法包括：

从数据库获取M条样本数据，其中，样本数据包括用户标识、信息标识、至少两个用户行为的标签，其中，M为大于等于1的整数；

根据至少两个用户行为的标签确定M条样本数据的至少两个行为损失函数其中，k表示第k条样本数据，1≤k≤M，n表示用户行为数，n为大于1的整数；

根据M条样本数据的至少两个行为损失函数确定损失函数L；

根据损失函数L训练预测模型。

第二方面，本发明实施例还提供了一种模型训练装置，该装置包括：

获取模块，用于从数据库获取M条样本数据，样本数据包括用户标识、信息标识、至少两个用户行为的标签，其中，M为大于等于1的整数；

确定模块，用于根据至少两个用户行为的标签确定M条样本数据的至少两个行为损失函数其中，k表示第k条样本数据，1≤k≤M，n表示用户行为数，n为大于1的整数；

确定模块，还用于根据M条样本数据的至少两个行为损失函数确定损失函数L；

训练模块，用于根据损失函数L训练预测模型。

第三方面，本发明实施例还提供了一种设备，该设备包括：

存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，当处理器执行计算机程序时，实现如本发明第一方面提供的模型训练方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，当该计算机程序被处理器执行时，实现如本发明第一方面提供的模型训练方法。

本发明实施例提供了一种模型训练方法、装置、设备及存储介质，具体为从数据库获取M条样本数据，其中，样本数据包括用户标识、信息标识、至少两个用户行为的标签，M为大于等于1的整数，根据至少两个用户行为的标签确定M条样本数据的至少两个行为损失函数其中，k表示第k条样本数据，1≤k≤M，n表示用户行为数，n为大于1的整数，根据M条样本数据的至少两个行为损失函数/>确定损失函数L，根据损失函数L训练预测模型。这样可以考虑到多种用户行为之间的耦合关系，通过多种用户行为辅助预测模型，可以提高预测模型预测的准确性。

附图说明

图1是本发明实施例中的模型训练方法流程图；

图2是本发明实施例中的第一网络层结构示意图；

图3是本发明实施例中的预测模型结构示意图；

图4是本发明实施例中的确定第n个用户行为的数据的实现方式示意图；

图5是本发明实施例中的模型训练装置结构示意图；

图6是本发明实施例中的设备结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

另外，在本发明实施例中，“可选地”或者“示例性地”等词用于表示作例子、例证或说明。本发明实施例中被描述为“可选地”或者“示例性地”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言，使用“可选地”或者“示例性地”等词旨在以具体方式呈现相关概念。

图1为本发明实施例提供的一种模型训练方法，如图1所示，该方法具体包括：

S101、从数据库获取M条样本数据。

在本实施例中，上述数据库可以为任意网络平台的数据库，例如，某音乐网站的数据库或者某论文网站的数据库等等。

从数据库中获取的M条样本数据中，每条数据样本可以包括用户标识、信息标识、至少两个用户行为的标签，其中，M为大于等于1的整数，至少两个用户行为可以理解为用户针对网络平台向用户展示的各类信息的操作行为，例如，某视频网站向用户展示视频，用户点击视频、播放视频，或者购买视频时，该点击、播放、购买的操作即可被认为是用户行为，并且网络平台的数据库可以自动保存该用户行为的相关数据。

进一步地，至少两个用户行为的标签可以理解为用户是否通过某个行为操作了网络平台向用户展示的信息。例如，假设用户播放了某个视频，那么该播放行为的标签可以为1，而用户未播放某个视频，对应地，该用户对该信息的播放行为的标签可以设置为0，假设用户购买了某个视频，那么针对该视频信息，该用户的购买行为的标签可以为1，反之，则该用户的购买行为地标签可以为0。当然，本领域技术人员也可以采用其他方式设置标签的不同属性，以区分用户的行为，本实施例对此不作限定。

S102、根据至少两个用户行为的标签确定M条样本数据的至少两个行为损失函数

从数据库中获取到样本数据中某用户对某信息的至少两个用户行为的标签之后，可以根据该至少两个用户行为的标签确定M条样本数据的至少两个行为损失函数其中，k表示第k条样本数据，k的取值范围为1≤k≤M，n表示用户行为数，且n为大于1的整数。

S103、根据M条样本数据的至少两个行为损失函数确定损失函数L。

通过步骤S102获取到M条样本数据的至少两个行为损失函数后，可以通过该至少两个行为损失函数确定得到损失函数L。

示例性地，上述确定得到损失函数L的实现方式可以为，根据M条样本数据的至少两个行为损失函数确定M条样本数据的损失函数L^k，进而根据M条样本数据的损失函数L^k确定损失函数L。

S104、根据损失函数L训练预测模型。

通过上述步骤得到损失函数L之后，可以根据该损失函数训练预测模型，进而，通过该预测模型可以对用户的各种行为进行预测。

在本实施例中，基于至少两个用户行为的标签确定得到损失函数，并根据损失函数训练预测模型，这样可以考虑到多种用户行为之间的耦合关系，通过多种用户行为辅助预测模型更加准确的预测。

在一种示例中，上述步骤S102的实现方式可以为，根据至少两个用户行为的标签，通过第一公式确定M条样本数据的至少两个行为损失函数其中，第一公式为：

在上述公式中，表示第k条样本数据的第n个用户行为的标签，/>表示第k条样本数据产生第n个用户行为的概率。

示例性地，以步骤S101中点击视频、播放视频、购买视频三个用户行为为例，那么上述公式(1)可以为以下形式：

即公式(2)表示针对第k条样本数据中，某用户点击某个视频的损失函数，公式(3)表示针对第k条样本数据中，某用户播放某个视频的损失函数，公式(4)表示针对第k条样本数据中，某用户购买某个视频的损失函数。对应地，上述公式中，分别表示第k条样本数据中，某用户点击、或者播放、或者购买某个视频的概率。

当然，上述描述仅是举例说明，本领域技术人员也可以根据实际需求设置四个、五个，甚至更多个用户行为，并且，上述三个用户行为也并不局限于点击行为、播放行为、购买行为。

在一种示例中，步骤S103中确定M条样本数据的损失函数L^k可以为，根据M条样本数据的至少两个行为损失函数通过第二公式确定M条样本数据的损失函数L^k，其中，第二公式为：

其中，Lk为第k条样本数据的损失函数，α1+α2+……+αn＝1，α1、α2、……、αn为对应损失函数的权值。

可以理解的是，当每条样本数据中的至少两个用户行为为三个用户行为时，上述公式(5)即演化为公式(6)，如下：

并且，上述α1、α2、……、αn均为可调参数。

进一步，可选地，根据M条样本数据的损失函数L^k确定损失函数L可以为，计算M条样本数据的损失函数L^k的平均值，确定损失函数L，即通过公式(7)确定得到损失函数L。

另外，在本实施例获取至少两个行为损失函数的示例性实现方式中，也需要基于产生第n个用户行为的概率，即借助参数/>实现，那么本申请实施例提供一种确定产生第n个用户行为的概率的可选实现为，根据用户标识从数据库获取用户特征和信息特征，根据用户特征、信息特征、信息标识，通过预测模型的第一网络层确定至少两个用户行为的向量，其中，用户特征可以为用户年龄、性别、兴趣等特征，信息特征可以为类别等特征。

如图2所示，预测模型的第一网络层中包括有输入层、向量层、拼接层、全连接层，通过该第一网络层获取到至少两个用户行为的向量。

进而，根据至少两个用户行为的向量，通过预测模型的加权平均层确定第n个用户行为的数据，将第n个用户行为的数据输入预测模型的全连接层，得到产生第n个用户行为的概率。

示例性地，上述预测模型的结构如图3所示，以三个用户行为为例，那么，上述第n个用户行为可以为三个用户行为中的任意一个用户行为，如图3，根据用户特征、信息特征、信息标识，通过预测模型中的第一网络层可以确定三个用户行为的向量，进而，根据三个用户行为的向量，通过预测模型的加权平均层确定三个用户行为的数据，将三个用户行为的数据输入预测模型的全连接层，得到三个用户行为的概率。相应地，上述第n个用户行为的概率即为得到的三个用户行为的概率中的任意一个。

进一步地，如图4所示，在上述过程中，通过预测模型的加权平均层确定第n个用户行为的数据的实现方式可以为计算至少两个用户行为的向量中第n个用户行为的向量与其余向量之间的余弦值，将余弦值与对应的其余向量相乘，得到乘积值，根据第n个用户行为的向量与乘积值，通过预测模型的加权平均层确定第n个用户行为的数据。

示例性地，即将第n个用户行为作为主向量，其余两个用户行为的向量作为副向量，分别计算该第n个用户行为的向量与其余两个副向量之间的余弦值(Consine)，并将得到的余弦值与对应的副向量相乘。例如，第n个用户行为的向量与副向量1之间的余弦值与副向量1相乘，第n个用户行为的向量与副向量2之间的余弦值与副向量2相乘。进一步地，根据该第n个用户行为的向量与得到的两个乘积值，通过预测模型的加权平均层确定出第n个用户行为的数据。

通过上述示例性的实现方式即可获得损失函数L，这样根据损失函数L训练预测模型可以考虑到具有多种关联关系的用户行为，从而可以提高预测模型预测的准确性。

图5为本发明实施例提供的一种模型训练装置，如图5所示，该装置包括：获取模块501、确定模块502、训练模块503。

其中，获取模块，可以用于从数据库获取M条样本数据，其中，样本数据包括用户标识、信息标识、至少两个用户行为的标签，M为大于等于1的整数；

进一步地，确定模块，还用于根据M条样本数据的至少两个行为损失函数确定损失函数L；

训练模块，用于根据损失函数L训练预测模型。

在一种示例中，确定模块，用于根据M条样本数据的至少两个行为损失函数确定M条样本数据的损失函数L^k，并根据M条样本数据的损失函数L^k确定损失函数L。

在一种示例中，确定模块，用于根据至少两个用户行为的标签，通过第一公式确定M条样本数据的至少两个行为损失函数其中，第一公式为：

其中，表示第k条样本数据的第n个用户行为的标签，/>表示第k条样本数据产生第n个用户行为的概率。

进一步地，获取模块，还用于根据用户标识从数据库获取用户特征和信息特征；

确定模块，还用于根据用户特征、信息特征、信息标识，通过预测模型的第一网络层确定至少两个用户行为的向量，根据至少两个用户行为的向量，通过预测模型的加权平均层确定第n个用户行为的数据，以及，将第n个用户行为的数据输入预测模型的全连接层，得到产生第n个用户行为的概率。

在一种示例中，上述确定模块还可以包括计算单元和确定单元；

该计算单元，用于计算至少两个用户行为的向量中第n个用户行为的向量与其余向量之间的余弦值，将余弦值与对应的其余向量相乘，得到乘积值；

确定单元，用于根据第n个用户行为的向量与乘积值，通过预测模型的加权平均层确定第n个用户行为的数据。

在一种示例中，确定模块，用于根据M条样本数据的至少两个行为损失函数通过第二公式确定M条样本数据的损失函数L^k，其中，第二公式为：

其中，L^k为第k条样本数据的损失函数，α1+α2+……+αn＝1，α1、α2、……、αn为对应损失函数的权值。

在一种示例中，确定模块，用于计算M条样本数据的损失函数L^k的平均值，确定损失函数L。

本发明实施例所提供的模型训练装置可执行本发明实施例所提供的模型训练方法，具备执行方法相应的功能模块和有益效果。

图6为本发明实施例提供的一种设备的结构示意图，如图6所示，该设备包括处理器601、存储器602、输入装置603和输出装置604；设备中处理器601的数量可以是一个或多个，图6中以一个处理器601为例；设备中的处理器601、存储器602、输入装置603和输出装置604可以通过总线或其他方式连接，图6中以通过总线连接为例。

存储器602作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本发明实施例中的模型训练方法对应的程序指令/模块(例如，模型训练装置中的获取模块501、确定模块502、训练模块503)。处理器601通过运行存储在存储器602中的软件程序、指令以及模块，从而执行设备的各种功能应用以及数据处理，即实现上述的模型训练方法。

存储器602可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端的使用所创建的数据等。此外，存储器602可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器602可进一步包括相对于处理器601远程设置的存储器，这些远程存储器可以通过网络连接至设备/终端/服务器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置603可用于接收输入的数字或字符信息，以及产生与设备的用户设置以及功能控制有关的键信号输入。输出装置604可包括显示屏等显示设备。

本发明实施例还提供一种包含计算机可执行指令的存储介质，该计算机可执行指令在由计算机处理器执行时用于执行一种模型训练方法，该方法包括：

从数据库获取M条样本数据，样本数据包括用户标识、信息标识、至少两个用户行为的标签，其中，M为大于等于1的整数；

根据M条样本数据的至少两个行为损失函数确定损失函数L；

根据损失函数L训练预测模型。

当然，本发明实施例所提供的一种包含计算机可执行指令的存储介质，其计算机可执行指令不限于如上所述的方法操作，还可以执行本发明任意实施例所提供的模型训练方法中的相关操作。

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本发明可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(RandomAccess Memory，RAM)、闪存(FLASH)、硬盘或光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

值得注意的是，上述模型训练装置的实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种用户行为预测模型训练方法，其特征在于，包括：

从网络平台数据库获取M条用户行为关联样本数据，所述用户行为关联样本数据包括用户标识、信息标识、至少两个用户行为的标签，其中，M为大于等于1的整数；

根据至少两个用户行为的标签，通过第一公式确定M条用户行为关联样本数据的至少两个行为损失函数所述第一公式为：

其中，/>表示第k条用户行为关联样本数据的第n个用户行为的标签，/>表示第k条用户行为关联样本数据产生第n个用户行为的概率，k表示第k条用户行为关联样本数据，1≤k≤M，n表示用户行为数，n为大于1的整数；

根据M条用户行为关联样本数据的至少两个行为损失函数确定损失函数L；

根据所述损失函数L训练预测模型，以通过所述预测模型对用户的网络操作行为进行预测；

其中，确定产生第n个用户行为的概率，包括：

根据所述用户标识从网络平台数据库获取用户特征和信息特征；

根据所述用户特征、所述信息特征、所述信息标识，通过所述预测模型的第一网络层确定至少两个用户行为的向量；

根据所述至少两个用户行为的向量，通过所述预测模型的加权平均层确定第n个用户行为的数据；

将所述第n个用户行为的数据输入所述预测模型的全连接层，得到产生第n个用户行为的概率；

其中，根据所述至少两个用户行为的向量，通过所述预测模型的加权平均层确定第n个用户行为的数据，包括：

计算所述至少两个用户行为的向量中第n个用户行为的向量与其余向量之间的余弦值；

将所述余弦值与对应的其余向量相乘，得到乘积值；

根据所述第n个用户行为的向量与所述乘积值，通过所述预测模型的加权平均层确定第n个用户行为的数据。

2.根据权利要求1所述的方法，其特征在于，根据M条用户行为关联样本数据的至少两个行为损失函数确定损失函数L，包括：

根据M条用户行为关联样本数据的至少两个行为损失函数确定M条用户行为关联样本数据的损失函数L^k；

根据所述M条用户行为关联样本数据的损失函数L^k确定损失函数L。

3.根据权利要求2所述的方法，其特征在于，根据用户行为关联样本数据的至少两个行为损失函数确定M条用户行为关联样本数据的损失函数L^k，包括：

根据M条用户行为关联样本数据的至少两个行为损失函数通过第二公式确定M条用户行为关联样本数据的损失函数L^k，所述第二公式为：

其中，L^k为第k条用户行为关联样本数据的损失函数，α1+α2+……+αn＝1，α1、α2、……、αn为对应损失函数的权值。

4.根据权利要求2所述的方法，其特征在于，根据所述M条用户行为关联样本数据的损失函数L^k确定损失函数L，包括：

计算所述M条用户行为关联样本数据的损失函数L^k的平均值，确定损失函数L。

5.一种用户行为预测模型训练装置，其特征在于，包括：

获取模块，用于从网络平台数据库获取M条用户行为关联样本数据，所述用户行为关联样本数据包括用户标识、信息标识、至少两个用户行为的标签，其中，M为大于等于1的整数；

确定模块，用于根据至少两个用户行为的标签，通过第一公式确定M条用户行为关联样本数据的至少两个行为损失函数所述第一公式为：

所述确定模块，还用于根据M条用户行为关联样本数据的至少两个行为损失函数确定损失函数L；

训练模块，用于根据所述损失函数L训练预测模型，以通过所述预测模型对用户的网络操作行为进行预测；

其中，确定模块，还用于：

将所述余弦值与对应的其余向量相乘，得到乘积值；

6.一种设备，其特征在于，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时，实现如权利要求1-4任一项所述的用户行为预测模型训练方法。

7.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现如权利要求1-4中任一项所述的用户行为预测模型训练方法。