CN111507471B

CN111507471B - 一种模型训练方法、装置、设备及存储介质

Info

Publication number: CN111507471B
Application number: CN202010141137.4A
Authority: CN
Inventors: 成梭宇
Original assignee: Shanghai Himalaya Technology Co ltd
Current assignee: Shanghai Himalaya Technology Co ltd
Priority date: 2020-03-03
Filing date: 2020-03-03
Publication date: 2023-11-17
Anticipated expiration: 2040-03-03
Also published as: CN111507471A

Abstract

本发明公开了一种模型训练方法、装置、设备及存储介质。其中，该方法包括：按照用户行为顺序从数据库获取M条样本数据，根据样本数据中至少两个用户行为的标签确定得到M条样本数据的至少两个行为损失函数，进而根据M条样本数据的至少两个行为损失函数确定损失函数，并根据损失函数训练预测模型，这样不仅可以从多个维度进行模型预测，也可以考虑到用户多种行为之间的先后关系，从而提高预测模型预测的准确率。

Description

一种模型训练方法、装置、设备及存储介质

技术领域

本发明实施例涉及信息处理技术，尤其涉及一种模型训练方法、装置、设备及存储介质。

背景技术

在信息推荐领域，通常需要通过训练模型以实现向用户推荐各类信息。但是，目前常用的方式是单独使用用户的某种特定行为来训练模型，例如，使用展示和点击数据单独训练预测用户点击率的模型，或者使用展示和播放数据单独训练用户播放率的模型，这种方式只采用单一的用户行为进行模型训练与决策，基于模型向用户推荐各类信息的准确度不高。

发明内容

本发明提供一种模型训练方法、装置、设备及存储介质，能够从多个维度进行模型预测，也可以考虑到用户多种行为之间的先后关系，从而提高预测模型预测的准确率。

第一方面，本发明实施例提供了一种模型训练方法，该方法包括：

按照用户行为顺序从数据库获取M条样本数据，样本数据包括用户标识、信息标识、至少两个用户行为的标签，其中，M为大于等于1的整数；

根据至少两个用户行为的标签确定M条样本数据的至少两个行为损失函数其中，k表示第k条样本数据，1≤k≤M，n表示用户行为数，n为大于1的整数；

根据M条样本数据的至少两个行为损失函数确定损失函数L；

根据损失函数L训练预测模型。

第二方面，本发明实施例还提供了一种模型训练装置，该装置包括：

获取模块，用于按照用户行为顺序从数据库获取M条样本数据，样本数据包括用户标识、信息标识、至少两个用户行为的标签，其中，M为大于等于1的整数；

确定模块，用于根据至少两个用户行为的标签确定M条样本数据的至少两个行为损失函数其中，k表示第k条样本数据，1≤k≤M，n表示用户行为数，n为大于1的整数；

确定模块，还用于根据M条样本数据的至少两个行为损失函数确定损失函数L；

训练模块，用于根据损失函数L训练预测模型。

第三方面，本发明实施例还提供了一种设备，该设备包括：

存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，当处理器执行计算机程序时，实现如本发明第一方面提供的模型训练方法。

本发明实施例提供了一种模型训练方法、装置、设备及存储介质，具体为按照用户行为顺序从数据库获取M条样本数据，根据样本数据中至少两个用户行为的标签确定得到M条样本数据的至少两个行为损失函数，进而根据M条样本数据的至少两个行为损失函数确定损失函数，并根据损失函数训练预测模型，这样不仅可以从多个维度进行模型预测，也可以考虑到用户多种行为之间的先后关系，从而提高预测模型预测的准确率。

附图说明

图1是本发明实施例中的模型训练方法流程图；

图2是本发明实施例中的预测模型结构示意图；

图3是本发明实施例中的模型训练装置结构示意图；

图4是本发明实施例中的设备结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

另外，在本发明实施例中，“可选地”或者“示例性地”等词用于表示作例子、例证或说明。本发明实施例中被描述为“可选地”或者“示例性地”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言，使用“可选地”或者“示例性地”等词旨在以具体方式呈现相关概念。

图1为本发明实施例提供的一种模型训练方法，如图1所示，该方法具体包括：

S101、按照用户行为顺序从数据库获取M条样本数据。

在本实施例中，上述数据库可以为任意网络平台的数据库，例如，某音乐网站的数据库或者某电影网站的数据库等等。

相应地，用户行为顺序可以理解为按照时间先后在某网络平台上操作的顺序。例如，在某音乐网站上先点击某音乐专辑，再购买该音乐专辑，进而播放该音乐专辑，那么该用户行为顺序即为点击-购买-播放；或者在某电影网站上先点击某部电影，再播放该部电影，进而购买电影，那么该用户行为顺序即为点击-播放-购买。

需要说明的是，上述用户行为顺序中的具体行为仅为示例性的说明，本领域技术人员可以根据需要设计网络平台上相应的用户行为顺序，本实施例对此并不作限定。

另外，从数据库中获取的M条样本数据中，每条数据样本可以包括用户标识、信息标识、至少两个用户行为的标签，其中，M为大于等于1的整数，至少两个用户行为可以理解为用户针对网络平台向用户展示的各类信息的操作行为，例如，某视频网站向用户展示视频，用户点击视频、播放视频，或者购买视频时，该点击、播放、购买的操作即可被认为是用户行为，并且网络平台的数据库可以自动保存该用户行为的相关数据，信息可以理解为用户在某网站上浏览访问的电影、音乐等等。对应地，信息标识也可以理解为用户在某网站上说浏览访问对象的标识，例如，电影标识或者音乐标识等。

进一步地，至少两个用户行为的标签可以理解为用户是否通过某个行为操作了网络平台向用户展示的信息。例如，假设用户播放了某个视频，那么该播放行为的标签可以为T，而用户未播放某个视频，对应地，该用户对该信息的播放行为的标签可以设置为F，假设用户购买了某个视频，那么针对该视频信息，该用户的购买行为的标签可以为T，反之，则该用户的购买行为地标签可以为F。当然，本领域技术人员也可以采用其他方式设置标签的不同属性，以区分用户的行为，本实施例对此不作限定。

S102、根据至少两个用户行为的标签确定M条样本数据的至少两个行为损失函数

从数据库中获取到样本数据中某用户对某信息的至少两个用户行为的标签之后，可以根据该至少两个用户行为的标签确定M条样本数据的至少两个行为损失函数其中，k表示第k条样本数据，k的取值范围为1≤k≤M，n表示用户行为数，且n为大于1的整数。

S103、根据M条样本数据的至少两个行为损失函数确定损失函数L。

通过步骤S102获取到M条样本数据的至少两个行为损失函数后，可以通过该至少两个行为损失函数确定得到损失函数L。

示例性地，上述确定得到损失函数L的实现方式可以为，根据M条样本数据的至少两个行为损失函数确定M条样本数据的损失函数Lk，进而根据M条样本数据的损失函数Lk确定损失函数L。

S104、根据损失函数L训练预测模型。

根据步骤S101～S103得到损失函数L之后，可以根据该损失函数训练预测模型，进而通过该预测模型可以对用户的各种行为进行预测。

通过上述实现方式，按照用户行为顺序从数据库获取M条样本数据，根据样本数据中至少两个用户行为的标签确定得到M条样本数据的至少两个行为损失函数，进而根据M条样本数据的至少两个行为损失函数确定损失函数，并根据损失函数训练预测模型，这样不仅可以从多个维度进行模型预测，也可以考虑到用户多种行为之间的先后关系，从而提高预测模型预测的准确率。

在一种示例中，上述步骤S102的实现方式可以为，根据至少两个用户行为的标签，通过第一公式确定M条样本数据的至少两个行为损失函数其中，第一公式为：

在上述公式中，表示第k条样本数据的第n个用户行为的标签，/>表示第k条样本数据产生第n个用户行为的概率。

示例性地，以步骤S101中点击音乐专辑、购买音乐专辑、播放音乐专辑三个用户行为为例，那么上述公式(1)可以为以下形式：

即公式(2)表示针对第k条样本数据中，某用户点击某个音乐专辑的损失函数，公式(3)表示针对第k条样本数据中，某用户购买某个音乐专辑的损失函数，公式(4)表示针对第k条样本数据中，某用户播放某个音乐专辑的损失函数。对应地，上述公式中，分别表示第k条样本数据中，某用户点击、或者购买、或者播放某个音乐专辑的概率。

当然，上述描述仅是举例说明，本领域技术人员也可以根据实际需求设置四个、五个，甚至更多个用户行为，并且，上述三个用户行为也并不局限于点击行为、播放行为、购买行为。

进一步地，在上述过程中，确定产生第n个用户行为的概率的可选实现方式可以为，根据产生第n-1个用户行为的概率和第n个用户行为的预估条件概率的乘积，得到产生第n个用户行为的概率，即采用公式(5)获得上述第n个用户行为的概率。

y_n′＝y_n-1′*y_n″ (5)

其中，上述y_n′表示第n个用户行为的概率，y_n-1′表示第n-1个用户行为的概率，y_n″表示第n个用户行为的预估条件概率，其中，第n个用户行为的预估条件概率可以理解为在第n-1个用户行为之后，产生第n个用户行为的概率。

例如，以步骤S101中用户行为顺序为“点击-购买-播放”为例，购买行为的预估条件概率为在点击行为之后，用户购买这一行为产生或出现的概率，播放行为的预估条件概率为在购买行为之后，用户播放这一行为产生或出现的概率。

由于n的取值范围为大于1的整数，即至少有两个用户行为，那么确定产生第1个用户行为的概率的方式可以为，根据用户标识从数据库获取用户特征，例如，获取用户的年龄、性别、兴趣等特征，将信息标识输入预测模型的向量层，生成信息向量，将信息向量与用户特征通过预测模型的拼接层进行拼接，生成拼接向量，根据拼接向量，依次通过预测模型的全连接层、输出层，得到产生第1个用户行为的概率。其中，上述预测模型的网络结构如图2所示，预测模型包括输入层、向量层、拼接层、全连接层、输出层。

可选地，获取第n个用户行为的预估条件概率的方式也可以采用与上述确定产生第1个用户行为的概率相同的方式，本实施例在此不做赘述。

在一种示例中，步骤S103中确定M条样本数据的损失函数Lk可以为，根据M条样本数据的至少两个行为损失函数通过第二公式确定M条样本数据的损失函数Lk，其中，第二公式为：

其中，Lk为第k条样本数据的损失函数，α1+α2+……+αn＝1，α1、α2、……、αn为对应损失函数的权值。

可以理解的是，当每条样本数据中的至少两个用户行为为三个用户行为时，上述公式(6)即演化为公式(7)，如下：

并且，上述α1、α2、……、αn均为可调参数。

进一步，可选地，根据M条样本数据的损失函数L^k确定损失函数L可以为，计算M条样本数据的损失函数L^k的平均值，确定损失函数L，即通过公式(8)确定得到损失函数L。

图3为本发明实施例提供的一种模型训练装置，如图5所示，该装置包括：获取模块301、确定模块302、训练模块303。

其中，获取模块，用于按照用户行为顺序从数据库获取M条样本数据，其中，样本数据包括用户标识、信息标识、至少两个用户行为的标签，M为大于等于1的整数；

进一步地，确定模块，还用于根据M条样本数据的至少两个行为损失函数确定损失函数L；

训练模块，用于根据损失函数L训练预测模型。

在一种示例中，确定模块，用于根据至少两个用户行为的标签，通过第一公式确定M条样本数据的至少两个行为损失函数其中，第一公式为：

其中，表示第k条样本数据的第n个用户行为的标签，/>表示第k条样本数据产生第n个用户行为的概率。

进一步地，确定模块，还用于根据产生第n-1个用户行为的概率和第n个用户行为的预估条件概率的乘积，得到产生第n个用户行为的概率，其中，第n个用户行为的预估条件概率为在第n-1个用户行为之后，产生第n个用户行为的概率。

进一步地，所述获取模块，还用于根据用户标识从数据库获取用户特征；

上述确定模块还包括生成单元和确定单元；

生成单元，用于将信息标识输入预测模型的向量层，生成信息向量，以及将信息向量与用户特征通过预测模型的拼接层进行拼接，生成拼接向量；

确定单元，用于根据拼接向量，依次通过预测模型的全连接层、输出层，得到产生第1个用户行为的概率。

确定单元，还用于根据拼接向量，依次通过预测模型的全连接层、输出层，得到产生第n个用户行为的预估条件概率。

在一种示例中，确定模块，用于根据M条样本数据的至少两个行为损失函数确定M条样本数据的损失函数L^k，并根据M条样本数据的损失函数L^k确定损失函数L。

在一种示例中，确定模块，用于根据M条样本数据的至少两个行为损失函数通过第二公式确定M条样本数据的损失函数L^k，其中，第二公式为：

其中，L^k为第k条样本数据的损失函数，α1+α2+……+αn＝1，α1、α2、……、αn为对应损失函数的权值。

在一种示例中，确定模块，用于计算M条样本数据的损失函数L^k的平均值，确定损失函数L。

图3提供的模型训练装置可执行图1所提供的模型训练方法，具备执行方法相应的功能模块和有益效果。

图4为本发明实施例提供的一种设备的结构示意图，如图4所示，该设备包括处理器401、存储器402、输入装置403和输出装置404；设备中处理器401的数量可以是一个或多个，图4中以一个处理器401为例；设备中的处理器401、存储器402、输入装置403和输出装置404可以通过总线或其他方式连接，图4中以通过总线连接为例。

存储器402作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本发明实施例中的模型训练方法对应的程序指令/模块(例如，模型训练装置中的获取模块301、确定模块302、训练模块303)。处理器401通过运行存储在存储器402中的软件程序、指令以及模块，从而执行设备的各种功能应用以及数据处理，即实现上述的模型训练方法。

存储器402可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端的使用所创建的数据等。此外，存储器402可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器402可进一步包括相对于处理器401远程设置的存储器，这些远程存储器可以通过网络连接至设备/终端/服务器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置403可用于接收输入的数字或字符信息，以及产生与设备的用户设置以及功能控制有关的键信号输入。输出装置404可包括显示屏等显示设备。

本发明实施例还提供一种包含计算机可执行指令的存储介质，该计算机可执行指令在由计算机处理器执行时用于执行一种模型训练方法，该方法包括：

根据M条样本数据的至少两个行为损失函数确定损失函数L；

根据损失函数L训练预测模型。

当然，本发明实施例所提供的一种包含计算机可执行指令的存储介质，其计算机可执行指令不限于如上所述的方法操作，还可以执行本发明任意实施例所提供的模型训练方法中的相关操作。

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本发明可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(RandomAccess Memory，RAM)、闪存(FLASH)、硬盘或光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

值得注意的是，上述模型训练装置的实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种模型训练方法，其特征在于，包括：

按照用户行为顺序从数据库获取M条样本数据，所述样本数据包括用户标识、信息标识、至少两个用户行为的标签，其中，M为大于等于1的整数；

根据至少两个用户行为的标签，通过第一公式确定M条样本数据的至少两个行为损失函数，其中，所述第一公式为：/>，k表示第k条样本数据，1≤k≤M，n表示用户行为数，n为大于1的整数，/>表示第k条样本数据的第n个用户行为的标签，/>表示第k条样本数据产生第n个用户行为的概率；所述第n个用户行为的概率由产生第n-1个用户行为的概率和产生第n个用户行为的预估条件概率的乘积得到，所述产生第n个用户行为的预估条件概率为在第n-1个用户行为之后，产生第n个用户行为的概率；

根据M条样本数据的至少两个行为损失函数，通过第二公式确定M条样本数据的损失函数L^k，根据所述M条样本数据的损失函数L^k确定损失函数L，其中，所述第二公式为：/>， L^k为第k条样本数据的损失函数，，/>、/>、……、/>为对应损失函数/>的权值；

根据所述损失函数L训练预测模型。

2.根据权利要求1所述的方法，其特征在于，确定产生第1个用户行为的概率，包括：

根据所述用户标识从数据库获取用户特征；

将所述信息标识输入所述预测模型的向量层，生成信息向量；

将所述信息向量与所述用户特征通过所述预测模型的拼接层进行拼接，生成拼接向量；

根据所述拼接向量，依次通过所述预测模型的全连接层、输出层，得到产生第1个用户行为的概率。

3.根据权利要求1所述的方法，其特征在于，获取第n个用户行为的预估条件概率，包括：

根据所述用户标识从数据库获取用户特征；

将所述信息向量与所述用户特征通过所述预测模型的拼接层，生成拼接向量；

根据所述拼接向量，依次通过所述预测模型的全连接层、输出层，得到产生第n个用户行为的预估条件概率。

4.根据权利要求1-3任一项所述的方法，其特征在于，根据所述M条样本数据的损失函数L^k确定损失函数L，包括：

计算所述M条样本数据的损失函数L^k的平均值，确定损失函数L。

5.一种模型训练装置，其特征在于，包括：

获取模块，用于按照用户行为顺序从数据库获取M条样本数据，所述样本数据包括用户标识、信息标识、至少两个用户行为的标签，其中，M为大于等于1的整数；

确定模块，用于根据至少两个用户行为的标签，通过第一公式确定M条样本数据的至少两个行为损失函数，其中，所述第一公式为：/>，k表示第k条样本数据，1≤k≤M，n表示用户行为数，n为大于1的整数，/>表示第k条样本数据的第n个用户行为的标签，/>表示第k条样本数据产生第n个用户行为的概率；所述第n个用户行为的概率由产生第n-1个用户行为的概率和产生第n个用户行为的预估条件概率的乘积得到，所述产生第n个用户行为的预估条件概率为在第n-1个用户行为之后，产生第n个用户行为的概率；

所述确定模块，还用于根据M条样本数据的至少两个行为损失函数，通过第二公式确定M条样本数据的损失函数L^k，根据所述M条样本数据的损失函数L^k确定损失函数L，其中，所述第二公式为：/>， L^k为第k条样本数据的损失函数，/>，/>、/>、……、/>为对应损失函数/>的权值；

训练模块，用于根据所述损失函数L训练预测模型。

6.一种设备，其特征在于，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时，实现如权利要求1-4任一项所述的模型训练方法。