CN115391589A

CN115391589A - 内容召回模型的训练方法、装置、电子设备及存储介质

Info

Publication number: CN115391589A
Application number: CN202210926881.4A
Authority: CN
Inventors: 黄强; 解忠乾; 罗川江
Original assignee: Hangzhou Netease Cloud Music Technology Co Ltd
Current assignee: Hangzhou Netease Cloud Music Technology Co Ltd
Priority date: 2022-08-03
Filing date: 2022-08-03
Publication date: 2022-11-25

Abstract

本申请实施例提供了内容召回模型的训练方法、装置、电子设备及存储介质，该方法为：获取训练样本集；根据预先建立的内容召回模型，针对样本集中的每一样本数据执行如下操作：将样本数据中的样本媒体资源特征、样本用户的历史点击媒体资源特征输入内容召回模型，输出样本媒体资源的预测分值；根据样本媒体资源的预测分值、样本用户针对样本媒体资源的操作行为标签和预设的内容召回模型的损失函数，对内容召回模型的各参数进行迭代优化直至内容召回模型收敛，得到训练后的内容召回模型，损失函数包括聚类损失和样本损失，聚类损失是根据生成的聚类中心向量与样本用户的历史点击媒体资源特征向量之间的类内距离、聚类中心向量之间的类间距离确定的。

Description

内容召回模型的训练方法、装置、电子设备及存储介质

技术领域

本申请涉及计算机技术领域，尤其涉及内容召回模型的训练方法、装置、电子设备及存储介质。

背景技术

本部分旨在为本申请的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

在音乐推荐场景中，用户往往有广泛的兴趣，例如一个用户对古风、摇滚、乡村等曲风的媒体资源感兴趣，因此在音乐推荐系统中需要满足用户多样的兴趣需求，以提升推荐效果。召回是音乐推荐系统的第一个环节，召回的质量决定着音乐推荐系统的推荐质量，召回阶段需要保证召回内容的多样性。

相关技术中，多兴趣内容召回模型的通用框架通常包括：向量层(Embedding)、多兴趣抽取层(Multi-Interest Extractor Layer)和标签意识注意力层(Label-awareAttention)。向量层将用户点击历史向量化，多兴趣抽取层可采用胶囊网络，下层胶囊为用户的点击历史，上层胶囊为用户的兴趣，使用动态路由算法调整下层胶囊和上层胶囊的权重，使得表征相同用户兴趣的点击历史路由到同一个上层胶囊中，多个上层胶囊可表征用户的多个兴趣，标签注意力层对多兴趣抽取层输出的用户的兴趣向量使用注意力机制，生成最终的用户兴趣向量进行召回。然而，基于胶囊网络的多兴趣抽取，需要迭代100次以上，耗时将近100ms，才有可能获取多样的用户兴趣向量，这对低延时的召回场景如实时召回场景受限，导致内容召回效率不高，若通过提升硬件计算性能的方式将会增加成本。多兴趣抽取层还可采用多头自注意力机制，在不同空间使用多个独立的注意力操作聚合用户点击历史生成用户兴趣向量，表征用户的多样兴趣，然而，这种方式可能会导致生成的用户兴趣向量的相似度过高，导致召回效果不佳。

发明内容

针对现有的内容召回模型训练时对于低延时的召回场景受限、以及生成的用户向量的相似度过高而召回效果不佳的问题，本申请实施例提供了一种内容召回模型的训练方法、装置、电子设备及存储介质。

一方面，本申请实施例提供了一种内容召回模型的训练方法，包括：

获取训练样本集；

根据预先建立的内容召回模型，针对所述样本集中的每一样本数据执行如下操作：

将所述样本数据中的样本媒体资源特征、样本用户的历史点击媒体资源特征输入所述内容召回模型，输出所述样本媒体资源的预测分值；

根据所述样本媒体资源的预测分值、所述样本用户针对所述样本媒体资源的操作行为标签以及预设的内容召回模型的损失函数，对所述内容召回模型的各参数进行迭代优化，直至所述内容召回模型收敛，得到训练后的内容召回模型，所述损失函数包括聚类损失和样本损失，所述聚类损失是根据生成的聚类中心向量与所述样本用户的历史点击媒体资源特征向量之间的类内距离、以及所述聚类中心向量之间的类间距离确定的。

在一种可能的实施方式中，所述样本集中的样本数据包括正样本和负样本；所述样本集通过以下方式生成：

根据客户端请求的媒体资源特征、所述客户端的样本用户的历史点击媒体资源特征、以及所述客户端的样本用户针对请求的所述媒体资源的操作行为特征，获得候选样本；

遍历各个候选样本，若当前候选样本为正样本，则将所述当前候选样本存储至样本池；

若当前候选样本为负样本，且根据设置的负采样比例确定需要负采样，则从负采样池中随机选择一条负采样样本存储至样本池，所述负采样池中的负采样样本为设定其他用户的曝光样本；

若当前候选样本为负样本，且根据设置的负采样比例确定不需要负采样，则将当前候选样本存储至样本池，所述样本池中的正样本和负样本构成所述样本集。

在一种可能的实施方式中，根据客户端请求的媒体资源特征、所述客户端的样本用户的历史点击媒体资源特征、以及所述客户端的样本用户针对请求的所述媒体资源的操作行为特征，获得候选样本，具体包括：

接收客户端发送的媒体资源请求，向所述客户端返回目标媒体资源列表；

分别提取所述客户端的样本用户的历史点击媒体资源特征，以及各个目标媒体资源特征；

获取所述客户端的样本用户针对所述各个目标媒体资源的操作行为标签；

针对每一目标媒体资源，将所述客户端的样本用户的历史点击媒体资源特征、所述目标媒体资源特征以及所述客户端的样本用户针对所述目标媒体资源的行为标签进行拼接，获得所述目标媒体资源对应的样本；

将所述各个目标媒体资源对应的样本确定为候选样本。

在一种可能的实施方式中，所述内容召回模型包括向量层、兴趣抽取层和注意力层；

将所述样本数据中的样本媒体资源特征和样本用户的历史点击媒体资源特征输入所述内容召回模型，输出所述样本媒体资源的预测分值，具体包括：

将样本媒体资源特征和样本用户的历史点击媒体资源特征输入所述向量层，获得样本媒体资源特征向量和样本用户的历史点击媒体资源特征向量；

将所述样本媒体资源特征向量和所述样本用户的历史点击媒体资源特征向量输入所述兴趣抽取层，根据生成的各个聚类中心向量对所述样本用户的历史点击媒体资源特征向量进行聚类，获得所述样本用户的兴趣向量；

将所述样本媒体资源特征向量和所述样本用户的兴趣向量输入所述注意力层执行注意力机制操作，获得所述样本用户的目标兴趣向量；

根据所述样本媒体资源特征向量与所述样本用户的目标兴趣向量确定所述预测分值。

在一种可能的实施方式中，根据生成的各个聚类中心向量对所述样本用户的历史点击媒体资源特征向量进行聚类，获得所述样本用户的兴趣向量，具体包括：

针对所述样本用户的每一历史点击媒体资源特征，分别计算所述历史点击媒体资源特征向量与各个聚类中心向量之间的距离；

将所述历史点击媒体资源特征向量与相距距离最小的聚类中心向量归为一类；

根据归类到所述各个聚类中心向量的历史点击媒体资源向量生成相应的所述样本用户的兴趣向量。

在一种可能的实施方式中，所述方法，还包括：

获取用户的历史点击媒体资源特征；

将所述用户的历史点击媒体资源特征输入所述训练后的内容召回模型，获得所述用户的兴趣向量；

将所述用户的兴趣向量与候选召回媒体资源执行注意力机制操作，获得所述用户的目标兴趣向量；

根据所述用户的目标兴趣向量与候选召回媒体资源计算得分，根据所述得分确定目标召回媒体资源。

一方面，本申请实施例提供了一种内容召回模型的训练装置，包括：

第一获取单元，用于获取训练样本集；

训练单元，用于根据预先建立的内容召回模型，针对所述样本集中的每一样本数据执行如下操作：将所述样本数据中的样本媒体资源特征、样本用户的历史点击媒体资源特征输入所述内容召回模型，输出所述样本媒体资源的预测分值；根据所述样本媒体资源的预测分值、所述样本用户针对所述样本媒体资源的操作行为标签以及预设的内容召回模型的损失函数，对所述内容召回模型的各参数进行迭代优化，直至所述内容召回模型收敛，得到训练后的内容召回模型，所述损失函数包括聚类损失和样本损失，所述聚类损失是根据生成的聚类中心向量与所述样本用户的历史点击媒体资源特征向量之间的类内距离、以及所述聚类中心向量之间的类间距离确定的。

在一种可能的实施方式中，所述样本集中的样本数据包括正样本和负样本；

所述第一获取单元，具体用于通过以下方式生成所述样本集：根据客户端请求的媒体资源特征、所述客户端的样本用户的历史点击媒体资源特征、以及所述客户端的样本用户针对请求的所述媒体资源的操作行为特征，获得候选样本；遍历各个候选样本，若当前候选样本为正样本，则将所述当前候选样本存储至样本池；若当前候选样本为负样本，且根据设置的负采样比例确定需要负采样，则从负采样池中随机选择一条负采样样本存储至样本池，所述负采样池中的负采样样本为设定其他用户的曝光样本；若当前候选样本为负样本，且根据设置的负采样比例确定不需要负采样，则将当前候选样本存储至样本池，所述样本池中的正样本和负样本构成所述样本集。

在一种可能的实施方式中，所述第一获取单元，具体用于接收客户端发送的媒体资源请求，向所述客户端返回目标媒体资源列表；分别提取所述客户端的样本用户的历史点击媒体资源特征，以及各个目标媒体资源特征；获取所述客户端的样本用户针对所述各个目标媒体资源的操作行为标签；针对每一目标媒体资源，将所述客户端的样本用户的历史点击媒体资源特征、所述目标媒体资源特征以及所述客户端的样本用户针对所述目标媒体资源的行为标签进行拼接，获得所述目标媒体资源对应的样本；将所述各个目标媒体资源对应的样本确定为候选样本。

所述训练单元，具体用于将样本媒体资源特征和样本用户的历史点击媒体资源特征输入所述向量层，获得样本媒体资源特征向量和样本用户的历史点击媒体资源特征向量；将所述样本媒体资源特征向量和所述样本用户的历史点击媒体资源特征向量输入所述兴趣抽取层，根据生成的各个聚类中心向量对所述样本用户的历史点击媒体资源特征向量进行聚类，获得所述样本用户的兴趣向量；将所述样本媒体资源特征向量和所述样本用户的兴趣向量输入所述注意力层执行注意力机制操作，获得所述样本用户的目标兴趣向量；根据所述样本媒体资源特征向量与所述样本用户的目标兴趣向量确定所述预测分值。

在一种可能的实施方式中，所述训练单元，具体用于针对所述样本用户的每一历史点击媒体资源特征，分别计算所述历史点击媒体资源特征向量与各个聚类中心向量之间的距离；将所述历史点击媒体资源特征向量与相距距离最小的聚类中心向量归为一类；根据归类到所述各个聚类中心向量的历史点击媒体资源向量生成相应的所述样本用户的兴趣向量。

在一种可能的实施方式中，所述装置，还包括：

第二获取单元，用于获取用户的历史点击媒体资源特征；

第一获得单元，用于将所述用户的历史点击媒体资源特征输入所述训练后的内容召回模型，获得所述用户的兴趣向量；

第二获得单元，用于将所述用户的兴趣向量与候选召回媒体资源执行注意力机制操作，获得所述用户的目标兴趣向量；

确定单元，用于根据所述用户的目标兴趣向量与候选召回媒体资源计算得分，根据所述得分确定目标召回媒体资源。

一方面，本申请实施例提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，处理器执行计算机程序时实现本申请所述的内容召回模型的训练方法。

一方面，本申请实施例提供了一种计算机可读存储介质，其上存储有计算机程序指令，该计算机程序指令被处理器执行时实现本申请所述的内容召回模型的训练方法中的步骤。

本申请实施例的有益效果如下：

本申请实施例提供的内容召回模型的训练方案，获取训练样本集，根据预先建立的内容召回模型，针对样本集中的每一样本数据执行如下操作：将样本数据中的样本媒体资源特征、样本用户的历史点击媒体资源特征输入内容召回模型，输出样本媒体资源的预测分值，根据样本媒体资源的预测分值、样本用户针对样本媒体资源的操作行为标签以及预设的内容召回模型的损失函数，对内容召回模型的各参数进行迭代优化，直至内容召回模型收敛，得到训练后的内容召回模型，损失函数包括聚类损失和样本损失，聚类损失是根据生成的聚类中心向量与样本用户的历史点击媒体资源特征向量之间的类内距离、以及聚类中心向量之间的类间距离确定的，本申请实施例中在训练内容召回模型时，损失函数中引入的聚类损失，通过对样本用户的历史点击媒体资源特征向量进行聚类生成相应的用户兴趣向量，每一用户兴趣向量表征用户的一个兴趣，多个聚类则可表征用户多样的兴趣，聚类损失考虑了聚类中心的类内距离和类间距离，随着内容召回模型的迭代训练，聚类中心随着训练不断学习，准确性越来越高，从而使得生成的用户兴趣向量更加准确，并且这种聚类方式无需复杂的网络结构，无需较多的迭代次数即可完成内容召回模型的训练，从而，在提高了内容召回准确度的同时，提高了内容召回效率。

附图说明

图1为本申请实施例提供的内容召回模型的训练方法的应用场景示意图；

图2为本申请实施例提供的内容召回模型的训练方法的实施流程图；

图3为本申请实施例提供的生成训练样本集的实施流程图；

图4为本申请实施例提供的获得候选样本的实施流程图；

图5为本申请实施例提供的内容召回模型结构图；

图6为本申请实施例提供的获得样本资源的预测分值的实施流程图；

图7为本申请实施例提供的获得样本用户的兴趣向量的实施流程图；

图8为本申请实施例提供的样本用户的历史点击媒体资源向量的聚类示例图；

图9为本申请实施例提供的样本用户的聚类到一个聚类中心向量的历史点击媒体资源向量的聚合示例图；

图10为本申请实施例提供的类内距离和类间距离的示意图；

图11为本申请实施例提供的内容召回模型正向与反向传递图；

图12为本申请实施例提供的内容召回方法的实施流程图；

图13为本申请实施例提供的内容召回模型的训练装置的结构示意图；

图14为本申请实施例提供的电子设备的结构示意图。

具体实施方式

下面将参考若干示例性实施方式来描述本申请的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本申请，而并非以任何方式限制本申请的范围。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

本领域技术人员知道，本申请的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此，本公开可以具体实现为以下形式，即：完全的硬件、完全的软件(包括固件、驻留软件、微代码等)，或者硬件和软件结合的形式。

在本文中，需要理解的是，附图中的任何元素数量均用于示例而非限制，以及任何命名都仅用于区分，而不具有任何限制含义。本公开所涉及的数据可以为经用户授权或者经过各方充分授权的数据，对数据的采集传播、使用等，均符合国家相关法律法规的要求，本公开实施方式/实施例可以互相组合。

下面参考本申请的若干代表性实施方式，详细阐释本申请的原理和精神。为了方便理解，对本申请实施例中涉及的技术术语进行解释：

1、多兴趣召回：根据用户的多个兴趣召回用户感兴趣的内容，满足用户多样性的兴趣需求。

2、注意力机制(Attention)：是聚焦于局部信息的机制，这种机制来源于自然语言处理，在内容推荐场景中，注意力机制的是定位到感兴趣的信息，抑制无用信息，关注用户兴趣的不同部分。

3、多头注意力(Multi-head attention)是利用多个查询，来平行地计算从输入信息中选取多个信息，每个注意力关注输入信息的不同部分。

发明概述

相关技术中，多兴趣内容召回模型的通用框架通常包括：向量层、多兴趣抽取层和标签意识注意力层。向量层将用户点击历史向量化，多兴趣抽取层可采用胶囊网络，下层胶囊为用户的点击历史，上层胶囊为用户的兴趣，使用动态路由算法调整下层胶囊和上层胶囊的权重，使得表征相同用户兴趣的点击历史路由到同一个上层胶囊中，多个上层胶囊可表征用户的多个兴趣，标签注意力层对多兴趣抽取层输出的用户的兴趣向量使用注意力机制，生成最终的用户兴趣向量进行训练或者召回。然而，基于胶囊网络的多兴趣抽取，需要迭代100次以上，耗时将近100ms，才有可能获取多样的用户兴趣向量，这对低延时的召回场景如实时召回场景受限，导致内容召回效率不高，若通过提升硬件计算性能的方式将会增加成本。多兴趣抽取层还可采用多头自注意力机制，在不同空间使用多个独立的注意力操作聚合用户点击历史生成用户兴趣向量，表征用户的多样兴趣，然而，这种方式可能会导致生成的用户兴趣向量的相似度过高，导致召回效果不佳。

基于此，本申请实施例提供了一种内容召回模型的训练方法，获取训练样本集，根据预先建立的内容召回模型，针对样本集中的每一样本数据执行如下操作：将样本数据中的样本媒体资源特征、样本用户的历史点击媒体资源特征输入内容召回模型，输出样本媒体资源的预测分值，根据样本媒体资源的预测分值、样本用户针对样本媒体资源的操作行为标签以及预设的内容召回模型的损失函数，对内容召回模型的各参数进行迭代优化，直至内容召回模型收敛，得到训练后的内容召回模型，损失函数包括聚类损失和样本损失，聚类损失是根据生成的聚类中心向量与样本用户的历史点击媒体资源特征向量之间的类内距离、以及聚类中心向量之间的类间距离确定的，本申请实施例中在训练内容召回模型时，损失函数中引入的聚类损失，通过对样本用户的历史点击媒体资源特征向量进行聚类生成相应的用户兴趣向量，每一用户兴趣向量表征用户的一个兴趣，多个聚类则可表征用户多样的兴趣，聚类损失考虑了聚类中心的类内距离和类间距离，随着内容召回模型的迭代训练，聚类中心随着训练不断学习，准确性越来越高，从而使得生成的用户兴趣向量更加准确，并且这种聚类方式无需复杂的网络结构，无需较多的迭代次数即可完成内容召回模型的训练，从而，在提高了内容召回准确度的同时，提高了内容召回效率。

在介绍了本申请的基本原理之后，下面具体介绍本申请的各种非限制性实施方式。

应用场景总览

参考图1，其为本申请实施例提供的内容召回的训练方法的一个应用场景示意图。该应用场景为内容召回模型的训练样本生成系统，训练样本生成系统可在线生成训练样本，训练样本生成系统可以包括客户端101、服务端102、样本服务模块103、特征提取服务模块104和样本库105，生成的样本存储至样本库105中，在训练时，服务端102从样本库105获取训练样本集，根据预先建立的内容召回模型，针对样本集中的每一样本数据执行如下操作：将样本数据中的样本媒体资源特征、样本用户的历史点击媒体资源特征输入内容召回模型，输出样本媒体资源的预测分值，根据样本媒体资源的预测分值、样本用户针对样本媒体资源的操作行为标签以及预设的内容召回模型的损失函数，对内容召回模型的各参数进行迭代优化，直至内容召回模型收敛，得到训练后的内容召回模型，损失函数包括聚类损失和样本损失，聚类损失是根据生成的聚类中心向量与样本用户的历史点击媒体资源特征向量之间的类内距离、以及聚类中心向量之间的类间距离确定的。

本申请实施例中，样本服务模块103和特征提取服务模块104可以为部署在服务端102上的模块，也可以为单独部署的服务器，本申请实施例对此不作限定。样本库105可采用HDFS(Hadoop Distributed File System，分布式文件系统)，还可以采用Kafka系统(一种高吞吐量的分布式发布订阅消息系统)等。

其中，客户端101可以包括独立的物理服务器，也可以包括提供云服务器、云数据库、云存储等基础云计算服务的云服务器，服务端102可以但不限于为：智能手机、平板电脑、笔记本电脑、台式计算机等设备，本申请实施例对此不作限定。

示例性方法

下面结合上述应用场景，来描述根据本申请示例性实施方式的内容召回方法。需要注意的是，上述应用场景仅是为了便于理解本申请的精神和原理而示出，本申请的实施方式在此方面不受任何限制。相反，本申请的实施方式可以应用于适用的任何场景。

参考图2，本申请实施例提供了一种内容召回模型的训练方法，可应用于图1所示的服务端102，具体可包括以下步骤：

S21、获取训练样本集。

具体实施时，训练样本集中的样本数据包括正样本和负样本，可通过如图3所示的流程生成训练样本集：

S211、根据客户端请求的媒体资源特征、客户端的样本用户的历史点击媒体资源特征、以及客户端的样本用户针对请求的媒体资源的操作行为特征，获得候选样本。

具体实施时，可按照如图4所示的流程获得候选样本：

S2111、接收客户端发送的媒体资源请求，向客户端返回目标媒体资源列表。

具体实施时，参见图1训练样本生成系统的架构图，样本用户通过客户端向服务端发送媒体资源请求，服务端向客户端返回其请求的目标媒体资源列表，同时，服务端向样本服务模块发送样本用户标识和媒体资源列表，请求获取媒体资源列表中各目标媒体资源特征，样本用户通过客户端对媒体资源列表中的目标媒体资源执行操作行为，如是否执行点击操作等，客户端将样本用户针对样本资源列表中各个目标媒体资源的操作行为信息发送至样本服务模块。本申请实施例提供的内容召回模型可以应用于音乐推荐场景，媒体资源可以但不限于为歌曲资源，或视频资源等媒体资源，本申请实施例对此不作限定。

S2112、分别提取客户端的样本用户的历史点击媒体资源特征，以及各个目标媒体资源特征。

具体实施时，样本服务模块接收服务端发送的媒体资源列表和特征提取请求后，根据样本用户标识获取本地存储的该样本用户的历史点击媒体资源，向特征提取服务模块发送特征提取请求，特征提取请求中携带有媒体资源列表中包含的各目标媒体资源和样本用户的历史点击媒体资源，特征提取服务模块提取各历史点击媒体资源特征，并提取目标资源列表中各个目标媒体资源特征，进而，将各历史点击媒体资源特征和各个目标媒体资源特征返回至样本服务模块。其中，媒体资源特征可以但不限于包括以下特征：媒体资源的名称、风格、语种等特征。

为了进一步提高预测的样本用户的兴趣向量的准确性，特征提取服务模块还可以提取样本用户的画像特征并返回至样本服务模块，以使样本服务模块根据样本用户的画像特征与目标样本媒体资源特征、样本用户的历史点击媒体资源特征共同生成候选样本，以对建立的内容召回模型进行训练。其中，样本用户的画像特征可以但不限于包括：样本用户的身份特征和样本用户的偏好特征，其中，样本用户的身份特征可以但不限于包括以下特征：样本用户的年龄、性别、样本用户标识所属的地域等特征，样本用户的偏好特征可以但不限于包括：样本用户偏好的媒体资源风格、偏好的媒体资源语种等特征。

以媒体资源为歌曲资源为例，则歌曲资源特征可以包括：歌曲资源的名称、曲风、语种等特征，样本用户的偏好特征则可包括：样本用户偏好的曲风、偏好的歌曲的语种等特征。

S2113、获取客户端的样本用户针对各个目标媒体资源的操作行为标签。

具体实施，样本服务模块在接收特征提取服务模块返回的客户端的样本用户的历史点击媒体资源特征和各个目标媒体资源特征之后，或者样本服务器模块在接收特征提取模块返回的客户端的样本用户的历史点击媒体资源特征、各个目标媒体资源特征和样本用户的画像特征之后，将接收的各特征缓存一段时间，等待客户端上报样本用户针对样本资源列表中各个目标媒体资源的操作行为标签。假设客户端向服务端请求某一歌曲资源，服务端向客户端返回的媒体资源列表中包括10首相关歌曲(即10目标歌曲资源)，假设样本用户通过客户端点击了第1～3首歌曲，未对第4～10首歌曲进行任何操作，则可设置第1～3首歌曲对应的样本用户操作行为标签为“1”，可设置第4～10首歌曲对应的样本用户操作行为标签为“0”，在实施时，样本用户的操作行为标签可自行进行设定，本申请实施例对此不作限定。

S2114、针对每一目标媒体资源，将客户端的样本用户的历史点击媒体资源特征、目标媒体资源特征以及客户端的样本用户针对目标媒体资源的行为标签进行拼接，获得目标媒体资源对应的样本。

具体实施时，针对每一目标媒体资源，样本服务模块将客户端的样本用户的历史点击媒体资源特征、该目标媒体资源特征以及客户端的样本用户针对该目标媒体资源的行为标签进行拼接，获得该目标媒体资源对应的样本，或者，样本服务模块还可以将客户端的样本用户的历史点击媒体资源特征、该目标媒体资源特征、样本用户的画像特征以及客户端的样本用户针对该目标媒体资源的行为标签进行拼接，获得该目标媒体资源对应的样本。

S2115、将各个目标媒体资源对应的样本确定为候选样本。

具体实施时，样本服务模块将生成的各个目标媒体资源对应的样本确定为候选样本，其中，候选样本中，客户端的样本用户点击的目标媒体资源对应的样本为正样本，客户端的样本用户未点击的目标媒体资源(即曝光未被点击的目标媒体资源)对应的样本为负样本。样本服务模块将各候选样本进行缓存，以进行进一步的负采样处理，这是由于召回的样本空间与线上曝光的媒体资源不一致，因此，对候选样本进行负采样，可提升相关性学习能力。本申请实施例中，对候选样本进行线上实时负采样处理，相比于样本的离线处理，可将样本处理从小时级提升为分钟级，大大提高了样本生成效率。

S212、遍历各个候选样本，若当前候选样本为正样本，则将当前候选样本存储至样本池。

具体实施时，样本服务模块获取候选样本后，遍历各个候选样本，若当前候选样本为正样本，即当前候选样本为客户端的样本用户点击的目标媒体资源对应的样本，则将当前候选样本存储至样本池，作为训练样本集的正样本。

S213、若当前候选样本为负样本，且根据设置的负采样比例确定需要负采样，则从负采样池中随机选择一条负采样样本存储至样本池，负采样池中的负采样样本为设定其他用户的曝光样本。

具体实施时，若当前候选样本为负样本，即客户端的样本用户未点击的目标媒体资源对应的样本，则根据预先设置的负采样比例判断是否需要进行负采样，如果需要负采样，则从负采样池中包含的设定其他用户的曝光样本中随机选择一条负采样样本作为训练样本集的负样本存储至样本池。

具体地，负采样比例可以根据需求自行设定，例如，可设置为50％，本申请实施例对此不作限定。假设负采样比例为50％，则表征将候选样本中的负样本中的50％替换为负采样样本。在实施时，可使用均匀分布函数生成一个随机数，如果该随机数大于或等于负采样比例，则确定需要进行负采样，如果该随机数小于负采样比例，则确定无需进行负采样。其中，负采样池中的设定其他用户的曝光样本可根据需求自行选定，本申请实施例对此不作限定。

S214、若当前候选样本为负样本，且根据设置的负采样比例确定不需要负采样，则将当前候选样本存储至样本池，样本池中的正样本和负样本构成样本集。

具体实施时，若当前候选样本为负样本，且使用均匀分布函数生成的随机数小于设置的负采样比例，则无需进行负采样，直接将当前候选样本作为训练样本集的负样本存储至样本池中，也就是说，样本池中的正样本为候选样本中的正样本，样本池中的负样本为候选样本中未被负采样池中的负采样样本替换的负样本以及从负采样样本中替换的其他用户的曝光未点击样本。假设10条目标歌曲资源对应的10个候选样本中，有6个是正样本，有4个是负样本，4个负样本中有2个负样本被负采样样本替换，则样本池中的正样本包括候选样本中的6个正样本和候选样本的4个负样本中未被负采样样本替换的2个负样本，以及候选样本的4个负样本中被替换为负采样样本的2个负样本。

针对每一样本用户通过其客户端向服务端请求的目标样本媒体资源，均执行上述样本处理操作，存储至样本池中，样本池中的正样本和负样本构成训练样本集。

本申请实施例中所采用的上述实时化的样本生成与采样方式，可将样本处理从小时级压缩到分钟级，进一步提高了内容召回的实时性，便于捕捉用户变化的兴趣。

S22、根据预先建立的内容召回模型，针对样本集中的每一样本数据执行如下操作：将样本数据中的样本媒体资源特征、样本用户的历史点击媒体资源特征输入内容召回模型，输出样本媒体资源的预测分值。

具体实施时，本申请实施例建立的内容召回模型结构如图5所示，其包括向量层、兴趣抽取层和注意力层，向量层用于将样本媒体资源特征、样本用户的历史点击媒体资源特征以及样本用户相关特征如样本用户的画像特征等进行向量化表示，兴趣抽取层通过生成的各个聚类中心向量对样本用户的历史点击媒体资源特征向量进行聚类得到样本用户的兴趣向量以进行样本用户的多兴趣提取，注意力层用于对兴趣抽取层提取的样本用户的兴趣向量使用注意力机制，生成最终的用户兴趣向量(即样本用户的目标兴趣向量)进行召回。

具体地，服务端从样本池获取训练样本集后，针对样本集中的每一样本数据，将该样本数据中的样本媒体资源特征、样本用户的历史点击媒体资源特征输入内容召回模型，输出样本媒体资源的预测分值，或者将该样本数据中的样本媒体资源特征、样本用户的历史点击媒体资源特征和样本用户的画像特征输入内容召回模型，输出样本媒体资源的预测分值。

具体地，可按照如图6所示的流程获得样本媒体资源的预测分值，包括以下步骤：

S221、将样本媒体资源特征和样本用户的历史点击媒体资源特征输入向量层，获得样本媒体资源特征向量和样本用户的历史点击媒体资源特征向量。

具体实施时，服务端将样本媒体资源特征和样本用户的历史点击媒体资源特征输入向量层，获得样本媒体资源特征向量和样本用户的历史点击媒体资源特征向量，或者服务端将样本媒体资源特征、样本用户的历史点击媒体资源特征和样本用户的画像特征输入向量层，获得样本媒体资源特征向量、样本用户的历史点击媒体资源特征向量和样本用户的画像特征向量。

S222、将样本媒体资源特征向量和样本用户的历史点击媒体资源特征向量输入兴趣抽取层，根据生成的各个聚类中心向量对样本用户的历史点击媒体资源特征向量进行聚类，获得样本用户的兴趣向量。

具体实施时，服务端将样本媒体资源特征向量和样本用户的历史点击媒体资源特征向量输入兴趣抽取层，或者将样本媒体资源特征向量、样本用户的历史点击媒体资源特征向量和样本用户的画像特征向量输入兴趣抽取层，服务端预先生成预设数量的聚类中心，根据各个聚类中心向量对样本用户的历史点击媒体资源特征向量进行聚类，获得样本用户的兴趣向量。

具体地，可按照如图7所示的流程对样本用户的历史点击媒体资源特征向量进行聚类，获得样本用户的兴趣向量，包括以下步骤：

S2221、针对样本用户的每一历史点击媒体资源特征，分别计算历史点击媒体资源特征向量与各个聚类中心向量之间的距离。

具体实施时，模型训练初始时，服务端可随机初始化生成n个聚类中心，根据距离度量方式，将样本用户的各个历史点击媒体资源特征向量归类到最近的聚类中心。针对样本用户的每一历史点击媒体资源特征，可通过计算该历史点击媒体资源特征向量与每一聚类中心向量之间的余弦相似度或内积的方式确定该历史点击媒体资源特征向量与每一聚类中心向量之间的距离。

S2222、将历史点击媒体资源特征与相距距离最小的聚类中心向量归为一类。

具体实施时，在计算出该历史点击媒体资源特征与每一聚类中心向量之间的距离后，将该历史点击媒体资源特征与相距距离最小的聚类中心向量归为一类，这样，将每一历史点击媒体资源特征向量归类到各自对应的聚类中心向量。

S2223、根据归类到各个聚类中心向量的历史点击媒体资源向量生成相应的样本用户的兴趣向量。

具体实施时，分别将归类到各个聚类中心向量的历史点击媒体资源向量进行聚合生成各个聚类中心向量对应的样本用户的兴趣向量。

具体地，聚合方式可以采用sum_pooling(求和池化)操作，还可以采用avg_pooling(平均池化，即平均滤波卷积)操作或者注意力机制操作等方式，本申请实施例对此不作限定。

本申请实施例中，由于使用与聚类中心距离度量的方式，把样本用户的历史点击媒体资源特征向量归类到聚类中心向量，生成样本用户的兴趣向量，从而避免了迭代耗时，提高了模型训练的实时性，减少实时部署的硬件成本。

S223、将样本媒体资源特征向量和样本用户的兴趣向量输入注意力层执行注意力机制操作，获得样本用户的目标兴趣向量。

具体实施时，将样本媒体资源特征向量和各个样本用户的兴趣向量输入注意力层执行注意力机制操作，获得样本用户的目标兴趣向量，其中，目标兴趣向量为一个。或者，将样本媒体资源特征向量、样本用户的画像特征向量和各个样本用户的兴趣向量输入注意力层执行注意力机制操作，获得样本用户的目标兴趣向量。

S224、根据样本媒体资源特征向量与样本用户的目标兴趣向量确定预测分值。

具体实施时，可将样本媒体资源特征向量与样本用户的目标兴趣向量做内积或者余弦相似度计算，得到样本媒体资源的预测分值。

如图8所示，其为样本用户的历史点击媒体资源向量的聚类示例图，假设包含3个聚类中心，五个历史点击媒体资源，第一个历史点击媒体资源向量和第四个历史点击媒体资源向量聚类到第3个聚类中心向量，第二个历史点击媒体资源向量聚类到第1个聚类中心向量，第三个历史点击媒体资源向量和第五个历史点击媒体资源向量聚类到第2个聚类中心向量。如图9所示，其为样本用户的聚类到一个聚类中心向量的历史点击媒体资源向量的聚合示例图，假设有4个历史点击媒体资源向量聚类到聚类中心向量1，将该4个历史点击媒体资源向量进行聚合可得到相应的样本用户的兴趣向量1。

由于每次聚类时，都是与聚类中心进行距离度量，因此，聚类中心的质量影响这用户的兴趣向量的质量，一个较好的聚类中心，应当让聚类中心向量与归类到该聚类中心向量的样本用户的历史点击媒体资源特征向量足够近，且各聚类中心向量之间互相远离，因此，在对内容召回模型的训练过程中，引入聚类损失，聚类损失考虑了聚类中心向量的类内距离和类间距离，随着模型的迭代，基于样本损失和聚类损失，聚类中心进行学习调整优化，如图10所示，其为类内距离和类间距离的示意图，类内距离是聚类中心向量与聚类到该聚类中心的样本用户的历史点击媒体资源特征向量之间的类内距离，类间距离是指不同聚类中心向量之间的距离。

S23、根据样本媒体资源的预测分值、样本用户针对样本媒体资源的操作行为标签以及预设的内容召回模型的损失函数，对内容召回模型的各参数进行迭代优化，直至内容召回模型收敛，得到训练后的内容召回模型。

其中，损失函数包括聚类损失和样本损失，聚类损失是根据生成的聚类中心向量与样本用户的历史点击媒体资源特征向量之间的类内距离、以及聚类中心向量之间的类间距离确定的。

具体实施时，若样本用户对样本媒体资源执行了点击操作，则样本用户针对样本媒体资源的操作行为标签为1，也即：样本用户针对样本媒体资源的操作行为标签对应的实际分值为1，若样本用户对样本媒体资源未执行点击操作，则样本用户针对样本媒体资源的操作行为标签为0，也即：样本用户针对样本媒体资源的操作行为标签对应的实际分值为0。针对每一样本媒体资源，根据样本媒体资源的预测分值与样本用户针对样本媒体资源的操作行为标签对应的实际分值的差值与预设的损失函数，对内容召回模型的各参数进行迭代优化，直至内容召回模型收敛，得到训练后的内容召回模型。

在生成的训练样本集中的负样本中，考虑到由于高曝光的媒体资源样本更容易出现在负采样池中，会导致热门媒体资源受到打压，影响召回的准确度，因此，需要对负样本的权重进行调整，以减少打压，在实施时，在样本损失中引入对于权重调整。

具体地，可通过以下公式计算损失函数：

Loss＝Loss_ctr+Loss_cluster

其中，Loss表示内容召回模型的损失函数；

Loss_ctr表示样本损失；

Loss_cluster表示聚类损失。

可通过以下公式计算样本损失Loss_ctr：

其中，N表示样本数量，k＝1～N；M表示样本类别数量，l＝1～M；

ω_k表示第k个样本对应的权重；

y_kl为符号函数，若第k个样本的真实类别为l，则y_kl＝1，若第k个样本的真实类别不为l，则y_kl＝0；

p_kl表示第k个样本属于类别l的预测概率。

具体地，通过以下公式计算第k个样本对应的权重：

如果第k个样本为正样本，则ω_k＝1；

如果第k个样本为负样本，则：

其中，ω₀表示设定权重；

p表示第k个样本一天的曝光量；

threshold表示设定阈值；

a′、b′为超参数。

其中，ω₀和threshold的值可根据经验值进行设定。当第k个样本为负样本时，ω_k用于平衡负采样池中热门媒体资源样本被负采样的概率，从而提升训练出的内容召回模型召回的准确性。

可通过以下公式计算聚类损失Loss_cluster：

其中，

表示聚类中心向量与样本用户的历史点击媒体资源特征之间的类内距离；

表示聚类中心向量之间的类间距离；

n表示聚类中心向量的个数，i表示第i个聚类中心向量，t表示第i+1个聚类中心向量，m表示样本用户的历史点击媒体资源特征的个数，j表示归类到第i个聚类中心的第j个历史点击媒体资源特征；

cossim(i,j)表示第i个聚类中心向量与归类到第i个聚类中心向量的第j个历史点击媒体资源特征的相似度；

cossim(i,t)表示第i个聚类中心向量与第t个聚类中心向量的相似度；

a、b、c为超参数。

其中，上述类内距离和类间距离的度量函数还可以但不限于使用以下距离度量函数：欧式距离、马氏距离等，本申请实施例对此不作限定。

本申请实施例引入的聚类损失保证了聚类的质量，也即保证了预测的用户的多个兴趣向量的质量，使得用户的每个兴趣向量能够表征用户兴趣的某个方面，通过用户的多个兴趣向量召回的媒体资源能够满足用户多样性的兴趣需求，而无需后续在召回服务做强制打散导致次优的召回结果。

在模型训练时，由于在兴趣抽取层生成的样本用户的兴趣向量为多个，因此需要对样本媒体资源特征向量和样本用户的兴趣向量执行注意力机制操作，获得最终的样本用户的目标兴趣向量，为了加速模型收敛，可以但不限于采用soft attention(软注意力)机制生成样本用户的目标兴趣向量，使得模型在梯度反向传递时其各个参数都能得到更新，如图11所示，其为内容召回模型正向与反向传递图，其中，由下至上为正向传播，由上至下为反向传播。

进而，可根据训练后的内容召回模型进行线上实时预测，为用户召回多兴趣媒体资源，如图12所示，其为本申请实施例提供的内容召回方法的实施流程图，可以包括以下步骤：

S31、获取用户的历史点击媒体资源特征。

具体实施时，服务端根据用户标识获取用户历史点击序列，历史点击序列包含指定数量的历史点击媒体资源，其中，指定数量可以自行设定，如可设置为100个或50个等，提取各历史点击媒体资源特征，还可获取用户的画像特征。

S32、将用户的历史点击媒体资源特征输入训练后的内容召回模型，获得用户的兴趣向量。

具体实施时，服务端将用户历史点击序列中的各个历史点击媒体资源特征输入训练后的内容召回模型中，获得用户的兴趣向量。或者服务端将用户历史点击序列中的各个历史点击媒体资源特征与获取的用户的画像特征输入训练后的内容召回模型中，获得用户的兴趣向量。

S33、将用户的兴趣向量与候选召回媒体资源执行注意力机制操作，获得用户的目标兴趣向量。

具体实施时，为了进一步提高召回效率，可以预先获得并缓存服务端全量的媒体资源特征向量，可采用Faiss(Facebook AI Similarity Search，相似向量检索库)索引服务器存储全量的媒体资源特征向量。并可对全量的媒体资源特征向量进行定时更新(例如，可以但不限于每30分钟更新一次)，全量媒体资源特征向量更新后，存储至Faiss索引服务器，并更新索引。其中，媒体资源特征向量可通过将媒体特征资源特征输入内容召回模型的向量层获得。

在实施时，服务端分别按照每一用户的兴趣向量召回相应的候选召回媒体资源，将每一候选召回媒体资源特征向量分别与用户的兴趣向量执行注意力机制操作，得到每一候选召回媒体资源对应的用户的目标兴趣向量。

具体地，针对每一用户的兴趣向量，服务端将该用户的兴趣向量与Faiss索引服务器中存储的各个媒体资源特征向量分别计算相似度(如可以计算余弦相似度)，将相似度最高的若干个媒体资源特征向量召回，作为该用户的兴趣向量的候选召回媒体资源特征向量。

例如，内容召回模型输出的用户的兴趣向量的数量为3个，分别为这3个用户的兴趣向量召回10个相应的候选召回媒体资源，这样，即召回30个候选召回媒体资源，针对每一个候选召回媒体资源，分别将该候选召回媒体资源特征向量与3个用户的兴趣向量执行注意力机制操作，得到该候选召回媒体资源对应的用户的目标兴趣向量，这样，30个候选召回媒体资源可得到对应的30个用户的目标兴趣向量。

S34、根据用户的目标兴趣向量与候选召回媒体资源计算得分，根据得分确定目标召回媒体资源。

具体实施时，服务端针对每一候选召回媒体资源，根据该候选召回媒体资源对应的用户的目标兴趣向量与该候选召回媒体资源特征向量的内积计算得分，将得分最高的前K个候选召回媒体资源确定为目标召回媒体资源。进而，可将目标召回媒体资源返回至粗排模块等，进行进一步的筛选。

示例性设备

在介绍了本申请示例性实施方式的内容召回模型的训练方法之后，接下来，对本申请示例性实施方式的内容召回模型的训练装置进行介绍。

如图13所示，为本申请实施例提供的内容召回模型的训练装置的结构示意图。内容召回模型的训练装置可以包括：

第一获取单元41，用于获取训练样本集；

训练单元42，用于根据预先建立的内容召回模型，针对所述样本集中的每一样本数据执行如下操作：将所述样本数据中的样本媒体资源特征、样本用户的历史点击媒体资源特征输入所述内容召回模型，输出所述样本媒体资源的预测分值；根据所述样本媒体资源的预测分值、所述样本用户针对所述样本媒体资源的操作行为标签以及预设的内容召回模型的损失函数，对所述内容召回模型的各参数进行迭代优化，直至所述内容召回模型收敛，得到训练后的内容召回模型，所述损失函数包括聚类损失和样本损失，所述聚类损失是根据生成的聚类中心向量与所述样本用户的历史点击媒体资源特征向量之间的类内距离、以及所述聚类中心向量之间的类间距离确定的。

在一种可能的实施方式中，所述装置，还包括：

第二获取单元，用于获取用户的历史点击媒体资源特征；

基于与上述内容召回模型的训练方法相同的发明构思，本申请实施例还提供了一种电子设备50。如图14所示，该电子设备50可以包括处理器501和存储器502。

处理器501可以是通用处理器，例如中央处理器(CPU)、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件，可以实现或者执行本申请实施例中公开的各内容召回模型的训练方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本申请实施例所公开的内容召回模型的训练方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

存储器502作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。存储器可以包括至少一种类型的存储介质，例如可以包括闪存、硬盘、多媒体卡、卡型存储器、随机访问存储器(Random Access Memory，RAM)、静态随机访问存储器(Static Random Access Memory，SRAM)、可编程只读存储器(Programmable Read Only Memory，PROM)、只读存储器(Read Only Memory，ROM)、带电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，EEPROM)、磁性存储器、磁盘、光盘等等。存储器是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。本申请实施例中的存储器502还可以是电路或者其它任意能够实现存储功能的装置，用于存储程序指令和/或数据。

应当注意，尽管在上文详细描述中提及了内容召回模型的训练装置的若干单元或子单元，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本申请的实施方式，上文描述的两个或更多单元的特征和功能可以在一个单元中具体化。反之，上文描述的一个单元的特征和功能可以进一步划分为由多个单元来具体化。

此外，尽管在附图中以特定顺序描述了本申请内容召回的训练方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

虽然已经参考若干具体实施方式描述了本申请的精神和原理，但是应该理解，本申请并不限于所公开的具体实施方式，对各方面的划分也不意味着这些方面中的特征不能组合以进行受益，这种划分仅是为了表述的方便。本申请旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。

Claims

1.一种内容召回模型的训练方法，其特征在于，包括：

获取训练样本集；

2.如权利要求1所述的方法，其特征在于，所述样本集中的样本数据包括正样本和负样本；所述样本集通过以下方式生成：

3.如权利要求2所述的方法，其特征在于，根据客户端请求的媒体资源特征、所述客户端的样本用户的历史点击媒体资源特征、以及所述客户端的样本用户针对请求的所述媒体资源的操作行为特征，获得候选样本，具体包括：

将所述各个目标媒体资源对应的样本确定为候选样本。

4.如权利要求1～3任一项所述的方法，其特征在于，所述内容召回模型包括向量层、兴趣抽取层和注意力层；

5.如权利要求4所述的方法，其特征在于，根据生成的各个聚类中心向量对所述样本用户的历史点击媒体资源特征向量进行聚类，获得所述样本用户的兴趣向量，具体包括：

6.如权利要求1所述的方法，其特征在于，所述方法，还包括：

获取用户的历史点击媒体资源特征；

7.一种内容召回模型的训练装置，其特征在于，包括：

第一获取单元，用于获取训练样本集；

8.如权利要求7所述的装置，其特征在于，所述样本集中的样本数据包括正样本和负样本；

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6任一项所述的内容召回模型的训练方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序指令，其特征在于，该计算机程序指令被处理器执行时实现权利要求1至6任一项所述的内容召回模型的训练方法的步骤。