CN114676851B

CN114676851B - 召回和排序模型的联合训练方法、设备和存储介质

Info

Publication number: CN114676851B
Application number: CN202210369500.7A
Authority: CN
Inventors: 连德富; 陈恩红; 黄旭
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2022-04-08
Filing date: 2022-04-08
Publication date: 2024-03-29
Anticipated expiration: 2042-04-08
Also published as: CN114676851A

Abstract

本发明涉及机器学习以及推荐系统领域，公开了一种召回和排序模型的联合训练方法、设备和存储介质。该方法通过依据召回模型的打分重采样高质量负样本训练排序模型，并优化召回和排序模型打分分布的KL散度来增强召回模型，设计出全新的基于采样的KL散度，加速模型收敛，联合训练召回和排序阶段的模型，提升了模型的效果。

Description

召回和排序模型的联合训练方法、设备和存储介质

技术领域

本发明涉及机器学习以及推荐系统领域，具体地，涉及一种推荐系统中召回和排序模型的联合训练方法。

背景技术

推荐系统作为一种在海量信息中快速帮助用户检索过滤的有效工具，它最需要关注的就是精准性和时效性。经典的推荐系统往往会有召回和排序两个过程，其中，召回过程用于从所有的物品中选出小部分样品，而排序过程则是在这小部分样品上进行打分和排序，给出一个有序的物品列表。一般情况下，召回过程采用的是一些时间复杂度低的算法，但损失了一部分准确性；而排序过程则更重视准确性，采取的算法往往时间复杂度更高。联合训练召回模型和排序模型是一种很自然的想法，然而，现有的技术往往都是独立训练二者或者以一种简单的方式联合的。因此，如何设计一种深度的高效联合训练方法是亟需解决的一个研究问题。

针对这个研究问题，研究者们提出了多种方式。其中，一种简单的做法是级联训练召回模型和排序模型。其中，召回模型先被训练好，而后利用召回模型选择的高分物品作为负样本去训练排序模型序。然而，这种方法会导致召回模型的效果不佳严重影响了排序模型的训练，最终导致算法效果大打折扣。

因此，亟需要一种高效的联合训练方法来解决上述难题。

发明内容

本发明的目的是提供一种召回和排序模型的联合训练方法，该方法使得排序模型得以利用高质量负样本进行更新，且召回模型可以学习更精确的排序模型的输出结果，达到了两部分模型互相增强的效果。

为了实现上述目的，本发明的第一方面提供了一种召回和排序模型的联合训练方法，该方法包括：

物品集合用表示；数据集用/>表示，每条数据均由二元组(c,k)构成，其中，c表示某个用户的交互上下文信息，k表示对应的正样本；模型由召回模型M_θ和排序模型R_φ构成，其中，θ和φ分别表示两部分模型的参数；对于一个上下文信息c和一个物品i，M_θ(i,c)表示召回模型基于上下文信息c对物品i的打分；

步骤1、对于上下文信息c，首先从某一静态分布Y(·)中采样一部分物品，组成样本池C，为样本池中每一个物品和正样本k，利用召回模型计算打分M(·,c)；基于此打分为样本池中每一个物品计算重要性采样的权重，计算公式如下：

根据该权重从采样池中进行有放回的重采样得到一个新的样本池S；

步骤2、在步骤1的基础上，利用根据召回模型打分重采样得到的样本作为负样本，使用如下的基于采样的损失函数用于排序模型的参数更新：

其中，Q₀(k|c)表示采样使用的分布；根据步骤1，此处取Q₀(i|c)＝Q_C∪{k}(i|c)；

步骤3、利用步骤2的损失对召回模型计算损失函数：

同时，将召回模型靠近排序模型的打分分布，用于提升召回模型的效果；

步骤4、根据步骤2和步骤3计算得到的两部分模型的损失函数，采用梯度下降法对两模型同时进行梯度回传以及参数迭代更新。

优选地，在步骤1中，设定新的样本池小于原样本池大小，且远小于物品集合的大小，即

优选地，当样本池C的大小趋于无穷时，即|C|→∞时，两阶段采样等价于从分布中采样。

优选地，在步骤3中，使用KL散度作为两个分布的距离度量，如下所示：

优选地，在步骤3中，采用修正的基于采样的KL散度计算方法，用于完成在全部物品上计算KL散度的近似，包括：

在基于分布Q₀(·|c)的采样下得到的集合S，定义其中，/> 证明在|S|趋于无穷大时，D_KL(P_S(·|c)||Q_S(·|c))收敛于D_KL(P(·|c)||Q(·|c))；此时，召回模型的损失函数由两部分组成，可表示为：

本发明的第二方面提供一种设备，该设备包括处理器及存储器；其中，存储器用于存储计算机程序，处理器用于根据计算机程序执行第一方面所述的召回和排序模型的联合训练方法。

本发明的第三方面提供一种计算机可读存储介质，该计算机可读存储介质用于存储计算机程序，计算机程序用于执行第一方面所述的召回和排序模型的联合训练方法。

根据上述技术方案，本发明以重要性重采样的方法作为召回模型对排序模型的增强；以知识过滤的方法作为排序模型对召回模型的增强，通过相互增强的方法实现了一种高效的联合训练方法。

本发明的其他特征和优点将在随后的具体实施方式部分予以详细说明。

具体实施方式

以下对本发明的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本发明，并不用于限制本发明。

本发明的第一方面提供了一种召回和排序模型的联合训练方法，该方法包括：

步骤1、对于上下文信息c，首先从某一静态分布Y(·)(如均匀分布Q(i)＝1/M)中采样一部分物品，组成样本池C，为样本池中每一个物品和正样本k，利用召回模型计算打分M(·,c)；基于此打分为样本池中每一个物品计算重要性采样的权重，计算公式如下：

实际应用时，在步骤1中，设定新的样本池小于原样本池大小，且远小于物品集合的大小，即

基于此，可以证明，当样本池C的大小趋于无穷时，即|C|→∞时，两阶段采样实际上等价于从分布中采样。

步骤3、利用步骤2的损失对召回模型计算损失函数：

同时，排序模型打分导出的物品分布往往更为准确，因此将召回模型靠近排序模型的打分分布则会提升召回模型的效果。此处使用KL散度作为两个分布的距离度量，如下所示：

然而，在全部物品上计算KL散度时间开销太大，使用一种修正的基于采样的KL散度计算方法可以完成近似，具体如下：

此外，本发明的第二方面提供一种设备，该设备包括处理器及存储器；其中，存储器用于存储计算机程序，处理器用于根据计算机程序执行第一方面所述的召回和排序模型的联合训练方法。

另外，本发明的第三方面提供一种计算机可读存储介质，该计算机可读存储介质用于存储计算机程序，计算机程序用于执行第一方面所述的召回和排序模型的联合训练方法。

以上详细描述了本发明的优选实施方式，但是，本发明并不限于上述实施方式中的具体细节，在本发明的技术构思范围内，可以对本发明的技术方案进行多种简单变型，这些简单变型均属于本发明的保护范围。

另外需要说明的是，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合，为了避免不必要的重复，本发明对各种可能的组合方式不再另行说明。

此外，本发明的各种不同的实施方式之间也可以进行任意组合，只要其不违背本发明的思想，其同样应当视为本发明所公开的内容。

Claims

1.一种召回和排序模型的联合训练方法，其特征在于，所述方法包括：

物品集合用表示；数据集用/>表示，每条数据均由二元组(c，k)构成，其中，c表示某个用户的交互上下文信息，k表示对应的正样本；模型由召回模型M_θ和排序模型R_φ构成，其中，θ和φ分别表示两部分模型的参数；对于一个上下文信息c和一个物品i，M_θ(i，c)表示召回模型基于上下文信息c对物品i的打分；

步骤1、对于上下文信息c，首先从某一静态分布Y(·)中采样一部分物品，组成样本池C，为样本池中每一个物品和正样本k，利用召回模型计算打分M(·，c)；基于此打分为样本池中每一个物品计算重要性采样的权重，计算公式如下：

步骤3、利用步骤2的损失对召回模型计算损失函数：

2.根据权利要求1所述的方法，其特征在于，在步骤1中，设定新的样本池小于原样本池大小，且远小于物品集合的大小，即

3.根据权利要求2所述的方法，其特征在于，当样本池C的大小趋于无穷时，即|C|→∞时，两阶段采样等价于从分布中采样。

4.根据权利要求1所述的方法，其特征在于，在步骤3中，使用KL散度作为两个分布的距离度量，如下所示：

5.根据权利要求1所述的方法，其特征在于，在步骤3中，采用修正的基于采样的KL散度计算方法，用于完成在全部物品上计算KL散度的近似，包括：

6.一种设备，其特征在于，所述设备包括处理器及存储器；其中，所述存储器用于存储计算机程序，所述处理器用于根据所述计算机程序执行权利要求1-5中任一项所述的召回和排序模型的联合训练方法。

7.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储计算机程序，所述计算机程序用于执行权利要求1-5中任一项所述的召回和排序模型的联合训练方法。