CN116150504A

CN116150504A - 处理长尾分布的推荐方法、装置及计算机存储介质、终端

Info

Publication number: CN116150504A
Application number: CN202310406883.5A
Authority: CN
Inventors: 何英杰
Original assignee: Terminus Technology Group Co Ltd
Current assignee: Terminus Technology Group Co Ltd
Priority date: 2023-04-17
Filing date: 2023-04-17
Publication date: 2023-05-23
Anticipated expiration: 2043-04-17
Also published as: CN116150504B

Abstract

本发明提供一种处理长尾分布的推荐方法、装置及计算机存储介质、终端，属于数据分析技术领域。本发明的推荐方法包括：获取第一数据集与第二数据集，第一数据集包括双塔模型中用户侧与物品侧的所有交互对，第二数据集包括双塔模型中用户侧与物品侧交互次数低于交互次数阈值的交互对；基于第一数据集训练形成双塔模型中的第一网络模型，以得到第一模型参数；基于第二数据集形成双塔模型中的第二网络模型，以得到第二模型参数，第二模型参数向第一模型参数靠拢；对第一网络模型与第二网络模型加权处理，以得到用户对物品的偏爱分数。本发明尾部item训练的模型能够学习到首部item训练的参数，使得最终模型的输出结果在尾部也能获得不错的效果。

Description

处理长尾分布的推荐方法、装置及计算机存储介质、终端

技术领域

本发明属于人工智能技术领域，具体涉及一种处理长尾分布的推荐方法、装置及计算机存储介质、终端。

背景技术

目前常见的推荐方法为利用传统的双塔模型分别将用户特征编码和产品特征编码训练为用户向量和产品向量，再通过计算两个向量的相似度，来确定用户对产品的感兴趣程度，但是由于双塔模型中用户与产品缺少交互，从而无法保证产品推荐结果的准确性。

另外，还有的推荐系统虽然在用户侧与物品侧具有交互，但由于存在用户侧（user）和物品侧（item）之间交互存在长尾分布情况，一小部分的物品侧和用户侧存在大量的交互，而大量的物品侧和用户侧只有少量的交互，导致训练的模型很容易和头部item进行过拟合，即在模型在训练数据中效果良好，而在测试数据中的表现和训练数据中的表现差异很大，也就是说，在交互较少的item上表现不尽如意，最终导致头部文章会得到更多的曝光，热门文章变得更加热门。

目前迁移算法在处理这种具备长尾分布的数据的时候一般都是先在一个数据集上进行预训练，后面再在目标任务上进行微调，这种方法是假设源任务和目标任务的数据分布是一致的，但是在推荐系统中，热门item和冷门item之间的分布存在巨大的差异，因此使用这样的迁移学习方法在推荐任务中存在误差。

因此，针对上述问题，本发明提出一种新的处理长尾分布的推荐方法、装置及计算机存储介质、终端。

发明内容

本发明旨在至少解决现有技术中存在的技术问题之一，提供一种处理长尾分布的推荐方法、装置及计算机存储介质、终端。

本发明的一方面，提出一种处理长尾分布的推荐方法，包括下述步骤：

获取第一数据集与第二数据集，其中，所述第一数据集包括双塔模型中用户侧与物品侧的所有交互对，所述第二数据集包括所述双塔模型中用户侧与物品侧交互次数低于交互次数阈值的交互对；

基于所述第一数据集训练形成所述双塔模型中的第一网络模型，以得到第一模型参数；

基于所述第二数据集形成所述双塔模型中的第二网络模型，以得到第二模型参数，所述第二模型参数向所述第一模型参数靠拢；

对所述第一网络模型与所述第二网络模型加权处理，以得到用户对物品的偏爱分数。

可选的，所述基于所述第一数据集训练形成所述双塔模型中的第一网络模型，包括：

基于所述第一数据集，将用户侧与物品侧的特征输入所述第一网络模型，所述第一网络模型输出用户侧对物品侧的偏好得分；

使用第一目标函数学习同一用户对不同物品的偏好概率分布，公式如下：

；

其中，p(y _i|x _u;θ)表示同一用户对不同物品的偏好概率分布；

s(x_u,y _i;θ)表示第一网络模型，其中x _u为用户侧的输入参数，y _i为物品侧的输入参数，θ为第一网络模型最初参数；

所述第一目标函数的公式如下：

；

其中，

代表第一损失函数的损失值；

r(u,i)表示如下：

。

可选的，所述基于所述第二数据集训练形成所述双塔模型中的第二网络模型，包括：

基于所述第二数据集，将用户侧与物品侧的特征输入所述第二网络模型，所述第二网络模型输出用户侧对物品侧的偏好得分；

使用第二目标函数学习同一用户对不同物品的偏好概率分布；其中，

所述第二目标函数的公式如下：

；

其中，

代表第二损失函数的损失值；

表示/>

到第一网络模型中第一模型参数θ的距离，且θ为第一网络模型最初参数，/>

为第一网络模型学习之后的参数，w为第二模型参数；

；

表示正则化参数。

可选的，利用下述公式计算得到用户对物品的偏爱分数，具体如下：

；

其中，

表示偏爱分数；

表示正则化参数；/>

表示第一网络模型；

表示第二网络模型。

本发明的另一方面，提出一种处理长尾分布的推荐系统，包括：

数据获取模块，用于分别获取第一数据集与第二数据集，其中，所述第一数据集包括双塔模型中用户侧与物品侧的所有交互对，所述第二数据集包括所述双塔模型中用户侧与物品侧交互次数低于交互次数阈值的交互对；

第一模型形成模块，用于基于所述第一数据集训练形成双塔模型中的第一网络模型，以得到第一模型参数；

第二模型形成模块，用于基于所述第二数据集形成双塔模型中的第二网络模型，以得到第二模型参数，所述第二模型参数向所述第一模型参数靠拢；

偏爱分数获取模块，用于对所述第一网络模型与所述第二网络模型加权处理，以得到用户对物品的偏爱分数。

可选的，所述第一模型形成模块，具体还用于基于所述第一数据集，将用户侧与物品侧的特征输入所述第一网络模型，所述第一网络模型输出用户侧对物品侧的偏好得分；

；

s(x _u,y _i;θ)表示第一网络模型，其中的x _u为用户侧的输入参数，y _i为物品侧的输入参数，θ为第一网络模型最初参数；

所述第一目标函数的公式如下：

；

其中，

代表第一损失函数的损失值；

r(u,i)表示如下：

。

可选的，所述第二模型形成模块，具体还用于基于所述第二数据集，将用户侧与物品侧的特征输入所述第二网络模型，所述第二网络模型输出用户侧对物品侧的偏好得分；

所述第二目标函数的公式如下：

；

其中，

代表第二损失函数的损失值；

表示/>

到第一网络模型中第一模型参数的距离，θ为第一网络模型最初参数，/>

为第一网络模型学习之后的参数，w为第二模型参数；

；

表示正则化参数。

可选的，所述偏爱分数获取模块，具体还用于利用下述公式计算得到用户对物品的偏爱分数，具体如下：

；

其中，

表示偏爱分数；

表示正则化参数；

表示第一网络模型；

表示第二网络模型。

本发明的另一方面，提出一种计算机存储介质，所述计算机存储介质存储有多条指令，所述指令适于处理器加载并执行如前文记载所述的方法步骤。

本发明的另一方面，提出一种终端，包括处理器和存储器；其中，所述存储器存储有计算机程序，所述计算机程序适于由所述处理器加载并执行如前文记载的所述的方法步骤。

本发明提出一种处理长尾分布的推荐方法、系统以及一种计算机存储介质，在传统的双塔模型基础上，本发明引入了模型结构层面和数据层面的调整，不仅使得模型能够保证尾部item的效果，也能够保证首部item的推荐效果，使得最终模型的输出结果在尾部也能获得不错的效果。

附图说明

图1为本发明一实施例的处理长尾分布的推荐方法的流程框图；

图2为本发明另一实施例的双塔结构的结构示意图；

图3为本发明另一实施例的处理长尾分布的推荐系统的示意图。

具体实施方式

为使本领域技术人员更好地理解本发明的技术方案，下面结合附图和具体实施方式对本发明作进一步详细描述。显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于所描述的本发明的实施例，本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护范围。

除非另外具体说明，本发明中使用的技术术语或者科学术语应当为本发明所属领域内具有一般技能的人士所理解的通常意义。本发明中使用的“包括”或者“包含”等既不限定所提及的形状、数字、步骤、动作、操作、构件、原件和/或它们的组，也不排除出现或加入一个或多个其他不同的形状、数字、步骤、动作、操作、构件、原件和/或它们的组。此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示技术特征的数量与顺序。

如图1和图2所示，本发明的一方面，提出一种处理长尾分布的推荐方法S100，包括下述步骤S110～S140：

S110、获取第一数据集与第二数据集，其中，第一数据集包括双塔模型中用户侧与物品侧的所有交互对，所述第二数据集包括所述双塔模型中用户侧与物品侧交互次数低于交互次数阈值的交互对。

本实施例通过双塔模型的用户侧和物品侧的交互日志表生成两个训练数据集，分别为第一数据集D与第二数据集D_，其中，第一数据集D包含了所有的用户侧（user）和物品侧（item）的交互对，第二数据集D_包含了user和item的交互数据中交互次数低于交互次数阈值的交互对。也就是说，本实施例的第一数据集D和第二数据集D_中除了包含有交互的正样本外，还包含没有交互的负样本，对样本的生成不作具体限定，可以通过采样的方式进行，随机抽样user和item之间没有交互过的样本作为负样本。

需要说明的是，本实施例的交互次数阈值设为k，该k值是一个超函数，需要根据实际项目情况进行手动调整，即一个item最多只有k个交互对，多余k个交互对的随机截取k个。

S120、基于第一数据集训练形成双塔模型中的第一网络模型，以得到第一模型参数。

需要说明的是，本实施例的第一网络模型为基模型（Base-learning模型），其结构为一个全连接的神经网络。

具体地，先基于第一数据集训练形成第一网络模型，模型形成过程如下：首先学习一个基模型

，该基模型通过第一数据集D来进行训练，其中的输入参数为/>

和/>

，/>

和/>

分别为双塔模型中user和item的特征，/>

为基模型最初的参数，模型的输出表示user对item的偏好得分，此处可以用向量内积表示来表示，公式表示为：

；其中，/>

和/>

分别表示user和item经过模型之后的输出。

进一步地，本实施例将最终的推荐任务定义为一个多分类任务，使用softmax函数作为第一目标函数用来学习同一个用户对于不同的item的偏好的一个概率分布，如下述公式所示：

；

其中，p(y _i|x _u;θ)代表同一用户对不同物品的偏好概率分布；

s(x_u,y _i;θ)表示第一网络模型，其中x _u为用户侧的输入参数，y _i为物品侧的输入参数，θ为第一网络模型最初参数，即第一模型参数；

其次，第一目标函数（基分类器的损失函数）的公式如下所示：

；

其中，

代表第一损失函数的损失值；

r(u,i)表示如下：

。

本实施例通过梯度反向传播，最终可以获得第一网络模型（基模型）经过学习（梯度更新）之后获得的基模型参数

。

S130、基于第二数据集形成双塔模型中的第二网络模型，以得到第二模型参数，所述第二模型参数向所述第一模型参数靠拢。

需要说明的是，本实施例的第二网络模型为Meta-learning模型（学生网络模型），其结构与前文记载的基模型结构相同，都是全连接的神经网络，但是损失函数不同。

具体地，本实施例将第二网络模型的第二目标函数定义为

；

其中，

代表第二损失函数的损失值；

表示正则化参数，用于平衡两部分的损失；

，这部分和基模型的公式一样，只是它的数据来于第二数据集D_，由于这部分对应的第二数据集都是交互次数低于交互次数阈值k次的数据，因此，这部分主要是为了提高尾部item的表达能力；

表示/>

到第一网络模型中第一模型参数θ的距离，在这里，θ取Meta-learning模型的最后一层作为输入参数，即第一网络模型最初参数，/>

为经过学习之后获得的基模型参数，也取最后一层作为需要拟合的参数，w为学习到的学生网络模型参数，即需要学习到的参数。总的来说，/>

为一个全连接神经网络，/>

为输入参数，/>

为神经网络的第二模型参数，通过这一部分可以让第二网络模型（Meta-learning模型）学习到参数可以向第一网络模型（基模型）学习到的参数靠拢，该部分可以提高头部item的表达能力。另外，该部分中的/>

和/>

只取最后一层是为了减少模型最终需要学习的参数，提高模型的稳定性和鲁棒性。

应当理解的是，该步骤同样采用反向传播以对第二网络模型进行更新。

S140、对第一网络模型与第二网络模型加权处理，以得到用户对物品的偏爱分数。

具体地，通过上述步骤训练获得了最终的模型参数，本实施例还通过下述公式计算了用户对item的偏爱分数，具体公式如下所示：

；/>

其中，

表示用户对item的偏爱分数；

表示正则化参数；

表示第一网络模型；

表示第二网络模型。

本发明基于传统的双塔模型，在其基础上引入了模型结构层面和数据层面的调整，不仅使得模型能够保证尾部item的效果，也能够保证首部item的推荐效果。

如图2和图3所示，本发明的另一方面，提出一种处理长尾分布的推荐系统200，包括：数据获取模块210，用于分别获取第一数据集与第二数据集，其中，第一数据集包括双塔模型中用户侧与物品侧的所有交互对，第二数据集包括所述双塔模型中用户侧与物品侧交互次数低于交互次数阈值的交互对；第一模型形成模块220，用于基于第一数据集训练形成双塔模型中的第一网络模型，以得到第一模型参数；第二模型形成模块230，用于基于第二数据集形成双塔模型中的第二网络模型，以得到第二模型参数，第二模型参数向第一模型参数靠拢；偏爱分数获取模块240，用于对第一网络模型与第二网络模型加权处理，以得到用户对物品的偏爱分数。

需要说明的是，本实施例的第一数据集D包含了所有的user和item的交互对，数据集D_包含了user和item的交互数据中交互次数低于交互次数阈值k的交互对（即一个item最多只有k个交互对，多余k个交互队的随机截取k个，这里的k值可以根据实际情况调整）。也就是说，本实施例的第一数据集D和第二数据集D_中除了包含有交互的正样本外，还包含没有交互的负样本，对样本的生成不作具体限定，可以通过采样的方式进行，随机抽样user和item之间没有交互过的样本作为负样本。

进一步地，第一模型形成模块，具体还用于学习一个基模型

和/>

为user和item的特征，为基模型最初的参数，模型的输出表示user对item的偏好得分，此处可以用向量内积表示来表示，公式表示为：/>

；其中，/>

和/>

分布表示user和item经过模型之后的输出。之后，使用softmax函数作为最终的第一目标函数用来学习同一个用户对于不同的item的偏好的一个概率分布，如下述公式所示：

；

，s(x _u,y _i;θ)表示第一网络模型，其中的x _u为用户侧的输入参数，y _i为物品侧的输入参数，θ为第一网络模型最初参数，即第一模型参数；

第一目标函数的公式如下：

；/>

其中，

代表第一损失函数的损失值；

r(u,i)表示如下：

。

本实施例的第一模型形成模块通过梯度反向传播，最终可以获得第一网络模型的第一模型参数（基模型）经过学习（梯度更新）之后获得的基模型参数

。

更进一步地，第二模型形成模块，具体还用于基于第二数据集，将用户侧与物品侧的特征输入第二网络模型，第二网络模型输出用户侧对物品侧的偏好得分；使用第二目标函数学习同一用户对不同物品的偏好概率分布；其中，

第二目标函数的公式如下：

；

其中，

代表第二损失函数的损失值；

表示正则化参数，用于平衡两部分的损失；

表示/>

为经过学习之后获得的基模型参数，也取第二网络模型的最后一层作为需要拟合的参数，w为学习到的学生网络模型参数，即需要学习到的参数。总的来说，/>

为一个全连接神经网络，/>

为输入参数，/>

和/>

应当理解的是，本实施例的第二模型形成模块同样采用反向传播以对第二网络模型进行更新。

更进一步地，本实施例的偏爱分数获取模块，具体还用于利用下述公式计算得到用户对物品的偏爱分数，具体如下：

；

其中，

表示偏爱分数；

表示正则化参数；

表示第一网络模型；/>

表示第二网络模型。

本发明的推荐系统可以同时兼顾头部item和尾部item的训练，保证头部item和尾部item的效果，以提升推荐的准确度。

本发明的另一方面，提出一种计算机存储介质，该计算机存储介质存储有多条指令，指令适于处理器加载并执行前文记载的方法步骤。

需要说明的是，计算机存储介质可以是本发明的装置、设备、系统中所包含的，也可以是单独存在。

其中，计算机存储介质可是任何包含或存储程序的有形介质，其可以是电、磁、光、电磁、红外线、半导体的系统、装置、设备，更具体的例子包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、光纤、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件，或它们任意合适的组合。

另外，计算机存储介质也可包括在基带中或作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码，其具体的例子包括但不限于电磁信号、光信号，或它们任意合适的组合。

本发明的另一方面，提出一种终端，包括处理器和存储器；其中，所述存储器存储有计算机程序，所述计算机程序适于由所述处理器加载并执行如前文记载的方法步骤。

本发明提出一种处理长尾分布的推荐方法、系统以及一种计算机存储介质与终端，相对于现有技术具有以下有益效果：本发明在传统的双塔模型基础上，引入了模型结构层面和数据层面的调整，不仅使得模型能够保证尾部item的效果，也能够保证首部item的推荐效果，使得最终模型的输出结果在尾部也能获得不错的效果，具有较高的推荐准确度。

可以理解的是，以上实施方式仅仅是为了说明本发明的原理而采用的示例性实施方式，然而本发明并不局限于此。对于本领域内的普通技术人员而言，在不脱离本发明的精神和实质的情况下，可以做出各种变型和改进，这些变型和改进也视为本发明的保护范围。