CN112381225A

CN112381225A - 优化未来性能的推荐系统重训练方法

Info

Publication number: CN112381225A
Application number: CN202011278089.XA
Authority: CN
Inventors: 何向南; 张洋; 冯福利; 王晨旭; 李岩; 张勇东
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2020-11-16
Filing date: 2020-11-16
Publication date: 2021-02-19

Abstract

本发明公开了一种优化未来性能的推荐系统重训练方法，包括：将当前时刻的基础模型参数输入至参数迁移模型，提取历史数据的知识并迁移到当前时刻的新数据中，固定参数迁移模型中的参数，并利用当前时刻的新数据输入到迁移模型中的输出计算损失，从而训练推荐系统，获得优化的基础模型参数；固定优化的基础模型参数，并输入至参数迁移模型，利用参数迁移模型输出的参数结合下一时刻的新数据来计算损失，从而训练参数迁移模型，获得优化的参数迁移模型参数；通过以上两步交替训练的方式，直至达到停止条件，获得训练好的推荐系统。该方法可以从任意旧模型中提取知识，使得训练中仅利用少量新数据也可以保留用户的长期兴趣并使得模型在未来达到最优。

Description

优化未来性能的推荐系统重训练方法

技术领域

本发明涉及机器学习技术领域，尤其涉及一种优化未来性能的推荐系统重训练方法。

背景技术

在真实推荐场景中，用户的兴趣会随时间而逐渐变化，因此为了保证推荐效果，往往需要对模型定时进行更新。传统的重训练方式直接将历史数据喂入模型，受算力制约往往只能使用短期历史数据，因此很容易在训练过程中使模型遗忘用户长期兴趣。

有部分研究从数据角度设计采样算法保存一部分历史数据，并与新数据进行混合对模型进行重训练，希望可以用部分历史数据覆盖用户的长期兴趣，防止遗忘发生。然而采样的方法并不能完整还原用户的长期兴趣，可能会遗漏重要的样本，并且经实验发现性能较用所有数据进行训练更差。而且采样的方式是启发式设计的，可能仅在某些场景有效。

对于上述传统方法，除了上述提到各自的优缺点外，它们还有一个通用的缺点，即缺乏对重训练的目标(在下一阶段表现优秀)进行显式的优化。

发明内容

本发明的目的是提供一种优化未来性能的推荐系统重训练方法，可以从任意旧模型中提取知识，使得训练中仅利用少量新数据也可以保留用户的长期兴趣并使得模型在未来达到最优。

本发明的目的是通过以下技术方案实现的：

一种优化未来性能的推荐系统重训练方法，包括：

将当前时刻的基础模型参数输入至参数迁移模型，从基础模型参数中提取历史数据中的知识并迁移到当前时刻的新数据中，固定参数迁移模型中的参数，并利用当前时刻的新数据输入到迁移模型中的输出计算损失，从而训练推荐系统，获得优化的基础模型参数；

固定优化的基础模型参数，并输入至参数迁移模型，利用参数迁移模型输出的参数结合下一时刻的新数据来计算损失，从而训练参数迁移模型，获得优化的参数迁移模型参数；

通过以上两步交替训练的方式，直至达到停止条件，获得训练好的推荐系统。

由上述本发明提供的技术方案可以看出，本发明建立了与模型无关的推荐系统重训练框架，利用从历史数据中提取知识的方式降低了计算成本，并且保证了性能。由于参数迁移模型的引入以及仿照Meta-Learning(元学习)思想设计的利用下一阶段数据引入训练的训练方式，可以通过新旧推荐模型的参数来实现历史数据中知识与新数据中的知识在不同推荐场景下的自适应的融合并优化了下一时间段的性能，达到了使模型不遗忘长期兴趣，同时不忽视短期兴趣的目的，最终保证了推荐性能不低于利用所有历史数据训练的方法，甚至在设定的情况下，采用了本方法的简单的传统的推荐系统，可以超越现阶段最优的推荐模型。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为本发明实施例提供的一种优化未来性能的推荐系统重训练方法的流程图；

图2为本发明实施例提供的参数迁移模型的示意图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

本发明实施例提供一种优化未来性能的推荐系统重训练方法，引入了用于从旧模型提取知识并迁移到新数据中的参数迁移模型，以及优化未来性能的基于持续元学习的训练方式(SML)，如图1所示，每一阶段的训练主要包括：

通过以上两步交替训练的方式，直至达到停止条件(即达到规定的训练次数或完全收敛)，获得训练好的推荐系统。

下面针对参数迁移模型以及训练方式做详细的介绍。

一、参数迁移模型。

如图2所示，所述参数迁移模型主要包括：输入层、卷积层与全连接层。

1、输入层。

所述输入层中输入参数包括：

其中，

表示推荐系统的基础模型参数，W_t-1表示上一时刻推荐系统训练阶段参数迁移模型的输出，⊙表示元素对应乘积，用来捕捉参数高阶尺度的变化信息。输入层中将W_t-1,

以及它们的元素对应乘积进行合并，成为一张二维图像，将

与W_t-1整形为1d的一维向量后结合

生成矩阵H₀∈R^3×d；具体来说，

与W_t-1整形为1d的一维向量后，保持不同的语义相同

与W_t-1的相同维度相对应，再进行如下操作：

其中，W_dot用来捕捉从W_t-1到

间的值增强与衰减趋势，ε为设定的常数(1e-10)，用来防止分母为0。

2、卷积层。

所述卷积层由多级串联卷积神经网络(CNN)构成，以H₀为输入，捕捉同维度的特征。

每一层卷积神经网络的计算过程相同；设第一层卷积神经网络的卷积核数目为n₁，第j个卷积核表示为F_j∈R^3×1，R表示实数集合；卷积核F_j从H₀的第一列一直滑动计算到最后一列，表示为：

其中，

表示H₀的第m列，GELU(Gaussian Error Linear Units)为激活函数，符号<>表示向量内积；

通过卷积核F_j能够捕捉到多样的信息，如果卷积核F_j为[1，-1，0]则能够捕捉到从W_t-1到

的梯度信息，如果卷积核F_j为[1，1，1]则能够捕捉到W_t-1与

中大小突出的数值信息；通过第一层后，得到的矩阵大小为n₁×d；之后卷积神经网络采样相同的原理进行操作，最终卷积层输出大小为n_L×d的张量，其中，n_L为第L层卷积神经网络的卷积核数目，L≥2为卷积神经网络的总层数。

3、全连接层。

全连接层由多层感知器(MLP)实现，将卷积层输出的张量进行合并操作，使其变为大小

的向量，通过多层多层感知器中，使其维度变回d。在全连接层中，仍可使用GELU作为每层间激活函数。

参数迁移模型需要训练的参数为卷积层部分以及全连接层部分，记为Θ。需要注意的是：(1)在实际使用中，模型的结构可以根据需要调整，如CNN层与全连接层的数目，可以按需调整。(2)需要对模型中不同种类的参数使用不同的迁移结构，例如在基于协同过滤的模型中，可以把用户及商品对应的的参数，分别用两组参数迁移模型来处理。

二、优化未来性能的基于持续元学习的训练方式(SML)。

本发明实施例中，整个训练流程有两个训练目标：(1)推荐模型的训练；(2)用于知识融合的参数迁移模型的训练。采用交替训练的方式，训练推荐模型时，固定其他参数，仅优化推荐模型的参数；训练参数迁移模型时，固定其他参数，仅优化参数迁移模型参数。

1、推荐模型的训练。

推荐模型的基础模型参数(参数迁移模型中

)的训练的目的是学习新收集数据中的知识。将新数据按时间划分为{D₀，...，D_t，...}，在当前时刻t，对于这部分训练，最简单的训练方式为直接在新数据集D_t中优化参数

但这种优化方式很可能会使得

不适合作为参数迁移模型的输入，因为参数迁移模型需要

W_t-1，以及最后的W_t在相同语义空间，所以可以将

输入参数迁移模型结构中，并以参数迁移模型输出的参数作为推荐系统的参数在新数据集D_t中计算损失(loss)，最终返过来通过梯度传播来仅优化基础模型参数

在这步训练中参数迁移模型参数Θ是固定的，参数W_t-1是之前训练好的模型参数也是固定的，则损失函数用公式可以表示为：

其中，L₀(x|D_t)为任意一种推荐系统中的损失函数，代表推荐系统以x为参数时，在新数据集合D_t的损失，

上式的第二项为正则项，λ₁为正则化参数；

之后，根据链式法则，计算损失函数关于基础模型参数

的梯度：

其中，

为偏导数符号；

根据计算得到的梯度信息，使用基于梯度的优化器(例如，Adam)实现对基础模型参数

的优化，优化得到的基础模型参数记为

通过这种训练方式，可以在保证基础模型参数

适合作为参数迁移模型的输入，同时实现对新数据集D_t中的知识的蒸馏。

2、参数迁移模型训练。

参数迁移模型的目的是融合历史的知识与新数据中的知识，对于不同的推荐场景，可能需要不同的融合方式，但是对于任一推荐场景所需要的是融合方式应当是对于下一阶段的推荐任务适合的。

考虑到实际应用场景中，当前时刻t通过上述优化后的基础模型参数

完成推荐任务，在进入t+1时刻时，能够得到新的数据集合D_t+1；因此，将当前时刻t优化得到的基础模型参数

输入至参数迁移模型，并结合t+1时刻的新数据集合D_t+1优化参数迁移模型的参数Θ，损失函数表示为：

其中，优化得到的基础模型参数

是关于参数迁移模型参数Θ的函数；所述参数迁移模型参数Θ包含了参数迁移模型中卷积层与全连接层的参数；L₀(x|D_t)为任意一种推荐系统中的损失函数，代表推荐系统以x为参数时，在新数据集合D_t的损失，

上式的第二项为正则项，λ₂为正则化参数；

为了计算效率，舍弃掉

导致的高阶梯度，因此，将更新优化得到的基础模型参数

视作定值，参数迁移模型参数Θ的梯度为：

其中，

为偏导数符号；

与上一步训练类似的，根据计算得到的梯度信息，使用基于梯度的优化器实现对参数迁移模型参数Θ的优化。

本发明实施例中，上述交替训练方式中，所涉及的参数

都相当于前文的参数

且上述交替训练方式参数W_t-1都为固定值。

以上训练过程可以总结为：

输入：数据集

T为数据集合总数

输出：推荐模型参数W_T，迁移模型参数Θ

随机初始化:W_-1,Θ

本发明实施例上述方案中，不直接利用历史的数据来提取包含在历史数据中的知识，而是利用之前的模型来提取历史数据中的知识，从而避免了保存大量的历史数据。同时，利用元学习方式以优化相邻时间性能作为内外层任务，以此来指导历史模型中的知识与新数据中知识进行融合，从而实现对于不同场景下的长期与短期用户兴趣自适应地融合。由于上述方案是模型无关的，可以应用到任何基于参数可求导的推荐模型中，为了验证结论，以矩阵分解模型(MF)为基础推荐模型，选取两个公开不同类型的数据集Yelp，Adressa进行实验，其中Yelp数据集更强调长期的兴趣，而Adressa是一个新闻数据集，具有很强的失效性，短期兴趣更重要。以Full-Retrain MF以及Caser作为对比模型。按照时间顺序将Yelp数据集划分为40份，将Adressa数据集划分为63份，到达时刻t时，在D_t中训练Caser及SML模型，在{D₀,D₁…,D_t}中训练Full-Retrain MF模型，并在D_t+1中进行测试。分别统计Yelp最后10个，Adressa最后15个阶段的平均性能，以Recall@20及NDCG@20作为度量，结果如表1所示。

表1不同方法在两个数据集上的性能比较

从表1中，可以发现：在两种不同类型的数据集上，本发明在所有指标都超越Full-RetrainMF，说明我们的发明可以利用更少的数据却可以获得更优的推荐效果，证明了我们提出方法的可以保留长期的兴趣。与SOTA推荐系统模型Caser比较，基于简单的MF推荐模型，使用SML重训练方法，就可以获得与Caser相近甚至更优的结果，进一步证明了本发明重训练方法的优越性。并且在两种不同类型的数据上，本发明的方法都可以获得优秀的结果，这说明了本发明的方法对于不同的推荐场景具有自适应性。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现，也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解，上述实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。