CN113590958B

CN113590958B - 基于样本回放的序列推荐模型的持续学习方法

Info

Publication number: CN113590958B
Application number: CN202110881540.5A
Authority: CN
Inventors: 杨敏; 原发杰; 王李翰; 李成明; 姜青山
Original assignee: Shenzhen Institute of Advanced Technology of CAS
Current assignee: Shenzhen Institute of Advanced Technology of CAS
Priority date: 2021-08-02
Filing date: 2021-08-02
Publication date: 2023-10-24
Anticipated expiration: 2041-08-02
Also published as: CN113590958A

Abstract

本发明涉及一种基于样本回放的序列推荐模型的持续学习方法，涉及序列推荐技术领域,包括步骤一、构建序列推荐模型，利用初始数据对所述序列推荐模型进行训练；步骤二、基于物品类别平衡的样本选择策略对小部分具有代表性的范例样本进行采样；步骤三、对采样出来的范例样本进行软标签的计算与存储，以便参与下一次模型更新中参与蒸馏损失函数部分的计算；步骤四、利用所述序列推荐模型为用户提供准确的推荐服务，同时收集新周期内获得的新数据；步骤五、利用新周期内获得的新数据与之前存储的样本范例对所述序列推荐模型参数进行更新,有效解决了持续学习场景下使用神经网络序列推荐模型所面临灾难性遗忘的问题。

Description

基于样本回放的序列推荐模型的持续学习方法

技术领域

本发明涉及序列推荐技术领域，尤其涉及基于样本回放的序列推荐模型的持续学习方法。

背景技术

近年来，序列推荐系统的算法设计与实际应用的相关研究在学术界以及工业界均引起了广泛的关注。随着深度学习技术的引入与使用，基于深度学习的序列推荐算法相较于协同过滤，因子分解机等传统推荐算法而言具有更加强大的特征挖掘能力，因此能够有效地捕获与利用用户兴趣偏好的变化趋势，进而生成更为优质的推荐结果。

虽然现有的神经网络序列推荐模型已经取得了足够的成功，但是它们通常是在离线的状态下利用静态的数据集进行训练与测试。然而随着推荐模型在短视频推荐，互联网购物等实际在线业务场景上的部署应用，推荐系统面临着不断输入的新数据流，需要“不停地学习”。因此推荐系统模型需要利用每个更新周期中获得的新数据对模型参数进行更新，更新后的模型需要在下次模型更新前为用户提供有效的推荐结果。在持续学习场景下使用神经网络序列推荐模型所面临的一个主要的挑战是灾难性遗忘的问题，即持续学习过程中进行参数更新的模型极易忘记之前学习得到的用户偏好模式。

序列推荐模型是近年来学术界和工业界的研究热点之一。序列推荐任务的目标在于利用当前会话中用户的历史物品交互信息，利用推荐算法有效地学习用户偏好模式以及捕获用户兴趣偏好的变化趋势，进而对用户下一个时间刻可能感兴趣的物品进行预测。

如图1所示，在基于深度学习的序列推荐算法成为主流的今天，深度学习技术中的循环神经网络(RNN)，卷积神经网络(CNN)，以及感知器网络(Transformer)等网络结构被广泛应用于推荐模型算法的设计当中。目前最为先进的神经网络序列推荐模型是SASRec(Wang-Cheng Kang and Julian McAuley.2018.Self-attentive sequentialrecommendation.In 2018IEEE International Conference on Data Mining(ICDM).IEEE,197–206.)和NextItNet(Fajie Yuan,Alexandros Karatzoglou,IoannisArapakis,Joemon M Jose,and Xiangnan He.2019.A simple convolutional generativenetwork for next item recommendation.In Proceedings of the Twelfth ACMInternational Conference on Web Search and Data Mining.582–590.)。SASRec模型通过使用基于自注意力机制的感知器网络(Transformer)能够有效学习历史物品交互序列中隐含的复杂特征模式，生成更为优质的推荐结果。NextItNet模型则通过空洞卷积网络以及残差块结构的使用增大了模型的感受野，显著增强了推荐模型对于交互序列的建模能力。

如图2所示，现阶段的推荐模型持续学习方法主要是利用每个更新周期中获得的新数据对模型参数进行更新，在不改变模型结构的情况下利用更新后的模型对用户进行物品推荐直至下一次模型更新前。该种方法使得模型非常容易忘记之前学习所得的用户偏好模式，引发灾难性遗忘问题的出现。这将导致部署在持续学习场景下的推荐系统的推荐效果大打折扣。

发明内容

为了解决这个问题，本发明提出了一种基于样本回放的序列推荐模型的持续学习方法，通过引入一种基于物品类别平衡的样本选择策略方法对先前的训练样本进行合理采样，将采样所得的的样本通过知识蒸馏的方式周期性地回放到当前模型的训练中，有效解决了持续学习场景下使用神经网络序列推荐模型所面临灾难性遗忘的问题，具有十分重要的现实意义和广阔的应用前景。

本发明提出了一种基于样本回放的序列推荐模型的持续学习方法，

步骤一、构建序列推荐模型，利用初始数据对所述序列推荐模型进行训练；

步骤二、基于物品类别平衡的样本选择策略对小部分具有代表性的范例样本进行采样；

步骤三、对采样出来的范例样本进行软标签的计算与存储，以便参与下一次模型更新中参与蒸馏损失函数部分的计算；

步骤四、利用所述序列推荐模型为用户提供准确的推荐服务，同时收集新周期内获得的新数据；

步骤五、利用新周期内获得的新数据与之前存储的样本范例对所述序列推荐模型参数进行更新；

重复二、三、四、五、步骤。

优选地，所述利用初始数据对序列推荐模型进行训练具体包括：模型的输入为用户的历史物品交互序列，输出为下一个时间刻模型向用户推荐的物品，通过模型经过softmax层计算生成的推荐物品候选集的概率分布以及正确物品的独热编码进行交叉熵损失函数的计算，以梯度下降方法进行模型参数的更新。

优选地，所述基于物品类别平衡的样本选择策略对小部分具有代表性的范例样本进行采样具体包括：

获取输入的历史数据流其中x_i为用户的历史物品交互序列，y_i为真实的下一个时间刻物品类别；

判断内存空间是否仍有剩余，若内存空间仍有剩余，将{x_i,y_i}存放至内存中，若内存空间无剩余，计算内存中具有最多样本量的物品类别，更新满类集合；

若物品类别c≡y_i不属于满类集合的物品类别中，从最大类中随机选择一个物品类别，随机删除一条该物品类别存储的样本，将{x_i,y_i}存放至内存；若物品类别c≡y_i属于满类集合中的物品类别，计算当前内存中存储的物品类别c≡y_i的样本数量m_c，，并计算计算从i＝1到现在为止所遇到的物品类别c≡y_i的样本数量n_c；

采样x～Uniform(0,1)；

若随机选取一条内存中存储的物品类别c≡y_i的样本，将其替换为{x_i,y_i}；若/>忽略{x_i,y_i}。

优选地，对采样出来的范例样本需要进行软标签的计算存储，以便参与下一次模型更新时参与蒸馏损失函数部分的计算具体包括：将内存中存储样本以x_j作为推荐模型输入，计算模型经过softmax层计算生成的推荐物品候选集的概率分布p_j，存储

优选地，所述利用所述序列推荐模型为用户提供准确的推荐服务，同时收集新周期内获得的新数据具体包括：既可以通过交叉熵损失学习新数据中隐含的知识，也可以通过蒸馏损失避免模型遗忘之前学习所得的用户偏好约束，使得模型更新能够合理学习新数据与历史数据之间的差异，灵活处理不同阶段的新数据分布，生成更为优质的推荐结果。

优选地，利用新周期内获得的新数据与之前存储的样本范例对所述序列推荐模型参数进行更新具体包括：使用总损失函数。

优选地，所述总损失函数计算公式为：

Loss＝Loss_ce+γ*Loss_kd，

其中其中sqrt是平方根计算，it是直至上一个更新周期遇到的物品种类数量，it′是至当前更新周期遇到的物品种类数量，其中it′≥it；

交叉熵损失函数计算公式为：

蒸馏损失函数计算公式为：

与现有技术相比，本发明所述的基于样本回放的序列推荐模型的持续学习方法，具有如下有益效果：

1.本发明提出了一种基于样本回放的序列推荐模型的持续学习方法，通过引入一种基于物品类别平衡的样本选择策略方法对先前的训练样本进行合理采样，将采样所得的样本通过知识蒸馏的方式周期性地回放到当前模型的训练中，解决了持续学习场景下使用神经网络序列推荐模型所面临灾难性遗忘的问题。

2.本专利所提的方法具有广阔的应用场景，弥补了序列推荐模型在持续学习场景下的研究空白。本发明所提基于样本回放的序列推荐模型的持续学习方法，使得推荐模型更新的时候既可以通过交叉熵损失学习新数据中隐含的知识，也可以通过蒸馏损失避免模型遗忘之前学习所得的用户偏好约束，使得模型更新能够合理学习新数据与历史数据之间的差异，灵活处理不同阶段的新数据分布，生成更为优质的推荐结果，具有十分重要的现实意义。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1为现有技术提供的提供的SASRec模型结构示意图。

图2为现有技术提供的序列推荐模型的持续学习方法流程图。

图3为本发明实施例提供的基于样本回放的序列推荐模型的持续学习方法流程图。

图4为本发明实施例提供的基于样本回放的序列推荐模型的持续学习方法另一流程图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

本发明技术方案主要针对解决灾难性遗忘问题，提出的是一种基于样本回放的序列推荐模型的持续学习方法，从历史数据中利用基于物品类别平衡的样本选择策略对小部分具有代表性的范例样本进行采样存储，在每次推荐模型参数更新时通过知识蒸馏技术回放存储的范例样本，使得模型更新的时候既可以通过交叉熵损失学习新数据中隐含的知识，也可以通过蒸馏损失避免模型遗忘之前学习所得的用户偏好约束。

我们将所提出的方法应用于SASRec等推荐模型上，方法在实现过程中可以分为以下六个步骤：

重复二、三、四、五、步骤。

本发明提出的序列推荐模型的持续学习方法适用于需要在持续学习场景下进行部署应用的各种基于神经网络的序列推荐模型，这充分体现了我们所提方法的灵活性和通用性。以下是本技术方案各个步骤的详细阐述：

步骤一：在搭建好SASRec模型之后，利用初始数据对SASRec模型进行初始训练。其中模型的输入为用户的历史物品交互序列，输出为下一个时间刻模型向用户推荐的物品，通过模型经过softmax层计算生成的推荐物品候选集的概率分布以及正确物品的独热编码进行交叉熵损失函数的计算，以梯度下降方法进行模型参数的更新。

步骤二：本发明提出一种基于物品类别平衡的样本选择策略，对历史数据中具有代表性的范例样本进行采样以便参与后续模型的训练。本发明提出的样本选择策略不需要任何有关输入数据流的先验知识以及有关其分布的假设，所存储的代表性范例样本能够在平衡历史数据中物品类别分布的同时，减轻物品类别不平衡给知识蒸馏的效果所带来的影响。在使用本发明的样本选择策略之前，需要设定一些概念。第一，“历史数据流”，其中x_i为用户的历史物品交互序列，y_i为真实的下一个时间刻物品类别，n是数据总量，历史数据流由上一个更新周期所获的的数据与存储的范例样本构成。第二，“内存空间无剩余”是指预先设置存储范例样本的内存容量m已被选取样本填充满。第三，“最大类”是指内存中当前具有最多样本数量的物品类别，允许同一时间有多个物品类别是最大类。第四，“满类”是指在该物品类别在这次样本选择过程中是或者曾经是“最大类”。

基于物品类别平衡的样本选择策略的详细算法流程如下：

算法：持续学习场景中的基于物品类别平衡的样本选择策略

输入：历史数据流其中x_i为用户的历史物品交互序列，y_i为真实的下一个时间刻物品类别；

预先设置存储范例样本的内存容量m，,其中m＜＜n，一开始为空

满类集合{}，一开始为空。

1.对于i＝1到n；

2.若内存空间仍有剩余：将{x_i,y_i}存放至内存中；

3.若内存空间无剩余；

4.计算内存中具有最多样本量的物品类别(最大类)，更新满类集合；

5.若物品类别c≡y_i不属于满类集合的物品类别中；

6.从最大类中随机选择一个物品类别，随机删除一条该物品类别存储的样本，将{x_i,y_i}存放至内存；

7.若物品类别c≡y_i属于满类集合中的物品类别；

8.计算当前内存中存储的物品类别c≡y_i的样本数量m_c；

9.计算从i＝1到现在为止所遇到的物品类别c≡y_i的样本数量n_c；

10.采样x～Uniform(0,1)；

11.若随机选取一条内存中存储的物品类别c≡y_i的样本，将其替换为{x_i,y_i}；

12.若忽略{x_i,y_i}。

步骤三：对采样出来的范例样本需要进行软标签的计算存储，以便参与下一次模型更新时参与蒸馏损失函数部分的计算。因此将内存中存储样本以x_j作为推荐模型输入，计算模型经过softmax层计算生成的推荐物品候选集的概率分布p_j，存储

步骤四：利用序列推荐模型为用户提供准确的推荐服务，同时收集当前周期内获得的新数据。所述利用所述序列推荐模型为用户提供准确的推荐服务，同时收集新周期内获得的新数据具体包括：既可以通过交叉熵损失学习新数据中隐含的知识，也可以通过蒸馏损失避免模型遗忘之前学习所得的用户偏好约束，使得模型更新能够合理学习新数据与历史数据之间的差异，灵活处理不同阶段的新数据分布，生成更为优质的推荐结果。

步骤五：利用更新周期中获得的新数据与之前存储的样本范例对模型参数进行更新。以SASRec模型作为例子，目前用于参数更新的数据分为两部分，第一部分是更新周期中获得的新数据其中x′_i为用户的历史物品交互序列，y′_i为真实的下一个时间刻物品类别，n′是更新周期中获得的新数据的数据总量；第二部分是之前存储的样本范例因此模型的损失函数也分为两部分进行计算，第一部分是针对更新周期中获得的新数据计算模型经过softmax层计算生成的推荐物品候选集的概率分布p′_i与真实的下一个时间刻物品类别y′_i的交叉熵损失函数，计算公式为：/>第二部分则是针对之前存储的样本范例/>计算当前模型以x_j作为输入经过softmax层计算生成的推荐物品候选集的概率分布p′_j与p_j之间的蒸馏损失函数：计算公式为：蒸馏损失函数的目标是度量上一次更新的模型与当前模型输出之间的差异，通过对差异程度进行惩罚以达到缓解灾难性遗忘的目的。综上所述，模型更新时使用的总损失函数计算公式为：Loss＝Loss_ce+γ*Loss_kd，其中/>其中sqrt是平方根计算，it是直至上一个更新周期遇到的物品种类数量，it′是至当前更新周期遇到的物品种类数量，其中it′≥it。

步骤六：重复二，三，四，五步骤。

本发明提出的方法使得模型在持续学习场景下更新时能够合理学习新数据与历史数据之间的差异，灵活处理不同阶段的新数据分布，有效缓解了持续学习中常见的灾难性遗忘问题。

为了验证本发明所提出方法的有效性及先进性，我们在SASRec模型上应用本发明提出的基于样本回放的序列推荐模型的持续学习方法，在序列推荐系统持续学习领域公开数据集YOOCHOOSE数据集和DIGINETICA数据集上进行了广泛的实验，实验结果表明本发明所提出的基于样本回放的序列推荐模型的持续学习方法在模型性能，推荐准确性上都明显优于现有的技术方法，具有十分重要的现实意义和广阔的应用前景。

应该注意的是所述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若对本发明的这些修改和变型属于本发明权利要求及其同等技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于样本回放的序列推荐模型的持续学习方法，其特征在于，包括：

步骤二、获取输入的历史数据流其中x_i为用户的历史物品交互序列，y_i为真实的下一个时间刻物品类别，n为数据总量，i＝1到n；

若物品类别c≡y_i不属于满类集合的物品类别中，从最大类中随机选择一个物品类别，随机删除一条该物品类别存储的样本，将{x_i,y_i}存放至内存；若物品类别c≡y_i属于满类集合中的物品类别，计算当前内存中存储的物品类别c≡y_i的样本数量m_c，并计算从i＝1到现在为止所遇到的物品类别c≡y_i的样本数量n_c；

采样x～Uniform(0,1)；

若随机选取一条内存中存储的物品类别c≡y_i的样本，将其替换为{x_i,y_i}；若忽略{x_i,y_i}；

总损失函数计算公式为：

Loss＝Loss_ce+γ*Loss_kd

其中，其中sqrt是平方根计算，it是直至上一个更新周期遇到的物品种类数量，it′是至当前更新周期遇到的物品种类数量，其中it′≥it，m为预先设置的存储范例样本的内存容量，其中m<<n，n′是更新周期中获得的新数据的数据总量；

交叉熵损失函数计算公式为：

其中，n′是更新周期中获得的新数据的数据总量，y_i′为真实的下一个时间刻物品类别，p_i′为针对更新周期中获得的新数据计算模型经过softmax层计算生成的推荐物品候选集的概率分布；

蒸馏损失函数计算公式为：

其中，m为预先设置的存储范例样本的内存容量，其中m<<n，将内存中存储样本以x_j作为推荐模型输入，计算模型经过softmax层计算生成的推荐物品候选集的概率分布p_j，存储/>针对样本范例/>计算当前模型以x_j作为输入经过softmax层计算生成的推荐物品候选集的概率分布p_j′；

重复二、三、四、五、步骤。

2.根据权利要求1所述的基于样本回放的序列推荐模型的持续学习方法，其特征在于，所述利用初始数据对序列推荐模型进行训练具体包括：模型的输入为用户的历史物品交互序列，输出为下一个时间刻模型向用户推荐的物品，通过模型经过softmax层计算生成的推荐物品候选集的概率分布以及正确物品的独热编码进行交叉熵损失函数的计算，以梯度下降方法进行模型参数的更新。

3.根据权利要求1所述的基于样本回放的序列推荐模型的持续学习方法，其特征在于，对采样出来的范例样本需要进行软标签的计算存储，以便参与下一次模型更新时参与蒸馏损失函数部分的计算具体包括：将内存中存储样本以x_j作为推荐模型输入，计算模型经过softmax层计算生成的推荐物品候选集的概率分布p_j，存储/>

4.根据权利要求1所述的基于样本回放的序列推荐模型的持续学习方法，其特征在于，所述利用所述序列推荐模型为用户提供准确的推荐服务，同时收集新周期内获得的新数据具体包括：既可以通过交叉熵损失学习新数据中隐含的知识，也可以通过蒸馏损失避免模型遗忘之前学习所得的用户偏好约束，使得模型更新能够合理学习新数据与历史数据之间的差异，灵活处理不同阶段的新数据分布，生成更为优质的推荐结果。

5.根据权利要求1所述的基于样本回放的序列推荐模型的持续学习方法，其特征在于，利用新周期内获得的新数据与之前存储的样本范例对所述序列推荐模型参数进行更新具体包括：使用总损失函数。