CN113590958B - 基于样本回放的序列推荐模型的持续学习方法 - Google Patents
基于样本回放的序列推荐模型的持续学习方法 Download PDFInfo
- Publication number
- CN113590958B CN113590958B CN202110881540.5A CN202110881540A CN113590958B CN 113590958 B CN113590958 B CN 113590958B CN 202110881540 A CN202110881540 A CN 202110881540A CN 113590958 B CN113590958 B CN 113590958B
- Authority
- CN
- China
- Prior art keywords
- model
- sample
- article
- recommendation model
- sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 238000004364 calculation method Methods 0.000 claims abstract description 38
- 230000006870 function Effects 0.000 claims abstract description 23
- 238000004821 distillation Methods 0.000 claims abstract description 16
- 238000012549 training Methods 0.000 claims abstract description 11
- 238000005070 sampling Methods 0.000 claims abstract description 6
- 230000003993 interaction Effects 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 5
- 230000002452 interceptive effect Effects 0.000 claims description 4
- 238000011478 gradient descent method Methods 0.000 claims description 3
- 238000013528 artificial neural network Methods 0.000 abstract description 8
- 238000013135 deep learning Methods 0.000 description 4
- 238000013140 knowledge distillation Methods 0.000 description 4
- 238000013461 design Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000007418 data mining Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000011084 recovery Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 206010027175 memory impairment Diseases 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0631—Item recommendations
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Evolutionary Computation (AREA)
- Accounting & Taxation (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Finance (AREA)
- General Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Marketing (AREA)
- Economics (AREA)
- Development Economics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种基于样本回放的序列推荐模型的持续学习方法,涉及序列推荐技术领域,包括步骤一、构建序列推荐模型,利用初始数据对所述序列推荐模型进行训练;步骤二、基于物品类别平衡的样本选择策略对小部分具有代表性的范例样本进行采样;步骤三、对采样出来的范例样本进行软标签的计算与存储,以便参与下一次模型更新中参与蒸馏损失函数部分的计算;步骤四、利用所述序列推荐模型为用户提供准确的推荐服务,同时收集新周期内获得的新数据;步骤五、利用新周期内获得的新数据与之前存储的样本范例对所述序列推荐模型参数进行更新,有效解决了持续学习场景下使用神经网络序列推荐模型所面临灾难性遗忘的问题。
Description
技术领域
本发明涉及序列推荐技术领域,尤其涉及基于样本回放的序列推荐模型的持续学习方法。
背景技术
近年来,序列推荐系统的算法设计与实际应用的相关研究在学术界以及工业界均引起了广泛的关注。随着深度学习技术的引入与使用,基于深度学习的序列推荐算法相较于协同过滤,因子分解机等传统推荐算法而言具有更加强大的特征挖掘能力,因此能够有效地捕获与利用用户兴趣偏好的变化趋势,进而生成更为优质的推荐结果。
虽然现有的神经网络序列推荐模型已经取得了足够的成功,但是它们通常是在离线的状态下利用静态的数据集进行训练与测试。然而随着推荐模型在短视频推荐,互联网购物等实际在线业务场景上的部署应用,推荐系统面临着不断输入的新数据流,需要“不停地学习”。因此推荐系统模型需要利用每个更新周期中获得的新数据对模型参数进行更新,更新后的模型需要在下次模型更新前为用户提供有效的推荐结果。在持续学习场景下使用神经网络序列推荐模型所面临的一个主要的挑战是灾难性遗忘的问题,即持续学习过程中进行参数更新的模型极易忘记之前学习得到的用户偏好模式。
序列推荐模型是近年来学术界和工业界的研究热点之一。序列推荐任务的目标在于利用当前会话中用户的历史物品交互信息,利用推荐算法有效地学习用户偏好模式以及捕获用户兴趣偏好的变化趋势,进而对用户下一个时间刻可能感兴趣的物品进行预测。
如图1所示,在基于深度学习的序列推荐算法成为主流的今天,深度学习技术中的循环神经网络(RNN),卷积神经网络(CNN),以及感知器网络(Transformer)等网络结构被广泛应用于推荐模型算法的设计当中。目前最为先进的神经网络序列推荐模型是SASRec(Wang-Cheng Kang and Julian McAuley.2018.Self-attentive sequentialrecommendation.In 2018IEEE International Conference on Data Mining(ICDM).IEEE,197–206.)和NextItNet(Fajie Yuan,Alexandros Karatzoglou,IoannisArapakis,Joemon M Jose,and Xiangnan He.2019.A simple convolutional generativenetwork for next item recommendation.In Proceedings of the Twelfth ACMInternational Conference on Web Search and Data Mining.582–590.)。SASRec模型通过使用基于自注意力机制的感知器网络(Transformer)能够有效学习历史物品交互序列中隐含的复杂特征模式,生成更为优质的推荐结果。NextItNet模型则通过空洞卷积网络以及残差块结构的使用增大了模型的感受野,显著增强了推荐模型对于交互序列的建模能力。
如图2所示,现阶段的推荐模型持续学习方法主要是利用每个更新周期中获得的新数据对模型参数进行更新,在不改变模型结构的情况下利用更新后的模型对用户进行物品推荐直至下一次模型更新前。该种方法使得模型非常容易忘记之前学习所得的用户偏好模式,引发灾难性遗忘问题的出现。这将导致部署在持续学习场景下的推荐系统的推荐效果大打折扣。
发明内容
为了解决这个问题,本发明提出了一种基于样本回放的序列推荐模型的持续学习方法,通过引入一种基于物品类别平衡的样本选择策略方法对先前的训练样本进行合理采样,将采样所得的的样本通过知识蒸馏的方式周期性地回放到当前模型的训练中,有效解决了持续学习场景下使用神经网络序列推荐模型所面临灾难性遗忘的问题,具有十分重要的现实意义和广阔的应用前景。
本发明提出了一种基于样本回放的序列推荐模型的持续学习方法,
步骤一、构建序列推荐模型,利用初始数据对所述序列推荐模型进行训练;
步骤二、基于物品类别平衡的样本选择策略对小部分具有代表性的范例样本进行采样;
步骤三、对采样出来的范例样本进行软标签的计算与存储,以便参与下一次模型更新中参与蒸馏损失函数部分的计算;
步骤四、利用所述序列推荐模型为用户提供准确的推荐服务,同时收集新周期内获得的新数据;
步骤五、利用新周期内获得的新数据与之前存储的样本范例对所述序列推荐模型参数进行更新;
重复二、三、四、五、步骤。
优选地,所述利用初始数据对序列推荐模型进行训练具体包括:模型的输入为用户的历史物品交互序列,输出为下一个时间刻模型向用户推荐的物品,通过模型经过softmax层计算生成的推荐物品候选集的概率分布以及正确物品的独热编码进行交叉熵损失函数的计算,以梯度下降方法进行模型参数的更新。
优选地,所述基于物品类别平衡的样本选择策略对小部分具有代表性的范例样本进行采样具体包括:
获取输入的历史数据流其中xi为用户的历史物品交互序列,yi为真实的下一个时间刻物品类别;
判断内存空间是否仍有剩余,若内存空间仍有剩余,将{xi,yi}存放至内存中,若内存空间无剩余,计算内存中具有最多样本量的物品类别,更新满类集合;
若物品类别c≡yi不属于满类集合的物品类别中,从最大类中随机选择一个物品类别,随机删除一条该物品类别存储的样本,将{xi,yi}存放至内存;若物品类别c≡yi属于满类集合中的物品类别,计算当前内存中存储的物品类别c≡yi的样本数量mc,,并计算计算从i=1到现在为止所遇到的物品类别c≡yi的样本数量nc;
采样x~Uniform(0,1);
若随机选取一条内存中存储的物品类别c≡yi的样本,将其替换为{xi,yi};若/>忽略{xi,yi}。
优选地,对采样出来的范例样本需要进行软标签的计算存储,以便参与下一次模型更新时参与蒸馏损失函数部分的计算具体包括:将内存中存储样本以xj作为推荐模型输入,计算模型经过softmax层计算生成的推荐物品候选集的概率分布pj,存储
优选地,所述利用所述序列推荐模型为用户提供准确的推荐服务,同时收集新周期内获得的新数据具体包括:既可以通过交叉熵损失学习新数据中隐含的知识,也可以通过蒸馏损失避免模型遗忘之前学习所得的用户偏好约束,使得模型更新能够合理学习新数据与历史数据之间的差异,灵活处理不同阶段的新数据分布,生成更为优质的推荐结果。
优选地,利用新周期内获得的新数据与之前存储的样本范例对所述序列推荐模型参数进行更新具体包括:使用总损失函数。
优选地,所述总损失函数计算公式为:
Loss=Lossce+γ*Losskd,
其中其中sqrt是平方根计算,it是直至上一个更新周期遇到的物品种类数量,it′是至当前更新周期遇到的物品种类数量,其中it′≥it;
交叉熵损失函数计算公式为:
蒸馏损失函数计算公式为:
与现有技术相比,本发明所述的基于样本回放的序列推荐模型的持续学习方法,具有如下有益效果:
1.本发明提出了一种基于样本回放的序列推荐模型的持续学习方法,通过引入一种基于物品类别平衡的样本选择策略方法对先前的训练样本进行合理采样,将采样所得的样本通过知识蒸馏的方式周期性地回放到当前模型的训练中,解决了持续学习场景下使用神经网络序列推荐模型所面临灾难性遗忘的问题。
2.本专利所提的方法具有广阔的应用场景,弥补了序列推荐模型在持续学习场景下的研究空白。本发明所提基于样本回放的序列推荐模型的持续学习方法,使得推荐模型更新的时候既可以通过交叉熵损失学习新数据中隐含的知识,也可以通过蒸馏损失避免模型遗忘之前学习所得的用户偏好约束,使得模型更新能够合理学习新数据与历史数据之间的差异,灵活处理不同阶段的新数据分布,生成更为优质的推荐结果,具有十分重要的现实意义。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1为现有技术提供的提供的SASRec模型结构示意图。
图2为现有技术提供的序列推荐模型的持续学习方法流程图。
图3为本发明实施例提供的基于样本回放的序列推荐模型的持续学习方法流程图。
图4为本发明实施例提供的基于样本回放的序列推荐模型的持续学习方法另一流程图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
本发明技术方案主要针对解决灾难性遗忘问题,提出的是一种基于样本回放的序列推荐模型的持续学习方法,从历史数据中利用基于物品类别平衡的样本选择策略对小部分具有代表性的范例样本进行采样存储,在每次推荐模型参数更新时通过知识蒸馏技术回放存储的范例样本,使得模型更新的时候既可以通过交叉熵损失学习新数据中隐含的知识,也可以通过蒸馏损失避免模型遗忘之前学习所得的用户偏好约束。
我们将所提出的方法应用于SASRec等推荐模型上,方法在实现过程中可以分为以下六个步骤:
步骤一、构建序列推荐模型,利用初始数据对所述序列推荐模型进行训练;
步骤二、基于物品类别平衡的样本选择策略对小部分具有代表性的范例样本进行采样;
步骤三、对采样出来的范例样本进行软标签的计算与存储,以便参与下一次模型更新中参与蒸馏损失函数部分的计算;
步骤四、利用所述序列推荐模型为用户提供准确的推荐服务,同时收集新周期内获得的新数据;
步骤五、利用新周期内获得的新数据与之前存储的样本范例对所述序列推荐模型参数进行更新;
重复二、三、四、五、步骤。
本发明提出的序列推荐模型的持续学习方法适用于需要在持续学习场景下进行部署应用的各种基于神经网络的序列推荐模型,这充分体现了我们所提方法的灵活性和通用性。以下是本技术方案各个步骤的详细阐述:
步骤一:在搭建好SASRec模型之后,利用初始数据对SASRec模型进行初始训练。其中模型的输入为用户的历史物品交互序列,输出为下一个时间刻模型向用户推荐的物品,通过模型经过softmax层计算生成的推荐物品候选集的概率分布以及正确物品的独热编码进行交叉熵损失函数的计算,以梯度下降方法进行模型参数的更新。
步骤二:本发明提出一种基于物品类别平衡的样本选择策略,对历史数据中具有代表性的范例样本进行采样以便参与后续模型的训练。本发明提出的样本选择策略不需要任何有关输入数据流的先验知识以及有关其分布的假设,所存储的代表性范例样本能够在平衡历史数据中物品类别分布的同时,减轻物品类别不平衡给知识蒸馏的效果所带来的影响。在使用本发明的样本选择策略之前,需要设定一些概念。第一,“历史数据流”,其中xi为用户的历史物品交互序列,yi为真实的下一个时间刻物品类别,n是数据总量,历史数据流由上一个更新周期所获的的数据与存储的范例样本构成。第二,“内存空间无剩余”是指预先设置存储范例样本的内存容量m已被选取样本填充满。第三,“最大类”是指内存中当前具有最多样本数量的物品类别,允许同一时间有多个物品类别是最大类。第四,“满类”是指在该物品类别在这次样本选择过程中是或者曾经是“最大类”。
基于物品类别平衡的样本选择策略的详细算法流程如下:
算法:持续学习场景中的基于物品类别平衡的样本选择策略
输入:历史数据流其中xi为用户的历史物品交互序列,yi为真实的下一个时间刻物品类别;
预先设置存储范例样本的内存容量m,,其中m<<n,一开始为空
满类集合{},一开始为空。
1.对于i=1到n;
2.若内存空间仍有剩余:将{xi,yi}存放至内存中;
3.若内存空间无剩余;
4.计算内存中具有最多样本量的物品类别(最大类),更新满类集合;
5.若物品类别c≡yi不属于满类集合的物品类别中;
6.从最大类中随机选择一个物品类别,随机删除一条该物品类别存储的样本,将{xi,yi}存放至内存;
7.若物品类别c≡yi属于满类集合中的物品类别;
8.计算当前内存中存储的物品类别c≡yi的样本数量mc;
9.计算从i=1到现在为止所遇到的物品类别c≡yi的样本数量nc;
10.采样x~Uniform(0,1);
11.若随机选取一条内存中存储的物品类别c≡yi的样本,将其替换为{xi,yi};
12.若忽略{xi,yi}。
步骤三:对采样出来的范例样本需要进行软标签的计算存储,以便参与下一次模型更新时参与蒸馏损失函数部分的计算。因此将内存中存储样本以xj作为推荐模型输入,计算模型经过softmax层计算生成的推荐物品候选集的概率分布pj,存储
步骤四:利用序列推荐模型为用户提供准确的推荐服务,同时收集当前周期内获得的新数据。所述利用所述序列推荐模型为用户提供准确的推荐服务,同时收集新周期内获得的新数据具体包括:既可以通过交叉熵损失学习新数据中隐含的知识,也可以通过蒸馏损失避免模型遗忘之前学习所得的用户偏好约束,使得模型更新能够合理学习新数据与历史数据之间的差异,灵活处理不同阶段的新数据分布,生成更为优质的推荐结果。
步骤五:利用更新周期中获得的新数据与之前存储的样本范例对模型参数进行更新。以SASRec模型作为例子,目前用于参数更新的数据分为两部分,第一部分是更新周期中获得的新数据其中x′i为用户的历史物品交互序列,y′i为真实的下一个时间刻物品类别,n′是更新周期中获得的新数据的数据总量;第二部分是之前存储的样本范例因此模型的损失函数也分为两部分进行计算,第一部分是针对更新周期中获得的新数据计算模型经过softmax层计算生成的推荐物品候选集的概率分布p′i与真实的下一个时间刻物品类别y′i的交叉熵损失函数,计算公式为:/>第二部分则是针对之前存储的样本范例/>计算当前模型以xj作为输入经过softmax层计算生成的推荐物品候选集的概率分布p′j与pj之间的蒸馏损失函数:计算公式为:蒸馏损失函数的目标是度量上一次更新的模型与当前模型输出之间的差异,通过对差异程度进行惩罚以达到缓解灾难性遗忘的目的。综上所述,模型更新时使用的总损失函数计算公式为:Loss=Lossce+γ*Losskd,其中/>其中sqrt是平方根计算,it是直至上一个更新周期遇到的物品种类数量,it′是至当前更新周期遇到的物品种类数量,其中it′≥it。
步骤六:重复二,三,四,五步骤。
本发明提出的方法使得模型在持续学习场景下更新时能够合理学习新数据与历史数据之间的差异,灵活处理不同阶段的新数据分布,有效缓解了持续学习中常见的灾难性遗忘问题。
为了验证本发明所提出方法的有效性及先进性,我们在SASRec模型上应用本发明提出的基于样本回放的序列推荐模型的持续学习方法,在序列推荐系统持续学习领域公开数据集YOOCHOOSE数据集和DIGINETICA数据集上进行了广泛的实验,实验结果表明本发明所提出的基于样本回放的序列推荐模型的持续学习方法在模型性能,推荐准确性上都明显优于现有的技术方法,具有十分重要的现实意义和广阔的应用前景。
应该注意的是所述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若对本发明的这些修改和变型属于本发明权利要求及其同等技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (5)
1.一种基于样本回放的序列推荐模型的持续学习方法,其特征在于,包括:
步骤一、构建序列推荐模型,利用初始数据对所述序列推荐模型进行训练;
步骤二、获取输入的历史数据流其中xi为用户的历史物品交互序列,yi为真实的下一个时间刻物品类别,n为数据总量,i=1到n;
判断内存空间是否仍有剩余,若内存空间仍有剩余,将{xi,yi}存放至内存中,若内存空间无剩余,计算内存中具有最多样本量的物品类别,更新满类集合;
若物品类别c≡yi不属于满类集合的物品类别中,从最大类中随机选择一个物品类别,随机删除一条该物品类别存储的样本,将{xi,yi}存放至内存;若物品类别c≡yi属于满类集合中的物品类别,计算当前内存中存储的物品类别c≡yi的样本数量mc,并计算从i=1到现在为止所遇到的物品类别c≡yi的样本数量nc;
采样x~Uniform(0,1);
若随机选取一条内存中存储的物品类别c≡yi的样本,将其替换为{xi,yi};若忽略{xi,yi};
步骤三、对采样出来的范例样本进行软标签的计算与存储,以便参与下一次模型更新中参与蒸馏损失函数部分的计算;
总损失函数计算公式为:
Loss=Lossce+γ*Losskd
其中,其中sqrt是平方根计算,it是直至上一个更新周期遇到的物品种类数量,it′是至当前更新周期遇到的物品种类数量,其中it′≥it,m为预先设置的存储范例样本的内存容量,其中m<<n,n′是更新周期中获得的新数据的数据总量;
交叉熵损失函数计算公式为:
其中,n′是更新周期中获得的新数据的数据总量,yi′为真实的下一个时间刻物品类别,pi′为针对更新周期中获得的新数据计算模型经过softmax层计算生成的推荐物品候选集的概率分布;
蒸馏损失函数计算公式为:
其中,m为预先设置的存储范例样本的内存容量,其中m<<n,将内存中存储样本以xj作为推荐模型输入,计算模型经过softmax层计算生成的推荐物品候选集的概率分布pj,存储/>针对样本范例/>计算当前模型以xj作为输入经过softmax层计算生成的推荐物品候选集的概率分布pj′;
步骤四、利用所述序列推荐模型为用户提供准确的推荐服务,同时收集新周期内获得的新数据;
步骤五、利用新周期内获得的新数据与之前存储的样本范例对所述序列推荐模型参数进行更新;
重复二、三、四、五、步骤。
2.根据权利要求1所述的基于样本回放的序列推荐模型的持续学习方法,其特征在于,所述利用初始数据对序列推荐模型进行训练具体包括:模型的输入为用户的历史物品交互序列,输出为下一个时间刻模型向用户推荐的物品,通过模型经过softmax层计算生成的推荐物品候选集的概率分布以及正确物品的独热编码进行交叉熵损失函数的计算,以梯度下降方法进行模型参数的更新。
3.根据权利要求1所述的基于样本回放的序列推荐模型的持续学习方法,其特征在于,对采样出来的范例样本需要进行软标签的计算存储,以便参与下一次模型更新时参与蒸馏损失函数部分的计算具体包括:将内存中存储样本以xj作为推荐模型输入,计算模型经过softmax层计算生成的推荐物品候选集的概率分布pj,存储/>
4.根据权利要求1所述的基于样本回放的序列推荐模型的持续学习方法,其特征在于,所述利用所述序列推荐模型为用户提供准确的推荐服务,同时收集新周期内获得的新数据具体包括:既可以通过交叉熵损失学习新数据中隐含的知识,也可以通过蒸馏损失避免模型遗忘之前学习所得的用户偏好约束,使得模型更新能够合理学习新数据与历史数据之间的差异,灵活处理不同阶段的新数据分布,生成更为优质的推荐结果。
5.根据权利要求1所述的基于样本回放的序列推荐模型的持续学习方法,其特征在于,利用新周期内获得的新数据与之前存储的样本范例对所述序列推荐模型参数进行更新具体包括:使用总损失函数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110881540.5A CN113590958B (zh) | 2021-08-02 | 2021-08-02 | 基于样本回放的序列推荐模型的持续学习方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110881540.5A CN113590958B (zh) | 2021-08-02 | 2021-08-02 | 基于样本回放的序列推荐模型的持续学习方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113590958A CN113590958A (zh) | 2021-11-02 |
CN113590958B true CN113590958B (zh) | 2023-10-24 |
Family
ID=78253841
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110881540.5A Active CN113590958B (zh) | 2021-08-02 | 2021-08-02 | 基于样本回放的序列推荐模型的持续学习方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113590958B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115270002B (zh) * | 2022-09-23 | 2022-12-09 | 江苏亿友慧云软件股份有限公司 | 一种基于知识蒸馏的物品推荐方法、电子设备及存储介质 |
CN116522007B (zh) * | 2023-07-05 | 2023-10-20 | 中国科学技术大学 | 一种面向推荐系统模型的数据遗忘学习方法、装置及介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2000067159A2 (en) * | 1999-05-05 | 2000-11-09 | Xerox Corporation | System and method for searching and recommending documents in a collection using shared bookmarks |
CN111931057A (zh) * | 2020-08-18 | 2020-11-13 | 中国科学院深圳先进技术研究院 | 一种自适应输出的序列推荐方法和系统 |
CN112507209A (zh) * | 2020-11-10 | 2021-03-16 | 中国科学院深圳先进技术研究院 | 一种基于陆地移动距离进行知识蒸馏的序列推荐方法 |
CN112579883A (zh) * | 2020-11-24 | 2021-03-30 | 深圳大学 | 一种面向序列反馈的物品推荐方法、智能终端及存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11783436B2 (en) * | 2019-06-04 | 2023-10-10 | Visa International Service Association | Magellan: a context-aware itinerary recommendation system built only using card-transaction data |
-
2021
- 2021-08-02 CN CN202110881540.5A patent/CN113590958B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2000067159A2 (en) * | 1999-05-05 | 2000-11-09 | Xerox Corporation | System and method for searching and recommending documents in a collection using shared bookmarks |
CN111931057A (zh) * | 2020-08-18 | 2020-11-13 | 中国科学院深圳先进技术研究院 | 一种自适应输出的序列推荐方法和系统 |
CN112507209A (zh) * | 2020-11-10 | 2021-03-16 | 中国科学院深圳先进技术研究院 | 一种基于陆地移动距离进行知识蒸馏的序列推荐方法 |
CN112579883A (zh) * | 2020-11-24 | 2021-03-30 | 深圳大学 | 一种面向序列反馈的物品推荐方法、智能终端及存储介质 |
Non-Patent Citations (1)
Title |
---|
"基于隐式用户反馈数据流的实时个性化推荐";王智圣等;《计算机学报》;第52-64页 * |
Also Published As
Publication number | Publication date |
---|---|
CN113590958A (zh) | 2021-11-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3711000B1 (en) | Regularized neural network architecture search | |
CN111125537B (zh) | 一种基于图表征的会话推荐方法 | |
CN113590958B (zh) | 基于样本回放的序列推荐模型的持续学习方法 | |
CN112631717B (zh) | 基于异步强化学习的网络服务功能链动态部署系统及方法 | |
CN113590900A (zh) | 一种融合动态知识图谱的序列推荐方法 | |
CN110321291A (zh) | 测试案例智能提取系统及方法 | |
CN110032679B (zh) | 一种基于层次注意力网络的动态新闻推荐的方法 | |
CN114817663B (zh) | 一种基于类别感知图神经网络的服务建模与推荐方法 | |
CN112115352A (zh) | 基于用户兴趣的会话推荐方法及系统 | |
CN114265986B (zh) | 一种融合知识图谱结构与路径语义的信息推送方法和系统 | |
CN113094593B (zh) | 社交网络事件推荐方法、系统、设备及存储介质 | |
CN109189988A (zh) | 一种视频推荐方法 | |
CN112632296B (zh) | 基于知识图谱具有可解释性的论文推荐方法及系统、终端 | |
CN110489574A (zh) | 一种多媒体信息推荐方法、装置和相关设备 | |
CN116089883B (zh) | 用于提高已有类别增量学习新旧类别区分度的训练方法 | |
CN115168721A (zh) | 融合协同变换与时态感知的用户兴趣推荐方法及系统 | |
US20240037133A1 (en) | Method and apparatus for recommending cold start object, computer device, and storage medium | |
CN114282077A (zh) | 一种基于会话数据的会话推荐方法及系统 | |
Ghosh et al. | DiPS: Differentiable Policy for Sketching in Recommender Systems | |
CN114528490A (zh) | 一种基于用户长短期兴趣的自监督序列推荐方法 | |
Zhang et al. | A deep reinforcement learning algorithm for order acceptance decision of individualized product assembling | |
CN113377884A (zh) | 基于多智能体增强学习的事件语料库提纯方法 | |
CN111966889A (zh) | 一种图嵌入向量的生成方法以及推荐网络模型的生成方法 | |
CN112085524B (zh) | 一种基于q学习模型的结果推送方法和系统 | |
CN115470994B (zh) | 基于显式时间和级联注意力的信息流行度预测方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |