CN112381225A - 优化未来性能的推荐系统重训练方法 - Google Patents
优化未来性能的推荐系统重训练方法 Download PDFInfo
- Publication number
- CN112381225A CN112381225A CN202011278089.XA CN202011278089A CN112381225A CN 112381225 A CN112381225 A CN 112381225A CN 202011278089 A CN202011278089 A CN 202011278089A CN 112381225 A CN112381225 A CN 112381225A
- Authority
- CN
- China
- Prior art keywords
- parameters
- model
- parameter
- recommendation system
- migration model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种优化未来性能的推荐系统重训练方法,包括:将当前时刻的基础模型参数输入至参数迁移模型,提取历史数据的知识并迁移到当前时刻的新数据中,固定参数迁移模型中的参数,并利用当前时刻的新数据输入到迁移模型中的输出计算损失,从而训练推荐系统,获得优化的基础模型参数;固定优化的基础模型参数,并输入至参数迁移模型,利用参数迁移模型输出的参数结合下一时刻的新数据来计算损失,从而训练参数迁移模型,获得优化的参数迁移模型参数;通过以上两步交替训练的方式,直至达到停止条件,获得训练好的推荐系统。该方法可以从任意旧模型中提取知识,使得训练中仅利用少量新数据也可以保留用户的长期兴趣并使得模型在未来达到最优。
Description
技术领域
本发明涉及机器学习技术领域,尤其涉及一种优化未来性能的推荐系统重训练方法。
背景技术
在真实推荐场景中,用户的兴趣会随时间而逐渐变化,因此为了保证推荐效果,往往需要对模型定时进行更新。传统的重训练方式直接将历史数据喂入模型,受算力制约往往只能使用短期历史数据,因此很容易在训练过程中使模型遗忘用户长期兴趣。
有部分研究从数据角度设计采样算法保存一部分历史数据,并与新数据进行混合对模型进行重训练,希望可以用部分历史数据覆盖用户的长期兴趣,防止遗忘发生。然而采样的方法并不能完整还原用户的长期兴趣,可能会遗漏重要的样本,并且经实验发现性能较用所有数据进行训练更差。而且采样的方式是启发式设计的,可能仅在某些场景有效。
对于上述传统方法,除了上述提到各自的优缺点外,它们还有一个通用的缺点,即缺乏对重训练的目标(在下一阶段表现优秀)进行显式的优化。
发明内容
本发明的目的是提供一种优化未来性能的推荐系统重训练方法,可以从任意旧模型中提取知识,使得训练中仅利用少量新数据也可以保留用户的长期兴趣并使得模型在未来达到最优。
本发明的目的是通过以下技术方案实现的:
一种优化未来性能的推荐系统重训练方法,包括:
将当前时刻的基础模型参数输入至参数迁移模型,从基础模型参数中提取历史数据中的知识并迁移到当前时刻的新数据中,固定参数迁移模型中的参数,并利用当前时刻的新数据输入到迁移模型中的输出计算损失,从而训练推荐系统,获得优化的基础模型参数;
固定优化的基础模型参数,并输入至参数迁移模型,利用参数迁移模型输出的参数结合下一时刻的新数据来计算损失,从而训练参数迁移模型,获得优化的参数迁移模型参数;
通过以上两步交替训练的方式,直至达到停止条件,获得训练好的推荐系统。
由上述本发明提供的技术方案可以看出,本发明建立了与模型无关的推荐系统重训练框架,利用从历史数据中提取知识的方式降低了计算成本,并且保证了性能。由于参数迁移模型的引入以及仿照Meta-Learning(元学习)思想设计的利用下一阶段数据引入训练的训练方式,可以通过新旧推荐模型的参数来实现历史数据中知识与新数据中的知识在不同推荐场景下的自适应的融合并优化了下一时间段的性能,达到了使模型不遗忘长期兴趣,同时不忽视短期兴趣的目的,最终保证了推荐性能不低于利用所有历史数据训练的方法,甚至在设定的情况下,采用了本方法的简单的传统的推荐系统,可以超越现阶段最优的推荐模型。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明实施例提供的一种优化未来性能的推荐系统重训练方法的流程图;
图2为本发明实施例提供的参数迁移模型的示意图。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
本发明实施例提供一种优化未来性能的推荐系统重训练方法,引入了用于从旧模型提取知识并迁移到新数据中的参数迁移模型,以及优化未来性能的基于持续元学习的训练方式(SML),如图1所示,每一阶段的训练主要包括:
将当前时刻的基础模型参数输入至参数迁移模型,从基础模型参数中提取历史数据中的知识并迁移到当前时刻的新数据中,固定参数迁移模型中的参数,并利用当前时刻的新数据输入到迁移模型中的输出计算损失,从而训练推荐系统,获得优化的基础模型参数;
固定优化的基础模型参数,并输入至参数迁移模型,利用参数迁移模型输出的参数结合下一时刻的新数据来计算损失,从而训练参数迁移模型,获得优化的参数迁移模型参数;
通过以上两步交替训练的方式,直至达到停止条件(即达到规定的训练次数或完全收敛),获得训练好的推荐系统。
下面针对参数迁移模型以及训练方式做详细的介绍。
一、参数迁移模型。
如图2所示,所述参数迁移模型主要包括:输入层、卷积层与全连接层。
1、输入层。
所述输入层中输入参数包括:其中,表示推荐系统的基础模型参数,Wt-1表示上一时刻推荐系统训练阶段参数迁移模型的输出,⊙表示元素对应乘积,用来捕捉参数高阶尺度的变化信息。输入层中将Wt-1,以及它们的元素对应乘积进行合并,成为一张二维图像,将与Wt-1整形为1d的一维向量后结合生成矩阵H0∈R3×d;具体来说,与Wt-1整形为1d的一维向量后,保持不同的语义相同与Wt-1的相同维度相对应,再进行如下操作:
2、卷积层。
所述卷积层由多级串联卷积神经网络(CNN)构成,以H0为输入,捕捉同维度的特征。
每一层卷积神经网络的计算过程相同;设第一层卷积神经网络的卷积核数目为n1,第j个卷积核表示为Fj∈R3×1,R表示实数集合;卷积核Fj从H0的第一列一直滑动计算到最后一列,表示为:
通过卷积核Fj能够捕捉到多样的信息,如果卷积核Fj为[1,-1,0]则能够捕捉到从Wt-1到的梯度信息,如果卷积核Fj为[1,1,1]则能够捕捉到Wt-1与中大小突出的数值信息;通过第一层后,得到的矩阵大小为n1×d;之后卷积神经网络采样相同的原理进行操作,最终卷积层输出大小为nL×d的张量,其中,nL为第L层卷积神经网络的卷积核数目,L≥2为卷积神经网络的总层数。
3、全连接层。
参数迁移模型需要训练的参数为卷积层部分以及全连接层部分,记为Θ。需要注意的是:(1)在实际使用中,模型的结构可以根据需要调整,如CNN层与全连接层的数目,可以按需调整。(2)需要对模型中不同种类的参数使用不同的迁移结构,例如在基于协同过滤的模型中,可以把用户及商品对应的的参数,分别用两组参数迁移模型来处理。
二、优化未来性能的基于持续元学习的训练方式(SML)。
本发明实施例中,整个训练流程有两个训练目标:(1)推荐模型的训练;(2)用于知识融合的参数迁移模型的训练。采用交替训练的方式,训练推荐模型时,固定其他参数,仅优化推荐模型的参数;训练参数迁移模型时,固定其他参数,仅优化参数迁移模型参数。
1、推荐模型的训练。
推荐模型的基础模型参数(参数迁移模型中)的训练的目的是学习新收集数据中的知识。将新数据按时间划分为{D0,...,Dt,...},在当前时刻t,对于这部分训练,最简单的训练方式为直接在新数据集Dt中优化参数但这种优化方式很可能会使得不适合作为参数迁移模型的输入,因为参数迁移模型需要Wt-1,以及最后的Wt在相同语义空间,所以可以将输入参数迁移模型结构中,并以参数迁移模型输出的参数作为推荐系统的参数在新数据集Dt中计算损失(loss),最终返过来通过梯度传播来仅优化基础模型参数在这步训练中参数迁移模型参数Θ是固定的,参数Wt-1是之前训练好的模型参数也是固定的,则损失函数用公式可以表示为:
根据计算得到的梯度信息,使用基于梯度的优化器(例如,Adam)实现对基础模型参数的优化,优化得到的基础模型参数记为通过这种训练方式,可以在保证基础模型参数适合作为参数迁移模型的输入,同时实现对新数据集Dt中的知识的蒸馏。
2、参数迁移模型训练。
参数迁移模型的目的是融合历史的知识与新数据中的知识,对于不同的推荐场景,可能需要不同的融合方式,但是对于任一推荐场景所需要的是融合方式应当是对于下一阶段的推荐任务适合的。
考虑到实际应用场景中,当前时刻t通过上述优化后的基础模型参数完成推荐任务,在进入t+1时刻时,能够得到新的数据集合Dt+1;因此,将当前时刻t优化得到的基础模型参数输入至参数迁移模型,并结合t+1时刻的新数据集合Dt+1优化参数迁移模型的参数Θ,损失函数表示为:
其中,优化得到的基础模型参数是关于参数迁移模型参数Θ的函数;所述参数迁移模型参数Θ包含了参数迁移模型中卷积层与全连接层的参数;L0(x|Dt)为任意一种推荐系统中的损失函数,代表推荐系统以x为参数时,在新数据集合Dt的损失, 上式的第二项为正则项,λ2为正则化参数;
与上一步训练类似的,根据计算得到的梯度信息,使用基于梯度的优化器实现对参数迁移模型参数Θ的优化。
以上训练过程可以总结为:
输出:推荐模型参数WT,迁移模型参数Θ
随机初始化:W-1,Θ
本发明实施例上述方案中,不直接利用历史的数据来提取包含在历史数据中的知识,而是利用之前的模型来提取历史数据中的知识,从而避免了保存大量的历史数据。同时,利用元学习方式以优化相邻时间性能作为内外层任务,以此来指导历史模型中的知识与新数据中知识进行融合,从而实现对于不同场景下的长期与短期用户兴趣自适应地融合。由于上述方案是模型无关的,可以应用到任何基于参数可求导的推荐模型中,为了验证结论,以矩阵分解模型(MF)为基础推荐模型,选取两个公开不同类型的数据集Yelp,Adressa进行实验,其中Yelp数据集更强调长期的兴趣,而Adressa是一个新闻数据集,具有很强的失效性,短期兴趣更重要。以Full-Retrain MF以及Caser作为对比模型。按照时间顺序将Yelp数据集划分为40份,将Adressa数据集划分为63份,到达时刻t时,在Dt中训练Caser及SML模型,在{D0,D1…,Dt}中训练Full-Retrain MF模型,并在Dt+1中进行测试。分别统计Yelp最后10个,Adressa最后15个阶段的平均性能,以Recall@20及NDCG@20作为度量,结果如表1所示。
表1不同方法在两个数据集上的性能比较
从表1中,可以发现:在两种不同类型的数据集上,本发明在所有指标都超越Full-RetrainMF,说明我们的发明可以利用更少的数据却可以获得更优的推荐效果,证明了我们提出方法的可以保留长期的兴趣。与SOTA推荐系统模型Caser比较,基于简单的MF推荐模型,使用SML重训练方法,就可以获得与Caser相近甚至更优的结果,进一步证明了本发明重训练方法的优越性。并且在两种不同类型的数据上,本发明的方法都可以获得优秀的结果,这说明了本发明的方法对于不同的推荐场景具有自适应性。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解,上述实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。
Claims (5)
1.一种优化未来性能的推荐系统重训练方法,其特征在于,包括:
将当前时刻的基础模型参数输入至参数迁移模型,从基础模型参数中提取历史数据中的知识并迁移到当前时刻的新数据中,固定参数迁移模型中的参数,并利用当前时刻的新数据输入到迁移模型中的输出计算损失,从而训练推荐系统,获得优化的基础模型参数;
固定优化的基础模型参数,并输入至参数迁移模型,利用参数迁移模型输出的参数结合下一时刻的新数据来计算损失,从而训练参数迁移模型,获得优化的参数迁移模型参数;
通过以上两步交替训练的方式,直至达到停止条件,获得训练好的推荐系统。
2.根据权利要求1所述的一种优化未来性能的推荐系统重训练方法,其特征在于,所述参数迁移模型包括:输入层、卷积层与全连接层;其中:
所述输入层中输入参数包括:Wt-1,其中,表示推荐系统的基础模型参数,Wt-1表示上一时刻推荐系统训练阶段参数迁移模型的输出,,⊙表示元素对应乘积;将与Wt-1整形为1×d的一维向量后结合生成矩阵H0∈R3×d;
所述卷积层由多级串联卷积神经网络构成,每一层卷积神经网络的计算过程相同;设第一层卷积神经网络的卷积核数目为n1,第j个卷积核表示为Fj∈R3×1,R表示实数集合;卷积核Fj从H0的第一列一直滑动计算到最后一列,表示为:
通过卷积核Fj能够捕捉到多样的信息,如果卷积核Fj为[1,-1,0]则能够捕捉到从Wt-1到的梯度信息,如果卷积核Fj为[1,1,1]则能够捕捉到Wt-1与中大小突出的数值信息;通过第一层后,得到的矩阵大小为n1×d;最终卷积层输出大小为nL×d的张量,其中,nL为第L层卷积神经网络的卷积核数目,L≥2为卷积神经网络的总层数;
4.根据权利要求1所述的一种优化未来性能的推荐系统重训练方法,其特征在于,
将新数据按时间划分为{D0,...,Dt,...},在当前时刻t,将基础模型参数输入至参数迁移模型,并以参数迁移模型输出的参数Wt作为推荐系统的参数在新数据集合Dt中计算损失,再结合损失通过梯度传播来优化基础模型参数损失函数用公式表示为:
5.根据权利要求1或2或4所述的一种优化未来性能的推荐系统重训练方法,其特征在于,
其中,优化得到的基础模型参数是关于参数迁移模型参数Θ的函数;所述参数迁移模型参数Θ包含了参数迁移模型中卷积层与全连接层的参数;L0(x|Dt)为任意一种推荐系统中的损失函数,代表推荐系统以x为参数时,在新数据集合Dt的损失, 上式的第二项为正则项,λ2为正则化参数;
根据计算得到的梯度信息,使用基于梯度的优化器实现对参数迁移模型参数Θ的优化。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011278089.XA CN112381225A (zh) | 2020-11-16 | 2020-11-16 | 优化未来性能的推荐系统重训练方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011278089.XA CN112381225A (zh) | 2020-11-16 | 2020-11-16 | 优化未来性能的推荐系统重训练方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112381225A true CN112381225A (zh) | 2021-02-19 |
Family
ID=74584699
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011278089.XA Pending CN112381225A (zh) | 2020-11-16 | 2020-11-16 | 优化未来性能的推荐系统重训练方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112381225A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113780473A (zh) * | 2021-09-30 | 2021-12-10 | 平安科技(深圳)有限公司 | 基于深度模型的数据处理方法、装置、电子设备及存储介质 |
CN115455306A (zh) * | 2022-11-11 | 2022-12-09 | 腾讯科技(深圳)有限公司 | 推送模型训练、信息推送方法、装置和存储介质 |
-
2020
- 2020-11-16 CN CN202011278089.XA patent/CN112381225A/zh active Pending
Non-Patent Citations (1)
Title |
---|
YANG ZHANG等: "How to Retrain Recommender System? A Sequential Meta-Learning Method", 《ARXIV》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113780473A (zh) * | 2021-09-30 | 2021-12-10 | 平安科技(深圳)有限公司 | 基于深度模型的数据处理方法、装置、电子设备及存储介质 |
CN113780473B (zh) * | 2021-09-30 | 2023-07-14 | 平安科技(深圳)有限公司 | 基于深度模型的数据处理方法、装置、电子设备及存储介质 |
CN115455306A (zh) * | 2022-11-11 | 2022-12-09 | 腾讯科技(深圳)有限公司 | 推送模型训练、信息推送方法、装置和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6961727B2 (ja) | 関心点コピーの生成 | |
Shi et al. | Transductive semi-supervised deep learning using min-max features | |
CN109544306B (zh) | 一种基于用户行为序列特征的跨领域推荐方法及装置 | |
CN110619081B (zh) | 一种基于交互图神经网络的新闻推送方法 | |
CN109389151B (zh) | 一种基于半监督嵌入表示模型的知识图谱处理方法和装置 | |
CN110781401A (zh) | 一种基于协同自回归流实现的Top-n项目推荐方法 | |
CN109978836A (zh) | 基于元学习的用户个性化图像美感评价方法、系统、介质和设备 | |
CN112381225A (zh) | 优化未来性能的推荐系统重训练方法 | |
CN114036406A (zh) | 一种基于图对比学习和社交网络增强的推荐方法及系统 | |
CN112699310A (zh) | 基于深度神经网络的冷启动跨域混合推荐的方法及系统 | |
CN115867919A (zh) | 用于推荐系统的图结构感知增量学习 | |
CN112861006A (zh) | 融合元路径语义的推荐方法及系统 | |
CN112256971A (zh) | 一种序列推荐方法及计算机可读存储介质 | |
Jiang et al. | Few-shot learning in spiking neural networks by multi-timescale optimization | |
CN116542720A (zh) | 一种基于图卷积网络的时间增强信息序列推荐方法及系统 | |
CN114741507B (zh) | 基于Transformer的图卷积网络的引文网络分类模型建立及分类 | |
Cao et al. | Hyperspectral imagery classification based on compressed convolutional neural network | |
CN110674181B (zh) | 信息推荐方法、装置、电子设备及计算机可读存储介质 | |
CN115600017A (zh) | 特征编码模型训练方法及装置、媒体对象推荐方法及装置 | |
Jiang et al. | An intelligent recommendation approach for online advertising based on hybrid deep neural network and parallel computing | |
CN107341471A (zh) | 一种基于双层条件随机场的人体行为识别方法 | |
US20240037133A1 (en) | Method and apparatus for recommending cold start object, computer device, and storage medium | |
Farhadi et al. | Combining regularization and dropout techniques for deep convolutional neural network | |
CN116738983A (zh) | 模型进行金融领域任务处理的词嵌入方法、装置、设备 | |
CN110659962B (zh) | 一种商品信息输出方法及相关装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210219 |