CN107909427A - 一种提升推荐模型时序数据挖掘能力的循环神经网络方法 - Google Patents

一种提升推荐模型时序数据挖掘能力的循环神经网络方法 Download PDF

Info

Publication number
CN107909427A
CN107909427A CN201711014934.0A CN201711014934A CN107909427A CN 107909427 A CN107909427 A CN 107909427A CN 201711014934 A CN201711014934 A CN 201711014934A CN 107909427 A CN107909427 A CN 107909427A
Authority
CN
China
Prior art keywords
time
user
model
neural network
lifting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711014934.0A
Other languages
English (en)
Inventor
祝宇
李�昊
蔡登�
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201711014934.0A priority Critical patent/CN107909427A/zh
Publication of CN107909427A publication Critical patent/CN107909427A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0631Item recommendations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Accounting & Taxation (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Finance (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Development Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种提升推荐模型时序数据挖掘能力的循环神经网络方法。该方法的步骤包括:步骤1,对传统神经网络进行基于时间门的网络改造;步骤2,将添加交互间隔时间的时序数据输入模型中;步骤3,计算得到模型在序列每一项上的预测值;步骤4,计算模型的损失值,若损失值低于预设值并趋于平稳则执行步骤6,否则执行步骤5;步骤5,根据损失值计算各个参数的梯度,并对参数进行更新,返回步骤3;步骤6,根据当前模型预测用户的兴趣。利用本发明能够提高神经网络在推荐领域对时间信息的挖掘能力,使模型更易于处理长期数据中所包含的长期的一般特征和短期的临时特征,在个性化推荐系统中尤为明显。

Description

一种提升推荐模型时序数据挖掘能力的循环神经网络方法
技术领域
本发明涉及机器学习以及个性化推荐领域,具体涉及一种提升推荐模型时序数据挖掘能力的循环神经网络方法。
背景技术
信息社会的快速发展积累了大量的数据,用户在互联网上产生的历史数据反映了其本身的兴趣爱好。这些数据给各个互联网厂商提供了预测用户兴趣并进行针对性推荐的可能。推荐系统是互联网厂商为用户推荐商品的有效方式,其准确性直接影响到厂商广告投入的回报率,以及用户的消费体验。
目前推荐系统已广泛地使用到商品、音乐、新闻等领域中。推荐模型多使用用户的购买记录寻找与其兴趣相似的其他用户,并利用其他用户的购买记录为该用户推荐新商品。然而这一过程并未利用到用户购买记录的时间信息,对用户兴趣在时间上的变化缺乏足够的支持。
传统的推荐模型通过构建用户-商品的评分矩阵来计算用户或商品之间的相似度,并通过相似度的高低进行推荐。这一方法中,时间信息是没有作用的,因此传统的推荐模型对用户兴趣在时间上的变化是不够敏感的。比如某一用户某段时间对从未接触的某类商品产生了兴趣,随着用户兴趣的产生、保持或者消失,其购买欲望通常带有明显的时间特征,因此,在推荐模型中使用时间信息来弥补推荐系统在利用时间上的空缺具备较高的创新性,并且对提升推荐系统的准确性也具有重要作用。
目前神经网络已被证明在多个领域内能够达到最佳的效果,使用神经网络构建推荐系统具备较高的可行性。长短时记忆模型(Long Short Term Memory,LSTM模型)是神经网络中利用时序信息的模型之一,但其同样未能直接利用序列数据中每一项发生的具体时间信息。因此如何改造现有的神经网络模型使其能够有效地处理时间信息是一个很有价值的问题。而利用改造后的神经网络模型来构建有效的推荐系统同样是一个十分具备挑战性的任务。
发明内容
本发明提供了一种提升推荐模型时序数据挖掘能力的循环神经网络方法,可以增强神经网络对时间的区分,使模型更易于处理长期数据中所包含的长期的一般特征和短期的临时特征,强化模型对用户的长期兴趣和短期兴趣的挖掘能力。
一种提升推荐模型时序数据挖掘能力的循环神经网络方法,包括以下步骤:
步骤1,选择一种神经网络,将时间门组件添加到该神经网络中,得到一个新的模型;
步骤2,根据用户时序数据发生的时间,创建有时间间隔属性的时序数据,将得到的数据输入模型中;
步骤3,计算模型的输出,得到模型在序列每一项上的预测值;
步骤4,根据步骤3得到的预测值和序列每一项的真实值计算模型的损失值,若损失值低于预设值并趋于平稳则执行步骤6,否则执行步骤5;
步骤5,根据损失值计算各个参数的梯度,并对参数进行更新,返回执行步骤3;
步骤6,根据当前模型预测用户的兴趣。
步骤1中,所述的神经网络是LSTM模型,LSTM模型是长短时记忆模型。所述的时间门的运算公式为:
Tm=σtΔt(ΔtmWtt)+xmWxt+bt)
其中,Δtm指用户浏览第m个商品与第m-1个商品之间的时间间隔,σΔt与σt表示两个不同的激活函数,通常使用sigmoid(S型生长曲线函数,输出值在0到1之间)和tanh(双曲正切函数,输出值在-1到1之间)作为激活函数,xm代表用户当前浏览的商品,Wxt,Wtt与bt则表示时间门需要学习的三个参数,Tm作为该结构的输出表示对时间信息的信息提取。
基于上述情况,可使用三种方式进行基于时间门的网络改造。
方式1使用一个时间门结构,该时间门有两个作用,分别是:通过控制输入数据的记忆强度来有效地对短期兴趣建模;通过同时考虑商品信息和时间间隔信息来有效地对长期兴趣建模。其输出结构公式为:
cm=fm⊙cm-1
+im⊙Tm⊙σc(xmWxc+hm-1Whc+bc),
om=σo(xmWxo
+ΔtmWto+hm-1Who+wco⊙cm+bo)
其中cm-1与cm分别表示前一时刻和当前时刻神经网络的记忆单元,⊙表示元素项对应乘法。fm和im则代表遗忘门和输入门,Tm表示时间门。σc与σo分别代表记忆单元和输出单元的激活函数。xm表示当前用户的输入。W*和b*则表示两式中各自需要学习的参数。最终,该结构输出om作为用户对商品兴趣的衡量分数。
方式2使用两个时间门结构,两个时间门公式为:
T1m=σ1Δt(ΔtmWt1)+xmWx1+b1),
s.t.Wt1<0,
T2m=σ2Δt(ΔtmWt2)+xmWx2+b2)
与方式1使用一个时间门来同时对长短期兴趣建模不同,方式2使用两个时间门来对长短期兴趣分别建模,其中运算公式T1m对应于短期兴趣,运算公式T2m对应于长期兴趣。这样做的好处是,可以根据长短期兴趣各自的特性来对时间门做定制化处理。比如,用户的短期兴趣大小与时间间隔的长短呈现相反的关系,因此我们在第一个时间门结构中增加了负系数的约束Wt1<0。
综合两个时间门结构之后的输出计算公式为:
cm=fm⊙cm-1
+im⊙T2m⊙σc(xmWxc+hm-1Whc+bc),
其中,前两个等式与方式1公式中的cm定义相同,修改下标仅供区分使用。直接用于当前商品的输出,cm则作为记忆单元,储存后供下一个输入项使用。此时,隐藏单元hm由当前的输出om以及对应的激活函数σh决定。
方式3与方式2相同,均使用两个时间门结构,但删除了LSTM原本的遗忘门。对于运算公式由于输入数据的记忆强度同时受到输入门im和时间门T1m的控制,遗忘门fm的功能与输入门im和时间门T1m产生了重复,因此fm被(1-im⊙Tm)所替代。对于运算公式cm,时间门T2m只起到存储时间信息的作用,输入数据的记忆强度只受到im的控制,因此fm被(1-im)所替代。将遗忘门删除能够在对模型准确率不产生严重影响的情况下节省模型在硬件资源的消耗。删除遗忘门之后的输出为:
cm=(1-im)⊙cm-1
+im⊙T2m⊙σc(xmWxc+hm-1Whc+bc)
上式中,参数与方式2中的各项参数分别对应。
步骤2中,所述的时序数据根据用户ID与商品名称,将用户与商品都转化为离散的整数值后建立索引表,在用户的历史信息记录中,将用户的每一次购买、浏览行为视为一次有效操作,通过索引表将用户的浏览记录转化为一系列索引的列表。所述的时间间隔属性是根据用户的操作记录,计算用户每一次有效操作之间的时间差,从而得到用户浏览每一件商品之间的间隔时间。
步骤3中,所述的模型的输出为用户对所有商品的感兴趣程度的评估分数,所述的预测值为评估分数最高的商品。
步骤4中,所述损失值计算方式为,将所有项的预测值和对应的真实值分别进行对比,预测成功,则损失记为0,预测失败,则损失记为1,对所有项的损失取平均即得到模型的损失值。所述预设值跟数据集相关,在我们的实验中,我们将预设值设为0.2。
本发明使用时间门组件来使用时间信息,根据浏览历史与时间信息判断用户的兴趣变化;利用时间长短遗忘旧的兴趣。
利用时间门组件的上述功能,能够使模型对用户的兴趣变化进行记录,从而使得预测结果集中在用户当前的兴趣上。利用本发明能够提高神经网络在推荐领域对时间信息的挖掘能力,提高推荐的准确性。
附图说明
图1为本发明提升推荐模型时序数据挖掘能力的循环神经网络方法的流程图;
图2为基本的LSTM模型结构图;
图3为Time-LSTM1模型结构图;
图4为Time-LSTM2模型结构图;
图5为Time-LSTM3模型结构图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将使用LSTM等循环神经网络结构与时间门相结合的模型(为叙述方便,后文将使用Time-LSTM指代该结合模型)来对时间门在具体功能方面作进一步的描述。
如图1所示,为本发明提升推荐模型时序数据挖掘能力的循环神经网络方法的流程图。
首先按照步骤1,修改传统的神经网络,添加时间门组件到该网络中。
为了修改传统的神经网络,首先对其基本模型进行简要的概述。如图2所示,基本的LSTM模型具有三种门结构:输入门,遗忘门,输出门。
输入门:输入门的作用就是决定有多少新记忆将和老记忆进行合并。输入门由当前时刻的输入x、前一时刻的输出h、前一时刻的记忆c共同决定的。
遗忘门:遗忘门用于忘记旧的历史信息对未来的影响。遗忘门和输入门的决定因素相同。
输出门:输出门决定着LSTM单元对外界的响应。输出门的决定因素和输入门、遗忘门的决定因素相同。
LSTM对时间的利用主要受三个门单元控制,具体来说,LSTM的输出是由当前时刻合并后的新记忆通过激活函数激活后与输出门进行相乘而得到的。当前时刻的输出是提供给外界的输出以及影响下一时刻提供新的记忆信息。
时间门的运算公式为:
Tm=σtΔt(ΔtmWtt)+xmWxt+bt)
式中Δtm指用户浏览第m个商品与第m-1个商品之间的时间间隔。σΔt与σt表示两个不同的激活函数,通常使用sigmoid(S型生长曲线函数,输出值在0到1之间)和tanh(双曲正切函数,输出值在-1到1之间)作为激活函数。xm代表用户当前浏览的商品。Wxt,Wtt与bt则表示时间门需要学习的三个参数。最终,Tm作为该结构的输出表示对时间信息的信息提取。
基于上述情况,可使用三种方式进行基于时间门的网络改造。
方式1为Time-LSTM 1,使用一个时间门结构,如图3所示,该时间门有两个作用,分别是:通过控制输入数据的记忆强度来有效地对短期兴趣建模;通过同时考虑商品信息和时间间隔信息来有效地对长期兴趣建模。其输出结构公式为:
cm=fm⊙cm-1
+im⊙Tm⊙σc(xmWxc+hm-1Whc+bc),
om=σo(xmWxo
+ΔtmWto+hm-1Who+wco⊙cm+bo)
其中cm-1与cm分别表示前一时刻和当前时刻神经网络的记忆单元,⊙表示元素项对应乘法。fm和im则代表遗忘门和输入门,Tm表示时间门。σc与σo分别代表记忆单元和输出单元的激活函数。xm表示当前用户的输入。W*和b*则表示两式中各自需要学习的参数。最终,该结构输出om作为用户对商品兴趣的衡量分数。
方式2为Time-LSTM 2,使用两个时间门结构,如图4所示,两个时间门公式为:
T1m=σ1Δt(ΔtmWt1)+xmWx1+b1),
s.t.Wt1<0,
T2m=σ2Δt(△tmWt2)+xmWx2+b2)
与方式1使用一个时间门来同时对长短期兴趣建模不同,方式2使用两个时间门来对长短期兴趣分别建模,其中运算公式T1m对应于短期兴趣,运算公式T2m对应于长期兴趣。这样做的好处是,可以根据长短期兴趣各自的特性来对时间门做定制化处理。比如,用户的短期兴趣大小与时间间隔的长短呈现相反的关系,因此我们在第一个时间门结构中增加了负系数的约束Wt1<0。
综合两个时间门结构之后的输出计算公式为:
cm=fm⊙cm-1
+im⊙T2m⊙σc(xmWxc+hm-1Whc+bc),
其中,前两个等式与方式1中公式中的cm定义相同,修改下标仅供区分使用。直接用于当前商品的输出。cm则作为记忆单元,储存后供下一个输入项使用。此时,隐藏单元hm由当前的输出om以及对应的激活函数σh决定。
方式3为Time-LSTM 3,如图5所示。与方式2相同,方式3使用两个时间门结构,但删除了LSTM原本的遗忘门。对于运算公式由于输入数据的记忆强度同时受到输入门im和时间门T1m的控制,遗忘门fm的功能与输入门im和时间门T1m产生了重复,因此fm被(1-im⊙Tm)所替代。对于运算公式cm,时间门T2m只起到存储时间信息的作用,输入数据的记忆强度只受到im的控制,因此fm被(1-im)所替代。将遗忘门删除能够在对模型准确率不产生严重影响的情况下节省模型在硬件资源的消耗。删除遗忘门之后的输出为:
cm=(1-im)⊙cm-1
+im⊙T2m⊙σc(xmWxc+hm-1Whc+bc)
上式中,参数与方式2中的各项参数分别对应。
在对模型进行改造后,根据步骤2,对用户的数据进行预处理,得到用户每个行为交互之间的间隔时间,作为后续模型的输入。
之后进入步骤3,计算模型的输出数据。Time-LSTM模型本身是神经网络的一层,需要与其他不同的结构结合使用。通常,用于LSTM训练的神经网络模型至少还需要包括Softmax(柔性最大激活函数)分类层。分类层的作用在于衡量用户对任一商品感兴趣的程度,给出相应的分数。以Softmax层为例,该模型最终输出为某一个用户对所有商品的感兴趣程度的评估分数。分数越高则代表用户对该商品感兴趣的程度越大。
通过上述步骤仅仅得到模型一次评估的结构,若希望模型能够进行学习,还需要执行步骤4,计算模型的损失值。在该过程中,我们使用已知的用户数据(如用户对商品A,B最感兴趣),以及模型对用户兴趣的预测(如用户对A,C最感兴趣)。通过预测值和真实值的差别,衡量模型预测失败造成的损失(如预测用户对B感兴趣失败,损失记为1)。
完成步骤4后,模型得到所有预测结果的损失,对所有项的损失取平均即得到模型的损失值,如果损失值低于预设值(预设值跟数据集相关,在我们的实验中,我们将预设值设为0.2)并趋于平稳,即说明:目前模型预测结果较为准确,满足了任务的要求,无需更进一步的学习,执行步骤6。否则,模型的预测结果准确率较低,无法满足需求,需要继续进行训练,执行步骤5。
在步骤5中,模型当前的预测准确率无法满足需求,即模型的参数无法准确抽取用户的兴趣特征。那么,根据步骤4中得到的损失值,可以计算出每个参数对当前的输出产生的误差。根据该误差修改对应的参数,则可以在下一次预测任务中得到与真实值更加贴近的结果。
步骤6,在该过程中,模型已经训练完毕,其预测准确率能够满足任务需求,可以将该模型用于预测用户的需求了。
为了控制模型的实现细节,Time-LSTM使用了超参数来控制模型结构,这些参数无法通过模型的训练过程自动习得,但对模型准确率的影响却很重要。超参数的设置需要根据数据、任务、计算资源等多方面综合考虑来进行设计。Time-LSTM主要具有以下超参数。
隐藏单元的数量:该参数控制模型的Time-LSTM层的隐藏单元的数量,该参数数值越大则模型的复杂度越高。复杂度高的模型能够拟合更加复杂的数据,能够在一定程度上提高预测准确度。但与之对应的,模型的训练与预测将更加耗时,模型参数也将更加占用空间。
推荐商品总数:该参数控制模型能够推荐的商品总数,影响到最后Softmax层输出的分类数量。同时,由于模型使用了1-Hot(独热)向量,该参数的数值大小同样对模型的大小有很大影响。从推荐系统角度来说,推荐商品的总数越大,该推荐系统对商品的挖掘能力越高,推荐的准确率则可能会降低。考虑到硬件资源的限制,模型应在满足硬件能力的情况下尽可能提高该参数的数值。
截断长度:由于存在用户的浏览记录过长的现象,这部分数据有较大概率属于异常数据(用户无人挂机,爬虫抓取产生的数据)。该部分数据对模型的准确率贡献有限甚至产生负面效果,并且在批量数据中由于数据补全增大了许多不必要的硬件资源消耗,因此需要设置截断长度。当模型读取到的用户历史数据超过某一数值时,过长的数据将会被截断,仅仅使用前部分数据训练模型。
初始化权重参数:模型中可训练的权重需要进行初始化,不同的初始化方法同样对模型的准确率存在影响。
为了证实该模型的有效性,我们在CiteULike(一个网页收藏网站)和Last.FM(一个音乐收藏网站)提供的公开数据集上比较不同模型方法的推荐效果。具体地,我们设置了以下实验:
实验1,不同方法之间的比较。使用现有的推荐模型如CoOccur+BPR(CoOccur是一种短期兴趣建模模型,BPR是一种长期兴趣建模模型),Session-RNN(Session-RNN也是一种短期兴趣建模模型),基本的LSTM模型,将时间信息作为输入的LSTM模型,利用时间信息的Phased LSTM模型(一种较新的LSTM变种模型),以及Time-LSTM模型分别进行实验,比较推荐效果。
实验2,在Time-LSTM模型中,一次删除某个结构,比较前后的准确率变化,观察被删除结构的作用。
在每个实验中,对于全部的用户信息,首先选取其中的70%作为训练集,余下的30%作为测试集。在测试集中,对于长度为N的一个测试样例,在测试时首先给定前1项商品记录,测试该用户可能购买的第二项商品。然后给定前2个商品,预测第三个,同时将用户的前1项序列加入进训练集中。依此类推,给定前i-1个商品,预测第i个商品。将截断的用户购买序列加入训练集是为了利用用户本身的购买信息进行推荐系统个性化。
最终,得到训练完毕的模型后,使用Recall@10与MRR@10两种评测指标评估模型的推荐效果。Recall@10是指观察用户真实购买的数据与随机挑选的100个商品的排序结果,若真实数据排在前10,则认为预测正确。MRR@10则是考虑了随机样本的的排名结果,即真实数据排在前10的预测根据排名计算预测分数,以此作为评价标准。
表1
上述实验的结果如表1所示,其中,Time-LSTM 1,Time-LSTM 2,Time-LSTM 3分别对应于上文提到的网络改造的三种方式,其他均为该领域的传统方法。可以看到,我们提出的三种Time-LSTM模型都比传统方法效果好,证明了我们所提模型的有效性。Time-LSTM 2,Time-LSTM 3比Time-LSTM 1效果好,说明使用2个时间门的网络改造方式相比使用1个时间门的网络改造方式能更好地对长短期兴趣建模。在Time-LSTM 2和Time-LSTM 3的实验结果中,original,T1m=1和T2m=1分别表示使用2个时间门,使T1m门失效和使T2m门失效的结果,original的效果都是最好的,说明我们设计的2个时间门都有助于效果的提升。
以上实施例的推荐算法可以任意替换,各种技术特征可以任意组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅表达了本发明所述组件的一种应用结构,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,例如除了实施例中提到的Time-LSTM模型结构外,任何基于此模型中时间门衍生的改造,都属于本发明的保护范围。

Claims (10)

1.一种提升推荐模型时序数据挖掘能力的循环神经网络方法,其特征在于,包括以下步骤:
步骤1,选择一种神经网络,对该神经网络进行基于时间门的网络改造,得到一个新的模型;
步骤2,根据用户时序数据发生的时间,创建有时间间隔属性的时序数据,将得到的数据输入模型中;
步骤3,计算模型的输出,得到模型在序列每一项上的预测值;
步骤4,根据步骤3得到的预测值和序列每一项的真实值计算模型的损失值,若损失值低于预设值并趋于平稳则执行步骤6,否则执行步骤5;
步骤5,根据损失值计算各个参数的梯度,并对模型参数进行更新,返回执行步骤3;
步骤6,根据当前的模型预测用户的兴趣。
2.根据权利要求1所述的提升推荐模型时序数据挖掘能力的循环神经网络方法,其特征在于,步骤1中,所述的神经网络是LSTM模型。
3.根据权利要求1所述的提升推荐模型时序数据挖掘能力的循环神经网络方法,其特征在于,步骤1中,所述的时间门的运算公式为:
Tm=σt△t(△tmWtt)+xmWxt+bt)
其中,Δtm指用户浏览第m个商品与第m-1个商品之间的时间间隔,σΔt与σt表示两个不同的激活函数,xm代表用户当前浏览的商品,Wxt,Wtt与bt则表示时间门需要学习的三个参数,Tm作为该结构的输出表示对时间信息的信息提取。
4.根据权利要求1所述的提升推荐模型时序数据挖掘能力的循环神经网络方法,其特征在于,步骤1中,所述的基于时间门的网络改造方式为:
使用一个时间门结构,其输出结构的公式如下:
cm=fm⊙cm-1
+im⊙Tm⊙σc(xmWxc+hm-1Whc+bc),
om=σo(xmWxo
+△tmWto+hm-1Who+wco⊙cm+bo)
其中,cm-1与cm分别表示前一时刻和当前时刻神经网络的记忆单元,⊙表示元素项对应乘法,fm和im则代表遗忘门和输入门,Tm表示时间门,控制用户的兴趣随时间的变化,σc与σo分别代表记忆单元和输出单元的激活函数,xm表示当前用户的输入,W*和b*则表示两式中各自需要学习的参数,该结构输出om作为用户对商品兴趣的衡量分数。
5.根据权利要求1所述的提升推荐模型时序数据挖掘能力的循环神经网络方法,其特征在于,步骤1中,所述的基于时间门的网络改造方式为:
使用两个时间门结构,其输出结构的公式如下:
cm=fm⊙cm-1
+im⊙T2m⊙σc(xmWxc+hm-1Whc+bc),
其中,直接用于当前商品的输出,cm作为记忆单元,储存后供下一个输入项使用,隐藏单元hm由当前的输出om以及对应的激活函数σh决定,两个时间门T1m、T2m的计算公式为:
T1m=σ1△t(△tmWt1)+xmWx1+b1),
s.t.Wt1<0,
T2m=σ2△t(△tmWt2)+xmWx2+b2)
其中,T1m对应于短期兴趣,T2m对应于长期兴趣。
6.根据权利要求1所述的提升推荐模型时序数据挖掘能力的循环神经网络方法,其特征在于,步骤1中,所述的基于时间门的网络改造方式为:
使用两个时间门结构,删除LSTM的遗忘门,输出结构的公式如下:
cm=(1-im)⊙cm-1
+im⊙T2m⊙σc(xmWxc+hm-1Whc+bc)
其中,中的遗忘门fm被(1-im⊙T1m)所替代,cm中的遗忘门fm被(1-im)所替代。
7.根据权利要求1所述的提升推荐模型时序数据挖掘能力的循环神经网络方法,其特征在于,步骤2中,所述的时序数据是根据用户ID与商品名称,将用户与商品都转化为离散的整数值后建立索引表,在用户的历史信息记录中,将用户的每一次购买、浏览行为视为一次有效操作,通过索引表将用户的浏览记录转化为一系列索引的列表。
8.根据权利要求1所述的提升推荐模型时序数据挖掘能力的循环神经网络方法,其特征在于,步骤2中,所述的时间间隔属性是根据用户的操作记录,计算用户每一次有效操作之间的时间差,得到用户浏览每一件商品之间的间隔时间。
9.根据权利要求1所述的提升推荐模型时序数据挖掘能力的循环神经网络方法,其特征在于,步骤3中,所述的模型的输出为用户对所有商品的感兴趣程度的评估分数,所述的预测值为评估分数最高的商品。
10.根据权利要求1所述的提升推荐模型时序数据挖掘能力的循环神经网络方法,其特征在于,步骤4中,所述损失值计算方式为,将所有项的预测值和对应的真实值分别进行对比,预测成功,则损失记为0,预测失败,则损失记为1,对所有项的损失取平均即得到模型的损失值。
CN201711014934.0A 2017-10-25 2017-10-25 一种提升推荐模型时序数据挖掘能力的循环神经网络方法 Pending CN107909427A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711014934.0A CN107909427A (zh) 2017-10-25 2017-10-25 一种提升推荐模型时序数据挖掘能力的循环神经网络方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711014934.0A CN107909427A (zh) 2017-10-25 2017-10-25 一种提升推荐模型时序数据挖掘能力的循环神经网络方法

Publications (1)

Publication Number Publication Date
CN107909427A true CN107909427A (zh) 2018-04-13

Family

ID=61840864

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711014934.0A Pending CN107909427A (zh) 2017-10-25 2017-10-25 一种提升推荐模型时序数据挖掘能力的循环神经网络方法

Country Status (1)

Country Link
CN (1) CN107909427A (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108764974A (zh) * 2018-05-11 2018-11-06 国网电子商务有限公司 一种基于深度学习的商品采购量预测方法及装置
CN108959524A (zh) * 2018-06-28 2018-12-07 中译语通科技股份有限公司 一种识别数据爬虫的方法、系统及信息数据处理终端
CN109033228A (zh) * 2018-06-29 2018-12-18 北京百度网讯科技有限公司 一种推荐列表的确定方法、装置、服务器及存储介质
CN109063188A (zh) * 2018-08-28 2018-12-21 国信优易数据有限公司 一种实体推荐方法和装置
CN109190791A (zh) * 2018-07-25 2019-01-11 广州优视网络科技有限公司 应用推荐模型的评估方法、装置及电子设备
CN110276446A (zh) * 2019-06-26 2019-09-24 北京百度网讯科技有限公司 模型训练和选择推荐信息的方法和装置
CN110289096A (zh) * 2019-06-28 2019-09-27 电子科技大学 一种基于深度学习的icu院内死亡率预测方法
CN110502698A (zh) * 2019-08-26 2019-11-26 上海喜马拉雅科技有限公司 一种信息推荐方法、装置、设备及存储介质
CN110598766A (zh) * 2019-08-28 2019-12-20 第四范式(北京)技术有限公司 一种商品推荐模型的训练方法、装置及电子设备
CN110851694A (zh) * 2018-07-26 2020-02-28 王飞 基于用户记忆网络和树形结构的深度模型的个性化推荐系统
CN110955828A (zh) * 2019-11-19 2020-04-03 浙江鸿程计算机系统有限公司 一种基于深度神经网络的多因素嵌入个性化套餐推荐方法
CN111191136A (zh) * 2019-12-30 2020-05-22 华为技术有限公司 一种信息推荐方法以及相关设备
CN111243752A (zh) * 2020-01-16 2020-06-05 四川大学华西医院 一种急性胰腺炎诱发器官衰竭的预测模型
CN111310583A (zh) * 2020-01-19 2020-06-19 中国科学院重庆绿色智能技术研究院 一种基于改进的长短期记忆网络的车辆异常行为识别方法
CN112182387A (zh) * 2020-09-29 2021-01-05 中国人民大学 一种时间信息增强的个性化搜索算法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105869024A (zh) * 2016-04-20 2016-08-17 北京小米移动软件有限公司 商品的推荐方法及装置
CN106777874A (zh) * 2016-11-18 2017-05-31 中国科学院自动化研究所 基于循环神经网络构建预测模型的方法
CN106886846A (zh) * 2017-04-26 2017-06-23 中南大学 一种基于长短期记忆循环神经网络的银行网点备付金预测方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105869024A (zh) * 2016-04-20 2016-08-17 北京小米移动软件有限公司 商品的推荐方法及装置
CN106777874A (zh) * 2016-11-18 2017-05-31 中国科学院自动化研究所 基于循环神经网络构建预测模型的方法
CN106886846A (zh) * 2017-04-26 2017-06-23 中南大学 一种基于长短期记忆循环神经网络的银行网点备付金预测方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
YU ZHU ETC: "What to Do Next:Modeling User Behaviors by Time-LSTM", 《PROCEEDINGS OF THE TWENTY-SIXTH INTERNATIONAL JOINT CONFERENCE ON ARTIFICIAL INTELLIGENCE》 *
刘杨涛 等: "基于嵌入式向量和循环神经网络的用户行为预测方法", 《现代电子技术》 *
张静 等编: "《统计决策与贝叶斯分析》", 30 June 2016, 中国统计出版社 *

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108764974A (zh) * 2018-05-11 2018-11-06 国网电子商务有限公司 一种基于深度学习的商品采购量预测方法及装置
CN108959524A (zh) * 2018-06-28 2018-12-07 中译语通科技股份有限公司 一种识别数据爬虫的方法、系统及信息数据处理终端
CN109033228A (zh) * 2018-06-29 2018-12-18 北京百度网讯科技有限公司 一种推荐列表的确定方法、装置、服务器及存储介质
CN109190791A (zh) * 2018-07-25 2019-01-11 广州优视网络科技有限公司 应用推荐模型的评估方法、装置及电子设备
CN110851694A (zh) * 2018-07-26 2020-02-28 王飞 基于用户记忆网络和树形结构的深度模型的个性化推荐系统
CN109063188A (zh) * 2018-08-28 2018-12-21 国信优易数据有限公司 一种实体推荐方法和装置
CN110276446B (zh) * 2019-06-26 2021-07-02 北京百度网讯科技有限公司 模型训练和选择推荐信息的方法和装置
CN110276446A (zh) * 2019-06-26 2019-09-24 北京百度网讯科技有限公司 模型训练和选择推荐信息的方法和装置
CN110289096A (zh) * 2019-06-28 2019-09-27 电子科技大学 一种基于深度学习的icu院内死亡率预测方法
CN110289096B (zh) * 2019-06-28 2021-12-07 电子科技大学 一种基于深度学习的icu院内死亡率预测方法
CN110502698A (zh) * 2019-08-26 2019-11-26 上海喜马拉雅科技有限公司 一种信息推荐方法、装置、设备及存储介质
CN110598766A (zh) * 2019-08-28 2019-12-20 第四范式(北京)技术有限公司 一种商品推荐模型的训练方法、装置及电子设备
CN110598766B (zh) * 2019-08-28 2022-05-10 第四范式(北京)技术有限公司 一种商品推荐模型的训练方法、装置及电子设备
CN110955828A (zh) * 2019-11-19 2020-04-03 浙江鸿程计算机系统有限公司 一种基于深度神经网络的多因素嵌入个性化套餐推荐方法
WO2021136131A1 (zh) * 2019-12-30 2021-07-08 华为技术有限公司 一种信息推荐方法以及相关设备
CN111191136A (zh) * 2019-12-30 2020-05-22 华为技术有限公司 一种信息推荐方法以及相关设备
CN111243752A (zh) * 2020-01-16 2020-06-05 四川大学华西医院 一种急性胰腺炎诱发器官衰竭的预测模型
CN111310583A (zh) * 2020-01-19 2020-06-19 中国科学院重庆绿色智能技术研究院 一种基于改进的长短期记忆网络的车辆异常行为识别方法
CN111310583B (zh) * 2020-01-19 2023-02-10 中国科学院重庆绿色智能技术研究院 一种基于改进的长短期记忆网络的车辆异常行为识别方法
CN112182387A (zh) * 2020-09-29 2021-01-05 中国人民大学 一种时间信息增强的个性化搜索算法
CN112182387B (zh) * 2020-09-29 2023-08-25 中国人民大学 一种时间信息增强的个性化搜索方法

Similar Documents

Publication Publication Date Title
CN107909427A (zh) 一种提升推荐模型时序数据挖掘能力的循环神经网络方法
CN108648049B (zh) 一种基于用户行为区别建模的序列推荐方法
US20220301024A1 (en) Sequential recommendation method based on long-term and short-term interests
CN107066476B (zh) 一种基于物品相似度的实时推荐方法
CN107590243B (zh) 基于随机游走和多样性图排序的个性化服务推荐方法
US20230153857A1 (en) Recommendation model training method, recommendation method, apparatus, and computer-readable medium
Luo et al. Applying the learning rate adaptation to the matrix factorization based collaborative filtering
CN110245299A (zh) 一种基于动态交互注意力机制的序列推荐方法及其系统
CN106600302A (zh) 基于Hadoop的商品推荐系统
Salehinejad et al. Customer shopping pattern prediction: A recurrent neural network approach
US20230316352A1 (en) Models based on data augmented with conceivable transitions
CN111401937A (zh) 数据推送方法、装置及存储介质
CN107784390A (zh) 用户生命周期的识别方法、装置、电子设备及存储介质
CN109582876A (zh) 旅游行业用户画像构造方法、装置和计算机设备
CN113222711B (zh) 一种商品信息推荐方法、系统和存储介质
CN109767032A (zh) 一种基于数据分析的企业财务运营数字化管理优化系统
Jia et al. Users' brands preference based on SVD++ in recommender systems
Chan et al. Continuous model selection for large-scale recommender systems
Wang et al. Modelling local and global dependencies for next-item recommendations
Tan et al. Recommendation Based on Users’ Long‐Term and Short‐Term Interests with Attention
CN116071128A (zh) 一种基于多行为特征提取与自监督学习的多任务推荐方法
Kulshrestha et al. Study for the prediction of E-commerce business market growth using machine learning algorithm
CN116764236A (zh) 游戏道具推荐方法、装置、计算机设备和存储介质
Yang et al. Examining multi-category cross purchases models with increasing dataset scale–An artificial neural network approach
Du et al. Online personalized next-item recommendation via long short term preference learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180413