CN113222711A - 一种商品信息推荐方法、系统和存储介质 - Google Patents

一种商品信息推荐方法、系统和存储介质 Download PDF

Info

Publication number
CN113222711A
CN113222711A CN202110590095.7A CN202110590095A CN113222711A CN 113222711 A CN113222711 A CN 113222711A CN 202110590095 A CN202110590095 A CN 202110590095A CN 113222711 A CN113222711 A CN 113222711A
Authority
CN
China
Prior art keywords
node
commodity
user
target
knowledge graph
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110590095.7A
Other languages
English (en)
Other versions
CN113222711B (zh
Inventor
蔡晓东
刘家良
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guilin University of Electronic Technology
Original Assignee
Guilin University of Electronic Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guilin University of Electronic Technology filed Critical Guilin University of Electronic Technology
Priority to CN202110590095.7A priority Critical patent/CN113222711B/zh
Publication of CN113222711A publication Critical patent/CN113222711A/zh
Application granted granted Critical
Publication of CN113222711B publication Critical patent/CN113222711B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0631Item recommendations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种商品信息推荐方法、系统和存储介质,方法包括:将原始数据集处理成知识图谱,通过知识图谱形式得到知识图谱数据集,并将知识图谱数据集划分为训练集和测试集;根据强化学习方法构建探索策略;基于图神经网络对知识图谱和探索策略构建策略网络定义目标商品,并计算目标商品的奖励函数和损失函数。本发明能够有效的挖掘出数据间的隐含特性,实现了准确的推荐,还能够在数学上有更好的区分,进而有利于挖掘出图中更多的有效信息,具有一定的泛化性,能够有效的提高推荐准确性,并具有良好的鲁棒性,实现了冷启动对用户推荐商品并提高了推荐的可靠性和准确性。

Description

一种商品信息推荐方法、系统和存储介质
技术领域
本发明主要涉及数据挖掘技术领域,具体涉及一种商品信息推荐方法、系统和存储介质。
背景技术
推荐系统旨在为用户推荐个性化的在线商品或信息,所述推荐系统广泛应用于众多Web场景之中,来处理海量信息数据所导致的信息过载问题,以此提升用户体验。基于知识图谱的推荐系统在解决冷启动问题时具有很好的效果,但现有技术无法实现深度挖掘邻居节点与目标相关节点之间的相互影响程度,推荐效果仍有待提高。
发明内容
本发明所要解决的技术问题是针对上述现有技术的不足,推荐一种算法模型,解决所述现有技术无法实现深度挖掘邻居节点与目标相关节点之间的相互影响程度问题。
本发明解决上述技术问题的技术方案如下:一种商品信息推荐方法,包括以下步骤:
S1:导入原始数据集,将所述原始数据集处理成知识图谱,通过知识图谱形式得到知识图谱数据集,并将所述知识图谱数据集划分为训练集和测试集;
S2:根据强化学习方法构建探索策略;
S3:基于图神经网络对所述知识图谱和所述探索策略构建策略网络定义目标商品,并计算目标商品的奖励函数和损失函数;
S4:通过损失函数和奖励函数分别计算出所述知识图谱数据集中各个数据的总损失值和累计奖励,再通过反向传播算法对所有数据的总损失值和累计奖励进行反向传播,得到商品推荐模型,并通过所述训练集对所述商品推荐模型进行训练;
S5:将所述测试集输入经训练后的商品推荐模型中,通过经训练后的商品推荐模型得到商品推荐结果。
本发明的有益效果是:通过将原始数据集处理知识图谱数据集,根据强化学习方法构建探索策略,能够基于用户历史消费记录挖掘出用户潜在消费商品,基于图神经网络对知识图谱和探索策略构建策略网络定义目标商品,并计算目标商品的奖励函数和损失函数,能够有效的挖掘出数据间的隐含特性,实现了准确的推荐,还能够在数学上有更好的区分,进而有利于挖掘出图中更多的有效信息,具有一定的泛化性,能够有效的提高推荐准确性,并具有良好的鲁棒性,实现了冷启动对用户推荐商品并提高了推荐的可靠性和准确性。
在上述技术方案的基础上,本发明还可以做如下改进:
进一步,所述步骤S1的过程包括:
S1.1:定义原始数据集O={(u,i)|u∈U,i∈I},其中,U为用户集,I为商品集,(u,i)为用户u与商品i存在互动;
S1.2:定义知识图谱G={e,r}|,e为节点,r为节点间关系,其中{u,i}∈e,所述知识图谱包括用户集和商品集,将所述知识图谱以所述互动(u,i)为起点,寻找到中间节点e′,所述中间节点e′与节点i和节点j相连,所述中间节点e′为用户u选择节点i所对应商品的判断因素以及适合用户u的节点j所对应商品的判断因素。
上述进一步方案的有益效果是:将原始数据集处理成知识图谱,通过知识图谱形式得到知识图谱数据集,能够通过用户历史消费记录推理出用户潜在的消费商品,有效提升了推荐的多样性、解释性和准确率。
进一步,所述步骤S2的过程具体包括:
S2.1:基于马尔可夫决策过程定义寻找目标节点的采样过程,所述采样过程的过程包括:所述目标节点为M={S,A,P,R};其中,A={a},A为探索动作a的集合,S={s},S为状态s的集合,P为状态s的转移函数,R为奖励函数,采样器为fS(),参数为θS
S2.2:定义探索过程,所述定义探索过程的过程包括:在任一探索步骤t中,定义采样的动作at=(et→et′→et+1),ɑt为两跳的路径,所述ɑt包括(et,et′)和(et′,et+1)两跳路径,所述路径在T次探索后,通过所述采样器生成2T跳的路径;定义探索策略π=(e1,e2…eT),eT为所述采样器最终选择的目标节点,并将所述目标节点eT作为目标商品推荐给用户;
S2.3:定义探索状态,所述定义探索状态的过程包括:在任一探索步骤t中,所述采样器当前访问节点et,定义状态st=(u,et),探索步骤t为(s0,a1,s1…at,st),初始化状态s0=(u,i)为以所述互动(u,i)为起点开始探索的状态;
S2.4:定义探索动作,所述定义探索动作的过程包括:在任一探索步骤t中,所述节点et所有的探索动作at构成动作空间At
S2.5:定义转移函数,所述定义转移函数的过程包括:在任一探索步骤t中,动作at由状态st转移到下一个状态时需要的转移函数为:
P(st+1=(u,et+1)|st=(u,et),at=(et→et′→et+1))=1),
从而构建得到探索策略。
上述进一步方案的有益效果是:根据强化学习方法构建探索策略,能够有效的挖掘出数据间的隐含特性,进而实现了准确的推荐,还能够在数学上有更好的区分,进而有利于挖掘出图中更多的有效信息,能够实现快速推荐并在特定场景下实现准确推荐,且具有一定的泛化性,对不同类型的数据均有一定的效果。
进一步,所述步骤S3的过程包括:
S3.1:根据图神经网络中的GraphSage算法,在所述知识图谱G和用户商品图O+上生成节点的嵌入表示,在第l个图卷积层,节点e表示为
Figure BDA0003089179800000041
节点e的邻居节点集合Ne表示为
Figure BDA0003089179800000042
节点e聚合所述节点e邻居节点集Ne的信息并更新表示,其中,
Figure BDA0003089179800000043
其中,
Figure BDA0003089179800000044
其中,
Figure BDA0003089179800000045
为所述节点e经过l次传播后的表示,所述
Figure BDA0003089179800000046
为所述节点e经过第l-1次传播后的表示,W(l)为权重矩阵,||为连接操作,ρ为LeakyReLU激活函数,
Figure BDA0003089179800000047
为所述节点e经过第l-1次传播后的邻居集合表示;
每个零节点信息表示为
Figure BDA0003089179800000048
经过L次传播后的节点表示为
Figure BDA0003089179800000049
并将经过L次传播后的节点表示嵌入到知识表示中;
S3.2:经过所述GraphSage算法的节点表示为:
Figure BDA00030891798000000410
经过GCN的节点表示为:
Figure BDA00030891798000000411
S3.3:构建基于GraphSage算法的GCN策略网络,所述构建基于GraphSage算法的GCN策略网络包括:
通过GCN网络生成的节点表示hGCN经过GraphSage生成节点表示hGraphSage,并经过dropout生成最终的节点表示hout;其公式为:
hout=dropout(hGraphSage),
其中,hGraphSage=GraphSage(hGCN),
或构建基于GCN的GraphSage策略网络,所述构建基于GCN的GraphSage策略网络的过程包括:
将所述知识图谱数据集分别经过GraphSage算法和GCN生成的节点分别表示为所述hGraphSage和所述hGCN,并将两者相加后并通过GCN层生成表示h′GCN,并经过dropout生成最终的节点表示hout;其公式为:
hout=dropout(h′GCN),
其中,h′GCN=GCN(hGraphSage+hGCN);
S3.4:定义探索步骤,所述定义探索步骤的过程包括:
在所述状态st=(u,et)中,所述动作at=(et→e′t→et+1)包括两个环节,第一环节为(et,e′t),第二环节为(e′t,et+1),所述动作at=(et→e′t→et+1)满足
P(at,st)=P((et,e′t)|st)·P((e′t,et+1)|st,(et,e′t)),
其中,P(at,st)为目标节点et+1的概率,
经过所述第一环节和所述第二环节的节点选择,最终得到目标节点;
S3.5:计算知识图谱节点的邻居节点注意力,所述计算知识图谱节点的邻居节点注意力的过程包括:
所述节点et的邻居节点et′重要性表示为:
Figure BDA0003089179800000061
Figure BDA0003089179800000062
为et′能获得注意力大小或选择概率
利用softmax函数进行归一化处理:
所述节点et的某个所述邻居节点et′在所有邻居节点et″中能获得的注意力为:
Figure BDA0003089179800000063
S3.6:计算商品的邻居节点注意力,所述计算商品的邻居节点注意力的过程包括;
从所述节点et′邻居中选出目标节点et+1;选择所述目标节点et+1的概率为
Figure BDA0003089179800000064
所述目标节点et+1在所述节点et′所有邻居et+1′中被选中的概率为
Figure BDA0003089179800000065
Figure BDA0003089179800000066
经过两次注意力的计算选出概率为P(at,st)的节点,将概率最高的目标节点et+1作为所述目标商品j推荐给所述用户u;
S3.7:邻居节点简化,所述邻居节点简化的过程包括:
所述节点e的邻居节点集Ne中随机采样n1个节点构成集合
Figure BDA0003089179800000067
使用评分函数
Figure BDA0003089179800000068
匹配e和e′的相似度,选出排名靠前的n2个节点构成集合
Figure BDA0003089179800000069
用所述集合
Figure BDA00030891798000000610
代替所述邻居节点集Ne,其中,n2<n1
S3.8:计算所述目标商品j的奖励函数,所述计算所述目标商品的奖励函数的过程包括:
R(j)=gate*fu(u,j)+(1-gate)*fi(i,j),
其中,fu(u,j)=ru Trj为所述用户u和所述节点j的匹配程度,fi(i,j)=ri Trj为所述节点j和所述商品i的相似度,gate=sigmoid(Wfi(i,j))为分配预测奖励与相似度奖励所占比重;
S3.9计算目标商品j的损失函数,所述计算目标商品j的损失函数的过程包括:
计算所述目标商品j的损失值为:
Figure BDA0003089179800000071
其中,
Figure BDA0003089179800000072
为L2正则化项,σ为sigmoid函数;ru为用户信息,ri为历史商品信息,rj为推荐商品信息。
上述进一步方案的有益效果是:基于图神经网络对知识图谱和探索策略构建策略网络定义目标商品,并计算目标商品的奖励函数和损失函数,能够有效的提高推荐准确性,并具有良好的鲁棒性,能够合理准确的给用户推荐商品,实现了冷启动对用户推荐商品并提高了推荐的可靠性和准确性。
进一步,所述步骤S4的过程包括:
S4.1:通过累计奖励和策略梯度算法对所述采样器进行优化,得到所述目标商品j累积折扣奖励的最大化值,公式为:
Figure BDA0003089179800000073
其中,λ为折扣率,策略π得到的所述节点j最大的经验奖励;
S4.2:通过BPR贝叶斯个性化排序损失函数和随机梯度下降法进行推荐部分优化,得到目标商品j最小损失值:
Figure BDA0003089179800000081
S4.3:根据反向传播算法得到目标商品j推荐模型,并通过所述训练集对所述商品推荐模型进行训练,得到经训练后的商品推荐模型。
上述进一步方案的有益效果是:通过损失函数和奖励函数分别计算出知识图谱数据集中各个数据的总损失值和累计奖励,再通过反向传播算法对所有数据的总损失值和累计奖励进行反向传播,得到商品推荐模型,并通过训练集对商品推荐模型进行训练,能够有效的提高推荐准确性,并具有良好的鲁棒性,能够合理准确的给用户推荐商品,实现了冷启动对用户推荐商品并提高了推荐的可靠性和准确性。
进一步,所述步骤S5的过程包括:
在数据集中,所述历史商品分别记作
Figure BDA0003089179800000082
则:
Figure BDA0003089179800000083
其中,concate为向量拼接操作,k为用户u购买过的历史商品数量,i为将历史商品拼接成一个历史商品向量;
在每次推荐过程中,用户u分别记作
Figure BDA0003089179800000084
则:
Figure BDA0003089179800000085
其中,user为将用户拼接成一个用户向量;
目标商品j分别记作
Figure BDA0003089179800000086
则:
Figure BDA0003089179800000087
通过用户u和历史商品i得到用户对历史商品i的购买意愿信息,具体为:
p(u,i)=user⊙i,
通过用户u和目标商品j得到用户对目标商品的购买意愿信息:
p(u,j)=user⊙j,
通过所述用户对目标商品的购买意愿与所述用户对历史商品的购买意愿信息进行对比,并将对比结果作为商品推荐结果,具体为:
Figure BDA0003089179800000091
上述进一步方案的有益效果是:将测试集输入经训练后的商品推荐模型中,通过经训练后的商品推荐模型得到商品推荐结果,能够有效的提高推荐准确性,并具有良好的鲁棒性,能够合理准确的给用户推荐商品,实现了冷启动对用户推荐商品并提高了推荐的可靠性和准确性。
本发明解决上述技术问题的另一技术方案如下:一种商品信息推荐系统,包括:
原始数据集处理模块,用于导入原始数据集,将所述原始数据集处理成知识图谱,通过知识图谱形式得到知识图谱数据集,并将所述知识图谱数据集划分为训练集和测试集;
策略构建模块,用于根据强化学习方法构建探索策略;
目标商品定义模块,用于基于图神经网络对所述知识图谱和所述探索策略构建策略网络定义目标商品,并计算目标商品的奖励函数和损失函数;
模型训练模块,用于通过损失函数和奖励函数分别计算出所述知识图谱数据集中各个数据的总损失值和累计奖励,再通过反向传播算法对所有数据的总损失值和累计奖励进行反向传播,得到商品推荐模型,并通过所述训练集对所述商品推荐模型进行训练;
商品推荐结果获得模块,用于将所述测试集输入经训练后的商品推荐模型中,通过经训练后的商品推荐模型得到商品推荐结果。
进一步,所述原始数据集处理模块具体用于:
定义原始数据集O={(u,i)|u∈U,i∈I},其中,U为用户集,I为商品集,(u,i)为用户u与商品i存在互动;
定义知识图谱G={e,r}|,e为节点,r为节点间关系,其中{u,i}∈e,所述知识图谱包括用户集和商品集,将所述知识图谱以所述互动(u,i)为起点,寻找到中间节点e′,所述中间节点e′与节点i和节点j相连,所述中间节点e′为用户u选择节点i所对应商品的判断因素以及适合用户u的节点j所对应商品的判断因素。
本发明解决上述技术问题的另一技术方案如下:一种商品信息推荐装置,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,当所述处理器执行所述计算机程序时,实现如上所述的商品信息推荐方法。
本发明解决上述技术问题的另一技术方案如下:一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,当所述计算机程序被处理器执行时,实现如上所述的商品信息推荐方法。
附图说明
图1为本发明提供的一种商品信息推荐方法的流程图;
图2为本发明提供的一种商品信息推荐系统的模块框图。
具体实施方式
以下结合附图1对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围:
图1为本发明实施例提供的商品信息推荐方法的流程示意图。
如图1所示,一种商品信息推荐方法,包括如下步骤:
S1:导入原始数据集,将所述原始数据集处理成知识图谱,通过知识图谱形式得到知识图谱数据集,并将所述知识图谱数据集划分为训练集和测试集;
S2:根据强化学习方法构建探索策略;
S3:基于图神经网络对所述知识图谱和所述探索策略构建策略网络定义目标商品,并计算目标商品的奖励函数和损失函数;
S4:通过损失函数和奖励函数分别计算出所述知识图谱数据集中各个数据的总损失值和累计奖励,再通过反向传播算法对所有数据的总损失值和累计奖励进行反向传播,得到商品推荐模型,并通过所述训练集对所述商品推荐模型进行训练;
S5:将所述测试集输入经训练后的商品推荐模型中,通过经训练后的商品推荐模型得到商品推荐结果。
应理解地,根据强化学习方法构建探索策略,定义智能体探索策略。
应理解地,步骤S3在所述知识图谱中使用所述图神经网络构建策略网络,定义寻找和确定目标物品的算法,通过算法找出的目标商品计算奖励函数和损失函数。
本发明的有益效果是:通过将原始数据集处理知识图谱数据集,根据强化学习方法构建探索策略,能够基于用户历史消费记录挖掘出用户潜在消费商品,基于图神经网络对知识图谱和探索策略构建策略网络定义目标商品,并计算目标商品的奖励函数和损失函数,能够有效的挖掘出数据间的隐含特性,实现了准确的推荐,还能够在数学上有更好的区分,进而有利于挖掘出图中更多的有效信息,具有一定的泛化性,能够有效的提高推荐准确性,并具有良好的鲁棒性,实现了冷启动对用户推荐商品并提高了推荐的可靠性和准确性。
可选地,作为本发明的一个实施例,所述步骤S1的过程包括:
S1.1:定义原始数据集O={(u,i)|u∈U,i∈I},其中,U为用户集,I为商品集,(u,i)为用户u与商品i存在互动;
S1.2:定义知识图谱G={e,r}|,e为节点,r为节点间关系,其中{u,i}∈e,所述知识图谱包括用户集和商品集,将所述知识图谱以所述互动(u,i)为起点,寻找到中间节点e′,所述中间节点e′与节点i和节点j相连,所述中间节点e′为用户u选择节点i所对应商品的判断因素以及适合用户u的节点j所对应商品的判断因素。
应理解地,所述知识图谱不仅包含所述用户集和所述商品集还包含其他大量节点。
具体地,定义知识图谱路径i→e′→j。从历史互动(u,i)(即所述互动(u,i))对出发,寻找到所述中间节点e′同时与所述节点i和所述节点j相连,则表明e′是用户u选择物品i的重要因素,同样具备此因素的节点j很可能是适合用户的物品,将此物品作为目标物品推荐给用户。类似多跳路径可以扩展,如:
i→e→j′→e′→j。
上述实施例中,根据强化学习方法构建探索策略,能够有效的挖掘出数据间的隐含特性,进而实现了准确的推荐,还能够在数学上有更好的区分,进而有利于挖掘出图中更多的有效信息,能够实现快速推荐并在特定场景下实现准确推荐,且具有一定的泛化性,对不同类型的数据均有一定的效果。
可选地,作为本发明的一个实施例,所述步骤S2的过程具体包括:
S2.1:基于马尔可夫决策过程定义寻找目标节点的采样过程,所述采样过程的过程包括:所述目标节点为M={S,A,P,R};其中,A={a},A为探索动作a的集合,S={s},S为状态s的集合,P为状态s的转移函数,R为奖励函数,采样器为fS(),参数为θS
S2.2:定义探索过程,所述定义探索过程的过程包括:在任一探索步骤t中,定义采样的动作at=(et→et′→et+1),ɑt为两跳的路径,所述ɑt包括(et,et′)和(et′,et+1)两跳路径,所述路径在T次探索后,通过所述采样器生成2T跳的路径;定义探索策略π=(e1,e2…eT),eT为所述采样器最终选择的目标节点,并将所述目标节点eT作为目标商品推荐给用户;
S2.3:定义探索状态,所述定义探索状态的过程包括:在任一探索步骤t中,所述采样器当前访问节点et,定义状态st=(u,et),探索步骤t为(s0,a1,s1…at,st),初始化状态s0=(u,i)为以所述互动(u,i)为起点开始探索的状态;
S2.4:定义探索动作,所述定义探索动作的过程包括:在任一探索步骤t中,所述节点et所有的探索动作at构成动作空间At
S2.5:定义转移函数,所述定义转移函数的过程包括:在任一探索步骤t中,动作at由状态st转移到下一个状态时需要的转移函数为:
P(st+1=(u,et+1)|st=(u,et),at=(et→et′→et+1))=1),
从而构建得到探索策略。
应理解地,步骤S2.2中此探索过程可以扩展,如果进行T次探索,采样器会生成2T跳的路径,则定义探索策略π=(e1,e2…eT),eT是采样器最终选择的目标节点,作为目标物品推荐给用户。
上述实施例中,根据强化学习方法构建探索策略,能够有效的挖掘出数据间的隐含特性,进而实现了准确的推荐,还能够在数学上有更好的区分,进而有利于挖掘出图中更多的有效信息,能够实现快速推荐并在特定场景下实现准确推荐,且具有一定的泛化性,对不同类型的数据均有一定的效果。
可选地,作为本发明的一个实施例,所述步骤S3的过程包括:
S3.1:根据图神经网络中的GraphSage算法,在所述知识图谱G和用户商品图O+上生成节点的嵌入表示,在第l个图卷积层,节点e表示为
Figure BDA0003089179800000141
节点e的邻居节点集合Ne表示为
Figure BDA0003089179800000142
节点e聚合所述节点e邻居节点集Ne的信息并更新表示,其中,
Figure BDA0003089179800000143
其中,
Figure BDA0003089179800000144
其中,
Figure BDA0003089179800000145
为所述节点e经过l次传播后的表示,所述
Figure BDA0003089179800000146
为所述节点e经过第l-1次传播后的表示,W(l)为权重矩阵,||为连接操作,ρ为LeakyReLU激活函数,
Figure BDA0003089179800000147
为所述节点e经过第l-1次传播后的邻居集合表示;
每个零节点信息表示为
Figure BDA0003089179800000148
经过L次传播后的节点表示为
Figure BDA0003089179800000149
并将经过L次传播后的节点表示嵌入到知识表示中;
S3.2:经过所述GraphSage算法的节点表示为:
Figure BDA00030891798000001410
经过GCN的节点表示为:
Figure BDA00030891798000001411
S3.3:构建基于GraphSage算法的GCN策略网络,所述构建基于GraphSage算法的GCN策略网络包括:
通过GCN网络生成的节点表示hGCN经过GraphSage生成节点表示hGraphSage,并经过dropout生成最终的节点表示hout;其公式为:
hout=dropout(hGraphSage),
其中,hGraphSage=GraphSage(hGCN),
或构建基于GCN的GraphSage策略网络,所述构建基于GCN的GraphSage策略网络的过程包括:
将所述知识图谱数据集分别经过GraphSage算法和GCN生成的节点分别表示为所述hGraphSage和所述hGCN,并将两者相加后并通过GCN层生成表示h′GCN,并经过dropout生成最终的节点表示hout;其公式为:
hout=dropout(h′GCN),
其中,h′GCN=GCN(hGraphSage+hGCN);
S3.4:定义探索步骤,所述定义探索步骤的过程包括:
在所述状态st=(u,et)中,所述动作at=(et→et′→et+1)包括两个环节,第一环节为(et,et′),第二环节为(et′,et+1),所述动作at=(et→et′→et+1)满足
P(at,st)=P((et,et′)|st)·P((et′,et+1)|st,(et,et′)),
其中,P(at,st)为目标节点et+1的概率,
经过所述第一环节和所述第二环节的节点选择,最终得到目标节点;
S3.5:计算知识图谱节点的邻居节点注意力,所述计算知识图谱节点的邻居节点注意力的过程包括:
所述节点et的邻居节点et′重要性表示为:
Figure BDA0003089179800000161
Figure BDA0003089179800000162
为et′能获得注意力大小或选择概率;
利用softmax函数进行归一化处理:
所述节点et的某个所述邻居节点et′在所有邻居节点et″中能获得的注意力为:
Figure BDA0003089179800000163
S3.6:计算商品的邻居节点注意力,所述计算商品的邻居节点注意力的过程包括;
从所述节点et′邻居中选出目标节点et+1;选择所述目标节点et+1的概率为
Figure BDA0003089179800000164
所述目标节点et+1在所述节点et′所有邻居e″t+1中被选中的概率为
Figure BDA0003089179800000165
Figure BDA0003089179800000166
经过两次注意力的计算选出概率为P(at,st)的节点,将概率最高的目标节点et+1作为所述目标商品j推荐给所述用户u;
S3.7:邻居节点简化,所述邻居节点简化的过程包括:
所述节点e的邻居节点集Ne中随机采样n1个节点构成集合
Figure BDA0003089179800000167
使用评分函数
Figure BDA0003089179800000168
匹配e和e′的相似度,选出排名靠前的n2个节点构成集合
Figure BDA0003089179800000169
用所述集合
Figure BDA00030891798000001610
代替所述邻居节点集Ne,其中,n2<n1
S3.8:计算所述目标商品j的奖励函数,所述计算所述目标商品的奖励函数的过程包括:
R(j)=gate*fu(u,j)+(1-gate)*fi(i,j),
其中,fu(u,j)=ru Trj为所述用户u和所述节点j的匹配程度,fi(i,j)=ri Trj为所述节点j和所述商品i的相似度,gate=sigmoid(Wfi(i,j))为分配预测奖励与相似度奖励所占比重;
S3.9计算目标商品j的损失函数,所述计算目标商品j的损失函数的过程包括:
计算所述目标商品j的损失值为:
Figure BDA0003089179800000171
其中,
Figure BDA0003089179800000172
为L2正则化项,σ为sigmoid函数;ru为用户信息,ri为历史商品信息,rj为推荐商品信息。
应理解地,步骤S3.2为了解决GraphSage模型很难准确学习节点结构及关系特征问题,本发明引入GCN网络对输出特征进行补充以得到一个更完备的特征表述模型,以实现对节点特征的准确描述。
应理解地,步骤S3.3中,使用基于GraphSage的GCN策略网络:
该网络主要解决由于GraphSage网络中由于引入结构信息而导致的部分信息学习不充分而引起的预测不准确问题:GCN网络生成的节点表示hGCN再经过GraphSage生成节点表示hGraphSage,此表示再经过dropout生成最终的节点表示hout
应理解地,步骤S3.3中,使用基于GCN的GraphSage策略网络:
为了挖掘出更加完备而准确的图谱结构和节点间关系信息,从而得到更加准确的节点表述,采用GraphSage与GCN相结合的策略网络:数据集分别经过GraphSage和GCN处理,生成节点表示hGraphSage和hGCN,两者相加后再通过GCN层生成表示h′GCN,此表示经过dropout生成最终表示hout
应理解地,步骤S3.4中,在状态st=(u,et),已经获得了节点表示和其邻居表示,动作at=(et→e′t→et+1)分两步完成:(et,e′t)和(e′t,et+1),其满足P(at,st)=P((et,e′t)|st)·P((e′t,et+1)|st,(et,e′t)),P(at,st)代表et+1是目标节点的概率,通过两次选择节点,最终得到目标节点。
具体地,步骤S3.5中,对于用户u来说,节点et的邻居节点et′重要性表示为:
Figure BDA0003089179800000181
节点表示het
Figure BDA0003089179800000182
按元素相乘(即☉)来表它们之间的关系(也就是边),关系表示经过非线性函数ρ再与用户表示hu的转置相乘,得到对于用户u来说e′t能获得注意力大小或选择概率。再使用softmax函数进行归一化处理:et的某个邻居节点e′t在所有邻居节点e″t中能获得的注意力为:
Figure BDA0003089179800000183
应理解地,步骤S3.7中,使用
Figure BDA0003089179800000184
代替原始邻居集Ne,大大缩小了邻居节点数量,在降低运算成本后取得较好表现。节点e′t也经过相同的处理替换其邻居节点集合。
具体地,步骤S3.8中,预测奖励fu(u,j)=ru Trj,即用户身份信息表示转置后和节点身份信息表示相乘,代表用户u和节点j的匹配程度;相似度奖励fi(i,j)=ri Trj,即物品i的表示转置后和节点j的表示相乘,代表j和i的相似度,因为i是用户u所偏好的物品,和i越相似的j越可能是我们找的目标;参数gate=sigmoid(Wfi(i,j)),通过学习确定,用于自动分配两种奖励所占比重。奖励函数能判断寻找到的目标节点是否符合我们的要求。
上述实施例中,基于图神经网络对知识图谱和探索策略构建策略网络定义目标商品,并计算目标商品的奖励函数和损失函数,能够有效的提高推荐准确性,并具有良好的鲁棒性,能够合理准确的给用户推荐商品,实现了冷启动对用户推荐商品并提高了推荐的可靠性和准确性。
可选地,作为本发明的一个实施例,所述步骤S4的过程包括:
S4.1:通过累计奖励和策略梯度算法对所述采样器进行优化,得到所述目标商品j累积折扣奖励的最大化值,公式为:
Figure BDA0003089179800000191
其中,λ为折扣率,策略π得到的所述节点j最大的经验奖励;
S4.2:通过BPR贝叶斯个性化排序损失函数和随机梯度下降法进行推荐优化,得到目标商品j最小损失值:
Figure BDA0003089179800000192
S4.3:根据反向传播算法得到目标商品j推荐模型,并通过所述训练集对所述商品推荐模型进行训练,得到经训练后的商品推荐模型。
应理解地,步骤S4.1中,对于采样器,通过累计奖励和策略梯度算法进行优化,其目标函数是累积折扣奖励最大化,λ为折扣率,含义为通过不断优化,策略π得到的j能获得最大的经验奖励。
上述实施例中,通过损失函数和奖励函数分别计算出知识图谱数据集中各个数据的总损失值和累计奖励,再通过反向传播算法对所有数据的总损失值和累计奖励进行反向传播,得到商品推荐模型,并通过训练集对商品推荐模型进行训练,能够有效的提高推荐准确性,并具有良好的鲁棒性,能够合理准确的给用户推荐商品,实现了冷启动对用户推荐商品并提高了推荐的可靠性和准确性。
可选地,作为本发明的一个实施例,所述步骤S5的过程包括:
在数据集中,所述历史商品分别记作
Figure BDA0003089179800000201
则:
Figure BDA0003089179800000202
其中,concate为向量拼接操作,k为用户u购买过的历史商品数量,i为将历史商品拼接成一个历史商品向量;
在每次推荐过程中,用户u分别记作
Figure BDA0003089179800000203
则:
Figure BDA0003089179800000204
其中,user为将用户拼接成一个用户向量;
目标商品j分别记作
Figure BDA0003089179800000205
则:
Figure BDA0003089179800000206
通过用户u和历史商品i得到用户对历史商品i的购买意愿信息,具体为:
p(u,i)=user⊙i,
通过用户u和目标商品j得到用户对目标商品的购买意愿信息:
p(u,j)=user⊙j,
通过所述用户对目标商品的购买意愿与所述用户对历史商品的购买意愿信息进行对比,并将对比结果作为商品推荐结果,具体为:
Figure BDA0003089179800000207
应理解地,商品推荐模型为用户u进行k次推荐;在每次推荐过程中,用户u分别记作
Figure BDA0003089179800000208
应理解地,商品推荐模型推荐了k个目标商品j,所述目标商品j分别记作
Figure BDA0003089179800000209
应理解地,将所述用户u和所述历史商品i相乘,结果反映了用户对历史商品i的购买意愿。
具体地,将所述用户u和所述目标商品j相乘,结果反映了用户对目标商品的购买意愿。
具体地,将用户对目标商品的购买意愿与对历史商品的购买意愿进行对比,比值趋近于1,表明推荐的商品和用户购买过的商品越相近,推荐效果越好。
上述实施例中,将测试集输入经训练后的商品推荐模型中,通过经训练后的商品推荐模型得到商品推荐结果,能够有效的提高推荐准确性,并具有良好的鲁棒性,能够合理准确的给用户推荐商品,实现了冷启动对用户推荐商品并提高了推荐的可靠性和准确性。
图2为本发明实施例提供的一种商品信息推荐系统的模块框图。
可选地,作为本发明的另一个实施例,如图2所示,一种商品信息推荐系统,包括:
原始数据集处理模块,用于导入原始数据集,将所述原始数据集处理成知识图谱,通过知识图谱形式得到知识图谱数据集,并将所述知识图谱数据集划分为训练集和测试集;
策略构建模块,用于根据强化学习方法构建探索策略;
目标商品定义模块,用于基于图神经网络对所述知识图谱和所述探索策略构建策略网络定义目标商品,并计算目标商品的奖励函数和损失函数;
模型训练模块,用于通过损失函数和奖励函数分别计算出所述知识图谱数据集中各个数据的总损失值和累计奖励,再通过反向传播算法对所有数据的总损失值和累计奖励进行反向传播,得到商品推荐模型,并通过所述训练集对所述商品推荐模型进行训练;
商品推荐结果获得模块,用于将所述测试集输入经训练后的商品推荐模型中,通过经训练后的商品推荐模型得到商品推荐结果。
可选地,作为本发明的一个实施例,所述原始数据集处理模块具体用于:
定义原始数据集O={(u,i)|u∈U,i∈I},其中,U为用户集,I为商品集,(u,i)为用户u与商品i存在互动;
定义知识图谱G={e,r}|,e为节点,r为节点间关系,其中{u,i}∈e,所述知识图谱包括用户集和商品集,将所述知识图谱以所述互动(u,i)为起点,寻找到中间节点e′,所述中间节点e′与节点i和节点j相连,所述中间节点e′为用户u选择节点i所对应商品的判断因素以及适合用户u的节点j所对应商品的判断因素。
可选地,本发明的另一个实施例提供一种商品信息推荐装置,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,当所述处理器执行所述计算机程序时,实现如上所述的商品信息推荐方法。该装置可为计算机等装置。
可选地,本发明的另一个实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,当所述计算机程序被处理器执行时,实现如上所述的商品信息推荐方法。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种商品信息推荐方法,其特征在于,包括如下步骤:
S1:导入原始数据集,将所述原始数据集处理成知识图谱,通过知识图谱形式得到知识图谱数据集,并将所述知识图谱数据集划分为训练集和测试集;
S2:根据强化学习方法构建探索策略;
S3:基于图神经网络对所述知识图谱和所述探索策略构建策略网络定义目标商品,并计算目标商品的奖励函数和损失函数;
S4:通过损失函数和奖励函数分别计算出所述知识图谱数据集中各个数据的总损失值和累计奖励,再通过反向传播算法对所有数据的总损失值和累计奖励进行反向传播,得到商品推荐模型,并通过所述训练集对所述商品推荐模型进行训练;
S5:将所述测试集输入经训练后的商品推荐模型中,通过经训练后的商品推荐模型得到商品推荐结果。
2.根据权利要求1所述的商品信息推荐方法,其特征在于,所述步骤S1的过程包括:
S1.1:定义原始数据集O={(u,i)|u∈U,i∈I},其中,U为用户集,I为商品集,(u,i)为用户u与商品i存在互动;
S1.2:定义知识图谱G={e,r}|,e为节点,r为节点间关系,其中{u,i}∈e,所述知识图谱包括用户集和商品集,将所述知识图谱以所述互动(u,i)为起点,寻找到中间节点e′,所述中间节点e′与节点i和节点j相连,所述中间节点e′为用户u选择节点i所对应商品的判断因素以及适合用户u的节点j所对应商品的判断因素。
3.根据权利要求2所述的商品信息推荐方法,其特征在于,所述步骤S2的过程具体包括:
S2.1:基于马尔可夫决策过程定义寻找目标节点的采样过程,所述采样过程的过程包括:所述目标节点为M={S,A,P,R};其中,A={a},A为探索动作a的集合,S={s},S为状态s的集合,P为状态s的转移函数,R为奖励函数,采样器为fS(),参数为θS
S2.2:定义探索过程,所述定义探索过程的过程包括:在任一探索步骤t中,定义采样的动作at=(et→et′→et+1),ɑt为两跳的路径,所述ɑt包括(et,et′)和(et′,et+1)两跳路径,所述路径在T次探索后,通过所述采样器生成2T跳的路径;定义探索策略π=(e1,e2…eT),eT为所述采样器最终选择的目标节点,并将所述目标节点eT作为目标商品推荐给用户;
S2.3:定义探索状态,所述定义探索状态的过程包括:在任一探索步骤t中,所述采样器当前访问节点et,定义状态st=(u,et),探索步骤t为(s0,a1,s1…at,st),初始化状态s0=(u,i)为以所述互动(u,i)为起点开始探索的状态;
S2.4:定义探索动作,所述定义探索动作的过程包括:在任一探索步骤t中,所述节点et所有的探索动作at构成动作空间At
S2.5:定义转移函数,所述定义转移函数的过程包括:在任一探索步骤t中,动作at由状态st转移到下一个状态时需要的转移函数为:
P(st+1=(u,et+1)|st=(u,et),at=(et→et′→et+1))=1),
从而构建得到探索策略。
4.根据权利要求3所述的商品信息推荐方法,其特征在于,所述步骤S3的过程包括:
S3.1:根据图神经网络中的GraphSage算法,在所述知识图谱G和用户商品图O+上生成节点的嵌入表示,在第l个图卷积层,节点e表示为
Figure FDA0003089179790000031
节点e的邻居节点集合Ne表示为
Figure FDA0003089179790000039
节点e聚合所述节点e邻居节点集Ne的信息并更新表示,其中,
Figure FDA0003089179790000032
其中,
Figure FDA0003089179790000033
其中,
Figure FDA0003089179790000034
为所述节点e经过l次传播后的表示,所述
Figure FDA0003089179790000035
为所述节点e经过第l-1次传播后的表示,W(l)为权重矩阵,||为连接操作,ρ为LeakyReLU激活函数,
Figure FDA0003089179790000036
为所述节点e经过第l-1次传播后的邻居集合表示;
每个零节点信息表示为
Figure FDA0003089179790000037
经过L次传播后的节点表示为
Figure FDA0003089179790000038
并将经过L次传播后的节点表示嵌入到知识表示中;
S3.2:经过所述GraphSage算法的节点表示为:
Figure FDA00030891797900000310
经过GCN的节点表示为:
Figure FDA00030891797900000311
S3.3:构建基于GraphSage算法的GCN策略网络,所述构建基于GraphSage算法的GCN策略网络包括:
通过GCN网络生成的节点表示hGCN经过GraphSage生成节点表示hGraphSage,并经过dropout生成最终的节点表示hout;其公式为:
hout=dropout(hGraphSage),
其中,hGraphSage=GraphSage(hGCN),
或构建基于GCN的GraphSage策略网络,所述构建基于GCN的GraphSage策略网络的过程包括:
将所述知识图谱数据集分别经过GraphSage算法和GCN生成的节点分别表示为所述hGraphSage和所述hGCN,并将两者相加后并通过GCN层生成表示h′GCN,并经过dropout生成最终的节点表示hout;其公式为:
hout=dropout(h′GCN),
其中,h′GCN=GCN(hGraphSage+hGCN);
S3.4:定义探索步骤,所述定义探索步骤的过程包括:
在所述状态st=(u,et)中,所述动作at=(et→et′→et+1)包括两个环节,第一环节为(et,et′),第二环节为(et′,et+1),所述动作at=(et→et′→et+1)满足
P(at,st)=P((et,et)|st)·P((et′,et+1)|st,(et,et′)),
其中,P(at,st)为目标节点et+1的概率,
经过所述第一环节和所述第二环节的节点选择,最终得到目标节点;
S3.5:计算知识图谱节点的邻居节点注意力,所述计算知识图谱节点的邻居节点注意力的过程包括:
所述节点et的邻居节点et′重要性表示为:
Figure FDA0003089179790000041
Figure FDA0003089179790000042
P(et,et′)为et′能获得注意力大小或选择概率;
利用softmax函数进行归一化处理:
所述节点et的某个所述邻居节点et′在所有邻居节点et″中能获得的注意力为:
Figure FDA0003089179790000051
S3.6:计算商品的邻居节点注意力,所述计算商品的邻居节点注意力的过程包括;
从所述节点et′邻居中选出目标节点et+1;选择所述目标节点et+1的概率为
Figure FDA0003089179790000052
所述目标节点et+1在所述节点et′所有邻居e″t+1中被选中的概率为
Figure FDA0003089179790000053
Figure FDA0003089179790000054
经过两次注意力的计算选出概率为P(at,st)的节点,将概率最高的目标节点et+1作为所述目标商品j推荐给所述用户u;
S3.7:邻居节点简化,所述邻居节点简化的过程包括:
所述节点e的邻居节点集Ne中随机采样n1个节点构成集合
Figure FDA0003089179790000055
使用评分函数
Figure FDA0003089179790000056
匹配e和e′的相似度,选出排名靠前的n2个节点构成集合
Figure FDA0003089179790000057
用所述集合
Figure FDA0003089179790000058
代替所述邻居节点集Ne,其中,n2<n1
S3.8:计算所述目标商品j的奖励函数,所述计算所述目标商品的奖励函数的过程包括:
R(j)=gate*fu(u,j)+(1-gate)*fi(i,j),
其中,fu(u,j)=ru Trj为所述用户u和所述节点j的匹配程度,fi(i,j)=ri Trj为所述节点j和所述商品i的相似度,gate=sigmoid(Wfi(i,j))为分配预测奖励与相似度奖励所占比重;
S3.9计算目标商品j的损失函数,所述计算目标商品j的损失函数的过程包括:
计算所述目标商品j的损失值为:
Figure FDA0003089179790000061
其中,
Figure FDA0003089179790000062
为L2正则化项,σ为sigmoid函数;ru为用户信息,ri为历史商品信息,rj为推荐商品信息。
5.根据权利要求4所述的商品信息推荐方法,其特征在于,所述步骤S4的过程包括:
S4.1:通过累计奖励和策略梯度算法对所述采样器进行优化,得到所述目标商品j累积折扣奖励的最大化值,公式为:
Figure FDA0003089179790000063
其中,λ为折扣率,策略π得到的所述节点j最大的经验奖励;
S4.2:通过BPR贝叶斯个性化排序损失函数和随机梯度下降法进行推荐优化,得到目标商品j最小损失值:
Figure FDA0003089179790000064
S4.3:根据反向传播算法得到目标商品j推荐模型,并通过所述训练集对所述商品推荐模型进行训练,得到经训练后的商品推荐模型。
6.根据权利要求5所述的商品信息推荐方法,其特征在于,所述步骤S5的过程包括:
在数据集中,所述历史商品分别记作
Figure FDA0003089179790000065
则:
Figure FDA0003089179790000066
其中,concate为向量拼接操作,k为用户u购买过的历史商品数量,i为将历史商品拼接成一个历史商品向量;
在每次推荐过程中,用户u分别记作
Figure FDA0003089179790000071
则:
Figure FDA0003089179790000072
其中,user为将用户拼接成一个用户向量;
目标商品j分别记作
Figure FDA0003089179790000073
则:
Figure FDA0003089179790000074
通过用户u和历史商品i得到用户对历史商品i的购买意愿信息,具体为:
p(u,i)=user⊙i,
通过用户u和目标商品j得到用户对目标商品的购买意愿信息:
p(u,j)=user⊙j,
通过所述用户对目标商品的购买意愿与所述用户对历史商品的购买意愿信息进行对比,并将对比结果作为商品推荐结果,具体为:
Figure FDA0003089179790000075
7.一种商品信息推荐系统,其特征在于,包括:
原始数据集处理模块,用于导入原始数据集,将所述原始数据集处理成知识图谱,通过知识图谱形式得到知识图谱数据集,并将所述知识图谱数据集划分为训练集和测试集;
策略构建模块,用于根据强化学习方法构建探索策略;
目标商品定义模块,用于基于图神经网络对所述知识图谱和所述探索策略构建策略网络定义目标商品,并计算目标商品的奖励函数和损失函数;
模型训练模块,用于通过损失函数和奖励函数分别计算出所述知识图谱数据集中各个数据的总损失值和累计奖励,再通过反向传播算法对所有数据的总损失值和累计奖励进行反向传播,得到商品推荐模型,并通过所述训练集对所述商品推荐模型进行训练;
商品推荐结果获得模块,用于将所述测试集输入经训练后的商品推荐模型中,通过经训练后的商品推荐模型得到商品推荐结果。
8.根据权利要求7所述的商品信息推荐系统,其特征在于,所述原始数据集处理模块具体用于:
定义原始数据集O={(u,i)|u∈U,i∈I},其中,U为用户集,I为商品集,(u,i)为用户u与商品i存在互动;
定义知识图谱G={e,r}|,e为节点,r为节点间关系,其中{u,i}∈e,所述知识图谱包括用户集和商品集,将所述知识图谱以所述互动(u,i)为起点,寻找到中间节点e′,所述中间节点e′与节点i和节点j相连,所述中间节点e′为用户u选择节点i所对应商品的判断因素以及适合用户u的节点j所对应商品的判断因素。
9.一种商品信息推荐装置,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,当所述处理器执行所述计算机程序时,实现如权利要求1至6任一项所述的商品信息推荐方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,当所述计算机程序被处理器执行时,实现如权利要求1至6任一项所述的商品信息推荐方法。
CN202110590095.7A 2021-05-28 2021-05-28 一种商品信息推荐方法、系统和存储介质 Active CN113222711B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110590095.7A CN113222711B (zh) 2021-05-28 2021-05-28 一种商品信息推荐方法、系统和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110590095.7A CN113222711B (zh) 2021-05-28 2021-05-28 一种商品信息推荐方法、系统和存储介质

Publications (2)

Publication Number Publication Date
CN113222711A true CN113222711A (zh) 2021-08-06
CN113222711B CN113222711B (zh) 2022-04-19

Family

ID=77098980

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110590095.7A Active CN113222711B (zh) 2021-05-28 2021-05-28 一种商品信息推荐方法、系统和存储介质

Country Status (1)

Country Link
CN (1) CN113222711B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113658718A (zh) * 2021-08-20 2021-11-16 清华大学 一种个体疫情防控方法及系统
KR102557827B1 (ko) * 2022-03-29 2023-07-19 고려대학교 산학협력단 그래프 데이터 기반 관련 과목 추천 시스템 및 그 방법, 이를 수행하기 위한 기록매체
CN117710067A (zh) * 2024-02-05 2024-03-15 成都工业职业技术学院 一种边缘计算方法、装置、设备及可读存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180165745A1 (en) * 2016-12-09 2018-06-14 Alibaba Group Holding Limited Intelligent Recommendation Method and System
US20180374138A1 (en) * 2017-06-23 2018-12-27 Vufind Inc. Leveraging delayed and partial reward in deep reinforcement learning artificial intelligence systems to provide purchase recommendations
CN110990589A (zh) * 2019-12-14 2020-04-10 周世海 一种基于深度强化学习的知识图谱自动生成方法
CN111581343A (zh) * 2020-04-24 2020-08-25 北京航空航天大学 基于图卷积神经网络的强化学习知识图谱推理方法及装置
CN112232925A (zh) * 2020-11-02 2021-01-15 哈尔滨工程大学 一种融合知识图谱对商品进行个性化推荐的方法
CN112800207A (zh) * 2021-01-13 2021-05-14 桂林电子科技大学 一种商品信息推荐方法、装置及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180165745A1 (en) * 2016-12-09 2018-06-14 Alibaba Group Holding Limited Intelligent Recommendation Method and System
US20180374138A1 (en) * 2017-06-23 2018-12-27 Vufind Inc. Leveraging delayed and partial reward in deep reinforcement learning artificial intelligence systems to provide purchase recommendations
CN110990589A (zh) * 2019-12-14 2020-04-10 周世海 一种基于深度强化学习的知识图谱自动生成方法
CN111581343A (zh) * 2020-04-24 2020-08-25 北京航空航天大学 基于图卷积神经网络的强化学习知识图谱推理方法及装置
CN112232925A (zh) * 2020-11-02 2021-01-15 哈尔滨工程大学 一种融合知识图谱对商品进行个性化推荐的方法
CN112800207A (zh) * 2021-01-13 2021-05-14 桂林电子科技大学 一种商品信息推荐方法、装置及存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113658718A (zh) * 2021-08-20 2021-11-16 清华大学 一种个体疫情防控方法及系统
CN113658718B (zh) * 2021-08-20 2024-02-27 清华大学 一种个体疫情防控方法及系统
KR102557827B1 (ko) * 2022-03-29 2023-07-19 고려대학교 산학협력단 그래프 데이터 기반 관련 과목 추천 시스템 및 그 방법, 이를 수행하기 위한 기록매체
CN117710067A (zh) * 2024-02-05 2024-03-15 成都工业职业技术学院 一种边缘计算方法、装置、设备及可读存储介质

Also Published As

Publication number Publication date
CN113222711B (zh) 2022-04-19

Similar Documents

Publication Publication Date Title
CN108648049B (zh) 一种基于用户行为区别建模的序列推荐方法
CN113222711B (zh) 一种商品信息推荐方法、系统和存储介质
CN110717098B (zh) 基于元路径的上下文感知用户建模方法、序列推荐方法
Forouzandeh et al. Presentation a Trust Walker for rating prediction in recommender system with Biased Random Walk: Effects of H-index centrality, similarity in items and friends
US20230153857A1 (en) Recommendation model training method, recommendation method, apparatus, and computer-readable medium
CN111242729A (zh) 一种基于长短期兴趣的序列化推荐方法
CN113256367B (zh) 用户行为历史数据的商品推荐方法、系统、设备及介质
Chen et al. Dig users’ intentions via attention flow network for personalized recommendation
US11636394B2 (en) Differentiable user-item co-clustering
Choudhary et al. SARWAS: Deep ensemble learning techniques for sentiment based recommendation system
Michailidis Investigating machine learning methods in recommender systems
Leng et al. Recurrent convolution basket map for diversity next-basket recommendation
Hao et al. Multi-dimensional graph neural network for sequential recommendation
Ali et al. Inferring context with reliable collaborators: a novel similarity estimation method for recommender systems
CN113763095B (zh) 信息推荐方法、装置和模型训练方法、装置
Kumar et al. Mgu-gnn: Minimal gated unit based graph neural network for session-based recommendation
Cao et al. Implicit user relationships across sessions enhanced graph for session-based recommendation
Luo et al. Adaptive attention-aware gated recurrent unit for sequential recommendation
CN116911949A (zh) 基于边界排名损失和邻域感知图神经网络的物品推荐方法
Arthur et al. A heterogeneous couplings and persuasive user/item information model for next basket recommendation
CN115600009A (zh) 一种考虑用户未来偏好的基于深度强化学习的推荐方法
Desrosiers et al. Solving the sparsity problem: collaborative filtering via indirect similarities
Kao et al. Inter-purchase time prediction based on deep learning.
Gondaliya et al. Multi-batch quasi-Newton method with artificial neural network for movie recommendation
Ma et al. Modeling periodic pattern with self-attention network for sequential recommendation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant