CN115374347A - 一种基于知识图注意力网络的社交推荐方法 - Google Patents

一种基于知识图注意力网络的社交推荐方法 Download PDF

Info

Publication number
CN115374347A
CN115374347A CN202210802836.8A CN202210802836A CN115374347A CN 115374347 A CN115374347 A CN 115374347A CN 202210802836 A CN202210802836 A CN 202210802836A CN 115374347 A CN115374347 A CN 115374347A
Authority
CN
China
Prior art keywords
user
vector
representing
item
graph
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210802836.8A
Other languages
English (en)
Inventor
王逊
徐长林
黄树成
金梦清
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu University of Science and Technology
Original Assignee
Jiangsu University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu University of Science and Technology filed Critical Jiangsu University of Science and Technology
Priority to CN202210802836.8A priority Critical patent/CN115374347A/zh
Publication of CN115374347A publication Critical patent/CN115374347A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Animal Behavior & Ethology (AREA)
  • Tourism & Hospitality (AREA)
  • Economics (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出了一种基于知识图注意力网络的社交推荐方法,属于数据挖掘、机器学习技术领域,本方法首先将社交网络和用户‑项目二部图结合,构建社交推荐图,使用户可以捕获其他相似用户与项目的交互记录,为用户挖掘可能感兴趣但缺乏交互的项目。然后与项目知识图谱一同输入,构建两条数据处理通道,利用注意力机制计算传播权重,分别进行多层卷积,输出每层的用户和项目特征表达,最后将多层特征融合,进行计算得到用户对项目的兴趣评分。本发明考虑了用户间的相似性对推荐结果的影响,更深层次的挖掘了用户的兴趣,同时利用两种图谱进行建模,分开处理,解决了用户和项目实体之间特征不兼容的问题,使得推荐效果更具解释性,精确度更高。

Description

一种基于知识图注意力网络的社交推荐方法
技术领域
本发明属于计算机技术领域,具体地说,是涉及一种基于知识图注意力网络的社交推荐方法。
背景技术
推荐系统作为大数据领域内的一项热门技术,其有效的解决了当今互联网时代所产生的信息过载问题,能够为用户提供更合适的优质内容。近年来,推荐系统在电子商务、影视音乐、新闻、社交等平台发挥着重要的作用,满足了用户的个性化需求。传统的推荐方法大多利用协同过滤的方法,其通过对用户和项目建模来实现推荐效果,但存在着数据稀疏和冷启动的问题。为了解决这些问题,目前有很多方法利用了知识图谱和图神经网络技术搭建推荐模型,取得了可观的效果,并且具有较好的可解释性。但是存在着一些不足,在实际推荐场景中,推荐系统锁定某一用户的部分兴趣后,会重复固定的推荐用户的部分感兴趣项目,难以为用户挖掘新内容。在现实生活中,用户在做决策时会利用社交关系寻求建议,大多数的模型忽略了用户间的相似作用,没有考虑到用户与用户之间的社交信息,同时存在很多模型,将用户、项目和项目属性放在一起建模,缺乏分明的数据传输通道,存在着用户和项目间关系、项目和项目属性间关系,这两类关系不兼容的问题,会导致实体在丰富自身表达的同时融合不准确的信息,故此增加模型的噪声。
发明内容
本发明的目的是为了解决上述现有技术存在的问题,提出一种基于知识图注意力网络的社交推荐方法。
本发明的方法是将用户社交网络和项目知识图谱分开处理,避免产生不同关系对建模的影响,将社交网络和用户-项目二部图进行结合,使用户能够捕获相似用户与项目的交互记录,做到为用户推荐有可能感兴趣但缺乏关联的项目,从而实现为用户个性化推荐项目。
为了达到上述目的,本发明采用如下技术方案予以实现。
一种基于知识图注意力网络的社交推荐方法,包括以下步骤:
S1,通过用户社交信息、用户与项目交互记录,以用户和项目实体为节点,实体间关系为线的方式构建社交推荐图;通过项目三元组数据,以项目实体为节点,项目间关系为线的方式,构建项目知识图谱;
S2,将社交推荐图和项目知识图谱,采用TransD模型进行知识嵌入,获得两个图中实体的向量表达;
S3,将社交推荐图中实体的向量表达,利用图卷积网络的思想,实现邻域消息的传播聚合,通过注意力机制计算网络传播路径的权重,将社交推荐图中的用户-项目二部图先进行一次卷积,使用户实体的向量表达聚合项目实体的向量表达,获得含有邻域项目信息的用户特征向量,然后通过社交网络将用户特征向量进行多次卷积,输出多层用户的特征向量;
S4,将项目知识图谱中的项目向量表达,进行多次传播聚合,计算用户对项目间关系的注意力参数作为传播权重,输出多层项目的特征向量;
S5,将S3和S4中得到的多层用户特征向量和多层项目特征向量进行融合,强化用户和项目特征向量中邻域的表达效果,得到用户和项目的最终特征向量;
S6,根据用户和项目的最终特征向量,利用点乘的方式计算用户对项目的得分,利用损失函数进行优化训练参数,进行多次训练,最后根据得分进行排序,输出用户感兴趣的项目。
进一步地优选,所述S2中的采用TransD模型进行知识嵌入的内容和方法步骤包括:
知识图嵌入技术在能够保留图结构的同时,将实体及其关系进行向量化表示,方便模型利用知识图中的知识数据,其方法是通过向量h+r≈t的方式来学习每个实体和关系的表达,嵌入公式为:
Figure BDA0003734889460000021
其中(h,r,t)表示(头实体,关系,尾实体),g(,r,t)表示嵌入向量,eh,ehp,er,erp,et,etp分别表示三元组(头实体,关系,尾实体)的向量,下标p表示该向量的投影向量,Im×n为一个m×n的单位矩阵,
Figure BDA0003734889460000022
表示第二范式的平方数,公式中的
Figure BDA0003734889460000023
Figure BDA0003734889460000024
分别表示向量h和t的映射矩阵,负责将实体从实体空间映射到关系空间;
嵌入过程中的损失函数的公式为:
Figure BDA0003734889460000031
其中
Figure BDA0003734889460000032
表示损失值,G表示知识图,(h,r,t)∈G表示正采样三元组,(h',r,t′)∈G′表示负采样三元组,其通过替换G中的实体获得,g(h,r,t)表示正采样的嵌入向量,g(h′,r,t′)表示负采样的嵌入向量,max( )表示取最大值函数,γ为边界值,来控制训练程度,其越大,则训练越困难。
进一步地优选,所述S3中的利用图卷积网络的思想,实现邻域消息的传播聚合的内容和方法步骤包括:
根据邻域消息聚合,实现模型的高阶连通性,站在图卷积网络的角度上,其每层之间的聚合过程统一按如下公式表示:
Figure BDA0003734889460000033
其中l为层数,e(l+1)和e(l)分别为l+1层和l层的特征向量,
Figure BDA0003734889460000034
表示包括了自连接的实体节点的邻接矩阵,
Figure BDA0003734889460000035
表示为
Figure BDA0003734889460000036
的度矩阵,w为权重,ReLU()为每层的激活函数。
进一步地优选,所述S3中的利用注意力机制计算网络传播路径的权重的内容和方法步骤包括:
采用注意力机制,为方法中的传播路径设置权重,利用向量之间求内积的方式得到用户与关系之间的得分值,计算公式:
Figure BDA0003734889460000037
其中rh,t表示头实体h与尾实体t之间的关系,eu为用户向量,er为关系向量,
Figure BDA0003734889460000038
表示关系rh,t对用户u的重要性得分;
将得分值进行标准化,即得到模型的注意力权重,公式为:
Figure BDA0003734889460000039
其中
Figure BDA00037348894600000310
表示标准化注意力权重,rh,t表示头实体h与尾实体t之间的关系,exp()表示以e为底的指数运算,
Figure BDA00037348894600000311
表示知识图中所有直接连接到头实体h的尾实体t的集合。
进一步地优选,所述S3中的将社交推荐图中的用户-项目二部图进行一次卷积,使用户实体的向量表达聚合项目实体的向量表达,获得含有邻域项目信息的用户特征向量的内容和方法步骤包括:
将所有与用户产生过交互的项目信息通过卷积网络进行传播聚合,经过一次卷积后,模型将得到聚合了邻域项目信息的向量表示:
Figure BDA0003734889460000041
其中
Figure BDA0003734889460000042
为邻域特征向量,
Figure BDA0003734889460000043
为用户u与项目i之间的连接权重,表示了用户u对交易类型的注重程度,ei为项目向量,
Figure BDA0003734889460000044
表示用户-项目二部图中所有直接连接到用户u的项目i的集合;
在计算了邻域表达后,需要将邻域与自身向量合并,以下为用户向量的合并公式:
Figure BDA0003734889460000045
其中
Figure BDA0003734889460000046
为首层用户特征向量,w为变换权重,b为偏置项,eu为用户向量,
Figure BDA0003734889460000047
为邻域特征向量,σ()表示该层的非线性激活函数。
进一步地优选,所述S3中的通过社交网络将用户特征向量进行多次卷积的内容和方法步骤包括:
通过社交网络传播已经具备项目语义的用户信息,从而达到社交推荐的目的,经过传播后,模型将得到聚合了邻域用户信息的向量表示:
Figure BDA0003734889460000048
其中
Figure BDA0003734889460000049
表示用户u的邻域特征向量,
Figure BDA00037348894600000410
表示邻居用户u′的特征向量,
Figure BDA00037348894600000411
表示社交推荐图中所有直接连接到用户u的其他用户u′的集合,
Figure BDA00037348894600000412
为用户与其他用户之间的连接权重,表示了用户u对u′之间社交关系的注重程度,l表示卷积网络的迭代层数;
在计算了用户邻域表达后,需要将邻域与自身向量合并,以下为用户向量的合并公式:
Figure BDA00037348894600000413
其中
Figure BDA0003734889460000051
表示第l层的用户特征表达,W为变换权重,b为偏置项,
Figure BDA0003734889460000052
为用户自身向量,
Figure BDA0003734889460000053
表示用户u的邻域特征向量,
Figure BDA0003734889460000054
表示社交推荐图中所有直接连接到用户u的其他用户u′的集合,σ()表示该层的非线性激活函数。
进一步地优选,所述S4中的将项目知识图谱中的项目向量表达,进行多次传播聚合的内容和方法步骤包括:
项目知识图是通过关系将项目实体与属性实体连接而成的知识图谱,头实体的邻域经聚合公式为:
Figure BDA0003734889460000055
其中
Figure BDA0003734889460000056
表示头实体邻域特征表达,
Figure BDA0003734889460000057
表示项目知识图谱中所有直接连接到头实体h的尾实体t的集合,
Figure BDA0003734889460000058
是标准化后的注意力权重,表示用户u对头实体与尾实体之间关系rh,t的关注程度,et为尾实体向量;
在计算了项目邻域表达后,需要将邻域与自身向量合并,以下为项目向量的合并公式:
Figure BDA0003734889460000059
其中
Figure BDA00037348894600000510
表示第l层的项目特征表达,W为变换权重,b为偏置项,
Figure BDA00037348894600000511
为项目本身向量,
Figure BDA00037348894600000512
表示头实体h相连的所有邻域尾实体t的特征向量,σ()表示该层的非线性激活函数。
进一步地优选,所述S5中的将多层用户特征向量和多层项目特征向量进行融合的内容和方法步骤包括:
将卷积生成的多层向量采用向量相加的方式进行合并,用户向量的合并公式:
Figure BDA00037348894600000513
其中eu为合并后的最终用户特征向量,l为当前层数,L表示最大层数,即该层的迭代次数,
Figure BDA00037348894600000514
为l层的用户特征向量;
项目向量的合并公式:
Figure BDA0003734889460000061
其中ei为合并后的最终项目特征向量,l为当前层数,L表示最大层数,即该层的迭代次数,
Figure BDA0003734889460000062
为l层的项目特征向量。
进一步地优选,所述S6中的计算用户对项目的得分,利用损失函数进行优化训练参数的内容和方法步骤包括:
按如下公式计算用户与项目的交互概率得分:
Figure BDA0003734889460000063
其中
Figure BDA0003734889460000064
表示用户对项目的预测得分,函数f()表示
Figure BDA0003734889460000065
本方法中为内积函数,eu为用户向量,ei为项目向量;
本方法的总体损失函数为:
Figure BDA0003734889460000066
其中
Figure BDA0003734889460000067
表示损失值,Γ( )为交叉熵损失函数,U表示用户集合,u表示用户,i表示项目,P表示正采样集合,公式中λ为正则化的权重系数,
Figure BDA0003734889460000068
表示用户对项目的预测得分,yui为用户对项目的真实得分,
Figure BDA0003734889460000069
为计算函数,
Figure BDA00037348894600000610
表示第二范式的平方数。
采用上述方案,本发明取得的有益效果为:
(1)本发明提出将用户社交网路和用户-项目二部图结合,构建社交推荐图,利用社交关系传播用户与项目的交互信息,让用户能够获得其他相似用户的交互记录,做到为用户推荐缺乏交互记录但却感兴趣的项目,通过上述方式,使得推荐效果在Last.FM-2K、Yelp2018、CiaoDVD、Delicious-2K四类数据集上的效果均优于SVD等对比模型。
(2)本发明提出将社交推荐图和项目知识图谱分开处理,构建两条数据处理通道,分别输出用户特征和项目特征向量,解决了模型中产生噪声的问题。
(3)本发明提出在社交网络传播中采用注意力机制计算权重,加强了模型的推荐效果,能够让对用户的推荐内容变得更具个性化,在AUC和F1-Score指标中表现出平均0.88和0.856分值的结果,相对于基线方法有3.17%~31.44%的提高。
附图说明
图1为本发明的一种基于知识图注意力网络的社交推荐方法的流程图,
图2为社交推荐知识图,
图3为本发明提出的知识图注意力网络框架SKGAN的结构图,
图4为本发明SKGAN模型与基线模型的评价指标曲线对比图。
具体实施方式
为了使本发明的技术方案及优点更加清楚,下面将结合附图及实施例,对本发明的具体技术方案进行详细描述,本发明不限于具体实施方式的范围。
本发明的一种基于知识图注意力网络的社交推荐方法,如图1所示,为本发明所述方法的基本流程。
S1,通过用户社交信息、用户与项目交互记录,以用户和项目实体为节点,实体间关系为线的方式构建社交推荐图,将用户-项目交互矩阵Y、社交网络与项目知识图谱作为初始输入,将初始数据处理后得到本发明所用到的两个图,首先是用户-项目交互矩阵Y和社交网络的融合后得到的社交推荐图G1,如图2所示,我们通过用户u将两者进行对齐,这里命名为社交推荐知识图(Knowledge Graph of Social Recommendation,KGSR),其中存放着用户的社交关系(例如朋友、家人)以及用户与项目的交互数据(例如点击、收藏、购买等行为),此处将G1定义为
Figure BDA0003734889460000071
当用户之间存在关系时
Figure BDA0003734889460000072
为1,否则为0,当用户和项目存在交互时,yui为1,否则为0,在图中表现为实体间有无关系相连;
通过项目三元组数据,以项目实体为节点,项目间关系为线的方式,构建项目知识图谱,即项目及其属性的知识图G2,这里命名为项目知识图谱(Item Knowledge Graph,IKG),此处将G2定义为
Figure BDA0003734889460000073
每个三元组描述了头实体通过关系联系到尾实体这一事实。
S2,将社交推荐图和项目知识图谱,采用TransD模型进行知识嵌入,获得两个图中实体的向量表达,知识图嵌入技术在能够保留图结构的同时,将实体及其关系进行向量化表示,方便模型利用知识图中的知识数据;
该部分对应知识图注意力网络框架SKGAN模型中的知识图嵌入层,即图3中知识图嵌入层部分,负责将知识图谱的结构化信息进行知识嵌入,其方法是通过向量h+r≈t的方式来学习每个实体和关系的表达,嵌入公式为:
Figure BDA0003734889460000081
其中(h,r,t)表示(头实体,关系,尾实体),g(h,r,t)表示嵌入向量,eh,ehp,er,erp,et,etp分别表示三元组(头实体,关系,尾实体)的向量,下标p表示该向量的投影向量,Im×n为一个m×n的单位矩阵,
Figure BDA0003734889460000082
表示第二范式的平方数,公式中的
Figure BDA0003734889460000083
Figure BDA0003734889460000084
分别表示向量h和t的映射矩阵,负责将实体从实体空间映射到关系空间;
嵌入过程中的损失函数的公式为:
Figure BDA0003734889460000085
其中
Figure BDA0003734889460000086
表示损失值,G表示知识图,(h,r,t)∈G表示正采样三元组,(h',r,t′)∈G表示负采样三元组,其通过替换G中的实体获得,g(h,r,t)表示正采样的嵌入向量,g(h′r,t′)表示负采样的嵌入向量,max( )表示取最大值函数,γ为边界值,来控制训练程度,其越大,则训练越困难。
S3,将社交推荐图中实体的向量表达,利用图卷积网络的思想,实现邻域消息的传播聚合,以发挥模型的高阶连通性,站在图卷积网络的角度上,其每层之间的聚合过程统一按如下公式表示:
Figure BDA0003734889460000087
其中l为层数,e(l+1)和e(l)分别为l+1层和l层的特征向量,
Figure BDA0003734889460000088
表示包括了自连接的实体节点的邻接矩阵,
Figure BDA0003734889460000089
表示为
Figure BDA00037348894600000810
的度矩阵,w为权重,ReLU( )为每层的激活函数;
采用注意力机制,为方法中的传播路径设置权重,利用向量之间求内积的方式得到用户与关系之间的得分值,计算公式:
Figure BDA00037348894600000811
其中rh,t表示头实体h与尾实体t之间的关系,eu为用户向量,er为关系向量,
Figure BDA0003734889460000091
表示关系rh,t对用户u的重要性得分;
将得分值进行标准化,即得到模型的注意力权重,公式为:
Figure BDA0003734889460000092
其中
Figure BDA0003734889460000093
表示标准化注意力权重,rh,t表示头实体h与尾实体t之间的关系,exp()表示以e为底的指数运算,
Figure BDA0003734889460000094
表示知识图中所有直接连接到头实体h的尾实体t的集合;
在得到注意力权重后,将社交推荐图中的用户-项目二部图先进行一次卷积,使用户实体的向量表达聚合项目实体的向量表达,获得含有邻域项目信息的用户特征向量,即图3中图卷积层的左上部分所示;
聚合与用户相连的邻域项目向量公式:
Figure BDA0003734889460000095
其中
Figure BDA0003734889460000096
为邻域特征向量,
Figure BDA0003734889460000097
为用户u与项目i之间的连接权重,表示了用户u对交易类型的注重程度,ei为项目向量,
Figure BDA0003734889460000098
表示用户-项目二部图中所有直接连接到用户u的项目i的集合;
在计算了邻域表达后,需要将邻域与自身向量合并,以下为用户向量的合并公式:
Figure BDA0003734889460000099
其中
Figure BDA00037348894600000910
为首层用户特征向量,W为变换权重,b为偏置项,eu为用户向量,
Figure BDA00037348894600000911
为邻域特征向量,σ()表示该层的非线性激活函数;
然后通过社交网络将用户特征向量进行多次卷积,输出多层用户的特征向量,通过社交网络传播已经具备项目语义的用户信息,从而达到社交推荐的目的,经过传播后,模型将得到聚合了邻域用户信息的向量表示,即图3中图卷积层的右上部分所示;
聚合与用户相连的其他邻域用户公式:
Figure BDA0003734889460000101
其中
Figure BDA0003734889460000102
表示用户u的邻域特征向量,
Figure BDA0003734889460000103
表示邻居用户u′的特征向量,
Figure BDA0003734889460000104
表示社交推荐图中所有直接连接到用户u的其他用户u′的集合,
Figure BDA0003734889460000105
为用户与其他用户之间的连接权重,表示了用户u对u′之间社交关系的注重程度,l表示卷积网络的迭代层数;
在计算了用户邻域表达后,需要将邻域与自身向量合并,以下为用户向量的合并公式:
Figure BDA0003734889460000106
其中
Figure BDA0003734889460000107
表示第l层的用户特征表达,W为变换权重,b为偏置项,
Figure BDA0003734889460000108
为用户自身向量,
Figure BDA0003734889460000109
表示用户u的邻域特征向量,
Figure BDA00037348894600001010
表示社交推荐图中所有直接连接到用户u的其他用户u′的集合,σ()表示该层的非线性激活函数。
S4,将项目知识图谱中的项目向量表达,进行多次传播聚合,计算用户对项目间关系的注意力参数作为传播权重,输出多层项目的特征向量,项目知识图是通过关系将项目实体与属性实体连接而成的知识图谱,将项目知识图谱聚合的过程,如图3中图卷积层的下半部分所示;
头实体的邻域聚合公式为:
Figure BDA00037348894600001011
其中
Figure BDA00037348894600001012
表示头实体邻域特征表达,
Figure BDA00037348894600001013
表示项目知识图谱中所有直接连接到头实体h的尾实体t的集合,
Figure BDA00037348894600001014
是标准化后的注意力权重,表示用户u对头实体与尾实体之间关系rh,t的关注程度,et为尾实体向量;
在计算了项目邻域表达后,需要将邻域与自身向量合并,以下为项目向量的合并公式:
Figure BDA00037348894600001015
其中
Figure BDA00037348894600001016
表示第l层的项目特征表达,W为变换权重,b为偏置项,
Figure BDA00037348894600001017
为项目本身向量,
Figure BDA00037348894600001018
表示头实体h相连的所有邻域尾实体t的特征向量,σ()表示该层的非线性激活函数。
S5,将S3和S4中得到的多层用户特征向量和多层项目特征向量进行融合,强化用户和项目特征向量中邻域的表达效果,得到用户和项目的最终特征向量,将卷积生成的多层向量采用向量相加的方式进行合并,如图3中向量合并层所示,其负责输出用户和项目的最终特征向量;
用户向量的合并公式:
Figure BDA0003734889460000111
其中eu为合并后的最终用户特征向量,l为当前层数,L表示最大层数,即该层的迭代次数,
Figure BDA0003734889460000112
为l层的用户特征向量;
项目向量的合并公式:
Figure BDA0003734889460000113
其中ei为合并后的最终项目特征向量,l为当前层数,L表示最大层数,即该层的迭代次数,
Figure BDA0003734889460000114
为l层的项目特征向量。
S6,根据用户和项目的最终特征向量,利用点乘的方式计算用户对项目的得分,利用损失函数进行优化训练参数,进行多次训练,最后根据得分进行排序,输出用户感兴趣的项目;
本发明的目标是学习训练一个预测函数
Figure BDA0003734889460000115
即图3中的预测层,将用户向量和项目向量进行计算,得出能够体现用户对项目感兴趣程度的预测值,其中yui表示用户对项目的真实得分,Θ表示函数
Figure BDA0003734889460000116
的模型参数,按如下公式计算用户与项目的交互概率得分:
Figure BDA0003734889460000117
其中
Figure BDA0003734889460000118
表示用户对项目的预测得分,函数f()表示
Figure BDA0003734889460000119
本方法中为内积函数,eu为用户向量,ei为项目向量;
本方法的总体损失函数为:
Figure BDA0003734889460000121
其中
Figure BDA0003734889460000122
表示损失值,Γ()为交叉熵损失函数,U表示用户集合,u表示用户,i表示项目,P表示正采样集合,公式中λ为正则化的权重系数,
Figure BDA0003734889460000123
表示用户对项目的预测得分,yui为用户对项目的真实得分,
Figure BDA0003734889460000124
为计算函数,
Figure BDA0003734889460000125
表示第二范式的平方数。
实验数据集:
本次发明所做实验中用的四个数据集都是包含社交关系,且广泛应用于推荐场景下的公开数据集,其详细信息如表1所示。其中Last.FM-2K是一组来自Last.fm音乐平台的数据,其包括了接近2000名用户的收听信息,并含有一万多对双向用户好友关系。Yelp是一个商户点评网站,Yelp2018数据集来自于该网站的挑战赛,其中包括了4万多用户对商家的打分、评论等信息,并包括了用户间的社交信息和丰富的项目知识图谱。CiaoDVD数据集是来自于dvd.ciao.co.uk网站,其提供了大量的电影评分,以及电影信息,同时用户可以添加信任用户,构建社交网络。Delicious-2K数据来自delicious网站,是一组包含了社交网络、书签和标记信息的书签系统数据集。
表1实验数据集信息
Last.FM-2K Yelp2018 CiaoDVD Delicious-2K
用户数 1872 45919 30444 1867
项目数 3846 45538 16121 104799
交互次数 42346 1185068 1625480 437593
实体数 9366 90961 46565 160054
关系种类 60 42 23 9
三元组数 15518 1853704 1738278 452924
模型参数设置:
对于SKGAN模型中的σ,我们采用tanh作为卷积网络最后一层聚合的激活函数,模型中的其他部分使用ReLU作为激活函数。我们将超参数中的最大层数和维度分别设置为L=2和d=5。由于4个数据集的实体数量不同,为了避免过拟合,实现更好的训练效果,因此我们对Last.FM-2K和Delicious-2K两个小型数据集进行训练时,将学习速率η,正则化系数λ,以及训练批量分别设置为{5×10-4,10-4,128},对于数据量较多的Yelp2018和CiaoDVD数据集的参数设置为{10-2,10-6,2048}。数据集采用7:2:1的比例分别作为训练、测试、评估使用,将整个模型的训练过程重复5次,取输出结果的平均值作为最后结果。
为了验证SKGAN模型的有效性,我们将与以下几种模型进行对照:
SVD是一个经典的协同过滤模型,其基于用户和项目的特征向量相乘得到交互概率的方式,来训练用户特征和项目特征,进行建模;
CKE是一个以协同过滤为基础,同时融合知识图谱等辅助信息来增强推荐效果的经典推荐模型;
KGCN模型将图卷积网络引入到了推荐系统领域内,使用卷积的思想对知识图谱中的实体进行邻域聚合,深度挖掘项目信息,增强实体的特征表达,从而达到丰富项目向量的目的,聚合项目向量的同时借助注意力机制,学习用户的兴趣偏向,增强权重的效果。最后使用得到的项目向量和用户向量执行计算,输出交互概率;
KGAT模型进一步运用了注意力机制,同时将用户-项目二部图与知识图谱结合,构建成协作知识图CKG,可以得到高阶关联信息,以便更深度的挖掘用户与项目的高阶特征;
实验结果分析:
本发明采用ROC曲线下面积AUC,与精确率和召回率的调和平均数F1-Score作为实验的评价指标,实验结果如表2所示,其中加粗指标为最优结果;
表2实验结果
Figure BDA0003734889460000131
通过实验,我们可以看出SVD模型由于缺乏知识图谱等辅助信息的帮助,从而表现差于其他四类模型;KGCN和KGAT较好的利用了知识图的卷积作用,其基于信息传播的方式,更好的挖掘了知识图谱中的高阶关联,同时使用了注意力机制获得用户对于知识图谱中关系r的偏好得分,去更好的更新图卷积中的权重,所以在结果上优于CKE;本发明的SKGAN在其他四类模型的基础上融入了社交网络,与知识图谱以及注意力机制合并,通过利用用户社交信息在网络中的传播作用,去探索用户的潜在兴趣,从而在AUC以及F1指标中表现出普遍最优的结果;
图4中是各类模型在Top-K的推荐场景下,以Recall@K作为评价指标,通过实验得到的折线图。从图4的(a)和(b)的对比中能够看出,在数据量更大的Yelp2018数据集中,SKGAN模型利用优质的社交网络可以表现出最好的性能,更够好的利用密集度较大的数据信息,图卷积网络经过多次训练,更好的提取了知识图谱中的用户和项目特征信息,由于Last.FM-2K数据较为稀疏,社交网络难以发挥较好的作用,从而使得KGCN、KGAT和SKGAN效果相近,并且与CKE的最后召回率接近,但最终表现都优于只使用了协同过滤的SVD模型。在图4的(c)中,由于CiaoDVD数据集侧重于用户的社交信息质量,所以本发明模型SKGAN的召回率比其他数据集中要偏高一些。在图4的(d)中各个模型表现没有拉开太大差距。最终来看,SKGAN模型能够在各类推荐场景中表现出较好的推荐效果。
模型结构分析:
此处将对模型进行分析,讨论SKGAN模型在不同的网络结构下的表现情况,以不同聚合层数和采样数情况下的AUC值作为评测标准;
首先设定SKGAN在聚合时的采样数为4,同时调整图卷积网络的聚合层数,分别设置为1,2,3,4。实验结果如表3所示,可以看出采样数为4的情况下,聚合层数为2层时,本模型在4个数据集上的综合表现效果最好,在卷积层增加为3到4时,模型效果迅速下降。该结果说明了当层数为1时,模型不足以完全实现邻域聚合,不能够很好的发挥辅助信息和社交信息的作用,当层数较大时,由与社交网络和知识图谱中消息的过度传播,会让关系链中节点数目快速增长,从而使用户和项目特征参杂较多无用的信息,导致模型失去效果;
表3 SKGAN在不同卷积网络层数下的AUC值
Figure BDA0003734889460000141
Figure BDA0003734889460000151
在确定卷积层数为2的情况下,我们将采样数分别设置为2,4,8,16,32,64,来对比观察模型AUC值的变化情况。实验结果如表4所示,当采样数为4或8时,SKGAN的表现效果较好。该结果表明了,采样数较少时无法完全发挥邻域节点的作用,采样数较大时,会使模型中出现多余信息,从而产生噪声,影响模型精确度。因此,为SKGAN设置较少的聚合层数和适中的采样数,可以更好的发挥模型的推荐效果。
表4 SKGAN在不同采样下的AUC值
K 2 4 8 16 32 64
Last.FM-2K 0.724 0.796 0.785 0.681 0.652 0.633
Yelp2018 0.873 0.961 0.983 0.976 0.941 0.927
CiaoDVD 0.867 0.896 0.913 0.904 0.840 0.835
Delicious-2K 0.764 0.828 0.821 0.796 0.757 0.714
本发明提出的一个基于知识图注意力网络的推荐模型SKGAN,该模型通过挖掘社交网络和用户-项目二部图之间的关系,为用户表达融入相似用户的特征信息,同时采用注意力机制计算用户对传播关系的注重程度,并通过多层卷积聚合,进一步丰富特征表达,进而得到具备个性化的用户特征,最终将用户特征和项目知识图谱输出的项目特征进行计算。该模型在传播特征时将用户与项目知识图谱分离,避免了项目的属性实体对用户表达的干扰,同时利用社交信息中的类似用户,实现为用户推荐没有交互关系的潜在感兴趣项目。实验表明,该模型具有较高的精确度,优于其他模型,适用于电商、音乐等具有社交信息的推荐场景。
以上所述,为本发明的基本原理和实施方案,并不用于限制本发明,以及实验验证的结果,表明了本发明的优点和效果。凡在本发明的精神和原理的内所作的任何修改、等同替换、改进等,均应包括在本发明的权利要求范围之内。

Claims (9)

1.一种基于知识图注意力网络的社交推荐方法,其特征在于,包括以下步骤:
S1,通过用户社交信息、用户与项目交互记录,以用户和项目实体为节点,实体间关系为线的方式构建社交推荐图;通过项目三元组数据,以项目实体为节点,项目间关系为线的方式,构建项目知识图谱;
S2,将社交推荐图和项目知识图谱,采用TransD模型进行知识嵌入,获得两个图中实体的向量表达;
S3,将社交推荐图中实体的向量表达,利用图卷积网络的思想,实现邻域消息的传播聚合,通过注意力机制计算网络传播路径的权重,将社交推荐图中的用户-项目二部图先进行一次卷积,使用户实体的向量表达聚合项目实体的向量表达,获得含有邻域项目信息的用户特征向量,然后通过社交网络将用户特征向量进行多次卷积,输出多层用户的特征向量;
S4,将项目知识图谱中的项目向量表达,进行多次传播聚合,计算用户对项目间关系的注意力参数作为传播权重,输出多层项目的特征向量;
S5,将S3和S4中得到的多层用户特征向量和多层项目特征向量进行融合,强化用户和项目特征向量中邻域的表达效果,得到用户和项目的最终特征向量;
S6,根据用户和项目的最终特征向量,利用点乘的方式计算用户对项目的得分,利用损失函数进行优化训练参数,进行多次训练,最后根据得分进行排序,输出用户感兴趣的项目。
2.根据权利要求1所述的一种基于知识图注意力网络的社交推荐方法,其特征在于,所述S2中的采用TransD模型进行知识嵌入的内容和方法步骤包括:
知识图嵌入技术在能够保留图结构的同时,将实体及其关系进行向量化表示,方便模型利用知识图中的知识数据,其方法是通过向量h+r≈t的方式来学习每个实体和关系的表达,嵌入公式为:
Figure FDA0003734889450000011
其中(h,r,t)表示(头实体,关系,尾实体),g(h,r,t)表示嵌入向量,eh,ehp,er,erp,et,etp分别表示三元组(头实体,关系,尾实体)的向量,下标p表示该向量的投影向量,Im×n为一个m×n的单位矩阵,
Figure FDA0003734889450000012
表示第二范式的平方数,公式中的
Figure FDA0003734889450000013
Figure FDA0003734889450000014
分别表示向量h和t的映射矩阵,负责将实体从实体空间映射到关系空间;
嵌入过程中的损失函数的公式为:
Figure FDA0003734889450000021
其中
Figure FDA0003734889450000022
表示损失值,G表示知识图,(h,r,t)∈G表示正采样三元组,(h′,r,t′)∈G′表示负采样三元组,其通过替换G中的实体获得,g(h,r,t)表示正采样的嵌入向量,g(h′,r,t′)表示负采样的嵌入向量,max()表示取最大值函数,γ为边界值,来控制训练程度,其越大,则训练越困难。
3.根据权利要求1所述的一种基于知识图注意力网络的社交推荐方法,其特征在于,所述S3中的利用图卷积网络的思想,实现邻域消息的传播聚合的内容和方法步骤包括:
根据邻域消息聚合,实现模型的高阶连通性,站在图卷积网络的角度上,其每层之间的聚合过程统一按如下公式表示:
Figure FDA0003734889450000023
其中l为层数,e(l+1)和e(l)分别为l+1层和l层的特征向量,
Figure FDA0003734889450000024
表示包括了自连接的实体节点的邻接矩阵,
Figure FDA0003734889450000025
表示为
Figure FDA0003734889450000026
的度矩阵,w为权重,ReLU()为每层的激活函数。
4.根据权利要求1所述的一种基于知识图注意力网络的社交推荐方法,其特征在于,所述S3中的利用注意力机制计算网络传播路径的权重的内容和方法步骤包括:
采用注意力机制,为方法中的传播路径设置权重,利用向量之间求内积的方式得到用户与关系之间的得分值,计算公式:
Figure FDA0003734889450000027
其中rh,t表示头实体h与尾实体t之间的关系,eu为用户向量,er为关系向量,
Figure FDA0003734889450000028
表示关系rh,t对用户u的重要性得分;
将得分值进行标准化,即得到模型的注意力权重,公式为:
Figure FDA0003734889450000029
其中
Figure FDA00037348894500000210
表示标准化注意力权重,rh,t表示头实体h与尾实体t之间的关系,exp()表示以e为底的指数运算,
Figure FDA0003734889450000031
表示知识图中所有直接连接到头实体h的尾实体t的集合。
5.根据权利要求1所述的一种基于知识图注意力网络的社交推荐方法,其特征在于,所述S3中的将社交推荐图中的用户-项目二部图进行一次卷积,使用户实体的向量表达聚合项目实体的向量表达,获得含有邻域项目信息的用户特征向量的内容和方法步骤包括:
将所有与用户产生过交互的项目信息通过卷积网络进行传播聚合,经过一次卷积后,模型将得到聚合了邻域项目信息的向量表示:
Figure FDA0003734889450000032
其中
Figure FDA0003734889450000033
为邻域特征向量,
Figure FDA0003734889450000034
为用户u与项目i之间的连接权重,表示了用户u对交易类型的注重程度,ei为项目向量,
Figure FDA0003734889450000035
表示用户-项目二部图中所有直接连接到用户u的项目i的集合;
在计算了邻域表达后,需要将邻域与自身向量合并,以下为用户向量的合并公式:
Figure FDA0003734889450000036
其中
Figure FDA0003734889450000037
为首层用户特征向量,W为变换权重,b为偏置项,eu为用户向量,
Figure FDA0003734889450000038
为邻域特征向量,σ()表示该层的非线性激活函数。
6.根据权利要求1所述的一种基于知识图注意力网络的社交推荐方法,其特征在于,所述S3中的通过社交网络将用户特征向量进行多次卷积的内容和方法步骤包括:
通过社交网络传播已经具备项目语义的用户信息,从而达到社交推荐的目的,经过传播后,模型将得到聚合了邻域用户信息的向量表示:
Figure FDA0003734889450000039
其中
Figure FDA00037348894500000310
表示用户u的邻域特征向量,
Figure FDA00037348894500000311
表示邻居用户u′的特征向量,
Figure FDA00037348894500000312
表示社交推荐图中所有直接连接到用户u的其他用户u′的集合,
Figure FDA00037348894500000313
为用户与其他用户之间的连接权重,表示了用户u对u′之间社交关系的注重程度,l表示卷积网络的迭代层数;
在计算了用户邻域表达后,需要将邻域与自身向量合并,以下为用户向量的合并公式:
Figure FDA0003734889450000041
其中
Figure FDA0003734889450000042
表示第l层的用户特征表达,W为变换权重,b为偏置项,
Figure FDA0003734889450000043
为用户自身向量,
Figure FDA0003734889450000044
表示用户u的邻域特征向量,
Figure FDA0003734889450000045
表示社交推荐图中所有直接连接到用户u的其他用户u′的集合,σ()表示该层的非线性激活函数。
7.根据权利要求1所述的一种基于知识图注意力网络的社交推荐方法,其特征在于,所述S4中的将项目知识图谱中的项目向量表达,进行多次传播聚合的内容和方法步骤包括:
项目知识图是通过关系将项目实体与属性实体连接而成的知识图谱,头实体的邻域经聚合公式为:
Figure FDA0003734889450000046
其中
Figure FDA0003734889450000047
表示头实体邻域特征表达,
Figure FDA0003734889450000048
表示项目知识图谱中所有直接连接到头实体h的尾实体t的集合,
Figure FDA0003734889450000049
是标准化后的注意力权重,表示用户u对头实体与尾实体之间关系rh,t的关注程度,et为尾实体向量;
在计算了项目邻域表达后,需要将邻域与自身向量合并,以下为项目向量的合并公式:
Figure FDA00037348894500000410
其中
Figure FDA00037348894500000411
表示第l层的项目特征表达,W为变换权重,b为偏置项,
Figure FDA00037348894500000412
为项目本身向量,
Figure FDA00037348894500000413
表示头实体h相连的所有邻域尾实体t的特征向量,σ()表示该层的非线性激活函数。
8.根据权利要求1所述的一种基于知识图注意力网络的社交推荐方法,其特征在于,所述S5中的将多层用户特征向量和多层项目特征向量进行融合的内容和方法步骤包括:
将卷积生成的多层向量采用向量相加的方式进行合并,用户向量的合并公式:
Figure FDA00037348894500000414
其中eu为合并后的最终用户特征向量,l为当前层数,L表示最大层数,即该层的迭代次数,
Figure FDA00037348894500000415
为l层的用户特征向量;
项目向量的合并公式:
Figure FDA0003734889450000051
其中ei为合并后的最终项目特征向量,l为当前层数,L表示最大层数,即该层的迭代次数,
Figure FDA0003734889450000052
为l层的项目特征向量。
9.根据权利要求1所述的一种基于知识图注意力网络的社交推荐方法,其特征在于,所述S6中的计算用户对项目的得分,利用损失函数进行优化训练参数的内容和方法步骤包括:
按如下公式计算用户与项目的交互概率得分:
Figure FDA0003734889450000053
其中
Figure FDA0003734889450000054
表示用户对项目的预测得分,函数f()表示
Figure FDA0003734889450000055
本方法中为内积函数,eu为用户向量,ei为项目向量;
本方法的总体损失函数为:
Figure FDA0003734889450000056
其中
Figure FDA0003734889450000057
表示损失值,Γ()为交叉熵损失函数,U表示用户集合,u表示用户,i表示项目,P表示正采样集合,公式中λ为正则化的权重系数,
Figure FDA0003734889450000058
表示用户对项目的预测得分,yui为用户对项目的真实得分,
Figure FDA0003734889450000059
为计算函数,
Figure FDA00037348894500000510
表示第二范式的平方数。
CN202210802836.8A 2022-07-07 2022-07-07 一种基于知识图注意力网络的社交推荐方法 Pending CN115374347A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210802836.8A CN115374347A (zh) 2022-07-07 2022-07-07 一种基于知识图注意力网络的社交推荐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210802836.8A CN115374347A (zh) 2022-07-07 2022-07-07 一种基于知识图注意力网络的社交推荐方法

Publications (1)

Publication Number Publication Date
CN115374347A true CN115374347A (zh) 2022-11-22

Family

ID=84061694

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210802836.8A Pending CN115374347A (zh) 2022-07-07 2022-07-07 一种基于知识图注意力网络的社交推荐方法

Country Status (1)

Country Link
CN (1) CN115374347A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116308652A (zh) * 2023-03-14 2023-06-23 南京邮电大学 一种基于商品知识图谱和用户社交图谱的推荐系统和方法
CN117171449A (zh) * 2023-09-21 2023-12-05 西南石油大学 一种基于图神经网络的推荐方法
CN117290611A (zh) * 2023-11-24 2023-12-26 北京信立方科技发展股份有限公司 基于多层次知识图谱的仪器推荐方法及装置
CN117648444A (zh) * 2024-01-30 2024-03-05 广东省华南技术转移中心有限公司 基于图卷积属性聚合的专利聚类方法和系统

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116308652A (zh) * 2023-03-14 2023-06-23 南京邮电大学 一种基于商品知识图谱和用户社交图谱的推荐系统和方法
CN117171449A (zh) * 2023-09-21 2023-12-05 西南石油大学 一种基于图神经网络的推荐方法
CN117171449B (zh) * 2023-09-21 2024-03-19 西南石油大学 一种基于图神经网络的推荐方法
CN117290611A (zh) * 2023-11-24 2023-12-26 北京信立方科技发展股份有限公司 基于多层次知识图谱的仪器推荐方法及装置
CN117290611B (zh) * 2023-11-24 2024-02-23 北京信立方科技发展股份有限公司 基于多层次知识图谱的仪器推荐方法及装置
CN117648444A (zh) * 2024-01-30 2024-03-05 广东省华南技术转移中心有限公司 基于图卷积属性聚合的专利聚类方法和系统
CN117648444B (zh) * 2024-01-30 2024-04-30 广东省华南技术转移中心有限公司 基于图卷积属性聚合的专利聚类方法和系统

Similar Documents

Publication Publication Date Title
CN111428147B (zh) 结合社交和兴趣信息的异源图卷积网络的社交推荐方法
CN115374347A (zh) 一种基于知识图注意力网络的社交推荐方法
CN113378048B (zh) 一种基于多视角知识图谱注意力网络的个性化推荐方法
CN111881342A (zh) 一种基于图孪生网络的推荐方法
CN108563755A (zh) 一种基于双向循环神经网络的个性化推荐系统及方法
CN109190030B (zh) 融合node2vec和深度神经网络的隐式反馈推荐方法
WO2023065859A1 (zh) 物品推荐方法、装置及存储介质
CN113918832B (zh) 基于社交关系的图卷积协同过滤推荐系统
Agarwal et al. Trust-enhanced recommendation of friends in web based social networks using genetic algorithms to learn user preferences
CN112417313A (zh) 一种基于知识图卷积网络的模型混合推荐方法
CN113918833B (zh) 通过社交网络关系的图卷积协同过滤实现的产品推荐方法
CN113918834B (zh) 融合社交关系的图卷积协同过滤推荐方法
Yang et al. Bilateral knowledge graph enhanced online course recommendation
CN116340646A (zh) 一种基于超图基序优化多元用户表示的推荐方法
CN114817712A (zh) 一种基于多任务学习和知识图谱增强的项目推荐方法
CN113342994B (zh) 一种基于无采样协作知识图网络的推荐系统
CN111125428A (zh) 基于评分预测函数拟合结构的时间相关电影推荐方法
Zhang et al. Knowledge graph driven recommendation model of graph neural network
CN116664253A (zh) 一种基于广义矩阵分解与遮蔽注意力的项目推荐方法
CN116610874A (zh) 一种基于知识图谱和图神经网络的跨域推荐方法
CN114842247B (zh) 基于特征累加的图卷积网络半监督节点分类方法
CN113744023B (zh) 一种基于图卷积网络的双通道协同过滤推荐方法
CN116306834A (zh) 一种基于全局路径感知图神经网络模型的链路预测方法
CN114329222A (zh) 一种融合注意力机制和双端知识图谱的电影推荐方法
CN115757897A (zh) 一种基于知识图卷积网络的文化资源智能推荐方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination