CN106802956B - 一种基于加权异构信息网络的电影推荐方法 - Google Patents

一种基于加权异构信息网络的电影推荐方法 Download PDF

Info

Publication number
CN106802956B
CN106802956B CN201710039394.5A CN201710039394A CN106802956B CN 106802956 B CN106802956 B CN 106802956B CN 201710039394 A CN201710039394 A CN 201710039394A CN 106802956 B CN106802956 B CN 106802956B
Authority
CN
China
Prior art keywords
user
users
weighted
type
movie
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710039394.5A
Other languages
English (en)
Other versions
CN106802956A (zh
Inventor
张海霞
吕振
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong University
Original Assignee
Shandong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong University filed Critical Shandong University
Priority to CN201710039394.5A priority Critical patent/CN106802956B/zh
Publication of CN106802956A publication Critical patent/CN106802956A/zh
Application granted granted Critical
Publication of CN106802956B publication Critical patent/CN106802956B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/735Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/7867Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title and artist information, manually generated time, location and usage information, user ratings

Abstract

本发明涉及一种基于加权异构信息网络的电影推荐方法,包括步骤如下:(1)利用异构信息网络中的语义信息和边属性信息,计算得到用户之间基于不同元路径的相似度;(2)将基于不同元路径求得的相似度分别应用到基于用户的协同过滤推荐算法中,得到基于每个相似度的用户评分值;(3)采用监督学习算法为每个用户评分值分配不同的权重,融合为全面考虑多种元路径信息的用户最终评分值。在扩展MovieLens经典数据集上的实验结果表明,本发明所提算法在精确度上较传统算法有显著提高。

Description

一种基于加权异构信息网络的电影推荐方法
技术领域
本发明涉及一种基于加权异构信息网络的电影推荐方法,尤其涉及一种加权异构信息网络中基于元路径计算用户间相似度的新的协同过滤推荐方法,属于数据挖掘和机器学习的技术领域。
背景技术
协同过滤(Collaborative Filtering)是推荐系统发展史上发展最快、应用最广的一类算法,其基本思想是相似的用户对商品的选取也是相似的,根据与目标用户最相似的K个邻居对目标项目的评分来进行推荐。其中,邻居用户是基于用户间的相似度得出的,最常用的相似度度量方式有Pearson相关系数和Cosine相似度。但是传统的相似度度量方式只考虑了用户评分这一个因素,评分矩阵是极其稀疏的,两个用户共同评价的项目非常少,在这种情况下得到的用户相似性是不准确的,最终推荐精度自然不高。
近年来,随着数据库技术、机器学习技术以及网络科学的不断进步,社交网络朝异质性方向发展:网络中包含多种实体(Entity)、实体间存在多种关系(Relation),这种网络被称为异构信息网络(Heterogeneous Information Network,HIN)。大数据时代的HIN包含丰富的语义信息,对其进行深度挖掘分析能够得到非常有意义的知识,而HIN中包含的更多的有效信息会带来更好地推荐效果,所以近年来在HIN上做推荐问题的研究开始兴起。以图1为例,HIN中不仅包含多种类型的实体(如:用户、电影和导演类型等),还包含着多种多样的边信息(如:用户对电影的评分、电影的各种属性和边的属性信息等)。为了更好地利用异构网络中所蕴含的多样性内容,可以用元路径(Meta Path)表示不同的关系,表示两个实体之间语义信息的路径为一条元路径,两节点间不同的元路径代表不同的语义联系。利用元路径的概念,我们可以灵活地运用HIN中丰富的信息来做推荐,表1为几个典型的元路径和其分别对应的经典推荐模型。
表1
Figure BDA0001214107200000011
Figure BDA0001214107200000021
目前,基于HIN的推荐工作还处于起步阶段,一方面,目前的大多数方法都是旨在融合异构网络中的多元信息并且只考虑了HIN中的部分信息;另一方面,这些方法并没有考虑网络中边属性问题,没有关注由用户两极化评分造成的本质差别,描述的异构网络信息并不准确。以电影推荐网络为例,用户给一部电影评5分代表用户喜欢这部电影,反之如果用户评分为1分则表示用户不喜欢这部电影;同样,一部电影被贴上某种标签的次数越多代表该电影越偏向于此类型。如果在推荐过程中不考虑此种边属性问题,很可能会使推荐结果有所偏差。石川等人第一次提出了加权HIN的概念,通过区分网络中边上的不同属性值来探索更全面的元路径语义信息以实现更准确的推荐,但是该方法并没有提出新的相似度度量方法,而是将有权元路径分解为有确定属性值限定的原子元路径,利用的还是原来的PathSim、HeteSim等相似度度量方法。
中国专利文献CN105373597A公开了基于k-Medoids项目聚类和局部兴趣融合的用户协同过滤推荐方法,该专利通过减缓数据极端稀疏性对协同过滤推荐的影响来提高推荐质量,宏观上看都是对基于用户的协调过滤方法的改进。但是,该专利与本专利方法不同,该专利提出一种基于k-Medoids项目聚类和局部兴趣融合的用户协同过滤推荐方法。首先针对用户-项目矩阵计算任意用户间的相似度,得到全局近邻用户;然后针对用户-项目矩阵对项目进行聚类,计算用户的局部相似度得到局部最近邻用户;最后将全局最近邻和局部最近邻进行融合,预测用户评分。该专利存在以下缺陷:(1)本质上,该发明利用的信息还是只有用户-项目矩阵数据,还是只利用了用户对项目非常稀疏的评分信息,并没有引入其他属性信息或社交关系信息等;(2)在计算用户间相似度或计算项目间相似度对项目聚类时,该发明利用的还是协同过滤技术中的经典的相似度度量方式:余弦相似度、pearson相关系数、修正的余弦相似度等,并没有提出新的相似度度量方式;(3)该发明并没有细粒度地考虑用户对不同项目评分的两极化影响。
中国专利文献CN102231166A公开了基于社会上下文的协同推荐方法,该专利并不是对基于用户的协同过滤推荐技术的改进,而是提出了一种新的基于模型的协同过滤推荐算法,并针对用户对项目的评分数据的稀疏性问题,引入了用户的社会关系数据。首先根据得到用户与项目间的互动矩阵(例如用户对项目的评分数据),然后得到用户的社会关系矩阵;最后采用带约束的低秩矩阵分解方法来预测用户评分。该专利存在以下缺陷:(1)该专利引入了用户的社会信息即用户间的朋友关系等,但是所考虑的信息并不全面,并没有考虑用户与项目间除评分外的其他信息也没有考虑项目的丰富的属性信息。(2)该专利采用的是矩阵分解方法,与本申请所采用的方法有着本质的区别。(3)该专利并没有细粒度地考虑用户对不同项目评分的两极化影响。
中国专利文献CN106202502A公开了音乐信息网络中用户兴趣发现方法,先从音乐信息网络中通过N步长随机游走得到与用户相关的信息子网以及信息子网的网络模式;然后对信息子网进行剪枝,并在剪枝后的信息子网中利用HeteSim算法计算不同类型节点间相关性,进而得到不同类型边的权重;接着,根据单源最短路径算法得到所有歌曲对之间的最短路径集和最短路径权重,并计算出元路径集和元路径权重;最后,利用PathSelClus算法基于元路径将歌曲聚成三类,根据聚类结果分析出用户对歌曲的兴趣爱好。该专利存在以下缺陷:(1)该专利目的与本申请不同,该发明力图探索用户兴趣,分析用户对歌曲的兴趣爱好,而本申请旨在预测用户对项目的评分,根据评分信息为用户推荐其可能喜欢的具体的项目。(2)该专利利用随机游走建立信息子图,并对剪枝后的网络应用异构信息网络中的经典的计算相关性的算法Hetesim来计算任意两节点间的相似度,将此相关度作为两节点间的权重。该算法是针对无权异构信息网络的相关性度量方法并没有考虑权重信息,无法直接应用到加权异构信息网络中,本申请中提出了一种基于加权异构信息网络的新的相似度度量方式,在实验结果分析部分本发明所提算法也与基于HeteSim的协同过滤算法做过比较,本发明所提算法优于HeteSim。(3)该专利也是基于元路径进行,但是其目的和方法与本申请都不同。
发明内容
针对现有技术的不足,本发明提供了一种基于加权异构信息网络的电影推荐方法;
本发明包括步骤如下:(1)利用异构信息网络中的语义信息和边属性信息,计算得到用户之间基于不同元路径的相似度;(2)将基于不同元路径求得的相似度分别应用到基于用户的协同过滤推荐算法中,得到基于每个相似度的用户评分值;(3)采用监督学习算法为每个用户评分值分配不同的权重,融合为全面考虑多种元路径信息的用户最终评分值。在扩展MovieLens经典数据集上的实验结果表明,本发明所提算法在精确度上较传统算法有显著提高。
本申请引入加权HIN的概念,充分考虑HIN中的节点类型信息和多种边属性信息,并且对用户评分进行了两极化映射处理,提出了一种引入加权异构信息的改进协同过滤算法。
术语解释
1、协同过滤推荐算法,基本思想是相似的用户对商品的选取也是相似的,根据与目标用户最相似的K个邻居对目标项目的评分来进行推荐。
2、异构信息网络(Weighted Heterogeneous InformationNetwork,WHIN),可以简称为异构网络。若一个信息网络中顶点的类型或者是边的类型的个数超过一个,则此信息网络称为异构信息网络,否则为同构信息网络。
本发明的技术方案为:
一种基于加权异构信息网络的电影推荐方法,包括以下步骤:
(1)对数据集构建加权异构信息网络,并提取出两用户间多种不同的元路径;
(2)用户是否喜欢一部电影受多种因素影响,分别计算用户在对电影M、演员A、导演D、国家C、电影体裁G、电影标签T方面的偏好度;
(3)分别针对用户在每一方面的偏好度,计算两用户间的相似度,若两用户在所有方面的偏好都相似,则两用户相似;否则,两用户偏好相差越大则两用户越不相似;
(4)分别将受偏好度影响的6个相似度应用到协同过滤推荐算法中,预测用户对电影的评分;
(5)用户评分受各种影响因素影响的权重不同,应用经典的线性回归算法为每一个用户对电影的评分分配合适的权重,融合为最终的评分值;
(6)将最终的评分值最高的几部电影推荐给该用户。
所述数据集是指grouplens研究组发布的MovieLens10M扩展数据集,该数据集结合了MovieLens数据集的电影与相应的互联网电影数据库(IMDb)和rottentoMatoes电影评论系统的数据,经过数据预处理去除掉冗杂的演员等信息后,数据集中用户对电影的评分数据共855598个;所述数据集包括实体类型、表示及数目,实体类型包括用户、电影、演员、导演、国家、体裁、标签;表示是指对每种实体类型的表示字符,字符U表示用户类型,字符M表示电影类型,字符A表示演员类型,字符D表示导演类型,字符C表示国家类型,字符G表示体裁类型,字符T表示标签类型;数目是指每种实体类型的个数;所述元路径包括P1、P2、P3、P4、P5、P6,P1=UMU,P2=UMAMU,P3=UMCMU,P4=UMDMU,P5=UMGMU,P6=UMTMU;P1的语义信息是指:与目标用户(U)看过同一部电影(M)的用户(U);P2的语义信息是指:与目标用户(U)看过同一个演员(A)演过的电影(M)的用户(U);P3的语义信息是指:与目标用户(U)看过在同一个国家(C)上映的电影(M)的用户(U);P4的语义信息是指:与目标用户(U)看过由同一个导演(D)执导的电影(M)的用户(U);P5的语义信息是指:与目标用户(U)看过属于同一个体裁(G)的电影(M)的用户(U);P6的语义信息是指:与目标用户(U)看过被贴上同一个类型标签T的电影(M)的用户(U)。()中为节点类型,表明上面说的节点是属于何种类型。
根据本发明优选的,所述步骤(2),用户ui对影响因素y的偏好度的求取公式如式(Ⅰ)所示:
Figure BDA0001214107200000041
式(Ⅰ)中,ui表示用户,ui属于用户类型U;P为用户ui到影响因素y的元路径;
Figure BDA0001214107200000042
为从ui到y的一个加权路径实例,w为该加权路径上的权重值;
Figure BDA0001214107200000043
为ui到y的一个加权路径实例上的权重值;t(ui,y)为ui到y的所有加权路径实例上的权重值之和,即要求取的用户ui对影响因素y的偏好度;影响因素y包括电影、演员、导演、国家、体裁、标签;y属于影响因素y;
以元路径P=U(W1)M(W2)A为例,用户ui对演员aj的偏好度为:
Figure BDA0001214107200000051
ui属于用户类型U,aj属于演员类型A。即为用户ui对演员aj的所有加权路径实例上的权重之和。用该公式可以推算出所有用户对所有演员基于该元路径的偏好度。如果两用户对所有演员的偏好度越接近,则两用户的喜好越相似。
根据本发明优选的,通过扩展交换矩阵快速计算用户在每一方面的偏好度,包括步骤如下:
A、设定步骤(1)构建的加权异构信息网络
Figure BDA0001214107200000052
且节点类型映射函数
Figure BDA00012141072000000514
表示每一个v∈V属于节点类型集合B,即
Figure BDA00012141072000000515
用ψ表示边类型映射函数,ψ(e)∈R表示每一个e∈E属于边类型集合R;用映射函数Ψ:w→W表示每条边的权重
Figure BDA0001214107200000053
属于集合W:Ψ(w)∈W;V是指加权异构信息网络中的节点,v是指具体节点对象实例,E是指加权异构信息网络中的边,w是指加权异构信息网络中的边上的权重;加权异构信息网络的网络模式S=(B,R,W),B表示网络中的节点类型,R表示网络中的边的类型,W表示网络中边的权重;加权元路径P定义在加权网络模式S=(B,R,W)上,在不引起歧义的情况下,直接用节点类型和节点间边上的权重来表示加权元路径P,加权元路径P表示为P=B1(W1)B2(W2)B3…(Wl-1)Bl;举例来说,元路径
Figure BDA0001214107200000054
表示观看同一部电影(M)的两个用户(U),用元路径可直接表示为U(5)M(2)U。否则,加权元路径表示为:
Figure BDA0001214107200000055
表示从实体类型B1到实体类型Bl+1之间的复杂关系R=R1οR2ο…οRl;ο代表关系上的连接操作,加权元路径P的长度即为R的个数;
对于加权元路径P=B1(W1)B2(W2)B3…(Wl-1)Bl的扩展交换矩阵
Figure BDA0001214107200000058
如式(Ⅱ)所示:
Figure BDA0001214107200000059
式(Ⅱ)中,
Figure BDA00012141072000000510
为节点类型Bi到类型Bj的扩展邻接矩阵;
Figure BDA00012141072000000511
的定义如式(Ⅲ)所示:
Figure BDA00012141072000000512
B、
Figure BDA00012141072000000513
表示xi∈Bi、yj∈Bj在元路径P=B1(W1)B2(W2)B3…(Wl-1)Bl下xi到yj的所有路径实例的权重之和,即xi对yj的偏好度。
对于加权元路径P=U(W1)M(W2)A,扩展交换矩阵为
Figure BDA0001214107200000061
Figure BDA0001214107200000062
的每一个元素
Figure BDA0001214107200000063
为第i个用户对第j个演员所主演的所有电影的评分之和。以2个用户,3个演员的两行三列的
Figure BDA0001214107200000064
矩阵为例,则
Figure BDA0001214107200000065
矩阵第一行第一个元素即为第一个用户对演员1所主演的所有电影的评分之和,所以
Figure BDA0001214107200000066
矩阵的第一行的三个元素分别为第一个用户对3个演员所主演电影的评分之和。
根据本发明优选的,所述步骤(3),包括步骤如下:
Figure BDA0001214107200000067
矩阵的每一行元素为该行对应的用户对网络中所有演员的偏好度,进行归一化处理后,用每一行数据代表此用户在演员方面的偏好,得到任意两用户ui与uj间在演员方面的相似度,如式(Ⅳ)所示:
Figure BDA0001214107200000068
式(Ⅳ)中,若求取的sim(ui,uj)为负值,则用公式sim(ui,uj)=0.5+0.5*sim7ui,uj)修正,使其值位于0到1之间,对求取的sim(ui,uj)的值从到小进行排序,取前K个值对应的用户
Figure BDA0001214107200000069
作为与用户u最相似的用户集合。
根据本发明优选的,所述步骤(4),包括步骤如下:
在基于用户的协同过滤推荐系统中用户u对项目i的评分如式(Ⅴ)所示:
Figure BDA00012141072000000610
式(Ⅴ)中,ru,i为用户u对项目i的评分;
Figure BDA00012141072000000611
为与用户u最相似的用户集合,此处选取与该用户最相似的K=30个用户作为其相似用户,近邻数K的取值对最后结果的影响将在实验结果分析部分详细说明;
Figure BDA00012141072000000612
为用户u的平均打分值,消除用户打分偏好对最后结果的影响;k为标准化因子,
Figure BDA00012141072000000613
本发明的有益效果为:
在引入加权异构网络信息的基础上,本发明提出了一种基于元路径计算用户间相似度的新的协同过滤推荐算法,全面的考虑了电影推荐网络中可能影响到用户对电影评分的多种影响因素,显著地改善了预测用户评分的准确率。
附图说明
图1为加权异构信息网络示意图。
图2为加权异构信息网络的加权网络模式图。
图3(a)为近邻数K对五种算法的平均绝对误差值影响示意图。
图3(b)为近邻数K对五种算法的均方根差值影响示意图。
图4(a)为K=30时五种算法的平均绝对误差值比较示意图。
图4(b)为K=30时五种算法的均方根差值比较示意图。
图5是本发明基于加权异构信息网络的电影推荐方法的详细流程图。
具体实施方式
下面结合说明书附图和实施例对本发明作进一步限定,但不限于此。
实施例
一种基于加权异构信息网络的电影推荐方法,如图5所示,包括以下步骤:
(1)对数据集构建加权异构信息网络,并提取出两用户间多种不同的元路径;所述数据集是指grouplens研究组发布的MovieLens10M扩展数据集,该数据集结合了MovieLens数据集的电影与相应的互联网电影数据库(IMDb)和rottentoMatoes电影评论系统的数据,经过数据预处理去除掉冗杂的演员等信息后,数据集中用户对电影的评分数据共855598个;所述数据集包括实体类型、表示及数目,实体类型包括用户、电影、演员、导演、国家、体裁、标签;表示是指对每种实体类型的表示字符,字符U表示用户类型,字符M表示电影类型,字符A表示演员类型,字符D表示导演类型,字符C表示国家类型,字符G表示体裁类型,字符T表示标签类型;数目是指每种实体类型的个数;用户有2113个,电影有10197个,演员有21185个,导演有4060个,国家有72个,体裁有20个,标签有13222个;如表2所示:
表2
实体类型 表示 数目
用户 U 2113
电影 M 10197
演员 A 21185
导演 D 4060
国家 C 72
体裁 G 20
标签 T 13222
所述元路径包括P1、P2、P3、P4、P5、P6,P1=UMU,P2=UMAMU,P3=UMCMU,P4=UMDMU,P5=UMGMU,P6=UMTMU;P1的语义信息是指:与目标用户(U)看过同一部电影(M)的用户(U);P2的语义信息是指:与目标用户(U)看过同一个演员(A)演过的电影(M)的用户(U);P3的语义信息是指:与目标用户(U)看过在同一个国家(C)上映的电影(M)的用户(U);P4的语义信息是指:与目标用户(U)看过由同一个导演(D)执导的电影(M)的用户(U);P5的语义信息是指:与目标用户(U)看过属于同一个体裁(G)的电影(M)的用户(U);P6的语义信息是指:与目标用户(U)看过被贴上同一个类型标签T的电影(M)的用户(U)。()中为节点类型,表明上面说的节点是属于何种类型。
(2)用户是否喜欢一部电影受多种因素影响,分别计算用户在对电影M、演员A、导演D、国家C、电影体裁G、电影标签T方面的偏好度;用户ui对影响因素y的偏好度的求取公式如式(Ⅰ)所示:
Figure BDA0001214107200000081
式(Ⅰ)中,ui表示用户,ui属于用户类型U;P为用户ui到影响因素y的元路径;
Figure BDA0001214107200000082
为从ui到y的一个加权路径实例,w为该加权路径上的权重值;
Figure BDA0001214107200000083
为ui到y的一个加权路径实例上的权重值;t(ui,y)为ui到y的所有加权路径实例上的权重值之和,即要求取的用户ui对影响因素y的偏好度;影响因素y包括电影、演员、导演、国家、体裁、标签;y属于影响因素y;
以元路径P=U(W1)M(W2)A为例,用户ui对演员aj的偏好度为:
Figure BDA0001214107200000084
ui属于用户类型U,aj属于演员类型A。即为用户ui对演员aj的所有加权路径实例上的权重之和。用该公式可以推算出所有用户对所有演员基于该元路径的偏好度。如果两用户对所有演员的偏好度越接近,则两用户的喜好越相似。
(3)分别针对用户在每一方面的偏好度,计算两用户间的相似度,若两用户在所有方面的偏好都相似,则两用户相似;否则,两用户偏好相差越大则两用户越不相似;通过扩展交换矩阵快速计算用户在每一方面的偏好度,包括步骤如下:
A、设定步骤(1)构建的加权异构信息网络
Figure BDA0001214107200000085
且节点类型映射函数
Figure BDA0001214107200000088
表示每一个v∈V属于节点类型集合B,即
Figure BDA0001214107200000087
用ψ表示边类型映射函数,ψ(e)∈R表示每一个e∈E属于边类型集合R;用映射函数Ψ:w→W表示每条边的权重
Figure BDA0001214107200000086
属于集合W:Ψ(w)∈W;V是指加权异构信息网络中的节点,v是指具体节点对象实例,E是指加权异构信息网络中的边,w是指加权异构信息网络中的边上的权重;如图1所示;加权异构信息网络的网络模式S=(B,R,W),B表示网络中的节点类型,R表示网络中的边的类型,W表示网络中边的权重;加权元路径P定义在加权网络模式S=(B,R,W)上,在不引起歧义的情况下,直接用节点类型和节点间边上的权重来表示加权元路径P,加权元路径P表示为P=B1(W1)B2(W2)B3…(Wl-1)Bl;举例来说,元路径
Figure BDA0001214107200000091
表示观看同一部电影(M)的两个用户(U),用元路径可直接表示为U(5)M(2)U。否则,加权元路径表示为:
Figure BDA0001214107200000092
表示从实体类型B1到实体类型Bl+1之间的复杂关系R=R1οR2ο…οRl;ο代表关系上的连接操作,加权元路径P的长度即为R的个数;如图2所示;
对于加权元路径P=B1(W1)B2(W2)B3…(Wl-1)Bl的扩展交换矩阵
Figure BDA00012141072000000919
如式(Ⅱ)所示:
Figure BDA0001214107200000095
式(Ⅱ)中,
Figure BDA0001214107200000096
为节点类型Bi到类型Bj的扩展邻接矩阵;
Figure BDA0001214107200000097
的定义如式(Ⅲ)所示:
Figure BDA0001214107200000098
B、
Figure BDA0001214107200000099
表示xi∈Bi、yj∈Bj在元路径P=B1(W1)B2(W2)B3…(Wl-1)Bl下xi到yj的所有路径实例的权重之和,即xi对yj的偏好度。
对于加权元路径P=U(W1)M(W2)A,扩展交换矩阵为
Figure BDA00012141072000000910
Figure BDA00012141072000000911
的每一个元素
Figure BDA00012141072000000912
为第i个用户对第j个演员所主演的所有电影的评分之和。以2个用户,3个演员的两行三列的
Figure BDA00012141072000000913
矩阵为例,则
Figure BDA00012141072000000914
矩阵第一行第一个元素即为第一个用户对演员1所主演的所有电影的评分之和,所以
Figure BDA00012141072000000915
矩阵的第一行的三个元素分别为第一个用户对3个演员所主演电影的评分之和。
Figure BDA00012141072000000916
矩阵的每一行元素为该行对应的用户对网络中所有演员的偏好度,进行归一化处理后,用每一行数据代表此用户在演员方面的偏好,得到任意两用户ui与uj间在演员方面的相似度,如式(Ⅳ)所示:
Figure BDA00012141072000000917
式(Ⅳ)中,若求取的sim(ui,uj)为负值,则用公式sim(ui,uj)=0.5+0.5*sim(ui,uj)修正,使其值位于0到1之间,对求取的sim(ui,uj)的值从到小进行排序,取前K个值对应的用户
Figure BDA00012141072000000918
作为与用户u最相似的用户集合。
(4)分别将受偏好度影响的6个相似度应用到协同过滤推荐算法中,预测用户对电影的评分;在基于用户的协同过滤推荐系统中用户u对项目i的评分如式(Ⅴ)所示:
Figure BDA0001214107200000101
式(Ⅴ)中,ru,i为用户u对项目i的评分;
Figure BDA0001214107200000102
为与用户u最相似的用户集合,此处选取与该用户最相似的K=30个用户作为其相似用户,近邻数K的取值对最后结果的影响将在实验结果分析部分详细说明;
Figure BDA0001214107200000103
为用户u的平均打分值,消除用户打分偏好对最后结果的影响;k为标准化因子,
Figure BDA0001214107200000104
(5)用户评分受各种影响因素影响的权重不同,应用经典的线性回归算法为每一个用户对电影的评分分配合适的权重,融合为最终的评分值;
(6)将最终的评分值最高的几部电影推荐给该用户。
在有权异构信息网络中用户评分用原始评分减去该用户得到6个受不同影响因素影响的用户对电影的评分值。然后采用线性回归方法为每一个基于单一元路径的预测评分值赋予不同的权重,融合为最终的预测评分。即若用户评分均值为3,用户原始评分为5分则在本文改进算法中评分为2分,原始评分为1分则在改进算法中评分为-2分等。表4(a)是电影评分网络中包含5位用户和5部电影的简单例子,展示了5位用户对5部电影的评分情况,括号内为处理后的评分。
表4(a)
用户 Mov1 Mov2 Mov3 Mov4 Mov5
Ann 1(-2.333) 0 4(0.667) 0 5(1.667)
Mary 5(1.667) 4(0.667) 0 0 1(-2.333)
Bob 0 5(0.5) 0 0 4(-0.5)
Jim 1(-2.333) 0 4(0.667) 0 5(1.667)
Mike 3(-0.333) 4(0.667) 0 3(-0.333) 0
表4(b)是网络中用户与演员之间的扩展邻接矩阵WUA,WUA=WUM*WMA为用户对某演员所主演的所有电影的评分之和,对扩展邻接矩阵WUA进行行归一化后每行表示该用户对所有演员的不同偏好度值,用户Ann与用户Mary间的相似度为:
Figure BDA0001214107200000105
同理可得Ann与其他用户之间的相似度值。
表4(b)
Figure BDA0001214107200000106
Figure BDA0001214107200000111
表4(c)中分别是基于同构网络中计算相似度最常用的Cosine相似度与Pearson相关系数和异构网络中计算相似度最常用的PathSim与HeteSim(都基于相同元路径UMAMU)方法得到的用户Ann与其他用户间的相似度。
表4(c)
Mary Bob Jim Mike
Cosine 0.238 0.481 1 0.079
Pearson 0.932 0.264 1 0.075
PathSim 0.75 0.571 1 0.4
HeteSim 0.774 0.632 1 0.4
Proposed 0.0196 0.25 1 0.75
由表3(a)中的评分信息可知,用户Mary与用户Ann有着相反的喜好,所以两用户的相似度应该非常小,但是由于PathSim和HeteSim方法忽略权重信息,没有考虑用户对电影评分表现出来的对商品的喜爱和厌恶信息,所以最终结果有所偏差。
传统的基于用户的协同过滤推荐算法中最常用的相似度度量方式为Cosine相似度和Pearson相关系数,在HIN中最经典的计算两节点间相似度的方式是基于对称元路径的PathSim算法和基于任意元路径的HeteSim算法。
接下来将比较本文提出的改进协同过滤方法和基于上述四种相似度度量方式的协同过滤算法在不同近邻数K影响下的MAE值和RMSE值。实验采用五折交叉验证方法,最终结果为五次实验结果的平均值。
当近邻数K为20、30、40、50和60时,在扩展MovieLens数据集下比较基于Cosine相似度、Pearson相关系数、PathSim和HeteSim的协同过滤算法和本文引入加权异构信息的改进协同过滤算法的MAE和RMSE大小。实验结果如图3(a)和图3(b)所示。
在MovieLens扩展数据集中,随着邻居数的变化,基于Cosine相似度和Pearson相关系数的协同过滤算法的MAE值始终大于其他三种算法,推测原因可能是因为本数据集稀疏度很高,用户的共同评分项目很少导致最终评分预测准确度低。基于Cosine相似度和Pearson相关系数的协同过滤算法的MAE值在K较小时随着K的增加MAE下降明显,但是当K取40及以上时其MAE值变化极微,稍有下降。
基于HeteSim的协同过滤算法在K取30时MAE值略小于K取20时的MAE值,当K取值大于30时其MAE值变化极小,有些许增加;而基于PathSim的协同过滤算法的MAE值随着K的增加变化不大,略有增加,但始终大于本文所提出的改进协同过滤算法。本文算法通过分析用户间相似度的多种影响因素已捕捉到相对全面的语义信息,所以取较小的近邻数时,随着K的增加,其MAE几乎没有变化,当近邻数取50和60时,由于所取近邻中掺杂了与目标用户不那么相似的用户,这些用户反而会使得其MAE有所增加。如图3(b),随着所取近邻数K的增加,三种算法的RMSE值的变化趋势与图3中MAE值的变化趋势大致相同,都是在K=30时表现最优,综上所述,取K=30。
当近邻数K=30时,比较三种算法预测用户对电影评分数据的精度,实验结果如图4(a)、图4(b)所示。
由于融合了HIN中多条元路径携带的不同语义信息的综合影响,并考虑了两用户间不同关系上的权重值和用户评分的两极化影响,本文中所提出的改进协同过滤方法表现优于基于Cosine相似度、Pearson相关系数、PathSim和HeteSim的协同过滤算法,其预测评分准确度在MAE和RMSE两种评价指标上均明显小于另两种算法。

Claims (4)

1.一种基于加权异构信息网络的电影推荐方法,其特征在于,包括以下步骤:
(1)对数据集构建加权异构信息网络,并提取出两用户间多种不同的元路径;所述数据集是指grouplens研究组发布的MovieLens10M扩展数据集,所述数据集包括实体类型、表示及数目,实体类型包括用户、电影、演员、导演、国家、体裁、标签;表示是指对每种实体类型的表示字符,字符U表示用户类型,字符M表示电影类型,字符A表示演员类型,字符D表示导演类型,字符C表示国家类型,字符G表示体裁类型,字符T表示标签类型;数目是指每种实体类型的个数;所述元路径包括P1、P2、P3、P4、P5、P6,P1=UMU,P2=UMAMU,P3=UMCMU,P4=UMDMU,P5=UMGMU,P6=UMTMU;P1的语义信息是指:与目标用户看过同一部电影的用户;P2的语义信息是指:与目标用户看过同一个演员演过的电影的用户;P3的语义信息是指:与目标用户看过在同一个国家上映的电影的用户;P4的语义信息是指:与目标用户看过由同一个导演执导的电影的用户;P5的语义信息是指:与目标用户看过属于同一个体裁的电影的用户;P6的语义信息是指:与目标用户看过被贴上同一个类型标签T的电影的用户;
(2)分别计算用户在对电影M、演员A、导演D、国家C、电影体裁G、电影标签T方面的偏好度;用户
Figure FDA00023965061700000120
对影响因素y的偏好度的求取公式如式(I)所示:
Figure FDA0002396506170000011
式(I)中,
Figure FDA0002396506170000012
表示用户,
Figure FDA0002396506170000013
属于用户类型U;P为用户
Figure FDA0002396506170000014
到影响因素y的元路径;
Figure FDA0002396506170000015
为从
Figure FDA0002396506170000016
Figure FDA0002396506170000017
的一个加权路径实例,ω为该加权路径上的权重值;
Figure FDA0002396506170000018
Figure FDA0002396506170000019
Figure FDA00023965061700000110
的一个加权路径实例上的权重值;
Figure FDA00023965061700000111
Figure FDA00023965061700000112
Figure FDA00023965061700000113
的所有加权路径实例上的权重值之和,即要求取的用户
Figure FDA00023965061700000114
对影响因素y的偏好度;影响因素y包括电影、演员、导演、国家、体裁、标签;
Figure FDA00023965061700000115
属于影响因素y;
通过扩展交换矩阵快速计算用户在每一方面的偏好度,包括步骤如下:
A、设定步骤(1)构建的加权异构信息网络
Figure FDA00023965061700000116
且节点类型映射函数
Figure FDA00023965061700000117
表示每一个υ∈V属于节点类型集合B,即
Figure FDA00023965061700000118
用ψ表示边类型映射函数,ψ(e)∈R表示每一个e∈E属于边类型集合R;用映射函数Ψ:ω→W表示每条边的权重
Figure FDA00023965061700000119
属于集合W:Ψ(ω)∈W;V是指加权异构信息网络中的节点,υ是指具体节点对象实例,E是指加权异构信息网络中的边,ω是指加权异构信息网络中的边上的权重;加权异构信息网络的网络模式S=(B,R,W),B表示网络中的节点类型,R表示网络中的边的类型,W表示网络中边的权重;加权元路径P定义在加权网络模式S=(B,R,W)上,在不引起歧义的情况下,直接用节点类型和节点间边上的权重来表示加权元路径P,加权元路径P表示为P=B1(W1)B2(W2)B3…(Wl-1)Bl;否则,加权元路径表示为:
Figure FDA0002396506170000021
表示从实体类型B1到实体类型Bl+1之间的复杂关系
Figure FDA0002396506170000022
Figure FDA0002396506170000023
代表关系上的连接操作,加权元路径P的长度即为R的个数;
对于加权元路径P=B1(W1)B2(W2)B3…(Wl-1)Bl的扩展交换矩阵
Figure FDA00023965061700000212
如式(II)所示:
Figure FDA0002396506170000024
式(II)中,
Figure FDA0002396506170000025
为节点类型Bi到类型Bj的扩展邻接矩阵;
Figure FDA0002396506170000026
的定义如式(III)所示:
Figure FDA0002396506170000027
B、
Figure FDA0002396506170000028
表示xi∈Bi、yj∈Bj在元路径P=B1(W1)B2(W2)B3…(Wl-1)Bl下xi到yj的所有路径实例的权重之和,即xi对yj的偏好度;
(3)分别针对用户在每一方面的偏好度,计算两用户间的相似度,若两用户在所有方面的偏好都相似,则两用户相似;否则,两用户偏好相差越大则两用户越不相似;
(4)分别将受偏好度影响的6个相似度应用到协同过滤推荐算法中,预测用户对电影的评分;
(5)应用经典的线性回归算法为每一个用户对电影的评分分配合适的权重,融合为最终的评分值;
(6)将最终的评分值最高的几部电影推荐给该用户。
2.根据权利要求1所述的一种基于加权异构信息网络的电影推荐方法,其特征在于,包括步骤如下:
Figure FDA00023965061700000210
矩阵的每一行元素为该行对应的用户对网络中所有演员的偏好度,进行归一化处理后,用每一行数据代表此用户在演员方面的偏好,得到任意两用户ui与uj间在演员方面的相似度,如式(IV)所示:
Figure FDA00023965061700000211
式(IV)中,若求取的sim(ui,uj)为负值,则用公式sim(ui,uj)=0.5+0.5*sim(ui,uj)修正,使其值位于0到1之间,对求取的sim(ui,uj)的值从到小进行排序,取前K个值对应的用户
Figure FDA0002396506170000031
作为与用户u最相似的用户集合。
3.根据权利要求2所述的一种基于加权异构信息网络的电影推荐方法,其特征在于,K=30。
4.根据权利要求3所述的一种基于加权异构信息网络的电影推荐方法,其特征在于,所述步骤(4),包括步骤如下:
在基于用户的协同过滤推荐系统中用户u对项目i的评分如式(V)所示:
Figure FDA0002396506170000032
式(V)中,ru,i为用户u对项目i的评分;
Figure FDA0002396506170000033
为与用户u最相似的用户集合,此处选取与该用户最相似的K个用户作为其相似用户;
Figure FDA0002396506170000034
为用户u的平均打分值,消除用户打分偏好对最后结果的影响;k为标准化因子,
Figure FDA0002396506170000035
CN201710039394.5A 2017-01-19 2017-01-19 一种基于加权异构信息网络的电影推荐方法 Active CN106802956B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710039394.5A CN106802956B (zh) 2017-01-19 2017-01-19 一种基于加权异构信息网络的电影推荐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710039394.5A CN106802956B (zh) 2017-01-19 2017-01-19 一种基于加权异构信息网络的电影推荐方法

Publications (2)

Publication Number Publication Date
CN106802956A CN106802956A (zh) 2017-06-06
CN106802956B true CN106802956B (zh) 2020-06-05

Family

ID=58986980

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710039394.5A Active CN106802956B (zh) 2017-01-19 2017-01-19 一种基于加权异构信息网络的电影推荐方法

Country Status (1)

Country Link
CN (1) CN106802956B (zh)

Families Citing this family (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107515898B (zh) * 2017-07-22 2021-06-04 复旦大学 基于数据多样性和任务多样性的轮胎企业销售预测方法
CN107562795A (zh) * 2017-08-01 2018-01-09 广州市香港科大霍英东研究院 基于异构信息网络的推荐方法及装置
CN107491540A (zh) * 2017-08-24 2017-12-19 济南浚达信息技术有限公司 一种结合深度贝叶斯模型和协同异构信息嵌入的电影推荐方法
CN109561350B (zh) * 2017-09-27 2021-06-29 北京国双科技有限公司 用户兴趣度的评价方法和系统
CN107944629B (zh) * 2017-11-30 2020-08-07 北京邮电大学 一种基于异质信息网络表示的推荐方法及装置
CN108171535B (zh) * 2017-12-13 2022-01-28 天津科技大学 一种基于多特征的个性化餐厅推荐算法
CN108415987B (zh) * 2018-02-12 2021-05-11 大连理工大学 一种电影推荐的冷启动解决方法
CN108256590B (zh) * 2018-02-23 2019-04-02 长安大学 一种基于复合元路径的相似出行者识别方法
CN110322895B (zh) * 2018-03-27 2021-07-09 亿度慧达教育科技(北京)有限公司 语音评测方法及计算机存储介质
CN109241341A (zh) * 2018-05-09 2019-01-18 上海大学 一种基于知识图谱的影视择优推荐系统和方法
CN108804683B (zh) * 2018-06-13 2021-11-23 重庆理工大学 结合矩阵分解和协同过滤算法的电影推荐方法
CN109271582B (zh) * 2018-08-20 2022-08-30 东南大学 一种基于带属性元路径的个性化信息推荐方法
CN109542950A (zh) * 2018-11-14 2019-03-29 中国联合网络通信集团有限公司 社会关系的挖掘方法、装置、终端及计算机可读存储介质
CN109710835B (zh) * 2018-11-15 2020-12-29 中国人民解放军国防科技大学 一种带有时间权重的异构信息网络推荐方法
CN109685630B (zh) * 2019-01-09 2020-10-27 苏州大学 电子商务团购推荐方法及系统
CN111507788B (zh) * 2019-01-31 2023-07-14 阿里巴巴华北技术有限公司 数据推荐方法、装置、存储介质及处理器
CN109992784B (zh) * 2019-04-08 2021-03-19 北京航空航天大学 一种融合多模态信息的异构网络构建和距离度量方法
CN110502637B (zh) * 2019-08-27 2022-03-01 秒针信息技术有限公司 一种基于异构信息网络的信息处理方法和信息处理装置
CN111047453A (zh) * 2019-12-04 2020-04-21 兰州交通大学 基于高阶张量分解大规模社交网络社区的检测方法及装置
CN110929046B (zh) * 2019-12-10 2022-09-30 华中师范大学 一种基于异质网络嵌入的知识实体推荐方法及系统
CN111310045A (zh) * 2020-02-16 2020-06-19 重庆邮电大学 一种基于元路径的网络嵌入的电影推荐方法
CN111832724B (zh) * 2020-07-14 2023-03-28 西北工业大学 一种基于深度神经网络的异构网络推荐方法
CN112380360B (zh) * 2020-11-12 2022-03-18 浙江工业大学 异构信息网络中基于元路径的节点查询方法
CN112784171B (zh) * 2021-01-21 2022-11-04 重庆邮电大学 一种基于上下文典型性的电影推荐方法
CN112836119A (zh) * 2021-01-26 2021-05-25 西安理工大学 一种基于加权异构信息网络的景点推荐方法
CN112532755B (zh) * 2021-02-18 2021-05-04 广州汇图计算机信息技术有限公司 一种基于异构信息网络的兴趣列表推送系统
CN112800342B (zh) * 2021-04-15 2021-07-02 中国人民解放军国防科技大学 基于异质信息的推荐方法、系统、计算机设备和存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103955535A (zh) * 2014-05-14 2014-07-30 南京大学镇江高新技术研究院 一种基于元路径的个性化推荐方法及系统
CN104077351A (zh) * 2014-05-26 2014-10-01 东北师范大学 基于异构信息网络的内容提供方法及系统
CN106095974A (zh) * 2016-06-20 2016-11-09 上海理工大学 基于网络结构相似性的推荐系统评分预测与推荐算法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103955535A (zh) * 2014-05-14 2014-07-30 南京大学镇江高新技术研究院 一种基于元路径的个性化推荐方法及系统
CN104077351A (zh) * 2014-05-26 2014-10-01 东北师范大学 基于异构信息网络的内容提供方法及系统
CN106095974A (zh) * 2016-06-20 2016-11-09 上海理工大学 基于网络结构相似性的推荐系统评分预测与推荐算法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"Semantic Path based Personalized Recommendation on Weighted Heterogeneous Information Networks";Chuan Shi 等;《CIKM "15 Proceedings of the 24th ACM International on Conference on Information and Knowledge Management》;20151023;第453-462页 *

Also Published As

Publication number Publication date
CN106802956A (zh) 2017-06-06

Similar Documents

Publication Publication Date Title
CN106802956B (zh) 一种基于加权异构信息网络的电影推荐方法
Ahmed et al. Movie recommendation system using clustering and pattern recognition network
Amara et al. Collaborating personalized recommender system and content-based recommender system using TextCorpus
Kim et al. A stochastic approach to group recommendations in social media systems
CN113158033A (zh) 一种基于知识图谱偏好传播的协同推荐模型构建方法
Hawashin et al. An efficient hybrid similarity measure based on user interests for recommender systems
KR20160057475A (ko) 소셜 데이터를 능동적으로 획득하기 위한 시스템 및 방법
Kommineni et al. Machine learning based efficient recommendation system for book selection using user based collaborative filtering algorithm
CN110083766B (zh) 一种基于元路径引导嵌入的查询推荐方法及装置
Arora et al. Cross-domain based event recommendation using tensor factorization
Ramadhan et al. Collaborative Filtering Recommender System Based on Memory Based in Twitter Using Decision Tree Learning Classification (Case Study: Movie on Netflix)
Jalal Big data and intelligent software systems
Christensen et al. A hybrid approach for group profiling in recommender systems
Kumar et al. Movie recommender system using machine learning algorithms
Narang et al. Deep content-collaborative recommender system (DCCRS)
Reshak et al. Hybrid recommender system based on matrix factorization
Dixit et al. Proposed similarity measure using Bhattacharyya coefficient for context aware recommender system
CN104641386A (zh) 使用户人群统计信息混淆的方法和装置
CN114022233A (zh) 一种新型的商品推荐方法
Joseph et al. A Comparative Study of Collaborative Movie Recommendation System
Souza Cabral et al. Combining multiple metadata types in movies recommendation using ensemble algorithms
Joshi et al. A survey paper on clustering-based collaborative filtering approach to generate recommendations
Norton et al. HGNNDR: Heterogeneous Graph Neural Network Recommendation Model based on Feature Aggregation
Hwang et al. Integrating multiple linear regression and multicriteria collaborative filtering for better recommendation
Boyko et al. Analysis of Recommendation System Methods for Accuracy of Predicted Estimates.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant