CN106802956B

CN106802956B - 一种基于加权异构信息网络的电影推荐方法

Info

Publication number: CN106802956B
Application number: CN201710039394.5A
Authority: CN
Inventors: 张海霞; 吕振
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2017-01-19
Filing date: 2017-01-19
Publication date: 2020-06-05
Anticipated expiration: 2037-01-19
Also published as: CN106802956A

Abstract

本发明涉及一种基于加权异构信息网络的电影推荐方法，包括步骤如下：(1)利用异构信息网络中的语义信息和边属性信息，计算得到用户之间基于不同元路径的相似度；(2)将基于不同元路径求得的相似度分别应用到基于用户的协同过滤推荐算法中，得到基于每个相似度的用户评分值；(3)采用监督学习算法为每个用户评分值分配不同的权重，融合为全面考虑多种元路径信息的用户最终评分值。在扩展MovieLens经典数据集上的实验结果表明，本发明所提算法在精确度上较传统算法有显著提高。

Description

一种基于加权异构信息网络的电影推荐方法

技术领域

本发明涉及一种基于加权异构信息网络的电影推荐方法，尤其涉及一种加权异构信息网络中基于元路径计算用户间相似度的新的协同过滤推荐方法，属于数据挖掘和机器学习的技术领域。

背景技术

协同过滤(Collaborative Filtering)是推荐系统发展史上发展最快、应用最广的一类算法，其基本思想是相似的用户对商品的选取也是相似的，根据与目标用户最相似的K个邻居对目标项目的评分来进行推荐。其中，邻居用户是基于用户间的相似度得出的，最常用的相似度度量方式有Pearson相关系数和Cosine相似度。但是传统的相似度度量方式只考虑了用户评分这一个因素，评分矩阵是极其稀疏的，两个用户共同评价的项目非常少，在这种情况下得到的用户相似性是不准确的，最终推荐精度自然不高。

近年来，随着数据库技术、机器学习技术以及网络科学的不断进步，社交网络朝异质性方向发展：网络中包含多种实体(Entity)、实体间存在多种关系(Relation)，这种网络被称为异构信息网络(Heterogeneous Information Network，HIN)。大数据时代的HIN包含丰富的语义信息，对其进行深度挖掘分析能够得到非常有意义的知识，而HIN中包含的更多的有效信息会带来更好地推荐效果，所以近年来在HIN上做推荐问题的研究开始兴起。以图1为例，HIN中不仅包含多种类型的实体(如：用户、电影和导演类型等)，还包含着多种多样的边信息(如：用户对电影的评分、电影的各种属性和边的属性信息等)。为了更好地利用异构网络中所蕴含的多样性内容，可以用元路径(Meta Path)表示不同的关系，表示两个实体之间语义信息的路径为一条元路径，两节点间不同的元路径代表不同的语义联系。利用元路径的概念，我们可以灵活地运用HIN中丰富的信息来做推荐，表1为几个典型的元路径和其分别对应的经典推荐模型。

表1

目前，基于HIN的推荐工作还处于起步阶段，一方面，目前的大多数方法都是旨在融合异构网络中的多元信息并且只考虑了HIN中的部分信息；另一方面，这些方法并没有考虑网络中边属性问题，没有关注由用户两极化评分造成的本质差别，描述的异构网络信息并不准确。以电影推荐网络为例，用户给一部电影评5分代表用户喜欢这部电影，反之如果用户评分为1分则表示用户不喜欢这部电影；同样，一部电影被贴上某种标签的次数越多代表该电影越偏向于此类型。如果在推荐过程中不考虑此种边属性问题，很可能会使推荐结果有所偏差。石川等人第一次提出了加权HIN的概念，通过区分网络中边上的不同属性值来探索更全面的元路径语义信息以实现更准确的推荐，但是该方法并没有提出新的相似度度量方法，而是将有权元路径分解为有确定属性值限定的原子元路径，利用的还是原来的PathSim、HeteSim等相似度度量方法。

中国专利文献CN105373597A公开了基于k-Medoids项目聚类和局部兴趣融合的用户协同过滤推荐方法，该专利通过减缓数据极端稀疏性对协同过滤推荐的影响来提高推荐质量，宏观上看都是对基于用户的协调过滤方法的改进。但是，该专利与本专利方法不同，该专利提出一种基于k-Medoids项目聚类和局部兴趣融合的用户协同过滤推荐方法。首先针对用户-项目矩阵计算任意用户间的相似度，得到全局近邻用户；然后针对用户-项目矩阵对项目进行聚类，计算用户的局部相似度得到局部最近邻用户；最后将全局最近邻和局部最近邻进行融合，预测用户评分。该专利存在以下缺陷：(1)本质上，该发明利用的信息还是只有用户-项目矩阵数据，还是只利用了用户对项目非常稀疏的评分信息，并没有引入其他属性信息或社交关系信息等；(2)在计算用户间相似度或计算项目间相似度对项目聚类时，该发明利用的还是协同过滤技术中的经典的相似度度量方式：余弦相似度、pearson相关系数、修正的余弦相似度等，并没有提出新的相似度度量方式；(3)该发明并没有细粒度地考虑用户对不同项目评分的两极化影响。

中国专利文献CN102231166A公开了基于社会上下文的协同推荐方法，该专利并不是对基于用户的协同过滤推荐技术的改进，而是提出了一种新的基于模型的协同过滤推荐算法，并针对用户对项目的评分数据的稀疏性问题，引入了用户的社会关系数据。首先根据得到用户与项目间的互动矩阵(例如用户对项目的评分数据)，然后得到用户的社会关系矩阵；最后采用带约束的低秩矩阵分解方法来预测用户评分。该专利存在以下缺陷：(1)该专利引入了用户的社会信息即用户间的朋友关系等，但是所考虑的信息并不全面，并没有考虑用户与项目间除评分外的其他信息也没有考虑项目的丰富的属性信息。(2)该专利采用的是矩阵分解方法，与本申请所采用的方法有着本质的区别。(3)该专利并没有细粒度地考虑用户对不同项目评分的两极化影响。

中国专利文献CN106202502A公开了音乐信息网络中用户兴趣发现方法，先从音乐信息网络中通过N步长随机游走得到与用户相关的信息子网以及信息子网的网络模式；然后对信息子网进行剪枝，并在剪枝后的信息子网中利用HeteSim算法计算不同类型节点间相关性，进而得到不同类型边的权重；接着，根据单源最短路径算法得到所有歌曲对之间的最短路径集和最短路径权重，并计算出元路径集和元路径权重；最后，利用PathSelClus算法基于元路径将歌曲聚成三类，根据聚类结果分析出用户对歌曲的兴趣爱好。该专利存在以下缺陷：(1)该专利目的与本申请不同，该发明力图探索用户兴趣，分析用户对歌曲的兴趣爱好，而本申请旨在预测用户对项目的评分，根据评分信息为用户推荐其可能喜欢的具体的项目。(2)该专利利用随机游走建立信息子图，并对剪枝后的网络应用异构信息网络中的经典的计算相关性的算法Hetesim来计算任意两节点间的相似度，将此相关度作为两节点间的权重。该算法是针对无权异构信息网络的相关性度量方法并没有考虑权重信息，无法直接应用到加权异构信息网络中，本申请中提出了一种基于加权异构信息网络的新的相似度度量方式，在实验结果分析部分本发明所提算法也与基于HeteSim的协同过滤算法做过比较，本发明所提算法优于HeteSim。(3)该专利也是基于元路径进行，但是其目的和方法与本申请都不同。

发明内容

针对现有技术的不足，本发明提供了一种基于加权异构信息网络的电影推荐方法；

本发明包括步骤如下：(1)利用异构信息网络中的语义信息和边属性信息，计算得到用户之间基于不同元路径的相似度；(2)将基于不同元路径求得的相似度分别应用到基于用户的协同过滤推荐算法中，得到基于每个相似度的用户评分值；(3)采用监督学习算法为每个用户评分值分配不同的权重，融合为全面考虑多种元路径信息的用户最终评分值。在扩展MovieLens经典数据集上的实验结果表明，本发明所提算法在精确度上较传统算法有显著提高。

本申请引入加权HIN的概念，充分考虑HIN中的节点类型信息和多种边属性信息，并且对用户评分进行了两极化映射处理，提出了一种引入加权异构信息的改进协同过滤算法。

术语解释

1、协同过滤推荐算法，基本思想是相似的用户对商品的选取也是相似的，根据与目标用户最相似的K个邻居对目标项目的评分来进行推荐。

2、异构信息网络(Weighted Heterogeneous InformationNetwork，WHIN)，可以简称为异构网络。若一个信息网络中顶点的类型或者是边的类型的个数超过一个，则此信息网络称为异构信息网络，否则为同构信息网络。

本发明的技术方案为：

一种基于加权异构信息网络的电影推荐方法，包括以下步骤：

(1)对数据集构建加权异构信息网络，并提取出两用户间多种不同的元路径；

(2)用户是否喜欢一部电影受多种因素影响，分别计算用户在对电影M、演员A、导演D、国家C、电影体裁G、电影标签T方面的偏好度；

(3)分别针对用户在每一方面的偏好度，计算两用户间的相似度，若两用户在所有方面的偏好都相似，则两用户相似；否则，两用户偏好相差越大则两用户越不相似；

(4)分别将受偏好度影响的6个相似度应用到协同过滤推荐算法中，预测用户对电影的评分；

(5)用户评分受各种影响因素影响的权重不同，应用经典的线性回归算法为每一个用户对电影的评分分配合适的权重，融合为最终的评分值；

(6)将最终的评分值最高的几部电影推荐给该用户。

所述数据集是指grouplens研究组发布的MovieLens10M扩展数据集，该数据集结合了MovieLens数据集的电影与相应的互联网电影数据库(IMDb)和rottentoMatoes电影评论系统的数据，经过数据预处理去除掉冗杂的演员等信息后，数据集中用户对电影的评分数据共855598个；所述数据集包括实体类型、表示及数目，实体类型包括用户、电影、演员、导演、国家、体裁、标签；表示是指对每种实体类型的表示字符，字符U表示用户类型，字符M表示电影类型，字符A表示演员类型，字符D表示导演类型，字符C表示国家类型，字符G表示体裁类型，字符T表示标签类型；数目是指每种实体类型的个数；所述元路径包括P1、P2、P3、P4、P5、P6，P1＝UMU，P2＝UMAMU，P3＝UMCMU，P4＝UMDMU，P5＝UMGMU，P6＝UMTMU；P1的语义信息是指：与目标用户(U)看过同一部电影(M)的用户(U)；P2的语义信息是指：与目标用户(U)看过同一个演员(A)演过的电影(M)的用户(U)；P3的语义信息是指：与目标用户(U)看过在同一个国家(C)上映的电影(M)的用户(U)；P4的语义信息是指：与目标用户(U)看过由同一个导演(D)执导的电影(M)的用户(U)；P5的语义信息是指：与目标用户(U)看过属于同一个体裁(G)的电影(M)的用户(U)；P6的语义信息是指：与目标用户(U)看过被贴上同一个类型标签T的电影(M)的用户(U)。()中为节点类型，表明上面说的节点是属于何种类型。

根据本发明优选的，所述步骤(2)，用户u_i对影响因素y的偏好度的求取公式如式(Ⅰ)所示：

式(Ⅰ)中，u_i表示用户，u_i属于用户类型U；P为用户u_i到影响因素y的元路径；

为从u_i到y的一个加权路径实例，w为该加权路径上的权重值；

为u_i到y的一个加权路径实例上的权重值；t(u_i，y)为u_i到y的所有加权路径实例上的权重值之和，即要求取的用户u_i对影响因素y的偏好度；影响因素y包括电影、演员、导演、国家、体裁、标签；y属于影响因素y；

以元路径P＝U(W₁)M(W₂)A为例，用户u_i对演员a_j的偏好度为：

u_i属于用户类型U，a_j属于演员类型A。即为用户u_i对演员a_j的所有加权路径实例上的权重之和。用该公式可以推算出所有用户对所有演员基于该元路径的偏好度。如果两用户对所有演员的偏好度越接近，则两用户的喜好越相似。

根据本发明优选的，通过扩展交换矩阵快速计算用户在每一方面的偏好度，包括步骤如下：

A、设定步骤(1)构建的加权异构信息网络

且节点类型映射函数

表示每一个v∈V属于节点类型集合B，即

用ψ表示边类型映射函数，ψ(e)∈R表示每一个e∈E属于边类型集合R；用映射函数Ψ：w→W表示每条边的权重

属于集合W：Ψ(w)∈W；V是指加权异构信息网络中的节点，v是指具体节点对象实例，E是指加权异构信息网络中的边，w是指加权异构信息网络中的边上的权重；加权异构信息网络的网络模式S＝(B,R,W)，B表示网络中的节点类型，R表示网络中的边的类型，W表示网络中边的权重；加权元路径P定义在加权网络模式S＝(B,R,W)上，在不引起歧义的情况下，直接用节点类型和节点间边上的权重来表示加权元路径P，加权元路径P表示为P＝B₁(W₁)B₂(W₂)B₃…(W_l-1)B_l；举例来说，元路径

表示观看同一部电影(M)的两个用户(U)，用元路径可直接表示为U(5)M(2)U。否则，加权元路径表示为：

表示从实体类型B₁到实体类型B_l+1之间的复杂关系R＝R₁οR₂ο…οR_l；ο代表关系上的连接操作，加权元路径P的长度即为R的个数；

对于加权元路径P＝B₁(W₁)B₂(W₂)B₃…(W_l-1)B_l的扩展交换矩阵

如式(Ⅱ)所示：

式(Ⅱ)中，

为节点类型B_i到类型B_j的扩展邻接矩阵；

的定义如式(Ⅲ)所示：

B、

表示x_i∈B_i、y_j∈B_j在元路径P＝B₁(W₁)B₂(W₂)B₃…(W_l-1)B_l下x_i到y_j的所有路径实例的权重之和，即x_i对y_j的偏好度。

对于加权元路径P＝U(W₁)M(W₂)A，扩展交换矩阵为

则

的每一个元素

为第i个用户对第j个演员所主演的所有电影的评分之和。以2个用户，3个演员的两行三列的

矩阵为例，则

矩阵第一行第一个元素即为第一个用户对演员1所主演的所有电影的评分之和，所以

矩阵的第一行的三个元素分别为第一个用户对3个演员所主演电影的评分之和。

根据本发明优选的，所述步骤(3)，包括步骤如下：

矩阵的每一行元素为该行对应的用户对网络中所有演员的偏好度，进行归一化处理后，用每一行数据代表此用户在演员方面的偏好，得到任意两用户u_i与u_j间在演员方面的相似度，如式(Ⅳ)所示：

式(Ⅳ)中，若求取的sim(u_i,u_j)为负值，则用公式sim(u_i,u_j)＝0.5+0.5*sim7u_i,u_j)修正，使其值位于0到1之间，对求取的sim(u_i,u_j)的值从到小进行排序，取前K个值对应的用户

作为与用户u最相似的用户集合。

根据本发明优选的，所述步骤(4)，包括步骤如下：

在基于用户的协同过滤推荐系统中用户u对项目i的评分如式(Ⅴ)所示：

式(Ⅴ)中，r_u,i为用户u对项目i的评分；

为与用户u最相似的用户集合，此处选取与该用户最相似的K＝30个用户作为其相似用户，近邻数K的取值对最后结果的影响将在实验结果分析部分详细说明；

为用户u的平均打分值，消除用户打分偏好对最后结果的影响；k为标准化因子，

本发明的有益效果为：

在引入加权异构网络信息的基础上，本发明提出了一种基于元路径计算用户间相似度的新的协同过滤推荐算法，全面的考虑了电影推荐网络中可能影响到用户对电影评分的多种影响因素，显著地改善了预测用户评分的准确率。

附图说明

图1为加权异构信息网络示意图。

图2为加权异构信息网络的加权网络模式图。

图3(a)为近邻数K对五种算法的平均绝对误差值影响示意图。

图3(b)为近邻数K对五种算法的均方根差值影响示意图。

图4(a)为K＝30时五种算法的平均绝对误差值比较示意图。

图4(b)为K＝30时五种算法的均方根差值比较示意图。

图5是本发明基于加权异构信息网络的电影推荐方法的详细流程图。

具体实施方式

下面结合说明书附图和实施例对本发明作进一步限定，但不限于此。

实施例

一种基于加权异构信息网络的电影推荐方法，如图5所示，包括以下步骤：

(1)对数据集构建加权异构信息网络，并提取出两用户间多种不同的元路径；所述数据集是指grouplens研究组发布的MovieLens10M扩展数据集，该数据集结合了MovieLens数据集的电影与相应的互联网电影数据库(IMDb)和rottentoMatoes电影评论系统的数据，经过数据预处理去除掉冗杂的演员等信息后，数据集中用户对电影的评分数据共855598个；所述数据集包括实体类型、表示及数目，实体类型包括用户、电影、演员、导演、国家、体裁、标签；表示是指对每种实体类型的表示字符，字符U表示用户类型，字符M表示电影类型，字符A表示演员类型，字符D表示导演类型，字符C表示国家类型，字符G表示体裁类型，字符T表示标签类型；数目是指每种实体类型的个数；用户有2113个，电影有10197个，演员有21185个，导演有4060个，国家有72个，体裁有20个，标签有13222个；如表2所示：

表2

实体类型	表示	数目
			用户	U	2113
电影	M	10197
			演员	A	21185
导演	D	4060
			国家	C	72
体裁	G	20
			标签	T	13222

所述元路径包括P1、P2、P3、P4、P5、P6，P1＝UMU，P2＝UMAMU，P3＝UMCMU，P4＝UMDMU，P5＝UMGMU，P6＝UMTMU；P1的语义信息是指：与目标用户(U)看过同一部电影(M)的用户(U)；P2的语义信息是指：与目标用户(U)看过同一个演员(A)演过的电影(M)的用户(U)；P3的语义信息是指：与目标用户(U)看过在同一个国家(C)上映的电影(M)的用户(U)；P4的语义信息是指：与目标用户(U)看过由同一个导演(D)执导的电影(M)的用户(U)；P5的语义信息是指：与目标用户(U)看过属于同一个体裁(G)的电影(M)的用户(U)；P6的语义信息是指：与目标用户(U)看过被贴上同一个类型标签T的电影(M)的用户(U)。()中为节点类型，表明上面说的节点是属于何种类型。

(2)用户是否喜欢一部电影受多种因素影响，分别计算用户在对电影M、演员A、导演D、国家C、电影体裁G、电影标签T方面的偏好度；用户u_i对影响因素y的偏好度的求取公式如式(Ⅰ)所示：

以元路径P＝U(W₁)M(W₂)A为例，用户u_i对演员a_j的偏好度为：

(3)分别针对用户在每一方面的偏好度，计算两用户间的相似度，若两用户在所有方面的偏好都相似，则两用户相似；否则，两用户偏好相差越大则两用户越不相似；通过扩展交换矩阵快速计算用户在每一方面的偏好度，包括步骤如下：

A、设定步骤(1)构建的加权异构信息网络

且节点类型映射函数

表示每一个v∈V属于节点类型集合B，即

属于集合W：Ψ(w)∈W；V是指加权异构信息网络中的节点，v是指具体节点对象实例，E是指加权异构信息网络中的边，w是指加权异构信息网络中的边上的权重；如图1所示；加权异构信息网络的网络模式S＝(B,R,W)，B表示网络中的节点类型，R表示网络中的边的类型，W表示网络中边的权重；加权元路径P定义在加权网络模式S＝(B,R,W)上，在不引起歧义的情况下，直接用节点类型和节点间边上的权重来表示加权元路径P，加权元路径P表示为P＝B₁(W₁)B₂(W₂)B₃…(W_l-1)B_l；举例来说，元路径

表示从实体类型B₁到实体类型B_l+1之间的复杂关系R＝R₁οR₂ο…οR_l；ο代表关系上的连接操作，加权元路径P的长度即为R的个数；如图2所示；

如式(Ⅱ)所示：

式(Ⅱ)中，

为节点类型B_i到类型B_j的扩展邻接矩阵；

的定义如式(Ⅲ)所示：

B、

对于加权元路径P＝U(W₁)M(W₂)A，扩展交换矩阵为

则

的每一个元素

矩阵为例，则

式(Ⅳ)中，若求取的sim(u_i,u_j)为负值，则用公式sim(u_i,u_j)＝0.5+0.5*sim(u_i,u_j)修正，使其值位于0到1之间，对求取的sim(u_i,u_j)的值从到小进行排序，取前K个值对应的用户

作为与用户u最相似的用户集合。

(4)分别将受偏好度影响的6个相似度应用到协同过滤推荐算法中，预测用户对电影的评分；在基于用户的协同过滤推荐系统中用户u对项目i的评分如式(Ⅴ)所示：

式(Ⅴ)中，r_u,i为用户u对项目i的评分；

(6)将最终的评分值最高的几部电影推荐给该用户。

在有权异构信息网络中用户评分用原始评分减去该用户得到6个受不同影响因素影响的用户对电影的评分值。然后采用线性回归方法为每一个基于单一元路径的预测评分值赋予不同的权重，融合为最终的预测评分。即若用户评分均值为3，用户原始评分为5分则在本文改进算法中评分为2分，原始评分为1分则在改进算法中评分为-2分等。表4(a)是电影评分网络中包含5位用户和5部电影的简单例子，展示了5位用户对5部电影的评分情况，括号内为处理后的评分。

表4(a)

用户	Mov1	Mov2	Mov3	Mov4	Mov5
						Ann	1(-2.333)	0	4(0.667)	0	5(1.667)
Mary	5(1.667)	4(0.667)	0	0	1(-2.333)
						Bob	0	5(0.5)	0	0	4(-0.5)
Jim	1(-2.333)	0	4(0.667)	0	5(1.667)
						Mike	3(-0.333)	4(0.667)	0	3(-0.333)	0

表4(b)是网络中用户与演员之间的扩展邻接矩阵W_UA，W_UA＝W_UM*W_MA为用户对某演员所主演的所有电影的评分之和，对扩展邻接矩阵W_UA进行行归一化后每行表示该用户对所有演员的不同偏好度值，用户Ann与用户Mary间的相似度为：

同理可得Ann与其他用户之间的相似度值。

表4(b)

表4(c)中分别是基于同构网络中计算相似度最常用的Cosine相似度与Pearson相关系数和异构网络中计算相似度最常用的PathSim与HeteSim(都基于相同元路径UMAMU)方法得到的用户Ann与其他用户间的相似度。

表4(c)

	Mary	Bob	Jim	Mike
					Cosine	0.238	0.481	1	0.079
Pearson	0.932	0.264	1	0.075
					PathSim	0.75	0.571	1	0.4
HeteSim	0.774	0.632	1	0.4
					Proposed	0.0196	0.25	1	0.75

由表3(a)中的评分信息可知，用户Mary与用户Ann有着相反的喜好，所以两用户的相似度应该非常小，但是由于PathSim和HeteSim方法忽略权重信息，没有考虑用户对电影评分表现出来的对商品的喜爱和厌恶信息，所以最终结果有所偏差。

传统的基于用户的协同过滤推荐算法中最常用的相似度度量方式为Cosine相似度和Pearson相关系数，在HIN中最经典的计算两节点间相似度的方式是基于对称元路径的PathSim算法和基于任意元路径的HeteSim算法。

接下来将比较本文提出的改进协同过滤方法和基于上述四种相似度度量方式的协同过滤算法在不同近邻数K影响下的MAE值和RMSE值。实验采用五折交叉验证方法，最终结果为五次实验结果的平均值。

当近邻数K为20、30、40、50和60时，在扩展MovieLens数据集下比较基于Cosine相似度、Pearson相关系数、PathSim和HeteSim的协同过滤算法和本文引入加权异构信息的改进协同过滤算法的MAE和RMSE大小。实验结果如图3(a)和图3(b)所示。

在MovieLens扩展数据集中，随着邻居数的变化，基于Cosine相似度和Pearson相关系数的协同过滤算法的MAE值始终大于其他三种算法，推测原因可能是因为本数据集稀疏度很高，用户的共同评分项目很少导致最终评分预测准确度低。基于Cosine相似度和Pearson相关系数的协同过滤算法的MAE值在K较小时随着K的增加MAE下降明显，但是当K取40及以上时其MAE值变化极微，稍有下降。

基于HeteSim的协同过滤算法在K取30时MAE值略小于K取20时的MAE值，当K取值大于30时其MAE值变化极小，有些许增加；而基于PathSim的协同过滤算法的MAE值随着K的增加变化不大，略有增加，但始终大于本文所提出的改进协同过滤算法。本文算法通过分析用户间相似度的多种影响因素已捕捉到相对全面的语义信息，所以取较小的近邻数时，随着K的增加，其MAE几乎没有变化，当近邻数取50和60时，由于所取近邻中掺杂了与目标用户不那么相似的用户，这些用户反而会使得其MAE有所增加。如图3(b)，随着所取近邻数K的增加，三种算法的RMSE值的变化趋势与图3中MAE值的变化趋势大致相同，都是在K＝30时表现最优，综上所述，取K＝30。

当近邻数K＝30时，比较三种算法预测用户对电影评分数据的精度，实验结果如图4(a)、图4(b)所示。

由于融合了HIN中多条元路径携带的不同语义信息的综合影响，并考虑了两用户间不同关系上的权重值和用户评分的两极化影响，本文中所提出的改进协同过滤方法表现优于基于Cosine相似度、Pearson相关系数、PathSim和HeteSim的协同过滤算法，其预测评分准确度在MAE和RMSE两种评价指标上均明显小于另两种算法。

Claims

1.一种基于加权异构信息网络的电影推荐方法，其特征在于，包括以下步骤：

(1)对数据集构建加权异构信息网络，并提取出两用户间多种不同的元路径；所述数据集是指grouplens研究组发布的MovieLens10M扩展数据集，所述数据集包括实体类型、表示及数目，实体类型包括用户、电影、演员、导演、国家、体裁、标签；表示是指对每种实体类型的表示字符，字符U表示用户类型，字符M表示电影类型，字符A表示演员类型，字符D表示导演类型，字符C表示国家类型，字符G表示体裁类型，字符T表示标签类型；数目是指每种实体类型的个数；所述元路径包括P1、P2、P3、P4、P5、P6，P1＝UMU，P2＝UMAMU，P3＝UMCMU，P4＝UMDMU，P5＝UMGMU，P6＝UMTMU；P1的语义信息是指：与目标用户看过同一部电影的用户；P2的语义信息是指：与目标用户看过同一个演员演过的电影的用户；P3的语义信息是指：与目标用户看过在同一个国家上映的电影的用户；P4的语义信息是指：与目标用户看过由同一个导演执导的电影的用户；P5的语义信息是指：与目标用户看过属于同一个体裁的电影的用户；P6的语义信息是指：与目标用户看过被贴上同一个类型标签T的电影的用户；

(2)分别计算用户在对电影M、演员A、导演D、国家C、电影体裁G、电影标签T方面的偏好度；用户

对影响因素y的偏好度的求取公式如式(I)所示：

式(I)中，

表示用户，

属于用户类型U；P为用户

到影响因素y的元路径；

为从

到

的一个加权路径实例，ω为该加权路径上的权重值；

为

到

的一个加权路径实例上的权重值；

为

到

的所有加权路径实例上的权重值之和，即要求取的用户

对影响因素y的偏好度；影响因素y包括电影、演员、导演、国家、体裁、标签；

属于影响因素y；

通过扩展交换矩阵快速计算用户在每一方面的偏好度，包括步骤如下：

A、设定步骤(1)构建的加权异构信息网络

且节点类型映射函数

表示每一个υ∈V属于节点类型集合B，即

用ψ表示边类型映射函数，ψ(e)∈R表示每一个e∈E属于边类型集合R；用映射函数Ψ：ω→W表示每条边的权重

属于集合W：Ψ(ω)∈W；V是指加权异构信息网络中的节点，υ是指具体节点对象实例，E是指加权异构信息网络中的边，ω是指加权异构信息网络中的边上的权重；加权异构信息网络的网络模式S＝(B，R，W)，B表示网络中的节点类型，R表示网络中的边的类型，W表示网络中边的权重；加权元路径P定义在加权网络模式S＝(B，R，W)上，在不引起歧义的情况下，直接用节点类型和节点间边上的权重来表示加权元路径P，加权元路径P表示为P＝B₁(W₁)B₂(W₂)B₃…(W_l-1)B_l；否则，加权元路径表示为：