CN112948625B

CN112948625B - 一种基于属性异质信息网络嵌入的电影推荐方法

Info

Publication number: CN112948625B
Application number: CN202110134964.5A
Authority: CN
Inventors: 唐宏; 陈虹羽; 赖雪梅; 郭可可
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2021-02-01
Filing date: 2021-02-01
Publication date: 2022-08-05
Anticipated expiration: 2041-02-01
Also published as: CN112948625A

Abstract

本发明涉及推荐系统技术领域，具体涉及一种基于属性异质信息网络嵌入的电影推荐方法。包括：处理用户和电影的信息用于构建属性异质信息网络；通过元路径的随机游走获得用户节点和电影节点的节点序列；学习各个节点在不同元路径下的网络嵌入向量；融合用户和电影的嵌入向量，结合到评分偏好中，计算出用户对可能感兴趣的电影的评分；根据评分数据，将相似的用户或者电影推荐给用户。本发明能够将用户和电影通过属性异质信息网络连接起来，通过基于元路径的网络嵌入表示，获得更多用户和电影之间更多的信息，从而提高推荐的准确性。

Description

一种基于属性异质信息网络嵌入的电影推荐方法

技术领域

本发明涉及推荐系统技术领域，具体涉及一种基于属性异质信息网络嵌入的电影推荐方法。

背景技术

随着数据量的不断增大，推荐系统在各种互联网产品中发挥着越来越重要的作用，因为它可以帮助用户在庞大的数据中发现感兴趣的项目(如电影，商品等)，解决信息过载的问题。推荐系统可以用于挖掘用户的历史行为，并根据用户和商品的特征建立各自的特征矩阵。传统的推荐系统(如协同过滤)主要是利用相似度较大的邻居用户(或邻居物品)预测目标用户候选物品的评分。常见的做法为先构建用户－商品的评分矩阵，之后计算相似度来确定邻居集合，最后预测评分生成推荐列表。但随着互联网服务的快速发展，各种各样的辅助数据在推荐系统中变得容易获取。虽然辅助数据可能包含对推荐有用的信息，但在推荐系统中对这些异质的、复杂的信息进行建模和利用是非常困难的。

为了利用各种各样的辅助数据，因此有人提出了异质信息网络。异质信息网络中存在多种类型的节点，节点间不同的连接关系能表示不同的语义信息，比传统的推荐系统拥有更多的信息，因此能够提高推荐的准确性。虽然在异质信息网络中存在很多不同的元路径，但是却无法显示的表现出不同元路径的重要程度，而属性异质信息网络就是在异质信息网络基础上加入了边的权重值来表征不同连接关系的重要性，权重值越大代表越重要。

其次，网络嵌入在提取网络结构特征方面具有很强的能力。由于异质信息网络包含复杂的语义，使用基于元路径的相似性度量的方法会丢失一部分语义信息。因此可以将矩阵分解模型和网络嵌入联系在一起。网络嵌入目标是学习网络中节点的低维稠密的向量表示，同时这些向量可以作为机器学习的输入，从而可以得到更多的运用。但是对于不同用户对于不同的元路径有着不同的偏好，但是再现有模型中并没有体现出，因此考虑使用注意力机制计算不同元路径的权重值。这样就可以进一步精确表示不同用户的偏好。

发明内容

为了解决上述问题，本发明提供一种基于属性异质信息网络嵌入的电影推荐方法。

一种基于属性异质信息网络嵌入的电影推荐方法，包括以下步骤：

S1、获取电影网络数据，根据评分数据的时效性对贡献度更低的评分数据进行转换，具体操作包括：若评分时间与当前时间的间隔大于设定时间阈值，则将评分数据按照评分转换公式进行转换；若评分时间与当前时间的间隔不大于设定时间阈值，则保持原有评分数据，最终得到新的电影时间数据，使得评分数据的贡献度和准确性更高；

S2、基于步骤S1中得到的新的电影时间数据，利用用户对电影的评分数据、用户之间的相似度及电影之间相似度构建属性异质信息网络，并且在属性异质信息网络中加入各个节点的类型信息；

S3、根据属性异质信息网络，通过用户与不同类型对象之间边的权重自动选择合适的元路径，用于指导后续步骤在属性异质信息网络学习嵌入表示；

S4、在构建的属性异质信息网络中采用基于带权元路径的随机游走方式获得各个节点的随机游走序列；

S5、将各个节点的随机游走序列通过skip-gram模型学习获取属性异质信息网络中所有节点的网络嵌入表示，其中包括用户和电影的网络嵌入表示；

S6、通过注意力机制计算不同元路径的权重值，权重值用于表示不同元路径的重要程度；

S7、将用户的嵌入和电影的嵌入融入到矩阵分解算法中进行评分预测，计算用户对可能感兴趣电影的评分，将评分高的且用户并未观看过的电影推荐给用户。

进一步的，在一种优选实施方式中，步骤S1中，所述评分转换公式包括：

其中，t_now-t_u,i表示间隔大小，t_now表示当前的时间，t_u,i表示用户u对项目i的评分时间，λ表示用户兴趣取向变化趋势的快慢，越高表示时间越早的评分数据对于用户兴趣的影响越小，反之则越大，r_u,i表示用户u对项目i的原始评分。

进一步的，在一种优选实施方式中，步骤S2中，构建属性异质信息网络时，用户和电影之间的边通过用户的评分数据构成，而对于其他类型之间的边，将用户的属性信息以及电影的属性信息向量化后，通过余弦相似性

计算余弦相似度，其中x和y分别表示计算相似度的两个向量，‖x‖表示向量x的模，‖y‖表示向量y的模。

进一步的，在一种优选实施方式中，所述基于带权元路径的随机游走方式包括：

在给定元路径p＝(A₀,A₁,A₂,…,A_l)下，随机游走的计算公式包括：

其中，

表示基于元路径p下每一步被游走到的概率，其中i表示第i步，

表示在第i步的类型为t的节点，vⁱ⁺¹表示在第i+1步的类型为t+1的节点，p表示指定的元路径，且p＝(A₀,A₁,A₂,…,A_l)，A_l表示节点类型，l表示节点个数，|N_t+1(v)|表示节点v的邻居，而且这些邻居的节点为t+1，r表示边的权重，

表示下一节点vⁱ⁺¹和当前节点

有边连接。游走会随着元路径一直进行下去，直到达到我们预设的游走长度为止。

进一步的，在一种优选实施方式中，步骤S6中，不同用户对于不同的元路径有着不同的偏好，因此考虑通过注意力机制计算不同元路径的权重值：

采用两层架构实现注意力机制，其中X_u和Y_i分别表示用户u和电影i基于属性异质信息网络的特征向量嵌入，

和b^(l)分别表示第一层的权重矩阵和偏置向量，w⁽²⁾和b⁽²⁾分别表示第二层的权重向量和偏置，f(·)表示ReLU函数；

通过使用softmax函数对计算出来的注意力权重值进行归一化处理，得到最终的注意力权重值：

进一步的，在一种优选实施方式中，步骤S7中，将用户的嵌入和电影的嵌入融入到评分偏好中包括：

其中，r_u,i表示用户u对电影i的预测评分矩阵，U_u表示用户特征矩阵U第u行的隐特征向量，V_i表示项目特征矩阵V第i行的隐特征向量，X_u和Y_i分别表示用户u和电影i基于属性异质信息网络的特征向量嵌入，M^(l)表示第l条元路径下的变换矩阵，

和

分别表示不同元路径通过注意力机制获得的权重值。

本发明的有益效果：

1.本发明针对属性异质信息网络中不同元路径具有不同的语义信息进行推荐，采用基于带权元路径的随机游走方式，获得更多的语义信息，提高推荐的准确性。

2.本发明分别获得用户和电影的网络嵌入向量，可以很好地表示用户和电影的特征，同时使用注意力机制计算出不同元路径的权重值可以有效地模拟用户的个人和社交兴趣，有助于提高推荐的准确性。

3.本发明针对不同的用户通过属性异质信息网络中的权重值选择不同的元路径用于学习不同用户的嵌入表示，减少对于某一用户用处不大的元路径，加快计算时间，同时也更保证最后计算出的结果更符合用户的兴趣爱好。

附图说明

下面结合附图和具体实施方式对本发明做进一步详细的说明。

图1为本发明实施例提供的一种基于元路径的网络嵌入的电影推荐方法流程图；

图2为本发明实施例提供的一种异质信息网络图；

图3为本发明实施例提供的一种异质信息元模式。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本实施例提供一种基于属性异质信息网络嵌入的电影推荐方法，如图1所示，在一种优选实施方式中，该方法包括但不限于如下步骤：

S1、获取并处理电影网络数据，处理方式包括：根据评分数据的时效性对贡献度更低的评分数据进行转换。大多评分网站都是通过1到5分表示用户的喜好程度，但是最近的数据才能够更准确的表示用户的兴趣爱好，因此时间更近的数据应该有更高的贡献度。考虑用户评分数据的时效性，本实施例根据评分数据的时效性对贡献度更低的评分数据进行转换：若评分时间与当前时间的间隔大于设定时间阈值(时间阈值优选设置为5)时，则将评分数据按照评分转换公式进行转换；若评分时间与当前时间的间隔不大于设定时间阈值(时间阈值优选设置为5)时，则保持原有评分数据，最终得到新的电影时间数据，使得评分数据的贡献度和准确性更高。

在一种优选实施方式中，所述评分转换公式包括：

在一种优选实施方式中，获取影视数据后，处理方式还包括从该影视数据中提取包含用户和电影的信息，其中，用户和电影的信息包括用户的观影记录、用户的评分记录、电影的导演、演员阵容以及电影类型。对该数据进行简单处理，删除观影记录少于50次的电影，删除没有导演的电影数据，只保留1-3个主题和1-5个主要演员。

S2、基于步骤S1中得到的新的电影时间数据，利用用户对电影的评分数据、用户之间的相似度及电影之间相似度构建属性异质信息网络，并且在属性异质信息网络中加入各个节点的类型信息。

利用用户对电影的评分数据、用户之间的相似度及电影之间相似度构建属性异质信息网络G＝(V,E,A)，其中V表示节点集合，E表示边的集合，A表示权重值。所述属性异质信息网络由多种类型节点和不同权重的边构成，构建属性异质信息网络时，用户和电影之间的边可以通过用户的评分数据构成，而对于其他类型之间的边可以通过余弦相似性计算余弦相似度，将用户的属性信息以及电影的属性信息向量化后，通过

其中x和y分别表示计算相似度的两个向量，‖x‖表示向量x的模，‖y‖表示向量y的模。

示例性的，如图2所示为本实施例提供的一种属性异质信息网络图，图中包括5种类型的节点，即5种类型的对象，分别为：用户(U)、电影(M)、电影类型(T)、演员(A)和导演(D)，根据获取的影视数据连接各个节点，得到异质信息网络图G＝(V,E)，异质网络中至少包括10种连接关系，分别为：电影-用户、导演-电影、电影-导演、演员-电影、电影-演员、电影-电影类型、电影类型-电影，它们分别表示用户A观看了某部电影、某部电影被用户A观看，导演A拍摄了某部电影、电影被导演A拍摄，演员A参演了某部电影、某部电影被演员A参演，电影属于某个主题、电影被属于某个主题，用户A喜欢某用户、某用户被用户A喜欢。需要说明的是，图2只是简单的示意图，实际连接图复杂庞大。

S3、根据属性异质信息网络，通过用户与不同类型对象之间边的权重自动选择合适的元路径，用于指导后续方法在属性异质信息网络学习嵌入表示。因为不同的元路径有着不同的语义信息，所以对于不同的用户可以通过属性异质信息网络中用户与其他类型对象的权重值找到对于某一用户合适的元路径，尽最大程度的表示用户的兴趣爱好，同时能够更合适的将元路径用于推荐当中。因此对于每一个用户我们设定使用的元路径不超过5种，通过权重值大小排序选择前5种，同时元路径的长度也不超过5，太长的元路径会引起噪音。

元路径是定义在图3所示的异质信息元模式的路径，形式为

其中A_l表示节点类型，R_l连接类型。在异质信息网络G＝(V,E)中的元路径包含了丰富的信息，例如UMU的元路径表示看过相同电影的用户，UMTMU的元路径表示看过相同类型电影的用户。

根据异质信息网络获得不同的元路径，所述元路径用于表示连接不同描述对象的语义路径。在电影推荐中，用户主要是通过朋友推荐、高分电影和喜欢电影的类型来选择电影。因此我们认为以下的元路径更为重要，包括UU表示用户的朋友，UMU表示看过同一电影的用户，UMTMU表示看过同一主题电影的用户，UMDMU表示看过同一导演电影的用户，UMAMU表示看过同一演员电影的用户，通过这些元路径可以反映用户的行为特征；MUM表示被用户看过的电影，MTM表示相同主题的电影，MDM表示相同导演的电影，MAM表示相同演员的电影，通过这些元路径可以得到电影的特征。由于电影推荐重点在于寻找用户相似度和电影相似度，所以以上9种元路径具有代表性。通过根据用户与不同类型对象之间的权重值，为每一个选择更符合用户兴趣爱好的元路径，限制每个用户选择最多5种元路径，加入太多的元路径可能会将用户的小众兴趣爱好忽略掉，导致最后的推荐结果不够准确。因此通过属性异质信息网络中用户与不同类型对象之间的权重值大小排序，不断选择排序在前5的路径，由此获得不同的元路径。

S4、在构建的属性异质信息网络中采用基于带权元路径的随机游走方式获得各个节点的随机游走序列。

异质信息网络中的各种连接关系有利于挖掘用户之间的潜在关系，而异步双向随机游走支持在任何类型对象之间元路径中的任何位置会合的相似性计算。因此采用异步双向随机游走能够更准确地计算出需要的节点序列。

各个节点按照指定的元路径进行游走，获得各个节点的序列，即所需的路径实例。在给定元路径p＝(A₀,A₁,A₂,…,A_l)下，基于带权元路径的随机游走的计算公式包括：

其中，

表示在第i步的类型为t的节点，vⁱ⁺¹表示在第i+1步的类型为t+1的节点，p表示指定的元路径，且p＝(A₀,A₁,A₂,…,A_l)，A_l表示节点类型，l表示节点个数，|N_t+1(v)|表示节点v的邻居，而且这些邻居的节点为t+1，r表示边的权重值。

通过上述方法，在基于我们提出的元路径中，可以获得多个样本路径(即节点序列)。换句话说即可以获得在元路径下具体的实例。如在元路径UMU下，该实例为用户A→电影A→用户B或者用户A→电影A→用户C，只需要满足UMU的条件都是该元路径的路径实例。

在一种优选实施方式中，所述基于带权元路径的随机游走方式包括：

其中，

表示下一节点vⁱ⁺¹和当前节点

S5、将各个节点的随机游走序列通过skip-gram模型学习网络嵌入，将基于元路径的随机游走获得的节点序列转换成低维的嵌入向量，该低维嵌入向量为属性异质信息网络中节点的网络嵌入表示，节点的网络嵌入表示包括用户网络嵌入表示和电影的网络嵌入表示。

具体地，在一种优选实施方式中，将基于元路径的随机游走获得的各个节点序列通过skip-gram模型学习网络嵌入，获得网络中各个节点的特征向量嵌入e_v∈R^d，其中R^d表示d维的潜在表示，其中d远小于V的个数。

进一步的，在一种优选实施方式中，通过skip-gram模型学习网络嵌入的公式如下：

其中，arg函数表示最大化概率函数，θ表示arg函数的权重参数，v表示具体的嵌入向量，V表示嵌入向量，t表示节点类型为t，Tv表示总的节点类型，C_t表示邻居向量，N_t(v)表示节点v是第t类节点的邻域，

为Softmax函数，即

u表示用户节点，X表示节点嵌入向量矩阵，x_v是X的第v行，表示节点v的嵌入向量。通过此公式将基于元路径的随机游走获得的节点序列转换成低维的嵌入向量，这样降低了计算的复杂度，同时获得了更多的语义结构信息。

在一种优选实施方式中，用户u和电影i基于属性异质信息网络的特征向量嵌入包括：

其中，

和

分别表示用户u和电影i基于属性异质信息网络的特征向量嵌入，

和

表示嵌入向量的融合函数，l表示第l条元路径。

由上述的公式我们可以分别获得用户的潜在特征向量嵌入

和电影的潜在特征向量嵌入

表示了用户隐藏在网络中的深层社交兴趣和偏好，有助于预测用户对特定电影的评分；

表示了电影之间的相关性。其中l表示第l条元路径。

S6、通过注意力机制计算不同元路径的权重值，权重值用于表示不同元路径的重要程度，然后在用户的加权嵌入表示中加入用户的行为特征，再将用户的嵌入表示和电影的嵌入表示融入到矩阵分解算法中。

在一种优选实施方式中，考虑到不同用户对于不同的元路径有着不同的偏好，因此本实施例通过注意力机制计算不同元路径的权重值，具体计算方式如下：

和b^(l)分别表示第一层的权重矩阵和偏置向量，w⁽²⁾和b⁽²⁾分别表示第二层的权重向量和偏置。f(·)表示ReLU函数。

通过上面的公式可以获得不同元路径的权重值，用以表示不同用户对于不同元路径的偏好程度。

S7、将用户的嵌入和电影的嵌入融入到评分偏好中，计算用户对可能感兴趣电影的评分，将评分高的且用户并未观看过的电影推荐给用户。

用户对可能感兴趣电影的评分计算方式如下：

其中，r_u,i表示用户u对电影i的预测评分，U_u表示用户特征矩阵U第u行的隐特征向量，V_i表示项目特征矩阵V第i行的隐特征向量，X_u和Y_i分别表示用户u和电影i基于属性异质信息网络的特征向量嵌入，M^(l)表示第l条元路径下的变换矩阵，

和

分别表示不同元路径通过注意力机制获得的权重值。

其中L表示对r_u,i中参数不断优化的函数，r_u,i表示用户对电影的原始评分矩阵，

和

分别表示用户u和物品i的隐层贡献程度，λ表示规则化系数。通过随机梯度下降算法不断优化该函数，可以获得最后所需的预测评分矩阵。其中随机梯度下降算法是机器学习中常用的优化方法，旨在向着目标函数梯度的反方向更新模型的参数，直到达到最大化或最小化目标函数的目的。

通过上述步骤计算出用户对可能感兴趣电影的评分，将评分高的且用户并未观看过的电影推荐给用户。

当介绍本申请的各种实施例的元件时，冠词“一”、“一个”、“这个”和“所述”都意图表示有一个或多个元件。词语“包括”、“包含”和“具有”都是包括性的并意味着除了列出的元件之外，还可以有其它元件。

需要说明的是，本领域普通技术人员可以理解实现上述方法实施例中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法实施例的流程。其中，所述存储介质可为磁碟、光盘、只读存储记忆体(Read-0nly Memory，ROM)或随机存储记忆体(RandomAccess Memory，RAM)等。

以上所述仅是本申请的具体实施方式，应当指出，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。