CN109271582A

CN109271582A - 一种基于带属性元路径的个性化信息推荐方法

Info

Publication number: CN109271582A
Application number: CN201810947788.5A
Authority: CN
Inventors: 陶军; 李晓艳
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2018-08-20
Filing date: 2018-08-20
Publication date: 2019-01-25
Anticipated expiration: 2038-08-20
Also published as: CN109271582B

Abstract

本发明公开了一种基于带属性元路径的个性化信息推荐方法，包括：将所有信息建模为一个异质信息网络，将其中带属性的元路径按照属性值是否相同划分为完全对称和半对称的带属性元路径，并求出各个带属性元路径下实体间的相关度矩阵，及加权获得实体在整个网络中的相关度矩阵；基于矩阵分解算法结合由实体间相关度和相关度权重向量构成的正则项、用户和物品的隐语义矩阵，以构建目标函数并对隐语义矩阵及相关度权重向量迭代更新，由得到的隐语义矩阵计算获得用户对物品的预测评分；根据所得预测评分，将物品作为待推荐对象推荐给该用户。本发明满足用户对信息推荐的个性化需求，能够提高推荐准确度并在一定程度上解决冷启动问题。

Description

一种基于带属性元路径的个性化信息推荐方法

技术领域

本发明涉及一种基于带属性元路径的个性化信息推荐方法，属于互联网技术领域。

背景技术

随着互联网技术的飞速发展，信息的增长速度过快导致信息超载问题越来越严重。很多商业公司在系统中大量使用了推荐算法，以提高用户的满意度，增加用户的停留时间和消费，提高公司收益。现在，大型的商业系统中往往包含大量的异质信息；例如，在淘宝网中，商品拥有包括类别、品牌及材质在内的属性，用户也有包括电话，常住地址在内的信息。系统如果可以将这些多样且富含语义的信息抽象成异质信息网络(HeterogeneousInformationNetworks,简称HIN)，利用HIN中实体间的相关度来设计推荐方法，充分利用系统信息进行精准推荐，可以极大地提高用户体验。

目前存在的几种将HIN用于推荐的方案主要体现在如下三种类型：1)利用HeteSim算法计算出实体间的相关度，再根据元路径的广度和宽度为不同元路径下的相关度设置权重，最后为用户返回相似度最高的物品；2)在矩阵分解算法上增加了包含实体间相关度的正则项，并提出DSR算法，使用交替优化隐语义矩阵和权重矩阵的方式，使得算法满足实体间相关度大则实体向量更接近的需求；3)利用W-PathSim算法基于HIN中元路径计算出用户间的相关度，然后利用其他用户对该物品的评分预测该用户对该物品的评分。

发明人在研究过程中发现，这三种方案在相关度计算和适用范围上都存在着不同的缺陷。第一种方案，求实体间相关度使用HeteSim算法，该算法的时空复杂度过高，导致推荐算法复杂性较高，代价较大。第二种方案，该推荐方法无法满足所有的推荐情况且复杂性较高。第三种方案，使用算法W-PathSim来求相关度，虽然考虑了带属性元路径，但只考虑了对称的带属性元路径，非对称的带属性元路径所包含的语义信息被忽略，未充分利用HIN中的所有有用信息进行推荐，导致推荐准确度不高。

发明内容

本发明所要解决的技术问题在于克服现有技术的不足，提供一种基于带属性元路径的个性化信息推荐方法，解决目前存在的很多以矩阵分解算法为基础的相关度正则化信息推荐方法对HIN中信息利用不完全，非对称带属性元路径所包含的语义信息往往被忽略，导致推荐结果的准确度不够高的问题。

本发明具体采用以下技术方案解决上述技术问题：

一种基于带属性元路径的个性化信息推荐方法，包括以下步骤：

将所有信息建模为一个异质信息网络HIN，将网络中带属性的元路径按照属性值是否相同划分为完全对称和半对称的带属性元路径，并利用相关度计量方法求取出各个带属性元路径下实体间的相关度，及加权计算获得在整个网络中实体间的总相关度并存储于相关度矩阵中；

基于矩阵分解算法结合由实体间相关度和偏好向量构成的相关度正则项和相关度权重向量的正则项、用户和物品的隐语义矩阵，以构建目标函数并利用目标函数对隐语义矩阵P、Q及相关度的权重矩阵W、V进行迭代更新，并由迭代得到的隐语义矩阵计算获得用户对物品的预测评分；根据所得预测评分，将对应物品作为待推荐对象推荐给该用户。

进一步地，作为本发明的一种优选技术方案：所述方法中相关度计量方法求取完全对称的带属性元路径下实体间的相关度，具体为：

获取一条完全对称的带属性元路径的交换矩阵其中是实体类型A₁和A₂间的邻接矩阵，中的每个元素代表着两个实体间的连接数量；

根据所得交换矩阵M的定义，通过拆分元路径的方式求得交换矩阵M_xy、M_xx、M_yy，及计算完全对称的带属性元路径下实体间的相关度：

其中，实体x、y分别是实体类型A₁和A₂中的具体实体；s_l,i(x,y)表示实体x和y在属性值为i的完全对称带属性元路径下的相关度，P_l,i代表属性值为i的带属性元路径；表示实体x和y在元路径P_l,i下的路径实例的数量，是在元路径P_l,i下从实体x出发到自身的路径实例数量，代表在元路径P_l,i下从实体y出发到自身的路径实例数量。

进一步地，作为本发明的一种优选技术方案：所述方法中相关度计量方法求取半对称的带属性元路径下实体间的相关度，具体为：

将一条半对称的带属性元路径拆分为两条带属性元路径P′和P″，分别求出两条带属性元路径的交换矩阵M′和M″，并获得该半对称的带属性元路径的交换矩阵M＝M′M″；

根据所得交换矩阵M，通过拆分元路径的方式求得交换矩阵M_xy、M_xx、M_yy，及计算半对称的带属性元路径下实体间的相关度：

其中，实体x、y分别是具体实体；s_l,i,j(x,y)表示实体x和y在属性值分别为i和j的半对称带属性元路径下的相关度，P_l,i,j代表属性值分别为i和j的半对称带属性元路径；P_l,j,i与P_l,i,j互为对称关系，P_l,i和P_l,j分别代表属性值为i和j的带属性元路径；代表实体x和y在元路径P_l,i,j下的路径实例的数量，是实体x和y在元路径P_l,j,i下的路径实例的数量；代表在元路径P_l,i下从实体x出发到自身的路径实例数量，代表在元路径P_l,i下从实体y出发到自身的路径实例数量，代表在元路径P_l,j下从实体x出发到自身的路径实例数量，代表在元路径P_l,j下从实体y出发到自身的路径实例数量；代表在元路径P_l,i,j下从实体x出发到自身的路径实例数量，代表在元路径P_l,i,j下从实体y出发到自身的路径实例数量。

进一步地，作为本发明的一种优选技术方案：所述方法中构建的目标函数为：

minJ(P,Q,W,V)＝L_F+λ₁L_R+2λ₂U_R+2λ₃I_R+λ₄W_R

其中，P和Q分别是用户和物品的隐语义矩阵；W代表所有用户的偏好向量组成的矩阵，V代表所有物品的偏好向量组成的矩阵；L_F代表隐语义矩阵的分解项；L_R则代表了隐语义矩阵的正则项，λ₁是L_R项的权重；U_R和I_R分别是用户间和物品间的相关度的正则项，λ₂，λ₃分别是这两项的权重；W_R是相关度权重向量的正则项；λ₄是W_R项的权重。

本发明采用上述技术方案，能产生如下技术效果：

本发明提出的基于带属性元路径的个性化信息推荐方法，在数据表示方面，本发明将系统中的网络日志信息抽象成异质信息网络的形式，用带属性的元路径准确表达出HIN中丰富的语义信息，使用基于带属性元路径的相关度计量方法PW-PathSim计算出各实体间的相关度加权和，将用户及物品的相关度和用户及物品各自的偏好向量组成的矩阵作为正则项，对隐语义矩阵和偏好向量进行迭代更新，得到用户对物品的预测评分，根据得到的评分矩阵，将物品作为待推荐对象推荐给特定用户。

将本发明与现有方法对比，存在如下有点：1)现有的W-PathSim算法只考虑了对称的带属性元路径，非对称的带属性元路径所包含的语义信息被忽略，通过本发明提出的基于带属性元路径的相关度计量方法PW-PathSim可以计算半对称的带属性元路径下实体间的相关度，充分利用HIN的语义信息进行推荐，提高信息推荐准确度；2)个性权重推荐算法PW-MFP充分考虑不同用户的差异性，通过训练集自动学习获得某条元路径对不同用户的权重值，满足用户对信息推荐的个性化需求，而且能够在一定程度上解决推荐系统的冷启动问题；3)本发明PW-MFP算法具有良好的拓展性，且实现简单，能够轻松应用到各种的信息推荐场景中。故本发明的推荐方法能够提高推荐准确度并在一定程度上解决冷启动问题。

附图说明

图1是本发明各部分之间的互联关系图。

图2是本发明使用的一个实例(豆瓣电影网)中实体与实体关系图。

图3是本发明实施例中豆瓣电影网中日志的网络模式图。

图4是本发明实施例中豆瓣电影网日志中的元路径图。

图5是本发明实施例中豆瓣电影网中元路径和带属性元路径对照表。

图6是本发明中PW-PathSim算法实例图。

图7是本发明中PW-PathSim算法实例中带属性元路径权重取值表。

具体实施方式

下面结合说明书附图对本发明的实施方式进行描述。

如图1所示，本发明设计了一种基于带属性元路径的个性化信息推荐方法，该方法包括异质信息网络中带属性的元路径的构建、基于带属性元路径的相关度计量算法(ProWeighted PathSim，简称PW-PathSim)、基于实体间相关度正则化的个性化权重推荐(Personalized Weight Matrix Factorization based on Perceptron，简称PW-MFP)在内的几部分内容，具体包括以下步骤：

步骤1、异质信息网络HIN中带属性元路径的构建：将所有信息建模为一个异质信息网络HIN，将网络中带属性的元路径按照属性值是否相同划分为完全对称和半对称的带属性元路径。

一个推荐情境中，可以将所有信息建模为一个异质信息网络HIN，用有向图G＝(V,E)表示，其中V代表网络中节点的集合，即HIN中的实体，E节点间的有向边的集合，即HIN中的关系；其中有用户和物品(如电影、音乐、淘宝商品)两类实体，以及这两类实体间的关系，即评分矩阵R_m×n，其中m为用户的数量，n为物品的数量；用A表示实体的类型的集合，用R表示关系的类型的集合，其中|A|＞1或|R|＞1。这就是异质信息网络HIN的概念。网络模式T_G＝(A,R)是对异质信息网络G更加抽象的表达，由实体类型集合A及其间的关系类型集合R组成。

定义在网络模式下的某一条元路径P_l可以表示为P_l＝A₁A₂…A_b+1。P_l的逆元路径如果P_l等于则称P_l为对称元路径。如图4豆瓣电影网中的元路径主要分类两类，一类是对称的元路径，如UMU；另一个是非对称的元路径，如UMD。若以图4中元路径UMDMU为例，它表示用户之间关于电影的导演的相关性，若两个用户之间存在多条UMDMU的实例，那么这两个用户很可能对于电影导演的偏好是相同的，基于此类研究，得出用户各方面的偏好为用户提供个性化推荐服务。但这种元路径忽略了用户与电影间评分关系的属性值。比如UMU能够表达出用户对相同的电影有评分行为的含义，但即使两个用户在元路径UMU下的实例较多，也没有办法说明两个用户对电影的偏好是相同的。元路径无法准确地表达出该异质信息网络的准确含义。带属性元路径的提出就是为了解决这个问题。

若P_l与其逆元路径的实体类型、关系类型以及属性值的序列都完全相同，则称带属性元路径P_l为完全对称的带属性元路径，如UiMiU(i＝1,...,5)；若P_l与其逆元路径的实体类型以及关系类型的序列相同，而属性值序列对称，则称带属性元路径P_l为半对称的带属性元路径，如UiMjU(i,j＝1,...,5&i！＝j)。在基础上，本发明将基本的元路径按照属性值是否相同进行拆分，得到完全对称和半对称的带属性的元路径，如图5所示。具体过程是，先对其中一条的元路径UMU，在用户和电影实体间带入不同的属性值，得到多条完全对称和半对称的带属性元路径，然后进入步骤2。

步骤2、基于带属性元路径的相关度计量算法：利用基于带属性元路径的相关度计量方法求出各个带属性元路径下实体间的相关度矩阵，并对各带属性元路径下的相关度矩阵加权求和获得实体在整个网络中的相关度矩阵。

该算法将每一条带属性的元路径都视作一条完全独立的元路径。从图5可见，一条元路径带入不同的i,j值后能够被拆分为多条对称的带属性元路径和多条非对称的属性元路径P_l,i,j(i,j＝1,...,5&i！＝j)。

对于完全对称的带属性元路径P_l,i，实体间相关度的计算方法如下：

其中，s_l,i(x,y)代表实体x和y在对称的带属性元路径P_l,i下的相关度。不同训练集中i的取值范围是不同的。代表在元路径P_l,i下以x为起点，y为终点的一条路径实例。

通过计算这条元路径下路径实例的数量来求得相关度，而路径实例的数量可以采用交换矩阵来获得。在一个HIN中，对于一条元路径P_l＝A₁A₂...A_b+1，其交换矩阵其中是实体类型A₁和A₂间的邻接矩阵，中的每个元素代表着两个实体间的连接数量。M是这些邻接矩阵相乘后的结果，根据交换矩阵M的定义，通过拆分元路径的方式求得交换矩阵M_xy、M_xx、M_yy；M_xy代表实体x和y在元路径P_l下的路径实例的数量。在使用交换矩阵后，实体x和y在对称的带属性元路径P_l,i下的相关度计算公式为：

带属性元路径。对于元路径P_l，可以拆分为完全对称的带属性元路径P_l,i(i＝1,...,5)以及半对称的带

同理，对于半对称的带属性元路径如P_l,i,j的实体间相关度的计算方法如下：

从公式(3)可以看出，只考虑了i＜j的情况而忽略了i＞j的情况，这是因为s_l,i,j(x,y)和s_l,j,i(x,y)得到的结果是相同的，因此只需要计算i＜j的情况下的相关度。

使用交换矩阵后，实体x和y在半对称的带属性元路径P_l,i,j下的相关度计算公式为：

这样在某条元路径下，两个实体间路径实例数量的计算问题就变为了矩阵乘法问题，由于矩阵乘法满足交换律，并且PW-PathSim算法使用的带属性元路径均是在对称元路径的基础上拆分的，因此在计算某条带属性元路径的交换矩阵M时，可以将其拆分为两条带属性的元路径P′和P″，然后分别求出这两条元路径的交换矩阵M′和M″，最终的交换矩阵等于两个矩阵的乘积，即M＝M′M″，这样可以大大减少计算的复杂度。关系字典D中存储了HIN中所有实体间的关系集合，PW-PathSim算法根据给定的元路径集合P和关系字典D求得相关度矩阵组成的列表L的具体流程所下：

Step1：对HIN元路径集合P中任意一条元路径P_l，将其分解为多条带属性元路径并存储在临时列表P'中；

Step2：对P'中任意的带属性元路径p，将p从中间拆分为两部分p'和p”。先判断p'是否被计算过，若p'在临时字典D′所有键组成的列表中，则以p'为索引到临时字典D′中(D′中保存以拆分后元路径名称为键值的交换矩阵数值，是中间计算结果)查找M′的值；若没有，利用关系字典D计算p'的交换矩阵M′，并将M′的值以p'为键值保存在字典D′中；对另一半元路径p”执行相同的操作得到交换矩阵M″；

Step3：利用M′和M″相乘计算p的交换矩阵M；

Step4：利用M、M′和M″以及公式(2)和(4)计算在p下实体间的相关度矩阵并以p为键值存入列表L。

最后，假设属性值为i的对称带属性元路径下的相关度权重值为w_l,i，属性值分别为i和j的半对称带属性元路径的相关度权重值为w_l,i,j，要计算实体x和y在整个异质信息网络中的相关度，只需要对所有完全对称的和半对称的带属性元路径下的相关度加权求和，具体计算公式如下：

步骤3、基于实体间相关度的个性化权重推荐：基于矩阵分解算法结合由所得相关度矩阵中实体间相关度和偏好向量构成的相关度正则项和相关度权重向量的正则项、用户和物品的隐语义矩阵，以构建目标函数并利用目标函数对隐语义矩阵P、Q及相关度的权重矩阵W、V进行迭代更新，并由迭代得到的隐语义矩阵计算获得用户对物品的预测评分；根据所得预测评分，将对应物品作为待推荐对象推荐给该用户。

首先，在异质信息网络下进行推荐面临两大挑战：以上关于异质信息网络HIN和相关度计算方法的介绍解决了如何表达异质信息网络的语义信息的问题，下述将介绍如何利用这些语义信息进行推荐的问题。

使用三元组＜u,i,r_ui＞代表用户u对物品i的评分值为r_ui。其中U为用户集合，u∈U；I是物品集合，i∈I；R是已知的用户对商品的评分矩阵，r_ui∈R。集合{＜u,i,r_ui＞}代表已经搜集到的用户对商品的评分集合，集合{＜u,i,r′_ui＞}代表需要进行预测的评分集合，需要利用异质信息网络G和集合{＜u,i,r_ui＞}来预测集合{＜u,i,r′_ui＞}中的r_ui′，最后将预测评分高的物品推荐给用户。

本发明在矩阵分解算法的基础上，增加了由实体间相关度组成的正则项，基本思想是若两个实体的相关度越大，那么这两个实体的隐语义向量间的距离越小；反之则距离越大。已经有研究在矩阵分解算法的基础上引入实体间相关度信息，但这些算法要么目标函数不够准确，要么计算过于复杂。本发明PW-MFP方法构建的目标函数如下：

minJ(P,Q,W,V)＝L_F+λ₁L_R+2λ₂U_R+2λ₃I_R+λ₄W_R (6)

其中，P和Q分别是用户和物品的隐语义矩阵。P是m×f维的矩阵，而Q是n×f维的矩阵，其中m是用户的数量，n是物品的数量，f是隐语义向量的维数，为了方便之后的介绍将P_m×f和Q_n×f分别简称P和Q。W代表所有用户的偏好向量组成的矩阵，V代表所有物品的偏好向量组成的矩阵。L_F代表隐语义矩阵的分解项；L_R则代表了隐语义矩阵的正则项，λ₁是L_R项的权重；U_R和I_R分别是用户间和物品间的相关度的正则项，λ₂，λ₃分别是这两项的权重；W_R是相关度权重向量的正则项，λ₄是W_R项的权重。整个目标函数的含义是通过改变变量P、Q、W和V的值使得整个函数的值达到最小。每项的具体内容如式(7)所示：

L_R＝||P||²+||Q||²

W_R＝||W||²+||V||²

其中，U和I分别是用户和物品的集合；r_ui是用户u对物品i的评分值；p_u是用户隐语义矩阵P的第u个行向量，即用户u的行向量，p_x以及p_y同理。q_i是物品隐语义矩阵Q的第i个行向量，即物品i的行向量，q_j以及q_k同理。代表从隐语义矩阵P和Q中得到的用户u对物品i的预测评分。T代表转置。·代表向量点乘。||·||代表向量的L2范数。Z₁和Z₂均代表求和项中的内容。s_ux代表实体u和间x的相关度向量，s_ux中的每一项代用户在某条带属性元路径p的相关度，s_ux的维数等于HIN中所有元路径可拆分的带属性元路径p的条数。s_uy、s_ij以及s_ik同理。w_u⊙w_x是用户在各条元路径下的相关度的权重值组成的权重向量，其维数与s_ux的维数相同,v_i⊙v_j同理。公式中U_R和I_R的原理完全相同，区别在于U_R是针对用户的，而I_R是针对物品的，下面对U_R进行详细解释。

U_R的灵感来自于感知机。感知机的目标函数是最小化误分类点到分类超平面的距离，即如果所有点都被正确分类的话则目标函数达到最小。(||p_u-p_x||²+||p_u-p_y||²)是u到x和y的欧几里得距离平方差值，s_ux·(w_u⊙w_x)^T代表对所有带属性元路径下的相关度进行加权求和得到u与x的相关度，(s_ux·(w_u⊙w_x)^T-s_uy·(w_u⊙w_y)^T)是u到x和y的相关度的差值。

W_R是针对代表相关度权重向量W和V的正则项，W代表所有用户的偏好向量组成的矩阵，V代表所有物品的偏好向量组成的矩阵。利用训练集对权重向量进行学习，因此需要增加正则项以防止过拟合。

本发明所述的个性化权重推荐方法PW-MFP的关键在于权重向量W和V的设计，它们的原理完全相同，区别在于W是针对用户间相关的权重的，而V是针对物品间相关度权重的，下面对W进行详细介绍。

W是用户间三维的权重向量，矩阵中的每一个元素w_u,x,l代表计算用户u与用户x的相关度时元路径l的权重。假设HIN中有m个用户，那么所需要的存储空间就是m²l/2,1/2是因为w_u,x,l和w_x,u,l的值是相同的，因此只需要存储一个。由于真实的系统中可能会有上千万个用户，W矩阵不但会消耗巨大的存储资源，而且会使得模型的复杂度大大提升。将矩阵W拆分成两个矩阵相乘的形式以降低模型的复杂度，由于权重矩阵W是三维的，因此用W中的向量w_u,x代表在计算用户u与用户x的相关度时的权重向量，w_u,x中包含用户u和x间元路径条数的项数，每项表示某一条元路径的权重。w_u,x可以优化为如下形式：

w_u,x＝w_u⊙w_x (8)

其中，w_u代表用户u对于元路径的偏好向量，w_x代表用户x对于元路径的偏好向量。⊙代表哈达玛乘积。式子的含义是，用户u对于元路径P_l的偏好值与用户i对于P_l的偏好值的乘积就是用户u和x在元路径P_l下的相关度的权重值。这样模型的空间复杂度就从m²l/2下降到了ml。

PW-MFP算法的目标函数是关于隐语义矩阵P和Q以及相关度权重矩阵W和V的无约束优化问题，可以采用随机梯度下降算法优化，具体分为两步：

步骤(1)、隐语义向量和权重向量的梯度计算。

求目标函数对隐语义向量p_u和q_i以及权重向量w_u和v_i的偏导数,作为之后更新的梯度。这里分为两种情况讨论，第一种情况是当U_R项和I_R项中关于样本u和i的值小于或等于0时，U_R项和I_R项没有被激活，因此无需对w_u和v_i进行更新，也无需计算目标函数对权重向量w_u和v_i的偏导数，而目标函数对隐语义向量p_u和q_i的偏导数如下所示：

第二种情况是当U_R项和I_R项中关于样本u和i的值大于0时，U_R项和I_R项被激活，这时的梯度计算公式如式(10)所示：

步骤(2)、隐语义向量和权重向量的迭代更新。

求出梯度向量之后，使用设置好的步长α沿着负梯度方向更新的p_u、q_i、w_u和v_i的值。只有当U_R项和I_R项中关于样本u和i的值大于0，即U_R项和I_R项被激活时，才需要更新w_u和v_i，否则只需要更新p_u和q_i。更新公式如下：

遍历所有样本并对每个样本进行上述步骤(1)和步骤(2)的过程，就得到了最终的隐语义矩阵P、Q以及相关度的权重矩阵W和V，算法开始前提供由＜u,i,r_ui＞构成的训练集R_train，使用PW-PathSim方法计算所得的相关度矩阵，训练轮数T，步长α，各项权重，PW-MFP方法的具体流程如下所示：

Step1：用高斯随机值初始化隐语义矩阵P、Q并用1初始化相关度权重矩阵W、V；

Step2：对于每一轮，遍历训练集R_train中所有已知的用户对商品的评分信息＜u,i,r_ui＞；

Step3：每次遍历某个三元组＜u,i,r_ui＞时，从R_train随机选择除用户u之外的两个用户x和y，除物品i之外的两个物品j和k；

Step4：当z₁＞0时用户间相关度的正则项U_R被激活，利用式(10)中计算的目标函数关于p_u和w_u的偏导，按照式(11)更新p_u和w_u；当z₁≤0时U_R项未被激活，只需要使用式(9)中计算的目标函数关于p_u的偏导更新p_u即可；

Step5：同理，对于物品间相关度的正则项I_R，在z₂＞0时，计算目标函数关于q_i和v_i的偏导，并根据设置步长α沿着负梯度方向更新q_i和v_i；否则，计算目标函数关于q_i的偏导，并只更新q_i

Step6：所有训练轮数结束后返回学习后得到的隐语义矩阵P和Q；

Step7：根据隐语义矩阵P和Q，计算可得到用户u对物品i的预测评分，将预测评分高的物品推荐给用户。

为了验证本发明方法能够计算半对称的带属性元路径下实体间的相关度，充分利用HIN的语义信息进行推荐，提高信息推荐准确度，列举出一个验证例进行说明。

图2描述了本发明的一种典型的应用场景。首先，将豆瓣电影网抽象成异质信息网络并在表示关系的边上标注实体间的关系。从图2可以看出豆瓣电影网日志中共含有7种类型的实体和7种类型的关系，即|A|＝7且|R|＝7。从图中可以看出，用户虽然没有直接与导演、演员以及电影类型所连接，但用户能通过电影与这些类型的实体产生关联。

其次，可以将豆瓣电影网中实体和关系进一步抽象成图3所示的网络模式，便于后续描述，本发明使用各实体名称的首字母大写来表示实体，如U代表用户，M代表电影；使用实体的符号来表述实体及实体间的关系，实体间的关系被表示成了双向的边，比如UM表示关系“用户→电影”，表示某个用户评价了某部电影，而MU则表示关系“电影→用户”，某部电影由某用户评价，因此图中的关系都是对称的。

再次，根据元路径的定义：U→M→U就是一条元路径，可以将这条元路径表示为UMU，表示不同用户对相同的电影进行评分，其余各元路径的含义如图4所示。在豆瓣电影日志所形成的HIN中，只有关系UM带有属性，属性值是用户对于电影的评分，范围为1～5。以元路径UDM为例，根据属性值的不同，可以拆分为5条带属性的元路径U1MD、U2MD、U3MD、U4MD以及U5MD。其中U1MD表示用户非常不喜欢某导演执导的电影，而U5MD则表示用户非常喜欢某导演指导的电影。其他元路径可拆分成的带属性元路径见图5所示。

最后，根据本发明所述的针对带属性元路径的相关度计量方法PW-PathSim，如图6所示，以用户间相关度为例，根据已知的评分矩阵计算出用户在元路径UMU下相关度矩阵。从评分矩阵来看，u₁对m₁和m₂是完全否定的，u₂对m₁和m₂是完全肯定的，而u₃对m₁和m₂均持有较为肯定的态度。u₁和u₂对电影的偏好是完全不同的，u₃和u₂的偏好比较接近，u₃对电影的评分比u₂对电影的评分都低一些的原因可能是u₃是一个对电影审美更加严格的用户。首先将元路径UM拆分为U1M等5条带属性元路径，然后计算这5条带属性元路径的交换矩阵，因为U1M5U和U5M1U是对称的关系，它们的交换矩阵互为转置，只需计算计算U1M1U以及U1M5U等15条带属性元路径的交换矩阵就可得所有25条UMU下的带属性元路径的交换矩阵，故而可得各带属性元路径下用户间的路径实例数量。使用公式(2)和(4)可求得求这15条带属性元路径下的相关度矩阵。为了验证PW-PathSim的正确性，按照图7取得各带属性元路径的权重值，对这15个相关度矩阵加权求和得到最终的相关度矩阵。其中，按照评分矩阵的含义，u₁和u₂的相关度应略小于u₁和u₃的相关度，u₂和u₃的相关度应远大于u₂和u₁及uu₃3和u₁的相关度。从结果可以看出，u₁和u₂的相关度为-0.2，u₁和u₃的相关度为-0.15，u₂和u₃的相关度为-0.05，结果满足评分矩阵的含义。

实际推荐过程中，求完相关度矩阵后，先不对各带属性元路径下实体间相关度矩阵加权求和，而将结果以带属性元路径为键值存储在列表L中，供后续使用。在推荐过程中，将用户和物品的相关度正则项与矩阵分解算法融合；下面以用户间相关度矩阵为例进行介绍，式(7)中用户间的相关度正则项U_R由用户间的欧几里得距离和用户间相关度差值的乘积之和组成，用户u和x的相关度s_ux·(w_u⊙w_x)^T式子中向量s_ux即L中所有带属性元路径的相关度矩阵中u，x位置对应的相关度数值，将相关度矩阵用于计算U_R，作用于最终所得的隐语义矩阵P和Q。

图6计算过程只考虑HIN中只存在UMU一种元路径的情况，如果图7中的权重值是推荐过程中计算所得的，那么通过加权所得的相关度矩阵可得公式(7)中s_ux·(w_u⊙w_x)^T和s_uy·(w_u⊙w_y)^T，按照U_R的定义取遍用户集合u₁、u₂、u₃，根据z₁的值更新U_R。对I_R同理。在给定轮数内，基于训练集，使用随机梯度算法对隐语义向量和权重向量进行迭代更新，过程中若z₁≤0和z₂≤0时，即U_R项和I_R项没有被激活，因此无需对w_u和v_i进行更新，这时无需计算目标函数对权重向量w_u和v_i的偏导数；当U_R项和I_R项被激活时，即z₁＞0和z₂＞0，对p_u、q_i、w_u和v_i进行更新。到达设定轮数后，输出隐语义矩阵P和Q。具体对于某一用户u，通过向量p_u和矩阵Q中所有行向量q_i求获得用户对所有电影的预测评分值；将具有较高预测评分值的电影推荐给该用户。

综上，本发明方法充分利用HIN的语义信息进行推荐，提高信息推荐准确度，满足用户对信息推荐的个性化需求，具有良好的拓展性，能够提高推荐准确度并在一定程度上解决冷启动问题，可应用到各种的信息推荐场景中。

上面结合附图对本发明的实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下做出各种变化。

Claims

1.一种基于带属性元路径的个性化信息推荐方法，其特征在于，包括以下步骤：

将所有信息建模为一个异质信息网络，将网络中带属性的元路径按照属性值是否相同划分为完全对称和半对称的带属性元路径，并利用相关度计量方法求取各个带属性元路径下实体间的相关度矩阵，并对各带属性元路径下的相关度矩阵加权求和获得实体在整个网络中的相关度矩阵；

基于矩阵分解算法结合由所得相关度矩阵中实体间相关度和偏好向量构成的相关度正则项、相关度权重向量的正则项、用户和物品的隐语义矩阵，以构建目标函数并利用目标函数对隐语义矩阵P、Q及相关度的权重矩阵W、V进行迭代更新，并由迭代得到的隐语义矩阵计算获得用户对物品的预测评分；根据所得预测评分，将对应物品作为待推荐对象推荐给该用户。

2.根据权利要求1所述基于带属性元路径的个性化信息推荐方法，其特征在于：所述方法中利用相关度计量方法求取完全对称的带属性元路径下实体间的相关度，具体为：

根据交换矩阵M的定义，通过拆分元路径的方式求得交换矩阵M_xy、M_xx、M_yy，及计算完全对称的带属性元路径下实体间的相关度：

3.根据权利要求1所述基于带属性元路径的个性化信息推荐方法，其特征在于：所述方法中利用相关度计量方法求取半对称的带属性元路径下实体间的相关度，具体为：。

4.根据权利要求1所述基于带属性元路径的个性化信息推荐方法，其特征在于：所述方法中构建的目标函数为：

minJ(P,Q,W,V)＝L_F+λ₁L_R+2λ₂U_R+2λ₃I_R+λ₄W_R

其中，P和Q分别是用户和物品的隐语义矩阵；W代表所有用户的偏好向量组成的矩阵，V代表所有物品的偏好向量组成的矩阵；L_F代表隐语义矩阵的分解项；L_R则代表了隐语义矩阵的正则项，λ₁是L_R项的权重；U_R和I_R分别是用户间和物品间的相关度的正则项，λ₂，λ₃分别是U_R和I_R两项的权重；W_R是相关度权重向量的正则项；λ₄是W_R项的权重。

5.根据权利要求4所述基于带属性元路径的个性化信息推荐方法，其特征在于：所述目标函数中，各项具体为：

L_R＝||P||²+||Q||²

W_R＝||W||²+||V||²

其中，U和I分别是用户和物品的集合，r_ui是用户u对物品i的评分值；p_u是用户隐语义矩阵P的第u个行向量，即用户u的行向量，p_x以及p_y同理；q_i是物品隐语义矩阵Q的第i个行向量，即物品i的行向量，q_j以及q_k同理；代表从隐语义矩阵P和Q中得到的用户u对物品i的预测评分；z₁和z₂均代表求和项中的内容；s_ux代表实体u和用户x的相关度向量，s_ux中的每一项代用户在某条带属性元路径p的相关度，s_ux的维数等于网络中所有元路径可拆分的带属性元路径的条数；s_uy、s_ij以及s_ik同理；w_u⊙w_x是用户在各条元路径下的相关度的权重值组成的权重向量，其维数与s_ux的维数相同，w_u⊙w_y、v_i⊙v_j、v_i⊙v_k同理。

6.根据权利要求5所述基于带属性元路径的个性化信息推荐方法，其特征在于：所述方法中采用随机梯度下降算法对其中隐语义矩阵及相关度权重向量进行迭代更新，具体为：

Step1：用高斯随机值初始化隐语义矩阵P、Q并初始化相关度权重矩阵W、V；

Step3：每次遍历某个用户对商品的评分信息＜u,i,r_ui＞时，从训练集R_train随机选择除用户u之外的两个用户x和y，除物品i之外的两个物品j和k；

Step4：当z₁＞0时U_R被激活，计算目标函数关于p_u和w_u的偏导，并根据设置步长α沿着负梯度方向更新p_u和w_u；当z₁≤0时U_R项未被激活，计算目标函数关于p_u的偏导，并更新p_u；

Step5：对于物品间的正则项I_R，在z₂＞0时，计算目标函数关于q_i和v_i的偏导，并根据设置步长α沿着负梯度方向更新q_i和v_i；否则，计算目标函数关于q_i的偏导，并更新q_i；

Step6：所有训练轮数结束后返回学习后得到的隐语义矩阵P和Q。