CN109271582A - 一种基于带属性元路径的个性化信息推荐方法 - Google Patents
一种基于带属性元路径的个性化信息推荐方法 Download PDFInfo
- Publication number
- CN109271582A CN109271582A CN201810947788.5A CN201810947788A CN109271582A CN 109271582 A CN109271582 A CN 109271582A CN 201810947788 A CN201810947788 A CN 201810947788A CN 109271582 A CN109271582 A CN 109271582A
- Authority
- CN
- China
- Prior art keywords
- path
- entity
- correlation
- matrix
- degree
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于带属性元路径的个性化信息推荐方法,包括:将所有信息建模为一个异质信息网络,将其中带属性的元路径按照属性值是否相同划分为完全对称和半对称的带属性元路径,并求出各个带属性元路径下实体间的相关度矩阵,及加权获得实体在整个网络中的相关度矩阵;基于矩阵分解算法结合由实体间相关度和相关度权重向量构成的正则项、用户和物品的隐语义矩阵,以构建目标函数并对隐语义矩阵及相关度权重向量迭代更新,由得到的隐语义矩阵计算获得用户对物品的预测评分;根据所得预测评分,将物品作为待推荐对象推荐给该用户。本发明满足用户对信息推荐的个性化需求,能够提高推荐准确度并在一定程度上解决冷启动问题。
Description
技术领域
本发明涉及一种基于带属性元路径的个性化信息推荐方法,属于互联网技术领域。
背景技术
随着互联网技术的飞速发展,信息的增长速度过快导致信息超载问题越来越严重。很多商业公司在系统中大量使用了推荐算法,以提高用户的满意度,增加用户的停留时间和消费,提高公司收益。现在,大型的商业系统中往往包含大量的异质信息;例如,在淘宝网中,商品拥有包括类别、品牌及材质在内的属性,用户也有包括电话,常住地址在内的信息。系统如果可以将这些多样且富含语义的信息抽象成异质信息网络(HeterogeneousInformationNetworks,简称HIN),利用HIN中实体间的相关度来设计推荐方法,充分利用系统信息进行精准推荐,可以极大地提高用户体验。
目前存在的几种将HIN用于推荐的方案主要体现在如下三种类型:1)利用HeteSim算法计算出实体间的相关度,再根据元路径的广度和宽度为不同元路径下的相关度设置权重,最后为用户返回相似度最高的物品;2)在矩阵分解算法上增加了包含实体间相关度的正则项,并提出DSR算法,使用交替优化隐语义矩阵和权重矩阵的方式,使得算法满足实体间相关度大则实体向量更接近的需求;3)利用W-PathSim算法基于HIN中元路径计算出用户间的相关度,然后利用其他用户对该物品的评分预测该用户对该物品的评分。
发明人在研究过程中发现,这三种方案在相关度计算和适用范围上都存在着不同的缺陷。第一种方案,求实体间相关度使用HeteSim算法,该算法的时空复杂度过高,导致推荐算法复杂性较高,代价较大。第二种方案,该推荐方法无法满足所有的推荐情况且复杂性较高。第三种方案,使用算法W-PathSim来求相关度,虽然考虑了带属性元路径,但只考虑了对称的带属性元路径,非对称的带属性元路径所包含的语义信息被忽略,未充分利用HIN中的所有有用信息进行推荐,导致推荐准确度不高。
发明内容
本发明所要解决的技术问题在于克服现有技术的不足,提供一种基于带属性元路径的个性化信息推荐方法,解决目前存在的很多以矩阵分解算法为基础的相关度正则化信息推荐方法对HIN中信息利用不完全,非对称带属性元路径所包含的语义信息往往被忽略,导致推荐结果的准确度不够高的问题。
本发明具体采用以下技术方案解决上述技术问题:
一种基于带属性元路径的个性化信息推荐方法,包括以下步骤:
将所有信息建模为一个异质信息网络HIN,将网络中带属性的元路径按照属性值是否相同划分为完全对称和半对称的带属性元路径,并利用相关度计量方法求取出各个带属性元路径下实体间的相关度,及加权计算获得在整个网络中实体间的总相关度并存储于相关度矩阵中;
基于矩阵分解算法结合由实体间相关度和偏好向量构成的相关度正则项和相关度权重向量的正则项、用户和物品的隐语义矩阵,以构建目标函数并利用目标函数对隐语义矩阵P、Q及相关度的权重矩阵W、V进行迭代更新,并由迭代得到的隐语义矩阵计算获得用户对物品的预测评分;根据所得预测评分,将对应物品作为待推荐对象推荐给该用户。
进一步地,作为本发明的一种优选技术方案:所述方法中相关度计量方法求取完全对称的带属性元路径下实体间的相关度,具体为:
获取一条完全对称的带属性元路径的交换矩阵其中是实体类型A1和A2间的邻接矩阵,中的每个元素代表着两个实体间的连接数量;
根据所得交换矩阵M的定义,通过拆分元路径的方式求得交换矩阵Mxy、Mxx、Myy,及计算完全对称的带属性元路径下实体间的相关度:
其中,实体x、y分别是实体类型A1和A2中的具体实体;sl,i(x,y)表示实体x和y在属性值为i的完全对称带属性元路径下的相关度,Pl,i代表属性值为i的带属性元路径;表示实体x和y在元路径Pl,i下的路径实例的数量,是在元路径Pl,i下从实体x出发到自身的路径实例数量,代表在元路径Pl,i下从实体y出发到自身的路径实例数量。
进一步地,作为本发明的一种优选技术方案:所述方法中相关度计量方法求取半对称的带属性元路径下实体间的相关度,具体为:
将一条半对称的带属性元路径拆分为两条带属性元路径P′和P″,分别求出两条带属性元路径的交换矩阵M′和M″,并获得该半对称的带属性元路径的交换矩阵M=M′M″;
根据所得交换矩阵M,通过拆分元路径的方式求得交换矩阵Mxy、Mxx、Myy,及计算半对称的带属性元路径下实体间的相关度:
其中,实体x、y分别是具体实体;sl,i,j(x,y)表示实体x和y在属性值分别为i和j的半对称带属性元路径下的相关度,Pl,i,j代表属性值分别为i和j的半对称带属性元路径;Pl,j,i与Pl,i,j互为对称关系,Pl,i和Pl,j分别代表属性值为i和j的带属性元路径;代表实体x和y在元路径Pl,i,j下的路径实例的数量,是实体x和y在元路径Pl,j,i下的路径实例的数量;代表在元路径Pl,i下从实体x出发到自身的路径实例数量,代表在元路径Pl,i下从实体y出发到自身的路径实例数量,代表在元路径Pl,j下从实体x出发到自身的路径实例数量,代表在元路径Pl,j下从实体y出发到自身的路径实例数量;代表在元路径Pl,i,j下从实体x出发到自身的路径实例数量,代表在元路径Pl,i,j下从实体y出发到自身的路径实例数量。
进一步地,作为本发明的一种优选技术方案:所述方法中构建的目标函数为:
minJ(P,Q,W,V)=LF+λ1LR+2λ2UR+2λ3IR+λ4WR
其中,P和Q分别是用户和物品的隐语义矩阵;W代表所有用户的偏好向量组成的矩阵,V代表所有物品的偏好向量组成的矩阵;LF代表隐语义矩阵的分解项;LR则代表了隐语义矩阵的正则项,λ1是LR项的权重;UR和IR分别是用户间和物品间的相关度的正则项,λ2,λ3分别是这两项的权重;WR是相关度权重向量的正则项;λ4是WR项的权重。
本发明采用上述技术方案,能产生如下技术效果:
本发明提出的基于带属性元路径的个性化信息推荐方法,在数据表示方面,本发明将系统中的网络日志信息抽象成异质信息网络的形式,用带属性的元路径准确表达出HIN中丰富的语义信息,使用基于带属性元路径的相关度计量方法PW-PathSim计算出各实体间的相关度加权和,将用户及物品的相关度和用户及物品各自的偏好向量组成的矩阵作为正则项,对隐语义矩阵和偏好向量进行迭代更新,得到用户对物品的预测评分,根据得到的评分矩阵,将物品作为待推荐对象推荐给特定用户。
将本发明与现有方法对比,存在如下有点:1)现有的W-PathSim算法只考虑了对称的带属性元路径,非对称的带属性元路径所包含的语义信息被忽略,通过本发明提出的基于带属性元路径的相关度计量方法PW-PathSim可以计算半对称的带属性元路径下实体间的相关度,充分利用HIN的语义信息进行推荐,提高信息推荐准确度;2)个性权重推荐算法PW-MFP充分考虑不同用户的差异性,通过训练集自动学习获得某条元路径对不同用户的权重值,满足用户对信息推荐的个性化需求,而且能够在一定程度上解决推荐系统的冷启动问题;3)本发明PW-MFP算法具有良好的拓展性,且实现简单,能够轻松应用到各种的信息推荐场景中。故本发明的推荐方法能够提高推荐准确度并在一定程度上解决冷启动问题。
附图说明
图1是本发明各部分之间的互联关系图。
图2是本发明使用的一个实例(豆瓣电影网)中实体与实体关系图。
图3是本发明实施例中豆瓣电影网中日志的网络模式图。
图4是本发明实施例中豆瓣电影网日志中的元路径图。
图5是本发明实施例中豆瓣电影网中元路径和带属性元路径对照表。
图6是本发明中PW-PathSim算法实例图。
图7是本发明中PW-PathSim算法实例中带属性元路径权重取值表。
具体实施方式
下面结合说明书附图对本发明的实施方式进行描述。
如图1所示,本发明设计了一种基于带属性元路径的个性化信息推荐方法,该方法包括异质信息网络中带属性的元路径的构建、基于带属性元路径的相关度计量算法(ProWeighted PathSim,简称PW-PathSim)、基于实体间相关度正则化的个性化权重推荐(Personalized Weight Matrix Factorization based on Perceptron,简称PW-MFP)在内的几部分内容,具体包括以下步骤:
步骤1、异质信息网络HIN中带属性元路径的构建:将所有信息建模为一个异质信息网络HIN,将网络中带属性的元路径按照属性值是否相同划分为完全对称和半对称的带属性元路径。
一个推荐情境中,可以将所有信息建模为一个异质信息网络HIN,用有向图G=(V,E)表示,其中V代表网络中节点的集合,即HIN中的实体,E节点间的有向边的集合,即HIN中的关系;其中有用户和物品(如电影、音乐、淘宝商品)两类实体,以及这两类实体间的关系,即评分矩阵Rm×n,其中m为用户的数量,n为物品的数量;用A表示实体的类型的集合,用R表示关系的类型的集合,其中|A|>1或|R|>1。这就是异质信息网络HIN的概念。网络模式TG=(A,R)是对异质信息网络G更加抽象的表达,由实体类型集合A及其间的关系类型集合R组成。
定义在网络模式下的某一条元路径Pl可以表示为Pl=A1A2…Ab+1。Pl的逆元路径如果Pl等于则称Pl为对称元路径。如图4豆瓣电影网中的元路径主要分类两类,一类是对称的元路径,如UMU;另一个是非对称的元路径,如UMD。若以图4中元路径UMDMU为例,它表示用户之间关于电影的导演的相关性,若两个用户之间存在多条UMDMU的实例,那么这两个用户很可能对于电影导演的偏好是相同的,基于此类研究,得出用户各方面的偏好为用户提供个性化推荐服务。但这种元路径忽略了用户与电影间评分关系的属性值。比如UMU能够表达出用户对相同的电影有评分行为的含义,但即使两个用户在元路径UMU下的实例较多,也没有办法说明两个用户对电影的偏好是相同的。元路径无法准确地表达出该异质信息网络的准确含义。带属性元路径的提出就是为了解决这个问题。
若Pl与其逆元路径的实体类型、关系类型以及属性值的序列都完全相同,则称带属性元路径Pl为完全对称的带属性元路径,如UiMiU(i=1,...,5);若Pl与其逆元路径的实体类型以及关系类型的序列相同,而属性值序列对称,则称带属性元路径Pl为半对称的带属性元路径,如UiMjU(i,j=1,...,5&i!=j)。在基础上,本发明将基本的元路径按照属性值是否相同进行拆分,得到完全对称和半对称的带属性的元路径,如图5所示。具体过程是,先对其中一条的元路径UMU,在用户和电影实体间带入不同的属性值,得到多条完全对称和半对称的带属性元路径,然后进入步骤2。
步骤2、基于带属性元路径的相关度计量算法:利用基于带属性元路径的相关度计量方法求出各个带属性元路径下实体间的相关度矩阵,并对各带属性元路径下的相关度矩阵加权求和获得实体在整个网络中的相关度矩阵。
该算法将每一条带属性的元路径都视作一条完全独立的元路径。从图5可见,一条元路径带入不同的i,j值后能够被拆分为多条对称的带属性元路径和多条非对称的属性元路径Pl,i,j(i,j=1,...,5&i!=j)。
对于完全对称的带属性元路径Pl,i,实体间相关度的计算方法如下:
其中,sl,i(x,y)代表实体x和y在对称的带属性元路径Pl,i下的相关度。不同训练集中i的取值范围是不同的。代表在元路径Pl,i下以x为起点,y为终点的一条路径实例。
通过计算这条元路径下路径实例的数量来求得相关度,而路径实例的数量可以采用交换矩阵来获得。在一个HIN中,对于一条元路径Pl=A1A2...Ab+1,其交换矩阵其中是实体类型A1和A2间的邻接矩阵,中的每个元素代表着两个实体间的连接数量。M是这些邻接矩阵相乘后的结果,根据交换矩阵M的定义,通过拆分元路径的方式求得交换矩阵Mxy、Mxx、Myy;Mxy代表实体x和y在元路径Pl下的路径实例的数量。在使用交换矩阵后,实体x和y在对称的带属性元路径Pl,i下的相关度计算公式为:
带属性元路径。对于元路径Pl,可以拆分为完全对称的带属性元路径Pl,i(i=1,...,5)以及半对称的带
其中,实体x、y分别是实体类型A1和A2中的具体实体;sl,i(x,y)表示实体x和y在属性值为i的完全对称带属性元路径下的相关度,Pl,i代表属性值为i的带属性元路径;表示实体x和y在元路径Pl,i下的路径实例的数量,是在元路径Pl,i下从实体x出发到自身的路径实例数量,代表在元路径Pl,i下从实体y出发到自身的路径实例数量。
同理,对于半对称的带属性元路径如Pl,i,j的实体间相关度的计算方法如下:
从公式(3)可以看出,只考虑了i<j的情况而忽略了i>j的情况,这是因为sl,i,j(x,y)和sl,j,i(x,y)得到的结果是相同的,因此只需要计算i<j的情况下的相关度。
使用交换矩阵后,实体x和y在半对称的带属性元路径Pl,i,j下的相关度计算公式为:
其中,实体x、y分别是具体实体;sl,i,j(x,y)表示实体x和y在属性值分别为i和j的半对称带属性元路径下的相关度,Pl,i,j代表属性值分别为i和j的半对称带属性元路径;Pl,j,i与Pl,i,j互为对称关系,Pl,i和Pl,j分别代表属性值为i和j的带属性元路径;代表实体x和y在元路径Pl,i,j下的路径实例的数量,是实体x和y在元路径Pl,j,i下的路径实例的数量;代表在元路径Pl,i下从实体x出发到自身的路径实例数量,代表在元路径Pl,i下从实体y出发到自身的路径实例数量,代表在元路径Pl,j下从实体x出发到自身的路径实例数量,代表在元路径Pl,j下从实体y出发到自身的路径实例数量;代表在元路径Pl,i,j下从实体x出发到自身的路径实例数量,代表在元路径Pl,i,j下从实体y出发到自身的路径实例数量。
这样在某条元路径下,两个实体间路径实例数量的计算问题就变为了矩阵乘法问题,由于矩阵乘法满足交换律,并且PW-PathSim算法使用的带属性元路径均是在对称元路径的基础上拆分的,因此在计算某条带属性元路径的交换矩阵M时,可以将其拆分为两条带属性的元路径P′和P″,然后分别求出这两条元路径的交换矩阵M′和M″,最终的交换矩阵等于两个矩阵的乘积,即M=M′M″,这样可以大大减少计算的复杂度。关系字典D中存储了HIN中所有实体间的关系集合,PW-PathSim算法根据给定的元路径集合P和关系字典D求得相关度矩阵组成的列表L的具体流程所下:
Step1:对HIN元路径集合P中任意一条元路径Pl,将其分解为多条带属性元路径并存储在临时列表P'中;
Step2:对P'中任意的带属性元路径p,将p从中间拆分为两部分p'和p”。先判断p'是否被计算过,若p'在临时字典D′所有键组成的列表中,则以p'为索引到临时字典D′中(D′中保存以拆分后元路径名称为键值的交换矩阵数值,是中间计算结果)查找M′的值;若没有,利用关系字典D计算p'的交换矩阵M′,并将M′的值以p'为键值保存在字典D′中;对另一半元路径p”执行相同的操作得到交换矩阵M″;
Step3:利用M′和M″相乘计算p的交换矩阵M;
Step4:利用M、M′和M″以及公式(2)和(4)计算在p下实体间的相关度矩阵并以p为键值存入列表L。
最后,假设属性值为i的对称带属性元路径下的相关度权重值为wl,i,属性值分别为i和j的半对称带属性元路径的相关度权重值为wl,i,j,要计算实体x和y在整个异质信息网络中的相关度,只需要对所有完全对称的和半对称的带属性元路径下的相关度加权求和,具体计算公式如下:
步骤3、基于实体间相关度的个性化权重推荐:基于矩阵分解算法结合由所得相关度矩阵中实体间相关度和偏好向量构成的相关度正则项和相关度权重向量的正则项、用户和物品的隐语义矩阵,以构建目标函数并利用目标函数对隐语义矩阵P、Q及相关度的权重矩阵W、V进行迭代更新,并由迭代得到的隐语义矩阵计算获得用户对物品的预测评分;根据所得预测评分,将对应物品作为待推荐对象推荐给该用户。
首先,在异质信息网络下进行推荐面临两大挑战:以上关于异质信息网络HIN和相关度计算方法的介绍解决了如何表达异质信息网络的语义信息的问题,下述将介绍如何利用这些语义信息进行推荐的问题。
使用三元组<u,i,rui>代表用户u对物品i的评分值为rui。其中U为用户集合,u∈U;I是物品集合,i∈I;R是已知的用户对商品的评分矩阵,rui∈R。集合{<u,i,rui>}代表已经搜集到的用户对商品的评分集合,集合{<u,i,r′ui>}代表需要进行预测的评分集合,需要利用异质信息网络G和集合{<u,i,rui>}来预测集合{<u,i,r′ui>}中的rui′,最后将预测评分高的物品推荐给用户。
本发明在矩阵分解算法的基础上,增加了由实体间相关度组成的正则项,基本思想是若两个实体的相关度越大,那么这两个实体的隐语义向量间的距离越小;反之则距离越大。已经有研究在矩阵分解算法的基础上引入实体间相关度信息,但这些算法要么目标函数不够准确,要么计算过于复杂。本发明PW-MFP方法构建的目标函数如下:
minJ(P,Q,W,V)=LF+λ1LR+2λ2UR+2λ3IR+λ4WR (6)
其中,P和Q分别是用户和物品的隐语义矩阵。P是m×f维的矩阵,而Q是n×f维的矩阵,其中m是用户的数量,n是物品的数量,f是隐语义向量的维数,为了方便之后的介绍将Pm×f和Qn×f分别简称P和Q。W代表所有用户的偏好向量组成的矩阵,V代表所有物品的偏好向量组成的矩阵。LF代表隐语义矩阵的分解项;LR则代表了隐语义矩阵的正则项,λ1是LR项的权重;UR和IR分别是用户间和物品间的相关度的正则项,λ2,λ3分别是这两项的权重;WR是相关度权重向量的正则项,λ4是WR项的权重。整个目标函数的含义是通过改变变量P、Q、W和V的值使得整个函数的值达到最小。每项的具体内容如式(7)所示:
LR=||P||2+||Q||2
WR=||W||2+||V||2
其中,U和I分别是用户和物品的集合;rui是用户u对物品i的评分值;pu是用户隐语义矩阵P的第u个行向量,即用户u的行向量,px以及py同理。qi是物品隐语义矩阵Q的第i个行向量,即物品i的行向量,qj以及qk同理。代表从隐语义矩阵P和Q中得到的用户u对物品i的预测评分。T代表转置。·代表向量点乘。||·||代表向量的L2范数。Z1和Z2均代表求和项中的内容。sux代表实体u和间x的相关度向量,sux中的每一项代用户在某条带属性元路径p的相关度,sux的维数等于HIN中所有元路径可拆分的带属性元路径p的条数。suy、sij以及sik同理。wu⊙wx是用户在各条元路径下的相关度的权重值组成的权重向量,其维数与sux的维数相同,vi⊙vj同理。公式中UR和IR的原理完全相同,区别在于UR是针对用户的,而IR是针对物品的,下面对UR进行详细解释。
UR的灵感来自于感知机。感知机的目标函数是最小化误分类点到分类超平面的距离,即如果所有点都被正确分类的话则目标函数达到最小。(||pu-px||2+||pu-py||2)是u到x和y的欧几里得距离平方差值,sux·(wu⊙wx)T代表对所有带属性元路径下的相关度进行加权求和得到u与x的相关度,(sux·(wu⊙wx)T-suy·(wu⊙wy)T)是u到x和y的相关度的差值。
WR是针对代表相关度权重向量W和V的正则项,W代表所有用户的偏好向量组成的矩阵,V代表所有物品的偏好向量组成的矩阵。利用训练集对权重向量进行学习,因此需要增加正则项以防止过拟合。
本发明所述的个性化权重推荐方法PW-MFP的关键在于权重向量W和V的设计,它们的原理完全相同,区别在于W是针对用户间相关的权重的,而V是针对物品间相关度权重的,下面对W进行详细介绍。
W是用户间三维的权重向量,矩阵中的每一个元素wu,x,l代表计算用户u与用户x的相关度时元路径l的权重。假设HIN中有m个用户,那么所需要的存储空间就是m2l/2,1/2是因为wu,x,l和wx,u,l的值是相同的,因此只需要存储一个。由于真实的系统中可能会有上千万个用户,W矩阵不但会消耗巨大的存储资源,而且会使得模型的复杂度大大提升。将矩阵W拆分成两个矩阵相乘的形式以降低模型的复杂度,由于权重矩阵W是三维的,因此用W中的向量wu,x代表在计算用户u与用户x的相关度时的权重向量,wu,x中包含用户u和x间元路径条数的项数,每项表示某一条元路径的权重。wu,x可以优化为如下形式:
wu,x=wu⊙wx (8)
其中,wu代表用户u对于元路径的偏好向量,wx代表用户x对于元路径的偏好向量。⊙代表哈达玛乘积。式子的含义是,用户u对于元路径Pl的偏好值与用户i对于Pl的偏好值的乘积就是用户u和x在元路径Pl下的相关度的权重值。这样模型的空间复杂度就从m2l/2下降到了ml。
PW-MFP算法的目标函数是关于隐语义矩阵P和Q以及相关度权重矩阵W和V的无约束优化问题,可以采用随机梯度下降算法优化,具体分为两步:
步骤(1)、隐语义向量和权重向量的梯度计算。
求目标函数对隐语义向量pu和qi以及权重向量wu和vi的偏导数,作为之后更新的梯度。这里分为两种情况讨论,第一种情况是当UR项和IR项中关于样本u和i的值小于或等于0时,UR项和IR项没有被激活,因此无需对wu和vi进行更新,也无需计算目标函数对权重向量wu和vi的偏导数,而目标函数对隐语义向量pu和qi的偏导数如下所示:
第二种情况是当UR项和IR项中关于样本u和i的值大于0时,UR项和IR项被激活,这时的梯度计算公式如式(10)所示:
步骤(2)、隐语义向量和权重向量的迭代更新。
求出梯度向量之后,使用设置好的步长α沿着负梯度方向更新的pu、qi、wu和vi的值。只有当UR项和IR项中关于样本u和i的值大于0,即UR项和IR项被激活时,才需要更新wu和vi,否则只需要更新pu和qi。更新公式如下:
遍历所有样本并对每个样本进行上述步骤(1)和步骤(2)的过程,就得到了最终的隐语义矩阵P、Q以及相关度的权重矩阵W和V,算法开始前提供由<u,i,rui>构成的训练集Rtrain,使用PW-PathSim方法计算所得的相关度矩阵,训练轮数T,步长α,各项权重,PW-MFP方法的具体流程如下所示:
Step1:用高斯随机值初始化隐语义矩阵P、Q并用1初始化相关度权重矩阵W、V;
Step2:对于每一轮,遍历训练集Rtrain中所有已知的用户对商品的评分信息<u,i,rui>;
Step3:每次遍历某个三元组<u,i,rui>时,从Rtrain随机选择除用户u之外的两个用户x和y,除物品i之外的两个物品j和k;
Step4:当z1>0时用户间相关度的正则项UR被激活,利用式(10)中计算的目标函数关于pu和wu的偏导,按照式(11)更新pu和wu;当z1≤0时UR项未被激活,只需要使用式(9)中计算的目标函数关于pu的偏导更新pu即可;
Step5:同理,对于物品间相关度的正则项IR,在z2>0时,计算目标函数关于qi和vi的偏导,并根据设置步长α沿着负梯度方向更新qi和vi;否则,计算目标函数关于qi的偏导,并只更新qi
Step6:所有训练轮数结束后返回学习后得到的隐语义矩阵P和Q;
Step7:根据隐语义矩阵P和Q,计算可得到用户u对物品i的预测评分,将预测评分高的物品推荐给用户。
为了验证本发明方法能够计算半对称的带属性元路径下实体间的相关度,充分利用HIN的语义信息进行推荐,提高信息推荐准确度,列举出一个验证例进行说明。
图2描述了本发明的一种典型的应用场景。首先,将豆瓣电影网抽象成异质信息网络并在表示关系的边上标注实体间的关系。从图2可以看出豆瓣电影网日志中共含有7种类型的实体和7种类型的关系,即|A|=7且|R|=7。从图中可以看出,用户虽然没有直接与导演、演员以及电影类型所连接,但用户能通过电影与这些类型的实体产生关联。
其次,可以将豆瓣电影网中实体和关系进一步抽象成图3所示的网络模式,便于后续描述,本发明使用各实体名称的首字母大写来表示实体,如U代表用户,M代表电影;使用实体的符号来表述实体及实体间的关系,实体间的关系被表示成了双向的边,比如UM表示关系“用户→电影”,表示某个用户评价了某部电影,而MU则表示关系“电影→用户”,某部电影由某用户评价,因此图中的关系都是对称的。
再次,根据元路径的定义:U→M→U就是一条元路径,可以将这条元路径表示为UMU,表示不同用户对相同的电影进行评分,其余各元路径的含义如图4所示。在豆瓣电影日志所形成的HIN中,只有关系UM带有属性,属性值是用户对于电影的评分,范围为1~5。以元路径UDM为例,根据属性值的不同,可以拆分为5条带属性的元路径U1MD、U2MD、U3MD、U4MD以及U5MD。其中U1MD表示用户非常不喜欢某导演执导的电影,而U5MD则表示用户非常喜欢某导演指导的电影。其他元路径可拆分成的带属性元路径见图5所示。
最后,根据本发明所述的针对带属性元路径的相关度计量方法PW-PathSim,如图6所示,以用户间相关度为例,根据已知的评分矩阵计算出用户在元路径UMU下相关度矩阵。从评分矩阵来看,u1对m1和m2是完全否定的,u2对m1和m2是完全肯定的,而u3对m1和m2均持有较为肯定的态度。u1和u2对电影的偏好是完全不同的,u3和u2的偏好比较接近,u3对电影的评分比u2对电影的评分都低一些的原因可能是u3是一个对电影审美更加严格的用户。首先将元路径UM拆分为U1M等5条带属性元路径,然后计算这5条带属性元路径的交换矩阵,因为U1M5U和U5M1U是对称的关系,它们的交换矩阵互为转置,只需计算计算U1M1U以及U1M5U等15条带属性元路径的交换矩阵就可得所有25条UMU下的带属性元路径的交换矩阵,故而可得各带属性元路径下用户间的路径实例数量。使用公式(2)和(4)可求得求这15条带属性元路径下的相关度矩阵。为了验证PW-PathSim的正确性,按照图7取得各带属性元路径的权重值,对这15个相关度矩阵加权求和得到最终的相关度矩阵。其中,按照评分矩阵的含义,u1和u2的相关度应略小于u1和u3的相关度,u2和u3的相关度应远大于u2和u1及uu33和u1的相关度。从结果可以看出,u1和u2的相关度为-0.2,u1和u3的相关度为-0.15,u2和u3的相关度为-0.05,结果满足评分矩阵的含义。
实际推荐过程中,求完相关度矩阵后,先不对各带属性元路径下实体间相关度矩阵加权求和,而将结果以带属性元路径为键值存储在列表L中,供后续使用。在推荐过程中,将用户和物品的相关度正则项与矩阵分解算法融合;下面以用户间相关度矩阵为例进行介绍,式(7)中用户间的相关度正则项UR由用户间的欧几里得距离和用户间相关度差值的乘积之和组成,用户u和x的相关度sux·(wu⊙wx)T式子中向量sux即L中所有带属性元路径的相关度矩阵中u,x位置对应的相关度数值,将相关度矩阵用于计算UR,作用于最终所得的隐语义矩阵P和Q。
图6计算过程只考虑HIN中只存在UMU一种元路径的情况,如果图7中的权重值是推荐过程中计算所得的,那么通过加权所得的相关度矩阵可得公式(7)中sux·(wu⊙wx)T和suy·(wu⊙wy)T,按照UR的定义取遍用户集合u1、u2、u3,根据z1的值更新UR。对IR同理。在给定轮数内,基于训练集,使用随机梯度算法对隐语义向量和权重向量进行迭代更新,过程中若z1≤0和z2≤0时,即UR项和IR项没有被激活,因此无需对wu和vi进行更新,这时无需计算目标函数对权重向量wu和vi的偏导数;当UR项和IR项被激活时,即z1>0和z2>0,对pu、qi、wu和vi进行更新。到达设定轮数后,输出隐语义矩阵P和Q。具体对于某一用户u,通过向量pu和矩阵Q中所有行向量qi求获得用户对所有电影的预测评分值;将具有较高预测评分值的电影推荐给该用户。
综上,本发明方法充分利用HIN的语义信息进行推荐,提高信息推荐准确度,满足用户对信息推荐的个性化需求,具有良好的拓展性,能够提高推荐准确度并在一定程度上解决冷启动问题,可应用到各种的信息推荐场景中。
上面结合附图对本发明的实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下做出各种变化。
Claims (6)
1.一种基于带属性元路径的个性化信息推荐方法,其特征在于,包括以下步骤:
将所有信息建模为一个异质信息网络,将网络中带属性的元路径按照属性值是否相同划分为完全对称和半对称的带属性元路径,并利用相关度计量方法求取各个带属性元路径下实体间的相关度矩阵,并对各带属性元路径下的相关度矩阵加权求和获得实体在整个网络中的相关度矩阵;
基于矩阵分解算法结合由所得相关度矩阵中实体间相关度和偏好向量构成的相关度正则项、相关度权重向量的正则项、用户和物品的隐语义矩阵,以构建目标函数并利用目标函数对隐语义矩阵P、Q及相关度的权重矩阵W、V进行迭代更新,并由迭代得到的隐语义矩阵计算获得用户对物品的预测评分;根据所得预测评分,将对应物品作为待推荐对象推荐给该用户。
2.根据权利要求1所述基于带属性元路径的个性化信息推荐方法,其特征在于:所述方法中利用相关度计量方法求取完全对称的带属性元路径下实体间的相关度,具体为:
获取一条完全对称的带属性元路径的交换矩阵其中是实体类型A1和A2间的邻接矩阵,中的每个元素代表着两个实体间的连接数量;
根据交换矩阵M的定义,通过拆分元路径的方式求得交换矩阵Mxy、Mxx、Myy,及计算完全对称的带属性元路径下实体间的相关度:
其中,实体x、y分别是实体类型A1和A2中的具体实体;sl,i(x,y)表示实体x和y在属性值为i的完全对称带属性元路径下的相关度,Pl,i代表属性值为i的带属性元路径;表示实体x和y在元路径Pl,i下的路径实例的数量,是在元路径Pl,i下从实体x出发到自身的路径实例数量,代表在元路径Pl,i下从实体y出发到自身的路径实例数量。
3.根据权利要求1所述基于带属性元路径的个性化信息推荐方法,其特征在于:所述方法中利用相关度计量方法求取半对称的带属性元路径下实体间的相关度,具体为:。
将一条半对称的带属性元路径拆分为两条带属性元路径P′和P″,分别求出两条带属性元路径的交换矩阵M′和M″,并获得该半对称的带属性元路径的交换矩阵M=M′M″;
根据交换矩阵M的定义,通过拆分元路径的方式求得交换矩阵Mxy、Mxx、Myy,及计算完全对称的带属性元路径下实体间的相关度:
其中,实体x、y分别是具体实体;sl,i,j(x,y)表示实体x和y在属性值分别为i和j的半对称带属性元路径下的相关度,Pl,i,j代表属性值分别为i和j的半对称带属性元路径;Pl,j,i与Pl,i,j互为对称关系,Pl,i和Pl,j分别代表属性值为i和j的带属性元路径;代表实体x和y在元路径Pl,i,j下的路径实例的数量,是实体x和y在元路径Pl,j,i下的路径实例的数量;代表在元路径Pl,i下从实体x出发到自身的路径实例数量,代表在元路径Pl,i下从实体y出发到自身的路径实例数量,代表在元路径Pl,j下从实体x出发到自身的路径实例数量,代表在元路径Pl,j下从实体y出发到自身的路径实例数量;代表在元路径Pl,i,j下从实体x出发到自身的路径实例数量,代表在元路径Pl,i,j下从实体y出发到自身的路径实例数量。
4.根据权利要求1所述基于带属性元路径的个性化信息推荐方法,其特征在于:所述方法中构建的目标函数为:
minJ(P,Q,W,V)=LF+λ1LR+2λ2UR+2λ3IR+λ4WR
其中,P和Q分别是用户和物品的隐语义矩阵;W代表所有用户的偏好向量组成的矩阵,V代表所有物品的偏好向量组成的矩阵;LF代表隐语义矩阵的分解项;LR则代表了隐语义矩阵的正则项,λ1是LR项的权重;UR和IR分别是用户间和物品间的相关度的正则项,λ2,λ3分别是UR和IR两项的权重;WR是相关度权重向量的正则项;λ4是WR项的权重。
5.根据权利要求4所述基于带属性元路径的个性化信息推荐方法,其特征在于:所述目标函数中,各项具体为:
LR=||P||2+||Q||2
WR=||W||2+||V||2
其中,U和I分别是用户和物品的集合,rui是用户u对物品i的评分值;pu是用户隐语义矩阵P的第u个行向量,即用户u的行向量,px以及py同理;qi是物品隐语义矩阵Q的第i个行向量,即物品i的行向量,qj以及qk同理;代表从隐语义矩阵P和Q中得到的用户u对物品i的预测评分;z1和z2均代表求和项中的内容;sux代表实体u和用户x的相关度向量,sux中的每一项代用户在某条带属性元路径p的相关度,sux的维数等于网络中所有元路径可拆分的带属性元路径的条数;suy、sij以及sik同理;wu⊙wx是用户在各条元路径下的相关度的权重值组成的权重向量,其维数与sux的维数相同,wu⊙wy、vi⊙vj、vi⊙vk同理。
6.根据权利要求5所述基于带属性元路径的个性化信息推荐方法,其特征在于:所述方法中采用随机梯度下降算法对其中隐语义矩阵及相关度权重向量进行迭代更新,具体为:
Step1:用高斯随机值初始化隐语义矩阵P、Q并初始化相关度权重矩阵W、V;
Step2:对于每一轮,遍历训练集Rtrain中所有已知的用户对商品的评分信息<u,i,rui>;
Step3:每次遍历某个用户对商品的评分信息<u,i,rui>时,从训练集Rtrain随机选择除用户u之外的两个用户x和y,除物品i之外的两个物品j和k;
Step4:当z1>0时UR被激活,计算目标函数关于pu和wu的偏导,并根据设置步长α沿着负梯度方向更新pu和wu;当z1≤0时UR项未被激活,计算目标函数关于pu的偏导,并更新pu;
Step5:对于物品间的正则项IR,在z2>0时,计算目标函数关于qi和vi的偏导,并根据设置步长α沿着负梯度方向更新qi和vi;否则,计算目标函数关于qi的偏导,并更新qi;
Step6:所有训练轮数结束后返回学习后得到的隐语义矩阵P和Q。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810947788.5A CN109271582B (zh) | 2018-08-20 | 2018-08-20 | 一种基于带属性元路径的个性化信息推荐方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810947788.5A CN109271582B (zh) | 2018-08-20 | 2018-08-20 | 一种基于带属性元路径的个性化信息推荐方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109271582A true CN109271582A (zh) | 2019-01-25 |
CN109271582B CN109271582B (zh) | 2022-08-30 |
Family
ID=65153886
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810947788.5A Active CN109271582B (zh) | 2018-08-20 | 2018-08-20 | 一种基于带属性元路径的个性化信息推荐方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109271582B (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109992784A (zh) * | 2019-04-08 | 2019-07-09 | 北京航空航天大学 | 一种融合多模态信息的异构网络构建和距离度量方法 |
CN110083766A (zh) * | 2019-04-26 | 2019-08-02 | 北京邮电大学 | 一种基于元路径引导嵌入的查询推荐方法及装置 |
CN110264091A (zh) * | 2019-06-24 | 2019-09-20 | 中国科学技术大学 | 学生认知诊断方法 |
CN110609889A (zh) * | 2019-08-30 | 2019-12-24 | 中国科学院计算技术研究所 | 基于学术网络确定对象重要性排名及选择评审专家的方法和系统 |
CN110647683A (zh) * | 2019-09-17 | 2020-01-03 | 北京邮电大学 | 一种信息推荐方法、装置 |
CN111191081A (zh) * | 2019-12-17 | 2020-05-22 | 安徽大学 | 一种基于异质信息网络的开发者推荐方法及装置 |
CN111709819A (zh) * | 2020-01-20 | 2020-09-25 | 山东佳联电子商务有限公司 | 一种点拍网基于图神经网络的产权交易推荐系统及推荐方法 |
CN112733039A (zh) * | 2021-01-27 | 2021-04-30 | 中国科学院地理科学与资源研究所 | 一种个性化推荐方法、系统及电子设备 |
CN112925913A (zh) * | 2021-03-09 | 2021-06-08 | 北京百度网讯科技有限公司 | 用于匹配数据的方法、装置、设备和计算机可读存储介质 |
CN113722608A (zh) * | 2021-07-21 | 2021-11-30 | 中国科学院信息工程研究所 | 迭代副信息指导下基于关联关系学习的协同过滤方法及装置 |
CN113987363A (zh) * | 2021-10-20 | 2022-01-28 | 南京航空航天大学 | 一种基于隐因子预测的冷启动推荐算法 |
CN114881689A (zh) * | 2022-04-26 | 2022-08-09 | 驰众信息技术(上海)有限公司 | 基于矩阵分解的楼宇推荐方法和系统 |
CN116503032A (zh) * | 2023-06-30 | 2023-07-28 | 中国人民解放军国防科技大学 | 一种多层级组织机构下人员典型成长路径抽取及推荐方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106354862A (zh) * | 2016-09-06 | 2017-01-25 | 山东大学 | 一种异构网络中多维个性化推荐方法 |
CN106802956A (zh) * | 2017-01-19 | 2017-06-06 | 山东大学 | 一种基于加权异构信息网络的电影推荐方法 |
-
2018
- 2018-08-20 CN CN201810947788.5A patent/CN109271582B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106354862A (zh) * | 2016-09-06 | 2017-01-25 | 山东大学 | 一种异构网络中多维个性化推荐方法 |
CN106802956A (zh) * | 2017-01-19 | 2017-06-06 | 山东大学 | 一种基于加权异构信息网络的电影推荐方法 |
Cited By (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109992784A (zh) * | 2019-04-08 | 2019-07-09 | 北京航空航天大学 | 一种融合多模态信息的异构网络构建和距离度量方法 |
CN110083766B (zh) * | 2019-04-26 | 2021-05-14 | 北京邮电大学 | 一种基于元路径引导嵌入的查询推荐方法及装置 |
CN110083766A (zh) * | 2019-04-26 | 2019-08-02 | 北京邮电大学 | 一种基于元路径引导嵌入的查询推荐方法及装置 |
CN110264091A (zh) * | 2019-06-24 | 2019-09-20 | 中国科学技术大学 | 学生认知诊断方法 |
CN110264091B (zh) * | 2019-06-24 | 2023-10-20 | 中国科学技术大学 | 学生认知诊断方法 |
CN110609889A (zh) * | 2019-08-30 | 2019-12-24 | 中国科学院计算技术研究所 | 基于学术网络确定对象重要性排名及选择评审专家的方法和系统 |
CN110647683A (zh) * | 2019-09-17 | 2020-01-03 | 北京邮电大学 | 一种信息推荐方法、装置 |
CN110647683B (zh) * | 2019-09-17 | 2022-04-19 | 北京邮电大学 | 一种信息推荐方法、装置 |
CN111191081A (zh) * | 2019-12-17 | 2020-05-22 | 安徽大学 | 一种基于异质信息网络的开发者推荐方法及装置 |
CN111191081B (zh) * | 2019-12-17 | 2022-02-22 | 安徽大学 | 一种基于异质信息网络的开发者推荐方法及装置 |
CN111709819A (zh) * | 2020-01-20 | 2020-09-25 | 山东佳联电子商务有限公司 | 一种点拍网基于图神经网络的产权交易推荐系统及推荐方法 |
CN111709819B (zh) * | 2020-01-20 | 2021-03-30 | 山东佳联电子商务有限公司 | 一种点拍网基于图神经网络的产权交易推荐系统及推荐方法 |
CN112733039A (zh) * | 2021-01-27 | 2021-04-30 | 中国科学院地理科学与资源研究所 | 一种个性化推荐方法、系统及电子设备 |
CN112925913A (zh) * | 2021-03-09 | 2021-06-08 | 北京百度网讯科技有限公司 | 用于匹配数据的方法、装置、设备和计算机可读存储介质 |
CN112925913B (zh) * | 2021-03-09 | 2023-08-29 | 北京百度网讯科技有限公司 | 用于匹配数据的方法、装置、设备和计算机可读存储介质 |
CN113722608A (zh) * | 2021-07-21 | 2021-11-30 | 中国科学院信息工程研究所 | 迭代副信息指导下基于关联关系学习的协同过滤方法及装置 |
CN113722608B (zh) * | 2021-07-21 | 2024-03-22 | 中国科学院信息工程研究所 | 迭代副信息指导下基于关联关系学习的协同过滤方法及装置 |
CN113987363A (zh) * | 2021-10-20 | 2022-01-28 | 南京航空航天大学 | 一种基于隐因子预测的冷启动推荐算法 |
CN114881689A (zh) * | 2022-04-26 | 2022-08-09 | 驰众信息技术(上海)有限公司 | 基于矩阵分解的楼宇推荐方法和系统 |
CN116503032A (zh) * | 2023-06-30 | 2023-07-28 | 中国人民解放军国防科技大学 | 一种多层级组织机构下人员典型成长路径抽取及推荐方法 |
CN116503032B (zh) * | 2023-06-30 | 2023-08-29 | 中国人民解放军国防科技大学 | 一种多层级组织机构下人员典型成长路径抽取及推荐方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109271582B (zh) | 2022-08-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109271582A (zh) | 一种基于带属性元路径的个性化信息推荐方法 | |
CN111428147B (zh) | 结合社交和兴趣信息的异源图卷积网络的社交推荐方法 | |
CN107729444B (zh) | 一种基于知识图谱的个性化旅游景点推荐方法 | |
CN105740401B (zh) | 一种基于个体行为和群体兴趣的兴趣地点推荐方法及装置 | |
Mustafa et al. | Collaborative filtering: Techniques and applications | |
CN112417298B (zh) | 一种基于少量重叠用户的跨域推荐方法及系统 | |
CN106802956A (zh) | 一种基于加权异构信息网络的电影推荐方法 | |
CN103353872B (zh) | 一种基于神经网络的教学资源个性化推荐方法 | |
CN107220365A (zh) | 基于协同过滤与关联规则并行处理的精准推荐系统及方法 | |
CN109933660B (zh) | 面向自然语言形式基于讲义和网站的api信息检索方法 | |
CN109871504B (zh) | 一种基于异构信息网络与深度学习的课程推荐系统 | |
CN105740327B (zh) | 一种基于用户偏好的自适应采样方法 | |
CN110489523A (zh) | 一种基于网购评价的细粒度情感分析方法 | |
CN105761154B (zh) | 一种社会化推荐方法及装置 | |
CN114358657B (zh) | 一种基于模型融合的岗位推荐方法及装置 | |
CN110334278A (zh) | 一种基于改进深度学习的web服务推荐方法 | |
CN108074203A (zh) | 一种教学调整方法和装置 | |
CN111723285A (zh) | 一种基于评分的深度谱卷积协同过滤推荐方法 | |
CN110119478A (zh) | 一种结合多种用户反馈数据的基于相似度的物品推荐方法 | |
CN115687760A (zh) | 一种基于图神经网络的用户学习兴趣标签预测方法 | |
CN112131261A (zh) | 基于社区网络的社区查询方法、装置和计算机设备 | |
CN107291894A (zh) | 一种融合相似性和共同评分项数量的概率矩阵分解模型 | |
CN106227767A (zh) | 一种基于领域相关性自适应的协同过滤方法 | |
CN110083766A (zh) | 一种基于元路径引导嵌入的查询推荐方法及装置 | |
CN112148994B (zh) | 信息推送效果评估方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |